JP6721981B2

JP6721981B2 - 音声再生装置、音声再生方法及びプログラム

Info

Publication number: JP6721981B2
Application number: JP2015246371A
Authority: JP
Inventors: 一川竹
Original assignee: Sourcenext Corp
Current assignee: Sourcenext Corp
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2020-07-15
Anticipated expiration: 2035-12-17
Also published as: JP2017111339A

Description

本開示は、音声再生装置、音声再生方法及びプログラムに関する。

留守番電話のメッセージである音声の認識結果を文字列として表示する技術が存在する（特許文献１〜３参照）。このような技術によると、留守番電話のメッセージを目視により確認することができる。

特開平５−３４７６５８号公報特開平１１−１５０６０３号公報特開２００３−２２４７００号公報

留守番電話のメッセージを目視により確認できたとしても、例えば日付や時間、場所などといった重要な部分については音声を再生させて音声認識に誤りがないかどうかが確認できることが望ましい。

また正確に音声認識ができておらず表示されている文字列からは意味する内容が不明である部分についても音声を再生させてその意味する内容を確認できることが望ましい。

例えば上述した場面などにおいては、音声の認識結果である文字列のうちの所望の部分に対応付けられる音声をピンポイントで確認できれば便利であるが、特許文献１〜３に記載の技術ではこのようなことはできなかった。

上記実情に鑑みて、本開示では、音声の認識結果である文字列のうちの所望の部分に対応付けられる音声をピンポイントで確認できる音声再生装置、音声再生方法及びプログラムを提案する。

上記課題を解決するために、本開示に係る音声再生装置は、音声の認識結果である文字列を表示させる表示制御部と、前記文字列に含まれる１又は複数の文字の指定に応じて、当該１又は複数の文字の前記文字列における位置に対応付けられる再生位置から前記音声を再生させる音声再生部と、を含む。

本開示の一態様では、前記音声再生部は、前記文字列をそれぞれ１又は複数の文字から構成される複数の部分文字列に分割した場合における先頭からｎ番目の部分文字列が指定される際には、前記音声の再生時間を前記部分文字列の数で複数の部分時間に分割した場合における先頭から前記ｎ番目の部分時間に属する再生位置、又は、当該再生位置の所定時間前に相当する再生位置から前記音声を再生させる。

この態様では、前記複数の部分時間のそれぞれは、前記音声の再生時間を等時間間隔で分割したものであってもよい。

また、前記ｎ番目の部分時間に属する再生位置は、前記ｎ番目の部分時間の先頭の再生位置であってもよい。

また、本開示の一態様では、前記表示制御部は、前記音声が再生されている部分に対応付けられる文字を強調表示させる。

また、本開示に係る音声再生方法は、音声の認識結果である文字列を表示させるステップと、前記文字列に含まれる１又は複数の文字の指定に応じて、当該１又は複数の文字の前記文字列における位置に対応付けられる再生位置から前記音声を再生させるステップと、を含む。

また、本開示に係るプログラムは、音声の認識結果である文字列を表示させる手順、前記文字列に含まれる１又は複数の文字の指定に応じて、当該１又は複数の文字の前記文字列における位置に対応付けられる再生位置から前記音声を再生させる手順、をコンピュータに実行させる。

本開示の一実施形態に係る留守番電話システムの全体構成の一例を示す図である。本開示の一実施形態に係る留守番電話プログラムを利用可能にするための手続の流れの一例を示す図である。転送電話を受け付けた留守番電話処理サーバにより実行される処理の流れの一例を示すフロー図である。メッセージ一覧画面の一例を示す図である。音声再生画面の一例を示す図である。音声再生画面の一例を示す図である。音声再生画面の一例を示す図である。音声再生画面の一例を示す図である。音声再生画面の一例を示す図である。本開示の一実施形態に係る携帯電話端末で実装される機能の一例を示す機能ブロック図である。本開示の一実施形態に係る携帯電話端末において行われる処理の流れの一例を示すフロー図である。

以下、本発明の一実施形態について、図面を参照しながら説明する。

図１は、本開示で提案する留守番電話システム１の全体構成の一例を示す図である。図１に示すように、本開示で提案する留守番電話システム１には、留守番電話処理サーバ１０、音声認識サーバ１２、及び、複数の携帯電話端末１４が含まれている。留守番電話処理サーバ１０及び携帯電話端末１４は電話通信網１６及びインターネット１８に接続されている。そのため留守番電話処理サーバ１０と携帯電話端末１４との間、携帯電話端末１４同士の間は互いに電話通信網１６やインターネット１８を介して通信可能となっている。また音声認識サーバ１２は、インターネット１８に接続されている。そのため音声認識サーバ１２は、留守番電話処理サーバ１０等とインターネット１８を介して互いに通信可能となっている。

留守番電話処理サーバ１０は、例えば留守番電話サービス等のサービスを提供するサーバコンピュータである。

音声認識サーバ１２は、例えば音声を受け付けて、当該音声に対しての音声認識結果である文字列等のテキストを生成するサービスを提供するサーバコンピュータである。音声認識サーバ１２は、本実施形態では例えば、留守番電話処理サーバ１０が録音した留守番電話のメッセージの音声を受け付ける。そして音声認識サーバ１２は、当該音声に対して音声認識処理を実行することで、当該音声の音声認識結果である文字列を含むテキストデータを生成する。そして音声認識サーバ１２は、生成されたテキストデータを留守番電話処理サーバ１０に送信する。

携帯電話端末１４は、例えばスマートフォンなどの端末である。図１に示すように、本実施形態に係る携帯電話端末１４には、例えば、制御部１４ａ、記憶部１４ｂ、通信部１４ｃ、タッチパネル１４ｄ、音声入出力部１４ｅ、が含まれる。

制御部１４ａは、例えば携帯電話端末１４にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。

記憶部１４ｂは、例えばＲＯＭやＲＡＭ等の記憶素子などである。記憶部１４ｂには、制御部１４ａによって実行されるプログラムなどが記憶される。

通信部１４ｃは、例えば電話通信網１６を介した音声通信やデータ通信を行うための携帯電話通信ユニットや、インターネット１８を介したデータ通信を行うための無線ＬＡＮモジュールなどの通信インタフェースである。

タッチパネル１４ｄは、例えばタッチセンサ、及び、液晶ディスプレイや有機ＥＬディスプレイ等のディスプレイを含んで構成されており、制御部１４ａが生成する映像などを表示させる。またユーザはタッチパネル１４ｄを操作することで、制御部１４ａに対する操作入力を行えるようになっている。制御部１４ａは、タッチパネル１４ｄに対する操作入力に応じて各種の処理を実行する。

音声入出力部１４ｅは、例えばヘッドホンやスピーカ等の音声出力デバイスを含んでおり、通信部１４ｃが受信する音声データが表す音声などを出力する。また音声入出力部１４ｅは、マイク等の音声入力デバイスを含んでおり、例えば受け付ける音声を、通信部１４ｃを介して他の携帯電話端末１４に送信する。

本実施形態に係る携帯電話端末１４は、本実施形態に係る留守番電話プログラムをインストールすることで、録音された留守番電話のメッセージである音声の認識結果を文字列としてタッチパネル１４ｄに表示させることができるようになっている。

ここで、本実施形態に係る留守番電話プログラムを利用可能にするための手続の流れの一例を、図２に示すフロー図を参照しながら説明する。

まず携帯電話端末１４のユーザは、携帯電話端末１４の販売店等において、本実施形態に係る留守番電話プログラムの入手先となるＵＲＬとシリアル番号を入手する（Ｓ１０１）。

そして、ユーザは携帯電話端末１４からＳ１０１に示す手続で入手したＵＲＬにアクセスして、本実施形態に係る留守番電話プログラムをダウンロードし、当該留守番電話プログラムを携帯電話端末１４にインストールする（Ｓ１０２）。

そしてユーザは、タッチパネル１４ｄを介して、Ｓ１０１に示す手続で入手したシリアル番号を入力する（Ｓ１０３）。すると、タッチパネル１４ｄに、無応答時転送の転送先として設定すべき電話番号が表示される（Ｓ１０４）。

そしてユーザが携帯電話端末１４を操作して、Ｓ１０４に示す手続で表示された電話番号を無応答時転送の転送先として設定すると（Ｓ１０５）、ユーザは、本実施形態に係る留守番電話プログラムを利用可能となる。

例えば、あるユーザが、本実施形態に係る留守番電話プログラムが利用可能なユーザの携帯電話端末１４の電話番号に宛てて電話をかけたとする。以下、電話をかけたユーザを発信ユーザ、発信ユーザが電話をかけた相手のユーザを着信ユーザと呼ぶこととする。

ここで着信ユーザの携帯電話端末１４が無応答である場合は、上記Ｓ１０５に示す手続で設定された電話番号に宛てた電話としてこの電話が留守番電話処理サーバ１０に転送される。なお本実施形態ではシリアル番号と転送先の電話番号とが１対１で対応付けられているので、留守番電話処理サーバ１０は、転送先として設定されている電話番号に基づいて、どの電話番号に宛てた電話が転送されたのかを特定できるようになっている。

以下、転送電話を受け付けた留守番電話処理サーバ１０により実行される処理の流れの一例を、図３に示すフロー図を参照しながら説明する。

留守番電話処理サーバ１０は、発信ユーザの携帯電話端末１４からの転送電話の着信を受け付けると（Ｓ２０１）、発信ユーザの携帯電話端末１４に自動応答メッセージを発信する（Ｓ２０２）。この自動応答メッセージは発信ユーザの携帯電話端末１４の音声入出力部１４ｅから音声出力される。

そして留守番電話処理サーバ１０は、Ｓ２０１に示す処理で受け付けた着信に基づいて、発信ユーザが利用している携帯電話端末１４の電話番号を特定する（Ｓ２０３）。

その後、発信ユーザが留守番電話のメッセージを携帯電話端末１４の音声入出力部１４ｅを介して音声入力すると、当該メッセージの音声は留守番電話処理サーバ１０に送信される。そして留守番電話処理サーバ１０は、当該留守番電話のメッセージの音声を録音する（Ｓ２０４）。

すると留守番電話処理サーバ１０は、Ｓ２０４に示す処理で録音された音声のデータを音声認識サーバ１２に送信する（Ｓ２０５）。音声認識サーバ１２は、当該音声のデータを受信すると、当該音声に対して音声認識処理を実行する。そして音声認識サーバ１２は、当該音声の音声認識の結果である文字列を含むテキストデータを留守番電話処理サーバ１０に送信する。そして留守番電話処理サーバ１０は当該テキストデータを受信する（Ｓ２０６）。

そして留守番電話処理サーバ１０は、Ｓ２０６に示す処理で受信したテキストデータやＳ２０４に示す処理で録音された音声のデータを含む留守番電話データを着信ユーザの携帯電話端末１４に送信する（Ｓ２０７）。なお本実施形態では当該留守番電話データには、上述のテキストデータや音声のデータの他に、例えば、着信／録音通知、発信ユーザの電話番号、当該音声の録音時刻、及び、当該音声の再生時間、のそれぞれを示すデータが含まれることとする。そして本処理例に示す処理は終了される。

なお例えば音声認識の結果、録音された音声が無音であることが判明した場合には、Ｓ２０７に示す処理で、留守番電話処理サーバ１０は、Ｓ２０４に示す処理で録音されたメッセージの音声のデータを送信しなくてもよい。このようにすれば、送信されるデータのデータ量を低減できることとなる。またこの場合に、録音された音声が無音であったことを示すメッセージを送信するようにしてもよい。そして携帯電話端末１４が当該メッセージを表示するようにしてもよい。

また留守番電話処理サーバ１０は、送信されるデータのデータ量を削減するために、無音の部分が除去（トリミング）された音声のデータを着信ユーザの携帯電話端末１４に送信するようにしてもよい。

Ｓ２０７に示す処理で送信された留守番電話データを受信した着信ユーザの携帯電話端末１４は、当該留守番電話データを記憶する。そして着信ユーザの携帯電話端末１４は、着信及び録音があったことを着信ユーザに通知する。

そして着信ユーザが本実施形態に係る留守番電話プログラムを起動する処理を実行すると、図４に例示するメッセージ一覧画面２０がタッチパネル１４ｄに表示される。

メッセージ一覧画面２０には、受信した留守番電話データに含まれるテキストデータを表すテキスト画像Ｉ１が、受信した時刻の順に時系列で並んで配置されている。またメッセージ一覧画面２０には、テキスト画像Ｉ１に対応付けて、発信ユーザ氏名画像Ｉ２、写真画像Ｉ３、再生アイコン画像Ｉ４、再生時間画像Ｉ５、及び、録音時刻画像Ｉ６が配置されている。

発信ユーザ氏名画像Ｉ２は例えば発信ユーザの氏名を表す画像である。写真画像Ｉ３は例えば発信ユーザの写真の画像である。本実施形態では例えば、着信ユーザの携帯電話端末１４にインストールされている連絡先情報アプリケーションにおいて、受信した留守番電話データに示されている発信ユーザの電話番号に関連付けられて管理されている氏名及び写真が特定される。そして本実施形態では、特定された氏名を表す画像が発信ユーザ氏名画像Ｉ２としてメッセージ一覧画面２０に配置され、特定された写真の画像が写真画像Ｉ３としてメッセージ一覧画面２０に配置される。

再生アイコン画像Ｉ４は、音声の再生を指示するためのアイコン画像である。また再生時間画像Ｉ５は、受信した留守番電話データに示されている再生時間を表す画像である。また録音時刻画像Ｉ６は、受信した留守番電話データに示されている録音時刻を表す画像である。

ここで着信ユーザが、例えば再生アイコン画像Ｉ４に対するタップ操作などといった、再生アイコン画像Ｉ４を選択する操作を行うと、図５Ａに例示する音声再生画面２２がタッチパネル１４ｄに表示される。

図５Ａに示す音声再生画面２２には、選択された再生アイコン画像Ｉ４に対応付けられるテキスト画像Ｉ１が配置されている。また本実施形態では、音声再生画面２２が表示されると、当該音声再生画面２２に配置されているテキスト画像Ｉ１に対応付けられる留守番電話のメッセージの音声の再生が開始されるようになっている。

また音声再生画面２２には、当該音声の再生時間を表す再生時間画像Ｉ５及び再生位置を表す再生位置画像Ｉ７が配置されている。また音声再生画面２２には、シークバー画像Ｉ８及び各種の操作画像Ｉ９が配置されている。着信ユーザはシークバー画像Ｉ８を操作することで、音声の再生位置を変えることができるようになっている。また着信ユーザは操作画像Ｉ９を操作することで音声の早送り、巻き戻し、停止、再生、２倍速等の操作を行うことができるようになっている。

また本実施形態では、メッセージの音声の再生中には、テキスト画像Ｉ１が表す文字列のうち、再生位置に対応付けられる文字が強調表示される。図５Ａでは、強調表示されている文字が、カーソルＣで囲まれる文字として表現されている。

なお再生中の音節や音素に対応付けられる文字が強調表示される必要はない。例えば単純に、テキスト画像Ｉ１が表す文字列に含まれる文字の数で再生時間を割った時間毎に強調表示される文字が変わるようにしてもよい。具体的には例えば、再生時間をＴ１秒、テキスト画像Ｉ１が表す文字列に含まれる文字の数をＮ１とした際に、先頭からｎ１番目の文字は、（（ｎ１−１）×Ｔ１／Ｎ１）秒から（ｎ１×Ｔ１／Ｎ１）秒までの再生位置である場合に強調表示されるようにしてもよい。

ここで図５Ｂに示すように、例えば発信ユーザが虎ノ門支社へ訪問する時刻を表す文字（例えば先頭から６０番目の文字である「８」）を指定する操作を着信ユーザが行ったとする。すると図５Ｃに示すように、テキスト画像Ｉ１が表す文字列における指定された文字の位置に応じたものに再生位置が変更される。そして変更後の再生位置からメッセージの音声が再生される。

例えば、再生時間をＴ１秒、テキスト画像Ｉ１が表す文字列に含まれる文字の数をＮ１とした際に、先頭からｎ１番目の文字が指定されたとする。この場合は本実施形態では例えば、（（（ｎ１−１）×Ｔ１／Ｎ１）−Δ）秒の再生位置からメッセージの音声が再生される。なおΔは所定のオフセット値であり、ここでは例えば２秒であるとする。図５Ｃの例では、Ｎ１＝１３２、Ｔ１＝２４秒、ｎ１＝６０であるので、（（（６０−１）×２４／１３２）−２）＝８．７２秒の再生位置から音声が再生されることとなる。このように本実施形態では、指定された文字に対応付けられる再生位置の所定時間前からメッセージの音声が再生されることとなる。

なお上記Δの値は０であっても構わない。この場合は、指定された文字に対応付けられる再生位置からメッセージの音声が再生されることとなる。例えばＮ１＝１３２、Ｔ１＝２４秒、ｎ１＝６０である場合は、（（６０−１）×２４／１３２）＝１０．７２秒の再生位置から再生されることとなる。また文字の指定に応じてメッセージの音声が再生される再生位置から所定時間の部分（例えば５秒）が繰り返し再生されるようにしてもよい。

図６Ａは、テキスト画像Ｉ１の別の一例が配置された音声再生画面２２の一例を示す図である。音声認識の精度が悪い場合には、図６Ａに示すように、テキスト画像Ｉ１が表す文字列からは意味する内容が不明である部分が存在することがある。ここで意味する内容が不明である部分（図６Ａにおいては例えば先頭から５９番目の文字である「社」）を指定する操作を着信ユーザが行ったとする。するとこの場合についても図６Ｂに示すように、テキスト画像Ｉ１が表す文字列における指定された文字の位置に応じたものに再生位置が変更されて、変更後の再生位置からメッセージの音声が再生される。図６Ｂの例では、Ｎ１＝１１７、Ｔ１＝２４秒、ｎ１＝５９であるので、（（（５９−１）×２４／１１７）−２）＝９．８９秒の再生位置から音声が再生されることとなる。なおテキスト画像Ｉ１が表す文字列のうちの、音声認識の精度が悪い部分について、強調表示されるようにしてもよい。例えば音声認識の精度が悪い部分については他の文字とは異なる色で表示されるようにしてもよい。

本実施形態によれば、着信ユーザはテキスト画像Ｉ１を目視することで、発信ユーザによって録音された留守番電話のメッセージの内容を知ることができる。その上本実施形態では、テキスト画像Ｉ１が表す文字列に含まれる文字を指定することで、当該文字に対応付けられる再生位置から音声が再生されるようになっている。

例えば再生時間をＴ１秒、テキスト画像Ｉ１が表す文字列に含まれる文字の数をＮ１とした際に、先頭からｎ１番目の文字が指定されたとすると、当該文字を表す音節又は音素は、（（ｎ１−１）×Ｔ１／Ｎ１）秒の再生位置で再生される可能性が高い。このことを踏まえ本実施形態では、先頭からｎ番目の文字が指定された場合に、余裕を持って当該音節又は音素を聞き取ることができる（（（ｎ１−１）×Ｔ１／Ｎ１）−Δ）秒の再生位置から音声が再生されるようになっている。なお上述したように、当該文字を表す音節又は音素が再生される可能性の高い（（ｎ１−１）×Ｔ１／Ｎ１）秒の再生位置から音声が再生されても構わない。このようにして本実施形態では、日付や時間、場所などといった重要な部分や、意味する内容が不明である部分などといった、表示されているテキスト画像Ｉ１が表す文字列のうちのユーザが確認したい部分の音声をピンポイントで確認できることとなる。

また本実施形態では、上述したような単純な方法で再生位置の特定が可能であるため、メッセージの音声を構成する音節や音素の再生位置と当該音節や音素が表す文字とを対応付けて管理する必要がない。そのためメッセージの音声を構成する音節や音素の再生位置と当該音節や音素が表す文字との対応関係を示すデータが留守番電話処理サーバ１０から携帯電話端末１４に送信される必要がない。そのため当該データに相当する通信量だけ節約されることとなる。

以下、文字の指定に応じたピンポイントでの音声の再生を中心に、本実施形態に係る携帯電話端末１４の機能並びに本実施形態に係る携帯電話端末１４で実行される処理についてさらに説明する。なお本実施形態に係る携帯電話端末１４は、指定された文字に対応付けられる音声を再生する音声再生装置としての役割を担うこととなる。

図７は、本実施形態に係る携帯電話端末１４で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る携帯電話端末１４で、図７に示す機能のすべてが実装される必要はなく、また、図７に示す機能以外の機能が実装されていても構わない。

図７に示すように、本実施形態に係る携帯電話端末１４は、機能的には例えば、留守番電話データ受信部３０、留守番電話データ記憶部３２、表示制御部３４、指定受付部３６、再生位置決定部３８、音声再生部４０、を含んでいる。留守番電話データ受信部３０は、通信部１４ｃを主として実装される。留守番電話データ記憶部３２は、記憶部１４ｂを主として実装される。表示制御部３４、指定受付部３６は、制御部１４ａ及びタッチパネル１４ｄを主として実装される。再生位置決定部３８は、制御部１４ａを主として実装される。音声再生部４０は、制御部１４ａ及び音声入出力部１４ｅを主として実装される。

以上の機能は、コンピュータである携帯電話端末１４にインストールされた、以上の機能に対応する指令を含むプログラム（上述の本実施形態に係る留守番電話プログラム）を制御部１４ａで実行することにより実装される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して携帯電話端末１４に供給される。

留守番電話データ受信部３０は、本実施形態では例えば、図３に示すＳ２０７に示す処理で留守番電話処理サーバ１０が送信する留守番電話データを受信する。

留守番電話データ記憶部３２は、本実施形態では例えば、留守番電話データ受信部３０が受信した留守番電話データを記憶する。

表示制御部３４は、本実施形態では例えば、音声の認識結果である文字列が配置された、図４に示すメッセージ一覧画面２０や図５Ａ〜図５Ｃ、図６Ａ、及び、図６Ｂに示す音声再生画面２２をタッチパネル１４ｄに表示させる。また上述したように、表示制御部３４が、音声が再生されている部分に対応付けられる文字を強調表示させてもよい。

指定受付部３６は、本実施形態では例えば、音声の認識結果である文字列に含まれる１又は複数の文字の指定を受け付ける。指定受付部３６は、本実施形態では例えば、タッチパネル１４ｄに対するタップ操作が行われた際には、タップされた位置に配置されている文字又はタップされた位置からの距離が最も短い位置に配置されている文字を、指定された文字として受け付ける。

なお指定受付部３６が、テキスト画像Ｉ１が表すテキスト画像Ｉ１が表す文字列を分割した複数の部分文字列のうちのいずれかの指定を受け付けてもよい。ここで部分文字列とは、テキスト画像Ｉ１が表す文字列を、例えば、文単位、語単位、行単位、所定数の文字単位、などといった所定の単位で分割したものを指すこととする。本実施形態では部分文字列のそれぞれは１又は複数の文字から構成されていることとする。例えばテキスト画像Ｉ１が表す文字列が１文字単位で複数の部分文字列に分割された場合は、複数の部分文字列のそれぞれには１の文字が含まれることとなる。なお複数の部分文字列のそれぞれに含まれる文字の数は同じであっても異なっていてもよい。

再生位置決定部３８は、本実施形態では例えば、音声の認識結果である文字列に含まれる１又は複数の文字の指定に応じて、当該１又は複数の文字の当該文字列における位置に対応付けられる再生位置を、音声を再生させる再生位置として決定する。

ここで例えば、指定受付部３６が先頭からｎ番目の部分文字列の指定を受け付けたとする。この場合、再生位置決定部３８は、再生時間を部分文字列の数で複数の部分時間に分割した場合における先頭からｎ番目の部分時間に属する再生位置を、音声を再生させる再生位置として決定してもよい。あるいはこの場合に、再生位置決定部３８が、先頭からｎ番目の部分時間に属する再生位置の所定時間前（例えば２秒前）に相当する再生位置を、音声を再生させる再生位置として決定してもよい。なおここで先頭からｎ番目の部分時間に属する再生位置は、例えば先頭からｎ番目の部分時間の先頭の再生位置であってもよい。また上記複数の部分時間のそれぞれは、再生時間を等時間間隔で分割したものであってもよい。

例えば再生時間をＴ２秒、部分文字列の数をＮ２とした際に、先頭からｎ２番目の部分文字列が指定されたとする。この場合には例えば（（（ｎ２−１）×Ｔ２／Ｎ２）−Δ）秒の再生位置が、音声を再生させる再生位置として決定されてもよい。例えば図６Ａに示すようにテキスト画像Ｉ１が表す文字列が８行であり、部分文字列は、当該文字列を行単位で分割したものとする。この場合はＴ２＝２４秒、Ｎ２＝８となる。ここで例えば３行目の部分文字列が指定された場合に、（（（３−１）×２４／８）−２）＝４秒の再生位置が、音声を再生させる生成位置として決定されてもよい。

音声再生部４０は、本実施形態では例えば、音声の認識結果である文字列に含まれる１又は複数の文字の指定に応じて、当該１又は複数の文字の当該文字列における位置に対応付けられる再生位置から当該音声を再生させる。音声再生部４０は、本実施形態では例えば、再生位置決定部３８が音声を再生させる再生位置として決定する再生位置から音声を再生させる。また音声再生部４０は、文字の指定に応じてメッセージの音声が再生される再生位置から所定時間の部分（例えば５秒）を繰り返し再生するようにしてもよい。また、音声再生部４０は、始点と終点の文字の指定に応じて始点に対応付けられる再生位置から終点に対応付けられる再生位置までを繰り返し再生するようにしてもよい。

また本実施形態では、再生位置決定部３８が音声を再生させる再生位置として決定する再生位置に応じて、表示制御部３４は、音声再生画面２２の表示内容を更新する。

以下、指定受付部３６が部分文字列の指定を受け付けた際に本実施形態に係る携帯電話端末１４において行われる処理の流れの一例を、図８に示すフロー図を参照しながら説明する。

指定受付部３６が部分文字列の指定を受け付けると、まず、再生位置決定部３８が、当該部分文字列を特定する（Ｓ３０１）。そして再生位置決定部３８が、Ｓ３０１に示す処理で特定された部分文字列に基づいて、上述のようにして音声を再生させる再生位置を決定する（Ｓ３０２）。そして表示制御部３４が、Ｓ３０２に示す処理で決定された再生位置に基づいて表示内容を更新し、音声再生部４０が、Ｓ３０２に示す処理で決定された再生位置から音声を再生して（Ｓ３０３）、本処理例に示す処理は終了される。

なお、本発明は上述の実施形態に限定されるものではない。

例えば、留守番電話データに、メッセージの音声を構成する音節や音素の再生位置と当該音節や音素が表す文字との対応関係を示すデータが含まれていてもよい。そして再生位置決定部３８が、指定された部分文字列に対応付けられる音節や音素の再生位置、又は、当該再生位置の所定時間前から音声を再生させてもよい。

また例えば本発明の適用範囲は携帯電話端末１４に限定されない。本発明を例えばパーソナルコンピュータ等のコンピュータ一般に適用してもよい。

また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

１留守番電話システム、１０留守番電話処理サーバ、１２音声認識サーバ、１４携帯電話端末、１４ａ制御部、１４ｂ記憶部、１４ｃ通信部、１４ｄタッチパネル、１４ｅ音声入出力部、１６電話通信網、１８インターネット、２０メッセージ一覧画面、２２音声再生画面、３０留守番電話データ受信部、３２留守番電話データ記憶部、３４表示制御部、３６指定受付部、３８再生位置決定部、４０音声再生部。

Claims

音声の認識結果である文字列を表示させる表示制御部と、
前記文字列に含まれる文字の指定に応じて、前記文字列の先頭から指定される文字までの文字数又は行数に基づいて、再生位置を特定する再生位置特定部と、
特定される前記再生位置から前記音声を再生させる音声再生部と、
を含むことを特徴とする音声再生装置。
前記再生位置特定部は、前記文字列の先頭から指定される文字までの文字数と当該文字列の全文字数、又は、前記文字列の先頭から指定される文字までの行数と当該文字列の全行数に基づいて、前記再生位置を特定する、
ことを特徴とする請求項１に記載の音声再生装置。
前記表示制御部は、前記音声が再生されている部分に対応付けられる文字を強調表示させる、
ことを特徴とする請求項１又は２に記載の音声再生装置。
音声の認識結果である文字列を表示させるステップと、
前記文字列に含まれる文字の指定に応じて、前記文字列の先頭から指定される文字までの文字数又は行数に基づいて、再生位置を特定するステップと、
特定される前記再生位置から前記音声を再生させるステップと、
を含むことを特徴とする音声再生方法。
音声の認識結果である文字列を表示させる手順、
前記文字列に含まれる文字の指定に応じて、前記文字列の先頭から指定される文字までの文字数又は行数に基づいて、再生位置を特定する手順、
特定される前記再生位置から前記音声を再生させる手順、
をコンピュータに実行させることを特徴とするプログラム。