JP6721981B2 - 音声再生装置、音声再生方法及びプログラム - Google Patents

音声再生装置、音声再生方法及びプログラム Download PDF

Info

Publication number
JP6721981B2
JP6721981B2 JP2015246371A JP2015246371A JP6721981B2 JP 6721981 B2 JP6721981 B2 JP 6721981B2 JP 2015246371 A JP2015246371 A JP 2015246371A JP 2015246371 A JP2015246371 A JP 2015246371A JP 6721981 B2 JP6721981 B2 JP 6721981B2
Authority
JP
Japan
Prior art keywords
voice
character
character string
reproduction
answering machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015246371A
Other languages
English (en)
Other versions
JP2017111339A (ja
Inventor
一 川竹
一 川竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sourcenext Corp
Original Assignee
Sourcenext Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sourcenext Corp filed Critical Sourcenext Corp
Priority to JP2015246371A priority Critical patent/JP6721981B2/ja
Publication of JP2017111339A publication Critical patent/JP2017111339A/ja
Application granted granted Critical
Publication of JP6721981B2 publication Critical patent/JP6721981B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本開示は、音声再生装置、音声再生方法及びプログラムに関する。
留守番電話のメッセージである音声の認識結果を文字列として表示する技術が存在する(特許文献1〜3参照)。このような技術によると、留守番電話のメッセージを目視により確認することができる。
特開平5−347658号公報 特開平11−150603号公報 特開2003−224700号公報
留守番電話のメッセージを目視により確認できたとしても、例えば日付や時間、場所などといった重要な部分については音声を再生させて音声認識に誤りがないかどうかが確認できることが望ましい。
また正確に音声認識ができておらず表示されている文字列からは意味する内容が不明である部分についても音声を再生させてその意味する内容を確認できることが望ましい。
例えば上述した場面などにおいては、音声の認識結果である文字列のうちの所望の部分に対応付けられる音声をピンポイントで確認できれば便利であるが、特許文献1〜3に記載の技術ではこのようなことはできなかった。
上記実情に鑑みて、本開示では、音声の認識結果である文字列のうちの所望の部分に対応付けられる音声をピンポイントで確認できる音声再生装置、音声再生方法及びプログラムを提案する。
上記課題を解決するために、本開示に係る音声再生装置は、音声の認識結果である文字列を表示させる表示制御部と、前記文字列に含まれる1又は複数の文字の指定に応じて、当該1又は複数の文字の前記文字列における位置に対応付けられる再生位置から前記音声を再生させる音声再生部と、を含む。
本開示の一態様では、前記音声再生部は、前記文字列をそれぞれ1又は複数の文字から構成される複数の部分文字列に分割した場合における先頭からn番目の部分文字列が指定される際には、前記音声の再生時間を前記部分文字列の数で複数の部分時間に分割した場合における先頭から前記n番目の部分時間に属する再生位置、又は、当該再生位置の所定時間前に相当する再生位置から前記音声を再生させる。
この態様では、前記複数の部分時間のそれぞれは、前記音声の再生時間を等時間間隔で分割したものであってもよい。
また、前記n番目の部分時間に属する再生位置は、前記n番目の部分時間の先頭の再生位置であってもよい。
また、本開示の一態様では、前記表示制御部は、前記音声が再生されている部分に対応付けられる文字を強調表示させる。
また、本開示に係る音声再生方法は、音声の認識結果である文字列を表示させるステップと、前記文字列に含まれる1又は複数の文字の指定に応じて、当該1又は複数の文字の前記文字列における位置に対応付けられる再生位置から前記音声を再生させるステップと、を含む。
また、本開示に係るプログラムは、音声の認識結果である文字列を表示させる手順、前記文字列に含まれる1又は複数の文字の指定に応じて、当該1又は複数の文字の前記文字列における位置に対応付けられる再生位置から前記音声を再生させる手順、をコンピュータに実行させる。
本開示の一実施形態に係る留守番電話システムの全体構成の一例を示す図である。 本開示の一実施形態に係る留守番電話プログラムを利用可能にするための手続の流れの一例を示す図である。 転送電話を受け付けた留守番電話処理サーバにより実行される処理の流れの一例を示すフロー図である。 メッセージ一覧画面の一例を示す図である。 音声再生画面の一例を示す図である。 音声再生画面の一例を示す図である。 音声再生画面の一例を示す図である。 音声再生画面の一例を示す図である。 音声再生画面の一例を示す図である。 本開示の一実施形態に係る携帯電話端末で実装される機能の一例を示す機能ブロック図である。 本開示の一実施形態に係る携帯電話端末において行われる処理の流れの一例を示すフロー図である。
以下、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本開示で提案する留守番電話システム1の全体構成の一例を示す図である。図1に示すように、本開示で提案する留守番電話システム1には、留守番電話処理サーバ10、音声認識サーバ12、及び、複数の携帯電話端末14が含まれている。留守番電話処理サーバ10及び携帯電話端末14は電話通信網16及びインターネット18に接続されている。そのため留守番電話処理サーバ10と携帯電話端末14との間、携帯電話端末14同士の間は互いに電話通信網16やインターネット18を介して通信可能となっている。また音声認識サーバ12は、インターネット18に接続されている。そのため音声認識サーバ12は、留守番電話処理サーバ10等とインターネット18を介して互いに通信可能となっている。
留守番電話処理サーバ10は、例えば留守番電話サービス等のサービスを提供するサーバコンピュータである。
音声認識サーバ12は、例えば音声を受け付けて、当該音声に対しての音声認識結果である文字列等のテキストを生成するサービスを提供するサーバコンピュータである。音声認識サーバ12は、本実施形態では例えば、留守番電話処理サーバ10が録音した留守番電話のメッセージの音声を受け付ける。そして音声認識サーバ12は、当該音声に対して音声認識処理を実行することで、当該音声の音声認識結果である文字列を含むテキストデータを生成する。そして音声認識サーバ12は、生成されたテキストデータを留守番電話処理サーバ10に送信する。
携帯電話端末14は、例えばスマートフォンなどの端末である。図1に示すように、本実施形態に係る携帯電話端末14には、例えば、制御部14a、記憶部14b、通信部14c、タッチパネル14d、音声入出力部14e、が含まれる。
制御部14aは、例えば携帯電話端末14にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。
記憶部14bは、例えばROMやRAM等の記憶素子などである。記憶部14bには、制御部14aによって実行されるプログラムなどが記憶される。
通信部14cは、例えば電話通信網16を介した音声通信やデータ通信を行うための携帯電話通信ユニットや、インターネット18を介したデータ通信を行うための無線LANモジュールなどの通信インタフェースである。
タッチパネル14dは、例えばタッチセンサ、及び、液晶ディスプレイや有機ELディスプレイ等のディスプレイを含んで構成されており、制御部14aが生成する映像などを表示させる。またユーザはタッチパネル14dを操作することで、制御部14aに対する操作入力を行えるようになっている。制御部14aは、タッチパネル14dに対する操作入力に応じて各種の処理を実行する。
音声入出力部14eは、例えばヘッドホンやスピーカ等の音声出力デバイスを含んでおり、通信部14cが受信する音声データが表す音声などを出力する。また音声入出力部14eは、マイク等の音声入力デバイスを含んでおり、例えば受け付ける音声を、通信部14cを介して他の携帯電話端末14に送信する。
本実施形態に係る携帯電話端末14は、本実施形態に係る留守番電話プログラムをインストールすることで、録音された留守番電話のメッセージである音声の認識結果を文字列としてタッチパネル14dに表示させることができるようになっている。
ここで、本実施形態に係る留守番電話プログラムを利用可能にするための手続の流れの一例を、図2に示すフロー図を参照しながら説明する。
まず携帯電話端末14のユーザは、携帯電話端末14の販売店等において、本実施形態に係る留守番電話プログラムの入手先となるURLとシリアル番号を入手する(S101)。
そして、ユーザは携帯電話端末14からS101に示す手続で入手したURLにアクセスして、本実施形態に係る留守番電話プログラムをダウンロードし、当該留守番電話プログラムを携帯電話端末14にインストールする(S102)。
そしてユーザは、タッチパネル14dを介して、S101に示す手続で入手したシリアル番号を入力する(S103)。すると、タッチパネル14dに、無応答時転送の転送先として設定すべき電話番号が表示される(S104)。
そしてユーザが携帯電話端末14を操作して、S104に示す手続で表示された電話番号を無応答時転送の転送先として設定すると(S105)、ユーザは、本実施形態に係る留守番電話プログラムを利用可能となる。
例えば、あるユーザが、本実施形態に係る留守番電話プログラムが利用可能なユーザの携帯電話端末14の電話番号に宛てて電話をかけたとする。以下、電話をかけたユーザを発信ユーザ、発信ユーザが電話をかけた相手のユーザを着信ユーザと呼ぶこととする。
ここで着信ユーザの携帯電話端末14が無応答である場合は、上記S105に示す手続で設定された電話番号に宛てた電話としてこの電話が留守番電話処理サーバ10に転送される。なお本実施形態ではシリアル番号と転送先の電話番号とが1対1で対応付けられているので、留守番電話処理サーバ10は、転送先として設定されている電話番号に基づいて、どの電話番号に宛てた電話が転送されたのかを特定できるようになっている。
以下、転送電話を受け付けた留守番電話処理サーバ10により実行される処理の流れの一例を、図3に示すフロー図を参照しながら説明する。
留守番電話処理サーバ10は、発信ユーザの携帯電話端末14からの転送電話の着信を受け付けると(S201)、発信ユーザの携帯電話端末14に自動応答メッセージを発信する(S202)。この自動応答メッセージは発信ユーザの携帯電話端末14の音声入出力部14eから音声出力される。
そして留守番電話処理サーバ10は、S201に示す処理で受け付けた着信に基づいて、発信ユーザが利用している携帯電話端末14の電話番号を特定する(S203)。
その後、発信ユーザが留守番電話のメッセージを携帯電話端末14の音声入出力部14eを介して音声入力すると、当該メッセージの音声は留守番電話処理サーバ10に送信される。そして留守番電話処理サーバ10は、当該留守番電話のメッセージの音声を録音する(S204)。
すると留守番電話処理サーバ10は、S204に示す処理で録音された音声のデータを音声認識サーバ12に送信する(S205)。音声認識サーバ12は、当該音声のデータを受信すると、当該音声に対して音声認識処理を実行する。そして音声認識サーバ12は、当該音声の音声認識の結果である文字列を含むテキストデータを留守番電話処理サーバ10に送信する。そして留守番電話処理サーバ10は当該テキストデータを受信する(S206)。
そして留守番電話処理サーバ10は、S206に示す処理で受信したテキストデータやS204に示す処理で録音された音声のデータを含む留守番電話データを着信ユーザの携帯電話端末14に送信する(S207)。なお本実施形態では当該留守番電話データには、上述のテキストデータや音声のデータの他に、例えば、着信/録音通知、発信ユーザの電話番号、当該音声の録音時刻、及び、当該音声の再生時間、のそれぞれを示すデータが含まれることとする。そして本処理例に示す処理は終了される。
なお例えば音声認識の結果、録音された音声が無音であることが判明した場合には、S207に示す処理で、留守番電話処理サーバ10は、S204に示す処理で録音されたメッセージの音声のデータを送信しなくてもよい。このようにすれば、送信されるデータのデータ量を低減できることとなる。またこの場合に、録音された音声が無音であったことを示すメッセージを送信するようにしてもよい。そして携帯電話端末14が当該メッセージを表示するようにしてもよい。
また留守番電話処理サーバ10は、送信されるデータのデータ量を削減するために、無音の部分が除去(トリミング)された音声のデータを着信ユーザの携帯電話端末14に送信するようにしてもよい。
S207に示す処理で送信された留守番電話データを受信した着信ユーザの携帯電話端末14は、当該留守番電話データを記憶する。そして着信ユーザの携帯電話端末14は、着信及び録音があったことを着信ユーザに通知する。
そして着信ユーザが本実施形態に係る留守番電話プログラムを起動する処理を実行すると、図4に例示するメッセージ一覧画面20がタッチパネル14dに表示される。
メッセージ一覧画面20には、受信した留守番電話データに含まれるテキストデータを表すテキスト画像I1が、受信した時刻の順に時系列で並んで配置されている。またメッセージ一覧画面20には、テキスト画像I1に対応付けて、発信ユーザ氏名画像I2、写真画像I3、再生アイコン画像I4、再生時間画像I5、及び、録音時刻画像I6が配置されている。
発信ユーザ氏名画像I2は例えば発信ユーザの氏名を表す画像である。写真画像I3は例えば発信ユーザの写真の画像である。本実施形態では例えば、着信ユーザの携帯電話端末14にインストールされている連絡先情報アプリケーションにおいて、受信した留守番電話データに示されている発信ユーザの電話番号に関連付けられて管理されている氏名及び写真が特定される。そして本実施形態では、特定された氏名を表す画像が発信ユーザ氏名画像I2としてメッセージ一覧画面20に配置され、特定された写真の画像が写真画像I3としてメッセージ一覧画面20に配置される。
再生アイコン画像I4は、音声の再生を指示するためのアイコン画像である。また再生時間画像I5は、受信した留守番電話データに示されている再生時間を表す画像である。また録音時刻画像I6は、受信した留守番電話データに示されている録音時刻を表す画像である。
ここで着信ユーザが、例えば再生アイコン画像I4に対するタップ操作などといった、再生アイコン画像I4を選択する操作を行うと、図5Aに例示する音声再生画面22がタッチパネル14dに表示される。
図5Aに示す音声再生画面22には、選択された再生アイコン画像I4に対応付けられるテキスト画像I1が配置されている。また本実施形態では、音声再生画面22が表示されると、当該音声再生画面22に配置されているテキスト画像I1に対応付けられる留守番電話のメッセージの音声の再生が開始されるようになっている。
また音声再生画面22には、当該音声の再生時間を表す再生時間画像I5及び再生位置を表す再生位置画像I7が配置されている。また音声再生画面22には、シークバー画像I8及び各種の操作画像I9が配置されている。着信ユーザはシークバー画像I8を操作することで、音声の再生位置を変えることができるようになっている。また着信ユーザは操作画像I9を操作することで音声の早送り、巻き戻し、停止、再生、2倍速等の操作を行うことができるようになっている。
また本実施形態では、メッセージの音声の再生中には、テキスト画像I1が表す文字列のうち、再生位置に対応付けられる文字が強調表示される。図5Aでは、強調表示されている文字が、カーソルCで囲まれる文字として表現されている。
なお再生中の音節や音素に対応付けられる文字が強調表示される必要はない。例えば単純に、テキスト画像I1が表す文字列に含まれる文字の数で再生時間を割った時間毎に強調表示される文字が変わるようにしてもよい。具体的には例えば、再生時間をT1秒、テキスト画像I1が表す文字列に含まれる文字の数をN1とした際に、先頭からn1番目の文字は、((n1−1)×T1/N1)秒から(n1×T1/N1)秒までの再生位置である場合に強調表示されるようにしてもよい。
ここで図5Bに示すように、例えば発信ユーザが虎ノ門支社へ訪問する時刻を表す文字(例えば先頭から60番目の文字である「8」)を指定する操作を着信ユーザが行ったとする。すると図5Cに示すように、テキスト画像I1が表す文字列における指定された文字の位置に応じたものに再生位置が変更される。そして変更後の再生位置からメッセージの音声が再生される。
例えば、再生時間をT1秒、テキスト画像I1が表す文字列に含まれる文字の数をN1とした際に、先頭からn1番目の文字が指定されたとする。この場合は本実施形態では例えば、(((n1−1)×T1/N1)−Δ)秒の再生位置からメッセージの音声が再生される。なおΔは所定のオフセット値であり、ここでは例えば2秒であるとする。図5Cの例では、N1=132、T1=24秒、n1=60であるので、(((60−1)×24/132)−2)=8.72秒の再生位置から音声が再生されることとなる。このように本実施形態では、指定された文字に対応付けられる再生位置の所定時間前からメッセージの音声が再生されることとなる。
なお上記Δの値は0であっても構わない。この場合は、指定された文字に対応付けられる再生位置からメッセージの音声が再生されることとなる。例えばN1=132、T1=24秒、n1=60である場合は、((60−1)×24/132)=10.72秒の再生位置から再生されることとなる。また文字の指定に応じてメッセージの音声が再生される再生位置から所定時間の部分(例えば5秒)が繰り返し再生されるようにしてもよい。
図6Aは、テキスト画像I1の別の一例が配置された音声再生画面22の一例を示す図である。音声認識の精度が悪い場合には、図6Aに示すように、テキスト画像I1が表す文字列からは意味する内容が不明である部分が存在することがある。ここで意味する内容が不明である部分(図6Aにおいては例えば先頭から59番目の文字である「社」)を指定する操作を着信ユーザが行ったとする。するとこの場合についても図6Bに示すように、テキスト画像I1が表す文字列における指定された文字の位置に応じたものに再生位置が変更されて、変更後の再生位置からメッセージの音声が再生される。図6Bの例では、N1=117、T1=24秒、n1=59であるので、(((59−1)×24/117)−2)=9.89秒の再生位置から音声が再生されることとなる。なおテキスト画像I1が表す文字列のうちの、音声認識の精度が悪い部分について、強調表示されるようにしてもよい。例えば音声認識の精度が悪い部分については他の文字とは異なる色で表示されるようにしてもよい。
本実施形態によれば、着信ユーザはテキスト画像I1を目視することで、発信ユーザによって録音された留守番電話のメッセージの内容を知ることができる。その上本実施形態では、テキスト画像I1が表す文字列に含まれる文字を指定することで、当該文字に対応付けられる再生位置から音声が再生されるようになっている。
例えば再生時間をT1秒、テキスト画像I1が表す文字列に含まれる文字の数をN1とした際に、先頭からn1番目の文字が指定されたとすると、当該文字を表す音節又は音素は、((n1−1)×T1/N1)秒の再生位置で再生される可能性が高い。このことを踏まえ本実施形態では、先頭からn番目の文字が指定された場合に、余裕を持って当該音節又は音素を聞き取ることができる(((n1−1)×T1/N1)−Δ)秒の再生位置から音声が再生されるようになっている。なお上述したように、当該文字を表す音節又は音素が再生される可能性の高い((n1−1)×T1/N1)秒の再生位置から音声が再生されても構わない。このようにして本実施形態では、日付や時間、場所などといった重要な部分や、意味する内容が不明である部分などといった、表示されているテキスト画像I1が表す文字列のうちのユーザが確認したい部分の音声をピンポイントで確認できることとなる。
また本実施形態では、上述したような単純な方法で再生位置の特定が可能であるため、メッセージの音声を構成する音節や音素の再生位置と当該音節や音素が表す文字とを対応付けて管理する必要がない。そのためメッセージの音声を構成する音節や音素の再生位置と当該音節や音素が表す文字との対応関係を示すデータが留守番電話処理サーバ10から携帯電話端末14に送信される必要がない。そのため当該データに相当する通信量だけ節約されることとなる。
以下、文字の指定に応じたピンポイントでの音声の再生を中心に、本実施形態に係る携帯電話端末14の機能並びに本実施形態に係る携帯電話端末14で実行される処理についてさらに説明する。なお本実施形態に係る携帯電話端末14は、指定された文字に対応付けられる音声を再生する音声再生装置としての役割を担うこととなる。
図7は、本実施形態に係る携帯電話端末14で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る携帯電話端末14で、図7に示す機能のすべてが実装される必要はなく、また、図7に示す機能以外の機能が実装されていても構わない。
図7に示すように、本実施形態に係る携帯電話端末14は、機能的には例えば、留守番電話データ受信部30、留守番電話データ記憶部32、表示制御部34、指定受付部36、再生位置決定部38、音声再生部40、を含んでいる。留守番電話データ受信部30は、通信部14cを主として実装される。留守番電話データ記憶部32は、記憶部14bを主として実装される。表示制御部34、指定受付部36は、制御部14a及びタッチパネル14dを主として実装される。再生位置決定部38は、制御部14aを主として実装される。音声再生部40は、制御部14a及び音声入出力部14eを主として実装される。
以上の機能は、コンピュータである携帯電話端末14にインストールされた、以上の機能に対応する指令を含むプログラム(上述の本実施形態に係る留守番電話プログラム)を制御部14aで実行することにより実装される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して携帯電話端末14に供給される。
留守番電話データ受信部30は、本実施形態では例えば、図3に示すS207に示す処理で留守番電話処理サーバ10が送信する留守番電話データを受信する。
留守番電話データ記憶部32は、本実施形態では例えば、留守番電話データ受信部30が受信した留守番電話データを記憶する。
表示制御部34は、本実施形態では例えば、音声の認識結果である文字列が配置された、図4に示すメッセージ一覧画面20や図5A〜図5C、図6A、及び、図6Bに示す音声再生画面22をタッチパネル14dに表示させる。また上述したように、表示制御部34が、音声が再生されている部分に対応付けられる文字を強調表示させてもよい。
指定受付部36は、本実施形態では例えば、音声の認識結果である文字列に含まれる1又は複数の文字の指定を受け付ける。指定受付部36は、本実施形態では例えば、タッチパネル14dに対するタップ操作が行われた際には、タップされた位置に配置されている文字又はタップされた位置からの距離が最も短い位置に配置されている文字を、指定された文字として受け付ける。
なお指定受付部36が、テキスト画像I1が表すテキスト画像I1が表す文字列を分割した複数の部分文字列のうちのいずれかの指定を受け付けてもよい。ここで部分文字列とは、テキスト画像I1が表す文字列を、例えば、文単位、語単位、行単位、所定数の文字単位、などといった所定の単位で分割したものを指すこととする。本実施形態では部分文字列のそれぞれは1又は複数の文字から構成されていることとする。例えばテキスト画像I1が表す文字列が1文字単位で複数の部分文字列に分割された場合は、複数の部分文字列のそれぞれには1の文字が含まれることとなる。なお複数の部分文字列のそれぞれに含まれる文字の数は同じであっても異なっていてもよい。
再生位置決定部38は、本実施形態では例えば、音声の認識結果である文字列に含まれる1又は複数の文字の指定に応じて、当該1又は複数の文字の当該文字列における位置に対応付けられる再生位置を、音声を再生させる再生位置として決定する。
ここで例えば、指定受付部36が先頭からn番目の部分文字列の指定を受け付けたとする。この場合、再生位置決定部38は、再生時間を部分文字列の数で複数の部分時間に分割した場合における先頭からn番目の部分時間に属する再生位置を、音声を再生させる再生位置として決定してもよい。あるいはこの場合に、再生位置決定部38が、先頭からn番目の部分時間に属する再生位置の所定時間前(例えば2秒前)に相当する再生位置を、音声を再生させる再生位置として決定してもよい。なおここで先頭からn番目の部分時間に属する再生位置は、例えば先頭からn番目の部分時間の先頭の再生位置であってもよい。また上記複数の部分時間のそれぞれは、再生時間を等時間間隔で分割したものであってもよい。
例えば再生時間をT2秒、部分文字列の数をN2とした際に、先頭からn2番目の部分文字列が指定されたとする。この場合には例えば(((n2−1)×T2/N2)−Δ)秒の再生位置が、音声を再生させる再生位置として決定されてもよい。例えば図6Aに示すようにテキスト画像I1が表す文字列が8行であり、部分文字列は、当該文字列を行単位で分割したものとする。この場合はT2=24秒、N2=8となる。ここで例えば3行目の部分文字列が指定された場合に、(((3−1)×24/8)−2)=4秒の再生位置が、音声を再生させる生成位置として決定されてもよい。
音声再生部40は、本実施形態では例えば、音声の認識結果である文字列に含まれる1又は複数の文字の指定に応じて、当該1又は複数の文字の当該文字列における位置に対応付けられる再生位置から当該音声を再生させる。音声再生部40は、本実施形態では例えば、再生位置決定部38が音声を再生させる再生位置として決定する再生位置から音声を再生させる。また音声再生部40は、文字の指定に応じてメッセージの音声が再生される再生位置から所定時間の部分(例えば5秒)を繰り返し再生するようにしてもよい。また、音声再生部40は、始点と終点の文字の指定に応じて始点に対応付けられる再生位置から終点に対応付けられる再生位置までを繰り返し再生するようにしてもよい。
また本実施形態では、再生位置決定部38が音声を再生させる再生位置として決定する再生位置に応じて、表示制御部34は、音声再生画面22の表示内容を更新する。
以下、指定受付部36が部分文字列の指定を受け付けた際に本実施形態に係る携帯電話端末14において行われる処理の流れの一例を、図8に示すフロー図を参照しながら説明する。
指定受付部36が部分文字列の指定を受け付けると、まず、再生位置決定部38が、当該部分文字列を特定する(S301)。そして再生位置決定部38が、S301に示す処理で特定された部分文字列に基づいて、上述のようにして音声を再生させる再生位置を決定する(S302)。そして表示制御部34が、S302に示す処理で決定された再生位置に基づいて表示内容を更新し、音声再生部40が、S302に示す処理で決定された再生位置から音声を再生して(S303)、本処理例に示す処理は終了される。
なお、本発明は上述の実施形態に限定されるものではない。
例えば、留守番電話データに、メッセージの音声を構成する音節や音素の再生位置と当該音節や音素が表す文字との対応関係を示すデータが含まれていてもよい。そして再生位置決定部38が、指定された部分文字列に対応付けられる音節や音素の再生位置、又は、当該再生位置の所定時間前から音声を再生させてもよい。
また例えば本発明の適用範囲は携帯電話端末14に限定されない。本発明を例えばパーソナルコンピュータ等のコンピュータ一般に適用してもよい。
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。
1 留守番電話システム、10 留守番電話処理サーバ、12 音声認識サーバ、14 携帯電話端末、14a 制御部、14b 記憶部、14c 通信部、14d タッチパネル、14e 音声入出力部、16 電話通信網、18 インターネット、20 メッセージ一覧画面、22 音声再生画面、30 留守番電話データ受信部、32 留守番電話データ記憶部、34 表示制御部、36 指定受付部、38 再生位置決定部、40 音声再生部。

Claims (5)

  1. 音声の認識結果である文字列を表示させる表示制御部と、
    前記文字列に含まれる文字の指定に応じて、前記文字列の先頭から指定される文字までの文字数又は行数に基づいて、再生位置を特定する再生位置特定部と、
    特定される前記再生位置から前記音声を再生させる音声再生部と、
    を含むことを特徴とする音声再生装置。
  2. 前記再生位置特定部は、前記文字列の先頭から指定される文字までの文字数と当該文字列の全文字数、又は、前記文字列の先頭から指定される文字までの行数と当該文字列の全行数に基づいて、前記再生位置を特定する、
    ことを特徴とする請求項1に記載の音声再生装置。
  3. 前記表示制御部は、前記音声が再生されている部分に対応付けられる文字を強調表示させる、
    ことを特徴とする請求項1又は2に記載の音声再生装置。
  4. 音声の認識結果である文字列を表示させるステップと、
    前記文字列に含まれる文字の指定に応じて、前記文字列の先頭から指定される文字までの文字数又は行数に基づいて、再生位置を特定するステップと、
    特定される前記再生位置から前記音声を再生させるステップと、
    を含むことを特徴とする音声再生方法。
  5. 音声の認識結果である文字列を表示させる手順、
    前記文字列に含まれる文字の指定に応じて、前記文字列の先頭から指定される文字までの文字数又は行数に基づいて、再生位置を特定する手順、
    特定される前記再生位置から前記音声を再生させる手順、
    をコンピュータに実行させることを特徴とするプログラム。
JP2015246371A 2015-12-17 2015-12-17 音声再生装置、音声再生方法及びプログラム Active JP6721981B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015246371A JP6721981B2 (ja) 2015-12-17 2015-12-17 音声再生装置、音声再生方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015246371A JP6721981B2 (ja) 2015-12-17 2015-12-17 音声再生装置、音声再生方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017111339A JP2017111339A (ja) 2017-06-22
JP6721981B2 true JP6721981B2 (ja) 2020-07-15

Family

ID=59080726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015246371A Active JP6721981B2 (ja) 2015-12-17 2015-12-17 音声再生装置、音声再生方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6721981B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135453A (ja) * 2020-02-28 2021-09-13 パナソニックIpマネジメント株式会社 テキスト音源位置表示システムおよびテキスト音源位置表示装置
CN113066491A (zh) * 2021-03-18 2021-07-02 海信视像科技股份有限公司 显示设备及语音交互方法
WO2024095383A1 (ja) * 2022-11-02 2024-05-10 日本電信電話株式会社 音声認識結果表示装置、方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073103A (en) * 1996-04-25 2000-06-06 International Business Machines Corporation Display accessory for a record playback system
DE60209103T2 (de) * 2001-03-29 2006-09-14 Koninklijke Philips Electronics N.V. Texteditierung von erkannter sprache bei gleichzeitiger wiedergabe
JP2008097232A (ja) * 2006-10-10 2008-04-24 Toshibumi Okuhara 音声情報検索プログラムとその記録媒体、音声情報検索システム、並びに音声情報検索方法
JP5296598B2 (ja) * 2009-04-30 2013-09-25 日本放送協会 音声情報抽出装置
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム

Also Published As

Publication number Publication date
JP2017111339A (ja) 2017-06-22

Similar Documents

Publication Publication Date Title
KR102045281B1 (ko) 데이터 처리 방법 및 그 전자 장치
TWI628650B (zh) 支持語音對講功能的移動終端與語音對講方法
US10827065B2 (en) Systems and methods for providing integrated computerized personal assistant services in telephony communications
JP2010078979A (ja) 音声録音装置、録音音声検索方法及びプログラム
JP6721981B2 (ja) 音声再生装置、音声再生方法及びプログラム
WO2014154097A1 (en) Automatic page content reading-aloud method and device thereof
CN110943908A (zh) 语音消息发送方法、电子设备及介质
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
KR20150104930A (ko) 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템
CN110868621B (zh) 一种音频播放方法、装置、设备及计算机可读介质
KR20070037267A (ko) 발신자 확인 휴대단말기
WO2014077182A1 (ja) 携帯情報端末、シャドー音声管理方法及びコンピュータプログラム
US20140297285A1 (en) Automatic page content reading-aloud method and device thereof
JP2009290468A (ja) 通話録音装置及び方法
JP7180687B2 (ja) 処理システム、処理方法及びプログラム
JP2009044679A (ja) 無声通話機能付携帯通信端末、及び無声通話機能付携帯通信端末の制御方法
JP6627315B2 (ja) 情報処理装置、情報処理方法、および制御プログラム
US9628603B2 (en) Voice mail transcription
JP2014142501A (ja) テキスト再生装置、方法、及びプログラム
US8054948B1 (en) Audio experience for a communications device user
JP2007323512A (ja) 情報提供システム、携帯端末及びプログラム
US20180054526A1 (en) Interactive voicemail message and response tagging system for improved response quality and information retrieval
JP2017216672A (ja) 通話装置
WO2016033869A1 (zh) 一种回铃音实现方法、装置和计算机可读存储介质
JP7119939B2 (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200619

R150 Certificate of patent or registration of utility model

Ref document number: 6721981

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250