JP2015100054A - 音声通信システム、音声通信方法及びプログラム - Google Patents

音声通信システム、音声通信方法及びプログラム Download PDF

Info

Publication number
JP2015100054A
JP2015100054A JP2013239470A JP2013239470A JP2015100054A JP 2015100054 A JP2015100054 A JP 2015100054A JP 2013239470 A JP2013239470 A JP 2013239470A JP 2013239470 A JP2013239470 A JP 2013239470A JP 2015100054 A JP2015100054 A JP 2015100054A
Authority
JP
Japan
Prior art keywords
requirement
text
voice
unit
conversion server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013239470A
Other languages
English (en)
Inventor
山口 義和
Yoshikazu Yamaguchi
義和 山口
裕司 青野
Yuji Aono
裕司 青野
石原 晋也
Shinya Ishihara
晋也 石原
豊 國田
Yutaka Kunida
豊 國田
義男 神田
Yoshio Kanda
義男 神田
野村 英司
Eiji Nomura
英司 野村
雄二 大石
Yuji Oishi
雄二 大石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Nippon Telegraph and Telephone East Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Nippon Telegraph and Telephone East Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Nippon Telegraph and Telephone East Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013239470A priority Critical patent/JP2015100054A/ja
Publication of JP2015100054A publication Critical patent/JP2015100054A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】音声通信において要件を簡単かつ適切に知る。
【解決手段】発信端末2がテキスト変換サーバ1へ着信端末3との通話要求を送信する。発信端末2が着信端末3との通話が確立する前に要件音声を入力する。発信端末2がテキスト変換サーバ1へ要件音声を送信する。テキスト変換サーバ1が要件音声を音声認識した認識結果に基づいて要件テキストを生成する。テキスト変換サーバ1が要件テキストを着信端末3へ送信する。テキスト変換サーバ1が発信端末2から受信した通話要求に応じて着信端末3へ着信通知を送信する。着信端末2がテキスト変換サーバ1から受信した着信通知に応じてテキスト変換サーバ1へ着信指示を送信する。着信端末2がテキスト変換サーバ1から受信した要件テキストを表示する。テキスト変換サーバ1が着信端末3から受信した着信指示に応じて発信端末2と着信端末3との通話を確立する。
【選択図】図1

Description

この発明は、音声通信技術に関する。
固定電話、携帯電話、携帯端末などにより音声通話を行う場合、着信側では対話を通して発信側の発話する音声を聞かなければ、なぜ電話をかけているのか、その内容がわからない。例えば、緊急を要する要件で電話をかけていることが対話における早い段階で判別できれば、以降の対話がスムーズに進むことを期待できる。
このような問題を解決する方法として、例えば特許文献1の技術が開示されている。特許文献1には、電話を発信する前に発信側端末で要件の内容を記したテキストを入力し、着信側端末では着信を通知すると同時にそのテキストを表示することで、要件を簡単に知らせる方法が記載されている。
特開2009−206756号公報
特許文献1の従来技術では、発信する際に事前にテキストを入力する操作が煩わしいという課題がある。その理由は大きく二つ挙げられる。一つは、緊急を要する場合は早く着信して欲しいことからテキストなどを入力する余裕がないという時間の問題である。もう一つは、電話端末は通常独自の操作性を必要としているが、子供や老人などが発信者である場合、テキスト入力の操作に不慣れで難しい場合があるというユーザインタフェースの問題である。
また、テキストを入力する代わりに予め用意した定型文を選択させる方法も考えられる。しかし、この方法では、予め想定された要件の入力しかできないため、より詳細な内容を伝えることができない。
この発明の目的は、音声通信において要件を簡単かつ正確に知ることができる技術を提供することである。
上記の課題を解決するために、この発明の音声通信システムは以下のステップを含む。発信端末は、着信端末との通話を要求する。発信端末は、着信端末との通話が確立する前に発信者が要件を発話した要件音声を収音する。音声認識部は、要件音声を音声認識した認識結果に基づいて要件テキストを生成する。テキスト表示部は、要件テキストを表示する。通話管理部は、発信端末と着信端末との通話を確立する。
この発明の音声通信技術によれば、発信側の発話した内容をテキスト化して着信側に表示することで、対話によって確認することなく要件を簡単かつ正確に知ることができる。すなわち、発信側において煩雑なテキスト入力操作を回避しつつ要件の自由な表現を可能とし、着信側が要件を把握するまでの時間を短縮することができる。したがって、音声通信において要件を把握する際の利用者の負担を軽減することができる。
図1は、第一実施形態の音声通信システムの機能構成を例示する図である。 図2は、第一実施形態のテキスト変換サーバの機能構成を例示する図である。 図3は、発信端末の機能構成を例示する図である。 図4は、着信端末の機能構成を例示する図である。 図5は、第一実施形態の音声通信方法の処理フローを例示する図である。 図6は、第二実施形態の音声通信システムの機能構成を例示する図である。 図7は、第二実施形態のテキスト変換サーバの機能構成を例示する図である。 図8は、第二実施形態の音声通信方法の処理フローを例示する図である。 図9は、第三実施形態の音声通信システムの機能構成を例示する図である。 図10は、第三実施形態のテキスト変換サーバの機能構成を例示する図である。 図11は、第三実施形態の音声通信方法の処理フローを例示する図である。 図12は、第四実施形態の音声通信システムの機能構成を例示する図である。 図13は、第四実施形態のテキスト変換サーバの機能構成を例示する図である。 図14は、第四実施形態の音声通信方法の処理フローを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
図1を参照して、第一実施形態に係る音声通信システムの機能構成の一例を説明する。第一実施形態に係る音声通信システムは、テキスト変換サーバ1、少なくとも1台の発信端末2及び少なくとも1台の着信端末3を含む。テキスト変換サーバ1、発信端末2及び着信端末3はネットワーク9に接続される。ネットワーク9は、接続される各端末が相互に音声通信可能なように構成されたネットワークであり、例えば、アナログもしくはデジタルの公衆電話網もしくは構内電話網、またはインターネットやLAN(Local Area Network)、WAN(Wide Area Network)などのパケット交換網で構成することができる。また、ネットワーク9を構成する物理媒体は有線/無線の別を問わず、無線LANやW−CDMA(Wideband Code Division Multiplexing Access、広帯域符号分割多重接続)、LTE(Long Term Evolution)などに代表される携帯電話回線、Bluetooth(登録商標)のような近距離無線通信などを一部に利用していてもよい。
図2を参照して、第一実施形態に係るテキスト変換サーバ1の機能構成の一例を説明する。テキスト変換サーバ1は、制御部101、メモリ102、要件抽出部10、音声認識部11、テキスト送信部12及び通話管理部13を含む。テキスト変換サーバ1は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。テキスト変換サーバ1は、例えば、制御部101の制御のもとで各処理を実行する。テキスト変換サーバ1に入力されたデータや各処理で得られたデータは、例えば、メモリ102に格納され、メモリ102に格納されたデータは必要に応じて読み出されて他の処理に利用される。
図3を参照して、音声通信システムに含まれる発信端末2の機能構成の一例を説明する。発信端末2は、マイクM2、スピーカS2、制御部201、メモリ202、発呼部20、要件入力部21、要件送信部22及び通話部23を含む。発信端末2は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。発信端末2は、例えば、制御部201の制御のもとで各処理を実行する。発信端末2に入力されたデータや各処理で得られたデータは、例えば、メモリ202に格納され、メモリ202に格納されたデータは必要に応じて読み出されて他の処理に利用される。発信端末2は、具体的には、パーソナル・コンピュータや携帯電話、スマートフォン、タブレット端末などである。
図4を参照して、音声通信システムに含まれる着信端末3の機能構成の一例を説明する。着信端末3は、マイクM3、スピーカS3、制御部301、メモリ302、テキスト受信部30、テキスト表示部31、着呼部32及び通話部33を含む。着信端末3は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。着信端末3は、例えば、制御部301の制御のもとで各処理を実行する。着信端末3に入力されたデータや各処理で得られたデータは、例えば、メモリ302に格納され、メモリ302に格納されたデータは必要に応じて読み出されて他の処理に利用される。着信端末3は、具体的には、パーソナル・コンピュータや携帯電話、スマートフォン、タブレット端末などである。
図5を参照して、第一実施形態に係る音声通信システムが実行する音声通信方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。
ステップS20において、発信端末2に含まれる発呼部20は、テキスト変換サーバ1へ着信端末3との通話要求を送信する。通話要求はネットワーク9を構成する音声通信プロトコルに従って行われる。着信端末3が外線電話である場合には、着信端末3に一意に割り当てられた電話番号をダイヤルすることで行われる。着信端末3が内線電話である場合には、テキスト変換サーバ1に割り当てられた電話番号をダイヤルし、テキスト変換サーバ1に一旦着信した後に着信端末3に割り当てられた内線番号をダイヤルすることもあり得る。また、テキスト変換サーバ1に一旦着信した後に、複数の着信端末3から着信させる着信端末3を所定の基準に則って自動的に選択することもあり得る。
ステップS13aにおいて、テキスト変換サーバ1に含まれる通話管理部13は、発信端末2から受信した通話要求に応じて着信端末3へ着信通知を送信する。この際、発信端末2とテキスト変換サーバ1との通話経路が確立される。以降、発信端末2と着信端末3との通話が確立するまでの時間を着信待ち状態と呼ぶ。
ステップS21において、発信端末2に含まれる要件入力部21は、着信端末3との通話が確立する前に発信者が要件を発話した要件音声を、マイクM2を用いて収音する。要件入力部21は、要件音声の収音に先立って、発話を促すアナウンスを、スピーカS2を用いて再生するように構成することも可能である。このとき、テキスト変換サーバ1に含まれる要件抽出部10により、発信端末2とテキスト変換サーバ1との通話経路を介して発話を促すアナウンスを再生するように構成してもよい。
この例では、発信端末2が発信要求を送信して着信待ち状態となってから要件音声の収音を行っているが、発信要求を送信するよりも前に要件音声の収音を行うように構成してもよい。すなわち、要件入力部21により収音した要件音声を、例えばメモリ202に一時的に蓄積しておき、その後、自動的にもしくは発信者の端末操作により、発呼部20が発信要求を送信するように構成する。
発信要求送信後かつ着信通知送信前に、要件音声の収音を行うように構成してもよい。その場合は、要件音声のメモリ202への蓄積は行わず、自動的にもしくは発信者の端末操作により、発呼部20が発信要求を送信するように構成する。
ステップS22において、発信端末2に含まれる要件送信部22は、テキスト変換サーバ1へ要件音声を送信する。要件送信部22は、テキスト変換サーバ1との通話経路へ要件音声を入力する。要件送信部22は、要件入力部21の処理と同時に実行することができる。つまり、要件入力部21がマイクM2を用いて収音している音声信号を端末内部に蓄積することなく直接要件送信部22を経由してテキスト変換サーバ1との通話経路へ入力することができる。要件音声の収音を事前に行なっていた場合には、例えばメモリ202に蓄積されていた要件音声を読み込んで、テキスト変換サーバ1との通話経路へ入力すればよい。
ステップS10において、テキスト変換サーバ1に含まれる要件抽出部10は、発信端末2から要件音声を抽出する。要件抽出部10は、発信端末2との通話経路が確立した時点から要件音声の抽出を開始してもよいし、発話の開始を検知して要件音声の抽出を開始してもよい。要件抽出部10は、予め定めた時間だけ要件音声の抽出を行なってもよいし、所定の事象を検知して要件音声の抽出を終了してもよい。ここで、所定の事象とは、発信端末2からの特定のトーン信号が入力された場合や、一定の時間無音が継続した場合などである。
ステップS11において、テキスト変換サーバ1に含まれる音声認識部11は、要件抽出部10が出力する要件音声を音声認識して認識結果に基づいて要件テキストを生成する。要件テキストは、認識結果の全文としてもよいし、認識結果の一部であってもよい。認識結果の一部とは、例えば認識結果の文字列を先頭から予め定めたバイト数だけ切り出した文字列である。音声認識の手法は既存の任意の音声認識技術を適用することが可能である。適用する音声認識技術は、リアルタイム性に優れた音声認識技術であることが望ましいが、この限りでない。
ステップS12において、テキスト変換サーバ1に含まれるテキスト送信部12は、要件テキストを着信端末3へ送信する。要件テキストの送信は、着信通知と同時に行なってもよい。すなわち、この例では、ステップS13aにおいて、テキスト変換サーバ1は発信端末2から通話要求を受信すると直ちに着信通知を着信端末3へ送信している。しかし、ステップS13aではテキスト変換サーバ1は発信端末2との通話経路を確立することのみを行い、ステップS12において着信通知と要件テキストを組にして着信端末3へ同時に送信するように構成してもよい。
ステップS30において、着信端末3に含まれるテキスト受信部30は、テキスト変換サーバ1から要件テキストを受信する。テキスト受信部30は、受信した要件テキストをテキスト表示部31へ出力する。
ステップS31において、着信端末3に含まれるテキスト表示部31は、テキスト変換サーバから受信した要件テキストを表示する。要件テキストの表示は、例えば着信端末3にインストールされ起動しているアプリケーションのウィンドウに出力する。もしくは着信端末3にインストールされているアプリケーションを起動してそのウィンドウに出力する。これにより、着信端末3の備えるディスプレイに要件テキストを表示することができる。
ステップS32において、着信端末3に含まれる着呼部32は、テキスト変換サーバ1から受信した着信通知に応じて、テキスト変換サーバ1へ着信指示を送信する。着信指示の送信は、着信通知を受信した際に自動的にもしくは発信者の端末操作により行われる。
ステップS13b、S23、S33において、テキスト変換サーバ1に含まれる通話管理部13は、着信端末3から受信した着信指示に応じて発信端末2と着信端末3との通話を確立する。以降は、発信端末2に含まれるマイクM2で収音した音声は着信端末3に含まれるスピーカS3から再生され、着信端末3に含まれるマイクM3で収音した音声は発信端末2に含まれるスピーカS2から再生される。これにより、発信者と着信者の対話が可能となる。ネットワーク9がデジタル回線で構成されている場合には、マイクM2もしくはM3から入力されるアナログ音声をA/D変換器によりデジタル音声に変換し、ネットワーク9から送信されたデジタル音声をD/A変換器によりアナログ音声に変換しスピーカS2もしくはS3から出力する。通話管理部13は、発信端末2または着信端末3から通話完了指示を受けると、発信端末2と着信端末3との通話経路を遮断し、もう片方へ通話終了指示を送信する。
このように、第一実施形態の音声通信システムによれば、発信者の発話する要件がテキスト化され通話を開始する前に着信者に表示することができる。これにより、対話によって確認することなく、通話の要件を簡単かつ正確に知ることができる。
[第二実施形態]
図6を参照して、第二実施形態に係る音声通信システムの機能構成の一例を説明する。第二実施形態に係る音声通信システムは、テキスト変換サーバ4、少なくとも1台の発信端末2及び少なくとも1台の着信端末3を含む。テキスト変換サーバ4、発信端末2及び着信端末3はネットワーク9に接続される。したがって、第二実施形態に係る音声通信システムと第一実施形態に係る音声通信システムとの相違点はテキスト変換サーバの構成が異なることである。
図7を参照して、第二実施形態に係るテキスト変換サーバ4の機能構成の一例を説明する。テキスト変換サーバ4は、第一実施形態に係るテキスト変換サーバ1と同様に、制御部101、メモリ102、要件抽出部10、音声認識部11、テキスト送信部12及び通話管理部13を含み、さらに単語抽出部14を含む。テキスト変換サーバ4は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。テキスト変換サーバ4は、例えば、制御部101の制御のもとで各処理を実行する。テキスト変換サーバ1に入力されたデータや各処理で得られたデータは、例えば、メモリ102に格納され、メモリ102に格納されたデータは必要に応じて読み出されて他の処理に利用される。
図8を参照して、第二実施形態に係る音声通信システムが実行する音声通信方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。ステップS11までの処理は第一実施形態に係る音声通信システムと同様である。
ステップS14において、テキスト変換サーバ1に含まれる単語抽出部14は、音声認識部11の出力する音声認識結果から単語を抽出して要件テキストを生成する。
単語抽出部14は、単語の抽出を以下のように行う。まず、単語抽出部14は、要件テキストを複数の発話に分割する。発話とは、文書やフレーズなど、数百ミリ程度の発話しない区間で区切られた音声区間のことである。次に、単語抽出部14は、発話ごとに、予め登録しておいたキーワード、名詞等の特定の品詞、出現頻度の高い単語、あるいはそれらを含む句(フレーズ)を抽出する。そして、単語抽出部14は、抽出した単語を連結して要件テキストを生成する。
例えば、音声認識結果が「さっきお母さんから電話があったんだけど、お父さんが倒れて近くの病院に入院したって。病院の名前は○○病院で、、、」であったとする。このとき、「お母さん」「電話」「お父さん」「病院」「入院」が登録されたキーワードであったとする。この場合、要件テキストは「お母さん 電話 お父さん 病院 入院」となる。
ステップS12以降の処理は第一実施形態に係る音声通信システムと同様である。
このように、第二実施形態の音声通信システムによれば、要件テキストが重要と考えられる単語のみにより構成されるため、着信側が通話の要件をより簡単に把握することができるようになる。
[第三実施形態]
図9を参照して、第三実施形態に係る音声通信システムの機能構成の一例を説明する。第三実施形態に係る音声通信システムは、テキスト変換サーバ5、少なくとも1台の発信端末2及び少なくとも1台の着信端末3を含む。テキスト変換サーバ5、発信端末2及び着信端末3はネットワーク9に接続される。したがって、第三実施形態に係る音声通信システムと第一実施形態に係る音声通信システムとの相違点はテキスト変換サーバの構成が異なることである。
図10を参照して、第三実施形態に係るテキスト変換サーバ5の機能構成の一例を説明する。テキスト変換サーバ5は、第一実施形態に係るテキスト変換サーバ1と同様に、制御部101、メモリ102、要件抽出部10、音声認識部11、テキスト送信部12及び通話管理部13を含み、さらに要約部15を含む。テキスト変換サーバ5は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。テキスト変換サーバ5は、例えば、制御部101の制御のもとで各処理を実行する。テキスト変換サーバ1に入力されたデータや各処理で得られたデータは、例えば、メモリ102に格納され、メモリ102に格納されたデータは必要に応じて読み出されて他の処理に利用される。
図11を参照して、第三実施形態に係る音声通信システムが実行する音声通信方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。ステップS11までの処理は第一実施形態に係る音声通信システムと同様である。
ステップS15において、テキスト変換サーバ1に含まれる要約部15は、音声認識部11の出力する音声認識結果を要約して要件テキストを生成する。
要約部15が要件テキストを要約する方法は、既存の任意の要約技術を適用することができる。例えば、「特開2011−248409号公報」に開示された要約技術では、事前に単語の重要度を計算しておき、要約対象のテキストに含まれる単語の重要度を発話単位で平均化し、平均重要度の最も高い、あるいは上位数発話を選択して要約句とする。もしくは、長文中の重要な部分のみを繋いで要約文としたり、複数の文章の重要な部分のみを繋いで一文にまとめたりする生成型の要約方法を用いてもよい。
例えば、音声認識結果が「さっきお母さんから電話があったんだけど、お父さんが倒れて近くの病院に入院したって。病院の名前は○○病院で、、、」であったとする。このとき、「お父さんが倒れて近くの病院に入院したって」が最も重要度の高い発話、すなわち要約句、であると判断されたとする。この場合、要件テキストは「お父さんが倒れて近くの病院に入院したって」などとなる。
ステップS12以降の処理は第一実施形態に係る音声通信システムと同様である。
なお、第二実施形態と第三実施形態は組み合わせることができ、単語抽出部14が出力する単語と要約部15が出力する要約句を組み合わせて要約テキストを生成することも可能である。
例えば、音声認識結果が「さっきお母さんから電話があったんだけど、お父さんが倒れて近くの病院に入院したって。病院の名前は○○病院で、、、」であったとする。このとき、「お母さん」「電話」「お父さん」「病院」「入院」が登録されたキーワードであり、「お父さんが倒れて近くの病院に入院したって」が最も重要度の高い発話、すなわち要約句、であると判断されたとする。この場合、要件テキストは「(お父さん 病院 入院)お父さんが倒れて近くの病院に入院したって」となる。
このように、第三実施形態の音声通信システムによれば、要件テキストが重要なキーワードを含む自然な文章に要約されているため、着信側が通話の要件をより簡単に把握することができるようになる。
[第四実施形態]
図12を参照して、第四実施形態に係る音声通信システムの機能構成の一例を説明する。第四実施形態に係る音声通信システムは、テキスト変換サーバ6、少なくとも1台の発信端末2及び少なくとも1台の着信端末3を含む。テキスト変換サーバ6、発信端末2及び着信端末3はネットワーク9に接続される。したがって、第四実施形態に係る音声通信システムと第一実施形態に係る音声通信システムとの相違点はテキスト変換サーバの構成が異なることである。
図13を参照して、第四実施形態に係るテキスト変換サーバ6の機能構成の一例を説明する。テキスト変換サーバ6は、第一実施形態に係るテキスト変換サーバ1と同様に、制御部101、メモリ102、要件抽出部10、音声認識部11、テキスト送信部12及び通話管理部13を含み、さらに感情認識部16、記号変換部17及び記号付与部18を含む。テキスト変換サーバ6は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。テキスト変換サーバ6は、例えば、制御部101の制御のもとで各処理を実行する。テキスト変換サーバ1に入力されたデータや各処理で得られたデータは、例えば、メモリ102に格納され、メモリ102に格納されたデータは必要に応じて読み出されて他の処理に利用される。
図14を参照して、第四実施形態に係る音声通信システムが実行する音声通信方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。ステップS11までの処理は第一実施形態に係る音声通信システムと同様である。
ステップS16において、テキスト変換サーバ1に含まれる感情認識部16は、要件抽出部10の出力する要件音声もしくは音声認識部11の出力する音声認識結果を用いて発話者の感情状態を認識する。
感情認識部16が発話者の感情状態を認識する方法は、既存の任意の感情認識技術を適用することができる。例えば、「特許第4580190号公報」に開示された感情認識技術では、音声から基本周波数、パワー、動的特徴量の時間変化特性といった音声特徴量ベクトルを算出し、事前に学習した笑い、怒り、悲しみといった感情状態に対応する符号長を用いて尤度を計算し、もっとも高いものを感情状態として判定する。また、音声に含まれる文字(全ての文字あるいは母音のみ)とその発話時間長から発話ごとの平均話速を計測し、慌て/焦りといった感情状態を判定する。
ステップS17において、テキスト変換サーバ1に含まれる記号変換部17は、感情認識部16の出力する感情状態を予め定めた対応する感情表現記号に変換する。感情状態から感情表現記号への変換は、事前に用意した対応表を用いて該当する感情表現記号を決定する。感情表現記号とは、感情状態を表す短い文字列や、文字列を人の顔に模して慣用される、いわゆる顔文字である。
例えば、感情状態が「怒り」であれば、「(怒)」あるいは「(-_-メ)」といった感情表現記号に変換する。感情状態が「悲しみ」であれば、「(悲)」あるいは「(T_T)」といった感情表現記号に変換する。感情状態が「慌て」であれば、「(慌)」あるいは「(*_*;)」といった感情表現記号に変換する。各感情状態に対してどのような文字、顔文字を利用するかは予め利用者が決定できるようにしておくことも可能である。
ステップS18において、テキスト変換サーバ1に含まれる記号付与部18は、記号変換部17の出力する感情表現記号を音声認識部11の出力する要件テキストへ付与する。感情表現記号の付与は、例えば発話ごとの文字列の末尾に挿入することで行う。
例えば、音声認識結果が「さっきお母さんから電話があったんだけど、お父さんが倒れて近くの病院に入院したって。病院の名前は○○病院で、、、」であったとする。このとき、「(慌)」「(T_T)」を「慌て」「悲しみ」を表す感情表現記号とする。この場合、要件テキストは「さっきお母さんから電話があったんだけど(慌)、お父さんが倒れて近くの病院に入院したって(T_T)。病院の名前は○○病院で、、、」などとなる。
ステップS12以降の処理は第一実施形態に係る音声通信システムと同様である。
なお、第四実施形態は第二実施形態及び第三実施形態と任意に組み合わせることができ、単語抽出部14が出力する単語、要約部15が出力する要約句、記号変換部17の出力する感情表現記号を組み合わせて要約テキストを生成することも可能である。
例えば、音声認識結果が「さっきお母さんから電話があったんだけど、お父さんが倒れて近くの病院に入院したって。病院の名前は○○病院で、、、」であったとする。このとき、「お母さん」「電話」「お父さん」「病院」「入院」が登録されたキーワードであり、「お父さんが倒れて近くの病院に入院したって」が最も重要度の高い発話、すなわち要約句、であると判断され、「(慌)」「(T_T)」を「慌て」「悲しみ」を表す感情表現記号とする。この場合、要件テキストは「(お父さん 病院 入院)お父さんが倒れて近くの病院に入院したって(T_T)」となる。
このように、第四実施形態の音声通信システムによれば、要件を把握するために有用なより多くの情報を着信側に表示することができるため、着信側が通話の要件をより正確に把握することができるようになる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1、4、5、6 テキスト変換サーバ
2 発信端末
3 着信端末
10 要件抽出部
11 音声認識部
12 テキスト送信部
13 通話管理部
20 発呼部
21 要件入力部
22 要件送信部
23 通話部
30 テキスト受信部
31 テキスト表示部
32 着呼部
33 通話部
101、201、301 制御部
102、202、302 メモリ
M2、M3 マイク
S2、S3 スピーカ

Claims (9)

  1. 発信端末と着信端末とテキスト変換サーバを含む音声通信システムであって、
    上記発信端末は、
    上記テキスト変換サーバへ上記着信端末との通話要求を送信する発呼部と、
    上記着信端末との通話が確立する前に発信者が要件を発話した要件音声を収音する要件入力部と、
    上記テキスト変換サーバへ上記要件音声を送信する要件送信部と、
    を含み、
    上記テキスト変換サーバは、
    上記要件音声を音声認識した認識結果に基づいて要件テキストを生成する音声認識部と、
    上記要件テキストを上記着信端末へ送信するテキスト送信部と、
    上記発信端末から受信した上記通話要求に応じて上記着信端末へ着信通知を送信し、上記着信端末から受信した着信指示に応じて上記発信端末と上記着信端末との通話を確立する通話管理部と、
    を含み、
    上記着信端末は、
    上記テキスト変換サーバから受信した上記着信通知に応じて、上記テキスト変換サーバへ上記着信指示を送信する着呼部と、
    上記テキスト変換サーバから受信した上記要件テキストを表示するテキスト表示部と、
    を含む音声通信システム。
  2. 請求項1に記載の音声通信システムであって、
    上記音声認識部は、上記認識結果の全文を上記要件テキストとするものである
    音声通信システム。
  3. 請求項1に記載の音声通信システムであって、
    上記音声認識部は、上記認識結果の一部を上記要件テキストとするものである
    をさらに含む音声通信システム。
  4. 請求項1に記載の音声通信システムであって、
    上記テキスト変換サーバは、
    上記認識結果を要約して上記要件テキストを生成する要約部
    をさらに含む音声通信システム。
  5. 請求項1に記載の音声通信システムであって、
    上記テキスト変換サーバは、
    上記認識結果から単語を抽出して上記要件テキストを生成する単語抽出部
    をさらに含む音声通信システム。
  6. 請求項1から5のいずれかに記載の音声通信システムであって、
    上記テキスト変換サーバは、
    上記要件音声に基づいて発信者の感情状態を認識する感情認識部と、
    上記感情状態を予め定めた対応する感情表現記号に変換する記号変換部と、
    上記感情表現記号を上記要件テキストへ付与する記号付与部と、
    をさらに含む音声通信システム。
  7. 請求項1から6のいずれかに記載の音声通信システムであって、
    上記要件入力部は、
    上記要件音声の収音に先立って、発話を促すアナウンスを再生するものである
    をさらに含む音声通信システム。
  8. 発信端末が、着信端末との通話を要求する発呼ステップと、
    上記発信端末が、上記着信端末との通話が確立する前に発信者が要件を発話した要件音声を収音する要件入力ステップと、
    音声認識部が、上記要件音声を音声認識した認識結果に基づいて要件テキストを生成する音声認識ステップと、
    上記着信端末が、上記要件テキストを表示するテキスト表示ステップと、
    通話管理部が、上記発信端末と上記着信端末との通話を確立する通話確立ステップと、
    を含む音声通信方法。
  9. 請求項1から6のいずれかに記載のテキスト変換サーバまたは請求項1から6のいずれかに記載の発信端末または請求項1から6のいずれかに記載の着信端末としてコンピュータを機能させるためのプログラム。
JP2013239470A 2013-11-20 2013-11-20 音声通信システム、音声通信方法及びプログラム Pending JP2015100054A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013239470A JP2015100054A (ja) 2013-11-20 2013-11-20 音声通信システム、音声通信方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013239470A JP2015100054A (ja) 2013-11-20 2013-11-20 音声通信システム、音声通信方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2015100054A true JP2015100054A (ja) 2015-05-28

Family

ID=53376414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013239470A Pending JP2015100054A (ja) 2013-11-20 2013-11-20 音声通信システム、音声通信方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2015100054A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101846218B1 (ko) * 2015-06-02 2018-05-18 (주)에스앤아이스퀘어 근거리 무선 통신망을 기반으로 청각 장애인의 음성 대화를 지원하는 청각 장애인용 언어통역 보조장치, 음성합성서버, 음성인식서버, 알람 장치, 강연장 로컬 서버, 및 음성 통화 지원 어플리케이션
JP2020071676A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム
WO2020213115A1 (ja) * 2019-04-18 2020-10-22 日本電信電話株式会社 発話画像化装置、発話画像化方法及びプログラム
CN111835926A (zh) * 2020-07-23 2020-10-27 中国平安财产保险股份有限公司 基于语音交互的智能语音外呼方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010578A (ja) * 1998-06-19 2000-01-14 Ntt Data Corp 音声メッセージ送受信システム、及び音声メッセージ処理方法
WO2006051611A1 (ja) * 2004-11-15 2006-05-18 Fujitsu Limited 用件提示方法及び用件情報蓄積装置及び端末
JP2006277567A (ja) * 2005-03-30 2006-10-12 Nec Corp 音声感情認識によるメール作成機能付携帯端末、携帯端末システム、及び、音声感情認識によるメール作成方法
US20130148646A1 (en) * 2011-12-13 2013-06-13 Tzahi Efrati Systems and methods of providing communications services

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010578A (ja) * 1998-06-19 2000-01-14 Ntt Data Corp 音声メッセージ送受信システム、及び音声メッセージ処理方法
WO2006051611A1 (ja) * 2004-11-15 2006-05-18 Fujitsu Limited 用件提示方法及び用件情報蓄積装置及び端末
JP2006277567A (ja) * 2005-03-30 2006-10-12 Nec Corp 音声感情認識によるメール作成機能付携帯端末、携帯端末システム、及び、音声感情認識によるメール作成方法
US20130148646A1 (en) * 2011-12-13 2013-06-13 Tzahi Efrati Systems and methods of providing communications services

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101846218B1 (ko) * 2015-06-02 2018-05-18 (주)에스앤아이스퀘어 근거리 무선 통신망을 기반으로 청각 장애인의 음성 대화를 지원하는 청각 장애인용 언어통역 보조장치, 음성합성서버, 음성인식서버, 알람 장치, 강연장 로컬 서버, 및 음성 통화 지원 어플리케이션
JP2020071676A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム
WO2020213115A1 (ja) * 2019-04-18 2020-10-22 日本電信電話株式会社 発話画像化装置、発話画像化方法及びプログラム
JPWO2020213115A1 (ja) * 2019-04-18 2020-10-22
JP7287459B2 (ja) 2019-04-18 2023-06-06 日本電信電話株式会社 発話画像化装置、発話画像化方法及びプログラム
CN111835926A (zh) * 2020-07-23 2020-10-27 中国平安财产保险股份有限公司 基于语音交互的智能语音外呼方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110049270B (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
CN110392913B (zh) 在共用的启用语音的装置上处理呼叫
US8351581B2 (en) Systems and methods for intelligent call transcription
US7706510B2 (en) System and method for personalized text-to-voice synthesis
CN108141498B (zh) 一种翻译方法及终端
US7027986B2 (en) Method and device for providing speech-to-text encoding and telephony service
US10776588B2 (en) Smartphone-based telephone translation system
JP5042194B2 (ja) 話者テンプレートを更新する装置及び方法
US20130003945A1 (en) Method and Device for Providing Speech-to-Text Encoding and Telephony Service
CN102903361A (zh) 一种通话即时翻译系统和方法
CN103973877A (zh) 一种在移动终端中利用文字实现实时通话的方法和装置
CA2539649C (en) System and method for personalized text-to-voice synthesis
JP2015100054A (ja) 音声通信システム、音声通信方法及びプログラム
JP6448950B2 (ja) 音声対話装置及び電子機器
JP2010103751A (ja) 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP6549009B2 (ja) 通信端末及び音声認識システム
JPWO2015083741A1 (ja) 中継装置、表示装置および通信システム
EP2913822B1 (en) Speaker recognition
CN111884886B (zh) 一种基于话机的智能家居的通信方法和通信系统
US20230254411A1 (en) Group calling system, group calling method, and program
JP2013257428A (ja) 音声認識装置
JP4583350B2 (ja) 携帯端末装置、着信音出力方法
TW201814508A (zh) 將電話機的語音訊號輸入到智慧裝置的方法、電子裝置及具有非揮發性儲存裝置之電腦
US10178227B2 (en) Personalizing the audio visual experience during telecommunications
JP2016144024A (ja) 音声メモ保存機能を有する電話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170711