JP2015100054A

JP2015100054A - 音声通信システム、音声通信方法及びプログラム

Info

Publication number: JP2015100054A
Application number: JP2013239470A
Authority: JP
Inventors: 山口　義和; Yoshikazu Yamaguchi; 義和山口; 裕司青野; Yuji Aono; 石原　晋也; Shinya Ishihara; 晋也石原; 豊國田; Yutaka Kunida; 義男神田; Yoshio Kanda; 野村　英司; Eiji Nomura; 英司野村; 雄二大石; Yuji Oishi
Original assignee: Nippon Telegraph and Telephone Corp; Nippon Telegraph and Telephone East Corp
Current assignee: Nippon Telegraph and Telephone Corp; Nippon Telegraph and Telephone East Corp
Priority date: 2013-11-20
Filing date: 2013-11-20
Publication date: 2015-05-28

Abstract

【課題】音声通信において要件を簡単かつ適切に知る。
【解決手段】発信端末２がテキスト変換サーバ１へ着信端末３との通話要求を送信する。発信端末２が着信端末３との通話が確立する前に要件音声を入力する。発信端末２がテキスト変換サーバ１へ要件音声を送信する。テキスト変換サーバ１が要件音声を音声認識した認識結果に基づいて要件テキストを生成する。テキスト変換サーバ１が要件テキストを着信端末３へ送信する。テキスト変換サーバ１が発信端末２から受信した通話要求に応じて着信端末３へ着信通知を送信する。着信端末２がテキスト変換サーバ１から受信した着信通知に応じてテキスト変換サーバ１へ着信指示を送信する。着信端末２がテキスト変換サーバ１から受信した要件テキストを表示する。テキスト変換サーバ１が着信端末３から受信した着信指示に応じて発信端末２と着信端末３との通話を確立する。
【選択図】図１

Description

この発明は、音声通信技術に関する。

固定電話、携帯電話、携帯端末などにより音声通話を行う場合、着信側では対話を通して発信側の発話する音声を聞かなければ、なぜ電話をかけているのか、その内容がわからない。例えば、緊急を要する要件で電話をかけていることが対話における早い段階で判別できれば、以降の対話がスムーズに進むことを期待できる。

このような問題を解決する方法として、例えば特許文献１の技術が開示されている。特許文献１には、電話を発信する前に発信側端末で要件の内容を記したテキストを入力し、着信側端末では着信を通知すると同時にそのテキストを表示することで、要件を簡単に知らせる方法が記載されている。

特開２００９−２０６７５６号公報

特許文献１の従来技術では、発信する際に事前にテキストを入力する操作が煩わしいという課題がある。その理由は大きく二つ挙げられる。一つは、緊急を要する場合は早く着信して欲しいことからテキストなどを入力する余裕がないという時間の問題である。もう一つは、電話端末は通常独自の操作性を必要としているが、子供や老人などが発信者である場合、テキスト入力の操作に不慣れで難しい場合があるというユーザインタフェースの問題である。

また、テキストを入力する代わりに予め用意した定型文を選択させる方法も考えられる。しかし、この方法では、予め想定された要件の入力しかできないため、より詳細な内容を伝えることができない。

この発明の目的は、音声通信において要件を簡単かつ正確に知ることができる技術を提供することである。

上記の課題を解決するために、この発明の音声通信システムは以下のステップを含む。発信端末は、着信端末との通話を要求する。発信端末は、着信端末との通話が確立する前に発信者が要件を発話した要件音声を収音する。音声認識部は、要件音声を音声認識した認識結果に基づいて要件テキストを生成する。テキスト表示部は、要件テキストを表示する。通話管理部は、発信端末と着信端末との通話を確立する。

この発明の音声通信技術によれば、発信側の発話した内容をテキスト化して着信側に表示することで、対話によって確認することなく要件を簡単かつ正確に知ることができる。すなわち、発信側において煩雑なテキスト入力操作を回避しつつ要件の自由な表現を可能とし、着信側が要件を把握するまでの時間を短縮することができる。したがって、音声通信において要件を把握する際の利用者の負担を軽減することができる。

図１は、第一実施形態の音声通信システムの機能構成を例示する図である。図２は、第一実施形態のテキスト変換サーバの機能構成を例示する図である。図３は、発信端末の機能構成を例示する図である。図４は、着信端末の機能構成を例示する図である。図５は、第一実施形態の音声通信方法の処理フローを例示する図である。図６は、第二実施形態の音声通信システムの機能構成を例示する図である。図７は、第二実施形態のテキスト変換サーバの機能構成を例示する図である。図８は、第二実施形態の音声通信方法の処理フローを例示する図である。図９は、第三実施形態の音声通信システムの機能構成を例示する図である。図１０は、第三実施形態のテキスト変換サーバの機能構成を例示する図である。図１１は、第三実施形態の音声通信方法の処理フローを例示する図である。図１２は、第四実施形態の音声通信システムの機能構成を例示する図である。図１３は、第四実施形態のテキスト変換サーバの機能構成を例示する図である。図１４は、第四実施形態の音声通信方法の処理フローを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
図１を参照して、第一実施形態に係る音声通信システムの機能構成の一例を説明する。第一実施形態に係る音声通信システムは、テキスト変換サーバ１、少なくとも１台の発信端末２及び少なくとも１台の着信端末３を含む。テキスト変換サーバ１、発信端末２及び着信端末３はネットワーク９に接続される。ネットワーク９は、接続される各端末が相互に音声通信可能なように構成されたネットワークであり、例えば、アナログもしくはデジタルの公衆電話網もしくは構内電話網、またはインターネットやＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）などのパケット交換網で構成することができる。また、ネットワーク９を構成する物理媒体は有線／無線の別を問わず、無線ＬＡＮやＷ−ＣＤＭＡ（Wideband Code Division Multiplexing Access、広帯域符号分割多重接続）、ＬＴＥ（Long Term Evolution）などに代表される携帯電話回線、Bluetooth（登録商標）のような近距離無線通信などを一部に利用していてもよい。

図２を参照して、第一実施形態に係るテキスト変換サーバ１の機能構成の一例を説明する。テキスト変換サーバ１は、制御部１０１、メモリ１０２、要件抽出部１０、音声認識部１１、テキスト送信部１２及び通話管理部１３を含む。テキスト変換サーバ１は、例えば、中央演算処理装置（Central Processing Unit、ＣＰＵ）、主記憶装置（Random Access Memory、ＲＡＭ）等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。テキスト変換サーバ１は、例えば、制御部１０１の制御のもとで各処理を実行する。テキスト変換サーバ１に入力されたデータや各処理で得られたデータは、例えば、メモリ１０２に格納され、メモリ１０２に格納されたデータは必要に応じて読み出されて他の処理に利用される。

図３を参照して、音声通信システムに含まれる発信端末２の機能構成の一例を説明する。発信端末２は、マイクＭ２、スピーカＳ２、制御部２０１、メモリ２０２、発呼部２０、要件入力部２１、要件送信部２２及び通話部２３を含む。発信端末２は、例えば、中央演算処理装置（Central Processing Unit、ＣＰＵ）、主記憶装置（Random Access Memory、ＲＡＭ）等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。発信端末２は、例えば、制御部２０１の制御のもとで各処理を実行する。発信端末２に入力されたデータや各処理で得られたデータは、例えば、メモリ２０２に格納され、メモリ２０２に格納されたデータは必要に応じて読み出されて他の処理に利用される。発信端末２は、具体的には、パーソナル・コンピュータや携帯電話、スマートフォン、タブレット端末などである。

図４を参照して、音声通信システムに含まれる着信端末３の機能構成の一例を説明する。着信端末３は、マイクＭ３、スピーカＳ３、制御部３０１、メモリ３０２、テキスト受信部３０、テキスト表示部３１、着呼部３２及び通話部３３を含む。着信端末３は、例えば、中央演算処理装置（Central Processing Unit、ＣＰＵ）、主記憶装置（Random Access Memory、ＲＡＭ）等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。着信端末３は、例えば、制御部３０１の制御のもとで各処理を実行する。着信端末３に入力されたデータや各処理で得られたデータは、例えば、メモリ３０２に格納され、メモリ３０２に格納されたデータは必要に応じて読み出されて他の処理に利用される。着信端末３は、具体的には、パーソナル・コンピュータや携帯電話、スマートフォン、タブレット端末などである。

図５を参照して、第一実施形態に係る音声通信システムが実行する音声通信方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップＳ２０において、発信端末２に含まれる発呼部２０は、テキスト変換サーバ１へ着信端末３との通話要求を送信する。通話要求はネットワーク９を構成する音声通信プロトコルに従って行われる。着信端末３が外線電話である場合には、着信端末３に一意に割り当てられた電話番号をダイヤルすることで行われる。着信端末３が内線電話である場合には、テキスト変換サーバ１に割り当てられた電話番号をダイヤルし、テキスト変換サーバ１に一旦着信した後に着信端末３に割り当てられた内線番号をダイヤルすることもあり得る。また、テキスト変換サーバ１に一旦着信した後に、複数の着信端末３から着信させる着信端末３を所定の基準に則って自動的に選択することもあり得る。

ステップＳ１３ａにおいて、テキスト変換サーバ１に含まれる通話管理部１３は、発信端末２から受信した通話要求に応じて着信端末３へ着信通知を送信する。この際、発信端末２とテキスト変換サーバ１との通話経路が確立される。以降、発信端末２と着信端末３との通話が確立するまでの時間を着信待ち状態と呼ぶ。

ステップＳ２１において、発信端末２に含まれる要件入力部２１は、着信端末３との通話が確立する前に発信者が要件を発話した要件音声を、マイクＭ２を用いて収音する。要件入力部２１は、要件音声の収音に先立って、発話を促すアナウンスを、スピーカＳ２を用いて再生するように構成することも可能である。このとき、テキスト変換サーバ１に含まれる要件抽出部１０により、発信端末２とテキスト変換サーバ１との通話経路を介して発話を促すアナウンスを再生するように構成してもよい。

この例では、発信端末２が発信要求を送信して着信待ち状態となってから要件音声の収音を行っているが、発信要求を送信するよりも前に要件音声の収音を行うように構成してもよい。すなわち、要件入力部２１により収音した要件音声を、例えばメモリ２０２に一時的に蓄積しておき、その後、自動的にもしくは発信者の端末操作により、発呼部２０が発信要求を送信するように構成する。

発信要求送信後かつ着信通知送信前に、要件音声の収音を行うように構成してもよい。その場合は、要件音声のメモリ２０２への蓄積は行わず、自動的にもしくは発信者の端末操作により、発呼部２０が発信要求を送信するように構成する。

ステップＳ２２において、発信端末２に含まれる要件送信部２２は、テキスト変換サーバ１へ要件音声を送信する。要件送信部２２は、テキスト変換サーバ１との通話経路へ要件音声を入力する。要件送信部２２は、要件入力部２１の処理と同時に実行することができる。つまり、要件入力部２１がマイクＭ２を用いて収音している音声信号を端末内部に蓄積することなく直接要件送信部２２を経由してテキスト変換サーバ１との通話経路へ入力することができる。要件音声の収音を事前に行なっていた場合には、例えばメモリ２０２に蓄積されていた要件音声を読み込んで、テキスト変換サーバ１との通話経路へ入力すればよい。

ステップＳ１０において、テキスト変換サーバ１に含まれる要件抽出部１０は、発信端末２から要件音声を抽出する。要件抽出部１０は、発信端末２との通話経路が確立した時点から要件音声の抽出を開始してもよいし、発話の開始を検知して要件音声の抽出を開始してもよい。要件抽出部１０は、予め定めた時間だけ要件音声の抽出を行なってもよいし、所定の事象を検知して要件音声の抽出を終了してもよい。ここで、所定の事象とは、発信端末２からの特定のトーン信号が入力された場合や、一定の時間無音が継続した場合などである。

ステップＳ１１において、テキスト変換サーバ１に含まれる音声認識部１１は、要件抽出部１０が出力する要件音声を音声認識して認識結果に基づいて要件テキストを生成する。要件テキストは、認識結果の全文としてもよいし、認識結果の一部であってもよい。認識結果の一部とは、例えば認識結果の文字列を先頭から予め定めたバイト数だけ切り出した文字列である。音声認識の手法は既存の任意の音声認識技術を適用することが可能である。適用する音声認識技術は、リアルタイム性に優れた音声認識技術であることが望ましいが、この限りでない。

ステップＳ１２において、テキスト変換サーバ１に含まれるテキスト送信部１２は、要件テキストを着信端末３へ送信する。要件テキストの送信は、着信通知と同時に行なってもよい。すなわち、この例では、ステップＳ１３ａにおいて、テキスト変換サーバ１は発信端末２から通話要求を受信すると直ちに着信通知を着信端末３へ送信している。しかし、ステップＳ１３ａではテキスト変換サーバ１は発信端末２との通話経路を確立することのみを行い、ステップＳ１２において着信通知と要件テキストを組にして着信端末３へ同時に送信するように構成してもよい。

ステップＳ３０において、着信端末３に含まれるテキスト受信部３０は、テキスト変換サーバ１から要件テキストを受信する。テキスト受信部３０は、受信した要件テキストをテキスト表示部３１へ出力する。

ステップＳ３１において、着信端末３に含まれるテキスト表示部３１は、テキスト変換サーバから受信した要件テキストを表示する。要件テキストの表示は、例えば着信端末３にインストールされ起動しているアプリケーションのウィンドウに出力する。もしくは着信端末３にインストールされているアプリケーションを起動してそのウィンドウに出力する。これにより、着信端末３の備えるディスプレイに要件テキストを表示することができる。

ステップＳ３２において、着信端末３に含まれる着呼部３２は、テキスト変換サーバ１から受信した着信通知に応じて、テキスト変換サーバ１へ着信指示を送信する。着信指示の送信は、着信通知を受信した際に自動的にもしくは発信者の端末操作により行われる。

ステップＳ１３ｂ、Ｓ２３、Ｓ３３において、テキスト変換サーバ１に含まれる通話管理部１３は、着信端末３から受信した着信指示に応じて発信端末２と着信端末３との通話を確立する。以降は、発信端末２に含まれるマイクＭ２で収音した音声は着信端末３に含まれるスピーカＳ３から再生され、着信端末３に含まれるマイクＭ３で収音した音声は発信端末２に含まれるスピーカＳ２から再生される。これにより、発信者と着信者の対話が可能となる。ネットワーク９がデジタル回線で構成されている場合には、マイクＭ２もしくはＭ３から入力されるアナログ音声をＡ／Ｄ変換器によりデジタル音声に変換し、ネットワーク９から送信されたデジタル音声をＤ／Ａ変換器によりアナログ音声に変換しスピーカＳ２もしくはＳ３から出力する。通話管理部１３は、発信端末２または着信端末３から通話完了指示を受けると、発信端末２と着信端末３との通話経路を遮断し、もう片方へ通話終了指示を送信する。

このように、第一実施形態の音声通信システムによれば、発信者の発話する要件がテキスト化され通話を開始する前に着信者に表示することができる。これにより、対話によって確認することなく、通話の要件を簡単かつ正確に知ることができる。

［第二実施形態］
図６を参照して、第二実施形態に係る音声通信システムの機能構成の一例を説明する。第二実施形態に係る音声通信システムは、テキスト変換サーバ４、少なくとも１台の発信端末２及び少なくとも１台の着信端末３を含む。テキスト変換サーバ４、発信端末２及び着信端末３はネットワーク９に接続される。したがって、第二実施形態に係る音声通信システムと第一実施形態に係る音声通信システムとの相違点はテキスト変換サーバの構成が異なることである。

図７を参照して、第二実施形態に係るテキスト変換サーバ４の機能構成の一例を説明する。テキスト変換サーバ４は、第一実施形態に係るテキスト変換サーバ１と同様に、制御部１０１、メモリ１０２、要件抽出部１０、音声認識部１１、テキスト送信部１２及び通話管理部１３を含み、さらに単語抽出部１４を含む。テキスト変換サーバ４は、例えば、中央演算処理装置（Central Processing Unit、ＣＰＵ）、主記憶装置（Random Access Memory、ＲＡＭ）等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。テキスト変換サーバ４は、例えば、制御部１０１の制御のもとで各処理を実行する。テキスト変換サーバ１に入力されたデータや各処理で得られたデータは、例えば、メモリ１０２に格納され、メモリ１０２に格納されたデータは必要に応じて読み出されて他の処理に利用される。

図８を参照して、第二実施形態に係る音声通信システムが実行する音声通信方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。ステップＳ１１までの処理は第一実施形態に係る音声通信システムと同様である。

ステップＳ１４において、テキスト変換サーバ１に含まれる単語抽出部１４は、音声認識部１１の出力する音声認識結果から単語を抽出して要件テキストを生成する。

単語抽出部１４は、単語の抽出を以下のように行う。まず、単語抽出部１４は、要件テキストを複数の発話に分割する。発話とは、文書やフレーズなど、数百ミリ程度の発話しない区間で区切られた音声区間のことである。次に、単語抽出部１４は、発話ごとに、予め登録しておいたキーワード、名詞等の特定の品詞、出現頻度の高い単語、あるいはそれらを含む句（フレーズ）を抽出する。そして、単語抽出部１４は、抽出した単語を連結して要件テキストを生成する。

例えば、音声認識結果が「さっきお母さんから電話があったんだけど、お父さんが倒れて近くの病院に入院したって。病院の名前は○○病院で、、、」であったとする。このとき、「お母さん」「電話」「お父さん」「病院」「入院」が登録されたキーワードであったとする。この場合、要件テキストは「お母さん電話お父さん病院入院」となる。

ステップＳ１２以降の処理は第一実施形態に係る音声通信システムと同様である。

このように、第二実施形態の音声通信システムによれば、要件テキストが重要と考えられる単語のみにより構成されるため、着信側が通話の要件をより簡単に把握することができるようになる。

［第三実施形態］
図９を参照して、第三実施形態に係る音声通信システムの機能構成の一例を説明する。第三実施形態に係る音声通信システムは、テキスト変換サーバ５、少なくとも１台の発信端末２及び少なくとも１台の着信端末３を含む。テキスト変換サーバ５、発信端末２及び着信端末３はネットワーク９に接続される。したがって、第三実施形態に係る音声通信システムと第一実施形態に係る音声通信システムとの相違点はテキスト変換サーバの構成が異なることである。

図１０を参照して、第三実施形態に係るテキスト変換サーバ５の機能構成の一例を説明する。テキスト変換サーバ５は、第一実施形態に係るテキスト変換サーバ１と同様に、制御部１０１、メモリ１０２、要件抽出部１０、音声認識部１１、テキスト送信部１２及び通話管理部１３を含み、さらに要約部１５を含む。テキスト変換サーバ５は、例えば、中央演算処理装置（Central Processing Unit、ＣＰＵ）、主記憶装置（Random Access Memory、ＲＡＭ）等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。テキスト変換サーバ５は、例えば、制御部１０１の制御のもとで各処理を実行する。テキスト変換サーバ１に入力されたデータや各処理で得られたデータは、例えば、メモリ１０２に格納され、メモリ１０２に格納されたデータは必要に応じて読み出されて他の処理に利用される。

図１１を参照して、第三実施形態に係る音声通信システムが実行する音声通信方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。ステップＳ１１までの処理は第一実施形態に係る音声通信システムと同様である。

ステップＳ１５において、テキスト変換サーバ１に含まれる要約部１５は、音声認識部１１の出力する音声認識結果を要約して要件テキストを生成する。

要約部１５が要件テキストを要約する方法は、既存の任意の要約技術を適用することができる。例えば、「特開２０１１−２４８４０９号公報」に開示された要約技術では、事前に単語の重要度を計算しておき、要約対象のテキストに含まれる単語の重要度を発話単位で平均化し、平均重要度の最も高い、あるいは上位数発話を選択して要約句とする。もしくは、長文中の重要な部分のみを繋いで要約文としたり、複数の文章の重要な部分のみを繋いで一文にまとめたりする生成型の要約方法を用いてもよい。

例えば、音声認識結果が「さっきお母さんから電話があったんだけど、お父さんが倒れて近くの病院に入院したって。病院の名前は○○病院で、、、」であったとする。このとき、「お父さんが倒れて近くの病院に入院したって」が最も重要度の高い発話、すなわち要約句、であると判断されたとする。この場合、要件テキストは「お父さんが倒れて近くの病院に入院したって」などとなる。

なお、第二実施形態と第三実施形態は組み合わせることができ、単語抽出部１４が出力する単語と要約部１５が出力する要約句を組み合わせて要約テキストを生成することも可能である。

例えば、音声認識結果が「さっきお母さんから電話があったんだけど、お父さんが倒れて近くの病院に入院したって。病院の名前は○○病院で、、、」であったとする。このとき、「お母さん」「電話」「お父さん」「病院」「入院」が登録されたキーワードであり、「お父さんが倒れて近くの病院に入院したって」が最も重要度の高い発話、すなわち要約句、であると判断されたとする。この場合、要件テキストは「（お父さん病院入院）お父さんが倒れて近くの病院に入院したって」となる。

このように、第三実施形態の音声通信システムによれば、要件テキストが重要なキーワードを含む自然な文章に要約されているため、着信側が通話の要件をより簡単に把握することができるようになる。

［第四実施形態］
図１２を参照して、第四実施形態に係る音声通信システムの機能構成の一例を説明する。第四実施形態に係る音声通信システムは、テキスト変換サーバ６、少なくとも１台の発信端末２及び少なくとも１台の着信端末３を含む。テキスト変換サーバ６、発信端末２及び着信端末３はネットワーク９に接続される。したがって、第四実施形態に係る音声通信システムと第一実施形態に係る音声通信システムとの相違点はテキスト変換サーバの構成が異なることである。

図１３を参照して、第四実施形態に係るテキスト変換サーバ６の機能構成の一例を説明する。テキスト変換サーバ６は、第一実施形態に係るテキスト変換サーバ１と同様に、制御部１０１、メモリ１０２、要件抽出部１０、音声認識部１１、テキスト送信部１２及び通話管理部１３を含み、さらに感情認識部１６、記号変換部１７及び記号付与部１８を含む。テキスト変換サーバ６は、例えば、中央演算処理装置（Central Processing Unit、ＣＰＵ）、主記憶装置（Random Access Memory、ＲＡＭ）等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。テキスト変換サーバ６は、例えば、制御部１０１の制御のもとで各処理を実行する。テキスト変換サーバ１に入力されたデータや各処理で得られたデータは、例えば、メモリ１０２に格納され、メモリ１０２に格納されたデータは必要に応じて読み出されて他の処理に利用される。

図１４を参照して、第四実施形態に係る音声通信システムが実行する音声通信方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。ステップＳ１１までの処理は第一実施形態に係る音声通信システムと同様である。

ステップＳ１６において、テキスト変換サーバ１に含まれる感情認識部１６は、要件抽出部１０の出力する要件音声もしくは音声認識部１１の出力する音声認識結果を用いて発話者の感情状態を認識する。

感情認識部１６が発話者の感情状態を認識する方法は、既存の任意の感情認識技術を適用することができる。例えば、「特許第４５８０１９０号公報」に開示された感情認識技術では、音声から基本周波数、パワー、動的特徴量の時間変化特性といった音声特徴量ベクトルを算出し、事前に学習した笑い、怒り、悲しみといった感情状態に対応する符号長を用いて尤度を計算し、もっとも高いものを感情状態として判定する。また、音声に含まれる文字（全ての文字あるいは母音のみ）とその発話時間長から発話ごとの平均話速を計測し、慌て／焦りといった感情状態を判定する。

ステップＳ１７において、テキスト変換サーバ１に含まれる記号変換部１７は、感情認識部１６の出力する感情状態を予め定めた対応する感情表現記号に変換する。感情状態から感情表現記号への変換は、事前に用意した対応表を用いて該当する感情表現記号を決定する。感情表現記号とは、感情状態を表す短い文字列や、文字列を人の顔に模して慣用される、いわゆる顔文字である。

例えば、感情状態が「怒り」であれば、「（怒）」あるいは「(-_-メ)」といった感情表現記号に変換する。感情状態が「悲しみ」であれば、「（悲）」あるいは「(T_T)」といった感情表現記号に変換する。感情状態が「慌て」であれば、「（慌）」あるいは「(*_*;)」といった感情表現記号に変換する。各感情状態に対してどのような文字、顔文字を利用するかは予め利用者が決定できるようにしておくことも可能である。

ステップＳ１８において、テキスト変換サーバ１に含まれる記号付与部１８は、記号変換部１７の出力する感情表現記号を音声認識部１１の出力する要件テキストへ付与する。感情表現記号の付与は、例えば発話ごとの文字列の末尾に挿入することで行う。

例えば、音声認識結果が「さっきお母さんから電話があったんだけど、お父さんが倒れて近くの病院に入院したって。病院の名前は○○病院で、、、」であったとする。このとき、「（慌）」「(T_T)」を「慌て」「悲しみ」を表す感情表現記号とする。この場合、要件テキストは「さっきお母さんから電話があったんだけど（慌）、お父さんが倒れて近くの病院に入院したって(T_T)。病院の名前は○○病院で、、、」などとなる。

なお、第四実施形態は第二実施形態及び第三実施形態と任意に組み合わせることができ、単語抽出部１４が出力する単語、要約部１５が出力する要約句、記号変換部１７の出力する感情表現記号を組み合わせて要約テキストを生成することも可能である。

例えば、音声認識結果が「さっきお母さんから電話があったんだけど、お父さんが倒れて近くの病院に入院したって。病院の名前は○○病院で、、、」であったとする。このとき、「お母さん」「電話」「お父さん」「病院」「入院」が登録されたキーワードであり、「お父さんが倒れて近くの病院に入院したって」が最も重要度の高い発話、すなわち要約句、であると判断され、「（慌）」「(T_T)」を「慌て」「悲しみ」を表す感情表現記号とする。この場合、要件テキストは「（お父さん病院入院）お父さんが倒れて近くの病院に入院したって(T_T)」となる。

このように、第四実施形態の音声通信システムによれば、要件を把握するために有用なより多くの情報を着信側に表示することができるため、着信側が通話の要件をより正確に把握することができるようになる。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１、４、５、６テキスト変換サーバ
２発信端末
３着信端末
１０要件抽出部
１１音声認識部
１２テキスト送信部
１３通話管理部
２０発呼部
２１要件入力部
２２要件送信部
２３通話部
３０テキスト受信部
３１テキスト表示部
３２着呼部
３３通話部
１０１、２０１、３０１制御部
１０２、２０２、３０２メモリ
Ｍ２、Ｍ３マイク
Ｓ２、Ｓ３スピーカ

Claims

発信端末と着信端末とテキスト変換サーバを含む音声通信システムであって、
上記発信端末は、
上記テキスト変換サーバへ上記着信端末との通話要求を送信する発呼部と、
上記着信端末との通話が確立する前に発信者が要件を発話した要件音声を収音する要件入力部と、
上記テキスト変換サーバへ上記要件音声を送信する要件送信部と、
を含み、
上記テキスト変換サーバは、
上記要件音声を音声認識した認識結果に基づいて要件テキストを生成する音声認識部と、
上記要件テキストを上記着信端末へ送信するテキスト送信部と、
上記発信端末から受信した上記通話要求に応じて上記着信端末へ着信通知を送信し、上記着信端末から受信した着信指示に応じて上記発信端末と上記着信端末との通話を確立する通話管理部と、
を含み、
上記着信端末は、
上記テキスト変換サーバから受信した上記着信通知に応じて、上記テキスト変換サーバへ上記着信指示を送信する着呼部と、
上記テキスト変換サーバから受信した上記要件テキストを表示するテキスト表示部と、
を含む音声通信システム。
請求項１に記載の音声通信システムであって、
上記音声認識部は、上記認識結果の全文を上記要件テキストとするものである
音声通信システム。
請求項１に記載の音声通信システムであって、
上記音声認識部は、上記認識結果の一部を上記要件テキストとするものである
をさらに含む音声通信システム。
請求項１に記載の音声通信システムであって、
上記テキスト変換サーバは、
上記認識結果を要約して上記要件テキストを生成する要約部
をさらに含む音声通信システム。
請求項１に記載の音声通信システムであって、
上記テキスト変換サーバは、
上記認識結果から単語を抽出して上記要件テキストを生成する単語抽出部
をさらに含む音声通信システム。
請求項１から５のいずれかに記載の音声通信システムであって、
上記テキスト変換サーバは、
上記要件音声に基づいて発信者の感情状態を認識する感情認識部と、
上記感情状態を予め定めた対応する感情表現記号に変換する記号変換部と、
上記感情表現記号を上記要件テキストへ付与する記号付与部と、
をさらに含む音声通信システム。
請求項１から６のいずれかに記載の音声通信システムであって、
上記要件入力部は、
上記要件音声の収音に先立って、発話を促すアナウンスを再生するものである
をさらに含む音声通信システム。
発信端末が、着信端末との通話を要求する発呼ステップと、
上記発信端末が、上記着信端末との通話が確立する前に発信者が要件を発話した要件音声を収音する要件入力ステップと、
音声認識部が、上記要件音声を音声認識した認識結果に基づいて要件テキストを生成する音声認識ステップと、
上記着信端末が、上記要件テキストを表示するテキスト表示ステップと、
通話管理部が、上記発信端末と上記着信端末との通話を確立する通話確立ステップと、
を含む音声通信方法。
請求項１から６のいずれかに記載のテキスト変換サーバまたは請求項１から６のいずれかに記載の発信端末または請求項１から６のいずれかに記載の着信端末としてコンピュータを機能させるためのプログラム。