以下、図面を参照しつつ、本発明の様々な実施形態について説明する。ただし、本発明の技術的範囲はそれらの実施形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。
図1は、通信システム1における処理概要の一例を示す図である。
通信システム1は、第1端末2、音声認識サーバ4、第2端末5等を有する。第1端末2は、留守番電話サーバ(不図示)に音声メッセージを入力する通信端末の一例であり、例えばスマートフォン及びフィーチャーフォン等の携帯電話端末である。音声認識サーバ4は、留守番電話サーバが記憶する音声情報に対して音声認識処理を実行して、複数の単語によって構成される文字列を生成する。第2端末5は、音声認識サーバ4が生成した文字列を表示する装置の一例であり、例えばスマートフォン及びフィーチャーフォン等の携帯電話端末である。第2端末5は、表示部53を有する。
音声認識サーバ4はさらに、文字列を構成する単語毎に音声認識処理の信頼度(以下、単語信頼度とも称する)を算出する。単語信頼度は、例えば事後確率により算出される。単語信頼度を算出する技術は、よく知られているので、ここでは詳細な説明は省略する。単語信頼度は、0〜1の値をとり、0に近いほど信頼度が低い、即ち音声認識処理の過程で生成された他の単語の中に有力な候補があることを示し、1に近いほど信頼度が高い、即ち他の単語の中に有力な候補がないことを示す。
図1に示す例において、第1端末2の利用者は、第2端末5宛に電話をかけたが第2端末5の利用者は電話に出ず、第1端末2は留守番電話サーバに接続される。第1端末2の利用者は、「帰りにいつものマヨネーズ買ってきて」という音声メッセージを第1端末2に入力し、音声情報として留守番電話サーバに記憶させる。
音声認識サーバ4は、留守番電話サーバが第2端末5宛の音声情報を記憶したことを検出し、音声情報に対して音声認識処理を実行する。ここで、音声認識サーバ4は、音声認識処理によって「帰りにいつもの前のやつ買ってきて」という文字列を生成したとする。即ち、音声認識サーバ4は、「帰り」「に」「いつも」「の」「買って」「きて」の各単語については正しく認識したが、「マヨネーズ」を「前」「の」「やつ」と誤認識した。日本語において、「マヨネーズ」と「前のやつ」とは発音およびアクセントが互いに似ているため、このような誤認識が起こり得る。また、音声認識サーバ4は、正しく認識した各単語の信頼度として、それぞれ0.8〜0.9を算出したが、誤認識した「前」「の」「やつ」の各単語の信頼度として、0.5〜0.6を算出した。音声認識サーバ4は、生成した複数の単語と、複数の単語のそれぞれに関連付けた信頼度とを第2端末5に送信する。
第2端末5は、受信した複数の単語の中から信頼度が第1閾値である0.7以上の単語を抽出し、表示する文字列を生成する。第2端末5は、信頼度が第1閾値以上の単語から構成された「帰りに」「いつもの」「買ってきて」の3つの文字列は表示部53に表示するが、信頼度が第1閾値未満である「前」「の」「やつ」の各単語は表示部53に表示しない。第2端末5は、信頼度が第1閾値未満の単語を表示しないため、信頼度が低い単語に基づいて利用者が音声メッセージの内容を誤解することは、減少する。
以下に説明する各実施形態は、特に、音声認識により生成された文字列中に信頼度の低い単語が混じる場合に有効である。
図2は、一般的な音声認識技術により生成された文字列中に信頼度の低い単語が混じる理由の一例を説明する図である。
一般に音声認識処理では、人間の発する音声を構成する「a」、「i」、「k」等の音素の周波数特性を表す音響モデル、音素の並びと単語との対応付けを表す発音辞書、及び、単語の並び方に関する制約を表す言語モデルが使用される。音声認識処理は、音響モデル、発音辞書及び言語モデルを用いて、音声情報から変換候補として複数の文字列を生成し、複数の文字列の中から一つの文字列を選択して認識結果として出力する。以下、音声情報に対応する変換候補を候補文字列と称し、音声情報に対応する認識結果を認識文字列と称することがある。留守番電話サービスを利用して録音した音声情報の場合、候補文字列及び認識文字列は、通常一つ以上の文を含み、一つの文は、複数の単語から構成される。
音声認識処理は、多くの場合、音声情報の先頭から順に単語の候補を複数抽出し、複数の単語の候補から候補文字列を生成し、候補文字列の中から認識文字列を選択する。
ここで、各単語の信頼度である単語信頼度は、音響モデル及び発音辞書に基づいて算出されるが、認識文字列は、音響モデル及び発音辞書に加えて言語モデルに基づいて生成される場合を考える。単語信頼度が高い単語を抽出する場合、例えば、図中の点線で示すように、(1)では名詞A、(2)では動詞α、(3)では助動詞bがそれぞれ抽出されたとする。ここで、認識文字列を生成するために単語を抽出する場合、単語の並び方に関する制約を考慮する。例えば、(1)の名詞Aの後に動詞が続くことは通常ないという制約があるとする。この場合、(2)では動詞α、βより単語信頼度の低い助詞γが選択される。また、例えば、(2)の助詞γの後に助動詞が続くことは通常ないという制約があるとする。この場合、(3)では助動詞bより単語信頼度の低い動詞aが選択される。
このように、音声認識の信頼度を単語単位ではなく文単位で考慮した場合には、複数の単語選択肢(例えば単語α、βおよびγ)のうちから信頼度の低い単語(例えば単語γ)を選択したほうが、むしろ文単位での信頼度が向上する、ということが起こり得る。このようにして、文全体の音声認識信頼度が低くはない場合であっても、その認識文字列中には、助詞γや動詞aのように単語信頼度が低い単語が混じることがある。
音声認識処理の対象となった音声メッセージの内容を誤解するおそれを軽減するために、音声認識の信頼度が低い文全体を表示しないといった工夫も考えられる。しかし、たとえ音声認識の信頼度が高い文のみを表示する実装をしたとしても、「マヨネーズ」と「前のやつ」という具体例にて示した通り、依然として音声メッセージ(帰りにいつものマヨネーズ買ってきて)の内容を誤解させてしまうような一文(帰りにいつもの前のやつ買ってきて)を表示させてしまうことが起こり得る。
本発明者は、留守番電話サービスの特性を鑑みて、認識文字列を文単位でみた場合には音声認識信頼度が低くはない場合であっても、その認識文字列中に混じる信頼度の低い単語が音声メッセージの内容を誤解させてしまうことがあり得るという技術的課題を見出した。前述した具体例において、「帰りにいつもの前のやつ買ってきて」というメッセージを受け取った第2端末5の利用者が「前のやつ」についてマヨネーズとは別の心当たりを有する場合には、第2端末5の利用者は、第1端末2の利用者が意図しない全く別のものを買ってきてしまうことにもなりかねない。
<実施形態>
図3は、通信システム1の概略構成の一例を示す図である。
通信システム1は、第1端末2、留守番電話サーバ3、音声認識サーバ4、第2端末5等を有する。第1端末2、留守番電話サーバ3、音声認識サーバ4及び第2端末5は、LTE(Long Term Evolution)ネットワーク、インターネット等の通信ネットワーク6を介して接続される。
第1端末2は、VoLTE(Voice over LTE)等の通信方式により、通信ネットワーク6を介して第2端末5へ音声通話を要求する。第1端末2は、第2端末5が応答しないとき、利用者に音声メッセージを入力させ、入力された音声メッセージを留守番電話サーバ3に送信する。
留守番電話サーバ3は、留守番電話サービスを提供するサーバである。留守番電話サーバ3は、第1端末2から入力された第2端末5宛の音声メッセージを音声情報として記憶し、第2端末5宛の音声情報を記憶したことを通信ネットワーク6を介して第2端末5に通知する。留守番電話サーバ3は、記憶した音声情報を第2端末5からの要求に応じて第2端末5に送信する。
図4は、音声認識サーバ4の概略構成の一例を示す図である。
音声認識サーバ4は、音声情報を第2端末5から受信して、受信した音声情報に対して音声認識処理を実行する。音声認識サーバ4は、音声認識処理によって生成された認識文字列に含まれる複数の単語、及び、複数の単語のそれぞれを生成したときの音声認識処理の信頼度を生成し、単語と信頼度とを関連付けて第2端末5に送信する。そのために、音声認識サーバ4は、サーバ通信部41と、サーバ記憶部42と、サーバ処理部43とを有する。
サーバ通信部41は、LTE等の無線の通信インターフェース回路を有する。サーバ通信部41は、通信ネットワーク6を介して、第2端末5等と通信を行い、第2端末5等から受信したデータをサーバ処理部43に供給する。サーバ通信部41は、サーバ処理部43から供給されたデータを第2端末5等に送信する。
サーバ記憶部42は、例えば、半導体メモリ、磁気ディスク装置、及び光ディスク装置のうちの少なくとも一つを有する。サーバ記憶部42は、サーバ処理部43による処理に用いられるドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム、データ等を記憶する。
例えば、サーバ記憶部42は、ドライバプログラムとして、サーバ通信部41を制御する通信デバイスドライバプログラム等を記憶する。また、サーバ記憶部42は、オペレーティングシステムプログラムとして、TCP/IP(Transmission Control Protocol / Internet Protocol)等の通信方式による接続制御プログラム等を記憶する。また、サーバ記憶部42は、アプリケーションプログラムとして、各種データの送受信を行うデータ処理プログラム等を記憶する。コンピュータプログラムは、例えばCD−ROM(Compact Disk Read Only Memory)、DVD−ROM(Digital Versatile Disk Read Only Memory)等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いてサーバ記憶部42にインストールされてもよい。
サーバ記憶部42には、音声認識処理に用いる音響モデル、発音辞書及び言語モデルが記憶される。
サーバ処理部43は、一又は複数個のプロセッサ及びその周辺回路を有する。サーバ処理部43は、音声認識サーバ4の全体的な動作を統括的に制御し、例えば、制御装置及び演算装置を有するCPU(Central Processing Unit)である。サーバ処理部43は、音声認識サーバ4の各種処理がサーバ記憶部42に記憶されているプログラム等に応じて適切な手順で実行されるように、サーバ通信部41等の動作を制御する。サーバ処理部43は、サーバ記憶部42に記憶されているプログラム(ドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム等)に基づいて処理を実行する。また、サーバ記憶部42は、複数のプログラム(アプリケーションプログラム等)を並列に実行できる。
サーバ処理部43は、通信制御部431、音声認識部434及び重要度算出部435を有する。音声認識部434は、音響分析部432及びデコーダ部433を有する。サーバ処理部43が有するこれらの各部は、サーバ処理部43が有するプロセッサ上で実行されるプログラムによって実装される機能モジュールである。あるいは、サーバ処理部43が有するこれらの各部は、独立した集積回路、マイクロプロセッサ、又はファームウェアとして音声認識サーバ4に実装されてもよい。
図5は、第2端末5の概略構成の一例を示す図である。
本実施形態において、第2端末5は、表示端末の一例である。第2端末5は、留守番電話サーバ3から留守電通知を受信すると、留守番電話サーバ3に音声情報取得要求を送信する。第2端末5は、留守番電話サーバ3から音声情報を受信すると、音声認識サーバ4に音声情報変換要求を送信する。第2端末5は、音声情報変換要求に対応する音声認識結果である単語等を受信すると、単語等から表示用文字列を生成し、表示する。そのために、第2端末5は、通信部51と、入力部52と、表示部53と、音声入力部54と、音声出力部55と、記憶部56と、処理部57とを有する。
通信部51は、LTE等の無線の通信インターフェース回路を有する。通信部51は、通信ネットワーク6を介して、留守番電話サーバ3、音声認識サーバ4等と通信を行う。通信部51は、留守番電話サーバ3、音声認識サーバ4等から受信したデータを処理部57に供給する。通信部51は、処理部57から供給されたデータを留守番電話サーバ3、音声認識サーバ4等に送信する。
入力部52は、第2端末5の操作が可能であればどのようなデバイスでもよく、例えば、タッチパネルである。入力部52は、第2端末5の利用者の指示を受け付け、受け付けた指示に対応する信号を発生し、処理部57に出力する。
表示部53は、画像等の出力が可能であればどのようなデバイスでもよく、例えば、タッチパネル式の表示装置、液晶ディスプレイ、有機EL(Electro−Luminescence)ディスプレイ、CRT(Cathode Ray Tube)ディスプレイ等である。表示部53は、処理部57から供給されるデータに応じた画像等を表示する。なお、タッチパネルディスプレイを用いて、入力部52と表示部53とを一体に構成してもよく、本実施形態においては、入力部52と表示部53とが一体に構成されているタッチパネルディスプレイを使用する。
音声入力部54は、マイクロフォン、増幅器及びA/D変換器等を有し、入力された音声をデジタルの音声データに変換して処理部57へ出力する電気回路である。
音声出力部55は、例えば、スピーカ等である。音声出力部55は、処理部57から供給される音声データに応じた音声を発する。
記憶部56は、例えば、半導体メモリ、磁気ディスク装置、及び光ディスク装置のうちの少なくとも一つを有する。記憶部56は、処理部57による処理に用いられるドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム、データ等を記憶する。
例えば、記憶部56は、ドライバプログラムとして、通信部51を制御する通信デバイスドライバプログラム等を記憶する。また、記憶部56は、オペレーティングシステムプログラムとして、TCP/IP等の通信方式による接続制御プログラム等を記憶する。また、記憶部56は、アプリケーションプログラムとして、各種データの送受信を行うデータ処理プログラム等を記憶する。コンピュータプログラムは、例えばCD−ROM、DVD−ROM等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いて記憶部56にインストールされてもよい。
記憶部56には、留守番電話メッセージにおける主要単語、留守番電話サーバ3から送信される音声情報、音声認識サーバ4から送信される複数の単語等から生成される変換結果テーブル等が記憶される。留守番電話メッセージにおける主要単語とは、留守番電話サービスを利用するときに使用されるキーワードであると推定される単語であり、「折り返し」、「電話」等の単語が該当する。
図6は、記憶部56が記憶する変換結果テーブルの一例を示す図である。
変換結果テーブルは、音声情報毎に生成され、音声認識処理により生成された認識文字列を構成する単語、音声情報における単語の開始時点及び終了時点を相互に関連付けて記憶する。音声情報における単語の開始時点は、音声情報の先頭部分からその単語に対応する部分の先頭までの再生に要する時間を示し、終了時点は、音声情報の先頭部分からその単語に対応する部分の末尾までの再生に要する時間を示す。変換結果テーブルは、さらに単語信頼度、単語の重要度を表すためのtf(Term Frequency)値及びidf(Inverse Document Frequency)値等を相互に関連付けて記憶する。変換結果テーブルは、単語の数に応じて行の数が変化する可変長のテーブルである。
tf値とは、認識文字列における単語Xの出現回数Cxを、認識文字列における全ての単語の出現回数の和Caで除した値(Cx/Ca)であり、認識文字列に単語Xが多く現れるほど大きな値となる。認識文字列に多く現れる単語ほど、認識文字列において重要であると考えられるため、tf値が大きいことは、その単語が認識文字列において重要であることを示す。
idf値とは、現在までに生成された認識文字列の総数Saを、単語Xを含む認識文字列の数Sxで除した値の対数(log(Sa/Sx))であり、単語Xを含む認識文字列の数が少ないほど大きな値となる。特定の認識文字列にのみ現れる単語はその認識文字列を他と区別するために重要であると考えられるため、idf値が大きいことは、その単語が認識文字列を区別するために重要であることを示す。例えば、「わたくし」、「失礼」、「します」などの単語は多くの留守番電話メッセージに使用されているため、これらの単語のidf値は小さくなる。
処理部57は、一又は複数個のプロセッサ及びその周辺回路を有する。処理部57は、第2端末5の全体的な動作を統括的に制御し、例えば、制御装置及び演算装置を有するCPUである。処理部57は、第2端末5の各種処理が記憶部56に記憶されているプログラム等に応じて適切な手順で実行されるように、通信部51等の動作を制御する。処理部57は、記憶部56に記憶されているプログラム(ドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム等)に基づいて処理を実行する。また、処理部57は、複数のプログラム(アプリケーションプログラム等)を並列に実行できる。
処理部57は、留守電処理部571、変換処理部572、認識文字列取得部573、信頼度取得部574、抽出部575及び表示制御部577を有する。処理部57が有するこれらの各部は、処理部57が有するプロセッサ上で実行されるプログラムによって実装される機能モジュールである。あるいは、処理部57が有するこれらの各部は、独立した集積回路、マイクロプロセッサ、又はファームウェアとして第2端末5に実装されてもよい。
図7は、通信システム1の動作シーケンスの一例を示す図である。
以下、図7に示したシーケンス図を参照しつつ、通信システム1の動作の例を説明する。以下に説明する動作シーケンスは、各装置において予め各装置の記憶部に記憶されているプログラムに基づき、主に各装置の処理部により各装置の各要素と協働して実行される。
最初に、第1端末2の利用者が第2端末5宛の通話指示を第1端末2に与えると、第1端末2は、第2端末5に通話要求を送信する(S11)。第1端末2は、例えば、SIP(Session Initiation Protocol)を用いて、セッション管理サーバ(不図示)を介して第2端末5にセッション確立要求を送信する。
次に、第1端末2は、所定時間を経過しても第2端末5から通話応答を受信しないとき、留守番電話サービスへ音声メッセージを入力するために、留守番電話サーバ3に第1端末2及び第2端末5の電話番号を送信し、留守番電話サーバ3と通信を開始する。
次に、第1端末2は、第1端末2の利用者が発話する第2端末5宛の音声メッセージを入力し、入力される音声メッセージをデジタル化して順次パケットに格納し、パケットを留守番電話サーバ3に送信する(S12)。
次に、留守番電話サーバ3は、受信したパケットから音声情報を生成し、生成した音声情報を、音声情報を一意に識別可能な音声情報識別子と、入力元である第1端末2及び宛先である第2端末5の電話番号と共に記憶する(S13)。次に、留守番電話サーバ3は、音声情報識別子を含む音声情報の受信通知を第2端末5に送信する(S14)。
次に、第2端末5の留守電処理部571は、留守番電話サーバ3から通信部51を介して音声情報の受信通知を受信する(S15)。次に、留守電処理部571は、音声情報識別子を含む情報取得要求を、通信部51を介して留守番電話サーバ3に送信する(S16)。
次に、留守番電話サーバ3は、情報取得要求を受信すると(S17)、記憶する音声情報の中から音声情報識別子に対応する音声情報を選択し、第2端末5に送信する(S18)。
次に、第2端末5の留守電処理部571は、留守番電話サーバ3から通信部51を介して音声情報を受信することにより音声情報を取得する音声情報取得処理を実行し(S19)、記憶部56に記憶する。次に、変換処理部572は、音声情報を含む音声情報変換要求を、通信部51を介して音声認識サーバ4に送信する(S20)。第2端末5がS19及びS20の処理を実行することにより、留守番電話サーバ3を運用する事業者と異なる事業者が音声認識サーバ4を運用することができる。即ち、留守番電話サーバ3は音声認識サーバ4へ音声情報を送信しないため、留守番電話サーバ3を運用する事業者は、第1端末2と第2端末5との間の通信の秘密の保護を害することがない。
次に、音声認識サーバ4の通信制御部431は、第2端末5からサーバ通信部41を介して音声情報変換要求を受信する(S21)。次に、音声認識部434は、音声情報変換要求に含まれる音声情報に対して音声認識処理を実行する(S22)。音声認識処理において、音声認識部434は、複数の単語を生成する。音声認識処理の詳細については後述する。
次に、音声認識サーバ4の重要度算出部435は、音声認識部434が生成した複数の単語について重要度を算出し、重要度と単語とを関連付けてサーバ記憶部42に記憶する(S23)。例えば、重要度算出部435は、音声認識部434が生成した全ての単語についてtf値及びidf値を算出し、単語と関連付けてサーバ記憶部42に記憶する。
次に、通信制御部431は、音声認識部434が生成した情報及び重要度算出部435が算出した重要度を含む生成情報を、サーバ通信部41を介して第2端末5に送信する(S24)。生成情報は、音声情報から変換された文字データである複数の単語、音声情報における複数の単語それぞれの開始時点、終了時点、複数の単語のそれぞれを生成したときの音声認識処理の単語信頼度及び重要度を含む。
次に、第2端末5の変換処理部572は、音声認識サーバ4から通信部51を介して生成情報を受信する(S25)。変換処理部572は、受信した生成情報から変換結果テーブルを生成し、記憶部56に記憶する。
次に、認識文字列取得部573は、変換結果テーブルから認識文字列を取得する認識文字列取得処理を実行し、信頼度取得部574は、変換結果テーブルから単語信頼度等を複数の単語のそれぞれと関連付けて取得する信頼度取得処理を実行する(S26)。以下、認識文字列取得処理及び信頼度取得処理の両方を含む処理を、取得処理と称することがある。次に、抽出部575は、取得した複数の単語のそれぞれに関連付けられた単語信頼度に基づいて、認識文字列から単語を抽出する抽出処理を実行する(S27)。抽出処理の詳細については後述する。
次に、文字列生成部576は、抽出された表示用単語を含む表示用文字列を生成する第1文字列生成処理を実行し、表示制御部577は、生成した表示用文字列を表示部53に出力し、表示させる第1出力処理を実行する(S28)。以下、第1文字列生成処理と第1出力処理とを含む処理を、表示再生処理と称することがある。表示再生処理の詳細については後述する。以上により、一連のシーケンスは終了する。
図8は、S22で示される音声認識サーバによる音声認識処理の一例を示す図である。
最初に、音響分析部432は、受信した音声情報変換要求に含まれる音声情報に対して音響分析を実行する(S31)。音響分析部432は、音声情報に対してスペクトラム分析を実行して、特徴ベクトルを求める。
次に、デコーダ部433は、音響モデル、発音辞書及び言語モデルを用いて、特徴ベクトルから認識文字列を生成する(S32)。例えば、デコーダ部433は、隠れマルコフモデル(HMM)によりモデル化された音響モデル及び発音辞書を用いて、音声情報の音響的特徴から音素の系列を求める。デコーダ部433は、発音辞書及び言語モデルを用いて、音素の系列から複数の単語と、複数の単語から構成される認識文字列とを生成する。デコーダ部433は、認識文字列を構成する複数の単語を生成する際に、それぞれの単語に対して有力な変換候補となる単語が存在する程度に応じて、その単語の単語信頼度を算出する。デコーダ部433は、音声情報における音響的特徴の出現時点から、各単語の開始時点及び終了時点を算出する。デコーダ部433は、生成した複数の単語を、その開始時点、終了時点及び単語信頼度と関連付けてサーバ記憶部42に記憶する。以上により、音声認識処理は終了する。
図9は、S27で示される第2端末5による抽出処理の一例を示す図である。
最初に、抽出部575は、認識文字列取得部573が取得した認識文字列を構成する単語のうち、表示用単語として抽出可能か否かを判定していない単語が存在するか否かを判定する(S51)。抽出可能か否かを判定していない単語が存在しないとき(S51−N)、抽出処理は終了する。
抽出可能か否かを判定していない単語が存在するとき(S51−Y)、抽出部575は、判定していない単語の中から一つの単語を選択する(S52)。次に、抽出部575は、選択した単語に関連付けられた単語信頼度が所定の第1閾値以上か否かを判定する(S53)。単語信頼度が第1閾値未満のとき(S53−N)、抽出部575は、選択した単語を表示用単語として抽出せずに処理をS51に進める。抽出部575は、単語信頼度が第1閾値未満の単語を表示用単語として抽出しないので、単語信頼度の低い単語に基づいて利用者が音声メッセージの内容を誤解することを防止できる。
単語信頼度が第1閾値以上のとき(S53−Y)、抽出部575は、選択した単語が記憶部56に記憶された主要単語と一致するか否かを判定する(S54)。選択した単語が主要単語と一致するとき(S54−Y)、抽出部575は、選択した単語を表示用単語として抽出し、記憶部56に記憶して(S57)、処理をS51に進める。
選択した単語が主要単語と一致しないとき(S54−N)、抽出部575は、音声認識処理によって現在までに生成された認識文字列の集合に基づいて、選択した単語の重要度を算出する重要度算出処理を実行する(S55)。例えば、抽出部575は、選択した単語に関連付けられたtf値及びidf値の積であるtf−idf値を重要度として算出する。以下、主要単語と一致する単語を抽出し、且つ、主要単語と一致しない単語を抽出しない処理を、第2抽出処理と称することがある。
次に、抽出部575は、算出された重要度が、所定の第2閾値以上か否かを判定する(S56)。重要度が第2閾値以上のとき(S56−Y)、抽出部575は、選択した単語を表示用単語として抽出し、記憶部56に記憶して(S57)、処理をS51に進める。重要度が第2閾値未満のとき(S56−N)、抽出部575は、取得した単語を表示用単語として抽出せずに処理をS51に進める。以下、重要度が第2閾値以上である単語を抽出し、且つ、重要度が第2閾値未満である単語を抽出しない処理を、第3抽出処理と称することがある。
idf値が一定であればtf値が大きいほどtf−idf値は大きくなるため、S56及びS57の処理は、ある単語のtf値が大きいほど、その単語は表示用単語として抽出されやすくなることを示している。また、tf値が一定であればidf値が大きいほどtf−idf値は大きくなるため、S56及びS57の処理は、ある単語のidf値が大きいほど、その単語は表示用単語として抽出されやすくなることを示している。
なお、S54〜S56の処理は、第2抽出処理及び第3抽出処理のいずれかで抽出された単語がS57で表示用単語として抽出され、第2抽出処理及び第3抽出処理のいずれでも抽出されない単語が表示用単語として抽出されないなら、他の処理であってもよい。例えば、抽出部575は、S53−Yのときに重要度算出処理(S55)及び重要度の判定(S56)を実行し、重要度が第2閾値以上のときに、処理をS57に進めてもよい。重要度が第2閾値未満のときには、抽出部575は、重要度が第2閾値未満と判定された単語が主要単語と一致するか否かの判定(S54)を実行し、一致するときは処理をS57に進め、一致しないときは処理をS51に進める。
ここで、第2抽出処理及び第3抽出処理との関係について、具体例を述べて簡単に説明する。第3抽出処理は、留守番電話メッセージにおいてありふれた単語(例:「わたくし」「よろしく」など)は情報としての価値が低いとの思想から、そのような単語を抽出しないために実行される処理である。しかしながら、留守番電話メッセージにおいてありふれた単語であっても、留守番電話の文脈においては情報としての価値が高い単語が存在することを本発明者は見出した。例えば、「折り返し」といった単語は、留守番電話メッセージにおいてありふれた単語であり、重要度は低く算出されてしまうが、実際のところ、留守番電話の文脈においては情報としての価値が高い。そこで、第3抽出処理において重要度が低いと判定され抽出されないような単語であっても、留守番電話の文脈において情報としての価値が高いと考えられる一部の単語(主要単語)については、重要度の高低にかかわらず第2抽出処理にて抽出する。これにより、留守番電話において情報としての価値の高い単語をより適切に抽出することができる。
図10は、S28で示される第2端末5による表示再生処理の一例を示す図である。
最初に、文字列生成部576は、抽出処理により抽出した表示用単語を含む表示用文字列を生成する第1文字列生成処理を実行する(S71)。例えば、文字列生成部576は、図6に示す変換結果テーブルの内容に応じて図9に示す抽出処理により抽出された表示用単語を取得する。ここで、第1閾値=0.7であり、且つ、単語信頼度が第1閾値以上の単語はすべて表示用単語として抽出されたと仮定すると、表示用単語は、「帰り」「に」「いつも」「の」「買って」「きて」である。文字列生成部576は、抽出処理によって抽出された単語のみを含む表示用文字列を第1文字列生成処理において生成してもよい。また、文字列生成部576は、一つの表示用単語から一つの表示用文字列を生成しても、複数の表示用単語を組み合わせて一つの表示用文字列を生成してもよい。
複数の表示用単語を組み合わせて一つの表示用文字列を生成する場合、文字列生成部576は、開始時点の早い単語から順にその単語の品詞と後続する単語の品詞との関係を判定し、その結果に応じて、隣接する単語を一つの表示用文字列にするか否かを決定する。例えば、文字列生成部576は、動詞「帰り」と助詞「に」とを組み合わせて「帰りに」を生成するが、助詞「に」と副詞「いつも」とは組み合わせず、「帰りに」を一つの表示用文字列として生成する。次に、文字列生成部576は、副詞「いつも」と助詞「の」を組み合わせて「いつもの」を生成するが、助詞「の」終了時点と動詞「買って」との開始時点とが所定の閾値以上異なるため、助詞「の」と動詞「買って」とは組み合わせない。文字列生成部576は、「いつもの」を一つの表示用文字列として生成する。次に、文字列生成部576は、動詞「買って」と接尾辞「きて」を組み合わせて「買ってきて」を一つの表示用文字列として生成する。
次に、表示制御部577は、表示用文字列を記憶部56に一時的に記憶すると共に、表示用文字列を表示部53に出力する第1出力処理を実行する(S72)。第1出力処理を実行することによって、表示用文字列は、表示部53に表示される。この際、表示制御部577は、表示用文字列に含まれる単語の開始時点が早い順に表示用文字列を並べて、表示部53に表示する。
図11は、上述した処理に基づいて表示部53に表示用文字列を表示した一例を示す図である。
次に、表示制御部577は、記憶部56に記憶する変換結果テーブルと音声情報とを用いて再生処理を実行する(S73)。
図12は、S73で示される第2端末5による再生処理の一例を示す図である。
最初に、表示制御部577は、利用者による再生処理開始の指示が入力部52から入力されたことを検出すると、変換結果テーブルに記憶された全ての単語、即ち認識文字列を表示用文字列として抽出する(S81)。次に、表示制御部577は、表示用文字列を表示部53に出力し、表示する(S82)。表示制御部577は、表示用文字列を構成する単語の単語信頼度に応じて、各単語の表示形式を異ならせてもよい。
次に、表示制御部577は、利用者による指示が入力部52から入力されるまで待機する(S83)。利用者による指示が入力部52から入力されると、表示制御部577は、入力内容を判定する(S84)。入力内容が処理終了のとき、再生処理は終了する。
入力内容が単語の指定のとき、表示制御部577は、指定された単語がS72で表示されていたか否かを、記憶部56に一時的に記憶した表示用文字列を参照して判定する(S85)。指定された単語がS72で表示されていたとき(S85−Y)、表示制御部577は、処理をS83に進める。
指定された単語がS72で表示されていなかったとき(S85−N)、表示制御部577は、変換結果テーブルを参照して、指定された単語に関連付けられた開始時点を取得する開始時点取得処理を実行する(S86)。
次に、表示制御部577は、記憶部56に記憶された音声情報を読み取り、音声情報における開始時点に応じた音声再生時点から音声メッセージを再生する音声再生処理を実行し(S87)、音声メッセージを音声出力部55から出力する。表示制御部577は、開始時点を音声再生時点としてもよいし、指定された単語に関連付けられた開始時点より所定の時間だけ前の時点を音声再生時点としてもよい。次に、表示制御部577は、処理をS83に進める。
実施形態に係る第2端末5は、単語信頼度が所定の第1閾値以上である単語を抽出するが、単語信頼度が第1閾値未満の単語を抽出しない、第1抽出処理を実行する。第2端末5は、単語信頼度が第1閾値未満の単語を表示しないので、音声認識処理によって生成された単語を読んだ利用者が、単語信頼度が第1閾値未満の単語に基づいて音声メッセージの内容を誤解することを防止できる。
ここで、本実施形態にかかる効果の一具体例を説明する。前述したように、第1端末2の利用者が「帰りにいつものマヨネーズ買ってきて」と発話した場合に、第2端末5に「帰りにいつもの前のやつ買ってきて」という文字列が表示される場合を考える。この場合、前述したように、第2端末5の利用者は、第1端末2の利用者が意図しない全く別のものを買ってきてしまうことにもなりかねない。本実施形態においては、図11に示したように、第1端末2の利用者が「帰りにいつものマヨネーズ買ってきて」と発話した場合に、第2端末5に「帰りに」「いつもの」「買ってきて」という文字列が表示される。これにより第2端末5の利用者は、第1端末2の利用者が自分に買い物を依頼しているという意図を正確に把握したうえで、例えば電話を折り返したりチャットアプリを使用したりするなどして、第1端末2の利用者にいつもの何を買ってきてほしいのかを聞き返すことが考えられる。このように、留守番電話サービスの特性を鑑みると、音声認識信頼度が高い文全体を表示するよりも、音声認識信頼度が高い単語のみを選択して表示したほうが、むしろ発話者の意図が受け手に誤解なく伝わる場合が多い。
また、第2端末5は、認識文字列における特定の単語の出現回数を認識文字列における全ての単語の出現回数の和で除した値が大きいほど、特定の単語を表示用単語として抽出しやすくする。第2端末5は、出現回数の多い単語を表示しやすくし、出現回数がより少ない単語を表示しにくくするので、第2端末5の利用者は、認識文字列中で重要な単語から音声メッセージの内容を理解しやすくなる。
また、第2端末5は、音声認識処理によって現在までに生成された認識文字列の総数を特定の単語を含む認識文字列の数で除した値が小さいほど、特定の単語を表示用単語として抽出しにくくする。第2端末5は、ある認識文字列中に出現回数が多い単語であっても、一般的な留守番電話メッセージに頻出する「わたくし」、「失礼」、「します」等の単語を表示しにくくする。また、第2端末5が特定の会社内での通話に多用される場合、第2端末5は、留守番電話メッセージに頻出するその会社の会社名等の単語を表示しにくくする。このため、音声認識処理によって生成された認識文字列から抽出された単語を読んだ利用者は、より重要な単語から音声メッセージの内容を理解しやすくなる。
また、第2端末5は、第2抽出処理及び第3抽出処理のいずれかで抽出された単語を抽出し、第2抽出処理及び第3抽出処理のいずれでも抽出されない単語を抽出しない。特に、第3抽出処理の重要度としてidf値を用いると、多くの留守番電話メッセージに使用されている単語の重要度が低くなるため、「わたくし」、「失礼」、「します」などの単語に加えて、「折り返し」、「電話」等の主要単語の重要度も低くなることがある。そこで、第2端末5は、主要単語と一致する単語を第2抽出処理によって抽出することにより、留守番電話サービスを利用するときに使用されるキーワードであると推定される単語を確実に利用者に表示することができる。
また、第2端末5は、音声情報における、第1抽出処理で抽出されなかった単語に関連付けられた開始時点を取得し、開始時点に応じた音声再生時点から音声メッセージを再生する。第2端末5は、単語信頼度が第1閾値未満の単語に応じた音声再生時点から音声メッセージを再生するので、第2端末5の利用者は、単語信頼度の低い単語の内容を音声メッセージから把握することができる。
また、第2端末5は、表示用文字列を表示部53に表示した後に、入力部52からの入力に応じて認識文字列を表示部53に表示する。第2端末5は、入力に応じて単語信頼度が第1閾値未満の単語を含む認識文字列を表示するので、利用者は、必要に応じて単語信頼度が第1閾値未満の単語を用いて音声メッセージの内容を推測することができる。
なお、抽出部575は、S56の処理を実行せず、S54で主要単語と一致すると判定された単語を表示用単語として抽出し、主要単語と一致しないと判定された単語を表示用単語として抽出せずに処理をS51に進めてもよい。第2端末5は、予め記憶された単語と一致しない単語を表示しないため、想定外の単語が表示されることにより利用者が音声メッセージの内容を誤解することを防止できる。
また、抽出部575は、S56でtf値及びidf値からtf−idf値を算出したが、音声認識サーバ4がS23の重要度の算出においてtf−idf値を算出し、算出したtf−idf値を生成情報に含めてS24で第2端末5に送信してもよい。この場合、第2端末5の抽出部575は、受信した生成情報に含まれるtf−idf値を用いてS56の処理を実行する。また、第2端末5は、tf値、idf値及び/又はtf−idf値を音声認識サーバ4から受信する代わりに、S25で受信した複数の単語を用いてこれらの値を算出してもよい。
また、idf値の算出に用いる、現在までに生成された認識文字列の総数Saは、第2端末5宛の音声情報から生成された認識文字列の総数でも、第1端末2から入力された音声情報から生成された認識文字列の総数でもよい。
また、idf値の算出に用いる、現在までに生成された認識文字列は、音声認識サーバ4が記憶する認識文字列であっても、第2端末5が記憶する認識文字列であってもよい。
また、文字列生成部576は、09012345678等の電話番号、1月2日等の日付、3時4分等の時刻等、複数の単語の組み合わせで構成される文字列を表示用文字列として生成してもよい。例えば、文字列生成部576は、S71の第1文字列生成処理において、単語信頼度は第1閾値以上だが表示用単語として抽出されなかった複数の連続する単語から文字列を生成する。連続するとは、ある単語の終了時点と次に続く単語の開始時点とが一致することをいう。次に、文字列生成部576は、生成された文字列が所定の条件を満たすか否かを判定し、条件を満たすとき、その文字列を表示用文字列として抽出する。
所定の条件は、例えば、所定の桁数の数字で文字列が構成されることであり、所定の桁数が10桁又は11桁であれば、文字列生成部576は、電話番号を表示用文字列として生成することができる。所定の条件は、例えば、1桁又は2桁の数字と「時」又は「分」という単語とで文字列が構成されることであり、この場合、文字列生成部576は、時刻の具体的な値を表示用文字列として生成することができる。
また、表示制御部577は、S72で同一の表示用文字列が複数個存在するとき、各表示用文字列に含まれる単語に関連する開始時点が早い順に表示用文字列を並べて表示してもよい。この場合、同一の表示用文字列が複数回表示されることとなる。また、表示制御部577は、同一の表示用文字列が複数個存在するとき、一部の表示用文字列を表示しなくてもよい。例えば、表示制御部577は、最後に現れる表示用文字列のみを表示し、他の表示用文字列を表示しなくてもよい。同一の表示用文字列のうち一部の表示用文字列を表示しないことにより、利用者は、特に長い音声メッセージの場合に、その概要をより速く把握することができる。
また、表示制御部577は、S72で同一の表示用文字列が複数個存在するとき、同一の表示用文字列が存在する個数に応じて表示用文字列の表示形式を変更してもよい。例えば、表示制御部577は、個数の多い表示用文字列を太字、下線等により強調表示してもよい。
また、表示制御部577は、S73の処理に代えて、S72で表示用文字列を表示すると共に利用者の指示が入力部52に入力されることの検出を開始し、利用者の指示を検出すると、音声情報から音声メッセージを再生して音声出力部55から出力してもよい。利用者は、単語信頼度が第1閾値未満の単語が表示されないことにより音声メッセージの内容を理解できないときでも、容易に音声メッセージを再生してその内容を把握することができる。
また、表示制御部577は、S81〜S82で認識文字列を表示することに代えて、S53で単語信頼度が第1閾値未満と判定された単語、又は、S57で表示用単語として抽出されなかった単語を表示用文字列として抽出し、表示部53に表示してもよい。
また、表示制御部577は、S85の判定に代えて、利用者により指定された単語の単語信頼度が第1閾値以上か否かを判定結果テーブルを参照して判定し、第1閾値以上であればS83に処理を進め、第1閾値未満であればS86に処理を進めてもよい。この際、表示制御部577は、第1閾値に代えて第1閾値より高い値の閾値を用いることにより、単語信頼度が第1閾値以上の単語についても音声メッセージの再生を可能にしてもよい。
また、S20〜S25の処理に代えて、第2端末5の処理部57が音声認識部434及び重要度算出部435を有し、これらの各部の処理を実行することにより音声認識処理を実行してもよい。この場合、留守電処理部571は、通信部51を介さずに音声認識部434から音声情報を取得することにより、音声情報取得処理を実行する。
<第1変形例>
図13は、第1変形例に係る通信システム1の動作シーケンスの一例を示す図である。
第1変形例に係る通信システム1の動作シーケンスは、S14〜S21の処理に代えてS111〜S112の処理を有し、S24〜S25の処理に代えてS113〜S120の処理を有することが、図7に示す実施形態に係る動作シーケンスと相違する。S111〜S120の処理以外の第1変形例に係る動作シーケンスにおける処理内容は、同一符号が付された実施形態に係る動作シーケンスにおける処理内容と同一であるため、ここでは詳細な説明を省略する。
S11〜S13の処理の後、留守番電話サーバ3は、S13で記憶した音声情報及び音声情報識別子を音声認識サーバ4に送信する(S111)。
次に、音声認識サーバ4の通信制御部431は、留守番電話サーバ3からサーバ通信部41を介して音声情報及び音声情報識別子を受信する(S112)。次に、音声認識部434は、音声情報に対して音声認識処理を実行し、複数の単語等を生成する(S22)。次に、重要度算出部435は、音声認識部434が生成した複数の単語について重要度を算出し、重要度と単語とを関連付けてサーバ記憶部42に記憶する(S23)。次に、通信制御部431は、音声認識部434が生成した情報及び重要度算出部435が算出した重要度を含む生成情報と、音声情報識別子とを、サーバ通信部41を介して留守番電話サーバ3に送信する(S113)。
次に、留守番電話サーバ3は、音声認識サーバ4から生成情報と音声情報識別子とを受信し(S114)、音声情報識別子を含む音声情報の受信通知をS13で記憶した宛先である第2端末5に送信する(S115)。
次に、第2端末5の留守電処理部571は、留守番電話サーバ3から通信部51を介して音声情報の受信通知を受信する(S116)。次に、留守電処理部571は、音声情報識別子を含む生成情報取得要求を、通信部51を介して留守番電話サーバ3に送信する(S117)。
次に、留守番電話サーバ3は、生成情報取得要求を受信すると(S118)、記憶する生成情報及び音声情報の中から音声情報識別子に対応する生成情報及び音声情報を選択し、第2端末5に送信する(S119)。
次に、第2端末5の変換処理部572は、音声認識サーバ4から通信部51を介して生成情報及び音声情報を受信することにより、生成情報及び音声情報を取得する(S120)。変換処理部572は、取得した生成情報から変換結果テーブルを生成し、変換結果テーブル及び音声情報を記憶部56に記憶する。
次に、第2端末5は抽出処理(S27)及び表示再生処理(S28)を実行し、一連のシーケンスは終了する。
第1変形例に係る第2端末5は、受信した音声情報を音声認識サーバ4に送信する必要がないため、データ送信量を削減することができる。
<第2変形例>
図14は、第2変形例に係る音声認識サーバ14の概略構成の一例を示す図である。
第2変形例において、音声認識サーバ14は、通信装置の一例である。第2変形例に係る音声認識サーバ14は、認識文字列取得部436、信頼度取得部437、抽出部438及び文字列生成部439を有することと、サーバ記憶部42に主要単語を有することが、図4に示す第1実施形態に係る音声認識サーバ4と相違する。それ以外の第2変形例に係る音声認識サーバ14の構成は、同一符号が付された第1実施形態に係る音声認識サーバ4の構成と同一である。
図15は、第2変形例に係る第2端末15の概略構成の一例を示す図である。
第2変形例に係る第2端末15は、認識文字列取得部573、信頼度取得部574、抽出部575及び文字列生成部576を有さないことが、図5に示す第1実施形態に係る第2端末5と相違する。また、第2変形例に係る第2端末15は、記憶部56に図6に示す変換結果テーブル及び主要単語を有さないことが、図5に示す第1実施形態に係る第2端末5と相違する。それ以外の第2変形例に係る第2端末15の構成は、同一符号が付された第1実施形態に係る第2端末5の構成と同一である。
図16は、第2変形例に係る通信システム11の動作シーケンスの一例を示す図である。
第2変形例に係る通信システム11の動作シーケンスは、S24〜S27に代えてS211〜S215を有し、第2端末5がS28の表示再生処理に含まれるS71の第1文字列生成処理を実行しないことが、図7に示す実施形態に係る動作シーケンスと相違する。これらの処理以外の第2変形例に係る動作シーケンスにおける処理内容は、同一符号が付された実施形態に係る動作シーケンスにおける処理内容と同一であるため、ここでは詳細な説明を省略する。
S11〜S23の処理の後、認識文字列取得部436は、サーバ記憶部42から認識文字列を構成する複数の単語を取得する。また、信頼度取得部574は、単語信頼度等を複数の単語のそれぞれと関連付けて取得する(S211)。次に、抽出部438は、取得した複数の単語及び単語信頼度等に基づいて表示用単語を抽出する抽出処理を実行する(S212)。S212の抽出処理の内容は、実行の主体が音声認識サーバ4である点を除いて、実施形態における第2端末5のS27の抽出処理と同一であるため、詳細な説明は省略する。
次に、文字列生成部439は、抽出処理により抽出した表示用単語を含む表示用文字列を生成する第1文字列生成処理を実行する(S213)。S213の第1文字列生成処理の内容は、実行の主体が音声認識サーバ4である点を除いて、実施形態における第2端末5のS71の第1文字列生成処理と同一であるため、詳細な説明は省略する。
次に、通信制御部431は、文字列生成部439が生成した表示用文字列をサーバ通信部41に出力する第1出力処理を実行し、表示用文字列をサーバ通信部41を介して第2端末5に送信する(S213)。
次に、第2端末5の表示制御部577は、音声認識サーバ4から通信部51を介して表示用文字列を受信する(S214)。
次に、表示制御部577は、受信した表示用文字列を表示し(S72)、再生処理を実行する(S73)。以上により、一連のシーケンスは終了する。
第2変形例に係る音声認識サーバ4は、抽出処理を実行し、抽出した表示用単語を第2端末5に送信するため、第2端末5は、抽出処理の実行の負荷を軽減することができる。
<第3変形例>
図17は、第3変形例に係る表示再生処理の一例を示す図である。
第3変形例に係る表示再生処理のフローチャートは、図10のS73及び図12に示す再生処理のS81〜S85に代えてS91〜S95の処理を有する点が、図10及び図12に示す表示再生処理のフローチャートと異なる。S91〜S95の処理以外の第3変形例に係るフローチャートにおける処理内容は、同一符号が付された実施形態に係るフローチャートにおける処理内容と同一であるため、ここでは詳細な説明を省略する。
最初に、文字列生成部576は、第1文字列生成処理を実行する(S71)。次に、表示制御部577は、表示用文字列を表示部53に出力する第1出力処理を実行し(S72)、表示用文字列を表示部53に表示させる。
次に、表示制御部577は、利用者による指示が入力部52から入力されるまで待機する(S91)。利用者による指示が入力部52から入力されると、表示制御部577は、入力内容を判定する(S92)。入力内容が処理終了のとき、表示再生処理は終了する。
入力内容が表示切換のとき、表示制御部577は、S72で表示された表示用文字列がS71で生成された表示用文字列、即ち、抽出処理により抽出した表示用単語を含む表示用文字列であるか否かを判定する(S93)。S72で表示された表示用文字列がS71で生成された表示用文字列でないとき(S93−N)、表示制御部577は、処理をS71に進める。S72で表示された表示用文字列がS71で生成された表示用文字列であるとき(S93−Y)、文字列生成部576は、認識文字列取得部573が取得した認識文字列によって構成される表示用文字列を生成する第2文字列生成処理を実行する(S94)。
次に、表示制御部577は、表示用文字列に含まれる単語のうち単語信頼度が第1閾値以上である単語の表示態様と、単語信頼度が第1閾値未満である単語の表示態様とが異なる様に、表示用文字列を表示部53に出力する第2出力処理を実行する(S95)。例えば、表示制御部577は、単語信頼度が第1閾値以上である単語に下線を付さず、第1閾値未満である単語に下線を付したデータを表示部53に出力する。第2出力処理を実行することによって、表示用文字列は、単語信頼度が第1閾値以上である単語の表示態様と、単語信頼度が第1閾値未満である単語の表示態様とが異なる様に、表示部53に表示される。次に、文字列生成部576は、処理をS91に進める。
図18は、第2出力処理によって表示部53に表示用文字列を表示した一例を示す図である。
下線表示された「前」「の」「やつ」は、単語信頼度が第1閾値未満の単語であり、第1出力処理によって表示部53に表示されていなかった単語である。単語信頼度が第1閾値以上の単語の表示態様と、単語信頼度が第1閾値未満の単語の表示態様とが異なることにより、認識文字列によって構成される表示用文字列を読んだ利用者は、第1出力処理によって表示されていなかった単語を容易に識別することができる。
S92における入力内容が単語指定の場合、表示制御部577は、開始時点取得処理を実行し(S86)、指定された単語に関連付けられた開始時点を取得する。次に、表示制御部577は、音声再生処理を実行し(S87)、処理をS91に進める。
第3変形例に係る第2端末5は、認識文字列を表示する際に、単語信頼度が第1閾値以上か否かに応じて異なる表示形態で単語を表示するため、第1出力処理によって表示されていなかった単語を容易に識別することができる。
なお、上述した実施形態及び各変形例において、抽出処理を実行する装置は、音声認識サーバ4以外のサーバであっても、第1端末2であってもよい。
また、音声認識サーバ4は、音声認識処理において認識文字列全体の信頼度である認識文字列信頼度をさらに算出して第2端末5に送信し、第2端末5の表示制御部577は、受信した認識文字列信頼度の値に応じて表示用文字列の表示を制御してもよい。例えば、表示制御部577は、図10及び図17のS71の前に認識文字列信頼度の値が所定の第3閾値以上か否かを判定し、第3閾値以上でないときは音声認識に失敗した旨を表示して、表示再生処理を終了してもよい。
また、認識文字列は、一つの文から構成されても、複数の文から構成されてもよい。
また、文字列生成部439は、抽出処理により抽出した表示用単語を組み合わせることなく、一つの表示用単語から一つの表示用文字列を生成してもよい。この際、第2端末5は実施形態と同様に文字列生成部576を有し、文字列生成部576は、表示用単語に代えてS215で受信した表示用文字列を使用してS71の第1文字列生成処理を実行してもよい。これにより、音声認識サーバの処理を増やすことなく、複数の表示用単語を組み合わせた文字列を第2端末5の表示部53に表示することができる。
当業者は、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。