JP2005283972A

JP2005283972A - 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置

Info

Publication number: JP2005283972A
Application number: JP2004097988A
Authority: JP
Inventors: Toshihiro Shiren; 俊宏枝連
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2004-03-30
Filing date: 2004-03-30
Publication date: 2005-10-13

Abstract

【課題】入力された人間の自然な発話音声を認識し、情報処理装置が、その発話の中から予め定められた単語を抽出し、発話する人間に対して、なんらかの対応をする場合、その対応を迅速に行うための音声認識方法、この方法を利用して情報を提示するための方法及び装置を提供する。
【解決手段】発話者の音声を受け取って音声認識処理を行い、テキストデータに変換する場合、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果とその結果の確信度とを中間結果として出力するとともに、発話者に対して発話内容に適合した情報を提示する処理は、受け取った中間結果から予め登録されたキーワードが検出されたとき、中間結果の確信度を、そのキーワードのしきい値と比較し、確信度がしきい値以上である場合に、キーワードと関連付けられた情報を提示する。
【選択図】図２

Description

この発明は、入力された人間の自然な発話音声を認識し、情報処理装置が、その発話の中から予め定められた単語を抽出し、発話する人間に対して、なんらかの対応をする場合、その対応を迅速に行うための音声認識方法及びこの方法を利用して情報を提示するための方法と装置の提供に関する。

情報処理装置が、人間の自然な発話音声を認識し、その発話の中からキーワードを抽出し、そのキーワードに対応した情報を人間に提供する発明として、例えば、特願２００４−０１７９４８に記載のものがある。
この発明は、主として、ユーザからの電話を介した問合せに対してオペレータが対応するコールセンターのような場所で使用されることを念頭に置いたものであり、オペレータとユーザとの会話の音声認識を行い、その認識結果に適合する内容をオペレータの端末画面に表示すること等を内容とする。
特開２００３−２０８４３９号公報

上記のような人間の発声に対応するシステムの発明では、会話者の発話に即してタイミングよく情報の提示が行われることが望ましい。例えば、Ａという内容について発言し、次にＢという内容について発言を始めてから、Ａに関する情報が提示されても意味がない。Ａという内容について発言した直後に、Ａに関する情報が提示されてこそ役に立つ。
このようにタイミングのよい情報の提示を実現するために、音声認識の処理が迅速に行われることが必要である。
そこで、この発明は、音声認識の精度を若干犠牲にしても、処理の迅速を実現することを主たる課題とした。あわせて、認識の精度の低さを補うために、会話者に対し、情報を提示するか否かの判定を適切に行うことも課題とした。

第一の発明は、入力された発話者の音声を受け取り、テキストデータに変換する音声認識方法であって、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする。

「中間結果」とは、確定結果に対して、確定前の音声認識の途中経過的な結果という意味である。この発明の音声認識方法が、音声認識の結果として出力するのは、現時点では予測されるに過ぎない未確定の結果であり、後に確定する際には他の音声認識結果によって置換されうるものである。

第２の発明は、第１の発明において、中間結果には、予測される音声認識結果の確信度を含むことを特徴とする。

この発明の音声認識処理は、音声認識の対象である単語ｗの認識結果候補として選ばれたそれぞれの単語について確からしさを計算する。そして、この確からしさが最も大きい候補が選ばれるわけであるが、この確からしさを、その認識結果の「確信度」と呼ぶ。

第３の発明は、入力された発話者の音声を受け取って音声認識を行い、テキストデータに変換し、その変換結果から得られた発話内容に適合した情報を、発話者に対して提示する情報提示方法であって、上記音声認識の方法は、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする。

第４の発明は、第３の発明において、中間結果には、予測される音声認識結果の確信度を含むことを特徴とする。

第５の発明は、第４の発明において、中間結果に含まれる確信度を用いて情報提示を行うか否かを判定し、その判定結果に従って発話者への情報提示を行うことを特徴とする。

第６の発明は、第３〜５のいずれか１の発明において、中間結果とともに、発話者の属性に応じて、情報提示の有無や、その情報の内容を変更しうることを特徴とする。

第７の発明は、第３〜６のいずれか１の発明において、音声回線を介して２人の会話者が会話をする音声を受け取り、各会話者の発話のそれぞれにつき音声認識を行うことを特徴とする。

第８の発明は、第７の発明において、会話者に提示する情報には、２人の会話の進展に即応した効果音、ＢＧＭ、音声合成や録音済み音声による合いの手が含まれることを特徴とする。

第９の発明は、発話者によって発声された音声を認識し、その認識結果に応じた情報を、発話者に提示する音声認識を利用した情報提示装置であって、予め登録されたキーワードと、そのキーワードが音声認識結果から検出されたときに提示するべき情報とを対応づけて記憶するキーワード記憶部と、発話音声を入力する音声データ入力部と、この入力された音声を音声認識し、テキストデータに変換する音声認識処理部と、このテキストデータから、上記キーワード記憶部に登録されたキーワードを検出し、検出されたキーワードに対応づけられた情報を発話者に提示する情報提示処理部を備え、上記音声認識処理部は、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする。

第１０の発明は、第９の発明において、中間結果には、予測される音声認識結果の確信度を含むことを特徴とする。

第１１の発明は、第１０の発明において、上記キーワード記憶部は、登録されたキーワードと関連付けられたしきい値を記憶する一方、上記情報提示処理部は、上記音声認識処理部によって出力された中間結果から、上記キーワード記憶部に登録されたキーワードが検出されたとき、その中間結果の確信度と上記しきい値とを比較し、その比較結果に従って上記キーワードに対応づけられた情報を提示することを特徴とする。

第１２の発明は、第９〜１１のいずれか１の発明において、上記キーワード記憶部は、キーワードとそのキーワードに対応づけられた情報を発話者の属性別に記憶し、上記情報提示処理部は、上記中間結果からキーワードを検出する際、発話者の属性を考慮して上記キーワード記憶部を参照することを特徴とする。

第１３の発明は、第９〜１２のいずれか１の発明において、２人の会話者の音声信号を送受信する一方の会話者の通信端末と他方の会話者の通信端末とを接続するネットワークに設けられ、上記音声データ入力部は、上記２つの通信端末から送信された音声を受け取り、上記音声認識処理部は、各会話者の発話のそれぞれにつき音声認識を行うことを特徴とする。

第１４の発明は、第１３の発明において、上記情報提示処理部が会話者の通信端末に対し送信する情報には、２人の会話の進展に即応した効果音、ＢＧＭ、音声合成や録音済み音声による合いの手を含み、あたかも２人の会話に第三者として参加する装置であるかのようにふるまうことを特徴とする。

この発明によれば、会話者が会話の中のある部分を言い終わらないうちに、発声された単語を予測し、その予測された単語を音声認識の中間結果として出力する。そのため、音声認識の精度が若干犠牲になるが、処理の迅速さを確保できる。
さらに、この発明は、音声認識の中間結果に予測された単語の確信度を含めるとともに、この音声認識を利用する側の処理は、確信度がしきい値以上の場合にのみ、上記の中間結果を採用する。このように、この音声認識を利用する処理側に、しきい値を適当に設定することによって、認識結果を適宜取捨選択する余地を残していることは、上記した音声認識の精度の低さをカバーすることにつながる。

以下に、この発明の音声認識及び情報提示方法が、２人の会話者の通信端末間に設置された情報処理装置に利用される場合の実施形態を説明する。
図１は、この実施形態の全体の構成を例示する図である。

情報処理装置１は、この発明の音声認識を利用した情報提示装置に該当する。
この情報処理装置１は、インターネットやイントラネット、あるいは公衆回線網などのネットワークＮに接続している。会話者の通信端末２Ａと２Ｂも、このネットワークＮに接続している。会話者の通信端末２Ａと２Ｂとは双方向に通信を行うわけであるが、この通信経路上に情報処理装置１が介在し、通信端末２Ａからの会話音声は、この情報処理装置１をいったん経て、相手方の通信端末２Ｂに伝わる。通信端末２Ｂからの会話音声も、同様に情報処理装置１を経て、通信端末２Ａに伝わる。なお、図１の破線の矢印は、会話音声の流れを示している。

会話者の通信端末２は、例えば、いわゆるＩＰ電話が考えられるが、電話機に限るものではなくＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩＰ）機能がサポートされたパソコンでもよい。また、ＩＰ電話のようにインターネット等のＩＰネットワーク上を音声が送信されるものに限らず、ＩＰ電話の機能を備えていない携帯電話機等でもよい。

情報処理装置１は、ネットワークＮ上のノードとして設けられ、音声認識および情報提示を行うことができるものならば何でもよい。そして、通信端末２がＩＰ電話の場合は、デジタル音声信号をパケット化して送信するゲートウェイやルータを、情報処理装置１として機能させることができる。また、ＩＰ電話の機能のない携帯電話機等の場合は、例えば、公衆回線網に設置された交換機に情報処理装置１の機能も持たせることができる。

図２は、情報処理装置１の機能ブロック図である。
情報処理装置１は、通信インタフェース３、コンピュータ本体４、キーボードやディスプレイ等の入出力部（図示せず）を備えている。

通信インタフェース３は、この発明の音声データ入力部に該当する。会話者の通信端末２から送信されてくる音声データは、この通信インタフェース３を介して、情報処理装置１に入力される。また、情報処理装置１から会話者の通信端末２へデータを送信する場合は、この通信インタフェース３を介することとなる。
なお、会話音声を送信してきた通信端末２の電話番号は、公知の技術によって認識できる。
また、音声がアナログ信号として送信された場合は、これをデジタル信号に変換する必要があることは当然である。

コンピュータ本体４は、音声認識処理部５、情報提示処理部６、データ送信処理部７、利用者情報記憶部８、キーワード記憶部９、ファイル記憶部１０を備えている。

音声認識処理部５は、入力された音声の音声認識を行う。
各会話者の音声は、それぞれ別の通信インタフェース３から入力されるので、音声認識処理部５は、各会話者の発話を別個に認識できる。つまり、各会話者の発話のそれぞれについて音声認識を行うことになる。この音声認識処理部５の動作については、後に詳しく説明する。

情報提示処理部６は、音声認識処理部５の出力結果に基づいて、会話者の通信端末２に対し情報提示を行うか否かを判定する。そして、行うと判定した場合は、データ送信処理部７へ、提示するべき情報を渡す。この情報提示処理部６の動作については、後に詳しく説明する。

データ送信処理部７は、情報提示処理部６から渡された情報のデータと、通信端末２から送信された音声データとを多重化し、これを通信インタフェース３を介して相手方の通信端末２に送信する。ただし、情報提示処理部６から提示するべき情報が渡されなかったときは、データ送信処理部７は、会話者の音声データのみを送信する。
このように音声による情報データと発話者の音声データとを多重化するのは、これらが同じ回線を使用して送信されるからである。
なお、多重化して出力されたデータは、必要に応じて、送信前にアナログ信号に変換される。

音声認識処理部５、情報提示処理部６、データ送信処理部７による一連の処理は、外部補助記憶装置やＲＯＭ（図示せず）に格納されているコンピュータプログラムを情報処理装置１のメモリ（図示せず）上にロードすること等によって行われる。

利用者情報記憶部８は、予め登録をしておいた利用者の情報を格納したテーブルを記憶する。利用者とは、通信端末２を用いて他者の通信端末２との会話時に情報処理装置１が提供する情報提示サービスを受ける者のことである。
利用者情報としては、利用者の年齢や性別、職業などの属性がある。これらの属性情報は、図３に例示する利用者情報テーブル１１のように、利用者の電話番号と対応づけて記憶される。

このように、利用者の属性等を記憶しておくのは、情報提示処理部６が、会話者に情報を送信するか否かを判定する際に利用するためである。年齢や性別によって、発せられる言葉に特徴があることは、日常観察されるところである。たとえば、若い女性は、なににでも「かわいい」と言うが、年輩の男性は、滅多に「かわいい」とは口にしない。したがって、情報処理装置１が、情報の出力判定を行う際に、発声された言葉の重み等を加味できるならば、それだけきめ細かいサービスが提供できることになる。そのため、会話者の属性を得ることは意義がある。

この属性情報は、利用者から郵送等されてきた情報に基づいて、情報提示装置１に接続するキーボード等の入力装置を介して入力される。あるいは、利用者の通信端末２が、音声だけではなく、テキストデータの送信も可能であるならば、利用者がネットワークＮを介して入力してもよい。
なお、あらかじめ登録をしておかなくても、この装置の提供する情報提示サービスを受けるためにアクセスしてきた利用者に対し、属性情報の入力を求めてもよい。
また、属性は、年齢や性別などに限るものではない。

キーワード記憶部９は、キーワードとそれに関連づけられた項目とを格納するキーワードテーブルを記憶する。
図４は、キーワードに対応する条件と会話者への提示情報および会話者の属性との対応を表すキーワードテーブル１２を例示したものである。キーワードとは、図４の例では、キーワードに対応する条件欄１３（以下「条件欄」という）に現れる「Ｗａ」、「Ｗｂ」、「Ｗｃ」という単語のことである。

それぞれのキーワードに続いてカギ括弧内に数値が記述されているが、これはしきい値である。たとえば条件欄１３ａには“Ｗａ［０．７］”とあるが、これは、音声認識処理の中間結果からキーワードＷａが検出された場合、その確信度が０．７以上の場合にのみ、そのキーワードは有効であるとする。確信度がこのしきい値を下回ったときは、キーワードＷａが中間結果から検出されたとはいえ、このキーワードＷａは無効であるとして扱う。しきい値については、後に再度説明をする。
なお、便宜上、有効とは論理値“真”を、無効とは論理値“偽”を持つ状態として説明する。

条件欄１３には、単一のキーワードだけではなく、条件欄１３ｃのように複数のキーワードの論理関係を記述することができる。
キーワードに対応する条件とは、各キーワードが持つ値を論理演算した結果をいい、これが“真”の場合、キーワードに対応する条件が満たされたと判定される。条件欄１３に掲げる条件が満たされたとき、対応する提示するべき情報欄１５（以下「情報欄」という）に記述されたファイル識別子やテキスト文字列に基づく情報の提示が実行されることになる。

条件欄１３ｃは、キーワード「Ｗｂ」の値が真、つまり、「Ｗｂ」が話者の発話音声から確信度０．８以上で検出され、かつ、キーワード「Ｗｃ」の値が真、つまり、「Ｗｃ」が話者の発話音声から確信度０．９以上で検出されことを条件として、情報欄１５ｂに基づく処理を実行することを意味する。ただし、会話者の属性欄１４（以下「属性欄」という）の条件を満たす場合に限る。

情報欄１５に記述される情報としては、そのキーワードに適したＢＧＭや効果音が保存されているファイルの識別子、あるいは音声合成によって通信端末に送信するテキスト文字列等が考えられる。もし、会話者の通信端末が音声データだけではなく、テキストデータや画像データの送受信も可能であるならば、ワープロソフトで作成した文書ファイルや静止画や動画を保存した画像ファイルのファイル識別子でもよい。

以上、キーワード記憶部９に記憶されているキーワードテーブルについて説明した。しかし、これはあくまでも例示であり、テーブル構造はこれに限るものではない。キーワードに対応する条件、しきい値、および、条件が真の場合に提示する情報の所在が明確であれば、どのように設計してもよい。
また、図４に例示したキーワードテーブル１２は、一つのテーブルにさまざまな属性が混在しているが、属性別にテーブルを作成してもよい。

ファイル記憶部１０は、上記のキーワード記憶部９の情報欄１５にそのファイル識別子が記述されているファイル等を格納する。
利用者情報記憶部８、キーワード記憶部９、ファイル記憶部１０は、情報処理装置１に接続されたＣＤ−ＲＯＭやハードディスクなどの補助記憶装置（図示せず）等に実装されている。

次に、音声認識処理部５による処理について、詳しく説明する。
音声認識処理部５は、図示しない補助記憶装置等に格納した辞書や言語モデルを参照し、ディクテーションを使用する方法によって音声をテキスト化する。
ディクテーション処理は、一般的な文章を「てにをは」を含めて認識する。あらかじめ作成した単語等のリストにある単語を認識対象とするルールグラマーを利用した方法に比べると、多くの可能性のある中で処理をする点で困難な方法である。そこで、この困難の緩和のために、公知の手法であるＮグラムを用いたモデリングを用いる。
このＮグラムモデルは、サンプルデータから統計的な手法によって確率を計算する言語モデルであり、Ｎ＝３の場合（トライグラムという）を例にとると、与えられた単語列ｗ₁ｗ_２・・・ｗ_ｎの出現確率Ｐ（ｗ₁ｗ_２・・・ｗ_ｎ）の推定をする場合に、Ｐ（ｗ₁ｗ_２・・・ｗ_ｎ）＝ΠＰ（ｗ_i｜ｗ_i-2、ｗ_i-1）×Ｐ（ｗ₁ｗ_２）のような近似をするモデルである。右辺のＰ（ｗ_i｜ｗ_i-2、ｗ_i-1）は、単語ｗ_i-2、ｗ_i-1と来たときに、次にｗ_iが来る条件付確率を表す。Ｐ（ｗ_i｜ｗ_i-2、ｗ_i-1）のすべての積を計算し、Ｐ（ｗ₁ｗ_２・・・ｗ_ｎ）が最も大きな値を取る単語列の組み合わせを認識結果として決定する。

このように、Ｎグラムを用いた手法では、発話中の一部分の音声認識の補助情報として前後の単語との相関を用いる。このため、ある部分の音声認識結果を得るためにその後の部分の発話が必要となり、当該部分の発話よりも数単語先までの発話を得てから音声認識結果が確定することになる。つまり、音声認識結果が確定するのは、当該部分の発話がなされてから数単語分遅れることになる。
認識結果の確定の遅れは、認識精度を向上させるものであるが、この実施形態のように、２人の会話に、情報処理装置１が適宜参加しようとする等の場合、適切なタイミングを逃すことにつながってしまう。

そのため、この発明では、上記したような従来のディクテーション処理の動作を変更することにした。この点につき、図５に従って説明する。
単語ｗ_ｎ−２、ｗ_ｎ−１と続き、現時点ｔ１では、次の単語ｗ_ｎが発声されたところである。この単語ｗ_ｎの候補は、現時点ｔ１では複数（例えば、ｗ’_ｎとｗ”_ｎ）が考えられ、ｔ２の時点にならなければ確定しない。しかし、後続単語の情報が得られていない状態であっても、それぞれの確率Ｐ（ｗ₁ｗ_２・・・ｗ’_ｎ）、Ｐ（ｗ₁ｗ_２・・・ｗ”_ｎ）の値を求めることは可能である。確率Ｐ（ｗ₁ｗ_２・・・ｗ’_ｎ）は、音声認識の対象である単語がｗ’_ｎであるとしたときの条件付確率であり、この発明の「確信度」に該当する。この確信度が高いほど、よりよい認識結果候補である。このようにして求めた確信度によっては、ｗ’_ｎが第1位の候補であり、ｗ”_ｎが第2位の候補であるとした場合に、中間結果としてｗ’_ｎを出力する。

この実施形態では、単語ｗ_ｎの認識結果が確定されなくとも、当該単語の発声が終了したｔ１の時点において、その単語の候補として最も確信度が高い候補を、その確信度とともに、中間結果として情報提示処理部６に渡すこととした。
なお、中間結果の渡し方は、これに限定するものではなく、確信度の高い順に所定の個数の候補を渡す方法、あるいは抽出されたすべての候補を渡す方法などもある。

ところで、上記の音声認識の説明では、単語のＮグラムを用いた場合について説明したが、単語に限るものではなく、２以上の単語の組み合わせでも、あるいは音素のＮグラムを用いてもよい。

また、確信度の計算は、上記した式Ｐ（ｗ₁ｗ_２・・・ｗ’_ｎ）に限らない。例えば、次の１）〜３）のような式も適用できる。
１）Ｐ（ｗ₁ｗ_２・・・ｗ’_ｎ）／Ｐ（ｗ₁ｗ_２・・・ｗ”_ｎ）
２）Σ（Ｐ（ｗ_ｎ＋１）Ｐ（ｗ_２・・・ｗ’_ｎｗ_ｎ＋１））
但し、Σはｗ_ｎ＋１を全単語について変化させて求める。
３）Σ（Ｐ（ｗ_ｎ＋１）Ｐ（ｗ_２・・・ｗ’_ｎｗ_ｎ＋１））／Σ（Ｐ（ｗ_ｎ＋１）Ｐ（ｗ_２・・・ｗ”_ｎｗ_ｎ＋１））
但し、Σはｗ_ｎ＋１を全単語について変化させて求める。
要するに、中間結果の確からしさを適切に把握できるならば、上記のいずれの式を適用してもよいし、ここに列挙した以外の式を適用してもよい。

次に、音声認識処理部５から中間結果である単語の候補とその確信度を受け取った情報提示処理部６の動作について説明する。
情報提示処理部６は、受け取った単語候補と一致するキーワードがキーワードテーブル１２の条件欄１３に含まれているか否かをサーチする。その際、属性欄１４と発話者の属性との一致の有無も確認する。条件欄１３に、キーワードが含まれていれば、しきい値を取り出し、このしきい値と上記の確信度とを比較する。確信度がしきい値以上であるならば、そのキーワードの値は“真”であるとする。そして、条件欄１３に記述された論理関係が“真”の場合、会話者に対して情報を提示する、と判定する。そして、キーワードテーブル１２の情報欄１５から提示するべき情報を取り出し、データ送信処理部７に渡す。

次に、キーワードテーブル１２のキーワードごとに対応づけたしきい値について付言しておく。このしきい値は、音声認識の確定前の予測される認識結果からキーワードが検出されたときに、そのキーワードが有効か否かを判定するために使用することは前にも述べた。
しきい値は、すべてのキーワードについて一律の値を設定しておいてもよい。しかし、きめ細かいサービスを提供しようとするならば、キーワードごとに、しきい値を変化させることが望ましい。例えば、重大な発言と解される単語については確信度が低くても確認のための突込み等を入れるため、このしきい値を低くしたい。一方、さほど重大でない単語については確信度が高くなければ確認等を入れる必要もないので、このしきい値を高くすることが適当である。

では、このしきい値をどのような基準で設定すればよいかが問題となるが、キーワード、発話者の属性、その他の要素を加味して定めるのが適当である。また、いったん設定したしきい値は以後不変というものではなく、運用実績を見ながら、適宜変更すればよい。

この発明において、音声認識処理方法および情報の出力判定の方法、特に、中間結果に付加する確信度と、キーワードテーブルに記載のしきい値に特色がある。
この発明では、音声認識確定前の中間結果を渡すわけであるから、音声認識の精度が低いのは当然である。この精度の低さを補うのが確信度である。これら中間結果と確信度を渡された側の処理は、別途設けたしきい値を参照する等して、その中間結果を採択するか否かを判断する。つまり、音声認識の不確定な結果をどのように活用するかは、音声認識を利用する側の処理次第である。

次に、図６に従って、この実施形態についてのより具体的な説明をする。
なお、図６において、ｓ１、ｓ２等の符号を付した矢印は、音声データの流れを表す。
通信端末２Ａから通信端末２Ｂに向かって発話され、通信端末２Ａの番号が３３３３−００００であるとする。情報処理装置１は、通信端末２Ａとの接続が開始された時点で、通信端末２Ａの電話番号を認識できるので、図３の利用者情報テーブル１１から通信端末２Ａの会話者の属性が１０代の女性であるとわかる。

通信端末２Ａから送信された音声は、ｓ１に示すように情報処理装置１の通信インタフェース３を介し、音声認識処理部５に渡される（ｓ２）。音声認識処理部５は、音声認識の中間結果として、発声された単語の第一の候補はＷａ、その確信度は０．８であることを得たとする。音声認識処理部５は、Ｗａと０．８を対にした中間結果を情報提示処理部６に渡す。

情報提示処理部６は、キーワードＷａかつ、属性が（女性＆１０代）で図４のキーワードテーブル１２をサーチする。サーチの結果、条件欄１３ａより、Ｗａのしきい値が０．７であることがわかる。情報提示処理部６は、キーワードＷａのしきい値と確信度との比較の結果、条件欄１３ａに記述された条件は有効と判断し、情報欄１５ａに指定された情報を出力すると判定する。

この判定を受けて、データ送信処理部７は、当該情報欄１５ａに記述された識別子“ｆｉｌｅ１．ｗａｖ”をもつファイルをファイル記憶部１０から取り出す（ｓ３）。データ送信処理部７には、ｓ４のように、通信端末２Ａから送信された音声も入力され、これらのデータを多重化して一つの音声データとして出力し、これをｓ５に示すように、通信インタフェース３を介して相手方の通信端末２Ｂに送信する（ｓ６）。
あわせて、データ送信処理部７は、ｓ３で取得したデータを、通信インタフェース３を介して（ｓ７）、発話者の通信端末２Ａにも送信する（ｓ８）。

なお、情報提示処理部６が、条件欄１３の条件を満たしていない、したがって、情報を提示しないと判定したときは、その旨をデータ送信処理部７に通知する。そして、データ送信処理部７は、通信端末２Ａからの音声を、通信インタフェース３を介して、通信端末２Ｂに送信するだけである（ｓ４、ｓ５、およびｓ６）。
以上の説明では、通信端末２Ａから通信端末２Ｂに向かって発言した場合を例にしたが、通信端末２Ｂから通信端末２Ａに向かって発言した場合も、同様の処理が行われる。

また、この例では、発言者２Ａの属性が（女性＆１０代）であったが、属性が（男性＆６５才以上）の場合は、キーワードテーブル１２の条件欄１３ｂの条件が成立するか否かを判定することになる。音声認識処理部５による中間結果では、Ｗａの確信度が０．８であり、一方、条件欄１３ｂのしきい値が０．９５なので、情報提示処理部はＷａは無効であるため、情報提示をしないと判定する。このように、この実施形態では、会話者の属性によって、動作を変えることができる。

さらに、この例では、キーワードテーブルを参照する際の属性は、発言者２Ａの属性を採用したが、聞き手２Ｂ側の属性でもよい。あるいは、２人の属性が異なる場合は、いずれの属性を優先させるかを予め決めておいてもよい。たとえば、一方が大人で、他方が小学生の場合は、いずれが発言をしても、属性を「小学生」であるとして扱ってもよい。

上記の実施形態では、２台の通信端末が会話をしている間に、情報処理装置１が介在し、２人の会話に適宜合いの手を入れるなど、あたかも模擬的な第三者が会話に参加するかのようにふるまっていた。
ところで、この発明は、精度が多少低くとも迅速に音声認識の結果が得られ、しかも、その精度を確信度という概念で表し、音声認識結果の利用者側に明示したところに主たる特徴がある。
そこで、この発明の音声認識および情報提示の方法は、上記のような実施形態への適用に限られない。

また、上記の実施形態では、会話者の通信端末２への情報提示方法は、もっぱら音声によるものとして説明した。しかし、通信端末２にテキストや画像を表示できる画面が付いている場合は、テキスト文字列の表示やキャラクタのアニメーションを表示させる方法によって情報の提示をしてもよい。

さらに、上記の実施形態では、キーワードの検出をディクテーションによる方法で行った。しかし、ディクテーションによる方法に限定されるものではなく、連続する発声からキーワードの検出ができるならば、他の方法を用いても差し支えない。

なお、音声認識結果を利用する側の要求する認識精度によっては、中間結果に確信度を含めなくてもよい。迅速な結果さえ得られればよい、といった音声認識の用途も考えられなくはないからである。

この発明の実施形態の構成全体を示す図である。情報提示装置の機能ブロック図である。利用者情報テーブルの一例を示す図である。キーワードテーブルの一例を示す図である。音声認識処理の説明をするための図である。この実施形態の音声データの流れを説明する図である。

符号の説明

１情報提示装置
２、２Ａ、２Ｂ会話者の通信端末
３音声データ入力部
５音声認識処理部
６情報提示処理部
９キーワード記憶部
Ｎネットワーク

Claims

入力された発話者の音声を受け取り、テキストデータに変換する音声認識方法であって、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする音声認識方法。
上記中間結果には、予測される音声認識結果の確信度を含むことを特徴とする請求項１に記載の音声認識方法。
入力された発話者の音声を受け取って音声認識を行い、テキストデータに変換し、その変換結果から得られた発話内容に適合した情報を、発話者に対して提示する情報提示方法であって、上記音声認識の方法は、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする音声認識を利用した情報提示方法。
上記中間結果には、予測される音声認識結果の確信度を含むことを特徴とする請求項３に記載の音声認識を利用した情報提示方法。
上記中間結果に含まれる確信度を用いて情報提示を行うか否かを判定し、その判定結果に従って発話者への情報提示を行うことを特徴とする請求項４に記載の音声認識を利用した情報提示方法。
上記中間結果とともに、発話者の属性に応じて、情報提示の有無や、その情報の内容を変更しうることを特徴とする請求項３〜５のいずれか１に記載の音声認識を利用した情報提示方法。
音声回線を介して２人の会話者が会話をする音声を受け取り、各会話者の発話のそれぞれにつき音声認識を行うことを特徴とする請求項３〜６のいずれか１に記載の音声認識を利用した情報提示方法。
会話者に提示する情報には、２人の会話の進展に即応した効果音、ＢＧＭ、音声合成や録音済み音声による合いの手が含まれることを特徴とする請求項７に記載の音声認識を利用した情報提示方法。
発話者によって発声された音声を認識し、その認識結果に応じた情報を、発話者に提示する音声認識を利用した情報提示装置であって、予め登録されたキーワードと、そのキーワードが音声認識結果から検出されたときに提示するべき情報とを対応づけて記憶するキーワード記憶部と、発話音声を入力する音声データ入力部と、この入力された音声を音声認識し、テキストデータに変換する音声認識処理部と、このテキストデータから、上記キーワード記憶部に登録されたキーワードを検出し、検出されたキーワードに対応づけられた情報を発話者に提示する情報提示処理部を備え、上記音声認識処理部は、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする音声認識を利用した情報提示装置。
上記中間結果には、予測される音声認識結果の確信度を含むことを特徴とする請求項９に記載の音声認識を利用した情報提示装置。
上記キーワード記憶部は、登録されたキーワードと関連付けられたしきい値を記憶する一方、上記情報提示処理部は、上記音声認識処理部によって出力された中間結果から、上記キーワード記憶部に登録されたキーワードが検出されたとき、その中間結果の確信度と上記しきい値とを比較し、その比較結果に従って上記キーワードに対応づけられた情報を提示することを特徴とする請求項１０に記載の音声認識を利用した情報提示装置。
上記キーワード記憶部は、キーワードとそのキーワードに対応づけられた情報を発話者の属性別に記憶し、上記情報提示処理部は、上記中間結果からキーワードを検出する際、発話者の属性を考慮して上記キーワード記憶部を参照することを特徴とする請求項９〜１１のいずれか１に記載の音声認識を利用した情報提示装置。
２人の会話者の音声信号を送受信する一方の会話者の通信端末と他方の会話者の通信端末とを接続するネットワークに設けられ、上記音声データ入力部は、上記２つの通信端末から送信された音声を受け取り、上記音声認識処理部は、各会話者の発話のそれぞれにつき音声認識を行うことを特徴とする請求項９〜１２のいずれか１に記載の音声認識を利用した情報提示装置。
上記情報提示処理部が会話者の通信端末に対し送信する情報には、２人の会話の進展に即応した効果音、ＢＧＭ、音声合成や録音済み音声による合いの手を含み、あたかも２人の会話に第三者として参加する装置であるかのようにふるまうことを特徴とする請求項１３に記載の音声認識を利用した情報提示装置。