JP2005283972A - 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置 - Google Patents

音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置 Download PDF

Info

Publication number
JP2005283972A
JP2005283972A JP2004097988A JP2004097988A JP2005283972A JP 2005283972 A JP2005283972 A JP 2005283972A JP 2004097988 A JP2004097988 A JP 2004097988A JP 2004097988 A JP2004097988 A JP 2004097988A JP 2005283972 A JP2005283972 A JP 2005283972A
Authority
JP
Japan
Prior art keywords
information
voice
keyword
speech recognition
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004097988A
Other languages
English (en)
Inventor
Toshihiro Shiren
俊宏 枝連
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Media Inc
Original Assignee
Advanced Media Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Media Inc filed Critical Advanced Media Inc
Priority to JP2004097988A priority Critical patent/JP2005283972A/ja
Publication of JP2005283972A publication Critical patent/JP2005283972A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】入力された人間の自然な発話音声を認識し、情報処理装置が、その発話の中から予め定められた単語を抽出し、発話する人間に対して、なんらかの対応をする場合、その対応を迅速に行うための音声認識方法、この方法を利用して情報を提示するための方法及び装置を提供する。
【解決手段】発話者の音声を受け取って音声認識処理を行い、テキストデータに変換する場合、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果とその結果の確信度とを中間結果として出力するとともに、発話者に対して発話内容に適合した情報を提示する処理は、受け取った中間結果から予め登録されたキーワードが検出されたとき、中間結果の確信度を、そのキーワードのしきい値と比較し、確信度がしきい値以上である場合に、キーワードと関連付けられた情報を提示する。
【選択図】 図2

Description

この発明は、入力された人間の自然な発話音声を認識し、情報処理装置が、その発話の中から予め定められた単語を抽出し、発話する人間に対して、なんらかの対応をする場合、その対応を迅速に行うための音声認識方法及びこの方法を利用して情報を提示するための方法と装置の提供に関する。
情報処理装置が、人間の自然な発話音声を認識し、その発話の中からキーワードを抽出し、そのキーワードに対応した情報を人間に提供する発明として、例えば、特願2004−017948に記載のものがある。
この発明は、主として、ユーザからの電話を介した問合せに対してオペレータが対応するコールセンターのような場所で使用されることを念頭に置いたものであり、オペレータとユーザとの会話の音声認識を行い、その認識結果に適合する内容をオペレータの端末画面に表示すること等を内容とする。
特開2003−208439号公報
上記のような人間の発声に対応するシステムの発明では、会話者の発話に即してタイミングよく情報の提示が行われることが望ましい。例えば、Aという内容について発言し、次にBという内容について発言を始めてから、Aに関する情報が提示されても意味がない。Aという内容について発言した直後に、Aに関する情報が提示されてこそ役に立つ。
このようにタイミングのよい情報の提示を実現するために、音声認識の処理が迅速に行われることが必要である。
そこで、この発明は、音声認識の精度を若干犠牲にしても、処理の迅速を実現することを主たる課題とした。あわせて、認識の精度の低さを補うために、会話者に対し、情報を提示するか否かの判定を適切に行うことも課題とした。
第一の発明は、入力された発話者の音声を受け取り、テキストデータに変換する音声認識方法であって、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする。
「中間結果」とは、確定結果に対して、確定前の音声認識の途中経過的な結果という意味である。この発明の音声認識方法が、音声認識の結果として出力するのは、現時点では予測されるに過ぎない未確定の結果であり、後に確定する際には他の音声認識結果によって置換されうるものである。
第2の発明は、第1の発明において、中間結果には、予測される音声認識結果の確信度を含むことを特徴とする。
この発明の音声認識処理は、音声認識の対象である単語wの認識結果候補として選ばれたそれぞれの単語について確からしさを計算する。そして、この確からしさが最も大きい候補が選ばれるわけであるが、この確からしさを、その認識結果の「確信度」と呼ぶ。
第3の発明は、入力された発話者の音声を受け取って音声認識を行い、テキストデータに変換し、その変換結果から得られた発話内容に適合した情報を、発話者に対して提示する情報提示方法であって、上記音声認識の方法は、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする。
第4の発明は、第3の発明において、中間結果には、予測される音声認識結果の確信度を含むことを特徴とする。
第5の発明は、第4の発明において、中間結果に含まれる確信度を用いて情報提示を行うか否かを判定し、その判定結果に従って発話者への情報提示を行うことを特徴とする。
第6の発明は、第3〜5のいずれか1の発明において、中間結果とともに、発話者の属性に応じて、情報提示の有無や、その情報の内容を変更しうることを特徴とする。
第7の発明は、第3〜6のいずれか1の発明において、音声回線を介して2人の会話者が会話をする音声を受け取り、各会話者の発話のそれぞれにつき音声認識を行うことを特徴とする。
第8の発明は、第7の発明において、会話者に提示する情報には、2人の会話の進展に即応した効果音、BGM、音声合成や録音済み音声による合いの手が含まれることを特徴とする。
第9の発明は、発話者によって発声された音声を認識し、その認識結果に応じた情報を、発話者に提示する音声認識を利用した情報提示装置であって、予め登録されたキーワードと、そのキーワードが音声認識結果から検出されたときに提示するべき情報とを対応づけて記憶するキーワード記憶部と、発話音声を入力する音声データ入力部と、この入力された音声を音声認識し、テキストデータに変換する音声認識処理部と、このテキストデータから、上記キーワード記憶部に登録されたキーワードを検出し、検出されたキーワードに対応づけられた情報を発話者に提示する情報提示処理部を備え、上記音声認識処理部は、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする。
第10の発明は、第9の発明において、中間結果には、予測される音声認識結果の確信度を含むことを特徴とする。
第11の発明は、第10の発明において、上記キーワード記憶部は、登録されたキーワードと関連付けられたしきい値を記憶する一方、上記情報提示処理部は、上記音声認識処理部によって出力された中間結果から、上記キーワード記憶部に登録されたキーワードが検出されたとき、その中間結果の確信度と上記しきい値とを比較し、その比較結果に従って上記キーワードに対応づけられた情報を提示することを特徴とする。
第12の発明は、第9〜11のいずれか1の発明において、上記キーワード記憶部は、キーワードとそのキーワードに対応づけられた情報を発話者の属性別に記憶し、上記情報提示処理部は、上記中間結果からキーワードを検出する際、発話者の属性を考慮して上記キーワード記憶部を参照することを特徴とする。
第13の発明は、第9〜12のいずれか1の発明において、2人の会話者の音声信号を送受信する一方の会話者の通信端末と他方の会話者の通信端末とを接続するネットワークに設けられ、上記音声データ入力部は、上記2つの通信端末から送信された音声を受け取り、上記音声認識処理部は、各会話者の発話のそれぞれにつき音声認識を行うことを特徴とする。
第14の発明は、第13の発明において、上記情報提示処理部が会話者の通信端末に対し送信する情報には、2人の会話の進展に即応した効果音、BGM、音声合成や録音済み音声による合いの手を含み、あたかも2人の会話に第三者として参加する装置であるかのようにふるまうことを特徴とする。
この発明によれば、会話者が会話の中のある部分を言い終わらないうちに、発声された単語を予測し、その予測された単語を音声認識の中間結果として出力する。そのため、音声認識の精度が若干犠牲になるが、処理の迅速さを確保できる。
さらに、この発明は、音声認識の中間結果に予測された単語の確信度を含めるとともに、この音声認識を利用する側の処理は、確信度がしきい値以上の場合にのみ、上記の中間結果を採用する。このように、この音声認識を利用する処理側に、しきい値を適当に設定することによって、認識結果を適宜取捨選択する余地を残していることは、上記した音声認識の精度の低さをカバーすることにつながる。
以下に、この発明の音声認識及び情報提示方法が、2人の会話者の通信端末間に設置された情報処理装置に利用される場合の実施形態を説明する。
図1は、この実施形態の全体の構成を例示する図である。
情報処理装置1は、この発明の音声認識を利用した情報提示装置に該当する。
この情報処理装置1は、インターネットやイントラネット、あるいは公衆回線網などのネットワークNに接続している。会話者の通信端末2Aと2Bも、このネットワークNに接続している。会話者の通信端末2Aと2Bとは双方向に通信を行うわけであるが、この通信経路上に情報処理装置1が介在し、通信端末2Aからの会話音声は、この情報処理装置1をいったん経て、相手方の通信端末2Bに伝わる。通信端末2Bからの会話音声も、同様に情報処理装置1を経て、通信端末2Aに伝わる。なお、図1の破線の矢印は、会話音声の流れを示している。
会話者の通信端末2は、例えば、いわゆるIP電話が考えられるが、電話機に限るものではなくVoIP(Voice overIP)機能がサポートされたパソコンでもよい。また、IP電話のようにインターネット等のIPネットワーク上を音声が送信されるものに限らず、IP電話の機能を備えていない携帯電話機等でもよい。
情報処理装置1は、ネットワークN上のノードとして設けられ、音声認識および情報提示を行うことができるものならば何でもよい。そして、通信端末2がIP電話の場合は、デジタル音声信号をパケット化して送信するゲートウェイやルータを、情報処理装置1として機能させることができる。また、IP電話の機能のない携帯電話機等の場合は、例えば、公衆回線網に設置された交換機に情報処理装置1の機能も持たせることができる。
図2は、情報処理装置1の機能ブロック図である。
情報処理装置1は、通信インタフェース3、コンピュータ本体4、キーボードやディスプレイ等の入出力部(図示せず)を備えている。
通信インタフェース3は、この発明の音声データ入力部に該当する。会話者の通信端末2から送信されてくる音声データは、この通信インタフェース3を介して、情報処理装置1に入力される。また、情報処理装置1から会話者の通信端末2へデータを送信する場合は、この通信インタフェース3を介することとなる。
なお、会話音声を送信してきた通信端末2の電話番号は、公知の技術によって認識できる。
また、音声がアナログ信号として送信された場合は、これをデジタル信号に変換する必要があることは当然である。
コンピュータ本体4は、音声認識処理部5、情報提示処理部6、データ送信処理部7、利用者情報記憶部8、キーワード記憶部9、ファイル記憶部10を備えている。
音声認識処理部5は、入力された音声の音声認識を行う。
各会話者の音声は、それぞれ別の通信インタフェース3から入力されるので、音声認識処理部5は、各会話者の発話を別個に認識できる。つまり、各会話者の発話のそれぞれについて音声認識を行うことになる。この音声認識処理部5の動作については、後に詳しく説明する。
情報提示処理部6は、音声認識処理部5の出力結果に基づいて、会話者の通信端末2に対し情報提示を行うか否かを判定する。そして、行うと判定した場合は、データ送信処理部7へ、提示するべき情報を渡す。この情報提示処理部6の動作については、後に詳しく説明する。
データ送信処理部7は、情報提示処理部6から渡された情報のデータと、通信端末2から送信された音声データとを多重化し、これを通信インタフェース3を介して相手方の通信端末2に送信する。ただし、情報提示処理部6から提示するべき情報が渡されなかったときは、データ送信処理部7は、会話者の音声データのみを送信する。
このように音声による情報データと発話者の音声データとを多重化するのは、これらが同じ回線を使用して送信されるからである。
なお、多重化して出力されたデータは、必要に応じて、送信前にアナログ信号に変換される。
音声認識処理部5、情報提示処理部6、データ送信処理部7による一連の処理は、外部補助記憶装置やROM(図示せず)に格納されているコンピュータプログラムを情報処理装置1のメモリ(図示せず)上にロードすること等によって行われる。
利用者情報記憶部8は、予め登録をしておいた利用者の情報を格納したテーブルを記憶する。利用者とは、通信端末2を用いて他者の通信端末2との会話時に情報処理装置1が提供する情報提示サービスを受ける者のことである。
利用者情報としては、利用者の年齢や性別、職業などの属性がある。これらの属性情報は、図3に例示する利用者情報テーブル11のように、利用者の電話番号と対応づけて記憶される。
このように、利用者の属性等を記憶しておくのは、情報提示処理部6が、会話者に情報を送信するか否かを判定する際に利用するためである。年齢や性別によって、発せられる言葉に特徴があることは、日常観察されるところである。たとえば、若い女性は、なににでも「かわいい」と言うが、年輩の男性は、滅多に「かわいい」とは口にしない。したがって、情報処理装置1が、情報の出力判定を行う際に、発声された言葉の重み等を加味できるならば、それだけきめ細かいサービスが提供できることになる。そのため、会話者の属性を得ることは意義がある。
この属性情報は、利用者から郵送等されてきた情報に基づいて、情報提示装置1に接続するキーボード等の入力装置を介して入力される。あるいは、利用者の通信端末2が、音声だけではなく、テキストデータの送信も可能であるならば、利用者がネットワークNを介して入力してもよい。
なお、あらかじめ登録をしておかなくても、この装置の提供する情報提示サービスを受けるためにアクセスしてきた利用者に対し、属性情報の入力を求めてもよい。
また、属性は、年齢や性別などに限るものではない。
キーワード記憶部9は、キーワードとそれに関連づけられた項目とを格納するキーワードテーブルを記憶する。
図4は、キーワードに対応する条件と会話者への提示情報および会話者の属性との対応を表すキーワードテーブル12を例示したものである。キーワードとは、図4の例では、キーワードに対応する条件欄13(以下「条件欄」という)に現れる「Wa」、「Wb」、「Wc」という単語のことである。
それぞれのキーワードに続いてカギ括弧内に数値が記述されているが、これはしきい値である。たとえば条件欄13aには“Wa[0.7]”とあるが、これは、音声認識処理の中間結果からキーワードWaが検出された場合、その確信度が0.7以上の場合にのみ、そのキーワードは有効であるとする。確信度がこのしきい値を下回ったときは、キーワードWaが中間結果から検出されたとはいえ、このキーワードWaは無効であるとして扱う。しきい値については、後に再度説明をする。
なお、便宜上、有効とは論理値“真”を、無効とは論理値“偽”を持つ状態として説明する。
条件欄13には、単一のキーワードだけではなく、条件欄13cのように複数のキーワードの論理関係を記述することができる。
キーワードに対応する条件とは、各キーワードが持つ値を論理演算した結果をいい、これが“真”の場合、キーワードに対応する条件が満たされたと判定される。条件欄13に掲げる条件が満たされたとき、対応する提示するべき情報欄15(以下「情報欄」という)に記述されたファイル識別子やテキスト文字列に基づく情報の提示が実行されることになる。
条件欄13cは、キーワード「Wb」の値が真、つまり、「Wb」が話者の発話音声から確信度0.8以上で検出され、かつ、キーワード「Wc」の値が真、つまり、「Wc」が話者の発話音声から確信度0.9以上で検出されことを条件として、情報欄15bに基づく処理を実行することを意味する。ただし、会話者の属性欄14(以下「属性欄」という)の条件を満たす場合に限る。
情報欄15に記述される情報としては、そのキーワードに適したBGMや効果音が保存されているファイルの識別子、あるいは音声合成によって通信端末に送信するテキスト文字列等が考えられる。もし、会話者の通信端末が音声データだけではなく、テキストデータや画像データの送受信も可能であるならば、ワープロソフトで作成した文書ファイルや静止画や動画を保存した画像ファイルのファイル識別子でもよい。
以上、キーワード記憶部9に記憶されているキーワードテーブルについて説明した。しかし、これはあくまでも例示であり、テーブル構造はこれに限るものではない。キーワードに対応する条件、しきい値、および、条件が真の場合に提示する情報の所在が明確であれば、どのように設計してもよい。
また、図4に例示したキーワードテーブル12は、一つのテーブルにさまざまな属性が混在しているが、属性別にテーブルを作成してもよい。
ファイル記憶部10は、上記のキーワード記憶部9の情報欄15にそのファイル識別子が記述されているファイル等を格納する。
利用者情報記憶部8、キーワード記憶部9、ファイル記憶部10は、情報処理装置1に接続されたCD−ROMやハードディスクなどの補助記憶装置(図示せず)等に実装されている。
次に、音声認識処理部5による処理について、詳しく説明する。
音声認識処理部5は、図示しない補助記憶装置等に格納した辞書や言語モデルを参照し、ディクテーションを使用する方法によって音声をテキスト化する。
ディクテーション処理は、一般的な文章を「てにをは」を含めて認識する。あらかじめ作成した単語等のリストにある単語を認識対象とするルールグラマーを利用した方法に比べると、多くの可能性のある中で処理をする点で困難な方法である。そこで、この困難の緩和のために、公知の手法であるNグラムを用いたモデリングを用いる。
このNグラムモデルは、サンプルデータから統計的な手法によって確率を計算する言語モデルであり、N=3の場合(トライグラムという)を例にとると、与えられた単語列w12・・・の出現確率P(w12・・・)の推定をする場合に、P(w12・・・)=ΠP(wi|wi-2、i-1)×P(w1)のような近似をするモデルである。右辺のP(wi|wi-2、i-1)は、単語wi-2、wi-1と来たときに、次にwiが来る条件付確率を表す。P(wi|wi-2、i-1)のすべての積を計算し、P(w12・・・)が最も大きな値を取る単語列の組み合わせを認識結果として決定する。
このように、Nグラムを用いた手法では、発話中の一部分の音声認識の補助情報として前後の単語との相関を用いる。このため、ある部分の音声認識結果を得るためにその後の部分の発話が必要となり、当該部分の発話よりも数単語先までの発話を得てから音声認識結果が確定することになる。つまり、音声認識結果が確定するのは、当該部分の発話がなされてから数単語分遅れることになる。
認識結果の確定の遅れは、認識精度を向上させるものであるが、この実施形態のように、2人の会話に、情報処理装置1が適宜参加しようとする等の場合、適切なタイミングを逃すことにつながってしまう。
そのため、この発明では、上記したような従来のディクテーション処理の動作を変更することにした。この点につき、図5に従って説明する。
単語wn−2、wn−1と続き、現時点t1では、次の単語wが発声されたところである。この単語wの候補は、現時点t1では複数(例えば、w’とw”)が考えられ、t2の時点にならなければ確定しない。しかし、後続単語の情報が得られていない状態であっても、それぞれの確率P(w12・・・w’)、P(w12・・・w”)の値を求めることは可能である。確率P(w12・・・w’)は、音声認識の対象である単語がw’であるとしたときの条件付確率であり、この発明の「確信度」に該当する。この確信度が高いほど、よりよい認識結果候補である。このようにして求めた確信度によっては、w’が第1位の候補であり、w”が第2位の候補であるとした場合に、中間結果としてw’を出力する。
この実施形態では、単語wの認識結果が確定されなくとも、当該単語の発声が終了したt1の時点において、その単語の候補として最も確信度が高い候補を、その確信度とともに、中間結果として情報提示処理部6に渡すこととした。
なお、中間結果の渡し方は、これに限定するものではなく、確信度の高い順に所定の個数の候補を渡す方法、あるいは抽出されたすべての候補を渡す方法などもある。
ところで、上記の音声認識の説明では、単語のNグラムを用いた場合について説明したが、単語に限るものではなく、2以上の単語の組み合わせでも、あるいは音素のNグラムを用いてもよい。
また、確信度の計算は、上記した式P(w12・・・w’)に限らない。例えば、次の1)〜3)のような式も適用できる。
1)P(w12・・・w’)/P(w12・・・w”
2)Σ(P(wn+1)P(w2・・・w’n+1))
但し、Σはwn+1を全単語について変化させて求める。
3)Σ(P(wn+1)P(w2・・・w’n+1))/Σ(P(wn+1)P(w2・・・w”n+1))
但し、Σはwn+1を全単語について変化させて求める。
要するに、中間結果の確からしさを適切に把握できるならば、上記のいずれの式を適用してもよいし、ここに列挙した以外の式を適用してもよい。
次に、音声認識処理部5から中間結果である単語の候補とその確信度を受け取った情報提示処理部6の動作について説明する。
情報提示処理部6は、受け取った単語候補と一致するキーワードがキーワードテーブル12の条件欄13に含まれているか否かをサーチする。その際、属性欄14と発話者の属性との一致の有無も確認する。条件欄13に、キーワードが含まれていれば、しきい値を取り出し、このしきい値と上記の確信度とを比較する。確信度がしきい値以上であるならば、そのキーワードの値は“真”であるとする。そして、条件欄13に記述された論理関係が“真”の場合、会話者に対して情報を提示する、と判定する。そして、キーワードテーブル12の情報欄15から提示するべき情報を取り出し、データ送信処理部7に渡す。
次に、キーワードテーブル12のキーワードごとに対応づけたしきい値について付言しておく。このしきい値は、音声認識の確定前の予測される認識結果からキーワードが検出されたときに、そのキーワードが有効か否かを判定するために使用することは前にも述べた。
しきい値は、すべてのキーワードについて一律の値を設定しておいてもよい。しかし、きめ細かいサービスを提供しようとするならば、キーワードごとに、しきい値を変化させることが望ましい。例えば、重大な発言と解される単語については確信度が低くても確認のための突込み等を入れるため、このしきい値を低くしたい。一方、さほど重大でない単語については確信度が高くなければ確認等を入れる必要もないので、このしきい値を高くすることが適当である。
では、このしきい値をどのような基準で設定すればよいかが問題となるが、キーワード、発話者の属性、その他の要素を加味して定めるのが適当である。また、いったん設定したしきい値は以後不変というものではなく、運用実績を見ながら、適宜変更すればよい。
この発明において、音声認識処理方法および情報の出力判定の方法、特に、中間結果に付加する確信度と、キーワードテーブルに記載のしきい値に特色がある。
この発明では、音声認識確定前の中間結果を渡すわけであるから、音声認識の精度が低いのは当然である。この精度の低さを補うのが確信度である。これら中間結果と確信度を渡された側の処理は、別途設けたしきい値を参照する等して、その中間結果を採択するか否かを判断する。つまり、音声認識の不確定な結果をどのように活用するかは、音声認識を利用する側の処理次第である。
次に、図6に従って、この実施形態についてのより具体的な説明をする。
なお、図6において、s1、s2等の符号を付した矢印は、音声データの流れを表す。
通信端末2Aから通信端末2Bに向かって発話され、通信端末2Aの番号が3333−0000であるとする。情報処理装置1は、通信端末2Aとの接続が開始された時点で、通信端末2Aの電話番号を認識できるので、図3の利用者情報テーブル11から通信端末2Aの会話者の属性が10代の女性であるとわかる。
通信端末2Aから送信された音声は、s1に示すように情報処理装置1の通信インタフェース3を介し、音声認識処理部5に渡される(s2)。音声認識処理部5は、音声認識の中間結果として、発声された単語の第一の候補はWa、その確信度は0.8であることを得たとする。音声認識処理部5は、Waと0.8を対にした中間結果を情報提示処理部6に渡す。
情報提示処理部6は、キーワードWaかつ、属性が(女性 & 10代)で図4のキーワードテーブル12をサーチする。サーチの結果、条件欄13aより、Waのしきい値が0.7であることがわかる。情報提示処理部6は、キーワードWaのしきい値と確信度との比較の結果、条件欄13aに記述された条件は有効と判断し、情報欄15aに指定された情報を出力すると判定する。
この判定を受けて、データ送信処理部7は、当該情報欄15aに記述された識別子“file1.wav”をもつファイルをファイル記憶部10から取り出す(s3)。データ送信処理部7には、s4のように、通信端末2Aから送信された音声も入力され、これらのデータを多重化して一つの音声データとして出力し、これをs5に示すように、通信インタフェース3を介して相手方の通信端末2Bに送信する(s6)。
あわせて、データ送信処理部7は、s3で取得したデータを、通信インタフェース3を介して(s7)、発話者の通信端末2Aにも送信する(s8)。
なお、情報提示処理部6が、条件欄13の条件を満たしていない、したがって、情報を提示しないと判定したときは、その旨をデータ送信処理部7に通知する。そして、データ送信処理部7は、通信端末2Aからの音声を、通信インタフェース3を介して、通信端末2Bに送信するだけである(s4、s5、およびs6)。
以上の説明では、通信端末2Aから通信端末2Bに向かって発言した場合を例にしたが、通信端末2Bから通信端末2Aに向かって発言した場合も、同様の処理が行われる。
また、この例では、発言者2Aの属性が(女性 & 10代)であったが、属性が(男性 & 65才以上)の場合は、キーワードテーブル12の条件欄13bの条件が成立するか否かを判定することになる。音声認識処理部5による中間結果では、Waの確信度が0.8であり、一方、条件欄13bのしきい値が0.95なので、情報提示処理部はWaは無効であるため、情報提示をしないと判定する。このように、この実施形態では、会話者の属性によって、動作を変えることができる。
さらに、この例では、キーワードテーブルを参照する際の属性は、発言者2Aの属性を採用したが、聞き手2B側の属性でもよい。あるいは、2人の属性が異なる場合は、いずれの属性を優先させるかを予め決めておいてもよい。たとえば、一方が大人で、他方が小学生の場合は、いずれが発言をしても、属性を「小学生」であるとして扱ってもよい。
上記の実施形態では、2台の通信端末が会話をしている間に、情報処理装置1が介在し、2人の会話に適宜合いの手を入れるなど、あたかも模擬的な第三者が会話に参加するかのようにふるまっていた。
ところで、この発明は、精度が多少低くとも迅速に音声認識の結果が得られ、しかも、その精度を確信度という概念で表し、音声認識結果の利用者側に明示したところに主たる特徴がある。
そこで、この発明の音声認識および情報提示の方法は、上記のような実施形態への適用に限られない。
また、上記の実施形態では、会話者の通信端末2への情報提示方法は、もっぱら音声によるものとして説明した。しかし、通信端末2にテキストや画像を表示できる画面が付いている場合は、テキスト文字列の表示やキャラクタのアニメーションを表示させる方法によって情報の提示をしてもよい。
さらに、上記の実施形態では、キーワードの検出をディクテーションによる方法で行った。しかし、ディクテーションによる方法に限定されるものではなく、連続する発声からキーワードの検出ができるならば、他の方法を用いても差し支えない。
なお、音声認識結果を利用する側の要求する認識精度によっては、中間結果に確信度を含めなくてもよい。迅速な結果さえ得られればよい、といった音声認識の用途も考えられなくはないからである。

この発明の実施形態の構成全体を示す図である。 情報提示装置の機能ブロック図である。 利用者情報テーブルの一例を示す図である。 キーワードテーブルの一例を示す図である。 音声認識処理の説明をするための図である。 この実施形態の音声データの流れを説明する図である。
符号の説明
1 情報提示装置
2、2A、2B 会話者の通信端末
3 音声データ入力部
5 音声認識処理部
6 情報提示処理部
9 キーワード記憶部
N ネットワーク

Claims (14)

  1. 入力された発話者の音声を受け取り、テキストデータに変換する音声認識方法であって、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする音声認識方法。
  2. 上記中間結果には、予測される音声認識結果の確信度を含むことを特徴とする請求項1に記載の音声認識方法。
  3. 入力された発話者の音声を受け取って音声認識を行い、テキストデータに変換し、その変換結果から得られた発話内容に適合した情報を、発話者に対して提示する情報提示方法であって、上記音声認識の方法は、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする音声認識を利用した情報提示方法。
  4. 上記中間結果には、予測される音声認識結果の確信度を含むことを特徴とする請求項3に記載の音声認識を利用した情報提示方法。
  5. 上記中間結果に含まれる確信度を用いて情報提示を行うか否かを判定し、その判定結果に従って発話者への情報提示を行うことを特徴とする請求項4に記載の音声認識を利用した情報提示方法。
  6. 上記中間結果とともに、発話者の属性に応じて、情報提示の有無や、その情報の内容を変更しうることを特徴とする請求項3〜5のいずれか1に記載の音声認識を利用した情報提示方法。
  7. 音声回線を介して2人の会話者が会話をする音声を受け取り、各会話者の発話のそれぞれにつき音声認識を行うことを特徴とする請求項3〜6のいずれか1に記載の音声認識を利用した情報提示方法。
  8. 会話者に提示する情報には、2人の会話の進展に即応した効果音、BGM、音声合成や録音済み音声による合いの手が含まれることを特徴とする請求項7に記載の音声認識を利用した情報提示方法。
  9. 発話者によって発声された音声を認識し、その認識結果に応じた情報を、発話者に提示する音声認識を利用した情報提示装置であって、予め登録されたキーワードと、そのキーワードが音声認識結果から検出されたときに提示するべき情報とを対応づけて記憶するキーワード記憶部と、発話音声を入力する音声データ入力部と、この入力された音声を音声認識し、テキストデータに変換する音声認識処理部と、このテキストデータから、上記キーワード記憶部に登録されたキーワードを検出し、検出されたキーワードに対応づけられた情報を発話者に提示する情報提示処理部を備え、上記音声認識処理部は、発話の中のある一部分の発声が未完了のために音声認識結果が確定しなくても、当該部分の中途時点で予測した音声認識結果を、中間結果として出力することを特徴とする音声認識を利用した情報提示装置。
  10. 上記中間結果には、予測される音声認識結果の確信度を含むことを特徴とする請求項9に記載の音声認識を利用した情報提示装置。
  11. 上記キーワード記憶部は、登録されたキーワードと関連付けられたしきい値を記憶する一方、上記情報提示処理部は、上記音声認識処理部によって出力された中間結果から、上記キーワード記憶部に登録されたキーワードが検出されたとき、その中間結果の確信度と上記しきい値とを比較し、その比較結果に従って上記キーワードに対応づけられた情報を提示することを特徴とする請求項10に記載の音声認識を利用した情報提示装置。
  12. 上記キーワード記憶部は、キーワードとそのキーワードに対応づけられた情報を発話者の属性別に記憶し、上記情報提示処理部は、上記中間結果からキーワードを検出する際、発話者の属性を考慮して上記キーワード記憶部を参照することを特徴とする請求項9〜11のいずれか1に記載の音声認識を利用した情報提示装置。
  13. 2人の会話者の音声信号を送受信する一方の会話者の通信端末と他方の会話者の通信端末とを接続するネットワークに設けられ、上記音声データ入力部は、上記2つの通信端末から送信された音声を受け取り、上記音声認識処理部は、各会話者の発話のそれぞれにつき音声認識を行うことを特徴とする請求項9〜12のいずれか1に記載の音声認識を利用した情報提示装置。
  14. 上記情報提示処理部が会話者の通信端末に対し送信する情報には、2人の会話の進展に即応した効果音、BGM、音声合成や録音済み音声による合いの手を含み、あたかも2人の会話に第三者として参加する装置であるかのようにふるまうことを特徴とする請求項13に記載の音声認識を利用した情報提示装置。

JP2004097988A 2004-03-30 2004-03-30 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置 Pending JP2005283972A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004097988A JP2005283972A (ja) 2004-03-30 2004-03-30 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004097988A JP2005283972A (ja) 2004-03-30 2004-03-30 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置

Publications (1)

Publication Number Publication Date
JP2005283972A true JP2005283972A (ja) 2005-10-13

Family

ID=35182412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004097988A Pending JP2005283972A (ja) 2004-03-30 2004-03-30 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置

Country Status (1)

Country Link
JP (1) JP2005283972A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012081788A1 (ko) * 2010-12-16 2012-06-21 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
WO2016157650A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
JP2018504623A (ja) * 2015-09-03 2018-02-15 グーグル エルエルシー 強化された発話エンドポイント指定
WO2019038807A1 (ja) * 2017-08-21 2019-02-28 リーズンホワイ株式会社 情報処理システム及び情報処理プログラム
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
JP2019204151A (ja) * 2018-05-21 2019-11-28 Necプラットフォームズ株式会社 情報処理装置、システム、方法及びプログラム
CN111126084A (zh) * 2019-12-11 2020-05-08 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备和存储介质
US11367434B2 (en) 2016-12-20 2022-06-21 Samsung Electronics Co., Ltd. Electronic device, method for determining utterance intention of user thereof, and non-transitory computer-readable recording medium
CN117135266A (zh) * 2023-10-25 2023-11-28 Tcl通讯科技(成都)有限公司 一种信息处理方法、装置及计算机可读存储介质
WO2024101615A1 (ko) * 2022-11-08 2024-05-16 한국전자기술연구원 턴프리 대화 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248987A (ja) * 1995-03-14 1996-09-27 Ricoh Co Ltd 音声認識方法
JPH11175093A (ja) * 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識確認応答方法
JP2002032370A (ja) * 2000-07-18 2002-01-31 Fujitsu Ltd 情報処理装置
JP2002169591A (ja) * 2000-12-01 2002-06-14 Namco Ltd 模擬会話システム、及び情報記憶媒体
JP2004096171A (ja) * 2002-08-29 2004-03-25 Advanced Telecommunication Research Institute International 通話活性化システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248987A (ja) * 1995-03-14 1996-09-27 Ricoh Co Ltd 音声認識方法
JPH11175093A (ja) * 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識確認応答方法
JP2002032370A (ja) * 2000-07-18 2002-01-31 Fujitsu Ltd 情報処理装置
JP2002169591A (ja) * 2000-12-01 2002-06-14 Namco Ltd 模擬会話システム、及び情報記憶媒体
JP2004096171A (ja) * 2002-08-29 2004-03-25 Advanced Telecommunication Research Institute International 通話活性化システム

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101208166B1 (ko) * 2010-12-16 2012-12-04 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
JP2014505270A (ja) * 2010-12-16 2014-02-27 ネイバー コーポレーション オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
JP2015179287A (ja) * 2010-12-16 2015-10-08 ネイバー コーポレーションNAVER Corporation オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
US9318111B2 (en) 2010-12-16 2016-04-19 Nhn Corporation Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method
WO2012081788A1 (ko) * 2010-12-16 2012-06-21 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
EP3282447A4 (en) * 2015-03-31 2018-12-05 Sony Corporation Information processing device, control method, and program
WO2016157650A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
CN106463114A (zh) * 2015-03-31 2017-02-22 索尼公司 信息处理设备、控制方法及程序
JPWO2016157650A1 (ja) * 2015-03-31 2018-01-25 ソニー株式会社 情報処理装置、制御方法、およびプログラム
CN106463114B (zh) * 2015-03-31 2020-10-27 索尼公司 信息处理设备、控制方法及程序存储单元
US10885898B2 (en) 2015-09-03 2021-01-05 Google Llc Enhanced speech endpointing
JP2018504623A (ja) * 2015-09-03 2018-02-15 グーグル エルエルシー 強化された発話エンドポイント指定
US11996085B2 (en) 2015-09-03 2024-05-28 Google Llc Enhanced speech endpointing
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US11664020B2 (en) 2015-11-06 2023-05-30 Alibaba Group Holding Limited Speech recognition method and apparatus
US10741170B2 (en) 2015-11-06 2020-08-11 Alibaba Group Holding Limited Speech recognition method and apparatus
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
JP2018536905A (ja) * 2015-11-06 2018-12-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 発話認識方法及び装置
US11367434B2 (en) 2016-12-20 2022-06-21 Samsung Electronics Co., Ltd. Electronic device, method for determining utterance intention of user thereof, and non-transitory computer-readable recording medium
WO2019038807A1 (ja) * 2017-08-21 2019-02-28 リーズンホワイ株式会社 情報処理システム及び情報処理プログラム
JP2019204151A (ja) * 2018-05-21 2019-11-28 Necプラットフォームズ株式会社 情報処理装置、システム、方法及びプログラム
CN111126084A (zh) * 2019-12-11 2020-05-08 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备和存储介质
CN111126084B (zh) * 2019-12-11 2023-06-27 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备和存储介质
WO2024101615A1 (ko) * 2022-11-08 2024-05-16 한국전자기술연구원 턴프리 대화 방법 및 장치
CN117135266A (zh) * 2023-10-25 2023-11-28 Tcl通讯科技(成都)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN117135266B (zh) * 2023-10-25 2024-03-22 Tcl通讯科技(成都)有限公司 一种信息处理方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US10911596B1 (en) Voice user interface for wired communications system
US10679005B2 (en) Speech recognition and summarization
JP4838351B2 (ja) キーワード抽出装置
US10326869B2 (en) Enabling voice control of telephone device
WO2019111346A1 (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
US10194023B1 (en) Voice user interface for wired communications system
US11776541B2 (en) Communicating announcements
US10325599B1 (en) Message response routing
US10326886B1 (en) Enabling additional endpoints to connect to audio mixing device
US11798559B2 (en) Voice-controlled communication requests and responses
JP2010048953A (ja) 対話文生成装置
JP2019208138A (ja) 発話認識装置、及びコンピュータプログラム
JP2005283972A (ja) 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
JP2003202885A (ja) 情報処理装置及び方法
US10143027B1 (en) Device selection for routing of communications
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
JP2010103751A (ja) 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP5046589B2 (ja) 電話システムと通話補助方法とプログラム
US11172527B2 (en) Routing of communications to a device
JP2006268710A (ja) 翻訳システム
JP2008217370A (ja) プロファイル登録システム、プロファイル登録方法およびプロファイル登録プログラム
JP2005151037A (ja) 音声処理装置および音声処理方法
JP2023112602A (ja) オンライン会議中に発話できないユーザを補助するプログラム、端末及び方法
JPH0950290A (ja) 音声認識装置および該装置を用いた通信装置
JPS63260253A (ja) 音声応答方式

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100607