JP3810551B2 - 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体 - Google Patents
音声認識システム、コールセンタシステム、音声認識方法及び記録媒体 Download PDFInfo
- Publication number
- JP3810551B2 JP3810551B2 JP06485198A JP6485198A JP3810551B2 JP 3810551 B2 JP3810551 B2 JP 3810551B2 JP 06485198 A JP06485198 A JP 06485198A JP 6485198 A JP6485198 A JP 6485198A JP 3810551 B2 JP3810551 B2 JP 3810551B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- user
- recognition result
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Description
【発明の属する技術分野】
本発明は、利用者の音声を認識する対話型の音声認識システムにおいて、より認識精度を高めることができる音声認識システム及び記録媒体に関する。
また、オペレータの作業の負荷を軽減することができる音声認識システム、コールセンタシステム、音声認識方法及び記録媒体に関する。
【0002】
【従来の技術】
利用者からの問い合わせ、注文、等を電話で受信するシステムとして、例えば、オペレータを配置しない自動応答型の音声認識システムが使用される。このようなシステムでは、コンピュータが、電話からのユーザの音声を認識し、その認識結果を基に自動的に処理を行う。
また、利用者からの電話にオペレータが応答し、オペレータが復唱した音声をコンピュータが認識し、入力処理を行う音声認識システムが提案されている。
【0003】
【発明が解決しようとする課題】
しかし、自動応答型のシステムの場合、電話からの音声を認識するため、認識精度が低く、正しく認識されるまでユーザは何度も発声を繰り返さなければならならない。
また、オペレータが復唱した音声を認識するシステムの場合、利用者が正しく発声してもオペレータが間違って復唱した場合、発声を繰り返す必要が生じる。
【0004】
本発明は、上記実状に鑑みてなされたもので、認識精度の高い音声認識システム、コールセンタシステム、音声認識方法及び記録媒体を提供することを目的とする。
また、オペレータの作業の負荷を軽減することができる音声認識システム、コールセンタシステム、音声認識方法及び記録媒体を提供すること他の目的とする。
【0005】
【課題を解決するための手段】
上記目的を達成するため、この発明の第1の観点に係る音声認識システムは、
利用者からの用件を音声で受け付ける音声認識システムにおいて、
前記利用者の音声を受信する受信手段と、
前記受信手段により受信された前記利用者の音声を分析し、第1の認識結果と該第1の認識結果に対する第1の認識確率とを生成する第1の認識手段と、
前記利用者の音声を管理者に供給する供給手段と、
前記管理者の音声を入力する入力手段と、
前記入力手段により入力された前記管理者の音声を分析し、第2の認識結果と該第2の認識結果に対する第2の認識確率とを生成する第2の認識手段と、
前記第1と第2の認識手段により生成された前記第1と第2の認識結果が一致するか否かを判別する判別手段と、
前記第1と第2の認識結果が一致すると判別された場合、前記第1と第2の認識結果を最終的な認識結果として決定する決定手段と、
前記第1と第2の認識結果が一致しないと判別された場合、前記第1と第2の認識確率を比較して最終的な認識結果として選択する手段と、を備える。
【0006】
このような構成によれば、利用者の音声と管理者の音声との双方の認識処理を行い、それらの認識結果が異なる場合は、双方の認識確率を比較して適当な認識結果を採用する。これにより、より認識精度の高い音声認識システムを実現することができる。
【0007】
前記選択手段は、前記第1の認識確率が前記第2の認識確率より大きい場合、前記第1の認識結果を最終的な認識結果として選択し、前記第1の認識結果が前記第2の認識結果より小さい場合、前記第2の認識結果を最終的な認識結果として選択する手段を備えてもよい。
このような構成によれば、利用者の音声の認識確率と管理者の音声の認識確率を比較し、認識確率の高い方の認識結果を最終的な認識結果として採用する。これにより、より認識精度の高い音声認識システムを実現することができる。
【0008】
前記供給手段は、前記第1の認識結果を表示する手段を更に備えてもよい。
これにより、管理者は、表示された認識結果を参照しながら利用者の音声を復唱することができるため、管理者の作業の負荷を削減することができる。
【0009】
該音声認識システムは、データベースと、前記第1の認識手段より生成された前記第1の認識結果をキーとして前記データベースを検索し、該当するデータを読み出して、表示する手段と、を備えてもよい。
これにより、1項目のデータ(例えば、ユーザID等)を認識することにより、そのデータにリンクされたデータ(例えば、住所、氏名、電話番号等)を自動的に表示させることができる。このため、利用者が発声しなければならない項目を削減し、利用者の作業負荷を削減することができる共に、迅速な対応が可能な効率の良いシステムを実現することができる。
【0010】
前記第1の認識確率と前記第2の認識確率にそれぞれ第1の重み値と第2の重み値とを掛け合わせるようにしてもよい。
これにより、例えば、利用者と管理者の音声の品質が同等になるよう調整することができる。
【0011】
また、この発明の第2の観点にかかるコールセンタシステムは、
利用者からの電話をオペレータが受け付けるコールセンタシステムにおいて、
前記利用者の音声を受信する受信手段と、
前記受信手段により受信された前記利用者の音声を分析し、第1の認識結果と該第1の認識結果に対する第1の認識確率とを生成する第1の認識手段と、
前記第1の認識手段により生成された前記第1の認識結果を前記オペレータに提示示する手段と、
前記利用者の音声を前記オペレータに供給する手段と、
前記オペレータの音声を入力する入力手段と、
前記入力手段により入力された前記オペレータの音声を分析し、第2の認識結果と該第2の認識結果に対する第2の認識確率とを生成する第2の認識手段と、
前記第1と第2の認識手段により生成された前記第1と第2の認識結果が一致するか否かを判別する手段と、
前記第1と第2の認識結果が一致すると判別された場合、該第1と第2の認識結果を最終的な認識結果として決定し、前記第1と第2の認識結果が一致しないと判別された場合、前記第1と第2の認識確率を比較して最終的な認識結果を選択する手段と、を備える。
【0012】
このような構成によれば、利用者の音声とオペレータの音声との双方の認識処理を行い、それらの認識結果が異なる場合は、より認識確率の高い方を最終的な認識結果として採用する。これにより、より認識精度の高いコールセンタシステムを実現することができる。
また、オペレータは、表示された認識結果を参照しながら利用者の用件を復唱することができるため、オペレータの作業の負荷を削減することができる。
【0013】
また、この発明の第3の観点にかかる音声認識方法は、
利用者の音声を受信する受信ステップと、
前記受信ステップにより受信された音声を分析し、第1の認識結果と該第1の認識結果に対する第1の認識確率とを生成する第1の認識ステップと、
前記音声を管理者に供給し、該音声の復唱を求める復唱要求ステップと、
前記管理者に復唱された音声を分析し、第2の認識結果と該第2の認識結果に対する第2の認識確率とを生成する第2の認識ステップと、
前記第1と第2の認識手段により生成された前記第1と第2の認識結果が一致するか否かを判別するステップと、
前記第1と第2の認識結果が一致すると判別された場合、該第1と第2の認識結果を最終的な認識結果として決定し、前記第1と第2の認識結果が一致しないと判別された場合、前記第1と第2の認識確率を比較して最終的な認識結果を選択するステップと、を備える。
【0014】
このような構成によれば、利用者の音声と管理者の音声の双方に対して認識処理を行い、それらの認識結果が異なる場合は、より認識確率の高い方を最終的な認識結果として採用するため、音声認識の精度を高めることができる。
【0015】
また、この発明の第4の観点にかかる記録媒体は、
コンピュータを、利用者からの用件を音声で受け付ける音声認識システムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
該コンピュータを、
前記利用者の音声を受信する受信手段、
前記受信手段により受信された前記利用者の音声を分析し、第1の認識結果と該第1の認識結果に対する第1の認識確率とを生成する第1の認識手段、
前記利用者の音声を管理者に供給する供給手段、
前記管理者の音声を入力する入力手段、
前記入力手段により入力された前記管理者の音声を分析し、第2の認識結果と該第2の認識結果に対する第2の認識確率とを生成する第2の認識手段、
前記第1と第2の認識手段により生成された前記第1と第2の認識結果が一致するか否かを判別する判別手段、
前記第1と第2の認識結果が一致すると判別された場合、前記第1と第2の認識結果を最終的な認識結果として決定する決定手段、
前記第1と第2の認識結果が一致しないと判別された場合、前記第1と第2の認識確率を比較して最終的な認識結果を選択する選択手段、
として機能させるためのプログラムを記録する。
【0016】
また、この発明の第5の観点にかかる記録媒体は、
コンピュータを、利用者からの電話をオペレータが受け付けるコールセンタシステムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
該コンピュータを、
前記利用者の音声を受信する受信手段、
前記受信手段により受信された前記利用者の音声を分析し、第1の認識結果と該第1の認識結果に対する第1の認識確率とを生成する第1の認識手段、
前記第1の認識手段により生成された前記第1の認識結果を前記オペレータに提示する手段、
前記利用者の音声を前記オペレータに供給する手段、
前記オペレータの音声を入力する入力手段、
前記入力手段により入力された前記オペレータの音声を分析し、第2の認識結果と該第2の認識結果に対する第2の認識確率とを生成する第2の認識手段、
前記第1と第2の認識手段により生成された前記第1と第2の認識結果が一致するか否かを判別する手段、
前記第1と第2の認識結果が一致すると判別された場合、該第1と第2の認識結果を最終的な認識結果として決定し、前記第1と第2の認識結果が一致しないと判別された場合、前記第1と第2の認識確率を比較して最終的な認識結果を選択する手段、
として機能させるためのプログラムを記録する。
【0017】
【発明の実施の形態】
本発明の実施の形態にかかる音声認識システムについて、商品に関する問い合わせ、修理依頼等を電話で受け付けるサポートセンタに設置された音声認識システムを例に以下図面を参照して説明する。
【0018】
この音声認識システムは、図1に示すように、回線制御部11と、オペレータ操作部12と、音声認識部13と、主制御部15と、データベース17と、を備える。
回線制御部11は、利用者の電話からの音声を公衆回線を介して受信し、音声認識部13に転送する。また、回線制御部11は、回線の接続・切断等を行う。
オペレータ操作部12は、マイク、キーボード、スピーカ、表示装置、等を備える。
【0019】
音声認識部13は、回線制御部11とオペレータ操作部12からのアナログ形式の音声データをデジタルデータに変換するA/D変換部を備える。音声認識部13は、音声データをA/D変換部でデジタルデータに変換し、認識処理を行う。認識方法は、認識結果とその結果が正しい確率(尤度)が得られる方法であれば、確率モデルを用いた方法、線形計画法を用いた方法、実験に基づいた方法等、任意である。音声認識部13は、認識結果と尤度とを主制御部15に送信する。
【0020】
主制御部15は、音声認識部13からの利用者の音声とオペレータの音声の認識結果の比較処理を行い、また、この音声認識システム全体を制御する。また、主制御部15は、利用者がユーザIDを発音した場合、データベース17を参照して、該当する利用者の情報(利用者情報)を読み出し、オペレータ操作部12の表示装置に表示する。
データベース17は、例えば、図2に示すように、利用者に付与されたユーザIDをキーとして、利用者名、住所、電話番号、等の利用者情報を記憶する。
【0021】
本システムは、利用者の音声の認識結果を暫定的な認識結果としてオペレータに提示して、オペレータによる人為的ミスを削減すると共に、利用者の音声の認識結果とオペレータの音声の認識結果とを比較(マッチング)することにより、その認識精度を高めることができる音声認識システムである。次に、このシステムにおける処理の流れについて図3を参照して説明する。
【0022】
まず、音声認識システムの回線制御部11が、公衆回線を介して利用者からの電話(発呼)を受信する(P1)。これに応答して、主制御部15は、「どのような御用件ですか?」等の用件の入力(発声)を促す旨のガイダンスを送信する(P2)。
利用者は、このガイダンスに応答して、「故障修理をお願いします。」等の用件を発声する(P3)。主制御部15は、この音声の受信に応答して、オペレータ操作部12のスピーカを介してオペレータに利用者の音声を供給する(P4)と共に音声認識部13に受信した音声の認識を指示する。
【0023】
音声認識部13は、この指示に従い、利用者の音声を認識し、認識結果とその尤度を主制御部15に送信する。主制御部15は、認識結果に対応する画面(例えば、認識結果が「故障修理」の場合、故障修理受付画面)をオペレータ操作部12の表示装置に表示する(P5)。
オペレータは、「故障修理ですね。」のように、利用者からの音声が示す事項を復唱する。ここで、オペレータは、表示画面より認識結果が正しいと判断した場合、その表示画面(例えば、故障修理受付画面)を参照しながら復唱することができる。オペレータの音声は、オペレータ操作部12のマイクを介して主制御部15に送られる(P6)。
【0024】
主制御部15は、回線制御部11と公衆回線を介してオペレータの音声を利用者に供給する(P7)と共に音声認識部13に音声の認識を指示する。
音声認識部13は、この指示に従い、オペレータの音声を認識し、認識結果とその尤度を主制御部15に送信する。
【0025】
ここで、主制御部15は、利用者の音声の認識結果及び尤度と、オペレータの音声の認識結果及び尤度と、を比較し、最終的な認識結果を生成する。
この比較処理について図4を参照して説明する。なお、利用者の音声が電話回線を介して送信されているため、利用者の音声の認識結果よりもオペレータの音声の認識結果の方が認識精度が高くなることが予想される。このことを考慮して、この比較処理では、各認識結果に重み付けを行う。各認識結果に対応する重み付け(重み)の値の取得方法は任意であり、例えば、電話回線の種類、複数のオペレータの音声等、種々の条件において実験的に取得された値でもよい。この例では利用者の認識結果への重みをW1とし、オペレータの認識結果への重みをW2とする。また、利用者の認識結果の尤度をT1とし、オペレータの認識結果の尤度をT2とする。
【0026】
まず、主制御部15は、利用者の音声の認識結果とオペレータの音声の認識結果とが一致するか否かを判別する(ステップS1)。一致すると判別した場合、最終的な認識結果として、初めに認識した利用者の音声の認識結果を選択し(ステップS5)、処理を終了する。
一致しないと判別した場合、主制御部15は、各認識結果の尤度(T1、T2)と対応する重み(W1、W2)とをそれぞれ掛け合わせた値をそれぞれ認識確度(R1、R2)として計算し、比較する(ステップS2、S3)。この比較において、利用者の音声の認識確度R1の方が高い場合(R1>R2)、最終的な認識結果として、利用者の音声の認識結果を選択し(ステップS5)、処理を終了する。
また、オペレータの音声の認識確度R2の方が高い場合(R1<R2)、最終的な認識結果として、オペレータの音声の認識結果を選択する(ステップS4)。
【0027】
上記比較処理において、最終的な認識結果として、オペレータの認識結果を選択した場合、主制御部15は、オペレータ操作部12の表示装置に表示されている画面を、オペレータの音声の認識結果に対応する画面に変更し、初めに認識された利用者の音声の認識結果を訂正する(P8)。また、最終的な認識結果として、利用者の音声の認識結果を選択した場合、表示装置の表示画面は変更しない。
【0028】
このようにして、利用者とオペレータの双方の音声を認識し、それらの認識結果を比較し、認識精度の高い方を選択することにより、より正確な認識結果を取得することができる。
また、初めに認識した利用者の音声の認識結果を暫定的な認識結果としてオペレータに提示することにより、オペレータがその認識結果を参照して利用者の音声の内容を復唱することができる。これにより、聞き間違い等の人為的ミスを防ぎ、オペレータの作業の負荷を削減することができる。
【0029】
また、1回の用件において、利用者からの入力(発声)が複数回必要な場合、上述の処理(図2のP2〜P8)が繰り返される。例えば、利用者からの用件が「故障修理」の要求であった場合、主制御部15は、オペレータ操作部12の表示装置に図5に示すような複数の入力項目を備える画面を表示し、製品名を尋ねる旨のガイダンスを利用者に送信する(P2)。このガイダンスに応答して、利用は製品名を発声する(P3)。主制御部15は、この音声の受信に応答して、オペレータに利用者の音声を供給する(P4)と共に音声認識部13に受信した音声の認識を指示する。音声認識部13は、主制御部15からの指示を受けて、この製品名の認識処理を実行し、認識結果と尤度を主制御部15に渡す。
【0030】
主制御部15は、図5に示す画面の製品名の入力欄B1に認識結果を表示する(P5)。オペレータは、スピーカからの利用者の音声(この場合、製品名)を復唱する(P6)。この際、オペレータは、表示された認識結果を正しいと判断した場合、画面の製品名の入力欄B1に表示された製品名を参照しながら復唱することができる。
主制御部15は、復唱された製品名を利用者に供給する(P7)と共に音声認識部13に音声の認識を指示する。音声認識部13は、復唱された製品名の認識処理を行い、認識結果を主制御部15に渡す。主制御部15は、2つの認識結果に対して比較処理を行い、最終的な認識結果を決定する。ここで、2つの認識結果が異なり、最終的な認識結果をオペレータが発声した製品名の認識結果とした場合、表示画面の製品名の入力欄B1の認識結果を訂正する(P8)。又、最終結果を当初の認識結果として決定した場合、次の入力項目を尋ねるガイダンス(例えば、ユーザID)を利用者に送る(P2)。
【0031】
なお、本システムでは、主制御部15が、音声認識部13から受け取った認識結果を基にデータベース17を検索し、対応するデータを読み出してオペレータ操作部に表示することができる。
主制御部15は、データベース17を参照するためのキーとなる項目(キー項目)を予め記憶しておき、そのキー項目が入力され、認識されたとき、その認識結果を基にデータベース17を参照する。
【0032】
本システムにおけるデータベース17は、図2に示すようにユーザIDをキーとする。ユーザIDを要求する旨のガイダンスに従って利用者がユーザIDを発声した場合、発声されたユーザIDが音声認識部13により認識され、主制御部15に渡される。主制御部15は、データベース17を検索し、認識されたユーザIDに対応する各項目(利用者名と住所と電話番号)を読み出し、認識結果であるユーザIDと共に例えば図5に示す入力欄B2、B3、B4、B5にそれぞれ表示する。
【0033】
オペレータは、ユーザIDを復唱し、その復唱されたユーザIDが音声認識部13により認識され、主制御部15により認識結果の比較処理がなされ、最終的な認識結果が決定される。最終的な認識結果として、当初の認識結果(利用者により発声されたユーザIDの認識結果)ではなくオペレータが発声したユーザIDの認識結果が選択された場合、そのユーザIDをキーとしてデータベース17が再検索される。
このように、入力項目をキーとするデータベースを備えることにより、キー項目に対応する項目を読み出してオペレータに提示することができる。これにより、データ入力の手間が省け、処理時間を短縮することができる。
【0034】
次に、本システムにおける具体的な処理の流れを、利用者C(ユーザID”A021”)から商品注文の電話を受信し、その用件を処理する場合を例に図6を参照して説明する。
まず、利用者Cからの電話(発呼)が回線制御部11により受信(着呼)される(F1)。これに応答して、主制御部15は「御用件をどうぞ。」等のガイダンスを利用者に送る(F2)。このガイダンスを受けて、利用者は、例えば「商品を注文したい。」と発声する。利用者の音声は、オペレータ操作部12のスピーカよりオペレータに通知されると共に、音声認識部13に渡され、認識処理が実行される。認識処理完了後、認識結果とその尤度が主制御部15に渡される。主制御部15は、認識された「商品の注文」に対応する「商品注文受付画面」(図7)をオペレータ操作部12の表示装置に表示する(F3)。
【0035】
オペレータは、利用者の音声を聞き、画面を参照しながら、例えば「商品の注文ですね。」と、利用者の用件を復唱する。オペレータの音声は、公衆回線を介して利用者に通知されると共に、音声認識部13に渡され、認識処理が実行される。認識処理完了後、認識結果とその尤度が主制御部15に渡される(F4)。
主制御部15は、利用者の音声とオペレータの音声の認識結果の比較処理を実行し、最終的な認識結果を決定する(F5)。
【0036】
双方の認識結果が一致した場合、主制御部15は次の入力項目を処理するために、「ご注文の製品名をどうぞ。」等のガイダンスを利用者に送る(F6)。このガイダンスを受けて、利用者は、例えば「コードレス電話機”BBフォン”」と発声する。利用者の音声は、オペレータ操作部12のスピーカよりオペレータに通知されると共に、音声認識部13に渡され、認識処理が実行される。認識処理完了後、音声認識部13は、認識結果とその尤度を主制御部15に渡す。
このとき、例えば「コードレス電話機”PPフォン”」という誤った認識結果と尤度「0.4」が取得され主制御部15に渡されたこととする。主制御部15は、認識された「コードレス電話機”PPフォン”」を注文製品名入力欄B11に表示する(F7)。
【0037】
オペレータは、利用者の音声を聞き、画面表示が誤りであると判断し、「コードレス電話機”BBフォン”ですね。」と、利用者の用件を復唱する。オペレータの音声は、公衆回線を介して利用者に通知されると共に、音声認識部13に渡され、認識処理が実行される(F8)。この場合、正しい認識結果である「コードレス電話機”BBフォン”」と尤度「0.8」が取得され主制御部15に渡されたこととする(F9)。
【0038】
主制御部15は、利用者の音声とオペレータの音声の認識結果について、それぞれの尤度とその重みとを掛け合わせた値を比較する。例えば、利用者の音声の認識結果とオペレータの音声の認識結果に対する重みがそれぞれ「0.8」と「0.7」に設定されている場合、利用者の音声に対する認識確度R1は「0.32(=0.4×0.8)」となり、オペレータの音声に対する認識確度R2は「0.56(=0.8×0.7)」となる。主制御部15は、オペレータの音声の認識確度の方が高い(R1<R2)と判別し、最終的な認識結果を「コードレス電話機”BBフォン”」と決定する。この場合、主制御部15は、図7の画面の注文製品名入力欄B11の内容を訂正する(F9)。
【0039】
次に、主制御部15は、「ユーザIDをどうぞ」等のガイダンスを利用者に送る(F10)。このガイダンスを受けて、利用者は自己のID(この場合、「A021」)を発声する。利用者の音声は、オペレータ操作部12のスピーカよりオペレータに通知されると共に、音声認識部13に渡され、認識処理が実行される。認識処理完了後、認識結果とその尤度が主制御部15に渡される。
【0040】
主制御部15は、この利用者からの入力データ(ユーザID)がデータベース17のキー項目であると判別し、音声認識部13から受け取った「A021」をキーとしてデータベース17を検索し、対応する氏名と住所と電話番号のデータを読み出す。主制御部15は、認識結果である「A021」をユーザID入力欄B12に表示すると共に、読み出したデータを氏名入力欄B13と住所入力欄B14と電話番号入力欄B15にそれぞれ表示する(F11)。
【0041】
オペレータは、利用者が発声したユーザIDを聞き、画面を参照しながら、「A021ですね。」と、利用者のユーザIDを復唱する。オペレータの音声は、公衆回線を介して利用者に通知されると共に、音声認識部13に渡され、認識処理が実行される。認識処理完了後、認識結果とその尤度が主制御部15に渡される(F12)。
【0042】
主制御部15は、利用者の音声とオペレータの音声の認識結果の比較処理を実行し、最終的な認識結果を決定する(F13)。双方の認識結果が一致した場合、主制御部15は、商品注文受付画面において必要な入力項目は全て入力されたとみなし、利用者に「ありがとうございました。」等のガイダンスを送信し(F14)、回線制御部11に回線を切断するよう指示する。この指示を受けて、回線制御部11は回線を切断し、処理を終了する(F15)。
【0043】
このようにして、利用者の音声とオペレータの音声の双方に対して認識処理を実行し、それらの認識結果を比較することにより、より精度の高い認識結果を取得することができる。また、利用者が発声した音声を認識し、その認識結果を画面表示してオペレータに提示することにより、オペレータがその画面表示を参照しながら復唱することができるため、オペレータの作業を支援することができる。
【0044】
なお、次の項目の入力に移る前に、「よろしいですか?」等、利用者の確認を求めるガイダンスを送信し、利用者から例えば「はい。」という音声が送信された場合、次の入力に移り、例えば「いいえ。」という音声が送信された場合、利用者にその項目の再発声を促すようにしてもよい。このとき、再発生された音声は、音声認識部13より認識されてもよく、オペレータによりオペレータ操作部12のキーボードから入力されるようにしてもよい。
【0045】
また、オペレータがガイダンスをオペレータ操作部12のマイクから発声するようにしてもよい。
【0046】
なお、データベースに記憶されるデータは上記説明のデータに限定されず種々のデータを記憶してもよく、この音声認識システムは、そのようなデータベースを複数備えてもよい。
【0047】
また、上記説明では、比較処理において、尤度と重みとを掛け合わせた認識確度を比較するようにしているが、尤度のみを用いて比較処理を行うようにしてもよい。
【0048】
また、図4に示す比較処理において、認識確度R1とR2を比較し、それらが一致する場合、どちらか一方を選択するステップを更に設けてもよい。この選択は、オペレータが行うようにしてもよく、システムが予め設定された選択基準に従って行うようにしてもよい。
【0049】
なお、この発明の音声認識システムは、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、アナログデータをデジタルデータに変換するA/D変換器とオペレータの音声を入力するためのマイクとを備えるコンピュータに上述の動作を実行するためのプログラムを格納した媒体(フロッピーディスク、CD−ROM等)から該プログラムをインストールすることにより、上述の処理を実行する音声認識システムを構成することができる。
なお、上述の機能を、OSが分担又はOSとアプリケーションの共同により実現する場合等には、OS以外の部分のみを媒体に格納してもよい。
【0050】
また、コンピュータにプログラムを供給するための媒体は、通信媒体(通信回線、通信ネットワーク、通信システムのように、一時的に且つ流動的にプログラムを保持する媒体)でも良い。例えば、通信ネットワークの掲示板(BBS)に該プログラムを掲示し、これをネットワークを介して配信してもよい。
そして、このプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
【0051】
【発明の効果】
以上説明したように、本発明によれば、利用者の音声と管理者の音声の双方に対して認識処理を行い、それらの認識結果が異なる場合は、より認識確率の高い方を最終的な認識結果として採用する。これにより、より精度の高い音声認識を実現することができるできる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声認識システムの構成を示す図である。
【図2】データベースに記憶されるデータの構造を示す図である。
【図3】本システムにおける処理の流れを説明するための図である。
【図4】比較処理を説明するためのフローチャートである。
【図5】故障修理の受付時に、オペレータ操作部の表示装置が表示する画面を示す図である。
【図6】利用者から商品の注文を受け付ける場合の処理を説明するための図である。
【図7】商品の注文の受付時に、オペレータ操作部の表示装置が表示する画面を示す図である。
【符号の説明】
11 回線制御部
12 オペレータ操作部
13 音声認識部
15 主制御部
17 データベース
Claims (10)
- 利用者からの用件を音声で受け付ける音声認識システムにおいて、
前記利用者の音声を受信する受信手段と、
前記受信手段により受信された前記利用者の音声を分析し、第1の認識結果と該第1の認識結果に対する第1の認識確率とを生成する第1の認識手段と、
前記利用者の音声を管理者に供給する供給手段と、
前記管理者の音声を入力する入力手段と、
前記入力手段により入力された前記管理者の音声を分析し、第2の認識結果と該第2の認識結果に対する第2の認識確率とを生成する第2の認識手段と、
前記第1と第2の認識手段により生成された前記第1と第2の認識結果が一致するか否かを判別する判別手段と、
前記第1と第2の認識結果が一致すると判別された場合、前記第1と第2の認識結果を最終的な認識結果として決定する決定手段と、
前記第1と第2の認識結果が一致しないと判別された場合、前記第1と第2の認識確率を比較して最終的な認識結果を選択する選択手段と、を備える、
ことを特徴とする音声認識システム。 - 前記選択手段は、前記第1の認識確率が前記第2の認識確率より大きい場合、前記第1の認識結果を最終的な認識結果として選択し、前記第1の認識結果が前記第2の認識結果より小さい場合、前記第2の認識結果を最終的な認識結果として選択する手段を備える、
ことを特徴とする請求項1に記載の音声認識システム。 - 前記供給手段は、前記第1の認識結果を表示する手段を更に備える、ことを特徴とする請求項1又は2に記載の音声認識システム。
- 該音声認識システムは、データベースと、前記第1の認識手段より生成された前記第1の認識結果をキーとして前記データベースを検索し、該当するデータを読み出して、表示する手段と、を備える、
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声認識システム。 - 前記第1の認識確率と前記第2の認識確率にそれぞれ第1の重み値と第2の重み値とを掛け合わせることにより、前記利用者と前記管理者の音声の品質が同等になるよう調整する調整手段を備える、ことを特徴とする請求項1乃至4のいずれか1項に記載の音声認識システム。
- 該音声認識システムは、前記第1の認識確率と前記第2の認識確率にそれぞれ第1の重み値と第2の重み値とを掛け合わせる手段を備え、
前記選択手段は、前記第1と第2の認識結果が一致しないと判別された場合、前記第1の重み値を掛け合わされた前記第1の認識確率と前記第2の重み値を掛け合わされた前記第2の認識確率とが一致するか否かを判別する手段と、前記第1の重み値を掛け合わされた前記第1の認識確率と前記第2の重み値を掛け合わされた前記第2の認識確率とが一致しないと判別された場合、該認識確率の大きい方の認識結果を最終的な認識結果として選択する手段と、前記第1の重み値を掛け合わされた前記第1の認識確率と前記第2の重み値を掛け合わされた前記第2の認識確率とが一致すると判別された場合、前記第1と第2の認識結果のいずれか一方を最終的な認識結果として選択する手段と、を備える、
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声認識システム。 - 利用者からの電話をオペレータが受け付けるコールセンタシステムにおいて、
前記利用者の音声を受信する受信手段と、
前記受信手段により受信された前記利用者の音声を分析し、第1の認識結果と該第1の認識結果に対する第1の認識確率とを生成する第1の認識手段と、
前記第1の認識手段により生成された前記第1の認識結果を前記オペレータに提示示する手段と、
前記利用者の音声を前記オペレータに供給する手段と、
前記オペレータの音声を入力する入力手段と、
前記入力手段により入力された前記オペレータの音声を分析し、第2の認識結果と該第2の認識結果に対する第2の認識確率とを生成する第2の認識手段と、
前記第1と第2の認識手段により生成された前記第1と第2の認識結果が一致するか否かを判別する手段と、
前記第1と第2の認識結果が一致すると判別された場合、該第1と第2の認識結果を最終的な認識結果として決定し、前記第1と第2の認識結果が一致しないと判別された場合、前記第1と第2の認識確率を比較して最終的な認識結果を選択する手段と、を備える、
ことを特徴とするコールセンタシステム。 - 利用者の音声を受信する受信ステップと、
前記受信ステップにより受信された音声を分析し、第1の認識結果と該第1の認識結果に対する第1の認識確率とを生成する第1の認識ステップと、
前記音声を管理者に供給し、該音声の復唱を求める復唱要求ステップと、
前記管理者に復唱された音声を分析し、第2の認識結果と該第2の認識結果に対する第2の認識確率とを生成する第2の認識ステップと、
前記第1と第2の認識手段により生成された前記第1と第2の認識結果が一致するか否かを判別するステップと、
前記第1と第2の認識結果が一致すると判別された場合、該第1と第2の認識結果を最終的な認識結果として決定し、前記第1と第2の認識結果が一致しないと判別された場合、前記第1と第2の認識確率を比較して最終的な認識結果を選択するステップと、を備える、
ことを特徴とする音声認識方法。 - コンピュータを、利用者からの用件を音声で受け付ける音声認識システムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
該コンピュータを、
前記利用者の音声を受信する受信手段、
前記受信手段により受信された前記利用者の音声を分析し、第1の認識結果と該第1の認識結果に対する第1の認識確率とを生成する第1の認識手段、
前記利用者の音声を管理者に供給する供給手段、
前記管理者の音声を入力する入力手段、
前記入力手段により入力された前記管理者の音声を分析し、第2の認識結果と該第2の認識結果に対する第2の認識確率とを生成する第2の認識手段、
前記第1と第2の認識手段により生成された前記第1と第2の認識結果が一致するか否かを判別する判別手段、
前記第1と第2の認識結果が一致すると判別された場合、前記第1と第2の認識結果を最終的な認識結果として決定する決定手段、
前記第1と第2の認識結果が一致しないと判別された場合、前記第1と第2の認識確率を比較して最終的な認識結果を選択する選択手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 - コンピュータを、利用者からの電話をオペレータが受け付けるコールセンタシステムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
該コンピュータを、
前記利用者の音声を受信する受信手段、
前記受信手段により受信された前記利用者の音声を分析し、第1の認識結果と該第1の認識結果に対する第1の認識確率とを生成する第1の認識手段、
前記第1の認識手段により生成された前記第1の認識結果を前記オペレータに提示する手段、
前記利用者の音声を前記オペレータに供給する手段、
前記オペレータの音声を入力する入力手段、
前記入力手段により入力された前記オペレータの音声を分析し、第2の認識結果と該第2の認識結果に対する第2の認識確率とを生成する第2の認識手段、
前記第1と第2の認識手段により生成された前記第1と第2の認識結果が一致するか否かを判別する手段、
前記第1と第2の認識結果が一致すると判別された場合、該第1と第2の認識結果を最終的な認識結果として決定し、前記第1と第2の認識結果が一致しないと判別された場合、前記第1と第2の認識確率を比較して最終的な認識結果を選択する手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06485198A JP3810551B2 (ja) | 1997-03-18 | 1998-03-16 | 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6451097 | 1997-03-18 | ||
JP9-64510 | 1997-03-18 | ||
JP06485198A JP3810551B2 (ja) | 1997-03-18 | 1998-03-16 | 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10322450A JPH10322450A (ja) | 1998-12-04 |
JP3810551B2 true JP3810551B2 (ja) | 2006-08-16 |
Family
ID=26405614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06485198A Expired - Lifetime JP3810551B2 (ja) | 1997-03-18 | 1998-03-16 | 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3810551B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4149370B2 (ja) * | 2003-12-15 | 2008-09-10 | シャープ株式会社 | オーダー処理装置、オーダー処理方法、オーダー処理プログラム、オーダー処理プログラム記録媒体及びオーダー処理システム |
JP4346571B2 (ja) | 2005-03-16 | 2009-10-21 | 富士通株式会社 | 音声認識システム、音声認識方法、及びコンピュータプログラム |
JP2007200198A (ja) * | 2006-01-30 | 2007-08-09 | Masahiro Yoshimoto | コールセンターシステム |
JP4197344B2 (ja) | 2006-02-20 | 2008-12-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声対話システム |
JP4760452B2 (ja) * | 2006-03-03 | 2011-08-31 | 日本電気株式会社 | 発話訓練装置、発話訓練システム、発話訓練支援方法およびプログラム |
JP4812029B2 (ja) * | 2007-03-16 | 2011-11-09 | 富士通株式会社 | 音声認識システム、および、音声認識プログラム |
JP4749437B2 (ja) * | 2008-03-28 | 2011-08-17 | 三菱電機インフォメーションシステムズ株式会社 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
JP4749438B2 (ja) * | 2008-03-28 | 2011-08-17 | 三菱電機インフォメーションシステムズ株式会社 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
JP2018010146A (ja) * | 2016-07-13 | 2018-01-18 | 公益財団法人鉄道総合技術研究所 | 伝達情報即時照合装置、伝達情報即時照合システム、伝達情報即時照合方法及びプログラム |
JP2020010107A (ja) * | 2018-07-04 | 2020-01-16 | Psソリューションズ株式会社 | サーバ、サーバの制御方法、サーバの制御プログラム、および遠隔サポートシステム |
JP7159701B2 (ja) * | 2018-08-30 | 2022-10-25 | 沖電気工業株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP7175832B2 (ja) * | 2019-04-11 | 2022-11-21 | 株式会社東芝 | 発券機、発券支援方法、およびプログラム |
-
1998
- 1998-03-16 JP JP06485198A patent/JP3810551B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH10322450A (ja) | 1998-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7917364B2 (en) | System and method using multiple automated speech recognition engines | |
US9202247B2 (en) | System and method utilizing voice search to locate a product in stores from a phone | |
US7318029B2 (en) | Method and apparatus for a interactive voice response system | |
US6377922B2 (en) | Distributed recognition system having multiple prompt-specific and response-specific speech recognizers | |
US6462616B1 (en) | Embedded phonetic support and TTS play button in a contacts database | |
US8818809B2 (en) | Methods and apparatus for generating, updating and distributing speech recognition models | |
JP3810551B2 (ja) | 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体 | |
US8335687B1 (en) | Performing speech recognition over a network and using speech recognition results | |
US6466654B1 (en) | Personal virtual assistant with semantic tagging | |
US6873951B1 (en) | Speech recognition system and method permitting user customization | |
JP3561076B2 (ja) | 任意に話された単語の自動通話認識方法 | |
US9224389B2 (en) | System and method for performing distributed speech recognition | |
US20090304161A1 (en) | system and method utilizing voice search to locate a product in stores from a phone | |
US20030191639A1 (en) | Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition | |
US20060095268A1 (en) | Dialogue system, dialogue method, and recording medium | |
KR20020064149A (ko) | 오디오 사용자 인터페이스를 통한 데이터베이스 조회결과의 효율적인 제공 | |
US8135589B1 (en) | Performing speech recognition over a network and using speech recognition results | |
US20050144187A1 (en) | Data processing apparatus and method | |
JPH10215319A (ja) | 音声によるダイヤル方法および装置 | |
US20060069570A1 (en) | System and method for defining and executing distributed multi-channel self-service applications | |
US7555533B2 (en) | System for communicating information from a server via a mobile communication device | |
US20060020471A1 (en) | Method and apparatus for robustly locating user barge-ins in voice-activated command systems | |
US20060095267A1 (en) | Dialogue system, dialogue method, and recording medium | |
JP2008015439A (ja) | 音声認識システム | |
KR20110064964A (ko) | 지능형 언어 학습 및 발음교정 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040318 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060524 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100602 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100602 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110602 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120602 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120602 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130602 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |