JP3810551B2

JP3810551B2 - 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体

Info

Publication number: JP3810551B2
Application number: JP06485198A
Authority: JP
Inventors: 克文福西
Original assignee: NTT Data Corp
Current assignee: NTT Data Corp
Priority date: 1997-03-18
Filing date: 1998-03-16
Publication date: 2006-08-16
Anticipated expiration: 2018-03-16
Also published as: JPH10322450A

Description

【０００１】
【発明の属する技術分野】
本発明は、利用者の音声を認識する対話型の音声認識システムにおいて、より認識精度を高めることができる音声認識システム及び記録媒体に関する。
また、オペレータの作業の負荷を軽減することができる音声認識システム、コールセンタシステム、音声認識方法及び記録媒体に関する。
【０００２】
【従来の技術】
利用者からの問い合わせ、注文、等を電話で受信するシステムとして、例えば、オペレータを配置しない自動応答型の音声認識システムが使用される。このようなシステムでは、コンピュータが、電話からのユーザの音声を認識し、その認識結果を基に自動的に処理を行う。
また、利用者からの電話にオペレータが応答し、オペレータが復唱した音声をコンピュータが認識し、入力処理を行う音声認識システムが提案されている。
【０００３】
【発明が解決しようとする課題】
しかし、自動応答型のシステムの場合、電話からの音声を認識するため、認識精度が低く、正しく認識されるまでユーザは何度も発声を繰り返さなければならならない。
また、オペレータが復唱した音声を認識するシステムの場合、利用者が正しく発声してもオペレータが間違って復唱した場合、発声を繰り返す必要が生じる。
【０００４】
本発明は、上記実状に鑑みてなされたもので、認識精度の高い音声認識システム、コールセンタシステム、音声認識方法及び記録媒体を提供することを目的とする。
また、オペレータの作業の負荷を軽減することができる音声認識システム、コールセンタシステム、音声認識方法及び記録媒体を提供すること他の目的とする。
【０００５】
【課題を解決するための手段】
上記目的を達成するため、この発明の第１の観点に係る音声認識システムは、
利用者からの用件を音声で受け付ける音声認識システムにおいて、
前記利用者の音声を受信する受信手段と、
前記受信手段により受信された前記利用者の音声を分析し、第１の認識結果と該第１の認識結果に対する第１の認識確率とを生成する第１の認識手段と、
前記利用者の音声を管理者に供給する供給手段と、
前記管理者の音声を入力する入力手段と、
前記入力手段により入力された前記管理者の音声を分析し、第２の認識結果と該第２の認識結果に対する第２の認識確率とを生成する第２の認識手段と、
前記第１と第２の認識手段により生成された前記第１と第２の認識結果が一致するか否かを判別する判別手段と、
前記第１と第２の認識結果が一致すると判別された場合、前記第１と第２の認識結果を最終的な認識結果として決定する決定手段と、
前記第１と第２の認識結果が一致しないと判別された場合、前記第１と第２の認識確率を比較して最終的な認識結果として選択する手段と、を備える。
【０００６】
このような構成によれば、利用者の音声と管理者の音声との双方の認識処理を行い、それらの認識結果が異なる場合は、双方の認識確率を比較して適当な認識結果を採用する。これにより、より認識精度の高い音声認識システムを実現することができる。
【０００７】
前記選択手段は、前記第１の認識確率が前記第２の認識確率より大きい場合、前記第１の認識結果を最終的な認識結果として選択し、前記第１の認識結果が前記第２の認識結果より小さい場合、前記第２の認識結果を最終的な認識結果として選択する手段を備えてもよい。
このような構成によれば、利用者の音声の認識確率と管理者の音声の認識確率を比較し、認識確率の高い方の認識結果を最終的な認識結果として採用する。これにより、より認識精度の高い音声認識システムを実現することができる。
【０００８】
前記供給手段は、前記第１の認識結果を表示する手段を更に備えてもよい。
これにより、管理者は、表示された認識結果を参照しながら利用者の音声を復唱することができるため、管理者の作業の負荷を削減することができる。
【０００９】
該音声認識システムは、データベースと、前記第１の認識手段より生成された前記第１の認識結果をキーとして前記データベースを検索し、該当するデータを読み出して、表示する手段と、を備えてもよい。
これにより、１項目のデータ（例えば、ユーザＩＤ等）を認識することにより、そのデータにリンクされたデータ（例えば、住所、氏名、電話番号等）を自動的に表示させることができる。このため、利用者が発声しなければならない項目を削減し、利用者の作業負荷を削減することができる共に、迅速な対応が可能な効率の良いシステムを実現することができる。
【００１０】
前記第１の認識確率と前記第２の認識確率にそれぞれ第１の重み値と第２の重み値とを掛け合わせるようにしてもよい。
これにより、例えば、利用者と管理者の音声の品質が同等になるよう調整することができる。
【００１１】
また、この発明の第２の観点にかかるコールセンタシステムは、
利用者からの電話をオペレータが受け付けるコールセンタシステムにおいて、
前記利用者の音声を受信する受信手段と、
前記受信手段により受信された前記利用者の音声を分析し、第１の認識結果と該第１の認識結果に対する第１の認識確率とを生成する第１の認識手段と、
前記第１の認識手段により生成された前記第１の認識結果を前記オペレータに提示示する手段と、
前記利用者の音声を前記オペレータに供給する手段と、
前記オペレータの音声を入力する入力手段と、
前記入力手段により入力された前記オペレータの音声を分析し、第２の認識結果と該第２の認識結果に対する第２の認識確率とを生成する第２の認識手段と、
前記第１と第２の認識手段により生成された前記第１と第２の認識結果が一致するか否かを判別する手段と、
前記第１と第２の認識結果が一致すると判別された場合、該第１と第２の認識結果を最終的な認識結果として決定し、前記第１と第２の認識結果が一致しないと判別された場合、前記第１と第２の認識確率を比較して最終的な認識結果を選択する手段と、を備える。
【００１２】
このような構成によれば、利用者の音声とオペレータの音声との双方の認識処理を行い、それらの認識結果が異なる場合は、より認識確率の高い方を最終的な認識結果として採用する。これにより、より認識精度の高いコールセンタシステムを実現することができる。
また、オペレータは、表示された認識結果を参照しながら利用者の用件を復唱することができるため、オペレータの作業の負荷を削減することができる。
【００１３】
また、この発明の第３の観点にかかる音声認識方法は、
利用者の音声を受信する受信ステップと、
前記受信ステップにより受信された音声を分析し、第１の認識結果と該第１の認識結果に対する第１の認識確率とを生成する第１の認識ステップと、
前記音声を管理者に供給し、該音声の復唱を求める復唱要求ステップと、
前記管理者に復唱された音声を分析し、第２の認識結果と該第２の認識結果に対する第２の認識確率とを生成する第２の認識ステップと、
前記第１と第２の認識手段により生成された前記第１と第２の認識結果が一致するか否かを判別するステップと、
前記第１と第２の認識結果が一致すると判別された場合、該第１と第２の認識結果を最終的な認識結果として決定し、前記第１と第２の認識結果が一致しないと判別された場合、前記第１と第２の認識確率を比較して最終的な認識結果を選択するステップと、を備える。
【００１４】
このような構成によれば、利用者の音声と管理者の音声の双方に対して認識処理を行い、それらの認識結果が異なる場合は、より認識確率の高い方を最終的な認識結果として採用するため、音声認識の精度を高めることができる。
【００１５】
また、この発明の第４の観点にかかる記録媒体は、
コンピュータを、利用者からの用件を音声で受け付ける音声認識システムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
該コンピュータを、
前記利用者の音声を受信する受信手段、
前記受信手段により受信された前記利用者の音声を分析し、第１の認識結果と該第１の認識結果に対する第１の認識確率とを生成する第１の認識手段、
前記利用者の音声を管理者に供給する供給手段、
前記管理者の音声を入力する入力手段、
前記入力手段により入力された前記管理者の音声を分析し、第２の認識結果と該第２の認識結果に対する第２の認識確率とを生成する第２の認識手段、
前記第１と第２の認識手段により生成された前記第１と第２の認識結果が一致するか否かを判別する判別手段、
前記第１と第２の認識結果が一致すると判別された場合、前記第１と第２の認識結果を最終的な認識結果として決定する決定手段、
前記第１と第２の認識結果が一致しないと判別された場合、前記第１と第２の認識確率を比較して最終的な認識結果を選択する選択手段、
として機能させるためのプログラムを記録する。
【００１６】
また、この発明の第５の観点にかかる記録媒体は、
コンピュータを、利用者からの電話をオペレータが受け付けるコールセンタシステムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
該コンピュータを、
前記利用者の音声を受信する受信手段、
前記受信手段により受信された前記利用者の音声を分析し、第１の認識結果と該第１の認識結果に対する第１の認識確率とを生成する第１の認識手段、
前記第１の認識手段により生成された前記第１の認識結果を前記オペレータに提示する手段、
前記利用者の音声を前記オペレータに供給する手段、
前記オペレータの音声を入力する入力手段、
前記入力手段により入力された前記オペレータの音声を分析し、第２の認識結果と該第２の認識結果に対する第２の認識確率とを生成する第２の認識手段、
前記第１と第２の認識手段により生成された前記第１と第２の認識結果が一致するか否かを判別する手段、
前記第１と第２の認識結果が一致すると判別された場合、該第１と第２の認識結果を最終的な認識結果として決定し、前記第１と第２の認識結果が一致しないと判別された場合、前記第１と第２の認識確率を比較して最終的な認識結果を選択する手段、
として機能させるためのプログラムを記録する。
【００１７】
【発明の実施の形態】
本発明の実施の形態にかかる音声認識システムについて、商品に関する問い合わせ、修理依頼等を電話で受け付けるサポートセンタに設置された音声認識システムを例に以下図面を参照して説明する。
【００１８】
この音声認識システムは、図１に示すように、回線制御部１１と、オペレータ操作部１２と、音声認識部１３と、主制御部１５と、データベース１７と、を備える。
回線制御部１１は、利用者の電話からの音声を公衆回線を介して受信し、音声認識部１３に転送する。また、回線制御部１１は、回線の接続・切断等を行う。
オペレータ操作部１２は、マイク、キーボード、スピーカ、表示装置、等を備える。
【００１９】
音声認識部１３は、回線制御部１１とオペレータ操作部１２からのアナログ形式の音声データをデジタルデータに変換するＡ／Ｄ変換部を備える。音声認識部１３は、音声データをＡ／Ｄ変換部でデジタルデータに変換し、認識処理を行う。認識方法は、認識結果とその結果が正しい確率（尤度）が得られる方法であれば、確率モデルを用いた方法、線形計画法を用いた方法、実験に基づいた方法等、任意である。音声認識部１３は、認識結果と尤度とを主制御部１５に送信する。
【００２０】
主制御部１５は、音声認識部１３からの利用者の音声とオペレータの音声の認識結果の比較処理を行い、また、この音声認識システム全体を制御する。また、主制御部１５は、利用者がユーザＩＤを発音した場合、データベース１７を参照して、該当する利用者の情報（利用者情報）を読み出し、オペレータ操作部１２の表示装置に表示する。
データベース１７は、例えば、図２に示すように、利用者に付与されたユーザＩＤをキーとして、利用者名、住所、電話番号、等の利用者情報を記憶する。
【００２１】
本システムは、利用者の音声の認識結果を暫定的な認識結果としてオペレータに提示して、オペレータによる人為的ミスを削減すると共に、利用者の音声の認識結果とオペレータの音声の認識結果とを比較（マッチング）することにより、その認識精度を高めることができる音声認識システムである。次に、このシステムにおける処理の流れについて図３を参照して説明する。
【００２２】
まず、音声認識システムの回線制御部１１が、公衆回線を介して利用者からの電話（発呼）を受信する（Ｐ１）。これに応答して、主制御部１５は、「どのような御用件ですか？」等の用件の入力（発声）を促す旨のガイダンスを送信する（Ｐ２）。
利用者は、このガイダンスに応答して、「故障修理をお願いします。」等の用件を発声する（Ｐ３）。主制御部１５は、この音声の受信に応答して、オペレータ操作部１２のスピーカを介してオペレータに利用者の音声を供給する（Ｐ４）と共に音声認識部１３に受信した音声の認識を指示する。
【００２３】
音声認識部１３は、この指示に従い、利用者の音声を認識し、認識結果とその尤度を主制御部１５に送信する。主制御部１５は、認識結果に対応する画面（例えば、認識結果が「故障修理」の場合、故障修理受付画面）をオペレータ操作部１２の表示装置に表示する（Ｐ５）。
オペレータは、「故障修理ですね。」のように、利用者からの音声が示す事項を復唱する。ここで、オペレータは、表示画面より認識結果が正しいと判断した場合、その表示画面（例えば、故障修理受付画面）を参照しながら復唱することができる。オペレータの音声は、オペレータ操作部１２のマイクを介して主制御部１５に送られる（Ｐ６）。
【００２４】
主制御部１５は、回線制御部１１と公衆回線を介してオペレータの音声を利用者に供給する（Ｐ７）と共に音声認識部１３に音声の認識を指示する。
音声認識部１３は、この指示に従い、オペレータの音声を認識し、認識結果とその尤度を主制御部１５に送信する。
【００２５】
ここで、主制御部１５は、利用者の音声の認識結果及び尤度と、オペレータの音声の認識結果及び尤度と、を比較し、最終的な認識結果を生成する。
この比較処理について図４を参照して説明する。なお、利用者の音声が電話回線を介して送信されているため、利用者の音声の認識結果よりもオペレータの音声の認識結果の方が認識精度が高くなることが予想される。このことを考慮して、この比較処理では、各認識結果に重み付けを行う。各認識結果に対応する重み付け（重み）の値の取得方法は任意であり、例えば、電話回線の種類、複数のオペレータの音声等、種々の条件において実験的に取得された値でもよい。この例では利用者の認識結果への重みをＷ１とし、オペレータの認識結果への重みをＷ２とする。また、利用者の認識結果の尤度をＴ１とし、オペレータの認識結果の尤度をＴ２とする。
【００２６】
まず、主制御部１５は、利用者の音声の認識結果とオペレータの音声の認識結果とが一致するか否かを判別する（ステップＳ１）。一致すると判別した場合、最終的な認識結果として、初めに認識した利用者の音声の認識結果を選択し（ステップＳ５）、処理を終了する。
一致しないと判別した場合、主制御部１５は、各認識結果の尤度（Ｔ１、Ｔ２）と対応する重み（Ｗ１、Ｗ２）とをそれぞれ掛け合わせた値をそれぞれ認識確度（Ｒ１、Ｒ２）として計算し、比較する（ステップＳ２、Ｓ３）。この比較において、利用者の音声の認識確度Ｒ１の方が高い場合（Ｒ１＞Ｒ２）、最終的な認識結果として、利用者の音声の認識結果を選択し（ステップＳ５）、処理を終了する。
また、オペレータの音声の認識確度Ｒ２の方が高い場合（Ｒ１＜Ｒ２）、最終的な認識結果として、オペレータの音声の認識結果を選択する（ステップＳ４）。
【００２７】
上記比較処理において、最終的な認識結果として、オペレータの認識結果を選択した場合、主制御部１５は、オペレータ操作部１２の表示装置に表示されている画面を、オペレータの音声の認識結果に対応する画面に変更し、初めに認識された利用者の音声の認識結果を訂正する（Ｐ８）。また、最終的な認識結果として、利用者の音声の認識結果を選択した場合、表示装置の表示画面は変更しない。
【００２８】
このようにして、利用者とオペレータの双方の音声を認識し、それらの認識結果を比較し、認識精度の高い方を選択することにより、より正確な認識結果を取得することができる。
また、初めに認識した利用者の音声の認識結果を暫定的な認識結果としてオペレータに提示することにより、オペレータがその認識結果を参照して利用者の音声の内容を復唱することができる。これにより、聞き間違い等の人為的ミスを防ぎ、オペレータの作業の負荷を削減することができる。
【００２９】
また、１回の用件において、利用者からの入力（発声）が複数回必要な場合、上述の処理（図２のＰ２〜Ｐ８）が繰り返される。例えば、利用者からの用件が「故障修理」の要求であった場合、主制御部１５は、オペレータ操作部１２の表示装置に図５に示すような複数の入力項目を備える画面を表示し、製品名を尋ねる旨のガイダンスを利用者に送信する（Ｐ２）。このガイダンスに応答して、利用は製品名を発声する（Ｐ３）。主制御部１５は、この音声の受信に応答して、オペレータに利用者の音声を供給する（Ｐ４）と共に音声認識部１３に受信した音声の認識を指示する。音声認識部１３は、主制御部１５からの指示を受けて、この製品名の認識処理を実行し、認識結果と尤度を主制御部１５に渡す。
【００３０】
主制御部１５は、図５に示す画面の製品名の入力欄Ｂ１に認識結果を表示する（Ｐ５）。オペレータは、スピーカからの利用者の音声（この場合、製品名）を復唱する（Ｐ６）。この際、オペレータは、表示された認識結果を正しいと判断した場合、画面の製品名の入力欄Ｂ１に表示された製品名を参照しながら復唱することができる。
主制御部１５は、復唱された製品名を利用者に供給する（Ｐ７）と共に音声認識部１３に音声の認識を指示する。音声認識部１３は、復唱された製品名の認識処理を行い、認識結果を主制御部１５に渡す。主制御部１５は、２つの認識結果に対して比較処理を行い、最終的な認識結果を決定する。ここで、２つの認識結果が異なり、最終的な認識結果をオペレータが発声した製品名の認識結果とした場合、表示画面の製品名の入力欄Ｂ１の認識結果を訂正する（Ｐ８）。又、最終結果を当初の認識結果として決定した場合、次の入力項目を尋ねるガイダンス（例えば、ユーザＩＤ）を利用者に送る（Ｐ２）。
【００３１】
なお、本システムでは、主制御部１５が、音声認識部１３から受け取った認識結果を基にデータベース１７を検索し、対応するデータを読み出してオペレータ操作部に表示することができる。
主制御部１５は、データベース１７を参照するためのキーとなる項目（キー項目）を予め記憶しておき、そのキー項目が入力され、認識されたとき、その認識結果を基にデータベース１７を参照する。
【００３２】
本システムにおけるデータベース１７は、図２に示すようにユーザＩＤをキーとする。ユーザＩＤを要求する旨のガイダンスに従って利用者がユーザＩＤを発声した場合、発声されたユーザＩＤが音声認識部１３により認識され、主制御部１５に渡される。主制御部１５は、データベース１７を検索し、認識されたユーザＩＤに対応する各項目（利用者名と住所と電話番号）を読み出し、認識結果であるユーザＩＤと共に例えば図５に示す入力欄Ｂ２、Ｂ３、Ｂ４、Ｂ５にそれぞれ表示する。
【００３３】
オペレータは、ユーザＩＤを復唱し、その復唱されたユーザＩＤが音声認識部１３により認識され、主制御部１５により認識結果の比較処理がなされ、最終的な認識結果が決定される。最終的な認識結果として、当初の認識結果（利用者により発声されたユーザＩＤの認識結果）ではなくオペレータが発声したユーザＩＤの認識結果が選択された場合、そのユーザＩＤをキーとしてデータベース１７が再検索される。
このように、入力項目をキーとするデータベースを備えることにより、キー項目に対応する項目を読み出してオペレータに提示することができる。これにより、データ入力の手間が省け、処理時間を短縮することができる。
【００３４】
次に、本システムにおける具体的な処理の流れを、利用者Ｃ（ユーザＩＤ”Ａ０２１”）から商品注文の電話を受信し、その用件を処理する場合を例に図６を参照して説明する。
まず、利用者Ｃからの電話（発呼）が回線制御部１１により受信（着呼）される（Ｆ１）。これに応答して、主制御部１５は「御用件をどうぞ。」等のガイダンスを利用者に送る（Ｆ２）。このガイダンスを受けて、利用者は、例えば「商品を注文したい。」と発声する。利用者の音声は、オペレータ操作部１２のスピーカよりオペレータに通知されると共に、音声認識部１３に渡され、認識処理が実行される。認識処理完了後、認識結果とその尤度が主制御部１５に渡される。主制御部１５は、認識された「商品の注文」に対応する「商品注文受付画面」（図７）をオペレータ操作部１２の表示装置に表示する（Ｆ３）。
【００３５】
オペレータは、利用者の音声を聞き、画面を参照しながら、例えば「商品の注文ですね。」と、利用者の用件を復唱する。オペレータの音声は、公衆回線を介して利用者に通知されると共に、音声認識部１３に渡され、認識処理が実行される。認識処理完了後、認識結果とその尤度が主制御部１５に渡される（Ｆ４）。
主制御部１５は、利用者の音声とオペレータの音声の認識結果の比較処理を実行し、最終的な認識結果を決定する（Ｆ５）。
【００３６】
双方の認識結果が一致した場合、主制御部１５は次の入力項目を処理するために、「ご注文の製品名をどうぞ。」等のガイダンスを利用者に送る（Ｆ６）。このガイダンスを受けて、利用者は、例えば「コードレス電話機”ＢＢフォン”」と発声する。利用者の音声は、オペレータ操作部１２のスピーカよりオペレータに通知されると共に、音声認識部１３に渡され、認識処理が実行される。認識処理完了後、音声認識部１３は、認識結果とその尤度を主制御部１５に渡す。
このとき、例えば「コードレス電話機”ＰＰフォン”」という誤った認識結果と尤度「０．４」が取得され主制御部１５に渡されたこととする。主制御部１５は、認識された「コードレス電話機”ＰＰフォン”」を注文製品名入力欄Ｂ１１に表示する（Ｆ７）。
【００３７】
オペレータは、利用者の音声を聞き、画面表示が誤りであると判断し、「コードレス電話機”ＢＢフォン”ですね。」と、利用者の用件を復唱する。オペレータの音声は、公衆回線を介して利用者に通知されると共に、音声認識部１３に渡され、認識処理が実行される（Ｆ８）。この場合、正しい認識結果である「コードレス電話機”ＢＢフォン”」と尤度「０．８」が取得され主制御部１５に渡されたこととする（Ｆ９）。
【００３８】
主制御部１５は、利用者の音声とオペレータの音声の認識結果について、それぞれの尤度とその重みとを掛け合わせた値を比較する。例えば、利用者の音声の認識結果とオペレータの音声の認識結果に対する重みがそれぞれ「０．８」と「０．７」に設定されている場合、利用者の音声に対する認識確度Ｒ１は「０．３２（＝０．４×０．８）」となり、オペレータの音声に対する認識確度Ｒ２は「０．５６（＝０．８×０．７）」となる。主制御部１５は、オペレータの音声の認識確度の方が高い（Ｒ１＜Ｒ２）と判別し、最終的な認識結果を「コードレス電話機”ＢＢフォン”」と決定する。この場合、主制御部１５は、図７の画面の注文製品名入力欄Ｂ１１の内容を訂正する（Ｆ９）。
【００３９】
次に、主制御部１５は、「ユーザＩＤをどうぞ」等のガイダンスを利用者に送る（Ｆ１０）。このガイダンスを受けて、利用者は自己のＩＤ（この場合、「Ａ０２１」）を発声する。利用者の音声は、オペレータ操作部１２のスピーカよりオペレータに通知されると共に、音声認識部１３に渡され、認識処理が実行される。認識処理完了後、認識結果とその尤度が主制御部１５に渡される。
【００４０】
主制御部１５は、この利用者からの入力データ（ユーザＩＤ）がデータベース１７のキー項目であると判別し、音声認識部１３から受け取った「Ａ０２１」をキーとしてデータベース１７を検索し、対応する氏名と住所と電話番号のデータを読み出す。主制御部１５は、認識結果である「Ａ０２１」をユーザＩＤ入力欄Ｂ１２に表示すると共に、読み出したデータを氏名入力欄Ｂ１３と住所入力欄Ｂ１４と電話番号入力欄Ｂ１５にそれぞれ表示する（Ｆ１１）。
【００４１】
オペレータは、利用者が発声したユーザＩＤを聞き、画面を参照しながら、「Ａ０２１ですね。」と、利用者のユーザＩＤを復唱する。オペレータの音声は、公衆回線を介して利用者に通知されると共に、音声認識部１３に渡され、認識処理が実行される。認識処理完了後、認識結果とその尤度が主制御部１５に渡される（Ｆ１２）。
【００４２】
主制御部１５は、利用者の音声とオペレータの音声の認識結果の比較処理を実行し、最終的な認識結果を決定する（Ｆ１３）。双方の認識結果が一致した場合、主制御部１５は、商品注文受付画面において必要な入力項目は全て入力されたとみなし、利用者に「ありがとうございました。」等のガイダンスを送信し（Ｆ１４）、回線制御部１１に回線を切断するよう指示する。この指示を受けて、回線制御部１１は回線を切断し、処理を終了する（Ｆ１５）。
【００４３】
このようにして、利用者の音声とオペレータの音声の双方に対して認識処理を実行し、それらの認識結果を比較することにより、より精度の高い認識結果を取得することができる。また、利用者が発声した音声を認識し、その認識結果を画面表示してオペレータに提示することにより、オペレータがその画面表示を参照しながら復唱することができるため、オペレータの作業を支援することができる。
【００４４】
なお、次の項目の入力に移る前に、「よろしいですか？」等、利用者の確認を求めるガイダンスを送信し、利用者から例えば「はい。」という音声が送信された場合、次の入力に移り、例えば「いいえ。」という音声が送信された場合、利用者にその項目の再発声を促すようにしてもよい。このとき、再発生された音声は、音声認識部１３より認識されてもよく、オペレータによりオペレータ操作部１２のキーボードから入力されるようにしてもよい。
【００４５】
また、オペレータがガイダンスをオペレータ操作部１２のマイクから発声するようにしてもよい。
【００４６】
なお、データベースに記憶されるデータは上記説明のデータに限定されず種々のデータを記憶してもよく、この音声認識システムは、そのようなデータベースを複数備えてもよい。
【００４７】
また、上記説明では、比較処理において、尤度と重みとを掛け合わせた認識確度を比較するようにしているが、尤度のみを用いて比較処理を行うようにしてもよい。
【００４８】
また、図４に示す比較処理において、認識確度Ｒ１とＲ２を比較し、それらが一致する場合、どちらか一方を選択するステップを更に設けてもよい。この選択は、オペレータが行うようにしてもよく、システムが予め設定された選択基準に従って行うようにしてもよい。
【００４９】
なお、この発明の音声認識システムは、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、アナログデータをデジタルデータに変換するＡ／Ｄ変換器とオペレータの音声を入力するためのマイクとを備えるコンピュータに上述の動作を実行するためのプログラムを格納した媒体（フロッピーディスク、ＣＤ−ＲＯＭ等）から該プログラムをインストールすることにより、上述の処理を実行する音声認識システムを構成することができる。
なお、上述の機能を、ＯＳが分担又はＯＳとアプリケーションの共同により実現する場合等には、ＯＳ以外の部分のみを媒体に格納してもよい。
【００５０】
また、コンピュータにプログラムを供給するための媒体は、通信媒体（通信回線、通信ネットワーク、通信システムのように、一時的に且つ流動的にプログラムを保持する媒体）でも良い。例えば、通信ネットワークの掲示板（ＢＢＳ）に該プログラムを掲示し、これをネットワークを介して配信してもよい。
そして、このプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
【００５１】
【発明の効果】
以上説明したように、本発明によれば、利用者の音声と管理者の音声の双方に対して認識処理を行い、それらの認識結果が異なる場合は、より認識確率の高い方を最終的な認識結果として採用する。これにより、より精度の高い音声認識を実現することができるできる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る音声認識システムの構成を示す図である。
【図２】データベースに記憶されるデータの構造を示す図である。
【図３】本システムにおける処理の流れを説明するための図である。
【図４】比較処理を説明するためのフローチャートである。
【図５】故障修理の受付時に、オペレータ操作部の表示装置が表示する画面を示す図である。
【図６】利用者から商品の注文を受け付ける場合の処理を説明するための図である。
【図７】商品の注文の受付時に、オペレータ操作部の表示装置が表示する画面を示す図である。
【符号の説明】
１１回線制御部
１２オペレータ操作部
１３音声認識部
１５主制御部
１７データベース

Claims

利用者からの用件を音声で受け付ける音声認識システムにおいて、
前記利用者の音声を受信する受信手段と、
前記受信手段により受信された前記利用者の音声を分析し、第１の認識結果と該第１の認識結果に対する第１の認識確率とを生成する第１の認識手段と、
前記利用者の音声を管理者に供給する供給手段と、
前記管理者の音声を入力する入力手段と、
前記入力手段により入力された前記管理者の音声を分析し、第２の認識結果と該第２の認識結果に対する第２の認識確率とを生成する第２の認識手段と、
前記第１と第２の認識手段により生成された前記第１と第２の認識結果が一致するか否かを判別する判別手段と、
前記第１と第２の認識結果が一致すると判別された場合、前記第１と第２の認識結果を最終的な認識結果として決定する決定手段と、
前記第１と第２の認識結果が一致しないと判別された場合、前記第１と第２の認識確率を比較して最終的な認識結果を選択する選択手段と、を備える、
ことを特徴とする音声認識システム。
前記選択手段は、前記第１の認識確率が前記第２の認識確率より大きい場合、前記第１の認識結果を最終的な認識結果として選択し、前記第１の認識結果が前記第２の認識結果より小さい場合、前記第２の認識結果を最終的な認識結果として選択する手段を備える、
ことを特徴とする請求項１に記載の音声認識システム。
前記供給手段は、前記第１の認識結果を表示する手段を更に備える、ことを特徴とする請求項１又は２に記載の音声認識システム。
該音声認識システムは、データベースと、前記第１の認識手段より生成された前記第１の認識結果をキーとして前記データベースを検索し、該当するデータを読み出して、表示する手段と、を備える、
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声認識システム。
前記第１の認識確率と前記第２の認識確率にそれぞれ第１の重み値と第２の重み値とを掛け合わせることにより、前記利用者と前記管理者の音声の品質が同等になるよう調整する調整手段を備える、ことを特徴とする請求項１乃至４のいずれか１項に記載の音声認識システム。
該音声認識システムは、前記第１の認識確率と前記第２の認識確率にそれぞれ第１の重み値と第２の重み値とを掛け合わせる手段を備え、
前記選択手段は、前記第１と第２の認識結果が一致しないと判別された場合、前記第１の重み値を掛け合わされた前記第１の認識確率と前記第２の重み値を掛け合わされた前記第２の認識確率とが一致するか否かを判別する手段と、前記第１の重み値を掛け合わされた前記第１の認識確率と前記第２の重み値を掛け合わされた前記第２の認識確率とが一致しないと判別された場合、該認識確率の大きい方の認識結果を最終的な認識結果として選択する手段と、前記第１の重み値を掛け合わされた前記第１の認識確率と前記第２の重み値を掛け合わされた前記第２の認識確率とが一致すると判別された場合、前記第１と第２の認識結果のいずれか一方を最終的な認識結果として選択する手段と、を備える、
ことを特徴とする請求項１乃至４のいずれか１項に記載の音声認識システム。
利用者からの電話をオペレータが受け付けるコールセンタシステムにおいて、
前記利用者の音声を受信する受信手段と、
前記受信手段により受信された前記利用者の音声を分析し、第１の認識結果と該第１の認識結果に対する第１の認識確率とを生成する第１の認識手段と、
前記第１の認識手段により生成された前記第１の認識結果を前記オペレータに提示示する手段と、
前記利用者の音声を前記オペレータに供給する手段と、
前記オペレータの音声を入力する入力手段と、
前記入力手段により入力された前記オペレータの音声を分析し、第２の認識結果と該第２の認識結果に対する第２の認識確率とを生成する第２の認識手段と、
前記第１と第２の認識手段により生成された前記第１と第２の認識結果が一致するか否かを判別する手段と、
前記第１と第２の認識結果が一致すると判別された場合、該第１と第２の認識結果を最終的な認識結果として決定し、前記第１と第２の認識結果が一致しないと判別された場合、前記第１と第２の認識確率を比較して最終的な認識結果を選択する手段と、を備える、
ことを特徴とするコールセンタシステム。
利用者の音声を受信する受信ステップと、
前記受信ステップにより受信された音声を分析し、第１の認識結果と該第１の認識結果に対する第１の認識確率とを生成する第１の認識ステップと、
前記音声を管理者に供給し、該音声の復唱を求める復唱要求ステップと、
前記管理者に復唱された音声を分析し、第２の認識結果と該第２の認識結果に対する第２の認識確率とを生成する第２の認識ステップと、
前記第１と第２の認識手段により生成された前記第１と第２の認識結果が一致するか否かを判別するステップと、
前記第１と第２の認識結果が一致すると判別された場合、該第１と第２の認識結果を最終的な認識結果として決定し、前記第１と第２の認識結果が一致しないと判別された場合、前記第１と第２の認識確率を比較して最終的な認識結果を選択するステップと、を備える、
ことを特徴とする音声認識方法。
コンピュータを、利用者からの用件を音声で受け付ける音声認識システムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
該コンピュータを、
前記利用者の音声を受信する受信手段、
前記受信手段により受信された前記利用者の音声を分析し、第１の認識結果と該第１の認識結果に対する第１の認識確率とを生成する第１の認識手段、
前記利用者の音声を管理者に供給する供給手段、
前記管理者の音声を入力する入力手段、
前記入力手段により入力された前記管理者の音声を分析し、第２の認識結果と該第２の認識結果に対する第２の認識確率とを生成する第２の認識手段、
前記第１と第２の認識手段により生成された前記第１と第２の認識結果が一致するか否かを判別する判別手段、
前記第１と第２の認識結果が一致すると判別された場合、前記第１と第２の認識結果を最終的な認識結果として決定する決定手段、
前記第１と第２の認識結果が一致しないと判別された場合、前記第１と第２の認識確率を比較して最終的な認識結果を選択する選択手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
コンピュータを、利用者からの電話をオペレータが受け付けるコールセンタシステムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
該コンピュータを、
前記利用者の音声を受信する受信手段、
前記受信手段により受信された前記利用者の音声を分析し、第１の認識結果と該第１の認識結果に対する第１の認識確率とを生成する第１の認識手段、
前記第１の認識手段により生成された前記第１の認識結果を前記オペレータに提示する手段、
前記利用者の音声を前記オペレータに供給する手段、
前記オペレータの音声を入力する入力手段、
前記入力手段により入力された前記オペレータの音声を分析し、第２の認識結果と該第２の認識結果に対する第２の認識確率とを生成する第２の認識手段、
前記第１と第２の認識手段により生成された前記第１と第２の認識結果が一致するか否かを判別する手段、
前記第１と第２の認識結果が一致すると判別された場合、該第１と第２の認識結果を最終的な認識結果として決定し、前記第１と第２の認識結果が一致しないと判別された場合、前記第１と第２の認識確率を比較して最終的な認識結果を選択する手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。