JP2004109563A - 音声対話システム、音声対話のためのプログラムおよび音声対話方法 - Google Patents

音声対話システム、音声対話のためのプログラムおよび音声対話方法 Download PDF

Info

Publication number
JP2004109563A
JP2004109563A JP2002272689A JP2002272689A JP2004109563A JP 2004109563 A JP2004109563 A JP 2004109563A JP 2002272689 A JP2002272689 A JP 2002272689A JP 2002272689 A JP2002272689 A JP 2002272689A JP 2004109563 A JP2004109563 A JP 2004109563A
Authority
JP
Japan
Prior art keywords
recognition
user
voice
determined
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002272689A
Other languages
English (en)
Other versions
JP3926242B2 (ja
Inventor
Kenji Abe
阿部 賢司
Naoji Matsuo
松尾 直司
Kiyouko Okuyama
奥山 鏡子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002272689A priority Critical patent/JP3926242B2/ja
Publication of JP2004109563A publication Critical patent/JP2004109563A/ja
Application granted granted Critical
Publication of JP3926242B2 publication Critical patent/JP3926242B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】効率的な音声対話システムを実現する。
【解決手段】音声対話システム(100)は、端末より接続可能であり、その端末からの音声信号に対して音声認識を実行する音声認識手段(110)と、その音声認識の結果が得られないときにその原因を判定して、その判定された原因への対処法を決定する対処法決定手段(112)と、その端末の音響的環境を推定する推定手段(120)と、その推定された音響的環境に応じてその端末に対する応答方法を決定する応答方法決定手段(122)と、その決定された対処法を表す情報をその決定された応答方法でその端末に送信する送信手段(126)と、を具える。
【選択図】    図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識に関し、特にインタラクティブな即ち対話的な音声認識に関する。
【0002】
【従来の技術】
通常の固定電話に加えて携帯電話が普及し、最近、インターネットを介して音声によってアクセスされるボイスポータルの試験的運用が開始されている。そのような中で、音声対話システムの高度化に対するニーズ(要求)が強くなっている。
【0003】
音声対話システムにおいて最も重要なことは、ユーザの意図を的確に抽出または推定することである。そのためには、まず、ユーザが発した音声信号を的確に認識する必要がある。即ち、音声認識の性能が音声対話システムの性能を左右する。そのため、音声対話システムにおいて、音声信号中の雑音成分を除去したり、音響モデルや言語モデルを改良することによって、音声認識の性能を上げることが試みられているが、不規則な雑音の混入および言語表現の多様性により、いかなる状況においても100%の認識率が得られるようにすることは事実上不可能である。
【0004】
認識結果が得られず音声認識に失敗した場合、例えば、音声区間の切り出しに失敗して認識できない場合、および音声認識の結果のスコアがシステムで定めた閾値よりも低いためその結果が不採用になった場合に、例えば、対話によって音声の再入力を要求する機能を有するようにした対話システムが提案された。しかし、そのシステムでは失敗原因がユーザに知らされないので、同じ失敗を何度も繰り返すことがある。
【0005】
また、認識失敗の原因をユーザに通知して失敗の繰り返しを回避するという手法も考案されている。
【0006】
特開平10−133849号公報(特許文献1)には、音声認識に失敗したときに、エラーメッセージを表示することが記載されている。
【特許文献1】
特開平10−133849号公報
【0007】
特開2000−112497号公報(特許文献2)には、入力された音声認識に失敗した場合に、その理由情報を通知することが記載されている。
【特許文献2】
特開2000−112497号公報
【0008】
特開2002−23903号公報(特許文献3)には、初回利用者に対してインストラクションを与えることが記載されている。
【特許文献3】
特開2002−23903号公報
【0009】
【発明が解決しようとする課題】
上述の従来の手法は、音声認識の失敗に関するメッセージをディスプレイ上に表示したり、定常的に低雑音であるような音響的環境を前提として音声メッセージを提供するものである。しかし、例えば携帯電話ではユーザが音声通話中においてディスプレイを利用することは実際には不可能である。ユーザが音声を聞き取れないような大きな雑音が存在する音響的環境においては、必ずしも音声メッセージが有効であるとは限らない。ユーザが失敗原因を知ったとしても、ユーザがその意味を理解できるとは限らず、それに対する解決手段が設けられているとは限らない。例えば、ユーザがある雑音環境下にいて、その場を離れることができない場合、雑音が失敗の原因であることを知ったとしても、ユーザはそれに対処するのが困難である。従って、実際には、これらの手法の適用は限られている。
【0010】
発明者たちは、ユーザ端末にシステム応答をユーザの環境に適した方法でユーザ端末に送信すると有利であると認識した。発明者たちは、音声認識に失敗した場合には、その原因をユーザ端末に通知するだけでなく、それに対処するための手段をユーザ端末に提供すると有利であると認識した。また、発明者たちは、システムを高度化するためには、ユーザの特徴および過去の状況を考慮して効率的に音声認識を行うことが有利であると認識した。音声認識に失敗して対話が成立しないときに、失敗メッセージの応答を繰り返し送信して対話を継続するのは無駄である。
【0011】
本発明の目的は、効率的な音声対話システムを実現することである。
【0012】
【課題を解決するための手段】
本発明の特徴によれば、音声対話システムは、端末より接続可能であり、その端末からの音声信号に対して音声認識を実行する音声認識手段と、その音声認識の結果が得られないときにその原因を判定して、その判定された原因への対処法を決定する対処法決定手段と、その端末の音響的環境を推定する推定手段と、その推定された音響的環境に応じてその端末に対する応答方法を決定する応答方法決定手段と、その決定された対処法を表す情報をその決定された応答方法でその端末に送信する送信手段と、を具える。
【0013】
音声対話システムは、さらに、ユーザの識別情報および利用履歴情報を記憶する記憶手段を具えていてもよい。その対処法決定手段は、その記憶手段に格納されたそのユーザのその識別情報および利用履歴情報に従ってその対処法を決定してもよい。
【0014】
前記対処法には音声認識用のパラメータの調整が含まれていてもよい。その対処法には対処用のプログラムのその端末への送信が含まれていてもよい。その対処法決定手段が、音声対話は不可能と判定したときに、その対処法としてその端末との通信を切断することを決定することを含んでいてもよい。
【0015】
音声対話システムは、さらに、その決定された対処法を記憶する対処法履歴記憶手段を具えていてもよい。その音声認識手段が、その対処法履歴記憶手段に格納されたその対処法の履歴に従って音声認識を実行してもよい。
【0016】
その応答方法決定手段は、その推定された音響的環境に応じて、その決定された対処法を表す音声信号、電子メールおよび/または画像信号が前記端末に送信されるようにしてもよい。
【0017】
本発明の別の特徴によれば、音声対話システムは、ユーザからの音声信号に対して音声認識を実行する音声認識手段と、その音声認識の結果が得られないときにその原因を判定して、その判定された原因への対処法を決定する対処法決定手段と、そのユーザの音響的環境を推定する推定手段と、その推定された音響的環境に応じてそのユーザに対する応答方法を決定する応答方法決定手段と、その決定された対処法を表す情報をその決定された応答方法でその端末に送信する送信手段と、を具える。
【0018】
本発明のさらに別の特徴によれば、端末からの音声信号に対して音声認識を実行するステップと、その音声認識の結果が得られないときにその原因を判定するステップと、その判定された原因への対処法を決定するステップと、その端末の音響的環境を推定するステップと、その推定された音響的環境に応じてその端末に対する応答方法を決定するステップと、その決定された対処法を表す情報をその決定された応答方法でその端末に送信するステップと、を実行させるよう動作可能である。
【0019】
本発明のさらに別の特徴によれば、音声対話システムにおいて用いられる音声対話方法は、端末からの音声信号に対して音声認識を実行するステップと、その音声認識の結果が得られないときにその原因を判定するステップと、その判定された原因への対処法を決定するステップと、その端末の音響的環境を推定するステップと、その推定された音響的環境に応じて前記端末に対する応答方法を決定するステップと、その決定された対処法を表す情報を前記決定された応答方法で前記端末に送信するステップと、を含んでいる。
【0020】
本発明によれば、効率的な音声対話システムを実現できる。システム応答をユーザの環境に適した方法でユーザ端末に送信することができる。音声認識に失敗した場合には、その原因をユーザ端末に通知するだけでなく、それに対処するための手段をユーザ端末に提供できる。ユーザの特徴および過去の状況を考慮して効率的に音声認識を行うことができ、システムを高度化できる。
【0021】
【発明の実施の形態】
図1は、本発明の実施形態による音声対話システム100を示している。音声対話システム100は、入力信号受信部102、音響解析部104、音声信号記録(録音)部106、音声信号データベース108、音声認識部110、認識失敗原因判定部112、認識パラメータ設定部114、対話管理部116、タスク処理部118、ユーザ環境推定部120、応答方法決定部122、応答生成部124、出力信号送信部126およびプロセッサまたはコントローラ150を含んでいる。
【0022】
各部102〜126は、プロセッサ150によって制御される。各部102〜126は、ハードウェアまたはソフトウェアの形態で実装されている。各部102〜126は、プロセッサ150によって実行されるプログラムとして実装されていてもよい。
【0023】
入力信号受信部102は、ユーザ端末から送信された音声信号を受信して音響解析部104にその音声信号を供給する。音響解析部104は、入力信号受信部102からの音声信号を解析する。音響解析部104は、ユーザの発声前の背景雑音に関してはその雑音のレベルを検出し、認識失敗原因判定部112にその雑音の検出レベルを供給して認識失敗の原因となるか否かを判定するよう要求する。それによって、システム100は、ユーザの発話を認識する前に、音声認識の失敗の原因(要因)に対処することができる。音響解析部104は、後で説明するように背景雑音のレベルが閾値より大きく且つシステム内での対処が不可能であると判定された場合以外は、音声信号を音声信号記録部106に供給する。
【0024】
音声信号記録部106は、音響解析部104から供給された音声信号データを記録し、そのデータを音声信号データベース108に蓄積する。音声信号データベース108はその音声データを蓄積する。
【0025】
音声認識部110は、音声信号データベース108の音声データに対して音声認識を行って、音声信号に対応する文字列を導出する。音声認識部110は、音声認識に失敗した場合に、認識失敗原因判定部112に失敗原因の判定を要求する。
【0026】
認識失敗原因判定部112は、音響解析部104からの要求に応答して、背景雑音が認識失敗の原因になるか否かを判定する。認識失敗原因判定部112は、背景雑音が失敗の原因になると判定した場合には、さらに認識のためのパラメータの調整またはパラメータの値の変更によって対処できるかどうかを判定し、対処できると判定した場合には、認識パラメータ設定部114にパラメータの調整を要求する。
【0027】
認識失敗原因判定部112は、さらに、音声認識部110からの要求に応答して、音声認識失敗の原因を解析する。認識失敗原因判定部112は、認識のためのパラメータを調整することによってそれに対処できると判定した場合には、パラメータの調整を認識パラメータ設定部114に要求する。認識失敗原因判定部112は、システム100内での対処が不可能であると判定した場合には、ユーザの音響的環境の推定をユーザ環境推定部120に要求する。
【0028】
認識パラメータ設定部114は、認識失敗原因判定部112からのパラメータの調整の要求に応答してパラメータの値を調整し、音声の再認識が必要な場合には音声認識部110に音声認識を要求する。ユーザ環境推定部120は、認識失敗原因判定部112からの要求に応答して、ユーザの現在の音響的な環境を推定する。
【0029】
対話管理部116は、音声認識部110が音声認識に成功したときに、導出した文字データを解析してユーザの意図を推定または抽出し、その意図への対応を決定する。タスク処理部118は、対話を通じて要求されたタスクを処理し、または外部モジュール(図示せず)に処理を要求する。
【0030】
応答方法決定部122は、ユーザの音響的環境の推定の結果に基づいてユーザへ応答を出力するための方法または手段を決定する。応答生成部124は、その決定された応答方法または応答手段に従ってユーザへの応答を生成する。出力信号送信部126は、応答生成部124によって生成されたユーザへの応答信号を、応答方法決定部122によって決定された応答方法または応答手段でユーザ端末へ送信する。その応答方法には、ユーザ端末との通信の“切断”も含まれている。
【0031】
図2は、図1の対話システム100における処理のフロー図を示している。
【0032】
ステップ202において、入力信号受信部102は、ユーザ端末から送信された音声信号を受信する。音響解析部104は、ステップ204において受信した音声信号を解析する。ステップ206において、音響解析部104は、ユーザ発声前の背景雑音のレベルを検出し、そのレベルが閾値より大きいかどうかを判定する。そのレベルが閾値より小さいと判定された場合には、音響解析部104は、信号を解析して音声信号を音声信号記録部106に供給する。ステップ208において、音声信号記録部106は音声信号をデータベース108に蓄積する。
【0033】
ステップ206においてそのレベルが閾値以上であると判定された場合には、音響解析部104は、そのレベルの値を認識失敗原因判定部112に供給して、認識失敗の原因になるか否かの判定を要求する。手順はステップ214へ進む。
【0034】
ステップ214において、認識失敗原因判定部112は、音響解析部104からの要求に応答して、背景雑音が認識失敗の原因となるか否かを判定する。それが失敗の原因になると判定された場合は、認識失敗原因判定部112は、さらにステップ216において認識時のパラメータの調整によって対処できるかどうかを判定する。パラメータの調整によって対処できると判定された場合には、認識失敗原因判定部112は、認識パラメータ設定部114に認識パラメータを調整するよう要求する。ステップ218において、認識パラメータ設定部114は認識パラメータを調整し即ち認識パラメータの値を変更する。その際、ステップ208における音声信号の記録が行われていない場合は、認識失敗原因判定部112は、ステップ208におけるのと同様に音声信号記録部106に音声信号をデータベース108に蓄積させる。このように、ユーザ発声前の背景雑音を検出した時点で失敗要因に対処するので、音声処理効率が高くなる。一方、ステップ216においてシステム100内での対処が不可能であると判定された場合には、手順はステップ224に進む。
【0035】
ステップ210において、音声認識部110は、音声信号データベース108中の記録された音声信号に対して音声認識を実行する。
【0036】
ステップ212において、音声認識部110は、音声認識が成功したかどうか、即ち認識結果が得られたかどうかを判定する。音声認識が成功したと判定された場合、即ち、音声区間の切り出しに成功し、各切り出し区間の音声データに対する文字列が導出され、さらに、その導出された文字列によって表されるメッセージ(単語、フレーズ、文等)の確実性または信頼性を表す認識スコアが予め定めた閾値よりも高い場合には、手順はステップ220へ進む。認識に成功しなかった即ち失敗したと判定された場合には、手順はステップ214へ進む。
【0037】
ステップ220において、対話管理部116は、音声認識の結果得られたメッセージからユーザの意図を抽出または推定し、その結果に応じてユーザへの対応法を決定し、必要な場合にはタスク処理部118にタスクの処理を要求する。ステップ220の後、手順はステップ226に進む。ステップ222において、タスク処理部118はそのメッセージによって表された要求に従ってタスクを処理する。その後、手順はステップ226に進む。
【0038】
ステップ214において、認識失敗原因判定部112は、さらに、音声認識部110からの要求に応答して、音声認識失敗の原因を解析する。認識失敗原因判定部112は、認識時のパラメータを調整することによってそれに対処できるどうかを判定する。パラメータの調整によって対処できると判定された場合には、認識失敗原因判定部112は、認識パラメータ設定部114に認識パラメータを調整するよう要求する。ステップ218において、認識パラメータ設定部114は認識パラメータを調整し即ち認識パラメータの値を変更する。認識失敗原因判定部112が、システム100内での対処が不可能であると判定した場合には、手順はステップ224に進む。
【0039】
ステップ224において、ユーザ環境推定部120は、ユーザの音響的環境を推定し、ユーザに対する応答方法または応答手段を決定するための情報を取り出す。
【0040】
ステップ226において、応答方法決定部122は、ユーザの音響的環境を考慮して応答方法または応答手段を決定する。ステップ228において、応答生成部124は、応答方法に応じた応答信号を生成する。ステップ230において、出力信号送信部126は、決定された応答方法または応答手段、例えば音声メッセージまたは電子メールによって応答信号をユーザ端末へ送信する。応答方法の一形態として、場合によってはユーザ端末との通信を切断してもよい。
【0041】
図3は、本発明の実施形態による、インターネットに接続された図1の対話システム100を含むボイスポータル300の構成を示している。ボイスポータル300は、図1の対話システム100と、ユーザ認証部310と、ユーザ情報データベース320と、認識失敗原因対処履歴データベース330とを具えている。
【0042】
ユーザ認証部310は、ユーザからの入力信号として受け取ったユーザIDおよびパスワードまたはユーザ音声に対する音声認証によってユーザ認証を行う。ユーザIDおよびパスワード、および音声認証に必要なユーザ情報は、システム100を初めて利用するときにユーザ情報データベース320に予め登録される。ユーザ認証に成功した場合には、図1の各部102〜126は、図2における各ステップにおいてユーザ情報データベース320を参照して、システム100の利用におけるそのユーザの特徴、例えば、“いつも背景雑音の大きい場所からシステムを利用する”、および“いつも大きな声で話す”のような特徴を考慮して、各処理を実行する。
【0043】
ユーザ情報データベース320は、ユーザによるシステム100の利用に関する情報を蓄積し、ユーザIDおよびパスワードのようなユーザ識別情報に加えて、ユーザの利用履歴および利用時の音響的環境に関する情報を蓄積する。ユーザ情報データベース320は、図1の対話システム100の音声認識部110、認識失敗原因判定部112、認識パラメータ設定部114、対話管理部116、タスク処理部118、ユーザ環境推定部120、応答方法決定部122および応答生成部124によってアクセスされて、情報が読み取られ(参照され)および書き込まれる。ユーザ情報データベース320は、ユーザの要求に応答して、ユーザ情報を削除する。
【0044】
認識失敗原因対処履歴データベース330は、例えば“背景雑音が大き過ぎる”というような、ユーザ側の音響的な環境が劣悪と判定された場合や、音声認識に失敗した場合における対処法の履歴(ログ)を蓄積している。例えば、“音声区間の切り出しに失敗したときに、切り出しパラメータの値を‘A1’から‘A2’に変更したら再認識に成功した”という内容の情報を記述している。このデータベース330を利用することによって、2回目以降の音声認識において失敗を効率的に回避したり、認識が失敗した時に迅速に対処でき、処理効率が向上する。例えば、認識パラメータ設定部114は、過去に再認識に成功したときに用いられた各パラメータの値の組み合わせを優先的に採用することによって、再認識の試行回数が低減され、認識が高速になるという利点が得られる。
【0045】
図4は認識失敗原因判定部112の構成を示している。認識失敗原因判定部112は、音声区間検出部402、S/N比検出部404、話速検出部406、認識失敗原因対処法決定部408および認識失敗原因判定情報データベース410を含んでいる。
【0046】
表1は、認識失敗原因判定情報データベース410における認識失敗原因判定情報を例示している。
【表1】
Figure 2004109563
【0047】
表1において、認識失敗原因判定情報として、判定項目(ファクタ)と、各判定項目に対するエラー閾値と、その原因への対処法とが記述されている。
【0048】
表1において、“最短音声区間”とは、入力信号から音声信号区間として切り出すための最短区間を表している。一般的に、単発的な雑音は区間が短いので、最短音声区間を長めに設定することによって、雑音の切り出しを減少させることができる。しかし、最短音声区間が長過ぎると、例えば“に(2)”のような短い単語が切り出せないので、パラメータの調整が必要である。
【0049】
“認識スコア”は、音声認識で得られた文字列のメッセージの確実性または信頼性を表す。認識スコアは、処理方法によって計算方法(尺度)が変わってもよい。音声認識では、幾つかの解の候補の中から、認識スコアが最も高く、かつ、その値が閾値以上のものを認識結果として出力する。逆に、認識結果のメッセージが得られても、その認識スコアが閾値よりも低ければ、信頼性が低いと判定されてその結果は拒否される。認識率が低い場合には、認識スコアの閾値を下げることによって、正解であるにもかかわらずスコアが低かったために拒否されていたメッセージを正解として抽出できることがある。しかし、閾値を下げ過ぎる不適当な結果も許容してしまうので、パラメータの値の調整が必要である。
【0050】
“S/N比”は、音声信号と雑音信号の電力比である。雑音が大きくても、それ以上に音声信号が大きければS/N比は大きくなる。一般的に、S/N比が大きい方が認識率は向上する。S/N比が閾値よりも小さい場合には、ユーザに雑音の少ないところで音声を再入力させたり、または、ユーザに大きな声で音声を再入力させることによって対処することができる。
【0051】
“話速”はユーザの話す速さを表す。一般的に、発話1秒あたりのモーラ数(≒音節数)で速さを表す。即ち、単位時間に多くの言葉を発するほど話速が速い。一般的に、話速が速過ぎると認識率が低下するので、話速の検出値が表1の閾値よりも大きい場合には、ユーザにゆっりと発話するよう指示する。逆に、話速が遅すぎても認識率は低下するので、話速の検出値が別の閾値よりも小さい場合には、ユーザに早く発話するよう指示する。
【0052】
表1は、その他の認識失敗原因判定情報をも含んでいてもよい。その内容は表の形で示されているが、別の形態であってもよく、例えばテキスト形式であってもよい。
【0053】
認識失敗原因判定部112による処理の例として、入力信号における音声区間前の部分に対する処理、および入力信号における音声信号部分に対する処理について説明する。
【0054】
入力信号における音声区間前の部分に対する処理
図2において手順がステップ206(YES)からステップ214に進んだときそのステップ214において、図4の認識失敗原因判定部112は、音響解析部104からの要求に応答して、雑音レベルと認識失敗原因判定情報に基づいて、入力信号の背景雑音が認識失敗の原因となるか否かを判定する。背景雑音が認識失敗の原因になると判定された場合には、認識失敗原因判定部112は、ユーザ情報データベース320および認識失敗原因対処履歴データベース330の情報をも参照して、失敗原因への対処法を決定する。次に、その処理をより詳しく説明する。
【0055】
入力信号において、ユーザが発声する前の信号、即ちユーザが発声していない部分の信号は背景雑音を表している。認識失敗原因判定部112は、その背景雑音が“音声認識失敗の原因になるか否か”を次の手順で推定する。
【0056】
まず、前処理として、音響解析部104(図1)によって入力信号から背景雑音の部分が抽出されて、背景雑音の音響的特徴、例えば雑音レベルが検出される。
【0057】
ステップ1: 認識失敗原因判定部112は、音響解析部104から、背景雑音の音響的特徴に関する情報とともに、前処理において抽出された背景雑音が“音声認識失敗の原因になるか否か”を判定するよう求める要求を受け取る。
【0058】
ステップ2: その判定要求に応答して、認識失敗原因判定部112の認識失敗原因対処法決定部408は、背景雑音の音響的特徴に関する情報、および認識失敗原因判定情報(表1参照)から、背景雑音が“音声認識失敗の原因になるか否か”を判定する。例えば、認識失敗原因判定情報に“S/N比(信号対雑音比)が10dB以下の場合は、誤認識の原因となり得る”という内容が記述されている。実際の背景雑音レベルから推定されるS/N比(この場合は背景雑音区間は音声信号のない区間なので音声信号レベルSを一般的な値に想定した場合の推定S/N比)が10dB以下の場合には、認識失敗原因対処法決定部408は、“入力信号の背景雑音は音声認識失敗の原因になる”と判定する。さらに、認識失敗原因対処法決定部408は、“このユーザはXさんである”、“Xさんは、いつも推定S/N比が10dBの環境でシステムを利用するが、過去10回の利用において、音声認識率は98%以上である”のようなユーザ情報、および、認識失敗原因対処履歴がある場合にはその情報をも、判定項目として参照する。このような場合は、推定S/N比が10dBであっても、Xさんの場合は音声認識に影響がないので、認識失敗原因対処法決定部408は“入力信号の背景雑音は音声認識失敗の原因とはならない”と判定する。このように、ユーザに応じて処理方法を変更することができるので、ユーザに特化した音声処理が可能となる。
【0059】
ステップ3: 認識失敗原因対処法決定部408は、背景雑音が“音声認識失敗の原因になる”と判定した場合には、その旨をユーザに通知する前に、ユーザ環境推定部120にユーザの音響的環境を推定するよう要求する。
【0060】
入力信号における音声信号に対する処理
図2において手順がステップ212(NO)からステップ214に進んだときそのステップ214において、音声認識部110からの要求に応答して、図4の認識失敗原因判定部112は、認識に失敗した音声データの音声区間、S/N比および話速を検出する。これによって、最短音声区間長、最長音声区間長、雑音のレベルおよび話速のような音声信号の特徴の値を導出または測定する。次に、認識失敗原因判定部112は、それらの導出された特徴の値と、そのデータベース410中の認識失敗原因判定情報とを照合して認識失敗への対処法を決定する。次に、その処理をより詳しく説明する。
【0061】
ステップ1: 音声認識部110(図1)において認識結果が得られない場合、認識失敗原因判定部112の認識失敗原因対処法決定部408は、音声認識部110から失敗原因を判定するよう求める要求を受け取る。認識結果が得られない場合であっても、例えば、切り出し情報や各ステップにおける認識スコアのような認識処理過程のデータがあるときは、認識失敗原因対処法決定部408はそれらの情報をも音声認識部110から受け取る。
【0062】
ステップ2: 認識失敗原因判定部112の音声区間検出部402、S/N比検出部404および話速検出部406は、その判定の要求に応答して、入力音声データの音声区間(音素、音節、単語、句または文等を単位とした切り出し区間)およびS/N比および話速を検出または測定する。認識失敗原因対処法決定部408は、必要に応じて、音声認識部110による上述の音声認識過程のデータも利用する。
【0063】
ステップ3: 認識失敗原因対処法決定部408は、ステップ2の検出結果と認識失敗原因判定情報とから、認識失敗原因を判定する。例えば、認識失敗原因判定情報において“音声区間切り出し時の最短音声区間が50ms”という情報が記述されており、実際に切り出した音声区間において、区間長50ms程度の信号の多くが雑音であると推定された場合には、認識失敗原因対処法決定部408は、“切り出しミスの可能性がある”または“雑音を多く切り出している”と判定して、“最短音声区間を長く設定すれば、例えば100msにすれば、区間長50ms程度の雑音を切り出さなくなる”即ち“認識時の最短単語長を100msに設定して再認識すべきである”と判定する。検出したS/N比が認識失敗原因判定情報に記述されている閾値よりも小さいときには、認識失敗原因対処法決定部408は、“雑音が致命的である”と判定して、“雑音の少ないところでの再入力または大きな声での再入力が必要”と判定する。“話速が速過ぎる”と判定された場合には、認識失敗原因対処法決定部408は“ゆっくりとした発話での再入力が必要”と判定する。これらの判定の際には、上述したのと同様に、ユーザ情報や認識失敗原因対処履歴の情報を参照して、例えば次のように、上述の検出を省略したり、対処法を変更したりする。
【0064】
− 既にパラメータを調整して再認識処理を行って、再び認識に失敗した場合には、一度行った上述の検出を省略して、パラメータをさらに調整して再認識処理を行う。
【0065】
− パラメータの調整を伴う再認識を複数回(例えば3回)行った後は、パラメータ調整による対処を中止する。
【0066】
− “Xさんはいつも早口で話し、しかもそれが致命的になっている”という情報があった場合には、話速に関する対処を優先させる。
【0067】
ステップ4: 認識失敗原因対処法決定部408は、ステップ3においてパラメータの調整によって対処できない場合には、例えばユーザへの通知が必要なときにはその前にユーザ環境推定部120にユーザの音響的環境を推定させ、パラメータの調整によって対処可能できる場合には、認識パラメータ設定部114にパラメータを調整させる。
【0068】
詳しく説明すると、ステップ3においてパラメータの調整によって対処可能であると判定された場合には、認識失敗原因対処法決定部408は、認識パラメータ設定部114にパラメータの調整を要求する。例えば、認識失敗原因対処法決定部408が、表1の認識失敗原因判定情報に基づいて、最短音声区間の設定が小さすぎて音声区間の切り出しミスが生じていると推定した場合、認識失敗原因対処法決定部408は、切り出しパラメータの調整によって対処できると判定し、“このユーザは、パラメータ値がA1の場合に認識率が高い”、“過去の履歴ではパラメータ値がA2の場合に認識率が高い”のようなユーザ情報および認識失敗原因対処履歴の情報をも考慮して、認識パラメータ設定部114にパラメータの調整を要求し、その調整されたパラメータに従って音声認識部110に再び音声認識するよう指示する。このように、ユーザに応じて処理方法を変更することができるので、ユーザに特化した音声処理が可能となる。
【0069】
一方、音声認識の失敗に対してシステム100内での対処が不可能であると判定された場合、例えば上述の再認識をパラメータの値を変えながら所定回数反復しても認識に成功しない場合には、認識失敗原因対処法決定部408は、失敗原因およびその失敗への対処法をユーザへ通知する前に、ユーザ環境推定部120にユーザの音響的環境の推定を要求する。
【0070】
図5は認識パラメータ設定部114の構成を示している。認識パラメータ設定部114は、パラメータ決定部502および認識実行コマンド生成部504を含んでいる。パラメータ決定部502が図4の認識失敗原因判定部112からパラメータ調整の要求を受け取ったとき、パラメータ決定部502は、まず、データベース320のユーザ情報、データベース330の認識失敗原因対処履歴を参照して、再認識時のパラメータの値を決定する。次に、認識実行コマンド生成部504は、その決定されたパラメータの値を反映した音声認識実行コマンドを作成し、必要に応じて音声認識部110に再認識処理を要求する。
【0071】
図6は、図5の認識パラメータ設定部114による処理のフロー図を例示している。
【0072】
ステップ602において、パラメータ決定部502は、認識失敗原因判定部112から認識パラメータ設定の要求を、認識失敗原因判定部112における判定、例えば“最短音声区間の設定を50msより長くする”または“認識スコアの閾値を60より下げる”のような情報とともに、受け取る。
【0073】
ステップ604において、パラメータ決定部502は、ユーザ情報と認識失敗原因対処履歴があるかどうかを判定する。ないと判定された場合は、ステップ608において、パラメータ決定部502は、パラメータの値をどれだけ変化させるかを決定する。基本的には、経験的(実験的)に定めた一定量だけ変化させる。例えば、“最短音声区間に関しては10msずつ値を変化させる”、または“認識スコアの閾値は5ずつ変化させる”のような情報に基づいてパラメータの値を変化させる。その後、手順はステップ610に進む。
【0074】
ステップ604においてユーザ情報と認識失敗原因対処履歴があると判定された場合は、ステップ606において、ユーザ情報と認識失敗原因対処履歴も参照してパラメータの値を決定する。例えば、“Xさんの過去10回の利用において、認識スコアの設定を50としたときの認識率が一番高い”、または“既に最短音声区間の設定を変えてており、現在は60msにセットされている”のようなユーザ情報や認識失敗原因対処履歴がある場合には、その情報も参照してパラメータの値を決定する。例えば、上述のように“Xさんは認識スコアの設定を50とするのが良い”という情報がある場合には、60から2回にわけて5ずつ下げるのではなく、直ぐに50に設定することによって処理を効率化する。その後、手順はステップ610に進む。
【0075】
ステップ610において、認識実行コマンド生成部504は、ステップ606または608の結果に基づいて、新しいパラメータ値を反映した認識実行コマンドを生成し、ステップ612において音声認識部110に音声の再認識を要求する。
【0076】
図7は、ユーザ環境推定部120の構成を示している。ユーザ環境推定部120は、雑音定常性解析部702および環境推定部704を含んでいる。
【0077】
雑音定常性推定部702は、図4の認識失敗原因判定部112からのユーザ環境推定の要求に応答して、入力音声データの雑音の定常性を解析する。
【0078】
環境推定部704は、例えば、認識失敗原因判定部112から検出されたS/N比のような音声信号の特徴、および“Xさんは一定の雑音環境下でシステムを利用する”のようなユーザ情報を参照することによって、例えば、“音声を主とした対話が可能な環境かどうか”、“どの程度の音量で出力すればユーザが聞き取れるかどうか”または“ノイズ・キャンセラ(雑音除去装置/ツール)の使用が有効かどうか”のような音響的環境を判定する。例えば、雑音が比較的定常的で、S/N比が10dBで、“Xさんは、いつも職場からシステムを利用する”のようなユーザ情報があった場合は、次のように推定する。
【0079】
− S/N比=10dBは、背景雑音が大きい可能性を表し、音声による対話がやや困難であることを表している。
− 但し、最大音量で音声応答を出力すればユーザは聞き取れる。雑音が比較的定常的なので、ノイズ・キャンセラの使用が有効である。
− Xさんの職場の音響的環境に合わせたノイズ・キャンセラをXさんの携帯端末にインストールすれば、次回以降の音声認識が容易になる。
【0080】
環境推定部704は、推定されたユーザの音響的環境に応じて、例えば“システム側の音声出力の音量を最大にし、音声を主とした対話を行う”と決定する。環境推定部704は、さらに、例えば“Xさんの職場環境に合わせたノイズ・キャンセラをXさんの携帯に送信する。”と決定する。
【0081】
上述の“Xさんは、いつも同じ職場からシステムを利用する”というようなユーザ情報を獲得するために、例えば、システム100の利用の初回に、またはユーザの利用環境が変化したときに、音声入力時の周囲の音響的環境の状況を端末を用いて登録するようユーザに指示してもよい。その際、その状況における背景雑音を記録し、音響解析部104によって予め音響解析することによって、環境推定部704は、次回以降において音響解析部104によって同様の雑音成分が検知された場合には、“同じ環境下でシステムを利用している”と推定することできる。
【0082】
図8は、図1における応答方法決定部122による処理のフロー図を示している。応答方法決定部122は、上述のユーザ環境推定の結果に基づいて応答方法または応答手段を決定する。
【0083】
ステップ802において、応答方法決定部122は、音声認識が成功したかどうかを判定する。音声認識が成功したと判定され、即ち音声認識において認識結果が得られ、即ち、音声区間の切り出しに成功し、切り出し区間の音声に対する文字列が導出され、認識スコアが所定の閾値よりも高い場合には、ユーザは音声認識に影響がない程度の雑音が存在する音響的環境にいると判定され、ステップ808において、応答方法決定部122は、音声を主たる媒体とした通常の応答方法または応答手段を用いて対話を継続することを決定する。
【0084】
一方、ステップ802において認識が成功しなかったと判定された場合、即ち、背景雑音が認識失敗原因になると判定された場合、または音声認識において認識結果が得られない場合には、ステップ804において応答方法決定部122は、ユーザ環境推定部120からユーザの音響的環境の推定結果を取得する。
【0085】
ステップ806において、応答方法決定部122は、音声対話が可能かどうかを判定する。音声対話が可能であると判定された場合は、ステップ810において、応答方法決定部122は、音声を主たる媒体とした通常の応答方法または応答手段を用いて、認識失敗の事実とその原因およびそれへの対処法をユーザに提示して対話を継続することを決定する。
【0086】
ステップ806において音声対話が不可能と判定された場合には、ステップ812において、応答方法決定部122は、対話を終了する旨を音声によって通知してユーザ端末との通信を切断し、その後、電子メールによる文字または画像信号を媒体とした応答方法または応答手段を用いて、一方的に対話を終了させたこと、および認識失敗の事実とその原因およびそれへの対処法をユーザに提示することを決定する。このように、音声信号の検出ができない場合や、音声認識に失敗して音声による対話が困難な場合に、ユーザ端末とシステム100の間の通信が切断されるので、無駄な対話または通信を回避することができる。また、通信を切断する前に、ユーザ環境に適した応答方法で対話終了の旨をユーザに通知することができるので、ユーザに不愉快な思いをさせることを最小限に抑えることができる。その際、入力信号のS/N比に基づいて背景雑音の大きさを検知し、その値に応じて出力信号の音量を上げて、雑音環境下でもユーザにメッセージが伝わるようにしてもよい。
【0087】
ステップ810において、またはステップ812における通信切断の前に、応答方法決定部122は、さらに、必要に応じて、認識失敗への対処に必要なツール、例えば、雑音に対処するためのノイズ・キャンセラのプログラムをユーザ端末に送信し、さらに音声認識失敗原因への対処用のツールを送る旨をユーザに通知することを決定してもよい。このように、必要に応じて、音声認識失敗原因への対処に必要なツールを作成または用意してユーザ端末に送信するので、失敗時の対処を支援することができ、ユーザの負担が軽減する。
【0088】
図9は、応答生成部124の構成を示している。応答生成部124は、通信切断信号生成部902、プログラム生成部904、プログラム・データベース906、応答生成管理部908、電子メール生成部910、応答文生成部912、音声信号生成部(音声合成部)914および画像信号生成部916を含んでいる。
【0089】
応答生成管理部908は、応答方法決定部122によって決定された応答方法または応答手段に従って、例えば応答文またはプログラムのような応答内容と、例えば音声信号、電子メールまたは通信切断信号のような応答信号の種類と、その生成タイミングおよび出力タイミングとを決定して、それらの生成を各生成部902〜916に要求する。
【0090】
通信切断信号生成部902は、ユーザ端末との通信を切断するための信号を生成する。プログラム生成部904は、ユーザ端末で使用する認識失敗原因への対処プログラム(例えば、ノイズ・キャンセラ)を新たに生成するか、または、プログラム・データベースに予め保存されているツール群の中からそれを選択し、システム応答として用意する。応答文生成部912は、ユーザ発話に対する一般的な応答や、認識失敗時の通知など、ユーザへの応答メッセージを生成する。この際には、ユーザ情報や認識失敗時対処履歴の情報も利用する。電子メール生成部910は、応答文生成部912またはプログラム生成部904で生成された応答内容を組み込んだ電子メールを生成する。音声信号生成部914は、応答文生成部904で生成された応答内容を音声信号に変換する。その際、音声信号生成部914は、ユーザの音響的環境を参照して音声信号の音量を調整する。画像信号生成部916は、応答文生成部912で生成された応答内容を画像信号に変換する。
【0091】
出力信号送信部126は、図9の応答生成部902、910、914および916で生成された各種応答信号をユーザ端末に送信する機能、即ち、通信切断信号の検出に応答してユーザ端末との通信を切断する機能、電子メールを送信する機能、音声信号を送信する機能、および画像信号を送信する機能を有する。
【0092】
このように、本発明の実施形態によれば、ユーザ発声前の背景雑音からユーザの音響的な環境が劣悪と判定された場合や、音声認識に失敗した場合に、その原因を解明し、その原因およびそれへの対処法をユーザ端末に送信することができるので、認識失敗に適切に対処することができる。また、その原因および対処法をユーザ端末に通知するときに、ユーザの環境に適した応答方法でそれをユーザにより確実に伝えることができる。
【0093】
以上説明した実施形態は典型例として挙げたに過ぎず、その変形およびバリエーションは当業者にとって明らかであり、当業者であれば本発明の原理および請求の範囲に記載した発明の範囲を逸脱することなく上述の実施形態の種々の変形を行えることは明らかである。
【0094】
(付記1) 端末より接続可能な音声対話システムであって、
前記端末からの音声信号に対して音声認識を実行する音声認識手段と、
前記音声認識の結果が得られないときにその原因を判定して、前記判定された原因への対処法を決定する対処法決定手段と、
前記端末の音響的環境を推定する推定手段と、
前記推定された音響的環境に応じて前記端末に対する応答方法を決定する応答方法決定手段と、
前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信する送信手段と、
を具えることを特徴とする音声対話システム。
(付記2) さらに、ユーザの識別情報および利用履歴情報を記憶する記憶手段を具え、
前記対処法決定手段が、前記記憶手段に格納された前記ユーザの前記識別情報および利用履歴情報に従って前記対処法を決定することを特徴とする、付記1に記載の音声対話システム。
(付記3) 前記対処法決定手段が、音声対話は不可能と判定したときに、前記対処法として前記端末との通信を切断することを決定することを特徴とする、付記1または2に記載の音声対話システム。
(付記4) さらに、前記決定された対処法を記憶する対処法履歴記憶手段を具え、
前記音声認識手段が、前記対処法履歴記憶手段に格納された前記対処法の履歴に従って音声認識を実行することを特徴とする、付記1乃至3のいずれかに記載の音声対話システム。
(付記5) 前記応答方法決定手段は、前記推定された音響的環境に応じて、前記決定された対処法を表す音声信号、電子メールおよび/または画像信号が前記端末に送信されるようにすることを特徴とする、付記1乃至4のいずれかに記載の音声対話システム。
(付記6) ユーザからの音声信号に対して音声認識を実行する音声認識手段と、
前記音声認識の結果が得られないときにその原因を判定して、前記判定された原因への対処法を決定する対処法決定手段と、
前記ユーザの音響的環境を推定する推定手段と、
前記推定された音響的環境に応じて前記ユーザに対する応答方法を決定する応答方法決定手段と、
前記決定された対処法を表す情報を前記決定された応答方法で前記ユーザに通知する通知手段と、
を具えることを特徴とする音声対話システム。
(付記7) 情報処理装置において用いられる音声対話のためのプログラムであって、
端末からの音声信号に対して音声認識を実行するステップと、
前記音声認識の結果が得られないときにその原因を判定するステップと、
前記判定された原因への対処法を決定するステップと、
前記端末の音響的環境を推定するステップと、
前記推定された音響的環境に応じて前記端末に対する応答方法を決定するステップと、
前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信するステップと、
を実行させるよう動作可能なプログラム。
(付記8) 前記対処法を決定するステップが、記憶手段に格納された前記ユーザの識別情報および利用履歴情報に従って前記対処法を決定することを含むことを特徴とする、付記7に記載のプログラム。
(付記9) さらに、前記決定された対処法を記憶するステップを実行させるよう動作可能であり、
前記音声認識を実行するステップが、前記対処法履歴記憶手段に格納された前記対処法の履歴に従って音声認識を実行することを含むことを特徴とする、付記7または8に記載のプログラム。
(付記10) 前記応答方法を決定するステップが、前記推定された音響的環境に応じて、前記決定された対処法を表す音声信号、電子メールおよび/または画像信号が前記端末に送信されるようにすることを含むことを特徴とする、付記7乃至9のいずれかに記載のプログラム。
(付記11) 音声対話システムにおいて用いられる音声対話方法であって、
端末からの音声信号に対して音声認識を実行するステップと、
前記音声認識の結果が得られないときにその原因を判定するステップと、
前記判定された原因への対処法を決定するステップと、
前記端末の音響的環境を推定するステップと、
前記推定された音響的環境に応じて前記端末に対する応答方法を決定するステップと、
前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信するステップと、
を含む方法。
【0095】
【発明の効果】
本発明は、前述の特徴によって、ユーザの環境に適した応答方法を選定することができ、音声認識に失敗したときにはその原因を知らせるだけでなくそれに対処するための手段をユーザ端末に提供することができ、ユーザの特徴および過去の状況を考慮して効率的に音声認識を行うことができるという効果を奏する。
【図面の簡単な説明】
【図1】図1は、本発明の実施形態による音声対話システムを示している。
【図2】図2は、図1の対話システムにおける処理のフロー図を示している。
【図3】図3は、本発明の実施形態による、インターネットに接続された図1の対話システムを含むボイスポータルの構成を示している。
【図4】図4は、認識失敗原因判定部の構成を示している。
【図5】図5は認識パラメータ設定部の構成を示している。
【図6】図6は、図5の認識パラメータ設定部による処理のフロー図を例示している。
【図7】図7は、ユーザ環境推定部の構成を示している。
【図8】図8は、応答方法決定部による処理のフロー図を示している。
【図9】図9は、応答生成部の構成を示している。
【符号の説明】
100 音声対話システム
102 入力信号受信部
104 音響解析部
110 音声認識部
112 認識失敗原因判定部
114 認識パラメータ設定部
116 対話管理部
118 タスク処理部
120 ユーザ環境推定部
122 応答方法決定部
124 応答生成部
126 出力信号送信部

Claims (6)

  1. 端末より接続可能な音声対話システムであって、
    前記端末からの音声信号に対して音声認識を実行する音声認識手段と、
    前記音声認識の結果が得られないときにその原因を判定して、前記判定された原因への対処法を決定する対処法決定手段と、
    前記端末の音響的環境を推定する推定手段と、
    前記推定された音響的環境に応じて前記端末に対する応答方法を決定する応答方法決定手段と、
    前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信する送信手段と、
    を具えることを特徴とする音声対話システム。
  2. さらに、ユーザの識別情報および利用履歴情報を記憶する記憶手段を具え、
    前記対処法決定手段が、前記記憶手段に格納された前記ユーザの前記識別情報および利用履歴情報に従って前記対処法を決定することを特徴とする、請求項1に記載の音声対話システム。
  3. 前記応答方法決定手段は、前記推定された音響的環境に応じて、前記決定された対処法を表す音声信号、電子メールおよび/または画像信号が前記端末に送信されるようにすることを特徴とする、請求項1または2に記載の音声対話システム。
  4. ユーザからの音声信号に対して音声認識を実行する音声認識手段と、
    前記音声認識の結果が得られないときにその原因を判定して、前記判定された原因への対処法を決定する対処法決定手段と、
    前記ユーザの音響的環境を推定する推定手段と、
    前記推定された音響的環境に応じて前記ユーザに対する応答方法を決定する応答方法決定手段と、
    前記決定された対処法を表す情報を前記決定された応答方法で前記ユーザに通知する通知手段と、
    を具えることを特徴とする音声対話システム。
  5. 情報処理装置において用いられる音声対話のためのプログラムであって、
    端末からの音声信号に対して音声認識を実行するステップと、
    前記音声認識の結果が得られないときにその原因を判定するステップと、
    前記判定された原因への対処法を決定するステップと、
    前記端末の音響的環境を推定するステップと、
    前記推定された音響的環境に応じて前記端末に対する応答方法を決定するステップと、
    前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信するステップと、
    を実行させるよう動作可能なプログラム。
  6. 音声対話システムにおいて用いられる音声対話方法であって、
    端末からの音声信号に対して音声認識を実行するステップと、
    前記音声認識の結果が得られないときにその原因を判定するステップと、
    前記判定された原因への対処法を決定するステップと、
    前記端末の音響的環境を推定するステップと、
    前記推定された音響的環境に応じて前記端末に対する応答方法を決定するステップと、
    前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信するステップと、
    を含む方法。
JP2002272689A 2002-09-19 2002-09-19 音声対話システム、音声対話のためのプログラムおよび音声対話方法 Expired - Fee Related JP3926242B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002272689A JP3926242B2 (ja) 2002-09-19 2002-09-19 音声対話システム、音声対話のためのプログラムおよび音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002272689A JP3926242B2 (ja) 2002-09-19 2002-09-19 音声対話システム、音声対話のためのプログラムおよび音声対話方法

Publications (2)

Publication Number Publication Date
JP2004109563A true JP2004109563A (ja) 2004-04-08
JP3926242B2 JP3926242B2 (ja) 2007-06-06

Family

ID=32269642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002272689A Expired - Fee Related JP3926242B2 (ja) 2002-09-19 2002-09-19 音声対話システム、音声対話のためのプログラムおよび音声対話方法

Country Status (1)

Country Link
JP (1) JP3926242B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041319A (ja) * 2005-08-03 2007-02-15 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP2007156076A (ja) * 2005-12-05 2007-06-21 Kddi Corp 音声入力評価装置
JP2007264126A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2008070596A (ja) * 2006-09-14 2008-03-27 Yamaha Corp 音声認証装置、音声認証方法およびプログラム
JP2008070597A (ja) * 2006-09-14 2008-03-27 Yamaha Corp 音声認証装置、音声認証方法およびプログラム
JP2008256802A (ja) * 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2008547061A (ja) * 2005-06-27 2008-12-25 マイクロソフト コーポレーション 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法
JP2010160788A (ja) * 2009-01-07 2010-07-22 Internatl Business Mach Corp <Ibm> 複合イベント・プロセッサを使用して対話式音声応答システムのパフォーマンスを動的に改善する方法、システム、及びコンピュータ・プログラム
US8175877B2 (en) 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
JP2015184487A (ja) * 2014-03-24 2015-10-22 株式会社東芝 音声処理装置および音声処理方法
US9812125B2 (en) 2014-07-28 2017-11-07 Hyundai Motor Company Speech recognition device, vehicle having the same, and speech recognition method
JP2020165260A (ja) * 2019-03-29 2020-10-08 住友重機械工業株式会社 ショベル

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538752B2 (en) 2005-02-02 2013-09-17 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US8175877B2 (en) 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
JP2008547061A (ja) * 2005-06-27 2008-12-25 マイクロソフト コーポレーション 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法
JP4680714B2 (ja) * 2005-08-03 2011-05-11 パナソニック株式会社 音声認識装置および音声認識方法
JP2007041319A (ja) * 2005-08-03 2007-02-15 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP4678773B2 (ja) * 2005-12-05 2011-04-27 Kddi株式会社 音声入力評価装置
JP2007156076A (ja) * 2005-12-05 2007-06-21 Kddi Corp 音声入力評価装置
US7949523B2 (en) 2006-03-27 2011-05-24 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for processing voice in speech
JP2007264126A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2008070597A (ja) * 2006-09-14 2008-03-27 Yamaha Corp 音声認証装置、音声認証方法およびプログラム
JP2008070596A (ja) * 2006-09-14 2008-03-27 Yamaha Corp 音声認証装置、音声認証方法およびプログラム
US8694314B2 (en) 2006-09-14 2014-04-08 Yamaha Corporation Voice authentication apparatus
JP2008256802A (ja) * 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2010160788A (ja) * 2009-01-07 2010-07-22 Internatl Business Mach Corp <Ibm> 複合イベント・プロセッサを使用して対話式音声応答システムのパフォーマンスを動的に改善する方法、システム、及びコンピュータ・プログラム
JP2015184487A (ja) * 2014-03-24 2015-10-22 株式会社東芝 音声処理装置および音声処理方法
US9812125B2 (en) 2014-07-28 2017-11-07 Hyundai Motor Company Speech recognition device, vehicle having the same, and speech recognition method
JP2020165260A (ja) * 2019-03-29 2020-10-08 住友重機械工業株式会社 ショベル
JP7285679B2 (ja) 2019-03-29 2023-06-02 住友重機械工業株式会社 ショベル

Also Published As

Publication number Publication date
JP3926242B2 (ja) 2007-06-06

Similar Documents

Publication Publication Date Title
US10699702B2 (en) System and method for personalization of acoustic models for automatic speech recognition
EP3580751B1 (en) Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US7069221B2 (en) Non-target barge-in detection
US6308151B1 (en) Method and system using a speech recognition system to dictate a body of text in response to an available body of text
US7668710B2 (en) Determining voice recognition accuracy in a voice recognition system
US8099277B2 (en) Speech-duration detector and computer program product therefor
US8532995B2 (en) System and method for isolating and processing common dialog cues
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
US11211046B2 (en) Learning transcription errors in speech recognition tasks
JP4960596B2 (ja) 音声認識の方法およびシステム
JP3926242B2 (ja) 音声対話システム、音声対話のためのプログラムおよび音声対話方法
JP2008256802A (ja) 音声認識装置および音声認識方法
JP5431282B2 (ja) 音声対話装置、方法、プログラム
CN114385800A (zh) 语音对话方法和装置
US20170270923A1 (en) Voice processing device and voice processing method
KR20230116908A (ko) 프리즈 워드
JP2005037615A (ja) クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体
JP3721948B2 (ja) 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JPH0830290A (ja) 音声入力可能な情報処理装置およびそれにおける誤処理検出方法
US10607596B2 (en) Class based learning for transcription errors in speech recognition tasks
JP2006172110A (ja) 応答データ出力装置、応答データ出力方法およびプログラム
JP2003263190A (ja) 音声自動質問応答装置
JP7361988B2 (ja) 音声対話システム、音声対話方法及び音声対話管理装置
JP2000259177A (ja) 音声出力装置
JP6999236B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070227

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100309

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120309

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130309

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140309

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees