JP4786384B2 - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents

音声処理装置、音声処理方法および音声処理プログラム Download PDF

Info

Publication number
JP4786384B2
JP4786384B2 JP2006086513A JP2006086513A JP4786384B2 JP 4786384 B2 JP4786384 B2 JP 4786384B2 JP 2006086513 A JP2006086513 A JP 2006086513A JP 2006086513 A JP2006086513 A JP 2006086513A JP 4786384 B2 JP4786384 B2 JP 4786384B2
Authority
JP
Japan
Prior art keywords
error factor
response
speech
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006086513A
Other languages
English (en)
Other versions
JP2007264126A (ja
Inventor
和範 井本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006086513A priority Critical patent/JP4786384B2/ja
Priority to CNA2007101016257A priority patent/CN101046960A/zh
Priority to US11/685,907 priority patent/US7949523B2/en
Publication of JP2007264126A publication Critical patent/JP2007264126A/ja
Application granted granted Critical
Publication of JP4786384B2 publication Critical patent/JP4786384B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

この発明は、発話された音声を処理し人間同士の意思疎通を支援する音声処理装置、音声処理方法および音声処理プログラムに関するものである。
近年、音声認識や音声合成などの音声処理技術や機械翻訳などの言語処理技術の研究が盛んに行われている。また、音声処理と言語処理を連携させた音声翻訳などの音声言語処理技術も盛んに研究されている。音声翻訳を現実世界で利用するためには多くの問題を解決する必要があるが、言葉の通じない者同士の意思疎通を支援する技術として音声翻訳技術に対する期待は高い。利用場面を適切に制限することや、ユーザの協力を引き出して技術的な課題をカバーすることで実用化に至っている製品も存在する。
音声翻訳技術の性能は今後さらに高くなると期待されるが、「どのような場面でも常に正しく双方の言葉を翻訳する」という究極の目標を実現するのは容易ではない。音声翻訳を構成する音声認識をひとつ取り上げてみても、ユーザの発話内容をあらゆる利用環境で頑健に認識するのは容易ではない。
現状のように常に正しい翻訳結果が得られるという保証がない中で、音声翻訳を実用レベルの技術にするには、翻訳結果に誤りが生じ、相手の発話内容が理解できない場合にも効率よく誤りを修正できることが重要である。
人間同士のコミュニケーションを鑑みても、周りがうるさいために相手の言葉がうまく聞き取れない場合や、相手の言葉が一部理解できない場合には、再度発話を依頼する、相手に言葉の意味を確認するなどのやり取りを通して誤りを補完している。したがって、音声翻訳技術を実用レベルに引き上げるためには、音声翻訳技術を構成する各技術の性能を高めることはもちろんのこと、効率よく修正するためのインタフェースを組み込むことが重要と考えられる。
相手の発話内容が理解できない場合に、誤りを修正する最も単純な方法として、発声者に再度発話を促す方法が考えられる。これは、音声翻訳で発生した誤りの種類に関係なく対話相手が理解できなかったことを発声者に伝える最も確実な方法といえる。
この方法では、対話相手が発話の一部を理解できた場合であっても、全ての発話内容を再度発話させるため効率が悪い。また、正しく翻訳できなかった原因を相手に伝えることができないため、再度発話しても同じ誤りが繰り返され、会話が破綻する危険性がある。
これに対して、翻訳結果の中から理解できない部分を対話相手に選択させる技術が提案されている。また、理解できなかった理由の候補を提示し、候補の中から対話相手に選択させる技術が提案されている。
このような技術によれば、発話全体ではなく、理解できない部分のみを対話相手が指摘することができるため、発声者は指摘された部分のみを発話して誤りを修正することができ、効率的に会話を進めることが可能となる。また予測できる範囲で理解できなかった原因を対話相手に選択させることができるため、同じ誤りを繰り返す可能性が低減される。
ところが、翻訳結果が理解できない原因は多岐にわたって存在しており、その中から対話相手が指摘できる原因はごく一部に限られる。具体的には、翻訳結果が理解できない原因としては、発話内容を正しく翻訳できているが対話相手側の知識不足や発話内容そのものに誤りが存在するなど発声者または対話相手に起因するものと、音声認識や機械翻訳など音声翻訳技術を構成する各技術で生じる誤りに起因するものに大別される。
後者は、機械翻訳に関しては、多義語の解釈や構文解析時の誤りなどに細分化され、音声認識に関しては、未知語などの言語的な誤り、話し方(発話速度、声の大きさなど)、使用環境(雑音の有無など)などの音響的な誤りなどに細分化される。
このような誤り要因のうち、例えば発声者の話し方の問題を、相手の言語を理解することができない対話相手が指摘することは困難である。したがって、対話相手が指摘できるのは、対話相手の知識不足や多義語の解釈の誤りなどごく一部に限られる。特に音声認識の音響的な誤りに問題がある場合には、発声者自身も誤りに気づくことが難しいため、同じ誤りを繰り返す危険性が高い。
これに対して、声の大きさや周辺環境など音声認識性能に影響を与える要因を検出して発声者にフィードバックする技術が提案されている(例えば、特許文献2)。特許文献2のように、ロボットに代表される機械と人間との対話では、機械と人間という非対等な対話が行われていること、機械に対する発声者は通常一人であること、発声者が同時に機械の使用者であることなどの条件がそろうため発声者へのフィードバックが短期的にも長期的にも有効に機能する。
特開2003−29779号公報 特開2003−330491号公報
しかしながら、特許文献2の方法では、人と人との会話を支援する技術のように、機械を所有していない者を含む複数のユーザが操作することを想定しておらず、一律発声者にフィードバックを返すため、誤りをうまく修正できない場合があるという問題があった。
例えば、音声処理装置の所有者ではない者が発声者となったとき、発声者に装置の設定変更を指示するフィードバックを返したとしても、当該発声者は装置の操作に不慣れなため対応することができない。
これは、人と人とのコミュニケーションを支援するために音声認識を利用する場合、すなわち機械を介して人と人とが意思疎通を行う場合には、対話を行う人間同士は基本的に対等な立場であり、発声者が機械の所有者であるという仮定が成り立たないために生じる問題である。
本発明は、上記に鑑みてなされたものであって、音声認識の誤りの要因を検出して、誤り要因に応じて対処するユーザを切り分けることができる音声処理装置、音声処理方法および音声処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、音声の入力を受付ける入力受付手段と、前記入力受付手段が受付けた前記音声を認識する音声認識手段と、前記音声認識手段が前記音声を認識した際に発生した誤り要因を検出する誤り要因検出手段と、音声認識の誤り要因と、音声認識で誤りが発生したときの応答方法と、前記入力受付手段が受付けた音声を発話したユーザを表す第1ユーザおよび前記入力受付手段が受付けた音声を発話していないユーザを表す第2ユーザのいずれかを表す応答ユーザとを対応づけた規則を格納する規則記憶手段と、前記誤り要因検出手段が検出した前記誤り要因に対応づけられた前記応答方法を前記規則記憶手段から選択する応答方法選択手段と、前記誤り要因検出手段が検出した前記誤り要因に対応づけられた前記応答ユーザを前記規則記憶手段から選択する応答ユーザ選択手段と、前記応答ユーザ選択手段が選択した前記応答ユーザに対して、前記応答方法選択手段が選択した前記応答方法により前記応答を実行する応答実行手段と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる音声処理方法および音声処理プログラムである。
本発明によれば、発話の音響的な誤り要因を検出し、誤り要因の内容に応じて対処可能なユーザにフィードバックを返すように応答ユーザを切り替えることができる。このため、ユーザは誤り要因を把握することができ、同じ失敗によって会話が破綻する危険を回避することができるとともに、対応可能なユーザにのみフィードバックを返すことで無駄なやり取りを削減することができ、円滑に会話を進めることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる音声処理装置、音声処理方法および音声処理プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
第1の実施の形態にかかる音声処理装置は、音声処理対象の発話の音響的な誤り要因を検出し、誤り要因の内容に応じて応答ユーザを切り替えるものである。
図1は、第1の実施の形態にかかる音声処理装置100の構成を示すブロック図である。同図に示すように、音声処理装置100は、入力受付部101と、音声認識部102と、誤り要因検出部103と、解決手段決定部104と、応答ユーザ選択部105と、応答実行部106と、表示部110と、音声入力部121と、通信部122と、記憶部130とを備えている。
表示部110は、表示画面に音声処理結果、不具合発生時の応答方法を表すメッセージなどを表示するものである。表示部110に表示する表示画面の例については後述する。
音声入力部121は、入力された音声を電気信号(音声データ)に変換し、音声データを入力受付部101に出力するものである。音声入力部121は、一般的に用いられているマイクロフォンなどにより実現することができる。
通信部122は、外部装置(図示せず)から送信された音声データを受信し、入力受付部101に出力するものである。なお、音声処理装置100は、音声データを入力するための構成として、音声入力部121と通信部122とのうち少なくとも一方が備えられていればよい。
記憶部130は、検出した誤り要因に対応する応答ユーザ、応答方法を選択するための規則を定めた規則テーブル131を格納するものであり、HDD(hard disk drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
図2は、規則テーブル131のデータ構造の一例を示す説明図である。同図に示すように、規則テーブル131は、要因種別と、検出する誤り要因と、応答ユーザと、応答例とを対応づけて格納している。
要因種別とは、検出する誤り要因を分類する情報であり、発話速度、声の大きさ、雑音などを指定する。このように、本実施の形態では、音声認識の不具合に影響を与える要因として、発話の音響的な情報を誤り要因として指定する。
検出する誤り要因には、例えば、要因種別が発話速度の場合、発話全体の発話速度が速いまたは遅いことを要因として検出することを指定する。
応答ユーザには、誤り要因を解消するための応答の対象となるユーザ、すなわち、誤り要因を解消するための解決手段を提示すべきユーザを指定する。本実施の形態では入力受付部101に音声を入力した発声者または認識結果が提示される対話相手の中から、解決手段に従って不具合を解消するのに適したユーザを指定する。
なお、音声処理装置100自身が応答を実行する場合は、音声処理装置100自身を応答ユーザとして指定する。同図では、発話を行った発声者自身に応答を返すことを示す「発声者」、または、音声処理装置100を所有する「所有者」を指定した例が示されている。
応答例には、応答ユーザに提示する応答の内容を示した情報を指定する。例えば、同図に示すように、発話全体の速度が速いという誤り要因に対しては、「ゆっくりと話して下さい」を意味するメッセージを提示するという応答例を指定する。なお、同図では、ユーザが応答を実行することを前提としたメッセージを応答例とした例が示されているが、音声処理装置100自身が音量調整を実行するという応答例を設定してもよい。この場合、応答ユーザには音声処理装置100自身を表す情報を設定する。
なお、規則テーブル131に格納する規則は、必要に応じて外部の情報処理装置(図示せず)などから読み込むように構成してもよい。
入力受付部101は、音声入力部121などから入力された音声データの入力を受付けるものである。また、入力受付部101は、受付けた音声データを、音声認識部102、誤り要因検出部103へと渡す。
なお、入力受付部101は、外部の情報処理装置(図示せず)から通信部122を介して音声データを受信し、受信した音声データの入力を受付けるように構成してもよい。この場合、必要に応じて外部の情報処理装置で暗号化された音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行うように構成してもよい。
音声認識部102は、入力受付部101から渡された音声データを分析して認識に必要な特徴量を抽出し、事前に学習した辞書を参照して音響的に最も類似する単語または単語系列を認識結果として解決手段決定部104に出力する。また、音声認識部102は、入力された音声データのうち発声者が発声した区間を表す発声区間情報を検出し、誤り要因検出部103に出力する。発声区間情報は誤り要因検出部103が発話速度等を算出する際に参照される。
なお、音声認識部102の音声認識処理では、隠れマルコフモデル、ニューラルネットワーク、DP(Dynamic Programming)マッチングなどの従来から用いられているあらゆる方法を利用することができる。
誤り要因検出部103は、入力受付部101から渡された音声データを分析して、音声認識の性能に影響を与える要素を誤り要因として検出し、検出された誤り要因を解決手段決定部104に出力するものである。音声認識の性能に影響を与える要素とは、例えば、発話場所の周辺で観測される音環境、発声者の発声スタイルなどが該当する。
音環境としては、街頭での自動車走行音やオフィスでのキーボード音など、音声処理装置100を使用する環境の背景で継続的または突発的に観測される雑音が例として挙げられる。また、発声スタイルとしては、発声の末尾で声の大きさが小さい、発話速度が大きいなどが例として挙げられる。
後述するように、本実施の形態では、誤り要因検出部103は、誤り要因として発話速度、声の大きさ、雑音を検出する。
解決手段決定部104は、誤り要因検出部103が誤り要因を検出した場合に、当該誤り要因に対応する解決手段を決定し、応答ユーザ選択部105および応答実行部106に出力するものである。
具体的には、解決手段決定部104は、誤り要因検出部103が検出した誤り要因に対応する応答例を、規則テーブル131から取得し、取得した応答例が表す応答方法を解決手段として決定する。
応答ユーザ選択部105は、解決手段決定部104が決定した解決手段を提示すべきユーザを選択するものである。具体的には、応答ユーザ選択部105は、誤り要因検出部103が検出した誤り要因に対応する応答ユーザを、規則テーブル131から取得し、取得した応答ユーザを、解決手段を提示すべきユーザとして選択する。
応答実行部106は、解決手段決定部104で決定された解決手段を、応答ユーザ選択部105で選択された応答ユーザに提示することにより、応答を実行するものである。応答は、問題を解決するための指示である応答例を応答ユーザが理解できる言語で表示画面にテキスト表示することにより実行する。
なお、応答の方法はこれに限られるものではなく、テキストを音声合成し、合成音を再生することにより解決手段を提示するように構成してもよい。また、このようにユーザに指示を与える受動的な方法以外にも、音声処理装置100自身が音声認識の設定を変更するなどの能動的な方法により応答を実行するように構成してもよい。
次に、このように構成された第1の実施の形態にかかる音声処理装置100による音声処理について説明する。図3は、第1の実施の形態における音声処理の全体の流れを示すフローチャートである。
まず、入力受付部101が、ユーザが発話した音声の入力を受付ける(ステップS301)。次に、音声認識部102が、受付けた音声に対して音声認識処理を実行する(ステップS302)。音声認識処理では、上述のように、HMM、ニューラルネットワーク、DPマッチングなどの、一般的に利用されているあらゆる音声認識方法を適用することができる。
次に、誤り要因検出部103が、誤り要因検出処理を実行する(ステップS303)。誤り要因検出処理の詳細については後述する。
次に、誤り要因検出部103が、誤り要因が検出されたか否かを判断し(ステップS304)、検出された場合は(ステップS304:YES)、解決手段決定部104が、誤り要因に対応する解決手段を規則テーブル131から取得する(ステップS305)。例えば、誤り要因として要因種別が「声の大きさ」の要因のうち、「発話全体の声が大きい」という要因が検出された場合、解決手段決定部104は、図2のような規則テーブル131から、「音量調整をして下さい」を意味する応答例を解決手段として決定する。
次に、応答ユーザ選択部105が、誤り要因に対応する応答ユーザを規則テーブル131から取得する(ステップS306)。例えば、誤り要因として「発話全体の声が大きい」という要因が検出された場合、応答ユーザ選択部105は、図2のような規則テーブル131から、「所有者」を応答ユーザとして選択する。
このように、本実施の形態では、発声者だけでなく、機器の所有者を応答ユーザとして指定可能としている。すなわち、応答ユーザ選択部105は、誤り要因の内容に応じて対処可能なユーザにフィードバックを返すように応答ユーザを切り替えることができる。これは、人間同士の会話支援を目的とした音声処理装置100では、発声者が機器を使い慣れた機器の所有者であるとは限らないため、発声者に「音量を調整して下さい」を意味する指示を出しても対応できない場合を考慮したものである。
次に、応答実行部106が、取得した応答ユーザに対して、解決手段で示された応答を実行し(ステップS307)、音声処理を終了する。例えば、誤り要因として「発話全体の声が大きい」という要因が検出された場合、応答実行部106は、「音量調整をして下さい」を意味するメッセージを表示画面に表示するような応答を実行する。
ステップS304で、誤り要因検出部103が、誤り要因が検出されないと判断した場合は(ステップS304:NO)、応答実行部106は、音声認識結果を出力し(ステップS308)、音声処理を終了する。
次に、ステップS303の誤り要因検出処理の詳細について説明する。図4は、誤り要因検出処理の全体の流れを示すフローチャートである。
誤り要因検出処理では、誤り要因検出部103は、音響的な情報として発話速度、声の大きさ(発話音量)、雑音を算出し、算出した情報をもとに誤り要因を検出する。
そこで、誤り要因検出部103は、まず、発声者の発話の発話速度を算出する発話速度算出処理(ステップS401)を実行する。次に、誤り要因検出部103は、発声者の発話の音量を算出する発話音量算出処理(ステップS402)を実行する。続いて、誤り要因検出部103は、発話の背景に存在する雑音を検出する雑音検出処理(ステップS403)を実行する。
なお、これらの実行順序は変更してもよい。発話速度算出処理、発話音量算出処理、雑音検出処理の詳細については後述する。
ステップS401からステップS403で、発話速度、発話音量、雑音を算出または検出した後、誤り要因検出部103は、規則テーブル131を参照し、発話速度に関する誤り要因を検出する(ステップS404)。
例えば、誤り要因検出部103は、発話速度算出処理で算出した発話速度と、予め定められた発話速度の最大値を表す閾値とを比較し、最大値より大きい場合には、発話速度が速いことを誤り要因として検出する。また、誤り要因検出部103は、発話速度と、予め定められた発話速度の最小値を表す閾値とを比較し、最小値より小さい場合には、発話速度が遅いことを誤り要因として検出する。
ここで、発話速度の閾値の設定方法について説明する。図5は、発話速度の分布の一例を示す説明図である。発話速度の閾値の設定方法としては、同図に示すような発話速度分布を事前に取得し、出現頻度が一定値以下となる発話速度を閾値として設定する方法を用いる。なお、同図に示すような発話速度分布は、例えば、事前に音声認識のモデルを学習する際に利用した音声データから取得することができる。
また、発話速度の閾値の設定方法はこれに限られるものではなく、音声認識の不具合に影響するか否かの境界となりうる閾値を設定する方法であれば、あらゆる方法を適用することができる。例えば、事前に発話速度と音声認識性能の関係が調査しておき、認識性能が一定値以下となる発話速度を閾値に設定してもよい。
また、上記例では発声区間全体の発話速度についての誤り要因について述べたが、発声区間を分割し、分割した区間ごとに発話速度を算出するように構成すれば、例えば、「文末の発話速度が速い」などのように発話の一部について誤り要因を検出することも可能である。
さらに、本実施の形態では発話速度による不具合の有無を閾値で決定的に判断する方法を説明したが、発話速度を要因とする音声認識の不具合の判定方法はこれに限られるものではなく、既存のあらゆる手法を利用することができる。
次に、誤り要因検出部103は、規則テーブル131を参照し、声の大きさに関する誤り要因を検出する(ステップS405)。
この場合も発話速度と同様に、予め定められた声の大きさの最大値および最小値を表す2つの閾値とを比較し、それぞれ各閾値より大きいまたは小さい場合に、声が大きいまたは小さいことを誤り要因として検出する。なお、声の大きさを表す情報としては、フレームごとのパワーの平均値である平均パワーまたはフレームごとのパワーの最大値である最大パワーを用いる。
閾値の設定方法としては、音声入力部121の指向性などの特性に合わせて設定する方法を適用する。なお、声の大きさの閾値の設定方法はこれに限られるものではなく、音声認識の不具合に影響するか否かの境界となりうる閾値を設定する方法であれば、あらゆる方法を適用することができる。例えば、事前にパワーと音声認識性能の関係が調査しておき、認識性能が一定値以下となるパワーを閾値に設定してもよい。
また、発声区間を分割し、分割した区間ごとに声の大きさを算出するように構成し、発話の一部について誤り要因を検出してもよい。
次に、誤り要因検出部103は、規則テーブル131を参照し、雑音に関する誤り要因を検出する(ステップS406)。雑音が存在するか否かはステップS404の雑音検出処理で判断できるため、ここでは、検出した雑音を誤り要因として検出するか否かを、規則テーブル131を参照して決定する。図2では、発話全体の背景雑音(定常雑音)、発話の一部の突発雑音ともに誤り要因として検出する例が示されている。
このように、誤り要因検出部103によって、発話速度、声の大きさ、雑音など対話相手が判断するのは難しい誤り要因を検出することが可能となる。
次に、ステップS401の発話速度算出処理の詳細について説明する。まず、発話速度算出処理の概念について説明する。
近年の音声認識では大量の発声データから学習した統計的な音響モデルを参照して探索するが、学習に用いた発声データの発話速度分布から大きく外れた発声はモデルとのマッチングに失敗し、正しい認識結果が得られないという問題がある。この問題を根本的に解決するには、より幅広い発話速度で発声された音声データを学習してモデルを構築する方法が考えられる。しかし、このためには大量の音声データを収集する必要がある。
モデルを新たに構築せずにこの問題を解決する方法としては、発声全体または発声の一部の発話速度を測定して、発話速度が極端に大きいまたは小さい発声区間については発話速度が不適切であることをユーザに提示して、当該区間を再度発声するよう誘導する方法が考えられる。
本実施の形態では後者のアプローチを取る。発話速度を算出するためには、(1)音声データから発話区間を検出し、(2)発声区間ごとの発話速度を測定することが必要となる。
発声区間の検出(1)に関しては、音声認識部102で検出された発声区間情報を利用すればよい。発話速度の測定(2)に関しては、100%正確な音声認識結果が得られる場合には、音声認識結果から発声区間に含まれる音素または音節数を取り出して発声区間長で割る単位時間あたりの音素(音節)数を利用することができる。
しかし100%正確な音声認識結果を得ることは容易ではなく、また、認識結果に不具合が生じる発声速度を検出することが目的なので、認識誤りに対しても頑健に発話速度を測定する必要がある。
本実施の形態では、認識誤りに頑健な手法の一例として、母音または子音を識別して発話速度を推定する手法を用いる。この方法は、詳細な音素の識別に比べて容易な母音・子音の2クラスの識別を行うことで、検出された母音数から近似的に発声区間の音素(音節)数を算出する方法である。日本語では、基本的に母音と子音とをペアとしたモーラが単位として存在し、英語など外国語でも音節は母音を核として構成されるので、おおよその発話速度を測定するには母音数で音節数を近似しても問題はない。
以下に、上述のような手法による発話速度算出処理の詳細について説明する。図6は、発話速度算出処理の全体の流れを示すフローチャートである。
まず、誤り要因検出部103は、発声区間をフレーム単位に分割するとともに(ステップS601)、発声区間長を取得する(ステップS602)。なお、発声区間は、上述のように音声認識部102で検出された発声区間情報を利用することができる。また、フレームは、発話速度の算出に適した長さで分割する。本実施の形態では、フレーム周期10ms、フレーム長25msとして発声区間を分割する。
次に、誤り要因検出部103は、母音数を0、直前クラスを「子音区間」に初期化する(ステップS603)。なお、直前クラスとは、直前フレームで「母音」か「子音」かを判定した結果を格納する情報であり、「母音区間」または「子音区間」が設定される。
次に、誤り要因検出部103は、分割した各フレームについて、フレーム単位で音声データを分析して音響特徴を抽出する(ステップS604)。本実施の形態では、音響特徴の抽出方法として、MFCC(Mel Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)を採用する。MFCCは、フーリエ変換を施してスペクトル化した音声データをメルスケールの帯域フィルタ群に通し、対数変換した値を逆フーリエ変換することで得ることができる。
なお、音響特徴はMFCCに限られるものではなく、発話速度の算出に用いることのできるものであれば、あらゆる音響特徴を利用することができる。
次に、誤り要因検出部103は、抽出したMFCCと、母音標準パターンとの距離を計算する(ステップS605)。母音標準パターンは、大量の音声データから事前に学習して作成したパターンを利用する。距離の計算方法は、従来から用いられているあらゆる方法を適用できる。
次に、誤り要因検出部103は、対象フレームは母音区間か否かを判断する(ステップS606)。具体的には、誤り要因検出部103は、母音と子音とを区別するための閾値を予め設定しておき、閾値未満ならば母音区間、閾値以上なら子音区間と判断する。
母音区間であると判断された場合は(ステップS606:YES)、誤り要因検出部103は、直前クラスが母音区間か否かを判断する(ステップS607)。
直前クラスが母音区間でないと判断した場合は(ステップS607:NO)、誤り要因検出部103は、母音数に1を加算する(ステップS608)。母音の先頭区間を検出したと判断できるためである。
ステップS608で母音数に1を加算した後、または、ステップS607で直前クラスが母音区間であると判断した場合は(ステップS607:YES)、誤り要因検出部103は、直前クラスに母音区間を格納する(ステップS609)。
ステップS607で直前クラスが母音区間であると判断した場合に母音数を加算しないのは、継続する母音区間の途中であると判断できるためである。
ステップS606で、対象フレームは母音区間でないと判断された場合は(ステップS606:NO)、誤り要因検出部103は、直前クラスに子音区間を格納する(ステップS610)。
次に、誤り要因検出部103は、すべてのフレームを処理したか否かを判断し(ステップS611)、すべてのフレームを処理していない場合は(ステップS611:NO)、次のフレームの音響特徴を抽出して処理を繰り返す(ステップS604)。
すべてのフレームを処理した場合は(ステップS611:YES)、誤り要因検出部103は、母音数と発声区間長から発話速度を算出し(ステップS612)、発話速度算出処理を終了する。
なお、誤り要因検出部103は、母音数を発声区間長で除算することにより求められる単位時間当りの母音数を発話速度として算出する。また、本実施の形態では、母音・子音を判定し発話速度を算出する方法を説明したが、発話速度の算出手法はこれに限られるものではなく、既存のあらゆる手法を利用することができる。
次に、ステップS402の発話音量算出処理の詳細について説明する。まず、発話音量算出処理の概念について説明する。
発話音量(声の大きさ)によって音声認識に不具合が発生する例としては、図2に示すように発声全体が大きい(小さい)または発声の一部が大きい(小さい)ことが挙げられる。
入力受付部101が想定するダイナミックレンジ以上の発声が入力された場合、音声データは丸め込まれる。丸め込まれた音声データは歪みを持つために、学習した音響モデルとのマッチングが正しく取れずに認識誤りを引き起こす要因となる。
逆に、装置から離れた場所から発声された発話や非常に小さな発声を含む発話では、想定よりも小さなダイナミックレンジで音声データが入力される。ダイナミックレンジが小さい音声データは音素の識別に必要な情報が欠落しているため、学習した音響モデルとのマッチングが正しく取れずに認識誤りを引き起こす要因となる。
この問題を解決する方法としては、入力受付部101に入力される音声の音量を使用環境に合わせて事前に調整する方法や、発声途中に動的に修正する方法などが考えられる。例えば、業務レポートの作成をオフィスのような静かな環境で行う場合には、環境の変化も少なく話者も固定されているため、事前に調整する方法を適用可能である。またヘッドセットマイクを利用すれば、マイクと発声者の口との距離が予測できるために動的な調整も可能である。
しかし、例えば、端末を手に市街地で他者と意思疎通を図る場合などのように、より幅広い実環境で音声処理装置100を利用する場合には、事前に音量の調整を行うことは容易ではない。またマイクと発声者の距離も固定されないため動的に音量を調整することも容易ではない。
事前の調整または動的な調整以外の解決策としては、発声全体または発声の一部のパワーを測定して、パワーが極端に大きいまたは小さい発声区間については声の大きさが不適切であることをユーザに提示して、当該区間を再度発声するよう誘導する方法が考えられる。
本実施の形態では後者のアプローチを取る。声の大きさを算出するためには、(1)音声データから発声区間を検出し、(2)発声区間ごとのパワーを測定することが必要となる。発声区間の検出(1)に関しては、音声認識部102で検出された発声区間情報を利用すればよい。
以下に、上述のような手法による発話音量算出処理の詳細について説明する。図7は、発話音量算出処理の全体の流れを示すフローチャートである。
まず、誤り要因検出部103は、発声区間をフレーム単位に分割するとともに(ステップS701)、発声区間のフレーム数Nfを取得する(ステップS702)。なお、発声区間は、上述のように音声認識部102で検出された発声区間情報を利用することができる。また、フレームは、パワーの算出に適した長さで分割する。本実施の形態では、フレーム周期10ms、フレーム長25msとして発声区間を分割する。
次に、誤り要因検出部103は、累積パワーPaと、最大パワーPxとを0に初期化する(ステップS703)。
次に、誤り要因検出部103は、フレーム単位でパワーPtを算出する(ステップS704)。パワーの算出方法としては、FFT(Fast Fourier Transform:高速フーリエ変換)を用いた音声データのパワー算出方法などの従来から用いられているあらゆる方法を適用することができる。
次に、誤り要因検出部103は、累積パワーPaに、算出したパワーPtを加算する(ステップS705)。続いて、誤り要因検出部103は、パワーPtが、最大パワーPxより大きいか否かを判断する(ステップS706)。
パワーPtが最大パワーPxより大きい場合は(ステップS706:YES)、誤り要因検出部103は、最大パワーPxをパワーPtで更新する(ステップS707)。
最大パワーPxを更新後、またはステップS706で、パワーPtが最大パワーPxより大きくないと判断した場合(ステップS706:NO)、誤り要因検出部103は、すべてのフレームを処理したか否かを判断する(ステップS708)。
すべてのフレームを処理していない場合は(ステップS708:NO)、次のフレームのパワーを算出して処理を繰り返す(ステップS704)。
すべてのフレームを処理した場合は(ステップS708:YES)、誤り要因検出部103は、累積パワーPaとフレーム数Nfとから平均パワーを算出し(ステップS709)、発話音量算出処理を終了する。
なお、誤り要因検出部103は、累積パワーPaをフレーム数Nfで除算することにより平均パワーを算出する。また、本実施の形態では、声の大きさの算出方法として、発声区間の平均パワー、最大パワーを用いる方法を説明したが、声の大きさの算出手法はこれに限られるものではなく、既存のあらゆる手法を利用することができる。
次に、ステップS403の雑音検出処理の詳細について説明する。まず、雑音検出処理の概念について説明する。
実環境では様々な雑音が存在しており、音声認識に大きな影響を与えている。雑音には発声環境で継続的に観測される雑音である定常雑音や、突発的に観測される雑音である突発雑音などが存在する。
定常雑音とは、例えば室内での空調音や街頭雑音など雑音のパワー変動が少なく継続的に観測される雑音のことをいい、突発雑音とは、キーボードを叩く音や自動車の通過音など突発的に観測される雑音のことを表す。
雑音の問題を根本的に解決するには、音声認識の初期段階で雑音成分を除去する方法、または雑音成分を反映させた音響モデルを構築する方法などが考えられる。しかし、多様な音響特徴を有する雑音が存在するため、あらゆる雑音に頑健な雑音除去処理を実現することや、あらゆる雑音データを収集して音響モデルを構築することは容易ではない。
雑音除去または雑音音響モデル構築以外の解決方法としては、発声全体または発声の一部の雑音を検出して、雑音が重畳する発声区間については問題の解決方法をユーザに提示して、当該区間を再度発声するよう誘導する方法などが考えられる。
本実施の形態では後者のアプローチを取る。本実施の形態では、定常雑音と突発雑音とを検出し、検出した雑音に応じた問題解決方法を提示する例を説明する。定常雑音および突発雑音を検出する方法としては、雑音の詳細な種類や、重畳の違いを識別することまでは行わず、定常雑音および突発雑音が存在することのみを検出する方法を用いる。
定常雑音の検出方法としては、音声として検出された区間が生理的に発声可能な長さを超えているか否か、または、発声区間周辺のパワーが閾値を超えているか否かなどの判断基準を用いた検出方法が存在する。
また、突発雑音の検出方法としては、継続時間が短くパワーが極端に大きな区間が存在するか否かなどの判断基準を用いた検出方法が存在する。本実施の形態では、発声区間継続長、周辺フレームのパワーを算出し定常雑音を検出する方法、極大パワー長を算出して突発雑音を検出する方法を用いる。
ここで、発声区間継続長とは、継続して発声された発声区間の長さを表す情報をいう。また、周辺フレームとは、雑音を検出するフレームの前後の予め定められた範囲のフレームをいう。また、極大パワー長とは、フレーム内で、周辺に比べてパワーが予め定められた閾値(以下、閾値1という。)より大きな区間が継続する長さをいう。
以下に、上述のような手法による雑音検出処理の詳細について説明する。図8は、雑音検出処理の全体の流れを示すフローチャートである。
まず、誤り要因検出部103は、発声区間をフレーム単位に分割するとともに(ステップS801)、発声区間のフレーム数Nfを取得する(ステップS802)。なお、発声区間は、上述のように音声認識部102で検出された発声区間情報を利用することができる。また、フレームは、雑音測定に適した長さで分割する。本実施の形態では、フレーム周期100ms、フレーム長250msとして発声区間を分割する。また、以下では、発声区間のフレーム数Nfが、発声区間継続長を表す情報として用いられる。
次に、誤り要因検出部103は、発声区間の周辺フレームの平均パワーPsを算出する(ステップS803)。なお、パワーの算出方法は、上述のようにFFTを方法などの従来から用いられているあらゆる方法を適用することができる。
次に、誤り要因検出部103は、カウンタCtを0に、極大パワー長NpをNfに、累積パワーPaを0に初期化する(ステップS804)。ここで、カウンタCtとは、パワーが予め定められた閾値1より大きいフレームをカウントするために用いる情報である。
次に、誤り要因検出部103は、フレーム単位でパワーPtを算出する(ステップS805)。続いて、誤り要因検出部103は、累積パワーPaに、算出したパワーPtを加算する(ステップS806)。
次に、誤り要因検出部103は、算出したパワーPtが、閾値1より大きいか否かを判断する(ステップS807)。
算出したパワーPtが、閾値1より大きくない場合(ステップS807:NO)、誤り要因検出部103は、極大パワー長NpがカウンタCtより大きく、かつ、カウンタCtが0でないか否かを判断する(ステップS808)。
極大パワー長NpがカウンタCtより大きく、かつ、カウンタCtが0でない場合(ステップS808:YES)、誤り要因検出部103は、極大パワー長NpをカウンタCtで更新する(ステップS809)。
極大パワー長NpがカウンタCtより大きく、かつ、カウンタCtが0でない場合以外は(ステップS808:NO)、誤り要因検出部103は、カウンタCtを0に初期化する(ステップS810)。
ステップS807で、算出したパワーPtが、閾値1より大きいと判断した場合(ステップS807:YES)、誤り要因検出部103は、カウンタCtに1を加算する(ステップS811)。
次に、誤り要因検出部103は、すべてのフレームを処理したか否かを判断する(ステップS812)。
すべてのフレームを処理していない場合は(ステップS812:NO)、次のフレームのパワーを算出して処理を繰り返す(ステップS805)。
すべてのフレームを処理した場合は(ステップS812:YES)、誤り要因検出部103は、累積パワーPaとフレーム数Nfとから平均パワーPavを算出する(ステップS813)。
次に、誤り要因検出部103は、極大パワー長Nfが予め定められた閾値(以下、閾値2という。)より大きく、かつ、平均パワーPavと周辺フレームの平均パワーPsとの差分が予め定められた閾値(以下、閾値3という。)より小さいか否かを判断する(ステップS814)。
極大パワー長Nfが閾値2より大きく、かつ、平均パワーPavと周辺フレームの平均パワーPsとの差分が閾値3より小さい場合(ステップS814:YES)、誤り要因検出部103は、現在のフレームに定常雑音が存在すると判定し(ステップS815)、雑音検出処理を終了する。
極大パワー長Nfが閾値2より大きく、かつ、平均パワーPavと周辺フレームの平均パワーPsとの差分が閾値3より小さい場合以外は(ステップS814:NO)、誤り要因検出部103は、極大パワー長Npが予め定められた閾値(以下、閾値4という。)より小さいか否かを判断する(ステップS816)。
極大パワー長Npが閾値4より小さい場合は(ステップS816:YES)、誤り要因検出部103は、現在のフレームに突発雑音が存在すると判定し(ステップS817)、雑音検出処理を終了する。
極大パワー長Npが閾値4より小さくない場合は(ステップS816:NO)、誤り要因検出部103は、現在のフレームには雑音が存在しないと判定し(ステップS818)、雑音検出処理を終了する。
上述の例では、雑音による不具合を検出する方法として発声区間継続長、周辺フレームパワー、極大パワーの継続長を使う方法を説明したが、雑音の不具合を検出する手法はこれに限られるものではなく、既存のあらゆる手法を利用することができる。
このように、第1の実施の形態にかかる音声処理装置では、通常、ユーザが認識することができない発話の音響的な誤り要因を検出し、誤り要因の内容に応じて応答ユーザを切り替えることができる。このため、ユーザは誤り要因を把握することができ、同じ失敗によって会話が破綻する危険を回避することができるとともに、対応可能なユーザにのみフィードバックを返すことで無駄なやり取りを削減することができ、円滑に会話を進めることができる。
(第2の実施の形態)
第2の実施の形態にかかる音声処理装置は、第1言語で発話された発話内容の音声認識結果を第2言語に翻訳して対話相手に出力する音声翻訳処理において、音声処理時に発生した音響的な誤り要因を検出し、誤り要因の内容に応じて応答ユーザを切り替えるものである。
このように、第2の実施の形態は、言語の異なるユーザ間の会話を支援する音声翻訳装置に本提案の内容を適用した例である。なお、以下では、日本語および英語間の翻訳機能を備える音声処理装置を例に説明するが、翻訳の原言語および目的言語の組合せはこれに限られるものではなく、あらゆる言語の組合せについて適用することができる。
図9は、第2の実施の形態にかかる音声処理装置900の構成を示すブロック図である。同図に示すように、音声処理装置900は、入力受付部101と、音声認識部102と、誤り要因検出部103と、解決手段決定部104と、応答ユーザ選択部105と、応答実行部906と、翻訳部907と、表示部110と、音声入力部121と、通信部122と、記憶部130とを備えている。
第2の実施の形態では、翻訳部907を追加したこと、および応答実行部906の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声処理装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
翻訳部907は、音声認識部102が出力した原言語による音声認識結果の文字列を受け取り、目的言語に変換して解決手段決定部104に出力するものである。翻訳部907における翻訳処理では、ルールベース翻訳、用例ベース翻訳などの従来から用いられているあらゆる翻訳技術を用いることができる。
応答実行部906は、応答ユーザが原言語を発話する原言語ユーザか、目的言語を発話する目的言語ユーザか否かに応じて、表示する言語を切り替えて応答を実行する点が、第1の実施の形態にかかる応答実行部106と異なっている。また、応答実行部906は、誤り要因が検出されなかった場合に、音声認識結果ではなく、音声認識結果を翻訳した翻訳結果を出力する点が、第1の実施の形態にかかる応答実行部106と異なっている。
次に、このように構成された第2の実施の形態にかかる音声処理装置900による音声処理について説明する。図10は、第2の実施の形態における音声処理の全体の流れを示すフローチャートである。
ステップS1001からステップS1002までの、音声入力処理、音声認識処理は、第1の実施の形態にかかる音声処理装置100におけるステップS301からステップS302までと同様の処理なので、その説明を省略する。
音声認識処理の後、翻訳部907は、音声認識結果を目的言語に翻訳する(ステップS1003)。翻訳処理は、上述のように、ルールベース翻訳、用例ベース翻訳などの手法により行う。
ステップS1004からステップS1007までの、誤り要因検出処理、解決手段決定処理、応答ユーザ選択処理は、第1の実施の形態にかかる音声処理装置100におけるステップS303からステップS306までと同様の処理なので、その説明を省略する。
ステップS1007で、応答ユーザを選択した後、応答実行部906は、応答ユーザは原言語ユーザか否かを判断する(ステップS1008)。具体的には、応答実行部906は、音声認識時に検出した発声者の言語と、応答ユーザ選択処理で選択された応答ユーザと、事前に設定された所有者の言語とから、応答ユーザが原言語ユーザか否かを判断する。例えば、発声者の発話が原言語であり、選択された応答ユーザが発声者の場合、応答ユーザは原言語ユーザであると判断される。
応答ユーザが原言語ユーザである場合は(ステップS1008:YES)、応答実行部906は、原言語ユーザに対して、原言語により、解決手段で示された応答を実行する(ステップS1009)。
応答ユーザが原言語ユーザでない場合、すなわち、目的言語ユーザである場合は(ステップS1008:NO)、応答実行部906は、目的言語ユーザに対して、目的言語により、解決手段で示された応答を実行する(ステップS1010)。
ステップS1005で、誤り要因検出部103が、誤り要因が検出されないと判断した場合は(ステップS1005:NO)、応答実行部906は、翻訳結果を出力し(ステップS1011)、音声処理を終了する。
図11は、翻訳結果を出力する表示画面の一例を示す説明図である。同図に示すように、表示画面1101には、原言語の音声認識結果を表示する表示フィールド1102と、目的言語への翻訳結果を表示する表示フィールド1103とが表示されている。
誤りが検出されなかった場合は(ステップS1005:NO)、表示フィールド1102の音声認識結果の翻訳結果が、表示フィールド1103に表示される。
次に、このように構成された第2の実施の形態にかかる音声処理装置900で実行される音声処理の具体例について説明する。
以下では、原言語ユーザが日本人旅行者かつ機器の所有者であり、目的言語ユーザが英語を母国語とする現地在住の者で機器の操作に慣れておらず、日本人旅行者が現地在住の者にホテルの場所を尋ねる場合を例にして説明する。
まず、ステップS1001で、原言語ユーザが発話した、「ヒルトンホテルへの道を教えてもらえますか?」を意味する日本語の入力を受付ける。続いてステップS1002およびステップS1003で、音声認識部102および翻訳部907によって原言語での発声内容が目的言語に変換される。
次に、ステップS1004で、誤り要因検出部103により発話速度、声の大きさ、雑音などを計測して音声認識における誤りが存在しないか否かが確認される。
ここで、発声の最後の部分が小さくて聞き取れなかったと仮定すると、図2に示すような規則テーブル131から、大きな声で話すことを促す応答を、発声者に返すという規則が適用される(ステップS1006、ステップS1007)。
図12は、応答のメッセージを出力する表示画面の一例を示す説明図である。同図に示すように、表示画面1201は、応答のメッセージを表示する表示フィールド1202を含んでいる。表示フィールド1202に、規則テーブル131から選択された応答例に対応するメッセージ「声が小さくて最後が聞き取れませんでした。もう少し大きな声で話して下さい」を意味する日本語が表示される。
このように、第2の実施の形態にかかる音声処理装置では、発話相手の言語を理解できないユーザでは気づくことができない発声の誤り要因を検出し、必要に応じて指摘することができる。また、誤り要因の内容に応じて対処可能なユーザにフィードバックを返すように応答ユーザを切り替えている。従って、誤り要因を指摘することで同じ失敗によって会話が破綻する危険を回避することができ、対応可能なユーザにのみフィードバックを返すことで無駄なやり取りを削減することができる。さらに、機器の操作に慣れない相手とでも円滑に会話を進めることが可能となるため、初対面の外国人とも気軽に意思疎通を図ることが可能となる。
(第3の実施の形態)
第3の実施の形態にかかる音声処理装置は、提示された音声認識結果から、対話相手が誤りの存在する箇所を指摘し、指摘された範囲内で発話の音響的な誤り要因を検出するものである。
図13は、第3の実施の形態にかかる音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置1300は、入力受付部101と、音声認識部102と、誤り要因検出部1303と、解決手段決定部104と、応答ユーザ選択部105と、応答実行部906と、翻訳部907と、誤り箇所同定部1308と、表示部110と、音声入力部121と、通信部122と、記憶部130とを備えている。
第3の実施の形態では、誤り箇所同定部1308を追加したこと、および誤り要因検出部1303の機能が第2の実施の形態と異なっている。その他の構成および機能は、第2の実施の形態にかかる音声処理装置900の構成を表すブロック図である図9と同様であるので、同一符号を付し、ここでの説明は省略する。
誤り箇所同定部1308は、表示画面に表示された翻訳結果から、目的言語ユーザが理解できない部分として指定した誤り箇所を同定するものである。具体的には、誤り箇所同定部1308は、表示画面に表示された翻訳結果のテキスト上で操作ボタン、キーボード、タッチペンなどの入力デバイス(図示せず)を用いて選択された部分を、誤り箇所として同定する。
誤り箇所同定部1308が誤り箇所を同定することにより、複数の誤り要因の中から誤り箇所で発生した誤り要因に対応する解決手段のみを提示することや、誤り要因検出部1303では誤りと断定できない場合にも修正を求めることが可能となる。
誤り要因検出部1303は、音声認識結果全体ではなく、誤り箇所同定部1308が同定した誤り箇所に対応する音声認識結果の中から誤り要因を検出する点が、第2の実施の形態にかかる誤り要因検出部103と異なっている。
次に、このように構成された第3の実施の形態にかかる音声処理装置1300による音声処理について説明する。図14は、第3の実施の形態における音声処理の全体の流れを示すフローチャートである。
ステップS1401からステップS1404までの、音声入力処理、音声認識処理、誤り要因検出処理は、第2の実施の形態にかかる音声処理装置900におけるステップS1001からステップS1004までと同様の処理なので、その説明を省略する。
誤り要因検出処理の実行後、応答実行部906は、目的言語ユーザに翻訳結果を提示する(ステップS1405)。次に、誤り箇所同定部1308が、目的言語ユーザの指定した誤り箇所を同定する(ステップS1406)。具体的には、画面に表示された翻訳結果から、目的言語ユーザが操作ボタン等の入力デバイスにより理解できない部分として指定した箇所を、誤り箇所として同定する。
次に、誤り要因検出部1303が、誤り箇所同定部1308が同定した誤り箇所で、誤り要因が検出されたか否かを判断する(ステップS1407)。誤り箇所同定部1308が同定した誤り箇所で、誤り要因が検出された場合は(ステップS1407:YES)、ステップS1408からステップS1412までの処理を実行する。
ステップS1408からステップS1412までの、解決手段決定処理、応答ユーザ選択処理、応答実行処理は、第2の実施の形態にかかる音声処理装置900におけるステップS1006からステップS1010までと同様の処理なので、その説明を省略する。
誤り箇所同定部1308が同定した誤り箇所で、誤り要因が検出されない場合は(ステップS1407:NO)、音声処理を終了する。なお、第3の実施の形態ではステップS1405で翻訳結果を提示済みなので、第2の実施の形態のステップS1011のように翻訳結果を出力する必要がない。
このように、第3の実施の形態では、ユーザが指定した誤り箇所に対応する誤り要因に対してのみ応答を実行する点が、第2の実施の形態と異なっている。これにより、必要最小限の部分のみの修正が可能となる。
次に、このように構成された第3の実施の形態にかかる音声処理装置1300で実行される音声処理の具体例について説明する。
以下では、原言語ユーザが英語を母国語とする現地在住の者で機器の操作に慣れておらず、目的言語ユーザが日本人旅行者かつ機器の所有者であり、日本人が現地のホテルの場所を尋ねた直前の発話に対して、現地住人が返答する場合を例にして説明する。
まず、ステップS1401で、原言語ユーザが発話した英語「Since the hotel is quite far from here、 I recommend a taxi?」の入力を受付ける。続いてステップS1402およびステップS1403で、音声認識部102および翻訳部907によって原言語での発声内容が目的言語に変換される。
次に、ステップS1404で、誤り要因検出部1303により発話速度、声の大きさ、雑音などを計測して音声認識における誤りが存在しないか否かが確認される。
ここで、発声の後半で発話速度が大きくなったために「taxi」が「tax」に誤認識されたと仮定する。この場合、目的言語ユーザである日本人旅行者に、翻訳結果が提示される(ステップS1405)。
図15は、翻訳結果を出力する表示画面の一例を示す説明図である。同図に示すように、表示画面1501には、翻訳結果を表示する表示フィールド1502と、日本人旅行者へのメッセージを表示する表示フィールド1503と、現地住人の発話の音声認識結果を表示する表示フィールド1504とが表示されている。
同図では、入力された発話が誤って音声認識され、「Since the hotel is quite far from here、 I recommend a tax?」が音声認識結果として表示された例が示されている。また、当該音声認識結果を翻訳した日本語が、表示フィールド1502に表示されている。さらに、本画面では、誤り箇所を指定することを促すメッセージであり、「理解できない部分があれば、そこを囲って下さい」を意味する日本語のメッセージが、表示フィールド1503に表示されている。
図16は、誤り箇所指定後の表示画面の一例を示す説明図である。同図の表示画面1601では、「taxi」が「tax」に誤認識されたため誤って翻訳された日本語であり、「税金」を意味する日本語1602の部分を、日本人旅行者が理解できない部分として指定した例が示されている。また、表示フィールド1603には、「税金の部分を相手に確認します」を意味する日本語が表示されている。さらに、指定した誤り箇所に対応する英語の音声認識結果の部分(「a tax」)に下線1604が付されており、音声認識結果のうち誤り箇所に相当する部分が同定されていることが示されている。
この後、誤り要因検出部1303が、同定した誤り箇所である「a tax」の部分で誤り要因が検出されたか否かを判断する(ステップS1407)。ここで、発話の最後の部分の発声速度が速いことが検出されていたと仮定する。
この場合、例えば、ゆっくりと話すことを促す応答例が、規則テーブル131から取得される。なお、図2には示していないが、規則テーブル131には、原言語および目的言語双方の言語による応答のメッセージが格納され、応答ユーザにより切替えて選択されるものとする。
図17は、応答のメッセージが表示された表示画面の一例を示す説明図である。同図に示す表示画面1701では、発話の最後の部分の発声速度が速いことが検出されたことに対応し、ゆっくりと話すことを促す応答例が表示フィールド1702に表示された例が示されている。
図18は、応答に対して、原言語ユーザが再度発声した後の表示画面の一例を示す説明図である。同図に示す表示画面1801では、再度発話した部分のみの音声認識結果が表示フィールド1803に表示され、当該音声認識結果を翻訳した翻訳結果が、表示フィールド1802に表示された例が示されている。
上記例では、原言語ユーザの話し方に問題がある場合について説明した。この他、例えば、定常雑音が背景に存在するため正しく認識できなかった場合には、図2に示すような規則テーブル131に従えば応答ユーザは所有者である目的言語ユーザとなる。このため、応答は目的言語ユーザに提示される(ステップS1412)。
図19は、目的言語ユーザに対するフィードバックが表示された表示画面の一例を示す説明図である。同図に示す表示画面1901では、発話全体に背景雑音が重畳している場合の応答例が、表示フィールド1902に表示された例が示されている。
なお、本実施の形態では誤り箇所同定部1308で指摘された区間で誤り要因が検出された場合を例に説明したが、指摘された区間で誤り要因が検出されなかった場合には、本実施の形態が想定していない誤り要因が存在すると判断し、例えば、「再度発声して下さい」のような汎用的な応答を発声者に返すように構成してもよい。
このように、第3の実施の形態にかかる音声処理装置では、提示された音声認識結果から、対話相手が誤りの存在する箇所を指摘し、指摘された範囲内で発話の音響的な誤り要因を検出することができる。このため、誤り要因の検出精度を向上させることができるとともに、必要最小限の部分のみ修正すればよいため、円滑に会話を進めることができる。
(第4の実施の形態)
第4の実施の形態にかかる音声処理装置は、検出された誤り要因の履歴を記憶し、記憶された誤り要因の履歴を参照して、誤り発生時の応答方法を切り分けるものである。
図20は、第4の実施の形態にかかる音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置2000は、入力受付部101と、音声認識部102と、誤り要因検出部103と、解決手段決定部2004と、応答ユーザ選択部2005と、応答実行部906と、翻訳部907と、表示部110と、音声入力部121と、通信部122と、記憶部2030とを備えている。
第4の実施の形態では、解決手段決定部2004および応答ユーザ選択部2005の機能が第2の実施の形態と異なっている。また、第4の実施の形態では、記憶部2030に履歴管理テーブル2032を追加したこと、および規則テーブル2031のデータ構造が第2の実施の形態と異なっている。その他の構成および機能は、第2の実施の形態にかかる音声処理装置900の構成を表すブロック図である図9と同様であるので、同一符号を付し、ここでの説明は省略する。
履歴管理テーブル2032は、過去に検出された誤り要因の履歴を格納するものである。図21は、履歴管理テーブル2032のデータ構造の一例を示す説明図である。
同図に示すように、履歴管理テーブル2032は、発声した時点を特定する情報である発生時と、発声者と、検出された誤り要因とを対応づけて格納している。同図では、例えば、直前の英語話者の発話時に背景雑音が重畳されていることが誤り要因として検出された履歴が格納されていることが示されている。
規則テーブル2031は、誤り要因の履歴に関する予め定められた条件をさらに対応づけた規則を格納する点が、第2の実施の形態と異なっている。
図22は、規則テーブル2031のデータ構造の一例を示す説明図である。同図に示すように、規則テーブル2031は、要因種別と、検出する誤り要因と、履歴条件と、応答ユーザと、応答例とを対応づけて格納している。
履歴条件に、誤り要因の履歴に関する予め定められた条件を指定する。例えば、直前でも背景雑音が重畳されたか、直前は背景雑音が重畳されていないかなどの履歴の条件を指定する。なお、履歴の条件を特定する必要がなければ省略可能とするように構成してもよい。
解決手段決定部2004は、履歴管理テーブル2032を参照し、検出した誤り要因だけでなく、誤り要因の履歴が満たす条件に合致する解決手段を決定する点が、第2の実施の形態にかかる解決手段決定部104と異なっている。
応答ユーザ選択部2005は、履歴管理テーブル2032を参照し、検出した誤り要因だけでなく、誤り要因の履歴が満たす条件に合致する応答ユーザを選択する点が、第2の実施の形態にかかる応答ユーザ選択部105と異なっている。
次に、このように構成された第4の実施の形態にかかる音声処理装置2000による音声処理について説明する。図23は、第4の実施の形態における音声処理の全体の流れを示すフローチャートである。
ステップS2301からステップS2305までの、音声入力処理、音声認識処理、誤り要因検出処理は、第2の実施の形態にかかる音声処理装置900におけるステップS1001からステップS1005までと同様の処理なので、その説明を省略する。
ステップS2305で、誤り要因が検出されたと判断された場合(ステップS2305:YES)、解決手段決定部2004は、履歴管理テーブル2032を参照し、誤り要因と履歴の条件に対応する解決手段を、規則テーブル2031から取得する(ステップS2306)。
例えば、現在の発話の音声認識結果に対して、背景雑音が重畳されていることが検出され、かつ、履歴管理テーブル2032に図21に示すような誤り要因の履歴が格納されていたとする。この場合、直前でも背景雑音が重畳されたという履歴の条件が得られるため、図22に示すような規則テーブル2031から、場所を移動することを促す応答例を解決手段として取得する。
次に、応答ユーザ選択部2005は、履歴管理テーブル2032を参照し、誤り要因と履歴の条件に対応する応答ユーザを、規則テーブル2031から取得する(ステップS2307)。上述の例の場合は、図22に示すような規則テーブル2031から、所有者を応答ユーザとして取得する。
ステップS2308からステップS2311までの、応答実行処理は、第2の実施の形態にかかる音声処理装置900におけるステップS1008からステップS1011までと同様の処理なので、その説明を省略する。
このように、第4の実施の形態では、誤り要因の履歴を保存し、当該履歴を参照して応答内容や応答ユーザを切り分ける点が、第2の実施の形態と異なっている。これにより、同じ誤り要因が繰返し検出された場合に応答内容を変更することが可能となる。
次に、このように構成された第4の実施の形態にかかる音声処理装置2000で実行される音声処理の具体例について説明する。
以下では、原言語ユーザが英語を母国語とする現地在住の者で機器の操作に慣れておらず、目的言語ユーザが日本人旅行者かつ機器の所有者であり、日本人が現地のホテルの場所を尋ねた直前の発話に対して、現地住人が返答する場合を例にして説明する。
まず、ステップS2301で、原言語ユーザが発話した英語「Since the hotel is quite far from here、 I recommend a taxi?」の入力を受付ける。続いてステップS2302およびステップS2303で、音声認識部102および翻訳部907によって原言語での発声内容が目的言語に変換される。
次に、ステップS2304で、誤り要因検出部103により発話速度、声の大きさ、雑音などを計測して音声認識における誤りが存在しないか否かが確認される。
ここで、図21に示すように直前の発話で背景雑音が検出され、現在処理中の発話に対しても背景雑音が検出されたことを仮定する。この場合、解決手段決定部2004は、図22に示すような規則テーブル2031から、場所を移動することを促す応答例を解決手段として選択する(ステップS2306)。また、応答ユーザ選択部2005は、図22に示すような規則テーブル2031から、所有者を応答ユーザとして選択する(ステップS2306)。
一方、仮に現発話で背景雑音が初めて検出された場合には、図22に示すような規則テーブル2031から、発声者に大きな声で話すことを促す応答が選択される。
このように、第4の実施の形態にかかる音声処理装置では、同じ誤り要因が繰返し検出される場合には、その状況を打破する新しい解決手段を選択することができる。過去に検出された誤り要因に応じて最適なフィードバックを返すことで、同じ失敗によって会話が破綻する危険を回避することができ、しかも対応可能なユーザにのみフィードバックを返すことで無駄なやり取りを削減することができる。
(第5の実施の形態)
第5の実施の形態にかかる音声処理装置は、検出した誤り要因に対応した応答を実行する際、対話相手に対して応答の実行状況を提示するものである。
第5の実施の形態にかかる音声処理装置の構成は、第2の実施の形態にかかる音声処理装置900の構成を表すブロック図である図9と同様であるので、同一符号を付し、ここでの説明は省略する。
第5の実施の形態では、応答実行部106が応答を実行する際に、応答ユーザ以外のユーザに対して応答内容を表示することにより、現在の状況を把握できるようにする点が、第2の実施の形態と異なっている。
次に、このように構成された第5の実施の形態にかかる音声処理装置による音声処理について説明する。図24は、第5の実施の形態における音声処理の全体の流れを示すフローチャートである。
ステップS2401からステップS2411までの、音声入力処理、音声認識処理、誤り要因検出処理、解決手段決定処理、応答ユーザ選択処理、応答ユーザに対する応答実行処理は、第2の実施の形態にかかる音声処理装置900におけるステップS1001からステップS1011までと同様の処理なので、その説明を省略する。
第5の実施の形態では、応答実行部106が、ステップS2409で原言語ユーザに対して応答を実行した後、または、ステップS2410で目的言語ユーザに対して応答を実行した後、それぞれ目的言語ユーザ、または、原言語ユーザに対して処理状況を提示する(ステップS2412、ステップS2413)。
このように、第5の実施の形態では、誤り要因を解消するユーザだけでなく両方のユーザにそれぞれフィードバックを返すことで、お互いに現在の状況を把握することができる。
次に、このように構成された第5の実施の形態にかかる音声処理装置で実行される音声処理の具体例について説明する。
以下では、原言語ユーザが英語を母国語とする現地在住の者で機器の操作に慣れておらず、目的言語ユーザが日本人旅行者かつ機器の所有者であり、日本人が現地のホテルの場所を尋ねた直前の発話に対して、現地住人が返答する場合を例にして説明する。
まず、ステップS2401で、原言語ユーザが発話した英語「Since the hotel is quite far from here、 I recommend a taxi?」の入力を受付ける。続いてステップS2402およびステップS2403で、音声認識部102および翻訳部907によって原言語での発声内容が目的言語に変換される。
次に、ステップS2404で、誤り要因検出部103により発話速度、声の大きさ、雑音などを計測して音声認識における誤りが存在しないか否かが確認される。
ここで、発声の全体が早口でまったく聞き取れなかったと仮定すると、図2に示すような規則テーブル131から、ゆっくりと話すことを促す応答を、発声者に返すという規則が適用される(ステップS2406、ステップS2407)。
この場合、応答実行部106は、原言語ユーザに応答のメッセージを表示するとともに(ステップS2409)、目的言語ユーザに、原言語ユーザに対して実行している応答の状況を提示する(ステップS2412)。
図25は、応答の処理状況が表示された表示画面の一例を示す説明図である。同図に示す表示画面2501では、応答が表示フィールド2503に表示されるとともに、応答の処理状況を表す日本語のメッセージが表示フィールド2502に表示された例が示されている。
なお、ここでは原言語ユーザと目的言語ユーザへのメッセージを同時に表示する例を説明したが、原言語ユーザにはメッセージを音声合成した合成音を提示し、目的言語ユーザには画面でメッセージを伝えるように構成してもよい。メッセージの提示方法はこれに限られるものではなく、原言語ユーザと目的言語ユーザそれぞれの言語で合成した合成音を各ユーザの方向に向けて出力するなど、従来から用いられているあらゆる方法によりメッセージを提示することができる。
このように、第5の実施の形態にかかる音声処理装置では、検出した誤り要因に対応した応答を実行する際、対話相手に対して応答の実行状況を提示することができる。このため、対話相手は、誤りが発生したことや、発声者または機器の所有者の操作の内容を把握することができ、会話の空白による混乱を防いでより円滑に会話を進めることができる。
図26は、第1〜第5の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。
第1〜第5の実施の形態にかかる音声処理装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1〜第5の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、ROM52等に予め組み込まれて提供される。
第1〜第5の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、第1〜第5の実施の形態にかかる音声処理装置で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第3の実施の形態にかかる音声処理装置で実行される音声処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1〜第5の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、上述した各部(入力受付部、音声認識部、誤り要因検出部、解決手段決定部、応答ユーザ選択部、応答実行部、翻訳部、誤り箇所同定部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から音声処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる音声処理装置、音声処理方法および音声処理プログラムは、言語の異なるユーザ間の会話を支援する音声翻訳装置、音声翻訳方法および音声翻訳プログラムに適している。
第1の実施の形態にかかる音声処理装置の構成を示すブロック図である。 規則テーブルのデータ構造の一例を示す説明図である。 第1の実施の形態における音声処理の全体の流れを示すフローチャートである。 誤り要因検出処理の全体の流れを示すフローチャートである。 発話速度の分布の一例を示す説明図である。 発話速度算出処理の全体の流れを示すフローチャートである。 発話音量算出処理の全体の流れを示すフローチャートである。 雑音検出処理の全体の流れを示すフローチャートである。 第2の実施の形態にかかる音声処理装置の構成を示すブロック図である。 第2の実施の形態における音声処理の全体の流れを示すフローチャートである。 翻訳結果を出力する表示画面の一例を示す説明図である。 応答のメッセージを出力する表示画面の一例を示す説明図である。 第3の実施の形態にかかる音声処理装置の構成を示すブロック図である。 第3の実施の形態における音声処理の全体の流れを示すフローチャートである。 翻訳結果を出力する表示画面の一例を示す説明図である。 誤り箇所指定後の表示画面の一例を示す説明図である。 応答のメッセージが表示された表示画面の一例を示す説明図である。 原言語ユーザが再度発声した後の表示画面の一例を示す説明図である。 目的言語ユーザに対するフィードバックが表示された表示画面の一例を示す説明図である。 第4の実施の形態にかかる音声処理装置の構成を示すブロック図である。 履歴管理テーブルのデータ構造の一例を示す説明図である。 規則テーブルのデータ構造の一例を示す説明図である。 第4の実施の形態における音声処理の全体の流れを示すフローチャートである。 第5の実施の形態における音声処理の全体の流れを示すフローチャートである。 応答の処理状況が表示された表示画面の一例を示す説明図である。 第1〜第5の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 音声処理装置
101 入力受付部
102 音声認識部
103 誤り要因検出部
104 解決手段決定部
105 応答ユーザ選択部
106 応答実行部
110 表示部
121 音声入力部
122 通信部
130 記憶部
131 規則テーブル
900 音声処理装置
906 応答実行部
907 翻訳部
1101 表示画面
1102、1104 表示フィールド
1201 表示画面
1202 表示フィールド
1300 音声処理装置
1303 誤り要因検出部
1308 誤り箇所同定部
1501 表示画面
1502、1503、1504 表示フィールド
1601 表示画面
1602 日本語
1603 表示フィールド
1604 下線
1701 表示画面
1702 表示フィールド
1801 表示画面
1802、1803 表示フィールド
1901 表示画面
1902 表示フィールド
2000 音声処理装置
2004 解決手段決定部
2005 応答ユーザ選択部
2030 記憶部
2031 規則テーブル
2032 履歴管理テーブル
2501 表示画面
2502、2503 表示フィールド

Claims (17)

  1. 音声の入力を受付ける入力受付手段と、
    前記入力受付手段が受付けた前記音声を認識する音声認識手段と、
    前記音声認識手段が前記音声を認識した際に発生した誤り要因を検出する誤り要因検出手段と、
    音声認識の誤り要因と、音声認識で誤りが発生したときの応答方法と、前記入力受付手段が受付けた音声を発話したユーザを表す第1ユーザおよび前記入力受付手段が受付けた音声を発話していないユーザを表す第2ユーザのいずれかを表す応答ユーザとを対応づけた規則を格納する規則記憶手段と、
    前記誤り要因検出手段が検出した前記誤り要因に対応づけられた前記応答方法を前記規則記憶手段から選択する応答方法選択手段と、
    前記誤り要因検出手段が検出した前記誤り要因に対応づけられた前記応答ユーザを前記規則記憶手段から選択する応答ユーザ選択手段と、
    前記応答ユーザ選択手段が選択した前記応答ユーザに対して、前記応答方法選択手段が選択した前記応答方法により前記応答を実行する応答実行手段と、
    を備えたことを特徴とする音声処理装置。
  2. 前記音声認識手段が前記音声を認識した結果のうち、誤りが存在する部分の指定の入力を受付ける誤り箇所受付手段をさらに備え、
    前記誤り要因検出手段は、前記誤り箇所受付手段が受付けた前記部分の指定から、前記音声認識手段が前記音声を認識した際に発生した前記誤り要因を検出することを特徴とする請求項1に記載の音声処理装置。
  3. 検出された前記誤り要因の履歴を格納する履歴記憶手段と、
    前記誤り要因検出手段が前記誤り要因を検出したときに、前記履歴記憶手段から前記履歴を取得する取得手段と、をさらに備え、
    前記規則記憶手段は、前記履歴に関する予め定められた条件と、前記誤り要因と、前記応答方法と、前記応答ユーザとを対応づけた前記規則を格納し、
    前記取得手段は、取得した前記履歴に関する前記条件を取得し、
    前記応答方法選択手段は、前記取得手段が取得した前記条件と前記誤り要因検出手段が検出した前記誤り要因とに対応づけられた前記応答方法を前記規則記憶手段から選択し、
    前記応答ユーザ選択手段は、前記取得手段が取得した前記条件と前記誤り要因検出手段が検出した前記誤り要因とに対応づけられた前記応答ユーザを前記規則記憶手段から選択することを特徴とする請求項1に記載の音声処理装置。
  4. 前記規則記憶手段は、誤りの検出対象となる前記音声の前に入力された前記音声を認識した際に発生した前記誤り要因と、誤りの検出対象となる前記音声を認識した際に発生した前記誤り要因との関係を表す前記条件を対応づけた前記規則を格納することを特徴とする請求項3に記載の音声処理装置。
  5. 前記音声認識手段が認識した第1の言語による前記音声の認識結果を第2の言語に翻訳する翻訳手段をさらに備え、
    前記規則記憶手段は、前記第1の言語による前記音声を入力した前記第1ユーザおよび前記第2の言語による翻訳結果を受け取る前記第2ユーザの少なくとも一方を前記応答ユーザとして対応づけた規則を格納し、
    前記応答実行手段は、前記第1ユーザおよび前記第2ユーザの少なくとも一方に対して前記応答を実行することを特徴とする請求項1に記載の音声処理装置。
  6. 前記応答実行手段は、前記応答ユーザ選択手段が選択した前記応答ユーザに対して前記応答を実行し、前記応答ユーザ選択手段が選択しなかった他のユーザに対して、前記応答に関する情報を提示することを特徴とする請求項1に記載の音声処理装置。
  7. 前記誤り要因検出手段は、前記誤り要因として、少なくとも前記音声の発声速度を検出することを特徴とする請求項1に記載の音声処理装置。
  8. 前記誤り要因検出手段は、前記誤り要因として、少なくとも前記音声の音量を検出することを特徴とする請求項1に記載の音声処理装置。
  9. 前記誤り要因検出手段は、前記誤り要因として、少なくとも前記音声に含まれる雑音を検出することを特徴とする請求項1に記載の音声処理装置。
  10. 前記誤り要因検出手段は、前記雑音として、少なくとも予め定められた第1の時間以上継続して発生する定常雑音を検出することを特徴とする請求項9に記載の音声処理装置。
  11. 前記誤り要因検出手段は、前記雑音として、前記定常雑音と、前記第1の時間より短い時間であって、予め定められた第2の時間内に発生する突発雑音とを検出することを特徴とする請求項10に記載の音声処理装置。
  12. 前記規則記憶手段は、前記音声の全体で発生した前記誤り要因または前記音声の一部で発生した前記誤り要因と、前記応答方法と、前記応答ユーザとを対応づけた規則を格納し、
    前記誤り要因検出手段は、前記音声の全体または前記音声の一部で発生した前記誤り要因を検出することを特徴とする請求項1に記載の音声処理装置。
  13. 前記音声認識手段が認識した前記音声の認識結果を出力する表示手段をさらに備え、
    前記応答実行手段は、前記誤り要因検出手段が前記音声の一部で発声した前記誤り要因を検出した場合に、前記誤り要因が検出された前記音声の一部に対応する前記認識結果の部分に、前記誤り要因が検出されたことを示す情報を関連づけて前記表示手段に出力することを特徴とする請求項12に記載の音声処理装置。
  14. 前記音声を入力する音声入力手段をさらに備え、
    前記入力受付手段は、前記音声入力手段から前記音声の入力を受付けることを特徴とする請求項1に記載の音声処理装置。
  15. 外部装置と情報の送受信を行う通信手段をさらに備え、
    前記入力受付手段は、前記通信手段を介して前記外部装置から送信された前記音声の入力を受付けることを特徴とする請求項1に記載の音声処理装置。
  16. 音声の入力を受付ける入力受付ステップと、
    前記入力受付ステップが受付けた前記音声を認識する音声認識ステップと、
    前記音声認識ステップが前記音声を認識した際に発生した誤り要因を検出する誤り要因検出ステップと、
    音声認識の誤り要因と、音声認識で誤りが発生したときの応答方法と、前記入力受付ステップが受付けた音声を発話したユーザを表す第1ユーザおよび前記入力受付ステップが受付けた音声を発話していないユーザを表す第2ユーザのいずれかを表す応答ユーザとを対応づけた規則を格納する規則記憶手段から、前記誤り要因検出ステップが検出した前記誤り要因に対応づけられた前記応答方法を選択する応答方法選択ステップと、
    前記誤り要因検出ステップが検出した前記誤り要因に対応づけられた前記応答ユーザを前記規則記憶手段から選択する応答ユーザ選択ステップと、
    前記応答ユーザ選択ステップが選択した前記応答ユーザに対して、前記応答方法選択ステップが選択した前記応答方法により前記応答を実行する応答実行ステップと、
    を備えたことを特徴とする音声処理方法。
  17. 音声の入力を受付ける入力受付手順と、
    前記入力受付手順が受付けた前記音声を認識する音声認識手順と、
    前記音声認識手順が前記音声を認識した際に発生した誤り要因を検出する誤り要因検出手順と、
    音声認識の誤り要因と、音声認識で誤りが発生したときの応答方法と、前記入力受付手順が受付けた音声を発話したユーザを表す第1ユーザおよび前記入力受付手順が受付けた音声を発話していないユーザを表す第2ユーザのいずれかを表す応答ユーザとを対応づけた規則を格納する規則記憶手段から、前記誤り要因検出手順が検出した前記誤り要因に対応づけられた前記応答方法を選択する応答方法選択手順と、
    前記誤り要因検出手順が検出した前記誤り要因に対応づけられた前記応答ユーザを前記規則記憶手段から選択する応答ユーザ選択手順と、
    前記応答ユーザ選択手順が選択した前記応答ユーザに対して、前記応答方法選択手順が選択した前記応答方法により前記応答を実行する応答実行手順と、
    をコンピュータに実行させる音声処理プログラム。
JP2006086513A 2006-03-27 2006-03-27 音声処理装置、音声処理方法および音声処理プログラム Expired - Fee Related JP4786384B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006086513A JP4786384B2 (ja) 2006-03-27 2006-03-27 音声処理装置、音声処理方法および音声処理プログラム
CNA2007101016257A CN101046960A (zh) 2006-03-27 2007-03-09 处理语音中的话音的装置和方法
US11/685,907 US7949523B2 (en) 2006-03-27 2007-03-14 Apparatus, method, and computer program product for processing voice in speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006086513A JP4786384B2 (ja) 2006-03-27 2006-03-27 音声処理装置、音声処理方法および音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2007264126A JP2007264126A (ja) 2007-10-11
JP4786384B2 true JP4786384B2 (ja) 2011-10-05

Family

ID=38534637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006086513A Expired - Fee Related JP4786384B2 (ja) 2006-03-27 2006-03-27 音声処理装置、音声処理方法および音声処理プログラム

Country Status (3)

Country Link
US (1) US7949523B2 (ja)
JP (1) JP4786384B2 (ja)
CN (1) CN101046960A (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100383A1 (en) * 2008-10-17 2010-04-22 Aibelive Co., Ltd. System and method for searching webpage with voice control
JP5163519B2 (ja) * 2009-01-29 2013-03-13 富士通株式会社 インタビュー支援方法、装置及びプログラム
US20100198583A1 (en) * 2009-02-04 2010-08-05 Aibelive Co., Ltd. Indicating method for speech recognition system
WO2010098209A1 (ja) * 2009-02-26 2010-09-02 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
US8185373B1 (en) * 2009-05-05 2012-05-22 The United States Of America As Represented By The Director, National Security Agency, The Method of assessing language translation and interpretation
KR20110010939A (ko) * 2009-07-27 2011-02-08 삼성전자주식회사 휴대용 단말기에서 음성 인식 성능을 향상시키기 위한 장치 및 방법
CN102376303B (zh) * 2010-08-13 2014-03-12 国基电子(上海)有限公司 录音设备及利用该录音设备进行声音处理与录入的方法
JP5017441B2 (ja) * 2010-10-28 2012-09-05 株式会社東芝 携帯型電子機器
JP5653392B2 (ja) * 2012-06-29 2015-01-14 株式会社東芝 音声翻訳装置、方法およびプログラム
CN103685196B (zh) * 2012-09-19 2017-04-26 上海港联电信股份有限公司 基于云计算的精准数据分析通话系统及其方法
KR102070196B1 (ko) 2012-09-20 2020-01-30 삼성전자 주식회사 사용자 디바이스에서 상황 인식 서비스 제공 방법 및 장치
US10042603B2 (en) * 2012-09-20 2018-08-07 Samsung Electronics Co., Ltd. Context aware service provision method and apparatus of user device
CN103744842A (zh) * 2013-12-23 2014-04-23 武汉传神信息技术有限公司 一种翻译错误的数据分析方法
CN103744843B (zh) * 2013-12-25 2017-01-04 北京百度网讯科技有限公司 一种在线语音翻译方法及装置
JP5802784B2 (ja) * 2014-03-24 2015-11-04 株式会社東芝 音声処理装置および音声処理方法
US9870772B2 (en) * 2014-05-02 2018-01-16 Sony Interactive Entertainment Inc. Guiding device, guiding method, program, and information storage medium
JP6394103B2 (ja) * 2014-06-20 2018-09-26 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP6464703B2 (ja) * 2014-12-01 2019-02-06 ヤマハ株式会社 会話評価装置およびプログラム
EP3239975A4 (en) * 2014-12-26 2018-08-08 Sony Corporation Information processing device, information processing method, and program
US10796805B2 (en) 2015-10-08 2020-10-06 Cordio Medical Ltd. Assessment of a pulmonary condition by speech analysis
WO2017104272A1 (ja) * 2015-12-18 2017-06-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2017168936A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2017171864A1 (en) * 2016-04-01 2017-10-05 Intel Corporation Acoustic environment understanding in machine-human speech communication
US10339224B2 (en) * 2016-07-13 2019-07-02 Fujitsu Social Science Laboratory Limited Speech recognition and translation terminal, method and non-transitory computer readable medium
JP7014163B2 (ja) * 2016-07-19 2022-02-01 ソニーグループ株式会社 情報処理装置、および情報処理方法
CN106231197A (zh) * 2016-08-16 2016-12-14 北京金山安全软件有限公司 一种视频拍摄控制方法、装置及电子设备
CN106231196A (zh) * 2016-08-16 2016-12-14 北京金山安全软件有限公司 一种视频拍摄控制方法、装置及电子设备
JP6569926B2 (ja) * 2016-08-17 2019-09-04 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
CN106210545A (zh) * 2016-08-22 2016-12-07 北京金山安全软件有限公司 一种视频拍摄方法、装置及电子设备
GB2564478A (en) * 2017-07-14 2019-01-16 Univ Sheffield Speech processing systems
CN107464564B (zh) * 2017-08-21 2023-05-26 腾讯科技(深圳)有限公司 语音交互方法、装置及设备
KR102485342B1 (ko) * 2017-12-11 2023-01-05 현대자동차주식회사 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법
KR20190113130A (ko) * 2018-03-27 2019-10-08 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
US20210201929A1 (en) * 2018-05-31 2021-07-01 Sony Corporation Information processing apparatus, information processing method, and program
US10891950B2 (en) * 2018-09-27 2021-01-12 International Business Machines Corporation Graph based prediction for next action in conversation flow
US10847177B2 (en) 2018-10-11 2020-11-24 Cordio Medical Ltd. Estimating lung volume by speech analysis
US11024327B2 (en) 2019-03-12 2021-06-01 Cordio Medical Ltd. Diagnostic techniques based on speech models
US11011188B2 (en) 2019-03-12 2021-05-18 Cordio Medical Ltd. Diagnostic techniques based on speech-sample alignment
JP7312639B2 (ja) * 2019-07-29 2023-07-21 株式会社第一興商 カラオケ用入力装置
CN110364155A (zh) * 2019-07-30 2019-10-22 广东美的制冷设备有限公司 语音控制报错方法、电器及计算机可读存储介质
US11484211B2 (en) 2020-03-03 2022-11-01 Cordio Medical Ltd. Diagnosis of medical conditions using voice recordings and auscultation
US11417342B2 (en) 2020-06-29 2022-08-16 Cordio Medical Ltd. Synthesizing patient-specific speech models
CN112257165B (zh) * 2020-10-30 2023-10-31 深圳供电局有限公司 一种变电工程可研与人工智能辅助审查方法
CN113223538B (zh) * 2021-04-01 2022-05-03 北京百度网讯科技有限公司 语音唤醒方法、装置、系统、设备和存储介质
US11810558B2 (en) * 2021-05-26 2023-11-07 International Business Machines Corporation Explaining anomalous phonetic translations

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5623609A (en) * 1993-06-14 1997-04-22 Hal Trust, L.L.C. Computer system and computer-implemented process for phonology-based automatic speech recognition
FR2723457B1 (fr) * 1994-08-08 1997-01-31 Oce Graphics France Procede de reconnaissance automatique d'un langage dans lequel des donnees numeriques sont recues
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
US7346492B2 (en) * 2001-01-24 2008-03-18 Shaw Stroz Llc System and method for computerized psychological content analysis of computer and media generated communications to produce communications management support, indications, and warnings of dangerous behavior, assessment of media images, and personnel selection support
JP4042360B2 (ja) * 2001-07-18 2008-02-06 日本電気株式会社 自動通訳システム及びその方法並びにプログラム
US20030033266A1 (en) * 2001-08-10 2003-02-13 Schott Wade F. Apparatus and method for problem solving using intelligent agents
US7567676B2 (en) * 2002-05-03 2009-07-28 Harman International Industries, Incorporated Sound event detection and localization system using power analysis
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム
JP3926242B2 (ja) * 2002-09-19 2007-06-06 富士通株式会社 音声対話システム、音声対話のためのプログラムおよび音声対話方法
JP4074543B2 (ja) * 2003-04-23 2008-04-09 シャープ株式会社 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US20060122837A1 (en) * 2004-12-08 2006-06-08 Electronics And Telecommunications Research Institute Voice interface system and speech recognition method
JP4405418B2 (ja) 2005-03-30 2010-01-27 株式会社東芝 情報処理装置及びその方法

Also Published As

Publication number Publication date
JP2007264126A (ja) 2007-10-11
US20070225975A1 (en) 2007-09-27
US7949523B2 (en) 2011-05-24
CN101046960A (zh) 2007-10-03

Similar Documents

Publication Publication Date Title
JP4786384B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US10176809B1 (en) Customized compression and decompression of audio data
US10163436B1 (en) Training a speech processing system using spoken utterances
EP2645364B1 (en) Spoken dialog system using prominence
US20170371863A1 (en) Intention inference system and intention inference method
JPH09500223A (ja) 多言語音声認識システム
JPH096389A (ja) 音声認識対話処理方法および音声認識対話装置
JP2008077601A (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
CN111243599B (zh) 语音识别模型构建方法、装置、介质及电子设备
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
US10143027B1 (en) Device selection for routing of communications
US20170337922A1 (en) System and methods for modifying user pronunciation to achieve better recognition results
KR20210036169A (ko) 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
US20170270923A1 (en) Voice processing device and voice processing method
US20040006469A1 (en) Apparatus and method for updating lexicon
JP6723907B2 (ja) 言語認識システム、言語認識方法、及び言語認識プログラム
JP6397641B2 (ja) 自動通訳装置及び方法
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110621

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110713

R151 Written notification of patent or utility model registration

Ref document number: 4786384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140722

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees