JP2019002997A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2019002997A
JP2019002997A JP2017116771A JP2017116771A JP2019002997A JP 2019002997 A JP2019002997 A JP 2019002997A JP 2017116771 A JP2017116771 A JP 2017116771A JP 2017116771 A JP2017116771 A JP 2017116771A JP 2019002997 A JP2019002997 A JP 2019002997A
Authority
JP
Japan
Prior art keywords
speech
recognition
unit
voice
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017116771A
Other languages
English (en)
Inventor
池野 篤司
Tokuji Ikeno
篤司 池野
西島 敏文
Toshifumi Nishijima
敏文 西島
史憲 片岡
Fuminori Kataoka
史憲 片岡
刀根川 浩巳
Hiromi Tonegawa
浩巳 刀根川
倫秀 梅山
Norihide Umeyama
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017116771A priority Critical patent/JP2019002997A/ja
Publication of JP2019002997A publication Critical patent/JP2019002997A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)

Abstract

【課題】ユーザがどのように話すかの明示的な指示なしに音声認識精度を高める。【解決手段】音声認識装置は、音声を取得する音声取得部と、入力された音声を連続音声として認識する第1音声認識部と、入力された音声を単音の連続として認識する第2音声認識部と、前記音声取得部が取得した音声の音声認識に前記第1音声認識部と前記第2音声認識部のいずれを用いるかを決定する制御部と、を備え、前記制御部は、前記第1音声認識部が用いられているときに音声認識に失敗した場合に、次回の音声認識に前記第2音声認識部を用いるように決定する。【選択図】図3

Description

本発明は、音声認識装置および音声認識方法に関する。
音声認識装置では、ユーザの発話音声とあらかじめ登録された音声パターンとを比較することで音声認識を行っている。特許文献1では、通常の発話速度に対応した認識と、一音ずつ区切って発話(訂正発話とも称される)に対応した認識とを切り替えて行うことで、誤認識後の訂正発話をより確実に認識することを提案する。
特許文献1では、具体的には、ユーザが訂正スイッチを押した場合に、音響モデル・ポーズ時間・入力ゲインなど音響条件を変更することで、訂正発話に適した音声認識を行うことを提案する。
特開2006−337963号公報
しかしながら、特許文献1の手法では、ユーザが明示的に訂正スイッチを押して、音声認識の音響条件を変更する必要がある。これはユーザにとって煩わしい操作である。また、音声認識装置(音声対話装置)に訂正スイッチを設ける必要があり、訂正スイッチを設けられない場合には実現ができない。
本発明の目的は、ユーザがどのように話すかを音声認識装置に明示的に示すことなく、音声認識精度を高めることにある。
本発明の一態様に係る音声対話システムは、
音声を取得する音声取得部と、
入力された音声を連続音声として認識する第1音声認識部と、
入力された音声を単音の連続として認識する第2音声認識部と、
前記音声取得部が取得した音声の音声認識に前記第1音声認識部と前記第2音声認識部のいずれを用いるかを決定する制御部と、
を備え、
前記制御部は、前記第1音声認識部が用いられているときに音声認識に失敗した場合に、次回の音声認識に前記第2音声認識部を用いるように決定する、
音声認識装置である。
第1音声認識部は、入力された音声を連続音声として認識する音声認識部であり、ユーザが通常の発話速度でスムースに話したときに認識精度が高いように構成される。一方、第2音声認識部は、入力された音声を単音の連続として認識する音声認識部であり、ユーザが一音ずつ区切って話した場合に確実に認識できるように構成される。
ここで、制御部は、第1音声認識部による音声認識に失敗した場合には、次の認識を第2音声認識部を用いて行うように決定する。ユーザは、通常の速度で話して音声認識に失敗した場合には、一音ずつ区切ってゆっくりと発話するのが一般的である。したがって、
上述のような制御を行うことで、ユーザによる明示的な指示なしに、言い直しの発話を精度良く認識できるようになる。
なお、本態様における制御部は、必ずしも第1音声認識部による音声認識に1回失敗したときに直ちに第2音声認識部に切り替えなくてもよい。その代わりに、第1音声認識部を用いた音声認識に連続して所定回数失敗した場合に、第2音声認識部に切り替えるようにしてもよい。ユーザによっては、最初の言い直しの際にはゆっくりと発話せずに通常通り発話することも想定されるためである。上述の所定回数は、ユーザごとに異なる値としてもよく、全てのユーザについて同じ値としてもよい。
本態様における制御部は、第1音声認識部が用いられているときには、音声認識に成功した場合には次回の音声認識に前記第1音声認識部を用い、音声認識に失敗した場合には次回の音声認識に第2音声認識部を用いるように決定してもよい。また、本態様における制御部は、第2音声認識部が用いられているときには、音声認識に成功した場合には次回の音声認識に第1音声認識部を用い、音声認識に失敗した場合には次回の音声認識に前記第2音声認識部を用いるように決定してもよい。
第1音声認識部および第2音声認識部による音声認識が成功したか失敗したかの判断は、音声認識結果の確信度が閾値以上であるか否かによって行うことができる。確信度は、音声認識の結果として得られる語彙が実際に発話された語彙と一致している確率を表す。なお、音声認識の正否判断は、確信度に基づく以外に基づいて行ってもよい。例えば、音声認識結果が会話状況や周辺状況に応じた適切なものであるか否か、あるいは、認識語彙の長さが音声データの長さに応じて適切なものであるか否かといった観点に基づいて、音声認識の正否判断を行ってもよい。
また、本態様における制御部は、音声取得部が所定時間のあいだ音声を取得しない場合には、次回の音声認識に第1音声認識部を用いるように決定してもよい。発話の間隔が空いた場合には、次の発話は言い直しではなく新たな発話を通常の速度で行うことが想定されるためである。
本態様における音声認識装置は、音声取得部と第2音声認識部と制御部とを備える第1装置と、記第1装置と通信可能に接続され第1音声認識部を備える第2装置と、から構成されてもよい。典型的には、第2装置は第1装置よりも豊富な計算資源を有する装置(コンピュータ)である。
なお、本発明は、上記手段の少なくとも一部を備える音声認識装置、あるいは当該音声認識装置を含む音声対話システムとして捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声認識方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、ユーザがどのように話すかを明示的に取得することなく、音声認識精度を高めることができる。
図1は、実施形態に係る音声対話システムのシステム構成を示す図である。 図2は、実施形態に係る音声対話処理の流れを示すフローチャートである。 図3は、実施形態に係る認識モード変更処理の流れを示すフローチャートである。 図4は、変形例に係る認識モード変更処理の流れを示すフローチャートである。 図5は、音声対話システムの実装例を示す図である。
以下では、音声認識処理を行ってユーザと音声対話を行う音声対話システムについて説明する。なお、音声認識処理は音声対話システム以外にも、音声入力システムなどのその他のシステムにも適用可能である。
<構成概要>
図1は本実施形態に係る音声対話システム100のシステム構成を示す図である。音声対話システム100は、マイク(音声入力部)1、音声認識装置2、対話文生成装置3、スピーカー(音声出力部)4を含んで構成される。音声認識装置2および対話文生成装置3は、マイクロプロセッサなどの演算処理部とメモリとを有するコンピュータが、プログラムを実行することによって実現される。
マイク1は、ユーザが発する発話音声を取得する。マイク1は、1台のマイクであってもよいし、マイクロフォンアレイであってもよい。マイク1が取得した音声は、音声認識装置2に出力される。
音声認識装置2は、マイク1から取得される音声に対して音声認識処理を施し、入力音声のテキストを特定する機能部である。音声認識装置2は、音声認識切替部21、大語彙認識部22、単音認識部23、認識結果判定部24、出力部25を備える。
音声認識切替部21は、入力された音声を、大語彙認識部22と単音認識部23のいずれを用いて認識するかを決定する機能部である。音声認識切替部21は、現在使われている音声認識部と、その音声認識の成功・失敗とに基づいて、次の音声認識に用いる音声認識部を決定する。具体的な決定方法は後述する。音声認識切替部21は、本発明における制御部に相当する。なお、以下では、大語彙認識部22を用いて認識を行うモードを「大語彙認識モード」、単音認識部23を用いて認識を行うモードを「単音認識モード」とも称する。
大語彙認識部22は、入力された音声を大語彙連続音声認識する音声認識モジュールである。大語彙認識部22は、ユーザが通常の速度で行う発話を精度良く認識できるように構成された音響モデル・単語辞書・言語モデルを利用して認識を行う。大語彙認識部22は、認識結果のテキストとその確信度とを出力する。大語彙認識部22は、人同士が会話するようにスムースに話したときの認識精度が高い一方、一音ずつ発話されたときには誤認識が多くなる。大語彙認識部22は、本発明における第1音声認識部に相当する。
単音認識部23は、入力された音声を単音の連続して認識する音声認識モジュールである。単音認識部23は、ユーザが一語ずつ区切って行う発話を精度良く認識できるように構成された音響モデル・単語辞書・言語モデルを利用して認識を行う。単音認識部23は、認識結果のテキストとその確信度とを出力する。単音認識部23は、人同士が会話するようにスムースに話したと場合には誤認識が多くなるが、一音ずつ発話された場合には確実に認識できる。単音認識部23は、本発明における第2音声認識部に相当する。
認識結果判定部24は、大語彙認識部22あるいは単音認識部23から認識結果(テキスト)とその確信度を受け取り、確信度が所定の閾値以上であれば認識成功と判断し、確
信度が閾値未満であれば認識失敗と判断する。なお、音声認識の成否判断は、確信度のみに基づいて行う必要はなく、認識結果が会話状況や周辺の環境状況にあった適切なものであるか否かに基づいて行ってもよいし、認識語彙の長さが音声データの長さにあった適切なものであるかに基づいて行ってもよいし、これら複数の観点に基づいて行ってもよい。認識結果判定部24は、認識結果と確信度を出力部25に送る。また、認識結果判定部24は、認識結果と確信度を音声認識切替部21にも送る。
なお、確信度は、音声認識の結果として得られる語彙が実際に発話された語彙と一致している確率を表す。一致の度合いは、あらかじめ登録されている単語やフレーズあるいは単音の音声特徴量(波形や周期等)と、ユーザが発話した音声の音声特徴量の類似度に基づいて算出される。確信度は、複数の音声特徴量それぞれの類似度を統合して得てもよい。複数の音声特徴量の類似度を統合する際の重み付けは適宜決定してよい。
出力部25は、認識結果判定部24から受け取った認識結果と確信度を対話文生成装置3に送る。
対話文生成装置3は、音声認識装置2から出力される音声認識結果と確信度に基づいて、ユーザからの入力に対して応答を行う対話文を生成する。
スピーカー4は、対話文生成装置3が生成した対話文をユーザに向けて出力する。
<処理>
図2は、本実施形態における音声対話処理の流れを示すフローチャートである。ステップS10において、マイク1がユーザの発話を取得して、音声認識装置2に送る。ステップS20において、音声認識装置2は、現在の認識モードにしたがって、大語彙認識部22あるいは単音認識部23のいずれかを用いて音声認識処理を実行し、その結果(テキストおよび確信度)を認識結果判定部24に送る。ステップS30では、音声認識切替部21が、音声認識の結果に基づいて、認識モードの変更を行う。ステップS40では、対話文生成装置3が認識結果に基づいて対話文を生成して、ステップS50において、対話文をスピーカー4から音声として出力する。
図3は、ステップS30の認識モード変更処理の詳細を示すフローチャートである。ステップS301において、音声認識切替部21は、認識結果が大語彙認識部22と単音認識部23のいずれからのものであるかを判断する。この判断は、現在の認識モードが、大語彙認識モードであるか単音認識モードであるかの判断であるとも表現できる。
認識結果が大語彙認識部22からのものである場合(S301−YES)には、ステップS302に進む。ステップS302において、音声認識切替部21は、大語彙認識部22による音声認識が成功したか失敗したかを判断する。音声認識に失敗した場合には、ステップS303に進み、音声認識切替部21は次回の認識に単音認識部23を用いるように認識モードを変更する。一方、音声認識に成功した場合には、認識モードを変更せずに処理を終了し、次回の認識にも大語彙認識部22が用いられる。
認識結果が単音認識部23からのものである場合(S301−NO)には、ステップS304に進む。ステップS304において、音声認識切替部21は、単音認識部23による音声認識が成功したか失敗したかを判断する。音声認識に成功した場合には、ステップS305に進み、音声認識切替部21は次回の認識に大語彙認識部22を用いるように認識モードを変更する。一方、音声認識に失敗した場合には、認識モードを変更せずに処理を終了し、次回の認識にも単音認識部23が用いられる。
なお図3のフローチャートには示していないが、音声認識に失敗した後に所定時間以上ユーザからの入力がない場合には、音声認識切替部21は、次回の認識に大語彙認識部22を用いるように決定する。
<本実施形態による有利な効果>
本実施形態によれば、大語彙認識部を用いた認識に失敗した場合には、次回の認識は自動的に単音認識部を用いて行われる。一般に、音声認識に失敗した後の言い直しの発話においては、ユーザはよりゆっくりと発話する傾向にある。したがって、ユーザがどのように発話を行うかを明示的にシステムに通知することなく、システム側で自動的にユーザの発話方法に適応することができる。これにより、ユーザに負担をかけることなく音声認識精度を向上することが可能となり、したがって、ユーザの満足度が向上する。
<認識モード変更処理の変形例>
図4は、ステップS30の認識モード変更処理の変形例を示すフローチャートである。本変形例における処理は上記の実施形態と同様であるが、ステップS312の処理が異なっている。音声認識切替部21は、大語彙認識部22を用いた認識に連続して所定回数(N回)失敗した場合に、次回の認識で単音認識部23を用いるように変更する。
ここで、所定回数Nは全てのユーザについて同じ値であってもよく、ユーザごとに異なる値としてもよい。例えば、ユーザごとの過去の音声認識の実績に基づいて、所定回数Nを決定してもよい。具体的には、単音認識モードに変更した後も認識に失敗する場合には、ユーザは通常の速度で発話を行っていると想定されるので、Nの値を大きくすることが望ましい。逆に、大語彙認識部22による認識にN回続けて失敗した後に単音認識部23による認識に1回で成功した場合には、N回目の発話ではユーザがすでに一音ずつ区切って発話を行っていると想定されるので、Nの値を小さくすることが望ましい。なお、値Nの変更は、履歴がある程度蓄積された後に行う方が、システムの安定性の観点から望ましい。
<実装例>
上述した機能部は、その全てが1台の装置(コンピュータ)によって実行される必要はなく、通信によって接続された複数の装置が連携して上記機能を提供してもよい。
図5は、実装の一例を示す図である。本実装例に係る音声対話システム200は、ロボット210、スマートフォン220、音声認識サーバ230、対話サーバ240から構成される。ロボット210とスマートフォン220は、Bluetooth(登録商標)により接続され、スマートフォン220と音声認識サーバ230および対話サーバ240はWiFiやLTEなどにより接続される。ロボット210は、マイク1とスピーカー4を備え、ユーザとのインタフェースとして機能する。スマートフォン220は、音声認識切替部21、単音認識部23、認識結果判定部24、出力部25を備える。音声認識サーバ230は、大語彙認識部22を備える。対話サーバ240は対話文生成装置3を備える。
このような構成によれば、ロボット210に高度な機能を持たせることなく、ユーザはロボットとの音声対話を実現できる。
なお、単音認識部23をスマートフォン220に持たせるのは、単音認識処理が比較的簡単なためスマートフォンでもリアルタイムに実行できるためである。一方、大語彙認識部22を音声認識サーバ230に持たせるのは、大語彙認識処理は比較的処理が複雑なため、高度な演算資源を有するサーバで行う方が、通信遅延を考慮しても高速なためである。
<その他>
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。
上記の説明では、音声認識を音声対話に用いる例を説明したが、音声認識処理の用途はこれに限られない。例えば、音声によって操作を行う音声入力インタフェースに、上述の音声認識処理を適用することも好ましい。
1:マイク(音声入力部)
2:音声認識装置
3:対話文生成装置
4:スピーカー(音声出力部)
21:音声認識切替部
22:大語彙認識部
23:単音認識部
24:認識結果判定部
25:出力部

Claims (9)

  1. 音声を取得する音声取得部と、
    入力された音声を連続音声として認識する第1音声認識部と、
    入力された音声を単音の連続として認識する第2音声認識部と、
    前記音声取得部が取得した音声の音声認識に前記第1音声認識部と前記第2音声認識部のいずれを用いるかを決定する制御部と、
    を備え、
    前記制御部は、前記第1音声認識部が用いられているときに音声認識に失敗した場合に、次回の音声認識に前記第2音声認識部を用いるように決定する、
    音声認識装置。
  2. 前記制御部は、
    前記第1音声認識部が用いられているときに、音声認識に成功した場合には次回の音声認識に前記第1音声認識部を用い、音声認識に失敗した場合には次回の音声認識に前記第2音声認識部を用いるように決定し、
    前記第2音声認識部が用いられているときに、音声認識に成功した場合には次回の音声認識に前記第1音声認識部を用い、音声認識に失敗した場合には次回の音声認識に前記第2音声認識部を用いるように決定する、
    請求項1に記載の音声認識装置。
  3. 音声を取得する音声取得部と、
    入力された音声を連続音声として認識する第1音声認識部と、
    入力された音声を単音の連続として認識する第2音声認識部と、
    前記音声取得部が取得した音声の音声認識に前記第1音声認識部と前記第2音声認識部のいずれを用いるかを決定する制御部と、
    を備え、
    前記制御部は、前記第1音声認識部が用いられているときに音声認識に連続して所定回数失敗した場合に、次回の音声認識に前記第2音声認識部を用いるように決定する、
    音声認識装置。
  4. 前記制御部は、音声認識結果の確信度が閾値以上であれば音声認識に成功したと判断し、そうでない場合に音声認識に失敗したと判断する、
    請求項1から3のいずれか1項に記載の音声認識装置。
  5. 前記制御部は、前記音声取得部が所定時間のあいだ音声を取得しない場合には、次回の音声認識に第1音声認識部を用いるように決定する、
    請求項1から4のいずれか1項に記載の音声認識装置。
  6. 前記音声認識装置は、
    前記音声取得部と前記第2音声認識部と前記制御部とを備える第1装置と、
    前記第1装置と通信可能に接続され、前記第1音声認識部を備える第2装置と、
    から構成される、請求項1から5のいずれか1項に記載の音声認識装置。
  7. 入力された音声を連続音声として認識する第1音声認識部と、入力された音声を単音の連続として認識する第2音声認識部と、を備える音声認識装置の制御方法であって、
    音声を取得する音声取得ステップと、
    前記第1音声認識部と前記第2音声認識部のいずれかを用いて音声認識を行う音声認識ステップと、
    前記第1音声認識部が用いられているときに音声認識に失敗した場合に、次回の音声認
    識に前記第2音声認識部を用いるように決定する音声認識切替ステップと、
    を含む、音声認識装置の制御方法。
  8. 入力された音声を連続音声として認識する第1音声認識部と、入力された音声を単音の連続として認識する第2音声認識部と、を備える音声認識装置の制御方法であって、
    音声を取得する音声取得ステップと、
    前記第1音声認識部と前記第2音声認識部のいずれかを用いて音声認識を行う音声認識ステップと、
    前記第1音声認識部が用いられているときに音声認識に連続して所定回数失敗した場合に、次回の音声認識に前記第2音声認識部を用いるように決定する音声認識切替ステップと、
    を含む、音声認識装置の制御方法。
  9. 請求項7または8に記載の方法の各ステップをコンピュータに実行させるコンピュータプログラム。
JP2017116771A 2017-06-14 2017-06-14 音声認識装置および音声認識方法 Pending JP2019002997A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017116771A JP2019002997A (ja) 2017-06-14 2017-06-14 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017116771A JP2019002997A (ja) 2017-06-14 2017-06-14 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2019002997A true JP2019002997A (ja) 2019-01-10

Family

ID=65004950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017116771A Pending JP2019002997A (ja) 2017-06-14 2017-06-14 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2019002997A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450790A (zh) * 2020-03-24 2021-09-28 夏普株式会社 电子设备的控制装置、记录介质、控制方法、电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450790A (zh) * 2020-03-24 2021-09-28 夏普株式会社 电子设备的控制装置、记录介质、控制方法、电子设备
JP2021152589A (ja) * 2020-03-24 2021-09-30 シャープ株式会社 電子機器の制御装置、制御プログラム、制御方法、電子機器

Similar Documents

Publication Publication Date Title
EP3413305B1 (en) Dual mode speech recognition
US9354687B2 (en) Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US9159319B1 (en) Keyword spotting with competitor models
US9286897B2 (en) Speech recognizer with multi-directional decoding
US9015048B2 (en) Incremental speech recognition for dialog systems
JP5753869B2 (ja) 音声認識端末およびコンピュータ端末を用いる音声認識方法
US9293134B1 (en) Source-specific speech interactions
US8428944B2 (en) System and method for performing compensated speech recognition
CN111341325A (zh) 声纹识别方法、装置、存储介质、电子装置
US9953637B1 (en) Speech processing using skip lists
US9613624B1 (en) Dynamic pruning in speech recognition
US9224404B2 (en) Dynamic audio processing parameters with automatic speech recognition
CN112995419B (zh) 一种语音对话的处理方法和系统
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
US20150310853A1 (en) Systems and methods for speech artifact compensation in speech recognition systems
KR20120009787A (ko) 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법
CN114385800A (zh) 语音对话方法和装置
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
JP2019002997A (ja) 音声認識装置および音声認識方法
JP2018124484A (ja) 音声認識装置
WO2023148772A1 (en) A system and method to reduce ambiguity in natural language understanding by user expectation handling
KR20100030483A (ko) 다중 스레드를 이용한 음성 인식 장치 및 그 방법
JP2015215503A (ja) 音声認識方法、音声認識装置および音声認識プログラム
KR102153220B1 (ko) 동일성 판단에 기초한 음성 인식 결과 출력 방법 및 이를 이용한 장치