JP2019002997A

JP2019002997A - 音声認識装置および音声認識方法

Info

Publication number: JP2019002997A
Application number: JP2017116771A
Authority: JP
Inventors: 池野　篤司; Tokuji Ikeno; 篤司池野; 西島　敏文; Toshifumi Nishijima; 敏文西島; 史憲片岡; Fuminori Kataoka; 刀根川　浩巳; Hiromi Tonegawa; 浩巳刀根川; 倫秀梅山; Norihide Umeyama
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2019-01-10

Abstract

【課題】ユーザがどのように話すかの明示的な指示なしに音声認識精度を高める。【解決手段】音声認識装置は、音声を取得する音声取得部と、入力された音声を連続音声として認識する第１音声認識部と、入力された音声を単音の連続として認識する第２音声認識部と、前記音声取得部が取得した音声の音声認識に前記第１音声認識部と前記第２音声認識部のいずれを用いるかを決定する制御部と、を備え、前記制御部は、前記第１音声認識部が用いられているときに音声認識に失敗した場合に、次回の音声認識に前記第２音声認識部を用いるように決定する。【選択図】図３

Description

本発明は、音声認識装置および音声認識方法に関する。

音声認識装置では、ユーザの発話音声とあらかじめ登録された音声パターンとを比較することで音声認識を行っている。特許文献１では、通常の発話速度に対応した認識と、一音ずつ区切って発話（訂正発話とも称される）に対応した認識とを切り替えて行うことで、誤認識後の訂正発話をより確実に認識することを提案する。

特許文献１では、具体的には、ユーザが訂正スイッチを押した場合に、音響モデル・ポーズ時間・入力ゲインなど音響条件を変更することで、訂正発話に適した音声認識を行うことを提案する。

特開２００６−３３７９６３号公報

しかしながら、特許文献１の手法では、ユーザが明示的に訂正スイッチを押して、音声認識の音響条件を変更する必要がある。これはユーザにとって煩わしい操作である。また、音声認識装置（音声対話装置）に訂正スイッチを設ける必要があり、訂正スイッチを設けられない場合には実現ができない。

本発明の目的は、ユーザがどのように話すかを音声認識装置に明示的に示すことなく、音声認識精度を高めることにある。

本発明の一態様に係る音声対話システムは、
音声を取得する音声取得部と、
入力された音声を連続音声として認識する第１音声認識部と、
入力された音声を単音の連続として認識する第２音声認識部と、
前記音声取得部が取得した音声の音声認識に前記第１音声認識部と前記第２音声認識部のいずれを用いるかを決定する制御部と、
を備え、
前記制御部は、前記第１音声認識部が用いられているときに音声認識に失敗した場合に、次回の音声認識に前記第２音声認識部を用いるように決定する、
音声認識装置である。

第１音声認識部は、入力された音声を連続音声として認識する音声認識部であり、ユーザが通常の発話速度でスムースに話したときに認識精度が高いように構成される。一方、第２音声認識部は、入力された音声を単音の連続として認識する音声認識部であり、ユーザが一音ずつ区切って話した場合に確実に認識できるように構成される。

ここで、制御部は、第１音声認識部による音声認識に失敗した場合には、次の認識を第２音声認識部を用いて行うように決定する。ユーザは、通常の速度で話して音声認識に失敗した場合には、一音ずつ区切ってゆっくりと発話するのが一般的である。したがって、
上述のような制御を行うことで、ユーザによる明示的な指示なしに、言い直しの発話を精度良く認識できるようになる。

なお、本態様における制御部は、必ずしも第１音声認識部による音声認識に１回失敗したときに直ちに第２音声認識部に切り替えなくてもよい。その代わりに、第１音声認識部を用いた音声認識に連続して所定回数失敗した場合に、第２音声認識部に切り替えるようにしてもよい。ユーザによっては、最初の言い直しの際にはゆっくりと発話せずに通常通り発話することも想定されるためである。上述の所定回数は、ユーザごとに異なる値としてもよく、全てのユーザについて同じ値としてもよい。

本態様における制御部は、第１音声認識部が用いられているときには、音声認識に成功した場合には次回の音声認識に前記第１音声認識部を用い、音声認識に失敗した場合には次回の音声認識に第２音声認識部を用いるように決定してもよい。また、本態様における制御部は、第２音声認識部が用いられているときには、音声認識に成功した場合には次回の音声認識に第１音声認識部を用い、音声認識に失敗した場合には次回の音声認識に前記第２音声認識部を用いるように決定してもよい。

第１音声認識部および第２音声認識部による音声認識が成功したか失敗したかの判断は、音声認識結果の確信度が閾値以上であるか否かによって行うことができる。確信度は、音声認識の結果として得られる語彙が実際に発話された語彙と一致している確率を表す。なお、音声認識の正否判断は、確信度に基づく以外に基づいて行ってもよい。例えば、音声認識結果が会話状況や周辺状況に応じた適切なものであるか否か、あるいは、認識語彙の長さが音声データの長さに応じて適切なものであるか否かといった観点に基づいて、音声認識の正否判断を行ってもよい。

また、本態様における制御部は、音声取得部が所定時間のあいだ音声を取得しない場合には、次回の音声認識に第１音声認識部を用いるように決定してもよい。発話の間隔が空いた場合には、次の発話は言い直しではなく新たな発話を通常の速度で行うことが想定されるためである。

本態様における音声認識装置は、音声取得部と第２音声認識部と制御部とを備える第１装置と、記第１装置と通信可能に接続され第１音声認識部を備える第２装置と、から構成されてもよい。典型的には、第２装置は第１装置よりも豊富な計算資源を有する装置（コンピュータ）である。

なお、本発明は、上記手段の少なくとも一部を備える音声認識装置、あるいは当該音声認識装置を含む音声対話システムとして捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声認識方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、ユーザがどのように話すかを明示的に取得することなく、音声認識精度を高めることができる。

図１は、実施形態に係る音声対話システムのシステム構成を示す図である。図２は、実施形態に係る音声対話処理の流れを示すフローチャートである。図３は、実施形態に係る認識モード変更処理の流れを示すフローチャートである。図４は、変形例に係る認識モード変更処理の流れを示すフローチャートである。図５は、音声対話システムの実装例を示す図である。

以下では、音声認識処理を行ってユーザと音声対話を行う音声対話システムについて説明する。なお、音声認識処理は音声対話システム以外にも、音声入力システムなどのその他のシステムにも適用可能である。

＜構成概要＞
図１は本実施形態に係る音声対話システム１００のシステム構成を示す図である。音声対話システム１００は、マイク（音声入力部）１、音声認識装置２、対話文生成装置３、スピーカー（音声出力部）４を含んで構成される。音声認識装置２および対話文生成装置３は、マイクロプロセッサなどの演算処理部とメモリとを有するコンピュータが、プログラムを実行することによって実現される。

マイク１は、ユーザが発する発話音声を取得する。マイク１は、１台のマイクであってもよいし、マイクロフォンアレイであってもよい。マイク１が取得した音声は、音声認識装置２に出力される。

音声認識装置２は、マイク１から取得される音声に対して音声認識処理を施し、入力音声のテキストを特定する機能部である。音声認識装置２は、音声認識切替部２１、大語彙認識部２２、単音認識部２３、認識結果判定部２４、出力部２５を備える。

音声認識切替部２１は、入力された音声を、大語彙認識部２２と単音認識部２３のいずれを用いて認識するかを決定する機能部である。音声認識切替部２１は、現在使われている音声認識部と、その音声認識の成功・失敗とに基づいて、次の音声認識に用いる音声認識部を決定する。具体的な決定方法は後述する。音声認識切替部２１は、本発明における制御部に相当する。なお、以下では、大語彙認識部２２を用いて認識を行うモードを「大語彙認識モード」、単音認識部２３を用いて認識を行うモードを「単音認識モード」とも称する。

大語彙認識部２２は、入力された音声を大語彙連続音声認識する音声認識モジュールである。大語彙認識部２２は、ユーザが通常の速度で行う発話を精度良く認識できるように構成された音響モデル・単語辞書・言語モデルを利用して認識を行う。大語彙認識部２２は、認識結果のテキストとその確信度とを出力する。大語彙認識部２２は、人同士が会話するようにスムースに話したときの認識精度が高い一方、一音ずつ発話されたときには誤認識が多くなる。大語彙認識部２２は、本発明における第１音声認識部に相当する。

単音認識部２３は、入力された音声を単音の連続して認識する音声認識モジュールである。単音認識部２３は、ユーザが一語ずつ区切って行う発話を精度良く認識できるように構成された音響モデル・単語辞書・言語モデルを利用して認識を行う。単音認識部２３は、認識結果のテキストとその確信度とを出力する。単音認識部２３は、人同士が会話するようにスムースに話したと場合には誤認識が多くなるが、一音ずつ発話された場合には確実に認識できる。単音認識部２３は、本発明における第２音声認識部に相当する。

認識結果判定部２４は、大語彙認識部２２あるいは単音認識部２３から認識結果（テキスト）とその確信度を受け取り、確信度が所定の閾値以上であれば認識成功と判断し、確
信度が閾値未満であれば認識失敗と判断する。なお、音声認識の成否判断は、確信度のみに基づいて行う必要はなく、認識結果が会話状況や周辺の環境状況にあった適切なものであるか否かに基づいて行ってもよいし、認識語彙の長さが音声データの長さにあった適切なものであるかに基づいて行ってもよいし、これら複数の観点に基づいて行ってもよい。認識結果判定部２４は、認識結果と確信度を出力部２５に送る。また、認識結果判定部２４は、認識結果と確信度を音声認識切替部２１にも送る。

なお、確信度は、音声認識の結果として得られる語彙が実際に発話された語彙と一致している確率を表す。一致の度合いは、あらかじめ登録されている単語やフレーズあるいは単音の音声特徴量（波形や周期等）と、ユーザが発話した音声の音声特徴量の類似度に基づいて算出される。確信度は、複数の音声特徴量それぞれの類似度を統合して得てもよい。複数の音声特徴量の類似度を統合する際の重み付けは適宜決定してよい。

出力部２５は、認識結果判定部２４から受け取った認識結果と確信度を対話文生成装置３に送る。

対話文生成装置３は、音声認識装置２から出力される音声認識結果と確信度に基づいて、ユーザからの入力に対して応答を行う対話文を生成する。

スピーカー４は、対話文生成装置３が生成した対話文をユーザに向けて出力する。

＜処理＞
図２は、本実施形態における音声対話処理の流れを示すフローチャートである。ステップＳ１０において、マイク１がユーザの発話を取得して、音声認識装置２に送る。ステップＳ２０において、音声認識装置２は、現在の認識モードにしたがって、大語彙認識部２２あるいは単音認識部２３のいずれかを用いて音声認識処理を実行し、その結果（テキストおよび確信度）を認識結果判定部２４に送る。ステップＳ３０では、音声認識切替部２１が、音声認識の結果に基づいて、認識モードの変更を行う。ステップＳ４０では、対話文生成装置３が認識結果に基づいて対話文を生成して、ステップＳ５０において、対話文をスピーカー４から音声として出力する。

図３は、ステップＳ３０の認識モード変更処理の詳細を示すフローチャートである。ステップＳ３０１において、音声認識切替部２１は、認識結果が大語彙認識部２２と単音認識部２３のいずれからのものであるかを判断する。この判断は、現在の認識モードが、大語彙認識モードであるか単音認識モードであるかの判断であるとも表現できる。

認識結果が大語彙認識部２２からのものである場合（Ｓ３０１−ＹＥＳ）には、ステップＳ３０２に進む。ステップＳ３０２において、音声認識切替部２１は、大語彙認識部２２による音声認識が成功したか失敗したかを判断する。音声認識に失敗した場合には、ステップＳ３０３に進み、音声認識切替部２１は次回の認識に単音認識部２３を用いるように認識モードを変更する。一方、音声認識に成功した場合には、認識モードを変更せずに処理を終了し、次回の認識にも大語彙認識部２２が用いられる。

認識結果が単音認識部２３からのものである場合（Ｓ３０１−ＮＯ）には、ステップＳ３０４に進む。ステップＳ３０４において、音声認識切替部２１は、単音認識部２３による音声認識が成功したか失敗したかを判断する。音声認識に成功した場合には、ステップＳ３０５に進み、音声認識切替部２１は次回の認識に大語彙認識部２２を用いるように認識モードを変更する。一方、音声認識に失敗した場合には、認識モードを変更せずに処理を終了し、次回の認識にも単音認識部２３が用いられる。

なお図３のフローチャートには示していないが、音声認識に失敗した後に所定時間以上ユーザからの入力がない場合には、音声認識切替部２１は、次回の認識に大語彙認識部２２を用いるように決定する。

＜本実施形態による有利な効果＞
本実施形態によれば、大語彙認識部を用いた認識に失敗した場合には、次回の認識は自動的に単音認識部を用いて行われる。一般に、音声認識に失敗した後の言い直しの発話においては、ユーザはよりゆっくりと発話する傾向にある。したがって、ユーザがどのように発話を行うかを明示的にシステムに通知することなく、システム側で自動的にユーザの発話方法に適応することができる。これにより、ユーザに負担をかけることなく音声認識精度を向上することが可能となり、したがって、ユーザの満足度が向上する。

＜認識モード変更処理の変形例＞
図４は、ステップＳ３０の認識モード変更処理の変形例を示すフローチャートである。本変形例における処理は上記の実施形態と同様であるが、ステップＳ３１２の処理が異なっている。音声認識切替部２１は、大語彙認識部２２を用いた認識に連続して所定回数（Ｎ回）失敗した場合に、次回の認識で単音認識部２３を用いるように変更する。

ここで、所定回数Ｎは全てのユーザについて同じ値であってもよく、ユーザごとに異なる値としてもよい。例えば、ユーザごとの過去の音声認識の実績に基づいて、所定回数Ｎを決定してもよい。具体的には、単音認識モードに変更した後も認識に失敗する場合には、ユーザは通常の速度で発話を行っていると想定されるので、Ｎの値を大きくすることが望ましい。逆に、大語彙認識部２２による認識にＮ回続けて失敗した後に単音認識部２３による認識に１回で成功した場合には、Ｎ回目の発話ではユーザがすでに一音ずつ区切って発話を行っていると想定されるので、Ｎの値を小さくすることが望ましい。なお、値Ｎの変更は、履歴がある程度蓄積された後に行う方が、システムの安定性の観点から望ましい。

＜実装例＞
上述した機能部は、その全てが１台の装置（コンピュータ）によって実行される必要はなく、通信によって接続された複数の装置が連携して上記機能を提供してもよい。

図５は、実装の一例を示す図である。本実装例に係る音声対話システム２００は、ロボット２１０、スマートフォン２２０、音声認識サーバ２３０、対話サーバ２４０から構成される。ロボット２１０とスマートフォン２２０は、Ｂｌｕｅｔｏｏｔｈ（登録商標）により接続され、スマートフォン２２０と音声認識サーバ２３０および対話サーバ２４０はＷｉＦｉやＬＴＥなどにより接続される。ロボット２１０は、マイク１とスピーカー４を備え、ユーザとのインタフェースとして機能する。スマートフォン２２０は、音声認識切替部２１、単音認識部２３、認識結果判定部２４、出力部２５を備える。音声認識サーバ２３０は、大語彙認識部２２を備える。対話サーバ２４０は対話文生成装置３を備える。

このような構成によれば、ロボット２１０に高度な機能を持たせることなく、ユーザはロボットとの音声対話を実現できる。

なお、単音認識部２３をスマートフォン２２０に持たせるのは、単音認識処理が比較的簡単なためスマートフォンでもリアルタイムに実行できるためである。一方、大語彙認識部２２を音声認識サーバ２３０に持たせるのは、大語彙認識処理は比較的処理が複雑なため、高度な演算資源を有するサーバで行う方が、通信遅延を考慮しても高速なためである。

＜その他＞
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。

上記の説明では、音声認識を音声対話に用いる例を説明したが、音声認識処理の用途はこれに限られない。例えば、音声によって操作を行う音声入力インタフェースに、上述の音声認識処理を適用することも好ましい。

１：マイク（音声入力部）
２：音声認識装置
３：対話文生成装置
４：スピーカー（音声出力部）
２１：音声認識切替部
２２：大語彙認識部
２３：単音認識部
２４：認識結果判定部
２５：出力部

Claims

音声を取得する音声取得部と、
入力された音声を連続音声として認識する第１音声認識部と、
入力された音声を単音の連続として認識する第２音声認識部と、
前記音声取得部が取得した音声の音声認識に前記第１音声認識部と前記第２音声認識部のいずれを用いるかを決定する制御部と、
を備え、
前記制御部は、前記第１音声認識部が用いられているときに音声認識に失敗した場合に、次回の音声認識に前記第２音声認識部を用いるように決定する、
音声認識装置。
前記制御部は、
前記第１音声認識部が用いられているときに、音声認識に成功した場合には次回の音声認識に前記第１音声認識部を用い、音声認識に失敗した場合には次回の音声認識に前記第２音声認識部を用いるように決定し、
前記第２音声認識部が用いられているときに、音声認識に成功した場合には次回の音声認識に前記第１音声認識部を用い、音声認識に失敗した場合には次回の音声認識に前記第２音声認識部を用いるように決定する、
請求項１に記載の音声認識装置。
音声を取得する音声取得部と、
入力された音声を連続音声として認識する第１音声認識部と、
入力された音声を単音の連続として認識する第２音声認識部と、
前記音声取得部が取得した音声の音声認識に前記第１音声認識部と前記第２音声認識部のいずれを用いるかを決定する制御部と、
を備え、
前記制御部は、前記第１音声認識部が用いられているときに音声認識に連続して所定回数失敗した場合に、次回の音声認識に前記第２音声認識部を用いるように決定する、
音声認識装置。
前記制御部は、音声認識結果の確信度が閾値以上であれば音声認識に成功したと判断し、そうでない場合に音声認識に失敗したと判断する、
請求項１から３のいずれか１項に記載の音声認識装置。
前記制御部は、前記音声取得部が所定時間のあいだ音声を取得しない場合には、次回の音声認識に第１音声認識部を用いるように決定する、
請求項１から４のいずれか１項に記載の音声認識装置。
前記音声認識装置は、
前記音声取得部と前記第２音声認識部と前記制御部とを備える第１装置と、
前記第１装置と通信可能に接続され、前記第１音声認識部を備える第２装置と、
から構成される、請求項１から５のいずれか１項に記載の音声認識装置。
入力された音声を連続音声として認識する第１音声認識部と、入力された音声を単音の連続として認識する第２音声認識部と、を備える音声認識装置の制御方法であって、
音声を取得する音声取得ステップと、
前記第１音声認識部と前記第２音声認識部のいずれかを用いて音声認識を行う音声認識ステップと、
前記第１音声認識部が用いられているときに音声認識に失敗した場合に、次回の音声認
識に前記第２音声認識部を用いるように決定する音声認識切替ステップと、
を含む、音声認識装置の制御方法。
入力された音声を連続音声として認識する第１音声認識部と、入力された音声を単音の連続として認識する第２音声認識部と、を備える音声認識装置の制御方法であって、
音声を取得する音声取得ステップと、
前記第１音声認識部と前記第２音声認識部のいずれかを用いて音声認識を行う音声認識ステップと、
前記第１音声認識部が用いられているときに音声認識に連続して所定回数失敗した場合に、次回の音声認識に前記第２音声認識部を用いるように決定する音声認識切替ステップと、
を含む、音声認識装置の制御方法。
請求項７または８に記載の方法の各ステップをコンピュータに実行させるコンピュータプログラム。