JP5677650B2

JP5677650B2 - 音声認識装置

Info

Publication number: JP5677650B2
Application number: JP2014544199A
Authority: JP
Inventors: 友紀古本
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-11-05
Filing date: 2012-11-05
Publication date: 2015-02-25
Anticipated expiration: 2032-11-05
Also published as: US9378737B2; CN104756185B; DE112012007103B4; DE112012007103T5; US20150279363A1; WO2014068788A1; JPWO2014068788A1; CN104756185A

Description

この発明は、発話された音声を認識する音声認識装置に関するものである。

音声認識の方法として、発話者による音声認識開始指示の操作の後に発話された音声を認識する方法と、当該操作無しに、常時、発話された音声を認識する方法が広く知られている。前者の方法では、発話された音声の始端が明示されることで区間検出が容易となるため認識率は高くなるが、認識の度に特定の操作が必要であるため煩わしい、という問題があった。一方、後者の方法では、特定の操作が必要ないため上述した欠点は解消されるが、音声の区間検出が困難であるため認識率が低くなる、という問題があった。

そこで、それらの問題を解決するために、例えば特許文献１には、上述した２つの音声認識方法を備え、話者の状況または周囲の状況に応じて自動的に適切な音声認識方法に切り替える音声認識装置が開示されている。具体的には、例えば周囲の騒音が大きい場合には前者の音声認識方法に切り替え、騒音が小さい場合には後者の音声認識方法に切り替える。

特開２００１−４２８９４号公報

しかしながら、例えば特許文献１のような従来の音声認識装置では、一方の音声認識方法に切り替わっているときは、他方の音声認識方法を使用することができない。そのため、例えば、騒音が小さい場所でより確実に音声を認識させたいようなときでも、前者の音声認識方法を使用することができず、発話者にとって利便性が低いという課題があった。

この発明は、上記のような課題を解決するためになされたものであり、常時、発話された音声を認識している場合においても、発話者による音声認識開始指示の操作を受け付け可能な音声認識装置を提供することを目的とする。

上記目的を達成するため、この発明は、発話された音声を認識する音声認識装置において、前記発話された音声を検知して取得する音声取得部と、前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する第１音声認識部と、音声認識開始の指示信号を出力する音声認識開始指示部と、前記音声認識開始指示部により出力された信号を受信すると、前記音声取得部により取得された音声データを認識する第２音声認識部と、前記第１音声認識部または前記第２音声認識部による認識結果を取得して出力する制御部と、を備え、前記制御部は、前記第１音声認識部による認識結果を取得し、前記音声認識開始指示部により出力された信号を受信していない場合には、前記第１音声認識部による認識結果を前記音声認識装置が適用される装置に出力し、前記音声認識開始指示部により出力された信号を受信した場合には、前記第２音声認識部による認識結果を取得し、当該第２音声認識部による認識結果を前記第１音声認識部による認識結果より優先して出力することを特徴とする。

この発明の音声認識装置によれば、常時、発話された音声を認識している場合においても、音声認識開始指示の操作を受け付け可能としたので、認識の度に特定の操作を要する煩わしさを回避しつつ、発話者が所望する場合には、音声認識開始指示の操作により認識率が高い音声認識方法で認識させることができ、利便性を向上させることができる。

実施の形態１による音声認識装置の一例を示すブロック図である。実施の形態１の音声認識装置における処理を示すフローチャートである。実施の形態２による音声認識装置の一例を示すブロック図である。画面の種別情報を記憶したテーブルである。実施の形態２の音声認識装置における処理を示すフローチャートである。ナビゲーション部の表示部に、名称リストが表示されている画面例を示す図である。実施の形態３による音声認識装置の一例を示すブロック図である。実施の形態３の音声認識装置における処理を示すフローチャートである。実施の形態４による音声認識装置の一例を示すブロック図である。実施の形態４の音声認識装置における処理を示すフローチャートである。常時、音声認識を行っている第１音声認識部による認識結果の出力が行われる状態であるか否かを明示する絵や文字等の例である。一般的なナビゲーション画面において、図１１に示すような絵や文字等を表示した例である。一般的なナビゲーション画面において、騒音音量を視覚的に表示した例である。

以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
この発明は、発話された音声を認識する音声認識装置であり、当該音声認識装置が起動されている場合は常時、音声を認識するものにおいて、発話者による音声認識開始指示の操作も受け付けるものである。なお、以下の実施の形態では、この発明の音声認識装置を車両等の移動体に搭載されるナビゲーション装置に適用した場合を例に挙げて説明するが、スマートフォン、タブレットＰＣ、携帯電話等にインストールされるナビゲーションシステム等に適用してもよい。

実施の形態１．
図１は、この発明の実施の形態１による音声認識装置の一例を示すブロック図である。この音声認識装置１０は、音声取得部１と、音声認識開始指示部２と、音声認識部３と、音声認識辞書４と、制御部５とを備えている。また、この音声認識装置１０は、ナビゲーション部６を備えたナビゲーション装置に適用されるものである。

音声取得部１は、マイクにより集音された発話、すなわち、入力された音声を取込み、例えばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）によりＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換する。

音声認識開始指示部２は、例えば、タッチパネルに表示されたアイコン、ハンドルやナビゲーションシステムに設置されているボタンやリモコン等の操作部であり、この音声認識開始指示部２が発話者によって押下されると、後述する第２音声認識部３ｂに対して音声認識処理の開始を指示する信号を出力する。また、後述する制御部５に対しても、音声認識開始指示部２が押下された旨を示す信号を出力する。

音声認識部３は、第１音声認識部３ａと第２音声認識部３ｂからなり、音声取得部１によりデジタル化された音声信号から、発話された内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書４を用いて認識処理を行い、音声認識結果の文字列を出力する。なお、認識処理としては、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）法のような一般的な方法を用いて行えばよい。

ここで、第１音声認識部３ａは、発話者による音声認識開始指示がなくても、常に、発話者が発話した内容を認識している。すなわち、第１音声認識部３ａは、音声認識開始指示部２により出力された音声認識開始指示信号を受理しなくても、音声取得部１により取得された音声データに対して常に上述した認識処理を行う。一方、第２音声認識部３ｂは、発話者によって音声認識開始指示部２が押下され、音声認識開始指示部２により出力された音声認識開始信号を受信すると、これをトリガーとして音声取得部１により取得された音声データを認識する。

この第１音声認識部３ａによる認識結果と、第２音声認識部３ｂによる認識結果とを比べると、常時認識を行っている第１音声認識部３ａの認識結果は、第２音声認識部３ｂの認識結果ほど精度は良くない。ただし、発話者による音声認識開始指示がなくても、常に音声認識してくれるものであるため、利便性がよい。
一方、第２音声認識部３ｂの認識結果は、発話者による音声認識開始指示をトリガーにして音声認識を開始するため、音声認識開始地点が明確になるので、音声認識の精度が良くなる。ただし、必ず音声認識開始指示部２による発話者の操作を必要とするものである。

音声認識辞書４は、音声認識部３（第１音声認識部３ａおよび第２音声認識部３ｂ）が音声認識の際に音声データの特徴量と照合するための、抽出される可能性のある語彙を記憶している。

制御部５は、音声認識部３（第１音声認識部３ａおよび第２音声認識部３ｂ）により認識された結果を取得して、それぞれの認識結果を出力するか否かを判断して、後述するナビゲーション部６（音声認識装置１０が適用される装置）に出力する。この際、制御部５は、基本的には第１音声認識部３ａにより認識された認識結果文字列を出力するが、音声認識開始指示部２により信号が出力されている場合は、第２音声認識部３ｂにより認識された認識結果文字列を第１音声認識部３ａにより認識された認識結果文字列より優先して出力する。

ナビゲーション部６は、制御部５により出力された認識結果文字列を用いて施設検索を実施したり、認識結果を画面に表示したり、認識結果文字列に対応する機能を実行したりする。なお、ナビゲーション部６は、通常のナビゲーション装置が備えている基本的な機能を備えるものであり、図示は省略するが、認識結果を画面表示するための表示部も備えている。

次に、図２に示すフローチャートを用いて、実施の形態１の音声認識装置の動作を説明する。
まず初めに、制御部５は、第１音声認識部３ａによる認識結果を取得する（ステップＳＴ０１）。第１音声認識部３ａは上述のとおり、音声認識装置１０が起動している間は常時、発話された音声を認識するものであり、それにしたがって制御部５も、基本的に何の指示がなくても第１音声認識部３ａからの認識結果を取得している。

次に、制御部５は、音声認識開始指示部２による音声認識開始信号が出力されているか否かを判定する（ステップＳＴ０２）。当該信号が出力されておらず、当該信号を受信していない場合（ステップＳＴ０２のＮＯの場合）には、ステップＳＴ０１で取得した第１音声認識部３ａによる認識結果を出力する（ステップＳＴ０３）。一方、音声認識開始信号が出力されていて、当該信号を受信した場合（ステップＳＴ０２のＹＥＳの場合）には、第２音声認識部３ｂによる認識結果を取得し（ステップＳＴ０４）、ステップＳＴ０１にて取得した第１音声認識部３ａによる認識結果ではなく、ステップＳＴ０４にて取得した第２音声認識部３ｂによる認識結果を優先して出力する（ステップＳＴ０５）。

このように、基本的には第１音声認識部３ａにより常時、発話された音声を認識して出力している音声認識装置において、音声認識開始指示部２が押下された場合にのみ、第２音声認識部３ｂによる認識結果の出力を割り込ませて優先的に出力することができるようにしたので、例えば、騒音が小さい場所等で、より確実に音声を認識させたいようなときには、音声認識開始指示部２を押下することにより、認識率の高い音声認識結果を出力することができる。

以上のように、常時、発話された音声を認識している場合においても、音声認識開始指示の操作も受け付けて、その音声認識開始指示による精度の高い音声認識結果を優先して出力することとしたので、通常は認識の度に特定の操作を要する煩わしさを回避しつつ、発話者が所望する場合には、音声認識開始指示の操作により認識率が高い音声認識方法で認識させることができ、利便性が向上する。

なお、音声認識辞書４は、第１音声認識部３ａと第２音声認識部３ｂとで同一の辞書を使用するものとして説明したが、各音声認識部で異なる音声認識辞書を使用するものとしてもよい。例えば、第２音声認識部３ｂで使用される辞書は、「次」「Ｎ行目」「前のページ」等の、表示されたリスト項目を選択する語彙のみを格納したもの、すなわち、第１音声認識部３ａにより使用される音声認識辞書に比べて認識語彙が限定されているものとしてもよい。

このように音声認識辞書を異なるものとすることで、音声認識開始指示部２を押下して発話した場合には、さらに認識率が向上するため、発話者が特に認識に失敗したくないような場合等において、さらに利便性が向上する。

実施の形態２．
図３は、この発明の実施の形態２による音声認識装置の一例を示すブロック図である。なお、実施の形態１で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態２の音声認識装置２０は、実施の形態１の音声認識装置１０と比べると、画面情報取得部（周辺状態取得部）７と画面情報記憶部８をさらに備えている。また、制御部５の動作が実施の形態１とは異なり、後述するような動作となっている。

画面情報取得部（周辺状態取得部）７は、ナビゲーション部６の表示部（音声認識装置２０が適用される装置の表示部）に表示されている画面の種別情報（例えば、画面毎に割り当てられたＩＤ、または画面名等。以下、同様）を取得する。
画面情報記憶部８は、図４（ａ）に示すように、ナビゲーション部６の表示部に表示される画面の種別情報であって、音声認識の失敗をさせたくない画面の種別情報、すなわち、その画面が第２音声認識部３ｂによる認識結果を採用する種別を付与されている画面であることを示し、第１音声認識部３ａによる認識結果を出力しないと決定される画面の種別情報を記憶している。

そして、この実施の形態２の音声認識装置２０における制御部５は、画面情報取得部７により取得された画面情報を検索キーとして、画面情報記憶部８を検索する。そして、検索キーと一致する画面の種別情報が画面情報記憶部８に存在している場合は、第１音声認識部３ａによる認識結果をナビゲーション部６（音声認識装置２０が適用される装置）に出力しないと決定し、存在していない場合には、通常どおり第１音声認識部３ａによる認識結果を出力する。すなわち、制御部５は、画面情報取得部（周辺情報取得部）７により取得された画面の種別情報に基づいて、当該画面が第２音声認識部３ｂによる認識結果を採用する種別を付与されている画面であると判断した場合は、第１音声認識部３ａによる認識結果を出力しない。

具体的には、例えば、メイン画面、施設検索画面、音楽検索画面等が表示部に表示されている場合には、通常どおり、常時行われている第１音声認識部３ａによって音声認識が行われて認識結果が出力されればよいが、特に認識の失敗をさせたくないようなメニュー画面やリスト選択画面などが表示部に表示されている場合には、音声認識開始指示部２からの指示により精度よく音声認識を行ってくれる第２音声認識部３ｂの認識結果を使用したいため、第１音声認識部３ａによる認識結果が出力されないようにする。

すなわち、特に認識の失敗をさせたくないようなメニュー画面やリスト選択画面などの画面には、第２音声認識部３ｂの認識結果を採用する種別が付与されており、ナビゲーション部６の表示部（音声認識装置２０が適用される装置の表示部）に表示されている画面がそれらメニュー画面やリスト選択画面などの画面である場合には、制御部５は、その表示されている画面の種別情報に基づいて、当該画面は第２音声認識部３ｂの認識結果を採用する種別が付与されている画面である、と判断することができる。

次に、図５に示すフローチャートを用いて、実施の形態２の音声認識装置の動作を説明する。
まず、画面情報取得部（周辺状態取得部）７は、ナビゲーション部６から表示部に表示されている画面が変更された旨の通知を受けると、当該表示されている画面の種別情報を取得する（ステップＳＴ１１）。次に、制御部５は、画面情報取得部７により取得された種別情報を検索キーとして画面情報記憶部８を検索する（ステップＳＴ１２）。

画面情報記憶部８に記憶されている画面の種別情報の中に、ステップＳＴ１１で取得した画面の種別情報が存在する場合（ステップＳＴ１３のＹＥＳの場合）は、制御部５は、第１音声認識部３ａによる認識結果を出力しない（ステップＳＴ１４）。一方、当該種別情報が存在しない場合（ステップＳＴ１３のＮＯの場合）であって、第１音声認識部３ａによる認識結果の出力が停止中である場合（ステップＳＴ１５のＹＥＳの場合）は、制御部５は、第１音声認識部３ａによる認識結果の出力を再開させる（ステップＳＴ１６）。また、取得した画面の種別情報が画面情報記憶部８に存在しない場合（ステップＳＴ１３のＮＯの場合）であって、第１音声認識部３ａによる認識結果の出力が停止中でない場合（ステップＳＴ１５のＮＯの場合）は、何もせずに処理を終了し、通常どおりの音声認識および出力の処理を行う。

なお、画面情報記憶部８を、図４（ｂ）のように画面の種別と第１音声認識部３ａによる認識結果を出力するか否かを表すフラグを、画面の種別に対応付けて記憶しておくものとし、制御部５は、画面情報取得部７により取得された画面の種別情報を検索キーとして、画面情報記憶部８を検索し、一致する画面の種別情報に対応するフラグがＦａｌｓｅであれば第１音声認識部３ａによる認識結果の出力を停止（ステップＳＴ１４の処理）し、Ｔｒｕｅであれば出力を再開（ステップＳＴ１５およびＳＴ１６の処理）するようにしてもよい。
また、図４（ａ）（ｂ）において、画面名とＩＤのいずれか一方の項目がない構成としてもよい。

また、表示部に表示された画面に重畳して表示される表示部品の種別に基づいて、第１音声認識部３ａによる認識結果を出力するか否かの判断を行うものとしてもよい。ここで当該重畳して表示される表示部品とは、例えば図６に示すように、施設検索を行った結果を提示する名称リスト１３等である。図６は、ナビゲーション部６の表示部に表示されているナビゲーション画面の一例である。

図６は、地図上に自車の位置を示す自車マーク１２が表示されている一般的なナビゲーション画面において、例えば、レストラン検索を行ったり、ステーキハウスの検索を行うなどした結果、ステーキハウスの名称リスト１３が重畳して表示され、発話者による選択を待つ状態になっている。このように、発話者が何らかの選択をすべき状態の表示部品として名称リスト１３の表示が行われた場合にも、音声認識の失敗をさせたくないため、第１音声認識部３ｂによる認識結果を出力しないように制御する。

また、この実施の形態２では、ナビゲーション部６の表示部に表示される画面の種別情報に基づいて、第１音声認識部３ａによる認識結果を出力するか否かを判断するものとして説明したが、ナビゲーション部６で実行されている機能の種別情報に基づいて、第１音声認識部３ａによる認識結果を出力するか否かの判断を行うものとしてもよい。すなわち、制御部５は、その機能が第２音声認識部３ｂによる認識結果を採用する種別を付与されている機能である、と判断した場合に、第１音声認識部による認識結果を出力しない。

例えば、実行されている機能が住所検索であった場合、住所はあいまい性が少なく、リストからの候補選択と同様、確実に認識させたい対象であり、音声認識の失敗をさせたくないため、その住所検索という機能には、第２音声認識部３ｂによる認識結果を採用する種別が付与されており、制御部５は、その機能の種別情報に基づいて、当該機能が第２音声認識部３ｂによる認識結果を採用する種別を付与されている機能である、と判断し、第１音声認識部３ａによる認識結果を出力しないように制御する。この場合、図５に示すブロック図の画面情報取得部７を機能情報取得部（周辺状態取得部）として、ナビゲーション部６から現在実行されている機能の種別情報を取得するようにし、画面情報記憶部８を機能情報記憶部として、機能の種別情報を記憶するものとする。そして、制御部５によって、機能の種別情報を検索キーとして機能情報記憶部を検索するようにすればよい。

以上のように、音声認識装置が適用される装置で表示されている画面や実行されている機能に応じて、常時、音声認識している第１音声認識部による認識結果の出力を停止・再開するようにしたので、例えば、検索結果が表示されたリスト画面においてリスト項目を選択する等、特に認識を失敗させたくない状況では音声認識開始指示部２を押下して発話することで誤認識が少なくなり、また、常時、音声認識することにより誤認識または誤検出した結果が表示されてしまったり、誤認識または誤検出した結果に基づいて動作してしまったりすることがなくなるため、利便性が向上する。

実施の形態３．
図７は、この発明の実施の形態３による音声認識装置の一例を示すブロック図である。なお、実施の形態１で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態３の音声認識装置３０は、実施の形態１の音声認識装置１０と比べると、走行状態取得部（周辺状態取得部）９をさらに備えている。また、制御部５の動作が実施の形態１とは異なり、後述するような動作となっている。

走行状態取得部（周辺状態取得部）９は、音声認識装置３０が存する移動体の走行状態、例えば、停車中か否かの情報や、走行速度、エンジン回転数などを取得する。
そして、この実施の形態３における音声認識装置３０の制御部５は、走行状態取得部９により取得された走行状態に応じて、第１音声認識部３ａによる認識結果を出力するか否かを決定する。

具体的には、制御部５は、移動体の走行状態に基づいて、当該移動体が加速中または高速で移動中であると判断した場合には、第１音声認識部３ａによる認識結果を出力しない。例えば、車両の停止中など、騒音が小さいと予想される場合には、常時行われている第１音声認識部３ａによる認識結果が出力されればよいが、加速中や高速で移動中など、騒音が大きくて認識率がより低くなると予想される場合には、音声認識開始指示部２からの指示により精度よく音声認識を行ってくれる第２音声認識部３ｂによる認識結果を使用したいため、第１音声認識部３ａによる認識結果が出力されないようにする。

次に、図８に示すフローチャートを用いて、実施の形態３の音声認識装置の動作を説明する。
まず、走行状態取得部（周辺状態取得部）９は、例えばＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）信号等から、車両（移動体）の速度、ステアリング状態、パーキング状態、ブレーキ状態、エンジンの回転数など、移動体の走行状態を取得する（ステップＳＴ２１）。次に、制御部５は、走行状態取得部９により取得された情報（移動体の走行状態）に基づいて、移動体が走行中か停車中か判断する（ステップＳＴ２２）。

そして、移動体が停車中と判断され（ステップＳＴ２２のＹＥＳの場合）、かつ、第１音声認識部３ａによる認識結果の出力が停止中の場合（ステップＳＴ２３のＹＥＳの場合）は、第１音声認識部３ａによる認識結果の出力を再開する（ステップＳＴ２４）。また、ステップＳＴ２３において、第１音声認識部３ａによる認識結果の出力が停止中でない場合（ステップＳＴ２３のＮＯの場合）は、何もせずに処理を終了し、通常どおりの音声認識および出力の処理を行う。

一方、移動体が走行中と判断され（ステップＳＴ２２のＮＯの場合）、かつ、走行速度が所定値以下（または、未満）である場合（ステップＳＴ２５のＹＥＳの場合）は、ステップＳＴ２３以降の処理を実行する。また、ステップＳＴ２５において、走行速度が所定値より大きい（または、以上）である場合（ステップＳＴ２５のＮＯの場合）は、第１音声認識部３ａによる認識結果を出力しない（ステップＳＴ２６）。

以上のように、移動体の走行状態に応じて、常時、音声認識している第１音声認識部による認識結果の出力を停止・再開するようにしたので、加速中や高速で走行中等、騒音が大きいと予想される場合に誤認識が発生することを抑制することができる一方、停車中等の騒音が小さいと予想される場合には、特定の操作無しに音声を認識させることができるので煩わしさを解消することができ、利便性が向上する。

なお、この実施の形態３では、走行速度が所定値より大きい（または、以上の）場合は、第１音声認識部３ａによる認識結果を出力しないとして説明したが、それとは逆に、移動体が停車中には第１音声認識部３ａによる認識結果の出力を停止し、走行速度が所定値より大きい（または、以上の）場合に、当該認識結果の出力を再開するようにしてもよい。これは、例えば運転初心者等にとっては、走行中にボタン等を操作することは危険であるため、移動体が停車中は音声認識開始指示部２を押下操作することによる第２音声認識部３ｂによる認識結果を採用し、走行中は常時認識による第１音声認識部３ａの認識結果を出力するようにしてもよい、ということである。

また、所定値付近で走行速度が変化することによって、第１音声認識部３ａによる認識結果の出力停止・出力再開が短時間で繰り返されることを避けるため、第１音声認識部３ａによる認識結果の出力を再開する所定値と出力を停止するときの所定値を異なる値とするとよい。具体的には、例えば、出力を停止するときの所定値を６０ｋｍ／ｈ、再開するときの所定値を７０ｋｍ／ｈとする等、ヒステリシスを持たせるようにする。これにより、所定値付近で走行速度が微妙に変化した場合であっても、頻繁に認識結果の出力停止と出力再開が繰り返される現象を避けることができる。

実施の形態４．
図９は、この発明の実施の形態４による音声認識装置の一例を示すブロック図である。なお、実施の形態１で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態４の音声認識装置４０は、実施の形態１の音声認識装置１０と比べると、騒音取得部（周辺状態取得部）１１をさらに備えている。また、制御部５の動作が実施の形態１とは異なり、後述するような動作となっている。

騒音取得部（周辺状態取得部）１１は、マイクにより集音された音を解析し騒音音量を算出し出力する。すなわち、音声認識装置４０周辺における騒音音量を取得する。
そして、この実施の形態４における音声認識装置４０の制御部５は、騒音取得部１１により取得された騒音音量に応じて、第１音声認識部３ａによる認識結果の出力を停止または再開する。

具体的には、制御部５は、騒音音量が所定の値以上である場合には、第１音声認識部３ａによる認識結果を出力しない。例えば、騒音音量が小さい場合には、常時行われている第１音声認識部３ａによる認識結果が出力されればよいが、騒音音量が大きくて認識率がより低くなると予想される場合には、音声認識開始指示部２からの指示により精度よく音声認識を行ってくれる第２音声認識部３ｂによる認識結果を使用したいため、第１音声認識部３ａによる認識結果が出力されないようにする。

次に、図１０に示すフローチャートを用いて、実施の形態４の音声認識装置の動作を説明する。
まず、騒音取得部（周辺状態取得部）１１は、マイクにより集音された音を解析し騒音音量を算出する（ステップＳＴ３１）。次に、制御部５は、騒音取得部１１により算出された騒音音量が所定の値以下（または、未満）であり（ステップＳＴ３２のＹＥＳの場合）、かつ、第１音声認識部３ａによる認識結果の出力が停止中である場合（ステップＳＴ３３のＹＥＳの場合）は、第１音声認識部３ａによる認識結果の出力処理を再開する（ステップＳＴ３４）。また、第１音声認識部３ａによる認識結果の出力が停止中でない場合（ステップＳＴ３３のＮＯの場合）は、何もせずに処理を終了し、通常どおりの音声認識および出力の処理を行う。

一方、騒音取得部１１により算出された騒音音量が所定の値より大きい（または、以上である）場合（ステップＳＴ３２のＮＯの場合）は、第１音声認識部３ａによる認識結果を出力しない（ステップＳＴ３５）。

ここで、発話者が発話している最中に、騒音音量が所定の値より大きく（または、以上）なった場合は、その発話された音声について第１音声認識部３ａによる認識結果の出力が完了するまで、第１音声認識部３ａによる認識結果の出力を停止しないようにしてもよい。

なお、この実施の形態４では、マイクにより集音された音から騒音音量を決定したが、実施の形態３における走行状態取得部９からのエンジンの回転数に基づいて騒音音量を決定するようにしてもよい。
具体的には、騒音取得部１１にエンジンの回転数と当該回転数に対応する騒音音量が対応付けて記憶されており、騒音取得部１１はＣＡＮ信号等からエンジンの回転数を取得した走行状態取得部９からエンジンの回転数を取得し、当該取得した回転数に対応する騒音音量を決定する。
そして、制御部５は、当該騒音音量が所定の値以下（または、未満）か否かによって、第１音声認識部３ａによる認識結果を出力するか否かを判断する。

また、実施の形態３の場合と同様に、第１音声認識部３ａによる認識結果の出力を再開する所定の値と出力を停止するときの所定の値を異なる値とする等して、ヒステリシスを持たせてもよい。
また、騒音取得部１１は、ナビゲーション部６を介して地図データから走行中の道路種別を取得し、当該道路種別に基づいて第１音声認識部３ａによる認識結果を出力するか否かを判断するようにしてもよい。具体的には、取得した道路種別が「トンネル内の道路」である場合は、騒音が発生しやすいと判断して、第１音声認識部３ａによる認識結果の出力しないように制御する等が考えられる。

以上のように、音声認識装置周辺の騒音音量に応じて、常時、音声認識している第１音声認識部による認識結果の出力を停止・再開するようにしたので、騒音が大きい場合に誤認識が発生することを抑制することができる一方、騒音が小さい場合は、特定の操作無しに音声を認識させることができるので煩わしさを解消することができ、利便性が向上する。

なお、上述した実施の形態２〜４において、第１音声認識部３ａによる認識結果の出力が行われているか否かを示す絵や文字等（図１１（ａ）または（ｂ）参照）を図１２のようにナビゲーション部６の表示部に表示するようにしてもよい。図１１は、常時、音声認識を行っている第１音声認識部３ａによる認識結果の出力が行われる状態であるか否かを明示する絵や文字等の例であり、図１１（ａ）は絵によって示すもの、図１１（ｂ）は文字によって示すものである。図１１（ａ）（ｂ）いずれの図においても、左側が、第１音声認識部３ａによる認識結果の出力が行われる状態であることを示しており、右側が、第１音声認識部３ａによる認識結果の出力が停止している状態を示している。また、これら以外にも、記号等によって明示するようにしてもよい。

図１２は、地図上に自車の位置を示す自車マーク１２が表示されている一般的なナビゲーション画面において、図１１に示すような第１音声認識部３ａによる認識結果の出力が行われる状態であるか否かを示す絵や文字等１４を表示した例である。現在、第１音声認識部３ａによる認識結果の出力が行われる状態である場合には、図１２に示すように、例えば、当該画面の左下に、図１１（ｂ）の左側の文字を表示するようにすればよい。

この場合、例えば、制御部５から当該表示の要否を示す信号を出力するようにしてもよい。また、第１音声認識部３ａによる認識結果の出力処理が行われているか否かによって、表示画面の色を変えてもよいし、画面に表示されている音声認識開始指示部２の色を変えるなどしてもよい。これにより、常時、音声認識している第１音声認識部３ａによる認識結果の出力が停止しているか否かを発話者が即座に知ることができるようになり、利便性が向上する。

また、上述した実施の形態４において、図１３に示すように、騒音音量１５と所定の値（騒音音量の閾値）１６を表示部に視覚的に表示してもよい。図１３は、地図上に自車の位置を示す自車マーク１２が表示されている一般的なナビゲーション画面において、現在の音声認識装置周辺の騒音音量１５と、その騒音音量が所定の値１６を超えているか否かを明示するための所定の値１６とが重畳して表示されている。これにより、発話者は、騒音音量によって、常時、音声認識している第１音声認識部３ａによる認識結果の出力が停止しているか否かを視覚的に把握することができるようになり、利便性が向上する。

さらに、図１２に示すように第１音声認識部３ａによる認識結果の出力が行われる状態であるか否かを示す絵や文字等１４を表示した上で、図１３に示すような騒音音量１５と所定の値（騒音音量の閾値）１６を表示するようにしてもよい。これにより、常時、音声認識している第１音声認識部３ａによる認識結果の出力が停止しているか否かということと、それは騒音音量が大きい（または小さい）からであるという理由も含めて、発話者が視覚的に即座に把握することができるようになり、さらに利便性が向上する。

なお、以上の実施の形態では、この発明における音声認識装置を車両等の移動体に搭載されるナビゲーション装置に適用するものとして説明したが、適用するナビゲーション装置は車両用に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用のナビゲーション装置や、スマートフォン、タブレットＰＣ、携帯電話等にインストールされるナビゲーションシステム等、どのような形態のものにも適用することができる。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明の音声認識装置は、車両等の移動体に搭載されるナビゲーション装置や、スマートフォン、タブレットＰＣ、携帯電話等にインストールされるナビゲーションシステム等に適用することができる。

１音声取得部、２音声認識開始指示部、３音声認識部、３ａ第１音声認識部、３ｂ第２音声認識部、４音声認識辞書、５制御部、６ナビゲーション部、７画面情報取得部（周辺状態取得部）、８画面情報記憶部、９走行状態取得部（周辺状態取得部）、１０，２０，３０，４０音声認識装置、１１騒音取得部（周辺状態取得部）、１２自車マーク、１３名称リスト、１４第１音声認識部３ａによる認識結果の出力が行われる状態であるか否かを示す絵や文字等、１５騒音音量、１６所定の値（騒音音量の閾値）。

Claims

発話された音声を認識する音声認識装置において、
前記発話された音声を検知して取得する音声取得部と、
前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する第１音声認識部と、
音声認識開始の指示信号を出力する音声認識開始指示部と、
前記音声認識開始指示部により出力された信号を受信すると、前記音声取得部により取得された音声データを認識する第２音声認識部と、
前記第１音声認識部または前記第２音声認識部による認識結果を取得して出力する制御部と、を備え、
前記制御部は、前記第１音声認識部による認識結果を取得し、前記音声認識開始指示部により出力された信号を受信していない場合には、前記第１音声認識部による認識結果を前記音声認識装置が適用される装置に出力し、前記音声認識開始指示部により出力された信号を受信した場合には、前記第２音声認識部による認識結果を取得し、当該第２音声認識部による認識結果を前記第１音声認識部による認識結果より優先して出力する
ことを特徴とする音声認識装置。
周辺状態を取得する周辺状態取得部をさらに備え、
前記制御部は、前記周辺状態取得部により取得された周辺状態に基づいて、前記第１音声認識部による認識結果を出力するか否かを決定する
ことを特徴とする請求項１記載の音声認識装置。
前記周辺状態は、前記音声認識装置が適用される装置の表示部に表示される画面の種別情報であり、
前記制御部は、前記画面の種別情報に基づいて、当該画面が前記第２音声認識部による認識結果を採用する種別を付与されている画面である、と判断した場合に、前記第１音声認識部による認識結果を出力しない
ことを特徴とする請求項２記載の音声認識装置。
前記周辺状態は、前記音声認識装置が適用される装置で実行されている機能の種別情報であり、
前記制御部は、前記機能の種別情報に基づいて、当該機能が前記第２音声認識部による認識結果を採用する種別を付与されている機能である、と判断した場合に、前記第１音声認識部による認識結果を出力しない
ことを特徴とする請求項２記載の音声認識装置。
前記音声認識装置は、移動体に搭載され、
前記周辺状態は、前記移動体の走行状態であり、
前記制御部は、前記移動体の走行状態に基づいて、当該移動体が加速中または高速で移動中であると判断した場合に、前記第１音声認識部による認識結果を出力しない
ことを特徴とする請求項２記載の音声認識装置。
前記周辺状態は、前記音声認識装置周辺の騒音音量であり、
前記制御部は、前記騒音音量が所定の値以上である場合に、前記第１音声認識部による認識結果を出力しない
ことを特徴とする請求項２記載の音声認識装置。
前記制御部は、前記第１音声認識部による認識結果を出力しない状態であるか否かを、前記音声認識装置が適用される装置の表示部に表示する
ことを特徴とする請求項２記載の音声認識装置。
前記制御部は、前記周辺状態取得部により取得された騒音音量を、前記音声認識装置が適用される装置の表示部に視覚的に表示する
ことを特徴とする請求項６記載の音声認識装置。