JP5677650B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5677650B2
JP5677650B2 JP2014544199A JP2014544199A JP5677650B2 JP 5677650 B2 JP5677650 B2 JP 5677650B2 JP 2014544199 A JP2014544199 A JP 2014544199A JP 2014544199 A JP2014544199 A JP 2014544199A JP 5677650 B2 JP5677650 B2 JP 5677650B2
Authority
JP
Japan
Prior art keywords
unit
recognition
voice
voice recognition
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014544199A
Other languages
English (en)
Other versions
JPWO2014068788A1 (ja
Inventor
友紀 古本
友紀 古本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5677650B2 publication Critical patent/JP5677650B2/ja
Publication of JPWO2014068788A1 publication Critical patent/JPWO2014068788A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Navigation (AREA)

Description

この発明は、発話された音声を認識する音声認識装置に関するものである。
音声認識の方法として、発話者による音声認識開始指示の操作の後に発話された音声を認識する方法と、当該操作無しに、常時、発話された音声を認識する方法が広く知られている。前者の方法では、発話された音声の始端が明示されることで区間検出が容易となるため認識率は高くなるが、認識の度に特定の操作が必要であるため煩わしい、という問題があった。一方、後者の方法では、特定の操作が必要ないため上述した欠点は解消されるが、音声の区間検出が困難であるため認識率が低くなる、という問題があった。
そこで、それらの問題を解決するために、例えば特許文献1には、上述した2つの音声認識方法を備え、話者の状況または周囲の状況に応じて自動的に適切な音声認識方法に切り替える音声認識装置が開示されている。具体的には、例えば周囲の騒音が大きい場合には前者の音声認識方法に切り替え、騒音が小さい場合には後者の音声認識方法に切り替える。
特開2001−42894号公報
しかしながら、例えば特許文献1のような従来の音声認識装置では、一方の音声認識方法に切り替わっているときは、他方の音声認識方法を使用することができない。そのため、例えば、騒音が小さい場所でより確実に音声を認識させたいようなときでも、前者の音声認識方法を使用することができず、発話者にとって利便性が低いという課題があった。
この発明は、上記のような課題を解決するためになされたものであり、常時、発話された音声を認識している場合においても、発話者による音声認識開始指示の操作を受け付け可能な音声認識装置を提供することを目的とする。
上記目的を達成するため、この発明は、発話された音声を認識する音声認識装置において、前記発話された音声を検知して取得する音声取得部と、前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する第1音声認識部と、音声認識開始の指示信号を出力する音声認識開始指示部と、前記音声認識開始指示部により出力された信号を受信すると、前記音声取得部により取得された音声データを認識する第2音声認識部と、前記第1音声認識部または前記第2音声認識部による認識結果を取得して出力する制御部と、を備え、前記制御部は、前記第1音声認識部による認識結果を取得し、前記音声認識開始指示部により出力された信号を受信していない場合には、前記第1音声認識部による認識結果を前記音声認識装置が適用される装置に出力し、前記音声認識開始指示部により出力された信号を受信した場合には、前記第2音声認識部による認識結果を取得し、当該第2音声認識部による認識結果を前記第1音声認識部による認識結果より優先して出力することを特徴とする。
この発明の音声認識装置によれば、常時、発話された音声を認識している場合においても、音声認識開始指示の操作を受け付け可能としたので、認識の度に特定の操作を要する煩わしさを回避しつつ、発話者が所望する場合には、音声認識開始指示の操作により認識率が高い音声認識方法で認識させることができ、利便性を向上させることができる。
実施の形態1による音声認識装置の一例を示すブロック図である。 実施の形態1の音声認識装置における処理を示すフローチャートである。 実施の形態2による音声認識装置の一例を示すブロック図である。 画面の種別情報を記憶したテーブルである。 実施の形態2の音声認識装置における処理を示すフローチャートである。 ナビゲーション部の表示部に、名称リストが表示されている画面例を示す図である。 実施の形態3による音声認識装置の一例を示すブロック図である。 実施の形態3の音声認識装置における処理を示すフローチャートである。 実施の形態4による音声認識装置の一例を示すブロック図である。 実施の形態4の音声認識装置における処理を示すフローチャートである。 常時、音声認識を行っている第1音声認識部による認識結果の出力が行われる状態であるか否かを明示する絵や文字等の例である。 一般的なナビゲーション画面において、図11に示すような絵や文字等を表示した例である。 一般的なナビゲーション画面において、騒音音量を視覚的に表示した例である。
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
この発明は、発話された音声を認識する音声認識装置であり、当該音声認識装置が起動されている場合は常時、音声を認識するものにおいて、発話者による音声認識開始指示の操作も受け付けるものである。なお、以下の実施の形態では、この発明の音声認識装置を車両等の移動体に搭載されるナビゲーション装置に適用した場合を例に挙げて説明するが、スマートフォン、タブレットPC、携帯電話等にインストールされるナビゲーションシステム等に適用してもよい。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の一例を示すブロック図である。この音声認識装置10は、音声取得部1と、音声認識開始指示部2と、音声認識部3と、音声認識辞書4と、制御部5とを備えている。また、この音声認識装置10は、ナビゲーション部6を備えたナビゲーション装置に適用されるものである。
音声取得部1は、マイクにより集音された発話、すなわち、入力された音声を取込み、例えばPCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換する。
音声認識開始指示部2は、例えば、タッチパネルに表示されたアイコン、ハンドルやナビゲーションシステムに設置されているボタンやリモコン等の操作部であり、この音声認識開始指示部2が発話者によって押下されると、後述する第2音声認識部3bに対して音声認識処理の開始を指示する信号を出力する。また、後述する制御部5に対しても、音声認識開始指示部2が押下された旨を示す信号を出力する。
音声認識部3は、第1音声認識部3aと第2音声認識部3bからなり、音声取得部1によりデジタル化された音声信号から、発話された内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書4を用いて認識処理を行い、音声認識結果の文字列を出力する。なお、認識処理としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよい。
ここで、第1音声認識部3aは、発話者による音声認識開始指示がなくても、常に、発話者が発話した内容を認識している。すなわち、第1音声認識部3aは、音声認識開始指示部2により出力された音声認識開始指示信号を受理しなくても、音声取得部1により取得された音声データに対して常に上述した認識処理を行う。一方、第2音声認識部3bは、発話者によって音声認識開始指示部2が押下され、音声認識開始指示部2により出力された音声認識開始信号を受信すると、これをトリガーとして音声取得部1により取得された音声データを認識する。
この第1音声認識部3aによる認識結果と、第2音声認識部3bによる認識結果とを比べると、常時認識を行っている第1音声認識部3aの認識結果は、第2音声認識部3bの認識結果ほど精度は良くない。ただし、発話者による音声認識開始指示がなくても、常に音声認識してくれるものであるため、利便性がよい。
一方、第2音声認識部3bの認識結果は、発話者による音声認識開始指示をトリガーにして音声認識を開始するため、音声認識開始地点が明確になるので、音声認識の精度が良くなる。ただし、必ず音声認識開始指示部2による発話者の操作を必要とするものである。
音声認識辞書4は、音声認識部3(第1音声認識部3aおよび第2音声認識部3b)が音声認識の際に音声データの特徴量と照合するための、抽出される可能性のある語彙を記憶している。
制御部5は、音声認識部3(第1音声認識部3aおよび第2音声認識部3b)により認識された結果を取得して、それぞれの認識結果を出力するか否かを判断して、後述するナビゲーション部6(音声認識装置10が適用される装置)に出力する。この際、制御部5は、基本的には第1音声認識部3aにより認識された認識結果文字列を出力するが、音声認識開始指示部2により信号が出力されている場合は、第2音声認識部3bにより認識された認識結果文字列を第1音声認識部3aにより認識された認識結果文字列より優先して出力する。
ナビゲーション部6は、制御部5により出力された認識結果文字列を用いて施設検索を実施したり、認識結果を画面に表示したり、認識結果文字列に対応する機能を実行したりする。なお、ナビゲーション部6は、通常のナビゲーション装置が備えている基本的な機能を備えるものであり、図示は省略するが、認識結果を画面表示するための表示部も備えている。
次に、図2に示すフローチャートを用いて、実施の形態1の音声認識装置の動作を説明する。
まず初めに、制御部5は、第1音声認識部3aによる認識結果を取得する(ステップST01)。第1音声認識部3aは上述のとおり、音声認識装置10が起動している間は常時、発話された音声を認識するものであり、それにしたがって制御部5も、基本的に何の指示がなくても第1音声認識部3aからの認識結果を取得している。
次に、制御部5は、音声認識開始指示部2による音声認識開始信号が出力されているか否かを判定する(ステップST02)。当該信号が出力されておらず、当該信号を受信していない場合(ステップST02のNOの場合)には、ステップST01で取得した第1音声認識部3aによる認識結果を出力する(ステップST03)。一方、音声認識開始信号が出力されていて、当該信号を受信した場合(ステップST02のYESの場合)には、第2音声認識部3bによる認識結果を取得し(ステップST04)、ステップST01にて取得した第1音声認識部3aによる認識結果ではなく、ステップST04にて取得した第2音声認識部3bによる認識結果を優先して出力する(ステップST05)。
このように、基本的には第1音声認識部3aにより常時、発話された音声を認識して出力している音声認識装置において、音声認識開始指示部2が押下された場合にのみ、第2音声認識部3bによる認識結果の出力を割り込ませて優先的に出力することができるようにしたので、例えば、騒音が小さい場所等で、より確実に音声を認識させたいようなときには、音声認識開始指示部2を押下することにより、認識率の高い音声認識結果を出力することができる。
以上のように、常時、発話された音声を認識している場合においても、音声認識開始指示の操作も受け付けて、その音声認識開始指示による精度の高い音声認識結果を優先して出力することとしたので、通常は認識の度に特定の操作を要する煩わしさを回避しつつ、発話者が所望する場合には、音声認識開始指示の操作により認識率が高い音声認識方法で認識させることができ、利便性が向上する。
なお、音声認識辞書4は、第1音声認識部3aと第2音声認識部3bとで同一の辞書を使用するものとして説明したが、各音声認識部で異なる音声認識辞書を使用するものとしてもよい。例えば、第2音声認識部3bで使用される辞書は、「次」「N行目」「前のページ」等の、表示されたリスト項目を選択する語彙のみを格納したもの、すなわち、第1音声認識部3aにより使用される音声認識辞書に比べて認識語彙が限定されているものとしてもよい。
このように音声認識辞書を異なるものとすることで、音声認識開始指示部2を押下して発話した場合には、さらに認識率が向上するため、発話者が特に認識に失敗したくないような場合等において、さらに利便性が向上する。
実施の形態2.
図3は、この発明の実施の形態2による音声認識装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2の音声認識装置20は、実施の形態1の音声認識装置10と比べると、画面情報取得部(周辺状態取得部)7と画面情報記憶部8をさらに備えている。また、制御部5の動作が実施の形態1とは異なり、後述するような動作となっている。
画面情報取得部(周辺状態取得部)7は、ナビゲーション部6の表示部(音声認識装置20が適用される装置の表示部)に表示されている画面の種別情報(例えば、画面毎に割り当てられたID、または画面名等。以下、同様)を取得する。
画面情報記憶部8は、図4(a)に示すように、ナビゲーション部6の表示部に表示される画面の種別情報であって、音声認識の失敗をさせたくない画面の種別情報、すなわち、その画面が第2音声認識部3bによる認識結果を採用する種別を付与されている画面であることを示し、第1音声認識部3aによる認識結果を出力しないと決定される画面の種別情報を記憶している。
そして、この実施の形態2の音声認識装置20における制御部5は、画面情報取得部7により取得された画面情報を検索キーとして、画面情報記憶部8を検索する。そして、検索キーと一致する画面の種別情報が画面情報記憶部8に存在している場合は、第1音声認識部3aによる認識結果をナビゲーション部6(音声認識装置20が適用される装置)に出力しないと決定し、存在していない場合には、通常どおり第1音声認識部3aによる認識結果を出力する。すなわち、制御部5は、画面情報取得部(周辺情報取得部)7により取得された画面の種別情報に基づいて、当該画面が第2音声認識部3bによる認識結果を採用する種別を付与されている画面であると判断した場合は、第1音声認識部3aによる認識結果を出力しない。
具体的には、例えば、メイン画面、施設検索画面、音楽検索画面等が表示部に表示されている場合には、通常どおり、常時行われている第1音声認識部3aによって音声認識が行われて認識結果が出力されればよいが、特に認識の失敗をさせたくないようなメニュー画面やリスト選択画面などが表示部に表示されている場合には、音声認識開始指示部2からの指示により精度よく音声認識を行ってくれる第2音声認識部3bの認識結果を使用したいため、第1音声認識部3aによる認識結果が出力されないようにする。
すなわち、特に認識の失敗をさせたくないようなメニュー画面やリスト選択画面などの画面には、第2音声認識部3bの認識結果を採用する種別が付与されており、ナビゲーション部6の表示部(音声認識装置20が適用される装置の表示部)に表示されている画面がそれらメニュー画面やリスト選択画面などの画面である場合には、制御部5は、その表示されている画面の種別情報に基づいて、当該画面は第2音声認識部3bの認識結果を採用する種別が付与されている画面である、と判断することができる。
次に、図5に示すフローチャートを用いて、実施の形態2の音声認識装置の動作を説明する。
まず、画面情報取得部(周辺状態取得部)7は、ナビゲーション部6から表示部に表示されている画面が変更された旨の通知を受けると、当該表示されている画面の種別情報を取得する(ステップST11)。次に、制御部5は、画面情報取得部7により取得された種別情報を検索キーとして画面情報記憶部8を検索する(ステップST12)。
画面情報記憶部8に記憶されている画面の種別情報の中に、ステップST11で取得した画面の種別情報が存在する場合(ステップST13のYESの場合)は、制御部5は、第1音声認識部3aによる認識結果を出力しない(ステップST14)。一方、当該種別情報が存在しない場合(ステップST13のNOの場合)であって、第1音声認識部3aによる認識結果の出力が停止中である場合(ステップST15のYESの場合)は、制御部5は、第1音声認識部3aによる認識結果の出力を再開させる(ステップST16)。また、取得した画面の種別情報が画面情報記憶部8に存在しない場合(ステップST13のNOの場合)であって、第1音声認識部3aによる認識結果の出力が停止中でない場合(ステップST15のNOの場合)は、何もせずに処理を終了し、通常どおりの音声認識および出力の処理を行う。
なお、画面情報記憶部8を、図4(b)のように画面の種別と第1音声認識部3aによる認識結果を出力するか否かを表すフラグを、画面の種別に対応付けて記憶しておくものとし、制御部5は、画面情報取得部7により取得された画面の種別情報を検索キーとして、画面情報記憶部8を検索し、一致する画面の種別情報に対応するフラグがFalseであれば第1音声認識部3aによる認識結果の出力を停止(ステップST14の処理)し、Trueであれば出力を再開(ステップST15およびST16の処理)するようにしてもよい。
また、図4(a)(b)において、画面名とIDのいずれか一方の項目がない構成としてもよい。
また、表示部に表示された画面に重畳して表示される表示部品の種別に基づいて、第1音声認識部3aによる認識結果を出力するか否かの判断を行うものとしてもよい。ここで当該重畳して表示される表示部品とは、例えば図6に示すように、施設検索を行った結果を提示する名称リスト13等である。図6は、ナビゲーション部6の表示部に表示されているナビゲーション画面の一例である。
図6は、地図上に自車の位置を示す自車マーク12が表示されている一般的なナビゲーション画面において、例えば、レストラン検索を行ったり、ステーキハウスの検索を行うなどした結果、ステーキハウスの名称リスト13が重畳して表示され、発話者による選択を待つ状態になっている。このように、発話者が何らかの選択をすべき状態の表示部品として名称リスト13の表示が行われた場合にも、音声認識の失敗をさせたくないため、第1音声認識部3bによる認識結果を出力しないように制御する。
また、この実施の形態2では、ナビゲーション部6の表示部に表示される画面の種別情報に基づいて、第1音声認識部3aによる認識結果を出力するか否かを判断するものとして説明したが、ナビゲーション部6で実行されている機能の種別情報に基づいて、第1音声認識部3aによる認識結果を出力するか否かの判断を行うものとしてもよい。すなわち、制御部5は、その機能が第2音声認識部3bによる認識結果を採用する種別を付与されている機能である、と判断した場合に、第1音声認識部による認識結果を出力しない。
例えば、実行されている機能が住所検索であった場合、住所はあいまい性が少なく、リストからの候補選択と同様、確実に認識させたい対象であり、音声認識の失敗をさせたくないため、その住所検索という機能には、第2音声認識部3bによる認識結果を採用する種別が付与されており、制御部5は、その機能の種別情報に基づいて、当該機能が第2音声認識部3bによる認識結果を採用する種別を付与されている機能である、と判断し、第1音声認識部3aによる認識結果を出力しないように制御する。この場合、図5に示すブロック図の画面情報取得部7を機能情報取得部(周辺状態取得部)として、ナビゲーション部6から現在実行されている機能の種別情報を取得するようにし、画面情報記憶部8を機能情報記憶部として、機能の種別情報を記憶するものとする。そして、制御部5によって、機能の種別情報を検索キーとして機能情報記憶部を検索するようにすればよい。
以上のように、音声認識装置が適用される装置で表示されている画面や実行されている機能に応じて、常時、音声認識している第1音声認識部による認識結果の出力を停止・再開するようにしたので、例えば、検索結果が表示されたリスト画面においてリスト項目を選択する等、特に認識を失敗させたくない状況では音声認識開始指示部2を押下して発話することで誤認識が少なくなり、また、常時、音声認識することにより誤認識または誤検出した結果が表示されてしまったり、誤認識または誤検出した結果に基づいて動作してしまったりすることがなくなるため、利便性が向上する。
実施の形態3.
図7は、この発明の実施の形態3による音声認識装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態3の音声認識装置30は、実施の形態1の音声認識装置10と比べると、走行状態取得部(周辺状態取得部)9をさらに備えている。また、制御部5の動作が実施の形態1とは異なり、後述するような動作となっている。
走行状態取得部(周辺状態取得部)9は、音声認識装置30が存する移動体の走行状態、例えば、停車中か否かの情報や、走行速度、エンジン回転数などを取得する。
そして、この実施の形態3における音声認識装置30の制御部5は、走行状態取得部9により取得された走行状態に応じて、第1音声認識部3aによる認識結果を出力するか否かを決定する。
具体的には、制御部5は、移動体の走行状態に基づいて、当該移動体が加速中または高速で移動中であると判断した場合には、第1音声認識部3aによる認識結果を出力しない。例えば、車両の停止中など、騒音が小さいと予想される場合には、常時行われている第1音声認識部3aによる認識結果が出力されればよいが、加速中や高速で移動中など、騒音が大きくて認識率がより低くなると予想される場合には、音声認識開始指示部2からの指示により精度よく音声認識を行ってくれる第2音声認識部3bによる認識結果を使用したいため、第1音声認識部3aによる認識結果が出力されないようにする。
次に、図8に示すフローチャートを用いて、実施の形態3の音声認識装置の動作を説明する。
まず、走行状態取得部(周辺状態取得部)9は、例えばCAN(Controller Area Network)信号等から、車両(移動体)の速度、ステアリング状態、パーキング状態、ブレーキ状態、エンジンの回転数など、移動体の走行状態を取得する(ステップST21)。次に、制御部5は、走行状態取得部9により取得された情報(移動体の走行状態)に基づいて、移動体が走行中か停車中か判断する(ステップST22)。
そして、移動体が停車中と判断され(ステップST22のYESの場合)、かつ、第1音声認識部3aによる認識結果の出力が停止中の場合(ステップST23のYESの場合)は、第1音声認識部3aによる認識結果の出力を再開する(ステップST24)。また、ステップST23において、第1音声認識部3aによる認識結果の出力が停止中でない場合(ステップST23のNOの場合)は、何もせずに処理を終了し、通常どおりの音声認識および出力の処理を行う。
一方、移動体が走行中と判断され(ステップST22のNOの場合)、かつ、走行速度が所定値以下(または、未満)である場合(ステップST25のYESの場合)は、ステップST23以降の処理を実行する。また、ステップST25において、走行速度が所定値より大きい(または、以上)である場合(ステップST25のNOの場合)は、第1音声認識部3aによる認識結果を出力しない(ステップST26)。
以上のように、移動体の走行状態に応じて、常時、音声認識している第1音声認識部による認識結果の出力を停止・再開するようにしたので、加速中や高速で走行中等、騒音が大きいと予想される場合に誤認識が発生することを抑制することができる一方、停車中等の騒音が小さいと予想される場合には、特定の操作無しに音声を認識させることができるので煩わしさを解消することができ、利便性が向上する。
なお、この実施の形態3では、走行速度が所定値より大きい(または、以上の)場合は、第1音声認識部3aによる認識結果を出力しないとして説明したが、それとは逆に、移動体が停車中には第1音声認識部3aによる認識結果の出力を停止し、走行速度が所定値より大きい(または、以上の)場合に、当該認識結果の出力を再開するようにしてもよい。これは、例えば運転初心者等にとっては、走行中にボタン等を操作することは危険であるため、移動体が停車中は音声認識開始指示部2を押下操作することによる第2音声認識部3bによる認識結果を採用し、走行中は常時認識による第1音声認識部3aの認識結果を出力するようにしてもよい、ということである。
また、所定値付近で走行速度が変化することによって、第1音声認識部3aによる認識結果の出力停止・出力再開が短時間で繰り返されることを避けるため、第1音声認識部3aによる認識結果の出力を再開する所定値と出力を停止するときの所定値を異なる値とするとよい。具体的には、例えば、出力を停止するときの所定値を60km/h、再開するときの所定値を70km/hとする等、ヒステリシスを持たせるようにする。これにより、所定値付近で走行速度が微妙に変化した場合であっても、頻繁に認識結果の出力停止と出力再開が繰り返される現象を避けることができる。
実施の形態4.
図9は、この発明の実施の形態4による音声認識装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態4の音声認識装置40は、実施の形態1の音声認識装置10と比べると、騒音取得部(周辺状態取得部)11をさらに備えている。また、制御部5の動作が実施の形態1とは異なり、後述するような動作となっている。
騒音取得部(周辺状態取得部)11は、マイクにより集音された音を解析し騒音音量を算出し出力する。すなわち、音声認識装置40周辺における騒音音量を取得する。
そして、この実施の形態4における音声認識装置40の制御部5は、騒音取得部11により取得された騒音音量に応じて、第1音声認識部3aによる認識結果の出力を停止または再開する。
具体的には、制御部5は、騒音音量が所定の値以上である場合には、第1音声認識部3aによる認識結果を出力しない。例えば、騒音音量が小さい場合には、常時行われている第1音声認識部3aによる認識結果が出力されればよいが、騒音音量が大きくて認識率がより低くなると予想される場合には、音声認識開始指示部2からの指示により精度よく音声認識を行ってくれる第2音声認識部3bによる認識結果を使用したいため、第1音声認識部3aによる認識結果が出力されないようにする。
次に、図10に示すフローチャートを用いて、実施の形態4の音声認識装置の動作を説明する。
まず、騒音取得部(周辺状態取得部)11は、マイクにより集音された音を解析し騒音音量を算出する(ステップST31)。次に、制御部5は、騒音取得部11により算出された騒音音量が所定の値以下(または、未満)であり(ステップST32のYESの場合)、かつ、第1音声認識部3aによる認識結果の出力が停止中である場合(ステップST33のYESの場合)は、第1音声認識部3aによる認識結果の出力処理を再開する(ステップST34)。また、第1音声認識部3aによる認識結果の出力が停止中でない場合(ステップST33のNOの場合)は、何もせずに処理を終了し、通常どおりの音声認識および出力の処理を行う。
一方、騒音取得部11により算出された騒音音量が所定の値より大きい(または、以上である)場合(ステップST32のNOの場合)は、第1音声認識部3aによる認識結果を出力しない(ステップST35)。
ここで、発話者が発話している最中に、騒音音量が所定の値より大きく(または、以上)なった場合は、その発話された音声について第1音声認識部3aによる認識結果の出力が完了するまで、第1音声認識部3aによる認識結果の出力を停止しないようにしてもよい。
なお、この実施の形態4では、マイクにより集音された音から騒音音量を決定したが、実施の形態3における走行状態取得部9からのエンジンの回転数に基づいて騒音音量を決定するようにしてもよい。
具体的には、騒音取得部11にエンジンの回転数と当該回転数に対応する騒音音量が対応付けて記憶されており、騒音取得部11はCAN信号等からエンジンの回転数を取得した走行状態取得部9からエンジンの回転数を取得し、当該取得した回転数に対応する騒音音量を決定する。
そして、制御部5は、当該騒音音量が所定の値以下(または、未満)か否かによって、第1音声認識部3aによる認識結果を出力するか否かを判断する。
また、実施の形態3の場合と同様に、第1音声認識部3aによる認識結果の出力を再開する所定の値と出力を停止するときの所定の値を異なる値とする等して、ヒステリシスを持たせてもよい。
また、騒音取得部11は、ナビゲーション部6を介して地図データから走行中の道路種別を取得し、当該道路種別に基づいて第1音声認識部3aによる認識結果を出力するか否かを判断するようにしてもよい。具体的には、取得した道路種別が「トンネル内の道路」である場合は、騒音が発生しやすいと判断して、第1音声認識部3aによる認識結果の出力しないように制御する等が考えられる。
以上のように、音声認識装置周辺の騒音音量に応じて、常時、音声認識している第1音声認識部による認識結果の出力を停止・再開するようにしたので、騒音が大きい場合に誤認識が発生することを抑制することができる一方、騒音が小さい場合は、特定の操作無しに音声を認識させることができるので煩わしさを解消することができ、利便性が向上する。
なお、上述した実施の形態2〜4において、第1音声認識部3aによる認識結果の出力が行われているか否かを示す絵や文字等(図11(a)または(b)参照)を図12のようにナビゲーション部6の表示部に表示するようにしてもよい。図11は、常時、音声認識を行っている第1音声認識部3aによる認識結果の出力が行われる状態であるか否かを明示する絵や文字等の例であり、図11(a)は絵によって示すもの、図11(b)は文字によって示すものである。図11(a)(b)いずれの図においても、左側が、第1音声認識部3aによる認識結果の出力が行われる状態であることを示しており、右側が、第1音声認識部3aによる認識結果の出力が停止している状態を示している。また、これら以外にも、記号等によって明示するようにしてもよい。
図12は、地図上に自車の位置を示す自車マーク12が表示されている一般的なナビゲーション画面において、図11に示すような第1音声認識部3aによる認識結果の出力が行われる状態であるか否かを示す絵や文字等14を表示した例である。現在、第1音声認識部3aによる認識結果の出力が行われる状態である場合には、図12に示すように、例えば、当該画面の左下に、図11(b)の左側の文字を表示するようにすればよい。
この場合、例えば、制御部5から当該表示の要否を示す信号を出力するようにしてもよい。また、第1音声認識部3aによる認識結果の出力処理が行われているか否かによって、表示画面の色を変えてもよいし、画面に表示されている音声認識開始指示部2の色を変えるなどしてもよい。これにより、常時、音声認識している第1音声認識部3aによる認識結果の出力が停止しているか否かを発話者が即座に知ることができるようになり、利便性が向上する。
また、上述した実施の形態4において、図13に示すように、騒音音量15と所定の値(騒音音量の閾値)16を表示部に視覚的に表示してもよい。図13は、地図上に自車の位置を示す自車マーク12が表示されている一般的なナビゲーション画面において、現在の音声認識装置周辺の騒音音量15と、その騒音音量が所定の値16を超えているか否かを明示するための所定の値16とが重畳して表示されている。これにより、発話者は、騒音音量によって、常時、音声認識している第1音声認識部3aによる認識結果の出力が停止しているか否かを視覚的に把握することができるようになり、利便性が向上する。
さらに、図12に示すように第1音声認識部3aによる認識結果の出力が行われる状態であるか否かを示す絵や文字等14を表示した上で、図13に示すような騒音音量15と所定の値(騒音音量の閾値)16を表示するようにしてもよい。これにより、常時、音声認識している第1音声認識部3aによる認識結果の出力が停止しているか否かということと、それは騒音音量が大きい(または小さい)からであるという理由も含めて、発話者が視覚的に即座に把握することができるようになり、さらに利便性が向上する。
なお、以上の実施の形態では、この発明における音声認識装置を車両等の移動体に搭載されるナビゲーション装置に適用するものとして説明したが、適用するナビゲーション装置は車両用に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用のナビゲーション装置や、スマートフォン、タブレットPC、携帯電話等にインストールされるナビゲーションシステム等、どのような形態のものにも適用することができる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明の音声認識装置は、車両等の移動体に搭載されるナビゲーション装置や、スマートフォン、タブレットPC、携帯電話等にインストールされるナビゲーションシステム等に適用することができる。
1 音声取得部、2 音声認識開始指示部、3 音声認識部、3a 第1音声認識部、3b 第2音声認識部、4 音声認識辞書、5 制御部、6 ナビゲーション部、7 画面情報取得部(周辺状態取得部)、8 画面情報記憶部、9 走行状態取得部(周辺状態取得部)、10,20,30,40 音声認識装置、11 騒音取得部(周辺状態取得部)、12 自車マーク、13 名称リスト、14 第1音声認識部3aによる認識結果の出力が行われる状態であるか否かを示す絵や文字等、15 騒音音量、16 所定の値(騒音音量の閾値)。

Claims (8)

  1. 発話された音声を認識する音声認識装置において、
    前記発話された音声を検知して取得する音声取得部と、
    前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する第1音声認識部と、
    音声認識開始の指示信号を出力する音声認識開始指示部と、
    前記音声認識開始指示部により出力された信号を受信すると、前記音声取得部により取得された音声データを認識する第2音声認識部と、
    前記第1音声認識部または前記第2音声認識部による認識結果を取得して出力する制御部と、を備え、
    前記制御部は、前記第1音声認識部による認識結果を取得し、前記音声認識開始指示部により出力された信号を受信していない場合には、前記第1音声認識部による認識結果を前記音声認識装置が適用される装置に出力し、前記音声認識開始指示部により出力された信号を受信した場合には、前記第2音声認識部による認識結果を取得し、当該第2音声認識部による認識結果を前記第1音声認識部による認識結果より優先して出力する
    ことを特徴とする音声認識装置。
  2. 周辺状態を取得する周辺状態取得部をさらに備え、
    前記制御部は、前記周辺状態取得部により取得された周辺状態に基づいて、前記第1音声認識部による認識結果を出力するか否かを決定する
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記周辺状態は、前記音声認識装置が適用される装置の表示部に表示される画面の種別情報であり、
    前記制御部は、前記画面の種別情報に基づいて、当該画面が前記第2音声認識部による認識結果を採用する種別を付与されている画面である、と判断した場合に、前記第1音声認識部による認識結果を出力しない
    ことを特徴とする請求項2記載の音声認識装置。
  4. 前記周辺状態は、前記音声認識装置が適用される装置で実行されている機能の種別情報であり、
    前記制御部は、前記機能の種別情報に基づいて、当該機能が前記第2音声認識部による認識結果を採用する種別を付与されている機能である、と判断した場合に、前記第1音声認識部による認識結果を出力しない
    ことを特徴とする請求項2記載の音声認識装置。
  5. 前記音声認識装置は、移動体に搭載され、
    前記周辺状態は、前記移動体の走行状態であり、
    前記制御部は、前記移動体の走行状態に基づいて、当該移動体が加速中または高速で移動中であると判断した場合に、前記第1音声認識部による認識結果を出力しない
    ことを特徴とする請求項2記載の音声認識装置。
  6. 前記周辺状態は、前記音声認識装置周辺の騒音音量であり、
    前記制御部は、前記騒音音量が所定の値以上である場合に、前記第1音声認識部による認識結果を出力しない
    ことを特徴とする請求項2記載の音声認識装置。
  7. 前記制御部は、前記第1音声認識部による認識結果を出力しない状態であるか否かを、前記音声認識装置が適用される装置の表示部に表示する
    ことを特徴とする請求項2記載の音声認識装置。
  8. 前記制御部は、前記周辺状態取得部により取得された騒音音量を、前記音声認識装置が適用される装置の表示部に視覚的に表示する
    ことを特徴とする請求項6記載の音声認識装置。
JP2014544199A 2012-11-05 2012-11-05 音声認識装置 Expired - Fee Related JP5677650B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/078625 WO2014068788A1 (ja) 2012-11-05 2012-11-05 音声認識装置

Publications (2)

Publication Number Publication Date
JP5677650B2 true JP5677650B2 (ja) 2015-02-25
JPWO2014068788A1 JPWO2014068788A1 (ja) 2016-09-08

Family

ID=50626751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014544199A Expired - Fee Related JP5677650B2 (ja) 2012-11-05 2012-11-05 音声認識装置

Country Status (5)

Country Link
US (1) US9378737B2 (ja)
JP (1) JP5677650B2 (ja)
CN (1) CN104756185B (ja)
DE (1) DE112012007103B4 (ja)
WO (1) WO2014068788A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP6744025B2 (ja) * 2016-06-21 2020-08-19 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
WO2018080532A1 (en) 2016-10-31 2018-05-03 Rovi Guides, Inc. Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset
WO2018090252A1 (zh) * 2016-11-16 2018-05-24 深圳达闼科技控股有限公司 机器人语音指令识别的方法及相关机器人装置
JP2018116206A (ja) * 2017-01-20 2018-07-26 アルパイン株式会社 音声認識装置、音声認識方法及び音声認識システム
WO2018174884A1 (en) 2017-03-23 2018-09-27 Rovi Guides, Inc. Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset
KR20220114094A (ko) * 2017-05-24 2022-08-17 로비 가이드스, 인크. 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템
JP6996944B2 (ja) * 2017-11-07 2022-01-17 アルパイン株式会社 音声認識システム
CN109462694A (zh) * 2018-11-19 2019-03-12 维沃移动通信有限公司 一种语音助手的控制方法及移动终端
CN111629156A (zh) * 2019-02-28 2020-09-04 北京字节跳动网络技术有限公司 图像特效的触发方法、装置和硬件装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713591A (ja) * 1993-06-22 1995-01-17 Hitachi Ltd 音声認識装置および音声認識方法
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
JP2004219728A (ja) * 2003-01-15 2004-08-05 Matsushita Electric Ind Co Ltd 音声認識装置
JP2006010739A (ja) * 2004-06-22 2006-01-12 Toyota Central Res & Dev Lab Inc 音声認識装置
JP2006215418A (ja) * 2005-02-07 2006-08-17 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP2006251298A (ja) * 2005-03-10 2006-09-21 Nissan Motor Co Ltd 音声入力装置および音声入力方法
JP2010078986A (ja) * 2008-09-26 2010-04-08 Hitachi Ltd 音声認識による機器制御装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635497A (ja) * 1992-07-16 1994-02-10 Nippon Telegr & Teleph Corp <Ntt> 音声入力装置
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
DE19533541C1 (de) 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
JP3764302B2 (ja) * 1999-08-04 2006-04-05 株式会社東芝 音声認識装置
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
JP2004239963A (ja) * 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
JP2004354722A (ja) 2003-05-29 2004-12-16 Nissan Motor Co Ltd 音声認識装置
US7418392B1 (en) * 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
JP5208104B2 (ja) * 2006-05-12 2013-06-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 第1の適応化データ処理バージョンから第2の適応化データ処理バージョンに切り替えるための方法
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
CN101039359B (zh) * 2007-04-30 2011-11-16 华为技术有限公司 电话会议中提示发言人信息的方法、设备和系统
DE102007042583B4 (de) * 2007-09-07 2010-12-09 Audi Ag Verfahren zur Kommunikation zwischen einer natürlichen Person und einem künstlichen Sprachsystem sowie Kommunikationssystem
DE102008051756A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20110111805A1 (en) 2009-11-06 2011-05-12 Apple Inc. Synthesized audio message over communication links
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
EP2639793B1 (en) * 2012-03-15 2016-04-20 Samsung Electronics Co., Ltd Electronic device and method for controlling power using voice recognition
CN102750087A (zh) * 2012-05-31 2012-10-24 华为终端有限公司 控制语音识别功能的方法、装置和终端设备
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713591A (ja) * 1993-06-22 1995-01-17 Hitachi Ltd 音声認識装置および音声認識方法
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
JP2004219728A (ja) * 2003-01-15 2004-08-05 Matsushita Electric Ind Co Ltd 音声認識装置
JP2006010739A (ja) * 2004-06-22 2006-01-12 Toyota Central Res & Dev Lab Inc 音声認識装置
JP2006215418A (ja) * 2005-02-07 2006-08-17 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP2006251298A (ja) * 2005-03-10 2006-09-21 Nissan Motor Co Ltd 音声入力装置および音声入力方法
JP2010078986A (ja) * 2008-09-26 2010-04-08 Hitachi Ltd 音声認識による機器制御装置

Also Published As

Publication number Publication date
US9378737B2 (en) 2016-06-28
CN104756185B (zh) 2018-01-09
DE112012007103B4 (de) 2017-02-02
DE112012007103T5 (de) 2015-07-30
US20150279363A1 (en) 2015-10-01
WO2014068788A1 (ja) 2014-05-08
JPWO2014068788A1 (ja) 2016-09-08
CN104756185A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
JP5677650B2 (ja) 音声認識装置
CN106796786B (zh) 语音识别系统
JP5762660B2 (ja) 音声認識装置、認識結果表示装置および表示方法
JP5921722B2 (ja) 音声認識装置および表示方法
JP4859982B2 (ja) 音声認識装置
JP6227209B2 (ja) 車載用音声認識装置および車載機器
WO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
JP2002041085A (ja) 音声認識装置及び記録媒体
JP4466379B2 (ja) 車載音声認識装置
US20100229116A1 (en) Control aparatus
JP6214297B2 (ja) ナビゲーション装置および方法
WO2013054375A1 (ja) ナビゲーション装置、方法およびプログラム
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
JP2010039099A (ja) 音声認識および車載装置
JP2016133378A (ja) カーナビゲーション装置
JP2006208486A (ja) 音声入力装置
WO2016103465A1 (ja) 音声認識システム
JP2007101892A (ja) 音声認識装置
JP5772214B2 (ja) 音声認識装置
US10158745B2 (en) Vehicle and communication control method for determining communication data connection for the vehicle
JP4453377B2 (ja) 音声認識装置、プログラム及びナビゲーション装置
JP2008145676A (ja) 音声認識装置及び車両ナビゲーション装置
JP2017187559A (ja) 音声認識装置及びコンピュータプログラム
JPWO2013069060A1 (ja) ナビゲーション装置、方法およびプログラム
JP2003162296A (ja) 音声入力装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20141125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141226

R150 Certificate of patent or registration of utility model

Ref document number: 5677650

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees