JP6827536B2

JP6827536B2 - 音声認識装置および音声認識方法

Info

Publication number: JP6827536B2
Application number: JP2019519913A
Authority: JP
Inventors: 匠武井; 尚嘉竹裏
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2021-02-10
Anticipated expiration: 2037-05-25
Also published as: US20200111493A1; DE112017007587T5; WO2018216180A1; JPWO2018216180A1; CN110663078A

Description

この発明は、話者の音声を音声認識し、機器を制御するための情報を抽出する技術に関するものである。

従来、複数の話者の音声が存在する場合であっても、当該話者の音声が機器の制御を指示するための音声であるのか、または話者間の会話の音声であるのかを判断する際の誤認識の発生を低減するための技術が用いられている。
例えば、特許文献１には、過去の一定時間内に複数話者の話者音声を検出した場合に、会話を構成する話者音声であると判断し、予め決められたキーワードの検出処理を行わないこととする音声認識装置が開示されている。

特開２００５−１５７０８６号公報

上記特許文献１に記載された音声認識装置によれば、複数の集音手段を用いてある話者の話者音声の検出を行い、話者音声が検出された後、一定時間内に他の話者の発話音声が集音されたかを検出することにより、話者間の会話を検出している。そのため、集音手段が複数必要となるという課題があった。また、話者間の会話を検出するためには一定時間待機する必要があり、予め決められたキーワードの検出処理にも遅延が生じ、操作性が低下するという課題があった。

この発明は、上記のような課題を解決するためになされたもので、複数の集音手段を必要とすることなく、話者音声の誤認識を抑制し、且つ遅延時間を設けることなく、機器を操作するための操作コマンドの抽出を行うことを目的とする。

この発明に係る音声認識装置は、話者音声の音声認識を行う音声認識部と、音声認識部の認識結果から、予め設定された話者間の会話に出現し得るキーワードを抽出するキーワード抽出部と、キーワード抽出部の抽出結果を参照し、抽出されたキーワードが入力された場合に話者音声が会話であると判定し、キーワードの入力がなされなかった場合に前記話者音声が会話ではないと判定する会話判定部と、会話判定部が会話でないと判定した場合に、音声認識部の認識結果から機器を操作するためのコマンドを抽出し、会話判定部が会話であると判定した場合に、認識結果からコマンドを抽出しない操作コマンド抽出部とを備えるものである。予め設定されたキーワードは、人名または呼びかけを示す言葉である。

この発明によれば、単一の集音手段で集音された話者音声に基づいて、話者音声の誤認識を抑制することができる。また、遅延時間を設けることなく、機器を操作するための操作コマンドの抽出を行うことができる。

実施の形態１に係る音声認識装置の構成を示すブロック図である。図２Ａおよび図２Ｂは、音声認識装置のハードウェア構成例を示す図である。実施の形態１に係る音声認識装置の音声認識処理の動作を示すフローチャートである。実施の形態１に係る音声認識装置の会話判定処理の動作を示すフローチャートである。実施の形態１に係る音声認識装置のその他の構成を示す図である。実施の形態１に係る音声認識装置に接続された表示装置の表示画面の表示例を示す図である。実施の形態２に係る音声認識装置の構成を示すブロック図である。実施の形態２に係る音声認識装置の会話判定処理の動作を示すフローチャートである。実施の形態３に係る音声認識装置の構成を示すブロック図である。実施の形態３に係る音声認識装置のキーワード登録処理の動作を示すフローチャートである。実施の形態１に係る構成を音声認識装置およびサーバ装置が連携して担う場合の例を示したブロック図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、実施の形態１に係る音声認識装置１００の構成を示すブロック図である。
音声認識装置１００は、音声認識部１０１、音声認識辞書格納部１０２、キーワード抽出部１０３、キーワード格納部１０４、会話判定部１０５、操作コマンド抽出部１０６および操作コマンド格納部１０７を備える。
図１に示すように、音声認識装置１００は、例えばマイク２００およびナビゲーション装置３００に接続される。なお、音声認識装置１００に接続される制御機器は、ナビゲーション装置３００に限定されるものではない。

音声認識部１０１は、単一のマイク２００が集音した話者音声の入力を受け付ける。音声認識部１０１は、入力された話者音声の音声認識を行い、得られた認識結果をキーワード抽出部１０３、会話判定部１０５および操作コマンド抽出部１０６に出力する。
詳細には、音声認識部１０１は、話者音声を、例えばＰＣＭ（Pulse Code Modulation）によりＡ／Ｄ（Analog/Digital）変換し、デジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出する。音声認識部１０１は、検出した音声区間の音声データ、または音声データの特徴量を抽出する。なお、音声認識装置１００の使用環境に応じて、音声データから特徴量を抽出する前段で、信号処理等によるスペクトル・サブトラクション法等の雑音除去処理またはエコー除去処理を実行してもよい。

音声認識部１０１は、音声認識辞書格納部１０２に格納された音声認識辞書を参照し、抽出した音声データまたは音声データの特徴量の認識処理を行い、認識結果を取得する。音声認識部１０１が取得する認識結果は、音声区間情報、認識結果文字列、当該認識結果文字列に対応付けられたＩＤ等の識別情報、または尤度を示す認識スコアのうちの少なくともいずれか１つを含むものである。ここで、認識結果文字列とは、音節列、単語および単語列である。音声認識部１０１の認識処理は、例えばＨＭＭ（Hidden Markov Model）法のような一般的な方法を適用して行われる。

音声認識部１０１が音声認識処理を開始するタイミングは適宜設定可能である。例えば、音声認識の開始を指示するボタン（図示しない）をユーザが押下すると、当該押下を検出した信号が音声認識部１０１に入力され、音声認識部１０１が音声認識を開始するように構成することが可能である。

音声認識辞書格納部１０２は、音声認識辞書を格納する。
音声認識辞書は、音声認識部１０１が話者音声の音声認識処理を行う際に参照する辞書であり、音声認識の対象となる語が定義されている。音声認識辞書への語の定義は、ＢＮＦ（Backus-Naur Form）記法を用いて列挙したもの、ネットワーク文法により単語列をネットワーク状に記述したもの、または統計的言語モデルにより単語連鎖等を確率的にモデル化したもの等、一般的な方法を適用することができる。
また、音声認識辞書には、予め用意されている辞書と、接続されたナビゲーション装置３００において動作中に必要に応じて動的に生成された辞書とがある。

キーワード抽出部１０３は、音声認識部１０１から入力された認識結果に記載された認識結果文字列内に、キーワード格納部１０４に登録されたキーワードが存在するか探索する。キーワード抽出部１０３は、認識結果文字列内に登録されたキーワードが存在する場合には、当該キーワードを抽出する。キーワード抽出部１０３は、認識結果文字列からキーワードを抽出した場合には、抽出したキーワードを会話判定部１０５に出力する。

キーワード格納部１０４は、話者間の会話に出現し得るキーワードを格納している。ここで、話者間の会話とは、例えば音声認識装置１００が車両に搭載されている場合に、当該車両内にいる人同士の会話、および車両内にいる一方の人から車両内にいる他方の人に向けて行われた発話等である。また、話者間の会話に出現し得るキーワードとは、例えば人名（姓、名、フルネームおよび愛称等）または呼びかけを示す言葉（ねえ、おい、なあ等）等である。
なお、人名に関しては、話者間の会話に出現すると想定される全ての人名をキーワードとしてキーワード格納部１０４に格納した場合、話者間の会話でない音声についても会話であると誤検出する可能性が高くなる。当該誤検出を回避する目的で、音声認識装置１００は、カメラの撮像画像、または生体認証装置の認証結果等から、予め推定された話者の人名をキーワードとして、キーワード格納部１０４に格納させる処理を行ってもよい。また、音声認識装置１００は、話者が保有する携帯端末、またはクラウドサービス等に接続して得られた、アドレス帳等の登録情報に基づいて、話者を推定し、推定した話者の人名をキーワードとしてキーワード格納部１０４に格納させる処理を行ってもよい。

会話判定部１０５は、キーワード抽出部１０３から抽出されたキーワードが入力されると、音声認識部１０１から入力される認識結果を参照し、入力されたキーワードおよび当該キーワードから後に続く音声を話者間の会話であると判定する。会話判定部１０５は、話者間の会話であるとの判定結果を操作コマンド抽出部１０６に出力する。
また、会話判定部１０５は、会話であると判定した後、当該判定に用いた認識結果の音声区間を示す情報と、音声認識部１０１から取得した新たな認識結果の音声区間を示す情報とを比較し、会話が継続しているか、または会話が終了したかを推定する。会話判定部１０５は、会話が終了したと推定した場合、当該会話の終了を操作コマンド抽出部１０６に出力する。

会話判定部１０５は、キーワード抽出部１０３からキーワードの入力がなされなかった場合、話者間の会話ではないと判定する。会話判定部１０５は、話者間の会話でないとの判定結果を操作コマンド抽出部１０６に出力する。

操作コマンド抽出部１０６は、会話判定部１０５から入力された判定結果を参照し、話者間の会話でないとの判定結果であった場合、音声認識部１０１から入力された認識結果からナビゲーション装置３００を操作するためのコマンド（以下、操作コマンドと記載する）を抽出する。操作コマンド抽出部１０６は、操作コマンド格納部１０７に格納された操作コマンドと一致するまたは類似する文言が、認識結果に含まれていた場合に、対応する操作コマンドとして抽出する。

操作コマンドは、例えば「ルート変更」、「レストラン検索」または「認識処理開始」等であり、当該操作コマンドと一致するまたは類似する文言とは、例えば「ルート変更」「近くのレストラン」または「音声認識開始」等である。操作コマンド抽出部１０６は、操作コマンド格納部１０７に予め格納された操作コマンドの文言そのものに一致または類似する文言から操作コマンドを抽出してもよいし、操作コマンドまたは操作コマンドの一部をキーワードとして抽出し、抽出したキーワードまたは抽出したキーワードの組み合わせに対応した操作コマンドを抽出してもよい。操作コマンド抽出部１０６は、抽出した操作コマンドが示す操作内容を、ナビゲーション装置３００に出力する。

一方、操作コマンド抽出部１０６は、会話判定部１０５から話者間の会話であるとの判定結果が入力された場合、音声認識部１０１から入力された認識結果から操作コマンドを抽出しない、または認識結果に記載された認識スコアを補正して操作コマンドを抽出しにくく設定する。
具体的には、操作コマンド抽出部１０６には、予め認識スコアの閾値が設定されているものとし、認識スコアが当該閾値以上である場合には操作コマンドをナビゲーション装置３００に出力し、当該閾値未満である場合には操作コマンドをナビゲーション装置３００に出力しない構成する。操作コマンド抽出部１０６は、会話判定部１０５から話者間の会話であるとの判定結果が入力されると、例えば認識結果の認識スコアを予め設定された閾値未満の値に設定する。

操作コマンド格納部１０７は、操作コマンドを格納する領域である。操作コマンド格納部１０７は、上述した「ルート変更」等の機器を操作するための文言を格納している。また、操作コマンド格納部１０７は、操作コマンドの文言に対応付けて、ナビゲーション装置３００が解釈可能な形式に変換した情報を格納していてもよい。その場合、操作コマンド抽出部１０６は、操作コマンド格納部１０７から、ナビゲーション装置３００が解釈可能な形式に変換した情報を取得する。

次に、音声認識装置１００のハードウェア構成例を説明する。
図２Ａおよび図２Ｂは、音声認識装置１００のハードウェア構成例を示す図である。
音声認識装置１００における音声認識部１０１、キーワード抽出部１０３、会話判定部１０５および操作コマンド抽出部１０６の各機能は、処理回路により実現される。即ち、音声認識装置１００は、上記各機能を実現するための処理回路を備える。当該処理回路は、図２Ａに示すように専用のハードウェアである処理回路１００ａであってもよいし、図２Ｂに示すようにメモリ１００ｃに格納されているプログラムを実行するプロセッサ１００ｂであってもよい。

図２Ａに示すように、音声認識部１０１、キーワード抽出部１０３、会話判定部１０５および操作コマンド抽出部１０６が専用のハードウェアである場合、処理回路１００ａは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-programmable Gate Array）、またはこれらを組み合わせたものが該当する。音声認識部１０１、キーワード抽出部１０３、会話判定部１０５および操作コマンド抽出部１０６の各部の機能それぞれを処理回路で実現してもよいし、各部の機能をまとめて１つの処理回路で実現してもよい。

図２Ｂに示すように、音声認識部１０１、キーワード抽出部１０３、会話判定部１０５および操作コマンド抽出部１０６がプロセッサ１００ｂである場合、各部の機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアはプログラムとして記述され、メモリ１００ｃに格納される。プロセッサ１００ｂは、メモリ１００ｃに記憶されたプログラムを読み出して実行することにより、音声認識部１０１、キーワード抽出部１０３、会話判定部１０５および操作コマンド抽出部１０６の各機能を実現する。即ち、音声認識部１０１、キーワード抽出部１０３、会話判定部１０５および操作コマンド抽出部１０６は、プロセッサ１００ｂにより実行されるときに、後述する図３および図４に示す各ステップが結果的に実行されることになるプログラムを格納するためのメモリ１００ｃを備える。また、これらのプログラムは、音声認識部１０１、キーワード抽出部１０３、会話判定部１０５および操作コマンド抽出部１０６の手順または方法をコンピュータに実行させるものであるともいえる。

ここで、プロセッサ１００ｂとは、例えば、ＣＰＵ（Central Processing Unit）、処理装置、演算装置、プロセッサ、マイクロプロセッサ、マイクロコンピュータ、またはＤＳＰ（Digital Signal Processor）などのことである。
メモリ１００ｃは、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（Electrically EPROM）等の不揮発性または揮発性の半導体メモリであってもよいし、ハードディスク、フレキシブルディスク等の磁気ディスクであってもよいし、ミニディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等の光ディスクであってもよい。

なお、音声認識部１０１、キーワード抽出部１０３、会話判定部１０５および操作コマンド抽出部１０６の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。このように、音声認識装置１００における処理回路１００ａは、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現することができる。

次に、音声認識装置１００の動作について説明する。
音声認識装置１００の動作は、音声認識処理と、会話判定処理とに分けて説明する。
まず、図３のフローチャートを参照しながら、音声認識処理について説明する。
図３は、実施の形態１に係る音声認識装置１００の音声認識処理の動作を示すフローチャートである。
マイク２００が集音した話者音声が入力されると（ステップＳＴ１）、音声認識部１０１は、音声認識辞書格納部１０２に格納された音声認識辞書を参照し、入力された話者音声の音声認識を行い、認識結果を取得する（ステップＳＴ２）。音声認識部１０１は、取得した認識結果をキーワード抽出部１０３、会話判定部１０５および操作コマンド抽出部１０６に出力する。

キーワード抽出部１０３は、ステップＳＴ２で取得された認識結果に記載された認識結果文字列から、キーワード格納部１０４に登録されたキーワードを探索する（ステップＳＴ３）。キーワード抽出部１０３は、ステップＳＴ３においてキーワードが探索された場合、探索されたキーワードを抽出する（ステップＳＴ４）。キーワード抽出部１０３は、ステップＳＴ４の抽出結果を会話判定部１０５に出力する（ステップＳＴ５）。その後、ステップＳＴ１の処理に戻り、上述した処理を繰り返す。なお、ステップＳＴ３において、キーワード抽出部１０３がキーワードを抽出しなかった場合には、キーワードが抽出されなかったことを会話判定部１０５に出力する。

次に、音声認識装置１００の会話判定処理について説明する。
図４は、実施の形態１に係る音声認識装置１００の会話判定処理の動作を示すフローチャートである。
会話判定部１０５は、図３のフローチャートで示したステップＳＴ５の処理により入力されたキーワードの抽出結果を参照し、話者音声が会話であるか否か判定を行う（ステップＳＴ１１）。会話でないと判定した場合（ステップＳＴ１１；ＮＯ）、会話判定部１０５は、判定結果を操作コマンド抽出部１０６に出力する。操作コマンド抽出部１０６は、操作コマンド格納部１０７を参照し、音声認識部１０１の認識結果から操作コマンドを抽出し、ナビゲーション装置３００に出力する（ステップＳＴ１２）。その後、フローチャートは、ステップＳＴ１１の処理に戻る。

一方、会話であると判定した場合（ステップＳＴ１１；ＹＥＳ）、会話判定部１０５は、判定結果を操作コマンド抽出部１０６に出力する。操作コマンド抽出部１０６は、操作コマンドの抽出を停止する（ステップＳＴ１３）。操作コマンド抽出部１０６は、操作コマンドの抽出を停止したことを会話判定部１０５に通知する。会話判定部１０５は、操作コマンドの抽出が停止されたことが通知されると、音声認識部１０１から新たな認識結果の音声区間を示す情報を取得する（ステップＳＴ１４）。会話判定部１０５は、ステップＳＴ１４で取得した音声区間と、当該音声区間の一つ前の認識結果の音声区間との間隔を測定する（ステップＳＴ１５）。

会話判定部１０５は、ステップＳＴ１５で測定した間隔が予め設定した閾値（例えば、１０秒）以下であるか否か判定を行う（ステップＳＴ１６）。測定した間隔が閾値以下であった場合（ステップＳＴ１６；ＹＥＳ）、会話判定部１０５は会話が継続していると推定し（ステップＳＴ１７）、ステップＳＴ１４の処理に戻る。一方、測定した間隔が閾値より大きかった場合（ステップＳＴ１６；ＮＯ）、会話判定部１０５は会話が終了したと推定し（ステップＳＴ１８）、当該会話の終了を操作コマンド抽出部１０６に通知する（ステップＳＴ１９）。操作コマンド抽出部１０６は、操作コマンドの抽出停止を解除し（ステップＳＴ２０）、ステップＳＴ１１の処理に戻る。

なお、上述した図４のフローチャートのステップＳＴ１３の処理において、操作コマンドの抽出を停止する処理を示したが、操作コマンド抽出部１０６が音声認識部１０１から取得した認識結果の認識スコアを補正して操作コマンドが抽出されない設定とする処理を行ってもよい。その場合、ステップＳＴ２０の処理において、操作コマンド抽出部１０６は、認識スコアの補正を解除する。

また、上述した図４のフローチャートのステップＳＴ１２またはステップＳＴ１３の処理において、操作コマンド抽出部１０６が、発話者の音声と操作コマンドとの一致度等に基づいて算出される信頼度を示すスコアを、予め設定された閾値と比較し、スコアが閾値以下である場合には、操作コマンドを抽出しない構成としてもよい。ここで、予め設定された閾値とは、例えば、スコアの最大値「１０００」である場合に、「５００」と設定される値である。
さらに、操作コマンド抽出部１０６は、話者音声が会話であるか否かの判定結果に応じて、スコアの補正を行う。当該スコアの補正により、話者音声が会話であると判定された場合に、操作コマンドの抽出が抑制される。操作コマンド抽出部１０６は、会話であると判定された場合（ステップＳＴ１１；ＹＥＳ）に、スコアの値（例えば、「６００」）から所定の値（例えば、「３００」）を減算し、減算後のスコアの値（例えば、「３００」）と閾値（例えば、「５００」）との比較を行う。この例の場合、操作コマンド抽出部１０６は、話者音声から操作コマンドを抽出しない。このように、操作コマンド抽出部１０６は、会話であると判定されている場合には、明らかにコマンドを発話しているとの高い信頼度を示す話者音声のみから操作コマンドを抽出する。なお、操作コマンド抽出部１０６は、会話でないと判定された場合（ステップＳＴ１１；ＮＯ）、スコアの値（例えば、「６００」）から所定の値を減算する処理を行わず、閾値（例えば、「５００」）との比較を行う。この例の場合、操作コマンド抽出部１０６は、話者音声から操作コマンドを抽出する。

また、ステップＳＴ１４からステップＳＴ１６において、会話判定部１０５は、２つの音声区間の間隔に基づいて会話が終了したか否か推定する処理を示した。当該処理に加えて、会話判定部１０５は、最後に音声区間が取得されてから予め設定した時間（例えば、１０秒等）以上経過した場合にも、会話が終了したと推定してもよい。

次に、図３および図４で示したフローチャートについて、具体例を挙げながら説明をする。まず、キーワード格納部１０４は、例えば「Ａ君／Ａさん／Ａ」、および「Ｂ君／Ｂさん／Ｂ」等の情報が登録されているものとする。また、話者音声として「Ａさん、コンビニ寄る？」との会話が入力された場合を例に説明する。
図３のフローチャートのステップＳＴ１において、集音された「Ａさん、コンビニ寄る？」という話者音声が入力される。ステップＳＴ２において、音声認識部１０１は音声区間を検出し、［Ａさん、コンビニ寄る］という認識結果の文字列を取得する。ステップＳＴ３において、キーワード抽出部１０３は、認識結果の文字列に対して、キーワードの探索を行う。ステップＳＴ４において、キーワード抽出部１０３は、キーワード格納部１０４を参照して探索を行い、「Ａさん」というキーワードを抽出する。ステップＳＴ５において、キーワード抽出部１０３は、抽出したキーワード「Ａさん」を会話判定部１０５に出力する。

次に、図４のフローチャートのステップＳＴ１１において、会話判定部１０５は、キーワードが入力されたことから、話者音声は会話であると判定する（ステップＳＴ１１；ＹＥＳ）。ステップＳＴ１３において、操作コマンド抽出部１０６は、［Ａさん、コンビニ寄る］という認識結果の文字列から、操作コマンドを抽出するのを停止する。

その後、音声認識装置１００に、「そうだね」という話者音声が入力されたものとする。ステップＳＴ１４において、会話判定部１０５は、音声認識部１０１から新たな認識結果「そうだね」の音声区間の情報を取得する。ステップＳＴ１５において、会話判定部１０５は、認識結果「そうだね」の音声区間と、認識結果［Ａさん、コンビニ寄る］の音声区間との間隔を「３秒」と測定する。ステップＳＴ１６において、会話判定部１０５は、間隔が１０秒以下であると判定し（ステップＳＴ１６；ＹＥＳ）、ステップＳＴ１７において会話が継続していると推定する。その後、フローチャートはステップＳＴ１４の処理に戻る。

一方、ステップＳＴ１５において、会話判定部１０５が上述した２つの音声区間の間隔を「１２秒」と測定した場合には、間隔が１０秒より大きいと判定し（ステップＳＴ１６；ＮＯ）、ステップＳＴ１８において会話が終了したと推定する。ステップＳＴ１９において、会話判定部１０５は会話の終了を操作コマンド抽出部１０６に通知する。ステップＳＴ２０において、操作コマンド抽出部１０６は、操作コマンドの抽出停止を解除する。その後、フローチャートはステップＳＴ１４の処理に戻る。

次に、話者音声として「コンビニ寄る」との操作指示が入力された場合を例に説明する。
図３のフローチャートのステップＳＴ１において、集音された「コンビニ寄る」という話者音声が入力される。ステップＳＴ２において、音声認識部１０１は音声区間を検出し、［コンビニ寄る］という認識結果の文字列を取得する。ステップＳＴ３において、キーワード抽出部１０３は、認識結果の文字列に対してキーワードの探索を行う。ステップＳＴ４において、キーワード抽出部１０３は、「Ａ君／Ａさん／Ａ」、および「Ｂ君／Ｂさん／Ｂ」のキーワードが存在しないことから、キーワードの抽出を行わない。ステップＳＴ５において、キーワード抽出部１０３は、キーワードが抽出されなかったことを会話判定部１０５に出力する。

次に、図４のフローチャートのステップＳＴ１１において、会話判定部１０５は、キーワードが抽出されなかったことから会話でないと判定する（ステップＳＴ１１；ＮＯ）。ステップＳＴ１２において、操作コマンド抽出部１０６は、操作コマンド格納部１０７を参照し、［コンビニ寄る］という認識結果の文字列から、「コンビニ」という操作コマンドを抽出し、ナビゲーション装置３００に出力する。

このように、話者音声として「Ａさん、コンビニ寄る？」との会話が入力された場合には操作コマンドの抽出を停止するが、「コンビニ寄る」との操作指示が入力された場合には、確実に操作コマンドの抽出を実行する。

以上のように、実施の形態１によれば、話者音声の音声認識を行う音声認識部１０１と、音声認識の認識結果から、予め設定されたキーワードを抽出するキーワード抽出部１０３と、キーワード抽出の抽出結果を参照し、話者音声が会話であるか否か判定を行う会話判定部１０５と、会話でないと判定された場合に、認識結果から機器を操作するためのコマンドを抽出し、会話であると判定した場合に、認識結果からコマンドを抽出しない操作コマンド抽出部１０６とを備えるように構成したので、単一の集音手段で集音された話者音声に基づいて、話者音声の誤認識を抑制することができる。また、遅延時間を設けることなく、機器を操作するためのコマンドの抽出を行うことができる。また、発話者が意図していない音声操作によって機器が制御されるのを抑制することができ、利便性が向上する。

また、この実施の形態１によれば、会話判定部１０５は、話者音声が会話であると判定している間に、認識結果の音声区間の間隔が予め設定された閾値以上であるか否か判定を行い、音声区間の間隔が予め設定された閾値以上であった場合に、会話が終了したと推定するように構成したので、会話の終了が推定された場合には、適切に操作コマンドの抽出を再開することができる。

なお、音声認識装置１００の会話判定部１０５が判定結果を外部の報知装置に出力する構成としてもよい。
図５は、実施の形態１に係る音声認識装置１００のその他の構成を示す図である。
図５では、音声認識装置１００に、報知装置である表示装置４００、音声出力装置５００が接続された場合を示している。
表示装置４００は、例えばディスプレイまたはＬＥＤランプ等で構成される。音声出力装置５００は、例えばスピーカで構成される。
会話判定部１０５は、会話であると判定した場合、および会話が継続している間、表示装置４００または音声出力装置５００に対して、報知情報の出力を指示する。

表示装置４００は、ディスプレイに、音声認識装置１００が会話中と推定していること、または操作コマンドを受け付けていないことを表示する。また、表示装置４００は、音声認識装置１００が会話中と推定していることを、ＬＥＤランプの点灯によって報知する。
図６は、実施の形態１に係る音声認識装置１００に接続された表示装置４００の表示画面の表示例を示す図である。
音声認識装置１００が会話中と推定している場合、表示装置４００の表示画面には、例えば「会話と判定中」および「操作コマンド受け付けられません」のメッセージ４０１が表示される。

音声出力装置５００は、音声認識装置１００が会話中と推定しており、操作コマンドを受け付けていないことを示す音声ガイダンスまたは効果音を出力する。
音声認識装置１００が報知の出力を制御することにより、ユーザは操作コマンドの入力が受け付け可能な状態であるか、受付不可能な状態であるか容易に認識することができる。
上述した会話判定部１０５が判定結果を外部の報知装置に出力する構成は、後述する実施の形態２および実施の形態３にも適用可能である。

また、会話判定部１０５は、格納領域（図示しない）に、会話の終了を示す言葉、例えば同意表現が含まれる「そうしよう」、「わかった」および「オッケー」等の言葉を格納しておいてもよい。
会話判定部１０５は、新たに入力された認識結果に、会話の終了を示す言葉が含まれていた場合には、音声区間の間隔に基づくことなく、会話が終了したと推定してもよい。
即ち、会話判定部１０５は、話者音声が会話であると判定している間に、認識結果に会話の終了を示す言葉が含まれているか否か判定を行い、会話の終了を示す言葉が含まれている場合に、会話が終了したと推定するように構成したので、音声区間の検出の誤りによって音声区間の間隔が実際の間隔よりも短く検出され、誤って会話が継続していると推定されるのを抑制することができる。

実施の形態２．
この実施の形態２では、ユーザの顔向きも考慮して会話であるか否かの判定を行う構成を示す。
図７は、実施の形態２に係る音声認識装置１００Ａの構成を示すブロック図である。
実施の形態２に係る音声認識装置１００Ａは、図１に示した実施の形態１の音声認識装置１００に、顔向き情報取得部１０８および顔向き判定部１０９を追加して構成している。また、音声認識装置１００Ａは、図１に示した実施の形態１の音声認識装置１００の会話判定部１０５に替えて、会話判定部１０５ａを設けて構成している。
以下では、実施の形態１に係る音声認識装置１００の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

顔向き情報取得部１０８は、外部のカメラ６００から入力された撮像画像を解析し、撮像画像に存在するユーザの顔向き情報を算出する。顔向き情報取得部１０８は、算出したユーザの顔向き情報をバッファ等の一時格納領域（図示しない）に格納する。ここで、ユーザは、カメラ６００によって撮像された撮像対象者であり、発話者または発話者以外の他者の少なくともいずれか一方であればよい。

会話判定部１０５ａは、顔向き判定部１０９を備える。会話判定部１０５ａは、話者間の会話でないと判定すると、顔向き判定部１０９に対して顔向き情報の取得を指示する。顔向き判定部１０９は、顔向き情報取得部１０８から顔向き情報を取得する。顔向き判定部１０９は、顔向き情報として、会話判定部１０５ａの会話判定に用いられた話者音声の前後一定区間の顔向き情報を取得する。顔向き判定部１０９は、取得した顔向き情報から会話が行われているか否か判定を行う。顔向き判定部１０９は、取得した顔向き情報が、例えば「発話者の顔向きが他のユーザの方を向いている」または「あるユーザの顔向きが発話者の方を向いている」等の条件を示している場合に、会話が行われていると判定する。なお、顔向き情報がどのような条件を満たすときに会話が行われていると推定するかは、適宜設定可能である。

会話判定部１０５ａは、会話が行われていると判定した結果、または顔向き判定部１０９において会話が行われていると判定された結果、または顔向き判定部１０９において会話が行われていないと判定された結果のいずれかを、操作コマンド抽出部１０６に出力する。

操作コマンド抽出部１０６は、会話判定部１０５ａから入力された判定結果を参照し、会話が行われていないとの判定結果であった場合、音声認識部１０１から入力された認識結果から操作コマンドを抽出する。
一方、操作コマンド抽出部１０６は、会話が行われているとの判定結果であった場合、音声認識部１０１から入力された認識結果から操作コマンドを抽出しない、または認識結果に記載された認識スコアを補正して操作コマンドを抽出しない設定とする。

会話判定部１０５ａは、会話が行われていると判定した場合、および顔向き判定部１０９において会話が行われていると判定された場合に、実施の形態１と同様に会話が継続しているか、または会話が終了したか推定を行う。

次に、音声認識装置１００Ａのハードウェア構成例を説明する。なお、実施の形態１と同一の構成の説明は省略する。
音声認識装置１００Ａにおける会話判定部１０５ａ、顔向き情報取得部１０８および顔向き判定部１０９は、図２Ａで示した処理回路１００ａ、または図２Ｂで示したメモリ１００ｃに格納されるプログラムを実行するプロセッサ１００ｂである。

次に、音声認識装置１００Ａの会話判定処理について説明する。なお、音声認識装置１００Ａの音声認識処理は、実施の形態１の音声認識装置１００と同一であるため、説明を省略する。
図８は、実施の形態２に係る音声認識装置１００Ａの会話判定処理の動作を示すフローチャートである。なお、以下では、実施の形態１に係る音声認識装置１００と同一のステップには図４で使用した符号と同一の符号を付し、説明を省略または簡略化する。
また、顔向き情報取得部１０８は、カメラ６００から入力される撮像画像に対して常時顔向き情報を取得する処理を行っているものとする。
ステップＳＴ１１の判定処理において、会話判定部１０５ａが会話でないと判定した場合（ステップＳＴ１１；ＮＯ）、会話判定部１０５ａは、顔向き判定部１０９に対して顔向き情報の取得を指示する（ステップＳＴ２１）

顔向き判定部１０９は、ステップＳＴ２１で入力された指示に基づいて、認識結果の音声区間の前後一定期間の顔向き情報を、顔向き情報取得部１０８から取得する（ステップＳＴ２２）。顔向き判定部１０９は、ステップＳＴ２２で取得した顔向き情報を参照し、会話が行われているか否か判定を行う（ステップＳＴ２３）。会話が行われていないと判定した場合（ステップＳＴ２３；ＮＯ）、会話判定部１０５ａは、判定結果を操作コマンド抽出部１０６に出力し、ステップＳＴ１２の処理に進む。一方、会話が行われていると判定した場合（ステップＳＴ２３；ＹＥＳ）、会話判定部１０５ａは、判定結果を操作コマンド抽出部１０６に出力し、ステップＳＴ１３の処理に進む。

以上のように、この実施の形態２によれば、発話者および発話者以外の他者の少なくともいずれか一方の顔向き情報を取得する顔向き情報取得部１０８と、会話判定部１０５ａが会話でないと判定した場合に、さらに顔向き情報が予め設定された条件を満たすか否かに基づいて、話者音声が会話であるか否か判定を行う顔向き判定部１０９とを備え、操作コマンド抽出部１０６は、顔向き判定部１０９が会話でないと判定した場合に、認識結果からコマンドを抽出し、顔向き判定部１０９が会話であると判定した場合に、認識結果からコマンドを抽出しないように構成したので、会話が行われているか否かの判定精度を向上させることができる。これにより、音声認識装置の利便性を向上させることができる。

実施の形態３．
この実施の形態３では、話者間の会話に出現し得る新たなキーワード取得し、キーワード格納部１０４に登録する構成を示す。
図９は、実施の形態３に係る音声認識装置１００Ｂの構成を示すブロック図である。
実施の形態３に係る音声認識装置１００Ｂは、図１に示した実施の形態１の音声認識装置１００に、顔向き情報取得部１０８ａおよび反応検知部１１０を追加して構成している。
以下では、実施の形態１に係る音声認識装置１００の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

顔向き情報取得部１０８ａは、外部のカメラ６００から入力された撮像画像を解析し、撮像画像に存在するユーザの顔向き情報を算出する。顔向き情報取得部１０８ａは、算出したユーザの顔向き情報を反応検知部１１０に出力する。

反応検知部１１０は、音声認識部１０１から入力される認識結果を参照し、発話者の発話を検出する。反応検知部１１０は、発話者の発話を検出してから、所定時間以内に、他者の反応を検出したか否か判定を行う。ここで、他者の反応とは、他者の発話、または他者の顔向きの変化の少なくとも一方である。
反応検知部１１０は、発話者の発話を検出した後、音声認識部１０１から入力される認識結果を参照して、発話に対する音声応答が入力されたか、または顔向き情報取得部１０８ａから入力される顔向き情報を参照して、発話に対する顔向きの変化が入力されたかの少なくともいずれか一方を検出した場合に、他者の反応を検出したと判定する。反応検知部１１０は、他者の反応を検出した場合、発話者の発話の認識結果、または認識結果の一部を、話者間の会話に出現し得るキーワードとして抽出し、キーワード格納部１０４に登録する。

次に、音声認識装置１００Ｂのハードウェア構成例を説明する。なお、実施の形態１と同一の構成の説明は省略する。
音声認識装置１００Ｂにおける顔向き情報取得部１０８ａおよび反応検知部１１０は、図２Ａで示した処理回路１００ａ、または図２Ｂで示したメモリ１００ｃに格納されるプログラムを実行するプロセッサ１００ｂである。

次に、音声認識装置１００Ｂのキーワード登録処理について説明する。なお、音声認識装置１００Ｂの音声認識処理および会話判定処理は、実施の形態１と同一であるため、説明を省略する。
図１０は、実施の形態３に係る音声認識装置１００Ｂのキーワード登録処理の動作を示すフローチャートである。
なお、音声認識部１０１は、マイク２００から入力される話者音声に対して常時認識処理を行っているものとする。同様に、顔向き情報取得部１０８ａは、カメラ６００から入力される撮像画像に対して常時顔向き情報を取得する処理を行っているものとする。
反応検知部１１０は、音声認識部１０１から入力される認識結果から発話者の発話を検知すると（ステップＳＴ３１）、当該発話に続いて音声認識部１０１から入力される認識結果、および顔向き情報取得部１０８ａから入力される顔向き情報を参照する（ステップＳＴ３２）。

反応検知部１１０は、ステップＳＴ３１で検出した発話に対する他者の音声応答が入力されたか、または検出した発話に対して他者の顔向きが変化したか否か判定を行う（ステップＳＴ３３）。反応検知部１１０は、発話に対する他者の音声応答が入力された、または当該発話に対して他者の顔向きが変化した、の少なくともいずれか一方を検知した場合（ステップＳＴ３３；ＹＥＳ）、ステップＳＴ３１で検知した発話の認識結果から、キーワードを抽出する（ステップＳＴ３４）。反応検知部１１０は、ステップＳＴ３４で抽出したキーワードをキーワード格納部１０４に登録する（ステップＳＴ３５）。その後、フローチャートはステップＳＴ３１の処理に戻る。

一方、反応検知部１１０は、検出した発話に対する他者の音声応答が入力されない、および検出した発話に対して他者の顔向きが変化しない場合（ステップＳＴ３３；ＮＯ）、予め設定した時間経過したか否か判定を行う（ステップＳＴ３６）。予め設定した時間経過していない場合（ステップＳＴ３６；ＮＯ）、ステップＳＴ３３の処理に戻る。一方、予め設定した時間経過した場合（ステップＳＴ３６；ＹＥＳ）、ステップＳＴ３１の処理に戻る。

次に、図１０で示したフローチャートについて、具体例を挙げながら説明をする。話者音声として「Ａさん」との会話が入力された場合を例に説明する。
ステップＳＴ３１において、反応検知部１１０は音声認識部１０１から入力された認識結果「Ａさん」から、発話者の発話を検知する。ステップＳＴ３２において、反応検知部１１０は、認識結果「Ａさん」という発話に続いて、音声認識部１０１から入力された認識結果および顔向き情報取得部１０８ａから入力された顔向き情報を参照する。ステップＳＴ３３において、反応検知部１１０は、「なに？」等の返事を示す他者の音声応答が入力された、および他者が顔を発話者に向ける顔向き変化を検知したと判定する（ステップＳＴ３３；ＹＥＳ）。ステップＳＴ３４において、反応検知部１１０は認識結果「Ａさん」から「Ａ」というキーワードを抽出する。ステップＳＴ３５において、反応検知部１１０は「Ａ」というキーワードをキーワード格納部１０４に登録する。

このように、反応検知部１１０が、発話者が「Ａさん」と発話した後に、他者の音声応答が入力されたか、または他者が発話者の方に顔を向けたか否かを判定することにより、話者間の会話が行われているか否かを推定することができる。これにより、反応検知部１１０は、事前に定義していない話者間の会話についても、会話に出現し得るキーワードを抽出してキーワード格納部１０４に登録する。

以上のように、この実施の形態３によれば、発話者以外の他者の顔向き情報を取得する顔向き情報取得部１０８ａと、発話者の話者音声に対する他者の顔向き情報、または発話者の発話音声に対する他者の音声応答のうちの少なくともいずれか一方に基づいて、他者の反応の有無を検出し、他者の反応を検出した場合に、話者音声または話者音声の一部をキーワードとして設定する反応検知部１１０とを備えするように構成したので、音声認識装置に事前に登録または定義されていないユーザの会話から、会話に出現し得るキーワードを抽出して登録することができる。これにより、登録または定義されていないユーザが当該音声認識装置を利用した場合に、会話判定が行われないという不具合を解消することができる。あらゆるユーザに対して、意図していない音声操作によって機器が制御されるのを抑制することができ、当該ユーザの利便性を向上させることができる。

なお、上記では、実施の形態１で示した音声認識装置１００に顔向き情報取得部１０８ａおよび反応検知部１１０を適用する構成する場合を例に示したが、実施の形態２に示した音声認識装置１００Ａに適用してもよい。

上述した実施の形態１から実施の形態３において示した各構成の機能の一部を、音声認識装置１００，１００Ａ，１００Ｂと接続されたサーバ装置が行うように構成してもよい。さらに、実施の形態１から実施の形態３において示した各構成の機能の全てをサーバ装置が行うように構成してもよい。
図１１は、実施の形態１で示した各構成の機能を、音声認識装置およびサーバ装置が連携して実行する場合の構成例を示したブロック図である。

音声認識装置１００Ｃは、音声認識部１０１、音声認識辞書格納部１０２および通信部１１１を備える。サーバ装置７００は、キーワード抽出部１０３、キーワード格納部１０４、会話判定部１０５、操作コマンド抽出部１０６、操作コマンド格納部１０７および通信部７０１を備える。音声認識装置１００Ｃの通信部１１１は、サーバ装置７００との無線通信を確立し、音声認識結果をサーバ装置７００側に送信する。サーバ装置７００の通信部７０１は、音声認識装置１００Ｃおよびナビゲーション装置３００との無線通信を確立し、音声認識装置１００から音声認識結果を取得し、音声認識結果から抽出した操作コマンドをナビゲーション装置３００に送信する。なお、サーバ装置７００と無線通信接続を行う制御機器は、ナビゲーション装置３００に限定されるものではない。

上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。

この発明に係る音声認識装置は、音声操作を受け付ける車載機器等に適用し、ユーザによる音声入力を正確に判定して操作コマンドを抽出するのに適している。

１００，１００Ａ，１００Ｂ，１００Ｃ音声認識装置、１０１音声認識部、１０２音声認識辞書格納部、１０３キーワード抽出部、１０４キーワード格納部、１０５，１０５ａ会話判定部、１０６操作コマンド抽出部、１０７操作コマンド格納部、１０８，１０８ａ顔向き情報取得部、１０９顔向き判定部、１１０反応検知部、１１１，７０１通信部、７００サーバ装置。

Claims

話者音声の音声認識を行う音声認識部と、
前記音声認識部の認識結果から、予め設定された話者間の会話に出現し得るキーワードを抽出するキーワード抽出部と、
前記キーワード抽出部の抽出結果を参照し、抽出されたキーワードが入力された場合に前記話者音声が会話であると判定し、キーワードの入力がなされなかった場合に前記話者音声が会話ではないと判定する会話判定部と、
前記会話判定部が会話でないと判定した場合に、前記音声認識部の認識結果から機器を操作するためのコマンドを抽出し、前記会話判定部が会話であると判定した場合に、前記認識結果から前記コマンドを抽出しない操作コマンド抽出部とを備え、
前記予め設定されたキーワードは、人名または呼びかけを示す言葉であることを特徴とする音声認識装置。
発話者および前記発話者以外の他者の少なくともいずれか一方の顔向き情報を取得する顔向き情報取得部と、
前記会話判定部が会話でないと判定した場合に、さらに前記顔向き情報取得部が取得した前記顔向き情報が予め設定された条件を満たすか否かに基づいて、前記話者音声が会話であるか否か判定を行う顔向き判定部とを備え、
前記操作コマンド抽出部は、前記顔向き判定部が会話でないと判定した場合に、前記認識結果から前記コマンドを抽出し、前記顔向き判定部が会話であると判定した場合に、前記認識結果から前記コマンドを抽出しないことを特徴とする請求項１記載の音声認識装置。
発話者以外の他者の顔向き情報を取得する顔向き情報取得部と、
前記顔向き情報取得部が取得した前記発話者の話者音声に対する前記他者の顔向き情報、または前記音声認識部が認識した前記発話者の発話音声に対する前記他者の音声応答のうちの少なくともいずれか一方に基づいて、前記他者の反応の有無を検出し、前記他者の反応を検出した場合に、前記話者音声または前記話者音声の一部を前記キーワードとして設定する反応検知部とを備えたことを特徴とする請求項１記載の音声認識装置。
前記会話判定部は、前記話者音声が会話であると判定している間に、前記音声認識部の認識結果の音声区間の間隔が予め設定された閾値以上であるか否か判定を行い、前記音声区間の間隔が予め設定された閾値以上であった場合に、前記会話が終了したと推定することを特徴とする請求項１記載の音声認識装置。
前記会話判定部は、前記話者音声が会話であると判定している間に、前記音声認識部の認識結果に会話の終了を示す言葉が含まれているか否か判定を行い、前記会話の終了を示す言葉が含まれている場合に、前記会話が終了したと推定することを特徴とする請求項１記載の音声認識装置。
前記会話判定部は、前記話者音声が会話であると判定している場合、当該判定結果を報
知する制御を行うことを特徴とする請求項１記載の音声認識装置。
音声認識部が、話者音声の音声認識を行うステップと、
キーワード抽出部が、前記音声認識の認識結果から、予め設定された話者間の会話に出現し得るキーワードを抽出するステップと、
会話判定部が、前記キーワード抽出部の抽出結果を参照し、抽出されたキーワードが入力された場合に前記話者音声が会話であると判定し、キーワードの入力がなされなかった場合に前記話者音声が会話ではないと判定するステップと、
操作コマンド抽出部が、会話でないと判定された場合に、前記認識結果から機器を操作するためのコマンドを抽出し、会話であると判定された場合に、前記認識結果から前記コマンドを抽出しないステップとを備え、
前記予め設定されたキーワードは、人名または呼びかけを示す言葉であることを特徴とする音声認識方法。