JP6227209B2

JP6227209B2 - 車載用音声認識装置および車載機器

Info

Publication number: JP6227209B2
Application number: JP2017538774A
Authority: JP
Inventors: 尚嘉竹裏
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-09-09
Filing date: 2015-09-09
Publication date: 2017-11-08
Anticipated expiration: 2035-09-09
Also published as: US20180130467A1; CN107949880A; DE112015006887T5; WO2017042906A1; JPWO2017042906A1; DE112015006887B4

Description

この発明は、発話者の発話を認識する車載用音声認識装置、および認識した結果に応じて動作する車載機器に関するものである。

車内に複数の発話者がいる場合、音声認識装置が、ある発話者による他の発話者に対する発話を、当該装置に対する発話と誤認識してしまうことを防ぐ必要がある。そこで、例えば特許文献１では、ユーザによる特定の発話または特定の動作を待ち受け、当該特定の発話等を検出すると、操作対象である機器を操作するためのコマンドの認識を開始する音声認識装置が開示されている。

特開２０１３−８００１５号公報

従来の音声認識装置によれば、音声認識装置が発話者の意図に反して発話をコマンドと認識してしまうことを防ぐことができ、これによって操作対象である機器の誤動作を防ぐことができる。また、人と人との間における一対多での対話においては、発話者は、名前を呼ぶこと等によって話しかける相手を特定してから発話することが自然であるため、音声認識装置に対する呼びかけのような特定の発話等をしてからコマンドを発話することで、発話者と当該装置との間でも自然な対話を実現することができる。

しかし、特許文献１に記載されたような音声認識装置では、車内のような空間で発話者が運転者のみという状況において、当該装置に対するコマンドの発話であることが明らかな場合であっても、発話者は、コマンドを発話する前に特定の発話等を行う必要があるため煩わしさを感じる。また、当該状況においては音声認識装置との対話は、人との一対一の対話に近いので、発話者は、音声認識装置に対する呼びかけのような特定の発話等を行うことを不自然と感じるという問題があった。

すなわち、従来の音声認識装置では、車内にいる人数にかかわらず、発話者は音声認識装置に対して特定の発話または特定の動作を行う必要があったため、発話者が対話の不自然さおよび煩わしさを感じるという操作性の問題があった。

この発明は、上記のような問題を解決するためになされたものであり、誤認識の防止と操作性の向上を両立させることを目的とする。

この発明に係る車載用音声認識装置は、音声を認識して認識結果を出力する音声認識部と、車内の発話者の人数が複数か単数かを判断して判断結果を出力する判断部と、音声認識部および判断部からの出力結果に基づき、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用する認識制御部とを備えるものである。

この発明によれば、車内に複数の発話者がいる場合は、発話開始の指示を受けた後に発話された音声の認識結果を採用するようにしたので、ある発話者による他の発話者に対する発話をコマンドとして誤認識してしまうことを防ぐことができる。他方、車内に発話者が一人いる場合は、発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用するようにしたので、発話者はコマンドを発話する前に発話開始の指示を行う必要がない。そのため、対話の不自然さおよび煩わしさを解消でき、操作性を向上させることができる。

この発明の実施の形態１に係る車載機器の構成例を示すブロック図である。実施の形態１に係る車載機器の、車内の発話者が単数か複数かに応じて音声認識部における認識語彙を切替える処理を示すフローチャートである。実施の形態１に係る車載機器の、発話者の音声を認識し、認識結果に応じた動作を行う処理を示すフローチャートである。この発明の実施の形態２に係る車載機器の構成例を示すブロック図である。実施の形態２に係る車載機器が行う処理を示すフローチャートであり、図５（ａ）は車内の発話者が複数であると判断されている場合の処理、図５（ｂ）は車内の発話者が単数であると判断されている場合の処理である。この発明の各実施の形態に係る車載機器とその周辺機器の主なハードウェア構成図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１に係る車載機器１の構成例を示すブロック図である。この車載機器１は、音声認識部１１、判断部１２、認識制御部１３および制御部１４を備えている。音声認識部１１、判断部１２および認識制御部１３は、音声認識装置１０を構成している。また、車載機器１には、音声入力部２、カメラ３、圧力センサ４、表示部５およびスピーカ６が接続されている。
図１の例では、車載機器１に音声認識装置１０を組み込んだ構成を示すが、音声認識装置１０を、車載機器１から独立した構成にしてもよい。

車載機器１は、音声認識装置１０からの出力に基づき、車内の発話者が複数の場合は、発話者による特定の指示を受けた後の発話内容に応じて動作する。一方、車内の発話者が単数の場合は、車載機器１は、当該指示の有無にかかわらず、発話者の発話内容に応じて動作する。
この車載機器１は、例えば、ナビゲーション装置またはオーディオ装置等の車両に搭載される機器である。

表示部５は、例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）または有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等である。また、表示部５は、ＬＣＤまたは有機ＥＬディスプレイとタッチセンサから構成されている表示一体型のタッチパネルであってもよいし、ヘッドアップディスプレイであってもよい。

音声入力部２は、発話者により発話された音声を取り込み、当該音声を、例えばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）によりＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換して、音声認識装置１０へ入力する。

音声認識部１１は、「車載機器を操作するためのコマンド」（以下、「コマンド」と記載する）と「キーワードとコマンドの組み合わせ」を認識語彙として備えている。そして、後述する認識制御部１３の指示に基づいて認識語彙を切替える。「コマンド」には、例えば、「目的地設定」、「施設検索」および「ラジオ」等の認識語彙が含まれる。

「キーワード」とは、音声認識装置１０に対して、発話者がコマンドの発話の開始を明示するためのものである。そして、本実施の形態１においては、発話者によるキーワードの発話が、上述の「発話者による特定の指示」に相当する。「キーワード」は、音声認識装置１０の設計時に予め設定されるものでもよいし、発話者により音声認識装置１０に対して設定されるものであってもよい。例えば、「キーワード」が「ミツビシ」に設定されている場合、「キーワードとコマンドの組み合わせ」は「ミツビシ、目的地設定」となる。

なお、音声認識部１１は、各コマンドの他の言い回しも認識対象としてもよい。例えば、「目的地設定」の他の言い回しとして「目的地を設定して」および「目的地を設定したい」等を認識対象としてもよい。

音声認識部１１は、音声入力部２によりデジタル化された音声データを受け取る。そして、音声認識部１１は、該音声データから、発話者が発話した内容に該当する音声区間（以下、「発話区間」と記載する）を検出する。続いて、該発話区間の音声データの特徴量を抽出する。その後、音声認識部１１は、後述する認識制御部１３により指示された認識語彙を認識対象として該特徴量に対する認識処理を行い、認識結果を認識制御部１３に対して出力する。認識処理の方法としては、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）法のような一般的な方法を用いて行えばよいため詳細な説明を省略する。

また、音声認識部１１は、予め設定された期間においては、音声入力部２から受け取った音声データに対して発話区間を検出し、認識処理を行う。「予め設定された期間」には、例えば、車載機器１が起動している間、音声認識装置１０が起動もしくは再開してから終了もしくは停止するまでの間、または音声認識部１１が起動している間等の期間が含まれるものとする。本実施の形態１においては、音声認識部１１は、音声認識装置１０が起動してから終了するまでの間、上述の処理を行うものとして説明する。

なお、本実施の形態１では、音声認識部１１から出力される認識結果は、コマンド名等の具体的な文字列として説明するが、例えば、数字で表されたＩＤ等、コマンド同士を区別できるものであれば、出力される認識結果はどのような形態のものであってもよい。以降の実施の形態でも同様である。

判断部１２は、車内の発話者が複数か単数かを判断する。そして、該判断結果を後述する認識制御部１３に対して出力する。
本実施の形態１において、「発話者」は、音声によって音声認識装置１０と車載機器１を誤動作させる可能性があるものをいい、赤ん坊および動物等も含まれるものとする。

例えば、判断部１２は、車内に設置されたカメラ３が撮像した画像データを取得し、該画像データを解析して、車内の搭乗者の人数が複数か単数かを判断する。また、判断部１２は、各座席に設置された圧力センサ４が検出した各座席の圧力データを取得し、該圧力データに基づいて搭乗者が座席に座っているか否かを判断し、車内の搭乗者の人数が複数か単数かを判断してもよい。判断部１２は、搭乗者の人数を発話者の人数と判断する。
上述した判断方法は公知の技術を用いればよいため詳細な説明を省略する。なお、判断方法はこれらに限られない。また、図１ではカメラ３と圧力センサ４の両方を用いる構成を示すが、例えば、カメラ３のみを用いる構成でもよい。

さらに、判断部１２は、車内の搭乗者の人数が複数であっても、発話する可能性のある人数が単数である場合には、発話者の人数を単数と判断してもよい。
例えば、判断部１２は、カメラ３から取得した画像データを解析して、搭乗者が起きているか寝ているかを判断し、起きている搭乗者の人数を発話者の人数として数える。一方、寝ている搭乗者は発話する可能性がないので、判断部１２は、寝ている搭乗者の人数を発話者の人数として数えない。

認識制御部１３は、判断部１２から受け取った判断結果が「複数」である場合は、音声認識部１１に対して、認識語彙を「キーワードとコマンドの組み合わせ」にするよう指示する。一方、認識制御部１３は、該判断結果が「単数」である場合は、音声認識部１１に対して、認識語彙を「コマンド」と「キーワードとコマンドの組み合わせ」の両方とするよう指示する。

音声認識部１１が「キーワードとコマンドの組み合わせ」を認識語彙として用いた場合、発話音声がキーワードとコマンドの組み合わせであれば認識に成功し、それ以外の発話音声では認識に失敗することになる。また、音声認識部１１が「コマンド」を認識語彙として用いた場合、発話音声がコマンドのみであれば認識に成功し、それ以外の発話音声では認識に失敗することになる。
したがって、車内の発話者が一人である状況でこの発話者がコマンドのみまたはキーワードとコマンドの組み合わせを発話した場合、音声認識装置１０が認識に成功し、車載機器１がコマンドに対応する動作を実行する。他方、車内に複数の発話者がいる状況でいずれかの発話者がキーワードとコマンドの組み合わせを発話した場合には、音声認識装置１０が認識に成功し、車載機器１がコマンドに対応する動作を実行し、いずれかの発話者がコマンドのみを発話した場合には、音声認識装置１０が認識に失敗し、車載機器１はコマンドに対応する動作を実行しない。

なお、以降の説明においては、認識制御部１３は、音声認識部１１に対して上述したように認識語彙を指示するものとするが、認識制御部１３は、判断部１２から受け取った判断結果が「単数」である場合に、音声認識部１１において少なくとも「コマンド」が認識されるように、音声認識部１１に対して指示すればよい。
判断結果が「単数」である場合に、上述したように「コマンド」と「キーワードとコマンドの組み合わせ」を認識語彙として用いて少なくとも「コマンド」を認識可能なように音声認識部１１を構成する以外にも、例えば、ワードスポッティング等の公知の技術により「コマンド」を含む発話から「コマンド」のみを認識結果として出力するように音声認識部１１を構成してもよい。

認識制御部１３は、判断部１２から受け取った判断結果が「複数」である場合において、音声認識部１１から認識結果を受け取ると、コマンドの発話開始を指示する「キーワード」の後に発話された音声の認識結果を採用する。一方、認識制御部１３は、判断部１２から受け取った判断結果が「単数」である場合において、音声認識部１１から認識結果を受け取ると、コマンドの発話開始を指示する「キーワード」の有無にかかわらず、発話された音声の認識結果を採用する。ここでいう「採用」とは、ある認識結果を「コマンド」として制御部１４へ出力すると決定することである。

具体的には、認識制御部１３は、音声認識部１１から受け取った認識結果に「キーワード」が含まれている場合、認識制御部１３は、認識結果から「キーワード」に対応する部分を削除し、「キーワード」の後に発話された「コマンド」に対応する部分を、制御部１４へ出力する。一方、認識結果に「キーワード」が含まれていない場合、認識制御部１３は、「コマンド」に対応する認識結果をそのまま制御部１４へ出力する。

制御部１４は、認識制御部１３から受け取った認識結果に対応する動作を行い、当該動作の結果を表示部５またはスピーカ６から出力させる。例えば、認識制御部１３から受け取った認識結果が「コンビニ検索」である場合は、制御部１４は、地図データを用いて自車位置周辺に存在するコンビニを検索し、検索結果を表示部５に表示させるとともに、コンビニが見つかった旨のガイダンスをスピーカ６に出力させる。認識結果である「コマンド」と動作との対応関係は、予め制御部１４に設定されているものとする。

次に、図２と図３に示すフローチャートと具体例を用いて、実施の形態１の車載機器１の動作を説明する。なお、「キーワード」が「ミツビシ」に設定されているものとして説明するが、これに限られるものではない。また、音声認識装置１０が起動している間、車載機器１は図２および図３で示したフローチャートの処理を繰り返すものとする。

図２は、車内の発話者が単数か複数かに応じて音声認識部１１における認識語彙を切替えるフローチャートを示している。
まず、判断部１２は、カメラ３または圧力センサ４から取得した情報に基づいて、車内の発話者の人数を判断する（ステップＳＴ０１）。そして、判断結果を認識制御部１３へ出力する（ステップＳＴ０２）。

次に、認識制御部１３は、判断部１２から受け取った判断結果が「単数」である場合（ステップＳＴ０３「ＹＥＳ」）、発話者から特定の指示を受けたか否かにかからわず車載機器１を操作できるようにするため、音声認識部１１に対して、認識語彙を「コマンド」と「キーワードとコマンドの組み合わせ」とするよう指示する（ステップＳＴ０４）。一方、認識制御部１３は、判断部１２から受け取った判断結果が「複数」である場合（ステップＳＴ０３「ＮＯ」）、発話者から特定の指示を受けたときだけ車載機器１を操作できるようにするため、音声認識部１１に対して、認識語彙を「キーワードとコマンドの組み合わせ」とするよう指示する（ステップＳＴ０５）。

図３は、発話者の音声を認識し、認識結果に応じた動作を行うフローチャートを示している。

まず、音声認識部１１は、発話者により発話された音声を音声入力部２が取り込みＡ／Ｄ変換した音声データを、受け取る（ステップＳＴ１１）。次に、音声認識部１１は、音声入力部２から受け取った音声データに対して認識処理を行い、認識制御部１３へ認識結果を出力する（ステップＳＴ１２）。音声認識部１１は、認識に成功した場合は認識した文字列等を認識結果として出力し、認識に失敗した場合は失敗した旨を認識結果として出力する。

次に、認識制御部１３は、音声認識部１１から認識結果を受け取る（ステップＳＴ１３）。そして、認識制御部１３は、当該認識結果に基づいて音声認識の成否を判断し、音声認識部１１での音声認識に失敗していると判断した場合（ステップＳＴ１４「ＮＯ」）、何もしない。

例えば、車内に複数の発話者がいる状況で、「Ａ君、コンビニを検索して」と発話されたとする。この場合、図２の処理において車内の発話者の人数が複数と判断されており、音声認識部１１が用いる認識語彙は、例えば「ミツビシ、コンビニ検索して」等の「キーワードとコマンドの組み合わせ」となっているため、音声認識部１１は音声認識に失敗する。そして、認識制御部１３は、音声認識部１１から受け取った認識結果に基づいて「認識失敗」と判断する（ステップＳＴ１１〜ステップＳＴ１４「ＮＯ」）。その結果、車載機器１は何も動作しない。

また、例えば、それまでの対話の流れから発話者が話しかける対象が明らかにＡ君であるような状況であったため、発話者が、「Ａ君」を省略して「コンビニを検索して」と発話した場合も同様に、音声認識部１１は音声認識に失敗するため、車載機器１は何も動作しない。

一方、認識制御部１３は、音声認識部１１から受け取った認識結果に基づいて、音声認識部１１での音声認識に成功したと判断した場合（ステップＳＴ１４「ＹＥＳ」）、当該認識結果にキーワードが含まれているか判断する（ステップＳＴ１５）。そして、認識制御部１３は、当該認識結果にキーワードが含まれている場合（ステップＳＴ１５「ＹＥＳ」）、当該認識結果からキーワードを削除し、制御部１４へ出力する（ステップＳＴ１６）。

その後、制御部１４は、キーワードが削除された認識結果を認識制御部１３から受け取り、受け取った認識結果に対応する動作を行う（ステップＳＴ１７）。

例えば、車内に複数の発話者がいる状況で、「ミツビシ、コンビニを検索して」と発話されたとする。この場合、図２の処理において車内の発話者が複数と判断されており、音声認識部１１における認識語彙が「キーワードとコマンドの組み合わせ」となっている。そのため、音声認識部１１は、キーワードを含む上記発話の認識に成功し、認識制御部１３は、音声認識部１１から受け取った認識結果に基づいて「認識成功」と判断する（ステップＳＴ１１〜ステップＳＴ１４「ＹＥＳ」）。

そして、認識制御部１３は、当該受け取った認識結果「ミツビシ、コンビニを検索して」から「キーワード」である「ミツビシ」を削除した「コンビニを検索して」を、コマンドとして制御部１４へ出力する（ステップＳＴ１５「ＹＥＳ」、ステップＳＴ１６）。その後、制御部１４は、地図データを用いて自車位置周辺に存在するコンビニを検索し、検索結果を表示部５に表示させるとともに、コンビニが見つかった旨のガイダンスをスピーカ６に出力させる（ステップＳＴ１７）。

他方、当該認識結果にキーワードが含まれていない場合（ステップＳＴ１５「ＮＯ」）、認識制御部１３は、当該認識結果をそのままコマンドとして制御部１４へ出力する。制御部１４は、認識制御部１３から受け取った認識結果に対応する動作を行う（ステップＳＴ１８）。

例えば、車内の発話者が一人である状況で、「コンビニを検索して」と発話されたとする。この場合、図２の処理において、車内の発話者が単数と判断されており、音声認識部１１における認識語彙が「コマンド」と「キーワードとコマンドの組み合わせ」の両方となっている。そのため、音声認識部１１における認識処理が成功し、認識制御部１３は、音声認識部１１から受け取った認識結果に基づいて「認識成功」と判断する（ステップＳＴ１１〜ステップＳＴ１４「ＹＥＳ」）。そして、認識制御部１３は当該受け取った認識結果「コンビニを検索して」を制御部１４へ出力する。その後、制御部１４は、地図データを用いて自車位置周辺に存在するコンビニを検索し、検索結果を表示部５に表示させるとともに、コンビニが見つかった旨のガイダンスをスピーカ６に出力させる（ステップＳＴ１７）。

また、例えば、車内の発話者が一人である状況で、「ミツビシ、コンビニを検索して」と発話されたとする。この場合、図２の処理において車内の発話者が単数と判断されており、音声認識部１１における認識語彙が「コマンド」と「キーワードとコマンドの組み合わせ」の両方となっているため、音声認識部１１における認識処理が成功し、認識制御部１３は、音声認識部１１から受け取った認識結果に基づいて「認識成功」と判断する（ステップＳＴ１１〜ステップＳＴ１４「ＹＥＳ」）。この場合、認識結果にはコマンドだけでなくキーワードが含まれているため、認識制御部１３は、受け取った認識結果「ミツビシ、コンビニを検索して」から不要な「ミツビシ」を削除し、「コンビニを検索して」を制御部１４へ出力する。

以上のように、この実施の形態１によれば、音声認識装置１０は、音声を認識して認識結果を出力する音声認識部１１と、車内の発話者の人数が複数か単数かを判断して判断結果を出力する判断部１２と、音声認識部１１および判断部１２からの出力結果に基づき、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用する認識制御部１３とを備える構成にしたので、車内に複数の発話者がいる場合に、ある発話者による他の発話者に対する発話をコマンドとして誤認識してしまうことを防ぐことができる。また、車内の発話者が一人のみの場合に、発話者はコマンドを発話する前に特定の発話を行う必要がないので、対話の不自然さおよび煩わしさを解消でき、操作性を向上させることができる。よって、人同士の場合と同様な自然な対話が可能となる。

また、実施の形態１によれば、車載機器１は、音声認識装置１０と、音声認識装置１０が採用した認識結果に応じた動作を行う制御部１４とを備える構成にしたので、車内に複数の発話者がいる場合に、ある発話者による他の発話者に対する発話に応じて誤動作してしまうことを防ぐことができる。また、車内の発話者が一人のみの場合に、発話者はコマンドを発話する前に特定の発話を行う必要がないので、対話の不自然さおよび煩わしさを解消でき、操作性を向上させることができる。

また、実施の形態１によれば、判断部１２は、車内の搭乗者の人数が複数であっても発話する可能性のある人数が単数である場合、発話者の人数を単数と判断するようにしたので、例えば、運転者以外の搭乗者が寝ている状況において運転者は特定の発話を行うことなく車載機器１を動作させることができる。

実施の形態２．
図４は、この発明の実施の形態２に係る車載機器１の構成例を示すブロック図である。なお、実施の形態１で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。

実施の形態２では、発話者がコマンドの発話の開始を明示するための「特定の指示」を、「コマンドの発話開始を指示する手動操作」とする。車載機器１は、車内の発話者が複数の場合は、発話者によるコマンドの発話開始を指示する手動操作の後に発話された内容に応じて動作する。一方、車内の発話者が単数の場合は、車載機器１は、当該操作の有無にかかわらず、発話者の発話内容に応じて動作する。

指示入力部７は、発話者の手動による指示の入力を受け付けるものである。例えば、ハードウェアのスイッチ、ディスプレイに組み込まれているタッチセンサ、あるいはリモコンを介した発話者の指示を認識する認識装置が挙げられる。
指示入力部７は、コマンドの発話開始を指示するための入力を受け付けると、当該発話開始の指示を認識制御部１３ａに対して出力する。

認識制御部１３ａは、判断部１２から受け取った判断結果が「複数」である場合において、指示入力部７からコマンドの発話開始の指示を受けると、音声認識部１１ａに対してコマンドの発話開始を通知する。
そして、認識制御部１３ａは、指示入力部７からのコマンドの発話開始の指示を受けた後に音声認識部１１ａから受け取った認識結果を採用し、制御部１４に対して出力する。一方、指示入力部７からのコマンドの発話開始の指示を受けていない場合、認識制御部１３ａは、音声認識部１１ａにより出力された認識結果を採用せず破棄する。すなわち、認識制御部１３ａは当該認識結果を制御部１４に対して出力しない。

認識制御部１３ａは、判断部１２から受け取った判断結果が「単数」である場合は、指示入力部７から発話開始の指示を受けているか否かにかかわらず、音声認識部１１ａから受け取った認識結果を採用し、制御部１４に対して出力する。

音声認識部１１ａは、車内の発話者の人数が単数か複数かにかかわらず「コマンド」を認識語彙として用い、音声入力部２から音声データを受け取って認識処理を行い、認識結果を認識制御部１３ａに出力する。判断部１２からの判断結果が「複数」の場合、認識制御部１３ａからの通知によってコマンドの発話開始が明示されるため、音声認識部１１ａは認識率を向上させることができる。

次に、図５に示すフローチャートを用いて、実施の形態２の車載機器１の動作を説明する。なお、本実施の形態２においては、音声認識装置１０が起動している間、判断部１２は、車内の発話者が複数か否かを判断し、当該判断結果を認識制御部１３ａへ出力するものとして説明する。また、音声認識部１１ａは、音声認識装置１０が起動している間、上述したコマンドの発話開始の指示の有無にかかわらず、音声入力部２から受け取った音声データに対して認識処理を行い、認識結果を認識制御部１３ａへ出力するものとして説明する。

図５（ａ）は、判断部１２により車内の発話者が複数であると判断されている場合の処理を示すフローチャートである。なお、音声認識装置１０が起動している間、車載機器１は図５（ａ）で示したフローチャートの処理を繰り返すものとする。

まず、認識制御部１３ａは、指示入力部７からコマンドの発話開始の指示を受けると（ステップＳＴ２１「ＹＥＳ」）、音声認識部１１ａに対してコマンドの発話開始を通知する（ステップＳＴ２２）。次に、認識制御部１３ａは、音声認識部１１ａから認識結果を受け取り（ステップＳＴ２３）、当該認識結果に基づいて音声認識の成否を判断する（ステップＳＴ２４）。

そして、認識制御部１３ａは、「認識成功」と判断した場合（ステップＳＴ２４「ＹＥＳ」）、制御部１４に対して認識結果を出力する。その後、制御部１４は、認識制御部１３ａから受け取った認識結果に対応する動作を実行する（ステップＳＴ２５）。一方、認識制御部１３ａは、「認識失敗」と判断した場合（ステップＳＴ２４「ＮＯ」）、何もしない。

認識制御部１３ａは、指示入力部７からコマンドの発話開始の指示を受けていない場合（ステップＳＴ２１「ＮＯ」）、音声認識部１１ａから認識結果を受け取ったとしても当該認識結果を破棄する。すなわち、音声認識装置１０が発話者により発話された音声を認識しても、車載機器１は何も動作しない。

図５（ｂ）は、判断部１２により車内の発話者が単数であると判断されている場合の処理を示すフローチャートである。なお、音声認識装置１０が起動している間、車載機器１は図５（ｂ）で示したフローチャートの処理を繰り返すものとする。

まず、認識制御部１３ａは、音声認識部１１ａから認識結果を受け取る（ステップＳＴ３１）。次に、認識制御部１３ａは、当該認識結果に基づいて音声認識の成否を判断し（ステップＳＴ３２）、「認識成功」と判断した場合、当該認識結果を制御部１４に対して出力する（ステップＳＴ３２「ＹＥＳ」）。そして、制御部１４は、認識制御部１３ａから受け取った認識結果に対応する動作を実行する（ステップＳＴ３３）。

一方、認識制御部１３ａは、「認識失敗」と判断した場合（ステップＳＴ３２「ＮＯ」）、何もしない。

以上のように、この実施の形態２によれば、音声認識装置１０は、音声を認識して認識結果を出力する音声認識部１１ａと、車内の発話者の人数が複数か単数かを判断して判断結果を出力する判断部１２と、音声認識部１１ａおよび判断部１２の出力結果に基づき、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用する認識制御部１３ａとを備える構成にしたので、車内に複数の発話者がいる場合に、ある発話者による他の発話者に対する発話をコマンドとして誤認識してしまうことを防ぐことができる。また、車内の発話者が一人のみの場合に、発話者はコマンドを発話する前に特定の動作を行う必要がないので、対話の不自然さおよび煩わしさを解消でき、操作性を向上させることができる。よって、人同士の場合と同様な自然な対話が可能となる。

また、実施の形態２によれば、車載機器１は、音声認識装置１０と、音声認識装置１０が採用した認識結果に応じた動作を行う制御部１４とを備える構成にしたので、車内に複数の発話者がいる場合に、ある発話者による他の発話者に対する発話に応じて誤動作してしまうことを防ぐことができる。また、車内の発話者が一人のみの場合に、発話者はコマンドを発話する前に特定の動作を行う必要がないので、対話の不自然さおよび煩わしさを解消でき、操作性を向上させることができる。

また、実施の形態２においても上記実施の形態１と同様に、判断部１２は、車内の搭乗者の人数が複数であっても発話する可能性のある人数が単数である場合、発話者の人数を単数と判断するようにできるので、例えば、運転者以外の搭乗者が寝ている状況において運転者は特定の動作を行うことなく車載機器１を動作させることができる。

次に、音声認識装置１０の変形例を説明する。
図１に示した音声認識装置１０において、音声認識部１１は、車内の発話者が複数か単数かによらず、「コマンド」と「キーワードとコマンドの組み合わせ」を認識語彙として用いて、発話音声を認識する。音声認識部１１は、「コマンド」のみを認識結果として出力するか、「キーワード」と「コマンド」を認識結果として出力するか、認識に失敗した旨を認識結果として出力する。

認識制御部１３は、判断部１２から受け取った判断結果が「複数」である場合において、音声認識部１１から認識結果を受け取ると、「キーワード」の後に発話された音声の認識結果を採用する。
つまり、音声認識部１１から受け取った認識結果に「キーワード」と「コマンド」が含まれている場合、認識制御部１３は、認識結果から「キーワード」に対応する部分を削除し、「キーワード」の後に発話された「コマンド」に対応する部分を制御部１４へ出力する。一方、音声認識部１１から受け取った認識結果に「キーワード」が含まれていない場合、認識制御部１３は、該認識結果を採用せず破棄し、制御部１４に対して出力しない。
また、音声認識部１１で認識に失敗した場合、認識制御部１３は何もしない。

認識制御部１３は、判断部１２から受け取った判断結果が「単数」である場合において、音声認識部１１から認識結果を受け取ると、「キーワード」の有無にかかわらず、発話された音声の認識結果を採用する。
つまり、音声認識部１１から受け取った認識結果に「キーワード」と「コマンド」が含まれている場合、認識制御部１３は、認識結果から「キーワード」に対応する部分を削除し、「キーワード」の後に発話された「コマンド」に対応する部分を制御部１４へ出力する。一方、音声認識部１１から受け取った認識結果に「キーワード」が含まれていない場合、認識制御部１３は、「コマンド」に対応する認識結果をそのまま制御部１４へ出力する。
また、音声認識部１１で認識に失敗した場合、認識制御部１３は何もしない。

次に、この発明の実施の形態１，２に示した車載機器１とその周辺機器の主なハードウェア構成例を説明する。図６は、この発明の各実施の形態に係る車載機器１とその周辺機器の主なハードウェア構成図である。
車載機器１における音声認識部１１，１１ａ、判断部１２、認識制御部１３，１３ａおよび制御部１４の各機能は、処理回路により実現される。すなわち、車載機器１は、車内の発話者の人数が複数か単数かを判断し、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けたか否かにかかわらず発話された音声の認識結果を採用し、採用した認識結果に応じた動作を行うための処理回路を備える。処理回路は、メモリ１０２に格納されるプログラムを実行するプロセッサ１０１である。プロセッサ１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、またはＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）などともいう。なお、複数のプロセッサ１０１により、車載機器１の各機能を実現してもよい。

音声認識部１１，１１ａ、判断部１２、認識制御部１３，１３ａおよび制御部１４の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアはプログラムとして記述され、メモリ１０２に格納される。プロセッサ１０１は、メモリ１０２に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、車載機器１は、プロセッサ１０１により実行されるときに、図２と図３に示した各ステップ、または図５に示した各ステップが結果的に実行されることになるプログラムを格納するためのメモリ１０２を備える。また、これらのプログラムは、音声認識部１１，１１ａ、判断部１２、認識制御部１３，１３ａおよび制御部１４の手順または方法をコンピュータに実行させるものであるともいえる。メモリ１０２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ）等の不揮発性または揮発性の半導体メモリであってもよいし、ハードディスク、フレキシブルディスク等の磁気ディスクであってもよいし、ミニディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等の光ディスクであってもよい。

入力装置１０３は、音声入力部２、カメラ３、圧力センサ４および指示入力部７である。出力装置１０４は、表示部５およびスピーカ６である。

なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。

この発明に係る音声認識装置は、発話者の人数が複数の場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、発話者が単数の場合は指示を受けたか否かにかかわらず発話された音声の認識結果を採用するようにしたので、発話者の発話を常時認識する車載用音声認識装置などに用いるのに適している。

１車載機器、２音声入力部、３カメラ、４圧力センサ、５表示部、６スピーカ、７指示入力部、１０音声認識装置、１１，１１ａ音声認識部、１２判断部、１３，１３ａ認識制御部、１４制御部、１０１プロセッサ、１０２メモリ、１０３入力装置、１０４出力装置。

Claims

音声を認識して認識結果を出力する音声認識部と、
車内の発話者の人数が複数か単数かを判断して判断結果を出力する判断部と、
前記音声認識部および前記判断部からの出力結果に基づき、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用する認識制御部とを備える車載用音声認識装置。
前記判断部は、前記車内の搭乗者の人数が複数であっても発話する可能性のある人数が単数である場合、前記発話者の人数を単数と判断することを特徴とする請求項１記載の車載用音声認識装置。
前記判断部は、前記車内の搭乗者が起きているか寝ているかを判断し、起きている搭乗者を前記発話する可能性のある人数に数えることを特徴とする請求項２記載の車載用音声認識装置。
音声を認識して認識結果を出力する音声認識部と、
車内の発話者の人数が複数か単数かを判断して判断結果を出力する判断部と、
前記音声認識部および前記判断部からの出力結果に基づき、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用する認識制御部と、
前記認識制御部が採用した認識結果に応じた動作を行う制御部とを備えることを特徴とする車載機器。