JP6198432B2

JP6198432B2 - 音声認識制御装置

Info

Publication number: JP6198432B2
Application number: JP2013081185A
Authority: JP
Inventors: 崇伊野瀬; 中村　忍; 忍中村
Original assignee: Kojima Industries Corp
Current assignee: Kojima Industries Corp
Priority date: 2013-04-09
Filing date: 2013-04-09
Publication date: 2017-09-20
Anticipated expiration: 2033-04-09
Also published as: US20140303969A1; EP2790183A1; JP2014203031A; EP2790183B1; US9830906B2

Description

本発明は、入力された音声データ信号が実行コマンドであることを認識する音声認識処理を行って、実行コマンドを実行する音声認識制御装置に関する。

従来から、車両に搭載され、運転者の音声によってオーディオ装置またはナビゲーション装置などの電気機器を操作するための音声認識制御装置が使用されている。

この種の音声認識制御装置は、運転席周辺部に設けられた音声認識用スイッチと、天井部に設けられたマイクロフォンと、制御装置であるヘッドユニットとを備える場合がある。運転者が音声認識開始スイッチを押すことで音声認識が開始され、運転者がコマンドを発声した場合に、マイクロフォンが音声を取得し、音声を表す信号をヘッドユニットに送信する。ヘッドユニットは、音声信号を認識ソフトで解析しその解析に応じて電気機器を制御する。

特許文献１に記載された音声認識制御装置は、運転席前方と助手席前方とのそれぞれに設けられたマイクロフォンと音声認識開始スイッチとを含み、２つの認識開始スイッチは一方のスイッチの信号をオンとし、他方のスイッチの信号をオフとするように選択的に信号出力が許可される。認識開始スイッチのオン信号が発生した場合に、対応するマイクロフォンからの音声の認識によって空調装置またはオーディオ装置が操作される。

特開２０００−１９４３９４号公報

音声認識開始スイッチが運転席周辺部に１つのみ設けられる構成では、運転者以外のユーザが音声によって電気機器を操作することが困難である。また、特許文献１に記載されたように、２つの音声認識開始スイッチで選択的に信号出力が許可される構成では、複数のユーザが同時に音声を発した場合に、両方の音声の認識による複数の実行コマンドの実行ができない。

本発明の目的は、複数のユーザが同時に音声を発した場合における複数の実行コマンドを実行可能な音声認識制御装置を提供することである。

本発明の車両用音声認識制御装置は、入力された音声データ信号が実行コマンドであることを認識する音声認識処理を行うように構成され、実行コマンドを実行するように構成された音声認識実行制御ユニットを備える車両用音声認識制御装置であって、異なる位置に配置された複数のマイクロフォンと、各マイクロフォンから入力された音声に基づくデータと、各マイクロフォン間での順位に関するデータであって、発話の終了した順序を表すデータとを記憶するように適合され、発話の終了した順序を表すデータに基づき、発話の終了時の先のものから順に複数のマイクロフォンを順位付けするように構成され、順位付けの順でマイクロフォンに対応する音声データ信号を音声認識実行制御ユニットに送信するように構成された音声送信制御ユニットとを備え、音声認識実行制御ユニットは、音声送信制御ユニットから送信された音声データ信号の順序に応じて音声認識処理を行うように構成され、さらに、音声送信制御ユニットは、複数のマイクロフォンにおいて、少なくとも第１マイクロフォンをノイズキャンセラとして用いて、複数のマイクロフォンのうちの第２マイクロフォンから取得される音声の第２時間波形から、第１マイクロフォンから取得される音声の第１時間波形に対応する波形であって、予め設定した所定時間で、第２時間波形と第１時間波形との最大振幅同士の比率を算出し、この比率を用いて第１時間波形のレベルを小さくして得られた波形を除去する。

本発明によれば、予め設定された条件に基づいて複数のマイクロフォンが順位付けされ、順位付けの順でマイクロフォンに対応する音声データ信号が音声認識実行制御ユニットに送信され、音声認識実行制御ユニットで、音声送信制御ユニットから送信された音声データ信号の順序で音声認識処理が行われる。このため、複数のユーザが同時に音声を発した場合における複数の実行コマンドの実行が可能となる。

本発明の実施形態の音声認識制御装置を示すブロック図である。車両において、図１の音声認識制御装置のマイクロフォン、操作部、及び音声送信制御ユニットを上方から見た透視図である。音声送信制御ユニットの構成図である。発話者に近いマイクロフォン（ａ）と発話者から遠いマイクロフォン（ｂ）とで取得した同一の発話者の音声の時間変化波形の違いを示す図である。本発明の実施形態で複数のユーザの音声が順位づけ記憶部に記憶される様子を示すタイムチャートである。本発明の実施形態で複数のユーザが同時に発話している場合において、音声データが順位づけ記憶部に記憶される様子を模式的に示すタイムチャートである。本発明の実施形態の音声認識制御装置の別例において、図５に対応するタイムチャートを示す図である。

以下、本発明の実施形態について図面を参照して説明する。図１は、本発明の実施形態の音声認識制御装置１０を示すブロック図である。なお、以下では、音声認識制御装置１０として車両搭載用のものを説明するが、車両搭載用に限定するものではなく、家庭用などの屋内または工場内に設置される電気機器を音声で制御するために用いられてもよい。

また、音声認識制御装置１０により制御される「電気機器１２」がオーディオ装置またはナビゲーション装置またはその両方である場合を説明するが、「電気機器」は、空調装置、車載電話機であるハンズフリー装置（ＨＦ装置）、車両の駆動制御に直接関係しない電装機器であるワイパー装置、ヘッドライトを制御する電装機器制御装置のうちの少なくとも１つ以上であってもよい。また、電気機器１２が「音声認識実行制御ユニット１４」を含む場合を説明するが、「音声認識実行制御ユニット」は、電気機器１２と別部材として設けられ、電気機器１２を音声で制御するものであってもよい。この場合、音声認識実行制御ユニットは、複数の電気機器１２を音声で制御してもよい。音声認識実行制御ユニットは、「ヘッドユニット（Ｈ／Ｕ）」とも呼ばれる。

音声認識制御装置１０は、電気機器１２と、音声送信制御ユニット１６と、複数のマイクロフォンＭ１、Ｍ２、Ｍ３、Ｍ４と、各マイクロフォンＭ１、Ｍ２、Ｍ３、Ｍ４の周辺部に配置された複数の操作部である音声認識開始スイッチＳ１，Ｓ２，Ｓ３，Ｓ４とを含み、車両に搭載して用いられる。

電気機器１２は、オーディオ装置、またはナビゲーション装置、またはオーディオ装置を有するオーディオ付ナビゲーション装置である。電気機器１２は、音声認識実行制御ユニット１４を含む。音声認識実行制御ユニット１４は、ＣＰＵ、メモリを有するマイクロコンピュータにより構成されるもので、記憶部２２と、音声認識部２４と、コマンド実行部２６とを有する。記憶部２２は、複数の実行コマンドを記憶する。音声認識部２４は、後述する音声送信制御ユニット１６から音声データ信号が送信された場合に、記憶部２２に記憶された複数の実行コマンドの１つが音声データであると認識する音声認識処理を行う。音声認識部２４は、入力される音声データを解析するソフトウェアから構成されてもよい。コマンド実行部２６は、音声認識部２４で実行コマンドが音声データであると認識された場合に、実行コマンドを実行して電気機器１２を制御する。なお、実行コマンドは、記憶部２２に記憶された階層構造のコマンドであってもよい。実行コマンドの実行により、例えば電気機器であるオーディオ装置の音量変更または選局が行われる。

音声送信制御ユニット１６は、複数の信号線２８ａ、２８ｂ、２８ｃ、２８ｄで電気機器１２に接続される。音声送信制御ユニット１６は、ＣＰＵ、メモリを有するマイクロコンピュータにより構成されるもので、順位付け記憶制御部３０と、音声順位付け記憶部３２と、音声データ送信部３４とを有する。音声送信制御ユニット１６は、後述するマイクロフォンＭ１，Ｍ２，Ｍ３，Ｍ４から送信された音声をデジタルの音声データに変換して、音声データ信号として電気機器１２の音声認識実行制御ユニット１４に送信する。順位付け記憶制御部３０と、音声順位付け記憶部３２と、音声データ送信部３４とは後で詳しく説明する。

複数のマイクロフォンＭ１，Ｍ２，Ｍ３，Ｍ４は、無指向性であり、運転席Ｈ１、助手席Ｈ２、後部右席Ｈ３、後部左席Ｈ４（図２参照）のそれぞれの周辺部である互いに異なる位置に配置される。以下、運転席Ｈ１、助手席Ｈ２、後部右席Ｈ３、後部左席Ｈ４の周辺部に配置されるマイクロフォンＭ１，Ｍ２，Ｍ３，Ｍ４を、「Ｄ席マイクＭ１」、「Ｐ席マイクＭ２」、「ＲＲ席マイクＭ３」、「ＲＬ席マイクＭ４」という場合がある。各マイクＭ１，Ｍ２，Ｍ３，Ｍ４は音声送信制御ユニット１６に接続され、各マイクＭ１，Ｍ２，Ｍ３，Ｍ４に入力された音声を音声送信制御ユニット１６に送信する。

図２は、車両４０において、音声認識制御装置１０の複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４、複数の音声認識開始スイッチＳ１，Ｓ２，Ｓ３，Ｓ４、及び音声送信制御ユニット１６を上方から見た透視図である。図２の左側が車両の前側で、図２の右側が車両の後側である。複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４は、対応する座席Ｈ１、Ｈ２、Ｈ３、Ｈ４の周辺部の車両天井部に取り付けられている。なお、各マイクとして指向性を有するものを用いてもよい。図２では斜格子部によって、各マイクを指向性マイクとした場合の高感度の集音可能範囲を示している。

音声送信制御ユニット１６は、電気機器１２（図１）とともに、車両前側の図示しないインストルメントパネルの中央部付近に取り付けられる。各マイクＭ１，Ｍ２，Ｍ３，Ｍ４と音声送信制御ユニット１６とを接続するハーネスＵ１，Ｕ２，Ｕ３，Ｕ４は、車両の左右方向に関して座席のそれぞれに近い側の図示しない前側ピラーの樹脂板内側を通過させてもよい。

複数の音声認識開始スイッチＳ１，Ｓ２，Ｓ３，Ｓ４も、各マイクＭ１，Ｍ２，Ｍ３，Ｍ４と同様に、運転席Ｈ１、助手席Ｈ２、後部右席Ｈ３、後部左席Ｈ４のそれぞれの周辺部に配置される。以下、運転席Ｈ１、助手席Ｈ２、後部右席Ｈ３、後部左席Ｈ４の周辺部に配置される音声認識開始スイッチＳ１，Ｓ２，Ｓ３，Ｓ４を、「Ｄ席ＳＷＳ１」、「Ｐ席ＳＷＳ２」、「ＲＲ席ＳＷＳ３」、「ＲＬ席ＳＷＳ４」という場合がある。

各ＳＷＳ１，Ｓ２，Ｓ３，Ｓ４は押しボタン式のスイッチであり、音声送信制御ユニット１６に接続される。図２では、各ＳＷＳ１，Ｓ２，Ｓ３，Ｓ４は、それぞれの周辺部の座席Ｈ１，Ｈ２，Ｈ３，Ｈ４の横のドア内側面に操作ボタンが突出するように取り付けられている。各ＳＷＳ１，Ｓ２，Ｓ３，Ｓ４が発話者となるユーザによって操作、すなわち押されることによって、各ＳＷＳ１，Ｓ２，Ｓ３，Ｓ４は、音声認識開始の指示入力を取得し、音声送信制御ユニット１６に指示入力を表す指示信号を送信する。なお、ＳＷ及びマイクの数は車両の定員数に応じて設定してもよい。また、ＳＷ及びマイクの配置位置は、上記の位置に限定するものではなく、想定されるユーザ位置の近辺に配置されればよい。また、「操作部」は、図示の例のような押しボタン式のスイッチＳ１，Ｓ２，Ｓ３，Ｓ４に限定するものではなく、電気機器１２が有するディスプレイ装置の表示部に設定される所定領域の押圧部であってもよい。

図３は、音声送信制御ユニット１６の構成図である。音声送信制御ユニット１６は、図示しない音声入力部と、各マイクＭ１，Ｍ２，Ｍ３，Ｍ４に対応する複数の記憶部３５と、順位付け記憶制御部３０と、音声順位付け記憶部３２と、音声データ送信部３４とを有する。音声入力部は、各マイクＭ１，Ｍ２，Ｍ３，Ｍ４の１つ以上からの音声入力があった場合に、その音声信号にＡ／Ｄ変換処理を行って、得られた音声データを対応する記憶部３５に出力する。各記憶部３５は、各マイクＭ１，Ｍ２，Ｍ３，Ｍ４から音声入力部を介して入力された音声データと、各マイクＭ１，Ｍ２，Ｍ３，Ｍ４間での順位に関する「時間データ」とを記憶する。音声送信制御ユニット１６は、１つ以上のＳＷＳ１，Ｓ２，Ｓ３，Ｓ４からの指示入力を取得した場合に、そのＳＷＳ１，Ｓ２，Ｓ３，Ｓ４に対応する記憶部３５での集音を開始させる。

各記憶部３５は、音声送信制御ユニット１６の起動中にのみ一時的に音声及び時間データを記憶するものであってもよい。「時間データ」は、各マイクＭ１，Ｍ２，Ｍ３，Ｍ４に入力された所定レベル以上の音声の発話終了時間を表すデータである。この時間データは、発話者のコマンドの発話の終了時点であって、２つ以上のマイクＭ１，Ｍ２，Ｍ３，Ｍ４に対して発話の音声が同時に入力されている場合に発話の終了した順序を表すデータに相当する。例えば、時間データとして発話終了の早い時点から順にＴ１，Ｔ２，Ｔ３，Ｔ４の時間データが各マイクＭ１，Ｍ２，Ｍ３，Ｍ４に対応付けられて記憶される。なお、「時間データ」は、各記憶部３５に記憶するのではなく、後述する音声処理要素３６で音声を処理する際に、音声に対応する発話終了時間を「時間データ」として算出し、音声順位付け記憶部３２に音声データとともに記憶させてもよい。発話終了時間の決定の際、音声の後に無音が予め設定した所定時間以上続いた場合に、発話終了として無音開始時点を発話終了時間として決定してもよい。

順位付け記憶制御部３０は、記憶部３５から読み出された音声データに後述する音声処理を行う音声処理要素３６を有する。順位付け記憶制御部３０は、予め設定された「所定条件」に基づいて、時間データを用いて複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４を順位づけし、音声順位付け記憶部３２に、順位付けの順でマイクＭ１，Ｍ２，Ｍ３，Ｍ４から入力された音声に基づく音声データを記憶させる。この場合、「所定条件」は、音声送信制御ユニット１６が複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４から同時に所定レベル以上の音声の入力があった場合に、時間データでマイクＭ１，Ｍ２，Ｍ３，Ｍ４を順位づけすることであって、複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４に同時に所定レベル以上の音声の入力がない場合には、音声入力のあったマイクを最高位順位である最優先のマイクとすることである。このため、複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４に同時に発話したユーザの音声入力があった場合に、それぞれのマイクＭ１，Ｍ２，Ｍ３，Ｍ４に発話の終了順に順位が付けられ、発話終了時の先のものから順に、対応する音声データが音声順位付け記憶部３２に記憶される。

音声処理要素３６は、ある１つのマイク（例えばＭ１）から入力される音声に含まれるノイズを、別のマイクから入力される音声を用いて減じてクリアな音声に変換する音声処理を行う。この場合、音声認識を利用する発話者に近いマイク（例えばＭ１）以外のマイク（例えばＭ２，Ｍ３，Ｍ４の１つ）がノイズキャンセラとして利用される。また、この場合に発話者に近いマイク以外の全てのマイクがノイズキャンセラとして利用されてもよい。例えば発話者が１人として判断される場合に、発話者に近いマイク以外の全てのマイク（例えばＭ２，Ｍ３，Ｍ４の全部）がノイズキャンセラとして利用されてもよい。

まず、この音声処理の原理について、図４を用いて説明する。図４は、発話者に近いマイク（ａ）と発話者から遠いマイク（ｂ）とで取得した同一の発話者の音声の時間変化波形の違いを示す図である。音声認識を利用する発話者に近いマイクがＤ席マイクＭ１である場合、車室内が閉鎖空間となる。このため、Ｄ席マイクＭ１だけでなく、Ｐ席マイクＭ２、ＲＲ席マイクＭ３、ＲＬ席マイクＭ４のいずれにも運転者の音声が入力される。したがって、Ｄ席マイクＭ１と、Ｄ席マイクＭ１以外の１つのマイクとを用いて集音を行う場合に、一方のマイクを他方のマイクに対するノイズキャンセラとして用いることができる。以下では、ノイズキャンセラとして用いられるマイクをＤ席マイクＭ１として説明する。

図４の（ａ）はＤ席マイクＭ１に入力される運転者の音声の時間変化波形であり、図４（ｂ）はＰ席マイクＭ２に入力される運転者の音声の時間変化波形である。図４（ａ）（ｂ）の比較から分かるように、Ｄ席マイクＭ１に入力される運転者の音声のレベルの最大振幅Ｗ１は、別のマイクＭ２に入力される運転者の音声のレベルの最大振幅Ｗ２よりも大きくなり、感度が高くなる。音声波形の振幅は音量に対応する。このように発話者とマイクとの距離に応じて、音量の減衰が生じる。

また、Ｄ席マイクＭ１に入力される運転者の音声において、音声送信制御ユニット１６（図１）に対する到達時点ｔＡは、別のマイクＭ２に入力される運転者の音声において、音声送信制御ユニット１６に対する到達時点ｔＢよりも時間ｔＡＢ分早くなる。このように発話者とマイクとの距離に応じて音の遅延が発生する。

このような特性を生かして、音声認識を利用する発話者が助手席ユーザであり、同時に発話する運転者がいる場合に、Ｐ席マイクＭ２から入力される音声に対して運転者の音声をノイズとして除去が可能となる。

本実施形態では、このような原理を用いて、音声処理要素３６は、音声認識を利用する発話者のマイクＭ２から入力される音声に含まれるノイズを、別のマイクＭ１から入力される音声を用いて減じてクリアな音声に変換する。この場合、図４から分かるように、音声認識を利用する発話者の音声について、Ｄ席マイクＭ１から入力される音声と、Ｐ席マイクＭ２から入力される音声とで音声波形の振幅が異なる。このため、予め設定した所定時間でそれぞれの音声波形の最大振幅同士の比率Ｗ２／Ｗ１を算出し、その比率Ｗ２／Ｗ１を用いてＤ席マイクＭ１に入力される運転者のレベルの大きい音声波形のレベルを小さくしてから、Ｐ席マイクＭ２から入力される、レベルの小さい運転者の音声波形を除去する。上記では助手席ユーザが音声認識を利用する場合を説明したが、他の乗員が音声認識を利用する場合でも、同様にノイズとなる音声波形を除去できる。

なお、ノイズキャンセルで利用する音声波形の決定方法は、上記のように複数のマイクに入力される音声波形において、音声送信制御ユニット１６に対する音声の到達時間の早さと音声波形の振幅の大きさとで決定するものに限定しない。例えば、音声送信制御ユニットに対する音声の到達時間の早さと音声波形の振幅の大きさとの一方のみで、複数のマイクに入力される音声波形のうち、ノイズキャンセルで利用する音声波形を決定してもよい。なお、本発明の音声認識制御装置でノイズキャンセル機能を用いないこともできる。

音声データ送信部３４は、順位付けの順でマイクに対応して音声順位付け記憶部３２に記憶された音声データを、音声データ信号として、図１の信号線２８ａを用いて電気機器１２に送信する。また、音声送信制御ユニット１６は、音声データ信号の送信に伴って、順位付けられた音声データに対応するマイク近辺にいると想定される発話者の発話者データを表す信号を、図１の信号線２８ｂを用いて電気機器１２に送信する。例えば音声データが運転者近辺マイクに対応する場合、この音声データの順番に運転者が関連付けられたデータが送信される。また、音声送信制御ユニット１６は、音声データ信号の送信に伴って、音声認識の指示がされていることを表す音声認識ＳＷ信号を、図１の信号線２８ｃを用いて電気機器１２に送信する。また、音声送信制御ユニット１６は、電気機器１２にハンズフリー装置が接続されている場合にハンズフリー装置の使用中であることを表すＨＦ状態信号を、図１の信号線２８ｄを用いて電気機器１２に送信する。発話者データ信号、音声認識ＳＷ信号及びＨＦ状態信号の送信を省略することもできる。

電気機器１２の音声認識実行制御ユニット１４は、音声データ送信部３４から送信された音声データ信号の順序に応じて音声認識処理を行う。

上記の音声認識制御装置１０によれば、車両運転時に運転中の電気機器１２の操作が制御により制限される場合でも、音声認識を用いて操作することが可能となる。

また、予め設定された条件である発話終了順にマイクを順位付けすることに基づいて複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４が順位付けされ、順位付けの順でマイクＭ１，Ｍ２，Ｍ３，Ｍ４に対応する音声データ信号が音声認識実行制御ユニット１４に送信され、音声認識実行制御ユニット１４で、音声送信制御ユニット１６から送信された音声データ信号の順序で音声認識処理が行われる。このため、複数のユーザが同時に音声を発した場合における複数の実行コマンドの実行が可能となる。この場合、例えば、次のように複数のユーザの音声が発話の終了順に音声順位づけ記憶部３２に記憶される。

図５は、本実施形態で複数のユーザの音声が順位づけ記憶部３２に記憶される様子の１例をタイムチャートで示している。以下の説明では、運転席Ｈ１、助手席Ｈ２、後部右席Ｈ３、後部左席Ｈ４をそれぞれＤ席、Ｐ席、ＲＲ席、ＲＬ席とし、Ｄ席、Ｐ席、ＲＲ席、ＲＬ席にそれぞれ位置するユーザを運転者であるＤ席ユーザ、Ｐ席ユーザ、ＲＲ席ユーザ、ＲＬ席ユーザとして説明する。また、各ＳＷの欄のＯＮは、ＳＷが押されたことを示している。

まず複数のＳＷＳ１，Ｓ２，Ｓ３，Ｓ４のうち、Ｄ席ＳＷＳ１のみがＤ席ユーザに押されて音声認識開始が指示され、Ｄ席マイクＭ１から発話「あ」が入力されている。この場合、すべてのマイクＭ１，Ｍ２，Ｍ３，Ｍ４のうち、Ｄ席マイクＭ１でのみ所定レベル以上の音声の入力があり、Ｄ席ユーザの発話が終了した後に音声順位付け記憶部３２に発話「あ」の音声データが記憶される。

次に、Ｐ席ＳＷＳ２とＲＲ席ＳＷＳ３とがほぼ同時期に押されて、ほぼ同時に複数の音声入力としてＰ席ユーザの発話「い」とＲＲ席ユーザの発話「う」とがマイクＭ２，Ｍ３から入力されている。この場合、マイクＭ２，Ｍ３で所定レベル以上の音声の入力があるが、Ｐ席ユーザの発話がＲＲ席ユーザの発話よりも早く始まり、早く終了している。このため、Ｐ席ユーザの発話「い」が先に音声順位付け記憶部３２に記憶され、その後、ＲＲ席ユーザの発話「う」が音声順位付け記憶部３２に記憶される。

次に、Ｄ席ＳＷＳ１が押された後でＲＬ席ＳＷＳ４が押されて、ほぼ同時に複数の音声入力としてＤ席ユーザの発話「え」とＲＬ席ユーザの発話「お」とがマイクＭ１，Ｍ４に入力され、マイクＭ１，Ｍ４で所定レベル以上の音声の入力があるが、ＲＬ席ユーザの発話「お」は、Ｄ席ユーザの発話「え」よりも遅く始まり早く終了している。このため、ＲＬ席ユーザの発話「お」が先に音声順位付け記憶部３２に記憶され、その後、Ｄ席ユーザの発話「え」が音声順位付け記憶部３２に記憶される。なお、図５では、各ユーザの発話の期間全体でハンズフリー装置は非使用である非通話状態である。音声順位付け記憶部３２に記憶された音声データを表す音声データ信号は、順位付けされた発話者データを表す信号とともに、音声認識実行制御ユニット１４に送信される。

図６は、本実施形態で４人のユーザが同時に発話している場合において、音声データが音声順位づけ記憶部３２に記憶される様子の１例をタイムチャートで模式的に示している。図６では、各ユーザの音声データ及び音声順位付け記憶部３２に記憶される順位付け記憶データを分かりやすくするために音声波形として示している。また、Ｓ１，Ｓ２, Ｓ３，Ｓ４の矢印で各ＳＷＳ１，Ｓ２，Ｓ３，Ｓ４の押された時間を示している。また、Ｄ１，Ｄ２，Ｄ３，Ｄ４の矢印範囲は、各ユーザの発話時間を示している。Ｔ１，Ｔ２，Ｔ３，Ｔ４は、各ユーザの発話間で発話の終了が早い順を示している。また、Ｔ０は発話終了を判断するために予め所定時間に設定される無音判定用時間である。

図６の例では、各ＳＷＳ１，Ｓ２，Ｓ３，Ｓ４がほぼ同時期に押されて、各席のユーザがほぼ同時に発話している。また、発話の終了順は、Ｐ席ユーザ、Ｄ席ユーザ、ＲＬ席ユーザ、ＲＲ席ユーザである。このため、音声順位付け記憶部３２には、Ｐ席ユーザ、Ｄ席ユーザ、ＲＬ席ユーザ、ＲＲ席ユーザの順に音声データが記憶され、その音声データを表す音声データ信号は、順位付けされた発話者データを表す信号とともに、音声認識実行制御ユニット１４に送信される。

このように発話の終了順で音声順位付け記憶部３２に音声データが記憶され、その順位で音声認識実行制御ユニット１４で音声認識が行われる場合、音声認識で各ユーザの発話時間の長さを制限しない場合に、実行コマンドを早期に実行処理する場合に有効である。

図７は、本発明の実施形態の音声認識制御装置の別例において、図５に対応するタイムチャートを示す図である。上記では、複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４に同時に発話したユーザの音声入力がある場合に各マイクＭ１，Ｍ２，Ｍ３，Ｍ４が発話の終了順に順位付けされる場合を説明した。一方、本例では、複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４に同時に発話した発話者の音声入力がある場合にＳＷＳ１，Ｓ２，Ｓ３，Ｓ４が押される順番に各マイクＭ１，Ｍ２，Ｍ３，Ｍ４が順位付けされる。

この場合、本例の構成では、順位付け記憶制御部３０は、上記の例と同様に、予め設定された所定条件に基づいて、「時間データ」を用いて複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４を順位づけし、音声順位付け記憶部３２に、順位付けの順でマイクＭ１，Ｍ２，Ｍ３，Ｍ４に対応する音声を音声データとして記憶させる。一方、「時間データ」は、音声送信制御ユニット１６が複数のＳＷから指示信号を受信した順序を表すデータとする。このため、複数のマイクＭ１，Ｍ２，Ｍ３，Ｍ４に同時に発話した発話者の音声入力があった場合には、それぞれのマイクＭ１，Ｍ２，Ｍ３，Ｍ４にＳＷの押された順に順位付けされ、ＳＷ操作の先のものから順に、対応する音声データが音声順位付け記憶部３２に記憶される。

図７の例では、ほぼ同時にＤ席ユーザの発話「え」とＲＬ席ユーザの発話「お」とがあるが、Ｄ席ＳＷＳ１が押された後でＲＬ席ＳＷＳ４が押されている。このため、Ｄ席ユーザの発話「え」が先に音声順位付け記憶部３２に記憶され、その後、ＲＬ席ユーザの発話「お」が音声順位付け記憶部３２に記憶される。

このような本例の構成によれば、ＳＷの押された順で音声順位付け記憶部３２に音声データが記憶され、その順位で音声認識実行制御ユニット１４で音声認識が行われる。この場合、各ユーザ間で先にＳＷの操作を行ったユーザの優先順位を高くして音声認識を行うので、ユーザの不快感を少なくすることに重点を置く場合に有効である。その他の構成及び作用は、上記の図１から図６の構成と同様である。

なお、上記では、各マイクＭ１，Ｍ２，Ｍ３，Ｍ４に対応する記憶部３５がマイクの数に応じて複数設けられる場合を説明したが、各マイクＭ１，Ｍ２，Ｍ３，Ｍ４から音声が記憶される記憶部を共通の１つの記憶部として、この記憶部の各マイクＭ１，Ｍ２，Ｍ３，Ｍ４に対応する複数の記憶領域に音声を記憶させてもよい。また、この場合、各マイクＭ１，Ｍ２，Ｍ３，Ｍ４からの入力がある記憶部と、音声順位付け記憶部とを、共通の１つの記憶部において、分けて設定された複数の記憶領域としてもよい。

また、上記の各例の構成で電気機器１２としてハンズフリー装置を用いることで、ハンズフリー装置を利用した同時会話参加システムに本発明を適用してもよい。この場合、上記の各例とは別の条件で音声認識の順位付けをしてもよい。また、マイクの特性によっては、超音波領域等の可聴域以外の周波数帯域のデータ収集に上記の各例の構成を用いてもよい。

１０音声認識制御装置、１２電気機器、１４音声認識実行制御ユニット、１６音声送信制御ユニット、２２記憶部、２４音声認識部、２６コマンド実行部、２８ａ，２８ｂ，２８ｃ，２８ｄ信号線、３０順位付け記憶制御部、３２音声順位付け記憶部、３４音声データ送信部、３５記憶部、３６音声処理要素、４０車両。

Claims

入力された音声データ信号が実行コマンドであることを認識する音声認識処理を行うように構成され、実行コマンドを実行するように構成された音声認識実行制御ユニットを備える車両用音声認識制御装置であって、
異なる位置に配置された複数のマイクロフォンと、
各マイクロフォンから入力された音声に基づくデータと、各マイクロフォン間での順位に関するデータであって、発話の終了した順序を表すデータとを記憶するように適合され、発話の終了した順序を表すデータに基づき、発話の終了時の先のものから順に複数のマイクロフォンを順位付けするように構成され、順位付けの順でマイクロフォンに対応する音声データ信号を音声認識実行制御ユニットに送信するように構成された音声送信制御ユニットとを備え、
音声認識実行制御ユニットは、音声送信制御ユニットから送信された音声データ信号の順序に応じて音声認識処理を行うように構成され、
さらに、音声送信制御ユニットは、複数のマイクロフォンにおいて、少なくとも第１マイクロフォンをノイズキャンセラとして用いて、複数のマイクロフォンのうちの第２マイクロフォンから取得される音声の第２時間波形から、第１マイクロフォンから取得される音声の第１時間波形に対応する波形であって、予め設定した所定時間で、第２時間波形と第１時間波形との最大振幅同士の比率を算出し、この比率を用いて第１時間波形のレベルを小さくして得られた波形を除去する車両用音声認識制御装置。
請求項１に記載の車両用音声認識制御装置において、
音声送信制御ユニットは、複数のマイクロフォンから取得される音声の時間波形のうちから、音声送信制御ユニットに対する音声の到達時間の早さと音声波形の振幅の大きさとのうち、少なくとも一方に基づいて、ノイズキャンセラとして用いる音声の時間波形を決定する車両用音声認識制御装置。