JP6198432B2 - 音声認識制御装置 - Google Patents

音声認識制御装置 Download PDF

Info

Publication number
JP6198432B2
JP6198432B2 JP2013081185A JP2013081185A JP6198432B2 JP 6198432 B2 JP6198432 B2 JP 6198432B2 JP 2013081185 A JP2013081185 A JP 2013081185A JP 2013081185 A JP2013081185 A JP 2013081185A JP 6198432 B2 JP6198432 B2 JP 6198432B2
Authority
JP
Japan
Prior art keywords
voice
microphones
voice recognition
control unit
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013081185A
Other languages
English (en)
Other versions
JP2014203031A (ja
Inventor
崇 伊野瀬
崇 伊野瀬
中村 忍
忍 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kojima Industries Corp
Original Assignee
Kojima Industries Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kojima Industries Corp filed Critical Kojima Industries Corp
Priority to JP2013081185A priority Critical patent/JP6198432B2/ja
Priority to EP14163534.2A priority patent/EP2790183B1/en
Priority to US14/247,782 priority patent/US9830906B2/en
Publication of JP2014203031A publication Critical patent/JP2014203031A/ja
Application granted granted Critical
Publication of JP6198432B2 publication Critical patent/JP6198432B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、入力された音声データ信号が実行コマンドであることを認識する音声認識処理を行って、実行コマンドを実行する音声認識制御装置に関する。
従来から、車両に搭載され、運転者の音声によってオーディオ装置またはナビゲーション装置などの電気機器を操作するための音声認識制御装置が使用されている。
この種の音声認識制御装置は、運転席周辺部に設けられた音声認識用スイッチと、天井部に設けられたマイクロフォンと、制御装置であるヘッドユニットとを備える場合がある。運転者が音声認識開始スイッチを押すことで音声認識が開始され、運転者がコマンドを発声した場合に、マイクロフォンが音声を取得し、音声を表す信号をヘッドユニットに送信する。ヘッドユニットは、音声信号を認識ソフトで解析しその解析に応じて電気機器を制御する。
特許文献1に記載された音声認識制御装置は、運転席前方と助手席前方とのそれぞれに設けられたマイクロフォンと音声認識開始スイッチとを含み、2つの認識開始スイッチは一方のスイッチの信号をオンとし、他方のスイッチの信号をオフとするように選択的に信号出力が許可される。認識開始スイッチのオン信号が発生した場合に、対応するマイクロフォンからの音声の認識によって空調装置またはオーディオ装置が操作される。
特開2000−194394号公報
音声認識開始スイッチが運転席周辺部に1つのみ設けられる構成では、運転者以外のユーザが音声によって電気機器を操作することが困難である。また、特許文献1に記載されたように、2つの音声認識開始スイッチで選択的に信号出力が許可される構成では、複数のユーザが同時に音声を発した場合に、両方の音声の認識による複数の実行コマンドの実行ができない。
本発明の目的は、複数のユーザが同時に音声を発した場合における複数の実行コマンドを実行可能な音声認識制御装置を提供することである。
本発明の車両用音声認識制御装置は、入力された音声データ信号が実行コマンドであることを認識する音声認識処理を行うように構成され、実行コマンドを実行するように構成された音声認識実行制御ユニットを備える車両用音声認識制御装置であって、異なる位置に配置された複数のマイクロフォンと、各マイクロフォンから入力された音声に基づくデータと、各マイクロフォン間での順位に関するデータであって、発話の終了した順序を表すデータとを記憶するように適合され、発話の終了した順序を表すデータに基づき、発話の終了時の先のものから順に複数のマイクロフォンを順位付けするように構成され、順位付けの順でマイクロフォンに対応する音声データ信号を音声認識実行制御ユニットに送信するように構成された音声送信制御ユニットとを備え、音声認識実行制御ユニットは、音声送信制御ユニットから送信された音声データ信号の順序に応じて音声認識処理を行うように構成され、さらに、音声送信制御ユニットは、複数のマイクロフォンにおいて、少なくとも第1マイクロフォンをノイズキャンセラとして用いて、複数のマイクロフォンのうちの第2マイクロフォンから取得される音声の第2時間波形から、第1マイクロフォンから取得される音声の第1時間波形に対応する波形であって、予め設定した所定時間で、第2時間波形と第1時間波形との最大振幅同士の比率を算出し、この比率を用いて第1時間波形のレベルを小さくして得られた波形を除去する。
本発明によれば、予め設定された条件に基づいて複数のマイクロフォンが順位付けされ、順位付けの順でマイクロフォンに対応する音声データ信号が音声認識実行制御ユニットに送信され、音声認識実行制御ユニットで、音声送信制御ユニットから送信された音声データ信号の順序で音声認識処理が行われる。このため、複数のユーザが同時に音声を発した場合における複数の実行コマンドの実行が可能となる。
本発明の実施形態の音声認識制御装置を示すブロック図である。 車両において、図1の音声認識制御装置のマイクロフォン、操作部、及び音声送信制御ユニットを上方から見た透視図である。 音声送信制御ユニットの構成図である。 発話者に近いマイクロフォン(a)と発話者から遠いマイクロフォン(b)とで取得した同一の発話者の音声の時間変化波形の違いを示す図である。 本発明の実施形態で複数のユーザの音声が順位づけ記憶部に記憶される様子を示すタイムチャートである。 本発明の実施形態で複数のユーザが同時に発話している場合において、音声データが順位づけ記憶部に記憶される様子を模式的に示すタイムチャートである。 本発明の実施形態の音声認識制御装置の別例において、図5に対応するタイムチャートを示す図である。
以下、本発明の実施形態について図面を参照して説明する。図1は、本発明の実施形態の音声認識制御装置10を示すブロック図である。なお、以下では、音声認識制御装置10として車両搭載用のものを説明するが、車両搭載用に限定するものではなく、家庭用などの屋内または工場内に設置される電気機器を音声で制御するために用いられてもよい。
また、音声認識制御装置10により制御される「電気機器12」がオーディオ装置またはナビゲーション装置またはその両方である場合を説明するが、「電気機器」は、空調装置、車載電話機であるハンズフリー装置(HF装置)、車両の駆動制御に直接関係しない電装機器であるワイパー装置、ヘッドライトを制御する電装機器制御装置のうちの少なくとも1つ以上であってもよい。また、電気機器12が「音声認識実行制御ユニット14」を含む場合を説明するが、「音声認識実行制御ユニット」は、電気機器12と別部材として設けられ、電気機器12を音声で制御するものであってもよい。この場合、音声認識実行制御ユニットは、複数の電気機器12を音声で制御してもよい。音声認識実行制御ユニットは、「ヘッドユニット(H/U)」とも呼ばれる。
音声認識制御装置10は、電気機器12と、音声送信制御ユニット16と、複数のマイクロフォンM1、M2、M3、M4と、各マイクロフォンM1、M2、M3、M4の周辺部に配置された複数の操作部である音声認識開始スイッチS1,S2,S3,S4とを含み、車両に搭載して用いられる。
電気機器12は、オーディオ装置、またはナビゲーション装置、またはオーディオ装置を有するオーディオ付ナビゲーション装置である。電気機器12は、音声認識実行制御ユニット14を含む。音声認識実行制御ユニット14は、CPU、メモリを有するマイクロコンピュータにより構成されるもので、記憶部22と、音声認識部24と、コマンド実行部26とを有する。記憶部22は、複数の実行コマンドを記憶する。音声認識部24は、後述する音声送信制御ユニット16から音声データ信号が送信された場合に、記憶部22に記憶された複数の実行コマンドの1つが音声データであると認識する音声認識処理を行う。音声認識部24は、入力される音声データを解析するソフトウェアから構成されてもよい。コマンド実行部26は、音声認識部24で実行コマンドが音声データであると認識された場合に、実行コマンドを実行して電気機器12を制御する。なお、実行コマンドは、記憶部22に記憶された階層構造のコマンドであってもよい。実行コマンドの実行により、例えば電気機器であるオーディオ装置の音量変更または選局が行われる。
音声送信制御ユニット16は、複数の信号線28a、28b、28c、28dで電気機器12に接続される。音声送信制御ユニット16は、CPU、メモリを有するマイクロコンピュータにより構成されるもので、順位付け記憶制御部30と、音声順位付け記憶部32と、音声データ送信部34とを有する。音声送信制御ユニット16は、後述するマイクロフォンM1,M2,M3,M4から送信された音声をデジタルの音声データに変換して、音声データ信号として電気機器12の音声認識実行制御ユニット14に送信する。順位付け記憶制御部30と、音声順位付け記憶部32と、音声データ送信部34とは後で詳しく説明する。
複数のマイクロフォンM1,M2,M3,M4は、無指向性であり、運転席H1、助手席H2、後部右席H3、後部左席H4(図2参照)のそれぞれの周辺部である互いに異なる位置に配置される。以下、運転席H1、助手席H2、後部右席H3、後部左席H4の周辺部に配置されるマイクロフォンM1,M2,M3,M4を、「D席マイクM1」、「P席マイクM2」、「RR席マイクM3」、「RL席マイクM4」という場合がある。各マイクM1,M2,M3,M4は音声送信制御ユニット16に接続され、各マイクM1,M2,M3,M4に入力された音声を音声送信制御ユニット16に送信する。
図2は、車両40において、音声認識制御装置10の複数のマイクM1,M2,M3,M4、複数の音声認識開始スイッチS1,S2,S3,S4、及び音声送信制御ユニット16を上方から見た透視図である。図2の左側が車両の前側で、図2の右側が車両の後側である。複数のマイクM1,M2,M3,M4は、対応する座席H1、H2、H3、H4の周辺部の車両天井部に取り付けられている。なお、各マイクとして指向性を有するものを用いてもよい。図2では斜格子部によって、各マイクを指向性マイクとした場合の高感度の集音可能範囲を示している。
音声送信制御ユニット16は、電気機器12(図1)とともに、車両前側の図示しないインストルメントパネルの中央部付近に取り付けられる。各マイクM1,M2,M3,M4と音声送信制御ユニット16とを接続するハーネスU1,U2,U3,U4は、車両の左右方向に関して座席のそれぞれに近い側の図示しない前側ピラーの樹脂板内側を通過させてもよい。
複数の音声認識開始スイッチS1,S2,S3,S4も、各マイクM1,M2,M3,M4と同様に、運転席H1、助手席H2、後部右席H3、後部左席H4のそれぞれの周辺部に配置される。以下、運転席H1、助手席H2、後部右席H3、後部左席H4の周辺部に配置される音声認識開始スイッチS1,S2,S3,S4を、「D席SWS1」、「P席SWS2」、「RR席SWS3」、「RL席SWS4」という場合がある。
各SWS1,S2,S3,S4は押しボタン式のスイッチであり、音声送信制御ユニット16に接続される。図2では、各SWS1,S2,S3,S4は、それぞれの周辺部の座席H1,H2,H3,H4の横のドア内側面に操作ボタンが突出するように取り付けられている。各SWS1,S2,S3,S4が発話者となるユーザによって操作、すなわち押されることによって、各SWS1,S2,S3,S4は、音声認識開始の指示入力を取得し、音声送信制御ユニット16に指示入力を表す指示信号を送信する。なお、SW及びマイクの数は車両の定員数に応じて設定してもよい。また、SW及びマイクの配置位置は、上記の位置に限定するものではなく、想定されるユーザ位置の近辺に配置されればよい。また、「操作部」は、図示の例のような押しボタン式のスイッチS1,S2,S3,S4に限定するものではなく、電気機器12が有するディスプレイ装置の表示部に設定される所定領域の押圧部であってもよい。
図3は、音声送信制御ユニット16の構成図である。音声送信制御ユニット16は、図示しない音声入力部と、各マイクM1,M2,M3,M4に対応する複数の記憶部35と、順位付け記憶制御部30と、音声順位付け記憶部32と、音声データ送信部34とを有する。音声入力部は、各マイクM1,M2,M3,M4の1つ以上からの音声入力があった場合に、その音声信号にA/D変換処理を行って、得られた音声データを対応する記憶部35に出力する。各記憶部35は、各マイクM1,M2,M3,M4から音声入力部を介して入力された音声データと、各マイクM1,M2,M3,M4間での順位に関する「時間データ」とを記憶する。音声送信制御ユニット16は、1つ以上のSWS1,S2,S3,S4からの指示入力を取得した場合に、そのSWS1,S2,S3,S4に対応する記憶部35での集音を開始させる。
各記憶部35は、音声送信制御ユニット16の起動中にのみ一時的に音声及び時間データを記憶するものであってもよい。「時間データ」は、各マイクM1,M2,M3,M4に入力された所定レベル以上の音声の発話終了時間を表すデータである。この時間データは、発話者のコマンドの発話の終了時点であって、2つ以上のマイクM1,M2,M3,M4に対して発話の音声が同時に入力されている場合に発話の終了した順序を表すデータに相当する。例えば、時間データとして発話終了の早い時点から順にT1,T2,T3,T4の時間データが各マイクM1,M2,M3,M4に対応付けられて記憶される。なお、「時間データ」は、各記憶部35に記憶するのではなく、後述する音声処理要素36で音声を処理する際に、音声に対応する発話終了時間を「時間データ」として算出し、音声順位付け記憶部32に音声データとともに記憶させてもよい。発話終了時間の決定の際、音声の後に無音が予め設定した所定時間以上続いた場合に、発話終了として無音開始時点を発話終了時間として決定してもよい。
順位付け記憶制御部30は、記憶部35から読み出された音声データに後述する音声処理を行う音声処理要素36を有する。順位付け記憶制御部30は、予め設定された「所定条件」に基づいて、時間データを用いて複数のマイクM1,M2,M3,M4を順位づけし、音声順位付け記憶部32に、順位付けの順でマイクM1,M2,M3,M4から入力された音声に基づく音声データを記憶させる。この場合、「所定条件」は、音声送信制御ユニット16が複数のマイクM1,M2,M3,M4から同時に所定レベル以上の音声の入力があった場合に、時間データでマイクM1,M2,M3,M4を順位づけすることであって、複数のマイクM1,M2,M3,M4に同時に所定レベル以上の音声の入力がない場合には、音声入力のあったマイクを最高位順位である最優先のマイクとすることである。このため、複数のマイクM1,M2,M3,M4に同時に発話したユーザの音声入力があった場合に、それぞれのマイクM1,M2,M3,M4に発話の終了順に順位が付けられ、発話終了時の先のものから順に、対応する音声データが音声順位付け記憶部32に記憶される。
音声処理要素36は、ある1つのマイク(例えばM1)から入力される音声に含まれるノイズを、別のマイクから入力される音声を用いて減じてクリアな音声に変換する音声処理を行う。この場合、音声認識を利用する発話者に近いマイク(例えばM1)以外のマイク(例えばM2,M3,M4の1つ)がノイズキャンセラとして利用される。また、この場合に発話者に近いマイク以外の全てのマイクがノイズキャンセラとして利用されてもよい。例えば発話者が1人として判断される場合に、発話者に近いマイク以外の全てのマイク(例えばM2,M3,M4の全部)がノイズキャンセラとして利用されてもよい。
まず、この音声処理の原理について、図4を用いて説明する。図4は、発話者に近いマイク(a)と発話者から遠いマイク(b)とで取得した同一の発話者の音声の時間変化波形の違いを示す図である。音声認識を利用する発話者に近いマイクがD席マイクM1である場合、車室内が閉鎖空間となる。このため、D席マイクM1だけでなく、P席マイクM2、RR席マイクM3、RL席マイクM4のいずれにも運転者の音声が入力される。したがって、D席マイクM1と、D席マイクM1以外の1つのマイクとを用いて集音を行う場合に、一方のマイクを他方のマイクに対するノイズキャンセラとして用いることができる。以下では、ノイズキャンセラとして用いられるマイクをD席マイクM1として説明する。
図4の(a)はD席マイクM1に入力される運転者の音声の時間変化波形であり、図4(b)はP席マイクM2に入力される運転者の音声の時間変化波形である。図4(a)(b)の比較から分かるように、D席マイクM1に入力される運転者の音声のレベルの最大振幅W1は、別のマイクM2に入力される運転者の音声のレベルの最大振幅W2よりも大きくなり、感度が高くなる。音声波形の振幅は音量に対応する。このように発話者とマイクとの距離に応じて、音量の減衰が生じる。
また、D席マイクM1に入力される運転者の音声において、音声送信制御ユニット16(図1)に対する到達時点tAは、別のマイクM2に入力される運転者の音声において、音声送信制御ユニット16に対する到達時点tBよりも時間tAB分早くなる。このように発話者とマイクとの距離に応じて音の遅延が発生する。
このような特性を生かして、音声認識を利用する発話者が助手席ユーザであり、同時に発話する運転者がいる場合に、P席マイクM2から入力される音声に対して運転者の音声をノイズとして除去が可能となる。
本実施形態では、このような原理を用いて、音声処理要素36は、音声認識を利用する発話者のマイクM2から入力される音声に含まれるノイズを、別のマイクM1から入力される音声を用いて減じてクリアな音声に変換する。この場合、図4から分かるように、音声認識を利用する発話者の音声について、D席マイクM1から入力される音声と、P席マイクM2から入力される音声とで音声波形の振幅が異なる。このため、予め設定した所定時間でそれぞれの音声波形の最大振幅同士の比率W2/W1を算出し、その比率W2/W1を用いてD席マイクM1に入力される運転者のレベルの大きい音声波形のレベルを小さくしてから、P席マイクM2から入力される、レベルの小さい運転者の音声波形を除去する。上記では助手席ユーザが音声認識を利用する場合を説明したが、他の乗員が音声認識を利用する場合でも、同様にノイズとなる音声波形を除去できる。
なお、ノイズキャンセルで利用する音声波形の決定方法は、上記のように複数のマイクに入力される音声波形において、音声送信制御ユニット16に対する音声の到達時間の早さと音声波形の振幅の大きさとで決定するものに限定しない。例えば、音声送信制御ユニットに対する音声の到達時間の早さと音声波形の振幅の大きさとの一方のみで、複数のマイクに入力される音声波形のうち、ノイズキャンセルで利用する音声波形を決定してもよい。なお、本発明の音声認識制御装置でノイズキャンセル機能を用いないこともできる。
音声データ送信部34は、順位付けの順でマイクに対応して音声順位付け記憶部32に記憶された音声データを、音声データ信号として、図1の信号線28aを用いて電気機器12に送信する。また、音声送信制御ユニット16は、音声データ信号の送信に伴って、順位付けられた音声データに対応するマイク近辺にいると想定される発話者の発話者データを表す信号を、図1の信号線28bを用いて電気機器12に送信する。例えば音声データが運転者近辺マイクに対応する場合、この音声データの順番に運転者が関連付けられたデータが送信される。また、音声送信制御ユニット16は、音声データ信号の送信に伴って、音声認識の指示がされていることを表す音声認識SW信号を、図1の信号線28cを用いて電気機器12に送信する。また、音声送信制御ユニット16は、電気機器12にハンズフリー装置が接続されている場合にハンズフリー装置の使用中であることを表すHF状態信号を、図1の信号線28dを用いて電気機器12に送信する。発話者データ信号、音声認識SW信号及びHF状態信号の送信を省略することもできる。
電気機器12の音声認識実行制御ユニット14は、音声データ送信部34から送信された音声データ信号の順序に応じて音声認識処理を行う。
上記の音声認識制御装置10によれば、車両運転時に運転中の電気機器12の操作が制御により制限される場合でも、音声認識を用いて操作することが可能となる。
また、予め設定された条件である発話終了順にマイクを順位付けすることに基づいて複数のマイクM1,M2,M3,M4が順位付けされ、順位付けの順でマイクM1,M2,M3,M4に対応する音声データ信号が音声認識実行制御ユニット14に送信され、音声認識実行制御ユニット14で、音声送信制御ユニット16から送信された音声データ信号の順序で音声認識処理が行われる。このため、複数のユーザが同時に音声を発した場合における複数の実行コマンドの実行が可能となる。この場合、例えば、次のように複数のユーザの音声が発話の終了順に音声順位づけ記憶部32に記憶される。
図5は、本実施形態で複数のユーザの音声が順位づけ記憶部32に記憶される様子の1例をタイムチャートで示している。以下の説明では、運転席H1、助手席H2、後部右席H3、後部左席H4をそれぞれD席、P席、RR席、RL席とし、D席、P席、RR席、RL席にそれぞれ位置するユーザを運転者であるD席ユーザ、P席ユーザ、RR席ユーザ、RL席ユーザとして説明する。また、各SWの欄のONは、SWが押されたことを示している。
まず複数のSWS1,S2,S3,S4のうち、D席SWS1のみがD席ユーザに押されて音声認識開始が指示され、D席マイクM1から発話「あ」が入力されている。この場合、すべてのマイクM1,M2,M3,M4のうち、D席マイクM1でのみ所定レベル以上の音声の入力があり、D席ユーザの発話が終了した後に音声順位付け記憶部32に発話「あ」の音声データが記憶される。
次に、P席SWS2とRR席SWS3とがほぼ同時期に押されて、ほぼ同時に複数の音声入力としてP席ユーザの発話「い」とRR席ユーザの発話「う」とがマイクM2,M3から入力されている。この場合、マイクM2,M3で所定レベル以上の音声の入力があるが、P席ユーザの発話がRR席ユーザの発話よりも早く始まり、早く終了している。このため、P席ユーザの発話「い」が先に音声順位付け記憶部32に記憶され、その後、RR席ユーザの発話「う」が音声順位付け記憶部32に記憶される。
次に、D席SWS1が押された後でRL席SWS4が押されて、ほぼ同時に複数の音声入力としてD席ユーザの発話「え」とRL席ユーザの発話「お」とがマイクM1,M4に入力され、マイクM1,M4で所定レベル以上の音声の入力があるが、RL席ユーザの発話「お」は、D席ユーザの発話「え」よりも遅く始まり早く終了している。このため、RL席ユーザの発話「お」が先に音声順位付け記憶部32に記憶され、その後、D席ユーザの発話「え」が音声順位付け記憶部32に記憶される。なお、図5では、各ユーザの発話の期間全体でハンズフリー装置は非使用である非通話状態である。音声順位付け記憶部32に記憶された音声データを表す音声データ信号は、順位付けされた発話者データを表す信号とともに、音声認識実行制御ユニット14に送信される。
図6は、本実施形態で4人のユーザが同時に発話している場合において、音声データが音声順位づけ記憶部32に記憶される様子の1例をタイムチャートで模式的に示している。図6では、各ユーザの音声データ及び音声順位付け記憶部32に記憶される順位付け記憶データを分かりやすくするために音声波形として示している。また、S1,S2, S3,S4の矢印で各SWS1,S2,S3,S4の押された時間を示している。また、D1,D2,D3,D4の矢印範囲は、各ユーザの発話時間を示している。T1,T2,T3,T4は、各ユーザの発話間で発話の終了が早い順を示している。また、T0は発話終了を判断するために予め所定時間に設定される無音判定用時間である。
図6の例では、各SWS1,S2,S3,S4がほぼ同時期に押されて、各席のユーザがほぼ同時に発話している。また、発話の終了順は、P席ユーザ、D席ユーザ、RL席ユーザ、RR席ユーザである。このため、音声順位付け記憶部32には、P席ユーザ、D席ユーザ、RL席ユーザ、RR席ユーザの順に音声データが記憶され、その音声データを表す音声データ信号は、順位付けされた発話者データを表す信号とともに、音声認識実行制御ユニット14に送信される。
このように発話の終了順で音声順位付け記憶部32に音声データが記憶され、その順位で音声認識実行制御ユニット14で音声認識が行われる場合、音声認識で各ユーザの発話時間の長さを制限しない場合に、実行コマンドを早期に実行処理する場合に有効である。
図7は、本発明の実施形態の音声認識制御装置の別例において、図5に対応するタイムチャートを示す図である。上記では、複数のマイクM1,M2,M3,M4に同時に発話したユーザの音声入力がある場合に各マイクM1,M2,M3,M4が発話の終了順に順位付けされる場合を説明した。一方、本例では、複数のマイクM1,M2,M3,M4に同時に発話した発話者の音声入力がある場合にSWS1,S2,S3,S4が押される順番に各マイクM1,M2,M3,M4が順位付けされる。
この場合、本例の構成では、順位付け記憶制御部30は、上記の例と同様に、予め設定された所定条件に基づいて、「時間データ」を用いて複数のマイクM1,M2,M3,M4を順位づけし、音声順位付け記憶部32に、順位付けの順でマイクM1,M2,M3,M4に対応する音声を音声データとして記憶させる。一方、「時間データ」は、音声送信制御ユニット16が複数のSWから指示信号を受信した順序を表すデータとする。このため、複数のマイクM1,M2,M3,M4に同時に発話した発話者の音声入力があった場合には、それぞれのマイクM1,M2,M3,M4にSWの押された順に順位付けされ、SW操作の先のものから順に、対応する音声データが音声順位付け記憶部32に記憶される。
図7の例では、ほぼ同時にD席ユーザの発話「え」とRL席ユーザの発話「お」とがあるが、D席SWS1が押された後でRL席SWS4が押されている。このため、D席ユーザの発話「え」が先に音声順位付け記憶部32に記憶され、その後、RL席ユーザの発話「お」が音声順位付け記憶部32に記憶される。
このような本例の構成によれば、SWの押された順で音声順位付け記憶部32に音声データが記憶され、その順位で音声認識実行制御ユニット14で音声認識が行われる。この場合、各ユーザ間で先にSWの操作を行ったユーザの優先順位を高くして音声認識を行うので、ユーザの不快感を少なくすることに重点を置く場合に有効である。その他の構成及び作用は、上記の図1から図6の構成と同様である。
なお、上記では、各マイクM1,M2,M3,M4に対応する記憶部35がマイクの数に応じて複数設けられる場合を説明したが、各マイクM1,M2,M3,M4から音声が記憶される記憶部を共通の1つの記憶部として、この記憶部の各マイクM1,M2,M3,M4に対応する複数の記憶領域に音声を記憶させてもよい。また、この場合、各マイクM1,M2,M3,M4からの入力がある記憶部と、音声順位付け記憶部とを、共通の1つの記憶部において、分けて設定された複数の記憶領域としてもよい。
また、上記の各例の構成で電気機器12としてハンズフリー装置を用いることで、ハンズフリー装置を利用した同時会話参加システムに本発明を適用してもよい。この場合、上記の各例とは別の条件で音声認識の順位付けをしてもよい。また、マイクの特性によっては、超音波領域等の可聴域以外の周波数帯域のデータ収集に上記の各例の構成を用いてもよい。
10 音声認識制御装置、12 電気機器、14 音声認識実行制御ユニット、16 音声送信制御ユニット、22 記憶部、24 音声認識部、26 コマンド実行部、28a,28b,28c,28d 信号線、30 順位付け記憶制御部、32 音声順位付け記憶部、34 音声データ送信部、35 記憶部、36 音声処理要素、40 車両。

Claims (2)

  1. 入力された音声データ信号が実行コマンドであることを認識する音声認識処理を行うように構成され、実行コマンドを実行するように構成された音声認識実行制御ユニットを備える車両用音声認識制御装置であって、
    異なる位置に配置された複数のマイクロフォンと、
    各マイクロフォンから入力された音声に基づくデータと、各マイクロフォン間での順位に関するデータであって、発話の終了した順序を表すデータとを記憶するように適合され、発話の終了した順序を表すデータに基づき、発話の終了時の先のものから順に複数のマイクロフォンを順位付けするように構成され、順位付けの順でマイクロフォンに対応する音声データ信号を音声認識実行制御ユニットに送信するように構成された音声送信制御ユニットとを備え、
    音声認識実行制御ユニットは、音声送信制御ユニットから送信された音声データ信号の順序に応じて音声認識処理を行うように構成され、
    さらに、音声送信制御ユニットは、複数のマイクロフォンにおいて、少なくとも第1マイクロフォンをノイズキャンセラとして用いて、複数のマイクロフォンのうちの第2マイクロフォンから取得される音声の第2時間波形から、第1マイクロフォンから取得される音声の第1時間波形に対応する波形であって、予め設定した所定時間で、第2時間波形と第1時間波形との最大振幅同士の比率を算出し、この比率を用いて第1時間波形のレベルを小さくして得られた波形を除去する車両用音声認識制御装置。
  2. 請求項に記載の車両用音声認識制御装置において、
    音声送信制御ユニットは、複数のマイクロフォンから取得される音声の時間波形のうちから、音声送信制御ユニットに対する音声の到達時間の早さと音声波形の振幅の大きさとのうち、少なくとも一方に基づいて、ノイズキャンセラとして用いる音声の時間波形を決定する車両用音声認識制御装置。
JP2013081185A 2013-04-09 2013-04-09 音声認識制御装置 Active JP6198432B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013081185A JP6198432B2 (ja) 2013-04-09 2013-04-09 音声認識制御装置
EP14163534.2A EP2790183B1 (en) 2013-04-09 2014-04-04 Speech recognition control device
US14/247,782 US9830906B2 (en) 2013-04-09 2014-04-08 Speech recognition control device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013081185A JP6198432B2 (ja) 2013-04-09 2013-04-09 音声認識制御装置

Publications (2)

Publication Number Publication Date
JP2014203031A JP2014203031A (ja) 2014-10-27
JP6198432B2 true JP6198432B2 (ja) 2017-09-20

Family

ID=50434090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013081185A Active JP6198432B2 (ja) 2013-04-09 2013-04-09 音声認識制御装置

Country Status (3)

Country Link
US (1) US9830906B2 (ja)
EP (1) EP2790183B1 (ja)
JP (1) JP6198432B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022088528A (ja) * 2021-06-08 2022-06-14 阿波▲羅▼智▲聯▼(北京)科技有限公司 車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286030B2 (en) 2013-10-18 2016-03-15 GM Global Technology Operations LLC Methods and apparatus for processing multiple audio streams at a vehicle onboard computer system
JP2016126022A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
JP6464411B6 (ja) * 2015-02-25 2019-03-13 Dynabook株式会社 電子機器、方法及びプログラム
US10089061B2 (en) 2015-08-28 2018-10-02 Kabushiki Kaisha Toshiba Electronic device and method
US20170075652A1 (en) 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
JP7062958B2 (ja) * 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
JP7186375B2 (ja) 2018-03-29 2022-12-09 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
KR102472010B1 (ko) * 2018-05-04 2022-11-30 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11315553B2 (en) * 2018-09-20 2022-04-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
CN109243452A (zh) * 2018-10-26 2019-01-18 北京雷石天地电子技术有限公司 一种用于声音控制的方法及系统
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11741529B2 (en) 2019-02-26 2023-08-29 Xenial, Inc. System for eatery ordering with mobile interface and point-of-sale terminal
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US20220293109A1 (en) * 2021-03-11 2022-09-15 Google Llc Device arbitration for local execution of automatic speech recognition

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61227458A (ja) * 1985-03-30 1986-10-09 Nec Corp 会議電話装置
JPS61256397A (ja) * 1985-05-10 1986-11-13 株式会社リコー 音声認識装置
US5657425A (en) * 1993-11-15 1997-08-12 International Business Machines Corporation Location dependent verbal command execution in a computer based control system
JP2000194394A (ja) 1998-12-25 2000-07-14 Kojima Press Co Ltd 音声認識制御装置
CN101449538A (zh) * 2006-04-04 2009-06-03 约翰逊控制技术公司 媒体文件的文本-语法改进
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
JP5452158B2 (ja) * 2009-10-07 2014-03-26 株式会社日立製作所 音響監視システム、及び音声集音システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022088528A (ja) * 2021-06-08 2022-06-14 阿波▲羅▼智▲聯▼(北京)科技有限公司 車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2014203031A (ja) 2014-10-27
US20140303969A1 (en) 2014-10-09
EP2790183A1 (en) 2014-10-15
EP2790183B1 (en) 2016-09-21
US9830906B2 (en) 2017-11-28

Similar Documents

Publication Publication Date Title
JP6198432B2 (ja) 音声認識制御装置
EP3472831B1 (en) Techniques for wake-up word recognition and related systems and methods
JP4779748B2 (ja) 車両用音声入出力装置および音声入出力装置用プログラム
EP1901282B1 (en) Speech communications system for a vehicle
CN110070868A (zh) 车载系统的语音交互方法、装置、汽车和机器可读介质
JP2007219207A (ja) 音声認識装置
JP2017083600A (ja) 車載収音装置及び収音方法
JP2012128440A (ja) 音声対話装置
WO2016103710A1 (ja) 音声処理装置
WO2005013262A1 (en) Method for driving a dialog system
JPWO2007138741A1 (ja) 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JP2016167645A (ja) 音声処理装置及び制御装置
CN110402584A (zh) 车内通话控制装置、车内通话系统以及车内通话控制方法
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
WO2013153583A1 (ja) 車載用音声入力装置
JP4478146B2 (ja) 音声認識システム、音声認識方法およびそのプログラム
JP5979303B2 (ja) 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム
JP2004301875A (ja) 音声認識装置
JP4635683B2 (ja) 音声認識装置および方法
JP2015118307A (ja) 音声認識装置及び音声認識プログラム
JP4924652B2 (ja) 音声認識装置及びカーナビゲーション装置
JP2012078497A (ja) 車両用入力装置、車両用入力方法、及び車両用入力プログラム
JP4190735B2 (ja) 音声認識方法および装置とナビゲーション装置
JP2020039048A (ja) 音声収集装置および音声収集方法
JP3049261B2 (ja) 音響選択装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170711

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170822

R150 Certificate of patent or registration of utility model

Ref document number: 6198432

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250