JP6594721B2 - 音声認識システム、ゲイン設定システム及びコンピュータプログラム - Google Patents

音声認識システム、ゲイン設定システム及びコンピュータプログラム Download PDF

Info

Publication number
JP6594721B2
JP6594721B2 JP2015189433A JP2015189433A JP6594721B2 JP 6594721 B2 JP6594721 B2 JP 6594721B2 JP 2015189433 A JP2015189433 A JP 2015189433A JP 2015189433 A JP2015189433 A JP 2015189433A JP 6594721 B2 JP6594721 B2 JP 6594721B2
Authority
JP
Japan
Prior art keywords
gain
control information
gain control
vehicle speed
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015189433A
Other languages
English (en)
Other versions
JP2017067812A (ja
Inventor
大和 鈴木
徹 丸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2015189433A priority Critical patent/JP6594721B2/ja
Priority to US15/221,027 priority patent/US10319393B2/en
Publication of JP2017067812A publication Critical patent/JP2017067812A/ja
Application granted granted Critical
Publication of JP6594721B2 publication Critical patent/JP6594721B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)

Description

本発明は、音声認識システムにおいて音声信号の入力ゲインを制御する技術に関するものである。
音声認識システムにおいて音声信号の入力ゲインを制御する技術としては、入力する音声信号のピーク値の統計的な分布を学習し、学習した分布と等しい分布で音声信号の入力が行われた場合に、増幅後の音声信号が音声認識システムの入力レンジ内にできるだけ収まるように、音声信号の入力ゲインを設定する技術が知られている(特許文献1)。
また、音声認識システムにおいて音声信号の入力ゲインを制御する技術としては、騒音の振幅分布を繰り返し算出すると共に、音声信号に含まれる発話音声成分の平均の振幅分布を算出し、発話音声成分の平均の振幅分布と直前に算出した騒音の振幅分布とに応じて、音声認識システムに入力する音声信号が適正なレンジとなるように入力ゲインを設定する技術も知られている(特許文献2)。
特許第5614767号 特許第5457293号
上述のような、学習した音声信号のピーク値の統計的な分布に従って音声信号の入力ゲインを設定する技術によれば、統計的に有意な数の音声信号のピーク値を取得できるまでは、音声信号の入力ゲインを適切に設定することができない。また、上述のような、発話音声成分の平均の振幅分布と直前に算出した騒音の振幅分布とに応じて、音声信号の入力ゲインを設定する技術においても、同様に、統計的に有意な数の音声信号を得て、発話音声成分の平均の振幅分布を算出するまでは、音声信号の入力ゲインを適切に設定することができない。
そして、このために、これらの技術によっては、音声認識システムの使用開始直後に音声認識の失敗が多発してしまい、ユーザの音声認識システムの利用を続ける意欲を失わせてしまうことがある。
また、これらの技術には、音声信号のピーク値の統計的な分布を学習する構成や、騒音の振幅分布を繰り返し算出したり、音声信号に含まれる発話音声成分の大きさの平均の振幅分布を算出する構成などの、比較的複雑な構成が必要となるという不利益もある。
そこで、本発明は、自動車に搭載される音声認識システムの音声信号の入力ゲインを、当該音声認識システムの使用開始直後から適切に設定することを課題とする。
前記課題達成のために、本発明は、自動車に搭載される音声認識システムに、入力音声を、入力音声信号に変換し出力するマイクロフォンと、前記マイクロフォンが出力する入力音声信号を増幅する、ゲインが可変な入力アンプと、前記入力ゲインアンプで増幅された入力音声信号が表す音声の音声認識を行う音声認識部と、前記自動車の車速を検出する車速検出部と、前記自動車の車速と、前記入力アンプのゲインとの対応が登録されたゲイン制御情報を記憶した記憶部と、前記車速検出部が検出した車速を取得し、取得した車速に対応するゲインとして前記ゲイン制御情報に登録されているゲインに、前記入力アンプのゲインを制御するゲイン制御部とを備えたものである。
ここで、このような音声認識システムは、前記ゲイン制御情報を、各車速の範囲について、当該車速の範囲に対応する入力アンプのゲインとの対応が登録されており、かつ、各車速の範囲に対応する入力アンプのゲインとして、試験的に求めた当該車速の範囲におけるマイクロフォンが出力する入力音声信号のピーク値の度数分布における、当該ゲインで増幅した場合に大きさが前記音声認識部の入力レンジ内の大きさとなるピーク値の度数が最大となるゲインが登録されているものとし、前記ゲイン制御部において、前記車速検出部が検出した車速を取得し、取得した車速が含まれる車速の範囲に対応する入力アンプのゲインとして前記ゲイン制御情報に登録されているゲインに、前記入力アンプのゲインを制御するように構成してもよい。
ここで、一般的な車内環境下で音声認識システムに入力される音声の大きさは、自動車の車速と大きく相関する。したがって、以上のような音声認識システムによれば、車速と当該車速のときの入力アンプのゲインとして一般的に適切と考えられるゲインとの対応を登録したゲイン制御情報を予め記憶部に記憶しておくことにより、一ユーザの音声認識システムの使用開始直後からおおよそ適切なゲインを入力アンプに設定することができる。また、車速を検知し、車速に応じて入力アンプのゲインを設定するだけの簡易な構成によって、入力アンプのゲインの制御を実現することができる。
または、このような音声認識システムに、さらに、前記自動車の1または複数の所定の状態を検出する状態検出部を備えると共に、前記ゲイン制御情報に、車速と前記1または複数の所定の状態との組み合わせと、前記入力アンプのゲインとの対応を登録し、前記ゲイン制御部において、前記車速検出部が検出した車速と、前記状態検出部が検出している状態とを取得し、取得した車速と状態との組み合わせに対応するゲインとして前記ゲイン制御情報に登録されているゲインに、前記入力アンプのゲインを制御するようにしてもよい。ただし、前記1または複数の所定の状態は、少なくとも自動車の窓の開閉状態と、前記自動車のワイパーの稼働状態とのいずれかを含むものとする。
または、このような音声認識システムに、さらに、記自動車がトンネル内の走行中の有無を検出するトンネル走行中検出部を設けると共に、前記ゲイン制御情報に、車速とトンネル内の走行中の有無との組み合わせと、前記入力アンプのゲインとの対応を登録し、前記ゲイン制御部において、前記車速検出部が検出した車速と、前記トンネル走行中検出が検出しているトンネル内の走行中の有無とを取得し、取得した車速とトンネル内の走行中の有無との組み合わせに対応するゲインとして前記ゲイン制御情報に登録されているゲインに、前記入力アンプのゲインを制御するようにしてもよい。
これらのように音声認識システムを構成することにより、車速に加え、音声認識システムに入力される音声の大きさとの相関が比較的大きい、窓の開閉の状態やワイパーの動作状態やトンネル内走行の有無などにも応じた、より適切なゲインを入力アンプに設定することができるようになる。
また、以上の音声認識システムに、さらに、移動通信を行う移動通信装置と、前記ゲイン制御情報を格納したサーバに前記移動通信を介してアクセスし、前記サーバから前記ゲイン制御情報を取得し前記記憶部に記憶するゲイン制御情報取得部とを設けるようにしてもよい。
または、以上の音声認識システムに、さらに、移動通信を行う移動通信装置と、各車種用のゲイン制御情報を格納したサーバに前記移動通信を介してアクセスし、前記サーバから当該音声認識システムが搭載されている前記自動車の車種用の前記ゲイン制御情報を取得し前記記憶部に記憶するゲイン制御情報取得部とを設けるようにしてもよい。
また、前記課題達成のために、自動車に搭載される音声認識システムと、当該音声認識システムが移動通信を介してアクセス可能なサーバとより構成されるゲイン設定システムを提供する。ここで、前記サーバは、自動車の車速とゲインとの対応が登録されたゲイン制御情報を格納したゲイン制御情報格納部と、当該サーバにアクセスした前記音声認識システムに前記ゲイン制御情報格納部に格納されている前記ゲイン制御情報を提供するゲイン制御情報提供部とを備えている。また、前記音声認識システムは、前記移動通信を行う移動通信装置と、入力音声を、入力音声信号に変換し出力するマイクロフォンと、前記マイクロフォンが出力する入力音声信号を増幅する、ゲインが可変な入力アンプと、前記入力ゲインアンプで増幅された入力音声信号が表す音声の音声認識を行う音声認識部と、前記自動車の車速を検出する車速検出部と、 記憶部と、前記サーバに前記移動通信を介してアクセスし、前記サーバから前記ゲイン制御情報を取得して前記記憶部に記憶するゲイン制御情報取得部と、前記車速検出部が検出した車速を取得し、取得した車速に対応するゲインとして前記記憶部に記憶されているゲイン制御情報に登録されているゲインに、前記入力アンプのゲインを制御するゲイン制御部とを備えている。
ここで、このようなゲイン設定システムは、前記ゲイン制御情報格納部に、各車種用のゲイン制御情報を格納し、前記ゲイン制御情報取得部において、前記サーバから当該音声認識システムが搭載されている前記自動車の車種用の前記ゲイン制御情報を取得して前記記憶部に記憶するように構成してもよい。ただし、各車種用のゲイン制御情報は、当該車種の自動車の車速とゲインとの対応が登録されているものとする。
ここで、このようなゲイン設定システムは、前記サーバに、前記ゲイン制御情報格納部に格納する前記ゲイン制御情報を管理するゲイン制御情報管理部を設け、前記音声認識システムに、前記マイクロフォンが出力する入力音声信号のピーク値を検出するピーク値検出部と、前記音声認識部が音声認識を行っている期間中に前記ピーク値検出部が検出したピーク値と、前記車速検出部が検出した当該ピーク値が検出されたときの車速とを含めたピーク値情報を、前記移動通信を介してゲイン制御情報管理部に送信するピーク値情報報告部とを設けると共に、前記ゲイン制御情報管理部において、受信したピーク値情報に基づいて、各車速の範囲について、当該車速の範囲内の車速を含む前記ピーク値情報に含まれていたピーク値の度数分布を求めると共に、当該度数分布における、当該ゲインで増幅した場合に大きさが前記音声認識部の入力レンジ内の大きさとなるピーク値の度数が最大となるゲインを、当該車速の範囲に対応するゲインとして登録した前記ゲイン制御情報を生成し、前記ゲイン制御情報格納部に格納するように構成してもよい。
また、上述のように、前記ゲイン制御情報格納部に、各車種用のゲイン制御情報を格納する場合には、ゲイン設定システムを、前記サーバに、前記ゲイン制御情報格納部に格納する前記ゲイン制御情報を管理するゲイン制御情報管理部を設け、前記音声認識システムに、前記マイクロフォンが出力する入力音声信号のピーク値を検出するピーク値検出部と、前記音声認識部が音声認識を行っている期間中に前記ピーク値検出部が検出したピーク値と、前記車速検出部が検出した当該ピーク値が検出されたときの車速と、当該音声認識システムが搭載されている自動車の車種とを含めたピーク値情報を、前記移動通信を介してゲイン制御情報管理部に送信するピーク値情報報告部とを設けると共に、前記ゲイン制御情報管理部において、受信したピーク値情報に基づいて、各車種毎に、各車速の範囲について、当該車種と当該車速の範囲内の車速を含む前記ピーク値情報に含まれていたピーク値の度数分布を求めると共に、当該度数分布における、当該ゲインで増幅した場合に大きさが前記音声認識部の入力レンジ内の大きさとなるピーク値の度数が最大となるゲインを、当該車速の範囲に対応するゲインとして登録した当該車種用の前記ゲイン制御情報を生成し、前記ゲイン制御情報格納部に格納するように構成してもよい。
これらのようなゲイン設定システムによれば、自動車に搭載された音声認識システムは、サーバからゲイン制御情報を取得し、取得したゲイン制御情報に従って、車速に応じたゲインを入力アンプに設定することができる。よって予め一般的な車内環境下での車速と入力アンプの一般的なユーザとって適切なゲインとの対応を登録したゲイン制御情報をサーバに格納しておくことにより、当該ユーザの音声認識システムの使用開始直後からおおよそ適切なゲインを入力アンプに設定することができるようになる。
また、サーバにゲイン制御情報管理部を設けた場合には、サーバにおいて、各自動車における実際の音声認識システムへの音声入力の大きさと車速との関係に基づいてゲイン制御情報を作成することができるようになる。
以上のように、本発明によれば、自動車に搭載される音声認識システムの音声信号の入力ゲインを、当該音声認識システムの使用開始直後から適切に設定することができる。
本発明の第1実施形態に係る音声認識システムの構成を示すブロック図である。 本発明の第1実施形態に係る実施形態に係るゲインテーブルを示す図である。 本発明の第1実施形態に係るゲインテーブルの設定法を示す図である。 本発明の第2実施形態に係る音声認識システムの構成を示すブロック図である。 本発明の本発明の第2実施形態に係る実施形態に係るゲインテーブルを示す図である。 本発明の第3実施形態に係る音声認識システムの構成を示すブロック図である。 本発明の第3実施形態に係る実施形態に係る車種毎ゲインデータとピーク値報告データを示す図である。
以下、本発明の実施形態について説明する。
まず、第1の実施形態について説明する。
図1に、本実施形態に係る車載システム100の構成を示す。
本第1実施形態に係る車載システム100は、自動車に搭載されるシステムであり、図示するように、音声入力装置1、音声入力装置1を入力に用いながらユーザに所定のサービスを提供するサービス提供装置2、自動車の車速を検出する車速検出部3を備えている。
ここで、車速検出部3は、任意の方式により車速を検出するものであってよい。たとえば、車速検出部3は、自動車から出力されるタイヤの回転速度を表す車速パルス信号より車速を検出するものであっても、CAN(Controller Area Network)などの車載ネットワークから車速のデータを抽出することにより車速を検出するものであっても、GPSを利用して車速を検出するものであってもよい。
また、サービス提供装置2は、たとえば、音声入力装置1を入力に用いながらユーザに対してナビゲーションサービスを提供するカーナビゲーション装置や、音声入力装置1を入力に用いながらユーザに対してオーディオやビデオの再生サービスを提供するAV装置である。
次に、音声入力装置1は、マイクロフォン11、マイクロフォン11でピックアップした音声を表す入力音声信号を入力ゲインGで増幅する入力アンプ12、入力アンプ12で増幅された入力音声信号を入力音声データにデジタル変換するAD変換器13、AD変換器13で変換された入力音声データに対して音声認識処理を実行する音声認識エンジン14、ユーザから音声入力の開始の指示を受け付けるトークスイッチ15、ゲインテーブル16、入力アンプ12のゲインGをゲインテーブル16に基づいて制御するゲイン制御部17を備えている。
ここで、このような音声入力装置1は、ハードウエア的には、CPUやメモリなどを備えたコンピュータを用いて構成してもよく、この場合、ゲイン制御部17や、音声認識エンジン14などは、当該コンピュータが、所定のコンピュータプログラムを実行することにより実現されるものとしてもよい。
さて、このような構成において、音声認識エンジン14は、ユーザのトークスイッチ15の押し下げが発生すると、音声認識処理を開始する。音声認識処理では、入力音声データにユーザの発話音声が含まれる区間である発話音声区間の検出と、発話音声区間中の入力音声データに対する音声認識(ユーザの発話内容の識別)を行う。また、音声認識によって識別したユーザの発話内容は、サービス提供装置2に出力され、サービス提供装置2の入力となる。
次に、音声入力装置1のゲインテーブル16を図2に示す。
図示するように、ゲインテーブル16は、車速とゲインとの対応を規定したテーブルである。より具体的には、ゲインテーブル16は、車速の範囲毎に対応して設けたエントリを有し、各エントリには対応する車速の範囲と、当該車速の範囲に対応するゲインとが登録されている。
ここで、車速の範囲に対応するゲインは以下のように求め、求めたゲインをゲインテーブル16に登録する。
すなわち、車速の範囲に対応するゲインの算出においては、まず、試験車両を各車速で走行させながら、音声認識エンジン14が検出した発話音声区間においてマイクロフォン11が出力した入力音声信号のピーク値と、当該発話音声区間において車速検出部3が検出した車速を収集する。
そして、収集したピーク値と車速から、図3a、b、cに示すように、各車速の範囲におけるピーク値の度数分布を算定する。なお、図3aは、自動車がアイドリング状態で停止しているときのピーク値の度数分布を、図3bは自動車の車速が40km/h以上60 km/h未満であるときのピーク値の度数分布を、図3cは自動車の車速が80km/h以上1000 km/h未満であるときのピーク値の度数分布を表しており、図示するように車速が大きくなるに従いピーク値の分布範囲は、ピーク値が大きくなる方向に移動する。
ここで、音声認識エンジン14が入力する入力音声データの音声を正しく受け付けることのできる音声の大きさの範囲である入力レンジの幅は固定である。一方、入力アンプ12のゲインGの大きさによって、音声認識エンジン14に入力する入力音声データの音声の大きさは変化する。よって、入力アンプ12のゲインGによって、音声認識エンジン14に入力レンジ内の音声の入力音声データとして入力することとなる、マイクロフォン11が出力する入力音声信号の音声の大きさの範囲は変化する。より具体的には、入力アンプ12のゲインGが大きくなるほど、音声認識エンジン14に入力レンジ内の入力音声データの音声として入力する、マイクロフォン11が出力する入力音声信号の音声の大きさの範囲は、より小さな大きさの音声の範囲となり、入力アンプ12のゲインGが小さくなるほど、音声認識エンジン14に入力レンジ内の入力音声データの音声として入力する、マイクロフォン11が出力する入力音声信号の音声の大きさの範囲は、より大きな大きさの音声の範囲となる。
そこで、図3a、b、cに示すように算定した各車速の範囲におけるピーク値の度数分布に基づいて、各車速の範囲について、当該車速の範囲の度数分布における範囲IR内の度数が最大となる入力アンプ12のゲインGを求め、求めたゲインGを、ゲインテーブル16の当該車速の範囲のエントリのゲインとして登録する。ここで、範囲IRは、音声認識エンジン14の入力レンジ内の入力音声データの音声として入力することとなるマイクロフォン11が出力する入力音声信号の音声の大きさの範囲である。換言すれば、範囲IRは、音声認識エンジン14の入力レンジを1/G(Gの単位がdbであれば-Gdb)のゲインで増幅した範囲である。
なお、より高速な車速の範囲ほど、当該車速の範囲に対応するゲインは小さくなる。これは、自動車が高速となるほど車内騒音が大きくなること、及び、車内騒音が大きくなるほど、ユーザが、より大きな声で発話するようになるためである。
さて、以上のように作成されたゲインテーブル16は、音声入力装置1のユーザへの引き渡し前に、音声入力装置1に設定される。
したがって、ゲインテーブル16は、各車載システム100の音声入力装置1について共通となる。
ただし、各種の車種の自動車を試験車両として用いて車種毎に対応して以上のようなゲインテーブル16を作成しておき、音声入力装置1のユーザへの引き渡し前に、当該音声入力装置1に、当該音声入力装置1が搭載される自動車の車種に対応するゲインテーブル16を、設定するようにしてもよい。
さて、図1に戻り、ゲイン制御部17は、以下のように入力アンプ12のゲインGを制御する。
すなわち、ゲイン制御部17は、ユーザのトークスイッチ15の押し下げが発生したならば、車速検出部3が検出している自動車の車速を取得し、取得した車速が含まれる車速の範囲が登録されているゲインテーブル16のエントリに登録されているゲインを取得し、取得したゲインを入力アンプ12のゲインGとして設定する。
以上、本発明の第1の実施形態について説明した。
ここで、自動車が高速となるほど車内騒音が大きくなり、また、車内騒音が大きくなるほど、ユーザが、より大きな声で発話するようになるので、音声入力装置1に入力される音声の大きさは、自動車の車速と大きく相関する。
したがって、上述のように試験的に求めた車速とゲインとの対応を登録したゲインテーブル16を予め用意しておき、音声認識時にゲインテーブル16を用いて車速に応じたゲインを入力アンプ12に設定する本第1実施形態によれば、音声入力装置1の使用開始直後からおおよそ適切なゲインを入力アンプ12に設定することができる。また、車速を検知し、車速に応じて入力アンプ12のゲインを設定するだけの簡易な構成によって、入力アンプ12のゲインの適切な制御を実現することができる。
次に、本発明の第2の実施形態について説明する。
図4に本第2実施形態に係る車載システム100の構成を示す。
図示するように、本第2実施形態に係る車載システム100は、図1に示した車載システム100と、車両状態検出部4を備えている点と、ゲインテーブル16の内容と、ゲイン制御部17の入力アンプ12のゲインGの制御の内容のみが異なる。また、本第2実施形態では、サービス提供装置2としてナビゲーション装置を備えている。
さて、車両状態検出部4は、自動車の窓の開閉状態、ワイパーの動作中/停止中の状態を検出する。ここで、車両状態検出部4における、自動車の窓の開閉状態、ワイパーの動作中/停止中の状態の検出は、これらの状態を検出する専用のセンサを用いて行うものであっても、CAN(Controller Area Network)などの車載ネットワークからこれらの状態を表すデータを抽出して行うものであってもよい。
図5に、第2実施形態に係るゲインテーブル16を示す。
図示するように、第2実施形態に係るゲインテーブル16は、車速の範囲と、自動車の窓の開閉状態と、トンネル内走行中の有無の状態と、ワイパーの動作中/停止中の状態との組み合わせと、ゲインとの対応を規定したテーブルである。
ここで、各組み合わせに対応するゲインは以下のように求めゲインテーブル16に登録する。
すなわち、試験車両を各車速で、自動車の窓の開閉状態やトンネル内走行中の有無の状態やワイパーの動作中/停止中の状態を変化させながら走行させると共に、当該走行中に音声認識エンジン14が検出した発話音声区間においてマイクロフォン11が出力した入力音声信号のピーク値と当該発話音声区間において車速検出部3が検出した車速を収集する。
そして、収集したピーク値と、車速と、各状態との組み合わせとの対応から車速の範囲と、自動車の窓の開閉状態と、トンネル内走行中の有無の状態と、ワイパーの動作中/停止中の状態との組み合わせの各々における、ピーク値の度数分布を作成する。
そして、各車速の範囲と、自動車の窓の開閉状態と、トンネル内走行中の有無の状態と、ワイパーの動作中/停止中の状態との各組み合わせについて、当該組み合わせについて作成したピーク値の度数分布における範囲IR内の度数が最大となる入力アンプ12のゲインGを求め、求めたゲインGを、当該組み合わせに対応するゲインとしてゲインテーブル16に登録する。なお、範囲IRは、音声認識エンジン14の入力レンジ内の入力音声データの音声として入力することとなるマイクロフォン11が出力する入力音声信号の大きさの範囲である。
さて、以上のように作成されたゲインテーブル16は、音声入力装置1のユーザへの引き渡し前に、音声入力装置1に設定される。ただし、以上のようなゲインテーブル16は、各種の車種の自動車を試験車両として用いて車種毎に対応して作成しておき、音声入力装置1のユーザへの引き渡し前に、当該音声入力装置1に、当該音声入力装置1が搭載される自動車の車種に対応するゲインテーブル16を、設定するようにしてもよい。
図4に戻り、ゲイン制御部17は、以下のように入力アンプ12のゲインGを制御する。
すなわち、ゲイン制御部17は、ユーザのトークスイッチ15の押し下げが発生したならば、車速検出部3が検出している自動車の車速と、車両状態検出部4が検出している自動車の窓の開閉状態とワイパーの動作中/停止中の状態とを取得する。また、ナビゲーション装置に問い合わせることにより、現在自動車がトンネル内を走行中であるかどうかを識別する。
そして、取得した車速の範囲と、取得した自動車の窓の開閉状態と、判別したトンネル内走行中の有無の状態と、取得したワイパーの動作中/停止中の状態との組み合わせに対応するゲインとしてゲインテーブル16に登録されているゲインを取得し、取得したゲインを入力アンプ12のゲインGとして設定する。
以上、本発明の第2の実施形態について説明した。
ここで、自動動車の窓の開閉状態やワイパーの動作中/停止中の状態やトンネル内の走行中の有無の状態も、車速と同様に車内騒音の大きさに関わるので、音声入力装置1に入力される音声の大きさとの相関が比較的大きい。よって、車速に加え、窓の開閉の状態やワイパーの動作状態やトンネル内走行の有無などにも応じて入力アンプ12のゲインを設定する本第2実施形態によれば、より適切なゲインを入力アンプ12に設定することができるようになる。なお、自動動車の窓の開状態のときには風音によって車内騒音が増加し、ワイパーの動作中は、降雨によって車内騒音が増加し、トンネル内の走行中はトンネル壁面の走行音の反射によって車内騒音が増加する。
ところで、以上の第2実施形態では、自動車の車速の他に、自動動車の窓の開閉状態とワイパーの動作中/停止中の状態とトンネル内の走行中の有無の状態を考慮して入力アンプ12のゲインを設定するようにしたが、これは、これら以外の車内の騒音に関わる状態を、自動車の車速と共に考慮して入力アンプ12のゲインを設定するようにしてもよい。たとえば、自動車に装着されているタイヤの種別を自動車の車速と共に考慮して入力アンプ12のゲインを設定するなどしてもよい。
次に、本発明の第3の実施形態について説明する。
図6に、第3実施形態に係る車載システム100の構成を示す。
図示するように、本第3実施形態に係る車載システム100は、音声入力装置1、音声入力装置1を入力に用いながら所定のサービスを提供するサービス提供装置2、自動車の車速を検出する車速検出部3、移動通信網を介した通信を行う移動通信装置5とを備えている。
次に、音声入力装置1は、マイクロフォン11、マイクロフォン11でピックアップした音声を表す入力音声信号を入力ゲインGで増幅する入力アンプ12、入力アンプ12で増幅された入力音声信号を入力音声データにデジタル変換するAD変換器13、AD変換器13で変換された入力音声データに対して音声認識処理を実行する音声認識エンジン14、トークスイッチ15、入力アンプ12のゲインGをゲインテーブル16に基づいて制御するゲイン制御部17、乗算器18、ピーク検出部19、自車の車種を表す車種データ20を備えている。
このような音声入力装置1の構成において、音声認識エンジン14は、ユーザのトークスイッチ15の押し下げが発生すると、音声認識処理を開始する。音声認識処理では、入力音声データに、ユーザの発話音声が含まれる区間である発話音声区間の検出と、発話音声区間中の入力音声データに対する音声認識(ユーザの発話内容の識別)を行う。また、音声認識によって識別したユーザの発話内容は、サービス提供装置2に出力され、サービス提供装置2の入力となる。
さて、車載システム100の、ゲイン制御部17は、移動通信装置5が行う移動通信を介して、インターネットなどのWAN300上に配置されたゲイン情報サーバ200と通信を行うことができる。
そして、ゲイン情報サーバ200は、図示するようにゲインデータベース201、ゲインデータ生成部202、ゲインデータ提供部203を備えている。
ここで、図7aに、ゲイン情報サーバ200のゲインデータベース201の内容を示す。
図示するように、ゲインデータベース201には、自動車の車種毎に対応して設けられた車種毎ゲインデータが蓄積されている。各車種毎ゲインデータは、対応する車種を表す車種識別情報と、ゲインテーブルとを含んでいる。
さて、このような構成において、車載システム100のゲイン制御部17は、ピーク値報告処理と、ゲインテーブル取得処理とゲイン制御処理を行う。
まず、ピーク値報告処理について説明す。
音声認識エンジン14は発話音声区間を検出している期間中、ゲイン制御部17に発話区間信号を出力する。ゲイン制御部17は、ピーク値報告処理において、発話区間信号を受信したならば、現時点で車速検出部3が検出している車速を取得すると共に、現時点で入力アンプ12に設定しているゲインGの逆数1/Gを乗算器18に出力する。
一方、乗算器18はAD変換器13が出力する入力音声データに1/Gを乗算して、入力音声データが表す音声の大きさを、マイクロフォン11が出力する入力信号の音声と同じ大きさに変更した音声データを生成し、ピーク検出部19に出力する。また、ピーク検出部19は、ピークホールド動作を行い、乗算器18から入力する音声データが表す音声の最大値をホールドする。
そして、ゲイン制御部17は、ピーク値報告処理において、発話区間信号を受信しなくなったならば、ピーク検出部19がホールドしている音声の最大値をピーク値として取得する。また、ゲイン制御部17は、ピーク値報告処理において、図7bに示すような、車種データ20が示す自車の車種を示す車種識別情報と、先に取得した車速と、取得したピーク値とを含めたピーク値報告データを作成し、作成したピーク値報告データを、移動通信装置5の移動通信を介して、ゲイン情報サーバ200のゲインデータ生成部202に送信する。
以上、車載システム100のゲイン制御部17が行うピーク値報告処理について説明した。
次に、車載システム100のゲイン制御部17が行うゲインテーブル取得処理について説明する。
ゲイン制御部17は、ゲインテーブル取得処理において、定期的(たとえば、1日おきに)、移動通信装置5の移動通信を介して、ゲイン情報サーバ200のゲインデータ提供部203にアクセスし、車種データ20が示す自車の車種を表す車種識別情報を伴わせたゲインテーブル要求を発行する。
一方、ゲインテーブル要求を受けた、ゲイン情報サーバ200のゲインデータ提供部203は、ゲインテーブル要求に伴う車種識別情報が表す車種を表す車種識別情報が登録されている車種毎ゲインデータを、ゲインデータベース201から抽出し、抽出した車種毎ゲインデータに含まれるゲインテーブルを、ゲインテーブル要求の応答として、ゲインテーブル要求の発行元のゲイン制御部17に送信する。
そして、ゲイン制御部17は、ゲインテーブル取得処理において、ゲイン情報サーバ200のゲインデータ提供部203からゲインテーブルを受信したならば、受信したゲインテーブルで、車載システム100のゲインテーブル16を更新する。
以上、車載システム100のゲイン制御部17が行うゲインテーブル取得処理について説明した。
次に、車載システム100のゲイン制御部17が行うゲイン制御処理について説明する。
ゲイン制御部17は、ゲイン制御処理において、ユーザのトークスイッチ15の押し下げが発生したならば、車速検出部3が検出している自動車の車速を取得し、取得した車速が含まれる車速の範囲が登録されているゲインテーブル16のエントリに登録されているゲインを取得し、取得したゲインを入力アンプ12のゲインGとして設定する。
以上、車載システム100のゲイン制御部17が行うゲイン制御処理について説明した。
次に、ゲイン情報サーバ200のゲインデータ生成部202は、車載システム100のゲイン制御部17からピーク値報告データを受信したならば、受信したピーク値報告データを保存する。
そして、各車種について、当該車種を表す車種識別情報を含むピーク値報告データが充分な数蓄積されたならば、当該車種についてのゲインテーブル16を作成し、作成したゲインテーブルで、ゲインデータベース201の当該車種の車種毎ゲインデータのゲインテーブルを更新する。
ここで、各車種のゲインテーブルの作成は、当該車種を表す車種識別情報を含むピーク値報告データの集合から、各車速の範囲におけるピーク値の度数分布を作成し、作成した度数分布における範囲IR内の度数が最大となる入力アンプ12のゲインGを求め、求めたゲインGを、当該車種毎ゲインデータのゲインテーブル16の当該車速の範囲のエントリのゲインとして登録することにより行う。ここで、範囲IRは、音声認識エンジン14の入力レンジ内の入力音声データの音声として入力することとなるマイクロフォン11が出力する入力音声信号の音声の大きさの範囲である。
さて、本第3実施形態に係る車載システム100の音声入力装置1には、音声入力装置1のユーザへの引き渡し前に、第1実施形態と同様にゲインテーブル16を設定しておくようにする。また、ゲインデータベース201の各車種毎ゲインデータの初期状態は、当該車種の自動車を試験車両として用いて作成したゲインテーブルが登録された状態とする。
以上、本発明の第3の実施形態について説明した。
このような第3実施形態では、ゲイン情報サーバ200において、各自動車における実際の音声入力装置1への音声入力の大きさと車速との関係に基づいてゲインテーブル16を作成することができる。また、自動車に搭載された音声入力装置1は、ゲイン情報サーバ200からゲインテーブル16を取得し、取得したゲインテーブル16に従って、車速に応じたゲインを入力アンプ12に設定する。よって、ユーザの音声入力装置1の使用開始直後から適切なゲインを入力アンプ12に設定することができるようになる。
1…音声入力装置、2…サービス提供装置、3…車速検出部、4…車両状態検出部、5…移動通信装置、11…マイクロフォン、12…入力アンプ、13…AD変換器、14…音声認識エンジン、15…トークスイッチ、16…ゲインテーブル、17…ゲイン制御部、18…乗算器、19…ピーク検出部、20…車種データ、100…車載システム、200…ゲイン情報サーバ、201…ゲインデータベース、202…ゲインデータ生成部、203…ゲインデータ提供部、300…WAN。

Claims (2)

  1. 自動車に搭載される音声認識システムと、当該音声認識システムが移動通信を介してアクセス可能なサーバとより構成されるゲイン設定システムであって、
    前記サーバは、
    自動車の車速とゲインとの対応が登録されたゲイン制御情報を格納したゲイン制御情報格納部と、
    当該サーバにアクセスした前記音声認識システムに前記ゲイン制御情報格納部に格納されている前記ゲイン制御情報を提供するゲイン制御情報提供部とを有し、
    前記音声認識システムは、
    前記移動通信を行う移動通信装置と、
    入力音声を、入力音声信号に変換し出力するマイクロフォンと、
    前記マイクロフォンが出力する入力音声信号を増幅する、ゲインが可変な入力アンプと、
    前記入力ゲインアンプで増幅された入力音声信号が表す音声の音声認識を行う音声認識部と、
    前記自動車の車速を検出する車速検出部と、
    記憶部と、
    前記サーバに前記移動通信を介してアクセスし、前記サーバから前記ゲイン制御情報を取得して前記記憶部に記憶するゲイン制御情報取得部と、
    前記車速検出部が検出した車速を取得し、取得した車速に対応するゲインとして前記記憶部に記憶されているゲイン制御情報に登録されているゲインに、前記入力アンプのゲインを制御するゲイン制御部とを有し、かつ、
    前記サーバは、
    前記ゲイン制御情報格納部に格納する前記ゲイン制御情報を管理するゲイン制御情報管理部を有し、
    前記音声認識システムは、
    前記マイクロフォンが出力する入力音声信号のピーク値を検出するピーク値検出部と、
    前記音声認識部が音声認識を行っている期間中に前記ピーク値検出部が検出したピーク値と、前記車速検出部が検出した当該ピーク値が検出されたときの車速とを含めたピーク値情報を、前記移動通信を介してゲイン制御情報管理部に送信するピーク値情報報告部とを有し、
    前記ゲイン制御情報管理部は、受信したピーク値情報に基づいて、各車速の範囲について、当該車速の範囲内の車速を含む前記ピーク値情報に含まれていたピーク値の度数分布を求めると共に、当該度数分布における、当該ゲインで増幅した場合に大きさが前記音声認識部の入力レンジ内の大きさとなるピーク値の度数が最大となるゲインを、当該車速の範囲に対応するゲインとして登録した前記ゲイン制御情報を生成し、前記ゲイン制御情報格納部に格納することを特徴とするゲイン設定システム。
  2. 自動車に搭載される音声認識システムと、当該音声認識システムが移動通信を介してアクセス可能なサーバとより構成されるゲイン設定システムであって、
    前記サーバは、
    自動車の車速とゲインとの対応が登録されたゲイン制御情報を格納したゲイン制御情報格納部と、
    当該サーバにアクセスした前記音声認識システムに前記ゲイン制御情報格納部に格納されている前記ゲイン制御情報を提供するゲイン制御情報提供部とを有し、
    前記音声認識システムは、
    前記移動通信を行う移動通信装置と、
    入力音声を、入力音声信号に変換し出力するマイクロフォンと、
    前記マイクロフォンが出力する入力音声信号を増幅する、ゲインが可変な入力アンプと、
    前記入力ゲインアンプで増幅された入力音声信号が表す音声の音声認識を行う音声認識部と、
    前記自動車の車速を検出する車速検出部と、
    記憶部と、
    前記サーバに前記移動通信を介してアクセスし、前記サーバから前記ゲイン制御情報を取得して前記記憶部に記憶するゲイン制御情報取得部と、
    前記車速検出部が検出した車速を取得し、取得した車速に対応するゲインとして前記記憶部に記憶されているゲイン制御情報に登録されているゲインに、前記入力アンプのゲインを制御するゲイン制御部とを有し、かつ、
    前記ゲイン制御情報格納部には、各車種用のゲイン制御情報が格納されており、
    前記ゲイン制御情報取得部は、前記サーバから当該音声認識システムが搭載されている前記自動車の車種用の前記ゲイン制御情報を取得して前記記憶部に記憶し、
    前記各車種用のゲイン制御情報は、当該車種の自動車の車速とゲインとの対応が登録されており、
    前記サーバは、
    前記ゲイン制御情報格納部に格納する前記ゲイン制御情報を管理するゲイン制御情報管理部を有し、
    前記音声認識システムは、
    前記マイクロフォンが出力する入力音声信号のピーク値を検出するピーク値検出部と、
    前記音声認識部が音声認識を行っている期間中に前記ピーク値検出部が検出したピーク値と、前記車速検出部が検出した当該ピーク値が検出されたときの車速と、当該音声認識システムが搭載されている自動車の車種とを含めたピーク値情報を、前記移動通信を介してゲイン制御情報管理部に送信するピーク値情報報告部とを有し、
    前記ゲイン制御情報管理部は、
    受信したピーク値情報に基づいて、各車種毎に、各車速の範囲について、当該車種と当該車速の範囲内の車速を含む前記ピーク値情報に含まれていたピーク値の度数分布を求めると共に、当該度数分布における、当該ゲインで増幅した場合に大きさが前記音声認識部の入力レンジ内の大きさとなるピーク値の度数が最大となるゲインを、当該車速の範囲に対応するゲインとして登録した当該車種用の前記ゲイン制御情報を生成し、前記ゲイン制御情報格納部に格納することを特徴とするゲイン設定システム。
JP2015189433A 2015-09-28 2015-09-28 音声認識システム、ゲイン設定システム及びコンピュータプログラム Active JP6594721B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015189433A JP6594721B2 (ja) 2015-09-28 2015-09-28 音声認識システム、ゲイン設定システム及びコンピュータプログラム
US15/221,027 US10319393B2 (en) 2015-09-28 2016-07-27 Speech recognition system and gain setting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015189433A JP6594721B2 (ja) 2015-09-28 2015-09-28 音声認識システム、ゲイン設定システム及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2017067812A JP2017067812A (ja) 2017-04-06
JP6594721B2 true JP6594721B2 (ja) 2019-10-23

Family

ID=58406602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015189433A Active JP6594721B2 (ja) 2015-09-28 2015-09-28 音声認識システム、ゲイン設定システム及びコンピュータプログラム

Country Status (2)

Country Link
US (1) US10319393B2 (ja)
JP (1) JP6594721B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018006927A1 (en) * 2016-07-04 2018-01-11 Harman Becker Automotive Systems Gmbh Automatic correction of loudness level in audio signals containing speech signals
US11206001B2 (en) 2017-09-27 2021-12-21 Dolby International Ab Inference and correction of automatic gain compensation
US11437015B2 (en) * 2018-06-12 2022-09-06 Harman International Industries, Incorporated System and method for adaptive magnitude vehicle sound synthesis
CN109671448B (zh) * 2018-12-29 2021-05-18 联想(北京)有限公司 一种数据处理方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3350106B2 (ja) * 1992-08-20 2002-11-25 株式会社リコー 音声認識装置
JP2002314637A (ja) * 2001-04-09 2002-10-25 Denso Corp 雑音低減装置
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
JP4587941B2 (ja) * 2005-11-18 2010-11-24 アルパイン株式会社 音声補正システムおよびこれに用いる適応フィルタ
JP4950672B2 (ja) * 2007-01-09 2012-06-13 本田技研工業株式会社 磁歪式トルクセンサの製造方法、及び、電動パワーステアリングシステム
JP5614767B2 (ja) * 2009-04-14 2014-10-29 アルパイン株式会社 音声処理装置
JP5672770B2 (ja) * 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP5457293B2 (ja) 2010-07-14 2014-04-02 アルパイン株式会社 音声認識装置

Also Published As

Publication number Publication date
JP2017067812A (ja) 2017-04-06
US20170092289A1 (en) 2017-03-30
US10319393B2 (en) 2019-06-11

Similar Documents

Publication Publication Date Title
JP6594721B2 (ja) 音声認識システム、ゲイン設定システム及びコンピュータプログラム
US11120650B2 (en) Method and system for sending vehicle health report
CN104954420B (zh) 可变报告速率远程信息处理
US9564125B2 (en) Methods and systems for adapting a speech system based on user characteristics
US20160063773A1 (en) Apparatus and System for Generating Emergency Vehicle Record Data
US20170169814A1 (en) Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection
US10990703B2 (en) Cloud-configurable diagnostics via application permissions control
CN108140294B (zh) 车辆内部触觉输出
CN104516449A (zh) 车辆用装置、服务器和信息处理方法
JP6011584B2 (ja) 音声認識装置及び音声認識システム
US20140136214A1 (en) Adaptation methods and systems for speech systems
CN108627349B (zh) 用于识别机动车的特殊运行状态的方法和移动设备
US20150274180A1 (en) Workload estimation for mobile device feature integration
CN108986819B (zh) 用于车辆自动语音识别错误检测的系统和方法
CN104603871A (zh) 用于运行车辆用的语音控制的信息系统的方法和设备
CN106156036B (zh) 一种车载音频处理方法及车载设备
US10468017B2 (en) System and method for understanding standard language and dialects
CN113643704A (zh) 车机语音系统的测试方法、上位机、系统和存储介质
US20140365030A1 (en) Driving behaviour monitoring systems
US10951590B2 (en) User anonymity through data swapping
US11557275B2 (en) Voice system and voice output method of moving machine
CN111261149B (zh) 语音信息识别方法和装置
CN111768794A (zh) 一种语音降噪方法、语音降噪系统、设备及存储介质
CN108806682B (zh) 获取天气信息的方法和装置
JP7434016B2 (ja) 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190326

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190805

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190925

R150 Certificate of patent or registration of utility model

Ref document number: 6594721

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150