JP2016167645A - Voice processing device and control device - Google Patents
Voice processing device and control device Download PDFInfo
- Publication number
- JP2016167645A JP2016167645A JP2015045408A JP2015045408A JP2016167645A JP 2016167645 A JP2016167645 A JP 2016167645A JP 2015045408 A JP2015045408 A JP 2015045408A JP 2015045408 A JP2015045408 A JP 2015045408A JP 2016167645 A JP2016167645 A JP 2016167645A
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- sound
- signal
- processing unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 170
- 230000005236 sound signal Effects 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 42
- 238000001514 detection method Methods 0.000 claims description 30
- 230000003044 adaptive effect Effects 0.000 description 24
- 238000007781 pre-processing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 238000012805 post-processing Methods 0.000 description 14
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R11/00—Arrangements for holding or mounting articles, not otherwise provided for
- B60R11/02—Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Mechanical Engineering (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Description
本発明は、音声処理装置及び制御装置に関する。 The present invention relates to a voice processing device and a control device.
自動車等の車両には、様々な機器が設けられている。これらの様々な機器に対する操作は、例えば、操作ボタンや操作パネル等を操作することにより行われている。 Various devices are provided in a vehicle such as an automobile. Operations on these various devices are performed, for example, by operating operation buttons, operation panels, and the like.
一方、近時では、音声認識技術を用いて車両の制御を行うことも提案されている(特許文献1、2)。
On the other hand, recently, it has also been proposed to control a vehicle using voice recognition technology (
しかしながら、車両内のみならず、車両外においても、音声が発せられ得る。様々な箇所において発せられ得る音声を確実に検出すべく、様々な箇所にマイクロフォンを配した場合には、低コスト化の要請に反することとなる。 However, sound can be emitted not only inside the vehicle but also outside the vehicle. If microphones are arranged at various locations in order to reliably detect sound that can be uttered at various locations, this is contrary to the demand for cost reduction.
本発明の目的は、低コスト化の要請を満たしつつ、車両の内外において発せられ得る音声に対して音声処理を的確に行い得る音声処理装置及びその音声処理装置を用いた制御装置を提供することにある。 An object of the present invention is to provide a voice processing device that can accurately perform voice processing on voice that can be emitted inside and outside a vehicle while satisfying a demand for cost reduction, and a control device using the voice processing device. It is in.
本発明の一観点によれば、車両内に配された複数のマイクロフォンの各々によって取得される受音信号に含まれる音声の発生源である音声源の方位を判定する音声源方位判定部と、前記音声源の前記方位を含む方位範囲以外の方位範囲から到来する音を抑圧するビームフォーミングを行うビームフォーミング処理部と、前記受音信号に混入されたノイズの除去処理を行うノイズ除去処理部とを有し、前記車両内に乗員が存在しているか否かを示す第1の信号に基づいて、前記ビームフォーミング処理部による前記ビームフォーミングのオン/オフが設定される、音声処理装置が提供される。 According to one aspect of the present invention, a sound source direction determination unit that determines a direction of a sound source that is a sound source included in a sound reception signal acquired by each of a plurality of microphones arranged in a vehicle; A beam forming processing unit that performs beam forming to suppress sound coming from an azimuth range other than the azimuth range including the azimuth range of the sound source; and a noise removal processing unit that performs processing to remove noise mixed in the received sound signal. There is provided a speech processing apparatus in which on / off of the beamforming by the beamforming processing unit is set based on a first signal indicating whether or not an occupant is present in the vehicle. The
本発明によれば、車両内に乗員が存在しているか否かを示す第1の信号に基づいて、ビームフォーミングのオン/オフが設定される。このため、車両の外部に乗員が位置している場合であっても、かかる乗員が発する音声を、車両内に配されたマイクロフォンを用いて確実に検出することができる。車両の外部において発せられる音声を取得するためのマイクロフォンを、車両内に配されたマイクロフォンと別個に設けることを要しないため、低コスト化に寄与することができる。 According to the present invention, on / off of beamforming is set based on the first signal indicating whether or not an occupant is present in the vehicle. For this reason, even when the occupant is located outside the vehicle, it is possible to reliably detect the sound emitted by the occupant using the microphone disposed in the vehicle. Since it is not necessary to provide a microphone for acquiring sound emitted outside the vehicle separately from the microphone arranged in the vehicle, it is possible to contribute to cost reduction.
以下、本発明の実施の形態について図面を用いて説明する。なお、本発明は以下の実施形態に限定されるものではなく、その要旨を逸脱しない範囲において適宜変更可能である。また、以下で説明する図面において、同じ機能を有するものは同一の符号を付し、その説明を省略又は簡潔にすることもある。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In addition, this invention is not limited to the following embodiment, In the range which does not deviate from the summary, it can change suitably. In the drawings described below, components having the same function are denoted by the same reference numerals, and the description thereof may be omitted or simplified.
[一実施形態]
本発明の一実施形態による音声処理装置及びその音声処理装置を用いた制御装置について図1乃至図19を用いて説明する。
[One Embodiment]
A voice processing device and a control device using the voice processing device according to an embodiment of the present invention will be described with reference to FIGS.
本実施形態による音声処理装置及び制御装置について説明するに先立って、車両の構成について図1を用いて説明する。図1は、車両の構成を示す概略図である。 Prior to describing the voice processing device and the control device according to the present embodiment, the configuration of the vehicle will be described with reference to FIG. FIG. 1 is a schematic diagram showing a configuration of a vehicle.
図1に示すように、車両(自動車)136の車体(車室)46の前部には、運転者用の座席である運転席40と助手席者用の座席である助手席44とが配されている。運転席40は、例えば車室46の右側に位置している。運転席40の前方には、ステアリングホイール(ハンドル)78が配されている。助手席44は、例えば車室46の左側に位置している。運転席40と助手席44とにより、前部座席が構成されている。運転席40の近傍には、運転者が音声を発する場合における音声源72aが位置する。助手席44の近傍には、助手席者が音声を発する場合における音声源72bが位置する。運転者も助手席者も座席40,44に着座した状態で上半身を動かし得るため、音声源72の位置は変化し得る。車体46の後部には、後部座席70が配されている。なお、ここでは、個々の音声源を区別しないで説明する場合には、符号72を用い、個々の音声源を区別して説明する場合には、符号72a、72bを用いることとする。
As shown in FIG. 1, a driver's
前部座席40,44の前方には、複数のマイクロフォン22(22a〜22c)、即ち、マイクロフォンアレイが配されている。なお、ここでは、個々のマイクロフォンを区別しないで説明する場合には、符号22を用い、個々のマイクロフォンを区別して説明する場合には、符号22a〜22cを用いることとする。マイクロフォン22は、ダッシュボード42に配されていてもよいし、ルーフに近い部位に配されていてもよい。
A plurality of microphones 22 (22a to 22c), that is, microphone arrays are arranged in front of the
前部座席40,44の音声源72とマイクロフォン22との間の距離は、数十cm程度である場合が多い。しかし、マイクロフォン22と音声源72との間の距離は、数十cmより小さくなることもあり得る。また、マイクロフォン22と音声源72との間の距離は、1mを超えることもあり得る。
The distance between the
車体46の内部には、車載音響機器(カーオーディオ機器)84(図2参照)のスピーカシステムを構成するスピーカ(ラウドスピーカ)76が配されている。スピーカ76から発せられる音楽(ミュージック)は、音声認識を行う上でのノイズとなり得る。
Inside the
車体46には、車両136を駆動するためのエンジン80が配されている。エンジン80から発せられる音は、音声認識を行う上でのノイズとなり得る。
The
車両136の走行中に路面の刺激によって車室46内に発生する騒音、即ち、ロードノイズも、音声認識を行う上でのノイズとなり得る。また、車両136が走行する際に生ずる風切り音も、音声認識を行う上でのノイズ源となり得る。また、車体46の外部にも、ノイズ源82は存在し得る。外部ノイズ源82から発せられる音も、音声認識を行う上でのノイズとなり得る。
Noise generated in the
車体46に配された様々な機器に対する操作を、音声による指示によって行い得ると便利である。音声による指示は、例えば自動音声認識装置168(図2参照)を用いて認識される。本実施形態による音声処理装置102は、音声認識の精度の向上に資するものである。
It is convenient if operations on various devices arranged on the
図2は、本実施形態による制御装置を示すブロック図である。 FIG. 2 is a block diagram illustrating the control device according to the present embodiment.
図2に示すように、本実施形態による制御装置100は、音声処理装置102、自動音声認識装置168、入力部114、制御部(CPU:Central Processing Unit)116、メモリ118、及び、出力部120を有している。音声処理装置102、自動音声認識装置168、入力部114、制御部116、メモリ118、及び、出力部120は、バスライン122を介して相互に信号を入出力し得る。
As shown in FIG. 2, the
なお、音声処理装置102と自動音声認識装置168とが別個の装置であってもよいし、音声処理装置(音声処理部)102と自動音声認識装置(音声認識部)168とが一体になっていてもよい。音声処理装置102と自動音声認識装置168とが一体になった装置は、音声処理装置と称することもできるし、自動音声認識装置と称することもできる。
The
音声処理装置102には、複数のマイクロフォン22a〜22cの各々によって取得される信号が入力されるようになっている。また、音声処理装置102には、車載音響機器84からの信号が入力されるようになっている。
A signal acquired by each of the plurality of
音声処理装置102によって処理が行われた音声信号が、音声出力として自動音声認識装置(音声認識装置)168に出力されるようになっている。
An audio signal processed by the
入力部114には、近接検知部(近接検知手段)126からの信号が入力されるようになっている。車両136への乗員の近接の有無を示す信号、即ち、近接検知信号が、近接検知部126から入力部114に入力されるようになっている。近接検知部126としては、例えば、スマートキー(認証キー)146から発せられる無線信号を受信し得る受信部(受信手段)等を用いることができる。近接検知部126は、例えば、スマートキーシステム用の受信部を兼ねていてもよいし、スマートキーシステム用の受信部と別個に設けられているものであってもよい。図3は、本実施形態による車両を示す平面図である。図3に示すように、開閉体134a〜134cの近傍にスマートキー146の通信エリア148が形成される。スマートキー146がスマートキーシステムの通信エリア148内に位置している際に、スマートキー146が通信エリア148内に位置していることを示す信号が、近接検知部126から入力部114に入力される。
A signal from the proximity detection unit (proximity detection means) 126 is input to the
なお、ここでは、スマートキー146から発せられる無線信号が近接検知部126により受信されたことに基づいて、車両136への乗員の近接の有無を判定したが、これに限定されるものではない。即ち、車両136への乗員の近接の有無を判定ために用いられる乗員側の機器は、スマートキー146に限定されるものではなく、ID認証が可能な携帯機器であればよい。ID認証が可能な様々な携帯機器と車載機器との間の通信の成立の有無に基づいて、車両136への乗員の近接の適宜判定することが可能である。
Here, the presence / absence of the occupant's proximity to the
入力部114には、車両136内に乗員が存在するか否かを示す信号、即ち、乗員有無検知信号が、乗員検出部142から入力部114に入力されるようになっている。乗員検出部142としては、例えば、ドライバモニタや体重検知センサ等を用いることができる。ドライバモニタは、カメラ(図示せず)で撮影した画像に基づいて乗員の有無を検出し得る。体重検知センサは、例えば、運転席40に配され、体重検知センサによって検知された体重に基づいて乗員の有無を検出し得る。
A signal indicating whether or not an occupant is present in the
制御部116は、制御装置100の全体の制御を司るものである。制御部116は、近接検知部126から入力部114を介して入力される近接検知信号を読み取る。制御部116は、スマートキー146を所持した乗員が車両136に近接した状態であるか否かを、近接検知信号に基づいて判断し得る。また、制御部116は、乗員検出部142から入力部114を介して入力される乗員有無検知信号を読み取る。制御部116は、車両136内に乗員が存在するか否かを、乗員有無検知信号に基づいて判断し得る。また、制御部116は、自動音声認識装置168からの出力情報、即ち、音声認識結果を読み取る。制御部116は、自動音声認識装置168による音声認識結果に基づいて、音声による乗員の指示を認識し得る。
The
制御部116は、自動音声認識装置168による音声認識結果に基づいて、車両136に搭載されている様々な機器等に対しての制御を行う。
The
例えば、制御部116は、開閉体134に対しての制御を行う。具体的には、制御部116は、開閉体駆動装置132を制御するための制御信号を、出力部120を介して開閉体駆動装置132に出力する。開閉体駆動装置132は、開閉機構を有する構造体である開閉体134を駆動するためのものである。制御部116は、開閉体駆動装置132を介して開閉体134を自動で開作動等させる。車両136には、サイドドア134a、134bやバックドア134c等の様々な開閉体が配されているが。図2においては、個々の開閉体を区別せず、複数の開閉体のうちの1つを符号134を用いて図示している。
For example, the
また、制御部116は、ブレーキ140に対しての制御を行う。具体的には、制御部116は、ブレーキ制御装置138を制御するための制御信号を、出力部120を介してブレーキ制御装置138に出力する。ブレーキ制御装置138は、ブレーキ140を制御するためのものである。制御部116は、ブレーキ制御装置138を介してブレーキ140を制御する。
The
図4は、本実施形態による音声処理装置のシステム構成を示すブロック図である。図4に示すように、本実施形態による音声処理装置102は、前処理部10と、処理部12と、後処理部14と、音声源方位判定部16と、適応アルゴリズム決定部18と、ノイズモデル決定部20とを含む。
FIG. 4 is a block diagram showing the system configuration of the speech processing apparatus according to the present embodiment. As shown in FIG. 4, the
前処理部10には、複数のマイクロフォン22a〜22cの各々によって取得される信号、即ち、受音信号が入力されるようになっている。マイクロフォン22としては、例えば、無指向性のマイクロフォンが用いられる。
A signal acquired by each of the plurality of
図5は、マイクロフォンの配置の例を示す概略図である。図5(a)は、マイクロフォン22の数が3個の場合を示している。図5(b)は、マイクロフォン22の数が2個の場合を示している。複数のマイクロフォン22は、直線上に位置するように配されている。
FIG. 5 is a schematic diagram showing an example of microphone arrangement. FIG. 5A shows a case where the number of
図6は、音声源が遠方界に位置する場合と近傍界に位置する場合とを示す図である。図6(a)は、音声源72が遠方界に位置する場合を示しており、図6(b)は、音声源72が近傍界に位置する場合を示している。dは、音声源72からマイクロフォン22までの距離の差を示している。θは、音声源72の方位を示している。
FIG. 6 is a diagram illustrating a case where the sound source is located in the far field and a case where the sound source is located in the near field. FIG. 6A shows a case where the
図6(a)に示すように、音声源72が遠方界に位置する場合には、マイクロフォン22に到達する音声は、平面波とみなすことができる。このため、本実施形態では、音声源72が遠方界に位置する場合には、マイクロフォン22に到達する音声を平面波として取り扱って、音声源72の方位(方向)、即ち、音源方位(DOA:Direction Of Arrival)を判定する。マイクロフォン22に到達する音声を平面波として扱うことが可能なため、音声源72が遠方界に位置する場合には、2個のマイクロフォン22を用いて音声源72の方位を判定し得る。なお、音声源72の位置やマイクロフォン22の配置によっては、マイクロフォン22の数が2個の場合であっても、近傍界に位置する音声源72の方位を判定し得る。
As shown in FIG. 6A, when the
図6(b)に示すように、音声源72が近傍界に位置する場合には、マイクロフォン22に到達する音声は、球面波とみなすことができる。このため、本実施形態では、音声源72が近傍界に位置する場合には、マイクロフォン22に到達する音声を球面波として扱って、音声源72の方位を判定する。マイクロフォン22に到達する音声を球面波として扱うことを要するため、音声源72が近傍界に位置する場合には、少なくとも3個のマイクロフォン22を用いて音声源72の方位を判定する。ここでは、説明の簡略化のため、マイクロフォン22の数を3個とする場合を例に説明する。
As shown in FIG. 6B, when the
マイクロフォン22aとマイクロフォン22bとの距離L1は、比較的長く設定されている。マイクロフォン22bとマイクロフォン22cとの距離L2は、比較的短く設定されている。
The distance L1 between the
本実施形態において距離L1と距離L2とを異ならせているのは、以下のような理由によるものである。即ち、本実施形態では、各々のマイクロフォン22に到達する音声(受音信号の到来時間差(TDOA:Time Delay Of Arrival)に基づいて、音声源72の方位を特定する。周波数が比較的低い音声は波長が比較的長いため、周波数が比較的低い音声に対応するためには、マイクロフォン22間の距離を比較的大きく設定することが好ましい。このため、本実施形態では、マイクロフォン22aとマイクロフォン22bとの間の距離L1を比較的長く設定している。一方、周波数が比較的高い音声は波長が比較的短いため、周波数が比較的高い音声に対応するためには、マイクロフォン22間の距離を比較的小さく設定することが好ましい。そこで、本実施形態では、マイクロフォン22bとマイクロフォン22cとの間の距離L2を比較的短く設定している。
The reason why the distance L1 and the distance L2 are different in the present embodiment is as follows. That is, in the present embodiment, the direction of the
マイクロフォン22aとマイクロフォン22bとの間の距離L1は、例えば3400Hz以下の周波数の音声に対して好適とすべく、例えば5cm程度とする。マイクロフォン22bとマイクロフォン22cとの間の距離L2は、例えば3400Hzを超える周波数の音声に対して好適とすべく、例えば2.5cm程度とする。なお、距離L1、L2は、これらに限定されるものではなく、適宜設定し得る。
The distance L1 between the
本実施形態において、音声源72が遠方界に位置する場合に、マイクロフォン22に到達する音声を平面波として扱うのは、音声を平面波として扱う場合の方が、音声を球面波として扱う場合よりも、音声源72の方位を判定するための処理が簡略なためである。このため、本実施形態では、音声源72が遠方界に位置する場合には、マイクロフォン22に到達する音声を平面波として扱う。マイクロフォン22に到達する音声を平面波として扱うため、遠方界に位置する音声源72の方位を判定する際には、音声源72の方位を判定するための処理の負荷を軽くすることができる。
In the present embodiment, when the
なお、音声源72の方位を判定するための処理の付加は重くなるが、音声源72が近傍界に位置する場合には、マイクロフォン22に到達する音声を球面波として扱う。音声源72が近傍界に位置する場合には、マイクロフォン22に到達する音声を球面波として扱わないと、音声源72の方位を正確に判定し得ないためである。
In addition, although the addition of the process for determining the azimuth | direction of the audio | voice
このように、本実施形態では、音声源72が遠方界に位置する場合には、音声を平面波として扱って音声源72の方位を判定し、音声源72が近傍界に位置する場合には、音声を球面波として扱って音声源72の方位を判定する。
As described above, in the present embodiment, when the
図4に示すように、複数のマイクロフォン22によって取得される受音信号が、前処理部10に入力されるようになっている。前処理部10では、音場補正が行われる。音場補正においては、音響空間である車室46の音響特性を考慮したチューニングが行われる。
As shown in FIG. 4, sound reception signals acquired by the plurality of
マイクロフォン22によって取得される受音信号に音楽が含まれている場合には、前処理部10は、マイクロフォン22によって取得される受音信号から音楽を除去する。前処理部10には、参照用音楽信号(参照信号)が入力されるようになっている。前処理部10は、マイクロフォン22によって取得される受音信号に含まれている音楽を、参照用音楽信号を用いて除去する。
When the sound reception signal acquired by the
図7は、音楽の除去のアルゴリズムを示す概略図である。車載音響機器84によって音楽が再生されている際には、マイクロフォン22によって取得される受音信号には音楽が含まれる。マイクロフォン22によって取得される音楽を含む受音信号は、前処理部10内に設けられた音楽除去処理部24に入力されるようになっている。また、参照用音楽信号が、音楽除去処理部24に入力されるようになっている。参照用音楽信号は、例えば、車載音響機器84のスピーカ76から出力された音楽を、マイクロフォン26a、26bによって取得することにより得ることが可能である。また、スピーカ76によって音に変換される前の音楽ソース信号を、参照用音楽信号として、音楽除去処理部24に入力するようにしてもよい。
FIG. 7 is a schematic diagram showing an algorithm for music removal. When music is played back by the in-vehicle
音楽除去処理部24からの出力信号は、前処理部10内に設けられたステップサイズ判定部28に入力されるようになっている。ステップサイズ判定部28は、音楽除去処理部24の出力信号のステップサイズの判定を行うものである。ステップサイズ判定部28によって判定されたステップサイズは、音楽除去処理部24にフィードバックされるようになっている。音楽除去処理部24は、参照用音楽信号を用い、ステップサイズ判定部28により判定されたステップサイズに基づき、周波数領域の正規化最小二乗法(NLMS:Normalized Least-Mean Square)のアルゴリズムによって、音楽を含む信号から音楽を除去する。車室46内における音楽の反響成分をも十分に除去すべく、十分な処理段数で音楽の除去の処理が行われる。
An output signal from the music
図8は、音楽の除去前と除去後の信号波形を示す図である。横軸は時間を示しており、縦軸は振幅を示している。図8(a)は音楽の除去前を示しており、図8(b)は音楽の除去後を示している。図8から分かるように、音楽が確実に除去されている。 FIG. 8 is a diagram illustrating signal waveforms before and after music removal. The horizontal axis indicates time, and the vertical axis indicates amplitude. FIG. 8A shows before music removal, and FIG. 8B shows after music removal. As can be seen from FIG. 8, the music has been reliably removed.
このようにして音楽が除去された信号が、前処理部10の音楽除去処理部24から出力され、処理部12に入力される。なお、前処理部10において音楽を十分に除去し得ない場合には、後処理部14においても、音楽の除去の処理を行うようにしてもよい。
The signal from which music has been removed in this manner is output from the music
音声源方位判定部16では、音声源の方位の判定が行われる。図9は、音声源の方位の判定のアルゴリズムを示す図である。複数のマイクロフォン22のうちのあるマイクロフォン22からの信号が、音声源方位判定部16内に設けられた遅延部30に入力されるようになっている。複数のマイクロフォン22のうちの他のマイクロフォン22からの信号が、音声源方位判定部16内に設けられた適応フィルタ32に入力されるようになっている。遅延部30の出力信号と適応フィルタ32の出力信号とが、減算点34に入力されるようになっている。減算点34においては、遅延部30の出力信号から適応フィルタ34の出力信号が減算される。減算点34において減算処理が行われた信号に基づいて、適応フィルタ32が調整される。適応フィルタ32からの出力は、ピーク検出部36に入力されるようになっている。ピーク検出部36は、適応フィルタ係数のピーク(最大値)を検出するものである。適応フィルタ係数のピークに対応する到来時間差τが、目的音の到来方位に対応する到来時間差τである。従って、こうして求められた到来時間差τに基づいて、音声源72の方位、即ち、目的音の到来方位を判定することが可能となる。
The sound source
音の速度をc[m/s]、マイクロフォン間の距離をd[m]、到来時間差をτ[秒]とすると、音声源72の方向θ[度]は、以下のような式(1)によって表される。なお、音速cは、340[m/s]程度である。
Assuming that the speed of sound is c [m / s], the distance between microphones is d [m], and the arrival time difference is τ [seconds], the direction θ [degree] of the
θ = (180/π)×arccos(τ・c/d) ・・・(1) θ = (180 / π) × arccos (τ · c / d) (1)
図10は、適応フィルタ係数、音声源の方位角、及び、音声信号の振幅を示す図である。図10(a)では、適応フィルタ係数がピークとなる部分にハッチングを付している。図10(b)は、到来時間差τに基づいて判定された音声源72の方位を示している。図10(c)は、音声信号の振幅を示している。なお、図10は、運転者と助手席者とで交互に音声を発した場合を示している。ここでは、運転者が音声を発する場合の音声源72aの方位は、α1とした。助手席者が音声を発する場合の音声源72bの方位は、α2とした。
FIG. 10 is a diagram illustrating the adaptive filter coefficient, the azimuth angle of the sound source, and the amplitude of the sound signal. In FIG. 10A, the portion where the adaptive filter coefficient has a peak is hatched. FIG. 10B shows the direction of the
図10(a)に示すように、適応フィルタ係数w(t,τ)のピークに基づいて、到来時間差τを検出することが可能である。運転者が音声を発した場合には、適応フィルタ係数のピークに対応する到来時間差τは、例えば−t1程度となる。そして、到来時間差τに基づいて音声源72aの方位角を判定すると、音声源72aの方位角は例えばα1程度と判定される。一方、助手席者が音声を発した場合には、適応フィルタ係数のピークに対応する到来時間差τは、例えばt2程度となる。そして、到来時間差τに基づいて音声源72bの方位角を判定すると、音声源72bの方位角は例えばα2度程度と判定される。なお、ここでは、α1の方位に運転者が位置しており、α2の方位に助手席者が位置している場合を例に説明したが、これに限定されるものではない。音声源72が近傍界に位置する場合であっても、音声源72が遠方界に位置する場合であっても、到来時間差τに基づいて、音声源72の位置を特定することが可能である。但し、音声源72が近傍界に位置する場合には、上述したように、マイクロフォン22が3個以上必要であるため、音声源72の方位を求めるための処理の負荷は重くなる。
As shown in FIG. 10A, the arrival time difference τ can be detected based on the peak of the adaptive filter coefficient w (t, τ). When the driver utters voice, the arrival time difference τ corresponding to the peak of the adaptive filter coefficient is, for example, about −t1. When the azimuth angle of the
音声源方位判定部16の出力信号、即ち、音声源72の方位を示す信号が、適応アルゴリズム決定部18に入力されるようになっている。適応アルゴリズム決定部18は、音声源72の方位に基づいて適応アルゴリズムを決定するものである。適応アルゴリズム決定部18によって決定された適応アルゴリズムを示す信号が、適応アルゴリズム決定部18から処理部12に入力されるようになっている。
An output signal from the sound source
処理部12は、適応的に指向性を形成する信号処理である適応ビームフォーミングを行うものである(適応ビームフォーマ、ビームフォーミング処理部)。ビームフォーマとしては、例えばFrostビームフォーマを用いることができる。なお、ビームフォーミングは、Frostビームフォーマに限定されるものではなく、様々なビームフォーマを適宜適用することができる。処理部12は、適応アルゴリズム決定部18によって決定された適応アルゴリズムに基づいて、ビームフォーミングを行う。本実施形態において、ビームフォーミングを行うのは、目的音の到来方位に対しての感度を確保しつつ、目的音の到来方向以外の感度を低下させるためである。目的音は、例えば運転者から発せられる音声である。運転者は運転席40に着座した状態で上半身を動かし得るため、音声源72aの位置は変化し得る。音声源72aの位置の変化に応じて、目的音の到来方位は変化する。良好な音声認識を行うためには、目的音の到来方向以外の感度を確実に低下させることが好ましい。そこで、本実施形態では、上記のようにして判定される音声源72の方位に基づいて、当該方位を含む方位範囲以外の方位範囲からの音声を抑圧すべく、ビームフォーマを順次更新する。
The
図11は、ビームフォーマの指向性を概念的に示す図である。図11は、音声認識の対象とすべき音声源72aが運転席40に位置している場合のビームフォーマの指向性を概念的に示している。図11におけるハッチングは、到来音が抑圧(抑制、低減)される方位範囲を示している。図11に示すように、運転席40の方位を含む方位範囲以外の方位範囲から到来する音が抑圧される。
FIG. 11 is a diagram conceptually showing the directivity of the beamformer. FIG. 11 conceptually shows the directivity of the beamformer when the
なお、音声認識の対象とすべき音声源72bが助手席44に位置している場合には、助手席44の方位を含む方位範囲以外の方位範囲から到来する音が抑圧されるようにすればよい。
If the
図12は、ビームフォーマのアルゴリズムを示す図である。マイクロフォン22a〜22cによって取得される受音信号が、前処理部10(図4参照)を介して、処理部12内に設けられた窓関数/高速フーリエ変換処理部48a〜48cにそれぞれ入力されるようになっている。窓関数/高速フーリエ変換処理部48a〜48cは、窓関数処理及び高速フーリエ変換処理を行うものである。本実施形態において、窓関数処理及び高速フーリエ変換処理を行うのは、周波数領域での計算は時間領域での計算より速いためである。窓関数/高速フーリエ変換処理部48aの出力信号X1,kとビームフォーマの重みテンソルW1,k *とが、乗算点50aにおいて乗算されるようになっている。窓関数/高速フーリエ変換処理部48bの出力信号X2,kとビームフォーマの重みテンソルW2,k *とが、乗算点50bにおいて乗算されるようになっている。窓関数/高速フーリエ変換処理部48bの出力信号X3,kとビームフォーマの重みテンソルW3,k *とが、乗算点50cにおいて乗算されるようになっている。乗算点50a〜50cにおいてそれぞれ乗算処理された信号が、加算点52において加算されるようになっている。加算点52において加算処理された信号Ykは、処理部12内に設けられた逆高速フーリエ変換/重畳加算処理部54に入力されるようになっている。逆高速フーリエ変換/重畳加算処理部54は、逆高速フーリエ変換処理及び重畳加算(OLA:OverLap-Add)法による処理を行うものである。重畳加算法による処理を行うことにより、周波数領域の信号が時間領域の信号に戻される。逆高速フーリエ変換処理及び重畳加算法による処理が行われた信号が、逆高速フーリエ変換/重畳加算処理部54から後処理部14に入力されるようになっている。
FIG. 12 is a diagram showing a beamformer algorithm. The received sound signals acquired by the
図13は、ビームフォーマにより得られた指向性(角度特性)を示す図である。横軸は方位角を示しており、縦軸は出力信号パワーを示している。図13から分かるように、例えば方位角β1と方位角β2とにおいて出力信号パワーが極小となる。方位角β1と方位角β2との間においても、十分な抑圧が行われている。図13に示すような指向性のビームフォーマを用いれば、助手席から到来する音を十分に抑圧することができる。一方、運転席から到来する音声は、殆ど抑圧されることなくマイクロフォン22に到達する。
FIG. 13 is a diagram showing the directivity (angle characteristic) obtained by the beamformer. The horizontal axis indicates the azimuth angle, and the vertical axis indicates the output signal power. As can be seen from FIG. 13, for example, the output signal power is minimized at the azimuth angle β1 and the azimuth angle β2. Sufficient suppression is also performed between the azimuth angle β1 and the azimuth angle β2. If a directional beamformer as shown in FIG. 13 is used, the sound coming from the passenger seat can be sufficiently suppressed. On the other hand, the voice coming from the driver's seat reaches the
本実施形態では、音声源72から到来する音声の大きさよりも、音声源72の方位を含む方位範囲以外の方位範囲から到来する音の方が大きい場合には、音声源72の方位の判定を中断する(音声源方位判定キャンセル処理)。例えば、運転者からの音声を取得するようにビームフォーマが設定されている場合において、運転者からの音声よりも助手席者からの音声の方が大きい場合には、音声源の方位の推定を中断する。この場合、マイクロフォン22によって取得される受音信号を十分に抑圧する。図14は、ビームフォーマと音声源方位判定キャンセル処理とを組み合わせた場合の指向性(角度特性)を示す図である。実線は、ビームフォーマの指向性を示している。一点鎖線は、音声源方位判定キャンセル処理の角度特性を示している。例えばγ1より小さい方位から到来する音声、又は、例えばγ2より大きい方位から到来する音声が、運転者からの音声よりも大きい場合には、音声源方位判定キャンセル処理が行われる。なお、ここでは、運転者からの音声を取得するようにビームフォーマが設定されている場合を例に説明したが、助手席者からの音声を取得するようにビームフォーマが設定されていてもよい。この場合には、助手席者からの音声よりも運転者からの音声の方が大きい場合には、音声源の方位の推定を中断する。
In the present embodiment, when the sound coming from an azimuth range other than the azimuth range including the azimuth of the
図15は、マイクロフォンが2個の場合におけるビームフォーマにより得られる指向性を示すグラフである。横軸は方位角であり、縦軸は出力信号パワーである。マイクロフォン22が2個であるため、極小値となる角度が1箇所のみである。図15から分かるように、例えば方位角β1においては著しい抑圧が可能であるが、音声源72の方位の変化に対するロバスト性はあまり高くない。
FIG. 15 is a graph showing the directivity obtained by the beamformer when two microphones are used. The horizontal axis is the azimuth angle, and the vertical axis is the output signal power. Since there are two
こうして、音声源72の方位を含む方位範囲以外の方位範囲から到来する音が抑圧された信号が、処理部12から出力される。処理部12からの出力信号は、後処理部14に入力されるようになっている。
In this way, the
後処理部(後処理適応フィルタ)14においては、ノイズの除去が行われる。かかるノイズとしては、例えばエンジンノイズ、ロードノイズ、風切り音等が挙げられる。図16は、ノイズの除去のアルゴリズムを示す図である。ノイズモデル決定部20内に設けられた基本波判定部56によって、ノイズの基本波が判定される。基本波判定部56は、ノイズの基本波に基づいた正弦波を出力する。基本波判定部56から出力される正弦波は、ノイズモデル決定部20内に設けられたモデリング処理部58に入力されるようになっている。モデリング処理部58は、非線形マッピング処理部60と、線形フィルタ62と、非線形マッピング処理部64とを有している。モデリング処理部58は、Hammerstein-Wiener非線形モデルによるモデリング処理を行うものである。モデリング処理部58には、非線形マッピング処理部60、線形フィルタ62及び非線形マッピング処理部64が設けられている。モデリング処理部58は、基本波判定部56から出力される正弦波に対してモデリング処理を行うことにより、参照用ノイズ信号を生成する。モデリング処理部58から出力される参照用ノイズ信号は、ノイズが含まれた信号からノイズを除去するための参照信号となる。参照用ノイズ信号は、後処理部14内に設けられたノイズ除去処理部66に入力されるようになっている。ノイズ除去処理部66には、処理部12からのノイズを含む信号も入力されるようになっている。ノイズ除去処理部66は、参照用ノイズ信号を用い、正規化最小二乗法のアルゴリズムによって、ノイズを含む信号からノイズを除去する。ノイズ除去処理部66からは、ノイズが除去された信号が出力される。
The post-processing unit (post-processing adaptive filter) 14 removes noise. Examples of such noise include engine noise, road noise, and wind noise. FIG. 16 is a diagram illustrating an algorithm for noise removal. A fundamental wave of noise is determined by a fundamental
図17は、ノイズの除去前と除去後の信号波形を示す図である。横軸は時間を示しており、縦軸は振幅を示している。図17(a)はノイズ除去前を示しており、図17(b)はノイズ除去後を示している。図17から分かるように、ノイズが確実に除去されている。 FIG. 17 is a diagram illustrating signal waveforms before and after noise removal. The horizontal axis indicates time, and the vertical axis indicates amplitude. FIG. 17A shows before noise removal, and FIG. 17B shows after noise removal. As can be seen from FIG. 17, noise is reliably removed.
後処理部14においては、歪低減処理も行われる。なお、ノイズの除去は、後処理部14においてのみ行われるわけではない。マイクロフォン22を介して取得された音に対して、前処理部10、処理部12及び後処理部14において行われる一連の処理によって、ノイズの除去が行われる。
The
こうして、後処理部14によって後処理が行われた信号が、自動音声認識装置168に音声出力として出力される。目的音以外の音が抑圧された良好な目的音が自動音声認識装置168に入力されるため、自動音声認識装置168は、音声認識の精度を向上することができる。自動音声認識装置168による音声認識結果に基づいて、車両136に搭載されている機器等に対しての操作が自動で行われる。
In this way, the signal post-processed by the
次に、本実施形態による音声処理装置及びその音声処理装置を用いた制御装置の動作について図18乃至図20を用いて説明する。図18は、本実施形態による音声処理装置の動作を示すフローチャートである。 Next, operations of the voice processing apparatus according to the present embodiment and the control apparatus using the voice processing apparatus will be described with reference to FIGS. FIG. 18 is a flowchart showing the operation of the speech processing apparatus according to this embodiment.
まず、図18に示すように、車両136内に乗員が存在するか否かを判定する(ステップS1)。車両136内に乗員が存在するか否かは、例えば、乗員検出部142からの乗員有無検知信号に基づいて判断し得る。
First, as shown in FIG. 18, it is determined whether or not an occupant is present in the vehicle 136 (step S1). Whether an occupant is present in the
車両136内に乗員が存在する場合には(ステップS1においてYES)、音声処理装置102を第1の動作モードで動作させる。第1の動作モードは、車両136内に乗員が存在していることを前提とした動作モードである。第1の動作モードにおいては、音声源方位判定、ビームフォーミング処理、ノイズ除去処理、音楽除去処理等が行われる。
If an occupant is present in vehicle 136 (YES in step S1),
第1の動作モードにおける音声処理装置の動作を、図19を用いて説明する。図19は、本実施形態による音声処理装置における第1の動作モードでの動作を示すフローチャートである。 The operation of the speech processing apparatus in the first operation mode will be described with reference to FIG. FIG. 19 is a flowchart showing the operation in the first operation mode in the speech processing apparatus according to the present embodiment.
まず、ノイズ除去処理及び音楽除去処理が開始される(ステップS10)。即ち、ノイズ除去処理及び音楽除去処理がオンに設定される。ノイズ除去処理及び音楽除去処理は、この後、継続して行われる。なお、車載音響機器84が音楽を出力していない場合や、音楽の音量が極めて小さい場合等には、音楽除去処理を行わなくてもよい。上述したように、前処理部10、処理部12及び後処理部14において行われる一連の処理によって、ノイズの除去が行われる。また、上述したように、音楽除去処理は、前処理部10に設けられた音楽除去処理部24等によって行われる。
First, noise removal processing and music removal processing are started (step S10). That is, the noise removal process and the music removal process are set on. Thereafter, the noise removal process and the music removal process are continuously performed. Note that the music removal process may not be performed when the in-vehicle
乗員による呼びかけが音声処理装置102に対して行われる前においては(ステップS11においてNO)、ノイズ除去処理、音楽除去処理等は行われるが、音声源方位判定、ビームフォーミング等は行われない。 Before the call by the occupant is made to the voice processing apparatus 102 (NO in step S11), noise removal processing, music removal processing, and the like are performed, but voice source direction determination, beam forming, and the like are not performed.
乗員による呼びかけが音声処理装置102に対して行われると(ステップS11においてYES)、音声源方位判定処理及びビームフォーミング処理がオンに設定され、呼びかけを発した音声源72の方位が判定される(ステップS12)。音声源72の方位の判定は、上述したように、音声源方位判定部16等によって行われる。呼びかけは、例えば、運転者によって行われる。なお、呼びかけは、運転者が行わなくてもよい。例えば、助手席者が呼びかけを行ってもよい。また、呼びかけは、特定の言葉であってもよいし、単なる発声であってもよい。
When the call by the occupant is made to the voice processing device 102 (YES in step S11), the voice source direction determination process and the beam forming process are set to ON, and the direction of the
次に、音声源72の方位に応じて、ビームフォーマの指向性が設定される(ステップS13)。ビームフォーマの指向性の設定は、上述したように、適応アルゴリズム決定部18、処理部12等によって行われる。
Next, the directivity of the beamformer is set according to the direction of the sound source 72 (step S13). The setting of the beamformer directivity is performed by the adaptive
音声源72の方位を含む所定の方位範囲以外の方位範囲から到来する音の大きさが、音声源72から到来する音声の大きさ以上である場合には(ステップS14においてYES)、音声源72の方位の判定を中断する(ステップS15)。
When the magnitude of sound coming from an azimuth range other than the predetermined azimuth range including the azimuth of
一方、音声源72の方位を含む所定の方位範囲以外の方位範囲から到来する音の大きさが、音声源72から到来する音声の大きさ以上でない場合には(ステップS14においてNO)、ステップS12、S13を繰り返し行う。
On the other hand, when the magnitude of sound coming from an azimuth range other than the predetermined azimuth range including the azimuth of
こうして、音声源72の位置の変化に応じて、ビームフォーマが適応的に設定され、目的音以外の音が確実に抑制される。ノイズ除去処理や音楽除去処理等が行われ、且つ、目的音以外の音が抑圧された、良好な目的音が自動音声認識装置168に入力されるため、自動音声認識装置168は音声認識の精度を向上することができる。自動音声認識装置168による音声認識結果に基づいて、車両136に搭載されている機器等に対しての操作、例えば、ドア、ウィンドウ、ワイパー、ウインカー等に対しての操作が自動で行われる。
In this way, the beamformer is adaptively set according to the change in the position of the
一方、車両136内に乗員が存在しない場合には(ステップS1においてNO)、音声処理装置102を第2の動作モードで動作させる。第2の動作モードは、車両136内に乗員が存在しないことを前提とした動作モードである。第2の動作モードにおいては、ノイズ除去処理、音楽除去処理等は行われるが、音声源方位判定やビームフォーミング処理等は行われない。
On the other hand, if no occupant is present in vehicle 136 (NO in step S1),
第2の動作モードにおける音声処理装置の動作を、図20を用いて説明する。図20は、本実施形態による音声処理装置における第2の動作モードでの動作を示すフローチャートである。 The operation of the speech processing apparatus in the second operation mode will be described with reference to FIG. FIG. 20 is a flowchart showing the operation in the second operation mode in the speech processing apparatus according to the present embodiment.
まず、ノイズ除去処理及び音楽除去処理が開始される(ステップS20)。ノイズ除去処理及び音楽除去処理は、この後、継続して行われる。第2の動作モードにおいては、音声源方位判定、ビームフォーミング等は行われない。即ち、第2の動作モードにおいては、音声源方位判定処理やビームフォーミング処理が、オフに設定される。なお、上述したように、車載音響機器84が音楽を出力していない場合や、音楽の音量が極めて小さい場合等には、音楽除去処理を行わなくてもよい。また、上述したように、前処理部10、処理部12及び後処理部14において行われる一連の処理によって、ノイズの除去が行われる。また、上述したように、音楽除去処理は、前処理部10に設けられた音楽除去処理部24等によって行われる。
First, noise removal processing and music removal processing are started (step S20). Thereafter, the noise removal process and the music removal process are continuously performed. In the second operation mode, sound source direction determination, beam forming, and the like are not performed. That is, in the second operation mode, the sound source direction determination process and the beam forming process are set to off. As described above, the music removal process may not be performed when the in-
第2の動作モードにおいては、ノイズ除去処理、音楽除去処理等が行われた良好な音声信号が、音声処理装置102から出力される。第2の動作モードにおいて、音声源方位判定処理やビームフォーミング処理がオフに設定されるのは、以下のような理由によるものである。即ち、車両136外に乗員が存在する場合には、車両136外における乗員の位置を正確且つ確実に特定するのは必ずしも容易ではない。このため、誤った方向にビームフォーミングが行われることも考えられる。誤った方向にビームフォーミングが行われている状態で、乗員から音声が発せられた場合には、当該乗員から発せられた音声が抑圧されてしまい、当該乗員から発せられた音声を取得し得ない虞がある。そこで、本実施形態では、第2の動作モードにおいては、ビームフォーミングを行わないようにしている。ビームフォーミングを行わないため、本実施形態では、ビームフォーミングを行うために必要となる音声源方位判定も行われない。ノイズ除去処理や音楽除去処理等が行われた良好な音声信号が自動音声認識装置168に入力されるため、自動音声認識装置168は高い精度で音声認識を行うことができる。自動音声認識装置168による音声認識結果に基づいて、車両136に搭載されている機器等に対しての操作が自動で行われる。
In the second operation mode, a sound signal that has been subjected to noise removal processing, music removal processing, and the like is output from the
第2の動作モードにおいて、例えば「開け」や「閉まれ」等の所定のワードが自動音声処理装置168によって検出された場合には、車両136の外部に位置する乗員が、開閉体134の開作動や閉作動を欲していると考えられる。また、近接検知部126からの近接検知信号が入力部114に入力されている場合には、所定のワードを発したのは乗員であると考えられる。このため、車両136内に乗員が存在していないことを乗員有無検知信号が示しており、且つ、近接検知部126からの近接検知信号が入力部114に入力されている状態において、「開け」や「閉まれ」等の所定のワードが自動音声処理装置168によって検出された場合には、制御部116は、開閉体134の開作動又は閉作動のための制御を行う。具体的には、制御部116は、出力部120を介して開閉体駆動装置132を制御することにより、開閉体134の開作動又は閉作動を行う。
In the second operation mode, when a predetermined word such as “open” or “closed” is detected by the automatic
第2の動作モードにおいて、例えば「止まれ」という所定のワードが自動音声処理装置168によって検出された場合には、車両136の外部に位置する乗員が、車両136の停止を欲していると考えられる。例えば、坂道に停車させた車両136が動き始めてしまった場合には、車両136の外部に位置している乗員が、車両136の停止を欲する。このため、車両136内に乗員が存在していないことを乗員有無検知信号が示しており、且つ、車両136が移動している状態において、「止まれ」等の所定のワードが検出された場合には、制御部116は、車両136を停止させるための制御を行う。具体的には、制御部116は、出力部120を介してブレーキ制御装置138を制御することにより、ブレーキ140を動作させ、これにより、車両136を停止させる。
In the second operation mode, for example, when a predetermined word “stop” is detected by the automatic
このように、本実施形態によれば、車両136内に乗員が存在しているか否かを示す乗員有無検知信号に基づいて、ビームフォーミングのオン/オフが設定される。このため、車両136の外部に乗員が位置している場合であっても、かかる乗員が発する音声を、車両136内に配されたマイクロフォン22を用いて確実に検出することができる。車両136の外部において発せられる音声を取得するためのマイクロフォンを、車両136内に配されたマイクロフォン22と別個に設けることを要しないため、低コスト化に寄与することができる。従って、本実施形態によれば、低コスト化の要請を満たしつつ、車両の内外において発せられ得る音声に対して音声処理を的確に行い得る音声処理装置及びその音声処理装置を用いた制御装置を提供することができる。
Thus, according to the present embodiment, on / off of beamforming is set based on the passenger presence / absence detection signal indicating whether or not there is an passenger in the
(変形例)
次に、本実施形態の変形例による音声処理装置及びその音声処理装置を用いた制御装置について図18、図19及び図21を用いて説明する。図21は、本変形例による音声処理装置における第2の動作モードでの動作を示すフローチャートである。
(Modification)
Next, a voice processing device according to a modification of the present embodiment and a control device using the voice processing device will be described with reference to FIG. 18, FIG. 19, and FIG. FIG. 21 is a flowchart showing the operation in the second operation mode in the speech processing apparatus according to this modification.
本変形例による音声処理装置は、車両136の外部に位置している乗員が所定のワードを発した後においては、当該乗員に対してビームフォーミングを行うようにするものである。
The voice processing apparatus according to this modification is configured to perform beam forming on an occupant after an occupant located outside the
まず、図18を用いて上述した一実施形態による音声処理装置と同様にして、車両136内に乗員が存在するか否かの判定が行われる(ステップS1)。 First, in the same manner as the sound processing apparatus according to the embodiment described above with reference to FIG. 18, it is determined whether or not there is an occupant in the vehicle 136 (step S1).
車両136内に乗員が存在する場合には(ステップS1においてYES)、音声処理装置102を第1の動作モードで動作させる。第1の動作モードにおける音声処理装置の動作は、図19を用いて上述した一実施形態による音声処理装置の第1の動作モードにおける動作と同様であるため、説明を省略する。
If an occupant is present in vehicle 136 (YES in step S1),
一方、車両136内に乗員が存在しない場合には(ステップS1においてNO)、音声処理装置102を第2の動作モードで動作させる。第2の動作モードは、上述したように、車両136内に乗員が存在しないことを前提とした動作モードである。第2の動作モードにおいては、所定のワードが自動音声認識装置168によって検出される前においては、ノイズ除去処理、音楽除去処理等は行われるが、音声源方位判定、ビームフォーミング等は行われない。即ち、所定のワードが自動音声認識装置168によって検出される前においては、音声源方位判定処理やビームフォーミング処理が、オフに設定される。
On the other hand, if no occupant is present in vehicle 136 (NO in step S1),
第2の動作モードにおける音声処理装置の動作を、図21を用いて説明する。図21は、本変形例による音声処理装置における第2の動作モードでの動作を示すフローチャートである。 The operation of the speech processing apparatus in the second operation mode will be described with reference to FIG. FIG. 21 is a flowchart showing the operation in the second operation mode in the speech processing apparatus according to this modification.
まず、ノイズ除去処理及び音楽除去処理が開始される(ステップS30)。ノイズ除去処理及び音楽除去処理は、この後、継続して行われる。第2の動作モードにおいては、音声源方位判定、ビームフォーミング等は行われない。なお、上述したように、車載音響機器84が音楽を出力していない場合や、音楽の音量が極めて小さい場合等には、音楽除去処理を行わなくてもよい。また、上述したように、前処理部10、処理部12及び後処理部14において行われる一連の処理によって、ノイズの除去が行われる。また、上述したように、音楽除去処理は、前処理部10に設けられた音楽除去処理部24等によって行われる。
First, noise removal processing and music removal processing are started (step S30). Thereafter, the noise removal process and the music removal process are continuously performed. In the second operation mode, sound source direction determination, beam forming, and the like are not performed. As described above, the music removal process may not be performed when the in-
所定のワードが自動音声認識装置168によって検出されると(ステップS31においてYES)、音声源方位判定処理及びビームフォーミング処理がオンに設定され、所定のワードを発した音声源72の方位が判定される(ステップS32)。音声源72の方位の判定は、上述したように、音声源方位判定部16等によって行われる。所定のワードとしては、例えば、驚嘆したときに発せられる音声である「あ」を挙げることができる。かかる所定ワードが発せられた場合には、車両136の外部に位置している乗員が驚いていると考えられる。このため、所定ワードが自動音声認識装置168によって検出された場合には(ステップS31においてYES)、所定ワードを発した当該乗員から発せられる音声をより確実に取得すべく、ステップS32以降の動作が行われる。
When the predetermined word is detected by the automatic speech recognition device 168 (YES in step S31), the voice source direction determination process and the beam forming process are set to ON, and the direction of the
次に、音声源72の方位に応じて、ビームフォーマの指向性を設定する(ステップS33)。ビームフォーマの指向性の設定は、上述したように、適応アルゴリズム決定部18、処理部12等によって行われる。
Next, the directivity of the beamformer is set according to the direction of the sound source 72 (step S33). The setting of the beamformer directivity is performed by the adaptive
音声源72の方位を含む所定の方位範囲以外の方位範囲から到来する音の大きさが、音声源72から到来する音声の大きさ以上である場合には(ステップS34においてYES)、音声源72の方位の判定を中断する(ステップS35)。
When the magnitude of sound coming from an azimuth range other than the predetermined azimuth range including the azimuth of
一方、音声源72の方位を含む所定の方位範囲以外の方位範囲から到来する音の大きさが、音声源72から到来する音声の大きさ以上でない場合には(ステップS34においてNO)、ステップS32、S33を繰り返し行う。
On the other hand, when the magnitude of sound coming from an azimuth range other than the predetermined azimuth range including the azimuth of
このように、本変形例によれば、所定のワードが検出された後においては、音声源方位判定処理やビームフォーミング処理等がオンに設定されるため、目的音以外の音が抑圧されたより良好な音声信号が自動音声認識装置168に入力される。このため、本変形例によれば、音声認識の精度をより向上することができ、車両136に搭載されている機器等に対しての操作をより正確且つ確実に行うことが可能となる。
As described above, according to the present modification, after the predetermined word is detected, the sound source direction determination process, the beam forming process, and the like are set on, so that the sound other than the target sound is suppressed. Voice signal is input to the automatic
[変形実施形態]
上記実施形態に限らず種々の変形が可能である。
[Modified Embodiment]
The present invention is not limited to the above embodiment, and various modifications are possible.
例えば、上記実施形態では、マイクロフォン22の数が3個である場合を例に説明したが、マイクロフォン22の数は3個に限定されるものではなく、4個以上であってもよい。多くのマイクロフォン22を用いれば、音声源72の方位をより高精度に判定し得る。
For example, in the above-described embodiment, the case where the number of the
22,22a〜22c、26a、26b…マイクロフォン
40…運転席
42…ダッシュボード
44…助手席
46…車体、車室
72、72a、72b…音声源
76…スピーカ
78…ステアリングホイール
80…エンジン
82…外部ノイズ源
84…車載音響機器
100…制御装置
102…音声処理装置
134、134a〜134c…開閉体
136…車両
148…通信エリア
22, 22a-22c, 26a, 26b ...
Claims (9)
前記音声源の前記方位を含む方位範囲以外の方位範囲から到来する音を抑圧するビームフォーミングを行うビームフォーミング処理部と、
前記受音信号に混入されたノイズの除去処理を行うノイズ除去処理部とを有し、
前記車両内に乗員が存在しているか否かを示す第1の信号に基づいて、前記ビームフォーミング処理部による前記ビームフォーミングのオン/オフが設定される、音声処理装置。 A sound source direction determination unit that determines a direction of a sound source that is a sound source included in a sound reception signal acquired by each of a plurality of microphones arranged in the vehicle;
A beam forming processing unit that performs beam forming to suppress sound coming from an azimuth range other than the azimuth range including the azimuth of the audio source;
A noise removal processing unit for removing noise mixed in the received sound signal;
An audio processing apparatus in which on / off of the beamforming by the beamforming processing unit is set based on a first signal indicating whether or not an occupant is present in the vehicle.
前記第1の信号にかかわらず、前記音楽除去処理部によって前記音楽信号の除去が行われる、請求項1乃至4のいずれか1項に記載の音声処理装置。 A music removal processing unit that removes the music signal mixed in the received sound signal using a reference music signal obtained from an audio device;
5. The audio processing device according to claim 1, wherein the music signal is removed by the music removal processing unit regardless of the first signal. 6.
前記音声処理部を用いて取得される音声認識結果に基づいた制御を行う制御部とを有し、
前記制御部は、前記車両内に乗員が存在しているか否かを示す第1の信号に基づいて、前記ビームフォーミング処理部による前記ビームフォーミングのオン/オフを設定する
を有する制御装置。 An audio source direction determination unit that determines the direction of a sound source that is a sound source included in a sound reception signal acquired by each of a plurality of microphones arranged in the vehicle, and a direction that includes the direction of the sound source A voice processing unit including a beam forming processing unit that performs beam forming to suppress sound coming from a azimuth range other than the range; and a noise removal processing unit that performs processing to remove noise mixed in the received sound signal;
A control unit that performs control based on a voice recognition result acquired using the voice processing unit,
The said control part sets the on / off of the said beam forming by the said beam forming process part based on the 1st signal which shows whether the passenger | crew exists in the said vehicle.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015045408A JP2016167645A (en) | 2015-03-09 | 2015-03-09 | Voice processing device and control device |
PCT/JP2016/001290 WO2016143340A1 (en) | 2015-03-09 | 2016-03-09 | Speech processing device and control device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015045408A JP2016167645A (en) | 2015-03-09 | 2015-03-09 | Voice processing device and control device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016167645A true JP2016167645A (en) | 2016-09-15 |
Family
ID=56880410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015045408A Pending JP2016167645A (en) | 2015-03-09 | 2015-03-09 | Voice processing device and control device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2016167645A (en) |
WO (1) | WO2016143340A1 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019191554A (en) * | 2018-04-20 | 2019-10-31 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Voice recognition method, apparatus, device and computer readable storage medium |
CN110517687A (en) * | 2018-08-10 | 2019-11-29 | 重庆金康新能源汽车有限公司 | The system for controlling its function using the voice command outside automotive |
JP2021033205A (en) * | 2019-08-29 | 2021-03-01 | 沖電気工業株式会社 | Cardioid wave receiver and filter coefficient calculation method, and filter coefficient calculation program |
JP7060905B1 (en) * | 2020-11-11 | 2022-04-27 | 株式会社オーディオテクニカ | Sound collection system, sound collection method and program |
WO2022102322A1 (en) * | 2020-11-11 | 2022-05-19 | 株式会社オーディオテクニカ | Sound collection system, sound collection method, and program |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200035033A (en) | 2017-08-01 | 2020-04-01 | 하만 베커 오토모티브 시스템즈 게엠베하 | Active road noise control |
WO2021019717A1 (en) * | 2019-07-31 | 2021-02-04 | 三菱電機株式会社 | Information processing device, control method, and control program |
CN112435682B (en) * | 2020-11-10 | 2024-04-16 | 广州小鹏汽车科技有限公司 | Vehicle noise reduction system, method and device, vehicle and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59180600A (en) * | 1983-03-31 | 1984-10-13 | 日本電気ホームエレクトロニクス株式会社 | Voice recognition controller to be carried on vehicle |
JP2008022534A (en) * | 2006-07-10 | 2008-01-31 | Harman Becker Automotive Systems Gmbh | Background noise reduction in hands-free system |
JP2009225379A (en) * | 2008-03-18 | 2009-10-01 | Fujitsu Ltd | Voice processing apparatus, voice processing method, voice processing program |
JP2011035685A (en) * | 2009-08-03 | 2011-02-17 | Clarion Co Ltd | Automatic volume controller |
-
2015
- 2015-03-09 JP JP2015045408A patent/JP2016167645A/en active Pending
-
2016
- 2016-03-09 WO PCT/JP2016/001290 patent/WO2016143340A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59180600A (en) * | 1983-03-31 | 1984-10-13 | 日本電気ホームエレクトロニクス株式会社 | Voice recognition controller to be carried on vehicle |
JP2008022534A (en) * | 2006-07-10 | 2008-01-31 | Harman Becker Automotive Systems Gmbh | Background noise reduction in hands-free system |
JP2009225379A (en) * | 2008-03-18 | 2009-10-01 | Fujitsu Ltd | Voice processing apparatus, voice processing method, voice processing program |
JP2011035685A (en) * | 2009-08-03 | 2011-02-17 | Clarion Co Ltd | Automatic volume controller |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019191554A (en) * | 2018-04-20 | 2019-10-31 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Voice recognition method, apparatus, device and computer readable storage medium |
US11074924B2 (en) | 2018-04-20 | 2021-07-27 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech recognition method, device, apparatus and computer-readable storage medium |
CN110517687A (en) * | 2018-08-10 | 2019-11-29 | 重庆金康新能源汽车有限公司 | The system for controlling its function using the voice command outside automotive |
JP2021033205A (en) * | 2019-08-29 | 2021-03-01 | 沖電気工業株式会社 | Cardioid wave receiver and filter coefficient calculation method, and filter coefficient calculation program |
JP7287189B2 (en) | 2019-08-29 | 2023-06-06 | 沖電気工業株式会社 | Cardioid receiver, filter coefficient calculation method, and filter coefficient calculation program |
JP7060905B1 (en) * | 2020-11-11 | 2022-04-27 | 株式会社オーディオテクニカ | Sound collection system, sound collection method and program |
WO2022102322A1 (en) * | 2020-11-11 | 2022-05-19 | 株式会社オーディオテクニカ | Sound collection system, sound collection method, and program |
Also Published As
Publication number | Publication date |
---|---|
WO2016143340A1 (en) | 2016-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016103709A1 (en) | Voice processing device | |
WO2016143340A1 (en) | Speech processing device and control device | |
WO2016103710A1 (en) | Voice processing device | |
JP4779748B2 (en) | Voice input / output device for vehicle and program for voice input / output device | |
CN110691299B (en) | Audio processing system, method, apparatus, device and storage medium | |
US8165310B2 (en) | Dereverberation and feedback compensation system | |
US9002027B2 (en) | Space-time noise reduction system for use in a vehicle and method of forming same | |
US8112272B2 (en) | Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program | |
EP1908640B1 (en) | Voice control of vehicular elements from outside a vehicular cabin | |
US8204248B2 (en) | Acoustic localization of a speaker | |
JP5913340B2 (en) | Multi-beam acoustic system | |
US20170032806A1 (en) | Active noise cancellation apparatus and method for improving voice recognition performance | |
US20170150256A1 (en) | Audio enhancement | |
US8639499B2 (en) | Formant aided noise cancellation using multiple microphones | |
CN111489750A (en) | Sound processing apparatus and sound processing method | |
JP2007180896A (en) | Voice signal processor and voice signal processing method | |
WO2017056706A1 (en) | Vehicle-mounted acoustic device | |
JP2017069806A (en) | Speaker array device | |
GB2560498A (en) | System and method for noise cancellation | |
US20220189450A1 (en) | Audio processing system and audio processing device | |
JP2009073417A (en) | Apparatus and method for controlling noise | |
JP2020144204A (en) | Signal processor and signal processing method | |
JP2020134566A (en) | Voice processing system, voice processing device and voice processing method | |
JP2000322074A (en) | Voice input section determination device, aural data extraction device, speech recognition device, vehicle navigation device and input microphone | |
US10917717B2 (en) | Multi-channel microphone signal gain equalization based on evaluation of cross talk components |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190219 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190903 |