JP2016126022A - Speech processing unit - Google Patents

Speech processing unit Download PDF

Info

Publication number
JP2016126022A
JP2016126022A JP2014263921A JP2014263921A JP2016126022A JP 2016126022 A JP2016126022 A JP 2016126022A JP 2014263921 A JP2014263921 A JP 2014263921A JP 2014263921 A JP2014263921 A JP 2014263921A JP 2016126022 A JP2016126022 A JP 2016126022A
Authority
JP
Japan
Prior art keywords
sound
source
processing unit
azimuth
seat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014263921A
Other languages
Japanese (ja)
Inventor
サシャ ヴラジック
Vrazic Sacha
サシャ ヴラジック
岡田 広毅
Hiroki Okada
広毅 岡田
Original Assignee
アイシン精機株式会社
Aisin Seiki Co Ltd
トヨタ自動車株式会社
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイシン精機株式会社, Aisin Seiki Co Ltd, トヨタ自動車株式会社, Toyota Motor Corp filed Critical アイシン精機株式会社
Priority to JP2014263921A priority Critical patent/JP2016126022A/en
Publication of JP2016126022A publication Critical patent/JP2016126022A/en
Application status is Pending legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

PROBLEM TO BE SOLVED: To provide a speech processing unit that improves certainty of voice recognition.SOLUTION: A speech processing unit includes: a plurality of microphones 22 disposed in a vehicle; an audio source azimuth determination unit 16 for determining the azimuth of an audio source that is the source of voice included in a sound receiving signal acquired by each of the plurality of microphones; and a processing unit 12 for performing beam forming to suppress sound incoming from an azimuth range except those including the azimuth of the audio source. The processing unit performs beam forming in the azimuth of the audio source designated by a predetermined action.SELECTED DRAWING: Figure 2

Description

本発明は、音声処理装置に関する。 The present invention relates to a speech processing apparatus.

自動車等の車両には、様々な機器が設けられている。 The vehicle such as an automobile, various instrument is provided. これらの様々な機器に対する操作は、例えば、操作ボタンや操作パネル等を操作することにより行われている。 Operations for these various devices, for example, has been performed by operating the operation buttons or operation panel or the like.

一方、近時では、音声認識の技術も提案されている(特許文献1〜3)。 On the other hand, in recent years, it has also been proposed speech recognition technology (Patent Documents 1 to 3).

特開2012−215606号公報 JP 2012-215606 JP 特開2012−189906号公報 JP 2012-189906 JP 特開2012−42465号公報 JP 2012-42465 JP

しかしながら、車両においては、様々なノイズが存在する。 However, in a vehicle, various noise exists. このため、車両内で発せられる音声に対しての音声認識は容易ではなかった。 Therefore, the speech recognition with respect to sound emitted by a vehicle is not easy.

本発明の目的は、音声認識の確実性を向上し得る良好な音声処理装置を提供することにある。 An object of the present invention is to provide a good voice processing apparatus capable of improving the reliability of speech recognition.

本発明の一観点によれば、車両に配された複数のマイクロフォンと、前記複数のマイクロフォンの各々によって取得される受音信号に含まれる音声の発生源である音声源の方位を判定する音声源方位判定部と、前記音声源の前記方位を含む方位範囲以外の方位範囲から到来する音を抑圧するビームフォーミングを行うビームフォーミング処理部とを有し、前記ビームフォーミング処理部は、所定の行為によって指定された前記音声源の前記方位に前記ビームフォーミングを行うことを特徴とする音声処理装置が提供される。 According to one aspect of the present invention, the audio source determines the orientation of the sound source is a source of sound included in the received sound signal obtained a plurality of microphones arranged on a vehicle, by each of the plurality of microphones and azimuth determination unit, and a said beam forming process unit to perform beamforming for suppressing sound coming from the direction range outside azimuth range including the azimuth of the sound source, the beam forming process unit, a predetermined action audio processing apparatus is provided which is characterized in that the beam forming on the orientation of the specified the audio source.

本発明によれば、所定の行為を行うことによって、音声認識の対象とすべき音声源を確実に指定することができる。 According to the present invention, by performing a predetermined act, it is possible to reliably specify the audio source to be subjected to speech recognition. このため、本発明によれば、音声認識の確実性を向上し得る良好な音声処理装置を提供することができる。 Therefore, according to the present invention, it is possible to provide good voice processing apparatus capable of improving the reliability of speech recognition.

車両の構成を示す概略図である。 It is a schematic diagram showing the structure of the vehicle. 本発明の第1実施形態による音声処理装置のシステム構成を示すブロック図である。 Is a block diagram showing the system configuration of a speech processing apparatus according to the first embodiment of the present invention. マイクロフォンの配置の例を示す概略図である。 It is a schematic diagram showing an example of the arrangement of the microphone. ビームフォーマのアルゴリズムを示す図である。 It illustrates an algorithm of beamformer. ビームフォーマの指向性及び音声源方位判定キャンセル処理の角度特性を示す図である。 It is a diagram showing the directivity and angular characteristics of the sound source direction determination process of canceling beamformer. 本発明の第1実施形態による音声処理装置の動作を示すフローチャートである。 According to the first embodiment of the present invention is a flow chart showing the operation of the speech processor. 本発明の第2実施形態による音声処理装置のシステム構成を示すブロック図である。 Is a block diagram showing the system configuration of a speech processing apparatus according to a second embodiment of the present invention. 本発明の第2実施形態による音声処理装置の動作を示すフローチャートである。 Is a flowchart showing the operation of the speech processing apparatus according to a second embodiment of the present invention.

以下、本発明の実施の形態について図面を用いて説明する。 It will be described below with reference to the drawings, embodiments of the present invention. なお、本発明は以下の実施形態に限定されるものではなく、その要旨を逸脱しない範囲において適宜変更可能である。 The present invention is not limited to the following embodiments, and can be appropriately modified without departing from the spirit thereof. また、以下で説明する図面において、同じ機能を有するものは同一の符号を付し、その説明を省略又は簡潔にすることもある。 In the drawings described below, components having the same functions are denoted by the same reference numerals, sometimes not to repeat or to simplify their explanation.

[第1実施形態] First Embodiment
本発明の第1実施形態による音声処理装置を図1乃至図6を用いて説明する。 The speech processing device according to the first embodiment of the present invention will be described with reference to FIGS.

本実施形態による音声処理装置について説明するに先立って、車両の構成について図1を用いて説明する。 Before a description about the speech processing apparatus according to the present embodiment will be described with reference to FIG. 1 the structure of the vehicle. 図1は、車両の構成を示す概略図である。 Figure 1 is a schematic diagram showing the structure of the vehicle.

図1に示すように、車両(自動車)の車体(車室)46の前部には、運転者用の座席である運転席40と助手席者用の座席である助手席44とが配されている。 As shown in FIG. 1, the front portion of the vehicle body (passenger compartment) 46 of a vehicle (automobile), and the passenger's seat 44 is a seat for the driver's seat 40 and the passenger's seat who is a seat for a rider is disposed ing. 運転席40は、例えば車室46の右側に位置している。 The driver's seat 40, for example, positioned on the right side of the vehicle compartment 46. 運転席40の前方には、ステアリングホイール(ハンドル)78が配されている。 In front of the driver's seat 40, steering wheel 78 is disposed. 助手席44は、例えば車室46の左側に位置している。 The passenger seat 44, for example, positioned on the left side of the vehicle compartment 46. 運転席40と助手席44とにより、前部座席が構成されている。 By a driver's seat 40 and the passenger seat 44, the front seat is formed. 運転席40の近傍には、運転者が音声を発する場合における音声源72aが位置する。 In the vicinity of the driver's seat 40, the driver audio source 72a is positioned in a case that emits sound. 助手席44の近傍には、助手席者が音声を発する場合における音声源72bが位置する。 In the vicinity of the passenger seat 44, the passenger seat's voice source 72b is positioned in a case that emits sound. 運転者も助手席者も座席40,44に着座した状態で上半身を動かし得るため、音声源72の位置は変化し得る。 Order to be able to move the upper body in a state where the driver also a passenger seat's were also seated on the seat 40 and 44, the position of the sound source 72 may vary. 車体46の後部には、後部座席70が配されている。 The rear portion of the body 46, the rear seat 70 is disposed. なお、ここでは、個々の音声源を区別しないで説明する場合には、符号72を用い、個々の音声源を区別して説明する場合には、符号72a、72bを用いることとする。 Here, when describing without distinguishing individual sound sources, using a code 72, when describing distinguish individual sound sources, and the use code 72a, a 72b.

前部座席40,44の前方には、複数のマイクロフォン22(22a〜22c)、即ち、マイクロフォンアレイが配されている。 In front of the front seat 40 and 44, a plurality of microphones 22 (22 a to 22 c), i.e., are disposed a microphone array. なお、ここでは、個々のマイクロフォンを区別しないで説明する場合には、符号22を用い、個々のマイクロフォンを区別して説明する場合には、符号22a〜22cを用いることとする。 Here, when describing without distinguishing individual microphone, using a code 22, when describing distinguish individual microphone, and the use of code 22 a to 22 c. マイクロフォン22は、ダッシュボード42に配されていてもよいし、ルーフに近い部位に配されていてもよい。 The microphone 22 may also be arranged on the dashboard 42, it may be disposed in the portion close to the roof.

前部座席40,44の音声源72とマイクロフォン22との間の距離は、数十cm程度である場合が多い。 The distance between the sound source 72 and the microphone 22 of the front seat 40, 44 is practically about several tens of cm. しかし、マイクロフォン22と音声源72との間の距離は、数十cmより小さくなることもあり得る。 However, the distance between the microphone 22 and the audio source 72 may also be smaller than a few tens of cm. また、マイクロフォン22と音声源72との間の距離は、1mを超えることもあり得る。 The distance between the microphone 22 and the audio source 72 may also be greater than 1 m.

車体46の内部には、車載音響機器(カーオーディオ機器)84(図2参照)のスピーカシステムを構成するスピーカ(ラウドスピーカ)76が配されている。 Inside the body 46, a speaker (loudspeaker) 76 constituting the speaker system of the in-vehicle audio device (a car audio equipment) 84 (see FIG. 2) is disposed. スピーカ76から発せられる音楽(ミュージック)は、音声認識を行う上でのノイズとなり得る。 Music emanating from the speaker 76 (music) can be a noise in performing a voice recognition.

車体46には、車両を駆動するためのエンジン80が配されている。 The vehicle body 46, an engine 80 for driving the vehicle is disposed. エンジン80から発せられる音は、音声認識を行う上でのノイズとなり得る。 Sound emitted from the engine 80 can be a noise in performing a voice recognition.

車両の走行中に路面の刺激によって車室46内に発生する騒音、即ち、ロードノイズも、音声認識を行う上でのノイズとなり得る。 Noise generated in the vehicle compartment 46 by stimulation of the road surface during running of the vehicle, i.e., also road noise can be a noise in performing a voice recognition. また、車両が走行する際に生ずる風切り音も、音声認識を行う上でのノイズ源となり得る。 Furthermore, wind noise generated when the vehicle travels may also be a noise source in performing the speech recognition. また、車体46の外部にも、ノイズ源82は存在し得る。 Furthermore, even outside of the vehicle body 46, noise source 82 may be present. 外部ノイズ源82から発せられる音も、音声認識を行う上でのノイズとなり得る。 Sound emitted from external noise source 82 may also be a noise in performing a voice recognition.

車体46に配された様々な機器に対する操作を、ユーザの音声による指示によって行い得ると便利である。 The operation for the various devices disposed on the vehicle body 46, it is convenient to be performed by an instruction by the user's voice. ユーザの音声による指示は、例えば、自動音声認識装置68(図2参照)を用いて認識される。 Instruction by the user's voice, for example, is recognized using an automatic speech recognition device 68 (see FIG. 2). 本実施形態による音声処理装置は、自動音声認識装置68における音声認識の精度の向上に資するものである。 Speech processing apparatus according to the present embodiment is conducive to improve the accuracy of speech recognition in the automatic speech recognition device 68.

図2は、本実施形態による音声処理装置のシステム構成を示すブロック図である。 Figure 2 is a block diagram showing the system configuration of a speech processing apparatus according to the present embodiment.

図2に示すように、本実施形態による音声処理装置は、前処理部10と、処理部12と、後処理部14と、音声源方位判定部16と、適応アルゴリズム決定部18と、ノイズモデル決定部20と、指定入力処理部86とを含む。 As shown in FIG. 2, the audio processing device according to this embodiment includes a preprocessing unit 10, a processing unit 12, a post-processing unit 14, an audio source direction determination unit 16, an adaptive algorithm determining section 18, noise model a determining unit 20, and a designation input processor 86.

本実施形態による音声処理装置が更に自動音声認識装置68を含んでいてもよいし、本実施形態による音声処理装置と自動音声認識装置68とが別個の装置であってもよい。 It may contain an audio processing unit automatic speech recognition system 68 further according to the present embodiment, the audio processing unit and the automatic speech recognition device 68 according to the present embodiment may be a separate device. これらの構成要素と自動音声認識装置68とを含む装置は、音声処理装置と称することもできるし、自動音声認識装置と称することもできる。 Apparatus including these components and the automatic speech recognition device 68 can either be referred to as a speech processing device may also be referred to as automatic speech recognition device.

前処理部10には、複数のマイクロフォン22a〜22cの各々によって取得される信号、即ち、受音信号が入力されるようになっている。 The pre-processing unit 10, signals obtained by each of the plurality of microphones 22 a to 22 c, i.e., so that the received sound signal. マイクロフォン22としては、例えば、無指向性のマイクロフォンが用いられる。 The microphone 22, for example, omnidirectional microphones are used.

図3は、マイクロフォンの配置の例を示す概略図である。 Figure 3 is a schematic diagram showing an example of the arrangement of the microphone. 図3(a)は、マイクロフォン22の数が3個の場合を示している。 3 (a) is the number of microphones 22 shows the case of three. 図3(b)は、マイクロフォン22の数が2個の場合を示している。 FIG. 3 (b) shows the case where the number of microphones 22 is two. 複数のマイクロフォン22は、直線上に位置するように配されている。 A plurality of microphones 22 is arranged so as to be located on a straight line.

音声源72が遠方界に位置する場合には、マイクロフォン22に到達する音声を平面波として取り扱って、音声源72の方位(方向)、即ち、音源方位(DOA:Direction Of Arrival)を判定することができる。 If the audio source 72 is located at the far field, dealing with sound that reaches the microphone 22 as a plane wave, the orientation of the sound source 72 (the direction), i.e., the sound source direction: to be determined (DOA Direction Of Arrival) it can.

音声源72が近傍界に位置する場合には、マイクロフォン22に到達する音声を球面波として扱って、音声源72の方位を判定することが好ましい。 If the audio source 72 is located in the near field is dealing with audio to reach the microphone 22 as a spherical wave, it is preferable to determine the orientation of the sound source 72.

マイクロフォン22aとマイクロフォン22bとの距離L1は、比較的低い周波数の音声に対して好適とすべく、比較的長く設定されている。 Distance L1 between the microphone 22a and the microphone 22b, in order to a suitable relatively low frequency of the sound is set relatively long. マイクロフォン22bとマイクロフォン22cとの距離L2は、比較的高い周波数の音声に対して好適とすべく、比較的短く設定されている。 Distance L2 between the microphone 22b and the microphone 22c, in order to a suitable relatively high frequency of the sound is set relatively short.

図2に示すように、複数のマイクロフォン22によって取得される受音信号が、前処理部10に入力されるようになっている。 As shown in FIG. 2, the received sound signals acquired by the plurality of microphones 22, are inputted to the preprocessing section 10. 前処理部10では、音場補正が行われる。 In the pre-processing unit 10, the sound field correction is performed. 音場補正においては、音響空間である車室46の音響特性を考慮したチューニングが行われる。 In the sound field correction, is tuned considering acoustic characteristics of the passenger compartment 46 is an acoustic space is performed.

マイクロフォン22によって取得される受音信号に音楽が含まれている場合には、前処理部10は、マイクロフォン22によって取得される受音信号から音楽を除去する。 If it contains music received sound signals acquired by the microphone 22, the preprocessing unit 10 removes the music from the sound receiving signal obtained by the microphone 22. 前処理部10には、参照用音楽信号(参照信号)が入力されるようになっている。 The preprocessing section 10, the reference music signal (reference signal) is adapted to be input. 前処理部10は、マイクロフォン22によって取得される受音信号に含まれている音楽を、参照用音楽信号を用いて除去する。 Preprocessing unit 10, the music contained in the received sound signal acquired by the microphone 22, is removed by using the reference music signal.

音声源方位判定部16では、音声源の方位の判定が行われる。 The speech source direction determination unit 16, the determination of the azimuth of the sound source is performed.

音の速度をc[m/s]、マイクロフォン間の距離をd[m]、到来時間差をτ[秒]とすると、音声源72の方向θ[度]は、以下のような式(1)によって表される。 The speed of sound c [m / s], the distance between the microphones d [m], the TDOA and tau [sec], the direction of the sound source 72 theta [degrees], the following formula (1) represented by. なお、音速cは、340[m/s]程度である。 Incidentally, the sound velocity c is about 340 [m / s].

θ = (180/π)×arccos(τ・c/d) ・・・(1) θ = (180 / π) × arccos (τ · c / d) ··· (1)

到来時間差τに基づいて、音声源72の位置を特定することが可能である。 Based on the arrival time difference tau, it is possible to identify the position of the sound source 72.

音声源方位判定部16の出力信号、即ち、音声源72の方位を示す信号が、適応アルゴリズム決定部18に入力されるようになっている。 The output signal of the audio source direction determination unit 16, i.e., a signal indicating the orientation of the sound source 72, are input to the adaptive algorithm determining section 18. 適応アルゴリズム決定部18は、音声源72の方位に基づいて適応アルゴリズムを決定するものである。 Adaptive algorithm determining section 18 is for determining an adaptive algorithm based on the orientation of the sound source 72. 適応アルゴリズム決定部18によって決定された適応アルゴリズムを示す信号が、適応アルゴリズム決定部18から処理部12に入力されるようになっている。 Signal indicating the adaptive algorithm determined by the adaptive algorithm determining section 18, are inputted to the processing unit 12 from the adaptive algorithm determining section 18.

処理部12は、適応的に指向性を形成する信号処理である適応ビームフォーミングを行うものである(適応ビームフォーマ)。 Processing unit 12 performs adaptive beamforming is a signal processing for forming a adaptively directional (adaptive beamformer). 処理部12は、適応的にビームフォーミングを行う適応ビームフォーマとして機能するのみならず、本実施形態による音声処理装置全体の制御をも司る。 Processing unit 12 adaptively not only functions as an adaptive beamformer to perform beamforming, governs also the control of the entire audio processing device according to the present embodiment. ビームフォーマとしては、例えばFrostビームフォーマ等を用いることができる。 The beamformer may be used, for example Frost beamformer like. なお、ビームフォーミングは、Frostビームフォーマに限定されるものではなく、様々なビームフォーマを適宜適用することができる。 The beam forming is not limited to the Frost beamformer can be applied to various beamformer appropriate. 処理部12は、適応アルゴリズム決定部18によって決定された適応アルゴリズムに基づいて、ビームフォーミングを行う。 Processing unit 12, based on the adaptive algorithm determined by the adaptive algorithm determining unit 18 performs the beamforming. 本実施形態において、ビームフォーミングを行うのは、目的音の到来方位に対しての感度を確保しつつ、目的音の到来方向以外の感度を低下させるためである。 In the present embodiment, perform beamforming, while ensuring sensitivity against the arrival direction of the target sound, in order to reduce the sensitivity of the non-arrival direction of the target sound. 目的音は、例えば運転者から発せられる音声である。 Target sound is, for example, a sound emitted from the driver. 運転者は運転席40に着座した状態で上半身を動かし得るため、音声源72aの位置は変化し得る。 Driver to get move the upper body in a state of being seated in the driver's seat 40, the position of the sound source 72a may vary. 音声源72aの位置の変化に応じて、目的音の到来方位は変化する。 In response to a change in position of the sound source 72a, the arrival direction of the target sound is changed. 良好な音声認識を行うためには、目的音の到来方向以外の感度を確実に低下させることが好ましい。 For good speech recognition, it is preferable to reduce reliably the sensitivity of the non-arrival direction of the target sound. そこで、本実施形態では、上記のようにして判定される音声源72の方位に基づいて、当該方位を含む方位範囲以外の方位範囲からの音声を抑圧すべく、ビームフォーマを順次更新する。 Therefore, in the present embodiment, based on the orientation of the sound source 72 is determined as described above, in order to suppress the sound from the azimuth range other than the azimuth range including the azimuth, sequentially updates the beamformer.

音声認識の対象とすべき音声源72aが運転席40に位置している場合には、運転席40の方位を含む方位範囲以外の方位範囲から到来する音が抑圧される。 If the audio source 72a to be subjected to speech recognition it is located in the driver's seat 40, sound arriving from the direction range outside azimuth range including the azimuth of the driver's seat 40 is suppressed.

なお、音声認識の対象とすべき音声源72bが助手席44に位置している場合には、助手席44の方位を含む方位範囲以外の方位範囲から到来する音が抑圧されるようにすればよい。 In the case where the sound source 72b to be subjected to speech recognition it is positioned in the passenger seat 44, if such sounds coming from the azimuth range other than the azimuth range including the azimuth of the front passenger's seat 44 is suppressed good.

図4は、ビームフォーマのアルゴリズムを示す図である。 Figure 4 is a diagram showing an algorithm for beamformer. マイクロフォン22a〜22cによって取得される受音信号が、前処理部10(図2参照)を介して、処理部12内に設けられた窓関数/高速フーリエ変換処理部48a〜48cにそれぞれ入力されるようになっている。 Received sound signal acquired by the microphone 22a~22c is, the preprocessing section 10 through a (see FIG. 2), are input to provided in the processing section 12 a window function / fast Fourier transform unit 48a~48c It has become way. 窓関数/高速フーリエ変換処理部48a〜48cは、窓関数処理及び高速フーリエ変換処理を行うものである。 Window function / fast Fourier transform unit 48a~48c is configured to perform a window function processing and fast Fourier transform. 本実施形態において、窓関数処理及び高速フーリエ変換処理を行うのは、周波数領域での計算は時間領域での計算より速いためである。 In the present embodiment, perform the window function processing and fast Fourier transform is calculated in the frequency domain because faster than calculation in the time domain. 窓関数/高速フーリエ変換処理部48aの出力信号X 1,kとビームフォーマの重みテンソルW 1,k とが、乗算点50aにおいて乗算されるようになっている。 Window function / high-speed output signal X 1 of a Fourier transform processing unit 48a, k and weighting tensor beamformer W 1, k * and is adapted to be multiplied in the multiplication point 50a. 窓関数/高速フーリエ変換処理部48bの出力信号X 2,kとビームフォーマの重みテンソルW 2,k とが、乗算点50bにおいて乗算されるようになっている。 Window function / fast Fourier transform processor output signal X 2 of 48b, k and the weight tensor W 2 beamformer, k * and is adapted to be multiplied in the multiplication point 50b. 窓関数/高速フーリエ変換処理部48bの出力信号X 3,kとビームフォーマの重みテンソルW 3,k とが、乗算点50cにおいて乗算されるようになっている。 Window function / output signals of the fast Fourier transform processing unit 48b X 3, k and the weights of the beamformer tensor W 3, k * and is adapted to be multiplied in the multiplication point 50c. 乗算点50a〜50cにおいてそれぞれ乗算処理された信号が、加算点52において加算されるようになっている。 Signal multiplied respectively processed in the multiplier point 50a~50c is adapted to be summed at summing point 52. 加算点52において加算処理された信号Y は、処理部12内に設けられた逆高速フーリエ変換/重畳加算処理部54に入力されるようになっている。 Signal Y k obtained by adding the processing in the summing point 52, are input to the inverse fast Fourier transform / superposition adding section 54 provided in the processing unit 12. 逆高速フーリエ変換/重畳加算処理部54は、逆高速フーリエ変換処理及び重畳加算(OLA:OverLap-Add)法による処理を行うものである。 The inverse fast Fourier transform / superposition adding section 54, an inverse fast Fourier transform processing and superposition adding (OLA: OverLap-Add) performs processing by method. 重畳加算法による処理を行うことにより、周波数領域の信号が時間領域の信号に戻される。 By performing the processing by the overlap-add method, the frequency-domain signal is returned to the signal in the time domain. 逆高速フーリエ変換処理及び重畳加算法による処理が行われた信号が、逆高速フーリエ変換/重畳加算処理部54から後処理部14に入力されるようになっている。 Signal processing by the inverse fast Fourier transform process and the overlap-add method has been performed, are input from the inverse fast Fourier transform / superposition adding section 54 to the post-processing unit 14.

図5は、ビームフォーマの指向性及び音声源方位判定キャンセル処理の角度特性を示す図である。 Figure 5 is a diagram showing the directivity and angular characteristics of the sound source direction determination process of canceling beamformer. 実線は、ビームフォーマの指向性を示している。 The solid line shows the directivity of the beamformer. 一点鎖線は、音声源方位判定キャンセル処理の角度特性を示している。 Dashed line indicates the angular characteristic of the sound source direction determination cancellation process. 図5から分かるように、例えば方位角β1度と方位角β2とにおいて出力信号パワーが極小となる。 As can be seen from FIG. 5, the output signal power is minimized in the example azimuth β1 degrees and azimuth β2 Prefecture. 方位角β1と方位角β2との間においても、十分に抑圧されている。 Even while the azimuth angle β1 and the azimuth angle .beta.2, are sufficiently suppressed. 図5に示すような指向性のビームフォーマを用いれば、助手席から到来する音を十分に抑圧することができる。 By using a directional beam former, such as shown in FIG. 5, the sound coming from the passenger's seat can be sufficiently suppressed. 一方、運転席から到来する音声は、殆ど抑圧されることなくマイクロフォン22に到達する。 On the other hand, the audio coming from the driver's seat reaches the microphone 22 without being almost suppressed. 本実施形態では、音声源72から到来する音声の大きさよりも、音声源72の方位を含む方位範囲以外の方位範囲から到来する音の方が大きい場合には、音声源72の方位の判定を中断する(音声源方位判定キャンセル処理)。 In the present embodiment, the voice coming from a sound source 72 than the size of the case is larger sound arriving from the direction range outside azimuth range including the azimuth of the sound source 72, the determination of the azimuth of the sound source 72 interrupted (audio source direction determination cancellation actions). 例えば、運転者からの音声を取得するようにビームフォーマが設定されている場合において、運転者からの音声よりも助手席者からの音声の方が大きい場合には、音声源の方位の推定を中断する。 For example, when the beamformer is configured to acquire the voice from the driver, when than sound from the driver is larger voice from the passenger seat have the estimated azimuth of the sound source interrupted. この場合、マイクロフォン22によって取得される受音信号を、十分に抑圧する。 In this case, the received sound signal obtained by the microphone 22, is sufficiently suppressed. 例えばγ1より小さい方位から到来する音声、又は、例えばγ2より大きい方位から到来する音声が、運転者からの音声よりも大きい場合には、音声源方位判定キャンセル処理が行われる。 For example voice coming from γ1 smaller orientation, or, for example, audio arriving from γ2 larger orientation, is larger than the sound from the driver, the voice source direction determination canceling process is executed. なお、ここでは、運転者からの音声を取得するようにビームフォーマが設定されている場合を例に説明したが、助手席者からの音声を取得するようにビームフォーマが設定されていてもよい。 Here, although a case where the beamformer is configured to acquire the voice from the driver has been described as an example, the beamformer may be configured to acquire the voice from the passenger seat's . この場合には、助手席者からの音声よりも運転者からの音声の方が大きい場合には、音声源の方位の推定を中断する。 In this case, in the case than the sound from the front passenger seat's greater in voice from the driver interrupts the estimate of the orientation of the sound source.

こうして、音声源72の方位を含む方位範囲以外の方位範囲から到来する音が抑圧された信号が、処理部12から出力される。 Thus, a signal sound arriving from the direction range outside azimuth range is suppressed, including the orientation of the audio source 72 is outputted from the processing unit 12. 処理部12からの出力信号は、後処理部14に入力されるようになっている。 The output signal from the processing unit 12, are input to the post-processing unit 14.

後処理部(後処理適応フィルタ)14においては、ノイズの除去が行われる。 In the post-processing section (post-processing adaptive filter) 14, noise removal is performed. かかるノイズとしては、エンジンノイズ、ロードノイズ、風切り音等が挙げられる。 Such noise, engine noise, road noise, wind sound, and the like. エンジンノイズモデル決定部20は、ノイズのモデリング処理を行うことにより、参照用ノイズ信号を生成する。 Engine noise model determining section 20, by performing the modeling process noise, and generates a reference noise signal. ノイズモデル決定部20から出力される参照用ノイズ信号は、ノイズが含まれた信号からノイズを除去するための参照信号となる。 Reference noise signal output from the noise model determining section 20, a reference signal for removing noise from the noise included signal. 参照用エンジンノイズ信号は、後処理部14に入力されるようになっている。 Engine noise signal for reference, are input to the post-processing unit 14. 後処理部14は、参照用エンジンノイズ信号を用い、ノイズを含む信号からノイズを除去する。 Post-processing unit 14 uses the reference engine noise signal to remove noise from the signal containing the noise. 後処理部14からは、ノイズが除去された信号が出力される。 From the post-processing unit 14, the signal from which noise has been removed is output. 後処理部14においては、歪低減処理も行われる。 In the post-processing unit 14, the distortion reduction processing is also performed. なお、ノイズの除去は、後処理部14においてのみ行われるわけではない。 Incidentally, removal of noise may not be performed only in the post-processing unit 14. マイクロフォン22を介して取得された音に対して、前処理部10、処理部12及び後処理部14において行われる一連の処理によって、ノイズの除去が行われる。 The acquired sounds via the microphone 22, by a series of processing performed in the preprocessing section 10, the processing unit 12 and the post-processing unit 14, noise removal is performed.

こうして、後処理部14によって後処理が行われた信号が、自動音声認識装置68に出力される。 Thus, the signal post-processing is performed by the post-processing unit 14 is output to the automatic speech recognition device 68. 目的音以外の音が抑圧された良好な目的音が自動音声認識装置68に入力されるため、自動音声認識装置68は、音声認識の精度を向上することができる。 For good target sound sounds other than the target sound has been suppressed is input to an automatic speech recognition device 68, an automatic speech recognition device 68, it is possible to improve the accuracy of speech recognition. 自動音声認識装置68による音声認識結果に基づいて、車両に搭載されている機器等に対しての操作が自動で行われる。 Based on the result of the speech recognition by the automatic speech recognizer 68, the operation with respect to equipment or the like mounted on the vehicle is performed automatically.

自動音声認識装置68による音声認識結果は、指定入力処理部86にも入力されるようになっている。 Speech recognition result by the automatic speech recognition device 68, are inputted to specify the input processor 86. 指定入力処理部86は、所定の行為をユーザ(乗員)が行うことよって、音声認識の対象となる音声源72をユーザが指定するためのものである。 Designated input processing unit 86, it'll be made certain acts user (occupant) is used to specify user voice source 72 to be speech recognition. 所定の行為としては、例えば所定のワードの発声が挙げられる。 The predetermined action, for example, include utterances of a given word. 所定のワードを発したユーザが、音声認識の対象となる音声源72として指定される。 User having issued a predetermined word is designated as a voice source 72 to be speech recognition. 所定の行為を行うことによって指定された音声源72は、指定音声源と称される。 Audio source 72 specified by performing a predetermined action is referred to as the specific sound source.

指定入力処理部68は、自動音声認識装置68による音声認識結果に基づいて、所定のワードが発せられたか否かを判定する。 Designated input processing unit 68, based on the result of the speech recognition by the automatic speech recognition device 68 determines whether a predetermined word is issued. 所定のワードが発せられたか否かを示す信号が、指定入力処理部86から処理部12に入力されるようになっている。 Signal indicating whether a predetermined word is issued is adapted to be input to the processor 12 from the designated input processing unit 86. 処理部12は、所定のワードが発せられた際には、所定のワードを発した音声源72の方位を含む方位範囲以外の方位範囲から到来する音を抑圧するようにビームフォーミングを行う。 Processor 12, when a predetermined word is issued, performs beamforming to suppress the sound coming from the direction range outside azimuth range including the azimuth of the sound source 72 emitted a predetermined word. なお、所定のワードを発した音声源72の方位は、音声源方位判定部16により判定される。 Incidentally, the orientation of the sound source 72 emitted a predetermined word is determined by the sound source direction determination unit 16.

次に、本実施形態による音声処理装置の動作について図6を用いて説明する。 Next, the operation of the speech processing apparatus according to the present embodiment will be explained with reference to FIG. 図6は、本実施形態による音声処理装置の動作を示すフローチャートである。 Figure 6 is a flowchart showing the operation of the speech processing apparatus according to the present embodiment.

まず、音処理装置の電源がONにされる(ステップS1)。 First, the power of the sound processing apparatus is in the ON (step S1).

次に、ユーザが所定のワードを発した場合には(ステップS2においてYES)、所定のワードを発した音声源72を指定音声源として指定する(ステップS3)。 Next, (YES in step S2). If the user issues a predetermined word is designated as the specific sound source a sound source 72 emits a predetermined word (step S3). 所定のワードが発せられない場合には(ステップS2においてNO)、ステップS2が繰り返し行われる。 If the predetermined word is not issued (at step S2 NO), step S2 is repeated. 指定音声源は、音声認識の対象となる音声源72である。 Specific sound source is a sound source 72 to be speech recognition. 所定のワードを発した音声源72の方位が音声源方位判定部16によって判定されるため、どの座席に着座しているユーザから所定のワードが発せられたかを判定することが可能である。 Since the azimuth of the sound source 72 emitted a predetermined word is determined by the sound source direction determination unit 16, it is possible to determine which of the predetermined word from a user sitting on the seat is issued. こうして、所定のワードを発した音声源72が判定され、音声認識の対象となる指定音声源72の指定が行われる。 Thus, the sound source 72 emitted a predetermined word is determined, specification of the specific sound source 72 to be speech recognition is performed.

次に、指定音声源72の方位が判定される(ステップS4)。 Next, the orientation of the specific sound source 72 is determined (step S4). 指定音声源72の方位の判定は、音声源方位判定部16によって行われる。 Determination of the azimuth of the specific sound source 72 is performed by the sound source direction determination unit 16.

次に、指定音声源72の方位に応じて、ビームフォーマの指向性を設定する(ステップS5)。 Then, depending on the orientation of the specific sound source 72, to set the directivity of the beamformer (step S5). ビームフォーマの指向性の設定は、上述したように、適応アルゴリズム決定部18、処理部12等によって行われる。 Directivity setting beamformer, as described above, the adaptive algorithm determining section 18, performed by the processing unit 12 or the like.

指定音声源72の方位を含む所定の方位範囲以外の方位範囲から到来する音の大きさが、指定音声源72から到来する音声の大きさ以上である場合には(ステップS5においてYES)、音声源72の判定を中断する(ステップS7)。 When the magnitude of the sound coming from the direction range other than the predetermined azimuth range including the azimuth of the specific sound source 72 is equal to or greater than the size of the sound coming from the specific sound source 72 (YES in step S5), the speech It interrupts the determination of source 72 (step S7).

一方、音声源72の方位を含む所定の方位範囲以外の方位範囲から到来する音の大きさが、音声源72から到来する音声の大きさ以上でない場合には(ステップS6においてNO)、ステップS4、S5が繰り返し行われる。 On the other hand, when the size of the sound coming from the direction range other than the predetermined azimuth range including the azimuth of the sound source 72, not more than the size of the sound coming from the sound source 72 (NO in step S6), and step S4 , S5 is repeatedly performed.

こうして、指定音声源72の位置の変化に応じて、ビームフォーマが適応的に設定され、指定音声源72からの音声以外の音、即ち、目的音以外の音が確実に抑制される。 Thus, in response to a change in position of the specific sound source 72, the beam former is adaptively set, sounds other than voice from the specific sound source 72, i.e., sound other than the target sound is surely suppressed.

このように、本実施形態によれば、所定のワードを発することにより、音声認識の対象とすべき音声源72を確実に指定することができる。 Thus, according to the present embodiment, by emitting a predetermined word, it is possible to reliably specify the sound source 72 to be subjected to speech recognition. このため、本実施形態によれば、音声認識の確実性を向上し得る良好な音声処理装置を提供することができる。 Therefore, according to this embodiment, it is possible to provide good voice processing apparatus capable of improving the reliability of speech recognition.

[第2実施形態] Second Embodiment
本発明の第2実施形態による音声処理装置を図7及び図8を用いて説明する。 The speech processing apparatus according to the second embodiment of the present invention will be described with reference to FIGS. 図7は、本実施形態による音声処理装置のシステム構成を示すブロック図である。 Figure 7 is a block diagram showing the system configuration of a speech processing apparatus according to the present embodiment. 図1乃至図6に示す第1実施形態による音声処理装置と同一の構成要素には、同一の符号を付して説明を省略または簡潔にする。 The same components as those of the voice processing apparatus according to the first embodiment shown in FIGS. 1 to 6, not to repeat or to simplify their explanation are denoted by the same reference numerals.

本実施形態による音声認識装置は、音声認識の対象となる音声源72をユーザが指定するための所定の行為が、スイッチ90,92の操作又はジェスチャーであるものである。 Speech recognition apparatus according to this embodiment, the predetermined action for the user specifies the audio source 72 as the object of speech recognition, but is an operation or a gesture of the switch 90, 92.

図7に示すように、本実施形態による音声処理装置は、前処理部10と、処理部12と、後処理部14と、音声源方位判定部16と、適応アルゴリズム決定部18と、エンジンノイズモデル決定部20とを含む。 As shown in FIG. 7, the audio processing device according to this embodiment includes a preprocessing unit 10, a processing unit 12, a post-processing unit 14, an audio source direction determination unit 16, an adaptive algorithm determining section 18, the engine noise and a model determining section 20. また、本実施形態による音声処理装置は、学習処理部88と、運転席側スイッチ90と、助手席側スイッチ92と、カメラ94と、スイッチ用指定入力処理部96と、画像用指定入力処理部98とを更に含む。 The sound processing apparatus according to this embodiment, the learning processing unit 88, a driver's seat switch 90, a passenger-seat switch 92, a camera 94, a switch for specifying the input processing unit 96, an image for the specified input processing unit further comprising a 98.

運転席40の近傍には、運転席側スイッチ90が配されている。 In the vicinity of the driver's seat 40, the driver-seat switch 90 is disposed. また、助手席44の近傍には、助手席側スイッチ92が配されている。 In the vicinity of the passenger seat 44, the passenger-seat switch 92 is disposed. 運転席側スイッチ90及び助手席側スイッチ92は、スイッチ用指定入力処理部96に接続されている。 Driver's seat switch 90 and the passenger-seat switch 92 is connected to a switch for specifying the input processing unit 96.

スイッチ用指定入力処理部96は、スイッチ90,92の操作をユーザが行うことよって、音声認識の対象となる音声源72をユーザが指定するためのものである。 Switch designated input processing unit 96, it'll be done by the user operation of the switch 90, 92 is for designating the user an audio source 72 to be speech recognition. 運転席側に配された運転席側スイッチ90が操作された場合には、運転席に位置する音声源72aが音声認識の対象である指定音声源として指定される。 When placed in the driver's seat side driver seat switch 90 is operated, the sound source 72a located in the driver's seat is designated as the specific sound source which is object of speech recognition. 一方、助手席側に配された助手席側スイッチ92が操作された場合には、助手席に位置する音声源72bが音声認識の対象である指定音声源として指定される。 On the other hand, when the passenger-seat switch 92 arranged on the passenger seat side is operated, the sound source 72b that is located on the passenger seat is designated as the specific sound source which is object of speech recognition.

運転席側スイッチ90が操作された場合には、運転席側スイッチ90が操作されたことを示す信号が、スイッチ用指定入力処理部96から処理部12に入力されるようになっている。 When the driver's seat switch 90 is operated, a signal indicating that the driver-seat switch 90 has been operated, are inputted from the switch for the specified input processing unit 96 to the processing unit 12. 処理部12は、運転席側スイッチ90が操作された際には、運転席40に位置する音声源72aの方位を含む方位範囲以外の方位範囲から到来する音を抑圧するようにビームフォーミングを行う。 Processing unit 12, when the driver-seat switch 90 is operated, performs beamforming to suppress the sound coming from the direction range outside azimuth range including the azimuth of the sound source 72a located in the driver's seat 40 .

助手席側スイッチ92が操作された場合には、助手席側スイッチ92が操作されたことを示す信号が、スイッチ用指定入力処理部96から処理部12に入力されるようになっている。 When the passenger-seat switch 92 is operated, a signal indicating that the passenger-seat switch 92 has been operated, are inputted from the switch for the specified input processing unit 96 to the processing unit 12. 処理部12は、助手席側スイッチ92が操作された際には、助手席44に位置する音声源72bの方位を含む方位範囲以外の方位範囲から到来する音を抑圧するようにビームフォーミングを行う。 Processor 12, when the passenger-seat switch 92 is operated, performs beamforming to suppress the sound coming from the direction range outside azimuth range including the azimuth of the sound source 72b located in the front passenger seat 44 .

また、車両46には、カメラ94が配されている。 In addition, the vehicle 46, the camera 94 is arranged. カメラ94により取得される画像が、画像用指定入力処理部98に入力されるようになっている。 Image acquired by the camera 94, are inputted to the image for the specified input processing unit 98. 画像用指定入力処理部98は、所定の行為をユーザ(乗員)が行うことよって、音声認識の対象となる音声源72をユーザが指定するためのものである。 Image for the specified input processing unit 98, I'll be made certain acts user (occupant) is used to specify user voice source 72 to be speech recognition. 所定の行為としては、例えば所定のジェスチャー(身振り、ポーズ)が挙げられる。 The predetermined action, for example, a predetermined gesture (gesture, pause) can be mentioned. 所定のジェスチャーを行ったユーザが、音声認識の対象となる音声源(指定音声源)72として指定される。 User performing a predetermined gesture, voice source to be speech recognition (specific sound source) is designated as 72.

画像用指定入力処理部98は、カメラ94により取得される画像に基づいて、所定のジェスチャーが行われたか否かを判定する。 Image for the specified input processing unit 98, based on the image acquired by the camera 94, determines whether the predetermined gesture is performed. 所定のジェスチャーが行われたか否かを示す信号が、画像用指定入力処理部98から処理部12に入力されるようになっている。 Signal indicating whether or not performed the predetermined gesture, are inputted to the processing unit 12 from the image specified input processing unit 98. 処理部12は、運転者により所定のジェスチャーが行われた際には、運転席40に位置する音声源72aの方位を含む方位範囲以外の方位範囲から到来する音を抑圧するようにビームフォーミングを行う。 Processor 12, when a predetermined gesture is performed by the driver, the beamforming to suppress the sound coming from the direction range outside azimuth range including the azimuth of the sound source 72a located in the driver's seat 40 do. 処理部12は、助手席者により所定のジェスチャーが行われた際には、助手席44に位置する音声源72bの方位を含む方位範囲以外の方位範囲から到来する音を抑圧するようにビームフォーミングを行う。 Processor 12, when a predetermined gesture is performed by the passenger's seat shall beamforming to suppress the sound coming from the direction range outside azimuth range including the azimuth of the sound source 72b located in the front passenger seat 44 I do.

処理部12には、学習処理部88が接続されている。 The processing unit 12, the learning processing unit 88 are connected. 学習処理部88は、各々の音声源72a、72bに適したビームフォーミングを、音声源72a、72b毎に学習するものである。 Learning processing unit 88, each of the audio sources 72a, beamforming suitable 72b, is to learn voice source 72a, each 72b. 本実施形態において、学習処理部88を設けているのは以下のような理由によるものである。 In the present embodiment, is due to the following reasons the is provided a learning process unit 88. 即ち、本実施形態では、音声認識の対象となる音声源72をユーザが指定するための所定の行為は、スイッチ90,92の操作又はジェスチャーである。 That is, in this embodiment, the predetermined action for specifying the user voice source 72 to be speech recognition is an operation or a gesture of the switch 90, 92. 即ち、本実施形態では、音声認識の対象となる音声源72が音声以外の手段によって指定される。 That is, in this embodiment, the sound source 72 to be voice recognition is specified by means other than voice. このため、音声認識の対象となる音声源72が指定される際には、指定音声源72からの音声がマイクロフォン22を介して得られるとは限らない。 Therefore, when the sound source 72 to be speech recognition is specified, the sound from the given sound source 72 is not necessarily obtained via the microphone 22. 音声認識の対象となる音声源72が指定された後に、指定音声源72からの音声を確実に処理するためには、指定音声源72に適したビームフォーミングを予め学習しておき、指定音声源72に適したビームフォーミングを適用することが好ましい。 After audio source 72 as the object of speech recognition is specified, in order to reliably handle the voice from the specific sound source 72, previously learned advance, specifying voice source beamforming suitable for the specific sound source 72 it is preferable to apply beamforming suitable for 72. このため、本実施形態では、学習処理部88が設けられている。 Therefore, in the present embodiment, the learning processing unit 88 is provided. 学習処理部88は、音声源72aから音声が発せられた際に、音声源72aからの音声を取得するのに適したビームフォーミングを学習しておく。 Learning processing unit 88, when the voice emitted from the voice source 72a, previously learned beamforming suitable for obtaining the audio from the audio source 72a. また、学習処理部88は、音声源72bから音声が発せられた際に、音声源72bからの音声を取得するのに適したビームフォーミングを学習しておく。 Also, the learning processing unit 88, when the voice emitted from the voice source 72b, previously learned beamforming suitable for obtaining a sound from the sound source 72b.

運転席40に位置する音声源72aが指定音声源として指定された場合には、運転席40に位置する音声源72aに適したビームフォーミングとして学習されたビームフォーミングが適用される。 If the audio source 72a located in the driver's seat 40 is designated as a specific sound source, it learned beamforming is applied as beamforming suitable audio source 72a located in the driver's seat 40. 一方、助手席40に位置する音声源72bが指定音声源として指定された場合には、助手席44に位置する音声源72bに適したビームフォーミングとして学習されたビームフォーミングが適用される。 On the other hand, if the sound source 72b that is located on the passenger's seat 40 is designated as a specific sound source, it learned beamforming is applied as beamforming suitable sound source 72b that is located on the passenger's seat 44.

後処理部14によって後処理が行われた信号が、音声出力として出力される。 Signal post-processing is performed by the post-processing unit 14 is outputted as an audio output.

次に、本実施形態による音声処理装置の動作について図8を用いて説明する。 Next, the operation of the speech processing apparatus according to the present embodiment will be explained with reference to FIG. 図8は、本実施形態による音声処理装置の動作を示すフローチャートである。 Figure 8 is a flowchart showing the operation of the speech processing apparatus according to the present embodiment.

まず、音処理装置の電源がONにされる(ステップS10)。 First, the power of the sound processing apparatus is in the ON (step S10).

次に、ビームフォーミングの学習が行われる(ステップS11)。 Then, the beamforming training is performed (step S11). 運転席40に位置する音声源72aから音声が発された際には、運転席40に位置する音声源72aに適したビームフォーミングが学習処理部88によって学習される。 When sound is emitted from the sound source 72a located in the driver's seat 40, beamforming suitable audio source 72a located in the driver's seat 40 it is learned by the learning processing unit 88. 助手席44に位置する音声源72bから音声が発された際には、助手席44に位置する音声源72bに適したビームフォーミングが学習処理部88によって学習される。 When sound is emitted from the sound source 72b that is located on the passenger seat 44, beamforming suitable sound source 72b that is located on the passenger seat 44 is learned by the learning processing unit 88.

運転席側スイッチ90が操作された場合、具体的には、運転席側スイッチ90がONになった場合には(ステップS12においてYES)、運転席40に位置する音声源72aに適したビームフォーミングとして学習処理部88によって学習されたビームフォーミングが適用される(ステップS13)。 If the driver-seat switch 90 has been operated, specifically, (YES in step S12) if the driver-seat switch 90 is turned ON, the beamforming suitable audio source 72a located in the driver's seat 40 beamforming learned by the learning processing unit 88 is applied as (step S13).

運転席側スイッチ90が操作されていない場合には(ステップS12においてNO)、助手席側スイッチ92が操作されたか否かが確認される(ステップS14)。 If the driver-seat switch 90 is not operated (NO in step S12), whether the passenger seat switch 92 is operated it is checked (step S14). 助手席側スイッチが操作された場合、具体的には、助手席側スイッチ92がONになった場合には(ステップS14においてYES)、助手席44に位置する音声源72bに適したビームフォーミングとして学習処理部88によって学習されたビームフォーミングが適用される(ステップS15)。 If the passenger side switch is operated, specifically, when the passenger-seat switch 92 is turned ON (YES at step S14), and a beam forming suitable sound source 72b located in the front passenger seat 44 beamforming learned by the learning processing unit 88 is applied (step S15).

助手席側スイッチ92が操作されていない場合には(ステップS14においてNO)、運転者によって所定のジェスチャーが行われたか否かが確認される(ステップS16)。 If the passenger-seat switch 92 is not operated (NO at step S14), and whether or not a predetermined gesture is performed by the driver is confirmed (step S16). 運転者によって所定のジェスチャーが行われた場合には(ステップS16においてYES)、運転席40に位置する音声源72aに適したビームフォーミングとして学習処理部88によって学習されたビームフォーミングが適用される(ステップS17)。 If the predetermined gesture is performed by the driver (YES in step S16), and beamforming learned by the learning processing unit 88 is applied as beamforming suitable audio source 72a located in the driver's seat 40 ( step S17).

運転者によって所定のジェスチャーが行われていない場合には(ステップS16においてNO)、助手席者によって所定のジェスチャーが行われたか否かが確認される(ステップS18)。 If not performed predetermined gesture by the driver (NO in step S16), and whether or not a predetermined gesture is performed by the passenger seat's is confirmed (step S18). 助手席者によって所定のジェスチャーが行われた場合には(ステップS18においてYES)、助手席44に位置する音声源72bに適したビームフォーミングとして学習処理部88によって学習されたビームフォーミングが適用される(ステップS19)。 (YES in step S18), and the beamforming learned by the learning processing unit 88 as a beam forming suitable sound source 72b that is located on the passenger seat 44 is applied when a predetermined gesture is performed by the passenger's seat who (step S19).

次に、指定音声源72から音声が発せられた際には、指定音声源72の方位が判定される(ステップS21)。 Then, when the voice from the specific sound source 72 is issued, the orientation of the specific sound source 72 is determined (step S21). 指定音声源72の方位は、上述したように、音声源方位判定部16によって行われる。 Orientation of the specific sound source 72, as described above, performed by the sound source direction determination unit 16.

次に、指定音声源72の方位に応じて、ビームフォーマの指向性が設定される(ステップS22)。 Then, depending on the orientation of the specific sound source 72, the directivity of the beamformer is set (step S22). ビームフォーマの指向性の設定は、上述したように、適応アルゴリズム決定部18、処理部12等によって行われる。 Directivity setting beamformer, as described above, the adaptive algorithm determining section 18, performed by the processing unit 12 or the like.

指定音声源72の方位を含む所定の方位範囲以外の方位範囲から到来する音の大きさが、指定音声源72から到来する音声の大きさ以上である場合には(ステップS23においてYES)、音声源72の判定を中断する(ステップ24)。 When the magnitude of the sound coming from the direction range other than the predetermined azimuth range including the azimuth of the specific sound source 72 is equal to or greater than the size of the sound coming from the specific sound source 72 (YES at step S23), the voice It interrupts the determination of source 72 (step 24).

一方、音声源72の方位を含む所定の方位範囲以外の方位範囲から到来する音の大きさが、音声源72から到来する音声の大きさ以上でない場合には(ステップS23においてNO)、ステップS21、S22が繰り返し行われる。 On the other hand, when the size of the sound coming from the direction range other than the predetermined azimuth range including the azimuth of the sound source 72, not more than the size of the sound coming from the sound source 72 (NO in step S23), step S21 , S22 is repeated.

こうして、指定音声源72の位置の変化に応じて、ビームフォーマが適応的に設定され、指定音声源72からの音声以外の音、即ち、目的音以外の音が確実に抑制される。 Thus, in response to a change in position of the specific sound source 72, the beam former is adaptively set, sounds other than voice from the specific sound source 72, i.e., sound other than the target sound is surely suppressed.

このように、音声認識の対象となる音声源72をユーザが指定するための所定の行為は、スイッチ90,92の操作又はジェスチャー等であってもよい。 Thus, the predetermined action for the audio source 72 user specifies to be speech recognition may be an operation or a gesture such as switches 90, 92.

[変形実施形態] [Modified Embodiments]
上記実施形態に限らず種々の変形が可能である。 Various modifications not limited to the above-described embodiments are possible.

例えば、上記実施形態では、マイクロフォン22の数が3個である場合を例に説明したが、マイクロフォン22の数は3個に限定されるものではなく、4個以上であってもよい。 For example, in the above-described embodiments, when the number of microphones 22 is three as an example, the number of microphones 22 is not limited to three, but may be four or more. 多くのマイクロフォン22を用いれば、音声源72の方位をより高精度に判定し得る。 With the number of microphones 22 may determine the orientation of the sound source 72 with higher accuracy.

また、上記実施形態では、音声源72が運転席40又は助手席44に位置する場合を例に説明したが、音声源72の位置は、運転席40又は助手席44に限定されるものではない。 In the above embodiment, although the sound source 72 has been described as an example when located in the driver's seat 40 or front passenger seat 44, the position of the sound source 72 is not limited to the driver's seat 40 or front passenger seat 44 . 例えば、後部座席70に音声源72が位置する場合にも、本発明は適用可能である。 For example, even if the audio source 72 is positioned in the rear seat 70, the present invention is applicable.

また、第1実施形態において、学習処理部88を更に設けるようにしてもよい。 In the first embodiment, it may be further provided with a learning processing unit 88.

また、上記実施形態では、本実施形態による音声処理装置の出力が自動音声認識装置68に入力される場合、即ち、本実施形態による音声処理装置の出力が音声認識に用いられる場合を例に説明したが、これに限定されるものではない。 In the above embodiment, if the output of the audio processing apparatus according to this embodiment is input to the automatic speech recognition device 68, i.e., the case where the output of the audio processing apparatus according to the present embodiment is used in the speech recognition Example Description but was, but it is not limited to this. 本実施形態による音声処理装置の出力が、自動音声認識に用いられなくてもよい。 The output of the audio processing device according to the present embodiment, may not be used in automatic speech recognition. 例えば、本実施形態による音声処理装置を、電話での会話における音声処理に適用してもよい。 For example, an audio processing device according to the present embodiment may be applied to audio processing in a telephone conversation. 具体的には、本実施形態による音声処理装置を用いて目的音以外の音を抑圧し、良好な音声を送信するようにしてもよい。 Specifically, suppressing the sounds other than the target sound by using the speech processing apparatus according to this embodiment, it may be transmitted good voice. 本実施形態による音声処理装置を電話での会話に適用すれば、良好な音声での通話を実現することができる。 By applying the voice processing device according to the present embodiment in a telephone conversation, it is possible to realize a call in good voice.

また、第2実施形態では、カメラ94により取得される画像に基づいて、所定のジェスチャーが行われたか否かを判定したが、これに限定されるものではない。 In the second embodiment, on the basis of the image acquired by the camera 94, it has been determined whether or not a predetermined gesture is performed, but is not limited thereto. 例えば、モーションセンサ等を用いて、所定のジェスチャーが行われたか否かを判定するようにしてもよい。 For example, by using a motion sensor or the like, it may be determined whether or not a predetermined gesture is performed.

また、上記実施形態では、複数のマイクロフォン22を直線状に配置する場合を例に説明したが、3個以上のマイクロフォン22の配置はこれに限定されるものではない。 In the above embodiment, a case has been described to place the plurality of microphones 22 in a straight line in the example, the arrangement of three or more microphones 22 are not limited thereto. 例えば、複数のマイクロフォン22が同一平面上に位置するように配置してもよいし、複数のマイクロフォン22を3次元配置してもよい。 For example, a plurality of microphones 22 may be arranged so as to be located on the same plane, may be arranged a plurality of microphones 22 3D.

22,22a〜22c…マイクロフォン40…運転席42…ダッシュボード44…助手席46…車体72、72a、72b…音声源76…スピーカ78…ステアリングホイール80…エンジン82…外部ノイズ源84…車載音響機器 22,22A~22c ... microphone 40 ... driver's seat 42 ... dashboard 44 ... passenger seat 46 ... vehicle body 72, 72a, 72b ... sound source 76 ... speaker 78 ... steering wheel 80 ... engine 82 ... external noise sources 84 ... vehicle audio apparatus

Claims (5)

  1. 車両に配された複数のマイクロフォンと、 A plurality of microphones arranged on the vehicle,
    前記複数のマイクロフォンの各々によって取得される受音信号に含まれる音の発生源である音声源の方位を判定する音声源方位判定部と、 And sound source direction determination unit determines the orientation of the sound source is a source of sound included in the received sound signals acquired by each of the plurality of microphones,
    前記音声源の前記方位を含む方位範囲以外の方位範囲から到来する音を抑圧するビームフォーミングを行うビームフォーミング処理部とを有し、 And a beam forming process unit to perform beamforming for suppressing sound coming from the direction range outside azimuth range including the azimuth of the sound source,
    前記ビームフォーミング処理部は、所定の行為によって指定された前記音声源の前記方位に前記ビームフォーミングを行う ことを特徴とする音声処理装置。 The beam forming process unit, the audio processing unit and performs the beam forming on the orientation of the specified the audio source by a predetermined action.
  2. 前記所定の行為は、所定のワードの発声である ことを特徴とする請求項1記載の音声処理装置。 Wherein the predetermined action, audio processing apparatus according to claim 1, characterized in that the utterance of a given word.
  3. 前記所定の行為は、所定のスイッチの操作である ことを特徴とする請求項1記載の音声処理装置。 Wherein the predetermined action, audio processing apparatus according to claim 1, characterized in that an operation of a predetermined switch.
  4. 前記所定の行為は、所定のジェスチャーである ことを特徴とする請求項1記載の音声処理装置。 Wherein the predetermined action, audio processing apparatus according to claim 1, characterized in that the predetermined gesture.
  5. 各々の前記音声源に適した前記ビームフォーミングを前記音声源毎に学習する学習処理部を更に有し、 Further comprising a learning section for learning the beamforming suitable for each said voice source for each of the audio source,
    前記所定の行為によって前記音声源が指定された際に、前記学習処理部によって学習された前記ビームフォーミングが適用される ことを特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。 When the audio source by the predetermined action is specified, the sound processing according to any one of claims 1 to 4, characterized in that the said beam forming learned by the learning processing unit is applied apparatus.
JP2014263921A 2014-12-26 2014-12-26 Speech processing unit Pending JP2016126022A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014263921A JP2016126022A (en) 2014-12-26 2014-12-26 Speech processing unit

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014263921A JP2016126022A (en) 2014-12-26 2014-12-26 Speech processing unit
PCT/JP2015/006448 WO2016103710A1 (en) 2014-12-26 2015-12-24 Voice processing device

Publications (1)

Publication Number Publication Date
JP2016126022A true JP2016126022A (en) 2016-07-11

Family

ID=56149768

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014263921A Pending JP2016126022A (en) 2014-12-26 2014-12-26 Speech processing unit

Country Status (2)

Country Link
JP (1) JP2016126022A (en)
WO (1) WO2016103710A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017221791A1 (en) 2016-06-24 2017-12-28 ミツミ電機株式会社 Lens drive device, camera module, and camera mounting device

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100800A (en) * 1999-09-27 2001-04-13 Toshiba Corp Method and device for noise component suppression processing method
JP2001296891A (en) * 2000-04-14 2001-10-26 Mitsubishi Electric Corp Method and device for voice recognition
JP2004109361A (en) * 2002-09-17 2004-04-08 Toshiba Corp Device, method, and program for setting directivity
JP2006119520A (en) * 2004-10-25 2006-05-11 Honda Motor Co Ltd Voice recognition device and vehicle having it
WO2007018293A1 (en) * 2005-08-11 2007-02-15 Asahi Kasei Kabushiki Kaisha Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program
JP2012523731A (en) * 2009-04-09 2012-10-04 エヌティーエヌユー テクノロジー トランスファー エーエスNtnu Technology Transfer As Optimal modal beamformer to the sensor array
JP2013162325A (en) * 2012-02-03 2013-08-19 Sony Corp Signal processing apparatus, signal processing method, program, signal processing system, and communication terminal
JP2014153663A (en) * 2013-02-13 2014-08-25 Sony Corp Voice recognition device, voice recognition method and program
JP2014203031A (en) * 2013-04-09 2014-10-27 小島プレス工業株式会社 Speech recognition control device

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100800A (en) * 1999-09-27 2001-04-13 Toshiba Corp Method and device for noise component suppression processing method
JP2001296891A (en) * 2000-04-14 2001-10-26 Mitsubishi Electric Corp Method and device for voice recognition
JP2004109361A (en) * 2002-09-17 2004-04-08 Toshiba Corp Device, method, and program for setting directivity
JP2006119520A (en) * 2004-10-25 2006-05-11 Honda Motor Co Ltd Voice recognition device and vehicle having it
WO2007018293A1 (en) * 2005-08-11 2007-02-15 Asahi Kasei Kabushiki Kaisha Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program
JP2012523731A (en) * 2009-04-09 2012-10-04 エヌティーエヌユー テクノロジー トランスファー エーエスNtnu Technology Transfer As Optimal modal beamformer to the sensor array
JP2013162325A (en) * 2012-02-03 2013-08-19 Sony Corp Signal processing apparatus, signal processing method, program, signal processing system, and communication terminal
JP2014153663A (en) * 2013-02-13 2014-08-25 Sony Corp Voice recognition device, voice recognition method and program
JP2014203031A (en) * 2013-04-09 2014-10-27 小島プレス工業株式会社 Speech recognition control device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017221791A1 (en) 2016-06-24 2017-12-28 ミツミ電機株式会社 Lens drive device, camera module, and camera mounting device

Also Published As

Publication number Publication date
WO2016103710A1 (en) 2016-06-30

Similar Documents

Publication Publication Date Title
Saruwatari et al. Blind source separation combining independent component analysis and beamforming
JP5222897B2 (en) System for active noise control using adaptive speaker selection
US7803050B2 (en) Tracking device with sound emitter for use in obtaining information for controlling game program execution
US6668062B1 (en) FFT-based technique for adaptive directionality of dual microphones
US7099821B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
US7783061B2 (en) Methods and apparatus for the targeted sound detection
US7295972B2 (en) Method and apparatus for blind source separation using two sensors
CN101877808B (en) Quiet zone control system
KR100499124B1 (en) Orthogonal circular microphone array system and method for detecting 3 dimensional direction of sound source using thereof
US20060053002A1 (en) System and method for speech processing using independent component analysis under stability restraints
Nakadai et al. Design and Implementation of Robot Audition System'HARK'—Open Source Software for Listening to Three Simultaneous Speakers
JP5410603B2 (en) System for phase-based processing of the multi-channel signal, the method, apparatus, and computer-readable media
KR101339592B1 (en) Sound source separator device, sound source separator method, and computer readable recording medium having recorded program
Kumatani et al. Microphone array processing for distant speech recognition: From close-talking microphones to far-field sensors
US8112272B2 (en) Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program
JP4333369B2 (en) Noise removal device, and a voice recognition device, as well as a car navigation system
JP4896449B2 (en) Acoustic signal processing method, apparatus and program
JP4283212B2 (en) Noise removal device, the noise elimination program, and a noise removing method
KR101239604B1 (en) Multi-channel adaptive speech signal processing with noise reduction
US7995773B2 (en) Methods for processing audio input received at an input device
WO2011055410A1 (en) Voice recognition device
EP2222091B1 (en) Method for determining a set of filter coefficients for an acoustic echo compensation means
JP4455614B2 (en) Acoustic signal processing method and apparatus
US9338549B2 (en) Acoustic localization of a speaker
US9293151B2 (en) Speech signal enhancement using visual information

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170508

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171026