JP2020134566A - Voice processing system, voice processing device and voice processing method - Google Patents
Voice processing system, voice processing device and voice processing method Download PDFInfo
- Publication number
- JP2020134566A JP2020134566A JP2019023942A JP2019023942A JP2020134566A JP 2020134566 A JP2020134566 A JP 2020134566A JP 2019023942 A JP2019023942 A JP 2019023942A JP 2019023942 A JP2019023942 A JP 2019023942A JP 2020134566 A JP2020134566 A JP 2020134566A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- voice
- adaptive filter
- voice processing
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Description
本開示は、音声処理システム、音声処理装置及び音声処理方法に関する。 The present disclosure relates to a voice processing system, a voice processing device, and a voice processing method.
車載用の音声認識装置やハンズフリー電話に用いて好適な、エコーキャンセラが知られている(特許文献1参照)。このエコーキャンセラは、音源数に応じて、エコーキャンセル処理において動作する適応フィルタの数やタップ数を切り替える。 An echo canceller suitable for use in an in-vehicle voice recognition device or a hands-free telephone is known (see Patent Document 1). This echo canceller switches the number of adaptive filters and the number of taps that operate in the echo canceling process according to the number of sound sources.
また、信号に混在する雑音、妨害信号、エコーなどを消去する信号処理装置が知られている(特許文献2参照)。この信号処理装置は、複数の音源が存在する環境において、各音源の音声信号の大きさに応じて、対応する適応フィルタの更新量を調整する。 Further, a signal processing device that eliminates noise, interfering signals, echoes, etc. mixed in a signal is known (see Patent Document 2). This signal processing device adjusts the update amount of the corresponding adaptive filter according to the magnitude of the audio signal of each sound source in an environment where a plurality of sound sources exist.
しかし、特許文献1のエコーキャンセラは、複数の音源の位置が既知であるので、適応フィルタの数やタップ数を調整可能であるが、車室内では発生するノイズ源である話者の位置が変化するので、対応することが困難である。また、特許文献2の信号処理装置は、ノイズ源である音源数が変化した場合、適応フィルタが収束するまである程度時間が必要であり、その間の音質が劣化し得る。 However, in the echo canceller of Patent Document 1, since the positions of a plurality of sound sources are known, the number of adaptive filters and the number of taps can be adjusted, but the position of the speaker, which is a noise source generated in the vehicle interior, changes. Therefore, it is difficult to deal with it. Further, in the signal processing apparatus of Patent Document 2, when the number of sound sources which are noise sources changes, it takes some time for the adaptive filter to converge, and the sound quality during that time may deteriorate.
本開示は、上記事情に鑑みてなされたものであり、ノイズ源の数や位置が変化した場合でも、取得対象の音声信号の雑音成分の抑圧精度を向上できる音声処理システム、音声処理装置及び音声処理方法を提供する。 The present disclosure has been made in view of the above circumstances, and is a voice processing system, a voice processing device, and a voice capable of improving the suppression accuracy of the noise component of the voice signal to be acquired even when the number or position of the noise source changes. Provides a processing method.
本開示の一態様は、第1の音声成分及び第1の音声成分以外の音声成分を含む音声信号を取得する第1の音声取得部と、第2の音声成分及び第2の音声成分以外の音声成分を含む複数の参照信号を取得する複数の第2の音声取得部と、前記複数の参照信号のうち2つ以上の参照信号を通過させ、第1の通過信号を生成する第1の適応フィルタと、前記複数の参照信号のうち異なる単一の参照信号を通過させ、複数の第2の通過信号を生成する複数の第2の適応フィルタと、前記音声信号と前記第1の通過信号と前記複数の第2の通過信号とに基づいて、前記第1の適応フィルタ及び前記複数の第2の適応フィルタのうち制御対象の適応フィルタを決定し、前記制御対象の適応フィルタのフィルタ係数を制御する制御部と、を備える音声処理システムである。 One aspect of the present disclosure is a first audio acquisition unit that acquires an audio signal including an audio component other than the first audio component and the first audio component, and a second audio component other than the second audio component and the second audio component. A first adaptation in which a plurality of second audio acquisition units that acquire a plurality of reference signals including audio components and two or more reference signals among the plurality of reference signals are passed to generate a first pass signal. A filter, a plurality of second adaptive filters that pass a different single reference signal among the plurality of reference signals to generate a plurality of second pass signals, and the audio signal and the first pass signal. The adaptive filter to be controlled is determined from the first adaptive filter and the plurality of second adaptive filters based on the plurality of second passing signals, and the filter coefficient of the adaptive filter to be controlled is controlled. It is a voice processing system including a control unit for the operation.
本開示の一態様は、第1の音声成分及び第1の音声成分以外の音声成分を含む音声信号を取得する制御部と、第2の音声成分及び第2の音声成分以外の音声成分を含む複数の参照信号を取得する複数の適応フィルタと、を備え、前記複数の適応フィルタは、前記複数の参照信号のうち2つ以上の参照信号を通過させ、第1の通過信号を生成する第1の適応フィルタと、前記複数の参照信号のうち異なる単一の参照信号を通過させ、複数の第2の通過信号を生成する複数の第2の適応フィルタと、を含み、前記制御部は、前記音声信号と前記第1の通過信号と前記複数の第2の通過信号とに基づいて、前記第1の適応フィルタ及び前記複数の第2の適応フィルタのうち制御対象の適応フィルタを決定し、前記制御対象の適応フィルタのフィルタ係数を制御する、音声処理装置である。 One aspect of the present disclosure includes a control unit that acquires a voice signal including a first voice component and a voice component other than the first voice component, and a second voice component and a voice component other than the second voice component. A first that includes a plurality of adaptive filters that acquire a plurality of reference signals, and the plurality of adaptive filters pass two or more reference signals among the plurality of reference signals to generate a first pass signal. The control unit includes the adaptive filter of the above and a plurality of second adaptive filters that pass a different single reference signal among the plurality of reference signals to generate a plurality of second pass signals. Based on the voice signal, the first passing signal, and the plurality of second passing signals, the adaptive filter to be controlled is determined from the first adaptive filter and the plurality of second adaptive filters, and the adaptive filter to be controlled is determined. It is a voice processing device that controls the filter coefficient of the adaptive filter to be controlled.
本開示の一態様は、第1の音声成分及び第1の音声成分以外の音声成分を含む音声信号を取得し、第2の音声成分及び第2の音声成分以外の音声成分を含む複数の参照信号を取得し、前記複数の参照信号のうち2つ以上の参照信号が第1の適応フィルタを通過した第1の通過信号を生成し、前記複数の参照信号のうち異なる単一の参照信号が通過する複数の第2の適応フィルタを通過した複数の第2の通過信号を生成し、前記音声信号と前記第1の通過信号と前記複数の第2の通過信号とに基づいて、前記第1の適応フィルタ及び前記複数の第2の適応フィルタのうち制御対象の適応フィルタを決定し、前記制御対象の適応フィルタのフィルタ係数を制御する、音声処理方法である。 One aspect of the present disclosure is a plurality of references that acquire an audio signal including a first audio component and an audio component other than the first audio component, and include a second audio component and an audio component other than the second audio component. A signal is acquired, two or more of the plurality of reference signals generate a first pass signal that has passed through the first adaptive filter, and a different single reference signal among the plurality of reference signals A plurality of second pass signals that have passed through a plurality of second adaptive filters that pass are generated, and the first pass signal is based on the audio signal, the first pass signal, and the plurality of second pass signals. This is an audio processing method for determining an adaptive filter to be controlled from among the adaptive filter of the above and the plurality of second adaptive filters, and controlling the filter coefficient of the adaptive filter to be controlled.
本開示によれば、ノイズ源の数や位置が変化した場合でも、取得対象の音声信号の雑音成分の抑圧精度を向上できる。 According to the present disclosure, it is possible to improve the suppression accuracy of the noise component of the audio signal to be acquired even when the number or position of the noise source changes.
以下、適宜図面を参照しながら、本開示に係る音声処理システム、音声処理装置及び音声処理方法を具体的に開示した実施形態である音声処理システムを詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。 Hereinafter, a voice processing system according to an embodiment in which the voice processing system, the voice processing device, and the voice processing method according to the present disclosure are specifically disclosed will be described in detail with reference to the drawings as appropriate. However, more detailed explanation than necessary may be omitted. For example, detailed explanations of already well-known matters and duplicate explanations for substantially the same configuration may be omitted. This is to avoid unnecessary redundancy of the following description and to facilitate the understanding of those skilled in the art. It should be noted that the accompanying drawings and the following description are provided for those skilled in the art to fully understand the present disclosure, and are not intended to limit the subject matter described in the claims.
(第1の実施形態)
図1は、第1の実施形態における音声処理システム5の概略構成の一例を示す図である。音声処理システム5は、車両10に搭載される。車両10の車室内には、例えば、運転席、助手席、および左右の後部座席が設けられる。音声処理システム5は、複数のマイクMC1〜MC4、及び音声処理装置20を含む構成である。音声処理装置20の出力は、音声認識エンジン40に入力される。音声認識エンジン40による音声認識結果は、例えば、カーナビゲーション装置50に入力され、カーナビゲーション装置50の操作信号に利用され得る。なお、座席数、マイク数は、これに限られない。
(First Embodiment)
FIG. 1 is a diagram showing an example of a schematic configuration of the
運転席の前(例えばダッシュボードの右側前面)には、運転者hm1が発話する音声を収音するマイクMC1が配置されてよい。助手席の前(例えばダッシュボードの左側前面)には、乗員hm2が発話する音声を収音するマイクMC2が配置されてよい。助手席の背もたれ部には、左側の後部座席に座る乗員hm3が発話する音声を収音するマイクMC3が配置されてよい。運転席の背もたれ部には、右側の後部座席に座る乗員hm4が発話する音声を収音するマイクMC4が配置されてよい。なお、各マイクMC1〜MC4の配置位置は、これに限られない。 In front of the driver's seat (for example, the front right side of the dashboard), a microphone MC1 that picks up the voice spoken by the driver hm1 may be arranged. In front of the passenger seat (for example, the front left side of the dashboard), a microphone MC2 that collects the voice spoken by the occupant hm2 may be arranged. A microphone MC3 that picks up the sound spoken by the occupant hm3 sitting in the left rear seat may be arranged in the backrest portion of the passenger seat. A microphone MC4 that picks up the sound spoken by the occupant hm4 sitting in the right rear seat may be arranged on the backrest of the driver's seat. The arrangement positions of the microphones MC1 to MC4 are not limited to this.
マイクMC1〜MC4は、指向性マイク、無指向性マイクのいずれでもよい。マイクMC1〜MC4は、小型のMEMS(micro electro mechanical systems)マイクが用いられてもよいし、エレクトレットコンデンサーマイクロホン(ECM:Electret Condenser Microphone)が用いられてもよい。マイクMC1〜MC4は、ビームフォーミング可能なマイク、例えば各座席の方向に指向性を形成して指向方向の音声を収音可能なマイクアレイでもよい。 The microphones MC1 to MC4 may be either a directional microphone or an omnidirectional microphone. As the microphones MC1 to MC4, a small MEMS (micro electro mechanical systems) microphone may be used, or an electret condenser microphone (ECM: Electret Condenser Microphone) may be used. The microphones MC1 to MC4 may be microphones capable of beamforming, for example, a microphone array capable of forming directivity in the direction of each seat and collecting sound in the directivity direction.
車両10のダッシュボードには、カーナビゲーション装置50が配置されてよい。音声処理装置20及び音声認識エンジン40は、ダッシュボードの内部、座席の内部に収容されて配置されてよい。音声処理装置20は、マイク毎に対応して、座席毎に対応して設けられてよい。例えば、音声処理装置20は、マイクMC1,MC2,MC3,MC4にそれぞれ対応する音声処理装置21,22,23,24でよい。
A
なお、図1では、音声処理装置21,22,23,24がそれぞれ別体で構成されることを例示しているが、1つの音声処理装置20で構成されてもよい。つまり、音声処理装置20は、1つの音声処理部で構成されて複数設けられてもよいし、複数の音声処理部で構成されて1つ設けられてもよいし、複数の音声処理部で構成されて複数設けられてもよい。よって、音声処理システム5は、1つの音声処理装置20を備えてもよいし、複数の音声処理装置20を備えてもよい。各音声処理装置20(21,22,23,24)は、異なるハードウェアで構成されてもよいし、1つの共通のハードウェアで構成されてもよい。
Although it is illustrated in FIG. 1 that the
各音声処理装置20は、例えば車室内のいずれかの座席内に配置されてよい。各音声処理装置20は、各マイクに対応する各座席内に配置されてよい。各音声処理装置20は、ダッシュボード内等に配置されてもよい。
Each
音声認識エンジン40は、少なくとも1つの音声処理装置20からの出力信号に含まれる音声を認識し、音声認識結果を出力する。音声認識エンジン40は、音声認識結果や音声認識結果に基づく信号(例えばカーナビゲーション装置50の操作信号)を生成する。音声認識エンジン40は、音声処理装置20と別体の装置であってもよいし、音声処理装置20に組み込まれた一体型の装置であってもよい。
The
カーナビゲーション装置50は、音声処理システム5の出力先の一例である。カーナビゲーション装置50は、音声認識エンジン40から出力される操作信号を入力し、操作信号に対応する動作を行う。例えば、カーナビゲーション装置50は、ディスプレイに地図データを表示し、車両の進路を誘導するナビゲーションを行う。
The
なお、音声処理システム5の出力先としては、カーナビゲーション装置50に限らず、パネルメータ、テレビ、携帯電話等の電子機器であってもよい。
The output destination of the
また、図1では、車両に4人が乗車している場合を示したが、乗車する人数は、この人数に限られない。乗車人数は、車両の最大乗車定員を上限とし、この範囲内で4人、6人、9人等の人数であってもよい。 Further, although FIG. 1 shows a case where four people are in the vehicle, the number of people in the vehicle is not limited to this number. The maximum number of passengers is limited to the maximum number of passengers in the vehicle, and the number of passengers may be 4, 6, 9, or the like within this range.
図2は、音声処理装置20としての音声処理装置21のハードウェア構成を示すブロック図である。音声処理装置21,22,23,24は、いずれも同一の構成および機能を有する。ここでは、音声処理装置21を主に用いて説明する。音声処理装置21は、運転席に座る運転者hm1が発話する音声をターゲット(取得目的の音声信号)とし、マイクMC1で収音される音声の音声信号からクロストーク成分を抑圧した音声信号を出力信号として出力する。
FIG. 2 is a block diagram showing a hardware configuration of the
音声処理装置21は、マイクMC1で収音された音声の音声信号を入力する音声入力部29と、複数(例えば4つ)の適応フィルタF2,F3,F4,F5と、加算器27と、適応フィルタ制御部28と、を含む構成を有する。
The
音声入力部29は、運転者hm1の前に配置されたマイクMC1で収音される音声の音声信号を入力する。この音声信号は、運転者hm1の音声(ターゲット成分の音声)と運転者hm1以外の乗員の音声を含むノイズ(クロストーク成分の音)とを含む信号である。
The
適応フィルタF2は、複数(例えば3つ)の適応フィルタF2A,F2B,F2Cを含む。適応フィルタF2A,F2B,F2Cは、マイクMC1で収音される音声に含まれる、運転者hm1の音声以外のクロストーク成分を抑圧するために、マイクMC2,マイクMC3,マイクMC4で収音される音声の音声信号を、参照信号としてそれぞれ入力し、適応フィルタF2A,F2B,F2Cを通過した通過信号を抽出する。適応フィルタF2は、適応フィルタF2A,F2B,F2Cで抽出された通過信号を足し合わせて出力する。適応フィルタF2A,F2B,F2Cは、物理的に分離されていてよい。 The adaptive filter F2 includes a plurality of (for example, three) adaptive filters F2A, F2B, and F2C. The adaptive filters F2A, F2B, and F2C are picked up by the microphone MC2, the microphone MC3, and the microphone MC4 in order to suppress the crosstalk component other than the sound of the driver hm1 contained in the sound picked up by the microphone MC1. The audio signal of the audio is input as a reference signal, and the passing signal that has passed through the adaptive filters F2A, F2B, and F2C is extracted. The adaptive filter F2 adds and outputs the passing signals extracted by the adaptive filters F2A, F2B, and F2C. The adaptive filters F2A, F2B, F2C may be physically separated.
適応フィルタF3は、マイクMC1で収音される音声の音声信号に含まれる、運転者hm1の音声成分以外のクロストーク成分を抑圧するために、マイクMC2で収音される音声の音声信号を参照信号として入力し、適応フィルタF3を通過した通過信号を出力する。 The adaptive filter F3 refers to the voice signal of the voice picked up by the microphone MC2 in order to suppress the crosstalk component other than the voice component of the driver hm1 included in the voice signal of the voice picked up by the microphone MC1. It is input as a signal, and a passing signal that has passed through the adaptive filter F3 is output.
適応フィルタF4は、マイクMC1で収音される音声の音声信号に含まれる、運転者hm1の音声成分以外のクロストーク成分を抑圧するために、マイクMC3で収音される音声の音声信号を参照信号として入力し、適応フィルタF4を通過した通過信号を出力する。 The adaptive filter F4 refers to the voice signal of the voice picked up by the microphone MC3 in order to suppress the crosstalk component other than the voice component of the driver hm1 included in the voice signal of the voice picked up by the microphone MC1. It is input as a signal, and a passing signal that has passed through the adaptive filter F4 is output.
適応フィルタF5は、マイクMC1で収音される音声の音声信号に含まれる、運転者hm1の音声成分以外のクロストーク成分を抑圧するために、マイクMC4で収音される音声の音声信号を参照信号として入力し、適応フィルタF5を通過した通過信号を出力する。 The adaptive filter F5 refers to the voice signal of the voice picked up by the microphone MC4 in order to suppress the crosstalk component other than the voice component of the driver hm1 included in the voice signal of the voice picked up by the microphone MC1. It is input as a signal, and a passing signal that has passed through the adaptive filter F5 is output.
ここで、適応フィルタの動作の概略を説明する。適応フィルタは、誤差信号の自乗平均で定義されるコスト関数を最小にするフィルタである。ここでは、適応フィルタとして、FIR( Finite impulse response)フィルタが用いることを例示するが、他の適応フィルタでもよい。 Here, the outline of the operation of the adaptive filter will be described. The adaptive filter is a filter that minimizes the cost function defined by the root mean square of the error signal. Here, it is illustrated that an FIR (Finite impulse response) filter is used as the adaptive filter, but other adaptive filters may be used.
適応フィルタを用いると、音声処理装置21の出力信号、つまり減算信号e(n)は、例えば式(1)で表される。式(1)で表現される各遅延ブロックをタップと称する。FIRフィルタは、タップの重み及びタップの段数(タップ長)を変えることで、様々なフィルタ特性に適応する。タップの重み及びタップの段数(タップ長)は、フィルタ係数の一例である。
When the adaptive filter is used, the output signal of the
また、LMS(Least Mean Square)のアルゴリズムにおけるフィルタ係数の更新は、式(2)で表される。
なお、フィルタ係数の更新時のアルゴリズムとして、LMSを用いることを例示したが、これに限らず、他のアルゴリズム(例えばICA(Independent Component Analysis)、NLMS(Normalized Least Mean Square))を用いてもよい。 Although it has been illustrated that LMS is used as an algorithm for updating the filter coefficient, the present invention is not limited to this, and other algorithms (for example, ICA (Independent Component Analysis) and NLMS (Normalized Least Mean Square)) may be used. ..
加算器27は、音声入力部29から出力されるターゲットの音声信号から、適応フィルタF2から出力される通過信号を減算し(減算的に加算し)、この減算信号を誤差信号として出力する。加算器27は、音声入力部29から出力されるターゲットの音声信号から、適応フィルタF3から出力される通過信号を減算し、この減算信号を誤差信号として出力する。加算器27は、音声入力部29から出力されるターゲットの音声信号から、適応フィルタF4から出力される通過信号を減算し、この減算信号を誤差信号として出力する。加算器27は、音声入力部29から出力されるターゲットの音声信号から、適応フィルタF5から出力される通過信号を減算し、この減算信号を誤差信号として出力する。
The
適応フィルタ制御部28は、加算器27から出力される複数(例えば4つ)の減算信号(誤差信号)のうち、信号レベルが最小の誤差信号を選択し、その誤差信号を出力信号として出力する。適応フィルタ制御部28の出力信号は、音声認識エンジン40に入力される。なお、音声認識エンジン40は、適応フィルタ制御部28の出力先の一例である。適応フィルタ制御部28の出力先は、音声を発するスピーカ等であってもよい。このとき、適応フィルタ制御部28は、無線通信網などを介して、携帯端末へ出力信号を出力するとしてもよい。携帯端末へ出力された出力信号は、携帯端末の有するスピーカ等から音声として出力されてもよい。
The adaptive
適応フィルタ制御部28は、複数(例えば4つ)の適応フィルタF2〜F5の中から、誤差信号の信号レベルが最小である誤差信号に対応する通過信号に対応する適応フィルタを選択し、誤差信号が値0に近づくように、選択された適応フィルタのフィルタ係数を更新する。なお、適応フィルタ制御部28が適応フィルタF2〜F5のいずれかのフィルタ係数を更新する場合、適応フィルタF2に含まれる3つの適応フィルタF2A,F2B,F2Cのうち該当する適応フィルタのフィルタ係数を併せて更新してもよい。例えば、適応フィルタ制御部28は、適応フィルタF4を更新する場合、同じ参照信号Cが入力される適応フィルタF2Bを更新してもよい。
The adaptive
なお、適応フィルタ制御部28が、誤差信号の信号レベルが最小である誤差信号に対応する参照信号に対応する適応フィルタを選択することを例示したが、信号レベルが最小であること以外の基準を基に、適応フィルタを選択してもよい。例えば、適応フィルタ制御部28が、誤差信号の信号レベルが閾値th1以下であるいずれかの適応フィルタを選択してもよい。
Although the adaptive
適応フィルタ制御部28は、例えば、プロセッサ(不図示)がメモリ(不図示)に保持されたプログラムを実行することで、適応フィルタ制御部28の各種機能を実現する。
The adaptive
図2では、音声信号Aは、運転席のマイクMC1で収音された音声(ターゲット成分を主に含む)の信号である。参照信号Bは、助手席のマイクMC2で収音され、適応フィルタF2,F3に入力される音声(非ターゲット成分及びノイズを含む音)の信号である。参照信号Cは、左後部座席のマイクMC3で収音され、適応フィルタF2,F4に入力される音声の信号である。参照信号Dは、助手席のマイクMC4で収音され、適応フィルタF2,F5に入力される音声の信号である。 In FIG. 2, the voice signal A is a signal of voice (mainly including a target component) picked up by the microphone MC1 in the driver's seat. The reference signal B is a signal of voice (sound including non-target components and noise) collected by the microphone MC2 in the passenger seat and input to the adaptive filters F2 and F3. The reference signal C is an audio signal that is picked up by the microphone MC3 in the left rear seat and input to the adaptive filters F2 and F4. The reference signal D is an audio signal that is picked up by the microphone MC4 in the passenger seat and input to the adaptive filters F2 and F5.
通過信号B’,C’,D’は、各マイクMC2,MC3,MC4で収音された音声の参照信号B,C,Dをそれぞれ適応フィルタF2A,F2B,F2Cを通過させた信号である。マイクMC1で収音される音声のうち、ターゲット成分以外のクロストーク成分は、ノイズに相当する。 The passing signals B', C', and D'are signals obtained by passing the reference signals B, C, and D of the voice picked up by the microphones MC2, MC3, and MC4 through the adaptive filters F2A, F2B, and F2C, respectively. Of the sound picked up by the microphone MC1, the crosstalk components other than the target component correspond to noise.
例えば、音声処理装置21では、ターゲット席(ここでは、運転席)からの音声信号Aが無く、他の助手席、後部座席から発話による参照信号B〜Dがある場合、マイクMC1で収音される音声の音声信号には、クロストーク成分(漏れ込み成分)が含まれる。音声処理装置21は、誤差信号を最小化するように適応フィルタを更新してよい。この場合、運転席で発話がないので、理想的な誤差信号は、無音信号となる。また、運転席で発話による音声信号があった場合、基本的に、音声信号Aに含まれる発話は、参照信号B〜Dに含まれる漏れ込み音よりも時間的に早いため、音声処理装置21は、適応フィルタにより音声信号Aに含まれる発話をキャンセルすることができない(因果律)。したがって、音声処理装置21は、ターゲットの音声信号が含まれても含まれなくても、誤差信号を最小化するように適応フィルタを更新することで、音声信号Aにおけるクロストーク成分を最大限に低減できる。
For example, in the
加算器27は、音声信号Aから適応フィルタF2の通過信号E’を差し引いた減算信号を出力する。通過信号E’は、各適応フィルタF2A,F2B,F2Cの通過信号を足し合わせた信号B’+C’+D’である。また、加算器27は、音声信号Aから適応フィルタF3の通過信号B’を差し引いた減算信号を出力する。また、加算器27は、音声信号Aから適応フィルタF4の通過信号C’を差し引いた減算信号を出力する。また、加算器27は、音声信号Aから適応フィルタF5の通過信号D’を差し引いた減算信号を出力する。
The
図3は、音声処理装置21の動作手順を示すフローチャートである。音声処理装置21の音声入力部29は、運転席に配置されたマイクMC1で収音された音声信号A(ターゲット成分としての運転者hm1の音声と、クロストーク成分を含む信号)を入力する(S1)。音声信号Aは、ターゲット成分としての運転者hm1の音声成分、クロストーク成分としての乗員hm2〜hm4の音声成分を含み得る。音声処理装置21は、マイクMC2,MC3,MC4でそれぞれ収音された参照信号B,C,Dを取得する(S2)。例えば、参照信号B,C,Dは、ターゲット成分以外の主成分としての乗員hm2の音声成分、主成分以外の運転者hm1、乗員hm3,hm4の音声成分、を含み得る。
FIG. 3 is a flowchart showing the operation procedure of the
音声処理装置21は、参照信号B,C,Dを用いて、適応フィルタを通過させた通過信号を生成する(S3)。適応フィルタF2は、参照信号Bを適応フィルタF2Aに通過させ、参照信号Cを適応フィルタF2Bに通過させ、参照信号Dを適応フィルタF2Cに通過させ、各通過後の信号を足し合わせて通過信号E’を生成する。適応フィルタF3は、参照信号Bを通過させて通過信号B’を生成する。適応フィルタF4は、参照信号Cを通過させて通過信号C’を生成する。適応フィルタF5は、参照信号Dを通過させて通過信号D’を生成する。
The
加算器27は、音声信号Aから各通過信号E’,B’,C’,D’を減算し、各減算信号A−E’,A−B’,A−C’,A−D’を生成する(S4)。適応フィルタ制御部28は、減算信号A−E’,A−B’,A−C’,A−D’に基づいて、出力信号を選択する。例えば、適応フィルタ制御部28は、減算信号A−E’,A−B’,A−C’,A−D’のうち、ターゲット成分の割合が最大となる、つまり信号レベルが最小となる減算信号(誤差信号)を出力信号として選択する(S5)。
The
適応フィルタ制御部28は、この出力信号に対応する適応フィルタのフィルタ係数を更新する(S6)。その後、適応フィルタ制御部28から出力される出力信号は、更新されたフィルタ係数が反映されたものとなる。
The adaptive
適応フィルタ制御部28は、出力信号を音声認識エンジン40に出力する(S7)。
The adaptive
音声認識エンジン40は、出力信号に含まれる音声を認識し、その認識結果に基づく音声指示を出力先の一例であるカーナビゲーション装置50に送信する。カーナビゲーション装置50は、受信した音声指示に従い、例えば行き先、地図、ナビルート等の操作を実行する。なお、ここでは、出力信号は、音声認識エンジン40に出力されたが、その他の装置(例えばスピーカ)に出力されてもよい。スピーカは、出力信号に対応する音声を発音する。この後、音声処理装置21は、S1の処理に戻る。なお、適応フィルタ制御部28からの出力信号は、有線接続するその他の装置へ出力されてもよいし、また無線接続するその他の装置へ出力されるとしてもよい。
The
このように、第1の実施形態における音声処理システム5では、車室内に複数のマイクや複数のノイズ源である、周囲の雑音、動作音、スピーカ、話者(発話する乗員)等が存在する場合、ノイズ源の数に対応する数の異なる適応フィルタが用いられる。また、音声処理システム5では、適応フィルタ制御部28は、ノイズ源が1つか複数かに応じて、更新する適応フィルタを切り替える。また、車室内で発生するノイズ源の数や位置が変化する場合、適応フィルタ制御部28は、ノイズ源の位置に対応した適応フィルタを特定し、特定された適応フィルタのフィルタ係数を更新する。適応フィルタ制御部28は、誤差信号の信号レベルに応じて、適応フィルタの更新量及びタップ長を更新する際、更新する適応フィルタ自体を切り替える。これにより、ノイズ源の数や位置が変化した場合でも、各ノイズ源に対応するマイク信号(例えば音声信号A)のS/N比が改善する。
As described above, in the
なお、車室内に設置されるマイクがマイクアレイである場合、ノイズ抑圧処理の前段階で、マイクアレイがノイズ源に向けて指向性を形成してその音声を収音する(ビームフォーミングを行う)ことで、各マイクに入力される音声信号のS/N比を改善してもよい。これにより、音声処理システム5は、後段のノイズ抑圧処理を高めることができる。つまり、マイクは、ノイズ源で発生するノイズ音を参照信号として効率良く収音でき、適応フィルタ制御部は、誤差信号が最小となるように適応フィルタを更新できる。適応フィルタは、対象の音声信号からノイズ音を良く打ち消す、抑圧処理を効果的に行うことができる。
If the microphone installed in the vehicle interior is a microphone array, the microphone array forms directivity toward the noise source and collects the sound (beamforming) before the noise suppression process. Therefore, the S / N ratio of the audio signal input to each microphone may be improved. As a result, the
また、本実施形態では、音声処理装置20が、話者がN人(例えば4人)存在することが想定される状況において、N人が発する音声の参照信号を話者毎に別々に入力する適応フィルタと、N人が発する音声の参照信号をN人分まとめて入力する適応フィルタと、を設けることを例示した。この場合、音声処理装置20は、なるべく少ない数の適応フィルタを用いて、ターゲットとなる音声信号から、ターゲット成分以外のクロストーク成分等のノイズ成分を効率良く低減できる。また、音声処理装置20は、N人以下の人数毎に、適応フィルタを設けてもよい。例えば、4人のうち、2人の音声の参照信号を入力する2名用の適応フィルタと、3人の音声の参照信号を入力する3名用の適応フィルタと、4人の音声の参照信号を入力する4名用の適応フィルタと、を設けてよい。この場合、音声処理装置は、実際の話者の位置や人数に応じて最適な適応フィルタを選択し、フィルタ係数を更新でき、クロストーク成分の抑圧性能を更に向上できる。
Further, in the present embodiment, the
以上のように、音声処理システム5は、ターゲット成分(第1の音声成分の一例)及びクロストーク成分(第1の音声成分以外の音声成分の一例)を含む音声信号Aを取得するマイクMC1(第1の音声取得部の一例)を備えてよい。音声処理システム5は、ターゲット成分以外の主成分(第2の音声成分の一例)及びこの主成分以外の成分(第2の音声成分以外の音声成分の一例)を含む複数の参照信号B,C,Dを取得する複数のマイクMC1,MC3,MC4(第2の音声取得部の一例)を備えてよい。音声処理システム5の音声処理装置21は、複数の参照信号B,C,Dのうち2つ以上の参照信号を通過させ、通過信号E’(第1の通過信号の一例)を生成する適応フィルタF2(第1の適応フィルタの一例)を備えてよい。音声処理装置21は、複数の参照信号B,C,Dのうち異なる単一の参照信号を通過させ、複数の通過信号B’,C’,D’(第2の通過信号の一例)を生成する複数の適応フィルタF3,F4,F5(第2の適応フィルタの一例)を備えてよい。音声処理装置21は、音声信号Aと通過信号E’と複数の通過信号B’,C’,D’とに基づいて、適応フィルタF2及び複数の適応フィルタF3,F4,F5のうち制御対象の適応フィルタを決定し、制御対象の適応フィルタのフィルタ係数を制御する適応フィルタ制御部28(制御部の一例)を備えてよい。
As described above, the
これにより、音声処理システム5の音声処理装置21は、取得目的の音声信号、この音声信号以外の参照信号が複数信号用の適応フィルタを通過した通過信号、この音声信号以外の参照信号が単一信号用の適応フィルタを通過した通過信号を基に、各信号の状態を考慮して適応フィルタを決定し、この適応フィルタのフィルタ係数を制御できる。よって、音声処理装置21は、例えば、話者(ノイズ源の一例)の位置の変化や話者の人数の変化によって、関連性の高い適用フィルタについては、更新により好適なフィルタ係数を維持でき、関連性の低い適用フィルタについては、過去の学習結果が不要に更新され、適用フィルタのフィルタ効率が低下することを抑制できる。また、複数信号用の適応フィルタや単一信号用の適応フィルタが制御対象の適応フィルタに決定されることで、音声処理装置21は、例えば、話者が1人の場合には、各第2の適用フィルタを用いて、第1の音声成分以外の音声成分を効率良く除去できる。また、音声処理装置21は、話者が複数人の場合には、第1の適用フィルタを用いて、第1の音声成分以外の音声成分を効率良く除去できる。
As a result, the
また、加算器27(制御部の一例)は、音声信号Aから通過信号B’を減算して、減算信号A−E’(第1の減算信号の一例)を生成してよい。加算器27は、音声信号Aから異なる通過信号B’,C’,D’を減算して、複数の減算信号A−B’,A−C’,A−D’(第2の減算信号の一例)を生成してよい。適応フィルタ制御部28は、減算信号A−E’及び各減算信号A−B’,A−C’,A−D’の信号レベルに基づいて、制御対象の適応フィルタを決定してよい。なお、制御部は、加算器27及び適応フィルタ制御部28が別体として構成されてもよいし、適応フィルタ制御部28が加算器27の機能を含んで構成されてもよい。
Further, the adder 27 (an example of the control unit) may subtract the passing signal B'from the audio signal A to generate the subtraction signal AE'(an example of the first subtraction signal). The
これにより、音声処理装置21は、減算信号の信号レベルに応じて、ターゲット成分以外の除去効率を加味して、除去効率の高い適応フィルタを決定し、この適応フィルタのフィルタ係数を制御し、これ以外の適応フィルタのフィルタ係数を制御しないことができる。よって、音声処理装置21は、ノイズ源の数や位置が変化した場合でも、取得対象の音声信号の雑音成分の抑圧精度を向上できる。
As a result, the
また、適応フィルタ制御部28は、減算信号A−E’及び各減算信号A−B’,A−C’,A−D’の信号レベルに基づいて、減算信号A−E’及び各減算信号A−B’,A−C’,A−D’のいずれかを出力信号として決定してよい。適応フィルタ制御部28は、出力信号に対応する適応フィルタF2及び複数の適応フィルタF3,F4,F5のうちのいずれかの適応フィルタを、制御対象の適応フィルタを決定してよい。
Further, the adaptive
これにより、音声処理装置21は、音声処理装置21の後段の処理に用いる、クロストーク成分が小さい出力信号に対応する適応フィルタのフィルタ係数を制御することで、全ての適応フィルタのフィルタ係数の制御を行う必要なく、効率良くフィルタ係数を制御できる。また、制御されたフィルタ係数により、後においても出力信号として選択される可能性が高い減算信号のクロストーク成分が一層小さくなることが期待できる。
As a result, the
また、適応フィルタ制御部28は、減算信号A−E’及び各減算信号A−B’,A−C’,A−D’のうち、信号レベルが最小である信号でよい。
Further, the adaptive
これにより、音声処理装置21は、フィルタ係数の制御対象となる適応フィルタとして、クロストーク成分を最も抑圧可能な適応フィルタを選択できる。
As a result, the
また、適応フィルタ制御部28は、減算信号A−E’及び複数の減算信号A−B’,A−C’,A−D’のうち、信号レベルが閾値th1(第1の閾値の一例)以下である信号でよい。
Further, the adaptive
これにより、音声処理装置21は、フィルタ係数の制御対象となる適応フィルタとして、クロストーク成分を所望の基準以上に抑圧可能な適応フィルタを選択できる。
As a result, the
また、マイクMC2,MC3,MC4は、それぞれ参照信号B,C,Dを取得するために、音声信号Aのクロストーク成分を発する話者としての乗員hm2〜hm4(音源の一例)の方向に指向性を有してよい。 Further, the microphones MC2, MC3, and MC4 are directed in the direction of the occupant hm2 to hm4 (an example of a sound source) as a speaker who emits the crosstalk component of the audio signal A in order to acquire the reference signals B, C, and D, respectively. May have sex.
これにより、音声処理装置21は、特定の方向に指向性を有することにより、マイクMC2,MC3,MC4は、例えば、特定の話者が発する音声成分を多くし、特定の話者以外が発する音声成分を少なくして取得できる。よって、音声処理装置21は、特定の話者以外の音声が漏れ入ることが少なくなることで、適応フィルタF3,F4,F5を特定の方向に位置する特定の話者専用として使用できるようになる。よって、音声処理装置21は、適応フィルタの学習時の揺らぎを小さくでき、音声信号から特定の話者の音声成分を効率良く抑制できる。
As a result, the
また、適応フィルタF2、複数の適応フィルタF3〜F5、及び適応フィルタ制御部28を備える音声処理装置20(21〜25)、を複数備えてよい。複数の音声処理装置20における各適応フィルタ制御部28が取得する各音声信号(音声信号に含まれる各ターゲット成分)は、それぞれ異なってよい。また、複数の音声処理装置20における各適応フィルタF2及び各適応フィルタF3〜F5が取得する各参照信号(参照信号に含まれる各ターゲット成分以外の主成分)の組み合わせは、それぞれ異なってよい。
Further, a plurality of voice processing devices 20 (21 to 25) including an adaptive filter F2, a plurality of adaptive filters F3 to F5, and an adaptive
例えば、音声処理装置21の適応フィルタ制御部28が取得する音声信号は、マイクMC1で収音された音声信号でよく、そのターゲット成分は、乗員hm1の音声でよい。音声処理装置22の適応フィルタ制御部28が取得する音声信号は、マイクMC2で収音された音声信号でよく、そのターゲット成分は、乗員hm2の音声でよい。音声処理装置23の適応フィルタ制御部28が取得する音声信号は、マイクMC3で収音された音声信号でよく、そのターゲット成分は、乗員hm3の音声でよい。音声処理装置24の適応フィルタ制御部28が取得する音声信号は、マイクMC4で収音された音声信号でよく、そのターゲット成分は、乗員hm4の音声でよい。
For example, the voice signal acquired by the adaptive
例えば、音声処理装置21の各適応フィルタF2〜F5が取得する参照信号は、マイクMC2,MC3,MC4で収音された信号でよく、ターゲット成分以外の主成分の組み合わせは、乗員hm2,hm3,hm4の音声でよい。音声処理装置22の各適応フィルタF2〜F5が取得する参照信号は、マイクMC3,MC4,MC1で収音された信号でよく、ターゲット成分以外の主成分の組み合わせは、乗員hm3,hm4及び運転者hm1の音声でよい。音声処理装置23の各適応フィルタF2〜F5が取得する参照信号は、マイクMC4,MC1,MC2で収音された信号でよく、ターゲット成分以外の主成分は、乗員hm4、運転者hm1、及び乗員hm2の音声でよい。音声処理装置24の各適応フィルタF2〜F5が取得する参照信号は、マイクMC1,MC2,MC3で収音された信号でよく、ターゲット成分以外の主成分は、運転者hm1及び乗員hm2,hm3の音声でよい。
For example, the reference signal acquired by each of the adaptive filters F2 to F5 of the
つまり、音声処理システム5は、N個(Nは自然数)のマイクと、N個の適応フィルタと、適応フィルタ制御部28と、をそれぞれ含むN個の音声処理装置20と、を備えてよい。m(m:1〜Nの任意の整数)番目の音声処理装置20は、N個のマイクのうち、m番目のマイクで入力された信号をターゲットとなる音声信号とし、mを除く1〜N番目のマイクで入力された信号を参照信号としてよい。
That is, the
これにより、音声処理システム5は、複数のマイクで収音される音声それぞれに対し、クロストーク成分を抑圧でき、各マイクで収音された音声信号のクロストーク成分等のノイズ抑圧精度を向上できる。
As a result, the
また、マイクMC1〜MC4は、車室内に配置されてよい。 Further, the microphones MC1 to MC4 may be arranged in the vehicle interior.
これにより、音声処理装置21は、車室内の例えば狭い空間に複数の乗員がいる状況でも、話者が発話する音声に含まれるクロストーク成分を抑圧できる。
As a result, the
また、音声処理システム5は、出力信号に対して音声認識処理を行う音声認識エンジン40(音声認識処理部の一例)を備えてよい。
Further, the
これにより、音声処理システム5は、適応フィルタのフィルタ係数の更新について追従性が向上するので、フィルタ係数の変更後(例えば車室内での話者の変化後)の初期段階における出力信号に基づく音声の音声認識精度が向上する。よって、話者が音声を発した直後から音声認識精度が向上し、音声認識を用いたアプリケーションにおける操作情報の認識精度が向上する。したがって、音声処理システム5は、例えば音声認識による操作可能なアプリケーションに対する指示をスムーズに行うことができる。
As a result, the
(第2の実施形態)
第2の実施形態では、車室内の乗員のうち発話している話者を検知する話者検知を行い、話者検知結果を、クロストーク成分の抑圧処理に補助的に利用する場合を示す。
(Second Embodiment)
The second embodiment shows a case where speaker detection is performed to detect a speaker who is speaking among the occupants in the vehicle interior, and the speaker detection result is used as an auxiliary for suppression processing of the crosstalk component.
第2の実施形態では、第1の実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。 In the second embodiment, the same components and operations as those described in the first embodiment will be omitted or simplified by using the same reference numerals.
図4は、第2の実施形態における音声処理装置21Aのハードウェア構成を示す図である。第2の実施形態の音声処理システム5Aは、第1の実施形態と同様、車両10の車室内に配置された、複数(例えば4つ)のマイクMC1〜MC4と、音声処理装置20Aと、音声認識エンジン40と、カーナビゲーション装置50と、を含む構成を有する。また、音声処理装置20Aは、例えば音声処理装置21A,22A,23A,24Aでよい。音声処理装置21A,22A,23A,24Aは、いずれも同一の構成および機能を有する。ここでは、音声処理装置21Aを主に用いて説明する。
FIG. 4 is a diagram showing a hardware configuration of the
音声処理装置21Aは、音声入力部29と、複数(例えば4つ)の適応フィルタF2,F3,F4,F5と、加算器27と、適応フィルタ制御部28Aと、記憶部28Bと、信号検知部30と、を含む。
The
信号検知部30は、マイクMC1からの音声信号A、及びマイクMC2,MC3,MC4からの各参照信号B,C,Dを入力し、これらの信号の音圧レベル(信号レベル)を基に、話者の位置を検知する。例えば、マイクMC1〜MC4で収音される音声の音声信号の音圧レベルが閾値th2より高い場合、そのマイクに向かって発話している乗員がいると判断し、話者の位置を特定してよい。信号検知部30は、話者位置の検知結果を適応フィルタ制御部28Aに通知してよい。なお、信号検知部30は、音声処理装置21A〜24A毎に設けられてもよいし、音声処理システム5A全体で1つ設けられてもよい。
The
適応フィルタ制御部28Aは、信号検知部30で検知された話者位置に対応する適応フィルタを更新の対象(制御対象)とし、その適応フィルタのフィルタ係数を更新してよい。一方、適応フィルタ制御部28Aは、検知された話者位置以外に対応する適応フィルタを更新の対象とせず、その適応フィルタのフィルタ係数を更新しなくよい。
The adaptive
例えば、助手席で発話が検知された場合、適応フィルタ制御部28Aは、適応フィルタF3のフィルタ係数を更新してよい。また、左側の後部座席と右側の後部座席の両方で発話が検知された場合、適応フィルタ制御部28Aは、話者が複数であるとして、適応フィルタF2のフィルタ係数を更新してよい。
For example, when an utterance is detected in the passenger seat, the adaptive
信号検知部30によって検知される話者位置の確度が低い場合、適応フィルタ制御部28Aは、適応フィルタF2(3つの適応フィルタF2A,F2B,F2Cを含む)を更新し、適応フィルタF2の通過信号E’を基に、出力信号を得てよい。これにより、複数人の話者位置を正確に検知することは困難であるが、話者位置の確度が低く、話者位置が推定困難な場合でも、音声処理装置21Aは、大きな音質劣化を抑制できる。
When the accuracy of the speaker position detected by the
一方、信号検知部30によって検知される話者位置の確度が高い場合、適応フィルタ制御部28Aは、この話者位置に対応するいずれかの適応フィルタを更新し、更新される適応フィルタを通過する通過信号を基に、出力信号を得てよい。これにより、話者位置の確度が高く、話者位置が高精度に特定可能である場合、音声処理装置21Aは、音声信号Aに含まれるクロストーク成分(例えば話者)を十分に抑圧できる。
On the other hand, when the accuracy of the speaker position detected by the
このように、音声処理装置21Aは、話者位置検知を行って話者位置を推定することで、例えば、全ての適応フィルタF2〜F5に関する演算の少なくとも一部を省略できる。適応フィルタF2〜F5に関する演算は、各通過信号の生成に係る演算、各減算信号の生成に係る演算、等を含んでよい。このように、信号検知部30の機能を補助的に用いることで、音声処理装置21Aの処理負荷を低減できる。
In this way, the
ここで、話者位置及び話者位置の確度の導出例について説明する。 Here, an example of deriving the speaker position and the accuracy of the speaker position will be described.
信号検知部30は、話者位置の確度を様々な方法で導出してよい。例えば、信号検知部30は、マイクMC1〜MC4でそれぞれ収音される音声の音圧レベル(信号レベル)が閾値th3(>閾値th2)を超える否かに応じて、話者位置の確度を決定してよい。また、信号検知部30は、カメラを含んでもよい。この場合、信号検知部30は、例えば乗員の口元付近を撮像し、この撮像画像を解析して、乗員が発話しているか否かを判断してもよい。信号検知部30は、音圧レベルにより検知された発話者と、カメラによる撮像画像を基に解析された発話者とが一致した場合、話者位置検知の確度が高いと判断してよい。
The
また、車両10に乗車する人物が、車両10における同じ座席に座ることが多い場合、信号検知部30は、声紋を用いて話者位置を検知してもよい。この場合、記憶部28Bに各乗員の声紋を予め登録しておき、発話があった場合、信号検知部30が、記憶部28Bに登録された声紋を参照し、座席に対応するマイクで収音される音声の声紋と一致するか否かを判別してよい。一致した場合、信号検知部30は、その声紋に対応する乗員の着座位置が話者位置である確度が高いと判断してよい。
Further, when a person riding in the
また、信号検知部30は、各マイクMC1〜MC4の設置位置と各マイクMC1〜MC4が主に収音する運転者hm1又は乗員hm2〜hm4との距離に応じて、話者位置検知の確度が高いと判断してよい。信号検知部30は、各マイクMC1〜MC4で収音された音声信号の遅延成分に基づいて、上記の距離を推定してよい。例えば、音声信号の遅延成分が多い場合、マイクと話者の距離が長く、話者位置検知の確度が低いと判断可能である。音声信号の遅延成分が少ない場合、マイクと話者の距離が短く、話者位置検知の確度が高いと判断可能である。
Further, the
適応フィルタ制御部28Aは、減算信号(誤差信号)の信号レベルをスコアとして計算し、話者位置の検知結果をスコアとして計算し、これらのスコアに基づいて、出力信号を決定してもよい。この場合、適応フィルタ制御部28Aは、話者位置と、話者位置の検知結果として検知された話者位置に対応する適応フィルタの通過信号に対応する減算信号と、を対応付けてよい。例えば、適応フィルタ制御部28Aは、両者のスコアの合計値が最も高い(又は最も低い)減算信号を、出力信号として決定してよい。
The adaptive
よって、音声処理システム5Aでは、話者位置を検知することで、適応フィルタの更新をより正確に行うことができ、クロストーク成分を一層抑圧した品質の高い音声信号を得ることができる。 Therefore, in the voice processing system 5A, the adaptive filter can be updated more accurately by detecting the speaker position, and a high-quality voice signal in which the crosstalk component is further suppressed can be obtained.
また、適応フィルタ制御部28Aは、話者位置の検知結果の信頼度(確度)が高い状態である期間が閾値th4以上継続した場合、つまり、ある座席で発話が長くあった場合、信頼度が高い状態で更新し続けたフィルタ係数を、その席に対応する適応フィルタのフィルタ係数として記憶部28Bに退避してもよい。また、適応フィルタ制御部28Aは、一定期間毎に、退避しておいたフィルタ係数を更新してもよい。信号検知部30や誤差信号の信号レベルに基づいて推定された話者位置が、記憶部28Bにフィルタ係数が退避された適応フィルタに対応する席の位置であると判定された場合、適応フィルタ制御部28Aは、退避しておいたフィルタ係数を読み出し、適応フィルタに設定してもよい。これにより、音声処理装置21Aは、例えばフィルタ係数が退避された適応フィルタに対応する位置が話者位置となった直後から、この席の話者の音声成分(クロストーク成分)を効果的に抑圧できる。
In addition, the adaptive
以上のように、音声処理装置21Aは、ターゲット成分(音声信号Aの主成分)又はターゲット成分以外の主成分(参照信号B,C,Dの主成分)の音声を発する話者(運転者hm1、乗員hm2〜hm4)の位置を検知する信号検知部30を備えてよい。適応フィルタ制御部28Aは、検知された話者の位置に基づいて、制御対象の適応フィルタを決定してよい。
As described above, the
これにより、音声処理装置21Aは、話者位置検知の結果を補助的に利用することで、更新すべき適用フィルタの選択精度を向上できる。
As a result, the
また、音声処理装置21Aは、記憶部28Bを更に備えてよい。適応フィルタ制御部28Aは、信号検知部30により検知された話者の位置の確度を導出(例えば算出)してよい。記憶部28Bは、この確度が閾値th4(第2の閾値の一例)以上である場合、時刻t1(第1の時刻の一例)に信号検知部30により検知された話者の位置と、この話者の位置に対応する適用フィルタのフィルタ係数と、を関連付けて記憶してよい。適応フィルタ制御部28Aは、時刻t1よりも後の時刻t2(第2の時刻の一例)において、信号検知部30により時刻t1と同じ話者の位置が検知された場合、この話者に対応する適用フィルタのフィルタ係数を、記憶部28Bに記憶された話者の位置に関連付けられたフィルタ係数で更新してよい。
Further, the
これにより、音声処理装置21Aは、複数の時刻t1,t2で同じ話者(又は同じ話者の組み合わせ)が音声を発している場合、過去に更新された実績のあるフィルタ係数の値を利用することで、過去と同様に、音声信号の雑音成分の抑圧精度を向上できると期待できる。また、音声処理装置21Aは、話者判定は困難であるが、話者位置検知の確度が閾値th4以上の場合に限定することで、実績のあるフィルタ係数に安定して更新できる。
As a result, when the same speaker (or a combination of the same speakers) is emitting voice at a plurality of times t1 and t2, the
以上、図面を参照しながら各種の実施形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。 Although various embodiments have been described above with reference to the drawings, it goes without saying that the present disclosure is not limited to such examples. It is clear that a person skilled in the art can come up with various modifications or modifications within the scope of the claims, which naturally belong to the technical scope of the present disclosure. Understood.
上記実施形態では、プロセッサは、物理的にどのように構成してもよい。また、プログラム可能なプロセッサを用いれば、プログラムの変更により処理内容を変更できるので、プロセッサの設計の自由度を高めることができる。プロセッサは、1つの半導体チップで構成してもよいし、物理的に複数の半導体チップで構成してもよい。複数の半導体チップで構成する場合、上記実施形態の各制御をそれぞれ別の半導体チップで実現してもよい。この場合、それらの複数の半導体チップで1つのプロセッサを構成すると考えることができる。また、プロセッサは、半導体チップと別の機能を有する部材(コンデンサ等)で構成してもよい。また、プロセッサが有する機能とそれ以外の機能とを実現するように、1つの半導体チップを構成してもよい。また、複数のプロセッサが1つのプロセッサで構成されてもよい。 In the above embodiment, the processor may be physically configured in any way. Further, if a programmable processor is used, the processing content can be changed by changing the program, so that the degree of freedom in processor design can be increased. The processor may be composed of one semiconductor chip, or may be physically composed of a plurality of semiconductor chips. When composed of a plurality of semiconductor chips, each control of the above embodiment may be realized by a separate semiconductor chip. In this case, it can be considered that one processor is composed of those plurality of semiconductor chips. Further, the processor may be composed of a member (capacitor or the like) having a function different from that of the semiconductor chip. Further, one semiconductor chip may be configured so as to realize the functions of the processor and other functions. Further, a plurality of processors may be configured by one processor.
上記実施形態では、音声信号、参照信号として話者の音声が含まれることを主に例示したが、音声信号、参照信号には、各種の音が広く含まれてよい。例えば、音声信号、参照信号には、音楽、環境音、機械音、その他の音が広く含まれてよい。 In the above embodiment, it is mainly illustrated that the voice of the speaker is included as the voice signal and the reference signal, but the voice signal and the reference signal may broadly include various sounds. For example, the audio signal and the reference signal may broadly include music, environmental sounds, mechanical sounds, and other sounds.
上記実施形態では、各閾値は、固定値でも可変値でもよい。各閾値は、予め定められた値でも、音声処理システムが備える操作部を介して入力された値でもよい。 In the above embodiment, each threshold value may be a fixed value or a variable value. Each threshold value may be a predetermined value or a value input via an operation unit included in the voice processing system.
本開示は、ノイズ源の数や位置が変化した場合でも、取得対象の音声信号の雑音成分の抑圧精度を向上できる音声処理システム、音声処理装置及び音声処理方法等に有用である。 The present disclosure is useful for a voice processing system, a voice processing device, a voice processing method, and the like that can improve the suppression accuracy of a noise component of a voice signal to be acquired even when the number and position of noise sources change.
5 音声処理システム
10 車両
20,21,21A,22,23,24 音声処理装置
27 加算器
28,28A 適応フィルタ制御部
28B 記憶部
29 音声入力部
30 信号検知部
40 音声認識エンジン
50 カーナビゲーション装置
F2,F2A,F2B,F2C,F3,F4,F5 適応フィルタ
hm1 運転者
hm2,hm3,hm4 乗員
MC1,MC2,MC3,MC4 マイク
5
Claims (13)
第2の音声成分及び第2の音声成分以外の音声成分を含む複数の参照信号を取得する複数の第2の音声取得部と、
前記複数の参照信号のうち2つ以上の参照信号を通過させ、第1の通過信号を生成する第1の適応フィルタと、
前記複数の参照信号のうち異なる単一の参照信号を通過させ、複数の第2の通過信号を生成する複数の第2の適応フィルタと、
前記音声信号と前記第1の通過信号と前記複数の第2の通過信号とに基づいて、前記第1の適応フィルタ及び前記複数の第2の適応フィルタのうち制御対象の適応フィルタを決定し、前記制御対象の適応フィルタのフィルタ係数を制御する制御部と、
を備える音声処理システム。 A first voice acquisition unit that acquires a voice signal including a first voice component and a voice component other than the first voice component, and
A plurality of second audio acquisition units that acquire a plurality of reference signals including a second audio component and an audio component other than the second audio component, and
A first adaptive filter that passes two or more reference signals out of the plurality of reference signals to generate a first pass signal, and
A plurality of second adaptive filters that pass a single different reference signal among the plurality of reference signals to generate a plurality of second pass signals, and a plurality of second adaptive filters.
Based on the voice signal, the first passing signal, and the plurality of second passing signals, the adaptive filter to be controlled among the first adaptive filter and the plurality of second adaptive filters is determined. A control unit that controls the filter coefficient of the adaptive filter to be controlled,
A voice processing system equipped with.
前記音声信号から前記第1の通過信号を減算して、第1の減算信号を生成し、
前記音声信号から異なる第2の通過信号を減算して、複数の第2の減算信号を生成し、
前記第1の減算信号及び前記複数の第2の減算信号の信号レベルに基づいて、前記制御対象の適応フィルタを決定する、
請求項1に記載の音声処理システム。 The control unit
The first passing signal is subtracted from the audio signal to generate the first subtracting signal.
A plurality of second subtraction signals are generated by subtracting different second passing signals from the audio signal.
The adaptive filter to be controlled is determined based on the signal levels of the first subtraction signal and the plurality of second subtraction signals.
The voice processing system according to claim 1.
前記第1の減算信号及び前記複数の第2の減算信号の信号レベルに基づいて、前記第1の減算信号及び前記複数の第2の減算信号のいずれかを出力信号として決定し、
前記出力信号に対応する前記第1の適応フィルタ及び前記複数の第2の適応フィルタのうちのいずれかの適応フィルタを、前記制御対象の適応フィルタに決定する、
請求項2に記載の音声処理システム。 The control unit
Based on the signal levels of the first subtraction signal and the plurality of second subtraction signals, any one of the first subtraction signal and the plurality of second subtraction signals is determined as an output signal.
The adaptive filter of any one of the first adaptive filter and the plurality of second adaptive filters corresponding to the output signal is determined as the adaptive filter to be controlled.
The voice processing system according to claim 2.
請求項2または3に記載の音声処理システム。 The control unit determines the adaptive filter corresponding to the subtraction signal having the minimum signal level among the first subtraction signal and the plurality of second subtraction signals as the adaptive filter to be controlled.
The voice processing system according to claim 2 or 3.
請求項2または3に記載の音声処理システム。 The control unit sets an adaptive filter corresponding to the subtraction signal whose signal level is equal to or lower than the first threshold value among the first subtraction signal and the plurality of second subtraction signals as the adaptive filter to be controlled. decide,
The voice processing system according to claim 2 or 3.
前記制御部は、前記話者の位置に基づいて、前記制御対象の適応フィルタを決定する、
請求項1〜5のいずれか1項に記載の音声処理システム。 Further, a detection unit for detecting the position of the speaker emitting the first voice component or the second voice component is provided.
The control unit determines an adaptive filter to be controlled based on the position of the speaker.
The voice processing system according to any one of claims 1 to 5.
前記制御部は、前記検知部により検知された前記話者の位置の確度を導出し、
前記記憶部は、前記確度が第2の閾値以上である場合、第1の時刻に前記検知部により検知された前記話者の位置と、前記話者の位置に対応する適用フィルタのフィルタ係数と、を関連付けて記憶し、
前記制御部は、前記第1の時刻よりも後の第2の時刻において、前記検知部により前記第1の時刻と同じ話者の位置が検知された場合、前記話者に対応する適用フィルタのフィルタ係数を、前記記憶部に記憶され前記検知部により検知された話者の位置に関連付けられたフィルタ係数で更新する、
請求項6に記載の音声処理システム。 With a storage unit,
The control unit derives the accuracy of the position of the speaker detected by the detection unit.
When the accuracy is equal to or higher than the second threshold value, the storage unit includes the position of the speaker detected by the detection unit at the first time and the filter coefficient of the applied filter corresponding to the position of the speaker. , Associate and remember,
When the detection unit detects the same speaker position as the first time at a second time after the first time, the control unit determines the applicable filter corresponding to the speaker. The filter coefficient is updated with the filter coefficient stored in the storage unit and associated with the speaker position detected by the detection unit.
The voice processing system according to claim 6.
請求項1〜7のいずれか1項に記載の音声処理システム。 The second audio acquisition unit has directivity in the direction of the sound source that emits the second audio component in order to acquire the reference signal.
The voice processing system according to any one of claims 1 to 7.
複数の音声処理装置における各制御部が取得する各音声信号は、それぞれ異なり、
前記複数の音声処理装置における各第1の適応フィルタ及び各第2の適応フィルタが取得する各参照信号の組み合わせは、それぞれ異なる、
請求項1〜8のいずれか1項に記載の音声処理システム。 A plurality of the first adaptive filter, the plurality of second adaptive filters, and a voice processing device including the control unit are provided.
Each voice signal acquired by each control unit in a plurality of voice processing devices is different.
The combination of each reference signal acquired by each of the first adaptive filters and the second adaptive filters in the plurality of voice processing devices is different.
The voice processing system according to any one of claims 1 to 8.
請求項1〜9のいずれか1項に記載の音声処理システム。 The first voice acquisition unit and the plurality of second voice acquisition units are arranged in the vehicle interior.
The voice processing system according to any one of claims 1 to 9.
請求項3に記載の音声処理システム。 A voice recognition processing unit that performs voice recognition processing on the output signal is further provided.
The voice processing system according to claim 3.
第2の音声成分及び第2の音声成分以外の音声成分を含む複数の参照信号を取得する複数の適応フィルタと、
を備え、
前記複数の適応フィルタは、
前記複数の参照信号のうち2つ以上の参照信号を通過させ、第1の通過信号を生成する第1の適応フィルタと、
前記複数の参照信号のうち異なる単一の参照信号を通過させ、複数の第2の通過信号を生成する複数の第2の適応フィルタと、を含み、
前記制御部は、前記音声信号と前記第1の通過信号と前記複数の第2の通過信号とに基づいて、前記第1の適応フィルタ及び前記複数の第2の適応フィルタのうち制御対象の適応フィルタを決定し、前記制御対象の適応フィルタのフィルタ係数を制御する、
音声処理装置。 A control unit that acquires an audio signal including a first audio component and an audio component other than the first audio component, and
A plurality of adaptive filters that acquire a plurality of reference signals including a second audio component and an audio component other than the second audio component, and
With
The plurality of adaptive filters
A first adaptive filter that passes two or more reference signals out of the plurality of reference signals to generate a first pass signal, and
A plurality of second adaptive filters, which pass a different single reference signal among the plurality of reference signals and generate a plurality of second pass signals, are included.
The control unit adapts the controlled object among the first adaptive filter and the plurality of second adaptive filters based on the audio signal, the first pass signal, and the plurality of second pass signals. The filter is determined, and the filter coefficient of the adaptive filter to be controlled is controlled.
Voice processing device.
第2の音声成分及び第2の音声成分以外の音声成分を含む複数の参照信号を取得し、
前記複数の参照信号のうち2つ以上の参照信号が第1の適応フィルタを通過した第1の通過信号を生成し、
前記複数の参照信号のうち異なる単一の参照信号が通過する複数の第2の適応フィルタを通過した複数の第2の通過信号を生成し、
前記音声信号と前記第1の通過信号と前記複数の第2の通過信号とに基づいて、前記第1の適応フィルタ及び前記複数の第2の適応フィルタのうち制御対象の適応フィルタを決定し、前記制御対象の適応フィルタのフィルタ係数を制御する、
音声処理方法。 Acquires an audio signal containing an audio component other than the first audio component and the first audio component,
Acquire a plurality of reference signals including a second audio component and an audio component other than the second audio component,
Two or more of the plurality of reference signals generate a first pass signal that has passed through the first adaptive filter.
A plurality of second pass signals that have passed through a plurality of second adaptive filters through which a different single reference signal among the plurality of reference signals passes are generated.
Based on the voice signal, the first passing signal, and the plurality of second passing signals, the adaptive filter to be controlled among the first adaptive filter and the plurality of second adaptive filters is determined. Controlling the filter coefficient of the adaptive filter to be controlled,
Voice processing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019023942A JP2020134566A (en) | 2019-02-13 | 2019-02-13 | Voice processing system, voice processing device and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019023942A JP2020134566A (en) | 2019-02-13 | 2019-02-13 | Voice processing system, voice processing device and voice processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020134566A true JP2020134566A (en) | 2020-08-31 |
Family
ID=72278541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019023942A Pending JP2020134566A (en) | 2019-02-13 | 2019-02-13 | Voice processing system, voice processing device and voice processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020134566A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113380267A (en) * | 2021-04-30 | 2021-09-10 | 深圳地平线机器人科技有限公司 | Method and device for positioning sound zone, storage medium and electronic equipment |
WO2022176085A1 (en) * | 2021-02-18 | 2022-08-25 | 三菱電機株式会社 | In-vehicle voice separation device and voice separation method |
-
2019
- 2019-02-13 JP JP2019023942A patent/JP2020134566A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022176085A1 (en) * | 2021-02-18 | 2022-08-25 | 三菱電機株式会社 | In-vehicle voice separation device and voice separation method |
CN113380267A (en) * | 2021-04-30 | 2021-09-10 | 深圳地平线机器人科技有限公司 | Method and device for positioning sound zone, storage medium and electronic equipment |
CN113380267B (en) * | 2021-04-30 | 2024-04-19 | 深圳地平线机器人科技有限公司 | Method and device for positioning voice zone, storage medium and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11089404B2 (en) | Sound processing apparatus and sound processing method | |
EP1879180B1 (en) | Reduction of background noise in hands-free systems | |
JP4283212B2 (en) | Noise removal apparatus, noise removal program, and noise removal method | |
US8165310B2 (en) | Dereverberation and feedback compensation system | |
CN108235187B (en) | Howling suppression apparatus and howling suppression method | |
JP5649488B2 (en) | Voice discrimination device, voice discrimination method, and voice discrimination program | |
CN110120217B (en) | Audio data processing method and device | |
US9769568B2 (en) | System and method for speech reinforcement | |
US11676617B2 (en) | Acoustic noise suppressing apparatus and acoustic noise suppressing method | |
JP2020134566A (en) | Voice processing system, voice processing device and voice processing method | |
JP2024026716A (en) | Signal processor and signal processing method | |
US10798247B2 (en) | Acoustic echo suppression device and acoustic echo suppression method | |
US20220415337A1 (en) | Acoustic crosstalk suppression device and acoustic crosstalk suppression method | |
US12039965B2 (en) | Audio processing system and audio processing device | |
JP2010085733A (en) | Speech enhancement system | |
CN114730565A (en) | Acoustic crosstalk suppression device and acoustic crosstalk suppression method | |
US12125468B2 (en) | Audio processing system, audio processing device, and audio processing method | |
US20220406286A1 (en) | Audio processing system, audio processing device, and audio processing method | |
JP2022026270A (en) | Speech processing system, speech processing unit, and speech processing method |