JP2018022119A - Sound source separation device - Google Patents

Sound source separation device Download PDF

Info

Publication number
JP2018022119A
JP2018022119A JP2016155083A JP2016155083A JP2018022119A JP 2018022119 A JP2018022119 A JP 2018022119A JP 2016155083 A JP2016155083 A JP 2016155083A JP 2016155083 A JP2016155083 A JP 2016155083A JP 2018022119 A JP2018022119 A JP 2018022119A
Authority
JP
Japan
Prior art keywords
separation
sound source
unit
filter coefficient
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016155083A
Other languages
Japanese (ja)
Other versions
JP6763721B2 (en
Inventor
小野 順貴
Junki Ono
順貴 小野
政浩 春原
Masahiro Haruhara
政浩 春原
智穂 春田
Chiho Haruta
智穂 春田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rion Co Ltd
Research Organization of Information and Systems
Original Assignee
Rion Co Ltd
Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rion Co Ltd, Research Organization of Information and Systems filed Critical Rion Co Ltd
Priority to JP2016155083A priority Critical patent/JP6763721B2/en
Priority to US15/663,019 priority patent/US10410640B2/en
Priority to EP17184363.4A priority patent/EP3279896A1/en
Publication of JP2018022119A publication Critical patent/JP2018022119A/en
Application granted granted Critical
Publication of JP6763721B2 publication Critical patent/JP6763721B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H21/00Adaptive networks
    • H03H21/0012Digital adaptive filters
    • H03H21/0025Particular filtering methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H21/00Adaptive networks
    • H03H21/0012Digital adaptive filters
    • H03H21/0025Particular filtering methods
    • H03H2021/0034Blind source separation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers

Abstract

PROBLEM TO BE SOLVED: To provide a sound source separation device capable of reducing a delay time in performing sound source separation on-line while maintaining separation and extraction performance of a sound source.SOLUTION: A sound source separation device 1 includes: a separation matrix processing part 20 for converting observation signals x1(n), x2(n) output from microphones 10, 11 for collecting sounds propagated from a plurality of sound sources into a signal group of a frequency region, updating a separation matrix W(ω) on the basis of the signal group, and converting the updated separation matrix into a time series of filter coefficients ha(n) to output the filter coefficients ha(n); a filter coefficient conversion part 30 for partially removing a non-causal component included in the filter coefficient ha(n) to perform conversion into a filter coefficient h(n); and a separation part 40 for supplying the filter coefficient h(n) to filter groups 41 to 44, and generating a plurality of separation signals y1(n), y2(n) separated from the observation signals x1(n), x2(n) in correspondence with the separation matrix W(ω).SELECTED DRAWING: Figure 1

Description

本発明は、複数の音源の混合音から各音源の音を分離又は抽出する音源分離装置に関する。   The present invention relates to a sound source separation device that separates or extracts the sound of each sound source from a mixed sound of a plurality of sound sources.

一般に、多様な音源が存在する空間において、目的とする音源から到来する音のみを分離又は抽出するための音源分離技術が知られている。一般的な音源分離技術の場合、空間内に設置した複数のマイクロホンにより複数の音源の混合音をそれぞれ収集して得られた複数の観測信号を保存し、演算処理を行うことにより、目的音源を分離する手法が採用される。例えば、複数の観測信号に対し、独立ベクトル分析に基づき、オフラインで目的音源を分離するための分離行列を安定して求める技術が提案されている(例えば、特許文献1参照)。また例えば、過去の観測信号から、分離行列を更新する際の補助変数を推定することにより、目的音源をオンラインで分離する技術が提案されている(例えば、特許文献2参照)。   In general, a sound source separation technique for separating or extracting only sound that arrives from a target sound source in a space where various sound sources exist is known. In the case of general sound source separation technology, the target sound source is obtained by storing multiple observation signals obtained by collecting the mixed sounds of multiple sound sources using multiple microphones installed in the space, and performing arithmetic processing. A separation method is adopted. For example, a technique for stably obtaining a separation matrix for separating a target sound source offline based on independent vector analysis has been proposed for a plurality of observation signals (see, for example, Patent Document 1). In addition, for example, a technique for separating a target sound source online by estimating an auxiliary variable for updating a separation matrix from past observation signals has been proposed (see, for example, Patent Document 2).

特開2013−68938号公報JP2013-68938A 特開2014−41308号公報JP 2014-41308 A

上記従来の音源分離技術は多様な用途があるが、例えば、一般的な補聴器に対して適用可能な音源分離技術が要望されている。補聴器の使用に際しては、外部の音がマイクロホンに到達してから、その音が耳介内のイヤホンから出力されるまでの時間遅れが問題となる。例えば、使用者が快適に補聴器を使用するには、前述の時間遅れの許容限界は10ms程度が目安であると考えられる。しかし、上記特許文献1の技術は、前述したように、オフラインの演算処理を行うので、観測信号を入力してから分離信号を出力するまでの遅延時間の低減は考慮されていない。また、上記特許文献2の技術は、オンラインでリアルタイムに演算処理を行うことが可能であるが、観測信号の主たる経路にフーリエ変換処理と逆フーリエ変換処理が介在し、それによりトータルで数百ms程度の遅延時間が発生するため、補聴器への適用は困難である。   The conventional sound source separation technique has various uses. For example, a sound source separation technique applicable to a general hearing aid is desired. When using a hearing aid, there is a problem of time delay from when an external sound reaches the microphone until the sound is output from the earphone in the auricle. For example, in order for a user to comfortably use a hearing aid, the above-mentioned time delay tolerance limit is considered to be approximately 10 ms. However, as described above, since the technique of Patent Document 1 performs off-line calculation processing, reduction of the delay time from the input of the observation signal to the output of the separated signal is not considered. The technique of the above-mentioned Patent Document 2 can perform arithmetic processing in real time online, but the Fourier transform process and the inverse Fourier transform process are interposed in the main path of the observation signal, so that the total is several hundred ms. Since a delay time of a certain degree occurs, it is difficult to apply to a hearing aid.

本発明はこれらの問題を解決するためになされたものであり、目的音源を含む複数の音源の混合音を分離する際、音源の分離性能を保ちつつ、オンラインで音源分離を行う際の遅延時間を低減し得る音源分離装置を提供することを目的とする。   The present invention has been made to solve these problems, and when separating mixed sound of a plurality of sound sources including a target sound source, delay time when performing sound source separation online while maintaining sound source separation performance An object of the present invention is to provide a sound source separation device that can reduce noise.

上記課題を解決するために、本発明の音源分離装置(1)は、複数の音源の混合音から各音源の音を分離する音源分離装置であって、前記複数の音源から伝搬する音を収集し、それぞれ電気信号に変換する複数のマイクロホン(10、11)と、前記複数のマイクロホンから時系列で出力される複数の観測信号(x1(n)、x2(n))を周波数領域の信号群(x1(ω)、x2(ω))に変換し、前記複数の音源を分離するための分離行列(W(ω))を前記周波数領域の信号群に基づいて更新し、更新された前記分離行列を時系列のフィルタ係数(ha(n))に変換して出力する分離行列処理部(20)と、前記時系列のフィルタ係数に含まれる非因果成分を部分的に除去することにより、前記フィルタ係数を変換するフィルタ係数変換部(30)と、前記フィルタ係数変換部により変換されたフィルタ係数(h(n))を、前記複数の観測信号の畳み込み演算を行うフィルタ群(41〜44)に供給し、前記分離行列に対応して前記複数の観測信号から分離された複数の分離信号(y1(n)、y2(n))を生成する分離部(40)とを備えて構成される。   In order to solve the above problems, a sound source separation device (1) according to the present invention is a sound source separation device that separates sounds of each sound source from a mixed sound of a plurality of sound sources, and collects sound propagated from the plurality of sound sources. Then, a plurality of microphones (10, 11) that respectively convert into electric signals and a plurality of observation signals (x1 (n), x2 (n)) output in time series from the plurality of microphones are signal groups in the frequency domain. (X1 (ω), x2 (ω)), the separation matrix (W (ω)) for separating the plurality of sound sources is updated based on the signal group in the frequency domain, and the updated separation A separation matrix processing unit (20) for converting a matrix into a time-series filter coefficient (ha (n)) and outputting the matrix, and by partially removing non-causal components included in the time-series filter coefficient, Filter coefficient change to convert filter coefficient The filter coefficient (h (n)) converted by the unit (30) and the filter coefficient conversion unit is supplied to a filter group (41 to 44) that performs a convolution operation of the plurality of observation signals, and the separation matrix Correspondingly, a separation unit (40) that generates a plurality of separated signals (y1 (n), y2 (n)) separated from the plurality of observation signals is configured.

本発明の音源分離装置によれば、複数のマイクロホンを介して得られた複数の観測信号はサイドブランチ側に分岐し、周波数領域で分離行列の更新処理が行われるとともに、更新後の分離行列に対応する時間領域のフィルタ係数は、その非因果成分を部分的に除去した上で分離部のフィルタ群に供給される。よって、複数の観測信号の主たる経路に位置する分離部では、分離行列の更新を直接行うことなく、かつ短縮されたフィルタ係数が用いられるので、分離性能を保ちつつ、信号伝搬の遅延時間を大幅に低減しつつオンラインの動作を行うことが可能となる。   According to the sound source separation device of the present invention, a plurality of observation signals obtained via a plurality of microphones are branched to the side branch side, and the separation matrix is updated in the frequency domain, and the updated separation matrix is also obtained. Corresponding time domain filter coefficients are supplied to the filter group of the separation unit after the non-causal components are partially removed. Therefore, the separation unit located in the main path of multiple observation signals does not directly update the separation matrix and uses a shortened filter coefficient, so the signal propagation delay time is greatly increased while maintaining the separation performance. It is possible to perform an online operation while reducing the number of times.

本発明において、前記分離部により生成された前記複数の分離信号をそれぞれ音に変換する複数のレシーバを設けることができる。例えば、一般的な補聴器を想定すると、使用者の外耳道に音を出力するレシーバを具備する補聴器に対して本発明の適用が可能である。   In the present invention, it is possible to provide a plurality of receivers that respectively convert the plurality of separated signals generated by the separation unit into sound. For example, assuming a general hearing aid, the present invention can be applied to a hearing aid including a receiver that outputs sound to the user's external auditory canal.

本発明の分離行列処理部は、前記複数の観測信号のそれぞれを前記周波数領域の信号群に変換する短時間フーリエ変換部と、前記周波数領域の信号群に基づいて前記分離行列を更新する分離行列更新部と、前記分離行列を時系列の前記フィルタ係数に変換する逆フーリエ変換部とを含めて構成することができる。よって、短時間フーリエ変換部から逆フーリエ変換部に至る周波数領域において分離行列の更新を行うので、遅延時間への影響が少ない演算処理を実現することができる。   The separation matrix processing unit of the present invention includes a short-time Fourier transform unit that converts each of the plurality of observation signals into the frequency domain signal group, and a separation matrix that updates the separation matrix based on the frequency domain signal group. An updating unit and an inverse Fourier transform unit that converts the separation matrix into the time-series filter coefficients can be included. Therefore, since the separation matrix is updated in the frequency domain from the short-time Fourier transform unit to the inverse Fourier transform unit, it is possible to realize arithmetic processing with little influence on the delay time.

本発明のフィルタ係数変換部は、前記分離行列処理部により生成された前記フィルタ係数に対する循環シフトを行う循環シフト部と、前記循環シフトされた前記フィルタ係数の前記非因果成分のうち所定部分を除去するフィルタ係数除去部とを含めて構成することができる。この場合、前記フィルタ係数除去部は、前記非因果成分のうちの時系列の中央近傍の所定サンプル数を除いた前記所定部分を除去することが望ましい。よって、分離性能に比較的寄与が少ない非因果成分の所定部分を選択的に除去することでフィルタ係数を短縮化し、分離部における遅延時間の確実な低減が可能となる。   The filter coefficient conversion unit according to the present invention removes a predetermined portion from the cyclic shift unit that performs a cyclic shift on the filter coefficient generated by the separation matrix processing unit, and the non-causal component of the cyclically shifted filter coefficient. And a filter coefficient removing unit to be configured. In this case, it is preferable that the filter coefficient removing unit removes the predetermined portion excluding the predetermined number of samples in the vicinity of the center of the time series among the non-causal components. Therefore, the filter coefficient can be shortened by selectively removing a predetermined portion of the non-causal component that contributes relatively little to the separation performance, and the delay time in the separation unit can be reliably reduced.

本前記非因果成分の所定部分から除かれる所定サンプル数は、10msを超えない時間に相当するサンプル数に設定することが望ましい。一般的な補聴器における遅延時間の許容値上限は10ms程度であると言われているため、本発明を補聴器に適用する場合の性能を確保するためである。   The predetermined number of samples excluded from the predetermined part of the non-causal component is preferably set to the number of samples corresponding to a time not exceeding 10 ms. This is to ensure the performance when the present invention is applied to a hearing aid because the upper limit of the allowable delay time in a general hearing aid is said to be about 10 ms.

本発明の分離部は、前記分離行列の要素に対応する複数のFIRフィルタ部と、前記分離行列による分離演算の加算に対応して、前記複数のFIRフィルタ部の出力を加算する複数の加算部とを含めて構成することができる。よって、K×Mの分離行列に対応して、K×M個のFIRフィルタ部及びM個の加算部を設けることで時間領域の分離部を構成することが可能となる。なお、2×2の分離行列の場合には、分離部には4個のFIRフィルタ部及び2個の加算部を設ければよい(図1参照)。   The separation unit of the present invention includes a plurality of FIR filter units corresponding to elements of the separation matrix and a plurality of addition units that add outputs of the plurality of FIR filter units in response to addition of separation operations by the separation matrix. And can be configured. Therefore, a time domain separation unit can be configured by providing K × M FIR filter units and M addition units corresponding to the K × M separation matrix. In the case of a 2 × 2 separation matrix, the separation unit may be provided with four FIR filter units and two addition units (see FIG. 1).

以上説明したように本発明によれば、サイドブランチ側で周波数領域の分離演算を行うとともに、時間領域のフィルタ係数の非因果成分を部分的に除去した上で分離部のフィルタ群に供給するようにしたので、分離性能を劣化させることなく、信号伝搬の遅延時間を大幅に低減することが可能となる。よって、オンラインでリアルタイムに音源分離を行うことができ、補聴器等への適用に好適な音源分離装置を実現することできる。   As described above, according to the present invention, the frequency domain separation operation is performed on the side branch side, and the non-causal components of the time domain filter coefficients are partially removed and then supplied to the filter group of the separation unit. As a result, the signal propagation delay time can be significantly reduced without degrading the separation performance. Therefore, sound source separation can be performed online in real time, and a sound source separation device suitable for application to a hearing aid or the like can be realized.

本発明を適用した一実施形態である音源分離装置の概略の構成例を示すブロック図である。It is a block diagram which shows the example of a schematic structure of the sound source separation apparatus which is one Embodiment to which this invention is applied. 逆フーリエ変換部から出力されるフィルタ係数の波形例を示す図である。It is a figure which shows the example of a waveform of the filter coefficient output from an inverse Fourier-transform part. 循環シフト部から出力されるフィルタ係数の波形例を示す図である。It is a figure which shows the example of a waveform of the filter coefficient output from a cyclic shift part. フィルタ係数除去部によって除去された後のフィルタ係数の波形例を示す図である。It is a figure which shows the example of a waveform of the filter coefficient after removing by the filter coefficient removal part. 本発明との対比のため、従来の構成を適用した音源分離装置によるシミュレーションの検証結果を示す比較例である。It is a comparative example which shows the verification result of the simulation by the sound source separator which applied the conventional structure for contrast with this invention. 本実施形態の音源分離装置による図5と同様のシミュレーションの検証結果を示す実施例である。It is an Example which shows the verification result of the simulation similar to FIG. 5 by the sound source separation apparatus of this embodiment. 図5の比較例において用いられる従来の構成の概要を示す図である。It is a figure which shows the outline | summary of the conventional structure used in the comparative example of FIG. 本実施形態の音源分離装置の変形例である。It is a modification of the sound source separation apparatus of this embodiment.

以下、本発明を適用した音源分離装置の実施形態について添付図面を参照しながら説明する。ただし、以下に述べる実施形態は本発明の技術思想を適用した形態の例であって、本発明が本実施形態の内容により限定されることはない。   Hereinafter, embodiments of a sound source separation apparatus to which the present invention is applied will be described with reference to the accompanying drawings. However, the embodiments described below are examples of forms to which the technical idea of the present invention is applied, and the present invention is not limited by the contents of the present embodiments.

図1は、本発明を適用した一実施形態である音源分離装置1の概略の構成例を示すブロック図である。図1の音源分離装置1は、2つのマイクロホン10、11と、2つのレシーバ12、13と、短時間フーリエ変換部21と、分離行列更新部22と、逆フーリエ変換部23と、循環シフト部31と、フィルタ係数除去部32と、4つのFIRフィルタ部41、42、43、44と、2つの加算部45、46とを含んで構成される。このうち、短時間フーリエ変換部21、分離行列更新部22、逆フーリエ変換部23は、分離行列処理部20を構成し、循環シフト部31及びフィルタ係数除去部32は、フィルタ係数変換部30を構成し、FIRフィルタ部41、42、43、44及び加算部45、46は、分離部40を構成する。   FIG. 1 is a block diagram illustrating a schematic configuration example of a sound source separation device 1 according to an embodiment to which the present invention is applied. The sound source separation device 1 of FIG. 1 includes two microphones 10 and 11, two receivers 12 and 13, a short-time Fourier transform unit 21, a separation matrix update unit 22, an inverse Fourier transform unit 23, and a cyclic shift unit. 31, a filter coefficient removing unit 32, four FIR filter units 41, 42, 43 and 44, and two adding units 45 and 46. Among these, the short-time Fourier transform unit 21, the separation matrix update unit 22, and the inverse Fourier transform unit 23 constitute the separation matrix processing unit 20, and the cyclic shift unit 31 and the filter coefficient removal unit 32 comprise the filter coefficient conversion unit 30. The FIR filter units 41, 42, 43, 44 and the addition units 45, 46 constitute a separation unit 40.

以上の構成において、マイクロホン10、11は、複数の音源が存在する空間内の異なる2つの観測位置にそれぞれ配置され、入力される音を収集して電気信号に変換する。図1においては、一方のマイクロホン10が時系列の観測信号x1(n)を出力し、他方のマイクロホン11が時系列の観測信号x2(n)を出力する。マイクロホン10、11から出力される観測信号x1(n)、x2(n)に対し、後述の分離部40を介して、各音源の音を推定した信号である分離信号y1(n)、y2(n)が分離される。そして、一方のレシーバ12は、分離信号y1(n)を音に変換して出力するとともに、他方のレシーバ13は、分離信号y2(n)を音に変換して出力する。なお、レシーバ12、13を1つのレシーバと切替スイッチ(図示せず)で構成し、分離信号y1(n)、y2(n)をスイッチなどで切り替えてレシーバに出力し、このレシーバが、入力されるそれぞれの分離信号y1(n)、y2(n)を音に変換して出力してもよい。さらに、分離信号y1(n)、y2(n)を直接他の機器に取り込んで処理する場合には、図1の1対のレシーバ12、13を省略した構成を採用することもできる。   In the above configuration, the microphones 10 and 11 are respectively arranged at two different observation positions in a space where a plurality of sound sources exist, collect input sound and convert it into an electric signal. In FIG. 1, one microphone 10 outputs a time-series observation signal x1 (n), and the other microphone 11 outputs a time-series observation signal x2 (n). Separation signals y1 (n) and y2 (), which are signals obtained by estimating the sound of each sound source, with respect to the observation signals x1 (n) and x2 (n) output from the microphones 10 and 11, via a separation unit 40 described later. n) is separated. One receiver 12 converts the separated signal y1 (n) into sound and outputs it, and the other receiver 13 converts the separated signal y2 (n) into sound and outputs it. The receivers 12 and 13 are composed of one receiver and a changeover switch (not shown), and the separated signals y1 (n) and y2 (n) are switched by a switch or the like and output to the receiver. The separated signals y1 (n) and y2 (n) may be converted into sound and output. Furthermore, when the separated signals y1 (n) and y2 (n) are directly taken in and processed by another device, a configuration in which the pair of receivers 12 and 13 in FIG. 1 is omitted may be employed.

ここで、図1に示すように、マイクロホン10、11からレシーバ12、13に至る主な経路には分離部40のみが配置されるとともに、それと並列する経路(サイドブランチ)に分離行列処理部20及びフィルタ係数変換部30が配置されている。このような構成により、観測信号x1(n)、x2(n)に基づき分離信号y1(n)、y2(n)が得られるまでには、前述のサイドブランチにおける処理による時間遅れの影響を受けないため、遅延時間の短縮が可能である。なお、本実施形態の音源分離装置1の遅延時間について詳しくは後述する。   Here, as shown in FIG. 1, only the separation unit 40 is arranged in the main path from the microphones 10 and 11 to the receivers 12 and 13, and the separation matrix processing unit 20 is arranged in a path (side branch) parallel thereto. And the filter coefficient conversion part 30 is arrange | positioned. With such a configuration, until the separated signals y1 (n) and y2 (n) are obtained based on the observation signals x1 (n) and x2 (n), the time delay due to the processing in the side branch described above is affected. Therefore, the delay time can be shortened. The delay time of the sound source separation device 1 of the present embodiment will be described in detail later.

図1に示すように、マイクロホン10、11から出力される観測信号x1(n)、x2(n)はサイドブランチ側に分岐し、短時間フーリエ変換部21に入力される。短時間フーリエ変換部21は、時系列の観測信号x1(n)、x2(n)をずらしながら所定の窓関数を乗じることで短時間フーリエ変換処理を施し、周波数領域の観測信号x1(ω)、x2(ω)を生成する。短時間フーリエ変換部21では、観測信号x1(n)、x2(n)のうち連続する所定のサンプル数が一括して変換処理の対象となる。短時間フーリエ変換部21により生成された観測信号x1(ω)、x2(ω)は、分離行列更新部22に入力される。   As shown in FIG. 1, the observation signals x1 (n) and x2 (n) output from the microphones 10 and 11 branch to the side branch side and are input to the short-time Fourier transform unit 21. The short-time Fourier transform unit 21 performs a short-time Fourier transform process by multiplying a predetermined window function while shifting the time-series observation signals x1 (n) and x2 (n), and the frequency-domain observation signal x1 (ω). , X2 (ω). In the short-time Fourier transform unit 21, a predetermined number of consecutive samples of the observation signals x1 (n) and x2 (n) are collectively subjected to transform processing. Observation signals x1 (ω) and x2 (ω) generated by the short-time Fourier transform unit 21 are input to the separation matrix update unit 22.

分離行列更新部22は、観測信号x1(ω)、x2(ω)に基づいて分離信号y1(ω)、y2(ω)を生成するための分離行列W(ω)を更新する。図1の例では、分離行列W(ω)が2×2の行列で表され、周波数領域で観測信号ベクトルx(ω)及び分離信号ベクトルy(ω)との間で、次の(1)式の関係が成り立つ。

Figure 2018022119
ただし、Tは行列の転置を表す。 The separation matrix updating unit 22 updates the separation matrix W (ω) for generating the separation signals y1 (ω) and y2 (ω) based on the observation signals x1 (ω) and x2 (ω). In the example of FIG. 1, the separation matrix W (ω) is represented by a 2 × 2 matrix, and the following (1) between the observed signal vector x (ω) and the separated signal vector y (ω) in the frequency domain. The relationship of the formula holds.
Figure 2018022119
However, T represents transposition of a matrix.

分離行列更新部22においては多様な分離アルゴリズムを適用可能であるが、例えば、周知の独立ベクトル分析を適用することができる。この独立ベクトル分析は、周波数領域における分離信号ベクトルが互いに統計的に独立になるように分離行列を更新する手法である。独立ベクトル分析によれば、原理上、各々の周波数帯域の分離信号を各音源に対応付けて並べ替えるというパーミュテーション問題を回避できるメリットがある。   Although various separation algorithms can be applied to the separation matrix update unit 22, for example, a well-known independent vector analysis can be applied. This independent vector analysis is a method of updating the separation matrix so that the separation signal vectors in the frequency domain are statistically independent from each other. Independent vector analysis, in principle, has the advantage of avoiding the permutation problem of rearranging the separated signals in each frequency band in association with each sound source.

ここで、K個の音源とM個の観測点が存在する状況で独立ベクトル分析を適用することを想定すると、観測信号ベクトルx(ω)の要素数がM、かつ分離信号ベクトルy(ω)の要素数がKで、K×Mの分離行列W(ω)が更新されることになる。この場合、図1は、K=M=2の場合に対応する構成例である。独立ベクトル分析による分離アルゴリズムは、次の(2)式に示す目的関数J(W)を最小化する処理に帰結する。

Figure 2018022119
ただし、
W:分離行列W(ω)の全周波数が集合した分離行列
E[・]:時刻tに関する期待値
G[・]:G(y(ω))=−logq(y(ω))(音源の確率密度関数q[・]を用いた関数)
:全周波数の分離信号ベクトル
ω:周波数の上限 Here, assuming that independent vector analysis is applied in a situation where there are K sound sources and M observation points, the number of elements of the observation signal vector x (ω) is M and the separated signal vector y (ω). The number of elements is K, and the K × M separation matrix W (ω) is updated. In this case, FIG. 1 is a configuration example corresponding to the case where K = M = 2. The separation algorithm based on independent vector analysis results in a process for minimizing the objective function J (W) shown in the following equation (2).
Figure 2018022119
However,
W: Separation matrix in which all frequencies of the separation matrix W (ω) are aggregated E [•]: Expected value for time t G [•]: G (y (ω)) = − logq (y (ω)) (sound source Function using probability density function q [•]
y k : separation signal vector of all frequencies N ω : upper limit of frequency

(2)式の目的関数J(W)の最小化は、所定のステップサイズηを設定し、演算により得られた修正量ΔWを用いて、次の(3)式によりWを逐次更新することにより行うことができる。
W ← W−ηΔW (3)
なお、(2)式の目的関数J(W)を最小化するために演算アルゴリズムは多様であるが、例えば、収束速度の向上の観点から、補助関数法を用いることができる。補助関数法は、前述の目的関数J(W)に対して設定された補助関数を最小化することで、目的関数J(W)を小さくする分離行列Wを求める手法であり、収束が速い点が特徴である。
In order to minimize the objective function J (W) in the equation (2), a predetermined step size η is set, and the correction amount ΔW obtained by the calculation is used to sequentially update W according to the following equation (3). Can be performed.
W ← W−ηΔW (3)
There are various arithmetic algorithms for minimizing the objective function J (W) in the equation (2). For example, an auxiliary function method can be used from the viewpoint of improving the convergence speed. The auxiliary function method is a method for obtaining a separation matrix W for reducing the objective function J (W) by minimizing the auxiliary function set for the objective function J (W), and has a fast convergence. Is a feature.

次に図1に戻って、分離行列更新部22により更新された分離行列W(ω)は、逆フーリエ変換部23に入力される。逆フーリエ変換部23は、分離行列W(ω)の各要素に対しそれぞれ逆フーリエ変換処理を施し、時間領域のフィルタ係数ha(n)を生成する。具体的には、2×2の分離行列W(ω)の要素であるW11(ω)、W12(ω)、W21(ω)、W22(ω)に基づき、時間領域の4つのフィルタ係数ha11(n)、ha12(n)、ha21(n)、ha22(n)が生成される。以下の説明では、単にフィルタ係数ha(n)と表記したときは、前述の4つのフィルタ係数ha11(n)、ha12(n)、ha21(n)、ha22(n)の各々を代表したものとする。   Next, returning to FIG. 1, the separation matrix W (ω) updated by the separation matrix update unit 22 is input to the inverse Fourier transform unit 23. The inverse Fourier transform unit 23 performs an inverse Fourier transform process on each element of the separation matrix W (ω) to generate a time domain filter coefficient ha (n). Specifically, based on W11 (ω), W12 (ω), W21 (ω), and W22 (ω), which are elements of a 2 × 2 separation matrix W (ω), four time domain filter coefficients ha11 ( n), ha12 (n), ha21 (n), ha22 (n) are generated. In the following description, when the filter coefficient ha (n) is simply expressed, it is assumed that each of the above-described four filter coefficients ha11 (n), ha12 (n), ha21 (n), ha22 (n) is representative. To do.

次に、逆フーリエ変換部23で生成されたフィルタ係数ha(n)は、循環シフト部31に入力される。循環シフト部31は、フィルタ係数ha(n)に対して、いわゆる循環シフトを行い、時間領域でシフトされたフィルタ係数hb(n)を出力する。具体的には、Nサンプル(n=1〜N)相当の時系列のフィルタ係数ha(1)〜ha(N)に対し、次の(4)式で示す変換を順次行う。

Figure 2018022119
Next, the filter coefficient ha (n) generated by the inverse Fourier transform unit 23 is input to the cyclic shift unit 31. The cyclic shift unit 31 performs a so-called cyclic shift on the filter coefficient ha (n), and outputs the filter coefficient hb (n) shifted in the time domain. More specifically, the time series filter coefficients ha (1) to ha (N) corresponding to N samples (n = 1 to N) are sequentially converted by the following equation (4).
Figure 2018022119

ここで、図2には、逆フーリエ変換部23から出力されるフィルタ係数ha(n)の波形例を示すとともに、図3には、循環シフト部31から出力されるフィルタ係数hb(n)の波形例を示している。図2及び図3では、横軸の全体のサンプル数をN=4096としており、縦軸のレベルが−1〜1で規格化されている。なお、図2ではn=0が表記されているが、この部分は実際にはデータが存在せず、以降の図についても同様である。まず、図2のフィルタ係数ha(n)は、インパルス信号の波形に類似しており、n=1及びn=Nの付近に多くの成分が集中している。そして、循環シフト部31によりフィルタ係数ha(n)が循環シフトされると、図2の右側の半分の部分が図2のn=1の左側の部分に移る。その結果、図3に示すように、変換後のフィルタ係数hb(n)の場合、n=1〜Nの範囲内の略中央に成分が集中する対称的な波形になる。この循環シフトは、後述の分離部40で時間領域の畳み込み演算を行うのに先立って実行すべき処理である。   Here, FIG. 2 shows a waveform example of the filter coefficient ha (n) output from the inverse Fourier transform unit 23, and FIG. 3 shows the filter coefficient hb (n) output from the cyclic shift unit 31. An example of a waveform is shown. 2 and 3, the total number of samples on the horizontal axis is N = 4096, and the level on the vertical axis is normalized by −1 to 1. In FIG. 2, n = 0 is shown, but no data actually exists in this portion, and the same applies to the following drawings. First, the filter coefficient ha (n) in FIG. 2 is similar to the waveform of the impulse signal, and many components are concentrated in the vicinity of n = 1 and n = N. Then, when the filter coefficient ha (n) is cyclically shifted by the cyclic shift unit 31, the right half part of FIG. 2 moves to the left part of n = 1 in FIG. As a result, as shown in FIG. 3, in the case of the converted filter coefficient hb (n), a symmetric waveform in which components are concentrated at the approximate center in the range of n = 1 to N is obtained. This cyclic shift is a process to be executed prior to performing a time domain convolution operation in the separation unit 40 described later.

次に、循環シフト部31による循環シフト後のフィルタ係数hb(n)は、フィルタ係数除去部32に入力される。フィルタ係数除去部32は、循環シフト後のフィルタ係数hb(n)に対し、非因果成分のうち所定部分を除去して、サンプル数が減少したフィルタ係数h(n)を生成する。ここで、前述の図3には位置Pを示しており、図3の位置Pから左側の部分がフィルタ係数除去部32により除去される。図4は、フィルタ係数除去部32によって除去された後のフィルタ係数h(n)の波形例を示しており、縦軸及び横軸は図2及び図3と同様の表記に従っている。   Next, the filter coefficient hb (n) after the cyclic shift by the cyclic shift unit 31 is input to the filter coefficient removal unit 32. The filter coefficient removal unit 32 removes a predetermined part of the non-causal components from the filter coefficient hb (n) after the cyclic shift, and generates a filter coefficient h (n) with a reduced number of samples. Here, the position P is shown in FIG. 3 described above, and the portion on the left side of the position P in FIG. FIG. 4 shows a waveform example of the filter coefficient h (n) after being removed by the filter coefficient removing unit 32, and the vertical axis and the horizontal axis follow the same notations as in FIGS.

図3に戻って、フィルタ係数hb(n)の中央(n=2048)のサンプルを時刻t=0のサンプルとみなした場合、時間領域の後半の範囲(中央から右側の範囲)は、フィルタ演算で時系列上の過去のサンプルが用いられることになるので、因果性を有する範囲であるということができる。一方、時間領域の前半の範囲(中央から左側の範囲)は、フィルタ演算で時系列上の未来のサンプルが用いられることになるので、非因果性を有する範囲であるということができる。本実施形態においては、フィルタ係数除去部32により、入力されたフィルタ係数hb(n)のうち非因果成分の所定サンプル数を除いた部分のサンプルを除去することで、演算処理に伴う遅延時間を低減できることが確認された。   Returning to FIG. 3, when the sample at the center (n = 2048) of the filter coefficient hb (n) is regarded as the sample at time t = 0, the second half of the time domain (range from the center to the right) is the filter operation. Since a past sample on the time series is used, it can be said that it is a range having causality. On the other hand, the first half of the time domain (the range from the center to the left) is a non-causal range because future samples on the time series are used in the filter operation. In the present embodiment, the filter coefficient removal unit 32 removes samples of the input filter coefficient hb (n) excluding the predetermined number of non-causal components, thereby reducing the delay time associated with the arithmetic processing. It was confirmed that it can be reduced.

なお、フィルタ係数hb(n)のうち全ての非因果成分の全てを除去することは、音源分離の性能劣化を招くことになるので、時系列の中央近傍の所定サンプル数の部分のみを残すものである。例えば、図4の例では、図3の位置Pの近傍の160サンプル相当の部分を残し、それよりも左側の範囲を除去するものである。この場合、全体のサンプル数がN=4096であると仮定すると、除去対象のサンプル数が4096/2−160=1888となり、その結果として、フィルタ係数h(n)のサンプル数が4096/2+160=2208となる。   Note that removing all of the non-causal components from the filter coefficient hb (n) causes performance degradation of sound source separation, so that only a predetermined number of samples in the vicinity of the center in the time series is left. It is. For example, in the example of FIG. 4, a portion corresponding to 160 samples in the vicinity of the position P in FIG. 3 is left, and the range on the left side is removed. In this case, assuming that the total number of samples is N = 4096, the number of samples to be removed is 4096 / 2-160 = 1888, and as a result, the number of samples of the filter coefficient h (n) is 4096/2 + 160 = 2208.

ここで、本実施形態の音源分離装置1を補聴器に適用する場合、前述の非因果成分のうちの残すべき所定サンプル数は、10msを超えない時間に相当するサンプル数に設定することが望ましい。前述の所定サンプル数が時間換算で10msを超える場合、マイクロホン10、11からレシーバ12、13に至る遅延時間も10msを超えることになる。一般的な補聴器における遅延時間の許容値は、10msを超えないことが知られている。すなわち、前述の所定サンプル数が10msを超える時間に設定されると、本実施形態の音源分離装置1を適用した補聴器の使用者に違和感を与える要因になる。一方、前述の非因果成分のうちの残すべき所定サンプル数の下限値は分離性能に関連するが、補聴器の使用状況や分離性能などの条件に応じて適切に設定される。   Here, when applying the sound source separation device 1 of the present embodiment to a hearing aid, it is desirable to set the predetermined number of samples to be left among the above-mentioned non-causal components to a number of samples corresponding to a time not exceeding 10 ms. When the predetermined number of samples exceeds 10 ms in terms of time, the delay time from the microphones 10 and 11 to the receivers 12 and 13 also exceeds 10 ms. It is known that the allowable delay time in a general hearing aid does not exceed 10 ms. That is, if the predetermined number of samples is set to a time exceeding 10 ms, it may cause a sense of discomfort to the user of the hearing aid to which the sound source separation device 1 of the present embodiment is applied. On the other hand, the lower limit value of the predetermined number of samples to be left among the above-mentioned non-causal components is related to the separation performance, but is appropriately set according to conditions such as the use situation of the hearing aid and the separation performance.

次に、フィルタ係数除去部32で得られた変換後のフィルタ係数h(n)は、分離部40に含まれるFIRフィルタ部41〜44に供給される。具体的には、フィルタ係数h11(n)がFIRフィルタ部41に供給され、フィルタ係数h12(n)がFIRフィルタ部42に供給され、フィルタ係数h21(n)がFIRフィルタ部43に供給され、フィルタ係数h22(n)がFIRフィルタ部44に供給される。このうち、2つのFIRフィルタ部41、43には時系列の観測信号x1(n)が入力され、2つのFIRフィルタ部42、44には時系列の観測信号x2(n)が入力される。FIRフィルタ部41〜44の役割は、周波数領域における前述の(1)式に含まれる各々の積に対応して、時間領域での畳み込み演算を行うことである。   Next, the converted filter coefficient h (n) obtained by the filter coefficient removal unit 32 is supplied to the FIR filter units 41 to 44 included in the separation unit 40. Specifically, the filter coefficient h11 (n) is supplied to the FIR filter unit 41, the filter coefficient h12 (n) is supplied to the FIR filter unit 42, and the filter coefficient h21 (n) is supplied to the FIR filter unit 43. The filter coefficient h22 (n) is supplied to the FIR filter unit 44. Among them, the time series observation signal x1 (n) is input to the two FIR filter sections 41 and 43, and the time series observation signal x2 (n) is input to the two FIR filter sections 42 and 44. The role of the FIR filter units 41 to 44 is to perform a convolution operation in the time domain corresponding to each product included in the above-described equation (1) in the frequency domain.

続いて、FIRフィルタ部41〜44の後段には2つの加算部45、46が配置されている。一方の加算部45は、2つのFIRフィルタ部41、42の各出力を加算し、加算結果を分離信号y1(n)として出力する。他方の加算部46は、2つのFIRフィルタ部43、44の各出力を加算し、加算結果を分離信号y2(n)として出力する。加算部45、46の役割は、周波数領域における前述の(1)式に含まれる加算を時間領域で行うことである。FIRフィルタ部41〜44及び加算部45、46により得られた分離信号y1(n)、y2(n)のうち、一方の分離信号y1(n)がレシーバ12を介して音に変換され、他方の分離信号y2(n)がレシーバ13を介して音に変換される。   Subsequently, two addition units 45 and 46 are arranged at the subsequent stage of the FIR filter units 41 to 44. One adding unit 45 adds the outputs of the two FIR filter units 41 and 42, and outputs the addition result as a separated signal y1 (n). The other addition unit 46 adds the outputs of the two FIR filter units 43 and 44, and outputs the addition result as a separated signal y2 (n). The roles of the adding units 45 and 46 are to perform addition included in the above-described equation (1) in the frequency domain in the time domain. Of the separated signals y1 (n) and y2 (n) obtained by the FIR filter units 41 to 44 and the adding units 45 and 46, one separated signal y1 (n) is converted into sound via the receiver 12, and the other Separated signal y2 (n) is converted into sound via the receiver 13.

分離部40における分離演算は、観測信号x1(n)、x2(n)を入力とし、分離信号y1(n)、y2(n)を出力とし、タップ数をTとしたとき、次の(5)式及び(6)式で表すことができる。

Figure 2018022119
In the separation operation in the separation unit 40, when the observation signals x1 (n) and x2 (n) are input, the separation signals y1 (n) and y2 (n) are output, and the number of taps is T, the following (5 ) And (6).
Figure 2018022119

なお、図1の音源分離装置1は、2つの観測信号x1(n)、x2(n)と、2つの分離信号y1(n)、y2(n)と、2×2の分離行列W(ω)に対応する構成例を前提としているが、より一般的に、M個の観測信号x(n)と、K個の分離信号y(n)と、K×Mの分離行列Wとに基づく音源分離を行う音源分離装置に対しても本発明の適用が可能である。この場合には、図1の構成例において、M個のマイクロホン及びK個のレシーバを設けるとともに、分離部40にはK×M個のFIRフィルタ部とK個の加算部を設ける必要がある。   The sound source separation device 1 in FIG. 1 has two observation signals x1 (n) and x2 (n), two separation signals y1 (n) and y2 (n), and a 2 × 2 separation matrix W (ω ), But more generally, a sound source based on M observed signals x (n), K separated signals y (n), and a K × M separation matrix W The present invention can also be applied to a sound source separation device that performs separation. In this case, in the configuration example of FIG. 1, it is necessary to provide M microphones and K receivers, and the separation unit 40 must be provided with K × M FIR filter units and K addition units.

次に、図5〜図7を参照して、本実施形態の音源分離装置1の効果について説明する。図5は、本発明との対比のため、従来の構成を適用した音源分離装置によるシミュレーションの検証結果を示す比較例であり、図6は、本実施形態の音源分離装置1による同様のシミュレーションの検証結果を示す実施例である。ここで、図7は、図5の比較例において用いられる従来の構成の概要を示している。すなわち、図1の構成と同様の2つのマイクロホン10、11及び2つのレシーバ12、13が設けられ、その間の主たる経路には順に、短時間フーリエ変換部100と、分離行列演算部101と、逆短時間フーリエ変換部102が配置されている。   Next, the effects of the sound source separation device 1 of the present embodiment will be described with reference to FIGS. FIG. 5 is a comparative example showing a simulation verification result by a sound source separation device to which a conventional configuration is applied for comparison with the present invention, and FIG. 6 shows a similar simulation by the sound source separation device 1 of the present embodiment. It is an Example which shows a verification result. Here, FIG. 7 shows an outline of a conventional configuration used in the comparative example of FIG. That is, two microphones 10 and 11 and two receivers 12 and 13 similar to the configuration in FIG. 1 are provided, and the short-time Fourier transform unit 100, the separation matrix calculation unit 101, and the inverse are sequentially arranged in the main path between them. A short-time Fourier transform unit 102 is arranged.

図5及び図6のシミュレーションは、マイクロホン10、11に対して男声及び女声の混合音を入力し、マイクロホン10の観測信号x1(n)及びマイクロホン11の観測信号x2(n)に基づく分離演算の結果である2つの分離信号y1(n)、y2(n)を生成することにより実施した。図5及び図6には、0〜0.7sの時間範囲内で観測信号x1(n)及び分離信号y1(n)、y2(n)のそれぞれの波形を示している。なお、図5及び図6には、混合前の原信号の波形は示されないが、分離信号y1(n)、y2(n)の波形自体は、原信号に概ね忠実であり、主に遅延時間のみが問題となる。   In the simulations of FIGS. 5 and 6, a mixed sound of male voice and female voice is input to the microphones 10 and 11, and separation operation based on the observation signal x 1 (n) of the microphone 10 and the observation signal x 2 (n) of the microphone 11 is performed. The result was generated by generating two separated signals y1 (n) and y2 (n). 5 and 6 show the waveforms of the observation signal x1 (n) and the separation signals y1 (n) and y2 (n) within the time range of 0 to 0.7 s. 5 and 6 do not show the waveform of the original signal before mixing, but the waveforms of the separated signals y1 (n) and y2 (n) are almost faithful to the original signal and mainly have a delay time. Only matters.

まず、従来の図5の比較例においては、観測信号x1(n)に対する分離信号y1(n)、y2(n)の遅延時間は、0.3s(300ms)程度であった。これに対し、本実施形態の図6によれば、観測信号x1(n)に対する分離信号y1(n)、y2(n)の遅延時間は極めて小さくなり、概ね0.01s(10ms)程度であることが確認された。このような遅延時間の大幅な低減は、分離行列Wの更新をサイドブランチ側で行っているため主な経路の遅延が解消されることに加え、フィルタ係数変換部30によりフィルタ係数h(n)の音源分離への寄与が比較的少ない非因果成分を除去したためである。従って、本実施形態の音源分離装置1の構成を採用することにより、オンラインの演算処理を行いつつ入出力間の時間遅れに伴う課題を解決でき、例えば補聴器への適用に適した音源分離装置1を実現することができる。   First, in the conventional comparative example of FIG. 5, the delay time of the separated signals y1 (n) and y2 (n) with respect to the observation signal x1 (n) is about 0.3 s (300 ms). On the other hand, according to FIG. 6 of the present embodiment, the delay time of the separated signals y1 (n) and y2 (n) with respect to the observation signal x1 (n) is extremely small, and is approximately 0.01 s (10 ms). It was confirmed. Such a significant reduction in the delay time is that the delay of the main path is eliminated because the separation matrix W is updated on the side branch side, and in addition, the filter coefficient h (n) is filtered by the filter coefficient conversion unit 30. This is because non-causal components that contribute relatively little to sound source separation are removed. Therefore, by adopting the configuration of the sound source separation device 1 of the present embodiment, it is possible to solve the problems associated with the time delay between input and output while performing online arithmetic processing. For example, the sound source separation device 1 suitable for application to a hearing aid Can be realized.

次に図8は、本実施形態の音源分離装置1の変形例を示している。図8の変形例は、いわゆるプロジェクションバックの構成を想定したものであり、2つのマイクロホン10、11に収集された混合音を単に分離するだけではなく、ステレオ装置のように音源の定位情報を保持したまま分離する機能を有する。図8の変形例において、図1と異なる点は、分離行列処理部20に、分離行列W(ω)に対してプロジェクションバックを適用するための周知の演算を施すプロジェクションバック演算部50を追加した点と、分離部40及び1対の分離信号y1(n)、y2(n)の経路のそれぞれを2系統にした点である。   Next, FIG. 8 shows a modification of the sound source separation device 1 of the present embodiment. The modification in FIG. 8 assumes a so-called projection back configuration, and not only separates the mixed sound collected by the two microphones 10 and 11, but also holds the localization information of the sound source like a stereo device. It has a function of separating as it is. In the modification of FIG. 8, the difference from FIG. 1 is that a projection back calculation unit 50 that performs a known calculation for applying projection back to the separation matrix W (ω) is added to the separation matrix processing unit 20. The point and the path of the separation unit 40 and the pair of separated signals y1 (n) and y2 (n) are two systems.

すなわち、2つの分離部40p、40qはいずれも2つのマイクロホンからの2つの観測信号x1(n)、x2(n)を入力し、フィルタ係数変換部30からそれぞれに対応するフィルタ係数h(n)が供給される。そして、一方の分離部40pは2つの分離信号y1p(n)、y2p(n)を出力し、他方の分離部40qは2つの分離信号y1q(n)、y2q(n)を出力する。このうち、1対の分離信号y1p(n)、y1q(n)により一方の音源の定位が得られ、1対の分離信号y2p(n)、y2q(n)により他方の音源の定位が得られる。   That is, the two separation units 40p and 40q both receive two observation signals x1 (n) and x2 (n) from two microphones, and the filter coefficient h (n) corresponding to each from the filter coefficient conversion unit 30. Is supplied. One separating unit 40p outputs two separated signals y1p (n) and y2p (n), and the other separating unit 40q outputs two separated signals y1q (n) and y2q (n). Among these, the localization of one sound source is obtained by a pair of separated signals y1p (n) and y1q (n), and the localization of the other sound source is obtained by a pair of separated signals y2p (n) and y2q (n). .

以上、本実施形態により本発明を適用した音源分離装置1について説明したが、本発明は、多様な機器に適用することができる。すなわち、本発明の音源分離装置1を一般的な補聴器に適用できることは上述した通りであるが、それ以外のコンピュータや通信機器の一部として組み込んでもよい。また、本実施形態の図1の構成は同様の機能を有する限り適宜に変更でき、細部の処理内容の変更に加えて、各部材間の相互接続にネットワークや無線通信が介在してもよい。それ以外の点についても、本実施形態の内容に限定されず、多様な構成及び処理を採用可能である。   The sound source separation device 1 to which the present invention is applied has been described above according to the present embodiment, but the present invention can be applied to various devices. That is, the sound source separation device 1 of the present invention can be applied to a general hearing aid as described above, but may be incorporated as a part of other computers or communication devices. In addition, the configuration of FIG. 1 of the present embodiment can be appropriately changed as long as it has the same function, and in addition to the change of detailed processing content, a network or wireless communication may be interposed in the interconnection between the members. Other points are not limited to the contents of the present embodiment, and various configurations and processes can be employed.

1…音源分離装置
10、11…マイクロホン
12、13…レシーバ
20…分離行列処理部
21…短時間フーリエ変換部
22…分離行列更新部
23…逆フーリエ変換部
30…フィルタ係数変換部
31…循環シフト部
32…フィルタ係数除去部
40…分離部
41、42、43、44…FIRフィルタ部
45、46…加算部

DESCRIPTION OF SYMBOLS 1 ... Sound source separation apparatus 10, 11 ... Microphone 12, 13 ... Receiver 20 ... Separation matrix processing part 21 ... Short-time Fourier transformation part 22 ... Separation matrix update part 23 ... Inverse Fourier transformation part 30 ... Filter coefficient transformation part 31 ... Cyclic shift Unit 32 ... Filter coefficient removing unit 40 ... Separating units 41, 42, 43, 44 ... FIR filter units 45, 46 ... Adding unit

Claims (7)

複数の音源の混合音から各音源の音を分離する音源分離装置であって、
前記複数の音源から伝搬する音を収集し、それぞれ電気信号に変換する複数のマイクロホンと、
前記複数のマイクロホンから時系列で出力される複数の観測信号を周波数領域の信号群に変換し、前記複数の音源を分離するための分離行列を前記周波数領域の信号群に基づいて更新し、更新された前記分離行列を時系列のフィルタ係数に変換して出力する分離行列処理部と、
前記時系列のフィルタ係数に含まれる非因果成分を部分的に除去することにより、前記フィルタ係数を変換するフィルタ係数変換部と、
前記フィルタ係数変換部により変換された前記フィルタ係数を、前記複数の観測信号の畳み込み演算を行うフィルタ群に供給し、前記分離行列に対応して前記複数の観測信号から分離された複数の分離信号を生成する分離部と、
を備えることを特徴とする音源分離装置。
A sound source separation device for separating the sound of each sound source from the mixed sound of a plurality of sound sources,
A plurality of microphones for collecting sound propagating from the plurality of sound sources and converting the sound into electric signals;
A plurality of observation signals output in time series from the plurality of microphones are converted into frequency domain signal groups, and a separation matrix for separating the plurality of sound sources is updated based on the frequency domain signal groups, and updated. A separation matrix processing unit that converts the separation matrix into a time-series filter coefficient and outputs the filter matrix;
A filter coefficient conversion unit that converts the filter coefficient by partially removing non-causal components included in the time-series filter coefficient;
The filter coefficients converted by the filter coefficient conversion unit are supplied to a filter group that performs a convolution operation of the plurality of observation signals, and a plurality of separated signals separated from the plurality of observation signals corresponding to the separation matrix A separation unit for generating
A sound source separation device comprising:
前記分離部により生成された前記複数の分離信号をそれぞれ音に変換する複数のレシーバを更に備えることを特徴とする請求項1に記載の音源分離装置。   The sound source separation device according to claim 1, further comprising a plurality of receivers that respectively convert the plurality of separation signals generated by the separation unit into sound. 前記分離行列処理部は、
前記複数の観測信号のそれぞれを前記周波数領域の信号群に変換する短時間フーリエ変換部と、
前記周波数領域の信号群に基づいて前記分離行列を更新する分離行列更新部と、
前記分離行列を時系列の前記フィルタ係数に変換する逆フーリエ変換部と、
を含むことを特徴とする請求項1に記載の音源分離装置。
The separation matrix processing unit
A short-time Fourier transform unit that transforms each of the plurality of observation signals into a signal group in the frequency domain;
A separation matrix updating unit that updates the separation matrix based on the signal group in the frequency domain;
An inverse Fourier transform unit for transforming the separation matrix into the time-series filter coefficients;
The sound source separation device according to claim 1, comprising:
前記フィルタ係数変換部は、
前記分離行列処理部により生成された前記フィルタ係数に対する循環シフトを行う循環シフト部と、
前記循環シフトされた前記フィルタ係数の前記非因果成分のうち所定部分を除去するフィルタ係数除去部と、
を含むことを特徴とする請求項1に記載の音源分離装置。
The filter coefficient conversion unit
A cyclic shift unit that performs a cyclic shift on the filter coefficient generated by the separation matrix processing unit;
A filter coefficient removing unit that removes a predetermined portion of the non-causal components of the cyclically shifted filter coefficients;
The sound source separation device according to claim 1, comprising:
前記フィルタ係数除去部は、前記非因果成分のうち、時系列の中央近傍の所定サンプル数を除いた前記所定部分を除去することを特徴とする請求項4に記載の音源分離装置。   5. The sound source separation device according to claim 4, wherein the filter coefficient removing unit removes the predetermined portion from the non-causal component excluding a predetermined number of samples in the vicinity of the center of the time series. 前記所定サンプル数は、10msを超えない時間に相当するサンプル数に設定されることを特徴とする請求項5に記載の音源分離装置。   6. The sound source separation device according to claim 5, wherein the predetermined number of samples is set to a number of samples corresponding to a time not exceeding 10 ms. 前記分離部は、
前記分離行列の要素に対応する複数のFIRフィルタ部と、
前記分離行列による分離演算の加算に対応して、前記複数のFIRフィルタ部の出力を加算する複数の加算部と、
を含むことを特徴とする請求項1に記載の音源分離装置。
The separation unit is
A plurality of FIR filter units corresponding to elements of the separation matrix;
In response to the addition of the separation operation by the separation matrix, a plurality of addition units that add the outputs of the plurality of FIR filter units;
The sound source separation device according to claim 1, comprising:
JP2016155083A 2016-08-05 2016-08-05 Sound source separator Active JP6763721B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016155083A JP6763721B2 (en) 2016-08-05 2016-08-05 Sound source separator
US15/663,019 US10410640B2 (en) 2016-08-05 2017-07-28 Sound source separation apparatus
EP17184363.4A EP3279896A1 (en) 2016-08-05 2017-08-01 Sound source separation apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016155083A JP6763721B2 (en) 2016-08-05 2016-08-05 Sound source separator

Publications (2)

Publication Number Publication Date
JP2018022119A true JP2018022119A (en) 2018-02-08
JP6763721B2 JP6763721B2 (en) 2020-09-30

Family

ID=59676976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016155083A Active JP6763721B2 (en) 2016-08-05 2016-08-05 Sound source separator

Country Status (3)

Country Link
US (1) US10410640B2 (en)
EP (1) EP3279896A1 (en)
JP (1) JP6763721B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3220386A1 (en) * 2016-03-18 2017-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
TWI731391B (en) * 2019-08-15 2021-06-21 緯創資通股份有限公司 Microphone apparatus, electronic device and method of processing acoustic signal thereof
US11206485B2 (en) 2020-03-13 2021-12-21 Bose Corporation Audio processing using distributed machine learning model
CN111696573B (en) * 2020-05-20 2023-04-28 北京地平线机器人技术研发有限公司 Sound source signal processing method and device, electronic equipment and storage medium
DK181039B1 (en) * 2020-08-14 2022-10-11 Gn Hearing As Hearing device with microphone switching and related method

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE517525C2 (en) 1999-09-07 2002-06-18 Ericsson Telefon Ab L M Method and apparatus for constructing digital filters
ATE417480T1 (en) * 2005-10-12 2008-12-15 Yamaha Corp SPEAKER AND MICROPHONE ARRANGEMENT
EP1989777A4 (en) 2006-03-01 2011-04-27 Softmax Inc System and method for generating a separated signal
JP5229053B2 (en) 2009-03-30 2013-07-03 ソニー株式会社 Signal processing apparatus, signal processing method, and program
JP6099032B2 (en) 2011-09-05 2017-03-22 大学共同利用機関法人情報・システム研究機構 Signal processing apparatus, signal processing method, and computer program
JP6007474B2 (en) * 2011-10-07 2016-10-12 ソニー株式会社 Audio signal processing apparatus, audio signal processing method, program, and recording medium
JP6005443B2 (en) 2012-08-23 2016-10-12 株式会社東芝 Signal processing apparatus, method and program
AU2015203723B2 (en) * 2014-07-04 2019-03-21 Klevaklip Systems Pty Ltd Joist Connector
US9762742B2 (en) 2014-07-24 2017-09-12 Conexant Systems, Llc Robust acoustic echo cancellation for loosely paired devices based on semi-blind multichannel demixing

Also Published As

Publication number Publication date
JP6763721B2 (en) 2020-09-30
US20180040327A1 (en) 2018-02-08
EP3279896A1 (en) 2018-02-07
US10410640B2 (en) 2019-09-10

Similar Documents

Publication Publication Date Title
JP6763721B2 (en) Sound source separator
EP2027581B1 (en) Signal separator, method for determining output signals on the basis of microphone signals, and computer program
JP3397269B2 (en) Multi-channel echo cancellation method
EP2914016A1 (en) Bionic hearing headset
KR20060086303A (en) Apparatus and method for separating audio signals
JP2015511330A (en) Adaptive noise removal method and apparatus
CN112511943B (en) Sound signal processing method and device and electronic equipment
US8150081B2 (en) Method for optimizing a multilevel filter bank and corresponding filter bank and hearing apparatus
KR102163512B1 (en) Subband spatial audio enhancement
JP5430263B2 (en) Audio equipment
JP4970174B2 (en) Narration voice control device
DK2629550T3 (en) Hearing apparatus having an adaptive filter and method for filtering an audio signal
JP7348812B2 (en) Noise suppression device, noise suppression method, and voice input device
JP5565593B2 (en) Signal processing method, signal processing apparatus, and signal processing program
Chen et al. Inter-subnet: Speech enhancement with subband interaction
CN107545901B (en) Signal processing device and signal processing method
JP2017118359A (en) Hearing aid and feedback canceller
KR20080038714A (en) Postprocessing method for removing cross talk
Tu et al. Sheffield system for the second clarity enhancement challenge
KR20140106823A (en) Blind source extraction method using direction of arrival information and de-mixing system therefor
CN110719564B (en) Sound effect processing method and device
WO2023214571A1 (en) Beamforming method and beamforming system
CN111757240B (en) Audio processing method and audio processing system
JP2009272876A (en) Sound source separation emphasizing system
JP4525071B2 (en) Signal separation method, signal separation system, and signal separation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200910

R150 Certificate of patent or registration of utility model

Ref document number: 6763721

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250