JP2017187687A - Sound source separation device, sound source separation method, program and recording medium - Google Patents

Sound source separation device, sound source separation method, program and recording medium Download PDF

Info

Publication number
JP2017187687A
JP2017187687A JP2016077461A JP2016077461A JP2017187687A JP 2017187687 A JP2017187687 A JP 2017187687A JP 2016077461 A JP2016077461 A JP 2016077461A JP 2016077461 A JP2016077461 A JP 2016077461A JP 2017187687 A JP2017187687 A JP 2017187687A
Authority
JP
Japan
Prior art keywords
gain
sound source
source separation
frequency domain
domain signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016077461A
Other languages
Japanese (ja)
Other versions
JP6556657B2 (en
Inventor
和則 小林
Kazunori Kobayashi
和則 小林
悠馬 小泉
Yuma Koizumi
悠馬 小泉
智子 川瀬
Tomoko Kawase
智子 川瀬
健太 丹羽
Kenta Niwa
健太 丹羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016077461A priority Critical patent/JP6556657B2/en
Publication of JP2017187687A publication Critical patent/JP2017187687A/en
Application granted granted Critical
Publication of JP6556657B2 publication Critical patent/JP6556657B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a sound source separation device that suppresses unwanted sound coming around from other sound sources and separates sound of a main sound source.SOLUTION: The sound source separation device includes: a gain calculation unit 130 for calculating a gain G(ω) from a power spectrum P(ω) of a frequency domain signal X(ω) and a power spectrum P(ω) of a frequency domain signal X(ω) (k being an integer of 1 or more and N or less, except m); and a gain multiplication unit 140 for generating a post-correction frequency domain signal Y(ω) as X(ω) G(ω) from the gain G(ω) and the frequency domain signal X(ω).SELECTED DRAWING: Figure 1

Description

本発明は、音源分離技術に関するものであり、特に主話者用マイクロホンに回り込んだ他話者の音声を抑圧することにより、主話者用マイクロホンで収音された音声を分離する技術に関する。   The present invention relates to a sound source separation technique, and more particularly, to a technique for separating voice collected by a main speaker microphone by suppressing the voice of another speaker that has entered the main speaker microphone.

多くの人が参加する会議では、マイクロホンが複数用意され、会議が進められることがある。例えば、図13に示すようにテーブルに複数のマイクロホンが配置され、参加者のひとりが発話すると、その発話が複数のマイクロホンにて収音される。また、複数の話者が同時に発話した場合には、これらの音声が混合した音声信号が各マイクロホンで収音される。   In a conference in which many people participate, a plurality of microphones may be prepared and the conference may proceed. For example, as shown in FIG. 13, a plurality of microphones are arranged on the table, and when one participant utters, the utterance is picked up by the plurality of microphones. Further, when a plurality of speakers speak at the same time, a sound signal obtained by mixing these sounds is picked up by each microphone.

このような状況で利用することができる、主話者用マイクロホンで収音された音声信号から主話者の音声を分離する技術として、特許文献1で開示された技術がある(図14参照)。特許文献1の技術では、話者(チャネル)ごとに独立して発話検出・音声認識をおこなっている。   As a technique for separating the main speaker's voice from the voice signal collected by the main speaker's microphone that can be used in such a situation, there is a technique disclosed in Patent Document 1 (see FIG. 14). . In the technique of Patent Document 1, utterance detection and speech recognition are performed independently for each speaker (channel).

特開2015−155982号公報Japanese Patent Laying-Open No. 2015-155982

上述の通り特許文献1の技術では、マイクロホンごとに独立して発話検出処理や音声認識処理がなされる。複数のマイクロホンがある会議室などの環境において、話者から遠いマイクロホン(発話をした主話者用マイクロホンを除くマイクロホン)では、雑音や残響が多く含まれてしまうことになり、誤検出や誤認識が生じてしまうという問題があった。   As described above, in the technique disclosed in Patent Document 1, speech detection processing and speech recognition processing are performed independently for each microphone. In an environment such as a conference room with multiple microphones, a microphone far from the speaker (a microphone other than the microphone for the main speaker who spoke) will contain a lot of noise and reverberation. There was a problem that would occur.

そこで本発明では、他の音源から回り込んできた不要な音を抑圧し、主たる音源の音を分離する音源分離装置を提供することを目的とする。   Therefore, an object of the present invention is to provide a sound source separation device that suppresses unnecessary sounds that have circulated from other sound sources and separates the sound of the main sound source.

本発明の一態様は、Nを2以上の整数、mを1以上N以下の整数、X(ω)(n=1,…,N、ωは周波数)をマイクロホンnで収音した収音信号を周波数領域変換した周波数領域信号、マイクロホンmを主話者の音声を収音するマイクロホンとし、前記周波数領域信号X(ω)から補正後周波数領域信号Y(ω)を生成する音源分離装置であって、前記周波数領域信号X(ω)のパワースペクトルP(ω)と前記周波数領域信号X(ω)のパワースペクトルP(ω)(kはmを除く1以上N以下の整数)からゲインG(ω)を計算するゲイン計算部と、前記ゲインG(ω)と前記周波数領域信号X(ω)から前記補正後周波数領域信号Y(ω)をX(ω)・G(ω)として生成するゲイン乗算部とを含む。 In one embodiment of the present invention, N is an integer of 2 or more, m is an integer of 1 to N, and X n (ω) (n = 1,..., N, ω is a frequency) is collected by a microphone n A sound source separation that generates a corrected frequency domain signal Y m (ω) from the frequency domain signal X m (ω) using a frequency domain signal obtained by frequency domain conversion of the signal and a microphone m as a microphone that collects the voice of the main speaker. an apparatus, the power spectrum P k (ω) (k power spectra P m (omega) and the frequency domain signal X k (omega) of the frequency domain signals X m (omega) is 1 or more N or less except for m A gain calculation unit for calculating a gain G m (ω) from the integer G), and the corrected frequency domain signal Y m (ω) from the gain G m (ω) and the frequency domain signal X m (ω) to X m (omega) · including a gain multiplication unit that generates a G m (ω) .

本発明によれば、複数のマイクロホンで収音した信号を相互に利用して、他の音源から回り込んできた不要な音を抑圧することにより、主たる音源の音を分離することが可能となる。   According to the present invention, it is possible to separate the sounds of the main sound sources by mutually using signals collected by a plurality of microphones and suppressing unnecessary sounds that have circulated from other sound sources. .

音源分離装置100の構成を示すブロック図。FIG. 2 is a block diagram showing a configuration of a sound source separation device 100. 音源分離装置100の動作を示すフローチャート。5 is a flowchart showing the operation of the sound source separation device 100. ゲイン計算部130−mの構成を示すブロック図。The block diagram which shows the structure of the gain calculation part 130-m. ゲイン計算部130−mの動作を示すフローチャート。The flowchart which shows operation | movement of the gain calculation part 130-m. 減算係数テーブルの一例を示す図。The figure which shows an example of a subtraction coefficient table. ゲイン計算部230−mの構成を示すブロック図。The block diagram which shows the structure of the gain calculation part 230-m. 定常雑音推定部231の構成を示すブロック図。The block diagram which shows the structure of the stationary noise estimation part 231. FIG. 定常雑音推定部231の動作を示すフローチャート。5 is a flowchart showing the operation of a stationary noise estimation unit 231. 音源分離装置300の構成を示すブロック図。FIG. 3 is a block diagram showing a configuration of a sound source separation device 300. 減算係数更新部330の構成を示すブロック図。The block diagram which shows the structure of the subtraction coefficient update part 330. FIG. 減算係数更新部330の動作を示すフローチャート。5 is a flowchart showing the operation of a subtraction coefficient update unit 330. 音源分離装置400の構成を示すブロック図。FIG. 3 is a block diagram showing a configuration of a sound source separation device 400. 本願発明の利用シーンの一例である発話検出の様子を示す図。The figure which shows the mode of the speech detection which is an example of the utilization scene of this invention. 特許文献1の技術による処理の様子を示す図。The figure which shows the mode of the process by the technique of patent document 1. FIG.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.

<実施形態1>
以下、図1〜図2を参照して実施形態1の音源分離装置100を説明する。図1は、音源分離装置100の構成を示すブロック図である。図2は、音源分離装置100の動作を示すフローチャートである。図1に示すように音源分離装置100は、周波数領域変換部110−1、…、110−Nと、パワースペクトル計算部120−1、…、120−Nと、ゲイン計算部130−1、…、130−Nと、ゲイン乗算部140−1、…、140−Nと、時間領域変換部150−1、…、150−Nと、減算係数記録部190を含む(ただし、Nは2以上の整数とする)。音源分離装置100は、発話者の音声を収音信号として収音するためにマイクロホン910−1、…、910−Nに接続している。
<Embodiment 1>
Hereinafter, the sound source separation apparatus 100 according to the first embodiment will be described with reference to FIGS. FIG. 1 is a block diagram showing a configuration of the sound source separation device 100. FIG. 2 is a flowchart showing the operation of the sound source separation device 100. As shown in FIG. 1, the sound source separation device 100 includes a frequency domain conversion unit 110-1,..., 110 -N, a power spectrum calculation unit 120-1, 120 -N, and a gain calculation unit 130-1. , 130-N, gain multipliers 140-1, ..., 140-N, time domain converters 150-1, ..., 150-N, and a subtraction coefficient recording unit 190 (where N is 2 or more) An integer). The sound source separation device 100 is connected to microphones 910-1,..., 910 -N in order to collect the voice of the speaker as a sound collection signal.

マイクロホン910−1、…、910−Nは、複数の音源からの音、例えば、会議参加者の発話を収音し、収音信号を生成する(S910)。周波数領域変換部110−1、…、110−Nは、マイクロホン910−1、…、910−Nで収音された収音信号をそれぞれ周波数領域変換し、周波数領域信号を生成する(S110)。以下、周波数領域信号をX(ω)(m=1,…,N、ωは周波数)と表す。したがって、X(ω)は周波数領域変換した信号を表す複素数となる。 The microphones 910-1,..., 910 -N collect sound from a plurality of sound sources, for example, utterances of conference participants, and generate a sound collection signal (S 910). The frequency domain transforming units 110-1,..., 110-N perform frequency domain transformation on the collected sound signals collected by the microphones 910-1, ..., 910-N, respectively, to generate frequency domain signals (S110). Hereinafter, the frequency domain signal is represented as X m (ω) (m = 1,..., N, ω is a frequency). Therefore, X m (ω) is a complex number representing a frequency domain transformed signal.

パワースペクトル計算部120−1、…、120−Nは、周波数領域変換部110−1、…、110−Nの出力である周波数領域信号X(ω)のパワースペクトルをそれぞれ計算する(S120)。以下、パワースペクトルをP(ω)と表す。例えば、P(ω)=X(ω)と計算するとよい。また、P(ω)=|X(ω)|と計算してもよい。 The power spectrum calculation unit 120-1, ..., 120-N calculates the power spectrum of the frequency domain signal X m (ω) that is the output of the frequency domain conversion unit 110-1, ..., 110-N (S120). . Hereinafter, the power spectrum is represented as P m (ω). For example, it may be calculated as P m (ω) = X m (ω) 2 . Alternatively, P m (ω) = | X m (ω) | may be calculated.

ゲイン計算部130−1、…、130−Nは、主話者からの音声に対応する主チャネルm(mを1以上N以下の整数)のパワースペクトルP(ω)とそれ以外のチャネルk(kはm以外の1からNの整数)のパワースペクトルP(ω)からゲインG(ω)を計算する(S130)。 The gain calculators 130-1,..., 130-N are connected to the power spectrum P m (ω) of the main channel m (m is an integer from 1 to N) corresponding to the voice from the main speaker and the other channels k. The gain G m (ω) is calculated from the power spectrum P k (ω) (k is an integer from 1 to N other than m ) (S130).

以下、図3〜図4を参照してゲイン計算部130−mについて説明する。図3は、主チャンネルmのゲインを計算するゲイン計算部130−mの構成を示すブロック図である。図4は、ゲイン計算部130−mの動作を示すフローチャートである。図3に示すようにゲイン計算部130−mは、N−1個の乗算部131−1、…、131−(m−1)、131−(m+1)、…、131−Nと、加算部132と、減算部133と、パワースペクトル比計算部134を含む。   Hereinafter, the gain calculation unit 130-m will be described with reference to FIGS. FIG. 3 is a block diagram illustrating a configuration of a gain calculation unit 130-m that calculates the gain of the main channel m. FIG. 4 is a flowchart showing the operation of the gain calculator 130-m. As shown in FIG. 3, the gain calculation unit 130-m includes N-1 multiplication units 131-1,..., 131- (m−1), 131- (m + 1),. 132, a subtractor 133, and a power spectrum ratio calculator 134.

まず、乗算部131−k(kはm以外の1からNの整数)は、減算係数αmkを減算係数記録部190から読出し、パワースペクトルP(ω)に減算係数αmkを乗算する(S131)。加算部132は、αmk・P(ω)の総和Σαmk・P(ω)を計算する(S132)。減算部133は、主チャネルmのパワースペクトルP(ω)から加算部132で計算した総和Σαmk・P(ω)を減算することで、主チャネルmと対応する主話者からの音声のパワースペクトルS(ω)を計算する(S133)。最後に、パワースペクトル比計算部134は、主話者からの音声のパワースペクトルS(ω)と主チャネルmのパワースペクトルP(ω)の比S(ω)/P(ω)を計算する(S134)。この比がゲインG(ω)である。 First, the multiplication unit 131-k (k is an integer from 1 to N other than m) reads the subtraction coefficient α mk from the subtraction coefficient recording unit 190 and multiplies the power spectrum P k (ω) by the subtraction coefficient α mk ( S131). The adding unit 132 calculates the sum Σα mk · P k (ω) of α mk · P k (ω) (S132). The subtracting unit 133 subtracts the sum Σα mk · P k (ω) calculated by the adding unit 132 from the power spectrum P m (ω) of the main channel m, so that the voice from the main speaker corresponding to the main channel m is obtained. The power spectrum S m (ω) is calculated (S133). Finally, the power spectrum ratio calculation unit 134 is a ratio S m (ω) / P m (ω) between the power spectrum S m (ω) of the voice from the main speaker and the power spectrum P m (ω) of the main channel m. Is calculated (S134). This ratio is the gain G m (ω).

Figure 2017187687
Figure 2017187687

ここで、減算係数αmkは、マイクロホンmとマイクロホンkの位置に応じて決まる値である。減算係数αmkは、事前に求めておき、減算係数記録部190に記録しておく。減算係数を表にした減算係数テーブルの一例を図5に示す。なお、αmmは、1となる。 Here, the subtraction coefficient α mk is a value determined according to the positions of the microphone m and the microphone k. The subtraction coefficient α mk is obtained in advance and recorded in the subtraction coefficient recording unit 190. An example of the subtraction coefficient table in which the subtraction coefficients are tabulated is shown in FIG. Α mm is 1.

減算係数αmkは、例えば、マイクロホンmの前で話すことを想定したときの発話場所からマイクロホンmまでの距離rとその発話場所からマイクロホンkまでの距離rの比として計算することができる。 Subtraction factor alpha mk, for example, can be calculated as the ratio of the distance r k from the distance r m and the utterance location from the utterance location when assuming that the speaking in front of the microphone m to the microphone m to the microphone k .

Figure 2017187687
Figure 2017187687

ゲイン乗算部140−1、…、140−Nは、ゲイン計算部130−1、…、130−Nで計算したゲインG(ω)、…、G(ω)を周波数領域変換部110−1、…、110−Nの出力であるX(ω)、…、X(ω)に乗算し、補正後周波数領域信号Y(ω)=X(ω)・G(ω)、…、Y(ω)=X(ω)・G(ω)を生成する(S140)。時間領域変換部150−1、…、150−Nは、ゲイン乗算部の出力である補正後周波数領域信号Y(ω)、…、Y(ω)を時間領域変換し、時間領域信号を生成する(S150)。 The gain multipliers 140-1,..., 140-N use the gains G 1 (ω),..., G N (ω) calculated by the gain calculators 130-1,. 1,..., 110-N outputs X 1 (ω),..., X N (ω) are multiplied and corrected frequency domain signal Y 1 (ω) = X 1 (ω) · G 1 (ω) ,..., Y N (ω) = X N (ω) · G N (ω) is generated (S140). Time domain transforming section 150-1, ..., 150-N, the gain multiplication unit, which is the output of the corrected frequency domain signal Y 1 (ω), ..., Y N (ω) and the time domain conversion, a time-domain signal Generate (S150).

本実施形態の発明によれば、事前に求めた減算係数を主チャネル以外のパワースペクトルに乗じた値の総和を用いて主チャネルのパワースペクトルP(ω)から主チャネルに対応するマイクロホンの近くで発話した主話者の音声のパワースペクトルS(ω)を抽出し、その比S(ω)/P(ω)であるゲインG(ω)を用いて周波数領域信号を補正することにより、主チャネルのマイクロホンに含まれる不要な音声を抑圧することができ、結果主たる音源の音(主話者の音声)を分離することが可能になる。 According to the invention of the present embodiment, the power channel P m (ω) of the main channel is used near the microphone corresponding to the main channel using the sum of values obtained by multiplying the power spectrum other than the main channel by the subtraction coefficient obtained in advance. The power spectrum S m (ω) of the voice of the main speaker uttered at is extracted, and the frequency domain signal is corrected using the gain G m (ω) that is the ratio S m (ω) / P m (ω). As a result, unnecessary sound contained in the microphone of the main channel can be suppressed, and as a result, the sound of the main sound source (the sound of the main speaker) can be separated.

<実施形態2>
実施形態1では、主チャネルmのパワースペクトルP(ω)から主チャネルm以外のパワースペクトルを用いて計算したΣαmk・P(ω)を減算することで、主チャネルmと対応する主話者からの音声のパワースペクトルS(ω)を求めた。しかし、このS(ω)には、空調の音やパソコンのファンの音などの定常雑音が含まれている。そこで、定常雑音を除去したS(ω)を推定し、このS(ω)を用いてゲインを計算する。これにより、空調やファンの音を除いたクリアな音声を出力できるようになる。
<Embodiment 2>
In the first embodiment, by subtracting Σα mk · P k (ω) calculated using a power spectrum other than the main channel m from the power spectrum P m (ω) of the main channel m, the main channel m corresponding to the main channel m is subtracted. The power spectrum S m (ω) of the voice from the speaker was obtained. However, S m (ω) includes stationary noise such as air-conditioning sound and personal computer fan sound. Therefore, S m (ω) from which stationary noise has been removed is estimated, and the gain is calculated using this S m (ω). This makes it possible to output a clear sound excluding the air conditioning and fan sounds.

実施形態2の音源分離装置200はゲイン計算部の構成のみにおいて音源分離装置100と異なる。そこで、以下では、ゲイン計算部の構成について説明する。図6を参照してゲイン計算部230−mについて説明する。図6は、主チャンネルmのゲインを計算するゲイン計算部230−mの構成を示すブロック図である。図6に示すようにゲイン計算部230−mは、N−1個の乗算部131−1、…、131−(m−1)、131−(m+1)、…、131−Nと、加算部132と、減算部133と、パワースペクトル比計算部134と、定常雑音推定部231を含む。ゲイン計算部230−mは、定常雑音推定部231を含む点においてゲイン計算部130−mと異なる。   The sound source separation device 200 of the second embodiment is different from the sound source separation device 100 only in the configuration of the gain calculation unit. Therefore, the configuration of the gain calculation unit will be described below. The gain calculation unit 230-m will be described with reference to FIG. FIG. 6 is a block diagram illustrating a configuration of a gain calculation unit 230-m that calculates the gain of the main channel m. As shown in FIG. 6, the gain calculation unit 230-m includes N−1 multiplication units 131-1,..., 131- (m−1), 131- (m + 1),. 132, a subtraction unit 133, a power spectrum ratio calculation unit 134, and a stationary noise estimation unit 231. The gain calculation unit 230-m is different from the gain calculation unit 130-m in that it includes a stationary noise estimation unit 231.

乗算部131−k(kはm以外の1からNの整数)、減算部133、パワースペクトル比計算部134における処理は、実施形態1のそれと全く同じである。また、加算部132における処理も定常雑音推定部231の出力である定常雑音成分R(ω)も加算することを除いて全く同じである。したがって、減算部133の出力である、主チャネルmと対応する主話者からの音声のパワースペクトルS(ω)、パワースペクトル比計算部134の出力であるゲインG(ω)は、以下の式で表される。 The processing in the multiplication unit 131-k (k is an integer from 1 to N other than m), the subtraction unit 133, and the power spectrum ratio calculation unit 134 is exactly the same as that in the first embodiment. The processing in the adding unit 132 is exactly the same except that the stationary noise component R m (ω) that is the output of the stationary noise estimating unit 231 is also added. Therefore, the power spectrum S m (ω) of the voice from the main speaker corresponding to the main channel m, which is the output of the subtracting unit 133, and the gain G m (ω), which is the output of the power spectrum ratio calculating unit 134, are as follows: It is expressed by the following formula.

Figure 2017187687
Figure 2017187687

そこで、以下では、図7〜図8を参照して定常雑音推定部231について説明する。図7は、定常雑音推定部231の構成を示すブロック図である。図8は、定常雑音推定部231の動作を示すフローチャートである。図7に示すように定常雑音推定部231は、時間平均パワー計算部235と、ディップホールド処理部236と、重み記録部239を含む。   Therefore, hereinafter, the stationary noise estimation unit 231 will be described with reference to FIGS. FIG. 7 is a block diagram illustrating a configuration of the stationary noise estimation unit 231. FIG. 8 is a flowchart showing the operation of the stationary noise estimation unit 231. As shown in FIG. 7, the stationary noise estimation unit 231 includes a time average power calculation unit 235, a dip hold processing unit 236, and a weight recording unit 239.

定常雑音推定部231は、パワースペクトルP(ω)に含まれる定常雑音成分R(ω)を推定する。まず、時間平均パワー計算部235は、パワースペクトルP(ω)からその時間平均である時間平均パワースペクトルP (ω)を計算する(S235)。ディップホールド処理部236は、P(ω)の最小値を保持するディップホールド処理を行い、重み記録部239から重みβ、γを読出し、以下の式によりディップホールドパワーD(ω)を求め、最終的に定常雑音成分R(ω)を推定する(S236)。 The stationary noise estimation unit 231 estimates the stationary noise component R m (ω) included in the power spectrum P m (ω). First, the time average power calculation unit 235, the power spectrum P m (omega) average from the time average for a period of time power spectrum P - calculating the m (ω) (S235). The dip hold processing unit 236 performs dip hold processing for holding the minimum value of P m (ω), reads the weights β and γ from the weight recording unit 239, and obtains the dip hold power D m (ω) by the following equation. Finally, the stationary noise component R m (ω) is estimated (S236).

Figure 2017187687
Figure 2017187687

ただし、β、γは、いずれも0以上1以下の実数であり、β>γを満たす。   However, both β and γ are real numbers of 0 or more and 1 or less and satisfy β> γ.

βまたはγが1に近いほど、長時間での平滑化したパワーの計算が行われる。時間平均パワースペクトルP (ω)がディップホールドパワーD(ω)よりも大きい場合に適用される係数βを、時間平均パワースペクトルP (ω)がディップホールドパワーD(ω)以下の場合に適用される係数γより大きくすることで、パワーの上昇時は緩やかな変化に、パワー下降時は急速なパワー変化になる。これにより計算後のディップホールドパワーD(ω)は、時間平均パワースペクトルP (ω)の最小値付近のパワーとなり、定常雑音に近いパワーを推定することができる。 The closer the β or γ is to 1, the longer the smoothed power is calculated. Time-averaged power spectrum P - m a coefficient β to be applied is larger than (omega) dip hold power D m (ω), the time-averaged power spectrum P - m (ω) dip hold power D m (omega) By making it larger than the coefficient γ applied in the following cases, a gradual change occurs when the power increases, and a rapid power change occurs when the power decreases. Thus dip hold power after calculation D m (omega) is the time-average power spectrum P - can be the minimum power in the vicinity of m (omega), to estimate the power near stationary noise.

定常雑音成分R(ω)は、ディップホールドパワーD(ω)にあらかじめ設定した固定の係数λを乗じることで算出できる。 The stationary noise component R m (ω) can be calculated by multiplying the dip hold power D m (ω) by a fixed coefficient λ set in advance.

Figure 2017187687
Figure 2017187687

本実施形態の発明によれば、定常雑音を除去した主話者からの音声のパワースペクトルS(ω)を用いてゲインを計算することにより、定常雑音を抑圧することが可能となり、結果空調等の定常的な雑音が存する環境下でもクリアな音声を分離することができる。 According to the invention of the present embodiment, it is possible to suppress the stationary noise by calculating the gain using the power spectrum S m (ω) of the voice from the main speaker from which the stationary noise has been removed. A clear voice can be separated even in an environment where stationary noise exists.

<実施形態3>
実施形態1では、減算係数を事前に減算係数記録部190に記録しているものとした。しかし、このように減算係数を事前に設定したものに固定すると、配置変更などマイクロホンの相対的位置関係が変わるような場合、主話者からの音声のパワースペクトルS(ω)をP(ω)から正しく計算することができなくなる。そこで、発話を検出したチャネルのパワースペクトルの平均と当該チャネルを含むすべてのチャネルのパワースペクトルの平均の比を適宜計算し、この比を減算係数として減算係数テーブルを更新する。これにより、マイクロホンの相対的位置関係に変動があった場合でも主話者からの音声のパワースペクトルS(ω)を正しく計算することができるようになる。
<Embodiment 3>
In the first embodiment, it is assumed that the subtraction coefficient is recorded in the subtraction coefficient recording unit 190 in advance. However, if the subtraction coefficient is fixed to a preset value in this way, the power spectrum S m (ω) of the voice from the main speaker is changed to P m (when the relative positional relationship of the microphone changes, such as a layout change. ω) cannot be calculated correctly. Therefore, the ratio of the average of the power spectrum of the channel where the speech is detected and the average of the power spectra of all the channels including the channel is appropriately calculated, and the subtraction coefficient table is updated using this ratio as a subtraction coefficient. This makes it possible to correctly calculate the power spectrum S m (ω) of the voice from the main speaker even when the relative positional relationship between the microphones varies.

実施形態3の音源分離装置300の構成を図9に示す。実施形態3の音源分離装置300は減算係数更新部330を含む点において音源分離装置100と異なる。減算係数更新部330は、パワースペクトルP(ω)(n=1,…,N)と発話を検出したチャネルのチャネル番号mから、減算係数αmnを計算し、減算係数記録部190に記録してある減算係数テーブルの第m行を更新する(図5参照)。発話が検出されたチャネル番号は発話者がマイクロホンのスイッチを入れるイベントを検出するなどして特定するのでよい。 FIG. 9 shows the configuration of the sound source separation device 300 according to the third embodiment. The sound source separation device 300 of the third embodiment is different from the sound source separation device 100 in that it includes a subtraction coefficient updating unit 330. The subtraction coefficient updating unit 330 calculates the subtraction coefficient α mn from the power spectrum P n (ω) (n = 1,..., N) and the channel number m of the channel in which the speech is detected, and records it in the subtraction coefficient recording unit 190. The mth row of the subtraction coefficient table is updated (see FIG. 5). The channel number in which the utterance is detected may be specified by detecting an event in which the speaker switches on the microphone.

以下では、図10〜図11を参照して減算係数更新部330について説明する。図10は、減算係数更新部330の構成を示すブロック図である。図11は、減算係数更新部330の動作を示すフローチャートである。図10に示すように減算係数更新部330は、平均パワー計算部331と、パワー比計算部332を含む。   Hereinafter, the subtraction coefficient updating unit 330 will be described with reference to FIGS. FIG. 10 is a block diagram illustrating a configuration of the subtraction coefficient updating unit 330. FIG. 11 is a flowchart showing the operation of the subtraction coefficient updating unit 330. As shown in FIG. 10, the subtraction coefficient updating unit 330 includes an average power calculation unit 331 and a power ratio calculation unit 332.

平均パワー計算部331は、パワースペクトルP(ω)(n=1,…,N)から時間周波数で平均をとった平均パワースペクトルQを計算する(S331)。パワー比計算部332は、入力されたチャネル番号mの平均パワースペクトルQを分母、mを含むチャネル番号nの平均パワースペクトルQを分子として平均パワースペクトルの比Q/Qを計算する(S332)。これを減算係数αmnとして減算係数記録部190を更新する(S190)。 The average power calculation unit 331 calculates an average power spectrum Q n that is averaged in time frequency from the power spectrum P n (ω) (n = 1,..., N) (S331). The power ratio calculation unit 332 calculates the average power spectrum ratio Q n / Q m using the average power spectrum Q m of the input channel number m as the denominator and the average power spectrum Q n of the channel number n including m as the numerator. (S332). The subtraction coefficient recording unit 190 is updated with this as the subtraction coefficient α mn (S190).

なお、減算係数αmnの初期値は、実施形態1と同様に事前に設定されているものとする。 It is assumed that the initial value of the subtraction coefficient α mn is set in advance as in the first embodiment.

本実施形態の発明によれば、マイクロホンmとマイクロホンnの位置に応じて決定する必要がある減算係数αmnを発話のあったマイクロホンの信号の平均パワースペクトルQとmを含むマイクロホンの信号の平均パワースペクトルQを用いて適宜更新することができるため、マイクロホンの配置に変更があっても、その相対的位置関係に応じた適切な減算係数が設定することができる。 According to the invention of the present embodiment, the subtraction coefficient α mn that needs to be determined according to the positions of the microphone m and the microphone n is the value of the microphone signal including the average power spectrum Q m and m of the microphone signal that has spoken. it is possible to appropriately updated using the average power spectrum Q n, and any modifications to the arrangement of the microphone, it is possible to correct subtraction coefficient according to the relative positional relationship is set.

<適用例>
実施形態1〜3で説明した音源分離装置を発話検出技術と組み合わせることにより、発話が検出されたチャネルの出力である時間領域信号のみを出力することができる。
<Application example>
By combining the sound source separation apparatus described in the first to third embodiments with an utterance detection technique, it is possible to output only a time domain signal that is an output of a channel in which an utterance is detected.

図12に発話検出部を備えた音源分離装置400を示す。音源分離装置400は、実施形態1〜3の音源分離装置100/200/300に加えて、発話検出部410と、出力チャネル選択部420を含む。   FIG. 12 shows a sound source separation device 400 provided with an utterance detection unit. The sound source separation device 400 includes an utterance detection unit 410 and an output channel selection unit 420 in addition to the sound source separation devices 100/200/300 of the first to third embodiments.

発話検出部410は、収音信号から発話を検出したチャネルのチャネル番号mを特定する。また、収音信号の代わりに、先述の通り、発話者がマイクロホンのスイッチを入れるイベント信号を入力としチャネル番号mを特定するのでもよい。出力チャネル選択部420は、チャネル番号mを用いて最終的に出力する時間領域信号を選択し、チャネル番号mの時間領域信号を出力する。   The utterance detection unit 410 identifies the channel number m of the channel that detected the utterance from the collected sound signal. Further, as described above, the channel number m may be specified by using an event signal for the speaker to switch on the microphone as an input instead of the sound pickup signal. Output channel selection section 420 selects a time domain signal to be finally output using channel number m, and outputs a time domain signal of channel number m.

このように発話者を特定する発話検出技術と音源分離技術を組み合わせることにより、発話が検出されたチャネルの主話者の音声のみを出力することができる。したがって、不要なチャネルの出力をゼロにすることができ、例えば、複数のマイクロホンを備えた会議システムでの音声認識に適用すると、より正確に音声認識を行うことが可能になる。また、録音に適用すると、無用な録音を避けることができ、録音データのデータ量を削減することができる。   In this way, by combining the speech detection technology for identifying the speaker and the sound source separation technology, it is possible to output only the voice of the main speaker of the channel in which the speech is detected. Accordingly, the output of unnecessary channels can be made zero, and for example, when applied to speech recognition in a conference system having a plurality of microphones, speech recognition can be performed more accurately. Also, when applied to recording, useless recording can be avoided and the amount of recorded data can be reduced.

<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。   The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。   In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。   As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

100 音源分離装置
110 周波数領域変換部
120 パワースペクトル計算部
130 ゲイン計算部
131 乗算部
132 加算部
133 減算部
134 パワースペクトル比計算部
140 ゲイン乗算部
150 時間領域変換部
190 減算係数記録部
200 音源分離装置
230 ゲイン計算部
231 定常雑音推定部
235 時間平均パワー計算部
236 ディップホールド処理部
239 重み記録部
300 音源分離装置
330 減算係数更新部
331 平均パワー計算部
332 パワー比計算部
400 音源分離装置
410 発話検出部
420 出力チャネル選択部
910 マイクロホン
100 sound source separation device 110 frequency domain conversion unit 120 power spectrum calculation unit 130 gain calculation unit 131 multiplication unit 132 addition unit 133 subtraction unit 134 power spectrum ratio calculation unit 140 gain multiplication unit 150 time domain conversion unit 190 subtraction coefficient recording unit 200 sound source separation Device 230 Gain calculation unit 231 Stationary noise estimation unit 235 Time average power calculation unit 236 Dip hold processing unit 239 Weight recording unit 300 Sound source separation device 330 Subtraction coefficient update unit 331 Average power calculation unit 332 Power ratio calculation unit 400 Sound source separation device 410 Detection unit 420 Output channel selection unit 910 Microphone

Claims (7)

Nを2以上の整数、mを1以上N以下の整数、X(ω)(n=1,…,N、ωは周波数)をマイクロホンnで収音した収音信号を周波数領域変換した周波数領域信号、マイクロホンmを主話者の音声を収音するマイクロホンとし、
前記周波数領域信号X(ω)から補正後周波数領域信号Y(ω)を生成する音源分離装置であって、
前記周波数領域信号X(ω)のパワースペクトルP(ω)と前記周波数領域信号X(ω)のパワースペクトルP(ω)(kはmを除く1以上N以下の整数)からゲインG(ω)を計算するゲイン計算部と、
前記ゲインG(ω)と前記周波数領域信号X(ω)から前記補正後周波数領域信号Y(ω)をX(ω)・G(ω)として生成するゲイン乗算部と
を含む音源分離装置。
N is an integer greater than or equal to 2, m is an integer greater than or equal to 1 and less than or equal to N, and X n (ω) (n = 1,... The area signal, microphone m is the microphone that picks up the voice of the main speaker,
A sound source separation device that generates a corrected frequency domain signal Y m (ω) from the frequency domain signal X m (ω),
Gain from the power spectrum P m (ω) of the frequency domain signal X m (ω) and the power spectrum P k (ω) of the frequency domain signal X k (ω) (k is an integer from 1 to N excluding m) A gain calculation unit for calculating G m (ω);
A gain multiplier that generates the corrected frequency domain signal Y m (ω) as X m (ω) · G m (ω) from the gain G m (ω) and the frequency domain signal X m (ω). Sound source separation device.
請求項1に記載の音源分離装置であって、
αmkをマイクロホンmとマイクロホンkの相対的位置に応じて定まる減算係数とし、
前記ゲイン計算部は、
Figure 2017187687

により前記ゲインG(ω)を計算する音源分離装置。
The sound source separation device according to claim 1,
α mk is a subtraction coefficient determined according to the relative position of the microphone m and the microphone k,
The gain calculator is
Figure 2017187687

A sound source separation device that calculates the gain G m (ω) by:
請求項1に記載の音源分離装置であって、
αmkをマイクロホンmとマイクロホンkの相対的位置に応じて定まる減算係数、R(ω)をマイクロホンmで収音される定常雑音成分とし、
前記ゲイン計算部は、
Figure 2017187687

により前記ゲインG(ω)を計算する音源分離装置。
The sound source separation device according to claim 1,
α mk is a subtraction coefficient determined according to the relative position of the microphone m and the microphone k, and R m (ω) is a stationary noise component collected by the microphone m.
The gain calculator is
Figure 2017187687

A sound source separation device that calculates the gain G m (ω) by:
請求項2または3に記載の音源分離装置であって、
さらに、
前記パワースペクトルP(ω)の時間周波数平均である平均パワースペクトルQから計算される比Q/Qを前記減算係数αmnとして更新する減算係数更新部を含む音源分離装置。
The sound source separation device according to claim 2 or 3,
further,
A sound source separation device including a subtraction coefficient updating unit that updates a ratio Q n / Q m calculated from an average power spectrum Q n which is a time frequency average of the power spectrum P n (ω) as the subtraction coefficient α mn .
Nを2以上の整数、mを1以上N以下の整数、X(ω)(n=1,…,N、ωは周波数)をマイクロホンnで収音した収音信号を周波数領域変換した周波数領域信号、マイクロホンmを主話者の音声を収音するマイクロホンとし、
ゲイン計算部と、ゲイン乗算部とを含む音源分離装置が、前記周波数領域信号X(ω)から補正後周波数領域信号Y(ω)を生成する音源分離方法であって、
前記ゲイン計算部が、前記周波数領域信号X(ω)のパワースペクトルP(ω)と前記周波数領域信号X(ω)のパワースペクトルP(ω)(kはmを除く1以上N以下の整数)からゲインG(ω)を計算するゲイン計算ステップと、
前記ゲイン乗算部が、前記ゲインG(ω)と前記周波数領域信号X(ω)から前記補正後周波数領域信号Y(ω)をX(ω)・G(ω)として生成するゲイン乗算ステップと
を含む音源分離方法。
N is an integer greater than or equal to 2, m is an integer greater than or equal to 1 and less than or equal to N, and X n (ω) (n = 1,... The area signal, microphone m is the microphone that picks up the voice of the main speaker,
A sound source separation apparatus including a gain calculation unit and a gain multiplication unit, which generates a corrected frequency domain signal Y m (ω) from the frequency domain signal X m (ω),
The gain calculation section, the power spectrum P k (ω) (k power spectra P m (omega) and the frequency domain signal X k (omega) of the frequency domain signals X m (omega) is 1 or more, excluding the m N A gain calculating step for calculating the gain G m (ω) from the following integer):
The gain multiplier generates the corrected frequency domain signal Y m (ω) as X m (ω) · G m (ω) from the gain G m (ω) and the frequency domain signal X m (ω). A sound source separation method including a gain multiplication step.
請求項1ないし4のいずれか1項に記載の音源分離装置としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as a sound source separation apparatus of any one of Claims 1 thru | or 4. 請求項6に記載したいずれかのプログラムを記録したコンピュータで読み取り可能な記録媒体。   A computer-readable recording medium on which any one of the programs according to claim 6 is recorded.
JP2016077461A 2016-04-07 2016-04-07 Sound source separation device, sound source separation method, program, recording medium Active JP6556657B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016077461A JP6556657B2 (en) 2016-04-07 2016-04-07 Sound source separation device, sound source separation method, program, recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016077461A JP6556657B2 (en) 2016-04-07 2016-04-07 Sound source separation device, sound source separation method, program, recording medium

Publications (2)

Publication Number Publication Date
JP2017187687A true JP2017187687A (en) 2017-10-12
JP6556657B2 JP6556657B2 (en) 2019-08-07

Family

ID=60046398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016077461A Active JP6556657B2 (en) 2016-04-07 2016-04-07 Sound source separation device, sound source separation method, program, recording medium

Country Status (1)

Country Link
JP (1) JP6556657B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012014451A1 (en) * 2010-07-26 2012-02-02 パナソニック株式会社 Multi-input noise suppresion device, multi-input noise suppression method, program, and integrated circuit
JP2014115377A (en) * 2012-12-07 2014-06-26 Yamaha Corp Sound processing device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012014451A1 (en) * 2010-07-26 2012-02-02 パナソニック株式会社 Multi-input noise suppresion device, multi-input noise suppression method, program, and integrated circuit
JP2014115377A (en) * 2012-12-07 2014-06-26 Yamaha Corp Sound processing device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
横山諒他: "複数ピンマイクで収音された会議音声の重畳区間検出", 情報処理学会研究報告[CD−ROM], vol. Vol.2012-SLP-92,No.6, JPN6019020457, July 2012 (2012-07-01), pages 1 - 6, ISSN: 0004048236 *

Also Published As

Publication number Publication date
JP6556657B2 (en) 2019-08-07

Similar Documents

Publication Publication Date Title
JP5000647B2 (en) Multi-sensor voice quality improvement using voice state model
JP4875656B2 (en) Signal section estimation device and method, program, and recording medium
KR101934999B1 (en) Apparatus for removing noise and method for performing thereof
JP6668995B2 (en) Noise suppression device, noise suppression method, and computer program for noise suppression
JP5087024B2 (en) Echo canceling apparatus, method and program
JP6641832B2 (en) Audio processing device, audio processing method, and audio processing program
JP4787851B2 (en) Echo suppression gain estimation method, echo canceller using the same, device program, and recording medium
JP6087762B2 (en) Reverberation suppression apparatus and method, program, and recording medium
JP6556657B2 (en) Sound source separation device, sound source separation method, program, recording medium
JP5769671B2 (en) Echo suppression gain estimation method, echo canceller and program using the same
JP6542705B2 (en) Speech detection apparatus, speech detection method, program, recording medium
JP4051325B2 (en) Speaker position detection method, apparatus, program, and recording medium
CN110036441B (en) Target sound emphasis device and method, noise estimation parameter learning device and method, and recording medium
JP5889224B2 (en) Echo suppression gain estimation method, echo canceller and program using the same
JP5769672B2 (en) Echo suppression gain estimation method, echo canceller and program using the same
JP5438629B2 (en) Stereo echo canceling method, stereo echo canceling device, stereo echo canceling program
JP5769670B2 (en) Echo suppression gain estimation method, echo canceller and program using the same
JP5044594B2 (en) Multi-channel echo canceller, method and program thereof
JP5033109B2 (en) Acoustic echo canceller apparatus and method, program, and recording medium
CN112544088B (en) Sound pickup and amplification device, method thereof, and recording medium
WO2023013019A1 (en) Speech feedback device, speech feedback method, and program
JP5097148B2 (en) Acoustic coupling amount calculation device, method and program
JP6059112B2 (en) Sound source separation device, method and program thereof
JP5172797B2 (en) Reverberation suppression apparatus and method, program, and recording medium
JP4542399B2 (en) Speech spectrum estimation apparatus and speech spectrum estimation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190710

R150 Certificate of patent or registration of utility model

Ref document number: 6556657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150