JP2015210423A - Specific voice suppressor, specific voice suppression method and program - Google Patents
Specific voice suppressor, specific voice suppression method and program Download PDFInfo
- Publication number
- JP2015210423A JP2015210423A JP2014092670A JP2014092670A JP2015210423A JP 2015210423 A JP2015210423 A JP 2015210423A JP 2014092670 A JP2014092670 A JP 2014092670A JP 2014092670 A JP2014092670 A JP 2014092670A JP 2015210423 A JP2015210423 A JP 2015210423A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speaker
- power
- speech
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、M人の話者の音声を含む音声信号から特定の話者の音声を抑圧する技術に関する。 The present invention relates to a technique for suppressing the voice of a specific speaker from a voice signal including the voices of M speakers.
特許文献1が、音声データの中から怒り感情に対応する音声区間を検出する従来技術として知られている。特許文献1では、学習用データを用いて音声特徴量と感情表出度との関係を学習し、各音声特徴量と感情表出確率とを対応付けた符号帳を学習しておく。そして、入力された音声データから抽出した音声特徴量に基づいて符号帳を探索することで、当該抽出した音声特徴量の感情表出確率を求め、怒り感情に対応する区間であるか否かを判定する。
しかしながら、従来技術は、複数の話者の音声を含む音声信号に対応していない。従来技術では、音声信号が、複数の話者の音声を含む音声信号(以下、混合音声信号ともいう)である場合は、混合音声信号に対応する音声特徴量に基づいて感情分類を行う。したがって、混合音声信号の中に含まれる特定の人の怒り感情の音声区間だけを抽出することはできない。 However, the conventional technology does not support an audio signal including the voices of a plurality of speakers. In the prior art, when the audio signal is an audio signal including a plurality of speaker's audio (hereinafter also referred to as a mixed audio signal), emotion classification is performed based on an audio feature amount corresponding to the mixed audio signal. Therefore, it is not possible to extract only the speech segment of the anger feeling of a specific person included in the mixed speech signal.
本発明は、混合音声信号から特定の話者の音声を抑圧する特定音声抑圧装置、特定音声抑圧方法及びプログラム提供することを目的とする。 An object of the present invention is to provide a specific speech suppression apparatus, a specific speech suppression method, and a program for suppressing a specific speaker's speech from a mixed speech signal.
上記の課題を解決するために、本発明の一態様によれば、特定音声抑圧装置は、i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Siと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離部と、j∈{1,…,M}\iとし、音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定部と、閾値A以上の大声度Ei_2に対応する推定値Si_2を除いて、音声の推定値Si_3を合成して、混合音声信号を生成する混合信号生成部と、を含む。 In order to solve the above-described problem, according to one aspect of the present invention, the specific speech suppressing apparatus sets iε {1,..., M}, and from the speech signal including the speech of M speakers, a sound source separation unit for generating an estimated value S i of the voice of i and a power parameter P 1, i corresponding to the power of the voice of the speaker i, j∈ {1,..., M} \ i, Using the distance d (U, L 2, i ) between the microphone and the speaker i used to pick up the sound, the power P 2, i of the voice of the speaker i specified by the power parameter P 1 , i To generate a corrected voice power P 3, i , and use the power P 3, i to calculate loudness E i representing loudness of the speaker i with respect to another speaker j except a determining unit, the estimated value S i_2 corresponding to the threshold a or more loud degree E i_2, mixed signal which synthesizes an estimate S i - 3 audio, to produce a mixed audio signal Including a generating unit, a.
上記の課題を解決するために、本発明の他の態様によれば、特定音声抑圧装置は、i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Siと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離部と、j∈{1,…,M}\iとし、音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定部と、閾値A以上の大声度Ei_2に対応する推定値Si_2の声道スペクトルvi_2を生成し、声道スペクトルvi_2からデルタ特徴量Δvi_2を計算するデルタ特徴量計算部と、ほぼ0となる区間が閾値Bを超えるデルタ特徴量Δvi_3に対応する推定値Si_3を除いて、音声の推定値Si_4を合成して、混合信号を生成する混合信号生成部と、を含む。 In order to solve the above-described problem, according to another aspect of the present invention, the specific speech suppression apparatus sets iε {1,..., M}, and from the speech signal including speech of M speakers, A sound source separation unit that generates an estimated value S i of the voice of the person i and a power parameter P 1, i corresponding to the power of the voice of the speaker i, j∈ {1,..., M} \ i, Using the distance d (U, L 2, i ) between the microphone and the speaker i used when collecting the signal, the power P 2 of the voice of the speaker i specified by the power parameter P 1, i i is corrected, corrected power P 3, i is generated, and loudness E i representing the loudness of speaker i with respect to other speaker j is calculated using power P 3, i. a loud determination unit generates a vocal tract spectrum v i_2 estimate S i_2 corresponding to the threshold a or more loud degree E i_2, delta features from vocal tract spectrum v i_2 v and delta feature quantity calculation unit for calculating a i_2, except an estimate S i - 3 which is substantially 0. The interval corresponding to the delta feature quantity Delta] v i - 3 exceeding the threshold value B, and combining the estimated value S i - 4 voice, mixed A mixed signal generation unit for generating a signal.
上記の課題を解決するために、本発明の他の態様によれば、特定音声抑圧方法は、i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Siと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離ステップと、j∈{1,…,M}\iとし、音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定ステップと、閾値A以上の大声度Ei_2に対応する推定値Si_2を除いて、音声の推定値Si_3を合成して、混合音声信号を生成する混合信号生成ステップと、を含む。 In order to solve the above-described problem, according to another aspect of the present invention, a specific speech suppression method uses iε {1,..., M} and a speech signal including speech of M speakers. A sound source separation step for generating an estimated value S i of the voice of the person i and a power parameter P 1, i corresponding to the power of the voice of the speaker i, j∈ {1,..., M} \ i, Using the distance d (U, L 2, i ) between the microphone and the speaker i used when collecting the signal, the power P 2 of the voice of the speaker i specified by the power parameter P 1, i i is corrected, corrected power P 3, i is generated, and loudness E i representing the loudness of speaker i with respect to other speaker j is calculated using power P 3, i. a loud determining step, except for the estimated value S i_2 corresponding to the threshold a or more loud degree E i_2, synthesizes the estimated values S i - 3 audio, the mixed audio signal Comprising a mixed signal generation step of forming, the.
上記の課題を解決するために、本発明の他の態様によれば、特定音声抑圧方法は、i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Siと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離ステップと、j∈{1,…,M}\iとし、音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定ステップと、閾値A以上の大声度Ei_2に対応する推定値Si_2の声道スペクトルvi_2を生成し、声道スペクトルvi_2からデルタ特徴量Δvi_2を計算するデルタ特徴量計算ステップと、ほぼ0となる区間が閾値Bを超えるデルタ特徴量Δvi_3に対応する推定値Si_3を除いて、音声の推定値Si_4を合成して、混合信号を生成する混合信号生成ステップと、を含む。 In order to solve the above-described problem, according to another aspect of the present invention, a specific speech suppression method uses iε {1,..., M} and a speech signal including speech of M speakers. A sound source separation step for generating an estimated value S i of the voice of the person i and a power parameter P 1, i corresponding to the power of the voice of the speaker i, j∈ {1,..., M} \ i, Using the distance d (U, L 2, i ) between the microphone and the speaker i used when collecting the signal, the power P 2 of the voice of the speaker i specified by the power parameter P 1, i i is corrected, corrected power P 3, i is generated, and loudness E i representing the loudness of speaker i with respect to other speaker j is calculated using power P 3, i. a loud determining step, and generates a vocal tract spectrum v i_2 estimate S i_2 corresponding to the threshold a or more loud degree E i_2, from the vocal tract spectrum v i_2 Except delta feature quantity calculation step of calculating the filter characteristic quantity Delta] v i_2, the estimated value S i - 3 which is substantially 0. The interval corresponding to the delta feature quantity Delta] v i - 3 exceeding the threshold value B, by combining the estimated values S i - 4 voice And a mixed signal generating step for generating a mixed signal.
本発明によれば、混合音声信号から特定の話者の音声を抑圧することができるという効果を奏する。 According to the present invention, it is possible to suppress the voice of a specific speaker from the mixed voice signal.
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted.
<第一実施形態に係る特定音声抑圧装置>
図1は第一実施形態に係る特定音声抑圧装置100の機能ブロック図を、図2はその処理フローの例を示す。
<Specific Voice Suppressing Device According to First Embodiment>
FIG. 1 is a functional block diagram of the specific speech suppressing apparatus 100 according to the first embodiment, and FIG. 2 shows an example of its processing flow.
特定音声抑圧装置100は、音源分離部110と大声判定部120と混合信号生成部140とを含む。
The specific speech suppressing apparatus 100 includes a sound
特定音声抑圧装置100は、M人の話者の音声を含む混合音声信号X(t)を受け取り、特定の話者の音声を抑圧した混合音声信号^X(t)を生成し、出力する。なお、tは時刻を表すインデックスである。 The specific speech suppressing apparatus 100 receives the mixed speech signal X (t) including the speech of M speakers, generates and outputs a mixed speech signal ^ X (t) in which the speech of the specific speaker is suppressed. Note that t is an index representing time.
なお、入力される混合音声信号X(t)は、リアルタイムで収音された音声信号であってもよいし、テレビ番組やスポーツ映像のように予め録音された音声信号であってもよい。 The input mixed audio signal X (t) may be an audio signal collected in real time, or may be an audio signal recorded in advance such as a television program or a sports video.
<音源分離部110>
音源分離部110は、混合音声信号X(t)を受け取り、従来の音源分離技術を用いて、それぞれの話者i(音源)の音声信号(音源信号)の推定値Si(t)と、話者iの音声のパワーに対応するパワーパラメータP1,i(t)と、話者iの位置に対応する音源位置パラメータL1,i(t)とを算出し(s110)、出力する。なお、iは話者を表すインデックスであり、i∈{1,…,M}である。音源分離の従来技術として、例えば、参考文献1を用いることができる。
(参考文献1)特開2012−173592号公報
<Sound
The sound
(Reference 1) JP 2012-173592 A
<大声判定部120>
大声判定部120は、M個のパワーパラメータP1,i(t)と、M個の音源位置パラメータL1,i(t)とを受け取り、話者iの音声が大声か否かを判定し(s120)、大声を出している話者のインデックスi2(t)の集合を出力する。なお、全ての話者iの音声に対して、判定処理を行う。
<Large
The
例えば、大声判定部120は、距離計算部121とパワー補正部122と大声度計算部123と第一判定部124とを含む。
For example, the
(距離計算部121)
距離計算部121は、M個の音源位置パラメータL1,i(t)を受け取る。距離計算部121は、音源位置パラメータL1,i(t)を用いて、話者iの位置L2,iを特定する。距離計算部121は、混合音声信号X(t)を収音する際に用いたマイクロホンの位置Uと位置L2,iとを用いて、マイクロホンと話者iとの距離d(U,L2,i,t)を計算し(s121)、出力する。音源位置パラメータL1,i(t)は、話者iの位置L2,iを特定するためのパラメータであればよく、位置L2,i自体であってもよい。例えば、距離d(U,L2,i,t)としてユークリッド距離を用いてもよい。また、マイクロホンの位置Uは、利用者等により予め与えられているものとする。
(Distance calculation unit 121)
The
なお、マイクロホンと話者iとの位置関係は時間に依存しないことを前提としてもよい。その場合は、予め距離を与えられる構成としてもよく、距離計算部121を設けなくともよい。なお、この場合には、音源分離部110では、M個の音源位置パラメータL1,i(t)を求めない構成としてもよい。また、一度だけ距離を計算し、その距離を用いて以下の処理を繰り返し行ってもよい。
The positional relationship between the microphone and the speaker i may be premised on not depending on time. In that case, the distance may be given in advance, and the
(パワー補正部122)
パワー補正部122は、M個のパワーパラメータP1,i(t)と、M個の距離d(U,L2,i,t)とを受け取る。パワー補正部122は、パワーパラメータP1,i(t)を用いて、話者iの音声のパワーP2,i(t)を特定する。パワー補正部122は、距離d(U,L2,i,t)を用いて、話者iの音声のパワーP2,i(t)を補正し、補正済みの音声のパワーP3,i(t)を生成し(s122)、出力する。
(Power correction unit 122)
The
マイクロホンから距離Aにいる話者iAと、マイクロホンから距離B(>A)にいる話者iBとが同じ大きさの声で話している場合、距離が小さいパワーP2,i_A(t)のほうが距離が大きいパワーP2,i_B(t)よりも大きくなる。この点を、距離d(U,L2,i,t)を用いて補正する。なお、下付添え字における「_(アンダーバー)」は、アンダーバーの直後の文字が、直前の文字の下付添え字であることを表す。つまり、下付添え字におけるX_Yは、XYであることを表す。 If the speaker i A, which are in the distance A from the microphone, and a speaker i B that are in the distance B (> A) from the microphone is speaking in the voice of the same size, distance is less power P 2, i_A (t) Becomes larger than the power P 2, i_B (t) having a larger distance. This point is corrected using the distance d (U, L 2, i , t). Note that “_ (under bar)” in the subscript indicates that the character immediately after the under bar is the subscript of the immediately preceding character. That is, X_Y in the subscript indicates XY .
例えば、距離d(U,L2,i,t)が大きくなるほど音声のパワーが大きくなるように、言い換えれば、距離d(U,L2,i,t)の増加に伴って音声のパワーが単調増加するように、音声のパワーを補正する。例えば、次式により、パワーP2,i(t)を距離d(U,L2,i,t)で正規化することで、補正する。
P3,i(t)=P2,i(t)/d'(U,L2,i,t)
ただし、d’(U,L2,i,t)は、距離d(U,L2,i,t)の増加に伴って、単調減少するような関数である。なお、距離が2倍になると6dBほど音声パワーが小さくなることが知られている。この特性に基づいて、パワーP3,i(t)を求めてもよい。
For example, the distance d (U, L 2, i , t) as the audio power increases as increases, in other words, the distance d (U, L 2, i , t) the speech power with increasing the The power of the sound is corrected so as to increase monotonously. For example, the correction is performed by normalizing the power P 2, i (t) by the distance d (U, L 2, i , t) according to the following equation.
P 3, i (t) = P 2, i (t) / d '(U, L 2, i , t)
However, d ′ (U, L 2, i , t) is a function that monotonously decreases as the distance d (U, L 2, i , t) increases. It is known that the sound power decreases by about 6 dB when the distance is doubled. Based on this characteristic, the power P 3, i (t) may be obtained.
(大声度計算部123)
大声度計算部123は、M個のパワーP3,i(t)を受け取り、M個のパワーP3,i(t)を用いて、話者iの他の話者jに対する大声の度合いを表す大声度Ei(t)を計算し(s123)、出力する。例えば、次式により、大声度Ei(t)を計算する。
(Loudness calculator 123)
(第一判定部124)
第一判定部124は、M個の大声度Ei(t)を受け取り、大声度Ei(t)と閾値Aとを比較し、閾値A以上の大声度Ei_2に対応するインデックスi2(t)の集合を出力する。
(First determination unit 124)
The
ある1つの補正済みの音声のパワーP3,i(t)と残りの補正済みの音声のパワーP3,j(t)との差を計算し、残りのパワーP3,j(t)よりも所定の閾値A以上、大きいパワーP3,i(t)をもつ話者iを特定する処理である。他の話者の音声信号のパワーと比較して30dB以上(参考文献2)大きな音声信号は、叫び声のような耳障りな音声である可能性が高い。このことを利用して、第一判定部124では他の音声信号と比較して音量が特別大きな音声信号の話者のインデックスを特定する。例えば、閾値Aを、30dBとする。
(参考文献2)南條、国松、川野、中山、西浦、「音響防犯システムのための叫び声の基礎的検討」、2008年音響学会春季大会、1-Q-17, 2008.
The difference between the power P 3, i (t) of one corrected sound and the power P 3, j (t) of the remaining corrected sound is calculated, and the remaining power P 3, j (t) is calculated. Is a process for identifying a speaker i having a power P 3, i (t) greater than or equal to a predetermined threshold A. There is a high possibility that an audio signal that is 30 dB or more higher than the power of the audio signal of another speaker (Reference Document 2) is annoying voice such as a screaming voice. Utilizing this fact, the
(Reference 2) Nanjo, Kunimatsu, Kawano, Nakayama, Nishiura, “Fundamental study of cry for acoustic security system”, 2008 Acoustical Society Spring Meeting, 1-Q-17, 2008.
<混合信号生成部140>
混合信号生成部140は、インデックスi2(t)の集合とM個の推定値Si(t)とを受け取り、M個の推定値Si(t)から、インデックスi2(t)に対応する音声信号の推定値Si_2(t)を除き、残りの音声信号の推定値Si_3(t)を合成して混合音声信号^X(t)を生成し(s140)、出力する。
<
The mixed
<効果>
このような構成により、混合音声信号から特定の話者の音声を抑圧することができ、混合音声信号から聴者にとって不快な印象を与える音声(例えば、野次や叫び声などを含む大声)を抑圧した混合音声信号を生成することができる。
<Effect>
With such a configuration, the voice of a specific speaker can be suppressed from the mixed voice signal, and the mixed voice signal suppresses a voice that gives an unpleasant impression to the listener (for example, loud voices including field and screams). An audio signal can be generated.
<変形例>
本実施形態では、音源分離部110において、混合音声信号X(t)から話者iの位置に対応する音源位置パラメータL1,i(t)を算出し、距離計算部121において、音源位置パラメータL1,i(t)と予め与えられたマイクロホンの位置Uとを用いて、マイクロホンと話者iとの距離d(U,L2,i,t)を計算している。しかし、既知の音源分離方法には、マイクロホンの位置Uを予め与えられることなく、混合音声信号X(t)からマイクマイクロホンと話者iとの距離d(U,L2,i,t)を算出できる方法もある。そのような既知の音源分離方法を用いて、音源分離部において、混合音声信号X(t)を受け取り、それぞれの話者i(音源)の音声信号(音源信号)の推定値Si(t)と、話者iの音声のパワーに対応するパワーパラメータP1,i(t)と、マイクロホンと話者iとの距離d(U,L2,i,t)とを算出し、出力してもよい。その場合、距離計算部121を設けなくともよい。
<Modification>
In the present embodiment, the sound
<第二実施形態に係る特定音声抑圧装置200>
第一実施形態と異なる部分を中心に説明する。
<Specific Voice Suppression Device 200 According to Second Embodiment>
A description will be given centering on differences from the first embodiment.
図3は特定音声抑圧装置200の機能ブロック図を、図4はその処理フローの例を示す。 FIG. 3 is a functional block diagram of the specific speech suppressing apparatus 200, and FIG. 4 shows an example of the processing flow.
特定音声抑圧装置100は、音源分離部110と大声判定部120と叫び声判定部230と混合信号生成部240とを含む。
The specific speech suppressing apparatus 100 includes a sound
<叫び声判定部230>
叫び声判定部230は、インデックスi2(t)の集合とM個の推定値Si(t)とを受け取り、話者i2(t)の音声が叫び声か否かを判定し(s230)、叫び声を出している話者のインデックスi3(t)を出力する。なお、全ての話者iではなく、インデックスi2(t)に対応する話者の音声に対してのみ、判定処理を行う。
<
The
例えば、叫び声判定部230は、声道スペクトル生成部231とデルタ特徴量計算部232と第二判定部233とを含む。
For example, the screaming
(声道スペクトル生成部231)
声道スペクトル生成部231は、インデックスi2(t)の集合とM個の推定値Si(t)とを受け取り、インデックスi2(t)に対応する音声信号の推定値Si_2(t)の声道スペクトルvi_2(t)を生成し(s231)、声道スペクトルvi_2(t)の集合を出力する。
(Vocal tract spectrum generation unit 231)
The vocal tract
(デルタ特徴量計算部232)
デルタ特徴量計算部232は、声道スペクトルvi_2(t)の集合を受け取り、これらの値を用いて、デルタ特徴量Δvi_2(t)を計算し(s232)、デルタ特徴量Δvi_2(t)の集合を出力する。例えば、次式により(参考文献3参照)、デルタ特徴量Δvi_2(t)を計算する。
(Delta feature amount calculation unit 232)
Delta feature
ここで、2w1+1が例えば50ミリ秒となるようにw1を設定する。
(参考文献3)FURUI S., "Speaker-independent isolated word recognition using dynamic features of speech spectrum", IEEE Trans. Acoust., Speech and Signal Processing ASSP-34(1), 1986, pp. 52-59.
Here, w 1 is set so that 2w 1 +1 is, for example, 50 milliseconds.
(Reference 3) FURUI S., "Speaker-independent isolated word recognition using dynamic features of speech spectrum", IEEE Trans. Acoust., Speech and Signal Processing ASSP-34 (1), 1986, pp. 52-59.
(第二判定部233)
第二判定部233は、デルタ特徴量Δvi_2(t)の集合を受け取り、デルタ特徴量Δvi_2がほぼ0となる区間が閾値Bを超えるか否かを判定し、閾値Bを超えるデルタ特徴量Δvi_3に対応するインデックスi3(t)の集合を出力する。
(Second determination unit 233)
なお、デルタ特徴量Δvi_2(t)の絶対値が十分に小さい正の値ε以下である区間が閾値Bを超えるか否かを判定してもよいし、以下の値が十分に小さい正の値ε以下であるか否かを判定してもよい。 Incidentally, it may be determined whether the absolute value is less than or equal to a positive value ε small enough interval of the delta feature quantity Δv i_2 (t) exceeds the threshold value B, the following values are sufficiently small positive You may determine whether it is below the value (epsilon).
ここで、2w2+1が例えば、閾値B(例えば300ミリ秒)となるようにw2を設定する。 Here, w 2 is set so that 2w 2 +1 becomes, for example, a threshold B (for example, 300 milliseconds).
デルタ特徴量は、所定時間区間ごとの音の変化を表す特徴量であり、値が大きいほど音の変化が大きいことを示す。デルタ特徴量がほぼ0である状態とは、音の変化がない状態であり、声を発していない(無音)であるか、または、音を伸ばしている状態であるか、のいずれかであると想定される。ただし、本実施形態では第一判定部124で音のパワーが大きな音声信号だけを叫び声判定部230の分析対象としているので、無音であることはありえない。つまり、叫び声判定部230では、音を伸ばしている状態であるか否かを判定し、音を伸ばしている傾向の強い音声信号の話者のインデックスを抽出している。
The delta feature amount is a feature amount that represents a change in sound for each predetermined time interval, and the greater the value, the greater the change in sound. The state in which the delta feature value is almost 0 is a state in which there is no change in sound, and it is either a state where no voice is produced (silence) or a state where the sound is extended. It is assumed. However, in the present embodiment, since only the sound signal having a large sound power is the analysis target of the screaming
叫び声は一般に母音を伸ばす傾向がある。音声データベースの長母音の長さを基準として、平静状態ではそれよりも長く音を伸ばすことはほとんどあり得ないことから、この処理により、叫び声である可能性の高い音声信号を抽出することができる。 Shouting generally tends to stretch vowels. Since it is almost impossible to extend the sound longer than that in the calm state with reference to the length of the long vowel in the speech database, it is possible to extract a speech signal that is likely to be a scream by this process. .
<混合信号生成部240>
混合信号生成部240は、インデックスi3(t)の集合とM個の推定値Si(t)とを受け取り、インデックスi3(t)に対応する音声信号の推定値Si_3(t)を除き、残りの音声信号の推定値Si_4(t)を合成して混合音声信号^X(t)を生成し(s240)、出力する。
<
The mixed
<効果>
このような構成により、大声、特に野次や叫び声のような耳障りで視聴者にとって重要な情報を含まない音声だけを精度よく抑制することができる。
<Effect>
With such a configuration, it is possible to accurately suppress loud voices, particularly voices that are annoying, such as field and screams, and do not contain important information for the viewer.
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. As another embodiment of this program, a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In addition, although each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.
本発明は、例えばテレビの音声出力に応用することができる。生放送などの番組を視聴する際に、野次や叫び声などの不快な音を抑圧し快適に視聴することができる。 The present invention can be applied to, for example, audio output of a television. When watching a program such as a live broadcast, it is possible to suppress unpleasant sounds such as the field and screaming and comfortably view it.
例えば、テレビの受信側での実装が可能である。例えば、テレビ内部に、特定音声抑圧装置を組み込み、受信側で野次や叫び声を抑圧する。なお、受信側では、マイクロホンの位置U、または、マイクロホンと話者との距離は、予め、データとして取得できるものとする。例えば、受信側でマイクロホンの位置Uをデータとして取得できる場合、第一実施形態で説明した処理を行えばよい。また、受信側でマイクロホンと話者との距離d(U,L2,i,t)をデータとして取得できる場合、放送局側のサーバでは音源分離部及び距離計算部を含み、受信側では音源分離部及び距離計算部以外の構成を含めばよい。放送局側のサーバでは、収音した音声信号(混合音声信号)に対して、音源分離部及び距離計算部を実行して、話者iの音声信号の推定値Si(t)と、音源パワーパラメータP1,i(t)と、マイクマイクロホンと話者iとの距離d(U,L2,i,t)とを求める。そして、話者iの音声信号の推定値Si(t)と、音源パワーパラメータP1,i(t)と、マイクマイクロホンと話者iとの距離d(U,L2,i,t)とを、受信側に配信する。受信側では、話者iの音声信号の推定値Si(t)と、音源パワーパラメータP1,i(t)と、マイクマイクロホンと話者iとの距離d(U,L2,i,t)とを用いて、大声判定部以降の処理を行うことで、第一実施形態と同等の効果を得ることができる。また、第一実施形態の変形例で説明したように、音源分離部において、混合音声信号X(t)からマイクマイクロホンと話者iとの距離d(U,L2,i,t)を算出できる場合には、放送局側のサーバは、少なくとも混合音声信号X(t)を配信すればよく、受信側では、第一実施形態及びその変形例で説明した処理を行えばよい。 For example, it can be implemented on the receiving side of a television. For example, a specific voice suppression device is incorporated in the television, and the reception side suppresses field screams and screams. On the receiving side, the microphone position U or the distance between the microphone and the speaker can be acquired in advance as data. For example, when the microphone position U can be acquired as data on the receiving side, the processing described in the first embodiment may be performed. When the distance d (U, L 2, i , t) between the microphone and the speaker can be acquired as data on the receiving side, the server on the broadcasting station side includes a sound source separation unit and a distance calculation unit, and the receiving side has a sound source A configuration other than the separation unit and the distance calculation unit may be included. The server on the broadcast station side executes a sound source separation unit and a distance calculation unit on the collected sound signal (mixed sound signal), and the estimated value S i (t) of the sound signal of the speaker i and the sound source The power parameter P 1, i (t) and the distance d (U, L 2, i , t) between the microphone and the speaker i are obtained. Then, the estimated value S i (t) of the voice signal of the speaker i, the sound source power parameter P 1, i (t), and the distance d (U, L 2, i , t) between the microphone and the speaker i. Are distributed to the receiving side. On the receiving side, the estimated value S i (t) of the voice signal of the speaker i, the sound source power parameter P 1, i (t), and the distance d (U, L 2, i , Using t), the same processing as the first embodiment can be obtained by performing the processing after the loudness determination unit. As described in the modification of the first embodiment, the sound source separation unit calculates the distance d (U, L 2, i , t) between the microphone and the speaker i from the mixed sound signal X (t). If possible, the server on the broadcasting station side only needs to distribute at least the mixed audio signal X (t), and the receiving side may perform the processing described in the first embodiment and its modifications.
また、テレビの放送局側での実装も可能である。マイクロホンから出力される混合音声信号を特定音声抑圧装置の入力とし、放送局は、特定音声抑圧装置の出力信号を送信すればよい。この場合、配信する時点で野次や叫び声を抑圧することができる。マイクロホンの位置Uは、利用者により、入力してもよいし、カメラ映像等を利用して取得してもよい。話者の位置について必ずしも音源分離部110で取得する必要はなく、カメラ映像等を利用してもよい。
It can also be implemented on the TV broadcasting station side. The mixed sound signal output from the microphone is used as the input of the specific sound suppressing device, and the broadcasting station may transmit the output signal of the specific sound suppressing device. In this case, it is possible to suppress the field and screams at the time of distribution. The position U of the microphone may be input by the user, or may be acquired using a camera image or the like. The speaker position is not necessarily acquired by the sound
また、例えば、補聴器に応用することも可能である。例えば、補聴器内部に、特定音声抑圧装置を組み込めばよく、マイクロホンの位置Uは、補聴器の位置となり、補聴器に対する話者iの位置が距離d(U,L2,i,t)となる。 Also, for example, it can be applied to a hearing aid. For example, a specific voice suppression device may be incorporated in the hearing aid. The position U of the microphone is the position of the hearing aid, and the position of the speaker i with respect to the hearing aid is the distance d (U, L 2, i , t).
Claims (7)
j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定部と、
閾値A以上の大声度Ei_2に対応する推定値Si_2を除いて、音声の推定値Si_3を合成して、混合音声信号を生成する混合信号生成部と、を含む、
特定音声抑圧装置。 Assume that i ∈ {1,..., M}, and from a speech signal including the speech of M speakers, an estimated value S i of the speech of speaker i and a power parameter P 1 corresponding to the speech power of speaker i , i and a sound source separation unit,
j∈ {1,..., M} \ i, and using the distance d (U, L 2, i ) between the microphone and the speaker i used for collecting the voice signal, the power parameter P 1 , i is used to correct the power P 2, i of the voice of the speaker i specified by i , i to generate a corrected power P 3, i of the voice , and using the power P 3, i , A loudness determination unit for calculating loudness E i representing the loudness of the speaker j
Except for the estimated value S i_2 corresponding to the threshold A or more loud degree E i_2, including by combining the estimated value S i - 3 audio, the mixing signal generator for generating a mixed sound signal, and
Specific voice suppression device.
前記閾値Aは30dBである、
特性音声抑圧装置。 The characteristic speech suppressing apparatus of claim 1,
The threshold A is 30 dB.
Characteristic voice suppression device.
j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定部と、
閾値A以上の大声度Ei_2に対応する推定値Si_2の声道スペクトルvi_2を生成し、前記声道スペクトルvi_2からデルタ特徴量Δvi_2を計算するデルタ特徴量計算部と、
ほぼ0となる区間が閾値Bを超えるデルタ特徴量Δvi_3に対応する推定値Si_3を除いて、音声の推定値Si_4を合成して、混合信号を生成する混合信号生成部と、を含む、
特定音声抑圧装置。 Assume that i ∈ {1,..., M}, and from a speech signal including the speech of M speakers, an estimated value S i of the speech of speaker i and a power parameter P 1 corresponding to the speech power of speaker i , i and a sound source separation unit,
j∈ {1,..., M} \ i, and using the distance d (U, L 2, i ) between the microphone and the speaker i used for collecting the voice signal, the power parameter P 1 , i is used to correct the power P 2, i of the voice of the speaker i specified by i , i to generate a corrected power P 3, i of the voice , and using the power P 3, i , A loudness determination unit for calculating loudness E i representing the loudness of the speaker j
It generates a vocal tract spectrum v i_2 estimate S i_2 corresponding to the threshold A or more loud degree E i_2, and delta feature quantity calculation unit for calculating a delta feature quantity Delta] v i_2 from the vocal tract spectrum v i_2,
A mixed signal generating unit that generates a mixed signal by synthesizing the estimated value S i_4 of the speech by excluding the estimated value S i_3 corresponding to the delta feature quantity Δv i_3 in which the section that is substantially zero exceeds the threshold B ,
Specific voice suppression device.
前記閾値Aは30dBであり、前記閾値Bは300ミリ秒である。
特性音声抑圧装置。 The characteristic speech suppressing apparatus according to claim 3,
The threshold A is 30 dB, and the threshold B is 300 milliseconds.
Characteristic voice suppression device.
j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定ステップと、
閾値A以上の大声度Ei_2に対応する推定値Si_2を除いて、音声の推定値Si_3を合成して、混合音声信号を生成する混合信号生成ステップと、を含む、
特定音声抑圧方法。 Assume that i ∈ {1,..., M}, and from a speech signal including the speech of M speakers, an estimated value S i of the speech of speaker i and a power parameter P 1 corresponding to the speech power of speaker i , i and a sound source separation step;
j∈ {1,..., M} \ i, and using the distance d (U, L 2, i ) between the microphone and the speaker i used for collecting the voice signal, the power parameter P 1 , i is used to correct the power P 2, i of the voice of the speaker i specified by i , i to generate a corrected power P 3, i of the voice , and using the power P 3, i , Loudness determination step of calculating loudness E i representing the loudness of the speaker j
Except for the estimated value S i_2 corresponding to the threshold A or more loud degree E i_2, including by combining the estimated value S i - 3 audio, the mixed signal generation step of generating a mixed sound signal, and
Specific voice suppression method.
j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定ステップと、
閾値A以上の大声度Ei_2に対応する推定値Si_2の声道スペクトルvi_2を生成し、前記声道スペクトルvi_2からデルタ特徴量Δvi_2を計算するデルタ特徴量計算ステップと、
ほぼ0となる区間が閾値Bを超えるデルタ特徴量Δvi_3に対応する推定値Si_3を除いて、音声の推定値Si_4を合成して、混合信号を生成する混合信号生成ステップと、を含む、
特定音声抑圧方法。 Assume that i ∈ {1,..., M}, and from a speech signal including the speech of M speakers, an estimated value S i of the speech of speaker i and a power parameter P 1 corresponding to the speech power of speaker i , i and a sound source separation step;
j∈ {1,..., M} \ i, and using the distance d (U, L 2, i ) between the microphone and the speaker i used for collecting the voice signal, the power parameter P 1 , i is used to correct the power P 2, i of the voice of the speaker i specified by i , i to generate a corrected power P 3, i of the voice , and using the power P 3, i , Loudness determination step of calculating loudness E i representing the loudness of the speaker j
It generates a vocal tract spectrum v i_2 estimate S i_2 corresponding to the threshold A or more loud degree E i_2, and delta feature quantity calculation step of calculating a delta feature quantity Delta] v i_2 from the vocal tract spectrum v i_2,
And a mixed signal generating step of generating a mixed signal by synthesizing the estimated value S i_4 of the speech by excluding the estimated value S i_3 corresponding to the delta feature quantity Δv i_3 in which the interval that is substantially zero exceeds the threshold B. ,
Specific voice suppression method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014092670A JP6169526B2 (en) | 2014-04-28 | 2014-04-28 | Specific voice suppression device, specific voice suppression method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014092670A JP6169526B2 (en) | 2014-04-28 | 2014-04-28 | Specific voice suppression device, specific voice suppression method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015210423A true JP2015210423A (en) | 2015-11-24 |
JP6169526B2 JP6169526B2 (en) | 2017-07-26 |
Family
ID=54612633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014092670A Active JP6169526B2 (en) | 2014-04-28 | 2014-04-28 | Specific voice suppression device, specific voice suppression method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6169526B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005037953A (en) * | 2004-07-26 | 2005-02-10 | Sharp Corp | Voice processor, dynamic image processor, voice/moving image processor and recording medium which records voice/dynamic image processing program |
JP2007187748A (en) * | 2006-01-11 | 2007-07-26 | Matsushita Electric Ind Co Ltd | Sound selective processing device |
JP2010112994A (en) * | 2008-11-04 | 2010-05-20 | Sony Corp | Voice processing device, voice processing method and program |
JP2012503261A (en) * | 2008-09-22 | 2012-02-02 | パーソニクス ホールディングス インコーポレイテッド | Personalized voice management and method |
-
2014
- 2014-04-28 JP JP2014092670A patent/JP6169526B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005037953A (en) * | 2004-07-26 | 2005-02-10 | Sharp Corp | Voice processor, dynamic image processor, voice/moving image processor and recording medium which records voice/dynamic image processing program |
JP2007187748A (en) * | 2006-01-11 | 2007-07-26 | Matsushita Electric Ind Co Ltd | Sound selective processing device |
JP2012503261A (en) * | 2008-09-22 | 2012-02-02 | パーソニクス ホールディングス インコーポレイテッド | Personalized voice management and method |
JP2010112994A (en) * | 2008-11-04 | 2010-05-20 | Sony Corp | Voice processing device, voice processing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP6169526B2 (en) | 2017-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US12069470B2 (en) | System and method for assisting selective hearing | |
US12073850B2 (en) | Data driven audio enhancement | |
Chen et al. | The first multimodal information based speech processing (misp) challenge: Data, tasks, baselines and results | |
US11894008B2 (en) | Signal processing apparatus, training apparatus, and method | |
WO2021022094A1 (en) | Per-epoch data augmentation for training acoustic models | |
US20230164509A1 (en) | System and method for headphone equalization and room adjustment for binaural playback in augmented reality | |
Zhang et al. | Sensing to hear: Speech enhancement for mobile devices using acoustic signals | |
CN112242149B (en) | Audio data processing method and device, earphone and computer readable storage medium | |
Slaney et al. | Auditory measures for the next billion users | |
US12073844B2 (en) | Audio-visual hearing aid | |
WO2020195924A1 (en) | Signal processing device, method, and program | |
CN113823303A (en) | Audio noise reduction method and device and computer readable storage medium | |
JP6169526B2 (en) | Specific voice suppression device, specific voice suppression method and program | |
CN111862947A (en) | Method, apparatus, electronic device, and computer storage medium for controlling smart device | |
CN113056908A (en) | Video subtitle synthesis method and device, storage medium and electronic equipment | |
CN112992186B (en) | Audio processing method and device, electronic equipment and storage medium | |
CN111696564B (en) | Voice processing method, device and medium | |
US20240071396A1 (en) | System and Method for Watermarking Audio Data for Automated Speech Recognition (ASR) Systems | |
US20240087597A1 (en) | Source speech modification based on an input speech characteristic | |
CN117795597A (en) | Joint acoustic echo cancellation, speech enhancement and voice separation for automatic speech recognition | |
CN116453539A (en) | Voice separation method, device, equipment and storage medium for multiple speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170628 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6169526 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |