JP6169526B2

JP6169526B2 - 特定音声抑圧装置、特定音声抑圧方法及びプログラム

Info

Publication number: JP6169526B2
Application number: JP2014092670A
Authority: JP
Inventors: 淳司渡邊; 定男廣谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-04-28
Filing date: 2014-04-28
Publication date: 2017-07-26
Anticipated expiration: 2034-04-28
Also published as: JP2015210423A

Description

本発明は、Ｍ人の話者の音声を含む音声信号から特定の話者の音声を抑圧する技術に関する。

特許文献１が、音声データの中から怒り感情に対応する音声区間を検出する従来技術として知られている。特許文献１では、学習用データを用いて音声特徴量と感情表出度との関係を学習し、各音声特徴量と感情表出確率とを対応付けた符号帳を学習しておく。そして、入力された音声データから抽出した音声特徴量に基づいて符号帳を探索することで、当該抽出した音声特徴量の感情表出確率を求め、怒り感情に対応する区間であるか否かを判定する。

特開２００５−３４５４９６号公報

しかしながら、従来技術は、複数の話者の音声を含む音声信号に対応していない。従来技術では、音声信号が、複数の話者の音声を含む音声信号（以下、混合音声信号ともいう）である場合は、混合音声信号に対応する音声特徴量に基づいて感情分類を行う。したがって、混合音声信号の中に含まれる特定の人の怒り感情の音声区間だけを抽出することはできない。

本発明は、混合音声信号から特定の話者の音声を抑圧する特定音声抑圧装置、特定音声抑圧方法及びプログラム提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、特定音声抑圧装置は、ｉ∈｛１，…，Ｍ｝とし、Ｍ人の話者の音声を含む音声信号から、話者ｉの音声の推定値Ｓ_ｉと、話者ｉの音声のパワーに対応するパワーパラメータＰ_1,iとを生成する音源分離部と、ｊ∈｛１，…，Ｍ｝＼ｉとし、音声信号を収音する際に用いたマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ）を用いて、パワーパラメータＰ_1,iにより特定される話者ｉの音声のパワーＰ_2,iを補正し、補正済みの音声のパワーＰ_3,iを生成し、パワーＰ_3,iを用いて、話者ｉの他の話者ｊに対する大声の度合いを表す大声度Ｅ_ｉを計算する大声判定部と、閾値Ａ以上の大声度Ｅ_{i_2}に対応する推定値Ｓ_{i_2}を除いて、音声の推定値Ｓ_{i_3}を合成して、混合音声信号を生成する混合信号生成部と、を含む。

上記の課題を解決するために、本発明の他の態様によれば、特定音声抑圧装置は、ｉ∈｛１，…，Ｍ｝とし、Ｍ人の話者の音声を含む音声信号から、話者ｉの音声の推定値Ｓ_ｉと、話者ｉの音声のパワーに対応するパワーパラメータＰ_1,iとを生成する音源分離部と、ｊ∈｛１，…，Ｍ｝＼ｉとし、音声信号を収音する際に用いたマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ）を用いて、パワーパラメータＰ_1,iにより特定される話者ｉの音声のパワーＰ_2,iを補正し、補正済みの音声のパワーＰ_3,iを生成し、パワーＰ_3,iを用いて、話者ｉの他の話者ｊに対する大声の度合いを表す大声度Ｅ_ｉを計算する大声判定部と、閾値Ａ以上の大声度Ｅ_{i_2}に対応する推定値Ｓ_{i_2}の声道スペクトルｖ_{i_2}を生成し、声道スペクトルｖ_{i_2}からデルタ特徴量Δｖ_{i_2}を計算するデルタ特徴量計算部と、ほぼ０となる区間が閾値Ｂを超えるデルタ特徴量Δｖ_{i_3}に対応する推定値Ｓ_{i_3}を除いて、音声の推定値Ｓ_{i_4}を合成して、混合信号を生成する混合信号生成部と、を含む。

上記の課題を解決するために、本発明の他の態様によれば、特定音声抑圧方法は、ｉ∈｛１，…，Ｍ｝とし、Ｍ人の話者の音声を含む音声信号から、話者ｉの音声の推定値Ｓ_ｉと、話者ｉの音声のパワーに対応するパワーパラメータＰ_1,iとを生成する音源分離ステップと、ｊ∈｛１，…，Ｍ｝＼ｉとし、音声信号を収音する際に用いたマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ）を用いて、パワーパラメータＰ_1,iにより特定される話者ｉの音声のパワーＰ_2,iを補正し、補正済みの音声のパワーＰ_3,iを生成し、パワーＰ_3,iを用いて、話者ｉの他の話者ｊに対する大声の度合いを表す大声度Ｅ_ｉを計算する大声判定ステップと、閾値Ａ以上の大声度Ｅ_{i_2}に対応する推定値Ｓ_{i_2}を除いて、音声の推定値Ｓ_{i_3}を合成して、混合音声信号を生成する混合信号生成ステップと、を含む。

上記の課題を解決するために、本発明の他の態様によれば、特定音声抑圧方法は、ｉ∈｛１，…，Ｍ｝とし、Ｍ人の話者の音声を含む音声信号から、話者ｉの音声の推定値Ｓ_ｉと、話者ｉの音声のパワーに対応するパワーパラメータＰ_1,iとを生成する音源分離ステップと、ｊ∈｛１，…，Ｍ｝＼ｉとし、音声信号を収音する際に用いたマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ）を用いて、パワーパラメータＰ_1,iにより特定される話者ｉの音声のパワーＰ_2,iを補正し、補正済みの音声のパワーＰ_3,iを生成し、パワーＰ_3,iを用いて、話者ｉの他の話者ｊに対する大声の度合いを表す大声度Ｅ_ｉを計算する大声判定ステップと、閾値Ａ以上の大声度Ｅ_{i_2}に対応する推定値Ｓ_{i_2}の声道スペクトルｖ_{i_2}を生成し、声道スペクトルｖ_{i_2}からデルタ特徴量Δｖ_{i_2}を計算するデルタ特徴量計算ステップと、ほぼ０となる区間が閾値Ｂを超えるデルタ特徴量Δｖ_{i_3}に対応する推定値Ｓ_{i_3}を除いて、音声の推定値Ｓ_{i_4}を合成して、混合信号を生成する混合信号生成ステップと、を含む。

本発明によれば、混合音声信号から特定の話者の音声を抑圧することができるという効果を奏する。

第一実施形態に係る特定音声抑圧装置の機能ブロック図。第一実施形態に係る特定音声抑圧装置の処理フローの例を示す図。第二実施形態に係る特定音声抑圧装置の機能ブロック図。第二実施形態に係る特定音声抑圧装置の処理フローの例を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態に係る特定音声抑圧装置＞
図１は第一実施形態に係る特定音声抑圧装置１００の機能ブロック図を、図２はその処理フローの例を示す。

特定音声抑圧装置１００は、音源分離部１１０と大声判定部１２０と混合信号生成部１４０とを含む。

特定音声抑圧装置１００は、Ｍ人の話者の音声を含む混合音声信号X(t)を受け取り、特定の話者の音声を抑圧した混合音声信号^X(t)を生成し、出力する。なお、tは時刻を表すインデックスである。

なお、入力される混合音声信号X(t)は、リアルタイムで収音された音声信号であってもよいし、テレビ番組やスポーツ映像のように予め録音された音声信号であってもよい。

＜音源分離部１１０＞
音源分離部１１０は、混合音声信号X(t)を受け取り、従来の音源分離技術を用いて、それぞれの話者ｉ（音源）の音声信号（音源信号）の推定値S_i(t)と、話者ｉの音声のパワーに対応するパワーパラメータP_1,i(t)と、話者ｉの位置に対応する音源位置パラメータL_1,i(t)とを算出し（ｓ１１０）、出力する。なお、ｉは話者を表すインデックスであり、ｉ∈｛１，…，Ｍ｝である。音源分離の従来技術として、例えば、参考文献１を用いることができる。
（参考文献１）特開２０１２−１７３５９２号公報

＜大声判定部１２０＞
大声判定部１２０は、Ｍ個のパワーパラメータP_1,i(t)と、Ｍ個の音源位置パラメータL_1,i(t)とを受け取り、話者ｉの音声が大声か否かを判定し（ｓ１２０）、大声を出している話者のインデックスｉ₂(t)の集合を出力する。なお、全ての話者ｉの音声に対して、判定処理を行う。

例えば、大声判定部１２０は、距離計算部１２１とパワー補正部１２２と大声度計算部１２３と第一判定部１２４とを含む。

（距離計算部１２１）
距離計算部１２１は、Ｍ個の音源位置パラメータL_1,i(t)を受け取る。距離計算部１２１は、音源位置パラメータL_1,i(t)を用いて、話者ｉの位置Ｌ_2,iを特定する。距離計算部１２１は、混合音声信号X(t)を収音する際に用いたマイクロホンの位置Ｕと位置Ｌ_2,iとを用いて、マイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）を計算し（ｓ１２１）、出力する。音源位置パラメータL_1,i(t)は、話者ｉの位置Ｌ_2,iを特定するためのパラメータであればよく、位置Ｌ_2,i自体であってもよい。例えば、距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）としてユークリッド距離を用いてもよい。また、マイクロホンの位置Ｕは、利用者等により予め与えられているものとする。

なお、マイクロホンと話者ｉとの位置関係は時間に依存しないことを前提としてもよい。その場合は、予め距離を与えられる構成としてもよく、距離計算部１２１を設けなくともよい。なお、この場合には、音源分離部１１０では、Ｍ個の音源位置パラメータL_1,i(t)を求めない構成としてもよい。また、一度だけ距離を計算し、その距離を用いて以下の処理を繰り返し行ってもよい。

（パワー補正部１２２）
パワー補正部１２２は、Ｍ個のパワーパラメータP_1,i(t)と、Ｍ個の距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）とを受け取る。パワー補正部１２２は、パワーパラメータP_1,i(t)を用いて、話者ｉの音声のパワーＰ_2,i(t)を特定する。パワー補正部１２２は、距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）を用いて、話者ｉの音声のパワーＰ_2,i(t)を補正し、補正済みの音声のパワーＰ_3,i(t)を生成し（ｓ１２２）、出力する。

マイクロホンから距離Ａにいる話者ｉ_Ａと、マイクロホンから距離Ｂ（＞Ａ）にいる話者ｉ_Ｂとが同じ大きさの声で話している場合、距離が小さいパワーP_{2,i_A}(t)のほうが距離が大きいパワーP_{2,i_B}(t)よりも大きくなる。この点を、距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）を用いて補正する。なお、下付添え字における「＿（アンダーバー）」は、アンダーバーの直後の文字が、直前の文字の下付添え字であることを表す。つまり、下付添え字におけるＸ＿Ｙは、Ｘ_Ｙであることを表す。

例えば、距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）が大きくなるほど音声のパワーが大きくなるように、言い換えれば、距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）の増加に伴って音声のパワーが単調増加するように、音声のパワーを補正する。例えば、次式により、パワーＰ_2,i(t)を距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）で正規化することで、補正する。
P_3,i(t)=P_2,i(t)/d'(U,L_2,i,t)
ただし、ｄ’（Ｕ，Ｌ_２，ｉ，ｔ）は、距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）の増加に伴って、単調減少するような関数である。なお、距離が２倍になると６dBほど音声パワーが小さくなることが知られている。この特性に基づいて、パワーＰ_3,i(t)を求めてもよい。

（大声度計算部１２３）
大声度計算部１２３は、Ｍ個のパワーＰ_3,i(t)を受け取り、Ｍ個のパワーＰ_3,i(t)を用いて、話者ｉの他の話者ｊに対する大声の度合いを表す大声度Ｅ_ｉ(t)を計算し（ｓ１２３）、出力する。例えば、次式により、大声度Ｅ_ｉ(t)を計算する。

（第一判定部１２４）
第一判定部１２４は、Ｍ個の大声度Ｅ_ｉ(t)を受け取り、大声度Ｅ_ｉ(t)と閾値Ａとを比較し、閾値Ａ以上の大声度Ｅ_{ｉ_2}に対応するインデックスｉ₂(t)の集合を出力する。

ある１つの補正済みの音声のパワーＰ_3,i(t)と残りの補正済みの音声のパワーＰ_3,j(t)との差を計算し、残りのパワーＰ_3,j(t)よりも所定の閾値A以上、大きいパワーＰ_3,i(t)をもつ話者iを特定する処理である。他の話者の音声信号のパワーと比較して30dB以上（参考文献２）大きな音声信号は、叫び声のような耳障りな音声である可能性が高い。このことを利用して、第一判定部１２４では他の音声信号と比較して音量が特別大きな音声信号の話者のインデックスを特定する。例えば、閾値Aを、30dBとする。
（参考文献２）南條、国松、川野、中山、西浦、「音響防犯システムのための叫び声の基礎的検討」、2008年音響学会春季大会、1-Q-17, 2008.

＜混合信号生成部１４０＞
混合信号生成部１４０は、インデックスｉ₂(t)の集合とＭ個の推定値S_i(t)とを受け取り、Ｍ個の推定値S_i(t)から、インデックスｉ₂(t)に対応する音声信号の推定値S_{i_2}(t)を除き、残りの音声信号の推定値S_{i_3}(t)を合成して混合音声信号^X(t)を生成し（ｓ１４０）、出力する。

＜効果＞
このような構成により、混合音声信号から特定の話者の音声を抑圧することができ、混合音声信号から聴者にとって不快な印象を与える音声（例えば、野次や叫び声などを含む大声）を抑圧した混合音声信号を生成することができる。

＜変形例＞
本実施形態では、音源分離部１１０において、混合音声信号X(t)から話者ｉの位置に対応する音源位置パラメータL_1,i(t)を算出し、距離計算部１２１において、音源位置パラメータL_1,i(t)と予め与えられたマイクロホンの位置Ｕとを用いて、マイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）を計算している。しかし、既知の音源分離方法には、マイクロホンの位置Ｕを予め与えられることなく、混合音声信号X(t)からマイクマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）を算出できる方法もある。そのような既知の音源分離方法を用いて、音源分離部において、混合音声信号X(t)を受け取り、それぞれの話者ｉ（音源）の音声信号（音源信号）の推定値S_i(t)と、話者ｉの音声のパワーに対応するパワーパラメータP_1,i(t)と、マイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）とを算出し、出力してもよい。その場合、距離計算部１２１を設けなくともよい。

＜第二実施形態に係る特定音声抑圧装置２００＞
第一実施形態と異なる部分を中心に説明する。

図３は特定音声抑圧装置２００の機能ブロック図を、図４はその処理フローの例を示す。

特定音声抑圧装置１００は、音源分離部１１０と大声判定部１２０と叫び声判定部２３０と混合信号生成部２４０とを含む。

＜叫び声判定部２３０＞
叫び声判定部２３０は、インデックスｉ₂(t)の集合とＭ個の推定値S_i(t)とを受け取り、話者ｉ₂(t)の音声が叫び声か否かを判定し（ｓ２３０）、叫び声を出している話者のインデックスi₃(t)を出力する。なお、全ての話者ｉではなく、インデックスｉ₂(t)に対応する話者の音声に対してのみ、判定処理を行う。

例えば、叫び声判定部２３０は、声道スペクトル生成部２３１とデルタ特徴量計算部２３２と第二判定部２３３とを含む。

（声道スペクトル生成部２３１）
声道スペクトル生成部２３１は、インデックスｉ₂(t)の集合とＭ個の推定値S_i(t)とを受け取り、インデックスｉ₂(t)に対応する音声信号の推定値S_{i_2}(t)の声道スペクトルｖ_{i_2}(t)を生成し（ｓ２３１）、声道スペクトルｖ_{i_2}(t)の集合を出力する。

（デルタ特徴量計算部２３２）
デルタ特徴量計算部２３２は、声道スペクトルｖ_{i_2}(t)の集合を受け取り、これらの値を用いて、デルタ特徴量Δｖ_{i_2}(t)を計算し（ｓ２３２）、デルタ特徴量Δｖ_{i_2}(t)の集合を出力する。例えば、次式により（参考文献３参照）、デルタ特徴量Δｖ_{i_2}(t)を計算する。

ここで、2w₁+1が例えば50ミリ秒となるようにw₁を設定する。
（参考文献３）FURUI S., "Speaker-independent isolated word recognition using dynamic features of speech spectrum", IEEE Trans. Acoust., Speech and Signal Processing ASSP-34(1), 1986, pp. 52-59.

（第二判定部２３３）
第二判定部２３３は、デルタ特徴量Δｖ_{i_2}(t)の集合を受け取り、デルタ特徴量Δｖ_{i_2}がほぼ０となる区間が閾値Ｂを超えるか否かを判定し、閾値Ｂを超えるデルタ特徴量Δｖ_{i_3}に対応するインデックスｉ₃(t)の集合を出力する。

なお、デルタ特徴量Δｖ_{i_2}(t)の絶対値が十分に小さい正の値ε以下である区間が閾値Ｂを超えるか否かを判定してもよいし、以下の値が十分に小さい正の値ε以下であるか否かを判定してもよい。

ここで、2w₂+1が例えば、閾値Ｂ（例えば300ミリ秒）となるようにw₂を設定する。

デルタ特徴量は、所定時間区間ごとの音の変化を表す特徴量であり、値が大きいほど音の変化が大きいことを示す。デルタ特徴量がほぼ０である状態とは、音の変化がない状態であり、声を発していない（無音）であるか、または、音を伸ばしている状態であるか、のいずれかであると想定される。ただし、本実施形態では第一判定部１２４で音のパワーが大きな音声信号だけを叫び声判定部２３０の分析対象としているので、無音であることはありえない。つまり、叫び声判定部２３０では、音を伸ばしている状態であるか否かを判定し、音を伸ばしている傾向の強い音声信号の話者のインデックスを抽出している。

叫び声は一般に母音を伸ばす傾向がある。音声データベースの長母音の長さを基準として、平静状態ではそれよりも長く音を伸ばすことはほとんどあり得ないことから、この処理により、叫び声である可能性の高い音声信号を抽出することができる。

＜混合信号生成部２４０＞
混合信号生成部２４０は、インデックスｉ₃(t)の集合とＭ個の推定値S_i(t)とを受け取り、インデックスｉ₃(t)に対応する音声信号の推定値S_{i_3}(t)を除き、残りの音声信号の推定値S_{i_4}(t)を合成して混合音声信号^X(t)を生成し（ｓ２４０）、出力する。

＜効果＞
このような構成により、大声、特に野次や叫び声のような耳障りで視聴者にとって重要な情報を含まない音声だけを精度よく抑制することができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明は、例えばテレビの音声出力に応用することができる。生放送などの番組を視聴する際に、野次や叫び声などの不快な音を抑圧し快適に視聴することができる。

例えば、テレビの受信側での実装が可能である。例えば、テレビ内部に、特定音声抑圧装置を組み込み、受信側で野次や叫び声を抑圧する。なお、受信側では、マイクロホンの位置Ｕ、または、マイクロホンと話者との距離は、予め、データとして取得できるものとする。例えば、受信側でマイクロホンの位置Ｕをデータとして取得できる場合、第一実施形態で説明した処理を行えばよい。また、受信側でマイクロホンと話者との距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）をデータとして取得できる場合、放送局側のサーバでは音源分離部及び距離計算部を含み、受信側では音源分離部及び距離計算部以外の構成を含めばよい。放送局側のサーバでは、収音した音声信号（混合音声信号）に対して、音源分離部及び距離計算部を実行して、話者ｉの音声信号の推定値S_i(t)と、音源パワーパラメータP_1,i(t)と、マイクマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）とを求める。そして、話者ｉの音声信号の推定値S_i(t)と、音源パワーパラメータP_1,i(t)と、マイクマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）とを、受信側に配信する。受信側では、話者ｉの音声信号の推定値S_i(t)と、音源パワーパラメータP_1,i(t)と、マイクマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）とを用いて、大声判定部以降の処理を行うことで、第一実施形態と同等の効果を得ることができる。また、第一実施形態の変形例で説明したように、音源分離部において、混合音声信号X(t)からマイクマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）を算出できる場合には、放送局側のサーバは、少なくとも混合音声信号X(t)を配信すればよく、受信側では、第一実施形態及びその変形例で説明した処理を行えばよい。

また、テレビの放送局側での実装も可能である。マイクロホンから出力される混合音声信号を特定音声抑圧装置の入力とし、放送局は、特定音声抑圧装置の出力信号を送信すればよい。この場合、配信する時点で野次や叫び声を抑圧することができる。マイクロホンの位置Ｕは、利用者により、入力してもよいし、カメラ映像等を利用して取得してもよい。話者の位置について必ずしも音源分離部１１０で取得する必要はなく、カメラ映像等を利用してもよい。

また、例えば、補聴器に応用することも可能である。例えば、補聴器内部に、特定音声抑圧装置を組み込めばよく、マイクロホンの位置Ｕは、補聴器の位置となり、補聴器に対する話者ｉの位置が距離ｄ（Ｕ，Ｌ_2,ｉ，ｔ）となる。

Claims

ｉ∈｛１，…，Ｍ｝とし、Ｍ人の話者の音声を含む音声信号から、話者ｉの音声の推定値Ｓ_ｉと、話者ｉの音声のパワーに対応するパワーパラメータＰ_1,iとを生成する音源分離部と、
ｊ∈｛１，…，Ｍ｝＼ｉとし、前記音声信号を収音する際に用いたマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ）を用いて、前記パワーパラメータＰ_1,iにより特定される話者ｉの音声のパワーＰ_2,iを補正し、補正済みの音声のパワーＰ_3,iを生成し、前記パワーＰ_3,iを用いて、話者ｉの他の話者ｊに対する大声の度合いを表す大声度Ｅ_ｉを計算する大声判定部と、
閾値Ａ以上の大声度Ｅ_{i_2}に対応する推定値Ｓ_{i_2}を除いて、音声の推定値Ｓ_{i_3}を合成して、混合音声信号を生成する混合信号生成部と、を含む、
特定音声抑圧装置。
請求項１の特性音声抑圧装置において、
前記閾値Ａは３０ｄＢである、
特性音声抑圧装置。
ｉ∈｛１，…，Ｍ｝とし、Ｍ人の話者の音声を含む音声信号から、話者ｉの音声の推定値Ｓ_ｉと、話者ｉの音声のパワーに対応するパワーパラメータＰ_1,iとを生成する音源分離部と、
ｊ∈｛１，…，Ｍ｝＼ｉとし、前記音声信号を収音する際に用いたマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ）を用いて、前記パワーパラメータＰ_1,iにより特定される話者ｉの音声のパワーＰ_2,iを補正し、補正済みの音声のパワーＰ_3,iを生成し、前記パワーＰ_3,iを用いて、話者ｉの他の話者ｊに対する大声の度合いを表す大声度Ｅ_ｉを計算する大声判定部と、
閾値Ａ以上の大声度Ｅ_{i_2}に対応する推定値Ｓ_{i_2}の声道スペクトルｖ_{i_2}を生成し、前記声道スペクトルｖ_{i_2}からデルタ特徴量Δｖ_{i_2}を計算するデルタ特徴量計算部と、
ほぼ０となる区間が閾値Ｂを超えるデルタ特徴量Δｖ_{i_3}に対応する推定値Ｓ_{i_3}を除いて、音声の推定値Ｓ_{i_4}を合成して、混合信号を生成する混合信号生成部と、を含む、
特定音声抑圧装置。
請求項３の特性音声抑圧装置において、
前記閾値Ａは３０ｄＢであり、前記閾値Ｂは３００ミリ秒である。
特性音声抑圧装置。
ｉ∈｛１，…，Ｍ｝とし、Ｍ人の話者の音声を含む音声信号から、話者ｉの音声の推定値Ｓ_ｉと、話者ｉの音声のパワーに対応するパワーパラメータＰ_1,iとを生成する音源分離ステップと、
ｊ∈｛１，…，Ｍ｝＼ｉとし、前記音声信号を収音する際に用いたマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ）を用いて、前記パワーパラメータＰ_1,iにより特定される話者ｉの音声のパワーＰ_2,iを補正し、補正済みの音声のパワーＰ_3,iを生成し、前記パワーＰ_3,iを用いて、話者ｉの他の話者ｊに対する大声の度合いを表す大声度Ｅ_ｉを計算する大声判定ステップと、
閾値Ａ以上の大声度Ｅ_{i_2}に対応する推定値Ｓ_{i_2}を除いて、音声の推定値Ｓ_{i_3}を合成して、混合音声信号を生成する混合信号生成ステップと、を含む、
特定音声抑圧方法。
ｉ∈｛１，…，Ｍ｝とし、Ｍ人の話者の音声を含む音声信号から、話者ｉの音声の推定値Ｓ_ｉと、話者ｉの音声のパワーに対応するパワーパラメータＰ_1,iとを生成する音源分離ステップと、
ｊ∈｛１，…，Ｍ｝＼ｉとし、前記音声信号を収音する際に用いたマイクロホンと話者ｉとの距離ｄ（Ｕ，Ｌ_2,ｉ）を用いて、前記パワーパラメータＰ_1,iにより特定される話者ｉの音声のパワーＰ_2,iを補正し、補正済みの音声のパワーＰ_3,iを生成し、前記パワーＰ_3,iを用いて、話者ｉの他の話者ｊに対する大声の度合いを表す大声度Ｅ_ｉを計算する大声判定ステップと、
閾値Ａ以上の大声度Ｅ_{i_2}に対応する推定値Ｓ_{i_2}の声道スペクトルｖ_{i_2}を生成し、前記声道スペクトルｖ_{i_2}からデルタ特徴量Δｖ_{i_2}を計算するデルタ特徴量計算ステップと、
ほぼ０となる区間が閾値Ｂを超えるデルタ特徴量Δｖ_{i_3}に対応する推定値Ｓ_{i_3}を除いて、音声の推定値Ｓ_{i_4}を合成して、混合信号を生成する混合信号生成ステップと、を含む、
特定音声抑圧方法。
請求項１から請求項４の何れかに記載の特定音声抑圧装置としてコンピュータを機能させるためのプログラム。