JP6169526B2 - 特定音声抑圧装置、特定音声抑圧方法及びプログラム - Google Patents

特定音声抑圧装置、特定音声抑圧方法及びプログラム Download PDF

Info

Publication number
JP6169526B2
JP6169526B2 JP2014092670A JP2014092670A JP6169526B2 JP 6169526 B2 JP6169526 B2 JP 6169526B2 JP 2014092670 A JP2014092670 A JP 2014092670A JP 2014092670 A JP2014092670 A JP 2014092670A JP 6169526 B2 JP6169526 B2 JP 6169526B2
Authority
JP
Japan
Prior art keywords
speaker
power
speech
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014092670A
Other languages
English (en)
Other versions
JP2015210423A (ja
Inventor
淳司 渡邊
淳司 渡邊
定男 廣谷
定男 廣谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014092670A priority Critical patent/JP6169526B2/ja
Publication of JP2015210423A publication Critical patent/JP2015210423A/ja
Application granted granted Critical
Publication of JP6169526B2 publication Critical patent/JP6169526B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、M人の話者の音声を含む音声信号から特定の話者の音声を抑圧する技術に関する。
特許文献1が、音声データの中から怒り感情に対応する音声区間を検出する従来技術として知られている。特許文献1では、学習用データを用いて音声特徴量と感情表出度との関係を学習し、各音声特徴量と感情表出確率とを対応付けた符号帳を学習しておく。そして、入力された音声データから抽出した音声特徴量に基づいて符号帳を探索することで、当該抽出した音声特徴量の感情表出確率を求め、怒り感情に対応する区間であるか否かを判定する。
特開2005−345496号公報
しかしながら、従来技術は、複数の話者の音声を含む音声信号に対応していない。従来技術では、音声信号が、複数の話者の音声を含む音声信号(以下、混合音声信号ともいう)である場合は、混合音声信号に対応する音声特徴量に基づいて感情分類を行う。したがって、混合音声信号の中に含まれる特定の人の怒り感情の音声区間だけを抽出することはできない。
本発明は、混合音声信号から特定の話者の音声を抑圧する特定音声抑圧装置、特定音声抑圧方法及びプログラム提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、特定音声抑圧装置は、i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Sと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離部と、j∈{1,…,M}\iとし、音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eを計算する大声判定部と、閾値A以上の大声度Ei_2に対応する推定値Si_2を除いて、音声の推定値Si_3を合成して、混合音声信号を生成する混合信号生成部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、特定音声抑圧装置は、i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Sと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離部と、j∈{1,…,M}\iとし、音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eを計算する大声判定部と、閾値A以上の大声度Ei_2に対応する推定値Si_2の声道スペクトルvi_2を生成し、声道スペクトルvi_2からデルタ特徴量Δvi_2を計算するデルタ特徴量計算部と、ほぼ0となる区間が閾値Bを超えるデルタ特徴量Δvi_3に対応する推定値Si_3を除いて、音声の推定値Si_4を合成して、混合信号を生成する混合信号生成部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、特定音声抑圧方法は、i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Sと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離ステップと、j∈{1,…,M}\iとし、音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eを計算する大声判定ステップと、閾値A以上の大声度Ei_2に対応する推定値Si_2を除いて、音声の推定値Si_3を合成して、混合音声信号を生成する混合信号生成ステップと、を含む。
上記の課題を解決するために、本発明の他の態様によれば、特定音声抑圧方法は、i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Sと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離ステップと、j∈{1,…,M}\iとし、音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eを計算する大声判定ステップと、閾値A以上の大声度Ei_2に対応する推定値Si_2の声道スペクトルvi_2を生成し、声道スペクトルvi_2からデルタ特徴量Δvi_2を計算するデルタ特徴量計算ステップと、ほぼ0となる区間が閾値Bを超えるデルタ特徴量Δvi_3に対応する推定値Si_3を除いて、音声の推定値Si_4を合成して、混合信号を生成する混合信号生成ステップと、を含む。
本発明によれば、混合音声信号から特定の話者の音声を抑圧することができるという効果を奏する。
第一実施形態に係る特定音声抑圧装置の機能ブロック図。 第一実施形態に係る特定音声抑圧装置の処理フローの例を示す図。 第二実施形態に係る特定音声抑圧装置の機能ブロック図。 第二実施形態に係る特定音声抑圧装置の処理フローの例を示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態に係る特定音声抑圧装置>
図1は第一実施形態に係る特定音声抑圧装置100の機能ブロック図を、図2はその処理フローの例を示す。
特定音声抑圧装置100は、音源分離部110と大声判定部120と混合信号生成部140とを含む。
特定音声抑圧装置100は、M人の話者の音声を含む混合音声信号X(t)を受け取り、特定の話者の音声を抑圧した混合音声信号^X(t)を生成し、出力する。なお、tは時刻を表すインデックスである。
なお、入力される混合音声信号X(t)は、リアルタイムで収音された音声信号であってもよいし、テレビ番組やスポーツ映像のように予め録音された音声信号であってもよい。
<音源分離部110>
音源分離部110は、混合音声信号X(t)を受け取り、従来の音源分離技術を用いて、それぞれの話者i(音源)の音声信号(音源信号)の推定値Si(t)と、話者iの音声のパワーに対応するパワーパラメータP1,i(t)と、話者iの位置に対応する音源位置パラメータL1,i(t)とを算出し(s110)、出力する。なお、iは話者を表すインデックスであり、i∈{1,…,M}である。音源分離の従来技術として、例えば、参考文献1を用いることができる。
(参考文献1)特開2012−173592号公報
<大声判定部120>
大声判定部120は、M個のパワーパラメータP1,i(t)と、M個の音源位置パラメータL1,i(t)とを受け取り、話者iの音声が大声か否かを判定し(s120)、大声を出している話者のインデックスi2(t)の集合を出力する。なお、全ての話者iの音声に対して、判定処理を行う。
例えば、大声判定部120は、距離計算部121とパワー補正部122と大声度計算部123と第一判定部124とを含む。
(距離計算部121)
距離計算部121は、M個の音源位置パラメータL1,i(t)を受け取る。距離計算部121は、音源位置パラメータL1,i(t)を用いて、話者iの位置L2,iを特定する。距離計算部121は、混合音声信号X(t)を収音する際に用いたマイクロホンの位置Uと位置L2,iとを用いて、マイクロホンと話者iとの距離d(U,L2,i,t)を計算し(s121)、出力する。音源位置パラメータL1,i(t)は、話者iの位置L2,iを特定するためのパラメータであればよく、位置L2,i自体であってもよい。例えば、距離d(U,L2,i,t)としてユークリッド距離を用いてもよい。また、マイクロホンの位置Uは、利用者等により予め与えられているものとする。
なお、マイクロホンと話者iとの位置関係は時間に依存しないことを前提としてもよい。その場合は、予め距離を与えられる構成としてもよく、距離計算部121を設けなくともよい。なお、この場合には、音源分離部110では、M個の音源位置パラメータL1,i(t)を求めない構成としてもよい。また、一度だけ距離を計算し、その距離を用いて以下の処理を繰り返し行ってもよい。
(パワー補正部122)
パワー補正部122は、M個のパワーパラメータP1,i(t)と、M個の距離d(U,L2,i,t)とを受け取る。パワー補正部122は、パワーパラメータP1,i(t)を用いて、話者iの音声のパワーP2,i(t)を特定する。パワー補正部122は、距離d(U,L2,i,t)を用いて、話者iの音声のパワーP2,i(t)を補正し、補正済みの音声のパワーP3,i(t)を生成し(s122)、出力する。
マイクロホンから距離Aにいる話者iと、マイクロホンから距離B(>A)にいる話者iとが同じ大きさの声で話している場合、距離が小さいパワーP2,i_A(t)のほうが距離が大きいパワーP2,i_B(t)よりも大きくなる。この点を、距離d(U,L2,i,t)を用いて補正する。なお、下付添え字における「_(アンダーバー)」は、アンダーバーの直後の文字が、直前の文字の下付添え字であることを表す。つまり、下付添え字におけるX_Yは、Xであることを表す。
例えば、距離d(U,L2,i,t)が大きくなるほど音声のパワーが大きくなるように、言い換えれば、距離d(U,L2,i,t)の増加に伴って音声のパワーが単調増加するように、音声のパワーを補正する。例えば、次式により、パワーP2,i(t)を距離d(U,L2,i,t)で正規化することで、補正する。
P3,i(t)=P2,i(t)/d'(U,L2,i,t)
ただし、d’(U,L2,i,t)は、距離d(U,L2,i,t)の増加に伴って、単調減少するような関数である。なお、距離が2倍になると6dBほど音声パワーが小さくなることが知られている。この特性に基づいて、パワーP3,i(t)を求めてもよい。
(大声度計算部123)
大声度計算部123は、M個のパワーP3,i(t)を受け取り、M個のパワーP3,i(t)を用いて、話者iの他の話者jに対する大声の度合いを表す大声度E(t)を計算し(s123)、出力する。例えば、次式により、大声度E(t)を計算する。
Figure 0006169526
(第一判定部124)
第一判定部124は、M個の大声度E(t)を受け取り、大声度E(t)と閾値Aとを比較し、閾値A以上の大声度Ei_2に対応するインデックスi2(t)の集合を出力する。
ある1つの補正済みの音声のパワーP3,i(t)と残りの補正済みの音声のパワーP3,j(t)との差を計算し、残りのパワーP3,j(t)よりも所定の閾値A以上、大きいパワーP3,i(t)をもつ話者iを特定する処理である。他の話者の音声信号のパワーと比較して30dB以上(参考文献2)大きな音声信号は、叫び声のような耳障りな音声である可能性が高い。このことを利用して、第一判定部124では他の音声信号と比較して音量が特別大きな音声信号の話者のインデックスを特定する。例えば、閾値Aを、30dBとする。
(参考文献2)南條、国松、川野、中山、西浦、「音響防犯システムのための叫び声の基礎的検討」、2008年音響学会春季大会、1-Q-17, 2008.
<混合信号生成部140>
混合信号生成部140は、インデックスi2(t)の集合とM個の推定値Si(t)とを受け取り、M個の推定値Si(t)から、インデックスi2(t)に対応する音声信号の推定値Si_2(t)を除き、残りの音声信号の推定値Si_3(t)を合成して混合音声信号^X(t)を生成し(s140)、出力する。
<効果>
このような構成により、混合音声信号から特定の話者の音声を抑圧することができ、混合音声信号から聴者にとって不快な印象を与える音声(例えば、野次や叫び声などを含む大声)を抑圧した混合音声信号を生成することができる。
<変形例>
本実施形態では、音源分離部110において、混合音声信号X(t)から話者iの位置に対応する音源位置パラメータL1,i(t)を算出し、距離計算部121において、音源位置パラメータL1,i(t)と予め与えられたマイクロホンの位置Uとを用いて、マイクロホンと話者iとの距離d(U,L2,i,t)を計算している。しかし、既知の音源分離方法には、マイクロホンの位置Uを予め与えられることなく、混合音声信号X(t)からマイクマイクロホンと話者iとの距離d(U,L2,i,t)を算出できる方法もある。そのような既知の音源分離方法を用いて、音源分離部において、混合音声信号X(t)を受け取り、それぞれの話者i(音源)の音声信号(音源信号)の推定値Si(t)と、話者iの音声のパワーに対応するパワーパラメータP1,i(t)と、マイクロホンと話者iとの距離d(U,L2,i,t)とを算出し、出力してもよい。その場合、距離計算部121を設けなくともよい。
<第二実施形態に係る特定音声抑圧装置200>
第一実施形態と異なる部分を中心に説明する。
図3は特定音声抑圧装置200の機能ブロック図を、図4はその処理フローの例を示す。
特定音声抑圧装置100は、音源分離部110と大声判定部120と叫び声判定部230と混合信号生成部240とを含む。
<叫び声判定部230>
叫び声判定部230は、インデックスi2(t)の集合とM個の推定値Si(t)とを受け取り、話者i2(t)の音声が叫び声か否かを判定し(s230)、叫び声を出している話者のインデックスi3(t)を出力する。なお、全ての話者iではなく、インデックスi2(t)に対応する話者の音声に対してのみ、判定処理を行う。
例えば、叫び声判定部230は、声道スペクトル生成部231とデルタ特徴量計算部232と第二判定部233とを含む。
(声道スペクトル生成部231)
声道スペクトル生成部231は、インデックスi2(t)の集合とM個の推定値Si(t)とを受け取り、インデックスi2(t)に対応する音声信号の推定値Si_2(t)の声道スペクトルvi_2(t)を生成し(s231)、声道スペクトルvi_2(t)の集合を出力する。
(デルタ特徴量計算部232)
デルタ特徴量計算部232は、声道スペクトルvi_2(t)の集合を受け取り、これらの値を用いて、デルタ特徴量Δvi_2(t)を計算し(s232)、デルタ特徴量Δvi_2(t)の集合を出力する。例えば、次式により(参考文献3参照)、デルタ特徴量Δvi_2(t)を計算する。
Figure 0006169526
ここで、2w1+1が例えば50ミリ秒となるようにw1を設定する。
(参考文献3)FURUI S., "Speaker-independent isolated word recognition using dynamic features of speech spectrum", IEEE Trans. Acoust., Speech and Signal Processing ASSP-34(1), 1986, pp. 52-59.
(第二判定部233)
第二判定部233は、デルタ特徴量Δvi_2(t)の集合を受け取り、デルタ特徴量Δvi_2がほぼ0となる区間が閾値Bを超えるか否かを判定し、閾値Bを超えるデルタ特徴量Δvi_3に対応するインデックスi3(t)の集合を出力する。
なお、デルタ特徴量Δvi_2(t)の絶対値が十分に小さい正の値ε以下である区間が閾値Bを超えるか否かを判定してもよいし、以下の値が十分に小さい正の値ε以下であるか否かを判定してもよい。
Figure 0006169526
ここで、2w2+1が例えば、閾値B(例えば300ミリ秒)となるようにw2を設定する。
デルタ特徴量は、所定時間区間ごとの音の変化を表す特徴量であり、値が大きいほど音の変化が大きいことを示す。デルタ特徴量がほぼ0である状態とは、音の変化がない状態であり、声を発していない(無音)であるか、または、音を伸ばしている状態であるか、のいずれかであると想定される。ただし、本実施形態では第一判定部124で音のパワーが大きな音声信号だけを叫び声判定部230の分析対象としているので、無音であることはありえない。つまり、叫び声判定部230では、音を伸ばしている状態であるか否かを判定し、音を伸ばしている傾向の強い音声信号の話者のインデックスを抽出している。
叫び声は一般に母音を伸ばす傾向がある。音声データベースの長母音の長さを基準として、平静状態ではそれよりも長く音を伸ばすことはほとんどあり得ないことから、この処理により、叫び声である可能性の高い音声信号を抽出することができる。
<混合信号生成部240>
混合信号生成部240は、インデックスi3(t)の集合とM個の推定値Si(t)とを受け取り、インデックスi3(t)に対応する音声信号の推定値Si_3(t)を除き、残りの音声信号の推定値Si_4(t)を合成して混合音声信号^X(t)を生成し(s240)、出力する。
<効果>
このような構成により、大声、特に野次や叫び声のような耳障りで視聴者にとって重要な情報を含まない音声だけを精度よく抑制することができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明は、例えばテレビの音声出力に応用することができる。生放送などの番組を視聴する際に、野次や叫び声などの不快な音を抑圧し快適に視聴することができる。
例えば、テレビの受信側での実装が可能である。例えば、テレビ内部に、特定音声抑圧装置を組み込み、受信側で野次や叫び声を抑圧する。なお、受信側では、マイクロホンの位置U、または、マイクロホンと話者との距離は、予め、データとして取得できるものとする。例えば、受信側でマイクロホンの位置Uをデータとして取得できる場合、第一実施形態で説明した処理を行えばよい。また、受信側でマイクロホンと話者との距離d(U,L2,i,t)をデータとして取得できる場合、放送局側のサーバでは音源分離部及び距離計算部を含み、受信側では音源分離部及び距離計算部以外の構成を含めばよい。放送局側のサーバでは、収音した音声信号(混合音声信号)に対して、音源分離部及び距離計算部を実行して、話者iの音声信号の推定値Si(t)と、音源パワーパラメータP1,i(t)と、マイクマイクロホンと話者iとの距離d(U,L2,i,t)とを求める。そして、話者iの音声信号の推定値Si(t)と、音源パワーパラメータP1,i(t)と、マイクマイクロホンと話者iとの距離d(U,L2,i,t)とを、受信側に配信する。受信側では、話者iの音声信号の推定値Si(t)と、音源パワーパラメータP1,i(t)と、マイクマイクロホンと話者iとの距離d(U,L2,i,t)とを用いて、大声判定部以降の処理を行うことで、第一実施形態と同等の効果を得ることができる。また、第一実施形態の変形例で説明したように、音源分離部において、混合音声信号X(t)からマイクマイクロホンと話者iとの距離d(U,L2,i,t)を算出できる場合には、放送局側のサーバは、少なくとも混合音声信号X(t)を配信すればよく、受信側では、第一実施形態及びその変形例で説明した処理を行えばよい。
また、テレビの放送局側での実装も可能である。マイクロホンから出力される混合音声信号を特定音声抑圧装置の入力とし、放送局は、特定音声抑圧装置の出力信号を送信すればよい。この場合、配信する時点で野次や叫び声を抑圧することができる。マイクロホンの位置Uは、利用者により、入力してもよいし、カメラ映像等を利用して取得してもよい。話者の位置について必ずしも音源分離部110で取得する必要はなく、カメラ映像等を利用してもよい。
また、例えば、補聴器に応用することも可能である。例えば、補聴器内部に、特定音声抑圧装置を組み込めばよく、マイクロホンの位置Uは、補聴器の位置となり、補聴器に対する話者iの位置が距離d(U,L2,i,t)となる。

Claims (7)

  1. i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Sと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離部と、
    j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eを計算する大声判定部と、
    閾値A以上の大声度Ei_2に対応する推定値Si_2を除いて、音声の推定値Si_3を合成して、混合音声信号を生成する混合信号生成部と、を含む、
    特定音声抑圧装置。
  2. 請求項1の特性音声抑圧装置において、
    前記閾値Aは30dBである、
    特性音声抑圧装置。
  3. i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Sと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離部と、
    j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eを計算する大声判定部と、
    閾値A以上の大声度Ei_2に対応する推定値Si_2の声道スペクトルvi_2を生成し、前記声道スペクトルvi_2からデルタ特徴量Δvi_2を計算するデルタ特徴量計算部と、
    ほぼ0となる区間が閾値Bを超えるデルタ特徴量Δvi_3に対応する推定値Si_3を除いて、音声の推定値Si_4を合成して、混合信号を生成する混合信号生成部と、を含む、
    特定音声抑圧装置。
  4. 請求項3の特性音声抑圧装置において、
    前記閾値Aは30dBであり、前記閾値Bは300ミリ秒である。
    特性音声抑圧装置。
  5. i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Sと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離ステップと、
    j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eを計算する大声判定ステップと、
    閾値A以上の大声度Ei_2に対応する推定値Si_2を除いて、音声の推定値Si_3を合成して、混合音声信号を生成する混合信号生成ステップと、を含む、
    特定音声抑圧方法。
  6. i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Sと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離ステップと、
    j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eを計算する大声判定ステップと、
    閾値A以上の大声度Ei_2に対応する推定値Si_2の声道スペクトルvi_2を生成し、前記声道スペクトルvi_2からデルタ特徴量Δvi_2を計算するデルタ特徴量計算ステップと、
    ほぼ0となる区間が閾値Bを超えるデルタ特徴量Δvi_3に対応する推定値Si_3を除いて、音声の推定値Si_4を合成して、混合信号を生成する混合信号生成ステップと、を含む、
    特定音声抑圧方法。
  7. 請求項1から請求項4の何れかに記載の特定音声抑圧装置としてコンピュータを機能させるためのプログラム。
JP2014092670A 2014-04-28 2014-04-28 特定音声抑圧装置、特定音声抑圧方法及びプログラム Active JP6169526B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014092670A JP6169526B2 (ja) 2014-04-28 2014-04-28 特定音声抑圧装置、特定音声抑圧方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014092670A JP6169526B2 (ja) 2014-04-28 2014-04-28 特定音声抑圧装置、特定音声抑圧方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015210423A JP2015210423A (ja) 2015-11-24
JP6169526B2 true JP6169526B2 (ja) 2017-07-26

Family

ID=54612633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014092670A Active JP6169526B2 (ja) 2014-04-28 2014-04-28 特定音声抑圧装置、特定音声抑圧方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6169526B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4394532B2 (ja) * 2004-07-26 2010-01-06 シャープ株式会社 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2007187748A (ja) * 2006-01-11 2007-07-26 Matsushita Electric Ind Co Ltd 音選択加工装置
US9129291B2 (en) * 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
JP4952698B2 (ja) * 2008-11-04 2012-06-13 ソニー株式会社 音声処理装置、音声処理方法およびプログラム

Also Published As

Publication number Publication date
JP2015210423A (ja) 2015-11-24

Similar Documents

Publication Publication Date Title
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US20220159403A1 (en) System and method for assisting selective hearing
US10950249B2 (en) Audio watermark encoding/decoding
EP4004906A1 (en) Per-epoch data augmentation for training acoustic models
WO2019128140A1 (zh) 一种语音降噪方法、装置、服务器及存储介质
US11894008B2 (en) Signal processing apparatus, training apparatus, and method
US20200098380A1 (en) Audio watermark encoding/decoding
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
CN112242149A (zh) 音频数据的处理方法、装置、耳机及计算机可读存储介质
JP2023527473A (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
CN116420188A (zh) 从呼叫和音频消息中对其他说话者进行语音过滤
JP2019028465A (ja) 話者検証方法及び音声認識システム
CN111462732A (zh) 语音识别方法和装置
CN113823303A (zh) 音频降噪方法、装置及计算机可读存储介质
JP6169526B2 (ja) 特定音声抑圧装置、特定音声抑圧方法及びプログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
KR20150107520A (ko) 음성인식 방법 및 장치
CN111862947A (zh) 用于控制智能设备的方法、装置、电子设备和计算机存储介质
US20230267942A1 (en) Audio-visual hearing aid
WO2020068401A1 (en) Audio watermark encoding/decoding
CN113056908A (zh) 视频字幕合成方法、装置、存储介质及电子设备
CN112992186B (zh) 音频处理方法、装置、电子设备及存储介质
KR102661005B1 (ko) 다채널 다화자 환경에서 화자별 음원분리장치 및 방법
US20240071396A1 (en) System and Method for Watermarking Audio Data for Automated Speech Recognition (ASR) Systems
US20240087597A1 (en) Source speech modification based on an input speech characteristic

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170628

R150 Certificate of patent or registration of utility model

Ref document number: 6169526

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150