JP6541588B2 - 音声信号処理装置、方法及びプログラム - Google Patents

音声信号処理装置、方法及びプログラム Download PDF

Info

Publication number
JP6541588B2
JP6541588B2 JP2016012288A JP2016012288A JP6541588B2 JP 6541588 B2 JP6541588 B2 JP 6541588B2 JP 2016012288 A JP2016012288 A JP 2016012288A JP 2016012288 A JP2016012288 A JP 2016012288A JP 6541588 B2 JP6541588 B2 JP 6541588B2
Authority
JP
Japan
Prior art keywords
signal
frequency band
interval
value
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016012288A
Other languages
English (en)
Other versions
JP2017134153A (ja
Inventor
堀内 俊治
俊治 堀内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2016012288A priority Critical patent/JP6541588B2/ja
Publication of JP2017134153A publication Critical patent/JP2017134153A/ja
Application granted granted Critical
Publication of JP6541588B2 publication Critical patent/JP6541588B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Description

本発明は、入力される音声信号を記録し、或いは、通信インタフェースから送信する場合において、背景雑音及び不要な話者音声を除去する音声信号処理装置、方法及びプログラムに関する。
音声の記録装置や、音声通信装置においては、背景雑音に加え、記録又は通信対象である必要な話者の音声以外の不要な音声を除去することが望まれる。マイクロホン等により取得される信号のうち、必要な話者音声に比べて不要な話者音声が背景雑音と同程度に小さい場合、不要な話者音声及び背景雑音は、背景雑音を除去する技術により取り除くことができる。一方、不要な話者音声が必要な話者音声と同じ程度に大きい場合、どちらの音声がマイクロホンに近いかの判別が必要となる。通常、マイクロホンに近い位置にいる話者からの音声が、必要な話者音声であり、以下では、このマイクロホンに近い位置にいる話者を近接話者と呼ぶ。一方、近接話者よりマイクロホンから遠い位置にいる話者からの音声は、通常、不要な話者音声であり、以下では、不要な話者を遠隔話者と呼ぶものとする。例えば、近接話者が使用するメインのマイクロホンに加えて、1つ以上のサブのマイクロホンを使用することで、近接話者からの音声であるか、遠隔話者からの音声であること判別できる。しかしながら、機器に複数のマイクロホンを搭載する必要があり、例えば、携帯電話の様に、1つのマイクロホンのみを搭載している機器においては、この方法を利用することはできない。
非特許文献1から4は、音声に含まれる残響の影響に基づき、1つのマイクロホンで話者の遠近を判別して、遠隔話者からの音声を抑圧する構成を開示している。具体的には、非特許文献1から4は、残響と相関があることが知られている音声信号の線形予測残差の尖度に基づき、1つのマイクロホンで収録された音声が、近接話者からのものであるか、遠隔話者からのものであるかを判別することを開示している。
林田亘平、他、"線形予測残差の尖度に基づく近端/遠端話者判別の提案",電子情報通信学会技術研究報告 2014 113(452),SP2013・107,1−6 林田亘平、他、"線形予測残差の尖度に基づく近端/遠端話者判別の検討",日本音響学会研究発表会講演論文集 2014年春季,1−4−12,23−24 K.Hayashida, et al.,"Close/Distant Talker Discrimination Based on Kurtosis of Linear Prediction Residual Signals",Proc.2014 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP 2014),2014年,2346−2350 林田亘平、他、"音声の線形予測残差の尖度に基づく近接/遠隔話者の判別",電子情報通信学会論文誌A基礎・境界,2015年,J98−A(2),190−199
しかしながら、非特許文献1から4に記載の構成では、近接話者の音声が背景雑音よりも小さい場合や、遠隔話者からの音声信号レベルが、近接話者からの音声信号レベル以上の場合には、背景雑音や遠隔話者からの音声信号を十分に抑圧することができない。
本発明は、背景雑音及び遠隔話者からの音声信号を精度良く抑圧できる音声信号処理装置、方法及びプログラムを提供するものである。
本発明の一側面によると、音声信号処理装置は、マイクロホンで取得した入力信号を時間区間で分割して複数の区間信号を生成する第1生成手段と、前記複数の区間信号それぞれについて近接話者の音声成分を含むか否かを判定し、前記入力信号の各時間区間について、近接話者の音声成分を含む第1区間であるか近接話者の音声成分を含まない第2区間であるかを示す表示信号を生成する第2生成手段と、前記複数の区間信号それぞれを周波数領域の複数の第1信号に変換する第1変換手段と、各第1信号を複数の周波数帯域に分割し、第1信号の各周波数帯域における雑音成分に基づき当該第1信号の各周波数帯域の信号レベルを調整して第2信号を生成する第3生成手段と、前記第2信号を複数の周波数帯域に分割し、前記第2信号の各周波数帯域の重み係数を、前記表示信号及び前記第2信号の元となった第1信号に基づき決定し、前記第2信号の各周波数帯域の信号レベルを前記決定した重み係数で重み付けすることで第3信号を生成する第4生成手段と、前記第3信号を時間領域の信号に変換する第2変換手段と、を備え、前記第4生成手段は、前記重み係数として第1の値、又は、前記第1の値より小さい第2の値を使用し、前記表示信号が、前記第2信号の時間区間が前記第2区間であると示していると、前記第2信号の各周波数帯域の重み係数を前記第2の値に決定し、前記表示信号が、前記第2信号の時間区間が前記第1区間であると示していると、前記第2信号の各周波数帯域の第2信号レベルと、前記第2信号の元となった第1信号の同じ周波数帯域の第1信号レベルとを比較し、前記第2信号レベルが前記第1信号レベル以上である前記第2信号の周波数帯域の重み係数を前記第2の値に決定し、それ以外の前記第2信号の周波数帯域の重み係数を前記第1の値に決定することを特徴とする。
本発明によると、背景雑音及び遠隔話者からの音声信号を精度良く抑圧することができる。
一実施形態による音声信号処理装置の構成図。 一実施形態による検出部の構成図。 一実施形態による除去部の構成図。 一実施形態による入力信号の分割方法の説明図。 一実施形態によるマスク部での処理の説明図。
以下、本発明の例示的な実施形態について図面を参照して説明する。なお、以下の実施形態は例示であり、本発明を実施形態の内容に限定するものではない。また、以下の各図においては、実施形態の説明に必要ではない構成要素については図から省略する。
図1は、本実施形態による音声信号処理装置の構成図である。マイクロホンにより取得した入力信号である音声信号は分割部1に入力される。分割部1は、連続信号である入力信号を所定の時間単位で区切り、所定の時間区間の区間信号に分割する。区間の分割方法は、図4(A)に示す様に、隣接する区間において入力信号の重複領域が存在しない様に行う構成とすることができる。或いは、図4(B)に示す様に、スライディング・ウィンドウにより、つまり、隣接する区間において入力信号の重複領域が存在する様に行う構成であっても良い。図4(B)に示す様に、隣接する区間において入力信号の重複領域が存在する様に区切る場合には、例えば、ハミング窓といった窓関数を使用して重複領域における信号レベルを調整する。
検出部2は、例えば、非特許文献1から4に記載されている様に、区間信号それぞれに対して、音声信号の線形予測残差の尖度に基づき近接話者からの音声成分を含むか否かを判定し、各時間区間について、近接話者による音声成分が存在する第1区間と、近接話者による音声成分が存在しない第2区間を示す近接話者区間表示信号をマスク部5に出力する。図2は、非特許文献1から4に記載の検出部2の構成図である。予測部21は、区間信号から将来の区間信号の予測を行い、残差算出部22は、予測した区間信号から、実際の区間信号を減じることで残差信号を求める。尖度算出部23は、残差信号の尖度を求め、区間検出部24は、尖度と閾値を比較することで近接話者による音声信号を含む区間を示す近接話者区間表示信号を出力する。具体的には、尖度が閾値以上であると、第1区間と判定し、尖度が閾値未満であると第2区間と判定する。
一方、変換部3は、区間信号をフーリエ変換して、周波数領域の信号X1に変換する。除去部4は、周波数領域の信号を所定の周波数区間(周波数帯域)に分割し、各周波数区間の信号対雑音比(SNR)に基づき各周波数区間のレベルを調整し、信号X1の背景雑音を低減した周波数領域の信号X2を出力する。図3は、除去部4の構成例を示すブロック図である。雑音推定部41は、各周波数区間について雑音レベルを推定する。雑音推定部41は、例えば、複数の時間区間に対する信号X1の変化により各周波数区間に定常的に存在する雑音を推定することができる。また、雑音推定部41は、信号X1のレベルにより近接話者による音声信号が存在しない時間区間を判定し、この時間区間における信号X1に基づき各周波数区間の雑音を推定することができる。SNR推定部42は、各周波数区間のSNRを推定する。利得算出部43は、各周波数区間のSNRに基づき、各周波数区間の利得を算出する。なお、周波数区間のSNRが高くなる程、つまり、周波数区間の品質が高くなる程、当該周波数区間の利得を高くする。調整部44は、各周波数区間の周波数成分に、当該周波数区間の利得を乗ずることで信号X2を出力する。SNRが悪い周波数区間については、小さい利得を乗じてそのレベルを小さくすることで、雑音レベルを抑える。なお、上記処理は、通常、デジタル領域で行われる。つまり、変換部3は、離散フーリエ変換により区間信号を離散的な周波数の各成分を含む信号X1に変換する。この場合、信号X1を構成する複数の離散的な周波数成分の1つの周波数成分を1つの周波数区間とすることができる。また、信号X1を構成する複数の離散的な周波数成分の2つ以上を纏めて1つの周波数区間とすることができる。
マスク部5は、変換部3からの信号X1と、除去部4からの信号X2と、検出部2からの近接話者区間表示信号に基づき周波数領域の信号Yを出力する。まず、マスク部5は、各時間区間の信号X2を、所定の周波数区間に分割する。この周波数区間は、除去部4における周波数区間と同じ帯域幅としても、異なる帯域幅としても良い。図5は、周波数方向において4つの区間#1〜#4に分割した状態を示している。以下では、時間区間#tであり、周波数区間#fである信号X2の部分をX2(t,f)と表記する。マスク部5は、信号X1も、信号X2と同じ周波数区間に分割する。以下では、時間区間#tであり、周波数区間#fである信号X1の部分をX1(t,f)と表記する。また、マスク部5が出力する信号Yについて、時間区間#tであり、周波数区間#fである部分をY(t,f)と表記する。
マスク部5が出力する信号Y(t,f)は、以下の式で表される。
Y(t,f)=m×X2(t,f) (1)
ここで、重み係数mは0以上の値であり、かつ、第1の値か、第1の値より小さい第2の値に設定される。例えば、第1の値は1であり、第2の値は0又は0.5とすることができる。mの値を第1の値とするか、第2の値とするかは、近接話者区間表示信号と、信号X2(t,f)及び信号X1(t,f)との比較とに基づき判定される。
具体的には、近接話者区間表示信号が近接話者による音声成分が存在していない、つまり第2区間であると示す時間区間においては重み係数mを第2の値とする。一方、近接話者区間表示信号が近接話者による音声成分が存在している、つまり、第1区間であると示す時間区間#t1においては、X1(t1,f)の絶対値がX2(t1,f)の絶対値より大きい周波数区間に対してはmを第1の値とし、それ以外の周波数区間においてはmを第2の値とする。なお、デジタル領域の処理において、1つの周波数成分が1つの周波数区間に対応する場合には、当該1つの周波数成分の振幅の絶対値が比較対象となる。一方、1つの周波数区間が複数の周波数成分を含む場合には、各周波数成分の絶対値の積算値が比較対象となる。
例えば、図5において、時間区間#1及び#3が第2区間であり、時間区間#2が第1区間であると近接話者区間表示信号が示しているものとする。さらに、X1(2,1)及びX1(2,2)の絶対値は、それぞれ、X2(2,1)及びX2(2,2)の絶対値より大きく、X1(2,3)及びX1(2,4)の絶対値は、それぞれ、X2(2,3)及びX2(2,4)の絶対値以下であるものとする。この場合、マスク部5は、X2(2,1)及びX2(2,2)に対する重み係数mを第1の値とし、それ以外の時間周波数区間についての重み係数を第2の値とする。そして、X2(2,1)及びX2(2,2)には第1の値を乗じ、それ以外の時間周波数区間については第2の値を乗ずることで信号Yを生成する。
逆変換部6は、各時間区間の信号Yに対して逆フーリエ変換を行い、各時間区間について時間領域の信号を出力する。合成部7は、各時間区間の信号を合成して、連続的な時間信号を出力する。なお、合成部7の処理は分割部1における処理に応じて決定される。具体的には、図4(A)に示す様に重複領域が存在しない様に分割した場合には、単に、逆変換部6が出力する各時間区間の信号をその時間順に並べる。一方、図4(B)に示す様に重複領域が存在する様に分割した場合には、各時間区間の信号に対して分割したときと同じ重複領域を設けて合成する。この際、重複領域においては、分割したときの窓関数に基づき重複領域の合成の際の重みを調整する。
以上、本実施形態においては、除去部4において雑音成分を抑圧する。なお、遠隔話者の音声レベルが、近接話者の音声レベルより小さいと、除去部4において遠隔話者の音声レベルを抑圧できる。また、本実施形態においては、検出部2により各時間区間において、近接話者による音声成分が存在していないかを判定する。近接話者による音声成分が存在していないと判定された時間区間においては重み係数mを第2の値とすることで、遠隔話者の音声成分のみが存在する区間や音声信号が存在しない区間のレベルを抑圧する。なお、近接話者による音声成分が存在すると判定された時間区間においては、近接話者と遠隔話者の両方の音声成分が存在し得る。なお、上述した様に、遠隔話者の音声レベルが、近接話者の音声レベルより小さい場合においては、除去部4により遠隔話者の音声レベルは抑圧されている。しかしながら、近接話者と遠隔話者の音声成分の両方が存在し、かつ、遠隔話者の音声レベルが近接話者の音声レベルと同程度、或いは、近接話者の音声レベルより大きい状態の場合、除去部4では、遠隔話者の音声レベルを抑圧できない。
本実施形態において、マスク部5は、第1区間については、周波数区間に分割し、周波数区間毎に信号X1と信号X2のレベルを比較する。遠隔話者の音声レベルが近接話者の音声レベルより大きい周波数区間においては、スペクトラム変形が生じ、除去部4における利得が高くなる。したがって、信号X2のパワー成分は、信号X1のパワー成分以上となる。したがって、信号X2の絶対値が信号X1の絶対値以上である周波数区間については、遠隔話者の音声レベルが近接話者の音声レベルより大きい周波数区間であると判定し、当該周波数区間の重み係数を第2の値とし、その信号レベルを小さくする。この構成により、背景雑音及び遠隔話者の音声レベルを抑えた信号Yを得ることができる。
なお、本発明による音声信号処理装置は、コンピュータを上記音声信号処理装置として動作させるプログラムにより実現することができる。これらコンピュータプログラムは、コンピュータが読み取り可能な記憶媒体に記憶されて、又は、ネットワーク経由で配布が可能なものである。
1:分割部、2:検出部、3:変換部、4:除去部、5:マスク部、6:逆変換部、7:合成部

Claims (5)

  1. マイクロホンで取得した入力信号を時間区間で分割して複数の区間信号を生成する第1生成手段と、
    前記複数の区間信号それぞれについて近接話者の音声成分を含むか否かを判定し、前記入力信号の各時間区間について、近接話者の音声成分を含む第1区間であるか近接話者の音声成分を含まない第2区間であるかを示す表示信号を生成する第2生成手段と、
    前記複数の区間信号それぞれを周波数領域の複数の第1信号に変換する第1変換手段と、
    各第1信号を複数の周波数帯域に分割し、第1信号の各周波数帯域における雑音成分に基づき当該第1信号の各周波数帯域の信号レベルを調整して第2信号を生成する第3生成手段と、
    前記第2信号を複数の周波数帯域に分割し、前記第2信号の各周波数帯域の重み係数を、前記表示信号及び前記第2信号の元となった第1信号に基づき決定し、前記第2信号の各周波数帯域の信号レベルを前記決定した重み係数で重み付けすることで第3信号を生成する第4生成手段と、
    前記第3信号を時間領域の信号に変換する第2変換手段と、
    を備え
    前記第4生成手段は、前記重み係数として第1の値、又は、前記第1の値より小さい第2の値を使用し、前記表示信号が、前記第2信号の時間区間が前記第2区間であると示していると、前記第2信号の各周波数帯域の重み係数を前記第2の値に決定し、前記表示信号が、前記第2信号の時間区間が前記第1区間であると示していると、前記第2信号の各周波数帯域の第2信号レベルと、前記第2信号の元となった第1信号の同じ周波数帯域の第1信号レベルとを比較し、前記第2信号レベルが前記第1信号レベル以上である前記第2信号の周波数帯域の重み係数を前記第2の値に決定し、それ以外の前記第2信号の周波数帯域の重み係数を前記第1の値に決定することを特徴とする音声信号処理装置。
  2. 前記第2生成手段は、区間信号の予測残差の尖度を閾値と比較することで、当該区間信号の時間区間が前記第1区間であるか第2区間であるかを判定することを特徴とする請求項1に記載の音声信号処理装置。
  3. 前記第3生成手段は、前記第1信号の各周波数帯域の信号対雑音比を求め、周波数帯域の信号対雑音比が高くなる程、信号レベルが高くなる様に前記第1信号の各周波数帯域の信号レベルを調整することを特徴とする請求項1又は2に記載の音声信号処理装置。
  4. マイクロホンで取得した入力信号を時間区間で分割して複数の区間信号を生成する第1生成ステップと、
    前記複数の区間信号それぞれについて近接話者の音声成分を含むか否かを判定し、前記入力信号の各時間区間について、近接話者の音声成分を含む第1区間であるか近接話者の音声成分を含まない第2区間であるかを示す表示信号を生成する第2生成ステップと、
    前記複数の区間信号それぞれを周波数領域の複数の第1信号に変換する第1変換ステップと、
    各第1信号を複数の周波数帯域に分割し、第1信号の各周波数帯域における雑音成分に基づき当該第1信号の各周波数帯域の信号レベルを調整して第2信号を生成する第3生成ステップと、
    前記第2信号を複数の周波数帯域に分割し、前記第2信号の各周波数帯域の重み係数を、前記表示信号及び前記第2信号の元となった第1信号に基づき決定し、前記第2信号の各周波数帯域の信号レベルを前記決定した重み係数で重み付けすることで第3信号を生成する第4生成ステップと、
    前記第3信号を時間領域の信号に変換する第2変換ステップと、
    を含み、
    前記重み係数として第1の値、又は、前記第1の値より小さい第2の値が使用され、
    前記表示信号が、前記第2信号の時間区間が前記第2区間であると示していると、前記第2信号の各周波数帯域の重み係数は、前記第2の値に決定され、
    前記表示信号が、前記第2信号の時間区間が前記第1区間であると示していると、前記第2信号の各周波数帯域の第2信号レベルと、前記第2信号の元となった第1信号の同じ周波数帯域の第1信号レベルとを比較し、前記第2信号レベルが前記第1信号レベル以上である前記第2信号の周波数帯域の重み係数は、前記第2の値に決定され、それ以外の前記第2信号の周波数帯域の重み係数は前記第1の値に決定されることを特徴とする音声信号処理方法。
  5. 請求項1からのいずれか1項に記載の音声信号処理装置としてコンピュータを機能させることを特徴とするプログラム。
JP2016012288A 2016-01-26 2016-01-26 音声信号処理装置、方法及びプログラム Active JP6541588B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016012288A JP6541588B2 (ja) 2016-01-26 2016-01-26 音声信号処理装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016012288A JP6541588B2 (ja) 2016-01-26 2016-01-26 音声信号処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017134153A JP2017134153A (ja) 2017-08-03
JP6541588B2 true JP6541588B2 (ja) 2019-07-10

Family

ID=59504926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016012288A Active JP6541588B2 (ja) 2016-01-26 2016-01-26 音声信号処理装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6541588B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4612468B2 (ja) * 2005-05-19 2011-01-12 日本電信電話株式会社 信号抽出装置

Also Published As

Publication number Publication date
JP2017134153A (ja) 2017-08-03

Similar Documents

Publication Publication Date Title
AU2017405291B2 (en) Method and apparatus for processing speech signal adaptive to noise environment
JP6703525B2 (ja) 音源を強調するための方法及び機器
JP5293817B2 (ja) 音声信号処理装置及び音声信号処理方法
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
KR101444100B1 (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
Jeub et al. Noise reduction for dual-microphone mobile phones exploiting power level differences
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
KR20120114327A (ko) 레벨 큐를 사용한 적응형 잡음 감소
CN110313031B (zh) 针对语音隐私的自适应语音可懂度控制
US10262673B2 (en) Soft-talk audio capture for mobile devices
US9363600B2 (en) Method and apparatus for improved residual echo suppression and flexible tradeoffs in near-end distortion and echo reduction
JP2013150250A (ja) 音声処理装置及び音声処理方法
KR102076760B1 (ko) 다채널 마이크를 이용한 칼만필터 기반의 다채널 입출력 비선형 음향학적 반향 제거 방법
KR102112018B1 (ko) 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
US20210211546A1 (en) Echo suppression device, echo suppression method, and echo suppression program
US8954322B2 (en) Acoustic shock protection device and method thereof
JP6541588B2 (ja) 音声信号処理装置、方法及びプログラム
JP4542538B2 (ja) ダブルトーク状態判定方法、その方法を用いた反響消去装置、そのプログラム及びその記録媒体
US20180158447A1 (en) Acoustic environment understanding in machine-human speech communication
US20220132243A1 (en) Signal processing methods and systems for beam forming with microphone tolerance compensation
US20220132241A1 (en) Signal processing methods and system for beam forming with improved signal to noise ratio
JP6956929B2 (ja) 情報処理装置、制御方法、及び制御プログラム
US11227625B2 (en) Storage medium, speaker direction determination method, and speaker direction determination device
EP3764660A1 (en) Signal processing methods and systems for adaptive beam forming

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190611

R150 Certificate of patent or registration of utility model

Ref document number: 6541588

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150