JP6844149B2

JP6844149B2 - 利得調整装置および利得調整プログラム

Info

Publication number: JP6844149B2
Application number: JP2016164153A
Authority: JP
Inventors: 紗友梨香村; 太郎外川; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-08-24
Filing date: 2016-08-24
Publication date: 2021-03-17
Anticipated expiration: 2036-08-24
Also published as: EP3288030B1; JP2018031897A; EP3288030A1; US20180062597A1; US10014838B2

Description

本発明は、利得調整装置および利得調整プログラムに関する。

複数の異なる音源から目的の音源のみを抽出する技術として、バイナリマスキング処理技術がある。バイナリマスキング処理技術は、複数のマイクで音声を取得し、それぞれのマイクで取得した音声の大きさの比較に基づき、音源を分離する技術である。

音源分離の精度を向上させるには、音源分離処理前に各マイクの利得の校正を行うことが望ましい。例えば特許文献１では、音源から利得調整用の校正信号を出力し、校正の基準となる基準マイクでの校正信号の受信感度を基準値として、他の校正対象のマイクの受信感度を比較する。この比較結果に基づき各マイクの校正用情報を作成することにより、複数のマイクのそれぞれの利得を調整する。

特開２００７−１２９３７３号公報国際公開第２０１２／０２３２６８号公報特開２００５−０７７７３１号公報

しかしながら、音源から音声が送信されている間に、音源からマイクまでの音声伝達経路に人や荷物などの障害物が侵入すると、マイクで受信される音声は障害物の影響を受ける。受信開始後の障害物の影響により、あらかじめマイクの利得を校正していても、マイクで取得した音声の大小関係が変化することにより、音源分離の精度は低下する。

開示の技術は、音声伝達経路の状態が時間的に変化しても取得した音声の大小関係の変化を押さえることを目的とする。

上述した課題を解決し、目的を達成するため、利得調整装置は、複数の出力装置からそれぞれ出力される音声信号を周波数スペクトルにそれぞれ変換する周波数変換部と、前記周波数スペクトルの比較結果に基づき、前記周波数スペクトルの推定レベル差値を算出するレベル差推定部と、前記周波数スペクトル、および前記推定レベル差値に基づき、前記周波数スペクトルに対する利得をそれぞれ算出する利得算出部と、発話者から前記出力装置までの伝達過程における所定周波数での減衰量に対する各周波数での減衰量の比率である、減衰量比を記憶する減衰量比記憶部と、を有し、前記利得算出部は、前記周波数スペクトル、前記推定レベル差値、および前記減衰量比に基づき前記周波数スペクトルに対する利得を算出する。

本件の開示する利得調整装置および利得調整方法の一つの態様によれば、音声伝達経路の状態が時間的に変化しても取得した音声の大小関係の変化を押さえることができるという効果を奏する。

図１は、第１の実施形態における、利得調整装置の利用形態の一例を示す概念図である。図２は、コンピュータ１２のハードウェアブロック図の一例である。図３は、自動利得調整装置１７の機能ブロック図の一例である。図４は、自動利得調整装置１７における利得調整処理フローの一例である。図５は、周波数変換部２０および２１において用いられる変数の一覧である。図６は、発話状態推定部２２において用いられる変数の一覧である。図７は、レベル差推定部２３において用いられる変数の一覧である。図８は、雑音推定部２５、２６において用いられる変数の一覧である。図９は、利得算出部２４において用いられる変数の一覧である。図１０は、利得付加部２７、２８および逆変換部２９、３０により用いられる変数の一覧である。図１１は、第２の実施形態における、自動利得調整装置の機能ブロック図の一例である。図１２は、入力音声の数を３つにした場合の自動利得調整装置の機能ブロック図の一例である。図１３は自動利得調整装置１７ｂにおける利得調整処理フローの一例である。図１４は、周波数変換部２０、２１、５２において用いられる変数の一覧である。図１５は、発話状態推定部２２ｂにおいて利得算出処理を実行するかどうかを決定するための状態変動フラグである。図１６は、発話状態推定部２２ｂにおいて用いられる変数の一覧である。図１７は、レベル差推定部２３ｂにおいて用いられる変数の一覧である。図１８は、減衰量比記憶部５１ｂにおいて記憶された各周波数におけるスペクトルの減衰量比テーブルである。図１９は、利得算出部２４ｂにおいて用いられる変数の一覧である。図２０は、利得付加部２７ａ、２８ａ、５３で用いられる変数の一覧である。図２１は、利得調整装置を用いた音声収集システムの一構成例である。図２２は自動利得調整を行わない場合の音声処理を表すものである。図２３は自動利得調整を行った場合の音声処理を表すものである。

以下、本発明の実施形態について具体的に説明する。

（第１の実施形態）
図１は、第１の実施形態における、利得調整装置の利用形態の一例を示す概念図である。図１の概念図は、話者１０、話者１１、マイク１、マイク２、コンピュータ１２を有する。図１において、話者１０の近傍にマイク１が設置され、話者１１の近傍にマイク２が設置されている。話者１０および話者１１により発話された音声は、マイク１およびマイク２により受信される。話者１０および話者１１は音声を出力する音源の例である。マイク１およびマイク２は、受信した音声を電気信号に変換し、変換した電気信号をコンピュータ１２に入力する。マイク１およびマイク２は、例えばあらかじめ録音された音声信号を出力する出力装置であってもよい。利得調整装置は、例えばコンピュータ12にインストールされたソフトウェアプログラムとして機能的に実現される。

図２は、コンピュータ１２のハードウェアブロック図の一例である。コンピュータ１２は、ＡＤ変換部１５、ＡＤ変換部１６、演算処理部１４、記憶媒体１００を有する。

ＡＤ変換部１５およびＡＤ変換部１６はそれぞれ、マイク１およびマイク２から入力されたアナログの電気信号をデジタル信号に変換し出力する。演算処理部１４は、記憶媒体１００等に記憶されたプログラムを実行し、自動利得調整装置１７、音声処理部１８、音声ファイル変換部１９を機能的に実現する。演算処理部１４は例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)などであってもよい。また自動利得調整装置１７、音声処理部１８、音声ファイル変換部１９はそれぞれ、論理回路およびアナログ回路によりハードウェアで実装してもよい。図２において音声処理部１８および音声ファイル変換部１９は自動利得調整装置１７と別個の構成としているが、自動利得調整装置１７が音声処理部１８および音声ファイル変換部１９を含む構成であってもよい。

自動利得調整装置１７は、ＡＤ変換部１５およびＡＤ変換部１６から入力されたデジタル信号に基づき、音声信号が劣化しないように利得の調整を自動的に実行する。自動利得調整装置１７は、調整した利得に基づき、入力されたデジタル信号の振幅を調整し、調整後のデジタル信号を出力する。

音声処理部１８は、自動利得調整装置１７から出力されたデジタル信号に対し、音源分離処理を実行する。音源分離処理技術には、例えば前述のバイナリマスキング処理技術がある。音声処理部１８は、音源分離した話者１０および話者１１により発話された音声に対応するデジタル信号を出力する。

音声ファイル変換部１９は、入力されたデジタル信号を音声ファイルに変換し出力する。記憶媒体１００は音声ファイル変換部１９から入力された音声ファイルを記憶する。

以上の通りコンピュータ１２は、演算処理部１４にプログラムを実行させることにより、自動利得調整機能を実現することが出来る。

図３は、自動利得調整装置１７の機能ブロック図の一例である。自動利得調整装置１７は、周波数変換部２０および２１、発話状態推定部２２、レベル差推定部２３、利得算出部２４、雑音推定部２５および２６、利得付加部２７および２８、逆変換部２９および３０を有する。

周波数変換部２０および２１は、入力された音声信号を周波数変換し、音声スペクトルを出力する。周波数変換には、例えばSTFT(Short Time Discrete Fourier Transform:短時間離散フーリエ変換)処理がある。周波数変換には、ｚ変換や離散コサイン変換を適用してもよい。本実施例において周波数変換部２０は、入力された音声信号x1(t)をＳＴＦＴ処理し、音声スペクトルX1(l,k)を出力する。ここで、tは時間、lはフレーム番号、kは周波数帯域を示す。同様に、周波数変換部２１は、入力された音声信号x2(t)をＳＴＦＴ処理し、音声スペクトルX2(l,k)を出力する。

発話状態推定部２２は、入力された音声スペクトルX1(l,k)およびX2(l,k)に基づき、フレーム番号lごとに話者１０または話者１１のいずれが発話しているかを推定する。発話状態推定２２は、それぞれのフレーム番号での推定結果をC(l)として出力する。発話状態の推定には、例えば”マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション”、信学論、Vol.J95-D、No.9、pp.1749-1758(2012)に開示されている話者ダイアライゼーション技術などを用いて行うことが出来る。

レベル差推定部２３は、話者１０または話者１１のいずれか一方が発話している場合の推定レベル差を算出する。レベル差推定部２３は、話者１０に対応して算出した推定レベル差をD1(l)、話者１１に対応して算出した推定レベル差をD2(l)として出力する。

雑音推定部２５および２６は、入力された音声スペクトルX1(l,k)およびX2(l,k)に対し、背景雑音スペクトルを推定し、推定された背景雑音スペクトルN1(l,k)およびN2(l,k)を出力する。本実施例における背景雑音スペクトルを推定する技術として、例えば"Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. Acoust., Speech, Signal Process., vol.27, pp.113-120, Apr. 1979に開示された技術を用いてもよい。

利得算出部２４は、入力された推定結果C(l)、推定結果D1(l)およびD2(l)、音声スペクトルX1(l,k)およびX2(l,k)、および背景雑音スペクトルN1(l,k)およびN2(l,k)に基づいて利得を算出し、算出した利得G1(l,k)およびG2(l,k)を出力する。

利得付加部２７および２８は、利得算出部２４により算出された利得に基づき、音声スペクトルに利得を付加する。利得付加部２７は、音声スペクトルX1(l,k)、背景雑音スペクトルN1(l,k)および利得G1(l,k)を入力とし、推定音声スペクトルS1(l,k)を出力する。また利得付加部２８は、音声スペクトルX2(l,k)、背景雑音スペクトルN2(l,k)および利得G2(l,k)を入力とし、推定音声スペクトルS2(l,k)を出力する。

逆変換部２９および３０は、入力された音声スペクトルを逆フーリエ変換し、音声信号を出力する。逆変換部２９は、入力された推定音声スペクトルS1(l,k)を逆フーリエ変換し、推定音声信号s1(t)を出力する。逆変換部３０は、入力された推定音声スペクトルS2(l,k)を逆フーリエ変換し、推定音声信号s2(t)を出力する。

以上の通り自動利得調整装置１７は、入力された音声信号に基づき利得を推定し、推定された利得に基づき、推定音声信号を出力することが出来る。音声処理部１８は推定音声信号に基づき音源分離処理を行うことにより、音声伝達経路の時間的変化によらず、音源分離精度を維持することが出来る。

図４は自動利得調整装置１７における利得調整処理フローの一例である。利得調整処理はプロセッサによりプログラムを実行することにより実現してもよいし、論理回路によりハードウェアで実現してもよい。

自動利得調整装置１７は、２つの音声信号を受信すると（ステップＳ１１）、受信した音声信号をそれぞれフーリエ変換し、音声スペクトルを生成する（ステップＳ１２）。

利得の調整は頻繁に行うと処理負荷が大きくなるため、例えば録音開始の初めの一定期間を初期区間として利得調整処理を実行すればよい。そこで自動利得調整装置１７は、フーリエ変換処理の対象として選択した区間が、初期区間内か否かを判定する（ステップＳ１３）。選択した区間が初期区間内である場合（ステップＳ１３：ＹＥＳ）、自動利得調整装置１７はステップＳ１４からステップＳ１７までの利得算出処理を実行する。選択した区間が初期区間内でない場合（ステップＳ１３：ＮＯ）、自動利得調整装置１７は利得算出処理を実行しない。本実施例において、分析開始点pは時間Tずつインクリメントしている。よって自動利得調整装置１７は、分析開始点pの値を参照することにより、録音開始時刻からの経過時間を算出し、初期区間内かどうかを判定することが出来る。

利得算出処理において自動利得調整装置１７は、いずれの話者が発話しているかを推定する発話推定処理を実行する（ステップＳ１４）。自動利得調整装置１７は、推定した発話者に基づき、それぞれの話者のスペクトルレベル差を推定する（ステップＳ１５）。自動利得調整装置１７は、それぞれの話者の音声スペクトルに基づき、背景雑音スペクトルを推定する（ステップＳ１６）。自動利得調整装置１７は、発話状態の推定結果およびレベル差の推定結果に基づき、補正利得を算出する（ステップＳ１７）。

自動利得調整装置１７は、利得補正処理を実行した場合には、補正利得を音声スペクトルに付加し、推定音声スペクトルを生成する（ステップＳ１８）。自動利得調整装置１７は、利得付加時に推定した背景雑音スペクトルを考慮することにより、利得調整後の推定音声スペクトルの精度を向上させることが出来る。

自動利得調整装置１７は、利得調整後の推定音声スペクトルを逆フーリエ変換し、推定音声信号を生成する（ステップＳ１９）。

自動利得調整装置１７は、外部から録音終了指示のコマンドを受信している場合には、録音終了と判断し（ステップＳ２０：ＹＥＳ）、利得調整処理を終了する。自動利得調整装置１７は、外部から録音終了指示のコマンドを受信していない場合には（ステップＳ２０：ＮＯ）、利得調整を開始する区間を後ろにずらすし（ステップＳ２１）、次の区間において、ステップＳ１１以降の利得調整処理を再び実行する。

以上の通り自動利得調整装置１７は、受信した２つの音声信号に対し、利得調整処理を実行することが出来る。

図５は、周波数変換部２０および２１において用いられる変数の一覧である。図５において、列３１は各変数の変数名を示す。列３２は列３１の各変数に対応する変数の内容を示す。

変数ｔは、音声信号の任意の時間を示す。変数ｐは、音声信号に対する分析開始時間を示す。変数Ｔは、音声信号の所定の区間を１フレームと定義した場合のフレーム長を示す。変数ｌは、分析開始時間ｐからフレーム長Ｔごとに音声信号を区切った場合のフレームの順番であるフレーム番号を示す。変数ｋは、音声信号を音声スペクトルに変換した場合の、スペクトルの各周波数を示す。変数ｎは、処理対象の音声信号が何番目のマイクから入力された音声信号であるかを示す番号である。変数xn(t)は、ｎ番目のマイクから入力された音声信号を示す。変数Xn(l,k)は、ｎ番目のマイクから入力された音声信号を周波数変換した音声信号スペクトルを示す。

周波数変換部２０、２１は、STFT処理により音声信号から音声スペクトルを生成する場合、フレームごとに区分された各音声信号xn(t-T)~xn(t)をそれぞれSTFT処理し、Xn(l,k)(k=0,1,...,T-1)を出力する。STFT処理を行う対象のフレームの移動は、例えばフレーム長の半分だけ時間をシフトするハーフ・オーバーラップを用いることで、窓関数による減衰の影響を除去することが出来る。

図６は、発話状態推定部２２において用いられる変数の一覧である。図６において、列３３は各変数の変数名を示す。列３４は列３３の各変数に対応する変数の内容を示す。

変数C(l)は、ｌ番目のフレームにおける発話状態の推定結果を示す。発話状態推定部２２は、例えば前述の話者ダイアライゼーション技術を用い、フレーム番号ｌにおいて、マイク１とマイク２のいずれのマイク側の話者が発話しているかを推定する。発話状態推定部２２は、第１の入力音声を受信するマイク付近の話者が発話していると推定した場合には、C(l)=1を出力する。発話状態推定部２２は、第２の入力音声を受信するマイク付近の話者が発話していると推定した場合には、C(l)=2を出力する。発話状態推定部２２は、全てのマイクにおける入力音声レベルが近いためいずれの話者が発話しているか推定できない場合、またはいずれの話者からも発話されていないと推定した場合には、C(l)=0を出力する。

図７は、レベル差推定部２３において用いられる変数の一覧である。図７において、列３５は各変数の変数名を示す。列３６は列３５の各変数に対応する変数の内容を示す。

変数d(l)は、第１または第２の入力音声を受信するマイク付近の話者が発話している場合の、フレーム番号lにおける入力信号X1(l,k)とX2(l,k)とのレベル差の周波数方向の平均値であり、以下の式により算出される。

変数Dn(l,k)は、第ｎの入力音声を受信するマイク付近の話者が発話しているときの推定レベル差を示す。第１の入力音声を受信するマイク付近の話者が発話している場合、すなわちC(l)=1の場合、推定レベル差D1(l)は、以下の式により算出する。

また、第２の入力音声を受信するマイク付近の話者が発話している場合、すなわちC(l)=2の場合、推定レベル差D2(l)は、以下の式により算出する。

推定レベル差Dn(l,k)の算出式において、変数αは所定の平滑化係数を示す。平滑化係数を用いて平滑化することにより、瞬時的なレベル差ではなく、長期的なレベル差を見ることで、突発的なノイズなどの影響を軽減することが出来る。平滑化係数を大きくするほど、瞬時の影響が大きくなるため、ノイズの影響を受けやすくなる一方、話者位置など環境の変化には強くなる。よって、発話環境において突発的なノイズの発生量が多い場合には平滑化係数小さく（α＝０．０１程度に）設定し、話者位置などの環境の変化が大きい場合には平滑化係数を大きく（α＝０．１程度に）設定するのが望ましい。

以上の算出処理によりレベル差推定部２３は、一方が発話している場合の各マイクにより受信されるレベルのレベル差を推定することが出来る。

図８は、雑音推定部２５、２６において用いられる変数の一覧である。図８において列３７は各変数の変数名を示す。列３８は列３７の各変数に対応する変数の内容を示す。

変数Nn(l,k)は、ｎ番目のマイクの入力音声に対する背景雑音スペクトルを示す。背景雑音スペクトルNn(l,k)はそれぞれ、音声スペクトルXn(l,k)に対して推定処理を行う。背景雑音スペクトルの推定には、例えば"Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. Acoust., Speech, Signal Process., vol.27, pp.113-120, Apr. 1979に開示された技術が用いられる。

図９は、利得算出部２４において用いられる変数の一覧である。図９において列３９は各変数の変数名を示す。列４０は列３９の各変数に対応する変数の内容を示す。

変数Vn(l,k)は、ｎ番目のマイクの入力音声に対する補正量を示す。変数Gn(l,k)はｎ番目のマイクの入力音声に対する利得を示す。TH1は有音判定閾値である。有音判定閾値とは、各マイクから入力される音声の信号レベルが背景雑音ノイズレベルに対して十分大きいか否かを判定するための閾値である。各マイクから入力される音声の信号レベルと背景雑音レベルとの比SNRは、SNR=Xn(l,k)/Nn(l,k)により算出される。

SNR＞TH1かつC(l)=1の場合、補正量Vn(l,k)はそれぞれ、V1(l,k)=a×V1(l-1,k)+(1-a)×(d(l)-D1(l,k))/2、V2(l,k)= a×V1(l-1,k)-(1-a)×(d(l)-D1(l,k))/2により算出される。ここで係数ａは補正量の平滑化係数であり、過去の利得算出値の影響度を決める。係数ａの値を大きくするほど、過去の利得算出値の影響が大きくなるため、環境変化が小さい場合は係数ａの値を大きくすることにより、ノイズの影響を小さくすることができる。一方、環境変化が大きい場合は、係数ａの値を小さくすることにより、環境変化への追従速度を上げることができる。

SNR＞TH1かつC(l)=2の場合、補正量Vn(l,k)はそれぞれ、V1(l,k)=a×V1(l-1,k)+(1-a)×(d(l)-D2(l,k))/2、V2(l,k)= a×V1(l-1,k)-(1-a)×(d(l)-D2(l,k))/2により算出される。

SNR＞TH1かつC(l)=0の場合、いずれの話者も発話していると推定できるレベルの音声がマイクに入力されていないため、補正量はVn(l,k)=Vn(l-1,k)とする。

SNR≦TH1の場合、背景雑音レベルが支配的であるため、V1(l,k)=V2(l,k)=0とする。

以上の通りSNRおよびC(l)の条件ごとに算出した補正量Vn(l,k)に基づき利得算出部２４は、ｎ番目のマイクの利得Gn(l,k)について、Gn(l,k)=1-Vn(l,k)/Xn(l,k)により算出する。利得算出部２４は、算出した利得Gn(l,k)を利得付加部２７、２８へそれぞれ出力する。

図１０は、利得付加部２７、２８および逆変換部２９、３０により用いられる変数の一覧である。図１０において列４１は各変数の変数名を示す。列４２は列４１の各変数に対応する変数の内容を示す。

変数Sn(l,k)は、ｎ番目のマイクの入力音声に対し算出された利得を付加した推定音声スペクトルを示す。変数sn(t)は、ｎ番目のマイクに対応する推定音声スペクトルSn(l,k)をフーリエ逆変換した推定音声信号を示す。

利得付加部２７、２８は、入力された利得Gn(l,k)、音声スペクトルXn(l,k)、および背景雑音スペクトルNn(l,k)に基づき推定音声スペクトルSn(l,k)を出力する。推定音声スペクトルSn(l,k)は、Sn(l,k)=max{Gn(l,k)×Xn(l,k),Nn(l,k)}により算出される。

逆変換部２９、３０はそれぞれ、入力された推定音声スペクトルSn(l,k)をフーリエ逆変換し、推定音声信号sn(t)を出力する。

以上の通り自動利得調整装置１７は、ｎ番目のマイクに入力された音声信号に対し利得調整処理を行い、推定音声信号を出力することが出来る。

（第２の実施形態）
図１１は、第２の実施形態における、自動利得調整装置の機能ブロック図の一例である。自動利得調整装置１７ａは、周波数変換部２０および２１、発話状態推定部２２ａ、レベル差推定部２３ａ、利得算出部２４ａ、減衰量比記憶部５１ａ、利得付加部２７ａおよび２８ａ、逆変換部２９および３０を有する。

図１１の自動利得調整装置１７ａについて、図３の自動利得調整装置１７と同一機能を有する構成には同一記号を付し、その説明を省略する。

発話状態推定部２２ａは、図３における発話状態推定部２２と同様に、入力された音声スペクトルX1(l,k)およびX2(l,k)に基づき、フレーム番号lごとに話者１０または話者１１のいずれが発話しているかを推定する。発話状態推定部２２ａは、それぞれのフレーム番号での推定結果をC(l)として出力する。発話状態推定部２２ａは、状態変動フラグF(l-1,k)の値に基づき、状態変動検知処理を行うか否かを決定する。状態変動フラグは状態変動の有無の判定結果を示すフラグである。状態変動フラグの詳細は後述する。

レベル差推定部２３ａは、図３におけるレベル差推定部２３と同様に、話者１０または話者１１のいずれか一方が発話している場合の推定レベル差を算出する。レベル差推定部２３ａは、話者１０に対応して算出した推定レベル差をDA1(l)、話者１１に対応して算出した推定レベル差をDA2(l)として出力する。

減衰量比記憶部５１ａは、あらかじめ自動利得調整装置１７ａを利用する環境下において、それぞれの話者と同位置から白色雑音を放射し、周波数変換部２０、２１から出力される各入力音声スペクトルを測定する。減衰量比記憶部５１ａは、測定した入力音声スペクトルに基づき、所定の周波数（例えば１ｋＨｚ）と各周波数のスペクトルの比を減衰量比Rn(k)として記憶する。

利得算出部２４ａは、入力された推定結果C(l)、推定結果DA1(l)およびDA2(l)、音声スペクトルX1(l,k)およびX2(l,k)、および減衰量比記憶部５１ａから読み出したRn(k)に基づいて利得を算出し、算出した利得GA1(l,k)およびGA2(l,k)を出力する。

利得付加部２７ａおよび２８ａは、利得算出部２４ａにより算出された利得に基づき、音声スペクトルに利得を付加する。利得付加部２７ａは、音声スペクトルX1(l,k)、および利得GA1(l,k)を入力とし、推定音声スペクトルSA1(l,k)を出力する。また利得付加部２８ａは、音声スペクトルX2(l,k)、および利得GA2(l,k)を入力とし、推定音声スペクトルSA2(l,k)を出力する。

逆変換部２９および３０は、入力された音声スペクトルを逆フーリエ変換し、音声信号を出力する。逆変換部２９は、入力された推定音声スペクトルSA1(l,k)を逆フーリエ変換し、推定音声信号sa1(t)を出力する。逆変換部３０は、入力された推定音声スペクトルSA2(l,k)を逆フーリエ変換し、推定音声信号sa2(t)を出力する。

以上の通り自動利得調整装置１７ａは、入力された音声信号に基づき利得を推定し、推定された利得に基づき、推定音声信号を出力することが出来る。音声処理部１８は推定音声信号に基づき音源分離処理を行うことにより、音声伝達経路の時間的変化によらず、音源分離精度を維持することが出来る。

図１２は、入力音声の数を３つにした場合の自動利得調整装置の機能ブロック図の一例である。図１２における自動利得調整装置１７ｂは、図１１における自動利得調整装置１７ａに対し、入力音声x3(t)を処理するための周波数変換部５２、利得付加部５３、および逆変換部５４を追加した構成となっている。また自動利得調整装置１７ｂにおいて、発話状態推定部２２ｂ、レベル差推定部２３ｂ、利得算出部２４ｂは新たに入力音声x3(t)に対応する入力音声スペクトルX3(l,k)を受信する。自動利得調整装置１７ｂにおいて、発話状態推定部２２ｂ、レベル差推定部２３ｂ、利得算出部２４ｂにおいて、入力音声スペクトルXn(l,k)に対する処理はXn(l,k)ごとに独立しているため、入力音声の数を増やす場合には、発話状態推定部２２ｂ、レベル差推定部２３ｂ、利得算出部２４ｂにおいて処理する入力音声スペクトルの数を増やせばよい。また、第２の実施形態に限らず、第１の実施形態における図３においても同様に、入力音声数に応じて発話状態推定部２２、レベル差推定部２３、利得算出部２４において処理する入力音声スペクトルの数を増やすことにより、２以上の入力音声に対応した利得調整処理をすることが出来る。

以下に自動利得調整装置１７ｂにおける動作の詳細を記載する。自動利得調整装置１７ｂは自動利得調整装置１７ａの構成をすべて含んでおり、同一名称を付したブロックは同一の機能を有するため、自動利得調整装置１７ａについての詳細な説明は省略する。

図１３は自動利得調整装置１７ｂにおける利得調整処理フローの一例である。利得調整処理はプロセッサによりプログラムを実行することにより実現してもよいし、論理回路によりハードウェアで実現してもよい。

自動利得調整装置１７ｂは、入力音声である音声信号を受信すると（ステップＳ３１）、受信した音声信号をフーリエ変換等によってそれぞれ周波数変換し、音声スペクトルを生成する（ステップＳ３２）。

利得の調整は頻繁に行うと処理負荷が大きくなるため、例えば音声スペクトルの変動量が所定の閾値よりも大きい場合に利得調整処理を実行すればよい。そこで自動利得調整装置１７ｂは、フーリエ変換処理の対象として選択した区間で、利得調整の必要がある状態変動が有るか否かを判定する（ステップＳ３３）。状態変動が有った場合（ステップＳ３３：ＹＥＳ）、自動利得調整装置１７ｂはステップＳ３４からステップＳ３７までの利得算出処理を実行する。状態変動が無かった場合（ステップＳ３３：ＮＯ）、自動利得調整装置１７は利得算出処理を実行しない。

利得算出処理において自動利得調整装置１７ｂは、いずれの話者が発話しているかを推定する発話推定処理を実行する（ステップＳ３４）。自動利得調整装置１７ｂは、推定した発話者に基づき、それぞれの話者のスペクトルレベル差を推定する（ステップＳ３５）。自動利得調整装置１７ｂは、あらかじめ記録した減衰量比を減衰量比記憶部から読み出す（ステップＳ３６）。自動利得調整装置１７ｂは、発話状態の推定結果および減衰量比に基づき、補正利得を算出する（ステップＳ３７）。

自動利得調整装置１７ｂは、利得補正処理を実行した場合には、補正利得を音声スペクトルに付加し、推定音声スペクトルを生成する（ステップＳ３８）。自動利得調整装置１７ｂは、利得算出時にあらかじめ記録した減衰量比を参照することにより、利得算出時における演算負荷を軽減することが出来る。

自動利得調整装置１７ｂは、利得調整後の推定音声スペクトルを逆フーリエ変換し、推定音声信号を生成する（ステップＳ３９）。

自動利得調整装置１７ｂは、外部から録音終了指示のコマンドを受信している場合には、録音終了と判断し（ステップＳ４０：ＹＥＳ）、利得調整処理を終了する。自動利得調整装置１７ｂは、外部から録音終了指示のコマンドを受信していない場合には（ステップＳ４０：ＮＯ）、利得調整を開始する区間を後ろにずらすし（ステップＳ４１）、次の区間において、ステップＳ３２以降の利得調整処理を再び実行する。

以上の通り自動利得調整装置１７ｂは、受信した音声信号に対し、利得調整処理を実行することが出来る。

図１４は、周波数変換部２０、２１、５２において用いられる変数の一覧である。図１４において、列６１は各変数の変数名を示す。列６２は列６１の各変数に対応する変数の内容を示す。

変数ｔは、音声信号の任意の時間を示す。変数ｐは、音声信号に対する分析開始時間を示す。変数Ｔは、音声信号の所定の区間を１フレームと定義した場合のフレーム長を示す。変数ｌは、分析開始時間ｐからフレーム長Ｔごとに音声信号を区切った場合のフレームの順番であるフレーム番号を示す。変数ｋは、音声信号を音声スペクトルに変換した場合の、スペクトルの各周波数を示す。変数ｎは、処理対象の音声信号が何番目のマイクから入力された音声信号であるかを示す番号である。変数xn(t)は、ｎ番目のマイクから入力された音声信号を示す。変数Xn(l,k)は、ｎ番目のマイクから入力された音声信号を周波数変換した音声信号スペクトルを示す。変数Nn(l,k)は、ｎ番目のマイクから入力された音声信号の背景雑音スペクトルを示す。

周波数変換部２０、２１、５２は、STFT処理により音声信号から音声スペクトルを生成する場合、フレームごとに区分された各音声信号xn(t-T)~xn(t)をそれぞれSTFT処理し、Xn(l,k)(k=0,1,...,T-1)を出力する。

図１５は、発話状態推定部２２ｂにおいて利得算出処理を実行するかどうかを決定するための状態変動フラグを示す。列６３は状態変動フラグを示す変数F(l-1,k)を示す。列６４は列６３の変数の内容を示す。状態変動フラグは利得算出部２４ｂから出力され、発話状態推定部２２ｂおよびレベル差推定部２３ｂに入力される。状態変動フラグの値は１フレーム以上前の入力音声スペクトルに基づいて判定する。例えば、推定レベル差DAn(l-x, k)からDAn(l,k)までの回帰直線の傾きを算出し、傾きがあらかじめ設定した閾値よりも小さくなれば状態変動していないと判定することが出来る。また、推定レベル差DAn(l,k)の算出式の初期値を大きく設定した場合と小さく設定した場合で開始し、両者の値が一定値以内に収まる場合には状態変動していないと判定することもできる。

発話状態推定部２２ｂ、レベル差推定部２３ｂ、および利得算出部２４ｂは、状態変動フラグの値に応じて、フレーム番号lにおける利得算出処理を実行するかどうかを決める。F(l-1,k)=1の場合、所定値を上回る状態変動が発生したものとして、発話状態推定部２２ｂ、レベル差推定部２３ｂ、および利得算出部２４ｂは利得算出処理を実行する。

一方、F(l-1,k)=0の場合には、利得算出処理が必要な状態変動は発生していないと判定し、発話状態推定部２２ｂ、レベル差推定部２３ｂ、および利得算出部２４ｂにおける利得算出処理を実行せず、1フレーム前の補正量および利得に基づき利得付加処理を行う。

以上の通り状態変動フラグの値に応じて利得算出処理を実行することにより、自動利得調整装置１７ｂの消費電力を押さえつつ、精度の高い利得調整を行うことが出来る。

図１６は、発話状態推定部２２ｂにおいて用いられる変数の一覧である。図１６において、列６５は各変数の変数名を示す。列６６は列６５の各変数に対応する変数の内容を示す。

変数C(l)は、ｌ番目のフレームにおける発話状態の推定結果を示す。発話状態推定部２２ｂは、状態変動フラグF(l-1,k)の値が１の場合、発話状態推定処理を実行する。発話状態推定部２２ｂは、例えば前述の話者ダイアライゼーション技術を用い、フレーム番号ｌにおいて、いずれのマイク側の話者が発話しているかを推定する。発話状態推定部２２ｂは、第１の入力音声を受信するマイク付近の話者が発話していると推定した場合には、C(l)=1を出力する。発話状態推定部２２ｂは、第２の入力音声を受信するマイク付近の話者が発話していると推定した場合には、C(l)=2を出力する。発話状態推定部２２ｂは、第３の入力音声を受信するマイク付近の話者が発話していると推定した場合には、C(l)=3を出力する。発話状態推定部２２ｂは、全てのマイクへの入力レベルが近いためいずれの話者が発話しているか推定できない場合、またはいずれの話者からも発話されていないと推定した場合には、C(l)=0を出力する。

図１７は、レベル差推定部２３ｂにおいて用いられる変数の一覧である。図１７において、列６７は各変数の変数名を示す。列６８は列６７の各変数に対応する変数の内容を示す。

変数dnm(l,k)は、第ｎの入力音声に基づく音声スペクトルXn(l,k)と、第ｍの入力音声に基づく音声スペクトルXm(l,k)との瞬時のレベル差を示す。ｎ、ｍはそれぞれマイクの数に対応する整数であり、ｎ≠ｍである。利得自動調整装置１７ｂにおいて、マイクの数は３であるから、第１の入力音声に対する第２、第３の入力音声とのレベル差の式はそれぞれ、d12(l,k)=X1(l,k)-X2(l,k)、d13(l,k)=X1(l,k)-X3(l,k)となる。なお、本実施形態においては音声スペクトルX1(l,k)に対する他の音声スペクトルとのレベル差を利用する場合について記載するが、他の音声スペクトルX2(l,k)やX3(l,k)を基準としたレベル差を利用してもよいし、これらのレベル差を複合的に利用して推定レベル差を算出してもよい。

変数DAn(l,k)は、第ｎの入力音声を受信するマイク付近の話者が発話しているときの推定レベル差を示す。第１の入力音声を受信するマイク付近の話者が発話している場合、すなわちC(l)=1の場合、推定レベル差DA1(l)は、DA1(l)=(1-β)DA1(l-1,k)+βd12(l,k)となる。第２の入力音声を受信するマイク付近の話者が発話している場合、すなわちC(l)=2の場合、推定レベル差DA2(l)は、DA2(l)=(1-β)DA2(l-1,k)+βd12(l,k)となる。第３の入力音声を受信するマイク付近の話者が発話している場合、すなわちC(l)=3の場合、推定レベル差DA3(l)は、DA3(l)=(1-β)DA3(l-1,k)+βd13(l,k)となる。

推定レベル差DAn(l,k)の算出式において、変数βは所定の平滑化係数を示す。平滑化係数を用いて平滑化することにより、瞬時的なレベル差ではなく、長期的なレベル差を見ることで、突発的なノイズなどの影響を軽減することが出来る。平滑化係数を大きくするほど、瞬時の影響が大きくなるため、ノイズの影響を受けやすくなる一方、話者位置など環境の変化には強くなる。よって、発話環境において突発的なノイズの発生量が多い場合には平滑化係数小さく（β＝０．０１程度に）設定し、話者位置などの環境の変化が大きい場合には平滑化係数を大きく（β＝０．１程度に）設定するのが望ましい。

以上の算出処理によりレベル差推定部２３ｂは、一方が発話している場合の各マイクにより受信されるレベルのレベル差を推定することが出来る。

図１８は、減衰量比記憶部５１ｂにおいて記憶された各周波数におけるスペクトルの減衰量比テーブルである。図１８において、列６９は各周波数の値を示す。列７０は列６９の各周波数に対応するスペクトルの減衰量比を示す。

減衰量比テーブルは、本発明を利用する環境下においてあらかじめ準備する。減衰量比テーブルの作成にはまず、話者と同位置から白色雑音を放射し、各マイクに対応する入力音声スペクトルを測定する。次に、各マイクに対応する入力音声スペクトルについて、所定の周波数に対する各周波数のスペクトルの比を減衰量比Rn(k)として算出し減衰量比記憶部５１ｂに格納する。減衰量比Rn(k)において、ｎは第ｎの入力音声を受信するマイクに対応する。

図１９は、利得算出部２４ｂにおいて用いられる変数の一覧である。図１９において列７１は各変数の変数名を示す。列７２は列７１の各変数に対応する変数の内容を示す。

変数VAn(l,k)は、ｎ番目のマイクの入力音声に対する補正量を示す。変数rn(l,k)はｎ番目のマイクにおける実測の減衰量比を示す。TH2は実測の減衰量比と減衰量記憶部に記憶した減衰量比との差分を評価するための所定の閾値である。閾値TH2の値は補正処理中に値をスイープしながら、最適値を探してもよい。変数Yは補正量を計算する際の補正係数である。補正係数Ｙは実測の減衰量比と減衰量記憶部５１に記憶した減衰量比との差分にどれだけの重み付けをするかを決める係数である。

発話している音源が１つである場合の実測の減衰量比rn(l,k)は、r1(l,k)=DA1(l,k)/DA1(l,k_1kHz)、r2(l,k)=DA2(l,k)/DA2(l,k_1kHz)、r3(l,k)=DA3(l,k)/DA3(l,k_1kHz)により算出することが出来る。ここで、変数k_1kHzは、周波数1kHzに対応する帯域番号を示す。前述の通り本実施例では、減衰量比を計算する際の基準周波数を1kHzと定めているためである。

利得算出部２４ｂは、実測の減衰量比rn(l,k)と減衰量比記憶部５１に記憶した減衰量比との大小関係に基づき、以下の通り補正量VAn(l,k)を算出する。また利得算出部は、実測の減衰量比rn(l,k)と減衰量比記憶部５１に記憶した減衰量比との大小関係に基づき、変動フラグF(l,k)の値を決定する。

|rn(l,k)-Rn(k)|＞TH2の場合、VAn(l,k)=VAn(l-1,k)-Y{rn(l,k)-Rn(k)}、F(l,k)=1
|rn(l,k)-Rn(k)|≦TH2の場合、VAn(l,k)=VAn(l-1,k)、F(l,k)=0
利得算出部２４ｂは利得GAn(l,k)について、算出した補正量VAn(l,k)に基づき、GAn(l,k)=1-VAn(l,k)/Xn(l,k)により算出する。

利得算出部２４ｂは、算出した利得GAn(l,k)をそれぞれの入力音声に対応する利得付加部２７ａ、２８ａ、５３に出力する。また利得算出部２４ｂは決定した変動フラグF(l,k)の値を発話状態推定部２２ｂおよびレベル差推定部２３ｂに出力する。

以上の通り利得算出部２４ｂは、あらかじめ基準となる減衰量比を記憶しておくことにより、精度を維持しつつ利得算出に要する演算量を削減することが出来る。

図２０は、利得付加部２７ａ、２８ａ、５３で用いられる変数の一覧である。図２０において列７３は各変数の変数名を示す。列７４は列７３の各変数に対応する変数の内容を示す。

変数ξnは、第nの入力音声に対する利得付加演算における、利得GAn(l,k)に対する所定の倍率を示す。倍率ξnは、VAn(l,k)＝VA1(l-1,k)の場合、すなわち補正量の変動がない場合は、ξn=1とする。また、VAn(l,k)≠VA1(l-1,k)の場合、すなわち補正量の変動が有る場合は、ξn=0.5とし、補正量の変動の影響を小さくする。以上の通り変数ξnを適切に設定することにより、入力音声に瞬時に発生した大きな変動を緩和することが出来る。

変数SAn(l,k)は、第ｎのマイク入力に対する利得付加後の推定スペクトルを示す。利得付加部２７ａ、２８ａ、５３は、利得算出部２４ｂから入力された利得GAn(l,k)に基づき入力音声スペクトルを補正し、推定スペクトルSAn(l,k)を出力する。各推定スペクトルSAn(l,k)は、SAn(l,k)=Xn(l,k)×ξn×GAn(l,k)により算出される。

本実施例では利得算出部２４ｂにより利得GAn(l,k)を算出後、推定スペクトルSAn(l,k)を計算しているが、利得付加部２７ａ、２８ａ、５３に補正量VAn(l,k)を入力し、VAn(l,k)に基づき推定スペクトルSAn(l,k)を演算してもよい。これにより、利得GAn(l,k)の演算による利得算出部２４ｂの演算負荷を軽減することが出来る。

図２１は、利得調整装置を用いた音声収集システムの一構成例である。図２１において音声収集システム３は、マイク１、２、収録装置１２９、インターネット網１４０、およびサーバ１３を有する。

マイク１、２は話者１０および話者１１の発話をそれぞれ受信する。マイク１、２は受信した入力音声を収録装置１２９に送信する。

収録装置１２９はＡＤ変換部１５、１６、演算処理部１４、送信部８１を有する。ＡＤ変換部１５、１６はマイク１、２から受信したアナログ信号の入力音声をそれぞれデジタル信号に変換する。演算処理部１４は、ＡＤ変換部１５、１６でデジタル信号に変換された入力音声をデジタル信号処理し、音声ファイルを生成する。送信部８１は生成された音声ファイルをインターネット網に送信する。
インターネット網１４０は複数の通信装置が優先または無線で接続可能なインターネット通信網の概念図である。本実施例においてインターネット網１４０は、収録装置１２９から受信した音声ファイルをサーバ１３に送信する。

サーバ１３は、受信部８２、自動利得調整装置１７、音源分離部８３、記憶媒体１００を有する。受信部８２は、インターネット網１４０から送信された音声ファイルを受信する。自動利得調整装置１７は、前述の実施例にかかる自動利得調整装置１７、１７ａ、または１７ｂのいずれであってもよい。自動利得装置１７は受信部８２により受信された音声ファイルの利得を調整し出力する。音源分離部８３は利得調整された音声ファイルをそれぞれの話者に対応する音源に分離する。音源分離部８３は分離した音源を記憶媒体１００に書き込む。

以上の通り、自動利得調整装置１７をインターネット網１４０に接続されたサーバに設置することにより、同じくインターネット網１４０に接続された複数の収録装置１２９から送信される音声ファイルを利得調整すると共に一元管理することが出来る。

図２２は自動利得調整を行わない場合の音声処理を表すものである。図２２における話者１０、マイク１、２は図２１における符号と同一のものを表す。グラフ９１は話者１０の音声をフーリエ変換した音声スペクトルである。グラフ９２は話者１０からマイク１への伝達関数を表す。グラフ９２において周波数がf1のときに伝達関数の値が大きく減少している。グラフ９３は話者１０からマイク２への伝達関数を表す。グラフ９３における大きさG2は、グラフ９２における大きさG1よりも小さいが、グラフ９２における周波数f2での大きさは、G2よりも小さい。

グラフ９４においてスペクトルX1はマイク１から出力された音声スペクトルを示し、スペクトルX2はマイク２から出力された音声スペクトルを示す。マイク１、２において、伝達関数が周波数に対して常にG1、G2で一定であれば、音声スペクトルX1は音声スペクトルX2よりも常に大きくなる。しかしながら図２２の例では、話者１０からマイク１への伝達関数が周波数f1において大きく減衰しているため、グラフ９４の周波数f1においても、音声スペクトルX2が音声スペクトルX1よりも大きくなっている。

例えば図２１における音源分離部８３は、音声スペクトルの大小関係に基づき音源を分離するため、伝達関数の減衰等により大小関係が逆転すると、音源が正しく分離できず、音声ファイルの品質劣化の原因となる。

図２３は自動利得調整を行った場合の音声処理を表すものである。図２３において、グラフ９５は図２２におけるグラフ９４と同一の条件で取得された音声スペクトルである。グラフ９６は自動利得調整装置１７により利得調整を行った後の音声スペクトルである。グラフ９５の周波数f1において、音声スペクトルX2が音声スペクトルX1よりも大きくなっているが、グラフ９６では利得調整により周波数f1における音声スペクトルX1が他の周波数における大小関係と同様に音声スペクトルX2よりも大きくなっている。グラフ９７は利得調整後の音声スペクトルに対し音源分離処理を行った結果を示す。利得調整により音声スペクトルの大小関係を正常な状態に修正したことにより、グラフ９７の通り歪の無い音声スペクトルを抽出することが出来る。

なお、前述した利得調整処理をコンピュータに実行させるコンピュータプログラム、およびそのプログラムを記録した、非一時的なコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、非一時的なコンピュータ読み取り可能な記録媒体は、例えばＳＤメモリカードなどのメモリカードである。なお、前記コンピュータプログラムは、前記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

１、２：マイク
３：音声収集システム
１２：コンピュータ
１３：サーバ
１４：演算処理部
１５、１６：ＡＤ変換部
１７：自動利得調整装置
１８：音源処理部
１９：音声ファイル変換部
２０、２１：周波数変換部
２２：発話状態推定部
２３：レベル差推定部
２４：利得算出部
２５、２６：雑音推定部
２７、２８：利得付加部
２９、３０:逆変換部

Claims

複数の出力装置からそれぞれ出力される音声信号を周波数スペクトルにそれぞれ変換する周波数変換部と、
前記周波数スペクトルの比較結果に基づき、前記周波数スペクトルの推定レベル差値を算出するレベル差推定部と、
前記周波数スペクトル、および前記推定レベル差値に基づき、前記周波数スペクトルに対する利得をそれぞれ算出する利得算出部と、
発話者から前記出力装置までの伝達過程における所定周波数での減衰量に対する各周波数での減衰量の比率である、減衰量比を記憶する減衰量比記憶部と、
を有し、
前記利得算出部は、前記周波数スペクトル、前記推定レベル差値、および前記減衰量比に基づき前記周波数スペクトルに対する利得を算出する、利得調整装置。
複数の出力装置からそれぞれ出力される音声信号を周波数スペクトルにそれぞれ変換する周波数変換部と、
前記周波数スペクトルが単数音源からの音声信号を含む区間における前記周波数スペクトルに基づき、前記周波数スペクトルの推定レベル差値を算出するレベル差推定部と、
前記周波数スペクトル、および前記推定レベル差値に基づき、前記周波数スペクトルに対する利得をそれぞれ算出する利得算出部と、
前記利得算出部により算出された利得に応じて利得調整された前記周波数スペクトルに対し音源分離処理を実行することにより、前記周波数スペクトルにおいて前記単数音源に所望信号以外の音声信号を含む区間において、前記所望信号を抽出する音声処理部をさらに備える
利得調整装置。
複数の出力装置からそれぞれ出力される音声信号の利得を調整する装置の利得調整プログラムであって、前記装置に、
前記複数の出力装置からそれぞれ出力される前記音声信号を周波数スペクトルにそれぞれ周波数変換し、
前記周波数スペクトルの比較結果に基づき、前記周波数スペクトルの推定レベル差値を算出し、
発話者から前記出力装置までの伝達過程における所定周波数での減衰量に対する各周波数での減衰量の比率である減衰量比と、前記周波数スペクトルと、および前記推定レベル差値とに基づき、前記周波数スペクトルの利得を算出する、
処理を実行させる、利得調整プログラム。
複数の出力装置からそれぞれ出力される音声信号の利得を調整する装置の利得調整プログラムであって、前記装置に、
前記複数の出力装置からそれぞれ出力される前記音声信号を周波数スペクトルにそれぞれ周波数変換し、
前記周波数スペクトルが単数音源からの音声信号を含む区間における前記周波数スペクトルに基づき、前記周波数スペクトルの推定レベル差値を算出し、
前記周波数スペクトル、および前記推定レベル差値に基づき、前記周波数スペクトルに対する利得をそれぞれ算出し、
前記算出された利得に応じて利得調整された前記周波数スペクトルに対し音源分離処理を実行することにより、前記周波数スペクトルにおいて前記単数音源に所望信号以外の音声信号を含む区間において、前記所望信号を抽出する、
処理を実行させる、利得調整プログラム。