JP5705190B2 - 音響信号強調装置、音響信号強調方法、およびプログラム - Google Patents

音響信号強調装置、音響信号強調方法、およびプログラム Download PDF

Info

Publication number
JP5705190B2
JP5705190B2 JP2012243616A JP2012243616A JP5705190B2 JP 5705190 B2 JP5705190 B2 JP 5705190B2 JP 2012243616 A JP2012243616 A JP 2012243616A JP 2012243616 A JP2012243616 A JP 2012243616A JP 5705190 B2 JP5705190 B2 JP 5705190B2
Authority
JP
Japan
Prior art keywords
acoustic signal
channels
signal
sample sequence
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012243616A
Other languages
English (en)
Other versions
JP2014092705A (ja
Inventor
達也 加古
達也 加古
小林 和則
和則 小林
羽田 陽一
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012243616A priority Critical patent/JP5705190B2/ja
Publication of JP2014092705A publication Critical patent/JP2014092705A/ja
Application granted granted Critical
Publication of JP5705190B2 publication Critical patent/JP5705190B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、複数個のチャネルのデジタル音響信号から特定の音を強調する技術に関する。
発話者ごとの信号区間分類を行う従来の技術に、音の到来方向から発話者をクラスタリングし、各話者の発話区間を分類する手法がある(例えば、非特許文献1参照)。音源の位置やマイクロホン間の相対位置が未知の条件下で、複数のマイクロホンを利用した音声強調手法として、ICA、SN比最大化ビームフォーマなどの手法がある。ICAはマイクロホンで収音した音響信号の統計的独立性を利用して音源を分離する手法であり、混合音から雑音を分離することで目的音を強調することができる。またSN比最大化ビームフォーマは、音源とマイクロホンの間の伝達関数の性質が未知の状態で、目的音とその他の雑音のパワー比が最大になるフィルタを設計する手法である(例えば、非特許文献2参照)。
荒木章子,藤本雅清,石塚健太郎,澤田宏,牧野昭二,"音声区間検出と方向情報を用いた会議音声話者識別システムとその評価," 音講論(春),pp.1−2,2008. 小笠原基、石塚健太郎、荒木章子、藤本雅清、中谷智広、大塚和弘、"SN比最大化ビームフォーマを用いたオンライン会議音声強調、"音講論(春)、pp.695−698,2009.
従来手法のマイクロホンアレーを利用した音源方向に基づいて信号区間を分類し、特定の音を強調する手法では、マイクロホンの相対位置関係が既知である必要がある。そのため自由に配置されたマイクロホンで観測して得られたデジタル音響信号に対しては、従来のマイクロホンアレー処理を行い、音源方向に基づいて信号区間を分類し、特定の音を強調することが出来ない。
本発明の課題は、観測位置が未知な複数個のチャネルのデジタル音響信号から、音源位置に基づいた信号区間分類を行い、特定の音を強調することである。
本発明では、チャネルごとに音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化して特徴量を得て、複数個のチャネルに対して得られた特徴量からなる特徴量列をクラスタリングし、当該特徴量列が属する信号区間分類を決定する。また複数個の時間区間のそれぞれでデジタル音響信号を周波数領域に変換し、複数個の振幅スペクトルと位相スペクトルとを得る。さらに複数個の振幅スペクトルに対し、信号区間分類の何れかである強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調する処理を行い、処理後振幅スペクトルに位相スペクトルを付与して複素スペクトルを得る。
本発明では、音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化して得られる特徴量を用いるため、観測位置が未知な複数個のチャネルのデジタル音響信号から、音源位置に基づいた信号区間分類を行うことができ、その結果を用いて特定の音を強調することができる。
図1は実施形態のシステム構成を説明するためのブロック図である。 図2は実施形態の音響信号強調装置の構成を説明するためのブロック図である。 図4は実施形態の音響信号強調方法を説明するためのフロー図である。 図4Aは各チャネルのデジタル音響信号から算出したS/Nベクトルの成分ごとの時間変化を例示する図であり、図4Bは信号区間分類結果を例示する図である。 図5Aは観測装置で得られたデジタル音響信号のパワースペクトルを例示する図である。図5Bはフィルタ適用後のデジタル音響信号のパワースペクトルを例示する図である。図5Cはフィルタ適用後のデジタル音響信号を例示する図である。
以下、図面を参照して本発明の実施形態を説明する。
図1に例示するように、本形態の音響信号強調装置10は、自由に配置されたK個(Kは2以上の整数)の観測装置20−1,・・・,20−Kで得られたデジタル音響信号から、特定の音を強調した音響信号を得て出力する。
図2に例示するように、本形態の音響信号強調装置10は、受信部101、サンプリング周波数変換部102、信号同期部103、フレーム分割部104、VAD判定部105、非音声パワー記憶部106、S/Nベクトル生成部107(特徴量列取得部)、ベクトル分類部108(分類部)、スペクトル算出部109、振幅スペクトル記憶部110、位相スペクトル記憶部111、フィルタ係数算出部112(強調処理部)、フィルタ係数記憶部113、フィルタリング部114(強調処理部)、位相付与部115、および時間領域変換部116を有する。本形態の音響信号強調装置10は、例えばCPU(central processing unit)やRAM(random-access memory)等を備える公知のコンピュータに所定のプログラムが読み込まれて構成される特別な装置である。音響信号強調装置10に入力されたデータおよび処理されたデータは、図示していないメモリに格納され、必要に応じて処理部から読み出される。
各観測装置20−k(k=1,2,・・・,K)は、マイクロホン21−kおよびA/D変換器22−kを有する。観測装置20−1,・・・,20−Kの位置や互いの相対位置は、未知であってもよいし、既知であってもよい。観測装置20−1,・・・,20−Kは互いに独立に動作する。マイクロホン21−1,・・・,21−Kの感度は、互いに異なっていてもよいし、同一であってもよく、A/D変換器22−1,・・・,22−Kのサンプリング周波数は、互いに異なっていてもよいし、同一であってもよい。観測装置20−1,・・・,20−Kの具体例は、互いにサンプリング周波数およびマイクロホン感度が異なる、スマートフォン、固定電話、ボイスレコーダなどの録音機能をもつ端末装置である。
各観測装置20−kのマイクロホン21−kは音響信号を観測する。各マイクロホン21−kで観測された音響信号はA/D変換器22−kに入力される。各A/D変換器22−kはそれぞれのサンプリング周波数で当該音響信号をA/D変換し、複数個のサンプル点での入力デジタル音響信号x(i)を得て出力する。ただし、iは時間領域のサンプル点を表す整数のインデックスである。すなわち、x(i)は、インデックスiで表されるサンプル点の入力デジタル音響信号を表す。
観測装置20−kで得られた入力デジタル音響信号x(i)に対応する処理を行う処理系列をチャネルkと呼ぶ。言い換えると、A/D変換器22−kで音響信号を変換して得られた入力デジタル音響信号x(i)に対応する処理を行う処理系列をチャネルkと呼ぶ。すなわち、チャネルkは入力デジタル音響信号x(i)および入力デジタル音響信号x(i)から得られる値を取り扱う。本形態ではK個のチャネルk=1,・・・,Kが存在する。
<受信部101>
受信部101は、複数個の観測装置20−k,・・・,20−Kで得られた複数個のチャネルk=1,・・・,Kの入力デジタル音響信号x(i),・・・,x(i)を受信する。受信部101は、例えば、ネットワークやbluetooth(登録商標)を利用して伝送された入力デジタル音響信号x(i),・・・,x(i)を受信する(ステップS101)。
<サンプリング周波数変換部102>
受信された複数個のチャネルk=1,・・・,Kの入力デジタル音響信号x(i)は、サンプリング周波数変換部102に入力される。異なるチャネルkの入力デジタル音響信号x(i)は、異なるA/D変換器22−kで得られたものであるため、サンプリング周波数が異なる場合がある。サンプリング周波数変換部102は、すべてのチャネルk=1,・・・,Kの入力デジタル音響信号x(i)のサンプリング周波数を任意の同一のサンプリング周波数に揃える。言い換えると、サンプリング周波数変換部102は、複数個のチャネルk=1,・・・,Kの入力デジタル音響信号x(i)をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号cx(i)を複数個のチャネルk=1,・・・,Kについて得る。「特定のサンプリング周波数」は、A/D変換器22−1,・・・,22−Kの何れか一つのサンプリング周波数であってもよいし、その他のサンプリング周波数であってもよい。「特定のサンプリング周波数」の一例は16kHzである。サンプリング周波数変換部102は、各A/D変換器22−kのサンプリング周波数の公称値に基づいてサンプリング周波数変換を行う。すなわち、サンプリング周波数変換部102は、各A/D変換器22−kのサンプリング周波数の公称値でサンプリングされた信号を、特定のサンプリング周波数でサンプリングされた信号に変換する。このようなサンプリング周波数変換は周知である。サンプリング周波数変換部102は、以上のように得た各チャネルkの変換デジタル音響信号cx(i)を出力する(ステップS102)。
<信号同期部103>
信号同期部103は、チャネルk=1,・・・,Kの変換デジタル音響信号cx(i),・・・,cx(i)を入力として受け取る。信号同期部103は、変換デジタル音響信号cx(i),・・・,cx(i)をチャネルk=1,・・・,K間で同期させ、チャネルk=1,・・・,Kのデジタル音響信号sx(i),・・・,sx(i)を得て出力する(ステップS103)。以下にこの詳細を説明する。
A/D変換器22−kには個体差がある。そのためA/D変換器22−kのサンプリング周波数の公称値がfであったとしても、A/D変換器22−kがサンプリング周波数f/αでA/D変換を行う場合もある。ただし、αはA/D変換器22−kの実際のサンプリング周波数とサンプリング周波数の公称値との間の周波数ずれを表す正のパラメータである。音響信号をサンプリング周波数fでA/D変換して得られる入力デジタル音響信号をx’(i)とおくと、同じ音響信号をサンプリング周波数f/αでA/D変換して得られる入力デジタル音響信号はx’(i×α)となる。ただし「×」は乗算演算子を表す。すなわち、サンプリング周波数の周波数ずれは、入力デジタル音響信号の時間領域でのタイミングずれとなって現れる。
サンプリング周波数変換部102は、各A/D変換器22−kのサンプリング周波数の公称値fに基づいてサンプリング周波数変換を行っている。すなわち、すべてのチャネルk=1,・・・,Kに共通の「特定のサンプリング周波数」をFとすると、サンプリング周波数変換部102は、各チャネルkのサンプリング周波数をF/f倍にするサンプリング周波数変換を行っている。そのため、各A/D変換器22−kの実際のサンプリング周波数がf/αであるとすると、各チャネルkの変換デジタル音響信号cx(i)のサンプリング周波数はF×αとなる。この個体差に基づく周波数ずれは、チャネルk=1,・・・,K間における、変換デジタル音響信号cx(i)の時間領域でのタイミングずれとなって現れる。
信号同期部103は、個体差に基づく変換デジタル音響信号cx(i)の時間領域でのタイミングずれを減らすために、時間領域の変換デジタル音響信号cx(i),・・・,cx(i)をチャネルk=1,・・・,K間で同期させる。例えば信号同期部103は、チャネル間の相互相関が最大になるように、変換デジタル音響信号cx(i),・・・,cx(i)を時間軸方向(サンプル点方向)に互いにずらし、同期後のデジタル音響信号sx(i),・・・,sx(i)を得る。
例えば信号同期部103は、各チャネルkの変換デジタル音響信号cx(i)から、単語の発話など十分特徴的な波形の変化を観測できる長さ(例えば3秒)のサンプル列cx(1),・・・,cx(I)をとりだす(ステップS1031)。ただし、Iは正整数を表す。次に信号同期部103は、取り出したサンプル列のうち1つのチャネルk’∈{1,・・・,K}のサンプル列cxk’(1),・・・,cxk’(I)を基準サンプル列とする(ステップS1032)。次に信号同期部103は、チャネルk’以外のチャネルk”∈{1,・・・,K}(k”≠k’)のサンプル列cxk”(1),・・・,cxk”(I)を時間軸にずらしたサンプル列cxk”(1+τk”),・・・,cxk”(I+τk”)と基準サンプル列cxk’(1),・・・,cxk’(I)との相互相関Σ{cxk”(n)×cxk’(n)}を最大にする遅延τk”を所定の探索範囲から探索し、sxk”(ik”)=cxk”(ik”+τk”)およびsxk’(ik’)=cxk’(ik’)とする(ステップS1033)。さらに信号同期部103は、サンプル列cx(1),・・・,cx(I)を切り出す範囲をシフトさせ(例えば1秒の時間に対応するサンプル点だけシフトさせ)、ステップS1031〜S1033の処理を実行する処理を繰り返し、同期後のデジタル音響信号sx(i),・・・,sx(i)をすべてのサンプル点について得て出力する。
<フレーム分割部104>
フレーム分割部104は、同期後のデジタル音響信号sx(i),・・・,sx(i)を入力として受け取る。フレーム分割部104は、チャネルkごとにデジタル音響信号sx(i)を所定の時間区間であるフレームに分割する(ステップS104)。このフレーム分割処理では、フレーム切り出し区間長(フレーム長)L点と切り出し区間のずらし幅m点を任意に決めることができる。ただし、Lおよびmは正整数である。例えば、切り出し区間長を2048点、切り出し区間のずらし幅を256点とする。フレーム分割部104は、チャネルkごとに切り出し区間長のデジタル音響信号sx(i)を切り出して出力する。さらにフレーム分割部104は、決められた切り出し区間のずらし幅に従い切り出し区間をずらし、チャネルkごとに上記切り出し区間長のデジタル音響信号sx(i)を切り出して出力する処理を繰り返す。以上の処理により、各チャネルkについて各フレームのデジタル音響信号が出力される。以下では、チャネルkのr番目のフレームrに属するデジタル音響信号をsx(ik,r,0),・・・,sx(ik,r,L−1)と表現する。
<VAD判定部105>
VAD判定部105は、各チャネルkの各フレームrに属するデジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)を入力として受け取る。VAD判定部105は、入力されたデジタル音響信号を用い、各チャネルkの各フレームrが音声区間であるか非音声区間であるかを判定する(ステップS105)。VAD判定部105は、例えば参考文献1に記載されたような周知技術を用い、フレームrが音声区間であるか非音声区間であるかの判定を行う。
[参考文献1]Jongseo Sohn, Nam Soo Kim, Wonyong Sung, “A Statistic Model-Based Voice Activity Detection,” IEEE SIGNAL PROCESSING LETTERS, VOL.6, NO.1, 1999.
これらの判定に基づき、VAD判定部105は、各フレームrに対し、音声区間であるか非音声区間であるかの判定結果を表すラベルθを付与する。例えば、「フレームrが音声区間であると判定されたチャネルの個数」が「フレームrが非音声区間であると判定されたチャネルの個数」以上である場合、VAD判定部105は、フレームrが音声区間であると判定し、音声区間であることを表すラベルθをフレームrに対して付与する。一方、「フレームrが音声区間であると判定されたチャネルの個数」が「フレームrが非音声区間であると判定されたチャネルの個数」未満である場合、VAD判定部105は、フレームrが非音声区間であると判定し、非音声区間であることを表すラベルθをフレームrに対して付与する。その他、チャネルk=1,・・・,Kのうち、デジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)の平均パワーや平均S/N比が最も大きなチャネルに対する判定結果を表すラベルθをフレームrに付与してもよい。また、音声区間であることを表すラベルの例はθ=1であり、非音声区間であることを表すラベルの例はθ=0である。VAD判定部105は、各ラベルθを出力する。
<S/Nベクトル生成部107>
S/Nベクトル生成部107は、各チャネルkの各フレームrのデジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)およびラベルθを入力として受け取る。S/Nベクトル生成部107は、チャネルkごとに音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化した特徴量を得、チャネルk=1,・・・,Kに対して得られた特徴量を要素とするS/Nベクトル(特徴量列)を得て出力する(ステップS107)。「特徴量」の例は、非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比を表す値である。「デジタル音響信号の大きさ」の例は、デジタル音響信号のパワーや絶対値、デジタル音響信号のパワーの平均値や絶対値の平均値、デジタル音響信号のパワーの合計値や絶対値の合計値、それらの正負反転値や関数値などである。「比を表す特徴量」の例は、「非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比」そのもの、その逆数その他の関数値である。以下では、デジタル音響信号のパワーの平均値を「デジタル音響信号の大きさ」とし、「非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比」そのものを「特徴量」とした例を示す。
S/Nベクトル生成部107は、以下の処理を実行する。
[ステップS1071]
S/Nベクトル生成部107は、rを1に初期化する。
[ステップS1072]
S/Nベクトル生成部107は、ラベルθが音声区間を表すか非音声区間を表すかを判定する。
[ステップS1073]
ラベルθが非音声区間を表す場合、S/Nベクトル生成部107は、すべてのチャネルk=1,・・・,Kについて、フレームrに属するデジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)の平均パワーP(k,r)を計算し(式(1)参照)、平均パワーP(k,r)をk番目の要素とする平均パワーベクトルP(r)=(P(1,r),・・・,P(K,r))を非音声パワー記憶部106に格納する。
[ステップS1074]
ラベルθが音声区間を表す場合、S/Nベクトル生成部107は、非音声パワー記憶部106に格納されている非音声区間のフレームr’の平均パワーベクトルP(r’)=(P(1,r’),・・・,P(K,r’))を取り出す。このフレームr’は処理対象のフレームrに近いことが望ましい。例えば、S/Nベクトル生成部107は、フレームrに最も近い非音声区間のフレームr’の平均パワーベクトルP(r’)を取り出す。なお、非音声パワー記憶部106には平均パワーベクトルの初期値も格納されている。平均パワーベクトルの初期値の例は、K個の定数(例えば1)を要素とするベクトルなどである。非音声区間の平均パワーベクトルが得られていない場合、S/Nベクトル生成部107は、平均パワーベクトルの初期値を非音声パワー記憶部106から取り出し、それをP(r’)=(P(1,r’),・・・,P(K,r’))とする。
さらにS/Nベクトル生成部107は、すべてのチャネルk=1,・・・,Kについて、音声区間のフレームrに属するデジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)の平均パワーをP(k,r’)で除算し、正規化平均パワーP(k,r)を得る(式(2)参照)。

(k,r’)で除算することで各チャネルkのデジタル音響信号の平均パワーを正規化し、各チャネルkのマイクロホン21−kの感度の違いによる影響を排除できる。S/Nベクトル生成部107は、得られた正規化平均パワーP(k,r)をk番目の要素とするS/NベクトルP(r)=(P(1,r),・・・,P(K,r))を出力する。
[ステップS1075]
未処理のデジタル音響信号が存在する場合、S/Nベクトル生成部107はrに1を加算した値を新たなrとし、処理がステップS1072に進む。未処理のデジタル音響信号が存在しない場合、S/Nベクトル生成部107の処理を終える。
<非音声パワー記憶部106>
前述のように、非音声パワー記憶部106は、平均パワーベクトルの初期値、およびS/Nベクトル生成部107で得られた平均パワーベクトルP(r)を格納する。
<ベクトル分類部108>
ベクトル分類部108は、複数個のS/NベクトルP(r)(複数個のチャネルに対して得られた特徴量からなる特徴量列)を入力として受け取る。ベクトル分類部108は、入力された複数個のS/NベクトルP(r)をクラスタリングし、各S/NベクトルP(r)が属する信号区間分類(クラスタ)を決定する(ステップS108)。ベクトル分類部108は、複数個のS/NベクトルP(r)(例えば、5秒間に対応する区間でのS/NベクトルP(r))が入力されるたびに、新たに入力されたS/NベクトルP(r)をクラスタリング対象に追加してクラスタリングを実行してもよいし、1個のS/NベクトルP(r)が入力されるたびに、新たに入力されたS/NベクトルP(r)をクラスタリング対象に追加してクラスタリングを実行してもよい。クラスタリングの例は、教師なし学習であるオンラインクラスタリングなどであり、その一例はleader−followerクラスタリング(例えば、参考文献2参照)である。クラスタリングの指標となる距離にはコサイン類似度を用いることができる。コサイン類似度の距離関数は以下のように定義できる。

ただし、CLは各クラスタのラベルであり、ラベルCLは非音声区間を表すラベルθ(例えば0)以外の値(例えば、1以上の整数)をとる。PCLはクラスタCLの重心ベクトルである。d(CL)はクラスタCLの重心ベクトルPCLと入力されたS/NベクトルP(r)との距離を表す。コサイン類似度を距離関数とするクラスタリングによって得られたラベルCLが、入力されたS/NベクトルP(r)が属する信号区間分類を表す。ベクトル分類部108は、入力されたS/NベクトルP(r)に対して得られたラベルCLをラベルθに代入してラベルθを更新する。これにより、音声区間のフレームrのラベルθはラベルCLの値となり、非音声区間のフレームrのラベルθは非音声区間を表す値となる。ベクトル分類部108は各フレームrのラベルθを出力する。
[参考文献2]Richard O. Duda, Peter E. Hart, David G. Stork, “Pattern
Classication,” Wiley-Interscience, 2000.
<スペクトル算出部109>
スペクトル算出部109は、フレーム分割部104で分割された、各チャネルkの各フレームrに属するデジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)を入力として受け取る。ここで、フレームrでの各チャネルkのデジタル音響信号sx(ik,r,j)を要素とするK次元の縦ベクトルをx(j,r)=[sx(i1,r,j),・・・,sx(iK,r,j)]と記述する。ただし、[η]は[η]の転置を表す。また、フレームrに属するK次元ベクトルx(0,r),・・・,x(L−1,r)の要素を周波数領域に変換して得られる値を要素とするK次元の縦ベクトルをX(f,r)と記述する。すなわち、フレームrに属するsx(ik,r,0),・・・,sx(ik,r,L−1)を周波数領域に変換して得られる値X(k,f,r)をk番目の要素とするK次元の縦ベクトルをスペクトルベクトルX(f,r)=[X(1,f,r),・・・,X(K,f,r)]と記述する。ただし、fは離散周波数を表すインデックスである。周波数領域への変換方法の例は、FFT(Fast Fourier Transform)などの離散フーリエ変換である。また、X(k,f,r)の振幅スペクトルA(k,f,r)をk番目の要素とするK次元の縦ベクトルを振幅スペクトルベクトルA(f,r)=[A(1,f,r),・・・,A(K,f,r)]と記述する。さらに、X(k,f,r)の位相スペクトルφ(k,f,r)をk番目の要素とするK次元の縦ベクトルを位相スペクトルベクトルφ(f,r)=[φ(1,f,r),・・・,φ(K,f,r)]と記述する。スペクトル算出部109は、x(j,r)=[sx(i1,r,j),・・・,sx(iK,r,j)]を周波数領域に変換し、フレームrごとに、k個の振幅スペクトルA(k,f,r)からなる振幅スペクトルベクトルA(f,r)と、k個の位相スペクトルφ(k,f,r)からなる位相スペクトルベクトルφ(f,r)を得て出力する(ステップS109)。
<振幅スペクトル記憶部110・位相スペクトル記憶部111>
振幅スペクトルベクトルA(f,r)は振幅スペクトル記憶部110に格納され、位相スペクトルベクトルφ(f,r)は位相スペクトル記憶部111に格納される。
<フィルタ係数算出部112・フィルタ係数記憶部113>
フィルタ係数算出部112は、ベクトル分類部108から出力された各フレームrのラベルθ、および振幅スペクトル記憶部110から読み出した振幅スペクトルベクトルA(f,r)を入力として受け取る。ここでラベルθがとり得る値(分類ラベル番号)のうち、音を強調する信号区間分類(強調信号区間分類)を表す分類ラベル番号をcとする。1個の分類ラベル番号cのみが設定されてもよいし、複数個の分類ラベル番号cが設定されてもよい。例えば、任意に分類ラベル番号cが決定されてもよいし、属するS/NベクトルP(r)のノルムの平均値または合計値が大きい順に選択された1個以上の信号区間分類を強調信号区間分類として分類ラベル番号cが決定されてもよいし、属するS/NベクトルP(r)のノルムの平均値または合計値が閾値を超える信号区間分類を強調信号区間分類として分類ラベル番号cが決定されてもよい。θ=cは、フレームrが強調信号区間分類に分類されていることを表す。
フィルタ係数算出部112は、強調信号区間分類に属するS/NベクトルP(r)に対応する振幅スペクトルA(k,f,r)を強調するフィルタリングのためのフィルタ係数を算出する(ステップS112)。以下の参考文献3に開示されたSN比最大化ビームフォーマでは、複素スペクトルをそのまま用いて、最大固有値に対する固有ベクトルを求めてフィルタ係数としている。これに対し、本形態のフィルタ係数算出部112は、振幅スペクトルベクトルA(f,r)を用いてSN比最大化ビームフォーマを構成する。すなわち、フィルタ係数算出部112は、以下の式(4)の一般化固有値問題を解き、最大固有値γ(f)に対応する固有ベクトルの値を、各分類ラベル番号cの音声を強調するフィルタ係数w(f)として得る。

また、E[ρ]θr=c(下付きθrはθ)は、θ=cであるフレームrからなる区間における、行列ρの要素の期待値からなる行列を表す。E[ρ]θr≠cは、θ≠cであるフレームrからなる区間における、行列ρの要素の期待値からなる行列を表す。式(5)(6)を求めるための区間は、例えば10秒以上の時間に対応する。またフィルタ係数w(f)は、チャネルkに対応する係数w(f,k)をk番目の要素とするK次元の横ベクトル[w(f,1),・・・,w(f,K)]である。フィルタ係数算出部112は、各インデックスfおよび各分類ラベル番号cについてフィルタ係数w(f)を得て出力する。さらにフィルタ係数算出部112は、(5)(6)を求めるための区間において、θ=cである各フレームrのS/NベクトルP(r)の要素のうち最大の要素に対応するチャネルを、最大チャネル番号kc,rとして得る。フィルタ係数算出部112は、フィルタ係数w(f)と最大チャネル番号kc,rとを各分類ラベル番号cに対応付け、フィルタ係数記憶部113に格納する。話者の移動や雑音の変化に対応するため、フィルタ係数算出部112は、定期的(例えば1分置き)に、式(5)(6)を得るための区間を更新し、各フィルタ係数w(f)および最大チャネル番号kc,rを得て、フィルタ係数記憶部113に格納された各フィルタ係数w(f)および最大チャネル番号kc,rを更新する。
[参考文献3]H. L. Van Tree, ed., “Optimum Array Processing,” Wiley, 2002.
<フィルタリング部114>
フィルタリング部114は、フィルタ係数記憶部113から読み出したフィルタ係数w(f)、および振幅スペクトル記憶部110から読み出した振幅スペクトルベクトルA(f,r)を入力として受け取る。フィルタリング部114は、振幅スペクトルベクトルA(f,r)を構成する複数個の振幅スペクトルA(1,f,r),・・・,A(K,f,r)に対し、フィルタ係数w(f)=[w(f,1),・・・,w(f,K)]によるフィルタリングを行い、処理後振幅スペクトルA’(f,r)を得て出力する(ステップS114)。例えばフィルタリング部114は、以下の式(7)のように、フィルタ係数w(f)と振幅スペクトルベクトルA(f,r)との内積を処理後振幅スペクトルA’(f,r)として得る。
’(f,r)=w(f)A(f,r) (7)
以上のステップS112およびS114により、複数個の振幅スペクトルA(1,f,r),・・・,A(K,f,r)に対し、強調信号区間分類に属するS/NベクトルP(r)に対応する振幅スペクトルを強調する処理が行われ、複数個の処理後振幅スペクトルA’(f,r)が得られる。
<位相付与部115>
位相付与部115は、処理後振幅スペクトルA’(f,r)に、それに対応する位相スペクトルを付与して複素スペクトルを得て出力する(ステップS115)。本形態では、位相付与部115は、フィルタ係数記憶部113から各フレームrおよび各分類ラベル番号cに対応する最大チャネル番号kc,r読み出す。位相付与部115は、位相スペクトル記憶部111から全チャネルkに対応する位相スペクトルφ(k,f,r)を読み出し、それらから最大チャネル番号kc,rに対応する位相スペクトルφ(kc,r,f,r)を選択する。さらに位相付与部115は、フィルタリング部114から出力された処理後振幅スペクトルA’(f,r)を入力として受け取る。位相付与部115は、以下の式(8)のように処理後振幅スペクトルA’(f,r)に位相スペクトルφ(kc,r,f,r)を付与し、複素スペクトルY(f,r)を得て出力する。
(f,r)=A’(f,r)exp(iφ(kc,r,f,r)) (8)
ただし、iは虚数単位であり、expは指数関数である。
<時間領域変換部116>
時間領域変換部116は、複素スペクトルY(f,r)を入力として受け取り、複素スペクトルY(f,r)を時間領域に変換して強調音響信号y(n,r)(n=0,・・・,L−1)を得る。ただし、nはサンプル点を表すインデックスである。時間領域に変換する方法としては、例えば逆フーリエ変換を用いることができる。さらに時間領域変換部116は、オーバーラップアド法を用いて強調音響信号y(n,r)(n=0,・・・,L−1)を合成して時間領域の音響信号波形を得て出力する。分類ラベル番号cが複数存在する場合、時間領域変換部116は、各分類ラベル番号cに対応する音響信号波形を複数出力する。または、各分類ラベル番号cに対応する音響信号波形の同じサンプル点ごとの加算値を出力してもよい。
本実施例では、K=5とし、観測装置20−k(k=1,・・・,5)としてスマートフォン端末装置を用い、直線配置されていない3個の音源から発音された音を録音して観測信号を得、上記の音響信号強調装置10での信号区間分類を行った。クラスタリングにはleader−followerクラスタリングを用い、新たなクラスタリングを生成するための距離d(CL)の閾値を0.65とした。図4Aはこの場合の各チャネルk=1,・・・,5のデジタル音響信号sx(i)ら算出したS/NベクトルP(r)の成分P(k,r)ごとの時間変化を示し、図4Bは信号区間分類結果(ラベルθ)を示す。図5Aにスマートフォンで収音されたフィルタリング前のデジタル音響信号のパワースペクトルを例示し、図5Bにフィルタリング後のデジタル音響信号に対するパワースペクトルを例示し、図5Cに最大チャネル番号のチャネルの位相スペクトルを付与して得られた処理後振幅スペクトルを時間領域に変換して得られた音響信号波形の振幅を例示する。図5Aおよび5Bでは、パワースペクトルの大きさ([dB]表記)を色の濃淡で表現している。図5A〜Cにおいてαで示す部分が強調音声部分である。フィルタを適用することで強調音声以外が抑圧されていることが分かる。
本形態では、音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化して得られる複数個のS/Nベクトルをクラスタリングする。そのため、自由に配置されたマイクロホン感度が異なる複数個のスマートフォン端末装置、固定電話、ボイスレコーダなどの録音機能をもつ端末装置で録音されたデジタル音響信号から、音源位置に基づいた信号区間分類を行うことができる。
また本形態では、音源からマイクロホンへ到達するまでの音圧の減衰に着目するため、クラスタリングに用いる距離尺度にコサイン類似度を使用した。さらに本形態では、サンプリング周波数変換部102でサンプリング周波数変換を行ってチャネル間のサンプリング周波数のずれを補正し、信号同期部103でチャネル間での同期を行って観測装置20−kの個体差による影響を抑制した。そのため、各チャネルのA/D変換器22−kのサンプリング周波数の公称値が互いに異なっていたり、サンプリング周波数の個体差があったりしても、信号区間分類を精度よく行うことができる。
以上のような区間分類結果を用いて目的音区間とその他の音源区間に分類ができるため、雑音を抑圧し目的音を強調するフィルタの設計のための情報として利用できる。そのため本形態では、自由に配置した複数のサンプリング周波数およびマイクロホン感度が異なる、スマートフォン、固定電話、ボイスレコーダなどの録音機能をもつ複数端末装置で得られたデジタル音響信号から、特定の目的音を強調することができる。
<変形例等>
なお、本発明は上述の実施の形態に限定されるものではない。例えば、すべてのチャネルk=1,・・・,KのA/D変換器22−kのサンプリング周波数の公称値が互いに同一であるならば、サンプリング周波数変換部102の処理を行わなくてもよい。この場合には「入力デジタル音響信号」がそのまま「変換デジタル音響信号」として信号同期部103に入力されてもよい。このような場合にはサンプリング周波数変換部102を設けなくてもよい。
さらにすべてのチャネルk=1,・・・,KのA/D変換器22−kのサンプリング周波数の公称値が互いに同一であり、それらの個体差の影響も小さいのであれば、サンプリング周波数変換部102および信号同期部103の処理を行わなくてもよい。この場合には「入力デジタル音響信号」がそのまま「デジタル音響信号」としてフレーム分割部104に入力されてもよい。このような場合にはサンプリング周波数変換部102および信号同期部103を設けなくてもよい。
また位相付与部115は、最大チャネル番号kc,rに対応する位相スペクトルφ(kc,r,f,r)を処理後振幅スペクトルA’(f,r)に付与した。しかしながら、その他のチャネルの位相スペクトルφ(k,f,r)を処理後振幅スペクトルA’(f,r)に付与してもよい。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
10 音響信号強調装置
20−1〜K 観測装置

Claims (6)

  1. 複数個のチャネルの入力デジタル音響信号を入力とし、前記複数個のチャネルの入力デジタル音響信号をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号を得るサンプリング周波数変換部と、
    前記複数個の変換デジタル音響信号について各チャネルから一定時間長のサンプル列をそれぞれ取得し、1つのチャネルのサンプル列を基準サンプル列として、当該基準サンプル列としたチャネル以外のチャネルの非基準サンプル列に対して前記基準サンプル列との相互相関を最大にする遅延量をそれぞれ探索し、前記非基準サンプル列に対して当該遅延量を加えたサンプル列をそれぞれ生成することを前記一定時間長よりも短い時間間隔で前記サンプル列を取得する範囲をシフトさせながら定期的に繰り返すことによって、チャネル間で同期した変換デジタル音響信号を取得する信号同期部と、
    チャネルごとに音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさを非音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさで正規化した要素からなるS/Nベクトルである特徴量を得る特徴量列取得部と、
    前記複数個のチャネルに対して得られた前記特徴量からなる特徴量列をクラスタリングし、前記特徴量列が属する信号区間分類を決定する分類部と、
    複数個の時間区間のそれぞれで前記チャネル間で同期した変換デジタル音響信号を周波数領域に変換し、複数個の振幅スペクトルと位相スペクトルとを得るスペクトル算出部と、
    前記複数個の振幅スペクトルに対し、前記信号区間分類の何れかである強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調する処理を行い、複数個の処理後振幅スペクトルを得る強調処理部と、
    前記処理後振幅スペクトルに前記位相スペクトルを付与して複素スペクトルを得る位相付与部と、
    を有する音響信号強調装置。
  2. 請求項1の音響信号強調装置であって、
    前記強調処理部は、
    前記強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調するフィルタリングのためのフィルタ係数を算出するフィルタ係数算出部と、
    前記複数個の振幅スペクトルに対し、前記フィルタ係数によるフィルタリングを行い、前記処理後振幅スペクトルを得るフィルタリング部と、
    を有する音響信号強調装置。
  3. 請求項1または2の音響信号強調装置であって、
    前記複数個のチャネルの入力デジタル音響信号のそれぞれは、録音機能を持つ複数個の装置のそれぞれで得られたものである、
    ことを特徴とする音響信号強調装置。
  4. 請求項1から3の何れかの音響信号強調装置であって、
    前記複素スペクトルを時間領域に変換して強調音響信号を得る時間領域変換部を有する音響信号強調装置。
  5. 複数個のチャネルの入力デジタル音響信号を入力とし、前記複数個のチャネルの入力デジタル音響信号をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号を得るサンプリング周波数変換ステップと、
    前記複数個の変換デジタル音響信号について各チャネルから一定時間長のサンプル列をそれぞれ取得し、1つのチャネルのサンプル列を基準サンプル列として、当該基準サンプル列としたチャネル以外のチャネルの非基準サンプル列に対して前記基準サンプル列との相互相関を最大にする遅延量をそれぞれ探索し、前記非基準サンプル列に対して当該遅延量を加えたサンプル列をそれぞれ生成することを前記一定時間長よりも短い時間間隔で前記サンプル列を取得する範囲をシフトさせながら定期的に繰り返すことによって、チャネル間で同期した変換デジタル音響信号を取得する信号同期ステップと、
    チャネルごとに音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさを非音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさで正規化した要素からなるS/Nベクトルである特徴量を得る特徴量列取得ステップと、
    前記複数個のチャネルに対して得られた前記特徴量からなる特徴量列をクラスタリングし、前記特徴量列が属する信号区間分類を決定する分類ステップと、
    複数個の時間区間のそれぞれで前記チャネル間で同期した変換デジタル音響信号を周波数領域に変換し、複数個の振幅スペクトルと位相スペクトルとを得るスペクトル算出ステップと、
    前記複数個の振幅スペクトルに対し、前記信号区間分類の何れかである強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調する処理を行い、複数個の処理後振幅スペクトルを得る強調処理ステップと、
    前記処理後振幅スペクトルに前記位相スペクトルを付与して複素スペクトルを得る位相付与ステップと、
    を有する音響信号強調方法。
  6. 請求項1から4の何れかの音響信号強調装置の各部としてコンピュータを機能させるためのプログラム。
JP2012243616A 2012-11-05 2012-11-05 音響信号強調装置、音響信号強調方法、およびプログラム Active JP5705190B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012243616A JP5705190B2 (ja) 2012-11-05 2012-11-05 音響信号強調装置、音響信号強調方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012243616A JP5705190B2 (ja) 2012-11-05 2012-11-05 音響信号強調装置、音響信号強調方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2014092705A JP2014092705A (ja) 2014-05-19
JP5705190B2 true JP5705190B2 (ja) 2015-04-22

Family

ID=50936808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012243616A Active JP5705190B2 (ja) 2012-11-05 2012-11-05 音響信号強調装置、音響信号強調方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5705190B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6063843B2 (ja) * 2013-08-28 2017-01-18 日本電信電話株式会社 信号区間分類装置、信号区間分類方法、およびプログラム
JP6395558B2 (ja) * 2014-10-21 2018-09-26 オリンパス株式会社 第1の録音装置、第2の録音装置、録音システム、第1の録音方法、第2の録音方法、第1の録音プログラム、および第2の録音プログラム
JP6285855B2 (ja) * 2014-12-25 2018-02-28 日本電信電話株式会社 フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4746533B2 (ja) * 2006-12-21 2011-08-10 日本電信電話株式会社 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP4891801B2 (ja) * 2007-02-20 2012-03-07 日本電信電話株式会社 多信号強調装置、方法、プログラム及びその記録媒体
JP4469882B2 (ja) * 2007-08-16 2010-06-02 株式会社東芝 音響信号処理方法及び装置
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2014092705A (ja) 2014-05-19

Similar Documents

Publication Publication Date Title
JP6027087B2 (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
Grais et al. Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
JP2018040848A (ja) 音響処理装置および音響処理方法
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
JP6992873B2 (ja) 音源分離装置、音源分離方法およびプログラム
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
CN107592600B (zh) 一种基于分布式麦克风的拾音筛选方法及拾音装置
JP5784075B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム
JP6606784B2 (ja) 音声処理装置および音声処理方法
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
WO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
JP6233625B2 (ja) 音声処理装置および方法、並びにプログラム
JP4849404B2 (ja) 信号処理装置、信号処理方法およびプログラム
JP7024615B2 (ja) 音響信号分離装置、学習装置、それらの方法、およびプログラム
JP6167062B2 (ja) 分類装置、分類方法、およびプログラム
JP6063843B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム
CN112530453A (zh) 一种适用于噪声环境下的语音识别方法及装置
JP7000281B2 (ja) 音響信号処理装置、音響信号処理方法及びプログラム
JP2006180392A (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150224

R150 Certificate of patent or registration of utility model

Ref document number: 5705190

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150