JP5605574B2

JP5605574B2 - 多チャンネル音響信号処理方法、そのシステム及びプログラム

Info

Publication number: JP5605574B2
Application number: JP2010550499A
Authority: JP
Inventors: 剛範辻川; 亮輔磯谷; 正江森; 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-02-13
Filing date: 2010-02-08
Publication date: 2014-10-15
Anticipated expiration: 2030-02-08
Also published as: US9009035B2; WO2010092914A1; US20120029915A1; JPWO2010092914A1

Description

本発明は、多チャンネル音響信号処理方法、そのシステム及びプログラムに関する。

関連する多チャンネル音響信号処理システムの一例が、特許文献１に記載されている。この装置は、任意に配置された複数のマイクロホンで収音した複数の話者の音声および雑音の混合音響信号から目的外音声、背景雑音を除去することにより目的音声を抽出するシステムである。また、上記混合音響信号から目的音声を検出するシステムでもある。

図８は、特許文献１に開示されている雑音除去システムの構成を示すブロック図である。その雑音除去システムにおける混合音響信号から目的音声を検出する箇所について構成および動作を概説する。複数のチャンネルの入力時系列信号を受けて分離する信号分離部１０１と、信号分離部１０１から出力される分離信号を受け強度比計算部１０６からの強度比に基づき雑音を推定する雑音推定部１０２と、信号分離部１０１から出力される分離信号と、雑音推定部１０２で推定された雑音成分と、強度比計算部１０６の出力を受けて雑音区間／音声区間を検出する雑音区間検出部１０３とを有する。

特開２００５−３０８７７１号公報（図１）

特許文献１に記載の雑音除去システムは、任意に配置された複数のマイクロホンで収音した複数の話者の音声および雑音の混合音響信号から目的音声を検出、抽出することを意図したものであるが、下記の課題を有していった。

その課題は、混合音響信号から目的音声を効率的に検出、抽出することができないことである。

その理由は、目的音声を抽出する信号分離部１０１の出力を用いて、雑音区間／音声区間を検出する構成となっているためである。例えば図１のような話者Ａ、ＢとマイクロホンＡ、Ｂの配置を想定し、マイクロホンＡ、Ｂで収音した話者Ａ、Ｂの混合音響信号から話者Ａ、Ｂの音声をそれぞれ検出、抽出することを考える。マイクロホンＡと話者Ａの間の距離は、マイクロホンＡと話者Ｂの間の距離と近いため、マイクロホンＡには話者Ａと話者Ｂとの音声が近い割合で混入する（図２を参照）。

しかし、マイクロホンＢと話者Ａとの間の距離は、マイクロホンＢと話者Ｂとの間の距離に比べて遠いため、マイクロホンＢに混入する話者Ａの音声は、話者Ｂの音声に比べて少ない（図２を参照）。すなわち、マイクロホンＡに含まれる話者Ａの音声とマイクロホンＢに含まれる話者Ｂの音声とを抽出するために、マイクロホンＡに混入する話者Ｂの音声（話者Ｂによるクロストーク）を除去する必要度は高く、マイクロホンＢに混入する話者Ａの音声（話者Ａによるクロストーク）を除去する必要度は低い。

従って、除去の必要度が異なる場合に、信号分離部１０１においてマイクロホンＡとマイクロホンＢとで収音した混合音響信号に対して同じ処理を行うことは非効率的であった。

そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、多チャンネルの入力信号から効率的にクロストークを除去できる多チャンネル音響信号処理方法、そのシステム及びプログラムを提供することにある。

上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、前記話者ごと、又は、前記チャンネルごとの音声区間を検出し、チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去することを特徴とする多チャンネル音響信号処理方法である。

上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出部と、チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部とを有することを特徴とする多チャンネル音響信号処理システムである。

上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理のプログラムであって、前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出処理と、チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理とを情報処理装置に実行させることを特徴とするプログラムである。

本発明は、影響が小さいクロストークを除去するための計算を省くことができるため、効率的にクロストークを除去することができる。

図１は本発明の課題を説明するためのマイクロホン、話者配置図である。図２はクロストーク、オーバーラップ区間を説明する為の図である。図３は本発明の実施の形態の構成を示すブロック図である。図４は本発明の実施の形態の動作を示す流れ図である。図５は多チャンネル音声検出部１で検出される音声区間とチャンネル間のクロストークを示す図である。図６はオーバーラップ区間検出部２で検出するオーバーラップ区間を示す図である。図７は特徴量算出部３−１〜３−Ｎで特徴量を算出する区間を示す図である。図８は関連する雑音除去システムの構成を示すブロック図である。

本発明の実施の形態について詳細に説明する。

図３は、本発明の多チャンネル音響信号処理システムの構成例を示すブロック図である。図３に例示する多チャンネル音響信号処理システムは、入力信号１〜Ｍをそれぞれ受けて、複数のチャンネルの入力信号における複数の各話者の音声を各々いずれか１つのチャンネルで検出する多チャンネル音声検出部１と、検出された複数の話者の音声区間のオーバーラップ区間を検出するオーバーラップ区間検出部２と、少なくとも音声が検出された複数のチャンネル毎に特徴量を算出する特徴量算出部３−１〜３−Ｎと、前記オーバーラップ区間を含まない音声区間における複数のチャンネルの特徴量を少なくとも受けてクロストークの影響の大小を推定するクロストーク量推定部４と、影響が大きいクロストークを除去するクロストーク除去部５と、を有する。

図４は、本発明の実施の形態に係る多チャンネル音響信号処理システムにおける処理手順を示す流れ図である。図３および図４を参照して、本実施の形態の多チャンネル音響信号処理システムの詳細について以下に説明する。

入力信号１〜Ｍをそれぞれx1(t)〜xM(t)とする。ただし、tは時間のインデックスである。多チャンネル音声検出部１では、入力信号１〜Ｍから、複数のチャンネルの入力信号における複数の各話者の音声を各々いずれか１つのチャンネルで検出する（ステップＳ１）。例として、チャンネル１〜Ｎで異なる音声が検出されたとし、その音声区間の信号を以下のように表す。
x1(ts1-te1)
x2(ts2-te2)
x3(ts3-te3)
・
・
・
xN(tsN-teN)
ここで、ts1、ts2、ts3、・・・、tsNは、チャンネル１〜Ｎで検出された音声区間の始端時刻であり、te1、te2、te3、・・・、teNは、チャンネル１〜Ｎで検出された音声区間の終端時刻である（図５を参照）。

尚、多チャンネル音声検出部１には複数の入力信号を用いて、話者の音声を検出する従来の手法を用いてもよいし、チャンネルと対応付けされたマイクスイッチのＯＮ、ＯＦＦ信号により検出してもよい。

次に、オーバーラップ区間検出部２は、チャンネル１〜Ｎで検出された音声区間の始端、終端の時刻情報を受けて、オーバーラップ区間を検出する（ステップＳ２）。オーバーラップ区間は、チャンネル１〜Ｎ間で、検出された音声区間が共通する区間であり、図６に示すようにts1、ts2、ts3、…、tsNおよびte1、te2、te3、…、teNの大小関係から検出できる。例えば、チャンネル１とチャンネルＮとの間で検出された音声区間が共通する区間は、tsN〜te1であり、この区間がオーバーラップ区間である。また、チャンネル２とチャンネルＮとの間で検出された音声区間が共通する区間は、ts2〜teNであり、この区間がオーバーラップ区間である。また、チャンネル２とチャンネル３との間で、検出された音声区間が共通する区間は、ts3〜te3であり、この区間がオーバーラップ区間である。

次に、特徴量算出部３−１〜３−Ｎでは、入力信号１〜Ｎから、それぞれ特徴量１〜Ｎを算出する（ステップＳ３）。

F1(T) = [f11(T) f12(T) … f1L(T)] … (1-1)
F2(T) = [f21(T) f22(T) … f2L(T)] … (1-2)
・
・
・
FN(T) = [fN1(T) fN2(T) … fNL(T)] … (1-N)
ここで、F1(T)〜FN(T)は入力信号１〜Ｎから算出した特徴量１〜Ｎである。Tは時間のインデックスであり、複数のtを1つの区間とし、その時間区間におけるインデックスとしてTを用いてもよい。数式(1-1)〜(1-N)に示すように、特徴量F1(T)〜FN(T)は、それぞれL次元(Lは1以上の値)の特徴量の要素を持つベクトルとして構成される。特徴量の要素としては、例えば、時間波形（入力信号）、平均パワーなどの統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度（エントロピーを含む）、音素・音節認識結果などが考えられる。

上記の通り、入力信号１〜Ｎから直接求める特徴量だけでなく、音響モデルというある基準に対するチャンネル毎の値を特徴量とすることも可能である。なお、上記の特徴量は一例であり、その他の特徴量でも良いことはもちろんである。また特徴量を算出する区間は、少なくとも音声が検出された複数のチャンネルの音声区間全てとしてもよいが、特徴量の算出のための計算量を削減するため、以下の区間で特徴量を算出することが望ましい。

第１のチャンネルで特徴量を算出する場合、以下の（１）＋（２）−（３）の区間であることが望ましい。
（１）第１のチャンネルで検出された第１の音声区間
（２）その第１の音声区間と共通するオーバーラップ区間を有する、第ｎのチャンネルの第ｎの音声区間
（３）第ｎの音声区間のうち、第１の音声区間以外の第ｍのチャンネルの第ｍの音声区間とのオーバーラップ区間
図７を例として参照し、上記特徴量の算出区間について説明する。

＜チャンネル１が第１のチャンネルの場合＞
（１）チャンネル１の音声区間＝（ts1〜te1）
（２）チャンネル１の音声区間と共通するオーバーラップ区間を有するチャンネルＮの音声区間＝（tsN〜teN）
（３）チャンネルＮの音声区間のうち、チャンネル１の音声区間以外のチャンネル２の音声区間とのオーバーラップ区間＝（ts2〜teN）
（１）＋（２）−（３）＝（ts1〜ts2）の区間の特徴量を算出する。

＜チャンネル２が第１のチャンネルの場合＞
（１）チャンネル２の音声区間＝（ts2〜te2）
（２）チャンネル２の音声区間と共通するオーバーラップ区間を有するチャンネル３、Ｎの音声区間＝（ts3〜te3、tsN〜teN）
（３）チャンネル３、Ｎの音声区間のうち、チャンネル２の音声区間以外のチャンネル１の音声区間とのオーバーラップ区間＝（tsN〜te1）
（１）＋（２）−（３）＝（te1〜te2）の区間の特徴量を算出する。
＜チャンネル３が第１のチャンネルの場合＞
（１）チャンネル３の音声区間＝（ts3〜te3）
（２）チャンネル３の音声区間と共通するオーバーラップ区間を有するチャンネル２の音声区間＝（ts2〜te2）
（３）チャンネル２の音声区間のうち、チャンネル３の音声区間以外のチャンネルＮの音声区間とのオーバーラップ区間＝（ts2〜teN）
（１）＋（２）−（３）＝（teN〜te2）の区間の特徴量を算出する。

＜チャンネルＮが第１のチャンネルの場合＞
（１）チャンネルＮの音声区間＝（tsN〜teN）
（２）チャンネルＮの音声区間と共通するオーバーラップ区間を有するチャンネル１、２の音声区間＝（ts1〜te1、ts2〜te2）
（３）チャンネル１、２の音声区間のうち、チャンネルＮの音声区間以外のチャンネル３の音声区間とのオーバーラップ区間＝（ts3〜te3）
（１）＋（２）−（３）＝（ts1〜ts3、te3〜te2）の区間の特徴量を算出する。

次に、クロストーク量推定部４は、第１のチャンネルの第１の音声と共通のオーバーラップ区間を有する第ｎのチャンネルの第ｎの音声によるクロストークが、第１のチャンネルの第１の音声に与える影響の大小を推定する（ステップＳ４）。図７を例とし、説明する。第１のチャンネルをチャンネル１とした場合、チャンネル１で検出された音声（音声区間はts1〜te1）と共通のオーバーラップ区間を有するチャンネルＮの音声によるクロストークが、チャンネル１の音声に与える影響の大小を推定する。推定方法には以下のような方法が考えられる。

＜推定方法１＞
オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル１の特徴量とチャンネルＮの特徴量とを比較する。そして、特徴量が近ければ、チャンネルＮの音声がチャンネル１に与える影響が大きいと推定する。

例えば、区間te1〜ts2におけるチャンネル１とチャンネルＮとのパワーを比較する。そして、チャンネルＮのパワーとチャンネル１のパワーが近ければ、チャンネルＮの音声がチャンネル１に与える影響が大きいと推定する。また、チャンネル１のパワーがチャンネルＮのパワーより十分大きければ、チャンネルＮの音声がチャンネル１に与える影響が小さいと推定する。このように所定の特徴量の相関値を求めることにより、影響を推定する。

＜推定方法２＞
まず、区間tsN〜te1におけるチャンネル１とチャンネルＮとの特徴量の差分を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル１とチャンネルＮとの特徴量の差分を計算する。そして、上記２つの差分を比較し、差分の違いが少なければ、チャンネルＮの音声がチャンネル１に与える影響が大きいと推定する。

＜推定方法３＞
オーバーラップ区間を含まない音声区間である区間ts1〜tsNにおけるチャンネル１とＮのパワー比を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル１とＮのパワー比を計算する。そして、上記２つのパワー比と、区間tsN〜te1におけるチャンネル１のパワー、チャンネルＮのパワーを用いて、連立方程式を解くことにより、オーバーラップ区間tsN〜te1における、チャンネル１の音声とチャンネルＮの音声によるクロストークのパワーを計算する。チャンネル１の音声のパワーとクロストークのパワーが近ければ、チャンネルＮの音声がチャンネル１に与える影響が大きいと推定する。

以上の如く、オーバーラップ区間を含まない音声区間を少なくとも用いて、チャンネル間の特徴量に基づく比、相関値、距離値により、クロストークの影響を推定する。

クロストーク量推定部４において、上述した推定方法に限らず、オーバーラップ区間を含まない音声区間を少なくとも用いれば、他の方法によりクロストークの影響を推定してもよいことはもちろんである。尚、図７のチャンネル３の音声区間はチャンネル２の音声区間に包含されているため、チャンネル３の音声によるクロストークがチャンネル２に与える影響の大小を推定することは難しい。このように推定が困難な場合は、事前に決めたルール（例えば、影響が大きいと判定するなど）に従えばよい。

最後にクロストーク除去部５では、クロストーク量推定部４において、クロストークにより与えられる影響が大きい、またはクロストークとして与える影響が大きいと推定された複数のチャンネルの入力信号を受けて、クロストークを除去する（ステップＳ５）。クロストークの除去は、独立成分分析に基づく手法や、２乗誤差最小化に基づく手法などを適宜用いればよい。また、クロストークを除去する区間は、少なくともオーバーラップ区間であればよい。例えば、区間te1〜ts2におけるチャンネル１とチャンネルＮとのパワーを比較し、チャンネルＮの音声がチャンネル１に与える影響が大きいと推定された場合、チャンネルＮによるクロストークの処理対象の区間を、チャンネル１の音声区間（ts1〜te1）のうちオーバーラップ区間（tsN〜te1）とし、他の区間に対してはクロストークの処理対象とはせず、単に音声を除去するようにする。このようにすれば、クロストークの処理対象が減り、クロストークの処理の負担が軽減できる。

以上の如く、本実施の形態では、複数の話者の音声区間のオーバーラップ区間を検出し、検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定している。特に、前記オーバーラップ区間を含まない音声区間における複数のチャンネルの特徴量を少なくとも用いて、クロストークの影響の大小を推定し、影響が大きいクロストークを除去している。そのため、影響が小さいクロストークを除去するための計算を省くことができ、効率的にクロストークを除去することが可能となる。

尚、上記実施の形態では、区間を時間に対する区間として説明したが、周波数に対する区間としてもよいし、時間・周波数に対する区間としてもよい。例えば、時間・周波数に対する区間とした場合におけるオーバーラップ区間とは、時間と周波数が同じ区間で音声がオーバーラップする区間となる。

また、上述した実施の形態において、多チャンネル音声検出部１と、オーバーラップ区間検出部２と、特徴量算出部３−１〜３−Ｎと、クロストーク量推定部４と、クロストーク除去部５とをハードウェアで構成したが、それらの全部又は一部をプログラムで動作する情報処理装置により構成することもできる。

尚、上記の実施の形態の内容は、以下のようにも表現することができる。

［付記１］複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
前記話者ごと、又は、前記チャンネルごとの音声区間を検出し、
チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
ことを特徴とする多チャンネル音響信号処理方法。

［付記２］前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、
クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とする
ことを特徴とする付記１に記載の多チャンネル音響信号処理方法。

［付記３］前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記２に記載の多チャンネル音響信号処理方法。

［付記４］前記各チャンネルに対して前記特徴量を算出する区間を、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記３に記載の多チャンネル音響信号処理方法。

［付記５］前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする付記３又は付記４に記載の多チャンネル音響信号処理方法。

［付記６］前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む付記２から付記５のいずれかに記載の多チャンネル音響信号処理方法。

［付記７］前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか１つのチャンネルと対応づけて検出することを特徴とする付記１から付記６のいずれかに記載の多チャンネル音響信号処理方法。

［付記８］複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出部と、
チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
を有することを特徴とする多チャンネル音響信号処理システム。

［付記９］前記クロストーク処理対象決定部は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする付記８に記載の多チャンネル音響信号処理システム。

［付記１０］前記クロストーク処理対象決定部は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記９に記載の多チャンネル音響信号処理システム。

［付記１１］前記クロストーク処理対象決定部は、前記各チャンネルに対して前記特徴量を算出する区間を、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記１０に記載の多チャンネル音響信号処理システム。

［付記１２］前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする付記１０又は付記１１に記載の多チャンネル音響信号処理システム。

［付記１３］前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む付記９から付記１２のいずれかに記載の多チャンネル音響信号処理システム。

［付記１４］前記音声検出部は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか１つのチャンネルと対応づけて検出することを特徴とする付記８から付記１３のいずれかに記載の多チャンネル音響信号処理システム。

［付記１５］複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理のプログラムであって、
前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出処理と、
チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
を情報処理装置に実行させることを特徴とするプログラム。

［付記１６］前記クロストーク処理対象決定処理は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする付記１５に記載のプログラム。

［付記１７］前記クロストーク処理対象決定処理は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記１６に記載のプログラム。

［付記１８］前記クロストーク処理対象決定処理は、前記各チャンネルに対して前記特徴量を算出する区間を、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記１７に記載のプログラム。

［付記１９］前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする付記１７又は付記１８に記載のプログラム。

［付記２０］前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む付記１６から付記１９のいずれかに記載のプログラム。

［付記２１］前記音声検出処理は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか１つのチャンネルと対応づけて検出することを特徴とする付記１６から付記２０のいずれかに記載のプログラム。

以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

本出願は、２００９年２月１３日に出願された日本出願特願２００９−０３１１１０号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明によれば、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号を分離する多チャンネル音響信号処理装置や、多チャンネル音響信号処理装置をコンピュータに実現するためのプログラムといった用途に適用できる。

１多チャンネル音声検出部
２オーバーラップ区間検出部
３−１〜３−Ｎ特徴量算出部
４クロストーク量推定部
５クロストーク除去部

Claims

複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
前記チャンネルごとの音声区間を検出し、
チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
共通するオーバーラップ区間を有するチャンネルにおける前記オーバーラップ区間を含まない音声区間を少なくとも含む入力信号、または、その入力信号から計算される特徴量を用いて、前記共通するオーバーラップ区間を有するチャンネル間のクロストークの影響を推定し、クロストークの影響が大きいチャンネルと、当該チャンネルにて前記検出されたオーバーラップ区間から特定される区間とを、クロストーク除去処理対象とし、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
ことを特徴とする多チャンネル音響信号処理方法。
第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間との、入力信号、または、その入力信号から計算される特徴量を用いて、クロストークの影響を推定することを特徴とする
請求項１に記載の多チャンネル音響信号処理方法。
前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする請求項１又は請求項２に記載の多チャンネル音響信号処理方法。
前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む請求項１から請求項３のいずれかに記載の多チャンネル音響信号処理方法。
前記チャンネルごとの音声区間の検出は、前記複数のチャンネル間で同一の音声を重複して検出しないように、前記チャンネルごとの音声区間を検出することを特徴とする請求項１から請求項４のいずれかに記載の多チャンネル音響信号処理方法。
複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
前記チャンネルごとの音声区間を検出する音声検出部と、
チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
共通するオーバーラップ区間を有するチャンネルにおける前記オーバーラップ区間を含まない音声区間を少なくとも含む入力信号、または、その入力信号から計算される特徴量を用いて、前記共通するオーバーラップ区間を有するチャンネル間のクロストークの影響を推定し、クロストークの影響が大きいチャンネルと、当該チャンネルにて前記検出されたオーバーラップ区間から特定される区間とを、クロストーク除去処理対象として決定するクロストーク処理対象決定部と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
を有することを特徴とする多チャンネル音響信号処理システム。
前記クロストーク処理対象決定部は、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間との、入力信号、または、その入力信号から計算される特徴量を用いて、クロストークの影響を推定することを特徴とする請求項６に記載の多チャンネル音響信号処理システム。
前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする請求項６又は請求項７に記載の多チャンネル音響信号処理システム。
前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む請求項６から請求項８のいずれかに記載の多チャンネル音響信号処理システム。
前記音声検出部は、前記複数のチャンネル間で同一の音声を重複して検出しないように、前記チャンネルごとの音声区間を検出することを特徴とする請求項６から請求項９のいずれかに記載の多チャンネル音響信号処理システム。
複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理のプログラムであって、
前記チャンネルごとの音声区間を検出する音声検出処理と、
チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
共通するオーバーラップ区間を有するチャンネルにおける前記オーバーラップ区間を含まない音声区間を少なくとも含む入力信号、または、その入力信号から計算される特徴量を用いて、前記共通するオーバーラップ区間を有するチャンネル間のクロストークの影響を推定し、クロストークの影響が大きいチャンネルと、当該チャンネルにて前記検出されたオーバーラップ区間から特定される区間とを、クロストーク除去処理対象として決定するクロストーク処理対象決定処理と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
を情報処理装置に実行させることを特徴とするプログラム。
前記クロストーク処理対象決定処理は、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間との、入力信号、または、その入力信号から計算される特徴量を用いて、クロストークの影響を推定することを特徴とする請求項１１に記載のプログラム。
前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする請求項１１又は請求項１２に記載のプログラム。
前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む請求項１１から請求項１３のいずれかに記載のプログラム。
前記音声検出処理は、前記複数のチャンネル間で同一の音声を重複して検出しないように、前記チャンネルごとの音声区間を検出することを特徴とする請求項１１から請求項１４のいずれかに記載のプログラム。