JP5605574B2 - 多チャンネル音響信号処理方法、そのシステム及びプログラム - Google Patents

多チャンネル音響信号処理方法、そのシステム及びプログラム Download PDF

Info

Publication number
JP5605574B2
JP5605574B2 JP2010550499A JP2010550499A JP5605574B2 JP 5605574 B2 JP5605574 B2 JP 5605574B2 JP 2010550499 A JP2010550499 A JP 2010550499A JP 2010550499 A JP2010550499 A JP 2010550499A JP 5605574 B2 JP5605574 B2 JP 5605574B2
Authority
JP
Japan
Prior art keywords
channel
section
crosstalk
voice
overlap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010550499A
Other languages
English (en)
Other versions
JPWO2010092914A1 (ja
Inventor
剛範 辻川
亮輔 磯谷
正 江森
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010550499A priority Critical patent/JP5605574B2/ja
Publication of JPWO2010092914A1 publication Critical patent/JPWO2010092914A1/ja
Application granted granted Critical
Publication of JP5605574B2 publication Critical patent/JP5605574B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、多チャンネル音響信号処理方法、そのシステム及びプログラムに関する。
関連する多チャンネル音響信号処理システムの一例が、特許文献1に記載されている。この装置は、任意に配置された複数のマイクロホンで収音した複数の話者の音声および雑音の混合音響信号から目的外音声、背景雑音を除去することにより目的音声を抽出するシステムである。また、上記混合音響信号から目的音声を検出するシステムでもある。
図8は、特許文献1に開示されている雑音除去システムの構成を示すブロック図である。その雑音除去システムにおける混合音響信号から目的音声を検出する箇所について構成および動作を概説する。複数のチャンネルの入力時系列信号を受けて分離する信号分離部101と、信号分離部101から出力される分離信号を受け強度比計算部106からの強度比に基づき雑音を推定する雑音推定部102と、信号分離部101から出力される分離信号と、雑音推定部102で推定された雑音成分と、強度比計算部106の出力を受けて雑音区間/音声区間を検出する雑音区間検出部103とを有する。
特開2005−308771号公報(図1)
特許文献1に記載の雑音除去システムは、任意に配置された複数のマイクロホンで収音した複数の話者の音声および雑音の混合音響信号から目的音声を検出、抽出することを意図したものであるが、下記の課題を有していった。
その課題は、混合音響信号から目的音声を効率的に検出、抽出することができないことである。
その理由は、目的音声を抽出する信号分離部101の出力を用いて、雑音区間/音声区間を検出する構成となっているためである。例えば図1のような話者A、BとマイクロホンA、Bの配置を想定し、マイクロホンA、Bで収音した話者A、Bの混合音響信号から話者A、Bの音声をそれぞれ検出、抽出することを考える。マイクロホンAと話者Aの間の距離は、マイクロホンAと話者Bの間の距離と近いため、マイクロホンAには話者Aと話者Bとの音声が近い割合で混入する(図2を参照)。
しかし、マイクロホンBと話者Aとの間の距離は、マイクロホンBと話者Bとの間の距離に比べて遠いため、マイクロホンBに混入する話者Aの音声は、話者Bの音声に比べて少ない(図2を参照)。すなわち、マイクロホンAに含まれる話者Aの音声とマイクロホンBに含まれる話者Bの音声とを抽出するために、マイクロホンAに混入する話者Bの音声(話者Bによるクロストーク)を除去する必要度は高く、マイクロホンBに混入する話者Aの音声(話者Aによるクロストーク)を除去する必要度は低い。
従って、除去の必要度が異なる場合に、信号分離部101においてマイクロホンAとマイクロホンBとで収音した混合音響信号に対して同じ処理を行うことは非効率的であった。
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、多チャンネルの入力信号から効率的にクロストークを除去できる多チャンネル音響信号処理方法、そのシステム及びプログラムを提供することにある。
上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、前記話者ごと、又は、前記チャンネルごとの音声区間を検出し、チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去することを特徴とする多チャンネル音響信号処理方法である。
上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出部と、チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部とを有することを特徴とする多チャンネル音響信号処理システムである。
上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理のプログラムであって、前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出処理と、チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理とを情報処理装置に実行させることを特徴とするプログラムである。
本発明は、影響が小さいクロストークを除去するための計算を省くことができるため、効率的にクロストークを除去することができる。
図1は本発明の課題を説明するためのマイクロホン、話者配置図である。 図2はクロストーク、オーバーラップ区間を説明する為の図である。 図3は本発明の実施の形態の構成を示すブロック図である。 図4は本発明の実施の形態の動作を示す流れ図である。 図5は多チャンネル音声検出部1で検出される音声区間とチャンネル間のクロストークを示す図である。 図6はオーバーラップ区間検出部2で検出するオーバーラップ区間を示す図である。 図7は特徴量算出部3−1〜3−Nで特徴量を算出する区間を示す図である。 図8は関連する雑音除去システムの構成を示すブロック図である。
本発明の実施の形態について詳細に説明する。
図3は、本発明の多チャンネル音響信号処理システムの構成例を示すブロック図である。図3に例示する多チャンネル音響信号処理システムは、入力信号1〜Mをそれぞれ受けて、複数のチャンネルの入力信号における複数の各話者の音声を各々いずれか1つのチャンネルで検出する多チャンネル音声検出部1と、検出された複数の話者の音声区間のオーバーラップ区間を検出するオーバーラップ区間検出部2と、少なくとも音声が検出された複数のチャンネル毎に特徴量を算出する特徴量算出部3−1〜3−Nと、前記オーバーラップ区間を含まない音声区間における複数のチャンネルの特徴量を少なくとも受けてクロストークの影響の大小を推定するクロストーク量推定部4と、影響が大きいクロストークを除去するクロストーク除去部5と、を有する。
図4は、本発明の実施の形態に係る多チャンネル音響信号処理システムにおける処理手順を示す流れ図である。図3および図4を参照して、本実施の形態の多チャンネル音響信号処理システムの詳細について以下に説明する。
入力信号1〜Mをそれぞれx1(t)〜xM(t)とする。ただし、tは時間のインデックスである。多チャンネル音声検出部1では、入力信号1〜Mから、複数のチャンネルの入力信号における複数の各話者の音声を各々いずれか1つのチャンネルで検出する(ステップS1)。例として、チャンネル1〜Nで異なる音声が検出されたとし、その音声区間の信号を以下のように表す。
x1(ts1-te1)
x2(ts2-te2)
x3(ts3-te3)



xN(tsN-teN)
ここで、ts1、ts2、ts3、・・・、tsNは、チャンネル1〜Nで検出された音声区間の始端時刻であり、te1、te2、te3、・・・、teNは、チャンネル1〜Nで検出された音声区間の終端時刻である(図5を参照)。
尚、多チャンネル音声検出部1には複数の入力信号を用いて、話者の音声を検出する従来の手法を用いてもよいし、チャンネルと対応付けされたマイクスイッチのON、OFF信号により検出してもよい。
次に、オーバーラップ区間検出部2は、チャンネル1〜Nで検出された音声区間の始端、終端の時刻情報を受けて、オーバーラップ区間を検出する(ステップS2)。オーバーラップ区間は、チャンネル1〜N間で、検出された音声区間が共通する区間であり、図6に示すようにts1、ts2、ts3、…、tsNおよびte1、te2、te3、…、teNの大小関係から検出できる。例えば、チャンネル1とチャンネルNとの間で検出された音声区間が共通する区間は、tsN〜te1であり、この区間がオーバーラップ区間である。また、チャンネル2とチャンネルNとの間で検出された音声区間が共通する区間は、ts2〜teNであり、この区間がオーバーラップ区間である。また、チャンネル2とチャンネル3との間で、検出された音声区間が共通する区間は、ts3〜te3であり、この区間がオーバーラップ区間である。
次に、特徴量算出部3−1〜3−Nでは、入力信号1〜Nから、それぞれ特徴量1〜Nを算出する(ステップS3)。
F1(T) = [f11(T) f12(T) … f1L(T)] … (1-1)
F2(T) = [f21(T) f22(T) … f2L(T)] … (1-2)



FN(T) = [fN1(T) fN2(T) … fNL(T)] … (1-N)
ここで、F1(T)〜FN(T)は入力信号1〜Nから算出した特徴量1〜Nである。Tは時間のインデックスであり、複数のtを1つの区間とし、その時間区間におけるインデックスとしてTを用いてもよい。数式(1-1)〜(1-N)に示すように、特徴量F1(T)〜FN(T)は、それぞれL次元(Lは1以上の値)の特徴量の要素を持つベクトルとして構成される。特徴量の要素としては、例えば、時間波形(入力信号)、平均パワーなどの統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度(エントロピーを含む)、音素・音節認識結果などが考えられる。
上記の通り、入力信号1〜Nから直接求める特徴量だけでなく、音響モデルというある基準に対するチャンネル毎の値を特徴量とすることも可能である。なお、上記の特徴量は一例であり、その他の特徴量でも良いことはもちろんである。また特徴量を算出する区間は、少なくとも音声が検出された複数のチャンネルの音声区間全てとしてもよいが、特徴量の算出のための計算量を削減するため、以下の区間で特徴量を算出することが望ましい。
第1のチャンネルで特徴量を算出する場合、以下の(1)+(2)−(3)の区間であることが望ましい。
(1)第1のチャンネルで検出された第1の音声区間
(2)その第1の音声区間と共通するオーバーラップ区間を有する、第nのチャンネルの第nの音声区間
(3)第nの音声区間のうち、第1の音声区間以外の第mのチャンネルの第mの音声区間とのオーバーラップ区間
図7を例として参照し、上記特徴量の算出区間について説明する。
<チャンネル1が第1のチャンネルの場合>
(1)チャンネル1の音声区間=(ts1〜te1)
(2)チャンネル1の音声区間と共通するオーバーラップ区間を有するチャンネルNの音声区間=(tsN〜teN)
(3)チャンネルNの音声区間のうち、チャンネル1の音声区間以外のチャンネル2の音声区間とのオーバーラップ区間=(ts2〜teN)
(1)+(2)−(3)=(ts1〜ts2)の区間の特徴量を算出する。
<チャンネル2が第1のチャンネルの場合>
(1)チャンネル2の音声区間=(ts2〜te2)
(2)チャンネル2の音声区間と共通するオーバーラップ区間を有するチャンネル3、Nの音声区間=(ts3〜te3、tsN〜teN)
(3)チャンネル3、Nの音声区間のうち、チャンネル2の音声区間以外のチャンネル1の音声区間とのオーバーラップ区間=(tsN〜te1)
(1)+(2)−(3)=(te1〜te2)の区間の特徴量を算出する。
<チャンネル3が第1のチャンネルの場合>
(1)チャンネル3の音声区間=(ts3〜te3)
(2)チャンネル3の音声区間と共通するオーバーラップ区間を有するチャンネル2の音声区間=(ts2〜te2)
(3)チャンネル2の音声区間のうち、チャンネル3の音声区間以外のチャンネルNの音声区間とのオーバーラップ区間=(ts2〜teN)
(1)+(2)−(3)=(teN〜te2)の区間の特徴量を算出する。
<チャンネルNが第1のチャンネルの場合>
(1)チャンネルNの音声区間=(tsN〜teN)
(2)チャンネルNの音声区間と共通するオーバーラップ区間を有するチャンネル1、2の音声区間=(ts1〜te1、ts2〜te2)
(3)チャンネル1、2の音声区間のうち、チャンネルNの音声区間以外のチャンネル3の音声区間とのオーバーラップ区間=(ts3〜te3)
(1)+(2)−(3)=(ts1〜ts3、te3〜te2)の区間の特徴量を算出する。
次に、クロストーク量推定部4は、第1のチャンネルの第1の音声と共通のオーバーラップ区間を有する第nのチャンネルの第nの音声によるクロストークが、第1のチャンネルの第1の音声に与える影響の大小を推定する(ステップS4)。図7を例とし、説明する。第1のチャンネルをチャンネル1とした場合、チャンネル1で検出された音声(音声区間はts1〜te1)と共通のオーバーラップ区間を有するチャンネルNの音声によるクロストークが、チャンネル1の音声に与える影響の大小を推定する。推定方法には以下のような方法が考えられる。
<推定方法1>
オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル1の特徴量とチャンネルNの特徴量とを比較する。そして、特徴量が近ければ、チャンネルNの音声がチャンネル1に与える影響が大きいと推定する。
例えば、区間te1〜ts2におけるチャンネル1とチャンネルNとのパワーを比較する。そして、チャンネルNのパワーとチャンネル1のパワーが近ければ、チャンネルNの音声がチャンネル1に与える影響が大きいと推定する。また、チャンネル1のパワーがチャンネルNのパワーより十分大きければ、チャンネルNの音声がチャンネル1に与える影響が小さいと推定する。このように所定の特徴量の相関値を求めることにより、影響を推定する。
<推定方法2>
まず、区間tsN〜te1におけるチャンネル1とチャンネルNとの特徴量の差分を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル1とチャンネルNとの特徴量の差分を計算する。そして、上記2つの差分を比較し、差分の違いが少なければ、チャンネルNの音声がチャンネル1に与える影響が大きいと推定する。
<推定方法3>
オーバーラップ区間を含まない音声区間である区間ts1〜tsNにおけるチャンネル1とNのパワー比を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル1とNのパワー比を計算する。そして、上記2つのパワー比と、区間tsN〜te1におけるチャンネル1のパワー、チャンネルNのパワーを用いて、連立方程式を解くことにより、オーバーラップ区間tsN〜te1における、チャンネル1の音声とチャンネルNの音声によるクロストークのパワーを計算する。チャンネル1の音声のパワーとクロストークのパワーが近ければ、チャンネルNの音声がチャンネル1に与える影響が大きいと推定する。
以上の如く、オーバーラップ区間を含まない音声区間を少なくとも用いて、チャンネル間の特徴量に基づく比、相関値、距離値により、クロストークの影響を推定する。
クロストーク量推定部4において、上述した推定方法に限らず、オーバーラップ区間を含まない音声区間を少なくとも用いれば、他の方法によりクロストークの影響を推定してもよいことはもちろんである。尚、図7のチャンネル3の音声区間はチャンネル2の音声区間に包含されているため、チャンネル3の音声によるクロストークがチャンネル2に与える影響の大小を推定することは難しい。このように推定が困難な場合は、事前に決めたルール(例えば、影響が大きいと判定するなど)に従えばよい。
最後にクロストーク除去部5では、クロストーク量推定部4において、クロストークにより与えられる影響が大きい、またはクロストークとして与える影響が大きいと推定された複数のチャンネルの入力信号を受けて、クロストークを除去する(ステップS5)。クロストークの除去は、独立成分分析に基づく手法や、2乗誤差最小化に基づく手法などを適宜用いればよい。また、クロストークを除去する区間は、少なくともオーバーラップ区間であればよい。例えば、区間te1〜ts2におけるチャンネル1とチャンネルNとのパワーを比較し、チャンネルNの音声がチャンネル1に与える影響が大きいと推定された場合、チャンネルNによるクロストークの処理対象の区間を、チャンネル1の音声区間(ts1〜te1)のうちオーバーラップ区間(tsN〜te1)とし、他の区間に対してはクロストークの処理対象とはせず、単に音声を除去するようにする。このようにすれば、クロストークの処理対象が減り、クロストークの処理の負担が軽減できる。
以上の如く、本実施の形態では、複数の話者の音声区間のオーバーラップ区間を検出し、検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定している。特に、前記オーバーラップ区間を含まない音声区間における複数のチャンネルの特徴量を少なくとも用いて、クロストークの影響の大小を推定し、影響が大きいクロストークを除去している。そのため、影響が小さいクロストークを除去するための計算を省くことができ、効率的にクロストークを除去することが可能となる。
尚、上記実施の形態では、区間を時間に対する区間として説明したが、周波数に対する区間としてもよいし、時間・周波数に対する区間としてもよい。例えば、時間・周波数に対する区間とした場合におけるオーバーラップ区間とは、時間と周波数が同じ区間で音声がオーバーラップする区間となる。
また、上述した実施の形態において、多チャンネル音声検出部1と、オーバーラップ区間検出部2と、特徴量算出部3−1〜3−Nと、クロストーク量推定部4と、クロストーク除去部5とをハードウェアで構成したが、それらの全部又は一部をプログラムで動作する情報処理装置により構成することもできる。
尚、上記の実施の形態の内容は、以下のようにも表現することができる。
[付記1] 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
前記話者ごと、又は、前記チャンネルごとの音声区間を検出し、
チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
ことを特徴とする多チャンネル音響信号処理方法。
[付記2] 前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、
クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とする
ことを特徴とする付記1に記載の多チャンネル音響信号処理方法。
[付記3] 前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記2に記載の多チャンネル音響信号処理方法。
[付記4] 前記各チャンネルに対して前記特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記3に記載の多チャンネル音響信号処理方法。
[付記5] 前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする付記3又は付記4に記載の多チャンネル音響信号処理方法。
[付記6] 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む付記2から付記5のいずれかに記載の多チャンネル音響信号処理方法。
[付記7] 前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする付記1から付記6のいずれかに記載の多チャンネル音響信号処理方法。
[付記8] 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出部と、
チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
を有することを特徴とする多チャンネル音響信号処理システム。
[付記9] 前記クロストーク処理対象決定部は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする付記8に記載の多チャンネル音響信号処理システム。
[付記10] 前記クロストーク処理対象決定部は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記9に記載の多チャンネル音響信号処理システム。
[付記11] 前記クロストーク処理対象決定部は、前記各チャンネルに対して前記特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記10に記載の多チャンネル音響信号処理システム。
[付記12] 前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする付記10又は付記11に記載の多チャンネル音響信号処理システム。
[付記13] 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む付記9から付記12のいずれかに記載の多チャンネル音響信号処理システム。
[付記14] 前記音声検出部は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする付記8から付記13のいずれかに記載の多チャンネル音響信号処理システム。
[付記15] 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理のプログラムであって、
前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出処理と、
チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
を情報処理装置に実行させることを特徴とするプログラム。
[付記16] 前記クロストーク処理対象決定処理は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする付記15に記載のプログラム。
[付記17] 前記クロストーク処理対象決定処理は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記16に記載のプログラム。
[付記18] 前記クロストーク処理対象決定処理は、前記各チャンネルに対して前記特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記17に記載のプログラム。
[付記19] 前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする付記17又は付記18に記載のプログラム。
[付記20] 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む付記16から付記19のいずれかに記載のプログラム。
[付記21] 前記音声検出処理は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする付記16から付記20のいずれかに記載のプログラム。
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
本出願は、2009年2月13日に出願された日本出願特願2009−031110号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号を分離する多チャンネル音響信号処理装置や、多チャンネル音響信号処理装置をコンピュータに実現するためのプログラムといった用途に適用できる。
1 多チャンネル音声検出部
2 オーバーラップ区間検出部
3−1〜3−N 特徴量算出部
4 クロストーク量推定部
5 クロストーク除去部

Claims (15)

  1. 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
    前記チャンネルごとの音声区間を検出し、
    チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
    共通するオーバーラップ区間を有するチャンネルにおける前記オーバーラップ区間を含まない音声区間を少なくとも含む入力信号、または、その入力信号から計算される特徴量を用いて、前記共通するオーバーラップ区間を有するチャンネル間のクロストークの影響を推定し、クロストークの影響が大きいチャンネルと、当該チャンネルにて前記検出されたオーバーラップ区間から特定される区間とを、クロストーク除去処理対象とし、
    前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
    ことを特徴とする多チャンネル音響信号処理方法。
  2. 第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間との、入力信号、または、その入力信号から計算される特徴量を用いて、クロストークの影響を推定することを特徴とする
    請求項1に記載の多チャンネル音響信号処理方法。
  3. 前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項1又は請求項2に記載の多チャンネル音響信号処理方法。
  4. 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項1から請求項3のいずれかに記載の多チャンネル音響信号処理方法。
  5. 前記チャンネルごとの音声区間の検出は、前記複数のチャンネル間で同一の音声を重複して検出しないように、前記チャンネルごとの音声区間を検出することを特徴とする請求項1から請求項4のいずれかに記載の多チャンネル音響信号処理方法。
  6. 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
    前記チャンネルごとの音声区間を検出する音声検出部と、
    チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
    共通するオーバーラップ区間を有するチャンネルにおける前記オーバーラップ区間を含まない音声区間を少なくとも含む入力信号、または、その入力信号から計算される特徴量を用いて、前記共通するオーバーラップ区間を有するチャンネル間のクロストークの影響を推定し、クロストークの影響が大きいチャンネルと、当該チャンネルにて前記検出されたオーバーラップ区間から特定される区間とを、クロストーク除去処理対象として決定するクロストーク処理対象決定部と、
    前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
    を有することを特徴とする多チャンネル音響信号処理システム。
  7. 前記クロストーク処理対象決定部は、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間との、入力信号、または、その入力信号から計算される特徴量を用いて、クロストークの影響を推定することを特徴とする請求項6に記載の多チャンネル音響信号処理システム。
  8. 前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項6又は請求項7に記載の多チャンネル音響信号処理システム。
  9. 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項6から請求項8のいずれかに記載の多チャンネル音響信号処理システム。
  10. 前記音声検出部は、前記複数のチャンネル間で同一の音声を重複して検出しないように、前記チャンネルごとの音声区間を検出することを特徴とする請求項6から請求項9のいずれかに記載の多チャンネル音響信号処理システム。
  11. 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理のプログラムであって、
    前記チャンネルごとの音声区間を検出する音声検出処理と、
    チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
    共通するオーバーラップ区間を有するチャンネルにおける前記オーバーラップ区間を含まない音声区間を少なくとも含む入力信号、または、その入力信号から計算される特徴量を用いて、前記共通するオーバーラップ区間を有するチャンネル間のクロストークの影響を推定し、クロストークの影響が大きいチャンネルと、当該チャンネルにて前記検出されたオーバーラップ区間から特定される区間とを、クロストーク除去処理対象として決定するクロストーク処理対象決定処理と、
    前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
    を情報処理装置に実行させることを特徴とするプログラム。
  12. 前記クロストーク処理対象決定処理は、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間との、入力信号、または、その入力信号から計算される特徴量を用いて、クロストークの影響を推定することを特徴とする請求項11に記載のプログラム。
  13. 前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項11又は請求項12に記載のプログラム。
  14. 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項11から請求項13のいずれかに記載のプログラム。
  15. 前記音声検出処理は、前記複数のチャンネル間で同一の音声を重複して検出しないように、前記チャンネルごとの音声区間を検出することを特徴とする請求項11から請求項14のいずれかに記載のプログラム。
JP2010550499A 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム Active JP5605574B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010550499A JP5605574B2 (ja) 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009031110 2009-02-13
JP2009031110 2009-02-13
JP2010550499A JP5605574B2 (ja) 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム
PCT/JP2010/051751 WO2010092914A1 (ja) 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2010092914A1 JPWO2010092914A1 (ja) 2012-08-16
JP5605574B2 true JP5605574B2 (ja) 2014-10-15

Family

ID=42561756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010550499A Active JP5605574B2 (ja) 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム

Country Status (3)

Country Link
US (1) US9009035B2 (ja)
JP (1) JP5605574B2 (ja)
WO (1) WO2010092914A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151036A (zh) * 2020-09-16 2020-12-29 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104205212B (zh) * 2012-03-23 2016-09-07 杜比实验室特许公司 用于减轻听觉场景中的讲话者冲突的方法和装置
CN109600179B (zh) * 2017-09-30 2021-04-27 富士通株式会社 信道间线性串扰的估计方法、装置和接收机
CN109994122B (zh) * 2017-12-29 2023-10-31 阿里巴巴集团控股有限公司 语音数据的处理方法、装置、设备、介质和系统
CN110718238B (zh) * 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 串音数据检测方法、客户端和电子设备
CN110070882B (zh) * 2019-04-12 2021-05-11 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
US11410671B2 (en) 2020-02-21 2022-08-09 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing meihod
JP7486153B2 (ja) 2020-02-28 2024-05-17 パナソニックIpマネジメント株式会社 音声処理装置および音声処理方法
WO2023276159A1 (ja) * 2021-07-02 2023-01-05 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
JP2009020460A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4486793A (en) * 1982-07-19 1984-12-04 Dolby Laboratories Licensing Corporation Reduction of crosstalk effects in modulated audio signals carried in adjacent tracks of recorded media
US4649505A (en) * 1984-07-02 1987-03-10 General Electric Company Two-input crosstalk-resistant adaptive noise canceller
US5208786A (en) * 1991-08-28 1993-05-04 Massachusetts Institute Of Technology Multi-channel signal separation
DE19736517A1 (de) * 1997-08-22 1999-02-25 Alsthom Cge Alcatel Verfahren zur Reduzierung von Störungen bei der Übertragung eines elektrischen Nachrichtensignals
SG97885A1 (en) * 2000-05-05 2003-08-20 Univ Nanyang Noise canceler system with adaptive cross-talk filters
US6771779B1 (en) * 2000-09-28 2004-08-03 Telefonaktiebolaget Lm Ericsson (Publ) System, apparatus, and method for improving speech quality in multi-party devices
US7002897B2 (en) * 2003-04-28 2006-02-21 Solarflare Communications, Inc. Multiple channel interference cancellation
JP4543731B2 (ja) 2004-04-16 2010-09-15 日本電気株式会社 雑音除去方法、雑音除去装置とシステム及び雑音除去用プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
JP2009020460A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151036A (zh) * 2020-09-16 2020-12-29 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备
CN112151036B (zh) * 2020-09-16 2021-07-30 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备

Also Published As

Publication number Publication date
US9009035B2 (en) 2015-04-14
WO2010092914A1 (ja) 2010-08-19
US20120029915A1 (en) 2012-02-02
JPWO2010092914A1 (ja) 2012-08-16

Similar Documents

Publication Publication Date Title
JP5605574B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP5605573B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
US8065115B2 (en) Method and system for identifying audible noise as wind noise in a hearing aid apparatus
US9959886B2 (en) Spectral comb voice activity detection
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
CN107170465B (zh) 一种音频质量检测方法及音频质量检测系统
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
US20110022361A1 (en) Sound processing device, sound processing method, and program
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
US8885839B2 (en) Signal processing method and apparatus
Liu et al. Deep CASA for talker-independent monaural speech separation
US9792898B2 (en) Concurrent segmentation of multiple similar vocalizations
JP2015118361A (ja) 情報処理装置、情報処理方法、及びプログラム
JP3033061B2 (ja) 音声雑音分離装置
JP5605575B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
Kamo et al. Target speech extraction with conditional diffusion model
KR100917460B1 (ko) 잡음제거 장치 및 방법
KR20150061669A (ko) 음성/무음성 구간 검출 방법 및 장치
JP2004325127A (ja) 音源検出方法、音源分離方法、およびこれらを実施する装置
KR101184394B1 (ko) 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법
KR20100056859A (ko) 음성 인식 장치 및 방법
JP4249697B2 (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
JP3787103B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム
KR19980037008A (ko) 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리방법
Taherian et al. Towards Explainable Monaural Speaker Separation with Auditory-based Training

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140812

R150 Certificate of patent or registration of utility model

Ref document number: 5605574

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150