JP6023823B2

JP6023823B2 - 音声信号を混合する方法、装置及びコンピュータプログラム

Info

Publication number: JP6023823B2
Application number: JP2014561192A
Authority: JP
Inventors: スピットル，ゲイリー; ホリアー，マイケル
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2012-03-23
Filing date: 2013-03-21
Publication date: 2016-11-09
Anticipated expiration: 2033-03-21
Also published as: CN104205212A; HK1204134A1; WO2013142727A1; US9502047B2; EP2828849B1; EP2828849A1; US20150012266A1; JP2015511029A; CN104205212B

Description

本願で開示される発明は、概して、音声通信技術に関し、より厳密には、２又はそれ以上の音声信号が夫々の信号の明りょう度を保ちながら結合されることを可能にする音声混合方法に関する。目下、トーカコリジョンが起こると期待される会議開催エンドポイントを含む音声通信装置に本発明を適用することが意図される。

デジタル又はアナログ式の音声会議又はビデオ会議システムのような多者同時音声通信システムは、全ての通信者が一箇所に存在していた場合に聞こえるであろう音響に近づけるよう、異なるシステムエンドポイントから発せられたライブ信号を混合する（例えば、特に、加法混合によって、結合する）。現実の会話におけるよりも音声は分離するのが困難であり且つ理解するのが難しいことは、共通の経験であり、部分的に、多者が音響又は限られた視野角を介してしか対話することができないという事実に起因する。特に、トーカコリジョンは、より頻繁であり得る。

米国特許出願公開第２００８／１４４７９４号明細書（特許文献１）は、オンラインの鍵において話者を分けるという問題を対象とする。特許文献１に従って、当該問題は、概念上話者を仮想環境に置き、そして、仮想環境における彼らの原点に従って音声信号に空間キューを加えることで彼らの距離、方位角及び仰角を聴取者に対してシミュレートすることによって、多少とも解決され得る。特許文献１において論じられている空間キューは、全体的な強さ、耳間の強さの比、直接的な音響と反射された音響との比、頭影方位効果、耳介誘因周波数フィルタリング、並びに同様のモノラル又は両耳性の効果を含む。人の聴覚は、話者が空間において（見たところ）離されている場合に、より容易に発話コリジョンを解決することがよく知られている。
米国特許出願公開第２００９／０１５０１５１号明細書（特許文献２）は、複数のマイクロホンによって拾得されたオーディオ信号を処理し、それらの加法混合を出力する装置を開示している。装置は、特に、異なるオーディオ信号における同時の発話を特定する特定部と、同時の発話のうちの１つをキャッシュするよう動作可能な記憶部とを有する。同時の発話を伴うエピソードの間、アクティブ音声を含む信号の１つは混合されず、代わりに、同時の発話を伴うエピソードが終わるまで記憶部にキャッシュされ得る。エピソードの終了時点で、キャッシュされた音声は、記憶部から取り出され、通常の又は速められた速度で、混合に出力される。

米国特許出願公開第２００８／１４４７９４号明細書米国特許出願公開第２００９／０１５０１５１号明細書

混合された音声信号において発話の明りょう度を高める更なる技術を開発することが望ましい。

本発明の例となる実施形態は、ここで、添付の図面を参照して記載される。
本発明の例となる実施形態に従う音声信号ミキサの一般化されたブロック図である。図１の音声信号ミキサを含む音声通信システムを示す。トーカコリジョンが起こっている時間セグメントにおいて記録されるスペクトルグラム（０．６秒×２１０００Ｈｚ）であり、夫々の音声の明りょう度を高めるよう取られ得る３つの修正措置が説明される。トーカコリジョンを伴う時間セグメントと、コリジョンにかかわらず明りょう度を保つことが可能な２つの時間シフト動作とを概略的に表す波形プロットである。全ての図は、本発明を説明するために必要な部分を概略的且つ一般的にのみ示し、一方、他の部分は省略されるか又は単に示唆され得る。別なふうに示されない限り、同じ参照符号は、異なる図面において同じ部分を参照する。

Ｉ．概要
本発明の目的は、混合された信号において音声信号の明りょう度を改善することである。特に、本発明は、混合された信号によって搬送される発話された自然言語を復号する聴取者の能力に影響を及ぼすと期待される条件を改善することを目的とする。他の目的は、混合された音声信号においてトーカコリジョンを軽減することである。本発明の更なる目的は、混合された音声信号において同時の発話の悪影響を減らすことである。

然るに、本発明の例となる実施形態は、独立請求項において示されている特徴を備えた方法、装置、及びコンピュータプログラムプロダクトを提供する。

例となる実施形態において、システムノードは、共通の時間基準を有する複数の音声信号を受信する。ノードは、２又はそれ以上の音声信号に伴って生じるトーカコリジョンが存在する信号インターバルを検出する。共通の時間基準に基づいて、インターバルが第１若しくは第２の音声信号又は他のうちの１つに関して表されるかどうかは、重要でない。トーカコリジョンが検出される場合に、ノードは、音声信号のうちの１つ（特許請求の範囲では“第１の”音声信号と呼ばれる。）を、その音声信号を知覚的に区別可能にするよう処理する。処理された第１の信号は、その後の混合段への入力として、受信された第１の信号に取って代わり、混合段は、出力信号をノードへ供給する。

共通の時間基準は、入来する音声信号のデータを送信し、それらをシステムワイドのマスタクロック時間に関連付ける時間スタンプを搬送するために使用されるデータパッケージに結びつけられてよい。このように、特定のパケットは、パケットの時間スタンプを搬送するデータフィールドをパースする（又は読む）ことによって、時間基準における点又はインターバルに関連付けられ得る。代替的に、共通の時間基準は、同期信号によって示される。更に代替的に、時間基準は、入来する音声信号に含まれる情報に依存しない。代わりに、音声信号は、連続的に音声信号の夫々からの等しい長さの並列セグメントを結合することによって混合される（このとき、セグメントは、例えば、１つのデータパケットに対応してよい。）。これは、信号間のシンクロニシティ関係を示す。結果として、出力信号の夫々の連続したセグメントは、開始点（例えば、最初のデータパケット）を選択することによって取得され、その後、セグメントは、全てのセグメントが等しい長さ、例えば、２０ミリ秒（ｍｓ）を有するように、通常はタイムストレッチ又はタイムコンプレッションなしで結合される。その場合に、音声信号セグメントの相対位置が共通の時間基準を表す。

パケット化された音声信号において、トーカコリジョンが検出された信号インターバルは、全部のデータパケットの集合に対応してよい。

ノードは、２又はそれ以上の音声信号において同時の音声活動を検出するよう構成されてよい。同時の音声活動を探すことは、共通の時間基準に対して同時である。より限られた検出基準は、夫々の信号の特定の周波数範囲において同時の音声活動を探すことであってよい。代替的に、又は追加的に、ノードは、同時の音声活動を含むインターバルを認め、それらのインターバル内で、音素の特定の組み合わせの存在、有声及び無声発話の組み合わせ、等のような明りょう度の問題を示すと知られている音声信号特性から選択された少なくとも１つの更なる追加的な検出基準を適用する。

第１の音声信号の処理は、その一般的な目的の１つとして、当該信号をより区別可能にすべきである。従って、処理を通じて、信号成分は、衝突する信号からの影響にかかわらず、識別することが可能であり得る。処理は、第１の信号が衝突する信号とより大幅に異なるように第１の信号の特性を変更することを含んでよい。代替的に、又は追加的に、処理は、コリジョンがそれほど深刻でなく且つ情報損失が適度により少なくなるように信号成分を変更することを含んでよい。前者のアプローチに従って、混合された信号は、処理を受けない場合と同量のトーカコリジョンを含み得るが、捕捉された音響波を言語に復号することに関与する認知プロセスを簡単化すると期待されるキューを供給されている。これとは対照的に、後者のアプローチは、人の脳の認識能力に依存せず、混合された信号において重なり合っているコンテンツの量を先験的に減らすと望まれる。

第１の音声信号の処理は、トーカコリジョンを含む信号インターバルにおいてのみ進められてよい。代替的に、処理は、コリジョンインターバルを含むより大きいインターバルに関係してよい。特に、特定の効果がコリジョンインターバルにおいて適用されるべき場合に、処理は、時間にわたる段階的な移行を含んでよく、効果の円滑な開始及び解放を可能にする。

この例となる実施形態は、選択的に処理を適用し、従って、本発明の目的のうちの少なくとも１つを達成することができる。より厳密には、処理は、それが実際に必要とされる時間セグメントに制限されるので、より的を絞った処理が適用され得る。更に、認知されるオーディオ品質に対する如何なる悪影響もそれらのインターバルにおいて限定されるので、ノードは、より革新的な、且つ、場合により、より効率的な処理技術を使用してよい。

前者の１つを更に発展させる例となる実施形態において、処理は、第１の信号からの検出された信号インターバルから（すなわち、トーカコリジョンが起こる）信号成分を取り出し、そのコンテンツを第１の信号の異なるインターバルへ時間シフトすることを含む。適切な目標位置の選択は、時間シフト及び周波数シフトの両実施形態に関し、以下でより詳細に論じられるであろう。

これに関連して、時間シフトは、共通の時間基準に対して信号成分をタイムストレッチすることによって達成されてよい。順方向のシフトを達成するよう、検出されたインターバル内の基準点（例えば、インターバルの開始、中心、終了）のおおよその位置まで延在する信号のセグメントは、負方向のタイムストレッチ（すなわち、遅延）を受け、及び／又は、検出されたインターバル内の基準点のおおよその位置から延在するセグメントは、正方向のタイムストレッチ（すなわち、加速）を受ける。逆方向のシフトを達成するよう、正方向のタイムストレッチセグメントは、負方向のタイムストレッチセグメントに先行する。いずれの場合にも、正方向及び負方向のストレッチは、正味のタイムストレッチが零に近くなるように、相殺してよい。ストレッチの量は、望ましくは、処理を目立たなくするよう、時間にわたって漸進的に変化する。ストレッチは、望ましくは、第１の信号のピッチを変化させない。

代替的に、時間シフトは、検出されたインターバル内の信号成分を隣接する信号インターバルにコピーすることによって達成され得る。隣接する信号インターバルは、検出された信号インターバルと連続している必要はなく、望ましくは、その近くに位置する。速い発話速度（最大で毎秒約１０英語音節）にとって通常は、隣接するインターバルは、望ましくは、検出されたインターバルから多くても５０ミリ秒離れて位置する。この最大存続期間は、望ましくは、より速い発話速度が期待される場合に更に、例えば、２５ミリ秒まで縮められる。信号成分のコピーは、検出されたインターバル内の当該信号成分の除去又は減衰（例えば、ダウンスケーリング）に付随して起こってよい。減衰は、突然の変化を回避するように、望ましくは漸進的であり、その最大限にダウンスケーリングされた部分を、検出されたインターバルに位置付けられる。検出されたインターバルから取り出される信号成分は、加法混合によって、隣接するインターバル内にコピーされてよい。一例として、変換符号化信号において、変換係数の値は、隣接するインターバルに予め存在するものに加えられてよい。追加的に、又は代替的に、隣接するインターバルに予め存在する信号成分は、変換係数が取り出された信号成分によってインクリメントされる前に、予め減衰されてよい。先と同じく、隣接するインターバルの内外への円滑な移動を促すよう、コピーされる信号成分の開始及び／又は解放並びに隣接するインターバルの事前の減衰は、時間とともに漸進的にされる。このような時間シフト技術は、隣接するインターバルと検出されたインターバルとの間で第１の信号において有意なピッチ移動がない場合に、特に有用である。また、証明され得るように、無声（すなわち、無音声又は雑音）発話によって占められたインターバル、例えば、支配的な基本ピッチ周波数がないインターバルにおいて、この技術を使用することが有利であり得る。

例となる実施形態において、処理は、第１の信号からの検出された信号インターバルにおいて（すなわち、トーカコリジョンが起こる）信号成分を取り出し、そのコンテンツを第１の信号の異なるインターバルへ周波数シフトすることを含む。周波数シフトは、任意に、信号成分の時間シフトと組み合わされてよい。望ましくは、周波数シフトは、時間にわたって漸進的に進められる。例えば、シフトは、ランプアップ（ramp-up）フェーズ、一定フェーズ、及びランプダウン（ramp-down）フェーズを含んでよい。ランプアップ及びランプダウンフェーズの間、周波数シフトは、時間にわたって対数周波数単位において線形に変化してよい。周波数シフトが目立ちすぎることを防ぐよう、最大の周波数シフトは、望ましくは、オクターブを越えず、より望ましくは、オクターブの４分の１より小さい。

ここで、時間シフト又は周波数シフトを含む全ての前述の例となる実施形態を参照する。シフトは、検出された信号インターバル内の全部の信号成分に作用してよく、あるいは、代替的に、限られた周波数範囲又は周波数サブレンジの和集合に制限されてよい。シフトは、特に、第１の信号において信号成分をトーカコリジョンの位置から目標の位置へ動かしてよく、このとき、より少ない程度に他の信号の信号成分と衝突することが期待される。

追加的に、又は代替的に、検出された信号インターバルは、第１の音声信号によって搬送される言語構造に従って調整される。特に、第１の信号は、音素に分けられてよい（例えば、検出された信号インターバルを含む部分において）。音素分割のためのコンピュータ支援方法はそれ自体、自然言語処理において知られている。言語分割アルゴリズムは、音素境界により第１の音声信号に注記してよい。パケット化された音声信号において、音素境界は、例えば、パケット境界と一致してよい。この情報に基づき、検出された信号インターバルの左側終点は延長されるか又は切り捨てられ、検出された信号インターバルの右側終点は延長されるか又は切り捨てられ、そのようにして、検出された信号インターバルは完全な音素のみをカバーする。違ったふうに言うと、この延長又は切り捨ての後、検出された信号インターバルの終点は、音素境界のおおよその位置と一致する。このような調整は、時間又は周波数シフトをより目立たなくすると信じられる。

例となる実施形態において、トーカコリジョンの検出は、音声信号の夫々について周波数バンドごとのエネルギ含量のインジケータに基づく。エネルギインジケータは、音声信号を表すビットストリームにおいて容易に利用可能であり得る。例えば、それは、ビットストリームにおいてデータフィールドから読み出され得る。代替的に、エネルギインジケータは、一連の変換係数のような、音声信号を表す量に基づき計算される。インジケータの計算は、聴覚感度曲線に従って重み付けすることを含んでよい。エネルギ含量インジケータに基づき、検出は、第１及び第２の音声信号（すなわち、トーカコリジョンに関与する信号）において同程度のエネルギインジケータを有することを含む条件を適用してよい。そのような同程度のエネルギインジケータが見つけられる位置は、トーカコリジョン位置と特許請求の範囲で呼ばれる。それは、例えば、時間−周波数面において長方形として表されてよく、望ましくは、それは、検出条件（複数を含む。）が満たされると認められた領域と時間−周波数面において同じ形状及びサイズを有する。同程度のエネルギ含量を有するとの条件は、第１の信号のためのエネルギ含量インジケータと第２の信号のためのエネルギ含量インジケータとの間の差に境界を付していることと等価と考えられてよい。本発明者は、２つの信号における同程度の信号エネルギの発生が、明りょう度が低減されるスポットに対応し得ると気付いた。

前述の例となる実施形態の更なる発展において、同程度のエネルギの条件は、エネルギ含量インジケータに関して定式化された追加条件と組み合わされる。追加条件は、エネルギ含量インジケータが全ての衝突信号について所定の閾値を超えるべきであることを規定してよい。本発明者は、信号電力が低い時間セグメント（の周波数範囲）においては概してトーカコリジョンはそれほど憂慮すべきものでないと気付いた。かかるトーカコリジョンは、顕著な損失なしで修正されないままであってよい。

上記のエネルギ含量インジケータは、望ましくは、周波数に依存する。従って、それは、全体の信号エネルギ値のみならず、所与の周波数バンドのための信号エネルギ値の比較を別々に可能にする。特に、音声信号は、時間−周波数タイルに分割されてよい。タイルは、信号の時間フレームにおける複数の所定の周波数ビンの１つであってよい。これに関連して、１又はそれ以上の検出基準は、対応するタイルのグループ、すなわち、異なる音声信号に属し且つ対応する時間及び周波数座標を有するタイルに適用されてよい。よって、時間−周波数タイルは、基本検出単位であり、従って、検出の分解能である。従って、コリジョン位置は、１又はそれ以上の時間−周波数タイルから成る。特に、エネルギ含量インジケータの値は、夫々の時間−周波数タイルについて計算されてよい。

再び、時間シフト又は周波数シフトを含む前述の例となる実施形態が参照される。有利に、（例えば、上記のエネルギ含量インジケータに従って）最小エネルギ含量の条件は、トーカコリジョンに関与する複数の音声信号の中から、処理を受けるべき音声信号を選択するために使用される。本発明者は、この条件が、それほど目立たない時間シフト及び／又は周波数シフトを可能にすることができると気付いた。代替的に、この信号選択は、次に論じられるように、比較的より有利な目標位置の利用可能性によって導かれてよい。

更に、検出されたインターバル内のスペクトル成分がシフトされ得る目標位置は、トーカコリジョンを検出する処理の副産物として取得され得る。目標位置は、第１の音声信号の周波数インターバル（又は周波数サブレンジ）及び時間インターバルの組み合わせとして表されてよい。より厳密には、検出処理は、トーカコリジョン位置に近く且つ検出条件が満たされない目標位置を返すよう構成されてよい。条件が満たされないので、目標位置は、必然的に、トーカコリジョン位置と異なる。時間又は周波数シフトを可能な限りほとんど目立たなくするよう、望ましくは、目標位置は、トーカコリジョン位置から可能な限り近くに位置付けられるべきである。検出処理は、同じ時間インターバル（すなわち、純粋な周波数シフト）を有するか又は同じ周波数インターバル（すなわち、純粋な時間シフト）を有する目標位置を探すよう構成されてよい。追加的に、又は代替的に、検出処理は、一致した時間インターバル又は一致した周波数インターバルを有する目標位置を認めるよう構成されてよい。インターバルの一致は、等しい長さを有することを伴ってよい。特に、２つの周波数インターバルの一致は、オクターブ又はディケイド（decade）のような対数周波数単位において等しい長さを有することを伴ってよい。

先の段落において記載されているものと同様の設定において、検出処理は、１よりも多い候補目標位置を返してよい。その場合に、条件は、シフト距離メトリックに関して、候補目標位置の中から、トーカコリジョン位置をシフトするのにより適する目標位置を選択するために使用されてよい。シフト距離メトリックは、時間シフト距離及び周波数シフト距離の組み合わせ、例えば、ピタゴラス距離であってよい。これに関連して、周波数シフトは、線形単位又は対数単位において表現されてよい。代替的に、周波数シフトの寄与は、知覚的に重み付けされてよく、例えば、線形又は対数周波数単位の関数としてプロットされる聴覚感度曲線の関連したセグメントの下の領域である。シフト距離メトリックへの周波数シフトの寄与は、少なくともシフト量が大きい場合に、周波数シフトが通常はより計算上複雑であり且つ不自然な鳴響であることを考慮すると、時間シフトの寄与よりも相対的に高い重みを与えられてよい。この条件の簡単化されたものは、正方向の純粋な時間（又は周波数）シフトを必要とする目標位置又は負方向の純粋な時間（又は周波数）シフトを必要とする目標位置のいずれか一方を選択するよう適用され得る。すなわち、最短のシフト量（秒、Ｈｚ、オクターブ、又は同様のものにおける。）を必要とする目標位置が選択される。加えて、目標位置及びそれらの関連するシフト距離の利用可能性は、２又はそれ以上の衝突音声信号の中から、処理を受けるべき音声信号を選択するために使用されてよい。別なふうに言うと、“第１の音声信号”としてのステータスは、目標位置が識別されて、シフト距離メトリックに関して評価された後に、割り当てられてよい。上述されたように、シフト距離メトリックは、周波数シフトに関して時間シフトへ与えられるあらゆるプリファレンスを反映してよく、それにより、処理を受けるべき信号の選択は、シフトがどれくらい目立つと期待されるのかを考慮される。これは更に、時間又は周波数シフトの認知されにくさに寄与することができる。

例となる実施形態において、検出されたトーカコリジョンは、調和励振、振動効果、トレモロ、ヴィブラート、コーラス、フランジング、及びフェージングのうちの１つを適用することによって第１の音声信号を処理することで、操作される。処理は、１よりも多い信号に作用してよいが、信号の明確さを進展させるよう、望ましくは、全ての音声信号に作用すべきでない。例えば、この実施形態は、音声信号の第１及び第２のグループを形成することを含んでよく、このとき、第２のグループでなく第１のグループが処理を受けるべきである。望ましくは、トーカコリジョンが検出された２つの音声信号は、異なるグループへ割り当てられる。従って、衝突する信号は、処理に基づいて、より明確になり且つより容易に区別可能となり得る。

例となる実施形態において、トーカコリジョンを軽減しながら音声信号を混合する装置は、コリジョン検出部と、肯定的な検出結果に応答して１又はそれ以上の音声信号を処理するよう動作可能なプロセッサと、音声信号を出力信号へと結合するミキサとを有する。処理を受けた如何なる音声信号も、ミキサへの入力として、受信された同じ音声信号に取って代わる。装置は、任意に、音声信号を受信するインターフェースを有し、更に任意に、装置は、ミキサによって生成された出力信号を供給するインターフェースを有する。

例となる実施形態において、上記の特徴の組み合わせは、ライブ会議システム、すなわち、実時間において動作する会議開催システムにおいて展開される。

従属請求項は、以下でより詳細に記載される本発明の例となる実施形態を定義する。本発明は、たとえ特徴が異なる請求項において挙げられているとしても、特徴の全ての組み合わせに関することが知られる。

ＩＩ．例となる実施形態
図１は、本発明の例となる実施形態に従う音声信号混合装置１００を示す。入力音声信号ｉ１，ｉ２，ｉ３，ｉ４は、インターフェース１０１で受信される。インターフェース１０１は、パケットスイッチドネットワーク（図示せず。）へのネットワークインターフェースであってよく、パケットスイッチドネットワークから、混合装置１００は、パケット化されたビットストリームとして入力音声信号を受信する。混合装置１００において、夫々の入力音声信号ｉ１，ｉ２，ｉ３，ｉ４は、コリジョン検出部１０２、ミキサ１０４及びセレクタ１０５へ供給され、セレクタ１０５は、選択された音声信号ｉ_ｊ（複数を含む。）を、セレクタ１０５の下流に位置するプロセッサ１０３へ転送するよう動作する。図１では、セレクタ１０５は、多投単極スイッチによって象徴的に表されている。本発明は、図１によって示されている簡略化された場合に制限されない。例えば、１よりも多い入力音声信号が、肯定的なトーカコリジョンの検出結果に応答して、処理を受けてよいことが考えられる。

コリジョン検出部１０２は、入力音声信号ｉ１，ｉ２，ｉ３，ｉ４のうちの２又はそれ以上の間でトーカコリジョンが存在する信号インターバルを検出するよう構成される。これを達成するよう、コリジョン検出部１０２は、上述されたように、夫々の音声信号の夫々の時間−周波数タイルについて、同程度のインジケータの値の同時発生を探すよう、エネルギ含量インジケータを導出（すなわち、計算又は読み出し）してよい。検出結果は、プロセッサ１０３及びミキサ１０４へ供給される。肯定的な検出結果に応答して、プロセッサ１０３は、セレクタ１０５によって選択され得る、ｉ_ｊによって表される衝突信号のうちの１つの処理を開始する。プロセッサ１０３は、処理された信号ｆ（ｉ_ｊ）をミキサ１０４へ供給し、ミキサ１０４で、その処理された信号は、入力された信号ｉ_ｊに取って代わる。従って、全ての入力信号からの寄与を含む出力信号を提供するよう、ミキサ１０４は、受信された音声信号ｉ_ｋ（ｊ≠ｋに関する限り）と、処理された音声信号ｆ（ｉ_ｊ）とを加法混合する。ミキサ１０４は、同様に他の組み合わせを生成するよう構成されてよいことが理解される。例えば、ｍ番目のエンドポイントを対象とした分化した出力混合信号からｉ_ｍ（及び該当する場合にはｆ（ｉ_ｍ））を除くことが望まれ得る。

図２に表されるように、上記の音声信号混合装置１００は、エンドポイント２０１，２０２，２０３，２０４を含む会議開催システム２００の部分を形成してよい。入力音声信号ｉ１，ｉ２，ｉ３，ｉ４は、夫々のエンドポイント２０１，２０２，２０３，２０４に配置されているトランスデューサ（例えば、マイクロホン）によって取得されてよい。簡単な構成において、混合装置１００は、全てのエンドポイント２０１，２０２，２０３，２０４に、エンドポイント２０１，２０２，２０３，２０４にある音源（例えば、ラウドスピーカ）によって再生される共通の音声信号ｏ１を供給する。上述されたように、混合装置１００は、代替的に、エンドポイント２０１，２０２，２０３，２０４のサブグループに、個別的な出力混合信号を供給するよう構成されてよい。会議開催システム２００は、純粋な音声通信システム、ビデオ通信システム、又はマルチメディア通信システムであってよい。

図３は、トーカコリジョンの影響を軽減するよう本発明の例となる実施形態によって提案される矯正手段のうちの２つである時間シフト及び周波数シフトを表す。図３は、約２１０００Ｈｚまでの周波数を夫々カバーし且つ約０．６秒（夫々２０ミリ秒の約３０個の時間フレームに対応。）にわたって延在する２つのスペクトルグラムを含み、上側のスペクトルグラムは入力音声信号ｉ１に関し、下側のスペクトルグラムは入力音声信号ｉ２に関する。スペクトルグラムの黒色の領域は、エネルギ含量が零である時間−周波数タイルに対応し、一方、より明るい陰影部は、非零のエネルギ含量を示す。比較的より明るい領域は、比較的より高いエネルギ含量に対応する。例示のために、夫々のスペクトルグラムは、プロットされている時間インターバルにおいて音声信号によって搬送される音素に対応する簡略図記号ＣＲ−ＯＷ―Ｄ−Ｅ−Ｄ、Ｆ−Ｒ−ＩＥ−ＮＤ−Ｓにより注記されている。音声信号における音素の認識は本発明の必須の特徴ではなく、音素境界の位置の認識についても同様であることが繰り返される。

図３によって表されている場合において、トーカコリジョンは、上側のスペクトルグラム（ｉ１信号）において描かれている第１のトーカコリジョン位置３０１において検出されている。コリジョンは、両方の信号に関する条件の達成に基づくので、下側のスペクトルグラム（ｉ２信号）においても、すなわち、両方のスペクトルグラムにおいて等しく描かれている。ｉ１信号のスペクトル成分を第１の目標位置３０２へと時間において順方向にシフトすることが適切であると認められる。第１のトーカコリジョン３０１において開始する矢印は、意図される時間シフトにサイズ及び方向において対応する。第１の目標位置３０２は、ｉ２信号が第１の目標位置で低いエネルギ含量を有することを表すために、下側のスペクトルグラムにおいて描かれている。下側のスペクトルグラムにおいて第１の目標位置３０２を描くという選択は、第１のトーカコリジョン位置３０２からのスペクトル成分がｉ１信号からｉ２信号へ動かされるべきであることを示唆するよう意図されない。しかしながら、場合により、これは、生成されるべき最終の混合信号に対してほとんど影響を有さない。図３におけるトーカコリジョン位置３０１，３１１，３２１の形状は大体であり、コリジョン検出部１０２によって検出基準が満足されると認められた正確な位置に精緻化されてよいことが指摘される。周波数選択によらない簡単化されたアプローチでは、第１のトーカコリジョン位置３０１及び第１の目標位置３０２は、図１において夫々Ｌ_０及びＬ_０’によって表されている２つの一致する時間セグメントであってよい。

目標位置３０２は、トーカコリジョンが検出された領域と一致し且つ検出条件が満足されない時間−周波数面の領域として選択されてよい。条件は、目標位置３０２の全体を通して、又は少なくとも目標位置３０２の所定の割合において、満足され得ない。目標位置３０２は、望ましくは、トーカコリジョン位置３０１の可能な限り近くに位置付けられる。音声信号混合装置１００は、目標位置３０２が絶対的な意味において、すなわち、約５０ミリ秒よりも大きい時間シフト又はオクターブの約半分よりも大きい周波数シフトを示すことなしに、近くに位置付けられ得る限り、時間シフト又は周波数シフトを控えるよう適応されてよい。上述されたように、それらの制限は、特定の状況において更に、例えば、２５ミリ秒及びオクターブの４分の１まで厳しくされてよい。

上述されたように、プロセッサ１０４は、負方向及び次いで正方向の時間シフトを適用することによって、時間シフトを達成してよい。代替的に、時間シフトは、カット・アンド・ペースト（又は減衰及び貼り付け）技術によって達成されてよい。時間シフト動作は、音声信号混合装置１００においてアルゴリズム遅延を招き得ることが理解される。遅延は、ほぼ起こり得る最長の正方向のタイムストレッチ程度である。従って、会議開催システムにおける全体の遅延を著しく増大させないことが期待される。

図３は更に、第２のトーカコリジョン位置３１１及び関連する目標位置３１２を示し、それらの位置は、時間セグメントＬ_１，Ｌ_１’に含まれている。音素に関して、トーカコリジョンは、音素［ｄ］及び［ｓ］の同時の認識に対応する。図に示されるように、第２のトーカコリジョンのための意図される改善措置は、負方向の時間シフトである。

加えて、第３のスペクトルコリジョン位置３２１が下側のスペクトルグラムにおいて描かれている。第３のスペクトルコリジョン位置３２１と同じ時間セグメントＬ_２にある関連する第３の目標位置３２２は、第３のスペクトルコリジョン位置３２１からの信号成分の意図される新たな位置が比較的低いエネルギ含量を有する領域へシフトされることを表すよう、上側のスペクトルグラムにおいて描かれている。図３から分かるように、第３のスペクトルコリジョン位置３２１は、関連する周波数範囲においてｉ１信号が比較的高いエネルギ含量を有するところの時間セグメントによって囲まれており、それにより、正方向及び負方向いずれの時間シフトもコリジョンを解消するのに適切でない。

図４は、ここで、図３に示されているものとは異なる場合における信号の時間依存波形プロットを参照して、より詳細に時間シフト技術を表す。第１及び第２の音声信号ｉ１，ｉ２のいずれも、時間セグメントＬ_１において高いエネルギ含量を有し、音声信号ｉ１の信号成分を時間セグメントＬ_１’へと時間において後方にシフトすることが決定される。時間シフトは、タイムストレッチによって、又はコピー・アンド・ペースト技術を用いて、進められてよい。

処理された信号ｆ（ｉ１）は、タイムストレッチによるアプローチを表し、正方向にストレッチされたセグメントはプラス符号（＋）により注記されており、負方向にストレッチされたセグメントはマイナス符号（−）により注記されており、スペクトル成分の新しい位置はＬ１により注記されている。タイムストレッチは、望ましくは漸進的であるが、非漸進的であってよい。タイムストレッチは、Ｌ_１における信号成分に適用されてもされなくてもよい。タイムストレッチが信号成分に適用されない場合は、正方向のストレッチは、時間セグメントＬ_１（又は同等にＬ_１’）が開始する前に完了され得る。

処理された信号ｇ（ｉ１）は、コピー・アンド・ペーストによるアプローチを表し、セグメントＬ_１から取り出された信号成分は、その新しい位置Ｌ_１’において破線により描かれており、当該位置で、信号成分は、そのインターバルにおいて原の信号成分に加えられる。加えて、同じ信号成分は、その原の振幅の約２５％までセグメントＬ_１のおいて著しく減衰されている。

ＩＩＩ．同等物、拡張、代替物及び他
本発明の更なる実施形態は、上記の説明を検討した後に当業者に明らかになるであろう。たとえ本明細書及び図面が実施形態及び例を開示するとしても、発明はそれらの具体的な例に制限されない。多くの改良及び変形は、添付の特許請求の範囲によって定義される本発明の適用範囲から逸脱することなしに行われ得る。特許請求の範囲において現れる如何なる参照符号も、それらの適用範囲を制限するものとして理解されるべきでない。

上記のシステム及び方法は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせとして実施されてよい。ハードウェア実施において、上記の説明において参照された機能ユニット間のタスクの分割は、必ずしも、物理的なユニットへの分割に対応せず、それとは反対に、１つの物理的な構成要素は複数の機能を備えてよく、１つのタスクは複数の物理的な構成要素によって協働で実行されてよい。特定の構成要素又は全ての構成要素は、デジタル信号プロセッサ若しくはマイクロプロセッサによって実行されるソフトウェアとして実施されるか、又はハードウェアとして若しくは特定用途向け集積回路として実施されてよい。そのようなソフトウェアは、コンピュータ可読媒体において分配されてよく。コンピュータ可読媒体は、コンピュータ記憶媒体（すなわち、非一時的な媒体）及び通信媒体（すなわち、一時的な媒体）を有してよい。当業者によく知られているように、語「コンピュータ記憶媒体」は、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータのような情報の記憶のためのあらゆる方法又は技術において実施される揮発性及び不揮発性両方の取り外し可能な及び取り外し不可能な媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ若しくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタルバーサタイルディスク（ＤＶＤ）若しくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ若しくは他の磁気記憶装置、又は所望の情報を記憶するために使用可能であり且つコンピュータによってアクセス可能な何らかの他の媒体を含むが、それらに限られない。更に、通信媒体は、通常は、搬送波又は他の伝送メカニズムのような変調データ信号においてコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータを具現し、あらゆる情報伝送媒体を含むことが当業者によく知られている。

［関連出願の相互参照］
本願は、２０１２年３月２３日付けで出願された米国特許仮出願第６１／６１４５７７号に基づく優先権を主張するものである。なお、この米国出願は、その全文を参照により本願に援用される。

Claims

音声信号間のトーカコリジョンを低減しながら前記音声信号を混合する方法であって、
２又はそれ以上の音声信号を共通の時間基準により受信するステップと、
前記音声信号のうちの少なくとも第１及び第２の音声信号の間でトーカコリジョンが存在する信号インターバルを検出するステップと、
肯定的な検出結果の場合に、前記音声信号のうちの第１の音声信号を、該第１の音声信号を知覚的に区別できるようにするために処理するステップと、
出力信号を得るよう前記共通の時間基準に従って少なくとも１つの前記処理された音声信号を残りの音声信号と混合するステップと
を有し、
前記検出するステップは、
前記音声信号の夫々について周波数バンドごとのエネルギ含量のインジケータを導出するステップであって、第１の周波数バンドごとのエネルギ含量のインジケータは前記第１の音声信号について導出され、第２の周波数バンドごとのエネルギ含量のインジケータは前記第２の音声信号について導出されるステップと、
前記第１の周波数バンドごとのエネルギ含量のインジケータ及び前記第２の周波数バンドごとのエネルギ含量のインジケータに基づき前記信号インターバル内の周波数サブレンジにおいて前記第１の音声信号及び前記第２の音声信号で同程度のエネルギ含量を検出するよう、前記信号インターバル内の前記周波数サブレンジに対応する前記トーカコリジョンの位置において前記第１の音声信号及び前記第２の音声信号で同程度のエネルギ含量を有することを含む検出条件を適用するステップと
を有し、
前記処理するステップは、該処理するステップが必要とされる時間セグメントに制限され、前記処理するステップは、時間とともに漸進的に前記トーカコリジョンの位置の信号成分を周波数シフトすることを含む、方法。
前記処理するステップは、前記第１の音声信号の前記検出された信号インターバルの信号成分を前記共通の時間基準に対して時間シフトするステップを含む、
請求項１に記載の方法。
前記時間シフトするステップは、前記共通の時間基準に対する一連の正又は負方向のタイムストレッチを前記第１の音声信号に適用するステップを含む、
請求項２に記載の方法。
前記時間シフトするステップは、前記検出された信号インターバルの信号成分を減衰し、前記検出された信号インターバルの前記信号成分を隣接する信号インターバルにコピーするステップを含む、
請求項２に記載の方法。
前記処理するステップは、前記検出された信号インターバルにおける信号成分の周波数サブレンジにのみ作用する、
請求項２乃至４のうちいずれか一項に記載の方法。
シフトするより前に、
前記第１の音声信号の一部を音素に分けるステップと、
完全な音素のみをカバーするよう前記検出された信号インターバルを調整するステップと
を更に有する請求項２乃至５のうちいずれか一項に記載の方法。
前記検出条件は、前記トーカコリジョンの位置において前記第１及び第２の音声信号の両方で所定の閾値を上回るエネルギ含量を有することを更に含む、
請求項１乃至６のうちいずれか一項に記載の方法。
前記音声信号は、時間−周波数タイルに分けられ、該時間−周波数タイルの夫々は、前記周波数バンドごとのエネルギ含量のインジケータの値と関連付けられ、基本検出単位である、
請求項１乃至７のうちいずれか一項に記載の方法。
前記検出された信号インターバルにおいて最小のエネルギ含量を有する音声信号を前記第１の音声信号として選択するステップを更に有し、
前記処理するステップは、前記検出された信号インターバルの信号成分を時間シフト又は周波数シフトすることを含み、前記第１の音声信号に作用する、
請求項１乃至８のうちいずれか一項に記載の方法。
前記検出は、周波数サブレンジ及び信号インターバルの組み合わせであって、前記トーカコリジョンの位置に近く且つ前記検出条件が満たされない少なくとも１つの目標位置を見つけることを更に含み、
前記処理するステップは、前記第１の音声信号の信号成分を前記目標位置に時間シフト又は周波数シフトすることを含む、
請求項１乃至９のうちいずれか一項に記載の方法。
前記検出は、少なくとも２つの目標位置を見つけ、夫々の目標位置について、前記トーカコリジョンの位置に対するシフト距離を示すメトリックを導出することを更に含み、
前記処理するステップは、前記第１の音声信号の信号成分を、前記メトリックが最小である目標位置に時間シフト又は周波数シフトすることを含む、
請求項１０に記載の方法。
第１の目標位置は、純粋な正方向の時間シフト又は純粋な周波数シフトに対応し、第２の目標位置は、純粋な負方向の時間シフト又は純粋な周波数シフトに対応し、
シフト量が最小である目標位置が選択される、
請求項１１に記載の方法。
調和励振、
振動効果、
トレモロ、
ヴィブラート、
コーラス、
フランジング、及び
フェージング
を含むグループ内の効果を前記音声信号の厳密なサブセットにのみ適用することによって、前記音声信号の前記厳密なサブセットを処理するステップを更に有する、
請求項１乃至１２のうちいずれか一項に記載の方法。
ライブ会議システムで実装される、請求項１乃至１３のうちいずれか一項に記載の方法。
コンピュータで実行される場合に、該コンピュータに、請求項１乃至１４のうちいずれか一項に記載の方法を実行させるコンピュータプログラム。
音声信号を混合する装置であって、
１又はそれ以上の音声信号を共通の時間基準により受信するインターフェースと、
前記音声信号のうちの少なくとも第１及び第２の音声信号の間でトーカコリジョンが存在する信号インターバルを検出するコリジョン検出部と、
前記コリジョン検出部から検出結果を受け取り、肯定的な検出結果に応答して、前記音声信号のうちの少なくとも１つの音声信号を、該少なくとも１つの音声信号を知覚的に区別可能にするために処理するプロセッサと、
前記少なくとも１つの処理された音声信号及び残りの音声信号を前記共通の時間基準に対してパースし、それらの信号を然るべく混合して出力信号を供給するミキサと
を有し、
前記コリジョン検出部は、
前記音声信号の夫々について周波数バンドごとのエネルギ含量のインジケータを導出し、第１の周波数バンドごとのエネルギ含量のインジケータは前記第１の音声信号について導出され、第２の周波数バンドごとのエネルギ含量のインジケータは前記第２の音声信号について導出され、
前記第１の周波数バンドごとのエネルギ含量のインジケータ及び前記第２の周波数バンドごとのエネルギ含量のインジケータに基づき前記信号インターバル内の周波数サブレンジにおいて前記第１の音声信号及び前記第２の音声信号で同程度のエネルギ含量を検出するよう、前記信号インターバル内の前記周波数サブレンジに対応する前記トーカコリジョンの位置において前記第１の音声信号及び前記第２の音声信号で同程度のエネルギ含量を有することを含む検出条件を適用する
よう構成され、
前記プロセッサは、該プロセッサによる処理を、該処理が必要とされる時間セグメントに制限されるよう構成され、前記プロセッサは、時間とともに漸進的に前記トーカコリジョンの位置の信号成分を周波数シフトするよう更に構成される、装置。