JP6023823B2 - 音声信号を混合する方法、装置及びコンピュータプログラム - Google Patents

音声信号を混合する方法、装置及びコンピュータプログラム Download PDF

Info

Publication number
JP6023823B2
JP6023823B2 JP2014561192A JP2014561192A JP6023823B2 JP 6023823 B2 JP6023823 B2 JP 6023823B2 JP 2014561192 A JP2014561192 A JP 2014561192A JP 2014561192 A JP2014561192 A JP 2014561192A JP 6023823 B2 JP6023823 B2 JP 6023823B2
Authority
JP
Japan
Prior art keywords
signal
audio signal
audio
time
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014561192A
Other languages
English (en)
Other versions
JP2015511029A (ja
Inventor
スピットル,ゲイリー
ホリアー,マイケル
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2015511029A publication Critical patent/JP2015511029A/ja
Application granted granted Critical
Publication of JP6023823B2 publication Critical patent/JP6023823B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Stereophonic System (AREA)

Description

本願で開示される発明は、概して、音声通信技術に関し、より厳密には、2又はそれ以上の音声信号が夫々の信号の明りょう度を保ちながら結合されることを可能にする音声混合方法に関する。目下、トーカコリジョンが起こると期待される会議開催エンドポイントを含む音声通信装置に本発明を適用することが意図される。
デジタル又はアナログ式の音声会議又はビデオ会議システムのような多者同時音声通信システムは、全ての通信者が一箇所に存在していた場合に聞こえるであろう音響に近づけるよう、異なるシステムエンドポイントから発せられたライブ信号を混合する(例えば、特に、加法混合によって、結合する)。現実の会話におけるよりも音声は分離するのが困難であり且つ理解するのが難しいことは、共通の経験であり、部分的に、多者が音響又は限られた視野角を介してしか対話することができないという事実に起因する。特に、トーカコリジョンは、より頻繁であり得る。
米国特許出願公開第2008/144794号明細書(特許文献1)は、オンラインの鍵において話者を分けるという問題を対象とする。特許文献1に従って、当該問題は、概念上話者を仮想環境に置き、そして、仮想環境における彼らの原点に従って音声信号に空間キューを加えることで彼らの距離、方位角及び仰角を聴取者に対してシミュレートすることによって、多少とも解決され得る。特許文献1において論じられている空間キューは、全体的な強さ、耳間の強さの比、直接的な音響と反射された音響との比、頭影方位効果、耳介誘因周波数フィルタリング、並びに同様のモノラル又は両耳性の効果を含む。人の聴覚は、話者が空間において(見たところ)離されている場合に、より容易に発話コリジョンを解決することがよく知られている。
米国特許出願公開第2009/0150151号明細書(特許文献2)は、複数のマイクロホンによって拾得されたオーディオ信号を処理し、それらの加法混合を出力する装置を開示している。装置は、特に、異なるオーディオ信号における同時の発話を特定する特定部と、同時の発話のうちの1つをキャッシュするよう動作可能な記憶部とを有する。同時の発話を伴うエピソードの間、アクティブ音声を含む信号の1つは混合されず、代わりに、同時の発話を伴うエピソードが終わるまで記憶部にキャッシュされ得る。エピソードの終了時点で、キャッシュされた音声は、記憶部から取り出され、通常の又は速められた速度で、混合に出力される。
米国特許出願公開第2008/144794号明細書 米国特許出願公開第2009/0150151号明細書
混合された音声信号において発話の明りょう度を高める更なる技術を開発することが望ましい。
本発明の例となる実施形態は、ここで、添付の図面を参照して記載される。
本発明の例となる実施形態に従う音声信号ミキサの一般化されたブロック図である。 図1の音声信号ミキサを含む音声通信システムを示す。 トーカコリジョンが起こっている時間セグメントにおいて記録されるスペクトルグラム(0.6秒×21000Hz)であり、夫々の音声の明りょう度を高めるよう取られ得る3つの修正措置が説明される。 トーカコリジョンを伴う時間セグメントと、コリジョンにかかわらず明りょう度を保つことが可能な2つの時間シフト動作とを概略的に表す波形プロットである。 全ての図は、本発明を説明するために必要な部分を概略的且つ一般的にのみ示し、一方、他の部分は省略されるか又は単に示唆され得る。別なふうに示されない限り、同じ参照符号は、異なる図面において同じ部分を参照する。
I.概要
本発明の目的は、混合された信号において音声信号の明りょう度を改善することである。特に、本発明は、混合された信号によって搬送される発話された自然言語を復号する聴取者の能力に影響を及ぼすと期待される条件を改善することを目的とする。他の目的は、混合された音声信号においてトーカコリジョンを軽減することである。本発明の更なる目的は、混合された音声信号において同時の発話の悪影響を減らすことである。
然るに、本発明の例となる実施形態は、独立請求項において示されている特徴を備えた方法、装置、及びコンピュータプログラムプロダクトを提供する。
例となる実施形態において、システムノードは、共通の時間基準を有する複数の音声信号を受信する。ノードは、2又はそれ以上の音声信号に伴って生じるトーカコリジョンが存在する信号インターバルを検出する。共通の時間基準に基づいて、インターバルが第1若しくは第2の音声信号又は他のうちの1つに関して表されるかどうかは、重要でない。トーカコリジョンが検出される場合に、ノードは、音声信号のうちの1つ(特許請求の範囲では“第1の”音声信号と呼ばれる。)を、その音声信号を知覚的に区別可能にするよう処理する。処理された第1の信号は、その後の混合段への入力として、受信された第1の信号に取って代わり、混合段は、出力信号をノードへ供給する。
共通の時間基準は、入来する音声信号のデータを送信し、それらをシステムワイドのマスタクロック時間に関連付ける時間スタンプを搬送するために使用されるデータパッケージに結びつけられてよい。このように、特定のパケットは、パケットの時間スタンプを搬送するデータフィールドをパースする(又は読む)ことによって、時間基準における点又はインターバルに関連付けられ得る。代替的に、共通の時間基準は、同期信号によって示される。更に代替的に、時間基準は、入来する音声信号に含まれる情報に依存しない。代わりに、音声信号は、連続的に音声信号の夫々からの等しい長さの並列セグメントを結合することによって混合される(このとき、セグメントは、例えば、1つのデータパケットに対応してよい。)。これは、信号間のシンクロニシティ関係を示す。結果として、出力信号の夫々の連続したセグメントは、開始点(例えば、最初のデータパケット)を選択することによって取得され、その後、セグメントは、全てのセグメントが等しい長さ、例えば、20ミリ秒(ms)を有するように、通常はタイムストレッチ又はタイムコンプレッションなしで結合される。その場合に、音声信号セグメントの相対位置が共通の時間基準を表す。
パケット化された音声信号において、トーカコリジョンが検出された信号インターバルは、全部のデータパケットの集合に対応してよい。
ノードは、2又はそれ以上の音声信号において同時の音声活動を検出するよう構成されてよい。同時の音声活動を探すことは、共通の時間基準に対して同時である。より限られた検出基準は、夫々の信号の特定の周波数範囲において同時の音声活動を探すことであってよい。代替的に、又は追加的に、ノードは、同時の音声活動を含むインターバルを認め、それらのインターバル内で、音素の特定の組み合わせの存在、有声及び無声発話の組み合わせ、等のような明りょう度の問題を示すと知られている音声信号特性から選択された少なくとも1つの更なる追加的な検出基準を適用する。
第1の音声信号の処理は、その一般的な目的の1つとして、当該信号をより区別可能にすべきである。従って、処理を通じて、信号成分は、衝突する信号からの影響にかかわらず、識別することが可能であり得る。処理は、第1の信号が衝突する信号とより大幅に異なるように第1の信号の特性を変更することを含んでよい。代替的に、又は追加的に、処理は、コリジョンがそれほど深刻でなく且つ情報損失が適度により少なくなるように信号成分を変更することを含んでよい。前者のアプローチに従って、混合された信号は、処理を受けない場合と同量のトーカコリジョンを含み得るが、捕捉された音響波を言語に復号することに関与する認知プロセスを簡単化すると期待されるキューを供給されている。これとは対照的に、後者のアプローチは、人の脳の認識能力に依存せず、混合された信号において重なり合っているコンテンツの量を先験的に減らすと望まれる。
第1の音声信号の処理は、トーカコリジョンを含む信号インターバルにおいてのみ進められてよい。代替的に、処理は、コリジョンインターバルを含むより大きいインターバルに関係してよい。特に、特定の効果がコリジョンインターバルにおいて適用されるべき場合に、処理は、時間にわたる段階的な移行を含んでよく、効果の円滑な開始及び解放を可能にする。
この例となる実施形態は、選択的に処理を適用し、従って、本発明の目的のうちの少なくとも1つを達成することができる。より厳密には、処理は、それが実際に必要とされる時間セグメントに制限されるので、より的を絞った処理が適用され得る。更に、認知されるオーディオ品質に対する如何なる悪影響もそれらのインターバルにおいて限定されるので、ノードは、より革新的な、且つ、場合により、より効率的な処理技術を使用してよい。
前者の1つを更に発展させる例となる実施形態において、処理は、第1の信号からの検出された信号インターバルから(すなわち、トーカコリジョンが起こる)信号成分を取り出し、そのコンテンツを第1の信号の異なるインターバルへ時間シフトすることを含む。適切な目標位置の選択は、時間シフト及び周波数シフトの両実施形態に関し、以下でより詳細に論じられるであろう。
これに関連して、時間シフトは、共通の時間基準に対して信号成分をタイムストレッチすることによって達成されてよい。順方向のシフトを達成するよう、検出されたインターバル内の基準点(例えば、インターバルの開始、中心、終了)のおおよその位置まで延在する信号のセグメントは、負方向のタイムストレッチ(すなわち、遅延)を受け、及び/又は、検出されたインターバル内の基準点のおおよその位置から延在するセグメントは、正方向のタイムストレッチ(すなわち、加速)を受ける。逆方向のシフトを達成するよう、正方向のタイムストレッチセグメントは、負方向のタイムストレッチセグメントに先行する。いずれの場合にも、正方向及び負方向のストレッチは、正味のタイムストレッチが零に近くなるように、相殺してよい。ストレッチの量は、望ましくは、処理を目立たなくするよう、時間にわたって漸進的に変化する。ストレッチは、望ましくは、第1の信号のピッチを変化させない。
代替的に、時間シフトは、検出されたインターバル内の信号成分を隣接する信号インターバルにコピーすることによって達成され得る。隣接する信号インターバルは、検出された信号インターバルと連続している必要はなく、望ましくは、その近くに位置する。速い発話速度(最大で毎秒約10英語音節)にとって通常は、隣接するインターバルは、望ましくは、検出されたインターバルから多くても50ミリ秒離れて位置する。この最大存続期間は、望ましくは、より速い発話速度が期待される場合に更に、例えば、25ミリ秒まで縮められる。信号成分のコピーは、検出されたインターバル内の当該信号成分の除去又は減衰(例えば、ダウンスケーリング)に付随して起こってよい。減衰は、突然の変化を回避するように、望ましくは漸進的であり、その最大限にダウンスケーリングされた部分を、検出されたインターバルに位置付けられる。検出されたインターバルから取り出される信号成分は、加法混合によって、隣接するインターバル内にコピーされてよい。一例として、変換符号化信号において、変換係数の値は、隣接するインターバルに予め存在するものに加えられてよい。追加的に、又は代替的に、隣接するインターバルに予め存在する信号成分は、変換係数が取り出された信号成分によってインクリメントされる前に、予め減衰されてよい。先と同じく、隣接するインターバルの内外への円滑な移動を促すよう、コピーされる信号成分の開始及び/又は解放並びに隣接するインターバルの事前の減衰は、時間とともに漸進的にされる。このような時間シフト技術は、隣接するインターバルと検出されたインターバルとの間で第1の信号において有意なピッチ移動がない場合に、特に有用である。また、証明され得るように、無声(すなわち、無音声又は雑音)発話によって占められたインターバル、例えば、支配的な基本ピッチ周波数がないインターバルにおいて、この技術を使用することが有利であり得る。
例となる実施形態において、処理は、第1の信号からの検出された信号インターバルにおいて(すなわち、トーカコリジョンが起こる)信号成分を取り出し、そのコンテンツを第1の信号の異なるインターバルへ周波数シフトすることを含む。周波数シフトは、任意に、信号成分の時間シフトと組み合わされてよい。望ましくは、周波数シフトは、時間にわたって漸進的に進められる。例えば、シフトは、ランプアップ(ramp-up)フェーズ、一定フェーズ、及びランプダウン(ramp-down)フェーズを含んでよい。ランプアップ及びランプダウンフェーズの間、周波数シフトは、時間にわたって対数周波数単位において線形に変化してよい。周波数シフトが目立ちすぎることを防ぐよう、最大の周波数シフトは、望ましくは、オクターブを越えず、より望ましくは、オクターブの4分の1より小さい。
ここで、時間シフト又は周波数シフトを含む全ての前述の例となる実施形態を参照する。シフトは、検出された信号インターバル内の全部の信号成分に作用してよく、あるいは、代替的に、限られた周波数範囲又は周波数サブレンジの和集合に制限されてよい。シフトは、特に、第1の信号において信号成分をトーカコリジョンの位置から目標の位置へ動かしてよく、このとき、より少ない程度に他の信号の信号成分と衝突することが期待される。
追加的に、又は代替的に、検出された信号インターバルは、第1の音声信号によって搬送される言語構造に従って調整される。特に、第1の信号は、音素に分けられてよい(例えば、検出された信号インターバルを含む部分において)。音素分割のためのコンピュータ支援方法はそれ自体、自然言語処理において知られている。言語分割アルゴリズムは、音素境界により第1の音声信号に注記してよい。パケット化された音声信号において、音素境界は、例えば、パケット境界と一致してよい。この情報に基づき、検出された信号インターバルの左側終点は延長されるか又は切り捨てられ、検出された信号インターバルの右側終点は延長されるか又は切り捨てられ、そのようにして、検出された信号インターバルは完全な音素のみをカバーする。違ったふうに言うと、この延長又は切り捨ての後、検出された信号インターバルの終点は、音素境界のおおよその位置と一致する。このような調整は、時間又は周波数シフトをより目立たなくすると信じられる。
例となる実施形態において、トーカコリジョンの検出は、音声信号の夫々について周波数バンドごとのエネルギ含量のインジケータに基づく。エネルギインジケータは、音声信号を表すビットストリームにおいて容易に利用可能であり得る。例えば、それは、ビットストリームにおいてデータフィールドから読み出され得る。代替的に、エネルギインジケータは、一連の変換係数のような、音声信号を表す量に基づき計算される。インジケータの計算は、聴覚感度曲線に従って重み付けすることを含んでよい。エネルギ含量インジケータに基づき、検出は、第1及び第2の音声信号(すなわち、トーカコリジョンに関与する信号)において同程度のエネルギインジケータを有することを含む条件を適用してよい。そのような同程度のエネルギインジケータが見つけられる位置は、トーカコリジョン位置と特許請求の範囲で呼ばれる。それは、例えば、時間−周波数面において長方形として表されてよく、望ましくは、それは、検出条件(複数を含む。)が満たされると認められた領域と時間−周波数面において同じ形状及びサイズを有する。同程度のエネルギ含量を有するとの条件は、第1の信号のためのエネルギ含量インジケータと第2の信号のためのエネルギ含量インジケータとの間の差に境界を付していることと等価と考えられてよい。本発明者は、2つの信号における同程度の信号エネルギの発生が、明りょう度が低減されるスポットに対応し得ると気付いた。
前述の例となる実施形態の更なる発展において、同程度のエネルギの条件は、エネルギ含量インジケータに関して定式化された追加条件と組み合わされる。追加条件は、エネルギ含量インジケータが全ての衝突信号について所定の閾値を超えるべきであることを規定してよい。本発明者は、信号電力が低い時間セグメント(の周波数範囲)においては概してトーカコリジョンはそれほど憂慮すべきものでないと気付いた。かかるトーカコリジョンは、顕著な損失なしで修正されないままであってよい。
上記のエネルギ含量インジケータは、望ましくは、周波数に依存する。従って、それは、全体の信号エネルギ値のみならず、所与の周波数バンドのための信号エネルギ値の比較を別々に可能にする。特に、音声信号は、時間−周波数タイルに分割されてよい。タイルは、信号の時間フレームにおける複数の所定の周波数ビンの1つであってよい。これに関連して、1又はそれ以上の検出基準は、対応するタイルのグループ、すなわち、異なる音声信号に属し且つ対応する時間及び周波数座標を有するタイルに適用されてよい。よって、時間−周波数タイルは、基本検出単位であり、従って、検出の分解能である。従って、コリジョン位置は、1又はそれ以上の時間−周波数タイルから成る。特に、エネルギ含量インジケータの値は、夫々の時間−周波数タイルについて計算されてよい。
再び、時間シフト又は周波数シフトを含む前述の例となる実施形態が参照される。有利に、(例えば、上記のエネルギ含量インジケータに従って)最小エネルギ含量の条件は、トーカコリジョンに関与する複数の音声信号の中から、処理を受けるべき音声信号を選択するために使用される。本発明者は、この条件が、それほど目立たない時間シフト及び/又は周波数シフトを可能にすることができると気付いた。代替的に、この信号選択は、次に論じられるように、比較的より有利な目標位置の利用可能性によって導かれてよい。
更に、検出されたインターバル内のスペクトル成分がシフトされ得る目標位置は、トーカコリジョンを検出する処理の副産物として取得され得る。目標位置は、第1の音声信号の周波数インターバル(又は周波数サブレンジ)及び時間インターバルの組み合わせとして表されてよい。より厳密には、検出処理は、トーカコリジョン位置に近く且つ検出条件が満たされない目標位置を返すよう構成されてよい。条件が満たされないので、目標位置は、必然的に、トーカコリジョン位置と異なる。時間又は周波数シフトを可能な限りほとんど目立たなくするよう、望ましくは、目標位置は、トーカコリジョン位置から可能な限り近くに位置付けられるべきである。検出処理は、同じ時間インターバル(すなわち、純粋な周波数シフト)を有するか又は同じ周波数インターバル(すなわち、純粋な時間シフト)を有する目標位置を探すよう構成されてよい。追加的に、又は代替的に、検出処理は、一致した時間インターバル又は一致した周波数インターバルを有する目標位置を認めるよう構成されてよい。インターバルの一致は、等しい長さを有することを伴ってよい。特に、2つの周波数インターバルの一致は、オクターブ又はディケイド(decade)のような対数周波数単位において等しい長さを有することを伴ってよい。
先の段落において記載されているものと同様の設定において、検出処理は、1よりも多い候補目標位置を返してよい。その場合に、条件は、シフト距離メトリックに関して、候補目標位置の中から、トーカコリジョン位置をシフトするのにより適する目標位置を選択するために使用されてよい。シフト距離メトリックは、時間シフト距離及び周波数シフト距離の組み合わせ、例えば、ピタゴラス距離であってよい。これに関連して、周波数シフトは、線形単位又は対数単位において表現されてよい。代替的に、周波数シフトの寄与は、知覚的に重み付けされてよく、例えば、線形又は対数周波数単位の関数としてプロットされる聴覚感度曲線の関連したセグメントの下の領域である。シフト距離メトリックへの周波数シフトの寄与は、少なくともシフト量が大きい場合に、周波数シフトが通常はより計算上複雑であり且つ不自然な鳴響であることを考慮すると、時間シフトの寄与よりも相対的に高い重みを与えられてよい。この条件の簡単化されたものは、正方向の純粋な時間(又は周波数)シフトを必要とする目標位置又は負方向の純粋な時間(又は周波数)シフトを必要とする目標位置のいずれか一方を選択するよう適用され得る。すなわち、最短のシフト量(秒、Hz、オクターブ、又は同様のものにおける。)を必要とする目標位置が選択される。加えて、目標位置及びそれらの関連するシフト距離の利用可能性は、2又はそれ以上の衝突音声信号の中から、処理を受けるべき音声信号を選択するために使用されてよい。別なふうに言うと、“第1の音声信号”としてのステータスは、目標位置が識別されて、シフト距離メトリックに関して評価された後に、割り当てられてよい。上述されたように、シフト距離メトリックは、周波数シフトに関して時間シフトへ与えられるあらゆるプリファレンスを反映してよく、それにより、処理を受けるべき信号の選択は、シフトがどれくらい目立つと期待されるのかを考慮される。これは更に、時間又は周波数シフトの認知されにくさに寄与することができる。
例となる実施形態において、検出されたトーカコリジョンは、調和励振、振動効果、トレモロ、ヴィブラート、コーラス、フランジング、及びフェージングのうちの1つを適用することによって第1の音声信号を処理することで、操作される。処理は、1よりも多い信号に作用してよいが、信号の明確さを進展させるよう、望ましくは、全ての音声信号に作用すべきでない。例えば、この実施形態は、音声信号の第1及び第2のグループを形成することを含んでよく、このとき、第2のグループでなく第1のグループが処理を受けるべきである。望ましくは、トーカコリジョンが検出された2つの音声信号は、異なるグループへ割り当てられる。従って、衝突する信号は、処理に基づいて、より明確になり且つより容易に区別可能となり得る。
例となる実施形態において、トーカコリジョンを軽減しながら音声信号を混合する装置は、コリジョン検出部と、肯定的な検出結果に応答して1又はそれ以上の音声信号を処理するよう動作可能なプロセッサと、音声信号を出力信号へと結合するミキサとを有する。処理を受けた如何なる音声信号も、ミキサへの入力として、受信された同じ音声信号に取って代わる。装置は、任意に、音声信号を受信するインターフェースを有し、更に任意に、装置は、ミキサによって生成された出力信号を供給するインターフェースを有する。
例となる実施形態において、上記の特徴の組み合わせは、ライブ会議システム、すなわち、実時間において動作する会議開催システムにおいて展開される。
従属請求項は、以下でより詳細に記載される本発明の例となる実施形態を定義する。本発明は、たとえ特徴が異なる請求項において挙げられているとしても、特徴の全ての組み合わせに関することが知られる。
II.例となる実施形態
図1は、本発明の例となる実施形態に従う音声信号混合装置100を示す。入力音声信号i1,i2,i3,i4は、インターフェース101で受信される。インターフェース101は、パケットスイッチドネットワーク(図示せず。)へのネットワークインターフェースであってよく、パケットスイッチドネットワークから、混合装置100は、パケット化されたビットストリームとして入力音声信号を受信する。混合装置100において、夫々の入力音声信号i1,i2,i3,i4は、コリジョン検出部102、ミキサ104及びセレクタ105へ供給され、セレクタ105は、選択された音声信号i(複数を含む。)を、セレクタ105の下流に位置するプロセッサ103へ転送するよう動作する。図1では、セレクタ105は、多投単極スイッチによって象徴的に表されている。本発明は、図1によって示されている簡略化された場合に制限されない。例えば、1よりも多い入力音声信号が、肯定的なトーカコリジョンの検出結果に応答して、処理を受けてよいことが考えられる。
コリジョン検出部102は、入力音声信号i1,i2,i3,i4のうちの2又はそれ以上の間でトーカコリジョンが存在する信号インターバルを検出するよう構成される。これを達成するよう、コリジョン検出部102は、上述されたように、夫々の音声信号の夫々の時間−周波数タイルについて、同程度のインジケータの値の同時発生を探すよう、エネルギ含量インジケータを導出(すなわち、計算又は読み出し)してよい。検出結果は、プロセッサ103及びミキサ104へ供給される。肯定的な検出結果に応答して、プロセッサ103は、セレクタ105によって選択され得る、iによって表される衝突信号のうちの1つの処理を開始する。プロセッサ103は、処理された信号f(i)をミキサ104へ供給し、ミキサ104で、その処理された信号は、入力された信号iに取って代わる。従って、全ての入力信号からの寄与を含む出力信号を提供するよう、ミキサ104は、受信された音声信号i(j≠kに関する限り)と、処理された音声信号f(i)とを加法混合する。ミキサ104は、同様に他の組み合わせを生成するよう構成されてよいことが理解される。例えば、m番目のエンドポイントを対象とした分化した出力混合信号からi(及び該当する場合にはf(i))を除くことが望まれ得る。
図2に表されるように、上記の音声信号混合装置100は、エンドポイント201,202,203,204を含む会議開催システム200の部分を形成してよい。入力音声信号i1,i2,i3,i4は、夫々のエンドポイント201,202,203,204に配置されているトランスデューサ(例えば、マイクロホン)によって取得されてよい。簡単な構成において、混合装置100は、全てのエンドポイント201,202,203,204に、エンドポイント201,202,203,204にある音源(例えば、ラウドスピーカ)によって再生される共通の音声信号o1を供給する。上述されたように、混合装置100は、代替的に、エンドポイント201,202,203,204のサブグループに、個別的な出力混合信号を供給するよう構成されてよい。会議開催システム200は、純粋な音声通信システム、ビデオ通信システム、又はマルチメディア通信システムであってよい。
図3は、トーカコリジョンの影響を軽減するよう本発明の例となる実施形態によって提案される矯正手段のうちの2つである時間シフト及び周波数シフトを表す。図3は、約21000Hzまでの周波数を夫々カバーし且つ約0.6秒(夫々20ミリ秒の約30個の時間フレームに対応。)にわたって延在する2つのスペクトルグラムを含み、上側のスペクトルグラムは入力音声信号i1に関し、下側のスペクトルグラムは入力音声信号i2に関する。スペクトルグラムの黒色の領域は、エネルギ含量が零である時間−周波数タイルに対応し、一方、より明るい陰影部は、非零のエネルギ含量を示す。比較的より明るい領域は、比較的より高いエネルギ含量に対応する。例示のために、夫々のスペクトルグラムは、プロットされている時間インターバルにおいて音声信号によって搬送される音素に対応する簡略図記号CR−OW―D−E−D、F−R−IE−ND−Sにより注記されている。音声信号における音素の認識は本発明の必須の特徴ではなく、音素境界の位置の認識についても同様であることが繰り返される。
図3によって表されている場合において、トーカコリジョンは、上側のスペクトルグラム(i1信号)において描かれている第1のトーカコリジョン位置301において検出されている。コリジョンは、両方の信号に関する条件の達成に基づくので、下側のスペクトルグラム(i2信号)においても、すなわち、両方のスペクトルグラムにおいて等しく描かれている。i1信号のスペクトル成分を第1の目標位置302へと時間において順方向にシフトすることが適切であると認められる。第1のトーカコリジョン301において開始する矢印は、意図される時間シフトにサイズ及び方向において対応する。第1の目標位置302は、i2信号が第1の目標位置で低いエネルギ含量を有することを表すために、下側のスペクトルグラムにおいて描かれている。下側のスペクトルグラムにおいて第1の目標位置302を描くという選択は、第1のトーカコリジョン位置302からのスペクトル成分がi1信号からi2信号へ動かされるべきであることを示唆するよう意図されない。しかしながら、場合により、これは、生成されるべき最終の混合信号に対してほとんど影響を有さない。図3におけるトーカコリジョン位置301,311,321の形状は大体であり、コリジョン検出部102によって検出基準が満足されると認められた正確な位置に精緻化されてよいことが指摘される。周波数選択によらない簡単化されたアプローチでは、第1のトーカコリジョン位置301及び第1の目標位置302は、図1において夫々L及びL’によって表されている2つの一致する時間セグメントであってよい。
目標位置302は、トーカコリジョンが検出された領域と一致し且つ検出条件が満足されない時間−周波数面の領域として選択されてよい。条件は、目標位置302の全体を通して、又は少なくとも目標位置302の所定の割合において、満足され得ない。目標位置302は、望ましくは、トーカコリジョン位置301の可能な限り近くに位置付けられる。音声信号混合装置100は、目標位置302が絶対的な意味において、すなわち、約50ミリ秒よりも大きい時間シフト又はオクターブの約半分よりも大きい周波数シフトを示すことなしに、近くに位置付けられ得る限り、時間シフト又は周波数シフトを控えるよう適応されてよい。上述されたように、それらの制限は、特定の状況において更に、例えば、25ミリ秒及びオクターブの4分の1まで厳しくされてよい。
上述されたように、プロセッサ104は、負方向及び次いで正方向の時間シフトを適用することによって、時間シフトを達成してよい。代替的に、時間シフトは、カット・アンド・ペースト(又は減衰及び貼り付け)技術によって達成されてよい。時間シフト動作は、音声信号混合装置100においてアルゴリズム遅延を招き得ることが理解される。遅延は、ほぼ起こり得る最長の正方向のタイムストレッチ程度である。従って、会議開催システムにおける全体の遅延を著しく増大させないことが期待される。
図3は更に、第2のトーカコリジョン位置311及び関連する目標位置312を示し、それらの位置は、時間セグメントL,L’に含まれている。音素に関して、トーカコリジョンは、音素[d]及び[s]の同時の認識に対応する。図に示されるように、第2のトーカコリジョンのための意図される改善措置は、負方向の時間シフトである。
加えて、第3のスペクトルコリジョン位置321が下側のスペクトルグラムにおいて描かれている。第3のスペクトルコリジョン位置321と同じ時間セグメントLにある関連する第3の目標位置322は、第3のスペクトルコリジョン位置321からの信号成分の意図される新たな位置が比較的低いエネルギ含量を有する領域へシフトされることを表すよう、上側のスペクトルグラムにおいて描かれている。図3から分かるように、第3のスペクトルコリジョン位置321は、関連する周波数範囲においてi1信号が比較的高いエネルギ含量を有するところの時間セグメントによって囲まれており、それにより、正方向及び負方向いずれの時間シフトもコリジョンを解消するのに適切でない。
図4は、ここで、図3に示されているものとは異なる場合における信号の時間依存波形プロットを参照して、より詳細に時間シフト技術を表す。第1及び第2の音声信号i1,i2のいずれも、時間セグメントLにおいて高いエネルギ含量を有し、音声信号i1の信号成分を時間セグメントL’へと時間において後方にシフトすることが決定される。時間シフトは、タイムストレッチによって、又はコピー・アンド・ペースト技術を用いて、進められてよい。
処理された信号f(i1)は、タイムストレッチによるアプローチを表し、正方向にストレッチされたセグメントはプラス符号(+)により注記されており、負方向にストレッチされたセグメントはマイナス符号(−)により注記されており、スペクトル成分の新しい位置はL1により注記されている。タイムストレッチは、望ましくは漸進的であるが、非漸進的であってよい。タイムストレッチは、Lにおける信号成分に適用されてもされなくてもよい。タイムストレッチが信号成分に適用されない場合は、正方向のストレッチは、時間セグメントL(又は同等にL’)が開始する前に完了され得る。
処理された信号g(i1)は、コピー・アンド・ペーストによるアプローチを表し、セグメントLから取り出された信号成分は、その新しい位置L’において破線により描かれており、当該位置で、信号成分は、そのインターバルにおいて原の信号成分に加えられる。加えて、同じ信号成分は、その原の振幅の約25%までセグメントLのおいて著しく減衰されている。
III.同等物、拡張、代替物及び他
本発明の更なる実施形態は、上記の説明を検討した後に当業者に明らかになるであろう。たとえ本明細書及び図面が実施形態及び例を開示するとしても、発明はそれらの具体的な例に制限されない。多くの改良及び変形は、添付の特許請求の範囲によって定義される本発明の適用範囲から逸脱することなしに行われ得る。特許請求の範囲において現れる如何なる参照符号も、それらの適用範囲を制限するものとして理解されるべきでない。
上記のシステム及び方法は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせとして実施されてよい。ハードウェア実施において、上記の説明において参照された機能ユニット間のタスクの分割は、必ずしも、物理的なユニットへの分割に対応せず、それとは反対に、1つの物理的な構成要素は複数の機能を備えてよく、1つのタスクは複数の物理的な構成要素によって協働で実行されてよい。特定の構成要素又は全ての構成要素は、デジタル信号プロセッサ若しくはマイクロプロセッサによって実行されるソフトウェアとして実施されるか、又はハードウェアとして若しくは特定用途向け集積回路として実施されてよい。そのようなソフトウェアは、コンピュータ可読媒体において分配されてよく。コンピュータ可読媒体は、コンピュータ記憶媒体(すなわち、非一時的な媒体)及び通信媒体(すなわち、一時的な媒体)を有してよい。当業者によく知られているように、語「コンピュータ記憶媒体」は、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータのような情報の記憶のためのあらゆる方法又は技術において実施される揮発性及び不揮発性両方の取り外し可能な及び取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ若しくは他のメモリ技術、CD−ROM、デジタルバーサタイルディスク(DVD)若しくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ若しくは他の磁気記憶装置、又は所望の情報を記憶するために使用可能であり且つコンピュータによってアクセス可能な何らかの他の媒体を含むが、それらに限られない。更に、通信媒体は、通常は、搬送波又は他の伝送メカニズムのような変調データ信号においてコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータを具現し、あらゆる情報伝送媒体を含むことが当業者によく知られている。
[関連出願の相互参照]
本願は、2012年3月23日付けで出願された米国特許仮出願第61/614577号に基づく優先権を主張するものである。なお、この米国出願は、その全文を参照により本願に援用される。

Claims (16)

  1. 音声信号間のトーカコリジョンを低減しながら前記音声信号を混合する方法であって、
    2又はそれ以上の音声信号を共通の時間基準により受信するステップと、
    前記音声信号のうちの少なくとも第1及び第2の音声信号の間でトーカコリジョンが存在する信号インターバルを検出するステップと、
    肯定的な検出結果の場合に、前記音声信号のうちの第1の音声信号を、該第1の音声信号を知覚的に区別できるようにするために処理するステップと、
    出力信号を得るよう前記共通の時間基準に従って少なくとも1つの前記処理された音声信号を残りの音声信号と混合するステップと
    を有し、
    前記検出するステップは、
    前記音声信号の夫々について周波数バンドごとのエネルギ含量のインジケータを導出するステップであって、第1の周波数バンドごとのエネルギ含量のインジケータは前記第1の音声信号について導出され、第2の周波数バンドごとのエネルギ含量のインジケータは前記第2の音声信号について導出されるステップと、
    前記第1の周波数バンドごとのエネルギ含量のインジケータ及び前記第2の周波数バンドごとのエネルギ含量のインジケータに基づき前記信号インターバル内の周波数サブレンジにおいて前記第1の音声信号及び前記第2の音声信号で同程度のエネルギ含量を検出するよう、前記信号インターバル内の前記周波数サブレンジに対応する前記トーカコリジョンの位置において前記第1の音声信号及び前記第2の音声信号で同程度のエネルギ含量を有することを含む検出条件を適用するステップと
    を有し、
    前記処理するステップは、該処理するステップが必要とされる時間セグメントに制限され、前記処理するステップは、時間とともに漸進的に前記トーカコリジョンの位置の信号成分を周波数シフトすることを含む、方法。
  2. 前記処理するステップは、前記第1の音声信号の前記検出された信号インターバルの信号成分を前記共通の時間基準に対して時間シフトするステップを含む、
    請求項1に記載の方法。
  3. 前記時間シフトするステップは、前記共通の時間基準に対する一連の正又は負方向のタイムストレッチを前記第1の音声信号に適用するステップを含む、
    請求項2に記載の方法。
  4. 前記時間シフトするステップは、前記検出された信号インターバルの信号成分を減衰し、前記検出された信号インターバルの前記信号成分を隣接する信号インターバルにコピーするステップを含む、
    請求項2に記載の方法。
  5. 前記処理するステップは、前記検出された信号インターバルにおける信号成分の周波数サブレンジにのみ作用する、
    請求項2乃至のうちいずれか一項に記載の方法。
  6. シフトするより前に、
    前記第1の音声信号の一部を音素に分けるステップと、
    完全な音素のみをカバーするよう前記検出された信号インターバルを調整するステップと
    を更に有する請求項2乃至のうちいずれか一項に記載の方法。
  7. 前記検出条件は、前記トーカコリジョンの位置において前記第1及び第2の音声信号の両方で所定の閾値を上回るエネルギ含量を有することを更に含む、
    請求項1乃至のうちいずれか一項に記載の方法。
  8. 前記音声信号は、時間−周波数タイルに分けられ、該時間−周波数タイルの夫々は、前記周波数バンドごとのエネルギ含量のインジケータの値と関連付けられ、基本検出単位である、
    請求項1乃至のうちいずれか一項に記載の方法。
  9. 前記検出された信号インターバルにおいて最小のエネルギ含量を有する音声信号を前記第1の音声信号として選択するステップを更に有し、
    前記処理するステップは、前記検出された信号インターバルの信号成分を時間シフト又は周波数シフトすることを含み、前記第1の音声信号に作用する、
    請求項1乃至のうちいずれか一項に記載の方法。
  10. 前記検出は、周波数サブレンジ及び信号インターバルの組み合わせであって、前記トーカコリジョンの位置に近く且つ前記検出条件が満たされない少なくとも1つの目標位置を見つけることを更に含み、
    前記処理するステップは、前記第1の音声信号の信号成分を前記目標位置に時間シフト又は周波数シフトすることを含む、
    請求項1乃至のうちいずれか一項に記載の方法。
  11. 前記検出は、少なくとも2つの目標位置を見つけ、夫々の目標位置について、前記トーカコリジョンの位置に対するシフト距離を示すメトリックを導出することを更に含み、
    前記処理するステップは、前記第1の音声信号の信号成分を、前記メトリックが最小である目標位置に時間シフト又は周波数シフトすることを含む、
    請求項10に記載の方法。
  12. 第1の目標位置は、純粋な正方向の時間シフト又は純粋な周波数シフトに対応し、第2の目標位置は、純粋な負方向の時間シフト又は純粋な周波数シフトに対応し、
    シフト量が最小である目標位置が選択される、
    請求項11に記載の方法。
  13. 調和励振、
    振動効果、
    トレモロ、
    ヴィブラート、
    コーラス、
    フランジング、及び
    フェージング
    を含むグループ内の効果を前記音声信号の厳密なサブセットにのみ適用することによって、前記音声信号の前記厳密なサブセットを処理するステップを更に有する、
    請求項1乃至12のうちいずれか一項に記載の方法。
  14. ライブ会議システムで実装される、請求項1乃至13のうちいずれか一項に記載の方法。
  15. コンピュータで実行される場合に、該コンピュータに、請求項1乃至14のうちいずれか一項に記載の方法を実行させるコンピュータプログラム。
  16. 音声信号を混合する装置であって、
    1又はそれ以上の音声信号を共通の時間基準により受信するインターフェースと、
    前記音声信号のうちの少なくとも第1及び第2の音声信号の間でトーカコリジョンが存在する信号インターバルを検出するコリジョン検出部と、
    前記コリジョン検出部から検出結果を受け取り、肯定的な検出結果に応答して、前記音声信号のうちの少なくとも1つの音声信号を、該少なくとも1つの音声信号を知覚的に区別可能にするために処理するプロセッサと、
    前記少なくとも1つの処理された音声信号及び残りの音声信号を前記共通の時間基準に対してパースし、それらの信号を然るべく混合して出力信号を供給するミキサと
    を有し、
    前記コリジョン検出部は、
    前記音声信号の夫々について周波数バンドごとのエネルギ含量のインジケータを導出し、第1の周波数バンドごとのエネルギ含量のインジケータは前記第1の音声信号について導出され、第2の周波数バンドごとのエネルギ含量のインジケータは前記第2の音声信号について導出され、
    前記第1の周波数バンドごとのエネルギ含量のインジケータ及び前記第2の周波数バンドごとのエネルギ含量のインジケータに基づき前記信号インターバル内の周波数サブレンジにおいて前記第1の音声信号及び前記第2の音声信号で同程度のエネルギ含量を検出するよう、前記信号インターバル内の前記周波数サブレンジに対応する前記トーカコリジョンの位置において前記第1の音声信号及び前記第2の音声信号で同程度のエネルギ含量を有することを含む検出条件を適用する
    よう構成され、
    前記プロセッサは、該プロセッサによる処理を、該処理が必要とされる時間セグメントに制限されるよう構成され、前記プロセッサは、時間とともに漸進的に前記トーカコリジョンの位置の信号成分を周波数シフトするよう更に構成される、装置。
JP2014561192A 2012-03-23 2013-03-21 音声信号を混合する方法、装置及びコンピュータプログラム Active JP6023823B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261614577P 2012-03-23 2012-03-23
US61/614,577 2012-03-23
PCT/US2013/033366 WO2013142727A1 (en) 2012-03-23 2013-03-21 Talker collisions in an auditory scene

Publications (2)

Publication Number Publication Date
JP2015511029A JP2015511029A (ja) 2015-04-13
JP6023823B2 true JP6023823B2 (ja) 2016-11-09

Family

ID=48096233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014561192A Active JP6023823B2 (ja) 2012-03-23 2013-03-21 音声信号を混合する方法、装置及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US9502047B2 (ja)
EP (1) EP2828849B1 (ja)
JP (1) JP6023823B2 (ja)
CN (1) CN104205212B (ja)
HK (1) HK1204134A1 (ja)
WO (1) WO2013142727A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9237238B2 (en) * 2013-07-26 2016-01-12 Polycom, Inc. Speech-selective audio mixing for conference
CN104767652B (zh) * 2014-01-08 2020-01-17 杜比实验室特许公司 监视数字传输环境性能的方法
US10079941B2 (en) 2014-07-07 2018-09-18 Dolby Laboratories Licensing Corporation Audio capture and render device having a visual display and user interface for use for audio conferencing
CN106878533B (zh) * 2015-12-10 2021-03-19 北京奇虎科技有限公司 一种移动终端的通信方法和装置
EP3291226B1 (en) * 2016-09-05 2020-11-04 Unify Patente GmbH & Co. KG A method of treating speech data, a device for handling telephone calls and a hearing device
US11017790B2 (en) * 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences
CN111354356B (zh) * 2018-12-24 2024-04-30 北京搜狗科技发展有限公司 一种语音数据处理方法及装置
WO2022259637A1 (ja) * 2021-06-08 2022-12-15 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理システム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7391877B1 (en) 2003-03-31 2008-06-24 United States Of America As Represented By The Secretary Of The Air Force Spatial processor for enhanced performance in multi-talker speech displays
JP2005267667A (ja) * 2004-03-16 2005-09-29 Denon Ltd 音声記録再生装置
WO2006050353A2 (en) 2004-10-28 2006-05-11 Verax Technologies Inc. A system and method for generating sound events
US7970115B1 (en) * 2005-10-05 2011-06-28 Avaya Inc. Assisted discrimination of similar sounding speakers
ATE456845T1 (de) * 2006-06-02 2010-02-15 Koninkl Philips Electronics Nv Sprachdifferenzierung
US7853649B2 (en) 2006-09-21 2010-12-14 Apple Inc. Audio processing for improved user experience
US8559646B2 (en) 2006-12-14 2013-10-15 William G. Gardner Spatial audio teleconferencing
US20080298610A1 (en) 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
WO2008144784A1 (en) 2007-06-01 2008-12-04 Technische Universität Graz Joint position-pitch estimation of acoustic sources for their tracking and separation
GB0712099D0 (en) * 2007-06-22 2007-08-01 Wivenhoe Technology Ltd Transmission Of Audio Information
US8180029B2 (en) * 2007-06-28 2012-05-15 Voxer Ip Llc Telecommunication and multimedia management method and apparatus
JP2009139592A (ja) * 2007-12-05 2009-06-25 Sony Corp 音声処理装置、音声処理システム及び音声処理プログラム
JP5195652B2 (ja) 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
US20110109798A1 (en) 2008-07-09 2011-05-12 Mcreynolds Alan R Method and system for simultaneous rendering of multiple multi-media presentations
WO2010092914A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
US8417703B2 (en) 2009-11-03 2013-04-09 Qualcomm Incorporated Data searching using spatial auditory cues

Also Published As

Publication number Publication date
CN104205212A (zh) 2014-12-10
HK1204134A1 (en) 2015-11-06
WO2013142727A1 (en) 2013-09-26
US9502047B2 (en) 2016-11-22
EP2828849B1 (en) 2016-07-20
EP2828849A1 (en) 2015-01-28
US20150012266A1 (en) 2015-01-08
JP2015511029A (ja) 2015-04-13
CN104205212B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
JP6023823B2 (ja) 音声信号を混合する方法、装置及びコンピュータプログラム
US10607629B2 (en) Methods and apparatus for decoding based on speech enhancement metadata
JP5734517B2 (ja) 多チャンネル・オーディオ信号を処理する方法および装置
EP2716075B1 (en) An audio system and method therefor
JP2017530396A (ja) 音源を強調するための方法及び機器
KR101680953B1 (ko) 인지 오디오 코덱들에서의 고조파 신호들에 대한 위상 코히어런스 제어
TW201737244A (zh) 音訊信號解碼
US10728688B2 (en) Adaptive audio construction
US8996389B2 (en) Artifact reduction in time compression
JPWO2018198789A1 (ja) 信号処理装置および方法、並びにプログラム
US20220060824A1 (en) An Audio Capturing Arrangement
US20230254655A1 (en) Signal processing apparatus and method, and program
JP2018205449A (ja) 音声処理装置、音声処理方法およびプログラム
CN115462097A (zh) 用于使能渲染空间音频信号的装置、方法和计算机程序
KR20160122029A (ko) 스피커 정보에 기초하여, 오디오 신호를 처리하는 방법 및 장치
JP6313619B2 (ja) 音声信号処理装置及びプログラム
Kamper et al. Multi-Channel Recording and Modeling Strategies for Improved Source Realism in Auralizations
JP2023514121A (ja) ビデオ情報に基づく空間オーディオ拡張
KR20100138182A (ko) 오디오 변속처리 방법 및 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160818

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20160829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161007

R150 Certificate of patent or registration of utility model

Ref document number: 6023823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250