JP5674827B2 - 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム - Google Patents

多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム Download PDF

Info

Publication number
JP5674827B2
JP5674827B2 JP2012557079A JP2012557079A JP5674827B2 JP 5674827 B2 JP5674827 B2 JP 5674827B2 JP 2012557079 A JP2012557079 A JP 2012557079A JP 2012557079 A JP2012557079 A JP 2012557079A JP 5674827 B2 JP5674827 B2 JP 5674827B2
Authority
JP
Japan
Prior art keywords
channel
speech
utterance
attenuation
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012557079A
Other languages
English (en)
Other versions
JP2013521541A (ja
Inventor
ミューヒ,ハンヌ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2013521541A publication Critical patent/JP2013521541A/ja
Application granted granted Critical
Publication of JP5674827B2 publication Critical patent/JP5674827B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、多重チャネル音声信号から判定される人間の発話内容(例えば、会話)の明瞭度を改善するシステム、および方法に関係する。幾つかの実施形態においては、本発明は、音声信号をフィルタリングし、その結果として、音声信号から判定される発話内容の明瞭度を改善する方法とシステムである。この場合の音声信号は、発話を含むチャネル(発話チャネル)と発話を含まないチャネル(非発話チャネル)とを有する音声信号である。これは、以下のようにして実現される。まず、発話チャネルから判定される発話に関連したコンテンツと非発話チャネルから判定される発話に関連したコンテンツとの間の類似性の尺度を表す少なくとも一つの減衰制御値を決定する。続いて、当該減衰制御値に応じて、非発話チャネルを減衰させる。
なお、本願は、2010年3月8日に出願された米国仮特許出願第61/311,437号を基礎とする優先権を主張し、当該米国仮特許出願の開示内容は、参照により本明細書中に組み込まれる。
請求項を含む本明細書の開示全体を通して、用語「発話」は人間による発話内容を表す広範な意味において使用される。従って、音声信号から判定された発話内容は、当該音声信号の音声コンテンツである。そして、そのような音声コンテンツは、大音量スピーカ(または音響を出力するその他の変換器)によって当該音声信号が再生される際に、人間の発話(例えば、会話、独り言、歌謡、または人間によるその他の発話内容)として知覚される。本発明に係る典型的な実施形態に従うならば、音声信号から判定された発話内容がどれだけ明瞭に聴こえるかは、当該音声信号から判定されたその他の音声コンテンツ(例えば、楽器が発する音曲または非会話的な効果音)と比較した場合に相対的に改善される。その結果、当該発話内容の明瞭度(例えば、内容の明確さや聴き取りやすさなど)が改善される。
請求項を含む本明細書の開示全体を通して、多重チャネル音声信号内の一のチャネルに関する「発話内容の強化コンテンツ」との表現は、当該一のチャネルから判定されるコンテンツであって、当該多重チャネル音声信号内のその他のチャネル(例えば、発話チャネル)から判定される発話コンテンツの明瞭度あるいはその他の知覚される品質を強化するコンテンツである。本発明に係る典型的な実施形態においては、多重チャネル入力音声信号から判定される発話内容の大半は、当該多重チャネル入力音声信号内の中心チャネルから判定されるとの想定を置いている。この想定は、サラウンド音響の生成における慣例的な想定と整合するものである。上記慣例的想定においては、発話内容の大半が唯一のチャネル(中心チャネル)のみに配置されるのが通常である。さらに、上記慣例的想定においては音楽、周囲を取り巻く音響、あるいは効果音などは、全てのチャネル(例えば、中心チャネルに加え、左側、右側、左側サラウンド、および右側サラウンドのチャネル)の中に混合されるのが通常である。
従って、多重チャネル音声信号の中心チャネルは、本明細書中においてしばしば発話チャネルと呼ばれ、多重チャネル音声信号内のその他の全てのチャネル(例えば、左側、右側、左側サラウンド、および右側サラウンドのチャネル)は本明細書中においてしばしば非発話チャネルと呼ばれる。同様に、ステレオ信号の左側チャネルと右側チャネルとを加算することにより生成される中心チャネルは、本明細書中においてしばしば発話チャネルと呼ばれる。ここで、当該ステレオ信号は、その発話内容が音源を中心として周囲を取り巻くように再生される信号である。さらに、当該ステレオ信号の左側チャネル(または右側チャネル)から上記のようにして得られる中心チャネルを減算することにより生成される両サイドのチャネルは、本明細書中においてしばしば非発話チャネルと呼ばれる。
請求項を含む本明細書の開示全体を通して、信号やデータの上で処理動作(例えば、フィルタリング処理、スケーリング処理、または信号やデータの変換処理)を実行するとの表現は、信号やデータの上でそのような処理動作を直接実行することを表す広範な意味において用いられる。または、上記の表現は、何らかの前処理がなされた信号やデータ(例えば、信号の上でのそのような処理動作の実行に先立って事前のフィルタリング処理がされている信号の一形態など)の上でそのような処理動作を実行することを表す広範な意味において用いられる。
請求項を含む本明細書の開示全体を通して、用語「システム」は、装置、システムあるいはサブシステムを表す広範な意味において用いられる。例えば、復号器を実装するサブシステムは復号システムと呼ばれる。そして、そのようなサブシステムを包含するシステム(例えば、入力信号のうちのM個をサブシステム自身で生成し、外部の信号源から他のX−M個の入力信号を受信することにより、複数個の入力信号に応じてX個の出力信号を生成するようなシステム)もまた、復号システムと呼んでも良い。
請求項を含む本明細書の開示全体を通して、「第1の数値(A)と第2の数値(B)の比率」との表現は、A/B、B/Aを表す広範な意味において用いられる。あるいは、上記「比率」は、(例えば、xおよびyをオフセット値とした場合に、(A+x)/(B+y)で表される比のように)AまたはBのうちの一方がスケーリングされた値、またはオフセット値が加えられた値と、AまたはBのうちの他方がスケーリングされた値、またはオフセット値が加えられた値との比率を表す広範な意味において用いられる。
請求項を含む本明細書の開示全体を通して、スピーカのような音響出力変換器による「信号の再生」とは、当該信号に応じて当該音響出力変換器に音響を生成させる動作を表し、これには、当該信号に対して所要の増幅処理やその他の信号処理を実行することも含まれる。
発話内容を、それと競合する音の存在下で聴く場合(例えば、混雑したレストランの騒音の中で友人が話していることを聴く場合など)において、発話の音素コンテンツを信号で伝達する音響特徴部分(発話のキュー部分)は、これと競合する音により覆い隠されてしまい、伝達内容を復号化するために聞き手が利用することはもはや不可能である。発話音声レベルと比較して、競合する音のレベルが増加するにつれて、正確に受信される発話のキュー部分の個数は減少し、発話内容を認識することは徐々に面倒になってゆく。そして最終的には、競合する音のレベルがある一定のレベルに達したときに、発話内容を認識するプロセスは破綻する。この関係性は、全ての聞き手について成り立つものである一方で、任意の発話音声レベルに対して許容することが可能な競合音のレベルは全ての聞き手に関して同一ではない。例えば、加齢による聴覚困難(老人性難聴)を患う聞き手や思春期の後に習得した言語を聴いている聞き手は、聴覚能力が高い聞き手や母国語を聴いている聞き手と比べて、競合音を許容することができる度合いがより低い。
競合する音の存在下で、発話内容を聴き取る能力が聞き手によって異なるという事実は、ニュース番組や娯楽番組の音声中において、周囲を取り巻く音やBGMが発話内容に混ぜ合わされるレベルと関係している。聴覚困難を患っていたり、外国語として聴いていたりする聞き手は、番組製作者が提供するレベルよりも相対的に低いレベルの非発話音声をしばしば好む。
このような特別なニーズに応じるために、以下のようにして多重チャネル音声信号から判定される発話内容の明瞭度を改善する技術が周知である。すなわち、当該多重チャネル音声信号内の非発話チャネルに対して減衰処理(ダッキング処理)を適用する一方で、当該多重チャネル音声信号内の発話チャネルに対しては、より少ないレベルの減衰処理を適用するかまたは減衰処理を全く行わないようにする。
例えば、Hannes
Mueschを発明者とし、出願に係る権利がDolby Laboratories Licensing社に譲渡された下記の特許文献1(公開日:2008年1月28日)は、発話内容の所望される明瞭度がこれ以上充足され得ない所まで、多重チャネル音声信号内の非発話チャネル(例えば、左側と右側のチャネル)が当該音声信号の発話チャネル(例えば、中心チャネル)内の発話内容を覆い隠すことが可能であることを開示している。特許文献1は、ダッキング処理回路によって非発話チャネルに対して適用される減衰関数をどのように決定すればよいかを記述している。これは、コンテンツ製作者の意図を最大限に維持しながら、発話チャネル内において発話内容からのマスキング(競合音による覆い隠し)の除去を試みるものである。特許文献1中に開示された技術は、非発話チャネル内のコンテンツが、発話チャネルから判定される発話内容の明瞭度(またはその他の知覚される品質)を決して強化することはないという仮定に基づいている。
本発明は、上記の仮定が非常に多くの幅広い多重チャネル音声コンテンツに関して正しい一方で、常に正しいとは限らないという認識に部分的に基づいている。本発明の発明者は、発明を行うに際して以下のような知見を有していた。仮に、多重チャネル音声信号内の少なくとも一つの非発話チャネルが当該信号内の発話チャネルから判定される発話内容の明瞭度(またはその他の知覚される品質)を強化するコンテンツを含んでいるとする。この場合、特許文献1に開示された技法に従って当該信号をフィルタリングすることは、当該フィルタリングされた信号を再生した音を聴いている聞き手の娯楽的体験に対して良くない影響を与える。本発明に係る典型的な実施形態は、音声コンテンツが、特許文献1に開示された技法が前提としている上記仮定に適合しないような期間中においては、上記技法の適用を中断するかまたは修正するようにしている。
国際公開公報WO2010/011377
「大音量音源のモニタリングにおける音声と他の情報との間の自動的な弁別」Robinson およびVinton著, Audio Engineering Society, Preprint number 6437 of Convention 118、2005年5月発行 「発話内容の明瞭度の指標を計算するための方法」、ANSI S3.5-1997 「発話内容の明瞭度を予測するための統計的な決定理論の使用、第1節モデル構造」、MueschおよびBuus著、Journal of the Acoustical Society ofAmerica, 2001, Vol. 19, p2896-2909 「定常音の音量を計算する手順」米国国内規格ANSI S3.4-2007 「Berechnung des Lautstarkepegels und der Lautheit aus demGerauschspektrum」ドイツ国内規格DIN 45631
以上から、多重チャネル音声信号内の少なくとも一つの非発話チャネルが当該信号内の発話チャネルから判定される発話内容の明瞭度を強化するコンテンツを含んでいるような一般化された場合において、多重チャネル音声信号をフィルタリングして、発話内容の明瞭度を改善するための方法とシステムを実現することに対するニーズが存在する。
本発明に係る実施形態の第1類型においては、本発明は、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、以下の2つのステップを含む。ステップ(a):発話チャネルから判定される「発話に関係する情報内容」と、当該多重チャネル音声信号内の少なくとも一つの非発話チャネルから判定される「発話に関係する情報内容」との間の類似度の尺度を表す少なくとも一つの減衰制御値を決定するステップ、および、ステップ(b):当該少なくとも一つの減衰制御値に応じて、当該多重チャネル音声信号の少なくとも一つの非発話チャネルを減衰させるステップ、とを含む構成を採る。典型的には、当該減衰させるステップは、当該少なくとも一つの減衰制御値に応じて、当該少なくとも一つの非発話チャネルに関する未加工の減衰制御信号(例えば、ダッキング利得制御信号など)をスケーリングするステップを備える。好適には、本発明に係る方法では、当該発話チャネルから判定される発話内容の明瞭度を改善するように、当該非発話チャネルが減衰される。そして非発話チャネルに対する上記減衰は、当該非発話チャネルから判定される「発話内容の強化コンテンツ」に対する望ましくない減衰を伴うことが無いように、実行されなくてはならない。本発明の幾つかの実施形態では、上記ステップ(a)において決定される減衰制御値の各々は、発話チャネルから判定される「発話に関係する情報内容」と、当該音声信号内の少なくとも一つの非発話チャネルから判定される「発話に関係する情報内容」との間の類似度の尺度を表し、上記ステップ(b)は、当該減衰制御値の各々に応じて、この非発話チャネルを減衰させるステップを含む。本発明の幾つかの実施形態では、上記ステップ(a)は、当該音声信号内の少なくとも一つの非発話チャネルから、一つの「導出された非発話チャネル」を導出するステップを含み、当該少なくとも一つの減衰制御値は、発話チャネルから判定される「発話に関係する情報内容」と、当該「導出された非発話チャネル」から判定される「発話に関係する情報内容」との間の類似度の尺度を表す。例えば、一つの「導出された非発話チャネル」は、当該音声信号内の少なくとも2つの非発話チャネルを加算する、さもなければこれらの非発話チャネルを混合したり組み合わせたりすることにより生成されることが可能である。単一の「導出された非発話チャネル」から減衰制御値の各々を決定することは、複数の異なる非発話チャネルから減衰値の集合のうちの複数の異なる部分集合を決定することのコストと複雑度と比べて、本発明の幾つかの実施形態を実現するためのコストと複雑度を低減することが可能である。入力される音声信号が少なくとも2つの非発話チャネルを有しているような実施形態においては、上記ステップ(b)は、当該少なくとも一つの減衰制御値に応じて(例えば、一連の減衰制御値から成る単一の系列に応じて)、複数の非発話チャネルの部分集合(例えば、一つの「導出された非発話チャネル」を導出する元となった非発話チャネルの各々)、または全ての非発話チャネルを減衰するステップを含むことが可能である。
上記した第1類型の実施形態の幾つかにおいては、ステップ(a)は、一連の減衰制御値から成る単一の系列を表す減衰制御信号を生成するステップを含み、複数の減衰制御値の各々は、発話チャネルから判定される「発話に関係する情報内容」と、当該少なくとも一つの非発話チャネルから判定される「発話に関係する情報内容」との間の互いに異なる時刻における(例えば、互いに異なる時間区間における)類似度の尺度を表す。そして、ステップ(b)は、当該減衰制御信号に応じて、ダッキング利得制御信号をスケーリングして、スケーリングされた利得制御信号を生成し、当該少なくとも一つの非発話チャネルを減衰させるために、当該スケーリングされた利得制御信号を適用する(例えば、ダッキング処理回路により当該少なくとも一つの非発話チャネルの減衰動作を制御するために、ダッキング処理回路に対して当該スケーリングされた利得制御信号を入力する等)。例えば、本発明の幾つかの実施形態においては、ステップ(a)は、「(当該発話チャネルから判定される「発話に関連した情報内容」を表す)発話に関連した特性値の第1の系列」を「(当該少なくとも一つの非発話チャネルから判定される『発話に関連した情報内容』を表す)発話に関連した特性値の第2の系列」と比較して減衰制御信号を生成する。この時、減衰制御信号によって表される複数の減衰制御値の各々は、「発話に関連した特性値の第1の系列」および「発話に関連した特性値の第2の系列」の両者の間の互いに異なる時刻における(例えば、互いに異なる時間区間における)類似度の尺度を表している。本発明の幾つかの実施形態においては、減衰制御値の各々は、利得制御値である。
上記した第1類型の実施形態の幾つかにおいては、減衰制御値の各々は、音声信号内の少なくとも一つの非発話チャネルが、発話チャネルから判定される発話内容の明瞭度(またはその他の知覚される品質)を高める「発話内容の強化コンテンツ」を表している可能性の高さを表す尤度と単調に関係付けられる。上記した第1類型の実施形態の他の幾つかにおいては、減衰制御値の各々は、当該少なくとも一つの非発話チャネルに関する発話内容の強化度合いの予測される値と単調に関係付けられる(このような強化度合いの予測される値の一例は、当該少なくとも一つの非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、当該少なくとも一つの非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである)。例えば、ステップ(a)が、当該発話チャネルから判定される「発話に関連した情報内容」を表している「発話に関連した特性値の第1の系列」を当該少なくとも一つの非発話チャネルから判定される「発話に関連した情報内容」を表している「発話に関連した特性値の第2の系列」と比較するステップを含むような場合、「発話に関連した特性値の第1の系列」は、一連の発話尤度値の系列とすることが可能である。なお、当該発話尤度値の各々は、異なる時刻において(例えば、異なる時間区間において)、当該発話チャネルが(発話以外の音声コンテンツではなく)発話内容を表している可能性の高さを示す尤度を表す。さらに、「発話に関連した特性値の第2の系列」もまた、一連の発話尤度値の系列とすることが可能である。なお同様に、当該発話尤度値の各々は、異なる時刻において(例えば、異なる時間区間において)、当該少なくとも一つの非発話チャネルが発話内容を表している可能性の高さを示す尤度を表す。音声信号からこのような一連の発話尤度値の系列を自動的に生成するための様々な方法が周知である。例えば、このような方法の一つが、上記の非特許文献1によって記述されている。代替的に、一連の発話尤度値の系列は、(例えば、コンテンツ製作者などにより)人間の手操作入力で生成され、多重チャネル音声信号と一緒にしてエンド・ユーザに送信されるようにすることも可能であるとも考えられる。
本発明に係る実施形態の第2類型においては、多重チャネル音声信号は、一つの発話チャネルおよび少なくとも2つの非発話チャネルを有し、少なくとも2つの非発話チャネルは、第1の非発話チャネルおよび第2の非発話チャネルを含む。そして、当該第2類型の実施形態に係る方法は、以下の2つのステップを含む。ステップ(a):発話チャネルから判定される「発話に関係する情報内容」と、当該多重チャネル音声信号内の第1の非発話チャネルから判定される「発話に関係する第2の情報内容」との間の類似度の尺度を表す少なくとも一つの第1の減衰制御値を決定するステップ(例えば、発話チャネルから判定される「発話に関係する情報内容」を表す「発話に関係する特性値の第1の系列」を「発話に関係する第2の情報内容」を表す「発話に関係する特性値の第2の系列」と比較することによるものを含む)、および、ステップ(b):発話チャネルから判定される「発話に関係する情報内容」と、当該多重チャネル音声信号内の第2の非発話チャネルから判定される「発話に関係する第3の情報内容」との間の類似度の尺度を表す少なくとも一つの第2の減衰制御値を決定するステップ(例えば、発話チャネルから判定される「発話に関係する情報内容」を表す「発話に関係する特性値の第3の系列」を「発話に関係する第3の情報内容」を表す「発話に関係する特性値の第4の系列」と比較することによるものを含み、ここで、「発話に関係する特性値の第3の系列」は、ステップ(a)における「発話に関係する特性値の第1の系列」と同一となる可能性もある)。典型的には、本発明の当該実施形態に係る方法は、以下の動作を実行するステップを備える。まず、当該少なくとも一つの第1の減衰制御値に応じて、第1の非発話チャネルを減衰する(例えば、第1の非発話チャネルの減衰率をスケーリングするなど)。さらに、当該少なくとも一つの第2の減衰制御値に応じて、第2の非発話チャネルを減衰する(例えば、第2の非発話チャネルの減衰率をスケーリングするなど)。好適には、非発話チャネルの各々は、発話チャネルから判定される発話内容の明瞭度を改善するように減衰される。そして、この減衰は、非発話チャネルから判定される「発話内容の強化コンテンツ」に対する望ましくない減衰を生じないように実行されなくてはならない。
上記した第2類型の実施形態の幾つかにおいては、ステップ(a)において決定された少なくとも一つの第1の減衰制御値は、一連の減衰制御値から成る単一の系列であり、当該減衰制御値の各々は、ダッキング処理回路により第1の非発話チャネルに対して適用される利得の大きさをスケーリングする利得制御値である。なお、上記した利得制御値の適用は、発話チャネルから判定される発話内容の明瞭度を改善すると同時に、第1の非発話チャネルから判定される「発話内容の強化コンテンツ」に対する望ましくない減衰を生じないようにする目的で実行される。そして、ステップ(b)において決定された少なくとも一つの第2の減衰制御値は、一連の第2の減衰制御値から成る単一の系列であり、当該第2の減衰制御値の各々は、ダッキング処理回路により第2の非発話チャネルに対して適用される利得の大きさをスケーリングする利得制御値である。なお、上記した利得制御値の適用は、発話チャネルから判定される発話内容の明瞭度を改善すると同時に、第2の非発話チャネルから判定される「発話内容の強化コンテンツ」に対する望ましくない減衰を生じないようにする目的で実行される。
本発明に係る実施形態の第3類型においては、本発明は、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、以下の2つのステップを含む。ステップ(a):発話チャネルの特性と非発話チャネルの特性を比較して、発話チャネルと比較した場合の非発話チャネルの相対的な減衰率を制御するための少なくとも一つの減衰値を生成するステップ。ステップ(b):少なくとも一つの発話内容強化尤度値に応じて当該少なくとも一つの減衰値を調節し、発話チャネルと比較した場合の非発話チャネルの相対的な減衰率を制御するための少なくとも一つの調節された減衰値を生成するステップ。典型的には、上記した減衰値を調節するステップは、上記した一つの発話内容強化尤度値に応じて上記した減衰値の各々をスケーリングし、上記した一つの調節された減衰値を生成する。典型的には、発話内容強化尤度値の各々は、非発話チャネル(入力された音声信号の単一の非発話チャネルまたは複数の発話チャネルの組から導出された一つの発話チャネル)が「発話内容の強化コンテンツ(発話チャネルから判定された発話内容の明瞭度またはその他の知覚される品質を高める情報内容)」を表している可能性の高さを示す尤度を表す(例えば、そのような尤度と単調に関係付けされている)。本発明の幾つかの実施形態においては、当該発話内容強化尤度値は、非発話チャネルの発話内容の強化度合いの予測される値を表す(このような予測される値の一例は、非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである)。上記した実施形態の第3類型における幾つかの実施例では、上記した少なくとも一つの発話内容強化尤度値は、以下の動作を実行するステップを含む方法により決定される一連の比較値(例えば、差分値)から成る単一の系列である。比較値を決定する上記方法は、発話チャネルから判定された「発話に関係する情報内容」を表す「発話内容に関係した特性値の第1の系列」を非発話チャネルから判定された「発話に関係する情報内容」を表す「発話内容に関係した特性値の第2の系列」と比較する。なお、比較値の各々は、「発話内容に関係した特性値の第1の系列」と「発話内容に関係した特性値の第2の系列」との間の互いに異なる時刻(例えば、互いに異なる時間区間)における類似度の尺度である。上記した実施形態の第3類型における典型的な実施例においては、上記の方法はさらに、上記した少なくとも一つの調節された減衰値に応じて、非発話チャネルを減衰するステップを含む。ステップ(b)は、上記した少なくとも一つの発話内容強化尤度値に応じて上記した少なくとも一つの減衰値(これは典型的には、ダッキング処理回路によって判定される減衰値であり、さもなければ、その他の未加工の減衰制御信号である)をスケーリングするステップを備えることが可能である。
上記した第3類型の実施形態の幾つかにおいては、ステップ(a)において生成された減衰値の各々は、非発話チャネルの減衰率の大きさを表す第1の係数である。この減衰率の大きさは、発話チャネルにおける信号電力に対する非発話チャネルにおける信号電力の比率が所定の閾値を超えないように制限するのに必要な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第2の係数によってスケーリングされる。典型的には、本発明のこれらの実施形態における上記した減衰値を調節するステップは、上記した減衰値の各々を上記した一つの発話内容強化尤度値によりスケーリングし、上記した一つの調節された減衰値を生成する動作を含み、上記した発話内容強化尤度値は、以下の何れか一方と単調に関係付けられる係数である。発話内容強化尤度値が関係付けられる第1のものは、非発話チャネルが「発話内容の強化コンテンツ(発話チャネルから判定された発話内容の明瞭度またはその他の知覚される品質を高める情報内容)」を表している可能性の高さを示す尤度である(例えば、非発話チャネルがそのような尤度と単調に関係付けされている)。発話内容強化尤度値が関係付けられる第2のものは、非発話チャネルの発話内容の強化度合いの予測される値である(このような予測される値の一例は、非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである)。
上記した第3類型の実施形態の幾つかにおいては、ステップ(a)において生成された減衰値の各々は、非発話チャネルの減衰率の大きさ(例えば、最小の大きさ)を表す第1の係数である。この減衰率の大きさは、非発話チャネルから判定された情報内容の存在下で、発話チャネルから判定された発話内容の予見される明瞭度が所定の閾値を超えるようにするのに充分な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第2の係数によってスケーリングされる。好適には、非発話チャネルから判定された情報内容の存在下で、発話チャネルから判定された発話内容の予見される明瞭度は、心理聴覚上の明瞭度予測モデルに従って、判定される。典型的には、本発明のこれらの実施形態における上記した減衰率を調節するステップは、上記した減衰値の各々を上記した一つの発話内容強化尤度値によってスケーリングして、上記した一つの調節された減衰値を生成する動作を含み、上記した発話内容強化尤度値は、以下の何れか一方と単調に関係付けられる係数である。その一つは、非発話チャネルが発話内容の強化コンテンツを表している可能性の高さを示す尤度であり、もう一つは、非発話チャネルにおける発話内容の強化の度合いの予測値である。
上記した第3類型の実施形態の幾つかにおいては、ステップ(a)は、発話チャネルおよび非発話チャネルの各々に関する電力スペクトル(周波数の関数としての電力の分布を表すスペクトル)を判定することにより、中に含まれる上記した減衰値の各々を生成し、上記した電力スペクトルの各々に応じて、上記した減衰値に関する周波数領域判定を実行するステップを含む。好適には、この方法で生成された複数の減衰値は、周波数の関数としての減衰率を決定し、この減衰率は、非発話チャネルの複数の周波数成分に対して適用される。
本発明の実施形態の一つの類型においては、本発明は、入力された多重チャネル音声信号から判定された発話内容を強化する方法とシステムに関係する。本発明の幾つかの実施形態においては、本発明に係るシステムは、入力された多重チャネル音声信号を解析して複数の減衰制御値を生成するように構成された解析モジュール(解析サブシステム)、および減衰処理サブシステムを含む。減衰処理サブシステムは、上記した複数の減衰制御値の中の少なくとも幾つかによる動作制御の下で、入力された上記音声信号に関する非発話チャネルの各々に対してダッキング減衰処理を適用し、フィルタリングされた音声出力信号を生成するように構成されている。本発明の幾つかの実施形態においては、減衰処理サブシステムは、当該サブシステムに接続され、入力された上記音声信号に関する非発話チャネルの各々に対して減衰処理(ダッキング処理)を適用し、フィルタリングされた音声出力信号を生成するように構成され、上記した複数の減衰制御値の中の少なくとも幾つかにより動作制御されるダッキング処理回路を含む。ダッキング処理回路が上記した複数の制御値によって動作制御されるとは、上記した複数の制御値が表す電流値によって、ダッキング処理回路が非発話チャネルに対して適用する減衰率が決定されるという意味である。
本発明の典型的な実施形態においては、本発明に係るシステムは、ソフトウェア(またはファームウェア)によりプログラミングされた、さもなければ、本発明に係る方法の一実施形態を実行するように構成された、汎用のまたは特定用途向きのプロセッサを含む。本発明の幾つかの実施形態においては、本発明に係るシステムは、音声入力信号を表す入力データを受信するように接続され、本発明に係る方法の一実施形態を実行することによって上記の入力データに応じて音声出力信号を表す出力データを生成するように(適切なソフトウェアによって)プログラミングされた汎用のプロセッサである。本発明に係るその他の実施形態においては、本発明に係るシステムは、設定可能な音声処理向けのデジタル信号プロセッサ(DSP)を(例えば、プログラミング等により)適切に設定することにより実装される。音声処理向けのDSPは、入力された音声に関して多種多様な演算の何れかを実行するように設定可能である(例えば、適切なソフトウェアまたはファームウェアによりプログラミング可能である、さもなければ、制御データに応じて設定可能である)従来型の音声処理向けDSPとすることが可能である。動作中において、本発明に従ってアクティブな発話内容の強化処理を実行するように設定されている音声処理向けDSPは、音声入力信号を受信するように接続され、当該DSPは、典型的には、発話内容の強化処理に加えて(またはそれと同時に)、入力された音声に関する多種多様な演算を実行する。本発明に係る多種多様な実施形態に従うならば、入力音声信号に対して本発明に係る方法を実行することを通じて、入力音声信号に応じて、出力音声信号を生成するように設定された後に(例えば、プログラミングされた後に)、音声処理向けDSPは、本発明に係る方法の一実施形態を実行するように動作可能となる。
本発明の複数の実施態様は、本発明に係る方法の何れかの実施形態を実行するように設定された(例えば、プログラミングされた)システム、および本発明に係る方法の何れかの実施形態を実装する命令コードを記憶したコンピュータ読み取り可能な記録媒体(例えば、ディスク)を含む。
本発明に係るシステムの一実施形態を示すブロック図 本発明に係るシステムのその他の実施形態を示すブロック図 本発明に係るシステムのその他の実施形態を示すブロック図 本発明に係るシステムのその他の実施形態を示すブロック図 本発明に係るシステムのその他の実施形態を示すブロック図 本発明に係るシステムの一実施形態である音声処理向けデジタル信号プロセッサ(DSP)を示すブロック図 本発明に係る方法の一実施形態を実行するようにコンピュータ・システムをプログラミングするコンピュータ命令コードを記憶するコンピュータ可読記録媒体504を含むコンピュータ・システムを示すブロック図
本発明に係る多くの実施形態が技術的には可能である。これらの実施形態をどのように実装するかに関しては、本明細書の開示から当業者には明らかであろう。本明細書では、本発明に係るシステム、方法、および記録媒体の実施形態を、図1A、図1B、図2A、図2Bおよび図3〜5を参照しながら説明する。幾つかの多重チャネル音声コンテンツは、発話チャネルおよび少なくとも一つの非発話チャネルにおいて、互いに異なるけれども相互に関連する発話のコンテンツを有することを本発明の発明者は観測した。例えば、あるステージ公演での多重チャネル音声の複数の録音内容は、「乾いた」発話内容(即ち、人間の聴覚で気付く程度の残響が無い発話内容)が発話チャネル(典型的には、音声信号の中心チャネルC)内に配置され、これと同一の発話内容ではあるが顕著な残響成分が含まれている(即ち、「濡れた」)発話内容が音声信号の非発話チャネル内に配置されるような態様でミキシングされる。典型的なシナリオにおいては、「乾いた発話内容」は、ステージ上の演技者が自分の口のすぐ近くに保持しているマイクロフォンからの音声信号であり、「濡れた発話内容」は、一般聴衆の中に置かれたマイクロフォンからの音声信号である。「濡れた発話内容」は、会場内に居る一般聴衆によって聴取される実演であるから、「濡れた発話内容」は「乾いた発話内容」と関係付けられる。しかしながら、それは「乾いた発話内容」とは異なるものである。典型的には、「濡れた発話内容」は「乾いた発話内容」と比較して一定の遅延があり、異なる周波数スペクトルおよび異なる付加的成分(例えば、聴衆の発する騒音や残響)を有する。
「乾いた発話内容」と「濡れた発話内容」との間の相対的なレベルに応じて、濡れた発話成分が乾いた発話成分を覆い隠す(マスキングする)ことが起こり得る。このようなマスキングの度合いは、ダッキング処理回路内での非発話チャネルの減衰処理(例えば、上記において引用した特許文献1において記載されている方法における減衰処理など)が「濡れた発話内容」の音声信号に対して望ましくない減衰をもたらす程である場合もある。「乾いた発話成分」と「濡れた発話成分」とは、別々の成分として記述することも可能ではあるが、聞き手の方は、これら2つの成分を知覚の上では混ぜこぜにして聴いており、これらの成分を単一の会話音声のストリームとして聴いている。(例えば、ダッキング処理回路内において)「濡れた発話成分」を減衰処理することは、混ぜこぜにして聴き取られる会話音声ストリームの知覚される音量を低下させると同時に、当該会話音声のイメージ幅を壊してしまうという効果を伴う可能性がある。上記したようなタイプの「乾いた発話成分」と「濡れた発話成分」を有する多重チャネル音声信号に関しては、当該音声信号に関する発話内容の強化処理の実行中に「濡れた発話成分」の強度が変化しないならば、しばしば聞き手にとって知覚の上でより心地良く、それと同時に、発話内容の明瞭度により大きく資することを本発明の発明者は発見した。
本発明は、部分的には以下の知見に基づいて成されたものである。多重チャネル音声信号が当該多重チャネル音声信号の発話チャネルから判定された発話内容の明瞭度(またはその他の知覚される品質)を高めるような情報内容を含んでいる場合を考える。この時、ダッキング処理回路を使用して当該多重チャネル音声信号の非発話チャネルをフィルタリングする(例えば、特許文献1に記載された方法に従ってフィルタリングする)ことは、フィルタリングされた音声信号を再生した音声を聴いている聞き手にとっての娯楽的体験に悪い影響を与える可能性がある。本発明に係る典型的な実施形態に従うならば、非発話チャネルが「発話内容の強化コンテンツ」を含んでいる期間中においては、多重チャネル音声信号の少なくとも一つの非発話チャネルに対して実行される(ダッキング処理回路内における)減衰処理は、一時的に中断されるかまたは修正される。なお、「発話内容の強化コンテンツ」とは、
当該多重チャネル音声信号の発話チャネルから判定される発話内容の明瞭度または知覚される品質を高める情報内容である。非発話チャネルが「発話内容の強化コンテンツ」を含んでいない時には非発話チャネルに対して従来技術が開示する通常の方法で減衰処理がなされる(即ち、減衰処理は一時的に中断されたり修正されたりしない)。あるいは、非発話チャネルが既定の評価基準を満たすような「発話内容の強化コンテンツ」を含んでいない時に、減衰処理の一時的な中断や修正を行わないようにすることも可能である。
従来技術が開示するダッキング処理回路内でのフィルタリング処理が不適切であるような(発話チャネルを有する)多重チャネル音声信号の典型例には、発話チャネル内における発話のキュー部分と実質的に同一である発話のキュー部分を伝送する少なくとも一つの非発話チャネルを含むものがある。本発明に係る典型的な実施形態に従うならば、発話チャネル内における発話に関係する一連の特性値から成る単一の系列は、非発話チャネル内における発話に関係する一連の特性値から成る単一の系列と比較される。一連の特性値から成る上記した2つの系列の間の実質的な類似度は、非発話チャネル(即ち、非発話チャネル内の音声信号)は、発話チャネル内で伝えられる発話内容を理解するために有用な情報を与えることに寄与している。そしてその場合、非発話チャネルの減衰処理は回避されるべきである。
音声信号それ自体ではなく、上記のような発話に関係する特性値の系列同士の間の類似度を検査することの重要性を深く理解するためには、以下の事実を知ることが重要である。(発話チャネルおよび非発話チャネルから判定される)「乾いた発話内容」および「濡れた発話内容」は互いに同一ではない。即ち、上記した2つのタイプの発話内容をそれぞれ表す音声信号は、典型的には時間軸上でオフセットされており、互いに異なるフィルタリング過程を経ており、音声信号に付加されている外乱成分も互いに異なっている。従って、2つの音声信号を互いに直接的に比較しても、常に低い類似度しか生じない。この事は、キュー成分に対する非発話チャネルによる寄与が以下の3つの場合の何れに該当しようが、全く関係ない。一つ目は、(「乾いた」または「濡れた」発話内容の場合のように)発話チャネルと同一となる発話のキュー成分に関する寄与を有する場合である。2つ目は、(例えば、聴取の対象となる会話が発話チャネル内で伝えられ、背後の雑談が非発話チャネルで伝えられる場合のように、発話チャネルと非発話チャネルにそれぞれ互いに無関係な話し声が含まれている場合のように)発話チャネルと無関係なキュー成分に関する寄与を有するばあいである。3つ目は、(非発話チャネルが音楽や効果音のみを伝える場合のように)非発話チャネルのキュー成分に対する寄与が皆無となる場合である。(本発明に係る好適な実施形態において開示されるように)発話内容の特性値同士の比較に基づくことにより、音声信号の無関係な側面による影響を教示することができる抽象化のレベルが実現される。上記した音声信号の無関係な側面の具体例には、少量の遅延、周波数スペクトルの相違、および音声信号に付加される外乱成分などが含まれる。このようにして、本発明に係る好適な実施態様は、典型的には、発話内容の特性値から成る少なくとも2本のストリームを生成する。この場合、一方のストリームは、発話チャネル内の音声信号を表し、それ以外の少なくとも一つのストリームは、非発話チャネル内の音声信号を表す。
以下、図1Aを参照しながら、本発明に係るシステムの第1の実施形態(125)について説明する。発話チャネル101(中心チャネルC)および2つの非発話チャネル102と103(左側のチャネルLと右側のチャネルR)を備える多重チャネル音声信号に応じて、図1Aに示すシステムは、これら非発話チャネルをフィルタリングする。そしてその結果、図1Aのシステムは、発話チャネル101とフィルタリング済の非発話チャネル118と119(フィルタリング済みの左側と右側のチャネルL’とR’)を備えるフィルタリング済みの多重チャネル出力音声信号を生成する。代替的に、非発話チャネル102および103の何れか一方または両方は、多重チャネル音声信号における上記以外の他のタイプの非発話チャネル(例えば、5.1チャネル音声信号における左後方のチャネルおよび/または右後方のチャネル)とすることが可能である。あるいは、非発話チャネル102および103の何れか一方または両方は、多重チャネル音声信号における複数の非発話チャネルから成る多くの互いに異なる部分集合の中の何れか(即ち、複数の非発話チャネルのある一つの組み合わせ)から導出された単一の「導出された非発話チャネル」とすることも可能である。代替的に、本発明に係るシステムの実施形態においては、多重チャネル音声信号の非発話チャネルの中の一つだけ、あるいは2つ以上をフィルタリングするように実装することも可能である。
再び図1Aを参照すると、非発話チャネル102および103は、ダッキング増幅回路117および116にそれぞれ入力としてアサートされる。動作中において、ダッキング増幅回路116は、乗算器114から出力される制御信号S3(これは一連の制御値の系列を表し、従って、制御値の系列S3とも呼ばれる)によって動作制御される。また、ダッキング増幅回路117は、乗算器115から出力される制御信号S4(これは一連の制御値の系列を表し、従って、制御値の系列S4とも呼ばれる)によって動作制御される。
入力される多重チャネル音声信号内の各チャネルの電力は、複数の電力推定回路104、105および106から成るバンクによって計測され、対数の尺度[dB]を用いて表される。これらの電力推定回路は、例えば、漏出型積分器(Leaky Integrator)のような平滑化機構を実装しており、これにより、計測された電力レベルは、一連の会話中に含まれる一つの文または一節全体に渡って平均された電力レベルを反映する。発話チャネル内における音声信号の電力レベルは非発話チャネルの各々における電力レベルから(減算器107および108によって)減算され、その結果、上記した2つのタイプの音声信号同士の間の電力比率の尺度を与える。減算器107の出力は、発話チャネル101に対する非発話チャネル103の電力比率の測定値である。減算器108の出力は、発話チャネル101に対する非発話チャネル102の電力比率の測定値である。
比較回路109は、非発話チャネルの各々に関して、非発話チャネルが減衰されなくてはならないデシベル(dB)数を判定する。上記デシベル(dB)数は、非発話チャネルの電力が発話チャネル内の音声信号の電力レベルよりも少なくともΘ[dB]だけ下回った状態を維持することができるデシベル数でなくてはならない。なお、記号Θ(ギリシャ文字のシータ)は所定の閾値を表す。比較回路109の一実施態様においては、非発話チャネル103と発話チャネル101との間の電力レベルの差分(すなわち、マージン)に対して加算器120が(レジスタとして実装可能な記憶要素110に記憶された)閾値Θを加算する。また、非発話チャネル102と発話チャネル101との間の電力レベルの差分(すなわち、マージン)に対して加算器121が閾値Θを加算する。要素111−1および112−1は、加算器120および121のそれぞれが出力する出力値の正負の符号を変更する。この符号の変更操作は減衰値を利得値に変換するものである。要素111および112は、出力結果の各々の上限をゼロ以下に制限する(要素111−1の出力はリミッター(制限器)111に対して入力としてアサートされ、要素112−1の出力はリミッター(制限器)112に対して入力としてアサートされる)。リミッター111から出力された電流値C1は、dB単位で表した利得(マイナス値とされた減衰率)を決定し、この減衰率は、非発話チャネル103の電力レベルを発話チャネル101の電力レベルよりもΘ[dB]下回る状態を(入力された多重チャネル音声信号の関係する時点において、または関係する時間ウィンドウ内において)維持するために、非発話チャネル103に対して適用されなくてはならない。リミッター112から出力された電流値C2は、dB単位で表した利得(マイナス値とされた減衰率)を決定し、この減衰率は、非発話チャネル102の電力レベルを発話チャネル101の電力レベルよりもΘ[dB]下回る状態を(入力された多重チャネル音声信号の関係する時点において、または関係する時間ウィンドウ内において)維持するために、非発話チャネル102に対して適用されなくてはならない。典型的な場合におけるΘの適切な値は15dB程度である。
対数の尺度で表現された測定値と線形の尺度で表現された同一の測定値との間には、一意的な関係が存在するので、図1A中の要素104、105、106、107、108および109と均等な回路(この回路は、プログラミングされ、さもなければ設定されたプロセッサであっても良い)は、電力、利得および閾値の全てが線形の尺度で表現された態様で構成されることが可能である。そのような回路構成においては、レベル同士の間の差分を表す全ての値は線形の測定値同士の間の比率によって置き換えられる。代替的な実施態様では、電力の測定値は、例えば、音声信号の絶対値のような信号強度と関係付けられた測定値と置き換えられる。
リミッター111から出力される信号C1は、非発話チャネル103に関する未加工の減衰制御信号(ダッキング増幅回路116のための利得制御信号)であり、これは、非発話チャネル103のダッキング減衰処理を制御するために、増幅回路116に対して直接的にアサートされる。リミッター112から出力される信号C2は、非発話チャネル102に関する未加工の減衰制御信号(ダッキング増幅回路117のための利得制御信号)であり、これは、非発話チャネル103のダッキング減衰処理を制御するために、増幅回路117に対して直接的にアサートされる。
しかしながら、本発明に従うならば、未加工の減衰制御信号C1およびC2は、乗算器114および115においてスケーリングされる。その結果、非発話チャネルに対する増幅回路116および117によるダッキング減衰処理を制御するために、利得制御信号S3およびS4が生成される。信号C1は、一連の減衰制御値の系列S1に応じてスケーリングされ、信号C2は、一連の減衰制御値の系列S2に応じてスケーリングされる。制御値S1の各々は、(以下において説明する)処理要素134の出力端子から乗算器114の一方の入力端子に対してアサートされ、信号C1(つまり、信号C1によって決定される未加工の利得制御値C1の各々)はリミッター111から要素114の他方の入力端子にアサートされる。要素114は、上記した電流値S1に応じて、上記した電流値C1をスケーリングする。上記スケーリングは、これらの値C1とS1を乗算して電流値S3を生成し、これを増幅回路116に入力としてアサートすることにより実行される。制御値S2の各々は、(以下において説明する)処理要素135の出力端子から乗算器115の一方の入力端子に対してアサートされ、信号C2(つまり、信号C2によって決定される未加工の利得制御値C2の各々)はリミッター112から要素115の他方の入力端子にアサートされる。要素115は、上記した電流値S2に応じて、上記した電流値C2をスケーリングする。上記スケーリングは、これらの値C2とS2を乗算して電流値S4を生成し、これを増幅回路117に入力としてアサートすることにより実行される。
本発明に従うならば、制御値S1およびS2は、以下のようにして生成される。発話尤度処理要素130、131および132において、発話尤度信号(図1A中の信号P、QおよびTの各々)は入力される多重チャネル音声信号の各チャネルに関して生成される。発話尤度信号Pは、非発話チャネル102に関する一連の発話尤度値の一つの系列を表す。発話尤度信号Qは、発話チャネル101に関する一連の発話尤度値の一つの系列を表す。発話尤度信号Tは、非発話チャネル103に関する一連の発話尤度値の一つの系列を表す。
発話尤度信号Qは、発話チャネル内の音声信号が実際に発話内容を表している可能性の高さを示す尤度と単調に関係付けられている値である。発話尤度信号Pは、非発話チャネル102内の音声信号が発話内容を表している可能性の高さを示す尤度と単調に関係付けられている値である。発話尤度信号Tは、非発話チャネル103内の音声信号が発話内容を表している可能性の高さを示す尤度と単調に関係付けられている値である。プロセッサ130、131および132(これら3つは、典型的には互いに同一の構成であるが、幾つかの実施形態においては互いに同一の構成ではない)は、これらのプロセッサに入力としてアサートされた入力信号が発話内容を表している可能性の高さを示す尤度を自動的に判定するための多種多様な方法の何れかを実装することができる。本発明の一の実施形態においては、発話尤度プロセッサ130、131および132は、互いに同一の構成を有し、プロセッサ130は、(非発話チャネル102の情報から)信号Pを生成する。この時、信号Pは一連の発話尤度値の系列を表し、当該発話尤度値の各々は、異なる時刻(または時間ウィンドウ)におけるチャネル102内の音声信号が発話内容を表している可能性の高さを示す尤度と単調に関係付けられている。同様に、プロセッサ131は、(チャネル101の情報から)信号Qを生成する。この時、信号Qは一連の発話尤度値の系列を表し、当該発話尤度値の各々は、異なる時刻(または時間ウィンドウ)におけるチャネル101内の音声信号が発話内容を表している可能性の高さを示す尤度と単調に関係付けられている。同様に、プロセッサ132は、(非発話チャネル103の情報から)信号Tを生成する。この時、信号Tは一連の発話尤度値の系列を表し、当該発話尤度値の各々は、異なる時刻(または時間ウィンドウ)におけるチャネル103内の音声信号が発話内容を表している可能性の高さを示す尤度と単調に関係付けられている。プロセッサ130、131および132の各々は、チャネル102、101および103の関連する一つの上において非特許文献1に記載の仕組みを実装することにより、上記において説明した動作を実行する。代替的に、信号Pは、例えばコンテンツ製作者などによる手操作入力により生成され、エンド・ユーザに向けてチャネル102上の音声信号と一緒にして送信されるようにしても良い。そして、プロセッサ130は単にそのような予め生成されていた信号Pをチャネル102から抽出するだけでよい(あるいは、プロセッサ130は省略され、予め生成されていた信号Pは、プロセッサ134に対する直接的な入力としてアサートされるようにしても良い)。同様に、信号Qは、手操作入力により生成され、エンド・ユーザに向けてチャネル101上の音声信号と一緒にして送信されるようにしても良い。そして、プロセッサ131は単にそのような予め生成されていた信号Qをチャネル101から抽出するだけでよい(あるいは、プロセッサ131は省略され、予め生成されていた信号Qは、プロセッサ134および135に対する直接的な入力としてアサートされるようにしても良い)。同様に、信号Tは、手操作入力により生成され、エンド・ユーザに向けてチャネル103上の音声信号と一緒にして送信されるようにしても良い。そして、プロセッサ132は単にそのような予め生成されていた信号Tをチャネル103から抽出するだけでよい(あるいは、プロセッサ132は省略され、予め生成されていた信号Tは、プロセッサ135に対する直接的な入力としてアサートされるようにしても良い)。
プロセッサ134の典型的な実装においては、信号PおよびQによって決定された発話尤度値は、対にして比較される。その結果、信号Pの一連の電流値の系列中の各値に関して信号PとQそれぞれの2つの電流値の間の差分が決定される。プロセッサ135の典型的な実装においては、信号TおよびQによって決定された発話尤度値は、対にして比較される。その結果、信号TおよびQの一連の電流値の系列中の各値に関して信号Qそれぞれの2つの電流値の間の差分が決定される。以上の結果として、プロセッサ134と135の各々は、発話尤度値の一対に関して、複数の異なる値から成る一の時系列を生成する。
プロセッサ134および135は、時間平均化により上記のような一連の差分値の系列を平滑化し、さらに任意付加的な処理として、結果として得られた時間平均された一連の差分値の系列をスケーリングするように実装されることが好ましい。上記のとおり時間平均化され、さらにスケーリングされ、プロセッサ134および135から出力される一連の差分値が、乗算器114および115の出力信号がダッキング増幅回路116および117を動作制御するのに有益な範囲内に収まるようにするために、上記のとおり時間平均化された一連の異なる差分値から成る系列が、スケーリング処理されることは、必要なことである可能性がある。
本発明に係る典型的な実施態様においては、プロセッサ134から出力される信号S1は、時間平均化されスケーリングされた一連の異なる値から成る系列である(時間平均化されスケーリングされた一連の異なる値の各々は、異なる時間ウィンドウ内における信号PとQのそれぞれの電流値同士の間の一連の差分値のスケーリングされた時間平均である)。信号S1は、非発話チャネル102に関するダッキング利得制御信号であり、非発話チャネル102に関して独立に生成された未加工のダッキング利得制御信号C1をスケーリングするために使用される。同様に、本発明に係る典型的な実施態様においては、プロセッサ135から出力される信号S2は、時間平均化されスケーリングされた一連の異なる値から成る系列である(時間平均化されスケーリングされた一連の異なる値の各々は、異なる時間ウィンドウ内における信号TとQのそれぞれの電流値同士の間の一連の差分値のスケーリングされた時間平均である)。信号S2は、非発話チャネル103に関するダッキング利得制御信号であり、非発話チャネル103に関して独立に生成された未加工のダッキング利得制御信号C2をスケーリングするために使用される。
本発明に従い、ダッキング利得制御信号S1に応じて未加工のダッキング利得制御信号C1をスケーリングする処理は、(要素114内において)信号C1が表す未加工の利得制御値の各々に対して、信号S1における時間平均化されスケーリングされた一連の異なる値の中の対応する一つを乗算して、信号S3を生成することにより実行することが可能である。本発明に従い、ダッキング利得制御信号S2に応じて未加工のダッキング利得制御信号C2をスケーリングする処理は、信号C2が表す未加工の利得制御値の各々を信号S2における時間平均化されスケーリングされた一連の異なる値の中の対応する一つにより(要素115内で実行される)乗算して、信号S4を生成することにより実行することが可能である。
次に、図1Bを参照しながら、本発明に係る他の実施形態(125’)について説明する。発話チャネル101(中心チャネルC)および2つの非発話チャネル102と103(左側のチャネルLと右側のチャネルR)を備える多重チャネル音声信号に応じて、図1Bに示すシステムは、これら非発話チャネルをフィルタリングする。そしてその結果、図1Bのシステムは、発話チャネル101とフィルタリング済の非発話チャネル118と119(フィルタリング済みの左側と右側のチャネルL’とR’)を備えるフィルタリング済みの多重チャネル出力音声信号を生成する。
図1Bに示すシステムにおいては、(図1Aに示すシステムと同様に)非発話チャネル102および103は、ダッキング増幅回路117および116にそれぞれ入力としてアサートされる。動作中において、ダッキング増幅回路117は、乗算器115から出力される制御信号S4(これは一連の制御値の系列を表し、従って、制御値の系列S4とも呼ばれる)によって動作制御される。また、ダッキング増幅回路116は、乗算器114から出力される制御信号S3(これは一連の制御値の系列を表し、従って、制御値の系列S3とも呼ばれる)によって動作制御される。図1B中の構成要素104、105、106、107、108、109(構成要素110、120、121、111−1、112−1、111および112)、114、115、130、131、132、134および135は、図1A中においてそれぞれ同一の参照番号を付された構成要素と同一である(そして、同一の機能を実行する)。そして、図1Bにおけるこれらの構成要素に関する説明は、図1Aに関連して述べたこれらの構成要素の説明と同様であるため、省略する。
図1Bに示すシステムが図1Aに示すシステムと相違する点は以下のとおりである。(プロセッサ134から出力としてアサートされる)制御信号S1ではなく、(乗算器214から出力としてアサートされる)制御信号V1が、(リミッター要素111から出力としてアサートされる)制御信号C1をスケーリングするために使用される。(プロセッサ135から出力としてアサートされる)制御信号S2ではなく、(乗算器215から出力としてアサートされる)制御信号V2が、(リミッター要素112から出力としてアサートされる)制御信号C2をスケーリングするために使用される。図1Bにおいて、本発明に従い、一連の減衰制御値V1の系列に応じて、未加工のダッキング利得制御信号C1をスケーリングする処理は、(要素114中において)一連の減衰制御値V1の中の対応する一つを、信号C1の未加工の利得制御値の各々に対して乗算し、信号S3を生成することにより実行される。同様に、本発明に従い、一連の減衰制御値V2の系列に応じて、未加工のダッキング利得制御信号C2をスケーリングする処理は、(要素115中において)一連の減衰制御値V2の中の対応する一つを、信号C2の未加工の利得制御値の各々に対して乗算し、信号S4を生成することにより実行される。
一連の減衰制御値V1の系列を生成するために、(プロセッサ131の出力としてアサートされる)信号Qは、乗算器214の一方の入力端子に対してアサートされ、(プロセッサ134の出力としてアサートされる)制御信号S1は、乗算器214の他方の入力端子に対してアサートされる。乗算器214の出力は、一連の減衰制御値V1の系列である。一連の減衰制御値V1の各々は、信号Qから判定される発話尤度値の中の一つを、一連の減衰制御値S1の中の対応する一つによりスケーリングしたものである。
同様に、一連の減衰制御値V2の系列を生成するために、(プロセッサ131の出力としてアサートされる)信号Qは、乗算器215の一方の入力端子に対してアサートされ、(プロセッサ135の出力としてアサートされる)制御信号S2は、乗算器215の他方の入力端子に対してアサートされる。乗算器215の出力は、一連の減衰制御値V2の系列である。一連の減衰制御値V2の各々は、信号Qから判定される発話尤度値の中の一つを、一連の減衰制御値S2の中の対応する一つによりスケーリングしたものである。
図1Aに示すシステム(あるいは、図1Bに示すシステム)は、プロセッサ(例えば、図5に示すプロセッサ501)により実行され、図1A(または図1B)のシステムに関して上述された動作を実装するようにプログラミングされたソフトウェアとして実現されることが可能である。代替的に、上記システムは、図1A(または図1B)に示されるように接続された複数の回路要素によって、ハードウェアとして実現されることが可能である。
図1Aに示す実施形態(あるいは、図1Bに示す実施形態)の変形実施例においては、本発明に従って、ダッキング利得制御信号S1(またはV1)に応じて、未加工のダッキング利得制御信号C1をスケーリングする(そしてその結果、増幅回路116を動作制御するためのダッキング利得制御信号の生成する)処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、(上述した信号S3に置き換わる代替的信号として)以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、S1(またはV1)の電流値が閾値を下回る場合には、増幅回路116によるダッキング動作は全く行われない(即ち、増幅回路116によって単位利得を適用し、その結果、チャネル103の減衰が全くなされない)ようにする。他方、信号S1の電流値が閾値を上回った場合には、(上述した信号S3に置き換わる)ダッキング利得制御信号の電流値が信号C1の電流値と等しくなるようにする(即ち、この場合、信号S1(またはV1)はC1の電流値を修正しない)。代替的に、(本発明に係るダッキング利得制御信号S1またはV1に応じた)信号C1に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路116を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、信号C1に対するそのようなスケーリング処理は、(上述した信号S3に置き換わる代替的信号として)以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、S1(またはV1)の電流値が閾値を下回る場合には、増幅回路116によるダッキング動作は全く行われない(即ち、増幅回路116によって単位利得を適用する)ようにする。他方、信号S1(またはV1)の電流値が閾値を上回った場合には、(上述した信号S3に置き換わる)ダッキング利得制御信号の電流値が信号C1の電流値に信号S1またはV1の電流値を乗算した値(またはこの乗算による積の値から決定されるその他の何らかの値)と等しくなるようにする。
同様に、図1Aに示す実施形態(あるいは、図1Bに示す実施形態)の変形実施例においては、本発明に従って、ダッキング利得制御信号S2(またはV2)に応じて、未加工のダッキング利得制御信号C2をスケーリングする(そしてその結果、増幅回路117を動作制御するためのダッキング利得制御信号の生成する)処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、(上述した信号S4に置き換わる代替的信号として)以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、S2(またはV2)の電流値が閾値を下回る場合には、増幅回路117によるダッキング動作は全く行われない(即ち、増幅回路117によって単位利得を適用し、その結果、チャネル102の減衰が全くなされない)ようにする。他方、信号S2(またはV2)の電流値が閾値を上回った場合には、(上述した信号S4に置き換わる)ダッキング利得制御信号の電流値が信号C2の電流値と等しくなるようにする(即ち、この場合、信号S2(またはV2)はC2の電流値を修正しない)。代替的に、(本発明に係るダッキング利得制御信号S2またはV2に応じた)信号C2に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路117を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、信号C2に対するそのようなスケーリング処理は、(上述した信号S4に置き換わる代替的信号として)以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、S2(またはV2)の電流値が閾値を下回る場合には、増幅回路117によるダッキング動作は全く行われない(即ち、増幅回路117によって単位利得を適用する)ようにする。他方、信号S2(またはV2)の電流値が閾値を上回った場合には、(上述した信号S4に置き換わる)ダッキング利得制御信号の電流値が信号C2の電流値に信号S2またはV2の電流値を乗算した値(またはこの乗算による積の値から決定されるその他の何らかの値)と等しくなるようにする。
次に、図2Aを参照しながら、本発明に係るシステムの他の実施形態(225)を以下において説明する。発話チャネル101(中心チャネルC)および2つの非発話チャネル102と103(左側のチャネルLと右側のチャネルR)を備える多重チャネル音声信号に応じて、図2Aに示すシステムは、これら非発話チャネルをフィルタリングする。そしてその結果、図2Aのシステムは、発話チャネル101とフィルタリング済の非発話チャネル118と119(フィルタリング済みの左側と右側のチャネルL’とR’)を備えるフィルタリング済みの多重チャネル出力音声信号を生成する。
図2Aに示すシステムにおいては、(図1Aに示すシステムと同様に)非発話チャネル102および103は、ダッキング増幅回路117および116にそれぞれ入力としてアサートされる。動作中において、ダッキング増幅回路117は、乗算器115から出力される制御信号S6(これは一連の制御値の系列を表し、従って、制御値の系列S6とも呼ばれる)によって動作制御される。また、ダッキング増幅回路116は、乗算器114から出力される制御信号S5(これは一連の制御値の系列を表し、従って、制御値の系列S5とも呼ばれる)によって動作制御される。図2A中の構成要素114、115、130、131、132、134および135は、図1A中においてそれぞれ同一の参照番号を付された構成要素と同一である(そして、同一の機能を実行する)。そして、図1Bにおけるこれらの構成要素に関する説明は、図1Aに関連して述べたこれらの構成要素の説明と同様であるため、省略する。
図2Aに示すシステムは、チャネル101、102および103の各々における信号の電力を、電力推定回路201、202および203から成るバンクを使用して計測する。図1Aにおいてこれらに対応する電力推定回路とは異なり、電力推定回路201、202および203の各々は、周波数軸上に渡って信号電力の分布(即ち、複数の周波数帯域の組の中における関連するチャネルに対応する互いに異なる各周波数帯域中の電力)を計測する。その結果として、各チャネルに関して単一の計測値ではなく、電力のスペクトルが生成される。電力スペクトルの各々のスペクトル分解能は、理想的に言えば、(以下において検討する)構成要素205および206によって実装される明瞭度予測モデルに関するスペクトル分解能と一致する。
当該電力スペクトルは、比較回路204に供給される。比較回路204の目的は、非発話チャネルの各々に対して適用される減衰率を決定することである。上記の減衰率は、非発話チャネル内の信号が発話チャネル内の信号の明瞭度を所定の基準値よりも下に低減しないことを保証するものでなくてはならない。このような機能は、明瞭度予測回路(205および206)を採用することによって実現される。明瞭度予測回路は、発話チャネル内の信号の電力スペクトル(201)および非発話チャネル内の信号の電力スペクトル(202および203)から発話内容の明瞭度を予測する回路である。明瞭度予測回路205および206は、設計上の判断および各種のトレードオフに従って、適切な明瞭度予測モデルを実装することが可能である。このような明瞭度予測モデルの複数の具体例としては、非特許文献2に規定された「発話内容の明瞭度の指標」および非特許文献3に記載されている「発話認識感度モデル」などがある。発話チャネル内の信号が発話内容以外の信号である場合には、明瞭度予測モデルによる出力は何の意味も有さないことは自明である。にもかかわらず、明瞭度予測モデルの出力に後続する情報中に含まれるものは、予測された発話内容の明瞭度と呼ばれる。比較回路204から出力される利得値をパラメータS1およびS2を使用してスケーリングすることにより、知覚される誤動作を考慮した追加の処理が、後続の処理においてなされる。なお、S1およびS2の各々は、発話チャネル内の信号が発話内容を表している可能性の高さを示す尤度と関係付けられている。
複数の明瞭度予測モデルは、非発話チャネル内の信号のレベルを低減する結果として、増加するか、または変化しないかの何れか一方である発話内容の明瞭度を予測するという点で共通している。図2A中の処理フローの流れの説明を続けると、比較回路207および208は、上記の予測された明瞭度を所定の基準値と比較する。もしも、上記の予測された明瞭度が上記の基準値を超えてしまうほどに非発話チャネル103の信号レベルが低いと構成要素205が判定するならば、利得パラメータ(この値の初期値は0dBとされる)が回路209から抽出され、比較回路204の出力C3として回路211に供給される。もしも、上記の予測された明瞭度が上記の基準値を超えてしまうほどに非発話チャネル102の信号レベルが低いと構成要素206が判定するならば、利得パラメータ(この値の初期値は0dBとされる)が回路210から抽出され、比較回路204の出力C3として回路212に供給される。もしも、上記した基準値が満たされないと構成要素205または206が判定するならば、利得パラメータ(構成要素209および210のうちの関連する一方)は、一定の量だけ減らされ、明瞭度の予測動作が反復される。上記の利得パラメータを減らす際の適切なステップ幅は1[dB]である。上記のとおり説明した反復動作は、予測された明瞭度が上記の基準値を充足するかまたは超えるまで継続される。
非発話チャネル内の信号が全く存在しない場合においてさえ、明瞭度の基準値が達成され得ないような信号を発話チャネル内の信号とすることももちろん可能である。そのような状況が起こり得る具体例としては、発話信号のレベルが非常に低い、または極端に限定された周波数帯域で伝送されている場合などである。そのような状況が起こった場合、非発話チャネルに対して適用される利得値をこれ以上どんなに減少させても、予測される発話内容の明瞭度に全く影響を与えないような点に到達し、基準値は決して満たされることが無い。そのような条件の下では、構成要素205、207および209(あるいは構成要素206、208および210)によって形成されるループ処理は無限に継続し、そのような無限のループを断ち切るために、追加の処理ロジック(図示せず)が適用されることが可能である。そのような追加の処理ロジックの特に単純な一例としては、ループの反復回数をカウントし、所定の反復回数を超えたらループ処理から抜け出すものがある。
本発明に従い、ダッキング利得制御信号S1に応じて未加工のダッキング利得制御信号C3をスケーリングする処理は、(要素114内において)信号C3が表す未加工の利得制御値の各々に対して、信号S1における時間平均化されスケーリングされた一連の異なる値の中の対応する一つを乗算して、信号S5を生成することにより実行することが可能である。本発明に従い、ダッキング利得制御信号S2に応じて未加工のダッキング利得制御信号C4をスケーリングする処理は、信号C4が表す未加工の利得制御値の各々を信号S2における時間平均化されスケーリングされた一連の異なる値の中の対応する一つにより(要素115内で実行される)乗算して、信号S6を生成することにより実行することが可能である。
図2Aに示すシステムは、プロセッサ(例えば、図5に示すプロセッサ501)により実行され、図2Aのシステムに関して上述された動作を実装するようにプログラミングされたソフトウェアとして実現されることが可能である。代替的に、上記システムは、図2Aに示されるように接続された複数の回路要素によって、ハードウェアとして実現されることが可能である。
図2Aに示す実施形態の変形実施例においては、本発明に従って、ダッキング利得制御信号S1に応じて、未加工のダッキング利得制御信号C3をスケーリングする(そしてその結果、増幅回路116を動作制御するためのダッキング利得制御信号の生成する)処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、(上述した信号S5に置き換わる代替的信号として)以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、S1の電流値が閾値を下回る場合には、増幅回路116によるダッキング動作は全く行われない(即ち、増幅回路116によって単位利得を適用し、その結果、チャネル103の減衰が全くなされない)ようにする。他方、信号S1の電流値が閾値を上回った場合には、(上述した信号S5に置き換わる)ダッキング利得制御信号の電流値が信号C3の電流値と等しくなるようにする(即ち、この場合、信号S1はC3の電流値を修正しない)。代替的に、(本発明に係るダッキング利得制御信号S1に応じた)信号C3に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路116を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、信号C3に対するそのようなスケーリング処理は、(上述した信号S5に置き換わる代替的信号として)以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、S1の電流値が閾値を下回る場合には、増幅回路116によるダッキング動作は全く行われない(即ち、増幅回路116によって単位利得を適用する)ようにする。他方、信号S1の電流値が閾値を上回った場合には、(上述した信号S5に置き換わる)ダッキング利得制御信号の電流値が信号C3の電流値に信号S1の電流値を乗算した値(またはこの乗算による積の値から決定されるその他の何らかの値)と等しくなるようにする。
同様に、図2Aに示す実施形態の変形実施例においては、本発明に従って、ダッキング利得制御信号S2に応じて、未加工のダッキング利得制御信号C4をスケーリングする(そしてその結果、増幅回路117を動作制御するためのダッキング利得制御信号の生成する)処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、(上述した信号S6に置き換わる代替的信号として)以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、S2の電流値が閾値を下回る場合には、増幅回路117によるダッキング動作は全く行われない(即ち、増幅回路117によって単位利得を適用し、その結果、チャネル102の減衰が全くなされない)ようにする。他方、信号S2の電流値が閾値を上回った場合には、(上述した信号S6に置き換わる)ダッキング利得制御信号の電流値が信号C4の電流値と等しくなるようにする(即ち、この場合、信号S2はC4の電流値を修正しない)。代替的に、(本発明に係るダッキング利得制御信号S2に応じた)信号C4に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路117を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、信号C4に対するそのようなスケーリング処理は、(上述した信号S6に置き換わる代替的信号として)以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、S2の電流値が閾値を下回る場合には、増幅回路117によるダッキング動作は全く行われない(即ち、増幅回路117によって単位利得を適用する)ようにする。他方、信号S2の電流値が閾値を上回った場合には、(上述した信号S6に置き換わる)ダッキング利得制御信号の電流値が信号C4の電流値に信号S2の電流値を乗算した値(またはこの乗算による積の値から決定されるその他の何らかの値)と等しくなるようにする。
次に、図2Bを参照しながら、本発明に係るシステムの他の実施形態(225’)を以下において説明する。発話チャネル101(中心チャネルC)および2つの非発話チャネル102と103(左側のチャネルLと右側のチャネルR)を備える多重チャネル音声信号に応じて、図2Bに示すシステムは、これら非発話チャネルをフィルタリングする。そしてその結果、図2Bのシステムは、発話チャネル101とフィルタリング済の非発話チャネル118と119(フィルタリング済みの左側と右側のチャネルL’とR’)を備えるフィルタリング済みの多重チャネル出力音声信号を生成する。
図2Bに示すシステムにおいては、(図2Aに示すシステムと同様に)非発話チャネル102および103は、ダッキング増幅回路117および116にそれぞれ入力としてアサートされる。動作中において、ダッキング増幅回路117は、乗算器115から出力される制御信号S6(これは一連の制御値の系列を表し、従って、制御値の系列S6とも呼ばれる)によって動作制御される。また、ダッキング増幅回路116は、乗算器114から出力される制御信号S5(これは一連の制御値の系列を表し、従って、制御値の系列S5とも呼ばれる)によって動作制御される。図2B中の構成要素201、202、203、204、114、115、130、131、および134は、図2A中においてそれぞれ同一の参照番号を付された構成要素と同一である(そして、同一の機能を実行する)。そして、図2Bにおけるこれらの構成要素に関する説明は、図2Aに関連して述べたこれらの構成要素の説明と同様であるため、省略する。
図2Bに示すシステムは、図2Aに示すシステムと比べて、以下の2つの点で異なっている。まず第1に、図2Bのシステムは、入力された音声信号の中の2つの個別の非発話チャネル(102と103)から、一つの「導出された非発話チャネル(L+R)」を生成し(即ち、導出し)、この「導出された非発話チャネル」に応じて、減衰制御値(V3)を決定する。これとは反対に、図2Aのシステムは、入力された音声信号の中の一方の非発話チャネル(チャネル102)に応じて減衰制御値S1を決定し、入力された音声信号の中の他方の非発話チャネル(チャネル103)に応じて減衰制御値S2を決定する。動作中において、図2Bのシステムは、複数の減衰制御値V3から成る同一の組に応じて、入力された音声信号の中の非発話チャネルの各々(チャネル102および103の各々)を減衰処理する。動作中において、図2Aのシステムは、複数の減衰制御値S2に応じて入力された音声信号の非発話チャネル102を減衰処理し、S2とは異なる複数の減衰制御値S1の組に応じて入力された音声信号の非発話チャネル103を減衰処理する。
図2Bに示すシステムは、加算器要素129を含み、その入力は、入力音声信号の中の非発話チャネル102および103を受信するために接続される。「導出された非発話チャネル(L+R)」は、構成要素120の出力としてアサートされる。発話尤度処理要素130は、構成要素129からの「導出された非発話チャネル(L+R)」に応じて、発話尤度信号Pを出力としてアサートする。図2Bにおいて、信号Pは、「導出された非発話チャネル」に関する一連の発話尤度値から成る一つの系列を表す。典型的には、図2Bに示す発話尤度信号Pは、「導出された非発話チャネル」内の音声信号が発話内容である可能性の高さを示す尤度と単調に関係付けられた値である。図2Bにおいて、(プロセッサ131により生成される)発話尤度信号Qは、図2Aに関して上述した発話尤度信号Qと同一である。
図2Bのシステムが図2Aのシステムと相違する第2の点は以下のとおりである。図2Bにおいて、(乗算器214の出力としてアサートされる)制御信号V3は、(構成要素211の出力としてアサートされる)未加工のダッキング利得制御信号C3をスケーリングするために使用され(この場合、プロセッサ134の出力としてアサートされる制御信号S1はこのスケーリングのためには使用されない)、さらに、制御信号V3は、(構成要素212の出力としてアサートされる)未加工のダッキング利得制御信号C4をスケーリングするためにも使用される(この場合、図2Aのプロセッサ135の出力としてアサートされる制御信号S2はこのスケーリングのためには使用されない)。図2Bにおいて、本発明に従い、信号V3(これは、減衰制御値V3と呼ばれる)によって表される一連の減衰制御値の系列に応じて、未加工のダッキング利得制御信号C3をスケーリングする処理は、(構成要素114内において)信号C3が表す未加工のダッキング利得制御信号の各々を一連の減衰制御値V3の対応する一つと乗算し、信号S5を生成することによって実行される。同様に、本発明に従い、信号V3(これは、減衰制御値V3と呼ばれる)によって表される一連の減衰制御値の系列に応じて、未加工のダッキング利得制御信号C4をスケーリングする処理は、(構成要素115内において)信号C4が表す未加工のダッキング利得制御信号の各々を一連の減衰制御値V3の対応する一つと乗算し、信号S6を生成することによって実行される。
動作中において、図2Bのシステムは、一連の減衰制御値V3の系列を以下のようにして生成する。(図2B中のプロセッサ131の出力としてアサートされる)発話尤度信号Qは、乗算器214の一方の入力端子に対してアサートされ、(プロセッサ134の出力としてアサートされる)減衰制御信号S1は、乗算器214の他方の入力端子に対してアサートされる。乗算器214の出力は、一連の減衰制御値V3の系列である。一連の減衰制御値V3の各々は、信号Qから判定される複数の発話尤度値の中の一つを、一連の減衰制御値S1の対応する一つを使用してスケーリングした値である。
次に、図3を参照しながら、本発明に係るシステムの他の実施形態(325)を以下において説明する。発話チャネル101(中心チャネルC)および2つの非発話チャネル102と103(左側のチャネルLと右側のチャネルR)を備える多重チャネル音声信号に応じて、図3に示すシステムは、これら非発話チャネルをフィルタリングする。そしてその結果、図3のシステムは、発話チャネル101とフィルタリング済の非発話チャネル118と119(フィルタリング済みの左側と右側のチャネルL’とR’)を備えるフィルタリング済みの多重チャネル出力音声信号を生成する。
図3に示すシステムにおいて、上記の3つの入力チャネル内の信号の各々は、(チャネル101に関する)フィルターバンク301、(チャネル102に関する)フィルターバンク302および(チャネル103に関する)フィルターバンク303により、周波数スペクトル成分へと分解される。この場合の周波数解析は、時間領域におけるN重チャネルのフィルターバンクによって実現することが可能である。本発明の一実施形態に従うならば、フィルターバンクの各々は、周波数範囲をそれぞれ1/3オクターブの各帯域に区分けする。これは、人間の内耳の中で生起すると想定される音声フィルタリング動作と類似するものである。フィルターバンクの各々から出力される信号がN個のサブシグナルによって構成されている事は、図中において太い線を使用することによって図示されている。
図3に示すシステムにおいては、非発話チャネル102および103内の信号の周波数成分は、ダッキング増幅回路117および116にそれぞれ入力としてアサートされる。動作中において、ダッキング増幅回路117は、乗算器115’から出力される制御信号S8(これは一連の制御値の系列を表し、従って、制御値の系列S8とも呼ばれる)によって動作制御される。また、ダッキング増幅回路116は、乗算器114’から出力される制御信号S7(これは一連の制御値の系列を表し、従って、制御値の系列S7とも呼ばれる)によって動作制御される。図3中の構成要素130、131、132、134および135は、図1A中においてそれぞれ同一の参照番号を付された構成要素と同一である(そして、同一の機能を実行する)。そして、図3におけるこれらの構成要素に関する説明は、図1Aに関連して述べたこれらの構成要素の説明と同様であるため、省略する。
図3に示す処理過程は一種の側枝処理として理解できる。図3に示す信号経路に沿って説明すると、非発話チャネル102に関してバンク302において生成されたN個のサブシグナルは、ダッキング増幅回路117によるN個の利得値の集合中の各メンバーにより各々スケーリング処理される。同様に、非発話チャネル103に関してバンク303において生成されたN個のサブシグナルは、ダッキング増幅回路116によるN個の利得値の集合中の各メンバーにより各々スケーリング処理される。これらの利得値の導出に関しては、以降において説明する。次に、上記のとおりスケーリング処理された複数のサブシグナルは、単一の音声信号に再合成される。この処理は、(チャネル102に関しては加算回路313を使用し、チャネル103に関しては加算回路314を使用して)単純な加算により実行される。代替的に、分析的フィルターバンクとの整合がとられる合成的フィルターバンクを使用することも可能である。この処理過程は、修正された非発話信号R’(118)および修正された非発話信号L’(119)を結果として生じさせる。
以下、図3に示す処理過程における信号経路の側枝処理部分について説明する。フィルターバンクの各出力は、N個の電力推定回路(304、305および306)から成るバンクの対応する一つに対して利用可能とされる。チャネル101およびチャネル102に関して結果として得られる電力スペクトルは、N次元の利得ベクトルC6を出力として有する最適化回路307に対する入力としての役割を持つ。チャネル101およびチャネル103に関して結果として得られる電力スペクトルは、N次元の利得ベクトルC5を出力として有する最適化回路308に対する入力としての役割を持つ。最適化処理は、明瞭度予測回路(309および310)および音量計算回路(311および312)の両者を使用する。これらの回路は、チャネル101内の発話信号の予測される明瞭度を所定のレベルに維持しながら、非発話チャネルの各々の音量を最大化する利得ベクトルを発見するための回路である。明瞭度を予測するための適切なモデルについては、図2Aを参照しながら既に検討した。音量計算回路311および312は、設計上の判断と各種のトレードオフに従って、適切な音量予測モデルを実装することが可能である。適切な音量予測モデルの具体例としては、上記の非特許文献4および非特許文献5がある。
利用可能な計算リソースと課される制約条件に応じて、最適化回路(307および308)の形態と複雑さは大きく異なる可能性がある。本発明の一実施形態に従うならば、N個の自由パラメータの反復的で、かつ多次元の制約付最適化が使用される。各パラメータは、非発話チャネルの複数の周波数帯域の中の一つに適用される利得を表す。最大値を発見するために、例えば、N次元の探索空間内で最急勾配法を使用する方法のような標準的な技法を応用することが可能である。本発明に係る他の実施形態においては、より少ない計算量を要求するアプローチは、利得-対-周波数の関数に関して以下の制約を課す。即ち、利得-対-周波数の関数の各々を、複数の異なるスペクトル勾配または棚状フィルターから成る一組のように複数の可能な利得-対-周波数の関数から成る小さな集合の中の各メンバーとしなくてはならない。この制約条件が加わることにより、最適化問題は、少数の一次元最適化問題に簡約化される。本発明に係るさらにもう一つの実施形態においては、複数の可能な利得関数から成る非常に小さな集合の上で、網羅的な探索処理が実行される。この後者のアプローチは、計算負荷と探索速度を一定に保つことが望ましい実時間アプリケーションにおいて特に望ましいだろう。
本発明に係る追加的な実施形態に従うならば、最適化処理に際して課されることが可能な追加的な制約条件があり得ることを当業者は容易に認識するだろう。その一つの具体例は、上記の修正された非発話チャネルの音量が修正処理の前の音量よりも大きくならないように制限することである。もう一つの具体例は、隣接する周波数帯域同士の間の利得の差に上限を課すことである。このようにする目的は、再構成フィルターバンク(313および314)内における時間的エイリアシングのポテンシャルを制限する、あるいは、音質に好ましくない修正が加わる可能性を低減するためである。望ましい制約条件は、フィルターバンクの技術的な実現方法、および明瞭度の改善と音質の修正との間に生じる選択されたトレードオフの両者に依存して決まる。説明を分かりやすくするために、これらの制約条件は図2Aにおいて省略されている。
本発明に従うならば、ダッキング利得制御信号S2に応じて、未加工のダッキング利得制御値から成るN次元ベクトルをスケーリングする処理は、(構成要素115’内において)ベクトルC6中の未加工の利得制御値の各々に対して、信号S2中の時間平均化されスケーリングされた一連の差分値の中の対応する一つを乗算して、N次元のダッキング利得制御ベクトルS8を生成することにより実行される。本発明に従うならば、ダッキング利得制御信号S1に応じて、未加工のダッキング利得制御値から成るN次元ベクトルをスケーリングする処理は、(構成要素114’内において)ベクトルC5中の未加工の利得制御値の各々に対して、信号S1中の時間平均化されスケーリングされた一連の差分値の中の対応する一つを乗算して、N次元のダッキング利得制御ベクトルS7を生成することにより実行される。
図3に示すシステムは、プロセッサ(例えば、図5に示すプロセッサ501)により実行され、図3のシステムに関して上述された動作を実装するようにプログラミングされたソフトウェアとして実現されることが可能である。代替的に、上記システムは、図3に示されるように接続された複数の回路要素によって、ハードウェアとして実現されることが可能である。
図3に示す実施形態の変形実施例においては、本発明に従って、ダッキング利得制御信号S1に応じて、未加工のダッキング利得制御ベクトルC5をスケーリングする(そしてその結果、増幅回路116を動作制御するためのダッキング利得制御ベクトルを生成する)処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、(上述した信号S7に置き換わる代替的信号として)以下のようなダッキング利得制御ベクトルを生成することが可能である。即ち、上記ダッキング利得制御信号は、S1の電流値が閾値を下回る場合には、増幅回路116によるダッキング動作は全く行われない(即ち、増幅回路116によって単位利得を適用し、その結果、チャネル103の減衰が全くなされない)ようにする。他方、信号S1の電流値が閾値を上回った場合には、(上述した信号S7に置き換わる)ダッキング利得制御ベクトルの電流値がベクトルC5の電流値と等しくなるようにする(即ち、この場合、信号S1はC5の電流値を修正しない)。代替的に、(本発明に係るダッキング利得制御信号S1に応じた)ベクトルC5に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路116を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、ベクトルC5に対するそのようなスケーリング処理は、(上述した信号S7に置き換わる代替的信号として)以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、S1の電流値が閾値を下回る場合には、増幅回路116によるダッキング動作は全く行われない(即ち、増幅回路116によって単位利得を適用する)ようにする。他方、信号S1の電流値が閾値を上回った場合には、(上述した信号S7に置き換わる)ダッキング利得制御ベクトルの電流値がベクトルC5の電流値に信号S1の電流値を乗算した値(またはこの乗算による積の値から決定されるその他の何らかの値)と等しくなるようにする。
同様に、図3に示す実施形態の変形実施例においては、本発明に従って、ダッキング利得制御信号S2に応じて、未加工のダッキング利得制御ベクトルC6をスケーリングする(そしてその結果、増幅回路117を動作制御するためのダッキング利得制御信号の生成する)処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、(上述した信号S8に置き換わる代替的信号として)以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、S2の電流値が閾値を下回る場合には、増幅回路117によるダッキング動作は全く行われない(即ち、増幅回路117によって単位利得を適用し、その結果、チャネル102の減衰が全くなされない)ようにする。他方、信号S2の電流値が閾値を上回った場合には、(上述した信号S8に置き換わる)ダッキング利得制御ベクトルの電流値がベクトルC6の電流値と等しくなるようにする(即ち、この場合、信号S2はC6の電流値を修正しない)。代替的に、(本発明に係るダッキング利得制御信号S2に応じた)ベクトルC6に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路117を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、ベクトルC6に対するそのようなスケーリング処理は、(上述した信号S8に置き換わる代替的信号として)以下のようなダッキング利得制御ベクトルを生成することが可能である。即ち、上記ダッキング利得制御ベクトルは、S2の電流値が閾値を下回る場合には、増幅回路117によるダッキング動作は全く行われない(即ち、増幅回路117によって単位利得を適用する)ようにする。他方、信号S2の電流値が閾値を上回った場合には、(上述した信号S8に置き換わる)ダッキング利得制御ベクトルの電流値がベクトルC6の電流値に信号S2の電流値を乗算した値(またはこの乗算による積の値から決定されるその他の何らかの値)と等しくなるようにする。
図1A、図1B、図2A、図2Bおよび図3に示すシステム(およびこれらの中の何れかの変形実施例)は発話チャネルの他に任意の個数の非発話チャネルを有する多重チャネル音声入力信号をフィルタリングするように修正可能であることは、当業者にとっては、本明細書の開示から明らかであろう。ダッキング増幅回路(あるいは、これと等価な機能を実行するソフトウェア)は、非発話チャネルの各々に関して用意され、ダッキング利得制御信号は、(未加工のダッキング利得制御信号をスケーリングすることによって)これらのダッキング増幅回路(あるいは、これと等価な機能を実行するソフトウェア)の各々を動作制御するために、生成されるだろう。
上述したとおり、図1A、図1B、図2A、図2Bおよび図3に示すシステム(およびこれらシステムの数多くの変形実施例の各々)は、以下において説明する本発明に係る方法の複数の実施形態を実行するように動作可能である。即ち、本発明に係る方法は、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、以下の2つのステップを含む。すなわち、ステップ(a):発話チャネルから判定される「発話に関係する情報内容」と、当該多重チャネル音声信号内の少なくとも一つの非発話チャネルから判定される「発話に関係する情報内容」との間の類似度の尺度を表す少なくとも一つの減衰制御値(例えば、図1A、図1B、図2A、図2Bまたは図3における構成要素114と増幅回路116内に存する値、または構成要素115と増幅回路117内に存する値)を決定するステップ、および、ステップ(b):当該少なくとも一つの減衰制御値(例えば、図1A、図1B、図2A、図2Bまたは図3における構成要素114と増幅回路116内に存する値、または構成要素115と増幅回路117内に存する値)に応じて、当該多重チャネル音声信号の少なくとも一つの非発話チャネルを減衰させるステップ、とを含む構成を採る。典型的には、当該減衰させるステップは、当該少なくとも一つの減衰制御値に応じて、当該少なくとも一つの非発話チャネルに関する未加工の減衰制御信号(例えば、図1Aまたは図1B中において信号C1またはC2で表され、図2Aまたは図2B中において信号C3またはC4で表される「ダッキング利得制御信号」など)をスケーリングするステップを備える。好適には、本発明に係る方法では、当該発話チャネルから判定される発話内容の明瞭度を改善するように、当該非発話チャネルが減衰される。そして非発話チャネルに対する上記減衰は、当該非発話チャネルから判定される「発話内容の強化コンテンツ」に対する望ましくない減衰を伴うことが無いように、実行されなくてはならない。上記した第1類型の実施形態の幾つかにおいては、ステップ(a)は、一連の減衰制御値から成る単一の系列を表す減衰制御信号(例えば、図1A、3または5において信号S1またはS2として表され、図1Bまたは4において信号V1、V2またはV3として表されている)を生成するステップを含み、複数の減衰制御値の各々は、発話チャネルから判定される「発話に関係する情報内容」と、当該少なくとも一つの非発話チャネルから判定される「発話に関係する情報内容」との間の互いに異なる時刻における(例えば、異なる時間区間における)類似度の尺度を表す。そして、ステップ(b)は、当該減衰制御信号に応じて、ダッキング利得制御信号(例えば、図1Aまたは図1B中において信号C1またはC2で表され、図2Aまたは図2B中において信号C3またはC4で表される「ダッキング利得制御信号」など)をスケーリングして、スケーリングされた利得制御信号(例えば、図1Aまたは図1Bにおいて信号S3またはS4として表され、図2Aまたは図2Bにおいて信号S5またはS6として表されている)を生成し、当該少なくとも一つの非発話チャネルを減衰させるために、当該スケーリングされた利得制御信号を適用する(例えば、ダッキング処理回路により当該少なくとも一つの非発話チャネルの減衰動作を制御するために、ダッキング処理回路に対して当該スケーリングされた利得制御信号をアサートする等)。例えば、本発明に係る上記のような幾つかの実施形態においては、ステップ(a)は、(当該発話チャネルから判定される『発話に関連した情報内容』を表す)「発話に関連した第1の特性値の系列」(例えば、図1Aまたは図2Aにおける信号Q)を(当該少なくとも一つの非発話チャネルから判定される『発話に関連した情報内容』を表す)「発話に関連した第2の特性値の系列」(例えば、図1Aまたは図2Aにおける信号P)と比較して減衰制御信号を生成する。この時、減衰制御信号によって表される複数の減衰制御値の各々は、「発話に関連した特性値の第1の系列」および「発話に関連した特性値の第2の系列」の両者の間の互いに異なる時刻における(例えば、互いに異なる時間区間における)類似度の尺度を表している。本発明の幾つかの実施形態においては、減衰制御値の各々は、利得制御値である。
上記した第1類型の実施形態の幾つかにおいては、減衰制御値の各々は、音声信号内の少なくとも一つの非発話チャネルが、発話チャネルから判定される発話内容の明瞭度(またはその他の知覚される品質)を高める「発話内容の強化コンテンツ」を表している可能性の高さを表す尤度と単調に関係付けられる。上記した第1類型の実施形態の他の幾つかにおいては、減衰制御値の各々は、当該少なくとも一つの非発話チャネルに関する発話内容の強化度合いの予測される値と単調に関係付けられる(このような強化度合いの予測される値の一例は、当該少なくとも一つの非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、当該少なくとも一つの非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである)。例えば、ステップ(a)が、当該発話チャネルから判定される「発話に関連した情報内容」を表している「発話に関連した特性値の第1の系列」を当該少なくとも一つの非発話チャネルから判定される「発話に関連した情報内容」を表している「発話に関連した特性値の第2の系列」と比較するステップ(例えば、図1Aまたは図2A中の構成要素134または135において実行される動作)を含むような場合、「発話に関連した第1の特性値の系列」は、一連の発話尤度値の系列とすることが可能である。なお、当該発話尤度値の各々は、異なる時刻において(例えば、異なる時間区間において)、当該発話チャネルが(発話以外の音声コンテンツではなく)発話内容を表している可能性の高さを示す尤度を表す。さらに、「発話に関連した特性値の第2の系列」もまた、一連の発話尤度値の系列とすることが可能である。なお同様に、当該発話尤度値の各々は、異なる時刻において(例えば、異なる時間区間において)、当該少なくとも一つの非発話チャネルが発話内容を表している可能性の高さを示す尤度を表す。
上述したとおり、図1A、図1B、図2A、図2Bおよび図3に示すシステム(およびこれらシステムの数多くの変形実施例の各々)は、以下において説明する本発明に係る方法の第2類型の実施形態を実行するように動作可能である。即ち、本発明に係る方法は、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、以下の2つのステップを含む。ステップ(a):発話チャネルの特性と非発話チャネルの特性を比較して、発話チャネルと比較した場合の非発話チャネルの相対的な減衰率を制御するための少なくとも一つの減衰値(例えば、図1A中における信号C1またはC2から決定される値、図2A中における信号C3またはC4から決定される値、または図3中における信号C5またはC6から決定される値)を生成するステップ。ステップ(b):少なくとも一つの発話内容強化尤度値(例えば、図1A、図2Aまたは図3中における信号S1またはS2)に応じて当該少なくとも一つの減衰値を調節し、発話チャネルと比較した場合の非発話チャネルの相対的な減衰率を制御するための少なくとも一つの調節された減衰値(例えば、図1A中において信号S3またはS4から決定される値、図2A中において信号S5またはS6から決定される値、または図3中において信号S7またはS8から決定される値)を生成するステップ。典型的には、上記した減衰値を調節するステップは、上記した一つの発話内容強化尤度値に応じて上記した減衰値の各々をスケーリングし(例えば、図1A、図2Aまたは図3中の構成要素114または115内で実行される動作)、上記した一つの調節された減衰値を生成する。典型的には、発話内容強化尤度値の各々は、非発話チャネル(入力された音声信号の単一の非発話チャネルまたは複数の発話チャネルの組から導出された一つの発話チャネル)が「発話内容の強化コンテンツ(発話チャネルから判定された発話内容の明瞭度またはその他の知覚される品質を高める情報内容)」を表している可能性の高さを示す尤度を表す(例えば、そのような尤度と単調に関係付けされている)。本発明の幾つかの実施形態においては、当該発話内容強化尤度値は、非発話チャネルの発話内容の強化度合いの予測される値を表す(このような予測される値の一例は、非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである)。上記した実施形態の第3類型における幾つかの実施例では、上記した少なくとも一つの発話内容強化尤度値は、以下の動作を実行するステップを含む方法により決定される一連の比較値(例えば、差分値)から成る単一の系列である。比較値を決定する上記方法は、発話チャネルから判定された「発話に関係する情報内容」を表す「発話内容に関係した特性値の第1の系列」を非発話チャネルから判定された「発話に関係する情報内容」を表す「発話内容に関係した特性値の第2の系列」と比較する。なお、比較値の各々は、「発話内容に関係した特性値の第1の系列」と「発話内容に関係した特性値の第2の系列」との間の互いに異なる時刻(例えば、互いに異なる時間区間)における類似度の尺度である。上記した実施形態の第3類型における典型的な実施例においては、上記の方法はさらに、上記した少なくとも一つの調節された減衰値に応じて、非発話チャネルを減衰するステップ(例えば、図1A、図2Aまたは図3中の増幅回路116または117内で実行される動作)を含む。ステップ(b)は、上記した少なくとも一つの発話内容強化尤度値(例えば、図1A中における信号S1またはS2から決定される対応する値)に応じて、上記した少なくとも一つの減衰値(例えば、図1Aの信号C1またはC2から判定される減衰値の各々、またはダッキング処理回路によって判定されるその他の減衰値であり、さもなければ、その他の未加工の減衰制御信号である)をスケーリングするステップを備えることが可能である。
上記した第2類型の実施形態を実行する図1Aのシステムの動作中においては、信号C1またはC2によって決定される減衰値の各々は、非発話チャネルの減衰率の大きさを表す第1の係数である。この減衰率の大きさは、発話チャネルにおける信号電力に対する非発話チャネルにおける信号電力の比率が所定の閾値を超えないように制限するのに必要な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第2の係数によってスケーリングされる。典型的には、本発明のこれらの実施形態における上記した減衰値を調節するステップは、上記した減衰値の各々C1またはC2を上記した一つの発話内容強化尤度値(信号S1またはS2によって決定される)によりスケーリングし、上記した一つの調節された減衰値(信号S3またはS4によって決定される)を生成する動作を含み、上記した発話内容強化尤度値は、以下の何れか一方と単調に関係付けられる係数である。発話内容強化尤度値が関係付けられる第1のものは、非発話チャネルが「発話内容の強化コンテンツ(発話チャネルから判定された発話内容の明瞭度またはその他の知覚される品質を高める情報内容)」を表している可能性の高さを示す尤度である。発話内容強化尤度値が関係付けられる第2のものは、非発話チャネルの発話内容の強化度合いの予測される値である(このような予測される値の一例は、非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである)。
上記した第2類型の実施形態を実行する図2Aのシステムの動作中においては、信号C3またはC4によって決定される減衰値の各々は、非発話チャネルの減衰率の大きさ(例えば、最小の大きさ)を表す第1の係数である。この減衰率の大きさは、非発話チャネルから判定された情報内容の存在下で、発話チャネルから判定された発話内容の予測される明瞭度が所定の閾値を超えるようにするのに充分な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第2の係数によってスケーリングされる。好適には、非発話チャネルから判定された情報内容の存在下で、発話チャネルから判定された発話内容の予測される明瞭度は、心理聴覚上の明瞭度予測モデルに従って、判定される。典型的には、本発明のこれらの実施形態における上記した減衰率を調節するステップは、上記した減衰値の各々を上記した一つの発話内容強化尤度値(信号S1またはS2によって決定される)によってスケーリングして、上記した一つの調節された減衰値(信号S5またはS6によって決定される)を生成する動作を含み、上記した発話内容強化尤度値は、以下の何れか一方と単調に関係付けられる係数である。その一つは、非発話チャネルが発話内容の強化コンテンツを表している可能性の高さを示す尤度であり、もう一つは、非発話チャネルにおける発話内容の強化の度合いの予測値である。
上記した第2類型の実施形態を実行する図3のシステムの動作中においては、信号C1またはC2によって決定される減衰値の各々は、以下の処理ステップを含む動作を実行することによって決定される。まず、発話チャネル101および非発話チャネル102および103の各々に関する周波数の関数としての電力の分布を表す電力スペクトルを判定するステップを実行する。続いて、上記した減衰値に関する周波数領域判定を実行するステップを実行する。その結果、減衰率が周波数の関数として決定され、この減衰率は、非発話チャネルの複数の周波数成分に対して適用される。
本発明の実施形態の一つの類型においては、本発明は、入力された多重チャネル音声信号から判定された発話内容を強化する方法とシステムに関係する。本発明の幾つかの実施形態においては、本発明に係るシステムは、入力された多重チャネル音声信号を解析して複数の減衰制御値を生成するように構成された解析モジュールすなわち解析サブシステム(例えば、図1A中の構成要素130〜135、104〜109、114および115、あるいは、図1B中の構成要素130〜135、201〜204、114および115)、および減衰処理サブシステム(例えば、図1Aまたは図2A中の増幅回路116および117)を含む。減衰処理サブシステムは、当該サブシステムに接続され、入力された上記音声信号に関する非発話チャネルの各々に対して減衰処理(ダッキング処理)を適用し、フィルタリングされた音声出力信号を生成するように構成され、上記した複数の減衰制御値の中の少なくとも幾つかにより動作制御されるダッキング処理回路を含む。ダッキング処理回路が上記した複数の制御値によって動作制御されるとは、上記した複数の制御値が表す電流値によって、ダッキング処理回路が非発話チャネルに対して適用する減衰率が決定されるという意味である。
本発明の幾つかの実施形態においては、非発話チャネル(例えば、サイド・チャネルおよび/または後方チャネル)の電力に対する発話チャネル(例えば、中央チャネル)の電力の比率は、非発話チャネルの各々に対してどの程度のダッキング処理(減衰処理)が適用されるべきであるかを決定するために使用される。例えば、図1Aに示す実施形態においては、ダッキング増幅回路116および117の各々に適用される利得は、(構成要素114または構成要素115から出力される)利得制御値の減少に応じて低減される。この利得制御値の減少は、解析モジュール内において決定された非発話チャネル(左側チャネル102および右側チャネル103)の電力と比べた場合の発話チャネルの電力の(数値限定された範囲内での)相対的な減少量を表している(即ち、非発話チャネルの電力と比べて、発話チャネルの電力が(数値限定された範囲内で)相対的に減少する場合、上記の発話チャネルと比べて、ダッキング増幅回路は、非発話チャネルを相対的により大きく減衰させる)。ただし、上記の説明は、発話チャネルから判定される発話内容を強化する「発話内容の強化コンテンツ」を非発話チャネルが含んでいる可能性の高さを示す尤度(例えば、解析モジュール内で決定される尤度)が全く変化しないという前提に基づいている。
本発明に係る代替的な実施形態においては、図1Aまたは図1Bにおける解析モジュールの修正版は、入力された多重チャネル音声信号の各チャネルに対応する一つ以上の周波数サブバンドの各々を個別的に処理する。具体的には、各チャネル内の信号は、バンドパス・フィルターバンクを通過させられることが可能であり、その結果、n個のサブバンドから成る3つの集合{L、L、…L}、{C、C、…、C}および{R、R、…、R}が生成される。互いに対応するサブバンドは、図1A(または図1B)に示す解析モジュールのn個のインスタンスへと渡され、フィルタリング処理されたサブシグナル(複数の非発話チャネルに関する複数のダッキング増幅回路の複数の出力、およびフィルタリング処理されていない発話チャネルのサブシグナル)は加算回路によって再合成され、フィルタリング済みの多重チャネル音声出力信号が生成される。各サブバンドの上で、図1A中の構成要素109によって実行されるべき処理動作を実行するために、各サブバンドについて、別々の閾値Θ(構成要素109内の閾値Θに対応する)が選択されることが可能である。Θが対応する周波数区域内において伝達される発話内容のキュー部分の平均個数に比例するように設定することは、好適な選択肢である。これは即ち、周波数スペクトルの両端における帯域が、発話に関する支配的な周波数成分に対応する帯域よりも低い閾値を割り当てられているような場合である。本発明のこのような実装形態は、計算の複雑さと処理性能との間の非常に良好なトレードオフ関係を提案することができる。
図4は、本発明に係る方法の一実施形態を実行するように構成されたシステム420(設定可能な音声処理向けのDSP)を図示するブロック図である。システム420は、入力された多重チャネル音声信号を受信するように接続されているプログラミング可能なDSP回路422(システム420中のアクティブな発話内容強化モジュール)を含む。例えば、上記多重チャネル音声信号内の非発話チャネルLin(左側入力)およびRin(右側入力)は、図1A、図1B、図2A、図2Bおよび図3を参照しながら上述した入力音声信号内のチャネル102および103に対応する。さらに、当該入力音声信号は、追加的な非発話チャネル(例えば、左後方チャネルおよび右後方チャネル)を含むことが可能である。そして、当該音声信号の発話チャネルCinは、図1A、図1B、図2A、図2Bおよび図3を参照しながら上述した入力音声信号内のチャネル101に対応する。回路422は、制御インターフェース421からの制御データに応じて、本発明に係る方法の一実施形態を実行し、その結果、発話内容が強化された多重チャネル音声の出力信号を、音声入力信号に応じる形で生成する。システム420をプログラミングするために、外部の処理装置から制御インターフェースに対して適切なソフトウェアがアサートされ、それに応じて、制御インターフェース421は回路422に対して適切な制御データをアサートし、その結果、回路422は、本発明に係る方法を実行するように設定される。
動作中において、本発明に従う発話内容の強化処理を実行するように構成された音声処理向けDSP(例えば、図4中のシステム420)は、N重チャネルの音声入力信号を受信するように接続され、上記DSPは、典型的には、発話内容の強化処理に加えて、入力された音声(または、この音声をさらに処理した内容)に対して様々な演算を実行する。例えば、図4中のシステム420は、プロセッサ・サブシステム423内において(回路422からの出力信号に対して)他の演算を実行するように実装することが可能である。本発明に係る様々な実施形態に従うならば、入力された音声信号に対して本発明に係る方法を実行することにより、入力された音声信号に応じた出力音声信号を生成するように音声処理向けDSPが構成された(プログラミングされた)後には、当該DSPは、本発明に係る方法の一実施形態を実行するように動作することが可能となる。
本発明に係る幾つかの実施形態においては、本発明に係るシステムは、多重チャネル音声信号を表す入力データを受信するように接続され、またはそのような入力データを自ら生成する汎用プロセッサを含む。当該プロセッサは、ソフトウェア(またはファームウェア)によってプログラミングされ、さもなければ、(例えば、制御データに応じて)本発明に係る方法の一実施形態を含む多種多様な演算処理の何れかを当該入力データに対して実行するように構成される。図5に示すコンピュータ・システムは、そのようなシステムの一例である。図5に示すシステムは、本発明に係る方法の一実施形態を含む多種多様な演算処理の何れかを当該入力データに対して実行するようにプログラミングされた汎用プロセッサ501を含む。
図5に示すコンピュータ・システムは、プロセッサ501に接続された入力装置503(例えば、マウスやキーボード等)、プロセッサ501に接続された記憶媒体504、プロセッサ501に接続されたディスプレイ装置505をさらに含む。プロセッサ501は、入力装置503を使用したユーザによる手操作入力により入力された命令とデータに応じて、本発明に係る方法を実装するようにプログラミングされる。コンピュータ読み出し可能記録媒体504(例えば、光ディスクまたは他の有形物)は、その上に記憶されたコンピュータ・コードを有し、それは、本発明に係る方法の一実施形態を実行するようにプロセッサ501をプログラミングするのに適している。動作中において、プロセッサ501は、本発明に従って多重チャネル音声信号を表すデータを処理し、多重チャネル音声の出力信号を表す出力データを生成するコンピュータ・コードを実行する。
図1A、図1B、図2A、図2Bおよび図3に関連して上述したシステムは、汎用プロセッサ501によって実装することが可能であり、入力信号チャネル101、102および103は、(サラウンド・ステレオ型の音響信号における)中央(発話)および左側と右側(非発話)の音声入力チャネルを表すデータに相当する。さらに、出力信号チャネル118および119は、(発話内容が強化されたサラウンド・ステレオ型の音響信号における)発話内容が強調された左側と右側の音声出力チャネルを表すデータに相当する。従来型のデジタル/アナログ変換回路(DAC)は、上記の出力データに対して演算処理を実行し、物理的スピーカ装置による音声再生のために、出力音声チャネル信号のアナログ形式信号を生成することが可能である。
本発明の複数の実装態様は、本発明に係る方法の任意の実施形態を実行するようにプログラミングされたコンピュータ・システム、および本発明に係る方法の任意の実施形態を実装するコンピュータ読み出し可能コードを記憶したコンピュータ読み取り可能記録媒体である。
本明細書中において、本発明の具体的な複数の実施形態と本発明の複数の応用例が記述されたが、本明細書中で説明され、特許請求された発明の技術的範囲から逸脱することなく、本明細書中に記載された複数の実施形態と応用例に関する多種多様な変形実施例が当業者には直ちに明らかであろう。本明細書中において、本発明の特定の形態が示され、説明されたけれども、本発明は、本明細書中で説明され、示された具体的な実施例や具体的な方法だけに限定されるものではないことが理解される。

Claims (66)

  1. 一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、
    (a):前記発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す少なくとも一つの減衰制御値を決定するステップ、および、
    (b):前記少なくとも一つの減衰制御値に応じて、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるステップ、
    を備える方法。
  2. 前記決定するステップにおいて決定される前記減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、当該多重チャネル音声信号内の少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表し、
    前記減衰させるステップは、前記少なくとも一つの減衰制御値に応じて、前記少なくとも一つの非発話チャネルを減衰させるステップを含む、請求項1記載の方法。
  3. 前記決定するステップは、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから、一つの導出された非発話チャネルを導出するステップを含み、
    前記少なくとも一つの減衰制御値は、発話チャネルから判定される発話に関係する情報内容と、前記導出された非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す、請求項1記載の方法。
  4. 前記導出された非発話チャネルは、前記多重チャネル音声信号の第1の非発話チャネルと、前記多重チャネル音声信号の第2の非発話チャネルとを合成することによって導出される、請求項3記載の方法。
  5. 前記多重チャネル音声信号は、少なくとも2つの非発話チャネルを有し、前記減衰させるステップは、前記少なくとも一つの減衰制御値に応じて、全てではないが幾つかの前記非発話チャネルを減衰させるステップを含む、請求項3記載の方法。
  6. 前記多重チャネル音声信号は、少なくとも2つの非発話チャネルを有し、前記減衰させるステップは、前記少なくとも一つの減衰制御値に応じて、全ての前記非発話チャネルを減衰させるステップを含む、請求項3記載の方法。
  7. 前記減衰させるステップは、前記少なくとも一つの減衰制御値に応じて、前記非発話チャネルに関する未加工の減衰制御信号をスケーリングするステップを備える、請求項1記載の方法。
  8. 前記決定するステップは、一連の減衰制御値から成る単一の系列を表す減衰制御信号を生成するステップを含み、複数の減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の互いに異なる時刻における類似度の尺度を表し、前記減衰させるステップは、
    前記減衰制御信号に応じて、ダッキング利得制御信号をスケーリングして、スケーリングされた利得制御信号を生成するステップ;および、
    前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるために、前記スケーリングされた利得制御信号を適用するステップ、
    を備える、請求項1記載の方法。
  9. 前記決定するステップは、前記発話チャネルから判定される発話に関連した情報内容を表す発話に関連した第1の特性値の系列を、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルから判定される発話に関連した情報内容を表す発話に関連した第2の特性値の系列と比較して、減衰制御信号を生成するステップを備え、
    前記減衰制御信号によって表される複数の減衰制御値の各々は、前記発話に関連した特性値の第1の系列および前記発話に関連した特性値の第2の系列の両者の間の互いに異なる時刻における類似度の尺度を表す、請求項8記載の方法。
  10. 前記減衰制御値の各々は、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルが、前記発話チャネルから判定される発話内容の知覚される品質を高める発話内容の強化コンテンツを表している可能性の高さを表す尤度と単調に関係付けられる、請求項1記載の方法。
  11. 一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、
    (a):前記発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す少なくとも一つの減衰制御値を決定するステップ、および、
    (b):前記少なくとも一つの減衰制御値に応じて、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるステップ、
    を備える方法。
  12. 前記減衰させるステップは、前記少なくとも一つの減衰制御値に応じて、前記非発話チャネルに関する未加工の減衰制御信号をスケーリングするステップを備える、請求項11記載の方法。
  13. 前記決定するステップは、一連の減衰制御値から成る単一の系列を表す減衰制御信号を生成するステップを含み、複数の減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の互いに異なる時刻における類似度の尺度を表し、前記減衰させるステップは、
    前記減衰制御信号に応じて、ダッキング利得制御信号をスケーリングして、スケーリングされた利得制御信号を生成するステップ;および、
    前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるために、前記スケーリングされた利得制御信号を適用するステップ、
    を備える、請求項11記載の方法。
  14. 前記決定するステップは、前記発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第1の系列を、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第2の系列と比較して、減衰制御信号を生成するステップを備え、
    前記減衰制御信号によって表される複数の減衰制御値の各々は、前記発話に関連した特性値の第1の系列および前記発話に関連した特性値の第2の系列の両者の間の互いに異なる時刻における類似度の尺度を表す、請求項13記載の方法。
  15. 前記発話に関連した特性値の第1の系列は、一連の発話尤度値から成る系列であり、前記発話尤度値の各々は、異なる時刻において、前記発話チャネルが発話内容を表している可能性の高さを示す尤度を表し、
    前記発話に関連した特性値の第2の系列は、一連の発話尤度値から成るもう一つの系列であり、前記発話尤度値の各々は、異なる時刻において、前記少なくとも一つの非発話チャネルが発話内容を表している可能性の高さを示す尤度を表す、請求項14記載の方法。
  16. 前記減衰制御値の各々は、利得制御値である、請求項13記載の方法。
  17. 前記減衰制御値の各々は、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルが、前記発話チャネルから判定される発話内容の知覚される品質を高める発話内容の強化コンテンツを表している可能性の高さを表す尤度と単調に関係付けられる、請求項11記載の方法。
  18. 一つの発話チャネルおよび少なくとも2つの非発話チャネルを有する多重チャネル音声信号をフィルタリングする方法であって、
    (a):前記発話チャネルから判定される発話に関係する第1の情報内容と、前記多重チャネル音声信号内の第1の非発話チャネルから判定される発話に関係する第2の情報内容との間の類似度の尺度を表す少なくとも一つの第1の減衰制御値を決定するステップ;および、
    (b):前記発話チャネルから判定される発話に関係する前記第1の情報内容と、前記多重チャネル音声信号内の第2の非発話チャネルから判定される発話に関係する第3の情報内容との間の類似度の尺度を表す少なくとも一つの第2の減衰制御値を決定するステップ、
    を備える方法。
  19. 前記第1の減衰制御値を決定するステップは、前記発話チャネルから判定される発話に関係する前記第1の情報内容を表す発話に関係する特性値の第1の系列を発話に関係する第2の情報内容を表す発話に関係する特性値の第2の系列と比較するステップを含み、
    前記第2の減衰制御値を決定するステップは、前記発話に関係する特性値の第1の系列を前記発話に関係する第3の情報内容を表す発話に関係する特性値の第3の系列と比較するステップを含む、請求項18記載の方法。
  20. 前記少なくとも一つの第1の減衰制御値に応じて、前記第1の非発話チャネルを減衰するステップ;および、
    前記少なくとも一つの第2の減衰制御値に応じて、前記第2の非発話チャネルを減衰するステップ、
    をさらに備えた請求項18記載の方法。
  21. 前記第1の非発話チャネルを減衰するステップは、前記少なくとも一つの第1の減衰制御値に応じて、第1の非発話チャネルの減衰率をスケーリングするステップを含み、
    前記第2の非発話チャネルを減衰するステップは、前記少なくとも一つの第2の減衰制御値に応じて、第2の非発話チャネルの減衰率をスケーリングするステップを含む、請求項20記載の方法。
  22. 前記第1の減衰制御値を決定するステップにおいて決定された前記少なくとも一つの第1の減衰制御値は、一連の減衰制御値から成る単一の系列であり、当該減衰制御値の各々は、第1の非発話チャネルに対して適用されるダッキング利得の大きさをスケーリングする利得制御値であり、前記利得制御値の前記適用は、前記発話チャネルから判定される発話内容の明瞭度を改善すると同時に、前記第1の非発話チャネルから判定される発話内容の強化コンテンツに対する望ましくない減衰を生じないように実行され、
    前記第2の減衰制御値を決定するステップにおいて決定された前記少なくとも一つの第2の減衰制御値は、一連の第2の減衰制御値から成る単一の系列であり、当該第2の減衰制御値の各々は、第2の非発話チャネルに対して適用されるダッキング利得の大きさをスケーリングする利得制御値であり、前記利得制御値の前記適用は、前記発話チャネルから判定される発話内容の明瞭度を改善すると同時に、前記第2の非発話チャネルから判定される発話内容の強化コンテンツに対する望ましくない減衰を生じないように実行される、請求項18記載の方法。
  23. 一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、前記多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、
    (a):前記発話チャネルの特性と前記非発話チャネルの特性とを比較して、前記発話チャネルと比較した場合の前記非発話チャネルの相対的な減衰率を制御するための少なくとも一つの減衰値を生成するステップ;および、
    (b):少なくとも一つの発話内容強化尤度値に応じて前記少なくとも一つの減衰値を調節し、前記発話チャネルと比較した場合の前記非発話チャネルの相対的な減衰率を制御するための少なくとも一つの調節された減衰値を生成するステップ、
    を備える方法。
  24. 前記調節された減衰値を生成するステップは、一つの前記発話内容強化尤度値に応じて前記減衰値の各々をスケーリングし、一つの前記調節された減衰値を生成するステップを含む、請求項23記載の方法。
  25. 発話内容強化尤度値の各々は、非発話チャネルが発話チャネルから判定された発話内容の知覚される品質を高める発話内容の強化コンテンツを表している可能性の高さを示す尤度と単調に関係付けされている、請求項23記載の方法。
  26. 前記少なくとも一つの発話内容強化尤度値は、一連の比較値から成る単一の系列であり、
    前記発話チャネルから判定された発話に関係する情報内容を表す発話内容に関係した特性値の第1の系列を非発話チャネルから判定された発話に関係する情報内容を表す発話内容に関係した特性値の第2の系列と比較することにより、一連の比較値から成る単一の系列を決定するステップを含む、請求項23記載の方法であって、
    比較値の各々は、前記発話内容に関係した特性値の第1の系列と前記発話内容に関係した特性値の第2の系列との間の互いに異なる時刻における類似度の尺度である、方法。
  27. 前記少なくとも一つの調節された減衰値に応じて、前記非発話チャネルを減衰するステップをさらに含む、請求項23記載の方法。
  28. 前記調節された減衰値を生成するステップは、一つの前記発話内容強化尤度値に応じて前記減衰値の各々をスケーリングし、一つの前記調節された減衰値を生成するステップを含む、請求項23記載の方法。
  29. 前記少なくとも一つの減衰値を生成するステップにおいて生成された前記減衰値の各々は、前記非発話チャネルの減衰率の大きさを表す第1の係数であり、
    前記減衰率の大きさは、前記発話チャネルにおける信号電力に対する前記非発話チャネルにおける信号電力の比率が所定の閾値を超えないように制限するのに必要な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第2の係数によってスケーリングされる、請求項23記載の方法。
  30. 前記少なくとも一つの減衰値を生成するステップにおいて生成された前記減衰値の各々は、前記非発話チャネルの減衰率の大きさを表す第1の係数であり、
    前記減衰率の大きさは、前記非発話チャネルから判定された情報内容の存在下で、前記発話チャネルから判定された発話内容の予測される明瞭度が所定の閾値を超えるようにするのに充分な大きさであり、前記発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第2の係数によってスケーリングされる、請求項23記載の方法。
  31. 前記少なくとも一つの減衰値を生成するステップにおいて、前記減衰値の各々を生成する動作は、
    前記発話チャネルの周波数の関数としての電力分布を表す第1の電力スペクトル、および前記非発話チャネルの周波数の関数としての電力分布を表す第2の電力スペクトルを決定するステップ;および、
    前記第1の電力スペクトルおよび前記第2の電力スペクトルに応じて、前記減衰値の周波数領域判定を実行するステップ、
    を備える、請求項23記載の方法。
  32. 一つの発話チャネルと少なくとも一つの非発話チャネルを有する入力された多重チャネル音声信号から判定された発話内容を強化するシステムであって、
    入力された多重チャネル音声信号を解析して複数の減衰制御値を生成するように構成された解析サブシステムであって、前記複数の減衰制御値の各々は、前記発話チャネルから判定される発話に関係する情報内容と、前記入力された多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す、解析サブシステム;および、
    前記複数の減衰制御値の中の少なくとも幾つかによる動作制御の下で、前記入力された多重チャネル音声信号に関する前記非発話チャネルの各々に対してダッキング減衰処理を適用し、フィルタリングされた音声出力信号を生成するように構成されている減衰処理サブシステム、
    を備えるシステム。
  33. 前記減衰処理サブシステムは、前記複数の減衰制御値の中の少なくとも一部を含む集合に応じて前記少なくとも一つの非発話チャネルに関する未加工の減衰制御値をスケーリングするように構成されている、請求項32記載のシステム。
  34. 前記解析サブシステムは、一連の減衰制御値から成る単一の系列を表す減衰制御信号を生成するように構成され、
    複数の減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の互いに異なる時刻における類似度の尺度を表し、
    前記減衰処理サブシステムは、
    前記減衰制御信号に応じて、ダッキング利得制御信号をスケーリングして、スケーリングされた利得制御信号を生成し、
    前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるために、前記スケーリングされた利得制御信号を適用するように構成された、
    請求項32記載のシステム。
  35. 前記解析サブシステムは、前記発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第1の系列を、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第2の系列と比較して、減衰制御信号を生成するように構成され、
    前記減衰制御信号によって表される複数の減衰制御値の各々は、互いに異なる時刻における前記発話に関連した特性値の第1の系列および前記発話に関連した特性値の第2の系列の両者の間の類似度の尺度を表す、請求項34記載のシステム。
  36. 前記発話に関連した特性値の第1の系列は、一連の発話尤度値から成る系列であり、前記発話尤度値の各々は、異なる時刻において、前記発話チャネルが発話内容を表している可能性の高さを示す尤度を表し、
    前記発話に関連した特性値の第2の系列は、一連の発話尤度値から成るもう一つの系列であり、前記発話尤度値の各々は、異なる時刻において、前記少なくとも一つの非発話チャネルが発話内容を表している可能性の高さを示す尤度を表す、請求項35記載のシステム。
  37. 前記システムは、前記入力された多重チャネル音声信号を解析して前記複数の減衰制御値を生成する解析ソフトウェアによってプログラミングされたプロセッサを含む、請求項32記載のシステム。
  38. 前記システムは、前記非発話チャネルの各々に対して前記ダッキング減衰処理を適用し、前記フィルタリングされた音声出力信号を生成する減衰処理ソフトウェアによってプログラミングされたプロセッサを含む、請求項32記載のシステム。
  39. 前記システムは、前記入力された多重チャネル音声信号を解析して前記複数の減衰制御値を生成し、前記非発話チャネルの各々に対して前記ダッキング減衰処理を適用し、前記フィルタリングされた音声出力信号を生成するように構成されたプロセッサを含む、請求項32記載のシステム。
  40. 前記システムは、前記入力された多重チャネル音声信号を解析して前記複数の減衰制御値を生成し、前記非発話チャネルの各々に対して前記ダッキング減衰処理を適用し、前記フィルタリングされた音声出力信号を生成するように構成されているデジタル信号プロセッサである、請求項32記載のシステム。
  41. 前記システムは、前記解析サブシステムを実装するように構成された第1の回路、および前記第1の回路と接続され、前記減衰処理サブシステムを実装するように構成された追加の回路を含む、請求項32記載のシステム。
  42. 前記システムは、前記解析サブシステムを実装するように構成された第1の回路、および前記第1の回路と接続され、前記減衰処理サブシステムを実装するように構成された追加の回路を含む音声処理向けデジタル信号プロセッサである、請求項32記載のシステム。
  43. 前記システムは、前記解析サブシステムと前記減衰処理サブシステムとを実装するように構成されたデータ処理システムである、請求項32記載のシステム。
  44. 一つの発話チャネルと少なくとも一つの非発話チャネルを有する入力された多重チャネル音声信号から判定された発話内容を強化するシステムであって、
    入力された多重チャネル音声信号を解析して複数の減衰制御値を生成するように構成された解析サブシステムであって、前記複数の減衰制御値の各々は、前記発話チャネルから判定される発話に関係する情報内容と、前記入力された多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す、解析サブシステム;および、
    前記複数の減衰制御値の中の少なくとも幾つかによる動作制御の下で、前記入力された多重チャネル音声信号に関する前記非発話チャネルの各々に対してダッキング減衰処理を適用し、フィルタリングされた音声出力信号を生成するように構成されている減衰処理サブシステム、
    を備えるシステム。
  45. 前記解析サブシステムは、複数の減衰制御値の各々を生成するように構成され、複数の減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表し、
    前記減衰処理サブシステムは、前記複数の減衰制御値に応じて、前記少なくとも一つの非発話チャネルに対して、ダッキング減衰処理を適用するように構成された、
    請求項44記載のシステム。
  46. 前記解析サブシステムは、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから、一つの導出された非発話チャネルを導出して、前記少なくとも幾つかの減衰制御値の各々を生成するように構成され、
    前記減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記導出された非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す、
    請求項44記載のシステム。
  47. プロセッサにより実行されるプログラムを含むコンピュータ可読記録媒体であって、前記プログラムは、多重チャネル音声信号から判定される発話内容の明瞭度を改善するために、一つの発話チャネルと少なくとも一つの非発話チャネルを有する前記多重チャネル音声信号を表すデータを処理する動作を前記プロセッサに実行させるステップとして:
    (a):前記発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す少なくとも一つの減衰制御値を決定する動作を前記プロセッサに実行させるステップ、および、
    (b):前記少なくとも一つの減衰制御値に応じて、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させる動作を前記プロセッサに実行させるステップ、
    を含むことを特徴とする、コンピュータ可読記録媒体。
  48. 前記少なくとも一つの減衰制御値に応じて、前記非発話チャネルに関する未加工の減衰制御信号をスケーリングする動作を前記プロセッサに実行させるステップを前記プログラムが含んでいる、請求項47記載のコンピュータ可読記録媒体。
  49. 前記減衰制御値に応じて、ダッキング利得制御信号をスケーリングして、スケーリングされた利得制御信号を生成する動作を前記プロセッサに実行させるステップであって、複数の前記減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の互いに異なる時刻における類似度の尺度を表す、ステップ;および、
    前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるために、前記スケーリングされた利得制御信号を適用する動作を前記プロセッサに実行させるステップ、
    を前記プログラムが含んでいる、請求項47記載のコンピュータ可読記録媒体。
  50. 前記発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第1の系列を、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第2の系列と比較して、減衰制御信号を生成する動作を前記プロセッサに実行させるステップを前記プログラムが含んでいる、請求項49記載のコンピュータ可読記録媒体であって、
    前記減衰制御信号によって表される複数の減衰制御値の各々は、前記発話に関連した特性値の第1の系列および前記発話に関連した特性値の第2の系列の両者の間の互いに異なる時刻における類似度の尺度を表す、コンピュータ可読記録媒体。
  51. 前記発話に関連した特性値の第1の系列は、一連の発話尤度値から成る系列であり、前記発話尤度値の各々は、異なる時刻において、前記発話チャネルが発話内容を表している可能性の高さを示す尤度を表し、
    前記発話に関連した特性値の第2の系列は、一連の発話尤度値から成るもう一つの系列であり、前記発話尤度値の各々は、異なる時刻において、前記少なくとも一つの非発話チャネルが発話内容を表している可能性の高さを示す尤度を表す、請求項49記載のコンピュータ可読記録媒体。
  52. 前記減衰制御値の各々は、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルが、前記発話チャネルから判定される発話内容の知覚される品質を高める発話内容の強化コンテンツを表している可能性の高さを表す尤度と単調に関係付けられる、請求項47記載のコンピュータ可読記録媒体。
  53. プロセッサにより実行されるプログラムを含むコンピュータ可読記録媒体であって、前記プログラムは、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号を表すデータを処理する動作を前記プロセッサに実行させるステップとして:
    (a):前記発話チャネルから判定される発話に関係する第1の情報内容と、前記多重チャネル音声信号内の第1の非発話チャネルから判定される発話に関係する第2の情報内容との間の類似度の尺度を表す少なくとも一つの第1の減衰制御値を決定する動作を前記プロセッサに実行させるステップ;および、
    (b):前記発話チャネルから判定される発話に関係する前記第1の情報内容と、前記多重チャネル音声信号内の第2の非発話チャネルから判定される発話に関係する第3の情報内容との間の類似度の尺度を表す少なくとも一つの第2の減衰制御値を決定する動作を前記プロセッサに実行させるステップ、
    を含むことを特徴とする、コンピュータ可読記録媒体。
  54. 前記発話チャネルから判定される発話に関係する前記第1の情報内容を表す発話に関係する特性値の第1の系列を発話に関係する第2の情報内容を表す発話に関係する特性値の第2の系列と比較する動作を前記プロセッサに実行させるステップ;および、
    前記第2の減衰制御値を決定するステップは、前記発話に関係する特性値の第1の系列を前記発話に関係する第3の情報内容を表す発話に関係する特性値の第3の系列と比較する動作を前記プロセッサに実行させるステップ、
    を前記プログラムが含んでいる、請求項53記載のコンピュータ可読記録媒体。
  55. 前記少なくとも一つの第1の減衰制御値に応じて、少なくとも一つの前記第1の非発話チャネルを減衰するステップ;および、前記少なくとも一つの第2の減衰制御値に応じて、前記第2の非発話チャネルを減衰する動作を前記プロセッサに実行させるステップ、
    を前記プログラムが含んでいる、請求項53記載のコンピュータ可読記録媒体。
  56. 前記少なくとも一つの第1の減衰制御値は、一連の減衰制御値から成る単一の系列であり、
    前記第1の非発話チャネルに対して適用されるダッキング利得の大きさをスケーリングする動作を前記プロセッサに実行させるステップを前記プログラムが含んでいる、請求項53記載のコンピュータ可読記録媒体であって、前記利得の前記適用は、前記発話チャネルから判定される発話内容の明瞭度を改善すると同時に、前記第1の非発話チャネルから判定される発話内容の強化コンテンツに対する望ましくない減衰を生じないように実行される、コンピュータ可読記録媒体。
  57. プロセッサにより実行されるプログラムを含むコンピュータ可読記録媒体であって、前記プログラムは、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号を表すデータを処理する動作を前記プロセッサに実行させるステップとして:
    (a):前記発話チャネルの特性と前記非発話チャネルの特性とを比較して、前記発話チャネルと比較した場合の前記非発話チャネルの相対的な減衰率を制御するための少なくとも一つの減衰値を生成する動作を前記プロセッサに実行させるステップ;および、
    (b):少なくとも一つの発話内容強化尤度値に応じて前記少なくとも一つの減衰値を調節し、前記発話チャネルと比較した場合の前記非発話チャネルの相対的な減衰率を制御するための少なくとも一つの調節された減衰値を生成する動作を前記プロセッサに実行させるステップ、
    を含むことを特徴とする、コンピュータ可読記録媒体。
  58. 一つの前記発話内容強化尤度値に応じて前記減衰値の各々をスケーリングし、一つの前記調節された減衰値を生成する動作を前記プロセッサに実行させるステップを前記プログラムが含んでいる、請求項57記載のコンピュータ可読記録媒体。
  59. 前記発話内容強化尤度値の各々は、非発話チャネルが発話チャネルから判定された発話内容の知覚される品質を高める発話内容の強化コンテンツを表している可能性の高さを示す尤度と単調に関係付けされている、請求項57記載のコンピュータ可読記録媒体。
  60. 前記少なくとも一つの発話内容強化尤度値は、一連の比較値から成る単一の系列であり、
    前記発話チャネルから判定された発話に関係する情報内容を表す発話内容に関係した特性値の第1の系列を非発話チャネルから判定された発話に関係する情報内容を表す発話内容に関係した特性値の第2の系列と比較することにより、一連の比較値から成る単一の系列を決定する動作を前記プロセッサに実行させるステップを前記プログラムが含んでいる、請求項57記載のコンピュータ可読記録媒体であって、
    比較値の各々は、前記発話内容に関係した特性値の第1の系列と前記発話内容に関係した特性値の第2の系列との間の互いに異なる時刻における類似度の尺度である、コンピュータ可読記録媒体。
  61. 前記減衰値の各々は、前記非発話チャネルの減衰率の大きさを表す第1の係数であり、
    前記減衰率の大きさは、前記発話チャネルにおける信号電力に対する前記非発話チャネルにおける信号電力の比率が所定の閾値を超えないように制限するのに必要な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第2の係数によってスケーリングされる、請求項57記載のコンピュータ可読記録媒体。
  62. 前記減衰値の各々は、前記非発話チャネルの減衰率の大きさを表す第1の係数であり、
    前記減衰率の大きさは、前記非発話チャネルから判定された情報内容の存在下で、前記発話チャネルから判定された発話内容の予測される明瞭度が所定の閾値を超えるようにするのに充分な大きさであり、前記発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第2の係数によってスケーリングされる、請求項57記載のコンピュータ可読記録媒体。
  63. 前記発話チャネルの周波数の関数としての電力分布を表す第1の電力スペクトル、および前記非発話チャネルの周波数の関数としての電力分布を表す第2の電力スペクトルを決定する動作を前記プロセッサに実行させるステップ;および、
    前記第1の電力スペクトルおよび前記第2の電力スペクトルに応じて、前記減衰値の周波数領域判定を前記プロセッサに実行させるステップ、
    を前記プログラムが含んでいる、請求項57記載のコンピュータ可読記録媒体。
  64. プロセッサにより実行されるプログラムを含むコンピュータ可読記録媒体であって、前記プログラムは、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号を表すデータを処理する動作を前記プロセッサに実行させるステップとして:
    前記発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す少なくとも一つの減衰制御値を決定するステップ;および、
    前記少なくとも一つの減衰制御値に応じて、前記多重チャネル音声信号中の少なくとも一つの減衰された非発話チャネルを表すデータを生成するステップであって、前記少なくとも一つの減衰された非発話チャネルの各々は、前記少なくとも一つの減衰制御値に応じた減衰過程を経て伝わる、ステップ
    を含むことを特徴とするコンピュータ可読記録媒体。
  65. 前記減衰制御値の各々は、前記発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号内の一つの前記非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す、請求項64記載のコンピュータ可読記録媒体。
  66. 前記多重チャネル音声信号を表すデータをさらに処理する動作を前記プロセッサに実行させるステップとして:
    前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルからの導出された非発話チャネルを表すデータを生成し、前記少なくとも一つの減衰制御値を決定する動作を前記プロセッサに実行させるステップ;を前記プログラムがさらに含んでおり、
    前記少なくとも一つの減衰制御値は、発話チャネルから判定される発話に関係する情報内容と、前記導出された非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表すことを特徴とする、請求項64記載のコンピュータ可読記録媒体。
JP2012557079A 2010-03-08 2011-02-28 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム Active JP5674827B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US31143710P 2010-03-08 2010-03-08
US61/311,437 2010-03-08
PCT/US2011/026505 WO2011112382A1 (en) 2010-03-08 2011-02-28 Method and system for scaling ducking of speech-relevant channels in multi-channel audio

Publications (2)

Publication Number Publication Date
JP2013521541A JP2013521541A (ja) 2013-06-10
JP5674827B2 true JP5674827B2 (ja) 2015-02-25

Family

ID=43919902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012557079A Active JP5674827B2 (ja) 2010-03-08 2011-02-28 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム

Country Status (9)

Country Link
US (2) US9219973B2 (ja)
EP (1) EP2545552B1 (ja)
JP (1) JP5674827B2 (ja)
CN (2) CN104811891B (ja)
BR (2) BR112012022571B1 (ja)
ES (1) ES2709523T3 (ja)
RU (1) RU2520420C2 (ja)
TW (1) TWI459828B (ja)
WO (1) WO2011112382A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI672693B (zh) * 2017-05-10 2019-09-21 英商思睿邏輯國際半導體有限公司 用於聲學迴聲消除的組合參考信號

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2586874C1 (ru) * 2011-12-15 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для устранения артефактов амплитудного ограничения
US9781529B2 (en) 2012-03-27 2017-10-03 Htc Corporation Electronic apparatus and method for activating specified function thereof
WO2013150340A1 (en) * 2012-04-05 2013-10-10 Nokia Corporation Adaptive audio signal filtering
US9886794B2 (en) 2012-06-05 2018-02-06 Apple Inc. Problem reporting in maps
US9230556B2 (en) 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
US9516418B2 (en) * 2013-01-29 2016-12-06 2236008 Ontario Inc. Sound field spatial stabilizer
EP2760021B1 (en) * 2013-01-29 2018-01-17 2236008 Ontario Inc. Sound field spatial stabilizer
MY179136A (en) 2013-03-05 2020-10-28 Fraunhofer Ges Forschung Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
JP6026678B2 (ja) * 2013-04-05 2016-11-16 ドルビー ラボラトリーズ ライセンシング コーポレイション 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
US9106196B2 (en) 2013-06-20 2015-08-11 2236008 Ontario Inc. Sound field spatial stabilizer with echo spectral coherence compensation
US9099973B2 (en) 2013-06-20 2015-08-04 2236008 Ontario Inc. Sound field spatial stabilizer with structured noise compensation
US9271100B2 (en) 2013-06-20 2016-02-23 2236008 Ontario Inc. Sound field spatial stabilizer with spectral coherence compensation
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
WO2015116687A1 (en) * 2014-01-28 2015-08-06 St. Jude Medical, Cardiology Division, Inc. Elongate medical devices incorporating a flexible substrate, a sensor, and electrically-conductive traces
US9654076B2 (en) * 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US9615170B2 (en) * 2014-06-09 2017-04-04 Harman International Industries, Inc. Approach for partially preserving music in the presence of intelligible speech
BR112017006325B1 (pt) * 2014-10-02 2023-12-26 Dolby International Ab Método de decodificação e decodificador para o realce de diálogo
CN107004427B (zh) * 2014-12-12 2020-04-14 华为技术有限公司 增强多声道音频信号内语音分量的信号处理装置
US10238546B2 (en) 2015-01-22 2019-03-26 Eers Global Technologies Inc. Active hearing protection device and method therefore
US9747923B2 (en) * 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation
US9947364B2 (en) 2015-09-16 2018-04-17 Google Llc Enhancing audio using multiple recording devices
JP6567479B2 (ja) * 2016-08-31 2019-08-28 株式会社東芝 信号処理装置、信号処理方法およびプログラム
EP3566229B1 (en) * 2017-01-23 2020-11-25 Huawei Technologies Co., Ltd. An apparatus and method for enhancing a wanted component in a signal
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN111354356B (zh) * 2018-12-24 2024-04-30 北京搜狗科技发展有限公司 一种语音数据处理方法及装置
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant
JP2023530225A (ja) 2020-05-29 2023-07-14 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 初期オーディオ信号を処理するための方法および装置
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及系统
WO2023208342A1 (en) * 2022-04-27 2023-11-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for scaling of ducking gains for spatial, immersive, single- or multi-channel reproduction layouts

Family Cites Families (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657422A (en) 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5666429A (en) * 1994-07-18 1997-09-09 Motorola, Inc. Energy estimator and method therefor
JPH08222979A (ja) * 1995-02-13 1996-08-30 Sony Corp オーディオ信号処理装置、およびオーディオ信号処理方法、並びにテレビジョン受像機
US5920834A (en) * 1997-01-31 1999-07-06 Qualcomm Incorporated Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system
US5983183A (en) * 1997-07-07 1999-11-09 General Data Comm, Inc. Audio automatic gain control system
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6226321B1 (en) * 1998-05-08 2001-05-01 The United States Of America As Represented By The Secretary Of The Air Force Multichannel parametric adaptive matched filter receiver
AU2408500A (en) * 1999-01-07 2000-07-24 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
EP1103420B1 (en) * 1999-11-24 2006-06-21 Donnelly Corporation Rearview mirror assembly with utility functions
US6615162B2 (en) * 1999-12-06 2003-09-02 Dmi Biosciences, Inc. Noise reducing/resolution enhancing signal processing method and system
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
JP2001268700A (ja) * 2000-03-17 2001-09-28 Fujitsu Ten Ltd 音響装置
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US20040096065A1 (en) * 2000-05-26 2004-05-20 Vaudrey Michael A. Voice-to-remaining audio (VRA) interactive center channel downmix
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US20020159434A1 (en) * 2001-02-12 2002-10-31 Eleven Engineering Inc. Multipoint short range radio frequency system
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US20040148166A1 (en) * 2001-06-22 2004-07-29 Huimin Zheng Noise-stripping device
CN1552171A (zh) * 2001-09-06 2004-12-01 �ʼҷ����ֵ��ӹɷ����޹�˾ 音频再现设备
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
WO2007106399A2 (en) * 2006-03-10 2007-09-20 Mh Acoustics, Llc Noise-reducing directional microphone array
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP3810004B2 (ja) 2002-03-15 2006-08-16 日本電信電話株式会社 ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム
CN100477705C (zh) * 2002-07-01 2009-04-08 皇家飞利浦电子股份有限公司 音频增强系统、配有该系统的系统、失真信号增强方法
WO2004040555A1 (ja) * 2002-10-31 2004-05-13 Fujitsu Limited 音声強調装置
US7305097B2 (en) * 2003-02-14 2007-12-04 Bose Corporation Controlling fading and surround signal level
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7127076B2 (en) * 2003-03-03 2006-10-24 Phonak Ag Method for manufacturing acoustical devices and for reducing especially wind disturbances
US8724822B2 (en) * 2003-05-09 2014-05-13 Nuance Communications, Inc. Noisy environment communication enhancement system
DK1509065T3 (da) * 2003-08-21 2006-08-07 Bernafon Ag Fremgangsmåde til behandling af audiosignaler
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8306821B2 (en) * 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7610196B2 (en) * 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
WO2007029536A1 (ja) * 2005-09-02 2007-03-15 Nec Corporation 雑音抑圧の方法及び装置並びにコンピュータプログラム
US20070053522A1 (en) * 2005-09-08 2007-03-08 Murray Daniel J Method and apparatus for directional enhancement of speech elements in noisy environments
JP4356670B2 (ja) * 2005-09-12 2009-11-04 ソニー株式会社 雑音低減装置及び雑音低減方法並びに雑音低減プログラムとその電子機器用収音装置
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
WO2007098258A1 (en) * 2006-02-24 2007-08-30 Neural Audio Corporation Audio codec conditioning system and method
JP4738213B2 (ja) * 2006-03-09 2011-08-03 富士通株式会社 利得調整方法及び利得調整装置
US7555075B2 (en) * 2006-04-07 2009-06-30 Freescale Semiconductor, Inc. Adjustable noise suppression system
KR101137359B1 (ko) * 2006-09-14 2012-04-25 엘지전자 주식회사 다이알로그 증폭 기술
US20080082320A1 (en) * 2006-09-29 2008-04-03 Nokia Corporation Apparatus, method and computer program product for advanced voice conversion
EP1918910B1 (en) * 2006-10-31 2009-03-11 Harman Becker Automotive Systems GmbH Model-based enhancement of speech signals
US8615393B2 (en) * 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
EP2092789A4 (en) * 2006-12-12 2009-12-23 Thx Ltd DYNAMIC SURROUND CHANNEL VOLUME CONTROL
JP2008148179A (ja) * 2006-12-13 2008-06-26 Fujitsu Ltd 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法
WO2008100503A2 (en) * 2007-02-12 2008-08-21 Dolby Laboratories Licensing Corporation Improved ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
ES2391228T3 (es) * 2007-02-26 2012-11-22 Dolby Laboratories Licensing Corporation Realce de voz en audio de entretenimiento
JP2008216720A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
US20090010453A1 (en) * 2007-07-02 2009-01-08 Motorola, Inc. Intelligent gradient noise reduction system
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8600516B2 (en) * 2007-07-17 2013-12-03 Advanced Bionics Ag Spectral contrast enhancement in a cochlear implant speech processor
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8296136B2 (en) * 2007-11-15 2012-10-23 Qnx Software Systems Limited Dynamic controller for improving speech intelligibility
KR101444100B1 (ko) * 2007-11-15 2014-09-26 삼성전자주식회사 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
US8315398B2 (en) * 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
WO2009084919A1 (en) * 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2009084916A1 (en) * 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
SG189747A1 (en) 2008-04-18 2013-05-31 Dolby Lab Licensing Corp Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
WO2010003068A1 (en) 2008-07-03 2010-01-07 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
EP2144233A3 (en) * 2008-07-09 2013-09-11 Yamaha Corporation Noise supression estimation device and noise supression device
US8670575B2 (en) * 2008-12-05 2014-03-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8185389B2 (en) * 2008-12-16 2012-05-22 Microsoft Corporation Noise suppressor for robust speech recognition
WO2010068997A1 (en) * 2008-12-19 2010-06-24 Cochlear Limited Music pre-processing for hearing prostheses
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8620008B2 (en) * 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
DK2389773T3 (en) * 2009-01-20 2017-06-19 Widex As HEARING AND A PROCEDURE TO DETECT AND MUTE TRANSIENTS
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
US8538043B2 (en) * 2009-03-08 2013-09-17 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8644517B2 (en) * 2009-08-17 2014-02-04 Broadcom Corporation System and method for automatic disabling and enabling of an acoustic beamformer
EP2475423B1 (en) * 2009-09-11 2016-12-14 Advanced Bionics AG Dynamic noise reduction in auditory prosthesis systems
US8204742B2 (en) * 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
US9552845B2 (en) * 2009-10-09 2017-01-24 Dolby Laboratories Licensing Corporation Automatic generation of metadata for audio dominance effects
US20110099596A1 (en) * 2009-10-26 2011-04-28 Ure Michael J System and method for interactive communication with a media device user such as a television viewer
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US20110125494A1 (en) * 2009-11-23 2011-05-26 Cambridge Silicon Radio Limited Speech Intelligibility
KR101341536B1 (ko) * 2010-01-06 2013-12-16 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8553892B2 (en) * 2010-01-06 2013-10-08 Apple Inc. Processing a multi-channel signal for output to a mono speaker
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI672693B (zh) * 2017-05-10 2019-09-21 英商思睿邏輯國際半導體有限公司 用於聲學迴聲消除的組合參考信號

Also Published As

Publication number Publication date
JP2013521541A (ja) 2013-06-10
WO2011112382A1 (en) 2011-09-15
ES2709523T3 (es) 2019-04-16
EP2545552B1 (en) 2018-12-12
RU2520420C2 (ru) 2014-06-27
BR112012022571B1 (pt) 2020-11-17
BR122019024041B1 (pt) 2020-08-11
RU2012141463A (ru) 2014-04-20
BR112012022571A2 (pt) 2016-08-30
CN104811891A (zh) 2015-07-29
CN104811891B (zh) 2017-06-27
EP2545552A1 (en) 2013-01-16
TW201215177A (en) 2012-04-01
TWI459828B (zh) 2014-11-01
CN102792374A (zh) 2012-11-21
CN102792374B (zh) 2015-05-27
US9219973B2 (en) 2015-12-22
US9881635B2 (en) 2018-01-30
US20160071527A1 (en) 2016-03-10
US20130006619A1 (en) 2013-01-03

Similar Documents

Publication Publication Date Title
JP5674827B2 (ja) 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム
JP5259759B2 (ja) サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置
TWI639347B (zh) 用於音訊信號處理之多聲道直接-周圍分解之裝置及方法
RU2461144C2 (ru) Устройство и способ для генерации многоканального сигнала, использующие обработку голосового сигнала
EP2210427B1 (en) Apparatus, method and computer program for extracting an ambient signal
US20130163781A1 (en) Breathing noise suppression for audio signals
Li et al. Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
RU2782364C1 (ru) Устройство и способ отделения источников с использованием оценки и управления качеством звука

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141222

R150 Certificate of patent or registration of utility model

Ref document number: 5674827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250