JP2016511594A - 音声信号を発生するための方法及び装置 - Google Patents

音声信号を発生するための方法及び装置 Download PDF

Info

Publication number
JP2016511594A
JP2016511594A JP2015558579A JP2015558579A JP2016511594A JP 2016511594 A JP2016511594 A JP 2016511594A JP 2015558579 A JP2015558579 A JP 2015558579A JP 2015558579 A JP2015558579 A JP 2015558579A JP 2016511594 A JP2016511594 A JP 2016511594A
Authority
JP
Japan
Prior art keywords
microphone
signal
speech
audio
similarity measure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015558579A
Other languages
English (en)
Other versions
JP2016511594A5 (ja
JP6519877B2 (ja
Inventor
スリラム スリニバサン
スリラム スリニバサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2016511594A publication Critical patent/JP2016511594A/ja
Publication of JP2016511594A5 publication Critical patent/JP2016511594A5/ja
Application granted granted Critical
Publication of JP6519877B2 publication Critical patent/JP6519877B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/025Arrangements for fixing loudspeaker transducers, e.g. in a box, furniture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/023Transducers incorporated in garment, rucksacks or the like
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

装置がマイクロフォン受信機101を備え、マイクロフォン受信機101は、複数のマイクロフォン103からマイクロフォン信号を受信する。類似性処理装置105は、各マイクロフォン信号に関して、マイクロフォン信号と非反響音声との類似性を示す音声類似性指標を決定する。この決定は、マイクロフォン信号から導出される特性と非反響音声に関する参照特性との比較に応答する。幾つかの実施形態では、比較器105は、1組の非反響音声サンプルにおける音声サンプルに関する参照特性との比較によって類似性指標を決定する。発生器107は、類似性指標に応答してマイクロフォン信号を複合することによって音声信号を発生する。多くの実施形態において、この装置は、それぞれマイクロフォンを含む複数のデバイスにわたって分散させることができ、この手法は、音声信号を発生するための最も適したマイクロフォンを決定することができる。

Description

本発明は、音声信号を発生するための方法及び装置に関し、特に、例えば異なるデバイスにあるマイクロフォン等の複数のマイクロフォン信号から音声信号を発生することに関する。
従来、遠隔ユーザ間の音声通信は、各側にある専用のデバイスを使用して直接の双方向通信によって提供されている。具体的には、2人のユーザ間の従来の通信は、有線電話接続、又は2つの無線送受信機間の無線接続を介するものであった。しかし、ここ数十年、音声を捕捉して通信するための多様性及び可能性がかなり高まっており、よりフレキシブルな音声通信アプリケーションを含め、多くの新たなサービス及び音声アプリケーションが開発されている。
例えば、ブロードバンドインターネット接続の普及が、新たな通信方法を生み出している。インターネット電話は、通信のコストをかなり下げている。これは、家族や友人の輪が世界中に広がっていく傾向と相まって、電話での長時間の会話をもたらしている。1時間を超えて続くVoIP(Voice over Internet Protocol)通話も珍しくなく、現在、そのような長時間の通話中のユーザの快適性が今まで以上に重要である。
更に、ユーザにより所有され使用されるデバイスの範囲がかなり広がっている。具体的には、例えば移動電話、タブレットコンピュータ、ノートブック等、オーディオ捕捉機能、典型的にはワイヤレス通信機能が装備されたデバイスがますます一般的になっている。
ほとんどの音声アプリケーションの品質は、捕捉される音声の品質に大きく依存する。従って、最も実用的なアプリケーションは、発話者の口の近くにマイクロフォンを位置決めすることに基づく。例えば、移動電話は、使用時にユーザによってユーザの口の近くに位置決めされるマイクロフォンを含む。しかし、そのような手法は、多くのシナリオで非実用的であることがあり、最適なユーザエクスペリエンスを提供しないことがある。例えば、ユーザが頭の近くにタブレットコンピュータを保持しなければならないことは、非実用的であり得る。
より自由で、よりフレキシブルなユーザエクスペリエンスを提供するために、様々なハンズフリーソリューションが提案されている。これらは、着用され得る、例えばユーザの衣服に取り付けられ得る非常に小さな筐体内に含まれるワイヤレスマイクロフォンを含む。しかし、これは、多くのシナリオで依然として不便に感じられる。実際、デバイスに近付いたりヘッドセットを着用したりする必要なく、通話中に自由に移動できマルチタスクを行えるハンズフリー通信を可能にすることが、ユーザエクスペリエンスの改善に向けた重要なステップである。
別の手法は、ユーザから離して位置決めされたマイクロフォンに基づくハンズフリー通信を使用することである。例えば、テーブル等に位置決めされたときに部屋内にいる発話者の声を拾う会議システムが開発されている。しかし、そのようなシステムは、最適な音声品質を常には提供しない傾向があり、特に、より離れたユーザからの音声は弱く、雑音を多く含む傾向がある。また、そのようなシナリオでは、捕捉された音声は、高い度合いの反響を含む傾向があり、これは音声の了解度を大幅に減少させることがある。
例えば、そのような遠隔会議システムのために複数のマイクロフォンを使用することが提案されている。しかし、そのような場合における問題は、複数のマイクロフォン信号を複合する方法にある。従来の手法は、単に信号を足し合わせるものである。しかし、これは、最適な音声品質を提供しない傾向がある。マイクロフォン信号の相対信号レベルに基づいて加重和を行うこと等、様々なより複雑な手法が提案されている。しかし、それらの手法は、多くのシナリオで最適な性能を提供しない傾向があり、例えば、依然として高い度合いの反響を含んでいたり、絶対レベルの影響を受けやすかったり、複雑であったり、全てのマイクロフォン信号への集中型アクセスを必要としたり、比較的非実用的であったり、専用デバイスを必要としたりする。
従って、音声信号を捕捉するための改良された手法が有利であり、特に、フレキシビリティの向上、音声品質の改良、反響の減少、複雑性の減少、通信要件の減少、様々なデバイス(多機能デバイスを含む)に対するアダプタビリティの向上、資源要件の減少、及び/又は性能の改良を可能にする手法が有利である。
従って、本発明は、上述した欠点の1つ又は複数を単独で、又は任意の組合せで好ましくは緩和、軽減、又は除去することを試みる。
本発明の一態様によれば、音声信号を発生するための装置であって、複数のマイクロフォンからマイクロフォン信号を受信するためのマイクロフォン受信機と、各マイクロフォン信号に関して、マイクロフォン信号と非反響音声との間の類似性を示す音声類似性指標を決定するように構成された比較器であって、マイクロフォン信号から導出される少なくとも1つの特性と非反響音声に関する少なくとも1つの参照特性との比較に応答して、類似性指標を決定するように構成された比較器と、類似性指標に応答してマイクロフォン信号を複合することによって音声信号を発生するための発生器とを備える装置が提供される。
本発明は、多くの実施形態において、改良された音声信号が発生されるようにすることができる。特に、多くの実施形態において、反響がほとんどなく、及び/又はしばしば雑音がほとんどない音声信号が発生されるようにすることができる。この手法は、音声アプリケーションの性能の改良を可能にすることがあり、特に、多くのシナリオ及び実施形態において、改良された音声通信を提供することがある。
マイクロフォン信号から導出される少なくとも1つの特性と非反響音声に関する参照特性との比較は、音声信号に対する個々のマイクロフォン信号の相対的な有意性を識別する特に効率的で正確なやり方を提供し、特に、例えば信号レベル又は信号対雑音比の尺度に基づく手法よりも良い評価を提供し得る。実際、非反響音声信号に対する捕捉されたオーディオの対応関係は、音声のどれほどが直接経路を介してマイクロフォンに達しており、どれほどが反響経路を介してマイクロフォンに達しているかの強い指標を提供し得る。
少なくとも1つの参照特性は、非反響音声に関連付けられる1つ又は複数の特性/値で良い。幾つかの実施形態では、少なくとも1つの参照特性は、非反響音声の様々なサンプルに対応する1組の特性で良い。類似性指標は、マイクロフォン信号から導出される少なくとも1つの特性の値と、非反響音声に関する少なくとも1つの参照特性、特に1つの非反響音声サンプルの少なくとも1つの参照特性との差を反映するように決定され得る。幾つかの実施形態では、マイクロフォン信号から導出される少なくとも1つの特性は、マイクロフォン信号自体で良い。幾つかの実施形態では、非反響音声に関する少なくとも1つの参照特性は、非反響音声信号で良い。代替として、特性は、利得正規化されたスペクトル包絡線等、適切な特徴で良い。
マイクロフォン信号を提供するマイクロフォンは、多くの実施形態において、ある領域内に分散されたマイクロフォンで良く、互いから離れていて良い。特に、この手法は、これらの位置がユーザ又は装置/システムによって知られている、又は仮定されている必要がなく、様々な位置で捕捉されたオーディオの使用の改善を可能にすることができる。例えば、マイクロフォンは、部屋内にアドホックでランダムに分布されて良く、システムは、特定の構成に関する音声信号の改良を提供するように自動的に適合し得る。
非反響音声サンプルは、特に、実質的にドライ又は無響の音声サンプルで良い。
音声類似性指標は、個々のマイクロフォン信号(又はその一部)と非反響音声、例えば非反響音声サンプル等との相違又は類似性の度合いの任意の指標で良い。類似性指標は、知覚的な類似性指標で良い。
本発明の任意選択的な特徴によれば、装置は、複数の個別のデバイスを備え、各デバイスが、複数のマイクロフォン信号のうちの少なくとも1つのマイクロフォン信号を受信するためのマイクロフォン受信機を備える。
これは、音声信号を発生するための特に効率的な手法を提供することができる。多くの実施形態において、各デバイスは、マイクロフォン信号を提供するマイクロフォンを備えていて良い。本発明は、性能の改良により、改良された及び/又は新規のユーザエクスペリエンスを可能にすることができる。
例えば、幾つかの可能な様々なデバイスが、部屋内に位置決めされ得る。音声通信等の音声アプリケーションを実行するとき、個々のデバイスがそれぞれマイクロフォン信号を提供することがあり、これらのマイクロフォン信号は、音声信号を発生するために使用するのに最も適したデバイス/マイクロフォンを見つけるために評価され得る。
本発明の任意選択的な特徴によれば、複数の個別のデバイスのうちの少なくとも第1のデバイスが、第1のデバイスの少なくとも1つのマイクロフォン信号に関する第1の音声類似性指標を決定するためのローカル比較器を備える。
これは、多くのシナリオで動作の改良を提供することができ、特に分散処理を可能にし、分散処理は、例えば通信リソースを減少させる及び/又は計算リソース要求を広げることができる。
具体的には、多くの実施形態において、個々のデバイスは、ローカルで類似性指標を決定することができ、類似性基準が基準を満たす場合にのみマイクロフォン信号を送信することができる。
本発明の任意選択的な特徴によれば、発生器が、少なくとも第1のデバイスとは別個の発生器デバイス内に実装され、第1のデバイスは、第1の音声類似性指標を発生器デバイスに送信するための送信機を備える。
これは、多くの実施形態において、有利な実装及び動作を可能にし得る。特に、これは、多くの実施形態において、任意のオーディオ又は音声信号の通信を必要とせずに、1つのデバイスが全ての他のデバイスでの音声品質を評価できるようにし得る。送信機は、Bluetooth(登録商標)やWi−Fi通信リンク等のワイヤレス通信リンクを介して第1の音声類似性指標を送信するように構成され得る。
本発明の任意選択的な特徴によれば、発生器デバイスが、複数の個別のデバイスそれぞれから音声類似性指標を受信するように構成され、発生器が、複数の個別のデバイスからのマイクロフォン信号の部分集合を使用して音声信号を発生するように構成され、部分集合は、複数の個別のデバイスから受信された音声類似性指標に応答して決定される。
これは、多くのシナリオで非常に効率的なシステムを可能にすることができ、ここで、様々なデバイスによって拾われたマイクロフォン信号から音声信号が発生され得て、音声信号を発生するためにデバイスの最良の部分集合のみが使用される。従って、典型的には、得られる音声信号品質に大きな影響を及ぼさずに、通信資源がかなり減少される。
多くの実施形態において、部分集合は、ただ1つのマイクロフォンのみを含めば良い。幾つかの実施形態では、発生器は、類似性指標に基づいて複数のマイクロフォン信号から選択されたただ1つのマイクロフォン信号から音声信号を発生するように構成され得る。
本発明の任意選択的な特徴によれば、複数の個別のデバイスのうちの少なくとも1つのデバイスが、少なくとも1つのデバイスの少なくとも1つのマイクロフォン信号がマイクロフォン信号の部分集合に含まれる場合にのみ、少なくとも1つのデバイスの少なくとも1つのマイクロフォン信号を発生器デバイスに送信するように構成される。
これは、通信資源使用量を減少させることができ、マイクロフォン信号が部分集合に含まれていないデバイスに関する計算資源使用量を減少させることができる。送信機は、Bluetooth(登録商標)やWi−Fi通信リンク等のワイヤレス通信リンクを介して少なくとも1つのマイクロフォン信号を送信するように構成され得る。
本発明の任意選択的な特徴によれば、発生器デバイスは、マイクロフォン信号の部分集合を決定するように構成された選択器と、複数の個別のデバイスの少なくとも1つに部分集合の指標を送信するための送信機とを備える。
これは、多くのシナリオで有利な動作を提供し得る。
幾つかの実施形態では、発生器は、部分集合を決定することができ、複数のデバイスのうちの少なくとも1つのデバイスに部分集合の指標を送信するように構成され得る。例えば、部分集合内に含まれるマイクロフォン信号のデバイスに関して、発生器は、デバイスがマイクロフォン信号を発生器に送信すべきであるという指示を送信することがある。
送信機は、Bluetooth(登録商標)やWi−Fi通信リンク等のワイヤレス通信リンクを介して指標を送信するように構成され得る。
本発明の任意選択的な特徴によれば、比較器は、マイクロフォン信号から導出される少なくとも1つの特性と1組の非反響音声サンプルにおける音声サンプルに関する参照特性との比較に応答して、第1のマイクロフォン信号に関して類似性指標を決定するように構成される。
(例えば適切な特徴領域での)マイクロフォン信号と大きな1組の非反響音声サンプルとの比較は、音声信号に対する個々のマイクロフォン信号の相対的な有意性を識別する特に効率的で正確なやり方を提供し、特に、例えば信号レベル又は信号対雑音比の尺度に基づく手法よりも良い評価を提供し得る。実際、非反響音声信号に対する捕捉されたオーディオの対応関係は、音声のどれほどが直接経路を介してマイクロフォンに達しており、どれほどが反響/反射経路を介してマイクロフォンに達しているかの強い指標を提供し得る。実際、非反響音声サンプルとの比較は、単にエネルギー又はレベルを考慮するのではなく、音響経路のパルス応答の形状の考慮を含むと考えられ得る。
この手法は、発話者に依存しないことがあり、幾つかの実施形態では、1組の非反響音声サンプルが、(高い又は低い声等)異なる発話者特性に対応するサンプルを含むことがある。多くの実施形態において、処理はセグメント化され得て、1組の非反響音声サンプルは、例えば、人間音声の音素に対応するサンプルを含むことがある。
比較器は、各マイクロフォン信号に関して、1組の非反響音声サンプルにおける各音声サンプルに関する個々の類似性指標を決定することができる。ここで、マイクロフォン信号に関する類似性指標は、例えば最高の度合いの類似性を示す個別の類似性指標を選択することによって、個別の類似性指標から決定され得る。多くのシナリオにおいて、最も良く合致する音声サンプルが識別され得て、この音声サンプルについて、マイクロフォン信号に関する類似性指標が決定され得る。類似性指標は、マイクロフォン信号(又はその一部)と、1組の非反響音声サンプルのうち、最高の類似性が見出された非反響音声サンプルとの類似性の指標を提供し得る。
所与の音声信号サンプルに関する類似性指標は、マイクロフォン信号が、音声サンプルに対応する音声発声から生じたものである尤度を反映し得る。
本発明の任意選択的な特徴によれば、1組の非反響音声サンプルにおける音声サンプルは、非反響音声モデルに関するパラメータによって表現される。
これは、効率が良く、信頼性が高く、及び/又は正確な動作を提供し得る。この手法は、多くの実施形態において、計算及び/又はメモリ資源要件を減少させることができる。
比較器は、幾つかの実施形態では、様々なパラメータセットに関するモデルを評価し、得られた信号をマイクロフォン信号と比較することができる。例えば、マイクロフォン信号と音声サンプルの周波数表現とが比較され得る。
幾つかの実施形態では、音声モデルに関するモデルパラメータは、マイクロフォン信号から生成され得て、即ち、マイクロフォン信号に合致する音声サンプルを生じるモデルパラメータが決定され得る。次いで、これらのモデルパラメータは、1組の非反響音声サンプルのパラメータと比較され得る。
特に、非反響音声モデルは、線形予測モデル、例えば特にCELP(符号励振線形予測(Code-Excited Linear Prediction))モデルで良い。
本発明の任意選択的な特徴によれば、比較器は、第1の音声サンプルに関するパラメータを使用して非反響音声モデルを評価することによって発生される音声サンプル信号から、1組の非反響音声サンプルのうちの第1の音声サンプルに関する第1の参照特性を決定するように構成され、また、第1のマイクロフォン信号から導出される特性と第1の参照特性との比較に応答して、複数のマイクロフォン信号のうちの第1のマイクロフォン信号に関する類似性指標を決定するように構成される。
これは、多くのシナリオで有利な動作を提供し得る。第1のマイクロフォン信号に関する類似性指標は、第1のマイクロフォン信号に関して決定された特性を各非反響音声サンプルに関して決定された参照特性と比較することによって決定され得て、参照特性は、モデルを評価することによって発生される信号表現から決定される。従って、比較器は、マイクロフォン信号の特性を、非反響音声サンプルに関する記憶されているパラメータを使用して非反響音声モデルを評価することにより得られる信号サンプルの特性と比較することができる。
本発明の任意選択的な特徴によれば、比較器は、複数のマイクロフォン信号のうちの第1のマイクロフォン信号を1組の基底信号ベクトルに分解し、1組の基底信号ベクトルの特性に応答して類似性指標を決定するように構成される。
これは、多くのシナリオで有利な動作を提供し得る。この手法は、多くのシナリオで、複雑性及び/又は資源使用量を減少させることができる。参照特性は、適切な特徴領域での1組の基底ベクトルに関係付けられることがあり、そこから、基底ベクトルの加重和として非反響特徴ベクトルが生成され得る。この組は、非反響特徴ベクトルを正確に記述するために、少数の基底ベクトルのみを用いた加重和で十分となるように設計され得て、即ち、1組の基底ベクトルが、非反響音声に関するスパース表現を提供する。参照特性は、加重和に現れる基底ベクトルの数で良い。反響音声特徴ベクトルを記述するために非反響音声に関して設計されている1組の基底ベクトルを使用することは、あまりスパースでない(less-sparse)分解をもたらす。特性は、マイクロフォン信号から抽出される特徴ベクトルを記述するために使用されるときに非ゼロの重み(又は所与の閾値よりも大きい重み)を有する基底ベクトルの数で良い。類似性指標は、より少数の基本信号ベクトルに関して、非反響音声信号へのより高い類似性を示すことができる。
本発明の任意選択的な特徴によれば、比較器は、音声信号の複数のセグメントの各セグメントに関して音声類似性指標を決定するように構成され、発生器は、各セグメントに関して複合のための複合パラメータを決定するように構成される。
装置は、セグメント化された処理を利用することができる。複合は、各セグメントに関して一定で良いが、セグメント毎に変えられても良い。例えば、音声信号は、各セグメントで1つのマイクロフォン信号を選択することによって発生され得る。複合パラメータは、例えばマイクロフォン信号に関する複合重みで良く、又は例えば複合に含めるマイクロフォン信号の部分集合の選択で良い。この装置は、性能の改良及び/又は動作の容易化を提供し得る。
本発明の任意選択的な特徴によれば、発生器は、少なくとも1つの前のセグメントの類似性指標に応答して1つのセグメントに関する複合パラメータを決定するように構成される。
これは、多くのシナリオで、性能の改良を提供し得る。例えば、ゆっくりとした変化へのより良い適合を提供することができ、また、発生された音声信号の途絶を減少させることができる。
幾つかの実施形態では、複合パラメータは、静かな期間又は休止中のセグメントには基づかずに、音声を含むセグメントのみに基づいて決定され得る。
幾つかの実施形態では、発生器は、ユーザ運動モデルに応答して第1のセグメントに関する複合パラメータを決定するように構成される。
本発明の任意選択的な特徴によれば、発生器は、類似性指標に応答して複合するためにマイクロフォン信号の部分集合を選択するように構成される。
これは、多くの実施形態において、性能の改良及び/又は動作の容易化を可能にし得る。複合は、特に選択複合で良い。発生器は、特に、類似性指標が絶対又は相対基準を満たすマイクロフォン信号のみを選択し得る。
幾つかの実施形態では、マイクロフォン信号の部分集合は、ただ1つのマイクロフォン信号を備える。
本発明の任意選択的な特徴によれば、発生器は、マイクロフォン信号の加重複合として音声信号を発生するように構成され、それらのマイクロフォン信号のうちの第1のマイクロフォン信号に関する重みは、そのマイクロフォン信号に関する類似性指標に依存する。
これは、多くの実施形態において、性能の改良及び/又は動作の容易化を可能にし得る。
本発明の一態様によれば、音声信号を発生する方法であって、複数のマイクロフォンからマイクロフォン信号を受信するステップと、各マイクロフォン信号に関して、マイクロフォン信号と非反響音声との間の類似性を示す音声類似性指標を決定するステップであって、マイクロフォン信号から導出される少なくとも1つの特性と非反響音声に関する少なくとも1つの参照特性との比較に応答して、類似性指標が決定されるステップと、類似性指標に応答してマイクロフォン信号を複合することによって、音声信号を発生するステップとを含む方法が提供される。
本発明のこれら及び他の態様、特徴、及び利点は、本明細書で以下に述べる実施形態を参照すれば明らかになり解明されよう。
本発明の実施形態を、単に例として、図面を参照して説明する。
本発明の幾つかの実施形態による音声捕捉装置を示す図である。 本発明の幾つかの実施形態による音声捕捉システムを示す図である。 反響室内で3つの異なる距離で記録された音声のセグメントに対応するスペクトル包絡線の一例を示す図である。 本発明の幾つかの実施形態に従って決定される、マイクロフォンが発話者に最も近いマイクロフォンである尤度の一例を示す図である。
以下の説明は、電気通信用の音声信号を発生するために音声の捕捉に適用可能な本発明の幾つかの実施形態に焦点を当てる。しかし、本発明がこの用途に限定されず、多くの他のサービス及び用途に適用され得ることを理解されたい。
図1は、本発明の幾つかの実施形態による音声捕捉装置の要素の一例を示す。
この例では、音声捕捉装置は、複数のマイクロフォン受信機101を備え、マイクロフォン受信機101は、複数のマイクロフォン103(装置の一部でも、装置の外部にあっても良い)に結合される。
従って、1組のマイクロフォン受信機101が、マイクロフォン103から1組のマイクロフォン信号を受信する。この例では、マイクロフォン103は、様々な未知の位置で部屋内に分布される。従って、異なるマイクロフォンが、異なる領域からサウンドを拾うことができ、異なる特性を有する同じサウンドを拾うことができ、又はマイクロフォンが互いに近い場合には同様の特性を有する同じサウンドを実際に拾うことができる。マイクロフォン103間の関係、及びマイクロフォン103と異なる音源との関係は、典型的にはシステムによって知られていない。
音声捕捉装置は、マイクロフォン信号から音声信号を発生するように配置される。具体的には、システムは、マイクロフォン103によって捕捉されたオーディオから音声信号を抽出するためにマイクロフォン信号を処理するように構成される。システムは、各マイクロフォン信号が非反響音声信号にどれほど良く対応するかに応じてマイクロフォン信号を複合するように構成され、それにより、そのような信号に対応する可能性が最も高い複合信号を提供する。複合は、特に選択複合で良く、装置は、非反響音声信号に最も良く似ているマイクロフォン信号を選択する。音声信号の発生は、個々のマイクロフォンの特定の位置とは無関係であることがあり、マイクロフォン103又は発話者の位置の知識には何ら依拠しない。むしろ、マイクロフォン103は、例えば部屋内にランダムに分布されることがあり、システムは、例えば、任意の所与の発話者に最も近いマイクロフォンからの信号を主に使用するように自動的に適合し得る。この適合は自動的に行われることがあり、(以下に述べる)そのような最も近いマイクロフォン103を識別するための特定の手法は、ほとんどのシナリオで特に適切な音声信号をもたらす。
図1の音声捕捉装置では、マイクロフォン受信機103は、比較器又は類似性処理装置105に結合され、比較器又は類似性処理装置105は、マイクロフォン信号を供給される。
各マイクロフォン信号に関して、類似性処理装置105は、音声類似性指標(本明細書では以後、単に類似性指標と呼ぶ)を決定し、類似性指標は、マイクロフォン信号と非反響音声との類似性を示す。類似性処理装置105は、特に、マイクロフォン信号から導出される少なくとも1つの特性と非反響音声に関する少なくとも1つの参照特性との比較に応答して、類似性指標を決定する。参照特性は、幾つかの実施形態では、単一のスカラー値で良く、他の実施形態では、値又は関数の複合的な集合で良い。参照特性は、幾つかの実施形態では、特定の非反響音声信号から導出されて良く、他の実施形態では、非反響音声に関連付けられる一般的な特性で良い。参照特性、及び/又はマイクロフォン信号から導出される特性は、例えば、スペクトル、パワースペクトル密度特性、幾つかの非ゼロ基底ベクトル等で良い。幾つかの実施形態では、これらの特性は信号で良く、特に、マイクロフォン信号から導出される特性は、マイクロフォン信号自体で良い。同様に、参照特性は、非反響音声信号で良い。
具体的には、類似性処理装置105は、各マイクロフォン信号に関して類似性指標を発生するように構成されて良く、ここで、類似性指標は、1組の非反響音声サンプルからの音声サンプルに対するマイクロフォン信号の類似性を示す。従って、この例では、類似性処理装置105は、幾つかの(典型的には多数の)音声サンプルを記憶するメモリを備え、各音声サンプルは、非反響及び特に実質的に無響の部屋内での音声に対応する。一例として、類似性処理装置105は、各マイクロフォン信号を各音声サンプルと比較して、各音声サンプルに関して、記憶されている音声サンプルとマイクロフォン信号との相違の尺度を決定することができる。次いで、音声サンプルに関する相違の尺度が比較され得て、最小の相違を示す尺度が選択され得る。次いで、この尺度は、特定のマイクロフォン信号に関する類似性指標を生成するために(又は類似性指標として)使用され得る。このプロセスが全てのマイクロフォン信号に関して繰り返され、1組の類似性指標を生じる。従って、1組の類似性指標は、各マイクロフォン信号が非反響音声とどれほど似ているかを示すことができる。
多くの実施形態及びシナリオにおいて、そのような信号サンプル領域比較は、マイクロフォンレベルの変化や雑音等に関係する不確かさにより、信頼性が十分に高くないことがある。従って、多くの実施形態において、比較器は、特徴領域で行われる比較に応答して類似性指標を決定するように構成され得る。従って、多くの実施形態において、比較器は、マイクロフォン信号から幾つかの特徴/パラメータを決定し、これらを、非反響音声に関する記憶されている特徴/パラメータと比較するように構成され得る。例えば、以下により詳細に述べるように、比較は、線形予測モデルのための係数等、音声モデルに関するパラメータに基づいていて良い。次いで、マイクロフォン信号に関して、対応するパラメータが決定され、無響環境内での様々な発声に対応する記憶されているパラメータと比較され得る。
非反響音声は、典型的には、発話者からの音響伝達関数が主として直接経路に基づくものであり、反射及び反響部分は実質的に減衰されているときに実現される。これはまた、典型的には、発話者がマイクロフォンの比較的近くにいる状況に対応し、発話者の口の近くにマイクロフォンが位置決めされる従来の構成に最も良く対応し得る。また、非反響音声は、しばしば最も了解度の高いものとみなされることもあり、事実、実際の音声源に最も良く対応する。
図1の装置は、個々のマイクロフォンのための音声反響特性が査定されることを可能にする手法を利用し、それにより、これを考慮に入れることができる。実際、本発明者は、音声信号を発生するときに個々のマイクロフォン信号に関する音声反響特性を考慮することが品質をかなり改良し得ることを認識しているだけでなく、専用のテスト信号及び測定を必要とせずにこれが好適に実現され得るやり方を認識している。実際、本発明者は、個々のマイクロフォン信号の特性を非反響音声に関連付けられる参照特性と比較することによって、及び特に複数組の非反響音声サンプルを用いて、改良された音声信号を発生するためにマイクロフォン信号を複合するのに適したパラメータを決定することが可能であることを認識している。特に、この手法は、任意の専用のテスト信号、テスト測定値、又は実際に音声の演繹的な(a priori)知識を必要とせずに音声信号が発生されることを可能にする。実際、システムは、任意の音声によって動作するように設計され得て、例えば特定のテストワード又はセンテンスが発話者によって発話されることを必要としない。
図1のシステムにおいて、類似性処理装置105は、発生器107に結合され、発生器107は、類似性指標を供給される。更に、発生器107は、マイクロフォン受信機101に結合され、マイクロフォン受信機101からマイクロフォン信号を受信する。発生器107は、類似性指標に応答してマイクロフォン信号を複合することによって、出力音声信号を発生するように構成される。
複雑でない例として、発生器107は、選択複合器を実装することができ、例えば、複数のマイクロフォン信号から単一のマイクロフォン信号が選択される。具体的には、発生器107は、非反響音声サンプルに最も良く合致するマイクロフォン信号を選択することができる。次いで、典型的には音声の最もクリーンで最もクリアな捕捉である可能性が高いこのマイクロフォン信号から、音声信号が発生される。具体的には、発話者によって発せられた音声に非常に良く対応するものである可能性が高い。典型的には、これはまた、発話者に最も近いマイクロフォンに対応する。
幾つかの実施形態では、音声信号は、例えば電話回線、ワイヤレス接続、インターネット、又は任意の他の通信ネットワーク若しくはリンクを介して遠隔ユーザに通信され得る。音声信号の通信は、典型的には、音声符号化及び場合によっては他の処理を含んでいて良い。
従って、図1の装置は、発話者及びマイクロフォンの位置、並びに音響環境特性に自動的に適合することができ、元の音声信号に最も良く対応する音声信号を発生する。具体的には、発生される音声信号は、より小さい反響及び雑音を有する傾向があり、従って、あまり歪められずに、よりクリーンに、より高い了解度で聞こえる。
処理は、典型的には、増幅、フィルタリング、時間領域と周波数領域の間の変換等を含めた、オーディオ及び音声処理で典型的に行われる様々な他の処理を含んでいて良いことを理解されたい。例えば、マイクロフォン信号は、しばしば、類似性指標を発生するために複合される及び/又は使用される前に、増幅及びフィルタリングされ得る。同様に、発生器107は、音声信号の複合及び/又は発生の一部として、フィルタリングや増幅等を含むこともある。
多くの実施形態において、音声捕捉装置は、セグメント化された処理を使用することができる。従って、処理は、短い時間間隔で、例えば100ミリ秒未満の持続時間のセグメント、しばしば約20ミリ秒のセグメントで実施され得る。
従って、幾つかの実施形態では、類似性指標は、所与のセグメントで各マイクロフォン信号に関して発生され得る。例えば、各マイクロフォン信号に関して、例えば50ミリ秒の持続時間のマイクロフォン信号セグメントが発生され得る。次いで、セグメントは、1組の非反響音声サンプルと比較されて良く、1組の非反響音声サンプル自体が、音声セグメントサンプルから構成され得る。この50ミリ秒セグメントに関して類似性指標が決定され得て、発生器107は、続いて、マイクロフォン信号セグメントと、そのセグメント/間隔に関する類似性指標とに基づいて、50ミリ秒の間隔にわたる音声信号セグメントを発生することができる。従って、各セグメントに関して、例えば、各セグメント内で非反響音声サンプルの音声セグメントサンプルに対する最高の類似性を有するマイクロフォン信号を選択することによって、複合が更新され得る。これは、特に効率的な処理及び動作を提供することができ、特定の環境への継続的及び動的な適合を可能にし得る。実際、発話者音源及び/又はマイクロフォン位置の動的な移動への適合が、低い複雑性で実現され得る。例えば、2つの音源(発話者)間で音声が切り替わる場合、システムは、それに対応して、2つのマイクロフォン間で切り替わるように適合し得る。
幾つかの実施形態では、非反響音声サンプルは、マイクロフォン信号セグメントの持続時間に合致する持続時間を有していて良い。しかし、幾つかの実施形態では、持続時間はより長くても良い。例えば、各非反響音声セグメントサンプルは、より長い持続時間を有する音素又は特定の音声サウンドに対応していて良い。そのような実施形態では、各非反響音声セグメントサンプルに関する類似性尺度の決定は、音声セグメントサンプルに対するマイクロフォン信号セグメントの整合を含むことがある。例えば、様々な時間オフセットに関して相関値が決定され得て、最高値が類似性指標として選択され得る。これは、より少数の音声セグメントサンプルが記憶されるようにし得る。
幾つかの例では、使用するマイクロフォン信号の部分集合の選択や、線形和に関する重み等の複合パラメータが、音声信号の時間間隔に関して決定され得る。従って、セグメントにおいて、セグメントにわたって一定であるが、セグメント間では異なることもあるパラメータに基づく複合から、音声信号が決定され得る。
幾つかの実施形態では、複合パラメータの決定は各時間セグメントに関して独立しており、即ち、時間セグメントに関する複合パラメータは、その時間セグメントに関して決定される類似性指標のみに基づいて計算され得る。
しかし、他の実施形態では、複合パラメータは、代替又は追加として、少なくとも1つの前のセグメントの類似性指標に応答して決定されても良い。例えば、類似性指標は、幾つかのセグメントにわたって延びるローパスフィルタを使用してフィルタされ得る。これは、よりゆっくりとした適合を保証することがあり、例えば、発生される音声信号の変動及び変化を低減させることができる。別の例として、ヒステリシス効果が適用されても良く、これは、例えば、発話者からほぼ同じ距離に位置決めされた2つのマイクロフォン間での速いピンポンスイッチングを防止する。
幾つかの実施形態では、発生器107は、ユーザ運動モデルに応答して第1のセグメントに関する複合パラメータを決定するように構成され得る。そのような手法は、マイクロフォンデバイス201、203、205に対するユーザの相対位置を追跡するために使用され得る。ユーザモデルは、ユーザ又はマイクロフォンデバイス201、203、205の位置を明示的に追跡する必要はなく、類似性指標の変動を直接追跡することがある。例えば、人間運動モデルを記述するために状態空間表現が採用され得て、移動による類似性指標の変化を追跡するために、1つのマイクロフォン信号の個々のセグメントの類似性指標にカルマンフィルタが適用され得る。次いで、得られるカルマンフィルタの出力が、現在のセグメントに関する類似性指標として使用され得る。
多くの実施形態において、図1の機能は、分散されて実施されて良く、特に、システムは複数のデバイスにわたって拡散され得る。具体的には、各マイクロフォン103は異なるデバイスの一部で良く、又は異なるデバイスに接続されていて良く、従って、マイクロフォン受信機101は異なるデバイスに含まれていて良い。
幾つかの実施形態では、類似性処理装置105と発生器107は、単一のデバイス内に実装される。例えば、幾つかの異なる遠隔デバイスがマイクロフォン信号を発生器デバイスに送信しても良く、発生器デバイスは、受信されたマイクロフォン信号から音声信号を発生するように構成される。この発生器デバイスは、既述のような類似性処理装置105及び発生器107の機能を実装し得る。
しかし、多くの実施形態において、類似性処理装置105の機能は、複数の個別のデバイスにわたって分散される。具体的には、各デバイスは、(副)類似性処理装置105を備えることがあり、(副)類似性処理装置105は、そのデバイスのマイクロフォン信号に関する類似性指標を決定するように構成される。次いで、類似性指標は、発生器デバイスに送信され得て、発生器デバイスは、受信された類似性指標に基づいて複合に関するパラメータを決定し得る。例えば、発生器デバイスは、単に、最も高い類似性指標を有するマイクロフォン信号/デバイスを選択することがある。幾つかの実施形態では、デバイスは、発生器デバイスがマイクロフォン信号を要求しない限り、発生器デバイスにマイクロフォン信号を送信しないことがある。従って、発生器デバイスは、選択されたデバイスに、マイクロフォン信号を求める要求を送信することができ、この選択されたデバイスが、それに応答してマイクロフォン信号を発生器デバイスに提供する。その後、発生器デバイスは、続いて、受信されたマイクロフォン信号に基づいて出力信号を発生する。実際、この例では、発生器107はデバイスにわたって分散されているものと考慮され得て、複合は、マイクロフォン信号を選択して選択的に送信するプロセスによって実現される。そのような手法の利点は、マイクロフォン信号の1つのみ(又は少なくとも部分集合)が発生器デバイスに送信されれば良く、従って、かなり減少された通信資源使用量が実現され得ることである。
一例として、この手法は、ユーザの音声を捕捉するために対象の領域内に分布されたデバイスのマイクロフォンを使用することがある。典型的な現代のリビングルームは、典型的には、1つ又は複数のマイクロフォン及びワイヤレス伝送機能を装備された幾つかのデバイスを有する。例は、コードレス固定電話、移動電話、ビデオチャット対応テレビジョン、タブレットPC、ラップトップ等を含む。これらのデバイスは、幾つかの実施形態では、例えば発話者に最も近いマイクロフォンによって捕捉される音声を自動的に且つ適応可能に選択することによって、音声信号を発生するために使用され得る。これは、典型的には高品質であり反響のない捕捉された音声を提供することができる。
実際、一般に、マイクロフォンによって捕捉される信号は、反響、周囲雑音、及びマイクロフォン雑音によって影響を及ぼされる傾向があり、影響は、音源(例えばユーザの口)に対するマイクロフォンの位置に依存する。システムは、ユーザの口に近いマイクロフォンによって記録されたものに最も近いマイクロフォンを選択することを試みることがある。発生された音声信号は、例えばホーム/オフィス電話、遠隔会議システム、音声制御システム用のフロントエンド等、ハンズフリー音声捕捉が望ましい場合に適用され得る。
より詳細には、図2は、分散型の音声発生/捕捉装置/システムの一例を示す。この例は、複数のマイクロフォン201、203、205、及び発生器デバイス207を含む。
各マイクロフォン201、203、205はマイクロフォン受信機101を備え、マイクロフォン受信機101はマイクロフォン103からマイクロフォン信号を受信し、マイクロフォン103は、この例ではマイクロフォンデバイス201、203、205の一部であるが、他の場合にはマイクロフォンデバイス201、203、205とは別でも良い(例えば、マイクロフォンデバイス201、203、205の1つ又は複数が、外部マイクロフォンを取り付けるためのマイクロフォン入力端子を備えることがある)。各マイクロフォンデバイス201、203、205でのマイクロフォン受信機101は、類似性処理装置105に結合され、類似性処理装置105は、マイクロフォン信号に関する類似性指標を決定する。
特に、各マイクロフォンデバイス201、203、205の類似性処理装置105は、個々のマイクロフォンデバイス201、203、205の特定のマイクロフォン信号に関して、図1の類似性処理装置105の動作を実施する。従って、各マイクロフォンデバイス201、203、205の類似性処理装置105は、特に、続いて、マイクロフォン信号を、各デバイスにローカルで記憶されている1組の非反響音声サンプルと比較する。類似性処理装置105は、特に、マイクロフォン信号を各非反響音声サンプルと比較し、各音声サンプルに関して、信号がどれほど類似しているかの指標を決定することができる。例えば、類似性処理装置105が、人間音声の各音素の表現を含むローカルデータベースを記憶するためのメモリを含む場合、類似性処理装置105は、続いて、マイクロフォン信号を各音素と比較することができる。従って、マイクロフォン信号が、任意の反響又は雑音を含まない各音素にどれほど良く似ているかを示す1組の指標が決定される。従って、最良の合致に対応する指標は、捕捉されたオーディオがその音素を発話する発話者によって発生されるサウンドにどれほど良く対応するかに関する指標に対応する可能性が高い。従って、最も良い類似性の指標が、マイクロフォン信号に関する類似性指標として選択される。従って、この類似性指標は、捕捉されたオーディオが、雑音を含まない及び反響を含まない音声にどれほど対応するかを反映する。発話者から遠くに位置決めされたマイクロフォン(従って典型的にはデバイス)に関して、捕捉されたオーディオは、元の発せられた音声を、様々な反射、反響、及び雑音からの寄与に比べて低い相対レベルでしか含まない可能性が高い。しかし、発話者の近くに位置決めされたマイクロフォン(従ってデバイス)に関して、捕捉されたサウンドは、直接音響経路からのかなり高い寄与と、反射及び雑音からの比較的低い寄与とを含む可能性が高い。従って、類似性指標は、個々のデバイスの捕捉されたオーディオの音声がどれほどクリーンであり了解度が高いかに関する良好な指標を提供する。
各マイクロフォンデバイス201、203、205は、更にワイヤレス送受信機209を備え、ワイヤレス送受信機209は、各デバイスの類似性処理装置105及びマイクロフォン受信機101に結合される。ワイヤレス送受信機209は、特に、ワイヤレス接続を介して発生器デバイス207と通信するように構成される。
発生器デバイス207は、ワイヤレス送受信機211も備え、ワイヤレス送受信機211は、ワイヤレス接続を介してマイクロフォンデバイス201、203、205と通信することができる。
多くの実施形態において、マイクロフォンデバイス201、203、205と発生器デバイス207は、双方向でデータを通信するように構成され得る。しかし、幾つかの実施形態では、マイクロフォンデバイス201、203、205から発生器デバイス207への一方向のみの通信が適用され得ることを理解されたい。
多くの実施形態において、デバイスは、ローカルWi−Fi通信ネットワーク等のワイヤレス通信ネットワークを介して通信することができる。従って、マイクロフォンデバイス201、203、205のワイヤレス送受信機209は、特に、Wi−Fi通信を介して他のデバイス(特に発生器デバイス207)と通信するように構成され得る。しかし、他の実施形態では、例えば、有線又は無線ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、Bluetooth(登録商標)通信リンク等の他の通信方法が使用され得ることを理解されたい。
幾つかの実施形態では、各マイクロフォンデバイス201、203、205は、常に、類似性指標及びマイクロフォン信号を発生器デバイス207に送信することができる。パラメータデータやオーディオデータ等のデータがデバイス間で通信され得るやり方を当業者が良く認識していることを理解されたい。具体的には、当業者は、オーディオ信号伝送が符号化、圧縮、誤り訂正等を含むことができる方法を良く認識している。
そのような実施形態では、発生器デバイス207は、マイクロフォン信号及び類似性指標を全てのマイクロフォンデバイス201、203、205から受信することができる。その後、発生器デバイス207は、続いて、音声信号を発生するために、類似性指標に基づいてマイクロフォン信号を複合することができる。
特に、発生器デバイス207のワイヤレス送受信機211は、制御装置213及び音声信号発生器215に結合される。制御装置213は、ワイヤレス送受信機211から類似性指標を供給され、これらに応答して1組の複合パラメータを決定し、これらのパラメータは、音声信号がマイクロフォン信号からどのように発生されるかを制御する。制御装置213は、音声信号発生器215に結合され、音声信号発生器215は、複合パラメータを供給される。更に、音声信号発生器215は、ワイヤレス送受信機211からマイクロフォン信号を供給され、従って、続いて、複合パラメータに基づいて音声信号を発生することができる。
具体例として、制御装置213は、受信された類似性指標を比較し、最高の類似度を示すものを識別することができる。次いで、対応するデバイス/マイクロフォン信号の指標は、音声信号発生器215に渡されることがあり、音声信号発生器215は、続いて、このデバイスからのマイクロフォン信号を選択することができる。次いで、このマイクロフォン信号から音声信号が発生される。
別の例として、幾つかの実施形態では、音声信号発生器215は、続いて、受信されたマイクロフォン信号の加重複合として、出力音声信号を発生することができる。例えば、受信されたマイクロフォン信号の加重和が適用され得て、各個の信号に関する重みは類似性指標から生成される。例えば、類似性指標は、所与の範囲内のスカラー値として直接提供されて良く、個々の重みは、(例えば信号レベル又は累積重み値が一定であることを保証する比例係数で)そのスカラー値に正比例していて良い。
そのような手法は、利用可能な通信帯域幅が制約とならないシナリオでは特に魅力的であり得る。従って、発話者に最も近いデバイスを選択するのではなく、各デバイス/マイクロフォン信号に重みが割り当てられることがあり、様々なマイクロフォンからのマイクロフォン信号が、加重和として複合され得る。そのような手法は、ロバスト性を提供し、反響又は雑音の大きい環境で、誤った選択の影響を緩和することができる。
また、複合手法が組み合わされ得ることも理解されたい。例えば、純粋な選択複合を使用するのではなく、制御装置213は、マイクロフォン信号の部分集合(例えば、類似性指標が閾値を超えるマイクロフォン信号等)を選択し、次いで、類似性指標に依存する重みを使用して、部分集合のマイクロフォン信号を複合することができる。
幾つかの実施形態では、複合は、異なる信号の整合を含み得ることも理解されたい。例えば、所与の発話者に関して、受信された音声信号がコヒーレントに加わることを保証するために、時間遅延が導入され得る。
多くの実施形態において、マイクロフォン信号は、全てのマイクロフォンデバイス201、203、205からは発生器デバイス207に送信されず、音声信号が発生されるマイクロフォンデバイス201、203、205のみから送信される。
例えば、最初に、マイクロフォンデバイス201、203、205が発生器デバイス207に類似性指標を送信することがあり、制御装置213が、マイクロフォン信号の部分集合を選択するために類似性指標を評価する。例えば、制御装置213は、最高の類似性を示す類似性指標を送信したマイクロフォンデバイス201、203、205からのマイクロフォン信号を選択することができる。次いで、制御装置213は、ワイヤレス送受信機211を使用して、選択されたマイクロフォンデバイス201、203、205に要求メッセージを送信することができる。マイクロフォンデバイス201、203、205は、要求メッセージが受信されたときにのみ発生器デバイス207にデータを送信するように構成され得て、即ち、マイクロフォン信号は、選択された部分集合に含まれるときにのみ発生器デバイス207に送信される。従って、ただ1つのマイクロフォン信号が選択される例では、マイクロフォンデバイス201、203、205のただ1つがマイクロフォン信号を送信する。そのような手法は、通信資源使用量をかなり減少させ、例えば個々のデバイスの電力消費を減少させることができる。また、これは、例えば一度に1つのマイクロフォン信号のみを取り扱えば良いので、発生器デバイス207の複雑性をかなり減少させることもできる。この例では、音声信号を発生するために使用される選択複合機能は、幾つかのデバイスにわたって分散される。
類似性指標を決定するための様々な手法が、様々な実施形態で使用され得て、特に、非反響音声サンプルの記憶されている表現は、様々な実施形態において異なることがあり、様々な実施形態において異なる形で使用され得る。
幾つかの実施形態では、記憶されている非反響音声サンプルは、非反響音声モデルに関するパラメータによって表現される。従って、例えば、信号のサンプルされた時間領域表現又は周波数領域表現を記憶するのではなく、1組の非反響音声サンプルは、各サンプルに関する1組のパラメータを含むことがあり、これにより、サンプルが生成され得るようにできる。
例えば、非反響音声モデルは、線形予測モデル、例えば特にCELP(符号励振線形予測)モデルで良い。そのようなシナリオでは、非反響音声サンプルの各音声サンプルは、(記憶されているパラメータによっても表現され得る)合成フィルタを励起するために使用され得る励起信号を特定するコードブックエントリによって表現され得る。
そのような手法は、1組の非反響音声サンプルに関する記憶要件をかなり減少させることがあり、これは、類似性指標の決定が個々のデバイスでローカルで行われる分散型の実装形態に関して特に重要となり得る。更に、(音響環境を考慮せずに)音声源からの音声を直接合成する音声モデルを使用することによって、非反響の無響の音声の良好な表現が実現される。
幾つかの実施形態では、マイクロフォン信号と特定の音声サンプルとの比較は、その信号に関する記憶されている特定の音声モデルパラメータセットについて音声モデルを評価することによって実施され得る。従って、そのパラメータセットに関して音声モデルによって合成される音声信号の表現が導出され得る。次いで、得られた表現が、マイクロフォン信号と比較され得て、これらの相違の尺度が計算され得る。比較は、例えば時間領域又は周波数領域で実施され得て、確率的な比較で良い。例えば、1つのマイクロフォン信号と1つの音声サンプルに関する類似性指標は、捕捉されたマイクロフォン信号が、音声モデルによる合成の結果として得られた音声信号を放射する音源から生じたものである尤度を反映するように決定され得る。次いで、最高尤度をもたらす音声サンプルが選択され得て、マイクロフォン信号に関する類似性指標は、最高尤度として決定され得る。
以下、LP音声モデルに基づいて類似性指標を決定するための可能な手法の詳細な例を提供する。
この例では、K個のマイクロフォンが領域内に分布され得る。観察されるマイクロフォン信号は、以下のようにモデル化され得る。
(n)=h(n)*s(n)+w(n)
ここで、s(n)は、ユーザの口での音声信号であり、h(n)は、ユーザの口に対応する位置と第kのマイクロフォンの位置との間の音響伝達関数であり、w(n)は、雑音信号であり、周囲雑音とマイクロフォン自体の雑音との両方を含む。音声信号と雑音信号が独立していると仮定して、対応する信号のパワースペクトル密度(PSD:power spectral densities)に関する周波数領域での等価な表現は、以下によって与えられる。
無響環境では、パルス応答h(n)は、純粋な遅延に対応し、信号が音速で発生点からマイクロフォンに伝播するのにかかる時間に対応する。従って、信号x(n)のPSDは、s(n)のPSDと同一である。反響環境では、h(n)は、音源からマイクロフォンへの信号の直接経路をモデル化するだけでなく、壁、天井、家具等によって反射された結果としてマイクロフォンに達する信号もモデル化する。各反射は、信号を遅延させ、減衰させる。
(n)のPSDは、この場合、反響のレベルに応じてs(n)のものとは大きく異なることがある。図3は、0.8秒のT60で、反響室内で3つの異なる距離で記録された音声の32msのセグメントに対応するスペクトル包絡線の一例を示す。明らかに、発話者から5cmと50cmの距離で記録された音声のスペクトル包絡線は比較的近く、350cmでの包絡線は、大きく異なる。
ハンズフリー通信用途におけるように対象の信号が音声であるとき、PSDは、大きなデータセットを使用してオフラインで訓練されたコードブックを使用してモデル化され得る。例えば、コードブックは、スペクトル包絡線をモデル化する線形予測(LP:linear prediction)係数を含んでいて良い。
訓練セットは、典型的には、音声学的にバランスの取れた大きな1組の音声データの短いセグメント(20〜30ms)から抽出されたLPベクトルからなる。そのようなコードブックは、音声符号化及び音声強調で好適に採用されている。ここで、特定のマイクロフォンで受信された信号がどれほど反響しているかの参照尺度として、ユーザの口の近くに位置されたマイクロフォンを使用して記録された音声に関して訓練されたコードブックが使用され得る。
発話者の近くのマイクロフォンで捕捉されたマイクロフォン信号の短時間セグメントに対応するスペクトル包絡線は、コードブックにおいて、典型的には、より離れた(従って反響及び雑音によって比較的大きく影響を及ぼされる)マイクロフォンで捕捉されたものよりも良い合致を見出す。次いで、この観察が、例えば、所与のシナリオで適切なマイクロフォン信号を選択するために使用され得る。
雑音がガウス雑音であると仮定し、LP係数のベクトルをaとすると、第kのマイクロフォンについて、以下の式が得られる(例えば、S. Srinivasan, J. Samuelsson, and W. B. Kleijn,“Codebook driven short-term predictor parameter estimation for speech enhancement,”IEEE Trans. Speech, Audio and Language Processing, vol. 14, no. 1, pp. 163-176, 2006年1月参照):

ここで、y=[y(0),y(1),...,y(N−1)]であり、a=[1,a,...,aは、LP係数の所与のベクトルであり、Mは、LPモデル次数であり、Nは、短時間セグメント中のサンプルの数であり、

は、第kのマイクロフォンでの雑音信号の自動相関行列であり、R=g(AA)−1であり、ここで、Aは、第1の列として[1,a,a,...,a,:0,...,0]を有するN×Nの下三角テプリッツ行列であり、gは、利得項であり、正規化されたコードブックスペクトルと観察されたスペクトルとのレベル差を補償する。
フレーム長が無限に近付くとすると、共分散行列は循環行列として表され得て、フーリエ変換によって対角化される。このとき、第iの音声コードブックベクトルaに対応する上記の式での尤度の対数は、周波数領域量を使用して以下のように書かれ得る(例えば、U. Grenander and G. Szego,“Toeplitz forms and their applications,”第2版. New York: Chelsea, 1984参照)。

ここで、Cは、信号独立定数項を取り込み(capture)、A(ω)は、コードブックからの第iのベクトルのスペクトルであり、以下によって与えられる。
所与のコードブックベクトルaに関して、利得補償項は、以下のように取られ得る。

ここで、雑音PSD

の誤った推定値により生じ得る分子における負の値は、ゼロに設定される。この式での全ての量が利用可能であることに留意すべきである。雑音を多く含むPSD

及び雑音PSD

が、マイクロフォン信号から推定され得て、A(ω)は、第iのコードブックベクトルによって指定される。
各センサに関して、全てのコードブックベクトルにわたって最大尤度値が計算され、即ち、

であり、ここで、Iは、音声コードブック内のベクトルの数である。ここで、この最大尤度値は、特定のマイクロフォン信号に関する類似性指標として使用される。
最後に、最大尤度値tの最大値に関するマイクロフォンが、発話者に最も近いマイクロフォンとして決定され、即ち、最大の最大尤度値をもたらすマイクロフォン信号は、以下のように決定される。
この具体例に関して実験が行われた。音声LP係数のコードブックは、Wall Street Journal (WSJ) speech database (CSR-II (WSJ1) Complete,“Linguistic Data Consortium”, Philadelphia, 1994)からの訓練データを使用して生成された。それぞれ50名(男性25名及び女性25名)の異なる発話者からの約5秒の持続時間の180個の異なる訓練発声が、訓練データとして使用された。訓練発声を使用して、256サンプルのサイズのハン窓(Hann-windowed)セグメントから、8kHzのサンプリング周波数で50パーセントの重畳を伴って、約55000のLP係数が抽出された。コードブックは、誤り基準としてItakura-Saito歪(S. R. Quackenbush, T. P. Barnwell, and M. A. Clements, Objective “Measures of Speech Quality.”New Jersey: Prentice-Hall, 1988)を用いて、LBGアルゴリズム(Y. Linde, A. Buzo, and R. M. Gray,“An algorithm for vector quantizer design,”IEEE Trans. Communications, vol. COM-28, no. 1, pp. 84-95, 1980年1月)を使用して訓練された。コードブックのサイズは、256個のエントリに固定された。3マイクロフォン構成が考慮され、マイクロフォンは、反響室内で発話者から50cm、150cm、及び350cmに位置された(T60=800ms)。発話者の位置と3つのマイクロフォンそれぞれとの間のパルス応答が記録され、次いで、マイクロフォンデータを得るためにドライな音声信号と畳み込み処理された。各マイクロフォンでのマイクロフォン雑音は、音声レベルよりも40dB低かった。
図4は、発話者から50cm離して位置されたマイクロフォンに関する尤度p(y)を示す。音声が主に占める領域では、このマイクロフォン(発話者の最も近くに位置される)は、1に近い値を受け取り、他の2つのマイクロフォンでの尤度値は0に近い。従って、最も近いマイクロフォンが適切に識別される。
この手法の特定の利点は、異なるマイクロフォン間の信号レベルの差を本来的に補償することである。
この手法が、音声活動中に適切なマイクロフォンを選択することに留意すべきである。しかし、非音声セグメント中(例えば音声中の休止や、発話者が変わったとき等)には、そのような選択が決定されることは可能でない。しかし、これは、非音声期間を識別するためにシステムが音声活動検出器(単純なレベル検出器等)を含むことによって簡単に対処され得る。これらの期間中、システムは、単純に、音声成分を含んでいた最後のセグメントに関して決定された複合パラメータを使用して先に進むことがある。
上記の実施形態では、類似性指標は、マイクロフォン信号の特性を非反響音声サンプルの特性と比較することによって生成され、特に、マイクロフォン信号の特性を、記憶されているパラメータを使用して音声モデルを評価することにより得られる音声信号の特性と比較することによって生成される。
しかし、他の実施形態では、マイクロフォン信号を分析することによって1組の特性が導出され得て、次いで、これらの特性は、非反響音声に関する予想値と比較され得る。従って、比較は、特定の非反響音声サンプルを考慮せずに、パラメータ又は特性領域で実施され得る。
具体的には、類似性処理装置105が、1組の基本信号ベクトルを使用してマイクロフォン信号を分解するように構成され得る。そのような分解は、特に、信号プロトタイプ(アトム(atom)とも呼ばれる)を含むスパースオーバーコンプリート辞書を使用することがある。ここで、信号は、辞書の部分集合の線形結合として記述される。従って、各アトムは、この場合には基本信号ベクトルに対応し得る。
そのような実施形態では、マイクロフォン信号から導出され、比較で使用される特性は、適切な特徴領域内で信号を表現するために必要とされる基本信号ベクトルの数、特に辞書アトムの数で良い。
次いで、この特性が、非反響音声に関する1つ又は複数の予想される特性と比較され得る。例えば、多くの実施形態において、1組の基底ベクトルに関する値が、特定の非反響音声サンプルに対応する数組の基底ベクトルに関する値のサンプルと比較され得る。
しかし、多くの実施形態において、より単純な手法が使用され得る。具体的には、辞書が非反響音声で訓練される場合、ほとんど反響のない音声を含むマイクロフォン信号は、比較的少数の辞書アトムを使用して記述され得る。信号がますます反響及び雑音を受けるにつれて、より多数のアトムが必要とされ、即ち、エネルギーは、より多くの基底ベクトルにわたってより均等に拡散される傾向がある。
従って、多くの実施形態において、基底ベクトルにわたるエネルギーの分散が評価され、類似性指標を決定するために使用され得る。分散が広げられるほど、類似性指標は低くなる。
具体的な例として、2つのマイクロフォンからの信号を比較するとき、より少数の辞書アトムを使用して記述され得る信号の方が、非反響音声に類似する(ここで、辞書は非反響音声で訓練されている)。
具体的な例として、値(特に、信号を近似する基底ベクトルの複合における各基底ベクトルの重み)が所与の閾値を超える基底ベクトルの数が、類似性指標を決定するために使用され得る。実際、閾値を超える基底ベクトルの数は簡単に計算され、所与のマイクロフォン信号に関する類似性指標として直接使用され得て、より多数の基底ベクトルがより低い類似性を示す。従って、マイクロフォン信号から導出される特性は、閾値を超える基底ベクトル値の数で良く、これは、閾値を超える値を有する0又は1の基底ベクトルの非反響音声に関する参照特性と比較され得る。従って、基底ベクトルの数が多ければ多いほど、類似性指標が低くなる。
上の説明は、分かりやすくするために、様々な機能回路、ユニット、及び処理装置を参照して本発明の実施形態を述べていることを理解されたい。しかし、本発明から逸脱することなく、様々な機能回路、ユニット、又は処理装置間での機能の任意の適切な分散が使用され得ることが明らかであろう。例えば、別個の処理装置又は制御装置によって実施されるものとして例示されている機能が、同じ処理装置又は制御装置によって実施されても良い。従って、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造又は組織を示さず、述べられている機能を提供するための適切な手段への言及としてのみ理解されるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組合せを含む任意の適切な形態で実装され得る。本発明は、任意選択的に、1つ又は複数のデータ処理装置及び/又はデジタル信号処理装置で動作するコンピュータソフトウェアとして少なくとも一部実装され得る。本発明の一実施形態の要素及び構成要素は、任意の適切な様式で、物理的、機能的、及び論理的に実装され得る。実際、単一のユニットで、複数のユニットで、又は他の機能ユニットの一部として機能が実装され得る。従って、本発明は、単一のユニットで実装されても、様々なユニット、回路、及び処理装置間で物理的及び機能的に分散されても良い。
本発明を幾つかの実施形態に関連して述べてきたが、本発明は、本明細書に記載される具体的な形態に限定されることは意図されない。本発明の範囲は、添付の特許請求の範囲によってのみ限定される。更に、特定の実施形態に関連して特徴が述べられていると考えられることもあるが、当業者は、上記の実施形態の様々な特徴が本発明に従って組み合わされ得ることを理解されよう。特許請求の範囲において、用語「備える」は、他の要素又はステップの存在を除外しない。
更に、個別に列挙されているが、複数の手段、要素、回路、又は方法ステップが、例えば、単一の回路、ユニット、又は処理装置によって実施され得る。更に、個々の特徴が異なる請求項に含まれることがあるが、これらは、場合によっては有利に組み合わされることもあり、異なる請求項への包含は、特徴の組合せが実現可能でない及び/又は有利でないことを示唆するものではない。また、特許請求の範囲の1つのカテゴリーへの特徴の包含は、そのカテゴリーへの限定を示唆するものではなく、適切であればその特徴が他の請求項カテゴリーにも同等に適用可能であることを示す。更に、特許請求の範囲内の特徴の順序は、特徴が行われなければならない任意の特定の順序を示唆せず、特に、方法クレームでの個々のステップの順序は、ステップがその順序で実施されなければならないことを示唆しない。そうではなく、ステップは、任意の適切な順序で実施され得る。更に、単数形は、複数を除外しない。従って、「1つの」、「第1の」、「第2の」等への言及は、複数を除外しない。特許請求の範囲内の参照符号は、分類のための例として提供されているに過ぎず、特許請求の範囲の範囲を限定するものと解釈されるべきではない。

Claims (15)

  1. 音声信号を発生するための装置であって、
    複数のマイクロフォンからマイクロフォン信号を受信するためのマイクロフォン受信機と、
    各マイクロフォン信号に関して、前記マイクロフォン信号と非反響音声との間の類似性を示す音声類似性指標を決定する比較器であって、前記マイクロフォン信号から導出される少なくとも1つの特性と非反響音声に関する少なくとも1つの参照特性との比較に応答して、前記音声類似性指標を決定する比較器と、
    前記音声類似性指標に応答して前記マイクロフォン信号を複合することによって前記音声信号を発生するための発生器とを備える、装置。
  2. 前記装置は、複数の個別のデバイスを備え、各デバイスが、複数のマイクロフォン信号のうちの少なくとも1つのマイクロフォン信号を受信するためのマイクロフォン受信機を備える、請求項1に記載の装置。
  3. 前記複数の個別のデバイスのうちの少なくとも第1のデバイスが、前記第1のデバイスの少なくとも1つのマイクロフォン信号に関する第1の音声類似性指標を決定するためのローカル比較器を備える、請求項2に記載の装置。
  4. 前記発生器が、少なくとも前記第1のデバイスとは別個の発生器デバイス内に実装され、前記第1のデバイスは、前記第1の音声類似性指標を前記発生器デバイスに送信するための送信機を備える、請求項3に記載の装置。
  5. 前記発生器デバイスが、前記複数の個別のデバイスそれぞれから前記音声類似性指標を受信し、前記発生器が、前記複数の個別のデバイスからのマイクロフォン信号の部分集合を使用して前記音声信号を発生し、前記部分集合は、前記複数の個別のデバイスから受信された前記音声類似性指標に応答して決定される、請求項4に記載の装置。
  6. 前記複数の個別のデバイスのうちの少なくとも1つのデバイスは、前記少なくとも1つのデバイスの少なくとも1つのマイクロフォン信号がマイクロフォン信号の前記部分集合に含まれる場合にのみ、前記少なくとも1つのデバイスの少なくとも1つのマイクロフォン信号を前記発生器デバイスに送信する、請求項5に記載の装置。
  7. 前記発生器デバイスは、マイクロフォン信号の前記部分集合を決定する選択器と、前記複数の個別のデバイスの少なくとも1つに前記部分集合の指標を送信するための送信機とを備える、請求項5に記載の装置。
  8. 前記比較器は、マイクロフォン信号から導出される少なくとも1つの特性と1組の非反響音声サンプルにおける音声サンプルに関する参照特性との比較に応答して、第1のマイクロフォン信号に関して前記音声類似性指標を決定する、請求項1に記載の装置。
  9. 前記1組の非反響音声サンプルにおける音声サンプルは、非反響音声モデルに関するパラメータによって表現される、請求項8に記載の装置。
  10. 前記比較器は、第1の音声サンプルに関するパラメータを使用して前記非反響音声モデルを評価することによって発生される音声サンプル信号から、前記1組の非反響音声サンプルのうちの第1の音声サンプルに関する第1の参照特性を決定し、また、第1のマイクロフォン信号から導出される特性と第1の参照特性との比較に応答して、前記複数のマイクロフォン信号のうちの第1のマイクロフォン信号に関する前記音声類似性指標を決定する、請求項9に記載の装置。
  11. 前記比較器は、前記複数のマイクロフォン信号のうちの第1のマイクロフォン信号を1組の基底信号ベクトルに分解し、前記1組の基底信号ベクトルの特性に応答して前記音声類似性指標を決定する、請求項1に記載の装置。
  12. 前記比較器は、音声信号の複数のセグメントの各セグメントに関して前記音声類似性指標を決定し、前記発生器は、各セグメントに関して複合のための複合パラメータを決定する、請求項1に記載の装置。
  13. 前記発生器は、少なくとも1つの前のセグメントの前記音声類似性指標に応答して1つのセグメントに関する複合パラメータを決定する、請求項11に記載の装置。
  14. 前記発生器は、前記音声類似性指標に応答して複合するためにマイクロフォン信号の部分集合を選択する、請求項1に記載の装置。
  15. 音声信号を発生する方法であって、
    複数のマイクロフォンからマイクロフォン信号を受信するステップと、
    各マイクロフォン信号に関して、前記マイクロフォン信号と非反響音声との間の類似性を示す音声類似性指標を決定するステップであって、前記マイクロフォン信号から導出される少なくとも1つの特性と非反響音声に関する少なくとも1つの参照特性との比較に応答して、前記音声類似性指標が決定されるステップと、
    前記音声類似性指標に応答して前記マイクロフォン信号を複合することによって、前記音声信号を発生するステップとを含む、方法。
JP2015558579A 2013-02-26 2014-02-18 音声信号を発生するための方法及び装置 Active JP6519877B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361769236P 2013-02-26 2013-02-26
US61/769,236 2013-02-26
PCT/IB2014/059057 WO2014132167A1 (en) 2013-02-26 2014-02-18 Method and apparatus for generating a speech signal

Publications (3)

Publication Number Publication Date
JP2016511594A true JP2016511594A (ja) 2016-04-14
JP2016511594A5 JP2016511594A5 (ja) 2017-03-23
JP6519877B2 JP6519877B2 (ja) 2019-05-29

Family

ID=50190513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015558579A Active JP6519877B2 (ja) 2013-02-26 2014-02-18 音声信号を発生するための方法及び装置

Country Status (7)

Country Link
US (1) US10032461B2 (ja)
EP (1) EP2962300B1 (ja)
JP (1) JP6519877B2 (ja)
CN (1) CN105308681B (ja)
BR (1) BR112015020150B1 (ja)
RU (1) RU2648604C2 (ja)
WO (1) WO2014132167A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020218094A1 (ja) * 2019-04-26 2020-10-29 株式会社ソニー・インタラクティブエンタテインメント 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
US11880633B2 (en) 2019-04-26 2024-01-23 Sony Interactive Entertainment Inc. Information processing system, information processing apparatus, control method for information processing apparatus, and program

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170287505A1 (en) * 2014-09-03 2017-10-05 Samsung Electronics Co., Ltd. Method and apparatus for learning and recognizing audio signal
US9922643B2 (en) * 2014-12-23 2018-03-20 Nice Ltd. User-aided adaptation of a phonetic dictionary
KR102387567B1 (ko) * 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
JP6631010B2 (ja) * 2015-02-04 2020-01-15 ヤマハ株式会社 マイク選択装置、マイクシステムおよびマイク選択方法
CN105185371B (zh) 2015-06-25 2017-07-11 京东方科技集团股份有限公司 一种语音合成装置、语音合成方法、骨传导头盔和助听器
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10097939B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Compensation for speaker nonlinearities
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
DK3217399T3 (en) * 2016-03-11 2019-02-25 Gn Hearing As Kalman filtering based speech enhancement using a codebook based approach
US9978390B2 (en) * 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10621980B2 (en) * 2017-03-21 2020-04-14 Harman International Industries, Inc. Execution of voice commands in a multi-device system
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
GB2563857A (en) * 2017-06-27 2019-01-02 Nokia Technologies Oy Recording and rendering sound spaces
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
AU2018353008B2 (en) 2017-10-17 2023-04-20 Magic Leap, Inc. Mixed reality spatial audio
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
CN108174138B (zh) * 2018-01-02 2021-02-19 上海闻泰电子科技有限公司 视频拍摄方法、语音采集设备及视频拍摄系统
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
JP2021514081A (ja) 2018-02-15 2021-06-03 マジック リープ, インコーポレイテッドMagic Leap,Inc. 複合現実仮想反響音
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
CN112470496B (zh) * 2018-09-13 2023-09-29 科利耳有限公司 使用正常事物的听力性能和康复和/或复原增强
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3951777A4 (en) * 2019-03-27 2022-05-18 Sony Group Corporation SIGNAL PROCESSING DEVICE, METHOD AND PROGRAM
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
JP7362320B2 (ja) * 2019-07-04 2023-10-17 フォルシアクラリオン・エレクトロニクス株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN114586382A (zh) 2019-10-25 2022-06-03 奇跃公司 混响指纹估计
US11217235B1 (en) * 2019-11-18 2022-01-04 Amazon Technologies, Inc. Autonomously motile device with audio reflection detection
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009528802A (ja) * 2006-03-03 2009-08-06 ジーエヌ リザウンド エー/エス 補聴器の全方向性マイクロホンモードと指向性マイクロホンモードの間の自動切換え
JP2011511571A (ja) * 2008-01-29 2011-04-07 クゥアルコム・インコーポレイテッド 複数のマイクからの信号間で知的に選択することによって音質を改善すること

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3814856A (en) * 1973-02-22 1974-06-04 D Dugan Control apparatus for sound reinforcement systems
US5561737A (en) * 1994-05-09 1996-10-01 Lucent Technologies Inc. Voice actuated switching system
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
JP3541339B2 (ja) 1997-06-26 2004-07-07 富士通株式会社 マイクロホンアレイ装置
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
US6243322B1 (en) * 1999-11-05 2001-06-05 Wavemakers Research, Inc. Method for estimating the distance of an acoustic signal
GB0120450D0 (en) * 2001-08-22 2001-10-17 Mitel Knowledge Corp Robust talker localization in reverberant environment
EP1468550B1 (en) 2002-01-18 2012-03-28 Polycom, Inc. Digital linking of multiple microphone systems
ATE324763T1 (de) * 2003-08-21 2006-05-15 Bernafon Ag Verfahren zur verarbeitung von audiosignalen
CA2537977A1 (en) * 2003-09-05 2005-03-17 Stephen D. Grody Methods and apparatus for providing services using speech recognition
CN1808571A (zh) 2005-01-19 2006-07-26 松下电器产业株式会社 声音信号分离系统及方法
US7260491B2 (en) * 2005-10-27 2007-08-21 International Business Machines Corporation Duty cycle measurement apparatus and method
JP4311402B2 (ja) 2005-12-21 2009-08-12 ヤマハ株式会社 拡声システム
US8233353B2 (en) 2007-01-26 2012-07-31 Microsoft Corporation Multi-sensor sound source localization
WO2010091077A1 (en) * 2009-02-03 2010-08-12 University Of Ottawa Method and system for a multi-microphone noise reduction
US8867754B2 (en) * 2009-02-13 2014-10-21 Honda Motor Co., Ltd. Dereverberation apparatus and dereverberation method
US8644517B2 (en) * 2009-08-17 2014-02-04 Broadcom Corporation System and method for automatic disabling and enabling of an acoustic beamformer
US8589166B2 (en) * 2009-10-22 2013-11-19 Broadcom Corporation Speech content based packet loss concealment
EP2375779A3 (en) * 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
EP2572499B1 (en) * 2010-05-18 2018-07-11 Telefonaktiebolaget LM Ericsson (publ) Encoder adaption in teleconferencing system
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
RU2596584C2 (ru) * 2010-10-25 2016-09-10 Войсэйдж Корпорейшн Кодирование обобщенных аудиосигналов на низких скоростях передачи битов и с низкой задержкой
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
SE536046C2 (sv) 2011-01-19 2013-04-16 Limes Audio Ab Metod och anordning för mikrofonval
US9336780B2 (en) * 2011-06-20 2016-05-10 Agnitio, S.L. Identification of a local speaker
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US8731911B2 (en) * 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
US9058806B2 (en) * 2012-09-10 2015-06-16 Cisco Technology, Inc. Speaker segmentation and recognition based on list of speakers
US20140170979A1 (en) * 2012-12-17 2014-06-19 Qualcomm Incorporated Contextual power saving in bluetooth audio

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009528802A (ja) * 2006-03-03 2009-08-06 ジーエヌ リザウンド エー/エス 補聴器の全方向性マイクロホンモードと指向性マイクロホンモードの間の自動切換え
JP2011511571A (ja) * 2008-01-29 2011-04-07 クゥアルコム・インコーポレイテッド 複数のマイクからの信号間で知的に選択することによって音質を改善すること

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020218094A1 (ja) * 2019-04-26 2020-10-29 株式会社ソニー・インタラクティブエンタテインメント 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
JPWO2020218094A1 (ja) * 2019-04-26 2021-11-11 株式会社ソニー・インタラクティブエンタテインメント 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
JP7170851B2 (ja) 2019-04-26 2022-11-14 株式会社ソニー・インタラクティブエンタテインメント 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
US11880633B2 (en) 2019-04-26 2024-01-23 Sony Interactive Entertainment Inc. Information processing system, information processing apparatus, control method for information processing apparatus, and program

Also Published As

Publication number Publication date
BR112015020150B1 (pt) 2021-08-17
CN105308681B (zh) 2019-02-12
WO2014132167A1 (en) 2014-09-04
RU2648604C2 (ru) 2018-03-26
EP2962300A1 (en) 2016-01-06
US10032461B2 (en) 2018-07-24
EP2962300B1 (en) 2017-01-25
US20150380010A1 (en) 2015-12-31
JP6519877B2 (ja) 2019-05-29
BR112015020150A2 (pt) 2017-07-18
CN105308681A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
JP6519877B2 (ja) 音声信号を発生するための方法及び装置
Parchami et al. Recent developments in speech enhancement in the short-time Fourier transform domain
JP4796309B2 (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
US10403300B2 (en) Spectral estimation of room acoustic parameters
US20090018826A1 (en) Methods, Systems and Devices for Speech Transduction
JP2011511571A (ja) 複数のマイクからの信号間で知的に選択することによって音質を改善すること
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
Potamitis et al. An integrated system for smart-home control of appliances based on remote speech interaction.
WO2009086017A1 (en) Systems, methods, and apparatus for multi-microphone based speech enhancement
JP2014502468A (ja) オーディオ信号生成システム及び方法
US9378755B2 (en) Detecting a user's voice activity using dynamic probabilistic models of speech features
Habets et al. Joint dereverberation and residual echo suppression of speech signals in noisy environments
JP2015018015A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP2020115206A (ja) システム及び方法
US8423357B2 (en) System and method for biometric acoustic noise reduction
CN108810778B (zh) 用于运行听力设备的方法和听力设备
JP6265903B2 (ja) 信号雑音減衰
Gamper et al. Predicting word error rate for reverberant speech
Srinivasan Using a remotewireless microphone for speech enhancement in non-stationary noise
Fukui et al. Acoustic echo and noise canceller for personal hands-free video IP phone
Lee et al. Channel prediction-based noise reduction algorithm for dual-microphone mobile phones
GB2580655A (en) Reducing a noise level of an audio signal of a hearing system
Potamitis et al. Speech activity detection and enhancement of a moving speaker based on the wideband generalized likelihood ratio and microphone arrays
Aalburg et al. Single-and Two-Channel Noise Reduction for Robust Speech Recognition
Pacheco et al. Spectral subtraction for reverberation reduction applied to automatic speech recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170216

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190129

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190319

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190329

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190411

R150 Certificate of patent or registration of utility model

Ref document number: 6519877

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250