JP6574529B2 - 音声通信システム及び方法 - Google Patents

音声通信システム及び方法 Download PDF

Info

Publication number
JP6574529B2
JP6574529B2 JP2018541467A JP2018541467A JP6574529B2 JP 6574529 B2 JP6574529 B2 JP 6574529B2 JP 2018541467 A JP2018541467 A JP 2018541467A JP 2018541467 A JP2018541467 A JP 2018541467A JP 6574529 B2 JP6574529 B2 JP 6574529B2
Authority
JP
Japan
Prior art keywords
audio
signal
signals
equation
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018541467A
Other languages
English (en)
Other versions
JP2018538765A (ja
Inventor
シンシァォ ゾン
シンシァォ ゾン
イートン ファン
イートン ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2018538765A publication Critical patent/JP2018538765A/ja
Application granted granted Critical
Publication of JP6574529B2 publication Critical patent/JP6574529B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • H04R1/083Special constructions of mouthpieces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/023Transducers incorporated in garment, rucksacks or the like
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/405Non-uniform arrays of transducers or a plurality of uniform arrays with different transducer spacing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Description

本開示は、音声通信システム及び方法に関する。特に、センサが埋め込まれたウェアラブル装置を活用した音声通信システム及び方法の提供に関する。
音声制御の応用はより広がりを見せている。例えば、携帯電話、自動車ナビゲーションシステム等の電子装置において音声による制御が多くなってきている。より具体的には、例えば、上述の音声制御の応用では、ユーザーがマイクに音声コマンド(例:単語、または、フレーズ)を話しかけると、電子装置がその音声コマンドを受け付けて、当該音声コマンドに応じた動作を行う。このような音声制御機能は、原動機付き車両、航空機等を操作するユーザー等、ハンズフリーが望まれるユーザーにとって望ましい機能である。
音声通信のためのシステム及び方法を開示する。一部の実施形態において、音声通信システムを提供する。前記システムは、音響入力を捕捉(capture)して、当該音響入力に基づいて第1オーディオ信号を生成する第1オーディオセンサを備え、前記第1オーディオセンサは、織物構造体の第1面と第2面との間に配置されている。
一部の実施形態において、前記第1オーディオセンサはシリコンウエハに形成されたマイクである。
一部の実施形態において、前記マイクロフォンは微小電気機械システム(MEMS)マイクロフォンである。
一部の実施形態において、前記第1オーディオセンサは、前記織物構造体の前記第1面と前記第2面との間に位置する領域に配置されている。
一部の実施形態において、前記第1オーディオセンサは、前記織物構造体の前記第1面と前記第2面との間に位置する通路に配置されている。
一部の実施形態において、前記システムは、音響入力を捕捉して、当該音響入力に基づいて第2オーディオ信号を生成する第2オーディオセンサを更に備え、前記織物構造体は第2通路を備え、前記第2オーディオセンサは少なくとも部分的に前記第2通路に配置されている。
一部の実施形態において、前記第1通路は前記第2通路と平行である。
一部の実施形態において、前記第1オーディオセンサ及び前記第2オーディオセンサが、オーディオセンサの差分サブアレイを形成している。
一部の実施形態において、システムは更に前記第1オーディオ信号と前記第2オーディオ信号とに基づいてスピーチ信号を生成するプロセッサを有している。
上記実施形態において、前記織物構造体は複数の層を有している。前記複数の層には、第1の層と第2の層が含まれている。
一部の実施形態において、前記第1オーディオセンサと前記第2オーディオセンサの少なくとも1つが、前記織物構造体の第1層に埋め込まれている。
一部の実施形態において、前記第1オーディオセンサに関連する回路の少なくとも一部が、前記織物構造体の第1層に埋め込まれている。
一部の実施形態において、前記第1オーディオセンサに関連する回路の少なくとも一部が、前記織物構造体の第2層に埋め込まれている。
一部の実施形態において、前記織物構造体の前記第1面と第2面との距離は2.5mm以下である。
一部の実施形態において、前記距離は前記織物構造体の最大厚みを表している。
一部の実施形態において、前記スピーチ信号を生成するために、前記プロセッサは更に、前記第1オーディオ信号と前記第2オーディオ信号とを組み合わせて出力信号を生成し、前記出力信号にエコー消去を実施する。
一部の実施形態において、前記エコー消去を行うために、前記プロセッサは更に、音響経路を表すモデルを構築し、前記モデルに基づいて前記出力信号の成分を推定する。
一部の実施形態において、前記プロセッサは更に、前記第2オーディオ信号に遅延処理をかけて、遅延オーディオ信号を生成し、前記第1オーディオ信号と遅延オーディオ信号とを組み合わせて出力信号を生成する。
参照符号により各要素が示される以下の図面と以下に記す本開示の詳細の説明を参照することによって、本開示の種々の目的、特徴点、効果を更に理解することができるであろう。
本発明の実施形態における、音声通信システムの実施例を示す図である。 本発明の実施形態における、センサが埋め込まれた織物構造体の例を示す図である。 本発明の実施形態における、センサが埋め込まれた織物構造体の例を示す図である。 本発明の実施形態におけるプロセッサの例を示す図である。 本発明の実施形態におけるビームフォーマの例を示す模式図である。 本発明の実施形態における音響エコー消去部の例を示す図である。 本発明の実施形態における音響エコー消去部の例を示す図である。 本発明の実施形態における、音声通信用の音声信号を処理する工程の例を示すフローチャートである。 本発明の実施形態の空間フィルタ用の処理の例を示すフローチャートである。 本発明の実施形態におけるエコー消去処理の例を示すフローチャートである。 本発明の実施形態におけるマルチチャンネルノイズリダクション処理の例を示すフローチャートである。 本発明の実施形態における、ウェアラブル装置に埋め込まれたオーディオセンサのサブアレイの図を示す図である。 本発明の実施形態における音声通信システムの例を示す図である。 本発明の実施形態におけるウェアラブル装置の例を示す断面図である。 本発明の実施形態における、ウェアラブル装置に利用可能な織物構造体の例を示す図である。 本発明の実施形態における1つ以上のセンサに関連付けられた回路の例を示す図である。 本発明の実施形態における1つ以上のセンサに関連付けられた回路の例を示す図である。
以下に更に詳細に記載する各実施例に基づいて、音声通信用のシステム、方法、及び、媒体を含む構造が提供される。
一部の実施形態において、前記構造は、センサが埋め込まれたウェアラブル装置を活用した音声通信システムを提供する。前記ウェアラブル装置は、ユーザーの一部分以上の箇所に取り付けられる装置であってもよく、及び/又は、そのような装置を含んでいてもよい。例えば、前記ウェアラブル装置は、シートベルト、安全ベルト、フィルム、建築ハーネス、ウェアラブル演算装置、ヘルメット、ヘルメットストラップ、頭部搭載装置、バンド(例:リストバンド)等であってもよく、これらの組み合わせであってもよく、及び/又は、それらを含む装置であってもよい。
前記ウェアラブル装置は、1つ以上のセンサが埋め込まれた織物構造体を1つ以上含んでいてもよい。例えば、織物構造体は、シートベルト、安全ベルトなどの帯紐であってもよい。前記1つ以上の埋込センサは、音声信号、温度、脈拍、血圧、心拍数、呼吸数、心電図、筋電図に関する情報、物体の移動、ユーザの位置情報、及び/又は、その他の情報を捕捉することができる。
前記織物構造体は、一又は複数のセンサを埋め込み可能な任意の適切な材料で作製可能であり、例えば、布(例えば、織布、不織布、導電性生地、非導電性生地等)、帯紐、繊維、織物、強化フィルム、プラスチック、プラスチックフィルム、ポリウレタン、シリコーンゴム、金属、セラミックス、ガラス、膜、紙、カード用紙、ポリマー、ポリエステル、ポリイミド、ポリエチレンテレフタレート、可撓性材料、圧電材料、カーボンナノチューブ、バイオニック材料、及び/又は、埋込センサを有する織物構造体が製造可能なその他の任意の適切な材料で作製可能である。また、前記織物構造体は、導電性材料(例えば、導電性糸、導電性生地、導電性トレッド(tread)、導電性繊維等)、非導電性材料(例えば、非導電性生地、非導電性エポキシなど)、及び/又は、その他の導電性材料で作製されていてもよい。
1つ以上のセンサ(例えば、マイク、生体センサ等)が、織物構造体に埋め込まれていてよい。例えば、センサが織物構造体の第1面と第2面との間に配置されていてよい(例えば、自動車両内の人に対向するシートベルトの内面と、シートベルトの外面との間等)。より具体的には、織物構造体の第1面と第2面との間には通路が設けられていてよい。センサ、及び/又は、それに関連する回路は、前記通路内に配置されていてよい。通路は、一部分以上が中空であってよい。別のより具体的な例では、センサ及び/又はその関連回路の一部分以上が、繊維構造体の第1面と第2面との間に位置する織物構造体の領域に配置されており、センサ及びその関連回路が織物構造体に完全に埋め込まれている。このように、埋め込まれたセンサは、織物構造体の厚さ、及び/又は、外観を変更する必要がない場合がある。したがって、織物構造体の厚さは、埋め込まれたセンサが無い場合の織物構造体の厚さと同じであることもある。織物構造体の両面は滑らかな面であってよい。
織物構造体は、1つ以上の層を有していてよい。各層は、1つ以上のオーディオセンサ、回路、及び/又は、一又は複数のオーディオセンサ、一又は複数のプロセッサ、及び/又は、その他の任意の適切なコンポーネントに関連付けられた任意の他のハードウェアを含むことができる。例えば、1つ以上のオーディオセンサ、及び、それらに関連する回路、及び/又は、ハードウェアが織物構造体の第1層に埋め込まれていてよい。別の例として、1つ以上のオーディオセンサが織物構造体の第1層に埋め込まれていてよい。これらに関連する回路の一部分以上は、織物構造体の1つ以上の層の別の層(例えば、第2層、第3層等)に埋め込まれていてよい。
一部の実施形態において、音声通信を行いやすくするために、複数のオーディオセンサ(例えば、マイクロフォン)が織物構造体に埋め込まれていてよい。オーディオセンサは、オーディオセンサのアレイ(本明細書では「マイクアレイ」とも称す)を形成するように配置されていてよい。マイクアレイは、オーディオセンサのサブアレイ(本明細書では「マイクサブアレイ」とも呼ばれる)を1つ以上含むことができる。一部の実施形態において、マイクサブアレイは、織物構造体の1つ以上の長手方向の線に沿って配置されていてよい。例えば、マイクサブアレイは、織物構造体に沿って長手方向に延在する織物構造体の複数の通路に配置されていてよい。通路は互いに平行であっても平行でなくてよい。通路は、織物構造体の様々な位置に配置されていてよい。
マイクサブアレイは、織物構造体内に埋め込まれたオーディオセンサを1つ以上含んでいてよい。一部の実施形態において、マイクサブアレイは差動型指向性マイクロフォンシステム(differential directional microphone system)を構成可能な2つのオーディオセンサ(例えば、第1オーディオセンサ、及び、第2オーディオセンサ)を含んでいてよい。一部の実施形態において、第1オーディオセンサ及び第2オーディオセンサは、織物構造体の断面線に沿って配置されていてよい。前記第1オーディオセンサと第2オーディオセンサは、音響入力(例えば、ユーザーの音声に対応する成分を含む入力信号)を示す第1オーディオ信号と第2オーディオ信号とを生成することができる。第1オーディオ信号及び第2オーディオ信号が(ビームフォーミング、空間フィルタ、及び/又は、他の適切な技術を1つ以上使用することにより)処理されることにより、特定の指向特性を有するマイクサブアレイの出力が生成されてもよい。
以下でより詳細に説明するように、マイクサブアレイの出力は、マイクサブアレイの幾何学配置(例えば、ユーザに対する第1マイク、及び/又は、第2マイクの具体的な位置)、及び/又は、音源の位置(例えば、ユーザ、又は、ユーザの口の位置)の情報無しで生成されてよい。したがって、マイクの出力は、マイクサブアレイの幾何学配置が変化したとき(例えば、ユーザの位置が移動するとき、織物構造体が曲がるとき等)に特定の指向特性を達成するように生成されてよい。
一部の実施形態において、複数のマイクサブアレイを用いて音響入力を表す複数の出力信号を生成してよい。前記構成において、1つ以上の出力信号を処理することにより、音響入力のスピーチ成分(例えば、ユーザの音声)を表すスピーチ信号を生成することができる。例えば、前記構成は、1つ以上の出力信号にエコー消去を行い、複数の出力信号のエコー及び/又はフィードバック成分を低減、及び/又は、消去することができる。別の例として、前記構成は、1つ以上の出力信号(例えば、特定のオーディオチャネルに対応する1つ以上の出力信号)に対してマルチチャネルノイズリダクションを実行することができる。さらに別の例として、前記構成は、1つ以上の出力信号に対して残留ノイズ、及び/又は、エコー抑圧を実行することができる。
上述の構成は、さらに音声信号を処理することにより、様々な機能をユーザに提供できるようにしてよい。例えば、前記構成は、スピーチ信号を解析することにより(例えば、1つ以上の適切な音声認識技術、及び/又は、その他の任意の信号処理技術を使用して)、スピーチ信号の内容を判断してよい。その後、前記構成は、音声信号の解析された内容に基づいて1つ以上の動作を実行してよい。例えば、前記構成は、解析された内容に基づいてメディアコンテンツ(例えば、オーディオコンテンツ、ビデオコンテンツ、画像、グラフィックス、テキスト等)を提示することができる。より具体的には、例えば、メディアコンテンツは、地図、ウェブコンテンツ、ナビゲーション情報、ニュース、オーディオクリップ、及び/又は、スピーチ信号の内容に関連する他の情報に関連するものであってよい。別の例として、前記構成は、前記構成を実装するアプリケーション、及び/又は、他のアプリケーションを用いて、ユーザのために電話をかけることができる。さらに別の例として、前記構成は、スピーチ信号に基づいてメッセージの送受信等を行うことができる。さらに別の例として、前記構成は、(例えば、検索を実行可能なサーバに要求を送ることにより)解析されたコンテンツの検索を実行することができる。
したがって、本開示によって、ハンズフリーな通信体験をユーザに提供可能な音声通信システムを実装する構成が提供される。前記音声通信システムは、ユーザの車内体験を向上させるために車両に実装してよい。
以下、図1〜16を参照して、検出されたオーディオイベントに基づいてメディアコンテンツを巻き戻すための上記特徴、及び、その他の特徴を説明する。
図1は、本発明の実施形態における、音声通信システムの実施例100を示す図である。
図に示すように、システム100は、本開示内容に従ってオーディオ信号を処理するための1つ以上のオーディオセンサ110、一又は複数のプロセッサ120、一又は複数のコントローラ130、通信ネットワーク140、及び/又は、その他の適切なコンポーネントを含んでいてよい。
一又は複数のオーディオセンサ110は、音響入力の受信、音響入力の処理、音響入力に基づく1つ以上のオーディオ信号の生成、オーディオ信号の処理、及び/又は、他の適切な機能を実行可能な装置であればよい。オーディオ信号は、1つ以上のアナログ信号、及び/又は、デジタル信号を含んでいればよい。各オーディオセンサ110は、アナログ−デジタル変換器(ADC)を含んでもいてよく、含んでいなくてもよい。
各オーディオセンサ110は、レーザマイクロフォン、コンデンサマイクロフォン、シリコンマイクロフォン(例えば、微小電気機械システム(MEMS)マイクロフォン)など、またはそれらの任意の組み合わせなどの任意の適切なタイプのマイクロフォンであるか、及び/又は、これらを含んでいてもよい。一部の実施形態において、シリコンマイクロフォン(マイクロフォンチップとも称す)は、感圧ダイアフラムをシリコンウエハに直接エッチングすることによって製造されたものであってよい。この製造工程に関わる幾何学は、ミクロンのレベル(例えば、10-6メートル)であってよい。前記マイクロフォンチップの各種電気的、及び/又は、機械的コンポーネントが、1つのチップに統合され得る。シリコンマイクロフォンは、内蔵のアナログ−デジタル変換器(ADC)回路、及び/又は、チップ上の任意のその他の回路を含むことができる。シリコンマイクロフォンは、コンデンサマイクロフォン、光ファイバーマイクロフォン、表面実装装置、及び/又は、任意のその他のタイプのマイクロフォンであってよく、及び/又は、それらを含むものであってもよい。
人の一以上の部位に取り付けられるウェアラブル装置に、1つ以上のオーディオセンサ110が埋め込まれていてよい。前記ウェアラブル装置は、シートベルト、安全ベルト、フィルム、建築ハーネス、ウェアラブル演算装置、ヘルメット、ヘルメットストラップ、頭部搭載装置、バンド(例:リストバンド)等であってもよく、これらの組み合わせであってよく、及び/又は、それらを含む装置であってもよい。
オーディオセンサ110はそれぞれ、ウェアラブル装置の織物構造体への埋め込みに適した任意のサイズを有していてよい。例えば、オーディオセンサ110は、そのサイズ(例えば、寸法)が、特定の厚さ(例えば、2.5mm以下、又は、他の任意の閾値以下の厚さ)の織物構造体に完全に埋め込み可能なものであってよい。より具体的には、例えば、オーディオセンサは、織物構造体の第1面と第2面との間に配置されていてよい。
例えば、1つ以上のオーディオセンサ110及びそれらに関連する回路が、オーディオセンサ110が織物構造体の第1面と第2面との間に配置するように、織物構造体に埋め込まれていてよい。このように、織物構造体の厚さ、及び/又は、外観が、埋め込まれたオーディオセンサの存在によって変わらない場合もある。したがって、織物構造体の厚さは、埋め込まれたセンサが無い場合の織物構造体の厚さと同じであることもある。織物構造体の両面は滑らかな面であってよい。より具体的には、例えば、織物構造体の2つの表面の間に、1つ以上のセンサがいずれの部分も突出しない状態で織物構造体に埋め込まれていてよい。一部の実施形態において、オーディオセンサは、以下の図11〜16を参照して説明される技術の1つ以上を使用して織物構造体に埋め込まれていてよい。
オーディオセンサ110は、様々な指向特性を有することができる。例えば、1つ以上のオーディオセンサ110は指向性を有しており、1つ以上の特定の方向からの音に対する感度を有していてよい。より詳細には、例えば、オーディオセンサ110は、ダイポールマイクロフォン、双方向マイクロフォン、又は、それらの任意の組み合わせとすることができる。別の例として、1つ以上のオーディオセンサ110は無指向性であってよい。例えば、一又は複数のオーディオセンサ110は、全指向性マイクロフォンであってよい。
一部の実施形態において、音声通信を容易にするために、複数のオーディオセンサ110がオーディオセンサのアレイ(本明細書では「マイクアレイ」とも呼ぶ)として配置されていてよい。マイクアレイは、1つ以上のオーディオセンサのサブアレイ(本明細書では「マイクサブアレイ」とも呼ばれる)を含むことができる。各マイクサブアレイは、1つ以上のオーディオセンサ(例えば、マイクロフォン)を含むことができる。マイクサブアレイは、ウェアラブル装置のユーザ(例えば、シートベルトを着用している乗車中の人)に向けられた差分指向性マイクロフォンシステムを形成することができる。マイクサブアレイは、ユーザの音声を表す出力信号を出力してよい。以下でより詳細に説明するように、1つ以上のマイクサブアレイによって生成された1つ以上の出力信号を組み合わせたり、処理する等して、ユーザの音声、及び/又は、ユーザによって提供されるその他の音響入力を表すスピーチ信号を生成することができる。一部の実施形態において、以下により詳細に説明するように、マイクアレイの複数のオーディオセンサが織物構造体に埋め込まれていてよい(例えば、織物構造体の第1面と第2面との間に配置される)。
一又は複数のプロセッサ120、及び/又は、またはその他の任意のデバイスによって、スピーチ信号を処理することにより、1つ以上の音声制御アプリケーションを実施することができる。例えば、一又は複数のプロセッサ120は、スピーチ信号の内容を識別するためにスピーチ信号を分析してよい。より詳細には、例えば、ユーザによって話される1つ以上のキーワード、フレーズ等が、適切な音声認識技術を利用して識別されてよい。一又は複数のプロセッサ120は、識別された内容に基づいて1つ以上の操作を実行させることができる(例えば、操作を行わせるコマンドを1つ以上生成すること、操作を行うこと、操作において使用する情報を提供すること等によって)。例えば、一又は複数のプロセッサ120は、ユーザーに対して、メディアコンテンツ(例えば、ビデオコンテンツ、オーディオコンテンツ、テキスト、グラフィックス等)をディスプレイに表示させることができる。メディアコンテンツは、地図、ウェブコンテンツ、ナビゲーション情報、ニュース、オーディオクリップ、及び/又は、スピーチ信号の内容に関連する他の情報に関連するものであってもよい。別の例として、一又は複数のプロセッサ120は、スピーチ信号の内容に基づいて検索を実行させることができる(例えば、他のデバイス、及び/又は、アプリケーションを制御することによって、サーバに対して、識別されたキーワード、及び/又は、フレーズの検索要求を送信すること等)。
一又は複数のプロセッサ120は、オーディオ信号に対して、受信、処理、及び/又は、その他の機能を果たすことが可能な任意の適切な装置であればよい。例えば、一又は複数のプロセッサ120は、1つ以上のマイクサブアレイ、及び/又は、その他の任意の適切な装置からオーディオ信号を受信することができる。その後、一又は複数のプロセッサ120は、空間フィルタ、エコー消去、ノイズリダクション、ノイズ、及び/又は、エコーの抑圧、及び/又は、その他の適切な処理をオーディオ信号に対して実行することによりスピーチ信号を生成することができる。
一又は複数のプロセッサ120は、及び/又は、コンピュータなどのような汎用装置であってよく、又は、クライアントやサーバ等のような専用装置であってもよい。これら汎用装置又は専用装置はいずれも、ハードウェアプロセッサ(マイクロプロセッサ、デジタル信号プロセッサ、コントローラ等)、メモリ、通信インターフェース、ディスプレイコントローラ、入力装置、記憶装置(ハードドライブ、デジタルビデオレコーダ、固体記憶装置、リムーバブル記憶装置、又は、その他の任意の適切な記憶装置)等の任意の適切なコンポーネントを含んでいてよい。
一部の実施形態において、一又は複数のプロセッサ120は、図3を参照して説明するプロセッサであってよく、及び/又は、そのようなプロセッサを含んでいてもよい。一部の実施形態において、一又は複数のプロセッサ120は、以下、図7〜図10を参照して説明するように、1つ以上の操作を実行することと、及び/又は、1つ以上の処理700〜1000を実施することができる。
一又は複数のコントローラ130は、システム100のコンポーネント1つ以上の機能および動作を制御するように構成することができる。一又は複数のコントローラ130は、別の制御装置(例えば、制御回路、スイッチ等)、制御バス、携帯機器(例えば、携帯電話、タブレット型コンピュータ等)等であってよく、又は、それらの任意の組み合わせであってもよい。一部の実施形態において、一又は複数のコントローラ130は、ユーザコマンドを取得するための1つ以上のユーザーインターフェイス(図1には図示せず)を提供してよい。一部の実施形態において、一又は複数のコントローラ130は、車両の速度、環境の騒音、ユーザの特性(例えば、ユーザの履歴データ、ユーザの設定)、空間特性等の複数の条件、又は、これら条件の任意の組み合わせに応じて、1つ以上のサブアレイ、処理方法の選択に使用することができる。
一部の実施形態において、一又は複数のプロセッサ120は、それぞれ通信リンク151、153を介して一又は複数のオーディオセンサ110及び一又は複数のコントローラ130に通信可能に接続することができる。一部の実施形態において、一又は複数のオーディオセンサ110、一又は複数のプロセッサ120、及び、一又は複数のコントローラ130のそれぞれは、通信リンク155、157、159を介してそれぞれ通信ネットワーク140に接続することができる。通信リンク151、153、155、157、159は、ネットワークリンク、ダイアルアップリンク、無線リンク、Bluetooth(登録商標)リンク、有線リンク、その他の適切な通信リンク、又は、これらリンクの任意の適切な組み合わせであってよく、及び/又は、これらを含んでいてもよい。
通信ネットワーク140は、インターネット、イントラネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、無線ネットワーク、デジタル加入者回線(DSL)ネットワーク、フレームリレーネットワーク、非同期転送モード(ATM)ネットワーク、仮想プライベートネットワーク(VPN)、ケーブルテレビネットワーク、光ファイバーネットワーク、電話網、衛星ネットワーク、又は、これらいずれかの任意の組み合わせであってよい。
一部の実施形態において、一又は複数のオーディオセンサ110、一又は複数のプロセッサ120、および一又は複数のコントローラ130は、通信ネットワーク140を介して相互に通信することができる。例えば、オーディオ信号は、さらに処理するために、通信ネットワーク140を介して、一又は複数のオーディオセンサ110から一又は複数のプロセッサ120に転送されてよい。別の例において、制御信号は、通信ネットワーク140を介して、一又は複数のコントローラ130から、1つ以上のオーディオセンサ110及びプロセッサ120に転送されてよい。
一部の実施形態において、一又は複数のオーディオセンサ110、一又は複数のプロセッサ120、及び、一又は複数のコントローラ130のそれぞれは、スタンドアローン装置として実装されてよく、システム100の他のコンポーネントと統合されてもよい。
一部の実施形態において、システム100の各種コンポーネントは、1つ以上のデバイスに実装することができる。例えば、システム100における、1つ以上のオーディオセンサ110、プロセッサ120、及び/又は、コントローラ130は、ウェアラブル装置(例えば、シートベルト、フィルム等)に埋め込まれていてよい。別の例として、一又は複数のオーディオセンサ110がウェアラブル装置に埋め込まれつつ、1つ以上のプロセッサ120及びコントローラ130が別のデバイス(例えば、スタンドアローンプロセッサ、携帯電話、サーバ、タブレットコンピュータ等)に位置していてよい。
一部の実施形態において、システム100は、ユーザの心拍数、呼吸数、脈拍、血圧、温度、呼気中のアルコール含有量、指紋、心電図、筋電図、位置、及び/又は、その他のユーザに関する情報などを検出可能な1つ以上のバイオセンサを含んでいてよい。システム100は、スマート制御装置の一部として使用することができる。例えば、図13Bに示すように、システム100が受信したスピーチ信号に応じて1つ以上の制御コマンド又はそれらの組み合わせ等を作製することができる。一実施形態において、システム100によってスピーチ信号が取得され、携帯電話が1つ以上の機能を果たすように制御されてよい(例えば、電源のオン/オフ、電話帳から名前を検索し電話をかけたり、メッセージを送信したり)。別の実施形態において、システム100によって呼気中アルコール含有量が取得されてもよく、この場合、呼気中アルコール含有量が閾値を超える場合(例えば、20mg/100ml,80mg/100ml,等よりも高い場合)に、車両をロックすることができる。さらに別の実施形態では、システム100によって、ユーザの心拍数、又は、その他の任意の生体パラメータが取得され、警告を生成することができる。一部の実施形態において、前記警告は、別のユーザ(例えば、サーバ、医療提供者の携帯電話等)に送信されてもよい。
図2Aは、本開示における一部の実施形態によるオーディオセンサが埋め込まれた織物構造体の実施例200を示す。織物構造体200は、ウェアラブル装置の一部であってよい。
図に示されるように、織物構造体200は、1つ以上の層(例えば、層202a、202b、202n等)を含んでいる。図2Aには3つの層が示されているが、これは例示に過ぎない。織物構造体200は、任意の適切な数の層(例えば、1つの層、2つの層等)を有していてよい。
各層202a〜nは、複数のオーディオセンサ、回路、及び/又は、一又は複数のオーディオセンサに付随するその他の任意のハードウェア等が埋め込まれ得る織物構造体としてみなすことができる。図2Aに示すように、層202a〜nは、横方向に沿って配置されていてよい。
織物構造体200、及び/又は、各層202a〜nは、任意の適切な材料で作製可能であり、例えば、布(例えば、織布、不織布、導電性生地、非導電性生地等)、帯紐、繊維、織物、強化フィルム、プラスチック、プラスチックフィルム、ポリウレタン、シリコーンゴム、金属、セラミックス、ガラス、膜、紙、カード用紙、ポリマー、ポリエステル、ポリイミド、ポリエチレンテレフタレート、可撓性材料、圧電材料、カーボンナノチューブ、バイオニック材料、及び/又は、埋込センサを有する織物構造体が製造可能なその他の任意の適切な材料で作製可能である。また、織物構造体200、及び/又は、各層202a〜nは、導電性材料(例えば、導電性糸、導電性生地、導電性トレッド、導電性繊維等)、非導電性材料(例えば、非導電性生地、非導電性エポキシなど)、及び/又は、その他の導電性材料で作製されていてよい。一部の実施形態において、基板(織物構造体)200の複数の層は、同一の、又は、一又は複数の異なる材料で作製することができる。各層202a〜nの色、形状、密度、弾性、厚さ、導電性、温度伝導率、空気透過率、及び/又は、その他の特性は、同じであっても異なっていてもよい。
各層202a〜nは、任意の適切な寸法(例えば、長さ、幅、厚さ(例えば、高さ)等)を有していてよい。織物構造体200の複数の層は、同じ寸法を有していてもよく、有していなくてもよい。例えば、層202a、202b、202nは、それぞれ厚さ204a、204b、204nを有していてよい。厚さ204a、204b、204nは、互いに同じであっても異なっていてもよい。一部の実施形態において、織物構造体200の1つ以上の層は特定の厚さを有することができる。例えば、織物構造体200の全ての層の厚さ(例えば、厚さ204a〜nの組み合わせ)は、特定の厚さ(例えば、2.5mm、2.4mm、2mm、3mm、4mm、及び/又は、その他の任意の厚さ)以下であってもよい。別の例において、織物構造体200の特定の層の厚さは、特定の厚さ(例えば、2.5mm、2.4mm、2mm、3mm、4mm、及び/又は、その他の任意の厚さ)以下であってもよい。
一部の実施形態において、織物構造体の層の厚さ(例えば、厚さ204a、204b、204n等)は、層の第1面と層の第2面との間の距離によって測定することができる。層の第1面は、層の第2面と平行であってもよく、平行でなくてもよい。層の厚さは、層の第1面と第2面との間の最大距離(本明細書では「最大厚さ」とも称す)であってよい。層の厚さは、層の第1面と第2面との間のその他の任意の距離であってもよい。
同様に、織物構造体の厚さは、織物構造体の第1面と織物構造体の第2面との間の距離によって測定することができる。織物構造体の第1面は、織物構造体の第2面と平行であってもよく、平行でなくてもよい。織物構造体の厚さは、織物構造体の第1面と第2面との間の最大距離(本明細書では「最大厚さ」とも称す)であってよい。織物構造体の厚さは、織物構造体の第1面と第2面との間のその他の任意の距離であってもよい。
織物構造体200は、シートベルト、建築ハーネス、ウェアラブル演算装置、ヘルメット、ヘルメットストラップ、頭部搭載装置、バンド(例:リストバンド)、衣料品、軍用アパレル等のウェアラブル装置の一部であってよい。一部の実施形態において、織物構造体200はシートベルトの帯紐であってもよく、及び/又は、これを含むものであってもよい。
各層202a〜nは、1つ以上のオーディオセンサ、回路、及び/又は、一又は複数のオーディオセンサ、一又は複数のプロセッサ、及び/又は、その他ウェアラブル装置において通信システムを提供するための適切なコンポーネントに関連付けられた他のハードウェアを含むことができる。例えば、1つ以上のオーディオセンサ、及び、それらに関連する回路、及び/又は、ハードウェアが織物構造体200の層に埋め込まれていてよい。別の例として、1つ以上のオーディオセンサが織物構造体200の任意の層(例えば、第1層)に埋め込まれていてよい。これらに関連する回路の一部分以上が、織物構造体200の1つ以上の層の別の層(例えば、第2層、第3層等)に埋め込まれていてよい。一部の実施形態において、各層202a〜nは、図2B、図11〜14を参照して説明する1つ以上の織物構造体であってもよく、及び/又は、それらを含んでいてもよい。
一部の実施形態において、織物構造体200の1つ以上の層に埋め込まれた複数のオーディオセンサは、オーディオセンサの1つ以上の配列(例えば、マイクアレイ)を形成してよく、各アレイはさらにオーディオセンサの1つ以上のサブアレイ(例えば、マイクサブアレイ)を含んでいてよい。例えば、マイクアレイ、及び/又は、マイクサブアレイは、織物構造体200の特定の層に埋め込まれたオーディオセンサによって形成されていてよい。別の例において、マイクアレイ、及び/又は、マイク副配列は、織物構造体200の複数の層に埋め込まれたオーディオセンサによって形成されていてよい。一部の実施形態において、複数のオーディオセンサは、以下に図2B、図11〜14を参照して説明する織物構造体200の1つ以上の層に配置されていてよい。
一部の実施形態において、1つ以上の層202a〜nは、複数のオーディオセンサ、一又は複数のオーディオセンサに付随する回路、一又は複数のプロセッサ等が埋め込まれ得る1つ以上の通路(例えば、通路206a、206b、206n等)を含んでいてよい。例えば、各通路は、図2Bに示す通路201a〜g、図11に示す流路1101a〜e、図13に示す通路1310、図14に示す通路1411、1421の1つ以上であってもよく、及び/又は、これらを含んでいてもよい。これに代わり、またはこれに加えて、1つ以上のオーディオセンサ、回路、及び/又は、オーディオセンサに付随するその他の任意のハードウェア(例えば、電極、ワイヤー等)等は織物構造体200の一部分以上に統合されていてよい。
図2Bは、本開示における一部の実施形態によるセンサが埋め込まれた織物構造体の実施例210、220、230、240を示す。各織物構造体210、220、230、240はウェアラブル装置の一部であってよい。例えば、織物構造体210、220、230、240のそれぞれは、図2Aに示されるような織物構造体の層に含まれていてよい。別の例として、織物構造体210、220、230、240の2つ以上が、図2Aに示されるような織物構造体の層に含まれていてもよい。これに代わり、またはこれに加えて、織物構造体210、220、230、240は複数のウェアラブル装置に使用されていてもよい。
織物構造体210、220、230、240のそれぞれは、1つ以上の通路(例えば、通路201a、201b、201c、201d、201e、201e、201f、201g)を含んでいてよい。各通路は、1つ以上のオーディオセンサ(例えば、オーディオセンサ203a〜p)、回路、及び/又は、オーディオセンサ、及び/又は、本開示の一部の実施形態によるその他の任意の適切なコンポーネントに関連付けられた任意の他のハードウェアを含むことができる。オーディオセンサ203a〜pの各々は、図1を参照して説明するオーディオセンサ110であってもよく、及び/又は、それを含むものであってもよい。
一部の実施形態において、1つ以上の通路201a〜gは、織物構造体に沿って長手方向に延在していてよい。或いは、各通路201a〜gは、その他の適切な方向に配置されてもよい。
織物構造体内の複数の通路は、任意の適切な方法で配置されていてよい。例えば、織物構造体に配置された複数の通路(例えば、通路201b〜c、通路201d〜e、通路201f〜g)は、互いに平行であってもよく、平行でなくてもよい。別の例として、織物構造体における複数の通路(例えば、通路201b〜c、通路201d〜e、通路201f〜g等)の始点および終点は同じであってもよく、異なっていてもよい。さらに別の例として、織物構造体内の複数の通路は、同一または異なる寸法(例えば、長さ、幅、高さ(例えば厚さ)、形状等)を有してよい。通路201a〜gの各々は、曲線、長方形、楕円形、同様のもの、又は、それらの組み合わせ等、任意の適切な形状を有することができる。通路201a〜gの空間構造の例としては、直方体、円柱、楕円体等、又は、それらの組み合わせがあるが、これらに限定されない。複数の通路の形状、及び、空間構造は同一であってもよく、異なっていてもよい。各通路201a〜gは、一部分以上が中空であってもよい。一部の実施形態において、各通路201a〜gは、図11を参照して説明する流路1101a〜eであってよく、及び/又は、そのような通路を含んでいてもよい。通路201a〜gの各々はまた、図14に示す通路1411、及び/又は、通路1412であってよく、これらを含むものであってもよい。
実施例220、230、及び、240には2つの通路が示されているが、これは単なる例示である。各織物構造体は、任意の適切な数の通路(例えば、ゼロ、1つ、2つ等)を含むことができる。
図に示されるように、各オーディオセンサ203a〜pは、通路内に配置されていてよい。1つ以上のオーディオセンサに付随する1つ以上の回路(例えば、図12〜図16を参照して説明する回路)もまた通路内に配置されていてよい。一部の実施形態において、オーディオセンサ203は通路201内の長手方向の線上に配置することができる。さらに別の実施形態において、複数のオーディオセンサ203が通路201内の複数の線上に配置されていてよい。一部の実施形態において、複数列のオーディオセンサ203を1つの通路201に搭載することができる。オーディオセンサ203は、その一部が織物構造体から突き出た状態で、又は、突き出てない状態で織物構造体の通路201に搭載されている。例えば、一部の実施形態において、オーディオセンサ203、及び/又は、これらに付随する回路は、織物構造体から突出していない。
一部の実施形態において、通路201の数およびオーディオセンサ203の配置は同じであってもよく、異なっていてもよい。織物構造体210において、通路201は織物構造体に形成することができ、1つ以上のオーディオセンサを通路201に搭載することができる。複数のオーディオセンサ203の出力を組み合わせてオーディオ信号を生成することができる。実施例220、230、240では、複数の通路201を1つの織物構造体に製造することができ、1つ以上のオーディオセンサが各通路201に取り付けられてよい。隣接する通路201の間の距離は、同じであってもよく、異なっていてもよい。織物構造体220において、複数のオーディオセンサが平行な横線上に配置されていてよい。横線は、縦線に垂直であってもよい。これにより、複数のオーディオセンサを利用して、1つ以上の差動型指向性オーディオセンササブアレイを形成することができる。1つ以上の差動型指向性オーディオセンササブアレイの出力を組み合わせてオーディオ信号を生成することができる。例えば、オーディオセンサ203b、203cによって、差動型指向性オーディオセンササブアレイを形成することができる。オーディオセンサ203d、203eによって、差動型指向性オーディオセンササブアレイを形成することができる。オーディオセンサ203f、203gによって、差動型指向性オーディオセンササブアレイを形成することができる。
織物構造体230において、複数のオーディオセンサ203が平行な横線及びその他の線上に配置されていてよい。これにより、平行な横方向の線上に配置される複数のオーディオセンサ203を利用して、1つ以上の差動型指向性オーディオセンササブアレイを形成することができる。1つ以上の差動型指向性オーディオセンササブアレイの出力を組み合わせてオーディオ信号を生成することができる。オーディオセンサ203h、及び、オーディオセンサ203iによって、差動型指向性オーディオセンササブアレイを形成することができる。例えば、オーディオセンサ203j、203kによって、差動型指向性オーディオセンササブアレイを形成することができる。例えば、オーディオセンサ203m、203hによって、差動型指向性オーディオセンササブアレイを形成することができる。一部の実施形態において、織物構造体240には1つ以上のオーディオセンサ203がランダムに且つ複数の横方向の線上に配置されていてよい。複数のオーディオセンサ203の出力を組み合わせてオーディオ信号を生成することができる。
図3は、本発明の実施形態におけるプロセッサの例300を示す図である。図に示されるように、プロセッサ300は、I/Oモジュール310、空間フィルタモジュール320、エコー消去モジュール330、ノイズリダクションモジュール340、及び/又は、本開示の各種実施形態に従って、オーディオ信号を処理するその他の適切なコンポーネントを含むことができる。プロセッサ300には、さらに多くの又はより少ないコンポーネントが含まれていてもよい。例えば、2つのモジュールを1つのモジュールに統合してもよく、1つのモジュールを2つ以上のモジュールに分割してもよい。一例において、1つ以上のモジュールが複数の演算装置(例えば、異なるサーバコンピュータ)に設けられていてもよい。一部の実施形態において、図3のプロセッサ300は、図1のプロセッサ120と同じであってもよい。
I/Oモジュール310は、複数の制御アプリケーションに使用することができる。例えば、I/Oモジュール310は、オーディオセンサ、圧力センサ、光電センサ、電流センサ等の電子装置、又は、これらの任意の組み合わせから信号を受信するための回路を含むことができる。一部の実施形態において、I/Oモジュール310は、複数の受信信号又は一又は複数のその他の信号(例えば、1つ以上の受信信号に由来する信号、又は、1つ以上の受信信号に関連する信号)を、通信リンクを介して、システム300のその他のモジュール(例えば、空間フィルタモジュール320、エコー消去モジュール330、ノイズリダクションモジュール340)に送信することができる。一部の別の実施形態において、I/Oモジュール310はプロセッサ300の1つ以上のコンポーネントによって生成された信号を、更に処理するために他の装置に送信することができる。一部の実施形態において、I/Oモジュール310は、アナログ信号をデジタル信号に変換できるアナログ/デジタル変換器(図3には図示せず)を含んでいてもよい。
空間フィルタモジュール320は、1つ以上のビームフォーマ322、ローパスフィルタ324、及び/又は、オーディオ信号に空間フィルタを行うためのその他の適切なコンポーネントを含んでいてもよい。一又は複数のビームフォーマ322は、複数のサブアレイのそれぞれのオーディオセンサによって受信された複数のオーディオ信号を結合させることができる。例えば、ビームフォーマ322は、複数の方向からの信号に対して異なる応答をすることができる。ビームフォーマ322は、特定の方向からの信号の通過を許容し、他の方向からの信号を抑制することができる。一又は複数のビームフォーマ322によって区別される信号の方向は、例えば、マイクアレイのオーディオセンサ、及び/又は、ビームフォーマ322を形成するマイクサブアレイの幾何学情報、オーディオセンサの数、ソース信号の位置情報、及び/又は、信号の方向性に関するその他の情報に基づいて判定することができる。一部の実施形態において、一又は複数のビームフォーマ322は、図4に示すビームフォーマ400を1つ以上、及び/又は、ビームフォーマ400の一部分以上を含んでいてよい。以下に図4を参照して説明するように、一又は複数のビームフォーマ322は、オーディオセンサの幾何情報(例えば、オーディオセンサの位置、オーディオセンサ間の距離等)及びソース信号の位置を参照することなく、ビームフォーミングを実行することができる。
一又は複数のローパスフィルタ324は、一又は複数のビームフォーマの配置に関連する歪を削減できる。一部の実施形態において、ローパスフィルタ324は、一又は複数のビームフォーマ322によって生成されたオーディオ信号の歪み成分を除去することができる。例えば、歪(例えば、オーディオセンササブアレイの幾何学配置、オーディオセンサの数、信号のソース位置等、又は、これらの組み合わせにより発生する歪)を均等化することにより歪成分を除去することができる。
図3に示すように、プロセッサ300はまた、入力されたオーディオ信号(例えば、I/Oモジュール310、空間フィルタモジュール320、又はその他の装置によって生成された信号)エコー、及び/又は、フィードバック成分(これもエコー成分と称す)を除去可能なエコー消去モジュール330を含んでいてよい。例えば、エコー消去モジュール330は入力されたオーディオ信号に含まれるエコー成分を推定し、前記入力されたオーディオ信号からエコー成分を除去する(例えば、入力されたオーディオ信号から、推定されたエコー成分を取り除く)。入力されたオーディオ信号のエコー成分は、音響環境内におけるオーディオセンサ(例えば、マイク)と1つ以上のスピーカとの間で適切な音響絶縁が欠如しているために発生するエコーを表している。例えば、マイクによって生成されるオーディオ信号は、遠端スピーチおよび近端オーディオ(例えば、インフォテインメントサブシステムからのコマンド、又は、オーディオ信号)からのエコー成分、及び、フィードバック成分をそれぞれ含むことができる。これらのエコー成分、及び/又は、フィードバック成分は、音響エコーを生成するために1つ以上のスピーカによって再生されてもよい。
一部の実施形態において、エコー消去モジュール330は、音響エコーキャンセラー332、ダブルトーク検出器334、及び/又は、オーディオ信号のエコー、及び/又は、フィードバック消去を実行するための他の適切なコンポーネントを含むことができる。
一部の実施形態において、音響エコーキャンセラー32は入力されたオーディオ信号のエコー成分を推定できる。例えば、音響エコーキャンセラー332はエコー成分が生成される音響経路を表すモデルを構築することができる。そして、音響エコーキャンセラー332はそのモデルに基づいてエコー成分を推定できる。一部の実施形態において、音響経路は、NLMS(Normalized Least Mean Square)アルゴリズム、アフィン射影(AP)アルゴリズム、FLMS(Frequency-Domain Least Mean Square)アルゴリズムなどの適応アルゴリズムを使用してモデル化することができる。一部の実施形態において、音響経路は有限インパルス応答フィルタ(FIR)を有する適応フィルタ等のフィルタによってモデル化できる。適応フィルタは、図5及び図6を参照して説明するような構成とすることができる。
ダブルトーク検出器334は、ダブルトーク検出を行うことが可能であり、この検出に基づいてエコー消去を実行させることができる。ダブルトークは、エコー消去モジュール330が複数の話者の音声を表す信号を同時にまたは略同時に受信したときに発生することがある。ダブルトークの発生を検出すると、ダブルトーク検出器334は、音響エコーキャンセラー332によって構築された適応フィルタを停止させるか、または減速させることができる。
一部の実施形態において、ダブルトーク検出器334は、1つ以上のスピーカ信号及び出力信号と1つ以上のオーディオセンサによって生成された複数の出力信号との相関に関する情報に基づいて、ダブルトークの発生を検出する。例えば、ダブルトークの発生は、エネルギー比試験、統計などのような相互相関、又は、整合性、又は、これらの組み合わせに基づいて検出され得る。ダブルトーク検出器334は、スピーカ信号とマイク信号との相関に関する情報を音響エコーキャンセラー332に提供することもできる。一部の実施形態において、音響エコーキャンセラー332によって構成された適応フィルタは、情報に基づいて停止または減速することができる。エコー消去モジュール330によって実行される様々な機能について、図5及び図6を参照して詳細に説明する。
ノイズリダクションモジュール340は、1つ以上のオーディオセンサ、I/Oモジュール310、空間フィルタモジュール320、エコー消去モジュール330、及び/又は、その他の任意の装置によって生成されたオーディオ信号等の入力されたオーディオ信号に対してノイズ低減を行うことができる。図3に示すように、ノイズリダクションモジュール340は、チャネル選択部342、マルチチャネルノイズリダクション部(MNR)344、残留ノイズ及びエコー抑制部346、及び/又は、ノイズ低減を実行するためのその他の適切なコンポーネントを含むことができる。
チャネル選択部342は、さらに処理を行うために1つ以上のオーディオチャネルを選択することができる。複数のオーディオチャネルは、1つ以上のマイクアレイ、マイクサブアレイ等、複数のオーディオセンサの出力に対応したものであってよい。一部の実施形態において、複数のオーディオチャネルを介して提供される複数のオーディオ信号の品質に基づいて、1つ以上のオーディオチャネルを選択することができる。例えば、1つ以上のオーディオチャネルは、複数のオーディオチャネルによって提供される複数のオーディオ信号の信号対雑音比(SNR)に基づいて選択されてもよい。より詳細には、例えば、チャネル選択部342は、最高SNR、最上位3つのSNR、閾値より高いSNRなど、特定の品質(例えば、特定のSNR)に関連する1つ以上のオーディオチャネルを選択することができる。
一又は複数のオーディオチャネルを選択すると、チャネル選択部342は、当該選択に関する情報、選択された一又は複数のオーディオチャネルを介して供給される複数のオーディオ信号、及び/又は、その他の情報を、マルチチャネルノイズリダクション部(MCNR)344に提供することができる。次いで、MCNR部344は、選択された一又は複数のオーディオチャネルによって提供される一又は複数のオーディオ信号に対し、ノイズリダクションを実行することができる。
MCNR部344は、チャネル選択部342、I/Oモジュール310、空間フィルタモジュール320、エコー消去モジュール330、1つ以上のオーディオセンサ、及び/又は、他の任意のデバイスから、1つ以上の入力されたオーディオ信号を受信することができる。MCNR部344で受信される入力オーディオ信号は、スピーチ成分、ノイズ成分、及び/又は、他の成分を含むことができる。スピーチ信号は、所望のスピーチ信号(例えば、ユーザの音声、その他の音響入力、及び/又は、その他の所望の信号)に対応したものであってよい。ノイズ成分は、周囲のノイズ、回路のノイズ、及び/又は、他のタイプのノイズに対応したものであってよい。MCNR部344は、入力オーディオ信号を処理することにより(例えば、スピーチ成分、及び/又は、ノイズ成分に関する統計を推定することにより)スピーチ信号を生成することができる。例えば、MCNR部344は、1つ以上のノイズリダクションフィルタを構築することができ、ノイズリダクションフィルタを入力されたオーディオ信号に適用することによって、スピーチ信号、及び/又は、ノイズ消去済み信号を生成することができる。同様に、複数のオーディオチャネルに対応する複数の入力オーディオ信号を処理するために、1つ以上のノイズリダクションフィルタを構築することもできる。これらノイズ除去フィルタのうちの1つ以上を、単一チャネルノイズリダクション、及び/又は、マルチチャネルノイズリダクションのために構成することができる。一又は複数のノイズリダクションフィルタは、代表的なウィーナフィルタ(Wiener filtering)、櫛形フィルタ技術(線形フィルタが、ピッチ期間から導出された有声音声の高調波成分のみを通過させるように適合されている)、音声の線形全極モデリング及び極零モデリング(例えば、雑音のある音声からのスピーチ成分の係数の推定による)、隠れマルコフモデリング等の1つ以上のフィルタリング技術に基づいて構築されていてよい。一部の実施形態において、1つ以上のノイズリダクションフィルタは、以下の図10を参照して説明する動作を1つ以上実行することによって構築されていてよい。
一部の実施形態において、MCNR部344は、無音期間中のノイズ統計値を推定および追跡することができる。MCNR部344は、推定された情報を用いて、スピーチ信号が存在するときのノイズ成分を抑圧することができる。一部の実施形態において、MCNR部344は、スピーチ歪の少ない、又は、全くないノイズリダクションを達成することができる。MCNR部344は、複数のオーディオセンサの出力信号を処理することができる。複数のオーディオセンサの出力信号は、未知のソース、ノイズ成分、及び/又は、他の任意の成分に分解することができる。一部の実施形態において、MCNR部344は、未知のソースから成分の推定値を取得することができる。MCNR部344は、未知のソースからの成分とこれに対応する推定処理に基づいて、エラー信号を生成することができる。次いで、MCNR部344は、エラー信号に従ってノイズ消去済み信号を生成することができる。
一部の実施形態において、1つ以上の他のオーディオチャネルを介して提供されるオーディオ信号に関する統計に基づいて、オーディオチャネルに対するノイズリダクションを実行することができる。これに代わり、またはこれに加えて、単一チャネルノイズリダクションのアプローチで、個々のオーディオチャネルに対してノイズリダクションを実行することができる。
MCNR部344によって生成されたスピーチ信号は、さらなる処理のために、残留ノイズ及びエコー抑制部346に供給されてよい。例えば、残留ノイズ及びエコー抑制部346は、スピーチ信号に含まれる残留ノイズ、及び/又は、エコー(例えば、エコーMCNR344、及び/又は、エコー消去モジュール330によって除去されなかったノイズ、及び/又は、エコー成分)を抑圧することができる。ノイズリダクションモジュール340によって実行される各種機能については、図10を参照して詳細に説明する。
本明細書の記載は例示的なものであり、特許請求の範囲を限定するものではない。本明細書に記載の構成や詳細の変形例は当業者にとって自明である。本明細書に記載された例示的な実施形態の特徴、構造、方法、および他の特徴を様々な方法で組み合わせることによって更に、及び/又は、代替となる例示的な実施形態を得ことができる。例えば、線形エコー消去部(図3において図示せず)をエコー消去モジュール330に設けて、線形エコーを消去してもよい。別の例として、音響エコー消去部334が、線形エコーを消去する機能を有していてもよい。
図4は、本発明の実施形態におけるビームフォーマの例400を示す模式図である。一部の実施形態において、ビームフォーマ400は、図3に示す一又は複数のビームフォーマ322と同一であってもよい。
一部の実施形態において、マイクサブアレイ450は、オーディオセンサ410、420を含んでいてよい。オーディオセンサ410、420の各々は、全指向性マイクロフォンであってもよく、または、他の適切な指向特性を有してもよい。オーディオセンサ410、420は、差分ビームフォーマ(例えば、固定差分ビームフォーマ、適応差分ビームフォーマ、一次差分ビームフォーマ、二次差分ビームフォーマ等)を形成するように配置されていてよい。一部の実施形態において、オーディオセンサ410、420は、ある程度の距離(例えば、衝突する音波の波長に比べて小さい距離)を空けて配置されていてよい。オーディオセンサ410、420は、図2A、2Bを参照して説明したマイクサブアレイを形成していてよい。オーディオセンサ410、420の各々は、図1を参照して説明するオーディオセンサ110であってもよく、及び/又は、それを含むものであってもよい。
軸405はマイクサブアレイ450の軸である。例えば、軸405は、オーディオセンサ410、420を結ぶ線を表すものであってよい。例えば、軸405は、オーディオセンサ410、420の幾何学的配置の中央、及び/又は、オーディオセンサ410、420のその他の部分を結ぶものであってよい。
オーディオセンサ410及びオーディオセンサ420は、音波407を受信することができる。一部の実施形態において、音波407は、衝突する平面波、非平面波(例えば、球面波、円筒波等)等であってもよい。オーディオセンサ410、420の各々は、音波407を表すオーディオ信号を生成することができる。例えば、オーディオセンサ410、420は、それぞれ、第1オーディオ信号および第2オーディオ信号を生成するものであってよい。
遅延モジュール430は、第1オーディオ信号、及び/又は、第2オーディオ信号に基づいて遅延オーディオ信号を生成することができる。例えば、遅延モジュール430は、第2オーディオ信号に時間遅延を適用することによって遅延オーディオ信号を生成することができる。時間遅延は、線形アルゴリズム、非線形アルゴリズム、及び/又は、遅延オーディオ信号の生成に使用できる他の適切なアルゴリズムを使用して決定することができる。以下により詳細に説明するように、様々な指向応答性を実現する目的で、音波がオーディオセンサ410、420の間を軸方向に移動する伝播時間に基づいて、時間遅延を調整してもよい。
結合モジュール440は、第1オーディオ信号(例えば、オーディオセンサ410によって生成されたオーディオ信号)と遅延モジュール430によって生成される遅延オーディオ信号とを結合することができる。例えば、結合モジュール440は、第1オーディオ信号と遅延オーディオ信号とを交代符号方式により結合することができる。一部の実施形態において、結合モジュール440は、近接場モデル、遠方場モデル、及び/又は、複数のオーディオ信号を結合するのに利用できるその他のモデルを利用して、第1オーディオ信号と遅延オーディオ信号とを結合することができる。例えば、2つのセンサが、近接場ビームフォーマを形成していてよい。一部の実施形態において、結合モジュール440によって使用されるアルゴリズムは、線形アルゴリズム、非線形アルゴリズム、リアルタイムアルゴリズム、非リアルタイムアルゴリズム、時間領域アルゴリズム、又は、周波数領域アルゴリズム等であってもよく、或いは、これらの任意の組み合わせであってもよい。一部の実施形態において、結合モジュール440によって使用されるアルゴリズムは、2段階時間遅延推定(TDOA)に基づくアルゴリズム、1段階時間遅延推定値に基づくアルゴリズム、ステアドビームに基づくアルゴリズム、独立成分分析に基づくアルゴリズム、遅延及び合計(DAS)アルゴリズム、最小分散無歪応答(MVDR)アルゴリズム、一般化サイドローブキャンセラ(GSC)アルゴリズム、最小平均二乗誤差(MMSE)に基づくアルゴリズム等の1つ以上のビームフォーミング又は空間フィルタ技術、或いは、これらの組み合わせであってもよい。
一部の実施形態において、オーディオセンサ410、420は固定一次差分ビームフォーマを形成できる。より詳細には、例えば、一次差分ビームフォーマの感度は、音圧フィールドの第1空間導関数に比例し、これを含む。マイクサブアレイ450に入射する振幅S及び角周波数ωを有する平面波の場合、結合モジュール440の出力は、以下の式を使用して表すことができる。
[数1]
式(1)において、dはマイク間の隙間(例えば、オーディオセンサ410、420間の距離)を表し、cは音の速度を表し、θは音波407の軸405に対する入射角を表し、τはマイクサブアレイの1つのオーディオセンサに対して適応する時間遅延を表している。
一部の実施形態において、オーディオセンサの間隔dは小さくてもよい(例えば、ω・d/c<<π及びω・τ<<πを満たす値)。結合モジュール440の出力は、次のように表すことができる。
[数2]
式(2)に示すように、結合モジュール440は、出力信号の生成に、オーディオセンサ410、420の幾何学的配置の情報を参照する必要はない。方程式(2)のかっこ内の項は、マイクサブアレイの指向性応答を含むことができる。
一部の実施形態において、マイクサブアレイは、一次ハイパス周波数依存性を有することができる。従って、軸405上で真っ直ぐに(例えば、θ=0)到達する所望の信号S(jw)は、係数wだけ歪むことがある。この歪みは、ローパスフィルタによって(例えば、結合モジュール440によって生成された出力信号を均等化することにより)低減、及び/又は、除去することができる。一部の実施形態において、ローパスフィルタは整合ローパスフィルタとすることができる。一部の実施形態において、ローパスフィルタは、一次再帰ローパスフィルタとすることができる。一部の実施形態において、ローパスフィルタは、図3のローパスフィルタ324であってもよく、及び/又は、これを含んでいてもよい。
一部の実施形態において、結合モジュール440は、音波がサブアレイの2つのオーディオセンサの間を軸方向に移動するための伝搬時間(例えば、d/cの値)に基づいて時間遅延τを調整することができる。より具体的には、例えば、τの値は、d/cの値に比例してもよい(例えば、τの値は「0」、d/c、d/3c、d/31/2c等であってもよい)。一部の実施形態において、時間遅延τは、様々な指向性応答が達成できる範囲(例えば、0とd/cの値との間の範囲)で調整することができる。例えば、マイクサブアレイの応答の最小値が90°と180°の間で変化するように、時間遅延を調整してもよい。一部の実施形態において、オーディオセンサ420に印加される時間遅延τは、以下の式を使用して決定することができる。
[数3]
代替的または追加的に、遅延時間τは、以下の式を使用して計算することができる。
[数4]
図5は、本発明の実施形態における音響エコー消去部(AEC)の例500を示す図である。
図に示されるように、AEC500は、スピーカ501、ダブルトーク検出器(DTD)503、適応フィルタ505、結合器506、及び/又は、音響エコー消去を行うための他の適切なコンポーネントを含むことができる。一部の実施形態において、AEC500の1つ以上のコンポーネントが、図3のエコー消去モジュール330に含まれてもよい。例えば、図5に示すように、エコー消去モジュール330は、DTD503、適応フィルタ505、及び、結合器506を含むことができる。オーディオセンサ508のさらなる詳細については、図2A、2Bのオーディオセンサ203を参照されたい。
スピーカ501は、オーディオ信号を対応する音に変換可能な任意の装置であってもよく、及び/又は、そのような装置を含んでいてもよい。スピーカ501は、スタンドアローン型の装置であってもよく、または1つ以上の他の装置と一体化されてもよい。例えば、スピーカ501は、自動車オーディオシステムの内蔵型スピーカ、携帯電話と一体化されたスピーカなどであってもよい。
スピーカ501は、スピーカ信号507を出力することができる。スピーカ信号507は、音響経路(例えば、音響経路519)を通過し、エコー信号509を生成することができる。一部の実施形態において、スピーカ信号507およびエコー信号509は、それぞれx(n)およびy(n)として表すことができ、nは時間インデックスを表す。エコー信号509はローカルスピーチ信号511と共に、オーディオセンサ508によって捕捉され、ローカルノイズ信号513、及び/又は、他の信号は、オーディオセンサ508によって捕捉される。ローカルスピーチ信号511、ローカルノイズ信号513は、それぞれv(n)およびu(n)で表すことができる。ローカルスピーチ信号511は、ユーザの音声、他の任意の音響入力、及び/又は、オーディオセンサ508によって捕捉され得るその他の所望の入力信号を表すことができる。ローカルノイズ信号513は、周囲のノイズ、回路のノイズ、及び/又は、その他の種類のノイズを表し得る。ローカルスピーチv(n)511は本質的に間欠的であり、ローカルノイズu(n)513は比較的定常的な場合がある。
オーディオセンサ508は、出力信号515を出力することができる。出力信号515は、エコー信号509(例えば、エコー成分)に対応する成分、ローカルスピーチ511(例えば、スピーチ成分)に対応する成分、ローカルノイズ513(例えば、ノイズ成分)、及び/又は、その他の成分の組み合わせとして表される。
エコー消去モジュール330は、エコー信号509を推定するために適応フィルタ505を使用して音響経路519をモデル化することができる。適応フィルタ505は、エコー信号509を推定するための有限インパルス応答(FIR)を有するフィルタであってもよく、及び/又は、それを含んでいてもよい。エコー消去モジュール330は、適応アルゴリズムを使用してフィルタを推定することができる。一部の実施形態において、適応フィルタ505は、1つ以上の可変パラメータによって制御される伝達関数を有する線形フィルタと、適応アルゴリズムに従って1つ以上のパラメータを調整する1つ以上の手段とを有するシステムとすることができる。
適応フィルタ505は、スピーカ信号507、及び、出力信号515を受信することができる。適応フィルタ505は、その後受信信号を処理して、推定されたエコー信号509を表す推定エコー信号(例えば、信号
[数5]
)を生成してよい。推定エコー信号は、エコー信号509の複製とみなすことができる。結合器506は、推定エコー信号と出力信号515とを組み合わせることによりエコー消去済み信号517を生成することができる。例えば、エコー消去済み信号517は、出力信号515から推定エコー信号を減じて、エコー、及び/又は、フィードバックの消去を行うことで生成できる。適応アルゴリズムにおいて、ローカルスピーチ信号v(n)511とローカルノイズ信号u(n)513の両方が、無相関の干渉として作用することができる。一部の実施形態において、ローカルスピーチ信号511は間欠的である一方、ローカルノイズ信号513は比較的定常的な場合がある。
一部の実施形態において、適応フィルタ505によって使用されるアルゴリズムは、線形または非線形であってよい。適応フィルタ505で使用されるアルゴリズムは、NLMS(Normalized Least Mean Square)、アフィン射影(AP)アルゴリズム、RLS(Recursive Least Squares)アルゴリズム、及び、FLMS(Frequency-Domain Least Mean Square)アルゴリズム等、又は、これらの組み合わせを含んでいてもよいがこれらに限定されない。
一部の実施形態において、発展したFLMSアルゴリズムを使用して、音響経路519のモデル化、及び/又は、推定エコー信号の生成を行うことができる。FLMSアルゴリズムを使用して、音響経路519および適応フィルタ505を表す音響インパルス応答を構築することができる。一部の実施形態において、音響インパルス応答および適応フィルタ505は、有限長Lを有することができる。発展したFLMSアルゴリズムは、時間領域または空間領域からの1つ以上の信号を周波数領域表現に変換、又は、その逆を行うことがでできる。例えば、高速フーリエ変換を使用して、入力信号を周波数領域表現に変換することができる(例えば、入力信号の周波数領域表現)。オーバーラップ保存(Overlap−Save)技術は、前記表現を処理することができる。一部の実施形態において、オーバーラップ保存技術を使うことによって(例えば、信号と有限インパルス応答フィルタとの間の離散畳み込みを評価することによって)入力の周波数領域表現を処理することができる。時間領域または空間領域から周波数領域表現への、及びその逆の変換方法は、高速フーリエ変換、ウェーブレット変換、ラプラス変換、Z変換等、又は、これらの組み合わせを含むことができるが、これらに限定されない。FFTは、素因数(Prime-factor)FFTアルゴリズム、ブルーン(Bruun)FFTアルゴリズム、レーダー(Rader)FFTアルゴリズム、ブルーステイン(Bluestein)FFTアルゴリズムなどを含んでよいが、これらに限定されない。
音響経路519を介して生成される真の音響インパルス応答は、以下のようなベクトルによって特徴付けることができる。
[数6]
適応フィルタ505は、以下のベクトル等によって特徴付けることができる。
[数7]
上記式(3)及び(4)において、(・)はベクトルまたは行列の転置を表し、nは離散時間インデックスを表している。hは音響経路519を表すことができる。
[数8]
は、適応フィルタ505によってモデル化された音響経路を表すことができる。ベクトルh及び
[数8]
の各々は、実数値ベクトルであってもよい。上で示されるように、一部の実施形態において、真の音響インパルス及び適応フィルタは、有限長Lを有することができる。
オーディオセンサ508の出力信号515は真の音響インパルス応答に基づいてモデル化することができ、エコー信号509、スピーチ信号511、ローカルノイズ信号513等に対応するコンポーネントを1つ以上含んでいてもよい。例えば、出力信号515は、以下のようにモデル化することができる。
[数9]
ここで、以下の通りである。
[数10]
[数11]
上記式(5)〜(7)において、x(n)はスピーカ信号507(例えば、L個のサンプル)に対応し、v(n)はローカルスピーチ信号511に対応し、u(n)はローカルノイズ信号513に対応する。
一部の実施形態において、出力信号y(n)515及びスピーカ信号x(n)507は、複数のフレームに編成することができる。各フレームは、所定数のサンプル(例えば、L個のサンプル)を含むことができる。出力信号y(n)515のフレームは、以下のようであってもよい。
[数12]
スピーカ信号x(n)507のフレームは、以下のようであってもよい。
[数13]
上記式(8)及び(9)において、m(m=0,1,2、...)はフレームのインデックスを示す。
スピーカ信号、及び/又は、出力信号は、例えば、1つ以上の高速フーリエ変換(FFT)を実行することによって、周波数領域に変換されてもよい。また、スピーカ信号、及び/又は、出力信号の1つ以上のフレームに変換を実行してもよい。例えば、スピーカ信号の現在のフレーム(例えば、m番目のフレーム)の周波数領域表現は、以下のように2LポイントFFTを実行することによって生成されてもよい。
[数14]
ここで、F2L×2Lは、(2L×2L)次元のフーリエ行列とすることができる。
前のフレーム(例えば、(m−1)番目のフレーム)に適用される適応フィルタの周波数領域表現は、以下のように決定されてもよい。
[数15]
ここで、F2L×2Lは、(2L×2L)次元のフーリエ行列とすることができる。
(m)のシューア(エレメント対エレメント)積及び
[数16]
を計算することができる。シューア積(Schur product)の時間領域表現を生成してもよい(例えば、逆FFTを利用したシューア積の時間領域への変換、又は、周波数領域信号の時間領域へのその他の適切な変換によって)。次に、エコー消去モジュール330は、シューア積の時間領域表現に基づいて、エコー信号の現在のフレーム(例えば、y(m))の推定値を生成することができる。例えば、推定されたフレーム(例えば、推定エコー信号、エコー
[数17]
の現在のフレーム)は、以下のようにシューア積の時間領域表現の最後のL個の要素に基づいて生成されてもよい。
[数18]
ここで、以下の通りである。
[数19]
[数20]
はシューア積を表すことができる。
エコー消去モジュール330は、エコー信号と推定エコー信号との間の類似性を表す事前エラー信号に基づいて適応フィルタ505の1つ以上の係数を更新することができる。例えば、エコー信号の現在のフレーム(例えば、y(m))について、事前エラー信号e(m)は、エコー信号の現在のフレーム(例えば、y(m))と推定された信号の現在のフレーム
[数17]
との差に基づいて決定され得る。一部の実施形態において、事前エラー信号e(m)は、以下の式に基づいて決定され得る。
[数21]
対角成分がxf(m)の要素である2L×2L対角行列を
[数22]
で表す。式(14)は以下のようであってもよい。
[数23]
事前エラー信号に基づいて、コスト関数J(m)は以下のように定義され得る。
[数24]
ここで、λは指数関数忘却因子である。λの値は、任意の適切な値として設定されてもよい。例えば、λの値は一定の範囲(例えば、0<λ<1)内にあってもよい。コスト関数に基づいて(例えば、コスト関数J(m)の勾配をゼロに設定することによって)、正規方程式を生成することができる。エコー消去モジュール330は、通常の機能に基づいてFLMSアルゴリズムの更新ルールを導出することができる。例えば、時間フレームm及びm−1において正規方程式を実施することによって以下の更新ルールが導出されてもよい。
[数25]
[数26]
[数27]
ここで、μはステップサイズであり、δは正則化係数であってもよく、
[数28]
である。
2L×2Lは、2L×2L次元の単位行列であり、Sf(m)は、対角成分がスピーカ501の信号x(n)507の推定パワースペクトルの要素となり得る対角行列を表していてよい。エコー消去モジュール330は、以下の式に基づいて行列S(m)を再帰的に更新することができる。
[数29]
ここで、(・)は複素共役演算子であってよい。
エコー消去モジュール330は、I2L×2L/2として
[数30]
を近似させることにより、FLMSアルゴリズムの更新バージョンを演繹することができる。エコー消去モジュール330は、適応フィルタ505を再帰的に更新することができる。例えば、適応フィルタ505は、Lサンプルごとに1回更新されてもよい。エコー消去モジュール330のようにLが大きい場合、長い遅延は、適応アルゴリズムの追従能力を低下させる可能性がある。したがって、エコー消去モジュール330において、演算の複雑さを犠牲にすることは、より高い又はより低い割合のオーバーラップを使用することによって高い追従性能を実現できるので意義のあることである。
式(16)に基づいて、FLMSアルゴリズムは、RLS(Recursive Least-Squares)基準に基づいて適合され得る。エコー消去モジュール330は、忘却因子λを調整することにより、収束率、追跡、整合不良、FLMSアルゴリズムの安定性など、又はそれらの任意の組合せを制御することができる。忘却因子λは、1つ以上の周波数ビンにおいて、個別に時間変化可能である。一部の実施形態において、忘却因子λを調整するために、式(18)におけるステップサイズμ及び正則化δを無視してもよい。忘却因子λを、以下の式(20)〜(31)を参照して説明する1つ以上の操作を実行することによって調整してもよい。一部の実施形態において、FLMSアルゴリズム(例えば、無制約FLMSアルゴリズム)の更新ルールは、以下のように決定されてもよい。
[数31]
ここで、以下の通りである。
[数32]
[数33]
事前エラーベクトルe(m)の周波数領域は、(15)を(17)に代入することによって以下のように書き直される。
[数34]
ここで、以下の通りである。
[数35]
[数36]
エコー消去モジュール330において、以下のように、事前エラーベクトルε(m)の周波数領域を決定することができる。
[数37]
エコー消去モジュール330は、式(20)を式(22)に代入し、且つ式(21)を使用して以下の式を導き出すことができる。
[数38]
近似値
[数39]
を使用することができ、
[数40]
予想関数E[ψ(m)]は、以下のように決定されてもよい。
[数41]
一部の実施形態において、忘却因子λ、及び/又は、行列Λ(m)は、以下の式が成立するように、エコー消去モジュール330によって調整されてもよい。
[数42]
このように、エコー消去モジュール330は、以下を満たすことによって
[数43]
適応フィルタのための解を得ることができる。
[数44]
エコー消去モジュール330は、式(23)を式(26)に代入することによって以下の式を導出することができる。
[数45]
ここで、
[数46]
はランダム変数aの第2モーメント、すなわち
[数47]
を表す。一部の実施形態において、事前エラー信号が入力信号と無相関であると仮定し、これに基づいて式(28)を導出することができる。式(25)に基づいて、エコー消去モジュール330は、式(28)から以下の式を導出することができる。
[数48]
一部の実施形態において、適応フィルタはある程度収束することができ、エコー消去モジュール330は、以下の近似値に基づいてFLMSアルゴリズムの可変忘却因子制御方式を構築することができる。
[数49]
可変忘却因子制御方式は、以下の式に基づいて構成することができる。
[数50]
ここで、
[数51]
は、エコー消去モジュール330によって対応する信号からそれぞれ再帰的に推定することができる。
上述の適応アルゴリズムに基づいて、適応フィルタ505の出力
[数52]
は、オーディオセンサ508の出力信号y(n)515から推定及び減算されて、音響エコー及びフィードバック消去を達成することができる。
一部の実施形態において、DTD503は、1つ以上のダブルトークの発生を検出することができる。例えば、ダブルトークは、スピーカ信号507及び出力信号515が、同時に適応フィルタ505に存在するときに発生していると判定されてもよい(例えば、x(n)≠0及びv(n)≠0)。スピーカ信号507の存在は、適応フィルタ505の性能に影響(例えば、適応アルゴリズムを分岐させる)を及ぼすおそれがある。例えば、可聴エコーは、エコー消去モジュール330を通過し、AECシステム500の出力517に現れることができる。一部の実施形態において、ダブルトークの発生を検出すると、DTD503は、適応フィルタ505においてダブルトークの存在を示す制御信号を生成することができる。制御信号は、適応フィルタ505、及び/又は、AEC330の他のコンポーネントに送信され、(例えば、適応フィルタ505の係数の更新を停止することにより)適応アルゴリズムの適応を停止又は減速させることができる。
DTD503は、ゲイゲル(Geigel)アルゴリズム、相互相関法、コヒーレンス法、2パス法等、又は、これらの任意の組合せを用いてダブルトークを検出することができる。DTD503は、スピーカ信号507と出力信号515との間の相互相関に関する情報に基づいて、ダブルトークの発生を検出することができる。一部の実施形態において、スピーカとマイク信号との間の高い相互相関は、ダブルトークの不在を示すことができる。スピーカ信号507と出力信号515との間の低い相互相関は、ダブルトークの発生を示すことができる。一部の実施形態において、スピーカ信号とマイク信号との間の相互相関は、1つ以上の検出統計を使用して表すことができる。相互相関は、相関関係を表す1つ以上の検出統計が閾値以上である場合に、高い相関であるとみなされてもよい。同様に、相互相関は、相関関係を表す1つ以上の検出統計が所定の閾値以下である場合に、高い相関であるとみなされてもよい。DTD503は、適応フィルタ505の係数(例えば、
[数53]
)、スピーカ信号501、マイク信号515、エラー信号e、及び/又は、スピーカ信号507と出力信号515とのコヒーレンス、及び/又は、相互相関の決定に用いられる他の情報に基づいて、1つ以上の検出統計値を決定することにより、スピーカ信号と出力信号との関係を決定することができる。一部の実施形態において、DTD503は、検出統計を所定の閾値と比較することによってダブルトークの発生を検出することができる。
ダブルトークの発生を検出すると、DTD503は、制御信号を生成して、適応フィルタ505を一定期間無効又は停止させることができる。ダブルトークが発生していない、及び/又は、所定の時間間隔にダブルトークが発生しなかったと判定されると、DTD503は、適応フィルタ505を有効にする制御信号を生成することができる。
一部の実施形態において、DTD503は、相互相関又はコヒーレンス的な統計(coherence-like statistics)に基づいてダブルトーク検出を実行することができる。決定統計は、例えば、1を上限値にすることにより、さらに正規化することができる。一部の実施形態において、ダブルトーク検出に用いられる閾値が決定されている場合に、音響経路の変形例は考慮されてもよく、考慮されなくてもよい。
一部の実施形態において、周波数領域において、1つ以上の検出統計を導出することができる。一部の実施形態において、スピーカ信号507と出力信号515との相関関係を表す1つ以上の検出統計は、周波数領域において、例えば、DTD503によって決定されてもよい。
例えば、DTD503は、擬似コヒーレンスに基づくDTD(PC−DTD)技術に基づいて、1つ以上の検出統計を判定し、及び/又は、ダブルトーク検出を行うことができる。PC−DTDは、以下のように定義可能な擬似コヒーレンス(PC)ベクトル
[数54]
に基づいたものであってよい。
[数55]
ここで、以下の通りである。
[数56]
[数57]
[数58]
[数59]
エコー消去モジュール330は、近似値
[数60]
を用いてФf,xxを算出することができる。上記演算は、忘却因子λ(本明細書では「バックグラウンド忘却因子」とも呼ばれる)を調整することによって、式(19)と同様の再帰的推定スキームで簡略化することができる。バックグラウンド忘却因子λは、上述した忘却因子λ(本明細書では「フォアグラウンド忘却因子」とも呼ばれる)と同じであってもよく、同じでなくてもよい。DTD503は、近端スピーチの開始に応答して、分岐が開始する前に適応フィルタに警告することができる。推定量は、以下の式に基づいて決定されてもよい。
[数61]
[数62]
[数63]
一部の実施形態において、Фf,xx(m)は近似値
[数60]
によって(19)で定義されたS(m)と若干異なってもよい。Фf,xx(m)は対角行列であってもよいため、その逆数が簡単に決定され得る。
検出統計は、PCベクトルに基づいて決定され得る。例えば、検出統計量は、以下の式に基づいて決定されてもよい。
[数64]
一部の実施形態において、DTD503は、検出統計(例えば、ξの値又は他の検出統計)を所定の閾値と比較し、比較の結果に基づいてダブルトークの発生を検出することができる。例えば、DTD503は、検出統計が所定の閾値以下であると判定した場合、ダブルトークが存在すると判定することができる。別の例として、DTD503は、検出統計値が所定の閾値よりも大きいと判定した場合に、ダブルトークが存在しないと判定することができる。例えば、以下のように決定することができる。
[数65]
ここで、パラメータTは、所定の閾値であってもよい。パラメータTは、任意の適切な値を有してもよい。一部の実施形態において、Tの値はある範囲(例えば、0<T<1,0.75≦T≦0.98など)であってもよい。
別の例として、DTD503は、2フィルタ構造を用いてダブルトーク検出を行うこともできる。式(32)から、時間フレームmにおける決定統計量ξ(m)の2乗は、次のように書き直されてもよい。
[数66]
ここで、(・)は1つ以上の行列又はベクトルのエルミート転置を表してもよい。
[数67]
上記式は、等価「バックグラウンド」フィルタと定義することができる。適応フィルタ505は、以下のように更新することができる。
[数68]
[数69]
方程式(33)〜(35)に示されるように、単極回帰平均は、遠くの過去よりも近くの過去に重く重み付けすることができる。対応するインパルス応答は、
[数70]
(n>0)として減衰する。λの値は、追従能力、推定分散、及び/又は、他の因子に基づいて決定されてもよい。λの値は、固定値(例えば、定数)、変数(例えば、後述する再帰技法を用いて決定される値)などであってもよい。一部の実施形態において、λの値は、0<λ<1を満たすように選択することができる。一部の実施形態において、λが減少すると、推定量の変化に追従する能力は向上するが、推定値の分散を高めることになり得る。PC−DTDの場合、λは次のようにして求めることができる。
[数71]
ここでρはオーバーラップの割合であり、fはサンプリング率であり、 tc,bは再帰性平均化の時定数であってもよい。一部の実施形態において、DTD503は、ローカルスピーチv(n)511の1つ以上のバーストのアタック端(例えば、ダブルトークの発生)を捕捉することができる。λの値は、追従能力と推定分散との釣り合いを考慮して選択することができる。例えば、λに小さな値を割り当てて、ローカルスピーチにおける1つ以上のバーストのアタック端を捕捉してもよい。しかし、λが小さすぎると、決定統計量推定値ξが閾値を超えて変動し、ダブルトークが継続し、誤検出を招く虞がある。
一部の実施形態において、現在のフレームに対応する忘却因子λの値は、1つ以上の前のフレーム中のダブルトークの有無に基づいて変化することができる。例えば、λの値は、再帰技法(例えば、両側単極再帰技法)を使用して決定することができる。エコー消去モジュール330は、以下のように式(42)のルールによってtc,bを管理することができる。
[数72]
ここで、tc,b,attackは、本明細書では「アタック」係数と称する係数であってもよく、tc,b,decayは、本明細書では「減衰」係数と称する係数であってもよい。一部の実施形態において、「アタック」係数および「減衰」係数は、不等式tc,b,attack<t<tc,b,decayを満たすように選択することができる。例えば、エコー消去モジュール330は、tc,b,attack=300ms、及び、tc,b,decay=500msとなるように選択することができる。一部の実施形態において、前のフレームでダブルトークが検出されなかった場合、小さいtc,b及び小さいλを使用することができる。あるいは、前のフレームが既にダブルトークの一部である(例えば、前のフレームに関してダブルトークの発生が検出された)場合、大きいλbを選択することができ、ダブルトークは、スピーチの性質上しばらく継続する可能性がある。これによりξの変化が円滑化され、検出漏れの防止が可能となる。さらに、この状況におけるより大きいλbは、(例えば、「フォアグラウンド」フィルタの場合のように)バックグラウンドフィルタを完全に停止するのではなく、更新を遅くする。
図6は本発明の実施形態におけるAECシステムの一例600を示す図である。
図示のように、AEC600は、スピーカ601a〜z、1つ以上のDTD603、適応フィルタ605a〜z、1つ以上の結合器606、608、オーディオセンサ619a、619z、及び/又は、音響エコー消去を実行するための他の適切なコンポーネントを含む。AEC600は、また普遍性を損なうことなく多少のコンポーネントを含んでいてもよい。例えば、2つのモジュールを1つのモジュールに統合してもよく、1つのモジュールを2つ以上のモジュールに分割してもよい。一例において、1つ以上のモジュールが、複数の演算装置(例えば、異なるサーバコンピュータ)に存在してもよい。
一部の実施形態において、AEC600の1つ以上のコンポーネントが、図3のエコー消去モジュール330に含まれてもよい。例えば、図6に示すように、エコー消去モジュール330は、DTD603、適応フィルタ605a〜z、結合器606、及び、結合器608を含むことができる。一部の実施形態において、図6のDTD603は図5のDTD503と同じであってもよい。
各スピーカ601a〜zは、オーディオ信号を対応する音に変換することができる装置であってもよく、及び/又は、そのような装置を含んでいてもよい。各スピーカ601a〜zは、スタンドアローン型の装置であってもよく、又は、1つ以上の他の装置と一体化されてもよい。例えば、各スピーカ601a〜zは、自動車オーディオシステムの内蔵型スピーカ、携帯電話と一体化されたスピーカなどであってもよい。スピーカ、オーディオセンサ、適応フィルタなどが幾つか図6に示されているが、これは例示に過ぎない。スピーカ、オーディオセンサ、適応フィルタなどは、任意の数をAEC600に設けることができる。
スピーカ601a、b、及び、zはそれぞれ、スピーカ信号607a、b、及び、zを出力することができる。スピーカ信号607a〜zは、それぞれ対応する音響経路(例えば、音響経路619a〜z)を通過し、エコー信号609を生成することができる。エコー信号609は、ローカルスピーチ信号511と共に、オーディオセンサ603a、及び/又は、603bによって捕捉され、ローカルノイズ信号513、及び/又は、他の信号は、オーディオセンサ619a〜zによって捕捉されることができる。
各オーディオセンサ619a〜zは、出力信号615を出力してもよい。エコー消去モジュール330は、適応フィルタ605a、605b、及び、605zを使用して音響経路619a〜zをモデル化することによりエコー信号609を推定してもよい。適応フィルタ605a〜zは、エコー信号609を生成するための有限インパルス応答(FIR)を有するフィルタであってもよく、及び/又は、それを含んでいてもよい。次いで、エコー消去モジュール330は、適応アルゴリズムを使用してフィルタを推定することができる。
適応フィルタ605a〜zはそれぞれ、スピーカ信号607a〜zを受信することができる。各適応フィルタは、スピーカ信号の1つに対応する推定エコー信号を生成して出力することができる。適応フィルタ605a〜zの出力は、スピーカ信号607a〜zに対応する推定エコー信号を表すことができる。結合器606は、出力を組み合わせて、エコー信号609(例えば、信号
[数52]
)の推定値を表す信号を生成することができる。
一部の実施形態において、スピーカ信号607a〜zが適応フィルタ605a〜zに供給される前に、1つ以上のスピーカ信号に対して変換を行い、スピーカ信号の相関を低減することができる。例えば、変換はゼロメモリ非線形変換を含むことができる。より具体的には、例えば、スピーカ信号に半波整流バージョンのスピーカ信号を追加することにより、及び/又は、非線形性を制御するスケール因子を適用することによって、変換を実行することができる。一部の実施形態において、変換は、式(48)に基づいて実行されてもよい。別の例において、変換は、1つ以上のスピーカ信号に相関のないノイズ(例えば、ホワイトガウスノイズ、シュレーダーノイズなど)を加えることによって実行されてもよい。更に別の例において、複数の時変オールパスフィルタを1つ以上のスピーカ信号に適用することができる。
一部の実施形態において、各スピーカ信号607a〜zに対して変換を行い、対応する変換されたスピーカ信号を生成することができる。適応フィルタ605a〜zは、拡声器信号607a〜zに対応する変換されたスピーカ信号を処理して、エコー信号609の推定値を生成することができる。
結合器608は、推定エコー信号
[数52]
と出力信号615とを合成することにより、エコー消去済み信号617を生成することができる。例えば、エコー消去済み信号617は、出力信号615から推定エコー信号を減じて生成することにより、エコー、及び/又は、フィードバック消去を達成することができる。
図6に示されるように、オーディオセンサ619a〜zの1つによって捕捉された音響エコーye(n)609は、対応する音響経路619a〜zからの異なっているが相関性の高いK個の(K≧2)スピーカ信号607a〜zに起因することもある。オーディオセンサ619aの出力信号615は、真の音響インパルス応答に基づいてモデル化することができ、エコー信号609、スピーチ信号511、ローカルノイズ信号513等に対応する1つ以上の成分を含むことができる。例えば、オーディオセンサの出力信号615は、以下のようにモデル化することができる。
[数73]
ここで、エコー消去モジュール330における定義は、以下のようにすることができる。
[数74]
[数75]
式(43)において、x(n)はスピーカ信号607a〜zに対応し、w(n)は、ローカルスピーチ信号511とローカルノイズ信号513との和に対応する。
エコー消去モジュール330は、ベクトルx(n)及びh(n)のスタックを次のように定義することができる。
[数76]
[数77]
式(43)は以下のようであってもよい。
y(n)=x (n)・h+w(n), (44)
x(n)とhの長さはKLとすることができる。一部の実施形態において、事後エラー信号ε(n)及びその関連コスト関数Jは、以下のように定義することができる。
[数78]
[数79]
コスト関数を最小化することにより、エコー消去モジュール330は、以下のように、ウィナー(Winer)フィルタを演繹することができる。
[数80]
ここで、以下の通りである。
[数81]
[数82]
マルチスピーカAECシステム600では、スピーカ信号607a〜zを相関させることができる。一部の実施形態において、単一スピーカのために開発される適応アルゴリズムは、マルチスピーカエコー消去に直接適用されない。これは、事後誤差ε(n)をある値に駆動しながら、所望のフィルタ[例えば、
[数83]

を得ることができないためである。例えば、この値は0であってもよい。
この問題を解決するにあたって、複数のスピーカ信号x(n)507の相関をある程度低減することが課題となる。ある程度とは、適応アルゴリズムを適切なフィルタに収束させるのに十分でありつつ、知覚的に無視できるぐらいに低くなる程度であればよい。一部の実施形態において、エコー消去モジュール330は、スピーカ信号に半波整流バージョンのスピーカ信号を加えることができる。スピーカ信号は、非線形性を制御するために定数αによって調整することもできる。一部の実施形態において、変換は以下の式に基づいて実行されてもよい。
[数84]
適応フィルタ605a〜zは、スピーカ601a〜zに対応させることができる。一部の実施形態において、適応フィルタ605a〜zの数、及び、スピーカ601a〜zの数は同じであってもよく、異なっていてもよい。適応フィルタ605a〜zを推定し、推定された適応フィルタ605a〜zの和をオーディオセンサ619aの出力信号615から減じることにより、音響エコー、及び/又は、フィードバック消去を達成することができる。
図7は、本発明の実施形態におけるオーディオ信号の処理の一例700を示すフローチャートである。一部の実施形態において、方法700の1つ以上の動作は、1つ以上のプロセッサ(例えば、図1〜6を参照して説明する1つ以上のプロセッサ120)によって実行することができる。
図示されるように、701における1つ以上のオーディオチャネルに対応する1つ以上のマイクサブアレイによって生成される1つ以上のオーディオ信号を受信することによって処理700を開始することができる。各オーディオ信号は、スピーチ成分、ローカルノイズ成分、及び、1つ以上のスピーカ信号等、又は、それらの任意の組み合わせに対応するエコー成分を含むことができるが、これに限定されない。一部の実施形態において、本開示におけるセンササブアレイは、MEMSマイクサブアレイであってもよい。一部の実施形態において、マイクサブアレイは、図2A〜Bを参照して説明するように配置することができる。
処理700のステップ703において、オーディオ信号に対して空間フィルタを実行することによって、1つ以上の空間フィルタ済み信号を生成することができる。一部の実施形態において、図3〜4を参照して説明する空間フィルタモジュール320によって空間フィルタの1つ以上の操作を実行することができる。
一部の実施形態において、空間フィルタ済み信号はマイクサブアレイによって生成されるオーディオ信号に対して空間フィルタを実行することによって生成されてもよい。例えば、空間フィルタ済み信号が、受信される各オーディオ信号に対して生成されてもよい。これに代わり、またはこれに加えて、空間フィルタ済み信号は、複数のマイクサブアレイによって生成される複数のオーディオ信号の組み合わせに対して空間フィルタを実行することによって生成することもできる。
適切な操作によって、空間フィルタ済み信号を生成することができる。例えば、空間フィルタ済み信号は、1つ以上のビームフォーマを使用して1つ以上のオーディオ信号に対してビームフォーミングを行うことによって生成されてもよい。一部の実施形態において、ビームフォーミングは、上記の図3〜図4を参照して説明するように1つ以上のビームフォーマによって実行することができる。別の例として、空間フィルタ済み信号は、(例えば、出力信号にローパスフィルタを適用することによって)一又は複数のビームフォーマの出力信号をイコライジングすることによって生成することができる。一部の実施形態において、均等化は、上記の図3〜図4を参照して説明するような1つ以上のローパスフィルタによって実行することができる。空間フィルタは、以下に図8を参照して説明する1つ以上の操作によって実行されてもよい。
処理700のステップ705において、空間フィルタ済み信号に対してエコー消去を行い、1つ以上のエコー消去済み信号を生成することができる。例えば、空間フィルタ済み信号のエコー成分を推定し、空間フィルタ済み信号から推定されたエコー成分を減算することによって、空間フィルタ済み信号に対してエコー消去を実行することができる。エコー成分は、1つ以上のスピーカによって生成される1つ以上のスピーカ信号に対応するものであってもよい。エコー成分は、エコー成分が生成される音響経路をモデル化する適応フィルタに基づいて推定されてもよい。
一部の実施形態において、エコー消去は、図3、図5、及び図6を参照して説明するエコー消去モジュールによって実行することができる。オーディオ信号のエコー、及び、フィードバック消去に使用されるアルゴリズムは、NLMS(Normalized Least Mean Square)、アフィン射影(AP)、BLMS(Block Least Mean Square)、及び、FLMS(Frequency-Domain Least Mean Square)アルゴリズム等、又は、これらの組み合わせを含んでいてもよいが、これらに限定されない。一部の実施形態において、エコー消去は、以下の図9を参照して説明する1つ以上の操作によって実行されてもよい。
処理700のステップ707において、1つ以上のオーディオチャネルを選択することができる。この選択は、図3に示すノイズリダクションモジュール340(例えば、チャネル選択部342)によって決定されてもよい。一部の実施形態において、上記選択には、オーディオ信号の1つ以上の特性に基づいて、統計又はクラスタアルゴリズムを使用するものであってもよい。一部の実施形態において、複数のオーディオチャネルを介して提供される複数のオーディオ信号の品質に基づいて、1つ以上のオーディオチャネルを選択することができる。例えば、1つ以上のオーディオチャネルは、複数のオーディオチャネルによって提供される複数のオーディオ信号の信号対雑音比(SNR)に基づいて選択されてもよい。より詳細には、例えば、チャネル選択部342は、最高SNR、最上位3つのSNR、閾値より高いSNRなど、特定の品質(例えば、特定のSNR)に関連する1つ以上のオーディオチャネルを選択することができる。一部の実施形態において、選択は、ユーザ設定、適応的計算等、又は、それらの任意の組み合わせに基づいて決定されてもよい。一部の実施形態において、処理700からステップ707を省略することができる。これに代わり、またはこれに加えて、一部の実施形態において、全部のオーディオチャネルを選択することができる。
処理700のステップ709において、選択された一又は複数のオーディオチャネルに対応する複数のエコー消去済み信号に対してノイズリダクションを行い、1つ以上のノイズ消去済み信号を生成することができる。各ノイズ消去済み信号は、所望のスピーチ信号に対応させることができる。一部の実施形態において、ノイズリダクションは、図3に示すノイズリダクションモジュール340によって実行されてもよい。例えば、MCNR部344は、1つ以上のノイズリダクションフィルタを構築することができ、一又は複数のノイズリダクションフィルタを複数のエコー消去済み信号に適用することができる。一部の実施形態において、ノイズリダクションは、以下図10を参照して説明する1つ以上の操作によって実行されてもよい。
処理700のステップ711において、一又は複数のノイズ低減済み信号に対してノイズ、及び/又は、エコー抑制を実行して、スピーチ信号を生成することができる。一部の実施形態において、ノイズリダクションモジュール340の残留ノイズ及びエコー抑制部346によって、残留ノイズ及びエコー抑制を実行することができる。例えば、残留ノイズ及びエコー抑制部346は、MCNR部344に除去されない残留ノイズ、及び/又は、エコーを抑制することができる。
処理700のステップ713において、音声信号を出力することができる。音声信号は、更に処理され様々な機能を提供することができる。例えば、前記構成は、スピーチ信号を解析することにより(例えば、1つ以上の適切な音声認識技術、及び/又は、その他の任意の信号処理技術を使用して)、スピーチ信号の内容を判断してもよい。次に、処理700及び/又は他のプロセスによるスピーチ信号の解析された内容に基づいて、1つ以上の操作を実行することができる。例えば、前記構成は、解析された内容に基づいてメディアコンテンツ(例えば、オーディオコンテンツ、ビデオコンテンツ、画像、グラフィックス、テキスト等)を提示することができる。より具体的には、例えば、メディアコンテンツは、地図、ウェブコンテンツ、ナビゲーション情報、ニュース、オーディオクリップ、及び/又は、スピーチ信号の内容に関連する他の情報に関連するものであってよい。別の例としては、ユーザが電話をかけることができる。更に別の例において、スピーチ信号に基づいて1つ以上のメッセージの送受信等を行うことができる。更に別の例では、例えば、検索を実行することができるサーバに要求を送信することにより、解析されたコンテンツの検索を行ってもよい。
図8は本発明の実施形態の空間フィルタ処理の例800を示すフローチャートである。一部の実施形態において、処理800は、図1〜4を参照して説明するように、空間フィルタモジュール320を実行する1つ以上のプロセッサによって実行されてもよい。
処理800のステップ801において、オーディオセンサのサブアレイの第1オーディオセンサによって捕捉された音響入力を表す第1オーディオ信号を受信することができる。音響入力は、ユーザの音声、及び/又は、1つ以上の音源からの任意の入力に対応していてもよい。処理800のステップ803において、サブアレイの第2オーディオセンサによって捕捉された音響入力を表す第2オーディオ信号を受信することができる。一部の実施形態において、第1オーディオ信号及び第2オーディオ信号は、同じであってもよく、異なっていてもよい。第1オーディオ信号及び第2オーディオ信号は、同時に、略同時に、及び/又は、他の様式で受信されてもよい。各第1オーディオセンサ及び第2オーディオセンサは、図1を参照して説明するシステム100のオーディオセンサ110など、任意の適切なオーディオセンサであってもよく、及び/又は、これを含んでいてもよい。第1オーディオセンサ及び第2オーディオセンサは、図2A、図2B及び図4を参照して説明するマイクサブアレイが形成されるように配置されてもよい。
処理800のステップ805において、第2オーディオ信号に時間遅延を適用することによって遅延オーディオ信号を生成することができる。一部の実施形態において、遅延オーディオ信号は、図3に示すように空間フィルタモジュール320の一又は複数のビームフォーマ322(例えば、図4に示す遅延モジュール430)によって生成されてもよい。一部の実施形態において、時間遅延は、第1オーディオセンサと第2オーディオセンサとの距離に基づいて決定され適用されてもよい。例えば、時間遅延は、方程式(2.1)、及び/又は、方程式(2.2)に基づいて計算することができる。
処理800のステップ807において、第1オーディオ信号と遅延オーディオ信号とを組み合わせて、合成信号を生成することができる。一部の実施形態において、合成信号は、図3に示されるように空間フィルタモジュール320の一又は複数のビームフォーマ322(例えば、図4に示される結合モジュール440)によって生成されてもよい。合成信号は、方程式(1)、及び/又は、(2)を使用して表すことができる。
処理800のステップ809において、合成信号を均等化することができる。例えば、プロセス800は、合成信号にローパスフィルタ(例えば、図3の一又は複数のローパスフィルタ324)を適用することによって、合成信号を均等化することができる。
処理800のステップ811において、オーディオセンサのサブアレイの出力として均等化信号を出力することができる。
図9は本発明の実施形態のエコー消去処理の例900を示すフローチャートである。一部の実施形態において、処理900は、図3のエコー消去モジュール330を実行する1つ以上のプロセッサによって実行され得る。
処理900のステップ901において、スピーチ成分及びエコー成分を含むオーディオ信号を受信することができる。オーディオ信号は、オーディオセンサに捕捉され得る他の成分を含んでいてもよい。一部の実施形態において、エコー成分及びスピーチ成分は、上記の図5を参照して説明するように、エコー信号509及びローカルスピーチ信号511に対応させることができる。
処理900のステップ903において、エコー成分が生成される基準オーディオ信号を取得することができる。一部の実施形態において、基準オーディオ信号は、図5〜図6を参照して上述した1つ以上のスピーカ信号であってもよく、及び/又は、これを含んでいてもよい。これに代わり、またはこれに加えて、基準オーディオ信号は、一又は複数のスピーカ信号に基づいて生成された1つ以上の信号を含んでいてもよい。例えば、基準オーディオ信号は、スピーカ信号に基づいて(例えば、式(48)に基づいて)生成される変換信号を含んでいてもよい。
処理900のステップ905において、エコー成分が生成される音響経路を表すモデルを構築することができる。例えば、音響経路は、1つ以上の適応フィルタを使用して構築することができる。一部の実施形態において、1つ以上の音響経路を表す1つ以上のモデルが存在し得る。音響経路モデルは、適応音響経路モデル、オープン音響経路モデル、線形音響経路モデル、非線形音響経路モデル等、又は、それらの組み合わせとすることができる。一部の実施形態において、上記モデルは、方程式(5)〜(48)の1つ以上に基づいて構築されてもよい。
処理900のステップ907において、モデル及び基準オーディオ信号に基づいて推定エコー信号を生成することができる。例えば、推定エコー信号は、結合器606において構築された適応フィルタの出力信号であってもよく、及び/又は、これを含んでいてもよい。一部の実施形態において、図6を参照して説明するように、推定エコー信号は、複数の適応フィルタによって生成された複数の出力の組み合わせであってもよい。
処理900のステップ909において、推定エコー信号とオーディオ信号とを組み合わせることによってエコー消去済み信号を生成することができる。例えば、エコー消去済み信号は、オーディオ信号から推定エコー信号を減ずることによって生成することができる。
図10は本発明の実施形態のマルチチャネルノイズリダクション処理の例1000を示すフローチャートである。一部の実施形態において、処理1000は、図3のノイズリダクションモジュール340を実行する1つ以上のプロセッサによって実行されてもよい。
処理1000のステップ1001において、複数のオーディオセンサによって生成された複数の入力信号を受信することができる。オーディオセンサは、アレイ(例えば、線形アレイ、差動アレイなど)を形成することができる。各オーディオ信号は、スピーチ成分、ノイズ成分、及び/又は、他の成分を含んでもよい。スピーチ成分は、所望のスピーチ信号(例えば、ユーザの音声を表す信号)に対応させることができる。スピーチ成分は、未知のソースからのチャネルインパルス応答に基づいてモデル化することができる。ノイズ成分は、顕著なノイズ、及び/又は、他の種類のノイズに対応し得る。一部の実施形態において、複数の入力信号は、複数のオーディオセンサの出力信号であってもよく、及び/又は、これを含んでいてもよい。或いは、複数の入力信号は、図3の空間フィルタモジュール320、図3のエコー消去モジュール330、及び/又は、他の装置によって生成された複数の信号であってもよく、及び/又は、これを含んでいてもよい。
一部の実施形態において、複数の出力信号は、アレイ(例えばP個のオーディオセンサ)を形成する特定の数のオーディオセンサによって生成されてもよい。処理1000は、以下のように複数のオーディオセンサの出力信号をモデル化することができる。
(n)=g・s(n)+v(n) (49)
=x(n)+v(n), p=1,2,... P, (50)
ここで、pはオーディオセンサのインデックスであり、gは、未知のソースs(n)からp番目のオーディオセンサまでのチャネルインパルス応答であり、v(n)は、オーディオセンサpのノイズであってもよい。一部の実施形態において、フロントエンドは、差動オーディオセンサのサブアレイを含んでもよい。チャネルインパルス応答は、室内インパルス応答及び差動アレイのビームパターンの両方を含んでよい。信号x(n)及びv(n)は、無相関及びゼロ平均であってもよい。
一部の実施形態において、第1オーディオセンサは、最も高いSNRを有することができる。例えば、処理1000では、SNRによって複数の出力信号をランク付けし、それに応じてこれら出力信号を再インデックスすることができる。
一部の実施形態において、MCNR部は、時間領域または空間領域からの1つ以上の出力信号を周波数領域に、又は、その逆に変換することができる。例えば、各オーディオ信号に対して時間−周波数変換を行うことができる。時間−周波数変換は、例えば、高速フーリエ変換、ウェーブレット変換、ラプラス変換、Z変換など、又は、それらの任意の組合せであってもよく、及び/又は、それらを含んでいてもよい。FFTは、素因数(Prime-factor)FFTアルゴリズム、ブルーン(Bruun)FFTアルゴリズム、レーダー(Rader)FFTアルゴリズム、ブルーステイン(Bluestein)FFTアルゴリズムなどを含んでよいが、これらに限定されない。
例えば、処理1000では、短時間フーリエ変換(STFT)を用いて、式(49)を周波数領域に変換し、以下の式を生成することができる。
(jω)=G(jω)・s(jω)+V(jω) (51)
=X (jω)+V (jω), p=1,2,…P, (52)
ここで、
[数85]
ωは、角周波数、Y(jω)、S(jω)、G(jω)、又は、X(jω)=G(jω)・S(jω)であってもよく、V(jω)は、y(n)、s(n)、g、x(n)、又は、vp(n)の短時間フーリエ変換であってもよい。
処理1000のステップ1003において、入力オーディオ信号に対するスピーチ信号の推定を決定することができる。例えば、推定は、複数の入力信号に対する1つ以上のパワースペクトル密度(PSD)行列を決定することによって実行されてもよい。より具体的には、例えば、任意の入力信号(例えば、p番目の入力オーディオ信号)y (n)のPSDは、以下のように決定され得る。
[数86]
ここで、
[数87]
は、2つの信号a(n)とb(n)との間のクロススペクトルであってもよく、φaa(ω)、及び、φbb(ω)は、それぞれのPSDであってもよく、E{・}は、数学的予測値を表してもよく、(・)は、複素共役を表してもよい。時系列解析では、クロススペクトルは、2つの時系列間の相互相関又は相互共分散の周波数領域分析の一部として使用されてもよい。
一部の実施形態において、処理1000では、以下のようにP個のオーディオセンサ信号からX(jω)の線形推定値を得ることができる。
[数88]
ここで、以下の通りである。
[数89]
[数90]
一部の実施形態において、処理1000では、y(jω)と同様にv(jω)を定義することができ、
[数91]
は、決定されるP非因果性フィルタを含むベクトルであってもよい。z(n)のPSDは、次のように求められる。
φzz (ω)=h(jω)・Фxx(jω)・h(ω)+h(jω)・Фvv (jω)・h(ω) (57)
ここで、以下の通りである。
[数92]
[数93]
それぞれ信号xp(n)およびvp(n)のPSD行列とすることができる。行列Фxx(jω)の階数は1に等しい。
処理1000のステップ1005において、スピーチ成分の推定値に基づいて1つ以上のノイズリダクションフィルタを構築することができる。例えば、スピーチ成分の推定値、複数のスピーチ成分の1つ以上のPSD行列、複数の入力信号のノイズ成分、及び/又は、その他の情報に基づいて、ウィナーフィルタを構築することができる。
より詳細には、例えば、処理1000では、スピーチ成分及び対応する線形推定値に基づいてエラー信号を生成することができる。一部の実施形態において、処理1000では、以下の式に基づいてエラー信号を生成してもよい。
[数94]
ここで、
[数95]
は、長さPのベクトルであってよい。対応する平均二乗誤差(MSE)は、以下のように表されてもよい。
[数96]
推定量のMSEは、「誤差」の平方平均、即ち、推定量と推定されたものとの差を測定することができる。
処理1000では、以下のようにMSEを最小にすることによってウィナー解h(jω)を導き出すことができる。
(jω)=arg minh(jω) J[h(jω)].(62)
式(62)の解は次のように表されてもよい。
[数97]
ここで、以下の通りである。
[数98]
[数99]
処理1000では、ウッドベリーの同一性(Woodbury’s identity)を以下のように使用することによって式(64)からФyy(jω)の逆数を求めることができる。
[数100]
ここで、tr[・]は行列のトレースを表すことができる。ウッドベリーの同一性を使用することによって、元の行列の逆数に対する階数k補正を行うことで、ある行列の階数k補正の逆数を計算することができる。処理1000では、式(65)を式(63)に代入して、以下のようなウィナーフィルタの他の公式を得ることができる
[数101]
一部の実施形態において、処理1000では、単極再帰技法を使用して、Фyy(jω)及びФvv(jω)の推定値を更新することができる。Фyy(jω)及びФvv(jω)の推定値のそれぞれは、無音期間中連続的に、及び/又は、その他の様式で更新され得る。
別の例として、処理1000では、最小分散無歪応答(MVDR)の手法を使用してマルチチャネルノイズリダクション(MCNR)フィルタを構築することができる。構築されたフィルタは、本明細書では「MVDRフィルタ」とも称す。MVDRフィルタは、式(56)に基づいて設計されてもよい。MVDRフィルタは、所望のスピーチ信号を歪ませることなく、MCNR出力のノイズレベルを最小化するように構築できる。MCNRは、以下のように定義された制約付き最適化問題を解決することによって構築できる。
[数102]
(jω)・g(jω)=G(jω)となる。 (68)
ラグランジュ(Lagrange)の未定乗数法を用いて、式(68)を解き、且つ以下の式を構築してもよい。
[数103]
一部の実施形態において、式(68)に対する解は、以下の通りである。
[数104]
処理1000では、式(66)及び(70)を比較して以下を得ることができる。
(jω)=hMVDR (jω)・H′(ω), (72)
ここで、以下の通りである。
[数105]
式(70)に基づいて、MVDRフィルタは、以下に基づいて構築できる。
[数106]
式(74)は、MVDRフィルタを使用してMCNRを適用した後の単一チャネルノイズリダクション(SCNR)用のウィナーフィルタを表すことができる。
処理1000のステップ1007において、一又は複数のノイズリダクションフィルタに基づいてノイズ低減済み信号を生成することができる。例えば、処理1000では、一又は複数のノイズリダクションフィルタを複数の入力信号に適用することができる。
図7〜図10のフローチャートの上記ステップは、当該フローチャートに示され記載された順序及びシーケンスに限定されない任意の順序又はシーケンスで実行又は行うことが可能であることに留意されたい。また、図7〜図10のフローチャートの上記ステップの一部は、待ち時間及び処理時間短縮のために、適切に並列に、又は、略同時に実行され得る。さらに、図7〜図10は単なる例示であることに留意されたい。これらの図に示されたステップの少なくとも一部は、示された順序と異なる順序で実行されてもよく、同時に実行されてもよく、または完全に省略されてもよい。例えば、ステップ705を実行することなくステップ709が実行されてもよい。別の例として、ステップ707、709、711は、1つ以上のセンササブアレイを使用して複数のオーディオ信号を受信した後に実行することができる。
図11は、本発明の一部の実施形態による織物構造体の実施例1110、1120、及び1130を示す。一部の実施形態において、織物構造体1110、1120、及び1130のそれぞれは、ウェアラブル装置の一部であってもよい。これに代わり、またはこれに加えて、織物構造体1110、1120、及び1130のそれぞれは、個々のウェアラブル装置に用いられてもよい。一部の実施形態において、上記の図2Aに関連して説明したように、各織物構造体は織物構造体の層に含まれてもよい。
図に示されるように、織物構造体1110、1120、及び1130は、1つ以上の通路1101a、1101b、1101c、1101d及び1101eを含んでいてもよい。各通路1101a〜1101eの一部分以上は、中空であってもよい。通路1101bと1101cとは、互いに平行であってもよく、平行でなくてもよい。同様に、通路1101dは、通路1101eと平行であってもよく、平行でなくてもよい。通路1101a、1101b、1101c、1101d、及び1101eは、同じ構造であってもなくてもよい。
織物構造体1110、1120、及び1130は、音声通信システム(例えば、音声通信システム1105a、1105b、1105c等)が存在し得る1つ以上の領域(例えば、1103a、1103b、1103c等)を含んでもよい。各領域は、その領域内に音の通過を可能にする部分を含んでおり、配置されるオーディオセンサに音が到達するようにしてもよい。音が通過する部分は貫通孔であってもよい。音が通過する前記領域の形状は、高密度に配置された多孔形状、円、多角形、オーディオセンサの寸法に基づいて決定された形状など、又はこれらの任意の組合わせを含んでよいが、これらに限定されない。
1つ以上の領域及び1つ以上の通路は、任意の適切な方法で織物構造体に配置されてもよい。例えば、前記領域、及び/又は、前記領域の一部分以上(例えば、領域1103a、1103b、1103c)は、前記通路の一部(例えば、通路1101a、1101b、1101d)であってもよい。別の例として、前記領域は前記通路の一部でなくてもよい。より具体的には、例えば、前記領域は、織物構造体の表面と前記通路との間に配置されてもよい。一部の実施形態において、一又は複数のセンサ、及び/又は、一又は複数のセンサに関連する回路の一部が織物構造体から突出することのないように、1つ以上のセンサが前記領域、及び/又は、通路に埋め込まれていてよい。
各領域の形状は、高密度に配置された多孔形状、円、多角形など、又はそれらの任意の組み合わせを含んでよいが、これらに限定されない。一部の実施形態において、前記領域の形状は、領域に配置される音声通信システムの寸法に基づいて決定、及び/又は、製造されればよい。各領域の製造方法として、レーザー切断、一体成形など、又は、これらの組合せがあるが、これらに限定されない。
通路1101a〜eの空間構造の例としては、直方体、円柱、楕円体等、又は、それらの組み合わせがあるが、これらに限定されない。織物構造体を製造する材料は、帯紐、ナイロン、ポリエステル繊維など、又はそれらの組み合わせがあるが、これらに限定されない。
一部の実施形態において、各音声通信システム1105a、1105b、及び1105cは、1つ以上のセンサ(例えば、オーディオセンサ)、センサに関連する回路、及び/又は、適切なコンポーネントを含むことができる。例えば、各音声通信システム1105a、1105b、1105cは、1つ以上の音声通信システム1200、及び/又は、図12の音声通信システム1200の一部分以上を含むことができる。音声通信システム1200は、通路1101a〜eの一面に固定されてよい。したがって、音声通信システム1200は、通路の表面に堅固に固定されてよい。音声通信システム1200と通路表面とを接続する方法は、高温懸濁物質の加熱処理、固着、一体成形、固定ネジ等、又は、これらの組み合わせがあるが、これらに限定されない。
図12は、本発明の実施形態における音声通信システムの例1200を示す。音声通信システム1200は、1つ以上のオーディオセンサ1201a〜c、筐体1203a〜c、はんだドット1205、コネクタ1207a〜b、電気コンデンサ1209、及び/又は、音声通信システムを実装するための他の適切なコンポーネントを含んでいる。
各オーディオセンサ1201a、1201b、1201cは、入力音響信号を捕捉して、1つ以上のオーディオ信号に変換することができる。一部の実施形態において、各オーディオセンサ1201a、1201b、1201cは、マイクであってもよく、及び/又は、マイクを含んでもよい。一部の実施形態において、マイクは、レーザマイクロフォン、コンデンサマイクロフォン、MEMSマイクロフォンなど、又は、それらの組み合わせを含むことができるが、これらに限定されない。例えば、MEMSマイクロフォンは、感圧ダイアフラムを直接シリコンウエハにエッチングすることによって製造可能である。この製造工程に関わる幾何学は、ミクロンのレベルであってもよい。一部の実施形態において、オーディオセンサ1201a、1201b、1201cの各々は、図1を参照して上述した、オーディオセンサ110であってもよく、及び/又は、これを含んでいてもよい。
図12に示すように、オーディオセンサ1201a、1201b、1201c、及び/又は、それに関連する回路は、筐体1203a、1203b、1203cの各々に接続されていてよい。例えば、オーディオセンサは、はんだ付け、固着、一体成形、固定ネジ等の方法、又は、これらの組み合わせによって筐体に接続されていてもよいが、これに限定されない。筐体1203は、図11の通路1101の表面に接続されていてよい。筐体1203a、1203b、1203cの各々は、プラスチック、繊維、他の非導電性材料等の適切な材料、又は、それらの組み合わせを使用して製造することができる。
一部の実施形態において、筐体1203a、1203b、1203cは、互いに通信可能に接続されていてよい。例えば、筐体1203aは、1つ以上のコネクタ1207aを介して筐体1203bに通信可能に接続されていてもよい。別の例において、筐体1203bは、1つ以上のコネクタ1207bを介して筐体1203cに通信可能に接続されていてもよい。一部の実施形態において、コネクタ1207a〜bの各々は、はんだ付けによって(例えば、はんだドット1205を介して)音声通信システム1200の筐体1203に接続されていてよい。一部の実施形態において、筐体1203に取り付けられたオーディオセンサ1201a、1201b、1201cは、はんだ付けによって筐体1203内の回路に通信可能に接続されていてよい。そして、複数のオーディオセンサ1201が電気的に接続させることができる。コネクタ1207a〜bの各々は、銅、アルミニウム、ニクロム等の適切な材料、又は、それらの組み合わせによって製造することができる。
製造工程では、筐体1203a〜c、及び/又は、通路1310(図13に示す)の1つ以上の表面を懸濁物質でコーティングしてもよい。次に、通信システム1200を通路に挿入してもよい。そして、懸濁物質が加熱されて、結果として筐体が通路の表面に固定されていてよい。したがって、オーディオセンサ1201a〜cを、織物構造体に固定することができる。一部の実施形態における織物構造体において、通路201(図11〜12に図示せず)の縦方向に沿った柔軟な冗長性により、織物構造体が曲がるときにコネクタ1207も曲がる。柔軟な冗長性は、伸縮冗長性、弾性構造等、又は、これらの組み合わせを含むことができるが、これに限定されない。例えば、2つの固定点を接続するコネクタ1207a〜bの長さは、2つの固定点の間の直線距離よりも長くてもよく、伸縮冗長性を実現することが可能となる。一部の実施形態において、弾性構造を実現するために、コネクタ1207a〜bの形状は、螺旋状、蛇行状、ジグザグ状など、又は、これらの組み合わせが挙げられるが、これらに限定されない。
一部の実施形態において、電気コンデンサ1209を筐体上に配置して、他の回路要素によって引き起こされるノイズを遮断し、ノイズが回路の他の部分に与える影響を低減することができる。例えば、電気コンデンサ1209はデカップリングコンデンサとすることができる。
図12には、特定の数の筐体およびオーディオセンサが示されているが、これは例示に過ぎない。例えば、音声通信システム1200は、任意の適切な数のオーディオセンサに結合される任意の適切な数の筐体を含むことができる。別の例において、音声通信システム1200の筐体は、1つ以上のオーディオセンサ、及び/又は、それらの関連回路に結合されていてもよい。
図13は、本開示における一部の実施形態によるセンサが埋め込まれた織物構造体の断面図の例1300を示す。一部の実施形態において、織物構造体1300は、図11に示すような織物構造体であってもよく、及び/又は、それを含んでもよい。織物構造体1300は、図12に示される音声通信システム1200の一部分以上を含んでいてもよい。織物構造体1300は、上記図2Aを参照して説明する織物構造体の層に含まれていてもよい。
図示されるように、織物構造体1300は、1つ以上の筐体1320a、1320b、1320cが配置される通路1310を含んでいてもよい。筐体1320a、1320b、1320cは、1つ以上のコネクタ1207a、1207bなどを介して、互いに通信可能に接続されていてもよい。
センサ1330a、1330b、1330c、1330d、1330e、1330fは、1つ以上の筐体1320a〜cに接続されてもよい。例えば、センサ1330a及び1330bは、筐体1320aに接続されてもよい。各センサ1330a〜fは、各種信号を捕捉、及び/又は、生成することができる。例えば、各センサ1330a〜fは、音響信号を捕捉し、及び/又は、オーディオ信号(例えば、上記の図1を参照して説明する音声センサ110)を生成することができるオーディオセンサであってもよい。
各センサ1330a〜fは、織物構造体1300の第1面1301と第2面1303との間に配置されてもよい。例えば、センサ1330a、及び/又は、その関連回路の一部分以上は、筐体1320aに接続されていてもよく、通路1310に配置されてもよい。それに加えて、またはこれに代えて、センサ1330a、及び/又は、その関連回路の一部分以上は、面1301と通路1310との間に位置する織物構造体1300の領域に配置されてもよい。別の例において、センサ1330bの一部分以上が筐体1320aに結合され、通路1310に配置されていてもよい。それに加えて、またはこれに代えて、センサ1330b、及び/又は、その関連回路の一部分以上は、表面1303と通路1310との間に位置する織物構造体1300の領域に配置されてもよい。一部の実施形態において、1つ以上のセンサ、及び/又は、それらに関連する回路が、織物構造体の任意の部分から突出することなく、織物構造体の表面1301と1303との間に埋め込まれていてよい。
一部の実施形態において、表面1301は、ユーザ(例えば、乗車中の人)に対向していてもよい。或いは、表面1303は、使用者に対向する織物構造体1300の一部であってもよい。具体的な例としては、センサ1330aは、オーディオセンサであってもよく、及び/又は、これを含んでいてもよい。センサ1330bは、脈拍、血圧、心拍数、呼吸数、及び/又は、乗員に関する他の情報を捕捉することができるバイオセンサであってもよい。この場合、一部の実施形態においては、表面1303は、ユーザに対向していてもよい。
一部の実施形態において、1つ以上のセンサ1330a〜fは、はんだ付け、固着、一体成形、固定ネジ等の方法、又は、これらの組み合わせによって1つ以上の筐体1320a〜cに接続されていてもよいが、これに限定されない。一部の実施形態において、筐体1320a、1320b、1320cは、それぞれ、図12の筐体1203a、1203b、1203cに対応させることができる。
筐体1320a〜cは、コネクタ1207を介して互いに電気的に接続されてよい。一部の実施形態において、コネクタ1207は、縦方向に柔軟な冗長性を有している。柔軟な冗長性は、伸縮冗長性、弾性構造等、又は、こららの組み合わせを含むことができるが、これに限定されない。例えば、2つ固定点を接続するコネクタ1207の長さは、2つの固定点間の直線距離よりも長くて、伸縮冗長性を実現することが可能となる。一部の実施形態において、弾性構造を実現するために、コネクタの形状は、螺旋状、蛇行状、ジグザグ状など、又は、それらの組合せを含んでいるが、これらに限定されない。
筐体1320a〜cの付属物のない表面は、高温懸濁物質でコーティングされてよい。
図14は、本開示における一部の実施形態による音声通信システム1200を実装するために埋め込まれたセンサを有する織物構造体の例1410及び1420を示す。一部の実施形態において、各織物構造体1310及び1320は、ウェアラブル装置(例えば、シートベルト、安全ベルト、フィルムなど)の一部であってもよい。これに代わり、またはこれに加えて、織物構造体1410及び1420は、複数のウェアラブル装置で使用されてもよい。一部の実施形態において、各織物構造体1410及び1420は、図2Aを参照して上述した織物構造体の層に含まれてもよい。
図示されるように、織物構造体1410は通路1411を含む。同様に、織物構造体1420は通路1421を含んでいてもよい。1つ以上の音声通信システム1200等の、音声通信システムは一部分以上が、通路1411、及び/又は、1421に配置されてもよい。
各通路1411及び1421は、織物構造体の中間部分にあってもよい。織物構造体1420では、1つ以上の通路は、人体音源近くの織物構造体の縁部にあってもよい。例えば、人体音源は人間の口であってもよい。
一部の実施形態において、1つ以上の通路1411及び1421は、織物構造体内に作製されることができる。隣接する通路1411の間の距離は、同じであってもよく、異なっていてもよい。複数の通路の始点、及び、終点は同一であってもよく、異なっていてもよい。
製造工程において、音声通信システム1200は、通路1411及び1421内に配置されてよい。次いで、何もない通路1411の空き領域が充填物で満たされてよい。その結果、音声通信システム1200は、充填物の射出成形によって通路1411に固定されてよい。充填物は、シリカゲル、シリコンゴム、天然ゴムなど、又は、それらの任意の組み合わせを含むことができるが、これらに限定されない。一部の実施形態における充填工程において、充填物で覆われるコネクタ1207を使用することができる。したがって、オーディオセンサ1201及び筐体1203は、充填工程において充填物に満たすことができる。更に他の実施形態では、コネクタ1207、オーディオセンサ1201、及び、筐体1203は、1回の充填工程で充填物が満たされてもよい。
一部の実施形態において、充填物は、オーディオセンサ1201の外側に沿って音が通過する領域を実現することができる。例えば、領域は図11に示す領域1103であってもよい。充填物の射出成形後、通路1411内の物の複数部分の厚さは、通路1411の対応する深さより小さくてもよく、及び/又は、それより大きくてもよい。通路の深さは、位置に応じて変化してもよい。したがって、通路1411内の材料は、通路1411から突出する、及び/又は、突出しない部分を含んでいる。
図15は、本開示の実施形態における音声通信システム1200の配線の例1500を示す。配線1500は、1つ以上のVDDコネクタ1501、GNDコネクタ1503、SDデータコネクタ1505、オーディオセンサ1201と筐体1203、及び/又は、音声通信システムを実装するための他の適切なコンポーネントを含んでいる。
オーディオセンサ1201は、1つ以上のピン1507を含んでいてもよい。例えば、オーディオセンサ203は、6つのピン1507a〜fを含んでいる。各オーディオセンサ1201のピンは、同じであってもよく、異なっていてもよい。1つ以上のピンをVDDコネクタ1501及びGNDコネクタ1503に接続することができる。これにより、オーディオセンサ1201に電力を供給することができる。例えば、3つのピン1507a〜cがGNDコネクタ1503に接続されてもよく、1つのピン1507がVDDコネクタ1501に接続されてもよい。1つ以上のピン1507が相互接続されてもよい。一部の実施形態において、ピン1507b及び1507eを相互に接続してもよい。オーディオセンサ1201は、複数の信号を出力するため、1つ以上のピン1507を含んでいる。例えば、ピン1507dは、SDデータコネクタ1505に接続されて複数の信号を出力してもよい。図15において、配線1500は、4つのオーディオセンサ1201と、対応する4つのSDデータコネクタ1505a、1505b、1505c、1505dとを含んでいる。別の実施形態において、オーディオセンサ1201の数及びSDデータコネクタ1505の数は変更可能であってもよい。また、オーディオセンサ1201の数とSDデータコネクタの数も同じであってもよく、異なっていてもよい。
VDDコネクタ1501、GNDコネクタ1503、SDデータコネクタ1505及び筐体1203の間の接続は、直列、及び/又は、並列にしてもよい。一部の実施形態において、筐体1203は、1つ以上の層を含んでいてもよい。VDDコネクタ1501、GNDコネクタ1503及びSDデータコネクタ1505は、筐体1203内で相互接続されていてもよい。そして、VDDコネクタ1501、GNDコネクタ1503、及び、SDデータコネクタ1505は、互いに平行であってもよい。音声通信システム1200の配線1500は、織物構造体の通路201(図15に図示せず)に挿入され、通路201の表面に固定されていてもよい。
図16は、本開示の実施形態における音声通信システム1200の配線例1600を示す。配線1600は、1つ以上のVDDコネクタ1601、GNDコネクタ1603、WSビットクロックコネクタ1605、SCKサンプリングクロックコネクタ1607、SDデータコネクタ1609、オーディオセンサ1201a〜b及び筐体1203、及び/又は、音声通信システムを実装するための他の適切なコンポーネントを含んでいる。
オーディオセンサ1201a〜bは、1つ以上のピン1611及び1613を含んでいてもよい。例えば、オーディオセンサ1201aは、8つのピン1611a〜hを含むことができる。オーディオセンサ1201bは、8つのピン1613a〜hを含むことができる。1つ以上のピンをVDDコネクタ1601及びGNDコネクタ1603に接続してもよい。これにより、オーディオセンサ1201a、1201bに電力を供給することができる。例えば、オーディオセンサ1201aにおいて、ピン1611fはVDDコネクタ1601に接続されていてもよく、ピン1611hはGNDコネクタ1603に接続されていてもよい。オーディオセンサ1201bにおいて、ピン1613dと1613fはVDDコネクタ1601に接続されていてもよく、ピン1613hはGNDコネクタ1603に接続されていてもよい。1つ以上のピン1611は相互に接続されてもよい。1つ以上のピン1613も相互に接続されてもよい。一部の実施形態において、オーディオセンサ1201aにおけるピン1611fはピン1611gに接続されていてもよい。ピン1611d及び1611eはピン1611hに接続されていてよい。オーディオセンサ1201bにおいて、ピン1613fはピン1613gに接続されてもよい。ピン1613eはピン1613hに結合されてもよい。
WSビットクロックコネクタ1605及びSCKサンプリングクロックコネクタ1607は、1つ以上のクロック信号を供給することができる。オーディオセンサ1201aにおいて、ピン1611cはWSビットクロックコネクタ1605に接続されていてもよく、ピン1611aをSCKサンプリングクロックコネクタ1607に接続されていてもよい。1201bにおいて、ピン1613cはWSビットクロックコネクタ1605に接続されていてもよく、ピン1613aはSCKサンプリングクロックコネクタ1607に接続されてもよい。
オーディオセンサ1201は、1つ以上のピンを含み、複数の信号を出力することができる。1つ以上のピンはSDデータコネクタ1609に接続されてもよい。1つ以上のSDデータコネクタ1609は、ピン1611、及び/又は、1613に接続されてもよい。例えば、オーディオセンサ1201aのピン1611bと、オーディオセンサ1201bのピン1613bは、SDデータコネクタ1609aに接続されて複数の信号を出力してもよい。図16において、配線1600は、4つのSDデータコネクタ1609a、1609b、1609c、1609dを含んでいてもよい。SDデータコネクタ1609に、別のオーディオセンサ1201(図16に図示せず)が接続されていてもよい。別の実施形態で、オーディオセンサ1201の数及びSDデータコネクタ1609の数は変更可能であってもよい。また、2つの数は同じであってもよく、異なっていてもよい。
VDDコネクタ1601、GNDコネクタ1603及びSDデータコネクタ1609は、筐体1203に直列、及び/又は、並列に接続されていてもよい。一部の実施形態において、筐体1203は、1つ以上の層を含んでいてもよい。VDDコネクタ1601、GNDコネクタ1603及びSDデータコネクタ1609は、筐体1203内で相互接続相互接続されていてもよい。そして、VDDコネクタ1601、GNDコネクタ1603及びSDデータコネクタ1609は、互いに平行であってもよい。音声通信システム1200の配線1600は、織物構造体の通路201(図16に図示せず)に挿入され、通路201の表面に固定されていてもよい。
上の説明において、多くの詳細が述べられている。しかしながら、これらの具体的な詳細がなくても本開示を実施することができることは明らかであろう。一部の例で、周知の構造及びデバイスは、開示を不明瞭にすることを避けるため、詳細ではなくブロック図の形態で示されている。
以下詳細な説明の一部は、コンピュータメモリにおける、データビットに対する操作のアルゴリズム及び記号表現によって提示される。これらアルゴリズムの記述および表現は、データ処理技術の当業者から他の当業者に研究の実体を最も効果的に伝えるために資するものである。アルゴリズムは、ここで、及び、一般的に所望の結果を導く自己矛盾のないステップのシーケンスと解釈される。これらのステップは、物理量の物理的操作を必要とするステップである。通常、必ずしも必要ではないが、これらの量は、保存、転送、結合、比較、及び、その他の操作が可能な電気信号又は磁気信号の形式をとる。これらの信号をビット、値、要素、記号、文字、用語、数字などと呼ぶことは、主に一般的な使用のために、好都合であることが判明している。
しかしながら、これらの条件及び類似条件は全て、適切な物理量に関連し、これらの量に適用される好適なラベルに過ぎないことに留意されたい。特記しない限り、以下の説明から明らかなように、「送信」、「受信」、「生成する」、「提供する」、「計算する」、「実行する」、「保存する」、「生成する」、「決定する」などの用語を利用する議論は、 「埋め込む」、「配置する」、「配置する」などの用語は、コンピュータシステムまたは同様の電子演算装置の動作及びプロセスを指し、コンピュータシステムのレジスタ及びメモリ内の物理(電子)量として表されるデータを、コンピュータシステムのメモリ又はレジスタ又は他のそのような情報記憶装置、伝送装置又は表示装置内の物理量として同様に表される他のデータを操作及び変換するものである。
本明細書で使用される「第1」、「第2」、「第3」、「第4」などという用語は、異なる要素を区別するためのラベルを意味し、それらの数値指定に従って序数的な意味を有する必要はない。
一部の実装では、本明細書に記載のプロセス実行の命令を記憶するために、あらゆる適切なコンピュータ可読媒体が使用可能である。例えば、一部の実施例において、コンピュータ可読媒体は、一時的又は非一時的である。例えば、非一時的なコンピュータ可読媒体は、磁気媒体(例えば、ハードディスク、フロッピーディスクなど)、光学媒体(例えば、コンパクトディスク、デジタルビデオディスク、ブルーレイディスク等)、半導体媒体(フラッシュメモリ、電子的プログラマブル読取り専用メモリ(EPROM)、電気的に消去可能なプログラム可能な読取り専用メモリ(EEPROM)等、送信時の一過性のものでもなく、永続性を欠くものでもない適切な媒体、及び/又は、任意の適切な有形媒体であればよい。また、一時的なコンピュータ可読媒体の例としては、ネットワーク上の信号、コネクタ、導体、光ファイバ、回路、送信中に永続性を欠く任意の適切な媒体、及び/又は、任意の適切な無形媒体を含んでいる。

Claims (25)

  1. 音響入力を捕捉して、当該音響入力に基づいて第1オーディオ信号を生成する第1オーディオセンサを備え、前記第1オーディオセンサは、織物構造体の第1面と第2面との間に配置されており、
    前記織物構造体は、前記織物構造体の前記第1面と前記第2面との間に位置する第1通路を含み、前記第1オーディオセンサは、前記第1通路に配置されていることを特徴とする音声通信システム。
  2. 前記第1オーディオセンサは、シリコンウエハに形成されたマイクであることを特徴とする請求項1に記載のシステム。
  3. 前記システムは、音響入力を捕捉して、当該音響入力に基づいて第2オーディオ信号を生成する第2オーディオセンサを更に備え、前記織物構造体は、第2通路を含み、前記第2オーディオセンサは、少なくとも部分的に前記第2通路に配置されていることを特徴とする請求項に記載のシステム。
  4. 前記第1通路は前記第2通路と平行であることを特徴とする請求項に記載のシステム。
  5. 前記第1オーディオセンサ及び前記第2オーディオセンサが、オーディオセンサの差分サブアレイを形成していることを特徴とする請求項に記載のシステム。
  6. 前記第1オーディオ信号と前記第2オーディオ信号とに基づいてスピーチ信号を生成するプロセッサをさらに備えていることを特徴とする請求項に記載のシステム。
  7. 前記スピーチ信号を生成するために、前記プロセッサは更に、前記第1オーディオ信号と前記第2オーディオ信号とを組み合わせることによって出力信号を生成し、前記出力信号にエコー消去を実施することを特徴とする請求項に記載のシステム。
  8. 前記エコー消去を行うために、前記プロセッサは更に、音響経路を表すモデルを構築し、前記モデルに基づいて前記出力信号の成分を推定することを特徴とする請求項に記載のシステム。
  9. 音響入力を捕捉して、当該音響入力に基づいて第1オーディオ信号を生成する第1オーディオセンサを備え、前記第1オーディオセンサは、織物構造体の第1面と第2面との間に配置されており、
    前記第1オーディオセンサは、前記織物構造体の第1層に埋め込まれていることを特徴とする音声通信システム。
  10. 前記第1オーディオセンサに関連する回路の少なくとも一部が、前記織物構造体の第2層に埋め込まれていることを特徴とする請求項に記載のシステム。
  11. 前記織物構造体の前記第1面と第2面との距離は2.5mm以下であることを特徴とする請求項1又は9に記載のシステム。
  12. 前記第1オーディオセンサは、前記織物構造体から突出していないことを特徴とする請求項1又は9に記載のシステム。
  13. 音響入力を捕捉して、当該音響入力に基づいて第1オーディオ信号を生成する第1オーディオセンサを備え、前記第1オーディオセンサは、織物構造体の第1面と第2面との間に配置されており、
    前記織物構造体の前記第1面と前記第2面との間に配置されたバイオセンサをさらに備えていることを特徴とする音声通信システム。
  14. マイクアレイによって生成された複数のオーディオ信号を受信するステップと、
    複数の前記オーディオ信号に空間フィルタを実行して、複数の空間フィルタ済み信号を生成するステップと、
    プロセッサによって、複数の前記オーディオ信号に対するエコー消去を実行して、少なくとも1つのスピーチ信号を生成するステップとを含み、
    前記マイクアレイは、第1マイクサブアレイを含み、複数の前記オーディオ信号は、前記第1マイクサブアレイによって生成された第1オーディオ信号を含むことを特徴とする音声通信の方法。
  15. 複数の前記オーディオ信号に対してノイズリダクションを行って前記スピーチ信号を生成するステップをさらに含み、
    前記ノイズリダクションを実行するステップは、
    少なくとも1つのノイズリダクションフィルタを構築するステップと、
    前記ノイズリダクションフィルタを複数の前記オーディオ信号に適用するステップとを含むことを特徴とする請求項14に記載の方法。
  16. 前記少なくとも1つのノイズリダクションフィルタを構築するステップは、
    複数の前記オーディオ信号に基づいて前記第1オーディオ信号の所望の成分の推定値を決定するステップと、
    前記第1オーディオ信号の所望の成分の推定値に基づいてエラー信号を決定するステップと、
    前記エラー信号に基づいて最適化問題を解くステップとを含むことを特徴とする請求項15に記載の方法。
  17. 前記少なくとも1つのノイズリダクションフィルタを構築するステップは、
    前記第1オーディオ信号の第1パワースペクトル密度を決定するステップと、
    前記第1オーディオ信号の前記所望の成分の第パワースペクトル密度を決定するステップと、
    前記第1オーディオ信号のノイズ成分の第3パワースペクトル密度を決定するステップと、
    前記第1パワースペクトル密度、前記第パワースペクトル密度、及び、前記第3パワースペクトル密度のうちの少なくとも1つに基づいて、前記少なくとも1つのノイズリダクションフィルタを構築するステップとを更に含むことを特徴とする請求項16に記載の方法。
  18. 前記少なくとも1つのノイズリダクションフィルタは、前記マイクアレイ内の複数のオーディオセンサに対応する複数の非因果的フィルタを含むことを特徴とする請求項15に記載の方法。
  19. 単極再帰技法を使用して前記ノイズリダクションフィルタを更新するステップをさらに含むことを特徴とする請求項15に記載の方法。
  20. 前記ノイズリダクションを実行するステップは、前記ノイズリダクションフィルタを前記空間フィルタ済み信号に適用することをさらに含むことを特徴とする請求項15に記載の方法。
  21. 前記エコー消去を実行するステップは、
    複数のスピーカによって生成された複数のスピーカ信号を受信するステップと、
    非線形変換を前記スピーカ信号のそれぞれに適用して複数の変換されたスピーカ信号を生成するステップと、
    前記変換されたスピーカ信号に基づいて複数のフィルタを構築するステップと、
    変換されたスピーカ信号に複数のフィルタを適用して、第1オーディオ信号のエコー成分を推定するステップとを含み、
    複数の前記フィルタのそれぞれは、前記複数のスピーカ信号の1つに対応する音響経路を表していることを特徴とする請求項14に記載の方法。
  22. 前記非線形変換を複数の前記スピーカ信号の第1スピーカ信号に適用するステップは、前記第1スピーカの半波整流バージョンを前記第1スピーカ信号に加えることを含むことを特徴とする請求項21に記載の方法。
  23. 複数の前記フィルタを構築するステップは、
    前記第1オーディオ信号に基づいて事後エラー信号を決定するステップと、
    前記事後エラー信号に基づいてコスト関数を決定するステップと、
    コスト関数を最小化するステップとを含むことを特徴とする請求項21に記載の方法。
  24. 前記エコー消去を実行するステップは、
    前記第1オーディオ信号の前のフレームについてダブルトークの発生が検出されたかどうかを判定するステップと、
    前記判定に基づいて忘却因子を計算するステップと、
    前記忘却因子に基づいて、前記第1オーディオ信号の現在のフレームについてダブルトーク検出を実行するステップとを含むことを特徴とする請求項14に記載の方法。
  25. 前記第1マイクサブアレイは、第1オーディオセンサと第2オーディオセンサとを含み、
    複数の前記オーディオ信号に空間フィルタを実行するステップは、
    時間遅延を前記第2オーディオセンサによって生成された第オーディオ信号に適用して遅延信号を生成するステップと、
    前記第1オーディオセンサによって生成された前記第1オーディオ信号と前記遅延信号とを合成するステップと、
    前記合成信号にローパスフィルタを適用するステップとを含むことを特徴とする請求項14に記載の方法。
JP2018541467A 2016-02-04 2016-02-04 音声通信システム及び方法 Active JP6574529B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/073553 WO2017132958A1 (en) 2016-02-04 2016-02-04 Methods, systems, and media for voice communication

Publications (2)

Publication Number Publication Date
JP2018538765A JP2018538765A (ja) 2018-12-27
JP6574529B2 true JP6574529B2 (ja) 2019-09-11

Family

ID=56872862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018541467A Active JP6574529B2 (ja) 2016-02-04 2016-02-04 音声通信システム及び方法

Country Status (4)

Country Link
US (2) US10460744B2 (ja)
JP (1) JP6574529B2 (ja)
CN (1) CN105940445B (ja)
WO (1) WO2017132958A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2547063B (en) * 2014-10-30 2018-01-31 Imagination Tech Ltd Noise estimator
DE102014017384B4 (de) * 2014-11-24 2018-10-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
US10225395B2 (en) * 2015-12-09 2019-03-05 Whatsapp Inc. Techniques to dynamically engage echo cancellation
JP6670224B2 (ja) * 2016-11-14 2020-03-18 株式会社日立製作所 音声信号処理システム
US10229667B2 (en) * 2017-02-08 2019-03-12 Logitech Europe S.A. Multi-directional beamforming device for acquiring and processing audible input
US10366700B2 (en) * 2017-02-08 2019-07-30 Logitech Europe, S.A. Device for acquiring and processing audible input
US10362393B2 (en) 2017-02-08 2019-07-23 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10366702B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US11133036B2 (en) * 2017-03-13 2021-09-28 Insoundz Ltd. System and method for associating audio feeds to corresponding video feeds
CN107331407B (zh) * 2017-06-21 2020-10-16 深圳市泰衡诺科技有限公司 下行通话降噪方法及装置
DE102018117557B4 (de) * 2017-07-27 2024-03-21 Harman Becker Automotive Systems Gmbh Adaptives nachfiltern
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN108022591B (zh) 2017-12-30 2021-03-16 北京百度网讯科技有限公司 车内环境中语音识别的处理方法、装置和电子设备
CN108107982A (zh) 2018-01-03 2018-06-01 京东方科技集团股份有限公司 一种可穿戴设备
CN108415904B (zh) * 2018-01-12 2022-04-19 广东思派康电子科技有限公司 一种双通道实时翻译方法
TWI708243B (zh) * 2018-03-19 2020-10-21 中央研究院 於分散式語音辨識中基於小波轉換之語音特徵壓縮及重建系統與方法
EP3804356A1 (en) 2018-06-01 2021-04-14 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
CN112385245B (zh) * 2018-07-16 2022-02-25 西北工业大学 灵活地理分布的差分麦克风阵列和相关波束形成器
JP2022516358A (ja) * 2019-01-17 2022-02-25 アップル インコーポレイテッド 生理学的状態を感知するための顔インタフェースを有するヘッドマウントディスプレイ
WO2020152550A1 (en) * 2019-01-21 2020-07-30 Maestre Gomez Esteban Method and system for virtual acoustic rendering by time-varying recursive filter structures
JP2022526761A (ja) 2019-03-21 2022-05-26 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
KR20210073975A (ko) * 2019-12-11 2021-06-21 삼성전자주식회사 화자를 인식하는 방법 및 장치
JPWO2021131346A1 (ja) * 2019-12-26 2021-07-01
CN111063366A (zh) * 2019-12-26 2020-04-24 紫光展锐(重庆)科技有限公司 降低噪声的方法、装置、电子设备及可读存储介质
US20210216150A1 (en) * 2020-01-09 2021-07-15 Dell Products L.P. Distributed sensing for passive pen
CN111317500B (zh) * 2020-02-21 2021-05-07 孙磊 基于胎心胎动信号的智能穿戴系统
CN111265237A (zh) * 2020-02-21 2020-06-12 孙磊 基于邻近计算的胎儿胎心监护系统、设备及方法
CN111227820A (zh) * 2020-02-21 2020-06-05 孙磊 多维通道传感器的胎心检测传感器矩阵、胎心检测设备
CN111227819B (zh) * 2020-02-21 2021-05-07 孙磊 多维通道传感器的胎心检测传感器矩阵的信号处理方法
CN111265240A (zh) * 2020-02-21 2020-06-12 孙磊 胎心监护仪及胎心测量方法
CN111265239A (zh) * 2020-02-21 2020-06-12 孙磊 基于邻近计算的胎心检测信号处理及信息提取系统及方法
CN111265241B (zh) * 2020-02-21 2021-10-22 孙磊 多维通道传感器的胎儿胎心数据可视化方法及系统
US11277689B2 (en) 2020-02-24 2022-03-15 Logitech Europe S.A. Apparatus and method for optimizing sound quality of a generated audible signal
CN111613247B (zh) * 2020-04-14 2023-03-21 云知声智能科技股份有限公司 一种基于麦克风阵列的前景语音检测方法及装置
CN112750463A (zh) * 2020-12-17 2021-05-04 云知声智能科技股份有限公司 一种误识别抑制方法
JP2024505068A (ja) * 2021-01-28 2024-02-02 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム
WO2023086273A1 (en) * 2021-11-10 2023-05-19 Dolby Laboratories Licensing Corporation Distributed audio device ducking
CN116232282B (zh) * 2023-01-12 2023-12-19 湖南大学无锡智能控制研究院 一种基于自适应全通滤波器的时变时延估计方法、装置和系统

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4010815A1 (de) 1990-03-30 1991-10-02 Jens Prof Dr Ing Blauert Mikrophonanordnung zur aufnahme menschlicher lautaeusserungen
US6438247B1 (en) 1999-01-28 2002-08-20 International Business Machines Corporation Seatbelt microphone mounting
EP1172258B1 (de) 2000-07-13 2004-09-29 paragon AG Freisprechanordnung
DE10307505B4 (de) * 2003-02-21 2005-03-03 Infineon Technologies Ag Textilgewebestruktur, Flächenverkleidungsstruktur und Verfahren zum Bestimmen eines Abstands von Mikroelektronikelementen der Textilgewebestruktur zu mindestens einer Referenzposition
DE10327753A1 (de) 2003-06-18 2005-01-27 Paragon Ag Sensoranordnung zur Anbringung an einem Gurt, insbesondere an einem Sicherheitsgurt eines Kraftfahrzeugs
JP2008512888A (ja) * 2004-09-07 2008-04-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改善した雑音抑圧を有する電話装置
CN101217828B (zh) * 2007-01-04 2011-10-12 财团法人工业技术研究院 噪音抑制装置与方法
US8600038B2 (en) * 2008-09-04 2013-12-03 Qualcomm Incorporated System and method for echo cancellation
WO2010043998A1 (en) * 2008-10-16 2010-04-22 Nxp B.V. Microphone system and method of operating the same
US8489393B2 (en) * 2009-11-23 2013-07-16 Cambridge Silicon Radio Limited Speech intelligibility
AU2011334840B2 (en) * 2010-12-03 2015-09-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for spatially selective sound acquisition by acoustic triangulation
DE102011009318A1 (de) 2011-01-25 2012-07-26 Paragon Ag Sicherheitsgurt für Kraftfahrzeuge
US9711127B2 (en) * 2011-09-19 2017-07-18 Bitwave Pte Ltd. Multi-sensor signal optimization for speech communication
US9767828B1 (en) * 2012-06-27 2017-09-19 Amazon Technologies, Inc. Acoustic echo cancellation using visual cues
US9443532B2 (en) * 2012-07-23 2016-09-13 Qsound Labs, Inc. Noise reduction using direction-of-arrival information
EP2895050B8 (en) 2012-09-11 2018-12-19 L.I.F.E. Corporation S.A. Wearable communication platform
KR101706133B1 (ko) * 2012-11-12 2017-02-13 야마하 가부시키가이샤 신호 처리 시스템 및 신호 처리 방법
EP2736272A1 (en) * 2012-11-22 2014-05-28 ETH Zurich Wearable microphone array apparatus
CN103067629B (zh) 2013-01-18 2014-10-29 苏州科达科技股份有限公司 回声消除装置
US9888317B2 (en) * 2013-10-22 2018-02-06 Nokia Technologies Oy Audio capture with multiple microphones
CN104810021B (zh) * 2015-05-11 2017-08-18 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置

Also Published As

Publication number Publication date
US10460744B2 (en) 2019-10-29
US20180226086A1 (en) 2018-08-09
JP2018538765A (ja) 2018-12-27
US10706871B2 (en) 2020-07-07
WO2017132958A1 (en) 2017-08-10
CN105940445A (zh) 2016-09-14
CN105940445B (zh) 2018-06-12
US20200027472A1 (en) 2020-01-23

Similar Documents

Publication Publication Date Title
JP6574529B2 (ja) 音声通信システム及び方法
CN107039045B (zh) 用于语音增强的全局优化最小二乘后滤波
US9460732B2 (en) Signal source separation
US10123113B2 (en) Selective audio source enhancement
US7171008B2 (en) Reducing noise in audio systems
Warsitz et al. Blind acoustic beamforming based on generalized eigenvalue decomposition
CN110085248B (zh) 个人通信中降噪和回波消除时的噪声估计
CN111161751A (zh) 复杂场景下的分布式麦克风拾音系统及方法
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
Wang et al. Noise power spectral density estimation using MaxNSR blocking matrix
KR20110040855A (ko) 오디오 처리
Löllmann et al. Microphone array signal processing for robot audition
Madhu et al. Acoustic source localization with microphone arrays
Huang et al. Time delay estimation and source localization
Benesty et al. Array beamforming with linear difference equations
CN113838472A (zh) 一种语音降噪方法及装置
Buck et al. A compact microphone array system with spatial post-filtering for automotive applications
Rotaru et al. An efficient GSC VSS-APA beamformer with integrated log-energy based VAD for noise reduction in speech reinforcement systems
Thuene et al. Maximum-likelihood and maximum-a-posteriori perspectives for blind channel identification on acoustic sensor network data
US20190035416A1 (en) Single channel noise reduction
Ayrapetian et al. Asynchronous acoustic echo cancellation over wireless channels
Zheng et al. An improved combination of directional BSS and a source localizer for robust source separation in rapidly time-varying acoustic scenarios
Khayeri et al. A nested superdirective generalized sidelobe canceller for speech enhancement
Koul et al. Using intermicrophone correlation to detect speech in spatially separated noise
Li et al. Noise reduction method based on generalized subtractive beamformer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180501

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190816

R150 Certificate of patent or registration of utility model

Ref document number: 6574529

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250