JP2019537071A - 分散したマイクロホンからの音声の処理 - Google Patents

分散したマイクロホンからの音声の処理 Download PDF

Info

Publication number
JP2019537071A
JP2019537071A JP2019530671A JP2019530671A JP2019537071A JP 2019537071 A JP2019537071 A JP 2019537071A JP 2019530671 A JP2019530671 A JP 2019530671A JP 2019530671 A JP2019530671 A JP 2019530671A JP 2019537071 A JP2019537071 A JP 2019537071A
Authority
JP
Japan
Prior art keywords
audio signal
microphone
microphones
derived
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019530671A
Other languages
English (en)
Inventor
アミール・モギッミ
デイヴィッド・クリスト
ウィリアム・ベラルディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bose Corp
Original Assignee
Bose Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bose Corp filed Critical Bose Corp
Publication of JP2019537071A publication Critical patent/JP2019537071A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

様々な位置に配置された複数のマイクロホン及びそれらのマイクロホンと通信している修正システムを含むシステム。修正システムは、複数のマイクロホンから複数のオーディオ信号を引き出し、引き出された各オーディオ信号に対して信頼性スコアを計算し、計算された信頼性スコアに基づいて、1つの引き出されたオーディオ信号を使用して別のオーディオ信号を修正するように構成されている。

Description

本開示は、分散したマイクロホンからの音声を処理することに関する。
現行の音声認識システムは、1つのマイクロホン又はマイクロホンアレイが利用者の音声を聞き取り、その音声に基づいて行動を起こすものである。行動としては、局所的な音声認識及び応答、クラウドベースの認識及び応答、又はこれらの組み合わせが挙げられ得る。いくつかの事例では、「起動ワード(wake-up word)」が局所的に識別され、起動ワードに基づいて遠隔的に更なる処理が提供される。
分散型スピーカシステムは、家の中の方々に位置する複数のスピーカにおいて、音の再生が位置間で同期されるようにオーディオの再生を調整し得る。
一般に、一態様では、システムは、様々な位置に配置された複数のマイクロホン及びそれらのマイクロホンと通信しているディスパッチシステムを含む。ディスパッチシステムは、複数のマイクロホンから複数のオーディオ信号を引き出し、引き出された各オーディオ信号に対して信頼性スコアを計算し、計算された信頼性スコアを比較する。比較に基づき、ディスパッチシステムは、更なるハンドリングのために、引き出されたオーディオ信号のうちの少なくとも1つを選択する。
実装形態は、以下の1つ以上を任意の組み合わせで含むことができる。ディスパッチシステムは、マイクロホンのうちの少なくとも1つにそれぞれ接続されている複数の局所的なプロセッサを含んでよい。ディスパッチシステムは、少なくとも第1の局所的なプロセッサと、第1のプロセッサがネットワークを介して利用可能な、少なくとも第2のプロセッサと、を含んでよい。引き出された各オーディオ信号に対して信頼性スコアを計算することは、信号が音声を含んでいる可能性があるかどうか、起動ワードが信号に含まれている可能性があるかどうか、どのような起動ワードが信号に含まれている可能性があるか、信号に含まれている音声の品質、声が信号に記録されている可能性のある利用者の識別情報、及びマイクロホン位置に対して相対的な利用者の位置のうちの1つ以上において信頼度を計算することを含んでよい。引き出された各オーディオ信号に対して信頼性スコアを計算することはまた、オーディオ信号が発話を含んでいるように見えることと、その発話が起動ワードを含んでいるかどうかということと、を判定することを含んでもよい。引き出された各オーディオ信号に対して信頼性スコアを計算することはまた、複数の起動ワードの中からどの起動ワードが音声に含まれているかを識別することを含んでもよい。引き出された各オーディオ信号に対して信頼性スコアを計算することは、音声が起動ワードを含んでいることの信頼性の程度を決定することを更に含んでよい。
引き出された各オーディオ信号に対して信頼性スコアを計算することは、オーディオ信号のそれぞれに対応している音をマイクロホンが検出したタイミング、引き出されたオーディオ信号の信号強度、引き出されたオーディオ信号の信号対雑音比、引き出されたオーディオ信号のスペクトル成分、及び引き出されたオーディオ信号内の残響のうちの1つ以上を比較することを含んでよい。引き出された各オーディオ信号に対して信頼性スコアを計算することは、オーディオ信号ごとに、オーディオ信号の仮想点音源とマイクロホンのうちの少なくとも1つとの間の距離を計算することを含んでよい。引き出された各オーディオ信号に対して信頼性スコアを計算することは、それぞれのオーディオ信号の音源の位置をマイクロホンの位置に対して相対的に計算することを含んでよい。それぞれのオーディオ信号の音源の位置を計算することは、それぞれの音源とマイクロホンのうちの少なくとも2つとの間の計算された距離に基づいて三角法で位置を測定することを含んでよい。
ディスパッチシステムは、更なるハンドリングを提供するために、選択された信号の少なくとも一部を音声処理システムに送信してよい。選択されたオーディオ信号を送信することは、複数の音声処理システムから少なくとも1つの音声処理システムを選択することを含んでよい。複数の音声処理システムのうちの少なくとも1つの音声処理システムは、広域ネットワークを介して提供されている音声認識サービスを含んでよい。複数の音声処理システムのうちの少なくとも1つの音声処理システムは、ディスパッチシステムが実行中である同一プロセッサ上で実行中の音声認識プロセスを含んでよい。音声処理システムの選択は、利用者に関連付けられている好み、計算された信頼性スコア、又はオーディオ信号が引き出されたときの状況のうちの1つ以上に基づいてよい。状況は、話している可能性のある利用者の識別、複数のマイクロホンのうちのどのマイクロホンが選択された引き出されたオーディオ信号を生成したか、マイクロホン位置に対して相対的な利用者の位置、システム内の他のデバイスの動作状態、及び時刻のうちの1つ以上を含んでよい。音声処理システムの選択は、音声処理システムが利用可能なリソースに基づいてよい。
計算された信頼性スコアを比較することは、少なくとも2つの選択されたオーディオ信号が少なくとも2人の別々の利用者からの発話を含んでいるように見えることを判定することを含んでよい。選択されたオーディオ信号が少なくとも2人の別々の利用者からの発話を含んでいるように見えることを判定することは、声の識別、マイクロホンの位置に対して相対的な利用者の位置、選択されたオーディオ信号のそれぞれをどのマイクロホンが生成したか、2つの選択されたオーディオ信号での異なる起動ワードの使用、及び利用者の視覚的な識別のうちの1つ以上に基づいてよい。ディスパッチシステムはまた、2人の別々の利用者に対応している選択されたオーディオ信号を2つの別々の選択された音声処理システムに送信してもよい。選択されたオーディオ信号は、利用者の好み、音声処理システムの負荷分散、選択されたオーディオ信号の状況、及び2つの選択されたオーディオ信号での異なる起動ワードの使用のうちの1つ以上に基づいて、選択された音声処理システムに割り当てられてよい。ディスパッチシステムはまた、2人の別々の利用者に対応している選択されたオーディオ信号を2つの別個の処理要求として同じ音声処理システムに送信してもよい。
計算された信頼性スコアを比較することは、少なくとも2つの受信されたオーディオ信号が同じ発話を表しているように見えることを判定することを含んでよい。選択されたオーディオ信号が同じ発話を表していることを判定することは、声の識別、マイクロホンの位置に対して相対的なオーディオ信号の音源の位置、選択されたオーディオ信号のそれぞれをどのマイクロホンが生成したか、オーディオ信号の到着時間、オーディオ信号間又はマイクロホンアレイ素子の出力間の相互関係、パターンマッチング、及び話者の視覚的な識別のうちの1つ以上に基づいてよい。ディスパッチシステムはまた、同じ発話を表しているように見えるオーディオ信号のうちの1つのみを音声処理システムに送信してもよい。ディスパッチシステムはまた、同じ発話を表しているように見えるオーディオ信号の両方を音声処理システムに送信してもよい。ディスパッチシステムはまた、少なくとも1つの選択されたオーディオ信号を少なくとも2つの音声処理システムのそれぞれに送信し、音声処理システムのそれぞれから応答を受信し、それらの応答を出力する順序を決定してもよい。
ディスパッチシステムはまた、少なくとも2つの選択されたオーディオ信号を少なくとも1つの音声処理システムに送信し、送信した信号のそれぞれに対応している応答を音声処理システムから受信し、それらの応答を出力する順序を決定してもよい。ディスパッチシステムは、更なる処理に対する応答を受信し、出力デバイスを使用してその応答を出力するように、更に構成されていてよい。出力デバイスは、オーディオを捕捉したマイクロホンと対応していなくてよい。出力デバイスは、マイクロホンが位置している場所のいずれかに位置していなくてもよい。出力デバイスは、拡声器、ヘッドホン、装着可能なオーディオデバイス、ディスプレイ、ビデオスクリーン、又は家庭用器具のうちの1つ以上を含んでよい。更なる処理に対する複数の応答を受信したとき、ディスパッチシステムは、応答を単一の出力に結合することによって、応答を出力する順序を決定してよい。更なる処理に対する複数の応答を受信したとき、ディスパッチシステムは、全てより少ない数の応答を選択して出力することによって、又は異なる応答を異なる出力デバイスに送信することによって、応答を出力する順序を決定してよい。引き出されたオーディオ信号の数は、マイクロホンの数と等しくなくてよい。マイクロホンのうちの少なくとも1つは、マイクロホンアレイを含んでよい。システムはまた、非オーディオ入力デバイスを含んでもよい。非オーディオ入力デバイスは、加速度計、存在検出器、カメラ、装着可能なセンサ、又はユーザインターフェースデバイスのうちの1つ以上を含んでよい。
一般に、一態様では、システムは、様々な位置に配置された複数のデバイスを含み、それらのデバイスと通信しているディスパッチシステムは、前に通信された要求に応じて音声処理システムから応答を受信し、デバイスのそれぞれに対して応答の関連性を判定し、その判定に基づいてそれらのデバイスのうちの少なくとも1つに応答を転送する。
実装形態は、以下の1つ以上を任意の組み合わせで含むことができる。デバイスのうちの少なくとも1つは、オーディオ出力デバイスを含んでよく、応答を転送することは、そのデバイスに、応答に対応しているオーディオ信号を出力させてよい。オーディオ出力デバイスは、拡声器、ヘッドホン、又は装着可能なオーディオデバイスのうちの1つ以上を含んでよい。デバイスのうちの少なくとも1つは、ディスプレイ、ビデオスクリーン、又は家庭用器具を含んでよい。前に通信された要求は、複数のデバイス位置のいずれとも関連付けられていない第3の位置から通信されたものであってよい。応答は第1の応答であってよく、ディスパッチシステムはまた、第2の音声処理システムから応答を受信してもよい。ディスパッチシステムはまた、第1の応答をデバイスのうちの第1のデバイスに転送し、第2の応答をデバイスのうちの第2のデバイスに転送してもよい。ディスパッチシステムはまた、第1の応答と第2の応答の両方をデバイスのうちの第1のデバイスに転送してもよい。ディスパッチシステムはまた、第1の応答と第2の応答の一方のみを任意のデバイスに転送してもよい。
応答の関連性を判定することは、デバイスのうちのどれが前に通信された要求に関連付けられていたかを判定することを含んでよい。応答の関連性を判定することは、デバイスのうちのどれが、前に通信された要求に関連付けられている利用者に最も近い可能性があるかを判定することを含んでよい。応答の関連性を判定することは、特許請求されたシステムの利用者に関連付けられている好みに基づいてよい。応答の関連性を判定することは、前に通信された要求の状況を判定することを含んでよい。状況は、要求に関連付けられている可能性のある利用者の識別、複数のマイクロホンのうちのどのマイクロホンが要求に関連付けられている可能性があるか、デバイス位置に対して相対的な利用者の位置、システム内の他のデバイスの動作状態、及び時刻のうちの1つ以上を含んでよい。応答の関連性を判定することは、デバイスの能力又はリソース利用性を判定することを含んでよい。
複数の出力デバイスは様々な出力デバイス位置に配置されてよく、ディスパッチシステムはまた、送信された要求に応じて音声処理システムから応答を受信し、出力デバイスのそれぞれに対して応答の関連性を判定し、その判定に基づいてそれらの出力デバイスのうちの少なくとも1つに応答を転送してもよい。出力デバイスのうちの少なくとも1つは、オーディオ出力デバイスを含んでよく、応答を転送することは、そのデバイスに、応答に対応しているオーディオ信号を出力させる。オーディオ出力デバイスは、拡声器、ヘッドホン、又は装着可能なオーディオデバイスのうちの1つ以上を含んでよい。出力デバイスのうちの少なくとも1つは、ディスプレイ、ビデオスクリーン、又は家庭用器具を含んでよい。応答の関連性を判定することは、出力デバイスと選択されたオーディオ信号に関連付けられているマイクロホンとの間の関係を判定することを含んでよい。応答の関連性を判定することは、出力デバイスのうちのどれが、選択されたオーディオ信号の音源に最も近い可能性があるかを判定することを含んでよい。応答の関連性を判定することは、オーディオ信号が引き出されたときの状況を判定することを含んでよい。状況は、話している可能性のある利用者の識別、複数のマイクロホンのうちのどのマイクロホンが選択された引き出されたオーディオ信号を生成したか、マイクロホン位置及びデバイス位置に対して相対的な利用者の位置、システム内の他のデバイスの動作状態、並びに時刻のうちの1つ以上を含んでよい。応答の関連性を判定することは、出力デバイスの能力又はリソース利用性を判定することを含んでよい。
一般に、一態様では、システムは、様々なマイクロホン位置に配置された複数のマイクロホン、様々な拡声器位置に配置された複数の拡声器、並びにマイクロホン及び拡声器と通信しているディスパッチシステムを含む。ディスパッチシステムは、複数のマイクロホンから複数の音声信号を引き出し、引き出された各音声信号に対して起動ワードの包含に関する信頼性スコアを計算し、計算された信頼性スコアを比較し、その比較に基づいて、引き出された音声信号のうちの少なくとも1つを選択し、選択された信号の少なくとも一部を音声処理システムに送信する。ディスパッチシステムは、送信に応じて音声処理システムから応答を受信し、拡声器のそれぞれに対して応答の関連性を判定し、その判定に基づいて拡声器のうちの少なくとも1つに出力用として応答を転送する。
一般に、別の態様では、システムは、様々な位置に配置された複数のマイクロホン及びそれらのマイクロホンと通信している修正システムを含む。修正システムは、複数のマイクロホンから複数のオーディオ信号を引き出し、引き出された各オーディオ信号に対して信頼性スコアを計算し、計算された信頼性スコアに基づいて、1つの引き出されたオーディオ信号を使用して別のオーディオ信号を修正するように構成されている。
引き出された各オーディオ信号についての信頼性スコアを計算することは、引き出されたオーディオ信号が音声を含むかどうか、及び引き出されたオーディオ信号が非音声音を含むかどうかの信頼性を計算することを含み得る。引き出された各オーディオ信号の信頼性スコアを計算することは、引き出されたオーディオ信号が音声信号であるかどうかを判定することを含み得る。別のオーディオ信号を修正するために、1つの引き出されたオーディオ信号を使用することは、第1のオーディオ信号を第2のオーディオ信号でフィルタリングすることを含んでもよい。第1のオーディオ信号を第2のオーディオ信号でフィルタリングすることは、第2のオーディオ信号を第1のオーディオ信号の適応フィルタに対する参照として使用することを含んでもよい。引き出されたオーディオ信号の数は、マイクロホンの数と異なっていてもよい。
マイクロホンのうちの少なくとも1つは、マイクロホンアレイを含んでよい。第1のマイクロホンアレイは、第1の音ターゲットに空間的に集中してもよい。第2のマイクロホンアレイは、第2の音ターゲットに空間的に集中してもよい。第1の音ターゲットは、人間の声を含んでもよい。第2の音ターゲットは、ノイズ源を含んでもよい。
第1のマイクロホンは、第1のデバイスの一部であってもよく、第2のマイクロホンは第2のデバイスの一部であってもよく、第1のオーディオ信号は、第1のマイクロホンから引き出されてもよく、第2のオーディオ信号は、第2のマイクロホンから引き出されてもよい。第2のデバイスは、第2のオーディオ信号を第1のデバイスに送信することができる。第1のデバイスは、第2のオーディオ信号を使用して第1のオーディオ信号を修正することができる。第1のデバイスは、第2のオーディオ信号を使用して、第1のオーディオ信号のノイズを低減させることができる。
第1及び第2のマイクロホンは、両方とも第1のデバイスの一部であってもよい。第1のオーディオ信号は、第1のマイクロホンから引き出されてもよく、第2のオーディオ信号は、第2のマイクロホンから引き出されてもよい。第2のオーディオ信号を使用して、第1のオーディオ信号のノイズを低減させることができる。複数のマイクロホンは、第1のデバイスの一部であってもよい。第1のデバイスは、複数のそのマイクロホンを第1及び第2の別個の音源に空間的に集中させることができ、第1のオーディオ信号は第1の音源から引き出され、第2のオーディオ信号は第2の音源から引き出される。第2のオーディオ信号を使用して、第1のオーディオ信号のノイズを低減させることができる。
一般に、別の態様では、システムは、異なる場所に位置付けられた複数のマイクロホンを含み、第1のマイクロホンは第1のデバイスの一部であり、第2のマイクロホンは第2のデバイスの一部であり、第1のデバイスは、第1のマイクロホンから第1のオーディオ信号を引き出すように動作し、第2のデバイスは、第2のマイクロホンから第2のオーディオ信号を引き出すように動作し、第2のデバイスは、第2のオーディオ信号を第1のデバイスに送信するように適合されている。第1のデバイスの一部である修正システムは、第1及び第2のオーディオ信号に応答しており、修正システムは、第2のオーディオ信号を使用して、第1のオーディオ信号のノイズを低減させる。
一般に、別の態様では、システムは、第1及び第2のマイクロホンを含む、第1のデバイスの一部である複数のマイクロホンを含み、第1のデバイスは、第1のマイクロホンからの第1のオーディオ信号及び第2のマイクロホンからの第2のオーディオ信号を引き出すように動作する。修正システムは、第1のデバイスの一部であり、第1及び第2のオーディオ信号に応答しており、修正システムは、第2のオーディオ信号を使用して、第1のオーディオ信号のノイズを低減させる。
一般に、別の態様では、システムは、第1のデバイスの一部である複数のマイクロホンを含み、第1のデバイスは、複数のそのマイクロホンを第1及び第2の別個の音源に空間的に集中させ、第1のオーディオ信号が第1の音源から引き出され、第2のオーディオ信号が第2の音源から引き出される。第1のデバイスは、第1の音源からの第1のオーディオ信号及び第2の音源からの第2のオーディオ信号を引き出すように動作する。修正システムは、第1のデバイスの一部であり、第1及び第2のオーディオ信号に応答しており、修正システムは、第2のオーディオ信号を使用して、第1のオーディオ信号のノイズを低減させる。
利点としては、複数の位置で発声された命令を検出すること、及び命令に対して単一の応答を提供することが挙げられる。更に、利点としては、発声された命令に対する応答を、命令が検出された位置ではなくて利用者との関連性のより高い位置で提供することも挙げられる。
上記の全ての例及び特徴は、技術的に可能な任意の方法で組み合わせることができる。他の特徴及び利点は、明細書及び特許請求の範囲から明らかになるであろう。
マイクロホン、及びマイクロホンによって受信された音声命令に応答し得るデバイスのシステムレイアウトを示す。
1つのオーディオ信号を使用して別のオーディオ信号を修正することができるシステムを示す。
ますます多くのデバイスで音声制御式ユーザインターフェース(VUI)が実装されるにつれ、複数のデバイスが同一の発声された命令を検出し、それに対処しようとすることがあるという問題が起きており、その結果、重複する応答から、異なる行動時点に矛盾した行動が行われることまで、様々な問題が生じている。また、発声された命令が、複数のデバイスによる出力又は行動をもたらす可能性がある場合、どのデバイスが行動を起こすべきかは不明瞭であることがある。いくつかのVUIでは、VUIの音声認識機能を起動するために、「起動ワード」、「ウェイクワード(wake word)」又は「キーワード」と称される、特別な語句が使用されている。VUIを実装しているデバイスは、常に起動ワードに対して聞き耳を立てており、起動ワードを聞くと、その後に聞いたどのような発声された命令に対しても構文解析を行う。これは、検出されている全ての音を構文解析するわけではないことによって、処理リソースを節約するようになされており、どのシステムが命令の対象であるかを明確にするのに役立ち得るが、起動ワードが個々のハードウェアではなくてサービスプロバイダと関連付けられているなどの理由から、複数のシステムが同じ起動ワードに聞き耳を立てている場合は、どのデバイスが命令に対処すべきであるかを決定する問題が取り残されている。
図1は、例示的なシステム100を示しており、独立型のマイクロホンアレイ102、スマートフォン104、拡声器106、及び一組のヘッドホン108のうちの1つ以上は、利用者の音声を検出するマイクロホンをそれぞれ有する(混乱を避けるために、話者を「利用者」と称し、デバイス106を「拡声器」と称しており、利用者によって発声された個別的なものは「発話」である)。また、「音」、「ノイズ」、及び同様の単語は、可聴音響エネルギーを指す。「オーディオ信号」は、そのような音を表す電気信号又は光信号を指し、マイクロホン又は他の電子機器によって生成されてもよく、拡声器によって可聴音響エネルギーに変換されてもよい。発話110を検出するデバイスのそれぞれは、聞こえたものをオーディオ信号としてディスパッチシステム112に送信する。複数のマイクロホンを有するデバイスの場合、それらのデバイスは、個々のマイクロホンによって表現された信号を結合して、単一の結合されたオーディオ信号を表現してよく、又はそれらのデバイスは、それぞれのマイクロホンによって表現された信号を送信してもよい。
ディスパッチシステム112は、デバイスのそれぞれが個々に接続されているクラウドベースのサービス、同じデバイスのうちの1つ若しくは関連デバイスの上で動作している局所的なサービス、一部若しくは全てのデバイスのそれら自体の上で協働して動作している分散サービス、又はこれら若しくは類似のアーキテクチャの任意の組み合わせであってよい。デバイスのそれぞれは、それらの異なるマイクロホン設計及びそれらの利用者への異なる近接性に起因して、発話110を聞くにしても異なる方法で聞き得る。例えば、独立型のマイクロホンアレイ102は、利用者がどこにいるかに関係なく発話を明瞭に聞くことを可能する高品質なビーム形成能力を有し得るが、ヘッドホン108及びスマートフォン104は、それぞれ、利用者がヘッドホンを装着している及び電話機を顔のところにまで持ち上げている場合にのみ利用者の声を明瞭に拾う高指向性近接場マイクロホンを有する。一方、拡声器106は、利用者が拡声器の近くにいてそれと向かい合っている場合は音声をよく検出するが、他の場合では低品質な信号を生成する、単純な全指向性マイクロホンを有し得る。
これら及び類似の要因に基づき、ディスパッチシステム112は、それぞれのオーディオ信号に対して信頼性スコアを計算する(これは、聞いたものを送信する前にその検出を採点し、そのスコアを対応のオーディオ信号と共に送信するデバイスを含み得る)。互いとの、及び/又は基準との信頼性スコアの比較に基づき、ディスパッチシステム112は、更なる処理のためにオーディオ信号のうちの1つ以上を選択する。これは、音声認識を局所的に実施し、直接の行動を起こすこと、又はインターネット若しくは任意のプライベートネットワークなど、ネットワーク114を介して別のサービスプロバイダにオーディオ信号を送信することを含み得る。例えば、デバイスのうちの1つが、信号に起動ワード「OK Google」が含まれているという高い信頼度を有するオーディオ信号を生成すると、そのオーディオ信号は、ハンドリングのためにGoogleのクラウドベースの音声認識システムに送信され得る。オーディオ信号が遠隔サービスに送信される場合、起動ワードは、その後に続いたいかなる発話とも共に含められ得る、又は発話のみが送信され得る。
信頼度の採点は、多数の要因に基づいてよく、また2つ以上のパラメーターにおいて信頼度を示してもよい。例えば、スコアは、どの起動ワードが使用されたか(及び/又は、とにかく起動ワードが使用されたかどうか)、又は利用者がマイクロホンに対して相対的にどこに位置しているか、についての信頼性の程度を示してよい。スコアはまた、オーディオ信号が高品質であるかどうかにおいても信頼性の程度を示してよい。一実施例では、ディスパッチシステムは、2つのデバイスからのオーディオ信号を、どちらも特定の起動ワードが使用されたという高信頼性スコアを有するものとして採点するが、それらのうちの一方をオーディオ信号の品質において低信頼度で採点し得、それと同時に、他方は、オーディオ信号品質において高信頼度で採点される。信号品質について高信頼性スコアを有するオーディオ信号は、更なる処理のために選択されることになり得る。
2つ以上のデバイスがオーディオ信号を送信するとき、信頼度を決定すべき重要なことのうちの1つは、それらのオーディオ信号が同じ発話又は2つ(若しくはそれ以上)の異なる発話のいずれを表しているかである。採点自体は、信号レベル、信号対雑音比(SNR)、信号内の残響量、信号のスペクトル成分、利用者の識別、マイクロホンに対して相対的な利用者の位置に関する知識、又はデバイスのうちの2つ以上でのオーディオ信号の相対的なタイミングなどの要因に基づいてよい。位置関連の採点及び利用者識別情報関連の採点は、オーディオ信号自体と、視覚的なシステム、利用者に装着された装着可能な追跡器、及び信号を提供しているデバイスの識別情報などの外部データとの両方に基づいてよい。例えば、スマートフォンがオーディオ信号の発生源である場合、そのスマートフォンの所有者は聞こえた声を有する利用者であるという信頼性スコアが高くなり得る。利用者位置は、複数の位置において、又は単一の位置にあるアレイ内の複数のマイクロホンにおいて受信されたオーディオ信号の強度及びタイミングに基づいて決定されてよい。
どの起動ワードが使用されたか、及びどの信号が最良であるかを判定することに加えて、採点は、オーディオ信号がどのように対処されるべきかの情報を与える追加の状況を提供してもよい。例えば、利用者が拡声器と向かい合っていることを信頼性スコアが示している場合は、スマートフォンに関連したVUIよりも、拡声器に関連したVUIが使用されるべきであるということであり得る。状況は、どの利用者が話していたか、利用者がデバイスに対して相対的にどこに位置してどこに向いていたか、利用者がどのような活動に従事していたか(例えば、運動、料理、TVの視聴)、何時であるか、又は他にどのようなデバイスが使用中であるか(オーディオ信号を提供しているもの以外のデバイスを含む)などといったことを含んでもよい。
いくつかの事例では、採点は、2つ以上の命令が聞こえたことを示す。例えば、2つのデバイスはそれぞれ、それらが異なる起動ワードを聞いたという、又は異なる利用者が話しているのをそれらが聞いたという、高信頼度を有してよい。その場合、ディスパッチシステムは、2つの要求、即ち、起動ワードが使用されたそれぞれのシステムに1つの要求を、又は両方の利用者が呼び出した単一のシステムに2つの異なる要求を送信してよい。他の事例では、例えば、2つ以上の応答を得るために、遠隔システムにどの信号を使用するか判断させるために、又は信号を組み合わせることによって声の認識を向上させるために、オーディオ信号のうちの2つ以上が送信されてよい。更なるハンドリングのためにオーディオ信号を選択することに加えて、採点はまた、他の利用者フィードバックをもたらしてもよい。例えば、命令が受信されたことを利用者が分かるように、選択されたデバイス上でライトが点滅させられてよい。
ディスパッチシステムがハンドリングのためにオーディオ信号を送信した先のサービス又はシステムから応答が受信されるとき、同様の考慮すべきことが出てくる。多くの事例では、発話の前後の状況もまた、応答のハンドリングについての情報を与えることになる。例えば、応答は、選択されたオーディオ信号が受信されたときの送信元のデバイスに送信されてよい。他の事例では、応答は、異なるデバイスに送信されてよい。例えば、独立型のマイクロホンアレイ102からのオーディオ信号が選択されていたが、VUIから返ってきた応答はオーディオファイルの再生を開始することである場合、応答は、ヘッドホン108又は拡声器106によって対処されるべきである。応答が、情報を表示することである場合は、スマートフォン104、又はスクリーンを有するいくつかの他のデバイスが使用されて応答を実現させることになり得る。採点により最良の信号品質を有することが示されたことから、マイクロホンアレイオーディオ信号が選択された場合、追加の採点は、利用者がヘッドホン108を使用していなかったが、拡声器106と同じ部屋の中にいたことを示している可能性があり、そのため、拡声器が応答の有望な対象である。デバイスの他の能力もまた考慮されることになり得る。例えば、オーディオデバイスのみが示されているが、音声命令は、照明又はホームオートメーションシステムなど、他のシステムを対象とし得る。したがって、発話に対する応答が、ライトを暗くすることである場合、ディスパッチシステムは、応答が指し示しているのは最も強いオーディオ信号が検出された部屋の中のライトであると推論し得る。他の潜在的な出力デバイスとしては、ディスプレイ、スクリーン(例えば、スマートフォン上のスクリーン、又はテレビモニタ)、家庭用器具、ドアロックなどが挙げられる。いくつかの実施例では、状況が遠隔システムに提供され、遠隔システムは、発話及び状況の組み合わせに基づいて具体的に特定の出力デバイスを対象にする。
言及したように、ディスパッチシステムは、単一のコンピュータ又は分散システムであってよい。提供される音声処理は、単一のコンピュータ又は分散システムによって、ディスパッチシステムと同一の広がりをもって又はこれから分離して、同様に提供されてよい。それらはそれぞれ、デバイスに対して完全に局所的に、クラウド内に完全に、又は両方の間で分割されて、配置されてよい。それらは、1つ又は全てのデバイスに組み込まれてよい。記載された様々なタスク、即ち、信号を採点すること、起動ワードを検出すること、ハンドリングのために信号を別のシステムに送信すること、命令について信号を構文解析すること、命令をハンドリングすること、応答を生成すること、どのデバイスが応答に対処すべきであるかを決定することなどは、共に組み合わされても、より多くのサブタスクに分解されてもよい。タスク及びサブタスクのそれぞれは、異なるデバイス又はデバイスの組み合わせによって、局所的に又はクラウドベース若しくは他の遠隔システム内で実施されてよい。
マイクロホンに言及するとき、特定のマイクロホン技術、トポロジー、又は信号処理に対していかなる意図的な制約も与えることなくマイクロホンアレイが含まれる。また、拡声器及びヘッドホンへの言及は、任意のオーディオ出力デバイス、即ち、テレビ、ホームシアターシステム、ドアベル、装着可能なスピーカなどを含むように理解されるべきである。
図2は、スマートスピーカ1(202)及びスマートスピーカ2(204)を有する第2の例示的なシステム200を示す。スマートスピーカは、1つ以上のマイクロホン及び1つ以上のスピーカを含み、処理及び通信能力を有する、インテリジェントパーソナルアシスタントの種類である。スマートスピーカの例は、Amazon Echoである。デバイス202及び204は、代替的に、「スマートスピーカ」として機能しないが、1つ以上のマイクロホン、処理能力、及び通信能力を有するデバイスであってもよい。そのような代替デバイスの例としては、Bose SoundLink(登録商標)無線スピーカなどのポータブル無線スピーカを挙げることができる。いくつかの例では、Amazon Echo Dot及びBose SoundLink(登録商標)スピーカなど組み合わせた2つ以上のデバイスがスマートスピーカを提供する。システム200はまた、修正システム206を含む。修正システム206は、デバイス202及び/又はデバイス204内のマイクロホンからの入力信号から複数のオーディオ信号を引き出す(又は受信する)ように構成されている。修正システム206はまた、引き出された各オーディオ信号の信頼性スコアを計算し、信頼性スコアに基づいて、1つのオーディオ信号を使用して別のオーディオ信号を修正するように構成されている。修正システム206の機能性は、デバイス202及び204の一方若しくは両方の一部であり得、並びに/又は、デバイス202及び204と通信することができる別個のデバイスの一部であり得、並びに/又は、クラウドベースのデバイス若しくはサービスであり得る。クラウドベースの態様は、ネットワーク208によって示される。線203によって示されるように、デバイス202及び204は、互いに通信することができる。家庭環境では、この通信は、典型的には(必ずしもそうではないが)、例えば、ルータを使用するWi−Fi経由などの無線である。代替的なものは、例えば、Bluetooth(登録商標)又はLANを使用した直接無線又は有線通信である。
デバイス202及び204のそれぞれの1つ以上のマイクロホンは、利用者210(発話)及び/又はノイズ源212からの音を検出する。典型的には、第1のデバイスは、他のデバイスよりも強くユーザの発話を拾う一方で、他のデバイスは、第1のデバイスよりも強くノイズを拾う。デバイス202及び204からのオーディオ信号を、信号が発話に基づく若しくは発話を含むか、又は否かという信頼性、及び信号が不要な音に基づく若しくは不要な音(本明細書では概して「ノイズ」と呼ばれる)を含むか、又は否かを計算するために処理することができる多くの方法が存在する。そのような方法の1つは、デバイス202及び204のそれぞれにおいて音声活動検出器(VAD)を使用することである。VADは、音が発話であるか否かを区別することができる。システム200が、発話を含むオーディオ信号のノイズコンテンツを低減するために使用されている場合には、VADをトリガしない受信した音に基づくオーディオ信号は、望ましくないノイズであると見なすことができるが、VADをトリガする受信した音に基づくオーディオ信号は、所望の発話である(又は少なくとも所望の発話を含む)と見なすことができる。
破線221〜224によって示されるように、この非限定的な例では、デバイス202は、ノイズ源212に対してよりも利用者210に近く、デバイス204は利用者210に対してよりもノイズ源212に近い。システムは、デバイスが所望の音源(例えば、利用者)に近いか、又は望ましくない音源(例えば、ノイズ源)に近いかどうかを判定する能力を含んでもよい。修正システム206は、この判定を実現することができる。上述のように、判定は、マイクロホンが音を検出するタイミングを比較することによって、又は引き出されたオーディオ信号の信号強度を比較することなどによって、又は引き出されたオーディオ信号の信号対雑音比を比較することによって、又は引き出されたオーディオ信号のスペクトル成分を比較することによって、又は引き出されたオーディオ信号内の残響を比較することによってなど、任意の技術的に実行可能な方法で行うことができる。一例では、多くの場合、デバイス202は、利用者210からの発話を、ノイズ源212からの音を拾うよりも強く拾うことになり(利用者210により近くなるため)、一方で、デバイス204では逆である。この場合、修正システム206は、デバイス202が利用者210に近く、デバイス212がノイズ源212に近いと判定することができる。修正システム206は、音源210及び/又は212とデバイス202及び/又は204との間の距離を計算することができる。修正システム206は、音源210及び/又は212の位置を計算することができる。位置は、非限定的な一例では、三角測量をされてもよい。
所望の音(発話)を含むオーディオ信号の品質は、ノイズ源からの引き出されたオーディオ信号を使用して、発話を最も強く受信したソースから引き出されたオーディオ信号を修正することによって改善することができる。そのため、デバイス204(ノイズ源212を最も強く拾う)から引き出されるオーディオ信号は、デバイス202(利用者210の発話を最も強く拾う)から引き出されるオーディオ信号を修正するために使用される。信号品質の改善は、音声ベースのオーディオ信号をノイズベースのオーディオ信号でフィルタリングするために、修正システム206を使用することによって実現することができる。例えば、デバイス204からのオーディオストリームは、デバイス202がノイズ源212から受信したノイズを更に低減するために、デバイス202からのオーディオストリームの適応フィルタに関する参照として使用することができる。オーディオ信号の適応フィルタリングは、当該技術分野において既知であり、したがって、本明細書では更に説明されない。
一例では、デバイス202及び204は、例えば、家庭内の部屋又はビジネス用会議室など、共通の領域内の異なる場所にあってもよい。1つの場合では、共通領域は、デバイス202及び204が両方ともノイズ源212からいくつかの音を拾う任意の領域と考えることができる。デバイス202及び204がスマートスピーカ、又は1つ以上のマイクロホン並びに処理能力及び通信能力を含む他のデバイスであるとき、利用者210は、デバイス202及び204の一方又は両方用のコマンドを発声してもよい。同時に、テレビ又は冷蔵庫が稼働していてもよく、又はデバイス202及び204のうちの1つが音楽を再生している場合がある。任意のそのような非音声音(「ノイズ」と呼ばれる)は、音声命令の適切な受信及び使用に干渉する恐れがある。したがって、所望の信号(発話/音声命令を有するもの)のノイズの低減は、発話を最も強く受信したスマートスピーカ又は他のデバイスの機能性を改善するのに役立つ。
異なる場所にある複数の(2つ以上の)マイクロホンは、2つ以上の異なるデバイス(例えば、それぞれ1つ又は複数のマイクロホンを有する2つのデバイス)のうちの1つ以上のマイクロホンを含むことができるか、又は単一のデバイスの複数のマイクロホンを含むことができる。第1の例では、各デバイスの複数のマイクロホンを、例えばビーム形成によって、所望の音源(利用者又はノイズ源のいずれか)に空間的に集中させることができる。単一のデバイスが使用される複数のマイクロホンを含む場合、ビーム形成を使用して、ノイズ源におけるビーム及び標的源(利用者)における異なるビームを導くことができる。これらのビームは、同じマイクロホンが両方のビームに使用されるときに連続的であり得(cab be sequential)、又はデバイスが十分な量のマイクロホンを有する場合に並列であり得る。
図2に示される場合、デバイス202及び204はそれぞれ、互いに及び修正システム206と無線通信することができる。多くの場合、システム206は、デバイス202又は204のうちの1つの処理を使用して実現されるので、システム206を含む別個のデバイスは存在しない。別の代替案は、例えば、クラウド208内のリモートデバイスでシステム206を実現することである。1つのシナリオでは、ノイズを拾うデバイス204は、その処理されたオーディオ信号をデバイス202に向けて流す。次いで、デバイス202は、入力ノイズベースのオーディオストリームを適応フィルタ内の参照として使用して、デバイス202からのオーディオ信号のノイズ成分を低減させる。それは、所望の発話を含む。
上述のシステム及び方法の実施形態は、当業者には明白であろうコンピュータ構成要素及びコンピュータ実装工程を含む。例えば、コンピュータ実装工程を実行するための命令は、コンピュータ実行可能命令として、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、フラッシュROM、不揮発性ROM、及びRAMなどのコンピュータ可読媒体上に記憶され得ることは、当業者によって理解されるはずである。更に、コンピュータ実行可能命令が、例えば、マイクロプロセッサ、デジタル信号プロセッサ、ゲートアレイなどの様々なプロセッサ上で実行され得ることが当業者によって理解されるべきである。説明を容易にするために、上記のシステム及び方法の全てのステップ又は要素が、コンピュータシステムの一部として本明細書で説明されるわけではないが、各ステップ又は要素が、対応するコンピュータシステム又はソフトウェアの構成要素を有し得ることを、当業者は認識するであろう。したがって、このようなコンピュータシステム及び/又はソフトウェアの構成要素は、それらの対応する工程又は要素(即ち、それらの機能性)を記載することによって有効化されるものであり、また本開示の範囲内にある。
複数の実装形態を説明してきた。それにもかかわらず、本明細書に記載される本発明の概念の範囲から逸脱することなく、追加の改変を行うことができ、したがって、他の実施形態も、以下の特許請求の範囲内にあることが理解される。
110 発話
112 ディスパッチシステム
114 ネットワーク
202 スマートスピーカ1
204 スマートスピーカ2
206 修正システム
208 ネットワーク
210 利用者
212 ノイズ源

Claims (24)

  1. システムであって、
    様々な位置に配置された複数のマイクロホンと、
    前記マイクロホンと通信している修正システムであって、
    複数のオーディオ信号を前記複数のマイクロホンから引き出し、
    引き出された各オーディオ信号に対して信頼性スコアを計算し、
    前記計算された信頼性スコアに基づいて、1つの引き出されたオーディオ信号を使用して、別のオーディオ信号を修正するように構成されている、修正システムと、
    を備えるシステム。
  2. 引き出された各オーディオ信号についての信頼性スコアを計算することが、前記引き出されたオーディオ信号が音声を含むかどうか、及び前記引き出されたオーディオ信号が非音声音を含むかどうかの信頼性を計算することを含む、請求項1に記載のシステム。
  3. 引き出された各オーディオ信号の信頼性スコアを計算することが、前記引き出されたオーディオ信号が音声信号であるかどうかを判定することを含む、請求項1に記載のシステム。
  4. 1つの引き出されたオーディオ信号を使用して、別のオーディオ信号を修正することは、第1のオーディオ信号を第2のオーディオ信号でフィルタリングすることを含む、請求項1に記載のシステム。
  5. 第1のオーディオ信号を第2のオーディオ信号でフィルタリングすることは、前記第2のオーディオ信号を前記第1のオーディオ信号の適応フィルタに対する参照として使用することを含む、請求項4に記載のシステム。
  6. 引き出されたオーディオ信号の数が、マイクロホンの数と等しくない、請求項1に記載のシステム。
  7. 前記マイクロホンのうちの少なくとも1つが、マイクロホンアレイを含む、請求項1に記載のシステム。
  8. 第1のマイクロホンアレイが、第1の音ターゲットに空間的に集中する、請求項7に記載のシステム。
  9. 第2のマイクロホンアレイが、第2の音ターゲットに空間的に集中する、請求項8に記載のシステム。
  10. 前記第1の音ターゲットが、人間の声を含む、請求項9に記載のシステム。
  11. 前記第2の音ターゲットが、ノイズ源を含む、請求項10に記載のシステム。
  12. 第1のマイクロホンは、第1のデバイスの一部であり、第2のマイクロホンは第2のデバイスの一部であり、第1のオーディオ信号は、前記第1のマイクロホンから引き出され、第2のオーディオ信号は、前記第2のマイクロホンから引き出される、請求項1に記載のシステム。
  13. 前記第2のデバイスが、前記第2のオーディオ信号を前記第1のデバイスに送信する、請求項12に記載のシステム。
  14. 前記第1のデバイスが、前記第2のオーディオ信号を使用して前記第1のオーディオ信号を修正する、請求項13に記載のシステム。
  15. 前記第1のデバイスが、前記第2のオーディオ信号を使用して前記第1のオーディオ信号のノイズを低減させる、請求項14に記載のシステム。
  16. 第1及び第2のマイクロホンが、両方とも第1のデバイスの一部である、請求項1に記載のシステム。
  17. 第1のオーディオ信号が、前記第1のマイクロホンから引き出され、第2のオーディオ信号が、前記第2のマイクロホンから引き出される、請求項16に記載のシステム。
  18. 前記第2のオーディオ信号を使用して、前記第1のオーディオ信号のノイズを低減させる、請求項17に記載のシステム。
  19. 前記複数のマイクロホンが、第1のデバイスの一部である、請求項1に記載のシステム。
  20. 前記第1のデバイスが、複数のそのマイクロホンを第1及び第2の別個の音源に空間的に集中させ、第1のオーディオ信号が、前記第1の音源から引き出され、第2のオーディオ信号が、前記第2の音源から引き出される、請求項19に記載のシステム。
  21. 前記第2のオーディオ信号を使用して、前記第1のオーディオ信号のノイズを低減させる、請求項20に記載のシステム。
  22. システムであって、
    異なる位置に配置された複数のマイクロホンであって、第1のマイクロホンが第1のデバイスの一部であり、第2のマイクロホンが第2のデバイスの一部であり、
    前記第1のデバイスが、前記第1のマイクロホンから第1のオーディオ信号を引き出すように動作し、前記第2のデバイスが、前記第2のマイクロホンから第2のオーディオ信号を引き出すように動作し、前記第2のデバイスが、前記第2のオーディオ信号を前記第1のデバイスに送信するように適合されている、複数のマイクロホンと、
    前記第1のデバイスの一部であり、前記第1及び第2のオーディオ信号に応答する修正システムであって、前記修正システムは、前記第2のオーディオ信号を使用して、前記第1のオーディオ信号のノイズを低減させる、修正システムと、
    を備えるシステム。
  23. システムであって、
    第1及び第2のマイクロホンを含む、第1のデバイスの一部である複数のマイクロホンであって、
    前記第1のデバイスが、前記第1のマイクロホンからの第1のオーディオ信号及び前記第2のマイクロホンからの第2のオーディオ信号を引き出すように動作する、複数のマイクロホンと、
    前記第1のデバイスの一部であり、前記第1及び第2のオーディオ信号に応答する修正システムであって、前記修正システムは、前記第2のオーディオ信号を使用して、前記第1のオーディオ信号のノイズを低減させる、修正システムと、
    を備えるシステム。
  24. システムであって、
    第1のデバイスの一部である複数のマイクロホンであって、
    前記第1のデバイスが、複数のそのマイクロホンを第1及び第2の別個の音源に空間的に集中させ、第1のオーディオ信号が、前記第1の音源から引き出され、第2のオーディオ信号が、前記第2の音源から引き出され、
    前記第1のデバイスは、前記第1の音源からの第1のオーディオ信号及び前記第2の音源からの第2のオーディオ信号を引き出すように動作する、複数のマイクロホンと、
    前記第1のデバイスの一部であり、前記第1及び第2のオーディオ信号に応答する修正システムであって、前記修正システムは、前記第2のオーディオ信号を使用して、前記第1のオーディオ信号のノイズを低減させる、修正システムと、
    を備えるシステム。
JP2019530671A 2017-09-25 2017-09-25 分散したマイクロホンからの音声の処理 Pending JP2019537071A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2017/053177 WO2019059939A1 (en) 2017-09-25 2017-09-25 SPEECH TREATMENT FROM DISTRIBUTED MICROPHONES

Publications (1)

Publication Number Publication Date
JP2019537071A true JP2019537071A (ja) 2019-12-19

Family

ID=60043303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019530671A Pending JP2019537071A (ja) 2017-09-25 2017-09-25 分散したマイクロホンからの音声の処理

Country Status (4)

Country Link
EP (1) EP3539128A1 (ja)
JP (1) JP2019537071A (ja)
CN (1) CN110121744A (ja)
WO (1) WO2019059939A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048067A (zh) * 2019-11-11 2020-04-21 云知声智能科技股份有限公司 一种麦克风响应方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008236077A (ja) * 2007-03-16 2008-10-02 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置
JP2013078117A (ja) * 2011-09-15 2013-04-25 Jvc Kenwood Corp ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
US20170076720A1 (en) * 2015-09-11 2017-03-16 Amazon Technologies, Inc. Arbitration between voice-enabled devices

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9633670B2 (en) * 2013-03-13 2017-04-25 Kopin Corporation Dual stage noise reduction architecture for desired signal extraction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008236077A (ja) * 2007-03-16 2008-10-02 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置
JP2013078117A (ja) * 2011-09-15 2013-04-25 Jvc Kenwood Corp ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
US20170076720A1 (en) * 2015-09-11 2017-03-16 Amazon Technologies, Inc. Arbitration between voice-enabled devices

Also Published As

Publication number Publication date
WO2019059939A1 (en) 2019-03-28
CN110121744A (zh) 2019-08-13
EP3539128A1 (en) 2019-09-18

Similar Documents

Publication Publication Date Title
US10149049B2 (en) Processing speech from distributed microphones
JP2019518985A (ja) 分散したマイクロホンからの音声の処理
US11922095B2 (en) Device selection for providing a response
JP6489563B2 (ja) 音量調節方法、システム、デバイス及びプログラム
US9269367B2 (en) Processing audio signals during a communication event
GB2495472B (en) Processing audio signals
US12003673B2 (en) Acoustic echo cancellation control for distributed audio devices
US10089980B2 (en) Sound reproduction method, speech dialogue device, and recording medium
CN104488224A (zh) 处理音频信号
JP2016080750A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2023542968A (ja) 定位されたフィードバックによる聴力増強及びウェアラブルシステム
WO2018193826A1 (ja) 情報処理装置、情報処理方法、音声出力装置、および音声出力方法
JP2022542113A (ja) 複数装置の起動ワード検出
JP2019537071A (ja) 分散したマイクロホンからの音声の処理
KR102204488B1 (ko) 통신 장치
JP7293863B2 (ja) 音声処理装置、音声処理方法およびプログラム
US12058509B1 (en) Multi-device localization
US11659332B2 (en) Estimating user location in a system including smart audio devices
WO2022239650A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200622

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210201