JP2020109498A - システム、及び、方法 - Google Patents

システム、及び、方法 Download PDF

Info

Publication number
JP2020109498A
JP2020109498A JP2019220476A JP2019220476A JP2020109498A JP 2020109498 A JP2020109498 A JP 2020109498A JP 2019220476 A JP2019220476 A JP 2019220476A JP 2019220476 A JP2019220476 A JP 2019220476A JP 2020109498 A JP2020109498 A JP 2020109498A
Authority
JP
Japan
Prior art keywords
target
speech
stream
enhancement
enhanced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019220476A
Other languages
English (en)
Other versions
JP2020109498A5 (ja
JP7407580B2 (ja
Inventor
フランチェスコ ネスタ
Nesta Francesco
フランチェスコ ネスタ
サイード モサイエブプール カスカリ
Mosayyebpour Kaskari Saeed
サイード モサイエブプール カスカリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synaptics Inc
Original Assignee
Synaptics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synaptics Inc filed Critical Synaptics Inc
Publication of JP2020109498A publication Critical patent/JP2020109498A/ja
Publication of JP2020109498A5 publication Critical patent/JP2020109498A5/ja
Application granted granted Critical
Publication of JP7407580B2 publication Critical patent/JP7407580B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】ノイズが多いオーディオ信号における、人の発話のようなターゲット音源を検出、追跡及び/又は強調するための方法及びシステムを提供する。【解決手段】オーディオ信号プロセッサ400において、ターゲット発話強調エンジン430は、マルチチャンネルオーディオ入力信号を分析し、複数の強調ターゲットストリームを生成し、ストリームの中に目的となる特定のターゲット発話が検出される確率を決定する。キーワードスポッティングエンジン440は、複数の強調オーディオ信号にそれぞれ適用される重みを計算し、強調オーディオ信号の中にキーワードが検出された確率を決定する。融合エンジン450は、複数の強調オーディオ信号に重みを適用して、さらなる処理のためにキーワードを強調した出力強調オーディオ信号を生成する。【選択図】図4

Description

本出願は、2018年12月6日に出願され、MULTI-STREAM TARGET-SPEECH DETECTION AND CHANNEL FUSIONと題する米国特許仮出願第62/776,422号からの優先権を主張する。この出願全体が参照により本願に組み込まれる。
本願は、1以上の実施形態において、一般にはオーディオ処理を行うシステム及び方法に関する。より詳しくは、例えば、キーワード検出のために1以上のオーディオターゲットを検出、追跡、及び/又は、強調することに関する。
音声対話に基づくヒューマンコンピューターインターフェース(HCI,human−computer interfaces)は、スマートフォンや音声制御式のデバイス、音声対話を含む他のデバイスの発展に伴い、近年非常に普及し始めている。音声起動式システムでは、対話は一般に2つのステージで取得される:(i)特定の起動キーワードを発言することで起動する、そして(ii)システムに処理させるための具体的な質問や音声コマンドを発言する。最初の段階は、ノイズを多く含むオーディオ信号の中に埋もれた特定のワードを認識するように、一般的に自動キーワードスポッティング(KWS,automatic keyword spotting)アルゴリズムで処理される。2番目の段階は、一般に自然言語及び自動発話認識システムにより処理される。既存のシステムは、一般的に、多くの現実世界の状況で許容可能な結果を出しているが、強いノイズが存在する環境では、結果に問題がしばしば生じる。同様に、遠距離VoIPアプリケーションでは、しばしば目的である特定のターゲット音声のみをストリーミング配信することが必要とされるが、これは大きなノイズや他の話者の干渉がある場合には困難な処理である。そのため、ASRとVoIPアプリケーションの両方について、ノイズが多い環境でのキーワードスポッティングと音声強調とが改善されたシステムと方法に対する継続的なニーズが存在する。
本開示は、ノイズが多いオーディオ信号における、例えば人の発話のようなターゲット音源を検出、追跡、及び/又は、強調するための方法、及び、システムを提供する。オーディオ処理システム、及び、方法は、マルチチャンネルオーディオ入力を受音すること及び対応するマルチチャンネルオーディオ信号を生成するように作動可能なオーディオセンサアレーと、ターゲット発話決定ロジックと、自動発話認識エンジンと、を含む。オーディオプロセッシングデバイスは、マルチチャンネルオーディオ入力信号を分析し、複数の強調ターゲットストリームを生成するように作動可能なターゲット発話強調エンジンと、ストリームの中の特定のターゲット発話の品質、及び/又は、存在の信頼性を決定するようにそれぞれが作動可能な複数の事前学習された検出エンジンを備えるマルチストリーム事前学習ターゲット発話検出生成部であって、複数の強調ターゲットストリームに関する複数の重みを決定するように作動可能なマルチストリームターゲット発話検出生成部と、複数の重みを前記強調ターゲットストリームに適用して、強調出力信号を生成するように作動可能な融合サブシステムと、を備える。
本開示の範囲は、このセクションに参照として含まれている請求項により定義される。1以上の例についての後述する詳細な説明を考慮することで、当業者は、その追加的な利点の実現と同様に、本発明の実施形態の内容をより完全に理解し得る。最初に簡単に説明される、添付された複数枚の図が参照されよう。
本開示の側面とその利点は、以下の図面と後述の詳細な説明とを参照することでより良く理解され得る。1以上の図で示されている同様の要素を示すために、同様の参照番号が用いられるが、そこで示すものは、本開示の例を図示することを目的としているのであり、同じものに限定することを目的とはしていないことが理解されなくてはならない。図の構成要素は必ずしも正寸ではなく、本開示の原理を明確に示すことがより重視される。
図1は、1以上の実施形態に係る、マルチストリームターゲット発話スポッティングとストリーム信号融合の例を示す図である。
図2は、1以上の実施形態に係る、マルチストリームキーワードスポッティングシステムの実装例を示す図である。
図3は、1以上の実施形態に係る、キーワードスポッティングシステムの例を示す図である。
図4は、1以上の実施形態に係る、キーワードスポッティングシステムのために用いられるオーディオ処理コンポーネントの例を示す図である。
ノイズを多く含むオーディオ信号におけるターゲット音源(例えば人の発話)を検出、追跡、及び/又は、強調するための方法、及び、システムがここに開示される。本システム及び方法は、改善されたマルチストリームターゲット発話検出及びチャンネル融合を含む。
様々な実施形態では、音声起動式システムは、ユーザが(i)特定の起動キーワードを発言することで起動する、そして(ii)システムに処理させるための具体的な質問や音声コマンドを発言する、ことによって作動する。最初の段階は、ノイズを多く含むオーディオ信号の中に埋もれた特定のワードを認識するように、機械学習法を用いた自動キーワードスポッティング(KWS,keyword spotting)アルゴリズムで処理される。第2の段階は、一般にはクラウドサーバー上で動作する自然言語及び自動発話認識システムにより処理される。ここに開示される実施形態は、KWSに供給する前に、クラウドのASRエンジンに送る前に、又は、VoIPアプリケーションを通じて配信する前に、オーディオ信号を事前処理する改善されたマルチチャンネル発話強調を含む。
オーディオ信号からノイズを減少するためのオンラインのマルチチャンネル発話強調技術には、音声対応デバイスのユーザビリティを改善するために本開示において取り組まれる、いくつかの概念的な限界がある。例えば、オンラインのマルチチャンネル発話強調技術は、概して、何が強調されるターゲット発話を構成するかについて明確な定義を必要とする。この定義は、音声活性検出(VAD,voice activity detector)により、又は、予想される音源の到達方向(DOA,direction of arrival)といったいくつかの幾何学的な知識を活用することで、取得し得る。VADに基づくマルチチャンネルシステムは、一般に、発話を含まないノイズを低減させることが出来る。しかしながら、多くの状況で、ノイズ源は、テレビ又はラジオからの音声や、競合する話者の発話といった、音声活性としてとして同定される発話コンテンツを含む場合がある。一方で、幾何学的な知識に基づく強調法は、目的の話者の物理的な位置についての予備知識を必要とする。ハンズフリーな遠距離音声アプリケーションでは、この位置はしばしば未知であり、同じ環境に二人の話者がいるときには、曖昧性無く決定することは困難であり得る。オンラインのマルチチャンネル発話強調技術の他の制限は、その技術が、主として話者の位置がマイクに対して不変である場合に効果的であることである。話者の位置が大きく変化するときには、フィルタリングのパラメーターを新たな幾何学的な構成に適応させる必要があり、適用させている間に信号の品質が深刻に低下する恐れがある。
VADに基づく強調の限界を部分的に解決する一つのアプローチは、マルチチャンネルブラインド音源分離(BBS,blind source separation)である。BBS法は、何が目的のターゲット音源であるか明確な定義抜きで、出力音源信号を推定し得る。実際に、それらは、例えば3D空間における異なる物理的な位置から伝わった個別の音源といった個別の空間成分に、混合物を分解しようとするのみである。このことが、BBSに複数の話者に関連する信号を分離させることを可能にする。しかしながら、特定のアプリケーションでは、依然として何が目的となる“ターゲット”の発話であるかを事後的に定義する必要がある。
前述の問題を解決するため、マルチチャンネル音源強調/分離を並列の事前学習検出部と組合せた、目的となる特定の発話をスポットするシステム構成がここに開示される。マルチストリームが生成され、目的たる特定の信号/音源を認識するように学習された複数の検出部に供給される。そして、全てのストリームを、より検出の信頼性が高いストリームが含まれる、あるいは、優位を占める単一のストリームに組合せるために用いられる重みを生成するために、検出の尤度が用いられる。
様々な実施形態において、ここに開示されたシステム構成は、発話と重複する継続的なノイズ源が存在する状況において、ASRアプリケーションのためのKWS検出の性能を改善し得る。この状況の例として、ユーザがシステムと対話しようとしている間に継続的に大きなオーディオ信号を発するTVが存在する、という場合が挙げられる。本システム構成は、ターゲット発話検出の反応に応じた最適な出力信号を組合せることにより、ASRエンジンにとって最適に強調された出力信号もまた生成し得る。
図1を参照して、本願の1以上の実施形態におけるターゲット発話検出システム100の例が図示されている。システム100は、マルチストリーム信号生成サブシステム102と、マルチストリームターゲット発話検出部(TSD,target−speech detector)エンジン120と、(iii)融合サブシステム140と、を備える。
マルチストリーム信号生成サブシステム102は、複数であるN個の異なる発話強調モジュールを備える。各発話強調モジュールは、異なる強調分離の基準を用いる。様々な実施形態では、強調分離の基準は、(i)目的方向が異なるように固定されたビームフォーミング(複数)、又は、目的方向が異なるように適応するビームフォーミング(複数)のような適応空間フィルタリングアルゴリズム(複数)、(ii)例えば、遅延和ビームフォーミングやカーディオイド形状のもの等といったような、固定ビームフォーミングアルゴリズム(複数)、(iii)独立した音源(複数)に対応する複数の出力を作るブラインド音源分離アルゴリズム(複数)、(iv)発話の統計モデル(複数)と信号ノイズ比(SNR,signal−to−noise ratio)追跡に基づく伝統的な単一チャンネル強調、(v)非負値行列因子分解(NMF,Non−Negative Matrix Factorization)やニューラルネットワークに基づくような、データ駆動方式の発話強調法(複数)、及び/又は、(vi)他のアプローチ、を含む場合がある。各モジュールは、発話強調に用いられる個々のアルゴリズムに依存し得る、異なる数の出力ストリームSを作っても良い。
マルチストリーム信号生成サブシステム102によって作られた出力ストリーム110(複数)は、複数の並列なTSDエンジン122に供給される。TSDエンジン122は、伝統的な混合ガウスモデルと隠れマルコフモデル、及び/又は、長・短期記憶型(LSTM,long short−term memory)、ゲート付き再帰型ユニット(gated recurrent unit,GRU)、あるいは、他のニューラルネットワークの技術といった再帰型ニューラルネットワークを含み、ターゲット発話/発話者又はキーワードスポッティング技術に基づき得る。各TSDエンジン122は、対応するTSDエンジン122への入力信号が特定の学習済みターゲット発話を含むことの信頼性に相関する事後重み124を作るように作動可能である。いくつかの実施形態では、TSDエンジン122は、クリーンな発話に対してより高い事後(例えば、学習データ内のノイズ量を限定することにより)を作るようなバイアスを持つように学習される。そのため、マルチストリーム信号を生成するステージに供給される入力信号104(複数)が同じであるため、高い事後は、対応する入力発話信号がクリーンで歪みがない状態に近いことを暗示する。様々な実施形態では、重み124は、個別のTSD事後確率
Figure 2020109498
を次のように標準化することで得られる。
Figure 2020109498
融合サブシステム140は、重み124を用い、プログラム可能な発見的手法を適用して、出力ストリーム110を組合せる。組合せは、次のように信号の重み付き和で求められる。
Figure 2020109498
ここで、f(・)は重みの非線形関数(例えば、“max”演算や他のコントラスト関数)である。チャンネルの時間一致性を活用するといった、メモリを使った関数f(・)を用いて、より洗練された組合せが実現可能である。例えば、いくつかのストリームの重みが互いに同じであった場合に、融合サブシステムはこの同じチャンネルの寄与度を選択するようなバイアスを持つようにされても良い。これにより、チャンネルの不連続性が低減される。いくつかの実施形態では、優先度が動的に定義され得る。
TSDエンジン120は、ターゲット発話検出d(l)のための組合せ事後を生成するように作動可能な、プログラム可能なロジックを更に備える。この事後は、次のように定義される最終検出に用いることができる。
Figure 2020109498
ここで、
Figure 2020109498
は出力である
Figure 2020109498
に接続された検出のための検出閾値であり、
Figure 2020109498
は、個々の検出から組合せ検出を計算する関数であり、論理演算子の組合せであると理解され得る。組合せ出力y(l)と組合せ検出d(l)とは、クラウド、ネットワークサーバー、又は、他のホストシステムで実装され得る自動発話認識エンジン150に供給される。
前述の観点では、本開示の1以上の実施形態は、マルチチャンネルオーディオ入力信号を分析し、複数の強調ターゲットストリームを生成するように構成されたターゲット発話強調エンジンと、ストリームの中の特定のターゲット発話の品質の信頼性、及び/又は、存在の信頼性を決定するようにそれぞれが構成された複数のターゲット発話検出エンジンを備えるマルチストリームターゲット発話検出生成部であって、強調ターゲットストリームに関する複数の重みを決定するように構成されたマルチストリームターゲット発話検出生成部と、複数の重みを強調ターゲットストリームに適用して、組合せ強調出力信号を生成するように構成された融合サブシステムと、を備えるシステムを含む。
本システムは、人間の発話と環境ノイズとを感知し、対応するマルチチャンネルオーディオ入力信号を生成するように構成されたオーディオセンアレーを更に備えても良い。いくつかの実施形態では、ターゲット発話強調エンジンが、マルチチャンネルオーディオ入力信号を分析し、前記複数の強調ターゲットストリームの一つを出力するようにそれぞれ構成された、適応空間フィルタリングアルゴリズム、ビームフォーミングアルゴリズム、ブラインド音源分離アルゴリズム、シングルチャンネル強調アルゴリズム、及び/又は、ニューラルネットワークを備える複数の発話強調モジュールを備える。いくつかの実施形態では、ターゲット発話検出エンジンが、混合ガウスモデル、隠れマルコフモデル、及び/又は、ニューラルワーク、を備え、入力オーディオストリームが特定のターゲット発話を含んでいる信頼性に相関する事後重みを作るように構成される。
図2を参照して、システムの可能な特定の実装の例がここに説明される。図示された例は、特定の発話キーワードを含み、かつ、発話の品質が最も良いストリームを選択することを目的とする事例に対応する。キーワードスポッティングシステム200は、マルチストリーム信号生成サブシステム202と、マルチストリームKWS(MSKWS,Multi Stream KWS)エンジン220と、(iii)融合サブシステム240と、を備える。マルチストリーム信号生成サブシステム202は、複数の発話強調モジュール202a―gを備える。各発話強調モジュールは異なる強調分離の基準を用いる。マルチストリーム信号生成サブシステム202により生成された出力ストリーム210は、複数の並列のKWSエンジン222a―hに供給される。各KWSエンジン222a−hは、KWSエンジン222a−hに対応する入力信号に特定のターゲットキーワードが含まれることの信頼性に相関する、対応する事後重みである
Figure 2020109498
を作るように作動可能である。
融合サブシステム240は、信号重みである
Figure 2020109498
を用い、出力ストリーム210を組合わせて、組合せ出力y(l)を作るようにプログラムされている。MSKWSエンジン220は、KWS検出d(l)のための組合せ事後を作るように作動可能なプログラム可能なロジック224を更に備える。組合せ出力y(l)と検出d(l)はその後、更なる処理のために自動発話認識エンジンへ供給される。
この例では、4つの異なる“強調”アルゴリズムのカテゴリーが定義されている。第1のカテゴリーは、予め定められた異なる方向に指向されたビームフォーマー(強調ブロック202a、202b、202c、及び、202d)を用いて4つの強調出力ストリームを作る。各ビームフォーマーは、指向された方向に単一のゲインを維持する間、ノイズを抑制するために複数の入力信号を組合わせる。ビームフォーマーのアルゴリズムは、遅延和(D&S,Delay and Sum)のような固定フィルタアンドサム、又は、最小分散無歪応答(MVDR,Minimum Variance Distortionless Response)のような適応アルゴリズムであってよい。
第2のカテゴリーは、方向θ(l)に指向された適応ビームフォーマー(強調ブロック202e)に代表される。この方向は入ってくるデータによりオンラインで適応される。例えば、音声活性検出(VAD,voice activity detection)が方向θ(l)の更新に用いられる。θ(l)は更に、ビデオキャプチャー、活性超音波イメージング、RFID勾配マップ、等といった他のマルチモーダル信号から取得され得る。この強調アルゴリズムの目的は、θ(l)の推定が信頼できる場合に、より正確な出力信号を供給することである。このカテゴリーは、複数の方向θ(l)が取得可能である場合に、より多くの出力ストリームを生成可能であることに注意されたい。例えば、複数の音源を追跡するためのシステムは、最も優位な音源の角度方向と仰角とを推測することが出来る。適応ビームフォーミングは、その後、それらの方向(複数)で強調されたストリームを複数生成し得る。しかし、システムのユーザの発話を含むストリームはただ一つであり得る。強調された信号それ自体は、MVDR又は広義固有値(又は最大SNR)ビームフォーマーにより取得され得る。
第1及び第2カテゴリーのアルゴリズムに関しては空間手がかりが用いられるが、第3のカテゴリーはいかなる空間的手がかりにも依存しない強調方法(例えば、信号チャンネル強調ブロック202f)に代表される。この方法は、単一チャンネルの観測から取得され得るノイズのスペクトラル統計量のみを推定し、任意のノイズを強調することを目的とし得る。この方法は、従来のデータ非依存SNRに基づく発話強調(例えば、ウイナーフィルタリング)、又は、データ依存若しくはモデルベースアルゴリズム(例えば、ディープニューラルネットワーク又はNMFによるスペクトラムマスク推定)により実現され得る。
第4のカテゴリーは、入力(複数)を統計的に独立な出力ストリーム(複数)に分解するBSSアルゴリズム(202g)に代表される。この方法は、ターゲット発話をノイズ又は他の干渉発話源から分離するものであり、独立ベクトル分析、独立成分分析、マルチチャンネルNMF、深層クラスタリング、又は、教師なし音源分離のための他の方法、をとして実装され得る。
図示された実施形態では、強調の4つの異なるカテゴリーは、異なる現実の条件における異なる特定の動作でそれぞれに特徴づけられるように選択される。例えば、第1のカテゴリーにおける出力信号は、ユーザが、指向の方向に位置し、反響音が無視できる場合に、良好な出力信号を生成することが期待される。しかし、状況が適合しない場合には出力は目立って破壊される。一方で、第2のカテゴリーのアプローチでは、それらがデータにより更新されるにつれ、真なる音源の方向に適応することができる。一方で、ノイズがターゲット発話と同方向に位置する場合、指向性のビームフォーミングと比較して、BBSに基づく第4の方法がより良い分離されたストリームを供給し得る。同時に、音源が移動している、又は、断続的に活動する場合、指向性又はBBSフィルター推定を用いると本質的な不確実性が存在し得る。これらの状況では、音源の空間情報に完全に非依存であるため、第3のカテゴリーにより供給される信号が、より信頼性が高くなりえる。
互いに直交するカテゴリー(複数)に属する技術(複数)により生成された出力ストリームを有することにより、システムは、観測された特定のシナリオにとって最適な出力ストリームを少なくとも1つ作ることが出来る。最終検出を生成し、かつ、自然言語ASRエンジンに送信される組合せ出力を生成するように、KWSエンジンが全てのストリームに適用されても良い。この例では、最大(正規化)検出事後重みを有するストリームが次のように選択される。
Figure 2020109498
さらに、図示された実施形態の最終検出の状態が、全ての個別のトリガー検出の組合せ論理ORとして決定される。図2で示されたシステムは、図1や本明細書の他の場所で示された一般的な構成の範囲をより良く理解するために例示されたものであり、他のシステムの実装も本開示の範囲に含まれることが理解され得る。図示されたシステムでは、改善されたKWD検出とASRアプリケーションのためのチャンネル選択とを対象としているが、他の実施形態ではここで開示された構成が他のアプリケーションに変更され得る。例えば、図2で示されたようなKWSエンジンを用いる代わりに、発話活性を予測し、又は、平均SNRに関連する正規化スコアを生成して信号の品質を予測し、そして、ボイスオーバーIP(VoIP,Voice−over−IP)アプリケーションのために使用可能な結合チャンネルを生成する再帰ニューラルネットワークが実装されても良い。そして、これらのネットワークの事後は、ストリームをどのように結合すればVoIPアプリケーションのためのSNRが最大化されるか、についての指標を与える。他の実施形態では、KWSは、特定の話者の発話を含むチャンネルのみに焦点を当てるために、音声認証(VA,voice authentication)システムに置き換えられ得る。
図3は、本開示の様々な実施形態に係る、キーワードスポッティングサブシステムを実装し得るオーディオプロセッシングデバイス300を図示している。オーディオプロセッシングデバイス300は、オーディオセンサアレー305のようなオーディオ入力、オーディオ信号プロセッサ320、及び、ホストシステムコンポーネント350を備えている。オーディオセンサアレー305は、それぞれが音波をオーディオ信号に変換し得る1以上のセンサを備える。図示された環境では、オーディオセンサアレー305は、それぞれがマルチチャンネルオーディオ信号の一つのオーディオチャンネルを生成する複数のマイクロフォン305a〜305nを備える。
オーディオ信号プロセッサ320は、オーディオ入力回路部322と、デジタルシグナルプロセッサ324と、オプションとしてオーディオ出力回路部326と、を備える。様々な実施形態では、オーディオ信号プロセッサ320は、アナログ回路部と、デジタル回路部と、メモリに記憶されたプログラムの命令を実行するように作動可能なデジタルシグナルプロセッサ324と、を備える集積回路として実装され得る。オーディオ入力回路部322は、例えば、オーディオセンサアレー305とのインターフェースと、アンチエイリアシングフィルターと、アナログ―デジタル変換回路部と、エコー除去回路部と、他のオーディオプロセッシング回路部及びコンポーネントと、を備える場合がある。
デジタルシグナルプロセッサ324は、本開示の実施形態としてここで議論された様々な演算を実行するような、1以上のプロセッサ、マイクロプロセッサ、シングルコアのプロセッサ、マルチコアのプロセッサ、マイクロコントローラ、プログラマブル論理デバイス(programmable logic device)(PLD)例えばフィールドプログラマブルゲートアレー(field programmable gate array)(FPGA)、デジタルシグナルプロセッサ(digital signal processing)(DSP)、又は、ハード配線、ソフトウェアの命令の実行、若しくは、両者の組合せ、により構成され得る他の論理デバイス、を含み得る。
デジタルシグナルプロセッサ324は、マルチチャンネルデジタルオーディオ入力信号を処理して、1以上のホストシステムコンポーネント350に出力される強調オーディオ信号を生成するように作動可能である。1以上の実施形態では、デジタルシグナルプロセッサ324は、バス又は他の電気的通信インターフェースを介して、ホストシステム350とインターフェース及び通信を行うように作動可能である。様々な実施形態では、マルチチャンネルオーディオ信号は、ノイズ信号と、少なくとも1つの所望のターゲットオーディオ信号(例えば、人の発話)と、を混合したものを含み、デジタルシグナルプロセッサ324は、目的外のノイズ信号を低減又は除去して、所望のターゲット信号を分離又は強調するように作動可能である。デジタルシグナルプロセッサ324は、エコー除去と、ノイズ除去と、ターゲット信号強調と、ポストフィルタリングと、他のオーディオ信号処理と、を実行するように作動可能であり得る。
オプションとしてのオーディオ出力回路部326は、少なくとも1つのスピーカー(例えばスピーカー310a及び310b)に出力するために、デジタルシグナルプロセッサ324から受信したオーディオ信号を処理する。様々な実施形態では、オーディオ出力回路部326は、1以上のデジタルオーディオ信号を対応するアナログ信号に変換するデジタル―アナログ変換器と、スピーカー310a及び310bを駆動するための1以上のアンプを備え得る。
オーディオプロセッシングデバイス300は、ターゲットオーディオデータを受信及び検出するように作動可能な如何なるデバイス、例えば、携帯電話、スマートスピーカー、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、音声で制御可能な機器、又は、自動車、として実装されても良い。ホストシステムコンポーネント350は、オーディオプロセッシングデバイス300を作動されるための様々なハードウェア及びソフトウェアのコンポーネントを備え得る。図示された実施形態では、ホストシステムコンポーネント350は、プロセッサ352と、ユーザインターフェースコンポーネント354と、ネットワーク380(例えば、インターネット、クラウド、ロカールエリアネットワーク、又は、電話ネットワークなど)、モバイルデバイス384といった外部のデバイスやネットワークと通信するための通信インターフェース356と、メモリ358と、を備える。
プロセッサ352は、本開示の実施形態としてここで議論された様々な演算を実行するような、1以上のプロセッサ、マイクロプロセッサ、シングルコアのプロセッサ、マルチコアのプロセッサ、マイクロコントローラ、プログラマブル論理デバイス(PLD)例えばフィールドプログラマブルゲートアレー(FPGA)、デジタルシグナルプロセッサ(DSP)、又は、ハード配線、ソフトウェアの命令の実行、若しくは、両者の組合せ、により構成され得る他の論理デバイスを含み得る。ホストシステムコンポーネント350は、バス又は他の電気的通信インターフェース等を介して、オーディオ信号プロセッサ320及び他のシステムコンポーネント350とインターフェース及び通信を行うように作動可能である。
オーディオ信号プロセッサ320及びホストシステムコンポーネント350が、ハードウェアコンポーネントと、回路部と、ソフトウェアと、の組合せを組み込むように示されているが、いくつかの実施形態では、ハードウェアコンポーネント及び回路部が実行するように作動可能に設けられている機能の少なくとも一部またはすべてが、メモリ358又はデジタルシグナルプロセッサ324のファームウェアに記憶されたソフトウェアの命令及び/又は構成データに応じてプロセッサ352及び/又はデジタルシグナルプロセッサ324が実行するソフトウェアモジュールとして実装され得ることが理解され得る。
メモリ358は、オーディオデータやプログラムの命令を含む、データ及び情報を記憶するように作動可能な1以上のメモリデバイスとして実装され得る。メモリ358は、RAM(Random Access Memory)、ROM(Read−Only Memory)、EEPROM(Electrically−Erasable Read−Only Memory)、フラッシュメモリ、ハードディスクドライブ、及び/又は、他の種類のメモリといった、揮発性及び不揮発性の1以上の様々な種類のメモリデバイスを含む、メモリデバイスを備え得る。
プロセッサ352は、メモリ358に記憶されているソフトウェアの命令を実行するように作動可能であり得る。様々な実施形態では、発話認識エンジン360は、オーディオシグナルプロセッサ320から受信した強調オーディオ信号に対して、音声命令の同定及び実行を含む処理を実行可能に設けられている。音声コミュニケーションコンポーネント362は、モバイル若しくはセルラー方式の電話ネットワークを通じた音声通話、又は、IP(internet protocol)ネットワークを介したVoIP通話等を通じて、モバイルデバイス384又はユーザデバイス386といったような1以上の外部デバイスとの音声コミュニケーションを促進するように作動可能であり得る。様々な実施形態では、音声コミュニケーションは強調オーディオ信号を外部のコミュニケーションデバイスへ伝送することを含む。
ユーザインターフェースコンポーネント354は、ディスプレイ、タッチパッドのディスプレイ、キーパッド、1以上のボタン、及び/又は、ユーザにオーディオプロセッシングデバイス300と直接情報交換を可能にする他の入力/出力コンポーネントを含み得る。
通信インフェース356は、オーディオプロセッシングデバイス300と外部デバイスの通信を促進する。例えば、通信インターフェース356は、オーディオプロセッシングデバイス300と、モバイルデバイス384といった1以上のローカルデバイス、又は、(例えば、ネットワーク380を介した)リモートサーバ382とのネットワークアクセスを提供するワイヤレスルーターと、の(例えば、802.11といった)Wi−Fi又はブルートゥース(登録商標)接続を可能にする場合がある。様々な実施形態では、通信インターフェース356は、オーディオプロセッシングデバイス300と1以上の他のデバイスとの直接又は間接の通信を促進する他の有線及び無線通信コンポーネントを含み得る。
図4は、本開示の様々な実施形態に係るオーディオ信号プロセッサ400を示している。いくつかの実施形態では、オーディオ信号プロセッサ400は、図3のデジタルシグナルプロセッサ324のようなデジタルシグナルプロセッサとして実装された、アナログ及びデジタル回路部及びファームウェアロジックとを含む1以上の集積回路として具体化される。図示されているように、オーディオシグナルプロセッサ400はオーディオ入力回路部415と、サブバンド周波数アナライザ420と、ターゲット発話強調エンジン430と、キーワードスポッティングエンジン440と、融合エンジン450と、を備える。
オーディオ信号プロセッサ400は、マルチチャンネルオーディオ入力を、複数のオーディオセンサ405a―nを備えるセンサアレー405のような複数のオーディオセンサから受信する。オーディオセンサ405a―405nは、図3のオーディオプロセッシングデバイス300、それに対して接続された外部コンポーネント、又は、リアルタイムでマルチチャンネルオーディオ入力をオーディオ信号プロセッサ400に提供するための他の装置、といったオーディオプロセッシングデバイスと統合されたマイクロフォンを含み得る。
オーディオ信号は、アンチエイリアシングフィルター、アナログ―デジタル変換器、及び/又は、他のオーディオ入力回路部を含み得るオーディオ入力回路部415によって初めに処理され得る。様々な実施形態では、オーディオ入力回路部415は、デジタルで、マルチチャンネルな、時間領域のNチャンネルを有するオーディオ信号を出力する。なお、Nはセンサ(例えば、マイクロフォン)入力の数である。マルチチャンネルオーディオ信号は、サブバンド周波数アナライザ420に入力される。サブバンド周波数アナライザ420は、マルチチャンネルオーディオ信号を連続するフレーム(複数)に区分し、各チャンネルの各フレームを複数の周波数サブバンドへ分解する。様々な実施形態では、サブバンド周波数アナライザ420は、フーリエ変換処理と、複数の周波数値域を含む出力と、を含む。分解されたオーディオ信号は、その後、ターゲット発話強調エンジン430に供給される。発話ターゲット強調エンジン430は、オーディオチャンネル(複数)のフレーム(複数)を分析し、所望の発話を含む信号を生成するように作動可能である。ターゲット発話強調エンジン430は、オーディオデータのフレームを受信し、フレーム内に人の発話が存在するかしないかを決定するように作動可能な音声活性検出部を含み得る。いくつかの実施形態では、発話ターゲット強調エンジンは、複数の音源を検出及び追跡し、1以上のターゲット音源から人の発話が存在するかしないかを同定する。ターゲット発話強調エンジン430は、サブバンド周波数アナライザ420からサブバンドのフレーム(複数)を受信し、マルチストリームキーワード検出と、チャンネル選択システムと、ここで開示された方法と、により、発話ターゲットであると決定されたオーディオ信号の部分を強調し、ノイズであると決定されたオーディオ信号の他の部分を抑制する。様々な実施形態では、ターゲット発話強調エンジン430は、一フレーム毎にマルチチャンネルオーディオ信号を復元して、複数の強調オーディオ信号を形成する。強調オーディオ信号は、キーワードスポッティングエンジン440と融合エンジン450とに伝達される。キーワードスポッティングエンジン440は、複数の強調オーディオ信号にそれぞれ適用される重みを計算し、強調オーディオ信号の中にキーワードが検出された確率を決定する。融合エンジン450は、複数の強調オーディオ信号に重みを適用して、さらなる処理のためにキーワードを強調した出力強調オーディオ信号を作る。
適用可能な場合には、本開示の様々な実施形態は、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組合せ、を用いて実装され得る。さらに、適用可能な場合には、ここで示された様々なハードウェアのコンポーネント、及び/又は、ソフトウェアのコンポーネントは、本開示の精神から逸脱せず、ソフトウェア、ハードウェア、及び/又は、その組合せを備える複合コンポーネントに結合され得る。適用可能な場合には、ここで示された様々なハードウェアのコンポーネント、及び/又は、ソフトウェアのコンポーネントは、本開示の範囲から逸脱せず、ソフトウェア、ハードウェア、及び/又は、両者を備えるサブコンポーネントに分離され得る。加えて、適用可能な場合には、ソフトウェアのコンポーネントはハードウェアのコンポーネントとして実装され得ること、及びその逆も可能であることが理解される。
プログラムコード、及び/又は、データといったソフトウェアは、本開示のとおり、1以上のコンピュータ読取り可能な媒体に記憶され得る。ここで示されたソフトウェアは、1以上の一般用途の又は専用のコンピュータで、及び/又は、コンピューターシステムで、ネットワーク上で、及び/又は、他の方法により、実装され得ることも更に理解される。適用可能な場合には、ここに記載された様々なステップの順序は、ここに記載された機能を供給するように、変更、複合ステップへの結合、及び/又は、サブステップに分割され得る。
上述の開示は、開示されたそのままの形態や特定の用途分野に本開示を限定するように意図されたものではない。従って、ここに明示されたか暗示されたかにかかわらず、本開示に照らして、様々な代替例、及び/又は、修正が本開示に対して可能であることが理解される。ここまで本開示の例を説明してきたが、本開示の範囲を逸脱することなく形態や詳細を変更し得ることを当業者は認識し得る。よって、本開示は請求項のみによって限定される。

Claims (20)

  1. マルチチャンネルオーディオ入力信号を分析し、複数の強調ターゲットストリームを生成するように作動可能なターゲット発話強調エンジンと、
    前記ストリームの中の特定のターゲット発話の品質、及び/又は、存在の信頼性を決定するようにそれぞれが作動可能な複数のターゲット発話検出エンジンを備えるマルチストリームターゲット発話検出生成部であり、前記複数の強調ターゲットストリームに関する複数の重みを決定するように作動可能なマルチストリームターゲット発話検出生成部と、
    前記複数の重みを前記強調ターゲットストリームに適用して、組合せ強調出力信号を生成するように作動可能な融合サブシステムと、
    を備えるシステム。
  2. 人間の発話と環境ノイズとを感知し、対応する前記マルチチャンネルオーディオ入力信号を生成するように作動可能なオーディオセンサアレーを更に備える、
    請求項1に記載のシステム。
  3. 前記ターゲット発話強調エンジンが、前記マルチチャンネルオーディオ入力信号を分析し、前記複数の強調ターゲットストリームの一つを出力するようにそれぞれが作動可能な複数の発話強調モジュールを備える、
    請求項1に記載のシステム。
  4. 前記複数の発話強調モジュールが、適応空間フィルタリングアルゴリズム、ビームフォーミングアルゴリズム、ブラインド音源分離アルゴリズム、シングルチャンネル強調アルゴリズム、及び/又は、ニューラルネットワーク、を備える、
    請求項3に記載のシステム。
  5. 前記ターゲット発話検出エンジンが、混合ガウスモデル、隠れマルコフモデル、及び/又は、ニューラルワーク、を備える、
    請求項1に記載のシステム。
  6. 各ターゲット発話検出エンジンが、入力オーディオストリームが前記特定のターゲット発話を含んでいる信頼性に相関する事後重みを作るように作動可能な、
    請求項1に記載のシステム。
  7. 各ターゲット発話検出エンジンが、クリーンな発話に対してはより高い事後を作るように作動可能な、
    請求項6のシステム。
  8. 前記強調出力信号が、前記強調ターゲットストリームの重み付き和である、
    請求項1のシステム。
  9. 前記マルチストリームターゲット発話検出生成部が、前記ストリームの中に特定のターゲット発話が検出される組合せ確率を決定するように更に作動可能であり、前記組合せ確率が検出閾値を超えている場合に前記ターゲット発話が検出される、
    請求項1のシステム。
  10. 自動発話認識エンジン又はVoIPアプリケーションを更に備え、
    前記ターゲット発話が検出されたときに、前記強調出力信号が前記自動発話認識エンジン又はVoIPに転送される、
    請求項9のシステム。
  11. ターゲット発話強調エンジンを用いて、マルチチャンネルオーディオ入力信号を解析し、複数の強調ターゲットストリームを生成し、
    マルチストリームターゲット発話検出生成部を用いて前記ストリームにターゲット発話を検出する確率を決定し、
    前記複数の強調ターゲットストリームのそれぞれについて重みを計算し、
    計算した前記重みを前記複数の強調ターゲットストリームに適用して、強調出力信号を生成する、
    方法。
  12. オーディオセンサアレーを用いて人間の発話と環境ノイズとを感知し、前記マルチチャンネルオーディオ入力信号を生成する、ことを更に含む、
    請求項11の方法。
  13. 前記マルチチャンネルオーディオ入力信号を分析することは、複数の発話強調モダリティを適用することを含み、各発話強調モダリティは前記複数の強調ターゲットストリームのうち分離された一つを出力する、
    請求項11の方法。
  14. 前記複数の発話強調モダリティは、適応空間フィルタリングアルゴリズム、ビーム形成アルゴリズム、ブラインド音源分離アルゴリズム、シングルチャンネル強調アルゴリズム、及び/又は、ニューラルネットワーク、を含む、
    請求項13の方法。
  15. 前記ストリームに前記ターゲット発話を検出する前記確率を決定することは、混合ガウスモデル、隠れマルコフモデル、及び/又は、ニューラルネットワーク、を適用することを含む、
    請求項11の方法。
  16. 前記ストリームに前記ターゲット発話を検出する前記確率を決定することは、入力された前記ストリームにキーワードが含まれている信頼性に相関する事後重みを作ることを含む、
    請求項11の方法。
  17. クリーンな発話により高い事後を作ることを更に含む、
    請求項16の方法。
  18. 前記強調出力信号は、前記複数の強調ターゲットストリームの重み付き和である、
    請求項11の方法。
  19. 前記複数のストリームの中に前記ターゲット発話を検出する組合せ確率を決定することを更に含み、前記ターゲット発話は前記組合せ確率が検出閾値を超えた場合に検出される、
    請求項11の方法。
  20. 前記ターゲット発話が検出された場合に、前記強調出力信号に対して自動発話認識を実行する、ことを更に含む、
    請求項19の方法。
JP2019220476A 2018-12-06 2019-12-05 システム、及び、方法 Active JP7407580B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862776422P 2018-12-06 2018-12-06
US62/776,422 2018-12-06

Publications (3)

Publication Number Publication Date
JP2020109498A true JP2020109498A (ja) 2020-07-16
JP2020109498A5 JP2020109498A5 (ja) 2022-12-08
JP7407580B2 JP7407580B2 (ja) 2024-01-04

Family

ID=70970205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019220476A Active JP7407580B2 (ja) 2018-12-06 2019-12-05 システム、及び、方法

Country Status (3)

Country Link
US (2) US11158333B2 (ja)
JP (1) JP7407580B2 (ja)
CN (1) CN111370014A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
US11048472B2 (en) 2019-01-27 2021-06-29 Listen AS Dynamically adjustable sound parameters
US11126398B2 (en) * 2019-03-13 2021-09-21 Listen AS Smart speaker
US11551671B2 (en) * 2019-05-16 2023-01-10 Samsung Electronics Co., Ltd. Electronic device and method of controlling thereof
US11557307B2 (en) 2019-10-20 2023-01-17 Listen AS User voice control system
US20210201928A1 (en) * 2019-12-31 2021-07-01 Knowles Electronics, Llc Integrated speech enhancement for voice trigger application
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
US11670298B2 (en) 2020-05-08 2023-06-06 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
US11875797B2 (en) * 2020-07-23 2024-01-16 Pozotron Inc. Systems and methods for scripted audio production
CN111916106B (zh) * 2020-08-17 2021-06-15 牡丹江医学院 一种提高英语教学中发音质量的方法
CN112017686B (zh) * 2020-09-18 2022-03-01 中科极限元(杭州)智能科技股份有限公司 基于门控递归融合深度嵌入式特征的多通道语音分离系统
CN112786069B (zh) * 2020-12-24 2023-03-21 北京有竹居网络技术有限公司 语音提取方法、装置和电子设备
TWI761018B (zh) * 2021-01-05 2022-04-11 瑞昱半導體股份有限公司 語音擷取方法以及語音擷取系統
US11823707B2 (en) 2022-01-10 2023-11-21 Synaptics Incorporated Sensitivity mode for an audio spotting system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248025A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> チャネル統合方法、チャネル統合装置、プログラム
JP2016517023A (ja) * 2013-07-18 2016-06-09 三菱電機株式会社 音響信号を処理する方法
JP2016524193A (ja) * 2013-06-27 2016-08-12 ロウルズ リミテッド ライアビリティ カンパニー 自己生成ウェイク表現の検出
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3484112B2 (ja) 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
US6370500B1 (en) 1999-09-30 2002-04-09 Motorola, Inc. Method and apparatus for non-speech activity reduction of a low bit rate digital voice message
AUPS270902A0 (en) 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
CN1303582C (zh) 2003-09-09 2007-03-07 摩托罗拉公司 自动语音归类方法
KR100754385B1 (ko) * 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP2007047427A (ja) 2005-08-10 2007-02-22 Hitachi Ltd 音声処理装置
KR100821177B1 (ko) 2006-09-29 2008-04-14 한국전자통신연구원 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
KR100964402B1 (ko) 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
US8005237B2 (en) 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
EP2081189B1 (en) 2008-01-17 2010-09-22 Harman Becker Automotive Systems GmbH Post-filter for beamforming means
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
EP2146519B1 (en) 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
JP2010085733A (ja) * 2008-09-30 2010-04-15 Equos Research Co Ltd 音声強調システム
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US20110010172A1 (en) 2009-07-10 2011-01-13 Alon Konchitsky Noise reduction system using a sensor based speech detector
US9037458B2 (en) * 2011-02-23 2015-05-19 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
CN102956230B (zh) 2011-08-19 2017-03-01 杜比实验室特许公司 对音频信号进行歌曲检测的方法和设备
EP2791935B1 (en) 2011-12-12 2016-03-09 Dolby Laboratories Licensing Corporation Low complexity repetition detection in media data
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
KR101318328B1 (ko) * 2012-04-12 2013-10-15 경북대학교 산학협력단 성김 특성 최소화를 통한 암묵 신호 제거를 이용한 음성 향상 방법 및 장치
US9768829B2 (en) 2012-05-11 2017-09-19 Intel Deutschland Gmbh Methods for processing audio signals and circuit arrangements therefor
TWI474317B (zh) 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US10142007B2 (en) 2012-07-19 2018-11-27 Intel Deutschland Gmbh Radio communication devices and methods for controlling a radio communication device
DK2701145T3 (en) 2012-08-24 2017-01-16 Retune DSP ApS Noise cancellation for use with noise reduction and echo cancellation in personal communication
EP2747451A1 (en) 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9158760B2 (en) 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US9769576B2 (en) 2013-04-09 2017-09-19 Sonova Ag Method and system for providing hearing assistance to a user
CN104217729A (zh) 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
US9240182B2 (en) 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
GB2518663A (en) 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
US9654894B2 (en) * 2013-10-31 2017-05-16 Conexant Systems, Inc. Selective audio source enhancement
US9589560B1 (en) 2013-12-19 2017-03-07 Amazon Technologies, Inc. Estimating false rejection rate in a detection system
EP2916321B1 (en) 2014-03-07 2017-10-25 Oticon A/s Processing of a noisy audio signal to estimate target and noise spectral variances
US9548065B2 (en) 2014-05-05 2017-01-17 Sensory, Incorporated Energy post qualification for phrase spotting
US9484022B2 (en) 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US9369113B2 (en) 2014-06-20 2016-06-14 Steve Yang Impedance adjusting device
US10360926B2 (en) 2014-07-10 2019-07-23 Analog Devices Global Unlimited Company Low-complexity voice activity detection
US9432769B1 (en) 2014-07-30 2016-08-30 Amazon Technologies, Inc. Method and system for beam selection in microphone array beamformers
US9953661B2 (en) 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
US9530400B2 (en) 2014-09-29 2016-12-27 Nuance Communications, Inc. System and method for compressed domain language identification
JP6450139B2 (ja) 2014-10-10 2019-01-09 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
US20160275961A1 (en) * 2015-03-18 2016-09-22 Qualcomm Technologies International, Ltd. Structure for multi-microphone speech enhancement system
US10229700B2 (en) 2015-09-24 2019-03-12 Google Llc Voice activity detection
US9668073B2 (en) 2015-10-07 2017-05-30 Robert Bosch Gmbh System and method for audio scene understanding of physical object sound sources
US10347271B2 (en) * 2015-12-04 2019-07-09 Synaptics Incorporated Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network
US9978397B2 (en) 2015-12-22 2018-05-22 Intel Corporation Wearer voice activity detection
US10090005B2 (en) 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
KR102151682B1 (ko) * 2016-03-23 2020-09-04 구글 엘엘씨 다중채널 음성 인식을 위한 적응성 오디오 강화
US9947323B2 (en) 2016-04-01 2018-04-17 Intel Corporation Synthetic oversampling to enhance speaker identification or verification
US11107461B2 (en) 2016-06-01 2021-08-31 Massachusetts Institute Of Technology Low-power automatic speech recognition device
US20180039478A1 (en) 2016-08-02 2018-02-08 Google Inc. Voice interaction services
EP3522152B1 (en) 2016-09-30 2020-02-12 Sony Corporation Signal processing device, signal processing method, and program
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
WO2018106971A1 (en) 2016-12-07 2018-06-14 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification
US10546575B2 (en) 2016-12-14 2020-01-28 International Business Machines Corporation Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
US10083689B2 (en) 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
US10170134B2 (en) 2017-02-21 2019-01-01 Intel IP Corporation Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment
JP6652519B2 (ja) 2017-02-28 2020-02-26 日本電信電話株式会社 ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
US10224053B2 (en) * 2017-03-24 2019-03-05 Hyundai Motor Company Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering
US10269369B2 (en) 2017-05-31 2019-04-23 Apple Inc. System and method of noise reduction for a mobile device
US10403299B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
US10096328B1 (en) 2017-10-06 2018-10-09 Intel Corporation Beamformer system for tracking of speech and noise in a dynamic environment
US10090000B1 (en) 2017-11-01 2018-10-02 GM Global Technology Operations LLC Efficient echo cancellation using transfer function estimation
US10504539B2 (en) 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods
US10777189B1 (en) 2017-12-05 2020-09-15 Amazon Technologies, Inc. Dynamic wakeword detection
US10679617B2 (en) 2017-12-06 2020-06-09 Synaptics Incorporated Voice enhancement in audio signals through modified generalized eigenvalue beamformer
WO2019126569A1 (en) 2017-12-21 2019-06-27 Synaptics Incorporated Analog voice activity detector systems and methods
US11062727B2 (en) 2018-06-13 2021-07-13 Ceva D.S.P Ltd. System and method for voice activity detection
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
US11232788B2 (en) 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
US11069353B1 (en) 2019-05-06 2021-07-20 Amazon Technologies, Inc. Multilingual wakeword detection
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11769520B2 (en) 2020-08-17 2023-09-26 EMC IP Holding Company LLC Communication issue detection using evaluation of multiple machine learning models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248025A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> チャネル統合方法、チャネル統合装置、プログラム
JP2016524193A (ja) * 2013-06-27 2016-08-12 ロウルズ リミテッド ライアビリティ カンパニー 自己生成ウェイク表現の検出
JP2016517023A (ja) * 2013-07-18 2016-06-09 三菱電機株式会社 音響信号を処理する方法
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection

Also Published As

Publication number Publication date
US20220013134A1 (en) 2022-01-13
JP7407580B2 (ja) 2024-01-04
US11158333B2 (en) 2021-10-26
US11694710B2 (en) 2023-07-04
CN111370014A (zh) 2020-07-03
US20200184985A1 (en) 2020-06-11

Similar Documents

Publication Publication Date Title
JP7407580B2 (ja) システム、及び、方法
US9940949B1 (en) Dynamic adjustment of expression detection criteria
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
WO2021022094A1 (en) Per-epoch data augmentation for training acoustic models
US11257512B2 (en) Adaptive spatial VAD and time-frequency mask estimation for highly non-stationary noise sources
US10535361B2 (en) Speech enhancement using clustering of cues
JP2021110938A (ja) 平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出
JP2021505933A (ja) 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調
US11264017B2 (en) Robust speaker localization in presence of strong noise interference systems and methods
EP2745293B1 (en) Signal noise attenuation
US20220148611A1 (en) Speech enhancement using clustering of cues
US20210201928A1 (en) Integrated speech enhancement for voice trigger application
US20170206898A1 (en) Systems and methods for assisting automatic speech recognition
US20220254332A1 (en) Method and apparatus for normalizing features extracted from audio data for signal recognition or modification
JP7279710B2 (ja) 信号処理装置および方法、並びにプログラム
US10204638B2 (en) Integrated sensor-array processor
WO2023212690A1 (en) Audio source feature separation and target audio source generation
WO2023183684A1 (en) Microphone array configuration invariant, streaming, multichannel neural enhancement frontend for automatic speech recognition
JP2023551704A (ja) サブ帯域ドメイン音響エコーキャンセラに基づく音響状態推定器
CN117795597A (zh) 用于自动语音辨识的联合声学回声消除、语音增强和话音分离

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221130

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231219

R150 Certificate of patent or registration of utility model

Ref document number: 7407580

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150