JP2021500593A - 対象音声検出方法及び装置 - Google Patents
対象音声検出方法及び装置 Download PDFInfo
- Publication number
- JP2021500593A JP2021500593A JP2020517383A JP2020517383A JP2021500593A JP 2021500593 A JP2021500593 A JP 2021500593A JP 2020517383 A JP2020517383 A JP 2020517383A JP 2020517383 A JP2020517383 A JP 2020517383A JP 2021500593 A JP2021500593 A JP 2021500593A
- Authority
- JP
- Japan
- Prior art keywords
- detection
- target voice
- model
- module
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 235
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H17/00—Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
例えば、まず主マイクロホンの信号に対し雑音低減を行い、雑音が低減された主マイクロホンの信号と副マイクロホンの信号との強度差を利用して音声検出を行うか、又は、音声基準信号と雑音基準信号とのエネルギーの差に基づき、対象音声の検出を行う。このような方法は、主マイクロホンで集音した対象信号の強度が副マイクロホンで受信した対象信号の強度よりも大きく、雑音信号の強度が両マイクロホンにおいて同様であるとの仮設に基づくものである。例えば、信号対雑音比が高い場合は主マイクロフホンと副マイクロフホンとのエネルギーの比は1よりも大きく、信号対雑音比が低い場合はそのエネルギーの比は1よりも小さい。
例えば、単一チャンネルの雑音信号を入力とし、理想バイナリマスク(Ideal Binary Mask、IBM)又は理想比マスク(Ideal Ratio Mask、IRM)を出力とした場合には、そ
の出力値は、対象音声が存在することの根拠と考えられる。または、多重チャンネルデータを用い、多重チャンネルを単一チャンネルに合成したものを入力として、さらにマスクを得る。
前記音響信号をビームフォーミング処理し、方向が異なるビームを取得することと、
前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することと、
抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得することと、
前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得することと、
を含む対象音声検出方法。
対象音声検出モデルのトポロジー構造を決定し、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングし、
前記トレーニングデータの検出特徴を抽出し、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得することにより構築される。
各フレームの各周波数において、各ビーム信号と、マイクロホンアレイに基づき集音した音響信号とを順次に組み合わせることで、多次元空間ベクトルを取得することと、
前記多次元空間ベクトルの要素ごとにそれぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得することと、
前記空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得することと、を含む。
前記モデル出力結果に基づき、現フレームが対象音声フレームであるかどうかを判断することは、
前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得することを含む。
得することは、
前記方向が異なるビームから、音声参照信号及び雑音参照信号を取得し、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、
音声参照信号と雑音参照信号とのパワーの比を算出し、
前記パワーの比に基づき、前記強度差に基づいた検出結果を取得することを含む。
前記ビームフォーミングモジュールは、入力された前記音響信号をビームフォーミング処理し、方向が異なるビームを取得し、
前記検出特徴抽出モジュールは、その入力がそれぞれ前記受信モジュール及び前記ビームフォーミングモジュールの出力に接続され、前記音響信号と前記方向が異なるビームとに基づき、検出特徴をフレーム毎に抽出し、抽出した検出特徴を前記第1の検出モジュールへ出力し、
前記第1の検出モジュールは、前記検出特徴抽出モジュールにより抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得し、前記モデル出力結果を前記検出結果出力モジュールに送信し、
前記検出結果出力モジュールは、前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する。
前記対象音声検出モデルのトポロジー構造を決定する構造設計ユニットと、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングするトレーニングデータ処理ユニットと、
前記トレーニングデータの検出特徴を抽出する特徴抽出ユニットと、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得するトレーニングユニットと、を含む、
前記検出結果出力モジュールは、前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する。
前記方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニットと、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニットと、
前記パワーの比から、前記強度差に基づいた検出結果を取得する結果検出ユニットと、
を含む。
記憶媒体。
前記プロセッサと前記メモリとが、前記システムバスを介して接続され、
前記メモリには、命令を含む一つまたは複数のプログラムが記憶され、前記命令が前記プロセッサによって実行された場合に前述のいずれかに記載の対象音声検出方法を前記プロセッサに実行させる。
実際の応用上では、音声信号は集音された後、さらに前処理することが必要である。
M個のマイクロホンを備えるマイクロホンアレイによる音声信号の受信を例にすると、集音された信号はそれぞれ、X1(t)、X2(t)・・・XM(t)である。
前処理とは、主に、受信した音声信号を時間領域から周波数領域に変換し、周波数領域信号
を取得することをいう。その中で、kは信号の周波数(0,1,・・・,K)、lはフレーム番号を表す。
ビームフォーミングとしては、従来技術を用いることができ、例えば、方向推定に基づく適応アルゴリズムや信号構成に基づくビームフォーミング方法などが挙げられるが、これについて、本出願の実施例では限定しない。ビームフォーミングアルゴリズムについては、マイクロホンアレイはそのゲインが空間領域内のある方向に対し高くなる一方、他の方向に対し低くなり、あたかも一方向に向くビームを形成するように主にマイクロホンアレイで集音した信号を処理する。
マの係数を表し、異なるビームフォーミング方法によって決定される。
検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法は以下のとおりである。
具体的には、各フレームの各周波数において、得られた各ビーム信号とマイクロホンアレイで集音した音声信号とを順次組み合わせ、多次元空間ベクトルを得る。例えば、M個のマイクロホンにより、メインローブ分布のN個の異なる方向に向くビームを形成し、各フレームの各周波数においてN個のビーム信号とM個のマイクロホン信号とを(M+N)次元空間ベクトルV1(k,l)に組み合わせる。
、他の方向の信号
、マイクロホンで集音した音声信号に対する組み合わせの順序は制限されない。
まず、上記多次元空間ベクトルの要素ごとに、それぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得する。例えば、上記V1(k,l)の要素ごとに、それぞれMD(k,l)=f(V1(k,l))(その中、f(x)=|x|2)で表すモジュロ演算を行い、
さらに、第lフレームの全ての周波数におけるモジュロMD(k,l)を組み合わせること
で、(M+N)*K次元周波数ベクトルを取得する。
空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得する。例えば、上記V2(l)をフレーム拡張し、前後においてそれぞれPフレームを拡張することで、(M+N)*K*2P次元の時間次元
情報を取得する。
すなわち、上記現フレームlに対応する空間次元、周波数次元及び時間次元を考慮した検出特徴V3(l)を、予め構築された対象音声検出モデルに入力し、現フレームlの各周波数kの理想バイナリマスク(IBM、Ideal Binary Mask)又は理想比マスク(IRM
、Ideal Ratio Mask)として出力する。IRMとしての出力を例にすると、モデルの出力がImodel(k,l)と定義してよい。
モデル出力結果としては、IBM又はIRMが挙げられる。モデル出力がIBMである場合には、現フレームが対象音声フレームであるかどうかを当該出力に基づき直ちに判断することができる。モデル出力がIRMである場合には、さらに設定された閾値に基づき判断する必要があり、当該閾値を超える場合は対象音声フレームと判断され、さもなければ非対象音声フレームと判断される。モデル出力のIRMを直接、対応する検出結果とすることも無論可能である。
前述にも言及したように、対象音声検出モデルとして、分類モデルまたは回帰モデルが挙げられるが、本出願の実施例では限定しない。
クリーン音声には、対象音声を含む。
検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法は前述のとおりである。
に向けてビームフォーミングした信号であり、対象音声に向けてメインローブ方向を固定するビームフォーミングアルゴリズムにより得られる。これらのアルゴリズムとしては、遅延和ビームフォーミング(Delay and Sumbeamforming)、定ビーム幅ビームフォーマ(Constant Beam-widthbeam‐former)、スーパゲインビームフォーミング(Super‐Gainbeamforming)などが挙げられる。
ォーミングした信号であり、適応ブロッキング行列により取得することができる。雑音参照信号は、例えば、周波数領域正規化最小平均二乗(NLMS)適応法によりフィルター更新を行うことで得られる。
イズであり、例えば、このステップサイズを0.05としてよい。上付きの*は複素共役
を表し、δは小さい正数であり、例えば、δを0.001としてよい。Iratio(k,l)は現在の周波数における対象音声の検出結果である。
当該閾値thを超える場合、現フレームは対象音声フレームであると判断し、さもなければ現フレームは非対象音声フレームであると判断する。
検出モデルに基づいた対象音声の検出は、上述した図1のステップ103〜ステップ104を参照し、ここでは繰り返さない。
を例とし、対象音声の有無を以下の通り判断する。
に、論理「AND」もしくは論理「OR」の統合方式を用いることができる。もちろん、実際の適用上においては、他の統合方式を採用することもでき、本出願の実施例では限定しない。
得し、かつ、強度差に基づいた検出結果を検出結果出力モジュール405に送信する。
実際のニーズに応じて、その一部又は全部のモジュールを選択して、本実施例の解決案の目的を果たすことができる。当業者であれば、創造的な労働をせずに容易に理解して実施することができる。
Claims (15)
- マイクロホンアレイに基づき集音した音響信号を受信することと、
前記音響信号をビームフォーミング処理し、方向が異なるビームを取得することと、
前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することと、
抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得することと、
前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得することと、
を含むことを特徴とする対象音声検出方法。 - 前記対象音声検出モデルは、
前記対象音声検出モデルのトポロジー構造を決定し、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングし、
前記トレーニングデータの検出特徴を抽出し、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得することにより構築される、
ことを特徴とする請求項1に記載の方法。 - 前記対象音声検出モデルは分類モデル又は回帰モデルであり、前記対象音声検出モデルの出力は、現フレームの周波数ごとの理想バイナリマスク又は理想比マスクである、
ことを特徴とする請求項1に記載の方法。 - 前記検出特徴は、空間次元情報、周波数次元情報、時間次元情報を含む、
ことを特徴とする請求項1〜3のいずれか1項に記載の方法。 - 前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することは、
各フレームの各周波数において、各ビーム信号と、マイクロホンアレイに基づき集音した音響信号とを順次組み合わせることで、多次元空間ベクトルを取得することと、
前記多次元空間ベクトルの要素ごとにそれぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得することと、
前記空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得することと、を含む、
ことを特徴とする請求項1に記載の方法。 - 強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することをさらに含み、
前記モデル出力結果に基づき、現フレームが対象音声フレームであるかどうかを判断することは、
前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得することを含む、
ことを特徴とする請求項1〜3、5のいずれか1項に記載の方法。 - 前記した、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することは、
前記方向が異なるビームから、音声参照信号及び雑音参照信号を取得し、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、
音声参照信号と雑音参照信号とのパワーの比を算出し、
前記パワーの比に基づき、前記強度差に基づいた検出結果を取得することを含む、
ことを特徴とする請求項6に記載の方法。 - 受信モジュールと、ビームフォーミングモジュールと、検出特徴抽出モジュールと、第1の検出モジュールと、検出結果出力モジュールと、を含む対象音声検出装置において、
前記受信モジュールは、マイクロホンアレイに基づき集音した音響信号を受信し、前記ビームフォーミングモジュールへ出力し、
前記ビームフォーミングモジュールは、入力された前記音響信号をビームフォーミング処理し、方向が異なるビームを取得し、
前記検出特徴抽出モジュールは、その入力がそれぞれ前記受信モジュール及び前記ビームフォーミングモジュールの出力に接続され、前記音響信号と前記方向が異なるビームとに基づき、検出特徴をフレーム毎に抽出し、抽出した検出特徴を前記第1の検出モジュールへ出力し、
前記第1の検出モジュールは、前記検出特徴抽出モジュールにより抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得し、前記モデル出力結果を前記検出結果出力モジュールに送信し、
前記検出結果出力モジュールは、前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する、
ことを特徴とする対象音声検出装置。 - 前記対象音声検出モデルを構築するモデル構築モジュールをさらに含み、
前記モデル構築モジュールは、
対象音声検出モデルのトポロジー構造を決定する構造設計ユニットと、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングするトレーニングデータ処理ユニットと、
前記トレーニングデータの検出特徴を抽出する特徴抽出ユニットと、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得するトレーニングユニットと、を含む、
ことを特徴とする請求項8に記載の装置。 - 前記対象音声検出モデルは分類モデルまたは回帰モデルである、
ことを特徴とする請求項8に記載の装置。 - 入力が前記ビームフォーミングモジュールの出力に接続され、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得し、かつ、前記強度差に基づいた検出結果を前記検出結果出力モジュールに送信する第2の検出モジュールをさらに含み、
前記検出結果出力モジュールは、前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する、
ことを特徴とする請求項8〜10のいずれか1項に記載の装置。 - 前記第2の検出モジュールは、
前記方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニットと、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニットと、
前記パワーの比から、前記強度差に基づいた検出結果を取得する結果検出ユニットと、を含む、
ことを特徴とする請求項11に記載の装置。 - 1つのコンピュータユニットにより、請求項1〜7のいずれか1項に記載の人とコンピュータとの相互作用に適用される方法のステップを実行させるコンピュータプログラムコードを記憶する、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。 - プロセッサ、メモリ、システムバスを含む対象音声検出装置において、
前記プロセッサと前記メモリとが、前記システムバスを介して接続され、
前記メモリには、命令を含む一つまたは複数のプログラムが記憶され、前記命令が前記プロセッサによって実行された場合に請求項1〜7のいずれか1項に記載の方法を前記プロセッサに実行させる、
ことを特徴とする対象音声検出装置。 - 端末装置で実行された場合に、請求項1〜7のいずれか1項に記載の方法を前記端末装置に実行させる、
ことを特徴とするコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994194.5 | 2017-10-23 | ||
CN201710994194.5A CN107785029B (zh) | 2017-10-23 | 2017-10-23 | 目标语音检测方法及装置 |
PCT/CN2018/095758 WO2019080551A1 (zh) | 2017-10-23 | 2018-07-16 | 目标语音检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021500593A true JP2021500593A (ja) | 2021-01-07 |
JP7186769B2 JP7186769B2 (ja) | 2022-12-09 |
Family
ID=61433874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020517383A Active JP7186769B2 (ja) | 2017-10-23 | 2018-07-16 | 対象音声検出方法及び装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11308974B2 (ja) |
EP (1) | EP3703054B1 (ja) |
JP (1) | JP7186769B2 (ja) |
KR (1) | KR102401217B1 (ja) |
CN (1) | CN107785029B (ja) |
ES (1) | ES2964131T3 (ja) |
WO (1) | WO2019080551A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107785029B (zh) * | 2017-10-23 | 2021-01-29 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
CN108335694B (zh) * | 2018-02-01 | 2021-10-15 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
US10672414B2 (en) * | 2018-04-13 | 2020-06-02 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
CN108962237B (zh) * | 2018-05-24 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 混合语音识别方法、装置及计算机可读存储介质 |
CN110164446B (zh) * | 2018-06-28 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 语音信号识别方法和装置、计算机设备和电子设备 |
CN109801646B (zh) * | 2019-01-31 | 2021-11-16 | 嘉楠明芯(北京)科技有限公司 | 一种基于融合特征的语音端点检测方法和装置 |
CN110223708B (zh) * | 2019-05-07 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于语音处理的语音增强方法及相关设备 |
CN110265065B (zh) * | 2019-05-13 | 2021-08-03 | 厦门亿联网络技术股份有限公司 | 一种构建语音端点检测模型的方法及语音端点检测系统 |
CN111613247B (zh) * | 2020-04-14 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种基于麦克风阵列的前景语音检测方法及装置 |
CN111883166B (zh) * | 2020-07-17 | 2024-05-10 | 北京百度网讯科技有限公司 | 一种语音信号处理方法、装置、设备以及存储介质 |
CN112151036B (zh) * | 2020-09-16 | 2021-07-30 | 科大讯飞(苏州)科技有限公司 | 基于多拾音场景的防串音方法、装置以及设备 |
CN112562649B (zh) * | 2020-12-07 | 2024-01-30 | 北京大米科技有限公司 | 一种音频处理的方法、装置、可读存储介质和电子设备 |
CN113077803B (zh) * | 2021-03-16 | 2024-01-23 | 联想(北京)有限公司 | 一种语音处理方法、装置、可读存储介质及电子设备 |
CN113270108B (zh) * | 2021-04-27 | 2024-04-02 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
CN113345469A (zh) * | 2021-05-24 | 2021-09-03 | 北京小米移动软件有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
CN115240698A (zh) * | 2021-06-30 | 2022-10-25 | 达闼机器人股份有限公司 | 模型训练方法、语音检测定位方法、电子设备及存储介质 |
CN116580723B (zh) * | 2023-07-13 | 2023-09-08 | 合肥星本本网络科技有限公司 | 一种强噪声环境下的语音检测方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010438A (ja) * | 2012-07-03 | 2014-01-20 | Toshiba Corp | 集音装置 |
JP2017107141A (ja) * | 2015-12-09 | 2017-06-15 | 日本電信電話株式会社 | 音源情報推定装置、音源情報推定方法、およびプログラム |
WO2017164954A1 (en) * | 2016-03-23 | 2017-09-28 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091469A (ja) * | 2000-09-19 | 2002-03-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識装置 |
US7415117B2 (en) * | 2004-03-02 | 2008-08-19 | Microsoft Corporation | System and method for beamforming using a microphone array |
EP1905268B1 (en) * | 2005-07-06 | 2011-01-26 | Koninklijke Philips Electronics N.V. | Apparatus and method for acoustic beamforming |
KR20090037845A (ko) * | 2008-12-18 | 2009-04-16 | 삼성전자주식회사 | 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
CN101192411B (zh) * | 2007-12-27 | 2010-06-02 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除系统 |
US9100734B2 (en) * | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
CN102074246B (zh) * | 2011-01-05 | 2012-12-19 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
KR101811716B1 (ko) * | 2011-02-28 | 2017-12-28 | 삼성전자주식회사 | 음성 인식 방법 및 그에 따른 음성 인식 장치 |
TW201443875A (zh) * | 2013-05-14 | 2014-11-16 | Hon Hai Prec Ind Co Ltd | 收音方法及收音系統 |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
CN105244036A (zh) * | 2014-06-27 | 2016-01-13 | 中兴通讯股份有限公司 | 一种麦克风语音增强方法及装置 |
JP6221158B2 (ja) * | 2014-08-27 | 2017-11-01 | 本田技研工業株式会社 | 自律行動ロボット、及び自律行動ロボットの制御方法 |
CN105590631B (zh) * | 2014-11-14 | 2020-04-07 | 中兴通讯股份有限公司 | 信号处理的方法及装置 |
US20160180214A1 (en) * | 2014-12-19 | 2016-06-23 | Google Inc. | Sharp discrepancy learning |
US10580401B2 (en) * | 2015-01-27 | 2020-03-03 | Google Llc | Sub-matrix input for neural network layers |
US9697826B2 (en) * | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
CN104766093B (zh) * | 2015-04-01 | 2018-02-16 | 中国科学院上海微系统与信息技术研究所 | 一种基于麦克风阵列的声目标分类方法 |
CN105336340B (zh) * | 2015-09-30 | 2019-01-01 | 中国电子科技集团公司第三研究所 | 一种用于低空目标声探测系统的风噪抑制方法和装置 |
CN205621437U (zh) * | 2015-12-16 | 2016-10-05 | 宁波桑德纳电子科技有限公司 | 一种声像联合定位的远距离语音采集装置 |
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN105869651B (zh) * | 2016-03-23 | 2019-05-31 | 北京大学深圳研究生院 | 基于噪声混合相干性的双通道波束形成语音增强方法 |
CN105788607B (zh) * | 2016-05-20 | 2020-01-03 | 中国科学技术大学 | 应用于双麦克风阵列的语音增强方法 |
US9972339B1 (en) * | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
CN106328156B (zh) * | 2016-08-22 | 2020-02-18 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106483502B (zh) | 2016-09-23 | 2019-10-18 | 科大讯飞股份有限公司 | 一种声源定位方法及装置 |
US10140980B2 (en) * | 2016-12-21 | 2018-11-27 | Google LCC | Complex linear projection for acoustic modeling |
CN106782618B (zh) * | 2016-12-23 | 2020-07-31 | 云知声(上海)智能科技有限公司 | 基于二阶锥规划的目标方向语音检测方法 |
CN106710603B (zh) * | 2016-12-23 | 2019-08-06 | 云知声(上海)智能科技有限公司 | 利用线性麦克风阵列的语音识别方法及系统 |
RU2760097C2 (ru) * | 2017-01-03 | 2021-11-22 | Конинклейке Филипс Н.В. | Способ и устройство для захвата аудиоинформации с использованием формирования диаграммы направленности |
US11133011B2 (en) * | 2017-03-13 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for multichannel end-to-end speech recognition |
CN106952653B (zh) * | 2017-03-15 | 2021-05-04 | 科大讯飞股份有限公司 | 噪声去除方法、装置和终端设备 |
CN107785029B (zh) * | 2017-10-23 | 2021-01-29 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
US11120786B2 (en) * | 2020-03-27 | 2021-09-14 | Intel Corporation | Method and system of automatic speech recognition with highly efficient decoding |
-
2017
- 2017-10-23 CN CN201710994194.5A patent/CN107785029B/zh active Active
-
2018
- 2018-07-16 KR KR1020207014261A patent/KR102401217B1/ko active IP Right Grant
- 2018-07-16 WO PCT/CN2018/095758 patent/WO2019080551A1/zh unknown
- 2018-07-16 JP JP2020517383A patent/JP7186769B2/ja active Active
- 2018-07-16 US US16/757,892 patent/US11308974B2/en active Active
- 2018-07-16 EP EP18871326.7A patent/EP3703054B1/en active Active
- 2018-07-16 ES ES18871326T patent/ES2964131T3/es active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010438A (ja) * | 2012-07-03 | 2014-01-20 | Toshiba Corp | 集音装置 |
JP2017107141A (ja) * | 2015-12-09 | 2017-06-15 | 日本電信電話株式会社 | 音源情報推定装置、音源情報推定方法、およびプログラム |
WO2017164954A1 (en) * | 2016-03-23 | 2017-09-28 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
JP6480644B1 (ja) * | 2016-03-23 | 2019-03-13 | グーグル エルエルシー | マルチチャネル音声認識のための適応的オーディオ強化 |
Non-Patent Citations (2)
Title |
---|
XIONG XIAO, ET AL.: "A Study of Learning Based Beamforming Methods for Speech Recognition", SPEECH PROCESSING IN EVERYDAY ENVIRONMENT (CHIME 2016), JPN6021018724, 13 September 2016 (2016-09-13), ISSN: 0004834689 * |
YUXUAN WANG, ET AL.: "On Training Targets for Supervised Speech Separation", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 22, no. 12, JPN6021018726, 28 August 2014 (2014-08-28), pages 1849 - 1857, ISSN: 0004834690 * |
Also Published As
Publication number | Publication date |
---|---|
ES2964131T3 (es) | 2024-04-04 |
EP3703054B1 (en) | 2023-09-20 |
CN107785029B (zh) | 2021-01-29 |
US11308974B2 (en) | 2022-04-19 |
CN107785029A (zh) | 2018-03-09 |
WO2019080551A1 (zh) | 2019-05-02 |
US20200342890A1 (en) | 2020-10-29 |
KR20200066367A (ko) | 2020-06-09 |
EP3703054A4 (en) | 2021-07-28 |
KR102401217B1 (ko) | 2022-05-23 |
JP7186769B2 (ja) | 2022-12-09 |
EP3703054C0 (en) | 2023-09-20 |
EP3703054A1 (en) | 2020-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7186769B2 (ja) | 対象音声検出方法及び装置 | |
CN106251877B (zh) | 语音声源方向估计方法及装置 | |
US10602267B2 (en) | Sound signal processing apparatus and method for enhancing a sound signal | |
US8891785B2 (en) | Processing signals | |
TWI711035B (zh) | 方位角估計的方法、設備、語音交互系統及儲存介質 | |
TW201629950A (zh) | 針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風 | |
CN107889001B (zh) | 可扩展麦克风阵列及其建立方法 | |
CN102708874A (zh) | 麦克风阵列的噪声自适应波束形成 | |
US20110058683A1 (en) | Method & apparatus for selecting a microphone in a microphone array | |
CN105828266A (zh) | 一种麦克风阵列的信号处理方法与系统 | |
US20190164567A1 (en) | Speech signal recognition method and device | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
CN112652320B (zh) | 声源定位方法和装置、计算机可读存储介质、电子设备 | |
CN105445697A (zh) | 一种低成本低功耗的声源定向方法 | |
EP3206574A1 (en) | Frame based spike detection module | |
CN104952459A (zh) | 一种基于分布式一致性和mvdr波束形成的分布式语音增强方法 | |
CN104599679A (zh) | 一种基于语音信号构造聚焦协方差矩阵的方法及装置 | |
CN107221338B (zh) | 声波提取装置以及提取方法 | |
CN103731768B (zh) | 一种声音拾取方法及装置 | |
RU2523913C2 (ru) | Многоканальное устройство радиомониторинга | |
CN108269581B (zh) | 一种基于频域相干函数的双麦克风时延差估计方法 | |
US11765522B2 (en) | Speech-tracking listening device | |
Ju et al. | Tracking the moving sound target based on distributed microphone pairs | |
CN113163282B (zh) | 一种基于usb的降噪拾音系统及方法 | |
CN109212480B (zh) | 一种基于分布式辅助粒子滤波的声源跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210825 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220525 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220525 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220615 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7186769 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |