JP2021500593A - 対象音声検出方法及び装置 - Google Patents

対象音声検出方法及び装置 Download PDF

Info

Publication number
JP2021500593A
JP2021500593A JP2020517383A JP2020517383A JP2021500593A JP 2021500593 A JP2021500593 A JP 2021500593A JP 2020517383 A JP2020517383 A JP 2020517383A JP 2020517383 A JP2020517383 A JP 2020517383A JP 2021500593 A JP2021500593 A JP 2021500593A
Authority
JP
Japan
Prior art keywords
detection
target voice
model
module
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020517383A
Other languages
English (en)
Other versions
JP7186769B2 (ja
Inventor
マー,フォン
ワン,ハイクン
ワン,チグォ
フー,グォピン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Publication of JP2021500593A publication Critical patent/JP2021500593A/ja
Application granted granted Critical
Publication of JP7186769B2 publication Critical patent/JP7186769B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

対象音声検出方法及び装置であって、その方法はマイクロホンアレイに基づき集音した音響信号を受信すること(S101)と、前記音響信号をビームフォーミング処理し、方向が異なるビームを取得すること(S102)と、前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出すること(S103)と、抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得すること(S104)と、前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得すること(S105)と、を含む。従って、検出結果の正確性を高めることができる。

Description

本願は2017年10月23日に中国国家知識産権局へ提出した出願番号201710994194.5、出願名称「対象音声検出方法及び装置」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
本出願は、音声信号処理分野に関し、具体的には対象音声検出方法及び装置に関する。
音声は、最も自然かつ便利なインタラクション方式の一つとして、日常生活や仕事において幅広く用いられている。音声符号化や雑音低減などの音声信号処理は、ホットな研究テーマとして関連分野の研究者らに注目されている。音声の雑音低減を例にすると、対象音声を検出することは、雑音を低減するのに最も重要なステップとして、その検出精度が雑音低減効果に直接影響を及ぼしており、対象音声の検出が正確に行われていない場合、雑音低減過程において、有効音声の歪みが深刻なものになるため、対象音声を正確に検出することには重大な意義を持っている。
従来の対象音声の検出手法としては、主に以下の2種類が知られている。
1.強度差に基づいた対象音声検出
例えば、まず主マイクロホンの信号に対し雑音低減を行い、雑音が低減された主マイクロホンの信号と副マイクロホンの信号との強度差を利用して音声検出を行うか、又は、音声基準信号と雑音基準信号とのエネルギーの差に基づき、対象音声の検出を行う。このような方法は、主マイクロホンで集音した対象信号の強度が副マイクロホンで受信した対象信号の強度よりも大きく、雑音信号の強度が両マイクロホンにおいて同様であるとの仮設に基づくものである。例えば、信号対雑音比が高い場合は主マイクロフホンと副マイクロフホンとのエネルギーの比は1よりも大きく、信号対雑音比が低い場合はそのエネルギーの比は1よりも小さい。
このような強度差に基づいた対象音声検出方法には利用上の制限があり、つまり、対象信号から主マイクロホンと副マイクロホンまでに到達する強度差が所定の閾値(例えば3db以上)に達さない限り有効ではない。また、雑音が大きく、信号対雑音比が低い場合には、対象音声の検出確率がやや低い。
2.機械学習に基づく対象音声検出
例えば、単一チャンネルの雑音信号を入力とし、理想バイナリマスク(Ideal Binary Mask、IBM)又は理想比マスク(Ideal Ratio Mask、IRM)を出力とした場合には、そ
の出力値は、対象音声が存在することの根拠と考えられる。または、多重チャンネルデータを用い、多重チャンネルを単一チャンネルに合成したものを入力として、さらにマスクを得る。
従来の機械学習に基づく対象音声検出方法には、単一チャンネル情報だけでは情報が十分に利用されず、対象音声の検出効果が低い一方、多重チャンネル情報を利用しても、各ニューラルネットワーク(Neural Network)では1つの原信号又は1つの混合信号の処理しか行われず、多重チャンネルの空間情報が十分に利用されず、他の方向からの人間の音声による干渉が雑音に含まれると効果が劇的に低下するといったような問題点がある。
発明が解決しょうとする技術課題
本出願の実施例は対象音声検出装置及び方法を提供し、従来の対象音声検出方法における適用場面上の制限、低い信号対雑音比環境で検出する際、情報利用の不十分による検出効果が不良であるといった1つまたは複数の問題を解決する。
従って、本出願は以下の技術案を提供する。
マイクロホンアレイに基づき集音した音響信号を受信することと、
前記音響信号をビームフォーミング処理し、方向が異なるビームを取得することと、
前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することと、
抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得することと、
前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得することと、
を含む対象音声検出方法。
好ましくは、前記対象音声検出モデルは、
対象音声検出モデルのトポロジー構造を決定し、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングし、
前記トレーニングデータの検出特徴を抽出し、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得することにより構築される。
好ましくは、前記対象音声検出モデルは分類モデル又は回帰モデルであり、前記対象音声検出モデルの出力は、現フレームの周波数ごとの理想バイナリマスク又は理想比マスクである。
好ましくは、前記検出特徴は、空間次元情報、周波数次元情報、時間次元情報を含む。
好ましくは、前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することは、
各フレームの各周波数において、各ビーム信号と、マイクロホンアレイに基づき集音した音響信号とを順次に組み合わせることで、多次元空間ベクトルを取得することと、
前記多次元空間ベクトルの要素ごとにそれぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得することと、
前記空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得することと、を含む。
好ましくは、前記方法は、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することをさらに含み、
前記モデル出力結果に基づき、現フレームが対象音声フレームであるかどうかを判断することは、
前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得することを含む。
好ましくは、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取
得することは、
前記方向が異なるビームから、音声参照信号及び雑音参照信号を取得し、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、
音声参照信号と雑音参照信号とのパワーの比を算出し、
前記パワーの比に基づき、前記強度差に基づいた検出結果を取得することを含む。
受信モジュールと、ビームフォーミングモジュールと、検出特徴抽出モジュールと、第1の検出モジュールと、検出結果出力モジュールと、を含む対象音声検出装置において、前記受信モジュールは、マイクロホンアレイに基づき集音した音響信号を受信し、前記ビームフォーミングモジュールへ出力し、
前記ビームフォーミングモジュールは、入力された前記音響信号をビームフォーミング処理し、方向が異なるビームを取得し、
前記検出特徴抽出モジュールは、その入力がそれぞれ前記受信モジュール及び前記ビームフォーミングモジュールの出力に接続され、前記音響信号と前記方向が異なるビームとに基づき、検出特徴をフレーム毎に抽出し、抽出した検出特徴を前記第1の検出モジュールへ出力し、
前記第1の検出モジュールは、前記検出特徴抽出モジュールにより抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得し、前記モデル出力結果を前記検出結果出力モジュールに送信し、
前記検出結果出力モジュールは、前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する。
好ましくは、前記対象音声検出モデルを構築するモデル構築モジュールをさらに含み、前記モデル構築モジュールは、
前記対象音声検出モデルのトポロジー構造を決定する構造設計ユニットと、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングするトレーニングデータ処理ユニットと、
前記トレーニングデータの検出特徴を抽出する特徴抽出ユニットと、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得するトレーニングユニットと、を含む、
好ましくは、前記対象音声検出モデルは分類モデルまたは回帰モデルである。
好ましくは、入力が前記ビームフォーミングモジュールの出力に接続され、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得し、かつ、前記強度差に基づいた検出結果を前記検出結果出力モジュールに送信する第2の検出モジュールをさらに含み、
前記検出結果出力モジュールは、前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する。
好ましくは、前記第2の検出モジュールは、
前記方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニットと、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニットと、
前記パワーの比から、前記強度差に基づいた検出結果を取得する結果検出ユニットと、
を含む。
1つのコンピュータユニットにより、前述のいずれかに記載の対象音声検出方法のステップを実行させるコンピュータプログラムコードを記憶するコンピュータ読み取り可能な
記憶媒体。
プロセッサ、メモリ、システムバスを含む対象音声検出装置において、
前記プロセッサと前記メモリとが、前記システムバスを介して接続され、
前記メモリには、命令を含む一つまたは複数のプログラムが記憶され、前記命令が前記プロセッサによって実行された場合に前述のいずれかに記載の対象音声検出方法を前記プロセッサに実行させる。
端末装置で実行された場合に、前述のいずれかに記載の対象音声検出方法を前記端末装置に実行させることを特徴とするコンピュータプログラム製品
本出願の実施例で提供される対象音声検出方法及び装置は、マイクロホンアレイに基づき集音した音声信号を受信し、前記音声信号をビームフォーミング処理し方向が異なるビームを取得し、前記音声信号と前記方向が異なるビームとに基づいて検出特徴をフレーム毎に抽出し、予め構築された対象音声検出モデル及び多重チャンネルの情報を利用し対象音声を検出することにより、対象音声の検出正確性を効果的に高めるのみならず、適用場面が制限されるという問題もなく、信号対雑音比の低い環境でも正確な検出結果を取得することができる。
そして、強度差に基づいた検出結果をさらに合わせ、すなわち、強度差に基づいた検出結果とモデルに基づいた検出結果とを統合して、現フレームに対応する対象音声の検出結果を取得することにより、検出結果の正確性をさらに向上する。
本出願の実施例又は従来技術の技術解決案をより明確に説明するためには、以下、実施例に使用される図面を簡単に説明する。明らかに、下記の図面は、本出願に記載される実施例の一部に過ぎず、当業者であれば、これらの図面から他の図面を得ることができる。
本出願の実施例における対象音声検出方法のフローチャートである。 本出願の実施例における対象音声検出モデルの構築フローチャートである。 本出願の実施例における対象音声検出方法のもう一つのフローチャートである。 本出願の実施例における対象音声検出装置の構造模式図である。 本出願の実施例におけるモデル構築モジュールの模式図である。 本出願の実施例における対象音声検出装置のもう一つの構造模式図である。
当業者が本出願の実施例の解決案をよりよく理解するため、以下の図面及び実施形態を合わせて本出願の実施例を詳細に説明する。
図1は、本出願の実施例における対象音声検出方法のフローチャートであり、以下のステップを含む。
ステップ101:マイクロホンアレイに基づき集音した音声信号を受信する。
実際の応用上では、音声信号は集音された後、さらに前処理することが必要である。
M個のマイクロホンを備えるマイクロホンアレイによる音声信号の受信を例にすると、集音された信号はそれぞれ、X(t)、X(t)・・・X(t)である。
前処理とは、主に、受信した音声信号を時間領域から周波数領域に変換し、周波数領域信号
Figure 2021500593
を取得することをいう。その中で、kは信号の周波数(0,1,・・・,K)、lはフレーム番号を表す。
ステップ102:音声信号をビームフォーミング処理し、方向が異なるビームを取得する。
ビームフォーミングとしては、従来技術を用いることができ、例えば、方向推定に基づく適応アルゴリズムや信号構成に基づくビームフォーミング方法などが挙げられるが、これについて、本出願の実施例では限定しない。ビームフォーミングアルゴリズムについては、マイクロホンアレイはそのゲインが空間領域内のある方向に対し高くなる一方、他の方向に対し低くなり、あたかも一方向に向くビームを形成するように主にマイクロホンアレイで集音した信号を処理する。
M個のマイクロホンにより、メインローブ分布のN個の異なる方向に向くビームが形成され、ビームフォーマにより、N個の方向のビームが得られる。
Figure 2021500593
その中、W(k,l)が、第nの方向に向いた第kの周波数帯域におけるビームフォー
マの係数を表し、異なるビームフォーミング方法によって決定される。
ステップ103:音声信号と方向が異なるビームとに基づき、フレーム毎に検出特徴を抽出する。
検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法は以下のとおりである。

Figure 2021500593
を予め設定された目的方向の出力信号とし、
Figure 2021500593
を非目的方向の出力信号とする。
1.空間次元情報V(k,l)
具体的には、各フレームの各周波数において、得られた各ビーム信号とマイクロホンアレイで集音した音声信号とを順次組み合わせ、多次元空間ベクトルを得る。例えば、M個のマイクロホンにより、メインローブ分布のN個の異なる方向に向くビームを形成し、各フレームの各周波数においてN個のビーム信号とM個のマイクロホン信号とを(M+N)次元空間ベクトルV(k,l)に組み合わせる。
Figure 2021500593
説明すべき点については、実際の応用上では、目的方向の信号
Figure 2021500593
、他の方向の信号
Figure 2021500593
、マイクロホンで集音した音声信号に対する組み合わせの順序は制限されない。
2.周波数次元情報
まず、上記多次元空間ベクトルの要素ごとに、それぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得する。例えば、上記V(k,l)の要素ごとに、それぞれMD(k,l)=f(V(k,l))(その中、f(x)=|x|)で表すモジュロ演算を行い、
さらに、第lフレームの全ての周波数におけるモジュロMD(k,l)を組み合わせること
で、(M+N)*K次元周波数ベクトルを取得する。
Figure 2021500593
3.時間次元情報
空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得する。例えば、上記V(l)をフレーム拡張し、前後においてそれぞれPフレームを拡張することで、(M+N)*K*2P次元の時間次元
情報を取得する。
Figure 2021500593
ステップ104:抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得する。
すなわち、上記現フレームlに対応する空間次元、周波数次元及び時間次元を考慮した検出特徴V(l)を、予め構築された対象音声検出モデルに入力し、現フレームlの各周波数kの理想バイナリマスク(IBM、Ideal Binary Mask)又は理想比マスク(IRM
、Ideal Ratio Mask)として出力する。IRMとしての出力を例にすると、モデルの出力がImodel(k,l)と定義してよい。
対象音声検出モデルとしては分類モデル又は回帰モデルが挙げられるが、IRMとして出力する場合は回帰モデルとなり、さもなければ分類モデルとなる。
対象音声検出モデルとしては、ディープニューラルネットワーク(DNN)、再帰型ニューラルネットワーク(RNN)などのニューラルネットワークモデルが具体的に使用される。
ステップ105:モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する。
モデル出力結果としては、IBM又はIRMが挙げられる。モデル出力がIBMである場合には、現フレームが対象音声フレームであるかどうかを当該出力に基づき直ちに判断することができる。モデル出力がIRMである場合には、さらに設定された閾値に基づき判断する必要があり、当該閾値を超える場合は対象音声フレームと判断され、さもなければ非対象音声フレームと判断される。モデル出力のIRMを直接、対応する検出結果とすることも無論可能である。
上記対象音声検出モデルの構築フローは、図2に示すように、以下のステップを含む。
ステップ201:対象音声検出モデルのトポロジー構造を決定する。
前述にも言及したように、対象音声検出モデルとして、分類モデルまたは回帰モデルが挙げられるが、本出願の実施例では限定しない。
ステップ202:クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、トレーニングデータに対し対象音声情報をラベリングする。
クリーン音声には、対象音声を含む。
ステップ203:トレーニングデータの検出特徴を抽出する。
検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法は前述のとおりである。
ステップ204:検出特徴及びラベリング情報に基づき、トレーニングして対象音声検出モデルのパラメータを取得する。
本出願の実施例で提供される対象音声検出方法では、マイクロホンアレイに基づき音声信号を集音し、音声信号をビームフォーミング処理し方向が異なるビームを取得し、音声信号と方向が異なるビームとに基づき検出特徴をフレーム毎に抽出し、予め構築された対象音声検出モデル及び多重チャンネルの情報を利用し対象音声を検出することにより、対象音声の検出正確性を効果的に高めるのみならず、適用場面が制限されるという問題もなく、信号対雑音比の低い環境でも正確な検出結果を取得することができる。
対象音声の検出結果の精度をさらに高めるために、本出願における方法のもう一つの実施例においては、強度差及び検出モデルに基づいた2つの検出方法結果の対象音声検出方法をさらに提供する。
図3は、本出願の実施例における対象音声検出方法のフローチャートであり、以下のステップを含む。
ステップ301:マイクロホンアレイに基づき、集音した音声信号を受信する。
ステップ302:音声信号をビームフォーミング処理し、方向が異なるビームを取得する。
ステップ303:強度差に基づき、対象音声の検出を実行し、強度差に基づいた検出結果を取得する。
具体的には、まず、方向が異なるビームから音声参照信号及び雑音参照信号を取得する。次は、音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、かつ音声参照信号と雑音参照信号とのパワーの比を算出する。最後に、パワーの比に基づき、強度差に基づいた検出結果を取得する。
仮に音声参照信号をFに、雑音参照信号をUにすれば、そのエネルギー比は下式で定義される。
Figure 2021500593
その中、P(k,l)、P(k,l)はそれぞれ、音声参照信号、雑音参照信号のパワー推定値であり、パワー推定は1次の再帰法により行う。
Figure 2021500593
その中で、X(k,l)は音声参照信号、すなわち、メインローブの方向を目的方向
に向けてビームフォーミングした信号であり、対象音声に向けてメインローブ方向を固定するビームフォーミングアルゴリズムにより得られる。これらのアルゴリズムとしては、遅延和ビームフォーミング(Delay and Sumbeamforming)、定ビーム幅ビームフォーマ(Constant Beam-widthbeam‐former)、スーパゲインビームフォーミング(Super‐Gainbeamforming)などが挙げられる。
(k,l)は雑音参照信号、すなわち、ヌル点の方向を目的方向に向けてビームフ
ォーミングした信号であり、適応ブロッキング行列により取得することができる。雑音参照信号は、例えば、周波数領域正規化最小平均二乗(NLMS)適応法によりフィルター更新を行うことで得られる。
Figure 2021500593
その中、W(k,l)は適応ブロッキング行列の係数で、αは一定の学習ステップサ
イズであり、例えば、このステップサイズを0.05としてよい。上付きの*は複素共役
を表し、δは小さい正数であり、例えば、δを0.001としてよい。Iratio(k,l)は現在の周波数における対象音声の検出結果である。
Figure 2021500593
その中、閾値th1及びth2は多くの実験及び/又は経験を踏まえて得られるものである。例えば、th2を2、th1を0.5としてよい。
説明すべき点については、1つの閾値thを設けてもよい。Iratio(k,l)が
当該閾値thを超える場合、現フレームは対象音声フレームであると判断し、さもなければ現フレームは非対象音声フレームであると判断する。
ステップ304:検出モデルに基づき対象音声の検出を行い、モデルに基づいた検出結果を取得する。
検出モデルに基づいた対象音声の検出は、上述した図1のステップ103〜ステップ104を参照し、ここでは繰り返さない。
ステップ305:強度差に基づいた検出結果とモデルに基づいた検出結果とを統合して、現フレームに対応する対象音声の検出結果を取得する。
具体的には、Imodel(k,l)及びIratio(k,l)に基づき、協同的に判断を行う。音声雑音対策うちの適応雑音除去(ANC、Adaptive Noise Cancellation)
を例とし、対象音声の有無を以下の通り判断する。
Figure 2021500593
その中、閾値th3、th4、th5及びth6は多くの実験及び/又は経験を踏まえて得られるものである。例えば、th3を0.5、th4を0.5、th5を0.25、th6を0.25としてよい。
説明すべき点については、対象音声検出モデルとして分類モデルを用い、かつ、強度差に基づいた検出結果も0又は1の二値データとなる場合、両方式の検出結果を統合する際
に、論理「AND」もしくは論理「OR」の統合方式を用いることができる。もちろん、実際の適用上においては、他の統合方式を採用することもでき、本出願の実施例では限定しない。
説明すべき点については、上記ステップ303とステップ304とは、それぞれ異なる方法による対象音声検出プロセスであり、独立して行われ、かつ時間的前後関係はないため、並行に実行しても、いずれかのステップを先行に実行してもよい。
このように、本出願の実施例における対象音声検出方法では、信号対雑音比の低い環境下でも正確な検出結果を取得するのみならず、強度差に基づいた検出結果を合わせることができるため、検出結果の正確性をさらに高めた。
本出願の実施例においてコンピュータ読み取り可能な記録媒体を提供し、コンピュータプログラムコードを記憶し、コンピュータプログラムコードは1つのコンピュータユニットにて実行され、コンピュータユニットに本出願の対象音声検出実施例における各ステップを実行させる。
対象音声検出装置であって、プロセッサ、メモリ、システムバスを含む。
プロセッサ及びメモリは、システムバスを介して接続される。
メモリは、1つ又は複数のプログラムを記憶し、1つ又は複数のプログラムは命令を含み、命令はプロセッサで実行される場合に、プロセッサに本出願の対象音声検出実施例における各ステップを実行させる。
コンピュータプログラム製品であって、コンピュータプログラム製品が端末装置で実行される時、端末装置に本出願の対象音声検出実施例における各ステップを実行させることを特徴とする。
本出願の実施例においては、さらに、対象音声検出装置を提供する。図4に示すように、当該装置の構造模式図である。
当該実施例において、当該装置は、受信モジュール401と、ビームフォーミングモジュール402と、検出特徴抽出モジュール403と、第1の検出モジュール404と、検出結果出力モジュール405と、を含む。
ここで、受信モジュール401は、マイクロホンアレイに基づき集音した音声信号を受信し、それをビームフォーミングモジュール402へ出力する。
ビームフォーミングモジュール402は、入力された音声信号をビームフォーミング処理し、方向が異なるビームを取得する。
検出特徴抽出モジュール403は、その入力がそれぞれ受信モジュール401及びビームフォーミングモジュール402の出力に接続され、音声信号と方向が異なるビームとに基づき、フレーム毎に検出特徴を抽出し、抽出した検出特徴を第1の検出モジュール404へ出力する
第1の検出モジュール404は、検出特徴抽出モジュール403により抽出された現フレームの検出特徴を予め構築された対象音声検出モデル400に入力し、取得したモデル出力結果を、検出結果出力モジュール405に送信する。
検出結果出力モジュール405は、モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する。
説明すべき点については、上記受信モジュール401は、音声信号の集音後、音声信号に対し前処理を行う必要がある。前処理とは受信した音声信号を時間領域から周波数領域に変換し、周波数信号を取得することである。
上記検出特徴抽出モジュール403により抽出された検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法については、前述本出願の実施例に記載した説明を参照にすることができるため、ここでは繰り返さない。
上記対象音声検出モデル400としては分類モデル又は回帰モデルが挙げられるが、具体的には、対応するモデル構築モジュールで予め構築することができる。モデル構築モジュールについては、本出願における装置の一部であってもよく、本出願における装置と独立するものであってもよく、本出願の実施例では限定しない。
図5は、本出願の実施例におけるモデル構築モジュールの構造を示し、この構造は以下の各ユニットを含む。
構造設計ユニット51は、対象音声検出モデルのトポロジー構造を決定する。
トレーニングデータ処理ユニット52は、クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、トレーニングデータに対し対象音声情報をラベリングする。
特徴抽出ユニット53は、トレーニングデータの検出特徴を抽出する。
トレーニングユニット54は、検出特徴及びラベリング情報に基づき、トレーニングして対象音声検出モデルのパラメータを取得する。
説明すべき点については、対象音声検出モデルの構築過程において、特徴抽出ユニット53で抽出される検出特徴も空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法については、前述本出願の実施例に記載した説明を参照することができるため、ここでは繰り返さない。
本出願の実施例で提供される対象音声検出装置は、マイクロホンアレイに基づき、音声信号を集音し、音声信号をビームフォーミング処理し、方向が異なるビームを取得し、音声信号と方向が異なるビームとに基づき検出特徴をフレーム毎に抽出し、予め構築された対象音声検出モデル及び多重チャンネルの情報を利用し対象音声を検出することにより、対象音声検出の正確性を効果的に高めるのみならず、適用場面が制限されるという問題もなく、信号対雑音比の低い環境でも正確な検出結果を取得することができる。
図6は、本出願の実施例における対象音声検出装置のもう一つの構造模式図である。
当該実施例において、図5に示された実施例と異なる点としては、当該装置にはさらに、第2の検出モジュール406を含む。
第2の検出モジュール406は、その入力がビームフォーミングモジュール402の出力に接続され、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取
得し、かつ、強度差に基づいた検出結果を検出結果出力モジュール405に送信する。
第2の検出モジュール406は、具体的に、以下の各ユニットを含んでよい。
方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニット。
音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニット。
パワーの比から、強度差に基づいた検出結果を取得する結果検出ユニット。
従って、当該実施例において、検出結果出力モジュール405は、強度差に基づいた検出結果とモデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する。その具体的な統合方法については、前述の本出願の実施例に記載した説明を参照することができるため、ここでは繰り返さない。
本出願の実施例における対象音声検出装置は、モデルと強度差のそれぞれに基づく方法により対象音声の検出を行う上で、この2つの異なる方法による検出結果を総合的に評価することにより、得られる検出結果をより正確にすることができる。
本明細書の各実施例はプログレッシブな方式で記載し、各実施例間の同一または類似する部分は互いに参照でき、各実施例はその他の実施例との相違点について重点を置いて記載される。また、以上のように記載される装置の実施例は例示的なものであり、ここで、分割部品として述べられたユニットは物理的な分割であってもよく、そうでなくてもよい。ユニットとして示される部品は物理的なユニットであってもよく、そうでなくてもよい。また、1つの箇所に位置するか、複数のネットワークユニットに分散する場合がある。
実際のニーズに応じて、その一部又は全部のモジュールを選択して、本実施例の解決案の目的を果たすことができる。当業者であれば、創造的な労働をせずに容易に理解して実施することができる。
以上、本出願の実施例を詳細に説明し、本文では具体的な実施形態を用いて本出願を説明し、以上の実施例の説明は本出願を理解するための方法及び装置である。また、当業者にとっては、本出願のアイデアに基づき具体的な実施形態及び応用範囲を変更することができ、以上のことから、本明細書の内容は本出願への制限と理解すべきではない。

Claims (15)

  1. マイクロホンアレイに基づき集音した音響信号を受信することと、
    前記音響信号をビームフォーミング処理し、方向が異なるビームを取得することと、
    前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することと、
    抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得することと、
    前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得することと、
    を含むことを特徴とする対象音声検出方法。
  2. 前記対象音声検出モデルは、
    前記対象音声検出モデルのトポロジー構造を決定し、
    クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングし、
    前記トレーニングデータの検出特徴を抽出し、
    前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得することにより構築される、
    ことを特徴とする請求項1に記載の方法。
  3. 前記対象音声検出モデルは分類モデル又は回帰モデルであり、前記対象音声検出モデルの出力は、現フレームの周波数ごとの理想バイナリマスク又は理想比マスクである、
    ことを特徴とする請求項1に記載の方法。
  4. 前記検出特徴は、空間次元情報、周波数次元情報、時間次元情報を含む、
    ことを特徴とする請求項1〜3のいずれか1項に記載の方法。
  5. 前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することは、
    各フレームの各周波数において、各ビーム信号と、マイクロホンアレイに基づき集音した音響信号とを順次組み合わせることで、多次元空間ベクトルを取得することと、
    前記多次元空間ベクトルの要素ごとにそれぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得することと、
    前記空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得することと、を含む、
    ことを特徴とする請求項1に記載の方法。
  6. 強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することをさらに含み、
    前記モデル出力結果に基づき、現フレームが対象音声フレームであるかどうかを判断することは、
    前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得することを含む、
    ことを特徴とする請求項1〜3、5のいずれか1項に記載の方法。
  7. 前記した、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することは、
    前記方向が異なるビームから、音声参照信号及び雑音参照信号を取得し、
    前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、
    音声参照信号と雑音参照信号とのパワーの比を算出し、
    前記パワーの比に基づき、前記強度差に基づいた検出結果を取得することを含む、
    ことを特徴とする請求項6に記載の方法。
  8. 受信モジュールと、ビームフォーミングモジュールと、検出特徴抽出モジュールと、第1の検出モジュールと、検出結果出力モジュールと、を含む対象音声検出装置において、
    前記受信モジュールは、マイクロホンアレイに基づき集音した音響信号を受信し、前記ビームフォーミングモジュールへ出力し、
    前記ビームフォーミングモジュールは、入力された前記音響信号をビームフォーミング処理し、方向が異なるビームを取得し、
    前記検出特徴抽出モジュールは、その入力がそれぞれ前記受信モジュール及び前記ビームフォーミングモジュールの出力に接続され、前記音響信号と前記方向が異なるビームとに基づき、検出特徴をフレーム毎に抽出し、抽出した検出特徴を前記第1の検出モジュールへ出力し、
    前記第1の検出モジュールは、前記検出特徴抽出モジュールにより抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得し、前記モデル出力結果を前記検出結果出力モジュールに送信し、
    前記検出結果出力モジュールは、前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する、
    ことを特徴とする対象音声検出装置。
  9. 前記対象音声検出モデルを構築するモデル構築モジュールをさらに含み、
    前記モデル構築モジュールは、
    対象音声検出モデルのトポロジー構造を決定する構造設計ユニットと、
    クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングするトレーニングデータ処理ユニットと、
    前記トレーニングデータの検出特徴を抽出する特徴抽出ユニットと、
    前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得するトレーニングユニットと、を含む、
    ことを特徴とする請求項8に記載の装置。
  10. 前記対象音声検出モデルは分類モデルまたは回帰モデルである、
    ことを特徴とする請求項8に記載の装置。
  11. 入力が前記ビームフォーミングモジュールの出力に接続され、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得し、かつ、前記強度差に基づいた検出結果を前記検出結果出力モジュールに送信する第2の検出モジュールをさらに含み、
    前記検出結果出力モジュールは、前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する、
    ことを特徴とする請求項8〜10のいずれか1項に記載の装置。
  12. 前記第2の検出モジュールは、
    前記方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニットと、
    前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニットと、
    前記パワーの比から、前記強度差に基づいた検出結果を取得する結果検出ユニットと、を含む、
    ことを特徴とする請求項11に記載の装置。
  13. 1つのコンピュータユニットにより、請求項1〜7のいずれか1項に記載の人とコンピュータとの相互作用に適用される方法のステップを実行させるコンピュータプログラムコードを記憶する、
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
  14. プロセッサ、メモリ、システムバスを含む対象音声検出装置において、
    前記プロセッサと前記メモリとが、前記システムバスを介して接続され、
    前記メモリには、命令を含む一つまたは複数のプログラムが記憶され、前記命令が前記プロセッサによって実行された場合に請求項1〜7のいずれか1項に記載の方法を前記プロセッサに実行させる、
    ことを特徴とする対象音声検出装置。
  15. 端末装置で実行された場合に、請求項1〜7のいずれか1項に記載の方法を前記端末装置に実行させる、
    ことを特徴とするコンピュータプログラム製品。
JP2020517383A 2017-10-23 2018-07-16 対象音声検出方法及び装置 Active JP7186769B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710994194.5 2017-10-23
CN201710994194.5A CN107785029B (zh) 2017-10-23 2017-10-23 目标语音检测方法及装置
PCT/CN2018/095758 WO2019080551A1 (zh) 2017-10-23 2018-07-16 目标语音检测方法及装置

Publications (2)

Publication Number Publication Date
JP2021500593A true JP2021500593A (ja) 2021-01-07
JP7186769B2 JP7186769B2 (ja) 2022-12-09

Family

ID=61433874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020517383A Active JP7186769B2 (ja) 2017-10-23 2018-07-16 対象音声検出方法及び装置

Country Status (7)

Country Link
US (1) US11308974B2 (ja)
EP (1) EP3703054B1 (ja)
JP (1) JP7186769B2 (ja)
KR (1) KR102401217B1 (ja)
CN (1) CN107785029B (ja)
ES (1) ES2964131T3 (ja)
WO (1) WO2019080551A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
CN108335694B (zh) * 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
CN108962237B (zh) * 2018-05-24 2020-12-04 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质
CN110164446B (zh) * 2018-06-28 2023-06-30 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备
CN109801646B (zh) * 2019-01-31 2021-11-16 嘉楠明芯(北京)科技有限公司 一种基于融合特征的语音端点检测方法和装置
CN110223708B (zh) * 2019-05-07 2023-05-30 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110265065B (zh) * 2019-05-13 2021-08-03 厦门亿联网络技术股份有限公司 一种构建语音端点检测模型的方法及语音端点检测系统
CN111613247B (zh) * 2020-04-14 2023-03-21 云知声智能科技股份有限公司 一种基于麦克风阵列的前景语音检测方法及装置
CN111883166B (zh) * 2020-07-17 2024-05-10 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN112151036B (zh) * 2020-09-16 2021-07-30 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备
CN112562649B (zh) * 2020-12-07 2024-01-30 北京大米科技有限公司 一种音频处理的方法、装置、可读存储介质和电子设备
CN113077803B (zh) * 2021-03-16 2024-01-23 联想(北京)有限公司 一种语音处理方法、装置、可读存储介质及电子设备
CN113270108B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
CN113345469A (zh) * 2021-05-24 2021-09-03 北京小米移动软件有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN115240698A (zh) * 2021-06-30 2022-10-25 达闼机器人股份有限公司 模型训练方法、语音检测定位方法、电子设备及存储介质
CN116580723B (zh) * 2023-07-13 2023-09-08 合肥星本本网络科技有限公司 一种强噪声环境下的语音检测方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014010438A (ja) * 2012-07-03 2014-01-20 Toshiba Corp 集音装置
JP2017107141A (ja) * 2015-12-09 2017-06-15 日本電信電話株式会社 音源情報推定装置、音源情報推定方法、およびプログラム
WO2017164954A1 (en) * 2016-03-23 2017-09-28 Google Inc. Adaptive audio enhancement for multichannel speech recognition

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
EP1905268B1 (en) * 2005-07-06 2011-01-26 Koninklijke Philips Electronics N.V. Apparatus and method for acoustic beamforming
KR20090037845A (ko) * 2008-12-18 2009-04-16 삼성전자주식회사 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
CN101192411B (zh) * 2007-12-27 2010-06-02 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
US9100734B2 (en) * 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
CN102074246B (zh) * 2011-01-05 2012-12-19 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
KR101811716B1 (ko) * 2011-02-28 2017-12-28 삼성전자주식회사 음성 인식 방법 및 그에 따른 음성 인식 장치
TW201443875A (zh) * 2013-05-14 2014-11-16 Hon Hai Prec Ind Co Ltd 收音方法及收音系統
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
JP6221158B2 (ja) * 2014-08-27 2017-11-01 本田技研工業株式会社 自律行動ロボット、及び自律行動ロボットの制御方法
CN105590631B (zh) * 2014-11-14 2020-04-07 中兴通讯股份有限公司 信号处理的方法及装置
US20160180214A1 (en) * 2014-12-19 2016-06-23 Google Inc. Sharp discrepancy learning
US10580401B2 (en) * 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
CN104766093B (zh) * 2015-04-01 2018-02-16 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的声目标分类方法
CN105336340B (zh) * 2015-09-30 2019-01-01 中国电子科技集团公司第三研究所 一种用于低空目标声探测系统的风噪抑制方法和装置
CN205621437U (zh) * 2015-12-16 2016-10-05 宁波桑德纳电子科技有限公司 一种声像联合定位的远距离语音采集装置
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN105869651B (zh) * 2016-03-23 2019-05-31 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
CN105788607B (zh) * 2016-05-20 2020-01-03 中国科学技术大学 应用于双麦克风阵列的语音增强方法
US9972339B1 (en) * 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
CN106328156B (zh) * 2016-08-22 2020-02-18 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN106483502B (zh) 2016-09-23 2019-10-18 科大讯飞股份有限公司 一种声源定位方法及装置
US10140980B2 (en) * 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
CN106782618B (zh) * 2016-12-23 2020-07-31 云知声(上海)智能科技有限公司 基于二阶锥规划的目标方向语音检测方法
CN106710603B (zh) * 2016-12-23 2019-08-06 云知声(上海)智能科技有限公司 利用线性麦克风阵列的语音识别方法及系统
RU2760097C2 (ru) * 2017-01-03 2021-11-22 Конинклейке Филипс Н.В. Способ и устройство для захвата аудиоинформации с использованием формирования диаграммы направленности
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
US10546593B2 (en) * 2017-12-04 2020-01-28 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
US11120786B2 (en) * 2020-03-27 2021-09-14 Intel Corporation Method and system of automatic speech recognition with highly efficient decoding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014010438A (ja) * 2012-07-03 2014-01-20 Toshiba Corp 集音装置
JP2017107141A (ja) * 2015-12-09 2017-06-15 日本電信電話株式会社 音源情報推定装置、音源情報推定方法、およびプログラム
WO2017164954A1 (en) * 2016-03-23 2017-09-28 Google Inc. Adaptive audio enhancement for multichannel speech recognition
JP6480644B1 (ja) * 2016-03-23 2019-03-13 グーグル エルエルシー マルチチャネル音声認識のための適応的オーディオ強化

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIONG XIAO, ET AL.: "A Study of Learning Based Beamforming Methods for Speech Recognition", SPEECH PROCESSING IN EVERYDAY ENVIRONMENT (CHIME 2016), JPN6021018724, 13 September 2016 (2016-09-13), ISSN: 0004834689 *
YUXUAN WANG, ET AL.: "On Training Targets for Supervised Speech Separation", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 22, no. 12, JPN6021018726, 28 August 2014 (2014-08-28), pages 1849 - 1857, ISSN: 0004834690 *

Also Published As

Publication number Publication date
ES2964131T3 (es) 2024-04-04
EP3703054B1 (en) 2023-09-20
CN107785029B (zh) 2021-01-29
US11308974B2 (en) 2022-04-19
CN107785029A (zh) 2018-03-09
WO2019080551A1 (zh) 2019-05-02
US20200342890A1 (en) 2020-10-29
KR20200066367A (ko) 2020-06-09
EP3703054A4 (en) 2021-07-28
KR102401217B1 (ko) 2022-05-23
JP7186769B2 (ja) 2022-12-09
EP3703054C0 (en) 2023-09-20
EP3703054A1 (en) 2020-09-02

Similar Documents

Publication Publication Date Title
JP7186769B2 (ja) 対象音声検出方法及び装置
CN106251877B (zh) 语音声源方向估计方法及装置
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
US8891785B2 (en) Processing signals
TWI711035B (zh) 方位角估計的方法、設備、語音交互系統及儲存介質
TW201629950A (zh) 針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風
CN107889001B (zh) 可扩展麦克风阵列及其建立方法
CN102708874A (zh) 麦克风阵列的噪声自适应波束形成
US20110058683A1 (en) Method & apparatus for selecting a microphone in a microphone array
CN105828266A (zh) 一种麦克风阵列的信号处理方法与系统
US20190164567A1 (en) Speech signal recognition method and device
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN112652320B (zh) 声源定位方法和装置、计算机可读存储介质、电子设备
CN105445697A (zh) 一种低成本低功耗的声源定向方法
EP3206574A1 (en) Frame based spike detection module
CN104952459A (zh) 一种基于分布式一致性和mvdr波束形成的分布式语音增强方法
CN104599679A (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
CN107221338B (zh) 声波提取装置以及提取方法
CN103731768B (zh) 一种声音拾取方法及装置
RU2523913C2 (ru) Многоканальное устройство радиомониторинга
CN108269581B (zh) 一种基于频域相干函数的双麦克风时延差估计方法
US11765522B2 (en) Speech-tracking listening device
Ju et al. Tracking the moving sound target based on distributed microphone pairs
CN113163282B (zh) 一种基于usb的降噪拾音系统及方法
CN109212480B (zh) 一种基于分布式辅助粒子滤波的声源跟踪方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210825

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220525

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220525

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220615

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221129

R150 Certificate of patent or registration of utility model

Ref document number: 7186769

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150