JP2021515281A - 音声認識方法、装置、コンピュータデバイス、電子機器及びコンピュータプログラム - Google Patents

音声認識方法、装置、コンピュータデバイス、電子機器及びコンピュータプログラム Download PDF

Info

Publication number
JP2021515281A
JP2021515281A JP2020570624A JP2020570624A JP2021515281A JP 2021515281 A JP2021515281 A JP 2021515281A JP 2020570624 A JP2020570624 A JP 2020570624A JP 2020570624 A JP2020570624 A JP 2020570624A JP 2021515281 A JP2021515281 A JP 2021515281A
Authority
JP
Japan
Prior art keywords
voice recognition
audio signal
signal
keyword detection
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020570624A
Other languages
English (en)
Other versions
JP7109852B2 (ja
Inventor
毅 高
毅 高
脊萌 ▲鄭▼
脊萌 ▲鄭▼
蒙 于
蒙 于
▲敏▼ ▲羅▼
▲敏▼ ▲羅▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2021515281A publication Critical patent/JP2021515281A/ja
Application granted granted Critical
Publication of JP7109852B2 publication Critical patent/JP7109852B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本出願は、音声認識方法、装置、コンピュータデバイス及び電子機器に関する。方法は、マイクアレイによって収集されたオーディオ信号を受信するステップと、オーディオ信号に対して複数の異なるターゲット方向でそれぞれビーム形成処理を行い、対応する複数のビーム信号を取得するステップと、各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得するステップと、各ビーム信号の音声認識結果に基づいて、オーディオ信号の音声認識結果を決定するステップと、を含む。この方法は、音源方向を考慮する必要がなく異なるターゲット方向でビーム形成処理を行うことで、少なくとも1つのターゲット方向が実際の音声発生方向に近くなるため、ターゲット方向に強化された少なくとも1つのビーム信号が明確になり、各ビーム信号に従って音声認識を行い、音声認識の正確率を向上させることができる。

Description

本出願は、2018年06月28日に中国特許庁に提出された、出願番号が201810689667.5であって、出願の名称が「音声信号認識方法、装置、コンピュータデバイス及び電子機器」である中国特許出願の優先権を主張するものであり、その全内容を本出願に参照により援用する。
本出願は、音声インタラクション技術分野に関し、特に、音声認識方法及び装置、コンピュータデバイス及び電子機器に関する。
スマート音声インタラクションは、音声コマンドによりマンマシンインタラクションを実現する技術である。音声インタラクション技術を電子機器に埋め込むことにより、電子機器を人工知能化にし、人工知能化された電子機器は現在、ユーザーにますます人気が高まっている。例えば、AmazonのEchoスマートスピーカーは市場で大成功した。
音声インタラクション技術を埋め込んだ電子機器では、ユーザーの音声コマンドを正確に認識することが、マンマシンインタラクションを実現できる基礎となる。ユーザーが電子機器を使用する環境は不確実であるので、ユーザーが環境ノイズの大きいシーンにある場合、如何に音声認識に対する環境ノイズの影響を低減し、電子機器の音声認識の正確率を向上させるかは、解決すべき問題の一つである。
一般的に、関連する技術ではこの問題を解決する方法として、まず、マイクアレイ内の全てマイクによってオーディオ信号を収集し、収集されたオーディオ信号に応じて音源角度を決定し、音源角度に応じてオーディオ信号を指向性に収集することで、不要なノイズの干渉を低減できる。この方法は、音源角度の精度に影響され、音源角度を誤って検出すると、音声認識の正確率が低下してしまう。
これに鑑みて、本出願の実施例は、関連技術における音声認識精度が低い問題を解決することができる音声認識方法及び装置、コンピュータデバイス及び電子機器を提供する。
音声認識方法であって、
マイクアレイによって収集されたオーディオ信号を受信するステップと、
前記オーディオ信号に対して複数の異なるターゲット方向でそれぞれビーム形成処理を行い、対応する複数のビーム信号を取得するステップと、
各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得するステップと、
各ビーム信号の音声認識結果に基づいて、オーディオ信号の音声認識結果を決定するステップと、を含む。
音声認識装置であって、
マイクアレイによって収集されたオーディオ信号を受信するためのオーディオ信号受信モジュールと、
前記オーディオ信号に対して複数の異なるターゲット方向でそれぞれビーム形成処理を行い、対応する複数のビーム信号を取得するためのビームフォーマーと、
各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得するための音声認識モジュールと、
各ビーム信号の音声認識結果に基づいて、前記オーディオ信号の音声認識結果を決定するための処理モジュールと、を含む。
コンピュータデバイスであって、マイクアレイ、メモリ及びプロセッサーを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーに上記のような方法のステップを実行させる。
電子機器であって、
少なくとも2層のリング構造を含む、オーディオ信号を収集するためのマイクアレイと、
前記マイクアレイに接続されて、前記オーディオ信号を処理するプロセッサーと、
コンピュータプログラムが記憶されているメモリと、
前記マイクアレイ及び前記プロセッサーをパッケージングするケースと、を含み、
前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーに、上記のような音声認識方法を実行させる。
上記の音声認識方法及び装置、コンピュータデバイス及び電子機器は、マイクアレイによって収集されたオーディオ信号に対して複数の異なるターゲット方向でそれぞれビーム形成処理を行うことで、対応する複数のビーム信号を取得し、異なるターゲット方向で音声強化処理を行うことを実現し、各ターゲット方向で強化処理されたビーム信号を明確に抽出することができる。即ち、この方法は、音源方向を考慮する必要がなく異なるターゲット方向でビーム形成処理を行うことで、少なくとも1つのターゲット方向が実際の音声発生方向に近くなるため、ターゲット方向で強化された少なくとも1つのビーム信号が明確になり、各ビーム信号に従って音声認識を行い、音声認識の正確率を向上させることができる。
一実施例における音声認識方法の概略フローチャートである。 一実施例におけるマイクアレイの模式図である。 一実施例における4つのターゲット方向でビーム形成処理を行って得られるビーム信号の模式図である。 一実施例におけるビームフォーマーと音声認識モデルとのインタラクションの模式図である。 一実施例における音声認識モデルの構造の模式図である。 一実施例における音声認識モデルのニューラルネットワークノードがウェイクワードを検出した場合の信号の模式図である。 一実施例の音声認識のアーキテクチャ図である。 一実施例におけるマイクアレイの模式図である。 他の実施例におけるマイクアレイの模式図である。 一実施例における音声認識方法のステップの概略フローチャートである。 一実施例における音声認識装置の構造ブロック図である。 一実施例におけるコンピュータデバイスの構造ブロック図である。
本出願の目的、技術案及び利点をより明確にするために、以下、添付の図面および実施例を結合して、本出願をさらに詳細に説明する。ここで説明する実施例は、本出願を説明するためのもので、本出願を限定しない。
一実施例では、音声認識方法を提供する。本実施例では、主に当該方法を音声認識デバイスに適用する例として説明する。音声認識デバイスは、音声インタラクション技術が埋め込まれた電子機器であってもよく、この電子機器は、マンマシンインタラクションを実現できるスマート端末、スマート家電、又はロボット等であってもよい。図1に示すように、当該音声認識方法は次のステップを含む。
S102:マイクアレイによって収集されたオーディオ信号を受信する。
マイクアレイは、マイクの配列を指し、一定数のマイクで構成される。各マイクは環境音のマナログ信号を収集し、アナログデジタルコンバーター、ゲインコントローラー、コーデック等のオーディオ収集デバイスを介して、このマナログ信号をデジタルオーディオ信号に変換する。
異なる配列のマイクアレイは、オーディオ信号を収集する効果が異なる。
例えば、マイクアレイは、1次元のマイクアレイを使用でき、そのアレイ・エレメント中心は同じ直線上にある。隣接するアレイ・エレメントのピッチが同じであるかどうかに応じて、均一リニアアレイ(Uniform Linear Array、ULA)及びネスティングリニアアレイに分けることができる。均一リニアアレイは、最も単純なアレイトポロジーであり、そのアレイ・エレメント間の距離は等しく、位相と感度は一致する。ネスティングリニアアレイは、いくつか組みの均一リニアアレイの重ね合わせと見なすことができ、特別な非均一アレイである。このようなリニアマイクアレイは、水平方向で、360度の範囲全体の音源方向を区別できず、180度の範囲内の音源方向しか区別できない。このようなリニアマイクアレイは、180度の範囲の適用環境に適応できる。例えば、音声認識デバイスは壁に当たっているか、音源が180度の範囲である環境にある。
また、例えば、マイクアレイは、2次元のマイクアレイ、即ち、平面マイクアレイを使用でき、そのアレイ・エレメント中心は1つの平面上に分布される。アレイの幾何学的形状に応じて、正三角形アレイ、T字アレイ、均一円形アレイ、均一正方形アレイ、同軸円形アレイ、円形または長方形のエリアアレイなどに分けることができる。平面マイクアレイは、信号の水平方位角及び垂直方位角の情報を取得できる。このような平面マイクアレイは、360度の範囲の適用環境に適応できる。例えば、音声認識デバイスは、異なる向きから音を受信する必要がある。
さらに、例えば、マイクアレイは、3次元のマイクアレイ、即ち、ステレオマイクアレイを使用でき、そのアレイ・エレメント中心は3次元の空間に分布される。アレイの3次元形状に応じて、四面体アレイ、立方体アレイ、直方体アレイ、球面アレイなどに分けることができる。3次元マイクアレイは、信号の水平方位角、垂直方位角、音源とマイクアレイ参照点との距離という3種類の情報を取得できる。
ここで、マイクアレイがリングである例として説明する。実施例であるリングマイクアレイを図2に示す。本実施例では、順に0度、60度、120度、180度、240度、300度の方位角で、半径がRの円周上に配置した6つの物理マイクを使用し、この6つの物理マイクは1つのリングマイクアレイを構成する。各マイクは、環境音のマナログ信号を収集し、アナログデジタルコンバーター、ゲインコントローラー、コーデック等のオーディオ収集デバイスを介して、このマナログ信号をデジタル音信号に変換する。リングマイクアレイは、360度で音声信号を収集できる。
S104:収集されたオーディオ信号に対して複数の異なるターゲット方向でビーム形成処理をそれぞれ行い、対応する複数のビーム信号を得る。
ビーム形成は、マイクアレイ内の各マイクから出力されたオーディオ信号に遅延、位相補償、又は振幅重み付け処理を実行して、特定の方向を指すビームを形成する。例えば、マイクアレイによって収集されたオーディオ信号に対して、0度、90度、180度又は270度の方向で、ビームを形成し、0度、90度、180度又は270度方向を指すビームを形成する。
一例として、ビームフォーマーを使用して、オーディオ信号に対して設定の方向でそれぞれビーム形成処理を行う。ビームフォーマーは、特定のマイクアレイ設計に基づくアルゴリズムであり、特定の1つ又は複数のターゲット方向のオーディオ信号を強化し、非ターゲット方向のオーディオ信号を抑制することができる。ビームフォーマーは、任意のタイプの方向を設定できるビームフォーマーであってもよく、超指向性ビームフォーマー、MVDR(Minimum Variance Distortionless Response、最小分散歪みなし応答)又はMUSIC(Multiple Signal Classification、複数信号分類)アルゴリズムに基づくビームフォーマーを含むが、これらに限定されない。
本実施例では、複数のビームフォーマーを設置しており、各ビームフォーマーは、異なる方向でビーム形成処理を行う。例として、複数のマイクのデジタルオーディオ信号はマイクアレイ信号を構成し、複数のビームフォーマーに送信される。各ビームフォーマーは、異なる設定方向のオーディオ信号に対して強化処理を行い、他の方向のオーディオ信号を抑制し、設定方向から外れるオーディオ信号ほど抑制され、設定方向に近いオーディオ信号を抽出することができる。
一実施例では、4つのビームフォーマーを設置しており、それぞれ0度、90度、180度、及び270度でオーディオ信号に対してビーム形成処理を行う。複数の方向でオーディオ信号に対してビーム形成処理を行うことで得られる複数のビーム信号の模式図を図3に示す。各ビームフォーマーに入力されるオーディオ信号は、このオーディオ信号を収集するマイクアレイの配列に限定されない。複数のターゲット方向でそれぞれビーム形成処理を行う場合、ターゲット方向のオーディオ信号に対して強化処理を行い、他の方向のオーディオ信号の干渉を減らすことができる。よって、例として、このオーディオ信号を収集するマイクアレイには、少なくとも2つの異なる方向のマイクを有する。
図2に示すマイクアレイを利用してオーディオ信号を収集する例として、図3に示すように、複数のマイクのデジタルオーディオ信号をマイクアレイ信号として構成し、0度方向の音声はそのまま維持し(0dBゲイン)、60度と330度方向の音声は9dBを超える(約-9dBゲイン)抑制効果があり、90度と270度方向の音声は20dBを超える抑制効果がある。線が円心に近いほど、この方向の音がより抑制されるため、0度方向のオーディオ信号が強化され、他の方向のオーディオ信号の干渉を減らすことができる。
引き続き図3を参照して、複数のマイクのデジタルオーディオ信号をマイクアレイ信号として構成し、90度方向の音声はそのまま維持し(0dBゲイン)、30度と150度方向の音声は9dBを超える(約-9dBゲイン)抑制効果があり、0度と180度方向の音声は20dBを超える抑制効果がある。線が円心に近いほど、この方向の音がより抑制されるため、90度方向のオーディオ信号が強化され、他の方向のオーディオ信号の干渉を減らすことができる。
引き続き図3を参照して、複数のマイクのデジタルオーディオ信号をマイクアレイ信号として構成し、180度方向の音声はそのまま維持し(0dBゲイン)、120度と240度方向の音声は9dBを超える(約-9dBゲイン)抑制効果があり、90度と270度方向の音声は20dBを超える抑制効果がある。線が円心に近いほど、この方向の音がより抑制されるため、180度方向のオーディオ信号が強化され、他の方向のオーディオ信号の干渉を減らすことができる。
引き続き図3を参照して、複数のマイクのデジタルオーディオ信号をマイクアレイ信号として構成し、270度方向の音声はそのまま維持し(0dBゲイン)、210度と330度方向の音声は9dBを超える(約-9dBゲイン)抑制効果があり、180度と0度方向の音声は20dBを超える抑制効果がある。線が円心に近いほど、この方向の音がより抑制されるため、270度方向のオーディオ信号が強化され、他の方向のオーディオ信号の干渉を減らすことができる。
他のターゲット方向でオーディオ信号を強化するために、他の実施例では、他の方向のビーム信号を抽出するように、より多いまたはより少ないビームフォーマーを設置することができる。設定された複数の異なるターゲット方向でそれぞれビーム形成処理を行うことによって、当該ビームフォーマーのビーム信号は、ターゲット方向のオーディオ信号を強化し、他の方向のオーディオ信号の干渉を減らすことができる。複数のターゲット方向のオーディオ信号のうち、少なくとも一つのビーム信号は実際の音方向に近く、即ち、少なくとも一つのビーム信号は実際の音を反映することができるとともに他の方向のノイズの干渉を低減する。
本実施例では、マイクアレイによって収集されたオーディオ信号に対して、音源方向を識別する必要はなく、設定された複数の異なるターゲット方向でビーム形成処理を行う。このようにする利点は、複数のターゲット方向のビーム信号を取得でき、その中に、必ず少なくとも1つのビーム信号は実際の音の方向に近く、即ち、少なくとも1つのビーム信号は実際の音を反映することができる。この方向のビームフォーマーは、この方向のオーディオ信号に対して強化処理を行い、他の方向のオーディオ信号に対して抑制処理を行うことで、実際の音の方向に対応する角度のオーディオ信号を強化し、即ち、他の方向のオーディオ信号を減らすことができ、この方向のオーディオ信号を明確に抽出し、他の方向のオーディオ信号(ノイズを含む)の干渉を減らすことができる。
S106:各ビーム信号に対して音声認識をそれぞれに行い、各ビーム信号の音声認識結果を得る。
本実施例では、ビーム信号ごとにそれぞれ音声認識を行う。設定の複数の異なるターゲット方向でオーディオ信号に対してビーム形成処理を行い、複数のビーム信号を得る、即ち、一つのビーム信号について、設定のターゲット方向のオーディオ信号に対して強化処理を行い、未設定のターゲット方向のオーディオ信号に対して抑制処理を行うことによって得られる。よって、各ビーム信号は異なる方向のオーディオ信号の音声強化信号を反映でき、各方向のビーム信号に従って音声認識を行うことで、人の声を含む音声強化信号について、音声認識の正確率を向上させることができる。
S108、各ビーム信号の音声認識結果に従って、収集されたオーディオ信号の音声認識結果を決定する。
各ビーム信号に対して音声認識を行うことで、対応する方向のオーディオ信号の音声認識の正確率を向上させることができ、各方向のビーム信号の音声認識結果に従って、複数の方向からのオーディオ信号の音声認識結果を得ることができ、即ち、各音声強化された音声認識結果を組み合わせて、収集されたオーディオ信号の音声認識結果を得ることができる。
上記の音声認識方法では、マイクアレイによって収集されたオーディオ信号に対して、設定の複数の異なるターゲット方向でビーム形成処理を行い、対応する複数のビーム信号を得ることで、それぞれ異なるターゲット方向で音声強化処理を行った後に、各ターゲット方向で強化処理されたビーム信号を明確に抽出することができる。即ち、この方法は、音源方向を考慮する必要がなく、異なるターゲット方向でビーム形成処理を行うことで、少なくとも1つのターゲット方向が実際の音声発生方向に近いため、少なくとも1つのターゲット方向で強化されたビーム信号が明確になるため、各ビーム信号に従って音声認識を行い、音声認識の正確率を向上させることができる。
別の実施例では、各ビーム信号に対してそれぞれ音声認識を行い、各ビーム信号の音声認識結果を得ることは、各ビーム信号を対応する音声認識モデルにそれぞれに入力し、各音声認識モデルにより対応するビーム信号を並行して音声認識し、各ビーム信号の音声認識結果を得ることを含む。
一例として、音声認識モデルは、ニューラルネットワークモデルを使用して予めトレーニングされる。予めトレーニングされたニューラルネットワークパラメータによって、各ビーム信号に対応する特徴ベクトル、例えば、エネルギーとサブバンド特徴などを、レイヤーごとに算出して、音声認識を行う。
別の実施例では、ビームフォーマーの数に対応する音声認識モデルを設置して、即ち、1つのビームフォーマーが1つの音声認識モデルに対応する。図4に示すように、一例として、各ビーム信号を対応する音声認識モデルにそれぞれ入力し、各音声認識モデルにより対応するビーム信号を並行して音声認識し、各ビーム信号の音声認識結果を得る。
本実施例では、ビームフォーマーの数に対応する音声認識モデルを設置し、各ビーム信号に対して並行して音声認識を行うことで、音声認識の効率を向上させることができる。
一例として、1つのビームフォーマーと1つの音声認識モデルは、ペアにして1つのCPU(Central Processing Unit、中央処理ユニット)又はDSP(Digital Signal Processor、デジタル信号プロセッサー)で実行して、即ち、複数のビームフォーマーと音声認識モデルはペアにして複数のCPUで実行し、そして音声認識モデルの音声認識結果を組み合わせて最終的な音声認識結果を得る。このような並行演算により、ソフトウェアの実行速度を大幅に向上させることができる。
本実施例では、異なるハードウェアコンピューティングユニットによって処理して、計算量を分担し、システムの安定性を向上させ、音声認識応答の速度を向上させる。例として、N個のビームフォーマーはMグループに分割され、M≦Nであり、各グループは指定のハードウェアコンピューティングユニット(例えば、DSP又はCPUコア)によって計算を実行する。同様に、N個の音声認識モデルはMグループに分割され、M≦Nであり、各グループは指定のハードウェアコンピューティングユニット(例えばDSP又はCPUコア)によって計算を実行する。
本出願の音声認識方法では、キーワード検出(Spokenkeywordspotting又はSpokenTermDetection)を適用できる。
キーワード検出は、音声認識分野のサブ分野であり、その目的は、オーディオ信号で指定単語の全ての出現位置を検出することにある。一実施例では、キーワード検出方法をウェイクワード検出分野に適用することができる。なお、ウェイクワードは、設定された音声指令を指す。ウェイクワードを検出すると、スリープ又はロック状態にある音声認識デバイスは指令待ちの状態になる。
さらに、音声認識結果はキーワード検出結果を含む。各ビーム信号の音声認識結果に従って、収集されたオーディオ信号の音声認識結果を決定することは、各ビーム信号のキーワード検出結果に従って、収集されたオーディオ信号のキーワード検出結果を決定することを含む。
さらに、各音声認識モデルは、対応するビームフォーマーから出力されたビーム信号を受信し、その中にキーワードが含まれるかどうかを検出し、検出結果を出力する。即ち、各音声認識モデルは、受信した各方向のビーム信号に従って、各方向からのオーディオ信号にキーワードが含まれるかどうかを検出する。キーワードが4つのワードを含む例として、図5に示すように、ビーム信号の特徴ベクトル(例えば、エネルギーとサブバンド特徴等)に対して、予めトレーニングされたネットワークパラメータによってレイヤーごとに各ノードの出力値を算出し、最終的に出力層でキーワード検出結果を得る。
一実施例では、検出結果は2進記号であってもよく、例えば、0を出力することはキーワードが検出されなかったことを意味し、1を出力することはキーワードが検出されたことを意味する。各ビーム信号のキーワード検出結果に従って、収集されたオーディオ信号のキーワード検出結果を決定することは、いずれかのビーム信号のキーワード検出結果がキーワードが検出されたことである場合に、収集されたオーディオ信号のキーワード検出結果をキーワードが検出されたと決定し、即ち、複数の音声認識モデルのうち少なくとも1つがキーワードを検出すると、キーワードが検出されたと決定することを含む。
また、キーワード検出結果は、キーワード検出確率をさらに含んでもよく、各ビーム信号のキーワード検出結果に従って、収集されたオーディオ信号のキーワード検出結果を決定することは、少なくとも一つのビーム信号のキーワード検出確率がプリセット値より大きい場合、収集されたオーディオ信号のキーワード検出結果を、キーワードが検出されたと決定することを含む。
図5に示すように、キーワードが

Figure 2021515281
であり、ニューラルネットワーク出力層には5つのノードがあり、それぞれこの音声が

Figure 2021515281
という4つのキーワード及び非キーワードに属する確率を示すと仮定する。一定期間でウィンドウDwにウェイクワードが出現されると、ニューラルネットワークの出力ノードに図6のような信号が出現し、即ち、

Figure 2021515281
という4つのキーワードの確率が順に増加していることがわかる。この時間ウィンドウでウェイクワードにおける4つのキーワードの確率を蓄積することで、キーワードが出現したかどうかを判断できる。
一実施例では、各ビーム信号のキーワード検出結果に従って、収集されたオーディオ信号のキーワード検出結果を決定することは、各ビーム信号のキーワード検出確率を予めトレーニングされた分類器に入力し、分類器の出力に従って収集されたオーディオ信号にキーワードが含まれているかどうかを決定することを含む。
さらに、各音声認識モデルは各方向にウェイクワードが出現する確率を出力し、1つの分類器により最終的な検出結果を作り、この分類器は、ニューラルネットワーク、SVM(Support Vector Machine、サポートベクトルマシン)、決定木等の様々なアルゴリズムを含むがこれらに限定されない。上記の分類器は、本実施例では、後処理論理モジュールとも呼ばれる。
別の実施例では、各ビーム信号の音声認識結果に従って、収集されたオーディオ信号の音声認識結果を決定することは、各ビーム信号の音声認識結果の言語学スコア及び/又は音響学スコアを取得することと、スコアが最も高い音声認識結果を収集されたオーディオ信号の音声認識結果として決定することを含む。
さらに、この音声認識方法は、連続又は非連続の音声認識分野に適用でき、複数のビームフォーマーの出力を同時に複数の音声認識モデルに入力し、最終的な音声認識結果が最適な音声認識効果がある音声認識モデルの出力を利用する。一例として、最終的な音声認識結果は、最大の音響学スコア又は言語学スコアの音声認識結果、或いは両者の組み合わせを持つ音声認識結果であってもよい。
別の実施例では、音声認識方法は、音声認識デバイスから出力されたオーディオ信号によるエコーに対して抑制処理を行うことをさらに含む。
オーディオ再生機能を持つ音声認識デバイス、例えば、スマートスピーカーについて、それ自体によって再生される音による音声認識への干渉を回避するために、図7を参照して、本出願の実施例では、音声認識デバイスの自体が再生してマイクによって収集されたエコーをキャンセルできるエコーキャンセルモジュールをさらに含む。図7に示すように、このエコーキャンセルモジュールは、ビームフォーマーの前または後に配置すればよい。一例として、多方向ビームフォーマーの、音を出力するチャネルの数がマイクの数より少ない場合に、エコーキャンセルモジュールを多方向ビームフォーマーの後に配置すると、計算量を効果的に削減できる。
一実施例では、図7に示すように、エコーキャンセルモジュール又はビームフォーマーの複数の出力信号は、1つのチャネル選択モジュールを介して、出力チャネルの数をさらに減らし、後続の複数の音声認識モジュールの計算量及びメモリ消費を削減することができる。
ウェイクワード検出を例として、多方向ビームフォーマーによって出力された複数のビーム信号は、複数の音声認識モデルに送信され、ウェイクワード検出を行う。複数の音声認識モデルは、ウェイクワード検出を行い複数のウェイクワード検出結果を得た後、複数のウェイクワード検出結果を後処理論理モジュールに出力し最終的に判断して、現在の音響シーンにウェイクワードが出現するかどうかを決定する。
一実施例では、電子機器を提供し、
少なくとも2層のリング構造を含む、オーディオ信号を収集するためのマイクアレイと、
前記マイクアレイに接続されて、前記オーディオ信号を処理するためのプロセッサーと、
コンピュータプログラムが記憶されるメモリと、
前記マイクアレイ及び前記プロセッサーをパッケージングするケースと、を含み、
前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーに、上記の各実施例の音声認識方法を実行させる。
さらに、マイクアレイがリングアレイである場合に、リングアレイにおけるマイクは標準の円周又は楕円の円周に配置でき、円周上に均一又は不均一に配置できる。リンク構造のマイクアレイは、360度でオーディオ信号を収集し、音源検出の方向を改善し、遠距離環境に適する。
一実施例では、各リング構造に、少なくとも3つのマイクを設置している。即ち、各リング構造に3つ以上のマイクを配置して、多層リングアレイを構成する。リングアレイ上のマイクの数が多いほど、理論的に音源方向を計算する精度が高くなり、ターゲット方向の音声に対する強化品質が向上する。マイクの数が多いほど、コスト及び計算複雑さが高くなることを考慮して、各リング構造にそれぞれ4〜8個のマイクを設置する。
一実施例では、音声検出の複雑さを軽減するために、各リング構造のマイクは均一に設置される。
一実施例では、各リング構造は同心円であり、隣接する2つのリング構造のマイクが同一方向にそれぞれ設置される。即ち、各リング構造のマイクは、それぞれ同じ角度に設置される。図8に示すように、2つのリング構造を例として、各リング構造に3つのマイクが設置されている。内層マイクと外層マイクは、それぞれ0度、120度、及び240度に設置される。多層リング構造のマイクアレイにより、マイクの数が増えるため、アレイがより良い指向性を得ることができる。
一実施例では、任意の2つのリング構造上のマイクには、夾角がある。即ち、各リング構造上のマイクは、ずらして設置される。図9に示すように、2つのリング構造を例として、各リング構造上に3つのマイクが設置されている。内層リング構造は、それぞれ0度、120度、及び240度にマイクを設置し、外層リング構造は、それぞれ60度、180度、及び300度にマイクを設置する。このようなマイクアレイは、マイクの相対位置がより多様になる。例えば、外層マイクと内層マイクとの間に異なる夾角があるため、ある方向の音源によりよい検出及び強化効果を持ち、マイクの分布が密になると空間サンプリングが増加し、ある周波数の音声信号によりよい検出及び強化効果を持つ。
別の実施例では、リングアレイの円心にマイクを配置してマイクアレイを形成する。円心にマイクを配置することによって、マイクの数が増え、アレイの指向性を高めることができる。例えば、円心にあるマイクと円周上の任意の1つのマイクと組み合わせて、2つのマイクを持つリニアアレイを構成してもよい。これは、音源方向の検出に役立つ。円心にあるマイクと円周上の複数のマイクと組み合わせることで、異なる形状のマイクサブアレイを構成してもよい。これは、異なる方向/周波数の信号の検出に役立つ。
本出願の音声認識方法は、例えば、ウェイクワード検出のようなキーワード検出、連続又は不連続の任意の音声認識分野に適用することができる。次に、音声認識方法をウェイクワード検出に適用することを例として、音声認識方法を説明する。図10に示すように、この方法では、次のステップを含む。
S1002:マイクアレイによって収集されたオーディオ信号を受信する。
また、マイクアレイの配列方式は限定されず、例えば、電子機器が壁に当たっている場合や、音源が180度の範囲内にある環境にある場合、マイクアレイはリニア配列になってもよい。また、例えば、電子機器が異なる向きから音声を受信する必要がある場合、例えば、電子機器が360度の範囲の適用環境にある場合、マイクアレイはリングマイクアレイを利用してもよい。リングマイクアレイの配列方式をそれぞれ図2、図8、及び図9に示す。各マイクによって収集された環境音のマナログ信号は、アナログデジタルコンバーター、ゲインコントローラー、コーデックなどのオーディオ収集デバイスを介して、デジタルオーディオ信号に変換する。
S1004:収集されたオーディオ信号に対して複数の異なるターゲット方向でビーム形成処理をそれぞれ行い、対応する複数のビーム信号を得る。
S1006:各ビーム信号を音声認識モデルにそれぞれ入力し、音声認識モデルによって対応するビーム信号に対して並行して音声認識を行い、各ビーム信号のウェイクワード検出結果を得る。
本実施例では、ビームフォーマーの数に対応する音声認識モデルを設置し、各ビーム信号に対して並行して音声認識を行うことで、ウェイクワード検出の効率を向上させることができる。
1つの実施例である音声認識モデル構成は、図5に示すように、各音声認識モデルは、対応するビームフォーマーから出力されたビーム信号を受信し、それにウェイクワード信号が含まれているかどうかを検出し、検出結果を出力する。ウェイクワードが4つのワードを含む例として、図5に示すように、ビーム信号の特徴ベクトル(例えば、エネルギーとサブバンド特徴等)に対して、予めトレーニングされたネットワークパラメータによってレイヤーごとに各ノードの出力値を算出し、最後に出力層でウェイクワード又はウェイクワードにおけるキーワードの確率を得る。図5に示すように、キーワードが

Figure 2021515281
であり、ニューラルネットワーク出力層に5つのノードがあり、それぞれこの音声が

Figure 2021515281
という4つのキーワード及び非キーワードに属する確率を示すと仮定する。
S1008:各ビーム信号のウェイクワード検出結果に従って、収集されたオーディオ信号のウェイクワード検出結果を得る。
なお、ウェイクワード検出結果は2進記号であってもよく(例えば、0を出力することはキーワードが検出されなかったことを意味し、1を出力することはキーワードが検出されたことを意味する)、出力確率であってもよい(例えば、確率値が大きいほど、ウェイクワードを検出する確率が高いことを意味する)。一例として、各音声認識モデルのうち少なくとも1つがウェイクワードを検出すると、ウェイクワードが検出されたと決定する。音声認識モデルの出力がウェイクワードの出現確率である場合、少なくとも1つの音声認識モデルの出力確率がプリセット値より大きいと、ウェイクワードが検出されたと決定する。又は、各音声認識モデルは各方向のウェイクワードの出現確率を出力し、1つの分類器により最終的な検出結果を決定し、即ち、各ビーム信号のウェイクワードの検出確率を分類器に入力し、分類器の出力に従って収集されたオーディオ信号にウェイクワードが含まれているかどうかを決定する。
上記の方法では、マイクアレイを使用してオーディオ信号を収集し、多方向ビームフォーマーによってマイクアレイ信号をフィルタリングして複数の指向性強化信号を形成し、複数の音声認識モデルによって指向性強化信号におけるウェイクワードをモニタリングし、複数の音声認識モデルから出力されたウェイクワード検出結果を組み合わせて最終的な判別結果を得る。この方法は、音源方向を考慮する必要がなく、異なるターゲット方向でビーム形成処理を行うことで、少なくとも1つのターゲット方向が実際の音声発生方向に近いため、少なくとも1つのターゲット方向で強化されたビーム信号が明確になるため、各ビーム信号に従ってウェイクワード検出を行うことによって、この方向のウェイクワード検出の正確率を向上させることができる。
図11に示すように、音声認識装置であって、
マイクアレイによって収集されたオーディオ信号を受信するためのオーディオ信号受信モジュール1101と、
前記オーディオ信号を複数の異なるターゲット方向でビーム形成処理をそれぞれ行い、対応する複数のビーム信号を得るためのビームフォーマー1102と、
各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を得る音声認識モジュール1103と、
各ビーム信号の音声認識結果に従って、前記オーディオ信号の音声認識結果を決定するための処理モジュール1104と、を含む。
上記の音声認識装置は、マイクアレイによって収集されたオーディオ信号に対して複数の異なるターゲット方向でビーム形成処理を行うことで、対応する複数のビーム信号を取得でき、それぞれ異なるターゲット方向での音声強化処理を実現し、各ターゲット方向で強化処理されたビーム信号を明確に抽出できる。即ち、この方法は、音源方向を考慮する必要がなく、異なるターゲット方向でビーム形成処理を行うことで、少なくとも1つのターゲット方向が実際の音声発生方向に近くなるため、少なくとも一つのターゲット方向で強化されたビーム信号が明確になり、各ビーム信号に従って音声認識を行い、音声認識正確率を向上させることができる。
別の実施例では、前記処理モジュールは、各ビーム信号のキーワード検出結果に従って、前記オーディオ信号のキーワード検出結果を決定する。
別の実施例では、処理モジュールは、いずれかのビーム信号のキーワード検出結果がキーワードを検出したことである場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定する。
別の実施例では、前記キーワード検出結果に、キーワード検出確率が含まれ、処理モジュールは、少なくとも一つの前記ビーム信号のキーワード検出確率がプリセット値より大きい場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定する。
別の実施例では、処理モジュールは、各前記ビーム信号のキーワード検出確率を分類器に入力し、前記分類器の出力に従って、前記オーディオ信号にキーワードが含まれているかどうかを決定する。
別の実施例では、処理モジュールは、各ビーム信号の音声認識結果の言語学スコア及び/又は音響学スコアを算出し、スコアが最も高い音声認識結果を、前記オーディオ信号の音声認識結果に決定する。
別の実施例では、音声認識モジュールは、各ビーム信号を対応する音声認識モデルにそれぞれ入力し、各音声認識モデルによって対応する前記ビーム信号に対して並行して音声認識を行い、各ビーム信号の音声認識結果を得る。
図4に示すように、1つのビームフォーマーは1つの音声認識モデルに対応する。前記音声認識モジュールは、各ビーム信号を対応する音声認識モデルにそれぞれ入力し、各音声認識モデルによって対応する前記ビーム信号に対して並行して音声認識を行い、各ビーム信号の音声認識結果を得る。
別の実施例では、音声認識装置は、音声認識デバイスから出力されたオーディオ信号のエコーに対して抑制処理を行うためのエコーキャンセルモジュールをさらに含む。
別の実施例では、音声認識装置は、チャネル選択モジュールをさらに含む。エコーキャンセルモジュール又はビームフォーマーの複数の出力信号は、1つのチャネル選択モジュールを通じて出力チャネル数をさらに減らすことができ、後続のマルチチャネル音声認識モジュールの計算量及びメモリ消費を削減することができる。
図12は、一実施例におけるコンピュータデバイスの内部構成図を示す。このコンピュータデバイスは、音声認識デバイスであり得る。図12に示すように、このコンピュータデバイスは、システムバスを介して接続されたプロセッサー、メモリ、ネットワークインターフェース、入力装置、ディスプレイ、マイクアレイ、及びオーディオ出力デバイスを含む。その中で、マイクアレイはオーディオ信号を収集する。メモリは、不揮発性記憶媒体及び内蔵メモリを含む。このコンピュータデバイスの不揮発性記憶媒体は、オペレーティングシステムを記憶し、さらにコンピュータプログラムを記憶してもよい。このコンピュータプログラムがプロセッサーによって実行される場合、プロセッサーは音声認識方法を実現することができる。
当該内蔵メモリにコンピュータプログラムが記憶されてもよい。このコンピュータプログラムがプロセッサーによって実行される場合、プロセッサーは音声認識方法を実行する。コンピュータデバイスのディスプレイは、液晶ディスプレイ又は電子インクディスプレイであってもよい。コンピュータデバイスの入力装置は、ディスプレイ上に覆われたタッチ層であってもよく、コンピュータデバイスハウジングに設置されたボタン、トラックボール又はタッチパッドであってもよく、外付けのキーボード、タッチパッド又はマウス等であってもよい。オーディオ出力デバイスは、音声を再生するためのスピーカを含む。
当業者は、図12に示した構成が、本出願の解決策に関連する一部の構成のブロック図に過ぎず、本出願の解決策が適用されるコンピュータデバイスを限定するものではないことを理解することができる。具体的に、コンピュータデバイスは、図に示されるよりも多いまたは少ない構成要素を含むか、または特定の構成要素を組み合わせるか、または異なる構成要素の配置を有することができる。
一実施例では、本出願によって提供される音声認識装置は、コンピュータプログラムの形で実現することができ、コンピュータプログラムは、図12に示すようなコンピュータデバイスで実行することができる。コンピュータデバイスのメモリに、例えば、図11に示したオーディオ信号受信モジュール、ビームフォーマー、及び音声認識モジュールなどの、当該音声認識装置を構成する各プログラムモジュールを記憶することができる。各プログラムモジュールで構成されるコンピュータプログラムは、本明細書で説明する本出願の各実施例の音声認識方法におけるステップをプロセッサーに実行させる。
例えば、図12に示すコンピュータデバイスは、図11に示す音声認識装置のオーディオ信号受信モジュールによって、マイクアレイによって収集されたオーディオ信号を受信するステップを実行することができる。コンピュータデバイスは、ビームフォーマーによって、前記オーディオ信号に対して設定された複数の異なるターゲット方向でそれぞれビーム形成処理を行うことで、対応する複数のビーム信号を得るステップを実行することができる。コンピュータデバイスは、音声認識モジュールによって、各前記ビーム信号に従って音声認識を行うステップを実行することができる。
コンピュータデバイスであって、メモリ及びプロセッサーを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーは次のステップを実行し、
マイクアレイによって収集されたオーディオ信号を受信するステップと、
前記オーディオ信号を複数の異なるターゲット方向でビーム形成処理をそれぞれ行い、対応する複数のビーム信号を得るステップと、
各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を得るステップと、
各ビーム信号の音声認識結果に従って、前記オーディオ信号の音声認識結果を決定するステップと、を含む。
別の実施例では、前記音声認識結果には、キーワード検出結果が含まれ、各ビーム信号の音声認識結果に従って、前記オーディオ信号の音声認識結果を決定するステップは、各ビーム信号のキーワード検出結果に従って、前記オーディオ信号のキーワード検出結果を決定することを含む。
別の実施例では、各ビーム信号のキーワードの検出結果に従って、前記オーディオ信号のキーワードの検出結果を決定することは、いずれかのビーム信号のキーワード検出結果がキーワードを検出したことである場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定することを含む。
別の実施例では、前記キーワード検出結果には、キーワード検出確率が含まれ、各ビーム信号のキーワード検出結果に従って、前記オーディオ信号のキーワード検出結果を決定することは、少なくとも一つの前記ビーム信号のキーワード検出確率がプリセット値より大きい場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定することを含む。
別の実施例では、前記各ビーム信号のキーワード検出結果に従って、前記オーディオ信号のキーワード検出結果を決定することは、各前記ビーム信号のキーワード検出確率を分類器に入力し、前記分類器の出力に従って、前記オーディオ信号にキーワードが含まれているかどうかを決定することを含む。
別の実施例では、各ビーム信号の音声認識結果に従って、前記オーディオ信号の音声認識結果を決定することは、各ビーム信号の音声認識結果の言語学スコア及び/又は音響学スコアを取得することと、スコアが最も高い音声認識結果を、前記オーディオ信号の音声認識結果に決定することを含む。
別の実施例では、各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を得ることは、各ビーム信号を対応する音声認識モデルにそれぞれ入力し、各音声認識モデルによって対応する前記ビーム信号に対して並行して音声認識を行い、各ビーム信号の音声認識結果を得ることを含む。
別の実施例では、音声認識方法は、音声認識デバイスから出力されたオーディオ信号のエコーに対して抑制処理を行うことをさらに含む。
上記の実施例を実現する方法における全て又は一部の流れが、コンピュータプログラムを通じて関連するハードウェアに命令して完成でき、前記のプログラムは、不揮発性コンピュータ可読取記憶媒体に記憶されてもよく、このプログラムが実行される場合、上記の各方法の実施例の流れを含み得る。ただし、本出願で提供される各実施例に使用されるメモリ、記憶、データベース又は他の媒体への任意の参照は、いずれも不揮発性及び/又は揮発性メモリを含み得る。不揮発性メモリは、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブル可能ROM(EPROM)、電気的消去可能プログラマブル可能ROM(EEPROM)又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含み得る。制限ではなく一例として、RAMは、例えば、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、エンハンストSDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)等、多くの形で取得できる。
上記の実施例の各技術特徴は任意に組み合わせることができる。説明を簡潔にするため、上記の実施例における各技術特徴の可能の全ての組み合わせについて説明していない。しかしながら、これらの技術特徴の組み合わせに矛盾がない限り、本明細書に記載の範囲と見なされる。
上記の実施例は、本出願のいくつかの実施方式を表すだけであり、それらの説明は、具体的かつ詳細であるが、本出願の範囲を限定するものとして解釈されるべきではない。なお、当業者にとって、本出願の概念から逸脱することなく、いくつかの変形および改善を行うことができ、これらはすべて本出願の保護範囲に含まれる。よって、本出願の特許の保護範囲は、添付の請求項に従う。
1101 オーディオ信号受信モジュール
1102 ビームフォーマー
1103 音声認識モジュール
1104 処理モジュール

Claims (15)

  1. 電子機器が実行する音声認識方法であって、
    マイクアレイによって収集されたオーディオ信号を受信するステップと、
    前記オーディオ信号に対して、複数の異なるターゲット方向でそれぞれビーム形成処理を行い、対応する複数のビーム信号を取得するステップと、
    前記複数のビーム信号における各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得するステップと、
    各ビーム信号の音声認識結果に基づいて、前記オーディオ信号の音声認識結果を決定するステップと、を含む方法。
  2. 前記音声認識結果には、キーワード検出結果が含まれ、
    各ビーム信号の音声認識結果に基づいて、前記オーディオ信号の音声認識結果を決定する前記ステップは、
    各ビーム信号のキーワード検出結果に基づいて、前記オーディオ信号のキーワード検出結果を決定するステップを含むことを特徴とする請求項1に記載の方法。
  3. 各ビーム信号のキーワード検出結果に基づいて、前記オーディオ信号のキーワード検出結果を決定する前記ステップは、
    何れか一つのビーム信号のキーワード検出結果が、キーワードが検出されたことである場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定するステップ、
    を含むことを特徴とする請求項2に記載の方法。
  4. 前記キーワード検出結果には、キーワード検出確率が含まれ、
    各ビーム信号のキーワード検出結果に基づいて、前記オーディオ信号のキーワード検出結果を決定する前記ステップは、
    少なくとも一つの前記ビーム信号のキーワード検出確率がプリセット値より大きい場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定するステップ、
    を含むことを特徴とする請求項2に記載の方法。
  5. 前記キーワード検出結果には、キーワード検出確率が含まれ、
    各ビーム信号のキーワード検出結果に基づいて、前記オーディオ信号のキーワード検出結果を決定する前記ステップは、
    各前記ビーム信号のキーワード検出確率を分類器に入力し、前記分類器の出力に基づいて、前記オーディオ信号にキーワードが含まれているかどうかを決定するステップ、
    を含むことを特徴とする請求項2に記載の方法。
  6. 各ビーム信号の音声認識結果に基づいて、前記オーディオ信号の音声認識結果を決定する前記ステップは、
    各ビーム信号の音声認識結果の言語学スコア及び/又は音響学スコアを取得するステップと、
    スコアが最も高い音声認識結果を、前記オーディオ信号の音声認識結果に決定するステップと、
    を含むことを特徴とする請求項1に記載の方法。
  7. 各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得する前記ステップは、
    各ビーム信号を対応する音声認識モデルにそれぞれに入力し、各音声認識モデルによって対応する前記ビーム信号に対して並行して音声認識を行い、各ビーム信号の音声認識結果を取得するステップ、
    を含むことを特徴とする請求項1に記載の方法。
  8. 前記方法は、音声認識デバイスから出力されたオーディオ信号のエコーに対して抑制処理を行うステップを、さらに含むことを特徴とする請求項1に記載の方法。
  9. 音声認識装置であって、
    マイクアレイによって収集されたオーディオ信号を受信するためのオーディオ信号受信モジュールと、
    前記オーディオ信号に対して複数の異なるターゲット方向でそれぞれビーム形成処理を行い、対応する複数のビーム信号を取得するためのビームフォーマーと、
    前記複数のビーム信号における各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得するための音声認識モジュールと、
    各ビーム信号の音声認識結果に基づいて、前記オーディオ信号の音声認識結果を決定するための処理モジュールと、を含む装置。
  10. コンピュータデバイスであって、
    メモリ及びプロセッサーを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーに、請求項1から8のいずれか一項に記載の方法のステップを実行させるコンピュータデバイス。
  11. 電子機器であって、
    少なくとも2層のリング構造を含む、オーディオ信号を収集するためのマイクアレイと、
    前記マイクアレイに接続されて、前記オーディオ信号を処理するプロセッサーと、
    コンピュータプログラムが記憶されているメモリと、
    前記マイクアレイ及び前記プロセッサーをパッケージングするケースと、を含み、
    前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーに、請求項1から8のいずれか一項に記載の音声認識方法を実行させる電子機器。
  12. 各リング構造に少なくとも3つのマイクが均等に設置されていることを特徴とする請求項11に記載の電子機器。
  13. 各リング構造は同心円であることを特徴とする請求項11に記載の電子機器。
  14. 隣接する2つのリング構造のマイクが同一方向にそれぞれ設置されていることを特徴とする請求項13に記載の電子機器。
  15. 任意の2つのリング構造上のマイクには、夾角があることを特徴とする請求項13に記載の電子機器。
JP2020570624A 2018-06-28 2019-05-06 音声認識方法、装置、コンピュータデバイス、電子機器及びコンピュータプログラム Active JP7109852B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810689667.5A CN110164446B (zh) 2018-06-28 2018-06-28 语音信号识别方法和装置、计算机设备和电子设备
CN201810689667.5 2018-06-28
PCT/CN2019/085625 WO2020001163A1 (zh) 2018-06-28 2019-05-06 语音识别方法和装置、计算机设备和电子设备

Publications (2)

Publication Number Publication Date
JP2021515281A true JP2021515281A (ja) 2021-06-17
JP7109852B2 JP7109852B2 (ja) 2022-08-01

Family

ID=67645021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020570624A Active JP7109852B2 (ja) 2018-06-28 2019-05-06 音声認識方法、装置、コンピュータデバイス、電子機器及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11217229B2 (ja)
EP (1) EP3816995A4 (ja)
JP (1) JP7109852B2 (ja)
CN (2) CN110164446B (ja)
WO (1) WO2020001163A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503970B (zh) * 2018-11-23 2021-11-23 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN110517682B (zh) * 2019-09-02 2022-08-30 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
US11521599B1 (en) * 2019-09-20 2022-12-06 Amazon Technologies, Inc. Wakeword detection using a neural network
CN110751949A (zh) * 2019-10-18 2020-02-04 北京声智科技有限公司 一种语音识别方法、装置及计算机可读存储介质
CN111276143B (zh) * 2020-01-21 2023-04-25 北京远特科技股份有限公司 声源定位方法、装置、语音识别控制方法和终端设备
US11322160B2 (en) * 2020-04-24 2022-05-03 Darrell Poirier Audio collection system and method for sound capture, broadcast, analysis, and presentation
US11676598B2 (en) * 2020-05-08 2023-06-13 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
CN113645542B (zh) * 2020-05-11 2023-05-02 阿里巴巴集团控股有限公司 语音信号处理方法和系统及音视频通信设备
CN111833867B (zh) * 2020-06-08 2023-12-05 北京嘀嘀无限科技发展有限公司 语音指令识别方法、装置、可读存储介质和电子设备
CN111862987B (zh) 2020-07-20 2021-12-28 北京百度网讯科技有限公司 语音识别方法和装置
CN111883162B (zh) * 2020-07-24 2021-03-23 杨汉丹 唤醒方法、装置和计算机设备
CN112365883B (zh) * 2020-10-29 2023-12-26 安徽江淮汽车集团股份有限公司 座舱系统语音识别测试方法、装置、设备及存储介质
CN112562681B (zh) * 2020-12-02 2021-11-19 腾讯科技(深圳)有限公司 语音识别方法和装置、存储介质
CN112770222A (zh) * 2020-12-25 2021-05-07 苏州思必驰信息科技有限公司 音频处理方法和装置
CN113095258A (zh) * 2021-04-20 2021-07-09 深圳力维智联技术有限公司 定向信号提取方法、系统、装置及存储介质
CN113299307B (zh) * 2021-05-21 2024-02-06 深圳市长丰影像器材有限公司 麦克风阵列信号处理方法、系统、计算机设备及存储介质
CN113539260A (zh) * 2021-06-29 2021-10-22 广州小鹏汽车科技有限公司 一种基于车辆的语音交流方法和装置
CN113555033A (zh) * 2021-07-30 2021-10-26 乐鑫信息科技(上海)股份有限公司 语音交互系统的自动增益控制方法、装置及系统
CN113744752A (zh) * 2021-08-30 2021-12-03 西安声必捷信息科技有限公司 语音处理方法及装置
CN114257684A (zh) * 2021-12-17 2022-03-29 歌尔科技有限公司 一种语音处理方法、系统、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148185A (ja) * 1998-11-13 2000-05-26 Matsushita Electric Ind Co Ltd 認識装置及び認識方法
WO2014156292A1 (ja) * 2013-03-29 2014-10-02 日産自動車株式会社 音源探査用マイクロホン支持装置
WO2015151131A1 (ja) * 2014-03-31 2015-10-08 パナソニックIpマネジメント株式会社 指向性制御装置、指向性制御方法、記憶媒体及び指向性制御システム
JP2016080750A (ja) * 2014-10-10 2016-05-16 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
JP2016524193A (ja) * 2013-06-27 2016-08-12 ロウルズ リミテッド ライアビリティ カンパニー 自己生成ウェイク表現の検出
JP2016536626A (ja) * 2013-09-27 2016-11-24 アマゾン テクノロジーズ インコーポレイテッド 多方向の復号をする音声認識
WO2017053311A1 (en) * 2015-09-21 2017-03-30 Amazon Technologies, Inc. Device selection for providing a response
US9930448B1 (en) * 2016-11-09 2018-03-27 Northwestern Polytechnical University Concentric circular differential microphone arrays and associated beamforming

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273298A (ja) * 1991-02-28 1992-09-29 Fujitsu Ltd 音声認識装置
JP4837917B2 (ja) * 2002-10-23 2011-12-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づく装置制御
JP3632099B2 (ja) * 2002-12-17 2005-03-23 独立行政法人科学技術振興機構 ロボット視聴覚システム
KR100493172B1 (ko) * 2003-03-06 2005-06-02 삼성전자주식회사 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US9026444B2 (en) * 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US9076450B1 (en) * 2012-09-21 2015-07-07 Amazon Technologies, Inc. Directed audio for speech recognition
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9640179B1 (en) * 2013-06-27 2017-05-02 Amazon Technologies, Inc. Tailoring beamforming techniques to environments
US10510343B2 (en) * 2014-06-11 2019-12-17 Ademco Inc. Speech recognition methods, devices, and systems
CN104810021B (zh) * 2015-05-11 2017-08-18 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置
CN104936091B (zh) * 2015-05-14 2018-06-15 讯飞智元信息科技有限公司 基于圆形麦克风阵列的智能交互方法及系统
US10013981B2 (en) * 2015-06-06 2018-07-03 Apple Inc. Multi-microphone speech recognition systems and related techniques
CN105206281B (zh) * 2015-09-14 2019-02-15 胡旻波 基于分布式麦克风阵列网络的语音增强方法
CN110312770A (zh) 2017-02-17 2019-10-08 日立化成株式会社 粘接剂膜
CN107123430B (zh) * 2017-04-12 2019-06-04 广州视源电子科技股份有限公司 回声消除方法、装置、会议平板及计算机存储介质
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
US10311872B2 (en) * 2017-07-25 2019-06-04 Google Llc Utterance classifier
CN107680594B (zh) * 2017-10-18 2023-12-15 宁波翼动通讯科技有限公司 一种分布式智能语音采集识别系统及其采集识别方法
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
CN109272989B (zh) * 2018-08-29 2021-08-10 北京京东尚科信息技术有限公司 语音唤醒方法、装置和计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148185A (ja) * 1998-11-13 2000-05-26 Matsushita Electric Ind Co Ltd 認識装置及び認識方法
WO2014156292A1 (ja) * 2013-03-29 2014-10-02 日産自動車株式会社 音源探査用マイクロホン支持装置
JP2016524193A (ja) * 2013-06-27 2016-08-12 ロウルズ リミテッド ライアビリティ カンパニー 自己生成ウェイク表現の検出
JP2016536626A (ja) * 2013-09-27 2016-11-24 アマゾン テクノロジーズ インコーポレイテッド 多方向の復号をする音声認識
WO2015151131A1 (ja) * 2014-03-31 2015-10-08 パナソニックIpマネジメント株式会社 指向性制御装置、指向性制御方法、記憶媒体及び指向性制御システム
JP2016080750A (ja) * 2014-10-10 2016-05-16 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
WO2017053311A1 (en) * 2015-09-21 2017-03-30 Amazon Technologies, Inc. Device selection for providing a response
US9930448B1 (en) * 2016-11-09 2018-03-27 Northwestern Polytechnical University Concentric circular differential microphone arrays and associated beamforming

Also Published As

Publication number Publication date
CN110364166A (zh) 2019-10-22
CN110164446B (zh) 2023-06-30
EP3816995A1 (en) 2021-05-05
EP3816995A4 (en) 2021-08-25
US20200335088A1 (en) 2020-10-22
JP7109852B2 (ja) 2022-08-01
US11217229B2 (en) 2022-01-04
WO2020001163A1 (zh) 2020-01-02
CN110164446A (zh) 2019-08-23
CN110364166B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
JP7109852B2 (ja) 音声認識方法、装置、コンピュータデバイス、電子機器及びコンピュータプログラム
CN110503970B (zh) 一种音频数据处理方法、装置及存储介质
CN109712626A (zh) 一种语音数据处理方法及装置
Dorfan et al. Tree-based recursive expectation-maximization algorithm for localization of acoustic sources
Pujol et al. BeamLearning: An end-to-end deep learning approach for the angular localization of sound sources using raw multichannel acoustic pressure data
WO2019015159A1 (zh) 一种拾音方法及装置
Liu et al. Deep learning assisted sound source localization using two orthogonal first-order differential microphone arrays
CN108549052A (zh) 一种时频-空域联合加权的圆谐域伪声强声源定位方法
He et al. Closed-form DOA estimation using first-order differential microphone arrays via joint temporal-spectral-spatial processing
CN110736976B (zh) 一种任意阵形的声纳波束形成器性能估计方法
Pertilä et al. Multichannel source activity detection, localization, and tracking
CN112859000B (zh) 一种声源定位方法以及装置
CN113593596A (zh) 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法
Ding et al. Microphone array acoustic source localization system based on deep learning
Wu et al. Sound source localization based on multi-task learning and image translation network
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
Gershon et al. Greedy sparse array design for optimal localization under spatially prioritized source distribution
Sakavičius et al. Estimation of sound source direction of arrival map using convolutional neural network and cross-correlation in frequency bands
Wang et al. Pinna-rim skin folds narrow the sonar beam in the lesser false vampire bat (Megaderma spasma)
Wu et al. An indoor sound source localization dataset for machine learning
Li et al. Conformal cylindrical array sound source localization at the presence of shadowed elements
Sakavičius et al. Multiple Sound Source Localization in Three Dimensions Using Convolutional Neural Networks and Clustering Based Post-Processing
Hu et al. A generalized network based on multi-scale densely connection and residual attention for sound source localization and detection
Liu et al. Sound Source Localization Methods Based on Lagrange-Galerkin Spherical Grid
Zhu et al. A Deep Learning Based Sound Event Location and Detection Algorithm Using Convolutional Recurrent Neural Network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200909

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220714

R150 Certificate of patent or registration of utility model

Ref document number: 7109852

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150