JP2021515905A - 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム - Google Patents

音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム Download PDF

Info

Publication number
JP2021515905A
JP2021515905A JP2020542123A JP2020542123A JP2021515905A JP 2021515905 A JP2021515905 A JP 2021515905A JP 2020542123 A JP2020542123 A JP 2020542123A JP 2020542123 A JP2020542123 A JP 2020542123A JP 2021515905 A JP2021515905 A JP 2021515905A
Authority
JP
Japan
Prior art keywords
voice
segment
candidate
information
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020542123A
Other languages
English (en)
Other versions
JP6980119B2 (ja
Inventor
リン,シルン
ジャン,シィリン
マ,ウエンホア
リィウ,ボ
リ,シンホォイ
ルゥ,リ
ジアン,シィウツァイ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2021515905A publication Critical patent/JP2021515905A/ja
Application granted granted Critical
Publication of JP6980119B2 publication Critical patent/JP6980119B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Biophysics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本願は、音声認識方法、装置、及びデバイスに関する。前記方法は、音声情報を取得するステップ(201)と、WFSTによって、音声情報における候補音声セグメントの開始位置及び終了位置を決定するステップ(202)と、候補音声セグメントの開始位置及び終了位置に基づいて、音声情報から該候補音声セグメントを切り取るステップ(203)と、候補音声セグメントを機械学習モデルに入力し、機械学習モデルによって、候補音声セグメントに所定のキーワードが含まれるか否かを検出するステップ(204)と、を含む。機械学習モデルによって、WFSTによって粗い位置決定を行った候補音声セグメントを検証し、候補音声セグメントに所定のキーワードが含まれるか否かを決定し、関連技術において、意味のない音声情報を意味のある音声情報として認識することで、誤ウェイクアップを発生させる恐れがあるという問題を解決し、音声認識の正確率を向上させる。

Description

[関連出願への相互参照]
本願は、2018年3月22日に中国特許庁に提出された、出願番号が201810240076.Xであり、発明の名称が「音声認識方法、装置、デバイス、及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は参照することにより本願に組み込まれる。
[技術分野]
本願は、音声認識の分野に関し、特に音声認識方法、装置、デバイス、及び記憶媒体に関する。
音声ウェイクアップは、キーワードスポッティング(KWS:Keyword Spotting)とも呼ばれ、休止状態又は画面ロック状態にある電子デバイスに対して、ユーザの音声を認識することにより、ユーザの音声に所定のキーワードが含まれると決定した場合、休止状態及び/又は画面ロック状態を解除し、さらに音声対話操作を開始する機能である。音声ウェイクアップ過程において、音声認識が、重要なステップである。
本願の実施例では、音声認識方法、装置、及びデバイスが提供されている。その構成は、以下のとおりである。
本願の実施例では、端末又はサーバによって実行される音声認識方法が提供されている。前記方法は、
音声情報を取得するステップと、
重み付き有限状態トランスデューサネットワークによって、前記音声情報における候補音声セグメント並びに前記候補音声セグメントの開始位置及び終了位置を決定するステップと、
前記開始位置及び前記終了位置に基づいて、前記音声情報から前記候補音声セグメントを切り取るステップと、
前記候補音声セグメントを機械学習モデルに入力し、前記機械学習モデルによって、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを検出するステップと、
前記候補音声セグメントに前記所定のキーワードが含まれる場合、前記音声情報に所定のキーワードが含まれると決定するステップと、を含む。
また、本願の実施例では、音声ウェイクアップ方法が提供されている。前記方法は、
端末が、取得された音声情報をサーバに送信するステップと、
前記サーバが、前記音声情報に所定のキーワードが含まれるか否かを検出するステップと、
前記音声情報に前記所定のキーワードが含まれる場合、前記サーバが、前記音声情報から候補音声セグメントを切り取るステップであって、前記候補音声セグメントが、前記所定のキーワードに対応する音声情報セグメントである、ステップと、
前記サーバが、前記候補音声セグメントを検証し、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを再度検出するステップと、
前記候補音声セグメントに前記所定のキーワードが含まれる場合、前記端末にウェイクアップ指示を送信するステップと、
前記端末が、前記ウェイクアップ指示に従って、前記本機の休止状態及び/又は画面ロック状態を解除するステップと、を含む。
また、本願の実施例では、音声認識装置が提供されている。前記装置は、
音声情報を取得する取得モジュールと、
重み付き有限状態トランスデューサネットワークによって、前記音声情報における候補音声セグメントの開始位置及び終了位置を決定し、前記開始位置及び前記終了位置に基づいて、前記音声情報から前記候補音声セグメントを切り取り、前記候補音声セグメントを機械学習モデルに入力し、前記機械学習モデルによって、前記候補音声セグメントに所定のキーワードが含まれるか否かを検出し、前記候補音声セグメントに前記所定のキーワードが含まれる場合、前記音声情報に所定のキーワードが含まれると決定する処理モジュールと、を含む。
また、本願の実施例では、音声認識デバイスが提供されている。前記音声認識デバイスは、プロセッサとメモリとを備え、前記メモリには、少なくとも1つの命令が記憶され、前記少なくとも1つの命令は、前記プロセッサによりロードされて実行されることで、上記のような音声認識方法を実現させる。
また、本願の実施例では、コンピュータ読み取り可能な記憶媒体が提供されている。前記コンピュータ読み取り可能な記憶媒体には、少なくとも1つの命令が記憶され、少なくとも1つの命令は、プロセッサによりロードされて実行されることで、上記のような音声認識方法を実現させる。
本願の実施例の構成をより明確に説明するために、以下、実施例の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているにすぎず、当業者にとって、創造的な労働をせずに、これらの図面から他の図面を得ることもできる。
本願の例示的な一実施例で提供された音声認識方法の実施環境図である。 本願の例示的な一実施例で提供された音声認識方法の実施環境図である。 本願の例示的な一実施例で提供された音声認識方法のフローチャートである。 本願の例示的な一実施例で提供された音声認識方法のフローチャートである。 本願の例示的な一実施例で提供された音声情報のフレーム化の模式図である。 本願の例示的な一実施例で提供された重み付き有限状態トランスデューサネットワークのアーキテクチャ図である。 本願の例示的な一実施例で提供された音声認識方法のフローチャートである。 本願の例示的な一実施例で提供された畳み込みニューラルネットワークのアーキテクチャ図である。 本願の例示的な一実施例で提供された音声認識方法の全体アーキテクチャ図である。 本願の例示的な一実施例で提供された音声認識方法のフローチャートである。 本願の例示的な一実施例で提供された音声認識方法の適用シナリオ図である。 本願の例示的な一実施例で提供された音声認識方法の適用シナリオ図である。 本発明の例示的な一実施例で提供された音声認識装置の構成ブロック図である。 本願の例示的な一実施例で提供された音声認識デバイスの構成ブロック図である。
本願の目的、構成、及びメリットをより明確にするために、以下、図面を参照しながら、本願の実施形態をさらに詳しく説明する。
わかりやすくするために、以下、本願の実施例に係る用語を解釈する。
機械学習モデルは、演算モデルであり、大量のノード(ニューロンとも呼ばれる)同士が相互に結合して構成される。各々のノードは1つの方策関数に対応し、2つずつのノード間の結合は、重みと呼ばれる、該結合を通過する信号の加重値を表す。サンプルが機械学習モデルのノードに入力された後、各ノードから1つの出力結果が出力され、該出力結果が次のノードへの入力サンプルとされ、機械学習モデルは、サンプルの最終的な出力結果に基づいて、各ノードの方策関数及び重みを調整する。この過程は、訓練と呼ばれる。
重み付き有限状態トランスデューサネットワークは、有限個の状態、並びにこれらの状態間の遷移及び動作などの振る舞いを示す数学モデルである。本願の実施例では、重み付き有限状態トランスデューサネットワークは、音響モデルと、辞書と、言語モデルとを含む。
音響モデルは、音声情報に基づいて、対応する事後確率が最大となる隠れ状態を出力する数学モデルである。隠れ状態は、音素であってもよいし、音素よりも小さい音声単位であってもよい。本願の実施例における音響モデルは、隠れマルコフ−ディープニューラルネットワークモデルである。
音素は、音声の自然な属性に基づいて分割された最小音声単位である。音響特性から見ると、音素は、音質の観点から分割された最小音声単位である。生理的特性から見ると、1つの発音動作は、1つの音素を形成する。
隠れマルコフモデル(HMM:Hidden Markov Model)は、統計解析モデルの1種であり、隠れた未知パラメータが含まれるマルコフ過程を記述するためのものである。隠れマルコフモデルでは、状態は、直接的に見えるものではなく、状態の影響を受ける何らかの変数が見える。
多層パーセプトロン(MLP:Multilayer Perceptron)は、順伝播型ニューラルネットワークの1種であり、1組の入力ベクトルを1組の出力ベクトルに非線形にマッピングする。多層パーセプトロンは、誤差逆伝播法を用いて訓練することができる。
ディープニューラルネットワーク(DNN:Deep Neural Network)は、機械学習モデルの1種であり、2つを超える隠れ層が含まれる多層パーセプトロンである。入力ノードを除いて、各ノードは、いずれも、非線形活性化関数を持つニューロンである。多層パーセプトロンと同様に、ディープニューラルネットワークは、誤差逆伝播法を用いて訓練することができる。
畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)は、機械学習モデルの1種であり、縦続接続される少なくとも2つの畳み込み層と、最上位の全結合層(FC:Fully Connected Layers)と、ソフトマックス関数(Softmax)とを含み、各畳み込み層の後に1つのプーリング層を含む。ここで、ソフトマックス関数は、正規化指数関数又はSoftmax関数とも呼ばれ、任意の実数を含むあるK次元ベクトルzを、各要素の範囲が(0,1)の間にあって、かつ全ての要素の和が1となるように、他のK次元実数ベクトルσ(z)に「圧縮」することができる。
畳み込みニューラルネットワークは、パラメータを共有することによりモデルのパラメータ量を低減させるため、画像認識及び音声認識に広く適用されている。
いくつかの実施例では、音声認識方法は、音声情報に対して特徴の抽出を行い、重み付き有限状態トランスデューサ(WFST:Weighted Finite State Transducer)ネットワークによって、音声情報を対応するテキスト情報に変換し、テキスト情報に所定のキーワードが含まれるか否かを検出する、ことを含む。
音声情報を対応するテキスト情報に変換する過程では、音声情報に対して意味認識を行う必要がある。重み付き有限状態トランスデューサネットワークの制限により、意味がないが所定のキーワードに類似する音声情報、例えば雑音、背景音楽の音などが、意味のある音声情報として認識され、電子デバイスの誤ウェイクアップが発生し、認識の正解率が低くなる。
図1A及び図1Bを参照されたいが、図1A及び図1Bは、本願の例示的な一実施例で提供された音声認識方法の実施環境図を示す。
図1Aは、本願の実施例で提供された第1種の可能な実施環境であり、該実施環境は、端末110及びサーバ120を含む。ここで、端末110は、有線ネットワーク又は無線ネットワークを介して、サーバ120と接続を確立する。
本実施例では、端末110が、音声情報を取得し、サーバ120が、音声情報を認識し、端末110に休止状態及び/又は画面ロック状態の解除を指示する。
端末110の無音検出部は、無音環境にユーザの音声があるか否かを決定し、ユーザの音声があると決定した場合、ユーザの音声を録音するために録音部を起動することにより、相応のオリジナル音声信号を取得し、有線ネットワーク又は無線ネットワークを介して、オリジナル音声信号をサーバ120に送信する。
サーバ120は、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得し、音声情報に所定のキーワードが含まれるか否かを検出し、音声情報に所定のキーワードが含まれる場合、音声情報から候補音声セグメントを切り取り、候補音声セグメントに対して二次検証を行うことにより、候補音声セグメントに所定のキーワードが含まれるか否かを検出し、候補音声セグメントに所定のキーワードが含まれる場合、端末110にウェイクアップ指示を送信する。該候補音声セグメントは、所定のキーワードに対応する音声情報セグメントである。
端末110は、サーバ120から送信されたウェイクアップ指示を受信すると、該ウェイクアップ指示に従って、本機の休止状態及び/又は画面ロック状態を解除する。
図1Bは、本願の実施例で提供された第2種の可能な実施環境であり、該実施環境は、端末110、端末130、及びサーバ120を含む。ここで、端末110は、有線ネットワーク又は無線ネットワークを介して、サーバ120と接続を確立し、端末130は、有線ネットワーク又は無線ネットワークを介して、サーバ120と接続を確立する。該実施例では、端末110が、音声情報を取得し、サーバ120が、音声情報を認識し、端末130に休止状態及び/又は画面ロック状態の解除を指示する。
端末110の無音検出部は、無音環境にユーザの音声があるか否かを決定し、ユーザの音声があると決定した場合、ユーザの音声を録音するために録音部を起動することにより、相応のオリジナル音声信号を取得し、有線ネットワーク又は無線ネットワークを介して、オリジナル音声信号をサーバ120に送信する。
サーバ120は、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得し、音声情報に所定のキーワードが含まれるか否かを検出し、音声情報に所定のキーワードが含まれる場合、音声情報から候補音声セグメントを切り取り、候補音声セグメントに対して二次検証を行うことにより、候補音声セグメントに所定のキーワードが含まれるか否かを検出し、候補音声セグメントに所定のキーワードが含まれる場合、端末130にウェイクアップ指示を送信する。該候補音声セグメントは、所定のキーワードに対応する音声情報セグメントである。
端末130は、サーバ120から送信されたウェイクアップ指示を受信すると、該ウェイクアップ指示に従って、本機の休止状態及び/又は画面ロック状態を解除する。
一実施例では、端末110が、音声情報を取得し、音声情報を認識し、本機の休止状態及び/又は画面ロック状態を解除する。
端末110の無音検出部は、無音環境にユーザの音声があるか否かを決定し、ユーザの音声があると決定した場合、ユーザの音声を録音するために録音部を起動することにより、オリジナル音声信号を取得し、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得し、音声情報に所定のキーワードが含まれるか否かを検出し、音声情報に所定のキーワードが含まれる場合、音声情報から候補音声セグメントを切り取り、候補音声セグメントに対して二次検証を行うことにより、候補音声セグメントに所定のキーワードが含まれるか否かを検出し、候補音声セグメントに所定のキーワードが含まれる場合、本機の休止状態及び/又は画面ロック状態を解除する。該候補音声セグメントは、所定のキーワードに対応する音声情報セグメントである。
上記端末は、無音検出部及び録音部を含む電子デバイスであってもよく、携帯電話、タブレットコンピュータ、電子ブックリーダー、ラップトップコンピュータ、デスクトップコンピュータ、スマートスピーカー、スマートロボット、車載制御センターなどであってもよい。
図2を参照されたいが、図2は、本願の例示的な一実施例で提供された音声認識方法のフローチャートを示す。該方法は、図1A及び図1Bに示すようなサーバ120に適用してもよいし、端末に適用してもよい。該方法は、以下のステップを含む。
ステップ201で、音声情報を取得する。
サーバは、端末から送信されたオリジナル音声信号を受信し、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得する。
例示的に、端末は、ユーザの音声があると決定すると、ユーザの音声を録音することにより、オリジナル音声信号を取得し、有線ネットワーク又は無線ネットワークを介して、オリジナル音声信号をサーバに送信する。サーバは、該オリジナル音声信号を受信する。
ステップ202で、音声情報における候補音声セグメントの開始位置及び終了位置を決定する。
例示的に、サーバは、重み付き有限状態トランスデューサネットワークによって、音声情報に対応する事後確率が最大となる言語情報を取得し、言語情報に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を決定する。
音声情報が時間領域での関数である場合、開始位置及び終了位置は、候補音声セグメントの音声情報における開始時刻及び終了時刻であり、音声情報が周波数領域での関数である場合、開始位置及び終了位置は、候補音声セグメントの音声情報における開始周波数及び終了周波数である。
候補音声セグメントには、少なくとも1フレームの音声セグメントが含まれる。例えば、所定のキーワードが「kai qi」であり、サーバが重み付き有限状態トランスデューサネットによって取得した、音声情報に対応する事後確率が最大となる言語情報に「kai qi」が含まれ、「kai」が音声セグメント1に対応し、「qi」が音声セグメント2に対応し、音声セグメント1は、開始時刻がt1であり、終了時刻がt2であり、音声セグメント2は、開始時刻がt3であり、終了時刻がt4である。t1がt3の前であり、t4がt2の後である場合、候補音声セグメントは、音声情報における開始時刻がt1であり、終了時刻がt4であるセグメントであり、即ち、候補音声セグメントの音声情報における開始位置及び終了位置がt1及びt4であると決定される。
ステップ203で、候補音声セグメントの開始位置及び終了位置に基づいて、音声情報から該候補音声セグメントを切り取る。
サーバは、候補音声セグメントの音声情報における開始位置及び終了位置に基づいて、音声情報から候補音声セグメントを切り取る。
ステップ204で、候補音声セグメントを機械学習モデルに入力し、機械学習モデルによって、候補音声セグメントに所定のキーワードが含まれるか否かを検出する。
機械学習モデルは、畳み込みニューラルネットワーク又は重み付き有限状態トランスデューサネットワークを含む。サーバは、重み付き有限状態トランスデューサネットワークによって、候補音声セグメントに対して粗い位置決定を行った後、畳み込みニューラルネットワークによって、候補音声セグメントを検出したり、重み付き有限状態トランスデューサネットワークによって、候補音声セグメントを検出したりしてもよい。例示的に、サーバは、畳み込みニューラルネットワークにおける1番目の畳み込み層によって、候補音声セグメントに対して畳み込み処理を行うことにより、第1高レベルの意味的特徴を取得し、第1高レベルの意味的特徴を1番目のプーリング層に入力することにより、一次圧縮された高レベルの意味的特徴を取得し、一次圧縮された高レベルの意味的特徴を2番目の畳み込み層に入力することにより、第2高レベルの意味的特徴を取得し、第2高レベルの意味的特徴を2番目のプーリング層に入力することにより、二次圧縮された高レベルの意味的特徴を取得し、…、畳み込み処理及びプーリング処理を複数回繰り返すことにより、候補音声セグメントの高レベルの意味的特徴を抽出する。
例示的に、サーバは、重み付き有限状態トランスデューサネットワークによって、候補音声セグメントに対応する事後確率が最大となる言語情報を取得し、該言語情報に所定のキーワードが含まれるか否かを検出する。
ステップ205で、候補音声セグメントに所定のキーワードが含まれる場合、音声情報に所定のキーワードが含まれると決定する。
例示的に、畳み込みニューラルネットワークから、候補音声セグメントに所定のキーワードが含まれるという結果が出力される場合、サーバは、音声情報に所定のキーワードが含まれると決定する。
例示的に、候補音声セグメントに対応する事後確率が最大となる言語情報に所定のキーワードが含まれる場合、サーバは、音声情報に所定のキーワードが含まれると決定する。
説明すべきものとして、重み付き有限状態トランスデューサネットワークを用いて候補音声セグメントを検出するのに時間がかかり、かつ畳み込みニューラルネットワークを用いて候補音声セグメントを検証するのに対して、正確度が低い。
以上説明したように、本願の実施例では、機械学習モデルによって、重み付き有限状態トランスデューサネットワークによって粗い位置決定を行った候補音声セグメントを検証し、候補音声セグメントに所定のキーワードが含まれるか否かを決定し、関連技術において、意味のない音声情報を意味のある音声情報として認識することで、誤ウェイクアップを発生させる恐れがあるという問題を解決し、音声認識の正確率を向上させる。
図3を参照されたいが、図3は、本願の例示的な一実施例で提供された音声認識方法のフローチャートを示す。該方法は、図1A及び図1Bに示すようなサーバ120に適用してもよいし、端末に適用してもよい。該方法は、図2の実施例におけるステップ202の1つの実施形態であってもよい、該方法は、以下のステップを含む。
ステップ202aで、音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得する。
例示的に、サーバは、移動窓で音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得する。移動窓は、所定の窓長及びステップ長を有する。各フレームの音声セグメントは、それぞれに対応する開始位置及び終了位置並びに番号インデックスを有する。
音声情報が時間領域での関数である場合、窓長及びステップ長は、所定の時間長を単位とする。図4に示すように、移動窓400の窓長が20ミリ秒であり、ステップ長が10ミリ秒である場合、移動窓400によって、音声情報は、20ミリ秒の長さを1フレームとする音声情報に分割され、複数のフレームの音声セグメントの間の重なり長さは、10ミリ秒である。
ステップ202bで、複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得する。
例示的に、図5に示すように、重み付き有限状態トランスデューサネットワークは、音響モデルと、辞書と、言語モデルとを含む。ここで、音響モデルは、ディープニューラルネットワーク及び隠れマルコフモデルで構成されてもよい。
ディープニューラルネットワークは、縦続接続される少なくとも2つのディープニューラルネットワーク層と、全結合層とを含み、入力された音声セグメントに基づいて、該音声セグメントに対応する隠れ状態の事後確率の数学モデルを出力することができる。図5におけるVは、ディープニューラルネットワークに入力された音声セグメントを表す。Wは、ディープニューラルネットワーク層のうちの各ニューラルネットワーク層のパラメータを表し、例えば、W1は、1番目のニューラルネットワーク層のパラメータを表し、WMは、第M層のニューラルネットワーク層のパラメータを表す。h(i)は、ディープニューラルネットワーク層のうちの第i層のニューラルネットワーク層の出力結果を表し、例えば、h(1)は、1番目のニューラルネットワーク層の出力結果を表し、h(M)は、第M層のニューラルネットワーク層の出力結果を表す。Sは、第i種の隠れ状態、例えば、第1種の隠れ状態S、第K種の隠れ状態Sを表す。aSiSjは、第i種の隠れ状態Sと第j種の隠れ状態Sとの間の遷移確率を表し、例えば、aS1S2は、第1種の隠れ状態Sと第2種の隠れ状態Sとの間の遷移確率を表す。
隠れマルコフモデルは、音声セグメントに対応する隠れ状態の事後確率に基づいて、音声セグメントに対応する隠れ状態を出力する数学モデルである。
辞書は、音素と単語との対応関係である。少なくとも1つの音素を辞書に入力することにより、少なくとも1つの音素に対応する事後確率が最大となる文字又は単語を取得することができる。
言語モデルは、単語と構文及び/又は文法との対応関係である。文字又は単語を言語モデルに入力することにより、単語に対応する事後確率が最大となる言語情報を取得することができる。ここで、言語情報は、単語であってもよいし、文であってもよい。
サーバは、複数のフレームの音声セグメントをディープニューラルネットワークに入力して特徴を抽出することにより、各フレームの音声セグメントに対応する隠れ状態の事後確率を取得し、各フレームの音声セグメントに対応する隠れ状態の事後確率に基づいて、隠れマルコフモデルによって、各フレームの音声セグメントに対応する隠れ状態を取得し、各フレームの音声セグメントに対応する隠れ状態に基づいて、複数のフレームの音声セグメントに対応する音素を取得し、辞書によって、複数のフレームの音声セグメントに対応する事後確率が最大となる文字又は単語を取得し、複数のフレームの音声セグメントに対応する事後確率が最大となる文字又は単語に基づいて、言語モデルによって、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得する。
上記の変換過程では、全て事後確率が最大となる経路を選択するため、複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより得られるのは、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報である。
ステップ202cで、言語情報に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を取得する。該ステップにおいて、所定のキーワードに対応する音素に基づいて、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を決定する。
サーバは、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報に所定のキーワードが含まれるか否かを検出し、言語情報に所定のキーワードが含まれると決定した場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を取得する。
例示的に、1フレームの音声セグメントが1つの隠れ状態に対応し、少なくとも1つの隠れ状態が1つの音素に対応し、少なくとも1つの音素が1つの単語に対応する。所定のキーワードにおける各単語に対応する音素により、キーワードに対応する候補音声セグメントを取得する。音声情報をフレーム化する際に、各音声セグメントに番号インデックスが付与され、各音声セグメントがいずれも開始位置及び終了位置の属性を有するため、候補音声セグメントの音声情報における開始位置及び終了位置を取得することができる。
以上説明したように、本願の実施例では、複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、言語情報に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を取得し、候補音声セグメントを認識する正確率を向上させることができる。
さらに、本願の実施例では、複数のフレームの音声セグメントをディープニューラルネットワークに入力することにより、各フレームの音声セグメントに対応する隠れ状態の事後確率を取得し、ディープニューラルネットワークが強い特徴抽出能力を有するため、ディープニューラルネットワークによって得られた、各フレームの音声セグメントに対応する隠れ状態の事後確率がより正確になり、候補音声セグメントを認識する正確率が向上する。
図6を参照されたいが、図6は、本願の例示的な一実施例で提供された音声認識方法のフローチャートを示す。該方法は、図1A及び図1Bに示すようなサーバ120に適用されてもよいし、端末に適用されてもよい。該方法は、図2の実施例におけるステップ204の1つの実施形態であってもよい。該方法は、以下のステップを含む。
ステップ204aで、候補音声セグメントを畳み込みニューラルネットワークに入力する。
サーバは、図2の実施例又は図3の実施例の方法で候補音声セグメントを取得した後、候補音声セグメントを畳み込みニューラルネットワークに入力する。
例示的に、図7Aに示すように、畳み込みニューラルネットワークは、少なくとも2つの畳み込み層と、1つの全結合層と、1つのソフトマックス関数とを含み、各層の畳み込み層の後に1つのプーリング層をさらに含む。図中では2つの畳み込み層を例に説明しているが、畳み込みニューラルネットワークが2つのみの畳み込み層を含むことを表すのではない。
ステップ204bで、畳み込みニューラルネットワークによって、候補音声セグメントに対して畳み込み及びプーリングを行うことにより、候補音声セグメントの高レベルの意味的特徴を抽出する。
例示的に、サーバは、畳み込みニューラルネットワークにおける1番目の畳み込み層によって、候補音声セグメントに対して畳み込み処理を行うことにより、第1高レベルの意味的特徴を取得し、第1高レベルの意味的特徴を1番目のプーリング層に入力することにより、一次圧縮された高レベルの意味的特徴を取得し、一次圧縮された高レベルの意味的特徴を2番目の畳み込み層に入力することにより、第2高レベルの意味的特徴を取得し、第2高レベルの意味的特徴を2番目のプーリング層に入力することにより、二次圧縮された高レベルの意味的特徴を取得し、…、畳み込み処理及びプーリング処理を複数回繰り返すことにより、候補音声セグメントの高レベルの意味的特徴を抽出する。
ステップ204cで、畳み込みニューラルネットワークにおける全結合層及びソフトマックス関数によって、候補音声セグメントの高レベルの意味的特徴を分類し、候補音声セグメントに所定のキーワードが含まれるか否かを検出する。
例示的に、候補音声セグメントに対して多層の畳み込み層及びプーリング層の処理を行うことにより、高レベルの意味的特徴を取得し、全結合層によって、各層の畳み込み層及びプーリング層で抽出された高レベルの意味的特徴を結合して、ソフトマックス関数に渡し、ソフトマックス関数によって、高レベルの意味的特徴を分類し、候補音声セグメントに所定のキーワードが含まれるか否かの結果を出力する。
図7Bは、本願の実施例で提供された音声認識方法の全体的なアーキテクチャ図である。図示されたように、複数のフレームの音声セグメントを音響モデルに入力することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる音素を取得し、辞書によって、複数のフレームの音声セグメントに対応する事後確率が最大となる文字又は単語を取得し、言語モデルによって、複数のフレームの音声セグメントに対応する事後確率が最大となる単語又は文を取得し、これにより、単語又は文に所定のキーワードが含まれるか否かを検出し、単語又は文に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントを切り取り、候補音声セグメントを畳み込みニューラルネットワークに入力して検証し、最終的な検証結果を出力する。
以上説明したように、本願の実施例では、候補音声セグメントを畳み込みニューラルネットワークに入力して、畳み込み及びプーリングを行うことにより、候補音声セグメントの高レベルの意味的特徴を抽出し、全結合層によって、抽出された高レベルの意味的特徴を結合して、分類のためにソフトマックス関数に渡すことにより、候補音声セグメントに所定のキーワードが含まれるか否かの結果を取得し、候補音声セグメントが、重み付き有限状態トランスデューサネットワークによって予備的な位置決定を行うことにより取得されたものであるため、認識率を確保すると同時に、音声認識の正確率を向上させる。
図8を参照されたいが、図8は、本願の例示的な一実施例で提供された音声認識方法のフローチャートを示す。該方法は、図1Aに示すような実施環境に適用されてもよい。該方法は、以下のステップを含む。
ステップ801で、端末は、取得されたオリジナル音声信号をサーバに送信する。
例示的に、端末の無音検出モジュールは、ユーザの音声があるか否かを判断し、ユーザの音声があると決定した場合、ユーザの音声を録音するために録音モジュールを起動することにより、相応のオリジナル音声信号を取得し、有線ネットワーク又は無線ネットワークを介して、オリジナル音声信号をサーバに送信する。
ステップ802で、サーバは、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得する。
サーバは、受信されたオリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得する。該音声情報は、時間領域又は周波数領域での関数である。
ステップ803で、サーバは、音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得する。
例示的に、サーバは、移動窓で音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得する。ここで、移動窓は、所定の窓長及びステップ長を有する。各フレームの音声セグメントは、それぞれに対応する開始位置及び終了位置並びに番号インデックスを有する。
ステップ804で、サーバは、複数のフレームの音声セグメントをディープニューラルネットワークに入力することにより、複数のフレームの音声セグメントのうちの各フレームの音声セグメントと、それに対応する隠れ状態との間の事後確率を取得する。
ディープニューラルネットワークから出力されるのは、各フレームの音声セグメントと、それに対応する隠れ状態との間の事後確率であるため、ディープニューラルネットワークによって、各フレームの音声セグメントに対応する隠れ状態を取得できず、隠れマルコフモデルによって、各フレームの音声セグメントに対して順方向復号を行う必要がある。
ステップ805で、サーバは、ベイズの公式によって、各フレームの音声セグメントに対応する隠れ状態の事後確率を変換することにより、各フレームの音声セグメントに対応する隠れ状態の出力確率を取得する。
例示的に、隠れマルコフモデルによって、各フレームの音声セグメントに対して順方向復号を行うには、音声セグメントに対応する隠れ状態の出力確率が必要となる。サーバは、ベイズの公式によって、各フレームの音声セグメントに対応する隠れ状態の事後確率を変換することにより、各フレームの音声セグメントに対応する隠れ状態の出力確率を取得する。
ステップ806で、サーバは、各フレームの音声セグメントに対応する隠れ状態の出力確率、隠れマルコフモデルにおける各隠れ状態の初期確率及び各隠れ状態間の遷移確率に基づいて、隠れマルコフモデルによって順方向復号を行うことにより、複数のフレームの音声セグメントに対応する事後確率が最大となる隠れ状態を取得する。
隠れマルコフモデルにおける各隠れ状態の初期確率及び各隠れ状態間の遷移確率は、訓練済みのパラメータである。ステップ804で取得された各フレームの音声セグメントに対応する隠れ状態の出力確率に基づいて、各隠れ状態の初期確率及び各隠れ状態間の遷移確率を参照しながら、隠れマルコフモデルによって、各フレームの音声セグメントに対して順方向復号を行うことにより、複数のフレームの音声セグメントに対応する事後確率が最大となる隠れ状態を取得する。
ステップ807で、サーバは、各フレームの音声セグメントに対応する隠れ状態に基づいて、複数のフレームの音声セグメントに対応する音素を取得する。
音素は、少なくとも1つの隠れ状態で構成される。サーバは、各フレームの音声セグメントに対応する隠れ状態に基づいて、複数のフレームの音声セグメントに対応する音素を取得する。
ステップ808で、サーバは、複数のフレームの音声セグメントに対応する音素に基づいて、辞書及び言語モデルを参照することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得する。
単語は、少なくとも1つの音素で構成され、辞書には、単語と音素との対応関係が含まれる。サーバは、辞書によって、複数のフレームの音声セグメントに対応する事後確率が最大となる文字又は単語を取得し、複数のフレームの音声セグメントに対応する事後確率が最大となる文字又は単語に基づいて、言語モデルによって、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得する。ここで、言語情報は、単語であってもよいし、文であってもよい。言語モデルは、単語と文法及び/又は構文との対応関係である。
上記辞書における単語と音素との対応関係、及び言語モデルにおける単語と文法及び/又は構文との対応関係は、確率的な対応関係である。サーバが、複数のフレームの音声セグメントに対応する音素に基づいて、辞書及び言語モデルにより取得された、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報は、確率が最大となる検索経路で取得された、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報である。
ステップ809で、言語情報に所定のキーワードが含まれる場合、サーバは、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を取得する。該ステップにおいて、サーバは、所定のキーワードに対応する音素に基づいて、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を決定する。
サーバは、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報に所定のキーワードが含まれるか否かを検出し、言語情報に所定のキーワードが含まれると決定した場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を決定する。複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報に所定のキーワードが含まれない場合、本ステップを終了する。
ステップ810で、サーバは、候補音声セグメントの音声情報における開始位置及び終了位置に基づいて、音声情報から候補音声セグメントを切り取る。
サーバは、候補音声セグメントの音声情報における開始位置及び終了位置に基づいて、音声情報から候補音声セグメントを切り取る。
ステップ811で、サーバは、候補音声セグメントを前記畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークによって、候補音声セグメントに対して畳み込み及びプーリングを行うことにより、候補音声セグメントの高レベルの意味的特徴を抽出する。
例示的に、サーバは、切り取られた候補音声セグメントを前記畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにおける1番目の畳み込み層によって、候補音声セグメントに対して畳み込み処理を行うことにより、第1高レベルの意味的特徴を取得し、第1高レベルの意味的特徴を1番目のプーリング層に入力することにより、一次圧縮された高レベルの意味的特徴を取得し、一次圧縮された高レベルの意味的特徴を2番目の畳み込み層に入力することにより、第2高レベルの意味的特徴を取得し、第2高レベルの意味的特徴を2番目のプーリング層に入力することにより、二次圧縮された高レベルの意味的特徴を取得し、…、畳み込み及びプーリングの処理を複数回繰り返すことにより、候補音声セグメントの高レベルの意味的特徴を抽出する。
ステップ812で、サーバは、畳み込みニューラルネットワークにおける全結合層及びソフトマックス関数によって、候補音声セグメントの高レベルの意味的特徴を分類し、候補音声セグメントに前記所定のキーワードが含まれるか否かを検出する。
例示的に、候補音声セグメントに対して多層の畳み込み層及びプーリング層の処理を行うことにより、高レベルの意味的特徴を取得し、全結合層によって、各層の畳み込み層及びプーリング層で抽出された高レベルの意味的特徴を結合して、ソフトマックス関数に渡し、ソフトマックス関数によって、高レベルの意味的特徴を分類し、候補音声セグメントに所定のキーワードが含まれるか否かの結果を出力する。
ステップ813で、候補音声セグメントに所定のキーワードが含まれる場合、サーバは、端末にウェイクアップ指示を送信する。
畳み込みニューラルネットワークから出力された結果として、候補音声セグメントに所定のキーワードが含まれる場合、サーバは、有線ネットワーク又は無線ネットワークを介して、端末にウェイクアップ指示を送信する。
ステップ814で、端末は、ウェイクアップ指示に従って、本機の休止状態及び/又は画面ロック状態を解除する。
端末は、サーバから送信されたウェイクアップ指示を受信すると、該ウェイクアップ指示に従って、本機の休止状態及び/又は画面ロック状態を解除する。
以上説明したように、本願の実施例では、畳み込みニューラルネットワークによって、重み付き有限状態トランスデューサネットワークによって粗い位置決定を行った候補音声セグメントを検証し、候補音声セグメントに所定のキーワードが含まれるか否かを決定し、関連技術において、意味のない音声情報を意味のある音声情報として認識することで、誤ウェイクアップを発生させる恐れがあるという問題を解決し、音声認識の正確率を向上させる。
さらに、本願の実施例では、複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、言語情報に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を取得し、候補音声セグメントを認識する正確率を向上させることができる。
さらに、本願の実施例では、複数のフレームの音声セグメントをディープニューラルネットワークに入力することにより、各フレームの音声セグメントに対応する隠れ状態の事後確率を取得し、ディープニューラルネットワークが強い特徴抽出能力を有するため、ディープニューラルネットワークによって得られた、各フレームの音声セグメントに対応する隠れ状態の事後確率がより正確になり、候補音声セグメントを認識する正確率が向上する。
さらに、本願の実施例では、候補音声セグメントを畳み込みニューラルネットワークに入力して、畳み込み及びプーリングを行うことにより、候補音声セグメントの高レベルの意味的特徴を抽出し、全結合層によって、抽出された高レベルの意味的特徴を結合して、分類のためにソフトマックス関数に渡すことにより、候補音声セグメントに所定のキーワードが含まれるか否かの結果を取得し、候補音声セグメントが、重み付き有限状態トランスデューサネットワークによって予備的な位置決定を行うことにより取得されたものであるため、認識率を確保すると同時に、音声認識の正確率を向上させる。
図9及び図10は、本願の例示的な一実施例で提供された音声認識方法の適用シナリオを示す。
図9の適用シナリオでは、スマートロボット910、スマートスピーカー920、スマートフォン930などの端末が、有線ネットワーク又は無線ネットワークを介して、取得された音声情報をクラウドに伝送し、クラウドが、上記実施例における方法で、各音声情報には、それぞれに対応する所定のキーワードが含まれるか否かを検出し、所定のキーワードが含まれる場合、対応する端末にウェイクアップ指示を送信し、該端末を休止状態及び/又は画面ロック状態から解除する。
図10は、オフラインの音声認識の適用シナリオを提供している。ユーザ1010は、電子デバイス1020にウェイクワード(即ち、所定のキーワード)を言う。電子デバイス1020は、ユーザがウェイクワードを言ったことを検出すると、録音によりオリジナル音信号を取得し、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、上記実施例における方法で、音声情報に所定のキーワードが含まれるか否かを検出し、音声情報に所定のキーワードが含まれる場合、本機の休止状態及び/又は画面ロック状態を解除する。
通常、電子デバイスの演算リソースが限られており、異なるハードウェアの電子デバイスに対してカスタマイズを行う必要がある。カスタマイズの流れは、以下のとおりである。電子デバイスメーカーが、電子デバイスの、音声ウェイクアップモジュールに割り当て可能なハードウェアリソースを提供し、サーバが、メーカーから提出されたデータを受信すると、該電子デバイスの割り当て可能なハードウェアリソースの状況に応じて、該電子デバイス上で動作可能なモデルを設計し、電子デバイスの応用環境に適合する訓練データを用いてモデルを訓練し、取得されたモデルに対して結合テスト及び個別最適化を行い、合格になった後、統合のために、モデルを電子デバイスメーカーに送信し、統合が完了すると、ユーザが、オフライン環境下で電子デバイスのウェイクアップを行うことができ、ウェイクアップ方法がオンラインサービスと同じである。
図11を参照されたいが、図11は、本願の例示的な一実施例で提供された音声認識装置の構成ブロック図を示す。図示されたように、該装置は、図1Bに示す端末110、端末130、又はサーバ120に適用可能である。該装置は、取得モジュール1110と、処理モジュール1120とを含む。
取得モジュール1110は、音声情報を取得する。
処理モジュール1120は、重み付き有限状態トランスデューサネットワークによって、音声情報における候補音声セグメントの開始位置及び終了位置を決定し、開始位置及び終了位置に基づいて、音声情報から候補音声セグメントを切り取り、候補音声セグメントを機械学習モデルに入力し、機械学習モデルによって、候補音声セグメントに所定のキーワードが含まれるか否かを検出し、候補音声セグメントに所定のキーワードが含まれる場合、音声情報に所定のキーワードが含まれると決定する。
一実施例では、
処理モジュール1120は、さらに、音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得し、複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、
取得モジュール1110は、さらに、言語情報に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を決定し、候補音声セグメントには、少なくとも複数のフレームの音声セグメントのうち1フレームの音声セグメントが含まれる。
一実施例では、重み付き有限状態トランスデューサネットワークは、ディープニューラルネットワークと、隠れマルコフモデルと、辞書と、言語モデルとを含み、
処理モジュール1120は、さらに、複数のフレームの音声セグメントをディープニューラルネットワークに入力することにより、複数のフレームの音声セグメントのうちの各フレームの音声セグメントに対応する隠れ状態の事後確率を取得し、各フレームの音声セグメントに対応する隠れ状態の事後確率に基づいて、隠れマルコフモデルによって、各フレームの音声セグメントに対応する隠れ状態を取得し、各フレームの音声セグメントに対応する隠れ状態に基づいて、複数のフレームの音声セグメントに対応する音素を取得し、複数のフレームの音声セグメントに対応する音素に基づいて、辞書及び言語モデルを参照することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、ここで、前記辞書には、前記音素と単語との対応関係が含まれ、前記言語モデルには、前記単語と文法及び/又は構文との対応関係が含まれる。
一実施例では、
処理モジュール1120は、さらに、ベイズの公式によって、各フレームの音声セグメントに対応する隠れ状態の事後確率を変換することにより、各フレームの音声セグメントに対応する隠れ状態の出力確率を取得し、各フレームの音声セグメントに対応する隠れ状態の出力確率、隠れマルコフモデルにおける各隠れ状態の初期確率及び各隠れ状態間の遷移確率に基づいて、隠れマルコフモデルによって順方向復号を行うことにより、各フレームの音声セグメントに対応する隠れ状態を取得する。
一実施例では、
処理モジュール1120は、さらに、候補音声セグメントを畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークによって、候補音声セグメントに対して畳み込み及びプーリングを行うことにより、候補音声セグメントの高レベルの意味的特徴を抽出し、畳み込みニューラルネットワークにおける全結合層及びソフトマックス関数によって、候補音声セグメントの高レベルの意味的特徴を分類し、候補音声セグメントに前記所定のキーワードが含まれるか否かを検出する。
図12を参照されたいが、図12は、本願の例示的な一実施例で提供された音声認識デバイスの構成ブロック図を示す。該デバイスは、プロセッサ1210とメモリ1220とを備える。
プロセッサ1210は、中央処理装置(CPU:central processing unit)、ネットワークプロセッサ(NP:network processor)、又はCPUとNPとの組み合わせであってもよい。プロセッサ1210は、ハードウェアチップをさらに含んでもよい。上記ハードウェアチップは、特定用途向け集積回路(ASIC:application−specific integrated circuit)、プログラマブルロジックデバイス(PLD:programmable logic device)、又はこれらの組み合わせであってもよい。上記PLDは、複雑なプログラマブルロジックデバイス(CPLD:complex programmable logic device)、フィールドプログラマブルゲートアレイ(FPGA:field−programmable gate array)、汎用アレイロジック(GAL:generic array logic)、又はこれらの任意の組み合わせであってもよい。
メモリ1220は、バスを介して又は他の方式で、プロセッサ1210に接続される。メモリ1220には、少なくとも1つの命令、少なくとも1つのプログラム、コードセット、又は命令セットが記憶される。上記の少なくとも1つの命令、少なくとも1つのプログラム、コードセット、又は命令セットは、プロセッサ1210によりロードされて実行されることで、図2、図3、図6、又は図8のような音声認識方法を実現させる。メモリ1220は、揮発性メモリ(volatile memory)、不揮発性メモリ(non−volatile memory)、又はこれらの組み合わせであってもよい。揮発性メモリは、ランダムアクセスメモリ(RAM:random−access memory)、例えば、スタティックランダムアクセスメモリ(SRAM:static random access memory)、ダイナミックランダムアクセスメモリ(DRAM:dynamic random access memory)であってもよい。不揮発性メモリは、読み出し専用メモリ(ROM:read only memory)、例えば、プログラマブル読み出し専用メモリ(PROM:programmable read only memory)、消去可能なプログラマブル読み出し専用メモリ(EPROM:erasable programmable read only memory)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM:electrically erasable programmable read−only memory)であってもよい。不揮発性メモリは、フラッシュメモリ(flash memory)、磁気メモリ、例えば、磁気テープ(magnetic tape)、フロッピーディスク(floppy disk)、ハードディスクであってもよい。不揮発性メモリは、光ディスクであってもよい。
また、本願では、コンピュータ読み取り可能な記憶媒体が提供されている。前記記憶媒体には、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによりロードされて実行されることで、上記の方法の実施例で提供された音声認識方法を実現させる。
また、本願では、命令を含むコンピュータプログラム製品が提供されている。前記コンピュータプログラム製品は、コンピュータ上で動作する際に、上記各態様に記載の音声認識方法をコンピュータに実行させる。
理解すべきものとして、本文で言及される「複数」とは、2つ以上を意味する。「及び/又は」は、関連対象の関連関係を記述するものであり、3種類の関係が存在し得ることを表す。例えば、A及び/又はBは、Aが単独で存在すること、A及びBが同時に存在すること、Bが単独で存在することの3種類の場合を表すことができる。符号「/」は、一般的に、前後の関連対象に「又は」という関係があることを表す。
上述した本願の実施例の番号は、記述のためのものにすぎず、実施例の優劣を示すものではない。
当業者であれば理解できるように、上記実施例を実現するステップの全部又は一部は、ハードウェアによって実現されてもよいし、プログラムによって関連ハードウェアに指示することにより実現されてもよい。前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。上記で言及された記憶媒体は、読出し専用メモリ、磁気ディスク、又は光ディスクなどであってもよい。
上記は、本願の好ましい実施例にすぎず、本願の保護範囲を限定するものではない。本願の精神および原則内で行われる種々の修正、均等置換え、改善などは全て本願の保護範囲内に含まれるべきである。
110 端末
120 サーバ
130 端末
400 移動窓
910 スマートロボット
920 スマートスピーカー
930 スマートフォン
1010 ユーザ
1020 電子デバイス
1110 取得モジュール
1120 処理モジュール
1210 プロセッサ
1220 メモリ

Claims (17)

  1. コンピューティングデバイスが実行する音声認識方法であって、
    音声情報を取得するステップと、
    重み付き有限状態トランスデューサネットワークによって、前記音声情報における候補音声セグメントの開始位置及び終了位置を決定するステップであって、前記候補音声セグメントが、所定のキーワードに対応する音声情報セグメントである、ステップと、
    前記開始位置及び前記終了位置に基づいて、前記音声情報から前記候補音声セグメントを切り取るステップと、
    前記候補音声セグメントを機械学習モデルに入力し、前記機械学習モデルによって、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを検出するステップと、
    前記候補音声セグメントに前記所定のキーワードが含まれる場合、前記音声情報に前記所定のキーワードが含まれると決定するステップと、
    を含むことを特徴とする方法。
  2. 前記重み付き有限状態トランスデューサネットワークによって、前記音声情報における候補音声セグメントの開始位置及び終了位置を決定するステップは、
    前記音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得するステップと、
    前記複数のフレームの音声セグメントを前記重み付き有限状態トランスデューサネットワークに入力することにより、前記複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得するステップと、
    前記言語情報に所定のキーワードが含まれる場合、前記所定のキーワードに対応する候補音声セグメントの前記音声情報における開始位置及び終了位置を決定するステップであって、前記候補音声セグメントには、少なくとも前記複数のフレームの音声セグメントのうち1フレームの音声セグメントが含まれる、ステップと、
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記重み付き有限状態トランスデューサネットワークは、ディープニューラルネットワークと、隠れマルコフモデルと、辞書と、言語モデルとを含み、前記複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより、前記複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得するステップは、
    前記複数のフレームの音声セグメントを前記ディープニューラルネットワークに入力することにより、前記複数のフレームの音声セグメントのうちの各フレームの音声セグメントに対応する隠れ状態の事後確率を取得するステップと、
    前記各フレームの音声セグメントに対応する隠れ状態の事後確率に基づいて、前記隠れマルコフモデルによって、前記各フレームの音声セグメントに対応する隠れ状態を取得するステップと、
    前記各フレームの音声セグメントに対応する隠れ状態に基づいて、前記複数のフレームの音声セグメントに対応する音素を取得するステップと、
    前記複数のフレームの音声セグメントに対応する音素に基づいて、前記辞書及び前記言語モデルを参照することにより、前記複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得するステップと、を含み、
    前記辞書には、前記音素と単語との対応関係が含まれ、前記言語モデルには、前記単語と文法及び/又は構文との対応関係が含まれる、
    ことを特徴とする請求項2に記載の方法。
  4. 前記各フレームの音声セグメントに対応する隠れ状態の事後確率に基づいて、前記隠れマルコフモデルによって、前記各フレームの音声セグメントに対応する隠れ状態を取得するステップは、
    ベイズの公式によって、前記各フレームの音声セグメントに対応する隠れ状態の事後確率を変換することにより、前記各フレームの音声セグメントに対応する隠れ状態の出力確率を取得するステップと、
    前記各フレームの音声セグメントに対応する隠れ状態の出力確率、前記隠れマルコフモデルにおける各隠れ状態の初期確率及び前記各隠れ状態間の遷移確率に基づいて、前記隠れマルコフモデルによって順方向復号を行うことにより、前記各フレームの音声セグメントに対応する隠れ状態を取得するステップと、
    を含むことを特徴とする請求項3に記載の方法。
  5. 前記機械学習モデルは、畳み込みニューラルネットワークであり、前記候補音声セグメントを機械学習モデルに入力し、前記機械学習モデルによって、前記候補音声セグメントに所定のキーワードが含まれるか否かを検出するステップは、
    前記候補音声セグメントを前記畳み込みニューラルネットワークに入力するステップと、
    前記畳み込みニューラルネットワークによって、前記候補音声セグメントに対して畳み込み及びプーリングを行うことにより、前記候補音声セグメントの高レベルの意味的特徴を抽出するステップと、
    前記畳み込みニューラルネットワークにおける全結合層及びソフトマックス関数によって、前記候補音声セグメントの高レベルの意味的特徴を分類し、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを検出するステップと、を含む、
    ことを特徴とする請求項1〜4のいずれか1項に記載の方法。
  6. 前記コンピューティングデバイスは、サーバであり、
    前記音声情報を取得するステップは、前記サーバが端末から音声情報を受信するステップを含み、
    前記音声情報に前記所定のキーワードが含まれると決定するステップの後に、前記方法は、前記サーバが前記端末にウェイクアップ指示を送信するステップであって、前記ウェイクアップ指示が、前記端末の休止状態及び/又は画面ロック状態を解除するためのものである、ステップをさらに含む、
    ことを特徴とする請求項1〜5のいずれか1項に記載の方法。
  7. 前記コンピューティングデバイスは、端末であり、
    前記音声情報に前記所定のキーワードが含まれると決定するステップの後に、前記方法は、前記端末が、本機の休止状態及び/又は画面ロック状態を解除するステップをさらに含む、
    ことを特徴とする請求項1〜5のいずれか1項に記載の方法。
  8. 音声認識装置であって、
    取得モジュールと、処理モジュールと、を含み、
    前記取得モジュールは、音声情報を取得し、
    前記処理モジュールは、重み付き有限状態トランスデューサネットワークによって、前記音声情報における候補音声セグメントの開始位置及び終了位置を決定し、前記候補音声セグメントが、所定のキーワードに対応する音声情報セグメントであり、前記開始位置及び前記終了位置に基づいて、前記音声情報から前記候補音声セグメントを切り取り、前記候補音声セグメントを機械学習モデルに入力し、前記機械学習モデルによって、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを検出し、前記候補音声セグメントに前記所定のキーワードが含まれる場合、前記音声情報に所定のキーワードが含まれると決定する、
    ことを特徴とする装置。
  9. 前記処理モジュールは、さらに、前記音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得し、前記複数のフレームの音声セグメントを前記重み付き有限状態トランスデューサネットワークに入力することにより、前記複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、
    前記取得モジュールは、さらに、前記言語情報に所定のキーワードが含まれる場合、前記所定のキーワードに対応する候補音声セグメントの前記音声情報における開始位置及び終了位置を決定し、前記候補音声セグメントには、少なくとも前記複数のフレームの音声セグメントのうち1フレームの音声セグメントが含まれる、
    ことを特徴とする請求項8に記載の装置。
  10. 前記重み付き有限状態トランスデューサネットワークは、ディープニューラルネットワークと、隠れマルコフモデルと、辞書と、言語モデルとを含み、
    前記処理モジュールは、さらに、前記複数のフレームの音声セグメントを前記ディープニューラルネットワークに入力することにより、前記複数のフレームの音声セグメントのうちの各フレームの音声セグメントに対応する隠れ状態の事後確率を取得し、前記各フレームの音声セグメントに対応する隠れ状態の事後確率に基づいて、前記隠れマルコフモデルによって、前記各フレームの音声セグメントに対応する隠れ状態を取得し、前記各フレームの音声セグメントに対応する隠れ状態に基づいて、前記複数のフレームの音声セグメントに対応する音素を取得し、前記複数のフレームの音声セグメントに対応する音素に基づいて、前記辞書及び前記言語モデルを参照することにより、前記複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、
    前記辞書には、前記音素と単語との対応関係が含まれ、前記言語モデルには、前記単語と文法及び/又は構文との対応関係が含まれる、
    ことを特徴とする請求項9に記載の装置。
  11. 前記処理モジュールは、さらに、ベイズの公式によって、前記各フレームの音声セグメントに対応する隠れ状態の事後確率を変換することにより、前記各フレームの音声セグメントに対応する隠れ状態の出力確率を取得し、前記各フレームの音声セグメントに対応する隠れ状態の出力確率、前記隠れマルコフモデルにおける各隠れ状態の初期確率及び前記各隠れ状態間の遷移確率に基づいて、前記隠れマルコフモデルによって順方向復号を行うことにより、前記各フレームの音声セグメントに対応する隠れ状態を取得する、
    ことを特徴とする請求項10に記載の装置。
  12. 前記機械学習モデルは、畳み込みニューラルネットワークであり、
    前記処理モジュールは、さらに、前記候補音声セグメントを前記畳み込みニューラルネットワークに入力し、前記畳み込みニューラルネットワークによって、前記候補音声セグメントに対して畳み込み及びプーリングを行うことにより、前記候補音声セグメントの高レベルの意味的特徴を抽出し、前記畳み込みニューラルネットワークにおける全結合層及びソフトマックス関数によって、前記候補音声セグメントの高レベルの意味的特徴を分類し、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを検出する、
    ことを特徴とする請求項8〜11のいずれか1項に記載の装置。
  13. 前記取得モジュールは、さらに、端末から音声情報を受信し、
    前記処理モジュールは、さらに、前記音声情報に前記所定のキーワードが含まれると決定した後に、前記端末にウェイクアップ指示を送信し、前記ウェイクアップ指示が、前記端末の休止状態及び/又は画面ロック状態を解除するためのものである、
    ことを特徴とする請求項8〜12のいずれか1項に記載の装置。
  14. 前記処理モジュールは、さらに、前記音声情報に前記所定のキーワードが含まれると決定した後に、本機の休止状態及び/又は画面ロック状態を解除する、
    ことを特徴とする請求項8〜12のいずれか1項に記載の装置。
  15. 音声認識デバイスであって、プロセッサとメモリとを備え、前記メモリには、少なくとも1つの命令が記憶され、前記少なくとも1つの命令は、前記プロセッサによりロードされて実行されることで、請求項1〜7のいずれか1項に記載の音声認識方法を実現させる、ことを特徴とする音声認識デバイス。
  16. コンピュータ読み取り可能な記憶媒体であって、少なくとも1つの命令が記憶され、少なくとも1つの命令は、プロセッサによりロードされて実行されることで、請求項1〜7のいずれか1項に記載の音声認識方法を実現させる、ことを特徴とする記憶媒体。
  17. 請求項1〜7のいずれか1項に記載の音声認識方法をコンピューティングデバイスに実行させるコンピュータプログラム。
JP2020542123A 2018-03-22 2019-02-27 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム Active JP6980119B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810240076.XA CN108564941B (zh) 2018-03-22 2018-03-22 语音识别方法、装置、设备及存储介质
CN201810240076.X 2018-03-22
PCT/CN2019/076223 WO2019179285A1 (zh) 2018-03-22 2019-02-27 语音识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021515905A true JP2021515905A (ja) 2021-06-24
JP6980119B2 JP6980119B2 (ja) 2021-12-15

Family

ID=63533050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020542123A Active JP6980119B2 (ja) 2018-03-22 2019-02-27 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム

Country Status (5)

Country Link
US (1) US11450312B2 (ja)
EP (1) EP3770905A4 (ja)
JP (1) JP6980119B2 (ja)
CN (1) CN108564941B (ja)
WO (1) WO2019179285A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564941B (zh) * 2018-03-22 2020-06-02 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN108566634B (zh) * 2018-03-30 2021-06-25 深圳市冠旭电子股份有限公司 降低蓝牙音箱连续唤醒延时的方法、装置及蓝牙音箱
CN109273007B (zh) * 2018-10-11 2022-05-17 西安讯飞超脑信息科技有限公司 语音唤醒方法及装置
CN109378000B (zh) * 2018-12-19 2022-06-07 科大讯飞股份有限公司 语音唤醒方法、装置、系统、设备、服务器及存储介质
CN109741752A (zh) * 2018-12-27 2019-05-10 金现代信息产业股份有限公司 一种基于语音识别的人事考评方法与系统
US11158307B1 (en) * 2019-03-25 2021-10-26 Amazon Technologies, Inc. Alternate utterance generation
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN110335592B (zh) * 2019-06-28 2022-06-03 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110473536B (zh) * 2019-08-20 2021-10-15 北京声智科技有限公司 一种唤醒方法、装置和智能设备
CN110995938B (zh) * 2019-12-13 2022-04-26 度小满科技(北京)有限公司 数据处理方法和装置
CN111432305A (zh) * 2020-03-27 2020-07-17 歌尔科技有限公司 一种耳机告警方法、装置及无线耳机
CN111522592A (zh) * 2020-04-24 2020-08-11 腾讯科技(深圳)有限公司 一种基于人工智能的智能终端唤醒方法和装置
CN112113317B (zh) * 2020-10-14 2024-05-24 清华大学 一种室内热环境控制系统及方法
CN112259077B (zh) * 2020-10-20 2024-04-09 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
CN112002308B (zh) * 2020-10-30 2024-01-09 腾讯科技(深圳)有限公司 一种语音识别方法及装置
CN112530408A (zh) * 2020-11-20 2021-03-19 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质
CN112634897B (zh) * 2020-12-31 2022-10-28 青岛海尔科技有限公司 设备唤醒方法、装置和存储介质及电子装置
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备
CN113761841B (zh) * 2021-04-19 2023-07-25 腾讯科技(深圳)有限公司 将文本数据转换为声学特征的方法
CN113516997A (zh) * 2021-04-26 2021-10-19 常州分音塔科技有限公司 一种语音事件识别装置和方法
CN113129874B (zh) * 2021-04-27 2022-05-10 思必驰科技股份有限公司 语音唤醒方法及系统
CN113707135B (zh) * 2021-10-27 2021-12-31 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
CN114038457B (zh) * 2021-11-04 2022-09-13 贝壳找房(北京)科技有限公司 用于语音唤醒的方法、电子设备、存储介质和程序
US11770268B2 (en) * 2022-02-14 2023-09-26 Intel Corporation Enhanced notifications for online collaboration applications

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015082138A (ja) * 2013-10-21 2015-04-27 富士通株式会社 音声検索装置及び音声検索方法
US20160267906A1 (en) * 2015-03-11 2016-09-15 International Business Machines Corporation Method and system for order-free spoken term detection

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1525577B1 (en) * 2002-08-01 2006-06-21 Telefonaktiebolaget LM Ericsson (publ) Method for automatic speech recognition
EP2003572B1 (en) * 2007-05-22 2010-08-04 Honda Motor Co., Ltd. Language understanding device
US9477753B2 (en) * 2013-03-12 2016-10-25 International Business Machines Corporation Classifier-based system combination for spoken term detection
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
JP2014232258A (ja) * 2013-05-30 2014-12-11 株式会社東芝 連携業務支援装置、方法およびプログラム
US9196243B2 (en) * 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
EP3254453B1 (en) * 2015-02-03 2019-05-08 Dolby Laboratories Licensing Corporation Conference segmentation based on conversational dynamics
WO2016126770A2 (en) * 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Selective conference digest
CN107210045B (zh) * 2015-02-03 2020-11-17 杜比实验室特许公司 会议搜索以及搜索结果的回放
CN107210036B (zh) * 2015-02-03 2021-02-26 杜比实验室特许公司 会议词语云
WO2016126819A1 (en) * 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
EP3254435B1 (en) * 2015-02-03 2020-08-26 Dolby Laboratories Licensing Corporation Post-conference playback system having higher perceived quality than originally heard in the conference
US10334384B2 (en) * 2015-02-03 2019-06-25 Dolby Laboratories Licensing Corporation Scheduling playback of audio in a virtual acoustic space
WO2016205296A1 (en) * 2015-06-16 2016-12-22 Dolby Laboratories Licensing Corporation Post-teleconference playback using non-destructive audio transport
KR102371188B1 (ko) 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN107767863B (zh) * 2016-08-22 2021-05-04 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
CN106448663B (zh) * 2016-10-17 2020-10-23 海信集团有限公司 语音唤醒方法及语音交互装置
CN110444199B (zh) * 2017-05-27 2022-01-07 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107578776B (zh) * 2017-09-25 2021-08-06 咪咕文化科技有限公司 一种语音交互的唤醒方法、装置及计算机可读存储介质
CN107622770B (zh) * 2017-09-30 2021-03-16 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN108564941B (zh) * 2018-03-22 2020-06-02 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
US11295739B2 (en) * 2018-08-23 2022-04-05 Google Llc Key phrase spotting
US11308958B2 (en) * 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015082138A (ja) * 2013-10-21 2015-04-27 富士通株式会社 音声検索装置及び音声検索方法
US20160267906A1 (en) * 2015-03-11 2016-09-15 International Business Machines Corporation Method and system for order-free spoken term detection

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAINATH ET AL.: "Convolutional Neural Networks for Small-footprint Keyword Spotting", INTERSPEECH 2015, JPN6021043511, 10 September 2015 (2015-09-10), ISSN: 0004632906 *
WANG ET AL.: "Context Dependent Acoustic Keyword Spotting Using Deep Neural Network", 2013 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE, JPN6021043509, 1 November 2013 (2013-11-01), ISSN: 0004632905 *

Also Published As

Publication number Publication date
US11450312B2 (en) 2022-09-20
JP6980119B2 (ja) 2021-12-15
WO2019179285A1 (zh) 2019-09-26
CN108564941A (zh) 2018-09-21
US20200312309A1 (en) 2020-10-01
EP3770905A1 (en) 2021-01-27
CN108564941B (zh) 2020-06-02
EP3770905A4 (en) 2021-05-19

Similar Documents

Publication Publication Date Title
JP6980119B2 (ja) 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム
CN110389996B (zh) 实现用于自然语言处理的全句递归神经网络语言模型
US20240038218A1 (en) Speech model personalization via ambient context harvesting
US11158305B2 (en) Online verification of custom wake word
US10460721B2 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
JP6538779B2 (ja) 音声対話システム、音声対話方法、および音声対話システムを適合させる方法
US11769492B2 (en) Voice conversation analysis method and apparatus using artificial intelligence
Du et al. Deepcruiser: Automated guided testing for stateful deep learning systems
KR20190002812A (ko) 음성 인식 방법 및 그 장치
CN111081230A (zh) 语音识别方法和设备
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
US11620992B2 (en) Automated speech recognition confidence classifier
KR20210047709A (ko) 음성 인식 방법 및 음성 인식 장치
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN115132196A (zh) 语音指令识别的方法、装置、电子设备及存储介质
Mohanty et al. CNN based keyword spotting: an application for context based voiced Odia words
CN114360514A (zh) 语音识别方法、装置、设备、介质及产品
Hwang et al. End-to-end speech endpoint detection utilizing acoustic and language modeling knowledge for online low-latency speech recognition
CN115691475A (zh) 用于训练语音识别模型的方法以及语音识别方法
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
JP7291099B2 (ja) 音声認識方法及び装置
CN115273862A (zh) 语音处理的方法、装置、电子设备和介质
CN114756662A (zh) 基于多模态输入的任务特定文本生成
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211116

R150 Certificate of patent or registration of utility model

Ref document number: 6980119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150