JP6665305B2 - 数字音声認識における音声デコーディングネットワークを構築するための方法、装置及び記憶媒体 - Google Patents

数字音声認識における音声デコーディングネットワークを構築するための方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP6665305B2
JP6665305B2 JP2018533636A JP2018533636A JP6665305B2 JP 6665305 B2 JP6665305 B2 JP 6665305B2 JP 2018533636 A JP2018533636 A JP 2018533636A JP 2018533636 A JP2018533636 A JP 2018533636A JP 6665305 B2 JP6665305 B2 JP 6665305B2
Authority
JP
Japan
Prior art keywords
training data
training
acoustic
acoustic model
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018533636A
Other languages
English (en)
Other versions
JP2019504355A (ja
Inventor
ウ,フザン
クイアン,ビンフア
リ,ウェイ
リ,ケ
ウ,ヨンジャン
ファン,フェイユエ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2019504355A publication Critical patent/JP2019504355A/ja
Application granted granted Critical
Publication of JP6665305B2 publication Critical patent/JP6665305B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Character Discrimination (AREA)
  • Telephonic Communication Services (AREA)

Description

[関連出願]
この出願は、2016年3月29日に出願された「method and apparatus for constructing speech decoding network in digit speech recognition」という名称の中国特許出願第201610188168.9号の優先権を主張し、その全内容を参照により援用する。
[技術分野]
本開示は、音声認識の技術分野に関し、特に、数字音声認識における音声デコーディングネットワークを構築するための方法、装置及び記憶媒体に関する。
音声認識は、音声信号が音声デコーダにより単語に変換される処理を示す。音声デコーダは、通常では音響モデルと言語モデルとで構成される音声デコーディングネットワークとも呼ばれる。音響モデル及び言語モデルは、それぞれ音声から音節への確率及び音節から単語への確率の計算に対応する。音響モデル及び言語モデルは共に、多数の言語データを使用することによるトレーニング及び更なるモデル化により取得される。
0〜9の数字を認識するための音声認識は、数字音声認識とも呼ばれる。数字音声認識は、2つのタイプの方法により実現できる。一方のタイプは、音声の数字を認識するための孤立単語認識技術(isolated word recognition technology)の採用であり、他方のタイプは、音声における数字を認識するための普遍的連続音声認識技術(universal continuous speech recognition technology)の採用である。
孤立単語認識技術に基づく数字音声認識では、数字音声が入力されるときに明瞭な間隔が数字の間に存在することが必要とされる。
したがって、普遍的連続音声認識技術が数字音声認識のためにより頻繁に使用される。普遍的連続音声認識技術は、数字を認識するだけでなく、他の言語内容も認識する。
本出願の実施例は、数字音声における認識精度を改善するための、数字音声認識における音声デコーディングネットワークを構築するための方法、装置及び記憶媒体を提供する。
本出願の実施例により採用される技術的方式は以下の通りである。
数字音声認識における音声デコーディングネットワークを構築するための方法は、数字音声記録により取得されたトレーニングデータを獲得する動作であり、トレーニングデータは、複数の音声セグメントを含み、各音声セグメントは、複数の数字音声を含む動作と、各音声セグメントに対応する特徴系列を取得するために、トレーニングデータに対して音響特徴抽出を実行する動作と、特徴系列と、トレーニングデータ内の数字に対応する音素とに従って、音響モデルを取得するために、単音素音響モデルから始めてプログレッシブトレーニング(progressive training)を実行する動作と、言語モデルを獲得し、言語モデルと、トレーニングにより取得された音響モデルとを使用することにより、音声デコーディングネットワークを構築する動作とを含む。
数字音声認識における音声デコーディングネットワークを構築するための装置は、数字音声記録により取得されたトレーニングデータを獲得するように構成されたトレーニングデータ獲得モジュールであり、トレーニングデータは、複数の音声セグメントを含み、各音声セグメントは、複数の数字の音声を含むトレーニングデータ獲得モジュールと、各音声セグメントに対応する特徴系列を取得するために、トレーニングデータに対して音響特徴抽出を実行するように構成された音響特徴抽出モジュールと、特徴系列と、トレーニングデータ内の数字に対応する音素とに従って、音響モデルを取得するために、単音素音響モデルから始めてプログレッシブトレーニングを実行するように構成された音響モデル獲得モジュールと、言語モデルを獲得し、言語モデルと、トレーニングにより取得された音響モデルとを使用することにより、音声デコーディングネットワークを構築するように構成された言語モデル獲得モジュールとを含む。
不揮発性コンピュータ読み取り可能記憶媒体は、記憶媒体が機械読み取り可能命令を記憶し、機械読み取り可能命令が以下の動作、すなわち、
数字音声記録により取得されたトレーニングデータを獲得する動作であり、トレーニングデータは、複数の音声セグメントを含み、各音声セグメントは、複数の数字の音声を含む動作と、
各音声セグメントに対応する特徴系列を取得するために、トレーニングデータに対して音響特徴抽出を実行する動作と、
特徴系列と、トレーニングデータ内の数字に対応する音素とに従って、音響モデルを取得するために、単音素音響モデルから始めてプログレッシブトレーニングを実行する動作と、
言語モデルを獲得し、言語モデルと、トレーニングにより取得された音響モデルとを使用することにより、音声デコーディングネットワークを構築する動作と
を実行するようにプロセッサにより実行可能であることを特徴とする。
音響特徴抽出がトレーニングデータ内の各音声セグメントに対して実行され、各音声セグメントに対応する特徴系列と、トレーニングデータ内の数字に対応する音素とに従って、単音素音響モデルから始めてプログレッシブトレーニングを実行し、それにより、音響モデルを取得し、次に、音声デコーディングネットワークは、取得された言語モデルで構築される。すなわち、音声デコーディングネットワークにおける音響モデルは、プログレッシブトレーニング方式を使用することにより取得され、すなわち、単音素音響モデルがトレーニング基礎として採用され、次に、第2のトレーニングが音響モデルを取得するために実行され、それにより、音響モデルトレーニングの収束速度を加速させ、数字音声の認識精度を有効に増加させる。
孤立認識技術の方法のフローチャートである。 普遍的連続音声認識技術の方法のフローチャートである。 本出願のいくつかの実施例により提供される数字音声認識における音声デコーディングネットワークを構築するための方法のフローチャートである。 本出願のいくつかの実施例での図3におけるトレーニングデータに対して音響特徴抽出を実行するための方法のフローチャートである。 本出願のいくつかの実施例での図3における単音素音響モデルから始めてプログレッシブトレーニングを実行することにより音響モデルを取得するための方法のフローチャートである。 本出願のいくつかの実施例での図5における単音素の分割状態に従って音声セグメントに対応する特徴系列に対して音響モデル化及びトレーニングを実行するための方法のフローチャートである。 本出願のいくつかの実施例による単音素のためのGMM-HMMを確立する概略図である。 本出願のいくつかの実施例での図5における三音素の分割状態に従って音声セグメントに対応する特徴系列に対して音響モデル化及びトレーニングを実行するための方法のフローチャートである。 本発明のいくつかの実施例による数字音声認識における音声デコーディングネットワークを構築するための装置の構成ブロック図である。 本出願のいくつかの実施例での図9における音響特徴抽出モジュールの構成ブロック図である。 本出願のいくつかの実施例での図9における音響モデル獲得モジュールの構成ブロック図である。 本出願のいくつかの実施例での図11における第1のモデル獲得ユニットの構成ブロック図である。 本出願のいくつかの実施例での図11における第2のモデル獲得ユニットの構成ブロック図である。 本出願のいくつかの実施例による数字音声認識における音声デコーディングネットワークを構築するための装置の概略構成図である。
本開示の特徴及び利点を表す典型的な実施例について、以下の説明において詳細に説明する。本開示は、本開示の範囲を逸脱することなく、様々な実施例において様々な変更と共に提供され、ここでの説明及び例示は実質的に例示のみであり、本開示を限定するために使用されないことが理解されるべきである。
前述のように、数字音声認識は、2つのタイプの方法により実現できる。一方のタイプは、孤立単語認識技術であり、他方のタイプは、普遍的連続音声認識技術である。
一方、図1に示すように、孤立単語認識技術に基づいて構築された音声認識方法では、まず、入力数字音声の開始位置が端点検出を通じて決定され、決定された開始位置を有する数字音声が複数の有効な音声セグメントにセグメント化され、次に、特徴抽出が各音声セグメントに対して実行される。最後に、動的時間伸縮(dynamic time warping, DTW)アルゴリズムが、抽出された特徴と予め設定された数字音声テンプレートとの間の音声類似度をマッチングするために採用される。最も類似する数字音声テンプレートに対応する数字が、数字音声の認識結果である。孤立単語認識技術に基づく数字音声認識では、数字音声が入力されるときに明瞭な間隔が数字の間に存在することが必要とされる。連続的な数字入力が採用される場合、不認識又は不正確な認識をもたらす可能性があり、これは、数字音声の認識精度を大きく低減する。したがって、孤立単語認識技術に基づく数字音声認識は、明白な制限を有する。
他方、図2に示すように、普遍的連続音声認識技術に基づく音声認識方法では、まず、入力数字音声が音響特徴抽出を受け、抽出された音響特徴が数字系列としてデコーディングネットワークにおける音響モデルにより認識され、次に、数字系列の出現確率がデコーディングネットワークにおける言語モデルによる統計を受ける。最大の出現確率を有する数字系列が、数字音声の認識結果である。しかし、この技術の認識対象は、数字だけでなく他の言語内容も含み、これは、この技術により使用される音響モデル及び言語モデルが複雑になりすぎ、認識速度が比較的低く、数字が他の多音単語への誤認識を容易に受けることになり、それにより、数字音声の認識精度が十分に高くないという事実をもたらす。この技術における言語モデルの認識対象が0〜9の10個の数字に制限されたとしても、認識精度における改善は、依然として制限される。
認識精度が高くないという問題は、前述の2つのタイプの音声認識方法に存在する。数字音声の認識精度を改善するために、数字音声認識における音声デコーディングネットワークを構築するための方法が提案される。この方法は、動作能力を有するコンピュータ装置上で実行するコンピュータプログラムに依存できる。
図3を参照すると、一実施例では、数字音声認識における音声デコーディングネットワークを構築するための方法は以下の動作を含む。
動作110:数字音声記録により取得されたトレーニングデータを獲得する。
音声デコーディングネットワークを構築するために、音響モデル及び言語モデルが取得される必要があり、トレーニングデータは、音響モデル及び言語モデルをトレーニングするための基礎である。いわゆる音響モデルは、音声の音素特徴タイプが音素又は単語のような単位に対応させることを可能にするものを示す。次に、言語モデルは、単語を完全な文にデコードする。大量のトレーニングデータを獲得することにより、比較的正確な音響モデル及び言語モデルが取得でき、それにより、数字音声認識に適した音声デコーディングネットワークが音響モデル及び言語モデルを通じて構築され得ることになり、数字音声認識が比較的正確に実行され得る。
この実施例では、トレーニングデータは、複数の音声セグメントを含み、各音声セグメントは、複数の数字に対応する音声を含む。
さらに、トレーニングデータに含まれる複数の音声セグメントは、複数の人により記録され、複数の人により記録された複数の音声セグメントは、同じ人に対応し、モデルトレーニング処理中に同じ人が異なる周波数、異なる内容及び異なるチャネルを有する音声セグメントを有することを確保する。
さらに、好ましくは、トレーニングデータ内の各音声セグメントは、数字及び雑音のみを含み、トレーニングデータに存在する数字は、0〜9の10個の数字の集合を形成できる。
数字及び雑音を含む音声セグメントは、数字音声認識における音声デコーディングネットワークに使用されるトレーニングデータとして準備される。構築された音声デコーディングネットワークは、雑音のような有効でない音声の干渉に抵抗可能であることが可能であり、雑音の干渉は、数字音声認識処理において最大限まで回避される。これは、静かな環境における数字音声認識に適するだけでなく、低い信号対雑音比の音声に良好な認識効果を有し、屋外環境における認識及び対雑音能力を改善できる。
各音声セグメントは、数字音声を記録することにより取得され、これは、実際の適用場面の要件に従ってモデルトレーニング処理中にリアルタイムで記録でき、或いはモデルトレーニング処理の前に予め記録できる。
動作130:各音声セグメントに対応する特徴系列を取得するために、トレーニングデータに対して音響特徴抽出を実行する。
音響モデルは、音声の音響特徴分布をモデル化及びトレーニングすることにより取得されるため、音響特徴は、音響モデルをモデル化及びトレーニングする前にトレーニングデータから抽出される必要がある。
さらに、トレーニングデータは複数の音声セグメントを含むため、音響特徴の抽出は、トレーニングデータ内の各音声セグメントに対してそれぞれ実行され、それにより、各音声セグメントに対応する特徴系列を取得する。
抽出された音響特徴は、メル周波数ケプストラム係数(Mel frequency cepstrum coefficient, MFCC)特徴及びピッチ(PITCH)特徴を含み、それにより、数字音声認識に適する。
動作150:特徴系列と、トレーニングデータ内の数字に対応する音素とに従って、音響モデルを取得するために、単音素音響モデルから始めてプログレッシブトレーニングを実行する。
数字の中国語発音の特徴に従って、数字の語頭及び母音は音素として定義される。音素の前後関係に従って、音素は単音素、二音素及び三音素に細分可能であり、単音素は、それ自体、音素の前及び後の前後関係を考慮せずに使用中に考慮されるだけである。前の音素又は後の音素の前後関係は、二音素の使用中に考慮されるだけである。前の音素及び後の音素の前後関係は、三音素の使用中に同時に考慮される。
このことに基づいて、モデル化単位としての音素は、単音素、二音素又は三音素とすることができる。対応して、単音素音響モデルは、モデル化単位として単音素で構築することにより取得され、二音素音響モデルは、モデル化単位として二音素で構築することにより取得され、三音素音響モデルは、モデル化単位として三音素で構築することにより取得される。
各音声セグメントの対応する特徴系列を取得した後に、モデルトレーニングの入力が取得される。すなわち、音声の音響特徴分布を反映する音響モデルは、トレーニングデータ内の数字に対応する音素をモデル化単位として使用することにより、各音声セグメントに対応する特徴系列に対して音響モデル化及びトレーニングを実行することにより取得できる。
プログレッシブトレーニングは、複数の音響モデル化及びトレーニングが各音声セグメントに対応する特徴系列に対して実行されるプログレッシブな処理である。簡単に言えば、プログレッシブトレーニングの処理は、初期モデルから始めてトレーニングを実行し、トレーニングを受ける比較的正確な中間モデルを取得し、より正確な最終モデルを取得することである。この実施例では、音響モデルは、単音素音響モデルに基づいてプログレッシブトレーニングを実行することにより取得され、それにより、プログレッシブトレーニングにより取得された音響モデルは比較的正確であり、それにより、数字音声の認識精度の改善に有利である。
モデル化単位としての音素は様々になり得るため、プログレッシブトレーニングの開始は、単音素音響モデルのみに限定されないことに言及する価値がある。
動作170:言語モデルを獲得し、言語モデルと、トレーニングにより取得された音響モデルとを使用することにより、音声デコーディングネットワークを構築する。
言語モデルは、言語自体の確率分布をモデル化及びトレーニングすることにより取得される。いくつかの実施例では、音声における数字の出現は、通常では特定のルールに従う。例えば、音声ダイヤルにおける電話番号に対応する数字は、特定のルールに従って配置され、或いは生音声印刷確認におけるランダムコードに対応する数字もまた、予め規定されたリストからサンプリング及び抽出される。
したがって、数字音声認識に直面したときに、言語自体の確率分布は、トレーニングデータ内の数字のマッチング関係により反映される。この実施例では、言語モデルは、トレーニングデータ内の数字のマッチング関係、例えば、トレーニングデータ内の数字と電話番号配置ルールとの間のマッチング関係、又はトレーニングデータ内の数字とランダムコードの予め規定されたリストとの間のマッチング関係をモデル化することにより取得される。マッチング関係が近いほど、トレーニングデータ内の数字の出現確率が大きくなることが理解できる。さらに、言語モデルは、電話番号配置ルール又はランダムコードの予め規定されたリストをモデル化及びトレーニングすることにより取得できる。
音響モデル及び言語モデルを獲得した後に、数字音声認識を実現するための音声デコーディングネットワークが構築される。形成された音声デコーディングネットワークにおける音響モデルは、単音素音響モデルから始めてプログレッシブトレーニングにより取得されるため、連続数字音声認識が適合可能であり、したがって、数字音声の認識精度を有効に改善する。
実施例では、動作110の前に、前述の方法は以下の動作を更に含む。
予め設定された条件に従って、トレーニングデータを取得するために、複数の数字を含む音声セグメントを記録する。
同じ人が同じ数字を含む音声セグメントを記録したとしても、差が存在し得ることが理解できる。このことに基づいて、この実施例では、予め設定された条件に従った複数の数字を含む音声セグメントの記録は、数字音声の認識精度の改善を助ける。
予め設定された条件は、複数の装置を介した記録又は複数の人による記録を含み、異なる状況での同じ人の記録条件を模擬する。すなわち、異なる予め設定された条件(例えば、複数の装置又は複数の人)に従って記録された複数の音声セグメントは、モデルトレーニング処理中の同じ人に対応し、それにより、モデルトレーニング処理中に同じ人が異なる周波数、異なる内容及び異なるチャネルを有する音声セグメントを有することを確保し、モデルトレーニングのためのトレーニングデータのその後の使用の精度を更に確保する。
具体的には、記録のための様々な装置は、スマートフォン、コンピュータ及びタブレットコンピュータのようなマイクロフォンを保持する装置でもよい。様々な装置により保持されるマイクロフォンの固有の周波数帯域は異なり得るため、様々な装置を介した記録は、トレーニングデータ内の各音声セグメントが異なるチャネルを有するようにさせる。
各人の話し速度及びイントネーションはそれぞれ異なり、例えば、若い女性の話し速度はより速く、年寄りの人の話し速度は遅いため、音声セグメントは、複数の人により記録され、トレーニングデータ内の各音声セグメントが様々な周波数を有するようにさせる。
さらに、予め設定された条件は、様々な環境を通じた記録を更に含んでもよい。例えば、環境は、静かな教室又は雑音のある街路でもよく、これから、雑音でマーキングされたトレーニングデータが獲得され、低い信号対雑音比を有する数字音声の認識精度を改善し、数字音声認識における対雑音の能力を改善する。
図4を参照すると、実施例では、動作130は以下の動作を含む。
動作131:各音声セグメントに含まれるいくつかの音声フレームを取得するために、予め設定された長さに従って各音声セグメントをセグメント化する。
各音声セグメントの長さは異なり得るため、音響特徴を抽出することは不便になる。したがって、トレーニングデータに対して音響特徴抽出を実行する前に、まず、各音声セグメントは、同じ長さの音声フレームにセグメント化される必要がある。
この実施例では、予め設定された長さは25msであり、各音声セグメントは、25msの複数の音声フレームにセグメント化される。さらに、好ましい実施例では、2つの隣接する音声フレームの間に重なりが存在する。例えば、10msの重なりが25msの2つの音声フレームの間に存在し、それにより、予め設定された長さに従った音声セグメントのセグメント化の信頼性を改善する。
動作133:音声セグメントに含まれる複数の音声フレームのそれぞれからメル周波数ケプストラム係数(Mel frequency cepstrum coefficient, MFCC)特徴及びピッチ(PITCH)特徴を抽出し、MFCC特徴及びPITCH特徴を介して各音声フレームの特徴ベクトルを取得するために計算し、各音声セグメントに対応する特徴系列を更に構成する。
音声フレームは波形の形式で存在することが理解できる。波形は、時間ドメインにおいてほとんど記述能力を有さず、したがって、波形は変換されなければならない。
この実施例では、各音声フレームが音声セグメント内で取得された後に、MFCC特徴及びPITCH特徴抽出及び計算が音声フレームに対して実行され、各音声フレームに対応する波形は、多次元ベクトルに変換され、すなわち、各音声フレームの特徴ベクトルが取得され、次に、音声セグメントに含まれる数字は、特徴ベクトルにより構成される特徴系列により記述される。
音声フレームの特徴ベクトルを取得するための処理は、具体的には以下の通りである。
1)Oi tを取得するために、第iの音声セグメント内の第tの音声フレームに対してMFCC特徴及びPITCH特徴を抽出する。
2)単位として第iの音声セグメントに含まれる全てのT個の音声フレームに対応するMFCC特徴及びPITCH特徴の平均値を計算する。
Figure 0006665305
3)第tの音声フレームに対応するMFCC特徴及びPITCH特徴と2)における平均値との間の差を計算し、更なる特徴として差を導入することにより音響特徴抽出の信頼性を改善する。
Figure 0006665305
4)第tの音声フレームの前及び後の複数の隣接する音声フレームに対応するMFCC特徴及びPITCH特徴で、第tの音声フレームに対応するMFCC特徴及びPITCH特徴を接合し、音響特徴抽出の信頼性を更に改善する。4を例として挙げると、接合により形成された高次元の特徴を取得する。
Figure 0006665305
5)線形判別分析(linear discriminant analysis, LDA)を使用することにより、高次元の特徴の次元数を低減し、それにより、抽出の信頼性を確保しつつ計算の複雑性を減少させ、次元的に低減した特徴を取得する。
Figure 0006665305
6)次元的に低減した特徴に対して最尤線形変換(maximum linear likelihood transformation, MLLT)を実行し、特徴の間の相関性を除去し、それにより、最終的に第tの音声フレームの特徴ベクトルを取得する。
Figure 0006665305
7)トレーニングデータ内の各音声セグメントに対応する特徴系列を取得するために、各音声フレームの特徴ベクトルを結合する。
図5を参照すると、実施例では、動作150は以下の動作を含む。
動作151:トレーニングデータの音声セグメントから数字に対応する単音素を獲得する。
前述のように、単音素は、それ自体、音素の前及び後の前後関係を考慮せずに使用中に考慮されるだけである。例えば、数字1に対応する単音素は、Y(語頭)及びI(母音)を含む。
具体的には、トレーニングデータにおいて、単音素の集合は、各音声セグメントに存在する複数の数字から構築され、それにより、数字に対応する単音素は、単音素の集合を介して取得されてもよい。例えば、トレーニングデータの音声セグメントは、数字1及び数字3を含み、その場合、数字1及び数字3により構築された単音素の集合は、{Y,I,S,AN}である。
動作153:単音素の分割状態に従って音声セグメントに対応する特徴系列に対して音響モデル化及びトレーニングを実行し、単音素に対応する単音素音響モデルを取得する。
状態は、音素より基本的な音声単位である。数字音声認識処理では、いくつかの状態が音素を構成し、いくつかの音素が数字を構成する。したがって、音響モデルの獲得処理は、各数字を異なる状態に対応させる。
さらに、前述のように、トレーニングデータ内の複数の数字を含む音声セグメントは、まず、いくつかの音声フレームを形成するためにセグメント化され、音響特徴は、音声セグメントに対応する特徴系列を取得するために抽出される。このことに基づいて、音響モデル化は、状態と特徴系列との間の対応関係を確立することである。モデルトレーニングは、確立された対応関係を最適化することであり、それにより、数字音声認識処理中に、入力数字音声から抽出された特徴系列は、状態と特徴系列との間の最適な対応関係に従って様々な状態に対応する。状態は音素に結合され、音素は数字に結合され、数字音声の認識結果を取得する。
この実施例では、音声セグメントに対応する特徴系列は、単音素の分割状態に従って音響的にモデル化及びトレーニングされる。状態と特徴系列との間の対応関係は、音響モデル化を通じて確立され、次に、確立された対応関係は、モデルトレーニングを介して最適化される。すなわち、音声セグメントに対応する特徴系列に対応する状態は、単音素に対応する単音素音響モデルを使用することにより認識できる。
動作155:2次トレーニングデータを取得するために、単音素音響モデルを使用することによりトレーニングデータを認識する。
音声セグメントに対応する特徴系列に対応する状態は、単音素音響モデルを使用することにより認識できるため、トレーニングデータは、単音素音響モデルを使用することにより認識され、トレーニングデータ内の音声セグメントに対応する特徴系列が対応する最適状態系列として認識されることを可能にする。
さらに、単音素の対応する集合は、最適状態系列を使用することにより取得され、それにより、最適状態系列は、2次トレーニングデータである対応する数字系列に変換される。
2次トレーニングデータは、1回目の言語モデルのない音声デコーディングネットワークによるデコーディング後に取得された認識結果であることが理解できる。音声セグメント内の各数字の具体的な時間位置は、2次トレーニングデータを介して認識され、その後のモデルトレーニングの良好な基礎を提供するのを助け、したがって、モデルトレーニングの収束速度の加速を助ける。
動作157:2次トレーニングデータ内の音声セグメントに含まれる数字に従って、対応する三音素を取得する。
この実施例では、三音素は、2次トレーニングデータ内の音声セグメントに含まれる数字により構築された三音素の集合に基づいて獲得される。例えば、トレーニングデータの1つの音声セグメントが数字1及び3を含み、その場合、数字1及び3により構築される三音素の集合は、{SIL+Y-I,Y+I-S,I+S-AN,S+AN-SIL}である。SILは無音を表し、数字1の前に他の数字が存在しないことを示す。Yは数字1の語頭を表し、Iは数字1の母音を表し、「+」は前の音素の接続を表し、「-」は後の音素の接続を表す。三音素の集合は、前後関係を考慮することにより単音素の集合に基づいて構築されることが認識できる。
動作159:三音素に対応する音響モデルを取得するために、三音素の分割状態に従って、音声セグメントに対応する特徴系列に対して音響モデル化及びトレーニングを実行する。
前述のように、数字が対応する実際の状態を認識することのみにより、認識結果が取得できる。
このことに基づいて、この実施例では、音声セグメントに対応する特徴系列は、三音素の分割状態に従って音響モデル化及びトレーニングを受ける。状態と特徴系列との間の対応関係は、音響モデル化を通じて確立され、次に、確立された対応関係は、モデルトレーニングを介して最適化される。すなわち、各音声フレームに対応する状態は、三音素に対応する音響モデルを使用することにより認識できる。
前述の方法を通じて、三音素に対応する音響モデルは、単音素音響モデルに基づいてプログレッシブにトレーニングされ、これは、数字音声の認識精度を改善するのに好ましい。さらに、三音素の使用中に前後関係が考慮されるため、単音素音響モデルに比べて、三音素に対応する音響モデルが数字音声認識をより正確に実行することを可能にする。
図6を参照すると、実施例では、動作153は以下の動作を含む。
動作1531:単音素の分割状態を取得するために、HMMを使用することにより単音素に対して状態記述を実行する。
この実施例では、隠れマルコフモデル(hidden Markov model, HMM)は、自己ループがあり且つスパンのない3状態のトポロジ構造を使用する。簡単に言えば、単音素の状態記述は、HMMにより実行される。各単音素は、図7に示すように、3つの状態に分割される。各状態Si, i=1,2,3は、自分及び隣接する次の状態Si+1にのみジャンプすることができ、aijは状態Siから状態Sjへのジャンプの遷移確率を表す。
動作1533:単音素の分割状態に基づいて、GMMを使用することにより特徴系列をモデル化する。
続けて図7を参照すると、単音素の3つの分割状態を取得した後に、状態毎に、特徴系列は、音声の音響特徴分布を反映するGMM-HMMを取得するために、GMMを使用することにより以下の式(1)に従ってモデル化される。
Figure 0006665305
ここで、
Figure 0006665305
は特徴系列が状態Siに属する確率を表し、oは特徴系列を表し、Dは特徴系列oの次元を表し、Mは混合ガウスの数字を表し、λmは第mの混合ガウスの重みを表し、εmは共分散を表し、μmは平均ベクトルを表す。
動作1535:GMM-HMMのパラメータをランダムに初期化し、期待値最大化アルゴリズムを使用することにより、ランダムな初期化により取得されたパラメータに対して繰り返し最適化を実行する。
式(1)から分かるように、特徴系列が対応する状態に属する確率は、
Figure 0006665305
が既知である場合に既知とすることができる。特徴系列が特定の状態に属する確率が最大であり、これは、それに対応する音声フレームがこの状態に属することを意味することが認識できる。
したがって、
Figure 0006665305

を認識するために、モデルトレーニングを介して式(1)内の未知のパラメータの決定値、すなわち、GMM-HMMのパラメータの決定値を獲得する必要があり、GMM-HMMのパラメータは、混合ガウスの重みλm、共分散εm及び遷移確率aijを含む。
さらに、この実施例では、GMM-HMMのパラメータの決定値を取得するために、GMM-HMMのパラメータは、期待値最大化アルゴリズム(expectation maximization algorithm, EM Algorithm)により繰り返し最適化される。同時に、GMM-HMMのパラメータは、パラメータ繰り返し最適化の初期段階でランダムに初期化され、それにより、ランダムに初期化されたパラメータがモデルトレーニングの初期の現在のトレーニングパラメータとしての役目をする。
具体的には、EMアルゴリズムの各繰り返し最適化処理は、以下の2つの動作を含む。
E動作:現在のトレーニングパラメータに基づいて未知のパラメータの確率分布を計算する。
M動作:未知のパラメータの確率分布期待値を最大化できる対応するパラメータを計算し、パラメータは最適化されたパラメータである。
現在のトレーニングパラメータは、最適化されたパラメータで更新され、最適化されたパラメータがGMM-HMMが収束するのを可能にできないときに、繰り返し最適化処理を続ける。
最適化されたパラメータがGMM-HMMが収束するのを可能にするときに、GMM-HMMは、単音素音響モデルであると決定される。
続けて図7を参照すると、単音素音響モデルが取得された後に、単音素音響モデルは、入力数字音声の音響特徴の分布を反映でき、それにより、音声フレームは対応する状態を獲得でき、次に、状態が音素に結合され、これが数字に結合される。
図8を参照すると、実施例では、動作159は以下の動作を含む。
動作1591:三音素の分割状態を取得するために、HMMを使用することにより三音素に対して状態記述を実行する。
動作1593:三音素の分割状態に基づいてGMM-HMMを取得するために、GMMを使用することにより特徴系列をモデル化する。
動作1595:2次トレーニングデータに従ってGMM-HMMのパラメータに対してパラメータ推定を実行し、期待値最大化アルゴリズムを使用することにより、パラメータ推定により取得されたパラメータに対して繰り返し最適化を実行する。
最適化されたパラメータがGMM-HMMが収束するのを可能にするときに、GMM-HMMが音響モデルであると決定される。
前述の音響モデルを構築する処理は、単音素音響モデルを構築する前述の処理と同様であり、詳細はここでは再び説明しない。
2つの差は、音響モデルがパラメータ繰り返し最適化の初期段階で未知のパラメータをランダムに初期化しないことにある。その代わりに、未知のパラメータは、2次トレーニングデータに基づくパラメータ推定を受け、パラメータ推定により取得されたパラメータは、モデルトレーニングのための初期の現在のトレーニングパラメータとしての役目をする。
具体的には、2次トレーニングデータは、最適状態系列の変換により形成された数字系列であるため、最尤推定(maximum likelihood estimation, MLE)は、既知の数字系列に従って未知のパラメータに対して実行され、未知のパラメータの対応する決定値が取得できる。
パラメータ繰り返し最適化の初期段階では、パラメータ推定により取得されたパラメータは、現在のトレーニングパラメータとしての役目をし、未知のパラメータの確率分布を計算する。GMM-HMMが収束するまで、すなわち、三音素に対応する音響モデルが取得されるまで、期待値最大化の解は、未知のパラメータの確率分布に対して実行される。
前述の方法により、モデルトレーニングの収束速度が有効に改善され、それにより、数字音声の認識精度を増加させ、音声精度は少なくとも10%だけ改善される。
図9を参照すると、実施例では、数字音声認識における音声デコーディングネットワークを構築するための装置は、
数字音声記録により取得されたトレーニングデータを獲得するように構成されたトレーニングデータ獲得モジュールであり、トレーニングデータは、複数の音声セグメントを含むトレーニングデータ獲得モジュール410と、
各音声セグメントに対応する特徴系列を取得するために、トレーニングデータにおいて音響特徴抽出を実行するように構成された音響特徴抽出モジュール430と、
特徴系列と、トレーニングデータ内の数字とに従って、音響モデルを取得するために、単音素音響モデルから始めてプログレッシブトレーニングを実行するように構成された音響モデル獲得モジュール450と、
言語モデルを獲得し、言語モデルと、トレーニングにより取得された音響モデルとを使用することにより、音声デコーディングネットワークを構築するように構成された言語モデル獲得モジュール470と
を含む。
実施例では、前述の装置は、
トレーニングデータを取得するために、予め設定された条件に従って、複数の数字を含む音声セグメントを記録するように構成されたトレーニングデータ記録モジュール
を更に含む。
図10を参照すると、音響特徴抽出モジュール430は、
各音声セグメントに含まれるいくつかの音声フレームを取得するために、予め設定された長さに従って各音声セグメントをセグメント化するように構成された音声セグメントセグメント化ユニット431と、
音声セグメントに含まれる複数の音声フレームのそれぞれについてMFCC特徴及びPITCH特徴を抽出し、MFCC特徴及びPITCH特徴を介して各音声フレームの特徴ベクトルを取得するために計算し、各音声セグメントに対応する特徴系列を更に構成するように構成された特徴系列生成ユニット433と
を含む。
図11を参照すると、音響モデル獲得モジュール450は、
トレーニングデータの音声セグメントから数字に対応する単音素を獲得するように構成された単音素獲得ユニット451と、
単音素に対応する単音素音響モデルを取得するために、単音素の分割状態に従って音声セグメントに対応する特徴系列に対して音響モデル化及びトレーニングを実行するように構成された第1のモデル獲得ユニット453と、
2次トレーニングデータを取得するために、単音素音響モデルを使用することによりトレーニングデータを認識するように構成された認識ユニット455と、
2次トレーニングデータ内の音声セグメントに含まれる数字に従って、対応する三音素を取得するように構成された三音素獲得ユニット457と、
三音素に対応する音響モデルを取得するために、三音素の分割状態に従って、音声セグメントに対応する特徴系列に対して音響モデル化及びトレーニングを実行するように構成された第2のモデル獲得ユニット459と
を含む。
図12を参照すると、実施例では、第1のモデル獲得ユニット453は、
単音素の分割状態を取得するために、HMMを使用することにより単音素に対して状態記述を実行するように構成された第1の状態記述ユニット4531と、
GMM-HMMを取得するために、単音素の分割状態に基づいて、GMMを使用することにより特徴系列をモデル化するように構成された第1のモデル化ユニット4533と、
GMM-HMMのパラメータをランダムに初期化し、期待値最大化アルゴリズムを使用することにより、ランダムな初期化により取得されたパラメータに対して繰り返し最適化を実行するように構成された第1のトレーニングユニット4535と、
を含む。
最適化されたパラメータがGMM-HMMが収束するのを可能にするときに、GMM-HMMは、単音素音響モデルであると決定される。
図13を参照すると、実施例では、第2のモデル獲得ユニット459は、
三音素の分割状態を取得するために、HMMを使用することにより三音素に対して状態記述を実行するように構成された第2の状態記述ユニット4591と、
三音素の分割状態に基づいてGMM-HMMを取得するために、GMMを使用することにより特徴系列をモデル化するように構成された第2のモデル化ユニット4593と、
2次トレーニングデータに従ってGMM-HMMのパラメータに対してパラメータ推定を実行し、期待値最大化アルゴリズムを使用することにより、パラメータ推定により取得されたパラメータに対して繰り返し最適化を実行するように構成された第2のトレーニングユニット4595と
を含む。
最適化されたパラメータがGMM-HMMが収束するのを可能にするときに、GMM-HMMが音響モデルであると決定される。
図14を参照すると、図14は、本出願の実施例により提供される数字音声認識における音声デコーディングネットワークを構築するための装置500の概略構成図である。前述の実施例の動作は全て、図面に示す構成に基づいてもよい。
大きい差は、構成又は性能の差により装置500に生じてもよい。装置500は、電源510と、インタフェース530と、少なくとも1つの記憶媒体550と、少なくとも1つの中央処理装置(central processing unit, CPU)570とを含む。
具体的には、電源510は、装置500における各ハードウェア装置のための動作電圧を提供するように構成される。
インタフェース530は、外部装置と通信するための少なくとも1つの有線又は無線ネットワークインタフェース531、少なくとも1つの直並列変換インタフェース533、少なくとも1つの入出力インタフェース535、少なくとも1つのUSBインタフェース537等を含む。
リソースを記憶するための担体としての記憶媒体550は、ランダムアクセス媒体、磁気ディスク、光ディスク等でもよい。記憶媒体550に記憶されたリソースは、オペレーティングシステム551、アプリケーションプログラム553、データ555等を含む。記憶方式は、一時的記憶又は永続的記憶でもよい。オペレーティングシステム551は、装置500におけるハードウェア装置及びアプリケーションプログラム553を管理及び制御するように構成され、それにより、CPU570を介して大量データ555の計算及び処理が実現できる。オペレーティングシステム551は、Windows Server(登録商標)、Mac OS X(登録商標)、Unix(登録商標)、Linux(登録商標)、FreeBSD(登録商標)等でもよい。アプリケーションプログラム553は、オペレーティングシステム551に基づいて少なくとも1つの具体的なタスクを完了するコンピュータプログラムである。アプリケーションプログラム553は、少なくとも1つのモジュール(図面に図示せず)を含んでもよく、これらのそれぞれは、装置500のための一連の動作命令をそれぞれ含んでもよい。データ555は、ディスクに記憶されたトレーニングデータ等でもよい。
CPU570は、1つ以上のプロセッサを含んでもよく、記憶媒体550内の大量データ555を計算及び処理するために、バスを介して記憶媒体550と通信するように構成される。
記憶媒体550に記憶された一連の動作命令は、CPU570により読み取られ、記憶媒体550上のオペレーティングシステム551に基づいて装置500において実行され、前述の実施例における動作の一部又は全部が、装置上で関係するコンピュータプログラムを実行することにより完了できることを更に可能にする。
前述の説明は、本出願の単に好ましい実施例に過ぎず、本開示を限定するために使用されない。本開示の真意及び原理内で行われる如何なる変更、等価置換及び改善等も、本開示の保護範囲に含まれるべきである。

Claims (15)

  1. 数字の音声認識における音声デコーディングネットワークを構築するための方法であって、
    数字の音声記録により取得されたトレーニングデータを獲得する動作であり、前記トレーニングデータは、複数の音声セグメントを含み、各音声セグメントは、複数の数字の音声を含む動作と、
    各音声セグメントに対応する特徴系列を取得するために、前記トレーニングデータに対して音響特徴抽出を実行する動作と、
    前記特徴系列と、前記トレーニングデータ内の数字に対応する音素とに従って、音響モデルを取得するために、単音素音響モデルから始めてプログレッシブトレーニングを実行する動作であって、前記プログレッシブトレーニングとは、単音素に基づいて1次音響モデル化及びトレーニングを行うことで単音素音響モデルを獲得して、前記単音素音響モデルにより獲得された三音素に基づいて2次音響モデル化及びトレーニングを行うことであり、前記三音素が前記単音素音響モデルにより獲得されることは、単音素音響モデルにより前記トレーニングデータを認識して2次トレーニングデータを獲得して、前記2次トレーニングデータ内の音声セグメントに含まれる数字により前記三音素を獲得することを含む動作と、
    言語モデルを獲得し、前記言語モデルと、トレーニングにより取得された前記音響モデルとを使用することにより、音声デコーディングネットワークを構築する動作と
    を含む方法。
  2. 数字の音声記録により取得されたトレーニングデータを獲得する前記動作の前に、前記方法はまた、
    予め設定された条件に従って、トレーニングデータを取得するために、複数の数字を含む音声セグメントを記録する動作であり、前記トレーニングデータ内の前記複数の音声セグメントは、同じ人に対応する動作を含む、請求項1に記載の方法。
  3. 各音声セグメントに対応する特徴系列を取得するために、前記トレーニングデータに対して音響特徴抽出を実行する前記動作は、
    各音声セグメントに含まれる複数の音声フレームを取得するために、予め設定された長さに従って各音声セグメントをセグメント化する動作と、
    前記音声セグメントに含まれる複数の音声フレームのそれぞれからメル周波数ケプストラム係数(MFCC)特徴及びピッチ(PITCH)特徴を抽出し、前記MFCC特徴及びPITCH特徴を介して各音声フレームの特徴ベクトルを取得ために計算し、各音声セグメントに対応する特徴系列を更に構成する動作と
    を含む、請求項1に記載の方法。
  4. モデルトレーニングのための入力として前記特徴系列を使用し、モデル化単位として前記トレーニングデータ内の数字に対応する音素を使用することにより、音響モデルを取得するために、単音素音響モデルから始めてプログレッシブトレーニングを実行する前記動作は、
    前記トレーニングデータの前記音声セグメントから数字に対応する単音素を獲得する動作と、
    前記単音素に対応する単音素音響モデルを取得するために、前記単音素の分割状態に従って前記音声セグメントに対応する前記特徴系列に対して音響モデル化及びトレーニングを実行する動作と、
    2次トレーニングデータを取得するために、前記単音素音響モデルを使用することにより前記トレーニングデータを認識する動作と、
    前記2次トレーニングデータ内の前記音声セグメントに含まれる前記数字に従って、対応する三音素を取得する動作と、
    前記三音素に対応する音響モデルを取得するために、前記三音素の分割状態に従って、前記音声セグメントに対応する前記特徴系列に対して音響モデル化及びトレーニングを実行する動作と
    を含む、請求項1に記載の方法。
  5. 前記単音素に対応する単音素音響モデルを取得するために、前記単音素の分割状態に従って前記音声セグメントに対応する前記特徴系列に対して音響モデル化及びトレーニングを実行する前記動作は、
    前記単音素の前記分割状態を取得するために、隠れマルコフモデル(HMM)を使用することにより前記単音素に対して状態記述を実行する動作と、
    GMM-HMMを取得するために、前記単音素の前記分割状態に基づいて、混合ガウスモデル(GMM)を使用することにより前記特徴系列をモデル化する動作と、
    前記GMM-HMMのパラメータをランダムに初期化し、期待値最大化アルゴリズムを使用することにより、ランダムな初期化により取得された前記パラメータに対して繰り返し最適化を実行する動作と、
    前記最適化されたパラメータが前記GMM-HMMが収束するのを可能にするときに、前記GMM-HMMが前記単音素音響モデルであると決定する動作と
    を含む、請求項4に記載の方法。
  6. 前記三音素に対応する音響モデルを取得するために、前記三音素の分割状態に従って、前記音声セグメントに対応する前記特徴系列に対して音響モデル化及びトレーニングを実行する前記動作は、
    前記三音素の前記分割状態を取得するために、HMMを使用することにより前記三音素に対して状態記述を実行する動作と、
    前記三音素の前記分割状態に基づいてGMM-HMMを取得するために、GMMを使用することにより前記特徴系列をモデル化する動作と、
    前記2次トレーニングデータに従って前記GMM-HMMのパラメータに対してパラメータ推定を実行し、期待値最大化アルゴリズムを使用することにより、パラメータ推定により取得された前記パラメータに対して繰り返し最適化を実行する動作と、
    前記最適化されたパラメータが前記GMM-HMMが収束するのを可能にするときに、前記GMM-HMMが前記音響モデルであると決定する動作と
    を含む、請求項4に記載の方法。
  7. 前記言語モデルは、前記トレーニングデータ内の前記数字のマッチング関係をモデル化することにより取得され、前記マッチング関係は、前記トレーニングデータ内の前記数字と電話番号配置ルールとの間のマッチング関係、又は前記トレーニングデータ内の前記数字とランダムコードの予め規定されたリストとの間のマッチング関係を含む、請求項1に記載の方法。
  8. 数字の音声認識における音声デコーディングネットワークを構築するための装置であって、
    数字の音声記録により取得されたトレーニングデータを獲得するように構成されたトレーニングデータ獲得モジュールであり、前記トレーニングデータは、複数の音声セグメントを含み、各音声セグメントは、複数の数字の音声を含むトレーニングデータ獲得モジュールと、
    各音声セグメントに対応する特徴系列を取得するために、前記トレーニングデータに対して音響特徴抽出を実行するように構成された音響特徴抽出モジュールと、
    前記特徴系列と、前記トレーニングデータ内の数字に対応する音素とに従って、音響モデルを取得するために、単音素音響モデルから始めてプログレッシブトレーニングを実行するように構成された音響モデル獲得モジュールであって、前記プログレッシブトレーニングとは、単音素に基づいて1次音響モデル化及びトレーニングを行うことで単音素音響モデルを獲得して、前記単音素音響モデルにより獲得された三音素に基づいて2次音響モデル化及びトレーニングを行うことであり、前記三音素が前記単音素音響モデルにより獲得されることは、単音素音響モデルにより前記トレーニングデータを認識して2次トレーニングデータを獲得して、前記2次トレーニングデータ内の音声セグメントに含まれる数字により前記三音素を獲得することを含む音響モデル獲得モジュールと、
    言語モデルを獲得し、前記言語モデルと、トレーニングにより取得された前記音響モデルとを使用することにより、音声デコーディングネットワークを構築するように構成された言語モデル獲得モジュールと
    を含む装置。
  9. トレーニングデータを取得するために、予め設定された条件に従って、複数の数字を含む音声セグメントを記録するように構成されたトレーニングデータ記録モジュールであり、前記トレーニングデータ内の前記複数の音声セグメントは、同じ人に対応するトレーニングデータ記録モジュールを更に含む、請求項8に記載の装置。
  10. 前記音響特徴抽出モジュールは、
    各音声セグメントに含まれる複数の音声フレームを取得するために、予め設定された長さに従って各音声セグメントをセグメント化するように構成された音声セグメントセグメント化ユニットと、
    前記音声セグメントに含まれる複数の音声フレームのそれぞれについてMFCC特徴及びPITCH特徴を抽出し、前記MFCC特徴及びPITCH特徴を介して各音声フレームの特徴ベクトルを取得するために計算し、各音声セグメントに対応する特徴系列を更に構成するように構成された特徴系列生成ユニットと
    を含む、請求項8に記載の装置。
  11. 前記音響モデル獲得モジュールは、
    前記トレーニングデータの前記音声セグメントから数字に対応する単音素を獲得するように構成された単音素獲得ユニットと、
    前記単音素に対応する単音素音響モデルを取得するために、前記単音素の分割状態に従って前記音声セグメントに対応する前記特徴系列に対して音響モデル化及びトレーニングを実行するように構成された第1のモデル獲得ユニットと、
    2次トレーニングデータを取得するために、前記単音素音響モデルを使用することにより前記トレーニングデータを認識するように構成された認識ユニットと、
    前記2次トレーニングデータ内の前記音声セグメントに含まれる前記数字に従って、対応する三音素を取得するように構成された三音素獲得ユニットと、
    前記三音素に対応する音響モデルを取得するために、前記三音素の分割状態に従って、前記音声セグメントに対応する前記特徴系列に対して音響モデル化及びトレーニングを実行するように構成された第2のモデル獲得ユニットと
    を含む、請求項8に記載の装置。
  12. 前記第1のモデル獲得ユニットは、
    前記単音素の前記分割状態を取得するために、HMMを使用することにより前記単音素に対して状態記述を実行するように構成された第1の状態記述ユニットと、
    GMM-HMMを取得するために、前記単音素の前記分割状態に基づいて、GMMを使用することにより前記特徴系列をモデル化するように構成された第1のモデル化ユニットと、
    前記GMM-HMMのパラメータをランダムに初期化し、期待値最大化アルゴリズムを使用することにより、ランダムな初期化により取得された前記パラメータに対して繰り返し最適化を実行するように構成された第1のトレーニングユニットと
    を含み、
    前記最適化されたパラメータが前記GMM-HMMが収束するのを可能にするときに、前記GMM-HMMが前記単音素音響モデルであると決定される、請求項11に記載の装置。
  13. 前記第2のモデル獲得ユニットは、
    前記三音素の前記分割状態を取得するために、HMMを使用することにより前記三音素に対して状態記述を実行するように構成された第2の状態記述ユニットと、
    前記三音素の前記分割状態に基づいてGMM-HMMを取得するために、GMMを使用することにより前記特徴系列をモデル化するように構成された第2のモデル化ユニットと、
    前記2次トレーニングデータに従って前記GMM-HMMのパラメータに対してパラメータ推定を実行し、期待値最大化アルゴリズムを使用することにより、パラメータ推定により取得された前記パラメータに対して繰り返し最適化を実行するように構成された第2のトレーニングユニットと
    を含み、
    前記最適化されたパラメータが前記GMM-HMMが収束するのを可能にするときに、前記GMM-HMMが前記音響モデルであると決定される、請求項11に記載の装置。
  14. 前記言語モデルは、前記トレーニングデータ内の前記数字のマッチング関係をモデル化することにより取得され、前記マッチング関係は、前記トレーニングデータ内の前記数字と電話番号配置ルールとの間のマッチング関係、又は前記トレーニングデータ内の前記数字とランダムコードの予め規定されたリストとの間のマッチング関係を含む、請求項8に記載の装置。
  15. 機械読み取り可能命令を記憶する不揮発性コンピュータ読み取り可能記憶媒体であって、
    前記機械読み取り可能命令が以下の動作、すなわち、
    数字の音声記録により取得されたトレーニングデータを獲得する動作であり、前記トレーニングデータは、複数の音声セグメントを含み、各音声セグメントは、複数の数字の音声を含む動作と、
    各音声セグメントに対応する特徴系列を取得するために、前記トレーニングデータに対して音響特徴抽出を実行する動作と、
    前記特徴系列と、前記トレーニングデータ内の数字に対応する音素とに従って、音響モデルを取得するために、単音素音響モデルから始めてプログレッシブトレーニングを実行する動作であって、前記プログレッシブトレーニングとは、単音素に基づいて1次音響モデル化及びトレーニングを行うことで単音素音響モデルを獲得して、前記単音素音響モデルにより獲得された三音素に基づいて2次音響モデル化及びトレーニングを行うことであり、前記三音素が前記単音素音響モデルにより獲得されることは、単音素音響モデルにより前記トレーニングデータを認識して2次トレーニングデータを獲得して、前記2次トレーニングデータ内の音声セグメントに含まれる数字により前記三音素を獲得することを含む動作と、
    言語モデルを獲得し、前記言語モデルと、トレーニングにより取得された前記音響モデルとを使用することにより、音声デコーディングネットワークを構築する動作と
    を実行するようにプロセッサにより実行可能である不揮発性コンピュータ読み取り可能記憶媒体。
JP2018533636A 2016-03-29 2017-02-27 数字音声認識における音声デコーディングネットワークを構築するための方法、装置及び記憶媒体 Active JP6665305B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610188168.9 2016-03-29
CN201610188168.9A CN105869624B (zh) 2016-03-29 2016-03-29 数字语音识别中语音解码网络的构建方法及装置
PCT/CN2017/074926 WO2017166966A1 (zh) 2016-03-29 2017-02-27 数字语音识别中语音解码网络的构建方法、装置及存储介质

Publications (2)

Publication Number Publication Date
JP2019504355A JP2019504355A (ja) 2019-02-14
JP6665305B2 true JP6665305B2 (ja) 2020-03-13

Family

ID=56626403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018533636A Active JP6665305B2 (ja) 2016-03-29 2017-02-27 数字音声認識における音声デコーディングネットワークを構築するための方法、装置及び記憶媒体

Country Status (6)

Country Link
US (1) US10699699B2 (ja)
EP (1) EP3438973B1 (ja)
JP (1) JP6665305B2 (ja)
KR (1) KR102134201B1 (ja)
CN (1) CN105869624B (ja)
WO (1) WO2017166966A1 (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869624B (zh) * 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
CN106570461A (zh) * 2016-10-21 2017-04-19 哈尔滨工业大学深圳研究生院 基于唇动认证的视频帧图片提取方法及系统
CN106504756B (zh) * 2016-12-02 2019-05-24 珠海市杰理科技股份有限公司 嵌入式语音识别系统及方法
CN106653003A (zh) * 2016-12-26 2017-05-10 北京云知声信息技术有限公司 语音识别方法及装置
CN108364635B (zh) * 2017-01-25 2021-02-12 北京搜狗科技发展有限公司 一种语音识别的方法和装置
CN107633842B (zh) * 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN107170444A (zh) * 2017-06-15 2017-09-15 上海航空电器有限公司 航空座舱环境自适应语音特征模型训练方法
CN107680582B (zh) * 2017-07-28 2021-03-26 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
CN108932941B (zh) * 2017-10-13 2020-07-03 北京猎户星空科技有限公司 语音识别方法、装置及计算机设备、存储介质及程序产品
CN107680597B (zh) * 2017-10-23 2019-07-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统
CN110600032A (zh) * 2018-05-23 2019-12-20 北京语智科技有限公司 一种语音识别方法及装置
CN110610695B (zh) * 2018-05-28 2022-05-17 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN110634472B (zh) * 2018-06-21 2024-06-04 中兴通讯股份有限公司 一种语音识别方法、服务器及计算机可读存储介质
CN110942763B (zh) * 2018-09-20 2023-09-12 阿里巴巴集团控股有限公司 语音识别方法及装置
CN109040466B (zh) * 2018-09-20 2021-03-26 李庆湧 基于语音的移动终端解锁方法、装置、电子设备以及存储介质
CN109119072A (zh) * 2018-09-28 2019-01-01 中国民航大学 基于dnn-hmm的民航陆空通话声学模型构建方法
CN109360554A (zh) * 2018-12-10 2019-02-19 广东潮庭集团有限公司 一种基于语深度神经网络的语言识别方法
CN111462732B (zh) * 2019-01-21 2024-04-09 阿里巴巴集团控股有限公司 语音识别方法和装置
CN111583910B (zh) * 2019-01-30 2023-09-26 北京猎户星空科技有限公司 模型更新方法、装置、电子设备及存储介质
CN111583906B (zh) * 2019-02-18 2023-08-15 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端
CN110110580B (zh) * 2019-03-12 2023-04-07 西北大学 一种面向Wi-Fi信号的手语孤立词识别网络构建及分类方法
CN110428819B (zh) * 2019-05-21 2020-11-24 腾讯科技(深圳)有限公司 解码网络生成方法、语音识别方法、装置、设备及介质
CN112152741B (zh) * 2019-06-28 2021-11-19 华为技术有限公司 信道模型的训练方法及装置
CN110322884B (zh) * 2019-07-09 2021-12-07 科大讯飞股份有限公司 一种解码网络的插词方法、装置、设备及存储介质
JP7326983B2 (ja) * 2019-08-13 2023-08-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN110415685A (zh) * 2019-08-20 2019-11-05 河海大学 一种语音识别方法
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别系统、方法、音箱、显示设备和交互平台
CN110751945A (zh) * 2019-10-17 2020-02-04 成都三零凯天通信实业有限公司 一种端到端的语音识别方法
CN110853629A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于深度学习的语音识别数字的方法
CN111179917B (zh) * 2020-01-17 2023-01-03 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN112750425B (zh) * 2020-01-22 2023-11-03 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
KR102605159B1 (ko) * 2020-02-11 2023-11-23 주식회사 케이티 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
CN111785256A (zh) * 2020-06-28 2020-10-16 北京三快在线科技有限公司 声学模型训练方法、装置、电子设备及存储介质
CN112562691A (zh) * 2020-11-27 2021-03-26 平安科技(深圳)有限公司 一种声纹识别的方法、装置、计算机设备及存储介质
CN112815957A (zh) * 2020-12-31 2021-05-18 出门问问(武汉)信息科技有限公司 一种语音识别路径规划方法、系统及平台
CN112394982B (zh) * 2021-01-21 2021-04-13 腾讯科技(深圳)有限公司 生成语音识别系统的方法、装置、介质及电子设备
CN113129868B (zh) * 2021-03-12 2022-02-25 北京百度网讯科技有限公司 获取语音识别模型的方法、语音识别的方法及对应装置
CN113192487B (zh) * 2021-04-30 2024-05-03 平安科技(深圳)有限公司 支持多语言混合的语音识别方法、装置、设备及存储介质
CN113724698B (zh) * 2021-09-01 2024-01-30 马上消费金融股份有限公司 语音识别模型的训练方法、装置、设备及存储介质
CN113838456B (zh) * 2021-09-28 2024-05-31 中国科学技术大学 音素提取方法、语音识别方法、装置、设备及存储介质
CN113870848B (zh) * 2021-12-02 2022-04-26 深圳市友杰智新科技有限公司 语音建模单元的构建方法、装置和计算机设备
WO2024096641A1 (ko) * 2022-11-02 2024-05-10 삼성전자 주식회사 전자 장치 및 전자 장치의 음성 인식 방법

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0827638B2 (ja) 1988-07-20 1996-03-21 日本電気株式会社 音素を単位とした音声認識装置
JPH11143490A (ja) * 1997-11-10 1999-05-28 Sony Corp 音声操作機能付き電子機器、電子機器における音声操作方法、及び音声操作機能付き電子機器を備える自動車
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
US7269563B2 (en) * 2003-05-12 2007-09-11 Motorola, Inc. String matching of locally stored information for voice dialing on a cellular telephone
CN1674092B (zh) * 2004-03-26 2010-06-09 松下电器产业株式会社 连续数字识别的声韵母跨词建模、解码方法及系统
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
CN101030369B (zh) * 2007-03-30 2011-06-29 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
US8315870B2 (en) 2007-08-22 2012-11-20 Nec Corporation Rescoring speech recognition hypothesis using prosodic likelihood
CN101826325B (zh) * 2010-03-10 2012-04-18 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN102339605B (zh) * 2010-07-22 2015-07-15 上海果壳电子有限公司 基于先验清浊知识的基频提取方法及系统
WO2012073275A1 (ja) 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
CN103165129B (zh) * 2011-12-13 2015-07-01 北京百度网讯科技有限公司 一种优化语音识别声学模型的方法及系统
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
WO2014025682A2 (en) * 2012-08-07 2014-02-13 Interactive Intelligence, Inc. Method and system for acoustic data selection for training the parameters of an acoustic model
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN103971686B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
CN104217717B (zh) * 2013-05-29 2016-11-23 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN104143327B (zh) * 2013-07-10 2015-12-09 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN104575497B (zh) * 2013-10-28 2017-10-03 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
US9881609B2 (en) * 2014-04-18 2018-01-30 General Motors Llc Gesture-based cues for an automatic speech recognition system
US10146853B2 (en) * 2015-05-15 2018-12-04 International Business Machines Corporation Determining entity relationship when entities contain other entities
US9916296B2 (en) * 2015-09-24 2018-03-13 International Business Machines Corporation Expanding entity and relationship patterns to a collection of document annotators using run traces
CN105869624B (zh) * 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置

Also Published As

Publication number Publication date
CN105869624B (zh) 2019-05-10
US10699699B2 (en) 2020-06-30
WO2017166966A1 (zh) 2017-10-05
KR20180091903A (ko) 2018-08-16
WO2017166966A9 (zh) 2018-06-14
KR102134201B1 (ko) 2020-07-15
EP3438973A1 (en) 2019-02-06
CN105869624A (zh) 2016-08-17
JP2019504355A (ja) 2019-02-14
US20180277103A1 (en) 2018-09-27
EP3438973A4 (en) 2019-03-27
EP3438973B1 (en) 2020-07-15

Similar Documents

Publication Publication Date Title
JP6665305B2 (ja) 数字音声認識における音声デコーディングネットワークを構築するための方法、装置及び記憶媒体
Arora et al. Automatic speech recognition: a review
Gaikwad et al. A review on speech recognition technique
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US9165555B2 (en) Low latency real-time vocal tract length normalization
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
Gulzar et al. A systematic analysis of automatic speech recognition: an overview
US20110218802A1 (en) Continuous Speech Recognition
Sahu et al. A study on automatic speech recognition toolkits
Singhal et al. Automatic speech recognition for connected words using DTW/HMM for English/Hindi languages
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Ajayi et al. Systematic review on speech recognition tools and techniques needed for speech application development
Tun et al. A speech recognition system for Myanmar digits
Tan et al. Integration of articulatory knowledge and voicing features based on DNN/HMM for Mandarin speech recognition
Gunasekara et al. Real-time translation of discrete sinhala speech to unicode text
Ananthakrishna et al. Effect of time-domain windowing on isolated speech recognition system performance
Khalifa et al. Statistical modeling for speech recognition
Pai et al. Application of HMM-based chinese speech recognition on internet of things for smart home systems [J]
US20240212673A1 (en) Keyword spotting method based on neural network
WO2022226782A1 (en) Keyword spotting method based on neural network
KR100776730B1 (ko) 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그방법
Ramachandrula et al. Implementation of Discrete HMMs for Isolated Spoken Word Recognition
Raj et al. Design and implementation of speech recognition systems
Frikha et al. Hidden Markov models (HMMs) isolated word recognizer with the optimization of acoustical analysis and modeling techniques
Ibrahim et al. A comparative survey of DTW and HMM using Hausa isolated digits recognition in human computer interaction sytem

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200219

R150 Certificate of patent or registration of utility model

Ref document number: 6665305

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250