JP6778811B2 - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置 Download PDF

Info

Publication number
JP6778811B2
JP6778811B2 JP2019501963A JP2019501963A JP6778811B2 JP 6778811 B2 JP6778811 B2 JP 6778811B2 JP 2019501963 A JP2019501963 A JP 2019501963A JP 2019501963 A JP2019501963 A JP 2019501963A JP 6778811 B2 JP6778811 B2 JP 6778811B2
Authority
JP
Japan
Prior art keywords
acoustic model
acoustic
output value
parameters
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019501963A
Other languages
English (en)
Other versions
JP2019525233A (ja
Inventor
科 丁
科 丁
兵 ▲蒋▼
兵 ▲蒋▼
先▲剛▼ 李
先▲剛▼ 李
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2019525233A publication Critical patent/JP2019525233A/ja
Application granted granted Critical
Publication of JP6778811B2 publication Critical patent/JP6778811B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Description

[関連書類の相互参照]
本出願は、バイドォウオンラインネットテクノロジー(ベイジン)カンパニーリミテッドによって2016年7月22日付けに提出された、発明の名称が「音声認識方法及び装置」で、中国特許出願番号が「201610586698.9」である特許出願の優先権を主張するものである。
本出願は、音声処理技術に関し、特に音声認識方法及び装置に関する。
スマートフォンやタブレットなどのモバイル機器の普及に伴い、人間とコンピュータとのインタラクションの自然な手段としての音声は、人々の日常生活及び仕事においてますます重要な役割を果たしている。音声認識は、音声をテキストとして認識する。
音声認識は、ネットワーク音声認識と埋め込み音声認識とに分けることができる。ネットワーク音声認識とは、ユーザがネットワークを介してサーバに音声信号をアップロードし、サーバによって音声認識を行って、認識結果をユーザに返すことである。埋め込み音声認識とは、ユーザがスマート端末内に埋め込まれた音声認識装置を介して音声認識を行うことである。
音声認識の重要な部分は音響モデルであり、現在、生成された音響モデルは比較的大きい。したがって、サーバが使用する音響モデルをスマート端末に直接適用することはできず、埋め込み音声認識に適用する解決策が必要である。
本出願は、従来の技術における少なくとも1つの技術的課題をある程度で解決することを目的とする。
そのため、本出願の1つの目的は、埋め込み音声認識に適用することができる音声認識方法を提供することである。
本出願のもう1つの目的は、音声認識装置を提供することである。
上記目的を達成するために、本出願の第1側面の実施例は、特徴抽出モジュールが、入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、取得モジュールが、パラメータが2値化パラメータである音響モデルを取得するステップと、認識モジュールが、前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、を含む音声認識方法を提供する。
本出願の第1側面の実施例によって提供された音声認識方法は、パラメータが2値化パラメータである音響モデルを採用することにより、音響モデルのサイズを大幅に小さくし、必要な記憶スペースを減らすことができるため、埋め込み音声認識に適用することができる。
上記目的を達成するために、本出願の第2側面の実施例は、入力された音声の音響特徴を抽出して、音響特徴を取得する特徴抽出モジュールと、パラメータが2値化パラメータである音響モデルを取得する取得モジュールと、前記音響特徴及び前記音響モデルに基づいて音声認識を行う認識モジュールと、を含む音声認識装置を提供する。
本出願の第2側面の実施例によって提供された音声認識装置は、パラメータが2値化パラメータである音響モデルを採用することにより、音響モデルのサイズを大幅に小さくし、必要な記憶スペースを減らすことができるため、埋め込み音声認識に適用することができる。
本出願の実施例は本出願の第1側面の実施例のいずれかに記載の方法を実行するように構成されるプロセッサと、プロセッサによって実行可能な命令を記憶するためのメモリとを含む機器をさらに提供する。
本出願の実施例は非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記記憶媒体における命令がプロセッサによって実行される場合、プロセッサが、第1側面の実施例のいずれかに記載の方法を実行可能である。
本出願の実施例はプログラムをさらに提供し、前記コンピュータに、第1側面の実施例のいずれかに記載の方法を実行可能である。
本出願の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになり、又は本出願の実践により理解される。
本出願の上記及び/又は付加的な方面と利点は、下記の図面を参照して実施例を説明することにより、明らかになり、理解しやすくなる。
本出願の一実施例によって提供される音声認識方法の概略フローチャートである。 本出願の他の実施例によって提供される音声認識方法の概略フローチャートである。 本出願の実施例における2値化活性化関数の概略図である。 本出願の実施例における2値化ネットワークの概略図である。 本出願の一実施例によって提供される音声認識装置の概略構成図である。 本出願の一実施例によって提供される音声認識装置の概略構成図である。
以下に、本出願の実施例を詳細に説明する。前記実施例の例が図面に示されるが、同一又は類似する符号は、常に同一又は類似する部品、又は、同一又は類似する機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示するものであり、本出願を解釈するためだけのものであって、本出願を限定するものでると理解してはいけない。むしろ、本出願の実施例は、添付の特許請求の範囲の趣旨及び範囲に入っている全ての変更、修正及び同等物を含む。
本出願は、埋め込み音声認識を説明する。しかしながら、本実施例の方法は、埋め込み音声認識に限定されず、ネットワーク音声認識にも適用可能である。すなわち、サーバは、以下の方式も採用することができる。
サーバと比較して、スマート端末の記憶空間、計算能力及びリソースは比較的貧弱であるため、サーバによって採用される音響モデルは、そのまま埋め込み音声認識に適用することができない。
埋め込み音声認識に適用するためには、音響モデルのサイズを小さくする必要がある。
現在、一般的には、ディープニューラルネットワーク(Deep Neural Networks,DNN)と隠れマルコフモデル(hidden Markov model,HMM)とのハイブリッドモデリングを採用して音響モデルを生成する。
音響モデルのサイズを効果的に小さくするために、本出願は、音響モデルのパラメータを変更すること、及び浮動小数点の表現から2値化の表現に変更すること、という主なアイデアに基づくものである。さらに、音響特性がDNNを通過した場合、出力も2値化に変換される。
なお、以上により、主なアイデアを説明したが、具体的な技術案は上記の主なアイデアに限定されず、他の特徴と組み合わせてもよく、これらの様々な特徴の組み合わせは、依然として本出願の保護範囲に属する。
なお、上記の内容には主に解決しようとする技術的課題が記載されているが、本出願は上記の技術的課題を解決することに限定されず、本出願の技術案を適用して解決できる他の技術的課題も本出願の保護範囲に属する。
なお、本出願の各実施例は、すべての技術的問題を完全完璧に解決することに限定されず、少なくとも1つの技術的問題を少なくともある程度で解決することである。
なお、上記の内容には本出願の主なアイデアが記載されているが、以下の実施例ではいくつかの特別な点について説明する。しかし、本出願のイノベーションポイントは、上記の主なアイデア及び特別な点に関する内容に限定されず、本出願における特に説明されていない内容も本出願のイノベーションポイントを含むことを排除するものではない。
なお、上述にはいくつかの説明が行われているが、他の可能な技術案が排除されないので、本出願の下記の実施例と同じ、類似、等価である技術案も依然として本出願の保護範囲に属する。
以下、具体的な実施例を組み合わせて本出願の技術案を説明する。
本出願に係るスマート端末は、スマートフォン、タブレットコンピュータ、スマートウェアラブルデバイス、車載端末、インテリジェントロボット、スマート家電などの音声認識技術を適用可能な様々な端末を含むことができる。
図1は本出願の一実施例によって提供される音声認識方法の概略フローチャートである。
図1に示すように、本実施例の方法は、ステップS11と、ステップS12と、ステップS13とを含む。
ステップS11において、入力された音声の音響特徴を抽出して、音響特徴を取得する。
ここで、既存の又は将来に現れる音響特徴抽出プロセスを採用して音響特徴を抽出してもよい。音響特性は、例えば、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient,MFCC)などを含む。
ステップS12において、パラメータが2値化パラメータである音響モデルを取得する。
ここで、音響モデルは訓練段階で生成することができ、認識段階では、訓練して生成された音響モデルを直接取得する。
一般的に、音響モデルのパラメータが浮動小数点数であるので、各パラメータは通常16又は32ビット(bit)を占める。
本実施例において、音響モデルのパラメータは2値化パラメータであり、2値化パラメータとは、各パラメータが決定された2つの値のいずれかであることを意味する。たとえば、決定された2つの値が+1及び−1で表される場合、各パラメータは+1又は−1である。
音響モデルのパラメータが2値化パラメータであるため、各パラメータは1ビット(bit)で表すことができる。各パラメータが16ビット又は32ビットを占める場合と比較して、音響モデルのサイズを大幅に小さくすることができ、必要な記憶スペースを減らすことができる。
ステップS13において、前記音響特徴及び前記音響モデルに基づいて音声認識を行う。
ここで、音響モデルは、音声と音響状態確率との関係を示すことができるため、音響特徴が取得された後、音響モデルに基づいて音響状態確率を取得することができる。なお、音声認識を行う時に、他のプロセスを含んでもよく、例えば、音響状態概念が取得された後、言語モデルや発音辞書などに基づいてテキストに変換して最終的な音声認識を完成させてもよい。本出願は、主に音響モデルに関連する内容を説明し、音声認識の残りのプロセスは、従来の技術又は将来の技術によって実現することができる。
本実施例では、パラメータが2値化パラメータである音響モデルを採用することにより、音響モデルのサイズを大幅に小さくし、必要な記憶スペースを減らすことができ、これにより埋め込み音声認識に適用することができる。
以下、解決する課題が比較的に包括的な技術案を挙げるが、本出願はこの実施例に限定されるものではなく、異なる技術的課題を解決するための技術的特徴を単独に技術案に構成したり、異なる技術的特徴を他の方式の任意の数で任意に組み合わせて、新しい技術案を取得することもできる。
図2は本出願の他の実施例によって提供される音声認識方法の概略フローチャートである。
図2を参照すると、本実施例の方法は、以下のステップS21と、ステップS22と、ステップS23とを含む。
ステップS21において、訓練によってパラメータが2値化パラメータである音響モデルを生成し、訓練プロセスは、誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である。
訓練段階において、大量の音声サンプルを収集することができ、各音声サンプルの音響特徴を抽出した後、これらの音響特徴に基づいて訓練して音響モデルを生成する。
音響モデルを訓練するとき、多くの方法を採用できるが、本実施例では、DNN+HMMハイブリッドモデリング法の訓練により、音響モデルを生成することができる。
一般的なDNNとHMMのハイブリッドモデリングと異なり、本実施例において、音響モデルのパラメータは2値化パラメータを採用する。
上記の誤差を計算する時、誤差逆伝播法を採用することができる。誤差逆伝播法は、概略的に、誤差の出力(何らかの形式)→隠れ層(層ごとに)→入力層を含む。主な目的は、出力された誤差を逆伝播することにより、誤差を各層のすべてのユニットに割り当てて、各層ユニットの誤差信号を取得し、各ユニットの重みを修正する(そのプロセスは、重みを調整するプロセスである)。
また、精度を確保するために、誤差を計算する時に、採用される音響モデルのパラメータは2値化パラメータであるが、誤差の精度は浮動小数点数の精度である。例えば、誤差を計算する時に、音響モデルのパラメータ以外の値はいずれも浮動小数点数を採用する。
上記のステップS21は訓練段階で完成することができ、取得された音響モデルは、その後の音声認識に使用することができる。
音声認識段階では、以下のステップを実行することができる。
ステップS22において、入力された音声の音響特徴を抽出して、音響特徴を取得する。
当該ステップは上記の実施例の関連する内容を参照することができ、ここでは詳しく説明しない。
ステップS23において、音響特徴をDNNの入力層とし、且つDNNの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得する。ここで、次の隠れ層が存在する出力値を2値化して、次の隠れ層の入力値とする。
ここで、全体が2値化数値の演算になるために、音響モデルのパラメータとして2値化数値を採用できるだけでなく、他のパラメータも2値化数値を採用することができる。
上記のプロセスにおいて、入力層に接続された第1の隠れ層の入力も2値化数値であるように、音響特徴を2値化してもよい。
さらに、音響モデルの安定性を確保するために、出力値を2値化する前に、まず線形変換を行ってもよい。線形変換の式は、式(1)に示すものであってもよい。
Y=a*X+b (1)
ただし、Xは出力値の最初値であり、Yは線形変換後の出力値であり、a及びbは2つの一定のパラメータであり、予め設定することができる。
さらに、データを2値化する時に、2値化活性化関数を採用して処理することができる。例えば、2値化活性化関数は図3に示すものある。図3に示す活性化関数に基づいて、1つのデータの最初値が0より大きい場合、2値化された値は+1であり、データの最初値が0より大きい場合、2値化された値は−1である。
上記では2値化された値が+1又は−1であることを例としたが、なお、例えば1又は0のような他の数を用いることもできる。
従って、上記の2値化パラメータ、線形変換及び2値化活性化関数を経て、音声認識する時に、図4に示す2値化ネットワークを含むことができる。
さらに、数値間の演算を行う場合、2値化数値間の演算であるため、通常の行列操作の代わりにビット操作を採用することができる。
具体的には、ビット演算(XOR)で乗算演算を置き換え、各2値化数値の数で加算演算を置き換えることができる。
例えば、aとbは演算する2つの数値を示し、aとbはいずれも2値化数値である場合、表1に示すように、XORでaとb(a*b)の乗算を置き換えることができる。ビット演算では、1つの値を0にコードし、もう1つの値を1にコードし、例えば、+1を0にコードし、−1を1にコードすることができる。また、累積演算は、設定された(set)ビットの数と設定されていない(unset)ビットの数を計算することによって、完成することができる。ここで、設定されたビットと設定されていないビットはそれぞれ2値化数値のうちの1つを示し、例えば、1つは+1であり、もう1つは−1である。
Figure 0006778811
上記のプロセスにおいて、特別なハードウェアによって実現することができるし、CPUやGPUなどの一般的なハードウェアによって実現することもできる。
本実施例において、音響モデルのパラメータとして2値化パラメータを選択することにより、音響モデルのサイズを小さくし、必要な記憶スペースを減らすことができる。訓練段階で浮動小数点精度を誤差として選択することにより、音響モデルの性能を保証し、音声認識の性能を保証することができる。演算プロセスの全体において、2値化された数値を採用し、且つ演算中にビット操作で行列演算を置き換えることにより、演算量を減らし、演算能力やリソースに対する需要を減らすことができ、DSPやFPGAなどのハードウェアの演算能力を十分に活用することができる。本実施例は、演算の複雑さが減るため、CPUやGPUのような従来のハードウェアに応用することもできる。
図5は本出願の実施例によって提供される音声認識装置の概略構成図である。
本実施例の装置は、埋め込み音声認識装置に配置されてもよいし、サーバ内で使用されてもよい。
図5に示すように、本実施例の装置50は、特徴抽出モジュール51、取得モジュール52及び認識モジュール53を含む。
特徴抽出モジュール51は、入力された音声の音響特徴を抽出して、音響特徴を取得する。
取得モジュール52は、パラメータが2値化パラメータである音響モデルを取得する。
認識モジュール53は、前記音響特徴及び前記音響モデルに基づいて音声認識を行う。
いくつかの実施例において、図6を参照すると、本実施例の装置50は、訓練によって前記音響モデルを生成する訓練モジュール54を更に含み、ここで、訓練プロセスは、誤差逆伝播法を利用して誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である。
いくつかの実施例において、前記認識モジュール53は、具体的には、
前記音響モデルがDNNを含む場合、前記音響特徴を前記DNNの入力層とし、且つ前記DNNの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得し、次の隠れ層が存在する出力値を2値化して、次の隠れ層の入力値とする。
いくつかの実施例において、前記認識モジュール53は、さらに、
出力値を線形変換して、変換された出力値を2値化する。
いくつかの実施例において、前記認識モジュール53は、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得することは、
音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得することを含む。
なお、本実施例の装置は、上記方法の実施例に対応するものである。具体的な内容は、方法の実施例に関連する説明を参照し、ここでは詳しく説明しない。
本実施例において、パラメータが2値化パラメータである音響モデルを採用することにより、音響モデルのサイズを大幅に小さくし、必要な記憶スペースを減らすことができるため、埋め込み音声認識に適用することができる。
なお、上記実施例において同一又は類似の部分は、相互に参照することができ、一部の実施例において詳細に記載されていない内容は、他の実施例において同一又は類似の内容を参照することができる。
本出願の実施例は機器をさらに提供し、当該機器は、プロセッサと、プロセッサによって実行可能な命令を記憶するためのメモリとを含み、ここで、前記プロセッサが、入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、パラメータが2値化パラメータである音響モデルを取得するステップと、前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、を実行するように構成される。
本出願の実施例は非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記記憶媒体における命令がプロセッサによって実行される場合、プロセッサが、入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、パラメータが2値化パラメータである音響モデルを取得するステップと、前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、を実行するように構成される。
本出願の実施例はコンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品における命令がプロセッサによって実行される場合、プロセッサが、入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、パラメータが2値化パラメータである音響モデルを取得するステップと、前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、を実行するように構成される。
なお、本出願の説明において、「第1」、「第2」の用語は単に説明するためのものであり、比較的な重要性を指示又は暗示すると理解してはいけない。また、本出願の説明において、別途の説明がない限り、「複数」とは、少なくとも2つを意味する。
フローチャートにおける、又はここで他の形態で記載された任意のプロセス又は方法は、特定ロジック機能又はプロセスのステップを実現するための1つ又は複数の実行可能な命令コードを含むモジュール、セグメント又は一部を表すと理解されてもよい。また、本発明の好ましい実施形態の範囲は、ここで、示された又は論議された順番ではなく、係る機能に応じてほぼ同時の形態又は逆の順番で機能を実行することができる他の実現を含むことができる。これは、当業者であれば理解すべきのものである。
理解すべきことは、本出願の各部分は、ハードウェア、ソフトウェア、ファームウエア又はそれらの組み合わせで実現できる。上記の実施形態において、複数のステップ又は方法がメモリに記憶され、且つ適当なコマンド実行システムのソフトウェア又はファームウエアで実現できる。例えば、ハードウェアで実現する場合、他の実施形態と同じように、本領域周知の下記の任意1つ又はそれらの組み合わせで実現できる。すなわち、デジタル信号のロジック機能を実現するロジックゲート回路を有する離散ロジック回路、ロジックゲート回路を組み合わせた適当な専用IC、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などである。
実施例の方法における全部又は一部のステップがプログラムにより関連のハードウェアを実行することで完成されることは、本技術領域の普通の技術者に理解される。前記プログラムは1つのコンピューター読取り可能な媒体に記憶されることができる。当該プログラムを実行するとき、実施例方法のステップの1つ又はそれらの組み合わせを含む。
この他、本出願の各実施例における各機能ユニットは、1つの処理モジュールに集積され、又は、各ユニットの単独的な物理存在であり、あるいは、2つ又は2つ以上のユニットが1つのモジュールに集積されることができる。上記の集積されたモジュールは、ハードウェアの形式、又は、ソフトウェア機能モジュールの形式で実現できる。前記集積されたモジュールが、ソフトウェア機能モジュールの形式で実現され、且つ独立の製品として販売又は使用される場合、コンピューター読取り可能媒体に記憶されることができる。
上記の記憶メディアは、読み出し専用メモリ、ディスク、又はCDなどであって可能である。
本発明の説明において、「一実施例」、「一部の実施例」、「例示的な実施例」、「具体的な実施例」、又は「一部の実施例」などの用語を参照した説明とは、該実施例又は実施例に結合して説明された具体的な特徴、構成、材料又は特徴が、本発明の少なくとも一実施例又は実施例に含まれることを意味する。本明細書において、上記用語に対する例示的な記述は、必ずしも同一の実施例又は実施例を示すことではない。又、説明された具体的な特徴、構成、材料又は特徴は、いずれか1つ又は複数の実施例又は実施例において適切に組み合わせることができる。
本出願の実施例を示して説明したが、当業者にとって理解できるのは、上記の実施例は例示性のものであり、本出願に対する限定と理あ解されてはいけない。本出願の範囲で上記の実施例の変化、補正、切り替え及び変形を行うことができる。

Claims (13)

  1. 特徴抽出モジュールが、入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、
    取得モジュールが、パラメータが2値化パラメータである音響モデルを取得するステップと、
    認識モジュールが、前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、
    を含む、
    ことを特徴とする音声認識方法。
  2. 前記方法は、
    訓練モジュールが、訓練によって前記音響モデルを生成するステップを更に含み、ここで、訓練プロセスは、誤差逆伝播法を利用して誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である、
    ことを特徴とする請求項1に記載の方法。
  3. 前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップは、
    前記認識モジュールが、前記音響モデルがDNNを含む場合、前記音響特徴を前記DNNの入力層とし、且つ前記DNNの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得するステップと、
    次の隠れ層が存在する出力値を2値化して、次の隠れ層の入力値とするステップと、を含む、
    ことを特徴とする請求項1又は2に記載の方法。
  4. 前記方法は、
    前記認識モジュールが、出力値を線形変換して、変換された出力値を2値化するステップをさらに含む、
    ことを特徴とする請求項3に記載の方法。
  5. 音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得するステップは、
    前記認識モジュールが、音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得するステップを含む、
    ことを特徴とする請求項3又は4に記載の方法。
  6. 入力された音声の音響特徴を抽出して、音響特徴を取得する特徴抽出モジュールと、
    パラメータが2値化パラメータである音響モデルを取得する取得モジュールと、
    前記音響特徴及び前記音響モデルに基づいて音声認識を行う認識モジュールと、
    を含む、
    ことを特徴とする音声認識装置。
  7. 前記装置は、訓練によって前記音響モデルを生成する訓練モジュールをさらに含み、ここで、訓練プロセスは、誤差逆伝播法を利用して誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である、
    ことを特徴とする請求項6に記載の装置。
  8. 前記認識モジュールは、具体的には、
    前記音響モデルがDNNを含む場合、前記音響特徴を前記DNNの入力層とし、且つ前記DNNの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得し、次の隠れ層が存在する出力値を2値化して、次の隠れ層の入力値とする、
    ことを特徴とする請求項6又は7に記載の装置。
  9. 前記認識モジュールは、さらに、
    出力値を線形変換して、変換された出力値を2値化する、
    ことを特徴とする請求項8に記載の装置。
  10. 前記認識モジュールが、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得することは、
    音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得することを含む、
    ことを特徴とする請求項8又は9に記載の装置。
  11. プロセッサと、
    プロセッサによって実行可能な命令を記憶するためのメモリとを含む機器であって、
    前記プロセッサは、請求項1〜5のいずれかに記載の方法を実行するように構成される、
    ことを特徴とする機器。
  12. 非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記記憶媒体における命令がプロセッサによって実行される場合、プロセッサが、請求項1〜5のいずれかに記載の方法を実行可能である、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータに、請求項1〜5のいずれかに記載の方法を実行させるためのプログラ
JP2019501963A 2016-07-22 2017-01-25 音声認識方法及び装置 Active JP6778811B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610586698.9A CN106228976B (zh) 2016-07-22 2016-07-22 语音识别方法和装置
CN201610586698.9 2016-07-22
PCT/CN2017/072641 WO2018014537A1 (zh) 2016-07-22 2017-01-25 语音识别方法和装置

Publications (2)

Publication Number Publication Date
JP2019525233A JP2019525233A (ja) 2019-09-05
JP6778811B2 true JP6778811B2 (ja) 2020-11-04

Family

ID=57532426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019501963A Active JP6778811B2 (ja) 2016-07-22 2017-01-25 音声認識方法及び装置

Country Status (4)

Country Link
US (1) US10997966B2 (ja)
JP (1) JP6778811B2 (ja)
CN (1) CN106228976B (ja)
WO (1) WO2018014537A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN108510976B (zh) * 2017-02-24 2021-03-19 芋头科技(杭州)有限公司 一种多语言混合语音识别方法
CN109409308A (zh) * 2018-11-05 2019-03-01 中国科学院声学研究所 一种基于鸟类鸣声的鸟类物种识别的方法
CN116884398B (zh) * 2023-09-06 2024-01-12 深圳市友杰智新科技有限公司 语音识别方法、装置、设备和介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2531227B2 (ja) * 1988-02-09 1996-09-04 日本電気株式会社 音声認識装置
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
WO2005055199A1 (en) * 2003-12-04 2005-06-16 King's College London Speech processing apparatus and method
CN101346758B (zh) * 2006-06-23 2011-07-27 松下电器产业株式会社 感情识别装置
WO2009118044A1 (en) * 2008-03-26 2009-10-01 Nokia Corporation An audio signal classifier
CN102013253B (zh) * 2009-09-07 2012-06-06 株式会社东芝 基于语音单元语速的差异的语音识别方法及语音识别系统
US8972253B2 (en) * 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
CN102201236B (zh) * 2011-04-06 2012-12-19 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
JP5732994B2 (ja) * 2011-04-19 2015-06-10 ソニー株式会社 楽曲検索装置および方法、プログラム、並びに記録媒体
CN102499815B (zh) * 2011-10-28 2013-07-24 东北大学 一种辅助聋人感知环境声音的方法
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
CN102982809B (zh) * 2012-12-11 2014-12-10 中国科学技术大学 一种说话人声音转换方法
US9099083B2 (en) * 2013-03-13 2015-08-04 Microsoft Technology Licensing, Llc Kernel deep convex networks and end-to-end learning
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US9373324B2 (en) * 2013-12-06 2016-06-21 International Business Machines Corporation Applying speaker adaption techniques to correlated features
US9400955B2 (en) * 2013-12-13 2016-07-26 Amazon Technologies, Inc. Reducing dynamic range of low-rank decomposition matrices
CN104123934A (zh) * 2014-07-23 2014-10-29 泰亿格电子(上海)有限公司 一种构音识别方法及其系统
US10229356B1 (en) * 2014-12-23 2019-03-12 Amazon Technologies, Inc. Error tolerant neural network model compression
CN105161092B (zh) * 2015-09-17 2017-03-01 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
US11107461B2 (en) * 2016-06-01 2021-08-31 Massachusetts Institute Of Technology Low-power automatic speech recognition device
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
US20180350351A1 (en) * 2017-05-31 2018-12-06 Intel Corporation Feature extraction using neural network accelerator
JP6984068B2 (ja) * 2018-07-13 2021-12-17 グーグル エルエルシーGoogle LLC エンドツーエンドストリーミングキーワードスポッティング
US10380997B1 (en) * 2018-07-27 2019-08-13 Deepgram, Inc. Deep learning internal state index-based search and classification

Also Published As

Publication number Publication date
WO2018014537A1 (zh) 2018-01-25
US20190287514A1 (en) 2019-09-19
US10997966B2 (en) 2021-05-04
CN106228976A (zh) 2016-12-14
CN106228976B (zh) 2019-05-31
JP2019525233A (ja) 2019-09-05

Similar Documents

Publication Publication Date Title
JP6778811B2 (ja) 音声認識方法及び装置
JP6837298B2 (ja) 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置
CN109686361B (zh) 一种语音合成的方法、装置、计算设备及计算机存储介质
JP2021086154A (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN103077714B (zh) 信息的识别方法和装置
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
US9805712B2 (en) Method and device for recognizing voice
CN105845139B (zh) 一种离线语音控制方法和装置
CN111433847A (zh) 语音转换的方法及训练方法、智能装置和存储介质
CN111341299B (zh) 一种语音处理方法及装置
CN103514882A (zh) 一种语音识别方法及系统
JP7414907B2 (ja) 事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体
JP2019020598A (ja) ニューラルネットワークの学習方法
JP2022133408A (ja) 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム
CN114333852A (zh) 一种多说话人语音人声分离方法、终端设备及存储介质
WO2023245389A1 (zh) 歌曲生成方法、装置、电子设备和存储介质
CN114023342B (zh) 一种语音转换方法、装置、存储介质及电子设备
CN113689868B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
JP7264951B2 (ja) オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN104751856A (zh) 一种语音语句识别方法及装置
JP2022031854A (ja) 返信内容の生成方法、装置、機器及び記憶媒体
CN104679733A (zh) 一种语音对话翻译方法、装置及系统
JP7208951B2 (ja) 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
CN113408305B (zh) 模型的训练方法、装置、设备和存储介质
JP7335460B2 (ja) テキストエコー消去

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201012

R150 Certificate of patent or registration of utility model

Ref document number: 6778811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250