JP6778811B2 - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置 Download PDFInfo
- Publication number
- JP6778811B2 JP6778811B2 JP2019501963A JP2019501963A JP6778811B2 JP 6778811 B2 JP6778811 B2 JP 6778811B2 JP 2019501963 A JP2019501963 A JP 2019501963A JP 2019501963 A JP2019501963 A JP 2019501963A JP 6778811 B2 JP6778811 B2 JP 6778811B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- acoustic
- output value
- parameters
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Description
本出願は、バイドォウオンラインネットテクノロジー(ベイジン)カンパニーリミテッドによって2016年7月22日付けに提出された、発明の名称が「音声認識方法及び装置」で、中国特許出願番号が「201610586698.9」である特許出願の優先権を主張するものである。
音声認識の重要な部分は音響モデルであり、現在、生成された音響モデルは比較的大きい。したがって、サーバが使用する音響モデルをスマート端末に直接適用することはできず、埋め込み音声認識に適用する解決策が必要である。
ここで、既存の又は将来に現れる音響特徴抽出プロセスを採用して音響特徴を抽出してもよい。音響特性は、例えば、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient,MFCC)などを含む。
ここで、音響モデルは訓練段階で生成することができ、認識段階では、訓練して生成された音響モデルを直接取得する。
ここで、音響モデルは、音声と音響状態確率との関係を示すことができるため、音響特徴が取得された後、音響モデルに基づいて音響状態確率を取得することができる。なお、音声認識を行う時に、他のプロセスを含んでもよく、例えば、音響状態概念が取得された後、言語モデルや発音辞書などに基づいてテキストに変換して最終的な音声認識を完成させてもよい。本出願は、主に音響モデルに関連する内容を説明し、音声認識の残りのプロセスは、従来の技術又は将来の技術によって実現することができる。
当該ステップは上記の実施例の関連する内容を参照することができ、ここでは詳しく説明しない。
ここで、全体が2値化数値の演算になるために、音響モデルのパラメータとして2値化数値を採用できるだけでなく、他のパラメータも2値化数値を採用することができる。
Y=a*X+b (1)
ただし、Xは出力値の最初値であり、Yは線形変換後の出力値であり、a及びbは2つの一定のパラメータであり、予め設定することができる。
従って、上記の2値化パラメータ、線形変換及び2値化活性化関数を経て、音声認識する時に、図4に示す2値化ネットワークを含むことができる。
例えば、aとbは演算する2つの数値を示し、aとbはいずれも2値化数値である場合、表1に示すように、XORでaとb(a*b)の乗算を置き換えることができる。ビット演算では、1つの値を0にコードし、もう1つの値を1にコードし、例えば、+1を0にコードし、−1を1にコードすることができる。また、累積演算は、設定された(set)ビットの数と設定されていない(unset)ビットの数を計算することによって、完成することができる。ここで、設定されたビットと設定されていないビットはそれぞれ2値化数値のうちの1つを示し、例えば、1つは+1であり、もう1つは−1である。
取得モジュール52は、パラメータが2値化パラメータである音響モデルを取得する。
認識モジュール53は、前記音響特徴及び前記音響モデルに基づいて音声認識を行う。
前記音響モデルがDNNを含む場合、前記音響特徴を前記DNNの入力層とし、且つ前記DNNの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得し、次の隠れ層が存在する出力値を2値化して、次の隠れ層の入力値とする。
出力値を線形変換して、変換された出力値を2値化する。
音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得することを含む。
Claims (13)
- 特徴抽出モジュールが、入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、
取得モジュールが、パラメータが2値化パラメータである音響モデルを取得するステップと、
認識モジュールが、前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、
を含む、
ことを特徴とする音声認識方法。 - 前記方法は、
訓練モジュールが、訓練によって前記音響モデルを生成するステップを更に含み、ここで、訓練プロセスは、誤差逆伝播法を利用して誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である、
ことを特徴とする請求項1に記載の方法。 - 前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップは、
前記認識モジュールが、前記音響モデルがDNNを含む場合、前記音響特徴を前記DNNの入力層とし、且つ前記DNNの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得するステップと、
次の隠れ層が存在する出力値を2値化して、次の隠れ層の入力値とするステップと、を含む、
ことを特徴とする請求項1又は2に記載の方法。 - 前記方法は、
前記認識モジュールが、出力値を線形変換して、変換された出力値を2値化するステップをさらに含む、
ことを特徴とする請求項3に記載の方法。 - 音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得するステップは、
前記認識モジュールが、音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得するステップを含む、
ことを特徴とする請求項3又は4に記載の方法。 - 入力された音声の音響特徴を抽出して、音響特徴を取得する特徴抽出モジュールと、
パラメータが2値化パラメータである音響モデルを取得する取得モジュールと、
前記音響特徴及び前記音響モデルに基づいて音声認識を行う認識モジュールと、
を含む、
ことを特徴とする音声認識装置。 - 前記装置は、訓練によって前記音響モデルを生成する訓練モジュールをさらに含み、ここで、訓練プロセスは、誤差逆伝播法を利用して誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である、
ことを特徴とする請求項6に記載の装置。 - 前記認識モジュールは、具体的には、
前記音響モデルがDNNを含む場合、前記音響特徴を前記DNNの入力層とし、且つ前記DNNの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得し、次の隠れ層が存在する出力値を2値化して、次の隠れ層の入力値とする、
ことを特徴とする請求項6又は7に記載の装置。 - 前記認識モジュールは、さらに、
出力値を線形変換して、変換された出力値を2値化する、
ことを特徴とする請求項8に記載の装置。 - 前記認識モジュールが、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得することは、
音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得することを含む、
ことを特徴とする請求項8又は9に記載の装置。 - プロセッサと、
プロセッサによって実行可能な命令を記憶するためのメモリとを含む機器であって、
前記プロセッサは、請求項1〜5のいずれかに記載の方法を実行するように構成される、
ことを特徴とする機器。 - 非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記記憶媒体における命令がプロセッサによって実行される場合、プロセッサが、請求項1〜5のいずれかに記載の方法を実行可能である、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータに、請求項1〜5のいずれかに記載の方法を実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610586698.9A CN106228976B (zh) | 2016-07-22 | 2016-07-22 | 语音识别方法和装置 |
CN201610586698.9 | 2016-07-22 | ||
PCT/CN2017/072641 WO2018014537A1 (zh) | 2016-07-22 | 2017-01-25 | 语音识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019525233A JP2019525233A (ja) | 2019-09-05 |
JP6778811B2 true JP6778811B2 (ja) | 2020-11-04 |
Family
ID=57532426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019501963A Active JP6778811B2 (ja) | 2016-07-22 | 2017-01-25 | 音声認識方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10997966B2 (ja) |
JP (1) | JP6778811B2 (ja) |
CN (1) | CN106228976B (ja) |
WO (1) | WO2018014537A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228976B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN108510976B (zh) * | 2017-02-24 | 2021-03-19 | 芋头科技(杭州)有限公司 | 一种多语言混合语音识别方法 |
CN109409308A (zh) * | 2018-11-05 | 2019-03-01 | 中国科学院声学研究所 | 一种基于鸟类鸣声的鸟类物种识别的方法 |
CN116884398B (zh) * | 2023-09-06 | 2024-01-12 | 深圳市友杰智新科技有限公司 | 语音识别方法、装置、设备和介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2531227B2 (ja) * | 1988-02-09 | 1996-09-04 | 日本電気株式会社 | 音声認識装置 |
CN1013525B (zh) * | 1988-11-16 | 1991-08-14 | 中国科学院声学研究所 | 认人与不认人实时语音识别的方法和装置 |
US5839103A (en) * | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
WO2005055199A1 (en) * | 2003-12-04 | 2005-06-16 | King's College London | Speech processing apparatus and method |
CN101346758B (zh) * | 2006-06-23 | 2011-07-27 | 松下电器产业株式会社 | 感情识别装置 |
WO2009118044A1 (en) * | 2008-03-26 | 2009-10-01 | Nokia Corporation | An audio signal classifier |
CN102013253B (zh) * | 2009-09-07 | 2012-06-06 | 株式会社东芝 | 基于语音单元语速的差异的语音识别方法及语音识别系统 |
US8972253B2 (en) * | 2010-09-15 | 2015-03-03 | Microsoft Technology Licensing, Llc | Deep belief network for large vocabulary continuous speech recognition |
CN102201236B (zh) * | 2011-04-06 | 2012-12-19 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
JP5732994B2 (ja) * | 2011-04-19 | 2015-06-10 | ソニー株式会社 | 楽曲検索装置および方法、プログラム、並びに記録媒体 |
CN102499815B (zh) * | 2011-10-28 | 2013-07-24 | 东北大学 | 一种辅助聋人感知环境声音的方法 |
US9672811B2 (en) * | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
CN102982809B (zh) * | 2012-12-11 | 2014-12-10 | 中国科学技术大学 | 一种说话人声音转换方法 |
US9099083B2 (en) * | 2013-03-13 | 2015-08-04 | Microsoft Technology Licensing, Llc | Kernel deep convex networks and end-to-end learning |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
US9373324B2 (en) * | 2013-12-06 | 2016-06-21 | International Business Machines Corporation | Applying speaker adaption techniques to correlated features |
US9400955B2 (en) * | 2013-12-13 | 2016-07-26 | Amazon Technologies, Inc. | Reducing dynamic range of low-rank decomposition matrices |
CN104123934A (zh) * | 2014-07-23 | 2014-10-29 | 泰亿格电子(上海)有限公司 | 一种构音识别方法及其系统 |
US10229356B1 (en) * | 2014-12-23 | 2019-03-12 | Amazon Technologies, Inc. | Error tolerant neural network model compression |
CN105161092B (zh) * | 2015-09-17 | 2017-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
US11107461B2 (en) * | 2016-06-01 | 2021-08-31 | Massachusetts Institute Of Technology | Low-power automatic speech recognition device |
CN106228976B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US10170110B2 (en) * | 2016-11-17 | 2019-01-01 | Robert Bosch Gmbh | System and method for ranking of hybrid speech recognition results with neural networks |
US20180350351A1 (en) * | 2017-05-31 | 2018-12-06 | Intel Corporation | Feature extraction using neural network accelerator |
JP6984068B2 (ja) * | 2018-07-13 | 2021-12-17 | グーグル エルエルシーGoogle LLC | エンドツーエンドストリーミングキーワードスポッティング |
US10380997B1 (en) * | 2018-07-27 | 2019-08-13 | Deepgram, Inc. | Deep learning internal state index-based search and classification |
-
2016
- 2016-07-22 CN CN201610586698.9A patent/CN106228976B/zh active Active
-
2017
- 2017-01-25 WO PCT/CN2017/072641 patent/WO2018014537A1/zh active Application Filing
- 2017-01-25 JP JP2019501963A patent/JP6778811B2/ja active Active
- 2017-01-25 US US16/319,335 patent/US10997966B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2018014537A1 (zh) | 2018-01-25 |
US20190287514A1 (en) | 2019-09-19 |
US10997966B2 (en) | 2021-05-04 |
CN106228976A (zh) | 2016-12-14 |
CN106228976B (zh) | 2019-05-31 |
JP2019525233A (ja) | 2019-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6778811B2 (ja) | 音声認識方法及び装置 | |
JP6837298B2 (ja) | 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置 | |
CN109686361B (zh) | 一种语音合成的方法、装置、计算设备及计算机存储介质 | |
JP2021086154A (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN103077714B (zh) | 信息的识别方法和装置 | |
CN110288980A (zh) | 语音识别方法、模型的训练方法、装置、设备及存储介质 | |
US9805712B2 (en) | Method and device for recognizing voice | |
CN105845139B (zh) | 一种离线语音控制方法和装置 | |
CN111433847A (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
CN111341299B (zh) | 一种语音处理方法及装置 | |
CN103514882A (zh) | 一种语音识别方法及系统 | |
JP7414907B2 (ja) | 事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体 | |
JP2019020598A (ja) | ニューラルネットワークの学習方法 | |
JP2022133408A (ja) | 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム | |
CN114333852A (zh) | 一种多说话人语音人声分离方法、终端设备及存储介质 | |
WO2023245389A1 (zh) | 歌曲生成方法、装置、电子设备和存储介质 | |
CN114023342B (zh) | 一种语音转换方法、装置、存储介质及电子设备 | |
CN113689868B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
JP7264951B2 (ja) | オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN104751856A (zh) | 一种语音语句识别方法及装置 | |
JP2022031854A (ja) | 返信内容の生成方法、装置、機器及び記憶媒体 | |
CN104679733A (zh) | 一种语音对话翻译方法、装置及系统 | |
JP7208951B2 (ja) | 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 | |
CN113408305B (zh) | 模型的训练方法、装置、设备和存储介质 | |
JP7335460B2 (ja) | テキストエコー消去 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6778811 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |