JP6727607B2 - 音声認識装置及びコンピュータプログラム - Google Patents
音声認識装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP6727607B2 JP6727607B2 JP2016115515A JP2016115515A JP6727607B2 JP 6727607 B2 JP6727607 B2 JP 6727607B2 JP 2016115515 A JP2016115515 A JP 2016115515A JP 2016115515 A JP2016115515 A JP 2016115515A JP 6727607 B2 JP6727607 B2 JP 6727607B2
- Authority
- JP
- Japan
- Prior art keywords
- probability
- sequence
- word string
- symbol
- subword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Description
上記実施の形態は、DNN-HMMハイブリッド方式に代えて、End-to-end型NNを用いた直接デコード方式の音声認識装置に関するものである。実験結果によれば、直接デコード方式の音声認識手法の方が、DNN-HMMハイブリッド方式よりも小さな構成で同等以上の性能を示すことがわかった。また、End-to-End型NNを用いた直接デコード方式でも、認識スコアを式(8)に示すような内挿により計算するものと比較して精度が高くなることが確認できた。
本発明の実施の形態に係る音声認識装置280は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図6はこのコンピュータシステム330の外観を示し、図7はコンピュータシステム330の内部構成を示す。
32 発音列
34 状態系列
36 観測系列
70 DNN
72 入力層
74,76 隠れ層
78 出力層
100 RNN
110 音素系列
112 シンボル系列
280 音声認識装置
282 入力音声
284 音声認識テキスト
300 A/D変換回路
302 フレーム化処理部
304 特徴量抽出部
306 特徴量記憶部
308 音響モデル
310 デコーダ
320 TS-βLG-WFST
322 仮説選択部
330 コンピュータシステム
340 コンピュータ
354 ハードディスク
356 CPU
358 ROM
360 RAM
Claims (6)
- 音声信号から得られた所定の音声特徴量からなる観測系列が与えられたときに、当該観測系列があるシンボル系列である確率を算出するための、End-to-End型ニューラルネットワークに基づく音響モデルと、
シンボル系列候補が与えられたときに、当該シンボル系列候補に対する単語列の事後確率を算出する事後確率算出手段と、
入力される観測系列に基づいて選択される複数のシンボル系列について、前記音響モデルにより算出される確率、及び、前記複数のシンボル系列の各々に対して前記事後確率算出手段により算出される事後確率に基づいて前記音声信号をデコードするデコーダとを含む、音声認識装置。 - 前記音響モデルは、CTCに基づく音響モデルである、請求項1に記載の音声認識装置。
- 前記事後確率算出手段は、シンボル系列候補が与えられたときに、単語レベルの言語モデルによる単語列の生起確率と、各単語列に対する前記シンボル系列候補の事後確率と、シンボルレベルの言語モデルによるシンボル系列候補の生起確率とにより、各シンボル系列候補に対する単語列の事後確率を算出するための単語列事後確率算出手段を含む、請求項1又は請求項2に記載の音声認識装置。
- 前記単語列事後確率算出手段は、前記単語列の生起確率と、シンボル系列候補の事後確率とを乗算した値を、シンボル系列の生起確率により除算することにより、各シンボル系列候補に対する単語列の事後確率を算出する、請求項3に記載の音声認識装置。
- 前記デコーダは、サブワード系列sをサブワード事後確率P(s|W)が付与された単語列Wに変換して出力するレキシコンFST、単語列Wを単語列レベルの言語モデルによる生起確率P(W)が付与された単語列Wに変換して出力するグラマーFST、及びサブワード系列sにサブワードレベルの言語モデルによる生起確率P(s)-βを付与して出力するサブワードFSTを要素として合成したWFSTと、
前記WFSTが受理する単語列の仮説のうち、スコアが最も高い仮説をデコード結果として出力する仮説選択手段とを含み、前記βは所定のスケーリングファクタである、請求項1
〜請求項4のいずれかに記載の音声認識装置。 - コンピュータを、請求項1〜請求項5のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016115515A JP6727607B2 (ja) | 2016-06-09 | 2016-06-09 | 音声認識装置及びコンピュータプログラム |
PCT/JP2017/020689 WO2017213055A1 (ja) | 2016-06-09 | 2017-06-02 | 音声認識装置及びコンピュータプログラム |
US16/097,250 US10909976B2 (en) | 2016-06-09 | 2017-06-02 | Speech recognition device and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016115515A JP6727607B2 (ja) | 2016-06-09 | 2016-06-09 | 音声認識装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017219769A JP2017219769A (ja) | 2017-12-14 |
JP6727607B2 true JP6727607B2 (ja) | 2020-07-22 |
Family
ID=60578069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016115515A Active JP6727607B2 (ja) | 2016-06-09 | 2016-06-09 | 音声認識装置及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10909976B2 (ja) |
JP (1) | JP6727607B2 (ja) |
WO (1) | WO2017213055A1 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11024302B2 (en) * | 2017-03-14 | 2021-06-01 | Texas Instruments Incorporated | Quality feedback on user-recorded keywords for automatic speech recognition systems |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US10395647B2 (en) * | 2017-10-26 | 2019-08-27 | Harman International Industries, Incorporated | System and method for natural language processing |
CN110364171B (zh) * | 2018-01-09 | 2023-01-06 | 深圳市腾讯计算机系统有限公司 | 一种语音识别方法、语音识别系统及存储介质 |
JP7070894B2 (ja) * | 2018-03-12 | 2022-05-18 | 国立研究開発法人情報通信研究機構 | 時系列情報の学習システム、方法およびニューラルネットワークモデル |
JP6970345B2 (ja) * | 2018-08-21 | 2021-11-24 | 日本電信電話株式会社 | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム |
KR20200030789A (ko) * | 2018-09-13 | 2020-03-23 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
TWI666558B (zh) * | 2018-11-20 | 2019-07-21 | 財團法人資訊工業策進會 | 語意分析方法、語意分析系統及非暫態電腦可讀取媒體 |
JP7028203B2 (ja) * | 2019-02-07 | 2022-03-02 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、プログラム |
US11501761B2 (en) | 2019-04-05 | 2022-11-15 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
JP7092953B2 (ja) * | 2019-05-03 | 2022-06-28 | グーグル エルエルシー | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 |
CN112133292A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的端到端的自动语音识别方法 |
US11074909B2 (en) | 2019-06-28 | 2021-07-27 | Samsung Electronics Co., Ltd. | Device for recognizing speech input from user and operating method thereof |
KR20210062838A (ko) * | 2019-11-22 | 2021-06-01 | 엘지전자 주식회사 | 인공지능 기반의 음성처리 방법 |
CN110910885B (zh) * | 2019-12-12 | 2022-05-27 | 思必驰科技股份有限公司 | 基于解码网络的语音唤醒方法和装置 |
US11942091B2 (en) | 2020-01-17 | 2024-03-26 | Google Llc | Alphanumeric sequence biasing for automatic speech recognition using a grammar and a speller finite state transducer |
US20230046763A1 (en) | 2020-02-19 | 2023-02-16 | Nec Corporation | Speech recognition apparatus, control method, and non-transitory storage medium |
US11138979B1 (en) | 2020-03-18 | 2021-10-05 | Sas Institute Inc. | Speech audio pre-processing segmentation |
US11145309B1 (en) * | 2020-03-18 | 2021-10-12 | Sas Institute Inc. | Dynamic model selection in speech-to-text processing |
WO2022198474A1 (en) | 2021-03-24 | 2022-09-29 | Sas Institute Inc. | Speech-to-analytics framework with support for large n-gram corpora |
CN112509557B (zh) * | 2020-11-24 | 2023-03-31 | 杭州一知智能科技有限公司 | 一种基于非确定化词图生成的语音识别方法及其系统 |
CN112542162B (zh) * | 2020-12-04 | 2023-07-21 | 中信银行股份有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
US11257503B1 (en) * | 2021-03-10 | 2022-02-22 | Vikram Ramesh Lakkavalli | Speaker recognition using domain independent embedding |
KR20240024345A (ko) * | 2021-03-26 | 2024-02-23 | 구글 엘엘씨 | 자동 음성 인식을 위한 다언어 리스코어링 모델들 |
CN113362812B (zh) * | 2021-06-30 | 2024-02-13 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
US20230111052A1 (en) * | 2021-10-13 | 2023-04-13 | International Business Machines Corporation | Self-learning annotations to generate rules to be utilized by rule-based system |
CN115862600B (zh) * | 2023-01-10 | 2023-09-12 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置及车辆 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6397179B2 (en) * | 1997-12-24 | 2002-05-28 | Nortel Networks Limited | Search optimization system and method for continuous speech recognition |
US20070255755A1 (en) * | 2006-05-01 | 2007-11-01 | Yahoo! Inc. | Video search engine using joint categorization of video clips and queries based on multiple modalities |
JP2009080309A (ja) | 2007-09-26 | 2009-04-16 | Toshiba Corp | 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体 |
US8972253B2 (en) | 2010-09-15 | 2015-03-03 | Microsoft Technology Licensing, Llc | Deep belief network for large vocabulary continuous speech recognition |
CN104484322A (zh) * | 2010-09-24 | 2015-04-01 | 新加坡国立大学 | 用于自动化文本校正的方法和系统 |
US8442821B1 (en) * | 2012-07-27 | 2013-05-14 | Google Inc. | Multi-frame prediction for hybrid neural network/hidden Markov models |
US9431008B2 (en) * | 2013-05-29 | 2016-08-30 | Nuance Communications, Inc. | Multiple parallel dialogs in smart phone applications |
US10438581B2 (en) * | 2013-07-31 | 2019-10-08 | Google Llc | Speech recognition using neural networks |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
US9697475B1 (en) * | 2013-12-12 | 2017-07-04 | Google Inc. | Additive context model for entity resolution |
US9412365B2 (en) * | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9378731B2 (en) * | 2014-09-25 | 2016-06-28 | Google Inc. | Acoustic model training corpus selection |
US9824684B2 (en) * | 2014-11-13 | 2017-11-21 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
JP6614639B2 (ja) | 2015-05-22 | 2019-12-04 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
KR102371188B1 (ko) | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
US10733979B2 (en) * | 2015-10-09 | 2020-08-04 | Google Llc | Latency constraints for acoustic modeling |
-
2016
- 2016-06-09 JP JP2016115515A patent/JP6727607B2/ja active Active
-
2017
- 2017-06-02 WO PCT/JP2017/020689 patent/WO2017213055A1/ja active Application Filing
- 2017-06-02 US US16/097,250 patent/US10909976B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20190139540A1 (en) | 2019-05-09 |
WO2017213055A1 (ja) | 2017-12-14 |
US10909976B2 (en) | 2021-02-02 |
JP2017219769A (ja) | 2017-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6727607B2 (ja) | 音声認識装置及びコンピュータプログラム | |
CN107615376B (zh) | 声音识别装置及计算机程序记录介质 | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
US20210312914A1 (en) | Speech recognition using dialog history | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP7222153B1 (ja) | デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識 | |
CN112435654A (zh) | 通过帧插入对语音数据进行数据增强 | |
JP5249967B2 (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
KR20180038707A (ko) | 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법 | |
Tokuda et al. | Temporal modeling in neural network based statistical parametric speech synthesis. | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP4861912B2 (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
JP2023511390A (ja) | アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル | |
JP2002342323A (ja) | 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体 | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
Robeiko et al. | Real-time spontaneous Ukrainian speech recognition system based on word acoustic composite models | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP7469015B2 (ja) | 学習装置、音声合成装置及びプログラム | |
Zhang et al. | Application of pronunciation knowledge on phoneme recognition by lstm neural network | |
JP2018013590A (ja) | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200625 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6727607 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |