JP2011197410A - 音声認識装置、音声認識システム、及び音声認識プログラム - Google Patents
音声認識装置、音声認識システム、及び音声認識プログラム Download PDFInfo
- Publication number
- JP2011197410A JP2011197410A JP2010064175A JP2010064175A JP2011197410A JP 2011197410 A JP2011197410 A JP 2011197410A JP 2010064175 A JP2010064175 A JP 2010064175A JP 2010064175 A JP2010064175 A JP 2010064175A JP 2011197410 A JP2011197410 A JP 2011197410A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech recognition
- word string
- lattice
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 claims abstract description 89
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 description 41
- 230000008569 process Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 9
- 238000012790 confirmation Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000005192 partition Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000003287 bathing Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Abstract
【解決手段】入力音声に対する音声認識結果と誤り修正結果とを用いて音声認識を行う音声認識装置において、前記入力音声の音響特徴量を抽出する音響分析手段と、予め設定された音響モデル、言語モデル、及び発音辞書を用いて、候補単語のネットワークからなる単語ラティスを生成する単語ラティス生成手段と、前記単語ラティス生成手段により得られる前記単語ラティスから最尤単語列を選択する最尤単語列選択手段と、前記最尤単語列に対して修正された単語列を用いて前記音響モデルを学習させる音響モデル識別学習手段と、前記音響モデル識別学習手段により学習された音響モデルを用いて、前記修正された単語列に対する単語ラティスを再構成する単語ラティス再構成手段とを有することにより、上記課題を解決する。
【選択図】図1
Description
本発明は、例えば、音声認識結果の確定及び誤り修正情報を、オンラインで音声認識装置にフィードバックし、音響モデルの適応学習を正解単語と不正解単語の対応から識別的に実行する。また、本発明は、音声認識の候補単語のネットワークである単語ラティスを自動的に修正し、単語ラティスを再構成してリスコアリングすることにより、より正解精度の高い認識結果を逐次出力するものである。
図1は、本実施形態における音声認識システムのシステム構成例を示す図である。図1に示す音声認識システム1は、音声認識装置10として、音響分析手段11と、単語ラティス生成手段12と、言語モデル・発音辞書13と、音響モデル14と、最尤単語列選択手段15と、単語ラティス再構成手段16と、音響モデル識別学習手段17とを有すると共に、更に誤り修正装置18を有するよう構成されている。
まず、音声認識システム1における音声認識装置10の具体的な機能構成について説明する。
次に、上述した音声認識システム1における誤り修正装置18の具体的な機能構成例について図を用いて説明する。図2は、誤り修正装置における機能構成の一例を示す図である。図2に示す誤り修正装置18は、認識単語列表示手段21と、誤り修正手段22と、情報出力手段23とを有するよう構成されている。
次に、認識単語列表示手段21における文字列の変更例について、図を用いて説明する。図3は、認識単語列表示手段に表示される文字列の変更例を示す図である。図3に示すように、誤り修正装置18の表示画面30には、音声認識装置10から得られる文字列が表示される。
次に、単語ラティス再構成の具体例について、図を用いて説明する。図4は、初期の単語ラティスの一例を示す図である。また、図5は、単語の置換により再構成された単語ラティスの一例を示す図である。また、図6は、単語の追加により再構成された単語ラティスの一例を示す図である。また、図7は、単語の削除により再構成された単語ラティスの一例を示す図である。
次に、本実施形態における各処理時刻の違いについて、図面を用いて説明する。図8は、本実施形態における各処理時刻の違いを説明するための図である。なお、図8では、発話始端から時刻T1までの音声が、音声認識装置に既に入力されたものとする。
ここで、上述した本実施形態では、音響モデル識別学習手段17において音響モデル14を更新していたが、本発明においてはこれに限定されるものではなく、例えば、上述した学習を言語モデル・発音辞書13に含まれる言語モデルにおいても同様に行うことができ、言語モデルも識別学習させることで、より高精度な音声認識を実現することができる。ここで、上述した内容を他の実施形態として、図を用いて説明する。
ここで、上述した本実発明における音声認識装置は、CPU、RAM(Random Access Memory)等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインタフェイスを備えたコンピュータによって構成することができる。
図10は、音声認識の処理手順の一例を示すフローチャートである。なお、図10は、誤り逐次修正型音声認識装置全体のフローチャートを示している。
10,40 音声認識装置
11 音響分析手段
12 単語ラティス生成手段
13 言語モデル・発音辞書
14 音響モデル
15 最尤単語列選択手段
16 単語ラティス再構成手段
17 音響モデル識別学習手段
18 誤り修正装置
21 認識単語列表示手段
22 誤り修正手段
23 情報出力手段
30 表示画面
31 仕切り
41 言語モデル識別学習手段
Claims (6)
- 入力音声に対する音声認識結果と誤り修正結果とを用いて音声認識を行う音声認識装置において、
前記入力音声の音響特徴量を抽出する音響分析手段と、
予め設定された音響モデル、言語モデル、及び発音辞書を用いて、候補単語のネットワークからなる単語ラティスを生成する単語ラティス生成手段と、
前記単語ラティス生成手段により得られる前記単語ラティスから最尤単語列を選択する最尤単語列選択手段と、
前記最尤単語列に対して修正された単語列を用いて前記音響モデルを学習させる音響モデル識別学習手段と、
前記音響モデル識別学習手段により学習された音響モデルを用いて、前記修正された単語列に対する単語ラティスを再構成する単語ラティス再構成手段とを有することを特徴とする音声認識装置。 - 前記単語ラティス再構成手段は、
前記入力音声に対する初期の単語ラティスに含まれる各候補単語のうち、誤った単語を正しい単語へ置換させ、不足している正しい単語を新たに挿入し、正しい単語に接続し得ない単語を削除することにより、前記単語ラティスを全体的又は部分的に再構成することを特徴とする請求項1に記載の音声認識装置。 - 前記音響モデル識別学習手段は、
同じ入力音声に対する正解単語列を複数回取得した場合、最新の正解単語列の統計情報だけを利用し、前記最新の正解単語列以外の古い正解単語列の統計情報は削除して、前記音響モデルを学習させることを特徴とする請求項1又は2に記載の音声認識装置。 - 前記単語ラティス再構成手段は、
前記修正された単語列が前記正解単語列となるまで繰り返し単語ラティスを再構成することを特徴とする請求項3に記載の音声認識装置。 - 請求項1乃至4の何れか1項に記載の音声認識装置と、該音声認識装置から得られる音声認識結果に対して誤り修正を行う誤り修正装置とを含む音声認識システムにおいて、
前記誤り修正装置は、
前記音声認識装置から順次入力される最新の認識単語列を画面上に表示する単語列表示手段と、
前記単語列表示手段により表示された認識単語列に対する誤り修正を行うための誤り修正手段と、
前記誤り修正手段により得られる正解単語列を、外部装置に出力する、及び/又は、前記音声認識装置にフィードバックする情報出力手段とを有することを特徴とする音声認識システム。 - 入力音声に対する音声認識結果と誤り修正結果とを用いて音声認識を行うための音声認識プログラムにおいて、
コンピュータを、
前記入力音声の音響特徴量を抽出する音響分析手段、
予め設定された音響モデル、言語モデル、及び発音辞書を用いて、候補単語のネットワークからなる単語ラティスを生成する単語ラティス生成手段、
前記単語ラティス生成手段により得られる前記単語ラティスから最尤単語列を選択する最尤単語列選択手段、
前記最尤単語列に対して修正された単語列を用いて前記音響モデルを学習させる音響モデル識別学習手段、及び、
前記音響モデル識別学習手段により学習された音響モデルを用いて、前記修正された単語列に対する単語ラティスを再構成する単語ラティス再構成手段として機能させるための音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064175A JP5271299B2 (ja) | 2010-03-19 | 2010-03-19 | 音声認識装置、音声認識システム、及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064175A JP5271299B2 (ja) | 2010-03-19 | 2010-03-19 | 音声認識装置、音声認識システム、及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011197410A true JP2011197410A (ja) | 2011-10-06 |
JP5271299B2 JP5271299B2 (ja) | 2013-08-21 |
Family
ID=44875696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010064175A Active JP5271299B2 (ja) | 2010-03-19 | 2010-03-19 | 音声認識装置、音声認識システム、及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5271299B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014033855A1 (ja) * | 2012-08-29 | 2014-03-06 | 株式会社日立製作所 | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 |
JP2014149490A (ja) * | 2013-02-04 | 2014-08-21 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り修正装置及びそのプログラム |
JP2017058674A (ja) * | 2015-09-18 | 2017-03-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 |
JP2019528470A (ja) * | 2016-07-29 | 2019-10-10 | グーグル エルエルシー | 訂正済みタームを使用する音響モデルトレーニング |
JPWO2020225999A1 (ja) * | 2019-05-08 | 2020-11-12 | ||
CN112259100A (zh) * | 2020-09-15 | 2021-01-22 | 科大讯飞华南人工智能研究院(广州)有限公司 | 语音识别方法及相关模型的训练方法和相关设备、装置 |
CN113168836A (zh) * | 2018-09-27 | 2021-07-23 | 株式会社OPTiM | 计算机系统、语音识别方法以及程序 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054685A (ja) * | 2008-08-27 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
-
2010
- 2010-03-19 JP JP2010064175A patent/JP5271299B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054685A (ja) * | 2008-08-27 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
Non-Patent Citations (1)
Title |
---|
JPN6013002935; 大附克年他: '"ニュース音声認識のための言語モデルと音響モデルの検討"' 信学技報NLC98-44 , 199812, pp.1-7 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014033855A1 (ja) * | 2012-08-29 | 2014-03-06 | 株式会社日立製作所 | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 |
JP5897718B2 (ja) * | 2012-08-29 | 2016-03-30 | 株式会社日立製作所 | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 |
JP2014149490A (ja) * | 2013-02-04 | 2014-08-21 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り修正装置及びそのプログラム |
JP2017058674A (ja) * | 2015-09-18 | 2017-03-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 |
CN106548774A (zh) * | 2015-09-18 | 2017-03-29 | 三星电子株式会社 | 语音识别的设备和方法以及训练变换参数的设备和方法 |
JP2019528470A (ja) * | 2016-07-29 | 2019-10-10 | グーグル エルエルシー | 訂正済みタームを使用する音響モデルトレーニング |
CN113168836A (zh) * | 2018-09-27 | 2021-07-23 | 株式会社OPTiM | 计算机系统、语音识别方法以及程序 |
CN113168836B (zh) * | 2018-09-27 | 2024-04-23 | 株式会社OPTiM | 计算机系统、语音识别方法以及程序产品 |
WO2020225999A1 (ja) * | 2019-05-08 | 2020-11-12 | 株式会社Nttドコモ | 認識誤り訂正装置及び訂正モデル |
JPWO2020225999A1 (ja) * | 2019-05-08 | 2020-11-12 | ||
JP7222082B2 (ja) | 2019-05-08 | 2023-02-14 | 株式会社Nttドコモ | 認識誤り訂正装置及び訂正モデル |
CN112259100A (zh) * | 2020-09-15 | 2021-01-22 | 科大讯飞华南人工智能研究院(广州)有限公司 | 语音识别方法及相关模型的训练方法和相关设备、装置 |
CN112259100B (zh) * | 2020-09-15 | 2024-04-09 | 科大讯飞华南人工智能研究院(广州)有限公司 | 语音识别方法及相关模型的训练方法和相关设备、装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5271299B2 (ja) | 2013-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019395322B2 (en) | Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping | |
AU2019347734B2 (en) | Conversational agent pipeline trained on synthetic data | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
US8818813B2 (en) | Methods and system for grammar fitness evaluation as speech recognition error predictor | |
JP5271299B2 (ja) | 音声認識装置、音声認識システム、及び音声認識プログラム | |
JP5478478B2 (ja) | テキスト修正装置およびプログラム | |
JP5149107B2 (ja) | 音響処理装置およびプログラム | |
EP1261965A1 (en) | Improved speech recognition by modifying a pronunciation | |
CN112580340A (zh) | 逐字歌词生成方法及装置、存储介质和电子设备 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
Audhkhasi et al. | Reliability-weighted acoustic model adaptation using crowd sourced transcriptions | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP2014134640A (ja) | 文字起こし装置およびプログラム | |
JP2015052748A (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
KR20090006903A (ko) | 음성 인식을 이용한 자동 번역 방법 및 장치 | |
Akesh et al. | Real-Time Subtitle Generator for Sinhala Speech | |
CN113439301B (zh) | 用于机器学习的方法和系统 | |
Badenhorst et al. | Gauging the accuracy of automatic speech data harvesting in five under-resourced languages | |
De Villiers | Lecture transcription systems in resource–scarce environments | |
CN113112996A (zh) | 用于基于语音的音频和文本对齐的系统和方法 | |
Hagmüller | Speech recognition of Austrian German with the Raspberry Pi | |
Chu et al. | Improving Accented Speech Recognition Through Multi-Accent Pre-Exposure | |
JPH07239695A (ja) | ヒドン・マルコフ・モデルの学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5271299 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |