JP2010054685A - 音声認識装置及び音声認識プログラム - Google Patents
音声認識装置及び音声認識プログラム Download PDFInfo
- Publication number
- JP2010054685A JP2010054685A JP2008218059A JP2008218059A JP2010054685A JP 2010054685 A JP2010054685 A JP 2010054685A JP 2008218059 A JP2008218059 A JP 2008218059A JP 2008218059 A JP2008218059 A JP 2008218059A JP 2010054685 A JP2010054685 A JP 2010054685A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- model
- decoder
- acoustic
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 46
- 238000005094 computer simulation Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 44
- 230000008569 process Effects 0.000 description 22
- 238000004519 manufacturing process Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 9
- 238000012937 correction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Abstract
【解決手段】入力音声を認識して文字に変換する音声認識装置において、言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも1つを随時学習するモデル学習手段と、前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段と、前記入力音声の音響特徴量を抽出する音響分析手段と、前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダと、前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段とを有することにより、上記課題を解決する。
【選択図】図1
Description
本発明は、既に古いモデルを読み込んで起動している音声認識デコーダに加えて、音声認識処理を途切れさせることなく更新された最新モデルを読み込むための別の音声認識デコーダを同時に起動し、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現するものである。
図1は、本実施形態における音声認識装置の機能構成の一例を示す図である。図1に示す音声認識装置10は、音響分析手段11と、デコーダ制御手段12と、音声認識デコーダ13−1,13−2と、文字修正手段14と、モデル学習手段15と、モデル更新通知手段16と、蓄積手段17と、学習データ18とを有するよう構成されている。
ここで、上述したデコーダ制御手段12における音声認識デコーダ13の更新及び制御方法について説明する。
デコーダ制御手段12は、音声認識デコーダ13を同時に起動し、途切れなく最新モデルの音声認識デコーダに切り替わるようになっている。また、デコーダ制御手段12は、例えば入稿された最新の電子原稿によって言語モデルと発音辞書が自動(又は手動)で更新された旨を示す更新情報の通知をモデル更新通知手段16から受け、音声認識デコーダ13−1が音声認識を実行中である場合には、これとは別に新たに音声認識デコーダ13−2を最新モデルで起動する。
デコーダ制御手段12は、予め複数の音声認識デコーダ13の全てを、その時点での最新モデルで起動させ、入力音声から得られる音響特徴量に基づく所定のタイミング(例えば、1文章毎、ニュースの1テーマ毎、1番組毎、所定時間毎等)で複数の音声認識デコーダを任意に切り替えて音声認識処理を行う。
ここで、上述したように音声認識装置10は、専用の装置構成により本発明における音声認識処理を行うこともできるが、後述する各構成における音声認識処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にプログラムをインストールすることにより、本発明における音声認識処理を実現することができる。
次に、本実施形態における音声認識処理手順の一例についてフローチャートを用いて説明する。なお、以下の説明においては、モデル自動更新に対応した音声認識装置全体の処理において、音声認識デコーダを最大D個まで起動できるものとして、学習データの更新に応じたモデルの学習、更新処理、音声認識デコーダの追加起動と認識を行う音声認識デコーダの選択及び切り替え処理がそれぞれ非同期並列動作的に行われているため、それらの処理をそれぞれ分けて説明する。
まず、本実施形態におけるモデルの学習・更新処理手順についてフローチャートを用いて説明する。図3は、本実施形態におけるモデルの学習・更新処理手順の一例を示すフローチャートである。
次に、音声認識デコーダの追加起動と認識対象切り替え処理について、フローチャートを用いて説明する。
なお、上述した処理において、音響分析時に行われる発話の始端検出及び終端検出の処理手順は、例えばエンドレス音素認識による時間遅れの少ないオンライン発話区間検出(例えば、特開2007−233148号公報等)を用いることができる。この概要を以下に説明する。
リアルタイム音声認識のための発話区間検出では、フレーム単位の細かな音声/非音声の判定よりも、多少の非音声区間を音声区間と誤ることはあっても、音声区間の欠落をできる限り抑え、音声を適度な長さの区間に切り出して、認識率の向上に寄与することが重要である。また、字幕表示のため、音声入力から音声始終端検出までの遅れ時間は、できる限り小さいことも求められる。
次に、上述した音声認識処理の具体的な実施例について図を用いて説明する。図5は、本実施形態における音声認識手法を適用した具体的な実施例を示す図である。図5では、音声認識装置10を用いた字幕制作システム30の一例を示している。具体的には、字幕制作システム30は、ダイレクト方式(例えば、アナウンサーによる原稿読み上げ、記者現場リポート等)の番組音声やリスピーク方式(例えば、インタビュー等)の復唱音声等の入力を切り替え、A/D変換等により得られた入力音声を上述した音声認識装置10に入力する。
ここで、モデル自動更新に対応した音声認識装置の効果を調べるため、放送番組中の各ニュース項目に対応する電子原稿を適応学習しなかった場合(放送1時間前のモデル)に対して、学習した場合(放送直前に学習したモデル)の効果を、音声認識による字幕制作実験(認識誤りのリアルタイム手動修正)により調べた結果について説明する。
11 音響分析手段
12 デコーダ制御手段
13 音声認識デコーダ
14 文字修正手段
15 モデル学習手段
16 モデル更新通知手段
17 蓄積手段
18 学習データ
21 入力装置
22 出力装置
23 ドライブ装置
24 補助記憶装置
25 メモリ装置
26 CPU
27 ネットワーク接続装置
28 記録媒体
30 字幕制作システム
Claims (6)
- 入力音声を認識して文字に変換する音声認識装置において、
言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも1つを随時学習するモデル学習手段と、
前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段と、
前記入力音声の音響特徴量を抽出する音響分析手段と、
前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダと、
前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段とを有することを特徴とする音声認識装置。 - 前記デコーダ制御手段は、
古いモデルで起動中の音声認識デコーダに加えて、最新モデルの音声認識デコーダを同時に起動し、音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを前記音響分析手段から得られる所定のタイミングで最新モデルの音声認識デコーダに切り替えることを特徴とする請求項1に記載の音声認識装置。 - 前記デコーダ制御手段は、
前記複数の音声認識デコーダの全てに順次途切れなく最新モデルを読み込ませて再起動させることを特徴とする請求項1又は2に記載の音声認識装置。 - 前記デコーダ制御手段は、前記再起動させた後、それぞれの音声認識デコーダに前記入力音声の認識を所定のタイミングで順次受け持たせることを特徴とする請求項3に記載の音声認識装置。
- 音声認識結果を修正し、修正した履歴情報を前記モデル学習手段に出力して学習データとして利用させるための文字修正手段を有することを特徴とする請求項1乃至4の何れか1項に記載の音声認識装置。
- 入力音声を認識して文字に変換する音声認識処理をコンピュータに実行させるための音声認識プログラムにおいて、
コンピュータを、
言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも1つを随時学習するモデル学習手段、
前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段、
前記入力音声の音響特徴量を抽出する音響分析手段、
前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダ、及び、
前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段として機能させるための音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218059A JP4928514B2 (ja) | 2008-08-27 | 2008-08-27 | 音声認識装置及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218059A JP4928514B2 (ja) | 2008-08-27 | 2008-08-27 | 音声認識装置及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010054685A true JP2010054685A (ja) | 2010-03-11 |
JP4928514B2 JP4928514B2 (ja) | 2012-05-09 |
Family
ID=42070701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008218059A Active JP4928514B2 (ja) | 2008-08-27 | 2008-08-27 | 音声認識装置及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4928514B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011197410A (ja) * | 2010-03-19 | 2011-10-06 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、音声認識システム、及び音声認識プログラム |
JP2015076774A (ja) * | 2013-10-10 | 2015-04-20 | みずほ情報総研株式会社 | コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム |
JP2016080832A (ja) * | 2014-10-16 | 2016-05-16 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
WO2017071226A1 (zh) * | 2015-10-29 | 2017-05-04 | 乐视控股(北京)有限公司 | 一种语言模型的训练方法及装置、设备 |
JP2019008315A (ja) * | 2018-09-18 | 2019-01-17 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
JP2020149601A (ja) * | 2019-03-15 | 2020-09-17 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | データ処理装置、データ処理方法及びデータ処理プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000075892A (ja) * | 1998-09-02 | 2000-03-14 | Nippon Hoso Kyokai <Nhk> | 音声認識のための統計的言語モデル作成方法および装置 |
JP2000284795A (ja) * | 1999-03-08 | 2000-10-13 | Internatl Business Mach Corp <Ibm> | テキストの挿入と置換を区別するための方法およびシステム |
JP2008015209A (ja) * | 2006-07-05 | 2008-01-24 | Kddi Corp | 音声認識装置およびその認識辞書更新方法、プログラムならびに記憶媒体 |
-
2008
- 2008-08-27 JP JP2008218059A patent/JP4928514B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000075892A (ja) * | 1998-09-02 | 2000-03-14 | Nippon Hoso Kyokai <Nhk> | 音声認識のための統計的言語モデル作成方法および装置 |
JP2000284795A (ja) * | 1999-03-08 | 2000-10-13 | Internatl Business Mach Corp <Ibm> | テキストの挿入と置換を区別するための方法およびシステム |
JP2008015209A (ja) * | 2006-07-05 | 2008-01-24 | Kddi Corp | 音声認識装置およびその認識辞書更新方法、プログラムならびに記憶媒体 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011197410A (ja) * | 2010-03-19 | 2011-10-06 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、音声認識システム、及び音声認識プログラム |
JP2015076774A (ja) * | 2013-10-10 | 2015-04-20 | みずほ情報総研株式会社 | コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム |
JP2016080832A (ja) * | 2014-10-16 | 2016-05-16 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
WO2017071226A1 (zh) * | 2015-10-29 | 2017-05-04 | 乐视控股(北京)有限公司 | 一种语言模型的训练方法及装置、设备 |
JP2019008315A (ja) * | 2018-09-18 | 2019-01-17 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
JP2020149601A (ja) * | 2019-03-15 | 2020-09-17 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | データ処理装置、データ処理方法及びデータ処理プログラム |
JP7267044B2 (ja) | 2019-03-15 | 2023-05-01 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | データ処理装置、データ処理方法及びデータ処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4928514B2 (ja) | 2012-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10679606B2 (en) | Systems and methods for providing non-lexical cues in synthesized speech | |
US9368108B2 (en) | Speech recognition method and device | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP4542974B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
KR102191425B1 (ko) | 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법 | |
US20150255069A1 (en) | Predicting pronunciation in speech recognition | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
US20160055763A1 (en) | Electronic apparatus, pronunciation learning support method, and program storage medium | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
KR20050076697A (ko) | 컴퓨터 구현 음성 인식 시스템 및 이 시스템으로 학습하는방법 | |
JP4928514B2 (ja) | 音声認識装置及び音声認識プログラム | |
CN108630200B (zh) | 声音关键字检测装置以及声音关键字检测方法 | |
JP2002258890A (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
US20210193117A1 (en) | Syllable based automatic speech recognition | |
KR20060050361A (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
CN112331229A (zh) | 语音检测方法、装置、介质和计算设备 | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP5271299B2 (ja) | 音声認識装置、音声認識システム、及び音声認識プログラム | |
JP2006189730A (ja) | 音声対話方法および音声対話装置 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
WO2023081504A1 (en) | Method and system for unsupervised discovery of unigrams in speech recognition systems | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
CN113421587B (zh) | 语音评测的方法、装置、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120117 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120210 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150217 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4928514 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |