JP2013114202A - 音声認識方法とその装置とプログラム - Google Patents
音声認識方法とその装置とプログラム Download PDFInfo
- Publication number
- JP2013114202A JP2013114202A JP2011262492A JP2011262492A JP2013114202A JP 2013114202 A JP2013114202 A JP 2013114202A JP 2011262492 A JP2011262492 A JP 2011262492A JP 2011262492 A JP2011262492 A JP 2011262492A JP 2013114202 A JP2013114202 A JP 2013114202A
- Authority
- JP
- Japan
- Prior art keywords
- score
- speech
- variation coefficient
- score range
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】スコアレンジ計算部は、音声特徴量系列を入力として当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分をフレーム毎の音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力する。そして、認識処理制御部は、外部から入力されるスコアレンジ基準R0と音響スコアレンジRを入力として、音響スコアレンジRをスコアレンジ基準R0で除した値に基づくスコアビーム変動係数kを計算して出力する。音声認識処理部は、音声特徴量系列とスコアビーム変動係数kを入力として、スコアビーム変動係数kの値に応じて探索ビーム幅を可変して音声認識処理を行う。
【選択図】図7
Description
この発明の音声認識方法は、簡単な処理で高速に音声ディジタル信号の音声品質を推定し、事前推定した音声品質に対応させて探索ビーム幅を設定して認識処理を行う全く新しい考えに基づくものである。音声ディジタル信号の音声品質を推定する方法を詳しく説明する。
図8に、スコアレンジ計算部10の機能構成例を示す。スコアレンジ計算部10は、音響スコアレンジ計算手段101と、音響スコアレンジ平均化手段102を備える。音響スコアレンジ計算手段101は、音声特徴量系列の各フレームの特徴量otに対するモノフォンHMM中のGMMから得られる出力確率(尤度)を計算し、モノフォンHMMのうち出力確率bS(ot)から得られたスコアlog(bs(ot))が最も高い(最尤)状態のスコアをモノフォン最尤スコアlog(bSbest(ot))とし、最も低い状態のスコアをモノフォン最低スコアlog(bSworst(ot))として、例えばフレーム毎の音響スコアレンジr(ot)を計算する(式(22))。
認識処理制御部20は、外部から入力されるスコアレンジ基準R0と、スコアレンジ計算部10が出力する音響スコアレンジRを入力として、音声認識処理部30が認識処理をする際のスコアビーム幅を可変するスコアビーム変動係数kを計算して出力する(式(24))。
音声認識処理部30は、音声特徴量系列otとスコアビーム変動係数kと、音響モデルパラメータメモリ93に記憶された音響モデルと、言語モデルパラメータメモリ94に記憶された言語モデルと、を入力として、上記スコアビーム変動係数kの値に応じてスコアビーム幅を可変して音声認識処理を行う。音声認識処理部30は、スコアビーム変動係数kの値に応じてスコアビーム幅を可変して認識処理を行う点が従来の音声認識処理部と異なる。
この発明の音声認識装置の性能を確認する目的で、240個の音声ファイルを用いた音声認識実験を行った。図12に文字認識率とSN比との関係、図13に実時間比とSN比との関係を示す。横軸はSN比であり、縦軸は各SN比の音声ファイル240個を処理したそれぞれの値である。
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Claims (8)
- 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力するスコアレンジ計算過程と、
外部から入力されるスコアレンジ基準R0と上記音響スコアレンジRを入力として、上記音響スコアレンジRを上記スコアレンジ基準R0で除した値に基づくスコアビーム変動係数kを計算して出力する認識処理制御過程と、
上記音声特徴量系列と上記スコアビーム変動係数kを入力として、上記スコアビーム変動係数kの値に応じて探索ビーム幅を可変して音声認識処理を行う音声認識処理過程と、
を備える音声認識方法。 - 音声認識対象の音声ディジタル信号を保持した後に当該音声ディジタル信号を経過時間順に出力すると共に、上記音声ディジタル信号の全体のデータ量情報を出力する音声データバッファ過程と、
上記音声バッファ部が出力する音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力するスコアレンジ計算過程と、
外部から入力されるスコアレンジ基準R0と上記音響スコアレンジRを入力として、上記音響スコアレンジRを上記スコアレンジ基準R0で除した値に基づくスコアビーム変動係数kを計算して出力する認識処理制御過程と、
スコアビーム幅情報BSprevと処理済音声データ量情報Dmeasureと、上記音声ディジタル信号の全体のデータ量情報とを入力として、処理済時間を上記処理済音声データ量情報で除した実測実時間比RTFmeasureと、目標処理時間から処理済時間を減算した時間を残りの音声データ量情報で除した目標実時間比RTFtargetとを計算し、上記実測実時間比RTFmeasureと上記目標実時間比RTFtargetとの比に依存する実測スコアビーム変動係数k′を計算して出力する実測認識処理制御過程と、
上記音声特徴量系列と上記スコアビーム変動係数kと上記実測スコアビーム変動係数k′を入力として、上記スコアビーム変動係数kと上記実測スコアビーム変動係数k′の値に応じた上記スコアビーム幅情報BSprevを求めそのスコアビーム幅で音声認識処理を行い上記処理済音声データ量情報Dmeasureを集計し、音声認識結果と上記スコアビーム幅情報BSprevと上記処理済音声データ量情報を出力する音声認識処理過程と、
を備える音声認識方法。 - 請求項1又は2に記載した音声認識方法において、
上記認識処理制御過程は、上記スコアビーム変動係数kを次式で、
求める過程であることを特徴とする音声認識方法。 - 請求項2に記載した音声認識方法において、
実測認識処理制御過程は、上記実測スコアビーム変動係数k′をスコアビーム幅の基準をBSbaseとして次式で、
求める過程であることを特徴とする音声認識方法。 - 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力するスコアレンジ計算部と、
外部から入力されるスコアレンジ基準R0と上記音響スコアレンジRを入力として、上記音響スコアレンジRを上記スコアレンジ基準R0で除した値に基づくスコアビーム変動係数kを計算して出力する認識処理制御部と、
上記音声特徴量系列と上記スコアビーム変動係数kを入力として、上記スコアビーム変動係数kの値に応じて探索ビーム幅を可変して音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。 - 音声認識対象の音声ディジタル信号を保持した後に当該音声ディジタル信号を経過時間順に出力すると共に、上記音声ディジタル信号の全体のデータ量情報を出力する音声データバッファ部と、
上記音声バッファ部が出力する音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力するスコアレンジ計算部と、
外部から入力されるスコアレンジ基準R0と上記音響スコアレンジRを入力として、上記音響スコアレンジRを上記スコアレンジ基準R0で除した値に基づくスコアビーム変動係数kを計算して出力する認識処理制御部と、
スコアビーム幅情報BSprevと処理済音声データ量情報と、上記音声ディジタル信号の全体のデータ量情報とを入力として、処理済時間を上記処理済音声データ量情報で除した実測実時間比RTFmeasureと、目標処理時間から処理済時間を減算した時間を残りの音声データ量情報で除した目標実時間比RTFtargetとを計算し、上記実測実時間比RTFmeasureと上記目標実時間比RTFtargetとの比に依存する実測スコアビーム変動係数k′を計算して出力する実測認識処理制御部と、
上記音声特徴量系列と上記スコアビーム変動係数kと上記実測スコアビーム変動係数k′を入力として、上記スコアビーム変動係数kと上記実測スコアビーム変動係数k′の値に応じた上記スコアビーム幅情報BSprevを求めそのスコアビーム幅で音声認識処理を行い上記処理済音声データ量情報Dmeasureを集計し、音声認識結果と上記スコアビーム幅情報BSprevと上記処理済音声データ量情報を出力する音声認識処理部と、
を具備する音声認識装置。 - 請求項5又は6に記載した音声認識装置において、
上記認識処理制御部は、上記スコアビーム変動係数kを次式で、
求めることを特徴とする音声認識装置。 - 請求項1乃至4の何れかに記載した音声認識方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011262492A JP5538350B2 (ja) | 2011-11-30 | 2011-11-30 | 音声認識方法とその装置とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011262492A JP5538350B2 (ja) | 2011-11-30 | 2011-11-30 | 音声認識方法とその装置とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013114202A true JP2013114202A (ja) | 2013-06-10 |
JP5538350B2 JP5538350B2 (ja) | 2014-07-02 |
Family
ID=48709756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011262492A Active JP5538350B2 (ja) | 2011-11-30 | 2011-11-30 | 音声認識方法とその装置とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5538350B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2020246033A1 (ja) * | 2019-06-07 | 2020-12-10 | ||
CN114627863A (zh) * | 2019-09-24 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音识别方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06282295A (ja) * | 1993-03-29 | 1994-10-07 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 適応的探索方式 |
JPH10254496A (ja) * | 1997-03-11 | 1998-09-25 | Mitsubishi Electric Corp | 音声認識方式 |
WO1999053477A1 (fr) * | 1998-04-15 | 1999-10-21 | Hitachi, Ltd. | Systeme de reconnaissance vocale a micro-ordinateur parallele |
JP2003050595A (ja) * | 2001-08-07 | 2003-02-21 | Casio Comput Co Ltd | 音声認識装置及び方法、並びにプログラム |
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
-
2011
- 2011-11-30 JP JP2011262492A patent/JP5538350B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06282295A (ja) * | 1993-03-29 | 1994-10-07 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 適応的探索方式 |
JPH10254496A (ja) * | 1997-03-11 | 1998-09-25 | Mitsubishi Electric Corp | 音声認識方式 |
WO1999053477A1 (fr) * | 1998-04-15 | 1999-10-21 | Hitachi, Ltd. | Systeme de reconnaissance vocale a micro-ordinateur parallele |
JP2003050595A (ja) * | 2001-08-07 | 2003-02-21 | Casio Comput Co Ltd | 音声認識装置及び方法、並びにプログラム |
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
Non-Patent Citations (2)
Title |
---|
CSNG199800744002; 中川 聖一、甲斐 充彦: '文脈自由文法制御によるOnePass型HMM連続音声認識法' 電子情報通信学会論文誌 第J76-D-II巻第7号, 19930725, pp.1337-1345, 社団法人電子情報通信学会 * |
JPN6014010408; 中川 聖一、甲斐 充彦: '文脈自由文法制御によるOnePass型HMM連続音声認識法' 電子情報通信学会論文誌 第J76-D-II巻第7号, 19930725, pp.1337-1345, 社団法人電子情報通信学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2020246033A1 (ja) * | 2019-06-07 | 2020-12-10 | ||
WO2020246033A1 (ja) * | 2019-06-07 | 2020-12-10 | 日本電信電話株式会社 | 学習装置、音声認識装置、それらの方法、およびプログラム |
JP7173327B2 (ja) | 2019-06-07 | 2022-11-16 | 日本電信電話株式会社 | 学習装置、音声認識装置、それらの方法、およびプログラム |
CN114627863A (zh) * | 2019-09-24 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音识别方法和装置 |
CN114627863B (zh) * | 2019-09-24 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5538350B2 (ja) | 2014-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
JP5229234B2 (ja) | 非音声区間検出方法及び非音声区間検出装置 | |
Vandecatseye et al. | A fast, accurate and stream-based speaker segmentation and clustering algorithm. | |
JP6996570B2 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP5538350B2 (ja) | 音声認識方法とその装置とプログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP6716513B2 (ja) | 音声区間検出装置、その方法、及びプログラム | |
JP5852550B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP4981850B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP5089651B2 (ja) | 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体 | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
KR101892736B1 (ko) | 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법 | |
JP5496945B2 (ja) | 話者分類装置、話者分類方法、プログラム | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP2010282239A (ja) | 音声認識装置、音声認識方法、およびそのプログラム | |
US20190043530A1 (en) | Non-transitory computer-readable storage medium, voice section determination method, and voice section determination apparatus | |
JP4690973B2 (ja) | 信号区間推定装置、方法、プログラム及びその記録媒体 | |
JP5235849B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP2010250161A (ja) | 相違度利用型識別的学習装置とその方法、そのプログラム | |
JP2014092751A (ja) | 音響モデル生成装置とその方法とプログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP4801108B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140422 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5538350 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140428 |