JP4826719B2 - 音声認識システム、音声認識方法、および音声認識プログラム - Google Patents
音声認識システム、音声認識方法、および音声認識プログラム Download PDFInfo
- Publication number
- JP4826719B2 JP4826719B2 JP2005214706A JP2005214706A JP4826719B2 JP 4826719 B2 JP4826719 B2 JP 4826719B2 JP 2005214706 A JP2005214706 A JP 2005214706A JP 2005214706 A JP2005214706 A JP 2005214706A JP 4826719 B2 JP4826719 B2 JP 4826719B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- graph
- reliability
- word graph
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
ここで、wは単語(a、b、c、d、e、f)を表し、iは区間を表す。N(w、i)は、区間iでの単語wの数を表し、C(w、i)は区間iでの単語wの信頼度を表し、Niは区間iの延べ単語数を表す。αは係数で、認識率が最もよくなるように調整する。
JonathanG.Fiscus : "A post-processing system to yield reduced word error rates (「単語誤り率低減のための後処理システム:ローバー」):Recognizer output voting error reduction (ROVER)",IEEE Workshop on AutomaticSpeech Recognition and Understanding,1997
認識結果として、認識された単語の時間情報と単語の接続情報と音響尤度が含まれる単語グラフを出力する複数の音声認識手段(11a、11b)と、
複数の単語グラフに共通するノードを2つ作成し、生成された一方のノードに各単語グラフの始端のノードを接続し、生成された他方のノードに各単語グラフの終端のノードを接続する結合単語グラフを作成することによって複数の単語グラフを1つの単語グラフに統合する単語グラフ統合手段(12)と、
統合された単語グラフを記憶する統合単語グラフ記憶手段(15)と、
統合された単語グラフに含まれる単語毎に信頼度を計算し、信頼度付き統合単語グラフを出力する信頼度計算手段(13)と、
信頼度付き統合単語グラフを記憶する信頼度付き統合単語グラフ記憶手段(16)と、
信頼度付き統合単語グラフからN位候補の単語列を探索するN位候補計算手段(14)と
を有する。
事後確率を計算するためには、単語cの前向き確率αと単語cの後ろ向き確率βを求める必要がある。以後これら、αβの計算の方法を説明する。計算方法の例は、単語の3連鎖する確率をモデル化した場合(トライグラム)について説明する。
ここで、P_{A}(o_{c}|c)は、単語cの音響尤度を表し、o_{c}は単語cの区間の観測時系列を現す。観測時系列o_{c}は、音声認識で標準的に用いられているメルケプストラム係数やパワー、それらの回帰係数などが考えられる。o_{c}は、単語cの区間に対応する観測時系列であるが、全体の観測時系列はOと表す。音響尤度は、cが出現したときにo_{c}が観測される確からしさを表すものである。P_{L}(c|az)は、単語z→a→cの順番で出現する確率を表しており、一般に言語確率と呼ばれる。ここで、単語cの前向き確率であるが、単語aの始端につながる全ての単語の前向き確率と言語確率の積を全て足し合わせたものになっている。単語c以外の単語の前向き確率を求める場合、前向き確率を求めたい単語より前の時刻に出現した単語の前向き確率を求めておくことで計算できる。
記号はαの場合と同様であるが、αに比べ、cとe,z'等の関係が前後逆になっている。
ここで、Oは全ての観測時系列を表し、P_{A}(O)は、全ての観測時系列Oの出現確率を表す。
P_{A}(0)はαを用いて下記のように計算することができる。
ここで、事後確率の計算方法の定義を見てみると、事後確率は単語ごとに求められることがわかる。事後確率は、単語cが同じ区間の単語d,h等と比べて観測時系列o_{c}とどの程度マッチしたかを示す値で、0〜1の値に正規化されている。
A*サーチでは、スタックと呼ばれる単語情報を記憶する手段が用意されている。ここで、単語情報とは、単語グラフ上の単語(a〜h)とその経路情報および経路のスコアをさす。経路情報とは、単語グラフの終端であるI_{5}のノードに接続する単語、例えばeから先頭までたどったときに通過した単語e→c→aのような経路を表す情報である。経路のスコアは、本実施形態の場合、単語の事後確率の和とする。経路スコアは、前向きスコアと後ろ向きスコアの和からなる。前向きスコアとは、始端からある単語にたどり着くまでに足された対数の事後確率の和とし、後ろ向きスコアとは、終端からある単語スコアにたどり着くまでに足された対数の事後確率の和とする。例えば、単語aにおける経路スコアはを計算する場合、前向きスコアは0で、後ろ向きスコアは単語e、cもしくはg、f、cか、g、dの3通りの経路のいずれかの対数の事後確率の和として定義される。
11b 音声認識システム
12 単語グラフ統合部
13 信頼度計算部
14 N位候補計算部
15 結合単語グラフ記憶部
16 信頼度付き統合単語グラフ記憶部
17 信頼度付N位候補記憶部
21a 音声認識システム
21b 音声認識システム
21c 音声認識システム
22 アライメント部
23 スコア計算部
24 単語選択部
25 アライメント結果記憶部
26 スコアつきアライメント結果記憶部
27 認識結果記憶部
101〜107 ステップ
S 音声
C1 音声認識システム21aの第1位候補
C2 音声認識システム21bの第1位候補
C3 音声認識システム21cの第1位候補
A アライメント結果
Ac スコア付きアライメント結果
R 認識結果
Wg1 音声認識システム11aの単語グラフ
Wg2 音声認識システム11bの単語グラフ
Wg 統合単語グラフ
cWg 信頼度付き単語グラフ
Claims (6)
- 認識結果として、認識された単語の時間情報と単語の接続情報と音響尤度が含まれる単語グラフを出力する複数の音声認識手段と、
前記複数の単語グラフに共通するノードを2つ作成し、生成された一方のノードに各単語グラフの始端のノードを接続し、生成された他方のノードに各単語グラフの終端のノードを接続する結合単語グラフを作成することによって前記複数の単語グラフを1つの単語グラフに統合する単語グラフ統合手段と、
統合された単語グラフを記憶する統合単語グラフ記憶手段と、
前記統合された単語グラフに含まれる単語毎に信頼度を計算し、信頼度付き統合単語グラフを出力する信頼度計算手段と、
前記信頼度付き統合単語グラフを記憶する信頼度付き統合単語グラフ記憶手段と、
前記信頼度付き統合単語グラフからN位候補の単語列を探索するN位候補計算手段と
を有する音声認識システム。 - 前記信頼度計算手段は、単語グラフを用いて単語の事後確率を求め、単語の事後確率を信頼度として出力する、請求項1記載の音声認識システム。
- 認識結果として、認識された単語の時間情報と単語の接続情報と音響尤度が含まれる単語グラフを複数の音声認識手段から出力するステップと、
前記複数の単語グラフに共通するノードを2つ作成し、生成された一方のノードに各単語グラフの始端のノードを接続し、生成された他方のノードに各単語グラフの終端のノードを接続する結合単語グラフを作成することによって前記複数の単語グラフを1つの単語グラフに統合するステップと、
統合された単語グラフを記憶するステップと、
前記統合された単語グラフに含まれる単語毎に信頼度を計算し、信頼度付き統合単語グラフを出力するステップと、
前記信頼度付き統合単語グラフを記憶するステップと、
前記信頼度付き統合単語グラフからN位候補の単語列を探索するステップと、
を有する音声認識方法。 - 前記の信頼度を計算するステップにおいて、単語グラフを用いて単語の事後確率を求め、単語の事後確率を信頼度として出力する、請求項3記載の音声認識方法。
- 認識結果として、認識された単語の時間情報と単語の接続情報と音響尤度が含まれる単語グラフを複数の音声認識手段から出力する手順と、
前記複数の単語グラフに共通するノードを2つ作成し、生成された一方のノードに各単語グラフの始端のノードを接続し、生成された他方のノードに各単語グラフの終端のノードを接続する結合単語グラフを作成することによって前記複数の単語グラフを1つの単語グラフに統合する手順と、
統合された単語グラフを記憶手段に記憶する手順と、
前記統合された単語グラフに含まれる単語毎に信頼度を計算し、信頼度付き統合単語グラフを出力する手順と、
前記信頼度付き統合単語グラフを記憶手段に記憶する手順と、
前記信頼度付き統合単語グラフからN位候補の単語列を探索する手順と
をコンピュータに実行させるための音声認識プログラム。 - 信頼度計算手順は、単語グラフを用いて単語の事後確率を求め、単語の事後確率を信頼度として出力する、請求項5記載の音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005214706A JP4826719B2 (ja) | 2005-07-25 | 2005-07-25 | 音声認識システム、音声認識方法、および音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005214706A JP4826719B2 (ja) | 2005-07-25 | 2005-07-25 | 音声認識システム、音声認識方法、および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007033671A JP2007033671A (ja) | 2007-02-08 |
JP4826719B2 true JP4826719B2 (ja) | 2011-11-30 |
Family
ID=37793040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005214706A Expired - Fee Related JP4826719B2 (ja) | 2005-07-25 | 2005-07-25 | 音声認識システム、音声認識方法、および音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4826719B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9424839B2 (en) | 2013-11-29 | 2016-08-23 | Mitsubishi Electric Corporation | Speech recognition system that selects a probable recognition resulting candidate |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4956503B2 (ja) * | 2008-07-30 | 2012-06-20 | 日本放送協会 | グラフ統合装置及びそのプログラム |
JP4890518B2 (ja) * | 2008-08-29 | 2012-03-07 | ヤフー株式会社 | 複数言語モデルによる統合音声認識装置 |
JP6301647B2 (ja) | 2013-12-24 | 2018-03-28 | 株式会社東芝 | 探索装置、探索方法およびプログラム |
US9734821B2 (en) | 2015-06-30 | 2017-08-15 | International Business Machines Corporation | Testing words in a pronunciation lexicon |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3364631B2 (ja) * | 1999-09-17 | 2003-01-08 | 株式会社国際電気通信基礎技術研究所 | 統計的言語モデル生成装置及び音声認識装置 |
JP2001282779A (ja) * | 2000-03-30 | 2001-10-12 | Telecommunication Advancement Organization Of Japan | 電子化テキスト作成システム |
-
2005
- 2005-07-25 JP JP2005214706A patent/JP4826719B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9424839B2 (en) | 2013-11-29 | 2016-08-23 | Mitsubishi Electric Corporation | Speech recognition system that selects a probable recognition resulting candidate |
Also Published As
Publication number | Publication date |
---|---|
JP2007033671A (ja) | 2007-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US9292487B1 (en) | Discriminative language model pruning | |
US11227579B2 (en) | Data augmentation by frame insertion for speech data | |
JP2018081298A (ja) | 自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置 | |
Sainath et al. | No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models | |
US20070219798A1 (en) | Training system for a speech recognition application | |
KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
US20070100618A1 (en) | Apparatus, method, and medium for dialogue speech recognition using topic domain detection | |
EP1575029A2 (en) | Generating large units of graphonemes with mutual information criterion for letter to sound conversion | |
US20140019131A1 (en) | Method of recognizing speech and electronic device thereof | |
US8849668B2 (en) | Speech recognition apparatus and method | |
US20040162730A1 (en) | Method and apparatus for predicting word error rates from text | |
US7401019B2 (en) | Phonetic fragment search in speech data | |
JP2001255889A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
Kadyan et al. | Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system | |
JP4826719B2 (ja) | 音声認識システム、音声認識方法、および音声認識プログラム | |
KR102167157B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
JP2012018201A (ja) | テキスト補正方法及び認識方法 | |
US11694028B2 (en) | Data generation apparatus and data generation method that generate recognition text from speech data | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
JP2008293098A (ja) | 応答スコア情報生成装置、対話処理装置 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JPH11143493A (ja) | 音声言語理解装置及び音声言語理解システム | |
JP2012255867A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110817 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110830 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140922 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4826719 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |