JP4922377B2 - 音声認識装置とその方法と、プログラム - Google Patents
音声認識装置とその方法と、プログラム Download PDFInfo
- Publication number
- JP4922377B2 JP4922377B2 JP2009229338A JP2009229338A JP4922377B2 JP 4922377 B2 JP4922377 B2 JP 4922377B2 JP 2009229338 A JP2009229338 A JP 2009229338A JP 2009229338 A JP2009229338 A JP 2009229338A JP 4922377 B2 JP4922377 B2 JP 4922377B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- phoneme
- recognition
- reliability
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
図3に、音素認識部30の機能構成例を示す。音素認識部30は、モノフォン音響モデル抽出手段31と、音素タイプライタ文法作成手段32と、信頼度計算用認識処理手段33と、を備える。
モノフォン音響モデル抽出手段31は、音響モデルパラメータメモリ60に記録された音響モデルからモノフォン音響モデルを抽出する。ここで抽出とは、音響モデルパラメータメモリ60に記録されているモノフォン、バイフォン、トライフォンの各音響モデルからモノフォン音響モデルを選択することを意味する。
音素タイプライタ文法作成手段32は、モノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成する。音素タイプライタ文法とは、フレーム毎に与えられる音声特徴量に応じて、遷移するモノフォン音響モデルを変えて音声を表現する方法である。図4に音素タイプライタ文法を概念的に示す。ノード1と2の間に、例えば音素モデルa〜Nと、ポーズ(無音)モデルが配列されてモノフォン音響モデルが構成される。モノフォン音響モデルの−は左側依存、+は右側依存を表す。この図において、入力されるフレーム毎の音声特徴量に応じて、ノード1と2の間の状態遷移が繰り返される。なお、図4の音素タイプライタ文法は、例えば「ee」の長母音と、「e」の短母音を同じ音素として扱う例である。長母音と短母音を同じ音素として扱うことで信頼度が低くなってしまうのを回避することが出来る。
音素認識結果Nベストとは、音素モデルを参照して、ビーム探索アルゴリズムに基づいて複数の音素認識結果を出力するものである。ビーム探索アルゴリズムとは、フレーム毎に尤度の高い認識結果の存在をおおよそ保証できる所定数(ビーム幅)の音素認識結果候補を残しながら探索する手順である。
なお、図3に破線で示すように予め信頼度計算用認識処理手段33が、音素タイプライタ文法を具備するようにしても良い。その場合、音素タイプライタ文法作成手段32は省略可能である。
図9に示すように式(3)は、所定の範囲の事前信頼度C(Cmin〜Cmax)に対応するビーム探索幅N(C)(Nmin〜Nmax)を、事前信頼度Cの値で比例配分する考えである。ここでは、比例係数が負の値なので、事前信頼度Cが小でビーム探索幅N(C)が大であり、Cが大でN(C)が小となる関係である。もちろん、事前信頼度Cとビーム探索幅N(C)との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅N(C)を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Claims (13)
- 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成し、上記モノフォン音響モデルを入力音響モデルとし上記音素タイプライタ文法を入力言語モデルとして上記音声特徴量系列の音素認識を行い、音声ファイル単位で音素認識結果を出力する音素認識部と、
上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を上記音声ファイル単位で平均した事前信頼度を計算する事前信頼度計算部と、
上記事前信頼度の値が小さいほど大きな探索ビーム幅を出力する認識処理制御部と、
上記音声特徴量系列と上記ビーム幅を用いて音声認識処理を行い、上記音声ファイル単位の音声認識結果を出力する音声認識処理部と、
を具備する音声認識装置。 - 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成し、上記モノフォン音響モデルを入力音響モデルとし上記音素タイプライタ文法を入力言語モデルとして上記音声特徴量系列の音素認識を行い、音声ファイル単位で音素認識結果を出力する音素認識部と、
上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を上記音声ファイル単位で平均した事前信頼度を計算する事前信頼度計算部と、
上記事前信頼度の値が所定の値未満のときは事前信頼度の値が上記所定の値以上のときに上記探索ビーム幅がとり得る探索ビーム幅のうち最も小さな探索ビーム幅を出力する認識処理制御部と、
上記音声特徴量系列と上記ビーム幅を用いて音声認識処理を行い、上記音声ファイル単位の音声認識結果を出力する音声認識処理部と、
を具備する音声認識装置。 - 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成し、上記モノフォン音響モデルを入力音響モデルとし上記音素タイプライタ文法を入力言語モデルとして上記音声特徴量系列の音素認識を行い、音声ファイル単位で音素認識結果を出力する音素認識部と、
上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を上記音声ファイル単位で平均した事前信頼度を計算する事前信頼度計算部と、
上記事前信頼度の値が上記所定の値以下の場合に音声認識処理を停止させる制御信号を生成して上記音声認識処理部に出力する認識処理制御部と、
上記音声特徴量系列を入力とした音声認識処理を、上記制御信号に応じて実行する音声認識処理部と、
を具備する音声認識装置。 - 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成し、上記モノフォン音響モデルを入力音響モデルとし上記音素タイプライタ文法を入力言語モデルとして上記音声特徴量系列の音素認識を行い、音声ファイル単位で音素認識結果を出力する音素認識部と、
上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を上記音声ファイル単位で平均した事前信頼度を計算する事前信頼度計算部と、
上記音声特徴量系列と上記事前信頼度とを入力として音声認識処理を行い、上記音声ファイル単位の音声認識結果と上記音声ファイル単位の音声認識結果の信頼度として上記事前信頼度とを出力する音声認識処理部と、
を具備する音声認識装置。 - 請求項1乃至4の何れかに記載した音声認識装置において、
上記音素認識部は、
上記認識文法が音素タイプライタ文法であり、且つ、上記音素認識結果として所定数の音素認識結果Nベストを出力するものであり、
上記事前信頼度計算部は、上記音素認識結果Nベストの中に、異なる音素の認識結果がある場合に、第1位の音素の音響スコアとその第1位の音素を除いた最尤の音素の音響スコアとの差をそのフレームの信頼度とし、異なる音素の認識結果がない場合にそのフレームに一定の高い信頼度を与え、上記信頼度を音声ファイル単位で平均して事前信頼度を計算するものである、
ことを特徴とする音声認識装置。 - 請求項1乃至4の何れかに記載した音声認識装置において、
上記音素認識部は、
上記認識文法として、音素タイプライタ文法と音声・非音声文法を備え、上記音声特徴量系列の音素認識をそれぞれの文法で行い上記フレーム毎に2つの音素認識結果を出力するものであり、
上記事前信頼度計算部は、上記2つの音素認識結果の音響スコアの差を、当該フレームの信頼度とし、その信頼度を音声ファイル単位で平均して事前信頼度を計算するものである、
ことを特徴とする音声認識装置。 - 請求項1乃至6の何れかに記載した音声認識装置において、
複数の音声ファイルの上記事前信頼度から、事前信頼度の高い順番に上記複数の音声ファイルを並び替える音声ファイル処理部と、
事前信頼度の高い順番で音声認識処理を行うソート音声認識処理部と、
を更に備えることを特徴とする音声認識装置。 - 請求項1乃至4の何れかに記載した音声認識装置において、
上記事前信頼度を入力として、その事前信頼度の値が一定範囲内か否かを判定して適応制御信号を出力する教師なし適応制御部と、
上記音声認識結果と上記教師なし適応制御信号を入力として、上記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応部と、
上記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて上記音声特徴量系列の音声認識処理を行う第2認識処理部と、
を更に備えることを特徴とする音声認識装置。 - 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
音素認識部が、音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成し、上記モノフォン音響モデルを入力音響モデルとし上記音素タイプライタ文法を入力言語モデルとして上記音声特徴量系列の音素認識を行い、音声ファイル単位で音素認識結果を出力する音素認識過程と、
事前信頼度計算部が、上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を上記音声ファイル単位で平均した事前信頼度を計算する事前信頼度計算過程と、
認識処理制御部が、上記事前信頼度の値が小さいほど大きな探索ビーム幅を出力する認識処理制御過程と、
音声認識処理部が、上記音声特徴量系列と上記ビーム幅を用いて音声認識処理を行い、上記音声ファイル単位の音声認識結果を出力する音声認識処理過程と、
を備える音声認識方法。 - 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
音素認識部が、音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成し、上記モノフォン音響モデルを入力音響モデルとし上記音素タイプライタ文法を入力言語モデルとして上記音声特徴量系列の音素認識を行い、音声ファイル単位で音素認識結果を出力する音素認識過程と、
事前信頼度計算部が、上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を上記音声ファイル単位で平均した事前信頼度を計算する事前信頼度計算過程と、
認識処理制御部が、上記事前信頼度の値が所定の値未満のときは事前信頼度の値が上記所定の値以上のときに上記探索ビーム幅がとり得る探索ビーム幅のうち最も小さな探索ビーム幅を出力する認識処理制御過程と、
音声認識処理部が、上記音声特徴量系列と上記ビーム幅を用いて音声認識処理を行い、上記音声ファイル単位の音声認識結果を出力する音声認識処理過程と、
を備える音声認識方法。 - 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
音素認識部が、音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成し、上記モノフォン音響モデルを入力音響モデルとし上記音素タイプライタ文法を入力言語モデルとして上記音声特徴量系列の音素認識を行い、音声ファイル単位で音素認識結果を出力する音素認識過程と、
事前信頼度計算部が、上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を上記音声ファイル単位で平均した事前信頼度を計算する事前信頼度計算過程と、
認識処理制御部が、上記事前信頼度の値が上記所定の値以下の場合に音声認識処理を停止させる制御信号を生成して上記音声認識処理部に出力する認識処理制御過程と、
音声認識処理部が、上記音声特徴量系列を入力とした音声認識処理を、上記制御信号に応じて実行する音声認識処理過程と、
を備える音声認識方法。 - 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
音素認識部が、音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成し、上記モノフォン音響モデルを入力音響モデルとし上記音素タイプライタ文法を入力言語モデルとして上記音声特徴量系列の音素認識を行い、音声ファイル単位で音素認識結果を出力する音素認識過程と、
事前信頼度計算部が、上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を上記音声ファイル単位で平均した事前信頼度を計算する事前信頼度計算過程と、
音声認識処理部が、上記音声特徴量系列と上記事前信頼度とを入力として音声認識処理を行い、上記音声ファイル単位の音声認識結果と上記音声ファイル単位の音声認識結果の信頼度として上記事前信頼度とを出力する音声認識処理過程と、
を備える音声認識方法。 - 請求項1乃至8の何れかに記載した音声認識装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009229338A JP4922377B2 (ja) | 2009-10-01 | 2009-10-01 | 音声認識装置とその方法と、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009229338A JP4922377B2 (ja) | 2009-10-01 | 2009-10-01 | 音声認識装置とその方法と、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011075973A JP2011075973A (ja) | 2011-04-14 |
JP4922377B2 true JP4922377B2 (ja) | 2012-04-25 |
Family
ID=44020006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009229338A Active JP4922377B2 (ja) | 2009-10-01 | 2009-10-01 | 音声認識装置とその方法と、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4922377B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5235849B2 (ja) * | 2009-11-27 | 2013-07-10 | 日本電信電話株式会社 | 音声認識装置とその方法と、プログラム |
JP5538350B2 (ja) * | 2011-11-30 | 2014-07-02 | 日本電信電話株式会社 | 音声認識方法とその装置とプログラム |
CN110827799B (zh) * | 2019-11-21 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001042893A (ja) * | 1999-08-03 | 2001-02-16 | Olympus Optical Co Ltd | 音声認識装置および音声認識処理をするための処理プログラムを記録した記録媒体 |
JP4393648B2 (ja) * | 2000-01-11 | 2010-01-06 | 富士通株式会社 | 音声認識装置 |
EP1207517B1 (en) * | 2000-11-16 | 2007-01-03 | Sony Deutschland GmbH | Method for recognizing speech |
JP2005091504A (ja) * | 2003-09-12 | 2005-04-07 | Chubu Electric Power Co Inc | 音声認識装置 |
JP3819896B2 (ja) * | 2003-11-14 | 2006-09-13 | 日本電信電話株式会社 | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP2005241833A (ja) * | 2004-02-25 | 2005-09-08 | Toshiba Corp | 音声認識装置、音声認識方法および音声認識プログラム |
JP4594885B2 (ja) * | 2006-03-15 | 2010-12-08 | 日本電信電話株式会社 | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 |
JP2008083367A (ja) * | 2006-09-27 | 2008-04-10 | Toshiba Corp | 音声認識装置、音声認識方法及びプログラム |
JP2009080309A (ja) * | 2007-09-26 | 2009-04-16 | Toshiba Corp | 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体 |
-
2009
- 2009-10-01 JP JP2009229338A patent/JP4922377B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011075973A (ja) | 2011-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
Brognaux et al. | HMM-based speech segmentation: Improvements of fully automatic approaches | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
JP6699748B2 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
Stouten et al. | Coping with disfluencies in spontaneous speech recognition: Acoustic detection and linguistic context manipulation | |
JP6996570B2 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP5852550B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP4852129B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP5961530B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP4981850B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP5496945B2 (ja) | 話者分類装置、話者分類方法、プログラム | |
JP5235849B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP4962930B2 (ja) | 発音評定装置、およびプログラム | |
JP6006674B2 (ja) | 音響モデル選択装置とその方法とプログラム | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
JP2009300837A (ja) | 音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4922377 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150210 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |