JP2003263187A - 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体 - Google Patents

言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体

Info

Publication number
JP2003263187A
JP2003263187A JP2002061623A JP2002061623A JP2003263187A JP 2003263187 A JP2003263187 A JP 2003263187A JP 2002061623 A JP2002061623 A JP 2002061623A JP 2002061623 A JP2002061623 A JP 2002061623A JP 2003263187 A JP2003263187 A JP 2003263187A
Authority
JP
Japan
Prior art keywords
class
model
learning
structured
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2002061623A
Other languages
English (en)
Inventor
Yohei Okato
洋平 岡登
Jun Ishii
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2002061623A priority Critical patent/JP2003263187A/ja
Publication of JP2003263187A publication Critical patent/JP2003263187A/ja
Abandoned legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来のクラス言語モデルはクラスの性質を反
映させた推定ができず、認識性能向上や計算時間削減に
難点があった。 【解決手段】 単語とクラスの対応関係を表したクラス
定義記述を参照して言語モデル学習用テキストデータを
クラス化テキスト変換手段でクラス化し、このクラス化
されたクラス連鎖から次の出現クラスの予測モデルをク
ラス連鎖モデル推定手段で推定し出力すると共に,クラ
ス定義記述を参照して学習用テキストデータに適用され
るクラス化規則をクラス化適用規則抽出手段で抽出し、
クラス定義記述とクラス化規則からクラス別学習方法知
識を参照してクラスが単語を生起するモデルをクラス別
単語生起モデル推定手段と求め出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は言語モデル学習方
法、その装置、そのプログラムおよびそのプログラムの
記録媒体ならびに言語モデル学習を用いた音声認識方
法、その装置、そのプログラムおよびそのプログラムの
記録媒体に関するものである。
【従来の技術】
【0002】近年,連続音声認識システムにおいて,そ
の性能を高めるために言語モデルを用いる方法が研究さ
れている。言語モデルとは,L単語からなる単語列(式
1)により表される入力発話に対して,その出現確率
(式2)を与えるものである。
【0003】
【数1】
【0004】
【数2】
【0005】ここで,入力発話の出現確率は,次式のよ
うに先行単語に関する条件付き確率の積で表せる。
【0006】
【数3】
【0007】単語N-gram言語モデルは,右辺の条件付き
確率が直前のN-1単語(式4)のみに依存するとして,
(式5)で近似したものである。条件付き確率は,学習
用テキストデータから統計的に推定する。
【0008】
【数4】
【0009】
【数5】
【0010】単語N-gram言語モデルは,構築が容易で,
統計的音響モデルとの相性もよく広く使われている(例
えば,従来文献1「確率的言語モデル」北研二,東京大
学出版会参照)。しかし,N-gram言語モデルにおいてモ
デルのパラメータである条件付き確率の種類数は,認識
対象単語数Mに対してMN個となり,単語数が多い場合は
信頼性の高い言語モデルを構築するために大量の学習用
テキストデータが必要である。また学習テキストデータ
に出現しなかった単語の扱いは,困難である。
【0011】この対策として,類似した単語をクラスと
呼ぶまとまりとして扱うクラス化処理がある。クラス化
処理を行ったクラスN-gram言語モデルは,単語(式6)
に対応するクラスを(式7)とするとき,クラス間遷移
確率(式8)および,クラスが所属する単語を生起する確
率(式9)により単語N-gramを式10のように推定す
る。
【0012】
【数6】
【0013】
【数7】
【0014】
【数8】
【0015】
【数9】
【0016】
【数10】
【0017】各単語をそれぞれ異なるクラスとおけば,
クラスN-gram言語モデルは単語N-gram言語モデルと等価
である。クラス設計によりパラメータ数が調節可能であ
るクラスN-gram言語モデルは,同量の学習用テキストデ
ータから単語N-gram言語モデルより高い認識性能を得る
言語モデルが構築できる。また,単語とクラスの対応付
けが明確であれば学習データで未出現の単語を認識単語
に追加することが比較的容易という利点がある。
【0018】図17は,従来例に基づく音声認識装置の
ブロック図を示している。図1において1は特徴抽出手
段,2は音響照合手段,3は言語絞込み手段,11は音響モ
デル,12は単語辞書,13はクラス連鎖モデルメモリ,14
はクラス内単語生起モデルメモリ,21はクラス化テキス
ト変換手段,22はクラス連鎖モデル推定手段,23はクラ
ス化適用規則抽出手段,24はクラス別単語生起モデル推
定手段,30はクラス連鎖モデル学習用テキストデータ,
32はクラス定義記述を示す。
【0019】入力された話者音声は特徴抽出手段1によ
り特徴が抽出され、音響照合手段2で特徴抽出手段1によ
って抽出された特徴を参考に、音響モデル11と単語辞書
12を参照して入力音声と単語モデルとが照合され、認識
候補を得る。次に照合された認識候補の単語モデルに基
づき言語絞込み手段3によりクラス連鎖モデルメモリ13
とクラス内単語生起モデルメモリ14から言語モデルを読
み込み,入力単語列の出現確率により音響照合手段2の
照合結果より認識候補の絞込みを行い認識結果として出
力する。これらの機能ブロックによって音声認識処理が
行われる。各機能ブロックの詳細は,「音声認識の基礎
(上,下)」L.R.RABINER,B.H.JUANG(古井監訳),19
95年,11月,NTTアドバンステクノロジ(以下文献2とす
る)に記されている。
【0020】クラス化テキスト変換手段21は,クラス定
義記述32に従いクラス連鎖モデル学習用テキストデータ
30クラス連鎖モデルメモリの単語列をクラス化して、そ
のクラスを表す記号の列(クラス記号列)を出力する。
クラス連鎖モデル推定手段22は,クラス化テキスト変換
手段21からのクラス記号列を読み込んでクラス連鎖モデ
ルを推定し,クラス連鎖モデルメモリ13へ出力する。ま
た,クラス化適用規則抽出手段23は,クラス定義記述32
に従い学習用テキストデータ37の単語列をクラス化し,
その際に適用された変換規則を出力する。クラス内単語
生起モデル推定手段24は,クラス定義記述32とクラス化
適用規則抽出手段23から出力された変換規則からクラス
内単語生起モデルを推定して,クラス内単語生起モデル
メモリ14に出力する。これらの機能ブロックによって,
音声認識に用いるクラス言語モデルが推定される。
【0021】
【発明が解決しようとする課題】上記クラス言語モデル
を拡張して,個々のクラスの性質を反映させた,より詳
細な推定が可能であれば,さらなる認識性能の向上およ
び計算時間の削減が見込まれる。しかしながら,そのた
めの決定的な解決方法はまだない。本発明は統計的クラ
ス言語モデルにおいて,クラスごとに異なるモデル推定
方法を明示的に与えることにより,認識精度の改善を図
ることを目的とする。
【0022】
【課題を解決する為の手段】本発明に係る言語モデル学
習装置は、言語モデル学習用テキストデータを記憶した
言語モデル学習用テキストデータ記憶手段と,単語とク
ラスの対応関係を表したクラス定義記述を記憶したクラ
ス定義記述記憶手段と,クラス定義記述を参照して学習
用テキストデータをクラス化するクラス化テキスト変換
手段と,クラス化テキスト変換手段からのクラス化され
たテキストにおける事前のクラス列であるクラス連鎖か
ら次の出現クラスを予測するモデルを推定するクラス連
鎖モデル推定手段と,クラス定義記述を参照して学習用
テキストデータに適用されるクラス化規則を抽出するク
ラス化適用規則抽出手段と,クラスごとの学習方式を格
納したクラス別学習方法知識と,クラス定義記述と学習
データから抽出されたクラス化規則からクラス別学習方
法知識を参照してクラスが単語を生起するモデルを求め
るクラス別単語生起モデル推定手段とを備える。
【0023】また、本発明に係る言語モデル学習装置
は、クラス定義記述記憶手段がクラスの列または単語の
列とクラスの対応関係を表した構造化クラス定義記述を
記憶した構造化クラス定義記述記憶手段であり、クラス
テキスト変換手段が構造化クラス定義記述を参照して学
習用テキストデータをクラス化する構造化クラステキス
ト変換手段であり,クラス化適用規則抽出手段が構造化
クラス定義記述を参照して学習用テキストデータに適用
される構造化クラス化規則を抽出する構造化クラス化適
用規則抽出手段である。
【0024】また、本発明に係る言語モデル学習装置
は、クラス定義記述記憶手段が単語列とクラスの対応関
係および規則適用の確率を保持した確率付きクラス定義
記述とを記憶した確率付きクラス定義記述記憶手段であ
り、クラステキスト変換手段が確率付きクラス定義記述
を参照して学習用テキストデータを確率の合計が1とな
るよう1または複数にクラス化する構造化クラステキス
ト変換手段であり,クラス化適用規則抽出手段が確率付
きクラス定義記述を参照して学習用テキストデータに適
用される確率付きクラス化規則を抽出する確率付きクラ
ス化適用規則抽出手段である。
【0025】また、本発明に係る言語モデル学習装置
は、クラス定義記述記憶手段がクラスの列または単語の
列とクラスの対応関係および規則適用の確率を保持した
確率付き構造化クラス定義記述を記憶した確率付き構造
化クラス定義記述記憶手段であり、クラステキスト変換
手段が確率付き構造化クラス定義記述を参照して学習用
テキストデータを確率の合計が1となるよう1または複
数にクラス化する確率付き構造化クラステキスト変換手
段であり,クラス化適用規則抽出手段は確率付き構造化
クラス定義記述を参照して学習用テキストデータに適用
される確率付き構造化クラス規則を抽出する確率付き構
造化クラス適用規則抽出手段である。
【0026】また、本発明に係る音声認識装置は、入力
音声を分析して音響特徴量ベクトルを算出する特徴抽出
手段と,音響特徴量を音響モデルおよび単語辞書と照合
し、単語辞書より認識候補を出力する音響照合手段と,
クラス連鎖モデルよりクラス内単語生起モデルを参照し
て認識候補の絞り込みを行い、認識結果を出力する言語
絞込み手段とを備え,上記クラス連鎖モデルとクラス内
単語生起モデルは、[0022]乃至[0025]の何
れかに記載された言語モデル学習装置により推定された
モデルである。
【0027】また、本発明に係る言語モデル学習方法
は、言語モデル学習用テキストデータを入力し、単語と
クラスの対応関係を表したクラス定義記述を記録した記
憶手段からのクラス定義記述を参照して学習用テキスト
データをクラス化するクラス化テキスト変換ステップ
と,クラス化テキスト変換手段でクラス化されたテキス
トにおける事前のクラスを記憶し、この事前のクラス列
であるクラス連鎖とから次の出現クラスを予測するモデ
ルを推定するクラス連鎖モデル推定ステップと,上記記
憶手段からのクラス定義記述を参照して学習用テキスト
データに適用されるクラス化規則を抽出するクラス化適
用規則抽出ステップと,クラスごとの学習方式を格納し
たクラス別学習方法知識と,上記記憶手段からのクラス
定義記述とクラス化適用規則抽出ステップで抽出された
クラス化規則からクラスごとの学習方式を参照してクラ
スが単語を生起するモデルを求めるクラス別単語生起モ
デル推定ステップとを備える。
【0028】また、本発明に係る言語モデル学習方法
は、クラス定義記述はクラスの列または単語の列とクラ
スの対応関係を表した構造化クラス定義記述であり、ク
ラステキスト変換ステップは構造化クラス定義記述を参
照して学習用テキストデータをクラス化する構造化クラ
ステキスト変換ステップであり,クラス化適用規則抽出
ステップは構造化クラス定義記述を参照して学習用テキ
ストデータに適用される構造化クラス化規則を抽出する
構造化クラス化適用規則抽出ステップである。
【0029】また、本発明に係る言語モデル学習方法
は、クラス定義記述は単語列とクラスの対応関係および
規則適用の確率を保持した確率付きクラス定義記述であ
り、クラステキスト変換ステップは確率付きクラス定義
記述を参照して学習用テキストデータを確率の合計が1
となるよう1または複数にクラス化する確率付きクラス
テキスト変換ステップであり,クラス化適用規則抽出ス
テップは確率付きクラス定義記述を参照して学習用テキ
ストデータに適用される確率付きクラス化規則を抽出す
る確率付きクラス化適用規則抽出ステップであることを
特徴とする請求項6記載の言語モデル学習方法。
【0030】また、本発明に係る言語モデル学習方法
は、クラス定義記述記憶ステップはクラスの列または単
語の列とクラスの対応関係および規則適用の確率を保持
した確率付き構造化クラス定義記述であり、クラステキ
スト変換ステップは確率付き構造化クラス定義記述を参
照して学習用テキストデータを確率の合計が1となるよ
う1または複数にクラス化する確率付き構造化クラステ
キスト変換ステップであり,クラス化適用規則抽出ステ
ップは確率付き構造化クラス定義記述を参照して学習用
テキストデータに適用される確率付き構造化クラス化規
則を抽出する確率付き構造化クラス化適用規則抽出ステ
ップである。
【0031】また、本発明に係る音声認識方法は、入力
音声を分析して音響特徴量ベクトルを算出する特徴抽出
ステップと,音響特徴量を音響モデルおよび単語辞書と
照合し、単語辞書より認識候補を出力する音響照合ステ
ップと,クラス連鎖モデルよりクラス内単語生起モデル
を参照して認識候補の絞り込みを行い、認識結果を出力
する言語絞込みステップとを備え,上記クラス連鎖モデ
ルとクラス内単語生起モデルは、[0027]乃至[0
030]の何れかに記載された言語モデル学習方法によ
り推定されたモデルである。
【0032】また、本発明に係る記憶媒体は、[002
7]乃至[0030]のいずれかに記載の言語モデル学
習方法を実現させるためのプログラムを記憶したコンピ
ュータが読取可能なものである。
【0033】また、本発明に係る記憶媒体は、[003
1]に記載の音声認識方法を実現させるためのプログラ
ムを記憶したコンピュータが読取可能なものである。
【0034】また、本発明に係るプログラムは、コンピ
ュータに[0027]乃至[0030]のいずれかに記
載の言語モデル学習方法を実行させるものである。
【0035】また、本発明に係るプログラムは、コンピ
ュータに[0031]に記載の音声認識方法を実行させ
るものである。
【0036】
【発明の実施の形態】以下,図面を参照して本発明に係
る実施形態について説明する。 実施の形態1.
【0037】図1は,実施の形態1に係る音声認識装置
のブロック図を示している。図1において1は特徴抽出手
段,2は音響照合手段,3は言語絞込み手段,11は音響モ
デル,12は単語辞書,13はクラス連鎖モデルメモリ,14
はクラス内単語生起モデルメモリ,21はクラス化テキス
ト変換手段,22はクラス連鎖モデル推定手段,23はクラ
ス化適用規則抽出手段,24はクラス別単語生起モデル推
定手段,30はクラス連鎖モデル学習用テキストデータ,
31はクラス内単語生起モデル学習用テキストデータ,32
はクラス定義記述,33はクラス別学習方法知識を示す。
【0038】従来と異なる実施の形態1に特徴的な部分
は,クラス別単語生起モデル推定手段24,クラス内単語
生起モデル学習用テキストデータ31、クラス別学習方法
知識33を備え,クラスごとに指定したモデル推定方法に
用いて各クラスの単語生起モデルを推定する点である。
以下,図1の機能ブロックについて説明する。
【0039】特徴抽出手段1は,入力音声を一定時間間
隔で分析し,音声の特徴をよく表す音響特徴量を抽出す
る。例えば,16kHzで標本化された音声信号を10ms間隔
で窓長25msのHamming窓で切り出して,14次のLPC分析か
ら10次のメルケプストラム,10次のデルタメルケプスト
ラムを求め,1次のデルタパワーと合わせて合計21次元
の音響特徴量であるベクトルを抽出する。
【0040】音響照合手段2は,音響モデル11と単語辞
書12を参照して,例えばビタビアルゴリズムを使って,
特徴抽出手段1から入力された音響特徴量時系列とそれ
ぞれの単語を照合して,認識候補を抽出し、その類似度
合いを示すスコアを求め,認識候補の累積スコアに加算
する。
【0041】言語絞込み手段3は,音響照合手段2から得
られる認識候補の単語列とその累積スコアを受け取り,
クラス連鎖モデルメモリ13とクラス内単語生起モデルメ
モリ14を参照して単語列の言語的なスコアを求めて,累
積スコアに加算し、最も高いスコアの候補を認識結果と
して出力する。このとき他と比べてスコアが低い候補は
認識結果となる可能性が低いため計算を打ち切り,探索
の候補から除く。
【0042】音響モデル11は,音声の断片について音響
特徴量の性質を表す標準モデルである。例えば音素を単
位とするHMM(隠れマルコフモデル)を用い,それぞれ
のモデルの構造は Left-to-right型3状態,出力確率密
度関数が16混合の対角共分散行列からなるガウス分布と
する。
【0043】単語辞書12は,ここでは単語と呼ぶシステ
ムが用いる言語単位を構成する音響モデル11の組み合わ
せ方法を示す。
【0044】クラス連鎖モデル学習用テキストデータ30
は,音声認識に用いるクラス連鎖確率モデルを推定する
ために用いられるテキストデータの集合である。テキス
トデータは,以降で単語と呼ぶ一貫した言語的な単位に
分割して読み出される。
【0045】クラス内単語生起モデル学習用テキストデ
ータ31は,クラス言語モデルの各クラスからクラスに属
する単語が生起する確率を推定するために用いられるテ
キストデータの集合である。クラス連鎖モデル学習用テ
キストデータ30と同一であっても構わない。
【0046】クラス定義記述32は,一つ以上の単語を特
定のクラス記号へ置き換える対応関係を表す。例えば図
2のような書き換え規則として記述する。図中,矢印の
右辺の縦線“|”で区切られたそれぞれの単語列は左辺
のクラス記号に置き換えられることを示す。左辺に出現
するカッコ“<・・>”で囲われた記号はクラス記号で
あることを表し,元の学習テキストに出現しない記号で
あることを示している。このクラス定義は,設計者があ
らかじめ作成したものであっても,データから自動的に
選んだものであっても,また両者を組み合わせたもので
あっても構わない。ここでは,それぞれの単語は所属す
るクラスが一意に決まることを仮定する。
【0047】クラス別学習方法知識33は,クラス定義記
述32に記載された各クラス記号について,置き換えられ
た単語列の生起確率を推定する方法を示す。このため,
学習用テキストデータと音声認識する対象に応じて,ク
ラス記号ごとに推定方法を設定できる。
【0048】クラス化テキスト変換手段21は,まずクラ
ス定義記述32を読み込む。次にクラス連鎖モデル学習用
テキストデータ30からテキストデータを順次読み込み,
単語列をクラス化して出力する。例えばクラス定義に
「<日付> ← 一日」という規則がある場合,テキスト
データ「一日・です」は,「<日付>・です」という記
述に変換される。ただし中点(・)は,単語区切りを表
す。
【0049】クラス連鎖モデル推定手段22は,クラス化
テキスト変換手段21によりクラス化されたテキストとそ
の頻度を読み込み,事前に読み込まれたクラス列とから
次に出力されるクラスを予測する確率モデルを推定す
る。クラスN-gram言語モデルでは,式11に示す確率モ
デルを推定する。クラス連鎖モデルは,過去の単語履歴
(式12)からクラス記号(式13)を推定するモデル
であればN-gramでなくてもよい。
【0050】
【数11】
【0051】
【数12】
【0052】
【数13】
【0053】クラス化適用規則抽出手段23は,クラス化
テキスト変換手段21と同様にクラス化処理を行うが,出
力は単語をクラスへ変換した際に適用された規則であ
る。出力される規則は,「クラス ← 元の表記」とい
う形式をとり,前者の例では,「<日付> ← 一日」と
いう規則の適用が出力される。
【0054】クラス別単語生起モデル推定手段24は,ク
ラス別学習方法知識33に記述されるクラスごとの学習方
法に従い,クラス定義記述32とクラス化適用規則抽出手
段23の出力を読み込んでクラス言語モデルにおける個々
のクラスから単語が生起する確率 P(w|c) を推定する。
推定結果は,クラス内単語生起モデルメモリ14へ出力す
る。クラス記号(式14)から単語(式15)が生起す
る確率(式16)の推定方法は,例えばクラス化適用規
則の頻度分布(式17,P),クラス定義における種
類で等分配した一様分布(式18,P2),あるいはス
ムージングを行った頻度分布(式19,P3)などを用
いることができる。ただし,以下の式でN(・)は,学習
用テキストデータ31のクラス化において書き換え規則が
適用された頻度を示す。
【0055】
【数14】
【0056】
【数15】
【0057】
【数16】
【0058】
【数17】
【0059】
【数18】
【0060】
【数19】
【0061】クラス内単語生起モデルの推定方法は,ク
ラス別学習方法知識33に記述され,それぞれのクラスの
性質を考慮して柔軟に設定可能である。例えば,クラス
内単語生起モデル学習用テキストデータ31が少量の場合
は,タスクの固有名詞が全て出現するとは限らず,出現
傾向も偏っていることが考えられる。この場合,上記の
分布では一様分布(P2)や頻度をスムージングした分
布(P3)が有用であると考えられる。一方,「えー
と」や「あー」などの間投詞は,全体として出現頻度が
多く,出現傾向には偏りがあるため頻度を考慮した分布
(PやP3)が有用と考えられる。また,認識対象の日
付のほとんどが,今後3ヶ月間に限定されるようなタス
クでは,時期によって重み付けを変えた分布を用いるな
ど,柔軟に対応可能である。
【0062】次に動作フローを参照してクラス言語モデ
ルの構築手順を示す。ここでは,クラス言語モデルの構
築をクラス連鎖モデルとクラス内単語生起モデルの推定
に分けて,図3と図4を使って説明する。
【0063】図3は,クラス連鎖モデル学習用テキスト
データ30,クラス定義記述32から,クラス連鎖モデルを
推定するための動作フローを示す。まずクラス化テキス
ト変換手段21は,クラス定義記述32を読み込む(ステッ
プS301)。次にクラス化テキスト変換手段21は,単語に
区切られたクラス連鎖モデル学習用テキストデータ30を
順次読み込み(ステップS302 ),クラス定義に従って
必要な単語をクラス化し,クラス記号列とその頻度1を
出力する(ステップS303)。
【0064】クラス連鎖モデル推定手段22は,クラス化
テキスト変換手段21からのクラス記号列を読み込み,ク
ラス記号列の頻度を数え上げる(ステップS304)。クラ
ス化テキスト変換手段21がクラス連鎖モデル学習用テキ
ストデータ30を最後まで読み終え、クラス記号列入力の
読み込みが終了したら,クラス連鎖モデル推定手段22
は,クラス記号列の頻度分布から任意のクラス記号列に
ついてクラス記号の条件付き出現確率を与えるクラス連
鎖モデルを推定する(ステップS305)。推定されたクラ
ス連鎖モデルは,クラス連鎖モデルメモリ13へ格納する
(ステップS306)。
【0065】図4は,クラス内単語生起モデル学習用テ
キストデータ31,クラス定義記述32からクラス内単語生
起モデルを推定するための動作フローを示す。まずクラ
ス化適用規則抽出手段23は,クラス定義記述32を読み込
む(ステップS401)。次にクラス別単語生起モデル推定
手段24は,クラス定義記述32およびクラス別学習方法知
識33を読み込む(ステップS402)。次にクラス化適用規
則抽出手段23は,学習用テキストデータ31から単語列を
順次読み込み(ステップS403),読み込んだ単語列をク
ラス化して,この際に適用した規則を出力する(ステッ
プS404)。クラス別単語生起モデル推定手段24は,モデ
ル推定に必要な場合について,規則に対応した単語列と
この単語列に対応するクラスの対の頻度を加算する(ス
テップS405)。クラス化適用規則抽出手段23によるテキ
ストデータ31の読み込みがデータの末尾に到達し、クラ
ス化適用規則抽出手段23からの規則出力が末尾に達した
ら,クラス別単語生起モデル推定手段24はクラス別学習
方法知識33に記述された学習方法に従って,クラス内単
語生起モデルを推定する(ステップS406)。最後に推定
したクラス別単語生起モデルをクラス内単語生起モデル
メモリ14へ格納する(ステップS407)。
【0066】次に,図5を参照し,図3および図4に示
した手法により構築されたクラス言語モデルを用いた音
声認識の動作フローを示す。まず,音響照合手段2は音
響モデル11・単語辞書12を読み込む(ステップS501)。
また,言語絞込み手段3は,クラス連鎖モデルメモリ13
およびクラス内単語生起モデルメモリ14から言語モデル
を読み込む(ステップS502)。特徴抽出手段1は,入力
された話者の音声を1時間フレーム分読み込んで分析
し,音響特徴量を計算する(ステップS503)。音響照合
手段2は,単語辞書12からの認識候補単語を音響モデル1
1を参照して入力音声の音響特徴量を照合し,照合の度
合いを示すスコアを求め,それ以前までの累積スコアに
加算する(ステップS504)。さらに,言語絞込み手段3
は,累積スコアに言語モデルから与えられるスコアを加
算し,その後,相対的に低いスコアの候補を除いて絞込
みを行う(ステップS505)。この処理を入力された音声
の終端まで続ける(ステップS506)。入力音声の終端に
到達したら,最も高いスコアの候補をバックトラックし
て認識結果を得る(ステップS507)。
【0067】以上のように,実施の形態1に示した方法
では,クラス別に単語を生起するモデルの推定方法を設
定したクラス言語モデルが推定できる。このため,クラ
スの性質を考慮した高精度の言語モデルを構築でき,従
来法と比べて高い認識性能を得る効果がある。
【0068】なお,実施の形態1における音声認識方法
をプログラムとして記録媒体に記録させ、この記録媒体
により、コンピュータを動作させ、クラス連鎖モデルと
クラス内単語生起モデルを推定することもできる。この
場合,図3および図4に示すクラス連鎖モデルとクラス
別単語生起モデル推定のクラス言語モデル学習プログラ
ムと図5に示す認識プログラムから構成される。クラス
言語モデル学習プログラムは,クラス化テキスト変換手
段21と同様の処理を行うクラス化テキスト変換機能と,
クラス連鎖モデル推定手段22と同様の処理を行うクラス
連鎖モデル推定機能と,クラス化適用規則抽出手段23と
同様の処理を行うクラス化適用規則抽出機能と,クラス
別単語生起モデル推定手段24と同様の機能を持つクラス
別単語生起モデル推定機能から構成されるソフトウェア
である。また認識プログラムは,特徴抽出手段1と同様
の処理を行う特徴抽出機能と,音響照合手段2と同様の
処理を行う音響照合機能と,言語絞込み手段3と同様の
処理を行う言語絞込み機能から構成されるソフトウェア
である。
【0069】実施の形態2.図6は,実施の形態2に係
る音声認識装置のブロック図を示している。実施の形態
1と異なる特徴的な部分は,クラス定義を後述する構造
化クラス定義にして,クラスの単語生起モデルの設定が
容易である点を保ちつつ,より複雑なクラス定義を可能
とした点である。以下に図6の機能ブロックについて説
明する。ただし,以前に説明したものは省略する。
【0070】構造化クラス定義記述34は,構造化された
記述を許すクラス言語モデルのクラス定義である。構造
化されたクラスとは,書き換え規則で示されるクラス定
義の右辺にもクラス記号が出現することを許したもので
ある。
【0071】図7は,日付を表す構造化クラス定義の例
を示している。ここでは,図2のクラス定義に「<月日
>,<日付相対表現>,<日付>」の3クラスを追加し
ている。追加したクラスは,いずれも右辺にクラスを含
んでいる。このため,単語列をクラスへ置き換える際,
複数の書き換え規則が適用されることがある。例えば,
「三月・の・十日」という表現は,まず「<月> ←
三月」「<日> ←十日」という規則が適用されて「<
月>・の・<日>」という表記へ置き換えられる。次に
「<月日> ← <月>・の・<日>」,さらに「<日
付> ← <月日>」という規則が適用されて,最終的
に<日付>という一つのクラス記号に置き換えられる。
なお,クラス定義の右辺に出現するクラスは,定義され
ている必要がある。また,単語列は一意にクラス列へ置
き換え可能である必要がある。このために,最長単語列
を一つのクラスとする規則を適用する,可能な置き換え
は必ず実施するといった,構造化クラスの定義以外の規
則を併用しても構わない。
【0072】構造化クラステキスト変換手段26は,構造
化クラス定義記述34を参照してクラス連鎖モデル学習用
テキストデータ30を順次読み込み,クラス化を行って出
力する。構造化クラス適用規則抽出手段27は,構造化ク
ラステキスト変換手段26と同様,構造化クラス定義記述
34を参照して,クラス内単語生起モデル学習用テキスト
データ31をクラス化するが,出力は単語をクラスへ変換
した際に適用された規則である。複数の規則が適用され
た場合,適用された全ての規則を出力する。前者の例で
は,クラス化適用規則抽出手段では,「<月> ← 三
月」「<日> ←十日」,「<月日> ← <月>・の
・<日>」,「<日付> ← <月日>」という規則の
適用を出力する。
【0073】次に動作フローを参照してクラス言語モデ
ルの構築手順を示す。ここでは,クラス言語モデルの構
築をクラス連鎖モデルとクラス内単語生起モデルに分け
て,図8と図9を使って説明する。
【0074】図8は,クラス連鎖モデル学習用テキスト
データ30,構造化クラス定義記述34から,クラス連鎖モ
デルを推定するための動作フローを示している。まず構
造化クラステキスト変換手段26は,構造化クラス定義記
述34を読み込む(ステップS801)。次に構造化クラステ
キスト変換手段26は,単語に区切られたクラス連鎖モデ
ル学習用テキストデータ30を順次読み込み(ステップS8
02 ),構造化クラス定義34に従って必要な単語をクラ
ス化して,クラス記号列を出力する(ステップS803)。
クラス連鎖モデル推定手段22は,入力であるクラス列の
頻度を計算する(ステップS804)。構造化クラステキス
ト変換手段26が学習用テキストデータ30を最後まで読み
終えたら,クラス連鎖モデル推定手段22は,クラス記号
列の頻度分布からクラス連鎖モデルを推定する(ステッ
プS805)。最後に推定されたクラス連鎖モデルをクラス
連鎖モデルメモリ13へ格納する(ステップS806)。
【0075】図9は,構造化クラスのクラス内単語生起
モデルを推定するための動作フローを示している。まず
構造化クラス適用規則抽出手段27は,構造化クラス定義
記述34を読み込む(ステップS901)。次にクラス別単語
生起モデル推定手段24は,構造化クラス定義記述34およ
びクラス別学習方法知識33を読み込む(ステップS90
2)。次に構造化クラス適用規則抽出手段27は,クラス
内単語生起モデル学習用テキストデータ31から単語列を
順次読み込み(ステップS903),対象単語列をクラス化
し,その際に適用した規則を出力する(ステップS90
4)。クラス別単語生起モデル推定手段24は,モデル推
定に必要な場合について,単語の列あるいはクラスの列
と対応するクラスの対の頻度を加算する(ステップS90
5)。構造化クラス適用規則抽出手段27によるクラス内
単語生起モデル学習用テキストデータ31の読み込みが末
尾に到達したら,クラス別単語生起モデル推定手段24
は,クラス別学習方法知識33に記述された学習方法に従
って,クラス内単語生起モデルを推定する(ステップS9
06)。最後に推定したクラス別単語生起モデルをクラス
内単語生起モデルメモリ14へ格納する(ステップS90
7)。
【0076】以上のように,実施の形態2に示した方法
は,構造化を伴った,比較的複雑なクラス定義において
も,クラスの推定方法を詳細に決定できる。このため,
クラスの性質を考慮した高精度の言語モデルを構築で
き,従来法と比べて高い認識性能を得る効果がある。
【0077】なお,実施の形態2における音声認識方法
をプログラムとして記録媒体に記録し、この記録媒体を
用いてコンピュータを動作させ、クラス別単語生起モデ
ルおよびクラス連鎖モデルを生成することもできる。こ
の場合,図8と図9に示すクラス言語モデル学習プログ
ラムと図5と同様の認識プログラムから構成される。ク
ラス言語モデル学習プログラムは,構造化クラステキス
ト変換手段26と同様の処理を行う構造化クラステキスト
変換機能と,クラス連鎖モデル推定手段22と同様の処理
を行うクラス連鎖モデル推定機能と,構造化クラス適用
規則抽出手段27と同様の処理を行う構造化クラス適用規
則抽出機能と,クラス別単語生起モデル推定手段24と同
様の機能を持つクラス別単語生起モデル推定機能から構
成されるソフトウェアである。また認識プログラムは,
実施の形態1と同様の構成をとるソフトウェアである。
【0078】実施の形態3.図10は,実施の形態3に
係る音声認識装置のブロック図を示している。実施の形
態1と異なる実施の形態3に特徴的な部分は,確率付き
クラス定義記述35,確率付きクラス化テキスト変換手段
28,確率付きクラス化適用規則抽出手段29を備え,クラ
ス化の書き換え規則の適用にあいまい性が生じる場合で
あっても全ての場合を確率的に対処できるようにした点
である。これは,特にクラス定義が複雑化した場合に有
用である。以下に図10の機能ブロックを説明する。
【0079】確率付きクラス定義記述35は,単語とクラ
スの関係が確率的に対応付けられたクラス定義記述であ
る。実施の形態1に示したクラス定義では,単語とクラ
スの関係は一意に決定する必要があったが,ここでは確
率的な対応付けが可能である。図11は,確率付きクラ
ス定義記述の例である。このクラス定義記述では,都道
府県名,市名,駅名というクラスを定義している。ま
た,「東京」「横浜」「千葉」という単語が複数のクラ
スに対応していることがわかる。それぞれの単語はクラ
スに対応する確率(式20)が付与されている。なお,
数値で度合いを示した対応付けであれば,確率の定義を
満たさなくとも同様の処理が可能である。
【0080】
【数20】
【0081】例えば,「横浜」という単語は,市の名称
と同時に駅の名称であり,クラス記号「<市名>」およ
び「<駅名>」のそれぞれに確率0.5で対応付けてい
る。この確率は,例えば適当な学習用テキストデータを
用いてEMアルゴリズムにより反復的に与えることができ
る。
【0082】確率付きクラス化テキスト変換手段28は,
確率付きクラス定義記述35を読み込み,確率的考慮をし
てクラス化を行ったテキストを出力する。図11の例で
は,「横浜・に・着いた」という文は,「<市名>・に
・着いた」,「<駅名>・に・着いた」という文をそれ
ぞれ頻度0.5として出力する。なお,全ての文を出力す
る必要はなく,例えば文の出現確率の上位から1個また
は複数個に頻度を配分し,頻度が0となった文は出力し
なくても良い。
【0083】クラス連鎖モデル推定手段22は,確率付き
クラス化テキスト変換手段28によりクラス化されたテキ
ストとその頻度を読み込み,事前のクラス列から次に出
力されるクラスを予測する確率モデルを推定する。入力
されるクラス連鎖に頻度が付与されている場合は,これ
を考慮して頻度の合計を算出し,後続するクラスの出現
確率を求める。
【0084】確率付きクラス化適用規則抽出手段29は,
確率付きクラス定義記述35を読み込み,確率付きクラス
化テキスト変換手段28と同様に確率を考慮してテキスト
をクラス化し,その際に適用された規則を出力する。上
記の例では,「<市名> ←横浜」,「<駅名> ←
横浜」という規則がそれぞれ頻度0.5で出力される。
【0085】図12は,クラス連鎖モデル学習用テキス
トデータ30,確率付きクラス定義記述35から,クラス連
鎖モデルを推定するための動作フローを示している。ま
ず確率付きクラス化テキスト変換手段28は,確率付きク
ラス定義記述35を読み込む(ステップS1201)。次に確
率付きクラス化テキスト変換手段28は,単語に区切られ
たクラス連鎖モデル学習用テキストデータ30を順次読み
込み(ステップS1202),確率付きクラス定義35に従っ
て必要な単語をクラス化し,クラス化の確率計算に基づ
く文の頻度を付与してクラス記号列を出力する(ステッ
プS1203)。クラス連鎖モデル推定手段22は,入力され
たクラス記号列順次加算していく(ステップS1204)。
確率付きクラス化テキスト変換手段28がテキストデータ
30を最後まで読み終え、クラス記号列の出力が終了した
ら,クラス連鎖モデル推定手段22は,クラス化された単
語の頻度分布からクラス連鎖モデルを推定する(ステッ
プS1205)。最後に推定されたクラス連鎖モデルをクラ
ス連鎖モデルメモリ13へ格納する(ステップS1206)。
【0086】図13は,クラス内単語生起モデルを推定
するための動作フローを示している。まず,確率付きク
ラス化適用規則抽出手段29は,確率付きクラス定義記述
35を読み込む(ステップS1301)。次にクラス別単語生
起モデル推定手段24は,確率付きクラス定義記述35およ
びクラス別学習方法知識33を読み込む(ステップS130
2)。次に確率付きクラス化適用規則抽出手段29は,ク
ラス内単語生起モデル学習用テキストデータ31から単語
列を順次読み込み(ステップS1303),対象単語列のク
ラス化を行い適用した規則を出力する(ステップS130
4)。クラス別単語生起モデル推定手段24は,モデル推
定に必要な場合について,単語列と対応するクラスの対
の頻度を加算する(ステップS1305)。学習用テキスト
データの読み込みがデータの末尾に到達したら,クラス
別学習方法知識33に記述された学習方法に従って,クラ
ス内単語生起モデルを推定する(ステップS1306)。最
後に推定したクラス別単語生起モデルをクラス内単語生
起モデルメモリ14へ格納する(ステップS1307)。
【0087】以上のように,実施の形態3に示した方法
は,単語とクラスの対応付けが確率的に定義される複雑
なクラス定義において,クラスごとにモデルの推定方法
を設定できるため,高い音声認識精度を得る効果があ
る。
【0088】なお,実施の形態3における音声認識方法
をプログラムとして記録媒体に記録させ、この記録媒体
により、コンピュータを動作させて、クラス連鎖モデル
とクラス内単語生起モデルを推定することもできる。こ
の場合,図10に対応するクラス言語モデル学習プログ
ラムと照合プログラムから構成される。クラス言語モデ
ル学習プログラムは,確率付きクラス化テキスト変換手
段28と同様の処理を行う確率付きクラス化テキスト変換
機能と,クラス連鎖モデル推定手段22と同様の処理を行
うクラス連鎖モデル推定機能と,確率付きクラス適用規
則抽出手段29と同様の処理を行う確率付きクラス適用規
則抽出機能と,クラス別単語生起モデル推定手段24と同
様の機能を持つクラス別単語生起モデル推定機能から構
成されるソフトウェアである。また照合プログラムは,
実施の形態1と同様の構成をとるソフトウェアである。 実施の形態4.
【0089】図14は,実施の形態4に係る音声認識装
置のブロック図を示している。実施の形態1と異なる実
施の形態に特徴的な部分は,確率付き構造化クラス定義
記述36,確率付き構造化クラステキスト変換手段37,確
率付き構造化クラス適用規則抽出手段38を備え,構造化
されたクラスの書き換え規則を適用する場合にあいまい
性が生じる場合であっても,確率を用いて全ての場合に
対処可能とした点である。これは,特にクラス定義が複
雑化した場合に有用である。以下に図14の機能ブロック
を説明する。
【0090】確率付き構造化クラス定義記述36は,単語
あるいはクラスの列とクラスの関係が確率的に対応付け
られたクラス定義である。実施の形態2に示したクラス
定義では,単語とクラスの関係は一意に決定する必要が
あったが,ここでは確率的な対応付けを可能としてい
る。
【0091】確率付き構造化クラステキスト変換手段37
は,あらかじめ確率付き構造化クラス定義記述36を読み
込み,テキストを入力すると確率を考慮してクラス化を
行い出力する。
【0092】クラス連鎖モデル推定手段22は,確率付き
構造化クラステキスト変換手段37により構造化クラスに
置き換えたテキストとその頻度を読み込み,事前のクラ
ス列から次に出力されるクラスを予測する確率モデルを
推定する。入力されるクラス連鎖に頻度が付与されてい
る場合は,これを考慮して頻度の合計を算出し,後続す
るクラスの出現確率を求める。
【0093】確率付き構造化クラス適用規則抽出手段38
は,確率付き構造化クラス定義記述36を読み込み,確率
付き構造化クラステキスト変換手段37と同様に入力され
たテキストから確率を考慮してテキストをクラス化し,
その際に適用された規則とその確率を出力する。
【0094】図15は,クラス連鎖モデル学習用テキス
トデータ30,確率付き構造化クラス定義記述36から,ク
ラス連鎖モデルを推定するための動作フローを示してい
る。まず確率付き構造化クラステキスト変換手段37は,
確率付き構造化クラス定義記述36を読み込む(ステップ
S1501)。次に確率付き構造化クラステキスト変換手段3
7は,単語に区切られたクラス連鎖モデル学習用テキス
トデータ30を順次読み込み(ステップS1502 ),単語を
クラス化し,クラス化の確率計算に基づく文の頻度を付
与してクラス記号列を出力する(ステップS1503)。ク
ラス連鎖モデル推定手段22は,入力であるクラス記号列
の頻度を計算する(ステップS1504)。確率付き構造化
クラステキスト変換手段37がクラス連鎖モデル学習用
テキストデータ30を最後まで読み終え、クラス記号列の
出力が終了したら,クラス連鎖モデル推定手段22は,ク
ラス化された単語の頻度分布からクラス連鎖モデルを推
定する(ステップS1505)。最後に推定されたクラス連
鎖モデルをクラス連鎖モデルメモリ13へ格納する(ステ
ップS1506)。
【0095】図16は,クラス内単語生起モデルを推定
するための動作フローを示している。まず,確率付き構
造化クラス適用規則抽出手段211は,確率付き構造化ク
ラス定義記述36を読み込む(ステップS1601)。次にク
ラス別単語生起モデル推定手段24は,確率付き構造化ク
ラス定義記述36およびクラス別学習方法知識33を読み込
む(ステップS1602)。次に確率付き構造化クラス適用
規則抽出手段211は,クラス内単語生起モデル学習用テ
キストデータ31から単語列を順次読み込み(ステップS1
603),対象単語列をクラス化して,その際に適用した
規則を出力する(ステップS1604)。クラス別単語生起
モデル推定手段24は,モデル推定に必要な場合につい
て,単語列と対応するクラスの対の頻度を加算する(ス
テップS1605)。クラス内単語生起モデル学習用テキス
トデータ31の読み込みがデータの末尾に到達したら,ク
ラス別学習方法知識33に記述された学習方法に従って,
クラス内単語生起モデルを推定する(ステップS160
6)。最後に推定したクラス別単語生起モデルをクラス
内単語生起モデルメモリ14へ格納する(ステップS160
7)。
【0096】以上のように,実施の形態4に示した方法
は,単語とクラスの対応付けが確率的に定義され,複雑
な構造を保持するクラス定義において,クラスごとにモ
デルの推定方法を設定できるため,高い音声認識精度を
得る効果がある。
【0097】なお,実施の形態4における音声認識方法
をプログラムとして記録媒体に記録させ、この記録媒体
により、コンピュータを動作させて、クラス連鎖モデル
とクラス内単語生起モデルを推定することもできる。こ
の場合,図14に対応するクラス言語モデル学習プログ
ラムと認識プログラムから構成される。クラス言語モデ
ル学習プログラムは,確率付き構造化クラステキスト変
換手段210と同様の処理を行う確率付き構造化クラステ
キスト変換機能と,クラス連鎖モデル推定手段22と同様
の処理を行うクラス連鎖モデル推定機能と,確率付き構
造化クラス適用規則抽出手段211と同様の処理を行う確
率付き構造化クラス適用規則抽出機能と,クラス別単語
生起モデル推定手段24と同様の機能を持つクラス別単語
生起モデル推定機能から構成されるソフトウェアであ
る。また認識プログラムは,実施の形態1と同様の構成
をとるソフトウェアである。
【0098】
【発明の効果】本発明に係る言語モデル学習システムお
よびそれを用いた音声認識システムは、クラス別単語生
起モデル推定手段,クラス内単語生起モデル学習用テキ
ストデータ、クラス別学習方法知識を備え,クラス別に
単語を生起するモデルの推定方法を設定したクラス言語
モデルが推定できる。このため,クラスの性質を考慮し
た高精度の言語モデルを構築でき,従来法と比べて高い
認識性能を得る効果がある。
【0099】本発明に係る他の言語モデル学習システム
およびそれを用いた音声認識システムは、クラス定義を
構造化クラス定義にして,クラスの単語生起モデルの設
定が容易である点を保ちつつ,より複雑なクラス定義を
可能とし、構造化を伴った,比較的複雑なクラス定義に
おいても,クラスの推定方法を詳細に決定できる。この
ため,クラスの性質を考慮した高精度の言語モデルを構
築でき,従来法と比べて高い認識性能を得る効果があ
る。
【0100】本発明に係る他の言語モデル学習システム
およびそれを用いた音声認識システムは、確率付きクラ
ス定義記述,確率付きクラス化テキスト変換手段,確率
付きクラス化適用規則抽出手段を備え,クラス化の書き
換え規則の適用にあいまい性が生じる場合であっても全
ての場合を確率的に対処でき、単語とクラスの対応付け
が確率的に定義される複雑なクラス定義において,クラ
スごとにモデルの推定方法を設定できるため,高い音声
認識精度を得る効果がある。
【0101】本発明に係る他の言語モデル学習システム
およびそれを用いた音声認識システムは、確率付き構造
化クラス定義記述,確率付き構造化クラステキスト変換
手段,確率付き構造化クラス適用規則抽出手段を備え,
構造化されたクラスの書き換え規則を適用する場合にあ
いまい性が生じる場合であっても,確率を用いて全ての
場合に対処可能としているので、単語とクラスの対応付
けが確率的に定義され,複雑な構造を保持するクラス定
義において,クラスごとにモデルの推定方法を設定でき
るため,高い音声認識精度を得る効果がある。
【0102】
【図面の簡単な説明】
【図1】 実施の形態1に係る音声認識装置のブロック
図。
【図2】 実施の形態1におけるクラス定義記述の説明
図。
【図3】 実施の形態1によるクラス連鎖モデルを推定
する動作フロー図。
【図4】 実施の形態1によるクラス内単語生起モデル
を推定する動作フロー図。
【図5】 実施の形態1による音声認識の動作フロー
図。
【図6】 実施の形態2に係る音声認識装置のブロック
図。
【図7】 実施の形態2における構造化クラス定義記述
の説明図。
【図8】 実施の形態2によるクラス連鎖モデルを推定
する動作フロー図。
【図9】 実施の形態2によるクラス内単語生起モデル
を推定する動作フロー図。
【図10】 実施の形態3に係る音声認識装置のブロッ
ク図。
【図11】 実施の形態3における構造化クラス定義記
述の説明図。
【図12】 実施の形態3によるクラス連鎖モデルを推
定する動作フロー図。
【図13】 実施の形態3によるクラス内単語生起モデ
ルを推定する動作フロー図。
【図14】 実施の形態4に係る音声認識装置のブロッ
ク図。
【図15】 実施の形態4によるクラス連鎖モデルを推
定する動作フロー図。
【図16】 実施の形態4によるクラス内単語生起モデ
ルを推定する動作フロー図。
【図17】 従来の音声認識装置のブロック図
【符号の説明】
1:特徴抽出手段,2:音響照合手段,3:言語絞込み手
段,11:音響モデル,12:単語辞書,13:クラス連鎖モ
デルメモリ,14:クラス内単語生起モデルメモリ,21:
クラス化テキスト変換手段,22:クラス連鎖モデル推定
手段,23:クラス化適用規則抽出手段,24:クラス内単
語生起モデル推定手段,26:構造化クラステキスト変換
手段,27:構造化クラス適用規則抽出手段,28:確率付
きクラス化テキスト変換手段,29:確率付きクラス化適
用規則抽出手段、30:クラス連鎖モデル学習用テキスト
データ,31:クラス内単語生起モデル学習用テキストデ
ータ,32:クラス定義記述、34構造化クラス定義記述、
35:確率付きクラス定義記述,36:確率付き構造化クラ
ス定義記述,37:確率付き構造化クラステキスト変換手
段,38:確率付き構造化クラス適用規則抽出手段。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 言語モデル学習用テキストデータを記憶
    した言語モデル学習用テキストデータ記憶手段と,単語
    とクラスの対応関係を表したクラス定義記述を記憶した
    クラス定義記述記憶手段と,クラス定義記述を参照して
    学習用テキストデータをクラス化するクラス化テキスト
    変換手段と,クラス化テキスト変換手段からのクラス化
    された事前のクラス列であるクラス連鎖から次の出現ク
    ラスを予測するモデルを推定するクラス連鎖モデル推定
    手段と,クラス定義記述を参照して学習用テキストデー
    タに適用されるクラス化規則を抽出するクラス化適用規
    則抽出手段と,クラスごとの学習方式を格納したクラス
    別学習方法知識と,クラス定義記述と学習データから抽
    出されたクラス化規則からクラス別学習方法知識を参照
    してクラスが単語を生起するモデルを求めるクラス別単
    語生起モデル推定手段とを備えたことを特徴とする言語
    モデル学習装置。
  2. 【請求項2】 クラス定義記述記憶手段はクラスの列ま
    たは単語の列とクラスの対応関係を表した構造化クラス
    定義記述を記憶した構造化クラス定義記述記憶手段であ
    り、 クラステキスト変換手段は構造化クラス定義記述を参照
    して学習用テキストデータをクラス化する構造化クラス
    テキスト変換手段であり,クラス化適用規則抽出手段は
    構造化クラス定義記述を参照して学習用テキストデータ
    に適用される構造化クラス化規則を抽出する構造化クラ
    ス化適用規則抽出手段であることを特徴とする請求項1
    記載の言語モデル学習装置。
  3. 【請求項3】 クラス定義記述記憶手段は単語列とクラ
    スの対応関係および規則適用の確率を保持した確率付き
    クラス定義記述を記憶した確率付きクラス定義記述記憶
    手段であり、 クラステキスト変換手段は確率付きクラス定義記述を参
    照して学習用テキストデータを確率の合計が1となるよ
    う1または複数にクラス化する確率付きクラステキスト
    変換手段であり,クラス化適用規則抽出手段は確率付き
    クラス定義記述を参照して学習用テキストデータに適用
    される確率付きクラス化規則を抽出する確率付きクラス
    化適用規則抽出手段であることを特徴とする請求項1記
    載の言語モデル学習装置。
  4. 【請求項4】 クラス定義記述記憶手段はクラスの列ま
    たは単語の列とクラスの対応関係および規則適用の確率
    を保持した確率付き構造化クラス定義記述を記憶した確
    率付き構造化クラス定義記述記憶手段であり、 クラステキスト変換手段は確率付き構造化クラス定義記
    述を参照して学習用テキストデータを確率が1となるよ
    う1または複数にクラス化する構造化クラステキスト変
    換手段であり,クラス化適用規則抽出手段は確率付き構
    造化クラス定義記述を参照して学習用テキストデータに
    適用される確率付き構造化クラス規則を抽出する確率付
    き構造化クラス適用規則抽出手段であることを特徴とす
    る請求項1記載の言語モデル学習装置。
  5. 【請求項5】 入力音声を分析して音響特徴量ベクトル
    を算出する特徴抽出手段と,音響特徴量を音響モデルお
    よび単語辞書と照合し、単語辞書より認識候補を出力す
    る音響照合手段と,クラス連鎖モデルよりクラス内単語
    生起モデルを参照して認識候補の絞込みを行い、認識結
    果を出力する言語絞込み手段とを備え,上記クラス連鎖
    モデルとクラス内単語生起モデルは、請求項1乃至請求
    項4の何れかに記載された言語モデル学習装置により推
    定されたモデルであることを特徴とする音声認識装置。
  6. 【請求項6】 言語モデル学習用テキストデータを入力
    し、単語とクラスの対応関係を表したクラス定義記述を
    記録した記憶手段からのクラス定義記述を参照して学習
    用テキストデータをクラス化するクラス化テキスト変換
    ステップと,クラス化テキスト変換手段でクラス化され
    たテキストにおける事前のクラスを記憶し、この事前の
    クラス列であるクラス連鎖とから次の出現クラスを予測
    するモデルを推定するクラス連鎖モデル推定ステップ
    と,上記記憶手段からのクラス定義記述を参照して学習
    用テキストデータに適用されるクラス化規則を抽出する
    クラス化適用規則抽出ステップと,クラスごとの学習方
    式を格納したクラス別学習方法知識と,上記記憶手段か
    らのクラス定義記述とクラス化適用規則抽出ステップで
    抽出されたクラス化規則からクラスごとの学習方式を参
    照してクラスが単語を生起するモデルを求めるクラス別
    単語生起モデル推定ステップとを備えた言語モデル学習
    方法。
  7. 【請求項7】 クラス定義記述はクラスの列または単語
    の列とクラスの対応関係を表した構造化クラス定義記述
    であり、 クラステキスト変換ステップは構造化クラス定義記述を
    参照して学習用テキストデータをクラス化する構造化ク
    ラステキスト変換ステップであり,クラス化適用規則抽
    出ステップは構造化クラス定義記述を参照して学習用テ
    キストデータに適用される構造化クラス化規則を抽出す
    る構造化クラス適用規則抽出ステップであることを特徴
    とする請求項6記載の言語モデル学習方法。
  8. 【請求項8】 クラス定義記述は単語列とクラスの対応
    関係および規則適用の確率を保持した確率付きクラス定
    義記述であり、 クラステキスト変換ステップは確率付きクラス定義記述
    を参照して学習用テキストデータを確率の合計が1とな
    るよう1または複数にクラス化する確率付きクラステキ
    スト変換ステップであり,クラス化適用規則抽出ステッ
    プは確率付きクラス定義記述を参照して学習用テキスト
    データに適用される確率付きクラス化規則を抽出する確
    率付きクラス化適用規則抽出ステップであることを特徴
    とする請求項6記載の言語モデル学習方法。
  9. 【請求項9】 クラス定義記述記憶ステップはクラスの
    列または単語の列とクラスの対応関係および規則適用の
    確率を保持した確率付き構造化クラス定義記述であり、 クラステキスト変換ステップは確率付き構造化クラス定
    義記述を参照して学習用テキストデータを確率の合計が
    1となるよう1または複数にクラス化する確率付き構造
    化クラステキスト変換ステップであり,クラス化適用規
    則抽出ステップは確率付き構造化クラス定義記述を参照
    して学習用テキストデータに適用される確率付き構造化
    クラス規則を抽出する確率付き構造化クラス適用規則抽
    出ステップであることを特徴とする請求項6記載の言語
    モデル学習方法。
  10. 【請求項10】 入力音声を分析して音響特徴量ベクト
    ルを算出する特徴抽出ステップと,音響特徴量を音響モ
    デルおよび単語辞書と照合し、単語辞書より認識候補を
    出力する音響照合ステップと,クラス連鎖モデルよりク
    ラス内単語生起モデルを参照して認識候補の絞り込みを
    行い、認識結果を出力する言語絞込みステップとを備
    え,上記クラス連鎖モデルとクラス内単語生起モデル
    は、請求項1乃至請求項4の何れかに記載された言語モ
    デル学習方法により推定されたモデルであることを特徴
    とする音声認識方法。
  11. 【請求項11】 請求項6乃至9のいずれかに記載の言
    語モデル学習方法を実現させるためのプログラムを記憶
    したコンピュータ読取可能な記憶媒体。
  12. 【請求項12】 請求項10に記載の音声認識方法を実
    現させるためのプログラムを記憶したコンピュータ読取
    可能な記憶媒体。
  13. 【請求項13】 コンピュータに請求項6乃至9のいず
    れかに記載の言語モデル学習方法を実行させるためのプ
    ログラム。
  14. 【請求項14】 コンピュータに請求項10に記載の音
    声認識方法を実行させるためのプログラム。
JP2002061623A 2002-03-07 2002-03-07 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体 Abandoned JP2003263187A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002061623A JP2003263187A (ja) 2002-03-07 2002-03-07 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002061623A JP2003263187A (ja) 2002-03-07 2002-03-07 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体

Publications (1)

Publication Number Publication Date
JP2003263187A true JP2003263187A (ja) 2003-09-19

Family

ID=29195820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002061623A Abandoned JP2003263187A (ja) 2002-03-07 2002-03-07 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体

Country Status (1)

Country Link
JP (1) JP2003263187A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005285051A (ja) * 2004-03-31 2005-10-13 Docon Co Ltd 点検作業支援システムおよび点検作業支援方法
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
WO2008001486A1 (fr) * 2006-06-29 2008-01-03 Nec Corporation Dispositif et programme de traitement vocal, et procédé de traitement vocal
CN107578771A (zh) * 2017-07-25 2018-01-12 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005285051A (ja) * 2004-03-31 2005-10-13 Docon Co Ltd 点検作業支援システムおよび点検作業支援方法
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
WO2008001486A1 (fr) * 2006-06-29 2008-01-03 Nec Corporation Dispositif et programme de traitement vocal, et procédé de traitement vocal
JPWO2008001486A1 (ja) * 2006-06-29 2009-11-26 日本電気株式会社 音声処理装置およびプログラム、並びに、音声処理方法
JP5223673B2 (ja) * 2006-06-29 2013-06-26 日本電気株式会社 音声処理装置およびプログラム、並びに、音声処理方法
US8751226B2 (en) 2006-06-29 2014-06-10 Nec Corporation Learning a verification model for speech recognition based on extracted recognition and language feature information
CN107578771A (zh) * 2017-07-25 2018-01-12 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
CN107578771B (zh) * 2017-07-25 2021-02-02 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备

Similar Documents

Publication Publication Date Title
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US10121467B1 (en) Automatic speech recognition incorporating word usage information
US7917361B2 (en) Spoken language identification system and methods for training and operating same
US6754626B2 (en) Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
He et al. Discriminative learning for speech recognition: theory and practice
US20110077943A1 (en) System for generating language model, method of generating language model, and program for language model generation
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
US20050038647A1 (en) Program product, method and system for detecting reduced speech
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
Mary et al. Searching speech databases: features, techniques and evaluation measures
JP3961780B2 (ja) 言語モデル学習装置およびそれを用いた音声認識装置
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
US11615787B2 (en) Dialogue system and method of controlling the same
JP4269625B2 (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JPH1185188A (ja) 音声認識方法及びそのプログラム記録媒体
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP2003263187A (ja) 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070619

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20070720