JP2002268677A - 統計的言語モデル生成装置及び音声認識装置 - Google Patents

統計的言語モデル生成装置及び音声認識装置

Info

Publication number
JP2002268677A
JP2002268677A JP2001063485A JP2001063485A JP2002268677A JP 2002268677 A JP2002268677 A JP 2002268677A JP 2001063485 A JP2001063485 A JP 2001063485A JP 2001063485 A JP2001063485 A JP 2001063485A JP 2002268677 A JP2002268677 A JP 2002268677A
Authority
JP
Japan
Prior art keywords
word
class
speech
language model
classes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001063485A
Other languages
English (en)
Inventor
Hiroshi Yamamoto
博史 山本
Yoshinori Kosaka
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2001063485A priority Critical patent/JP2002268677A/ja
Publication of JP2002268677A publication Critical patent/JP2002268677A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 言語モデルの適応データにおいて話題や文型
などのドメインを考慮して、効率的に統計的言語モデル
を生成する。 【解決手段】 言語モデル生成部20は、学習用テキス
トデータメモリ13,14内の学習用テキストデータに
基づいてすべての単語を処理対象の単語の前に接続され
る単語の品詞属性に基づく後向きクラスの品詞クラスに
分類し、処理対象の単語の後に接続される単語の品詞属
性に基づく前向きクラスの品詞クラスに分類する。次い
で、複数の単語が連続したときに固有の読みが与えられ
る結合単語について後向きクラスについて結合単語内の
最先の単語の品詞クラスにクラス分類し、前向きクラス
について結合単語内の最後の単語の品詞クラスにクラス
分類した後、処理対象の単語の前の接続と後ろの接続毎
に複数の品詞クラスを有する多重クラスN−gramの
出現確率を計算してその統計的言語モデルを生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、学習用テキストデ
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。
【0002】
【従来の技術】連続音声認識における言語モデルの性能
は学習データと認識対象のデータのドメインの一致度に
強く依存することが知られており、学習データと認識対
象のデータのドメインにずれがある場合には性能が大き
く劣化する。この問題を解決する手段として言語モデル
の適応が一般に用いられる。しかしながら、言語モデル
適応においても適応効果は適応元データと適応先データ
のドメインの一致度に依存するため、適応元データとし
て適応先データとなるべく近いものを選ぶことが望まし
い。ディクテーション等の書き言葉においてはドメイン
としては認識対象のデータの話題等が対象となることが
一般的であるが、話し言葉を認識対象とした場合、ドメ
インとして話題等の他に文型も同時に考慮する必要が生
じてくる。
【0003】次いで、ドメインの多次元性について説明
する。発声音声文を書き下したテキストデータなどのデ
ィクテーション等の書き言葉を対象とした言語モデル適
応においては、ドメインの違いは話題等の違いとして取
り扱われることが多い。この場合ドメインの違いは主と
して内容語の違いの形で現われ、機能語に対しては変化
がないことを意味している。しかしながら、話し言葉に
おいては話題が同じでも話者の立場の違いに伴って文型
が変化し、機能語の連鎖に対しても変化を伴うと考えら
れる。このため、話し言葉におけるドメインの違いとし
ては話題の他に文型の違いを同時に考慮しなければなら
ないと考えられる。
【0004】
【発明が解決しようとする課題】さらに、従来法である
単語N−gramベースの適応における問題点について
説明する。言語モデル適応におけるドメインの違いとし
て、話題、文型のように複数の要素を考慮した場合、適
応元データとして望ましい認識対象のデータに近いデー
タの収集は困難になってくる。従って、適応元データと
して全てのドメイン要素にたいして違いの少ない適応元
データではなく、話題のみ、文型のみのように個々のド
メイン要素に対して近い適応元データの組を使わざるを
得なくなる。具体的な例を表1に示す。
【0005】
【表1】 多次元ドメインにおける適応元データと認識対象のデータの組み合わせ ――――――――――――――――――――――――――――――――――― 話題(不問) 話題(経済) ――――――――――――――――――――――――――――――――――― 文型(新聞) 適応元データD2 文型(講演) 適応元データD1 認識対象のデータ(適応先データD3) ―――――――――――――――――――――――――――――――――――
【0006】表1に示すように、認識対象のデータとし
て経済に関する講演データを、適応元データの組として
経済に関する新聞データと一般の講演データの2つを用
いる場合があげられる。このような場合、従来の言語モ
デル適応法では全ての適応元データを混合して用いるこ
とになるため、適応先データD3と認識対象のデータの
ずれは大きくなってしまい、単一ドメインの場合と同等
の適応効果を得るためにはより多くの適応先データ、す
なわち認識対象のデータか必要になってくる。
【0007】次いで、クラスN−gramベースの適応
における問題点について説明する。適応先データの不足
を補う方法として、クラスN−gramベースの適応が
提案されている(例えば、従来技術文献1「Gareth Moo
re et al.,“Class-based language model adaptation
using mixtures of word-class weight”,Proceedings
of ICSLP-2000, Vol.4, pp.512--515, 2000」参
照、)。単語N−gramベースの適応においては、適
応先データD3に現われた単語に対してしか適応がなさ
れないのに対して、クラスN−gramベースの適応で
は適応先データD3に現われた単語が所属する全ての単
語に対して適応がなされるため、少量の適応先データD
3でも効率的に適応がなされると考えられる。
【0008】しかしながら、クラスN−gramにおけ
る単語クラスが適応先データD3にとって不適切なもの
であれば適切な適応は望めない。実際、上述したような
適応元データと適応先データの組合わせの場合、次のよ
うな問題が生じる。すなわち、適応元データD1では単
語Xには必ず単語Aが、適応元データD2では単語Xに
は必ず単語Bが後続するとする。一方、単語Yには適応
元データD1、適応元データD2に関わらず単語Aまた
は単語Bが後続するとする。この場合、適応元データD
1と適応元データD2の混合データにおいては単語X、
単語Yは同じような接続特性を示すことになるため、同
一の単語クラスに割り当てられることになり、単語X、
単語Yから単語A、単語Bに対する接続特性も同じと見
なされることになる。この適応元データの条件で、適応
先データD3において単語列X,Aのみが観測されたと
するならば、本来適応によって強調したい組合わせは単
語X,Aのみであるべきところが、クラスN−gram
ベースの適応では単語X、単語Yの接続特性は同じと見
なされるため単語Y,Aの組合わせまで強調されること
になるという問題が生じる。
【0009】本発明の目的は以上の問題点を解決し、従
来技術に比較して、言語モデルの適応データにおいて話
題や文型などのドメインを考慮して、効率的に統計的言
語モデルを生成し、さらには適応することができる統計
的言語モデル生成装置、及び、当該統計的言語モデルを
用いて従来例に比較して高い音声認識率で音声認識する
ことができる音声認識装置を提供することにある。
【0010】
【課題を解決するための手段】本発明に係る統計的言語
モデル生成装置は、所定の第1の話題に関する発声音声
文を書き下した学習用テキストデータと、上記第1の話
題と異なる第2の話題に関する文でありかつ上記発声音
声文とは異なる文型を有する文の学習用テキストデータ
とに基づいて、すべての単語をそれぞれ、処理対象の単
語の前に接続される単語の品詞属性に基づく後向きクラ
スの品詞クラスに分類する第1の分類手段と、上記2つ
の学習用テキストデータに基づいて、すべての単語をそ
れぞれ、処理対象の単語の後に接続される単語の品詞属
性に基づく前向きクラスの品詞クラスに分類する第2の
分類手段と、複数の単語が連続したときに固有の読みが
与えられる複数の単語の列である所定の結合単語につい
て、後向きクラスの品詞クラスについて結合単語内の最
先の単語の品詞クラスにクラス分類する一方、前向きク
ラスの品詞クラスについて結合単語内の最後の単語の品
詞クラスにクラス分類する第3の分類手段と、上記第1
の分類手段と上記第2の分類手段と上記第3の分類手段
とによってクラス分類された単語データに基づいて、処
理対象の単語の前の接続と後ろの接続毎に複数の品詞ク
ラスを有する単語クラスN−gramの出現確率を計算
することにより単語クラスN−gramの統計的言語モ
デルを生成する第1の生成手段とを備えたことを特徴と
する。
【0011】また、上記統計的言語モデル生成装置にお
いて、上記第2の話題に関する別の発声音声文を書き下
した学習用テキストデータを適応先データとして用い
て、上記生成された単語クラスN−gramの統計的言
語モデルに基づいて適応させて、単語クラス間の遷移確
率と、単語クラス内の遷移確率とを計算することによ
り、適応された統計的言語モデルを生成する第2の生成
手段をさらに備えたことを特徴とする。
【0012】さらに、本発明に係る音声認識装置は、入
力される発声音声文の音声信号に基づいて、所定の統計
的言語モデルを用いて音声認識する音声認識手段を備え
た音声認識装置において、上記音声認識手段は、上記統
計的言語モデル生成装置によって生成された統計的言語
モデルを用いて音声認識することを特徴とする。
【0013】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0014】図1は、本発明に係る一実施形態である言
語モデル生成部20及び言語モデル適応部30とを備え
たことを特徴とする連続音声認識装置のブロック図であ
る。この実施形態の連続音声認識装置は、学習用テキス
トデータメモリ13,14内の2つの学習用テキストデ
ータ(表1に示す適応元データD1及びD2)に基づい
て単語クラスbigram(バイグラム)の統計的言語
モデルを生成する言語モデル生成部20と、生成された
統計的言語モデルを適応用テキストデータメモリ15内
の適応先データD3に適応させて適応モデルM2の統計
的言語モデルを生成する言語モデル適応部30とを備
え、上記生成された2つの統計的言語モデルをスイッチ
SWを用いて選択的に切り換えることにより参照して連
続音声認識することを特徴としている。
【0015】音声認識装置においては、言語モデルとし
て単語N−gramが広く用いられている。単語N−g
ramは作成の簡便さ等の優れた点が多い一方、大量の
学習データを必要とするという問題点がある。このため
大量のデータの収集が難しい分野ではしばしば単語N−
gramを縮退させたクラスN−gramが用いられて
いる。クラスN−gramにおいて、クラスをどのよう
に設定するかはモデルの性能に直結する重要な問題であ
り、本実施形態では、その効率的な設定手法の1つとし
て接続の方向性を考慮した多重クラスとそれを用いたN
−gramを用いる。
【0016】まず、品詞によるクラスについて説明す
る。クラスN−gramにおけるクラスの指標としては
品詞情報がよく用いられる。そこで、本発明者は、ま
ず、品詞情報に基づくクラス分類を行ったクラスbig
ramと単語bigramの性能比較を行った。学習セ
ットはのべ単語数459,383単語、異なり単語数
7,221単語であり、クラスは品詞情報に基づく15
8クラスを用いた。実験結果はのべ単語数6,826の
テストセットにおいて、クラスbigramがパープレ
キシティ31.53であったのに対して、単語bigr
amでは18.51であり、両者の間にはかなりの差が
あることがわかる。この原因はクラス分類に用いた品詞
情報は単語の性質全体を表わすものであるため、N−g
ramにおいて重要な単語の接続性を純粋にあらわして
いるとは言い難いためと考えられる。
【0017】この状況に鑑みて本発明者は、以下に示す
多重クラスN−gramを発明した。ここで、品詞情報
によるクラス分類を行う場合と、単語の接続性のみに着
目してクラス分類を行う場合の違いに関して考える。例
として全節で用いた品詞分類の1つである動詞活用語尾
のうち次の3つを対象としてみる。 (a)「き:語尾、五段カ行、連用形」 (b)「し:語尾、五段サ行、連用形」 (c)「く:語尾、五段カ行、終止形」 これらは異なった品詞を持つために(ここでは、3つの
品詞にクラス分類される)、品詞情報によるクラス分類
では各々別のクラスとされる。この場合どのような単語
が前にくるか後にくるか、各々3通りの接続を考えるこ
とになる。しかしながら、これらに対してどのような単
語が前にくるかだけを考えた場合、「き」と「く」は同
じと考えることができ、どのような単語が後にくるかだ
けを考えた場合、「き」と「し」は同じと考えることが
できる。従って、どのような単語が前にくるか、後にく
るかという性質を個別に考え、それぞれに対して別々に
クラスを割り当てれば各々2通りの接続を考えればよい
ことになり、通常のクラス分類よりも効率的なクラス分
類を行うことができる。
【0018】本実施形態では、前者である前にある単語
の接続性(fromの接続性)に関するクラスを後向き
クラスと呼び、後者である後続する単語の接続性(to
の接続性)を前向きクラスと呼ぶことにし、個々の単語
は後向きクラス、前向きクラスの2つのクラス属性(品
詞属性)を持つと考えることにする。これによれば、上
記の3つの単語は後向きクラスでは (a)「き、く:語尾、五段カ行」 (b)「し:語尾、五段サ行」 の2つのクラスで表現でき、前向きクラスでは (a)「き、し:語尾、五段、連用形」 (b)「く:語尾、五段、終止形」 の2つのクラスで表現できる。この考え方はN≧3の場
合に対してもそのまま拡張可能で、この場合、個々の単
語はN個のクラス属性を持つことになる。このクラス属
性のことを多重クラス又は単語クラスと呼び、これを用
いたN−gramを多重クラスN−gramと呼ぶ。N
=2としたときの多重クラスbigramの出現確率
は、は次式で表わされる。
【0019】
【数1】P(Wn|Wn−1)≒P(Ct(Wn)|C
f(Wn−1))×P(Wn|Ct(Wn))
【0020】ここで、Ctは、処理対象の単語が属する
後向きクラスを表わし、Cfは前向きクラスを表わすも
のとする。このときのパラメータ数はクラスN−gra
mが、クラス数の自乗+単語数となるのに対して、後向
きクラス数×前向きクラス数+単語数となる。
【0021】次いで、結合単語の導入について説明す
る。N−gramにとって都合の良い単語の単位は実際
に音声認識を行う場合に都合の良い単語の単位と一致す
るとは限らない。これは、例えば「二十日(はつか)」
のよう特定の単語が連続した場合に固有の読みが与えら
れる場合があるからである。本実施形態では、複数の単
語が連続したときに固有の読みが与えられる複数の単語
の列を結合単語という。この場合は結合単語を辞書に新
たなエントリーとして加える必要が生じるが、通常のN
−gramでは結合単語を新たに導入した場合は再学習
が必要であり、またこれにともなって新たなデータスパ
ースの問題を引き起こす可能性がある。すなわち、デー
タ数が減少した後に確率値を計算するために、統計的言
語モデルの信頼性が低下する可能性が生じる。これに対
して、多重クラスbigramを用いた場合は再学習な
しに結合単語の導入が可能でありデータスパースの問題
を引き起こすこともない。単語Xの後に結合単語A+
B,単語Cという列が引き続いて出現する確率は次式で
表される。
【0022】
【数2】P(C|A+B)=P(Ct(A+B)|Cf
(X))×P(A+B|Ct(A+B))×P(Ct
(C)|Cf(A+B))×P(C|Ct(C))
【0023】ここで、結合単語A+Bの前にどのような
単語が来るかは単語Aのそれと同じで、結合単語A+B
の後にどのような単語が来るかは単語Bのそれと同じと
考えれば、次式のようにおくことができる。
【0024】
【数3】Ct(A+B)=Ct(A)
【数4】Cf(A+B)=Cf(B)
【0025】従って、数2は次式のようになる。
【0026】
【数5】P(C|A+B)≒P(Ct(A)|Cf
(X))×P(A+B|Ct(A))×P(Ct(C)
|Cf(B))×P(C|Ct(C)) ここで、
【数6】P(A+B|Ct(A))=P(A|Ct
(A))×P(B|A) である。
【0027】出現確率P(B|A)は多重クラスbig
ramでは、上記数1に従って次式を得る。
【0028】
【数7】P(B|A)=P(Ct(B)|Cf(A))
×P(B|Ct(B))
【0029】そして、上記数5はさらに次式のようにな
る。
【0030】
【数8】P(C|A+B)≒P(Ct(A)|Cf
(X))×P(A|Ct(A))×P(Ct(B)|C
f(A))×P(B|Ct(B))×P(Ct(C)|
Cf(B))×P(C|Ct(C))
【0031】従って、結合単語A+Bの導入後に必要な
パラメータは、上記数8に従って、すべて元の多重クラ
スbigramから再学習なしに求めることができる。
またこのときに増加したパラメータは結合単語A+Bの
後向きクラス内のunigram(ユニグラム)ただ1
つとなる。
【0032】さらに、自動クラス分類を用いた多重クラ
スbigramの統計的言語モデルの生成手順について
説明する。品詞によるクラス分類はN−gramにとっ
て必ずしも適切なのもではなく、接続性のみに着目した
クラス分類が望ましい。そこで接続性のみに着目したク
ラスをコーパスから自動的に規定することを考えた。ク
ラス分類の方法は次の手順で行う。
【0033】(SS1)各単語に対しその単語の接続性
を表わすベクトルを与える。このベクトルはクラスbi
gramのクラスに対しては前後の単語の接続を同時に
考慮する必要があるため、この単語からの前向き及び後
向きの単語bigramの確率値を並べたものとなる。
また、多重クラスbigramの各々のクラスにおいて
は片側の接続性のみを考慮するため後向きクラスでは後
向きの単語bigram、前向きクラスでは前向きの単
語bigramの確率値となる。 (SS2)1単語を1クラスとする。 (SS3)2つのクラスを統合した場合のunigra
m確率で重み付けされた分散の上昇が最小となるものを
選択して、クラス統合する。 (SS4)与えられたクラス数になるまで上記ステップ
SS3の手順をくりかえす。
【0034】ここで、さらにドメインの多次元性を考慮
した単語クラスタについて説明する。従来技術の課題の
項で述べた問題点は、単語クラスの生成において適応元
データD1および適応元データD2における固有の単語
接続特性を考慮していない点にあると考えられる。単語
クラスの生成において多重クラス(例えば、従来技術文
献2「山本博史ほか,“接続の方向性を考慮した多重ク
ラス複合N−gram言語モデル”,電子情報通信学会
論文誌,Vol.J83−D−II,pp.2146−
2151,2000年11月」、特許第2968792
号など参照。)を用いた場合、単語接続特性を表す特徴
量は次式で与えられる。
【0035】
【数9】V(x)=[{P(w|x),P(w
x),…,P(w|x)}]
【0036】ここで、P(w|x)は適応元データD
1と適応元データD2の混合データにおける単語xから
単語wへの前向き、または後ろ向きの単語bigra
mを表す。この特徴量に対して適応元データD1と適応
元データD2における接続特性を別々の接続特性と考え
た場合、特徴量は次式で与えられる。
【0037】
【数10】V(x)=[{P(w|x),P(w
|x),…,P(w|x)},{P(w
x),P(w|x),…,P(w|x)}]
【0038】ここで、P(w|x)は適応元データD
1における単語bigramを、P (w|x)は適応
元データD2における単語bigramを表す。この特
徴量に基づく単語クラスは適応元データD1、適応元デ
ータD2における固有の単語接続特性を考慮したものに
なっており、実際、上述の例における単語Xと単語Yに
は違う特徴量が割り当てられるため、異なった単語クラ
スに割り当てられる。
【0039】図2は、図1の言語モデル生成部20によ
って実行される言語モデル生成処理、並びに、図1の言
語モデル適応部30によって実行される言語モデル適応
処理を示すデータのフロー図である。図2において、適
応元データD1は、表1に示すように、話題が不問で文
型が講演文の文型(発声音声文の書き下し文)であるテ
キストデータであり、適応元データD2は、表1に示す
ように、話題が経済で文型が新聞の文の文型であるテキ
ストデータである。また、適応先データD3は、話題が
経済で文型が講演文の文型(発声音声文の書き下し文)
であるテキストデータである。
【0040】図2において、言語モデル生成部20は、
学習用テキストデータメモリ13,14内の2つの学習
用テキストデータ(適応元データD1,D2)に基づい
てそれぞれ、すべての単語を処理対象の単語の前に接続
される単語の品詞属性に基づく後向きクラスの品詞クラ
スに分類することにより、後向きbigramベクトル
V11,V12を生成し、これらを並置する(数10参
照。)ことにより後向き単語クラスの単語集合SS2を
生成する。次いで、処理対象の単語の後に接続される単
語の品詞属性に基づく前向きクラスの品詞クラスに分類
することにより、前向きbigramベクトルV1,V
2を生成し、これらを並置する(数10参照。)ことに
より前向き単語クラスの単語集合SS1を生成する。次
いで、適応元データD1,D2に基づいて、複数の単語
が連続したときに固有の読みが与えられる結合単語につ
いて後向きクラスについて結合単語内の最先の単語の品
詞クラスにクラス分類し、前向きクラスについて結合単
語内の最後の単語の品詞クラスにクラス分類した後、処
理対象の単語の前の接続と後ろの接続毎に複数の品詞ク
ラスを有する単語クラスbigramの出現確率を計算
して単語クラスbigramモデルM1の統計的言語モ
デルを生成して統計的言語モデルメモリ21に格納す
る。
【0041】次いで、クラスN−gramに基づく言語
モデル適応について説明する。上述のように生成された
単語クラスを用いたクラスN−gramベースの適応方
法において、クラス間遷移確率は大附らの方法(例え
ば、従来技術文献3「大附克年ほか,“テキスト選択に
基づくタスク依存言語モデル構築の検討”,日本音響学
会,2000年秋季研究発表会講演論文集I,1−5−
20,pp.39−40,,2000年」参照。)に基
づき次の数11にて演算し、クラス内の単語出現確率は
次の数12にて演算した。
【0042】
【数11】
【数12】
【0043】ここで、X、Yは後続、先行のクラスを表
し、W、Cは単語Wとそれが属するクラスを表し、C
(A)は適応先データD3における単語Aの出現回数を
表し、C(A)は適応元データD3における単語Aの
出現回数を表す。また、λは定数であり、実験的に求め
て設定され、好ましくは、30である。
【0044】従って、言語モデル適応部30は、図1及
び図2に示すように、学習用テキストデータメモリ15
内の学習用テキストデータを適応先データD3として用
いて、上記生成されてメモリ21内に格納された単語ク
ラスN−gramの統計的言語モデルに基づいて適応さ
せて、単語クラス間の遷移確率と、単語クラス内の遷移
確率とを計算することにより、適応された統計的言語モ
デル(適応モデルM2)を生成して統計的言語モデルメ
モリ31に格納する。
【0045】図3は、図1の言語モデル生成部20によ
って実行される言語モデル生成処理を示すフローチャー
トである。まず、図3のステップS1において、ステッ
プS1において学習用テキストデータである適応元デー
タD1,D2をメモリ13,14から読み出した後、ス
テップS2において前向き単語クラスの分類処理(図4
のサブルーチン)を実行し、ステップS3において後向
き単語クラスの分類処理(図5のサブルーチン)を実行
する。次いで、ステップS4において予め決められた結
合単語に対して、後向き単語クラスについて結合単位内
の最先の単語のクラスにクラス分類し、前向き単語クラ
スについて結合単語内の最後の単語のクラスにクラス分
類する。さらに、ステップS5において生成されたクラ
ス分類された単語間の結合に関するデータを用いて単語
クラスbigramの出現確率を計算することにより単
語クラスbigramモデルM1を生成してメモリ21
に格納して当該生成処理を終了する。ここで、結合単語
の出現確率は数8を用いて計算できる。
【0046】図4は、図3のサブルーチンである前向き
単語クラスの分類処理(ステップS2)を示すフローチ
ャートである。まず、図4のステップS11において学
習用テキストデータメモリ13内の適応元データD1か
ら前向き単語bigramの出現確率B1を演算し、ス
テップS12において各単語に対して前向き単語big
ramの出現確率B1を要素とするベクトルV1を生成
する。次いで、ステップS13において学習用テキスト
データメモリ14内の適応元データD2から前向き単語
bigramの出現確率B2を演算し、ステップS14
において各単語に対して前向き単語bigramの出現
確率B2を要素とするベクトルV2を生成する。そし
て、ステップS15において2つのベクトルV1,V2
を並置したベクトルV3を生成する。さらに、ステップ
S16において単語又はクラス間のunigramの重
み付きユークリッド距離が最も小さい単語又はクラスの
対を選び、一つのクラスに統合し、ステップS17にお
いてクラス統合後のクラス数は所定のしきい値よりも多
いか否かが判断され、YESであるときは、再びステッ
プS16の処理を繰り返す。一方、ステップS17でN
Oのときは、ステップS18においてクラス統合後の単
語集合を前向き単語クラスの単語集合として出力して元
のメインルーチンに戻る。
【0047】図5は、図3のサブルーチンである後向き
単語クラスの分類処理(ステップS3)を示すフローチ
ャートである。まず、図5のステップS21において学
習用テキストデータメモリ13内の適応元データD1か
ら後向き単語bigramの出現確率B11を演算し、
ステップS22において各単語に対して後向き単語bi
gramの出現確率B11を要素とするベクトルV11
を生成する。次いで、ステップS23において学習用テ
キストデータメモリ14内の適応元データD2から後向
き単語bigramの出現確率B12を演算し、ステッ
プS24において各単語に対して後向き単語bigra
mの出現確率B12を要素とするベクトルV12を生成
する。そして、ステップS25において2つのベクトル
V11,V12を並置したベクトルV13を生成する。
さらに、ステップS26において単語又はクラス間のu
nigramの重み付きユークリッド距離が最も小さい
単語又はクラスの対を選び、一つのクラスに統合し、ス
テップS27においてクラス統合後のクラス数は所定の
しきい値よりも多いか否かが判断され、YESであると
きは、再びステップS26の処理を繰り返す。一方、ス
テップS27でNOのときは、ステップS28において
クラス統合後の単語集合を後向き単語クラスの単語集合
として出力して元のメインルーチンに戻る。
【0048】次いで、図1に示す連続音声認識装置の構
成及び動作について説明する。図1において、単語照合
部4に接続された音素隠れマルコフモデル(以下、隠れ
マルコフモデルをHMMという。)メモリ11内の音素
HMMは、各状態を含んで表され、各状態はそれぞれ以
下の情報を有する。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行状態、及び後続状態のリスト、(d)出
力確率密度分布のパラメータ、及び(e)自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素HMMは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合HMMを変換
して生成する。ここで、出力確率密度関数は34次元の
対角共分散行列をもつ混合ガウス分布である。また、単
語照合部4に接続された単語辞書メモリ12内の単語辞
書は、音素HMMメモリ11内の音素HMMの各単語毎
にシンボルで表した読みを示すシンボル列を格納する。
【0049】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0050】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6に出力する。
【0051】ここで、スイッチSWをa側に切り換えた
とき、統計的言語モデルメモリ21が単語仮説絞込部6
に接続されて単語仮説絞込部6は統計的言語モデルメモ
リ21内の多重クラスbigramの統計的言語モデル
を参照して処理を行う一方、スイッチSWをb側に切り
換えたとき、統計的言語モデルメモリ31が単語仮説絞
込部6に接続されて単語仮説絞込部6は統計的言語モデ
ルメモリ31内の多重クラス複合bigramの統計的
言語モデルを参照して処理を行う。
【0052】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ21又は31内の統計的言
語モデルを参照して、終了時刻が等しく開始時刻が異な
る同一の単語の単語仮説に対して、当該単語の先頭音素
環境毎に、発声開始時刻から当該単語の終了時刻に至る
計算された総尤度のうちの最も高い尤度を有する1つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総尤度を有する仮説の単語列を認識結果として出
力する。なお、タスク適応化された統計的言語モデル
は、各タスク毎に1つの統計的言語モデルを備え、単語
仮説絞込部6は、音声認識しようとするタスクに対応す
る統計的言語モデルを選択的に参照する。本実施形態に
おいては、好ましくは、処理すべき当該単語の先頭音素
環境とは、当該単語より先行する単語仮説の最終音素
と、当該単語の単語仮説の最初の2つの音素とを含む3
つの音素並びをいう。
【0053】例えば、図6に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図6で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図6
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図6の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0054】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0055】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、言語モデル
生成部20と,言語モデル適応部30とは、例えば、デ
ジタル電子計算機などのコンピュータで構成され、バッ
ファメモリ3,5と、音素HMMメモリ11と、単語辞
書メモリ12と、学習用テキストデータメモリ13,1
4,15と、統計的言語モデルメモリ21,31とは、
例えばハードデイスクメモリなどの記憶装置で構成され
る。
【0056】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。
【0057】
【実施例】本発明者らは、提案された言語モデル生成方
法及び適応方法に対するパープレキシティによる評価実
験を行った。実験条件を表2に示す。続いて提案された
適応方法を用いて適応を行った結果のパープレキシティ
を表3に示す。
【0058】
【表2】 実験条件 ――――――――――――――――――――――――――――――――――― 話題 文型 対話数 ――――――――――――――――――――――――――――――――――― 適応元データD1 ホテル予約 フロント 7593 適応元データD2 フロント対話 客 5075 適応先データD3 フロント対話 フロント 2050 ―――――――――――――――――――――――――――――――――――
【0059】
【表3】 従来適応法との比較 ――――――――――――――――――――――――――――――――――― 方法 パープレキシティ 備 考 ――――――――――――――――――――――――――――――――――― 適応なし 49.34 単語bigram 従来法 42.26 単語bigram+適応データ 提案法 36.02 単語クラスbigram+適応データ ―――――――――――――――――――――――――――――――――――
【0060】ここで、λの値としては30を用いてい
る。比較対象は適応を行わなず適応元データD1と適応
元データD2の混合データのみを用いた場合、従来法で
ある単語N−gramをベースとした適応を行った場合
である。提案法は従来法に比べて13%低いパープレキ
シティを示しており、有効性が確認できた。
【0061】以上説明したように、ドメインの多次元性
を考慮したクラスN−gramに基づく言語モデルの生
成方法及び適応方法を示した。従って、本実施形態によ
れば、従来技術に比較して効率的に言語モデルを生成
し、さらに適応できる。また、生成された統計的言語モ
デル又は適応された統計的言語モデルを用いて、音声認
識する図1の連続音声認識装置においては、次の単語の
予測精度及び信頼性を大幅に向上させることができるの
で、音声認識率を大幅に向上させることができ、しかも
パラメータ数が増大しないので、使用メモリ容量を低減
させることができる。
【0062】以上の実施形態においては、単語クラスb
igramについて詳述しているが、本発明はこれに限
らず、それぞれ単語クラスN−gram(ここで、N≧
2である。)に容易に拡張することができる。
【0063】
【発明の効果】以上詳述したように本発明に係る統計的
言語モデル生成装置によれば、話題と文型の異なる2つ
の学習用テキストデータに基づいて、すべての単語を後
向きクラスの品詞クラスに分類する一方、すべての単語
を前向きクラスの品詞クラスに分類し、2つの学習用テ
キストデータに基づいて、すべての単語をそれぞれ、処
理対象の単語の後に接続される単語の品詞属性に基づく
前向きクラスの品詞クラスに分類した後、複数の単語が
連続したときに固有の読みが与えられる複数の単語の列
である所定の結合単語について、後向きクラスの品詞ク
ラスについて結合単語内の最先の単語の品詞クラスにク
ラス分類する一方、前向きクラスの品詞クラスについて
結合単語内の最後の単語の品詞クラスにクラス分類し、
上記クラス分類された単語データに基づいて、処理対象
の単語の前の接続と後ろの接続毎に複数の品詞クラスを
有する単語クラスN−gramの出現確率を計算するこ
とにより単語クラスN−gramの統計的言語モデルを
生成する。さらに、生成された統計的言語モデルに対し
て適応先データを用いて適応させて、単語クラス間の遷
移確率と、単語クラス内の遷移確率とを計算することに
より、適応された統計的言語モデルを生成する。
【0064】従って、従来技術に比較して効率的に言語
モデルを生成し、さらに適応できる。また、生成された
統計的言語モデル又は適応された統計的言語モデルを用
いて、音声認識装置においては、次の単語の予測精度及
び信頼性を大幅に向上させることができるので、音声認
識率を大幅に向上させることができ、しかもパラメータ
数が増大しないので、使用メモリ容量を低減させること
ができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である言語モデル生
成部20及び言語モデル適応部30とを備えたことを特
徴とする連続音声認識装置のブロック図である。
【図2】 図1の言語モデル生成部20によって実行さ
れる言語モデル生成処理、並びに、図1の言語モデル適
応部30によって実行される言語モデル適応処理を示す
データのフロー図である。
【図3】 図1の言語モデル生成部20によって実行さ
れる言語モデル生成処理を示すフローチャートである。
【図4】 図3のサブルーチンである前向き単語クラス
の分類処理(ステップS2)を示すフローチャートであ
る。
【図5】 図3のサブルーチンである後向き単語クラス
の分類処理(ステップS3)を示すフローチャートであ
る。
【図6】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMMメモリ、 12…単語辞書メモリ、 13,14…学習用テキストデータメモリ、 20…言語モデル生成部、 21,31…統計的言語モデルメモリ、 30…言語モデル適応部、 SW…スイッチ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 匂坂 芳典 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 Fターム(参考) 5B009 KB00 MB21 MC00 QA03 5B091 AA15 BA02 CB12 CC04 5D015 AA01 HH23

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 所定の第1の話題に関する発声音声文を
    書き下した学習用テキストデータと、上記第1の話題と
    異なる第2の話題に関する文でありかつ上記発声音声文
    とは異なる文型を有する文の学習用テキストデータとに
    基づいて、すべての単語をそれぞれ、処理対象の単語の
    前に接続される単語の品詞属性に基づく後向きクラスの
    品詞クラスに分類する第1の分類手段と、 上記2つの学習用テキストデータに基づいて、すべての
    単語をそれぞれ、処理対象の単語の後に接続される単語
    の品詞属性に基づく前向きクラスの品詞クラスに分類す
    る第2の分類手段と、 複数の単語が連続したときに固有の読みが与えられる複
    数の単語の列である所定の結合単語について、後向きク
    ラスの品詞クラスについて結合単語内の最先の単語の品
    詞クラスにクラス分類する一方、前向きクラスの品詞ク
    ラスについて結合単語内の最後の単語の品詞クラスにク
    ラス分類する第3の分類手段と、 上記第1の分類手段と上記第2の分類手段と上記第3の
    分類手段とによってクラス分類された単語データに基づ
    いて、処理対象の単語の前の接続と後ろの接続毎に複数
    の品詞クラスを有する単語クラスN−gramの出現確
    率を計算することにより単語クラスN−gramの統計
    的言語モデルを生成する第1の生成手段とを備えたこと
    を特徴とする統計的言語モデル生成装置。
  2. 【請求項2】 請求項1記載の統計的言語モデル生成装
    置において、 上記第2の話題に関する別の発声音声文を書き下した学
    習用テキストデータを適応先データとして用いて、上記
    生成された単語クラスN−gramの統計的言語モデル
    に基づいて適応させて、単語クラス間の遷移確率と、単
    語クラス内の遷移確率とを計算することにより、適応さ
    れた統計的言語モデルを生成する第2の生成手段をさら
    に備えたことを特徴とする統計的言語モデル生成装置。
  3. 【請求項3】 入力される発声音声文の音声信号に基づ
    いて、所定の統計的言語モデルを用いて音声認識する音
    声認識手段を備えた音声認識装置において、 上記音声認識手段は、請求項1又は2記載の統計的言語
    モデル生成装置によって生成された統計的言語モデルを
    用いて音声認識することを特徴とする音声認識装置。
JP2001063485A 2001-03-07 2001-03-07 統計的言語モデル生成装置及び音声認識装置 Pending JP2002268677A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001063485A JP2002268677A (ja) 2001-03-07 2001-03-07 統計的言語モデル生成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001063485A JP2002268677A (ja) 2001-03-07 2001-03-07 統計的言語モデル生成装置及び音声認識装置

Publications (1)

Publication Number Publication Date
JP2002268677A true JP2002268677A (ja) 2002-09-20

Family

ID=18922473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001063485A Pending JP2002268677A (ja) 2001-03-07 2001-03-07 統計的言語モデル生成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP2002268677A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
WO2012105231A1 (ja) * 2011-02-03 2012-08-09 日本電気株式会社 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
JP5218052B2 (ja) * 2006-06-26 2013-06-26 日本電気株式会社 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
WO2012105231A1 (ja) * 2011-02-03 2012-08-09 日本電気株式会社 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
US7366669B2 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
Chen et al. Automatic transcription of broadcast news
EP1074019B1 (en) Adaptation of a speech recognizer for dialectal and linguistic domain variations
Zhang et al. Improved context-dependent acoustic modeling for continuous Chinese speech recognition
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3444108B2 (ja) 音声認識装置
JP3176210B2 (ja) 音声認識方法及び音声認識装置
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP2000356997A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2938865B1 (ja) 音声認識装置
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
JP2002268677A (ja) 統計的言語モデル生成装置及び音声認識装置
Breslin Generation and combination of complementary systems for automatic speech recognition
Zheng et al. A real-world speech recognition system based on CDCPMs
JP2001013992A (ja) 音声理解装置
JPH1185184A (ja) 音声認識装置
JP2905686B2 (ja) 音声認識装置
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JP2731133B2 (ja) 連続音声認識装置
JP3009640B2 (ja) 音響モデル生成装置及び音声認識装置