JP6158105B2

JP6158105B2 - 言語モデル作成装置、音声認識装置、その方法及びプログラム

Info

Publication number: JP6158105B2
Application number: JP2014015223A
Authority: JP
Inventors: 陽太郎久保; 堀　貴明; 貴明堀; 中村　篤; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-01-30
Filing date: 2014-01-30
Publication date: 2017-07-05
Anticipated expiration: 2034-01-30
Also published as: JP2015141368A

Description

本発明は、トピックに応じた言語モデルを作成する技術、及びそのトピックに応じた言語モデルを用いる音声認識技術に関する。

音声認識装置は一般的に音響信号パターンと音素や単語の対応スコアを計算するための音響モデルと、音素や単語の並び方そのものをスコアリングするための言語モデルが格納されている。音声認識装置はこれらのモデル(音響モデル／言語モデル)のパラメタとして、大量のデータを用いた統計的推定技術による推定値を利用する。しかし、どれだけ大量にデータを集めても、音声認識装置の全利用状況に対応することは不可能である。そこで、これらのモデルのパラメタについて、実際の運用環境から得た少量の適応データによって、適応を行なう技術が考案されている。特に、音響モデルの適応技術では実際の運用時における話者の違いや環境の違いを吸収するために適応を行なう技術が導入される。一方、言語モデルの適応技術では、実際の運用時における発話のトピックの違いを吸収するために適応を行なう技術（以下、「トピック適応」ともいう）が利用される。

言語モデルのトピック適応では、まず、実際に音声認識装置が利用された際の少量のデータ（例えば、音声認識装置利用時の最初の数発話や直前の発話）を用いて、発話のトピックが何であるかを推定する。次に、そのトピックに応じた言語モデル（以下「トピック依存言語モデル」ともいう）を用いて音声認識を行なうことで音声認識精度を向上させる。一般的にこうした用途のためには、あらかじめ大量のテキスト学習データのトピックをなんらかの基準で分類しておき、そのトピックに応じた言語モデルのパラメタを用意しておく。そしてトピック適応時には、少量の適応データからどのトピックであるかを推定し、もしくは、確率的に記述し、そのトピックに応じた言語モデルのパラメタを利用して音声認識を行なう。文書から「何らかの話題(＝トピック)」を推定するための統計的なモデルをトピックモデルという。言語モデルのトピック適応を実現する際に用いられるトピックモデルには大別して以下の二種類がある。なお、後者は前者の発展形である。
・probabilistic Latent Semantic Indexing (以下「pLSI」ともいう):各文書(音声認識の場合、ひとまとまりの発話に対応)が一つのトピックに属すると仮定し、そのトピック毎にどの単語が出現しやすいかについての確率分布を持つ（非特許文献１参照）
・Latent Dirichlet Allocation (以下「LDA」ともいう):文書内の単語それぞれが個別のトピックを持ち、各文書毎にトピックの出現頻度を示す確率分布を持つ（非特許文献２参照）

LDAはpLSIと異なり、文書が複合的なトピックを扱うことができる。すなわち文書が「政治」トピックの単語と「科学技術」トピックの単語を同数程度持つと考えることでこの文書が「科学技術政策」を表わすといったような表現ができる。

T. Hofmann, "Learning the Similarity of Documents: An information-geometric approach to document retrieval and categorization", Advances in Neural Information Processing Systems, 2000, pp. 914-920. D. Blei, A. Ng, M. Jordan, "Latent Dirichlet Allocation", Journal of Machine Learning Research, 2003, Vol. 3 pp. 993-1022.

LDAでは「科学技術政策」トピックに表われる単語の分布は「科学技術」トピックで表われる単語の分布と「政治」トピックで表われる単語の分布の混合の形でしか表現されない。従って、「科学技術」と「政治」が組み合わさった場合に特にあらわれやすい単語や表われにくい単語を適切に表現することが難しい。

LDAやpLSIといったトピックモデルは音声認識の適応処理にも適用され成果を上げている。しかし、近年の音声認識の適用範囲の広がりに伴い、より詳細にトピックを考慮する必要性が増加してきた。

本発明は、従来技術よりも詳細にトピックを考慮した言語モデル作成技術を提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、言語モデル作成装置は、ReplicatedSoftmaxModel(以下「RSM」)に基づくトピックモデルが格納されるRSM格納部と、N-gram言語モデルが格納される言語モデル格納部と、音声認識用音声データの潜在的なトピックの推定値であって、各要素が対応するトピックに属するか否かを表すベクトルからなるトピック変数と、トピックモデルのパラメタとを用いて、N-gram言語モデルを、音声認識用音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルに変更するUnigramRescale部と、を含む。

上記の課題を解決するために、本発明の他の態様によれば、言語モデル作成方法は、ReplicatedSoftmaxModel(以下「RSM」)に基づくトピックモデルとN-gram言語モデルとが予め記憶されているものとし、音声認識用音声データの潜在的なトピックの推定値であって、各要素が対応するトピックに属するか否かを表すベクトルからなるトピック変数と、トピックモデルのパラメタとを用いて、N-gram言語モデルを、音声認識用音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルに変更するUnigramRescaleステップを含む。

本発明によれば、従来技術よりも詳細にトピックを考慮した言語モデルを作成することができるという効果を奏する。さらに、トピック適応後の言語モデルを用いて従来技術よりも詳細にトピックを考慮した、認識精度の高い音声認識を行うことができるという効果を奏する。

従来の音声認識装置の機能ブロック図。従来の音声認識装置の処理フローを示す図。第一実施形態に係る学習装置の機能ブロック図。第一実施形態に係る学習装置の処理フローの例を示す図。第一実施形態に係る音声認識装置の機能ブロック図。第一実施形態に係る音声認識装置の処理フローの例を示す図。実験結果を説明するための図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「~」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態＞
本実施形態では、Replicated Softmax Model(以下「RSM」ともいう)と呼ばれる、単語ひとつひとつが複合トピックに従って出現していると考えるトピックモデルを用いて、言語モデルのトピック適応を行う。さらに、トピック適応後のトピック依存言語モデルを用いて音声認識を行う。

まず、本実施形態に係る音声認識装置を説明する前に、前提となる従来の音声認識装置、言語モデル、トピックモデル、トピック適応技術について説明する。

＜従来の音声認識装置＞
図１は従来の音声認識装置９の機能ブロック図、図２はその処理フローを示す図である。

音声認識装置９は、特徴量抽出部９１、単語列探索部９２、音響モデル格納部９３、言語モデル格納部９４を備える。

特徴量抽出部９１は、音声データを受け取り、この音声データの音声特徴量を抽出し（ｓ９１）、音声特徴量の時系列を単語列探索部９２に出力する。

音響モデル格納部９３には、予め構築しておいた音響モデルが格納されている。言語モデル格納部９４には、予め構築しておいた言語モデルが格納されている。

単語列探索部９２は音響モデルと言語モデルを読み込み、音声特徴量の時系列を受け取る。単語列探索部９２は、まず、音響モデルに基づき、音声特徴量の時系列に対する１つ以上のシンボル系列を生成して、シンボル系列毎に音響スコアを算出する。なお、シンボル系列とは音素や単語等からなるシンボルの系列である。次に、言語モデルに基づき、シンボル系列毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、１つ以上のシンボル系列の中から、音声データに対応する文として最も確からしい（最も音響スコアと言語スコアとを統合したスコアが高い）シンボル系列を探索し（ｓ９２）、そのシンボル系列を認識結果（単語列）として出力する。

本実施形態は、音声認識装置の実行に用いるトピック依存言語モデルの作成方法および作成したトピック依存言語モデルを用いた音声認識方法に関するものである。

＜N-gram言語モデル＞
音声認識装置の言語モデルは、単語列L={l₁,l₂,…,l_j,…}(ここでl(エル)_jは単語を表し、例えば自然数で記述した単語IDで表わされる)の出現確率P(L)を計算するモデルである。音声認識装置の言語モデルとして従来は広くN-gram言語モデルと呼ばれるモデルが用いられてきた。N-gram言語モデルでは、各単語は直前の数単語に依存して生成されると仮定され、以下のような数式を用いて単語列の確率を計算する。

ここで、NはN-gram言語モデルの文脈長と呼ばれるパラメタであり、一般的に2から5くらいの値が用いられる。またΘはN-gram言語モデルを表し、N-gram言語モデルΘはN-gram確率P(l_j|l_j-1,l_j-2,…,l_j-N+1)等をパラメタとして含む。N-gram言語モデルは、単語の順序を表わす上で重要なモデルであるが、トピックを表現するような変数が介在しないため、トピック適応の用途にそのまま使うことはできない。

＜トピックモデル＞
トピックモデルでは、一般的にN-gram言語モデルと異なり、単語の順序ではなく、単語の出現頻度に着目する。ひとつの単語の出現分布は、単純にはどの単語が表われやすいか否かを示す確率となるが、ここに潜在的なトピックを示すトピック変数tを導入しP(l_j|t)を考えることによって、トピックt毎に異なる単語の分布を考えることができる。トピック変数tを補助的に導入することで、少量の適応データからトピック変数tもしくはトピック確率分布のパラメタのみを推定し、言語モデルのトピック適応を行なうことができる。また、人手によって、トピック変数tもしくはトピック確率分布のパラメタを与える（調整する）ことによって、トピックを考慮した音声認識を行うことができるように調整することが可能になる。以下に、従来のトピック適応に用いられてきたトピックモデルpLSI及びLDAを説明する。また、本実施形態で用いるトピックモデルであるRSMを説明する。さらに、言語モデルのトピック適応で用いられるUnigram rescalingについて説明する。

＜pLSI＞
既存のトピックモデルとして最も単純なものは、単語列Lについて、以下のような単語分布を置くpLSIと呼ばれる方法である。

なお、Θ_tはトピック変数tに対応するトピックにおける単語の出現確率の集合（Θ_t={θ_t,1,θ_t,2,…,θ_{t,l_j},…}）を、ΛはΘ_tの集合（Λ={Θ₁,Θ₂,…,Θ_t,…}）を、Ψはトピック変数tの分布を示すパラメタ(例えばトピック変数tの出現確率ψ_tの集合(Ψ={ψ₁,ψ₂,…,ψ_t,…}))を表す。ここで、P(l_j|Θ_t)=θ_{t,l_j}（下付添え字のl_jはl_jを表す）、及びP(t|Ψ)=ψ_tは離散確率分布でモデル化される。すなわち、

である。トピックとそれに対応する単語列が既知の場合は、θ_{t,l_j}及びP(t|Ψ)を単純に離散確率分布の推定法によって推定することができる。しかし、単語列に対しトピックを人手で付与するコストは高く、またそのようにして人手で付与したトピックが本当に有益か否かは分からない。そこで、トピックの個数のみを与え、トピックが何を意味するか、またそのトピックが与えられたときの単語の分布はどのようになっているかを単語列のみの学習データから自動で学習することが広く行なわれる。

pLSIを言語モデルのトピック適応に用いる場合は、適応データを用いて単一のトピック変数t、または、パラメタΨを推定し、推定した値を用いて、トピック適応を行う。

＜LDA＞
pLSIは各単語列につき一つのトピックを考え、そのトピックに対応した単語分布から単語が出現していると考えるモデルである。しかし、実際の文書は内部に複数のトピックを含むことも多く、pLSIはそのような複数のトピックを含む単語列に対して適切にモデル化できないと考えられる。

LDAは、単語列中の単語毎に異なるトピックt_jを用い、単語列の出現確率を以下のように定義する。

なお、T={t₁,t₂,…,t_j,…}、^Η={η₁,η₂,…}、Α={α₁,α₂,…}であり、t_jは単語l_jのトピックであり、^Ηはトピック変数の出現確率ηを要素とするベクトルであり、Αはベクトル^Ηの確率分布P(^Η|Α)のパラメタである。P(l_j|Θ_t)およびP(t_j|^Η)は離散確率分布で、P(^Η|Α)は離散確率分布のパラメタに関する確率分布として良く用いられるディリクレ分布を用いてモデル化される。この方法では各単語に割り当てられているトピックt_jとそのトピックt_jの出現確率ηとの組合せがトピック変数として用いられている。

LDAを言語モデルのトピック適応にLDAを用いる場合は、適応データを用いてパラメタΑを推定し、推定した値を用いてトピック適応を行う。

＜Replicated Softmax Model(以下「RSM」ともいう)＞
本実施形態では、言語モデルのトピック適応にRSMを用いる。RSMは、それぞれ別々のトピックに属する単語を集めることで複数のトピックを含む単語列とするLDAと異なる。RSMでは、ひとつひとつの単語（または単語列）が、複数のトピックを含む（に属している）と考える。RSMの単語の生成確率を以下に示す。

ここで、Λ={w_k,l,b_k,c_l|∀l,∀k}はパラメタ集合である。トピックの総数をKとし、各トピックをkで表し、k={1,2,…,K}であり、トピック変数はH∈{0,1}^Kであり、K次元のバイナリベクトルで表わされる。h_kはトピック変数Hのk番目の要素であり、ある単語が、トピックkに属する場合にはh_k=1とし、属さない場合にはh_k=0とする。w_k,lはトピックと単語の関係を示すパラメタであり、b_kはトピックの選ばれやすさを表すパラメタであり、c_lは単語の起こりやすさを表すパラメタである。pLSIやLDAでのトピックは一つの自然数(もしくはその確率分布)で表わされていたのに対し、RSMでは各トピックkはオン(1)とオフ(0)の二つの状態を持つ変数h_kで表され、各単語（または各単語列）がどのトピックに属するかはK個の要素h_kをもつベクトルで表わされる。このベクトルをトピック変数Hとする。

RSMを用いた文書のモデリングはLDAと比べ高精度であることが知られており(参考文献１参照)、音声認識の分野においても、この精度を活かした適応処理が期待できるが、これまで、RSMを音声認識に用いる言語モデルのトピック適応に利用した例はなかった。
(参考文献１)R. Salakhutdinov, G. Hinton, "Replicated softmax: an undirected topic model", Advances in neural information processing systems, 2009, pp. 1607-1614.

＜Unigram Rescaling＞
音声認識の言語モデルは認識結果に文法の制約を課すことが求められることから、単語の出現順序を考慮した確率モデル（前述のN-gram言語モデル等）であることが求められる。一方、トピックモデルはトピックの性質を記述するためのものであるため、文法的な制約を必要とせず、全ての出現順序を無視した単語の出現確率モデルとなっている。

音声認識にpLSIやLDAのトピックモデルを用いてN-gram言語モデルのトピック適応をする場合、Unigram Rescalingと呼ばれる手法が用いられる。Unigram Rescalingではトピック変数H（pLSIであればt、LDAであれば^Η）、および直前の数単語(以下では(N-1)単語の場合を示す)が与えられた際の単語の予測分布を以下のように表現する。

ここでΛはトピックモデルのパラメタ（pLSIであればtまたはΨ、LDAであればΑ）、
ΘはN-gram言語モデルでありN-gram確率等のパラメタを含み、Γはユニグラム(N=1のN-gram)言語モデルであり、Uni-gram確率等のパラメタを含む。一般的にN-gram言語モデルΘは内部にユニグラム言語モデルΓを含むことが多いことからΓをΘと置き換えてもよい。

なんらかのトピック変数Hが定まれば、Unigram Rescalingによってトピックと単語の順序の両方を考慮したトピック依存言語モデルを作成することができる。

＜本実施形態のポイント＞
講義のような複合的なトピックに基づいて発話される音声の認識を正確に行なうには、RSMで示されるような、ひとつひとつの単語（または単語列）が、複数のトピックに属するとするトピックモデルを用いて、音声認識の言語モデルをトピック適応する必要がある。しかし、これまでのRSMは、単なる文書のモデリングテクニックとして利用されており音声認識に利用されてこなかった。音声認識に利用するためには、例えば、Unigram Rescalingのような技術を用いてN-gram言語モデルのような単語列の系列を捉えるモデルとの統合が必要である。

言語モデルのトピック適応には、あらかじめ人手で適応データを書き起こすことによって行なう教師あり適応と、音声データのみからトピック適応を行なう教師なし適応がある。教師なし適応は可用性が高いが、トピックモデルに基づく教師なし適応を行なうためには、音声データのみからトピックを推定する必要がある。

本実施形態では、RSMを用いてトピック適応を行った言語モデルを用いて音声認識を行う。そのために、Unigram Rescalingを用いてRSMとN-gram言語モデルとを統合する。言い換えると、RSMのトピックモデルを用いてN-gram言語モデルのトピック適応をする。なお、トピック適応前の言語モデルを用いて音声認識を行い、その認識結果を用いてトピックを推定し、推定したトピックに基づきトピック適応を行う。

＜本実施形態に係るRSM学習及び音声認識＞
本実施形態では、あらかじめ大量の文書データによって、各トピックの分類とトピック毎の性質を表わすRSMを学習する。さらに、学習されたRSMを用いて、トピックを推定し、そのトピックに合わせた言語モデルで音声認識を行なう。

＜学習時：RSMの学習＞
本実施形態におけるRSMは以下の実施形態によって学習されたものに限らないが、本実施形態では一例として参考文献１と同様、テキストデータに対するContrastive Divergence法を用いた例を紹介する。

Contrastive Divergence 法以外では、例えば、以下のような手法も利用可能である。
・Maximum pseudo likelihood 法
・Maximum composite likelihood 法
・Score matching 法
学習データとして^L:={L₁,L₂,…,L_n,…,L_M}が与えられている時、Contrastive Divergence法による学習では、以下の目的関数を最大化することを試みる。

目的関数を最大化する手法としてStochastic Gradient Descentを適用すると、以下の更新則を繰り返し適用することによって最適なΛ={w_k,l,b_k,c_l|∀k,∀l}が得られる。

ここでηは学習率と呼ばれる正の実数、rは自然数{1,2,…,L}の中からランダムに選ばれた一つのインデックスである。本実施形態では一つのインデックスrのみを用いて更新をすることを考えるが、ここで複数のrをランダムに選び、上述の偏微分係数をその複数のr に関する平均にしても良い。

更新式中の偏微分は以下のように表わすことができる。

ここで<s(・)>_q(・)はs(・)の確率分布q(・)に関する期待値である。実際に計算機上で、この偏微分係数を計算し、式(8)による更新を行うのは、以下の理由により、困難である。一般に、期待値を計算するためには確率がゼロではない全ての値を列挙する必要があるが、式(9)の期待値計算の場合、そのような値の通り数は語彙数をV、文書長をL、トピック数をKとした場合、最大V^L2^K個となることがあり、非常に困難である。

そこでContrastive Divergence 法は、式(9)中に登場する確率分布(ここではqと置く)についての関数sについての期待値計算を、その分布から得られたサンプル値x〜q(x)による関数で<s(・)>_q(・)≒s(x)のように近似する。式(9)中に登場するP(h_k,L'|Λ)からのサンプル値を得るには繰り返し計算の必要なマルコフ連鎖モンテカルロ法を用いる必要があるが、Contrastive Divergence法では、一般的に、このマルコフ連鎖モンテカルロ法の繰り返し数を大幅に削減し、打ち切って利用する。ただし、打ち切らずに十分な回数繰り返し、正確な値を求めても良い。本実施形態では、繰り返し回数を1回に制限した特に単純なContrastive Divergence法について紹介する。繰り返し回数が一回の場合、上述の偏微分係数は以下のように近似される。

ここで、トピック変数Hのk番目の要素h_kの一回目のサンプル値h⁽¹⁾ _k∈{0,1}は、以下の確率分布からサンプルした変数である。ただしfはシグモイド関数と呼ばれる関数である。

Contrastive Divergence法では式(9)の期待値計算を有限回のサンプリングに基づく計算（式(10)）で近似する。トピック変数を上述のサンプルで得られたH⁽¹⁾とした場合の各単語の出現回数のサンプル値は以下のように、サンプルされた単語列L⁽¹⁾中の該当単語の回数を数えることによって得られる。

ここでサンプルされた単語列L⁽¹⁾:={l⁽¹⁾ ₁,l⁽¹⁾ ₂,…,l⁽¹⁾ _j,…}の各要素は以下の確率分布から生成される。

トピック変数Hのk番目の要素h_kの二回目サンプル値h⁽²⁾ _k∈{0,1}は、このようにして求めたc⁽¹⁾ _lを単語の出現回数だと考えたトピックの分布から以下のようにサンプルした変数である。

RSMのContrastive Divergence法は以上のサンプリングと更新を繰り返すことによって実行される。

＜認識時＞
ここでは、学習モデルを実際に適応に用いる方法の一例を紹介する。

＜トピック推定処理＞
本実施形態では、音声認識装置に入力された音声を適切なタイミングで切り分け、それを一つの文書だと考え、トピックを推定することで言語モデルのトピック適応を行なう。LDAによる従来技術のように（参考文献２参照）、RSMモデルのパラメタの一部(RSMの場合、トピックの選ばれやすさを表すパラメタb_k)を再推定することによるトピック適応も考えられるが、本実施形態ではそれは用いず、発話に関連するトピックそのものを推定することでトピック適応することを考える。
（参考文献２）S. Watanabe, T. Iwata, T. Hori, A. Sako, Y. Ariki, "Topic tracking language model for speech recognition", Computer Speech and Language, 2011, Vol. 25, No. 2, pp 440-461.

一般的に、音声認識装置の入力は音声であり、トピック推定の手掛りに利用できるテキストが与えられていることは少ない。そこで、本実施形態では、トピック適応前の言語モデルを用いて、入力音声データに対して音声認識処理を行い、認識結果の単語列~Lを用いて、トピックを推定し、そのトピック、もしくはトピックの確率分布が与えられている元での単語の確率分布を計算することによって言語モデルのトピック適応を行なう。

すなわち、入力音声データから抽出した音声特徴量の時系列Xに対し、音響モデルΦ及びN-gram言語モデルΘを用いて、以下の認識処理を行なう。

その後に、得られた認識結果~Lを用いて、トピック推定を行なう(以下の例では、最尤トピックを取得する方法を用いた)。

ここで最尤トピックを取得する以外に、確率分布P(H'|~L)に基づいてサンプリングを行なう手法（例えば、式(11)の確率分布からサンプリングしてトピック変数Hを求める）や、確率分布関数そのものをトピックだと見做して利用する手法（例えば、式(11)の確率分布関数を並べたベクトルH=[P(h_１=1|~L), P(h₂=1|~L), …] ）などが利用可能である。

＜音声認識処理＞
実際の音声認識は、Unigram Rescalingによって、N-gram言語モデルをRSMでトピック適応したモデル（トピック依存言語モデル）を用いて行なう。

先述したUnigram Rescaling法を実現する式(6)にRSMのトピックモデルの確率分布を導入することで次式を得る(次式では簡単のため式(6)のΓをΘと等しいとした)。

ここでΘはN-gram言語モデルであり、N-gram確率等のパラメタを含む。本実施形態では、RSMのトピックモデルと従来のN-gram言語モデルとの中間の確率値を与える言語モデルを利用可能にするため、補完係数α（ただし0<α≦1）を導入して、以下のような確率分布として用いた。

式(18)はα=1のときに式(17)と同等となる。

この確率分布関数は従来のN-gram言語モデルと同様に利用することができ、音声認識にそのまま利用可能である。

＜学習装置＞
以上の理論を装置上に構成するための学習装置について説明する。

図３は本実施形態に係る学習装置１００の機能ブロック図、図４はその処理フローの例を示す図である。学習装置１００は、学習用テキスト格納部１０１、RSM更新部１０２、トピックサンプラー１０３、テキストサンプラー１０４、乱数生成器１０５、RSMパラメタ格納部１０６及びRSM初期化部１０７を含む。

乱数生成器１０５は、乱数列を生成し、それぞれRSM初期化部１０７、テキストサンプラー１０４及びトピックサンプラー１０３に出力する。

学習用テキスト格納部１０１には、大量のテキストデータが格納されている。なお、このテキストデータには、音声認識用音声データ中に出現しうるトピックと同様のトピックが含まれることが望ましい。

（ｓ１）
RSM初期化部１０７は、RSMのパラメタΛ={w_k,l,b_k,c_l|∀l,∀k}の初期値を設定し（ｓ１）、RSMパラメタ格納部１０６に格納する。なお、前述の通り、w_k,lはトピックと単語の関係を示すパラメタであり、b_kはトピックの選ばれやすさを表すパラメタであり、c_lは単語の起こりやすさを表すパラメタである。

なお、初期値はどのような値でも良いが、本実施形態では、まず、RSM初期化部１０７は、乱数列を受け取り、その乱数を以下のような平均０、分散εの正規分布乱数に変換した後、それをw_k,lの初期値として設定する。

続いて、次式のように、0をb_kの初期値に、学習データ中の出現頻度の対数をc_lの初期値に設定する。

この初期化法の利点はε→0の極限において、P(L|H)の確率分布関数が、ユニグラム言語モデルの確率分布関数と一致する点がある。他の初期化法としては、単に全てを乱数で初期化する方法などが考えられる。

（ｓ２）
まず、トピックサンプラー１０３は、乱数列を受け取り、それに基づき、学習用テキスト格納部１０１からRSM学習用のテキストデータを選択する（ｓ２）。例えば、乱数列中の一つの乱数をテキストデータの総数で除算し、剰余を式(8)で利用される乱数rとして用いる。

次に、トピックサンプラー１０３は、学習用テキスト格納部１０１から乱数rに対応する単語列L_rをRSM学習用のテキストデータとして読み込む。

（ｓ３）
さらに、トピックサンプラー１０３は、RSMパラメタ格納部１０６からRSMのパラメタΛ={w_k,l,b_k,c_l|∀l,∀k}を取り出し、単語列L_rを受け取り、式(11)に従って、単語列L_rに関連付いたトピックを乱数生成器から受け取った乱数に基づいてサンプリングする（ｓ３）。

サンプリングしたトピックに対応するトピック変数の推定値H⁽¹⁾:={h⁽¹⁾ ₁,h⁽¹⁾ ₂,…,h⁽¹⁾ _K}をテキストサンプラー１０４に出力する。

（ｓ４）
テキストサンプラー１０４は、RSMパラメタ格納部１０６からRSMのパラメタΛを取り出し、トピックサンプラー１０３からトピック変数の推定値H⁽¹⁾を受け取り、これらの値を用いて、式(13)により、乱数生成器の乱数に基づいて疑似テキストL⁽¹⁾:={l⁽¹⁾ ₁,l⁽¹⁾ ₂,…,l⁽¹⁾ _j,…}をサンプリングする。L⁽¹⁾:={l⁽¹⁾ ₁,l⁽¹⁾ ₂,…,l⁽¹⁾ _j,…}の各要素は以下の確率分布から生成される。

さらに、テキストサンプラー１０４は、疑似テキストL⁽¹⁾から単語の起こりやすさを表すパラメタの一回目のサンプル値c⁽¹⁾ _lを式(12)に従って求め、トピックサンプラー１０３に出力する。

なお、式(13)のような離散確率分布の有限回独立なサンプルから得られる回数が多項分布に従うという性質を利用し、直接多項分布からのサンプルを行ない高速化してもよい。

（ｓ５）
トピックサンプラー１０３は、サンプル値c⁽¹⁾ _lを受け取り、この値と乱数生成器から出力される乱数および、RSMのパラメタΛを利用して、式(14)に従って疑似トピック変数H⁽²⁾:={h⁽²⁾ ₁,h⁽²⁾ ₂,…,h⁽²⁾ _K}をサンプリングする（ｓ５）。

（ｓ６）
RSM更新部１０２は、トピックサンプラー１０３から推定値H⁽¹⁾と疑似トピック変数H⁽²⁾とを受け取る。また、テキストサンプラー１０４からサンプル値c⁽¹⁾ _lを受け取る。これらの値を用いて、式(8)で用いる近似偏微分係数を式(10)に基づき求める。

さらに、近似偏微分係数を用いて、式(8)により、RSMのパラメタΛ={w_k,l,b_k,c_l|∀K,∀l}の更新を行なう（ｓ６）。

更新したパラメタΛはRSMパラメタ格納部１０６に格納し、次の更新に用いる。

（ｓ７）
RSM更新部１０２での処理を終える度に、収束チェックを行ない（ｓ７）、収束していたらアルゴリズムを終了する。収束していない場合には、ｓ２から処理を再度やり直す。
なお、収束ステップは主に外部要因(一定時間の経過など)によって行なわれるため、構成図中にこれを実行する箇所は記載していない。ただし、収束判定部を設けてもよい。収束判定には一般的に、c⁽¹⁾ _lとC(l;L_r)の差の二乗を全てのrについて累積したもの等が用いられるが、特にそれに限定されることなく、例えば一定時間の経過後に収束したと判断しても良い。例えば、図示しない収束判定部において、c⁽¹⁾ _lとC(l;L_r)の差の二乗を全てのrについて累積したものが閾値よりも小さい場合や一定時間の経過した場合に収束したと判定し、各部に処理を停止させるための制御信号を出力する構成としてもよい。

＜音声認識装置＞
図５は本実施形態に係る音声認識装置２００の機能ブロック図、図６はその処理フローの例を示す図である。

音声認識装置２００は、特徴量抽出部２０１、音声特徴量格納部２０２、第一単語列探索部２０３、音響モデル格納部２０４、言語モデル格納部２０５、トピック推定部２０６、RSMパラメタ格納部２０７、第二単語列探索部２０８及びUnigram Rescale部２０９を含む。

音声認識装置２００は、音声データを受け取り、音声認識を実行し、認識結果である単語列を出力する。

＜各格納部＞
音響モデル格納部２０４及び言語モデル格納部２０５には、それぞれ既存の作成技術を用いて、作成された音響モデル及びN-gram言語モデルが音声認識に先立ち格納されている。

RSMパラメタ格納部２０７には、RSMに基づくトピックモデルが音声認識に先立ち格納されている。RSMに基づくトピックモデルは、例えば、学習装置１００で学習したRSMパラメタを含む。

音響モデルは、音声の音響的特徴をモデル化したものであり、音響モデルを参照することにより音声データを音素や単語といったシンボルに変換する。通常、音響モデルでは、各音素をLeft to rightのＨＭＭ（Hidden Markov Model：隠れマルコフモデル）で、ＨＭＭ状態の出力確率分布をＧＭＭ（Gaussian Mixture Model：混合ガウス分布モデル）で表現する。そのため、実際に音響モデルとして音響モデル格納部２０４に記録されているのは、音素などの各シンボルにおけるＨＭＭの状態遷移確率、ＧＭＭの混合重み因子、及びガウス分布の平均ベクトル及び共分散行列等となる。これらを音響モデルパラメータと呼び、その集合をΦとする。

＜特徴量抽出部２０１＞
特徴量抽出部２０１は、音声データを受け取り、この音声データの音声特徴量を抽出し（ｓ１１）、音声特徴量格納部２０２に格納する。音声特徴量は、例えばＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）、ＭＦＣＣの変化量であるΔＭＦＣＣであり、後述する第一単語列探索部２０３、第二単語列探索部２０８で用いることができるものであればよい。音声特徴量の抽出は、既存の技術を用いればよい。
＜第一単語列探索部２０３＞
第一単語列探索部２０３は、音響モデルとトピック適応前のN-gram言語モデルとを用いて、音声データに対して音声認識処理を行い、認識結果の単語列を探索する（ｓ２０３）。

例えば、音声特徴量格納部２０２に格納された音声特徴量を取り出す。また、第一単語列探索部２０３は、音響モデル格納部２０４に格納されている音響モデル、言語モデル格納部２０５に格納されているN-gram言語モデルを読み込む。第一単語列探索部２０３は、音響モデルとN-gram言語モデルとを用いて、式(15)に基づき、音声特徴量の時系列Xに対する音声認識を行い（ｓ１２）、音声認識結果~Lをトピック推定部２０６に出力する。

なお、式(15)は、音響モデルΦとN-gram言語モデルΘとを用いて、１つ以上のシンボル系列の中から、音声データから抽出した音声特徴量の時系列Xに対応する文として最も確からしい（最も音響スコアと言語スコアとを統合したスコアが高い）シンボル系列を探索することを意味する。この最も確からしいシンボル系列を音声認識結果~Lとして出力する。

音声認識は、既存の技術を用いればよい。例えば、単語列探索部９２と同様の方法で音声認識を行ってもよい。トピックを推定することができれば十分であるため、比較的軽い処理の音声認識技術を用いればよい。なお、音声認識の際に取得される音響スコアを第二単語列探索部２０８に出力してもよい。

＜トピック推定部２０６＞
トピック推定部２０６は、音声認識結果~Lを受け取り、音声認識結果~Lを用いて、式(16)に基づいて、トピック変数Hを推定し（ｓ１３）、Unigram Rescale部２０９に出力する。

この推定処理は式(11)のP(h_ｋ=1|~L)が0.5より大きくなる場合にh_ｋ=1、そうでない場合にh_ｋ=0と設定することで実行される。

＜Unigram Rescale部２０９＞
Unigram Rescale部２０９は、トピック変数Hを受け取る。さらに、言語モデル格納部２０５に格納されているN-gram言語モデルΘと、RSMパラメタ格納部２０７に格納されているRSMパラメタΛとを読み込む。

Unigram Rescale部２０９は、トピック変数Hと、RSMパラメタΛとを用いて、次式で定義される音声データの潜在的なトピックを考慮したN-gram確率P(l_j|l_j-1,l_j-2,…,l_j-N+1,H,Λ,Θ)を求め、N-gram言語モデルΘを、音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルΘ⁽²⁾に変更し（ｓ１４）、第二単語列探索部２０８に出力する。

ただし、

である。換言すると、N-gram言語モデルΘとトピック変数HとRSMパラメタΛとを用いて、トピック依存言語モデルΘ⁽²⁾を作成する。

＜第二単語列探索部２０８＞
第二単語列探索部２０８は、音声特徴量格納部２０２に格納された音声特徴量を取り出す。また、第二単語列探索部２０８は、音響モデル格納部２０４に格納されている音響モデルΦを読み込む。また、トピック依存言語モデルΘ⁽²⁾を受け取る。第二単語列探索部２０８は、音響モデルΦとトピック依存言語モデルΘ⁽²⁾とを用いて、次式に基づき、特徴量ベクトルに対する音声認識を行い（ｓ１５）、音声認識結果Lを音声認識装置２００の出力値として出力する。

つまり、従来のN-gram言語モデルΘに代えて、トピック依存言語モデルΘ⁽²⁾を用いればよい。

＜実験結果＞
実験に用いるコーパスとしてMITの英語講義音声を用いた。学習セットと評価セットの発話数はそれぞれ438,156発話と6,989発話である。学習セット中に含まれる語彙の数は49099種類、未知語、すなわち評価セットに含まれていて学習セットに含まれていない語彙は存在しなかった。

また、各種パラメタの調整には711文の開発セットを用いた。潜在トピックの数Kは32とした。評価セットの音声認識単語エラー率を図７に示す。結果より本実施形態によって発話トピックに合わせて音声認識を行なうことで認識精度を改善可能であることが示された。

＜効果＞
本実施形態によれば、従来技術よりも詳細にトピックを考慮した言語モデルを用いて音声認識を行うことができるという効果を奏する。

音声認識の言語モデルを、実際に利用される状況でのトピックに合わせて詳細に調整できる。また、従来法と異なり、複合的なトピックを直接考慮することが可能なため、学習データ中に表われなかったトピックのための言語モデルを、トピックを表わす変数を人手によって調整することによって作成することもできる。

＜変形例＞
本実施形態で説明した方法で、従来技術よりも詳細にトピックを考慮した言語モデルを作成することができる。トピック依存言語モデルを作成する場合には、言語モデル作成装置は、少なくともRSMパラメタ格納部２０７、言語モデル格納部２０５及びUnigram Rescale部２０９を含めばよい。トピック変数Hは、音声認識用音声データがどのようなトピックを含んでいるかが事前に分かっている場合には、人手により入力すればよい。例えば、特定の分野のコールセンターの通話内容等に対する音声認識のためのトピック依存言語モデルであれば、事前にどのようなトピックに属するか予め人手により入力することができる。事前にどのようなトピックに属するか予め人手により入力することができない場合であって、認識結果L'（テキストデータ）を入力とすることができる場合には、上記構成にトピック推定部２０６を加えればよい。さらに、認識結果L'（テキストデータ）を入力とすることができない場合には、トピック推定用音声データに対して音声認識を行うために、音響モデル格納部２０４を加えればよい。なお、必ずしも音声特徴量を音声特徴量格納部２０２に格納する必要はなく、特徴量抽出部２０１で抽出した音声特徴量を直接各部に出力してもよい。何れの方法によって作成されたトピック依存言語モデルを用いたとしても、本実施形態に係る音声認識装置と同様の効果を奏する。

なお、トピック推定用の音声データとして、音声認識用の音声データの一部を用いてもよいし、音声認識用の音声データとは別の音声データを用いてもよい。ただし、トピック推定用の音声データは、音声認識用の音声データと同様の潜在的なトピックを持つと推定されるものでなければならない。

なお、本実施形態では、第一単語列探索部２０３と第二単語列探索部２０８で同じ音響モデルを用いているが、異なる音響モデルを用いてもよい。例えば、第一単語列探索部２０３では、データ量の少ない音響モデルを用いて、演算量の少ない方法で音響スコアを求めてもよい。

本実施形態では、学習装置１００と音声認識装置２００を別装置として説明しているが、１つの装置内でこれらの処理を行ってもよい。この場合、RSMパラメタ格納部１０６とRSMパラメタ格納部２０７とを同一の記憶部としてもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Replicated Softmax Model(以下「RSM」)に基づくトピックモデルが格納されるRSM格納部と、
N-gram言語モデルが格納される言語モデル格納部と、
音声認識用音声データの潜在的なトピックの推定値であって、各要素が対応するトピックに属するか否かを表すベクトルからなるトピック変数と、前記トピックモデルのパラメタとを用いて、前記N-gram言語モデルを、前記音声認識用音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルに変更するUnigram Rescale部と、を含む、
言語モデル作成装置。
請求項１の言語モデル作成装置であって、
l_jは単語を表し、L={l₁,l₂,…,l_j,…}、k=1,2,…,K、トピック変数をH={h₁,h₂,…,h_K}とし、RSMに基づくトピックモデルにおけるトピックと単語の関係を示すパラメタをw_k,lとし、RSMに基づくトピックモデルにおけるトピックの選ばれやすさを示すパラメタをb_kとし、RSMに基づくトピックモデルにおける単語の出現確率をc_lとし、Λ={w_k,l,b_k,c_l|∀l,∀k}、N-gram言語モデルをΘとし、N-gram確率をP(l_j|l_j-1,l_j-2,…,l_j-N+1,Θ)とし、Uni-gram確率をP(l_j|Θ)とし、トピック依存言語モデルのトピックに依存するN-gram確率をP(l_j|l_j-1,l_j-2,…,l_j-N+1,H,Λ,Θ)とし、0＜α≦１とし、
前記Unigram Rescale部は、次式により定義されるN-gram確率P(l_j|l_j-1,l_j-2,…,l_j-N+1,H,Λ,Θ)を求め、前記N-gram言語モデルを前記トピック依存言語モデルに変更する、

言語モデル作成装置。
請求項１または２の言語モデル作成装置であって、
前記音声認識用音声データと同様の潜在的なトピックを持つと推定されるトピック推定用音声データに対応するトピック推定用テキストデータを用いて、前記トピック変数を求めるトピック推定部を、さらに含む、
言語モデル作成装置。
請求項３の言語モデル作成装置であって、
音響モデルが格納される音響モデル格納部と、
前記音響モデルと前記N-gram言語モデルとを用いて、トピック推定用音声データに対して音声認識処理を行い、前記トピック推定用テキストデータを認識結果の単語列として探索する第一単語列探索部と、をさらに含む、
言語モデル作成装置。
請求項１から４の何れかの言語モデル作成装置で作成した前記トピック依存言語モデルと音響モデルとを用いて、前記音声認識用音声データに対して音声認識処理を行い、認識結果の単語列を探索する第二単語列探索部を含む、
音声認識装置。
Replicated Softmax Model(以下「RSM」)に基づくトピックモデルとN-gram言語モデルとが予め記憶されているものとし、
音声認識用音声データの潜在的なトピックの推定値であって、各要素が対応するトピックに属するか否かを表すベクトルからなるトピック変数と、前記トピックモデルのパラメタとを用いて、前記N-gram言語モデルを、前記音声認識用音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルに変更するUnigram Rescaleステップを含む、
言語モデル作成装置が実行する言語モデル作成方法。
請求項６の言語モデル作成方法で作成した前記トピック依存言語モデルと音響モデルとを用いて、前記音声認識用音声データに対して音声認識処理を行い、認識結果の単語列を探索する第二単語列探索ステップを含む、
音声認識装置が実行する音声認識方法。
請求項１〜４の何れかの言語モデル生成装置、または、請求項５の音声認識装置として、コンピュータを機能させるためのプログラム。