JP6158105B2 - 言語モデル作成装置、音声認識装置、その方法及びプログラム - Google Patents
言語モデル作成装置、音声認識装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP6158105B2 JP6158105B2 JP2014015223A JP2014015223A JP6158105B2 JP 6158105 B2 JP6158105 B2 JP 6158105B2 JP 2014015223 A JP2014015223 A JP 2014015223A JP 2014015223 A JP2014015223 A JP 2014015223A JP 6158105 B2 JP6158105 B2 JP 6158105B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- language model
- model
- speech recognition
- rsm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
・probabilistic Latent Semantic Indexing (以下「pLSI」ともいう):各文書(音声認識の場合、ひとまとまりの発話に対応)が一つのトピックに属すると仮定し、そのトピック毎にどの単語が出現しやすいかについての確率分布を持つ(非特許文献1参照)
・Latent Dirichlet Allocation (以下「LDA」ともいう):文書内の単語それぞれが個別のトピックを持ち、各文書毎にトピックの出現頻度を示す確率分布を持つ(非特許文献2参照)
本実施形態では、Replicated Softmax Model(以下「RSM」ともいう)と呼ばれる、単語ひとつひとつが複合トピックに従って出現していると考えるトピックモデルを用いて、言語モデルのトピック適応を行う。さらに、トピック適応後のトピック依存言語モデルを用いて音声認識を行う。
図1は従来の音声認識装置9の機能ブロック図、図2はその処理フローを示す図である。
音声認識装置の言語モデルは、単語列L={l1,l2,…,lj,…}(ここでl(エル)jは単語を表し、例えば自然数で記述した単語IDで表わされる)の出現確率P(L)を計算するモデルである。音声認識装置の言語モデルとして従来は広くN-gram言語モデルと呼ばれるモデルが用いられてきた。N-gram言語モデルでは、各単語は直前の数単語に依存して生成されると仮定され、以下のような数式を用いて単語列の確率を計算する。
トピックモデルでは、一般的にN-gram言語モデルと異なり、単語の順序ではなく、単語の出現頻度に着目する。ひとつの単語の出現分布は、単純にはどの単語が表われやすいか否かを示す確率となるが、ここに潜在的なトピックを示すトピック変数tを導入しP(lj|t)を考えることによって、トピックt毎に異なる単語の分布を考えることができる。トピック変数tを補助的に導入することで、少量の適応データからトピック変数tもしくはトピック確率分布のパラメタのみを推定し、言語モデルのトピック適応を行なうことができる。また、人手によって、トピック変数tもしくはトピック確率分布のパラメタを与える(調整する)ことによって、トピックを考慮した音声認識を行うことができるように調整することが可能になる。以下に、従来のトピック適応に用いられてきたトピックモデルpLSI及びLDAを説明する。また、本実施形態で用いるトピックモデルであるRSMを説明する。さらに、言語モデルのトピック適応で用いられるUnigram rescalingについて説明する。
既存のトピックモデルとして最も単純なものは、単語列Lについて、以下のような単語分布を置くpLSIと呼ばれる方法である。
pLSIは各単語列につき一つのトピックを考え、そのトピックに対応した単語分布から単語が出現していると考えるモデルである。しかし、実際の文書は内部に複数のトピックを含むことも多く、pLSIはそのような複数のトピックを含む単語列に対して適切にモデル化できないと考えられる。
本実施形態では、言語モデルのトピック適応にRSMを用いる。RSMは、それぞれ別々のトピックに属する単語を集めることで複数のトピックを含む単語列とするLDAと異なる。RSMでは、ひとつひとつの単語(または単語列)が、複数のトピックを含む(に属している)と考える。RSMの単語の生成確率を以下に示す。
(参考文献1)R. Salakhutdinov, G. Hinton, "Replicated softmax: an undirected topic model", Advances in neural information processing systems, 2009, pp. 1607-1614.
音声認識の言語モデルは認識結果に文法の制約を課すことが求められることから、単語の出現順序を考慮した確率モデル(前述のN-gram言語モデル等)であることが求められる。一方、トピックモデルはトピックの性質を記述するためのものであるため、文法的な制約を必要とせず、全ての出現順序を無視した単語の出現確率モデルとなっている。
ΘはN-gram言語モデルでありN-gram確率等のパラメタを含み、Γはユニグラム(N=1のN-gram)言語モデルであり、Uni-gram確率等のパラメタを含む。一般的にN-gram言語モデルΘは内部にユニグラム言語モデルΓを含むことが多いことからΓをΘと置き換えてもよい。
講義のような複合的なトピックに基づいて発話される音声の認識を正確に行なうには、RSMで示されるような、ひとつひとつの単語(または単語列)が、複数のトピックに属するとするトピックモデルを用いて、音声認識の言語モデルをトピック適応する必要がある。しかし、これまでのRSMは、単なる文書のモデリングテクニックとして利用されており音声認識に利用されてこなかった。音声認識に利用するためには、例えば、Unigram Rescalingのような技術を用いてN-gram言語モデルのような単語列の系列を捉えるモデルとの統合が必要である。
本実施形態では、あらかじめ大量の文書データによって、各トピックの分類とトピック毎の性質を表わすRSMを学習する。さらに、学習されたRSMを用いて、トピックを推定し、そのトピックに合わせた言語モデルで音声認識を行なう。
本実施形態におけるRSMは以下の実施形態によって学習されたものに限らないが、本実施形態では一例として参考文献1と同様、テキストデータに対するContrastive Divergence法を用いた例を紹介する。
・Maximum pseudo likelihood 法
・Maximum composite likelihood 法
・Score matching 法
学習データとして^L:={L1,L2,…,Ln,…,LM}が与えられている時、Contrastive Divergence法による学習では、以下の目的関数を最大化することを試みる。
ここでは、学習モデルを実際に適応に用いる方法の一例を紹介する。
本実施形態では、音声認識装置に入力された音声を適切なタイミングで切り分け、それを一つの文書だと考え、トピックを推定することで言語モデルのトピック適応を行なう。LDAによる従来技術のように(参考文献2参照)、RSMモデルのパラメタの一部(RSMの場合、トピックの選ばれやすさを表すパラメタbk)を再推定することによるトピック適応も考えられるが、本実施形態ではそれは用いず、発話に関連するトピックそのものを推定することでトピック適応することを考える。
(参考文献2)S. Watanabe, T. Iwata, T. Hori, A. Sako, Y. Ariki, "Topic tracking language model for speech recognition", Computer Speech and Language, 2011, Vol. 25, No. 2, pp 440-461.
実際の音声認識は、Unigram Rescalingによって、N-gram言語モデルをRSMでトピック適応したモデル(トピック依存言語モデル)を用いて行なう。
以上の理論を装置上に構成するための学習装置について説明する。
RSM初期化部107は、RSMのパラメタΛ={wk,l,bk,cl|∀l,∀k}の初期値を設定し(s1)、RSMパラメタ格納部106に格納する。なお、前述の通り、wk,lはトピックと単語の関係を示すパラメタであり、bkはトピックの選ばれやすさを表すパラメタであり、clは単語の起こりやすさを表すパラメタである。
まず、トピックサンプラー103は、乱数列を受け取り、それに基づき、学習用テキスト格納部101からRSM学習用のテキストデータを選択する(s2)。例えば、乱数列中の一つの乱数をテキストデータの総数で除算し、剰余を式(8)で利用される乱数rとして用いる。
さらに、トピックサンプラー103は、RSMパラメタ格納部106からRSMのパラメタΛ={wk,l,bk,cl|∀l,∀k}を取り出し、単語列Lrを受け取り、式(11)に従って、単語列Lrに関連付いたトピックを乱数生成器から受け取った乱数に基づいてサンプリングする(s3)。
テキストサンプラー104は、RSMパラメタ格納部106からRSMのパラメタΛを取り出し、トピックサンプラー103からトピック変数の推定値H(1)を受け取り、これらの値を用いて、式(13)により、乱数生成器の乱数に基づいて疑似テキストL(1):={l(1) 1,l(1) 2,…,l(1) j,…}をサンプリングする。L(1):={l(1) 1,l(1) 2,…,l(1) j,…}の各要素は以下の確率分布から生成される。
トピックサンプラー103は、サンプル値c(1) lを受け取り、この値と乱数生成器から出力される乱数および、RSMのパラメタΛを利用して、式(14)に従って疑似トピック変数H(2):={h(2) 1,h(2) 2,…,h(2) K}をサンプリングする(s5)。
RSM更新部102は、トピックサンプラー103から推定値H(1)と疑似トピック変数H(2)とを受け取る。また、テキストサンプラー104からサンプル値c(1) lを受け取る。これらの値を用いて、式(8)で用いる近似偏微分係数を式(10)に基づき求める。
RSM更新部102での処理を終える度に、収束チェックを行ない(s7)、収束していたらアルゴリズムを終了する。収束していない場合には、s2から処理を再度やり直す。
なお、収束ステップは主に外部要因(一定時間の経過など)によって行なわれるため、構成図中にこれを実行する箇所は記載していない。ただし、収束判定部を設けてもよい。収束判定には一般的に、c(1) lとC(l;Lr)の差の二乗を全てのrについて累積したもの等が用いられるが、特にそれに限定されることなく、例えば一定時間の経過後に収束したと判断しても良い。例えば、図示しない収束判定部において、c(1) lとC(l;Lr)の差の二乗を全てのrについて累積したものが閾値よりも小さい場合や一定時間の経過した場合に収束したと判定し、各部に処理を停止させるための制御信号を出力する構成としてもよい。
図5は本実施形態に係る音声認識装置200の機能ブロック図、図6はその処理フローの例を示す図である。
音響モデル格納部204及び言語モデル格納部205には、それぞれ既存の作成技術を用いて、作成された音響モデル及びN-gram言語モデルが音声認識に先立ち格納されている。
特徴量抽出部201は、音声データを受け取り、この音声データの音声特徴量を抽出し(s11)、音声特徴量格納部202に格納する。音声特徴量は、例えばMFCC(Mel-Frequency Cepstrum Coefficient)、MFCCの変化量であるΔMFCCであり、後述する第一単語列探索部203、第二単語列探索部208で用いることができるものであればよい。音声特徴量の抽出は、既存の技術を用いればよい。
<第一単語列探索部203>
第一単語列探索部203は、音響モデルとトピック適応前のN-gram言語モデルとを用いて、音声データに対して音声認識処理を行い、認識結果の単語列を探索する(s203)。
トピック推定部206は、音声認識結果~Lを受け取り、音声認識結果~Lを用いて、式(16)に基づいて、トピック変数Hを推定し(s13)、Unigram Rescale部209に出力する。
Unigram Rescale部209は、トピック変数Hを受け取る。さらに、言語モデル格納部205に格納されているN-gram言語モデルΘと、RSMパラメタ格納部207に格納されているRSMパラメタΛとを読み込む。
第二単語列探索部208は、音声特徴量格納部202に格納された音声特徴量を取り出す。また、第二単語列探索部208は、音響モデル格納部204に格納されている音響モデルΦを読み込む。また、トピック依存言語モデルΘ(2)を受け取る。第二単語列探索部208は、音響モデルΦとトピック依存言語モデルΘ(2)とを用いて、次式に基づき、特徴量ベクトルに対する音声認識を行い(s15)、音声認識結果Lを音声認識装置200の出力値として出力する。
実験に用いるコーパスとしてMITの英語講義音声を用いた。学習セットと評価セットの発話数はそれぞれ438,156発話と6,989発話である。学習セット中に含まれる語彙の数は49099種類、未知語、すなわち評価セットに含まれていて学習セットに含まれていない語彙は存在しなかった。
本実施形態によれば、従来技術よりも詳細にトピックを考慮した言語モデルを用いて音声認識を行うことができるという効果を奏する。
本実施形態で説明した方法で、従来技術よりも詳細にトピックを考慮した言語モデルを作成することができる。トピック依存言語モデルを作成する場合には、言語モデル作成装置は、少なくともRSMパラメタ格納部207、言語モデル格納部205及びUnigram Rescale部209を含めばよい。トピック変数Hは、音声認識用音声データがどのようなトピックを含んでいるかが事前に分かっている場合には、人手により入力すればよい。例えば、特定の分野のコールセンターの通話内容等に対する音声認識のためのトピック依存言語モデルであれば、事前にどのようなトピックに属するか予め人手により入力することができる。事前にどのようなトピックに属するか予め人手により入力することができない場合であって、認識結果L'(テキストデータ)を入力とすることができる場合には、上記構成にトピック推定部206を加えればよい。さらに、認識結果L'(テキストデータ)を入力とすることができない場合には、トピック推定用音声データに対して音声認識を行うために、音響モデル格納部204を加えればよい。なお、必ずしも音声特徴量を音声特徴量格納部202に格納する必要はなく、特徴量抽出部201で抽出した音声特徴量を直接各部に出力してもよい。何れの方法によって作成されたトピック依存言語モデルを用いたとしても、本実施形態に係る音声認識装置と同様の効果を奏する。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- Replicated Softmax Model(以下「RSM」)に基づくトピックモデルが格納されるRSM格納部と、
N-gram言語モデルが格納される言語モデル格納部と、
音声認識用音声データの潜在的なトピックの推定値であって、各要素が対応するトピックに属するか否かを表すベクトルからなるトピック変数と、前記トピックモデルのパラメタとを用いて、前記N-gram言語モデルを、前記音声認識用音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルに変更するUnigram Rescale部と、を含む、
言語モデル作成装置。 - 請求項1の言語モデル作成装置であって、
ljは単語を表し、L={l1,l2,…,lj,…}、k=1,2,…,K、トピック変数をH={h1,h2,…,hK}とし、RSMに基づくトピックモデルにおけるトピックと単語の関係を示すパラメタをwk,lとし、RSMに基づくトピックモデルにおけるトピックの選ばれやすさを示すパラメタをbkとし、RSMに基づくトピックモデルにおける単語の出現確率をclとし、Λ={wk,l,bk,cl|∀l,∀k}、N-gram言語モデルをΘとし、N-gram確率をP(lj|lj-1,lj-2,…,lj-N+1,Θ)とし、Uni-gram確率をP(lj|Θ)とし、トピック依存言語モデルのトピックに依存するN-gram確率をP(lj|lj-1,lj-2,…,lj-N+1,H,Λ,Θ)とし、0<α≦1とし、
前記Unigram Rescale部は、次式により定義されるN-gram確率P(lj|lj-1,lj-2,…,lj-N+1,H,Λ,Θ)を求め、前記N-gram言語モデルを前記トピック依存言語モデルに変更する、
言語モデル作成装置。 - 請求項1または2の言語モデル作成装置であって、
前記音声認識用音声データと同様の潜在的なトピックを持つと推定されるトピック推定用音声データに対応するトピック推定用テキストデータを用いて、前記トピック変数を求めるトピック推定部を、さらに含む、
言語モデル作成装置。 - 請求項3の言語モデル作成装置であって、
音響モデルが格納される音響モデル格納部と、
前記音響モデルと前記N-gram言語モデルとを用いて、トピック推定用音声データに対して音声認識処理を行い、前記トピック推定用テキストデータを認識結果の単語列として探索する第一単語列探索部と、をさらに含む、
言語モデル作成装置。 - 請求項1から4の何れかの言語モデル作成装置で作成した前記トピック依存言語モデルと音響モデルとを用いて、前記音声認識用音声データに対して音声認識処理を行い、認識結果の単語列を探索する第二単語列探索部を含む、
音声認識装置。 - Replicated Softmax Model(以下「RSM」)に基づくトピックモデルとN-gram言語モデルとが予め記憶されているものとし、
音声認識用音声データの潜在的なトピックの推定値であって、各要素が対応するトピックに属するか否かを表すベクトルからなるトピック変数と、前記トピックモデルのパラメタとを用いて、前記N-gram言語モデルを、前記音声認識用音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルに変更するUnigram Rescaleステップを含む、
言語モデル作成装置が実行する言語モデル作成方法。 - 請求項6の言語モデル作成方法で作成した前記トピック依存言語モデルと音響モデルとを用いて、前記音声認識用音声データに対して音声認識処理を行い、認識結果の単語列を探索する第二単語列探索ステップを含む、
音声認識装置が実行する音声認識方法。 - 請求項1〜4の何れかの言語モデル生成装置、または、請求項5の音声認識装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014015223A JP6158105B2 (ja) | 2014-01-30 | 2014-01-30 | 言語モデル作成装置、音声認識装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014015223A JP6158105B2 (ja) | 2014-01-30 | 2014-01-30 | 言語モデル作成装置、音声認識装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015141368A JP2015141368A (ja) | 2015-08-03 |
JP6158105B2 true JP6158105B2 (ja) | 2017-07-05 |
Family
ID=53771742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014015223A Active JP6158105B2 (ja) | 2014-01-30 | 2014-01-30 | 言語モデル作成装置、音声認識装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6158105B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299692A (zh) * | 2018-09-26 | 2019-02-01 | 深圳壹账通智能科技有限公司 | 一种身份识别方法、计算机可读存储介质及终端设备 |
CN110853617B (zh) * | 2019-11-19 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
JP7369110B2 (ja) * | 2020-09-30 | 2023-10-25 | 本田技研工業株式会社 | 会話支援装置、会話支援システム、会話支援方法およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010100853A1 (ja) * | 2009-03-04 | 2010-09-10 | 日本電気株式会社 | 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体 |
-
2014
- 2014-01-30 JP JP2014015223A patent/JP6158105B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015141368A (ja) | 2015-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6686154B2 (ja) | 発話認識方法及び装置 | |
TWI530940B (zh) | 聲學模型訓練方法和裝置 | |
EP2973546B1 (en) | Multilingual deep neural network | |
JP6831343B2 (ja) | 学習装置、学習方法及び学習プログラム | |
CN108538285B (zh) | 一种基于多任务神经网络的多样例关键词检测方法 | |
JP5982297B2 (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
JP2010170137A (ja) | 音声理解装置 | |
Kurimo et al. | Modeling under-resourced languages for speech recognition | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
Manjunath et al. | Indian Languages ASR: A Multilingual Phone Recognition Framework with IPA Based Common Phone-set, Predicted Articulatory Features and Feature fusion. | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
Jyothi et al. | Lexical access experiments with context-dependent articulatory feature-based models | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP6350935B2 (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
Chung et al. | Unsupervised discovery of structured acoustic tokens with applications to spoken term detection | |
JP2019078857A (ja) | 音響モデルの学習方法及びコンピュータプログラム | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
JP6699945B2 (ja) | 音響モデル学習装置、その方法、及びプログラム | |
Ravi et al. | Phoneme segmentation-based unsupervised pattern discovery and clustering of speech signals | |
JP2020129061A (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
Sahraeian | Acoustic modeling of under-resourced languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170607 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6158105 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |