JP4861912B2 - Probability calculation apparatus and computer program for incorporating knowledge sources - Google Patents

Probability calculation apparatus and computer program for incorporating knowledge sources Download PDF

Info

Publication number
JP4861912B2
JP4861912B2 JP2007162864A JP2007162864A JP4861912B2 JP 4861912 B2 JP4861912 B2 JP 4861912B2 JP 2007162864 A JP2007162864 A JP 2007162864A JP 2007162864 A JP2007162864 A JP 2007162864A JP 4861912 B2 JP4861912 B2 JP 4861912B2
Authority
JP
Japan
Prior art keywords
probability
model
calculating
local
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007162864A
Other languages
Japanese (ja)
Other versions
JP2009003110A5 (en
JP2009003110A (en
Inventor
サクリアニ ワティアスリ サクティ
コンスタンティン・マルコフ
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007162864A priority Critical patent/JP4861912B2/en
Publication of JP2009003110A publication Critical patent/JP2009003110A/en
Publication of JP2009003110A5 publication Critical patent/JP2009003110A5/ja
Application granted granted Critical
Publication of JP4861912B2 publication Critical patent/JP4861912B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a probability calculating apparatus capable of robustly calculating a probability of a phoneme of a speech signal by using available training data. <P>SOLUTION: The probability calculating apparatus 516 calculates a probability of each of phonemes in a speech signal by using a statistical acoustic model and knowledge sources. The statistical acoustic model and the knowledge sources have a causal dependency represented by a Bayesian network (BN). The BN corresponds to a junction tree including cluster nodes and separator nodes. The apparatus 516 includes: a storage device 520 for local acoustic models R3, C1 and L3; a module for calculating observation data for each of frames; right, center and left context calculating devices 570, 572 and 574 for calculating a local probability of each of the phonemes causing the observation data by using the local acoustic models R3, C1 and L3; and a PDF calculating device 576 for calculating a probability of each of the phonemes as a function of local probabilities. <P>COPYRIGHT: (C)2009,JPO&amp;INPIT

Description

本発明は音声認識における確率計算に関し,特に,1以上の知識源を組込んだ音声認識における確率計算に関する.   The present invention relates to probability calculation in speech recognition, and more particularly to probability calculation in speech recognition incorporating one or more knowledge sources.

情報技術は成長を続けており,日常生活の多くの局面においてますます大きな影響力を持つようになってきている.人間と,対話型システムのような情報処理装置との間の音声を介したコミュニケーションの様態もまた,ますます重要になっている.音声指向型インターフェースを実現するための基本的技術の1つとして,自動音声認識(Automatic Speech Recognition:ASR)がある.過去40年近く,多くの研究者がASRの領域の研究を行なってきた.その目標は,人間が発話した自然の話し言葉を,自動的に認識することが可能な知的な情報処理装置の開発である.しかし,複雑な音響信号から,その背後に存在する言語的なメッセージを抽出するのは,信号に含まれる変動について多くの源が存在するため,容易な処理ではない.   Information technology continues to grow and is becoming increasingly influential in many aspects of everyday life. Voice communication between humans and information processing devices such as interactive systems is also becoming increasingly important. One of the basic technologies for realizing a voice-oriented interface is automatic speech recognition (ASR). For the past 40 years, many researchers have been studying the area of ASR. The goal is to develop intelligent information processing devices that can automatically recognize natural spoken words spoken by humans. However, extracting a linguistic message behind a complex acoustic signal is not an easy process because there are many sources of variation in the signal.

いくつかのアプローチがこの問題に対処するために開発されている.これらのASRへのアプローチは,一般的に“知識ベース”と“コーパスベース”との2つのタイプに分類される.   Several approaches have been developed to address this issue. These approaches to ASR are generally classified into two types: “knowledge base” and “corpus base”.

前者は主に,音声信号のスペクトログラム又はその他の視覚的表現を解釈する人間の能力に基づいており,知識ベースの規則を用いる.しかし,これらの規則が互いに依存する全ての場合を予見するのは難しいため,ある規則が,同じ現象を説明する上で他の規則と全く矛盾するなどして,他の規則と必然的に競合してしまう.   The former is mainly based on human ability to interpret spectrograms or other visual representations of speech signals and uses knowledge-based rules. However, it is difficult to foresee all cases where these rules depend on each other, so a rule necessarily conflicts with other rules, such as completely contradicting other rules in explaining the same phenomenon. Resulting in.

これとは対照的に,後者のアプローチは通常,データから知識を自動的に抽出可能な,明確に定義された統計的アルゴリズムを用いた,音声信号のモデル化を基本にしている.このモデル化のアプローチは有望な結果を与えており,前者の知識ベースによるアプローチよりも良い性能を示している.これが,現在のASRシステムの多くが,隠れマルコフモデル(Hidden Markov Models:HMM)に基づく統計的データ駆動型の方法を用いる理由である.最先端のASRシステムは,制御された条件においては非常に高い性能に到達している.   In contrast, the latter approach is usually based on the modeling of speech signals using well-defined statistical algorithms that can automatically extract knowledge from the data. This modeling approach gives promising results and shows better performance than the former knowledge-based approach. This is why many of the current ASR systems use statistical data driven methods based on Hidden Markov Models (HMMs). State-of-the-art ASR systems have achieved very high performance under controlled conditions.

この領域の著しい進歩にもかかわらず,ASRシステムが毎日の生活で幅広く利用され,潜在能力を完全に発揮するまでには,克服すべき多くの課題が未だ存在する.例えば,予期できない音響の変化が存在すると,ASRシステムは人間の聴者よりもはるかに劣る性能しか示さない.単に,統計的モデルに頼るだけで,利用可能な付加的知識をほとんど無視するのでは,限定されたレベルの成功にしか到達できない.多くの研究者はこの問題に気付いており,知識ベース及び統計的なアプローチをさらに明確に統合するための様々な試みを行なってきた.   Despite significant advances in this area, there are still many challenges to overcome before the ASR system is widely used in everyday life and fully displays its potential. For example, in the presence of unexpected acoustic changes, ASR systems perform much worse than human listeners. Simply relying on a statistical model and ignoring most of the additional knowledge available can only reach a limited level of success. Many researchers are aware of this problem and have made various attempts to better integrate knowledge bases and statistical approaches.

今までのところ,非特許文献1は,再スコアリングを目的として,ニューラルネットワークを用いて,音響音素知識源の組込みを可能にする研究を提案している.非特許文献2及び3に開示の大語彙連続音声認識(Large−Vocabulary Speech Recognition:LVCSR)システムもまた,クインフォン/ペンタフォンといった長い期間の同時調音効果の組込みにより,音響モデルの改善をもたらすことに成功した.何人かの研究者は,最近になり,ベイズネットワーク(Bayesian Networks:BN)のようなグラフ的なツールの利用を試みている.BNはHMMを普遍化したものと考えることもでき,音声のスペクトル情報に加えて,調音素性,サブバンドの相関関係,又は話し方のスタイル等の付加的知識を簡単に組込むことができる(非特許文献4).
特開2007−052166公報 J.リ,Y.ツァオ,及びC.−H.リー,「自動音声認識における候補の再スコアリングのための知識源統合」,ICASSP予稿集,フィラデルフィア,米国,2005,837−840ページ(J.Li,Y.Tsao,and C.−H.Lee,“A study on knowledge source integration for candidate rescoring in automatic speech recognition,”in Proc.ICASSP,Philadelphia,USA,2005,pp.837−840.) C.ネッティ,G.ポタミアノス,J.ルッティン,I.マシューズ,H.グロティン,D.ヴェルギリ,J.シソン,A.マシャリ及びJ.シュー,「聴覚−視覚的音声認識」,技術報告,CSLP ジョンホプキンス大学,ボルチモア,米国,2000年(C.Neti,G.Potamianos,J.Luettin,I.Mattews,H.Glotin,D.Vergyri,J.Sison,A.Mashari,and J.Zhou,“Audio−visual speech recognition,”Tech.Rep.,CSLP John Hopkins University,Baltimore,USA,2000.) A.ローリエ,D.ヒンドル,M.ライリー及びR.スプロート,「AT&T LVCSR−2000システム」,音声トランスクリプションワークショップ,メリーランド大学,米国,2000年(A.Ljolje,D.Hindle,M.Riley,and R.Sproat,“The AT&T LVCSR−2000 system,”in Speech Transcription Workshop,University of Maryland,USA,2000.) K.ダウディ,D.フォア及びC.アントアーヌ,「確率論的グラフモデルに基づくマルチバンド音声認識の新たな試み」,ICSLP予稿集,北京,中国,329−332ページ,2000年(K.Daoudi,D.Fohr,and C.Antoine,“A new approach for multi−band speech recognition based on probabilistic graphical models,”in Proc.ICSLP, Beijing, China,pp.329−332,2000.) K.マルコフ及びS.ナカムラ,「ハイブリッドHMM/BN音響モデルの前方向−後方向トレーニング」,ICLSP予稿集,621−624ページ,2006年(K.Markov and S.Nakamura,“Forward−backwards training of hybrid HMM/BN acoustic models,”in Proc.ICSLP,pp.621−624,2006.) J.J.オデル,「大語彙音声認識でのコンテキストの使用」,博士論文,ケンブリッジ大学,ケンブリッジ,英国,1995(J.J.Odell,The Use of Context in Large Vocabulary Speech Recognition,Ph.D.thesis,Cambridge University,Cambridge,UK,1995.) Ji.ミン,P.O.ボイル,M.オーウェンス,及びF.J.スミス,「連続音声認識のためのトライフォンモデル構築のためのベイズアプローチ」,IEEE音声及び音響処理トランザクション,第7巻,第6号,678−684ページ,1999年11月(Ji.Ming,P.O.Boyle,M.Owens,and F.J.Smith,“A Bayesian approach for building triphone models for continuous speech recognition,"IEEE Trans.Speech and Audio Processing,vol.7,no 6,pp.678−684,November 1999.) S.サクティ,S.ナカムラ,及びK.マルコフ,「ベイズフレームワークに基づく広域音素コンテキストの組込みによる音響モデル精度の向上」,IEICE情報&システムトランザクション,E89−D巻,第3号,946−953ページ,2006年(S.Sakti,S.Nakamura,and K.Markov,“Improving acoustic model precision by incorporating a wide phonetic context based on a Bayesian framework”IEICE Trans.Inf.& Stst.,vol.E89−D,no.3,pp.946−953,2006) T.ジツヒロ,T.マツイ,及びS.ナカムラ,「MDL基準に基づく非均一HMMトポロジの自動生成」,IEICE情報&システムトランザクション,E87−D巻,第8号,2121−2129ページ,2004年(T.Jitsuhiro,T.Matsui,and S.Nakamura,“Automatic generation of non−uniform HMM topologies based on the MDL criterion,”IEICE Trans.Inf.& Syst.,vol E87−D,no.8,pp.2121−2129,2004)
So far, Non-Patent Document 1 has proposed research that enables the incorporation of acoustic phoneme knowledge sources using neural networks for the purpose of rescoring. The Large-Vocabulary Speech Recognition (LVCSR) system disclosed in Non-Patent Documents 2 and 3 can also improve acoustic models by incorporating long-term simultaneous articulation effects such as quinphone / pentaphone. succeeded in. Some researchers have recently attempted to use graphical tools such as Bayesian Networks (BN). BN can be thought of as a universal HMM, and can easily incorporate additional knowledge such as articulation features, subband correlation, or style of speech in addition to speech spectrum information (non-patented). Reference 4).
JP 2007-052166 A J. et al. Li, Y. Cao, and C.I. -H. Lee, “Knowledge Source Integration for Re-Scoring Candidates in Automatic Speech Recognition,” ICASSP Proceedings, Philadelphia, USA, 2005, pages 837-840 (J. Li, Y. Tsao, and C.-H. Lee, “A study on knowledge source integration for candidate recycling in automatic speech recognition,” in Proc. ICASSP, Philadelphia, USA, 2005, pp. 37, 2008. C. Netty, G. Potamianos, J.A. Rutin, I.D. Matthews, H.C. Grotin, D.C. Vergili, J.A. Sison, A. Mashari and J.H. Shu, "Hearing-Visual Speech Recognition", Technical Report, CSLP John Hopkins University, Baltimore, USA, 2000 (C. Neti, G. Potamianos, J. Luettin, I. Mattews, H. Grotin, D. Vergiri, (J. Sison, A. Mashari, and J. Zhou, “Audio-visual speech recognition,” Tech. Rep., CSLP John Hopkins University, Baltimore, USA, 2000.) A. Laurier, D.C. Hindle, M.M. Riley and R.C. Sprote, “AT & T LVCSR-2000 System”, Speech Transcription Workshop, University of Maryland, USA, 2000 (A. Ljolje, D. Hindle, M. Riley, and R. Sproat, “The AT & T LVCSR-2000 system. , "In Speech Transcribion Workshop, University of Maryland, USA, 2000.) K. Daudi, D.D. Fore and C.I. Antoine, “A New Trial of Multi-Band Speech Recognition Based on Probabilistic Graph Model”, ICSLP Proceedings, Beijing, China, pp. 329-332, 2000 (K. Daoudi, D. Fohr, and C. Antoine, “ A new approach for multi-band speech recognition based on probabilistic graphical models, “in Proc. ICSLP, Beijing, China, pp. 329-332, 2000.) K. Markov and S.M. Nakamura, “Forward-Backward Training of Hybrid HMM / BN Acoustic Model”, ICLSP Proceedings, 621-624, 2006 (K. Markov and S. Nakamura, “Forward-backwards training of hybrid HMM / BN acoustics” , "In Proc. ICSLP, pp. 621-624, 2006.) J. et al. J. et al. Odel, “Use of Context in Large Vocabulary Speech Recognition”, Doctoral Dissertation, University of Cambridge, Cambridge, UK, 1995 (JJ Odell, The Use of Large Vocabulary Speech Recognition, Ph. D. thesis University, Cambridge) , Cambridge, UK, 1995.) Ji. Min, P.M. O. Boyle, M.C. Owens, and F.M. J. et al. Smith, “A Bayesian approach to building a triphone model for continuous speech recognition”, IEEE Speech and Acoustic Processing Transactions, Vol. 7, No. 6, pp. 678-684, November 1999 (Ji. Ming, P O. Boyle, M. Owens, and F. J. Smith, “A Bayesian approach for building triphone models for continous spike recognition,” IE Transport. , November 1999.) S. Sakti, S. Nakamura and K. Markov, “Improvement of acoustic model accuracy by incorporating wide-range phoneme context based on Bayesian framework”, IEICE Information & System Transaction, Volume E89-D, No. 3, pages 946-953, 2006 (S. Sakti, S. Nakamura, and K. Markov, “Improving acoustic model precision by inducing a wide phonetic context based on a Bayesian framework, 94 & E. ) T.A. Gitzhiro, T .; Matsui and S. Nakamura, “Automatic Generation of Non-uniform HMM Topology Based on MDL Criteria”, IEICE Information & System Transactions, E87-D Volume 8, No. 2121-2129, 2004 (T. Jitsuhiro, T. Matsui, and S. J. Nakamura, “Automatic generation of non-uniform HMM topologies based on the MDL criterion,” IEICE Trans. Inf. & Syst., Vol E87-D, no.

しかし,そのような複雑なモデル等を開発して最善の性能を達成することが可能ではない場合がしばしばであった.モデルのパラメータを適切にトレーニングするには資源が不十分なとき,すなわちトレーニングデータの量,及び利用可能なメモリ領域のような資源が不十分な時に,特にそうしたことが起こる.その結果,頑健でない推定と,未知のパターンの数の増加とにより,入力空間の分解能が失われる.さらに,大きなモデルを用いたデコードもまた煩雑となり,時には不可能にさえなる.ここでできる最良の方法は,利用可能なトレーニングデータを用いて信頼性高く推定できる,簡単な形式のモデルを選択することである.   However, it was often not possible to develop such complex models and achieve the best performance. This is especially true when there are insufficient resources to properly train the parameters of the model, that is, when there is insufficient resources such as the amount of training data and available memory space. As a result, the resolution of the input space is lost due to non-robust estimation and an increase in the number of unknown patterns. In addition, decoding using large models is also cumbersome and sometimes impossible. The best way to do this is to select a simple form of model that can be reliably estimated using the available training data.

それゆえに,本発明の目的の1つは,利用可能なトレーニングデータを用いて,音声信号の音素の確率を頑健に計算することが可能な確率計算装置を提供することである.   Therefore, one of the objects of the present invention is to provide a probability calculation device capable of robustly calculating the probability of phonemes of speech signals using available training data.

本発明の別の目的は,データが疎になる可能性があるトレーニングデータを用いて音声信号の音素の確率を,頑健でかつ高い信頼性で計算することが可能な確率計算装置を提供することである.   Another object of the present invention is to provide a probability calculation device capable of calculating the probability of phonemes of a speech signal robustly and with high reliability using training data whose data may be sparse. It is.

本発明の第1の局面は,音声信号の所与のセグメント中に存在する,予め定義された組の音素の各々について,音声信号のための統計的音響モデル及び1以上の知識源を用いて,確率を計算するための確率計算装置に関する.セグメントは,音声信号の複数のフレームを含む.音響モデル及び1以上の知識源はベイズネットワークにより示される因果関係を有する.ベイズネットワークは,複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応する.この装置は,クラスタノード及び1以上のセパレータノードに対応する,複数の局部的音響モデルを記憶するための手段と,フレームの各々に対して予め定義された観測データを計算するための手段と,複数の局部的音響モデルを利用して,音素の各々の,観測データを発生する局部的確率を計算するための局部的確率計算手段と,音素の各々の,観測データを発生する確率を,局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含む.   A first aspect of the invention uses, for each predefined set of phonemes present in a given segment of a speech signal, a statistical acoustic model for the speech signal and one or more knowledge sources. It relates to a probability calculation device for calculating probabilities. A segment includes multiple frames of an audio signal. The acoustic model and one or more knowledge sources have a causal relationship represented by a Bayesian network. A Bayesian network corresponds to a junction tree that includes multiple cluster nodes and one or more separator nodes. The apparatus includes means for storing a plurality of local acoustic models corresponding to cluster nodes and one or more separator nodes, means for calculating observation data predefined for each of the frames, Using local acoustic models, local probability calculation means for calculating the local probability of generating observation data for each phoneme, and the probability of generating observation data for each phoneme And a probability calculation means for calculating as a predetermined function of the local probability calculated by the statistical probability calculation means.

局部的な音素の各々の,観測データを発生する確率は,局部的確率の予め定義された関数により計算される.各音素に対する局部的確率は複数の局部的音響モデルを利用して計算される.局部的モデルは1以上の知識源を組込んだモデルよりも小さいため,計算量はより少なくなり,モデルのトレーニングに必要なトレーニングデータの量もより少なくなり,そして,確率計算はより頑健で信頼性が高くなる.   The probability of generating observational data for each local phoneme is calculated by a predefined function of local probability. Local probabilities for each phoneme are calculated using multiple local acoustic models. Because local models are smaller than models that incorporate one or more knowledge sources, less computation is required, less training data is required to train the model, and probability calculations are more robust and reliable. The nature becomes high.

好ましくは,所定の関数は   Preferably, the predetermined function is

Figure 0004861912
で定義され,Dは観測データであり,Mは音響モデルであり,Nは正の整数であり,Kは1以上の知識源であり,ただし,P(D|K,M)(i=1〜N)及びP(D|M)は局部的確率計算手段により計算された局部的確率である.
Figure 0004861912
D is observation data, M is an acoustic model, N is a positive integer, K i is a knowledge source of 1 or more, provided that P (D | K i , M) (i = 1 to N) and P (D | M) are local probabilities calculated by the local probability calculating means.

さらに好ましくは,モデルMはモノフォン音響モデルであり,1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む.   More preferably, model M is a monophone acoustic model and the one or more knowledge sources include a preceding triphone context unit and a subsequent triphone context unit.

さらに好ましくは,モデルMは追加の知識源を用いてトレーニングされたモノフォン音響モデルであり,1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む.   More preferably, the model M is a monophone acoustic model trained with additional knowledge sources, the one or more knowledge sources including a preceding triphone context unit and a subsequent triphone context unit.

追加の知識源はアクセント知識,又は性別に関する知識,又はアクセント知識及び性別に関する知識の両方を含む.   Additional knowledge sources include accent knowledge, or gender knowledge, or both accent knowledge and gender knowledge.

本発明の第2の局面は,コンピュータ上で実行されると,当該コンピュータに,音声信号の所与のセグメント中に存在する,予め定義された組の音素の各々について,音声信号のための統計的音響モデル及び1以上の知識源を用いて,確率を計算するための確率計算装置として機能させるコンピュータプログラムに関する.セグメントは,音声信号の複数のフレームを含む.音響モデル及び1以上の知識源はベイズネットワークにより示される因果関係を有する.ベイズネットワークは,複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応する.このコンピュータプログラムは,コンピュータを,クラスタノード及び1以上のセパレータノードに対応する,複数の局部的音響モデルを記憶するための手段と,フレームの各々に対して予め定義された観測データを計算するための手段と,複数の局部的音響モデルを利用して,音素の各々の,観測データを発生する局部的確率を計算するための局部的確率計算手段と,音素の各々の,観測データを発生する確率を,局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させる.   A second aspect of the present invention, when executed on a computer, causes the computer to perform statistics for the speech signal for each predefined set of phonemes present in a given segment of the speech signal. This invention relates to a computer program that functions as a probability calculation device for calculating probabilities using an acoustic model and one or more knowledge sources. A segment includes multiple frames of an audio signal. The acoustic model and one or more knowledge sources have a causal relationship represented by a Bayesian network. A Bayesian network corresponds to a junction tree that includes multiple cluster nodes and one or more separator nodes. The computer program is for the computer to calculate means for storing a plurality of local acoustic models corresponding to cluster nodes and one or more separator nodes, and to calculate observation data predefined for each of the frames. The local probability calculation means for calculating the local probability of generating the observation data for each phoneme, and the observation data for each of the phonemes using the local acoustic model Let the probability function as a probability calculation means for calculating the probability as a predetermined function of the local probability calculated by the local probability calculation means.

1.序論
ここでは,本願が提案するフレームワークを,データのスパースネス及びメモリの制約という困難をしばしば伴う,広域音素知識情報に組込むという問題に適用することについて論ずる.はじめに,どのように付加的知識源がHMM状態の分布に組込まれるかを示す.次に,どのように付加的知識源がHMM音素モデリングに組込まれるかを示す.何れのアプローチも2種類のアクセントを含む英語音声データを用いた大語彙連続音声認識実験により実験的に実証されている.
1. Introduction In this section, we discuss the application of the framework proposed in this application to the problem of incorporating it into wide-area phoneme knowledge information, which often involves the difficulties of data sparseness and memory constraints. First, we show how additional knowledge sources are incorporated into the distribution of HMM states. Next, we show how additional knowledge sources can be incorporated into HMM phoneme modeling. Both approaches have been experimentally demonstrated by large vocabulary continuous speech recognition experiments using English speech data containing two types of accents.

はじめに,付加的知識源の組込みに対する一般的フレームワークについて次のセクションに記述する.次に,従来のHMM音響モデルについての概略をセクション3に記述する.セクション4及び5では,HMM状態及び音素モデルレベルで付加的知識源を組込むにあたり,どのように本フレームワークが用いられるかを示す.ここには広域音素コンテキスト情報の組込みの問題への適用法も含まれる.実験の詳細を,結果及び議論を含めてセクション6に示す.最後に,結論がセクション7に記述される.   First, a general framework for incorporating additional knowledge sources is described in the next section. Next, Section 3 outlines the conventional HMM acoustic model. Sections 4 and 5 show how this framework can be used to incorporate additional knowledge sources at the HMM state and phoneme model level. This includes application to the problem of embedding global phoneme context information. Details of the experiment, including results and discussion, are given in Section 6. Finally, the conclusion is described in Section 7.

2.知識源を組込むための一般的フレームワーク
統計的コーパスベースのアプローチにおいては,ある観測データDが与えられることにより,モデルMをトレーニングする.興味の対象となる重要な問題の1つは,そのモデルについて特定の知識が与えられることにより期待することができるデータを予測する,尤度P(D|M)を計算することである.
2. General framework for incorporating knowledge sources In a statistical corpus-based approach, given observation data D, model M is trained. One important issue of interest is computing the likelihood P (D | M) that predicts the data that can be expected given specific knowledge about the model.

確率密度関数P(D|M)は,単純な場合は条件付確率テーブル(Conditional Probability Tables:CPT)(Dが離散的な場合),又はガウス分布のような連続的関数(Dが連続の場合)によりモデル化することができる.この場合,所与のデータd及びモデルパラメータmに対する出力確率は,以下のように簡略に計算される.   The probability density function P (D | M) is a conditional probability table (CPT) (when D is discrete) or a continuous function such as a Gaussian distribution (when D is continuous). ). In this case, the output probability for a given data d and model parameter m is simply calculated as follows:

Figure 0004861912
その後,付加的知識源をこのモデルに組込む必要があると仮定する.ここでは,どのようにして付加的知識源が組込まれるかを考慮することが必要である.この考慮の手順はいくつかのステップを含み,その概略を図1に示す.
Figure 0004861912
Then assume that additional knowledge sources need to be incorporated into the model. Here, it is necessary to consider how additional knowledge sources are incorporated. This consideration procedure includes several steps, the outline of which is shown in Fig. 1.

図1を参照して,この手順は,情報源,モデル及びデータの間の因果関係を,BNを用いて定義するステップ(ステップ50)と,直接にBN推論をすることが可能か否かを判定するステップ(ステップ52)と,直接にBN推論が可能と判定されたときに,直接にBN推論を実行するステップ(ステップ54)と,直接にBN推論することが不可能と判定されたときに,後述するジャンクションツリーアルゴリズムを用いて,関係に関するネットワークをリンクされたクラスタの組に分解するステップ(ステップ56)と,ステップ56において得られたジャンクションツリー上で推論を行なうステップ58とを含む.   Referring to FIG. 1, this procedure defines a step (step 50) in which a causal relationship between an information source, a model, and data is defined using BN, and whether or not BN inference can be performed directly. A step of determining (step 52), a step of directly executing BN inference when it is determined that direct BN inference is possible (step 54), and a case of determining that direct BN inference is impossible The method includes a step (step 56) of decomposing a network related to a set of linked clusters using a junction tree algorithm, which will be described later, and a step 58 of performing inference on the junction tree obtained in step 56.

以下に,その手順のさらなる詳細を記述する.   The details of the procedure are described below.

A.情報源間の因果関係の定義
DとMの間の因果関係がBNを用いて説明されるような,単純な場合からはじめる.BNの1つの例は,図2(A)にその概略を示す,ノード72及びノード74を含むBN70である.ここで,ノードM72は正方形のノードで示される離散変数であり,ノードD74は楕円のノードにより示される連続変数である.
A. Defining the causal relationship between information sources Start with a simple case where the causal relationship between D and M is explained using BN. One example of a BN is a BN 70 including a node 72 and a node 74, the outline of which is shown in FIG. Here, the node M72 is a discrete variable indicated by a square node, and the node D74 is a continuous variable indicated by an elliptical node.

BNの同時確率関数は以下のように因数分解される.   The joint probability function of BN is factored as follows.

Figure 0004861912
ただし,Pa(Z)はBN変数Zの親を示す.このことから,図2(A)より以下の式を得る.
Figure 0004861912
However, Pa (Z k ) indicates the parent of the BN variable Z k . From this, the following equation is obtained from Fig. 2 (A).

Figure 0004861912
このため,データに関する知識に基づき,D,M及びKの間の条件に関する依存性を単純に定義し,付加的な知識KをP(D,M)に組込み,同時確率モデルを同様の方法により表す.例えば,D,M及びKの間の条件に関する依存性を,図2(B)に概略を示すBNにより表すことができる.図2(B)では,BN80はノード72及び74と,付加的ノードK76とを含む.ここでBN同時確率関数は以下のようになる.
Figure 0004861912
For this reason, based on the knowledge about data, the dependency regarding the condition between D, M, and K is simply defined, the additional knowledge K is incorporated into P (D, M), and the joint probability model is constructed in the same way. To express. For example, the dependency on the condition among D, M and K can be represented by BN as outlined in FIG. In FIG. 2B, the BN 80 includes nodes 72 and 74 and an additional node K76. Here, the BN joint probability function is as follows.

Figure 0004861912
さらに詳細な例を考える.ここまで,K,K,…,K知識源があると仮定していた.ここでは,これらすべてが条件に関する依存性が無いと仮定している.図3に,D,M及びK,K,…,Kの間の条件に関する依存性の構造の2つの例の概要を示す.
Figure 0004861912
Consider a more detailed example. So far we have assumed that there are K 1 , K 2 ,..., K N knowledge sources. Here, it is assumed that all of these have no dependency on conditions. FIG. 3 outlines two examples of dependency structures for the conditions between D, M and K 1 , K 2 ,..., K N.

図3(A)を参照して,ネットワーク90はノード72及び74と,さらにノード92,94,…,96(ノードK〜K)とを含む.ノードK〜Kは親ノード72及び子ノード74を持つ.図3(B)に示すネットワーク100は,ノード72及び74と,ノード92,…,及び96(ノードK〜K)とを含む.ノードK〜Kのうちノード92及び96は子ノード74のみを持つが,他のノードは親ノード72及び子ノード74を持つ. 3A, a network 90 includes nodes 72 and 74, and nodes 92, 94,..., 96 (nodes K 1 to K N ). Nodes K 1 to K N have a parent node 72 and a child node 74. The network 100 shown in FIG. 3B includes nodes 72 and 74 and nodes 92,..., And 96 (nodes K 1 to K N ). Of the nodes K 1 to K N , the nodes 92 and 96 have only child nodes 74, while the other nodes have a parent node 72 and child nodes 74.

このため,図3(A)に示されるBNに対する同時確率密度関数は,式(2)により以下の様になる.   For this reason, the joint probability density function for BN shown in FIG.

Figure 0004861912
もし,図3(B)(K及びKを参照)に示すように,Mからの因果関係の影響を何ら受けないあるKがある場合,同時確率密度関数は以下の式で示されるようになる.
Figure 0004861912
As shown in FIG. 3B (see K 1 and K N ), if there is a certain K i that is not affected by any causal relationship from M, the joint probability density function is given by It becomes like this.

Figure 0004861912
ここで分かるように,条件に関する独立性の仮定が異なると,確率関数の分解の仕方も異なってくる(式(5)及び(6)を参照).
Figure 0004861912
As can be seen here, different assumptions of independence with respect to conditions result in different ways of decomposing probability functions (see equations (5) and (6)).

B.ベイズネットワークにおける直接推論
推論における最重要関心事は,大域での条件付確率P(D|K,…,K,M)を計算することである.この確率密度関数がとる形式が,直接的なBN推論を許容する場合,以下の2つのケースが考えられる.
B. Direct inference in Bayesian networks The most important concern in inference is to calculate the conditional probability P (D | K 1 ,..., K N , M) in the global. When the form of this probability density function allows direct BN inference, the following two cases can be considered.

1)全ての変数が観測可能である.   1) All variables can be observed.

このケースでは,確率密度関数は単純に式(1)で計算される.   In this case, the probability density function is simply calculated by equation (1).

Figure 0004861912
2)付加的な知識源K,…,Kのような,いくつかの変数が観測できないか,または隠されている.
Figure 0004861912
2) Some variables such as additional knowledge sources K 1 ,..., K N are not observable or hidden.

このケースでは,確率密度関数は式(5)と,すべてのKに対しすべての可能なKi:ki1,ki2,…,kiMに関するマージナライゼーションにより計算される. In this case, the probability density function and formula (5), all K i of for all possible K i: k i1, k i2 , ..., is calculated by the marginalization about k iM.

Figure 0004861912
ただし単純化のために,<D=d>,<M=m>,及び<K=kij>の変わりに,d,m,及びkijを用いている.
Figure 0004861912
However, for simplicity, d, m, and k ij are used instead of <D = d>, <M = m>, and <K i = k ij >.

しかし,全体的な条件付確率P(D|K,…,K,M)の計算は,変数が多すぎること,及び/または,計算上の複雑さにより,簡単ではないことがある.このような場合,有向グラフを変数のクラスタに分解し,これらに対し適切な計算を実行できるようにすることが必要である.この処理は,次のサブセクションで述べるジャンクションツリーアルゴリズムにより行なえる. However, the calculation of the overall conditional probability P (D | K 1 ,..., K N , M) may not be straightforward due to too many variables and / or computational complexity. In such cases, it is necessary to break the directed graph into a cluster of variables so that appropriate calculations can be performed on them. This can be done with the junction tree algorithm described in the next subsection.

C.ジャンクションツリー分解
及びKの2つの付加的知識源の組込みのみの単純なケースを考えてみる.D,M,K及びKの間の因果関係を,図4(A)に示すBN110により示す.BN110はM,D,K及びKによりそれぞれ示す,ノード112,114,116及び118を含む.ここで,ノードM,K及びKは正方形のノードで示される離散変数であり,ノードDは楕円のノードで示される連続変数である.
C. Consider the simple case of only the incorporation of two additional knowledge source of the junction tree decomposition K 1 and K 2. The causal relationship between D, M, K 1 and K 2 is indicated by BN110 shown in FIG. BN 110 includes nodes 112, 114, 116 and 118, denoted by M, D, K 1 and K 2 respectively. Here, nodes M, K 1 and K 2 are discrete variables indicated by square nodes, and node D is a continuous variable indicated by elliptical nodes.

そして,ジャンクションツリーを得るために,以下のようなグラフ変換が実行される.   Then, the following graph transformation is performed to obtain a junction tree.

1)親を結合させ(共通の子を持つ全ての変数のペアの間にリンクを追加し),リンクの向きをなくすことにより,BN110から無向グラフを組立てる.図4(A)の場合,ノード116及び118の間にリンクが付与される.その結果得られるグラフは「モラルグラフ」と呼ばれる.   1) Assemble an undirected graph from BN110 by joining parents (adding links between all variable pairs with common children) and removing the link orientation. In the case of FIG. 4A, a link is provided between the nodes 116 and 118. The resulting graph is called a “moral graph”.

2)三角形からなるグラフ(トライアンギュレートグラフ)を形成するため,選択的にモラルグラフにアーク(弧)を付加する.もし“コードレスサイクル”が存在しなければ,グラフはトライアンギュレートである,という.コード(弦)とは,長さが3より大きいサイクル内の,2つの連続しない頂点を接続するエッジである.   2) To form a graph consisting of triangles (triangular graph), an arc is selectively added to the moral graph. If there is no "cordless cycle", the graph is said to be triangulated. A chord is an edge that connects two non-contiguous vertices in a cycle with a length greater than 3.

3)トライアンギュレートグラフにおいて,Pa(A)≠0であるすべての変数Aに対して,Pa(A)∪Aを含むサブセットを形成する.これはクラスタまたはクリークとよばれる.   3) Form a subset including Pa (A) ∪A for all variables A with Pa (A) ≠ 0 in the triangulate graph. This is called a cluster or clique.

4)クラスタ/クリークをノードとしてジャンクションツリーを構築する.この場合,二つのクリークの間のリンクの各々は,これらクリークの間の空ではない共通集合のセパレータを用いてラベル付けされる.   4) Build a junction tree with clusters / creeks as nodes. In this case, each link between two cliques is labeled with a non-empty common set of separators between these cliques.

図4(B)は,図4(A)に示すBN110に相当する,モラル及びトライアンギュレートグラフ130の概要を示す.グラフ130はノード116及び118の間に追加のリンク120を含む.しかし,このトライアンギュレートグラフからはD,M,K及びKの変数の全体の集合からなる1つのクラスタ/クリークしか得ることができず,これ以上分解できない.幸運にも,K及びKは独立であると仮定されるため,いくつかの矢を逆向きにすることにより,BN110と等価の図4(C)に示すBN140を得ることができる.これが可能なのは,P(X,Y)がP(X|Y)P(Y)とP(Y|X)P(X)とに分解できること,及びこの2つが互いに等価であるためである. FIG. 4B shows an outline of the moral and triangulated graph 130 corresponding to the BN 110 shown in FIG. Graph 130 includes an additional link 120 between nodes 116 and 118. However, from this triangulated graph, only one cluster / clique consisting of the entire set of D, M, K 1 and K 2 variables can be obtained, and no further decomposition is possible. Fortunately, since K 1 and K 2 are assumed to be independent, by reversing some arrows, BN 140 shown in FIG. 4C equivalent to BN 110 can be obtained. This is possible because P (X, Y) can be decomposed into P (X | Y) P (Y) and P (Y | X) P (X), and the two are equivalent to each other.

図4(D)はBN140に対応するモラル及びトライアンギュレートグラフ150の概要を示す.これによりクラスタ/クリークを同定することができ,さらに図4(E)にその概要を示すジャンクションツリー160を得ることができる.ここではクラスタの組は楕円のノード164及び166により表され,セパレータの組は正方形のノード162により表されている. FIG. 4D shows an outline of the moral and triangulate graph 150 corresponding to the BN 140. As a result, a cluster / clique can be identified, and a junction tree 160 whose outline is shown in FIG. 4 (E) can be obtained. Here, the cluster set is represented by ellipse nodes 164 and 166, and the separator set is represented by a square node 162.

以上から,BN同時確率分布は,全てのクラスタのポテンシャル(確率)の積を,セパレータのポテンシャルの積で除算することにより以下のように定義される.   From the above, the BN joint probability distribution is defined as follows by dividing the product of all cluster potentials (probabilities) by the product of the separator potentials.

Figure 0004861912
ただし,Uはグラフにおける全ての変数を示す「世界」を,φCiはクラスタポテンシャル(クラスタCiにおける確率)を,φSiはセパレータポテンシャル(セパレータSiにおける確率)を示す.このため,同時確率関数,P(D,K,K,M)は図4(E)によれば以下のようになる.
Figure 0004861912
However, U represents the “world” indicating all variables in the graph, φ Ci represents the cluster potential (probability in cluster Ci), and φ Si represents the separator potential (probability in separator Si). Therefore, the joint probability function, P (D, K 1 , K 2 , M) is as follows according to FIG.

Figure 0004861912
ただし,P(D,K,M)とP(D,K,M)とはクラスタポテンシャルであり,P(D,M)はセパレータポテンシャルである.
Figure 0004861912
However, P (D, K 1 , M) and P (D, K 2 , M) are cluster potentials, and P (D, M) is a separator potential.

同様の仮定及び考慮に基づいて,図3(A)に示すBN90と同様のBNトポロジは図5(A)のように書くことができる.図5(B)にこれに対応するジャンクションツリー180を示す.図5(B)では,変数{(D,K1,M),(D,K2,M),…(D,KN,M)}のN個のクラスタ164,166,…170と,N−1個のセパレータ{D,M}(ノード162,168等)が存在する.このため式(5)により求められる同時確率関数は以下の式により分解することができる. Based on similar assumptions and considerations, a BN topology similar to BN90 shown in FIG. 3 (A) can be written as in FIG. 5 (A). FIG. 5B shows a junction tree 180 corresponding to this. In FIG. 5B, N clusters 164, 166, ... 170 of variables {(D, K1, M), (D, K2, M), ... (D, KN, M)}, and N-1 There are separators {D, M} (nodes 162, 168, etc.). Therefore, the joint probability function obtained by equation (5) can be decomposed by the following equation.

Figure 0004861912
これは,同時確率関数P(D,K,…,K,M)を,ある付加的な知識K,K,…,Kが与えられた場合の観測データDの確率に対応するいくつかの局部的な同時確率関数P(D,K,M),…,P(D,K,M)を合成したものとして表す新しい表記方法を示す.
Figure 0004861912
This joint probability function P (D, K 1, ... , K N, M) , and some additional knowledge K 1, K 2, ..., corresponds to the probability of the observed data D when K N is given A new notation is shown that represents a combination of several local joint probability functions P (D, K 1 , M), ..., P (D, K N , M).

D.ジャンクションツリー推論
チェーンルールを用いることにより,全てのP(D,K,M)に対し以下の式を得る.
D. Junction Tree Inference By using chain rules, we obtain the following equations for all P (D, K i , M).

Figure 0004861912
このため,式(11)は以下のようになる.
Figure 0004861912
Therefore, Equation (11) is as follows.

Figure 0004861912
この式(11)を式(5)と比較すると,
Figure 0004861912
When this equation (11) is compared with equation (5),

Figure 0004861912
であることが分かり,これは,P(D|K,…,K,M)が,特定の付加的な知識K,K,…,Kが与えられた場合の観測データDの確率に対応する別々の項に分解可能であることを示す.
Figure 0004861912
It know it is, this is, P (D | K 1, ..., K N, M) is, certain additional knowledge K 1, K 2, ..., observed data D when K N is given This shows that it can be decomposed into separate terms corresponding to the probabilities of.

いくつかの単純なP(D|K,M)を定義したり,推定したり,観測したりすることは,1つではあるが複雑なP(D|K,…,K,M)と比べて非常に簡単となる. Defining, estimating, and observing some simple P (D | K i , M) is one but complicated P (D | K 1 ,..., K N , M ) Is much easier.

このため,データd,モデルパラメータm,及び付加的な知識源k1j,…,kNjが与えられた場合に対する推論における出力確率は,以下のように計算される. Therefore, the output probability in the inference for the case where data d, model parameter m, and additional knowledge sources k 1j ,..., K Nj are given is calculated as follows.

Figure 0004861912
3.従来のHMM音響モデル
従来のHMMに関連して,いくつかの表記を定義する.トライフォンコンテキスト/a,a,a/のHMM音声モデルをλ,HMM状態変数をQと表記する.Xは観測変数であり,X=X,…,Xt+mは長さmの観測データセグメントである.図6に,標準的なHMM190の構造の概要を示す.ここでは,
1)短時間スペクトル特性はガウス分布210,212,及び214の混合によりモデル化される.
Figure 0004861912
3. Conventional HMM Acoustic Model Several notations are defined in relation to the conventional HMM. The HMM speech model of triphone context / a , a, a + / is denoted by λ, and the HMM state variable is denoted by Q. X is an observation variable, and X s = X t ,..., X t + m is an observation data segment of length m. Figure 6 outlines the structure of a standard HMM 190. here,
1) Short-time spectral characteristics are modeled by a mixture of Gaussian distributions 210, 212, and 214.

2)時間的な音声特徴は状態200,202及び204の間でのHMM状態遷移216,218,220,222及び224により支配される.   2) Temporal speech features are dominated by HMM state transitions 216, 218, 220, 222 and 224 between states 200, 202 and 204.

HMM状態出力確率p(x|q)は,通常,状態確率密度関数(Probability Density Function:PDF)P(X|Q)から以下の式により計算される. The HMM state output probability p (x t | q i ) is normally calculated from the state probability density function (PDF) P (X | Q) by the following equation.

Figure 0004861912
ただし,bは状態qのm番目の混合分布の混合重みであり,N(・)は平均ベクトルμと共分散行列Σとを持つガウス関数である.HMMセグメントの尤度P(X|λ)は,観測結果と状態シーケンスとの同時確率を,全ての状態シーケンスに対してとることにより(合計尤度),又は最も確からしい状態シーケンスのみに対してとることにより(Viterbi Path),計算される.
Figure 0004861912
Here, b m is a mixture weight of the m-th mixture distribution of the state q i , and N (•) is a Gaussian function having an average vector μ m and a covariance matrix Σ m . The likelihood P (X s | λ) of the HMM segment is obtained by taking the joint probability of the observation result and the state sequence for all the state sequences (total likelihood) or only for the most probable state sequence. It is calculated by taking (Viterbi Path).

4.HMM状態レベルでの知識源の組込み
A.一般的検討
モデルMは所定のトライフォンHMM状態Qであり,Dはセクション2に述べた理論的フレームワークに従う観測変数Xである.
4). Incorporating knowledge sources at the HMM state level A. General Consideration Model M is a given triphone HMM state Q, and D is an observed variable X that follows the theoretical framework described in Section 2.

1)因果関係の定義
このトポロジの構造は図2(A)に示すものと同様であり,トライフォンHMM状態PDFは,ここでは式(3)と同様のBN同時確率関数により示される.
1) Definition of causal relationship The structure of this topology is the same as that shown in FIG. 2 (A), and the triphone HMM state PDF is represented here by the same BN joint probability function as in equation (3).

Figure 0004861912
単純に式(5)に従えば,以下のようになる.
Figure 0004861912
If you simply follow equation (5), it will be as follows.

Figure 0004861912
これにより,追加の知識源K,K,…,KをHMM状態分類P(X,Q)に組込む(すべてのK,K,…,Kが独立した所定のQであると仮定されている.).
Figure 0004861912
This incorporates additional knowledge sources K 1 , K 2 ,..., K N into the HMM state classification P (X, Q) (all K 1 , K 2 ,..., K N are independent predetermined Qs). Is assumed.).

2)推論
主たる関心事はHMM状態出力確率P(X|K,…,K,Q)の計算であるが,これはガウス関数により簡単にモデル化することが可能である.このために,状態出力を直接得ることができる.全ての追加の知識源K,…,Kがセクション2−Bに示されたように隠されていると仮定すると,状態出力確率は,すべての1≦i≦Nに対して,すべての可能なKi:ki1,ki2,…,kiMをマージナライゼーションすることにより,式(8)と同様に得られる.
2) Reasoning The main concern is the calculation of the HMM state output probability P (X | K 1 ,..., K N , Q), which can be easily modeled by a Gaussian function. For this reason, the state output can be obtained directly. Assuming that all additional knowledge sources K 1 ,..., K N are hidden as shown in section 2-B, the state output probabilities are all for 1 ≦ i ≦ N. The possible K i : k i1 , k i2 ,..., K iM can be obtained in the same way as in Eq.

Figure 0004861912
ここで,p(ki1|q)…p(kNj|q)の項を,ガウス成分p(x|ki1,…,kNj,q)の混合重み係数として扱えば,式(19)もまた,式(16)の従来のHMMの状態出力確率と等価であることが分かる.式(19)はガウス混合分布を表すので,HMMを基にした既存のデコーダを,何らかの修正をする必要なく用いて認識を行なうことができる.さらに,BNは状態出力の尤度を推論するために使用されるのみであるので,HMMを基にしたトライフォン音響モデルのトポロジをそのまま維持し,HMM状態遷移が依然として時間的な音声特性により支配されるようにできる.このアプローチはまた,ハイブリッドHMM/BNモデル化フレームワークとして知られ,非特許文献5に記載されている.以後,状態レベルで付加的知識を組込んで得られるモデルを,HMM/BNモデルと呼ぶ.
Figure 0004861912
Here, if the term of p (k i1 | q t )... P (k Nj | q t ) is treated as a mixture weight coefficient of the Gaussian component p (x t | k i1 ,..., K Nj , q t ), Equation (19) is also equivalent to the state output probability of the conventional HMM of Equation (16). Since Equation (19) represents a Gaussian mixture distribution, recognition can be performed using an existing decoder based on the HMM without any modification. Furthermore, since BN is only used to infer the likelihood of state output, the topology of the triphone acoustic model based on HMM is maintained as it is, and the HMM state transition is still governed by temporal speech characteristics. Can be done. This approach is also known as a hybrid HMM / BN modeling framework and is described in [5]. Hereinafter, a model obtained by incorporating additional knowledge at the state level is called an HMM / BN model.

このモデルのパラメータ学習は,非特許文献5に記載のHMM/BNモデルの通常のトレーニングから採用できる.これはバックワード・フォワードアルゴリズムを基にしている.このアルゴリズムでは,各トレーニングの繰返しは,BNのトレーニングと,HMM遷移確率の更新とからなる.BNのトレーニングは標準的な統計的方法を用いてなされる.トレーニングの間に全ての変数が観測可能であれば最大尤度(ML)パラメータ推定が適用され,いくつかの変数が隠れている場合,パラメータは標準的なエクスペクテーション・マキシマイゼーション(EM)アルゴリズムにより推定される.   Parameter learning of this model can be adopted from normal training of the HMM / BN model described in Non-Patent Document 5. This is based on a backward-forward algorithm. In this algorithm, each training iteration consists of BN training and updating of the HMM transition probability. BN training is done using standard statistical methods. Maximum likelihood (ML) parameter estimation is applied if all variables are observable during training, and if some variables are hidden, the parameters are standard expectation-maximization (EM) algorithms Is estimated.

B.広域音素コンテキスト情報の組込み
ASRシステムにおいて最も広く用いられる音響ユニットは,現在のところ,依然として,直近の先行する音素コンテキスト及び後続する音素コンテキストを含むトライフォンである.トライフォンは効果的な選択であることが確認されてきたが,より長い期間にわたる同時調音効果を捉えるためには,広域音素コンテキストの方がより適切と考えられている.しかし,広域音素コンテキストには,データのスパースネス及びメモリの制約という問題がある.
B. Incorporating global phoneme context information The most widely used acoustic unit in an ASR system is still a triphone that still contains the last preceding phoneme context and the following phoneme context. Triphones have been found to be an effective choice, but wide-range phoneme context is considered more appropriate to capture simultaneous articulation effects over longer periods. However, wide-area phoneme context has problems of data sparseness and memory constraints.

ここで,前のセクションに記載したフレームワークを,広域音素知識情報を組込むという問題にどのように適用するかを説明する.   Here we explain how to apply the framework described in the previous section to the problem of incorporating wide-area phoneme knowledge information.

従来の,トライフォンコンテキスト/a,a,a/であるHMM,λを,/a−−,a,a,a,a++/のようなペンタフォンコンテキストに拡張する必要があるものとする.このため,このアプローチに基づき,BNに2つの変数を挿入することにより,二つ前及び後のコンテキスト,C(/a−−)及びC(/a++/)をトライフォン状態PDFに組込む. Conventional, triphone context / a -, a, a + / a HMM is, the λ, / a -, a - , a, a +, it is necessary to extend the a ++ / penta von context such as Suppose. Therefore, based on this approach, by inserting two variables in BN, the two previous and subsequent contexts, C L (/ a −− ) and C R (/ a ++ /), are assigned to the triphone state PDF. Incorporate.

トライフォンHMM状態Qと,観測データX,及び2つの付加的変数C及びC間の条件に関する依存性は,図7に概要を示すBNトポロジにより説明される.これをBN−Cトポロジと呼ぶ. A triphone HMM state Q, the observed data X, and dependence for the two conditions between additional variables C L and C R are described by BN topology outlined in Figure 7. This is called a BN-C topology.

図7を参照して,ベイズネットワーク240は,ノード250,252,254及び256を含み,これらはQ,X,C,及びCにより,それぞれ示される.ノードCは2つ前のコンテキスト(/a−−)を,ノードCは2つ後のコンテキスト(/a++/)を表す. Referring to FIG. 7, Bayesian network 240 includes nodes 250, 252, 254 and 256, these Q, X, by C L, and C R, respectively shown. The node CL represents the previous context (/ a −− ), and the node CR represents the second subsequent context (/ a ++ /).

HMM状態PDFは,現在のところ,BN同時確率により示される.これは式(18)によると,以下のように分解される.   The HMM state PDF is currently indicated by the BN joint probability. This is decomposed as follows according to equation (18).

Figure 0004861912
ただし,Xは2つ前のコンテキストC及び2つ後のコンテキストCの両方に依存する.Xは連続の変数であり,C,C及びQは離散的変数であるので,P(X|C,C,Q)はガウス関数でモデル化され,各々のP(C|Q)又はP(C|Q)はCPTにより表される.
Figure 0004861912
However, X is dependent on both the previous two contexts C L and two after the context C R. Since X is a continuous variable, and C L , C R and Q are discrete variables, P (X | C L , C R , Q) is modeled by a Gaussian function, and each P (C L | Q) or P (C R | Q) is represented by CPT.

状態出力確率はP(X|C,C,Q)により得ることができる.付加的なコンテキスト変数C及びCが,式(19)のように認識時には得ることができない(隠されている)と仮定すると, The state output probability can be obtained from P (X | C L , C R , Q). Additional context variable C L and C R are, assuming that the formula can not be obtained at the time of recognition as (19) (hidden),

Figure 0004861912
となり,p(c|q)p(c|q)の項を,ガウス成分の混合重み係数p(x|c,c,q)として扱えば,式(19)は式(16)の従来のHMMの状態出力確率と等価である.したがって,ここで,ガウスPDFはcl,cr及びqiの全ての組合せに対しトレーニングされる.
Figure 0004861912
The term | (q i c r), mixing weight coefficients of the Gaussian components p | next, p (c l q i) p (x t | c l, c r, q i) be handled as the formula (19) Is equivalent to the state output probability of the conventional HMM in Eq. (16). Thus, here, the Gaussian PDF is trained for all combinations of cl, cr and qi.

さらにこのペンタフォンBNを,このフレームワークを使い,性別に関する情報又はアクセント情報等の他の追加の変数で拡張することもできる.図8はトライフォンHMM状態Qと,観測データXと,2つの付加的変数C及びCと,性別に関する変数G及び/又はアクセント変数Aとの間の条件に関する依存性の構造の例をいくつか示す. The Pentaphone BN can also be extended with other additional variables such as sex information or accent information using this framework. FIG. 8 shows an example of a dependency structure regarding conditions between the triphone HMM state Q, the observation data X, the two additional variables CL and CR, and the variable G and / or the accent variable A regarding sex. Here are some.

BNトポロジは,ノード272により示される,性別に関する付加的変数Gを用いて,BN−Cを拡張することで,図8(A)の参照番号270により示されるものになる.これをBN−CGと呼ぶ.ノード292により示される追加のアクセント変数Aを用いてBN−Cを拡張する場合は,BNトポロジは図8(B)の参照番号290が示すものになり,これをBN−CAと呼ぶ.図8(C)のBNトポロジ310は,ノード292及び272によりそれぞれ示される,アクセント及び性別に関する変数の両方を用いて拡張されたものであり,BN−CGAと呼ぶ.   The BN topology is indicated by reference numeral 270 in FIG. 8A by extending BN-C with an additional variable G related to gender indicated by node 272. This is called BN-CG. When the BN-C is extended using the additional accent variable A indicated by the node 292, the BN topology is indicated by the reference number 290 in FIG. 8B, which is called BN-CA. The BN topology 310 of FIG. 8C is extended using both accent and gender variables indicated by nodes 292 and 272, respectively, and is called BN-CGA.

BN−CGAの例(図8(C)参照)に対するHMM状態PDFは以下のように表される.   The HMM state PDF for the BN-CGA example (see FIG. 8C) is expressed as follows.

Figure 0004861912
ただし,Xは,アクセントA,性別G,2つ前のコンテキストC,及び2つ後のコンテキストCに依存する.この状態出力確率はまた,式(21)と同様の方法によりP(X|C,C,Q,A,G)から得ることができる.
Figure 0004861912
However, X is accented A, depends sex G, two previous context C L, and two after the context C R. This state output probability can also be obtained from P (X | C L , C R , Q, A, G) in the same manner as in equation (21).

Figure 0004861912
ここで,p(a)p(g)p(c|q)p(c|q)の項を,ガウス成分の混合重み係数p(x|c,c,q,a,g)として扱えば,各ガウスPDFはc,c,q,a,及びgの各組合せに対しトレーニングされる.
Figure 0004861912
Here, the term of p (a) p (g) p (c 1 | q i ) p (c r | q i ) is used as the Gaussian component mixing weighting coefficient p (x | c 1 , c r , q i a, be handled as g), each Gaussian PDF is c l, c r, q i , is trained for each combination of a, and g.

両方の表記(式(21)及び(23))は,標準トライフォンHMM音響モデルにおいて用いられるガウス分布の混合を示す.このため,既存のHMMを基にしたデコーダを,何らかの修正を行なうことなく用いて認識を行なうことができる.提供モデルのパラメータ学習は前のセクションにおいて述べたようにして実行される.トライフォン状態Q,アクセントA,性別G,2つ前のコンテキスト(C),2つ後のコンテキスト(C),及び変数Xを含む全ての変数が,トレーニングで観測可能であるから,MLパラメータ推定が利用される. Both notations (Equations (21) and (23)) show a mixture of Gaussian distributions used in the standard triphone HMM acoustic model. Therefore, recognition can be performed using an existing HMM-based decoder without any modification. Parameter learning of the provided model is performed as described in the previous section. Since all variables including the triphone state Q, the accent A, the sex G, the second previous context (C L ), the second subsequent context (C R ), and the variable X are observable in training, ML Parameter estimation is used.

全てのモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合,クラスタリング技術,例えば,知識ベースの,又は,データ駆動型のクラスタリングにより,パラメータの数を削減できる.例えば,2つ前/後の音素コンテキストC/Cの各値c/cに対し,式(21)及び(23)により,対応するガウス成分が存在する. If the amount of training data is insufficient to reliably estimate all model parameters, the number of parameters can be reduced by clustering techniques such as knowledge-based or data-driven clustering. For example, for each value c l / c r phoneme context C L / C R after two previous / by the equation (21) and (23), the corresponding Gaussian components are present.

図9はCのみが追加されたBN330に対する,観測空間344の概要を示す.図9のCはノード342により示され,2つ後のコンテキストの種々の値/b/,/p/,…,/z/を有する.この変数の種々の値は種々のガウス分布350,352,…,354にそれぞれ対応する.44音素の組(無音を含む)を英語ASRに用いるとすれば,2つ前/後の音素コンテキストCは,44個の値(C=c,c,…,c44)を有する可能性があるということになる.このため,BN−Cトポロジ(図7参照)の各状態に対するガウス分布の総数は,44=1936となり得る.BN−CG,BN−CA及びBN−CGAのトポロジはさらにもっと多くなる.このように増加したモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合,全体の性能は顕著に低下するであろう.このため,ガウス分布の数を減らすことが好ましい.ガウス分布の数を減らすために利用できる方法が2つある.一方は知識ベースの音素クラスを用いることである.他方はデータ駆動のクラスタリングである.これらの方法は,どのようなベイズネットワークにも適用可能である. 9 for BN330 only C R is added, an overview of the observation space 344. C R in FIG. 9 is indicated by node 342, has various values / b / a after two contexts, / p /, ..., / z / a. The various values of this variable correspond to various Gaussian distributions 350, 352,. If a set of 44 phonemes (including silence) is used for English ASR, the phoneme context C before / after 2 may have 44 values (C = c 1 , c 2 ,..., C 44 ). It means that there is sex. Therefore, the total number of Gaussian distributions for each state of the BN-C topology (see FIG. 7) can be 44 2 = 1936. The topology of BN-CG, BN-CA and BN-CGA will be even more. If the amount of training data is insufficient to reliably estimate the increased model parameters, the overall performance will be significantly reduced. For this reason, it is preferable to reduce the number of Gaussian distributions. There are two methods that can be used to reduce the number of Gaussian distributions. One is to use knowledge-based phoneme classes. The other is data-driven clustering. These methods can be applied to any Bayesian network.

ここでは,音素コンテキストを,調音の態様における主な相違に基づき分類し,パラメータのサイズを削減する.テーブル1に,非特許文献6から流用した知識ベースの音素クラスの例を挙げる.   Here, phoneme contexts are classified based on the main differences in articulation, and the parameter size is reduced. Table 1 gives examples of knowledge-based phoneme classes taken from Non-Patent Document 6.

Figure 0004861912
HMM/BNアプローチに基づくペンタフォンの可能性についての,さらなる詳細及び議論は特許文献1に示されている.
Figure 0004861912
Further details and discussion on the possibility of a pentaphone based on the HMM / BN approach is given in US Pat.

5.音素モデルレベルでの知識源の組込み
A.一般的検討
セクション2に記述の理論的フレームワークに従い,再びモデルMをHMM音素モデルλ,DをセグメントXとする.
5. Incorporating knowledge sources at the phoneme model level A. General Consideration According to the theoretical framework described in Section 2, model M is again the HMM phoneme model λ and D is the segment X s .

1)因果関係の定義
トポロジの構造は図2(A)に示されるものと同様であり,HMM音素ユニットの確率関数は今回は式(3)と同様のBN同時確率関数により示される.
1) Definition of causal relationship The structure of the topology is the same as that shown in Fig. 2 (A), and the probability function of the HMM phoneme unit is represented by a BN joint probability function similar to equation (3) this time.

Figure 0004861912
追加の知識源K,K,…,KをHMM音素モデルP(X,λ)に組込むためには(所与のλに対し,全てのK,K,…,Kが独立と仮定する.),簡易に式(5)に従い,次の式を得る.
Figure 0004861912
To incorporate additional knowledge sources K 1 , K 2 ,..., K N into the HMM phoneme model P (X s , λ) (for a given λ, all K 1 , K 2 ,..., K N ), Simply follow equation (5) to obtain the following equation.

Figure 0004861912
2)推論
ここでの最大の関心事は,与えられた入力セグメントXに対するP(X|K,…,K,λ)を計算することである.しかし,条件付PDFに対する単純な形式の関数を得るのは困難である.なぜなら,この式には,持続時間が変化するHMMモデルλ,及びセグメントXが関係しているからである.このためここで,セクション2−Cで述べたジャンクションツリーアルゴリズムにより,P(X|K,…,K,λ)を分解する必要がある.これは式(14)に従い以下のように分解される.
Figure 0004861912
2) Inference The biggest concern here is to calculate P (X s | K 1 ,..., K n , λ) for a given input segment X s . However, it is difficult to obtain a simple form of function for conditional PDF. This is because the HMM model λ whose duration changes and the segment X s are related to this equation. For this reason, it is necessary to decompose P (X s | K 1 ,..., K N , λ) by the junction tree algorithm described in section 2-C. This is decomposed as follows according to equation (14).

Figure 0004861912
この式は,いくつかの,より複雑さの少ない依存関係,すなわち,特定の追加の知識K,K,…,Kが与えられた場合のセグメント観測データXsの尤度に対応するP(X|K,λ),…,P(X|K,λ)によって,音素のHMM尤度P(X|K,K,…,K,λ)を表す新しい方法である.
Figure 0004861912
This equation represents some less complex dependencies, ie P corresponding to the likelihood of the segment observation data Xs given certain additional knowledge K 1 , K 2 ,..., K N. (X s | K 1 , λ),..., P (X s | K N , λ) represents a phoneme HMM likelihood P (X s | K 1 , K 2 ,..., K N , λ) It is a method.

B.広域音素コンテキスト情報の組込み
前のセクションで述べたアプローチを,広域音素の知識情報の組込みの場合と同じ課題に対して適用してみる.広域音素知識情報の組込みにおいては,トライフォンコンテキスト/a,a,a/を,ペンタフォンコンテクスト/a−−,a,a,a,a++/に拡張する.構造上,従来のHMMのトライフォンコンテキストユニットモデルは,図10(A)に示すモデル370として説明され,ペンタフォンコンテキストユニットモデルは,図10(B)に示すモデル372として説明される.
B. Incorporation of wide-area phoneme context information We will apply the approach described in the previous section to the same problem as in the case of incorporating wide-area phoneme knowledge information. In incorporation of the wide area phoneme knowledge information, triphone context / a -, a, a + / a, penta von context / a -, a -, a , a +, extended to a ++ /. Structurally, the conventional triphone context unit model of the HMM is described as a model 370 shown in FIG. 10A, and the pentaphone context unit model is described as a model 372 shown in FIG. 10B.

2つ前のコンテキストC/a−−/と2つ後のコンテキスト/a++/とを,確率関数P(X|λ)に追加する.X,λ,C及びCの条件に関する依存性は,図4(A)に示すものと類似のBNにより記述される.分解で最終的に得られるジャンクションツリーもまた,図4(E)に示すものと同様である.図4(E)におけるMがここでのHMM音素モデルλであり,DがセグメントXである.このことから,条件付確率関数は,式(26)によれば以下のように定義される. The two previous contexts C L / a −− and the second subsequent context / a ++ / are added to the probability function P (X s | λ). X s, lambda, dependence on a condition of C L and C R is described by BN similar to that shown in FIG. 4 (A). The junction tree finally obtained by decomposition is also the same as that shown in FIG. Figure 4 is a HMM phoneme model λ of M is now in (E), D is a segment X s. From this, the conditional probability function is defined as follows according to equation (26).

Figure 0004861912
λが,トライフォン/a,a,a/,2つ前のコンテキストC/a−−/,及び,2つ後のコンテキストC/a++/と関連付けられていることから,以下のように書ける.
Figure 0004861912
Since λ is associated with the triphones / a , a, a + /, the second previous context C L / a /, and the second subsequent context C R / a + + / Can be written as

Figure 0004861912
この式(28)は以下のようになる.
Figure 0004861912
This equation (28) is as follows.

Figure 0004861912
これはペンタフォンモデルが,p(Xs|[a−−,a,a,a]),p(Xs|[a,a,a,a++]),及びp(Xs|[a,a,a])により構成できることを示す.これら構成要素は,左/先行テトラフォンコンテキスト,右/後続テトラフォンコンテキスト,及び中央トライフォンコンテキストというユニットが与えられた場合の,セグメントXsの尤度に対応する.
Figure 0004861912
This is because the pentaphone model is represented by p (Xs | [a −− , a , a, a + ]), p (Xs | [a , a, a + , a ++ ]), and p (Xs | [ a -, a, show that can be configured by a +]). These components correspond to the likelihood of segment Xs given the units left / preceding tetraphone context, right / following tetraphone context, and central triphone context.

しかし,[a−−,a,a,a],[a,a,a,a++]に対するテトラフォンモデルを作成することもまた,データが疎にしか存在しないことにより困難である. However, it is also difficult to create a tetraphone model for [a −− , a , a, a + ], [a , a, a + , a ++ ] because the data exists only sparsely. is there.

これに代えて,式(28)を用い,λがモノフォン/a/を示すように,並びに2つ前と後のコンテキストC及びCとが/a−−,a/及び/a,a++/をそれぞれ表すようにする.この結果,以下の式を得る. Alternatively, using equation (28), lambda is monophones / a / a as shown, and two before and after the context C L and C R and the / a -, a - / and / a + , A ++ / respectively. As a result, the following equation is obtained.

Figure 0004861912
この式は,ペンタフォンコンテキスト/a−−,a,a,a,a++/が,p(Xs|[a−−,a,a,]),p(Xs|[a,a,a++]),及びp(Xs|[a])により構成されることを示し,これら構成要素は,左/先行テトラフォンコンテキスト(L3),右/先行テトラフォンコンテキスト(R3),及び中央トライフォンコンテキスト(C1)のユニットが与えられたときの,観測データXsの尤度に対応する.この構成をC1L3R3と呼び,その構造を図10(C)に示す.
Figure 0004861912
This formula indicates that the pentaphone context / a −− , a , a, a + , a ++ / is p (Xs | [a −− , a , a,]), p (Xs | [a, a + , A ++ ]), and p (Xs | [a]), these components are left / preceding tetraphone context (L3), right / preceding tetraphone context (R3), and Corresponds to the likelihood of the observed data Xs when the unit of the central triphone context (C1) is given. This configuration is called C1L3R3, and its structure is shown in FIG.

図10(C)を参照して,ベイズペンタフォンコンテキストユニットC1L3R3 374は,左/先行トライフォンコンテキストユニット(L3)380,右/後続トライフォンコンテキストユニット(R3)382,及びモノフォンユニット(C1)(図示せず)を含む.   Referring to FIG. 10C, Bayesian pentaphone context unit C1L3R3 374 includes left / preceding triphone context unit (L3) 380, right / following triphone context unit (R3) 382, and monophone unit (C1). (Not shown).

この図で分かるように,推定すべきコンテキストユニットの数は,コンテキストのカバーする範囲を損なうことなく,Nから(2N+N)に削減される.ただしNは音素の数である.英語ASRに対し44音素の組を用いるとすれば,ペンタフォンモデルで推定する必要のあるコンテキストの総数は44≒165,000,000コンテキストユニットである.トライフォンコンテキストユニットを用いた構成では,この複雑さが約170,000ユニットまで削減される. As can be seen in this figure, the number of context units to be estimated is reduced from N 5 to (2N 3 + N) without impairing the range covered by the context. N is the number of phonemes. If a set of 44 phonemes is used for the English ASR, the total number of contexts that need to be estimated with the pentaphone model is 44 5 ≈165,000,000 context units. In a configuration using a triphone context unit, this complexity is reduced to about 170,000 units.

式(29)及び(30)を分析すると,式(27)を,HMM音素モデルの他の構成を導くためのスタート点としても用いることが可能であることが分かる.λがモノフォンユニット/a/,C及びCが,それぞれ,コンテキストユニット/a/及び/a/に先行する,及び後続するコンテキストユニットであると仮定した場合,非特許文献7で提案されたのと同様の因数分解が得られる.これはベイズトライフォンとして知られている. Analysis of equations (29) and (30) shows that equation (27) can also be used as a starting point for deriving other configurations of the HMM phoneme model. λ is monophone unit / a /, C L and C R are each context unit / a - preceding / and / a + / a, and assuming that a subsequent context units, in Non-Patent Document 7 A factorization similar to that proposed is obtained. This is known as a Bayesian triphone.

Figure 0004861912
ここでは,トライフォンモデルがモノフォン及びバイフォンモデルから構築されている.以後,同様の方法で構成された全てのモデルも,ベイズモデルと呼ばれる.
Figure 0004861912
Here, the triphone model is built from the monophone and biphone models. Hereinafter, all models constructed in the same way are also called Bayesian models.

ベイズ広域音素コンテキストモデルと呼ばれる,ベイズトライフォンを拡張したものもまた,本願発明者の先の研究論文である非特許文献8に記載されている.このアプローチにより,単にベイスの法則に基づくのみで,コンテキストへの依存度がより少ないモデルから広域の音素コンテキストをモデル化できる.しかし,種々の種類の知識源を組込むことが必要な場合には困難が生ずる.   An extension of the Bayesian triphone, called the Bayesian wide-area phoneme context model, is also described in Non-Patent Document 8, which is the previous research paper of the present inventor. With this approach, it is possible to model a wide-range phoneme context from a model with less dependency on the context, simply based on Bayes' law. However, difficulties arise when it is necessary to incorporate various types of knowledge sources.

対照的に,ここでの統一されたフレームワークは,様々な種類の知識源を組込むための,より適切な手段を我々に与える.例えば,性別又はアクセント情報のような他の追加の知識変数で,C1L3R3をさらに拡張することが容易にできる.C1L3R3を,性別情報のみで(C1L3R3−G),アクセント情報のみで(C1L3R3−A),又は,性別及びアクセントの両方の情報で(C1L3R3−AG),拡張することができる.   In contrast, the unified framework here gives us a better way to incorporate different types of knowledge sources. For example, C1L3R3 can be further extended with other additional knowledge variables such as gender or accent information. C1L3R3 can be extended with gender information alone (C1L3R3-G), accent information alone (C1L3R3-A), or both gender and accent information (C1L3R3-AG).

C1L3R3−AGの場合,BNトポロジと,モラル及びトライアンギュレートグラフと,それに対応するジャンクションツリーとは図11に示されるようになる.図11(A)を参照して,BNトポロジ400は,λ,X,C,C,G及びAによりそれぞれ示される,ノード410,412,414,416,418及び420を含む.図11(B)を参照して,BNトポロジ400に対応するモラル及びトライアンギュレートグラフ430は,ノード410,412,414,416,418及び420と,ノード418及び420,ノード410及び418,並びにノード410及び420をそれぞれ接続する,付加的な3つのリンク422,424,及び426とを含む.図11(C)を参照して,図11(B)のグラフに対応するジャンクションツリー450は,“XλAG”,“Xλ”,及び“Xλ”でそれぞれ示される,クラスタノード460,464,及び474と,“Xλ”,及び“Xλ”でそれぞれ示される,セパレータノード462及び472とを含む. In the case of C1L3R3-AG, the BN topology, the moral and triangulated graphs, and the corresponding junction tree are as shown in FIG. Referring to FIG. 11A, the BN topology 400 includes nodes 410, 412, 414, 416, 418, and 420, indicated by λ, X s , C L , C R , G, and A, respectively. Referring to FIG. 11B, a moral and triangulate graph 430 corresponding to the BN topology 400 includes nodes 410, 412, 414, 416, 418 and 420, nodes 418 and 420, nodes 410 and 418, and Includes three additional links 422, 424, and 426 connecting nodes 410 and 420, respectively. Referring to FIG. 11C, junction trees 450 corresponding to the graph of FIG. 11B are indicated by “X s λAG”, “X s C L λ”, and “X s C R λ”, respectively. is includes a cluster node 460 and 464, and 474, "X s λ", and indicated "X s λ" respectively, and a separator nodes 462 and 472.

この場合,条件付確率関数は以下のように求められる.   In this case, the conditional probability function is obtained as follows.

Figure 0004861912
したがって,λ,C及びCに対するC1L3R3の設定に従えば,C1L3R3−AGのペンタフォン尤度は以下のようになる.
Figure 0004861912
Thus, lambda, according to the setting of C1L3R3 for C L and C R, penta von likelihood of C1L3R3-AG is as follows.

Figure 0004861912
これは,P(Xs|[a−−,a,a,a,a++],A,G)を,P(Xs|[a],A,G),P(Xs|[a−−,a,a],A,G),及びP(Xs|[a,a,a++],A,G)に因数分解することにより,単純化できることを示している.
Figure 0004861912
This means that P (Xs | [a −− , a , a, a + , a ++ ], A, G) is changed to P (Xs | [a], A, G), P (Xs | [a -, a -, a], a, G), and P (Xs | [a, a +, a ++], a, by factoring in G), and show that it is possible simplified.

提案に係るペンタフォンモデルでASRシステムを実現するためには,いくつかのモデルで動作できる,特別なデコーダを必要とする.これは,提案に係るペンタフォンモデルを,標準的なトライフォンに基づくHMMシステムにより生成されたN−ベストリストの再スコアリングに適用する場合には,避けることができる.   In order to realize the ASR system with the proposed pentaphone model, a special decoder that can operate with several models is required. This can be avoided if the proposed pentaphone model is applied to rescoring the N-best list generated by a standard triphone-based HMM system.

図12は,本発明の第1の実施の形態に係るASRシステム500の全体の構造を示す.図12を参照して,ASRシステム500は,音声波形データ510を受け,その音声をデコードし,入力音声の仮説のNベストリストを出力するための標準的デコーダ512と,530,532,534,及び536でそれぞれ示される,ペンタフォンモデルC1L3R3,C1L3R3−A,C1L3R3−G,及びC1L3R3−AGを記憶するためのモデル記憶装置520と,人間の操作に応答して,モデル530,532,534,及び536のうちいずれか1つを選択するためのセレクタ522と,標準的デコーダ512からの仮説のNべストを,セレクタ522により選択されたモデルを利用して再スコアリングし,Nベストの仮説のうち最も高いスコアを示す1つを出力するための仮説選択モジュール516とを含む.   FIG. 12 shows the overall structure of the ASR system 500 according to the first embodiment of the present invention. Referring to FIG. 12, ASR system 500 receives standard waveform 512 for receiving speech waveform data 510, decoding the speech, and outputting an N best list of hypotheses of input speech, and 530, 532, 534. And a model storage device 520 for storing the pentaphone models C1L3R3, C1L3R3-A, C1L3R3-G, and C1L3R3-AG, and models 530, 532, 534, respectively, in response to human operation. And the selector 522 for selecting one of 536 and N-best of the hypothesis from the standard decoder 512 are re-scored using the model selected by the selector 522, and the N-best hypothesis And a hypothesis selection module 516 for outputting one indicating the highest score.

図13は仮説選択モジュール516の詳細を示す.図13を参照して,仮説選択モジュール516は,Nベストの仮説を記憶するためのメモリ550と,メモリ550から仮説を1つずつ読出し,分離された音素の特徴パラメータを,後続する再スコアリングのための機能ユニットに左から右という順序で供給するための読出及び供給モジュール552と,シフトメモリ554においてこれらの特徴パラメータを受取るための5つのシフトメモリ554,556,558,560及び562とを含む.特徴パラメータがシフトメモリ554,556,558,560及び562をシフトされた時,シフトメモリ554,556,558,560,及び562は,a,a++,a,a,及びa−−に対する特徴パラメータをそれぞれ記憶する. FIG. 13 shows details of the hypothesis selection module 516. Referring to FIG. 13, the hypothesis selection module 516 reads a hypothesis from the memory 550 for storing the N best hypotheses one by one, and subsequent re-scoring the feature parameters of the separated phonemes. A read and supply module 552 for supplying the functional units for the left to right in order, and five shift memories 554, 556, 558, 560 and 562 for receiving these characteristic parameters in the shift memory 554 Including. When the characteristic parameter is shifted shift memory 554,556,558,560 and 562, shift memory 554,556,558,560, and 562, a +, a ++, a, a - and a - relative Each feature parameter is stored.

仮説選択モジュール516はさらに,R3モデル並びにシフトメモリ554,556及び558に記憶された特徴パラメータを用いて,確率P(Xs|[a,a,a++])を計算するための右コンテキスト計算装置570と,C1モデル,及びシフトメモリ558に記憶された特徴ベクトルを用いて,確率P(Xs|[a])を計算するための中央コンテキスト計算装置572と,L3モデル並びにシフトメモリ558,560,及び562に記憶された特徴パラメータを用いて,確率P(Xs|[a−−,a,a])を計算するための左コンテキスト計算装置574と,読出及び供給モジュール552によりメモリ550から読出された仮説の各セグメンテーションに対し,式(30)にしたがって確率P(Xs|[a−−,a,a,,a++])を計算するためのPDF計算装置576とを含む. The hypothesis selection module 516 further uses the R3 model and the feature parameters stored in the shift memories 554, 556, and 558 to calculate a right context for calculating the probability P (Xs | [a, a + , a ++ ]). Using the device 570, the C1 model, and the feature vector stored in the shift memory 558, the central context calculation device 572 for calculating the probability P (Xs | [a]), the L3 model and the shift memories 558, 560 , 562 and the left context calculator 574 for calculating the probability P (Xs | [a , a , a]) from the memory 550 by the read and supply module 552. For each segmentation of the read hypothesis, the probability P (Xs | [a −− , a , a, + , a ++ ]).

仮説選択モジュール516はさらに,各仮説のセグメントの確率を乗算することにより,メモリ550に記憶された各仮説を再スコアリングし,スコアを対応する仮説と関連付けてメモリ550に記憶するための再スコアリングモジュール578と,メモリ550内の仮説をスコアの降順にソートし,最も高いスコアを有する仮説を出力するためのソート及び選択モジュール580とを含む.   The hypothesis selection module 516 further rescores each hypothesis stored in the memory 550 by multiplying the probabilities of the segments of each hypothesis and re-scores for storing the score in the memory 550 in association with the corresponding hypothesis. A ring module 578, and a sort and selection module 580 for sorting hypotheses in memory 550 in descending order of scores and outputting the hypothesis with the highest score.

単語レベルでのNベスト認識は,標準的デコーダ512により,従来のHMM音響モデル及び標準的なビタビ復号を用いて,テストデータの全ての発声に対して実行される.全てのNベストの仮説は,全音素の音響スコア,言語モデル(Language Model:LM)スコア,及びビタビ分割を含む.そして,各仮説の音素セグメント毎に,提案に係るペンタフォンモデルを用いて,仮説選択モジュール516において再スコアリングが行なわれる.   N-best recognition at the word level is performed by standard decoder 512 for all utterances of test data using a conventional HMM acoustic model and standard Viterbi decoding. All N-best hypotheses include an acoustic score for all phonemes, a language model (LM) score, and a Viterbi partition. Then, for each phoneme segment of each hypothesis, re-scoring is performed in the hypothesis selection module 516 using the proposed pentaphone model.

図13を参照して,メモリ550はNベストの仮説を記憶する.読出及び供給モジュール552はメモリ550から最初の仮説を読み出し,左から右に(先頭から末尾に),仮説内の音素セグメント(特徴パラメータ)をシフトメモリ554へ出力する.   Referring to FIG. 13, memory 550 stores N best hypotheses. The read and supply module 552 reads the first hypothesis from the memory 550 and outputs phoneme segments (feature parameters) in the hypothesis to the shift memory 554 from left to right (from the head to the end).

シフトメモリ554〜562は,音素セグメントをシフトする.シフトメモリ554,556及び558に記憶された,音素セグメントの各組に対して,右コンテキスト計算装置570はR3モデルを用いて確率P(Xs|[a,a,a++])を計算する.シフトメモリ558に記憶された各音素セグメントに対し,中央コンテキスト計算装置572はC1モデルを用いて確率P(Xs|[a])を計算する.シフトメモリ558,560,及び562に記憶された音素セグメントの各組に対して,左コンテキスト計算装置574はL3モデルを用いて確率P(Xs|[a−−,a,a])を計算する.計算された確率は,PDF計算装置576へ与えられる.PDF計算装置576はペンタフォンコンテキスト確率P(Xs|[a−−,a,a,,a++])を,式(30)にしたがって計算し,その確率を再スコアリングモジュール578に与える. Shift memories 554 to 562 shift phoneme segments. For each set of phoneme segments stored in the shift memories 554, 556 and 558, the right context calculator 570 uses the R3 model to calculate the probability P (Xs | [a, a + , a ++ ]). . For each phoneme segment stored in the shift memory 558, the central context calculator 572 calculates the probability P (Xs | [a]) using the C1 model. For each set of phoneme segments stored in shift memories 558, 560, and 562, left context calculator 574 calculates probability P (Xs | [a , a , a]) using the L3 model. Do it. The calculated probability is given to the PDF calculator 576. The PDF calculator 576 calculates the pentaphone context probability P (Xs | [a −− , a , a, + , a ++ ]) according to the equation (30), and gives the probability to the re-scoring module 578. .

シフトメモリ558に記憶される各音素セグメントに対応して,読出及び供給モジュール552は再スコアリングモジュール578に,PDF計算装置576の出力を読むタイミングを知らせる.これに応答して,再スコアリングモジュール578はPDF計算装置576の出力を読み,その値を記憶する.仮説の最後になると,読出及び供給モジュール552は,再スコアリングモジュール578に信号を送る.これに応答して,再スコアリングモジュール578はその仮内の全音素セグメントの確率を掛け合わせることにより,当該仮説のスコアを計算する.計算完了の際,再スコアリングモジュール578は,メモリ550内のスコア(ペンタフォンスコア)を処理対象の仮説と関連付けて記憶する.   For each phoneme segment stored in the shift memory 558, the read and supply module 552 informs the rescoring module 578 when to read the output of the PDF calculator 576. In response, rescoring module 578 reads the output of PDF calculator 576 and stores the value. At the end of the hypothesis, the read and supply module 552 signals the rescoring module 578. In response, the rescoring module 578 calculates the hypothesis score by multiplying the probabilities of all the phoneme segments in the provision. When the calculation is completed, the rescoring module 578 stores the score (pentaphone score) in the memory 550 in association with the hypothesis to be processed.

メモリ550に記憶された全ての仮説に対してペンタフォンスコアが計算されると,読出及び供給モジュールはソート及び選択モジュール580に信号を送る.これに応答して,ソート及び選択モジュール580は,メモリ550に記憶された全ての仮説を,対応するペンタフォン及びLMスコアと共に読出し,そのペンタフォン及びLMスコアを組合わせて新しいスコアとし,その新しいスコアの降順に仮説を並べかえ,並べかえた仮説のうち最も高いスコアを有するものを選択し,それを新しい仮説518として出力する.   Once the pentaphone score has been calculated for all hypotheses stored in memory 550, the read and feed module signals the sort and select module 580. In response, the sort and select module 580 reads all hypotheses stored in the memory 550 along with the corresponding pentaphone and LM score, combines the pentaphone and LM score into a new score, and the new The hypotheses are rearranged in descending order of the scores, and the one having the highest score is selected from the rearranged hypotheses, and the new hypothesis 518 is output.

図14に,仮説の再スコアリングの例を示す.   Figure 14 shows an example of hypothesis rescoring.

トレーニングの間に,いくつかの音素コンテキストが出現しなかったかもしれない.このようなコンテキストに対しては,ここで提案したペンタフォンコンテキストモデルは,認識の間に出力確率を作りだすことができない.この問題に対処するため,ここでは,単純に,小さな数値を出力確率として割当る.この再スコアリングには先行,後続,及び中央のモデルからの出力確率が関係するため,全ての要素モデルにフロアリングが適用される.   Some phonemic contexts may not have appeared during training. For such contexts, the proposed pentaphone context model cannot produce output probabilities during recognition. To deal with this problem, we simply assign a small number as the output probability. Because this rescoring involves output probabilities from the preceding, following, and central models, flooring is applied to all elemental models.

トレーニングデータの量が不十分な場合,パラメータの推定は,ここで提案したペンタフォンモデルに対するものでさえも信頼性が低くなり,状態出力の信頼性もまた下がる.モデルの信頼性を向上するため削除補間法を用いたが,その結果,より精密と思われるモデルが実際には信頼性を欠く場合に,より信頼性の高いモデルに戻ることができる.この概念は,別々にトレーニングした2個のモデルであって,その一方が他方よりも信頼性高くトレーニングされているようなモデル間を補間することに関連している.しかし,2個のモデルを補間する代わりに,我々はこのアプローチを2つの音素尤度の組込みに適用した.ただし,ここで提案したベイズペンタフォンモデルの音素尤度P(X|λbayenta)が精密な方であり,トライフォンの尤度P(X|λtriphn)が,より信頼性の高い方である.このため,音素尤度P(X|λ)は以下で与えられる. If the amount of training data is insufficient, the parameter estimation is less reliable, even for the proposed pentaphone model, and the state output is also less reliable. Deletion interpolation was used to improve the reliability of the model, but as a result, if a model that seems to be more precise actually lacks reliability, it can return to a more reliable model. This concept is related to interpolating between two separately trained models, one of which is trained more reliably than the other. However, instead of interpolating the two models, we applied this approach to the incorporation of two phoneme likelihoods. However, here we propose a Bayesian penta von model of phoneme likelihood P (X s | λ bay P enta) is a more precise, triphone of the likelihood P (X s | λ triphn) is more reliable The higher one. For this reason, the phoneme likelihood P (X s | λ) is given by

Figure 0004861912
ただし,αはここで提案したペンタフォンモデルのHMM音素尤度の重みを表し,(1−α)はトライフォンモデルのHMM音素尤度の重みを表す.トレーニングデータの量が十分に多ければ,P(X|λbayenta)はより信頼性が高くなり,αは1.0に近づく.十分でなければ,αは0.0に近づき,より信頼性の高いモデルP(X|λtriphn)に戻る.
Figure 0004861912
Here, α represents the weight of the HMM phoneme likelihood of the pentaphone model proposed here, and (1-α) represents the weight of the HMM phoneme likelihood of the triphone model. If the amount of training data is large enough, P (X s | λ Bay Penta ) becomes more reliable and α approaches 1.0. If not, α approaches 0.0 and returns to the more reliable model P (X s | λ triphn ).

発話の始め/終わりにおいては,全ての左/右コンテキストは無音で満たされる.隣接した単語の間に長い無音が存在しないと仮定しているので,前の単語の最後の音素コンテキストは,現在の単語の最初の音素コンテキストにも影響する.この再スコアリングメカニズムはこのように,単語内及び単語と単語の間の全セグメントに対して同様に振舞う(クロスワードモデル).   At the beginning / end of the utterance, all left / right contexts are filled with silence. Assuming that there is no long silence between adjacent words, the last phoneme context of the previous word also affects the first phoneme context of the current word. This rescoring mechanism thus behaves similarly for all segments within and between words (crossword model).

前述のように計算されたスコアはその後,現在の仮説に対応したLMスコアと組合わされる.Nベストから,最も高い発声スコアを達成する仮説が新しい認識出力として選択される.   The score calculated as described above is then combined with the LM score corresponding to the current hypothesis. From N best, the hypothesis that achieves the highest utterance score is selected as the new recognition output.

6.実験
出願人(株式会社国際電気通信基礎技術研究所(ATR))が準備した,アクセント付の英語発声コーパスをこの実験に用いた.文の素材は,旅行で用いられる表現の基本的なドメインに基づくものである.発話データベースは,アメリカ(US)とオーストラリア(AUS)の英語アクセントからなり,各アクセントは各々,100人の話者(男性50名,女性50名)による約45,000の発話(44発声時間)からなる.このデータの90%,すなわち40,000の発話(男女各40人の話者による20,000の発話)をトレーニングデータとして用いた.評価のため,残り10%のアクセントデータ(US及びAUS)の混合物から,20人の異なる話者(男性10名,女性10名)による,200の発話をランダムに選択した.バイグラム及びトライグラム言語モデルを,約150,000の旅行に関する文によりトレーニングした.利用可能であった発音辞典は37,000の単語からなり,USの発音に基づいていた.
6). Experiment An accented English speech corpus prepared by the applicant (ATR) was used for this experiment. The material of the sentence is based on the basic domain of expressions used in travel. The utterance database consists of American (US) and Australian (AUS) English accents, each accented by about 45,000 utterances (44 utterance hours) by 100 speakers (50 men and 50 women). It consists of 90% of this data, that is, 40,000 utterances (20,000 utterances by 40 male and female speakers) were used as training data. For evaluation, 200 utterances by 20 different speakers (10 males and 10 females) were randomly selected from the remaining 10% mixture of accent data (US and AUS). The bigram and trigram language models were trained with about 150,000 travel statements. The pronunciation dictionary that was available consisted of 37,000 words and was based on US pronunciation.

16kHzのサンプリング周波数,20ミリ秒のフレーム長,10ミリ秒のフレームシフト,並びに12次のMFCC(Mel−Frequency Cepstrum Coefficients:メル周波数ケプストラム),ΔMFCC及びΔ対数パワーからなる25次元の特徴パラメータを用いた.全ての音素について,初期HMMとして3状態を用いた.そして,連続状態分割(Successive State Splitting:SSS)トレーニングアルゴリズムを用いて,状態結合HMnetトポロジを持つトライフォン音響モデルを得た.状態結合の数は,ここで用いられたSSSアルゴリズムが最小記述長(Minimum Describtion Length:MDL)最適化基準に基づくことから,アルゴリズムにより自動的に決定される.MDL−SSSの詳細は他の文献(非特許文献9)に記載されている.SSSトポロジトレーニングは,全てのトレーニングデータを用いて実行された.状態の総数は2,126であり,状態当りガウス混合成分が4種類,すなわち,状態当りガウス混合成分の数が5,10,15及び20個のモデルが得られた. 16kHz sampling frequency, a frame length of 20 ms, a frame shift of 10 ms, and 12-order MFCC (Mel-Frequency Cepstrum Coefficients: Mel frequency cepstrum), use the 25-dimensional feature parameters consisting ΔMFCC and Δ log power It was. For all phonemes, three states were used as the initial HMM. Using a continuous state splitting (SSS) training algorithm, a triphone acoustic model having a state coupled HMnet topology was obtained. The number of state bindings is automatically determined by the algorithm because the SSS algorithm used here is based on a Minimum Description Length (MDL) optimization criterion. Details of MDL-SSS are described in other documents (Non-patent Document 9). SSS topology training was performed using all training data. The total number of states was 2,126, and four types of Gaussian mixture components per state were obtained, that is, models with 5, 10, 15, and 20 Gaussian mixture components per state.

従来のトライフォン音響モデル(AM)に性別及びアクセントといった付加的知識を組込むこともまた,性別及び/又はアクセント依存のAMをトレーニングすることにより,可能である.すべてのモデルに対するトポロジに対応した構造が確実に同じになるように,所定のアクセント又は性別のトレーニングデータによる,組込トレーニング手順のみが行なわれた.このため,総合して,1つの単一トライフォンAM(付加的知識無し)と,2つのアクセント依存トライフォンAM(USとAUSとの両方に対して)と,2つの性別依存トライフォンAM(男性と女性との両方に対して)と,4つのアクセント及び性別依存トライフォンAM(USの男性及び女性と,AUSの男性及び女性とに対して)とを得た.   It is also possible to incorporate additional knowledge such as gender and accent into the traditional triphone acoustic model (AM) by training gender and / or accent dependent AM. Only built-in training procedures with predetermined accent or gender training data were performed to ensure that the structure corresponding to the topology for all models was the same. Thus, in total, one single triphone AM (no additional knowledge), two accent-dependent triphones AM (for both US and AUS), and two gender-dependent triphones AM ( And 4 accents and gender-dependent triphones AM (for men and women in US and men and women in AUS).

これら,状態当り5混合成分のベースラインモデルがどのような性能を示したかを図15のグラフにプロットした.付加的知識無しのトライフォンのベースラインは,83.60%の単語正解率を達成した.しかし,性別依存モデルのみ,性能をわずかに向上可能であった.他のモデルの性能は低下しただけであった.とりわけ,アクセント・性別依存モデルは単語正解率82.11%まで低下した.これは,他のベースラインモデルに比べトレーニングデータの量が特に少なかったことによるものであろう.   The performance of these five mixed component baseline models per state was plotted in the graph of FIG. The baseline of triphone without additional knowledge achieved a word accuracy rate of 83.60%. However, only the gender-dependent model could improve the performance slightly. The performance of other models was only reduced. In particular, the accent / gender dependency model decreased to a word correct rate of 82.11%. This is probably because the amount of training data was particularly small compared to other baseline models.

A.HMM状態レベルで知識源を組込んだときの性能
提案に係るペンタフォンモデルを,セクション4−Bに記述したように,音素クラスコンテキスト変数でラベル付けされたすべてのアクセントデータにおいて,同じ量のトレーニングデータを用いてトレーニングした.モデルの状態トポロジ,状態の総数,及び,遷移確率は,すべてトライフォンHMMベースラインと同一である.それゆえに,これらはすべてパラメータの数という点で同様の複雑さを有する.主要な違いは,状態の確率分布において,各々のガウス分布がCまたはCにより明確に条件付けされているという点にのみある.これとは対照的に,HMMベースラインでの全てのガウス成分は,混合インデックスに関する「意味のある」解釈無しにEMアルゴリズムにより学習された.いくつかの音素コンテキストクラスCまたはCは,文法規則により存在しないか,又はトレーニングデータに現れず,その結果,トレーニング後に,状態当り平均約50のガウス分布が得られた.データ駆動型クラスタリング技術を用いてペンタフォンモデルのサイズを状態当り5,10,15及び20の混合成分に対応するよう減少させることにより,推定パラメータの信頼性の低下を避け,ガウス分布の総数が全く同じであることにより,性能をベースラインシステムと比べることが可能なようにする.
A. Performance when incorporating knowledge sources at the HMM state level The same amount of training for all accent data labeled with phoneme class context variables, as described in Section 4-B, for the proposed pentaphone model We trained using the data. The model's state topology, total number of states, and transition probabilities are all the same as the triphone HMM baseline. Therefore, they all have similar complexity in terms of the number of parameters. The main difference is that in the state probability distribution, each Gaussian distribution is clearly conditioned by C L or C R. In contrast, all Gaussian components at the HMM baseline were learned by the EM algorithm without a “significant” interpretation of the mixed index. Some phonemes context class C L or C R is absent by the grammar rules, or not appear in the training data, the result, after training, the Gaussian distribution of state per average of about 50 was obtained. By reducing the size of the pentaphone model to correspond to 5, 10, 15, and 20 mixed components per state using data-driven clustering techniques, the reliability of the estimated parameters is avoided and the total number of Gaussian distributions is reduced. Being exactly the same makes it possible to compare performance with the baseline system.

最初に,ベースラインと同じテストデータを用い,ペンタフォンモデルBN−C,BN−CG,BN−CA又はBN−CGAがどの程度の性能であるかを評価した.平均で状態当り5つという同じ数の混合成分を持つこれら4つのモデル全ての結果を,図16にプロットした.   First, we evaluated the performance of the pentaphone model BN-C, BN-CG, BN-CA or BN-CGA using the same test data as the baseline. The results of all four models with the same number of mixed components on average, five per state, are plotted in FIG.

これからわかるように,全てのBNのタイプを用い,様々なタイプの知識源の組込みを行なうように状態の確率分布を変えただけで,認識が向上した.しかし,性別及びアクセント変数を組込んだものでは,ここで提案したモデルの認識率はそれ以上向上しなかった.この問題も,各々のアクセント又は性別依存モデルに対するトレーニングデータに限りがあることに関係しているのであろう.それが,最高性能がBN−Cを用いた場合の単語正解率85.03%である理由である.   As can be seen, recognition was improved by using all BN types and changing the state probability distribution to incorporate various types of knowledge sources. However, when the gender and accent variables were incorporated, the recognition rate of the proposed model did not improve further. This problem may also be related to the limited training data for each accent or gender-dependent model. That is why the best performance is 85.03% when using BN-C.

我々は,これを,一致するアクセントのテストの組で評価した.このテストデータは,BN−Cを用いてもたらされる効果が何かをさらに詳しく調査するための,各アクセント(US及びAUS)からランダムに選択された200の発話である.種々の数の混合成分のモデルを用いて得られた結果をテーブル2に要約する.   We evaluated this with a set of matching accent tests. This test data is 200 utterances randomly selected from each accent (US and AUS) to investigate further what the effects that can be achieved with BN-C. Table 2 summarizes the results obtained using different numbers of mixed component models.

Figure 0004861912
Figure 0004861912

Figure 0004861912
これからわかるように,ここで提案したペンタフォンモデルは,同じ数のパラメータの範囲ではベースラインよりも良い性能を示す.USのペンタフォンHMM/BNの最良の性能はガウス混合分布数が10の時に得られ,これによってWER(Word Error Rate:単語誤り率)が相対的に約8%削減し,AUSのペンタフォンの最良の性能はガウス混合分布数が20の時に得られ,WERが相対的に約11%削減した.一致しないアクセントのテストの組でもこれらペンタフォンモデルの性能を評価した.例えば,US発声でトレーニングされたモデルをAUS発声のテストデータでテストし,その逆も行なった.15個の混合成分のモデルを用いて得られた結果をテーブル3に要約する.一致時と不一致時との比較を簡単にするため,テーブル3には一致するアクセントの評価から得た結果も含ませてある.一致しないアクセントに対するペンタフォンモデルでも,標準的なHMMトライフォンモデルに比べ,依然として一貫して性能が優れていることが分かる.
Figure 0004861912
As can be seen, the proposed pentaphone model performs better than the baseline for the same number of parameters. The best performance of US pentaphone HMM / BN is obtained when the number of Gaussian mixture distributions is 10, which reduces the WER (Word Error Rate) by about 8% and The best performance was obtained when the number of Gaussian mixture distributions was 20, and the WER was relatively reduced by about 11%. The performance of these pentaphone models was also evaluated in a test set of inconsistent accents. For example, a model trained with US utterances was tested with AUS utterance test data and vice versa. Table 3 summarizes the results obtained using the 15 mixed component model. To simplify the comparison between coincidence and non-coincidence, Table 3 also includes the results obtained from the evaluation of matching accents. It can be seen that the Pentaphone model for inconsistent accents still has consistently better performance than the standard HMM triphone model.

B.HMM音素モデルレベルでの知識源組込み時の性能
非特許文献8では,我々は,ペンタフォンモデルを分解する数種類の方法を調査し,最良の方法がC1L3R3構成であることを見出した.ここでは,C1L3R3モデルのみを用いた追加の実験について記述する.
B. Performance when incorporating knowledge sources at the HMM phoneme model level In Non-Patent Document 8, we investigated several methods for decomposing the pentaphone model and found that the best method was the C1L3R3 configuration. Here we describe an additional experiment using only the C1L3R3 model.

全てのアクセント付のペンタフォンモデルの全成分を,同量のトレーニングデータ及び同じSSSトレーニングアルゴリズムを用いて別々にトレーニングした.状態の総数は3,360(C1:132状態,L3:1,746状態,R3:1,782状態の合計)で,状態当り4種類のガウス混合成分数,すなわち,5,10,15及び20という数のガウス混合成分のものが得られた.そして,組込みトレーニング手順を,特定のアクセント又は性別のトレーニングデータでペンタフォンC1L3R3−A,C1L3R3−G,及びC1L3R3−AGに対して実行した.   All components of all accented pentaphone models were trained separately using the same amount of training data and the same SSS training algorithm. The total number of states is 3,360 (total of C1: 132 state, L3: 1,746 state, R3: 1,782 state), and the number of four types of Gaussian mixture components per state, ie, 5, 10, 15 and 20 The number of Gaussian mixture components was obtained. A built-in training procedure was then performed for Pentaphone C1L3R3-A, C1L3R3-G, and C1L3R3-AG with specific accent or gender training data.

Figure 0004861912
Figure 0004861912

Figure 0004861912
最初に,付加的知識源の組込みが複数のアクセント付のテストデータに対しどんな効果を有するかを評価した.5つの混合成分を有する,提案に係るペンタフォンC1L3R3,C1L3R3−A,C1L3R3−G,及びC1L3R3−AGに対する結果を図17に要約する.10ベストリストと,削除補間のための0.3の重みパラメータαを用いて再スコアリングが行なわれた.ここから分かるように,組込んだ知識源が多いほど,性能もよくなった.提案に係るペンタフォンC1L3R3モデルは,ベースラインに対して性能が向上し,達成された最高性能は,アクセントA,性別G,先行コンテキストC,及び後続コンテキストCという付加的知識を組込んだC1L3R3−AGによる,84.38%という単語正解率である.性別及びアクセントが組込まれた時には,ペンタフォンHMM/BNに対する場合と同様,性能の低下はなかったが,これは恐らく削除補間法を使用したことによるものである.
Figure 0004861912
First, we evaluated the effect of incorporating additional knowledge sources on test data with multiple accents. The results for the proposed pentaphones C1L3R3, C1L3R3-A, C1L3R3-G, and C1L3R3-AG with five mixed components are summarized in FIG. Rescoring was performed using 10 best lists and a weight parameter α of 0.3 for deletion interpolation. As you can see, the more knowledge sources incorporated, the better the performance. Penta von C1L3R3 model according to the proposed maximum performance capability is improved versus baseline was achieved, incorporating accents A, sex G, prior context C L, and the additional knowledge that subsequent context C R The correct word rate is 84.38% according to C1L3R3-AG. When gender and accent were incorporated, there was no performance degradation, as was the case with Pentaphone HMM / BN, probably due to the use of the deletion interpolation method.

次に,全アクセント付テストデータに対してC1L3R3−AGがどのような性能を示すのか,その詳細を,Nベスト(N=10)リストを用いて調査した.補間削除法のための重みパラメータαは同じ(0.3)であった.ここでは,非特許文献1で使用された,相対的向上度(Rel-Imp)と,再スコアリングについての相対的向上度(Rel−Resc−Imp)との両方を以下により計算した.   Next, we investigated the details of the performance of C1L3R3-AG for all test data with accents using the N best (N = 10) list. The weight parameter α for the interpolation deletion method was the same (0.3). Here, both the relative improvement (Rel-Imp) used in Non-Patent Document 1 and the relative improvement (Rel-Resc-Imp) for rescoring were calculated as follows.

Figure 0004861912
ただし,Nベストリストの上限はNベスト認識結果である.
Figure 0004861912
However, the upper limit of the N best list is the N best recognition result.

種々の数の混合成分のモデルによって得られた結果をテーブル4に要約する.これから分かるように,提案に係るペンタフォンモデルにより,ASRシステムの性能は一貫して向上した.最大のRel−Resc−Impは,US及びAUSアクセントの両方に対し,15の混合モデルの時に得られた(USモデルに対し37.92%及びAUSモデルに対し38.04%).   Table 4 summarizes the results obtained with various numbers of mixed component models. As can be seen, the proposed pentaphone model has consistently improved the performance of the ASR system. The highest Rel-Resc-Imp was obtained for 15 mixed models for both US and AUS accents (37.92% for US model and 38.04% for AUS model).

また,提案に係るペンタフォンC1L3R3−AGモデルが,一致しないアクセントのテストの組に対してどの程度の性能を示すかについても評価した.15個の混合成分を持つモデルを用いて得た結果をテーブル5に要約する.テーブル5は,一致時と不一致時との比較を簡単にするために,一致するアクセントに対する評価からの結果をも含む.提案に係るペンタフォンC1L3R3−AGモデルが,一致しないアクセントについて標準的なトライフォンモデルよりも一貫して良い性能を示すことが分かる.   We also evaluated the performance of the proposed pentaphone C1L3R3-AG model against the mismatched accent test set. Table 5 summarizes the results obtained using the model with 15 mixed components. Table 5 also includes the results from evaluations for matching accents to simplify comparisons between matches and mismatches. It can be seen that the proposed pentaphone C1L3R3-AG model shows consistently better performance than the standard triphone model for mismatched accents.

C.種々のモデルの比較
最後に,2,202個の状態数の従来のペンタフォンHMMモデルであって,何も無いところからMDL−SSSを用いてトレーニングされたものを用い,提案に係るモデルの性能の高さが,主に広域音素コンテキストによりもたらされたものかどうかを調査するために,追加の実験を行なった.性別及びアクセントに依存するペンタフォンモデルも,特定のアクセント又は性別に関するトレーニングデータでの組込み手順を用いて取得した.これらはベイズペンタフォンの場合と同様,Nベストリストを再スコアリングすることにより実現された.
C. Comparison of various models Finally, the performance of the proposed model using a 2,202 state number conventional pentaphone HMM model trained using MDL-SSS from nothing. An additional experiment was conducted to investigate whether the height of the was mainly brought about by the wide phoneme context. A gender and accent dependent pentaphone model was also obtained using a built-in procedure with training data for a specific accent or gender. These were realized by re-scoring the N best list, as in Bayes Pentaphone.

状態当り5つの混合成分を持つ全てのモデルに対する結果を図18にプロットする.これから分かるように,提案に係るペンタフォンC1L3R3モデルによりベースラインに比べて性能が向上し,しかもこれは従来のペンタフォンHMMで単に再スコアリングするよりも優秀である.この理由は,ある量のトレーニングデータが与えられたときに,MDL−SSSアルゴリズムを用いて従来のペンタフォンモデルをトレーニングした結果得られたのが,総数2,202個の状態を持つモデルであり,これがトライフォンHMMでの状態の総数とそれほど変わらないことによるのであろう.同じガウス分布成分を共有する異なるペンタフォンコンテキストがあまりに多くあるように見えるために,コンテキストの分解能が低下した.このため,いくつかのコンテキスト依存性の少ないモデルを組合わせたものを用いてペンタフォンモデルを近似することにより,コンテキストの分解能の向上と性能の改善とを促進することができた.得られた最高性能は,BN−Cによる単語正解率85.03%であった.   The results for all models with five mixed components per state are plotted in FIG. As can be seen, the proposed Pentaphone C1L3R3 model improves performance compared to the baseline, which is better than simply re-scoring with a conventional Pentaphone HMM. This is because a model having a total of 2,202 states was obtained as a result of training a conventional pentaphone model using the MDL-SSS algorithm when a certain amount of training data was given. This is probably because it is not so different from the total number of states in the triphone HMM. The resolution of the context was reduced because there seem to be too many different pentaphone contexts sharing the same Gaussian distribution component. Therefore, by improving the context resolution and performance by approximating the pentaphone model using a combination of several context-independent models, we were able to promote the improvement of context resolution and performance. The highest performance obtained was 85.03% of correct word rate by BN-C.

7.結論
統計的音響モデルを基本としたHMMに,付加的知識源を組込むための一般的なフレームワークを述べた.広域音素コンテキスト情報をトライフォンHMMへ組込むことにより,このフレームワークの実現を提示した.これは最初にBNを用いてHMMの状態レベルで行なわれた.付加的知識源が認識の間に隠されていても,このアプローチによれば標準デコーディングシステムを変更なく使用することができる.次に,広域音素コンテキスト音響モデリングを,より狭いコンテキストを持ついくつかの他のモデルを用いて構築することにより,HMM音素モデルレベルで組込んだ.この複合の技術によって,推定されるべきコンテキストユニットの数の削減がもたらされたため,コンテキスト依存性のより少ないモデルを推定することが必要なだけとなったので,コンテキストの分解能は著しく向上した.
7). Conclusion A general framework for incorporating additional knowledge sources into HMMs based on statistical acoustic models is described. The implementation of this framework was presented by incorporating wide-area phoneme context information into the triphone HMM. This was first done at the state level of the HMM using BN. Even if additional knowledge sources are hidden during recognition, this approach allows the standard decoding system to be used without modification. Next, wide-area phoneme context acoustic modeling was built at the HMM phoneme model level by building with several other models with narrower contexts. Because this composite technique resulted in a reduction in the number of context units to be estimated, it was only necessary to estimate a model with less context dependency, so the context resolution was significantly improved.

これらの広域コンテキストモデル構成を,Nベストの再スコアリングにより,処理後の段階に適用した.実験結果により,提案に係るフレームワークで作成された広域音素コンテキストモデルが,標準的なトライフォンモデルに対して単語正解率を向上させることが明らかとなった.2つ前のコンテキストCと,2つ後のコンテキストCという付加的知識は,HMM状態レベルでの組込みに適しており,一方,アクセントA及び性別Gという付加的知識は,HMM音素モデルレベルでの組込みに,より適していた. These global context model configurations were applied to the post-processing stage by N-score re-scoring. Experimental results show that the phoneme context model created by the proposed framework improves the word accuracy rate compared to the standard triphone model. Two previous context C L, additional knowledge that the two after the context C R, is suitable for incorporation in the HMM state level, while the additional knowledge that accent A and sex G, HMM phoneme model level It was more suitable for incorporation in.

上述のように,本発明は,付加的な知識源を統一された方法で組み込むための方法及び装置に関するものである.これら方法及び装置はベイズネットワークのフレームワークを利用し,どのようなドメインからのものでも,すべての付加的知識源を簡単に統合する.このグラフによるモデルフレームワークの有利な点は,(1)情報源間の確率論的関係を学習することを可能にすること,及び,(2)同時確率密度関数を,互いにリンクされた局部的条件付確率密度関数の組に分解することを容易にすること,である.モデルが簡素化された形式であるため,このようにして,限定された量のデータを用いてモデルを構築し,信頼性高く推定することが可能である.   As mentioned above, the present invention relates to a method and apparatus for incorporating additional knowledge sources in a unified way. These methods and devices use the Bayesian network framework to easily integrate all additional knowledge sources from any domain. The advantages of this graphical model framework are: (1) it enables learning of probabilistic relationships between information sources, and (2) the joint probability density function is linked to each other locally. It is easy to decompose into a set of conditional probability density functions. Since the model is in a simplified form, it is possible in this way to build a model with a limited amount of data and estimate it reliably.

このフレームワークは一般的なアプローチを代表するものである.即ち,このフレームワークは,それぞれモデルに基づく尤度関数を持つ,多くの既存の音響モデルのモデル化の問題に適用できる.   This framework represents a general approach. In other words, this framework can be applied to many existing acoustic model modeling problems, each with a model-based likelihood function.

コンピュータによる実現
上述の実施の形態は,コンピュータシステムと,当該システム上で実行されるコンピュータプログラムとによって実現可能である.図19はこれら実施の形態で用いられるコンピュータシステム650の外観を示し,図20はコンピュータシステム650のブロック図である.ここで示すコンピュータシステム650は単なる例示であって,さまざまな他の構成が利用可能である.
Realization by computer The above-described embodiment can be realized by a computer system and a computer program executed on the system. FIG. 19 shows the external appearance of the computer system 650 used in these embodiments, and FIG. 20 is a block diagram of the computer system 650. The computer system 650 shown here is merely exemplary, and various other configurations can be used.

図19を参照して,コンピュータシステム650は,コンピュータ660と,モニター662と,キーボード666と,マウス668と,スピーカー692と,マイクロフォン690とを含む.さらに,コンピュータ660は,DVD(Digital Versatile Disc)ドライブ670及び半導体メモリポート672を含む.   Referring to FIG. 19, a computer system 650 includes a computer 660, a monitor 662, a keyboard 666, a mouse 668, a speaker 692, and a microphone 690. Further, the computer 660 includes a DVD (Digital Versatile Disc) drive 670 and a semiconductor memory port 672.

図20を参照して,コンピュータ660はさらに,DVD670及び半導体メモリポート672に接続されたバス686と,上述した装置を実現するコンピュータプログラムを実行するためのCPU(Central Processing Unit)676と,コンピュータ660のブートアッププログラムを記憶するROM(Read−Only Memory)678と,CPU676によって使用される作業領域及びCPU676によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory)680と,音声データ,音響データ,言語モデル,及び音声認識のために必要なレキシコンを記憶するためのハードディスクドライブ674と,コンピュータ660にネットワーク652との接続を提供するためのネットワークインターフェース(I/F)696とを含み,これらは全てバス686に接続されている.   Referring to FIG. 20, a computer 660 further includes a bus 686 connected to DVD 670 and semiconductor memory port 672, a CPU (Central Processing Unit) 676 for executing a computer program for realizing the above-described device, and computer 660. ROM (Read-Only Memory) 678 for storing the boot-up program, RAM (Random Access Memory) 680 for providing a work area used by the CPU 676 and a storage area for programs executed by the CPU 676, audio data, and sound Hard disk drive 674 for storing data, language model and lexicon required for speech recognition, and connection of computer 660 to network 652 And a network interface (I / F) 696 for providing all of them are connected to the bus 686.

上述の実施の形態に係るシステムを実現するソフトウェアはDVD682又は半導体メモリ684等の記憶媒体に記憶されたオブジェクトコードの形で流通し,DVDドライブ670又は半導体メモリポート672等の読出装置を介してコンピュータ660に提供され,ハードディスクドライブ674に記憶される.CPU676がプログラムを実行する際には,プログラムはハードディスクドライブ674から読出されてRAM680に記憶される.図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ,その命令が実行される.CPU676はハードディスクドライブ674から処理すべきデータを読出し,処理の結果をこれもまたハードディスクドライブ674に記憶する.スピーカ692とマイクロフォン690とは,音声認識と音声合成とに用いられる.   The software that realizes the system according to the above-described embodiment is distributed in the form of an object code stored in a storage medium such as a DVD 682 or a semiconductor memory 684, and is connected to a computer via a reading device such as a DVD drive 670 or a semiconductor memory port 672. 660 and stored in the hard disk drive 674. When the CPU 676 executes the program, the program is read from the hard disk drive 674 and stored in the RAM 680. An instruction is fetched from an address specified by a program counter (not shown), and the instruction is executed. The CPU 676 reads data to be processed from the hard disk drive 674 and stores the processing result in the hard disk drive 674 as well. The speaker 692 and the microphone 690 are used for speech recognition and speech synthesis.

コンピュータシステム650の一般的動作は周知であるので,ここでは詳細な説明は行なわない.   The general operation of computer system 650 is well known and will not be described in detail here.

ソフトウェアの流通の方法に関して,ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい.例えば,ソフトウェアはネットワーク652に接続された別のコンピュータから配布されてもよい.ソフトウェアの一部がハードディスク674に記憶され,ソフトウェアの残りの部分をネットワークを介してハードディスク674に取込み,実行の際に統合する様にしてもよい.   Regarding software distribution methods, software does not necessarily have to be fixed on a storage medium. For example, the software may be distributed from another computer connected to the network 652. A part of the software may be stored in the hard disk 674, and the remaining part of the software may be taken into the hard disk 674 via the network and integrated at the time of execution.

典型的には,現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される汎用の関数を利用し,所望の目的に従って制御された態様でこれら関数を実行する.従って,OS又は第3者から提供されうる汎用関数を含まず,一般的な関数の実行順序の組合せのみを指定したプログラムであっても,そのプログラムが全体として所望の目的を達成する制御構造を有する限り,そのプログラムがこの発明の範囲に包含されることは明らかである.   Typically, modern computers utilize general-purpose functions provided by a computer operating system (OS) and execute these functions in a controlled manner according to the desired purpose. Therefore, even if it is a program that does not include general-purpose functions that can be provided by the OS or a third party and only specifies a combination of execution order of general functions, a control structure that achieves a desired purpose as a whole Obviously, the program is included in the scope of the present invention as long as it has.

今回開示された実施の形態は単に例示であって,本発明は上記した実施の形態のみに制
限されるわけではない.本発明の範囲は,発明の詳細な説明の記載を参酌した上で,特許
請求の範囲の各請求項によって示され,そこに記載された文言と均等の意味及び範囲内で
のすべての変更を含む.
The embodiment disclosed this time is merely an example, and the present invention is not limited to the embodiment described above. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.

付加的知識源を音響モデルに組込む一般的手順を示す図である.It shows the general procedure for incorporating additional knowledge sources into an acoustic model. 種々のBNトポロジを示す図である.It is a figure which shows various BN topologies. 種々のBNトポロジのいくつかの例を示す図である.FIG. 2 shows some examples of various BN topologies. BNトポロジと,対応するトライアンギュレートグラフと,トライアンギュレートグラフのうちの1つから得たジャンクションツリーとを示す図である.It is a figure which shows BN topology, the corresponding triangulate graph, and the junction tree obtained from one of the triangulation graph. 図3(A)に示すBNと同じBNトポロジと,これに対応するジャンクションツリーとを示す図である.It is a figure which shows the same BN topology as BN shown to FIG. 3 (A), and the junction tree corresponding to this. トライフォン/a,a,a/をモデル化するために用いられるガウス混合分布密度での従来のHMM音響モデルを示す図である.FIG. 6 is a diagram illustrating a conventional HMM acoustic model at a Gaussian mixture distribution density used to model triphones / a + , a, a /. ペンタフォンコンテキスト/a−−,a,a,a,a++/をモデル化するためのBN−Cトポロジを示す図である.Penta von Context / a -, a -, a , a +, a diagram showing a BN-C topology for modeling a ++ /. BN−CG,BN−CA,及びBN−CGAのトポロジを示す図である.It is a figure which shows the topology of BN-CG, BN-CA, and BN-CGA. BNによる観測空間モデリングの例を示す図である.It is a figure which shows the example of observation space modeling by BN. 従来のトライフォンモデルと,従来のペンタフォンモデルと,ベイズペンタフォンモデル構成C1L3R3とを示す図である.It is a figure which shows the conventional triphone model, the conventional pentaphone model, and the Bayes pentaphone model configuration C1L3R3. BNトポロジと,これに対応するモラル及びトライアンギュレートグラフと,これに対応するジャンクションツリーとを示す図である.It is a figure which shows BN topology, the moral and triangulate graph corresponding to this, and the junction tree corresponding to this. 本発明のある実施の形態に係るASRシステム500の全体構造を示す図である.1 is a diagram showing an overall structure of an ASR system 500 according to an embodiment of the present invention. 仮説選択モジュール516の詳細を示すブロック図である.It is a block diagram which shows the detail of the hypothesis selection module 516. FIG. 本実施の形態に係るNベスト再スコアリングのメカニズムの例を示す図である.It is a figure which shows the example of the mechanism of N best rescoring which concerns on this Embodiment. 実験で用いられたトライフォンベースラインモデルの認識単語正解率の値を示す図である.It is a figure which shows the value of the recognition word correct rate of the triphone baseline model used in the experiment. 種々のBNトポロジを用いたペンタフォンHMM/BNモデルの認識単語正解率の値を示す図である.It is a figure which shows the value of the recognition word correct rate of the pentaphone HMM / BN model using various BN topologies. 種々のベイズペンタフォンモデルの認識単語正解率の値を示す図である.It is a figure which shows the value of the recognition word correct rate of various Bayes pentaphone models. 種々のシステムのトライフォンHMMベースライン,ペンタフォンHMMベースライン,ペンタフォンHMMベースライン,及び本発明の実施の形態に係るペンタフォンモデルの認識単語正解率の値を示す図である.It is a figure which shows the value of the recognition word correct rate of the triphone HMM baseline of various systems, the pentaphone HMM baseline, the pentaphone HMM baseline, and the pentaphone model which concerns on embodiment of this invention. コンピュータシステム650の外観を示す図である.It is a figure which shows the external appearance of the computer system 650. FIG. コンピュータシステム650を示すブロック図である.1 is a block diagram showing a computer system 650. FIG.

符号の説明Explanation of symbols

70,80,90,100,110,140,240,330 ベイズネットワーク
130,150 モラル及びトライアンギュレートグラフ
160,180,450 ジャンクションツリー
190 HMM
270,290,310,400,430 BNトポロジ
164,166,170,460,464,474 クラスタの組
162,168,462,472 セパレータの組
500 ASRシステム
510 音声波形データ
512 標準的なデコーダ
514 Nベストリスト
516 仮説選択モジュール
530 C1L3R3ペンタフォンモデル
532 C1L3R3−A ペンタフォンモデル
534 C1L3R3−G ペンタフォンモデル
536 C1L3R3−AG ペンタフォンモデル
550 メモリ
552 読出及び供給モジュール
554,556,558,560,526 シフトメモリ
570 右コンテキスト計算装置
572 中央コンテキスト計算装置
574 左コンテキスト計算装置
576 確率密度関数計算装置
578 再スコアリングモジュール
580 ソート及び選択モジュール
70, 80, 90, 100, 110, 140, 240, 330 Bayesian network 130, 150 Moral and triangulated graph 160, 180, 450 Junction tree 190 HMM
270, 290, 310, 400, 430 BN topology 164, 166, 170, 460, 464, 474 Cluster set 162, 168, 462, 472 Separator set 500 ASR system 510 Speech waveform data 512 Standard decoder 514 N Best List 516 Hypothesis selection module 530 C1L3R3 Pentaphone model 532 C1L3R3-A Pentaphone model 534 C1L3R3-G Pentaphone model 536 C1L3R3-AG Pentaphone model 550 Memory 552 Read and supply module 554, 556, 558, 560, 526 Shift memory 570 Right context calculator 572 Central context calculator 574 Left context calculator 576 Probability density function calculator 578 Rescoring Jules 580 sorting and selection module

Claims (5)

音声信号の所与のセグメント中に存在する、予め定義された組の音素の各々について、前記音声信号のための統計的音響モデル及び1以上の知識源を用いて確率を計算するための確率計算装置であって、前記セグメントは、前記音声信号の複数のフレームを含み、前記音響モデル及び前記1以上の知識源はベイズネットワークにより示される因果関係を有し、前記ベイズネットワークは、複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応し、
前記装置は、
前記クラスタノード及び1以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含み、
前記所定の関数は、
Figure 0004861912
によって定義され、
ただしDは前記観測データであり、Mは前記音響モデルであり、Nは正の整数であり、Kiは1以上の知識源であり、
P(D|Ki,M)(i=1〜N)及びP(D|M)は前記局部的確率計算手段により計算された局部的確率である、確率計算装置。
Probability calculation for calculating a probability for each predefined set of phonemes present in a given segment of the speech signal using a statistical acoustic model for the speech signal and one or more knowledge sources The apparatus, wherein the segment includes a plurality of frames of the audio signal, the acoustic model and the one or more knowledge sources have a causal relationship indicated by a Bayesian network, and the Bayesian network includes a plurality of cluster nodes. And a junction tree containing one or more separator nodes,
The device is
Means for storing a plurality of local acoustic models corresponding to the cluster nodes and one or more separator nodes;
Means for calculating predefined observation data for each of the frames;
Local probability calculating means for calculating a local probability of generating the observation data of each of the phonemes using the plurality of local acoustic models;
Wherein each phoneme, the probability of generating the observed data, look including a probability calculation means for calculating a predetermined function of the local probabilities calculated by the local probability calculation means,
The predetermined function is:
Figure 0004861912
Defined by
Where D is the observed data, M is the acoustic model, N is a positive integer, Ki is a knowledge source of 1 or more,
P (D | Ki, M) (i = 1 to N) and P (D | M) are local probability calculated by the local probability calculating means .
前記モデルMはモノフォン音響モデルであり、
前記1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項に記載の装置。
The model M is a monophone acoustic model,
The apparatus of claim 1 , wherein the one or more knowledge sources include a preceding triphone context unit and a subsequent triphone context unit.
前記モデルMは追加の知識源を用いてトレーニングされたモノフォン音響モデルであり、
前記1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項に記載の装置。
The model M is a monophonic acoustic model trained with additional knowledge sources,
The apparatus of claim 1 , wherein the one or more knowledge sources include a preceding triphone context unit and a subsequent triphone context unit.
前記追加の知識源は、アクセント知識、又は性別に関する知識、又はアクセント知識及び性別に関する知識の両方を含む、請求項に記載の装置。 4. The apparatus of claim 3 , wherein the additional knowledge source includes accent knowledge, or gender knowledge, or both accent knowledge and gender knowledge. コンピュータ上で実行されると、前記コンピュータ、音声信号の所与のセグメント中に存在する、予め定義された組の音素の各々について、前記音声信号のための統計的音響モデル及び1以上の知識源を用いて確率を計算するための確率計算装置として機能させるコンピュータプログラムであって、前記セグメントは、前記音声信号の複数のフレームを含み、前記音響モデル及び前記1以上の知識源はベイズネットワークにより示される因果関係を有し、前記ベイズネットワークは、複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応し、
前記コンピュータプログラムは、前記コンピュータを、
前記クラスタノード及び1以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させ
前記所定の関数は、
Figure 0004861912
によって定義され、
ただしDは前記観測データであり、Mは前記音響モデルであり、Nは正の整数であり、Kiは1以上の知識源であり、
P(D|Ki,M)(i=1〜N)及びP(D|M)は前記局部的確率計算手段により計算された局部的確率である、コンピュータプログラム。
When executed on a computer , the computer causes a statistical acoustic model and one or more knowledge for the speech signal for each of a predefined set of phonemes present in a given segment of the speech signal. A computer program that functions as a probability calculation device for calculating a probability using a source, wherein the segment includes a plurality of frames of the speech signal, and the acoustic model and the one or more knowledge sources are based on a Bayesian network. The Bayesian network corresponds to a junction tree that includes a plurality of cluster nodes and one or more separator nodes;
The computer program stores the computer,
Means for storing a plurality of local acoustic models corresponding to the cluster nodes and one or more separator nodes;
Means for calculating predefined observation data for each of the frames;
Local probability calculating means for calculating a local probability of generating the observation data of each of the phonemes using the plurality of local acoustic models;
Functioning as probability calculation means for calculating the probability of generating the observation data of each of the phonemes as a predetermined function of the local probability calculated by the local probability calculation means ;
The predetermined function is:
Figure 0004861912
Defined by
Where D is the observed data, M is the acoustic model, N is a positive integer, Ki is a knowledge source of 1 or more,
P (D | Ki, M) (i = 1~N) and P (D | M) is Ru local probability der calculated by the local probability calculation unit, the computer program.
JP2007162864A 2007-06-20 2007-06-20 Probability calculation apparatus and computer program for incorporating knowledge sources Expired - Fee Related JP4861912B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007162864A JP4861912B2 (en) 2007-06-20 2007-06-20 Probability calculation apparatus and computer program for incorporating knowledge sources

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007162864A JP4861912B2 (en) 2007-06-20 2007-06-20 Probability calculation apparatus and computer program for incorporating knowledge sources

Publications (3)

Publication Number Publication Date
JP2009003110A JP2009003110A (en) 2009-01-08
JP2009003110A5 JP2009003110A5 (en) 2010-06-24
JP4861912B2 true JP4861912B2 (en) 2012-01-25

Family

ID=40319579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007162864A Expired - Fee Related JP4861912B2 (en) 2007-06-20 2007-06-20 Probability calculation apparatus and computer program for incorporating knowledge sources

Country Status (1)

Country Link
JP (1) JP4861912B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101587866B1 (en) 2009-06-03 2016-01-25 삼성전자주식회사 Apparatus and method for extension of articulation dictionary by speech recognition
CN102779510B (en) * 2012-07-19 2013-12-18 东南大学 Speech emotion recognition method based on feature space self-adaptive projection
KR102197387B1 (en) * 2017-05-19 2021-01-04 한국전자통신연구원 Natural Speech Recognition Method and Apparatus
CN110096677B (en) * 2019-05-08 2023-08-25 广西大学 Quick calculation method and system for high-order derivative function based on probability calculation
CN112233657B (en) * 2020-10-14 2024-05-28 河海大学 Speech enhancement method based on low-frequency syllable recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117583A (en) * 1999-10-15 2001-04-27 Sony Corp Device and method for voice recognition, and recording medium
JP4298464B2 (en) * 2003-10-29 2009-07-22 株式会社国際電気通信基礎技術研究所 How to prepare a hidden Markov model for use in speech recognition
JP2007052166A (en) * 2005-08-17 2007-03-01 Advanced Telecommunication Research Institute International Method for preparing acoustic model and automatic speech recognizer
JP2007066260A (en) * 2005-09-02 2007-03-15 Ntt Docomo Inc Network conversion system and method

Also Published As

Publication number Publication date
JP2009003110A (en) 2009-01-08

Similar Documents

Publication Publication Date Title
Dahl et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition
US8812315B2 (en) System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
Siniscalchi et al. Experiments on cross-language attribute detection and phone recognition with minimal target-specific training data
CN107615376B (en) Voice recognition device and computer program recording medium
Rabiner et al. An overview of automatic speech recognition
EP3076389A1 (en) Statistical-acoustic-model adaptation method, acoustic-model learning method suitable for statistical-acoustic-model adaptation, storage medium in which parameters for building deep neural network are stored, and computer program for adapting statistical acoustic model
Hadian et al. Flat-start single-stage discriminatively trained HMM-based models for ASR
Morgan et al. An introduction to hybrid HMM/connectionist continuous speech recognition
JP6884946B2 (en) Acoustic model learning device and computer program for it
Chen et al. Sequence discriminative training for deep learning based acoustic keyword spotting
Rasipuram et al. Acoustic and lexical resource constrained ASR using language-independent acoustic model and language-dependent probabilistic lexical model
Kımanuka et al. Turkish speech recognition based on deep neural networks
JP4861912B2 (en) Probability calculation apparatus and computer program for incorporating knowledge sources
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
Pakoci et al. Improvements in Serbian speech recognition using sequence-trained deep neural networks
Zhang et al. Wake-up-word spotting using end-to-end deep neural network system
Rosdi et al. Isolated malay speech recognition using Hidden Markov Models
Razavi et al. Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework
Lee On automatic speech recognition at the dawn of the 21st century
Becerra et al. A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish
Sarma et al. Speech recognition in Indian languages—a survey
JP2007052166A (en) Method for preparing acoustic model and automatic speech recognizer
Ungureanu et al. Establishing a baseline of Romanian speech-to-text models
El Ouahabi et al. Amazigh speech recognition using triphone modeling and clustering tree decision
Zhang et al. Application of pronunciation knowledge on phoneme recognition by lstm neural network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100506

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100506

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111107

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees