JP4861912B2 - Probability calculation apparatus and computer program for incorporating knowledge sources - Google Patents
Probability calculation apparatus and computer program for incorporating knowledge sources Download PDFInfo
- Publication number
- JP4861912B2 JP4861912B2 JP2007162864A JP2007162864A JP4861912B2 JP 4861912 B2 JP4861912 B2 JP 4861912B2 JP 2007162864 A JP2007162864 A JP 2007162864A JP 2007162864 A JP2007162864 A JP 2007162864A JP 4861912 B2 JP4861912 B2 JP 4861912B2
- Authority
- JP
- Japan
- Prior art keywords
- probability
- model
- calculating
- local
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は音声認識における確率計算に関し,特に,1以上の知識源を組込んだ音声認識における確率計算に関する. The present invention relates to probability calculation in speech recognition, and more particularly to probability calculation in speech recognition incorporating one or more knowledge sources.
情報技術は成長を続けており,日常生活の多くの局面においてますます大きな影響力を持つようになってきている.人間と,対話型システムのような情報処理装置との間の音声を介したコミュニケーションの様態もまた,ますます重要になっている.音声指向型インターフェースを実現するための基本的技術の1つとして,自動音声認識(Automatic Speech Recognition:ASR)がある.過去40年近く,多くの研究者がASRの領域の研究を行なってきた.その目標は,人間が発話した自然の話し言葉を,自動的に認識することが可能な知的な情報処理装置の開発である.しかし,複雑な音響信号から,その背後に存在する言語的なメッセージを抽出するのは,信号に含まれる変動について多くの源が存在するため,容易な処理ではない. Information technology continues to grow and is becoming increasingly influential in many aspects of everyday life. Voice communication between humans and information processing devices such as interactive systems is also becoming increasingly important. One of the basic technologies for realizing a voice-oriented interface is automatic speech recognition (ASR). For the past 40 years, many researchers have been studying the area of ASR. The goal is to develop intelligent information processing devices that can automatically recognize natural spoken words spoken by humans. However, extracting a linguistic message behind a complex acoustic signal is not an easy process because there are many sources of variation in the signal.
いくつかのアプローチがこの問題に対処するために開発されている.これらのASRへのアプローチは,一般的に“知識ベース”と“コーパスベース”との2つのタイプに分類される. Several approaches have been developed to address this issue. These approaches to ASR are generally classified into two types: “knowledge base” and “corpus base”.
前者は主に,音声信号のスペクトログラム又はその他の視覚的表現を解釈する人間の能力に基づいており,知識ベースの規則を用いる.しかし,これらの規則が互いに依存する全ての場合を予見するのは難しいため,ある規則が,同じ現象を説明する上で他の規則と全く矛盾するなどして,他の規則と必然的に競合してしまう. The former is mainly based on human ability to interpret spectrograms or other visual representations of speech signals and uses knowledge-based rules. However, it is difficult to foresee all cases where these rules depend on each other, so a rule necessarily conflicts with other rules, such as completely contradicting other rules in explaining the same phenomenon. Resulting in.
これとは対照的に,後者のアプローチは通常,データから知識を自動的に抽出可能な,明確に定義された統計的アルゴリズムを用いた,音声信号のモデル化を基本にしている.このモデル化のアプローチは有望な結果を与えており,前者の知識ベースによるアプローチよりも良い性能を示している.これが,現在のASRシステムの多くが,隠れマルコフモデル(Hidden Markov Models:HMM)に基づく統計的データ駆動型の方法を用いる理由である.最先端のASRシステムは,制御された条件においては非常に高い性能に到達している. In contrast, the latter approach is usually based on the modeling of speech signals using well-defined statistical algorithms that can automatically extract knowledge from the data. This modeling approach gives promising results and shows better performance than the former knowledge-based approach. This is why many of the current ASR systems use statistical data driven methods based on Hidden Markov Models (HMMs). State-of-the-art ASR systems have achieved very high performance under controlled conditions.
この領域の著しい進歩にもかかわらず,ASRシステムが毎日の生活で幅広く利用され,潜在能力を完全に発揮するまでには,克服すべき多くの課題が未だ存在する.例えば,予期できない音響の変化が存在すると,ASRシステムは人間の聴者よりもはるかに劣る性能しか示さない.単に,統計的モデルに頼るだけで,利用可能な付加的知識をほとんど無視するのでは,限定されたレベルの成功にしか到達できない.多くの研究者はこの問題に気付いており,知識ベース及び統計的なアプローチをさらに明確に統合するための様々な試みを行なってきた. Despite significant advances in this area, there are still many challenges to overcome before the ASR system is widely used in everyday life and fully displays its potential. For example, in the presence of unexpected acoustic changes, ASR systems perform much worse than human listeners. Simply relying on a statistical model and ignoring most of the additional knowledge available can only reach a limited level of success. Many researchers are aware of this problem and have made various attempts to better integrate knowledge bases and statistical approaches.
今までのところ,非特許文献1は,再スコアリングを目的として,ニューラルネットワークを用いて,音響音素知識源の組込みを可能にする研究を提案している.非特許文献2及び3に開示の大語彙連続音声認識(Large−Vocabulary Speech Recognition:LVCSR)システムもまた,クインフォン/ペンタフォンといった長い期間の同時調音効果の組込みにより,音響モデルの改善をもたらすことに成功した.何人かの研究者は,最近になり,ベイズネットワーク(Bayesian Networks:BN)のようなグラフ的なツールの利用を試みている.BNはHMMを普遍化したものと考えることもでき,音声のスペクトル情報に加えて,調音素性,サブバンドの相関関係,又は話し方のスタイル等の付加的知識を簡単に組込むことができる(非特許文献4).
しかし,そのような複雑なモデル等を開発して最善の性能を達成することが可能ではない場合がしばしばであった.モデルのパラメータを適切にトレーニングするには資源が不十分なとき,すなわちトレーニングデータの量,及び利用可能なメモリ領域のような資源が不十分な時に,特にそうしたことが起こる.その結果,頑健でない推定と,未知のパターンの数の増加とにより,入力空間の分解能が失われる.さらに,大きなモデルを用いたデコードもまた煩雑となり,時には不可能にさえなる.ここでできる最良の方法は,利用可能なトレーニングデータを用いて信頼性高く推定できる,簡単な形式のモデルを選択することである. However, it was often not possible to develop such complex models and achieve the best performance. This is especially true when there are insufficient resources to properly train the parameters of the model, that is, when there is insufficient resources such as the amount of training data and available memory space. As a result, the resolution of the input space is lost due to non-robust estimation and an increase in the number of unknown patterns. In addition, decoding using large models is also cumbersome and sometimes impossible. The best way to do this is to select a simple form of model that can be reliably estimated using the available training data.
それゆえに,本発明の目的の1つは,利用可能なトレーニングデータを用いて,音声信号の音素の確率を頑健に計算することが可能な確率計算装置を提供することである. Therefore, one of the objects of the present invention is to provide a probability calculation device capable of robustly calculating the probability of phonemes of speech signals using available training data.
本発明の別の目的は,データが疎になる可能性があるトレーニングデータを用いて音声信号の音素の確率を,頑健でかつ高い信頼性で計算することが可能な確率計算装置を提供することである. Another object of the present invention is to provide a probability calculation device capable of calculating the probability of phonemes of a speech signal robustly and with high reliability using training data whose data may be sparse. It is.
本発明の第1の局面は,音声信号の所与のセグメント中に存在する,予め定義された組の音素の各々について,音声信号のための統計的音響モデル及び1以上の知識源を用いて,確率を計算するための確率計算装置に関する.セグメントは,音声信号の複数のフレームを含む.音響モデル及び1以上の知識源はベイズネットワークにより示される因果関係を有する.ベイズネットワークは,複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応する.この装置は,クラスタノード及び1以上のセパレータノードに対応する,複数の局部的音響モデルを記憶するための手段と,フレームの各々に対して予め定義された観測データを計算するための手段と,複数の局部的音響モデルを利用して,音素の各々の,観測データを発生する局部的確率を計算するための局部的確率計算手段と,音素の各々の,観測データを発生する確率を,局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含む. A first aspect of the invention uses, for each predefined set of phonemes present in a given segment of a speech signal, a statistical acoustic model for the speech signal and one or more knowledge sources. It relates to a probability calculation device for calculating probabilities. A segment includes multiple frames of an audio signal. The acoustic model and one or more knowledge sources have a causal relationship represented by a Bayesian network. A Bayesian network corresponds to a junction tree that includes multiple cluster nodes and one or more separator nodes. The apparatus includes means for storing a plurality of local acoustic models corresponding to cluster nodes and one or more separator nodes, means for calculating observation data predefined for each of the frames, Using local acoustic models, local probability calculation means for calculating the local probability of generating observation data for each phoneme, and the probability of generating observation data for each phoneme And a probability calculation means for calculating as a predetermined function of the local probability calculated by the statistical probability calculation means.
局部的な音素の各々の,観測データを発生する確率は,局部的確率の予め定義された関数により計算される.各音素に対する局部的確率は複数の局部的音響モデルを利用して計算される.局部的モデルは1以上の知識源を組込んだモデルよりも小さいため,計算量はより少なくなり,モデルのトレーニングに必要なトレーニングデータの量もより少なくなり,そして,確率計算はより頑健で信頼性が高くなる. The probability of generating observational data for each local phoneme is calculated by a predefined function of local probability. Local probabilities for each phoneme are calculated using multiple local acoustic models. Because local models are smaller than models that incorporate one or more knowledge sources, less computation is required, less training data is required to train the model, and probability calculations are more robust and reliable. The nature becomes high.
好ましくは,所定の関数は Preferably, the predetermined function is
さらに好ましくは,モデルMはモノフォン音響モデルであり,1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む. More preferably, model M is a monophone acoustic model and the one or more knowledge sources include a preceding triphone context unit and a subsequent triphone context unit.
さらに好ましくは,モデルMは追加の知識源を用いてトレーニングされたモノフォン音響モデルであり,1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む. More preferably, the model M is a monophone acoustic model trained with additional knowledge sources, the one or more knowledge sources including a preceding triphone context unit and a subsequent triphone context unit.
追加の知識源はアクセント知識,又は性別に関する知識,又はアクセント知識及び性別に関する知識の両方を含む. Additional knowledge sources include accent knowledge, or gender knowledge, or both accent knowledge and gender knowledge.
本発明の第2の局面は,コンピュータ上で実行されると,当該コンピュータに,音声信号の所与のセグメント中に存在する,予め定義された組の音素の各々について,音声信号のための統計的音響モデル及び1以上の知識源を用いて,確率を計算するための確率計算装置として機能させるコンピュータプログラムに関する.セグメントは,音声信号の複数のフレームを含む.音響モデル及び1以上の知識源はベイズネットワークにより示される因果関係を有する.ベイズネットワークは,複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応する.このコンピュータプログラムは,コンピュータを,クラスタノード及び1以上のセパレータノードに対応する,複数の局部的音響モデルを記憶するための手段と,フレームの各々に対して予め定義された観測データを計算するための手段と,複数の局部的音響モデルを利用して,音素の各々の,観測データを発生する局部的確率を計算するための局部的確率計算手段と,音素の各々の,観測データを発生する確率を,局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させる. A second aspect of the present invention, when executed on a computer, causes the computer to perform statistics for the speech signal for each predefined set of phonemes present in a given segment of the speech signal. This invention relates to a computer program that functions as a probability calculation device for calculating probabilities using an acoustic model and one or more knowledge sources. A segment includes multiple frames of an audio signal. The acoustic model and one or more knowledge sources have a causal relationship represented by a Bayesian network. A Bayesian network corresponds to a junction tree that includes multiple cluster nodes and one or more separator nodes. The computer program is for the computer to calculate means for storing a plurality of local acoustic models corresponding to cluster nodes and one or more separator nodes, and to calculate observation data predefined for each of the frames. The local probability calculation means for calculating the local probability of generating the observation data for each phoneme, and the observation data for each of the phonemes using the local acoustic model Let the probability function as a probability calculation means for calculating the probability as a predetermined function of the local probability calculated by the local probability calculation means.
1.序論
ここでは,本願が提案するフレームワークを,データのスパースネス及びメモリの制約という困難をしばしば伴う,広域音素知識情報に組込むという問題に適用することについて論ずる.はじめに,どのように付加的知識源がHMM状態の分布に組込まれるかを示す.次に,どのように付加的知識源がHMM音素モデリングに組込まれるかを示す.何れのアプローチも2種類のアクセントを含む英語音声データを用いた大語彙連続音声認識実験により実験的に実証されている.
1. Introduction In this section, we discuss the application of the framework proposed in this application to the problem of incorporating it into wide-area phoneme knowledge information, which often involves the difficulties of data sparseness and memory constraints. First, we show how additional knowledge sources are incorporated into the distribution of HMM states. Next, we show how additional knowledge sources can be incorporated into HMM phoneme modeling. Both approaches have been experimentally demonstrated by large vocabulary continuous speech recognition experiments using English speech data containing two types of accents.
はじめに,付加的知識源の組込みに対する一般的フレームワークについて次のセクションに記述する.次に,従来のHMM音響モデルについての概略をセクション3に記述する.セクション4及び5では,HMM状態及び音素モデルレベルで付加的知識源を組込むにあたり,どのように本フレームワークが用いられるかを示す.ここには広域音素コンテキスト情報の組込みの問題への適用法も含まれる.実験の詳細を,結果及び議論を含めてセクション6に示す.最後に,結論がセクション7に記述される.
First, a general framework for incorporating additional knowledge sources is described in the next section. Next,
2.知識源を組込むための一般的フレームワーク
統計的コーパスベースのアプローチにおいては,ある観測データDが与えられることにより,モデルMをトレーニングする.興味の対象となる重要な問題の1つは,そのモデルについて特定の知識が与えられることにより期待することができるデータを予測する,尤度P(D|M)を計算することである.
2. General framework for incorporating knowledge sources In a statistical corpus-based approach, given observation data D, model M is trained. One important issue of interest is computing the likelihood P (D | M) that predicts the data that can be expected given specific knowledge about the model.
確率密度関数P(D|M)は,単純な場合は条件付確率テーブル(Conditional Probability Tables:CPT)(Dが離散的な場合),又はガウス分布のような連続的関数(Dが連続の場合)によりモデル化することができる.この場合,所与のデータd及びモデルパラメータmに対する出力確率は,以下のように簡略に計算される. The probability density function P (D | M) is a conditional probability table (CPT) (when D is discrete) or a continuous function such as a Gaussian distribution (when D is continuous). ). In this case, the output probability for a given data d and model parameter m is simply calculated as follows:
図1を参照して,この手順は,情報源,モデル及びデータの間の因果関係を,BNを用いて定義するステップ(ステップ50)と,直接にBN推論をすることが可能か否かを判定するステップ(ステップ52)と,直接にBN推論が可能と判定されたときに,直接にBN推論を実行するステップ(ステップ54)と,直接にBN推論することが不可能と判定されたときに,後述するジャンクションツリーアルゴリズムを用いて,関係に関するネットワークをリンクされたクラスタの組に分解するステップ(ステップ56)と,ステップ56において得られたジャンクションツリー上で推論を行なうステップ58とを含む.
Referring to FIG. 1, this procedure defines a step (step 50) in which a causal relationship between an information source, a model, and data is defined using BN, and whether or not BN inference can be performed directly. A step of determining (step 52), a step of directly executing BN inference when it is determined that direct BN inference is possible (step 54), and a case of determining that direct BN inference is impossible The method includes a step (step 56) of decomposing a network related to a set of linked clusters using a junction tree algorithm, which will be described later, and a
以下に,その手順のさらなる詳細を記述する. The details of the procedure are described below.
A.情報源間の因果関係の定義
DとMの間の因果関係がBNを用いて説明されるような,単純な場合からはじめる.BNの1つの例は,図2(A)にその概略を示す,ノード72及びノード74を含むBN70である.ここで,ノードM72は正方形のノードで示される離散変数であり,ノードD74は楕円のノードにより示される連続変数である.
A. Defining the causal relationship between information sources Start with a simple case where the causal relationship between D and M is explained using BN. One example of a BN is a
BNの同時確率関数は以下のように因数分解される. The joint probability function of BN is factored as follows.
図3(A)を参照して,ネットワーク90はノード72及び74と,さらにノード92,94,…,96(ノードK1〜KN)とを含む.ノードK1〜KNは親ノード72及び子ノード74を持つ.図3(B)に示すネットワーク100は,ノード72及び74と,ノード92,…,及び96(ノードK1〜KN)とを含む.ノードK1〜KNのうちノード92及び96は子ノード74のみを持つが,他のノードは親ノード72及び子ノード74を持つ.
3A, a
このため,図3(A)に示されるBNに対する同時確率密度関数は,式(2)により以下の様になる. For this reason, the joint probability density function for BN shown in FIG.
B.ベイズネットワークにおける直接推論
推論における最重要関心事は,大域での条件付確率P(D|K1,…,KN,M)を計算することである.この確率密度関数がとる形式が,直接的なBN推論を許容する場合,以下の2つのケースが考えられる.
B. Direct inference in Bayesian networks The most important concern in inference is to calculate the conditional probability P (D | K 1 ,..., K N , M) in the global. When the form of this probability density function allows direct BN inference, the following two cases can be considered.
1)全ての変数が観測可能である. 1) All variables can be observed.
このケースでは,確率密度関数は単純に式(1)で計算される. In this case, the probability density function is simply calculated by equation (1).
このケースでは,確率密度関数は式(5)と,すべてのKiに対しすべての可能なKi:ki1,ki2,…,kiMに関するマージナライゼーションにより計算される. In this case, the probability density function and formula (5), all K i of for all possible K i: k i1, k i2 , ..., is calculated by the marginalization about k iM.
しかし,全体的な条件付確率P(D|K1,…,KN,M)の計算は,変数が多すぎること,及び/または,計算上の複雑さにより,簡単ではないことがある.このような場合,有向グラフを変数のクラスタに分解し,これらに対し適切な計算を実行できるようにすることが必要である.この処理は,次のサブセクションで述べるジャンクションツリーアルゴリズムにより行なえる. However, the calculation of the overall conditional probability P (D | K 1 ,..., K N , M) may not be straightforward due to too many variables and / or computational complexity. In such cases, it is necessary to break the directed graph into a cluster of variables so that appropriate calculations can be performed on them. This can be done with the junction tree algorithm described in the next subsection.
C.ジャンクションツリー分解
K1及びK2の2つの付加的知識源の組込みのみの単純なケースを考えてみる.D,M,K1及びK2の間の因果関係を,図4(A)に示すBN110により示す.BN110はM,D,K1及びK2によりそれぞれ示す,ノード112,114,116及び118を含む.ここで,ノードM,K1及びK2は正方形のノードで示される離散変数であり,ノードDは楕円のノードで示される連続変数である.
C. Consider the simple case of only the incorporation of two additional knowledge source of the junction tree decomposition K 1 and K 2. The causal relationship between D, M, K 1 and K 2 is indicated by BN110 shown in FIG.
そして,ジャンクションツリーを得るために,以下のようなグラフ変換が実行される. Then, the following graph transformation is performed to obtain a junction tree.
1)親を結合させ(共通の子を持つ全ての変数のペアの間にリンクを追加し),リンクの向きをなくすことにより,BN110から無向グラフを組立てる.図4(A)の場合,ノード116及び118の間にリンクが付与される.その結果得られるグラフは「モラルグラフ」と呼ばれる.
1) Assemble an undirected graph from BN110 by joining parents (adding links between all variable pairs with common children) and removing the link orientation. In the case of FIG. 4A, a link is provided between the
2)三角形からなるグラフ(トライアンギュレートグラフ)を形成するため,選択的にモラルグラフにアーク(弧)を付加する.もし“コードレスサイクル”が存在しなければ,グラフはトライアンギュレートである,という.コード(弦)とは,長さが3より大きいサイクル内の,2つの連続しない頂点を接続するエッジである. 2) To form a graph consisting of triangles (triangular graph), an arc is selectively added to the moral graph. If there is no "cordless cycle", the graph is said to be triangulated. A chord is an edge that connects two non-contiguous vertices in a cycle with a length greater than 3.
3)トライアンギュレートグラフにおいて,Pa(A)≠0であるすべての変数Aに対して,Pa(A)∪Aを含むサブセットを形成する.これはクラスタまたはクリークとよばれる. 3) Form a subset including Pa (A) ∪A for all variables A with Pa (A) ≠ 0 in the triangulate graph. This is called a cluster or clique.
4)クラスタ/クリークをノードとしてジャンクションツリーを構築する.この場合,二つのクリークの間のリンクの各々は,これらクリークの間の空ではない共通集合のセパレータを用いてラベル付けされる. 4) Build a junction tree with clusters / creeks as nodes. In this case, each link between two cliques is labeled with a non-empty common set of separators between these cliques.
図4(B)は,図4(A)に示すBN110に相当する,モラル及びトライアンギュレートグラフ130の概要を示す.グラフ130はノード116及び118の間に追加のリンク120を含む.しかし,このトライアンギュレートグラフからはD,M,K1及びK2の変数の全体の集合からなる1つのクラスタ/クリークしか得ることができず,これ以上分解できない.幸運にも,K1及びK2は独立であると仮定されるため,いくつかの矢を逆向きにすることにより,BN110と等価の図4(C)に示すBN140を得ることができる.これが可能なのは,P(X,Y)がP(X|Y)P(Y)とP(Y|X)P(X)とに分解できること,及びこの2つが互いに等価であるためである.
FIG. 4B shows an outline of the moral and triangulated
図4(D)はBN140に対応するモラル及びトライアンギュレートグラフ150の概要を示す.これによりクラスタ/クリークを同定することができ,さらに図4(E)にその概要を示すジャンクションツリー160を得ることができる.ここではクラスタの組は楕円のノード164及び166により表され,セパレータの組は正方形のノード162により表されている.
FIG. 4D shows an outline of the moral and triangulate
以上から,BN同時確率分布は,全てのクラスタのポテンシャル(確率)の積を,セパレータのポテンシャルの積で除算することにより以下のように定義される. From the above, the BN joint probability distribution is defined as follows by dividing the product of all cluster potentials (probabilities) by the product of the separator potentials.
同様の仮定及び考慮に基づいて,図3(A)に示すBN90と同様のBNトポロジは図5(A)のように書くことができる.図5(B)にこれに対応するジャンクションツリー180を示す.図5(B)では,変数{(D,K1,M),(D,K2,M),…(D,KN,M)}のN個のクラスタ164,166,…170と,N−1個のセパレータ{D,M}(ノード162,168等)が存在する.このため式(5)により求められる同時確率関数は以下の式により分解することができる.
Based on similar assumptions and considerations, a BN topology similar to BN90 shown in FIG. 3 (A) can be written as in FIG. 5 (A). FIG. 5B shows a
D.ジャンクションツリー推論
チェーンルールを用いることにより,全てのP(D,Ki,M)に対し以下の式を得る.
D. Junction Tree Inference By using chain rules, we obtain the following equations for all P (D, K i , M).
いくつかの単純なP(D|Ki,M)を定義したり,推定したり,観測したりすることは,1つではあるが複雑なP(D|K1,…,KN,M)と比べて非常に簡単となる. Defining, estimating, and observing some simple P (D | K i , M) is one but complicated P (D | K 1 ,..., K N , M ) Is much easier.
このため,データd,モデルパラメータm,及び付加的な知識源k1j,…,kNjが与えられた場合に対する推論における出力確率は,以下のように計算される. Therefore, the output probability in the inference for the case where data d, model parameter m, and additional knowledge sources k 1j ,..., K Nj are given is calculated as follows.
従来のHMMに関連して,いくつかの表記を定義する.トライフォンコンテキスト/a−,a,a+/のHMM音声モデルをλ,HMM状態変数をQと表記する.Xは観測変数であり,Xs=Xt,…,Xt+mは長さmの観測データセグメントである.図6に,標準的なHMM190の構造の概要を示す.ここでは,
1)短時間スペクトル特性はガウス分布210,212,及び214の混合によりモデル化される.
1) Short-time spectral characteristics are modeled by a mixture of
2)時間的な音声特徴は状態200,202及び204の間でのHMM状態遷移216,218,220,222及び224により支配される.
2) Temporal speech features are dominated by HMM state transitions 216, 218, 220, 222 and 224 between
HMM状態出力確率p(xt|qi)は,通常,状態確率密度関数(Probability Density Function:PDF)P(X|Q)から以下の式により計算される. The HMM state output probability p (x t | q i ) is normally calculated from the state probability density function (PDF) P (X | Q) by the following equation.
4.HMM状態レベルでの知識源の組込み
A.一般的検討
モデルMは所定のトライフォンHMM状態Qであり,Dはセクション2に述べた理論的フレームワークに従う観測変数Xである.
4). Incorporating knowledge sources at the HMM state level A. General Consideration Model M is a given triphone HMM state Q, and D is an observed variable X that follows the theoretical framework described in
1)因果関係の定義
このトポロジの構造は図2(A)に示すものと同様であり,トライフォンHMM状態PDFは,ここでは式(3)と同様のBN同時確率関数により示される.
1) Definition of causal relationship The structure of this topology is the same as that shown in FIG. 2 (A), and the triphone HMM state PDF is represented here by the same BN joint probability function as in equation (3).
2)推論
主たる関心事はHMM状態出力確率P(X|K1,…,KN,Q)の計算であるが,これはガウス関数により簡単にモデル化することが可能である.このために,状態出力を直接得ることができる.全ての追加の知識源K1,…,KNがセクション2−Bに示されたように隠されていると仮定すると,状態出力確率は,すべての1≦i≦Nに対して,すべての可能なKi:ki1,ki2,…,kiMをマージナライゼーションすることにより,式(8)と同様に得られる.
2) Reasoning The main concern is the calculation of the HMM state output probability P (X | K 1 ,..., K N , Q), which can be easily modeled by a Gaussian function. For this reason, the state output can be obtained directly. Assuming that all additional knowledge sources K 1 ,..., K N are hidden as shown in section 2-B, the state output probabilities are all for 1 ≦ i ≦ N. The possible K i : k i1 , k i2 ,..., K iM can be obtained in the same way as in Eq.
このモデルのパラメータ学習は,非特許文献5に記載のHMM/BNモデルの通常のトレーニングから採用できる.これはバックワード・フォワードアルゴリズムを基にしている.このアルゴリズムでは,各トレーニングの繰返しは,BNのトレーニングと,HMM遷移確率の更新とからなる.BNのトレーニングは標準的な統計的方法を用いてなされる.トレーニングの間に全ての変数が観測可能であれば最大尤度(ML)パラメータ推定が適用され,いくつかの変数が隠れている場合,パラメータは標準的なエクスペクテーション・マキシマイゼーション(EM)アルゴリズムにより推定される. Parameter learning of this model can be adopted from normal training of the HMM / BN model described in Non-Patent Document 5. This is based on a backward-forward algorithm. In this algorithm, each training iteration consists of BN training and updating of the HMM transition probability. BN training is done using standard statistical methods. Maximum likelihood (ML) parameter estimation is applied if all variables are observable during training, and if some variables are hidden, the parameters are standard expectation-maximization (EM) algorithms Is estimated.
B.広域音素コンテキスト情報の組込み
ASRシステムにおいて最も広く用いられる音響ユニットは,現在のところ,依然として,直近の先行する音素コンテキスト及び後続する音素コンテキストを含むトライフォンである.トライフォンは効果的な選択であることが確認されてきたが,より長い期間にわたる同時調音効果を捉えるためには,広域音素コンテキストの方がより適切と考えられている.しかし,広域音素コンテキストには,データのスパースネス及びメモリの制約という問題がある.
B. Incorporating global phoneme context information The most widely used acoustic unit in an ASR system is still a triphone that still contains the last preceding phoneme context and the following phoneme context. Triphones have been found to be an effective choice, but wide-range phoneme context is considered more appropriate to capture simultaneous articulation effects over longer periods. However, wide-area phoneme context has problems of data sparseness and memory constraints.
ここで,前のセクションに記載したフレームワークを,広域音素知識情報を組込むという問題にどのように適用するかを説明する. Here we explain how to apply the framework described in the previous section to the problem of incorporating wide-area phoneme knowledge information.
従来の,トライフォンコンテキスト/a−,a,a+/であるHMM,λを,/a−−,a−,a,a+,a++/のようなペンタフォンコンテキストに拡張する必要があるものとする.このため,このアプローチに基づき,BNに2つの変数を挿入することにより,二つ前及び後のコンテキスト,CL(/a−−)及びCR(/a++/)をトライフォン状態PDFに組込む. Conventional, triphone context / a -, a, a + / a HMM is, the λ, / a -, a - , a, a +, it is necessary to extend the a ++ / penta von context such as Suppose. Therefore, based on this approach, by inserting two variables in BN, the two previous and subsequent contexts, C L (/ a −− ) and C R (/ a ++ /), are assigned to the triphone state PDF. Incorporate.
トライフォンHMM状態Qと,観測データX,及び2つの付加的変数CL及びCR間の条件に関する依存性は,図7に概要を示すBNトポロジにより説明される.これをBN−Cトポロジと呼ぶ. A triphone HMM state Q, the observed data X, and dependence for the two conditions between additional variables C L and C R are described by BN topology outlined in Figure 7. This is called a BN-C topology.
図7を参照して,ベイズネットワーク240は,ノード250,252,254及び256を含み,これらはQ,X,CL,及びCRにより,それぞれ示される.ノードCLは2つ前のコンテキスト(/a−−)を,ノードCRは2つ後のコンテキスト(/a++/)を表す.
Referring to FIG. 7,
HMM状態PDFは,現在のところ,BN同時確率により示される.これは式(18)によると,以下のように分解される. The HMM state PDF is currently indicated by the BN joint probability. This is decomposed as follows according to equation (18).
状態出力確率はP(X|CL,CR,Q)により得ることができる.付加的なコンテキスト変数CL及びCRが,式(19)のように認識時には得ることができない(隠されている)と仮定すると, The state output probability can be obtained from P (X | C L , C R , Q). Additional context variable C L and C R are, assuming that the formula can not be obtained at the time of recognition as (19) (hidden),
さらにこのペンタフォンBNを,このフレームワークを使い,性別に関する情報又はアクセント情報等の他の追加の変数で拡張することもできる.図8はトライフォンHMM状態Qと,観測データXと,2つの付加的変数CL及びCRと,性別に関する変数G及び/又はアクセント変数Aとの間の条件に関する依存性の構造の例をいくつか示す. The Pentaphone BN can also be extended with other additional variables such as sex information or accent information using this framework. FIG. 8 shows an example of a dependency structure regarding conditions between the triphone HMM state Q, the observation data X, the two additional variables CL and CR, and the variable G and / or the accent variable A regarding sex. Here are some.
BNトポロジは,ノード272により示される,性別に関する付加的変数Gを用いて,BN−Cを拡張することで,図8(A)の参照番号270により示されるものになる.これをBN−CGと呼ぶ.ノード292により示される追加のアクセント変数Aを用いてBN−Cを拡張する場合は,BNトポロジは図8(B)の参照番号290が示すものになり,これをBN−CAと呼ぶ.図8(C)のBNトポロジ310は,ノード292及び272によりそれぞれ示される,アクセント及び性別に関する変数の両方を用いて拡張されたものであり,BN−CGAと呼ぶ.
The BN topology is indicated by
BN−CGAの例(図8(C)参照)に対するHMM状態PDFは以下のように表される. The HMM state PDF for the BN-CGA example (see FIG. 8C) is expressed as follows.
両方の表記(式(21)及び(23))は,標準トライフォンHMM音響モデルにおいて用いられるガウス分布の混合を示す.このため,既存のHMMを基にしたデコーダを,何らかの修正を行なうことなく用いて認識を行なうことができる.提供モデルのパラメータ学習は前のセクションにおいて述べたようにして実行される.トライフォン状態Q,アクセントA,性別G,2つ前のコンテキスト(CL),2つ後のコンテキスト(CR),及び変数Xを含む全ての変数が,トレーニングで観測可能であるから,MLパラメータ推定が利用される. Both notations (Equations (21) and (23)) show a mixture of Gaussian distributions used in the standard triphone HMM acoustic model. Therefore, recognition can be performed using an existing HMM-based decoder without any modification. Parameter learning of the provided model is performed as described in the previous section. Since all variables including the triphone state Q, the accent A, the sex G, the second previous context (C L ), the second subsequent context (C R ), and the variable X are observable in training, ML Parameter estimation is used.
全てのモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合,クラスタリング技術,例えば,知識ベースの,又は,データ駆動型のクラスタリングにより,パラメータの数を削減できる.例えば,2つ前/後の音素コンテキストCL/CRの各値cl/crに対し,式(21)及び(23)により,対応するガウス成分が存在する. If the amount of training data is insufficient to reliably estimate all model parameters, the number of parameters can be reduced by clustering techniques such as knowledge-based or data-driven clustering. For example, for each value c l / c r phoneme context C L / C R after two previous / by the equation (21) and (23), the corresponding Gaussian components are present.
図9はCRのみが追加されたBN330に対する,観測空間344の概要を示す.図9のCRはノード342により示され,2つ後のコンテキストの種々の値/b/,/p/,…,/z/を有する.この変数の種々の値は種々のガウス分布350,352,…,354にそれぞれ対応する.44音素の組(無音を含む)を英語ASRに用いるとすれば,2つ前/後の音素コンテキストCは,44個の値(C=c1,c2,…,c44)を有する可能性があるということになる.このため,BN−Cトポロジ(図7参照)の各状態に対するガウス分布の総数は,442=1936となり得る.BN−CG,BN−CA及びBN−CGAのトポロジはさらにもっと多くなる.このように増加したモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合,全体の性能は顕著に低下するであろう.このため,ガウス分布の数を減らすことが好ましい.ガウス分布の数を減らすために利用できる方法が2つある.一方は知識ベースの音素クラスを用いることである.他方はデータ駆動のクラスタリングである.これらの方法は,どのようなベイズネットワークにも適用可能である.
9 for BN330 only C R is added, an overview of the
ここでは,音素コンテキストを,調音の態様における主な相違に基づき分類し,パラメータのサイズを削減する.テーブル1に,非特許文献6から流用した知識ベースの音素クラスの例を挙げる. Here, phoneme contexts are classified based on the main differences in articulation, and the parameter size is reduced. Table 1 gives examples of knowledge-based phoneme classes taken from Non-Patent Document 6.
5.音素モデルレベルでの知識源の組込み
A.一般的検討
セクション2に記述の理論的フレームワークに従い,再びモデルMをHMM音素モデルλ,DをセグメントXsとする.
5. Incorporating knowledge sources at the phoneme model level A. General Consideration According to the theoretical framework described in
1)因果関係の定義
トポロジの構造は図2(A)に示されるものと同様であり,HMM音素ユニットの確率関数は今回は式(3)と同様のBN同時確率関数により示される.
1) Definition of causal relationship The structure of the topology is the same as that shown in Fig. 2 (A), and the probability function of the HMM phoneme unit is represented by a BN joint probability function similar to equation (3) this time.
ここでの最大の関心事は,与えられた入力セグメントXsに対するP(Xs|K1,…,Kn,λ)を計算することである.しかし,条件付PDFに対する単純な形式の関数を得るのは困難である.なぜなら,この式には,持続時間が変化するHMMモデルλ,及びセグメントXsが関係しているからである.このためここで,セクション2−Cで述べたジャンクションツリーアルゴリズムにより,P(Xs|K1,…,KN,λ)を分解する必要がある.これは式(14)に従い以下のように分解される.
B.広域音素コンテキスト情報の組込み
前のセクションで述べたアプローチを,広域音素の知識情報の組込みの場合と同じ課題に対して適用してみる.広域音素知識情報の組込みにおいては,トライフォンコンテキスト/a−,a,a+/を,ペンタフォンコンテクスト/a−−,a−,a,a+,a++/に拡張する.構造上,従来のHMMのトライフォンコンテキストユニットモデルは,図10(A)に示すモデル370として説明され,ペンタフォンコンテキストユニットモデルは,図10(B)に示すモデル372として説明される.
B. Incorporation of wide-area phoneme context information We will apply the approach described in the previous section to the same problem as in the case of incorporating wide-area phoneme knowledge information. In incorporation of the wide area phoneme knowledge information, triphone context / a -, a, a + / a, penta von context / a -, a -, a , a +, extended to a ++ /. Structurally, the conventional triphone context unit model of the HMM is described as a model 370 shown in FIG. 10A, and the pentaphone context unit model is described as a
2つ前のコンテキストCL/a−−/と2つ後のコンテキスト/a++/とを,確率関数P(Xs|λ)に追加する.Xs,λ,CL及びCRの条件に関する依存性は,図4(A)に示すものと類似のBNにより記述される.分解で最終的に得られるジャンクションツリーもまた,図4(E)に示すものと同様である.図4(E)におけるMがここでのHMM音素モデルλであり,DがセグメントXsである.このことから,条件付確率関数は,式(26)によれば以下のように定義される. The two previous contexts C L / a −− and the second subsequent context / a ++ / are added to the probability function P (X s | λ). X s, lambda, dependence on a condition of C L and C R is described by BN similar to that shown in FIG. 4 (A). The junction tree finally obtained by decomposition is also the same as that shown in FIG. Figure 4 is a HMM phoneme model λ of M is now in (E), D is a segment X s. From this, the conditional probability function is defined as follows according to equation (26).
しかし,[a−−,a−,a,a+],[a−,a,a+,a++]に対するテトラフォンモデルを作成することもまた,データが疎にしか存在しないことにより困難である. However, it is also difficult to create a tetraphone model for [a −− , a − , a, a + ], [a − , a, a + , a ++ ] because the data exists only sparsely. is there.
これに代えて,式(28)を用い,λがモノフォン/a/を示すように,並びに2つ前と後のコンテキストCL及びCRとが/a−−,a−/及び/a+,a++/をそれぞれ表すようにする.この結果,以下の式を得る. Alternatively, using equation (28), lambda is monophones / a / a as shown, and two before and after the context C L and C R and the / a -, a - / and / a + , A ++ / respectively. As a result, the following equation is obtained.
図10(C)を参照して,ベイズペンタフォンコンテキストユニットC1L3R3 374は,左/先行トライフォンコンテキストユニット(L3)380,右/後続トライフォンコンテキストユニット(R3)382,及びモノフォンユニット(C1)(図示せず)を含む.
Referring to FIG. 10C, Bayesian pentaphone
この図で分かるように,推定すべきコンテキストユニットの数は,コンテキストのカバーする範囲を損なうことなく,N5から(2N3+N)に削減される.ただしNは音素の数である.英語ASRに対し44音素の組を用いるとすれば,ペンタフォンモデルで推定する必要のあるコンテキストの総数は445≒165,000,000コンテキストユニットである.トライフォンコンテキストユニットを用いた構成では,この複雑さが約170,000ユニットまで削減される. As can be seen in this figure, the number of context units to be estimated is reduced from N 5 to (2N 3 + N) without impairing the range covered by the context. N is the number of phonemes. If a set of 44 phonemes is used for the English ASR, the total number of contexts that need to be estimated with the pentaphone model is 44 5 ≈165,000,000 context units. In a configuration using a triphone context unit, this complexity is reduced to about 170,000 units.
式(29)及び(30)を分析すると,式(27)を,HMM音素モデルの他の構成を導くためのスタート点としても用いることが可能であることが分かる.λがモノフォンユニット/a/,CL及びCRが,それぞれ,コンテキストユニット/a−/及び/a+/に先行する,及び後続するコンテキストユニットであると仮定した場合,非特許文献7で提案されたのと同様の因数分解が得られる.これはベイズトライフォンとして知られている. Analysis of equations (29) and (30) shows that equation (27) can also be used as a starting point for deriving other configurations of the HMM phoneme model. λ is monophone unit / a /, C L and C R are each context unit / a - preceding / and / a + / a, and assuming that a subsequent context units, in Non-Patent Document 7 A factorization similar to that proposed is obtained. This is known as a Bayesian triphone.
ベイズ広域音素コンテキストモデルと呼ばれる,ベイズトライフォンを拡張したものもまた,本願発明者の先の研究論文である非特許文献8に記載されている.このアプローチにより,単にベイスの法則に基づくのみで,コンテキストへの依存度がより少ないモデルから広域の音素コンテキストをモデル化できる.しかし,種々の種類の知識源を組込むことが必要な場合には困難が生ずる. An extension of the Bayesian triphone, called the Bayesian wide-area phoneme context model, is also described in Non-Patent Document 8, which is the previous research paper of the present inventor. With this approach, it is possible to model a wide-range phoneme context from a model with less dependency on the context, simply based on Bayes' law. However, difficulties arise when it is necessary to incorporate various types of knowledge sources.
対照的に,ここでの統一されたフレームワークは,様々な種類の知識源を組込むための,より適切な手段を我々に与える.例えば,性別又はアクセント情報のような他の追加の知識変数で,C1L3R3をさらに拡張することが容易にできる.C1L3R3を,性別情報のみで(C1L3R3−G),アクセント情報のみで(C1L3R3−A),又は,性別及びアクセントの両方の情報で(C1L3R3−AG),拡張することができる. In contrast, the unified framework here gives us a better way to incorporate different types of knowledge sources. For example, C1L3R3 can be further extended with other additional knowledge variables such as gender or accent information. C1L3R3 can be extended with gender information alone (C1L3R3-G), accent information alone (C1L3R3-A), or both gender and accent information (C1L3R3-AG).
C1L3R3−AGの場合,BNトポロジと,モラル及びトライアンギュレートグラフと,それに対応するジャンクションツリーとは図11に示されるようになる.図11(A)を参照して,BNトポロジ400は,λ,Xs,CL,CR,G及びAによりそれぞれ示される,ノード410,412,414,416,418及び420を含む.図11(B)を参照して,BNトポロジ400に対応するモラル及びトライアンギュレートグラフ430は,ノード410,412,414,416,418及び420と,ノード418及び420,ノード410及び418,並びにノード410及び420をそれぞれ接続する,付加的な3つのリンク422,424,及び426とを含む.図11(C)を参照して,図11(B)のグラフに対応するジャンクションツリー450は,“XsλAG”,“XsCLλ”,及び“XsCRλ”でそれぞれ示される,クラスタノード460,464,及び474と,“Xsλ”,及び“Xsλ”でそれぞれ示される,セパレータノード462及び472とを含む.
In the case of C1L3R3-AG, the BN topology, the moral and triangulated graphs, and the corresponding junction tree are as shown in FIG. Referring to FIG. 11A, the
この場合,条件付確率関数は以下のように求められる. In this case, the conditional probability function is obtained as follows.
提案に係るペンタフォンモデルでASRシステムを実現するためには,いくつかのモデルで動作できる,特別なデコーダを必要とする.これは,提案に係るペンタフォンモデルを,標準的なトライフォンに基づくHMMシステムにより生成されたN−ベストリストの再スコアリングに適用する場合には,避けることができる. In order to realize the ASR system with the proposed pentaphone model, a special decoder that can operate with several models is required. This can be avoided if the proposed pentaphone model is applied to rescoring the N-best list generated by a standard triphone-based HMM system.
図12は,本発明の第1の実施の形態に係るASRシステム500の全体の構造を示す.図12を参照して,ASRシステム500は,音声波形データ510を受け,その音声をデコードし,入力音声の仮説のNベストリストを出力するための標準的デコーダ512と,530,532,534,及び536でそれぞれ示される,ペンタフォンモデルC1L3R3,C1L3R3−A,C1L3R3−G,及びC1L3R3−AGを記憶するためのモデル記憶装置520と,人間の操作に応答して,モデル530,532,534,及び536のうちいずれか1つを選択するためのセレクタ522と,標準的デコーダ512からの仮説のNべストを,セレクタ522により選択されたモデルを利用して再スコアリングし,Nベストの仮説のうち最も高いスコアを示す1つを出力するための仮説選択モジュール516とを含む.
FIG. 12 shows the overall structure of the
図13は仮説選択モジュール516の詳細を示す.図13を参照して,仮説選択モジュール516は,Nベストの仮説を記憶するためのメモリ550と,メモリ550から仮説を1つずつ読出し,分離された音素の特徴パラメータを,後続する再スコアリングのための機能ユニットに左から右という順序で供給するための読出及び供給モジュール552と,シフトメモリ554においてこれらの特徴パラメータを受取るための5つのシフトメモリ554,556,558,560及び562とを含む.特徴パラメータがシフトメモリ554,556,558,560及び562をシフトされた時,シフトメモリ554,556,558,560,及び562は,a+,a++,a,a−,及びa−−に対する特徴パラメータをそれぞれ記憶する.
FIG. 13 shows details of the
仮説選択モジュール516はさらに,R3モデル並びにシフトメモリ554,556及び558に記憶された特徴パラメータを用いて,確率P(Xs|[a,a+,a++])を計算するための右コンテキスト計算装置570と,C1モデル,及びシフトメモリ558に記憶された特徴ベクトルを用いて,確率P(Xs|[a])を計算するための中央コンテキスト計算装置572と,L3モデル並びにシフトメモリ558,560,及び562に記憶された特徴パラメータを用いて,確率P(Xs|[a−−,a−,a])を計算するための左コンテキスト計算装置574と,読出及び供給モジュール552によりメモリ550から読出された仮説の各セグメンテーションに対し,式(30)にしたがって確率P(Xs|[a−−,a−,a,+,a++])を計算するためのPDF計算装置576とを含む.
The
仮説選択モジュール516はさらに,各仮説のセグメントの確率を乗算することにより,メモリ550に記憶された各仮説を再スコアリングし,スコアを対応する仮説と関連付けてメモリ550に記憶するための再スコアリングモジュール578と,メモリ550内の仮説をスコアの降順にソートし,最も高いスコアを有する仮説を出力するためのソート及び選択モジュール580とを含む.
The
単語レベルでのNベスト認識は,標準的デコーダ512により,従来のHMM音響モデル及び標準的なビタビ復号を用いて,テストデータの全ての発声に対して実行される.全てのNベストの仮説は,全音素の音響スコア,言語モデル(Language Model:LM)スコア,及びビタビ分割を含む.そして,各仮説の音素セグメント毎に,提案に係るペンタフォンモデルを用いて,仮説選択モジュール516において再スコアリングが行なわれる.
N-best recognition at the word level is performed by
図13を参照して,メモリ550はNベストの仮説を記憶する.読出及び供給モジュール552はメモリ550から最初の仮説を読み出し,左から右に(先頭から末尾に),仮説内の音素セグメント(特徴パラメータ)をシフトメモリ554へ出力する.
Referring to FIG. 13,
シフトメモリ554〜562は,音素セグメントをシフトする.シフトメモリ554,556及び558に記憶された,音素セグメントの各組に対して,右コンテキスト計算装置570はR3モデルを用いて確率P(Xs|[a,a+,a++])を計算する.シフトメモリ558に記憶された各音素セグメントに対し,中央コンテキスト計算装置572はC1モデルを用いて確率P(Xs|[a])を計算する.シフトメモリ558,560,及び562に記憶された音素セグメントの各組に対して,左コンテキスト計算装置574はL3モデルを用いて確率P(Xs|[a−−,a−,a])を計算する.計算された確率は,PDF計算装置576へ与えられる.PDF計算装置576はペンタフォンコンテキスト確率P(Xs|[a−−,a−,a,+,a++])を,式(30)にしたがって計算し,その確率を再スコアリングモジュール578に与える.
シフトメモリ558に記憶される各音素セグメントに対応して,読出及び供給モジュール552は再スコアリングモジュール578に,PDF計算装置576の出力を読むタイミングを知らせる.これに応答して,再スコアリングモジュール578はPDF計算装置576の出力を読み,その値を記憶する.仮説の最後になると,読出及び供給モジュール552は,再スコアリングモジュール578に信号を送る.これに応答して,再スコアリングモジュール578はその仮内の全音素セグメントの確率を掛け合わせることにより,当該仮説のスコアを計算する.計算完了の際,再スコアリングモジュール578は,メモリ550内のスコア(ペンタフォンスコア)を処理対象の仮説と関連付けて記憶する.
For each phoneme segment stored in the
メモリ550に記憶された全ての仮説に対してペンタフォンスコアが計算されると,読出及び供給モジュールはソート及び選択モジュール580に信号を送る.これに応答して,ソート及び選択モジュール580は,メモリ550に記憶された全ての仮説を,対応するペンタフォン及びLMスコアと共に読出し,そのペンタフォン及びLMスコアを組合わせて新しいスコアとし,その新しいスコアの降順に仮説を並べかえ,並べかえた仮説のうち最も高いスコアを有するものを選択し,それを新しい仮説518として出力する.
Once the pentaphone score has been calculated for all hypotheses stored in
図14に,仮説の再スコアリングの例を示す. Figure 14 shows an example of hypothesis rescoring.
トレーニングの間に,いくつかの音素コンテキストが出現しなかったかもしれない.このようなコンテキストに対しては,ここで提案したペンタフォンコンテキストモデルは,認識の間に出力確率を作りだすことができない.この問題に対処するため,ここでは,単純に,小さな数値を出力確率として割当る.この再スコアリングには先行,後続,及び中央のモデルからの出力確率が関係するため,全ての要素モデルにフロアリングが適用される. Some phonemic contexts may not have appeared during training. For such contexts, the proposed pentaphone context model cannot produce output probabilities during recognition. To deal with this problem, we simply assign a small number as the output probability. Because this rescoring involves output probabilities from the preceding, following, and central models, flooring is applied to all elemental models.
トレーニングデータの量が不十分な場合,パラメータの推定は,ここで提案したペンタフォンモデルに対するものでさえも信頼性が低くなり,状態出力の信頼性もまた下がる.モデルの信頼性を向上するため削除補間法を用いたが,その結果,より精密と思われるモデルが実際には信頼性を欠く場合に,より信頼性の高いモデルに戻ることができる.この概念は,別々にトレーニングした2個のモデルであって,その一方が他方よりも信頼性高くトレーニングされているようなモデル間を補間することに関連している.しかし,2個のモデルを補間する代わりに,我々はこのアプローチを2つの音素尤度の組込みに適用した.ただし,ここで提案したベイズペンタフォンモデルの音素尤度P(Xs|λbayPenta)が精密な方であり,トライフォンの尤度P(Xs|λtriphn)が,より信頼性の高い方である.このため,音素尤度P(Xs|λ)は以下で与えられる. If the amount of training data is insufficient, the parameter estimation is less reliable, even for the proposed pentaphone model, and the state output is also less reliable. Deletion interpolation was used to improve the reliability of the model, but as a result, if a model that seems to be more precise actually lacks reliability, it can return to a more reliable model. This concept is related to interpolating between two separately trained models, one of which is trained more reliably than the other. However, instead of interpolating the two models, we applied this approach to the incorporation of two phoneme likelihoods. However, here we propose a Bayesian penta von model of phoneme likelihood P (X s | λ bay P enta) is a more precise, triphone of the likelihood P (X s | λ triphn) is more reliable The higher one. For this reason, the phoneme likelihood P (X s | λ) is given by
発話の始め/終わりにおいては,全ての左/右コンテキストは無音で満たされる.隣接した単語の間に長い無音が存在しないと仮定しているので,前の単語の最後の音素コンテキストは,現在の単語の最初の音素コンテキストにも影響する.この再スコアリングメカニズムはこのように,単語内及び単語と単語の間の全セグメントに対して同様に振舞う(クロスワードモデル). At the beginning / end of the utterance, all left / right contexts are filled with silence. Assuming that there is no long silence between adjacent words, the last phoneme context of the previous word also affects the first phoneme context of the current word. This rescoring mechanism thus behaves similarly for all segments within and between words (crossword model).
前述のように計算されたスコアはその後,現在の仮説に対応したLMスコアと組合わされる.Nベストから,最も高い発声スコアを達成する仮説が新しい認識出力として選択される. The score calculated as described above is then combined with the LM score corresponding to the current hypothesis. From N best, the hypothesis that achieves the highest utterance score is selected as the new recognition output.
6.実験
出願人(株式会社国際電気通信基礎技術研究所(ATR))が準備した,アクセント付の英語発声コーパスをこの実験に用いた.文の素材は,旅行で用いられる表現の基本的なドメインに基づくものである.発話データベースは,アメリカ(US)とオーストラリア(AUS)の英語アクセントからなり,各アクセントは各々,100人の話者(男性50名,女性50名)による約45,000の発話(44発声時間)からなる.このデータの90%,すなわち40,000の発話(男女各40人の話者による20,000の発話)をトレーニングデータとして用いた.評価のため,残り10%のアクセントデータ(US及びAUS)の混合物から,20人の異なる話者(男性10名,女性10名)による,200の発話をランダムに選択した.バイグラム及びトライグラム言語モデルを,約150,000の旅行に関する文によりトレーニングした.利用可能であった発音辞典は37,000の単語からなり,USの発音に基づいていた.
6). Experiment An accented English speech corpus prepared by the applicant (ATR) was used for this experiment. The material of the sentence is based on the basic domain of expressions used in travel. The utterance database consists of American (US) and Australian (AUS) English accents, each accented by about 45,000 utterances (44 utterance hours) by 100 speakers (50 men and 50 women). It consists of 90% of this data, that is, 40,000 utterances (20,000 utterances by 40 male and female speakers) were used as training data. For evaluation, 200 utterances by 20 different speakers (10 males and 10 females) were randomly selected from the remaining 10% mixture of accent data (US and AUS). The bigram and trigram language models were trained with about 150,000 travel statements. The pronunciation dictionary that was available consisted of 37,000 words and was based on US pronunciation.
16kHzのサンプリング周波数,20ミリ秒のフレーム長,10ミリ秒のフレームシフト,並びに12次のMFCC(Mel−Frequency Cepstrum Coefficients:メル周波数ケプストラム),ΔMFCC及びΔ対数パワーからなる25次元の特徴パラメータを用いた.全ての音素について,初期HMMとして3状態を用いた.そして,連続状態分割(Successive State Splitting:SSS)トレーニングアルゴリズムを用いて,状態結合HMnetトポロジを持つトライフォン音響モデルを得た.状態結合の数は,ここで用いられたSSSアルゴリズムが最小記述長(Minimum Describtion Length:MDL)最適化基準に基づくことから,アルゴリズムにより自動的に決定される.MDL−SSSの詳細は他の文献(非特許文献9)に記載されている.SSSトポロジトレーニングは,全てのトレーニングデータを用いて実行された.状態の総数は2,126であり,状態当りガウス混合成分が4種類,すなわち,状態当りガウス混合成分の数が5,10,15及び20個のモデルが得られた. 16kHz sampling frequency, a frame length of 20 ms, a frame shift of 10 ms, and 12-order MFCC (Mel-Frequency Cepstrum Coefficients: Mel frequency cepstrum), use the 25-dimensional feature parameters consisting ΔMFCC and Δ log power It was. For all phonemes, three states were used as the initial HMM. Using a continuous state splitting (SSS) training algorithm, a triphone acoustic model having a state coupled HMnet topology was obtained. The number of state bindings is automatically determined by the algorithm because the SSS algorithm used here is based on a Minimum Description Length (MDL) optimization criterion. Details of MDL-SSS are described in other documents (Non-patent Document 9). SSS topology training was performed using all training data. The total number of states was 2,126, and four types of Gaussian mixture components per state were obtained, that is, models with 5, 10, 15, and 20 Gaussian mixture components per state.
従来のトライフォン音響モデル(AM)に性別及びアクセントといった付加的知識を組込むこともまた,性別及び/又はアクセント依存のAMをトレーニングすることにより,可能である.すべてのモデルに対するトポロジに対応した構造が確実に同じになるように,所定のアクセント又は性別のトレーニングデータによる,組込トレーニング手順のみが行なわれた.このため,総合して,1つの単一トライフォンAM(付加的知識無し)と,2つのアクセント依存トライフォンAM(USとAUSとの両方に対して)と,2つの性別依存トライフォンAM(男性と女性との両方に対して)と,4つのアクセント及び性別依存トライフォンAM(USの男性及び女性と,AUSの男性及び女性とに対して)とを得た. It is also possible to incorporate additional knowledge such as gender and accent into the traditional triphone acoustic model (AM) by training gender and / or accent dependent AM. Only built-in training procedures with predetermined accent or gender training data were performed to ensure that the structure corresponding to the topology for all models was the same. Thus, in total, one single triphone AM (no additional knowledge), two accent-dependent triphones AM (for both US and AUS), and two gender-dependent triphones AM ( And 4 accents and gender-dependent triphones AM (for men and women in US and men and women in AUS).
これら,状態当り5混合成分のベースラインモデルがどのような性能を示したかを図15のグラフにプロットした.付加的知識無しのトライフォンのベースラインは,83.60%の単語正解率を達成した.しかし,性別依存モデルのみ,性能をわずかに向上可能であった.他のモデルの性能は低下しただけであった.とりわけ,アクセント・性別依存モデルは単語正解率82.11%まで低下した.これは,他のベースラインモデルに比べトレーニングデータの量が特に少なかったことによるものであろう. The performance of these five mixed component baseline models per state was plotted in the graph of FIG. The baseline of triphone without additional knowledge achieved a word accuracy rate of 83.60%. However, only the gender-dependent model could improve the performance slightly. The performance of other models was only reduced. In particular, the accent / gender dependency model decreased to a word correct rate of 82.11%. This is probably because the amount of training data was particularly small compared to other baseline models.
A.HMM状態レベルで知識源を組込んだときの性能
提案に係るペンタフォンモデルを,セクション4−Bに記述したように,音素クラスコンテキスト変数でラベル付けされたすべてのアクセントデータにおいて,同じ量のトレーニングデータを用いてトレーニングした.モデルの状態トポロジ,状態の総数,及び,遷移確率は,すべてトライフォンHMMベースラインと同一である.それゆえに,これらはすべてパラメータの数という点で同様の複雑さを有する.主要な違いは,状態の確率分布において,各々のガウス分布がCLまたはCRにより明確に条件付けされているという点にのみある.これとは対照的に,HMMベースラインでの全てのガウス成分は,混合インデックスに関する「意味のある」解釈無しにEMアルゴリズムにより学習された.いくつかの音素コンテキストクラスCLまたはCRは,文法規則により存在しないか,又はトレーニングデータに現れず,その結果,トレーニング後に,状態当り平均約50のガウス分布が得られた.データ駆動型クラスタリング技術を用いてペンタフォンモデルのサイズを状態当り5,10,15及び20の混合成分に対応するよう減少させることにより,推定パラメータの信頼性の低下を避け,ガウス分布の総数が全く同じであることにより,性能をベースラインシステムと比べることが可能なようにする.
A. Performance when incorporating knowledge sources at the HMM state level The same amount of training for all accent data labeled with phoneme class context variables, as described in Section 4-B, for the proposed pentaphone model We trained using the data. The model's state topology, total number of states, and transition probabilities are all the same as the triphone HMM baseline. Therefore, they all have similar complexity in terms of the number of parameters. The main difference is that in the state probability distribution, each Gaussian distribution is clearly conditioned by C L or C R. In contrast, all Gaussian components at the HMM baseline were learned by the EM algorithm without a “significant” interpretation of the mixed index. Some phonemes context class C L or C R is absent by the grammar rules, or not appear in the training data, the result, after training, the Gaussian distribution of state per average of about 50 was obtained. By reducing the size of the pentaphone model to correspond to 5, 10, 15, and 20 mixed components per state using data-driven clustering techniques, the reliability of the estimated parameters is avoided and the total number of Gaussian distributions is reduced. Being exactly the same makes it possible to compare performance with the baseline system.
最初に,ベースラインと同じテストデータを用い,ペンタフォンモデルBN−C,BN−CG,BN−CA又はBN−CGAがどの程度の性能であるかを評価した.平均で状態当り5つという同じ数の混合成分を持つこれら4つのモデル全ての結果を,図16にプロットした. First, we evaluated the performance of the pentaphone model BN-C, BN-CG, BN-CA or BN-CGA using the same test data as the baseline. The results of all four models with the same number of mixed components on average, five per state, are plotted in FIG.
これからわかるように,全てのBNのタイプを用い,様々なタイプの知識源の組込みを行なうように状態の確率分布を変えただけで,認識が向上した.しかし,性別及びアクセント変数を組込んだものでは,ここで提案したモデルの認識率はそれ以上向上しなかった.この問題も,各々のアクセント又は性別依存モデルに対するトレーニングデータに限りがあることに関係しているのであろう.それが,最高性能がBN−Cを用いた場合の単語正解率85.03%である理由である. As can be seen, recognition was improved by using all BN types and changing the state probability distribution to incorporate various types of knowledge sources. However, when the gender and accent variables were incorporated, the recognition rate of the proposed model did not improve further. This problem may also be related to the limited training data for each accent or gender-dependent model. That is why the best performance is 85.03% when using BN-C.
我々は,これを,一致するアクセントのテストの組で評価した.このテストデータは,BN−Cを用いてもたらされる効果が何かをさらに詳しく調査するための,各アクセント(US及びAUS)からランダムに選択された200の発話である.種々の数の混合成分のモデルを用いて得られた結果をテーブル2に要約する. We evaluated this with a set of matching accent tests. This test data is 200 utterances randomly selected from each accent (US and AUS) to investigate further what the effects that can be achieved with BN-C. Table 2 summarizes the results obtained using different numbers of mixed component models.
B.HMM音素モデルレベルでの知識源組込み時の性能
非特許文献8では,我々は,ペンタフォンモデルを分解する数種類の方法を調査し,最良の方法がC1L3R3構成であることを見出した.ここでは,C1L3R3モデルのみを用いた追加の実験について記述する.
B. Performance when incorporating knowledge sources at the HMM phoneme model level In Non-Patent Document 8, we investigated several methods for decomposing the pentaphone model and found that the best method was the C1L3R3 configuration. Here we describe an additional experiment using only the C1L3R3 model.
全てのアクセント付のペンタフォンモデルの全成分を,同量のトレーニングデータ及び同じSSSトレーニングアルゴリズムを用いて別々にトレーニングした.状態の総数は3,360(C1:132状態,L3:1,746状態,R3:1,782状態の合計)で,状態当り4種類のガウス混合成分数,すなわち,5,10,15及び20という数のガウス混合成分のものが得られた.そして,組込みトレーニング手順を,特定のアクセント又は性別のトレーニングデータでペンタフォンC1L3R3−A,C1L3R3−G,及びC1L3R3−AGに対して実行した. All components of all accented pentaphone models were trained separately using the same amount of training data and the same SSS training algorithm. The total number of states is 3,360 (total of C1: 132 state, L3: 1,746 state, R3: 1,782 state), and the number of four types of Gaussian mixture components per state, ie, 5, 10, 15 and 20 The number of Gaussian mixture components was obtained. A built-in training procedure was then performed for Pentaphone C1L3R3-A, C1L3R3-G, and C1L3R3-AG with specific accent or gender training data.
次に,全アクセント付テストデータに対してC1L3R3−AGがどのような性能を示すのか,その詳細を,Nベスト(N=10)リストを用いて調査した.補間削除法のための重みパラメータαは同じ(0.3)であった.ここでは,非特許文献1で使用された,相対的向上度(Rel-Imp)と,再スコアリングについての相対的向上度(Rel−Resc−Imp)との両方を以下により計算した.
Next, we investigated the details of the performance of C1L3R3-AG for all test data with accents using the N best (N = 10) list. The weight parameter α for the interpolation deletion method was the same (0.3). Here, both the relative improvement (Rel-Imp) used in
種々の数の混合成分のモデルによって得られた結果をテーブル4に要約する.これから分かるように,提案に係るペンタフォンモデルにより,ASRシステムの性能は一貫して向上した.最大のRel−Resc−Impは,US及びAUSアクセントの両方に対し,15の混合モデルの時に得られた(USモデルに対し37.92%及びAUSモデルに対し38.04%). Table 4 summarizes the results obtained with various numbers of mixed component models. As can be seen, the proposed pentaphone model has consistently improved the performance of the ASR system. The highest Rel-Resc-Imp was obtained for 15 mixed models for both US and AUS accents (37.92% for US model and 38.04% for AUS model).
また,提案に係るペンタフォンC1L3R3−AGモデルが,一致しないアクセントのテストの組に対してどの程度の性能を示すかについても評価した.15個の混合成分を持つモデルを用いて得た結果をテーブル5に要約する.テーブル5は,一致時と不一致時との比較を簡単にするために,一致するアクセントに対する評価からの結果をも含む.提案に係るペンタフォンC1L3R3−AGモデルが,一致しないアクセントについて標準的なトライフォンモデルよりも一貫して良い性能を示すことが分かる. We also evaluated the performance of the proposed pentaphone C1L3R3-AG model against the mismatched accent test set. Table 5 summarizes the results obtained using the model with 15 mixed components. Table 5 also includes the results from evaluations for matching accents to simplify comparisons between matches and mismatches. It can be seen that the proposed pentaphone C1L3R3-AG model shows consistently better performance than the standard triphone model for mismatched accents.
C.種々のモデルの比較
最後に,2,202個の状態数の従来のペンタフォンHMMモデルであって,何も無いところからMDL−SSSを用いてトレーニングされたものを用い,提案に係るモデルの性能の高さが,主に広域音素コンテキストによりもたらされたものかどうかを調査するために,追加の実験を行なった.性別及びアクセントに依存するペンタフォンモデルも,特定のアクセント又は性別に関するトレーニングデータでの組込み手順を用いて取得した.これらはベイズペンタフォンの場合と同様,Nベストリストを再スコアリングすることにより実現された.
C. Comparison of various models Finally, the performance of the proposed model using a 2,202 state number conventional pentaphone HMM model trained using MDL-SSS from nothing. An additional experiment was conducted to investigate whether the height of the was mainly brought about by the wide phoneme context. A gender and accent dependent pentaphone model was also obtained using a built-in procedure with training data for a specific accent or gender. These were realized by re-scoring the N best list, as in Bayes Pentaphone.
状態当り5つの混合成分を持つ全てのモデルに対する結果を図18にプロットする.これから分かるように,提案に係るペンタフォンC1L3R3モデルによりベースラインに比べて性能が向上し,しかもこれは従来のペンタフォンHMMで単に再スコアリングするよりも優秀である.この理由は,ある量のトレーニングデータが与えられたときに,MDL−SSSアルゴリズムを用いて従来のペンタフォンモデルをトレーニングした結果得られたのが,総数2,202個の状態を持つモデルであり,これがトライフォンHMMでの状態の総数とそれほど変わらないことによるのであろう.同じガウス分布成分を共有する異なるペンタフォンコンテキストがあまりに多くあるように見えるために,コンテキストの分解能が低下した.このため,いくつかのコンテキスト依存性の少ないモデルを組合わせたものを用いてペンタフォンモデルを近似することにより,コンテキストの分解能の向上と性能の改善とを促進することができた.得られた最高性能は,BN−Cによる単語正解率85.03%であった. The results for all models with five mixed components per state are plotted in FIG. As can be seen, the proposed Pentaphone C1L3R3 model improves performance compared to the baseline, which is better than simply re-scoring with a conventional Pentaphone HMM. This is because a model having a total of 2,202 states was obtained as a result of training a conventional pentaphone model using the MDL-SSS algorithm when a certain amount of training data was given. This is probably because it is not so different from the total number of states in the triphone HMM. The resolution of the context was reduced because there seem to be too many different pentaphone contexts sharing the same Gaussian distribution component. Therefore, by improving the context resolution and performance by approximating the pentaphone model using a combination of several context-independent models, we were able to promote the improvement of context resolution and performance. The highest performance obtained was 85.03% of correct word rate by BN-C.
7.結論
統計的音響モデルを基本としたHMMに,付加的知識源を組込むための一般的なフレームワークを述べた.広域音素コンテキスト情報をトライフォンHMMへ組込むことにより,このフレームワークの実現を提示した.これは最初にBNを用いてHMMの状態レベルで行なわれた.付加的知識源が認識の間に隠されていても,このアプローチによれば標準デコーディングシステムを変更なく使用することができる.次に,広域音素コンテキスト音響モデリングを,より狭いコンテキストを持ついくつかの他のモデルを用いて構築することにより,HMM音素モデルレベルで組込んだ.この複合の技術によって,推定されるべきコンテキストユニットの数の削減がもたらされたため,コンテキスト依存性のより少ないモデルを推定することが必要なだけとなったので,コンテキストの分解能は著しく向上した.
7). Conclusion A general framework for incorporating additional knowledge sources into HMMs based on statistical acoustic models is described. The implementation of this framework was presented by incorporating wide-area phoneme context information into the triphone HMM. This was first done at the state level of the HMM using BN. Even if additional knowledge sources are hidden during recognition, this approach allows the standard decoding system to be used without modification. Next, wide-area phoneme context acoustic modeling was built at the HMM phoneme model level by building with several other models with narrower contexts. Because this composite technique resulted in a reduction in the number of context units to be estimated, it was only necessary to estimate a model with less context dependency, so the context resolution was significantly improved.
これらの広域コンテキストモデル構成を,Nベストの再スコアリングにより,処理後の段階に適用した.実験結果により,提案に係るフレームワークで作成された広域音素コンテキストモデルが,標準的なトライフォンモデルに対して単語正解率を向上させることが明らかとなった.2つ前のコンテキストCLと,2つ後のコンテキストCRという付加的知識は,HMM状態レベルでの組込みに適しており,一方,アクセントA及び性別Gという付加的知識は,HMM音素モデルレベルでの組込みに,より適していた. These global context model configurations were applied to the post-processing stage by N-score re-scoring. Experimental results show that the phoneme context model created by the proposed framework improves the word accuracy rate compared to the standard triphone model. Two previous context C L, additional knowledge that the two after the context C R, is suitable for incorporation in the HMM state level, while the additional knowledge that accent A and sex G, HMM phoneme model level It was more suitable for incorporation in.
上述のように,本発明は,付加的な知識源を統一された方法で組み込むための方法及び装置に関するものである.これら方法及び装置はベイズネットワークのフレームワークを利用し,どのようなドメインからのものでも,すべての付加的知識源を簡単に統合する.このグラフによるモデルフレームワークの有利な点は,(1)情報源間の確率論的関係を学習することを可能にすること,及び,(2)同時確率密度関数を,互いにリンクされた局部的条件付確率密度関数の組に分解することを容易にすること,である.モデルが簡素化された形式であるため,このようにして,限定された量のデータを用いてモデルを構築し,信頼性高く推定することが可能である. As mentioned above, the present invention relates to a method and apparatus for incorporating additional knowledge sources in a unified way. These methods and devices use the Bayesian network framework to easily integrate all additional knowledge sources from any domain. The advantages of this graphical model framework are: (1) it enables learning of probabilistic relationships between information sources, and (2) the joint probability density function is linked to each other locally. It is easy to decompose into a set of conditional probability density functions. Since the model is in a simplified form, it is possible in this way to build a model with a limited amount of data and estimate it reliably.
このフレームワークは一般的なアプローチを代表するものである.即ち,このフレームワークは,それぞれモデルに基づく尤度関数を持つ,多くの既存の音響モデルのモデル化の問題に適用できる. This framework represents a general approach. In other words, this framework can be applied to many existing acoustic model modeling problems, each with a model-based likelihood function.
コンピュータによる実現
上述の実施の形態は,コンピュータシステムと,当該システム上で実行されるコンピュータプログラムとによって実現可能である.図19はこれら実施の形態で用いられるコンピュータシステム650の外観を示し,図20はコンピュータシステム650のブロック図である.ここで示すコンピュータシステム650は単なる例示であって,さまざまな他の構成が利用可能である.
Realization by computer The above-described embodiment can be realized by a computer system and a computer program executed on the system. FIG. 19 shows the external appearance of the
図19を参照して,コンピュータシステム650は,コンピュータ660と,モニター662と,キーボード666と,マウス668と,スピーカー692と,マイクロフォン690とを含む.さらに,コンピュータ660は,DVD(Digital Versatile Disc)ドライブ670及び半導体メモリポート672を含む.
Referring to FIG. 19, a
図20を参照して,コンピュータ660はさらに,DVD670及び半導体メモリポート672に接続されたバス686と,上述した装置を実現するコンピュータプログラムを実行するためのCPU(Central Processing Unit)676と,コンピュータ660のブートアッププログラムを記憶するROM(Read−Only Memory)678と,CPU676によって使用される作業領域及びCPU676によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory)680と,音声データ,音響データ,言語モデル,及び音声認識のために必要なレキシコンを記憶するためのハードディスクドライブ674と,コンピュータ660にネットワーク652との接続を提供するためのネットワークインターフェース(I/F)696とを含み,これらは全てバス686に接続されている.
Referring to FIG. 20, a
上述の実施の形態に係るシステムを実現するソフトウェアはDVD682又は半導体メモリ684等の記憶媒体に記憶されたオブジェクトコードの形で流通し,DVDドライブ670又は半導体メモリポート672等の読出装置を介してコンピュータ660に提供され,ハードディスクドライブ674に記憶される.CPU676がプログラムを実行する際には,プログラムはハードディスクドライブ674から読出されてRAM680に記憶される.図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ,その命令が実行される.CPU676はハードディスクドライブ674から処理すべきデータを読出し,処理の結果をこれもまたハードディスクドライブ674に記憶する.スピーカ692とマイクロフォン690とは,音声認識と音声合成とに用いられる.
The software that realizes the system according to the above-described embodiment is distributed in the form of an object code stored in a storage medium such as a
コンピュータシステム650の一般的動作は周知であるので,ここでは詳細な説明は行なわない.
The general operation of
ソフトウェアの流通の方法に関して,ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい.例えば,ソフトウェアはネットワーク652に接続された別のコンピュータから配布されてもよい.ソフトウェアの一部がハードディスク674に記憶され,ソフトウェアの残りの部分をネットワークを介してハードディスク674に取込み,実行の際に統合する様にしてもよい.
Regarding software distribution methods, software does not necessarily have to be fixed on a storage medium. For example, the software may be distributed from another computer connected to the
典型的には,現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される汎用の関数を利用し,所望の目的に従って制御された態様でこれら関数を実行する.従って,OS又は第3者から提供されうる汎用関数を含まず,一般的な関数の実行順序の組合せのみを指定したプログラムであっても,そのプログラムが全体として所望の目的を達成する制御構造を有する限り,そのプログラムがこの発明の範囲に包含されることは明らかである. Typically, modern computers utilize general-purpose functions provided by a computer operating system (OS) and execute these functions in a controlled manner according to the desired purpose. Therefore, even if it is a program that does not include general-purpose functions that can be provided by the OS or a third party and only specifies a combination of execution order of general functions, a control structure that achieves a desired purpose as a whole Obviously, the program is included in the scope of the present invention as long as it has.
今回開示された実施の形態は単に例示であって,本発明は上記した実施の形態のみに制
限されるわけではない.本発明の範囲は,発明の詳細な説明の記載を参酌した上で,特許
請求の範囲の各請求項によって示され,そこに記載された文言と均等の意味及び範囲内で
のすべての変更を含む.
The embodiment disclosed this time is merely an example, and the present invention is not limited to the embodiment described above. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.
70,80,90,100,110,140,240,330 ベイズネットワーク
130,150 モラル及びトライアンギュレートグラフ
160,180,450 ジャンクションツリー
190 HMM
270,290,310,400,430 BNトポロジ
164,166,170,460,464,474 クラスタの組
162,168,462,472 セパレータの組
500 ASRシステム
510 音声波形データ
512 標準的なデコーダ
514 Nベストリスト
516 仮説選択モジュール
530 C1L3R3ペンタフォンモデル
532 C1L3R3−A ペンタフォンモデル
534 C1L3R3−G ペンタフォンモデル
536 C1L3R3−AG ペンタフォンモデル
550 メモリ
552 読出及び供給モジュール
554,556,558,560,526 シフトメモリ
570 右コンテキスト計算装置
572 中央コンテキスト計算装置
574 左コンテキスト計算装置
576 確率密度関数計算装置
578 再スコアリングモジュール
580 ソート及び選択モジュール
70, 80, 90, 100, 110, 140, 240, 330
270, 290, 310, 400, 430
Claims (5)
前記装置は、
前記クラスタノード及び1以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含み、
前記所定の関数は、
ただしDは前記観測データであり、Mは前記音響モデルであり、Nは正の整数であり、Kiは1以上の知識源であり、
P(D|Ki,M)(i=1〜N)及びP(D|M)は前記局部的確率計算手段により計算された局部的確率である、確率計算装置。 Probability calculation for calculating a probability for each predefined set of phonemes present in a given segment of the speech signal using a statistical acoustic model for the speech signal and one or more knowledge sources The apparatus, wherein the segment includes a plurality of frames of the audio signal, the acoustic model and the one or more knowledge sources have a causal relationship indicated by a Bayesian network, and the Bayesian network includes a plurality of cluster nodes. And a junction tree containing one or more separator nodes,
The device is
Means for storing a plurality of local acoustic models corresponding to the cluster nodes and one or more separator nodes;
Means for calculating predefined observation data for each of the frames;
Local probability calculating means for calculating a local probability of generating the observation data of each of the phonemes using the plurality of local acoustic models;
Wherein each phoneme, the probability of generating the observed data, look including a probability calculation means for calculating a predetermined function of the local probabilities calculated by the local probability calculation means,
The predetermined function is:
Where D is the observed data, M is the acoustic model, N is a positive integer, Ki is a knowledge source of 1 or more,
P (D | Ki, M) (i = 1 to N) and P (D | M) are local probability calculated by the local probability calculating means .
前記1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項1に記載の装置。 The model M is a monophone acoustic model,
The apparatus of claim 1 , wherein the one or more knowledge sources include a preceding triphone context unit and a subsequent triphone context unit.
前記1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項1に記載の装置。 The model M is a monophonic acoustic model trained with additional knowledge sources,
The apparatus of claim 1 , wherein the one or more knowledge sources include a preceding triphone context unit and a subsequent triphone context unit.
前記コンピュータプログラムは、前記コンピュータを、
前記クラスタノード及び1以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させ、
前記所定の関数は、
ただしDは前記観測データであり、Mは前記音響モデルであり、Nは正の整数であり、Kiは1以上の知識源であり、
P(D|Ki,M)(i=1〜N)及びP(D|M)は前記局部的確率計算手段により計算された局部的確率である、コンピュータプログラム。 When executed on a computer , the computer causes a statistical acoustic model and one or more knowledge for the speech signal for each of a predefined set of phonemes present in a given segment of the speech signal. A computer program that functions as a probability calculation device for calculating a probability using a source, wherein the segment includes a plurality of frames of the speech signal, and the acoustic model and the one or more knowledge sources are based on a Bayesian network. The Bayesian network corresponds to a junction tree that includes a plurality of cluster nodes and one or more separator nodes;
The computer program stores the computer,
Means for storing a plurality of local acoustic models corresponding to the cluster nodes and one or more separator nodes;
Means for calculating predefined observation data for each of the frames;
Local probability calculating means for calculating a local probability of generating the observation data of each of the phonemes using the plurality of local acoustic models;
Functioning as probability calculation means for calculating the probability of generating the observation data of each of the phonemes as a predetermined function of the local probability calculated by the local probability calculation means ;
The predetermined function is:
Where D is the observed data, M is the acoustic model, N is a positive integer, Ki is a knowledge source of 1 or more,
P (D | Ki, M) (i = 1~N) and P (D | M) is Ru local probability der calculated by the local probability calculation unit, the computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007162864A JP4861912B2 (en) | 2007-06-20 | 2007-06-20 | Probability calculation apparatus and computer program for incorporating knowledge sources |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007162864A JP4861912B2 (en) | 2007-06-20 | 2007-06-20 | Probability calculation apparatus and computer program for incorporating knowledge sources |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2009003110A JP2009003110A (en) | 2009-01-08 |
JP2009003110A5 JP2009003110A5 (en) | 2010-06-24 |
JP4861912B2 true JP4861912B2 (en) | 2012-01-25 |
Family
ID=40319579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007162864A Expired - Fee Related JP4861912B2 (en) | 2007-06-20 | 2007-06-20 | Probability calculation apparatus and computer program for incorporating knowledge sources |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4861912B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101587866B1 (en) | 2009-06-03 | 2016-01-25 | 삼성전자주식회사 | Apparatus and method for extension of articulation dictionary by speech recognition |
CN102779510B (en) * | 2012-07-19 | 2013-12-18 | 东南大学 | Speech emotion recognition method based on feature space self-adaptive projection |
KR102197387B1 (en) * | 2017-05-19 | 2021-01-04 | 한국전자통신연구원 | Natural Speech Recognition Method and Apparatus |
CN110096677B (en) * | 2019-05-08 | 2023-08-25 | 广西大学 | Quick calculation method and system for high-order derivative function based on probability calculation |
CN112233657B (en) * | 2020-10-14 | 2024-05-28 | 河海大学 | Speech enhancement method based on low-frequency syllable recognition |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117583A (en) * | 1999-10-15 | 2001-04-27 | Sony Corp | Device and method for voice recognition, and recording medium |
JP4298464B2 (en) * | 2003-10-29 | 2009-07-22 | 株式会社国際電気通信基礎技術研究所 | How to prepare a hidden Markov model for use in speech recognition |
JP2007052166A (en) * | 2005-08-17 | 2007-03-01 | Advanced Telecommunication Research Institute International | Method for preparing acoustic model and automatic speech recognizer |
JP2007066260A (en) * | 2005-09-02 | 2007-03-15 | Ntt Docomo Inc | Network conversion system and method |
-
2007
- 2007-06-20 JP JP2007162864A patent/JP4861912B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009003110A (en) | 2009-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dahl et al. | Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition | |
US8812315B2 (en) | System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring | |
Siniscalchi et al. | Experiments on cross-language attribute detection and phone recognition with minimal target-specific training data | |
CN107615376B (en) | Voice recognition device and computer program recording medium | |
Rabiner et al. | An overview of automatic speech recognition | |
EP3076389A1 (en) | Statistical-acoustic-model adaptation method, acoustic-model learning method suitable for statistical-acoustic-model adaptation, storage medium in which parameters for building deep neural network are stored, and computer program for adapting statistical acoustic model | |
Hadian et al. | Flat-start single-stage discriminatively trained HMM-based models for ASR | |
Morgan et al. | An introduction to hybrid HMM/connectionist continuous speech recognition | |
JP6884946B2 (en) | Acoustic model learning device and computer program for it | |
Chen et al. | Sequence discriminative training for deep learning based acoustic keyword spotting | |
Rasipuram et al. | Acoustic and lexical resource constrained ASR using language-independent acoustic model and language-dependent probabilistic lexical model | |
Kımanuka et al. | Turkish speech recognition based on deep neural networks | |
JP4861912B2 (en) | Probability calculation apparatus and computer program for incorporating knowledge sources | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
Pakoci et al. | Improvements in Serbian speech recognition using sequence-trained deep neural networks | |
Zhang et al. | Wake-up-word spotting using end-to-end deep neural network system | |
Rosdi et al. | Isolated malay speech recognition using Hidden Markov Models | |
Razavi et al. | Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework | |
Lee | On automatic speech recognition at the dawn of the 21st century | |
Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
Sarma et al. | Speech recognition in Indian languages—a survey | |
JP2007052166A (en) | Method for preparing acoustic model and automatic speech recognizer | |
Ungureanu et al. | Establishing a baseline of Romanian speech-to-text models | |
El Ouahabi et al. | Amazigh speech recognition using triphone modeling and clustering tree decision | |
Zhang et al. | Application of pronunciation knowledge on phoneme recognition by lstm neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100506 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100506 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111025 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111107 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141111 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |