JP2001312294A - Learning method of transducer transducing input symbol series into output symbol series, and computer-readable recording medium with stored learning program of transducer - Google Patents

Learning method of transducer transducing input symbol series into output symbol series, and computer-readable recording medium with stored learning program of transducer

Info

Publication number
JP2001312294A
JP2001312294A JP2000133943A JP2000133943A JP2001312294A JP 2001312294 A JP2001312294 A JP 2001312294A JP 2000133943 A JP2000133943 A JP 2000133943A JP 2000133943 A JP2000133943 A JP 2000133943A JP 2001312294 A JP2001312294 A JP 2001312294A
Authority
JP
Japan
Prior art keywords
transducer
input
learning
output
symbol series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000133943A
Other languages
Japanese (ja)
Inventor
Hajime Tsukada
元 塚田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2000133943A priority Critical patent/JP2001312294A/en
Publication of JP2001312294A publication Critical patent/JP2001312294A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a learning method of a transducer, transducing an input symbol series into an output symbol series, which makes it possible to obtain a transducer taking into account not only the context of input symbols, but also the context of output symbols and a computer-readable recording medium with stored a learning program of the transducer. SOLUTION: This is a learning method of a transducer transducing the input symbol series into the output symbol series; and a group of input and output symbols which are previously made to correspond to each other is used as learning data and modeled as n-gram.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、入力記号列を出
力記号列に変換するトランスデューサの学習方法および
トランスデューサの学習プログラムを記憶したコンピュ
ータ読み取り可能な記録媒体に関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a transducer learning method for converting an input symbol string into an output symbol string and a computer-readable recording medium storing a transducer learning program.

【0002】[0002]

【従来の技術】音声認識に必要な各種の確率モデルは、
それぞれ独立した定式化に基づいて生成されることが多
かった。例えば、音響モデルはHMMとして、言語モデ
ルはn−gramとしモデル化することが多い。しか
し、近年のオートマトン理論の進展により、これらの確
率モデルは、重み付き有限状態トランスデューサ(weig
hted finite-state transducer, 以後WFSTという)
として統一的にモデル化できることが明らかになってき
た(文献1参照)。
2. Description of the Related Art Various probability models required for speech recognition are as follows.
They were often generated based on independent formulas. For example, an acoustic model is often modeled as an HMM, and a language model is modeled as an n-gram. However, with the development of automata theory in recent years, these stochastic models have been replaced by weighted finite state transducers (weig
hted finite-state transducer, hereinafter WFST)
It has become clear that a model can be unified as (see Document 1).

【0003】文献1: Fernando Pereira and Michael
Riley, "Speech Recognition by Composition of Weig
hted Finite Automata", In Emmanuel Roche and Yves
Schabes, editors, Finite-State Language Processin
g, pp.431-453, MIT Press, Cambridge, Massachusett
s, 1997.
Reference 1: Fernando Pereira and Michael
Riley, "Speech Recognition by Composition of Weig
hted Finite Automata ", In Emmanuel Roche and Yves
Schabes, editors, Finite-State Language Processin
g, pp.431-453, MIT Press, Cambridge, Massachusett
s, 1997.

【0004】WFSTは、重みという形で尤度を一般化
したもので、確率的有限状態トランスデューサ(probabi
listic finite-state transducer, 以後PFSTとい
う)はその特殊な形だと考えることができる。また、合
成演算によって、あらかじめ複数のWFSTを一つのW
FSTに展開することで、効率よく精度の高い探索が行
えることも、大語彙連続音声認識を対象として実証され
てきている(文献2参照)。
[0004] WFST is a generalization of likelihood in the form of weights, and is a stochastic finite state transducer (probabi
listic finite-state transducer (hereinafter PFST) can be considered a special form. In addition, a plurality of WFSTs are converted into one W
It has been demonstrated that large-vocabulary continuous speech recognition can be performed efficiently and with high accuracy by expanding to FST (see Reference 2).

【0005】文献2:Mehryar Mohri, Michael Riley,
Don Hindle, Andrej Ljoljo and Fernando Pereira, "F
ull Expansion of Context-Dependent Networks in Lar
ge Vocabulary Speech Recognition", In Proc. of the
International Conferenceon Acoustics, Speech, and
Signal Processing (ICASSP '98), 1998.
Reference 2: Mehryar Mohri, Michael Riley,
Don Hindle, Andrej Ljoljo and Fernando Pereira, "F
ull Expansion of Context-Dependent Networks in Lar
ge Vocabulary Speech Recognition ", In Proc. of the
International Conferenceon Acoustics, Speech, and
Signal Processing (ICASSP '98), 1998.

【0006】このような背景から、音声認識に必要な確
率モデルをWFSTとして自動学習する手法が、近年、
重要な研究課題の一つになってきた。
[0006] Against this background, a method of automatically learning a probability model necessary for speech recognition as WFST has recently been developed.
It has become one of the important research issues.

【0007】これまでにも、形態素解析や数字列変換の
問題を対象に、有限状態トランスデューサを自動学習す
る手法が研究されてきた(文献3、4参照)。 文献3:Emmanuel Roche and Yves Schabes, "Determin
istic Part-of-SpeechTagging with Finite-State Tran
sducers", Computational Linguistics, Vol.21, No.
2, pp.227-253, 1995.
Until now, techniques for automatically learning a finite state transducer have been studied for the problems of morphological analysis and digit string conversion (see References 3 and 4). Reference 3: Emmanuel Roche and Yves Schabes, "Determin
istic Part-of-SpeechTagging with Finite-State Tran
sducers ", Computational Linguistics, Vol. 21, No.
2, pp.227-253, 1995.

【0008】文献4:Jose Oncina, Pedro Garcia and
Enrique Vidal, "Learning Subsequential Transducers
for Pattern Recognition Interpretation Tasks", IE
EE Trans. Pattern Analysis and Machine Intelligenc
e, Vol. 15, No. 5, 1993.
Reference 4: Jose Oncina, Pedro Garcia and
Enrique Vidal, "Learning Subsequential Transducers
for Pattern Recognition Interpretation Tasks ", IE
EE Trans.Pattern Analysis and Machine Intelligenc
e, Vol. 15, No. 5, 1993.

【0009】しかし、これらの手法は確率的なモデルを
学習するものではないため、音声認識にはあまり適した
ものとはいえなかった。また、音声認識で広くおこなわ
れているように、各入力(または出力)記号毎に環境依
存HMMを構成し、記号列変換をモデル化する方法も考
えられる。しかし、HMMの出力記号は独立性を仮定し
ているため、変換モデルとしての能力はあまり高くな
い。統計的機械翻訳の分野では、同期依存木によって対
応づけられている言語間の変換を自動学習する手法も提
案されている(文献5参照)。
However, since these methods do not learn a probabilistic model, they cannot be said to be very suitable for speech recognition. Further, as widely used in speech recognition, a method of constructing an environment-dependent HMM for each input (or output) symbol and modeling symbol string conversion is also conceivable. However, since the output symbols of the HMM assume independence, their ability as a transformation model is not very high. In the field of statistical machine translation, a method of automatically learning conversion between languages associated with a synchronization dependency tree has also been proposed (see Reference 5).

【0010】文献5:Hiyan Alshawi, Bangalore Srini
vas and Shona Douglas, "LearningDependency Transla
tion Models as Collections of Finite State Head Tr
ansducers", Computational Linguistics, Vol. 26, 20
00.
Reference 5: Hiyan Alshawi, Bangalore Srini
vas and Shona Douglas, "LearningDependency Transla
tion Models as Collections of Finite State Head Tr
ansducers ", Computational Linguistics, Vol. 26, 20
00.

【0011】しかし、ここで学習される確率的ヘッドト
ランスデューサは、WFST上に定義された音声認識に
とって有用な演算がそのまま使えるわけではない。
[0011] However, the stochastic head transducer learned here cannot use the computation useful for speech recognition defined on the WFST as it is.

【0012】[0012]

【発明が解決しようとする課題】この発明では、文脈依
存の入力記号列sinと文脈依存の出力記号列sout との
間の変換を、P (sin, sout ) またはP (sin|s
out ) を出力するWFSTとして自動学習する手法を提
案する。本手法は、あらかじめ対応づけられた入出力記
号ペア(入出力号の組)を可変長のn−gram(文献
6、7、8としてモデル化するものである。n−gra
mの次数を可変とすることで、パラメータ数の最適化を
はかることができる。
According to the present invention, the conversion between a context-dependent input symbol string s in and a context-dependent output symbol string s out is performed by P (s in , s out ) or P (s in | S
out ) is proposed as a WFST that outputs automatically. This method models input / output symbol pairs (sets of input / output signals) associated in advance as variable-length n-grams (references 6, 7, and 8).
By making the order of m variable, the number of parameters can be optimized.

【0013】文献6:春野雅彦, 松本裕治, "文脈木を
利用した形態素解析", 情報処理学会研究報告, 96-NL-
112, pp.31-36, 1996. 文献7:Hinrich Schutze and Yoram Singer, "Part-of
-Speech Tagging Using a Variable Memory Markov Mod
el", 32nd Annual Meeting of ACL, 1994. 文献8:Marcelo J. Weinberger, Jorma J. Rissanen a
nd Meir Feder, "A Universal Finite Memory Source",
IEEE Trans. Information Theory, Vol. 41,No. 3, 19
95.
Document 6: Masahiko Haruno and Yuji Matsumoto, "Morphological Analysis Using Context Tree", IPSJ SIG Technical Report, 96-NL-
112, pp.31-36, 1996. Reference 7: Hinrich Schutze and Yoram Singer, "Part-of
-Speech Tagging Using a Variable Memory Markov Mod
el ", 32nd Annual Meeting of ACL, 1994. Reference 8: Marcelo J. Weinberger, Jorma J. Rissanen a
nd Meir Feder, "A Universal Finite Memory Source",
IEEE Trans. Information Theory, Vol. 41, No. 3, 19
95.

【0014】この発明は、入力記号の文脈だけでなく、
出力記号の文脈についても考慮したトランスデューサが
得られる、入力記号列を出力記号列に変換するトランス
デューサの学習方法およびトランスデューサの学習プロ
グラムを記憶したコンピュータ読み取り可能な記録媒体
を提供することを目的とする。
The invention is not limited to the context of the input symbol,
An object of the present invention is to provide a transducer learning method for converting an input symbol string into an output symbol string, and a computer-readable recording medium storing a transducer learning program, which can provide a transducer that also considers the context of output symbols.

【0015】[0015]

【課題を解決するための手段】この発明は、入力記号列
を出力記号列に変換するトランスデューサの学習方法で
あって、予め対応づけられた入出力記号の組を学習デー
タとして用い、対応づけられた入出力記号の組をn−g
ramとしてモデル化することを特徴とする。
SUMMARY OF THE INVENTION The present invention relates to a transducer learning method for converting an input symbol string into an output symbol string, wherein a set of input / output symbols associated in advance is used as learning data. Ng the set of input / output symbols
It is characterized by being modeled as ram.

【0016】対応づけられた入出力記号の組を文脈木を
使って可変長のn−gramとしてモデル化することが
好ましい。
It is preferable to model the set of input / output symbols associated with each other as a variable-length n-gram using a context tree.

【0017】この発明は、入力記号列を出力記号列に変
換するトランスデューサの学習プログラムを記録したコ
ンピュータ読み取り可能な記録媒体であって、予め対応
づけられた入出力記号の組を学習データとして用い、対
応づけられた入出力記号の組の列をn−gramとして
モデル化するための処理をコンピュータに実行させるた
めの学習プログラムを記録していることを特徴とする。
The present invention is a computer-readable recording medium storing a transducer learning program for converting an input symbol string into an output symbol string, using a set of input / output symbols associated in advance as learning data. A learning program for causing a computer to execute processing for modeling a sequence of a set of input / output symbols associated with each other as an n-gram is recorded.

【0018】[0018]

【発明の実施の形態】以下、図面を参照して、この発明
の実施の形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0019】〔1〕WFSTに基づく認識問題の定式化 ここでは、文献1にならって認識問題を定式化すること
で、条件付き確率を出力するWFSTを自動学習する意
義を明らかにする。
[1] Formulation of recognition problem based on WFST Here, the significance of automatically learning a WFST that outputs a conditional probability is clarified by formulating a recognition problem according to Reference 1.

【0020】まず最初に、WFSTの重み(尤度)を表
現するために半環(semiring)という概念を導入する。半
環を用いることによって、音声認識で使われる尤度とそ
れに対応する演算を見通し良く表現することができる。
First, the concept of semiring is introduced to express the weight (likelihood) of WFST. By using a half-ring, the likelihood used in speech recognition and the operation corresponding thereto can be expressed with good visibility.

【0021】半環とは、(i) 〜(iv)のような、<K,
+,・,0K ,1K >である。 (i) 和は結合律が成り立ち、可換で、単位0K をもつ。 (ii)積は結合律が成り立ち、単位元1K をもつ。 (iii) 積は和に対して分配律が成り立つ。 (iv)0K は積の零元である。
A half ring is defined as <K, such as (i) to (iv).
+, .., 0K , 1K >. (i) sum holds bond law, commutative, with units 0 K. (ii) the product is holds bond law, with identity element 1 K. (iii) The product has a distribution rule for the sum. (iv) 0 K is the zero element of the product.

【0022】例えば、確率値は、<{x∈R|0≦x≦
1},+,・,0,1>のような半環であると考えるこ
とができる。Viterbi 近似によって処理上は、+のかわ
りに最大値maxが用いられるが、この場合について
も、確率値は、<{x∈R|0≦x≦1},max,
0,1>として表現できる。さらに多くの場合、積を和
に変換するために確率値のlog を用いるが、これについ
ても、<{x∈R|x≦1}∪{−∞},max,+,
−∞,0>という半環で表現できる。
For example, the probability value is expressed as <{x∈R | 0 ≦ x ≦
1}, +, .., 0, 1>. Although the maximum value max is used instead of + in the processing by the Viterbi approximation, also in this case, the probability value is expressed as <{x∈R | 0 ≦ x ≦ 1}, max,
0,1>. More often, the log of the probability value is used to convert the product to a sum, but again, <{x∈R | x ≦ 1} ∪ {−∞}, max, +,
−∞, 0>.

【0023】WFSTは、入力記号列をある出力記号列
に変換し、重みを返す有限状態機械である。WFST
Aは、6つの組<QA , Σ* Ain , Σ* Aout, iA , F
A ,EA >で表現される。QA は状態の有限集合、Σ
Ain は入力記号の有限集合、Σ Aoutは出力記号の有限集
合、iA ∈Q は初期状態、FA : QA →Kは最終重み
関数、EA ⊆QA ×Σ* Ain ×Σ* Aout×K×QA は遷
移の集合を表す。Σ* はΣのKleene閉包で、Σの0個以
上の要素を連接したものを要素とする集合を表す。遷移
の構成要素であるKは重みを表す半環である。FA は通
常の最終状態の概念を一般化したもので、通常の意味の
最終状態は、最終状態ならば1K を、そうでなければ0
K を返す関数として表現できる。また、入力記号しか持
たない一般のオートマトンについても、ΣAin とΣAout
が等しいものとして、WFSTによる表現が可能であ
る。
WFST converts an input symbol string into an output symbol string.
Is a finite state machine that converts to and returns weights. WFST
A is a set of 6 <QA, Σ* Ain, Σ* Aout, iA, F
A, EA>. QAIs a finite set of states, Σ
AinIs a finite set of input symbols, Σ AoutIs a finite collection of output symbols
If iA∈Q is the initial state, FA: QA→ K is the final weight
Function, EA⊆QA× Σ* Ain× Σ* Aout× K × QAIs trans
Represents a set of moves. Σ*Is the Kleene closure of Σ, zero or more of Σ
Represents a set whose elements are the concatenation of the above elements. transition
K is a semi-ring representing a weight. FAIs
It is a generalization of the concept of an ordinary final state, and has a normal meaning.
The final state is 1 if the final stateK, Otherwise 0
KCan be expressed as a function that returns Also, only input symbols
For general automata that do not work,AinAnd ΣAout
Can be expressed by WFST as
You.

【0024】t∈EA の構成要素を参照するための関数
src,dst,in,out, ωを、t=(src(t),in(t),out(t),ω
(t),dst(t)) のようにように定義する。WFSTのパス
pとは、1<i≦mでsrc( ti ) = dst (t i-1) であ
るような遷移の列p=t1, …,tm である。パスpに対す
る重みはw(p) =w(t1)…w(tm ) , 入力記号列はin
(p) =in(t1)…in(tm ) , 出力記号列はout(p)=out
(t1) …out( tm ) ,始端はsrc(p) =src(t1),終端はd
st(p)=dst (tm ) で表す。入力記号列u,出力記号列
vに対する重みW(u,v) は、src(p)= iA , in(p) =
u,out(p) =vであるような全てのパスpに対するΣp
ω(p) ・ FA (dst(p))で定義する。
[0024] The function used to refer to the components of the t∈E A
Let src, dst, in, out, ω be t = (src (t), in (t), out (t), ω
(t), dst (t)). The WFST path p is a sequence of transitions p = t 1 ,..., Tm such that src (t i ) = dst (t i-1 ) with 1 <i ≦ m. The weight for the path p is w (p) = w (t 1 )... W (t m ), and the input symbol string is in
(p) = in (t 1 )… in (t m ), output symbol string is out (p) = out
(t 1 )… out (t m ), start point is src (p) = src (t 1 ), end point is d
represented by st (p) = dst (t m). The weight W (u, v) for the input symbol string u and the output symbol string v is src (p) = i A , in (p) =
Σ p for all paths p such that u, out (p) = v
ω (p) • Defined by F A (dst (p)).

【0025】入出力記号列がΣ* 0 ×Σ* 1 であるよう
なWFSTとΣ* 1 ×Σ* 2 であるものから、Σ* 0 ×
Σ* 2 であるような合成WFSTを定義することができ
る。合成(composition)のアルゴリズムは有限状態オー
トマン(FSA) の共通部分(intersection)を求めるものと
似ており、どちらも結合律が成り立つ。ここでは、説明
を簡単にするために遷移の入出力記号がΣ0 ×Σ1 であ
るWFST AとΣ1×Σ2 であるWFST Bの合成
A*Bについてだけ説明する。詳細については、文献1
を参照のこと。
From the WFST in which the input / output symbol string is Σ * 0 × Σ * 1 and W * 1 × Σ * 2 , Σ * 0 ×
A composite WFST can be defined such that Σ * 2 . The composition algorithm is similar to finding the intersection of the finite state automan (FSA), both of which have a joint rule. Here, for simplicity of description, only the composite A * B of WFST A in which the input / output symbol of the transition is Σ 0 × Σ 1 and WFST B in which the input / output symbol of the transition is Σ 1 × Σ 2 will be described. For details, see Reference 1.
checking ...

【0026】A*Bは、次の条件(i) 〜(ii)を満たす<
A ×QB ,Σ0 ,Σ2 ,(iA ,iB ),FA*B ,E
A*B >として定義できる。
A * B satisfies the following conditions (i) to (ii) <
Q A × Q B , Σ 0 , Σ 2 , (i A , i B ), F A * B , E
A * B >.

【0027】(i) FA*B (q,q’)=FA (q)FB
(q’) (ii)(q,x,y,k,r)∈EA かつ(q’,y,
z,k’,r’)∈EB⇔((q,q’),x,z,k
×k’,(r,r’)∈EA*B
(I) F A * B (q, q ') = F A (q) F B
(Q ') (ii) ( q, x, y, k, r) ∈E A and (q', y,
z, k ′, r ′) {E B } ((q, q ′), x, z, k
× k ', (r, r') ∈EA * B

【0028】WFSTとその合成という概念を用いる
と、音声認識の確率モデルを見通し良く表現することが
できる。P(sn+1 |s0) は、いくつかの段階の中間記号
列 siを媒介して、数1のように書き換えられる。ただ
し、各 si は si-1 のみに依存するものとする。
Using the concept of WFST and its synthesis, a probability model for speech recognition can be expressed with good visibility. P (s n + 1 | s 0 ) is rewritten as shown in Equation 1 through the intermediate symbol sequence s i in several stages. However, each s i depends only on s i-1 .

【0029】[0029]

【数1】 (Equation 1)

【0030】si を入力記号列、 si-1 を出力記号列と
するWFST Ai,i-1 によって、条件つき確率P(si
|s i-1)をモデル化したとする。このとき、重みは <
{x ∈R|0 ≦x ≦1 }, +, ・,0,1> または <{x ∈
R|0 ≦x ≦1 },max, ・,0,1> の半環で表す。数1
は、An+1,n *An,n-1 *…*A1,0 によって、P(s
n+1|s0) がモデル化できることを表している。したが
って、oを音声パラメータ列、ωを認識対象シンボル列
とすると、一般に音声認識問題は数2のように表され
る。
A conditional probability P (s i is given by WFST A i, i-1 where s i is an input symbol string and s i-1 is an output symbol string.
| S i-1 ) is modeled. At this time, the weight is <
{X ∈R | 0 ≤x ≤1}, +, ·, 0,1> or <{x ∈
R | 0 ≦ x ≦ 1}, max, ·, 0,1> Number 1
Is P (s) by A n + 1, n * A n, n-1 *... A 1,0
n + 1 | s 0 ) can be modeled. Therefore, if o is a speech parameter sequence and ω is a symbol sequence to be recognized, a speech recognition problem is generally expressed as in Equation 2.

【0031】[0031]

【数2】 (Equation 2)

【0032】結局、認識候補の探索は、AO,Sn*…A
s2,s1 *As1, ω*Aω, ωにおいて、ある入力列oに
対するW(o,ω)値を最大にするようなωを探索する
問題として定式化できる。
After all, the search for the recognition candidate is performed by A O, Sn *.
In s2, s1 * A s1, ω * Aω , ω, it can be formulated as a problem of searching for ω that maximizes the W (o, ω) value for a certain input sequence o.

【0033】ここで重要なことは、音声認識に必要な各
モデルを、条件付き確率を表すWFSTとしてモデル化
できれば、結合律が成り立つ合成演算によって自由に組
み合わせることができるという点である。この合成演算
の有用性から、条件付き確率を表すWFSTモデルを自
動学習する汎用的な手法が切望される。実際これまでも
音響モデルの分野では、環境依存離散HMMを用いてこ
のようなWFSTを自動学習することが行われてきた。
しかし、HMMの出力記号は独立性を仮定しているた
め、より一般的な変換モデルとするためには入出力とも
に環境を考慮するモデル化が望まれる。次に、そのよう
なWFSTを自動学習する手法について説明する。
What is important here is that if the models required for speech recognition can be modeled as WFSTs representing conditional probabilities, they can be freely combined by a synthesis operation that satisfies the coupling rule. Because of the usefulness of this combination operation, a general-purpose method for automatically learning a WFST model representing a conditional probability is desired. In fact, in the field of acoustic models, automatic learning of such a WFST has been performed using an environment-dependent discrete HMM.
However, since the output symbols of the HMM are assumed to be independent, it is desired to model the input and output in consideration of the environment in order to obtain a more general conversion model. Next, a method for automatically learning such a WFST will be described.

【0034】〔2〕WFSTの学習の基本的な手法[2] Basic method of learning WFST

【0035】トランデューサは別の見方をするとΣ=Σ
in×Σout の要素を入力記号とする有限状態オートマン
と見ることもできる。提案する自動学習法の基本的な考
えは、Σ=Σin×Σout ( ただし、ε ∈Σin, ∈Σ
out ) の要素をn- gramとしてモデル化しようとい
うものである。つまり学習データの入出力記号を、あら
かじめDPマッチングなどを用いて、高々記号一つに対
応づけ、対応づけられた入出力記号の組の列をn- gr
amという確率的有限状態オートマンとしてモデル化す
る。このようにして、同時確率P(sin,sout ) (sin∈Σ
in , sout ∈Σou t ) を出力するWFSTを学習するこ
とができる。
From another point of view, the transducer is Σ = Σ
It can also be seen as a finite state automan that uses the elements of in × Σ out as input symbols. The basic idea of the proposed automatic learning method is Σ = Σ in × Σ out (where ε ∈Σ in , ε
out ) are modeled as n-grams. That is, the input / output symbols of the learning data are associated in advance with at most one symbol using DP matching or the like, and the sequence of the set of the associated input / output symbols is represented by n-gr.
am is modeled as a stochastic finite state automan. In this way, the joint probability P (s in , s out ) (s in ∈Σ
in, it s out ∈Σ ou t) can be learned WFST to output a.

【0036】また、n- gramのnを固定にすること
は、性能に対するパラメータ数の関係としては最適なも
のとはいえない。そこで、本学習法では、文脈木を用い
た可変長n- gramとしてモデル化する方法を採用し
た。
Further, fixing n of n-gram is not optimal as the relation between the number of parameters and the performance. Therefore, in the present learning method, a method of modeling as a variable length n-gram using a context tree is adopted.

【0037】条件付き確率P(sin| sout ) のWFST
は、P(sin,sout ) のWFSTと1/P(sout ) のWF
STの合成として求められる。ただしこの条件付き確率
WFSTの合成は、一般に計算コストが膨大であるばか
りか、合成されるWFSTも巨大なものになりがちであ
る。そこで、次の〔3〕では、条件付き確率のことを考
慮した文脈木の作成方法についても説明する。
WFST of | (s out s in) [0037] conditional probability P
Are the WFST of P (s in , s out ) and the WF of 1 / P (s out )
It is required as a composition of ST. However, the synthesis of this conditional probability WFST generally involves not only a huge calculation cost but also a large WFST to be synthesized. Therefore, in the following [3], a method of creating a context tree in consideration of the conditional probability will also be described.

【0038】本手法で考慮する文脈の長さは、入力記号
列と出力記号列の両方で同じである。当然ながら、本手
法の発展形として両者で異なる長さの文脈を許すモデル
も考えられるであろう。この場合、入力記号列に関して
文脈を考慮しないモデルは、左環境依存の離散HMMと
等価になる。また、入出力記号の対応づけは以降におい
て、m:n(0≦m≦1,0≦n≦1)として説明する
が、手法自体はm,nのそれぞれの最大値が任意の場合
に拡張可能である。対応づけの結果生まれるεについて
は、この明細書の中では普通の記号と同等に扱う。当然
ながら、n- gramの文脈からεを削除して考えるな
どの派生法も考えられよう。
The length of the context considered in the present method is the same for both the input symbol string and the output symbol string. Of course, a model that allows for different length contexts could be considered as an extension of this method. In this case, a model that does not consider the context of an input symbol string is equivalent to a left-environment-dependent discrete HMM. In the following, the correspondence between input and output symbols will be described as m: n (0 ≦ m ≦ 1, 0 ≦ n ≦ 1). However, the method itself is extended to the case where the maximum values of m and n are arbitrary. It is possible. The ε generated as a result of the association is treated in this specification as equivalent to a normal symbol. Naturally, a derivation method such as removing ε from the context of n-gram may be considered.

【0039】〔3〕文脈木を用いたモデル化 文脈木はn- gramの文脈を階層的に管理した木であ
る。文脈木Tの枝は、Σの要素でラベルづけされてい
る。ノードには文脈を表すラベルがつくが、それは次の
ように再帰的に定義される。
[3] Modeling Using Context Tree The context tree is a tree in which n-gram contexts are hierarchically managed. The branches of the context tree T are labeled with elements of Σ. Nodes are labeled with contextual labels, which are defined recursively as follows:

【0040】(a)根ノードには空の文脈を表すεのラ
ベルがつく。 (b)親から子供のノードに至る枝のラベルσを、親ノ
ードのラベルsの前に継ぎ足したラベルσsが、子供の
ノードにつく。
(A) The root node is labeled with ε representing an empty context. (B) The label σs obtained by adding the label σ of the branch from the parent to the child node before the label s of the parent node is added to the child node.

【0041】各ノードsに、ΣU T (σ|s)=1
(ただし、U=σ∈Σ)であるような確率PT (σ|
s)が定義されている。このとき、文脈木Tが生成する
文字列ω=ω12,…, ωn に対する確率は、数3で与
えられる。
[0041] Each node s, Σ U P T (σ | s) = 1
(Where U = σ∈Σ), the probability P T (σ |
s) is defined. At this time, the probability of the character string ω = ω 1 , ω 2 ,..., Ω n generated by the context tree T is given by Expression 3.

【0042】[0042]

【数3】 (Equation 3)

【0043】ただし、s0 =ε,si (i>0)はω1,
…, ωi の接尾辞のうちTの一番深いノードのラベルに
一致するものである。PT ( σ|s)の推定量として
は、フロアリング値αを仮定した数4を用いた。
Where s 0 = ε, s i (i> 0) is equal to ω 1 ,
.., Ω i suffixes match the label of the deepest node of T. As the estimation amount of P T (σ | s), Equation 4 assuming the flooring value α was used.

【0044】[0044]

【数4】 (Equation 4)

【0045】ここで、nT ( σ|s)は、文脈sに続い
てσが現れた回数を示す。文脈木を最適な形に枝刈りす
るのには、数5の利得関数を用いることができる(上記
文献6、8参照)。
Here, n T (σ | s) indicates the number of times σ appears after the context s. The pruning of the context tree in an optimal form can be performed using the gain function of Equation 5 (see Documents 6 and 8).

【0046】[0046]

【数5】 (Equation 5)

【0047】これは、親ノードsのかわりに子ノードσ
sを用いた場合に得られる利得を表したものである。図
1に示すように、この利得関数を用いて、ある定数Cに
対して、Δ(s) ≧Cを満たすような一番深いノードsよ
り先の枝を切り捨てることができる。
This is because, instead of the parent node s, the child node σ
It shows the gain obtained when s is used. As shown in FIG. 1, using this gain function, it is possible to cut off a branch ahead of the deepest node s that satisfies Δ (s) ≧ C for a certain constant C.

【0048】図2を参照して、文脈木は、次のようにし
て確率的有限状態オートマンに変換することができる。
Referring to FIG. 2, the context tree can be transformed into a stochastic finite state automan as follows.

【0049】(1)次の(i) 〜(ii)の条件を満たすよう
に親ノードを順次複製して子ノードをつくる。このと
き、子ノードσsのPT ( wi |σs)は、親ノードs
のPT (wi |s)と同じにする。 (i) すべての葉ノードの全ての接頭辞について、これを
ラベルとするノードが木の中に存在する。 (ii)すべてのノードについて兄弟ノードがすべてそろっ
ている。
(1) A parent node is sequentially copied so as to create a child node so as to satisfy the following conditions (i) to (ii). At this time, P T (w i | σs) of the child node s is equal to the parent node s
P T (w i | s). (i) For all prefixes of all leaf nodes, there is a node in the tree labeled with this. (ii) All sibling nodes are present for all nodes.

【0050】(2)文脈木のノードをWFSTの状態に
対応させる。
(2) The nodes of the context tree are made to correspond to the state of WFST.

【0051】(3)すべての葉ノードs、すべてのσ∈
Σに対して、sσの接尾辞である葉ノードs’が一意に
決まる。sからs’に対し、入出力記号がσで重みがP
T ( σ|s)であるような遷移を作成する。
(3) All leaf nodes s, all σ∈
For Σ, a leaf node s ′, which is a suffix of sσ, is uniquely determined. From s to s', the input / output symbol is σ and the weight is P
Create a transition such that T (σ | s).

【0052】sin∈Σ* in,sout ∈Σ* OUT であるよ
うなPT ( sin, sout ) を出力するWFSTは、Σを
( Σin∪{ε}) ×( Σout ∪{ε}) とすることで自
動学習できることがわかった。そこで次に、PT ( sin
|sout ) を出力するWFSTの構成方法について述べ
る。
A WFST that outputs P T (s in , s out ) such that s in ∈Σ * in , s out ∈Σ * OUT is
in ∪ {ε}) was found to be auto-learning by a × (Σ out ∪ {ε} ). Then, P T (s in
| S out ) will be described.

【0053】out:Σn →( Σout ∪{ε}) n を、
Σn からその出力記号列への写像だとする。
Out: Σ n → (Σ out ∪ {ε}) n ,
Let と する be a mapping from n to its output symbol sequence.

【0054】(1)strain ∈Σ* をTの学習データだ
とすると、out( strain ) を用いて、Tout を学習
する。
(1) Assuming that s train学習* is learning data of T, T out is learned using out (s train ).

【0055】(2)ΔT (s) ≧CかつΔTout (out(s))
≧Cを満たさないときに、TとToutの両方を枝がりす
る。
(2) Δ T (s) ≧ C and Δ Tout (out (s))
When ≧ C is not satisfied, both T and T out are branched.

【0056】(3)同様にTとTout の両方を拡張し
て、子ノードをつくる。
(3) Similarly, both T and T out are extended to create a child node.

【0057】(4)同様に遷移を作成するが、遷移の重
みとしてPT (σ|s)/PTout (out(σ) |out(s))
を用いる。
(4) A transition is created in the same manner, but P T (σ | s) / P Tout (out (σ) | out (s)) is used as the weight of the transition.
Is used.

【0058】このようにして、Tから得られるWFST
とTout から得られるWFST( ただし遷移の重みを1
/PT ( sout ) としたもの) を、εを一般の記号とみ
なして合成したWFSTが得られる。
Thus, the WFST obtained from T
And WFST obtained from T out (where the weight of the transition is 1
/ P T (s out )) is regarded as a general symbol, and a WFST is obtained.

【0059】〔4〕発音変形モデルの自動学習[4] Automatic learning of pronunciation deformation model

【0060】音声認識の分野において、HMMに基づく
音響モデルやn−gramに基づく言語モデルなど、統
計モデルの自動学習はかなりの成功を納めている。しか
し、単語の発音をモデル化する発音辞書の作成は、依然
として人間のもつ言語依存の知識に大きく頼っているの
が普通である。作成作業は非常に労力がかかるため、何
らかの自動化が望まれる。特にシステムを多言語化しよ
うとした場合は、深刻な問題である。
In the field of speech recognition, automatic learning of statistical models such as acoustic models based on HMMs and language models based on n-grams has achieved considerable success. However, the creation of pronunciation dictionaries that model the pronunciation of words usually still relies heavily on human language-dependent knowledge. Since the creation work is very labor-intensive, some automation is desired. This is a serious problem especially when trying to make the system multilingual.

【0061】この目標への第一歩として、提案手法を用
いて、音素列pを代表的な発音を表す音素列p’に変換
する発音変形モデルの自動学習を試みる。ここでは、単
語の振り仮名から自動的に作成される代表的な発音辞書
と、その代表的な発音からの発音変形モデルの組み合わ
せで単語の発音がモデル化できると仮定している。
As a first step toward this goal, an attempt is made to automatically learn a pronunciation transformation model for converting a phoneme string p into a phoneme string p ′ representing a typical pronunciation using the proposed method. Here, it is assumed that the pronunciation of a word can be modeled by a combination of a typical pronunciation dictionary automatically created from the kana of a word and a pronunciation transformation model from the representative pronunciation.

【0062】実際、ニューラルネットによって、この発
音変形をモデル化し、単語毎に発音辞書へ発音を追加す
ることで、認識性能が向上することも確かめられている
(文献9参照)。
In fact, it has been confirmed that the recognition performance is improved by modeling the pronunciation deformation by a neural network and adding pronunciation to the pronunciation dictionary for each word (see Reference 9).

【0063】文献9: Toshiaki Fukada, Takayoshi Yo
shimura and Yoshinori Sagisaka,"Automatic Generati
on of Multiple Pronunciations based on Neural Netw
orks", Speech Communication, Vol. 27, No. 1, pp.63
-73, 1999.
Reference 9: Toshiaki Fukada, Takayoshi Yo
shimura and Yoshinori Sagisaka, "Automatic Generati
on of Multiple Pronunciations based on Neural Netw
orks ", Speech Communication, Vol. 27, No. 1, pp. 63
-73, 1999.

【0064】〔4−1〕実験内容 上記〔1〕で説明した定式化に基づいて、音響モデル、
言語モデル、発音辞書、発音変形モデルの関係を表現す
ることを試みる。pを音素列、p’を代表的な発音を表
す音素列、ωを単語列としたとき、連続単語認識の問題
は数6で表される。
[4-1] Content of Experiment Based on the formulation described in the above [1], an acoustic model,
We try to express the relationship between language models, pronunciation dictionaries, and pronunciation transformation models. When p is a phoneme sequence, p ′ is a phoneme sequence representing a representative pronunciation, and ω is a word sequence, the problem of continuous word recognition is expressed by Equation 6.

【0065】[0065]

【数6】 (Equation 6)

【0066】さらに、重みの和をmaxで定義すること
で、数7になる。
Further, by defining the sum of the weights by max, the following equation (7) is obtained.

【0067】[0067]

【数7】 (Equation 7)

【0068】P( o|p)は音響モデル、P( p|
p’)は発音変形モデル、P( p’|ω)は代表発音辞
書、P(ω)は言語モデルを表す。
P (o | p) is an acoustic model, and P (p |
p ′) represents a pronunciation transformation model, P (p ′ | ω) represents a representative pronunciation dictionary, and P (ω) represents a language model.

【0069】ここでは、発音変形モデルP( p|p’)
の評価のために、より単純化した数8、数9で表される
二つの実験を行う。
Here, the pronunciation transformation model P (p | p ')
For the evaluation of, two experiments represented by simplified equations 8 and 9 are performed.

【0070】[0070]

【数8】 (Equation 8)

【0071】[0071]

【数9】 (Equation 9)

【0072】数8で表される実験は、音素書き起こしを
代表的な発音に変換する実験である。数9で表される実
験は、音声を代表的な発音として音声認識するものであ
る。
The experiment represented by Expression 8 is an experiment in which a phonetic transcription is converted into a typical pronunciation. The experiment represented by Expression 9 is for speech recognition using speech as a representative pronunciation.

【0073】〔4−2〕実験条件 代表的な発音は、各単語の振り仮名から規則的に生成し
た。実際の発音では長母音は母音を二つに続けることで
表現するが、ゆれを吸収するために代表的な発音では長
母音と短母音を区別せず短母音で代表化した。
[4-2] Experimental Conditions Representative pronunciations were regularly generated from the pseudonym of each word. In actual pronunciation, long vowels are expressed by continuing two vowels, but in order to absorb fluctuations, typical pronunciations are represented by short vowels without distinguishing between long and short vowels.

【0074】また、形態素境界をまたがない/ou/,
/ei/についてもそれぞれ/o/,/e/で代表化し
た。実際の発音はポーズを表す特殊な音素を含むが、代
表的な発音はこれを含まないものとする。学習データの
ための二つの音素列の間の対応づけには、DPマッチン
グを用いた。
Further, the signal does not cross the morpheme boundary / ou /,
/ Ei / was also represented by / o / and / e /, respectively. The actual pronunciation includes a special phoneme indicating a pause, but the typical pronunciation does not include this. DP matching was used for the correspondence between the two phoneme strings for the learning data.

【0075】図3に「えっとー、エキストラベットをお
願いします。」という発話の音素対応付けの例を示す。
図3の下段は実際の発音の音素列(入力記号列p)を、
上段が代表的な発音を表す音素列(出力記号列p’)を
示している。
FIG. 3 shows an example of phoneme correspondence of the utterance "Um, please give me an extra bet."
The lower part of FIG. 3 shows the phoneme sequence (input symbol sequence p) of the actual pronunciation,
The upper row shows a phoneme string (output symbol string p ′) representing a typical pronunciation.

【0076】ATR旅行会話データベース(文献10参
照)中の532発話をテストセットに、それを含まない
6418発話を学習セットに設定した。言い間違いが存
在する発話は、正解単語列が音声データや音素書き起こ
しと整合しないため、これを含まないようにテストセッ
ト、学習セットを作成した。
In the ATR travel conversation database (see Reference 10), 532 utterances were set as a test set, and 6418 utterances not including the 532 utterances were set as a learning set. The test set and the learning set were created so that the utterance in which the misstatement exists does not include the correct word string because it does not match the speech data or the phoneme transcription.

【0077】文献10:Toshiyuki Takezawa, Tsuyoshi
Morimoto and Yoshinori Sagisaka, "Speech and Lang
uage Databases for Speech Translation Research in
ATR", First International Workshop on EALREW (Orie
ntal COCOSDA), pp.148-155,1998.
Reference 10: Toshiyuki Takezawa, Tsuyoshi
Morimoto and Yoshinori Sagisaka, "Speech and Lang
uage Databases for Speech Translation Research in
ATR ", First International Workshop on EALREW (Orie
ntal COCOSDA), pp.148-155,1998.

【0078】P(p’)は文脈木を使った可変長n−g
ram(n≦3,ΔT ≦1000)として作成した。P
(p|p’)は、二種類の学習データを用いて作成し
た。一つは、「正解代表音素列×音素書き起こし(phone
me transcription) 」の対応づけデータから、もう一つ
は「正解代表音素列×音素タイプライタ(phonetic type
writer) の一位認識結果」の対応づけデータを用いた学
習を行った。どちらの場合も、ΔT ≦1000で文脈木
を枝刈りした。
P (p ') is a variable length ng using a context tree
ram (n ≦ 3, Δ T ≦ 1000) was created as. P
(P | p ') was created using two types of learning data. One is `` correct representative phoneme sequence x phoneme transcription (phone
me transcription) ”, and the other is“ correct representative phoneme sequence × phoneme typewriter (phonetic type
writer) 's first-order recognition result ". In both cases, the pruning context tree in delta T ≦ 1000.

【0079】音素タイプライタでは、言語モデルに音素
bigramを用いた。この言語モデルと音響モデルは上述の
532発話からなるテストセットを用いて学習したもの
である。したがって、P(p|p’)の学習に用いるの
はクローズドな認識結果( 音素認識精度91.7%)で
ある。また、上記数9の認識実験は、音素タイプライタ
の認識結果を再スコアづけする方法で行った。
In a phoneme typewriter, a phoneme is added to a language model.
Bigram was used. The language model and the acoustic model are learned using the test set including the 532 utterances described above. Therefore, it is the closed recognition result (phoneme recognition accuracy of 91.7%) that is used for learning P (p | p ′). Further, the recognition experiment of Expression 9 was performed by a method of rescoring the recognition result of the phoneme typewriter.

【0080】〔4−3〕実験結果 表1に実験結果を示す。[4-3] Experimental Results Table 1 shows the experimental results.

【0081】[0081]

【表1】 [Table 1]

【0082】学習条件(training cond.)は、モデル学習
に音素書き起こし(transcription)を使ったのか、それ
とも音素タイプライタ(typewrite) を使ったのかを示
す。テスト条件(test cond.)は、上記数8の音素書き起
こしの発音変換実験(transcription) なのか、それとも
上記数9の認識実験(typewriter)なのかを示す。
The training condition (training cond.) Indicates whether a phoneme transcription (transcription) or a phoneme typewriter (typewrite) was used for model learning. The test condition (test cond.) Indicates whether it is a phonetic transcription transcription experiment (transcription) of the above equation (8) or a recognition experiment (typewriter) of the above equation (9).

【0083】第1カラムのnはn−gramの次数を表
す。表中の数字は、代表的な音素列への変換誤り率(Err
or Rate = 100 ×(Ins+Del +Sub)/UtteranceLength)
である。nの最大値を2より増やしても改善は大きくな
いが、それでも学習条件と実験条件のあらゆる組み合わ
せにおいて、nが増加するにしたがってモデルの性能が
単調に向上することが確かめられた。n=1は全く文脈
を考慮しない場合であり、コンフュージョンマトリクス
に相当する。それと比較してn≦3では最大45%の改
善率が得られた。
In the first column, n represents the order of n-gram. The numbers in the table indicate the conversion error rate (Err
or Rate = 100 × (Ins + Del + Sub) / UtteranceLength)
It is. Even if the maximum value of n is increased beyond 2, the improvement is not large, but it has been confirmed that the performance of the model monotonically improves as n increases in any combination of learning conditions and experimental conditions. The case where n = 1 does not consider the context at all, and corresponds to a confusion matrix. In comparison, when n ≦ 3, a maximum improvement of 45% was obtained.

【0084】〔5〕むすび あらかじめ対応づけられら入出力記号ペアの列からWF
STを自動学習する手法を提案した。学習されるモデル
は、文脈木を使って可変長のn−gramとして構成さ
れるため、パラメータ数の最適化をはかることができ
る。本モデルは、入力記号列の文脈だけでなく、出力記
号の文脈を考慮することができるため、文脈依存離散H
MMよりも強力な変換モデルとなっている。
[5] Conclusion The WF is obtained from the input / output symbol pair string
We proposed a method to learn ST automatically. The model to be learned is configured as a variable-length n-gram using a context tree, so that the number of parameters can be optimized. Since the present model can consider not only the context of the input symbol string but also the context of the output symbol, the context-dependent discrete H
It is a more powerful conversion model than MM.

【0085】代表的な発音からの発音変形という問題に
本手法を適用した実験により、可変長の文脈を考慮する
ことによって、文脈を全く考慮しないコンフュージョン
マトリクスでは不可能な記号列変換ができることを示し
た。
Experiments applying the present method to the problem of pronunciation deformation from typical pronunciation show that by considering variable-length contexts, it is possible to perform symbol string conversion that is impossible with a confusion matrix that does not consider contexts at all. Indicated.

【0086】本発明は、目的に適した入出力記号ペアの
対応付けの手法を別途開発することによって、音声認識
以外のにも様々な利用が可能である。例えば、形態素解
析、タグ付きデータ変換、それから非常に似た言語間の
機械翻訳などにも利用可能である。
The present invention can be used for various purposes other than speech recognition by separately developing a method of associating input / output symbol pairs suitable for the purpose. For example, it can be used for morphological analysis, data conversion with tags, and machine translation between very similar languages.

【0087】[0087]

【発明の効果】この発明によれば、入力記号の文脈だけ
でなく、出力記号の文脈についても考慮したトランスデ
ューサが得られるようになる。
According to the present invention, it is possible to obtain a transducer that takes into account not only the context of input symbols but also the context of output symbols.

【図面の簡単な説明】[Brief description of the drawings]

【図1】文脈木の枝刈りを説明するための模式図であ
る。
FIG. 1 is a schematic diagram illustrating pruning of a context tree.

【図2】文脈木の拡張と遷移の追加を説明するための模
式図である。
FIG. 2 is a schematic diagram for explaining expansion of a context tree and addition of transitions.

【図3】学習データである入出力記号の対応付けの例を
示す模式図である。
FIG. 3 is a schematic diagram showing an example of correspondence between input and output symbols as learning data.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 入力記号列を出力記号列に変換するトラ
ンスデューサの学習方法であって、 予め対応づけられた入出力記号の組を学習データとして
用い、対応づけられた入出力記号の組をn−gramと
してモデル化することを特徴とする入力記号列を出力記
号列に変換するトランスデューサの学習方法。
1. A learning method of a transducer for converting an input symbol string into an output symbol string, wherein a set of input / output symbols associated in advance is used as learning data, and a set of associated input / output symbols is n. A transducer learning method for converting an input symbol string into an output symbol string, characterized by being modeled as a gram.
【請求項2】 対応づけられた入出力記号の組を文脈木
を使って可変長のn−gramとしてモデル化すること
を特徴とする請求項1に記載のトランスデューサの学習
方法。
2. The transducer learning method according to claim 1, wherein a set of input / output symbols associated with each other is modeled as a variable-length n-gram using a context tree.
【請求項3】 入力記号列を出力記号列に変換するトラ
ンスデューサの学習プログラムを記録したコンピュータ
読み取り可能な記録媒体であって、 予め対応づけられた入出力記号の組を学習データとして
用い、対応づけられた入出力記号の組の列をn−gra
mとしてモデル化するための処理をコンピュータに実行
させるための学習プログラムを記録したコンピュータ読
み取り可能な記録媒体。
3. A computer-readable recording medium recording a learning program for a transducer for converting an input symbol string into an output symbol string, wherein a set of input / output symbols associated in advance is used as learning data. The sequence of the set of input / output symbols
A computer-readable recording medium in which a learning program for causing a computer to execute a process for modeling as m is recorded.
JP2000133943A 2000-05-02 2000-05-02 Learning method of transducer transducing input symbol series into output symbol series, and computer-readable recording medium with stored learning program of transducer Pending JP2001312294A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000133943A JP2001312294A (en) 2000-05-02 2000-05-02 Learning method of transducer transducing input symbol series into output symbol series, and computer-readable recording medium with stored learning program of transducer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000133943A JP2001312294A (en) 2000-05-02 2000-05-02 Learning method of transducer transducing input symbol series into output symbol series, and computer-readable recording medium with stored learning program of transducer

Publications (1)

Publication Number Publication Date
JP2001312294A true JP2001312294A (en) 2001-11-09

Family

ID=18642323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000133943A Pending JP2001312294A (en) 2000-05-02 2000-05-02 Learning method of transducer transducing input symbol series into output symbol series, and computer-readable recording medium with stored learning program of transducer

Country Status (1)

Country Link
JP (1) JP2001312294A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011164124A (en) * 2010-02-04 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> Acoustic model parameter learning method based on linear classification model and device, method and device for creating finite state converter with phoneme weighting, and program therefor
JP2011180862A (en) * 2010-03-02 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> Method and device of extracting term, and program
CN102439540A (en) * 2009-03-19 2012-05-02 谷歌股份有限公司 Input method editor
US8704761B2 (en) 2009-03-19 2014-04-22 Google Inc. Input method editor
JP2015036835A (en) * 2013-08-12 2015-02-23 日本電信電話株式会社 Device, method, and program for estimating structure of finite state transducer
CN115273824A (en) * 2022-05-18 2022-11-01 江苏苏云信息科技有限公司 English end-to-end speech recognition system online decoding method fused with word N-gram language model

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439540A (en) * 2009-03-19 2012-05-02 谷歌股份有限公司 Input method editor
US8704761B2 (en) 2009-03-19 2014-04-22 Google Inc. Input method editor
CN102439540B (en) * 2009-03-19 2015-04-08 谷歌股份有限公司 Input method editor
US9026426B2 (en) 2009-03-19 2015-05-05 Google Inc. Input method editor
JP2011164124A (en) * 2010-02-04 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> Acoustic model parameter learning method based on linear classification model and device, method and device for creating finite state converter with phoneme weighting, and program therefor
JP2011180862A (en) * 2010-03-02 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> Method and device of extracting term, and program
JP2015036835A (en) * 2013-08-12 2015-02-23 日本電信電話株式会社 Device, method, and program for estimating structure of finite state transducer
CN115273824A (en) * 2022-05-18 2022-11-01 江苏苏云信息科技有限公司 English end-to-end speech recognition system online decoding method fused with word N-gram language model

Similar Documents

Publication Publication Date Title
CN112712804B (en) Speech recognition method, system, medium, computer device, terminal and application
JP4215418B2 (en) Word prediction method, speech recognition method, speech recognition apparatus and program using the method
JP5040909B2 (en) Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
US7603267B2 (en) Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
CN107705787A (en) A kind of audio recognition method and device
US20090150139A1 (en) Method and apparatus for translating a speech
JPH08278794A (en) Speech recognition device and its method and phonetic translation device
JPH07334368A (en) Knowledge base system and recognition system
JP2002091477A (en) Voice recognition system, voice recognition device, acoustic model control server, language model control server, voice recognition method and computer readable recording medium which records voice recognition program
WO2004034378A1 (en) Language model creation/accumulation device, speech recognition device, language model creation method, and speech recognition method
US7401019B2 (en) Phonetic fragment search in speech data
WO2007069762A1 (en) Similar sentence search method, similar sentence search system, and similar sentence search program
US20050197838A1 (en) Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously
KR100930714B1 (en) Voice recognition device and method
JP2001312294A (en) Learning method of transducer transducing input symbol series into output symbol series, and computer-readable recording medium with stored learning program of transducer
CN110413779B (en) Word vector training method, system and medium for power industry
JP6772394B1 (en) Information learning device, information processing device, information learning method, information processing method and program
JP5590549B2 (en) Voice search apparatus and voice search method
Potamianos et al. Statistical recursive finite state machine parsing for speech understanding.
JP4733436B2 (en) Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium
JP3950957B2 (en) Language processing apparatus and method
JP2001142877A (en) Device and method for making alphabet character correspond to japanese reading, device and method for translating alphabet word and recording medium with recorded processing program therefor
JP2000267693A (en) Voice processor and index preparation device
Pilar Knowledge-driven subword grammar modeling for automatic speech recognition in tamil and kannada