JP6995967B2 - 生成装置、認識システム、および、有限状態トランスデューサの生成方法 - Google Patents
生成装置、認識システム、および、有限状態トランスデューサの生成方法 Download PDFInfo
- Publication number
- JP6995967B2 JP6995967B2 JP2020203719A JP2020203719A JP6995967B2 JP 6995967 B2 JP6995967 B2 JP 6995967B2 JP 2020203719 A JP2020203719 A JP 2020203719A JP 2020203719 A JP2020203719 A JP 2020203719A JP 6995967 B2 JP6995967 B2 JP 6995967B2
- Authority
- JP
- Japan
- Prior art keywords
- symbol
- transition
- phonetic
- input
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
WFSTとは、遷移に入力記号、出力記号、および、重みが割り当てられている有限状態オートマトンである。発音記号とは、発音を表す記号であって、WFST Lの入力記号として用いることができる記号である。例えば、音素や音節が発音記号に該当する。ゆっくり発話できる発音記号とは、音声認識装置が認識する言語において、ゆっくり発話できる発音に対応する発音記号である。例えば、母音や撥音が、ゆっくり発話できる発音記号に該当する。
・隠れマルコフモデル(HMM)などの音響モデルの構造を表すWFST H
・コンテキスト依存音素をコンテキスト非依存音素へ変換するWFST C
・コンテキスト非依存音素を単語へ変換するWFST L
・単語の並びを表す言語モデルであるWFST G
(T1)特定記号以外の発音記号(第2発音記号)を入力とする遷移(第2遷移)
(T2)特定記号または無音を表す発音記号(第3発音記号)を入力とする遷移(第3遷移)
(1)単語wを出力し、wの発音記号列pを入力とする経路πを含む。ここで、pのi番目の発音piがゆっくり発話できる発音記号(第1発音記号)であるとする。
(2)πを構成する遷移のうち、入力記号がpiである遷移(第1遷移)の次状態q(第1状態)から出て行く遷移は少なくとも次の2つの遷移を含む。
(T1’)入力記号がpi+1の遷移(第2遷移)
(T2’)入力記号がxの遷移(第3遷移)
ここでxはpiまたは無音を表す発音記号である。
図2は、ゆっくり発話に対応する最も単純なLの例を示す図である。説明を簡単にするため、発音記号列が「relm」である単語「realm」のみを表すLを例示している。ゆっくり発話できる発音記号は「e」であるとしている。この例での残りの発音記号「r」、「l」、「m」は、ゆっくり発話する発音記号とはしていない。図中の丸はWFSTの状態を表し、矢印は遷移を表す。太線の丸は初期状態を表し、二重丸は終了状態を表す。丸の中の数字は状態番号を表す。「:」の左側が入力記号を表し、「:」と「/」の間が出力記号を表し、「/」の右側が重みを表す。状態番号が2の状態の自己遷移の重み「w1」は、ゆっくり発話が認識された時の重みで、実数である。重みが小さいほど良い経路であるとすると、「w1」の値が大きいほどゆっくり発話は認識されにくくなる。また、ゆっくりと発話されるほど認識されにくくなる。例えば、このLに入力記号列「relm」が入力されると、単語「realm」が出力され、その重みは0となる。少しゆっくりと発話した結果、「reelm」が入力されると、重みはw1となる。さらにゆっくりと発話した結果、「reeelm」が入力されると、重みは2w1となる。
第1発音記号:「e」
第1遷移:状態番号が1の状態から状態番号が2の状態への遷移
第1状態:状態番号が2の状態
第2発音記号:「l」
第2遷移:状態番号が2の状態から状態番号が3の状態への遷移
第3発音記号:「e」
第3遷移:状態番号が2の状態から状態番号が2の状態への自己遷移
図4は、ゆっくり発話として認識されたときにw1とは異なる重みw2を適用することができるように構成したLの例を示す図である。図2の構成では、w1が0より大きい場合、ゆっくり発話すればするほど自己遷移に付与されたw1の影響を受け、当該単語は認識されにくくなる。一方、図4の構成で、w1を0とし、w2を0以外の値にすれば、ゆっくり発話に対して重みw2のみが適用され、少しゆっくりと発話した場合と、とてもゆっくりと発話した場合とで重みの差が生じなくなる。このようにすることで、ゆっくり発話でない発話とゆっくり発話とを区別しつつ、ゆっくり発話の発話速度への依存をなくすことができる。
(T3)第1発音記号または第3発音記号を入力とし、第2状態に遷移する遷移(第4遷移)
(T4)第2発音記号を入力とする遷移(第5遷移)
第1発音記号:「e」
第1遷移:状態番号が1の状態から状態番号が2の状態への遷移
第1状態:状態番号が2の状態
第2発音記号:「l」
第2遷移:状態番号が2の状態から状態番号が4の状態への遷移
第3発音記号:「e」
第3遷移:状態番号が2の状態から状態番号が3の状態への遷移
第2状態:状態番号が3の状態
第4遷移:状態番号が3の状態から状態番号が3の状態への自己遷移
第5遷移:状態番号が3の状態から状態番号が4の状態への遷移
構成1と構成2は、ゆっくり発話できる発音を伸ばす場合(長音化する場合)のゆっくり発話に対応する構成例である。ゆっくり発話の種類はこれに限られるものではない。例えば、音素や音節を区切って発話することでゆっくり発話とすることもできる。例えば日本語では、音節単位に区切って発話することができる。言い換えると、音節の間に無音を挿入するということである。このような発話に対応するためには、ゆっくり発話できる発音記号の後に、同じ発音記号を入力記号とする遷移を追加するのではなく、無音を表す発音記号「sil」を入力記号とする遷移を追加すればよい。図2であれば、状態番号が2の状態の自己遷移の入力記号を「e」にするのではなく「sil」にする。図3であれば、状態番号が2の状態と状態番号が6の状態の自己遷移の入力記号を「i」ではなく「sil」にする。図4であれば、状態番号が3の状態への遷移の入力記号と、状態番号が3の状態の自己遷移の入力記号を「e」から「sil」に置き換える。
発音記号として音素より長い単位を選択することもできる。例えば、発音記号として音節を用いることができる。この場合、ゆっくり発話に対応できる音節は、ゆっくり発音できる音素が最初または最後にくる音節となる。音節xの最初の音素がゆっくり発音できる音素であれば、その音素のみからなる音節が音節xの前に繰り返し現れてもよいようにLを構成する。同様に、音節xの最後の音素がゆっくり発音できる音素であれば、その音素のみからなる音節が音節xの後に繰り返し現れてもよいようにLを構成する。ここで、音節は音素の組み合わせで表現できるものとしている。つまり、音節は1以上の長さの音素列で表現されるということである。音素列ではなく別の記号や文字で音節を表してもよいが、その場合は、ゆっくり発話できる音節とその音節のうちゆっくり発話できる部分を表す音節とが対応付けられている必要がある。
図9は、構成1の生成方法を表す疑似コードの例を示す図である。図9は、発音記号と単語との対応を表すモデルとして、レキシコンを受け付ける場合の、生成部152によるLの生成方法の例を示す。
2行目では、初期状態をqpに代入する。
3行目は、整数iを1から発音記号列pの長さまで1ずつ増やしながら4行目から10行目を処理することを表す。
4行目では、新しい状態を生成し、それをqnに代入する。
5行目は、iがpの長さと等しいとき6行目を処理することを表す。
6行目では、qnを終了状態とする。すなわち、終了状態の集合Fにqnを追加する。
7行目では、前状態がqp、次状態がqn、入力記号がpi、出力記号がri、および、重みが0の遷移を、遷移の集合Eに追加する。
8行目は、i番目の発音記号piがゆっくり発話できる発音記号であり、かつ、iがpの長さと等しい、または、発音記号piが次の発音記号pi+1とは異なる場合に、9行目を処理することを表す。
9行目では、前状態がqn、次状態がqn、入力記号がpi、出力記号がε、および、重みがw1である自己遷移を、遷移の集合Eに追加する。
10行目では、qnをqpに代入する。
図10は、構成1の生成方法を表す疑似コードの他の例を示す図である。図10は、発音記号と単語との対応を表すモデルとして、従来の方法で生成されたWFST Lなどの既存のLを受け付ける場合の、生成部152によるLの生成方法の例を示す。
2行目は、次の2つの条件をいずれも満たすときに3行目を処理することを表す。1つ目の条件は、eの入力記号がゆっくり発話できる発音記号であることである。2つ目の条件は、eの次の遷移e’の入力記号と異なっているか、または、eの次状態が終了状態であることである。
3行目では、eの次状態に自己遷移を追加する。その遷移の入力記号はeの入力記号であり、出力記号はε、重みはw1である。
4行目では、3行目で作成した遷移をEに追加する。
図11は、構成2の生成方法を表す疑似コードの例を示す図である。図11は、発音記号と単語との対応を表すモデルとして、レキシコンを受け付ける場合の、生成部152によるLの生成方法の例を示す。
1行目は、レキシコンに含まれるすべての2つ組(発音記号列,単語)に対して、2行目から16行目を処理することを表す。
2行目では、状態の集合Qpに初期状態のみから成る集合を代入し、iに1を代入する。
3行目は、iがpの長さ以下の場合に、4行目から16行目を処理することを表す。
4行目では、新しい状態を生成し、それをqnに代入する。
5行目は、iがpの長さと等しいとき6行目を処理することを表す。
6行目では、qnを終了状態とする。すなわち、終了状態の集合Fにqnを追加する。
7行目では、前状態がQpに含まれる状態、次状態がqn、入力記号がpi、出力記号がri、および、重みが0の遷移を、遷移の集合Eに追加する。
8行目では、qpにqnを代入し、qnのみから成る集合をQpに代入する。
9行目は、i番目の発音記号piがゆっくり発話できる発音記号であり、かつ、iがpの長さと等しい、または、発音記号piが次の発音記号pi+1とは異なる場合に、10行目から15行目を処理することを表す。
10行目では、新しい状態を生成し、それをqnに代入する。
11行目では、前状態がqp、次状態がqn、入力記号がpi、出力記号がε、および、重みがw2である遷移と、前状態がqn、次状態がqn、入力記号がpi、出力記号がε、および、重みがw1である自己遷移を、遷移の集合Eに追加する。
12行目は、iがpの長さに等しいとき、13行目を処理し、そうでないとき、15行目を処理することを表す。
13行目では、終了状態の集合Fにqnを追加する。
15行目では、Qpにqnを追加する。
16行目では、iを1増やす。
図12は、構成2の生成方法を表す疑似コードの他の例を示す図である。図12は、発音記号と単語との対応を表すモデルとして、従来の方法で生成されたWFST Lなどの既存のLを受け付ける場合の、生成部152によるLの生成方法の例を示す。
2行目は、eの入力記号がSに含まれていることに加え、eの次状態から出ていく遷移e’の入力記号がeの入力記号と異なる、または、eの次状態が終了状態であるとき、3行目から8行目までを処理することを表す。
3行目では、新しい状態qnを作成する。
4行目では、前状態がeの次状態、次状態がqn、入力記号がeの入力記号、出力記号がε、および、重みがw2である遷移を遷移の集合E’に追加する。さらに、前状態と次状態がqn、入力記号がeの入力記号、出力記号がε、および、重みがw1の自己遷移を遷移の集合E’に追加する。
5行目は、eの次状態が終了状態か否かを判定し、終了状態であれば、6行目に、そうでなければ8行目に処理を進めることを表す。
6行目では、qnを終了状態の集合Fに追加する。
8行目では、前状態がqn、次状態がe’の次状態、入力記号がe’の入力記号、出力記号がε、及び、重みが0である遷移を遷移の集合E’に追加する。e’はeの次状態から出て行く遷移である。
9行目では、4行目と8行目で作成した遷移をEに追加する。
101、102、103、104 変換部
110 合成部
151 受付部
152 生成部
200 音声認識装置
201 フロントエンド
210 デコーダ
212 探索部
Claims (10)
- 1以上の発音記号と単語との対応を表すモデルを受け付ける受付部と、
母音および撥音を含むゆっくり発話できる特定音素を示す予め定められた種類の第1発音記号を入力記号とする第1遷移の遷移先の第1状態から出る遷移として、前記第1遷移の入力記号の一部または全部を表す特定記号以外の第2発音記号を入力記号とする第2遷移と、前記特定記号または無音を表す第3発音記号を入力記号とする第3遷移と、を少なくとも含む第1有限状態トランスデューサを、前記モデルに基づいて生成する生成部と、を備え、
前記第1発音記号は、前記第1有限状態トランスデューサを用いて入力された音声に対応する単語を認識する認識装置に入力される可能性が低い発音記号として予め定められた発音記号を含まない、
生成装置。 - 前記発音記号は、音素であり、
前記特定記号は、前記第1遷移の入力記号である前記特定音素の発音を表す、
請求項1に記載の生成装置。 - 前記発音記号は、1以上の音素を含む音節であり、
前記第1発音記号は、前記特定音素を最後に含む音節であり、
前記特定記号は、前記第1遷移の入力記号に含まれる最後の前記特定音素の発音を表す、
請求項1に記載の生成装置。 - 前記第3遷移の遷移先は前記第1状態である、
請求項1に記載の生成装置。 - 前記生成部は、0より大きい重みを前記第3遷移に付した前記第1有限状態トランスデューサを生成する、
請求項4に記載の生成装置。 - 前記生成部は、前記第3遷移の遷移先である第2状態から出る遷移として、前記第1発音記号または前記第3発音記号を入力とし前記第2状態に遷移する第4遷移と、前記第2発音記号を入力とする第5遷移と、を含む前記第1有限状態トランスデューサを生成する、
請求項1に記載の生成装置。 - 前記第1有限状態トランスデューサと、言語モデルに基づいて生成される第2有限状態トランスデューサと、音響モデルに基づいて生成される第3有限状態トランスデューサと、を合成した第4有限状態トランスデューサを生成する合成部をさらに備える、
請求項1または2に記載の生成装置。 - 前記モデルは、1以上の発音記号と単語との対応を表すレキシコン、または、1以上の発音記号を単語に変換する有限状態トランスデューサである、
請求項1または2に記載の生成装置。 - 生成装置と認識装置とを備える認識システムであって、
前記生成装置は、
1以上の発音記号を単語に変換するモデルを受け付ける受付部と、
母音および撥音を含むゆっくり発話できる特定音素を示す予め定められた種類の第1発音記号を入力記号とする第1遷移の遷移先の第1状態から出る遷移として、前記第1遷移の入力記号の一部または全部を表す特定記号以外の第2発音記号を入力記号とする第2遷移と、前記特定記号または無音を表す第3発音記号を入力記号とする第3遷移と、を少なくとも含む第1有限状態トランスデューサを、前記モデルに基づいて生成する生成部と、を備え、
前記認識装置は、
前記第1有限状態トランスデューサを用いて、入力された音声に対応する単語を認識する探索部を備え、
前記第1発音記号は、前記認識装置に入力される可能性が低い発音記号として予め定められた発音記号を含まない、
認識システム。 - 生成装置が、1以上の発音記号と単語との対応を表すモデルを受け付ける受付ステップと、
前記生成装置が、母音および撥音を含むゆっくり発話できる特定音素を示す予め定められた種類の第1発音記号を入力記号とする第1遷移の遷移先の第1状態から出る遷移として、前記第1遷移の入力記号の一部または全部を表す特定記号以外の第2発音記号を入力記号とする第2遷移と、前記特定記号または無音を表す第3発音記号を入力記号とする第3遷移と、を少なくとも含む第1有限状態トランスデューサを、前記モデルに基づいて生成する生成ステップと、を含み、
前記第1発音記号は、前記第1有限状態トランスデューサを用いて入力された音声に対応する単語を認識する認識装置に入力される可能性が低い発音記号として予め定められた発音記号を含まない、
有限状態トランスデューサの生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020203719A JP6995967B2 (ja) | 2020-12-08 | 2020-12-08 | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020203719A JP6995967B2 (ja) | 2020-12-08 | 2020-12-08 | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016142629A Division JP2018013590A (ja) | 2016-07-20 | 2016-07-20 | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021039384A JP2021039384A (ja) | 2021-03-11 |
JP6995967B2 true JP6995967B2 (ja) | 2022-01-17 |
Family
ID=74848612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020203719A Active JP6995967B2 (ja) | 2020-12-08 | 2020-12-08 | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6995967B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060184365A1 (en) | 2003-02-11 | 2006-08-17 | Microsoft Corporation | Word-specific acoustic models in a speech recognition system |
JP2007225931A (ja) | 2006-02-23 | 2007-09-06 | Advanced Telecommunication Research Institute International | 音声認識システム及びコンピュータプログラム |
JP2016102947A (ja) | 2014-11-28 | 2016-06-02 | 株式会社東芝 | 生成装置、認識装置、生成方法およびプログラム |
WO2016099301A1 (en) | 2014-12-17 | 2016-06-23 | Intel Corporation | System and method of automatic speech recognition using parallel processing for weighted finite state transducer-based speech decoding |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097275A (ja) * | 1996-09-20 | 1998-04-14 | Sharp Corp | 大語彙音声認識装置 |
US6374220B1 (en) * | 1998-08-05 | 2002-04-16 | Texas Instruments Incorporated | N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states |
JP6410491B2 (ja) * | 2014-06-27 | 2018-10-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム |
-
2020
- 2020-12-08 JP JP2020203719A patent/JP6995967B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060184365A1 (en) | 2003-02-11 | 2006-08-17 | Microsoft Corporation | Word-specific acoustic models in a speech recognition system |
JP2007225931A (ja) | 2006-02-23 | 2007-09-06 | Advanced Telecommunication Research Institute International | 音声認識システム及びコンピュータプログラム |
JP2016102947A (ja) | 2014-11-28 | 2016-06-02 | 株式会社東芝 | 生成装置、認識装置、生成方法およびプログラム |
WO2016099301A1 (en) | 2014-12-17 | 2016-06-23 | Intel Corporation | System and method of automatic speech recognition using parallel processing for weighted finite state transducer-based speech decoding |
Also Published As
Publication number | Publication date |
---|---|
JP2021039384A (ja) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6495850B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび認識システム | |
WO2017213055A1 (ja) | 音声認識装置及びコンピュータプログラム | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
JP4845118B2 (ja) | 音声認識装置、音声認識方法、および、音声認識プログラム | |
US20160379638A1 (en) | Input speech quality matching | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
JP6453631B2 (ja) | 認識システム、認識方法およびプログラム | |
US20060041429A1 (en) | Text-to-speech system and method | |
JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
JP4072718B2 (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
KR102094935B1 (ko) | 음성 인식 시스템 및 방법 | |
Siniscalchi et al. | A bottom-up modular search approach to large vocabulary continuous speech recognition | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
JP2019012095A (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
EP0562138A1 (en) | Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary | |
KR100930714B1 (ko) | 음성인식 장치 및 방법 | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
JP6995967B2 (ja) | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 | |
JP6001944B2 (ja) | 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム | |
US10600407B2 (en) | Generation device, recognition system, and generation method for generating finite state transducer | |
Barros et al. | Maximum entropy motivated grapheme-to-phoneme, stress and syllable boundary prediction for Portuguese text-to-speech | |
Lecorvé et al. | Adaptive statistical utterance phonetization for French | |
Zhang et al. | Application of pronunciation knowledge on phoneme recognition by lstm neural network | |
JP2003271180A (ja) | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211215 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6995967 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |