JP6995967B2 - 生成装置、認識システム、および、有限状態トランスデューサの生成方法 - Google Patents

生成装置、認識システム、および、有限状態トランスデューサの生成方法 Download PDF

Info

Publication number
JP6995967B2
JP6995967B2 JP2020203719A JP2020203719A JP6995967B2 JP 6995967 B2 JP6995967 B2 JP 6995967B2 JP 2020203719 A JP2020203719 A JP 2020203719A JP 2020203719 A JP2020203719 A JP 2020203719A JP 6995967 B2 JP6995967 B2 JP 6995967B2
Authority
JP
Japan
Prior art keywords
symbol
transition
phonetic
input
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020203719A
Other languages
English (en)
Other versions
JP2021039384A (ja
Inventor
学 永尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020203719A priority Critical patent/JP6995967B2/ja
Publication of JP2021039384A publication Critical patent/JP2021039384A/ja
Application granted granted Critical
Publication of JP6995967B2 publication Critical patent/JP6995967B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明の実施形態は、生成装置、認識システム、有限状態トランスデューサの生成方法、および、データに関する。
話し言葉音声には、発話速度が通常より速い音声や遅い音声が含まれる。このような音声を認識する方法の1つとして、発話速度の分類器と複数の発話速度依存のモデルを用いる方法が知られている。
F. Martinez, D. Tapias, J. Alvarez, "Towards speech rate independence in large vocabulary continuous speech recognition," in Proc of Acoustics, Speech and Signal Processing, Vol. 2, pp. 725-728, 1998
しかしながら、従来技術では、発話速度を判定する処理などのために処理負荷が増加する問題があった。また、複数のモデルを使用するため、より多くの記憶領域が必要となる問題があった。
実施形態の生成装置は、受付部と、生成部と、を備える。受付部は、1以上の発音記号と単語との対応を表すモデルを受け付ける。生成部は、予め定められた種類の第1発音記号を入力記号とする第1遷移の遷移先の第1状態から出る遷移として、第1遷移の入力記号の一部または全部を表す特定記号以外の第2発音記号を入力記号とする第2遷移と、特定記号または無音を表す第3発音記号を入力記号とする第3遷移と、を少なくとも含む第1有限状態トランスデューサを、モデルに基づいて生成する。
本実施形態にかかる認識システムのブロック図。 ゆっくり発話に対応するWFST Lの例を示す図。 ゆっくり発話に対応するWFST Lの例を示す図。 ゆっくり発話に対応するWFST Lの例を示す図。 ゆっくり発話に対応するWFST Lの例を示す図。 発音記号として音節を用いる場合のWFST Lの例を示す図。 本実施形態における生成処理のフローチャート。 本実施形態における認識処理のフローチャート。 構成1の生成方法を表す疑似コードの例を示す図。 構成1の生成方法を表す疑似コードの例を示す図。 構成2の生成方法を表す疑似コードの例を示す図。 構成2の生成方法を表す疑似コードの例を示す図。 本実施形態にかかる装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる生成装置の好適な実施形態を詳細に説明する。
本実施形態の生成装置は、通常より遅い音声(以下、ゆっくり発話という)に対応した重み付き有限状態トランスデューサ(WFST:Weighted Finite State Transducer)を生成する。また、本実施形態の認識装置は、生成されたWFSTを用いて音声認識を行う。これにより、1つのモデルで通常の発話とゆっくり発話を認識可能となる。発話速度を判定する必要がない、1つのモデルで音声認識を実行できるため、処理負荷を軽減可能となり、また、モデルを記憶するための記憶領域を削減可能となる。
ゆっくり発話に対応したWFSTは、例えば、発音と単語の対応を表すレキシコンから得られるWFST Lの適切な位置に直前に現れる発音記号を任意の回数受理できるループを埋め込んだWFSTである。適切な位置とは、ゆっくりと発話できる発音記号pの直前、または、直後である。また、埋め込まれたループが認識できる音素はpとなる。
(定義)
WFSTとは、遷移に入力記号、出力記号、および、重みが割り当てられている有限状態オートマトンである。発音記号とは、発音を表す記号であって、WFST Lの入力記号として用いることができる記号である。例えば、音素や音節が発音記号に該当する。ゆっくり発話できる発音記号とは、音声認識装置が認識する言語において、ゆっくり発話できる発音に対応する発音記号である。例えば、母音や撥音が、ゆっくり発話できる発音記号に該当する。
WFSTにおける経路は、次の条件を満たす1つ以上の遷移から構成される。その条件とは、経路を構成するi番目(iは1以上の整数)の遷移をeとするとき、遷移eの次状態と、遷移(e+1)の前状態とが同じであることである。
経路の入力とは、経路を構成する遷移の入力記号を連結した入力記号列である。同様に、経路の出力とは、経路を構成する遷移の出力記号を連結した出力記号列である。すなわち、遷移eの入力記号をin(e)、出力記号をout(e)とするとき、経路π=e...eの入力は、in(e)in(e)in(e)...in(e)となる。なお、nは遷移の数を表す。同様に出力は、out(e)out(e)out(e)...out(e)となる。遷移eの前状態をp(e)、次状態をn(e)で表す。εは入力記号または出力記号が空であることを表す。
図1は、本実施形態にかかる認識システムの構成の一例を示すブロック図である。図1に示すように、本実施形態の認識システムは、WFST生成装置100(生成装置の一例)と、音声認識装置200(認識装置の一例)と、を備えている。
WFST生成装置100は、音声認識装置200を動作させるために必要となるWFSTを生成する装置である。音声認識装置200は、WFST生成装置100が出力するWFSTを用いて、入力される音声を単語列へと変換する。
音声認識装置200は、例えば以下の4つのWFSTを合成したWFSTを使用する。
・隠れマルコフモデル(HMM)などの音響モデルの構造を表すWFST H
・コンテキスト依存音素をコンテキスト非依存音素へ変換するWFST C
・コンテキスト非依存音素を単語へ変換するWFST L
・単語の並びを表す言語モデルであるWFST G
ここでは発音記号が音素であるとした。なお以下では、WFST H、WFST C、WFST L、および、WFST Gを、それぞれ単にH、C、L、および、Gと記載する場合がある。音声認識装置200は、これら4つのWFSTを合成および最適化したWFST HCLGを用いて音声認識を行う。なお、4つのWFSTのうち一部に対してのみ音声認識処理前の合成および最適化を行い、残りは音声認識処理中に合成してもよい。
また、音響モデルから得られる音素が、コンテキスト依存音素ではなく、コンテキスト非依存音素である場合、すなわち、Hの出力記号がコンテキスト非依存音素である場合は、Cは不要である。音響モデルにHMMを用いず他の方法を用いる場合は、HやCの代わりに、それに対応するWFSTを音響モデルに基づくWFSTとして用いる。他の方法とは、例えば、コネクショニスト時系列分類法(CTC:Connectionist Temporal Classification)を適用したリカレントニューラルネットワーク(RNN)である。
本実施形態のWFST生成装置100は、Lとして、ゆっくり発話に対応したWFSTを生成する。従来のLの代わりに、本実施形態により生成されたLを用いれば、WFSTを用いる様々な音声認識装置200でゆっくり発話に対応可能となる。
WFST生成装置100は、変換部101、102、103、104と、合成部110とを備える。変換部101、102、103、104は、それぞれ、音響モデル、音素一覧、レキシコン、および、言語モデルをWFST(それぞれH、C、L、G)に変換する。合成部110は、変換部101、102、103、104がそれぞれ出力したWFSTを合成してHCLGを生成し、必要に応じて最適化する。Cが不要な場合、変換部102は備えなくてもよい。また、この場合、合成部110は、変換部101、103、104がそれぞれ出力したWFSTを合成してHLGを生成し、必要に応じて最適化してもよい。
音響モデルは、音をサブワードへと変換するためのモデルである。レキシコンは、サブワードを単語へ変換するためモデルである。言語モデルは、単語の並びの尤もらしさまたは制約を表すモデルである。言語モデルは、統計的言語モデルであってもよいし、文法によって表されていてもよい。ここで文法とは、例えば認識できる単語の並びを記述した情報を意味する。
なお、WFST生成装置100が出力するWFSTは1つである必要はない。WFST生成装置100が複数のWFSTを出力する場合は、それらを動的に合成するよう音声認識装置200を構成すればよい。
次に、図1の各装置の構成の詳細について説明する。まずWFST生成装置100について説明する。
変換部101が音響モデルをWFSTに変換する方法、変換部102が音素一覧をWFSTに変換する方法、および、変換部104が言語モデルをGに変換する方法は、従来から用いられているあらゆる方法を適用できる。
変換部103は、受付部151と、生成部152と、を備える。受付部151は、1以上の発音記号と単語との対応を表すモデルを受け付ける。モデルは、例えば、1以上の発音記号と単語との対応を表すレキシコン、または、従来の方法で生成されるWFST Lである。
生成部152は、受け付けられたモデルに基づき、予め定められた種類の発音記号(第1発音記号)を入力記号とする遷移(第1遷移)の遷移先の状態(第1状態)から出る遷移として、以下のような遷移を含むLを生成する。
(T1)特定記号以外の発音記号(第2発音記号)を入力とする遷移(第2遷移)
(T2)特定記号または無音を表す発音記号(第3発音記号)を入力とする遷移(第3遷移)
予め定められた種類の発音記号(第1発音記号)は、例えば、母音や撥音などの、ゆっくり発話できる特定音素の発音を表す発音記号である。特定記号は、第1遷移の入力記号である特定音素の発音を表す記号である。
このようなLは、例えば以下のように言い換えることができる。
(1)単語wを出力し、wの発音記号列pを入力とする経路πを含む。ここで、pのi番目の発音pがゆっくり発話できる発音記号(第1発音記号)であるとする。
(2)πを構成する遷移のうち、入力記号がpである遷移(第1遷移)の次状態q(第1状態)から出て行く遷移は少なくとも次の2つの遷移を含む。
(T1’)入力記号がpi+1の遷移(第2遷移)
(T2’)入力記号がxの遷移(第3遷移)
ここでxはpまたは無音を表す発音記号である。
次に、音声認識装置200について説明する。音声認識装置200は、フロントエンド201とデコーダ210とを備えている。
フロントエンド201は、入力された音声から音声区間を検出する処理、および、音声の特徴量を抽出する処理などを実行する。デコーダ210は、探索部212を備えている。
探索部212は、WFST生成装置100から入力されたWFST HCLGを用いて、フロントエンド201からの入力に対応する単語または単語列を認識する。例えば探索部212は、特徴量と音響モデルを用いて、WFST上の各経路に対する音の一致度を示す音響スコアと、それらの経路の重みを考慮し、入力された音声に最も近いと考えられる経路上の単語列を認識結果として出力する。
次に、本実施形態によって生成されるLについて説明する。ゆっくり発話に対応するLの構成はいくつか考えられる。ここでは1つの単語のみがLに含まれる場合に決定性のWFST(deterministic WFST)になる構成を例に説明する。冗長なWFSTはいくつも考えることができるが、公知の方法である決定化(determinization)や最小化(minimization)により変形することで同じ構成にできるため、説明を省略する。なお、ゆっくり発話できるが、音声認識装置200に入力される可能性が低い発音記号については、ゆっくり発話できる発音記号に含めなくてもよい。
(構成1)
図2は、ゆっくり発話に対応する最も単純なLの例を示す図である。説明を簡単にするため、発音記号列が「relm」である単語「realm」のみを表すLを例示している。ゆっくり発話できる発音記号は「e」であるとしている。この例での残りの発音記号「r」、「l」、「m」は、ゆっくり発話する発音記号とはしていない。図中の丸はWFSTの状態を表し、矢印は遷移を表す。太線の丸は初期状態を表し、二重丸は終了状態を表す。丸の中の数字は状態番号を表す。「:」の左側が入力記号を表し、「:」と「/」の間が出力記号を表し、「/」の右側が重みを表す。状態番号が2の状態の自己遷移の重み「w」は、ゆっくり発話が認識された時の重みで、実数である。重みが小さいほど良い経路であるとすると、「w」の値が大きいほどゆっくり発話は認識されにくくなる。また、ゆっくりと発話されるほど認識されにくくなる。例えば、このLに入力記号列「relm」が入力されると、単語「realm」が出力され、その重みは0となる。少しゆっくりと発話した結果、「reelm」が入力されると、重みはwとなる。さらにゆっくりと発話した結果、「reeelm」が入力されると、重みは2wとなる。
自己遷移に重みをつけた理由は、ゆっくり発話に対応する入力記号列と、別の単語のゆっくり発話でない入力記号列が同じであった場合に、両者を区別しやすくするためである。例えば、発音記号列が「kin」の単語「kin」と、発音記号列が「kiin」の単語「keen」の2つがLに含まれると仮定する。また、ゆっくり発話できる発音記号は「i」であるとする。図3は、この場合のゆっくり発話に対応するLの例を示す図である。
このLに発音記号列「kiin」が入力されると、単語「kin」と「keen」が出力される。しかし、単語「keen」に対応する経路の重みが0であり、単語「kin」に対応する経路の重みがwであるため、wが0でなければ2つの単語は重みが異なることになる。重みが小さいほうが良い経路である場合に、もし、wが0より大きく、言語モデルによる影響がないとすると、音声認識装置200は単語「keen」を出力することになる。なお、wを0にすることもできるが、その場合、いずれの単語が認識結果として出力されるかは、言語モデルによって決められることとなる。
ゆっくり発話に対応する発音記号に関して、同じ発音記号が連続する場合は、最後の発音記号が割り当てられている遷移の次状態にのみ自己遷移を付ければよい。図3では、単語「keen」に対応する経路上にある状態番号が6の状態に自己遷移を付けた。同じ発音記号のうち最初や途中の発音記号に自己遷移を付けることもできるが、冗長なだけである。Lが受理できる発音記号列に変わりはなく、決定化すれば後ろに移動するためである。また、決定化に必要な処理時間も長くなる。
例えば図2の場合、生成部152が生成する遷移や状態は以下のように対応する。
第1発音記号:「e」
第1遷移:状態番号が1の状態から状態番号が2の状態への遷移
第1状態:状態番号が2の状態
第2発音記号:「l」
第2遷移:状態番号が2の状態から状態番号が3の状態への遷移
第3発音記号:「e」
第3遷移:状態番号が2の状態から状態番号が2の状態への自己遷移
(構成2)
図4は、ゆっくり発話として認識されたときにwとは異なる重みwを適用することができるように構成したLの例を示す図である。図2の構成では、wが0より大きい場合、ゆっくり発話すればするほど自己遷移に付与されたwの影響を受け、当該単語は認識されにくくなる。一方、図4の構成で、wを0とし、wを0以外の値にすれば、ゆっくり発話に対して重みwのみが適用され、少しゆっくりと発話した場合と、とてもゆっくりと発話した場合とで重みの差が生じなくなる。このようにすることで、ゆっくり発話でない発話とゆっくり発話とを区別しつつ、ゆっくり発話の発話速度への依存をなくすことができる。
なお、発音記号列にゆっくり発話できる同じ発音記号列が連続して現れる場合は、構成1と同様に、最後の発音記号に対して、ゆっくり発話に対応する経路を作ればよい。状態番号が3の状態の自己遷移を用いないこともできる。この場合、非常にゆっくりとした発話には対応することができないが、従来手法よりはゆっくりとした発話に対応することができる。
構成2の場合、生成部152は、さらに第3遷移の遷移先の状態(第2状態)から出る遷移として、以下のような遷移を含むLを生成する。
(T3)第1発音記号または第3発音記号を入力とし、第2状態に遷移する遷移(第4遷移)
(T4)第2発音記号を入力とする遷移(第5遷移)
例えば図4の場合、生成部152が生成する遷移や状態は以下のように対応する。
第1発音記号:「e」
第1遷移:状態番号が1の状態から状態番号が2の状態への遷移
第1状態:状態番号が2の状態
第2発音記号:「l」
第2遷移:状態番号が2の状態から状態番号が4の状態への遷移
第3発音記号:「e」
第3遷移:状態番号が2の状態から状態番号が3の状態への遷移
第2状態:状態番号が3の状態
第4遷移:状態番号が3の状態から状態番号が3の状態への自己遷移
第5遷移:状態番号が3の状態から状態番号が4の状態への遷移
なお、上記で説明したL(図2、図3、図4)は、1つの単語に対応する発音のみを受理できる。Lは、任意の数の単語から成る単語列を受理するように構成してもよい。音声認識装置200が任意の数の単語から成る単語列を認識する場合は、Lの終了状態から初期状態に入力記号と出力記号が共にεで重みが0の遷移を追加すればよい。言い換えると、「closure」と呼ばれる演算をLに適用すればよい。
また、図2と図3においてwが、図4においてwとwが0である場合、Lは、WFSTではなく単に有限状態トランスデューサ(FST:Finite State Transducer)として表すことも可能である。
(区切り発声)
構成1と構成2は、ゆっくり発話できる発音を伸ばす場合(長音化する場合)のゆっくり発話に対応する構成例である。ゆっくり発話の種類はこれに限られるものではない。例えば、音素や音節を区切って発話することでゆっくり発話とすることもできる。例えば日本語では、音節単位に区切って発話することができる。言い換えると、音節の間に無音を挿入するということである。このような発話に対応するためには、ゆっくり発話できる発音記号の後に、同じ発音記号を入力記号とする遷移を追加するのではなく、無音を表す発音記号「sil」を入力記号とする遷移を追加すればよい。図2であれば、状態番号が2の状態の自己遷移の入力記号を「e」にするのではなく「sil」にする。図3であれば、状態番号が2の状態と状態番号が6の状態の自己遷移の入力記号を「i」ではなく「sil」にする。図4であれば、状態番号が3の状態への遷移の入力記号と、状態番号が3の状態の自己遷移の入力記号を「e」から「sil」に置き換える。
入力記号を置き換えるのではなく、置き換えた遷移を追加することで、発音を伸ばす場合、および、音節等で区切る場合の両方に対応するように構成することも可能である。図5は、このように構成した場合のLの一例を示す図である。図5のLは、発音記号列が「aka」である日本語の単語「赤」のみを受理する場合の例を表している。状態番号が2の状態と状態番号が3の状態を同じ状態にし、さらに、状態番号が6の状態と状態番号が7の状態を同じ状態にするよう構成してもよい。その場合は、1つの発音記号をゆっくり発話するときに、伸ばす発話と区切る発話が混在していても当該単語を認識することができる。
なお、単語間に無音が存在することを前提に処理される場合がある。これは例えばLに、前状態が初期状態、次状態が終了状態、入力記号が「sil」である遷移を追加することで実現できる。このような場合は、状態番号が5の状態から状態番号が7の状態への遷移と、状態番号が7の状態の自己遷移はなくてもよい。
(発音記号が音素より長い単位の場合)
発音記号として音素より長い単位を選択することもできる。例えば、発音記号として音節を用いることができる。この場合、ゆっくり発話に対応できる音節は、ゆっくり発音できる音素が最初または最後にくる音節となる。音節xの最初の音素がゆっくり発音できる音素であれば、その音素のみからなる音節が音節xの前に繰り返し現れてもよいようにLを構成する。同様に、音節xの最後の音素がゆっくり発音できる音素であれば、その音素のみからなる音節が音節xの後に繰り返し現れてもよいようにLを構成する。ここで、音節は音素の組み合わせで表現できるものとしている。つまり、音節は1以上の長さの音素列で表現されるということである。音素列ではなく別の記号や文字で音節を表してもよいが、その場合は、ゆっくり発話できる音節とその音節のうちゆっくり発話できる部分を表す音節とが対応付けられている必要がある。
発音記号として音節を用いる場合、予め定められた種類の発音記号(第1発音記号)は、予め定められた種類の特定音素(母音や撥音など)を最後に含む音節である。特定記号は、第1遷移の入力記号に含まれる最後の特定音素の発音を表す記号である。
図6は、日本語において発音記号として音節を用いる場合のLの一例を示す図である。また図6は、構成1と同様の構成方法を発音記号が音節の場合に適用した例を示す。最初の音節「a」は音素を用いる場合と同じであるので、状態番号が1の状態の自己遷移の入力記号は「a」となる。一方、2番目の音節「ka」の最後の音素は「a」である。したがって、状態番号が2の状態の自己遷移の入力記号は「ka」ではなく、「a」となる。この例では、音節を音素列で表現したが、音節を音素を表現する文字とは異なる文字で表してもよい。例えば日本語の平仮名で音節を表す場合は、「ka」の代わりに日本語の平仮名の「か」を用い、「a」の代わりに日本語の平仮名の「あ」を用いて音節を表現してもよい。また、実際の文字の代わりにそれらに対応する番号で表してもよい。
次に、このように構成された本実施形態にかかるWFST生成装置100による生成処理について図7を用いて説明する。図7は、本実施形態における生成処理の一例を示すフローチャートである。
まず、各変換部(変換部101、102、103、104)が、それぞれ変換処理の元とするモデルの入力を受け付ける(ステップS101)。各変換部は、受け付けたモデルをWFSTに変換する(ステップS102)。各変換部は、変換したWFSTを合成部110に出力する(ステップS103)。
例えば変換部101は音響モデルを受け付け、音響モデルをHに変換して出力する。変換部102は音素一覧を受け付け、音素一覧をCに変換して出力する。変換部103はレキシコンを受け付け、レキシコンをLに変換して出力する。変換部104は言語モデルを受け付け、言語モデルをGに変換して出力する。
合成部110は、各変換部から出力されたWFSTを合成し、必要に応じて最適化する(ステップS104)。合成部110は、例えばH、C、L、および、Gを合成してHCLGを生成する。
次に、このように構成された本実施形態にかかる音声認識装置200による認識処理について図8を用いて説明する。図8は、本実施形態における認識処理の一例を示すフローチャートである。
まず、フロントエンド201が、認識対象となる音声の入力を受け付ける(ステップS201)。フロントエンド201は、音声を解析し、音声の特徴量を抽出する(ステップS202)。探索部212は、合成部110により合成されたWFSTを用いて、抽出された特徴量に適合する認識結果(単語列)を探索して出力する(ステップS203)。
次に、変換部103(受付部151、生成部152)によるWFST Lの生成方法の詳細について説明する。
(構成1の生成方法1)
図9は、構成1の生成方法を表す疑似コードの例を示す図である。図9は、発音記号と単語との対応を表すモデルとして、レキシコンを受け付ける場合の、生成部152によるLの生成方法の例を示す。
レキシコンは、2つ組(発音記号列,単語)の集合である。発音記号列pのi番目の発音記号をpとする。発音記号列の長さを|p|とする。単語rに関して、rは、i=1の場合は当該単語を表し、それ以外の場合は空を表す記号εを表すものとする。すなわち、r=r・・・=rεε・・・=rである。例えば2つ組が(relm,realm)のとき、p=r、p=e、p=l、p=m、r=realm、r=ε、r=ε、r=εである。
Sはゆっくり発話できる発音記号の集合である。例えば、発音記号が音素の場合、Sには少なくともすべての母音が含まれる。qinitialはLの初期状態である。FはLの終了状態の集合である。EはLを構成する遷移の集合である。Eへの遷移の追加によって遷移が作成されるものとする。図9の処理が始まる時点では、EとFは空集合であるとする。
1行目は、レキシコンに含まれるすべての2つ組(発音記号列,単語)に対して、2行目から10行目を処理することを表す。
2行目では、初期状態をqに代入する。
3行目は、整数iを1から発音記号列pの長さまで1ずつ増やしながら4行目から10行目を処理することを表す。
4行目では、新しい状態を生成し、それをqに代入する。
5行目は、iがpの長さと等しいとき6行目を処理することを表す。
6行目では、qを終了状態とする。すなわち、終了状態の集合Fにqを追加する。
7行目では、前状態がq、次状態がq、入力記号がp、出力記号がr、および、重みが0の遷移を、遷移の集合Eに追加する。
8行目は、i番目の発音記号pがゆっくり発話できる発音記号であり、かつ、iがpの長さと等しい、または、発音記号pが次の発音記号pi+1とは異なる場合に、9行目を処理することを表す。
9行目では、前状態がq、次状態がq、入力記号がp、出力記号がε、および、重みがwである自己遷移を、遷移の集合Eに追加する。
10行目では、qをqに代入する。
(構成1の生成方法2)
図10は、構成1の生成方法を表す疑似コードの他の例を示す図である。図10は、発音記号と単語との対応を表すモデルとして、従来の方法で生成されたWFST Lなどの既存のLを受け付ける場合の、生成部152によるLの生成方法の例を示す。
例えば生成部152は、ある状態qに関し、入ってくる遷移の入力記号σがSに含まれるとき、状態qに入力記号がσである自己遷移を追加する。説明を簡単にするため、図10の疑似コードでは各状態に入ってくる遷移が1つのみであると仮定している。したがって、各単語につき受理状態が1つ存在する。さらに、初期状態を除く各状態から出て行く遷移も1つのみであると仮定している。
すなわち、Lは、図9の8行目と9行目を除いた疑似コードに従って作成されていると仮定している。図10の処理が始まる時点では、Eは従来法で生成したLを構成する遷移の集合であり、E’は空集合であるとする。
図10の1行目は、Lに含まれる遷移の集合Eに含まれる各遷移eに関して2行目から3行目を処理することを表す。
2行目は、次の2つの条件をいずれも満たすときに3行目を処理することを表す。1つ目の条件は、eの入力記号がゆっくり発話できる発音記号であることである。2つ目の条件は、eの次の遷移e’の入力記号と異なっているか、または、eの次状態が終了状態であることである。
3行目では、eの次状態に自己遷移を追加する。その遷移の入力記号はeの入力記号であり、出力記号はε、重みはwである。
4行目では、3行目で作成した遷移をEに追加する。
(構成2の生成方法1)
図11は、構成2の生成方法を表す疑似コードの例を示す図である。図11は、発音記号と単語との対応を表すモデルとして、レキシコンを受け付ける場合の、生成部152によるLの生成方法の例を示す。
図11の処理が始まる時点では、EとFは空集合であるとする。
1行目は、レキシコンに含まれるすべての2つ組(発音記号列,単語)に対して、2行目から16行目を処理することを表す。
2行目では、状態の集合Qに初期状態のみから成る集合を代入し、iに1を代入する。
3行目は、iがpの長さ以下の場合に、4行目から16行目を処理することを表す。
4行目では、新しい状態を生成し、それをqに代入する。
5行目は、iがpの長さと等しいとき6行目を処理することを表す。
6行目では、qを終了状態とする。すなわち、終了状態の集合Fにqを追加する。
7行目では、前状態がQに含まれる状態、次状態がq、入力記号がp、出力記号がr、および、重みが0の遷移を、遷移の集合Eに追加する。
8行目では、qにqを代入し、qのみから成る集合をQに代入する。
9行目は、i番目の発音記号pがゆっくり発話できる発音記号であり、かつ、iがpの長さと等しい、または、発音記号pが次の発音記号pi+1とは異なる場合に、10行目から15行目を処理することを表す。
10行目では、新しい状態を生成し、それをqに代入する。
11行目では、前状態がq、次状態がq、入力記号がp、出力記号がε、および、重みがwである遷移と、前状態がq、次状態がq、入力記号がp、出力記号がε、および、重みがwである自己遷移を、遷移の集合Eに追加する。
12行目は、iがpの長さに等しいとき、13行目を処理し、そうでないとき、15行目を処理することを表す。
13行目では、終了状態の集合Fにqを追加する。
15行目では、Qにqを追加する。
16行目では、iを1増やす。
(構成2の生成方法2)
図12は、構成2の生成方法を表す疑似コードの他の例を示す図である。図12は、発音記号と単語との対応を表すモデルとして、従来の方法で生成されたWFST Lなどの既存のLを受け付ける場合の、生成部152によるLの生成方法の例を示す。
説明を簡単にするため、Lは、図10の疑似コードの場合と同じ仮定の基に作成されているとする。図12の処理が始まる時点では、Eは従来法で生成したLを構成する遷移の集合であり、E’は空集合であるとする。
1行目は、2行目から8行目までをEに含まれる各遷移eについて処理することを表している。
2行目は、eの入力記号がSに含まれていることに加え、eの次状態から出ていく遷移e’の入力記号がeの入力記号と異なる、または、eの次状態が終了状態であるとき、3行目から8行目までを処理することを表す。
3行目では、新しい状態qを作成する。
4行目では、前状態がeの次状態、次状態がq、入力記号がeの入力記号、出力記号がε、および、重みがwである遷移を遷移の集合E’に追加する。さらに、前状態と次状態がq、入力記号がeの入力記号、出力記号がε、および、重みがwの自己遷移を遷移の集合E’に追加する。
5行目は、eの次状態が終了状態か否かを判定し、終了状態であれば、6行目に、そうでなければ8行目に処理を進めることを表す。
6行目では、qを終了状態の集合Fに追加する。
8行目では、前状態がq、次状態がe’の次状態、入力記号がe’の入力記号、出力記号がε、及び、重みが0である遷移を遷移の集合E’に追加する。e’はeの次状態から出て行く遷移である。
9行目では、4行目と8行目で作成した遷移をEに追加する。
このように、本実施形態にかかる生成装置では、1つのモデルで通常の発話とゆっくり発話を認識することができる。また、発話速度を判定する必要がない、1つのモデルで音声認識を実行できるため、処理負荷を軽減可能となり、また、モデルを記憶するための記憶領域を削減可能となる。
次に、本実施形態の各装置(WFST生成装置100、音声認識装置200)に適用することができるハードウェア構成例について図13を用いて説明する。図13は、本実施形態にかかる装置のハードウェア構成例を示す説明図である。
図13に示されるように、本実施形態の各装置は、CPU(Central Processing Unit)1、操作部2、表示部3、ROM(Read Only Memory)4、RAM(Random Access Memory)5、記憶部6、マイク7、および、バス8等を備えている。各部はバス8により接続されている。
CPU1は、RAM5の所定領域を作業領域として、ROM4または記憶部6に予め記憶された各種制御プログラムとの協働により各種処理を実行し、本実施形態の各装置を構成する各部の動作を統括的に制御する。またCPU1は、ROM4または記憶部6に予め記憶された所定のプログラムとの協働により上記各機能部の機能を実現させる。
なお、各装置の各機能部は、CPUなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
操作部2は、マウスやキーボード等の入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をCPU1に出力する。
表示部3は、LCD(Liquid Crystal Display)等の表示装置により構成され、CPU1からの表示信号に基づいて、各種情報を表示する。
ROM4は、本実施形態の各装置の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。
RAM5は、SDRAM等の揮発性の記憶媒体であって、CPU1の作業エリアとして機能する。具体的には、WFSTの生成処理、または、WFSTを用いた認識処理時に使用される各種変数やパラメータの値等を一時記憶するバッファ等の役割を果たす。
記憶部6は、フラッシュメモリ等の半導体による記憶媒体や、磁気的または光学的に記録可能な記憶媒体を有し、本実施形態の各装置の制御にかかるプログラムや各種設定情報等を書き換え可能に記憶する。また記憶部6は、音響モデル、音素一覧、レキシコン、言語モデル、および、WFSTに係る各種の情報を予め記憶したり、処理中に得られたWFST、合成および最適化中のWFST、および、処理結果などを記憶する。
マイク7は、音声認識の対象となる音声を入力する。入力された音声は例えばフロントエンド201に出力される。マイク7は、少なくとも音声認識装置200に備えられていればよい。
本実施形態の各装置の一部または全部は、異なるハードウェア上で動作するよう構成してもよいし、同じハードウェア上で動作するよう構成してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 WFST生成装置
101、102、103、104 変換部
110 合成部
151 受付部
152 生成部
200 音声認識装置
201 フロントエンド
210 デコーダ
212 探索部

Claims (10)

  1. 1以上の発音記号と単語との対応を表すモデルを受け付ける受付部と、
    母音および撥音を含むゆっくり発話できる特定音素を示す予め定められた種類の第1発音記号を入力記号とする第1遷移の遷移先の第1状態から出る遷移として、前記第1遷移の入力記号の一部または全部を表す特定記号以外の第2発音記号を入力記号とする第2遷移と、前記特定記号または無音を表す第3発音記号を入力記号とする第3遷移と、を少なくとも含む第1有限状態トランスデューサを、前記モデルに基づいて生成する生成部と、を備え、
    前記第1発音記号は、前記第1有限状態トランスデューサを用いて入力された音声に対応する単語を認識する認識装置に入力される可能性が低い発音記号として予め定められた発音記号を含まない、
    生成装置。
  2. 前記発音記号は、音素であり、
    前記特定記号は、前記第1遷移の入力記号である前記特定音素の発音を表す、
    請求項1に記載の生成装置。
  3. 前記発音記号は、1以上の音素を含む音節であり、
    前記第1発音記号は、前記特定音素を最後に含む音節であり、
    前記特定記号は、前記第1遷移の入力記号に含まれる最後の前記特定音素の発音を表す、
    請求項1に記載の生成装置。
  4. 前記第3遷移の遷移先は前記第1状態である、
    請求項1に記載の生成装置。
  5. 前記生成部は、0より大きい重みを前記第3遷移に付した前記第1有限状態トランスデューサを生成する、
    請求項4に記載の生成装置。
  6. 前記生成部は、前記第3遷移の遷移先である第2状態から出る遷移として、前記第1発音記号または前記第3発音記号を入力とし前記第2状態に遷移する第4遷移と、前記第2発音記号を入力とする第5遷移と、を含む前記第1有限状態トランスデューサを生成する、
    請求項1に記載の生成装置。
  7. 前記第1有限状態トランスデューサと、言語モデルに基づいて生成される第2有限状態トランスデューサと、音響モデルに基づいて生成される第3有限状態トランスデューサと、を合成した第4有限状態トランスデューサを生成する合成部をさらに備える、
    請求項1または2に記載の生成装置。
  8. 前記モデルは、1以上の発音記号と単語との対応を表すレキシコン、または、1以上の発音記号を単語に変換する有限状態トランスデューサである、
    請求項1または2に記載の生成装置。
  9. 生成装置と認識装置とを備える認識システムであって、
    前記生成装置は、
    1以上の発音記号を単語に変換するモデルを受け付ける受付部と、
    母音および撥音を含むゆっくり発話できる特定音素を示す予め定められた種類の第1発音記号を入力記号とする第1遷移の遷移先の第1状態から出る遷移として、前記第1遷移の入力記号の一部または全部を表す特定記号以外の第2発音記号を入力記号とする第2遷移と、前記特定記号または無音を表す第3発音記号を入力記号とする第3遷移と、を少なくとも含む第1有限状態トランスデューサを、前記モデルに基づいて生成する生成部と、を備え、
    前記認識装置は、
    前記第1有限状態トランスデューサを用いて、入力された音声に対応する単語を認識する探索部を備え、
    前記第1発音記号は、前記認識装置に入力される可能性が低い発音記号として予め定められた発音記号を含まない、
    認識システム。
  10. 生成装置が、1以上の発音記号と単語との対応を表すモデルを受け付ける受付ステップと、
    前記生成装置が、母音および撥音を含むゆっくり発話できる特定音素を示す予め定められた種類の第1発音記号を入力記号とする第1遷移の遷移先の第1状態から出る遷移として、前記第1遷移の入力記号の一部または全部を表す特定記号以外の第2発音記号を入力記号とする第2遷移と、前記特定記号または無音を表す第3発音記号を入力記号とする第3遷移と、を少なくとも含む第1有限状態トランスデューサを、前記モデルに基づいて生成する生成ステップと、を含み、
    前記第1発音記号は、前記第1有限状態トランスデューサを用いて入力された音声に対応する単語を認識する認識装置に入力される可能性が低い発音記号として予め定められた発音記号を含まない、
    有限状態トランスデューサの生成方法。
JP2020203719A 2020-12-08 2020-12-08 生成装置、認識システム、および、有限状態トランスデューサの生成方法 Active JP6995967B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020203719A JP6995967B2 (ja) 2020-12-08 2020-12-08 生成装置、認識システム、および、有限状態トランスデューサの生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020203719A JP6995967B2 (ja) 2020-12-08 2020-12-08 生成装置、認識システム、および、有限状態トランスデューサの生成方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016142629A Division JP2018013590A (ja) 2016-07-20 2016-07-20 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ

Publications (2)

Publication Number Publication Date
JP2021039384A JP2021039384A (ja) 2021-03-11
JP6995967B2 true JP6995967B2 (ja) 2022-01-17

Family

ID=74848612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020203719A Active JP6995967B2 (ja) 2020-12-08 2020-12-08 生成装置、認識システム、および、有限状態トランスデューサの生成方法

Country Status (1)

Country Link
JP (1) JP6995967B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184365A1 (en) 2003-02-11 2006-08-17 Microsoft Corporation Word-specific acoustic models in a speech recognition system
JP2007225931A (ja) 2006-02-23 2007-09-06 Advanced Telecommunication Research Institute International 音声認識システム及びコンピュータプログラム
JP2016102947A (ja) 2014-11-28 2016-06-02 株式会社東芝 生成装置、認識装置、生成方法およびプログラム
WO2016099301A1 (en) 2014-12-17 2016-06-23 Intel Corporation System and method of automatic speech recognition using parallel processing for weighted finite state transducer-based speech decoding

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097275A (ja) * 1996-09-20 1998-04-14 Sharp Corp 大語彙音声認識装置
US6374220B1 (en) * 1998-08-05 2002-04-16 Texas Instruments Incorporated N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states
JP6410491B2 (ja) * 2014-06-27 2018-10-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184365A1 (en) 2003-02-11 2006-08-17 Microsoft Corporation Word-specific acoustic models in a speech recognition system
JP2007225931A (ja) 2006-02-23 2007-09-06 Advanced Telecommunication Research Institute International 音声認識システム及びコンピュータプログラム
JP2016102947A (ja) 2014-11-28 2016-06-02 株式会社東芝 生成装置、認識装置、生成方法およびプログラム
WO2016099301A1 (en) 2014-12-17 2016-06-23 Intel Corporation System and method of automatic speech recognition using parallel processing for weighted finite state transducer-based speech decoding

Also Published As

Publication number Publication date
JP2021039384A (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
JP6495850B2 (ja) 情報処理装置、情報処理方法、プログラムおよび認識システム
WO2017213055A1 (ja) 音声認識装置及びコンピュータプログラム
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP4845118B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
US20160379638A1 (en) Input speech quality matching
CN107705787A (zh) 一种语音识别方法及装置
JP6453631B2 (ja) 認識システム、認識方法およびプログラム
US20060041429A1 (en) Text-to-speech system and method
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JP6884946B2 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
KR102094935B1 (ko) 음성 인식 시스템 및 방법
Siniscalchi et al. A bottom-up modular search approach to large vocabulary continuous speech recognition
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP2019012095A (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
KR100930714B1 (ko) 음성인식 장치 및 방법
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
JP6995967B2 (ja) 生成装置、認識システム、および、有限状態トランスデューサの生成方法
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
US10600407B2 (en) Generation device, recognition system, and generation method for generating finite state transducer
Barros et al. Maximum entropy motivated grapheme-to-phoneme, stress and syllable boundary prediction for Portuguese text-to-speech
Lecorvé et al. Adaptive statistical utterance phonetization for French
Zhang et al. Application of pronunciation knowledge on phoneme recognition by lstm neural network
JP2003271180A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211215

R151 Written notification of patent or utility model registration

Ref document number: 6995967

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151