JP6453631B2 - 認識システム、認識方法およびプログラム - Google Patents

認識システム、認識方法およびプログラム Download PDF

Info

Publication number
JP6453631B2
JP6453631B2 JP2014242111A JP2014242111A JP6453631B2 JP 6453631 B2 JP6453631 B2 JP 6453631B2 JP 2014242111 A JP2014242111 A JP 2014242111A JP 2014242111 A JP2014242111 A JP 2014242111A JP 6453631 B2 JP6453631 B2 JP 6453631B2
Authority
JP
Japan
Prior art keywords
finite state
state transducer
word
transition
assigned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014242111A
Other languages
English (en)
Other versions
JP2016102947A (ja
Inventor
学 永尾
学 永尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014242111A priority Critical patent/JP6453631B2/ja
Priority to US14/953,087 priority patent/US10109274B2/en
Publication of JP2016102947A publication Critical patent/JP2016102947A/ja
Application granted granted Critical
Publication of JP6453631B2 publication Critical patent/JP6453631B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Description

本発明の実施形態は、生成装置、認識装置、生成方法およびプログラムに関する。
有限状態オートマトン(Finite State Automaton、FSA)は、自然言語処理およびパターン認識等さまざまな分野で利用されている。例えば、文章中に表れる特定の文字列や文字列のパターンを検索するなどの用途がある。FSAは有限オートマトン(Finite Automaton,FA)や有限状態機械(Finite State Machine, FSM)と呼ばれることもある。
FSAで用いられる入力記号の他に重みが考慮されているFSAは、重み付き有限状態アクセプタ(Weighted Finite State Acceptor)と呼ばれる。出力記号が考慮されているFSAは、有限状態トランスデューサ(Finite State Transducer、FST)と呼ばれる。重みと出力記号が考慮されているFSAは、重み付き有限状態トランスデューサ(Weighted Finite State Transducer、WFST)と呼ばれる。WFSTは、パターン認識(例えば、音声認識、手書き文字認識、および、OCR(Optical Character Recognition))などで必要となる辞書やモデルを表現するために用いられたり、統計的機械翻訳で用いられることがある。
認識結果として単語または単語列を出力するパターン認識をWFSTを用いて行うために、サブワードから単語へと変換するWFST(以下、Lとする)が用いられる。ここでいうサブワードとは単語を構成する要素である。なお、重みが不要な場合は、LはFSTで表現されることもある。Lに含まれない新たな単語(以下、追加単語と呼ぶ)をパターン認識装置によって認識するために、Lに追加単語を追加する技術、および、Lには追加単語を追加せず、言語モデルを表すWFST(以下、Gとする)に追加単語に関する経路を埋め込む技術が提案されている。
特開2014−106272号公報 特開2009−104156号公報
しかしながら、従来技術では、追加単語に対応する経路をLまたはGに埋め込むため、LまたはGが変化する。これは、複数のパターン認識装置間で追加単語が異なる場合に、WFSTを共有することを困難にする。
実施形態の生成装置は、受付部と、生成部と、を備える。受付部は、単語の構成要素となるサブワードを単語に変換する第1モデルを受け付ける。生成部は、1以上のサブワードを1以上の単語に変換する遷移を含む第1経路、および、第1経路の始端となる状態を始端とし、サブワードが割り当てられる循環経路と単語を分類するクラスが割り当てられる遷移とを含む第2経路、を含む第1有限状態トランスデューサを、第1モデルに基づいて生成する。
本実施形態にかかる認識システムのブロック図。 生成される有限状態トランスデューサ(WFST)を示す図。 制約を含むように生成されるWFSTを示す図。 生成されるWFSTの一例を示す図。 本実施形態における生成処理のフローチャート。 本実施形態における認識処理のフローチャート。 説明に用いるWFSTの例を示す図。 図2および図7のWFSTを合成したWFSTを示す図。 図8のWFSTにprojを実行したWFSTを示す図。 図9のWFSTを最適化したWFSTを示す図。 図10のWFSTに処理πを実行したWFSTを示す図。 図11および図4のWFSTを合成したWFSTを示す図。 本実施形態にかかる装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる生成装置の好適な実施形態を詳細に説明する。以下では、認識装置(パターン認識装置)の一例である音声認識装置で使用するWFSTの生成装置を例に説明する。WFSTを用いた認識装置で用いられるWFSTを生成する装置であれば、どのような装置にも本実施形態の方法を適用できる。
上記のように、追加単語を認識装置によって認識するために、Lに追加単語を追加する技術が知られている。しかし、このような技術によりLが変更されると、他のWFSTとの合成処理や、最適化処理を再度実行せねばならず、計算量の観点から効率的でない。
このような問題を回避するため、単語と同様にサブワードを出力できるLを作成し、Gの中に追加単語に関する経路を埋め込む技術が知られている。このような技術により、Lの変更は不要となる。また、L(またはLと他のWFSTを合成したWFST)とGとの合成処理をパターン認識の処理中に行うようパターン認識装置を構成すれば、合成処理に要する計算がパターン認識装置を動作させる前には不要となる。
しかしこのような技術でも、Gが変更されるため、WFSTを共有することが困難になる。また、変更の可能性があるため、WFSTを例えば書き換え不可能な記憶媒体に記録して利用することが困難となる。
なお、経路とは、nを1以上の整数とするとき、次の条件を満たす遷移列e・・・eを表す。
条件:i=1,2,・・・,n−1に対して、eの次状態とei+1の前状態が一致する。
本実施形態では、追加単語を表すWFSTをLやGとは別に作成し、このWFSTと組み合わせて用いることができるように、2つの経路を埋め込んだLを生成する。1つは、サブワードで構成される循環経路である。もう1つは、追加単語に対応する入力記号や出力記号としてGに予め埋め込んでおくクラスを含む経路である。これにより、生成したL(またはLを元にして生成されるWFST)を変更する必要がなく、かつ、追加単語を認識できるWFSTを得ることが可能となる。
上記のように、サブワードとは単語を構成する要素である。音声認識においては、例えば音素、音節、および、それらを繋げた要素などがサブワードに相当する。OCRにおいては、例えば文字、および、文字の断片などがサブワードに相当する。
WFSTを用いるパターン認識においては、Lだけが用いられることは少なく、文法や言語モデルなどを表す他のWFSTと合成されて用いられることが多い。
図1は、本実施形態にかかる認識システムの構成の一例を示すブロック図である。図1に示すように、本実施形態の認識システムは、WFST生成装置100と、音声認識装置200と、WFST生成装置300と、を備えている。
WFST生成装置100は、音声認識装置200を動作させるために必要となるWFSTを生成する装置である。WFST生成装置300は、WFST生成装置100が生成したWFSTでは認識できない単語を認識するためのWFSTを生成する装置である。音声認識装置200は、WFST生成装置100およびWFST生成装置300が出力するWFSTを用いて、入力される音声を単語列へと変換する。なお、WFST生成装置100が生成するWFSTのみでも動作するよう音声認識装置200を構成することができる。
WFST生成装置100は、変換部101、102、103と、合成部110とを備える。変換部101、102、103は、それぞれ音響モデル、レキシコン、および、言語モデルをWFSTに変換する。合成部110は、変換部101、102、103がそれぞれ出力したWFSTを合成し、必要に応じて最適化する。
WFST生成装置300は、変換部301と、最適化部310とを備える。変換部301は、追加レキシコンをWFSTに変換する。最適化部310は、変換部301が出力したWFSTを最適化する。
音響モデルは、音をサブワードへと変換するためのモデルである。レキシコンは、サブワードを単語へ変換するためモデル(第1モデル)である。言語モデルは、単語の並びの尤もらしさまたは制約を表すモデルである。言語モデルは、統計的言語モデルであってもよいし、文法によって表されていてもよい。ここで文法とは、例えば認識できる単語の並びを記述した情報を意味する。
Gは、認識する単語と、この単語に対応する重みとを含む。Gが統計的言語モデルから変換される場合、認識する単語と、この単語の出現確率とが、統計的言語モデルに含まれている必要がある。また、Gが文法から変換される場合、認識する単語が文法に含まれている必要がある。
統計的言語モデルや文法の作成時点では、追加単語は不明である。また、追加単語の数も分からない。そこで本実施形態では、追加単語の代わりとなる単語を言語モデルに埋め込んでおく。本実施形態では、この単語をクラスと呼ぶこととする。クラスは、例えば単語を分類するための情報である。クラスは単に番号で表現されていてもよいが、ユーザにとって分かりやすい名前とするほうが追加単語に対応するクラスを指定しやすくなる。例えば、クラスとして品詞を用いることができる。さらに細かく、地名、駅名、機器名、型番、病名、薬品名、商品名、食品名、店舗名、料理名、便名、植物名、動物名、色名、および、魚名などをクラスとして用いるようにしてもよい。
このような言語モデルは、例えば、統計的言語モデルの一種であるクラス言語モデルを用いることで実現することができる。他にも、追加単語と話され方が類似している単語をその単語とは別にクラスとして取り扱うようにしてもよい。例えば、「ひまわり」という単語が統計的言語モデルに存在する場合に、全く同じ出現確率を持つ「ひまわりクラス」を統計的言語モデルに追加するということである。
このような言語モデルから変換されたGを用いることで、追加単語の出現位置や入力のしやすさを制御することができる。Gが統計的言語モデルから変換されている場合、Gは、クラスの出現確率に基づく重みを含む。このため、追加単語の出現確率は、追加単語に対応するクラスの出現確率を考慮した値となる。クラスの出現確率が高いと追加単語は認識されやすくなるが、追加単語とは異なる発声が誤って追加単語として認識される可能性が高くなる。
Gが文法から変換されている場合、クラスの出現位置が文法内で規定されているため、追加単語はクラスの出現位置でのみ認識することができる。例えば文法が、[今日][の][天気][は][クラスA][です]、であるとする。この文法では、「今日の天気はクラスAです」を意味する日本語が、単語ごとに[]で区切って記述される。[]で囲まれる文字列が1単語であることを示している。クラスAに対応する追加単語が[晴れ]と[曇り]と[雨]を意味する日本語の3単語であった場合、このGを用いて認識できる発声は「今日の天気は晴れです」、「今日の天気は曇りです」、および、「今日の天気は雨です」を意味する3通りの日本語となる。受理できる単語の並びのみを文法が表している場合は、GをWFSTではなくFSTで表すことができる。文法が重みを含む、つまり、文法が受理できる単語の並びのそれぞれに対して、それらの単語の並びの出やすさを表す値が文法に含まれている場合は、GをWFSTで表すこととなる。
なお、WFST生成装置100が出力するWFSTは1つである必要はない。WFST生成装置100が複数のWFSTを出力する場合は、それらを動的に合成するよう音声認識装置200を構成すればよい。
追加レキシコンは、追加単語から構成されるレキシコンである。追加レキシコンは、WFST生成装置300に入力される。
次に、図1の各装置の構成の詳細について説明する。まずWFST生成装置100について説明する。
変換部101が音響モデルをWFSTに変換する方法、および、変換部103が言語モデルをGに変換する方法は、従来から用いられているあらゆる方法を適用できる。
変換部102は、受付部151と、生成部152と、を備える。受付部151は、レキシコンを受け付ける。生成部152は、レキシコンに基づき、以下のような経路を含むLを生成する。
・1以上のサブワードを1以上の単語に変換する遷移を含む経路(第1経路)
・サブワードが割り当てられる循環経路とクラスが割り当てられる遷移とを含む経路(第2経路)
なお第1経路の始端と第2経路の始端となる状態は同じである。第1経路は、従来から用いられているあらゆる方法により生成できる。生成部152は、例えば生成した第1経路に、第2経路を付加することによりLを生成する。以下ではサブワードで構成される循環経路をサブワードループと呼ぶこととする。
図2は、生成されるLの一例を示す図である。丸が状態を表し、矢印が遷移を表す。二重丸は終了状態を表し、太線の丸は初期状態を表す。各遷移の近くに記載されている文字のうち、コロンの左側が入力記号を表し、コロンの右側が出力記号を表す。図2では重みは省略されている。点線で囲まれていない部分が、公知の方法で得られるWFSTである。
図2のLは、「aka」と発音され「赤」を意味する日本語の単語と、「kuro」と発音され「黒」を意味する日本語の単語と、に対応する経路を含む。点線で囲まれている部分が、サブワードループとクラスとを含む経路となる。サブワードループの先頭の「#」は、WFSTの合成処理および最適化処理を効率よく動作させるために付加している入力記号である。このように、図2の例では、サブワードループに入る遷移に、サブワードループの開始を示す開始情報(入力記号「#」)が割り当てられる。そして、サブワードループから出る遷移にクラスが割り当てられる。
クラスをサブワードループの前に配置するよう構成してもよい。この場合、サブワードループから出る遷移にサブワードループの終了を示す終了情報(「#」に相当する記号など)を割り当ててもよい。
図2のように単純なサブワードループは、単語の発音としてありえない組み合わせも受理できてしまうため表現として効率がよくない。そこで、単純なサブワードループに制約をかけてもよい。サブワードが音素かつ日本語の場合は、例えば、無声破裂音の後には母音が現れるなどの制約を付けることができる。
図3は、このような制約を含むように生成されるLの一例を示す図である。図3では、無声破裂音の1つである「t」の後に、母音である「a」または「i」が現れる組み合わせを受理するサブワードループの例が示されている。このような制約を導入するとLのサイズは増加するが、受理できる経路が減少するため、合成部110から出力されるWFSTのサイズは逆に小さくなる。
サブワードループへの制約条件は他にも考えられる。例えば、言語モデルの作成に使用するコーパスの全部または一部に含まれる単語列、または、レキシコンに含まれる単語の全部または一部などから得られるサブワード列に出現する、長さがNのサブワード列の組み合わせのみを受理できるようにサブワードループを構成することができる。ここで、Nは1以上の整数である。
連続音声認識または任意の文法を用いた音声認識を行うには、Lが単語列を受理できなければならない。このため、Lの終了状態から初期状態へ向かう入力記号と出力記号が共にεかつ重みが0である遷移を追加するか、終了状態と初期状態を1つの状態にまとめ、単語列を受理できるように、Gと合成する前にLを変形しておく必要がある。ここで、εは空列を表す。Lを生成した後に変形するのではなく、生成部152が、最初から単語列を受理できるようなLを生成するように構成してもよい。一方、孤立単語認識を行う場合は、この変形は不要である。この場合はGも不要となる。
合成部110は、変換部101、102、103がそれぞれ出力したWFSTを変換(合成、または、合成と最適化)し、WFST(以下、HCLGとする)を生成する。合成部110は、例えば、以下の(1)式で表される変換を行う。
HCLG=
π(opt(H○opt(C○opt(proj(det(L)○G)))))
・・・(1)
detは決定化演算を表す。optは最適化演算を表す。最適化演算は、例えば決定化演算と最小化演算を含む。記号「○」は合成演算を表す。例えば「WFST−A1○WFST−A2」は、WFST−A1とWFST−A2とを合成する演算を表す。πは後述する補助記号をεへ変換する。det、opt、「○」、および、πは、公知の方法によって実現することができる。
projは、入力記号をそれが割り当てられている遷移の出力記号に複製する処理を表す。本実施形態の合成部110は、サブワードループに割り当てられているサブワードが入力記号として割り当てられている遷移を対象としてprojを実行する。このように本実施形態では、proj演算の対象となる遷移は一部のみに限定される。
Hは隠れマルコフモデル(HMM)を表すWFSTである。Cはコンテキスト依存音素からコンテキスト非依存音素へ変換するWFSTである。上記のように、Lは音素から単語へ変換するWFSTであり、Gは言語モデルを表すWFSTである。HとCは音響モデルから生成することができる。例えば変換部101が、音響モデルからHおよびCを生成するように構成できる。HおよびCは、クラスが入力記号と出力記号に割り当てられた遷移と、循環経路の開始を表す開始情報および終了を表す終了情報の少なくとも一方が入力記号と出力記号に割り当てられた遷移と、を含む。これは、Cとopt(proj(det(L)○G))との合成後のWFSTにサブワードループを残すためであり、また、後述する補助記号の取り扱い方と同様である。Cと同じ理由によりHもこれらの遷移を含む。循環経路の開始を表す開始情報および終了を表す終了情報の少なくとも一方とクラスとを要素として含む集合をαとすると、図2にあるように、Lの入力記号から成る集合にはαが含まれている。任意のWFST XとYの合成、X○Yを考えるとき、X○Yに含まれる初期状態から終了状態に至る経路は、Xの初期状態から終了状態に至る経路の出力記号列と、Yの初期状態から終了状態に至る経路の入力記号列と、が一致するXとYの経路からのみ得られる。つまり、Xの遷移の出力記号に含まれない記号が入力記号として割り当てられているYの遷移に対応する遷移は決してX○Yには現れない。したがって、HCLGにサブワードループを残すためには、HおよびCが、入力記号と出力記号にαの各要素が割り当てられた遷移を含んでいる必要がある。さらに、これらの遷移を例えば、CおよびHの各状態に自己遷移として表せば、C○opt(proj(det(L)○G)))およびH○opt(C○opt(proj(det(L)○G)))にサブワードループが残る。自己遷移以外でも同様の効果を得られるように、これらの遷移を構成することもできるが、自己遷移と同等の効果を発揮するように構成するだけであるため、詳細は省略する。なお、H、C、L、および、Gはそれぞれ、重みが不要な場合は、FSTとして表すことができる。
(1)式の例では、H、C、L、および、Gを全て合成しているが、一部のみ合成し、残りは音声認識装置200で合成するようにしてもよい。det(L)を単にLに置き換えてもよい。また、一部または全部のoptをdetに置き換えてもよい。
サブワードが音素でない場合は、Cはコンテキスト依存音素からコンテキスト非依存音素へ変換するWFSTではなく、コンテキスト依存音素からコンテキスト非依存サブワードへ変換するWFSTとなる。この場合、Lもサブワードから単語へと変換するWFSTとなる。
上記のように、projの処理の対象となる遷移は、サブワードループに割り当てられているサブワードが入力記号として割り当てられている遷移である。
ところで、追加単語ではない通常の単語、すなわち、WFST生成装置100に入力されるレキシコンに含まれる単語の発音を表すために使用するサブワードをサブワードループに割り当てるサブワードとして一部でも使用する場合、通常の単語に割り当てられるサブワードとサブワードループに割り当てられるサブワードとを区別できなくなる。この場合は、サブワードループに割り当てられているサブワードと通常の単語に割り当てられているサブワードとを区別するために、サブワードループに割り当てられているサブワードにマークを付加しておく。そして、入力記号から出力記号への複製後、このマークを除去することで、元のサブワードに戻す。例えば、サブワードが文字列で表されており、その文字列に「$」が含まれていなければ、サブワードループに割り当てられているサブワードにマークとして「$」を含める。
マークはこれに限られるものではなく、通常の単語に割り当てられるサブワードとサブワードループに割り当てられるサブワードとを区別可能であればどのような情報であってもよい。例えば、サブワードが数字で表されている場合は、一定値をサブワードの数字に加えた値をサブワードループに割り当てられているサブワードの数字とすることで区別してもよい。一定値は、その値を加えた後の値が、元のサブワードを表す数字と重複しなければよい。例えば一定値は、サブワードを表す数字の最大値よりも大きい値とすることができる。
Lの遷移の入力記号に割り当てられている「#」やクラスはサブワードではないため、単に公知の方法で得られるCと合成したのでは「#」やクラスが現れる経路は失われてしまう。そこで、Lの遷移の入力記号に割り当てられている「#」やクラスは、補助記号と呼ばれる記号として取り扱う。具体的には、前述したとおり、「#」やクラスが入力記号と出力記号に割り当てられた遷移をCに含める。補助記号とは、同じ発音の単語が複数存在するレキシコンから変換されたL(またはLと他のWFSTを合成したWFST)を決定化可能なWFSTへと変形する公知の方法で用いられる記号である。合成部110は、このような方法を適用し、さらに「#」やクラスをこのような方法で用いる補助記号の1つとして扱う。補助記号として取り扱うため、HCLGの入力記号に「#」やクラスが残ることはない。前述した処理πによって取り除かれるためである。
次に、WFST生成装置300について説明する。WFST生成装置300に入力される追加レキシコンは、単語とそれに対応するサブワード列とクラスを含む。
WFST生成装置300の変換部301は、受付部351と生成部352とを備える。受付部351は、追加レキシコンを受け付ける。生成部352は、追加レキシコンを変換し、サブワードとクラスを入力記号とし、単語を出力記号とする経路を含むWFST(以下、Dとする)を生成する。
Dは、単語のサブワード列の最後にクラスが付加される点と、WFST生成装置100が生成するWFSTから出力される通常の単語は変換せずにそのまま通過させる点が、通常のLと異なる。
図4は、生成されるDの一例を示す図である。太線の二重丸は、初期状態かつ終了状態であることを表す。図4のDに含まれている新たな単語は、「tai」と発音され「鯛」を意味する日本語の単語である。この単語は出力記号として割り当てられる。一方、この単語(「鯛」)に対応する各サブワードの発音、および、クラスは、「t」、「a」、「i」、および「名詞」であり、これらは入力記号として割り当てられる。
初期状態にある入力記号と出力記号が共に「*」である自己遷移は、通常の単語が入力された場合に、何も変換せず、そのまま出力することを意味する。「*」を使わずに表すには、レキシコン(第1モデル)に含まれる単語ごとに、その単語を入力記号と出力記号に割り当てた自己遷移で表せばよい。レキシコン(第1モデル)が図2のように「黒」を意味する日本語の単語と、「赤」を意味する日本語の単語の2単語のみを含んでいるなら、入力記号と出力記号が「赤」である自己遷移と、入力記号と出力記号が「黒」である自己遷移とを、図4の入力記号と出力記号が共に「*」である自己遷移の代わりに初期状態に加えればよい。したがって、例えば、「赤」を意味する日本語の単語がDに入力されるとその単語がそのまま出力される。一方、「tai名詞」が入力されると「鯛」を意味する日本語の単語が出力される。
なお、「*」を伴う自己遷移を明には表さず、音声認識装置200が、この自己遷移があるものとして処理してもよい。図4の例では、クラスをサブワード列の最後に付加した。これにより、例えば図2のようにサブワードループの後にクラスが付与されているLと合成することができる。サブワードループの前にクラスが付与されているLを用いる場合には、生成部352は、クラスをサブワード列の最初に付加したDを生成する。
最適化部310はDを最適化する。最適化部310により用いられる最適化演算は、例えば、det(D)やopt(D)である。生成部352が、変換時に最適化演算に相当する処理を同時に行ってもよい。また。最適化部310を取り除くこともできる。最適化部310は、状態や遷移の数を減らすだけで、受理する入力記号列や、それに対応して出力する出力記号列を変更するわけではないためである。
次に、音声認識装置200について説明する。音声認識装置200は、フロントエンド201とデコーダ210とを備えている。
フロントエンド201は、入力された音声から音声区間を検出する処理、および、音声の特徴量を抽出する処理などを実行する。デコーダ210は、合成部211と探索部212とを備えている。
合成部211は、WFST生成装置100が出力するWFSTとWFST生成装置300が出力するWFSTとを用いて、少なくとも探索部212が必要とする部分を含むWFSTを合成し、探索部212から参照できるようにする。合成部211は、例えば、HCLG○DによりWFSTを合成する。WFST生成装置100が出力するWFSTが複数存在する場合がある。この場合、合成部211は、出力された複数のWFSTも合成する。
デコーダ210は、合成部211により認識処理中に動的にHCLG○Dを実行しながら、探索部212により探索処理を行う。動的に合成演算を行う方法は、オンザフライ合成と呼ばれており、公知の手法で実現することができる。なお、計算量はかかるが、合成部211による処理を音声が入力される前に行っておき、探索時は、合成済みのWFSTを利用するように構成することもできる。
探索部212は、合成部211により合成されたWFSTを探索し、フロントエンド201からの入力に対応する単語または単語列を認識する。例えば探索部212は、特徴量と音響モデルを用いて、WFST上の各経路に対する音の一致度を示す音響スコアと、それらの経路の重みを考慮し、入力された音声に最も近いと考えられる経路上の単語列を認識結果として出力する。なお探索部212は、Dがなくとも動作させることもできる。この場合、例えば音素やクラスが出力される経路を探索しないようにするだけでよい。
次に、このように構成された本実施形態にかかるWFST生成装置100による生成処理について図5を用いて説明する。図5は、本実施形態における生成処理の一例を示すフローチャートである。
まず、各変換部(変換部101、102、103)が、それぞれ変換処理の元とするモデルの入力を受け付ける(ステップS101)。各変換部は、受け付けたモデルをWFSTに変換する(ステップS102)。各変換部は、変換したWFSTを合成部110に出力する(ステップS103)。
例えば変換部101は音響モデルを受付け、音響モデルをHおよびCの少なくとも一方に変換して出力する。変換部102はレキシコンを受付け、レキシコンをLに変換して出力する。変換部103は言語モデルを受付け、言語モデルをGに変換して出力する。
合成部110は、各変換部から出力されたWFSTを合成し、必要に応じて最適化する(ステップS104)。合成部110は、例えば上記(1)式に従い、H、C、L、および、Gを合成してHCLGを生成する。
このようにして生成されるHCLGは、後述するように、WFST生成装置300によって生成されるDと合成されて認識時に利用される。追加単語はDで記述されるため、HCLGは変更不要となる。従ってHCLGは共有可能となる。
なお、WFST生成装置300によるWFSTの生成処理も図5と同様に実現できる。例えば変換部301が、ステップS101〜ステップS103と同様の処理を実行すればよい。また例えば、ステップS104で合成および最適化する代わりに、最適化部310が必要に応じてWFSTの最適化を実行すればよい。
次に、このように構成された本実施形態にかかる音声認識装置200による認識処理について図6を用いて説明する。図6は、本実施形態における認識処理の一例を示すフローチャートである。
まず、フロントエンド201が、認識対象となる音声の入力を受け付ける(ステップS201)。フロントエンド201は、音声を解析し、音声の特徴量を抽出する(ステップS202)。
合成部211は、WFST生成装置100から入力したWFST(HCLGなど)と、WFST生成装置300から入力したWFST(Dなど)とを合成する(ステップS203)。合成部211は、入力されるWFSTの全部を合成する必要はなく、例えば、探索部212が必要とする部分のみを動的に合成するように構成してもよい。
探索部212は、合成部211により合成されたWFSTを用いて、抽出された特徴量に適合する認識結果(単語列)を探索して出力する(ステップS204)。
次に、合成部211による合成処理の例について説明する。分かりやすくするため、HCLGの代わりに以下の(2)式で算出されるLGを用いる。
LG=π(opt(proj(L○G)))・・・(2)
HとCが抜けていること以外は上記(1)式と同様である。HCLGとLGの出力記号は同じであるため、HCLGの場合と同様に、LGもDと合成することができる。
図7は、説明に用いるGの例を示す図である。図7に示すGは、「赤」および「黒」を意味する日本語の単語、および、品詞のうち「名詞」および「副詞」を受理できるWFSTである。各遷移付近の文字のうち、コロンの左側が入力記号を表し、コロンとスラッシュの間が出力記号を表し、スラッシュの右側が重みを表す。丸の中の数字は各状態を参照するために付与している番号である。例えば、このWFSTに入力記号列として「赤」を意味する日本語の単語と「名詞」とが並ぶ記号列(「赤 名詞」)が入力されると、出力記号列として「赤」を意味する日本語の単語と「名詞」とが並ぶ記号列(「赤 名詞」)が出力される。このとき通過する経路上の状態は初期状態から順に、0、2、3、0、または、0、2、0、3、0である。それぞれの経路の重みの総計は6または8.5である。
Lの例として、図2の初期状態と終了状態を同じ状態としたWFSTを用いる。
図8は、図2のLと、図7のGとを合成したWFST(L○Gとする)の一例を示す図である。また、図9は、図8のWFSTにprojの処理を実行したWFST(proj(L○G))の一例を示す図である。図9と図8とを比べると、サブワードループの入力記号が出力記号へと複製されていることが分かる。
図10は、図9のWFSTを最適化したWFST(opt(proj(L○G)))の一例を示す図である。図11は、図10のWFSTに処理πを実行したWFST(π(opt(proj(L○G))))の一例を示す図である。図11のWFSTは、図10のWFSTに対して、入力記号側から補助記号、すなわち、この例では「#」と名詞と副詞とを、εに変換したWFSTを示す。図11に示すWFSTが、WFST生成装置100によって生成される。
図12は、図11のWFSTと、WFST生成装置300によって生成されるDとを合成したWFST(π(opt(proj(L○G)))○D)の一例を示す図である。ここでDは図4に示すWFSTであるとした。Dに含まれる「tai」と発音される追加単語(「鯛」)が、状態1から状態4への遷移と、状態11から状態14への遷移の出力記号に含まれていることが分かる。すなわち、追加単語(「鯛」)を認識できるということである。探索部212は合成部211によって合成されたこのようなWFSTを利用して探索を行う。
以上説明したとおり、本実施形態によれば、単語の追加時にレキシコンまたは言語モデルから作成されるWFSTを変更する必要がなくなり、また、それらから生成されるWFSTも変更する必要がなくなるように、WFSTを生成することができる。すなわち、追加単語があってもWFST生成装置100が生成するWFSTを変更する必要がない。このため、WFST生成装置100が生成するWFSTを音声認識装置間で共有することができる。
上述した方法は、音声認識以外でもWFSTを用いる様々な分野で利用することができる。例えば、OCR、手書き文字認識、および、ジェスチャー認識などの系列データを認識する装置においても利用することができる。
次に、本実施形態の各装置(WFST生成装置100、音声認識装置200、WFST生成装置300)に適用することができるハードウェア構成例について図13を用いて説明する。図13は、本実施形態にかかる装置のハードウェア構成例を示す説明図である。
図13に示されるように、本実施形態の各装置は、CPU(Central Processing Unit)1、操作部2、表示部3、ROM(Read Only Memory)4、RAM(Random Access Memory)5、記憶部6、バス7等を備えている。各部はバス7により接続されている。
CPU1は、RAM5の所定領域を作業領域として、ROM4または記憶部6に予め記憶された各種制御プログラムとの協働により各種処理を実行し、本実施形態の各装置を構成する各部の動作を統括的に制御する。またCPU1は、ROM4または記憶部6に予め記憶された所定のプログラムとの協働により上記各機能部の機能を実現させる。
なお、各装置の各機能部は、CPUなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
操作部2は、マウスやキーボード等の入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をCPU1に出力する。
表示部3は、LCD(Liquid Crystal Display)等の表示装置により構成され、CPU1からの表示信号に基づいて、各種情報を表示する。
ROM4は、本実施形態の各装置の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。
RAM5は、SDRAM等の揮発性の記憶媒体であって、CPU1の作業エリアとして機能する。具体的には、WFSTの生成処理、または、WFSTを用いた認識処理時に使用される各種変数やパラメータの値等を一時記憶するバッファ等の役割を果たす。
記憶部6は、フラッシュメモリ等の半導体による記憶媒体や、磁気的または光学的に記録可能な記憶媒体を有し、本実施形態の各装置の制御にかかるプログラムや各種設定情報等を書き換え可能に記憶する。また記憶部6は、WFSTに係る各種の情報を予め記憶したり、WFSTに対して行った演算結果を記録したりする。
本実施形態の各装置の一部または全部は、異なるハードウェア上で動作するよう構成してもよいし、同じハードウェア上で動作するよう構成してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 WFST生成装置
101、102、103 変換部
110 合成部
151 受付部
152 生成部
200 音声認識装置
201 フロントエンド
210 デコーダ
211 合成部
212 探索部
300 WFST生成装置
301 変換部
310 最適化部
351 受付部
352 生成部

Claims (13)

  1. 単語の構成要素となるサブワードを単語に変換する第1モデルを受け付ける受付部と、
    1以上のサブワードを1以上の単語に変換する遷移を含む第1経路、および、前記第1経路の始端となる状態を始端とし、サブワードが割り当てられる循環経路と単語を分類するクラスが割り当てられる遷移とを含む第2経路、を含む第1有限状態トランスデューサを、前記第1モデルに基づいて生成する生成部と、
    前記第1有限状態トランスデューサ、または、前記第1有限状態トランスデューサと他の有限状態トランスデューサを合成した第2有限状態トランスデューサと、単語の構成要素となるサブワードを単語に変換するモデルに基づいて生成され、1以上のサブワードと単語を分類するクラスとを入力して1以上の単語に変換する経路を含む第3有限状態トランスデューサと、を合成した第4有限状態トランスデューサを生成する第1合成部と、
    前記第4有限状態トランスデューサを用いて、入力されたデータに対応する単語を認識する探索部と、
    を備える認識システム
  2. 前記循環経路に入る遷移、および、前記循環経路から出る遷移、のいずれかに前記クラスが割り当てられる、
    請求項1に記載の認識システム
  3. 前記循環経路から出る遷移に前記クラスが割り当てられ、前記循環経路に入る遷移に前記循環経路の開始を示す開始情報が割り当てられる、
    請求項1に記載の認識システム
  4. 前記循環経路に入る遷移に前記クラスが割り当てられ、前記循環経路から出る遷移に前記循環経路の終了を示す終了情報が割り当てられる、
    請求項1に記載の認識システム
  5. 記第1有限状態トランスデューサと、言語モデルに基づいて生成される第5有限状態トランスデューサと、を合成した前記第2有限状態トランスデューサを生成する第2合成部をさらに備える、
    請求項1に記載の認識システム
  6. 前記第1有限状態トランスデューサと、言語モデルに基づいて生成される第5有限状態トランスデューサと、クラスが入力記号と出力記号に割り当てられた遷移と、循環経路の開始を表す開始情報および終了を表す終了情報の少なくとも一方が入力記号と出力記号に割り当てられた遷移と、を含む第6有限状態トランスデューサと、を合成した前記第2有限状態トランスデューサを生成する第2合成部をさらに備える、
    請求項1に記載の認識システム
  7. 前記第2合成部は、前記第2有限状態トランスデューサに含まれる遷移の入力記号から、前記開始情報または前記終了情報と、前記クラスとを除去する、
    請求項6に記載の認識システム
  8. 前記第6有限状態トランスデューサは、コンテキスト依存音素からコンテキスト非依存音素へ変換する有限状態トランスデューサ、および、隠れマルコフモデルを表す有限状態トランスデューサのうち少なくとも一方である、
    請求項6に記載の認識システム
  9. 前記第2合成部は、前記第2有限状態トランスデューサに含まれる、前記循環経路上の遷移の入力記号として割り当てられていたサブワードが割り当てられている遷移の入力記号を出力記号に割り当てる、
    請求項5に記載の認識システム
  10. 前記第5有限状態トランスデューサは、クラスが入力記号と出力記号に割り当てられた遷移を含む、
    請求項5に記載の認識システム
  11. 前記第1合成部は、前記探索部による探索処理中に、前記第4有限状態トランスデューサを生成する、
    請求項1に記載の認識システム
  12. 単語の構成要素となるサブワードを単語に変換する第1モデルを受け付ける受付ステップと、
    1以上のサブワードを1以上の単語に変換する遷移を含む第1経路、および、前記第1経路の始端となる状態を始端とし、サブワードが割り当てられる循環経路と単語を分類するクラスが割り当てられる遷移とを含む第2経路、を含む第1有限状態トランスデューサを、前記第1モデルに基づいて生成する生成ステップと、
    前記第1有限状態トランスデューサ、または、前記第1有限状態トランスデューサと他の有限状態トランスデューサを合成した第2有限状態トランスデューサと、単語の構成要素となるサブワードを単語に変換するモデルに基づいて生成され、1以上のサブワードと単語を分類するクラスとを入力して1以上の単語に変換する経路を含む第3有限状態トランスデューサと、を合成した第4有限状態トランスデューサを生成する合成ステップと、
    前記第4有限状態トランスデューサを用いて、入力されたデータに対応する単語を認識する探索ステップと、
    を含む認識方法
  13. コンピュータを、
    単語の構成要素となるサブワードを単語に変換する第1モデルを受け付ける受付部と、
    1以上のサブワードを1以上の単語に変換する遷移を含む第1経路、および、前記第1経路の始端となる状態を始端とし、サブワードが割り当てられる循環経路と単語を分類するクラスが割り当てられる遷移とを含む第2経路、を含む第1有限状態トランスデューサを、前記第1モデルに基づいて生成する生成部と、
    前記第1有限状態トランスデューサ、または、前記第1有限状態トランスデューサと他の有限状態トランスデューサを合成した第2有限状態トランスデューサと、単語の構成要素となるサブワードを単語に変換するモデルに基づいて生成され、1以上のサブワードと単語を分類するクラスとを入力して1以上の単語に変換する経路を含む第3有限状態トランスデューサと、を合成した第4有限状態トランスデューサを生成する第1合成部と、
    前記第4有限状態トランスデューサを用いて、入力されたデータに対応する単語を認識する探索部、
    として機能させるためのプログラム。
JP2014242111A 2014-11-28 2014-11-28 認識システム、認識方法およびプログラム Active JP6453631B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014242111A JP6453631B2 (ja) 2014-11-28 2014-11-28 認識システム、認識方法およびプログラム
US14/953,087 US10109274B2 (en) 2014-11-28 2015-11-27 Generation device, recognition device, generation method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014242111A JP6453631B2 (ja) 2014-11-28 2014-11-28 認識システム、認識方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016102947A JP2016102947A (ja) 2016-06-02
JP6453631B2 true JP6453631B2 (ja) 2019-01-16

Family

ID=56079564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014242111A Active JP6453631B2 (ja) 2014-11-28 2014-11-28 認識システム、認識方法およびプログラム

Country Status (2)

Country Link
US (1) US10109274B2 (ja)
JP (1) JP6453631B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6562698B2 (ja) 2015-04-28 2019-08-21 株式会社東芝 ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム
US9966066B1 (en) * 2016-02-03 2018-05-08 Nvoq Incorporated System and methods for combining finite state transducer based speech recognizers
JP6495850B2 (ja) 2016-03-14 2019-04-03 株式会社東芝 情報処理装置、情報処理方法、プログラムおよび認識システム
JP2018013590A (ja) 2016-07-20 2018-01-25 株式会社東芝 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ
US10706215B2 (en) * 2017-04-05 2020-07-07 Parsegon Producing formula representations of mathematical text
CN108305634B (zh) * 2018-01-09 2020-10-16 深圳市腾讯计算机系统有限公司 解码方法、解码器及存储介质
JP6790003B2 (ja) * 2018-02-05 2020-11-25 株式会社東芝 編集支援装置、編集支援方法及びプログラム
US20220115003A1 (en) * 2020-10-13 2022-04-14 Rev.com, Inc. Systems and methods for aligning a reference sequence of symbols with hypothesis requiring reduced processing and memory
JP6995967B2 (ja) * 2020-12-08 2022-01-17 株式会社東芝 生成装置、認識システム、および、有限状態トランスデューサの生成方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
AU2002354201A1 (en) 2001-12-17 2003-06-30 Asahi Kasei Kabushiki Kaisha Speech recognition method, remote controller, information terminal, telephone communication terminal and speech recognizer
JP2003186494A (ja) 2001-12-17 2003-07-04 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
CA2486125C (en) * 2003-10-30 2011-02-08 At&T Corp. A system and method of using meta-data in speech-processing
GB2409750B (en) 2004-01-05 2006-03-15 Toshiba Res Europ Ltd Speech recognition system and technique
JP4241771B2 (ja) 2006-07-04 2009-03-18 株式会社東芝 音声認識装置及びその方法
US8032374B2 (en) * 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
JP4987682B2 (ja) * 2007-04-16 2012-07-25 ソニー株式会社 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JP4956334B2 (ja) 2007-08-29 2012-06-20 株式会社東芝 オートマトンの決定化方法、有限状態トランスデューサの決定化方法、オートマトン決定化装置及び決定化プログラム
GB2453366B (en) 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US8423879B2 (en) * 2008-05-14 2013-04-16 Honeywell International Inc. Method and apparatus for test generation from hybrid diagrams with combined data flow and statechart notation
JP5121650B2 (ja) * 2008-09-26 2013-01-16 株式会社東芝 情報処理装置、情報処理方法及びプログラム
US8266169B2 (en) * 2008-12-18 2012-09-11 Palo Alto Reseach Center Incorporated Complex queries for corpus indexing and search
US8510097B2 (en) * 2008-12-18 2013-08-13 Palo Alto Research Center Incorporated Region-matching transducers for text-characterization
JP4977163B2 (ja) * 2009-03-30 2012-07-18 株式会社東芝 有限状態トランスデューサ決定化装置及び有限状態トランスデューサ決定化方法
JP5199985B2 (ja) * 2009-11-30 2013-05-15 日本電信電話株式会社 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム
US8484154B2 (en) * 2009-12-14 2013-07-09 Intel Corporation Methods and systems to traverse graph-based networks
JP5232191B2 (ja) 2010-03-19 2013-07-10 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP5554304B2 (ja) 2011-09-16 2014-07-23 株式会社東芝 オートマトン決定化方法、オートマトン決定化装置およびオートマトン決定化プログラム
JP2013164572A (ja) 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP6346893B2 (ja) * 2012-09-07 2018-06-20 カーネギー メロン ユニバーシティCarnegie Mellon University ハイブリッドgpu/cpuデータ処理方法
US8972243B1 (en) * 2012-11-20 2015-03-03 Amazon Technologies, Inc. Parse information encoding in a finite state transducer
JP6179884B2 (ja) * 2012-11-26 2017-08-16 国立研究開発法人情報通信研究機構 Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム
WO2015026366A1 (en) * 2013-08-23 2015-02-26 Nuance Communications, Inc. Multiple pass automatic speech recognition methods and apparatus
JP6404564B2 (ja) 2013-12-24 2018-10-10 株式会社東芝 デコーダ、デコード方法およびプログラム
JP6315980B2 (ja) 2013-12-24 2018-04-25 株式会社東芝 デコーダ、デコード方法およびプログラム
JP6301647B2 (ja) 2013-12-24 2018-03-28 株式会社東芝 探索装置、探索方法およびプログラム
JP6301664B2 (ja) 2014-01-31 2018-03-28 株式会社東芝 変換装置、パターン認識システム、変換方法およびプログラム
JP2016057986A (ja) * 2014-09-11 2016-04-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP6301794B2 (ja) 2014-09-18 2018-03-28 株式会社東芝 オートマトン変形装置、オートマトン変形方法およびプログラム
US9606986B2 (en) * 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9740678B2 (en) * 2015-06-25 2017-08-22 Intel Corporation Method and system of automatic speech recognition with dynamic vocabularies

Also Published As

Publication number Publication date
US10109274B2 (en) 2018-10-23
US20160155440A1 (en) 2016-06-02
JP2016102947A (ja) 2016-06-02

Similar Documents

Publication Publication Date Title
JP6453631B2 (ja) 認識システム、認識方法およびプログラム
KR102246943B1 (ko) 다중 언어 텍스트-음성 합성 방법
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
US5949961A (en) Word syllabification in speech synthesis system
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
WO2017213055A1 (ja) 音声認識装置及びコンピュータプログラム
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US8626510B2 (en) Speech synthesizing device, computer program product, and method
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
JP2007024960A (ja) システム、プログラムおよび制御方法
JP7295839B2 (ja) 音節に基づく自動音声認識
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
KR100930714B1 (ko) 음성인식 장치 및 방법
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
US10600407B2 (en) Generation device, recognition system, and generation method for generating finite state transducer
WO2017082717A2 (en) Method and system for text to speech synthesis
JP6995967B2 (ja) 生成装置、認識システム、および、有限状態トランスデューサの生成方法
JP2006343405A (ja) 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JPS62119591A (ja) 文章読上げ装置
GB2292235A (en) Word syllabification.
JP2009098292A (ja) 音声記号列生成方法、音声合成方法及び音声合成装置
JP2007249023A (ja) 音声合成装置及び音声合成方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160330

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181213

R151 Written notification of patent or utility model registration

Ref document number: 6453631

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151