JP6495850B2 - 情報処理装置、情報処理方法、プログラムおよび認識システム - Google Patents

情報処理装置、情報処理方法、プログラムおよび認識システム Download PDF

Info

Publication number
JP6495850B2
JP6495850B2 JP2016049424A JP2016049424A JP6495850B2 JP 6495850 B2 JP6495850 B2 JP 6495850B2 JP 2016049424 A JP2016049424 A JP 2016049424A JP 2016049424 A JP2016049424 A JP 2016049424A JP 6495850 B2 JP6495850 B2 JP 6495850B2
Authority
JP
Japan
Prior art keywords
phonetic symbol
hmm
symbol string
information processing
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016049424A
Other languages
English (en)
Other versions
JP2017167188A (ja
Inventor
学 永尾
学 永尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016049424A priority Critical patent/JP6495850B2/ja
Priority to US15/390,232 priority patent/US10319373B2/en
Publication of JP2017167188A publication Critical patent/JP2017167188A/ja
Application granted granted Critical
Publication of JP6495850B2 publication Critical patent/JP6495850B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、情報処理装置、情報処理方法、プログラムおよび認識システムに関する。
音声認識のエラーの予測、および、発音変動のモデリングなどを目的として、2つの発音記号列の類似度を得る技術が提案されている。
しかしながら、従来技術では、例えば2つの発音記号列が与えられたときの両者の類似度を計算することはできるが、ある1つの発音記号列が与えられたときに、この発音記号列に類似する発音記号列を得ることはできない。
実施形態の情報処理装置は、発音変換部と、HMM変換部と、探索部と、を備える。発音変換部は、発音記号列を隠れマルコフモデルの状態を表すHMM状態列へ変換する。HMM変換部は、隠れマルコフモデルの状態間の類似度を定める類似度行列を用いて、HMM状態列を、特定の発音に類似する度合いを表すスコアベクトル列に変換する。探索部は、探索ネットワークに含まれる経路のうち、スコアベクトル列に対するスコアが他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する。
実施形態の情報処理装置のブロック図。 実施形態における変換処理のフローチャート。 受理できる音素の制約を表すWFSTの一例を示す図。 受理できる音素の制約を表すWFSTの一例を示す図。 類似発音記号列を得る処理の具体例を示す図。 実施形態の認識システムのブロック図。 実施形態にかかる情報処理装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。
例えば、音声認識による誤認識の発生しやすい単語を見つけるために、与えられた発音記号列に類似する発音記号列を求めることが有効な場合がある。他にも、音素記号列による単語の綴りを検索する機能、および、文書検索装置における外来語の正規化機能などに対して、ある発音記号列に類似する発音記号列を得る技術が適用されうる。しかし上記のように、2つの発音記号列が与えられたときの両者の類似度を計算する従来の技術では、発音記号列に類似する発音記号列を得ることはできない。
(第1の実施形態)
第1の実施形態では、与えられた発音記号列に類似する発音記号列(類似発音記号列)を得ることを可能とする。第1の実施形態の情報処理装置は、音声に対応する発音記号列を出力する音声認識装置の機能の一部を利用する。また第1の実施形態の情報処理装置は、発音記号列を音声認識装置に入力するスコアベクトル列へ変換する処理において、類似度行列を導入する。これらの機能により、発音記号列を入力すると類似発音記号列を得ることが可能となる。
(定義)
発音記号とは発音を表す記号である。例えば、音声記号、音素記号、および、音節記号が、発音記号に相当する。発音記号はこれらに限られず、発音を表すことができればどのような記号を用いても良い。例えば、国際音声記号、SAMPA(Speech Assessment Methods Phonetic Alphabet)、および、X−SAMPA(Extended SAM Phonetic Alphabet)などを発音記号として用いても良い。使用する発音に対して数字を割り当てておき、それらの数字を発音記号として用いることもできる。日本語であれば、ひらがなやカタカナを発音記号として用いても良い。
発音HMMは、発音に対応付けられている隠れマルコフモデル(Hidden Markov Model、HMM)である。発音が音素の場合は、音素HMMと呼ばれることがある。本実施形態で使用するHMMは、状態遷移が左から右に進む(left-to-right)HMMで、分岐した状態は含まないものとする。ただし、遷移の分岐はあっても良い。
重み付き有限状態トランスデューサ(Weighted Finite State Transducer、WFST)は、遷移に入力記号、出力記号、および、重みが割り当てられている有限状態オートマトンである。
(装置構成)
図1は、本実施形態の情報処理装置100の構成例を示すブロック図である。図1に示すように、情報処理装置100は、発音変換部101と、HMM変換部102と、探索部103と、を備えている。
発音変換部101は、発音記号列を、HMMの状態を並べたHMM状態列へ変換する。例えば発音変換部101は、発音記号列を、発音記号列を構成する発音記号ごとにHMM状態列へ変換し、変換したHMM状態列を入力された発音記号列と同じ順で結合することにより、HMM状態列を得る。
各発音記号に対応するHMM状態列には、音声認識に用いるために公知の方法で学習されたHMMの状態を並べた情報(発音HMMなど)を用いることができる。HMMがモノフォンで学習されている場合は、各発音記号に対応するHMMの状態を並べるだけで良い。HMMがバイフォン、トライフォン、または、4個以上の前後のコンテキストを考慮した発音に対応付けられている場合は、発音変換部101は、同じ個数の前後のコンテキストを考慮して、発音記号をHMM状態列へ変換する。
前後のコンテキストを考慮する場合、HMM状態列への変換には、発音記号列の始端の前と終端の後の発音記号が必要になる。そこで、始端の前と終端の後の発音記号は無音とする。ここでは、無音を「sil」と表すものとする。例えばトライフォンの場合、発音記号列として「a、b、c」が入力されると、発音変換部101は、発音記号列が「sil、a、b、c、sil」であるとしてHMM状態列へ変換する。この例では、発音変換部101は、「sil−a+b」、「a−b+c」、「b−c+sil」の3つのトライフォンに対応するHMMを発音HMMの集合から取り出し、それらを順につなぐことで、HMM状態列を作成する。
HMM変換部102は、HMM状態列をスコアベクトル列へ変換する。例えばHMM変換部102は、HMMの状態間の類似度を定める類似度行列を用いてHMM状態列をスコアベクトル列に変換する。HMMの各状態に1から順に番号が振ってあるとする。状態の番号がxの場合、類似度行列のx列目の列ベクトルが、その状態xに対応するスコアベクトルとなる。HMM変換部102にはHMM状態列が入力される。HMM変換部102は、入力されたHMM状態列の各状態に対してスコアベクトルを求め、求めたスコアベクトルを対応する状態と同じ順で並べたスコアベクトル列を出力する。類似度行列の詳細は後述する。
探索部103は、探索ネットワークに含まれる経路のうち、スコアベクトル列に対するスコア、すなわち、経路上のスコアとスコアベクトル列から得られるスコアを足した値が他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する。探索ネットワークは、HMMの状態がノードまたはアークに対応付けられているネットワークであり、例えばWFSTでは遷移(アーク)の入力記号に対応する。経路上のスコアとは、WFSTにおいては、その経路を構成する遷移の重みの合計値に対応する。探索ネットワークの経路上のスコアがない、例えば、WFSTの遷移の重みがすべて0である場合は、スコアベクトル列から得られるスコアのみを考慮して他の経路より良い経路を探索する。探索部103は、公知の音声認識方法で用いられるデコーダに含まれる探索部(以下、探索部Sという)により構成しても良い。
音声認識で用いられるデコーダは、主に音響スコア計算部と探索部Sを含む。音響スコア計算部は、音声から得られる特徴ベクトル列をスコアベクトル列へ変換する。スコアベクトル列は、入力された音声が特定の発音に類似する度合いを表すスコア(音響スコア、出力確率など)を表すベクトルの列である。探索部Sは、音響スコア計算部により計算されたスコアベクトル列を用いて、入力された音声に近い、探索ネットワーク中の経路を探索し、得られた経路に対応する単語列や発音記号列を出力する。
本実施形態では、探索ネットワークがWFSTで表されているものとする。この場合、探索部103(=探索部S)は、スコアベクトル列から得られるWFSTと探索ネットワークとして与えられるWFSTとを合成したWFSTに含まれる経路のうち、スコアが良い経路を見つける処理を行う。WFSTを探索ネットワークとして用い、最良経路のみを見つけるのであれば、公知であるビタビアルゴリズムを実行すれば良い。WFSTを用いるこのような探索部103は、例えば、非特許文献2に示されている。
探索ネットワークとして用いるWFSTの出力記号が発音記号であれば、探索部103は、入力されるスコアベクトル列に応じた発音記号列を出力する。探索部103は、HMM変換部102から渡されるスコアベクトルのi次元目(iは1以上の整数)の値が状態番号iのHMMの状態の出力確率(または対数出力確率)であるとみなして処理を行う。
HMM変換部102から渡されるスコアベクトルのi次元目の値は、類似度行列から得られる類似度を示すため、確率に基づいた値ではない。しかし、探索部103は、この値を出力確率(スコア)であるとみなせば、公知の音声認識の探索部Sと同様の処理で、スコアが他の経路より良い経路を探索することが可能となる。従って、探索部103は正しく動作する。
本実施形態では、スコアベクトル列が音声から変換されるのではなく、発音記号列から変換される。このため、情報処理装置100は、公知の音声認識方法で用いられるデコーダのうち、音響スコア計算部は備えなくても良く、探索部Sと同様の機能を備える探索部103を備えていればよい。なお、情報処理装置100を音声認識装置に適用する場合は、音声認識装置が備える探索部Sと探索部103を共通化するように構成してもよい。
発音変換部101、HMM変換部102、および、探索部103は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現しても良いし、IC(Integrated Circuit)などのハードウェアにより実現しても良いし、ソフトウェアおよびハードウェアを併用して実現しても良い。
(変換処理のフロー)
次に、このように構成された第1の実施形態にかかる情報処理装置100による変換処理について図2を用いて説明する。図2は、第1の実施形態における変換処理の一例を示すフローチャートである。変換処理は、入力された発音記号列を類似発音記号列に変換する処理である。
発音記号列が入力されると、発音変換部101は、入力された発音記号列をHMM状態列に変換する(ステップS101)。発音変換部101は、上記のように、例えば事前に学習された発音HMMの集合を参照し、各発音記号に対応するHMM状態列を求め、求めたHMM状態列を対応する発音記号の順序で並べることにより、HMM状態列を生成して出力する。
HMM変換部102は、発音変換部101により変換されたHMM状態列を、類似度行列を用いてスコアベクトル列に変換する(ステップS102)。探索部103は、スコアベクトル列を用いて、探索ネットワークに含まれる経路のうち、スコアベクトル列に対するスコアが他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する(ステップS103)。
このように、本実施形態では、音声認識で用いられる音響スコア計算部が算出するスコアベクトル列の代わりに、同様の値を含むスコアベクトル列を、類似度行列を用いて求める。そして、このスコアベクトル列を用いて、従来の音声認識の探索部と同様の方法により、最良の発音記号列を探索する。これにより、入力された発音記号列を類似発音記号列に変換可能となる。
(発音HMMの集合)
次に、発音HMMの集合の詳細について説明する。本実施形態では、発音記号ごとにHMMが存在し、各発音記号のHMMを含む集合を、発音HMMの集合と呼ぶこととする。1つの発音記号に複数のHMMが割り当てられることがある。これは、前後のコンテキストを考慮する場合に発生する。例えば、トライフォンを用いる場合である。トライフォンを用いる場合、発音が音素であり、前後1つの音素コンテキストが考慮される。このため、中心音素が同じであっても、前後の音素が異なると、異なるHMMが対応付けられることがある。
なお、トライフォンより長い音素コンテキストを考慮しても良いし、トライフォンより短い音素コンテキストを考慮するようにしても良い。ただし、このようなコンテキストを考慮したHMMを用いる場合は、発音記号列をHMM状態列へ変換するときに、発音記号列内の各音素の前後のコンテキストを考慮しながらHMM状態列を作成することとなる。これについては前述したとおりである。発音HMMの集合は、一般的に知られている音声認識の発音HMMの作成方法によって作成することができる。
(類似度行列)
次に、類似度行列の詳細について説明する。類似度行列は、発音HMMの各状態間の類似度を表す行列である。音声認識で用いられる発音HMMでは、異なる発音記号に割り当てられているHMM間で状態が共有されることがある。この場合の類似度行列は、共有後の状態間の類似度を表す行列となる。HMMの状態の数(状態が共有される場合は、共有後の状態の数)をK(Kは2以上の整数)とすると、類似度行列はK×Kの行列となる。
各状態に1から順に状態番号を振ると、類似度行列のp行目q列目の成分は、状態pと状態qの類似度を計算することによって得ることができる。なお、類似度行列が大きくなるが、共有前の状態間で類似度行列を作成しても良い。この場合、共有後の状態が同じになる状態の類似度は完全一致を表す値となる。
類似度には、例えば、コサイン類似度を用いることができる。HMMの各状態にベクトルを割り当てると、状態間の類似度は、コサイン類似度を用いて計算することができる。
各状態に割り当てるベクトルは、例えば次のようにして計算することができる。まず、類似度を計算するための音声データが、特徴ベクトル列に変換される。特徴ベクトル(特徴量)はどのような情報であってもよい。例えば、MFCC(Mel Frequency Cepstral Coefficient)、フィルタバンク特徴量、および、SATC(Subband Average Time Cepstrum:帯域別平均時間ケプストラム)などの特徴量を適用することができる。
音声データは、例えばすべての音素HMMを含む音声データなど、HMMの各状態間の類似度を適切に求められるデータであればよい。音声データが長さLsの特徴ベクトル列に変換されたとする。長さLsの特徴ベクトル列を発音HMMの集合に含まれる各HMMの状態に与えることにより、状態ごとにLs個の出力確率(または対数出力確率)が得られる。このLs個の出力確率(または対数出力確率)を成分とするLs次元のベクトルが、HMMの状態を表すベクトル(状態に割り当てられるベクトル)となる。
各状態に割り当てるベクトルの算出、および、算出されたベクトル等を用いた状態間の類似度の算出(類似度行列の算出)は、変換処理を実行する前までに事前に算出される。算出された類似度行列は、情報処理装置100が備える記憶媒体などに記憶されてもよい。なお発音HMMの集合、および、WFSTも情報処理装置100が備える記憶媒体などに記憶されてもよい。
(探索部で使用するWFST)
WFSTを用いる音声認識では、一般的に、HMMを表すWFST(以下、Hとする)、コンテキスト依存の発音をコンテキスト非依存の発音に変換するWFST(以下、Cとする)、単語の発音を表すWFST(以下、Lとする)、および、単語のつながりを表すWFST(以下、Gとする)を合成および最適化したWFSTが用いられる。本実施形態では、LおよびGは不要である。代わりに、受理できる音素(出力する発音記号列)の制約を表すWFST(以下、Rとする)を導入する。従って、探索部103が用いるWFSTは、H・C・Rとなる。ここで記号「・」は、WFSTの合成演算を表す。合成演算には、公知の方法を適用できる。
H・C・Rに公知の決定化処理や最小化処理を実施することで小さくしたWFSTを探索部103が用いるようにしても良い。なお、コンテキスト非依存の発音記号に対してHMMが割り当てられている場合、Cは不要である。探索部103は、前述したように公知の音声認識で用いられるデコーダの探索部Sで実現できる。同様に、N番目に良い認識結果を取得する方法も知られている。従って、入力した発音記号列に対してN番目に類似する発音記号列も、同様の方法で実現することができる。その場合、Rを導入しなくとも、類似発音記号列を得ることができる。探索部103が用いるWFSTをH・Cとし、2番目以降に類似する発音記号列を処理結果として出力するだけで良いからである。
一方、出力する発音記号列に制約をかける場合は、Rを用いる必要がある。例えば、子音の後には必ず母音がくるという制約をかければ、その制約を満たす発音記号列のうち、入力された発音記号列に類似する発音記号列が、出力される発音記号列となる。もし、入力される発音記号列に子音が連続する箇所があれば、その制約を満たすように子音の一部が母音に置き換わった発音記号列が出力される。
図3は、このようなR(受理できる音素の制約を表すWFST)の一例を示す図である。図3では簡略化のため、母音として、「a」、「i」、「u」の3つ、子音として「b」、「k」、「t」の3つのみを記載している。また、初期状態および終了状態とも状態1であるとしている。状態1から状態1への自己遷移には母音である「a」、「i」、「u」が入力記号および出力記号に割り当てられている。状態1から状態2への遷移には子音である「b」、「k」、「t」が入力記号および出力記号に割り当てられている。状態2から状態1への遷移には母音である「a」、「i」、「u」が入力記号および出力記号に割り当てられている。
子音が割り当てられている状態2から出ていく遷移は存在しないため、子音の後には母音しかこないという制約が実現できている。なお、重みの記載は省略している。制約をかけるだけであるので、重みは不要であるからである。
制約は図3のような例に限られるものではなく、どのような制約であってもよい。例えば、長さがM(Mは1以上の整数)以上の発音記号列について、処理対象とする言語の語彙に含まれる単語から構成される単語列に現れる長さがMまたはM以上の発音記号列から構成される発音記号列のみを受理するという制約を表すRを用いてもよい。また、長さがM以上の発音記号列について、処理対象とする言語の語彙に含まれる単語のうち、使用頻度が一定値以上の単語から構成される単語列に現れる長さがMまたはM以上の発音記号列から構成される発音記号列のみを受理するという制約を表すRを用いてもよい。また、発音記号の種類の数をN(Nは1以上の整数)とするとき、長さがMの発音記号列の種類の数がN未満となる発音記号列のみを受理するという制約を表すRを用いてもよい。このような制約を表すRを用いると、対象となる言語で使用できない発音記号列を、それに類似し、使用できる発音記号列へ変換することができる。
一例として、対象とする言語が使用する発音記号が「a」、「b」、「c」の3つのみであるとする。さらに、M=2とするとき、その言語で出現する発音記号の組み合わせは、「ab」、「bc」、「ca」、「aa」のみであるとする。図4は、この場合のR(受理できる音素の制約を表すWFST)の一例を示す図である。状態1が初期状態、状態2から4が終了状態である。このRでは、例えば、発音記号列「aaabc」は受理されるが、発音記号列「cac」は受理されない。最初の「c」で状態1から4に、次の「a」で状態4から2へ遷移できるが、最後の「c」を入力記号に持つ遷移は状態2には存在しないためである。なお、Mより短い「a」、「b」、「c」は全て受理される。
制約によっては、CとRとを合成したWFSTを直接作成することもできる。この場合、探索部103が用いるWFSTはH・Cとなる。例えば、発音記号が音素であって、コンテキスト依存音素がトライフォンである場合を考える。この場合、Cはトライフォンをコンテキスト非依存の音素、すなわち、モノフォンに変換するWFSTとなる。このWFSTの入力記号はトライフォンであり、出力記号はモノフォンである。制約がトライフォンの単位で表せる場合、制約を満たさないトライフォンを入力記号に持つ遷移をCから除去する。言い換えると、制約を満たすトライフォンのみでCを構成するということである。このようにすると、Rを導入することなく、情報処理装置100が出力する発音記号列に制約をかけることができる。
(具体例)
図5を一例として参照しつつ、類似発音記号列を得る処理の具体例について説明する。この例では、発音記号列は音素列であるとする。また、4つの音素を含む音素列501が入力されるものとする。
音声認識では、各音素に対して「left-to-right」の3状態のHMMを割り当てることが多い。そこで、この例でも同じHMMを用いる。そうすると、1音素につき3つの状態が割り当てられることとなり、12個の状態から成るHMM状態列が得られる。音声認識で用いられる音素HMMでは、異なる音素に割り当てられているHMM間で状態を共有することがある。図5の丸の中に記載している番号は、この共有後の状態の番号である。また、理解を容易にするために、HMMに遷移を表す矢印を記載しているが、実際には、各状態に割り当てられている共有後の状態番号を保持しておくだけで良い。この例では、発音変換部101は、音素列501を、「2,7,6,1,4,5,2,9,6,3,7,5」という数列に変換する。この数列がHMM状態列に相当する。
次に、HMM変換部102は、類似度行列を用いて、HMM状態列(数列)をスコアベクトル列に変換する。HMM変換部102は、類似度行列の各列ベクトルから、数列に含まれる各番号に対応する列ベクトルを順次抽出して並べることにより、スコアベクトル列を求める。図5の例では、HMM変換部102は、2列目の列ベクトル、7列目の列ベクトル、6列目の列ベクトル・・・というようにHMM状態列に含まれる各状態と同じ順で、各状態の状態番号に対応する列ベクトルを並べることで、スコアベクトル列を得る。スコアベクトル内の数値iは、類似度行列のi列目の列ベクトルであることを示している。
このように作成されたスコアベクトル列を探索部103に入力すると、音声認識と同じ処理によって、WFSTで規定される制約に従った類似の音素列を得ることができる。音素列502は、このようにして求められた音素列501に類似する音素列の例である。この例では、音素列501に含まれる最初の2つの音素列が認識できないという制約を持つWFST(R)を用いているとした。この場合、例えばこの2つの音素列に最も近いと思われる音素列「do」が代わりに出力される。
このように、第1の実施形態にかかる情報処理装置では、発音記号列を入力すると類似発音記号列を得ることが可能となる。
(第2の実施形態)
第2の実施形態では、類似の発音記号列を得る処理を利用する認識装置の例を説明する。音声は、公知の音声認識技術により単語列へ変換することができる。このとき、似た発音の2つの音声をそれぞれ異なる単語列へ変換することは、まったく似ていない発音の2つの音声をそれぞれ異なる単語列へ変換することに比べ難しい。逆に、音声認識装置に登録されている単語の発音記号列が正しい発音記号列から少しだけ異なっていても、その単語は認識されうる。
認識できる語彙に新たな単語を追加することができる音声認識装置が知られている。追加する単語の発音は発音記号列によって指定される。このような音声認識装置のうち、WFSTを用いる装置が知られている(例えば、非特許文献3)。
また、このような音声認識装置において新たに追加された単語を認識するためにサブワードを認識できる経路をWFSTに含める方法がある。サブワードは単語を構成する要素である。例えば音素、音節、および、それらを繋げた要素などがサブワードに相当する。サブワードが発音記号であれば、入力された音声に対応する発音記号列が得られる。得られた発音記号列が新たに追加された単語の発音記号列と一致すれば、認識結果として、新たに追加された単語が出力される。
任意の発音記号列を出力できるようにサブワードを認識するための経路を構成するとWFSTが大きくなる。このため、サブワードを認識するための経路によって認識できる発音記号列に何らかの制約をつける場合がある。このような制約をつけると、WFSTを小さくできる一方、制約を外れる発音記号列をもつ単語を認識できなくなる。
例えば、音声認識の対象とする言語において使用される頻度が高い発音記号列のみを認識するように制約をかけたサブワードを認識するための経路で構成されるWFSTは、制約をかけないサブワードを認識するための経路で構成されるWFSTに比べて小さくすることができる。このとき、制約を満たさない発音記号列をもつ単語が追加されても、その単語は決して認識されない。そこで、第1の実施形態で述べた情報処理装置100を用いることで、制約を満たさない発音記号列を、制約を満たす発音記号列に変換する。そして、変換後の発音記号列を、追加する単語の発音記号列とする。前述したように、ある発音記号列で表される単語は、それに似た発音記号列でも認識される可能性がある。そのため、このように変換された発音記号列で追加された単語は、変換前の発音記号列にしたがった音声が入力されると、音声認識装置によって認識されうる。
(装置構成)
図6は、本実施形態の認識システムの構成例を示すブロック図である。図6に示すように、認識システムは、情報処理装置100と、音声認識装置200と、語彙変換部300と、を備えている。
情報処理装置100は、第1の実施形態と同様の機能を備えるため、同一の符号を付し説明を省略する。本実施形態では、情報処理装置100は、制約を満たさない発音記号列が割り当てられる可能性がある追加語彙に含まれる単語の発音記号列を、制約を満たす類似発音記号列へ変換する処理に利用される。
音声認識装置200は、フロントエンド201と、デコーダ210とを備えている。フロントエンド201は、入力された音声から音声区間を検出する処理、および、検出した区間に対する特徴量(特徴ベクトル)を抽出する処理などを実行する。デコーダ210は、基礎WFSTと追加WFSTと、フロントエンド201から渡される特徴ベクトルを用いて、入力された音声に最も近いと考えられる単語列を認識結果として出力する。
基礎WFSTは、音声認識で用いられる公知のWFSTにサブワードを認識するための経路を含んだWFSTである。追加WFSTは、基礎WFSTでは認識できない追加語彙を認識するためのWFSTである。追加WFSTは、追加語彙に基づき語彙変換部300によって作成される。
語彙変換部300は、発音が変換された後の追加語彙に基づき追加WFSTを作成する。例えば語彙変換部300は、追加語彙を変換し、サブワードとクラスを入力記号とし、単語を出力記号とする経路を含む追加WFSTを生成する。
デコーダ210は、音響スコア計算部211と、探索部212と、合成部213と、を備えている。音響スコア計算部211は、音声から得られる特徴ベクトル列をスコアベクトル列へ変換する。合成部213は、基礎WFSTと追加WFSTとを用いて、少なくとも探索部212が必要とする部分を含むWFSTを合成し、探索部212から参照できるようにする。探索部212は、上記探索部Sおよび探索部103と同様に、音響スコア計算部211により計算されたスコアベクトル列を用いて、入力された音声に近い、探索ネットワーク(合成部213により合成されたWFST)中の経路を探索し、得られた経路に対応する単語列や発音記号列を出力する。
なお、新たに追加された単語を認識可能とする方法は、図6に示す方法に限られるものではなく、従来から用いられているあらゆる方法を適用できる。例えば、非特許文献3の方法の他、Lに追加単語を追加する方法、および、Lには追加単語を追加せずGに追加単語に関する経路を埋め込む方法などを適用してもよい。
基礎WFSTに含まれるサブワードを認識するための経路によって認識できる発音記号列に制約がある場合、情報処理装置100は、その制約を表すRによって制約をかけたH・C・Rを用いて発音記号列を変換する。または、情報処理装置100は、制約付きのCを直接作成し、H・Cを用いて発音記号列を変換する。なお、コンテキスト非依存の発音記号に対してHMMが割り当てられている場合、Cは不要である。
情報処理装置100が利用するWFSTの作成に使用されるHの元となる発音HMMの集合には、基礎WFSTの作成に使用されるHの元となる発音HMMの集合を用いる。これにより、音声認識装置が区別しにくい類似発音記号列を得ることができる。
以上のように、サブワードを認識するための経路によってかけられる制約と情報処理装置100の出力にかけられる制約を一致させることで、任意の発音記号列の単語を認識することができるようになる。
図6のシステム構成は一例であり、これに限られるものではない。例えば、音声認識装置200が、情報処理装置100および語彙変換部300の少なくとも一方の機能を備えるように構成してもよい。音声認識装置200の探索部212と、情報処理装置100の探索部103は同様の機能を備えるため、1つに共通化してもよい。
このように、第2の実施形態にかかる認識システムでは、音声認識装置が認識できない発音記号列が割り当てられている単語であっても、認識可能な類似発音記号列へ変換することで認識できるようになる。
以上説明したとおり、第1から第2の実施形態によれば、発音記号列に類似する発音記号列を得ることが可能となる。
次に、第1または第2の実施形態にかかる情報処理装置100のハードウェア構成について図7を用いて説明する。図7は、第1または第2の実施形態にかかる情報処理装置100のハードウェア構成例を示す説明図である。
図7に示されるように、情報処理装置100は、CPU(Central Processing Unit)1、操作部2、表示部3、ROM(Read Only Memory)4、RAM(Random Access Memory)5、記憶部6、および、バス7等を備えている。各部はバス7により接続されている。
CPU1は、RAM5の所定領域を作業領域として、ROM4または記憶部6に予め記憶された各種制御プログラムとの協働により各種処理を実行し、情報処理装置100を構成する各部の動作を統括的に制御する。またCPU1は、ROM4または記憶部6に予め記憶された所定のプログラムとの協働により後述する各機能部の機能を実現させる。
操作部2は、マウスやキーボード等の入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をCPU1に出力する。
表示部3は、LCD(Liquid Crystal Display)等の表示装置により構成され、CPU1からの表示信号に基づいて、各種情報を表示する。
ROM4は、情報処理装置100の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。
RAM5は、SDRAM等の揮発性の記憶媒体であって、CPU1の作業エリアとして機能する。具体的には、発音変換時、HMM変換時、探索時に使用される各種変数やパラメータの値等を一時記憶するバッファ等の役割を果たす。
記憶部6は、フラッシュメモリ等の半導体による記憶媒体や、磁気的または光学的に記録可能な記憶媒体を有し、発音記号列変換装置の制御にかかるプログラムや各種設定情報等を書き換え可能に記憶する。また記憶部6は、発音HMMの集合や、類似度行列、WFSTに係る各種の情報を予め記憶したり、入力された発音記号列に対して行った演算結果を記録したりする。
本実施形態の各装置の一部または全部は、異なるハードウェア上で動作するよう構成してもよいし、同じハードウェア上で動作するよう構成してもよい。
第2の実施形態の音声認識装置200および語彙変換部300も、情報処理装置100と同様のハードウェア構成とすることができる。音声認識装置200は、音声データを取得するために、さらに録音部を備えていても良い。録音部は、例えば、マイクロフォンや通信装置によって実現することができる。
第1または第2の実施形態にかかる各装置(情報処理装置、音声認識装置等)で実行されるプログラムは、ROM4等に予め組み込まれて提供される。
第1または第2の実施形態にかかる装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成しても良い。
さらに、第1または第2の実施形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、第1または第2の実施形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
第1または第2の実施形態にかかる装置で実行されるプログラムは、コンピュータを上述した装置の各部として機能させうる。このコンピュータは、CPUがコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 情報処理装置
101 発音変換部
102 HMM変換部
103 探索部
200 音声認識装置
201 フロントエンド
210 デコーダ
211 音響スコア計算部
212 探索部
213 合成部
300 語彙変換部

Claims (12)

  1. 発音記号列を隠れマルコフモデルの状態を並べたHMM状態列へ変換する発音変換部と、
    隠れマルコフモデルの状態間の類似度を定める類似度行列を用いて、前記HMM状態列を、特定の発音に類似する度合いを表すスコアベクトル列に変換するHMM変換部と、
    探索ネットワークに含まれる経路のうち、前記スコアベクトル列に対するスコアが他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する探索部と、
    を備える情報処理装置。
  2. 前記探索ネットワークは、重み付き有限状態トランスデューサである、
    請求項1に記載の情報処理装置。
  3. 前記探索ネットワークは、出力する発音記号列の制約を含む第1重み付き有限状態トランスデューサを用いて生成される重み付き有限状態トランスデューサである、
    請求項1に記載の情報処理装置。
  4. 前記探索ネットワークは、前記第1重み付き有限状態トランスデューサ、隠れマルコフモデルを表す第2重み付き有限状態トランスデューサ、および、コンテキスト依存の発音記号からコンテキスト非依存の発音記号へ変換する第3重み付き有限状態トランスデューサを合成した重み付き有限状態トランスデューサである、
    請求項3に記載の情報処理装置。
  5. 前記第1重み付き有限状態トランスデューサは、発音記号の種類の数をN(Nは1以上の整数)とするとき、長さがM(Mは1以上の整数)の発音記号列の種類の数がN未満となる発音記号列のみを受理する、
    請求項3に記載の情報処理装置。
  6. 前記第1重み付き有限状態トランスデューサは、長さM(Mは1以上の整数)以上の発音記号列について、処理対象とする言語の語彙に含まれる単語から構成される単語列に現れる長さMまたはM以上の発音記号列から構成される発音記号列のみを受理する、
    請求項3に記載の情報処理装置。
  7. 前記第1重み付き有限状態トランスデューサは、長さM(Mは1以上の整数)以上の発音記号列について、処理対象とする言語の語彙に含まれる単語のうち、使用頻度が一定値以上の単語から構成される単語列に現れる長さMまたはM以上の発音記号列から構成される発音記号列のみを受理する、
    請求項3に記載の情報処理装置。
  8. 前記探索ネットワークは、隠れマルコフモデルを表す第2重み付き有限状態トランスデューサ、および、コンテキスト非依存の発音記号で表すことができるコンテキスト依存の発音記号のうち、一部のコンテキスト依存の発音記号のみを受理する第3重み付き有限状態トランスデューサを合成した重み付き有限状態トランスデューサである、
    請求項1に記載の情報処理装置。
  9. 前記探索部は、前記スコアベクトル列に含まれるスコアベクトルのi次元目(iは1以上の整数)の値を隠れマルコフモデルの状態iの出力確率であるとみなして経路を探索する、
    請求項1に記載の情報処理装置。
  10. 情報処理装置と認識装置とを備える認識システムであって、
    前記情報処理装置は、
    追加される単語の発音記号列を隠れマルコフモデルの状態を並べたHMM状態列へ変換する発音変換部と、
    隠れマルコフモデルの状態間の類似度を定める類似度行列を用いて、前記HMM状態列を、特定の発音に類似する度合いを表すスコアベクトル列に変換するHMM変換部と、
    探索ネットワークに含まれる経路のうち、前記スコアベクトル列に対するスコアが他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する探索部と、を備え、
    前記認識装置は、
    前記探索部により出力された発音記号列を、前記単語の発音記号列として設定し、前記単語を認識対象として登録する登録部を備える、
    認識システム。
  11. 発音記号列を隠れマルコフモデルの状態を並べたHMM状態列へ変換する発音変換ステップと、
    隠れマルコフモデルの状態間の類似度を定める類似度行列を用いて、前記HMM状態列を、特定の発音に類似する度合いを表すスコアベクトル列に変換するHMM変換ステップと、
    探索ネットワークに含まれる経路のうち、前記スコアベクトル列に対するスコアが他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する探索ステップと、
    を含む情報処理方法。
  12. コンピュータを、
    発音記号列を隠れマルコフモデルの状態を並べたHMM状態列へ変換する発音変換部と、
    隠れマルコフモデルの状態間の類似度を定める類似度行列を用いて、前記HMM状態列を、特定の発音に類似する度合いを表すスコアベクトル列に変換するHMM変換部と、
    探索ネットワークに含まれる経路のうち、前記スコアベクトル列に対するスコアが他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する探索部、
    として機能させるためのプログラム。
JP2016049424A 2016-03-14 2016-03-14 情報処理装置、情報処理方法、プログラムおよび認識システム Active JP6495850B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016049424A JP6495850B2 (ja) 2016-03-14 2016-03-14 情報処理装置、情報処理方法、プログラムおよび認識システム
US15/390,232 US10319373B2 (en) 2016-03-14 2016-12-23 Information processing device, information processing method, computer program product, and recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016049424A JP6495850B2 (ja) 2016-03-14 2016-03-14 情報処理装置、情報処理方法、プログラムおよび認識システム

Publications (2)

Publication Number Publication Date
JP2017167188A JP2017167188A (ja) 2017-09-21
JP6495850B2 true JP6495850B2 (ja) 2019-04-03

Family

ID=59787005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016049424A Active JP6495850B2 (ja) 2016-03-14 2016-03-14 情報処理装置、情報処理方法、プログラムおよび認識システム

Country Status (2)

Country Link
US (1) US10319373B2 (ja)
JP (1) JP6495850B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018013590A (ja) 2016-07-20 2018-01-25 株式会社東芝 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ
JP6920928B2 (ja) 2017-08-31 2021-08-18 曙ブレーキ工業株式会社 摩擦材の製造方法
WO2019129520A1 (en) * 2017-12-28 2019-07-04 Datawalk Spolka Akcyjna Systems and methods for combining data analyses
US20190327330A1 (en) 2018-04-20 2019-10-24 Facebook, Inc. Building Customized User Profiles Based on Conversational Data
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11307880B2 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
CN108899028A (zh) * 2018-06-08 2018-11-27 广州视源电子科技股份有限公司 语音唤醒方法、搜索方法、装置和终端
CN109326277B (zh) * 2018-12-05 2022-02-08 四川长虹电器股份有限公司 半监督的音素强制对齐模型建立方法及系统
US11172294B2 (en) * 2019-12-27 2021-11-09 Bose Corporation Audio device with speech-based audio signal processing
CN111862958B (zh) * 2020-08-07 2024-04-02 广州视琨电子科技有限公司 发音插入错误检测方法、装置、电子设备及存储介质
JP2022074509A (ja) * 2020-11-04 2022-05-18 株式会社東芝 差分抽出装置、方法及びプログラム
CN112927679B (zh) * 2021-02-07 2023-08-15 虫洞创新平台(深圳)有限公司 一种语音识别中添加标点符号的方法及语音识别装置

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5274739A (en) * 1990-05-22 1993-12-28 Rockwell International Corporation Product code memory Itakura-Saito (MIS) measure for sound recognition
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
DE69326431T2 (de) * 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
GB2348035B (en) * 1999-03-19 2003-05-28 Ibm Speech recognition system
JP2001195087A (ja) 2000-01-06 2001-07-19 Mitsubishi Electric Corp 音声認識システム
JP2003005787A (ja) 2001-06-20 2003-01-08 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識プログラム
JP2003131693A (ja) 2001-10-25 2003-05-09 Sony Corp 音声認識装置及び音声認識方法
JP2004317845A (ja) 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2006084942A (ja) * 2004-09-17 2006-03-30 Nippon Telegr & Teleph Corp <Ntt> 変換情報生成方法、音素系列生成方法、音声認識方法、ならびにこれらの装置、及びプログラム
US7912713B2 (en) * 2004-12-28 2011-03-22 Loquendo S.P.A. Automatic speech recognition system and method using weighted confidence measure
EP1889255A1 (en) * 2005-05-24 2008-02-20 Loquendo S.p.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
JP5040909B2 (ja) * 2006-02-23 2012-10-03 日本電気株式会社 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
CN101622660A (zh) * 2007-02-28 2010-01-06 日本电气株式会社 语音识别装置、语音识别方法及语音识别程序
JP4405542B2 (ja) * 2007-10-24 2010-01-27 株式会社東芝 音素モデルをクラスタリングする装置、方法およびプログラム
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US8630971B2 (en) * 2009-11-20 2014-01-14 Indian Institute Of Science System and method of using Multi Pattern Viterbi Algorithm for joint decoding of multiple patterns
JP2011199847A (ja) * 2010-02-25 2011-10-06 Ricoh Co Ltd 会議システムの端末装置、会議システム
CN103650033B (zh) * 2011-06-30 2016-10-26 谷歌公司 使用可变长度语境的语音识别
KR20130059476A (ko) 2011-11-28 2013-06-07 한국전자통신연구원 음성 인식용 탐색 공간 생성 방법 및 장치
US8951842B2 (en) 2012-01-12 2015-02-10 Micron Technology, Inc. Semiconductor growth substrates and associated systems and methods for die singulation
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9594744B2 (en) * 2012-11-28 2017-03-14 Google Inc. Speech transcription including written text
US9159314B2 (en) * 2013-01-14 2015-10-13 Amazon Technologies, Inc. Distributed speech unit inventory for TTS systems
KR20140147587A (ko) * 2013-06-20 2014-12-30 한국전자통신연구원 Wfst를 이용한 음성 끝점 검출 장치 및 방법
US9311915B2 (en) * 2013-07-31 2016-04-12 Google Inc. Context-based speech recognition
US10438581B2 (en) * 2013-07-31 2019-10-08 Google Llc Speech recognition using neural networks
HUP1300501A1 (hu) * 2013-08-26 2015-03-02 Pannon Szoftver Kft Automataelméleti alapú kriptográfiai berendezés és eljárás információk titkosítására és visszafejtésére
US9466288B2 (en) * 2013-08-28 2016-10-11 Texas Instruments Incorporated Comparing differential ZC count to database to detect expected sound
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US9620145B2 (en) * 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network
US9177549B2 (en) * 2013-11-01 2015-11-03 Google Inc. Method and system for cross-lingual voice conversion
US10019985B2 (en) * 2013-11-04 2018-07-10 Google Llc Asynchronous optimization for sequence training of neural networks
JP6404564B2 (ja) 2013-12-24 2018-10-10 株式会社東芝 デコーダ、デコード方法およびプログラム
JP6301647B2 (ja) * 2013-12-24 2018-03-28 株式会社東芝 探索装置、探索方法およびプログラム
JP6315980B2 (ja) 2013-12-24 2018-04-25 株式会社東芝 デコーダ、デコード方法およびプログラム
JP6301664B2 (ja) 2014-01-31 2018-03-28 株式会社東芝 変換装置、パターン認識システム、変換方法およびプログラム
CN104866465B (zh) * 2014-02-25 2017-11-03 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
US9401143B2 (en) * 2014-03-24 2016-07-26 Google Inc. Cluster specific speech model
US9858922B2 (en) * 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9672810B2 (en) * 2014-09-26 2017-06-06 Intel Corporation Optimizations to decoding of WFST models for automatic speech recognition
US9570065B2 (en) * 2014-09-29 2017-02-14 Nuance Communications, Inc. Systems and methods for multi-style speech synthesis
JP6453631B2 (ja) 2014-11-28 2019-01-16 株式会社東芝 認識システム、認識方法およびプログラム
EP3038106B1 (en) * 2014-12-24 2017-10-18 Nxp B.V. Audio signal enhancement
JP6580882B2 (ja) 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing

Also Published As

Publication number Publication date
US20170263242A1 (en) 2017-09-14
JP2017167188A (ja) 2017-09-21
US10319373B2 (en) 2019-06-11

Similar Documents

Publication Publication Date Title
JP6495850B2 (ja) 情報処理装置、情報処理方法、プログラムおよび認識システム
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
WO2017213055A1 (ja) 音声認識装置及びコンピュータプログラム
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP5282737B2 (ja) 音声認識装置および音声認識方法
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP6453631B2 (ja) 認識システム、認識方法およびプログラム
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
KR20080018622A (ko) 휴대용 단말기의 음성 인식 시스템
JP2016218309A (ja) 音声認識装置及びコンピュータプログラム
KR102094935B1 (ko) 음성 인식 시스템 및 방법
JP2019219574A (ja) 話者モデル作成システム、認識システム、プログラムおよび制御装置
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP4283133B2 (ja) 音声認識装置
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
JP2011180308A (ja) 音声認識装置及び記録媒体
CN111816164A (zh) 用于语音识别的方法及设备
JP6995967B2 (ja) 生成装置、認識システム、および、有限状態トランスデューサの生成方法
JP2018013590A (ja) 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190307

R151 Written notification of patent or utility model registration

Ref document number: 6495850

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151