JP6495850B2 - 情報処理装置、情報処理方法、プログラムおよび認識システム - Google Patents
情報処理装置、情報処理方法、プログラムおよび認識システム Download PDFInfo
- Publication number
- JP6495850B2 JP6495850B2 JP2016049424A JP2016049424A JP6495850B2 JP 6495850 B2 JP6495850 B2 JP 6495850B2 JP 2016049424 A JP2016049424 A JP 2016049424A JP 2016049424 A JP2016049424 A JP 2016049424A JP 6495850 B2 JP6495850 B2 JP 6495850B2
- Authority
- JP
- Japan
- Prior art keywords
- phonetic symbol
- hmm
- symbol string
- information processing
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 48
- 238000003672 processing method Methods 0.000 title claims description 3
- 239000013598 vector Substances 0.000 claims description 64
- 238000006243 chemical reaction Methods 0.000 claims description 54
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 33
- 238000004364 calculation method Methods 0.000 description 13
- 230000007704 transition Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- RRLHMJHRFMHVNM-BQVXCWBNSA-N [(2s,3r,6r)-6-[5-[5-hydroxy-3-(4-hydroxyphenyl)-4-oxochromen-7-yl]oxypentoxy]-2-methyl-3,6-dihydro-2h-pyran-3-yl] acetate Chemical compound C1=C[C@@H](OC(C)=O)[C@H](C)O[C@H]1OCCCCCOC1=CC(O)=C2C(=O)C(C=3C=CC(O)=CC=3)=COC2=C1 RRLHMJHRFMHVNM-BQVXCWBNSA-N 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第1の実施形態では、与えられた発音記号列に類似する発音記号列(類似発音記号列)を得ることを可能とする。第1の実施形態の情報処理装置は、音声に対応する発音記号列を出力する音声認識装置の機能の一部を利用する。また第1の実施形態の情報処理装置は、発音記号列を音声認識装置に入力するスコアベクトル列へ変換する処理において、類似度行列を導入する。これらの機能により、発音記号列を入力すると類似発音記号列を得ることが可能となる。
発音記号とは発音を表す記号である。例えば、音声記号、音素記号、および、音節記号が、発音記号に相当する。発音記号はこれらに限られず、発音を表すことができればどのような記号を用いても良い。例えば、国際音声記号、SAMPA(Speech Assessment Methods Phonetic Alphabet)、および、X−SAMPA(Extended SAM Phonetic Alphabet)などを発音記号として用いても良い。使用する発音に対して数字を割り当てておき、それらの数字を発音記号として用いることもできる。日本語であれば、ひらがなやカタカナを発音記号として用いても良い。
図1は、本実施形態の情報処理装置100の構成例を示すブロック図である。図1に示すように、情報処理装置100は、発音変換部101と、HMM変換部102と、探索部103と、を備えている。
次に、このように構成された第1の実施形態にかかる情報処理装置100による変換処理について図2を用いて説明する。図2は、第1の実施形態における変換処理の一例を示すフローチャートである。変換処理は、入力された発音記号列を類似発音記号列に変換する処理である。
次に、発音HMMの集合の詳細について説明する。本実施形態では、発音記号ごとにHMMが存在し、各発音記号のHMMを含む集合を、発音HMMの集合と呼ぶこととする。1つの発音記号に複数のHMMが割り当てられることがある。これは、前後のコンテキストを考慮する場合に発生する。例えば、トライフォンを用いる場合である。トライフォンを用いる場合、発音が音素であり、前後1つの音素コンテキストが考慮される。このため、中心音素が同じであっても、前後の音素が異なると、異なるHMMが対応付けられることがある。
次に、類似度行列の詳細について説明する。類似度行列は、発音HMMの各状態間の類似度を表す行列である。音声認識で用いられる発音HMMでは、異なる発音記号に割り当てられているHMM間で状態が共有されることがある。この場合の類似度行列は、共有後の状態間の類似度を表す行列となる。HMMの状態の数(状態が共有される場合は、共有後の状態の数)をK(Kは2以上の整数)とすると、類似度行列はK×Kの行列となる。
WFSTを用いる音声認識では、一般的に、HMMを表すWFST(以下、Hとする)、コンテキスト依存の発音をコンテキスト非依存の発音に変換するWFST(以下、Cとする)、単語の発音を表すWFST(以下、Lとする)、および、単語のつながりを表すWFST(以下、Gとする)を合成および最適化したWFSTが用いられる。本実施形態では、LおよびGは不要である。代わりに、受理できる音素(出力する発音記号列)の制約を表すWFST(以下、Rとする)を導入する。従って、探索部103が用いるWFSTは、H・C・Rとなる。ここで記号「・」は、WFSTの合成演算を表す。合成演算には、公知の方法を適用できる。
図5を一例として参照しつつ、類似発音記号列を得る処理の具体例について説明する。この例では、発音記号列は音素列であるとする。また、4つの音素を含む音素列501が入力されるものとする。
第2の実施形態では、類似の発音記号列を得る処理を利用する認識装置の例を説明する。音声は、公知の音声認識技術により単語列へ変換することができる。このとき、似た発音の2つの音声をそれぞれ異なる単語列へ変換することは、まったく似ていない発音の2つの音声をそれぞれ異なる単語列へ変換することに比べ難しい。逆に、音声認識装置に登録されている単語の発音記号列が正しい発音記号列から少しだけ異なっていても、その単語は認識されうる。
図6は、本実施形態の認識システムの構成例を示すブロック図である。図6に示すように、認識システムは、情報処理装置100と、音声認識装置200と、語彙変換部300と、を備えている。
101 発音変換部
102 HMM変換部
103 探索部
200 音声認識装置
201 フロントエンド
210 デコーダ
211 音響スコア計算部
212 探索部
213 合成部
300 語彙変換部
Claims (12)
- 発音記号列を隠れマルコフモデルの状態を並べたHMM状態列へ変換する発音変換部と、
隠れマルコフモデルの状態間の類似度を定める類似度行列を用いて、前記HMM状態列を、特定の発音に類似する度合いを表すスコアベクトル列に変換するHMM変換部と、
探索ネットワークに含まれる経路のうち、前記スコアベクトル列に対するスコアが他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する探索部と、
を備える情報処理装置。 - 前記探索ネットワークは、重み付き有限状態トランスデューサである、
請求項1に記載の情報処理装置。 - 前記探索ネットワークは、出力する発音記号列の制約を含む第1重み付き有限状態トランスデューサを用いて生成される重み付き有限状態トランスデューサである、
請求項1に記載の情報処理装置。 - 前記探索ネットワークは、前記第1重み付き有限状態トランスデューサ、隠れマルコフモデルを表す第2重み付き有限状態トランスデューサ、および、コンテキスト依存の発音記号からコンテキスト非依存の発音記号へ変換する第3重み付き有限状態トランスデューサを合成した重み付き有限状態トランスデューサである、
請求項3に記載の情報処理装置。 - 前記第1重み付き有限状態トランスデューサは、発音記号の種類の数をN(Nは1以上の整数)とするとき、長さがM(Mは1以上の整数)の発音記号列の種類の数がNM未満となる発音記号列のみを受理する、
請求項3に記載の情報処理装置。 - 前記第1重み付き有限状態トランスデューサは、長さM(Mは1以上の整数)以上の発音記号列について、処理対象とする言語の語彙に含まれる単語から構成される単語列に現れる長さMまたはM以上の発音記号列から構成される発音記号列のみを受理する、
請求項3に記載の情報処理装置。 - 前記第1重み付き有限状態トランスデューサは、長さM(Mは1以上の整数)以上の発音記号列について、処理対象とする言語の語彙に含まれる単語のうち、使用頻度が一定値以上の単語から構成される単語列に現れる長さMまたはM以上の発音記号列から構成される発音記号列のみを受理する、
請求項3に記載の情報処理装置。 - 前記探索ネットワークは、隠れマルコフモデルを表す第2重み付き有限状態トランスデューサ、および、コンテキスト非依存の発音記号で表すことができるコンテキスト依存の発音記号のうち、一部のコンテキスト依存の発音記号のみを受理する第3重み付き有限状態トランスデューサを合成した重み付き有限状態トランスデューサである、
請求項1に記載の情報処理装置。 - 前記探索部は、前記スコアベクトル列に含まれるスコアベクトルのi次元目(iは1以上の整数)の値を隠れマルコフモデルの状態iの出力確率であるとみなして経路を探索する、
請求項1に記載の情報処理装置。 - 情報処理装置と認識装置とを備える認識システムであって、
前記情報処理装置は、
追加される単語の発音記号列を隠れマルコフモデルの状態を並べたHMM状態列へ変換する発音変換部と、
隠れマルコフモデルの状態間の類似度を定める類似度行列を用いて、前記HMM状態列を、特定の発音に類似する度合いを表すスコアベクトル列に変換するHMM変換部と、
探索ネットワークに含まれる経路のうち、前記スコアベクトル列に対するスコアが他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する探索部と、を備え、
前記認識装置は、
前記探索部により出力された発音記号列を、前記単語の発音記号列として設定し、前記単語を認識対象として登録する登録部を備える、
認識システム。 - 発音記号列を隠れマルコフモデルの状態を並べたHMM状態列へ変換する発音変換ステップと、
隠れマルコフモデルの状態間の類似度を定める類似度行列を用いて、前記HMM状態列を、特定の発音に類似する度合いを表すスコアベクトル列に変換するHMM変換ステップと、
探索ネットワークに含まれる経路のうち、前記スコアベクトル列に対するスコアが他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する探索ステップと、
を含む情報処理方法。 - コンピュータを、
発音記号列を隠れマルコフモデルの状態を並べたHMM状態列へ変換する発音変換部と、
隠れマルコフモデルの状態間の類似度を定める類似度行列を用いて、前記HMM状態列を、特定の発音に類似する度合いを表すスコアベクトル列に変換するHMM変換部と、
探索ネットワークに含まれる経路のうち、前記スコアベクトル列に対するスコアが他の経路より良い経路を探索し、探索した経路に対応する発音記号列を出力する探索部、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016049424A JP6495850B2 (ja) | 2016-03-14 | 2016-03-14 | 情報処理装置、情報処理方法、プログラムおよび認識システム |
US15/390,232 US10319373B2 (en) | 2016-03-14 | 2016-12-23 | Information processing device, information processing method, computer program product, and recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016049424A JP6495850B2 (ja) | 2016-03-14 | 2016-03-14 | 情報処理装置、情報処理方法、プログラムおよび認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017167188A JP2017167188A (ja) | 2017-09-21 |
JP6495850B2 true JP6495850B2 (ja) | 2019-04-03 |
Family
ID=59787005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016049424A Active JP6495850B2 (ja) | 2016-03-14 | 2016-03-14 | 情報処理装置、情報処理方法、プログラムおよび認識システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10319373B2 (ja) |
JP (1) | JP6495850B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018013590A (ja) | 2016-07-20 | 2018-01-25 | 株式会社東芝 | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ |
JP6920928B2 (ja) | 2017-08-31 | 2021-08-18 | 曙ブレーキ工業株式会社 | 摩擦材の製造方法 |
WO2019129520A1 (en) * | 2017-12-28 | 2019-07-04 | Datawalk Spolka Akcyjna | Systems and methods for combining data analyses |
US20190327330A1 (en) | 2018-04-20 | 2019-10-24 | Facebook, Inc. | Building Customized User Profiles Based on Conversational Data |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11307880B2 (en) | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
CN108899028A (zh) * | 2018-06-08 | 2018-11-27 | 广州视源电子科技股份有限公司 | 语音唤醒方法、搜索方法、装置和终端 |
CN109326277B (zh) * | 2018-12-05 | 2022-02-08 | 四川长虹电器股份有限公司 | 半监督的音素强制对齐模型建立方法及系统 |
US11172294B2 (en) * | 2019-12-27 | 2021-11-09 | Bose Corporation | Audio device with speech-based audio signal processing |
CN111862958B (zh) * | 2020-08-07 | 2024-04-02 | 广州视琨电子科技有限公司 | 发音插入错误检测方法、装置、电子设备及存储介质 |
JP2022074509A (ja) * | 2020-11-04 | 2022-05-18 | 株式会社東芝 | 差分抽出装置、方法及びプログラム |
CN112927679B (zh) * | 2021-02-07 | 2023-08-15 | 虫洞创新平台(深圳)有限公司 | 一种语音识别中添加标点符号的方法及语音识别装置 |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5274739A (en) * | 1990-05-22 | 1993-12-28 | Rockwell International Corporation | Product code memory Itakura-Saito (MIS) measure for sound recognition |
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
JPH05257492A (ja) * | 1992-03-13 | 1993-10-08 | Toshiba Corp | 音声認識方式 |
DE69326431T2 (de) * | 1992-12-28 | 2000-02-03 | Toshiba Kawasaki Kk | Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist |
GB2348035B (en) * | 1999-03-19 | 2003-05-28 | Ibm | Speech recognition system |
JP2001195087A (ja) | 2000-01-06 | 2001-07-19 | Mitsubishi Electric Corp | 音声認識システム |
JP2003005787A (ja) | 2001-06-20 | 2003-01-08 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識プログラム |
JP2003131693A (ja) | 2001-10-25 | 2003-05-09 | Sony Corp | 音声認識装置及び音声認識方法 |
JP2004317845A (ja) | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法 |
JP2006084942A (ja) * | 2004-09-17 | 2006-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 変換情報生成方法、音素系列生成方法、音声認識方法、ならびにこれらの装置、及びプログラム |
US7912713B2 (en) * | 2004-12-28 | 2011-03-22 | Loquendo S.P.A. | Automatic speech recognition system and method using weighted confidence measure |
EP1889255A1 (en) * | 2005-05-24 | 2008-02-20 | Loquendo S.p.A. | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition |
JP5040909B2 (ja) * | 2006-02-23 | 2012-10-03 | 日本電気株式会社 | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム |
US20080010065A1 (en) * | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
CN101622660A (zh) * | 2007-02-28 | 2010-01-06 | 日本电气株式会社 | 语音识别装置、语音识别方法及语音识别程序 |
JP4405542B2 (ja) * | 2007-10-24 | 2010-01-27 | 株式会社東芝 | 音素モデルをクラスタリングする装置、方法およびプログラム |
US9020816B2 (en) * | 2008-08-14 | 2015-04-28 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US8630971B2 (en) * | 2009-11-20 | 2014-01-14 | Indian Institute Of Science | System and method of using Multi Pattern Viterbi Algorithm for joint decoding of multiple patterns |
JP2011199847A (ja) * | 2010-02-25 | 2011-10-06 | Ricoh Co Ltd | 会議システムの端末装置、会議システム |
CN103650033B (zh) * | 2011-06-30 | 2016-10-26 | 谷歌公司 | 使用可变长度语境的语音识别 |
KR20130059476A (ko) | 2011-11-28 | 2013-06-07 | 한국전자통신연구원 | 음성 인식용 탐색 공간 생성 방법 및 장치 |
US8951842B2 (en) | 2012-01-12 | 2015-02-10 | Micron Technology, Inc. | Semiconductor growth substrates and associated systems and methods for die singulation |
US9514739B2 (en) * | 2012-06-06 | 2016-12-06 | Cypress Semiconductor Corporation | Phoneme score accelerator |
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
US9594744B2 (en) * | 2012-11-28 | 2017-03-14 | Google Inc. | Speech transcription including written text |
US9159314B2 (en) * | 2013-01-14 | 2015-10-13 | Amazon Technologies, Inc. | Distributed speech unit inventory for TTS systems |
KR20140147587A (ko) * | 2013-06-20 | 2014-12-30 | 한국전자통신연구원 | Wfst를 이용한 음성 끝점 검출 장치 및 방법 |
US9311915B2 (en) * | 2013-07-31 | 2016-04-12 | Google Inc. | Context-based speech recognition |
US10438581B2 (en) * | 2013-07-31 | 2019-10-08 | Google Llc | Speech recognition using neural networks |
HUP1300501A1 (hu) * | 2013-08-26 | 2015-03-02 | Pannon Szoftver Kft | Automataelméleti alapú kriptográfiai berendezés és eljárás információk titkosítására és visszafejtésére |
US9466288B2 (en) * | 2013-08-28 | 2016-10-11 | Texas Instruments Incorporated | Comparing differential ZC count to database to detect expected sound |
US9336781B2 (en) * | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US9183830B2 (en) * | 2013-11-01 | 2015-11-10 | Google Inc. | Method and system for non-parametric voice conversion |
US9620145B2 (en) * | 2013-11-01 | 2017-04-11 | Google Inc. | Context-dependent state tying using a neural network |
US9177549B2 (en) * | 2013-11-01 | 2015-11-03 | Google Inc. | Method and system for cross-lingual voice conversion |
US10019985B2 (en) * | 2013-11-04 | 2018-07-10 | Google Llc | Asynchronous optimization for sequence training of neural networks |
JP6404564B2 (ja) | 2013-12-24 | 2018-10-10 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
JP6301647B2 (ja) * | 2013-12-24 | 2018-03-28 | 株式会社東芝 | 探索装置、探索方法およびプログラム |
JP6315980B2 (ja) | 2013-12-24 | 2018-04-25 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
JP6301664B2 (ja) | 2014-01-31 | 2018-03-28 | 株式会社東芝 | 変換装置、パターン認識システム、変換方法およびプログラム |
CN104866465B (zh) * | 2014-02-25 | 2017-11-03 | 腾讯科技(深圳)有限公司 | 敏感文本检测方法及装置 |
US9401143B2 (en) * | 2014-03-24 | 2016-07-26 | Google Inc. | Cluster specific speech model |
US9858922B2 (en) * | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9672810B2 (en) * | 2014-09-26 | 2017-06-06 | Intel Corporation | Optimizations to decoding of WFST models for automatic speech recognition |
US9570065B2 (en) * | 2014-09-29 | 2017-02-14 | Nuance Communications, Inc. | Systems and methods for multi-style speech synthesis |
JP6453631B2 (ja) | 2014-11-28 | 2019-01-16 | 株式会社東芝 | 認識システム、認識方法およびプログラム |
EP3038106B1 (en) * | 2014-12-24 | 2017-10-18 | Nxp B.V. | Audio signal enhancement |
JP6580882B2 (ja) | 2015-06-24 | 2019-09-25 | 株式会社東芝 | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム |
US20160379638A1 (en) * | 2015-06-26 | 2016-12-29 | Amazon Technologies, Inc. | Input speech quality matching |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
-
2016
- 2016-03-14 JP JP2016049424A patent/JP6495850B2/ja active Active
- 2016-12-23 US US15/390,232 patent/US10319373B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20170263242A1 (en) | 2017-09-14 |
JP2017167188A (ja) | 2017-09-21 |
US10319373B2 (en) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6495850B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび認識システム | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
WO2017213055A1 (ja) | 音声認識装置及びコンピュータプログラム | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
JP5282737B2 (ja) | 音声認識装置および音声認識方法 | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP6453631B2 (ja) | 認識システム、認識方法およびプログラム | |
US10535339B2 (en) | Recognition result output device, recognition result output method, and computer program product | |
JP2004258658A (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
KR20080018622A (ko) | 휴대용 단말기의 음성 인식 시스템 | |
JP2016218309A (ja) | 音声認識装置及びコンピュータプログラム | |
KR102094935B1 (ko) | 음성 인식 시스템 및 방법 | |
JP2019219574A (ja) | 話者モデル作成システム、認識システム、プログラムおよび制御装置 | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP4283133B2 (ja) | 音声認識装置 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP6852029B2 (ja) | ワード検出システム、ワード検出方法及びワード検出プログラム | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
CN111816164A (zh) | 用于语音识别的方法及设备 | |
JP6995967B2 (ja) | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 | |
JP2018013590A (ja) | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190307 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6495850 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |