JP6453631B2 - 認識システム、認識方法およびプログラム - Google Patents
認識システム、認識方法およびプログラム Download PDFInfo
- Publication number
- JP6453631B2 JP6453631B2 JP2014242111A JP2014242111A JP6453631B2 JP 6453631 B2 JP6453631 B2 JP 6453631B2 JP 2014242111 A JP2014242111 A JP 2014242111A JP 2014242111 A JP2014242111 A JP 2014242111A JP 6453631 B2 JP6453631 B2 JP 6453631B2
- Authority
- JP
- Japan
- Prior art keywords
- finite state
- state transducer
- word
- transition
- assigned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Description
条件:i=1,2,・・・,n−1に対して、eiの次状態とei+1の前状態が一致する。
・1以上のサブワードを1以上の単語に変換する遷移を含む経路(第1経路)
・サブワードが割り当てられる循環経路とクラスが割り当てられる遷移とを含む経路(第2経路)
HCLG=
π(opt(H○opt(C○opt(proj(det(L)○G)))))
・・・(1)
LG=π(opt(proj(L○G)))・・・(2)
101、102、103 変換部
110 合成部
151 受付部
152 生成部
200 音声認識装置
201 フロントエンド
210 デコーダ
211 合成部
212 探索部
300 WFST生成装置
301 変換部
310 最適化部
351 受付部
352 生成部
Claims (13)
- 単語の構成要素となるサブワードを単語に変換する第1モデルを受け付ける受付部と、
1以上のサブワードを1以上の単語に変換する遷移を含む第1経路、および、前記第1経路の始端となる状態を始端とし、サブワードが割り当てられる循環経路と単語を分類するクラスが割り当てられる遷移とを含む第2経路、を含む第1有限状態トランスデューサを、前記第1モデルに基づいて生成する生成部と、
前記第1有限状態トランスデューサ、または、前記第1有限状態トランスデューサと他の有限状態トランスデューサを合成した第2有限状態トランスデューサと、単語の構成要素となるサブワードを単語に変換するモデルに基づいて生成され、1以上のサブワードと単語を分類するクラスとを入力して1以上の単語に変換する経路を含む第3有限状態トランスデューサと、を合成した第4有限状態トランスデューサを生成する第1合成部と、
前記第4有限状態トランスデューサを用いて、入力されたデータに対応する単語を認識する探索部と、
を備える認識システム。 - 前記循環経路に入る遷移、および、前記循環経路から出る遷移、のいずれかに前記クラスが割り当てられる、
請求項1に記載の認識システム。 - 前記循環経路から出る遷移に前記クラスが割り当てられ、前記循環経路に入る遷移に前記循環経路の開始を示す開始情報が割り当てられる、
請求項1に記載の認識システム。 - 前記循環経路に入る遷移に前記クラスが割り当てられ、前記循環経路から出る遷移に前記循環経路の終了を示す終了情報が割り当てられる、
請求項1に記載の認識システム。 - 前記第1有限状態トランスデューサと、言語モデルに基づいて生成される第5有限状態トランスデューサと、を合成した前記第2有限状態トランスデューサを生成する第2合成部をさらに備える、
請求項1に記載の認識システム。 - 前記第1有限状態トランスデューサと、言語モデルに基づいて生成される第5有限状態トランスデューサと、クラスが入力記号と出力記号に割り当てられた遷移と、循環経路の開始を表す開始情報および終了を表す終了情報の少なくとも一方が入力記号と出力記号に割り当てられた遷移と、を含む第6有限状態トランスデューサと、を合成した前記第2有限状態トランスデューサを生成する第2合成部をさらに備える、
請求項1に記載の認識システム。 - 前記第2合成部は、前記第2有限状態トランスデューサに含まれる遷移の入力記号から、前記開始情報または前記終了情報と、前記クラスとを除去する、
請求項6に記載の認識システム。 - 前記第6有限状態トランスデューサは、コンテキスト依存音素からコンテキスト非依存音素へ変換する有限状態トランスデューサ、および、隠れマルコフモデルを表す有限状態トランスデューサのうち少なくとも一方である、
請求項6に記載の認識システム。 - 前記第2合成部は、前記第2有限状態トランスデューサに含まれる、前記循環経路上の遷移の入力記号として割り当てられていたサブワードが割り当てられている遷移の入力記号を出力記号に割り当てる、
請求項5に記載の認識システム。 - 前記第5有限状態トランスデューサは、クラスが入力記号と出力記号に割り当てられた遷移を含む、
請求項5に記載の認識システム。 - 前記第1合成部は、前記探索部による探索処理中に、前記第4有限状態トランスデューサを生成する、
請求項1に記載の認識システム。 - 単語の構成要素となるサブワードを単語に変換する第1モデルを受け付ける受付ステップと、
1以上のサブワードを1以上の単語に変換する遷移を含む第1経路、および、前記第1経路の始端となる状態を始端とし、サブワードが割り当てられる循環経路と単語を分類するクラスが割り当てられる遷移とを含む第2経路、を含む第1有限状態トランスデューサを、前記第1モデルに基づいて生成する生成ステップと、
前記第1有限状態トランスデューサ、または、前記第1有限状態トランスデューサと他の有限状態トランスデューサを合成した第2有限状態トランスデューサと、単語の構成要素となるサブワードを単語に変換するモデルに基づいて生成され、1以上のサブワードと単語を分類するクラスとを入力して1以上の単語に変換する経路を含む第3有限状態トランスデューサと、を合成した第4有限状態トランスデューサを生成する合成ステップと、
前記第4有限状態トランスデューサを用いて、入力されたデータに対応する単語を認識する探索ステップと、
を含む認識方法。 - コンピュータを、
単語の構成要素となるサブワードを単語に変換する第1モデルを受け付ける受付部と、
1以上のサブワードを1以上の単語に変換する遷移を含む第1経路、および、前記第1経路の始端となる状態を始端とし、サブワードが割り当てられる循環経路と単語を分類するクラスが割り当てられる遷移とを含む第2経路、を含む第1有限状態トランスデューサを、前記第1モデルに基づいて生成する生成部と、
前記第1有限状態トランスデューサ、または、前記第1有限状態トランスデューサと他の有限状態トランスデューサを合成した第2有限状態トランスデューサと、単語の構成要素となるサブワードを単語に変換するモデルに基づいて生成され、1以上のサブワードと単語を分類するクラスとを入力して1以上の単語に変換する経路を含む第3有限状態トランスデューサと、を合成した第4有限状態トランスデューサを生成する第1合成部と、
前記第4有限状態トランスデューサを用いて、入力されたデータに対応する単語を認識する探索部、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014242111A JP6453631B2 (ja) | 2014-11-28 | 2014-11-28 | 認識システム、認識方法およびプログラム |
US14/953,087 US10109274B2 (en) | 2014-11-28 | 2015-11-27 | Generation device, recognition device, generation method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014242111A JP6453631B2 (ja) | 2014-11-28 | 2014-11-28 | 認識システム、認識方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016102947A JP2016102947A (ja) | 2016-06-02 |
JP6453631B2 true JP6453631B2 (ja) | 2019-01-16 |
Family
ID=56079564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014242111A Active JP6453631B2 (ja) | 2014-11-28 | 2014-11-28 | 認識システム、認識方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10109274B2 (ja) |
JP (1) | JP6453631B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6562698B2 (ja) | 2015-04-28 | 2019-08-21 | 株式会社東芝 | ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム |
US9966066B1 (en) * | 2016-02-03 | 2018-05-08 | Nvoq Incorporated | System and methods for combining finite state transducer based speech recognizers |
JP6495850B2 (ja) | 2016-03-14 | 2019-04-03 | 株式会社東芝 | 情報処理装置、情報処理方法、プログラムおよび認識システム |
JP2018013590A (ja) | 2016-07-20 | 2018-01-25 | 株式会社東芝 | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ |
US10706215B2 (en) * | 2017-04-05 | 2020-07-07 | Parsegon | Producing formula representations of mathematical text |
CN108305634B (zh) * | 2018-01-09 | 2020-10-16 | 深圳市腾讯计算机系统有限公司 | 解码方法、解码器及存储介质 |
JP6790003B2 (ja) * | 2018-02-05 | 2020-11-25 | 株式会社東芝 | 編集支援装置、編集支援方法及びプログラム |
US20220115003A1 (en) * | 2020-10-13 | 2022-04-14 | Rev.com, Inc. | Systems and methods for aligning a reference sequence of symbols with hypothesis requiring reduced processing and memory |
JP6995967B2 (ja) * | 2020-12-08 | 2022-01-17 | 株式会社東芝 | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4543294B2 (ja) * | 2000-03-14 | 2010-09-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
AU2002354201A1 (en) | 2001-12-17 | 2003-06-30 | Asahi Kasei Kabushiki Kaisha | Speech recognition method, remote controller, information terminal, telephone communication terminal and speech recognizer |
JP2003186494A (ja) | 2001-12-17 | 2003-07-04 | Sony Corp | 音声認識装置および方法、記録媒体、並びにプログラム |
CA2486125C (en) * | 2003-10-30 | 2011-02-08 | At&T Corp. | A system and method of using meta-data in speech-processing |
GB2409750B (en) | 2004-01-05 | 2006-03-15 | Toshiba Res Europ Ltd | Speech recognition system and technique |
JP4241771B2 (ja) | 2006-07-04 | 2009-03-18 | 株式会社東芝 | 音声認識装置及びその方法 |
US8032374B2 (en) * | 2006-12-05 | 2011-10-04 | Electronics And Telecommunications Research Institute | Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition |
US20080208566A1 (en) * | 2007-02-23 | 2008-08-28 | Microsoft Corporation | Automated word-form transformation and part of speech tag assignment |
JP4987682B2 (ja) * | 2007-04-16 | 2012-07-25 | ソニー株式会社 | 音声チャットシステム、情報処理装置、音声認識方法およびプログラム |
JP4956334B2 (ja) | 2007-08-29 | 2012-06-20 | 株式会社東芝 | オートマトンの決定化方法、有限状態トランスデューサの決定化方法、オートマトン決定化装置及び決定化プログラム |
GB2453366B (en) | 2007-10-04 | 2011-04-06 | Toshiba Res Europ Ltd | Automatic speech recognition method and apparatus |
US8423879B2 (en) * | 2008-05-14 | 2013-04-16 | Honeywell International Inc. | Method and apparatus for test generation from hybrid diagrams with combined data flow and statechart notation |
JP5121650B2 (ja) * | 2008-09-26 | 2013-01-16 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
US8266169B2 (en) * | 2008-12-18 | 2012-09-11 | Palo Alto Reseach Center Incorporated | Complex queries for corpus indexing and search |
US8510097B2 (en) * | 2008-12-18 | 2013-08-13 | Palo Alto Research Center Incorporated | Region-matching transducers for text-characterization |
JP4977163B2 (ja) * | 2009-03-30 | 2012-07-18 | 株式会社東芝 | 有限状態トランスデューサ決定化装置及び有限状態トランスデューサ決定化方法 |
JP5199985B2 (ja) * | 2009-11-30 | 2013-05-15 | 日本電信電話株式会社 | 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム |
US8484154B2 (en) * | 2009-12-14 | 2013-07-09 | Intel Corporation | Methods and systems to traverse graph-based networks |
JP5232191B2 (ja) | 2010-03-19 | 2013-07-10 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP5554304B2 (ja) | 2011-09-16 | 2014-07-23 | 株式会社東芝 | オートマトン決定化方法、オートマトン決定化装置およびオートマトン決定化プログラム |
JP2013164572A (ja) | 2012-01-10 | 2013-08-22 | Toshiba Corp | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
JP6346893B2 (ja) * | 2012-09-07 | 2018-06-20 | カーネギー メロン ユニバーシティCarnegie Mellon University | ハイブリッドgpu/cpuデータ処理方法 |
US8972243B1 (en) * | 2012-11-20 | 2015-03-03 | Amazon Technologies, Inc. | Parse information encoding in a finite state transducer |
JP6179884B2 (ja) * | 2012-11-26 | 2017-08-16 | 国立研究開発法人情報通信研究機構 | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
WO2015026366A1 (en) * | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
JP6404564B2 (ja) | 2013-12-24 | 2018-10-10 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
JP6315980B2 (ja) | 2013-12-24 | 2018-04-25 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
JP6301647B2 (ja) | 2013-12-24 | 2018-03-28 | 株式会社東芝 | 探索装置、探索方法およびプログラム |
JP6301664B2 (ja) | 2014-01-31 | 2018-03-28 | 株式会社東芝 | 変換装置、パターン認識システム、変換方法およびプログラム |
JP2016057986A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
JP6301794B2 (ja) | 2014-09-18 | 2018-03-28 | 株式会社東芝 | オートマトン変形装置、オートマトン変形方法およびプログラム |
US9606986B2 (en) * | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9740678B2 (en) * | 2015-06-25 | 2017-08-22 | Intel Corporation | Method and system of automatic speech recognition with dynamic vocabularies |
-
2014
- 2014-11-28 JP JP2014242111A patent/JP6453631B2/ja active Active
-
2015
- 2015-11-27 US US14/953,087 patent/US10109274B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10109274B2 (en) | 2018-10-23 |
US20160155440A1 (en) | 2016-06-02 |
JP2016102947A (ja) | 2016-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6453631B2 (ja) | 認識システム、認識方法およびプログラム | |
KR102246943B1 (ko) | 다중 언어 텍스트-음성 합성 방법 | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
US5949961A (en) | Word syllabification in speech synthesis system | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
WO2017213055A1 (ja) | 音声認識装置及びコンピュータプログラム | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
US20080027725A1 (en) | Automatic Accent Detection With Limited Manually Labeled Data | |
JP2007024960A (ja) | システム、プログラムおよび制御方法 | |
JP7295839B2 (ja) | 音節に基づく自動音声認識 | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
KR100930714B1 (ko) | 음성인식 장치 및 방법 | |
KR100669241B1 (ko) | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 | |
JP5611270B2 (ja) | 単語分割装置、及び単語分割方法 | |
US10600407B2 (en) | Generation device, recognition system, and generation method for generating finite state transducer | |
WO2017082717A2 (en) | Method and system for text to speech synthesis | |
JP6995967B2 (ja) | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 | |
JP2006343405A (ja) | 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体 | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
JPS62119591A (ja) | 文章読上げ装置 | |
GB2292235A (en) | Word syllabification. | |
JP2009098292A (ja) | 音声記号列生成方法、音声合成方法及び音声合成装置 | |
JP2007249023A (ja) | 音声合成装置及び音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160330 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170911 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180828 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181213 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6453631 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |