JP2004258658A - 単語間音素情報を利用した連続音声認識方法および装置 - Google Patents
単語間音素情報を利用した連続音声認識方法および装置 Download PDFInfo
- Publication number
- JP2004258658A JP2004258658A JP2004048087A JP2004048087A JP2004258658A JP 2004258658 A JP2004258658 A JP 2004258658A JP 2004048087 A JP2004048087 A JP 2004048087A JP 2004048087 A JP2004048087 A JP 2004048087A JP 2004258658 A JP2004258658 A JP 2004258658A
- Authority
- JP
- Japan
- Prior art keywords
- word
- syllable
- pronunciation
- phoneme
- inter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims abstract description 5
- 230000008859 change Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012805 post-processing Methods 0.000 claims description 7
- 238000013518 transcription Methods 0.000 claims description 7
- 230000035897 transcription Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 5
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
【解決手段】 (a)各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、その単語の終声または初声に対する発音表記に識別子を追加して発音辞書データベースを構築する段階と、(b)前単語の終声に結合可能な後単語の初声を対応させて可能なあらゆる結合よりなる単語間音素情報を、前記識別子を含んでマトリックス化する段階と、(c)入力される音声から生成される特徴ベクトルに対し、前記発音辞書データベースおよび前記単語間音素情報を利用して音声認識を行う段階と、を含む連続音声認識方法を前記課題の解決手段とする。
【選択図】 図4
Description
図2Aに示した、単語が‘university’を意味する
である場合に、発音表記は[dehak]21a、
[dehag]21cのうち一つになる。
さらに他の単語の例として、‘opposition’を意味する
は、その発音表記として
を有している。
この時、
と
とは同一であるため、これらの発音表記を区別することは不可能である。
という音声を認識する場合、それぞれの語彙
に対しそれぞれの単語を、初声と、発音が変わらない中声および終声とに分離する。
に対し中声部分に該当する発音列[angu]32を除外した初声および終声で結合可能な発音列31、33を生成し、
に対し中声部分に該当する発音列[eha]35を除外した初声および終声で結合可能な発音列34、36を生成し、
に対する発音列37を生成する。このように生成された発音列に対し
および
を利用して探索過程を進める。ここで、
との間に結合可能な場合の数は2つが存在し、
間に結合可能な場合の数は3つが存在する。ここで、
は英語のKoreaを意味し、
は主格助詞に該当する。
特に、韓国語の音声言語の場合、多様な音素文脈によって、著しい音韻変化現象が起こるために、各発音列は、このような音韻変換現象をうまく反映させる必要がある。
また、単独の単語の発音列は、比較的固定された音素文脈を有しており、トライフォンのような認識単位学習による音韻変化現象モデリングが容易である。しかしながら、前後単語の文脈がある場合は、隣接した単語によって多様な音素文脈が可能なため、このような音韻変化現象を反映するためにはさらに精巧なモデリング方法が必要とされる。
しかしながら、第1の方法によれば辞書およびネットワークサイズがあまり膨大になり、第2の方法によれば計算量が多くなるために、認識に時間がかかって認識速度が遅れるという短所がある。
図4は、本実施の形態における連続音声認識装置の構成を示すブロック図の例である。図4に示すように、本実施の形態の連続音声認識装置は、特徴抽出部41、探索部42、音響モデルデータベース43、発音辞書データベース44、音素結合情報保存部45、言語モデルデータベース46および後処理部47から構成される。
ここで、大語彙認識のために、認識対象の語彙は、ツリー状に構成されており、探索部42では音響モデルデータベース43の音響学的な対比結果に対応する言語モデルデータベース46の発生頻度データおよび発生確率データを参照して、発音辞書データベース44に収録された単語を組み合わせてツリーを探索することによって、N個の最善な候補の単語列を得る。
挿入現象は主に母音で始まり、連音法則が適用される場合に後単語で起こるか、あるいは
の添加により起こる。
削除現象は、挿入現象と共に起こることが多く、挿入現象が後単語の初声に起こると、削除現象が前単語の終声に起こる。前記の音韻変化現象を経て、変化した音素は、識別子を追加することで、変化していない基本音素と区別し、前単語の最後の音節の終声に結合可能な後単語の最初の音節の初声を対応させたあらゆる単語間音素情報が、データベース化される。音素結合情報保存部45に収録された音素結合情報は、探索部42での探索過程および後処理部47でのリスコアリング過程に適用することによって、探索過程およびリスコアリング過程において探索候補を減らすことができるので、探索過程の精度を向上することができる。
すなわち、リスコアリングの過程では、後方向探索過程で得られた最適の発音列に対し、単語間境界で単語内のバイフォンモデルを単語間トライフォンモデルに拡張、変形させた後、各候補別文章のスコアを再計算し、最終的な認識結果を選定する。このように、類似している確率が高い、いくつかの候補文章に対して単語間境界で、バイフォンモデルから変換したトライフォンモデルを適用し、音響モデル確率値を再計算すると、認識効率を維持しつつ認識性能を向上させることができる。
であり、後単語の最初の音節の初声が
である場合に、前単語の綴字と発音表記とが変わるので、前単語の終声発音列
は、後単語の初声発音列[n]または[m]にだけ結合させる。すなわち、単語間音素情報としては
ではなく
だけ収録され、発音辞書データベース44にも識別子が既に追加されているので
だけで結合不可能な場合を制限できる。
である場合には、[dehak]51a、
[dehag]51cという3つの発音列が存在し、単語が
である場合には、
という発音列が存在する。この時、単語の
とその発音表記が同一でない発音列
に対しては終声発音列の後段に別途の識別子、例えば‘(1)’が付加される。したがって、
に対し音韻変化により発生する
と
に対する
とを区別することが可能になる。このように識別子が表記された前単語の最後の音節の終声に対する発音列は、前記した表1のように、後単語の最初の音節初声に特定の発音列が付いてくる場合にのみ、前単語と後単語との間の結合が可能になる。
すなわち、発音列[sip(1)]53bは、後単語の最初の音節初声が‘b’、‘p’、‘m’である場合にのみ結合可能なために、例えば‘down’との結合はあらかじめ制限される。
一方、発音列[tip]54aは後単語の最初の音節の初声に関係なく結合可能である。
という音声を認識する場合、まず、所定の認識単位、ここでは単語、すなわち
に分離して、各単語に対する発音列ネットワークは、最適な発音表現を選ぶために操作される。発音列ネットワークには音韻変化規則が適用されて発生可能なあらゆる発音列がツリー状に構成されている。このように選択された発音列に対して、
および音素結合情報保存部45から提供される単語間音素情報を利用して探索過程を進める。音素結合情報を利用することによって
の終声に対する発音列
と
の初声に対する発音列[d]との結合は制限され、
の終声に対する発音列
と
の初声に対する発音列[i]との結合と、
の終声に対する発音列[k(1)]と
の初声に対する発音列[i]との結合は制限され、全体的な探索ネットワークを単純にできる。すなわち、探索部42において前方向探索および後方向探索過程を行う場合に、前単語は、後単語に転移される度に後続する単語の多数の発音列のうち、前単語と結合可能か否かを、単語間音素情報を利用して確認した後、適していない結合をあらかじめ除去する。特に、後方向探索過程は、前方向探索過程で選定された各フレームに対する認識候補単語を利用して文章を構成する過程であって、このとき、言語モデル確率値を利用して単語間が高い確率で連結された所定数、例えば10個の候補文章を構成する。リスコアリングの段階では、この後方向探索過程で選定された10個の候補文章に対して単語境界で使用したバイフォンモデルを、単語間のトライフォンモデルに変換し、単語間音素情報および音響モデルを利用して確率値を再計算して最適な認識文章を探す。
次に、本発明による音声認識方法と従来の音声認識方法との性能を比較するための比較実験を行った。周辺雑音のない静かな事務室の環境で、話者600人が発話した韓国語朗読体45000文章を学習データとして、静かな事務室環境で話者80人が発話した韓国語朗読体480文章を評価データとして使用した。実験に使われた特徴ベクトルは、12次のMFCC(Mel Frequency Cepstral Coefficients)係数とエネルギー、そしてこれらの差分係数であって、1フレームが26次のベクトルで表現される。実験のために44ベースフォンの4000サブワードモデルよりなり、PTM(Phonetically−Tied Mixture)モデル構造を有する音響モデルが使われ、トライグラム言語モデルが使われた。使われた語彙は、新聞の政治面記事と関連した11000単語であって、意思形態素単位で認識される。前記のような条件の下での比較実験の結果を次の表2に示す。
42 探索部
43 音響モデルデータベース
44 発音辞書データベース
45 音素結合情報保存部
46 言語モデルデータベース
47 後処理部
Claims (8)
- (a)各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、その単語の終声または初声に対する発音表記に識別子を追加して発音辞書データベースを構築する段階と、
(b)前単語の終声に結合可能な後単語の初声を対応させて、結合可能なあらゆる単語間音素情報を、前記識別子を含んでマトリックス化する段階と、
(c)入力される音声から生成される特徴ベクトルに対し、前記発音辞書データベースおよび前記単語間音素情報を利用して音声認識を行う段階と、を含む連続音声認識方法。 - 前記(c)段階は、前記単語間音素情報を利用して前単語の最後の音節の終声に対する発音列と、後単語の最初の音節の初声に対する発音列との間の連結を制限すること、
を特徴とする請求項1に記載の連続音声認識方法。 - 前記単語間音素情報には、単語間の境界情報が割り当てられてマトリックス化されること、
を特徴とする請求項1に記載の連続音声認識方法。 - 請求項1項に記載された連続音声認識方法を実行させるプログラムを収録したコンピュータで再生可能な記録媒体。
- 学習により構築された音響モデルデータベースおよび言語モデルデータベースを含む連続音声認識装置において、
単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、初声または終声に識別子を追加し、前記前単語の最後の音節の終声に結合可能な後単語の最初の音節の初声を対応させて、結合可能なあらゆる単語間音素情報をデータベース化して保存する音素結合情報保存部と、
各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前記前単語の最後の音節の終声や後単語の最初の音節の初声の綴字と発音とが同一でない場合、この単語の終声または初声に対する発音表記に識別子を追加して構築された発音辞書データベースと、
入力される音声から認識に必要な情報を抽出して特徴ベクトルに変換する特徴抽出部と、
前記音素結合情報を利用して前記音響モデルデータベース、前記発音辞書データベースおよび前記言語モデルデータベースを参照して、前記特徴抽出部で変換された特徴ベクトルと類似している確率が最も高い単語列を探索し、探索された単語列を、認識されたテキストとして出力する探索部とを含むこと、
を特徴とする連続音声認識装置。 - 前記単語間音素情報には、単語間の境界情報が割り当てられてマトリックス化されることを特徴とする請求項5に記載の連続音声認識装置。
- 前記探索部は、前記音素結合情報を利用して前単語の最後の音節の終声に対する発音列と、後単語の最初の音節の初声に対する発音列との間の連結を制限すること、
を特徴とする請求項5に記載の連続音声認識装置。 - 前記探索部で得られた最適の発音列に対し単語間のバイフォンモデルをトライフォンモデルに変換した後、トライフォンモデルを参照して音響モデルスコアをリスコアリングして各候補別文章のスコアを再計算し、最終的な認識結果を選定する後処理部をさらに含むこと、
を特徴とする請求項5に記載の連続音声認識装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0011345A KR100486733B1 (ko) | 2003-02-24 | 2003-02-24 | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004258658A true JP2004258658A (ja) | 2004-09-16 |
JP4481035B2 JP4481035B2 (ja) | 2010-06-16 |
Family
ID=32906552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004048087A Expired - Fee Related JP4481035B2 (ja) | 2003-02-24 | 2004-02-24 | 単語間音素情報を利用した連続音声認識方法および装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7299178B2 (ja) |
JP (1) | JP4481035B2 (ja) |
KR (1) | KR100486733B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10535339B2 (en) | 2015-06-24 | 2020-01-14 | Kabushiki Kaisha Toshiba | Recognition result output device, recognition result output method, and computer program product |
CN112712796A (zh) * | 2019-10-25 | 2021-04-27 | 北大方正集团有限公司 | 语音识别方法及装置 |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8443279B1 (en) * | 2004-10-13 | 2013-05-14 | Stryker Corporation | Voice-responsive annotation of video generated by an endoscopic camera |
JP2007047412A (ja) * | 2005-08-09 | 2007-02-22 | Toshiba Corp | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 |
US20070132834A1 (en) * | 2005-12-08 | 2007-06-14 | International Business Machines Corporation | Speech disambiguation in a composite services enablement environment |
NO325191B1 (no) * | 2005-12-30 | 2008-02-18 | Tandberg Telecom As | Sokbar multimedia strom |
KR100770896B1 (ko) * | 2006-03-07 | 2007-10-26 | 삼성전자주식회사 | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 |
US8214213B1 (en) | 2006-04-27 | 2012-07-03 | At&T Intellectual Property Ii, L.P. | Speech recognition based on pronunciation modeling |
KR100845428B1 (ko) * | 2006-08-25 | 2008-07-10 | 한국전자통신연구원 | 휴대용 단말기의 음성 인식 시스템 |
KR100832556B1 (ko) * | 2006-09-22 | 2008-05-26 | (주)한국파워보이스 | 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법 |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US8032374B2 (en) | 2006-12-05 | 2011-10-04 | Electronics And Telecommunications Research Institute | Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition |
KR100908444B1 (ko) * | 2006-12-05 | 2009-07-21 | 한국전자통신연구원 | 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법 |
EP1933303B1 (en) * | 2006-12-14 | 2008-08-06 | Harman/Becker Automotive Systems GmbH | Speech dialog control based on signal pre-processing |
US8135590B2 (en) * | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8112402B2 (en) * | 2007-02-26 | 2012-02-07 | Microsoft Corporation | Automatic disambiguation based on a reference resource |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
JP5327054B2 (ja) * | 2007-12-18 | 2013-10-30 | 日本電気株式会社 | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
WO2010030129A2 (en) * | 2008-09-10 | 2010-03-18 | Jun Hyung Sung | Multimodal unification of articulation for device interfacing |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
KR101037779B1 (ko) * | 2009-03-05 | 2011-05-27 | 강원대학교산학협력단 | 한국어 음소결합확률계산기 |
US8301446B2 (en) * | 2009-03-30 | 2012-10-30 | Adacel Systems, Inc. | System and method for training an acoustic model with reduced feature space variation |
KR101587866B1 (ko) * | 2009-06-03 | 2016-01-25 | 삼성전자주식회사 | 음성 인식용 발음사전 확장 장치 및 방법 |
US9595257B2 (en) * | 2009-09-28 | 2017-03-14 | Nuance Communications, Inc. | Downsampling schemes in a hierarchical neural network structure for phoneme recognition |
KR101139469B1 (ko) | 2010-03-25 | 2012-04-30 | 성중모 | 한국어사전 |
US8682643B1 (en) * | 2010-11-10 | 2014-03-25 | Google Inc. | Ranking transliteration output suggestions |
US10586556B2 (en) | 2013-06-28 | 2020-03-10 | International Business Machines Corporation | Real-time speech analysis and method using speech recognition and comparison with standard pronunciation |
CN107003996A (zh) | 2014-09-16 | 2017-08-01 | 声钰科技 | 语音商务 |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
CN105513587B (zh) * | 2014-09-22 | 2020-07-24 | 联想(北京)有限公司 | 一种mfcc提取方法及装置 |
WO2016061309A1 (en) | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
KR102300303B1 (ko) * | 2014-11-21 | 2021-09-08 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
KR102167157B1 (ko) * | 2014-11-21 | 2020-10-16 | 에스케이 텔레콤주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
KR101853594B1 (ko) * | 2016-11-11 | 2018-06-14 | 이정화 | 음가 조합 기반의 외국어 학습 시스템 |
KR20200026295A (ko) | 2017-07-10 | 2020-03-10 | 복스 프론테라, 인크. | 음절 기반 자동 음성 인식 |
JP7013172B2 (ja) * | 2017-08-29 | 2022-01-31 | 株式会社東芝 | 音声合成辞書配信装置、音声合成配信システムおよびプログラム |
KR20190109906A (ko) * | 2018-03-19 | 2019-09-27 | 최파비아 | 카테고리 셀로 구성된 영어 문장구조 맵과 이를 이용한 영어 교육 방법 |
CN111667828B (zh) * | 2020-05-28 | 2021-09-21 | 北京百度网讯科技有限公司 | 语音识别方法和装置、电子设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3931638A1 (de) * | 1989-09-22 | 1991-04-04 | Standard Elektrik Lorenz Ag | Verfahren zur sprecheradaptiven erkennung von sprache |
US5536171A (en) * | 1993-05-28 | 1996-07-16 | Panasonic Technologies, Inc. | Synthesis-based speech training system and method |
US5875426A (en) * | 1996-06-12 | 1999-02-23 | International Business Machines Corporation | Recognizing speech having word liaisons by adding a phoneme to reference word models |
-
2003
- 2003-02-24 KR KR10-2003-0011345A patent/KR100486733B1/ko not_active IP Right Cessation
-
2004
- 2004-02-24 JP JP2004048087A patent/JP4481035B2/ja not_active Expired - Fee Related
- 2004-02-24 US US10/784,173 patent/US7299178B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10535339B2 (en) | 2015-06-24 | 2020-01-14 | Kabushiki Kaisha Toshiba | Recognition result output device, recognition result output method, and computer program product |
CN112712796A (zh) * | 2019-10-25 | 2021-04-27 | 北大方正集团有限公司 | 语音识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US7299178B2 (en) | 2007-11-20 |
US20040172247A1 (en) | 2004-09-02 |
KR100486733B1 (ko) | 2005-05-03 |
KR20040076035A (ko) | 2004-08-31 |
JP4481035B2 (ja) | 2010-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4481035B2 (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US8275621B2 (en) | Determining text to speech pronunciation based on an utterance from a user | |
US6973427B2 (en) | Method for adding phonetic descriptions to a speech recognition lexicon | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
Wang et al. | Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP2001517816A (ja) | 連続および分離音声を認識するための音声認識システム | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP2019012095A (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
US6963832B2 (en) | Meaning token dictionary for automatic speech recognition | |
Pellegrini et al. | Automatic word decompounding for asr in a morphologically rich language: Application to amharic | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP2006243213A (ja) | 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
Lyu et al. | Large vocabulary taiwanese (min-nan) speech recognition using tone features and statistical pronunciation modeling. | |
Hwang et al. | Building a highly accurate Mandarin speech recognizer with language-independent technologies and language-dependent modules | |
JP2006343405A (ja) | 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体 | |
WO2014035437A1 (en) | Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction | |
JP3277522B2 (ja) | 音声認識方法 | |
Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
JP2004110673A (ja) | 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体 | |
Pisarn et al. | Improving Thai spelling recognition with tone features | |
AbuZeina et al. | Small-word pronunciation modeling for Arabic speech recognition: A data-driven approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061107 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100317 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130326 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130326 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140326 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |