JPH10254490A - 言語モデルの適応化方法 - Google Patents
言語モデルの適応化方法Info
- Publication number
- JPH10254490A JPH10254490A JP10043530A JP4353098A JPH10254490A JP H10254490 A JPH10254490 A JP H10254490A JP 10043530 A JP10043530 A JP 10043530A JP 4353098 A JP4353098 A JP 4353098A JP H10254490 A JPH10254490 A JP H10254490A
- Authority
- JP
- Japan
- Prior art keywords
- language model
- values
- model value
- value
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 12
- 230000003044 adaptive effect Effects 0.000 title abstract description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000000205 computational method Methods 0.000 abstract 1
- 230000006978 adaptation Effects 0.000 description 11
- 238000012937 correction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
徴、例えばテーマ又はスタイルに対する言語モデル値の
適切な適応化を可能にする言語モデル値適応化方法。 【解決手段】 音声認識、特に大語彙の口語音声の認識
のために、単語系列の発生確率を考慮した言語モデルを
用いて認識信頼度を向上させる。これらの言語モデルは
かなり多量のテキストから決定され、短いテキスト内に
発生する単語系列のカウントから信頼区間を決定するこ
とを提案する。この決定は統計学から既知の計算方法を
用いることにより可能である。次に、各先行単語系列に
対し、全単語に対する言語モデル値をできるだけ多数の
言語モデル値が信頼区間内に位置するように適応化させ
るスケーリングファクタを決定する。スケーリング処理
された言語モデル値が適応化後に関連する信頼区間外に
位置する場合には、信頼区間の最も近い境界値を適応化
された言語モデル値として使用する。
Description
ニングテキストから決定された言語モデル値を有する言
語モデルを用いる自動音声認識であって、言語モデルの
適応化処理が所定の場合に、特に所定のタイプのテキス
トに対し、特に短いテキストセグメントに基づいて行わ
れるものに関するものである。
一連の試験値を取り出し、これらの試験値を予め決めら
れた語彙の単語を表す一連の格納基準値と比較する。比
較は単語境界において言語モデル値に関連するスコアを
発生する。これらの言語モデル値は限定された長さの所
定の単語系列の確率を表し、多量のトレーニング音声信
号から予め決定される。従って、用法、例えば演説のテ
ーマ又はスタイルの長時間変化をこれらの言語モデル値
により考慮することはできない。適切に適応化した言語
モデル値は音声認識の信頼度に大きな影響を与えるた
め、言語モデル値を少量の現テキストに基づいてできる
だけ良好に適応化するのが望ましい。この適応化処理
は、特別なテキストの認識中に又はこのテキストの一部
分の認識に続いて、認識誤りの手動補正後に、行うこと
ができる。
nsactions on Pattern Analysis and Machine Intellig
ence, Vol.12, June 1990, pp.570-583 に開示され、C
ACHE言語モデルとして知られている。この方法で
は、相対頻度Na (w) /Na を計算する。ここでN
a (w) は適応化資料内の単語wの頻度を表し、Na は適
応化資料内の単語の総数を表す。次に適応CACHE言
語モデルPa (w|h)を基本言語モデルPs (w|h)から次
のように計算する。 Pa (w|h)=λPs (w|h)+(1−λ)・Na (w) /N
a ここで、補間パラメータλは固定値か、Proc. ICASS, M
inneapolis, USA, Vol.II, April 1993, pp.585-593 か
ら既知のように、各適応化ごとに適応化資料ができるだ
け良好に記述されるように決定される。しかし、瞬時テ
キストに対し得られる言語モデル値の適応化は依然とし
て最適でない。
音声信号に基づいても、音声信号の特徴、例えばテーマ
又はスタイルに対する言語モデル値の適切な適応化を可
能にする言語モデル値の適応化方法を提供することにあ
る。
達成するために、語彙の単語に対する信頼区間を、種々
の先行単語に依存して、音声信号がこれに適応化される
べき比較的短いテキストから形成する。この処理は、例
えば「 Einfuhrung in die Wahrscheinlichkeitsrechun
g und Statistik fur Ingenieure」,H. Weber 著, B.G.
Teubner, Stuttgart 1992, p.279 に記載されているよ
うな既知の統計学及び確率計算法により実行することが
できる。次のステップ中に、広範なトレーニング音声信
号に基づいて決定された言語モデルの言語モデル値を各
々異なる先行単語系列に対し選択されるスケーリングフ
ァクタを乗算して、この先行単語系列に対し言語モデル
値、即ちこの先行単語系列の後にこの単語が発生する確
率が信頼区間内にできるだけ良好に入るようにする。関
連する信頼区間外に位置するスケーリング処理された各
言語モデル値に対しては信頼区間の最も近い境界値を使
用する。発生されてない所定の先行単語系列の単語の組
合せに対し、先行単語系列が発生した場合に限り信頼区
間を計算することができる。しかし、先行単語系列が語
彙の任意の単語との組合せで発生しなかった場合には、
信頼区間を決定することができず、原言語モデル値が適
応化なしで使用される。1単語のみ又は2単語の長さを
有する先行単語系列が多くの実際の用途に使用されるた
め、言語モデル値を少量の口語テキストデータに基づい
て適応化させることができる。
ち所定の先行単語系列の全単語の言語モデル値の和が値
1に鳴るように選択する必要がある。しかし、スケーリ
ングファクタに従って適応化されるのではなく、関連す
る信頼区間の最も近い境界にセットされる言語モデル値
もこの条件に対し考量に入れる必要があるため、スケー
リングファクタはこのような場合に対し知られている演
算方法により決定される。
れた基本言語モデル値P(w|h)から特別テキストに対し
適応化された言語モデル値Pa (w|h)を決定する処理は
次のように行う。
り、Bh は上側境界値βhより上の確率範囲であり、γ
h は既知の最適化方法に従って実際のテキストから得ら
れるスケーリングファクタである。
詳しく説明する。この図は、複数の単語w1...w5
に対し、これらの単語が先行単語系列h1 又はh2 の後
に発生する確率を示す。ばつ印”×”は、トレーニング
テキストから決定された、単語w1...w5が先行単
語系列h1 又はh2 の次ぎに来る原確率値又は言語モデ
ル値を示し、”[]”で示す垂直方向の区間は現在のテ
キストから決定された対応する信頼区間を示す。矢印は
スケーリングファクタγh による原言語モデル値のシフ
トを示し、小さな丸”。”は適応化された言語モデル値
を示す。先行単語系列h1 に対する上側のグラフにおい
ては、単語w1に対する原言語モデル値は既に信頼区間
内に位置し、スケーリングにもかかわらずこの区間内に
とどまる。単語w2も同様である。単語w3及びw5に
対しては、原言語モデル値が信頼区間外に位置し、スケ
ーリングによりこの区間内にシフトされる。単語w4に
対しては、原言語モデル値が信頼区間内に位置するが、
スケーリングによりこの区間外にシフトされるため、こ
の場合には小さな丸で示すように信頼区間の上側境界値
を単語w4に対し使用する。
は、単語w1,w2及びw5に対する原言語モデル値が
スケーリングにより信頼区間内に移動するが、単語w4
に対するスケーリングされた言語モデル値は信頼区間外
に位置し、従ってこの区間の上側境界値にセットされ
る。しかし、単語w3に対する原言語モデル値は信頼区
間より下に遠く離れて位置し、スケーリングによりこの
区間内に移動しないため、この場合にはこの信頼区間の
下側境界値を適応化言語モデル値として使用する。
すると、特に認識すべきテキストの性質が原トレーニン
グ資料から、特にスタイルやテーマに関し、大きく相違
する場合に、認識結果の大きな向上を達成することがで
きる。
ある。
w5が発生する確率 P (w/h2) 先行単語系列h2 の後に単語w1,・・
w5が発生する確率
Claims (2)
- 【請求項1】 自動音声認識用の言語モデル値を有する
言語モデルを適応化する方法であって、音声信号から試
験値を取り出し、これらの試験値を所定の語彙を決定す
る基準値と比較し、単語境界において言語モデル値に関
連するスコアを取り出し、前記言語モデル値が少なくと
も一つの先行単語に依存して語彙の所定の単語が発生す
る確率に依存するものにおいて、 トレーニング音声信号に基づいて基本言語モデル値を有
する基本言語モデルを決定するステップと、 統計的計算方法を用いて、トレーニング音声信号から相
違する異なる音声信号に基づいて、言語モデル値に対す
る上側及び下側境界値を有する信頼区間を決定するステ
ップと、 スケーリングファクタを、これでスケーリング処理され
た基本言語モデル値が関連する信頼区間に対する該言語
モデル値の位置に関する最適化基準を満足するように決
定するステップと、 信頼区間内に位置するスケーリング処理された言語モデ
ル値の場合にはこのスケーリング処理された言語モデル
値を、信頼区間の上側及び下側境界値を越えるスケーリ
ング処理された言語モデル値の場合には、最も近い境界
値を適応化された言語モデル値として、前記異なる音声
信号から決定されたものでない信頼区間に対しては基本
言語モデル値を前記異なる音声信号の以後の認識に使用
するステップと、を具えることを特徴とする言語モデル
の適応化方法。 - 【請求項2】 予め決められた先行単語系列の後にある
単語が発生する確率に対する信頼区間を、この単語及び
予め決められた系列の発生数と、前記異なる音声信号内
に予め決められた系列が発生する数とから決定すること
を特徴とする請求項1記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19708184:3 | 1997-02-28 | ||
DE19708184A DE19708184A1 (de) | 1997-02-28 | 1997-02-28 | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10254490A true JPH10254490A (ja) | 1998-09-25 |
Family
ID=7821853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10043530A Pending JPH10254490A (ja) | 1997-02-28 | 1998-02-25 | 言語モデルの適応化方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6081779A (ja) |
EP (1) | EP0862160B1 (ja) |
JP (1) | JPH10254490A (ja) |
DE (2) | DE19708184A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100697961B1 (ko) | 1998-12-17 | 2007-03-23 | 소니 인터내셔널(유로파) 게엠베하 | 반-지시된 화자 적응 |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
DE69915449T2 (de) * | 1998-10-21 | 2005-03-03 | Philips Intellectual Property & Standards Gmbh | Verfahren zur bestimmunng von parametern eines statistischen sprachmodells |
US6865528B1 (en) | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
US7143035B2 (en) * | 2002-03-27 | 2006-11-28 | International Business Machines Corporation | Methods and apparatus for generating dialog state conditioned language models |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
US7899671B2 (en) * | 2004-02-05 | 2011-03-01 | Avaya, Inc. | Recognition results postprocessor for use in voice recognition systems |
US8335688B2 (en) | 2004-08-20 | 2012-12-18 | Multimodal Technologies, Llc | Document transcription system training |
US8412521B2 (en) * | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
DE102004048348B4 (de) * | 2004-10-01 | 2006-07-13 | Daimlerchrysler Ag | Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle |
US7801910B2 (en) * | 2005-11-09 | 2010-09-21 | Ramp Holdings, Inc. | Method and apparatus for timed tagging of media content |
US20070106685A1 (en) * | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
US20070118873A1 (en) * | 2005-11-09 | 2007-05-24 | Bbnt Solutions Llc | Methods and apparatus for merging media content |
US20070106646A1 (en) * | 2005-11-09 | 2007-05-10 | Bbnt Solutions Llc | User-directed navigation of multimedia search results |
US9697230B2 (en) | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications |
US9697231B2 (en) * | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for providing virtual media channels based on media search |
US7756708B2 (en) * | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
WO2007142102A1 (ja) * | 2006-05-31 | 2007-12-13 | Nec Corporation | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム |
US8073681B2 (en) * | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US20080288252A1 (en) * | 2007-03-07 | 2008-11-20 | Cerra Joseph P | Speech recognition of speech recorded by a mobile communication facility |
US20090030697A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US20110054894A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Speech recognition through the collection of contact information in mobile dictation application |
US20110054897A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Transmitting signal quality information in mobile dictation application |
US20080312934A1 (en) * | 2007-03-07 | 2008-12-18 | Cerra Joseph P | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US20090030685A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a navigation system |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US20110054896A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application |
US20110054898A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Multiple web-based content search user interface in mobile search application |
US20080221900A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile local search environment speech processing facility |
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US8996379B2 (en) * | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US20110054900A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application |
US20110054895A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Utilizing user transmitted text to improve language model in mobile dictation application |
US20090030688A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8312022B2 (en) * | 2008-03-21 | 2012-11-13 | Ramp Holdings, Inc. | Search engine optimization |
US8577670B2 (en) * | 2010-01-08 | 2013-11-05 | Microsoft Corporation | Adaptive construction of a statistical language model |
US8527534B2 (en) | 2010-03-18 | 2013-09-03 | Microsoft Corporation | Bootstrap and adapt a document search engine |
US10658074B1 (en) | 2011-04-11 | 2020-05-19 | Zeus Data Solutions, Inc. | Medical transcription with dynamic language models |
US8676580B2 (en) * | 2011-08-16 | 2014-03-18 | International Business Machines Corporation | Automatic speech and concept recognition |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
WO2016070034A1 (en) * | 2014-10-31 | 2016-05-06 | Linkedin Corporation | Transfer learning for bilingual content classification |
CN105355198B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
US10896681B2 (en) | 2015-12-29 | 2021-01-19 | Google Llc | Speech recognition with selective use of dynamic language models |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
US5675707A (en) * | 1995-09-15 | 1997-10-07 | At&T | Automated call router system and method |
-
1997
- 1997-02-28 DE DE19708184A patent/DE19708184A1/de not_active Withdrawn
-
1998
- 1998-02-18 DE DE59801560T patent/DE59801560D1/de not_active Expired - Fee Related
- 1998-02-18 EP EP98200509A patent/EP0862160B1/de not_active Expired - Lifetime
- 1998-02-25 JP JP10043530A patent/JPH10254490A/ja active Pending
- 1998-03-02 US US09/033,551 patent/US6081779A/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100697961B1 (ko) | 1998-12-17 | 2007-03-23 | 소니 인터내셔널(유로파) 게엠베하 | 반-지시된 화자 적응 |
Also Published As
Publication number | Publication date |
---|---|
EP0862160A3 (de) | 1999-03-10 |
DE59801560D1 (de) | 2001-10-31 |
EP0862160B1 (de) | 2001-09-26 |
EP0862160A2 (de) | 1998-09-02 |
DE19708184A1 (de) | 1998-09-03 |
US6081779A (en) | 2000-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH10254490A (ja) | 言語モデルの適応化方法 | |
US6275801B1 (en) | Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems | |
JPH10240288A (ja) | 言語モデル適合による音声認識方法 | |
US20050021330A1 (en) | Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes | |
CN101548285A (zh) | 自动语音识别方法和设备 | |
JP3834169B2 (ja) | 連続音声認識装置および記録媒体 | |
US5963902A (en) | Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition | |
KR19980702723A (ko) | 음성 인식 방법 및 장치 | |
US5950158A (en) | Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
JPH1195783A (ja) | 音声情報処理方法 | |
JP2008090272A (ja) | 子供に向けられた発話を使用してモデル・ベースの音声の区分化をブートストラップすること、および認識システム | |
Wessel et al. | Using posterior word probabilities for improved speech recognition | |
CN112348073A (zh) | 一种多音字识别方法、装置、电子设备及存储介质 | |
CN111613215A (zh) | 一种语音识别的方法及其装置 | |
US20040172249A1 (en) | Speech synthesis | |
CN111933113B (zh) | 一种语音识别的方法、装置、设备及介质 | |
KR20060067096A (ko) | N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법 | |
KR100374921B1 (ko) | 단어열인식방법및단어열결정장치 | |
JPH11143875A (ja) | 単語自動分類装置及び単語自動分類方法 | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
CN113035247B (zh) | 一种音频文本对齐方法、装置、电子设备及存储介质 | |
Gopalakrishnan et al. | A channel-bank-based phone detection strategy | |
CN116343769B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
JP3369121B2 (ja) | 音声認識方法および音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050222 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070828 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071126 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071129 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080513 |