JP4818683B2 - 言語モデルを作成する方法 - Google Patents
言語モデルを作成する方法 Download PDFInfo
- Publication number
- JP4818683B2 JP4818683B2 JP2005308459A JP2005308459A JP4818683B2 JP 4818683 B2 JP4818683 B2 JP 4818683B2 JP 2005308459 A JP2005308459 A JP 2005308459A JP 2005308459 A JP2005308459 A JP 2005308459A JP 4818683 B2 JP4818683 B2 JP 4818683B2
- Authority
- JP
- Japan
- Prior art keywords
- pronunciation
- language model
- character
- token
- alternative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Description
104 入力装置
106 記憶装置
110 音響モデル
112 言語モデル
204 処理装置
206 システムメモリ
230 ハードディスクドライブインターフェース
232 磁気ディスクドライブインターフェース
234 光ディスクドライブインターフェース
244 オーディオアダプタ
246 シリアルポートインターフェース
248 モニタ
250 ビデオアダプタ
252 ネットワークインターフェース
260 ネットワークインターフェース
264 オペレーティングシステム
266 アプリケーションプログラムモジュール(ワードプロセッサ)
270 音声エンジン訂正モジュール
Claims (16)
- コンピュータが、音声認識ソフトウェアアプリケーションで使用するための言語モデルを作成する方法であって、
文字列からnグラム言語モデルを生成するステップと、
前記nグラム言語モデルから、文字を表す発音および用語“as−in”を表す発音を含む、トークンを構築するステップと、
前記文字で始まる単語について辞書から発音を抽出するステップと、
前記トークンを前記単語の発音の前に付加することによって、前記文字の代替の発音を作成するステップと、
前記nグラム言語モデルおよび前記代替の発音をコンパイルして、前記音声認識ソフトウェアアプリケーションで使用するための言語モデルを形成するステップと、
を含むことを特徴とする方法。 - 前記文字列は、小文字、大文字、数字および記号を含む文字のうちの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
- 前記文字、前記単語、前記辞書および前記代替の発音のうちの少なくとも1つは、英語に対応していることを特徴とする請求項2に記載の方法。
- 前記構築するステップは、前記文字列のそれぞれの文字についてトークンを構築するステップを含むことを特徴とする請求項1に記載の方法。
- 前記トークンを構築するステップは、前記代替の発音を形成するために、前記単語の前記発音に、長い無音表記を後ろに付加するステップを含むことを特徴とする請求項1に記載の方法。
- 前記文字が大文字である場合、前記トークンを前記構築するステップは、前記代替の発音を形成するために、前記トークンに用語“capital”の表記を前に付加するステップをさらに含むことを特徴とする請求項1に記載の方法。
- 前記nグラム言語モデルは、ARPAフォーマットを使用して生成されることを特徴とする請求項1に記載の方法。
- 前記方法を実行するためのコンピュータ実行可能な命令はコンピュータが読み取り可能な媒体上で具現化される請求項1に記載の方法。
- 前記文字、前記単語、前記辞書および前記代替の発音のうちの少なくとも1つは、口語に対応していることを特徴とする請求項1に記載の方法。
- コンピュータが、音声認識ソフトウェアアプリケーションで使用するための言語モデルを作成する方法であって、
文字列からnグラム言語モデルを生成するステップであって、前記nグラム言語モデルは、前記文字列からの文字を含む、生成するステップと、
前記文字を表す発音および用語“as−in”を表す発音を含む、トークンを構築するステップと、
辞書から前記文字の発音を抽出するステップと、
前記文字の前記発音を使用して前記文字の代替の発音を作成するステップと、
前記文字で始まる単語について前記辞書から単語の発音を抽出するステップと、
前記代替の発音を形成するために、前記トークンを前記単語の発音の前に付加し、長い無音表記を前記単語の発音の後ろに付加するステップと、
前記nグラム言語モデルおよび前記代替の発音をコンパイルして、前記音声認識ソフトウェアアプリケーションで使用するための言語モデルを形成するステップと、
を含むことを特徴とする方法。 - 前記文字列は、小文字、大文字、数字および記号を含む文字のうちの少なくとも1つを含むことを特徴とする請求項10に記載の方法。
- 前記文字、前記辞書および前記代替の発音のうちの少なくとも1つは、英語に対応していることを特徴とする請求項10に記載の方法。
- 前記文字が大文字である場合、前記トークンを前記構築するステップは、前記代替の発音を形成するために、前記トークンに用語“capital”の表記を前に付加するステップをさらに含むことを特徴とする請求項10に記載の方法。
- 前記nグラム言語モデルは、ARPAフォーマットを使用して生成されることを特徴とする請求項10に記載の方法。
- 前記方法を実行するためのコンピュータ実行可能な命令はコンピュータが読み取り可能な媒体上で具現化される請求項10に記載の方法。
- 前記文字、前記辞書および前記代替の発音のうちの少なくとも1つは、口語に対応していることを特徴とする請求項10に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/996,732 US7418387B2 (en) | 2004-11-24 | 2004-11-24 | Generic spelling mnemonics |
US10/996,732 | 2004-11-24 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006146193A JP2006146193A (ja) | 2006-06-08 |
JP2006146193A5 JP2006146193A5 (ja) | 2008-12-11 |
JP4818683B2 true JP4818683B2 (ja) | 2011-11-16 |
Family
ID=35466493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005308459A Expired - Fee Related JP4818683B2 (ja) | 2004-11-24 | 2005-10-24 | 言語モデルを作成する方法 |
Country Status (14)
Country | Link |
---|---|
US (2) | US7418387B2 (ja) |
EP (1) | EP1662482B1 (ja) |
JP (1) | JP4818683B2 (ja) |
KR (1) | KR101183310B1 (ja) |
CN (1) | CN1779783B (ja) |
AT (1) | ATE534988T1 (ja) |
AU (2) | AU2005229636B2 (ja) |
BR (1) | BRPI0504510A (ja) |
CA (1) | CA2523933C (ja) |
ES (1) | ES2375283T3 (ja) |
MX (1) | MXPA05011448A (ja) |
PL (1) | PL1662482T3 (ja) |
PT (1) | PT1662482E (ja) |
RU (1) | RU2441287C2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
KR100930714B1 (ko) | 2007-12-14 | 2009-12-09 | 한국전자통신연구원 | 음성인식 장치 및 방법 |
US8010465B2 (en) * | 2008-02-26 | 2011-08-30 | Microsoft Corporation | Predicting candidates using input scopes |
US8447613B2 (en) * | 2008-04-28 | 2013-05-21 | Irobot Corporation | Robot and server with optimized message decoding |
JP2011007862A (ja) * | 2009-06-23 | 2011-01-13 | Fujitsu Ltd | 音声認識装置、音声認識プログラム、および音声認識方法 |
EP3091535B1 (en) * | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US8914286B1 (en) * | 2011-04-14 | 2014-12-16 | Canyon IP Holdings, LLC | Speech recognition with hierarchical networks |
WO2013035293A1 (ja) * | 2011-09-09 | 2013-03-14 | 旭化成株式会社 | 音声認識装置 |
KR101193362B1 (ko) * | 2012-04-13 | 2012-10-19 | 최병기 | 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체 |
US20140068443A1 (en) * | 2012-08-28 | 2014-03-06 | Private Group Networks, Inc. | Method and system for creating mnemonics for locations-of-interests |
US10235358B2 (en) | 2013-02-21 | 2019-03-19 | Microsoft Technology Licensing, Llc | Exploiting structured content for unsupervised natural language semantic parsing |
US10073840B2 (en) | 2013-12-20 | 2018-09-11 | Microsoft Technology Licensing, Llc | Unsupervised relation detection model training |
WO2019203016A1 (ja) * | 2018-04-19 | 2019-10-24 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
JP7332486B2 (ja) * | 2020-01-08 | 2023-08-23 | 株式会社東芝 | 記号列変換装置および記号列変換方法 |
US11735169B2 (en) * | 2020-03-20 | 2023-08-22 | International Business Machines Corporation | Speech recognition and training for data inputs |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2820093B2 (ja) * | 1995-12-26 | 1998-11-05 | 日本電気株式会社 | 単音節認識装置 |
US6321196B1 (en) * | 1999-07-02 | 2001-11-20 | International Business Machines Corporation | Phonetic spelling for speech recognition |
GB2353887B (en) * | 1999-09-04 | 2003-09-24 | Ibm | Speech recognition system |
US7315815B1 (en) | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6694296B1 (en) * | 2000-07-20 | 2004-02-17 | Microsoft Corporation | Method and apparatus for the recognition of spelled spoken words |
WO2002029613A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation (A Corporation Of Delaware) | Method and system for building a domain specific statistical language model from rule-based grammar specifications |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US6975986B2 (en) * | 2001-05-30 | 2005-12-13 | International Business Machines Corporation | Voice spelling in an audio-only interface |
US7225130B2 (en) * | 2001-09-05 | 2007-05-29 | Voice Signal Technologies, Inc. | Methods, systems, and programming for performing speech recognition |
US7315811B2 (en) * | 2003-12-31 | 2008-01-01 | Dictaphone Corporation | System and method for accented modification of a language model |
-
2004
- 2004-11-24 US US10/996,732 patent/US7418387B2/en not_active Expired - Fee Related
-
2005
- 2005-10-06 KR KR1020050093842A patent/KR101183310B1/ko not_active IP Right Cessation
- 2005-10-18 BR BRPI0504510-0A patent/BRPI0504510A/pt not_active IP Right Cessation
- 2005-10-19 AT AT05109732T patent/ATE534988T1/de active
- 2005-10-19 PT PT05109732T patent/PT1662482E/pt unknown
- 2005-10-19 EP EP05109732A patent/EP1662482B1/en not_active Not-in-force
- 2005-10-19 PL PL05109732T patent/PL1662482T3/pl unknown
- 2005-10-19 ES ES05109732T patent/ES2375283T3/es active Active
- 2005-10-20 CA CA2523933A patent/CA2523933C/en not_active Expired - Fee Related
- 2005-10-24 JP JP2005308459A patent/JP4818683B2/ja not_active Expired - Fee Related
- 2005-10-24 MX MXPA05011448A patent/MXPA05011448A/es active IP Right Grant
- 2005-10-26 CN CN2005101186009A patent/CN1779783B/zh not_active Expired - Fee Related
- 2005-10-31 AU AU2005229636A patent/AU2005229636B2/en not_active Ceased
- 2005-11-23 RU RU2005136460/08A patent/RU2441287C2/ru not_active IP Right Cessation
-
2008
- 2008-07-11 US US12/171,309 patent/US7765102B2/en not_active Expired - Fee Related
-
2010
- 2010-08-16 AU AU2010212370A patent/AU2010212370B2/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
MXPA05011448A (es) | 2007-12-11 |
RU2441287C2 (ru) | 2012-01-27 |
CN1779783A (zh) | 2006-05-31 |
EP1662482B1 (en) | 2011-11-23 |
PL1662482T3 (pl) | 2012-04-30 |
US7765102B2 (en) | 2010-07-27 |
JP2006146193A (ja) | 2006-06-08 |
US7418387B2 (en) | 2008-08-26 |
KR101183310B1 (ko) | 2012-09-17 |
US20080319749A1 (en) | 2008-12-25 |
CA2523933A1 (en) | 2006-05-24 |
EP1662482A2 (en) | 2006-05-31 |
BRPI0504510A (pt) | 2006-07-11 |
KR20060058004A (ko) | 2006-05-29 |
US20060111907A1 (en) | 2006-05-25 |
AU2005229636B2 (en) | 2010-09-30 |
PT1662482E (pt) | 2011-12-19 |
CN1779783B (zh) | 2011-08-03 |
CA2523933C (en) | 2014-01-28 |
RU2005136460A (ru) | 2007-05-27 |
EP1662482A3 (en) | 2010-02-17 |
AU2010212370B2 (en) | 2012-05-10 |
AU2010212370A1 (en) | 2010-09-09 |
AU2005229636A1 (en) | 2006-06-08 |
ES2375283T3 (es) | 2012-02-28 |
ATE534988T1 (de) | 2011-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4818683B2 (ja) | 言語モデルを作成する方法 | |
TW546631B (en) | Disambiguation language model | |
US8731928B2 (en) | Speaker adaptation of vocabulary for speech recognition | |
EP1346343B1 (en) | Speech recognition using word-in-phrase command | |
US7580838B2 (en) | Automatic insertion of non-verbalized punctuation | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
US7124080B2 (en) | Method and apparatus for adapting a class entity dictionary used with language models | |
EP1089193A2 (en) | Translating apparatus and method, and recording medium used therewith | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
EP1251490A1 (en) | Compact phonetic model for arabic languages recognition | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
CN110870004A (zh) | 基于音节的自动语音识别 | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
JP2007535692A (ja) | 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 | |
Attanayake | Statistical language modelling and novel parsing techniques for enhanced creation and editing of mathematical e-content using spoken input | |
WO2014035437A1 (en) | Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction | |
JP7165439B2 (ja) | ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 | |
KR20230155836A (ko) | 난발음 표기 방법 | |
Maskeliunas et al. | Recognition of voice commands using adaptation of foreign language speech recognizer via selection of phonetic transcriptions | |
Ellermann et al. | Dragon systems' experiences in small to large vocabulary multi-lingual speech recognition applications. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081024 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110517 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20110527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110826 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110831 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140909 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |