JP7165439B2 - ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 - Google Patents
ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 Download PDFInfo
- Publication number
- JP7165439B2 JP7165439B2 JP2021153076A JP2021153076A JP7165439B2 JP 7165439 B2 JP7165439 B2 JP 7165439B2 JP 2021153076 A JP2021153076 A JP 2021153076A JP 2021153076 A JP2021153076 A JP 2021153076A JP 7165439 B2 JP7165439 B2 JP 7165439B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- extended
- source
- source language
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003190 augmentative effect Effects 0.000 title claims description 4
- 238000000034 method Methods 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 51
- 238000013518 transcription Methods 0.000 claims description 39
- 230000035897 transcription Effects 0.000 claims description 39
- 230000011218 segmentation Effects 0.000 claims description 3
- 241001672694 Citrus reticulata Species 0.000 description 9
- 241001575999 Hakka Species 0.000 description 4
- 235000016278 Mentha canadensis Nutrition 0.000 description 4
- 238000013526 transfer learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
Claims (13)
- ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記ソース言語の発音参照テーブルを作成することであって、前記発音参照テーブルは、互いに対応するソース言語オーディオファイル及びソース言語発音表記を含む、ことと、
前記拡張言語の拡張言語テキストファイルを取得することと、
表記命令に従って、前記拡張言語テキストファイルに拡張言語発音表記を表記して、前記拡張言語のテキスト参照テーブルを作成することと、
前記ソース言語の前記発音参照テーブルと前記拡張言語の前記テキスト参照テーブルとによって、前記拡張言語の音響モデルをトレーニングすることと、
前記拡張言語の前記拡張言語テキストファイルによって、前記拡張言語の言語モデルをトレーニングすることと、
を含み、
前記拡張言語の音響モデルをトレーニングすることは、
前記ソース言語における前記ソース言語オーディオファイルに含まれる音素と前記ソース言語発音表記に含まれる記号との関係を取得することと、
前記拡張言語の前記拡張言語発音表記が前記ソース言語の前記ソース言語発音表記と同一であるか否かに応じて、前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することと、
を含み、
前記拡張言語の前記音声認識モデルは、前記拡張言語における前記音響モデル及び前記言語モデルを含む、方法。 - 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における単語の記号列が、前記ソース言語の前記ソース言語オーディオファイルの記録に対応する前記ソース言語発音表記における記号列と同一である場合、前記ソース言語の前記ソース言語オーディオファイルの前記記録の音素列の各フレームが、前記拡張言語の前記拡張言語発音表記における単語の記号列に等しいと決定することと、
前記記録の前記音素列と前記単語の前記記号列との間の等価関係を出力することと、
含む、方法。 - 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における単語の一部の記号列が、前記ソース言語の前記ソース言語オーディオファイルの音節に対応する前記ソース言語発音表記における記号列と同一である場合、前記ソース言語の前記ソース言語オーディオファイルにおける前記音節の音素列の各フレームが、前記拡張言語の前記拡張言語発音表記における前記単語の一部の前記記号列に等しいと決定することと、
前記音節の前記音素列と前記単語の一部の前記記号列との間の等価関係を出力することと、
を含む、方法。 - 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における母音又は子音が、前記ソース言語の前記ソース言語オーディオファイルにおける音素に対応する前記ソース言語発音表記における記号と同一である場合、前記ソース言語の前記ソース言語オーディオファイルにおける前記音素が、前記拡張言語の前記拡張言語発音表記における前記母音又は前記子音に等しいと決定することと、
前記音素と前記母音又は前記子音との間の等価関係を出力することと、
を含む、方法。 - 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における特殊記号が、前記ソース言語の前記ソース言語発音表記における任意の記号と異なる場合、前記拡張言語の前記拡張言語発音表記における前記特殊記号が、前記ソース言語の前記ソース言語オーディオファイルにおける少なくとも1つの類似音素に近似していると決定することと、
ファジー音素セットを出力することであって、前記ファジー音素セットは、前記特殊記号と前記少なくとも1つの類似音素との間の関係を含むことと、
を含む、方法。 - 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語の言語モデルをトレーニングすることは、
前記拡張言語の前記拡張言語テキストファイルに対してテキストセグメンテーションを実行することと、
前記拡張言語テキストファイルにおける単語間の文脈的関係を決定することと、
を含む、方法。 - 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
前記拡張言語の音声記録を前記音声認識モデルに入力することであって、前記音声記録は、前記ソース言語の前記ソース言語オーディオファイルに含まれていない特殊音素を含むことと、
前記特殊音素が、前記ソース言語オーディオファイル内の少なくとも1つの類似音素に近似していると決定することと、
ファジー音素セットを出力することであって、前記ファジー音素セットは、前記特殊音素と前記少なくとも1つの類似音素との間の関係を含むことと、
前記ファジー音素セットに従って、前記拡張言語の追加音響モデルを作成することと、
前記追加音響モデルに基づいて、前記拡張言語の前記音声認識モデルを更新することと、
を含む、方法。 - 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
前記拡張言語の音声記録を追加オーディオファイルとして受信することであって、前記追加オーディオファイルは、前記ソース言語の前記ソース言語オーディオファイルに含まれていない特殊音素を含むことと、
表記命令に従って、前記追加オーディオファイルを発音記号で表記することと、
前記特殊音素と前記特殊音素に対応する発音記号に基づいて、前記拡張言語の追加発音参照テーブルを作成することと、
前記拡張言語における前記追加発音参照テーブルと前記テキスト参照テーブルに基づいて、前記拡張言語の追加音響モデルを作成することと、
前記追加音響モデルに基づいて、前記拡張言語の音声認識モデルを更新することと、
を含む、方法。 - 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
前記拡張言語の音声記録を前記音声認識モデルに入力することと、
前記音声記録の中における同一の音節列の出現回数をカウントすることであって、前記同一の音節列は、前記拡張言語の前記拡張言語テキストファイルのどの部分にも対応していないことと、
前記音声記録における前記同一の音節列の出現回数が閾値を超えた場合、前記同一の音節列に対応する前記拡張言語のテキスト列を記録し、前記テキスト列に応じて追加言語モデルを作成することと、
前記追加言語モデルに基づいて、前記拡張言語の前記音声認識モデルを更新することと、
を含む、方法。 - 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記ソース言語の前記ソース言語オーディオファイルは、複数の人の発音を含む、方法。 - 請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記ソース言語の前記発音参照テーブルを作成することは、前記ソース言語発音表記における少なくとも1つの母音と少なくとも1つの子音とを用いて、声調記号を用いることなくソース言語を表現することを含み、
前記拡張言語テキストファイルを表記して、前記拡張言語の前記テキスト参照テーブルを作成することは、前記拡張言語発音表記における少なくとも1つの母音と少なくとも1つの子音とを用いて、声調記号を用いることなく前記拡張言語を表現することを含む、方法。 - 請求項11に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記少なくとも1つの母音及び前記少なくとも1つの子音は、ローマ字に基づいている、方法。 - 請求項11に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記少なくとも1つの母音及び前記少なくとも1つの子音は、国際音声記号に基づいている、方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109143725 | 2020-12-10 | ||
TW109143725A TWI759003B (zh) | 2020-12-10 | 2020-12-10 | 語音辨識模型的訓練方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022092568A JP2022092568A (ja) | 2022-06-22 |
JP7165439B2 true JP7165439B2 (ja) | 2022-11-04 |
Family
ID=81710799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021153076A Active JP7165439B2 (ja) | 2020-12-10 | 2021-09-21 | ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220189462A1 (ja) |
JP (1) | JP7165439B2 (ja) |
TW (1) | TWI759003B (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006098994A (ja) | 2004-09-30 | 2006-04-13 | Advanced Telecommunication Research Institute International | 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム |
JP2007155833A (ja) | 2005-11-30 | 2007-06-21 | Advanced Telecommunication Research Institute International | 音響モデル開発装置及びコンピュータプログラム |
JP2012177815A (ja) | 2011-02-28 | 2012-09-13 | National Institute Of Information & Communication Technology | 音響モデル学習装置、および音響モデル学習方法 |
JP2015040946A (ja) | 2013-08-21 | 2015-03-02 | 独立行政法人情報通信研究機構 | 音響モデル生成装置、音響モデル生成方法、およびプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6085160A (en) * | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
ATE320650T1 (de) * | 1999-06-30 | 2006-04-15 | Ibm | Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
US6963841B2 (en) * | 2000-04-21 | 2005-11-08 | Lessac Technology, Inc. | Speech training method with alternative proper pronunciation database |
DE10040063A1 (de) * | 2000-08-16 | 2002-02-28 | Philips Corp Intellectual Pty | Verfahren zur Zuordnung von Phonemen |
US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
US7146319B2 (en) * | 2003-03-31 | 2006-12-05 | Novauris Technologies Ltd. | Phonetically based speech recognition system and method |
US7289958B2 (en) * | 2003-10-07 | 2007-10-30 | Texas Instruments Incorporated | Automatic language independent triphone training using a phonetic table |
US20050144003A1 (en) * | 2003-12-08 | 2005-06-30 | Nokia Corporation | Multi-lingual speech synthesis |
US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
US8498857B2 (en) * | 2009-05-19 | 2013-07-30 | Tata Consultancy Services Limited | System and method for rapid prototyping of existing speech recognition solutions in different languages |
CN103971678B (zh) * | 2013-01-29 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
GB2533370A (en) * | 2014-12-18 | 2016-06-22 | Ibm | Orthographic error correction using phonetic transcription |
US9965569B2 (en) * | 2015-03-13 | 2018-05-08 | Microsoft Technology Licensing, Llc | Truncated autosuggest on a touchscreen computing device |
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
TWI698756B (zh) * | 2018-11-08 | 2020-07-11 | 中華電信股份有限公司 | 查詢服務之系統與方法 |
-
2020
- 2020-12-10 TW TW109143725A patent/TWI759003B/zh active
-
2021
- 2021-08-31 US US17/462,776 patent/US20220189462A1/en not_active Abandoned
- 2021-09-21 JP JP2021153076A patent/JP7165439B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006098994A (ja) | 2004-09-30 | 2006-04-13 | Advanced Telecommunication Research Institute International | 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム |
JP2007155833A (ja) | 2005-11-30 | 2007-06-21 | Advanced Telecommunication Research Institute International | 音響モデル開発装置及びコンピュータプログラム |
JP2012177815A (ja) | 2011-02-28 | 2012-09-13 | National Institute Of Information & Communication Technology | 音響モデル学習装置、および音響モデル学習方法 |
JP2015040946A (ja) | 2013-08-21 | 2015-03-02 | 独立行政法人情報通信研究機構 | 音響モデル生成装置、音響モデル生成方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
TWI759003B (zh) | 2022-03-21 |
TW202223874A (zh) | 2022-06-16 |
US20220189462A1 (en) | 2022-06-16 |
JP2022092568A (ja) | 2022-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI532035B (zh) | 語言模型的建立方法、語音辨識方法及電子裝置 | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
AU2010212370B2 (en) | Generic spelling mnemonics | |
US8498857B2 (en) | System and method for rapid prototyping of existing speech recognition solutions in different languages | |
TWI539441B (zh) | 語音辨識方法及電子裝置 | |
TW546631B (en) | Disambiguation language model | |
JP2001296880A (ja) | 固有名の複数のもっともらしい発音を生成する方法および装置 | |
TW201517015A (zh) | 聲學模型的建立方法、語音辨識方法及其電子裝置 | |
JP2008209717A (ja) | 入力された音声を処理する装置、方法およびプログラム | |
TW201517018A (zh) | 語音辨識方法及其電子裝置 | |
JPWO2011064829A1 (ja) | 情報処理装置 | |
CN108109610B (zh) | 一种模拟发声方法及模拟发声系统 | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
JP6397641B2 (ja) | 自動通訳装置及び方法 | |
KR20180025559A (ko) | 발음 사전 학습 방법 및 장치 | |
Pellegrini et al. | Automatic word decompounding for asr in a morphologically rich language: Application to amharic | |
JP7165439B2 (ja) | ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 | |
JP6879521B1 (ja) | 多言語音声認識およびテーマ−意義素解析方法および装置 | |
JP2004021207A (ja) | 音素認識方法、音素認識装置および音素認識プログラム | |
JP2007535692A (ja) | 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 | |
JP2001188556A (ja) | 音声認識方法及び装置 | |
Lehečka et al. | Improving speech recognition by detecting foreign inclusions and generating pronunciations | |
KR20230155836A (ko) | 난발음 표기 방법 | |
Santiago-Omar | On the development of speech resources for the mixtec language | |
Kao | Mandarin recognition over the telephone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221011 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7165439 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |