JP5688761B2 - 音響モデル学習装置、および音響モデル学習方法 - Google Patents
音響モデル学習装置、および音響モデル学習方法 Download PDFInfo
- Publication number
- JP5688761B2 JP5688761B2 JP2011041078A JP2011041078A JP5688761B2 JP 5688761 B2 JP5688761 B2 JP 5688761B2 JP 2011041078 A JP2011041078 A JP 2011041078A JP 2011041078 A JP2011041078 A JP 2011041078A JP 5688761 B2 JP5688761 B2 JP 5688761B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- information
- related information
- unit
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
本第一の発明の音響モデル学習装置は、第一言語の音素を識別する音素識別子と音素に関する情報である音素情報とを対応付けた1以上の第一音素関連情報を格納し得る第一音響モデル格納部と、第二言語の音素を識別する音素識別子と音素に関する情報である音素情報とを対応付けた1以上の第二音素関連情報を格納し得る第二音響モデル格納部と、第一言語の単語と単語の音素識別子列とを対応付けた1以上の第一単語発音情報を格納し得る第一発音辞書と、第二音響モデル格納部から、第二言語の第二音素関連情報を選択する第二音素関連情報選択部と、第一単語発音情報から、第一単語発音情報が有する音素識別子列に含まれる音素識別子を、第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成部と、第一言語の単語の1以上の音声を受け付ける受付部と、第一音響モデル格納部に格納されている1以上の第一音素関連情報と第二音素関連情報選択部が選択した第二言語の第二音素関連情報、および第一発音辞書に格納されている1以上の第一単語発音情報に仮第一単語発音情報を加えた仮第一発音辞書を用いて、受付部が受け付けた1以上の音声に対して、音声認識処理を行い、音素識別子列を含む1以上の認識結果を取得する音声認識部と、1以上の認識結果から、新第一単語発音情報が得られた数に関する情報である置換数情報を取得する置換数情報取得部と、置換数情報が予め決められた条件を満たすほど大きい場合に、第二音素関連情報選択部が選択した第二言語の第二音素関連情報が有する音素情報と、置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新音素関連情報を構成する新第一単語発音情報構成部と、新第一単語発音情報を第一音響モデル格納部に蓄積する蓄積部とを具備する音響モデル学習装置である。
本実施の形態において、置換率等が高い第二言語の音素情報を、第一言語の音素情報として学習させる音響モデル学習装置について説明する。
受付部16は、
(実験)
なお、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
11 第一音響モデル格納部
12 第二音響モデル格納部
13 第一発音辞書
14 第二音素関連情報選択部
15 仮第一単語発音情報構成部
16 受付部
17 音声認識部
18 置換数情報取得部
19 新第一音素関連情報構成部
20 蓄積部
151 学習数取得手段
152 仮第一単語発音情報構成手段
Claims (4)
- 第一言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた1以上の第一音素関連情報を格納し得る第一音響モデル格納部と、
第二言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた1以上の第二音素関連情報を格納し得る第二音響モデル格納部と、
第一言語の単語と当該単語の音素識別子列とを対応付けた1以上の第一単語発音情報を格納し得る第一発音辞書と、
前記第二音響モデル格納部から、前記第二言語の音素識別子列を含む第二音素関連情報を選択する第二音素関連情報選択部と、
前記第一単語発音情報から、前記第一単語発音情報が有する音素識別子列に含まれる音素識別子を、前記第二音素関連情報選択部が選択した音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成部と、
第一言語の単語の1以上の音声を受け付ける受付部と、
前記第一音響モデル格納部に格納されている1以上の第一音素関連情報と前記第二音素関連情報選択部が選択した第二言語の第二音素関連情報、および前記第一発音辞書に格納されている1以上の第一単語発音情報に前記仮第一単語発音情報を加えた仮第一発音辞書を用いて、前記受付部が受け付けた1以上の音声に対して、音声認識処理を行い、音素識別子列を含む1以上の認識結果を取得する音声認識部と、
前記1以上の認識結果から、前記仮第一単語発音情報が得られた数に関する情報である置換数情報を取得する置換数情報取得部と、
前記置換数情報が予め決められた条件を満たすほど大きい場合に、前記第二音素関連情報選択部が選択した前記第二言語の第二音素関連情報が有する音素情報と、前記置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新第一音素関連情報を構成する新第一音素関連情報構成部と、
前記新第一音素関連情報を前記第一音響モデル格納部に蓄積する蓄積部とを具備する音響モデル学習装置。 - 前記仮第一単語発音情報構成部は、
前記第一音響モデル格納部に格納されている1以上の第一音素関連情報から、前記第一言語の各音素識別子に対応する音素情報の数である学習数を取得する学習数取得手段と、
前記第一単語発音情報が有する音素識別子列に含まれる音素識別子であり、予め決められた条件を満たすほど前記学習数の少ない音素の音素識別子のみ、前記第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成手段とを具備する請求項1記載の音響モデル学習装置。 - 記録媒体は、
第一言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた1以上の第一音素関連情報を格納し得る第一音響モデル格納部と、
第二言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた1以上の第二音素関連情報を格納し得る第二音響モデル格納部と、
第一言語の単語と当該単語の音素識別子列とを対応付けた1以上の第一単語発音情報を格納し得る第一発音辞書とを具備し、
第二音素関連情報選択部、仮第一単語発音情報構成部、受付部、音声認識部、置換数情報取得部、新第一音素関連情報構成部、および蓄積部とにより実現される音響モデル学習方法であって、
前記第二音素関連情報選択部が、前記記録媒体から、前記第二言語の音素識別子列を含む第二音素関連情報を選択する第二音素関連情報選択ステップと、
前記仮第一単語発音情報構成部が、前記第一単語発音情報から、前記第一単語発音情報が有する音素識別子列に含まれる音素識別子を、前記第二音素関連情報選択ステップで選択された音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成ステップと、
前記受付部が、第一言語の単語の1以上の音声を受け付ける受付ステップと、
前記音声認識部が、前記記録媒体に格納されている1以上の第一音素関連情報と前記第二音素関連情報選択ステップで選択された第二言語の第二音素関連情報、および前記第一発音辞書に格納されている1以上の第一単語発音情報に前記仮第一単語発音情報を加えた仮第一発音辞書を用いて、前記受付部が受け付けた1以上の音声に対して、音声認識処理を行い、音素識別子列を含む1以上の認識結果を取得する音声認識ステップと、
前記置換数情報取得部が、前記1以上の認識結果から、前記仮第一単語発音情報が得られた数に関する情報である置換数情報を取得する置換数情報取得ステップと、
前記新第一音素関連情報構成部が、前記置換数情報が予め決められた条件を満たすほど大きい場合に、前記第二音素関連情報選択ステップで選択された前記第二言語の第二音素関連情報が有する音素情報と、前記置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新第一音素関連情報を構成する新第一音素関連情報構成ステップと、
前記蓄積部が、前記新第一音素関連情報を記録媒体に蓄積する蓄積ステップとを具備する音響モデル学習方法。 - 前記仮第一単語発音情報構成ステップは、
前記記録媒体に格納されている1以上の第一音素関連情報から、前記第一言語の各音素識別子に対応する音素情報の数である学習数を取得する学習数取得ステップと、
前記第一単語発音情報が有する音素識別子列に含まれる音素識別子であり、予め決められた条件を満たすほど前記学習数の少ない音素の音素識別子のみ、前記第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成ステップとを具備する請求項3記載の音響モデル学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011041078A JP5688761B2 (ja) | 2011-02-28 | 2011-02-28 | 音響モデル学習装置、および音響モデル学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011041078A JP5688761B2 (ja) | 2011-02-28 | 2011-02-28 | 音響モデル学習装置、および音響モデル学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012177815A JP2012177815A (ja) | 2012-09-13 |
JP5688761B2 true JP5688761B2 (ja) | 2015-03-25 |
Family
ID=46979693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011041078A Active JP5688761B2 (ja) | 2011-02-28 | 2011-02-28 | 音響モデル学習装置、および音響モデル学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5688761B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5980101B2 (ja) * | 2012-11-19 | 2016-08-31 | 日本電信電話株式会社 | 音響モデル学習用テキスト作成装置とその方法とプログラム |
JP6376486B2 (ja) * | 2013-08-21 | 2018-08-22 | 国立研究開発法人情報通信研究機構 | 音響モデル生成装置、音響モデル生成方法、およびプログラム |
WO2015102127A1 (ko) * | 2013-12-31 | 2015-07-09 | 엘지전자 주식회사 | 음성 인식 시스템 및 방법 |
JP6350935B2 (ja) * | 2014-02-28 | 2018-07-04 | 国立研究開発法人情報通信研究機構 | 音響モデル生成装置、音響モデルの生産方法、およびプログラム |
TWI759003B (zh) * | 2020-12-10 | 2022-03-21 | 國立成功大學 | 語音辨識模型的訓練方法 |
CN113689882B (zh) * | 2021-08-24 | 2024-09-06 | 上海喜马拉雅科技有限公司 | 发音评测方法、装置、电子设备及可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5003A (en) * | 1847-03-06 | philip c | ||
US6085160A (en) * | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
JP4115723B2 (ja) * | 2002-03-18 | 2008-07-09 | 独立行政法人産業技術総合研究所 | 音声入力によるテキスト検索装置 |
JP4064748B2 (ja) * | 2002-07-22 | 2008-03-19 | アルパイン株式会社 | 音声発生装置、音声発生方法及びナビゲーション装置 |
JP2006098994A (ja) * | 2004-09-30 | 2006-04-13 | Advanced Telecommunication Research Institute International | 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム |
-
2011
- 2011-02-28 JP JP2011041078A patent/JP5688761B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012177815A (ja) | 2012-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10741170B2 (en) | Speech recognition method and apparatus | |
US10249294B2 (en) | Speech recognition system and method | |
KR101780760B1 (ko) | 가변길이 문맥을 이용한 음성인식 | |
US7957969B2 (en) | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciatons | |
US8583432B1 (en) | Dialect-specific acoustic language modeling and speech recognition | |
Sainath et al. | No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models | |
Ashraf et al. | Speaker independent Urdu speech recognition using HMM | |
EP2685452A1 (en) | Method of recognizing speech and electronic device thereof | |
US20170263242A1 (en) | Information processing device, information processing method, computer program product, and recognition system | |
Trmal et al. | A keyword search system using open source software | |
KR20210138776A (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
JP5660441B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
CN112331229B (zh) | 语音检测方法、装置、介质和计算设备 | |
KR102094935B1 (ko) | 음성 인식 시스템 및 방법 | |
Qiao et al. | Small-vocabulary speech recognition for resource-scarce languages | |
Hu et al. | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
US11295733B2 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
Rasipuram et al. | Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic | |
JP2010186339A (ja) | 通訳装置、方法、及びプログラム | |
JP4962962B2 (ja) | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 | |
Wang et al. | Cloud-based automatic speech recognition systems for southeast asian languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5688761 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |