JP6350935B2 - 音響モデル生成装置、音響モデルの生産方法、およびプログラム - Google Patents
音響モデル生成装置、音響モデルの生産方法、およびプログラム Download PDFInfo
- Publication number
- JP6350935B2 JP6350935B2 JP2014039028A JP2014039028A JP6350935B2 JP 6350935 B2 JP6350935 B2 JP 6350935B2 JP 2014039028 A JP2014039028 A JP 2014039028A JP 2014039028 A JP2014039028 A JP 2014039028A JP 6350935 B2 JP6350935 B2 JP 6350935B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- unit
- data acquisition
- data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
(1)適応処理部17が行う適応処理
(2)音声認識部14が行う第一の音声認識処理であり、適応処理の結果、更新された旧音響モデルを使用した第一の音声認識処理
(3)データ取得部15が行う第一のデータ取得処理
(4)第一音響モデル学習部16が行う第一の学習処理
(5)音声認識部14が行う第二の音声認識処理
(6)データ取得部15が行う第二のデータ取得処理
(具体例1)
(具体例2)
(実験)
11 第一格納部
12 第二格納部
13 受付部
14 音声認識部
15 データ取得部
16 第一音響モデル学習部
17 適応処理部
18 第二音響モデル学習部
19 制御部
20 蓄積部
Claims (6)
- 属性が異なるN(Nは2以上の自然数)の音響モデルであるNの旧音響モデルを格納し得る第一格納部と、
対象言語の1以上の音声データを受け付ける受付部と、
前記1以上の各音声データに対して、前記Nの各旧音響モデルを用いて、前記Nの属性ごとに、前記1以上の各音声データに教師ラベルを付与する、第一の音声認識処理を行う音声認識部と、
前記Nの属性のうち、M1(M1は2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第一のデータ取得処理を行うデータ取得部と、
前記データ取得部が取得した音声データであって、教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、新しい音響モデルであるN以下の新音響モデルを取得する、第一の学習処理を行う第一音響モデル学習部とを具備し、
前記音声認識部は、
前記受付部が受け付けた1以上の各音声データに対して、前記第一音響モデル学習部が取得したN以下の各新音響モデルを用いて、N以下の属性ごとに、前記1以上の各音声データに教師ラベルを付与する、第二の音声認識処理を行い、
前記データ取得部は、
前記第二の音声認識処理の結果、N以下の属性のうち、M2(M2は2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第二のデータ取得処理を行い、
前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う第二音響モデル学習部と、
前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記N以下の属性ごとに音響モデルの適応処理を行い、前記N以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理部とを具備し、
前記適応処理部が行う適応処理、
前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、
前記データ取得部が行う前記第一のデータ取得処理、
前記第一音響モデル学習部が行う前記第一の学習処理、
前記音声認識部が行う、前記第二の音声認識処理、および
前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、1または2回以上繰り返して行い、
前記第二音響モデル学習部は、
前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、前記第二の学習処理を行う音響モデル生成装置。 - 前記一連処理を、教師ラベルの増加量が閾値以内、または閾値より小さくなるまで繰り返す請求項1記載の音響モデル生成装置。
- 前記第一のデータ取得処理におけるM1と前記第二のデータ取得処理におけるM2とが異なる数値である、または2回以上繰り返される第一のデータ取得処理におけるM1が異なる数値である請求項1または請求項2記載の音響モデル生成装置。
- 前記属性は、言語、発話スタイル、雑音の有無、雑音の程度、環境の違いのうちのいずれか1以上である請求項1から請求項3いずれか一項に記載の音響モデル生成装置。
- 記録媒体は、
属性が異なるN(Nは2以上の自然数)の音響モデルであるNの旧音響モデルを格納し得る第一格納部を具備し、
受付部、音声認識部、データ取得部、第一音響モデル学習部、第二音響モデル学習部、および適応処理部により実現され得る音響モデル生成方法であって、
前記受付部が、対象言語の1以上の音声データを受け付ける受付ステップと、
前記音声認識部が、前記1以上の各音声データに対して、前記Nの各旧音響モデルを用いて、前記Nの属性ごとに、前記1以上の各音声データに教師ラベルを付与する第一の音声認識ステップと、
前記データ取得部が、前記Nの属性のうち、M1(M1は2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識ステップで付与された場合、当該同一の教師ラベルを付与された音声データを取得する第一のデータ取得ステップと、
前記第一音響モデル学習部が、前記第一のデータ取得ステップで取得された音声データであって、教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、新しい音響モデルであるN以下の新音響モデルを取得する第一の学習ステップと、
前記音声認識部が、前記1以上の各音声データに対して、前記第一の学習ステップで取得されたNの各新音響モデルを用いて、N以下の属性ごとに、前記1以上の各音声データに教師ラベルを付与する第二の音声認識ステップと、
前記データ取得部が、前記第二の音声認識ステップにおける処理の結果、N以下の属性のうち、M2(M2は2以上の自然数)以上の属性に対して、同一の教師ラベルを前記第二の音声認識ステップで付与された場合、当該同一の教師ラベルを付与された音声データを取得する第二のデータ取得ステップと、
前記第二音響モデル学習部が、前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する第二の学習ステップと、
前記適応処理部が、前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記N以下の属性ごとに音響モデルの適応処理を行い、前記N以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理ステップとを具備し、
前記適応処理部が行う適応処理、
前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、
前記データ取得部が行う前記第一のデータ取得処理、
前記第一音響モデル学習部が行う前記第一の学習処理、
前記音声認識部が行う、前記第二の音声認識処理、および
前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、1または2回以上繰り返して行い、
前記第二の学習ステップにおいて、
前記第二音響モデル学習部は、前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う音響モデルの生産方法。 - コンピュータがアクセス可能な記録媒体は、
属性が異なるN(Nは2以上の自然数)の音響モデルであるNの旧音響モデルを格納し得る第一格納部を具備し、
コンピュータを
対象言語の1以上の音声データを受け付ける受付部と、
前記1以上の各音声データに対して、前記Nの各旧音響モデルを用いて、前記Nの属性ごとに、前記1以上の各音声データに教師ラベルを付与する、第一の音声認識処理を行う音声認識部と、
前記Nの属性のうち、M1(M1は2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第一のデータ取得処理を行うデータ取得部と、
前記データ取得部が取得した音声データであって、教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、新しい音響モデルであるN以下の新音響モデルを取得する、第一の学習処理を行う第一音響モデル学習部として機能させるためのプログラムであって、
前記音声認識部は、
前記受付部が受け付けた1以上の各音声データに対して、前記第一音響モデル学習部が取得したN以下の各新音響モデルを用いて、N以下の属性ごとに、前記1以上の各音声データに教師ラベルを付与する、第二の音声認識処理を行い、
前記データ取得部は、
前記第二の音声認識処理の結果、N以下の属性のうち、M2(M2は2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第二のデータ取得処理を行い、
コンピュータを、
前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う第二音響モデル学習部と、
前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記N以下の属性ごとに音響モデルの適応処理を行い、前記N以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理部としてさらに機能させるためのプログラムであって、
前記適応処理部が行う適応処理、
前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、
前記データ取得部が行う前記第一のデータ取得処理、
前記第一音響モデル学習部が行う前記第一の学習処理、
前記音声認識部が行う、前記第二の音声認識処理、および
前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、1または2回以上繰り返して行い、
前記第二音響モデル学習部は、
前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、前記第二の学習処理を行うものとして、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014039028A JP6350935B2 (ja) | 2014-02-28 | 2014-02-28 | 音響モデル生成装置、音響モデルの生産方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014039028A JP6350935B2 (ja) | 2014-02-28 | 2014-02-28 | 音響モデル生成装置、音響モデルの生産方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015161927A JP2015161927A (ja) | 2015-09-07 |
JP6350935B2 true JP6350935B2 (ja) | 2018-07-04 |
Family
ID=54185019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014039028A Active JP6350935B2 (ja) | 2014-02-28 | 2014-02-28 | 音響モデル生成装置、音響モデルの生産方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6350935B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7021437B2 (ja) * | 2018-08-15 | 2022-02-17 | 日本電信電話株式会社 | 学習データ生成装置、学習データ生成方法、及びプログラム |
KR102418887B1 (ko) * | 2018-11-20 | 2022-07-11 | 한국전자통신연구원 | 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법 |
CN109616105A (zh) * | 2018-11-30 | 2019-04-12 | 江苏网进科技股份有限公司 | 一种基于迁移学习的带噪语音识别方法 |
CN115547308B (zh) * | 2022-09-01 | 2024-09-20 | 北京达佳互联信息技术有限公司 | 一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006098994A (ja) * | 2004-09-30 | 2006-04-13 | Advanced Telecommunication Research Institute International | 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム |
JP5688761B2 (ja) * | 2011-02-28 | 2015-03-25 | 独立行政法人情報通信研究機構 | 音響モデル学習装置、および音響モデル学習方法 |
JP2013064951A (ja) * | 2011-09-20 | 2013-04-11 | Toyota Motor Corp | 音響モデル適応装置、その適応方法及びプログラム |
-
2014
- 2014-02-28 JP JP2014039028A patent/JP6350935B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015161927A (ja) | 2015-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10249294B2 (en) | Speech recognition system and method | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
KR20230003056A (ko) | 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식 | |
JP5326892B2 (ja) | 情報処理装置、プログラム、および音響モデルを生成する方法 | |
Basak et al. | Challenges and limitations in speech recognition technology: a critical review of speech signal processing algorithms, tools and systems | |
KR20050082253A (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
JP2001100781A (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
Lal et al. | Cross-lingual automatic speech recognition using tandem features | |
JP7557085B2 (ja) | 対話中のテキスト-音声の瞬時学習 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP7314079B2 (ja) | データ生成装置、データ生成方法およびプログラム | |
US11295733B2 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
JP6350935B2 (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
Ons et al. | Fast vocabulary acquisition in an NMF-based self-learning vocal user interface | |
Pietquin et al. | Comparing ASR modeling methods for spoken dialogue simulation and optimal strategy learning. | |
Li et al. | Cantonese automatic speech recognition using transfer learning from mandarin | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
Imseng et al. | Applying multi-and cross-lingual stochastic phone space transformations to non-native speech recognition | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP4163207B2 (ja) | 多言語話者適応方法、装置、プログラム | |
Gollan et al. | Towards automatic learning in LVCSR: rapid development of a Persian broadcast transcription system. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170227 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180227 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180511 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180525 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6350935 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |