JP2009128490A - 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 - Google Patents
学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2009128490A JP2009128490A JP2007301625A JP2007301625A JP2009128490A JP 2009128490 A JP2009128490 A JP 2009128490A JP 2007301625 A JP2007301625 A JP 2007301625A JP 2007301625 A JP2007301625 A JP 2007301625A JP 2009128490 A JP2009128490 A JP 2009128490A
- Authority
- JP
- Japan
- Prior art keywords
- learning data
- acoustic model
- adaptive
- data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】ベース音響モデル141を、タスクに適応する学習データであるタスク適応学習データ120で学習してタスクに適応した適応音響モデル151を作成する。学習データ200の音声データに対して音声認識を行い、学習データ200のラベルから得られた文法161および適応音響モデル151を用いた音声認識の場合の認識スコア(適応認識スコア)と、文法161およびベース音響モデル141を用いた音声認識の場合の認識スコア(ベース認識スコア)とを求める。学習データ200のうち、適応認識スコアとベース認識スコアとの比較判定に合格するものを選択する。
【選択図】図1
Description
このように、適応認識スコアとベース認識スコアとの比較判定に合格する学習データを、タスクに相応しい学習データであると看做してこれを選択する。
図面を参照して、本発明の第1実施形態を説明する。
本発明の第1実施形態である学習データ選択装置1は、それ単体で独立に存在するよりは、選択された学習データを用いて音響モデルの作成を行う装置(本発明の第1実施形態である音響モデル作成装置2)を構成する構成要素として存在するのが実用的である。さらに云えば、学習データ選択装置1は、音響モデル作成装置2とは容易に分離可能に音響モデル作成装置2を構成する構成要素ではなく、音響モデル作成装置2自体を或る機能に着眼して片面的に評価したものと云うこともできる。要するに、学習データ選択装置1は、音響モデル作成装置2そのものであることが凡そ実用的である。
ただし、学習データ選択装置1が、単体独立の構成要素として存在すること、音響モデル作成装置2とは容易に分離可能に音響モデル作成装置2を構成する構成要素であることを排除する趣旨ではない。例えば学習データの選択自体を目的とするならば、学習データ選択装置1を単体独立の構成要素として実現することに何らの妨げは無い。
ここで音響モデル作成装置2は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、単体独立の構成要素として学習データ選択装置1を実現する場合も同様である。
音響モデル作成装置2は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)、ROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音響モデル作成装置2に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
(参考文献)Lawrence Rabiner, Biing-Hwang Juang 共著、古井貞熙監訳、"音声認識の基礎(下)"、NTTアドバンステクノロジ、1995
第2実施形態は、選択学習データ131の選択に関する変形例である。第2実施形態は、第1実施形態のステップS6の処理を、学習データ選択部13が、学習データ200のうち、適応認識スコアからベース認識スコアを減じて得られるスコア(差分認識スコア)が、予め定められた閾値以上となる発話に対応する音声データとこれに対応するラベルからなる学習データを選択学習データ131として選択する処理(ステップS6a)に変更した実施形態である(図3参照)。第1実施形態の例は、閾値が0の場合である。閾値は負の値としてもよい。ここで述べた変更以外は、第1実施形態と同じである。
第3実施形態は、音響モデル171の作成に関する変形例である。第3実施形態は、第1実施形態のステップS7の処理を、音響モデル作成部17が、選択学習データ131に基本学習データ101を併せたものを学習データとして、この学習データでベース音響モデル141を学習して音響モデル171を作成する処理(ステップS7a)に変更した実施形態である(図4参照)。ここで基本学習データ101として、ベース学習データ100、または、タスク適応学習データ120、または、ベース学習データ100とタスク適応学習データ120とを併せたものを採用できる。この変更以外は、第1実施形態と同じである。また、図示していないが、この第3実施形態は第2実施形態に適用できる。
第1実施形態において、学習データ選択処理のみを行う場合には、ステップS7の処理を省略できる。この場合であっても、ステップS1およびS2の各処理は必須のものではない。このことは第2実施形態でも同様である。また、第3実施形態では、学習データ選択処理のみを行う場合には、ステップS7aの処理を省略できる。この場合でも、ステップS1およびS2の各処理は必須のものではない。
2 音響モデル作成装置
12 音声認識部
13 学習データ選択部
15 適応音響モデル作成部
17 音響モデル作成部
131 選択学習データ
141 ベース音響モデル
151 適応音響モデル
161 文法
171 音響モデル
200 学習データ
Claims (10)
- 初期音響モデルであるベース音響モデルと、音声データとこの音声データに対応付けられたラベルで構成される学習データと、この学習データのラベルから得られた文法と、タスクに適応する学習データ(タスク適応学習データ)とを記憶する記憶手段と、
上記ベース音響モデルを上記タスク適応学習データで学習して上記タスクに適応した音響モデル(適応音響モデル)を作成する適応音響モデル作成手段と、
上記音声データに対して音声認識を行い、上記文法および上記適応音響モデルを用いた音声認識の場合の認識スコア(適応認識スコア)と、上記文法および上記ベース音響モデルを用いた音声認識の場合の認識スコア(ベース認識スコア)とを求める音声認識手段と、
上記学習データのうち、上記適応認識スコアと上記ベース認識スコアとの比較判定に合格するものを選択する学習データ選択手段と
を備える学習データ選択装置。 - 上記学習データ選択手段は、
上記適応認識スコアから上記ベース認識スコアを減じて得られるスコア(差分認識スコア)が、予め定められた閾値以上となるものを選択する
ことを特徴とする請求項1に記載の学習データ選択装置。 - 記憶手段には、初期音響モデルであるベース音響モデルと、音声データとこの音声データに対応付けられたラベルで構成される学習データと、この学習データのラベルから得られた文法と、タスクに適応する学習データ(タスク適応学習データ)とが記憶されており、
上記ベース音響モデルを上記タスク適応学習データで学習して上記タスクに適応した音響モデル(適応音響モデル)を作成する適応音響モデル作成ステップと、
上記音声データに対して音声認識を行い、上記文法および上記適応音響モデルを用いた音声認識の場合の認識スコア(適応認識スコア)と、上記文法および上記ベース音響モデルを用いた音声認識の場合の認識スコア(ベース認識スコア)とを求める音声認識ステップと、
上記学習データのうち、上記適応認識スコアと上記ベース認識スコアとの比較判定に合格するものを選択する学習データ選択ステップと
を有する学習データ選択方法。 - 初期音響モデルである基本音響モデルと、請求項1または請求項2に記載の学習データ選択装置によって選択された学習データ(選択学習データ)とを記憶する記憶手段と、
上記選択学習データを用いて上記基本音響モデルを学習して音響モデルを作成する音響モデル作成手段と
を備えた音響モデル作成装置。 - 上記記憶手段には、上記選択学習データと異なる学習データ(基本学習データ)も記憶されており、
上記音響モデル作成手段は、上記基本学習データと上記選択学習データとを併せたものを学習データとして、この学習データで上記基本音響モデルを学習して音響モデルを作成する
ことを特徴とする請求項4に記載の音響モデル作成装置。 - 記憶手段には、初期音響モデルである基本音響モデルと、請求項3に記載の学習データ選択方法によって選択された学習データ(選択学習データ)とが記憶されており、
上記選択学習データを用いて上記基本音響モデルを学習して音響モデルを作成する音響モデル作成ステップ
を有する音響モデル作成方法。 - 請求項1または請求項2に記載された学習データ選択装置としてコンピュータを機能させるためのプログラム。
- 請求項7に記載のプログラムを記録したコンピュータに読み取り可能な記録媒体。
- 請求項4または請求項5に記載された音響モデル作成装置としてコンピュータを機能させるためのプログラム。
- 請求項9に記載のプログラムを記録したコンピュータに読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007301625A JP4829871B2 (ja) | 2007-11-21 | 2007-11-21 | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007301625A JP4829871B2 (ja) | 2007-11-21 | 2007-11-21 | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009128490A true JP2009128490A (ja) | 2009-06-11 |
JP4829871B2 JP4829871B2 (ja) | 2011-12-07 |
Family
ID=40819504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007301625A Expired - Fee Related JP4829871B2 (ja) | 2007-11-21 | 2007-11-21 | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4829871B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011002494A (ja) * | 2009-06-16 | 2011-01-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラムと記録媒体 |
JP2011013543A (ja) * | 2009-07-03 | 2011-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2013214016A (ja) * | 2012-04-04 | 2013-10-17 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル性能評価装置とその方法とプログラム |
JP2016177233A (ja) * | 2015-03-23 | 2016-10-06 | 日本電信電話株式会社 | 学習データ生成装置、方法及びプログラム |
JP2020024633A (ja) * | 2018-08-08 | 2020-02-13 | 株式会社デンソー | 訓練データ評価装置、訓練データ評価方法、およびプログラム |
CN112466294A (zh) * | 2020-11-24 | 2021-03-09 | 北京百度网讯科技有限公司 | 声学模型的生成方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259169A (ja) * | 1999-03-04 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識装置およびその記録媒体 |
JP2001083986A (ja) * | 1999-09-16 | 2001-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 統計モデル作成方法 |
-
2007
- 2007-11-21 JP JP2007301625A patent/JP4829871B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259169A (ja) * | 1999-03-04 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識装置およびその記録媒体 |
JP2001083986A (ja) * | 1999-09-16 | 2001-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 統計モデル作成方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011002494A (ja) * | 2009-06-16 | 2011-01-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラムと記録媒体 |
JP2011013543A (ja) * | 2009-07-03 | 2011-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2013214016A (ja) * | 2012-04-04 | 2013-10-17 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル性能評価装置とその方法とプログラム |
JP2016177233A (ja) * | 2015-03-23 | 2016-10-06 | 日本電信電話株式会社 | 学習データ生成装置、方法及びプログラム |
JP2020024633A (ja) * | 2018-08-08 | 2020-02-13 | 株式会社デンソー | 訓練データ評価装置、訓練データ評価方法、およびプログラム |
JP7176285B2 (ja) | 2018-08-08 | 2022-11-22 | 株式会社デンソー | 訓練データ評価装置、訓練データ評価方法、およびプログラム |
CN112466294A (zh) * | 2020-11-24 | 2021-03-09 | 北京百度网讯科技有限公司 | 声学模型的生成方法、装置及电子设备 |
CN112466294B (zh) * | 2020-11-24 | 2021-12-14 | 北京百度网讯科技有限公司 | 声学模型的生成方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP4829871B2 (ja) | 2011-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
JP2010152751A (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
CN112750446A (zh) | 语音转换方法、装置和系统及存储介质 | |
JP4728791B2 (ja) | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP2006349723A (ja) | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP4571922B2 (ja) | 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 | |
JP4705557B2 (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
Bernard et al. | Shennong: A Python toolbox for audio speech features extraction | |
JP5200080B2 (ja) | 音声認識装置、音声認識方法、およびそのプログラム | |
JP6006678B2 (ja) | 音声モデル生成装置、方法、プログラム | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP5840075B2 (ja) | 音声波形データベース生成装置、方法、プログラム | |
JP2005250071A (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
Shahnawazuddin et al. | A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models | |
JP2007249050A (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110906 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110916 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140922 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4829871 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |