JP5391150B2 - 音響モデル学習用ラベル作成装置、その方法及びプログラム - Google Patents
音響モデル学習用ラベル作成装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP5391150B2 JP5391150B2 JP2010119538A JP2010119538A JP5391150B2 JP 5391150 B2 JP5391150 B2 JP 5391150B2 JP 2010119538 A JP2010119538 A JP 2010119538A JP 2010119538 A JP2010119538 A JP 2010119538A JP 5391150 B2 JP5391150 B2 JP 5391150B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme environment
- label
- frequency
- phoneme
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)
そして、効率計算文リストから供給される文を学習効率スコア順に並べ換え、学習効率スコアが同値の場合は学習バリエーション効率スコアに並べ換えた並べ換え文リストを生成し、最少個数音素の個数が基準学習データ数に達するまで並べ換え文リストの上位から順に文を選択して選択文リストを生成し、選択文リスト中に含まれる音素の個数を数えて既選択文音素個数リストを生成し、並び換えリストの中で最小個数音素の次に個数の少ない音素について、既選択文音素個数リスト中に基準学習データ数に達していない場合、当該音素をも含む基準学習データ数未満音素文リストを生成するものとなっている。
図1はこの発明による音響モデル学習用ラベル作成装置の実施形態1の構成例を示したものである。音響モデル学習用ラベル作成装置は音響モデル学習用の既存音声DB10中のラベルを読みに変換する読み変換部21と、その読みを音素に変換する音素変換部22と、音素変換部22により生成された音素系列から既存音声DB10の音素環境頻度を計算する第1の音素環境頻度計算部23を備える。
音素環境(prec−cent+suc:前接−中心+後続)例
:k−a+i,k−a+o
id:各音素環境のID
phnm:音素
phnm_num:音素数
phnm_cnt:音素環境頻度
snt:文(ラベル,テキスト)
extspch:既存音声DB
orgtxt:元テキストDB
Step 1: 既存音声DBから最後の文になるまで文(ラベル)sntを1つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境(prec−cent+suc:前接−中心+後続)を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
id=prec+cent×(phnm_num+1)+suc×(phnm_num+1)^2
音素数を例えば30とすれば、
id=prec+cent×31+suc×312
Step 4: Step3で付与した音素環境のID(id)から音素環境毎に出現頻度をカウントする。
phnm_cnt extspch[id]++;
Step 1: 元テキストDBから最後の文になるまで文(ラベル)sntを1つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境(prec−cent+suc:前接−中心+後続)を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
id=prec+cent×(phnm_num+1)+suc×(phnm_num+1)^2
音素数を例えば30とすれば、
id=prec+cent×31+suc×312
Step 4: Step3で付与した音素環境のID(id)から音素環境毎に出現頻度をカウントする。
phnm_cnt orgtxt[id]++;
なお、テキストは単語(形態素)間にpauseが入る可能性があるので、pause抜きで考えても良い。
Step 1: 全ての音素環境のID(id)を一つずつ取得する。
Step 2: Step 1で取得した音素環境のID (id) 毎に以下のif条件に基づき、既存音声DBに含まれず、元テキストDBに含まれている音素環境である(true)か否(false)かを判定する。
if(phnm_cnt extspch[id]=0 && phnm_cnt orgtxt[id]>0) new_phnm[id]=true;
else new_phnm[id]=false;
Step 3: Step 2の判定結果が true の音素環境を、追加収録音素環境として抽出する。
Step 1: 元テキストDBから最後の文になるまで文(ラベル)sntを1つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
Step 4: Step3で付与した音素環境のID(id)から追加収録音素環境を含んでいれば、その文(ラベル)sntを選択(採用)し、含んでいなければ、不選択(不採用)とする。
Judge(snt)=reject;
for(id in snt){ if(new_phnm[id]=true) Judge (snt)=accept }
図2はこの発明による音響モデル学習用ラベル作成装置の実施形態2の構成例を示したものであり、図1と対応する部分には同一符号を付し、その詳細な説明を省略する。
Step 1: 全ての音素環境のID(id)を一つずつ取得する。
Step 2: Step 1で取得した音素環境のID (id) 毎に以下のif条件に基づき、既存音声DBに含まている頻度が低く、元テキストDBに含まれている音素環境である(true)か否(false)かを判定する。
if(phnm_cnt extspch[id]=low_th && phnm_cnt orgtxt[id]>0) new_phnm[id]=true;
else new_phnm[id]=false;
Step 3: Step 2の判定結果が true の音素環境を、追加収録音素環境として抽出する。
low_thは全音素環境の出現頻度sum_cntに対する相対頻度rel_rateから決定しても良い。この場合、
low_th=rel_rate×sum_cnt
となり、rel_rateは例えばrel_rate=0.0001とする。
この発明による音響モデル学習用ラベル作成装置の実施形態3の構成例を図3に示す。図3では図2に示した実施形態2の構成に対し、並び換え部51と蓄積部52とを付加したものとなっている。
Sort_eval_value=Σid(phnm_rate orgtxt[id]−phnm_rate extspch[id])
で求められる。なお、音素環境出現率:phnm_rateは、
phnm_rate=phnm_cnt/sum_cnt
で求められる。
実施形態4は実施形態3における追加収録用ラベルセットの並び換えにおいて、特定の音素環境を含むラベルのみが増えないように制約を加えるものであり、並び換え部51における並び換えの基準とするソート用評価値に重みを加える。
Sort_eval_value_weight=Σid(phnm_rate orgtxt[id]−phnm_rate extspch[id])×wid
で求められる。ここで、重み:widは、
wid=max(1−use_cnt/use_max,0)
とする。use_cntは使われた数を示し、use_maxは最大使用回数を示す。最大使用回数:use_maxは例えば5とする。すなわち、重み:widは1を起点として最大使用回数に達するまで減少し、最大使用回数に達した後は、0となるものである。
実施形態5は話者数に応じてラベルセットを分割する際、収録時間が余らないように、他の分割ラベルセットを逆順に連結するものである。
結合ラベルセット1=分割ラベルセット1+2inv
結合ラベルセット2=分割ラベルセット2+3inv
…
結合ラベルセットN=分割ラベルセットN+1inv
となり、これら結合ラベルセット1〜Nは図4に示したように、蓄積部561〜56Nにそれぞれ蓄積される。
この発明により作成された追加収録用ラベルセットによる音素環境カバレッジの向上を評価した。音素環境カバレッジは物理triphoneではなく、論理triphoneで計算した。既存音声DB、追加収録用ラベルセット及びそれらの和の音素環境カバレッジを以下に示す。
b)追加収録文 1,892文 ⇒ 音素環境カバレッジ 19.12%
a)+b) 23,499文 ⇒ 音素環境カバレッジ 24.23%
少ない文数(ラベル数)で音素環境カバレッジが大幅に向上していることが確認できた。なお、b)の追加収録文は3,225,910文から構築した。
Claims (9)
- 音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれず、前記元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出部と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部と、
前記追加収録用ラベルセットのラベルを並び換える並び換え部を具備し、
前記並び換え部はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成装置。 - 音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれている頻度が低く、前記元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出部と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部と、
前記追加収録用ラベルセットのラベルを並び換える並び換え部を具備し、
前記並び換え部はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成装置。 - 請求項1又は2記載の音響モデル学習用ラベル作成装置において、
前記ソート用評価値に前記追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加することを特徴とする音響モデル学習用ラベル作成装置。 - 請求項1乃至3記載のいずれかの音響モデル学習用ラベル作成装置において、
前記並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割部と、
前記分割部により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合部とを具備し、
前記分割部は前記並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割することを特徴とする音響モデル学習用ラベル作成装置。 - 音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算過程と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算過程と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれず、前記元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出過程と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程と、
前記追加収録用ラベルセットのラベルを並び換える並び換え過程を具備し、
前記並び換え過程はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成方法。 - 音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算過程と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算過程と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれている頻度が低く、前記元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出過程と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程と、
前記追加収録用ラベルセットのラベルを並び換える並び換え過程を具備し、
前記並び換え過程はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成方法。 - 請求項5又は6記載の音響モデル学習用ラベル作成方法において、
前記ソート用評価値に前記追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加することを特徴とする音響モデル学習用ラベル作成方法。 - 請求項5乃至7記載のいずれかの音響モデル学習用ラベル作成方法において、
前記並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割過程と、
前記分割過程により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合過程とを具備し、
前記分割過程は前記並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割することを特徴とする音響モデル学習用ラベル作成方法。 - 請求項5乃至8記載のいずれかの音響モデル学習用ラベル作成方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010119538A JP5391150B2 (ja) | 2010-05-25 | 2010-05-25 | 音響モデル学習用ラベル作成装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010119538A JP5391150B2 (ja) | 2010-05-25 | 2010-05-25 | 音響モデル学習用ラベル作成装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011248001A JP2011248001A (ja) | 2011-12-08 |
JP5391150B2 true JP5391150B2 (ja) | 2014-01-15 |
Family
ID=45413366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010119538A Expired - Fee Related JP5391150B2 (ja) | 2010-05-25 | 2010-05-25 | 音響モデル学習用ラベル作成装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5391150B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5980101B2 (ja) * | 2012-11-19 | 2016-08-31 | 日本電信電話株式会社 | 音響モデル学習用テキスト作成装置とその方法とプログラム |
US20230223005A1 (en) * | 2020-04-21 | 2023-07-13 | Ntt Docomo, Inc. | Voice data creation device |
US20240078999A1 (en) * | 2021-01-15 | 2024-03-07 | Nippon Telegraph And Telephone Corporation | Learning method, learning system and learning program |
CN115762525B (zh) * | 2022-11-18 | 2024-05-07 | 北京中科艺杺科技有限公司 | 一种基于全方位语音获取的语音过滤收录方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268672A (ja) * | 2001-03-13 | 2002-09-20 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声データベース用文セットの選択方法 |
JP3981640B2 (ja) * | 2003-02-20 | 2007-09-26 | 日本電信電話株式会社 | 音素モデル学習用文リスト生成装置、および生成プログラム |
-
2010
- 2010-05-25 JP JP2010119538A patent/JP5391150B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011248001A (ja) | 2011-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10446156B2 (en) | Diarization using textual and audio speaker labeling | |
US10977299B2 (en) | Systems and methods for consolidating recorded content | |
US8036894B2 (en) | Multi-unit approach to text-to-speech synthesis | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
US20210158795A1 (en) | Generating audio for a plain text document | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
CN101076851B (zh) | 口语识别系统以及用于训练和操作该系统的方法 | |
US11908448B2 (en) | Parallel tacotron non-autoregressive and controllable TTS | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN101276583A (zh) | 语音合成系统和语音合成方法 | |
JP5391150B2 (ja) | 音響モデル学習用ラベル作成装置、その方法及びプログラム | |
JP5376341B2 (ja) | モデル適応装置、その方法及びそのプログラム | |
JP6170384B2 (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
Schuller et al. | Incremental acoustic valence recognition: an inter-corpus perspective on features, matching, and performance in a gating paradigm | |
Qin | On spoken English phoneme evaluation method based on sphinx-4 computer system | |
JP2014215578A (ja) | 音響モデル選択装置とその方法とプログラム | |
CN113421544B (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
JP6002598B2 (ja) | 強調位置予測装置、その方法、およびプログラム | |
Majuran et al. | A feature-driven hierarchical classification approach to emotions in speeches using SVMs | |
CN114927135B (zh) | 语音交互方法、服务器及存储介质 | |
CN111191421B (zh) | 一种文本处理方法和装置、计算机存储介质和电子设备 | |
CN118016072A (zh) | 一种演唱清晰度检测方法、存储介质和电子设备 | |
JP2015045668A (ja) | 音声認識装置、音声認識方法、およびプログラム | |
WO2023209274A1 (en) | Computer-implemented method for punctuation of text from audio input |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130903 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130917 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131001 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131011 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5391150 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |