JP5391150B2 - 音響モデル学習用ラベル作成装置、その方法及びプログラム - Google Patents

音響モデル学習用ラベル作成装置、その方法及びプログラム Download PDF

Info

Publication number
JP5391150B2
JP5391150B2 JP2010119538A JP2010119538A JP5391150B2 JP 5391150 B2 JP5391150 B2 JP 5391150B2 JP 2010119538 A JP2010119538 A JP 2010119538A JP 2010119538 A JP2010119538 A JP 2010119538A JP 5391150 B2 JP5391150 B2 JP 5391150B2
Authority
JP
Japan
Prior art keywords
phoneme environment
label
frequency
phoneme
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010119538A
Other languages
English (en)
Other versions
JP2011248001A (ja
Inventor
哲 小橋川
太一 浅見
義和 山口
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010119538A priority Critical patent/JP5391150B2/ja
Publication of JP2011248001A publication Critical patent/JP2011248001A/ja
Application granted granted Critical
Publication of JP5391150B2 publication Critical patent/JP5391150B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は音響モデル学習用ラベル作成装置、その方法及びプログラムに関し、特に音響モデル学習用の既存の音声DB(データベース)に対し、音声データを追加する際に、効率良く、音素環境カバレッジの向上を図ることを可能とする追加収録用ラベルセットを作成する装置、その方法及びプログラムに関する。
特許文献1には自動ラベリングに用いる音素モデルの学習に際して、少ない音声データでより高精度な音素モデルを作成するのに必要とされる、音声データの元となる読み上げ文を効率よく選択する音素モデル学習用文リストの生成方法、生成装置が記載されている。
特許文献1では元テキストDBから各音素の個数をカウントして個数リストを生成し、個数リストの音素を個数順に並び換えた並び換えリストを生成し、並び換えリストの中で最も少ない最少個数音素を含む全ての文を最少個数音素文リストに並べ、最少個数音素文リストの音素モデルの学習効率スコア、学習バリエーション効率スコアを下記により計算して効率計算文リストを生成する。
学習効率スコア=(個数が基準学習データ数未満である音素(最小個数音素を除く)の種類数)/(当該文に含まれる全ての音素数)
学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)
そして、効率計算文リストから供給される文を学習効率スコア順に並べ換え、学習効率スコアが同値の場合は学習バリエーション効率スコアに並べ換えた並べ換え文リストを生成し、最少個数音素の個数が基準学習データ数に達するまで並べ換え文リストの上位から順に文を選択して選択文リストを生成し、選択文リスト中に含まれる音素の個数を数えて既選択文音素個数リストを生成し、並び換えリストの中で最小個数音素の次に個数の少ない音素について、既選択文音素個数リスト中に基準学習データ数に達していない場合、当該音素をも含む基準学習データ数未満音素文リストを生成するものとなっている。
特開2004−252167号公報
しかるに、特許文献1では単一の元テキストDBからラベルセット(文セット)を選択決定するため、当該元テキストDBにおける音素環境の出現頻度の影響を受けやすいといった問題がある。
また、例えば過去に構築したラベルセットから作成した音声DBが存在し、その既存音声DBを含めて複数の音声DBを組み合わせて学習させる場合、特許文献1に記載されているラベルセットの作成方法では既存音声DBとの整合性が考慮されないため、音素環境カバレッジを必ずしも向上させることにはならず、元々の(既存音声DBの)音素環境カバレッジからの改善を図ることができない場合が生じうる。ここで、音素環境カバレッジとは、全ての音素環境のうち、DBのラベル(文)に含まれる音素環境の割合を意味する。
なお、実用上、一定の音素環境カバレッジを確保するためには多くのラベル(文)が必要となるが、単にラベルを増やすだけでは、結果として、既存音声DBに十分な頻度で含まれており、増やす必要がない音素環境を多く含むラベルがラベルセットに多く含まれることになってしまい、音声収録の効率が損われ、音声収録コストが増大するといった問題が発生する。
この発明の目的はこのような問題に鑑み、既存の音声DBに対し、音声認識精度を向上させるべく、音声データを追加する場合に、効率良く、音素環境カバレッジの向上を図ることを可能とする音響モデル学習用ラベル作成装置、その方法及びプログラムを提供することにある。
請求項1の発明によれば、音響モデル学習用ラベル作成装置は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれず、元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出部と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部とよりなる。
請求項2の発明によれば、音響モデル学習用ラベル作成装置は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれている頻度が低く、元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出部と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部とよりなる。
請求項3の発明では請求項1又は2の発明において、追加収録用ラベルセットのラベルを並び換える並び換え部を具備し、並び換え部はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換える。
請求項4の発明では請求項3の発明において、ソート用評価値に追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加する。
請求項5の発明では請求項3又は4の発明において、並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割部と、分割部により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合部とを具備し、分割部は並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割する。
請求項6の発明によれば、音響モデル学習用ラベル作成方法は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算過程と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算過程と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれず、元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出過程と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程とを含む。
請求項7の発明によれば、音響モデル学習用ラベル作成方法は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算過程と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算過程と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれている頻度が低く、元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出過程と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程とを含む。
請求項8の発明では請求項6又は7の発明において、追加収録用ラベルセットのラベルを並び換える並び換え過程を具備し、並び換え過程はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換える。
請求項9の発明では請求項8の発明において、ソート用評価値に追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加する。
請求項10の発明では請求項8又は9の発明において、並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割過程と、分割過程により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合過程とを具備し、分割過程は並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割する。
請求項11の発明では請求項5乃至10記載のいずれかの音響モデル学習用ラベル作成方法をコンピュータに実行させるためのプログラムを提案する。
この発明によれば、既存の音声DBに対し、音声認識精度を向上させるべく、音声データを追加する際に、既存音声DBにおける音素環境頻度を考慮して元テキストDBから追加収録用のラベルセットを抽出作成するものとなっており、よって既存音声DBで十分な学習データ量を持つ音素環境を持つラベルを追加収録対象から排除することができ、少ない追加収録用ラベルで効率良く、音素環境カバレッジの向上を図ることができる。
この発明による音響モデル学習用ラベル作成装置の実施形態1の構成例を示すブロック図。 この発明による音響モデル学習用ラベル作成装置の実施形態2の構成例を示すブロック図。 この発明による音響モデル学習用ラベル作成装置の実施形態3の構成例を示すブロック図。 この発明による音響モデル学習用ラベル作成装置の実施形態5の要部構成例を示すブロック図。
以下、この発明の実施形態を図面を参照して説明する。
[実施形態1]
図1はこの発明による音響モデル学習用ラベル作成装置の実施形態1の構成例を示したものである。音響モデル学習用ラベル作成装置は音響モデル学習用の既存音声DB10中のラベルを読みに変換する読み変換部21と、その読みを音素に変換する音素変換部22と、音素変換部22により生成された音素系列から既存音声DB10の音素環境頻度を計算する第1の音素環境頻度計算部23を備える。
また、追加収録用ラベルセットを選定する元テキストDB30を備え、元テキストDB30中のテキスト(文)を読みに変換する読み変換部31と、その読みを音素に変換する音素変換部32と、音素変換部32により生成された音素系列から元テキストDB30の音素環境頻度を計算する第2の音素環境頻度計算部33を備えており、さらに格納部34、新出音素環境抽出部35、テキスト選択部36及び蓄積部37を備えている。
なお、図1では既存音声DB10中のラベル及び元テキストDB30中のテキストは共に仮名漢字交じり文であるとし、仮名漢字交じり文を読みに変換する読み変換部21,31を具備しているが、例えばラベルやテキストが読みラベルや読みテキストである場合はこれら読み変換部21,31の機能は不要となる。
第1の音素環境頻度計算部23は音素変換部22から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、既存音声DB10の音素環境頻度を計算して出力する。同様に、第2の音素環境頻度計算部33は音素変換部32から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、元テキストDB30の音素環境頻度を計算して出力する。
これら音素環境頻度計算部23,33からそれぞれ出力される既存音声DB音素環境頻度及び元テキストDB音素環境頻度は新出音素環境抽出部35に入力される。新出音素環境抽出部35は入力された既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DB10に含まれず、元テキストDB30に含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する。
なお、元テキストDB30中のテキスト、そのテキストを読み変換部31で変換した読み及びその読みを音素変換部32で変換した音素系列は、この例では格納部34に格納され、格納部34はそれらテキスト、読み及び音素系列を組として格納している。
新出音素環境抽出部35から出力された追加収録音素環境はテキスト選択部36に入力される。テキスト選択部36は読み、音素系列と組とされて格納部34に格納されている元テキストDB30のテキストの中から追加収録音素環境を含むテキストを選択する。テキストの選択はテキスト毎に追加収録音素環境が含まれているか否かを判定することによって行われる。このようにして選択されたテキストは追加収録用ラベルセットとして出力される。テキスト選択部36より出力された追加収録用ラベルセットはこの例では蓄積部37に蓄積されるものとなっている。
以下、上述した音素環境頻度計算部23,33、新出音素環境抽出部35及びテキスト選択部36の各処理を実行するプログラムの例を示す。
音素環境はここではtriphoneを前提とする。音素環境を下記に例示する。
音素環境(prec−cent+suc:前接−中心+後続)例
:k−a+i,k−a+o
各用語の定義を以下に列記する。
id:各音素環境のID
phnm:音素
phnm_num:音素数
phnm_cnt:音素環境頻度
snt:文(ラベル,テキスト)
extspch:既存音声DB
orgtxt:元テキストDB
<音素環境頻度計算部23>
Step 1: 既存音声DBから最後の文になるまで文(ラベル)sntを1つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境(prec−cent+suc:前接−中心+後続)を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
id=prec+cent×(phnm_num+1)+suc×(phnm_num+1)^2
音素数を例えば30とすれば、
id=prec+cent×31+suc×31
Step 4: Step3で付与した音素環境のID(id)から音素環境毎に出現頻度をカウントする。
phnm_cnt extspch[id]++;
<音素環境頻度計算部33>
Step 1: 元テキストDBから最後の文になるまで文(ラベル)sntを1つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境(prec−cent+suc:前接−中心+後続)を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
id=prec+cent×(phnm_num+1)+suc×(phnm_num+1)^2
音素数を例えば30とすれば、
id=prec+cent×31+suc×31
Step 4: Step3で付与した音素環境のID(id)から音素環境毎に出現頻度をカウントする。
phnm_cnt orgtxt[id]++;
なお、テキストは単語(形態素)間にpauseが入る可能性があるので、pause抜きで考えても良い。
<新出音素環境抽出部35>
Step 1: 全ての音素環境のID(id)を一つずつ取得する。
Step 2: Step 1で取得した音素環境のID (id) 毎に以下のif条件に基づき、既存音声DBに含まれず、元テキストDBに含まれている音素環境である(true)か否(false)かを判定する。
if(phnm_cnt extspch[id]=0 && phnm_cnt orgtxt[id]>0) new_phnm[id]=true;
else new_phnm[id]=false;
Step 3: Step 2の判定結果が true の音素環境を、追加収録音素環境として抽出する。
<テキスト選択部36>
Step 1: 元テキストDBから最後の文になるまで文(ラベル)sntを1つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
Step 4: Step3で付与した音素環境のID(id)から追加収録音素環境を含んでいれば、その文(ラベル)sntを選択(採用)し、含んでいなければ、不選択(不採用)とする。
Judge(snt)=reject;
for(id in snt){ if(new_phnm[id]=true) Judge (snt)=accept }
なお、図1には上述したプログラムの実行に基づき、音素環境頻度計算部23,33からそれぞれ出力される既存音声DB10及び元テキストDB30の音素環境頻度情報及び新出音素環境抽出部35から出力される追加収録音素環境情報を例示している。
以上説明したように、この例によれば既存音声DB10に含まれない音素環境を持つテキストを元テキストDB30から抽出して追加収録用ラベルセットを作成するものとなっており、よって単に追加収録用のラベルを増やす場合に比し、少ないラベルで効率良く、音素環境カバレッジの向上を図ることができる。
なお、このように既存音声DB10における音素環境頻度を考慮して追加収録用ラベルセットを作成することで、既存音声DB10における音素環境頻度の影響を排除することができる。
また、このようにして作成した追加収録用ラベルセットを用いて音声データの収録を行えば、限られた収録音声で誤認識しやすい単語を減らすことができ、音声収録のコストを低減することができる。
[実施形態2]
図2はこの発明による音響モデル学習用ラベル作成装置の実施形態2の構成例を示したものであり、図1と対応する部分には同一符号を付し、その詳細な説明を省略する。
実施形態2では実施形態1における新出音素環境抽出部35に替えて低頻度音素環境抽出部41を備えるものとなっている。
低頻度音素環境抽出部41は音素環境頻度計算部23から出力される既存音声DB音素環境頻度と、音素環境頻度計算部33から出力される元テキストDB音素環境頻度とから、既存音声DB10に含まれている頻度が低く、元テキストDB30に含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境としてテキスト選択部36に出力する。テキスト選択部36は実施形態1と同様、入力された追加収録音素環境を含むテキストを選択し、追加収録用ラベルセットとして出力する。
低頻度音素環境抽出部41の処理を実行するプログラムの例を以下に示す。
<低頻度音素環境抽出部41>
Step 1: 全ての音素環境のID(id)を一つずつ取得する。
Step 2: Step 1で取得した音素環境のID (id) 毎に以下のif条件に基づき、既存音声DBに含まている頻度が低く、元テキストDBに含まれている音素環境である(true)か否(false)かを判定する。
if(phnm_cnt extspch[id]=low_th && phnm_cnt orgtxt[id]>0) new_phnm[id]=true;
else new_phnm[id]=false;
Step 3: Step 2の判定結果が true の音素環境を、追加収録音素環境として抽出する。
なお、low_thは例えばlow_th=5等とする。
low_thは全音素環境の出現頻度sum_cntに対する相対頻度rel_rateから決定しても良い。この場合、
low_th=rel_rate×sum_cnt
となり、rel_rateは例えばrel_rate=0.0001とする。
また、phnm_cnt orgtxt[id]>0の条件を、phnm_cnt orgtxt[id]>low_th2として、元テキストDB30で一定の出現頻度以上ある音素環境を選択するようにしてもよい。この場合、low_th2の値は、low_thと同様の方法で決めても良い。
この実施形態2においても、実施形態1と同様、効率良く、音素環境カバレッジの向上を図ることができる。
ところで、音声収録には発話者の拘束時間に応じて人件費が必要となる。従って、限られた予算内では拘束時間が限られ、また発話者によって収録にかかる時間が変わり、用意したラベルセット全ての音声が収録できるとは限らない。特に、この発明では珍しい音素環境を含むラベルセットを作成するので、読み間違い等が起こり易く、多くのラベルを発声することが難しくなる。以下、この問題に対処するための実施形態について説明する。
[実施形態3]
この発明による音響モデル学習用ラベル作成装置の実施形態3の構成例を図3に示す。図3では図2に示した実施形態2の構成に対し、並び換え部51と蓄積部52とを付加したものとなっている。
並び換え部51は蓄積部37に蓄積されている追加収録用ラベルセットのラベルを上位に珍しい音素環境を含むラベルが並ぶように並び換える。この並び換えは追加収録音素環境のうち、既存音声DB10における音素環境頻度が低く、元テキストDB30における音素環境頻度が高いものを選択することによって行われる。
具体的には追加収録用ラベルセットのラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と、既存音声DB10におけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換える。
ソート用評価値:Sort_eval_valueは、
Sort_eval_value=Σid(phnm_rate orgtxt[id]−phnm_rate extspch[id])
で求められる。なお、音素環境出現率:phnm_rateは、
phnm_rate=phnm_cnt/sum_cnt
で求められる。
上記により求められるソート用評価値順に並び換えられた並び換え済み追加収録用ラベルセットはこの例では蓄積部52に蓄積される。なお、長い文が選ばれ過ぎないように、音素数で割っても良い。
この実施形態3によれば、並び換え済み追加収録用ラベルセットは上位に珍しい(レアな)音素環境を含むラベルが位置するようになるため、例えば発話者の拘束時間の関係上、ラベルセットが全て発声されない場合であっても効率的に音素環境カバレッジの向上を図ることができる。
なお、図3では図2に示した実施形態2の構成に並び換え部51及び蓄積部52を付加した構成となっているが、図1に示した実施形態1の構成に並び換え部51及び蓄積部52を付加しても良い。
[実施形態4]
実施形態4は実施形態3における追加収録用ラベルセットの並び換えにおいて、特定の音素環境を含むラベルのみが増えないように制約を加えるものであり、並び換え部51における並び換えの基準とするソート用評価値に重みを加える。
重みを加えたソート用評価値:Sort_eval_value_weightは、
Sort_eval_value_weight=Σid(phnm_rate orgtxt[id]−phnm_rate extspch[id])×wid
で求められる。ここで、重み:widは、
id=max(1−use_cnt/use_max,0)
とする。use_cntは使われた数を示し、use_maxは最大使用回数を示す。最大使用回数:use_maxは例えば5とする。すなわち、重み:widは1を起点として最大使用回数に達するまで減少し、最大使用回数に達した後は、0となるものである。
このように、ソート用評価値に重みを付加することにより、追加収録用ラベルセットに含まれる各追加収録音素環境の数が制限され、特定の追加収録音素環境を含むラベルのみが増えるといったことを回避することができる。
なお、重み:widは、上記に替え、例えば
Figure 0005391150
と単純化してもよい。
[実施形態5]
実施形態5は話者数に応じてラベルセットを分割する際、収録時間が余らないように、他の分割ラベルセットを逆順に連結するものである。
分割されるラベルセットは実施形態3もしくは実施形態4で並び換えられた並び換え済み追加収録用ラベルセットとする。この実施形態5では図3に示した実施形態3(実施形態4)の構成に対し、分割部53と蓄積部54〜54と結合部55と蓄積部56〜56を付加する。図4は図3の蓄積部52に続く、これら付加された構成を示したものである。
分割部53は蓄積部52に蓄積されている並び換え済み追加収録用ラベルセットを話者数や収録サイト(場所)数に応じて所定の分割数に分割する。ここではN個に分割するものとし、分割された分割ラベルセットを分割ラベルセット1、分割ラベルセット2、…、分割ラベルセットNとする。
分割ラベルセット1〜Nの上位には並び換え済み追加収録用ラベルセットの上位のラベルが位置するように分割する。分割された分割ラベルセット1〜Nは図4に示したように、蓄積部54〜54にそれぞれ蓄積される。
結合部55は各分割ラベルセット1〜Nに他の分割ラベルセットを逆順に結合して結合ラベルセットを作成する。ここでは分割ラベルセットn(n=1,2,…,N−1)とは異なる分割ラベルセット(n+1)を逆順に並び換えた逆順ラベルセット(n+1)invを作成し、分割ラベルセットnと逆順ラベルセット(n+1)invを結合して結合ラベルセットを作成する。なお、分割ラベルセットNには分割ラベルセット1を逆順に並び換えた逆順ラベルセット1invを結合して結合ラベルセットを作成する。結合ラベルセット1,2,…,Nは、
結合ラベルセット1=分割ラベルセット1+2inv
結合ラベルセット2=分割ラベルセット2+3inv

結合ラベルセットN=分割ラベルセットN+1inv
となり、これら結合ラベルセット1〜Nは図4に示したように、蓄積部56〜56にそれぞれ蓄積される。
このように結合ラベルセット1〜Nを作成することで、収録時間に余裕がある場合でも時間を無駄にすることなく、収録することができる。また、例えば分割ラベルセット(n+1)担当の発話者が発声しきれなかったラベルを、分割ラベルセットn担当の発話者が収録できるといった可能性が高くなり、発話者により収録ラベル数にばらつきがあってもその影響を極力なくして、収録することが可能となる。
なお、最終的に、発話者に読み上げさせることを前提として、ラベル中の文字数、モーラ数等で制限を加えるようにしてもよい。
[実験例]
この発明により作成された追加収録用ラベルセットによる音素環境カバレッジの向上を評価した。音素環境カバレッジは物理triphoneではなく、論理triphoneで計算した。既存音声DB、追加収録用ラベルセット及びそれらの和の音素環境カバレッジを以下に示す。
a)既存音声DB 21,607文 ⇒ 音素環境カバレッジ 20.57%
b)追加収録文 1,892文 ⇒ 音素環境カバレッジ 19.12%
a)+b) 23,499文 ⇒ 音素環境カバレッジ 24.23%
少ない文数(ラベル数)で音素環境カバレッジが大幅に向上していることが確認できた。なお、b)の追加収録文は3,225,910文から構築した。

Claims (9)

  1. 音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部と、
    元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部と、
    前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれず、前記元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出部と、
    前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部と
    前記追加収録用ラベルセットのラベルを並び換える並び換え部を具備し、
    前記並び換え部はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成装置。
  2. 音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算部と、
    元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算部と、
    前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれている頻度が低く、前記元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出部と、
    前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部と
    前記追加収録用ラベルセットのラベルを並び換える並び換え部を具備し、
    前記並び換え部はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成装置。
  3. 請求項1又は2記載の音響モデル学習用ラベル作成装置において、
    前記ソート用評価値に前記追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加することを特徴とする音響モデル学習用ラベル作成装置。
  4. 請求項1乃至3記載のいずれかの音響モデル学習用ラベル作成装置において、
    前記並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割部と、
    前記分割部により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合部とを具備し、
    前記分割部は前記並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割することを特徴とする音響モデル学習用ラベル作成装置。
  5. 音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算過程と、
    元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算過程と、
    前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれず、前記元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出過程と、
    前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程と
    前記追加収録用ラベルセットのラベルを並び換える並び換え過程を具備し、
    前記並び換え過程はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成方法。
  6. 音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第1の音素環境頻度計算過程と、
    元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第2の音素環境頻度計算過程と、
    前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれている頻度が低く、前記元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出過程と、
    前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程と
    前記追加収録用ラベルセットのラベルを並び換える並び換え過程を具備し、
    前記並び換え過程はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成方法。
  7. 請求項5又は6記載の音響モデル学習用ラベル作成方法において、
    前記ソート用評価値に前記追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加することを特徴とする音響モデル学習用ラベル作成方法。
  8. 請求項5乃至7記載のいずれかの音響モデル学習用ラベル作成方法において、
    前記並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割過程と、
    前記分割過程により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合過程とを具備し、
    前記分割過程は前記並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割することを特徴とする音響モデル学習用ラベル作成方法。
  9. 請求項5乃至8記載のいずれかの音響モデル学習用ラベル作成方法をコンピュータに実行させるためのプログラム。
JP2010119538A 2010-05-25 2010-05-25 音響モデル学習用ラベル作成装置、その方法及びプログラム Expired - Fee Related JP5391150B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010119538A JP5391150B2 (ja) 2010-05-25 2010-05-25 音響モデル学習用ラベル作成装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010119538A JP5391150B2 (ja) 2010-05-25 2010-05-25 音響モデル学習用ラベル作成装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011248001A JP2011248001A (ja) 2011-12-08
JP5391150B2 true JP5391150B2 (ja) 2014-01-15

Family

ID=45413366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010119538A Expired - Fee Related JP5391150B2 (ja) 2010-05-25 2010-05-25 音響モデル学習用ラベル作成装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5391150B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5980101B2 (ja) * 2012-11-19 2016-08-31 日本電信電話株式会社 音響モデル学習用テキスト作成装置とその方法とプログラム
US20230223005A1 (en) * 2020-04-21 2023-07-13 Ntt Docomo, Inc. Voice data creation device
US20240078999A1 (en) * 2021-01-15 2024-03-07 Nippon Telegraph And Telephone Corporation Learning method, learning system and learning program
CN115762525B (zh) * 2022-11-18 2024-05-07 北京中科艺杺科技有限公司 一种基于全方位语音获取的语音过滤收录方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268672A (ja) * 2001-03-13 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声データベース用文セットの選択方法
JP3981640B2 (ja) * 2003-02-20 2007-09-26 日本電信電話株式会社 音素モデル学習用文リスト生成装置、および生成プログラム

Also Published As

Publication number Publication date
JP2011248001A (ja) 2011-12-08

Similar Documents

Publication Publication Date Title
US10446156B2 (en) Diarization using textual and audio speaker labeling
US10977299B2 (en) Systems and methods for consolidating recorded content
US8036894B2 (en) Multi-unit approach to text-to-speech synthesis
CN108899009B (zh) 一种基于音素的中文语音合成系统
US20210158795A1 (en) Generating audio for a plain text document
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
CN101076851B (zh) 口语识别系统以及用于训练和操作该系统的方法
US11908448B2 (en) Parallel tacotron non-autoregressive and controllable TTS
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN109036471B (zh) 语音端点检测方法及设备
CN101276583A (zh) 语音合成系统和语音合成方法
JP5391150B2 (ja) 音響モデル学習用ラベル作成装置、その方法及びプログラム
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
JP6170384B2 (ja) 音声データベース生成システム、音声データベース生成方法、及びプログラム
Schuller et al. Incremental acoustic valence recognition: an inter-corpus perspective on features, matching, and performance in a gating paradigm
Qin On spoken English phoneme evaluation method based on sphinx-4 computer system
JP2014215578A (ja) 音響モデル選択装置とその方法とプログラム
CN113421544B (zh) 歌声合成方法、装置、计算机设备及存储介质
JP6002598B2 (ja) 強調位置予測装置、その方法、およびプログラム
Majuran et al. A feature-driven hierarchical classification approach to emotions in speeches using SVMs
CN114927135B (zh) 语音交互方法、服务器及存储介质
CN111191421B (zh) 一种文本处理方法和装置、计算机存储介质和电子设备
CN118016072A (zh) 一种演唱清晰度检测方法、存储介质和电子设备
JP2015045668A (ja) 音声認識装置、音声認識方法、およびプログラム
WO2023209274A1 (en) Computer-implemented method for punctuation of text from audio input

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131011

R150 Certificate of patent or registration of utility model

Ref document number: 5391150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees