JP5391150B2

JP5391150B2 - 音響モデル学習用ラベル作成装置、その方法及びプログラム

Info

Publication number: JP5391150B2
Application number: JP2010119538A
Authority: JP
Inventors: 哲小橋川; 太一浅見; 義和山口; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-05-25
Filing date: 2010-05-25
Publication date: 2014-01-15
Anticipated expiration: 2030-05-25
Also published as: JP2011248001A

Description

この発明は音響モデル学習用ラベル作成装置、その方法及びプログラムに関し、特に音響モデル学習用の既存の音声ＤＢ（データベース）に対し、音声データを追加する際に、効率良く、音素環境カバレッジの向上を図ることを可能とする追加収録用ラベルセットを作成する装置、その方法及びプログラムに関する。

特許文献１には自動ラベリングに用いる音素モデルの学習に際して、少ない音声データでより高精度な音素モデルを作成するのに必要とされる、音声データの元となる読み上げ文を効率よく選択する音素モデル学習用文リストの生成方法、生成装置が記載されている。

特許文献１では元テキストＤＢから各音素の個数をカウントして個数リストを生成し、個数リストの音素を個数順に並び換えた並び換えリストを生成し、並び換えリストの中で最も少ない最少個数音素を含む全ての文を最少個数音素文リストに並べ、最少個数音素文リストの音素モデルの学習効率スコア、学習バリエーション効率スコアを下記により計算して効率計算文リストを生成する。

学習効率スコア＝（個数が基準学習データ数未満である音素（最小個数音素を除く）の種類数）／（当該文に含まれる全ての音素数）
学習バリエーション効率スコア＝（当該文に含まれる全ての音素の種類数）／（当該文に含まれる全ての音素数）
そして、効率計算文リストから供給される文を学習効率スコア順に並べ換え、学習効率スコアが同値の場合は学習バリエーション効率スコアに並べ換えた並べ換え文リストを生成し、最少個数音素の個数が基準学習データ数に達するまで並べ換え文リストの上位から順に文を選択して選択文リストを生成し、選択文リスト中に含まれる音素の個数を数えて既選択文音素個数リストを生成し、並び換えリストの中で最小個数音素の次に個数の少ない音素について、既選択文音素個数リスト中に基準学習データ数に達していない場合、当該音素をも含む基準学習データ数未満音素文リストを生成するものとなっている。

特開２００４−２５２１６７号公報

しかるに、特許文献１では単一の元テキストＤＢからラベルセット（文セット）を選択決定するため、当該元テキストＤＢにおける音素環境の出現頻度の影響を受けやすいといった問題がある。

また、例えば過去に構築したラベルセットから作成した音声ＤＢが存在し、その既存音声ＤＢを含めて複数の音声ＤＢを組み合わせて学習させる場合、特許文献１に記載されているラベルセットの作成方法では既存音声ＤＢとの整合性が考慮されないため、音素環境カバレッジを必ずしも向上させることにはならず、元々の（既存音声ＤＢの）音素環境カバレッジからの改善を図ることができない場合が生じうる。ここで、音素環境カバレッジとは、全ての音素環境のうち、ＤＢのラベル（文）に含まれる音素環境の割合を意味する。

なお、実用上、一定の音素環境カバレッジを確保するためには多くのラベル（文）が必要となるが、単にラベルを増やすだけでは、結果として、既存音声ＤＢに十分な頻度で含まれており、増やす必要がない音素環境を多く含むラベルがラベルセットに多く含まれることになってしまい、音声収録の効率が損われ、音声収録コストが増大するといった問題が発生する。

この発明の目的はこのような問題に鑑み、既存の音声ＤＢに対し、音声認識精度を向上させるべく、音声データを追加する場合に、効率良く、音素環境カバレッジの向上を図ることを可能とする音響モデル学習用ラベル作成装置、その方法及びプログラムを提供することにある。

請求項１の発明によれば、音響モデル学習用ラベル作成装置は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第１の音素環境頻度計算部と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第２の音素環境頻度計算部と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれず、元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出部と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部とよりなる。

請求項２の発明によれば、音響モデル学習用ラベル作成装置は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第１の音素環境頻度計算部と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第２の音素環境頻度計算部と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれている頻度が低く、元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出部と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部とよりなる。

請求項３の発明では請求項1又は２の発明において、追加収録用ラベルセットのラベルを並び換える並び換え部を具備し、並び換え部はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換える。

請求項４の発明では請求項３の発明において、ソート用評価値に追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加する。

請求項５の発明では請求項３又は４の発明において、並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割部と、分割部により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合部とを具備し、分割部は並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割する。

請求項６の発明によれば、音響モデル学習用ラベル作成方法は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第１の音素環境頻度計算過程と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第２の音素環境頻度計算過程と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれず、元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出過程と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程とを含む。

請求項７の発明によれば、音響モデル学習用ラベル作成方法は、音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第１の音素環境頻度計算過程と、元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第２の音素環境頻度計算過程と、既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DBに含まれている頻度が低く、元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出過程と、元テキストDBから追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程とを含む。

請求項８の発明では請求項６又は７の発明において、追加収録用ラベルセットのラベルを並び換える並び換え過程を具備し、並び換え過程はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換える。

請求項９の発明では請求項８の発明において、ソート用評価値に追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加する。

請求項１０の発明では請求項８又は９の発明において、並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割過程と、分割過程により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合過程とを具備し、分割過程は並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割する。

請求項１１の発明では請求項5乃至１０記載のいずれかの音響モデル学習用ラベル作成方法をコンピュータに実行させるためのプログラムを提案する。

この発明によれば、既存の音声ＤＢに対し、音声認識精度を向上させるべく、音声データを追加する際に、既存音声ＤＢにおける音素環境頻度を考慮して元テキストＤＢから追加収録用のラベルセットを抽出作成するものとなっており、よって既存音声ＤＢで十分な学習データ量を持つ音素環境を持つラベルを追加収録対象から排除することができ、少ない追加収録用ラベルで効率良く、音素環境カバレッジの向上を図ることができる。

この発明による音響モデル学習用ラベル作成装置の実施形態１の構成例を示すブロック図。この発明による音響モデル学習用ラベル作成装置の実施形態２の構成例を示すブロック図。この発明による音響モデル学習用ラベル作成装置の実施形態３の構成例を示すブロック図。この発明による音響モデル学習用ラベル作成装置の実施形態５の要部構成例を示すブロック図。

以下、この発明の実施形態を図面を参照して説明する。

［実施形態１］
図１はこの発明による音響モデル学習用ラベル作成装置の実施形態１の構成例を示したものである。音響モデル学習用ラベル作成装置は音響モデル学習用の既存音声ＤＢ１０中のラベルを読みに変換する読み変換部２１と、その読みを音素に変換する音素変換部２２と、音素変換部２２により生成された音素系列から既存音声ＤＢ１０の音素環境頻度を計算する第１の音素環境頻度計算部２３を備える。

また、追加収録用ラベルセットを選定する元テキストＤＢ３０を備え、元テキストＤＢ３０中のテキスト（文）を読みに変換する読み変換部３１と、その読みを音素に変換する音素変換部３２と、音素変換部３２により生成された音素系列から元テキストＤＢ３０の音素環境頻度を計算する第２の音素環境頻度計算部３３を備えており、さらに格納部３４、新出音素環境抽出部３５、テキスト選択部３６及び蓄積部３７を備えている。

なお、図１では既存音声ＤＢ１０中のラベル及び元テキストＤＢ３０中のテキストは共に仮名漢字交じり文であるとし、仮名漢字交じり文を読みに変換する読み変換部２１，３１を具備しているが、例えばラベルやテキストが読みラベルや読みテキストである場合はこれら読み変換部２１，３１の機能は不要となる。

第１の音素環境頻度計算部２３は音素変換部２２から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、既存音声ＤＢ１０の音素環境頻度を計算して出力する。同様に、第２の音素環境頻度計算部３３は音素変換部３２から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、元テキストＤＢ３０の音素環境頻度を計算して出力する。

これら音素環境頻度計算部２３，３３からそれぞれ出力される既存音声ＤＢ音素環境頻度及び元テキストＤＢ音素環境頻度は新出音素環境抽出部３５に入力される。新出音素環境抽出部３５は入力された既存音声ＤＢ音素環境頻度と元テキストＤＢ音素環境頻度とから、既存音声ＤＢ１０に含まれず、元テキストＤＢ３０に含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する。

なお、元テキストＤＢ３０中のテキスト、そのテキストを読み変換部３１で変換した読み及びその読みを音素変換部３２で変換した音素系列は、この例では格納部３４に格納され、格納部３４はそれらテキスト、読み及び音素系列を組として格納している。

新出音素環境抽出部３５から出力された追加収録音素環境はテキスト選択部３６に入力される。テキスト選択部３６は読み、音素系列と組とされて格納部３４に格納されている元テキストＤＢ３０のテキストの中から追加収録音素環境を含むテキストを選択する。テキストの選択はテキスト毎に追加収録音素環境が含まれているか否かを判定することによって行われる。このようにして選択されたテキストは追加収録用ラベルセットとして出力される。テキスト選択部３６より出力された追加収録用ラベルセットはこの例では蓄積部３７に蓄積されるものとなっている。

以下、上述した音素環境頻度計算部２３，３３、新出音素環境抽出部３５及びテキスト選択部３６の各処理を実行するプログラムの例を示す。

音素環境はここではtriphoneを前提とする。音素環境を下記に例示する。
音素環境（prec−cent＋suc：前接−中心＋後続）例
：ｋ−ａ＋ｉ，ｋ−ａ＋ｏ

各用語の定義を以下に列記する。
id：各音素環境のＩＤ
phnm：音素
phnm_num：音素数
phnm_cnt：音素環境頻度
snt：文（ラベル，テキスト）
extspch：既存音声ＤＢ
orgtxt：元テキストＤＢ

＜音素環境頻度計算部２３＞
Step 1: 既存音声ＤＢから最後の文になるまで文（ラベル）sntを１つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境(prec−cent＋suc：前接−中心＋後続)を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
id＝prec＋cent×(phnm_num＋１)＋suc×(phnm_num＋１)＾２
音素数を例えば３０とすれば、
id＝prec＋cent×３１＋suc×３１^２
Step 4: Step3で付与した音素環境のID(id)から音素環境毎に出現頻度をカウントする。
phnm_cnt _extspch[id]++；

＜音素環境頻度計算部３３＞
Step 1: 元テキストＤＢから最後の文になるまで文（ラベル）sntを１つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境(prec−cent＋suc：前接−中心＋後続)を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
id＝prec＋cent×(phnm_num＋１)＋suc×(phnm_num＋１)＾２
音素数を例えば３０とすれば、
id＝prec＋cent×３１＋suc×３１^２
Step 4: Step3で付与した音素環境のID(id)から音素環境毎に出現頻度をカウントする。
phnm_cnt _orgtxt[id]++；
なお、テキストは単語（形態素）間にpauseが入る可能性があるので、pause抜きで考えても良い。

＜新出音素環境抽出部３５＞
Step 1: 全ての音素環境のID(id)を一つずつ取得する。
Step 2: Step 1で取得した音素環境のID (id) 毎に以下のif条件に基づき、既存音声ＤＢに含まれず、元テキストＤＢに含まれている音素環境である(true)か否(false)かを判定する。
if(phnm_cnt _extspch[id]＝０ && phnm_cnt _orgtxt[id]＞０) new_phnm[id]＝true；
else new_phnm[id]＝false;
Step 3: Step 2の判定結果が true の音素環境を、追加収録音素環境として抽出する。

＜テキスト選択部３６＞
Step 1: 元テキストＤＢから最後の文になるまで文（ラベル）sntを１つずつ取得する。
Step 2: Step1で取得した各文snt中の文頭から文末に達するまで音素環境を一つずつ取ってくる。
Step 3: Step2で取得した音素環境のID(id)を付与する。
Step 4: Step3で付与した音素環境のID(id)から追加収録音素環境を含んでいれば、その文（ラベル）sntを選択（採用）し、含んでいなければ、不選択（不採用）とする。
Judge(snt)＝reject;
for(id in snt){ if(new_phnm[id]＝true) Judge (snt)＝accept }

なお、図１には上述したプログラムの実行に基づき、音素環境頻度計算部２３，３３からそれぞれ出力される既存音声ＤＢ１０及び元テキストＤＢ３０の音素環境頻度情報及び新出音素環境抽出部３５から出力される追加収録音素環境情報を例示している。

以上説明したように、この例によれば既存音声ＤＢ１０に含まれない音素環境を持つテキストを元テキストＤＢ３０から抽出して追加収録用ラベルセットを作成するものとなっており、よって単に追加収録用のラベルを増やす場合に比し、少ないラベルで効率良く、音素環境カバレッジの向上を図ることができる。

なお、このように既存音声ＤＢ１０における音素環境頻度を考慮して追加収録用ラベルセットを作成することで、既存音声ＤＢ１０における音素環境頻度の影響を排除することができる。

また、このようにして作成した追加収録用ラベルセットを用いて音声データの収録を行えば、限られた収録音声で誤認識しやすい単語を減らすことができ、音声収録のコストを低減することができる。

［実施形態２］
図２はこの発明による音響モデル学習用ラベル作成装置の実施形態２の構成例を示したものであり、図１と対応する部分には同一符号を付し、その詳細な説明を省略する。

実施形態２では実施形態１における新出音素環境抽出部３５に替えて低頻度音素環境抽出部４１を備えるものとなっている。

低頻度音素環境抽出部４１は音素環境頻度計算部２３から出力される既存音声ＤＢ音素環境頻度と、音素環境頻度計算部３３から出力される元テキストＤＢ音素環境頻度とから、既存音声ＤＢ１０に含まれている頻度が低く、元テキストＤＢ３０に含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境としてテキスト選択部３６に出力する。テキスト選択部３６は実施形態１と同様、入力された追加収録音素環境を含むテキストを選択し、追加収録用ラベルセットとして出力する。

低頻度音素環境抽出部４１の処理を実行するプログラムの例を以下に示す。

＜低頻度音素環境抽出部４１＞
Step 1: 全ての音素環境のID(id)を一つずつ取得する。
Step 2: Step 1で取得した音素環境のID (id) 毎に以下のif条件に基づき、既存音声ＤＢに含まている頻度が低く、元テキストＤＢに含まれている音素環境である(true)か否(false)かを判定する。
if(phnm_cnt _extspch[id]＝low_th && phnm_cnt _orgtxt[id]＞０) new_phnm[id]＝true；
else new_phnm[id]＝false;
Step 3: Step 2の判定結果が true の音素環境を、追加収録音素環境として抽出する。

なお、low_thは例えばlow_th＝５等とする。
low_thは全音素環境の出現頻度sum_cntに対する相対頻度rel_rateから決定しても良い。この場合、
low_th＝rel_rate×sum_cnt
となり、rel_rateは例えばrel_rate＝0.0001とする。

また、phnm_cnt _orgtxt[id]＞０の条件を、phnm_cnt _orgtxt[id]＞low_th２として、元テキストＤＢ３０で一定の出現頻度以上ある音素環境を選択するようにしてもよい。この場合、low_th２の値は、low_thと同様の方法で決めても良い。

この実施形態２においても、実施形態１と同様、効率良く、音素環境カバレッジの向上を図ることができる。

ところで、音声収録には発話者の拘束時間に応じて人件費が必要となる。従って、限られた予算内では拘束時間が限られ、また発話者によって収録にかかる時間が変わり、用意したラベルセット全ての音声が収録できるとは限らない。特に、この発明では珍しい音素環境を含むラベルセットを作成するので、読み間違い等が起こり易く、多くのラベルを発声することが難しくなる。以下、この問題に対処するための実施形態について説明する。

［実施形態３］
この発明による音響モデル学習用ラベル作成装置の実施形態３の構成例を図３に示す。図３では図２に示した実施形態２の構成に対し、並び換え部５１と蓄積部５２とを付加したものとなっている。

並び換え部５１は蓄積部３７に蓄積されている追加収録用ラベルセットのラベルを上位に珍しい音素環境を含むラベルが並ぶように並び換える。この並び換えは追加収録音素環境のうち、既存音声ＤＢ１０における音素環境頻度が低く、元テキストＤＢ３０における音素環境頻度が高いものを選択することによって行われる。

具体的には追加収録用ラベルセットのラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と、既存音声ＤＢ１０におけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換える。

ソート用評価値：Sort_eval_valueは、
Sort_eval_value＝Σ_ｉｄ(phnm_rate _orgtxt[id]−phnm_rate _extspch[id]）
で求められる。なお、音素環境出現率：phnm_rateは、
phnm_rate＝phnm_cnt／sum_cnt
で求められる。

上記により求められるソート用評価値順に並び換えられた並び換え済み追加収録用ラベルセットはこの例では蓄積部５２に蓄積される。なお、長い文が選ばれ過ぎないように、音素数で割っても良い。

この実施形態３によれば、並び換え済み追加収録用ラベルセットは上位に珍しい（レアな）音素環境を含むラベルが位置するようになるため、例えば発話者の拘束時間の関係上、ラベルセットが全て発声されない場合であっても効率的に音素環境カバレッジの向上を図ることができる。

なお、図３では図２に示した実施形態２の構成に並び換え部５１及び蓄積部５２を付加した構成となっているが、図１に示した実施形態１の構成に並び換え部５１及び蓄積部５２を付加しても良い。

［実施形態４］
実施形態４は実施形態３における追加収録用ラベルセットの並び換えにおいて、特定の音素環境を含むラベルのみが増えないように制約を加えるものであり、並び換え部５１における並び換えの基準とするソート用評価値に重みを加える。

重みを加えたソート用評価値：Sort_eval_value_weightは、
Sort_eval_value_weight＝Σ_ｉｄ(phnm_rate _orgtxt[id]−phnm_rate _extspch[id]）×ｗ_ｉｄ
で求められる。ここで、重み：ｗ_ｉｄは、
ｗ_ｉｄ＝max(１−use_cnt／use_max，０）
とする。use_cntは使われた数を示し、use_maxは最大使用回数を示す。最大使用回数：use_maxは例えば５とする。すなわち、重み：ｗ_ｉｄは1を起点として最大使用回数に達するまで減少し、最大使用回数に達した後は、０となるものである。

このように、ソート用評価値に重みを付加することにより、追加収録用ラベルセットに含まれる各追加収録音素環境の数が制限され、特定の追加収録音素環境を含むラベルのみが増えるといったことを回避することができる。

なお、重み：ｗ_ｉｄは、上記に替え、例えば

と単純化してもよい。

［実施形態５］
実施形態５は話者数に応じてラベルセットを分割する際、収録時間が余らないように、他の分割ラベルセットを逆順に連結するものである。

分割されるラベルセットは実施形態３もしくは実施形態４で並び換えられた並び換え済み追加収録用ラベルセットとする。この実施形態５では図３に示した実施形態３（実施形態４）の構成に対し、分割部５３と蓄積部５４_１〜５４_Ｎと結合部５５と蓄積部５６_１〜５６_Ｎを付加する。図４は図３の蓄積部５２に続く、これら付加された構成を示したものである。

分割部５３は蓄積部５２に蓄積されている並び換え済み追加収録用ラベルセットを話者数や収録サイト（場所）数に応じて所定の分割数に分割する。ここではＮ個に分割するものとし、分割された分割ラベルセットを分割ラベルセット１、分割ラベルセット２、…、分割ラベルセットＮとする。

分割ラベルセット１〜Ｎの上位には並び換え済み追加収録用ラベルセットの上位のラベルが位置するように分割する。分割された分割ラベルセット１〜Ｎは図４に示したように、蓄積部５４_１〜５４_Ｎにそれぞれ蓄積される。

結合部５５は各分割ラベルセット１〜Ｎに他の分割ラベルセットを逆順に結合して結合ラベルセットを作成する。ここでは分割ラベルセットｎ（ｎ＝１，２，…，Ｎ−１）とは異なる分割ラベルセット（ｎ＋１）を逆順に並び換えた逆順ラベルセット（ｎ＋１)^ｉｎｖを作成し、分割ラベルセットｎと逆順ラベルセット（ｎ＋１)^ｉｎｖを結合して結合ラベルセットを作成する。なお、分割ラベルセットＮには分割ラベルセット１を逆順に並び換えた逆順ラベルセット１^ｉｎｖを結合して結合ラベルセットを作成する。結合ラベルセット１，２，…，Ｎは、
結合ラベルセット１＝分割ラベルセット１＋２^ｉｎｖ
結合ラベルセット２＝分割ラベルセット２＋３^ｉｎｖ
…
結合ラベルセットＮ＝分割ラベルセットＮ＋１^ｉｎｖ
となり、これら結合ラベルセット１〜Ｎは図４に示したように、蓄積部５６_１〜５６_Ｎにそれぞれ蓄積される。

このように結合ラベルセット１〜Ｎを作成することで、収録時間に余裕がある場合でも時間を無駄にすることなく、収録することができる。また、例えば分割ラベルセット（ｎ＋１）担当の発話者が発声しきれなかったラベルを、分割ラベルセットｎ担当の発話者が収録できるといった可能性が高くなり、発話者により収録ラベル数にばらつきがあってもその影響を極力なくして、収録することが可能となる。

なお、最終的に、発話者に読み上げさせることを前提として、ラベル中の文字数、モーラ数等で制限を加えるようにしてもよい。

［実験例］
この発明により作成された追加収録用ラベルセットによる音素環境カバレッジの向上を評価した。音素環境カバレッジは物理triphoneではなく、論理triphoneで計算した。既存音声ＤＢ、追加収録用ラベルセット及びそれらの和の音素環境カバレッジを以下に示す。

ａ）既存音声ＤＢ 21,607文 ⇒ 音素環境カバレッジ 20.57％
ｂ）追加収録文 1,892文 ⇒ 音素環境カバレッジ 19.12％
ａ）＋ｂ） 23,499文 ⇒ 音素環境カバレッジ 24.23％
少ない文数（ラベル数）で音素環境カバレッジが大幅に向上していることが確認できた。なお、ｂ）の追加収録文は3,225,910文から構築した。

Claims

音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第１の音素環境頻度計算部と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第２の音素環境頻度計算部と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれず、前記元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出部と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部と、
前記追加収録用ラベルセットのラベルを並び換える並び換え部を具備し、
前記並び換え部はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成装置。
音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第１の音素環境頻度計算部と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第２の音素環境頻度計算部と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれている頻度が低く、前記元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出部と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択部と、
前記追加収録用ラベルセットのラベルを並び換える並び換え部を具備し、
前記並び換え部はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成装置。
請求項１又は２記載の音響モデル学習用ラベル作成装置において、
前記ソート用評価値に前記追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加することを特徴とする音響モデル学習用ラベル作成装置。
請求項１乃至３記載のいずれかの音響モデル学習用ラベル作成装置において、
前記並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割部と、
前記分割部により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合部とを具備し、
前記分割部は前記並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割することを特徴とする音響モデル学習用ラベル作成装置。
音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第１の音素環境頻度計算過程と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第２の音素環境頻度計算過程と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれず、前記元テキストDBに含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する新出音素環境抽出過程と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程と、
前記追加収録用ラベルセットのラベルを並び換える並び換え過程を具備し、
前記並び換え過程はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成方法。
音響モデル学習用の既存音声DB中のラベルから既存音声DB音素環境頻度を計算して出力する第１の音素環境頻度計算過程と、
元テキストDB中のテキストから元テキストDB音素環境頻度を計算して出力する第２の音素環境頻度計算過程と、
前記既存音声DB音素環境頻度と前記元テキストDB音素環境頻度とから、前記既存音声DBに含まれている頻度が低く、前記元テキストDBに含まれている低頻度音素環境を抽出し、その抽出した低頻度音素環境を追加収録音素環境として出力する低頻度音素環境抽出過程と、
前記元テキストDBから前記追加収録音素環境を含むテキストを選択し、選択したテキストを追加収録用ラベルセットとして出力するテキスト選択過程と、
前記追加収録用ラベルセットのラベルを並び換える並び換え過程を具備し、
前記並び換え過程はラベルに含まれている各追加収録音素環境に対し、その追加収録音素環境のラベルにおける出現率と前記既存音声DBにおけるその追加収録音素環境の出現率との差を求めて、その差をそのラベルに含まれている全ての追加収録音素環境について合算した値をそのラベルのソート用評価値とし、そのソート用評価値に従い、ラベルを並び換えることを特徴とする音響モデル学習用ラベル作成方法。
請求項５又は６記載の音響モデル学習用ラベル作成方法において、
前記ソート用評価値に前記追加収録用ラベルセットに含まれる各追加収録音素環境の数を制限する重みを付加することを特徴とする音響モデル学習用ラベル作成方法。
請求項５乃至７記載のいずれかの音響モデル学習用ラベル作成方法において、
前記並び換えられた追加収録用ラベルセットを所定の分割数に分割する分割過程と、
前記分割過程により分割された各分割ラベルセットに他の分割ラベルセットのラベルを逆順に結合して結合ラベルセットを作成する結合過程とを具備し、
前記分割過程は前記並び換えられた追加収録用ラベルセットの上位のラベルが各分割ラベルセットの上位になるように分割することを特徴とする音響モデル学習用ラベル作成方法。
請求項５乃至８記載のいずれかの音響モデル学習用ラベル作成方法をコンピュータに実行させるためのプログラム。