JP2002268672A - 音声データベース用文セットの選択方法 - Google Patents

音声データベース用文セットの選択方法

Info

Publication number
JP2002268672A
JP2002268672A JP2001070560A JP2001070560A JP2002268672A JP 2002268672 A JP2002268672 A JP 2002268672A JP 2001070560 A JP2001070560 A JP 2001070560A JP 2001070560 A JP2001070560 A JP 2001070560A JP 2002268672 A JP2002268672 A JP 2002268672A
Authority
JP
Japan
Prior art keywords
acoustic
sound
sentence
entropy
child
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001070560A
Other languages
English (en)
Inventor
Kinson Chou
チョウ・キンソン
Tomoko Matsui
知子 松井
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2001070560A priority Critical patent/JP2002268672A/ja
Publication of JP2002268672A publication Critical patent/JP2002268672A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文セットに含まれる音響単位の出現頻度の均
一化と、未学習な音響単位の数との双方を考慮した音声
データベース用文セットの探索方法を提供する。 【解決手段】 音声データベース用文セットの選択方法
では、所定の言語の文セットの母集団からランダムに仮
の文セットの子集団を抽出し、このような文の子集合と
母集合とを用い、各回ごとに、それぞれの集合からの1
つずつの文がランダムに選択され、子集合に対する評価
関数(エントロピー)を、2つの文の仮の交換の前後に
おいて計算をする。仮の交換の結果、子集合に対する評
価関数の値がより大きなものとなるのであれば、2つの
文は実際に交換される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声データベー
スに用いられる文セットの選択方法に関し、より特定的
には、音韻のバランスがとれた文セットを選択するため
の手法に関する。
【0002】
【従来の技術】学習のための音声データベースとして音
韻的にバランスのとれた文セットを設計することは、音
声認識のための音響データベースを形成するために必須
の要件である。このような音声データベースの設計の問
題に対しては、2つの重要な問題がある。
【0003】第1には、音響的な単位およびその文脈に
依存したモデリングを如何に選択するかという問題であ
り、第2には、音声データベースのための適当な大きさ
の文セットであって、可能な範囲でそれに含まれる音韻
のバランスがとれているものを大きな文コーパスから探
索することである。
【0004】ここで、たとえば、上記第1の問題点に関
して、中国語を例にとると、中国語の音節は、従来か
ら、2つの半音節に分割されている。すなわち、「始音
(Initial:声母)」と「終音(Final:韻母)」であ
る。始音は、子音であって、音節の任意的な構成要素で
ある。これに対して、終音は、音節の必須の構成要件で
あって、母音、母音の連接あるいは鼻音(/n/あるい
は/ng/)による終了の仕方をする母音である。
【0005】複合した終音は、音響学的には、さらに複
数の音の要素(音素)に分解することができる。すなわ
ち、母音と、鼻音による終了部分を有する母音とにであ
る。
【0006】したがって、中国語に対しては、基本的な
音響単位として、始音/終音を選択するのか、音素を選
択するのかという選択の余地があることになる。
【0007】そして、音声認識の対象となる言語の音響
的な特性に応じて、基本的な音響単位を如何なるものに
選択するかは、その音声認識システムの特性に大きく影
響することになる。
【0008】
【発明が解決しようとする課題】一方で、第2の問題で
ある文セットを選択する方法としては、文献1:磯健
一、渡辺隆夫、桑原尚夫,“音声データベース用文セッ
トの設計”,音響学会1988年講論集2−2−19,
pp.89−90には、日本語に対して音響的なバラン
スのとれた組を探索するための最大エントロピー基準に
基づいたアルゴリズムがうまく使用できることが報告さ
れている。
【0009】すなわち、上述した文献1中には、さまざ
まな原典から集められた文の母集団から、すべての音素
環境が同じ割で含まれるような文セットを抽出するため
に、以下のような最適化処理が開示されている。
【0010】すなわち、最適化の評価関数として、次式
で定義される量Sを用いる。
【0011】
【数2】
【0012】ここでpiは、文セット中に現われる音素
環境i(i=1〜N,Σpi=1)の相対出現頻度であ
る。
【0013】この量Sは、N種類の音素環境の出現頻度
がすべて等しいときに、最大値log2Nになる。よく
知られているように、量Sは、音素環境の出現が独立す
る事象であるときには、情報エントロピーと解釈するこ
とができる。
【0014】しかしながら、文集合中の音素環境の出現
は、いくつかの音素環境が1つの文内で拘束されてお
り、また2音素連鎖が3音素連鎖に含まれることもある
ために完全な独立事象ではない。このように量Sは厳密
には情報エントロピーとは一致しないが、以下ではSを
エントロピーと呼ぶ。
【0015】文献1に開示された文セットの選択方法で
は、このエントロピーSを最大にするような文セット
(文数M)を母集団(文数N)から抽出する方法が開示
されている。
【0016】しかしながら、エントロピーに基づいた基
準は、音響的な単位が等しい確率で出現することを要求
するものであるために、探索の対象となる文の数が制限
されているときには、選択された文セットの中に未学習
となる音響単位が含まれるという問題を有している。
【0017】このような問題は、未学習ではあるものの
必要とされる音響単位を、人手によって文を追加するこ
とで解決することはできる。しかしながら、このような
方法は、たくさんの未学習な単位が存在するときには、
文の数を著しく増加させてしまうという問題があった。
特に、上述したように、音響単位の個数が多い言語にお
いては、音声データベース中にこのような未学習の音響
単位が出現すると言う問題がより深刻となる。
【0018】したがって、本発明は、このような問題点
を解決するためになされたものであって、その目的は、
文セットに含まれる音響単位の出現頻度の均一化と、未
学習な音響単位の数との双方を考慮した文セットの探索
方法を提供することである。
【0019】
【課題を解決するための手段】請求項1記載の音声デー
タベース用文セットの選択方法は、所定の言語の文セッ
トの母集団からランダムに、仮の文セットの子集団を抽
出する第1のステップと、子集団と母集団から子集団を
除いた残余文集合とから、それぞれランダムに1文ずつ
抽出する第2のステップと、子集団のエントロピーを、
所定の言語の各音響単位の出現頻度の均一化に応じて増
大し、かつ、子集団に含まれていない音響単位の減少に
応じて増大する関数として定義したとき、抽出された2
文を仮に交換した場合の子集団のエントロピーを算出す
る第3のステップと、仮交換によってエントロピーが増
大する場合には、抽出された2文を実際に交換する第4
のステップと、仮交換に伴うエントロピーの変化が定常
的になったと判断されるまで、第2のステップから第4
のステップまでの処理を繰り返すステップとを備える。
【0020】請求項2記載の音声データベース用文セッ
トの選択方法は、請求項1記載の音声データベース用文
セットの選択方法の構成に加えて、子集団のエントロピ
ーSは、子集団中に現われるi番目の音響単位(i:自
然数,i=1〜N)の相対出現頻度をpiとし、すべて
の音響単位の種類に対する、子集団における未学習な音
響単位の種類の割合をαとするとき、
【0021】
【数3】
【0022】である。請求項3記載の音声データベース
用文セットの選択方法は、請求項1記載の音声データベ
ース用文セットの選択方法の構成に加えて、所定の言語
は、中国語であり、音響単位は、中国語の音節を構成す
る始音および終音に基づくトライフォン音響モデルで表
現される。
【0023】請求項4記載の音声データベース用文セッ
トの選択方法は、請求項3記載の音声データベース用文
セットの選択方法の構成に加えて、トライフォン音響モ
デルは、音響単位と、後続する音響単位に対する音響環
境に基づいて分類された第1の音韻群と、先行する音響
単位に対する音響環境に基づいて分類された第2の音韻
群とから構成され、第1の音韻群は、調音位置に基づい
て分類された始音と、アンテシペーション効果に基づい
て分類された終音とを含み、第2の音韻群は、キャリー
オーバー効果に基づいて分類された終音を含む。
【0024】
【発明の実施の形態】[中国語の音響単位]発生を構成
する音の断片は、その左側の断片および右側の断片から
ともに重要な調音発声上の影響を受ける。
【0025】3つの音の断片に対応する音響的なモデリ
ング、すなわち、「トライフォン」は、現状の音声認識
システムにおいて、最も有効な技術の1つである。した
がって、音声データベースに対する文セットを探索する
際においても、このようなトライフォンが、バランスよ
く文セット中に含まれていることが望ましい。
【0026】一方で、トライフォンは、限られた数の文
セットによってカバーされるには、あまりにも多数の種
類を有する可能性がある。すなわち、中国語のような、
音調言語においては、認識対象となる音素およびその音
素環境の数が膨大であるために、通常のトライフォンモ
デルでは、未学習な音響環境が発生しやすい。
【0027】音素の数が少ないのであれば、始音や終音
を音響単位として用いるのよりも、より少ない数のトラ
イフォンで、よい音響モデルを生成できる可能性はあ
る。
【0028】しかしながら、調音発声の音響的な効果等
を考慮すると、以下に説明するとおり、中国語では始音
と終音を基本的な音響単位として選択することが望まし
い。
【0029】つまり、中国語は、単音節的な音調言語で
あって、この音節を構成する音素間の音節内での調音発
声が、音節間の調音発声よりもよりシステマティックな
ものである。このことは複合した終音の母音は、単母音
とは異なった音響的なパターンを有するということを意
味する。したがって、さまざまな異音(allophone)を
音響単位として、より多く採用するということよりも、
終音をそれ全体として単位と考えることの方がより合理
的である。
【0030】図2は、中国語において、漢字「安安」,
「阿南」とについて、その音節およびその音節の構成要
素とその音素環境を説明するための図である。
【0031】中国語では、1つの漢字は、1つの音節に
対応する。かつ、中国語の音響学においては、この1つ
の音節は、2つの半音節(demi-syllabic unit)、すな
わち上述したような始音と終音から構成される。
【0032】図2に示した例では、「安安」のうちの
「安」は、始音の存在しない終音のみからなる音節(無
始音音節:null-Initial)である。この場合、最初の
「安(an)」のうちのnの音素環境を見ると、先行する
音響環境は(a)であり、後続する音響環境は(an)で
ある。
【0033】これに対して、「阿南」の「南(nan)」
の音節において、最初のnの音響環境を考えると、先行
する音響環境は(a)であり、後続する音響環境は
(a)である。
【0034】すなわち、1つめの「安」のnも「南」の
先頭のnも、ともに先行音響環境および後続音響環境が
(a)であることになる。ところが、上述したとおり、
中国語は、単音節的な特性を有するため、1つめの
「安」におけるnに後続する(an)は異なる音節に存在
する音であるのに対し、「南」におけるnの後続する
「a」は同一音節内の音であるという違いが存在する。
したがって、仮に、音声認識のための基本単位を音節と
関係なく定めることとすれば、上述したような「安」中
の子音「n」と、「南」中の子音「n」とは異なるトラ
イフォンモデルで表現する必要がある。
【0035】このような問題は、始音と終音を基本的な
音響単位として採用することで容易に解決することがで
きる。
【0036】[文脈依存始音−終音(Context-dependen
t Initial-Final)モデル]以下では、音声認識のため
の「基本的な音響単位」として、上述した1音節を構成
する「始音」と「終音」とを用い、これらによりトライ
フォンを構成することにする。
【0037】上述したとおり、中国語は、1ないし複数
の漢字から構成されている。各漢字は、音調を伴った1
つの文節として発音される。音響的に異なった音節の総
数は約1300となる。さらに、音調の効果を無視した
場合でも基本となる音節は約410個存在する。
【0038】図3は、このような始音の分類を示す図で
あり、図4は、このような終音の分類を示す図である。
【0039】本発明においては、音声認識において、2
1個の始音と37個の終音(以下、始音と終音を総称し
て、「IF」と称する)からなる基本的な音響単位の組
が用いられる。
【0040】21個の始音は、図3にピンイン(Pinyi
n)シンボルとして示される。図3において、これらは
基本的に子音を表わしており、従来から知られている調
音特性に従って分類されている。
【0041】図3の縦軸は、発声器官が発声時に狭めら
れる場所(調音位置)を示しており、その狭めの位置に
応じて「両唇音(Bilabial)」、「唇歯音(Labio-dent
al)」、「歯音(Dental)」、「歯茎音(Alveola
r)」、「反転音(Retroflex)」、「口蓋音(Palata
l)」および「軟口蓋音(Velar)」に分類される。
【0042】一方、図3において、横軸は、発声の方法
を示しており、「閉鎖音(Stops)」、「破擦音(Affri
cative)」、「摩擦音(Fricative)」、「鼻音(Nasa
l)」および「流音(Liquid)」に分類される。さら
に、「閉鎖音」および「破擦音」は、「無帯気音(Unas
pirated)」と「帯気音(Aspirated)」に分類され、
「摩擦音」は「無声音」と「有声音」とに分類される。
【0043】一方、37個の終音は、図4に示す39個
の終音のうちから選択される。このとき、/e1,e2/の
組および/ong,ueng/のペアは合体される。/e1/と
/e2/は、先行する始音に依存しており、上述したよう
なクラスタリングを行なった後では、文脈依存型IFモ
デルによって区別することができるからである。一方、
/ong/および/ueng/は、音響的にはほとんど同一な
ものであると判断される。したがって、基本となる音節
の個数は412個ということになる。
【0044】[分類を行わない場合の文脈依存型IFモ
デルの個数]本発明に係る音響モデルについて説明する
前に、本発明のような分類を行わない場合の文脈依存型
IFモデルの個数について検討しておく。
【0045】つまり、仮に、上述したような21個の始
音と37個の終音の組および無音の状態である/sil/
とをそのまま用いることにすると、トライフォンモデル
の数としてはトライフォンの始音および終音を含む11
1,625個が必要となる。
【0046】より詳しく説明すれば、始音に対するトラ
イフォンモデルとして必要になる個数は以下のとおりで
ある。
【0047】[37(終音)+1(無音)]×[412
−35(無始音音節)]=14,326 一方、終音に対するトライフォンモデルの数の計算はや
や込み入っているが、以下のとおりとなる。
【0048】(412−35)×[21(始音)+1
(無音)+35(無始音音節)]+[37(終音)+1
(無音)]×35×[21(始音)+1(無音)+35
(無始音音節)]=97,299 したがって、始音と終音の3つの接続をトライフォンと
して考慮するときには、このような接続の仕方の可能な
組合せは、約111,000種類に上ることになる。こ
れは、数百個の文によってカバーされるにはあまりにも
大きすぎる個数の文セットである。
【0049】[本発明に係る音響モデルの作成方法]し
たがって、本発明においては、以下に説明するように、
このような可能な音響単位の接続の仕方を減少させるた
めに、左文脈依存と右文脈依存の単位をより少ないカテ
ゴリに、それぞれの調音発声の特徴に基づいて分類す
る。
【0050】以下では、本発明に係る音響モデルの作成
方法についてさらに詳しく説明する。
【0051】本発明では、クラスタリングとデータ学習
に基づくモデリングという2つの方法を統合化して、音
響モデルを作成する。
【0052】このような統合化のためには、i)どのよ
うにして始音と終音を分類するのかということ、および
ii)文脈に依存した分類を行なうためにどのような文
脈分類木における質問を設計するかということが重要に
なる。
【0053】以下に説明するように、本発明において
は、各始音と各終音においてその調音構造に依存した分
類を行なう。音響的には、フォルマントの遷移というも
のは、調音を行なう場所のきっかけとはなるが、音声発
声の方法(調音方式)自体はそれによって制限されるも
のでないことが知られている。
【0054】(始音に対する分類)たとえば、鼻音であ
る子音の/m/は、閉鎖音である始音の/b/および/
p/と同様なフォルマント遷移を有している。なぜなら
ば、これらはともに両唇音として開始される音声である
からである。
【0055】したがって、21個の始音の調音発声の効
果は、以下に示すような7つのグループに分類される。
このような7つのグループとは、図3に示したような
「両唇音」、「唇歯音」、「歯音」、「歯茎音」、「反
転音」、「口蓋音」、「軟口蓋音」ということになる。
【0056】(終音に対する分類)複合している終音
は、異なった開始状態および終状態を有している。した
がって、このような開始状態と終状態に関して異なった
分類を行なう必要がある。
【0057】図5は、複合した終音を、終音の終状態に
基づくキャリーオーバー効果によって分類した結果を示
す図である。ここで、「キャリーオーバー効果」とは、
注目する音に先行する音響環境が、当該注目する音に影
響を与えることを意味する。
【0058】終音は、終状態に応じたキャリーオーバー
効果により、10種類に分類される。
【0059】一方、図6は、終音の始状態に基づいたア
ンティシペーション効果に基づいた分類を示す図であ
る。ここで、「アンティシペーション効果」とは、注目
する音に後続する音響環境が、当該注目する音に影響を
与えることを意味する。
【0060】特に、声門閉鎖音(glottal stop)につい
ては、無始音音節に対する特別な考慮が必要である。音
声合成の研究は、声門閉鎖音を無視すると、たとえば一
五一十(yiwuyishi)というような合成された出力を認
識困難にしてしまうことが知られている。したがって、
図6においては、このような声門閉鎖音に対して9つの
シンボルを採用しており、これらは、無始音音節からの
アンティシペーション効果を表現している。
【0061】すなわち、図6においては、縦の列の第1
の分類(分類1)は協調発声によるアンティシペーショ
ンの効果による分類を示しており、縦の列の第2番目の
列(分類2)は、声門閉鎖音の場合のシンボルを示して
いる。
【0062】このようにして、各音節を右文脈依存の始
音と左文脈依存の終音とに分類すると、187個の右文
脈依存始音と152個の左文脈依存終音を、412個の
基本的な文節から得ることができる。
【0063】これに基づけば、このような分類型トライ
フォン始音の個数は以下のように計算される。
【0064】(10終音キャリーオーバー効果+1無
音)×(187右文脈依存始音)=2,057 一方、分類型トライフォン終音の個数は以下のように計
算される。
【0065】152左文脈依存終音×(7始音分類+9
終音声門閉鎖音+1無音)=2,584 したがって、この総数は4,641個となる。これは上
述したようなもともとの111,625種類の4.1%
にすぎない。
【0066】このような分類を行なった上で、本発明に
おいては、文脈分類木の各ノードにおける音響的な質問
を上述したような始音および終音の分類に基づいて生成
する。
【0067】図7は、このような本発明における文脈分
類木の構成を説明するための概念図である。
【0068】すなわち、音響的な決定木が、データに基
づいたHMM状態の結合(合成)に用いられる。各ノー
ドでは、始音の分類に対する質問が、上述したような発
声器官の狭めの位置に応じて設計される。
【0069】たとえば、唇歯音は、2つの分類である唇
音と歯音とを含んでいる。歯茎音−口蓋音は、2つの歯
茎音と口蓋音の分類を有している。
【0070】終音の分類に対する質問は、上述したよう
な従来の分類木における質問と似かよったものとなる。
たとえば、それが「高母音」または「低母音」あるいは
「唇を丸めているか」といったような分類である。
【0071】さらに、図7においては、「a」の前後の
子音による音響環境に依存した分類木を説明している。
【0072】つまり、記号LDは、「唇歯音(Labio-de
ntal)」を示し、記号AVは、「歯茎音(Alveolar)」
を示し、記号RTは、「反転音(Retroflex)」を示
し、記号BLは、「両唇音(Bilabial)」を示す。
【0073】図7においては、(LD)−a+(AV)
が未学習トライフォンモデルである。本発明に基づく、
文脈分類木に基づくと、(LD)−a+(AV)と(B
L)−a+(AV)とが同じクラスターに属する。した
がって、(LD)−a+(AV)の音響モデルを(B
L)−a+(AV)の音響モデルに基づいて合成する。
【0074】このようにして作成した音響モデルに基づ
くと、タスク依存型のテストにおいては、もともとの始
音および終音のトライフォンに基づいた隠れマルコフモ
デルと比較して、音声認識の動作には大きな影響はみら
れない。このような統合は、タスク非依存型のテストに
おいても、音声認識装置の特性を向上させるものであ
る。
【0075】以上のようにして生成される、約4,60
0個の分類された始音および終音のトライフォンは、数
百個の文によってカバーされ得るものであると考えられ
る。
【0076】[探索アルゴリズム] (基本的な文セット抽出アルゴリズムの流れ)基本的な
音響単位の数と比べて、音声データベース中の文セット
の数が限られているとき、特に、上述したような中国語
のように音響環境の複雑な言語に対して音声データベー
スを作成するときは、結果として得られた文セットの中
に、存在しない音響単位ができてしまう可能性がある。
【0077】そこで、さまざまな原典から集められた文
の母集団から、文セットを抽出するために、本発明にお
いては、上述した文献1中の式(1)で表わされる評価
関数(エントロピー)を、以下のように変更する。
【0078】
【数4】
【0079】式(2)において、piは、文セット中に
現われるi番目の音響単位(すなわち、トライフォン
i)(i=1〜N,Σpi=1)の相対出現頻度であ
る。αは、すべての音響単位の種類に対する、選択され
た文セットにおける未学習な音響単位の種類の割合であ
る。
【0080】したがって、式(2)で表されるエントロ
ピーでは、各音響単位の出現頻度を均一にしようとする
傾向と、新しい音響単位を含ませようとする両方の傾向
を有しているような文の交換は、式(2)におけるエン
トロピー値を増加させる結果となる。
【0081】図1は、この式(2)のエントロピーを最
大にするような文セット(文数M)を母集団(文数N)
から抽出する方法を示すフローチャートである。
【0082】図1を参照して、文セットの探索処理が開
始されると(ステップS100)、母集団からランダム
にM文抽出して、仮の文セットの子集団σとする(ステ
ップS102)。残りのN−M文の集合をΣとする。
【0083】続いて、子集団σと集合Σから、それぞれ
ランダムに1文ずつ抽出する(ステップS104)。
【0084】仮にこの2文を交換した場合の子集団σの
エントロピーS(σ)を計算する(ステップS10
6)。
【0085】もしも、交換によってS(σ)が増大する
場合には(ステップS108)、この2文を実際に交換
する(ステップS110)。一方、交換によってS
(σ)が増大しない場合には(ステップS108)、こ
の2文の交換は行なわない。
【0086】さらに、上記のような仮の交換によっても
エントロピーS(σ)の変化が所定値以下であって、エ
ントロピーS(σ)が定常になったといえるのかの判断
を行ない(ステップS112)、定常でなければ処理は
ステップS104に復帰し、定常となったと判断されれ
ば処理が終了する(ステップS114)。
【0087】言い換えると、上述したような文の子集合
と母集合とを用い、各回ごとに、それぞれの集合からの
1つずつの文がランダムに選択され、子集合に対する評
価関数(エントロピー)を、2つの文の仮の交換の前後
において計算をする。仮の交換の結果、子集合に対する
評価関数の値がより大きなものとなるのであれば、2つ
の文は実際に交換される。
【0088】このアルゴリズムによれば、文セットのエ
ントロピーは単調に増大するので、繰返し回数に応じ
て、音素環境の出現頻度の均質化と未学習音響単位の発
生を抑制した文セットが得られる。
【0089】[実験結果]以下では、実験結果について
説明する。
【0090】実験に使用された文コーパスは以下のよう
なものである。文コーパスは、314,579の文から
なる原典から探索された。各文は、コンマあるいはより
高いレベルの休止符号によって分離されている。音響的
な変換規則に従って、これらの文をトライフォンに分割
すると、トライフォンの出現頻度は、約1,000万回
となった。これは、各文ごとに31.9個の音響単位が
平均として出現することに相当する。
【0091】さらに、トライフォンの種類としては4,
319個となった。このような文コーパス中には、可能
なすべてのトライフォンである約4,600個のものが
すべて現われているわけではないので、この4,319
個の音響単位をカバーするような適切な大きさの文セッ
トを探索することが必要となる。
【0092】上述したような式(1)および式(2)に
それぞれ基づいた基準に従って、探索を行なった結果を
表1に示す。
【0093】
【表1】
【0094】200文から1000文まで変化する異な
ったサイズの子集合についてテストを行なうと、最終的
な文セットの候補としては、800、900ないし1,
000センテンスが適当であることがわかった。
【0095】表1に示すとおり、文の数の関数として、
エントロピーと、結果として得られた文セット中の未学
習音響単位の数とが示されている。ここで、Enp1
は、式(1)に基づく結果を表わし、Enp2は、式
(2)による結果を表わす。
【0096】このような結果からは、式(2)に基づく
基準に従えば、式(1)に基づく場合に比べて、結果と
して得られた文セット中における未学習音響単位の数を
十分に低減できることがわかる。もちろんこの場合で
も、その未学習な音響単位を0にすることはできない
が、エントロピーの差はわずかである。たとえば、1,
000個の文セットの場合をとってみると、未学習音響
単位の数は、相対的には72.2%減少され、全体に対
する割合は11.7%から3.2%まで減少している。
このとき、エントロピーは、わずかに相対的には0.5
7%減少しているのみである。
【0097】以上説明したとおり、音響的にバランスの
とれた1,000個の文セットが、4,179種類の分
類された文脈依存型トライフォンIFモデルをカバー
し、かつこれは、すべての可能な約4600個のトライ
フォンのうちの約90%に達することがわかった。
【0098】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。
【0099】
【発明の効果】以上説明したとおり、本発明によれば、
音声認識のための音声データベースにおいて、音素環境
の出現頻度の均質化と未学習音響単位の発生を抑制した
文セットを得ることができる。
【図面の簡単な説明】
【図1】 エントロピーを最大にするような文セット
(文数M)を母集団(文数N)から抽出する方法を示す
フローチャートである。
【図2】 中国語において、その音節およびその音節の
構成要素とその音素環境を説明するための図である。
【図3】 本発明に係る始音の分類を示す図である。
【図4】 本発明に係る終音の分類を示す図である。
【図5】 複合した終音を、終音の終状態に基づくキャ
リーオーバー効果によって分類した結果を示す図であ
る。
【図6】 終音の始状態に基づいたアンティシペーショ
ン効果に基づいた分類を示す図である。
【図7】 本発明における文脈分類木の構成を説明する
ための概念図である。
【符号の説明】
S エントロピー、σ 子集団、Σ 母集団からσを除
いた集合、LD 唇歯音、AV 歯茎音、RT 反転
音、BL 両唇音。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松井 知子 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 中村 哲 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 Fターム(参考) 5D015 BB02 GG00

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 所定の言語の文セットの母集団からラン
    ダムに、仮の文セットの子集団を抽出する第1のステッ
    プと、 前記子集団と前記母集団から前記子集団を除いた残余文
    集合とから、それぞれランダムに1文ずつ抽出する第2
    のステップと、 前記子集団のエントロピーを、前記所定の言語の各音響
    単位の出現頻度の均一化に応じて増大し、かつ、前記子
    集団に含まれていない音響単位の減少に応じて増大する
    関数として定義したとき、抽出された2文を仮に交換し
    た場合の子集団のエントロピーを算出する第3のステッ
    プと、 仮交換によって前記エントロピーが増大する場合には、
    前記抽出された2文を実際に交換する第4のステップ
    と、 前記仮交換に伴う前記エントロピーの変化が定常的にな
    ったと判断されるまで、前記第2のステップから前記第
    4のステップまでの処理を繰り返すステップとを備え
    る、音声データベース用文セットの選択方法。
  2. 【請求項2】 前記子集団のエントロピーSは、 前記子集団中に現われるi番目の音響単位(i:自然
    数,i=1〜N)の相対出現頻度をpiとし、すべての
    音響単位の種類に対する、前記子集団における未学習な
    音響単位の種類の割合をαとするとき、 【数1】 である、請求項1記載の音声データベース用文セットの
    選択方法。
  3. 【請求項3】 前記所定の言語は、中国語であり、 前記音響単位は、前記中国語の音節を構成する始音およ
    び終音に基づくトライフォン音響モデルで表現される、
    請求項1記載の音声データベース用文セットの選択方
    法。
  4. 【請求項4】 前記トライフォン音響モデルは、 音響単位と、後続する前記音響単位に対する音響環境に
    基づいて分類された第1の音韻群と、先行する前記音響
    単位に対する音響環境に基づいて分類された第2の音韻
    群とから構成され、 前記第1の音韻群は、 調音位置に基づいて分類された前記始音と、 アンテシペーション効果に基づいて分類された前記終音
    とを含み、 前記第2の音韻群は、 キャリーオーバー効果に基づいて分類された前記終音を
    含む、請求項3記載の音声データベース用文セットの選
    択方法。
JP2001070560A 2001-03-13 2001-03-13 音声データベース用文セットの選択方法 Withdrawn JP2002268672A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001070560A JP2002268672A (ja) 2001-03-13 2001-03-13 音声データベース用文セットの選択方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001070560A JP2002268672A (ja) 2001-03-13 2001-03-13 音声データベース用文セットの選択方法

Publications (1)

Publication Number Publication Date
JP2002268672A true JP2002268672A (ja) 2002-09-20

Family

ID=18928411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001070560A Withdrawn JP2002268672A (ja) 2001-03-13 2001-03-13 音声データベース用文セットの選択方法

Country Status (1)

Country Link
JP (1) JP2002268672A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208652A (ja) * 2004-01-21 2005-08-04 Microsoft Corp 声調言語用分節声調モデリング
JP2008070564A (ja) * 2006-09-13 2008-03-27 Fujitsu Ltd 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法
JP2009237564A (ja) * 2008-03-05 2009-10-15 Panasonic Electric Works Co Ltd 音声合成用データの選択方法
JP2011248001A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル学習用ラベル作成装置、その方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208652A (ja) * 2004-01-21 2005-08-04 Microsoft Corp 声調言語用分節声調モデリング
JP2008070564A (ja) * 2006-09-13 2008-03-27 Fujitsu Ltd 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法
US8190432B2 (en) 2006-09-13 2012-05-29 Fujitsu Limited Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
JP2009237564A (ja) * 2008-03-05 2009-10-15 Panasonic Electric Works Co Ltd 音声合成用データの選択方法
JP2011248001A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル学習用ラベル作成装置、その方法及びプログラム

Similar Documents

Publication Publication Date Title
US11373633B2 (en) Text-to-speech processing using input voice characteristic data
Wu et al. Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US20200410981A1 (en) Text-to-speech (tts) processing
US20120095767A1 (en) Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
Chomphan et al. Implementation and evaluation of an HMM-based Thai speech synthesis system.
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
TWI467566B (zh) 多語言語音合成方法
Mullah et al. Development of an HMM-based speech synthesis system for Indian English language
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP2002229590A (ja) 音声認識システム
Mullah A comparative study of different text-to-speech synthesis techniques
Phan et al. Improvement of naturalness for an HMM-based Vietnamese speech synthesis using the prosodic information
JP2002268672A (ja) 音声データベース用文セットの選択方法
Kumar et al. Development of speaker-independent automatic speech recognition system for Kannada language
Janyoi et al. An Isarn dialect HMM-based text-to-speech system
Kaur et al. Formant Text to Speech Synthesis Using Artificial Neural Networks
JP3571925B2 (ja) 音声情報処理装置
Louw Cross-lingual transfer using phonological features for resource-scarce text-to-speech
Reetz Underspecified phonological features for lexical access
Delić et al. A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian
Manjunath et al. Improvement of phone recognition accuracy using source and system features

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513