JP2002268672A

JP2002268672A - 音声データベース用文セットの選択方法

Info

Publication number: JP2002268672A
Application number: JP2001070560A
Authority: JP
Inventors: Kinson Chou; チョウ・キンソン; Tomoko Matsui; 知子松井; Satoru Nakamura; 哲中村
Original assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Current assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2002-09-20

Abstract

(57)【要約】【課題】文セットに含まれる音響単位の出現頻度の均
一化と、未学習な音響単位の数との双方を考慮した音声
データベース用文セットの探索方法を提供する。【解決手段】音声データベース用文セットの選択方法
では、所定の言語の文セットの母集団からランダムに仮
の文セットの子集団を抽出し、このような文の子集合と
母集合とを用い、各回ごとに、それぞれの集合からの１
つずつの文がランダムに選択され、子集合に対する評価
関数（エントロピー）を、２つの文の仮の交換の前後に
おいて計算をする。仮の交換の結果、子集合に対する評
価関数の値がより大きなものとなるのであれば、２つの
文は実際に交換される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声データベー
スに用いられる文セットの選択方法に関し、より特定的
には、音韻のバランスがとれた文セットを選択するため
の手法に関する。

【０００２】

【従来の技術】学習のための音声データベースとして音
韻的にバランスのとれた文セットを設計することは、音
声認識のための音響データベースを形成するために必須
の要件である。このような音声データベースの設計の問
題に対しては、２つの重要な問題がある。

【０００３】第１には、音響的な単位およびその文脈に
依存したモデリングを如何に選択するかという問題であ
り、第２には、音声データベースのための適当な大きさ
の文セットであって、可能な範囲でそれに含まれる音韻
のバランスがとれているものを大きな文コーパスから探
索することである。

【０００４】ここで、たとえば、上記第１の問題点に関
して、中国語を例にとると、中国語の音節は、従来か
ら、２つの半音節に分割されている。すなわち、「始音
（Initial：声母）」と「終音（Final：韻母）」であ
る。始音は、子音であって、音節の任意的な構成要素で
ある。これに対して、終音は、音節の必須の構成要件で
あって、母音、母音の連接あるいは鼻音（／ｎ／あるい
は／ｎｇ／）による終了の仕方をする母音である。

【０００５】複合した終音は、音響学的には、さらに複
数の音の要素（音素）に分解することができる。すなわ
ち、母音と、鼻音による終了部分を有する母音とにであ
る。

【０００６】したがって、中国語に対しては、基本的な
音響単位として、始音／終音を選択するのか、音素を選
択するのかという選択の余地があることになる。

【０００７】そして、音声認識の対象となる言語の音響
的な特性に応じて、基本的な音響単位を如何なるものに
選択するかは、その音声認識システムの特性に大きく影
響することになる。

【０００８】

【発明が解決しようとする課題】一方で、第２の問題で
ある文セットを選択する方法としては、文献１：磯健
一、渡辺隆夫、桑原尚夫，“音声データベース用文セッ
トの設計”，音響学会１９８８年講論集２−２−１９，
ｐｐ．８９−９０には、日本語に対して音響的なバラン
スのとれた組を探索するための最大エントロピー基準に
基づいたアルゴリズムがうまく使用できることが報告さ
れている。

【０００９】すなわち、上述した文献１中には、さまざ
まな原典から集められた文の母集団から、すべての音素
環境が同じ割で含まれるような文セットを抽出するため
に、以下のような最適化処理が開示されている。

【００１０】すなわち、最適化の評価関数として、次式
で定義される量Ｓを用いる。

【００１１】

【数２】

【００１２】ここでｐ_iは、文セット中に現われる音素
環境ｉ（ｉ＝１〜Ｎ，Σｐ_i＝１）の相対出現頻度であ
る。

【００１３】この量Ｓは、Ｎ種類の音素環境の出現頻度
がすべて等しいときに、最大値ｌｏｇ₂Ｎになる。よく
知られているように、量Ｓは、音素環境の出現が独立す
る事象であるときには、情報エントロピーと解釈するこ
とができる。

【００１４】しかしながら、文集合中の音素環境の出現
は、いくつかの音素環境が１つの文内で拘束されてお
り、また２音素連鎖が３音素連鎖に含まれることもある
ために完全な独立事象ではない。このように量Ｓは厳密
には情報エントロピーとは一致しないが、以下ではＳを
エントロピーと呼ぶ。

【００１５】文献１に開示された文セットの選択方法で
は、このエントロピーＳを最大にするような文セット
（文数Ｍ）を母集団（文数Ｎ）から抽出する方法が開示
されている。

【００１６】しかしながら、エントロピーに基づいた基
準は、音響的な単位が等しい確率で出現することを要求
するものであるために、探索の対象となる文の数が制限
されているときには、選択された文セットの中に未学習
となる音響単位が含まれるという問題を有している。

【００１７】このような問題は、未学習ではあるものの
必要とされる音響単位を、人手によって文を追加するこ
とで解決することはできる。しかしながら、このような
方法は、たくさんの未学習な単位が存在するときには、
文の数を著しく増加させてしまうという問題があった。
特に、上述したように、音響単位の個数が多い言語にお
いては、音声データベース中にこのような未学習の音響
単位が出現すると言う問題がより深刻となる。

【００１８】したがって、本発明は、このような問題点
を解決するためになされたものであって、その目的は、
文セットに含まれる音響単位の出現頻度の均一化と、未
学習な音響単位の数との双方を考慮した文セットの探索
方法を提供することである。

【００１９】

【課題を解決するための手段】請求項１記載の音声デー
タベース用文セットの選択方法は、所定の言語の文セッ
トの母集団からランダムに、仮の文セットの子集団を抽
出する第１のステップと、子集団と母集団から子集団を
除いた残余文集合とから、それぞれランダムに１文ずつ
抽出する第２のステップと、子集団のエントロピーを、
所定の言語の各音響単位の出現頻度の均一化に応じて増
大し、かつ、子集団に含まれていない音響単位の減少に
応じて増大する関数として定義したとき、抽出された２
文を仮に交換した場合の子集団のエントロピーを算出す
る第３のステップと、仮交換によってエントロピーが増
大する場合には、抽出された２文を実際に交換する第４
のステップと、仮交換に伴うエントロピーの変化が定常
的になったと判断されるまで、第２のステップから第４
のステップまでの処理を繰り返すステップとを備える。

【００２０】請求項２記載の音声データベース用文セッ
トの選択方法は、請求項１記載の音声データベース用文
セットの選択方法の構成に加えて、子集団のエントロピ
ーＳは、子集団中に現われるｉ番目の音響単位（ｉ：自
然数，ｉ＝１〜Ｎ）の相対出現頻度をｐ_iとし、すべて
の音響単位の種類に対する、子集団における未学習な音
響単位の種類の割合をαとするとき、

【００２１】

【数３】

【００２２】である。請求項３記載の音声データベース
用文セットの選択方法は、請求項１記載の音声データベ
ース用文セットの選択方法の構成に加えて、所定の言語
は、中国語であり、音響単位は、中国語の音節を構成す
る始音および終音に基づくトライフォン音響モデルで表
現される。

【００２３】請求項４記載の音声データベース用文セッ
トの選択方法は、請求項３記載の音声データベース用文
セットの選択方法の構成に加えて、トライフォン音響モ
デルは、音響単位と、後続する音響単位に対する音響環
境に基づいて分類された第１の音韻群と、先行する音響
単位に対する音響環境に基づいて分類された第２の音韻
群とから構成され、第１の音韻群は、調音位置に基づい
て分類された始音と、アンテシペーション効果に基づい
て分類された終音とを含み、第２の音韻群は、キャリー
オーバー効果に基づいて分類された終音を含む。

【００２４】

【発明の実施の形態】［中国語の音響単位］発生を構成
する音の断片は、その左側の断片および右側の断片から
ともに重要な調音発声上の影響を受ける。

【００２５】３つの音の断片に対応する音響的なモデリ
ング、すなわち、「トライフォン」は、現状の音声認識
システムにおいて、最も有効な技術の１つである。した
がって、音声データベースに対する文セットを探索する
際においても、このようなトライフォンが、バランスよ
く文セット中に含まれていることが望ましい。

【００２６】一方で、トライフォンは、限られた数の文
セットによってカバーされるには、あまりにも多数の種
類を有する可能性がある。すなわち、中国語のような、
音調言語においては、認識対象となる音素およびその音
素環境の数が膨大であるために、通常のトライフォンモ
デルでは、未学習な音響環境が発生しやすい。

【００２７】音素の数が少ないのであれば、始音や終音
を音響単位として用いるのよりも、より少ない数のトラ
イフォンで、よい音響モデルを生成できる可能性はあ
る。

【００２８】しかしながら、調音発声の音響的な効果等
を考慮すると、以下に説明するとおり、中国語では始音
と終音を基本的な音響単位として選択することが望まし
い。

【００２９】つまり、中国語は、単音節的な音調言語で
あって、この音節を構成する音素間の音節内での調音発
声が、音節間の調音発声よりもよりシステマティックな
ものである。このことは複合した終音の母音は、単母音
とは異なった音響的なパターンを有するということを意
味する。したがって、さまざまな異音（allophone）を
音響単位として、より多く採用するということよりも、
終音をそれ全体として単位と考えることの方がより合理
的である。

【００３０】図２は、中国語において、漢字「安安」，
「阿南」とについて、その音節およびその音節の構成要
素とその音素環境を説明するための図である。

【００３１】中国語では、１つの漢字は、１つの音節に
対応する。かつ、中国語の音響学においては、この１つ
の音節は、２つの半音節（demi-syllabic unit）、すな
わち上述したような始音と終音から構成される。

【００３２】図２に示した例では、「安安」のうちの
「安」は、始音の存在しない終音のみからなる音節（無
始音音節：null-Initial）である。この場合、最初の
「安（an）」のうちのｎの音素環境を見ると、先行する
音響環境は（ａ）であり、後続する音響環境は（an）で
ある。

【００３３】これに対して、「阿南」の「南（nan）」
の音節において、最初のｎの音響環境を考えると、先行
する音響環境は（ａ）であり、後続する音響環境は
（ａ）である。

【００３４】すなわち、１つめの「安」のｎも「南」の
先頭のｎも、ともに先行音響環境および後続音響環境が
（ａ）であることになる。ところが、上述したとおり、
中国語は、単音節的な特性を有するため、１つめの
「安」におけるｎに後続する（an）は異なる音節に存在
する音であるのに対し、「南」におけるｎの後続する
「ａ」は同一音節内の音であるという違いが存在する。
したがって、仮に、音声認識のための基本単位を音節と
関係なく定めることとすれば、上述したような「安」中
の子音「ｎ」と、「南」中の子音「ｎ」とは異なるトラ
イフォンモデルで表現する必要がある。

【００３５】このような問題は、始音と終音を基本的な
音響単位として採用することで容易に解決することがで
きる。

【００３６】［文脈依存始音−終音（Context-dependen
t Initial-Final）モデル］以下では、音声認識のため
の「基本的な音響単位」として、上述した１音節を構成
する「始音」と「終音」とを用い、これらによりトライ
フォンを構成することにする。

【００３７】上述したとおり、中国語は、１ないし複数
の漢字から構成されている。各漢字は、音調を伴った１
つの文節として発音される。音響的に異なった音節の総
数は約１３００となる。さらに、音調の効果を無視した
場合でも基本となる音節は約４１０個存在する。

【００３８】図３は、このような始音の分類を示す図で
あり、図４は、このような終音の分類を示す図である。

【００３９】本発明においては、音声認識において、２
１個の始音と３７個の終音（以下、始音と終音を総称し
て、「ＩＦ」と称する）からなる基本的な音響単位の組
が用いられる。

【００４０】２１個の始音は、図３にピンイン（Pinyi
n）シンボルとして示される。図３において、これらは
基本的に子音を表わしており、従来から知られている調
音特性に従って分類されている。

【００４１】図３の縦軸は、発声器官が発声時に狭めら
れる場所（調音位置）を示しており、その狭めの位置に
応じて「両唇音（Bilabial）」、「唇歯音（Labio-dent
al）」、「歯音（Dental）」、「歯茎音（Alveola
r）」、「反転音（Retroflex）」、「口蓋音（Palata
l）」および「軟口蓋音（Velar）」に分類される。

【００４２】一方、図３において、横軸は、発声の方法
を示しており、「閉鎖音（Stops）」、「破擦音（Affri
cative）」、「摩擦音（Fricative）」、「鼻音（Nasa
l）」および「流音（Liquid）」に分類される。さら
に、「閉鎖音」および「破擦音」は、「無帯気音（Unas
pirated）」と「帯気音（Aspirated）」に分類され、
「摩擦音」は「無声音」と「有声音」とに分類される。

【００４３】一方、３７個の終音は、図４に示す３９個
の終音のうちから選択される。このとき、／e1，e2／の
組および／ong，ueng／のペアは合体される。／e1／と
／e2／は、先行する始音に依存しており、上述したよう
なクラスタリングを行なった後では、文脈依存型ＩＦモ
デルによって区別することができるからである。一方、
／ong／および／ueng／は、音響的にはほとんど同一な
ものであると判断される。したがって、基本となる音節
の個数は４１２個ということになる。

【００４４】［分類を行わない場合の文脈依存型ＩＦモ
デルの個数］本発明に係る音響モデルについて説明する
前に、本発明のような分類を行わない場合の文脈依存型
ＩＦモデルの個数について検討しておく。

【００４５】つまり、仮に、上述したような２１個の始
音と３７個の終音の組および無音の状態である／sil／
とをそのまま用いることにすると、トライフォンモデル
の数としてはトライフォンの始音および終音を含む１１
１，６２５個が必要となる。

【００４６】より詳しく説明すれば、始音に対するトラ
イフォンモデルとして必要になる個数は以下のとおりで
ある。

【００４７】［３７（終音）＋１（無音）］×［４１２
−３５（無始音音節）］＝１４，３２６一方、終音に対するトライフォンモデルの数の計算はや
や込み入っているが、以下のとおりとなる。

【００４８】（４１２−３５）×［２１（始音）＋１
（無音）＋３５（無始音音節）］＋［３７（終音）＋１
（無音）］×３５×［２１（始音）＋１（無音）＋３５
（無始音音節）］＝９７，２９９したがって、始音と終音の３つの接続をトライフォンと
して考慮するときには、このような接続の仕方の可能な
組合せは、約１１１，０００種類に上ることになる。こ
れは、数百個の文によってカバーされるにはあまりにも
大きすぎる個数の文セットである。

【００４９】［本発明に係る音響モデルの作成方法］し
たがって、本発明においては、以下に説明するように、
このような可能な音響単位の接続の仕方を減少させるた
めに、左文脈依存と右文脈依存の単位をより少ないカテ
ゴリに、それぞれの調音発声の特徴に基づいて分類す
る。

【００５０】以下では、本発明に係る音響モデルの作成
方法についてさらに詳しく説明する。

【００５１】本発明では、クラスタリングとデータ学習
に基づくモデリングという２つの方法を統合化して、音
響モデルを作成する。

【００５２】このような統合化のためには、ｉ）どのよ
うにして始音と終音を分類するのかということ、および
ｉｉ）文脈に依存した分類を行なうためにどのような文
脈分類木における質問を設計するかということが重要に
なる。

【００５３】以下に説明するように、本発明において
は、各始音と各終音においてその調音構造に依存した分
類を行なう。音響的には、フォルマントの遷移というも
のは、調音を行なう場所のきっかけとはなるが、音声発
声の方法（調音方式）自体はそれによって制限されるも
のでないことが知られている。

【００５４】（始音に対する分類）たとえば、鼻音であ
る子音の／ｍ／は、閉鎖音である始音の／ｂ／および／
ｐ／と同様なフォルマント遷移を有している。なぜなら
ば、これらはともに両唇音として開始される音声である
からである。

【００５５】したがって、２１個の始音の調音発声の効
果は、以下に示すような７つのグループに分類される。
このような７つのグループとは、図３に示したような
「両唇音」、「唇歯音」、「歯音」、「歯茎音」、「反
転音」、「口蓋音」、「軟口蓋音」ということになる。

【００５６】（終音に対する分類）複合している終音
は、異なった開始状態および終状態を有している。した
がって、このような開始状態と終状態に関して異なった
分類を行なう必要がある。

【００５７】図５は、複合した終音を、終音の終状態に
基づくキャリーオーバー効果によって分類した結果を示
す図である。ここで、「キャリーオーバー効果」とは、
注目する音に先行する音響環境が、当該注目する音に影
響を与えることを意味する。

【００５８】終音は、終状態に応じたキャリーオーバー
効果により、１０種類に分類される。

【００５９】一方、図６は、終音の始状態に基づいたア
ンティシペーション効果に基づいた分類を示す図であ
る。ここで、「アンティシペーション効果」とは、注目
する音に後続する音響環境が、当該注目する音に影響を
与えることを意味する。

【００６０】特に、声門閉鎖音（glottal stop）につい
ては、無始音音節に対する特別な考慮が必要である。音
声合成の研究は、声門閉鎖音を無視すると、たとえば一
五一十（yiwuyishi）というような合成された出力を認
識困難にしてしまうことが知られている。したがって、
図６においては、このような声門閉鎖音に対して９つの
シンボルを採用しており、これらは、無始音音節からの
アンティシペーション効果を表現している。

【００６１】すなわち、図６においては、縦の列の第１
の分類（分類１）は協調発声によるアンティシペーショ
ンの効果による分類を示しており、縦の列の第２番目の
列（分類２）は、声門閉鎖音の場合のシンボルを示して
いる。

【００６２】このようにして、各音節を右文脈依存の始
音と左文脈依存の終音とに分類すると、１８７個の右文
脈依存始音と１５２個の左文脈依存終音を、４１２個の
基本的な文節から得ることができる。

【００６３】これに基づけば、このような分類型トライ
フォン始音の個数は以下のように計算される。

【００６４】（１０終音キャリーオーバー効果＋１無
音）×（１８７右文脈依存始音）＝２，０５７一方、分類型トライフォン終音の個数は以下のように計
算される。

【００６５】１５２左文脈依存終音×（７始音分類＋９
終音声門閉鎖音＋１無音）＝２，５８４したがって、この総数は４，６４１個となる。これは上
述したようなもともとの１１１，６２５種類の４．１％
にすぎない。

【００６６】このような分類を行なった上で、本発明に
おいては、文脈分類木の各ノードにおける音響的な質問
を上述したような始音および終音の分類に基づいて生成
する。

【００６７】図７は、このような本発明における文脈分
類木の構成を説明するための概念図である。

【００６８】すなわち、音響的な決定木が、データに基
づいたＨＭＭ状態の結合（合成）に用いられる。各ノー
ドでは、始音の分類に対する質問が、上述したような発
声器官の狭めの位置に応じて設計される。

【００６９】たとえば、唇歯音は、２つの分類である唇
音と歯音とを含んでいる。歯茎音−口蓋音は、２つの歯
茎音と口蓋音の分類を有している。

【００７０】終音の分類に対する質問は、上述したよう
な従来の分類木における質問と似かよったものとなる。
たとえば、それが「高母音」または「低母音」あるいは
「唇を丸めているか」といったような分類である。

【００７１】さらに、図７においては、「ａ」の前後の
子音による音響環境に依存した分類木を説明している。

【００７２】つまり、記号ＬＤは、「唇歯音（Labio-de
ntal）」を示し、記号ＡＶは、「歯茎音（Alveolar）」
を示し、記号ＲＴは、「反転音（Retroflex）」を示
し、記号ＢＬは、「両唇音（Bilabial）」を示す。

【００７３】図７においては、（ＬＤ）−ａ＋（ＡＶ）
が未学習トライフォンモデルである。本発明に基づく、
文脈分類木に基づくと、（ＬＤ）−ａ＋（ＡＶ）と（Ｂ
Ｌ）−ａ＋（ＡＶ）とが同じクラスターに属する。した
がって、（ＬＤ）−ａ＋（ＡＶ）の音響モデルを（Ｂ
Ｌ）−ａ＋（ＡＶ）の音響モデルに基づいて合成する。

【００７４】このようにして作成した音響モデルに基づ
くと、タスク依存型のテストにおいては、もともとの始
音および終音のトライフォンに基づいた隠れマルコフモ
デルと比較して、音声認識の動作には大きな影響はみら
れない。このような統合は、タスク非依存型のテストに
おいても、音声認識装置の特性を向上させるものであ
る。

【００７５】以上のようにして生成される、約４，６０
０個の分類された始音および終音のトライフォンは、数
百個の文によってカバーされ得るものであると考えられ
る。

【００７６】［探索アルゴリズム］（基本的な文セット抽出アルゴリズムの流れ）基本的な
音響単位の数と比べて、音声データベース中の文セット
の数が限られているとき、特に、上述したような中国語
のように音響環境の複雑な言語に対して音声データベー
スを作成するときは、結果として得られた文セットの中
に、存在しない音響単位ができてしまう可能性がある。

【００７７】そこで、さまざまな原典から集められた文
の母集団から、文セットを抽出するために、本発明にお
いては、上述した文献１中の式（１）で表わされる評価
関数（エントロピー）を、以下のように変更する。

【００７８】

【数４】

【００７９】式（２）において、ｐ_iは、文セット中に
現われるｉ番目の音響単位（すなわち、トライフォン
ｉ）（ｉ＝１〜Ｎ，Σｐ_i＝１）の相対出現頻度であ
る。αは、すべての音響単位の種類に対する、選択され
た文セットにおける未学習な音響単位の種類の割合であ
る。

【００８０】したがって、式（２）で表されるエントロ
ピーでは、各音響単位の出現頻度を均一にしようとする
傾向と、新しい音響単位を含ませようとする両方の傾向
を有しているような文の交換は、式（２）におけるエン
トロピー値を増加させる結果となる。

【００８１】図１は、この式（２）のエントロピーを最
大にするような文セット（文数Ｍ）を母集団（文数Ｎ）
から抽出する方法を示すフローチャートである。

【００８２】図１を参照して、文セットの探索処理が開
始されると（ステップＳ１００）、母集団からランダム
にＭ文抽出して、仮の文セットの子集団σとする（ステ
ップＳ１０２）。残りのＮ−Ｍ文の集合をΣとする。

【００８３】続いて、子集団σと集合Σから、それぞれ
ランダムに１文ずつ抽出する（ステップＳ１０４）。

【００８４】仮にこの２文を交換した場合の子集団σの
エントロピーＳ（σ）を計算する（ステップＳ１０
６）。

【００８５】もしも、交換によってＳ（σ）が増大する
場合には（ステップＳ１０８）、この２文を実際に交換
する（ステップＳ１１０）。一方、交換によってＳ
（σ）が増大しない場合には（ステップＳ１０８）、こ
の２文の交換は行なわない。

【００８６】さらに、上記のような仮の交換によっても
エントロピーＳ（σ）の変化が所定値以下であって、エ
ントロピーＳ（σ）が定常になったといえるのかの判断
を行ない（ステップＳ１１２）、定常でなければ処理は
ステップＳ１０４に復帰し、定常となったと判断されれ
ば処理が終了する（ステップＳ１１４）。

【００８７】言い換えると、上述したような文の子集合
と母集合とを用い、各回ごとに、それぞれの集合からの
１つずつの文がランダムに選択され、子集合に対する評
価関数（エントロピー）を、２つの文の仮の交換の前後
において計算をする。仮の交換の結果、子集合に対する
評価関数の値がより大きなものとなるのであれば、２つ
の文は実際に交換される。

【００８８】このアルゴリズムによれば、文セットのエ
ントロピーは単調に増大するので、繰返し回数に応じ
て、音素環境の出現頻度の均質化と未学習音響単位の発
生を抑制した文セットが得られる。

【００８９】［実験結果］以下では、実験結果について
説明する。

【００９０】実験に使用された文コーパスは以下のよう
なものである。文コーパスは、３１４，５７９の文から
なる原典から探索された。各文は、コンマあるいはより
高いレベルの休止符号によって分離されている。音響的
な変換規則に従って、これらの文をトライフォンに分割
すると、トライフォンの出現頻度は、約１，０００万回
となった。これは、各文ごとに３１．９個の音響単位が
平均として出現することに相当する。

【００９１】さらに、トライフォンの種類としては４，
３１９個となった。このような文コーパス中には、可能
なすべてのトライフォンである約４，６００個のものが
すべて現われているわけではないので、この４，３１９
個の音響単位をカバーするような適切な大きさの文セッ
トを探索することが必要となる。

【００９２】上述したような式（１）および式（２）に
それぞれ基づいた基準に従って、探索を行なった結果を
表１に示す。

【００９３】

【表１】

【００９４】２００文から１０００文まで変化する異な
ったサイズの子集合についてテストを行なうと、最終的
な文セットの候補としては、８００、９００ないし１，
０００センテンスが適当であることがわかった。

【００９５】表１に示すとおり、文の数の関数として、
エントロピーと、結果として得られた文セット中の未学
習音響単位の数とが示されている。ここで、Ｅｎｐ１
は、式（１）に基づく結果を表わし、Ｅｎｐ２は、式
（２）による結果を表わす。

【００９６】このような結果からは、式（２）に基づく
基準に従えば、式（１）に基づく場合に比べて、結果と
して得られた文セット中における未学習音響単位の数を
十分に低減できることがわかる。もちろんこの場合で
も、その未学習な音響単位を０にすることはできない
が、エントロピーの差はわずかである。たとえば、１，
０００個の文セットの場合をとってみると、未学習音響
単位の数は、相対的には７２．２％減少され、全体に対
する割合は１１．７％から３．２％まで減少している。
このとき、エントロピーは、わずかに相対的には０．５
７％減少しているのみである。

【００９７】以上説明したとおり、音響的にバランスの
とれた１，０００個の文セットが、４，１７９種類の分
類された文脈依存型トライフォンＩＦモデルをカバー
し、かつこれは、すべての可能な約４６００個のトライ
フォンのうちの約９０％に達することがわかった。

【００９８】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。

【００９９】

【発明の効果】以上説明したとおり、本発明によれば、
音声認識のための音声データベースにおいて、音素環境
の出現頻度の均質化と未学習音響単位の発生を抑制した
文セットを得ることができる。

【図面の簡単な説明】

【図１】エントロピーを最大にするような文セット
（文数Ｍ）を母集団（文数Ｎ）から抽出する方法を示す
フローチャートである。

【図２】中国語において、その音節およびその音節の
構成要素とその音素環境を説明するための図である。

【図３】本発明に係る始音の分類を示す図である。

【図４】本発明に係る終音の分類を示す図である。

【図５】複合した終音を、終音の終状態に基づくキャ
リーオーバー効果によって分類した結果を示す図であ
る。

【図６】終音の始状態に基づいたアンティシペーショ
ン効果に基づいた分類を示す図である。

【図７】本発明における文脈分類木の構成を説明する
ための概念図である。

【符号の説明】

Ｓエントロピー、σ 子集団、Σ 母集団からσを除
いた集合、ＬＤ唇歯音、ＡＶ歯茎音、ＲＴ反転
音、ＢＬ両唇音。

───────────────────────────────────────────────────── フロントページの続き (72)発明者松井知子京都府相楽郡精華町光台二丁目２番地２株式会社エイ・ティ・アール音声言語通信研究所内 (72)発明者中村哲京都府相楽郡精華町光台二丁目２番地２株式会社エイ・ティ・アール音声言語通信研究所内Ｆターム(参考） 5D015 BB02 GG00

Claims

【特許請求の範囲】

【請求項１】所定の言語の文セットの母集団からラン
ダムに、仮の文セットの子集団を抽出する第１のステッ
プと、前記子集団と前記母集団から前記子集団を除いた残余文
集合とから、それぞれランダムに１文ずつ抽出する第２
のステップと、前記子集団のエントロピーを、前記所定の言語の各音響
単位の出現頻度の均一化に応じて増大し、かつ、前記子
集団に含まれていない音響単位の減少に応じて増大する
関数として定義したとき、抽出された２文を仮に交換し
た場合の子集団のエントロピーを算出する第３のステッ
プと、仮交換によって前記エントロピーが増大する場合には、
前記抽出された２文を実際に交換する第４のステップ
と、前記仮交換に伴う前記エントロピーの変化が定常的にな
ったと判断されるまで、前記第２のステップから前記第
４のステップまでの処理を繰り返すステップとを備え
る、音声データベース用文セットの選択方法。
【請求項２】前記子集団のエントロピーＳは、前記子集団中に現われるｉ番目の音響単位（ｉ：自然
数，ｉ＝１〜Ｎ）の相対出現頻度をｐ_iとし、すべての
音響単位の種類に対する、前記子集団における未学習な
音響単位の種類の割合をαとするとき、【数１】である、請求項１記載の音声データベース用文セットの
選択方法。
【請求項３】前記所定の言語は、中国語であり、前記音響単位は、前記中国語の音節を構成する始音およ
び終音に基づくトライフォン音響モデルで表現される、
請求項１記載の音声データベース用文セットの選択方
法。
【請求項４】前記トライフォン音響モデルは、音響単位と、後続する前記音響単位に対する音響環境に
基づいて分類された第１の音韻群と、先行する前記音響
単位に対する音響環境に基づいて分類された第２の音韻
群とから構成され、前記第１の音韻群は、調音位置に基づいて分類された前記始音と、アンテシペーション効果に基づいて分類された前記終音
とを含み、前記第２の音韻群は、キャリーオーバー効果に基づいて分類された前記終音を
含む、請求項３記載の音声データベース用文セットの選
択方法。