JP2015084047A

JP2015084047A - 文集合作成装置、文集合作成方法および文集合作成プログラム

Info

Publication number: JP2015084047A
Application number: JP2013222597A
Authority: JP
Inventors: 雄介篠原; Yusuke Shinohara
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-10-25
Filing date: 2013-10-25
Publication date: 2015-04-30
Also published as: US20150120303A1

Abstract

【課題】少ない文数で大規模な文集合を効率的に作成可能とする。【解決手段】評点計算部が、頻度記憶部に記憶されている、第二の文集合における音響単位それぞれの出現頻度を参照して求めた、第一の文集合に含まれるいずれかの文を表す第一文に含まれる各音響単位の希少度と各音響単位の重要度から、第一文の評点を算出する。そして、文選択部が、第一の文集合に含まれる文の中から、評点が他の文より大きい文を優先して選択し、第二の文集合に追加する。【選択図】図３

Description

本発明の実施の形態は、文集合作成装置、文集合作成方法および文集合作成プログラムに関する。

音声処理技術開発の多くの場面において、文集合の作成が必要となる。例えば、音声認識システムを開発する場合、音声コーパスが必要となる。音声コーパスの収録は、音読を行う者（話者）が、予め作成された文集合の文を読み上げることで行う。また、音声合成においても同様で、開発に用いる音声コーパスを収録するためには、予め文集合の作成が必要となる。また、別の例では、音声認識または音声合成のシステムの話者適応を行う際にも、話者が読み上げる文の文集合を作成する必要がある。

ここで、例えば数百文から千文程度の小規模な文集合を作成する場合、希少度の高い音響単位を優先して収集することで、少ない文数で文集合を作成することができる。

しかし、例えばガウス混合モデル、またはディープニューラルネット等の統計的モデルを作成するためには、各音響単位について、より多くの出現頻度が求められる。また、例えば数千文から数万文、数十万文等の大規模な文集合が必要となる。

このような大規模な文集合を作成する際に、希少度の高い音響単位を優先して収集する技術を用いると、全ての音響単位をカバーした後も、希少度の高い音響単位が優先して収集される。この結果、実際には使用頻度が低い音響単位（重要ではない音響単位）が多く含まれる文集合が作成される問題がある。なお、使用頻度の低い音響単位を多く含む文は難読となり、読み上げミスが多発し、収録コストが増大する不都合を生ずる。

Ｊ．−Ｓ．ＺｈａｎｇａｎｄＳ．Ｎａｋａｍｕｒａ，"ＡｎＩｍｐｒｏｖｅｄＧｒｅｅｄｙＳｅａｒｃｈＡｌｇｏｒｉｔｈｍｆｏｒｔｈｅＤｅｖｅｌｏｐｍｅｎｔｏｆａＰｈｏｎｅｔｉｃａｌｌｙＲｉｃｈＳｐｅｅｃｈＣｏｒｐｕｓ，"ＩＥＩＣＥＴｒａｎｓ．ＩＮＦ．＆ＳＹＳＴ．，Ｖｏｌ．Ｅ９１−Ｄ，Ｎｏ．３，Ｍａｒｃｈ２００８．ｐｐ．６１５−６３０．

永野清仁著「基礎技術としての劣モジュラ最適化」オペレーションズ・リサーチ学会発行機関誌オペレーションズ・リサーチ２０１１年１月号ｐ．２７−３２

ＪｕｒｅＬｅｓｋｏｖｅｃ、ＡｎｄｒｅａｓＫｒａｕｓｅ、ＣａｒｌｏｓＧｕｅｓｔｒｉｎ、ＣｈｒｉｓｔｏｓＦａｌｏｕｔｓｏｓ、ＪｅａｎｎｅＶａｎＢｒｉｅｓｅｎ、ＮａｔａｌｉｅＧｌａｎｃｅ、’’Ｃｏｓｔ−ｅｆｆｅｃｔｉｖｅＯｕｔｂｒｅａｋＤｅｔｅｃｔｉｏｎｉｎＮｅｔｗｏｒｋｓ，’’ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ，Ｐａｇｅｓ４２０−４２９，２００７．

特開２００２−２６８６７２号公報

本発明が解決しようとする課題は、少ない文数で大規模な文集合を効率的に作成可能な文集合作成装置、文集合作成方法および文集合作成プログラムを提供することである。

実施の形態によれば、評点計算部が、頻度記憶部に記憶されている、第二の文集合における音響単位それぞれの出現頻度を参照して求めた、第一の文集合に含まれるいずれかの文を表す第一文に含まれる各音響単位の希少度と各音響単位の重要度から、第一文の評点を算出する。そして、文選択部が、第一の文集合に含まれる文の中から、評点が他の文より大きい文を優先して選択し、第二の文集合に追加する。

図１は、文集合の「良さ」を説明するための図である。図２は、実施の形態の文集合作成装置のハードウェア構成図である。図３は、実施の形態の文集合作成装置の機能ブロック図である。図４は、実施の形態の文集合作成装置の文集合作成動作を示すフローチャートである。図５は、実施の形態の文集合作成装置の重要度作成部における、第４手法となる重要度の設定の仕方を説明するための図である。

以下、文集合作成装置、文集合作成方法および文集合作成プログラムを適用した実施の形態を、図面を参照して詳細に説明する。

（実施の形態の原理）
文集合を作成する手法として、様々な音響単位を漏れなく含むように文集合を作成する手法がある。換言すると、音響単位のカバー率が高くなるように、文集合を作成する手法がある。また、様々な音響単位をバランス良く含むように文集合を作成する手法がある。さらに、所望の音響単位の分布に近づくように、文集合を作成する手法がある。いずれの手法も、例えば新聞、小説、ウェブページ等から収集した大規模な文集合から、最適な部分集合を抜き出すことで文集合を作成する。

様々な音響単位をバランス良く含むように文集合を作成する手法は、交換法を用いて目的関数を最大化する場合が多い。しかし、交換法は、計算量が多く、大規模な文集合の作成に適用するのは困難である。また、所望の音響単位の分布に近づくように文集合を作成する手法の多くは、ヒューリスティックな手法を用いている。このため、最適なアルゴリズムになっていない恐れがある。

様々な音響単位を漏れなく含むように文集合を作成する手法の場合、音響単位の出現頻度の逆数の総和に基づいて文を評点し、評点が高い文から順番に一文ずつ選択する「貪欲法」が用いられる。貪欲法を用いると、出現頻度の低い音響単位（＝希少度の高い音響単位）を効率的に収集できる。このため、少ない文数で全ての音響単位をカバーする文集合を作成できる。

貪欲法は、音声素片選択型の音声合成方式のように、全ての音響単位が最低１回、または、最低Ｎ回（例えば、Ｎ＝５）出現するように文集合を作成する際に用いることができる。貪欲法は、数百文から千文程度の小規模な文集合を作成するためには好適である。

しかし、例えばガウス混合モデル、またはディープニューラルネット等に基づく統計的モデルを作成する場合、各音響単位について、より多くの出現頻度が求められる。そして、数千文から数万文、数十万文の大規模な文集合が必要となる。このため、大規模な文集合を作成する際に貪欲法を用いると、全ての音響単位をカバーした後も、希少度の高い音響単位を優先して収集することで、実際には使用頻度が低い音響単位が多く含まれる文集合が作成される。換言すると、重要度の低い音響単位が多く含まれる文集合が作成される。なお、使用頻度の低い音響単位を多く含む文は難読であり、読み上げミスが多発し、収録コストが増大する不都合を生ずる。

実施の形態の文集合作成装置は、音響単位の希少度（出現頻度の逆数）と音響単位の重要度とを考慮することにより、重要かつ希少な音響単位を多く含む文集合を効率的に作成可能となっている。以下、実施の形態の文集合作成装置を具体的に説明する。まず、音響単位を定義する。次に、説明において用いる記法を定義する。次に、文集合の「良さ」を表す目的関数を定義し、この目的関数を最大化する文集合を求める問題として、文集合作成問題を定式化する。次に、この目的関数を最大化するアルゴリズムを導出する。最後に、実施の形態の文集合作成装置によって得られる効果について説明する。

（音響単位の定義）
実施の形態の文集合作成装置で用いる音響単位としては、例えば文脈非依存の音素（context-independent phonemes）を用いることができる。または、音響単位として、文脈依存音素（context-dependent phonemes）を用いることができる。文脈依存音素としては、例えば二音素の連鎖であるダイフォン（diphones）、または、三音素の連鎖であるトライフォン（triphones）等を用いることができる。

また、音声合成への応用を図る場合、多様なアクセントを含む文集合を作成するために、同じ音素（例えばダイフォン）であっても、アクセント（stress）が異なる場合には、別の音響単位として扱うことが望ましい。さらに別の例として、セノン（senone）、すなわちコンテキストクラスタリングされた隠れマルコフモデルの状態（context-clustered states of hidden Markov models）を、音響単位としてもよい。

（記法の定義）
実施の形態の文集合作成装置の原理の説明においては、下記の記法（notation）を用いることとする。
第一の文集合：Ｕ＝｛１，…，ｎ｝
第一の文集合に含まれる文数：ｎ
第二の文集合：Ｓ⊆Ｕ
全種類の音響単位の集合：Ｐ＝｛１，…，ｍ｝
音響単位の種類の数：ｍ
所望の音響単位の分布：π＝（π＿１，…，π＿ｍ）
第ｉ番目の音響単位の出現確率：π＿ｉ（ｉ＝１，…，ｍ；Σ＿ｉ π＿ｉ＝１）
第二の文集合Ｓにおける第ｉ番目の音響単位の出現頻度：ｆ＿ｉ（Ｓ）（ｉ＝１，…，ｍ）
第二の文集合Ｓにおける音響単位の総出現頻度：ｆ＿Ｔ（Ｓ）
ｆ＿Ｔ（Ｓ）＝Σ＿ｉ＝１＾ｍｆ＿ｉ（Ｓ）
第二の文集合Ｓにおける第ｉ番目の音響単位の出現確率：ｐ＿ｉ（Ｓ）（ｉ＝１，…，ｍ）
ｐ＿ｉ（Ｓ）＝ｆ＿ｉ（Ｓ）／ｆ＿Ｔ（Ｓ）
第二の文集合Ｓの音響単位の分布：ｐ＝（ｐ＿１，…，ｐ＿ｍ）

（目的関数の定義）
文集合作成問題を、文数の上限が与えられたときに、文集合Ｓの「良さ」を表す集合関数Ｊ（Ｓ）を最大化するＳを求める問題として定式化する。すなわち、文数の上限をＢとおくとき、｜Ｓ｜≦ＢのもとでＪ（Ｓ）を最大化するＳ⊆Ｕを求める問題について考える。実施の形態の文集合作成装置においては、第二の文集合Ｓの「良さ」を表す目的関数Ｊ（Ｓ）を次式により定義する。

Ｊ（Ｓ）＝Σ＿ｉ＝１＾ｍ π＿ｉｌｏｇｆ＿ｉ（Ｓ）

実施の形態の文集合作成装置において、各音響単位（ｉ＝１，…，ｍ）について、音響単位の出現頻度の対数値に対して線形に増加するように目的関数が設計されている。これは、音声言語情報処理の多くの研究において、データ量の対数値と性能（音声認識率やパープレキシティ等）との関係が線形近似できることから、一例としてこのような設計としたものである。また、音響単位の出現確率π＿ｉによって重み付け和をとっている。これは、所望の音響単位の分布πに従って期待値をとることに相当する。

（アルゴリズムの導出）
次に、前述の目的関数Ｊ（Ｓ）を｜Ｓ｜≦Ｂの制約のもとで最大化する問題を解くアルゴリズムを導出する。

Ｊ（Ｓ）を最大化する問題は、組み合わせ最適化問題であり、多項式時間のアルゴリズムで厳密な解を求めることは困難である（ＮＰ困難）。このため、Ｊ（Ｓ）を近似的に最大化するようなＳを求めることを考える。以下、まず、Ｊ（Ｓ）が劣モジュラ性と呼ばれる性質を持つことを示す。次に、劣モジュラ性を持つ集合関数を効率的に最大化する方法（貪欲法）を用いて、上述の文集合作成問題を効率的に解けることを説明する。

まず、劣モジュラ性の定義について説明する。いま、Ｓ⊆Ｔ⊆Ｕの関係を満たす集合Ｓ，Ｔ，Ｕがあるとする。任意のｓ∈Ｕ＼Ｔに対して、集合関数Ｊが次の不等式を満たすとき、Ｊは劣モジュラ性を持つという。ただし、Ｕ＼Ｔは、ＵからＴを引いた差集合（ｄｉｆｆｅｒｅｎｃｅｓｅｔ）である。

Ｊ（Ｓ∪｛ｓ｝）−Ｊ（Ｓ）≧Ｊ（Ｔ∪｛ｓ｝）−Ｊ（Ｔ）

次に、前述の目的関数Ｊ（Ｓ）が、劣モジュラ性を持つことを示す。前述の記法で定義した文集合Ｕ，Ｓに加えて、Ｓ⊆Ｔを満たす文集合Ｔを新たに導入する。文ｓ∈Ｕ＼Ｔのみからなる文集合｛ｓ｝を考える。このとき、Ｊ（Ｓ）の定義より、次式のようになる。

｛Ｊ（Ｓ∪｛ｓ｝）−Ｊ（Ｓ）｝−｛Ｊ（Ｔ∪｛ｓ｝）−Ｊ（Ｔ）｝
＝Σ＿ｉ＝１＾ｍ π＿ｉ*｛ｌｏｇｆ＿ｉ（Ｓ∪｛ｓ｝）−ｌｏｇｆ＿ｉ（Ｓ）−ｌｏｇｆ＿ｉ（Ｔ∪｛ｓ｝）＋ｌｏｇｆ＿ｉ（Ｔ）｝

ここで、対数関数は、０＜ｘ≦ｙ，０≦ｄを満たす実数ｘ，ｙ，ｄに対して、以下の不等式を満たすことを利用する。

ｌｏｇ（ｘ＋ｄ）−ｌｏｇ（ｘ）≧ｌｏｇ（ｙ＋ｄ）−ｌｏｇ（ｙ）

すなわち、全てのｉについて、ｘ＝ｆ＿ｉ（Ｓ）、ｙ＝ｆ＿ｉ（Ｔ）、ｄ＝ｆ＿ｉ（Ｓ∪｛ｓ｝）−ｆ＿ｉ（Ｓ）＝ｆ＿ｉ（Ｔ∪｛ｓ｝）−ｆ＿ｉ（Ｔ）＝ｆ＿ｉ（｛ｓ｝）とおけば、前述の関係式、つまり０＜ｘ≦ｙ、０≦ｄを満たすため、次式のようになる。

ｌｏｇｆ＿ｉ（Ｓ∪｛ｓ｝）−ｌｏｇｆ＿ｉ（Ｓ）≧ｌｏｇｆ＿ｉ（Ｔ∪｛ｓ｝）＋ｌｏｇｆ＿ｉ（Ｔ）

これにより、次式の結果を得ることができ、Ｊ（Ｓ）が劣モジュラ性を持つことがわかる。

｛Ｊ（Ｓ∪｛ｓ｝）−Ｊ（Ｓ）｝−｛Ｊ（Ｔ∪｛ｓ｝）−Ｊ（Ｔ）｝≧０

劣モジュラ性を持つ集合関数Ｊ（Ｓ）を、集合Ｓのサイズに関する制約｜Ｓ｜≦Ｂのもとで最大化する問題、すなわち、「Ｓ^*＝ａｒｇｍａｘ＿｜Ｓ｜≦ＢＪ（Ｓ）」の「Ｓ^*⊆Ｕ」は、貪欲法（greedy algorithm）によって効率的求めることができる。非特許文献２によれば、貪欲法は、理論的に準最適（near-optimal）であることが証明されている。すなわち、貪欲法を超える性能を達成できる多項式時間アルゴリズムの開発は困難となっている。

貪欲法とは、Ｓが空集合の状態、すなわちＳ＝Φからスタートして、各イタレーションにおいて、Ｊ（Ｓ∪｛ｓ｝）を最大にするｓ∈Ｕ＼Ｓを選択し、Ｓ←Ｓ∪｛ｓ｝とするアルゴリズムである。擬似コードにすると、以下のようになる。

Ｉｎｐｕｔ：Ｕ、Ｂ
Ｓ←Φ
Ｗｈｉｌｅ｜Ｓ｜＜Ｂ
ｓ^*←ａｒｇｍａｘ＿ｓ∈Ｕ＼ＳＪ（Ｓ∪｛ｓ｝）
Ｓ←Ｓ∪ｓ^*
Ｏｕｔｐｕｔ：Ｓ

ここで、この擬似コードをもう少し効率的に実行する方法について説明する。文集合Ｓに、文ｓ∈Ｕ＼Ｓを追加したときの目的関数の増分を、以下の（１）の数式としておくと、以下の（２）の数式となる。

Δｘ＜＜ｘのとき、以下の（３）の数式で示される近似が成り立つ。

各音響単位の出現頻度の増分が、元の音響単位の出現頻度と比べて十分に小さいと仮定して、以下の（４）の近似式で、δ＿ｓ（Ｓ）を算出することができる。

すなわち、文ｓを追加したときの目的関数の増分δ＿ｓ（Ｓ）は、文ｓを構成する各音響単位について、当該音響単位の重要度（π＿ｉ）と、当該音響単位の出現頻度の逆数（１／ｆ＿ｉ（Ｓ））との積を算出し、その総和によって算出できる。上述の擬似コードの各イタレーションにおいて「ｓ」を選択する際、最も目的関数の増分が大きくなる「ｓ」を選択する。すなわち、次式とすることで、より効率的に貪欲法を実行可能とすることができる。

ｓ^*←ａｒｇｍａｘ＿ｓ∈Ｕ＼Ｓ δ＿ｓ（Ｓ）

（実施の形態の効果の例）
所望の音響単位の分布およびコストの上限（例：文数の上限）が与えられたときに、前述の目的関数およびアルゴリズムを用いることによって、所望の音響単位の分布との「距離」が最少となるような文集合を作成できることを説明する。ただし、分布と分布の間の「距離」は、カルバック・ライブラー・ダイバージェンス（Kullback-Leibler divergence、以後、ＫＬダイバージェンスという）で測るものとする。

すなわち、｜Ｓ｜≦Ｂなる制約のもとで、前述の目的関数Ｊ（Ｓ）を最大化することと、所与の音響単位の分布πとＳの音響単位の分布ｐ（Ｓ）の間のＫＬダイバージェンスＤ（π｜｜ｐ）を最小化することが、等価であることを示す。

以下では、まず「文集合の良さは、文集合の“大きさ”から、文集合の“偏り”を引き去ったものである」ことを示す。次に、ＫＬダイバージェンスを最小化するアルゴリズムと等価になっていることを説明する。

まず、文集合の“偏り”について説明する。ここでいう“偏り”とは、所望の音響単位の分布πと、文集合Ｓの音響単位の分布ｐ（Ｓ）の間のギャップのことを指す。具体的には、以下の（５）の数式で示される、πとｐ（Ｓ）の間のＫＬダイバージェンスがデータの偏りである。

ここで、ｐ＿ｉ（Ｓ）の定義式を代入すると、以下の（６）の数式となる。

また、（６）の数式を辺々整理すると、以下の（７）の数式となる。

各項は、以下のことを意味している。

Ｊ（Ｓ）：文集合Ｓの「良さ」
ｌｏｇｆ＿Ｔ（Ｓ）：文集合Ｓの「大きさ」
Ｄ＿ＫＬ（π｜｜ｐ（Ｓ））：文集合の「偏り」

文集合の「良さ」は、文集合の「大きさ」から、文集合の「偏り」を引き去ったものである」と言うことができる。すなわち、文集合は大きいほど、また「偏り」が小さいほど、価値が高い。例えば、図１の（ａ）の符号を付した図に示すように、大きな文集合であっても、「偏り」が大きな文集合は、価値が低い。しかし、図１の（ｂ）の符号を付した図に示すように、小さな文集合であっても、偏りが小さな文集合は、価値が高くなる。これが文集合の「良さ」である。

前述のアルゴリズムは、｜Ｓ｜≦Ｂを満たす文集合Ｓの中で、Ｊ（Ｓ）を最大にするＳを求めるものであった。Ｊ（Ｓ）が最大値をとるのは、｜Ｓ｜＝Ｂのときである。ここで、Ｕに含まれる各文の長さ（音響単位の列の長さ）が一定だと仮定し、その音響単位の列長をＬとおくと、｜Ｓ｜＝Ｂなる条件は、ｌｏｇｆ＿Ｔ（Ｓ）＝Ｂ’なる条件に書きかえられる。ただし、Ｂ’＝ｌｏｇ（ＢＬ）である。

従って、前述のアルゴリズムは、所与の文集合の「大きさ」において、文集合の「良さ」を最大化する方法であるといえる。換言すれば、前述のアルゴリズムは、文集合の「偏り」を最小化する方法であると言える。すなわち、実施の形態の文集合作成装置を用いれば、所与の音響単位の分布πと文集合の音響単位の分布ｐ（Ｓ）の間のＫＬダイバージェンスを最小化する文集合を作成できる。

なお、「Ｕの各文の長さが一定である」という仮定で説明したが、多くの応用においてこの仮定は妥当である。例えば、音声コーパスを収録する際に読み上げさせる文集合を作成することを考えた場合、文の長さが一定の範囲に収まる（略々長さが等しい）文のみから文集合Ｕを作成することが多い。また、Ｕの各文の長さがバラバラの場合でも、前述の議論と略々同様の議論で、ＫＬダイバージェンスを最小化する文集合を作成できる。

（実施の形態の具現化）
次に、あくまでも一例ではあるが、このような実施の形態の文集合作成装置は、通常のパーソナルコンピュータ装置と同等のハードウェア構成で実現することができる。図２は、文集合作成装置のハードウェア構成図である。この図２に示すように、文集合作成装置は、ＣＰＵ１と、ＲＯＭ２と、ＲＡＭ３と、ハードディスクドライブ（ＨＤＤ）４と、入出力インターフェイス（Ｉ／Ｆ）５と、通信Ｉ／Ｆ６とを有する。ＣＰＵ１は、「Central Processing Unit」の略記である。ＲＯＭは、「Read Only Memory」の略記である。ＲＡＭは、「Random Access Memory」の略記である。ＣＰＵ１、ＲＯＭ２、ＲＡＭ３、ＨＤＤ４入出力Ｉ／Ｆ５および通信Ｉ／Ｆ６は、バスライン７で互いに通信可能に接続されている。

ＣＰＵ１は、ＲＯＭ２、ＲＡＭ３またはＨＤＤ４等の記憶部に予め記憶される文集合作成プログラムに従い、ＲＡＭ３等をワークメモリとして用いて動作し、文集合作成装置全体の動作を制御する。なお、図２に示す例は、ＨＤＤ５に文集合作成プログラムが記憶された例を示している。文集合作成プログラムは、所定のネットワーク上のコンピュータ装置から、ネットワーク経由でダウンロードしてもよい。また、これに限らず、文集合作成プログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ、ＤＶＤ等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。

図３は、文集合作成装置の機能ブロック図である。この図３に示す各機能は、文集合作成プログラムのみでソフトウェア的に実現してもよいし、ソフトウェアおよびハードウェアで実現してもよいし、ハードウェアのみで実現してもよい。図３に示すように、文集合作成装置は、第一の文集合を記憶する第一文集合記憶部１１と、第二の文集合を記憶する第二文集合記憶部１２とを備えている。

また、文集合作成装置は、各音響単位の重要度を示す重要度情報を作成する重要度作成部１３と、各音響単位の重要度情報を記憶する重要度記憶部１４と、第二の文集合における各音響単位の出現頻度を算出する頻度計算部１５とを備えている。また、文集合作成装置は、算出された音響単位の出現頻度を記憶する頻度記憶部１６と、第一の文集合に含まれる文を評点する文評点部１７とを備えている。また、文集合作成装置は、算出された評点を記憶する文評点記憶部１８と、最も高い評点を有する一文を第一の文集合から選択して第二の文集合に追加する文選択部１９とを備えている。文評点部１７は、評点計算部の一例である。

第一文集合記憶部１１には、元となるデータセットである第一の文集合が記憶されている。文集合作成装置は、第一の文集合から一以上の文を選択し、第二の文集合に追加することによって、文集合を作成する。つまり、第一の文集合から部分集合（subset）を抽出して、第二の文集合に追加する。第一の文集合としては、例えば、新聞、小説、ウェブページ等から収集した文の集合を用いることができる。

第二文集合記憶部１２は、第二の文集合を記憶する。第二の文集合は、典型的には空集合として初期化される。別の例を挙げれば、現在保有する音声コーパスに含まれる文の集合を、第二の文集合の初期値として用いることもできる。第二の文集合は、何等かの方法で（例えば空集合として）初期化された後、第一の文集合から選択された一以上の文が追加され、その結果得られた文集合が文集合作成装置からの出力となる。

本実施の形態における「文（sentence）」とは、例えば、「あらゆる現実を全て自分のほうへねじ曲げたのだ」のような文字列である。この文字列は、各単語の発音（音響単位の列）を定義する発音辞書を使って、音響単位の列に変換することができる。すなわち、例示した文の場合、「ａｒａｙｕｒｕｇｅ…」という音響単位の列に変換することができる。

または、音響単位として、文脈依存の音素（context-dependent phonemes）を使うこともできる。文脈依存音素のうち、例えばトライフォン（triphones）を用いる場合には、「ａ＋ｒａ−ｒ＋ａｒ−ａ＋ｙａ−ｙ＋ｕｙ−ｕ＋ｒｕ−ｒ＋ｕｒ−ｕ＋ｇｕ−ｇ＋ｅｇ−ｅ＋Ｎ …」という音響単位の列に変換される。

なお、以後の説明のため、音響単位の種類の数を「ｍ」とおく。日本語において、音響単位として文脈非依存音素を用いる場合、「ｍ」の値は５０程度となる。また、トライフォンを用いる場合、「ｍ」の値は５０００程度となる。

頻度計算部１５は、第二の文集合に含まれる各音響単位の出現頻度を算出する。頻度記憶部１６は、各音響単位の出現頻度を示す情報を記憶する。すなわち、頻度計算部１５は、ｍ個の各音響単位について、第二の文集合の中で出現した回数をそれぞれカウントする。頻度記憶部１６は、ｍ個の各音響単位に対する、第二の文集合中の出現頻度を示す情報を記憶する。

重要度記憶部１４は、重要度作成部１３で作成されたｍ個の音響単位に対する重要度を示す情報を記憶する。重要度作成部１３は、例えば以下に説明する第１手法〜第４手法のいずれかの手法を用いて音響単位の重要度を設定する。

まず、第１手法としては、重要度作成部１３が、全ての音響単位について等しい音響単位の重要度（例えば、１．０）を設定する。このような音響単位の重要度を用いることは、上述の原理説明における「所望の音響単位の分布π」を一様分布に設定することと等価である。また、上述の非特許文献１と同様な方法となる。この第１手法の場合、希少度は高いが重要ではない（一般的な文で使用頻度の低い）音響単位ばかりを多く含む文集合となるおそれがある。

次に、第２手法としては、新聞、小説、ウェブページ等の様々なジャンルから偏りなく収集した文集合に対して、重要度作成部１３が、各音響単位の出現頻度を算出する。重要度作成部１３は、算出した各音響単位の出現頻度を、各音響単位の重要度として設定する。ただし、音響単位の出現頻度を重要度とすると、出現頻度が高い音響単位ばかりを多く含む文集合が作成され、出現頻度が極端に少ない音響単位が発生するおそれがある。

次に、第３手法としては、重要度作成部１３が、適当な文集合から各音響単位の出現頻度を算出する。そして、重要度作成部１３が、音響単位の出現頻度が高いほど音響単位の重要度が高くなるように設定する（出現頻度に応じた重要度を設定する）。この場合、まず、上述の第２手法と同様に、様々なジャンルから収集した文集合から各音響単位の出現頻度を求める。次に、この出現頻度を、単調増加関数「ｇ」で変換した値を音響単位の重要度とする。例えば、「ｇ」として、上に凸の単調増加関数（対数関数等）を用いることができる。このようにすると、一般的な文で頻繁に使用する音響単位ほど高い重要度が付与されるが、第２手法と比べると、希少度の高い音響単位も程よく含まれ、バランスの良い文集合を作成できる。

次に、第４手法としては、まず、上述の第２手法と同様に、重要度作成部１３が、一般的な文からなる適当な文集合から各音響単位の出現頻度を算出し、図５の（ａ）の符号を付した図に示すように各音響単位分布を求める。次に、重要度作成部１３が、文集合から求めた音響単位分布を、図５の（ｂ）の符号を付した図に示す一様な音響単位分布で補間処理する。この補間処理により、例えば図５の（ｃ）の符号を付した図に示す補間処置後の音響単位分布を得ることができる。重要度作成部１３は、補間処置後の音響単位分布における、各音響単位の出現確率を音響単位の重要度とする。

このような第４手法において、一様な音響単位分布で補間しない場合、第２手法のように、重要な（一般的な文での出現頻度が高い）音響単位ばかりが集まってしまう。また、一様な音響単位分布のみを用いると、第１手法のように、希少度の高い音響単位ばかりが集まってしまう。これに対して、第４手法の場合、一般的な文の文集合から求めた各音響単位の出現頻度の音響単位分布を、一様な音響単位分布で補間しているため、重要度が高くかつ希少度も高い音響単位を多く含む文集合を作成できる。

次に、文評点部１７は、第一の文集合に含まれる文を評点する。具体的には、文評点部１７は、頻度記憶部１６に記憶された音響単位の出現頻度と、重要度記憶部１４に記憶された音響単位の重要度とを参照し、第一の文集合の中から与えられた任意の一文に対する評点を算出する。

具体的には、文評点部１７は、まず、第一の文集合の中から与えられた任意の一文の音響単位の列に含まれる各音響単位について、音響単位の重要度と希少度との積を算出する。なお、一例ではあるが、希少度としては、音響単位の出現頻度の逆数を用いることができる。そして、文評点部１７は、それらの積の総和を、第一の文集合の中から与えられた任意の一文の評点とする。文評点記憶部１８は、文評点部１７が算出した評点を記憶する。

この評点の演算式は、以下のとおりである。第一の文集合の中から与えられた任意の一文の音響単位の列の長さを「Ｋ」とおく。第ｋ番目の音響単位の識別番号（ID：identifier）を「ｉ（ｋ）」とする（ｋ＝１，…，Ｋ；ｉ∈｛１，…，ｍ｝）。識別番号ｉの音響単位について、音響単位の重要度をπ＿ｉ、音響単位の出現頻度をｆ＿ｉとする。この時、第一の文集合の中から与えられた任意の一文の評点は次式により算出される。

Ｓｃｏｒｅ＝Σ＿｛ｋ＝１｝＾Ｋπ＿ｉ（ｋ）＊（１／ｆ＿ｉ（ｋ））

文評点記憶部１８は、第一の文集合に含まれる各文について、文評点部１７で算出された評点を示す情報を記憶する。

文選択部１９は、文評点記憶部１８を参照し、評点が他の文より高い文を優先的に選択し、第二の文集合記憶部１２に記憶される第二の文集合へ追加する。一例として、文選択部１９は、評点が閾値以上の文を選択する。または、文選択部１９は、評点が最大の文を選択する。

（実施の形態の動作）
次に、図４に、実施の形態の文集合作成装置の動作のフローチャートを示す。この図４のフローチャートにおいて、ステップＳ１では、第一の文集合を初期化する。例えば、新聞、小説、ウェブページ等から収集した文の集合を、第一の文集合として用いることができる。

次に、ステップＳ２において、第二の文集合を初期化する。例えば、第二の文集合の初期値として空集合を用いることができる。

次に、ステップＳ３において、音響単位の重要度を初期化する。例えば、全ての音響単位について等しい値（例：１．０）をセットする。

次に、ステップＳ４において、頻度計算部１５が、第二の文集合に含まれる各音響単位の出現頻度を算出し、この出現頻度を示す情報を頻度記憶部１６に保存する。

次に、ステップＳ５において、文評点部１７が、第一の文集合に含まれる文の各々を評点し、各評点を示す情報を文評点記憶部１８に記憶する。

次に、ステップＳ６において、文選択部１９が文評点記憶部１８を参照し、最も高い評点を有する一文を第一の文集合から選択し、第二の文集合に追加する。文選択部１９は、選択した文を、第一の文集合記憶部１１から削除する。

次に、ステップＳ７において、終了条件を満たしているか否かを判別する。終了条件を満たしている場合（ステップＳ７：Ｙｅｓ）、処理がステップＳ８に進む。終了条件を満たしていない場合（ステップＳ７：Ｎｏ）、処理がステップＳ４に戻る。例えば、所定数の文が選択された場合を、終了条件としてもよい。または、第二の文集合に含まれる音響単位の出現頻度の総和が、所定の値を超えた場合を終了条件としてもよい。

最後に、ステップＳ８において、第二文集合記憶部１２に記憶された文集合を、外部に出力する。

以上の説明から明らかなように、実施の形態の文集合作成装置は、音響単位の希少度と音響単位の重要度とを考慮することにより、重要かつ希少な音響単位を多く含む文集合を効率的に作成することができる。

（実施の形態の変形例）
上述の実施の形態の文集合作成装置では、「貪欲法」を用いることとした。この貪欲法の代わりに、非特許文献３に記載されている「高速貪欲法」を用いてもよい。

この非特許文献３の記載からわかるように、高速貪欲法を用いることで、単純な貪欲法と比べて約７００倍、センサを設置する場所を高速に選択可能とすることができる。このため、実施の形態の文集合作成装置において、貪欲法のかわりに高速貪欲法を用いることで、文集合の作成時間を大幅に短縮化することができる（文集合を超高速で作成可能とすることができる）。

以上、本発明の実施の形態を説明したが、各実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。各実施の形態およびその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１ＣＰＵ
２ＲＯＭ
３ＲＡＭ
４ＨＤＤ
５入出力Ｉ／Ｆ
６通信Ｉ／Ｆ
７バスライン
１１第一の文集合記憶部
１２第二の文集合記憶部
１３重要度作成部
１４重要度記憶部
１５頻度計算部
１６頻度記憶部
１７文評点部
１８文評点記憶部
１９文選択部

Claims

第一の文集合を記憶する第一文集合記憶部と、
第二の文集合を記憶する第二文集合記憶部と、
複数の音響単位それぞれの重要度を記憶する重要度記憶部と、
前記第二の文集合における前記音響単位それぞれの出現頻度を記憶する頻度記憶部と、
前記第一の文集合に含まれるいずれかの文を表す第一文に含まれる各音響単位の前記出現頻度に対応する希少度と各音響単位の重要度から前記第一文の評点を算出する評点計算部と、
前記第一の文集合に含まれる文の中から、前記評点が他の文より大きい文を優先して選択し、選択した文を、前記第二文集合記憶部に記憶される前記第二の文集合に追加する文選択部と
を有する文集合作成装置。
前記希少度は、前記音響単位の出現頻度が低いほど大きな値となること
を特徴とする請求項１に記載の文集合作成装置。
前記希少度は、前記音響単位の出現頻度の逆数であること
を特徴とする請求項１または請求項２に記載の文集合作成装置。
前記重要度記憶部は、文集合の各音響単位の出現頻度に対応する音響単位分布を、一様な音響単位分布で補間処理した音響単位分布における音響単位の出現確率を、前記音響単位の重要度として記憶していること
を特徴とする請求項１から請求項３のうち、いずれか一項に記載の文集合作成装置。
前記音響単位は、文脈非依存の音素、文脈依存音素、またはコンテキストクラスタリングされた隠れマルコフモデルの状態の音響単位であること
を特徴とする請求項１から請求項４のうち、いずれか一項に記載の文集合作成装置。
評点計算部が、頻度記憶部に記憶されている、第二の文集合における音響単位それぞれの出現頻度を参照して求めた、第一の文集合に含まれるいずれかの文を表す第一文に含まれる各音響単位の希少度と各音響単位の重要度から、前記第一文の評点を算出する評点計算ステップと、
文選択部が、前記第一の文集合に含まれる文の中から、前記評点が他の文より大きい文を優先して選択し、前記第二の文集合に追加する文選択ステップと
を有する文集合作成方法。
コンピュータを、
頻度記憶部に記憶されている、第二の文集合における音響単位それぞれの出現頻度を参照して求めた、第一の文集合に含まれるいずれかの文を表す第一文に含まれる各音響単位の希少度と各音響単位の重要度から、前記第一文の評点を算出する評点計算部と、
前記第一の文集合に含まれる文の中から、前記評点が他の文より大きい文を優先して選択し、前記第二の文集合に追加する文選択部
として機能させる文集合作成プログラム。