JP2015084047A - 文集合作成装置、文集合作成方法および文集合作成プログラム - Google Patents
文集合作成装置、文集合作成方法および文集合作成プログラム Download PDFInfo
- Publication number
- JP2015084047A JP2015084047A JP2013222597A JP2013222597A JP2015084047A JP 2015084047 A JP2015084047 A JP 2015084047A JP 2013222597 A JP2013222597 A JP 2013222597A JP 2013222597 A JP2013222597 A JP 2013222597A JP 2015084047 A JP2015084047 A JP 2015084047A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sentence set
- unit
- acoustic
- acoustic unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 54
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000009826 distribution Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 24
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 101100328887 Caenorhabditis elegans col-34 gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【課題】少ない文数で大規模な文集合を効率的に作成可能とする。【解決手段】評点計算部が、頻度記憶部に記憶されている、第二の文集合における音響単位それぞれの出現頻度を参照して求めた、第一の文集合に含まれるいずれかの文を表す第一文に含まれる各音響単位の希少度と各音響単位の重要度から、第一文の評点を算出する。そして、文選択部が、第一の文集合に含まれる文の中から、評点が他の文より大きい文を優先して選択し、第二の文集合に追加する。【選択図】図3
Description
本発明の実施の形態は、文集合作成装置、文集合作成方法および文集合作成プログラムに関する。
音声処理技術開発の多くの場面において、文集合の作成が必要となる。例えば、音声認識システムを開発する場合、音声コーパスが必要となる。音声コーパスの収録は、音読を行う者(話者)が、予め作成された文集合の文を読み上げることで行う。また、音声合成においても同様で、開発に用いる音声コーパスを収録するためには、予め文集合の作成が必要となる。また、別の例では、音声認識または音声合成のシステムの話者適応を行う際にも、話者が読み上げる文の文集合を作成する必要がある。
ここで、例えば数百文から千文程度の小規模な文集合を作成する場合、希少度の高い音響単位を優先して収集することで、少ない文数で文集合を作成することができる。
しかし、例えばガウス混合モデル、またはディープニューラルネット等の統計的モデルを作成するためには、各音響単位について、より多くの出現頻度が求められる。また、例えば数千文から数万文、数十万文等の大規模な文集合が必要となる。
このような大規模な文集合を作成する際に、希少度の高い音響単位を優先して収集する技術を用いると、全ての音響単位をカバーした後も、希少度の高い音響単位が優先して収集される。この結果、実際には使用頻度が低い音響単位(重要ではない音響単位)が多く含まれる文集合が作成される問題がある。なお、使用頻度の低い音響単位を多く含む文は難読となり、読み上げミスが多発し、収録コストが増大する不都合を生ずる。
J.−S.Zhang and S.Nakamura,"An Improved Greedy Search Algorithm for the Development of a Phonetically Rich Speech Corpus,"IEICE Trans.INF.&SYST.,Vol.E91−D,No.3,March 2008. pp.615−630.
永野清仁著「基礎技術としての劣モジュラ最適化」 オペレーションズ・リサーチ学会発行 機関誌オペレーションズ・リサーチ 2011年1月号 p.27−32
Jure Leskovec、Andreas Krause、Carlos Guestrin、Christos Faloutsos、Jeanne VanBriesen、Natalie Glance、’’Cost−effective Outbreak Detection in Networks,’’in Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Pages420−429,2007.
本発明が解決しようとする課題は、少ない文数で大規模な文集合を効率的に作成可能な文集合作成装置、文集合作成方法および文集合作成プログラムを提供することである。
実施の形態によれば、評点計算部が、頻度記憶部に記憶されている、第二の文集合における音響単位それぞれの出現頻度を参照して求めた、第一の文集合に含まれるいずれかの文を表す第一文に含まれる各音響単位の希少度と各音響単位の重要度から、第一文の評点を算出する。そして、文選択部が、第一の文集合に含まれる文の中から、評点が他の文より大きい文を優先して選択し、第二の文集合に追加する。
以下、文集合作成装置、文集合作成方法および文集合作成プログラムを適用した実施の形態を、図面を参照して詳細に説明する。
(実施の形態の原理)
文集合を作成する手法として、様々な音響単位を漏れなく含むように文集合を作成する手法がある。換言すると、音響単位のカバー率が高くなるように、文集合を作成する手法がある。また、様々な音響単位をバランス良く含むように文集合を作成する手法がある。さらに、所望の音響単位の分布に近づくように、文集合を作成する手法がある。いずれの手法も、例えば新聞、小説、ウェブページ等から収集した大規模な文集合から、最適な部分集合を抜き出すことで文集合を作成する。
文集合を作成する手法として、様々な音響単位を漏れなく含むように文集合を作成する手法がある。換言すると、音響単位のカバー率が高くなるように、文集合を作成する手法がある。また、様々な音響単位をバランス良く含むように文集合を作成する手法がある。さらに、所望の音響単位の分布に近づくように、文集合を作成する手法がある。いずれの手法も、例えば新聞、小説、ウェブページ等から収集した大規模な文集合から、最適な部分集合を抜き出すことで文集合を作成する。
様々な音響単位をバランス良く含むように文集合を作成する手法は、交換法を用いて目的関数を最大化する場合が多い。しかし、交換法は、計算量が多く、大規模な文集合の作成に適用するのは困難である。また、所望の音響単位の分布に近づくように文集合を作成する手法の多くは、ヒューリスティックな手法を用いている。このため、最適なアルゴリズムになっていない恐れがある。
様々な音響単位を漏れなく含むように文集合を作成する手法の場合、音響単位の出現頻度の逆数の総和に基づいて文を評点し、評点が高い文から順番に一文ずつ選択する「貪欲法」が用いられる。貪欲法を用いると、出現頻度の低い音響単位(=希少度の高い音響単位)を効率的に収集できる。このため、少ない文数で全ての音響単位をカバーする文集合を作成できる。
貪欲法は、音声素片選択型の音声合成方式のように、全ての音響単位が最低1回、または、最低N回(例えば、N=5)出現するように文集合を作成する際に用いることができる。貪欲法は、数百文から千文程度の小規模な文集合を作成するためには好適である。
しかし、例えばガウス混合モデル、またはディープニューラルネット等に基づく統計的モデルを作成する場合、各音響単位について、より多くの出現頻度が求められる。そして、数千文から数万文、数十万文の大規模な文集合が必要となる。このため、大規模な文集合を作成する際に貪欲法を用いると、全ての音響単位をカバーした後も、希少度の高い音響単位を優先して収集することで、実際には使用頻度が低い音響単位が多く含まれる文集合が作成される。換言すると、重要度の低い音響単位が多く含まれる文集合が作成される。なお、使用頻度の低い音響単位を多く含む文は難読であり、読み上げミスが多発し、収録コストが増大する不都合を生ずる。
実施の形態の文集合作成装置は、音響単位の希少度(出現頻度の逆数)と音響単位の重要度とを考慮することにより、重要かつ希少な音響単位を多く含む文集合を効率的に作成可能となっている。以下、実施の形態の文集合作成装置を具体的に説明する。まず、音響単位を定義する。次に、説明において用いる記法を定義する。次に、文集合の「良さ」を表す目的関数を定義し、この目的関数を最大化する文集合を求める問題として、文集合作成問題を定式化する。次に、この目的関数を最大化するアルゴリズムを導出する。最後に、実施の形態の文集合作成装置によって得られる効果について説明する。
(音響単位の定義)
実施の形態の文集合作成装置で用いる音響単位としては、例えば文脈非依存の音素(context-independent phonemes)を用いることができる。または、音響単位として、文脈依存音素(context-dependent phonemes)を用いることができる。文脈依存音素としては、例えば二音素の連鎖であるダイフォン(diphones)、または、三音素の連鎖であるトライフォン(triphones)等を用いることができる。
実施の形態の文集合作成装置で用いる音響単位としては、例えば文脈非依存の音素(context-independent phonemes)を用いることができる。または、音響単位として、文脈依存音素(context-dependent phonemes)を用いることができる。文脈依存音素としては、例えば二音素の連鎖であるダイフォン(diphones)、または、三音素の連鎖であるトライフォン(triphones)等を用いることができる。
また、音声合成への応用を図る場合、多様なアクセントを含む文集合を作成するために、同じ音素(例えばダイフォン)であっても、アクセント(stress)が異なる場合には、別の音響単位として扱うことが望ましい。さらに別の例として、セノン(senone)、すなわちコンテキストクラスタリングされた隠れマルコフモデルの状態(context-clustered states of hidden Markov models)を、音響単位としてもよい。
(記法の定義)
実施の形態の文集合作成装置の原理の説明においては、下記の記法(notation)を用いることとする。
第一の文集合:U={1,…,n}
第一の文集合に含まれる文数:n
第二の文集合:S⊆U
全種類の音響単位の集合:P={1,…,m}
音響単位の種類の数:m
所望の音響単位の分布:π=(π_1,…,π_m)
第i番目の音響単位の出現確率:π_i(i=1,…,m;Σ_i π_i=1)
第二の文集合Sにおける第i番目の音響単位の出現頻度:f_i(S) (i=1,…,m)
第二の文集合Sにおける音響単位の総出現頻度:f_T(S)
f_T(S)=Σ_i=1^mf_i(S)
第二の文集合Sにおける第i番目の音響単位の出現確率:p_i(S) (i=1,…,m)
p_i(S)=f_i(S)/f_T(S)
第二の文集合Sの音響単位の分布:p=(p_1,…,p_m)
実施の形態の文集合作成装置の原理の説明においては、下記の記法(notation)を用いることとする。
第一の文集合:U={1,…,n}
第一の文集合に含まれる文数:n
第二の文集合:S⊆U
全種類の音響単位の集合:P={1,…,m}
音響単位の種類の数:m
所望の音響単位の分布:π=(π_1,…,π_m)
第i番目の音響単位の出現確率:π_i(i=1,…,m;Σ_i π_i=1)
第二の文集合Sにおける第i番目の音響単位の出現頻度:f_i(S) (i=1,…,m)
第二の文集合Sにおける音響単位の総出現頻度:f_T(S)
f_T(S)=Σ_i=1^mf_i(S)
第二の文集合Sにおける第i番目の音響単位の出現確率:p_i(S) (i=1,…,m)
p_i(S)=f_i(S)/f_T(S)
第二の文集合Sの音響単位の分布:p=(p_1,…,p_m)
(目的関数の定義)
文集合作成問題を、文数の上限が与えられたときに、文集合Sの「良さ」を表す集合関数J(S)を最大化するSを求める問題として定式化する。すなわち、文数の上限をBとおくとき、|S|≦BのもとでJ(S)を最大化するS⊆Uを求める問題について考える。実施の形態の文集合作成装置においては、第二の文集合Sの「良さ」を表す目的関数J(S)を次式により定義する。
文集合作成問題を、文数の上限が与えられたときに、文集合Sの「良さ」を表す集合関数J(S)を最大化するSを求める問題として定式化する。すなわち、文数の上限をBとおくとき、|S|≦BのもとでJ(S)を最大化するS⊆Uを求める問題について考える。実施の形態の文集合作成装置においては、第二の文集合Sの「良さ」を表す目的関数J(S)を次式により定義する。
J(S)=Σ_i=1^m π_ilogf_i(S)
実施の形態の文集合作成装置において、各音響単位(i=1,…,m)について、音響単位の出現頻度の対数値に対して線形に増加するように目的関数が設計されている。これは、音声言語情報処理の多くの研究において、データ量の対数値と性能(音声認識率やパープレキシティ等)との関係が線形近似できることから、一例としてこのような設計としたものである。また、音響単位の出現確率π_iによって重み付け和をとっている。これは、所望の音響単位の分布πに従って期待値をとることに相当する。
(アルゴリズムの導出)
次に、前述の目的関数J(S)を|S|≦Bの制約のもとで最大化する問題を解くアルゴリズムを導出する。
次に、前述の目的関数J(S)を|S|≦Bの制約のもとで最大化する問題を解くアルゴリズムを導出する。
J(S)を最大化する問題は、組み合わせ最適化問題であり、多項式時間のアルゴリズムで厳密な解を求めることは困難である(NP困難)。このため、J(S)を近似的に最大化するようなSを求めることを考える。以下、まず、J(S)が劣モジュラ性と呼ばれる性質を持つことを示す。次に、劣モジュラ性を持つ集合関数を効率的に最大化する方法(貪欲法)を用いて、上述の文集合作成問題を効率的に解けることを説明する。
まず、劣モジュラ性の定義について説明する。いま、S⊆T⊆Uの関係を満たす集合S,T,Uがあるとする。任意のs∈U\Tに対して、集合関数Jが次の不等式を満たすとき、Jは劣モジュラ性を持つという。ただし、U\Tは、UからTを引いた差集合(difference set)である。
J(S∪{s})−J(S)≧J(T∪{s})−J(T)
次に、前述の目的関数J(S)が、劣モジュラ性を持つことを示す。前述の記法で定義した文集合U,Sに加えて、S⊆Tを満たす文集合Tを新たに導入する。文s∈U\Tのみからなる文集合{s}を考える。このとき、J(S)の定義より、次式のようになる。
{J(S∪{s})−J(S)}−{J(T∪{s})−J(T)}
=Σ_i=1^m π_i*{logf_i(S∪{s})−logf_i(S)−logf_i(T∪{s})+logf_i(T)}
=Σ_i=1^m π_i*{logf_i(S∪{s})−logf_i(S)−logf_i(T∪{s})+logf_i(T)}
ここで、対数関数は、0<x≦y,0≦dを満たす実数x,y,dに対して、以下の不等式を満たすことを利用する。
log(x+d)−log(x)≧log(y+d)−log(y)
すなわち、全てのiについて、x=f_i(S)、y=f_i(T)、d=f_i(S∪{s})−f_i(S)=f_i(T∪{s})−f_i(T)=f_i({s})とおけば、前述の関係式、つまり0<x≦y、0≦dを満たすため、次式のようになる。
logf_i(S∪{s})−logf_i(S)≧logf_i(T∪{s})+logf_i(T)
これにより、次式の結果を得ることができ、J(S)が劣モジュラ性を持つことがわかる。
{J(S∪{s})−J(S)}−{J(T∪{s})−J(T)}≧0
劣モジュラ性を持つ集合関数J(S)を、集合Sのサイズに関する制約|S|≦Bのもとで最大化する問題、すなわち、「S^*=argmax_|S|≦B J(S)」の「S^*⊆U」は、貪欲法(greedy algorithm)によって効率的求めることができる。非特許文献2によれば、貪欲法は、理論的に準最適(near-optimal)であることが証明されている。すなわち、貪欲法を超える性能を達成できる多項式時間アルゴリズムの開発は困難となっている。
貪欲法とは、Sが空集合の状態、すなわちS=Φからスタートして、各イタレーションにおいて、J(S∪{s})を最大にするs∈U\Sを選択し、S←S∪{s}とするアルゴリズムである。擬似コードにすると、以下のようになる。
Input:U、B
S←Φ
While|S|<B
s^*←argmax_s∈U\S J(S∪{s})
S←S∪s^*
Output:S
S←Φ
While|S|<B
s^*←argmax_s∈U\S J(S∪{s})
S←S∪s^*
Output:S
ここで、この擬似コードをもう少し効率的に実行する方法について説明する。文集合Sに、文s∈U\Sを追加したときの目的関数の増分を、以下の(1)の数式としておくと、以下の(2)の数式となる。
Δx << x のとき、以下の(3)の数式で示される近似が成り立つ。
各音響単位の出現頻度の増分が、元の音響単位の出現頻度と比べて十分に小さいと仮定して、以下の(4)の近似式で、δ_s(S)を算出することができる。
すなわち、文sを追加したときの目的関数の増分δ_s(S)は、文sを構成する各音響単位について、当該音響単位の重要度(π_i)と、当該音響単位の出現頻度の逆数(1/f_i(S))との積を算出し、その総和によって算出できる。上述の擬似コードの各イタレーションにおいて「s」を選択する際、最も目的関数の増分が大きくなる「s」を選択する。すなわち、次式とすることで、より効率的に貪欲法を実行可能とすることができる。
s^*←argmax_s∈U\S δ_s(S)
(実施の形態の効果の例)
所望の音響単位の分布およびコストの上限(例:文数の上限)が与えられたときに、前述の目的関数およびアルゴリズムを用いることによって、所望の音響単位の分布との「距離」が最少となるような文集合を作成できることを説明する。ただし、分布と分布の間の「距離」は、カルバック・ライブラー・ダイバージェンス(Kullback-Leibler divergence、以後、KLダイバージェンスという)で測るものとする。
所望の音響単位の分布およびコストの上限(例:文数の上限)が与えられたときに、前述の目的関数およびアルゴリズムを用いることによって、所望の音響単位の分布との「距離」が最少となるような文集合を作成できることを説明する。ただし、分布と分布の間の「距離」は、カルバック・ライブラー・ダイバージェンス(Kullback-Leibler divergence、以後、KLダイバージェンスという)で測るものとする。
すなわち、|S|≦Bなる制約のもとで、前述の目的関数J(S)を最大化することと、所与の音響単位の分布πとSの音響単位の分布p(S)の間のKLダイバージェンス D(π||p)を最小化することが、等価であることを示す。
以下では、まず「文集合の良さは、文集合の“大きさ”から、文集合の“偏り”を引き去ったものである」ことを示す。次に、KLダイバージェンスを最小化するアルゴリズムと等価になっていることを説明する。
まず、文集合の“偏り”について説明する。ここでいう“偏り”とは、所望の音響単位の分布πと、文集合Sの音響単位の分布p(S)の間のギャップのことを指す。具体的には、以下の(5)の数式で示される、πとp(S)の間のKLダイバージェンスがデータの偏りである。
ここで、p_i(S)の定義式を代入すると、以下の(6)の数式となる。
また、(6)の数式を辺々整理すると、以下の(7)の数式となる。
各項は、以下のことを意味している。
J(S):文集合Sの「良さ」
logf_T(S):文集合Sの「大きさ」
D_KL(π||p(S)):文集合の「偏り」
logf_T(S):文集合Sの「大きさ」
D_KL(π||p(S)):文集合の「偏り」
文集合の「良さ」は、文集合の「大きさ」から、文集合の「偏り」を引き去ったものである」と言うことができる。すなわち、文集合は大きいほど、また「偏り」が小さいほど、価値が高い。例えば、図1の(a)の符号を付した図に示すように、大きな文集合であっても、「偏り」が大きな文集合は、価値が低い。しかし、図1の(b)の符号を付した図に示すように、小さな文集合であっても、偏りが小さな文集合は、価値が高くなる。これが文集合の「良さ」である。
前述のアルゴリズムは、|S|≦Bを満たす文集合Sの中で、J(S)を最大にするSを求めるものであった。J(S)が最大値をとるのは、|S|=Bのときである。ここで、Uに含まれる各文の長さ(音響単位の列の長さ)が一定だと仮定し、その音響単位の列長をLとおくと、|S|=Bなる条件は、logf_T(S)=B’なる条件に書きかえられる。ただし、B’=log(BL)である。
従って、前述のアルゴリズムは、所与の文集合の「大きさ」において、文集合の「良さ」を最大化する方法であるといえる。換言すれば、前述のアルゴリズムは、文集合の「偏り」を最小化する方法であると言える。すなわち、実施の形態の文集合作成装置を用いれば、所与の音響単位の分布πと文集合の音響単位の分布p(S)の間のKLダイバージェンスを最小化する文集合を作成できる。
なお、「Uの各文の長さが一定である」という仮定で説明したが、多くの応用においてこの仮定は妥当である。例えば、音声コーパスを収録する際に読み上げさせる文集合を作成することを考えた場合、文の長さが一定の範囲に収まる(略々長さが等しい)文のみから文集合Uを作成することが多い。また、Uの各文の長さがバラバラの場合でも、前述の議論と略々同様の議論で、KLダイバージェンスを最小化する文集合を作成できる。
(実施の形態の具現化)
次に、あくまでも一例ではあるが、このような実施の形態の文集合作成装置は、通常のパーソナルコンピュータ装置と同等のハードウェア構成で実現することができる。図2は、文集合作成装置のハードウェア構成図である。この図2に示すように、文集合作成装置は、CPU1と、ROM2と、RAM3と、ハードディスクドライブ(HDD)4と、入出力インターフェイス(I/F)5と、通信I/F6とを有する。CPU1は、「Central Processing Unit」の略記である。ROMは、「Read Only Memory」の略記である。RAMは、「Random Access Memory」の略記である。CPU1、ROM2、RAM3、HDD4入出力I/F5および通信I/F6は、バスライン7で互いに通信可能に接続されている。
次に、あくまでも一例ではあるが、このような実施の形態の文集合作成装置は、通常のパーソナルコンピュータ装置と同等のハードウェア構成で実現することができる。図2は、文集合作成装置のハードウェア構成図である。この図2に示すように、文集合作成装置は、CPU1と、ROM2と、RAM3と、ハードディスクドライブ(HDD)4と、入出力インターフェイス(I/F)5と、通信I/F6とを有する。CPU1は、「Central Processing Unit」の略記である。ROMは、「Read Only Memory」の略記である。RAMは、「Random Access Memory」の略記である。CPU1、ROM2、RAM3、HDD4入出力I/F5および通信I/F6は、バスライン7で互いに通信可能に接続されている。
CPU1は、ROM2、RAM3またはHDD4等の記憶部に予め記憶される文集合作成プログラムに従い、RAM3等をワークメモリとして用いて動作し、文集合作成装置全体の動作を制御する。なお、図2に示す例は、HDD5に文集合作成プログラムが記憶された例を示している。文集合作成プログラムは、所定のネットワーク上のコンピュータ装置から、ネットワーク経由でダウンロードしてもよい。また、これに限らず、文集合作成プログラムは、インストール可能な形式または実行可能な形式のファイルでCD、DVD等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。
図3は、文集合作成装置の機能ブロック図である。この図3に示す各機能は、文集合作成プログラムのみでソフトウェア的に実現してもよいし、ソフトウェアおよびハードウェアで実現してもよいし、ハードウェアのみで実現してもよい。図3に示すように、文集合作成装置は、第一の文集合を記憶する第一文集合記憶部11と、第二の文集合を記憶する第二文集合記憶部12とを備えている。
また、文集合作成装置は、各音響単位の重要度を示す重要度情報を作成する重要度作成部13と、各音響単位の重要度情報を記憶する重要度記憶部14と、第二の文集合における各音響単位の出現頻度を算出する頻度計算部15とを備えている。また、文集合作成装置は、算出された音響単位の出現頻度を記憶する頻度記憶部16と、第一の文集合に含まれる文を評点する文評点部17とを備えている。また、文集合作成装置は、算出された評点を記憶する文評点記憶部18と、最も高い評点を有する一文を第一の文集合から選択して第二の文集合に追加する文選択部19とを備えている。文評点部17は、評点計算部の一例である。
第一文集合記憶部11には、元となるデータセットである第一の文集合が記憶されている。文集合作成装置は、第一の文集合から一以上の文を選択し、第二の文集合に追加することによって、文集合を作成する。つまり、第一の文集合から部分集合(subset)を抽出して、第二の文集合に追加する。第一の文集合としては、例えば、新聞、小説、ウェブページ等から収集した文の集合を用いることができる。
第二文集合記憶部12は、第二の文集合を記憶する。第二の文集合は、典型的には空集合として初期化される。別の例を挙げれば、現在保有する音声コーパスに含まれる文の集合を、第二の文集合の初期値として用いることもできる。第二の文集合は、何等かの方法で(例えば空集合として)初期化された後、第一の文集合から選択された一以上の文が追加され、その結果得られた文集合が文集合作成装置からの出力となる。
本実施の形態における「文(sentence)」とは、例えば、「あらゆる現実を全て自分のほうへねじ曲げたのだ」のような文字列である。この文字列は、各単語の発音(音響単位の列)を定義する発音辞書を使って、音響単位の列に変換することができる。すなわち、例示した文の場合、「arayuruge…」という音響単位の列に変換することができる。
または、音響単位として、文脈依存の音素(context-dependent phonemes)を使うこともできる。文脈依存音素のうち、例えばトライフォン(triphones)を用いる場合には、「a+r a−r+a r−a+y a−y+u y−u+r u−r+u r−u+g u−g+e g−e+N …」という音響単位の列に変換される。
なお、以後の説明のため、音響単位の種類の数を「m」とおく。日本語において、音響単位として文脈非依存音素を用いる場合、「m」の値は50程度となる。また、トライフォンを用いる場合、「m」の値は5000程度となる。
頻度計算部15は、第二の文集合に含まれる各音響単位の出現頻度を算出する。頻度記憶部16は、各音響単位の出現頻度を示す情報を記憶する。すなわち、頻度計算部15は、m個の各音響単位について、第二の文集合の中で出現した回数をそれぞれカウントする。頻度記憶部16は、m個の各音響単位に対する、第二の文集合中の出現頻度を示す情報を記憶する。
重要度記憶部14は、重要度作成部13で作成されたm個の音響単位に対する重要度を示す情報を記憶する。重要度作成部13は、例えば以下に説明する第1手法〜第4手法のいずれかの手法を用いて音響単位の重要度を設定する。
まず、第1手法としては、重要度作成部13が、全ての音響単位について等しい音響単位の重要度(例えば、1.0)を設定する。このような音響単位の重要度を用いることは、上述の原理説明における「所望の音響単位の分布π」を一様分布に設定することと等価である。また、上述の非特許文献1と同様な方法となる。この第1手法の場合、希少度は高いが重要ではない(一般的な文で使用頻度の低い)音響単位ばかりを多く含む文集合となるおそれがある。
次に、第2手法としては、新聞、小説、ウェブページ等の様々なジャンルから偏りなく収集した文集合に対して、重要度作成部13が、各音響単位の出現頻度を算出する。重要度作成部13は、算出した各音響単位の出現頻度を、各音響単位の重要度として設定する。ただし、音響単位の出現頻度を重要度とすると、出現頻度が高い音響単位ばかりを多く含む文集合が作成され、出現頻度が極端に少ない音響単位が発生するおそれがある。
次に、第3手法としては、重要度作成部13が、適当な文集合から各音響単位の出現頻度を算出する。そして、重要度作成部13が、音響単位の出現頻度が高いほど音響単位の重要度が高くなるように設定する(出現頻度に応じた重要度を設定する)。この場合、まず、上述の第2手法と同様に、様々なジャンルから収集した文集合から各音響単位の出現頻度を求める。次に、この出現頻度を、単調増加関数「g」で変換した値を音響単位の重要度とする。例えば、「g」として、上に凸の単調増加関数(対数関数等)を用いることができる。このようにすると、一般的な文で頻繁に使用する音響単位ほど高い重要度が付与されるが、第2手法と比べると、希少度の高い音響単位も程よく含まれ、バランスの良い文集合を作成できる。
次に、第4手法としては、まず、上述の第2手法と同様に、重要度作成部13が、一般的な文からなる適当な文集合から各音響単位の出現頻度を算出し、図5の(a)の符号を付した図に示すように各音響単位分布を求める。次に、重要度作成部13が、文集合から求めた音響単位分布を、図5の(b)の符号を付した図に示す一様な音響単位分布で補間処理する。この補間処理により、例えば図5の(c)の符号を付した図に示す補間処置後の音響単位分布を得ることができる。重要度作成部13は、補間処置後の音響単位分布における、各音響単位の出現確率を音響単位の重要度とする。
このような第4手法において、一様な音響単位分布で補間しない場合、第2手法のように、重要な(一般的な文での出現頻度が高い)音響単位ばかりが集まってしまう。また、一様な音響単位分布のみを用いると、第1手法のように、希少度の高い音響単位ばかりが集まってしまう。これに対して、第4手法の場合、一般的な文の文集合から求めた各音響単位の出現頻度の音響単位分布を、一様な音響単位分布で補間しているため、重要度が高くかつ希少度も高い音響単位を多く含む文集合を作成できる。
次に、文評点部17は、第一の文集合に含まれる文を評点する。具体的には、文評点部17は、頻度記憶部16に記憶された音響単位の出現頻度と、重要度記憶部14に記憶された音響単位の重要度とを参照し、第一の文集合の中から与えられた任意の一文に対する評点を算出する。
具体的には、文評点部17は、まず、第一の文集合の中から与えられた任意の一文の音響単位の列に含まれる各音響単位について、音響単位の重要度と希少度との積を算出する。なお、一例ではあるが、希少度としては、音響単位の出現頻度の逆数を用いることができる。そして、文評点部17は、それらの積の総和を、第一の文集合の中から与えられた任意の一文の評点とする。文評点記憶部18は、文評点部17が算出した評点を記憶する。
この評点の演算式は、以下のとおりである。第一の文集合の中から与えられた任意の一文の音響単位の列の長さを「K」とおく。第k番目の音響単位の識別番号(ID:identifier)を「i(k)」とする(k=1,…,K;i∈{1,…,m})。識別番号iの音響単位について、音響単位の重要度をπ_i、音響単位の出現頻度をf_iとする。この時、第一の文集合の中から与えられた任意の一文の評点は次式により算出される。
Score=Σ_{k=1}^Kπ_i(k)*(1/f_i(k))
文評点記憶部18は、第一の文集合に含まれる各文について、文評点部17で算出された評点を示す情報を記憶する。
文選択部19は、文評点記憶部18を参照し、評点が他の文より高い文を優先的に選択し、第二の文集合記憶部12に記憶される第二の文集合へ追加する。一例として、文選択部19は、評点が閾値以上の文を選択する。または、文選択部19は、評点が最大の文を選択する。
(実施の形態の動作)
次に、図4に、実施の形態の文集合作成装置の動作のフローチャートを示す。この図4のフローチャートにおいて、ステップS1では、第一の文集合を初期化する。例えば、新聞、小説、ウェブページ等から収集した文の集合を、第一の文集合として用いることができる。
次に、図4に、実施の形態の文集合作成装置の動作のフローチャートを示す。この図4のフローチャートにおいて、ステップS1では、第一の文集合を初期化する。例えば、新聞、小説、ウェブページ等から収集した文の集合を、第一の文集合として用いることができる。
次に、ステップS2において、第二の文集合を初期化する。例えば、第二の文集合の初期値として空集合を用いることができる。
次に、ステップS3において、音響単位の重要度を初期化する。例えば、全ての音響単位について等しい値(例:1.0)をセットする。
次に、ステップS4において、頻度計算部15が、第二の文集合に含まれる各音響単位の出現頻度を算出し、この出現頻度を示す情報を頻度記憶部16に保存する。
次に、ステップS5において、文評点部17が、第一の文集合に含まれる文の各々を評点し、各評点を示す情報を文評点記憶部18に記憶する。
次に、ステップS6において、文選択部19が文評点記憶部18を参照し、最も高い評点を有する一文を第一の文集合から選択し、第二の文集合に追加する。文選択部19は、選択した文を、第一の文集合記憶部11から削除する。
次に、ステップS7において、終了条件を満たしているか否かを判別する。終了条件を満たしている場合(ステップS7:Yes)、処理がステップS8に進む。終了条件を満たしていない場合(ステップS7:No)、処理がステップS4に戻る。例えば、所定数の文が選択された場合を、終了条件としてもよい。または、第二の文集合に含まれる音響単位の出現頻度の総和が、所定の値を超えた場合を終了条件としてもよい。
最後に、ステップS8において、第二文集合記憶部12に記憶された文集合を、外部に出力する。
以上の説明から明らかなように、実施の形態の文集合作成装置は、音響単位の希少度と音響単位の重要度とを考慮することにより、重要かつ希少な音響単位を多く含む文集合を効率的に作成することができる。
(実施の形態の変形例)
上述の実施の形態の文集合作成装置では、「貪欲法」を用いることとした。この貪欲法の代わりに、非特許文献3に記載されている「高速貪欲法」を用いてもよい。
上述の実施の形態の文集合作成装置では、「貪欲法」を用いることとした。この貪欲法の代わりに、非特許文献3に記載されている「高速貪欲法」を用いてもよい。
この非特許文献3の記載からわかるように、高速貪欲法を用いることで、単純な貪欲法と比べて約700倍、センサを設置する場所を高速に選択可能とすることができる。このため、実施の形態の文集合作成装置において、貪欲法のかわりに高速貪欲法を用いることで、文集合の作成時間を大幅に短縮化することができる(文集合を超高速で作成可能とすることができる)。
以上、本発明の実施の形態を説明したが、各実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。各実施の形態およびその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 CPU
2 ROM
3 RAM
4 HDD
5 入出力I/F
6 通信I/F
7 バスライン
11 第一の文集合記憶部
12 第二の文集合記憶部
13 重要度作成部
14 重要度記憶部
15 頻度計算部
16 頻度記憶部
17 文評点部
18 文評点記憶部
19 文選択部
2 ROM
3 RAM
4 HDD
5 入出力I/F
6 通信I/F
7 バスライン
11 第一の文集合記憶部
12 第二の文集合記憶部
13 重要度作成部
14 重要度記憶部
15 頻度計算部
16 頻度記憶部
17 文評点部
18 文評点記憶部
19 文選択部
Claims (7)
- 第一の文集合を記憶する第一文集合記憶部と、
第二の文集合を記憶する第二文集合記憶部と、
複数の音響単位それぞれの重要度を記憶する重要度記憶部と、
前記第二の文集合における前記音響単位それぞれの出現頻度を記憶する頻度記憶部と、
前記第一の文集合に含まれるいずれかの文を表す第一文に含まれる各音響単位の前記出現頻度に対応する希少度と各音響単位の重要度から前記第一文の評点を算出する評点計算部と、
前記第一の文集合に含まれる文の中から、前記評点が他の文より大きい文を優先して選択し、選択した文を、前記第二文集合記憶部に記憶される前記第二の文集合に追加する文選択部と
を有する文集合作成装置。 - 前記希少度は、前記音響単位の出現頻度が低いほど大きな値となること
を特徴とする請求項1に記載の文集合作成装置。 - 前記希少度は、前記音響単位の出現頻度の逆数であること
を特徴とする請求項1または請求項2に記載の文集合作成装置。 - 前記重要度記憶部は、文集合の各音響単位の出現頻度に対応する音響単位分布を、一様な音響単位分布で補間処理した音響単位分布における音響単位の出現確率を、前記音響単位の重要度として記憶していること
を特徴とする請求項1から請求項3のうち、いずれか一項に記載の文集合作成装置。 - 前記音響単位は、文脈非依存の音素、文脈依存音素、またはコンテキストクラスタリングされた隠れマルコフモデルの状態の音響単位であること
を特徴とする請求項1から請求項4のうち、いずれか一項に記載の文集合作成装置。 - 評点計算部が、頻度記憶部に記憶されている、第二の文集合における音響単位それぞれの出現頻度を参照して求めた、第一の文集合に含まれるいずれかの文を表す第一文に含まれる各音響単位の希少度と各音響単位の重要度から、前記第一文の評点を算出する評点計算ステップと、
文選択部が、前記第一の文集合に含まれる文の中から、前記評点が他の文より大きい文を優先して選択し、前記第二の文集合に追加する文選択ステップと
を有する文集合作成方法。 - コンピュータを、
頻度記憶部に記憶されている、第二の文集合における音響単位それぞれの出現頻度を参照して求めた、第一の文集合に含まれるいずれかの文を表す第一文に含まれる各音響単位の希少度と各音響単位の重要度から、前記第一文の評点を算出する評点計算部と、
前記第一の文集合に含まれる文の中から、前記評点が他の文より大きい文を優先して選択し、前記第二の文集合に追加する文選択部
として機能させる文集合作成プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013222597A JP2015084047A (ja) | 2013-10-25 | 2013-10-25 | 文集合作成装置、文集合作成方法および文集合作成プログラム |
US14/484,476 US20150120303A1 (en) | 2013-10-25 | 2014-09-12 | Sentence set generating device, sentence set generating method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013222597A JP2015084047A (ja) | 2013-10-25 | 2013-10-25 | 文集合作成装置、文集合作成方法および文集合作成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015084047A true JP2015084047A (ja) | 2015-04-30 |
Family
ID=52996384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013222597A Pending JP2015084047A (ja) | 2013-10-25 | 2013-10-25 | 文集合作成装置、文集合作成方法および文集合作成プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20150120303A1 (ja) |
JP (1) | JP2015084047A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019079237A (ja) * | 2017-10-24 | 2019-05-23 | 日本電信電話株式会社 | 最適化装置、方法、及びプログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013085437A1 (en) * | 2011-12-05 | 2013-06-13 | Telefonaktiebolaget L M Ericsson (Publ) | A method and arrangements for scheduling wireless resources in a wireless network |
CN109344221B (zh) * | 2018-08-01 | 2021-11-23 | 创新先进技术有限公司 | 录音文本生成方法、装置及设备 |
US20220319483A1 (en) * | 2019-05-29 | 2022-10-06 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Acoustic Simulation |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5822731A (en) * | 1995-09-15 | 1998-10-13 | Infonautics Corporation | Adjusting a hidden Markov model tagger for sentence fragments |
JP3696231B2 (ja) * | 2002-10-08 | 2005-09-14 | 松下電器産業株式会社 | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 |
US7457745B2 (en) * | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
US7689421B2 (en) * | 2007-06-27 | 2010-03-30 | Microsoft Corporation | Voice persona service for embedding text-to-speech features into software programs |
JP5572445B2 (ja) * | 2010-04-30 | 2014-08-13 | 本田技研工業株式会社 | 残響抑圧装置、及び残響抑圧方法 |
-
2013
- 2013-10-25 JP JP2013222597A patent/JP2015084047A/ja active Pending
-
2014
- 2014-09-12 US US14/484,476 patent/US20150120303A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019079237A (ja) * | 2017-10-24 | 2019-05-23 | 日本電信電話株式会社 | 最適化装置、方法、及びプログラム |
JP6992404B2 (ja) | 2017-10-24 | 2022-01-13 | 日本電信電話株式会社 | 最適化装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20150120303A1 (en) | 2015-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967916B (zh) | 确定语音关系 | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
US11227579B2 (en) | Data augmentation by frame insertion for speech data | |
US20080059190A1 (en) | Speech unit selection using HMM acoustic models | |
CN103854643B (zh) | 用于合成语音的方法和装置 | |
JP2004355483A (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP2017058483A (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
Kurimo et al. | Modeling under-resourced languages for speech recognition | |
JP5249967B2 (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
Seki et al. | Diversity-based core-set selection for text-to-speech with linguistic and acoustic features | |
JP2013182260A (ja) | 言語モデル作成装置、音声認識装置、およびそのプログラム | |
JP4659541B2 (ja) | 音声認識装置及び音声認識プログラム | |
HaCohen-Kerner et al. | Language and gender classification of speech files using supervised machine learning methods | |
JP4716125B2 (ja) | 発音評定装置、およびプログラム | |
CN117355840A (zh) | 正则化词分割 | |
JP5976037B2 (ja) | モデル学習装置、ランキング装置、方法、及びプログラム | |
JP5860439B2 (ja) | 言語モデル作成装置とその方法、そのプログラムと記録媒体 | |
JP7102986B2 (ja) | 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置 | |
TWI409802B (zh) | 音頻特徵處理方法及其裝置 | |
JP6309852B2 (ja) | 強調位置予測装置、強調位置予測方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20151102 |