JP2017102328A - 文章セット生成装置、文章セット生成方法、プログラム - Google Patents

文章セット生成装置、文章セット生成方法、プログラム Download PDF

Info

Publication number
JP2017102328A
JP2017102328A JP2015236629A JP2015236629A JP2017102328A JP 2017102328 A JP2017102328 A JP 2017102328A JP 2015236629 A JP2015236629 A JP 2015236629A JP 2015236629 A JP2015236629 A JP 2015236629A JP 2017102328 A JP2017102328 A JP 2017102328A
Authority
JP
Japan
Prior art keywords
sentence
selection
text
learning
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015236629A
Other languages
English (en)
Other versions
JP6479637B2 (ja
Inventor
勇祐 井島
Yusuke Ijima
勇祐 井島
明弘 吉田
Akihiro Yoshida
明弘 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015236629A priority Critical patent/JP6479637B2/ja
Publication of JP2017102328A publication Critical patent/JP2017102328A/ja
Application granted granted Critical
Publication of JP6479637B2 publication Critical patent/JP6479637B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音韻、韻律などの文章選択のための要素においてバランスのとれた学習用文章セットを生成する文章セット生成装置を提供する。
【解決手段】決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、解析後文章記録部104に記録した、母集団文章セットの選択元文章と文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択部130とを有する。
【選択図】図3

Description

本発明は、音声合成用モデルの学習に用いる文章を選択する技術に関し、特にモデル適応により変換元となる音声合成用モデルから別の音声合成用モデルを学習する際に用いる文章を選択する技術に関する。
コーパスベース音声合成技術では、学習用文章セット(コーパス)を発話した音声から音声合成用モデルを学習し、当該モデルを用いて合成音声を生成する。近年、コーパスベース音声合成技術の一つとして、任意の話者に関する少量の音声データを用いて、事前に学習した音声合成用モデル(変換元モデル)から当該話者の音声合成用モデル(変換後モデル)を生成し、変換後モデルから当該話者の合成音声を生成する手法であるモデル適応技術が提案されている(非特許文献1)。このモデル適応技術は、目標話者の音声を合成するために必要な音声データが少量でよいという特徴を有する。
コーパスベース音声合成技術を用いて、できる限り低コストで高品質な合成音声を生成するためには、音韻、韻律などにおいてバランスが取れた学習用文章セットを準備する必要がある。バランスが取れた学習用文章セットを生成するためには、事前に用意する大量の文章の集合(以下、母集団文章セットという)から、音素(monophone、diphone、triphoneなど)、音節、単語といった音韻情報をできるだけ多くカバーするように学習用文章セットを生成する手法(特許文献1)や発話単位に加えてアクセント等も考慮して学習用文章セットを生成する手法(非特許文献2)等が提案されている。
特開2004−246140号公報
田村正統、益子貴史、徳田恵一、小林隆夫、"HMMに基づく音声合成におけるピッチ・スペクトルの話者適応"、電子情報通信学会論文誌、電子情報通信学会、2002年4月、Vol.J85-D-II No.4 pp.545-553. 荒生侑介、能勢隆、郡山知樹、篠崎隆宏、小林隆夫、"音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価"、日本音響学会2014年春季研究発表会講演論文集、日本音響学会、2014年3月、pp.405-406.
これらの文献に記載の手法では、学習用文章セットを発話した音声によりカバーされる対象となる音韻、韻律などの文章選択に用いる要素(以下、文章選択要素という)が膨大とならないように、事前に人手で絞り込む必要がある。例えば、非特許文献2に記載の手法では、音素の連鎖を考慮する際に人手で音素をグルーピングすることで、カバー対象となる文章選択要素を絞り込んでいる。しかし、このような人手での絞り込みは、音声合成用モデルの学習で用いる情報を落としてしまう可能性があり、必ずしも最適な学習用文章セットが生成されているとは限らない。
そこで、変換元モデルを用いて、変換後モデル学習に用いる音声データの元になる学習用文章セットを母集団文章セットから生成することにより、音韻、韻律などの文章選択に用いる要素においてバランスのとれた学習用文章セットを生成する文章セット生成装置を提供することを目的とする。
本発明の一態様は、決定木として表現される音声合成用モデルである変換元モデルから別の音声合成用モデルである変換後モデルを学習する際に用いる学習用文章セットを、母集団文章セットの部分集合として生成する文章セット生成装置であって、前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択部とを有する。
本発明によれば、変換元モデルを用いて母集団文章セットから学習用文章セットを生成することにより、音韻、韻律などの文章選択に用いる要素においてバランスのとれた学習用文章セットを生成することが可能となる。
モデル適応技術の概要を示す図。 決定木により表現した変換元モデルの一例を示す図。 実施例1の文章セット生成装置100の構成を示すブロック図。 実施例1の文章セット生成装置100の動作を示すフローチャート。 実施例1の文章選択用情報テーブルの一例を示す図。 コンテキストの一例を示す図。 実施例1の文章選択部130の構成を示す図。 実施例1の文章選択部130の動作を示すフローチャート。 実施例3の文章セット生成装置300の構成を示すブロック図。 実施例3の文章セット生成装置300の動作を示すフローチャート。 実施例3の文章選択用情報テーブルの一例を示す図。 実施例3の文章選択部330の構成を示す図。 実施例3の文章選択部330の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
まず、図1を参照してモデル適応技術の概略について説明する。モデル適応では、変換元モデル学習用音声データから変換元モデルを学習する処理(変換元モデル学習処理)、変換後モデル学習用音声データを用いて変換元モデルを変換後モデルに変換する処理(変換後モデル学習処理)が行われる。変換後モデル学習用音声データは、学習用文章セットの文章を発話した音声であり、この学習用文章セットの文章は母集団文章セットから選択される。この選択処理を行う(つまり、学習用文章セットを生成する)のが、本願発明の文章セット生成装置である。
次に、いくつかの用語について定義・説明を与える。音声合成用モデルとは、音声合成の際に必要となる音声の特徴量(例えば、基本周波数(F0)などの音高パラメータ、ケプストラムやメルケプストラムなどのスペクトルパラメータ)、継続時間長を音声合成単位ごとに統計的にモデル化したものである。音声合成単位の例として、音素、音節、単語などがある。
本願発明では音声合成用モデルの中でも決定木構造を持つモデルを扱う。決定木構造を持つモデルとして代表的なものにHMM(Hidden Markov Model)音声合成(参考非特許文献3)がある。HMM音声合成では、パラメータごとに音声合成用モデルが決定木で表現される。その例として、スペクトルパラメータ、音高パラメータ、継続時間長の3つのパラメータを用いたHMM音声合成モデルの二分決定木を図2に示す。決定木の表現に用いられている情報は変換元モデルの学習に用いた情報であり、文章選択に用いる文章選択要素となるものである。決定木は文章選択要素を用いて表現される木である。具体的には、リーフノード以外の内部ノードには文章選択要素に関する問いが付与されており、YES(該当する)、NO(該当しない)の判断に従い、次の深さのノード(内部ノードまたはリーフノード)に進むような決定木となっている。
(参考非特許文献3)益子貴史、徳田恵一、小林隆夫、今井聖、“動的特徴を用いたHMMに基づく音声合成”、電子情報通信学会論文誌、電子情報通信学会、1996年12月、Vol.J79-D-II No.12 pp.2184-2190.
以下、図3、図4を参照して実施例1の文章セット生成装置100について説明する。図3は、実施例1の文章セット生成装置100の構成を示すブロック図である。図4は、実施例1の文章セット生成装置100の動作を示すフローチャートである。図3に示すように文章セット生成装置100は、文章選択用情報テーブル作成部110と、文章選択用情報テーブル記録部103と、テキスト解析部120と、解析後文章記録部104と、文章選択部130を含む。文章セット生成装置100は、変換元モデル記録部101、選択元文章記録部102と接続している。
変換元モデル記録部101には、モデル適応の変換元モデル学習処理で学習した変換元モデルを記録しておく。選択元文章記録部102には、母集団文章セットの要素である選択元文章を記録しておく。
文章選択用情報テーブル作成部110は、決定木で表現された変換元モデルから文章選択用情報テーブルを作成し、初期化する(S110)。文章選択用情報テーブルは、各パラメータの決定木に対応して作成される。例えば、スペクトルパラメータ、音高パラメータ、継続時間長の3つのパラメータを用いた音声合成用モデルでは、3つの決定木(図2参照)から3つの文章選択用情報テーブル(図5参照)が作成される。スペクトルパラメータ、音高パラメータ、継続時間長の決定木のリーフノード数をNsp、NF0、Ndurとし、リーフノードが1〜Nsp、1〜NF0、1〜Ndurで識別されるとすると、スペクトルパラメータ、音高パラメータ、継続時間長の文章選択用情報テーブルはリーフノード1〜Nsp、リーフノード1〜NF0、リーフノード1〜Ndurの選択頻度を保持するテーブルとなる。選択頻度は選択元文章を処理する過程でそのリーフノードが選択された回数を表すが、詳細については文章選択部130で説明する。文章選択用情報テーブル作成部110では、各テーブルの各リーフノードの選択頻度の値を0で初期化する。
当該文章選択用情報テーブルは、文章選択用情報テーブル記録部103に記録する。文章選択用情報テーブル記録部103は、RAM、ハードディスクなど一時的な記録媒体、永続的な記録媒体のいずれであってもよい。
テキスト解析部120は、母集団文章セットの各選択元文章に対して、読み、アクセントなどの情報を付与した後、読み、アクセント、形態素などの文章選択要素を用いて表現されるコンテキストを音声合成単位ごとに付与した文章である解析後文章を生成する(S120)。つまり、解析後文章とは、選択元文章と1以上のコンテキストの組である。また、コンテキストは、文章選択部130による処理に必要な情報であり、決定木構造をたどるために用いられる。コンテキストは、例えば、図6のコンテキストラベルを用いて表現することができる(参考非特許文献4)。
(参考非特許文献4)吉岡元貴、田村正統、益子貴史、小林隆夫、徳田恵一、“HMM音声合成における韻律の変動要因の検討”、電子情報通信学会技術研究報告.SP,音声、電子情報通信学会、2001年10月、Vol.101, No.352, pp.51-56.
したがって、(読み、アクセント、形態素などの)コンテキストの表現に用いる文章選択要素の種類は、決定木の表現に用いられているものと同一である必要がある。例えば、変換元モデルの学習に読みとアクセントを使用した場合は、テキスト解析部120で得られるコンテキストは読みとアクセントのみでよい。
当該解析後文章は、解析後文章記録部104に記録する。解析後文章記録部104は、文章選択用情報テーブル記録部103と同様、RAM、ハードディスクなど一時的な記録媒体、永続的な記録媒体のいずれであってもよい。
また、コンテキストは何らかのテキスト解析手法により付与されるものとする。なお、テキスト解析する代わりに事前に人手で付与しておいてもよい。この場合、テキスト解析部120は不要である。文章セット生成装置100はテキスト解析部120を有さない構成となり、選択元文章記録部102と接続する代わりに母集団文章セットの選択元文章を解析した解析後文章を記録した解析後文章記録部104と接続することになる。このときの解析後文章記録部104は永続的な記録媒体を用いて構成されることになる。
文章選択部130は、変換元モデルの決定木を用いて、解析後文章の集合から学習用文章セットを生成する(S130)。以下、図7、図8を参照して文章選択部130の処理について詳細に説明する。図7は、文章選択部130の構成を示すブロック図である。図8は、文選択部130の動作を示すフローチャートである。図7に示すように文章選択部130は、リーフノード決定部131と、スコア計算部132と、最高スコア文章選択部133と、文章選択用情報テーブル更新部134と、終了判定部135を含む。
母集団文章セットに含まれる選択元文章の数をSとして、選択元文章をB、B、…、Bで表す。また、選択元文章B(i=1,2,…,S)をテキスト解析部120が処理した結果である解析後文章をAで表す。解析後文章をAに含まれるコンテキストの数(つまり、音声合成単位の数)をk(i)とし、コンテキストをC(j=1,…,k(i))で表すことにすると、A=(B,C,…,Ck(i))と表すことができる。各コンテキストCには文章選択要素の種類数の情報が含まれる。例えば、図6のコンテキストラベルには、音素、形態素、アクセント句の3種類の文章選択要素が含まれている。
リーフノード決定部131は、母集団文章セットの選択元文章B(i=1,2,…,S、ただし、すでに学習用文章セットの要素となっている文章(以下、このすでに学習用文章セットの要素となっている文章の集合のことを生成済み学習用文章セットという)を除く)に対応する解析後文章Aに含まれるコンテキストC(j=1,…,k(i))について、各パラメータの決定木をたどり、コンテキストCに対応するリーフノードを決定する(S131)。あわせて当該リーフノードの選択頻度を1増加させることで文章選択用情報テーブルを更新する。決定木をたどるとは、コンテキストを表現するために用いられている文章選択要素を用いて、内部ノードに付与されている問いに対してYES−NOを判断し、ルートからリーフノードに向かって進んでいくことをいう。なお、ルートからリーフノードに至るまでの判断結果のノードの列をパスといい、パスに含まれる内部ノード、リーフノードのことをカバーされる内部ノード、リーフノードという。
スコア計算部132は、S131で更新した文章選択用情報テーブル(つまり、生成済み学習用文章セットに選択元文章Bを追加した集合に対応する文章選択用情報テーブル)を用いて、スコアSCを算出する(S132)。なお、生成済み学習用文章セットは最初のS131の処理が始まるまでに空集合で初期化されているものとする。
文章選択におけるスコアの代表的なものとして、カバー率(特許文献1)、エントロピー(非特許文献2)がある。以下では、スコアにカバー率を採用して説明する。文章選択におけるカバー率とは、選択された1以上の文章により(音素環境などの)文章選択要素がどれだけカバーされているかを示す指標である。本実施例では、決定木のリーフノードを用いてカバー率を算出する。リーフノードを用いたカバー率の計算式は次式により表される。
Figure 2017102328
ここで、Nsp、NF0、Ndurはスペクトルパラメータ、音高パラメータ、継続時間長の決定木のリーフノード数である。また、関数osp(k)、oF0(k)、odur(k)は、スペクトルパラメータ、音高パラメータ、継続時間長の決定木のk番目のリーフノードがカバー(選択)されているかどうかを出力する関数である。これらの関数は当該リーフノードの選択頻度が1以上であれば1を、0であれば0を出力する。これにより、学習用文章セット(S131とS132の繰り返し処理の過程では、生成済み学習用文章セットに選択元文章Bを追加した集合)に含まれる文章を用いて3つの決定木に含まれるリーフノードが選択される割合を示すことができる。
スコアを算出した後、S131で更新した文章選択用情報テーブルを更新前の文章選択用情報テーブルに戻す。ただし、S131で更新した文章選択用情報テーブルの情報は文章選択用情報テーブル更新部134で用いるので、元に戻す際に当該情報は文章選択用情報テーブル更新部134が後ほど利用できるよう、コピーするなどして退避しておく。リーフノード決定部131での処理(S131)及びスコア計算部132での処理(S132)を母集団文章セットの選択元文章B、B、…、B(ただし、生成済み学習用文章セットに含まれるものを除く)に対して実行する。
最高スコア文章選択部133は、スコア計算部132が計算したSC、SC、…、SC(ただし、生成済み学習用文章セットの文章に対応するものを除く)のうち、最も高くなるスコア(最高スコア)に対応する選択元文章Bを選択し、生成済み学習用文章セットに追加する(S133)。
文章選択用情報テーブル更新部134は、リーフノード決定部131が選択元文章Bを処理した際に生成した文章選択用情報テーブルの情報により、文章選択用情報テーブルを更新する(S134)。
終了判定部135は、終了条件を満たしているかどうかの判定を行い、満たしている場合、生成済み学習用文章セットを学習用文章セットとして出力する(S135)。終了条件としては、選択された文章数が所定値に達したか(例えば、生成済み学習用文章セットの濃度が|S|/2を超えたか)、S133で計算した最高スコアが所定値に達したか(例えば、最高スコアが0.8を超えたか)などがある。また、これらの組合せであってもよい。なお、最高スコアが所定値に達することがなかったために、すべての選択元文章を生成済み学習用文章セットに追加することもありえる。
変換元モデルの決定木を利用して学習用文章セットを生成するための基準となる(音素、アクセント等の)文章選択要素をモデル適応の過程において動的に設定することにより、文章選択要素においてバランスのとれた学習用文章セットを生成することが可能となる。また、その結果、当該学習用文章セットと同程度の文章量の文章セットを発話した音声データに基づいて生成する合成音声に比して、合成音声の品質が向上する。
実施例1では、スコア計算時に各パラメータのリーフノードを同等に扱っているため、ある特定のパラメータを重視して文章選択を行うことができない。そこで、実施例2では、パラメータに重みづけをしてスコアを計算する。これにより、文章選択の基準として特定のパラメータを重視した形で学習用文章セットを生成することが可能となる。
以下に、実施例1と相違するスコア計算部132の計算式について説明する。スコア計算部132は、次式のようにパラメータごとのサブスコアを算出し、それらの重み付き和としてスコアSCを計算する(S132)。
Figure 2017102328
ここで、wsp、wF0 、wdurはスペクトルパラメータ、音高パラメータ、継続時間長の各パラメータの重みである。
この重みを調整することで、特定のパラメータを重視した文章選択が可能になる。
実施例1及び2では、スコア計算時にリーフノードの情報しか利用しない。相対的には深さが深い位置にあるリーフノードの方が多いため、リーフノードを用いて文章を選択してしまうと、学習用文章セットに偏りが出てしまい、その結果バランスよく適切な文章が選択されない可能性がある。そこで、実施例3では、リーフノードだけでなく、内部ノードも活用してスコア計算を行うこととする。これにより、全体のバランスを考慮した文章選択を行うことが可能となる。
以下、図9、図10を参照して実施例3の文章セット生成装置300について説明する。図9は、実施例3の文章セット生成装置300の構成を示すブロック図である。図10は、実施例3の文章セット生成装置300の動作を示すフローチャートである。図9に示すように文章セット生成装置300は、文章選択用情報テーブル作成部310と、文章選択用情報テーブル記録部103と、テキスト解析部120と、文章選択部330を含む。文章セット生成装置300は、変換元モデル記録部101、選択元文章記録部102と接続している。
実施例1と相違するのは、文章選択用情報テーブル作成部310、文章選択部330である。
文章選択用情報テーブル作成部310は、決定木で表現された変換元モデルから文章選択用情報テーブルを作成し、初期化する(S310)。ここで作成される文章選択用情報テーブルを図11に示す。3つのパラメータ(スペクトルパラメータ、音高パラメータ、継続時間長)について、テーブルが作成される点では実施例1と同じであるが、リーフノードでなく、決定木の深さごとにレコードが作成される点で相違する。スペクトルパラメータの決定木の深さをDsp、深さ1のノード数をNsp、1、深さ2のノード数をNsp、2、…、深さDspのノード数をNsp、Dspとし、深さ1のノードが1〜Nsp、1、深さ2のノードが1〜Nsp、2、…、深さDspのノードが1〜Nsp、Dspで識別されるとすると、スペクトルパラメータの文章選択用情報テーブルは深さ1のノード1〜Nsp、1、深さ2のノード1〜Nsp、2、…、深さDspのノード1〜Nsp、Dspでの選択頻度を保持するテーブルとなる。音高パラメータの文章選択用情報テーブル、継続時間長の文章選択用情報テーブルも同様である。ただし、音高パラメータの決定木の深さをDF0、深さ1のノード数をNF0、1、深さ2のノード数をNF0、2、…、深さDF0のノード数をNF0、DF0とする。また、継続時間長の決定木の深さをDdur、深さ1のノード数をNdur、1、深さ2のノード数をNdur、2、…、深さDdurのノード数をNdur、Ddurとする。文章選択用情報テーブル作成部310では、実施例1同様、各テーブルの各ノードの選択頻度の値を0で初期化する。
文章選択部330は、変換元モデルの決定木を用いて、解析後文章の集合から学習用文章セットを生成する(S330)。以下、図12、図13を参照して文章選択部330の処理について詳細に説明する。図12は、文章選択部330の構成を示すブロック図である。図13は、文選択部330の動作を示すフローチャートである。図12に示すように文章選択部330は、ノード決定部331と、スコア計算部332と、最高スコア文章選択部133と、文章選択用情報テーブル更新部134と、終了判定部135を含む。
ノード決定部331は、母集団文章セットの選択元文章B(i=1,2,…,S、ただし、生成済み学習用文章セットの文章を除く)に対応する解析後文章Aに含まれるコンテキストC(j=1,…,k(i))について、各パラメータの決定木をたどり、ルートからリーフノードに至るまでのパスに含まれる内部ノード、リーフノードを決定する(S331)。あわせて当該ノードの選択頻度を1増加させることで文章選択用情報テーブルを更新する。
スコア計算部332は、S331で更新した文章選択用情報テーブル(つまり、生成済み学習用文章セットに選択元文章Bを追加した集合に対応する文章選択用情報テーブル)を用いて、スコアSCを算出する(S332)。なお、生成済み学習用文章セットは最初のS331の処理が始まるまでに空集合で初期化されているのは、実施例1と同様である。
スコアSCは、各決定木の内部ノードとリーフノードを用いたサブスコアの重み付き和として計算される。
Figure 2017102328
ここで、SCsp,i、SCF0,i、SCdur,iはスペクトルパラメータ、音高パラメータ、継続時間長のサブスコアである。Nsp,d、NF0,d、Ndur,dはスペクトルパラメータ、音高パラメータ、継続時間長の決定木の深さdのノード数である。また、関数osp,d(k)、oF0,d(k)、odur,d(k)は、各パラメータの決定木の深さdのk番目のノードがカバー(選択)されているかどうかを出力する関数である。この関数は当該ノードの選択頻度が1以上であれば1を、0であれば0を出力する。wsp,d、wF0,d、wdur,dは、各パラメータの決定木の深さdの重みを示す。これにより、各パラメータの決定木のノードのうち、どれだけの割合を選択できているか示すことができる。最後に、wsp、wF0、wdurを各パラメータの重みとし、上記サブスコアを用いてSCを計算する。
スコア計算方法を内部ノードも含めたカバー率とすることにより、スコア計算時に内部ノードの選択頻度を考慮したうえで文章選択をすることが可能になる。これにより、一部の部分木のみに偏って文章が選択されてしまうことを避けることが可能になる。その結果、文章選択のための要素がバランスよく選択されるため、実施例1よりも合成音声の品質が向上する。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 決定木として表現される音声合成用モデルである変換元モデルから別の音声合成用モデルである変換後モデルを学習する際に用いる学習用文章セットを、母集団文章セットの部分集合として生成する文章セット生成装置であって、
    前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、
    解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択部と
    を有する文章セット生成装置。
  2. 請求項1に記載の文章セット生成装置であって、
    前記文章選択部は、
    前記解析後文章に対して、当該解析後文章のコンテキストごとに前記決定木をたどることによりカバーされるリーフノードを決定するリーフノード決定部と、
    生成済み学習用文章セットの文章と前記解析後文章によりカバーされるリーフノードの数を用いて前記解析後文章のスコアを計算するスコア計算部と、
    前記スコアが最高になる前記解析後文章に対応する選択元文章を前記生成済み学習用文章セットに追加することにより、前記生成済み学習用文章セットを更新する最高スコア文章選択部と、
    終了条件を満たしている場合、前記生成済み学習用文章セットを前記学習用文章セットとして出力する終了判定部と
    を有する文章セット生成装置。
  3. 請求項1に記載の文章セット生成装置であって、
    前記文章選択部は、
    前記解析後文章に対して、当該解析後文章のコンテキストごとに前記決定木をたどることによりカバーされる内部ノードとリーフノードを決定するノード決定部と、
    生成済み学習用文章セットの文章と前記解析後文章によりカバーされる内部ノードとリーフノードに基づいて算出される数を用いて前記解析後文章のスコアを計算するスコア計算部と、
    前記スコアが最高になる前記解析後文章に対応する選択元文章を前記生成済み学習用文章セットに追加することにより、前記生成済み学習用文章セットを更新する最高スコア文章選択部と、
    終了条件を満たしている場合、前記生成済み学習用文章セットを前記学習用文章セットとして出力する終了判定部と
    を有する文章セット生成装置。
  4. 文章セット生成装置が、決定木として表現される音声合成用モデルである変換元モデルから別の音声合成用モデルである変換後モデルを学習する際に用いる学習用文章セットを、母集団文章セットの部分集合として生成する文章セット生成方法であって、
    前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、
    前記文章セット生成装置が備える解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択ステップと
    を実行する文章セット生成方法。
  5. 請求項1ないし3のいずれか1項に記載の文章セット生成装置としてコンピュータを機能させるためのプログラム。
JP2015236629A 2015-12-03 2015-12-03 文章セット生成装置、文章セット生成方法、プログラム Active JP6479637B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015236629A JP6479637B2 (ja) 2015-12-03 2015-12-03 文章セット生成装置、文章セット生成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015236629A JP6479637B2 (ja) 2015-12-03 2015-12-03 文章セット生成装置、文章セット生成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2017102328A true JP2017102328A (ja) 2017-06-08
JP6479637B2 JP6479637B2 (ja) 2019-03-06

Family

ID=59017208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015236629A Active JP6479637B2 (ja) 2015-12-03 2015-12-03 文章セット生成装置、文章セット生成方法、プログラム

Country Status (1)

Country Link
JP (1) JP6479637B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004138661A (ja) * 2002-10-15 2004-05-13 Nippon Telegr & Teleph Corp <Ntt> 音声素片データベース作成方法、音声合成方法、音声素片データベース作成装置、音声合成装置、音声データベース作成プログラム、音声合成プログラム
JP2004246140A (ja) * 2003-02-14 2004-09-02 Nippon Telegr & Teleph Corp <Ntt> テキスト選択方法、装置及びプログラム
JP2004251953A (ja) * 2003-02-18 2004-09-09 Nippon Telegr & Teleph Corp <Ntt> テキスト選択方法及び装置、プログラム
JP2009237564A (ja) * 2008-03-05 2009-10-15 Panasonic Electric Works Co Ltd 音声合成用データの選択方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004138661A (ja) * 2002-10-15 2004-05-13 Nippon Telegr & Teleph Corp <Ntt> 音声素片データベース作成方法、音声合成方法、音声素片データベース作成装置、音声合成装置、音声データベース作成プログラム、音声合成プログラム
JP2004246140A (ja) * 2003-02-14 2004-09-02 Nippon Telegr & Teleph Corp <Ntt> テキスト選択方法、装置及びプログラム
JP2004251953A (ja) * 2003-02-18 2004-09-09 Nippon Telegr & Teleph Corp <Ntt> テキスト選択方法及び装置、プログラム
JP2009237564A (ja) * 2008-03-05 2009-10-15 Panasonic Electric Works Co Ltd 音声合成用データの選択方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吉岡元貴他: "HMM音声合成における韻律の変動要因の検討", 電子情報通信学会技術研究報告, vol. 101, no. 352, JPN6019002592, October 2001 (2001-10-01), pages 51 - 56 *

Also Published As

Publication number Publication date
JP6479637B2 (ja) 2019-03-06

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP4328698B2 (ja) 素片セット作成方法および装置
US9484012B2 (en) Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US8380508B2 (en) Local and remote feedback loop for speech synthesis
JP2017032839A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP2011013454A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP2008242317A (ja) 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP2019179257A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP5726822B2 (ja) 音声合成装置、方法及びプログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP2012237925A (ja) 音声合成装置とその方法とプログラム
JP6479637B2 (ja) 文章セット生成装置、文章セット生成方法、プログラム
JP6006678B2 (ja) 音声モデル生成装置、方法、プログラム
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP5840075B2 (ja) 音声波形データベース生成装置、方法、プログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2014095851A (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190206

R150 Certificate of patent or registration of utility model

Ref document number: 6479637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150