JP6082657B2

JP6082657B2 - ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム

Info

Publication number: JP6082657B2
Application number: JP2013111680A
Authority: JP
Inventors: 博子村上; 勇祐井島; 水野　秀之; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-05-28
Filing date: 2013-05-28
Publication date: 2017-02-15
Anticipated expiration: 2033-05-28
Also published as: JP2014232145A

Description

本発明は、テキスト情報にポーズを自動的に付与するモデルを選択するポーズ付与モデル選択装置とポーズ付与装置と、それらの方法とプログラムに関する。

従来、音声合成におけるテキストに対するポーズの自動付与では、単語ごとに分かち書きされた入力テキストの各単語の単語表記・品詞・読み等の素性から、特定のドメインの読み上げ口調用に人手で設計した規則によりポーズ付与を行っていた（例えば非特許文献１）。しかし、テキストに対する適切なポーズ位置は、入力テキストのドメインや合成対象の話者の口調によって傾向が大きく異なるため、規則で対象としていないドメインや口調（例：話し言葉で記載されたテキスト・口語口調等）に対して、ポーズ付与性能が低下する。ここでドメインとは、例えばニュース用テキスト、会話用テキスト、童話読み聞かせ用テキストなどの様に目的向けごとに分類された範囲を意味する。

しかし、ドメインや口調が変更される度に規則を設計し直すのは高コストである。そのため、ドメインや口調ごとに正解のポーズ位置のラベルが付与された学習テキストを用いて、機械学習によりポーズ付与モデルを構築し、データドリブンにポーズ付与を行う手法が提案されている（例えば、非特許文献２，３）。

浅野久子ほか、「多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成」、自然言語処理 Vol.6 No.2 pp.59-81 Jan. 1999. 福岡健太ほか、「Support Vector Machinesを用いた日本語書き言葉の文境界推定」、言語処理学会年次大会発表論文集、11th,pp.1221-1224,2005/03/15. 太田健吾ほか、「ポーズを考慮した話し言葉言語モデルの構築」、情報処理学会論文誌、Vol.53(2), pp.889-900.

従来の機械学習によってポーズ付与モデルを構築してデータドリブンにポーズを付与する方法は、正解のポーズ位置のラベルが付与された学習テキストが大量に必要となる課題がある。ポーズ位置のラベルが付いた学習テキストを得るためには、対象とする口調で自然に発話した音声データが必要となる。十分な性能のポーズ付与モデルを構築するためには約５〜６時間分の発話を要するため、発話及びポーズ位置のラベル付け作業に高いコストが掛かる。そのため、ドメインや口調ごとに学習テキストを大量に用意するのは容易ではない。

本発明は、この課題に鑑みてなされたものであり、少量の合成対象のポーズラベル付きテキストのみを用いて、対象のドメイン・口調に対して適切な位置にポーズを付与することができるポーズ付与モデルを、既存のポーズ付与モデルから選択するポーズ付与モデル選択装置とポーズ付与装置と、それらの方法とプログラムを提供することを目的とする。

本発明のポーズ付与モデル選択装置は、複数の言語モデルと、ポーズ付与モデル選択部と、を具備する。複数の言語モデルは、様々なドメインの学習テキストを用いて構築した品詞Ｎ-gramモデルとポーズ付与モデルとの組からなる。ポーズ付与モデル選択部は、ポーズ付与対象のテキスト情報を入力として、当該テキスト情報のパープレキシティを各ドメインの品詞Ｎ-gramモデルを用いて算出し、当該パープレキシティが最も小さいドメインに対応するポーズ付与モデルを選択して選択済みポーズ付与モデルとして出力する。

また、本発明のポーズ付与装置は、上記したポーズ付与モデル選択装置と、ポーズ付与部と、を具備する。ポーズ付与部は、ポーズ付与対象のテキスト情報を入力として、当該テキスト情報にポーズ付与モデル選択装置が出力する選択済みポーズ付与モデルを用いてポーズを付与して出力する。

本発明のポーズ付与モデル選択装置は、ポーズ付与対象のテキスト情報のパープレキシティを各ドメインの品詞Ｎ-gramモデルを用いて算出し、そのパープレキシティの値に基づいて、既存のポーズ付与モデルの中からテキスト情報に適合するポーズ付与モデルを選択する。大量のポーズ付与対象のテキスト情報を用いて新たにポーズ付与モデルを学習する必要がないので、従来法と比較してポーズ付与モデルを準備する工数を大幅に省力化する効果を奏する。

また、本発明のポーズ付与装置は、本発明のポーズ付与モデル選択装置で選択した選択済みポーズ付与モデル１３０を用いて、テキスト情報にポーズを付与するので、適切な位置にポーズを付与することができる。

本発明のポーズ付与モデル選択装置１００の機能構成例を示す図。ポーズ付与モデル選択装置１００の動作フローを示す図。学習テキストの一文の例を示す図。本発明のポーズ付与装置２００の機能構成例を示す図。本発明のポーズ付与装置３００の機能構成例を示す図。本発明のポーズ付与装置４００の機能構成例を示す図。ポーズ付与装置４００の動作フローを示す図。本発明のポーズ付与装置５００の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

〔ポーズ付与モデル選択装置〕
図１に、この発明のポ−ズ付与モデル選択装置１００の機能構成例を示す。その動作フローを図２に示す。ポーズ付与モデル選択装置１００は、複数の言語モデル１１０_１〜１１０_Ｎと、ポーズ付与モデル選択部１２０と、制御部１３０と、を具備する。ポーズ付与モデル選択装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。

言語モデル１１０_１は、学習テキストを用いて構築した品詞Ｎ-gramモデル１１０_１ｗとポーズ付与モデル１１０_１ｐとの組からなる。言語モデル１１０は、ドメインの数に対応した個数（１〜Ｎ個）を備える。図３に、学習テキストの一文の例を示す。図３に示す例は、「今日はいい天気だね」の一文を構成する単語が分かち書きされ、単語表記の他に、品詞と読みなどの素性が付与されている。また、単語直後のポーズ出現有無のラベル（ｐ）が付与されている。

品詞Ｎ-gramモデル１１０_＊ｗ（＊：１〜Ｎ）は、学習テキストの品詞系列をＮ-gramモデルによりモデル化した言語モデルである。Ｎ-gramモデルは、隣接するＮ個の組み合わせの頻度を数えその頻度に応じて確率を付与する確率モデルである。Ｎ-gramモデルの学習方法は、例えば参考文献１（北健二著、「言語と計算確率的言語モデル」、東京大学出版会）に記載されているように周知である。

ポーズ付与モデル１１０_＊ｐは、学習テキストに含まれる単語系列の各単語ごとの単語表記や品詞や読みなどの素性と、ポーズ位置との関係について学習した言語モデルである。ポーズ付与モデル１１０_＊ｐは、ポーズが付与される確率を表す確率モデルである。ポーズ付与モデルの学習には、Ｎ-gramモデルや、ＳＶＭ（Support Vector Machine）や、ＣＲＦ（Conditional Random Fields）等の機械学習が用いられる。何れの手法を用いたポーズ付与モデルであっても問題なく利用することが可能である。

品詞Ｎ-gramモデル１１０_＊ｗとポーズ付与モデル_＊ｐは、ドメインごとの学習テキストを用いて言語モデル学習部１４０で作成される。学習方法は、上記したようにいくつかの種類が存在するが、何れも周知なものである。ポーズ付与モデル選択装置１００は、作成済みの既存の言語モデル１１０_１〜１１０_Ｎを利用するので、言語モデル学習部１４０はポーズ付与モデル選択装置１００の必須の構成ではない。

ポーズ付与モデル選択部１２０は、ポーズ付与対象のテキスト情報を入力とし、当該テキスト情報のパープレキシティ（perplexity）を、各ドメインの品詞Ｎ-gramモデル１１０_＊ｗを用いて算出（ステップＳ１２０）して、当該パープレキシティが最も小さいドメインに対応するポーズ付与モデル１１０_＊ｐを選択済みポーズ付与モデルとして出力する（ステップＳ１２１）。ステップＳ１２０の処理は、全てのドメインの品詞Ｎ-gramモデル１１０_＊ｗについて行われるまで繰り返される（ステップＳ１５０のＮｏ）。この繰り返し動作の制御は制御部１３０で行う。制御部１３０は、ポ−ズ付与モデル選択装置１００の各部の時系列動作を制御する一般的なものであり、特別な処理を行うものではない。他の実施例についても同様である。

ポーズ付与モデル選択部１２０は、各ドメインの品詞Ｎ-gramモデル１１０_＊ｗから算出されるテキスト情報の品詞系列のパープレキシティを用いて、テキスト情報に最も近いドメインのポーズ付与モデルを選択する。ポーズ付与対象のテキスト情報の品詞系列をＸ_１ ^Ｌ＝（ｘ_１，ｘ_２，…，ｘ_Ｌ）とすると、品詞Ｎ-gramモデル１１０_＊ｗにおける品詞系列Ｘ_１ ^Ｌの生起確率Ｐ（Ｘ_１ ^Ｌ）は次式で表せる。

この式に基づき、品詞系列Ｘ_１ ^Ｌ＝（ｘ_１，ｘ_２，…，ｘ_Ｌ）における品詞Ｎ-gramモデル１１０_＊ｗのパープレキシティＰＰは次式で定義される。

パープレキシティとは、品詞１個が出現する確率の相乗平均の逆数を表しており、別の見方をすると、ある品詞の後に接続しうる品詞数の平均ということができ、平均分岐数とも称される。

つまり、ポーズ付与対象のテキスト情報の品詞系列に対するパープレキシティが小さいほど、その系列に対して高い確率を与える言語モデルであるということを示している。そのため、この実施例では、パープレキシティが最も小さい品詞Ｎ-gramモデル１１０_＊ｗに対応するポーズ付与モデル１１０_＊ｐを選択して選択済みポーズ付与モデルとして出力する。

以上のように動作するポーズ付与モデル選択装置１００によれば、ポーズ付与対象のテキストと同様のドメインのテキストを大量に用意して、対象とするテキストのドメインに依存したポーズ付与モデルを作成することなく、既存のポーズ付与モデルの中からポーズ付与対象のテキスト情報に適合するモデルを選択することが可能になる。パープレキシティを比較するためのテキストは１文から可能であるため、従来法と比較してポーズ付与モデルを準備する工数を大幅に省力化する効果を奏する。
〔ポーズ付与装置〕
図４に、この発明のポーズ付与装置２００の機能構成例を示す。ポーズ付与装置２００は、上記したポーズ付与モデル選択装置１００で選択した選択済みポーズ付与モデル１５０を用いて、テキスト情報にポーズを付与するものである。

ポーズ付与装置２００は、ポーズ付与モデル選択装置１００の構成に加えてポーズ付与部２６０を備える点で異なる。ポーズ付与部２６０は、ポーズ付与対象のテキスト情報を入力として、当該テキスト情報に、ポーズ付与モデル選択装置１００で選択した選択済みポーズ付与モデル１５０を用いてポーズを付与する。

ポーズ付与部２６０は、ポーズ付与対象のテキスト情報の各単語の品詞や読み等の素性をポーズ付与モデルに入力することで、各単語境界におけるポーズ挿入確率がポーズ付与モデルから算出される。算出された確率を元に、各単語境界に対してポーズ挿入の有無の２値のラベルが付与される。ポーズ推定方法は、ポーズ付与モデルを構築した機械学習の手法により異なる。具体例としては、非特許文献２，３に開示された方法と同じ方法を用いることができる。

ポーズ付与装置２００によれば、ポーズ付与対象のテキストのドメインに適合した選択済みポーズ付与モデル１５０を用いて、テキスト情報にポーズを付与するので、適切な位置にポーズを付与することができる。次に、話者の口調の違いにも対応できるようにしたポーズ付与装置３００を説明する。

図５に、この発明のポーズ付与装置３００の機能構成例を示す。ポーズ付与装置３００は、ポーズ付与装置２００に対して、言語モデル３１０_＊が２つ組Ｎ-gramモデル３１０_＊ｗとポーズ付与モデル３１０_＊ｐとの組から構成される点で異なる。

２つ組Ｎ-gramモデル３１０_＊ｗは、口調の異なるポーズ付き学習テキストから（品詞，ポーズ有無）の２つ組の系列を作成し、Ｎ-gramモデルによりモデル化した言語モデルである。（品詞，ポーズ有無）とは、図３に示した例では３行目の品詞と５行目のポーズ有無の情報のことである。口調とは、アナウンサー口調や読み聞かせ口調など、あらゆる種類が想定でき、それぞれの種類ごとに言語モデル３１０_＊が構築される。

ポーズ付与モデル選択部３２０は、合成対象の話者のポーズラベル付テキストを入力とし、当該ポーズラベル付テキストのパープレキシティを、２つ組みＮ-gramモデルを用いて算出して当該パープレキシティが最も小さいドメインに対応するポーズ付与モデル３１０_＊ｐを選択済みポーズ付与モデル３５０として出力する。

ポーズ付与部２６０は、ポーズ付与装置２００と同じものである。

ポーズ付与装置３００は、話者の口調依存のポーズ位置ラベル付きテキストから構築した言語モデルを、パープレキシティの値に応じて選択するので、話者の特徴を表したポーズ推定を行うことが可能である。

図６に、この発明のポーズ付与装置４００の機能構成例を示す。その動作フローを図７に示す。ポーズ付与装置４００は、言語モデル４１０_＊にポーズ付与モデルを含まない点と、ポーズ付与モデル学習部４７０を備える点でポーズ付与装置２００，３００と異なる。

ポーズ付与装置４００は、合成対象の話者とポーズ出現傾向が近い口調の学習テキストを複数選択し、合成対象の話者のポーズラベル付テキストと合わせて重み付けしてポーズ付与モデルを学習し、ポーズ付与を行うものである。言語モデル４１０_＊は、様々な異なる口調の学習テキストを用いて構築した２つ組Ｎ-gramモデル４１０_＊ｗと、当該学習テキスト４１０_＊ｔとの組からなる。２つ組Ｎ-gramモデル４１０_＊ｗは、ポーズ付与装置３００のものと同じである。

ポーズ付与モデル学習部４７０は、合成対象の話者のポーズ付きテキスト情報を入力として、当該ポーズラベル付きテキスト情報から２つ組の系列を作成し、当該２つ組の系列の各口調の２つ組Ｎ-gramモデル４１０_＊ｗにおけるパープレキシティを算出し、当該パープレキシティが小さい２つ組Ｎ-gramモデル４１０_＊ｗの口調に対応する学習テキスト４１０_＊ｔをパープレキシティが小さい順にＮ個選択し、当該選択したＮ個の学習テキストと合成対象の話者のポーズ付きテキストとを重み付きで足し合わせてポーズ付与モデルの学習を行いポーズ付与モデルを出力する（ステップＳ４７０）。ポーズ付与部２６０は、ポーズ付与装置２００と同じものである（ステップＳ２６０）。

合成対象の話者のポーズ付きテキスト情報は、言語モデル４１０_＊の学習テキスト４１０_＊ｔと比較して少量（１０〜１５分）である。その合成対象の話者のポーズ付きテキスト情報に対して、学習テキスト４１０_＊ｔは例えば２〜３時間の発話時間に相当する量である。

このように合成対象の話者のポーズ付きテキスト情報は量が少ない一方、話者の特徴を最も強く反映した学習テキストと言えるため、全体に対する重みは大きくなるように設定することが望ましい。重みの設定方法としては、例えば合成対象の話者のポーズ付きテキスト内の全２つ組Ｎ-gramモデル数が、学習テキスト全体の２つ組Ｎ-gramモデル数の１/１０程度を占めるように設定する方法が考えられる。具体的には、選択されたＮ個の学習テキストと出現回数をＷ倍した合成対象の話者のテキストを新たな学習テキストとしてポーズ付与モデルを学習する方法が、シンプルかつ有効な方法として知られている。

又は、パープレキシティが小さい口調に対応するポーズ付与モデルをパープレキシティが小さい順にＮ個選択し、選択された各口調モデルから算出されるＮ-gram確率を、パープレキシティの値を基準として重み付きで足し合わせ、新たな確率を算出する方法も考えられる。

ポーズ付与装置４００によれば、大量の学習テキストと共に、少量の合成対象の話者のポーズ付きテキストを、ポーズ付与モデルの学習に用いるので、ポーズ付与の精度を高めたポーズ付与モデルを効率的に作成することができ、精度の良いポーズ付与を行うことができる。

図８に、この発明のポーズ付与装置５００の機能構成例を示す。ポーズ付与装置５００は、上記したポーズ付与装置２００（図４）でポーズを付与した確率の高い上位Ｎ候補のポーズ付与結果と、上記したポーズ付与装置３００（図５）で選択したパープレキシティが最も小さい値を示す口調の２つ組Ｎ-gramモデルと、を入力とする。

図８では、それぞれの装置が出力するものが説明済みの装置と異なるので、それぞれの装置の参照符号に′を付けてポーズ付与装置２００′と３００′として表記している。ポーズ付与装置２００′は、確率が最も高いポーズ付与結果を１個出力したポーズ付与装置２００に対して、確率の高い上位Ｎ候補のポーズ付与結果５１０を出力する。ポーズ付与装置３００′は、ポーズ付与モデルを選択して出力するポーズ付与モデル選択部３２０（図５）を、２つ組Ｎ-gramモデル５２０を選択して外部に出力するように変更したものである。

ポーズ決定部５３０は、確率の高い上位Ｎ候補のポーズ付与結果５１０の各候補におけるパープレキシティを２つ組Ｎ-gramモデル５２０を用いて計算し、当該計算結果のうち最もパープレキシティが小さいポーズ付与結果を選択して出力する。ポーズ決定部５３０は、確率の高い上位Ｎ候補のポーズ付与結果５１０と、２つ組Ｎ-gramモデル５２０と、が入力されれば良いので、それらを予め各装置で作成しておけばポーズ付与装置２００′と３００′は不要である。よって、図８ではそれぞれを破線で表記している。

ポーズ付与装置５００によれば、確率の高い上位Ｎ候補のポーズ付与結果５１０と２つ組Ｎ-gramモデル５２０とを組み合わせて用いるので、合成対象の話者のポーズ付きテキストのドメインと口調の両方に適したポーズ付与を行うことができる。

以上説明したようにポーズ付与モデル選択装置１００によれば、大量のテキスト情報から作成されたドメインごとのポーズ付与モデルを、ポーズ付与対象の少量のテキスト情報と品詞Ｎ-gramモデルとから求めたパープレキシティの値に応じて、ポーズ付与対象のテキスト情報に適合するポーズ付与モデルを選択するので、ポーズ付与モデルを準備する工数を、従来に比べて大幅に削減することができる。また、ポーズ付与装置２００，３００によれば、ポーズ付与対象のテキスト情報に適合した選択済みポーズ付与モデルを用いて、テキスト情報にポーズを付与するので、適切な位置にポーズを付与することができる。また、ポース付与装置４００と５００は、上記した効果を奏する。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

様々なドメインの学習テキストを用いて構築した品詞Ｎ-gramモデルとポーズ付与モデルとの組からなる複数の言語モデルと、
ポーズ付与対象のテキスト情報を入力として、当該テキスト情報のパープレキシティを上記各ドメインの品詞Ｎ-gramモデルを用いて算出し、当該パープレキシティが最も小さいドメインに対応するポーズ付与モデルを選択済みポーズ付与モデルとして出力するポーズ付与モデル選択部と、
を具備するポーズ付与モデル選択装置。
請求項１に記載したポーズ付与モデル選択装置と、
上記ポーズ付与対象のテキスト情報を入力として、当該テキスト情報に上記選択済みポーズ付与モデルを用いてポーズを付与して出力するポーズ付与部と、
を具備するポーズ付与装置。
請求項２に記載したポーズ付与装置において、
上記複数の言語モデルは、様々な異なる口調の学習テキストを用いて構築した当該口調ごとの品詞とポーズ有無の２つ組Ｎ-gramモデルとポーズ付与モデルとの組からなる複数の言語モデルであり、
上記ポーズ付与モデル選択部は、合成対象の話者のポーズラベル付テキストを入力として、当該ポーズラベル付テキストのパープレキシティを上記２つ組Ｎ-gramモデルを用いて算出し、当該パープレキシティが最も小さいドメインに対応するポーズ付与モデルを選択済みポーズ付与モデルとして出力するもの、
であることを特徴とするポーズ付与装置。
様々な異なる口調の学習テキスト用いて構築した品詞とポーズ有無の２つ組Ｎ-gramモデルと当該学習テキストとの組からなる複数の言語モデルと、
合成対象の話者のポーズラベル付きテキスト情報を入力として、当該ポーズラベル付テキストから品詞とポーズ有無の２つ組の系列を作成し、当該２つ組の系列の各口調の２つ組Ｎ-gramモデルにおけるパープレキシティを算出し、当該パープレキシティが小さい２つ組Ｎ-gramモデルの口調に対応する学習テキストをパープレキシティが小さい順にＮ個選択し、当該選択したＮ個の学習テキストと上記合成対象の話者のポーズラベル付きテキストを重み付きで足し合わせてポーズ付与モデルの学習を行いポーズ付与モデルを出力するポーズ付与モデル学習部と、
上記合成対象の話者のポーズラベル付きテキスト情報を入力として、当該テキスト情報に上記ポーズ付与モデルを用いてポーズを付与して出力するポーズ付与部と、
を具備するポーズ付与装置。
請求項２に記載したポーズ付与装置でポーズを付与した確率の高い上位Ｎ候補のポーズ付与結果と、請求項３に記載したポーズ付与装置で選択したパープレキシティが最も小さい値を示すドメインの品詞とポーズ有無の２つ組Ｎ-gramモデルと、を入力として、
上記上位Ｎ候補のポーズ付与結果の各候補におけるパープレキシティを上記２つ組Ｎ-gramモデルを用いて計算し、当該計算結果のうち最もパープレキシティが小さいポーズ付与結果を出力するポーズ決定部を、
具備するポーズ付与装置。
ポーズ付与対象のテキスト情報を入力として、様々なドメインの学習テキストを用いて構築した品詞Ｎ-gramモデルとポーズ付与モデルとの組からなる複数の言語モデルを参照し、上記テキスト情報のパープレキシティを、様々なドメインの学習テキストを用いて構築した品詞Ｎ-gramモデルを用いて算出した当該パープレキシティが最も小さいドメインに対応するポーズ付与モデルを、選択済みポーズ付与モデルとして出力するポーズ付与モデル選択過程を備えるポーズ付与モデル選択方法。
請求項６に記載したポーズ付与モデル選択方法と、
上記ポーズ付与対象のテキスト情報を入力として、当該テキスト情報に上記選択済みポーズ付与モデルを用いてポーズを付与して出力するポーズ付与過程と、
を備えるポーズ付与方法。
請求項１に記載したポーズ付与モデル選択装置、請求項２乃至５の何れかに記載したポーズ付与装置としてコンピュータを機能させるためのプログラム。