JP2004151527A

JP2004151527A - 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム

Info

Publication number: JP2004151527A
Application number: JP2002318341A
Authority: JP
Inventors: Yoichi Fujii; 洋一藤井; Yasushi Ishikawa; 泰石川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-10-31
Filing date: 2002-10-31
Publication date: 2004-05-27

Abstract

【課題】入力テキストに含まれるフォーマルな文章、砕けた文章、楽しそうな文章等の多様なスタイルを自動的に判別して、スタイルに相応しい合成音声を生成する。
【解決手段】スタイル情報付きの学習テキストセットから文抽出手段１で文を抽出し、各文を形態素解析手段２で形態素解析辞書１１を用いて解析して形態素列を作成し、スタイル学習手段３にて個々の文の形態素毎の発生頻度と当該文のスタイルとの相関関係を学習してスタイル判定情報記憶部１３に格納する。その後、この学習結果をスタイル判定手段４にて任意の処理対象テキストに適用してスタイルを自動判別し、文毎のスタイルの相違を、アクセント句決定手段５、韻律制御手段６、合成音作成手段７、音声出力手段８による合成音の生成過程に反映させて、各文のスタイルに相応しい合成音声を出力する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラムに関するものである。
【０００２】
【従来の技術】
従来の音声合成装置における読み上げスタイルの指定として、特許文献１に開示された「テキスト音声変換装置」では、あらかじめ読み上げのスタイル（通常スタイル、朗読調、会話調など）を利用者が指定することで、指定されたスタイルに応じた合成音を出力する方法が開示されている。
【０００３】
また、音声合成を対象とはしていないが、文章のスタイルを判定する方法として、特許文献２に開示された「自然言語解析方式」では、あらかじめ、文体を判定するための（条件、結論）の組を記述した文体判定規則を用意しておき、テキスト中に出現する単語や、品詞の割合などを条件とし、条件が一致した場合に結論に記述された確信度に基づき文体を判定する方法が開示されている。
【０００４】
上記従来技術のうち、特許文献２に開示された「自然言語解析方式」について詳細に説明する。ただし、特許文献２の技術は、文体判定についてのみの従来技術であるため、文体判定の方法についてのみ説明する。
【０００５】
まず、構成を以下に示す。図１６は従来方式の概略図である。従来の文体判定方式は、形態素解析手段１０１、文体判定手段１０２、形態素解析辞書１１１、文体判定規則記憶部１１２からなる。テキストを解析するための形態素解析辞書１１１は、見出し、品詞を格納している。また、文体判定規則記憶部１１２は、形態素列から文体を判定するための判定規則を格納している。
形態素解析手段１０１は、形態素解析辞書１１１を利用してテキストを形態素に分割する動作を行う。文体判定手段１０２は、形態素解析手段１０１で分割した形態素列と、文体判定規則記憶部１１２に格納された文体判定規則から文体を判定する動作を行う。
【０００６】
図１７は、文体判定規則記憶部１１２に格納された文体判定規則の例を示すもので、規則番号２０で示される判定規則１２１は、条件部に「自立語の数に占める動詞もしくはサ変名詞の割合が１０％以下」、結論部に「見出し文体［確信度０．８］」と記載されており、自立語の数に占める動詞もしくはサ変名詞の割合が１０％以下ならば、見出し文体である可能性が０．８であると判断することを示している。規則番号２１、規則番号３５でそれぞれ示される判定規則１２２、判定規則１２３も同様である。
【０００７】
次に、処理の流れを説明する。
文体判定対象のテキストとして『○○電機、「××」最上位機種、１７０、８５メガバイトの２種』が入力された場合、形態素解析手段１０１によって『○○電機（名詞）／「（記号）／××（名詞）／」（記号）／最上位（名詞）／機種（名詞）／１７０（数詞）／８５（数詞）／メガバイト（名詞）／の（助詞）／２（数詞）／種（名詞）』と解析される。ただし、ここで、「（）」は品詞を示し、「／」は形態素の切れ目を示すものとする。次に文体判定手段１０２によって、解析された形態素列に対して、文体判定規則記憶部１１２に格納された判定規則を順番にチェックする。
【０００８】
図１７の文体判定規則の例では、規則番号２０の判定規則１２１と、規則番号２１の判定規則１２２の条件部を満足するため、それぞれ見出し文体に対する確信度が０．８、０．７となり、全体で１．５の確信度となる。したがって、『○○電機、「××」最上位機種、１７０、８５メガバイトの２種』は見出し文体と判定される。
【０００９】
【特許文献１】
特開平１０−０１１０８３号公報
【特許文献２】
特開平３−１２５２６１号公報
【００１０】
【発明が解決しようとする課題】
以上のように、先行事例では、あらかじめ文体を判定するための条件部と結論部の記述を用意して、その条件に一致するものに対して、結論部の文体とその確信度を抽出して、それらの確信度を合計することで文体を決定する。文体として、見出し、箇条書き、普通の文といったテキスト中の文の形態として明らかな文体を抽出しようとする場合には、テキストの形態上の明らかな特徴として、品詞や、個別の形態素および形態素列に関係する条件を条件部に設定することで記述できるが、条件部での閾値や、結論部での確信度をどれくらいに設定すればよいかといったことを判断することが経験則に頼らざるをえず、最適な値を決定することが難しい。
【００１１】
また、見出し、箇条書き、普通の文といったテキストの構造による文体でなく、文章全体、または段落のような部分的なテキストにおける文章に特有の表現形式としての文体（たとえば、フォーマルな文章、砕けた文章、楽しそうな文章。以下では、テキストの構造による文体と区別するため、スタイルと呼ぶ）を決定する場合には、条件を品詞レベルで記述することは困難であり、個別の単語、および単語が持つ属性を考慮して記述する必要があるという課題があった。
【００１２】
さらに、別の先行技術として、上述の「テキスト音声変換装置」（特許文献１）では、文章のスタイルを利用者が指定せねばならず、わずらわしいという課題があった。
【００１３】
この発明は、上記のような課題を解決するためになされたもので、個別の単語および単語が持つ属性を考慮してスタイル決定のための条件を記述する等の煩雑な処理を必要とすることなく、処理対象テキストから、フォーマルな文章、砕けた文章、楽しそうな文章などといった文章のスタイルを自動的に決定して、それらのスタイルに基づき合成音声を生成することを目的とする。
【００１４】
また、この発明は、文章のスタイルを利用者に指定させる等の煩雑な処理を必要とすることなく、処理対象テキストから、フォーマルな文章、砕けた文章、楽しそうな文章などといった文章の多様なスタイルを自動的に判別して、それらのスタイルに基づき合成音声を生成することを目的とする。
【００１５】
また、この発明は、個別の単語および単語が持つ属性を考慮してスタイル決定のための条件を記述する等の煩雑な処理を必要とすることなく、処理対象テキストから、フォーマルな文章、砕けた文章、楽しそうな文章などといった文章のスタイルを自動的に決定することを目的とする。
【００１６】
【課題を解決するための手段】
この発明に係る音声合成装置は、音声合成の処理対象テキストを形態素解析辞書に基づいて形態素列に分割する形態素解析手段と、前記処理対象テキストに対する前記形態素解析手段の出力と、予め蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定手段と、判定された前記スタイルが反映するように前記処理対象テキストの音声合成を行う音声合成手段とを含むものである。
【００１７】
この発明に係るスタイル判定装置は、処理対象テキストを形態素解析辞書に基づいて形態素列に分割する形態素解析手段と、前記処理対象テキストに対する前記形態素解析手段の出力と予め蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定手段とを含むものである。
【００１８】
この発明に係る音声合成方法は、スタイルが未知の処理対象テキストの形態素列の統計情報と、予め記憶手段に蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定ステップと、判定された前記スタイルが反映するように前記処理対象テキストの音声合成を行う合成音作成ステップとを含むものである。
【００１９】
この発明に係るスタイル判定方法は、スタイルが未知の処理対象テキストの形態素列の統計情報と、予め記憶手段に蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定ステップを含むものである。
【００２０】
この発明に係るプログラムは、コンピュータを、入力された処理対象テキストを形態素列に分割する形態素解析手段と、スタイルが既知の学習テキストの形態素列の統計情報と当該既知のスタイルとの関係の学習結果と処理対象テキストの前記形態素列の統計情報とから当該処理対象テキストのスタイルを判定するスタイル判定手段と、判定された前記スタイルが反映するように前記処理対象テキストの音声合成を行う音声合成手段として機能させるものである。
【００２１】
この発明に係るプログラムは、コンピュータを、入力された処理対象テキストを形態素列に分割する形態素解析手段と、スタイルが既知の学習テキストの形態素列の統計情報と当該既知のスタイルとの関係の学習結果と、処理対象テキストの前記形態素列の統計情報とから当該処理対象テキストのスタイルを判定するスタイル判定手段として機能させるものである。
【００２２】
【発明の実施の形態】
以下、この発明の実施の形態を説明する。
実施の形態１．
図１は、本発明の一実施の形態である音声合成方法を実施する音声合成装置の構成の一例を示す概念図である。
この図１に例示される本実施の形態の音声合成装置は、文抽出手段１、形態素解析手段２、スタイル学習手段３、スタイル判定手段４、アクセント句決定手段（音声合成手段）５、韻律制御手段（音声合成手段）６、合成音作成手段（音声合成手段）７、音声出力手段（音声合成手段）８、形態素解析辞書１１、音響辞書１２、スタイル判定情報記憶部１３からなる。
テキストを解析するための形態素解析辞書１１には、単語の見だし、品詞、モーラ数、アクセント型が格納されている。音響辞書１２には、音声合成の処理対象テキストを解析した結果得られた読み、アクセント、韻律パラメータを元に合成音を作成するための音素片が格納されている。スタイル判定情報記憶部１３には、処理対象テキストを解析した形態素列に対してテキストのスタイルを判定するための情報が格納される。
【００２３】
国文法では、単語は、自立語と付属語に大別され、さらに自立語は、名詞、連体詞、副詞、接続詞、感動詞等の活用しない単語と、動詞、形容詞、形容動詞等の活用する単語（用言）に分かれる。また付属語は、活用しない助詞と、活用する助動詞に分かれる。本実施の形態では、形態素は単語を指している。
【００２４】
文抽出手段１は、スタイル情報付きの学習テキストと、音声合成の処理対象テキストの各々から文を抽出し、文ごとに次の手段にデータを送る動作を行う。文抽出の方法としては、従来行われている句点による分割などの既知の分割手段を用いる。
【００２５】
形態素解析手段２は、文抽出手段１から出力された文を入力とし、形態素解析辞書１１を用いて解析し、形態素列を作成する動作を行う。この形態素解析手段２としては、最長一致、文節数最小法、およびコスト最小法などの既知の形態素解析アルゴリズムを用いて処理するものである（たとえば、首藤公昭，吉村賢治「日本語の構造とその解析」、情報処理Ｖｏｌ．２７，Ｎｏ．８，ｐｐ．９４７〜９５４，１９８６）。
【００２６】
スタイル学習手段３は、学習テキストを形態素解析手段２にて切り出した形態素列と、学習テキストに与えられたスタイルから、スタイルと形態素の重み付け情報を学習し、スタイル判定情報記憶部１３に記憶させる動作を行う。スタイルと形態素の重み付けの方法としては、たとえば、形態素を横軸、スタイルを縦軸とした２次元の表に出現した頻度を加算していき、その頻度を元に重み付けを行う方法がある。
【００２７】
スタイル判定手段４は、処理対象テキストを、同様に形態素解析手段２で処理した形態素列に対して、各形態素の頻度を集計し、スタイル判定情報記憶部１３に格納された重み付け情報との演算処理を行うことで、最も適当と判断されるスタイルを決定する動作を行う。アクセント句決定手段５は、形態素解析手段２で解析された形態素列を元に、アクセント句の決定と、アクセント型の決定を行う。韻律制御手段６は、アクセント句決定手段５で決定されたアクセント句とアクセント型の情報と、スタイル判定手段４で決定されたスタイルに基づき、韻律パラメータを決定する動作を行う。
【００２８】
合成音作成手段７は、スタイル判定手段４で決定したスタイルに従って、韻律パラメータを選択し、音響辞書１２の音素片を接続して合成音を作成する動作を行う。さらに、音声出力手段８は、合成音作成手段７によって作成された合成音を出力する動作を行う。
【００２９】
なお、図１に例示される音声合成装置および後述の各ステップの処理は、図示しないコンピュータシステムおよび当該コンピュータシステムを動作させるプログラムで実現でき、このプログラムは、当該コンピュータシステムにて読み取り可能な記録媒体に記録され、この記録媒体から読出して実装および実行が可能である。
【００３０】
すなわち、特に図示しないが一例として、コンピュータシステムが入出力装置と、マイクロプロセッサ等のＣＰＵと、主記憶装置と、外部記憶装置とを含む場合、文抽出手段１、形態素解析手段２、スタイル学習手段３、スタイル判定手段４、アクセント句決定手段５、韻律制御手段６、合成音作成手段７の各手段は、主記憶装置に格納された前記プログラムをＣＰＵに実行させることによって実現され、音声出力手段８は、スピーカ等の音響出力装置で実現される。また、形態素解析辞書１１、音響辞書１２、スタイル判定情報記憶部１３は、外部記憶装置あるいは主記憶装置上にファイル等のデータとして格納することができる。学習テキストセットや処理対象テキストは、キーボード等の入力装置や、外部記憶装置に格納されたファイルから入力することができる。
【００３１】
図２は、本実施の形態の音声合成装置における合成方法の処理の一例を示すフロー図である。各ステップは、図１の構成図の各手段に対応し、文抽出手段１から音声出力手段８の各々の手段が、文抽出ステップＳＴ１から音声出力ステップＳＴ８の各々に対応した処理を実行する。
【００３２】
図３は、本実施の形態の音声合成装置におけるスタイル判定情報学習処理の具体的な処理フローである。ステップＳＴ２１〜ＳＴ２３が文抽出ステップＳＴ１での処理に対応し、ステップＳＴ２４が形態素解析ステップＳＴ２での処理に対応する。さらにステップＳＴ２５とステップＳＴ２６がスタイル学習ステップＳＴ３に対応する。
【００３３】
図４は、本発明の音声合成装置におけるスタイル判定機能付きテキスト音声合成処理の処理対象テキストが入力され、処理対象テキストに対してスタイルが決定されるまでのスタイル判定処理の具体的な処理フローである。ステップＳＴ３１とステップＳＴ３２が文抽出ステップＳＴ１での処理に対応し、ステップＳＴ３３が形態素解析ステップＳＴ２での処理に対応する。さらに、ステップＳＴ３４とステップＳＴ３５がスタイル判定ステップＳＴ４に対応する。
【００３４】
図５は、本発明の音声合成装置の実施例における学習テキスト例Ｔ１を示した図であり、２１の＜＞で囲まれた部分は、学習テキスト例Ｔ１のスタイル例である。また、２２、２３は、学習テキスト例Ｔ１の文例を示している。図６も同様に学習テキスト例Ｔ２であり、２６は学習テキスト例Ｔ２のスタイル例である。また、２７は、学習テキスト例Ｔ２の文例を示している。
【００３５】
図７は、図５の学習テキスト例Ｔ１を形態素解析手段２で解析した形態素列の例を示しており、３１は、学習テキスト例Ｔ１の文例解析結果例を示している。また、図８は、同様に図６の学習テキスト例Ｔ２を形態素解析手段２で解析した形態素列の例を示しており、３６は、学習テキスト例Ｔ２の文例解析結果例を示している。
なお、以下で示すタームは、実施の形態１においては形態素を示している。
【００３６】
図９は、本実施の形態でのスタイル学習手段３によって集計され、スタイル判定情報記憶部１３に格納されたスタイル判定学習データの頻度集計結果の例を示す頻度学習テーブル４０であり、文章のスタイル４０ａの種別毎にターム４０ｂの各々の出現頻度が記録される。たとえば、この頻度学習テーブル４０において、４１は、ターム「え（感動詞）」のスタイル＜砕けた文章＞に対する頻度であるスタイル学習情報頻度例である。
【００３７】
また、図１０は、頻度学習テーブル４０に例示されたスタイル判定学習データの頻度集計結果例に対して重み付けを行い、スタイルごとに長さ１のベクトルとして正規化したスタイル学習データの重み付け学習結果テーブル５０（統計情報）の例であり、文章のスタイル５０ａの種別毎にターム５０ｂの各々の発生頻度に重み付けをした結果が記録される。たとえば、この重み付け学習結果テーブル５０において、５１は、ターム「え（感動詞）」のスタイル＜砕けた文章＞に対する重みであるスタイル学習情報重み付け例、５２は、スタイル＜砕けた文章＞のスタイルベクトル例である。
【００３８】
図１１は、処理対象テキスト６０の例であり、６１、６２はともに処理対象テキスト文例である。図１２は処理対象テキスト６０を形態素解析した結果の例であり、それぞれ、７１は処理対象テキスト文例６１の形態素解析結果である処理対象テキスト文解析結果例、７２は処理対象テキスト文例６２の形態素解析結果である処理対象テキスト文解析結果例を示している。
【００３９】
図１３は、図１１の処理対象テキスト６０から形態素解析結果に基づき頻度集計した結果を示しており、８１は処理対象テキスト頻度ベクトル例、８２は長さ１のベクトルとして正規化した処理対象テキストベクトル例である。また８３は、スタイルとの類似度を示すスタイル類似度計算結果例である。
【００４０】
次に動作について説明する。
まず、スタイル判定情報学習処理について説明する。
図５の学習テキスト例Ｔ１、図６の学習テキスト例Ｔ２を含む学習テキストセットが文抽出ステップＳＴ１に渡されると、ステップＳＴ２１で、全てのテキストセットが処理されたかを判断し、未処理のテキストセットが存在するならばステップＳＴ２２に処理を移す。最初に処理される時点では、学習テキストセットには、学習テキスト例Ｔ１、学習テキスト例Ｔ２が未処理のテキストとして残っているので、ステップＳＴ２３に処理が移り、たとえば、学習テキスト例Ｔ１が選択され、学習テキスト例Ｔ１の文例２２が抽出され、ステップＳＴ２４に渡す。
【００４１】
次に、ステップＳＴ２４では、学習テキスト例Ｔ１の文例２２を形態素解析し、図７の学習テキスト例Ｔ１の文解析結果例３１を生成する。ここで「／」は形態素の区切り、「（）」の中が品詞を表している。なお、一般には、フィラーは、話し言葉で起こるあいづちや挿入的な音声ことばを総称するが、本形態素解析では、話し言葉で現れる語末、語中の母音の引き伸ばしなどを解析するための形態素と定義する。
【００４２】
ステップＳＴ２４での形態素解析処理が終了すると、学習テキスト例Ｔ１の文解析結果例３１はステップＳＴ２５に渡される。ステップＳＴ２５では、形態素解析結果から、学習対象となる形態素を抽出して（形態素：品詞，スタイル，頻度）の組を作成する。ここでは、すべての形態素を対象として頻度集計することにし、「見出し（品詞）」を処理単位のタームとする。したがって、形態素結果と、学習テキスト例Ｔ１のスタイル例２１から、（え：感動詞，＜砕けた文章＞，１）、（〜：フィラー，＜砕けた文章＞，２）、（いい：形容詞，＜砕けた文章＞，１）、（な：終助詞，＜砕けた文章＞，１）が抽出され、図９の頻度学習テーブル４０で対応する（ターム，スタイル）の位置の頻度をカウントアップする。
【００４３】
すなわち、スタイル学習情報頻度例４１の（え：感動詞，＜砕けた文章＞）の頻度を１加算する。さらに、他の形態素に対しても同様に頻度を追加する。
【００４４】
ステップＳＴ２５で頻度の追加が終わると、処理はステップＳＴ２２に戻り、全てのテキストを処理したかを判断する。学習テキスト例Ｔ１の文例２２が終了した時点では、学習テキスト例Ｔ１の文例２３以降が残っており、ステップＳＴ２３に処理を移す。ステップＳＴ２３では、学習テキスト例Ｔ１の文例２３を抽出し、ステップＳＴ２４に送る。ステップＳＴ２４では、学習テキスト例Ｔ２の文解析結果例３６を生成し、ステップＳＴ２５で、頻度を加算する。このように、順次ステップＳＴ２２からステップＳＴ２５までの処理を繰り返し、学習テキストセットに文が無くなるとステップＳＴ２１に処理を戻す。ステップＳＴ２１で、図６の学習テキスト例Ｔ２が選択され、学習テキスト例Ｔ２の文例２７に対して、学習テキスト例Ｔ２の文解析結果例３６を生成し頻度を加算するというステップＳＴ２２〜ＳＴ２５の処理を繰り返す。最終的にステップＳＴ２１で、処理すべきテキストが学習テキストセット中になくなった時点で、処理はステップＳＴ２６に移り、重み付けの処理を行う。
【００４５】
ステップＳＴ２６での重み付けの処理は、タームの出現頻度を元に、統計的な手法でスタイルへのタームの重みを計算する既知の手法（たとえば、徳永健伸、岩山真「重み付きＩＤＦを用いたテキストの自動分類について」情報処理学会自然言語処理研究会資料，ＮＬ−１００−５，ｐ．３３−４０（１９９４）で従来手法として示されているｔｆ・ｉｄｆ（ｔｅｒｍｆｒｅｑｅｎｃｙｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｅｎｃｙ）による重み付け）を使う。
【００４６】
式（１）に、ｔｆ・ｉｄｆの計算式を示す。
【数１】

【００４７】
さらに、スタイルｓ_ｊごとにｗ（ｔ_ｉ，ｓ_ｊ）の値を並べたベクトルを式（２）によって長さ１に正規化する。
【数２】

【００４８】
図１０は、式（１）および式（２）によって、ｗ’（ｔ_ｉ，ｓ_ｊ）の値を計算したもので、スタイル学習情報重み付け例５１はｗ’（え（感動詞），＜砕けた文章＞）＝０．０４９であることを示している。また、スタイルベクトル例５２は、スタイル＜砕けた文章＞のスタイルベクトルである。
【００４９】
次に、スタイル判定機能付きテキスト音声合成処理について説明する。
【００５０】
図１１に例示された処理対象テキスト６０を入力した場合を考える。まず、ステップＳＴ３１で全ての文が処理されたかどうかを判断し、テキスト中に未処理の文が存在するので、ステップＳＴ３２に処理を移す。ステップＳＴ３２では、処理対象テキスト文例６１を取り出し、ステップＳＴ３３に処理を移す。ステップＳＴ３３では、処理対象テキスト文例６１を形態素解析した結果として、処理対象テキスト文解析結果例７１を得る。処理対象テキスト文解析結果例７１は、ステップＳＴ３４に渡され、（ターム，頻度）の組として（今日（名詞），１）、（から（格助詞），１）、（夏休み（名詞），１）、（ー（フィラー），１）の４つを保持する。
【００５１】
次に、処理はステップＳＴ３１に戻り、テキスト中に未処理の文が存在するので、ステップＳＴ３２で、処理対象テキスト文例６２が抽出され、ステップＳＴ３３に渡す。ステップＳＴ３３では、形態素解析を行い、処理対象テキスト文解析結果例７２を生成し、ステップＳＴ３４に渡す。ステップＳＴ３４では、（ま（副詞），１）、（ー（フィラー），１）、（宿題（名詞），１）、（やだ（形容動詞），１）、（けど（接続助詞），１）を加算し、（今日（名詞），１）、（から（格助詞），１）、（夏休み（名詞），１）、（ー（フィラー），２）（ま（副詞），１）、（宿題（名詞），１）、（やだ（形容動詞），１）、（けど（接続助詞），１）となる。
【００５２】
ステップＳＴ３１〜ＳＴ３４までの処理は処理対象テキスト６０中の文がなくなるまで繰り返され、文がなくなった時点で、処理をステップＳＴ３５に移す。ステップＳＴ３５では、ステップＳＴ３４で加算した頻度をベクトルと考え、ベクトルの長さを１に正規化（ベクトルＶ）した後で、式（３）を用いて各スタイルｓ_ｊとの類似度を計算する。
【数３】

【００５３】
図１３の処理対象テキスト頻度ベクトル例８１は、図１１の処理対象テキスト６０の例での形態素の出現頻度を集計したもので、図１０の形態素の順番に頻度をベクトルの要素として並べたものである。さらに長さ１に正規化したものが処理対象テキストベクトル例８２のベクトルＶである。
【００５４】
スタイル判定手段４では、最後に各スタイルベクトルと処理対象テキストベクトルＶとの内積をとることで、スタイル類似度計算結果例８３を得る。
【００５５】
結果として、ｓｉｍ（処理対象テキスト，＜砕けた文章＞）＝０．５２１が類似度最大となり、処理対象テキスト６０のスタイルは＜砕けた文章＞として、形態素列とともにアクセント句決定ステップＳＴ５に渡される。アクセント句決定ステップＳＴ５では、形態素列からアクセント句を決定し、各アクセント句のアクセント型を決定して、スタイルとともに、韻律制御ステップＳＴ６に渡す。韻律制御ステップＳＴ６では、決定したスタイルに合わせた継続時間長、ポーズ長、パワーや基本周波数といった韻律パラメータを決定し、合成音作成ステップＳＴ７に、読み、アクセント句、アクセント位置の情報とともに、韻律パラメータを渡す。合成音作成ステップＳＴ７では、韻律制御ステップＳＴ６から受け取った情報と、音響辞書１２に格納された音素片から合成音を生成し、音声出力ステップＳＴ８に渡すことで、合成音が出力される。
【００５６】
上記実施の形態の説明では、スタイル学習手段３やスタイル判定手段４にて用いられるスタイル判定情報のタームの単位として、全ての形態素を用いて頻度集計を行ったが、形態素として大多数を占める名詞を頻度集計の対象としないことも可能である。さらに助詞、助動詞からなる付属語のみを頻度集計の対象としても良い。また、重み付けを計算する場合に、自立語と付属語を別々に重み付け計算し、類似度計算においても同様に自立語と付属語で別々に計算して、自立語類似度と、付属語類似度を一定の割合で加算したものを全体の類似度とし、最も類似度が高いスタイルを選択しても良い。
【００５７】
すなわち、「砕けた文章」と「フォーマルな文章」では使われる助詞、助動詞が異なる傾向がある。また、「尊敬」や「謙譲」といった気持ちを表す用語は、名詞でなく、動詞、形容詞などの用言に端的に現れる。さらに、感情などは、形容詞や形容動詞などの用言性の単語に現れる。したがって、上述のように、品詞を限定して頻度集計を行うこと、あるいは、自立語と付属語で別々に類似度を計算することは、本実施の形態のようなスタイル判定を行う場合に有効である。
【００５８】
たとえば、言葉のうちの大多数は名詞なので、形態素から名詞を除外してスタイル判定を行うことで、実装メモリの削減効果が期待できる。また、自立語と付属語で別々に類似度を計算することでスタイルの学習精度や判定精度の向上が期待できる。
【００５９】
また、上記実施の形態では、形態素を直接タームとして扱ったが、名詞、動詞に対しては、これらの単語の属性として、あらかじめ辞書に敬語かどうかの情報を付与しておくことで、敬語、敬語でないといった属性レベルで頻度集計を行うことも可能である。
【００６０】
さらに、上記実施の形態では、単独の形態素に対して頻度集計を行ったが、複数形態素連続（たとえば、２連続形態素）をタームとして頻度集計を行って、スタイル判定情報を作成してもよい。また、助詞、助動詞の割合、漢字、ひらがなの割合の統計情報を用いてスタイルの判定を行ってもよい。
【００６１】
また、上記実施の形態では、テキスト全体に対してスタイルの推定を行ったが、段落ごとの形態素出現頻度を基にしたタームの頻度からスタイルの決定を行ってもよい。また、‘’“”（）〔〕［］｛｝〈〉《》「」『』等の対をなす記号で囲まれた文章や、先頭に箇条書きを示す記号が付いた文章をテキスト内の他の部分と区別してスタイルを判別してもよい。
【００６２】
さらに、上記実施の形態では、スタイル判定を最も類似度が高い１つに決めたが、一定の類似度以上のものが決定されたスタイルであるとして、複数のスタイルが合わさったものと判定して、韻律処理以降の処理を行っても良い。
【００６３】
加えて、上記実施の形態では、スタイル判定情報の重み付けとして、ｔｆ・ｉｄｆを用いたが、情報検索の分野で用いられるカイ二乗検定を応用した重み付けや、Ｂａｙｅｓｉａｎモデルによる確率を利用することも可能である。
【００６４】
以上説明したとおり、本発明の実施の形態の音声合成技術によれば、予め、スタイルが既知の学習テキストから自動的に当該学習テキストを構成する個々の文を構成する形態素列とスタイルとの関係を学習し、その学習結果を用いて、未知の処理対象テキスト６０のスタイルを決定して合成音声を生成するので、従来例のように人手でルールを記述して、それを元にスタイルを決定したり、スタイルを人手で指定したりといった、煩雑な手間をかけずに文章のスタイルに相応しい合成音声を作成することができる。
【００６５】
また、形態素列とスタイルとの関係の学習処理において、頻度集計単位から、名詞を削除したり、少ない属性で表現したりすることで、スタイル決定のための頻度学習テーブル４０や重み付け学習結果テーブル５０等の学習データサイズを小さくすることが可能であり、携帯端末のような少ないメモリの情報機器でも実装が可能である。
【００６６】
実施の形態２．
図１４は、この発明の実施の形態２を示す概念図である。なお、上述の実施の形態１と同一の機能を有する構成要素には同一符号を付している。
【００６７】
この実施の形態２では、スタイルが既知の学習テキストセットを入力して形態素列とスタイル情報との関係を学習して学習結果の判定情報をスタイル判定情報記憶部１３に記憶させる情報処理装置９０と、その学習結果を用いる音声合成機能を備えた音声合成装置９１とを分離した構成例を示す。
【００６８】
すなわち情報処理装置９０は、文抽出手段１、形態素解析辞書１１、形態素解析手段２、スタイル学習手段３、スタイル判定情報記憶部１３を備えている。
【００６９】
また、音声合成装置９１は、文抽出手段１、形態素解析辞書１１、形態素解析手段２、スタイル判定手段４、アクセント句決定手段５、韻律制御手段６、音響辞書１２、合成音作成手段７、音声出力手段８、スタイル判定情報記憶部１３ａを備えている。
【００７０】
音声合成装置９１のスタイル判定情報記憶部１３ａの内容は、情報処理装置９０のスタイル判定情報記憶部１３に得られた内容がデータ複写されたものが格納される。
【００７１】
このように、スタイルを学習する情報処理装置９０と、学習結果を利用する音声合成装置９１を分離することで、情報処理装置９０として高速なコンピュータシステムを用いて大量の学習テキストセットの入力による精度の高いスタイル判定情報を迅速に収集できるとともに、その学習結果を利用する音声合成装置９１では、構成の簡素化および精度の高いスタイル判定情報の利用によるスタイル判定精度の向上等を実現できる。
【００７２】
実施の形態３．
図１５は、この発明の実施の形態３であるスタイル判定装置の構成の一例を示す概念図である。なお、上述の実施の形態１と同一の機能を有する構成要素には同一符号を付している。
【００７３】
この実施の形態３のスタイル判定装置９２は、文抽出手段１、形態素解析辞書１１、形態素解析手段２、スタイル学習手段３、スタイル判定手段４、スタイル判定情報記憶部１３を備えており、学習テキストからのスタイルの学習機能と、その学習結果を用いた、任意の処理対象テキストのスタイル判定機能を備えている。
【００７４】
スタイル判定手段４から出力されるスタイル判定結果４ａは、たとえば、処理対象テキストの作成や編集等に用いられる図示しない文書作成装置や編集支援処理装置等に入力されて活用される。
【００７５】
これにより、文書作成装置や編集支援処理装置では、処理対象テキストの的確なスタイル判定による効率的な処理が可能になる。
なお、図１５において、図１４の場合と同様に、スタイル学習手段をスタイル判定手段と独立な構成にしてもよい。
【００７６】
【発明の効果】
以上のように、この発明の音声合成装置によれば、音声合成の処理対象テキストの形態素列の統計情報と、予め蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定手段と、判定された前記スタイルが反映するように前記処理対象テキストの音声合成を行う音声合成手段とを備えたことにより、個別の単語および単語が持つ属性を考慮してスタイル決定のための条件を記述する等の煩雑な処理を必要とすることなく、処理対象テキストから、フォーマルな文章、砕けた文章、楽しそうな文章などといった文章のスタイルを自動的に決定して、それらのスタイルに基づき合成音を生成することができるという効果が得られる。
【００７７】
この発明の音声合成装置によれば、音声合成の処理対象テキストの形態素列の統計情報と、予め蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定手段と、判定された前記スタイルが反映するように前記処理対象テキストの音声合成を行う音声合成手段とを備えたことにより、文章のスタイルを利用者に指定させる等の煩雑な処理を必要とすることなく、処理対象テキストから、フォーマルな文章、砕けた文章、楽しそうな文章などといった文章の多様なスタイルを自動的に判別して、それらのスタイルに基づき合成音を生成することができるという効果が得られる。
【００７８】
この発明のスタイル判定装置によれば、スタイル判定の処理対象テキストの形態素列の統計情報と、予め蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定手段を備えたことにより、個別の単語および単語が持つ属性を考慮してスタイル決定のための条件を記述する等の煩雑な処理を必要とすることなく、処理対象テキストから、フォーマルな文章、砕けた文章、楽しそうな文章などといった文章のスタイルを自動的に決定することができるという効果が得られる。
【００７９】
この発明のプログラムによれば、音声合成の処理対象テキストの形態素列の統計情報と、予め蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定手段と、判定された前記スタイルが反映するように前記処理対象テキストの音声合成を行う音声合成手段としてコンピュータを機能させることにより、個別の単語および単語が持つ属性を考慮してスタイル決定のための条件を記述する等の煩雑な処理を必要とすることなく、処理対象テキストから、フォーマルな文章、砕けた文章、楽しそうな文章などといった文章のスタイルを自動的に決定して、それらのスタイルに基づき合成音を生成することができるという効果が得られる。
【００８０】
この発明のプログラムによれば、音声合成の処理対象テキストの形態素列の統計情報と、予め蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定手段と、判定された前記スタイルが反映するように前記処理対象テキストの音声合成を行う音声合成手段としてコンピュータを機能させることにより、文章のスタイルを利用者に指定させる等の煩雑な処理を必要とすることなく、処理対象テキストから、フォーマルな文章、砕けた文章、楽しそうな文章などといった文章の多様なスタイルを自動的に判別して、それらのスタイルに基づき合成音を生成することができるという効果が得られる。
【００８１】
この発明のプログラムによれば、スタイル判定の処理対象テキストの形態素列の統計情報と、予め蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定手段としてコンピュータを機能させることにより、個別の単語および単語が持つ属性を考慮してスタイル決定のための条件を記述する等の煩雑な処理を必要とすることなく、処理対象テキストから、フォーマルな文章、砕けた文章、楽しそうな文章などといった文章のスタイルを自動的に決定することができるという効果が得られる。
【図面の簡単な説明】
【図１】本発明の実施の形態１における音声合成装置の構成を示す概念図である。
【図２】本発明の実施の形態１における音声合成装置の処理のフローチャートである。
【図３】本発明の実施の形態１におけるスタイル学習処理の具体的フローチャートである。
【図４】本発明の実施の形態１におけるスタイル判定処理の具体的フローチャートである。
【図５】本発明の実施の形態１における学習テキスト例を示す説明図である。
【図６】本発明の実施の形態１における学習テキスト例を示す説明図である。
【図７】本発明の実施の形態１における学習テキスト例の解析結果を示す説明図である。
【図８】本発明の実施の形態１における学習テキスト例の解析結果を示す説明図である。
【図９】本発明の実施の形態１における頻度学習例を示す説明図である。
【図１０】本発明の実施の形態１における重み付け学習例を示す説明図である。
【図１１】本発明の実施の形態１における処理対象テキスト例を示す説明図である。
【図１２】本発明の実施の形態１における処理対象テキスト例解析結果を示す説明図である。
【図１３】本発明の実施の形態１における処理対象テキストの頻度集計結果とテキストベクトルの例を示す説明図である。
【図１４】本発明の実施の形態２における装置構成を示す概念図である。
【図１５】本発明の実施の形態３における装置構成を示す概念図である。
【図１６】従来例の構成を示す説明図である。
【図１７】従来例の条件例を示す説明図である。
【符号の説明】
１文抽出手段、２形態素解析手段、３スタイル学習手段、４スタイル判定手段、５アクセント句決定手段、６韻律制御手段、７合成音作成手段、８音声出力手段、１１形態素解析辞書、１２音響辞書、１３スタイル判定情報記憶部、２１学習テキスト例Ｔ１のスタイル例、２２学習テキスト例Ｔ１の文例、２３学習テキスト例Ｔ１の文例、２６学習テキスト例Ｔ２のスタイル例、２７学習テキスト例Ｔ２の文例、３１学習テキスト例Ｔ１の文解析結果例、３６学習テキスト例Ｔ２の文解析結果例、４０頻度学習テーブル、４１スタイル学習情報頻度例、５０重み付け学習結果テーブル、５１スタイル学習情報重み付け例、５２スタイルベクトル例、６０処理対象テキスト、６１処理対象テキスト文例、６２処理対象テキスト文例、７１処理対象テキスト文解析結果例、７２処理対象テキスト文解析結果例、８１処理対象テキスト頻度ベクトル例、８２処理対象テキストベクトル例、８３スタイル類似度計算結果例、９０情報処理装置、９１音声合成装置、９２スタイル判定装置、Ｔ１，Ｔ２学習テキスト例。

Claims

音声合成の処理対象テキストを形態素解析辞書に基づいて形態素列に分割する形態素解析手段と、
前記処理対象テキストに対する前記形態素解析手段の出力と、予め蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定手段と、
判定された前記スタイルが反映するように前記処理対象テキストの音声合成を行う音声合成手段と
を含むことを特徴とする音声合成装置。
前記スタイル判定手段は、助詞、助動詞などの付属語に関する前記統計情報を用いるか、または前記付属語に加えて自立語に関する前記統計情報を用いることでスタイルを決定することを特徴とする請求項１記載の音声合成装置。
前記スタイル判定手段は、前記自立語のうち、名詞を除いた自立語に関する前記統計情報を用いてスタイルを決定することを特徴とする請求項２記載の音声合成装置。
前記スタイル判定手段は、前記自立語としての単語が持つ属性を前記統計情報として用いてスタイルを決定することを特徴とする請求項２または請求項３記載の音声合成装置。
前記スタイル判定手段は、前記付属語の類似度と、前記自立語の類似度を別々に計算して、前記統計情報として用いることで、前記スタイルを決定することを特徴とする請求項２から請求項４のうちのいずれか１項記載の音声合成装置。
前記スタイル判定手段は、前記形態素の前記統計情報とともに、助詞、助動詞の割合、漢字、ひらがなの割合の統計情報を用いて前記スタイルの判定を行うことを特徴とする請求項１から請求項５のうちのいずれか１項記載の音声合成装置。
前記スタイル判定手段は、テキスト全体、または、段落単位、または対をなす記号で囲まれた文単位、または先頭に箇条書きを示す記号が付いた文単位でスタイル判定を行うことを特徴とする請求項１から請求項６のうちのいずれか１項記載の音声合成装置。
スタイルが既知の学習テキストから前記形態素解析手段によって得られた形態素列の統計情報と前記スタイルとの関係を学習して前記スタイル判定情報を生成するスタイル学習手段を含むことを特徴とする請求項１記載の音声合成装置。
処理対象テキストを形態素解析辞書に基づいて形態素列に分割する形態素解析手段と、
前記処理対象テキストに対する前記形態素解析手段の出力と、予め蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定手段と
を含むことを特徴とするスタイル判定装置。
スタイルが既知の学習テキストから前記形態素解析手段によって得られた形態素列の統計情報と前記スタイルとの関係を学習して前記スタイル判定情報を生成するスタイル学習手段を含むことを特徴とする請求項９記載のスタイル判定装置。
前記スタイル判定手段は、前記形態素として助詞、助動詞などの付属語もしくは前記付属語に加えて自立語を用いること、または、前記形態素として前記自立語のうち名詞を除いた自立語のみを用いること、または、前記形態素として前記自立語を用いる場合には当該自立語としての単語が持つ属性を前記統計情報として用いることを特徴とする請求項９記載のスタイル判定装置。
スタイルが未知の処理対象テキストの形態素列の統計情報と、予め記憶手段に蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定ステップと、
判定された前記スタイルが反映するように前記処理対象テキストの音声合成を行う合成音作成ステップと
を含むことを特徴とする音声合成方法。
スタイルが既知の学習テキストの形態素列の統計情報と当該既知のスタイルとの関係を学習し、前記スタイル判定情報として前記記憶手段に記憶するスタイル学習ステップを含むことを特徴とする請求項１２記載の音声合成方法。
助詞、助動詞などの付属語に関する前記統計情報を用いるか、または前記付属語に加えて自立語に関する前記統計情報を用いる方法、
前記自立語のうち、名詞を除いた自立語に関する前記統計情報を用いる方法、
前記自立語としての単語が持つ属性を前記統計情報として用いる方法、
前記付属語の類似度と、前記自立語の類似度を別々に計算して、前記統計情報として用いる方法
のいずれかの方法にて前記スタイルの学習および判定を行うことを特徴とする請求項１２記載の音声合成方法。
スタイルが未知の処理対象テキストの形態素列の統計情報と、予め記憶手段に蓄積された形態素列の統計情報と当該形態素列を有するテキストのスタイルとの関係を示すスタイル判定情報とから前記処理対象テキストのスタイルを判定するスタイル判定ステップを含むことを特徴とするスタイル判定方法。
スタイルが既知の学習テキストの形態素列の統計情報と当該既知のスタイルとの関係を学習し、前記スタイル判定情報として前記記憶手段に記憶するスタイル学習ステップを含むことを特徴とする請求項１５記載のスタイル判定方法。
助詞、助動詞などの付属語に関する前記統計情報を選択的に用いるか、または前記付属語に加えて自立語に関する前記統計情報を用いる方法、
前記自立語のうち、名詞を除いた自立語に関する前記統計情報を選択的に用いる方法、
前記自立語としての単語が持つ属性を前記統計情報として用いる方法、
前記付属語の類似度と、前記自立語の類似度を別々に計算して、前記統計情報として用いる方法
のいずれかの方法にて前記スタイルの学習および判定を行うことを特徴とする請求項１５記載のスタイル判定方法。
コンピュータを、
入力された処理対象テキストを形態素列に分割する形態素解析手段と、
スタイルが既知の学習テキストの形態素列の統計情報と当該既知のスタイルとの関係の学習結果と、処理対象テキストの前記形態素列の統計情報とから当該処理対象テキストのスタイルを判定するスタイル判定手段と、
判定された前記スタイルが反映するように前記処理対象テキストの音声合成を行う音声合成手段と
して機能させるプログラム。
コンピュータを、
入力された処理対象テキストを形態素列に分割する形態素解析手段と、
スタイルが既知の学習テキストの形態素列の統計情報と当該既知のスタイルとの関係の学習結果と、前記処理対象テキストの前記形態素列の統計情報とから当該処理対象テキストのスタイルを判定するスタイル判定手段と
して機能させるプログラム。