JP5533377B2

JP5533377B2 - 音声合成装置、音声合成プログラムおよび音声合成方法

Info

Publication number: JP5533377B2
Application number: JP2010158842A
Authority: JP
Inventors: 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-07-13
Filing date: 2010-07-13
Publication date: 2014-06-25
Anticipated expiration: 2030-07-13
Also published as: JP2012022447A

Description

本発明は、テキストに基づいて音声を合成する、音声合成装置、音声合成プログラムおよび音声合成方法に関する。

ユニバーサルデザインの一環として、各種テキストデータに基づく音声を合成してユーザに提供するサービスが一般化されてきている。例えば、放送分野において広く普及している電子番組表（ＥＰＧ：Electronic Program Guide）に含まれるテキストデータに基づいて形態素解析等を行い、この解析結果に基づいて音声合成を行うことにより、番組情報を合成音声によって読み上げるサービスが可能である。また、インターネット上のニュースコンテンツ等に含まれる見出し記事のテキストデータに基づいて形態素解析等を行うことにより、各見出し記事を合成音声によって読み上げるサービスが可能である。

上記のようなサービスにおいては、テキストデータを形態素解析して、当該テキストデータを構成する単語または形態素を特定することにより、テキストデータの読みとアクセントを決定して音声合成を行っている。

なお、番組の特徴を表現するのに最適なキーワードを効率良く抽出するために、電子番組表のテキスト情報を形態素解析して、そのジャンルを抽出し、所定の番組のジャンルと関連性のある属性の単語を、形態素解析結果から抽出する技術が知られている（例えば、特許文献１参照。）。

また、番組の特徴を表現するのに最適なキーワードを効率良く抽出するために、電子番組表のテキストデータを抽出して形態素解析したのち、形態素解析結果と、複数の所定の出演者名の羅列パターンとを比較して、出演者名を抽出する技術が知られている（例えば、特許文献２参照。）。

さらに、電子番組表から番組のジャンル情報と番組内容を抽出し、抽出した番組内容を形態素解析することによって番組特定単語を抽出し、抽出したジャンル情報と番組特定単語とを組合せてジャンル付単語を生成し、ジャンル付単語によってユーザの視聴履歴を解析することによって嗜好ベクトルを生成して、ユーザに推薦番組を出力する技術が知られている（例えば、特許文献３参照。）。

特開２００９−５９３３５号公報特開２００９−６０５６７号公報特開２００９−２１３０７号公報

現在、テレビ受信装置や各種メディアによる記録再生装置等において普及している電子番組表（ＥＰＧ）においては、ユーザにとって見やすく、かつ、ユーザに対して訴求できるような状態で、番組情報を示すテキストを小さなスペースに収めて表示している。図１３は、一般的な電子番組表（ＥＰＧ）の表示例である。図１３の時間枠１３０に示すように、５チャンネルの１９時からの番組情報として、番組タイトル「バラエティ」１３１とともに番組概要「小心者夫が逆襲！」１３２が表示されている。このように番組概要においては、一般的な正書法によるテキスト（記事、論文、説明書など）とは異なり、例えば、助詞や助動詞等を省略したり、固有名詞等を略称で表記したりすることが数多く行われている。

上記のような番組情報において、助詞や助動詞等を省略したり、固有名詞等を略称で表記したりすることによって作成されたテキストを、本願では概要テキストと称する。このような概要テキストについて、正書法によるテキストにしか適応できない音声合成装置等を使用して読み上げ処理を行うと、言語解析の誤りによって読みやアクセントが不適切になるという問題が生じる。また、助詞や助動詞等が省略されて名詞等の単語が連続している場合には、各単語が複合単語として扱われるため、アクセント結合された状態で音声合成され音声が聞き取り難くなるという問題が生じる。これらの問題について、以下に具体的に説明する。

図１４Ａは、上記のような音声合成装置における言語処理部の概略機能ブロック図の一例を示す図である。また、図１４Ｂは、単語辞書データ保持部１４２の一例を示す図である。音声合成装置は、漢字かな混じりの読み上げテキストである概要テキストを入力すると、形態素解析部１４１において、単語辞書データ１４２を参照して概要テキストの形態素解析を行い、概要テキストを構成する各単語または各形態素を特定する。

このような形態素解析において、一般的に音声合成装置は、概要テキストと部分一致する単語辞書データ保持部１４２のテキスト表記を全て抽出して、抽出した中から品詞の並びが最適となる単語または形態素の組合せを特定する。

また、音声合成装置は、表音文字列生成部１４３において、特定した単語の読みとアクセントとを単語辞書データ保持部１４２から得た後、各単語の読みを連結し、一般的なルールや各単語に付与された属性に基づいて、各単語のアクセントを変形しながら連結して入力テキストのアクセントを生成し（アクセント結合）、フレーズやポーズなどの境界を設定する処理を行うことによって、入力テキストに対する表音文字列を生成する。

ここで、表音文字列とは、テキストの読み方を表す文字列であり、読みを表すカタカナ、アクセントを示す記号、フレーズやポーズ等の境界を示す記号から構成される文字列である。このような表音文字列を用いれば、合成音声装置は、一般的な処理により合成音声を出力することができる。

図１５Ａは、言語解析の誤りによって読みが不適切になる場合の例を示す図である。図１５Ｂは、言語解析の誤りによってアクセントが不適切になる場合の例を示す図である。図１５Ｃは、助詞や助動詞等が省略されて名詞等の単語が連続している場合に、各単語が複合単語として扱われたことにより、アクセント結合された状態で音声合成されて、音声が聞き取り難くなる場合の例を示す図である。

図１５Ａの例は、概要テキスト「小心者夫が逆襲！」において、助詞が省略されたために、「夫」部分に対して読み誤りが発生した場合を示すものである。本例において、読み上げ対象となる概要テキスト「小心者夫が逆襲！」の形態素解析結果は、
普通名詞「小心者（ショーションモノ）」
接尾語「夫（フ）」
格助詞「が（ガ）」
普通名詞「逆襲（ギャクシュー）」
句読点「！（．）」である。なお、（）内は、各単語の読みとアクセントを示している。

次に、各単語の読みを繋ぎ合わせることにより、本テキストの表音文字列「ショーシンモノ’フガギャクシュー．」が生成される。ここで、「’」はアクセントの位置を、「」はアクセント句（＝アクセントのまとまり）の境界を、それぞれ示している。この場合、「ショーシンモノ’フ」という読みは不適切である。これは「夫」が、単語辞書データ保持部１４２（図１４Ｂ）のレコード１４４に示す普通名詞「夫（オット）」ではなく、単語辞書データ保持部１４２（図１４Ｂ）のレコード１４５に示す接尾語「夫（フ）」と判定されたことが原因であると考えられる。つまり、図１４Ｂの単語辞書１４２には普通名詞「夫（オット）」も同時に格納されているところ、普通名詞「小心者」に続く単語として、普通名詞「夫（オット）」よりも接尾語「夫（フ）」のほうが尤もらしいと判定されたことが原因であると考えられる。

図１５Ｂの例は、概要テキスト「大爆笑！チョート・ブルマヨ・エンジャ！」において、固有名詞の省略形が使われたために、「チョート・ブルマヨ・エンジャ！」部分に対してアクセントが不適切になる場合を示すものである。本例では、例えば、固有名詞「チョートリアル」の省略形「チョート」、固有名詞「ブルーマヨネーズ」の省略形「ブルマヨ」、固有名詞「エンジャッシュ」の省略形「エンジャ」がそれぞれ用いられている。

この場合、「ダイバ’クショー．チョートブルマヨエ’ンジャ」という表音文字列が生成されるため、「チョート」、「ブルマヨ」および「エンジャ」についてのアクセント句の境界が存在せず、そのアクセントが不適切になってしまう。

単語辞書データ保持部１４２では、本来の表記である「チョートリアル」、「ブルーマヨネーズ」および「エンジャッシュ」の表記で各単語が登録されていたとしても、これらの単語の省略形は登録されていないことが多い。このため、本例では、「チョート」、「ブルマヨ」、および「エンジャ」の部分が、単語辞書にないために解析できない単語である未知語と判断され、その部分のアクセントが不適切になっている。なお、本例はカタカナで表記された単語であるため、さしあたり読みは正しくなっているが、漢字の省略形の場合には読みを誤る場合もあり得る。

図１５Ｃの例は、概要テキスト「世界終末予言と奇妙な一致徹底追跡」において、助詞が省略されたために、普通名詞の連続が複合単語であると判断され、アクセント結合して不自然な読みとなる場合を示すものである。ここで、アクセント結合とは、複数の単語の連続において、一般的なルールや各単語に付与された属性に基づいて、単語の個々のアクセントの位置が変わり、アクセントのまとまり（＝アクセント句）を生成する現象である。本例では、「世界」、「終末」および「予言」の連続が複合単語と見なされたことにより、次に示すように、アクセント結合が発生している。

例えば、「世界」、「終末」および「予言」の連続により、下記のようにアクセント結合が生じる。
普通名詞「世界（セ’カイ）」
普通名詞「終末（シューマツ）」
普通名詞「予言（ヨゲン）」
→「世界終末予言（セカイシューマツヨ’ゲン）」

同様に、「一致」、「徹底」および「追跡」の連続も以下のようなアクセント結合が生じる。
普通名詞「一致（イッチ）」
普通名詞「徹底（テッテー）」
普通名詞「追跡（ツイセキ）」
→「一致徹底追跡（イッチテッテーツ’イセキ）」

これらの単語の並びに関しては、「世界」と「終末予言」をそれぞれ別のアクセント句とし、「一致」と「徹底追跡」をそれぞれ別のアクセント句とすると、自然な読み上げ音声となるところ、本例では、「世界終末予言（セカイシューマツヨ’ゲン）」および、「一致徹底追跡（イッチテッテーツ’イセキ）」に示すように、アクセント結合によって同一のアクセント句と判断されている場合には、自然な読み上げ音声とはならない。

本発明は、上記のような点に鑑みてなされたものであり、助詞や助動詞等を省略したり、固有名詞等を略称で表記したりすることによって作成されたテキストに関して、読み上げ精度を向上させ、聞き手が判りやすい自然な読み上げ音声を生成することのできる音声合成装置、音声合成プログラムおよび音声合成方法を提供することを目的とする。

上記の目的を達成するために、以下に開示する音声合成装置は、任意の対象についての情報を示す第１のテキストを形態素解析して第１の解析結果を出力する第１解析部と、前記第１のテキストが示す情報と同一の対象について表現が異なる情報を示す第２のテキストを形態素解析し、前記第１の解析結果を参照して第２の解析結果を出力する第２解析部と、前記第２の解析結果に基づいて、前記第２のテキストに関する合成音声を生成するための表音文字列を生成する表音文字列生成部とを備える。

本願明細書の開示によれば、助詞や助動詞等を省略したり、固有名詞等を略称で表記したりすることによって作成されたテキストに関して、読み上げ精度を向上させ、聞き手が判りやすい自然な読み上げ音声を生成することが可能となる。

音声合成装置における各機能部の関係の一例を示す図である。ＥＰＧ（電子番組表）データの一例を示す図である。本願における電子番組表（ＥＰＧ）の表示例である。図１に示した音声合成装置を、ＣＰＵ等を用いて実現した場合におけるハードウェア構成の一例を示す図である。音声合成装置１のＣＰＵ３２で実行される音声合成プログラム２５ａに基づく音声合成処理のオペレーションチャートの一例を示す図である。詳細テキストを形態素解析した結果の一例を示す模式図である。概要テキストを解析する場合の模式図の一例を示す模式図である。単語辞書データの一例を示す図である。概要テキスト用バッファの一例を示す図である。生成された表音文字列の一例を示す図である。概要テキストの読み特定処理のオペレーションチャートの一例を示す図である。原型特定処理のオペレーションチャートの一例を示す図である。詳細テキストを形態素解析した結果の一例を示す模式図である。概要テキスト解析する場合の模式図の一例を示す模式図である。単語辞書データの一例を示す図である。概要テキスト用バッファの一例を示す図である。生成された表音文字列の一例を示す図である。アクセント結合判定処理のオペレーションチャートの一例を示す図である。詳細テキストを形態素解析した結果の一例を示す模式図である。概要テキスト解析する場合の模式図の一例を示す模式図である。概要テキスト用バッファの一例を示す図である。ニュース一覧の一例を示す図である。記事テキストの一例を示す図である。音声合成装置１のＣＰＵ３２で実行される音声合成プログラム２５ａに基づく音声合成処理のオペレーションチャートの一例を示す図である。一般的な電子番組表（ＥＰＧ）の表示例である。音声合成装置における言語処理部の概略機能ブロック図の一例を示す図である。単語辞書１２２の一例を示す図である。言語解析の誤りによって読みが不適切になる場合の例を示す図である。言語解析の誤りによってアクセントが不適切になる場合の例を示す図である。助詞や助動詞等が省略されて名詞等の単語が連続している場合に、各単語が複合単語として扱われたことにより、アクセント結合された状態で音声合成されて、音声が聞き取り難くなる場合の例を示す図である。

以下においては、本発明の実施形態について図面を用いて具体的に説明する。

［１．第１の実施形態］
以下、本実施形態にかかる音声合成装置を、コンピュータ装置を用いて構成する場合の例について説明する。なお、本実施形態にかかる音声合成装置を、例えば、各種メディアを用いた録画再生装置、携帯電話またはＰＤＡ（Personal Digital Assistance）等の装置を用いて構成してもよい。

また、本実施形態にかかる音声合成装置１を、例えば、テレビ受像機や録画再生機等に組込めば、番組選択時や録画予約時等において、番組表データの概要テキストまたは詳細テキストに基づく合成音声を出力することができる。

本実施形態においては、番組表データの一例としてＥＰＧデータを用いる場合について説明する。なお、概要テキストおよび詳細テキストを有するデータであれば、ＥＰＧデータ以外の番組表データを用いてもよい。

［１−１．システム構成］
図１は、本実施形態にかかる音声合成装置１における各機能部の関係の一例を示す図である。図１に示す音声合成装置１は、ＥＰＧデータ受信部２、詳細テキスト取得部３、概要テキスト取得部４、第１解析部５、第２解析部６、単語辞書データ保持部７、表音文字生成部８および音声合成部９を備える。

ＥＰＧデータ受信部２は、外部からＥＰＧ（電子番組表）データを受信する。例えば、ＥＰＧデータは、デジタル／アナログ放送またはインターネットを介して受信することができる。図２Ａは、ＥＰＧ（電子番組表）データの一例を示す図である。ＥＰＧデータには、番組毎に、チャンネル、開始時間、終了時間、番組タイトルに加えて、概要テキスト２１および詳細テキスト２２が少なくとも含まれている。

図２Ｂは、ＥＰＧデータに基づく電子番組表（ＥＰＧ）の表示例である。例えば、図２Ａに示す番組レコード２３は、図２Ｂの時間枠２１０（「５チャンネル」の「１９時」からの番組タイトル２１１「バラエティ」についての番組概要２１２「小心者夫が逆襲！」）に対応する。例えば、図２Ａに示す番組レコード２４は、図２Ｂの時間枠２１３（「４チャンネル」の「２０時」からの番組タイトル「お笑い」についての番組概要「大爆笑！チョート・ブルマヨ・エンジャ！」）に対応する。例えば、図２Ａに示す番組レコード２５は、図２Ｂの時間枠２１４（「１チャンネル」の「２１時」からの番組タイトル「ドキュメント」についての番組概要「世界終末予言と奇妙な一致徹底追跡」）に対応する。その他の番組についても番組概要等が存在するが、図２Ｂにおいてはその表示を省略している。なお、ＥＰＧデータのフォーマットは任意であり、ＥＰＧデータの提供業者毎に異なっていてもよい。

上述したように、番組情報において助詞や助動詞等を省略したり、固有名詞等を略称で表記したりすることによって作成されたテキストを、本願では概要テキストと称する。また、概要テキストと同一対象を示すテキストであって、助詞や助動詞等を省略したり、固有名詞等を略称で表記したりすることなく作成されたテキストを、本願では詳細テキストと称する。ここで、詳細テキストは、概要テキストが示す情報と同一の番組について表現が異なる情報を含むものである。つまり、概要テキストと詳細テキストとの関係は、詳細テキストを参照すれば、概要テキストの内容が把握できる関係にある。

詳細テキスト取得部３は、受信したＥＰＧデータに含まれる番組情報の詳細テキストを取得する。例えば、図２に示す番組レコード２３に基づいて、詳細テキスト２２として「小心者の夫が鬼嫁に逆襲！」を取得する。

概要テキスト取得部４は、受信したＥＰＧデータに含まれる番組情報の概要テキストを取得する。例えば、図２に示す番組レコード２３に基づいて、概要テキスト２１として「小心者夫が逆襲！」を取得する。

第１解析部５は、任意の対象についての情報を示す第１のテキストを形態素解析して第１の解析結果を出力する。すなわち、第１解析部５は、ＥＰＧデータに含まれる番組についての情報を示す詳細テキストを形態素解析して第１の解析結果を出力する。例えば、第１解析部５は、詳細テキスト２２として取得した「小心者の夫が鬼嫁に逆襲！」を形態素解析して第１の解析結果を出力する。

第２解析部６は、前記第１のテキストが示す情報と同一の対象について表現が異なる情報を示す第２のテキストを形態素解析し、前記第１の解析結果を参照して第２の解析結果を出力する。すなわち、第２解析部６は、詳細テキストが示す情報と同一の番組について表現が異なる情報を示す概要テキストを形態素解析し、詳細テキストにかかる第１の解析結果を参照して第２の解析結果を出力する。例えば、第２解析部６は、概要テキスト２１として取得した「小心者夫が逆襲！」を形態素解析し、詳細テキスト２２として取得した「小心者の夫が鬼嫁に逆襲！」を形態素解析して得た第１の解析結果を参照して第２の解析結果を出力する。

表音文字生成部８は、前記第２の解析結果に基づいて、前記第２のテキストに関する合成音声を生成するための表音文字列を生成する。すなわち、表音文字生成部８は、前記第２の解析結果に基づいて、前記概要テキストに関する合成音声を生成するための表音文字列を生成する。例えば、概要テキスト２１として取得した「小心者夫が逆襲！」の形態素解析の結果に基づいて、概要テキスト２１「小心者夫が逆襲！」に関する合成音声を生成するための表音文字列を生成する。

音声合成部９は、表音文字生成部８において生成された表音文字列に基づいて音声合成処理を行い、合成音声を出力する。例えば、概要テキスト２１「小心者夫が逆襲！」についての表音文字列に基づいて合成音声をスピーカから出力する。

なお、図１の音声合成装置１において示した各機能部は、プログラムによって実現されるＣＰＵの機能を含む概念である。ここで、プログラムとは、ＣＰＵにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。

［１−２．ハードウェア構成］
図３は、図１に示した音声合成装置１を、ＣＰＵを用いて実現したハードウェア構成の例を示す図である。上記音声合成装置１は、ディスプレイ３１、ＣＰＵ３２、メモリ３３、キーボード／マウス３４、ハードディスク３５、通信回路３６およびスピーカ３７を少なくとも備える。

ハードディスク３５には、ＯＳ（オペレーティング・システム、図示せず。）の他、音声合成プログラム３５ａおよび単語辞書データ３５ｂ等が記録される。音声合成プログラム３５ａは、例えば、インターネット等のネットワークを介してダウンロードされたプログラムを読み出してインストールされたものであってもよい。ＣＰＵ３２は、ＯＳおよび音声合成プログラム３５ａ等に基づく処理を実行する。

図１に示した音声合成装置１を構成する単語辞書データ保持部７は、メモリ３３に記録された単語辞書データ３５ｂに該当する。また、図１に示した音声合成装置１を構成する、ＥＰＧデータ受信部２、概要テキスト取得部３、詳細テキスト取得部４、第１解析部５、第２解析部６、表音文字生成部８および音声合成部９は、ＣＰＵ３２上において音声合成プログラム３５ａを実行することによって実現される。

［１−３．音声合成処理］
上述の図１〜図３に加え、図４〜図１０Ｃを用いて、上記音声合成装置１における音声合成プログラム３５ａの処理内容について説明する。図４は、音声合成装置１のＣＰＵ３２で実行される音声合成プログラム３５ａに基づく音声合成処理のオペレーションチャートの一例を示す図である。

図４の音声合成処理において、先ずＣＰＵ３２は、上述したＥＰＧデータを受信する（Ｏｐ４０１）。ＥＰＧデータの受信は、例えばデジタル／アナログ放送またはインターネット等を介して所定期間毎に自動的に行えばよい。なお、ユーザ操作に基づいてＥＰＧデータの受信を行ってもよい。例えば、ＣＰＵ３２は、図２Ａに示したようなＥＰＧデータを受信する。

続いてＣＰＵ３２は、受信したＥＰＧデータに基づいて、電子番組表の表示画面を生成して、これをディスプレイ３１に表示する（Ｏｐ４０２）。例えば、ＣＰＵ３２は、図２Ｂに示した電子番組表をディスプレイ３１に表示する。

電子番組表においては、番組毎の時間枠内に番組情報（番組タイトルおよび番組概要）に加えて、ユーザが音声合成装置１に番組情報の読み上げ指示を行うためのスピーカボタンが表示される。例えば、図２Ｂの時間枠２１０（「５チャンネル」の「１９時」）内には、番組タイトル２１１「バラエティ」および番組概要２１２「小心者夫が逆襲！」を含む番組情報の読み上げ指示を行うためのスピーカボタン２１５が表示される。

ユーザがキーボード／マウス３４を用いて、電子番組表の時間枠内に表示されたスピーカボタンを押下すると、ＣＰＵ３２は、番組情報の読み上げ指示があったと判断し（Ｏｐ４０３、Ｙｅｓ）、押下されたスピーカボタンに対応する番組についての番組タイトル、概要テキストおよび詳細テキストをＥＰＧデータから取得する（Ｏｐ４０４）。例えば、番組概要２１２「小心者夫が逆襲！」の読み上げ指示を行うためのスピーカボタン２１５がユーザ操作により押下された場合、ＣＰＵ３２は、図２Ａに示したＥＰＧデータから、この番組に対応する番組タイトル「バラエティ」、概要テキスト２１「小心者夫が逆襲！」および詳細テキスト２２「小心者の夫が鬼嫁に逆襲！」を取得する。

なお、上記の読み上げ指示の判断は、スピーカボタンの押下以外の方法で行うようにしてよい。例えば、ＣＰＵ３２は、電子番組表の時間枠上にマウスカーソルが存在するようになった場合に読み上げ指示がされたと判断してもよい。また、電子番組表の各番組を、自動的に順番に読み上げるようにしてもよい。

対応する詳細テキストが存在しない場合（Ｏｐ４０５、Ｎｏ）には、ＣＰＵ３２は、取得した番組タイトルおよび概要テキストを形態素解析し（Ｏｐ４０６）、従来技術と同様に、所定ルールに基づいて番組タイトルおよび概要テキストのアクセント位置を決定し（Ｏｐ４０７）、番組タイトルおよび概要テキストについての表音文字列を出力して（Ｏｐ４０８）、合成音声をスピーカ３７から出力する（Ｏｐ４０９）。

一方、対応する詳細テキストが存在する場合（Ｏｐ４０５、Ｙｅｓ）、ＣＰＵ３２は、取得した番組タイトルおよび詳細テキストを形態素解析する（Ｏｐ４１０）。図５Ａは、詳細テキスト２２「小心者の夫が鬼嫁に逆襲！…」を形態素解析した結果の一例を示す模式図である。ＣＰＵ３２は、この形態素解析の結果をメモリ３３内に設けた詳細テキスト用バッファに格納する（Ｏｐ４１１）。なお、このように詳細テキスト用バッファに格納するのは、後の処理においてこの形態素解析の結果を参照するためである。

［１−３−１．概要テキストの読み特定処理］
次に、ＣＰＵ３２は、概要テキストの読み特定処理をサブルーチンで実行する（Ｏｐ４１２）。図６は、概要テキストの読み特定処理のオペレーションチャートの一例を示す図である。ＣＰＵ３２は、単語辞書データ３５ｂから、概要テキストを構成する文字列と表記が部分一致する単語を全て抽出する（Ｏｐ６０１）。

図５Ｃは、単語辞書データの一例を示す図である。図５Ｂは、図５Ｃに示す単語辞書データから、概要テキスト２１「小心者夫が逆襲！」を構成する文字列と表記が部分一致する単語を全て抽出した場合の結果の一例を示す模式図である。例えば、概要テキスト２１「小心者夫が逆襲！」の場合、ＣＰＵ３２は、図５Ｃに示す単語辞書データから「小心者」、「夫」、「が」、「逆襲」および「！」を抽出して、メモリ３３内に設けた概要テキスト用バッファに格納する。図５Ｄは、概要テキスト用バッファの一例を示す図である。なお、図５Ｂおよび図５Ｄに示すように、単語「夫」については、品詞が接尾語の「夫（フ）」と普通名詞の「夫（オット）」の２つが抽出される。

ＣＰＵ３２は、Ｏｐ６０１にて抽出した各単語について順番に、各単語が詳細テキストの形態素解析結果において適切な位置に存在するか否かを判定する（Ｏｐ６０３）。この判定は、以下のようにして行われる。

例えば、概要テキストの単語「小心者」は、普通名詞として、詳細テキストの形態素解析結果に存在している。このため、単語「小心者」に加点される（１点）（図５Ｄ）。

例えば、単語「夫」について抽出された、普通名詞「夫（オット）」と接尾語「夫（フ）」は、いずれも概要テキストの形態素解析結果の候補となりうる。しかし、図５Ａに示す詳細テキスト（詳細テキスト用バッファ）においては、普通名詞「小心者」の後に続く格助詞「の」に対して、接尾語「夫（フ）」が続くのは品詞の並びとして不適切である。このため、普通名詞「夫（オット）」のほうが、格助詞「の」に続く品詞として適切であると判断される。このことから、概要テキストについての形態素解析において普通名詞「夫（オット）」に加点され（１点）、接尾語「夫（フ）」には加点されない（０点）（図５Ｄ）。

ＣＰＵ３２は、Ｏｐ６０１において抽出した単語の数だけＯｐ６０３〜６０５の処理を繰り返す（Ｏｐ６０６、Ｙｅｓ）。その後（Ｏｐ６０６、Ｎｏ）、隣接する単語の品詞を組合せるとともに、単語の文字数や加点を評価して、最適な単語の組合せを決定する（Ｏｐ６０７）。

図５Ｅは、概要テキスト２１「小心者夫が逆襲！」を形態素解析した結果の一例を示す模式図である。この場合、「ショーシンモノオットガギャクシュー．」という表音文字列が生成される。このため、従来のように「ショーシンモノフガギャクシュー．」という表音文字列が生成されることを防止して、より聞き手に分かりやすい合成音声を生成することが可能となる。

概要テキストの読み特定処理（Ｏｐ４１２）を終えると、ＣＰＵ３２は、図４のＯｐ４１３において概要テキストに未知語があるか否かを判断し、未知語が存在すれば（Ｏｐ４１３、Ｙｅｓ）、概要テキストの原形特定処理を実行する（Ｏｐ４１４）。概要テキストの原形特定処理では、概要テキストの形態素解析の結果、未知語となった区間について、原形を示す単語を特定するための解析を行う。ここで、未知語とは、単語辞書３５ｂ中に存在しない単語である。

［１−３−２．概要テキストの原形特定処理］
図７は、概要テキストの原形特定処理のオペレーションチャートの一例を示す図である。概要テキストの原形特定処理は、図２Ｂの時間枠２１３（「４チャンネル」の「２０時」からの番組タイトル「お笑い」についての番組概要「大爆笑！チョート・ブルマヨ・エンジャ！」、図２Ａに示す番組レコード２４）の例を用いて説明する。

図８Ａは、詳細テキスト２２「出演は、チョートリアル・ブルーマヨネーズ・エンジャッシュ！…」を形態素解析した結果の一例を示す模式図である。つまり、図８Ａは、上述した詳細テキスト用バッファに格納されている情報である。ここで、図８Ａに示す固有名詞「チョートリアル」、固有名詞「ブルーマヨネーズ」および固有名詞「エンジャッシュ」は、図８Ｃの単語辞書データに存在しているため、正しく形態素解析がなされている。

一方、図８Ｂは、概要テキスト２１「大爆笑！チョート・ブルマヨ・エンジャ！」について、上述した概要テキストの読み特定処理を実行した結果の一例を示す模式図である。つまり、図８Ｂは、上述した概要テキスト用バッファに格納されている情報である。

ＣＰＵ３２は、概要テキスト用バッファに格納された単語Ｎについて、変数Ｎを初期化した後（Ｏｐ７０１）、単語Ｎが未知語であるか否かを判定する（Ｏｐ７０２）。なお、Ｎは上記単語の順序を示す識別番号である。

ＣＰＵ３２は、単語Ｎが未知語でなければ、Ｎをインクリメントして次の単語について判断し（Ｏｐ７０８）、単語Ｎが未知語であれば、変数Ｍを初期化した後（Ｏｐ７０３）、単語Ｎが詳細テキストの形態素解析結果に含まれる単語Ｍの省略形であるか否かを判定する（Ｏｐ７０４）。具体的には、単語Ｎが図８Ｂに示す未知語「チョート」である場合、図８Ａの詳細テキストに含まれる各単語の中から、単語Ｎ（未知語「チョート」）の文字列と部分一致する表記を探索する。ここでは、概要テキスト中の未知語「チョート」は、詳細テキスト中の「チョートリアル」の先頭４文字と一致していることから、未知語「チョート」は、「チョートリアル」の省略形であると判断する。すなわち、未知語「チョート」の原形は、「チョートリアル」であると判断する。

詳細テキストの形態素解析結果から省略形の原形が特定できた場合（Ｏｐ７０４、Ｙｅｓ）、ＣＰＵ３２は、概要テキストの未知語を原形の単語に置換する（Ｏｐ７０５）。例えば、図８Ｂに示すように、未知語「チョート」を、原形である固有名詞「チョートリアル」で置換する。

一方、詳細テキストの形態素解析結果から省略形の原形が特定できない場合（Ｏｐ７０４、Ｎｏ）、ＣＰＵ３２は、Ｍをインクリメントして、Ｍが詳細テキストの形態素解析結果に含まれる単語数だけＯｐ７０４を繰り返す（Ｏｐ７０６、Ｏｐ７０８）。

Ｏｐ７０４を繰り返す結果、図８Ｂに示す概要テキスト中の未知語「ブルマヨ」は、詳細テキスト中の「ブルマヨ」と先頭の２文字と中間の２文字とを連結した文字列と一致することから、「ブルーマヨネーズ」の省略形であると判断する。すなわち、未知語「ブルマヨ」の原形は、「ブルーマヨネーズ」であると判断する。この結果、例えば、図８Ｂに示すように、未知語「ブルマヨ」を、原形である固有名詞「ブルーマヨネーズ」で置換する。

なお、省略形は、原形の先頭ｎ文字（３〜４モーラに相当する長さ）または、原形の先頭ｎ文字と途中のｎ文字を結合した文字列（あわせて３〜４モーラに相当）であることが多く、このような判断基準で省略形と原形を対応づけることが可能である。

さらに、Ｏｐ７０４を繰り返す結果、図８Ｂに示す概要テキスト中の「エンジャ」についても同様の処理により、未知語「エンジャ」は「エンジャッシュ」の省略形であると判断する。すなわち、未知語「エンジャ」の原形は、「エンジャッシュ」であると判断する。この結果、例えば、図８Ｂに示すように、未知語「エンジャ」を、原形である固有名詞「エンジャッシュ」で置換する。

図８Ｄは、上述した概要テキスト用バッファに格納されている情報を、Ｏｐ７０５において置換した結果を示す模式図である。そして、図８Ｅは、概要テキスト２１「大爆笑！チョート・ブルマヨ・エンジャ！」について解析した結果の一例を示す模式図である。この場合、「ダイバ’クショー．チョート’リアルブルーマヨネ’ーズエンジャ’ッシュ．」という表音文字列が生成される。このため、従来のように「ダイバ’クショー．チョートブルマヨエ’ンジャ」という表音文字列が生成されることを防止して、より聞き手に分かりやすい合成音声を生成することが可能となる。

ＣＰＵ３２は、原形特定処理（Ｏｐ４１４）を終えた場合、または、図４のＯｐ４１３において概要テキストに未知語が存在しないと判断した場合（Ｏｐ４１３、Ｎｏ）、概要テキストのアクセント結合判定処理を実行する（Ｏｐ４１５）。ここで、アクセント結合とは、個々のアクセントを持つ複数の単語が連結して一個のアクセント句を形成することをいう。なお、アクセント句とは日本語において一個のアクセントのまとまりを形成する語句の単位である。

概要テキストのアクセント結合判定処理においては、普通名詞などの連続を複合単語と判断してアクセント結合を行う際に、詳細テキストにおいても同様の単語の連続がある場合には複合単語と見なしてアクセント結合を行い、同様の単語の連続がない場合には複合単語ではないと見なしてアクセント結合をしないように処理を行う。

［１−３−３．概要テキストのアクセント結合判定処理］
図９は、概要テキストのアクセント結合判定処理のオペレーションチャートの一例を示す図である。概要テキストのアクセント結合判定処理（Ｏｐ４１５）は、図２Ｂの時間枠２１４（「１チャンネル」の「２１時」からの番組タイトル「ドキュメント」についての番組概要「世界終末予言と奇妙な一致徹底追跡」、図２Ａに示す番組レコード２５）の例を用いて説明する。

図１０Ａは、詳細テキスト２２「世界の終末予言と奇妙な一致！今夜その謎を徹底追跡！…」を形態素解析した結果の一例を示す模式図である。つまり、図１０Ａは、上述した詳細テキスト用バッファに格納されている情報である。

一方、図１０Ｂは、概要テキスト２１「世界終末予言と奇妙な一致徹底追跡」について、上述した概要テキストの読み特定処理を実行した結果の一例を示す模式図である。つまり、図１０Ｂは、上述した概要テキスト用バッファに格納されている情報である。

ＣＰＵ３２は、概要テキスト用バッファに格納された単語Ｎについて、変数Ｎを初期化した後（Ｏｐ９０１）、単語Ｎ＋１（つまり、単語Ｎに連続する次の単語）が付属語であるか否かを判定する（Ｏｐ９０２）。なお、Ｎは上記単語の順序を示す識別番号である。

例えば、図１０Ｂにおいて、普通名詞「世界」に連続する普通名詞「終末」は、単独で文節を構成できる名詞であるので、付属語でないと判定されてＯｐ９０４に進む。一方、図１０Ｂにおいて、普通名詞「予言」に連続する格助詞「と」は、単独で文節を構成できない助詞であるので、付属語と判定されてＯｐ９０３に進み、普通名詞「予言」と格助詞「と」はアクセント結合すると判断される（Ｏｐ９０３）。

また、普通名詞「世界」と普通名詞「終末」は、両方とも名詞であるので（Ｏｐ９０４、Ｙｅｓ）、詳細テキストにおいてもこれらの単語が連続して出現しているか否かが判断される（Ｏｐ９０５）。例えば、図１０Ａに示すように、普通名詞「世界」と普通名詞「終末」との間には格助詞「の」が存在しているため（Ｏｐ９０５、Ｎｏ）、普通名詞「世界」と普通名詞「終末」とはアクセント結合しないと判断する（Ｏｐ９０７）。一方、図１０Ａに示すように、普通名詞「終末」と普通名詞「予言」とは連続して出現しているため（Ｏｐ９０５、Ｙｅｓ）、普通名詞「終末」と普通名詞「予言」とはアクセント結合すると判断する（Ｏｐ９０８）。

さらに、Ｏｐ９０４において、連続する単語同士のいずれかが名詞でない場合には（Ｏｐ９０４、Ｎｏ）、これらの単語はアクセント結合しないと判断される（Ｏｐ９０６）。例えば、格助詞「と」と形容動詞の語幹である「奇妙」とは、両方とも名詞でないのでアクセント結合しないと判断される。

ＣＰＵ３２は、Ｎをインクリメント（Ｏｐ９０９）して、Ｎが概要テキストの形態素解析結果に含まれる単語数だけＯｐ９０２〜Ｏｐ９１０を繰り返す。

図１０Ｃは、上述した概要テキスト用バッファに格納されている「世界終末予言と奇妙な一致徹底追跡」について、上記において説明した概要テキストのアクセント結合判定処理を実行した結果の一例を示す模式図である。この場合、後述するＯｐ４０８において「セ’カイシューマツヨ’ゲントキ’ミョーナイッチテッテーツ’イセキ．」という表音文字列が生成される。このため、従来のように、「世界終末予言」に対して、「セカイシューマツヨ’ゲン」、または、「一致徹底追跡」に対して「イッチテッテーツ’イセキ」というように、聞き取りにくいアクセント結合を含む表音文字列が生成されることを防止して、より聞き手に分かりやすい合成音声を生成することが可能となる。

図４に戻り、概要テキストのアクセント結合判定処理（Ｏｐ４１５）を終えると、ＣＰＵ３２は、Ｏｐ４１０において形態素解析した番組タイトルおよびＯｐ４１２，Ｏｐ４１４またはＯｐ４１５において解析した概要テキストについての表音文字列を出力して（Ｏｐ４０８）、合成音声をスピーカ３７から出力する（Ｏｐ４０９）。

［１−４．まとめ］
以上に説明したとおり、上記の音声合成装置１においては、詳細テキストを形態素解析した第１の解析結果と、当該詳細テキストが示す情報と同一の番組について表現が異なる情報を示す概要テキストを形態素解析し、前記第１の解析結果を参照して第２の解析結果を出力して概要テキストに関する合成音声を生成するための表音文字列を生成する。このため、前記概要テキストが、助詞や助動詞等を省略したり、固有名詞等を略称で表記したりすることによって作成されたテキストであっても、読み上げ精度を向上させ、聞き手が判りやすい自然な読み上げ音声を生成することが可能となる。

この実施形態において、ＥＰＧデータ受信部２は、一例として、図４のＯｐ４０１の処理機能を含む。詳細テキスト取得部３は、一例として、図４のＯｐ４０４の処理機能を含む。概要テキスト取得部４は、一例として、図４のＯｐ４０４の処理機能を含む。第１解析部５は、一例として、図４のＯｐ４１０〜Ｏｐ４１１の処理機能を含む。第２解析部６は、一例として、図４のＯｐ４１２〜Ｏｐ４１５の処理機能を含む。表音文字列生成部８は、一例として、図４のＯｐ４０８の処理機能を含む。音声合成部９は、一例として、図４のＯｐ４０９の処理機能を含む。

［２．第２の実施形態］
本実施形態にかかる音声合成装置も、第１の実施形態と同様に、パーソナルコンピュータ、各種メディアを用いた録画再生装置、携帯電話またはＰＤＡ等の装置を用いて構成可能である。本実施形態においては、音声読み上げ機能つきウェブブラウザの例について説明する。

概要テキストとこれに対応する詳細テキストが存在するデータとしては、図１１Ａに示すようなニュース記事の見出しデータ（ニュース一覧）および、図１１Ｂに示すような前記ニュース記事の本文データ（記事テキスト）の内容が考えられる。例えば、ニュース一覧のタイトル「◇日本代表カメルーンに勝利！」１１１に対応する記事テキストは、「サッカーの第１９回ワールドカップ南アフリカ大会で日本代表がカメルーン代表と対戦し、日本代表が１対０でカメルーン代表に勝利した。…」１１２である。

このようなニュース記事のタイトル（ニュース一覧）には、上記第１の実施形態において説明した番組表の概要テキストと同様に、助詞や助動詞の省略や固有名詞の略称が多用されている。このため、音声読み上げ機能のあるウェブブラウザにおいて、これを読み上げると読みやアクセントの誤りが頻出する。しかし、タイトルを読み上げる際に、そのタイトルにリンクされている記事の内容を参照して、第１の実施形態において説明した各種処理を実行することにより、このようなタイトルの読み上げ精度を向上させることができる。

［２−１．システム構成］
本実施形態の音声合成装置１における各機能部の関係の一例は、図１と基本的に同様である。本実施形態の音声合成装置１は、図１のＥＰＧデータ受信部２に代えて、ニュース一覧データおよび記事テキストを受信するニュースデータ受信部を備えている。例えば、ニュースデータ受信部は、ウェブブラウザを用いて所定のニュースサイト（ＵＲＬ）にアクセスすることによって実現可能である。

［２−２．ハードウェア構成］
本実施形態の音声合成装置１におけるハードウェア構成の例は、図２と基本的に同様である。本実施形態の音声合成装置１においては、ハードディスク３５にブラウザプログラムが記録される。ニュースデータ受信部は、ＣＰＵ３２上において音声合成プログラム３５ａおよびウェブブラウザプログラムを実行することによって実現される。例えば、音声合成プログラム３５ａをウェブブラウザプログラムのプラグインとしてインストールしてもよい。

［２−３．音声合成処理］
図１２は、音声合成装置１のＣＰＵ３２で実行される音声合成プログラム３５ａに基づく音声合成処理のオペレーションチャートの一例を示す図である。図１２の音声合成処理において、先ずＣＰＵ３２は、ニュースサイトにアクセスしてニュース一覧データを取得する（Ｏｐ１２０１）。続いてＣＰＵ３２は、受信したニュース一覧データに基づいて、図１１Ａに示したニュース一覧画面を生成して、これをディスプレイ３１に表示する（Ｏｐ１２０２）。ニュース一覧画面においては、ＵＲＬリンクとしてのニュースタイトルがニュース毎に表示される。

ユーザがキーボード／マウス３４を用いて、ニュース一覧画面のニュースタイトルにマウスカーソル１１３を重ねると（マウスオン）、ＣＰＵ３２は、ニュースタイトルの読み上げ指示があったと判断し（Ｏｐ１２０３、Ｙｅｓ）、マウスカーソル１１３が重ねられたニュースタイトルに対応する番組についてのニュースタイトルおよび記事テキストをニュースデータから取得する（Ｏｐ１２０４）。例えば、ニュースタイトル「日本代表カメルーンに勝利！」１１１に、マウスカーソル１１３が重ねられた場合、ＣＰＵ３２は、ニュースデータから、概要テキストとしてのニュースタイトル「日本代表カメルーンに勝利！」を取得し、そのＵＲＬリンク先にアクセスして、詳細テキストとしての「サッカーの第１９回ワールドカップ南アフリカ大会で日本代表がカメルーン代表と対戦し、日本代表が１対０でカメルーン代表に勝利した。…」を取得する。

なお、上記の読み上げ指示の判断は、マウスオン以外の方法で行うようにしてよい。例えば、ＣＰＵ３２は、ニュース一覧画面の表示後において、上から順に各ニュースタイトルを読み上げるようにしてよい。

Ｏｐ１２０５〜Ｏｐ１２１５の各処理については、第１の実施形態に示したＯｐ４０５〜Ｏｐ４１５の各処理と同様である。すなわち、上記概要テキストとしてのニュースタイトル「日本代表カメルーンに勝利！」、詳細テキストとしての「サッカーの第１９回ワールドカップ南アフリカ大会で日本代表がカメルーン代表と対戦し、日本代表が１対０でカメルーン代表に勝利した。…」を用いて、形態素解析処理（Ｏｐ１２０６）、概要テキストの読み特定処理（Ｏｐ１２１２）、概要テキストの原形特定処理（Ｏｐ１２１４）および概要テキストのアクセント結合判定処理（Ｏｐ１２１５）を実行することにより、ニュースタイトルについての表音文字列を出力して（Ｏｐ１２０８）、その合成音声をスピーカ３７から出力する（Ｏｐ１２０９）。

［２−４．まとめ］
以上に説明したとおり、上記の音声合成装置１は、ウェブブラウザのニュース記事タイトルを読み上げる際に、そのタイトルにリンクされている記事テキストの内容を参照して、タイトルの読み上げ精度を向上させることができる。

［３．その他の実施形態］
［３−１．実施形態の組合せ］
上記第１および第２の実施形態において説明した構成の一部または全部を、２以上組合せた構成としてもよい。

［３−２．ＥＰＧデータ］
上記第１の実施形態においては、図１のＥＰＧデータ受信部２において受信したデータ（図２Ａ）に基づいて、詳細テキストおよび概要テキストを取得する例について説明した。しかし、詳細テキストおよび概要テキストをそれぞれ別のデータに基づいて取得してもよい。

例えば、詳細テキストを取得する先のデータと、概要テキストを取得する先のデータとが異なっていてもよい。また、詳細テキストを取得する先の装置と概要テキストを取得する先の装置とが異なっていてもよい。例えば、概要テキストをＥＰＧデータから取得して、詳細テキストを別のインターネット上のデータから取得するようにしてもよい。

［３−３．各機能ブロックの実現方法］
上記実施形態においては、図１に示す各機能ブロックを、ソフトウェアを実行するＣＰＵの処理によって実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。なお、プログラムの一部の処理をさらに、オペレーティング・システム（ＯＳ）にさせるようにしてもよい。

１音声合成装置
２ＥＰＧデータ受信部
３詳細テキスト取得部
４概要テキスト取得部
５第１解析部
６第２解析部
７単語辞書データ保持部
８表音文字生成部
９音声合成部

Claims

任意の対象についての情報を示す第１のテキストを形態素解析して第１の解析結果を出力する第１解析部と、
前記第１のテキストが示す情報と同一の対象について表現が異なる情報を示す第２のテキストを形態素解析し、前記第１の解析結果を参照して第２の解析結果を出力する第２解析部と、
前記第２の解析結果に基づいて、前記第２のテキストに関する合成音声を生成するための表音文字列を生成する表音文字列生成部とを備え、
前記第２解析部は、前記第１のテキストに含まれる第１の単語と前記第２のテキストに含まれる第２の単語が一致または部分一致するとき、前記第２の単語の解析結果として前記第１の単語の解析結果を優先して採用することを特徴とする音声合成装置。
前記第２解析部は、前記第２の単語に対して複数の解析結果の候補が出力され、その一個が前記第１の単語と一致した場合に、前記第２の単語の解析結果として前記第１の単語の解析結果を出力する、請求項１に記載の音声合成装置。
前記第２解析部は、前記第２の単語が解析不能な単語であり、前記第２の単語が前記第１の単語に部分一致する場合、前記第１の単語の解析結果を前記第２の単語の解析結果として出力する、請求項１または２に記載の音声合成装置。
前記第２解析部は、前記第２のテキスト中に複合単語が含まれており、かつ、前記複合単語が前記第１のテキスト中にも含まれている場合には、前記複合単語を一つのアクセント句として前記複合単語を構成する単語についての解析結果を出力する、請求項１〜３のいずれか一項に記載の音声合成装置。
前記表音文字列は、前記第２のテキストについての読み、アクセントまたは境界情報を含む、請求項１〜４のいずれか一項に記載の音声合成装置。
前記第１のテキストは、番組表データに基づく番組情報の詳細テキストであり、
前記第２のテキストは、番組表データに基づく番組情報の概要テキストであり、
前記表音文字列生成部は、前記概要テキストに関する合成音声を生成するための表音文字列を生成する、請求項１〜５のいずれか一項に記載の音声合成装置。
前記第２のテキストは、ニュース記事の見出しデータに基づくテキストであり、
前記第１のテキストは、前記ニュース記事の本文データに基づくテキストであり、
前記表音文字列生成部は、前記見出しデータに関する合成音声を生成するための表音文字列を生成する、請求項１〜５のいずれか一項に記載の音声合成装置。
音声合成装置をコンピュータを用いて実現するための音声合成プログラムであって、
任意の対象についての情報を示す第１のテキストを形態素解析して第１の解析結果を出力する第１解析処理と、
前記第１のテキストが示す情報と同一の対象について表現が異なる情報を示す第２のテキストを形態素解析し、前記第１の解析結果を参照して第２の解析結果を出力する第２解析処理と、
前記第２の解析結果に基づいて、前記第２のテキストに関する合成音声を生成するための表音文字列を生成する表音文字列生成処理とをコンピュータに実行させ、
前記第２解析処理は、前記第１のテキストに含まれる第１の単語と前記第２のテキストに含まれる第２の単語が一致または部分一致するとき、前記第２の単語の解析結果として前記第１の単語の解析結果を優先して採用することを特徴とする音声合成プログラム。
任意の対象についての情報を示す第１のテキストを形態素解析して第１の解析結果を出力する第１解析工程と、
前記第１のテキストが示す情報と同一の対象について表現が異なる情報を示す第２のテキストを形態素解析し、前記第１の解析結果を参照して第２の解析結果を出力する第２解析工程と、
前記第２の解析結果に基づいて、前記第２のテキストに関する合成音声を生成するための表音文字列を生成する表音文字列生成工程とを含み、
前記第２解析工程は、前記第１のテキストに含まれる第１の単語と前記第２のテキストに含まれる第２の単語が一致または部分一致するとき、前記第２の単語の解析結果として前記第１の単語の解析結果を優先して採用することを特徴とする音声合成方法。