JP2004102242A

JP2004102242A - 音声合成装置

Info

Publication number: JP2004102242A
Application number: JP2003191289A
Authority: JP
Inventors: ▲廣▼瀬　良文; Yoshifumi Hirose; Katsuyoshi Yamagami; 山上　勝義; Yumi Wakita; 脇田　由実
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-07-15
Filing date: 2003-07-03
Publication date: 2004-04-02
Anticipated expiration: 2023-07-03
Also published as: JP4359087B2

Abstract

【課題】十分な精度で複合語を表現することができる音声合成装置および音声合成方法を提供すること。
【解決手段】複合語抽出部１２は、単語単位に分割されたテキスト情報から複合語（複合語を構成する単語列）を抽出する。意味情報付与部１３は、複合語を構成する各単語の意味情報をシソーラス辞書部１８から拾い上げて複合語意味情報を生成し、抽出された複合語に付与する。規則適用部１４は、分離規則辞書部１９に記憶された分離規則を参照しながら、複合語に付与された複合語意味情報に基づいて、複合語を分離する位置を決定する。韻律生成部１５は、決定された分離位置に従ってテキスト情報の韻律を生成する。音声合成部１６は、生成された韻律に基づいてテキスト情報の合成音を生成する。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、入力されたテキスト情報から、テキスト情報に応じた音声を合成する音声合成装置に関する。
【０００２】
【従来の技術】
例えば新聞記事などのテキスト情報においては、複数の名詞が連続して並べられることにより１つの名詞を構成する複合語が頻繁に登場する。テキスト情報を音声情報に変換して音声を出力する音声合成装置において、複合語全体で１つのアクセント句を形成した場合、複合語をひと続きに発声するため、合成音が聞き取り難くなる。
【０００３】
このため、従来の音声合成装置では、複合語の構成要素（複合語を構成する単語）の間に「助詞」または「ポーズ」を挿入する、ということを行っている（例えば、特許文献１参照）。
【０００４】
【特許文献１】
特開平１０−２２８４７１号公報
【０００５】
【発明が解決しようとする課題】
しかしながら、従来の音声合成装置では、複合語に「助詞」または「ポーズ」を挿入する規則は、（１）目的語の後には「を」を挿入したり（２）副詞の後には「に」を挿入したりするなどの単純な規則であるが、実際には、目的語のあとに必ず「を」を挿入するとは限らず、また、すべての目的語のあとに「ポーズ」が挿入されるとは限らないので、複合語の表現を変換する精度が、十分ではないという問題があった。
【０００６】
本発明は、かかる点に鑑みてなされたものであり、十分な精度で複合語を表現することができる音声合成装置を提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明の音声合成装置は、複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出手段と、抽出された複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与手段と、付与された複合語意味情報に基づいて、抽出された複合語を分離する位置を決定する決定手段と、決定された分離位置に基づいてテキスト情報の韻律を生成する生成手段と、を有する構成を採る。
【０００８】
この構成によれば、テキスト情報から抽出された複合語を構成する複数の単語の意味を示し複合語に付与された複合語意味情報に基づいて、抽出された複合語を分離する位置を決定し、決定された分離位置に基づいて、テキスト情報の韻律を生成するため、テキスト情報に含まれる複合語を適切な位置でアクセント句毎に分離することができ、複合語の構造を理解しやすい合成音を生成することができ、十分な精度で複合語を表現することができる。
【０００９】
本発明の音声合成方法は、複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出ステップと、抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与ステップと、付与した複合語意味情報に基づいて、抽出した複合語を分離する位置を決定する決定ステップと、決定した分離位置に基づいてテキスト情報の韻律を生成する生成ステップと、を有するようにした。
【００１０】
この方法によれば、テキスト情報から抽出された複合語を構成する複数の単語の意味を示し複合語に付与された複合語意味情報に基づいて、抽出された複合語を分離する位置を決定し、決定された分離位置に基づいて、テキスト情報の韻律を生成するため、テキスト情報に含まれる複合語を適切な位置でアクセント句毎に分離することができ、複合語の構造を理解しやすい合成音を生成することができ、十分な精度で複合語を表現することができる。
【００１１】
本発明の音声合成用プログラムは、コンピュータに、複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出機能と、抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与機能と、付与した複合語意味情報に基づいて、抽出した複合語を分離する位置を決定する決定機能と、決定した分離位置に基づいてテキスト情報の韻律を生成する生成機能と、を実現させるようにした。
【００１２】
このプログラムによれば、テキスト情報から抽出された複合語を構成する複数の単語の意味を示し複合語に付与された複合語意味情報に基づいて、抽出された複合語を分離する位置を決定し、決定された分離位置に基づいて、テキスト情報の韻律を生成するため、テキスト情報に含まれる複合語を適切な位置でアクセント句毎に分離することができ、複合語の構造を理解しやすい合成音を生成することができ、十分な精度で複合語を表現することができる。
【００１３】
本発明の記録媒体は、コンピュータに、複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出機能と、抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与機能と、付与した複合語意味情報に基づいて、抽出した複合語を分離する位置を決定する決定機能と、決定した分離位置に基づいてテキスト情報の韻律を生成する生成機能と、を実現させる音声合成用プログラムが記録されるようにした。
【００１４】
この記録媒体によれば、テキスト情報から抽出された複合語を構成する複数の単語の意味を示し複合語に付与された複合語意味情報に基づいて、抽出された複合語を分離する位置を決定し、決定された分離位置に基づいて、テキスト情報の韻律を生成するため、テキスト情報に含まれる複合語を適切な位置でアクセント句毎に分離することができ、複合語の構造を理解しやすい合成音を生成することができ、十分な精度で複合語を表現することができる。
【００１５】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【００１６】
本発明においては、意味の類似した複合語はその複合語の構造の面においても類似しているという特徴を利用している。各要素単語の意味情報の連鎖パタンを用いて、複合語のアクセント句を分離する（すなわち、ポーズを挿入する）規則の自動構築を行う。
【００１７】
（実施の形態１）
本発明の実施の形態１に係る音声合成装置の構成を、図１を参照しながら説明する。
【００１８】
１１は入力されたテキスト情報を単語に分割する形態素解析部であり、１２は分割された単語列から複合語を形成する単語列を抽出する複合語抽出部であり、１３は単語に意味情報を付与する意味情報付与部であり、１４は分離規則を参照して、入力された複合語の分離位置を決定する規則適用部であり、１５は分離位置（分離されたアクセント句）にしたがって韻律を生成する韻律生成部であり、１６は生成された韻律に基づいて入力テキストの合成音を生成する音声合成部であり、１７は入力されたテキスト情報を単語単位に分割するための単語辞書部であり、１８は単語の意味情報を保持するシソーラス辞書部であり、１９は分離規則辞書部である。
【００１９】
以上のように構成された本発明の実施の形態１に係る音声合成装置の動作について、２つの動作例を挙げて説明する。
【００２０】
第１の動作例では、説明を容易にするため、具体的なテキスト情報として、「日本政府当局者は、１日…」を本実施の形態に係る音声合成装置において合成して読み上げる場合を挙げて説明する。
【００２１】
まず、形態素解析部１１では、入力されたテキスト情報を、単語辞書部１７を用いて形態素解析を行い単語に分割する。「日本政府当局者は、１日…」というテキストに対して形態素解析を行う場合、「日本・政府・当局・者・は・、・１・日・…」（ここで、「・」は単語分離を表す。）というように、単語単位に分割する。なお、形態素解析の具体的な方法は特に限定されない。
【００２２】
このように単語単位に分割されたテキスト情報は、次に複合語抽出部１２に送られる。複合語抽出部１２では、単語単位に分割されたテキスト情報に含まれる複合語を抽出する。抽出方法としては、例えば、名詞、接頭語、又は接尾語が連続してなる単語列を抽出する方法が挙げられる。上記の例では、「日本・政府・当局・者」という複合語が抽出される。以下、抽出された複合語を「テキスト内複合語」と言う。
【００２３】
意味情報付与部１３では、テキスト内複合語に、このテキスト内複合語を構成する各単語（ここでは、「日本」「政府」「当局」「者」）が有する意味情報を付与する。
【００２４】
より詳しく説明すると、シソーラス辞書部１８には、「日本」という単語には「国名」という意味情報、「政府」という単語には「政府機関」という意味情報、「当局」という単語には「政府機関」という意味情報、「者」という単語には「接尾語」というように、単語と、この単語が有する意味情報とが対応づけられて記憶されている。
【００２５】
意味情報付与部１３では、シソーラス辞書部１８を参照しながら、テキスト内複合語を構成する各単語（「日本」「政府」「当局」「者」）の意味情報を拾い上げて複合語意味情報を生成する。この場合、「国名」「政府機関」「政府機関」「接尾語」という複合語意味情報が生成される。以下、この複合語意味情報を「テキスト内複合語意味情報」と言う。なお、意味情報の抽象度は段階的に変更できるような意味辞書を用いても良い。
【００２６】
テキスト内複合語意味情報は、規則適用部１４に送られる。規則適用部１４では、テキスト内複合語意味情報（この例では「国名」「政府機関」「政府機関」「接尾語」）が、どの意味情報と意味情報との間で分離されるべきかという分離位置（この分離位置を、「テキスト内複合語分離位置」という）を決定する。
【００２７】
これについてより詳細に説明すると、例えば、図２に示す通り、連続する４つの意味情報を順に並べて構成される複合語意味情報「進退」「運営」「接尾語」「計画」であれば、「接尾語」と「計画」との間（すなわち、３番目と４番目の意味情報の間）を、連続する４つの意味情報を順に並べて構成される複合語意味情報「国」「会議」「接尾語」「役職」であれば、「接尾語」と「役職」との間（すなわち、３番目と４番目の意味情報の間）を、連続する４つの意味情報を順に並べて構成される複合語意味情報「交わり」「原理」「関係」「接尾語」であれば、「原理」と「関係」との間（すなわち、２番目と３番目の意味情報の間）を、また、連続する４つの意味情報を順に並べて構成される複合語意味情報「集合」「軍人」「会議」「文章」であれば、「会議」と「文章」との間（すなわち、３番目と４番目の意味情報の間）を、それぞれ分離位置とする。
【００２８】
分離規則辞書部１９には、上記の通り、意味情報が連続して並べられてそれぞれ構成されている複数個の複合語意味情報と、各複合語意味情報のうちどの意味情報と意味情報との間で複合語が分離されるべきかという分離位置とが対応づけられて記憶（記録）されている。規則適用部１４では、このような分離規則辞書部１９を参照しながら、テキスト内複合語分離位置の決定を行う。
【００２９】
分離規則辞書部１９に、連続する４つの意味情報を順に並べて構成される複合語意味情報「国名」「政府機関」「政府機関」「接尾語」であれば、分離位置は「政府機関」と「政府機関」との間（すなわち、分離位置は意味情報の２番目と３番目との間）であることが記憶（記録）されていれば、規則適用部１４は、「国名」「政府機関」「政府機関」「接尾語」からなるテキスト内複合語意味情報に対応するテキスト内複合語分離位置が「政府機関」と「政府機関」との間にあるということを決定する。
【００３０】
最後に、このようにして分離位置が決定された複合語を韻律生成部１５に送る。韻律生成部１５は入力されたテキスト情報に適切な韻律を付与し、音声合成部１６に韻律情報を送る。音声合成部１７は、韻律生成部１６が生成した韻律に基づいて音声を合成する。この音声合成時にテキスト内複合語分離位置においてポーズがかかる。すなわち、上記の例であれば、「にほんせいふ（ポーズ）とうきょくしゃ」という音声が合成され、発音される。
【００３１】
このようにして、テキスト情報中に含まれる複合語を適切な位置でアクセント句分離可能となり、複合語の構造を理解しやすい合成音を生成できる。
【００３２】
次に、第２の動作例では、説明を容易にするため、具体的なテキスト情報として、「アメリカ連邦捜査局は、１日…」を本実施の形態に係る音声合成装置において合成して読み上げる場合を挙げて説明する。
【００３３】
上記第１の動作例では、分離規則辞書部１９に記憶（記録）されている複合語意味情報と、テキスト内複合語意味情報とが完全一致する場合について説明したが、ここで説明する第２の動作例では、分離規則辞書部１９に記憶（記録）されている複合語意味情報と、テキスト内複合語意味情報とが部分的にしか一致しない場合について説明する。
【００３４】
形態素解析部１１により単語に分割されたテキスト情報からテキスト内複合語を複合語抽出部１２により抽出し、当該テキスト内複合語の各単語が有する意味情報を並べてテキスト内複合語意味情報を意味情報付与部１３が生成することまでは第１の動作例と同様である。上記の例であれば、テキスト内複合語は「アメリカ」「連邦」「捜査」「局」となり、シソーラス辞書部１８に「アメリカ」の意味情報は「国名」、「連邦」の意味情報は「政府機関」、「捜査」の意味情報は「調査」、「局」の意味情報は「接尾語」であることが記憶（記録）されていれば、意味情報生成部１３は、テキスト内複合語意味情報として「国名」「政府機関」「調査」「接尾語」を生成する。
【００３５】
すなわち、分離規則辞書部１９には、「国名」「政府機関」「調査」「接尾語」というテキスト内複合語意味情報と完全一致する複合語意味情報が存在しない。
【００３６】
この場合は、まず、テキスト内複合語意味情報の第１番目の意味情報（上記の例では「国名」）を「任意」にして、分離規則辞書部１９に「任意」「政府機関」「調査」「接尾語」という複合語意味情報が存在するかどうかを判断する。説明を容易にするため、ここでは、このような複合語意味情報が存在しなかったとする。なお、本明細書および図面では、この「任意」の意味を「＊」または「（＊）」により表すことがある。
【００３７】
そして、第１番目の意味情報を「国名」に戻して、第２番目の意味情報を「任意」にする。そして、分離規則辞書部１９に「国名」「（＊）」「調査」「接頭語」という複合語意味情報が存在するかどうかを判断する。説明を容易にするため、ここでは、このような複合語意味情報が存在しなかったと仮定する。
【００３８】
そして、第２番目の意味情報を「政府機関」に戻して、第３番目の意味情報を「任意」にする。そして、分離規則辞書部１９に「国名」「政府機関」「（＊）」「接頭語」という複合語意味情報が存在するかどうかを判断する。
【００３９】
上記第１の動作例にて説明したように、分離規則辞書部１９に、連続する４つの意味情報を順に並べて構成される複合語意味情報「国名」「政府機関」「政府機関」「接尾語」の分離位置は「政府機関」と「政府機関」との間であるということが記憶（記録）されているので、「国名」「政府機関」「（＊）」「接頭語」というテキスト内複合語意味情報は、分離規則辞書部１９に記憶（記録）されている複合語意味情報「国名」「政府機関」「政府機関」「接尾語」と部分一致している。
【００４０】
分離規則辞書部１９には、複合語意味情報「国名」「政府機関」「政府機関」「接尾語」の分離位置が「政府機関」と「政府機関」との間であることが記憶（記録）されているので、「国名」「政府機関」「（＊）」「接頭語」という複合語意味情報も「政府機関」と「（＊）」との間にあると決定する。これ以後の動作は、上記第１の動作例と同様である。
【００４１】
したがって、第２の動作例によれば、「あめりかれんぽう（ポーズ）そうさきょく」という音声が合成され、発音される。
【００４２】
この第２の動作例によれば、分離規則辞書部１９にテキスト内複合語意味情報と完全に一致する複合語意味情報が存在しない場合であっても、おおよそ正しい分離位置を推定することができる。このように、第２の動作例においても、テキスト情報中に含まれる複合語を適切な位置でアクセント句毎に分離可能となり、複合語の構造を理解しやすい合成音を生成することができる。
【００４３】
なお、テキスト内複合語意味情報の１つの意味情報を「（＊）」にしても、分離規則辞書部１９に記憶（記録）されている複合語意味情報の中から意味情報が合致する複合語意味情報が存在しない場合には、「（＊）」を２つ乃至３つに増やし、テキスト内複合語意味情報の複数の意味情報を「（＊）」にして、分離規則辞書部１９に記憶（記録）されている複合語意味情報の中から意味情報が合致する複合語意味情報と合致するかどうかを判断しても良い。
【００４４】
また、テキスト内複合語意味情報の１つの意味情報を「（＊）」にすることにより、分離規則辞書部１９に記憶（記録）されている複合語意味情報の中から意味情報が合致する複合語意味情報が複数個存在する場合には、これらの合致する複数個の複合語意味情報の中の一つを適宜選択しても良い。
【００４５】
また、テキスト内複合語意味情報の全部の意味情報を「（＊）」にしない限り、分離規則辞書部１９に記憶（記録）されている複合語意味情報の中から意味情報が合致する複合語意味情報が存在しない場合がある。この場合には、致し方ないが、「分離位置なし」としてポーズなしで音声を合成し、発音させることにする。または、予め決定しておいた位置で分離し、音声を合成しても良い。
【００４６】
このように、本実施の形態によれば、テキスト情報中に含まれる複合語を適切な位置でアクセント句毎に分離可能となり、複合語の構造を理解しやすい合成音を生成することができる。
【００４７】
（実施の形態２）
図３は、本発明の実施の形態２に係る音声合成装置の構成を示す図である。なお、本実施の形態に係る音声合成装置は、実施の形態１において説明した音声合成装置と同様の基本的構成を有しており、同一の構成要素には同一の参照符号を付し、その説明を省略する。
【００４８】
図３に示す音声合成装置は、図１に示す音声合成装置の構成要素に加えて、複合語のアクセント句分離規則を構築する分離規則構築部２１と、複合語のアクセント句分離規則学習用の学習データベース（ＤＢ）２２とを有する。
【００４９】
ここでは、本実施の形態の特徴である、音声合成装置の分離規則構築部２１における分離位置の学習方法について、説明する。
【００５０】
分離位置を学習する際には、学習ＤＢ２２において、図２に示すようなＤＢが用いられる。このＤＢに記憶される各データは、複合語を構成する単語と、単語が保有する意味情報（図中括弧内の情報）と、分離位置を示す分離位置情報とを持つ。例えば分離すべきでない複合語には、分離位置情報として「０」が付与される。
【００５１】
なお、分離位置情報は１つの複合語に対して複数の分離位置情報を保持しても良い。
【００５２】
分離規則の自動構築は、この学習ＤＢ２２を用いて行われる。構築方法を以下に説明する。ここで、本発明における規則とは、複合語を構成する各単語の意味情報の連鎖パタンによってアクセント句毎に分離する分離規則である。例えば、「Ｃ１」「Ｃ２」「Ｃ３」「Ｃ４」という意味情報の連鎖パタンにおいて（Ｃ１〜Ｃ４は意味情報を表す）、「Ｃ２」と「Ｃ３」の間でアクセント句毎に分離する、という規則がある。
【００５３】
分離規則構築のフローを図４に示す。まず、ステップＳ２００では、学習ＤＢ２２から１つのデータを選択する。そして、ステップＳ３００では、ステップＳ２００で選択した意味情報の連鎖パタンと同一のパタンを持つデータを収集する。
【００５４】
そして、ステップＳ４００では、ステップＳ３００でデータ数が増加したか否かを判断する。この判断の結果として、データ数に変化がない場合（Ｓ４００：ＮＯ）は、ステップＳ２００に戻る。一方、データ数が増加していた場合（Ｓ４００：ＹＥＳ）は、ステップＳ５００に進む。
【００５５】
ステップＳ５００では、ステップＳ３００で集めたデータのうち、ステップＳ２００で選んだデータと同一の位置に分離位置があるデータの割合（選択されたデータにおける分離位置の信頼度）を算出し、算出された割合（信頼度）を予め設定された閾値と比較する。この比較の結果として、同一の分離位置である割合が閾値以上である場合（Ｓ５００：ＹＥＳ）は、ステップＳ６００に進む。一方、閾値未満である場合（Ｓ５００：ＮＯ）は、ステップＳ７００に進む。
【００５６】
ステップＳ６００では、ステップＳ２００で選択したデータにおける意味情報の連鎖パタンを規則化する。そして、ステップＳ７００では、学習ＤＢ２２における全てのデータについてステップＳ２００からステップＳ６００を処理したか否かを判断し、まだ処理していないデータが存在する場合（Ｓ７００：ＮＯ）は、ステップＳ２００に戻る。一方、全てのデータを処理した場合（Ｓ７００：ＹＥＳ）は、分離規則構築を終了する。
【００５７】
以上のように構築した分離規則の適用例を説明する。図５の（Ａ）に示すように、「韓国政府当局者」と「日本政府当局者」というデータが学習ＤＢ２２に存在した場合、各データの意味情報の連鎖パタンである「（国名）（政府機関）（政府機関）（接尾語）」に対する分離位置が全て「２」であるため、「（国名）（政府機関）／（政府機関）（接尾語）」を規則化する。ここで、「／」は分離位置を表す。一方、図５の（Ｂ）に示すように、未知データとして「アメリカ政府当局者」という複合語が入力された場合には上記規則化された「（国名）（政府機関）／（政府機関）（接尾語）」における意味情報の連鎖パタンと一致するため、この規則を適用し、「アメリカ政府／当局者」というように「アメリカ政府」の直後で適切に分離することが可能となる。
【００５８】
なお、このような規則を構築する場合、最も精度が高い分離規則は、あらゆる組合せの意味情報の連鎖パタンについて全て網羅的に規則化することにより得られる。しかし、網羅的に規則化することはデータ量から見て容易ではない。例えば、４単語から構成される複合語の場合、Ｎｃ^４パタン存在し（意味情報の種類数をＮｃとする）、このような規則を学習するために学習ＤＢ２２を構築することは容易ではない。
【００５９】
そこで、本発明では、以下に示す方法によりアクセント句分離の決定に影響を及ぼさない単語を、全ての単語を含む意味クラス（以下「ワイルドカード」と言う）と見なす。このワイルドカードを用いることにより、高い精度を保ちながら規則の適用範囲を拡張することが可能となる。
【００６０】
ワイルドカードを導入した場合、複合語を構成する単語毎に、ワイルドカード化するかどうかを判断するため、Ｎ個の単語の連鎖（以下「Ｎ連鎖」と言う）の複合語の場合、（２^Ｎ−１）通りの適用のパタンがある。図６に、Ｎ＝３、４、５のときのワイルドカード適用パタンについて示す。なお、Ｎ＞５の場合も同様にパタンを設定することが可能である。例えば、ワイルドカードを適用した場合、「Ｃ１」「Ｃ２」「＊」「＊」（先頭がＣ１、２番目がＣ２で、３番目、４番目はどの単語でも良い）という連鎖パタンを持つ複合語はＣ１の後で分離する、という規則を構築することになる。
【００６１】
なお、ワイルドカード適用のパタン数を削減するために、ワイルドカード化するパタンに制約を設けても良い。より具体的には、連続した単語をワイルドカードとみなさない、という制約を設けても良い。例えば、「＊」「Ｃ１」「Ｃ２」「＊」はワイルドカード適用パタンとして有効であるが、「＊」「＊」「Ｃ１」「Ｃ２」は無効である。ここで、記号「＊」はワイルドカードを適用した単語を示す。
【００６２】
以下、ワイルドカードを用いてＮ連鎖の複合語の分離規則を構築する動作について、図７を参照しながら説明する。
【００６３】
まず、ステップＳ１００では、図６に示すワイルドカードの適用パタンの中から１つを選び、選択されたワイルドカードを学習ＤＢ２２の全データに適用する。
【００６４】
例えば、０個のワイルドカードを適用するときは、学習ＤＢ２２に記憶されている各データにおけるどの単語にも適用しない。また、１個のワイルドカードを適用するときは、学習ＤＢ２２に記憶されている各データにおけるいずれか１つの単語に適用する。つまり、４連鎖の複合語のデータの場合は、４つのパタンの適用が可能である。また、２個のワイルドカードを適用するときは、学習ＤＢ２２に記憶されている各データにおけるいずれか２つの単語に適用する。つまり、４連鎖の複合語のデータの場合は、６つのパタンの適用が可能である。
【００６５】
そして、ステップＳ２００では、学習ＤＢ２２から１つのデータを選択する。例えば、「（国名）（政府機関）／（政府機関）（接尾語）」という意味情報の連鎖パタンを有するデータが選択される。
【００６６】
そして、ステップＳ３００では、ステップＳ２００で選択した意味情報の連鎖パタンと同一のパタンを持つデータを収集する。
【００６７】
例えば、図８に示す通り、データ＃１〜＃４を記憶している学習ＤＢ２２において０個のワイルドカードが適用されている場合、上記選択されたデータと同一のパタンを持つデータは、データ＃１、＃２である。一方、１個のワイルドカードが先頭の単語に適用されている場合はデータ＃１〜＃３が、また、２個のワイルドカードが先頭および３番目の単語に適用されている場合はデータ＃１〜＃４が、それぞれ上記選択されたデータと同一のパタンを持つ。
【００６８】
そして、ステップＳ４００では、ステップＳ３００でデータ数が増加したか否かを判断する。この判断の結果として、データ数に変化がない場合（Ｓ４００：ＮＯ）は、ステップＳ２００に戻る。一方、データ数が増加していた場合（Ｓ４００：ＹＥＳ）は、ステップＳ５００に進む。
【００６９】
例えば、図８において、１個のワイルドカードが適用されたときは、０個のワイルドカードが適用されたときと比べて、収集されたデータ数が１つ増加している。また、２個のワイルドカードが適用されたときは、０個のワイルドカードが適用されたときと比べて、収集されたデータ数が２つ増加している。
【００７０】
ステップＳ５００では、ステップＳ３００で集めたデータのうち、ステップＳ２００で選んだデータと同一の位置に分離位置があるデータの割合（選択されたデータにおける分離位置の信頼度）を算出し、算出された割合（信頼度）を予め設定された閾値と比較する。
【００７１】
例えば、図８において、１個のワイルドカードが適用されているときに収集された各データ＃１〜＃３の分離位置が上記選択されたデータの分離位置と一致する割合、つまり選択されたデータの分離位置の信頼度は１００％である。また、２個のワイルドカードが適用されているときに収集された各データ＃１〜＃４の分離位置が上記選択されたデータの分離位置と一致する割合、つまり選択されたデータの分離位置の信頼度は１００％である。
【００７２】
この比較の結果として、同一の分離位置である割合が閾値以上である場合（Ｓ５００：ＹＥＳ）は、ステップＳ６００に進む。一方、閾値未満である場合（Ｓ５００：ＮＯ）は、ステップＳ７００に進む。
【００７３】
ステップＳ６００では、ステップＳ２００で選択した意味情報の連鎖パタンを規則化する。
【００７４】
ステップＳ７００では、学習ＤＢ２２における全てのデータについてステップＳ２００からステップＳ６００を処理したか否かを判断し、まだ処理していないデータが存在する場合（Ｓ７００：ＮＯ）は、ステップＳ２００に戻る。一方、全てのデータを処理した場合（Ｓ７００：ＹＥＳ）は、ステップＳ８００に進む。
【００７５】
ステップＳ８００では、図６に示したワイルドカードの適用パタンの全てについて処理を実行したか否かを判断する。判断の結果として、まだ適用していないワイルドカードのパタンが存在する場合（Ｓ８００：ＮＯ）にはステップＳ１００を実行する。一方、全てのワイルドカードのパタンについて処理した場合（Ｓ８００：ＹＥＳ）は、動作を終了する。
【００７６】
なお、図６では、Ｎ連鎖の複合語のワイルドカード適用パタンを（２^Ｎ−１）通りとしているが、全ての構成要素にワイルドカードを適用し、どの規則にも適用されなかった複合語に対する分離位置を設定するようにしても良い。
【００７７】
また、規則の信頼度を高めるために、規則化するときに最低限必要なデータの出現頻度を設定するようにしても良い。例えば、「データ中に３回以上出現した連鎖パタンのみ規則化する」というような制約を設けても良い。
【００７８】
このようにして、Ｎ連鎖の複合語であればどのような複合語であっても、規則構築を行い、規則化することが可能である。
【００７９】
ワイルドカードを導入することにより、図９の（Ａ）および（Ｂ）に示すように意味情報の連鎖パタンの一部が異なるような複合語が入力された場合にも、精度良く規則を適用することが可能となる。
【００８０】
図９の（Ａ）には、学習ＤＢ２２に存在する「韓国政府当局者」と「ロシア外務省筋」という複合語から「（国名）（政府機関）／（＊）（接尾語）」という分離規則を構築した例が示されている。図９の（Ｂ）に示すように、未知データである「アメリカ連邦捜査局」という複合語が入力された場合には、この複合語の意味情報の連鎖パタンは「（国名）（政府機関）／（調査）（接尾語）」である。上記二つの連鎖パタンにおいてそれぞれ３番目に位置している意味情報は（調査）と（政府機関）であり互いに異なるが、ワイルドカードの適用により「アメリカ連邦」の直後で適切に分離し、「アメリカ連邦／捜査局」とすることが可能となる。
【００８１】
ところで、ワイルドカードを導入した場合、１つの連鎖パタンに対して適用可能な規則が複数存在することがある。このとき、２つの基準に基づいて、適用可能な複数の規則の中から１つを選択する。
【００８２】
ここで用いられる第１の基準は、ワイルドカードを適用した単語数が少ない方の規則を優先的に選択する、という基準である。図１０に示す通り、一般的には、適用されるワイルドカード数が少ない規則の方が高い精度を有する一方、適用されるワイルドカード数が多い規則の方が高いカバレッジを有する。そこで、例えば、「（国名）（政府機関）／（＊）（＊）」という規則と「（国名）／（＊）（＊）（＊）」という規則が適用可能である場合、ワイルドカードが少ない前者の規則を選択し、適用する。
【００８３】
また、ここで用いられる第２の基準は、規則を構築したときの信頼度が高い方の規則を優先的に選択する、という基準である。例えば、信頼度が８０％である「（＊）（政府機関）／（＊）（＊）」という規則と、信頼度が７５％である「（国名）／（＊）（＊）（＊）」という規則が適用可能である場合、信頼度が高い前者の規則を選択し、適用する。
【００８４】
上記の基準を予め設定しておくことにより、１つの連鎖パタンに対して適用可能な規則が複数存在する場合においても最適な分離規則を適用することができる。
【００８５】
なお、これらの基準に基づく分離規則の優先順位は、各分離規則を構築するときに決定されるものである。このため、全ての分離規則をこの優先順位に基づいて予め整列しておき、分離規則が適用可能な否かを、優先順位の高い規則から順に判断することにより、最初に適用可能と判断された分離規則を最適な分離規則として適用することが可能になる。この場合、各分離規則の信頼度を保持しておく必要性がなくなる。
【００８６】
以上の説明では、複合語のアクセント句の分離規則について述べたが、本実施の形態により、複合語のアクセント句の分離位置を決定するだけでなく、複合語を構成する各単語間に挿入する語句（例えば、助詞など）を決定する規則も構築することが可能である。
【００８７】
以下に、単語間に語句を挿入する例について説明する。学習ＤＢ２２として、図１１に示す通り、分離位置情報とその分離位置に挿入すべき語句を記述したＤＢを用意する。例えば、「国家・評議・会・議長」という複合語の場合、「国家評議会の議長」というように助詞を挿入するという変換を行うことができるように、分離位置（３番目）に助詞「の」を挿入するということを示す情報を持つ学習ＤＢ２２を構築する。
【００８８】
規則の構築方法は、前述の方法と同じ方法で構築が可能であるが、上記フローのステップＳ２０４において、分離位置だけでなく挿入される助詞の種類も一致する割合（信頼度）を計算するように変更すれば、上記のＤＢを構築することが可能である。
【００８９】
なお、本発明は上記の実施の形態に限定されず、様々な実施の形態に実施することが可能である。例えば、上記実施の形態では、音声合成方法を音声合成装置で実行しているが、コンピュータ上でソフトウェアとして実行しても良い。
【００９０】
例えば、上記実施の形態で説明した音声合成方法を実行するプログラムを予め例えばＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）などの記録媒体に記録しておき、そのプログラムをＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｏｒ　Ｕｎｉｔ）によって動作させるようにしても良い。
【００９１】
【発明の効果】
以上説明したように、本発明によれば、上記の複合語分離方法を用いることにより、音声合成装置において、テキスト情報中に含まれる複合語を適切な位置でアクセント句毎の分離を行うことが可能となり、複合語の構造を理解しやすい合成音を生成することができ、十分な精度で複合語を表現することができるので実用上の価値は大きい。
【図面の簡単な説明】
【図１】本発明の実施の形態１に係る音声合成装置の構成を示す図
【図２】本発明の実施の形態１に係るテキスト内複合語分離位置を説明するための図
【図３】本発明の実施の形態２に係る音声合成装置の構成を示す図
【図４】本発明の実施の形態２において、分離規則構築の動作を説明するためのフロー図
【図５】本発明の実施の形態２において、構築された分離規則を未知データに適用した例を説明するための図
【図６】本発明の実施の形態２に係るワイルドカード適用パタンを示す図
【図７】本発明の実施の形態２において、ワイルドカードを用いた分離規則構築の動作を説明するためのフロー図
【図８】本発明の実施の形態２において、ワイルドカードを用いた分離規則構築の動作の具体例を説明するための図
【図９】本発明の実施の形態２において、ワイルドカードを用いて構築された分離規則を未知データに適用した例を説明するための図
【図１０】本発明の実施の形態２において、適用する分離規則を選択するときの第１の基準を説明するための図
【図１１】本発明の実施の形態２に係るテキスト内複合語分離位置および挿入語句を説明するための図
【符号の説明】
１１　形態素解析部
１２　複合語抽出部
１３　意味情報付与部
１４　規則適用部
１５　韻律生成部
１６　音声合成部
１７　単語辞書部
１８　シソーラス辞書部
１９　分離規則辞書部
２１　分離規則構築部
２２　学習データベース

Claims

複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出手段と、
抽出された複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与手段と、
付与された複合語意味情報に基づいて、抽出された複合語を分離する位置を決定する決定手段と、
決定された分離位置に基づいてテキスト情報の韻律を生成する生成手段と、
を有することを特徴とする音声合成装置。
複合語意味情報および当該複合語意味情報に対応する分離位置を示す少なくとも一つの分離規則を予め記憶する記憶手段をさらに有し、
前記決定手段は、
前記記憶手段に記憶された分離規則の一つを適用して分離位置の決定を行う、
ことを特徴とする請求項１記載の音声合成装置。
前記決定手段は、
前記記憶手段に記憶されかつ付与された複合語意味情報と完全一致する複合語意味情報に対応する分離位置を、抽出された複合語の分離位置とする、
ことを特徴とする請求項２記載の音声合成装置。
前記決定手段は、
付与された複合語意味情報と完全一致する複合語意味情報が前記記憶手段に記憶されていない場合、前記記憶手段に記憶されかつ付与された複合語意味情報と部分一致する複合語意味情報に対応する分離位置を、抽出された複合語の分離位置とする、
ことを特徴とする請求項２記載の音声合成装置。
前記決定手段は、
付与された複合語意味情報と完全一致する複合語意味情報が前記記憶手段に記憶されていない場合、付与された複合語意味情報の一部を任意の意味に置換することにより、前記記憶手段に記憶されかつ付与された複合語意味情報と部分一致する複合語意味情報を検索する、
ことを特徴とする請求項４記載の音声合成装置。
複合語に関するデータを予め記憶するデータベースと、
前記データを用いて分離規則を構築する構築手段と、
をさらに有することを特徴とする請求項２記載の音声合成装置。
前記データは複合語を構成する複数の単語を含み、
前記構築手段は、
前記データの複数の単語の少なくともいずれか一つを分離位置の決定に影響を及ぼさない単語とするワイルドカードを用いて分離規則の構築を行う、
ことを特徴とする請求項６記載の音声合成装置。
前記決定手段は、
前記記憶手段に記憶された複数の分離規則が適用可能である場合、用いられたワイルドカード数に基づいて、当該複数の分離規則の中から適用する分離規則を選択する、
ことを特徴とする請求項７記載の音声合成装置。
前記データは複合語の分離位置を含み、
前記構築手段は、
前記データの分離位置の信頼度を取得し、取得された信頼度に基づいて前記データを規則化する、
ことを特徴とする請求項６記載の音声合成装置。
前記決定手段は、
前記記憶手段に記憶されている複数の分離規則が適用可能である場合、算出された信頼度に基づいて、当該複数の分離規則の中から適用する分離規則を選択する、
ことを特徴とする請求項９記載の音声合成装置。
前記データは複合語の複合語意味情報を含み、
前記構築手段は、
前記データベースに記憶されたデータから一つのデータを選択し、
選択されたデータと同一の複合語意味情報を含むデータを前記データベースに記憶されたデータの中から収集し、
収集されたデータの数に対する選択されたデータと同一の分離位置を含むデータの数の割合を前記信頼度とする、
ことを特徴とする請求項９記載の音声合成装置。
複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出ステップと、
抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与ステップと、
付与した複合語意味情報に基づいて、抽出した複合語を分離する位置を決定する決定ステップと、
決定した分離位置に基づいてテキスト情報の韻律を生成する生成ステップと、
を有することを特徴とする音声合成方法。
コンピュータに、
複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出機能と、
抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与機能と、
付与した複合語意味情報に基づいて、抽出した複合語を分離する位置を決定する決定機能と、
決定した分離位置に基づいてテキスト情報の韻律を生成する生成機能と、
を実現させるための音声合成用プログラム。
コンピュータに、
複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出機能と、
抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与機能と、
付与した複合語意味情報に基づいて、抽出した複合語を分離する位置を決定する決定機能と、
決定した分離位置に基づいてテキスト情報の韻律を生成する生成機能と、
を実現させるための音声合成用プログラムが記録された記録媒体。