JP2008116650A

JP2008116650A - 読み情報生成装置、読み情報生成方法、読み情報生成プログラムおよび音声合成装置

Info

Publication number: JP2008116650A
Application number: JP2006299188A
Authority: JP
Inventors: Nobuyuki Katae; 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-11-02
Filing date: 2006-11-02
Publication date: 2008-05-22
Anticipated expiration: 2026-11-02
Also published as: JP4751299B2

Abstract

【課題】複合単語辞書に登録されていない複合単語のアクセントの予測精度を向上させる。
【解決手段】テキスト入力部２と、テキストを単語群に分割する形態素解析部３と、複合単語のアクセント結合様式を表すデータを含むデータを記録する複合単語辞書記録部８１、８２と、分割された単語群に含まれる含有複合単語を複合単語辞書記録部８１、８２に対して検索する複合単語検索部４と、検索の結果、含有複合単語が見つからなかった場合、類似する類似複合単語を検索し、類似複合単語のアクセント結合様式に基づいてアクセント情報を更新する類似複合単語検索部５と、所定のアクセント結合規則に基づいてアクセント情報を更新するアクセント結合規則適用部６と、アクセント情報を含む前記テキストの読み情報を生成する読み情報生成部７とを備える。
【選択図】図１

Description

本発明は、音声合成技術において、読み上げ対象のテキスト中に含まれている複合単語のアクセントを判定し、アクセント情報を含むテキストの読み情報を生成する装置、方法およびプログラムに関する。

テキストから音声を合成するテキスト音声合成技術は、例えば、ＩＶＲ(自動音声応答：ＩｎｔｅｒａｃｔｉｖｅＶｏｉｃｅＲｅｓｐｏｎｓｅ)システム、車載情報端末、携帯電話での操作方法ガイダンスやメール読み上げ、視覚障害者・発話障害者の支援などに適用されている。日本語テキスト音声合成技術において、読み上げ対象となるテキストのアクセントの正確な予測は、合成音声の了解性・自然性を確保するために非常に重要な技術である。

まず、日本語標準語（または共通語）のアクセントについての既知の事実を説明する。日本語標準語アクセントの特徴は次の３点である。（１）アクセントは各拍に与えられる「高」「低」の２値で表される。（２）アクセントを構成する単位であるアクセント句において、その第１拍と第２拍は「高低」「低高」のいずれかである。（３）１アクセント句内では「高」から「低」への移行はないか、もしくは一箇所である。

例えば、「日本（ニホン）」は３拍の単語で、そのアクセントは「低高低」である。ここでは、一例として、アクセントが「高」から「低」に移行する位置（アクセント核と称する）を「’」で表し、「ニホ’ン」のように表記する。また「日本絹織物」は「ニホ’ン」「キヌオ’リモノ」の２個のアクセント句からなる。ここでは、一例として、アクセント句の境界を「＿」で表し、「ニホ’ン＿キヌオ’リモノ」のように表記する。

日本語標準語において、個々の単語のアクセントはおおよそ決まっており、例えば、アクセント辞典に示されている。しかし、複数の単語が連続して構成される複合単語のアクセントについては、明記されたものはない。複合単語は日々新しいものが現われるため、複合単語のアクセントを示す情報を得るには、その複合単語を構成する個々の単語のアクセントから複合単語のアクセントを予測する必要がある。

ここで、複合単語におけるアクセント結合について説明する。例えば、「音声（オ’ンセー）」と「合成（ゴーセー）」から複合単語「音声合成（オンセーゴ’ーセー）」が作られる場合、個々の単語「オ’ンセー」と「ゴーセー」において、それぞれ１アクセント句だったものが結合し、複合単語として１個のアクセント句「オンセーゴ’ーセー」となる。このとき、アクセント核の位置が変化している。このように複数のアクセント句が１のアクセント句になることをアクセント結合と称する。一方で、「成績（セーセキ）」と「優秀（ユーシュー）」から複合単語「成績優秀（セーセキ＿ユーシュー）」が作られる例では、アクセント結合は起こらず、もとの単語それぞれのアクセント句がそのまま維持されている。

３単語以上の複合単語では、アクセント結合のパターンは複雑である。例えば、「日本インターネット協会（ニホ’ン＿インターネットキョ’ーカイ）」のように、前の１単語のアクセント句はそのままで、後ろの２単語のアクセント句がアクセント結合する場合や、「日本列島縦断（ニホンレ’ットー＿ジューダン）」のように、前に２単語でアクセント結合する場合等、複数のアクセント結合のパターンがある。そのため、複合単語のアクセントの正確な予測は非常に難しくなっている。

従来、複合単語のアクセントを予測するため、単語の拍数やアクセント型によってアクセント結合の様式を分類し、体系的なアクセント結合規則を導出する試みがなされている（例えば、非特許文献１参照）。また、複合語のアクセント判定のために、例えば、下記（１）〜（３）のようなアクセント結合規則が提案されている（例えば、特許文献１参照）。（１）接尾語の直後、接頭語の接尾語の直後、接頭語の直前をアクセント句境界とする。（２）時詞（「今日」「明日」など時を表す単語）の直後をアクセント句境界とする。（３）先頭から２単語ずつアクセント結合する。

また、アクセント結合規則が当てはまらないような複合単語について、個々の複合単語について、アクセント結合様式を記録した複合単語辞書を利用して、複合単語のアクセントを判定する方法が開示されている（例えば、特許文献２参照）。
佐藤大和著、杉藤美代子編「講座日本語と日本語教育第２巻日本語の音声・音韻（上）複合単語におけるアクセント結合規則と連濁規則」、明治書院、１９８９年、ｐ２３３−２６５特開平８―３１４９０１号公報特開平９−１５２８８３号公報

しかしながら、上記の非特許文献１および特許文献１のようなアクセント結合規則を用いて複合単語のアクセントを予測する場合においては、どのような場合にも当てはまるアクセント結合規則を導出するのが難しい。この場合、アクセント結合規則を大量に記録しておいても、アクセント結合規則にあてはまらない例外が存在する。また、上記特許文献２のように、複合単語のアクセント結合様式を記録した複合単語辞書を利用する場合においても、非常に大量の複合単語を登録する必要がある。そして、非常に大量の複合単語を登録しても、日本語の複合単語を全て網羅することは不可能であった。そのため、複合単語辞書にない複合単語については、アクセントの予測精度が低下するという課題があった。

そこで、本発明は、複合単語辞書に登録されていない複合単語のアクセントの予測精度を向上させることができる読み情報生成装置、読み情報生成方法、および読み情報生成プログラムを提供することを目的とする。

本発明にかかる読み情報生成装置は、任意のテキストを入力するテキスト入力部と、単語の表記、読み、品詞およびアクセント情報を、複数の単語について予め登録しておく基本単語辞書記録部と、前記テキスト入力部が入力した前記テキストの形態素解析を行うことによって、前記テキストを単語群に分割し、それぞれの単語について前記基本単語辞書記録部を検索して、各単語の表記、読み、品詞およびアクセント情報を生成する形態素解析部と、連続する複数の単語で構成された複合単語に関するデータであって、複合単語のアクセント結合様式と、複合単語を構成する各単語に関する情報とを含むデータを複数の登録複合単語群それぞれについて予め登録しておく複合単語辞書記録部と、前記形態素解析部によって分割された単語群に含まれる複合単語である含有複合単語と同じ登録複合単語を前記複合単語辞書記録部に対して検索し、検索の結果、前記含有複合単語と同じ登録複合単語が見つかった場合、当該登録複合単語のアクセント結合様式を表すデータを取得する複合単語検索部と、前記複合単語検索部による検索の結果、前記含有複合単語と同じ登録複合単語データが見つからなかった場合、前記含有複合単語を構成する各単語と、前記複合単語辞書記録部に記録された登録複合単語を構成する各単語とを比較することにより、前記含有複合単語に類似する類似複合単語を前記複合単語辞書記録部から検索し、前記類似複合単語のアクセント結合様式を表すデータを取得する類似複合単語検索部と、前記形態素解析部によって分割された前記単語群のうち、前記複合単語検索部または類似結合単語検索部によってアクセント情報を生成されていない単語について、所定のアクセント結合規則に基づいてアクセント結合様式を表すデータを取得するアクセント結合規則適用部と、前記複合単語検索部または前記類似複合単語検索部によって取得されたアクセント結合様式を表すデータおよび、前記アクセント結合規則適用部によって取得されたアクセント結合様式を表すデータを用いて、アクセント情報を含む前記テキストの読み情報を生成する読み情報生成部とを備える。

入力されたテキストを形態素解析により分割して得られた単語群に含まれる含有複合単語と同じ登録複合単語が複合単語辞書記録部に記録されていない場合、類似複合単語検索部は、登録複合単語を構成する各単語と、前記含有複合単語を構成する各単語とを比較することにより、含有複合単語に類似する類似複合単語を複合単語辞書記録部から検索する。そのため、類似複合単語検索部は、含有複合単語と同じ複合単語が複合単語辞書に記録されていないときでも、含有複合単語に類似した類似複合単語のアクセント結合様式を表すデータを、複合単語辞書から取得することができる。その結果、読み情報生成部は、含有複合単語が複合単語辞書に記録されていない場合でも、含有複合単語に類似する類似複合単語のアクセント結合様式を用いて、適切にアクセント結合された含有複合単語の読み情報を、他の単語群の読み情報とともに、生成することができる。したがって、複合単語辞書に登録されていない複合単語のアクセント結合の予測精度が向上することになる。また、一定のアクセント予測精度を確保するために複合単語辞書に記録する複合単語の数が少なくてすむようになる。

本発明にかかる読み情報生成装置において、前記複合単語辞書記録部は、登録複合単語を構成する各単語に関する情報を表すデータとして、各単語の表記、読み、品詞および意味属性を含むデータを記録し、前記類似複合単語検索部は、複合単語を構成する各単語の単語数、表記、読み、品詞、拍数、意味属性のうち少なくとも１つについて、前記含有複合単語と、前記複合単語辞書記録部に記録された各登録複合単語の複合単語データとの間で比較することにより、前記類似複合単語を検索することが好ましい。

複合単語を構成する各単語の単語数、表記、読み、品詞、拍数、意味属性のうち少なくとも１つが似ている複合単語間では、アクセント結合の有無や様式も似ている可能性が高い。したがって、類似複合単語検索部は、複合単語を構成する各単語の単語数、表記、読み、品詞、意味属性のうち少なくとも１つについて、含有複合単語と登録複合単語とを比較することで、アクセント結合が同じである可能性が高い複合単語を類似複合単語として検索することができる。

ここで「品詞」とは、国文法上の分類である「名詞・形容詞・動詞・副詞・接続詞・感動詞・助詞・助動詞」等の分類に加えて、例えば、「固有名詞・普通名詞・接尾語・接頭語・・時詞・数詞」等のような「名詞」のさらなる分類も含むものとする。また、例えば、「固有名詞」のさらなる分類（例えば、人名、地名等）も品詞に含まれるものとする。品詞にどのような分類が含まれるかは、発明の実施態様に応じて任意に決定される設計事項である。

本発明にかかる読み情報生成装置において、前記類似複合単語検索部は、前記含有複合単語を構成する単語の数と前記各登録複合単語を構成する単語の数の相違、前記含有複合単語を構成する単語群と各登録複合単語を構成する単語群のうちで一致しない構成単語の数に加えて、下記（ａ）〜（ｅ）の少なくとも１つを基準として類似度を計算し、類似度を基に類似複合単語を検索することが好ましい。
（ａ）前記一致しない構成単語における品詞の相違
（ｂ）前記一致しない構成単語における拍数の相違
（ｃ）前記一致しない構成単語における意味属性の相違
（ｄ）前記一致しない構成単語において読みが一致する拍の数
（ｅ）前記一致しない構成単語におけるアクセント型の相違

これにより、類似複合単語検索部は、含有複合単語と、各登録複合単語との類似度を計算することができる。そのため、類似複合単語検索部は、計算した類似度を基に、類似複合単語を、登録複合単語群から検索することができる。

本発明にかかる読み情報生成装置は、ユーザが登録した複数の登録複合単語について、複合単語のアクセント結合様式と、複合単語を構成する各単語に関する情報とを含むデータを記録し、前記複合単語辞書記録部と合わせて、前記複合単語検索部および前記類似複合単語検索部が検索に用いることができるユーザ複合単語辞書記録部をさらに備えることが好ましい。

このようなユーザ複合単語辞書記録部により、ユーザが登録した複合単語およびそれに類似する複合単語のアクセント予測精度が向上する。そのため、例えば、ユーザがよく使う複合単語をユーザ複合単語辞書記録部に登録することで、ユーザの使用態様に対応した複合単語のアクセント予測が可能になる。

本発明にかかる読み情報生成装置は、ユーザが登録した少なくとも１つの単語について、単語の表記、読み、品詞およびアクセント情報を記録し、前記基本単語辞書記録部と合わせて、前記形態素解析部が検索に用いることができるユーザ単語辞書記録部をさらに備えることが好ましい。これにより、形態素解析部は、ユーザによって登録された単語についても検索対象とするので、ユーザの使用する単語についての形態素解析の精度が向上する。

本発明にかかる音声合成生成装置は、本発明にかかる読み情報生成装置を含む。前記音声合成装置は、前記読み情報生成部が生成した読み情報に基づいて、音声波形を合成して出力する音声合成部を備える。

上記構成により、音声合成装置は、入力されたテキストに含まれる複合単語を精度よく予測されたアクセントで読み上げる音声を出力することができる。

本発明にかかる読み情報生成方法は、連続する複数の単語で構成された複合単語に関するデータであって、複合単語のアクセント結合様式と、複合単語を構成する各単語に関する情報とを含むデータを複数の登録複合単語群それぞれについて記録する複合単語辞書記録部にアクセス可能なコンピュータが、読み情報を生成する方法である。前記読み情報生成方法は、任意のテキストを表すデータを入力するテキスト入力ステップと、前記テキスト入力ステップで入力された前記テキストの形態素解析を行うことによって、前記テキストを単語群に分割し、それぞれの単語について表記、読み、品詞およびアクセント情報を生成する形態素解析ステップと、前記形態素解析ステップで分割された単語群に含まれる複合単語である含有複合単語と同じ登録複合単語を前記複合単語辞書記録部に対して検索し、検索の結果、前記含有複合単語と同じ登録複合単語が見つかった場合、当該登録複合単語のアクセント結合様式を表すデータを取得する複合単語検索ステップと、前記複合単語検索ステップにおける検索の結果、前記含有複合単語と同じ登録複合単語データが見つからなかった場合、前記含有複合単語を構成する各単語と、前記複合単語辞書記録部に記録された登録複合単語を構成する各単語とを比較することにより、前記含有複合単語に類似する類似複合単語を前記複合単語辞書記録部から検索し、前記類似複合単語のアクセント結合様式を表すデータを取得する類似複合単語検索ステップと、前記形態素解析ステップで分割された前記単語群のうち、前記複合単語検索ステップまたは類似結合単語検索ステップにおいてアクセント情報を生成されていない単語について、所定のアクセント結合規則に基づいてアクセント結合様式を表すデータを取得するアクセント結合規則適用ステップと、前記複合単語検索ステップまたは前記類似複合単語検索ステップで取得されたアクセント結合様式を表すデータと、前記アクセント結合規則適用ステップで取得されたアクセント結合様式を表すデータとを用いて、アクセント情報を含む前記テキストの読み情報を生成する読み情報生成ステップとを含む。

本発明にかかる読み情報生成プログラムは、連続する複数の単語で構成された複合単語に関するデータであって、複合単語のアクセント結合様式と、複合単語を構成する各単語に関する情報とを含むデータを複数の登録複合単語群それぞれについて記録する複合単語辞書記録部にアクセス可能なコンピュータに読み情報を生成する処理を実行させる。前記読み情報生成プログラムは、任意のテキストを表すデータを入力するテキスト入力処理と、前記テキスト入力処理で入力された前記テキストの形態素解析を行うことによって、前記テキストを単語群に分割し、それぞれの単語について表記、読み、品詞およびアクセント情報を生成する形態素解析処理と、前記形態素解析処理で分割された単語群に含まれる複合単語である含有複合単語と同じ登録複合単語を前記複合単語辞書記録部に対して検索し、検索の結果、前記含有複合単語と同じ登録複合単語が見つかった場合、当該登録複合単語のアクセント結合様式を表すデータを取得する複合単語検索処理と、前記複合単語検索処理における検索の結果、前記含有複合単語と同じ登録複合単語データが見つからなかった場合、前記含有複合単語を構成する各単語と、前記複合単語辞書記録部に記録された登録複合単語を構成する各単語とを比較することにより、前記含有複合単語に類似する類似複合単語を前記複合単語辞書記録部から検索し、前記類似複合単語のアクセント結合様式を表すデータを取得する類似複合単語検索処理と、前記形態素解析処理で分割された前記単語群のうち、前記複合単語検索処理または類似結合単語検索処理においてアクセント情報を生成されていない単語について、所定のアクセント結合規則に基づいてアクセント結合様式を表すデータを取得するアクセント結合規則適用処理と、前記複合単語検索処理または前記類似複合単語検索処理で取得されたアクセント結合様式を表すデータと、前記アクセント結合規則適用部で取得されたアクセント結合様式を表すデータとを用いて、アクセント情報を含む前記テキストの読み情報を生成する読み情報生成処理とをコンピュータに実行させる。

本発明によれば、複合単語辞書に登録されていない複合単語のアクセントの予測精度を向上させることができる読み情報生成装置、読み情報生成方法、および読み情報生成プログラムを提供することができる。

図１は、本実施形態における読み情報生成装置を含む音声合成装置の構成を表す機能ブロック図である。図１に示す読み情報生成装置１は、テキスト入力部２、形態素解析部３、複合単語検索部４、類似複合単語検索部５、アクセント結合規則適用部６、読み情報生成部７、記録部８、ユーザ辞書登録部９を備える。記録部８には、基本単語辞書８１、ユーザ単語辞書８２、基本複合単語辞書８３、ユーザ複合単語辞書８４、アクセント結合規則８５が記録されている。また、読み情報生成装置１は、音声合成装置１０に含まれている。音声合成装置１０は、読み情報生成装置１に加えて、音声合成部１１およびスピーカ１２を備える。

読み情報生成装置１を含む音声合成装置１０は、例えば、パーソナルコンピュータやサーバマシン等の汎用コンピュータによって構成される。また、汎用コンピュータに限らず、例えば、車載情報端末、携帯電話、家電製品等の電子機器に組み込まれたコンピュータによって音声合成装置１０が構成されてもよい。テキスト入力部２、形態素解析部３、複合単語検索部４、類似複合単語検索部５、アクセント結合規則適用部６、読み情報生成部７、ユーザ辞書登録部９、音声合成部１１の各機能は、ＣＰＵが所定のプログラムを実行することによって実現される。したがって、上記の各機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も本発明の一実施態様である。また、記録部８は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

読み情報生成装置１の記録部８において、基本単語辞書８１およびユーザ単語辞書８２には、複数の単語の表記、読み、品詞、アクセント情報が記録されている。アクセント情報は、例えば、アクセント型を示すデータである。基本単語辞書８１は、予め用意された単語のデータを記録する。ユーザ単語辞書は、ユーザが、ユーザ辞書登録部９を介して登録した単語のデータを記録する。

また、基本複合単語辞書８３およびユーザ複合単語辞書８４には、複数の複合単語について、それぞれ複合単語データが記録される。複合単語データには、例えば、複合単語のアクセント結合様式、ならびに複合単語を構成する単語（以下、構成単語と称する）の数、構成単語の表記、読みおよび品詞が含まれている。基本複合単語辞書８３は、予め用意された複合単語の複合単語データを記録する。ユーザ複合単語辞書８４は、ユーザが、ユーザ辞書登録部９を介して登録した複合単語に関するデータを記録する。以下、基本複合単語辞書８３またはユーザ複合単語辞書８４に記録されている複合単語を、登録複合単語と称する。

ユーザ辞書登録部９は、ユーザインタフェースを備え、ユーザから入力される、単語または複合単語に関するデータに基づいて、ユーザ単語辞書８２、およびユーザ複合単語辞書８４を更新する。これにより、ユーザは、ユーザ単語辞書８２、およびユーザ複合単語辞書８４を適宜編集することができる。

アクセント結合規則８５には、例えば、名詞・動詞・形容詞・形容動詞などの自立語と、助詞・助動詞などの付属語とのアクセント結合様式等のように、一定の規則性を持ったアクセント結合様式を表すデータが記録される。

テキスト入力部２は、音声による読み上げ対象のテキストデータを入力する。テキスト入力部２は、例えば、キーボードやマウス等の入力デバイスを介してユーザからテキストデータの入力を受け付けてもよいし、コンピュータが備えるメモリ等に記録されたテキストデータを読み込んでもよい。また、テキスト入力部２は、読み情報生成装置１に対して読み情報の生成を命令する上位アプリケーションからテキストデータを受け取ってもよい。

形態素解析部３は、基本単語辞書８１およびユーザ単語辞書８２を用いて、テキスト入力部２が入力したテキストデータに対して形態素解析を行う。テキストデータは、形態素解析により、複数の単語に分割される。分割された各単語について、読み、品詞、アクセント情報が生成される。形態素解析の方法として、例えば、ビタビ（Viterbi）アルゴリズムや最長一致法等が挙げられるが、本発明に用いられる形態素解析の方法は、特定のものに限定されない。

複合単語検索部４は、形態素解析部３によりテキストデータが分割されてできた複数の単語群のうち、例えば、名詞が連続する区間を複合単語とみなす。複合単語検索部４は、この複合単語（以下、判定対象複合単語と称する）を、基本複合単語辞書８３およびユーザ複合単語辞書８４から検索する。ここで、判定対象複合単語となる、名詞が連続する区間は、例えば、普通名詞・固有名詞・地名・人名・接頭語・接尾語などの名詞をさらに分類した品詞に属する単語が、それ以外の品詞の単語を挟まずに連続する区間とする。例えば、「ボランティア向上委員会」や「セミナー開始予定時刻」等が判定対象複合単語となる。

なお、上記の名詞の分類方法は一例であり、これに限られない。また、本実施形態では、複合単語検索部４が判定対象複合単語とする複合単語は、名詞が連続する区間である場合の例を説明しているが、判定対象複合単語はこれに限られない。複合単語検索部４は、名詞が連続する区間でなくても、例えば、後述するアクセント結合規則に当てはまらないアクセント結合様式を持つ単語列を判定対象複合単語とすることができる。

上記検索の結果、判定対象複合単語と同じ登録複合単語が基本複合単語辞書８３またはユーザ複合単語辞書８４に見つかった場合、複合単語検索部４は、その登録複合単語のアクセント結合様式を表すデータを取得する。判定対象複合単語と同じ登録複合単語が基本複合単語辞書８３およびユーザ複合単語辞書８４いずれにも見つからなかった場合、複合単語検索部４は、類似複合単語検索部５に判定対象複合単語に類似する複合単語を検索するように指示する。

類似複合単語検索部５は、基本複合単語辞書８３およびユーザ複合単語辞書８４に記録されている各登録複合単語の構成単語と、判定対象複合単語の構成単語とを比較することにより、判定対象複合単語に類似する類似複合単語を検索する。検索の結果、類似対象複合単語が見つかった場合、複合単語検索部４は、その類似複合単語のアクセント結合様式を表すデータを取得する。類似複合単語検索部５は、類似性の判断に、例えば、1)複合単語を構成する単語数、2)構成単語のうち一致する（または一致しない）構成単語の数、3)一致しない構成単語の品詞、意味属性、拍数、アクセント型、読みが一致する拍数等を用いることができる。類似性を判断する処理の詳細は後述する。

アクセント結合規則適用部６は、複合単語検索部４および類似複合単語検索部５で検索されなかった複合単語、および複合単語以外の単語に関して、アクセント結合規則８５に従ったアクセント結合様式を表すデータを取得する。

読み情報生成部７は、複合単語検索部４または類似複合単語検索部５によって更新されたアクセント情報、およびアクセント結合規則適用部６によって更新されたアクセント情報を基に、アクセント情報を含む前記テキストの読み情報すなわち、音声合成用の中間表記を生成する。

音声合成部１１は、読み情報生成部７が生成した中間表記に基づいて、音声波形信号を合成してスピーカ１２に出力する。スピーカ１２は、音声合成部１１から出力された音声波形信号を音声に変換する。これにより、テキスト入力部２で入力されたテキストデータが音声として読み上げられる。音声合成部１１の、中間表記から音声波形信号を生成する機能には、例えば、波形編集方式、ＬＳＰ方式、ＰＡＲＣＯＲ方式など公知の技術を用いることができる。

次に、読み情報生成装置１の動作の具体例を説明する。そのために、まず、記録部８に記録されるデータの具体例を説明する。図２は、基本単語辞書８１に記録されるデータの内容の一例を示す図である。図２に示す例では、各単語の表記、品詞、読み、拍数、アクセント型が格納されている。なお、拍数は単語の読みから求められるので、必ずしも登録しておく必要はない。必要に応じて読みから算出することができる。

ここで、拍は、一定の時間的長さを持った音の分節単位である。拍は、モーラと称されることもある。日本語の場合、仮名書きしたときの１つの仮名が略同じ長さで発音されるので、１つの仮名が１拍になる。ただし、小さい仮名「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」「ゃ」「ゅ」「ょ」は、前の仮名とあわせて１拍となる。また、長音「ー」、促音「っ」、発音「ん」は１拍となる。日本語のテキストデータを形態素解析することによって得られる読み文字列から、例えば、上記の１拍を決める規則に従って、自動的にその拍数を計算することができる。なお、１拍を決める規則は必ずしも上記に限られるものではない。

ここでアクセント型とは、該当する単語のアクセントが「高」から「低」に移行するときの「高」の拍位置を示しており、例えば、「ボランティア」のアクセント型「２」は、アクセントが「ボラ’ンティア」となることを示している。この表記と品詞を用いて、形態素解析部１０２において入力テキストの形態素解析が行われる。なお、ユーザ単語辞書８２のデータも図２に示す構造と同様にすることができる。

図３は、基本複合単語辞書８３に記録されるデータの例を示す図である。なお、基本複合単語辞書８３とユーザ複合単語辞書８４は、装置にあらかじめ用意されたデータか、ユーザが登録したデータかの違いであって、データの構造は同様である。図３に示す例では、「京都ボランティア大会」という複合単語について、構成単語数「３」が記録されており、さらに、構成単語「京都」「ボランティア」「大会」それぞれの表記、読み、品詞、拍数が記録されている。

また、図３に示す例では、「京都ボランティア大会」のアクセントを設定するにあたっての、構成単語のアクセント結合様式を表すデータが記録されている。アクセント結合様式を表すデータは、例えば、複合単語におけるアクセント結合の有無、またはアクセント結合の仕方を表すデータである。アクセント結合の仕方は、例えば、結合後のアクセント核の位置を示すデータ等で表される。図３に示す例では、「京都」はアクセント結合せず、「ボランティア」と「大会」はアクセント結合することを示している。また「結合アクセント型：＋１型」とは、２単語がアクセント結合するときに、後にあるほうの単語の１拍目にアクセント核が移ることを意味する。

なお、本実施形態では、結合アクセント型に、「平板型」、「＋０型」、「＋Ｎ型」が含まれるものとする。平板型のアクセント結合においては、２つのアクセント句が結合して、アクセントのないアクセント句になる。例えば、「類似（ルイジ）」と「性（セ’ー）」が結合して「類似性（ルイジセー）」となる場合が平板型のアクセント結合である。

＋０型のアクセント結合においては、２つの単語のアクセント句が結合して、前にある方の単語の末尾にアクセント核がくる。例えば、「評価（ヒョ’ーカ）」と、「式（シ’キ）」が結合して、「評価式（ヒョーカ’シキ）」となる場合が＋０型のアクセント結合である。

＋Ｎ型のアクセント結合においては、２つの単語のアクセント句が結合して、後ろのある方の単語のＮ拍目にアクセント核がくる。＋１型のアクセント結合の例として、「日本（ニホ’ン）」と「列島（レットー）」が結合して、「日本列島（ニホンレ’ットー）」になる場合が挙げられる。また、＋２型のアクセント結合の例として、「蒸気（ジョーキ）」と「機関車（キカ’ンシャ）」が結合して「蒸気機関車（ジョーキキカ’ンシャ）」となる場合が挙げられる。

次に図４を参照して、「私は兵庫ボランティア大会に参加しました。」というテキストデータが入力された場合の読み情報生成装置１の動作例を説明する。図４は、本動作例において、テキストデータが入力されてから読み情報が生成されるまでに扱われるデータの内容を表す図である。テキスト入力部２は、図４に示すテキストデータ２０「私は兵庫ボランティア大会に参加しました。」を入力する。次に、形態素解析部３がテキストデータ２０に対して形態素解析を行い、表２１の内容の形態素解析結果を生成する。表２１の上段は、形態素解析によって分割された単語ごとの表記、品詞、読み（アクセント核の位置含む）を示している。表２１の下段は、アクセント句の境界を示す。表２１に示す例では、１つの単語が１つのアクセント句となっている。各単語の品詞、読み（アクセント核の位置含む）は、基本単語辞書８１またはユーザ単語辞書８２のデータを用いて決められる。

複合単語検索部４は、表２１に示される分割された単語の列のうち、名詞が連続する名詞連続区間Ａの「兵庫」「ボランティア」「大会」を判定対象複合単語として、基本複合単語辞書８３およびユーザ複合単語辞書８４に対して、判定対象複合単語と同じ登録複合単語「兵庫ボランティア大会」を検索する。「兵庫ボランティア大会」が基本複合単語辞書８３またはユーザ複合単語辞書８４に存在する場合、複合単語検索部４は、その「兵庫ボランティア大会」のアクセント結合様式を表すデータを取得する。ここでは、「兵庫ボランティア大会」が基本複合単語辞書８３またはユーザ複合単語辞書８４に存在しない場合について説明する。

この場合、類似複合単語検索部５は、「兵庫ボランティア大会」に類似した類似複合単語を検索する。類似複合単語の検索の詳細については、後述する。ここでは、一例として、図３に示す基本複合単語辞書８３のデータの中から、「京都ボランティア大会」が類似複合単語として見つかった場合について説明する。

図４中の表２２は、類似複合単語「京都ボランティア大会」が示すデータの内容を示す表である。図３に示すデータでは、類似複合単語「京都ボランティア大会」において、１番目の構成単語「京都」はアクセント結合なしを示している。２番目と３番目の構成単語である「ボランティア」と「大会」とが「アクセント結合あり」であり、そのアクセント型が「＋１型」であることを示している。したがって、表２２に示すように、「京都ボランティア大会」においては、「ボランティア」と「大会」が１つのアクセント句になり、アクセント核の位置は、「タイカイ」の１拍目になっている。

類似複合単語検索部５は、表２２に示す類似複合単語「京都ボランティア大会」のアクセント結合様式を、判定対象複合単語「兵庫ボランティア大会」に適用する。その結果、表２３に示すように、アクセント句およびアクセント核の位置が設定される。すなわち、名詞連続区間Ａの「兵庫ボランティア大会」においては、「ボランティア」と「大会」が１つのアクセント句に結合され、アクセント核の位置は、「タ’イカイ」の１拍目に設定される。

その後、アクセント結合規則適用部６は、名詞連続区間Ａ以外の単語列に対して、アクセント結合規則８５に従ってアクセント結合する。その結果、表２４に示すように、アクセント句のおよびアクセント核の位置が設定される。表２４においては、「私」と「は」が１つのアクセント句になり、「ボランティア」「大会」「に」も１つのアクセント句になり、さらに、「参加」「し」「まし」「た」「。」が１つのアクセント句になっている。このようなアクセント句の結合は、アクセント結合規則８５に従って設定される。

ここでは、「私」「は」の区間について、例えば、「普通名詞に副助詞の“は”が続いた場合にアクセント結合をする」という規則がアクセント結合規則８５に記録されており、アクセント結合規則適用部６はその規則を適用して「私は」を１つのアクセント区間にする。アクセント結合規則８５には、公知の規則を用いることができる。

なお、もし、複合単語検索部４および類似複合単語検索部５が、名詞連続区間Ａの複合単語のアクセント結合様式を表すデータを取得できなかったときには、アクセント結合規則適用部６が、アクセント結合規則８５に従ってこの複合単語のアクセントを設定してもよい。

読み情報生成部７は、表２４に示すアクセント句およびアクセント核の位置を含むデータの内容に基づいて、中間表記２５を生成する。中間表記２５は、テキストの読み方を表す音声合成用の中間表記データである。中間表記２５は、表２４に含まれる各単語の読みを連結したのち、アクセント句の境界にアクセント句境界記号「＿」を、各アクセント句のアクセン核の位置にアクセント記号「’」を記したものである。アクセント句境界記号「＿」は、アクセント句の境界に設けられるポーズを表す。なお、中間表記２５のフォーマットは、単なる一例であり、中間表記の表し方は、これに限られない。

音声合成部１１は、中間表記２５が示す読み情報に対応する音声波形を生成する。その際、アクセント核およびポーズも加味した音声波形が生成される。そのため、音声合成部１１によって、中間表記２５が示す読み情報が読み上げられると、適切なアクセントおよびポーズを伴う音声が読み上げられることになる。すなわち、了解性・自然性が確保された音声が出力される。

次に、類似複合単語検索部５が、判定対象複合単語に類似する類似複合単語を検索する処理の具体例を説明する。図５は、類似複合単語検索部５が類似複合単語を検索する動作の例を示すフローチャートである。ここでは、図４に示した判定対象複合単語「兵庫ボランティア大会」に類似する単語を、図３に示した基本複合単語辞書８３のデータから検索する場合の例を説明する。

類似複合単語検索部５は、まず、基本複合単語辞書８３およびユーザ複合単語辞書８４に記録された登録複合単語のうち１つについて、その登録複合単語（以下、登録単語列と称する）の構成単語の数と、判定対象複合単語（以下、対象単語列と称する）の構成単語の数との差を求め、その差を変数ａに記録する（Ｏｐ１）。例えば、対象単語列が「兵庫ボランティア大会」、登録単語列が「京都ボランティア大会」である場合、構成単語数の差は０なので、ａ＝０となる。

また、類似複合単語検索部５は、登録単語列と対象単語列との構成単語の表記を、前の構成単語から順にそれぞれ比較し、表記が一致するか否かを判定する。表記が一致しない構成単語の数は変数ｂとして記録される（Ｏｐ２）。例えば、対象単語列「兵庫ボランティア大会」と登録単語列「京都ボランティア大会」とで、表記が一致しない構成単語数は１となる。

また、類似複合単語検索部５は、登録単語列と対象単語列とで表記が一致しない構成単語の品詞が一致しているか否かを判定する。品詞が一致している場合は “０”、品詞が一致していない場合は“１”が変数ｃに記録される（Ｏｐ３）。なお、表記が一致しない構成単語が複数ある場合、類似複合単語検索部５は、表記が一致しない構成単語それぞれについて品詞が一致しているか否か判定され、判定結果（０または１）を変数ｃに加算する。また、対象単語列の単語数と登録単語列と単語数のいずれか一方が他方より多い場合に、その多い分の構成単語は、表記が一致しない構成単語となる。この場合、類似複合単語検索部５は、その多い分の構成単語の品詞も一致していないと判断してもよい。

また、類似複合単語検索部５は、登録単語列と対象単語列とで表記が一致しない構成単語における拍数の差を計算し、変数ｄに記録する（Ｏｐ４）。例えば、対象単語列「兵庫ボランティア大会」と登録単語列「京都ボランティア大会」との間で、表記が一致しない構成単語「京都」および「兵庫」の拍数はいずれも３であるので、拍数の差は０である。

次に、類似複合単語検索部５は、Ｏｐ１〜Ｏｐ４で記録された変数ａ〜ｄを用いて、登録単語列と対象単語列との類似度Ｓを計算する（Ｏｐ５）。類似度Ｓは例えば、下記式（１）により、計算することができる。
類似度Ｓ＝ - ( a × 1000 ＋ b × 100 + Σ（ c × 10 ＋ d ）) ―――（１）

ここでは類似度Ｓは負の値であり、類似度Ｓが大きいほど、つまり０に近いほど類似性が高いと判断できる。なお、上記式（１）は、一例であり、類似度の計算方法は上記式（１）を用いる場合に限られない。

Ｏｐ１〜Ｏｐ５の処理により、１つの登録単語列について、類似度が計算される。類似複合単語検索部５は、基本複合単語辞書８３およびユーザ複合単語辞書８４に記録される登録複合単語全てについて、類似度の計算が終了するまで（Ｏｐ６でＹｅｓと判断されるまで）、Ｏｐ１〜Ｏｐ５の処理を繰り返す。そして、類似複合単語検索部５は、類似度が最も高い登録複合単語を、類似複合単語に決定する（Ｏｐ７）。これにより、類似複合単語が検索される。

例えば、基本複合単語辞書８３およびユーザ複合単語辞書８４に、下記（Ａ）〜（Ｃ）に示す登録複合単語が登録されていた場合の計算例を説明する。
（Ａ）京都ボランティア大会
（Ｂ）兵庫県知事
（Ｃ）兵庫テニス大会
上記（Ａ）〜（Ｃ）それぞれの登録複合単語におけるａ〜ｄの値は以下のようになる。

（Ａ）については、構成する単語数の差０なので（ａ＝０）、一致しない構成単語は「京都」だけなので（ｂ＝１）、一致しない構成単語「京都」と「兵庫」の品詞は一致しているので（ｃ＝０）、「京都」と「兵庫」は、拍数がともに３なので、拍数の差０（ｄ＝０）となる。

（Ｂ）については、構成する単語数の差は０なので（ａ＝０）、一致しない構成単語は「県」と「知事」の２つなので（ｂ＝２）、一致しない構成単語「県（接尾語）」と「ボランティア（普通名詞）」の品詞は不一致かつ「知事」と「大会」の品詞一致なので（ｃ＝１）、一致しない構成単語「県（２拍）」と「ボランティア（５拍）」の拍数の差３かつ「知事（２拍）」と「大会（４拍）」の拍数の差２なので（ｄ＝５）となる。

（Ｃ）については、構成する単語数の差は０なので（ａ＝０）、一致しない構成単語は「テニス」だけなので（ｂ＝１）、一致しない構成単語「テニス」と「ボランティア」の品詞は一致なので（ｃ＝０）、「テニス（３拍）」と「ボランティア（５拍）」の拍数の差は２なので（ｄ＝２）となる。

これにより、類似度Ｓはそれぞれ（Ａ）‐１００、（Ｂ）‐２１５、（Ｃ）‐１０２と算出される。したがって、類似度Ｓの最も高い類似複合単語として、（Ａ）「京都ボランティア大会」が検索される。

なお、類似複合単語検索部５は、類似複合単語として選抜するための閾値を用意しておき（例えば本例では、閾値を‐１１０に設定する等）、閾値を超える類似度の登録複合単語がない場合は、適当な類似複合単語が存在しないという結果を出力することもできる。

次に図６、図７を用いて、読み情報生成装置１の動作の他の例を説明する。ここでは、一例として「詳細は日本スキー連合ホームページを参照のこと。」というテキストデータが入力された場合の例を説明する。図６は、図４と同じ形式で、本例において、テキストデータが入力されてから読み情報が生成されるまでに扱われるデータの内容を表す図である。テキストデータ３０は、テキスト入力部２が入力したテキストデータを示す。形態素解析部３は、テキストデータ３０に対して形態素解析を行い、表３１の内容の形態素解析結果を生成する。

複合単語検索部４は、表３１に示される分割された単語の列のうち、名詞連続区間Ｂの「日本」「スキー」「連合」「ホームページ」を判定対象複合単語として検索する。検索の結果、当該判定対象複合単語が見つからない場合、類似複合単語検索部５は、類似複合単語を検索する。類似複合単語の検索の詳細については、後述する。ここでは、一例として、図３に示す基本複合単語辞書８３のデータの中から、「日本自動車連合ホームページ」が類似複合単語として見つかった場合について説明する。表３２は、類似複合単語「日本自動車連合ホームページ」が示すデータの内容を示す表である。

類似複合単語検索部５は、表３２に示す類似複合単語「日本自動車連合ホームページ」のアクセント結合様式を、判定対象複合単語「日本スキー連合ホームページ」に適用する。その結果、表３３に示すように、アクセント句およびアクセント核の位置が設定される。すなわち、名詞連続区間Ｂの「日本スキー連合ホームページ」においては、「スキー」と「連合」が１つのアクセント句に結合され、アクセント核の位置は、「レ’ンゴー」の１拍目に設定される。

その後、アクセント結合規則適用部６は、名詞連続区間Ｂ以外の単語列に対して、アクセント結合規則８５に従ってアクセント結合する。その結果、表３４に示すように、アクセント句のおよびアクセント核の位置が設定される。表３４においては、「詳細」と「は」が１つのアクセント句になり、「ホームページ」「を」も１つのアクセント句になり、さらに、「参照」「の」「こと」「。」が１つのアクセント句になっている。読み情報生成部７は、表３４に示すアクセント句およびアクセント核の位置を含むデータの内容に基づいて、中間表記３５を生成する。

次に、類似複合単語検索部５が、判定対象複合単語に類似する類似複合単語を検索する処理の具体例を説明する。図７は、類似複合単語検索部５が類似複合単語を検索する動作の他の例を示すフローチャートである。ここでは、図６に示した判定対象複合単語「日本スキー連合ホームページ」に類似する単語を、図３に示した基本複合単語辞書８３のデータから検索する場合の例を説明する。

類似複合単語検索部５は、まず、基本複合単語辞書８３およびユーザ複合単語辞書８４に記録された登録複合単語のうち１つについて、その登録単語列の構成単語の数と、対象単語列の構成単語の数とを比較する（Ｏｐ１１）。

これらの構成単語の数が等しくなければ（Ｏｐ１１でＮｏ）、その登録単語列についての類似度の計算処理（後述するＯｐ１２〜Ｏｐ１６）は実行されない。これにより、類似する可能性の低い登録複合単語についての類似度計算処理が省略され、計算量を減少させることができる。

これらの構成単語の数が等しければ（Ｏｐ１１でＹｅｓ）、以下に示すＯｐ１２〜Ｏｐ１６の処理により、その登録単語列の類似度が計算される。ここで、Ｏｐ１２〜Ｏｐ１４それぞれの処理は、図５に示したＯｐ２〜Ｏｐ４と同様である。これにより、変数ｂ、ｃ、ｄにそれぞれ値が記録される。

Ｏｐ１５において、類似複合単語検索部５は、登録単語列と対象単語列とで表記が一致しない構成単語の意味属性が一致しているか否かを判定する。意味属性が一致している場合は “０”、意味属性が一致していない場合は“１”が変数ｅに記録される（Ｏｐ１５）。ここで、意味属性とは、単語の持つ意味の属性を表すデータである。例えば、図３に示す例では、構成単語「日本」の意味属性として「国」が記録されている。この意味属性は、例えば、単語ごとに、基本単語辞書およびユーザ単語辞書に記録される。登録単語列が「日本自動車連合ホームページ」である場合、登録単語列と表記が一致しない構成単語「スキー」と「自動車」の意味属性はそれぞれ「スポーツ」、「交通手段」であり一致しない。そのため、変数ｅ＝１となる。

次に、類似複合単語検索部５は、Ｏｐ１２〜Ｏｐ１５で記録された変数ｂ〜ｅを用いて、登録単語列と対象単語列との類似度Ｓを計算する（Ｏｐ１６）。類似度Ｓは例えば、下記式（２）により、計算することができる。
類似度Ｓ＝ - (ｂ × 100 + Σ（ c × 10 ＋ d + e × 0.5 ）) ―――（２）

Ｏｐ１１〜Ｏｐ１６の処理により、構成単語数が対象単語列と同じである登録単語列１つについて、類似度が計算される。構成単語数が対象単語列と異なる登録単語列については、類似度は計算されない。登録単語列ひとつひとつに対して類似度計算を行うと処理時間が大きくなる場合、図７に示す例のように、構成単語数の異なる登録に対しては類似度計算を行わない方が望ましい。

類似複合単語検索部５は、Ｏｐ１１〜Ｏｐ１６の処理を繰り返し、類似度が最も高い登録単語列を、類似複合単語に決定する（Ｏｐ１８）。Ｏｐ１８の処理は、図５に示すＯｐ７と同様である。これにより、類似複合単語が検索される。

以上に示した本実施形態にかかる読み情報生成装置１は、基本複合単語辞書８３およびユーザ複合単語辞書８４に記録されていない複合単語のアクセントを、類似複合単語のアクセント結合様式に倣って読み上げるため、複合単語のアクセントの予測精度が大幅に向上する。また、アクセント結合規則によって設定される複合単語のアクセントが適切でない場合に、ユーザがユーザ辞書登録部９を介して、ユーザ複合単語辞書８４に、その複合単語のアクセント結合様式を表すデータを記録することができる。これにより、その複合単語と類似した複合単語のアクセントもあわせて修正されることになる。

なお、本発明は、上記実施形態に限られない。例えば、類似度を計算する際に用いる判断基準は、図５、図７に示した処理におけるａ〜ｅの判断基準に限られない。例えば、類似複合単語検索部５は、登録単語列と対象単語列とで表記が一致しない構成単語どうしの各拍を比較し、一致する拍の数を類似度の判断基準に用いてもよい。例えば、対象単語列が「山梨インターネット同好会」であり、登録単語列として「山口インターネット同好会」と「沖縄インターネット同好会」がある場合について説明する。「山梨インターネット同好会」と「山口インターネット同好会」とで一致しない構成単語「山梨（ヤマナシ）」「山口（ヤマグチ）」において、一致する拍は「ヤ」「マ」の２つである。これに対して、構成単語「山梨（ヤマナシ）」「沖縄（オキナワ）」において、一致する拍は０である。このような拍数の比較結果が類似度の判断基準に用いられてもよい。

また、他の例として、例えば、類似複合単語検索部５は、登録単語列と対象単語列とで表記が一致しない構成単語どうしのアクセント型が一致するか否かを類似度の判断基準に用いることもできる。例えば、登録単語列の構成単語「評価（ヒョ’ーカ）」と、対象単語列の構成単語「参加（サンカ）」とで表記が一致しない場合、アクセント型は、それぞれ１型、０型であるのでアクセント型も一致しない。このようなアクセント型の比較結果が類似度の判断基準に用いられてもよい。

本発明は、読み上げ対象のテキスト中に含まれている複合単語のアクセントを判定し、アクセント情報を含むテキストの読み情報を生成する装置として有用である。

読み情報生成装置を含む音声合成装置の構成を表す機能ブロック図基本単語辞書に記録されるデータの内容の一例を示す図基本複合単語辞書に記録されるデータの例を示す図読み情報が生成されるまでに扱われるデータの内容を表す図類似複合単語検索部が類似複合単語を検索する動作の例を示すフローチャート他の動作例において読み情報が生成されるまでに扱われるデータの内容を表す図類似複合単語を検索する動作の他の例を示すフローチャート

符号の説明

１読み情報生成装置
２テキスト入力部
３形態素解析部
４複合単語検索部
５類似複合単語検索部
６アクセント情報生成部
７読み情報生成部
８記録部
９ユーザ辞書登録部
１０音声合成装置
８１基本単語辞書
８２ユーザ単語辞書
８３基本複合単語辞書
８４ユーザ複合単語辞書
８５アクセント結合規則

Claims

任意のテキストを入力するテキスト入力部と、
単語の表記、読み、品詞およびアクセント情報を、複数の単語について予め登録しておく基本単語辞書記録部と、
前記テキスト入力部が入力した前記テキストの形態素解析を行うことによって、前記テキストを単語群に分割し、それぞれの単語について前記基本単語辞書記録部を検索して、各単語の表記、読み、品詞およびアクセント情報を生成する形態素解析部と、
連続する複数の単語で構成された複合単語に関するデータであって、複合単語のアクセント結合様式と、複合単語を構成する各単語に関する情報とを含むデータを複数の登録複合単語群それぞれについて予め登録しておく複合単語辞書記録部と、
前記形態素解析部によって分割された単語群に含まれる複合単語である含有複合単語と同じ登録複合単語を前記複合単語辞書記録部に対して検索し、検索の結果、前記含有複合単語と同じ登録複合単語が見つかった場合、当該登録複合単語のアクセント結合様式を表すデータを取得する複合単語検索部と、
前記複合単語検索部による検索の結果、前記含有複合単語と同じ登録複合単語データが見つからなかった場合、前記含有複合単語を構成する各単語と、前記複合単語辞書記録部に記録された登録複合単語を構成する各単語とを比較することにより、前記含有複合単語に類似する類似複合単語を前記複合単語辞書記録部から検索し、前記類似複合単語のアクセント結合様式を表すデータを取得する類似複合単語検索部と、
前記形態素解析部によって分割された前記単語群のうち、前記複合単語検索部または類似結合単語検索部によってアクセント情報を生成されていない単語について、所定のアクセント結合規則に基づいてアクセント結合様式を表すデータを取得するアクセント結合規則適用部と、
前記複合単語検索部または前記類似複合単語検索部によって取得されたアクセント結合様式を表すデータおよび、前記アクセント結合規則適用部によって取得されたアクセント結合様式を表すデータを用いて、アクセント情報を含む前記テキストの読み情報を生成する読み情報生成部とを備える、読み情報生成装置。
前記複合単語辞書記録部は、登録複合単語を構成する各単語に関する情報を表すデータとして、各単語の表記、読み、品詞および意味属性を含むデータを記録し、
前記類似複合単語検索部は、複合単語を構成する各単語の単語数、表記、読み、品詞、拍数、意味属性のうち少なくとも１つについて、前記含有複合単語と、前記複合単語辞書記録部に記録された各登録複合単語の複合単語データとの間で比較することにより、前記類似複合単語を検索する、請求項１に記載の読み情報生成装置。
前記類似複合単語検索部は、前記含有複合単語を構成する単語の数と前記各登録複合単語を構成する単語の数の相違、前記含有複合単語を構成する単語群と各登録複合単語を構成する単語群のうちで一致しない構成単語の数に加えて、下記（ａ）〜（ｅ）の少なくとも１つを基準として類似度を計算し、類似度を基に類似複合単語を検索する、請求項２に記載の読み情報生成装置。
（ａ）前記一致しない構成単語における品詞の相違
（ｂ）前記一致しない構成単語における拍数の相違
（ｃ）前記一致しない構成単語における意味属性の相違
（ｄ）前記一致しない構成単語において読みが一致する拍の数
（ｅ）前記一致しない構成単語におけるアクセント型の相違
ユーザが登録した複数の登録複合単語について、複合単語のアクセント結合様式と、複合単語を構成する各単語に関する情報とを含むデータを記録し、前記複合単語辞書記録部と合わせて、前記複合単語検索部および前記類似複合単語検索部が検索に用いることができるユーザ複合単語辞書記録部をさらに備える請求項１〜３のいずれか１項に記載の読み情報生成装置。
ユーザが登録した少なくとも１つの単語について、単語の表記、読み、品詞およびアクセント情報を記録し、前記基本単語辞書記録部と合わせて、前記形態素解析部が検索に用いることができるユーザ単語辞書記録部をさらに備える、請求項１〜４のいずれか１項に記載の読み情報生成装置。
請求項１〜５のいずれか１項に記載の情報生成装置を含む音声合成装置であって、
前記読み情報生成部が生成した読み情報に基づいて、音声波形を合成して出力する音声合成部を備える、音声合成装置。
連続する複数の単語で構成された複合単語に関するデータであって、複合単語のアクセント結合様式と、複合単語を構成する各単語に関する情報とを含むデータを複数の登録複合単語群それぞれについて記録する複合単語辞書記録部にアクセス可能なコンピュータが読み情報を生成する読み情報生成方法であって、
任意のテキストを表すデータを入力するテキスト入力ステップと、
前記テキスト入力ステップで入力された前記テキストの形態素解析を行うことによって、前記テキストを単語群に分割し、それぞれの単語について表記、読み、品詞およびアクセント情報を生成する形態素解析ステップと、
前記形態素解析ステップで分割された単語群に含まれる複合単語である含有複合単語と同じ登録複合単語を前記複合単語辞書記録部に対して検索し、検索の結果、前記含有複合単語と同じ登録複合単語が見つかった場合、当該登録複合単語のアクセント結合様式を表すデータを取得する複合単語検索ステップと、
前記複合単語検索ステップにおける検索の結果、前記含有複合単語と同じ登録複合単語データが見つからなかった場合、前記含有複合単語を構成する各単語と、前記複合単語辞書記録部に記録された登録複合単語を構成する各単語とを比較することにより、前記含有複合単語に類似する類似複合単語を前記複合単語辞書記録部から検索し、前記類似複合単語のアクセント結合様式を表すデータを取得する類似複合単語検索ステップと、
前記形態素解析ステップで分割された前記単語群のうち、前記複合単語検索ステップまたは類似結合単語検索ステップにおいてアクセント情報を生成されていない単語について、所定のアクセント結合規則に基づいてアクセント結合様式を表すデータを取得するアクセント結合規則適用ステップと、
前記複合単語検索ステップまたは前記類似複合単語検索ステップで取得されたアクセント結合様式を表すデータと、前記アクセント結合規則適用ステップで取得されたアクセント結合様式を表すデータとを用いて、アクセント情報を含む前記テキストの読み情報を生成する読み情報生成ステップとを含む、読み情報生成方法。
連続する複数の単語で構成された複合単語に関するデータであって、複合単語のアクセント結合様式と、複合単語を構成する各単語に関する情報とを含むデータを複数の登録複合単語群それぞれについて記録する複合単語辞書記録部にアクセス可能なコンピュータに読み情報を生成する処理を実行させる読み情報生成プログラムであって、
任意のテキストを表すデータを入力するテキスト入力処理と、
前記テキスト入力処理で入力された前記テキストの形態素解析を行うことによって、前記テキストを単語群に分割し、それぞれの単語について表記、読み、品詞およびアクセント情報を生成する形態素解析処理と、
前記形態素解析処理で分割された単語群に含まれる複合単語である含有複合単語と同じ登録複合単語を前記複合単語辞書記録部に対して検索し、検索の結果、前記含有複合単語と同じ登録複合単語が見つかった場合、当該登録複合単語のアクセント結合様式を表すデータを取得する複合単語検索処理と、
前記複合単語検索処理における検索の結果、前記含有複合単語と同じ登録複合単語データが見つからなかった場合、前記含有複合単語を構成する各単語と、前記複合単語辞書記録部に記録された登録複合単語を構成する各単語とを比較することにより、前記含有複合単語に類似する類似複合単語を前記複合単語辞書記録部から検索し、前記類似複合単語のアクセント結合様式を表すデータを取得する類似複合単語検索処理と、
前記形態素解析処理で分割された前記単語群のうち、前記複合単語検索処理または類似結合単語検索処理においてアクセント情報を生成されていない単語について、所定のアクセント結合規則に基づいてアクセント結合様式を表すデータを取得するアクセント結合規則適用処理と、
前記複合単語検索処理または前記類似複合単語検索処理で取得されたアクセント結合様式を表すデータと、前記アクセント結合規則適用部で取得されたアクセント結合様式を表すデータとを用いて、アクセント情報を含む前記テキストの読み情報を生成する読み情報生成処理とをコンピュータに実行させる、読み情報生成プログラム。