JP5252209B2

JP5252209B2 - 読み生成装置

Info

Publication number: JP5252209B2
Application number: JP2009020406A
Authority: JP
Inventors: 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-01-30
Filing date: 2009-01-30
Publication date: 2013-07-31
Anticipated expiration: 2029-01-30
Also published as: JP2010176539A

Description

本発明は、音声合成技術における読み生成装置、並びに読み生成に用いることができる辞書を作成する辞書作成装置に関する。

現在、音声自動応答装置（ＩＶＲ）、カーナビゲーションシステム、ＧＰＳ装置などにテキスト音声合成技術が適用されている。テキスト音声合成技術には、漢字かな混じりのテキストを音声に変換する技術が含まれる。例えば、ＩＶＲにおいては、応答メッセージ、ユーザのキー入力や音声入力の確認音声などに、カーナビゲーションやＧＰＳ装置においては、案内音声や地図名称の読み上げ等にテキスト音声合成技術が用いられる。テキスト、特に、氏名や地名などの固有名詞を正しい読みで読み上げることは、情報を正確にユーザに伝えるために重要であり、これまでの技術開発によって読みの精度は向上している（例えば、特許文献１〜５参照）。

特開平６−２５９４６９号公報特開平５―２３３６８６号公報特開平１１−８５７６１号公報特開２００４−２６５４４０号公報特開２００４−３２６４６１号公報

しかしながら、多様な日本語をまったく誤りなく読み上げるまでには至っていない。特に、氏名や地名などの固有名詞には読み誤りが少なくない。

ゆえに、本発明は、地名や氏名等の固有名詞における多様な表記の違いの影響を回避して、読み情報の生成における誤りを軽減し、読み情報の精度を向上させることを目的とする。

本願開示の読み生成装置は、固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書と、テキストを入力する入力部と、前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索部と、前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索部と、予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索部および前記代替単語検索部によって検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定部と、前記単語特定部によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成部とを備える。

上記構成では、一般単語辞書および固有名詞辞書から、入力テキストに部分一致する単語が検索されるのに加えて、さらに、固有名詞辞書の単語の一部を代替情報によって代替した場合に入力テキストの一部に一致する単語も検索される。そのため、固有名詞辞書の単語の一部を代替した単語も検索対象となる。これにより、固有名詞辞書にない固有名詞が入力テキストに含まれている場合にも、固有名詞辞書の一部を代替したものが入力テキスト中の固有名詞に該当すれば、固有名詞の単語を正しく特定することができる。すなわち、単語の特定の誤りを回避することができる。ひいては、地名や氏名等の固有名詞における多様な表記の違いの影響を回避して、形態素解析の誤りを軽減し、読み情報の精度を向上することができる。

本願開示によれば、地名や氏名等の固有名詞における多様な表記の違いの影響を回避して、読み情報の生成における誤りを軽減し、読み情報の精度を向上させることができる。

第１の実施形態に係る読み生成装置の構成を示す機能ブロック図氏名単語辞書に登録されるデータの例を示す図氏名代替辞書に登録されるデータの例を示す図第１の実施形態における読み生成装置の動作例を示すフローチャート入力テキストの一例を示す図単語候補の一例を示す図単語特定部が出力する形態素解析結果の例を示す図読みアクセント生成部が生成した、読みアクセント情報の例を示す図第２の実施形態に係る辞書作成装置の構成を示す機能ブロック図第２の実施形態に係る辞書作成装置の構成を示す機能ブロック図辞書作成装置による辞書作成処理の一例を示すフローチャート氏名データリストのデータ内容の一例を示す図辞書生成部によって単語が登録された場合の氏名単語辞書の一例を示す図辞書生成部によって単語が登録された場合の氏名代替辞書の一例を示す図第３の実施形態に係る読み生成装置の構成を示す機能ブロック図氏名単語辞書のデータ内容の一例を示す図氏名部分文字列辞書のデータ内容の一例を示す図入力テキストの一例を示す図テキスト区間設定部による区間設定の一例を示す図氏名文字列区間および一般文字列区間における単語候補の例を示す図地名単語辞書のデータ内容の一例を示す図地名部分文字列辞書のデータ内容の一例を示す図入力テキストの一例を示す図テキスト区間設定部による区間設定の一例を示す図地名文字列区間および一般文字列区間における単語候補の例を示す図第４の実施形態に係る辞書作成装置の構成を示す機能ブロック図第４の実施形態に係る辞書作成装置の構成を示す機能ブロック図

本発明の１つの実施形態にかかる読み生成装置は、固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書と、テキストを入力する入力部と、前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索部と、前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索部と、予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索部および前記代替単語検索部によって検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定部と、前記単語特定部によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成部とを備える。

前記代替情報は、固有名詞単語の一部と代替可能なテキスト表記と、当該テキスト表記の読みと品詞を表す情報であって、前記代替単語検索部は、前記固有名詞辞書に格納された単語の一部のテキスト表記を、前記代替情報が表すテキスト表記の一部で代替した単語であって、前記入力テキストに部分一致する単語を検索して単語候補とすることができる。これにより、代替情報に基づいて、固有名詞辞書の固有名詞単語を代替することが可能になる。

本発明の他の実施形態にかかる読み生成装置は、固有名詞単語のテキスト表記および読みと品詞とを対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、固有名詞単語の一部の読みと代替文字とが対応づけて格納された部分文字列辞書と、固有名詞部分を予め定義する固有名詞指定情報を含むテキストを入力する入力部と、前記固有名詞指定情報に基づいて、入力テキストのうち、固有名詞区間と、その他の一般文字列区間とを設定する、テキスト区間設定部と、一般文字列区間と設定された区間に対して、前記一般単語辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする一般単語検索部と、予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記一般単語検索部によって検索された単語候補の中から最適な単語の組み合わせを特定する一般単語特定部と、固有名詞区間と設定された区間に対して前記固有名詞辞書および前記部分文字列辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする固有名詞単語検索部と、予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記固有名詞単語検索部によって検索された前記単語候補の中から最適な単語の組み合わせを特定する固有名詞単語特定部と、前記一般単語特定部と前記固有名詞単語特定部によって特定された結果を統合する統合部と、前記統合部により統合された単語の読みに基づいて、前記入力テキストに相当する読み情報を生成する読み生成部とを備える。

上記構成では、入力テキストの一般文字列区間については、一般単語辞書から単語候補が検索され、単語候補の中から最適な単語の組み合わせが特定される。入力テキストの固有名詞区間については、固有名詞辞書および部分文字列辞書から、単語候補が検索され、単語候補の中から最適な単語の組み合わせが特定される。このように、固有名詞区間については、固有名詞辞書に加えて、固有名詞単語の一部を構成する代替文字および読みを格納した部分文字列辞書も検索対象となる。すなわち、固有名詞辞書に格納されていない文字の組み合わせからなる固有名詞も検索対象になる。その結果、固有名詞辞書にない固有名詞が入力テキストに含まれている場合にも、単語の特定の誤りを回避しやすくなる。ひいては、地名や氏名等の固有名詞における多様な表記の違いの影響を回避して、形態素解析の誤りを軽減し、読み情報の精度を向上することができる。

前記固有名詞単語特定部は、前記固有名詞区間に、前記固有名詞辞書から検索された単語候補のいずれにも一致しない部分がある場合、前記部分文字列辞書から検索された、前記部分に一致する単語候補を、最適な単語の組み合わせに含めることができる。

この構成により、固有名詞区間のテキストが、固有名詞辞書に格納された単語では網羅されていない場合でも、部分文字列辞書に登録された、固有名詞単語の一部を構成するテキスト表記により網羅される場合がある。そのため、固有名詞辞書にない固有名詞の単語特定の誤り回避を、部分文字列辞書を用いることにより、効率よく行うことができる。

上記１つの実施形態または他の実施形態において、前記代替辞書または前記部分文字列辞書と、前記固有名詞辞書と、前記一般単語辞書とにおいては、読みを表す情報に加えて、当該読みのアクセント情報も登録され、前記読み生成部は、前記アクセント情報を用いて、前記入力テキストに相当する読みのアクセントを表す情報も生成する態様であってもよい。上記構成により、入力テキストの読みおよびアクセントを示す情報を生成することができる。

上記１つの実施形態において、読み生成装置は、複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、前記データ入力部が入力したデータの集合に含まれる前記固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、前記辞書生成部は、前記データ入力部が入力したデータの集合に含まれる固有名詞単語と読みが同じ固有名詞単語が、既に前記固有名詞辞書に登録されている場合、既に登録されている既存の固有名詞単語と異なる部分のテキスト表記と、当該テキスト表記に対応する読みと品詞を、固有名詞単語の一部を構成するテキスト表記および読みと品詞として、代替辞書に登録する態様とすることができる。

上記構成により、既に固有名詞辞書に登録されている既存固有名詞単語と同じ読みの固有名詞単語については、表記の異なる部分のテキスト表記とその読みと品詞が、代替情報として代替辞書に登録される。そのため、固有名詞辞書に格納された固有名詞単語の一部を異なるテキスト表記で代替した固有名詞単語は、代替辞書により網羅される。また、代替辞書には、異なる部分のテキスト表記のみが登録されるので、より小さなデータサイズで、多様な固有名詞が網羅される。その結果、全体として辞書サイズを抑えながらも、多様な固有名詞を網羅した辞書を作成することができる。

上記他の実施形態において、読み生成装置は、複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、前記データ入力部が入力したデータの集合に含まれる固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、前記辞書生成部は、さらに、前記データ入力部が入力したデータの集合に含まれる固有名詞単語の一部を構成するテキスト表記と当該テキスト表記に対応する読みを、部分文字列辞書に登録する態様とすることができる。

上記構成により、固有名詞辞書に固有名詞単語が登録されるとともに、その固有名詞単語の一部を構成するテキスト表記（代替文字）およびその読みと品詞が、部分文字列辞書に登録される。そのため、固有名詞辞書および部分文字列辞書により、固有名詞単語のみならず、固有名詞単語の一部のテキスト表記を含む多様な固有名詞も網羅される。そのため、全体として辞書サイズを抑えながらも、多様な固有名詞を網羅した辞書を作成することができる。

コンピュータを、本願に開示の読み生成装置または辞書作成装置として機能させる読み生成プログラムまたは辞書作成プログラム、およびそれらを記録した記録媒体も、本発明の実施形態に含まれる。また、コンピュータが、本願に開示の読み生成装置または辞書作成装置として機能するために実行する読み生成方法または辞書作成方法も、本発明の実施形態の一つである。

（第１の実施形態）
［装置の構成］
第１の実施形態は、音声合成エンジンにおける読み生成装置に関する。図１は、第１の実施形態に係る読み生成装置の構成を示す機能ブロック図である。図１に示す読み生成装置１０は、テキストを入力し、そのテキストの読みアクセント情報を出力するシステムである。

読み生成装置１０は、入力部１、形態素解析部、読みアクセント生成部５、出力部６を備える。形態素解析部は、入力部１が入力したテキストを、単語辞書を用いて形態素（本実施形態では、一例として、形態素と単語を同義とする）に分割する機能を有する。すなわち、形態素解析部は、入力されたテキストを構成する単語を特定する。読みアクセント生成部５は、形態素解析により特定された単語の読みとアクセントを連結して入力テキストの読みアクセント情報を生成する。出力部６は、この読みアクセント情報を出力する。形態素解析部は、単語検索部２、代替単語検索部３、単語特定部４、形態素解析用の単語辞書１０１、地名代替辞書２０１、氏名代替辞書２０２および単語接続評価値テーブル１０９を備える。

読み生成装置１０は、例えば、パーソナルコンピュータやサーバマシン等の汎用コンピュータに所定のプログラムをインストールすることによって実現することができる。また、汎用コンピュータに限らず、例えば、車載情報端末、携帯電話、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、家電製品等の電子機器に組み込まれたコンピュータによって読み生成装置１０が形成されてもよい。あるいは、コンピュータを内蔵した専用機器で読み生成装置１０を含む音声合成エンジンが形成されてもよい。

入力部１、単語検索部２、代替単語検索部３、単語特定部４、読みアクセント生成部５および出力部６の各機能は、ＣＰＵ等のプロセッサが所定のプログラムを実行することによって実現される。したがって、上記の各機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も本発明の一実施態様である。また、単語辞書１０１、地名代替辞書２０１、氏名代替辞書２０２および単語接続評価値テーブル１０９は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

なお、読み生成装置１０の構成は、図１に示す例に限られない。例えば、単語辞書１０１、地名代替辞書２０１、氏名代替辞書２０２および単語接続評価値テーブル１０９のうち、少なくとも１つは、読み生成装置１０の外部に設けられた記憶媒体で実現されてもよい。以下、各機能部について詳細に説明する。

入力部１は、読み生成装置１０の外部からテキストを入力して、読み生成装置１０で処理可能な状態にする。例えば、入力部１は、上位アプリケーションからテキストを受け取ってもよいし、キーボード等の入力デバイスを介してユーザからテキストデータの入力を受け付けてもよいし、所定のファイルからテキストを読み込んでもよいし、あるいは、ネットワークを介してテキストデータを受信してもよい。なお、本実施形態では、一例として、入力部１が、漢字かな混じりのテキストを受け付ける場合について説明する。

形態素解析部の単語辞書１０１は、一般単語辞書１０２、地名単語辞書１０３、氏名単語辞書１０４および一文字辞書１０５を含む。一般単語辞書１０２には、普通名詞や動詞、助詞、助動詞などの一般的に使われる単語のテキストの表記（一般的に文書で用いられる、漢字、ひらがな、カタカナ、アルファベット、記号などの文字からなる表記（文字列））、読みおよび品詞が登録されている。ここで、品詞は、日本語文法上の品詞の他に、例えば、単語が何に使われるのかを表す情報や、単語の属性等も含まれる。

地名単語辞書１０３および氏名単語辞書１０４は、固有名詞の単語辞書の一例である。地名単語辞書１０３には住所などに含まれる地名の表記と読みが登録されている。住所、駅、交差点、道路、川や山などの名称などの属性（品詞の一例）とともに登録される場合もある。氏名単語辞書１０４には、氏名の表記と読みが登録されている。当該単語が姓であるか名であるかの属性（品詞の一例）も合わせて登録することがある。

一文字辞書１０５には、入力され得る全ての文字種類について、各１文字を１単語とする単語が登録されている。この一文字辞書１０５は、上記の一般単語辞書１０２、地名単語辞書１０３および氏名単語辞書１０４のいずれの単語辞書を用いても適切な単語に割り当てることができない文字を、未知語という品詞に割り当てるために用いられる。

なお、単語辞書の構成は、上記例に限られない。以上に挙げた各種の単語辞書のうち２以上をひとつの単語辞書にまとめ、品詞や属性によって単語辞書における各単語の性質（一般、地名、氏名）を区別して用いることもできる。

地名代替辞書２０１には、地名単語辞書１０３に登録されている単語の表記の一部分を代替するための地名代替情報が格納されている。氏名代替辞書２０２には、氏名単語辞書１０４に登録されている単語の表記の一部分を代替するための氏名代替情報が格納されている。地名代替情報および氏名代替情報は、代替情報の一例である。これらの代替情報は、単語辞書１０１に記録された固有名詞単語の一部分を代替することができる文字列（テキスト表記）を含むことができる。例えば、地名単語辞書１０３または氏名単語辞書１０４に登録された単語の一部の文字列と読みが同じで表記が異なる文字列が、その読みおよびアクセントとともに、代替情報として、地名代替辞書２０１または氏名代替辞書２０２に登録される。

テキストが入力部１に入力されると、単語検索部２は単語辞書１０１を検索して、表記が入力テキストに部分一致する単語をすべて抽出する。代替単語検索部３は、地名単語辞書１０３の単語の表記の一部分を地名代替辞書２０１に基づいて代替したときに入力テキストと部分一致する場合に、その代替した単語を入力テキストの中の一部に一致する単語として抽出する。同様に、代替単語検索部３は、氏名単語辞書１０４の単語の表記の一部分を氏名代替辞書２０２に基づいて代替したときに入力テキストと部分一致する場合に、その代替した単語を入力テキストに部分一致する単語として抽出する。

単語特定部４は、単語検索部２によって検索された単語と、代替単語検索部３によって検索された単語を合わせて単語候補とし、単語接続評価値テーブル１０９に記録された評価データを用いて、入力テキストを構成する単語の組み合わせとして最適なものを特定する。

そのため、単語接続評価値テーブル１０９は、連接する単語の組み合わせの繋がり易さを示す評価データを記録する。評価データの例として、単語の接続の仕方（接続パターン）に対する評価値が挙げられる。評価値の例として、複数の単語列における品詞の繋がりの程度や、品詞の優先度を表す値が挙げられる。本実施形態では、一例として、連接する２単語の品詞の組み合わせについて、繋がり易さを示す接続評価値が単語接続評価値テーブル１０９に記録されている。

単語特定部４は、この評価値を適用して尤もらしい単語の組み合わせを求め、形態素解析結果とする。なお、単語特定部４による尤もらしい単語の組み合わせの特定は、上記のような、単語の並び方の評価値を記録したテーブルを用いる例に限られない。例えば、単語列の品詞を入力すると評価値を返す関数を用いて評価値を求めることもできる。

図２Ａおよび図２Ｂは、それぞれ、氏名単語辞書１０４および氏名代替辞書２０２に登録されるデータの例を示す図である。図２Ａに示す例では、氏名単語辞書１０４には、氏名の表記、読みアクセントおよび単語を構成する各漢字と読みの対応、品詞（姓または名）が格納されている。また、図２Ｂに例示する氏名代替辞書２０２には、氏名単語の一部分を代替するための情報が格納されている。すなわち、氏名単語辞書１０４に登録されている単語の一部の文字に対して、代替可能な文字（代替文字）の表記、読みおよび品詞が記録されている。

例えば、図２Ａに示す氏名単語辞書１０４に登録されている単語のうち、品詞＝「名」である単語「敏仁」の一部分に、「トシ」という読みで「敏」という表記が使われている。図２Ｂに示す氏名代替辞書には、この単語「敏仁」の一部分「敏」は、「年」、「利」または「俊」に代替可能であることを示すデータが記録されている。また、このデータによれば、もし、氏名単語辞書１０４に、品詞が「名」であり、表記（漢字）が「年」、読みが「トシ」である漢字を含む単語があれば、この漢字「年」を、「敏」、「利」または「俊」に代替することも可能である。同様に、図２Ｂに例示する氏名代替辞書２０２のデータは、品詞が「名」であり「ヒト」という読みを持つ漢字に関して、「人」と「仁」は相互に代替が可能であることも示している。

つまり、氏名単語辞書１０４に登録された単語「敏仁」は、氏名代替辞書２０２により、「敏仁」「年仁」「利仁」「俊仁」「敏人」「年人」「利人」「俊人」の８種類の表記に代替できる。すなわち、氏名単語辞書１０４に「敏仁」という登録があれば、上記８種類の表記に対応できることになる。同様に、氏名単語辞書１０４に登録されている「西田」という姓に関しても、氏名代替辞書２０２に、「西」と「仁志」、「田」と「多」という登録があるので、「西田」「西多」「仁志田」「仁志多」という４種類の表記に対応できる。このように、単語特定部４は、入力テキスト含まれるが、一般単語辞書にも固有名詞辞書にも含まれない単語の組み合わせを特定することが可能である。

［読み生成装置の動作例］
図３は、本実施形態における読み生成装置の動作例を示すフローチャートである。入力部１にテキストが入力されると、入力テキストはテキストバッファに格納される(Ｓ３０１)。通常、形態素解析では、入力テキストはある程度の長さに分割して処理される。ここでは一例として、１文章ごとに処理をするものとする。Ｓ３０２において、単語検索部２は、テキストバッファから解析対象の１文を読み込む。単語検索部２は、例えば、テキストバッファに格納された入力テキストを先頭から一文字ずつチェックしてゆき、「。」「？」「！」などの文末を示す文字が出現するまでのテキストを１文章であると判断することができる。

ここでは、一例として、解析対象の１文章となるテキストが、図４Ａに示すように、「佐藤敏人です。」である場合について説明する。単語検索部２は、氏名単語辞書１０４、一般単語辞書１０２、地名単語辞書１０３および一文字辞書１０５を検索し、解析対象のテキスト（解析文）の一部に一致（部分一致）する単語をすべて抽出して候補とする（Ｓ３０３）。

代替単語検索部３は、地名代替辞書２０１を参照し、地名単語辞書１０３の各単語に含まれる文字を代替したときに、解析文に部分一致する単語をすべて抽出して候補とする(Ｓ３０４)。同様に、代替単語検索部３は、氏名代替辞書２０２を参照し、氏名単語辞書１０４の各単語に含まれる文字を代替したときに、解析文に部分一致する単語をすべて抽出して候補とする(Ｓ３０５)。

なお、代替単語検索部３は、単語辞書のうち一部の単語を所定の基準で選択し、選択した単語の一部分を代替することもできる。例えば、解析テキストに含まれる漢字「佐」「藤」「敏」「人」を氏名代替辞書２０２で検索して、それぞれを代替できる文字を獲得し、それらの文字を含む単語を氏名単語辞書１０４から選抜して、もとの漢字（「佐」「藤」「敏」「人」など）に変換したのちに解析テキストと照合することにより、解析に有用な単語を選んで、効率よく代替処理および検索処理をすることができる。

あるいは、代替単語検索部３は、一般単語辞書１０２または固有名詞辞書（地名単語辞書１０３、氏名単語辞書１０４）から検索された入力テキストに部分一致する単語の一致しない一部を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補としてもよい。このように、一般名詞辞書または固有名詞辞書の単語と入力テキストとの一致部分に基づいて、代替する部分を決定することができる。これにより、解析に有用な単語を選んで、効率よく代替処理および検索処理をすることができる。

解析文「佐藤敏人です。」に対して、Ｓ３０３〜Ｓ３０５で得られた単語の候補の一例を、図４Ｂに示す。実際にはさらに多くの単語が検索され得るが、図４Ｂでは簡便のために主だった単語のみ表示している。図４Ｂでは、同じ辞書から検索された単語が点線で囲まれている。また、各単語には、その表記、読みアクセント、品詞が示されている。読みはカタカナで表現されており、アクセントのある位置が「’」で示されている。読みアクセントの表記方法はこれに限られず、装置に依存する場合が多い。また、品詞分類の方法も装置に依存する場合が多く、ここではその一例が示されている。

例えば、氏名単語辞書１０４から「佐藤」「敏」が検索され、一般単語辞書１０２から「藤」「人」「で」「す」「です」などが検索されている。また、一文字辞書１０５からは「佐」「藤」「敏」「人」…「す」の各一文字の登録が未知語として検索される。さらに、氏名単語辞書１０４に登録されている単語「敏仁」に対し、氏名代替辞書２０２に従って、「仁」を「人」に代替した「敏人」という単語候補が抽出されている。

単語特定部４では、単語接続評価値テーブル１０９を用いて、単語候補の中から入力テキストを構成する単語の組み合わせとして最適なものを特定し(Ｓ３０６)、解析結果として解析結果用のバッファに格納する(Ｓ３０７)。

単語接続評価値テーブル１０９には、連接する２単語の品詞の組み合わせについて、繋がり易さを示す接続評価値が設定されている。例えば、品詞「姓」と品詞「名」は繋がる可能性が高いので接続評価値は高く設定される。単語特定部４は、これに基づいて、品詞「姓」の単語「佐藤」と、品詞「名」の単語「敏」はつながりやすい単語の組み合わせと判断することができる。一方、動詞語幹の後には、通常、動詞活用語尾が続く可能性は高いのに対して、品詞「動詞語幹」と品詞「句点」が繋がる可能性は低い。そのため、品詞「動詞語幹」と品詞「句点」との接続評価値は低く設定される。これに基づいて、単語特定部４は、品詞「動詞語幹」の単語「す」と、品詞「句点」の単語「。」はつながりにくいと判断することができる。また、単語特定部４は、一文字辞書から検索される「未知語」は他の単語よりも採用する評価値を低くしたり、より長い単語を優先するために、単語の文字数に応じた加点を行ったりして、入力テキストを構成する最適な単語の組みあわせを決定することができる。

図４Ｃは、単語特定部４が出力する、テキスト「佐藤敏人です。」の形態素解析結果の例である。図４Ｃに示す例では、単語特定部４が最適と決定した単語の組み合わせは、太線で示され、かつ直線で連結されている。すなわち、「佐藤（姓）」「敏人（名）」「です（助動詞）」という単語の組み合わせの評価値が最も高く、最適と決定されている。

読みアクセント生成部５は、Ｓ３０７で解析結果用のバッファに格納されたデータで示される各単語の読みを連結し、各単語のアクセントとアクセント結合規則によってアクセントを設定することで、読みアクセント情報を生成する。図４Ｄは、読みアクセント生成部５が生成した、解析文「佐藤敏人です。」に相当する正しい読みアクセント情報の例を示す図である。図４Ｄに示す例では、「サ’トートシ’ヒトデス．」となっている。

出力部６は、このようして生成された読みアクセント情報を出力する（Ｓ３０８）。次に、読み生成装置１０は、テキストバッファ内の全データについて処理完了であると判断すると（Ｓ３０９でＹｅｓ）、処理を終了し、未処理のテキストが残っていると判断すれば（Ｓ３０９でＮｏ）、Ｓ３０２に戻って、テキストバッファ内の次の文章に対してＳ３０２〜Ｓ３０８の処理が繰り返される。

ここで、もしも、代替単語検索部３による氏名代替辞書２０２を用いた代替単語の検索がなかった場合、図４Ｂにおける単語「敏人」は、単語候補として抽出されないことになる。その結果、単語特定部４で決定される最適な単語の組み合わせは、図４Ｃに示すようにはならない。例えば、「佐藤（サ’トー）（姓）」「敏（サ’トシ）（名）」「人（ニン）（接尾語）」「です（デス）（助動詞）」という単語の組み合わせが最適と決定され、誤った読みアクセント情報「サ’トーサトシニンデ’ス．」が出力されてしまう。この「敏（サ’トシ）（名）」「人（ニン）（接尾語）」という誤り部分は、「敏人」という名前が氏名単語辞書に登録されていないために生じる解析誤りである。「敏人」の部分に形態素解析の誤りがあったために、その部分の読みが不適切になっている。

このような形態素解析誤り、ひいては読みアクセント情報の誤りを軽減するためには、地名や氏名などの固有名詞を地名単語辞書や氏名単語辞書に多数登録しておくことが考えられる。しかし、地名や氏名には非常にたくさんの表記があり、全てを辞書に登録しておくことが難しい。例えば、「としひと」という読みであれば、少なくとも、「敏人、敏仁、俊人、敏仁、利人、利仁、年人、年仁」の８種類の表記が挙げられる。そのため、日本語のあらゆる氏名や地名などの固有名詞を辞書で網羅しようとすると辞書のサイズが非常に大きくなる。また、年々、様々な新しい名前が考えられるため、これらを追加するメンテナンス作業を継続する必要も生じる。

そこで、本実施形態によれは、辞書のサイズや、辞書のメンテナンス作業の増大を抑えつつも、固有名詞の単語辞書だけでは網羅できない固有名詞にも対応することが可能になる。すなわち、上述のように、代替辞書を用いた代替単語検索部の処理により、単語辞書だけでは網羅できない代替パターンも網羅することができる。例えば、上述のように、氏名単語辞書１０４で「敏人」という単語が登録されていれば、氏名単語辞書１０４と氏名代替辞書２０２とを用いた代替単語の検索を実行することにより、「敏人、敏仁、俊人、敏仁、利人、利仁、年人、年仁」の８種類の表記に対応することが可能になる。

このように、従来は、読みアクセントの精度を向上するためには、地名または氏名を地名単語辞書または氏名単語辞書に多数登録する必要があった。これに対して、本実施形態によれば、同一の「読み」を持つ地名または氏名の表記を１種類だけ地名単語辞書または氏名単語辞書に登録しておき、その単語の一部分を代替して使用するための情報を、地名部分代替辞書、氏名部分代替辞書に登録することによって、対応できる固有名詞を増やしながらも、各種辞書のサイズ増大を効率的に抑えることができる。

（第２の実施形態）
第２の実施形態は、上記第１の実施形態における地名単語辞書１０３、氏名単語辞書１０４、地名代替辞書２０１および氏名代替辞書２０２を作成するための辞書作成装置に関する。図５Ａおよび図５Ｂは、第２の実施形態に係る辞書作成装置の構成を示す機能ブロック図である。図５Ａは、地名単語辞書１０３および地名代替辞書２０１の辞書作成装置、図５Ｂは、氏名単語辞書１０４および氏名代替辞書２０２の辞書作成装置の構成を示している。

図５Ａおよび図５Ｂに示す辞書作成装置は、データ入力部７ａ、７ｂおよび辞書生成部
８ａ、８ｂを備える。データ入力部７ａは、地名データリスト４０２から、地名単語の表記および読みを表すデータを読み込んで、辞書生成部８ａで使用可能な状態にする。データ入力部７ｂは、氏名データリスト４０３から、氏名単語の表記および読みを表すデータを読み込んで、辞書生成部８ｂで使用可能な状態にする。

地名データリスト４０２および氏名データリスト４０３は、単語辞書および代替辞書の元となる情報を含むデータである。これらのデータリストは、例えば、複数の固有名詞単語のテキスト表記および読みを表すデータの集合である。

辞書生成部８ａは、データ入力部７ａが入力した地名データリスト４０２に基づいて、地名単語辞書１０３と地名代替辞書２０１を作成する。辞書生成部８ｂは、氏名データリスト４０３の入力に基づいて、氏名単語辞書１０４と氏名代替辞書２０２を作成する。辞書生成部８ａ、８ｂは、地名データリスト４０２または氏名データリスト４０３に含まれる地名または氏名の表記、読みアクセントおよび漢字に対応する読みを地名単語辞書１０３または氏名単語辞書１０４へ登録する。

また、辞書生成部８ａ、８ｂは、登録しようとする固有名詞単語と読みが同じ固有名詞単語が、前記地名単語辞書１０３または氏名単語辞書１０４に既に登録されている場合、既に登録されている固有名詞単語と異なる部分のテキスト表記と読みと品詞を、代替文字のテキスト表記および読みとして、地名代替辞書２０１または氏名代替辞書２０２に登録する。

図５Ａおよび図５Ｂに示す辞書作成装置は、例えば、上記第１の実施形態における読み生成装置の一部に組み込むことができる。読み生成装置と同じコンピュータに所定のプログラムをインストールすること辞書作成装置の機能を実現することもできるし、読み生成装置とは別に独立したコンピュータで辞書作成装置を実現することもできる。データ入力部７ａ、７ｂおよび辞書生成部８ａ、８ｂの各機能は、プロセッサが所定のプログラムを実行することによって実現される。上記各機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も本発明の一実施態様である。

［辞書作成装置の動作例］
図６は、辞書作成装置による辞書作成処理の一例を示すフローチャートである。ここでは、一例として、データ入力部７ｂが、予め用意された、図７Ａに例示するような氏名データリスト４０３を読み込んで、辞書生成部８ｂが、氏名単語辞書１０４および氏名代替辞書２０２にデータを登録する処理について説明する。

図７Ａに例示する氏名データリスト４０３（以下、単にデータリストを称する）においては、品詞が「名」である単語のテキスト表記、読みアクセント、漢字に対応する読みおよび処理済みフラグが、単語ごとに記録されている。処理済みフラグは、各単語の処理が済んだか否かを示すフラグである。

まず、データ入力部７ｂは、読み込んだデータリストの全データ（各単語）に未処理であることを意味するフラグを付与する(Ｓ５０１)。辞書生成部８ｂは、データリストの先頭（ｉ＝０）の単語を対象として処理を開始すると(Ｓ５０２)、データリストの全データ（総数Ｎ）の処理が完了する（Ｓ５０３でＮｏ）まで、以下の処理を繰り返す。

辞書生成部８ｂは、データリストにおいてｉ番目の単語（処理対象となる単語：以下、単語ｉと称する）が処理済みの場合は次の単語を処理対象とする (Ｓ５０４でＮｏ→Ｓ５０９)。単語ｉが未処理の場合は、単語ｉを氏名単語辞書１０４に登録し、単語ｉを処理済みとする(Ｓ５０４がＹｅｓ→Ｓ５０５→Ｓ５０６)。

図７Ｂおよび図７Ｃは、それぞれ、辞書生成部８ｂによって、単語が登録された場合の氏名単語辞書１０４および氏名代替辞書２０２の一例を示す図である。例えば、単語ｉが「敏仁」のときには、図７Ｂに示す氏名代替辞書２０２のように、「敏仁」の表記「敏仁」、読みアクセント「トシ’ヒト」、漢字読み対応「敏＝トシ、仁＝ヒト」および品詞「名」が登録される。

次に、辞書生成部８ｂは、登録した単語ｉの次にリストされているｊ番目（ｊ＝ｉ＋１）の単語（単語ｊと称する）に注目する(Ｓ５０７)。単語ｊがリストの末尾を指している場合（Ｓ５０８でＮｏ）、Ｓ５０９に進み、ｉの単語をひとつ先に進める。

単語ｊが未処理であり(Ｓ５１０でＹｅｓ)、単語ｉと単語ｊの読みおよびアクセントが同一のとき(Ｓ５１１がＹｅｓ)のとき、辞書生成部８ｂは、単語iと単語jの表記が異なる部分を検出し(Ｓ５１２)、さらに、単語ｉと単語ｊの表記の異なる部分の読みを検出する(Ｓ５１３)。例えば、単語ｉが「敏仁」であり、単語ｊが「敏人」であるとき、表記の異なる部分は「仁」と「人」であり、その読みは「ヒト」である。

辞書生成部８ｂは、部分代替辞書に、上記の異なる部分のデータが既に登録済みであるか否かを判断する（Ｓ５１４）。すなわち、辞書生成部８ｂは、それまでの部分代替辞書の登録状況を確認する。登録が無ければ(Ｓ５１４でＮｏ)、辞書生成部８ｂは、図７Ｃの１行目に示すように、氏名代替辞書２０２に、読み「ヒト」、品詞「名」、代替文字「仁、人」のデータを含むレコードを登録する（Ｓ５１５）。単語jの処理済みフラグは「処理済み」にされる（Ｓ５１６）。単語ｊは、データリストの次の単語に進められる(Ｓ５１７)。辞書生成部８ｂは、単語ｊが、データリストの末尾に達するまで（Ｓ５０８でＮｏと判断されるまで）、上記の処理（Ｓ５１０〜Ｓ５１７）を繰り返す。

例えば、単語ｉが「敏仁」、単語ｊが「俊仁」のときに、氏名代替辞書２０２には、読み「トシ」、品詞「名」、代替文字「敏、俊」が登録される。そして、順次に単語ｉと単語ｊが進められる。単語ｉが「敏夫」、単語ｊが「俊夫」となった場合、氏名代替辞書２０２には、すでに、読み「トシ」、代替文字「敏、俊」の登録は存在するので、ここでは氏名代替辞書２０２に新たな登録はされない。さらに、単語ｊが進められ、単語ｉが「敏夫」、単語ｊが「利夫」となった場合、氏名代替辞書２０２には、読み「トシ」、代替文字「敏、俊」という登録はあるが、「利」に関しては登録がないので、「利」が追加される。その結果、氏名代替辞書２０２には、読み「トシ」、代替文字「敏、俊、利」が登録になる。以上のような処理を繰り返すことによって、図７Ｂおよび図７Ｃに示すように氏名単語辞書１０４と氏名代替辞書２０２が作成される。

（第３の実施形態）
さて、例えば、音声自動応答装置では、あらかじめ用意されたフロー（あるいはシナリオとも呼ばれる）に基づいて、情報提供等のサービスを進めていく場合がある。サービスのある場面では、これから読み上げる対象のテキストが、固有名詞であることが予め分かる場合がある。例えば、これから読み上げる対象のテキストが、氏名のみからなる文字列であることや、住所のみからなる文字列であることが分かっている場合がある。具体例として、テレホンバンキングにおいて、電話をかけてきたユーザ（預金者）が自分の口座番号を電話のプッシュボタンを押下して入力した後、音声自動応答システムが合成音声を用いて預金者名を電話で返答して、確認する場面が想定できよう。このとき、音声自動応答システムでは、例えば、「山本光人様ですね。」といったテキストから音声が合成される。音声自動応答システムは、「山本光人」は氏名であることがあらかじめ分かっているので、この部分を氏名であることを明示する情報（固有名詞指定情報）をテキストに付加して音声合成を行うことが可能である。このような固有名詞指定情報として、例えば、読み上げテキストに埋め込むことができるタグが挙げられる。具体例として、氏名の開始位置を示す「＜氏名開始＞」と、氏名の終了位置を示す「＜氏名終了＞」というタグを定義しておき、これを読み上げテキストに埋め込んで、例えば、「＜氏名開始＞山本光人＜氏名終了＞様ですね。」という読み上げテキストを用意することができる。音声自動応答システムでは、音声合成の形態素解析時にタグを検出して、＜氏名開始＞と＜氏名終了＞に挟まれた文字列は、氏名であることを認識した上で処理することができる。その結果、より精度よく氏名を読み上げることが可能となる。なお、固有名詞指定情報はタグに限られない。例えば、その他の所定の記号やデータ構造により、テキスト中の固有名詞の部分を定義することができる。

第３の実施形態は、上記例のように、固有名詞の区間を示す情報が含まれたテキストを入力して、読みアクセント情報を出力する読み生成装置に関する。図８は、第３の実施形態に係る読み生成装置の構成を示す機能ブロック図である。図８に示す読み生成装置１０ａにおいて、図１に示す読み生成装置１０とおなじ機能ブロックには、同じ番号を付す。

図８に示す読み生成装置１０ａは、テキスト区間設定部１１をさらに備える。読み生成装置１０ａの形態素解析部は、形態素解析用の単語辞書として、一般単語辞書１０２、地名単語辞書１０３、氏名単語辞書１０４、一文字辞書１０５を備え、さらに、地名部分文字列辞書２０１ａと氏名部分文字列辞書２０２ａを備える。また、形態素解析部は、単語検索部として、一般単語検索部１２、地名単語検索部１３および氏名単語検索部１４を備え、単語特定部として、一般単語特定部１５、地名単語特定部１６、氏名単語特定部１７を備える。地名単語検索部１３および氏名単語検索部１４は、固有名詞単語検索部の例である。地名単語特定部１６および氏名単語特定部１７は、固有名詞単語特定部の例である。形態素解析部は、さらに、形態素解析結果を統合する統合部１８も備える。

上記第１の実施形態における地名代替辞書２０１および氏名代替辞書２０２が、地名単語辞書１０３や氏名単語辞書１０４に登録されている単語の表記の一部を代替するために用いられるのに対し、本実施形態の地名部分文字列辞書２０１ａおよび氏名部分文字列辞書２０２ａは、地名や氏名を構成する部分文字を登録した辞書として機能する。なお、地名代替辞書２０１と地名部分文字列辞書２０１ａのデータ構成および内容、氏名代替辞書２０２と氏名部分文字列辞書２０２ａのデータ構成および内容は、それぞれ同じであってもよい。

入力部１は、テキスト中の氏名または地名の部分をタグによって明示したテキストを入力する。テキスト区間設定部１１は、入力テキスト中のタグに基づいて、入力テキストのうち、一般文字列の区間、氏名文字列の区間および地名文字列の区間を判定する。例えば、テキスト区間設定部１１は、テキスト中で、氏名を示すタグに挟まれた部分を氏名文字列区間、地名を示すタグに挟まれた部分を地名文字列区間、それ以外の部分を一般文字列区間と判定することができる。

形態素解析部は、単語辞書からの単語候補を検索する処理、および、単語候補から最適な単語を決定する処理を、一般文字列区間、氏名文字列区間および地名文字列区間それぞれについて個別に実行する。つまり、一般文字列区間については、一般単語検索部１２が一般単語辞書１０２と一文字辞書１０５から単語候補を抽出し、一般単語特定部１５が、一般単語検索部１２で抽出された単語候補から、単語接続評価値テーブル１０９を用いて最適な単語の組み合わせを決定する。地名文字列区間については、地名単語検索部１３が地名単語辞書１０３、地名部分文字列辞書２０１ａおよび一文字辞書１０５から単語候補を抽出し、地名単語特定部１６が、抽出された単語候補から最適な組み合わせを特定することにより形態素解析が行われる。氏名文字列区間については、氏名単語検索部１４が氏名単語辞書１０４、氏名部分文字列辞書２０２ａおよび一文字辞書１０５から単語候補を抽出し、氏名単語特定部１７が抽出された単語候補から最適な単語の組み合わせを特定することにより形態素解析を行う。

統合部１８は、一般文字列区間、地名文字列区間および氏名文字列区間でそれぞれ実行された形態素解析の結果を統合し、入力テキストの形態素解析結果としてまとめる。結合部１８は、例えば、一般単語特定部１５、地名単語特定部１６および氏名単語特定部１７それぞれで特定された単語の組をつなぎ合わせることで、形態素解析結果を統合することができる。読みアクセント生成部５および出力部６は、上記第１の実施例と同様に構成することができる。

［読み生成装置の動作例その１］
次に、本実施形態に係る読み生成装置１０ａの動作例を説明する。ここでは、一例として、氏名単語辞書１０４には、図９Ａに示す内容のデータが記録されており、氏名部分文字列辞書２０２ａには、図９Ｂに示す内容のデータが記録されている場合の動作例を説明する。図９Ａに示す例では、氏名単語辞書１０４には、表記が「光」の単語および表記が「山本」の単語それぞれについて、読みアクセント、漢字読み対応（各漢字に対応する読み）、品詞（「姓」または「名」）が記録されている。図９Ｂに示す例では、氏名部分文字列辞書２０２ａには、姓の部分文字列として「ヤマ」「モト」「ミツ」「ヒト」という読みそれぞれについて、品詞および文字が登録されている。なお、氏名単語辞書１０４や氏名部分文字列辞書２０２ａにはこれ以外にも多数の単語が登録され得る。図９Ａ、図９Ｂには、本動作例を説明するために必要なデータのみ表示されている。

入力テキストが、図９Ｃに示すように、「＜氏名開始＞山本光人＜氏名終了＞様ですね。」であるとき、テキスト区間設定部１１は、入力テキスト中のタグを検出して、図９Ｄのように、「山本光人」を氏名文字列区間、「様ですね。」を一般文字列区間と設定する。

次に、氏名単語検索部１４は、氏名単語辞書１０４、氏名部分文字列辞書２０２ａおよび一文字辞書１０５を検索して、氏名文字列区間「山本光人」のテキスト表記に部分一致する単語候補を検出する。図９Ｅの左側は、氏名単語検索部１４により検索された、氏名文字列区間「山本光人」における単語候補の例を示している。図９Ｅでは、同じ辞書から検索された単語が破線で囲まれている。図９Ｅに示す例では、氏名単語辞書１０４からは「山本（ヤマモト：姓）」「光（ヒカル：名）」が、一文字辞書１０５からは、「山（サン：未知語）」「本（ホン：未知語）」「光（コウ：未知語）」「人（ジン：未知語）」が、氏名部分文字列辞書２０２ａからは、「山（ヤマ：姓の部分）」「本（モト：姓の部分）」「光（ミツ：名の部分）」「人（ヒト：名の部分）」が単語候補として抽出されている。この例において、氏名単語辞書１０４と一文字辞書１０５だけだと、氏名文字列区間のテキスト表記「光」「人」に相当する妥当な単語を検索されないが、氏名部分文字列辞書２０２ａがあるので、妥当な単語が単語候補として抽出されていることが分かる。

氏名単語特定部１７は、これらの単語候補の中から最適な単語の組み合わせを決定する。その際、氏名単語特定部１７は、以下に示す判定基準（１）〜（５）を順に適用することができる。
（１）氏名文字列区間が、品詞「姓」の１個の単語と、品詞「名」の１個の単語で構成される。
（２）氏名文字列区間が、品詞「姓」の１個の単語と、品詞「名」の１個以上の部分文字列で構成される。
（３）氏名文字列区間が、品詞「姓」の１個以上の部分文字列と、品詞「名」の１個の単語で構成される。
（４）氏名文字列区間が、品詞「姓」の１個以上の部分文字列と、品詞「名」の１個以上の部分文字列で構成される。
（５）以上（１）〜（４）の基準で解析できなかった部分について、一文字辞書から検索した未知語を採用する。

図９Ｅでは、上記の判定基準を適用して決定された単語の組み合わせを、太線で表し、直線で連結している。具体的には、氏名単語特定部１７は、まず（１）の基準を適用して、氏名文字列区間「山本光人」を、姓「山本（ヤマモト）」と名「光（ヒカル）」と解析しようとする。しかし、氏名文字列区間にある文字「人」が解析できない。そのため、氏名単語特定部１７は、次に（２）の基準を適用して、姓「山本（ヤマモト）」、名の部分文字列「光（ミツ）」、名の部分文字列「人（ヒト）」と解析する。この解析結果であれば、氏名文字列区間をすべて網羅する解析が可能であるので、これが採用される。

このようにして、氏名文字列区間を網羅する解析が可能になるまで、上記（１）〜（５）の基準を順次適用することにより、効率よく最適な単語の組み合わせを決定することができる。なお、適用する基準は、上記例に限られない。例えば、まず、氏名単語辞書１０４から抽出された単語、次に、氏名部分文字列辞書２０２ａから抽出された単語、その次に一文字辞書１０５から抽出された単語の順に評価値を設定し、評価値が最も高くなる組み合わせを、最適な単語の組み合わせにすることもできる。このように、氏名単語辞書から検索された単語候補で解析できない場合に、氏名部分文字列辞書で検索された単語候補で解析することで、効率よく解析することができる。

一般単語検索部１２では、一般単語辞書１０２および一文字辞書１０５を検索して、一般文字列区間「様ですね。」に部分一致する単語候補を検出する。図９Ｅの右側は、一般単語検索部１２により検索された単語候補の例を示している。一般単語特定部１５において、これらの単語候補の中から単語接続評価値テーブル１０９を用いて最適な単語を決定する方法は、上記第１の実施形態と同様であってもよい。図９Ｅに示す例では「様（接尾語）」「です（助動詞）」「ね（終助詞）」「。(句点)」が最適であると判定されている。

統合部１８は、氏名単語特定部１７による形態素解析結果（氏名文字列区間における最適な単語の組み合わせ）と、一般単語特定部１５による形態素解析結果（一般文字列区間における最適な単語の組み合わせ）を統合して、入力テキスト全体の解析結果を生成する。この結果に基づき、読みアクセント生成部５は、「ヤマモトミツ’ヒトサマデスネ．」という読みアクセント情報を生成し、出力部６がこの読みアクセント情報を出力する。

ここで、読みアクセント生成部５は、「光人」の部分のアクセントを次にようにして推定することができる。例えば、統計的に、４モーラの名前は２型アクセントであることが多く、２モーラ、３モーラの名前は１型アクセントであることが多い。そのため、品詞＝「名」の単語には、モーラ数に応じた、これらのアクセント型を適用すれば、概ね正しいアクセントを付与することができる。例外的に、「美」「実」など「ミ」という読みで終わる名前や、「江」「恵」など「エ」という読みで終わる名前は、３モーラであれば０型アクセントとなる。そのため、このようなルールをプログラムまたはデータベースで記録しておいて、読みアクセント生成部５のアクセント推定処理に用いることで、アクセントを高精度に推定することが可能になる。

［読み生成装置の動作例その２］
次に、本実施形態に係る読み生成装置１０ａの他の動作例を説明する。ここでは、一例として、地名単語辞書１０３は、図１０Ａに示す内容のデータが記録されており、地名部分文字列辞書２０１ａには、図１０Ｂに示す内容のデータが記録されている場合の動作例を説明する。図１０Ａに示す例では、地名単語辞書１０３には、表記が「盛岡市」の単語について、読みアクセント「モリオカ’シ」、漢字読み対応（各漢字に対応する読み）「盛＝モリ、岡＝オカ、市＝シ」、品詞（属性）「市名」が記録されている。図１０Ｂに示す例では、地名部分文字列辞書２０１ａには、地名の部分文字列として「モリ」「オカ」「ウチ」「マル」という読みそれぞれについて、文字が登録されている。なお、地名単語辞書１０３や地名部分文字列辞書２０１ａにはこれ以外にも多数の単語が登録され得る。図１０Ａ、図１０Ｂには、本動作例を説明するために必要なデータのみ表示されている。

入力テキストが、図１０Ｃに示すように、「＜地名開始＞盛岡市内丸＜地名終了＞ですね。」であるとき、テキスト区間設定部１１は、入力テキスト中のタグを検出して、図１０Ｄのように、「盛岡市内丸」を地名文字列区間、「ですね。」を一般文字列区間と設定する。

次に、地名単語検索部１３は、地名単語辞書１０３、地名部分文字列辞書２０１ａ、一文字辞書１０５を検索して、地名文字列区間に部分一致する単語を単語候補として抽出する。図１２Ｅの左側は、地名単語検索部１３により検索された、地名文字列区間「盛岡市内丸」の単語候補の例を示している。

地名単語特定部１６は、これらの単語候補の中から最適な単語の組み合わせを決定する。その際、地名単語特定部１６は、以下に示す判定基準（１）〜（３）を順に適用することができる。
（１）地名単語辞書から検索された地名単語を採用する。
（２）地名単語辞書から検索されなかった部分について、地名部分文字列を採用する。
（３）地名単語でも地名部分文字列でも解析できなかった文字列に対して、一文字辞書から検索した未知語を採用する。

具体的には、地名単語特定部１６は、まず（１）の基準を適用して「盛岡市（モリオカシ）」を決定し、さらに、（２）の基準を適用して、地名部分文字列「内（ウチ）」、地名部分文字列「丸（マル）」を決定する。このように、地名単語特定部１６は、地名文字列区間をすべて網羅する解析ができるまで、上記（１）〜（３）の基準を順次適用することができる。なお、適用する基準は、上記例に限られない。例えば、まず、地名単語辞書１０３から抽出された単語、次に、地名部分文字列辞書２０１ａから抽出された単語、その次に一文字辞書１０５から抽出された単語の順に評価値を設定し、評価値が最も高くなる組み合わせを、最適な単語の組み合わせにすることもできる。このように、地名単語辞書から検索された単語候補で解析できない場合に、地名部分文字列辞書で検索された単語候補で解析することで、効率よく解析することができる。

一般単語検索部１２では、一般単語辞書１０２、一文字辞書１０５を検索して、例えば、図１０Ｅの右側に示すような単語候補を検出する。一般単語特定部１５は、第１の実施形態と同様に、これらの単語候補の中から単語接続評価値テーブル１０９を用いて最適な単語を決定することができる。図１０Ｅに示す例では、「です（助動詞）」「ね（終助詞）」「。(句点)」が最適であると判定されている。

統合部１８は、地名単語特定部１６による形態素解析結果と、一般単語特定部１５による形態素解析結果を統合して、入力テキスト全体の解析結果とする。この結果に基づき、読みアクセント生成部５は、「モリオカ'シウチマルデ’スネ．」という読みアクセント情報を生成し、出力部６が、この読みアクセント情報を出力する。なお、地名の場合には、モーラ数からアクセント型を推定するのは困難なので、読みアクセント生成部５は、例えば、地名には、一律に０型アクセントを設定するという方法をとってもよい。

以上のとおり、本実施形態によれば、地名単語辞書または氏名単語辞書のような固有名詞辞書に登録された単語の一部分の読みに対する表記のバリエーションを、地名部分代替辞書、氏名部分代替辞書に登録される。これにより、辞書サイズ増大を抑えつつも、対応できる固有名詞を増やすことができる。その結果、小さい辞書サイズで、効率的に、読み情報の精度を向上させることが可能になる。

（第４の実施形態）
第４の実施形態は、上記第３の実施形態における地名単語辞書１０３、氏名単語辞書１０４、地名部分文字列辞書２０１ａおよび氏名部分文字列辞書２０２ａを作成するための辞書作成装置に関する。図１１Ａおよび図１１Ｂは、第４の実施形態に係る辞書作成装置の構成を示す機能ブロック図である。図１１Ａは、地名単語辞書１０３および地名部分文字列辞書２０１ａの辞書作成装置、図１１Ｂは、氏名単語辞書１０４および氏名部分文字列辞書２０２ａの辞書作成装置の構成を示している。図１１Ａ、図１１Ｂにおいて、図５Ａ、図５Ｂと同じ機能ブロックには同じ番号を付している。

図１１Ａおよび図１１Ｂに示す辞書作成装置は、データ入力部７ａ、７ｂおよび辞書生成部１９ａ、１９ｂを備える。地名データリスト４０２および氏名データリスト４０３の内容および、データ入力部７ａ、７ｂの機能は、上記第２の実施形態と同様であってよい。

辞書生成部１９ａは、データ入力部７ａが入力した地名データリスト４０２に基づいて、地名単語辞書１０３と地名部分文字列辞書２０１ａを作成する。辞書生成部１９ｂは、氏名データリスト４０３の入力に基づいて、氏名単語辞書１０４と氏名部分文字列辞書２０２ａを作成する。辞書生成部１９ａ、１９ｂは、地名データリスト４０２または氏名データリスト４０３に含まれる地名または氏名の表記、読みアクセントおよび漢字に対応する読みを地名単語辞書１０３または氏名単語辞書１０４へ登録する。

さらに、辞書生成部１９ａ、１９ｂは、データ入力部７ａ、７ｂが入力したデータリストに含まれる固有名詞単語の一部を構成するテキスト表記とそれに対応する読みを、地名部分文字列辞書２０１ａ、氏名部分文字列辞書２０２ａに登録する。これにより、固有名詞単語だけでなく、固有名詞単語を構成する漢字を含む他の固有名詞単語についても網羅する辞書の組（単語辞書と部分文字列単語辞書）が作成される。

例えば、データ入力部７ｂが、図７Ａに示すような氏名データリスト４０３を読み込んだ場合、辞書生成部１９ｂは、氏名データリスト４０３のレコードを順に読み込み、各レコードの、表記、読みアクセント、漢字読み対応を氏名単語辞書１０４に、品詞「名」とともに登録する。さらに、辞書生成部１９ｂは、各レコードの固有名詞単語を構成する漢字それぞれについて、読みと漢字（表記）を氏名部分文字列辞書２０２ａに登録する。

一例として、氏名データリスト４０３に、表記「敏人」、読みアクセント「トシ’ヒト」、漢字読み対応「敏＝トシ、人＝ヒト」のレコードと、表記「敏仁」、読みアクセント「トシ’ヒト」、漢字読み対応「敏＝トシ、仁＝ヒト」のレコードとがある場合、辞書生成部１９ａは、氏名部分文字列辞書２０２ａの読み＝「トシ」のレコードに、表記「敏」を追加し、読み＝「ヒト」のレコードに、表記「人」および「仁」を追加することができる。なお、上記例では、固有名詞に含まれる各漢字を、固有名詞の部分文字列として、部分文字列辞書に登録しているが、部分文字列辞書に登録される部分文字列の単位は、必ずしも漢字１文字とする必要はない。

なお、図１１Ａおよび図１１Ｂに示す辞書作成装置は、例えば、上記第３の実施形態における読み生成装置の一部に組み込むことができる。読み生成装置と同じコンピュータに所定のプログラムをインストールすること辞書作成装置の機能を実現することもできるし、あるいは、読み生成装置とは別に独立したコンピュータで辞書作成装置を実現することもできる。データ入力部７ａ、７ｂおよび辞書生成部１９ａ、１９ｂの各機能は、プロセッサが所定のプログラムを実行することによって実現される。上記各機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も本発明の一実施態様である。

以上のとおり、第１〜４の実施形態によれは、氏名や地名などの固有名詞の読みアクセントの誤りを軽減し、高精度に読みアクセント情報の生成を行うことが可能になる。すなわち、固有名詞の単語辞書に加えて、代替辞書または部分文字列辞書を用意することにより、辞書サイズ増大を抑えつつも、音声合成エンジンの形態素解析の誤りに起因する読み誤りを軽減することが可能になる。

また、上記第１〜４の実施形態にかかる読み生成装置は、例えば、音声合成装置や読み上げ装置等に用いることができる。なお、本願発明の適用範囲は、上記第１〜４の実施形態に限られない。

以上の第１〜第４の実施形態に関し、さらに以下の付記を開示する。

（付記１）
固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、
前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、
前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書と、
テキストを入力する入力部と、
前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索部と、
前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索部と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索部および前記代替単語検索部によって検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定部と、
前記単語特定部によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成部とを備える、読み生成装置。

（付記２）
前記代替情報は、固有名詞単語の一部と代替可能なテキスト表記と、当該テキスト表記の読みと品詞を表す情報であって、
前記代替単語検索部は、前記固有名詞辞書に格納された単語の一部のテキスト表記を、前記代替情報が表すテキスト表記の一部で代替した単語であって、前記入力テキストに部分一致する単語を検索して単語候補とする、付記１に記載の読み生成装置。

（付記３）
固有名詞単語のテキスト表記および読みと品詞とを対応づけて登録した固有名詞辞書と、
前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、
固有名詞単語の一部の読みと代替文字とが対応づけて格納された部分文字列辞書と、
固有名詞部分を予め定義する固有名詞指定情報を含むテキストを入力する入力部と、
前記固有名詞指定情報に基づいて、入力テキストのうち、固有名詞区間と、その他の一般文字列区間とを設定する、テキスト区間設定部と、
一般文字列区間と設定された区間に対して、前記一般単語辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする一般単語検索部と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記一般単語検索部によって検索された単語候補の中から最適な単語の組み合わせを特定する一般単語特定部と、
固有名詞区間と設定された区間に対して前記固有名詞辞書および前記部分文字列辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする固有名詞単語検索部と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記固有名詞単語検索部によって検索された前記単語候補の中から最適な単語の組み合わせを特定する固有名詞単語特定部と、
前記一般単語特定部と前記固有名詞単語特定部によって特定された結果を統合する統合部と、
前記統合部により統合された単語の読みに基づいて、前記入力テキストに相当する読み情報を生成する読み生成部とを備える、読み生成装置。

（付記４）
前記固有名詞単語特定部は、前記固有名詞区間に、前記固有名詞辞書から検索された単語候補のいずれにも一致しない部分がある場合、前記部分文字列辞書から検索された、前記部分に一致する単語候補を、最適な単語の組み合わせに含める、付記３に記載の読み生成装置。

（付記５）
複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、
前記データ入力部が入力したデータの集合に含まれる前記固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、
前記辞書生成部は、前記データ入力部が入力したデータの集合に含まれる固有名詞単語と読みが同じ固有名詞単語が、既に前記固有名詞辞書に登録されている場合、既に登録されている既存の固有名詞単語と異なる部分のテキスト表記と、当該テキスト表記に対応する読みと品詞を、固有名詞単語の一部を構成するテキスト表記および読みと品詞として、代替辞書に登録する、付記１または２に記載の読み生成装置。

（付記６）
前記固有名詞辞書は、氏名用の氏名固有名詞辞書と地名用の地名固有名詞辞書を含み、
前記単語検索部は、前記一般単語辞書および前記氏名固有名詞辞書と前記地名固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とし、
前記代替単語検索部は、前記一般単語辞書または前記氏名固有名詞辞書または前記地名固有名詞辞書から検索された部分一致する単語の一致しない一部を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに含まれる単語に一致する単語を検索する、付記１、２および５のいずれか１項に記載の読み生成装置。

（付記７）
複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、
前記データ入力部が入力したデータの集合に含まれる固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、
前記辞書生成部は、さらに、前記データ入力部が入力したデータの集合に含まれる固有名詞単語の一部を構成するテキスト表記と当該テキスト表記に対応する読みを、部分文字列辞書に登録する、付記３または４に記載の読み生成装置。

（付記８）
前記代替辞書または前記部分文字列辞書と、前記固有名詞辞書と、前記一般単語辞書とにおいては、読みを表す情報に加えて、当該読みのアクセント情報も登録され、
前記読み生成部は、前記アクセント情報を用いて、前記入力テキストに相当する読みのアクセントを表す情報も生成する、付記１〜７のいずれか１項に記載の読み生成装置。

（付記９）
固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書とにアクセス可能なコンピュータに処理を実行させる読み生成プログラムであって、
テキストを入力する入力処理と、
前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索処理と、
前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索処理と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索処理および前記代替単語検索処理によって検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定処理と、
前記単語特定処理によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成処理とをコンピュータに実行させる読み生成プログラム。

（付記１０）
固有名詞単語のテキスト表記および読みと品詞とを対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、固有名詞単語の一部の読みと代替文字とが対応づけて格納された部分文字列辞書とにアクセス可能なコンピュータに処理を実行させる読み生成プログラムであって、
固有名詞部分を予め定義する固有名詞指定情報を含むテキストを入力する入力処理と、
前記固有名詞指定情報に基づいて、入力テキストのうち、固有名詞区間と、その他の一般文字列区間とを設定する、テキスト区間設定処理と、
一般文字列区間と設定された区間に対して、前記一般単語辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする一般単語検索処理と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記一般単語検索処理によって検索された単語候補の中から最適な単語の組み合わせを特定する一般単語特定処理と、
固有名詞区間と設定された区間に対して前記固有名詞辞書および前記部分文字列辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする固有名詞単語検索処理と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記固有名詞単語検索処理によって検索された前記単語候補の中から最適な単語の組み合わせを特定する固有名詞単語特定処理と、
前記一般単語特定処理と前記固有名詞単語特定処理によって特定された結果を統合する統合処理と、
前記統合処理により統合された単語の読みに基づいて、前記入力テキストに相当する読み情報を生成する読み生成処理とをコンピュータに実行させる、読み生成プログラム。

（付記１１）
固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書とにアクセス可能なコンピュータが実行する読み生成方法であって、
テキストを入力する入力工程と、
前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索工程と、
前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索工程と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索工程および前記代替単語検索工程で検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定工程と、
前記単語特定工程によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成工程とを含む読み生成方法。

（付記１２）
固有名詞単語のテキスト表記および読みと品詞とを対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、固有名詞単語の一部の読みと代替文字とが対応づけて格納された部分文字列辞書とにアクセス可能なコンピュータが実行する読み生成方法であって、
固有名詞部分を予め定義する固有名詞指定情報を含むテキストを入力する入力工程と、
前記固有名詞指定情報に基づいて、入力テキストのうち、固有名詞区間と、その他の一般文字列区間とを設定する、テキスト区間設定工程と、
一般文字列区間と設定された区間に対して、前記一般単語辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする一般単語検索工程と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記一般単語検索工程で検索された単語候補の中から最適な単語の組み合わせを特定する一般単語特定工程と、
固有名詞区間と設定された区間に対して前記固有名詞辞書および前記部分文字列辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする固有名詞単語検索工程と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記固有名詞単語検索工程によって検索された前記単語候補の中から最適な単語の組み合わせを特定する固有名詞単語特定工程と、
前記一般単語特定工程と前記固有名詞単語特定工程で特定された結果を統合する統合工程と、
前記統合工程により統合された単語の読みに基づいて、前記入力テキストに相当する読み情報を生成する読み生成工程とを含む、読み生成方法。

１入力部
２単語検索部
３代替単語検索部
４単語特定部
５読みアクセント生成部
６出力部
７ａ、７ｂデータ入力部
８ａ、８ｂ辞書生成部
１０、１０ａ読み生成装置
１１テキスト区間設定部
１２一般単語検索部
１３地名単語検索部
１４氏名単語検索部
１５一般単語特定部
１６地名単語特定部
１７氏名単語特定部
１８統合部
１９ａ、１９ｂ辞書生成部
１０１単語辞書
１０２一般単語辞書
１０３地名単語辞書
１０４氏名単語辞書
１０５一文字辞書
１０９単語接続評価値テーブル
２０１地名代替辞書
２０１代替辞書
２０１ａ地名部分文字列辞書
２０２氏名代替辞書
２０２ａ氏名部分文字列辞書
４０２地名データリスト
４０３氏名データリスト

Claims

固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、
前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、
前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書と、
テキストを入力する入力部と、
前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索部と、
前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索部と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索部および前記代替単語検索部によって検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定部と、
前記単語特定部によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成部とを備える、読み生成装置。
前記代替情報は、固有名詞単語の一部と代替可能なテキスト表記と、当該テキスト表記の読みと品詞を表す情報であって、
前記代替単語検索部は、前記固有名詞辞書に格納された単語の一部のテキスト表記を、前記代替情報が表すテキスト表記の一部で代替した単語であって、前記入力テキストに部分一致する単語を検索して単語候補とする、請求項１に記載の読み生成装置。
固有名詞単語のテキスト表記および読みと品詞とを対応づけて登録した固有名詞辞書と、
前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、
固有名詞単語の一部の読みと代替文字とが対応づけて格納された部分文字列辞書と、
固有名詞部分を予め定義する固有名詞指定情報を含むテキストを入力する入力部と、
前記固有名詞指定情報に基づいて、入力テキストのうち、固有名詞区間と、その他の一般文字列区間とを設定する、テキスト区間設定部と、
一般文字列区間と設定された区間に対して、前記一般単語辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする一般単語検索部と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記一般単語検索部によって検索された単語候補の中から最適な単語の組み合わせを特定する一般単語特定部と、
固有名詞区間と設定された区間に対して前記固有名詞辞書および前記部分文字列辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする固有名詞単語検索部と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記固有名詞単語検索部によって検索された前記単語候補の中から最適な単語の組み合わせを特定する固有名詞単語特定部と、
前記一般単語特定部と前記固有名詞単語特定部によって特定された結果を統合する統合部と、
前記統合部により統合された単語の読みに基づいて、前記入力テキストに相当する読み情報を生成する読み生成部とを備える、読み生成装置。
前記固有名詞単語特定部は、前記固有名詞区間に、前記固有名詞辞書から検索された単語候補のいずれにも一致しない部分がある場合、前記部分文字列辞書から検索された、前記部分に一致する単語候補を、最適な単語の組み合わせに含める、請求項３に記載の読み生成装置。
複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、
前記データ入力部が入力したデータの集合に含まれる前記固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、
前記辞書生成部は、前記データ入力部が入力したデータの集合に含まれる固有名詞単語と読みが同じ固有名詞単語が、既に前記固有名詞辞書に登録されている場合、既に登録されている既存の固有名詞単語と異なる部分のテキスト表記と、当該テキスト表記に対応する読みと品詞を、固有名詞単語の一部を構成するテキスト表記および読みと品詞として、代替辞書に登録する、請求項１または２に記載の読み生成装置。
前記固有名詞辞書は、氏名用の氏名固有名詞辞書と地名用の地名固有名詞辞書を含み、
前記単語検索部は、前記一般単語辞書および前記氏名固有名詞辞書と前記地名固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とし、
前記代替単語検索部は、前記一般単語辞書または前記氏名固有名詞辞書または前記地名固有名詞辞書から検索された部分一致する単語の一致しない一部を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに含まれる単語に一致する単語を検索する、請求項１、２および５のいずれか１項に記載の読み生成装置。
複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、
前記データ入力部が入力したデータの集合に含まれる固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、
前記辞書生成部は、さらに、前記データ入力部が入力したデータの集合に含まれる固有名詞単語の一部を構成するテキスト表記と当該テキスト表記に対応する読みを、部分文字列辞書に登録する、請求項３または４に記載の読み生成装置。
前記代替辞書または前記部分文字列辞書と、前記固有名詞辞書と、前記一般単語辞書とにおいては、読みを表す情報に加えて、当該読みのアクセント情報も登録され、
前記読み生成部は、前記アクセント情報を用いて、前記入力テキストに相当する読みのアクセントを表す情報も生成する、請求項１〜７のいずれか１項に記載の読み生成装置。