JP5252209B2 - 読み生成装置 - Google Patents

読み生成装置 Download PDF

Info

Publication number
JP5252209B2
JP5252209B2 JP2009020406A JP2009020406A JP5252209B2 JP 5252209 B2 JP5252209 B2 JP 5252209B2 JP 2009020406 A JP2009020406 A JP 2009020406A JP 2009020406 A JP2009020406 A JP 2009020406A JP 5252209 B2 JP5252209 B2 JP 5252209B2
Authority
JP
Japan
Prior art keywords
word
dictionary
proper noun
reading
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009020406A
Other languages
English (en)
Other versions
JP2010176539A (ja
Inventor
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009020406A priority Critical patent/JP5252209B2/ja
Publication of JP2010176539A publication Critical patent/JP2010176539A/ja
Application granted granted Critical
Publication of JP5252209B2 publication Critical patent/JP5252209B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、音声合成技術における読み生成装置、並びに読み生成に用いることができる辞書を作成する辞書作成装置に関する。
現在、音声自動応答装置(IVR)、カーナビゲーションシステム、GPS装置などにテキスト音声合成技術が適用されている。テキスト音声合成技術には、漢字かな混じりのテキストを音声に変換する技術が含まれる。例えば、IVRにおいては、応答メッセージ、ユーザのキー入力や音声入力の確認音声などに、カーナビゲーションやGPS装置においては、案内音声や地図名称の読み上げ等にテキスト音声合成技術が用いられる。テキスト、特に、氏名や地名などの固有名詞を正しい読みで読み上げることは、情報を正確にユーザに伝えるために重要であり、これまでの技術開発によって読みの精度は向上している(例えば、特許文献1〜5参照)。
特開平6−259469号公報 特開平5―233686号公報 特開平11−85761号公報 特開2004−265440号公報 特開2004−326461号公報
しかしながら、多様な日本語をまったく誤りなく読み上げるまでには至っていない。特に、氏名や地名などの固有名詞には読み誤りが少なくない。
ゆえに、本発明は、地名や氏名等の固有名詞における多様な表記の違いの影響を回避して、読み情報の生成における誤りを軽減し、読み情報の精度を向上させることを目的とする。
本願開示の読み生成装置は、固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書と、テキストを入力する入力部と、前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索部と、前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索部と、予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索部および前記代替単語検索部によって検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定部と、前記単語特定部によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成部とを備える。
上記構成では、一般単語辞書および固有名詞辞書から、入力テキストに部分一致する単語が検索されるのに加えて、さらに、固有名詞辞書の単語の一部を代替情報によって代替した場合に入力テキストの一部に一致する単語も検索される。そのため、固有名詞辞書の単語の一部を代替した単語も検索対象となる。これにより、固有名詞辞書にない固有名詞が入力テキストに含まれている場合にも、固有名詞辞書の一部を代替したものが入力テキスト中の固有名詞に該当すれば、固有名詞の単語を正しく特定することができる。すなわち、単語の特定の誤りを回避することができる。ひいては、地名や氏名等の固有名詞における多様な表記の違いの影響を回避して、形態素解析の誤りを軽減し、読み情報の精度を向上することができる。
本願開示によれば、地名や氏名等の固有名詞における多様な表記の違いの影響を回避して、読み情報の生成における誤りを軽減し、読み情報の精度を向上させることができる。
第1の実施形態に係る読み生成装置の構成を示す機能ブロック図 氏名単語辞書に登録されるデータの例を示す図 氏名代替辞書に登録されるデータの例を示す図 第1の実施形態における読み生成装置の動作例を示すフローチャート 入力テキストの一例を示す図 単語候補の一例を示す図 単語特定部が出力する形態素解析結果の例を示す図 読みアクセント生成部が生成した、読みアクセント情報の例を示す図 第2の実施形態に係る辞書作成装置の構成を示す機能ブロック図 第2の実施形態に係る辞書作成装置の構成を示す機能ブロック図 辞書作成装置による辞書作成処理の一例を示すフローチャート 氏名データリストのデータ内容の一例を示す図 辞書生成部によって単語が登録された場合の氏名単語辞書の一例を示す図 辞書生成部によって単語が登録された場合の氏名代替辞書の一例を示す図 第3の実施形態に係る読み生成装置の構成を示す機能ブロック図 氏名単語辞書のデータ内容の一例を示す図 氏名部分文字列辞書のデータ内容の一例を示す図 入力テキストの一例を示す図 テキスト区間設定部による区間設定の一例を示す図 氏名文字列区間および一般文字列区間における単語候補の例を示す図 地名単語辞書のデータ内容の一例を示す図 地名部分文字列辞書のデータ内容の一例を示す図 入力テキストの一例を示す図 テキスト区間設定部による区間設定の一例を示す図 地名文字列区間および一般文字列区間における単語候補の例を示す図 第4の実施形態に係る辞書作成装置の構成を示す機能ブロック図 第4の実施形態に係る辞書作成装置の構成を示す機能ブロック図
本発明の1つの実施形態にかかる読み生成装置は、固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書と、テキストを入力する入力部と、前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索部と、前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索部と、予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索部および前記代替単語検索部によって検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定部と、前記単語特定部によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成部とを備える。
前記代替情報は、固有名詞単語の一部と代替可能なテキスト表記と、当該テキスト表記の読みと品詞を表す情報であって、前記代替単語検索部は、前記固有名詞辞書に格納された単語の一部のテキスト表記を、前記代替情報が表すテキスト表記の一部で代替した単語であって、前記入力テキストに部分一致する単語を検索して単語候補とすることができる。これにより、代替情報に基づいて、固有名詞辞書の固有名詞単語を代替することが可能になる。
本発明の他の実施形態にかかる読み生成装置は、固有名詞単語のテキスト表記および読みと品詞とを対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、固有名詞単語の一部の読みと代替文字とが対応づけて格納された部分文字列辞書と、固有名詞部分を予め定義する固有名詞指定情報を含むテキストを入力する入力部と、前記固有名詞指定情報に基づいて、入力テキストのうち、固有名詞区間と、その他の一般文字列区間とを設定する、テキスト区間設定部と、一般文字列区間と設定された区間に対して、前記一般単語辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする一般単語検索部と、予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記一般単語検索部によって検索された単語候補の中から最適な単語の組み合わせを特定する一般単語特定部と、固有名詞区間と設定された区間に対して前記固有名詞辞書および前記部分文字列辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする固有名詞単語検索部と、予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記固有名詞単語検索部によって検索された前記単語候補の中から最適な単語の組み合わせを特定する固有名詞単語特定部と、前記一般単語特定部と前記固有名詞単語特定部によって特定された結果を統合する統合部と、前記統合部により統合された単語の読みに基づいて、前記入力テキストに相当する読み情報を生成する読み生成部とを備える。
上記構成では、入力テキストの一般文字列区間については、一般単語辞書から単語候補が検索され、単語候補の中から最適な単語の組み合わせが特定される。入力テキストの固有名詞区間については、固有名詞辞書および部分文字列辞書から、単語候補が検索され、単語候補の中から最適な単語の組み合わせが特定される。このように、固有名詞区間については、固有名詞辞書に加えて、固有名詞単語の一部を構成する代替文字および読みを格納した部分文字列辞書も検索対象となる。すなわち、固有名詞辞書に格納されていない文字の組み合わせからなる固有名詞も検索対象になる。その結果、固有名詞辞書にない固有名詞が入力テキストに含まれている場合にも、単語の特定の誤りを回避しやすくなる。ひいては、地名や氏名等の固有名詞における多様な表記の違いの影響を回避して、形態素解析の誤りを軽減し、読み情報の精度を向上することができる。
前記固有名詞単語特定部は、前記固有名詞区間に、前記固有名詞辞書から検索された単語候補のいずれにも一致しない部分がある場合、前記部分文字列辞書から検索された、前記部分に一致する単語候補を、最適な単語の組み合わせに含めることができる。
この構成により、固有名詞区間のテキストが、固有名詞辞書に格納された単語では網羅されていない場合でも、部分文字列辞書に登録された、固有名詞単語の一部を構成するテキスト表記により網羅される場合がある。そのため、固有名詞辞書にない固有名詞の単語特定の誤り回避を、部分文字列辞書を用いることにより、効率よく行うことができる。
上記1つの実施形態または他の実施形態において、前記代替辞書または前記部分文字列辞書と、前記固有名詞辞書と、前記一般単語辞書とにおいては、読みを表す情報に加えて、当該読みのアクセント情報も登録され、前記読み生成部は、前記アクセント情報を用いて、前記入力テキストに相当する読みのアクセントを表す情報も生成する態様であってもよい。上記構成により、入力テキストの読みおよびアクセントを示す情報を生成することができる。
上記1つの実施形態において、読み生成装置は、複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、前記データ入力部が入力したデータの集合に含まれる前記固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、前記辞書生成部は、前記データ入力部が入力したデータの集合に含まれる固有名詞単語と読みが同じ固有名詞単語が、既に前記固有名詞辞書に登録されている場合、既に登録されている既存の固有名詞単語と異なる部分のテキスト表記と、当該テキスト表記に対応する読みと品詞を、固有名詞単語の一部を構成するテキスト表記および読みと品詞として、代替辞書に登録する態様とすることができる。
上記構成により、既に固有名詞辞書に登録されている既存固有名詞単語と同じ読みの固有名詞単語については、表記の異なる部分のテキスト表記とその読みと品詞が、代替情報として代替辞書に登録される。そのため、固有名詞辞書に格納された固有名詞単語の一部を異なるテキスト表記で代替した固有名詞単語は、代替辞書により網羅される。また、代替辞書には、異なる部分のテキスト表記のみが登録されるので、より小さなデータサイズで、多様な固有名詞が網羅される。その結果、全体として辞書サイズを抑えながらも、多様な固有名詞を網羅した辞書を作成することができる。
上記他の実施形態において、読み生成装置は、複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、前記データ入力部が入力したデータの集合に含まれる固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、前記辞書生成部は、さらに、前記データ入力部が入力したデータの集合に含まれる固有名詞単語の一部を構成するテキスト表記と当該テキスト表記に対応する読みを、部分文字列辞書に登録する態様とすることができる。
上記構成により、固有名詞辞書に固有名詞単語が登録されるとともに、その固有名詞単語の一部を構成するテキスト表記(代替文字)およびその読みと品詞が、部分文字列辞書に登録される。そのため、固有名詞辞書および部分文字列辞書により、固有名詞単語のみならず、固有名詞単語の一部のテキスト表記を含む多様な固有名詞も網羅される。そのため、全体として辞書サイズを抑えながらも、多様な固有名詞を網羅した辞書を作成することができる。
コンピュータを、本願に開示の読み生成装置または辞書作成装置として機能させる読み生成プログラムまたは辞書作成プログラム、およびそれらを記録した記録媒体も、本発明の実施形態に含まれる。また、コンピュータが、本願に開示の読み生成装置または辞書作成装置として機能するために実行する読み生成方法または辞書作成方法も、本発明の実施形態の一つである。
(第1の実施形態)
[装置の構成]
第1の実施形態は、音声合成エンジンにおける読み生成装置に関する。図1は、第1の実施形態に係る読み生成装置の構成を示す機能ブロック図である。図1に示す読み生成装置10は、テキストを入力し、そのテキストの読みアクセント情報を出力するシステムである。
読み生成装置10は、入力部1、形態素解析部、読みアクセント生成部5、出力部6を備える。形態素解析部は、入力部1が入力したテキストを、単語辞書を用いて形態素(本実施形態では、一例として、形態素と単語を同義とする)に分割する機能を有する。すなわち、形態素解析部は、入力されたテキストを構成する単語を特定する。読みアクセント生成部5は、形態素解析により特定された単語の読みとアクセントを連結して入力テキストの読みアクセント情報を生成する。出力部6は、この読みアクセント情報を出力する。形態素解析部は、単語検索部2、代替単語検索部3、単語特定部4、形態素解析用の単語辞書101、地名代替辞書201、氏名代替辞書202および単語接続評価値テーブル109を備える。
読み生成装置10は、例えば、パーソナルコンピュータやサーバマシン等の汎用コンピュータに所定のプログラムをインストールすることによって実現することができる。また、汎用コンピュータに限らず、例えば、車載情報端末、携帯電話、PDA(Personal Digital Assistant)、家電製品等の電子機器に組み込まれたコンピュータによって読み生成装置10が形成されてもよい。あるいは、コンピュータを内蔵した専用機器で読み生成装置10を含む音声合成エンジンが形成されてもよい。
入力部1、単語検索部2、代替単語検索部3、単語特定部4、読みアクセント生成部5および出力部6の各機能は、CPU等のプロセッサが所定のプログラムを実行することによって実現される。したがって、上記の各機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も本発明の一実施態様である。また、単語辞書101、地名代替辞書201、氏名代替辞書202および単語接続評価値テーブル109は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
なお、読み生成装置10の構成は、図1に示す例に限られない。例えば、単語辞書101、地名代替辞書201、氏名代替辞書202および単語接続評価値テーブル109のうち、少なくとも1つは、読み生成装置10の外部に設けられた記憶媒体で実現されてもよい。以下、各機能部について詳細に説明する。
入力部1は、読み生成装置10の外部からテキストを入力して、読み生成装置10で処理可能な状態にする。例えば、入力部1は、上位アプリケーションからテキストを受け取ってもよいし、キーボード等の入力デバイスを介してユーザからテキストデータの入力を受け付けてもよいし、所定のファイルからテキストを読み込んでもよいし、あるいは、ネットワークを介してテキストデータを受信してもよい。なお、本実施形態では、一例として、入力部1が、漢字かな混じりのテキストを受け付ける場合について説明する。
形態素解析部の単語辞書101は、一般単語辞書102、地名単語辞書103、氏名単語辞書104および一文字辞書105を含む。一般単語辞書102には、普通名詞や動詞、助詞、助動詞などの一般的に使われる単語のテキストの表記(一般的に文書で用いられる、漢字、ひらがな、カタカナ、アルファベット、記号などの文字からなる表記(文字列))、読みおよび品詞が登録されている。ここで、品詞は、日本語文法上の品詞の他に、例えば、単語が何に使われるのかを表す情報や、単語の属性等も含まれる。
地名単語辞書103および氏名単語辞書104は、固有名詞の単語辞書の一例である。地名単語辞書103には住所などに含まれる地名の表記と読みが登録されている。住所、駅、交差点、道路、川や山などの名称などの属性(品詞の一例)とともに登録される場合もある。氏名単語辞書104には、氏名の表記と読みが登録されている。当該単語が姓であるか名であるかの属性(品詞の一例)も合わせて登録することがある。
一文字辞書105には、入力され得る全ての文字種類について、各1文字を1単語とする単語が登録されている。この一文字辞書105は、上記の一般単語辞書102、地名単語辞書103および氏名単語辞書104のいずれの単語辞書を用いても適切な単語に割り当てることができない文字を、未知語という品詞に割り当てるために用いられる。
なお、単語辞書の構成は、上記例に限られない。以上に挙げた各種の単語辞書のうち2以上をひとつの単語辞書にまとめ、品詞や属性によって単語辞書における各単語の性質(一般、地名、氏名)を区別して用いることもできる。
地名代替辞書201には、地名単語辞書103に登録されている単語の表記の一部分を代替するための地名代替情報が格納されている。氏名代替辞書202には、氏名単語辞書104に登録されている単語の表記の一部分を代替するための氏名代替情報が格納されている。地名代替情報および氏名代替情報は、代替情報の一例である。これらの代替情報は、単語辞書101に記録された固有名詞単語の一部分を代替することができる文字列(テキスト表記)を含むことができる。例えば、地名単語辞書103または氏名単語辞書104に登録された単語の一部の文字列と読みが同じで表記が異なる文字列が、その読みおよびアクセントとともに、代替情報として、地名代替辞書201または氏名代替辞書202に登録される。
テキストが入力部1に入力されると、単語検索部2は単語辞書101を検索して、表記が入力テキストに部分一致する単語をすべて抽出する。代替単語検索部3は、地名単語辞書103の単語の表記の一部分を地名代替辞書201に基づいて代替したときに入力テキストと部分一致する場合に、その代替した単語を入力テキストの中の一部に一致する単語として抽出する。同様に、代替単語検索部3は、氏名単語辞書104の単語の表記の一部分を氏名代替辞書202に基づいて代替したときに入力テキストと部分一致する場合に、その代替した単語を入力テキストに部分一致する単語として抽出する。
単語特定部4は、単語検索部2によって検索された単語と、代替単語検索部3によって検索された単語を合わせて単語候補とし、単語接続評価値テーブル109に記録された評価データを用いて、入力テキストを構成する単語の組み合わせとして最適なものを特定する。
そのため、単語接続評価値テーブル109は、連接する単語の組み合わせの繋がり易さを示す評価データを記録する。評価データの例として、単語の接続の仕方(接続パターン)に対する評価値が挙げられる。評価値の例として、複数の単語列における品詞の繋がりの程度や、品詞の優先度を表す値が挙げられる。本実施形態では、一例として、連接する2単語の品詞の組み合わせについて、繋がり易さを示す接続評価値が単語接続評価値テーブル109に記録されている。
単語特定部4は、この評価値を適用して尤もらしい単語の組み合わせを求め、形態素解析結果とする。なお、単語特定部4による尤もらしい単語の組み合わせの特定は、上記のような、単語の並び方の評価値を記録したテーブルを用いる例に限られない。例えば、単語列の品詞を入力すると評価値を返す関数を用いて評価値を求めることもできる。
図2Aおよび図2Bは、それぞれ、氏名単語辞書104および氏名代替辞書202に登録されるデータの例を示す図である。図2Aに示す例では、氏名単語辞書104には、氏名の表記、読みアクセントおよび単語を構成する各漢字と読みの対応、品詞(姓または名)が格納されている。また、図2Bに例示する氏名代替辞書202には、氏名単語の一部分を代替するための情報が格納されている。すなわち、氏名単語辞書104に登録されている単語の一部の文字に対して、代替可能な文字(代替文字)の表記、読みおよび品詞が記録されている。
例えば、図2Aに示す氏名単語辞書104に登録されている単語のうち、品詞=「名」である単語「敏仁」の一部分に、「トシ」という読みで「敏」という表記が使われている。図2Bに示す氏名代替辞書には、この単語「敏仁」の一部分「敏」は、「年」、「利」または「俊」に代替可能であることを示すデータが記録されている。また、このデータによれば、もし、氏名単語辞書104に、品詞が「名」であり、表記(漢字)が「年」、読みが「トシ」である漢字を含む単語があれば、この漢字「年」を、「敏」、「利」または「俊」に代替することも可能である。同様に、図2Bに例示する氏名代替辞書202のデータは、品詞が「名」であり「ヒト」という読みを持つ漢字に関して、「人」と「仁」は相互に代替が可能であることも示している。
つまり、氏名単語辞書104に登録された単語「敏仁」は、氏名代替辞書202により、「敏仁」「年仁」「利仁」「俊仁」「敏人」「年人」「利人」「俊人」の8種類の表記に代替できる。すなわち、氏名単語辞書104に「敏仁」という登録があれば、上記8種類の表記に対応できることになる。同様に、氏名単語辞書104に登録されている「西田」という姓に関しても、氏名代替辞書202に、「西」と「仁志」、「田」と「多」という登録があるので、「西田」「西多」「仁志田」「仁志多」という4種類の表記に対応できる。このように、単語特定部4は、入力テキスト含まれるが、一般単語辞書にも固有名詞辞書にも含まれない単語の組み合わせを特定することが可能である。
[読み生成装置の動作例]
図3は、本実施形態における読み生成装置の動作例を示すフローチャートである。入力部1にテキストが入力されると、入力テキストはテキストバッファに格納される(S301)。通常、形態素解析では、入力テキストはある程度の長さに分割して処理される。ここでは一例として、1文章ごとに処理をするものとする。S302において、単語検索部2は、テキストバッファから解析対象の1文を読み込む。単語検索部2は、例えば、テキストバッファに格納された入力テキストを先頭から一文字ずつチェックしてゆき、「。」「?」「!」などの文末を示す文字が出現するまでのテキストを1文章であると判断することができる。
ここでは、一例として、解析対象の1文章となるテキストが、図4Aに示すように、「佐藤敏人です。」である場合について説明する。単語検索部2は、氏名単語辞書104、一般単語辞書102、地名単語辞書103および一文字辞書105を検索し、解析対象のテキスト(解析文)の一部に一致(部分一致)する単語をすべて抽出して候補とする(S303)。
代替単語検索部3は、地名代替辞書201を参照し、地名単語辞書103の各単語に含まれる文字を代替したときに、解析文に部分一致する単語をすべて抽出して候補とする(S304)。同様に、代替単語検索部3は、氏名代替辞書202を参照し、氏名単語辞書104の各単語に含まれる文字を代替したときに、解析文に部分一致する単語をすべて抽出して候補とする(S305)。
なお、代替単語検索部3は、単語辞書のうち一部の単語を所定の基準で選択し、選択した単語の一部分を代替することもできる。例えば、解析テキストに含まれる漢字「佐」「藤」「敏」「人」を氏名代替辞書202で検索して、それぞれを代替できる文字を獲得し、それらの文字を含む単語を氏名単語辞書104から選抜して、もとの漢字(「佐」「藤」「敏」「人」など)に変換したのちに解析テキストと照合することにより、解析に有用な単語を選んで、効率よく代替処理および検索処理をすることができる。
あるいは、代替単語検索部3は、一般単語辞書102または固有名詞辞書(地名単語辞書103、氏名単語辞書104)から検索された入力テキストに部分一致する単語の一致しない一部を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補としてもよい。このように、一般名詞辞書または固有名詞辞書の単語と入力テキストとの一致部分に基づいて、代替する部分を決定することができる。これにより、解析に有用な単語を選んで、効率よく代替処理および検索処理をすることができる。
解析文「佐藤敏人です。」に対して、S303〜S305で得られた単語の候補の一例を、図4Bに示す。実際にはさらに多くの単語が検索され得るが、図4Bでは簡便のために主だった単語のみ表示している。図4Bでは、同じ辞書から検索された単語が点線で囲まれている。また、各単語には、その表記、読みアクセント、品詞が示されている。読みはカタカナで表現されており、アクセントのある位置が「’」で示されている。読みアクセントの表記方法はこれに限られず、装置に依存する場合が多い。また、品詞分類の方法も装置に依存する場合が多く、ここではその一例が示されている。
例えば、氏名単語辞書104から「佐藤」「敏」が検索され、一般単語辞書102から「藤」「人」「で」「す」「です」などが検索されている。また、一文字辞書105からは「佐」「藤」「敏」「人」…「す」の各一文字の登録が未知語として検索される。さらに、氏名単語辞書104に登録されている単語「敏仁」に対し、氏名代替辞書202に従って、「仁」を「人」に代替した「敏人」という単語候補が抽出されている。
単語特定部4では、単語接続評価値テーブル109を用いて、単語候補の中から入力テキストを構成する単語の組み合わせとして最適なものを特定し(S306)、解析結果として解析結果用のバッファに格納する(S307)。
単語接続評価値テーブル109には、連接する2単語の品詞の組み合わせについて、繋がり易さを示す接続評価値が設定されている。例えば、品詞「姓」と品詞「名」は繋がる可能性が高いので接続評価値は高く設定される。単語特定部4は、これに基づいて、品詞「姓」の単語「佐藤」と、品詞「名」の単語「敏」はつながりやすい単語の組み合わせと判断することができる。一方、動詞語幹の後には、通常、動詞活用語尾が続く可能性は高いのに対して、品詞「動詞語幹」と品詞「句点」が繋がる可能性は低い。そのため、品詞「動詞語幹」と品詞「句点」との接続評価値は低く設定される。これに基づいて、単語特定部4は、品詞「動詞語幹」の単語「す」と、品詞「句点」の単語「。」はつながりにくいと判断することができる。また、単語特定部4は、一文字辞書から検索される「未知語」は他の単語よりも採用する評価値を低くしたり、より長い単語を優先するために、単語の文字数に応じた加点を行ったりして、入力テキストを構成する最適な単語の組みあわせを決定することができる。
図4Cは、単語特定部4が出力する、テキスト「佐藤敏人です。」の形態素解析結果の例である。図4Cに示す例では、単語特定部4が最適と決定した単語の組み合わせは、太線で示され、かつ直線で連結されている。すなわち、「佐藤(姓)」「敏人(名)」「です(助動詞)」という単語の組み合わせの評価値が最も高く、最適と決定されている。
読みアクセント生成部5は、S307で解析結果用のバッファに格納されたデータで示される各単語の読みを連結し、各単語のアクセントとアクセント結合規則によってアクセントを設定することで、読みアクセント情報を生成する。図4Dは、読みアクセント生成部5が生成した、解析文「佐藤敏人です。」に相当する正しい読みアクセント情報の例を示す図である。図4Dに示す例では、「サ’トー トシ’ヒトデス.」となっている。
出力部6は、このようして生成された読みアクセント情報を出力する(S308)。次に、読み生成装置10は、テキストバッファ内の全データについて処理完了であると判断すると(S309でYes)、処理を終了し、未処理のテキストが残っていると判断すれば(S309でNo)、S302に戻って、テキストバッファ内の次の文章に対してS302〜S308の処理が繰り返される。
ここで、もしも、代替単語検索部3による氏名代替辞書202を用いた代替単語の検索がなかった場合、図4Bにおける単語「敏人」は、単語候補として抽出されないことになる。その結果、単語特定部4で決定される最適な単語の組み合わせは、図4Cに示すようにはならない。例えば、「佐藤(サ’トー)(姓)」「敏(サ’トシ)(名)」「人(ニン)(接尾語)」「です(デス)(助動詞)」という単語の組み合わせが最適と決定され、誤った読みアクセント情報「サ’トー サトシニンデ’ス.」が出力されてしまう。この「敏(サ’トシ)(名)」「人(ニン)(接尾語)」という誤り部分は、「敏人」という名前が氏名単語辞書に登録されていないために生じる解析誤りである。「敏人」の部分に形態素解析の誤りがあったために、その部分の読みが不適切になっている。
このような形態素解析誤り、ひいては読みアクセント情報の誤りを軽減するためには、地名や氏名などの固有名詞を地名単語辞書や氏名単語辞書に多数登録しておくことが考えられる。しかし、地名や氏名には非常にたくさんの表記があり、全てを辞書に登録しておくことが難しい。例えば、「としひと」という読みであれば、少なくとも、「敏人、敏仁、俊人、敏仁、利人、利仁、年人、年仁」の8種類の表記が挙げられる。そのため、日本語のあらゆる氏名や地名などの固有名詞を辞書で網羅しようとすると辞書のサイズが非常に大きくなる。また、年々、様々な新しい名前が考えられるため、これらを追加するメンテナンス作業を継続する必要も生じる。
そこで、本実施形態によれは、辞書のサイズや、辞書のメンテナンス作業の増大を抑えつつも、固有名詞の単語辞書だけでは網羅できない固有名詞にも対応することが可能になる。すなわち、上述のように、代替辞書を用いた代替単語検索部の処理により、単語辞書だけでは網羅できない代替パターンも網羅することができる。例えば、上述のように、氏名単語辞書104で「敏人」という単語が登録されていれば、氏名単語辞書104と氏名代替辞書202とを用いた代替単語の検索を実行することにより、「敏人、敏仁、俊人、敏仁、利人、利仁、年人、年仁」の8種類の表記に対応することが可能になる。
このように、従来は、読みアクセントの精度を向上するためには、地名または氏名を地名単語辞書または氏名単語辞書に多数登録する必要があった。これに対して、本実施形態によれば、同一の「読み」を持つ地名または氏名の表記を1種類だけ地名単語辞書または氏名単語辞書に登録しておき、その単語の一部分を代替して使用するための情報を、地名部分代替辞書、氏名部分代替辞書に登録することによって、対応できる固有名詞を増やしながらも、各種辞書のサイズ増大を効率的に抑えることができる。
(第2の実施形態)
第2の実施形態は、上記第1の実施形態における地名単語辞書103、氏名単語辞書104、地名代替辞書201および氏名代替辞書202を作成するための辞書作成装置に関する。図5Aおよび図5Bは、第2の実施形態に係る辞書作成装置の構成を示す機能ブロック図である。図5Aは、地名単語辞書103および地名代替辞書201の辞書作成装置、図5Bは、氏名単語辞書104および氏名代替辞書202の辞書作成装置の構成を示している。
図5Aおよび図5Bに示す辞書作成装置は、データ入力部7a、7bおよび辞書生成部
8a、8bを備える。データ入力部7aは、地名データリスト402から、地名単語の表記および読みを表すデータを読み込んで、辞書生成部8aで使用可能な状態にする。データ入力部7bは、氏名データリスト403から、氏名単語の表記および読みを表すデータを読み込んで、辞書生成部8bで使用可能な状態にする。
地名データリスト402および氏名データリスト403は、単語辞書および代替辞書の元となる情報を含むデータである。これらのデータリストは、例えば、複数の固有名詞単語のテキスト表記および読みを表すデータの集合である。
辞書生成部8aは、データ入力部7aが入力した地名データリスト402に基づいて、地名単語辞書103と地名代替辞書201を作成する。辞書生成部8bは、氏名データリスト403の入力に基づいて、氏名単語辞書104と氏名代替辞書202を作成する。辞書生成部8a、8bは、地名データリスト402または氏名データリスト403に含まれる地名または氏名の表記、読みアクセントおよび漢字に対応する読みを地名単語辞書103または氏名単語辞書104へ登録する。
また、辞書生成部8a、8bは、登録しようとする固有名詞単語と読みが同じ固有名詞単語が、前記地名単語辞書103または氏名単語辞書104に既に登録されている場合、既に登録されている固有名詞単語と異なる部分のテキスト表記と読みと品詞を、代替文字のテキスト表記および読みとして、地名代替辞書201または氏名代替辞書202に登録する。
図5Aおよび図5Bに示す辞書作成装置は、例えば、上記第1の実施形態における読み生成装置の一部に組み込むことができる。読み生成装置と同じコンピュータに所定のプログラムをインストールすること辞書作成装置の機能を実現することもできるし、読み生成装置とは別に独立したコンピュータで辞書作成装置を実現することもできる。データ入力部7a、7bおよび辞書生成部8a、8bの各機能は、プロセッサが所定のプログラムを実行することによって実現される。上記各機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も本発明の一実施態様である。
[辞書作成装置の動作例]
図6は、辞書作成装置による辞書作成処理の一例を示すフローチャートである。ここでは、一例として、データ入力部7bが、予め用意された、図7Aに例示するような氏名データリスト403を読み込んで、辞書生成部8bが、氏名単語辞書104および氏名代替辞書202にデータを登録する処理について説明する。
図7Aに例示する氏名データリスト403(以下、単にデータリストを称する)においては、品詞が「名」である単語のテキスト表記、読みアクセント、漢字に対応する読みおよび処理済みフラグが、単語ごとに記録されている。処理済みフラグは、各単語の処理が済んだか否かを示すフラグである。
まず、データ入力部7bは、読み込んだデータリストの全データ(各単語)に未処理であることを意味するフラグを付与する(S501)。辞書生成部8bは、データリストの先頭(i=0)の単語を対象として処理を開始すると(S502)、データリストの全データ(総数N)の処理が完了する(S503でNo)まで、以下の処理を繰り返す。
辞書生成部8bは、データリストにおいてi番目の単語(処理対象となる単語:以下、単語iと称する)が処理済みの場合は次の単語を処理対象とする (S504でNo→S509)。単語iが未処理の場合は、単語iを氏名単語辞書104に登録し、単語iを処理済みとする(S504がYes→S505→S506)。
図7Bおよび図7Cは、それぞれ、辞書生成部8bによって、単語が登録された場合の氏名単語辞書104および氏名代替辞書202の一例を示す図である。例えば、単語iが「敏仁」のときには、図7Bに示す氏名代替辞書202のように、「敏仁」の表記「敏仁」、読みアクセント「トシ’ヒト」、漢字読み対応「敏=トシ、仁=ヒト」および品詞「名」が登録される。
次に、辞書生成部8bは、登録した単語iの次にリストされているj番目(j=i+1)の単語(単語jと称する)に注目する(S507)。単語jがリストの末尾を指している場合(S508でNo)、S509に進み、iの単語をひとつ先に進める。
単語jが未処理であり(S510でYes)、単語iと単語jの読みおよびアクセントが同一のとき(S511がYes)のとき、辞書生成部8bは、単語iと単語jの表記が異なる部分を検出し(S512)、さらに、単語iと単語jの表記の異なる部分の読みを検出する(S513)。例えば、単語iが「敏仁」であり、単語jが「敏人」であるとき、表記の異なる部分は「仁」と「人」であり、その読みは「ヒト」である。
辞書生成部8bは、部分代替辞書に、上記の異なる部分のデータが既に登録済みであるか否かを判断する(S514)。すなわち、辞書生成部8bは、それまでの部分代替辞書の登録状況を確認する。登録が無ければ(S514でNo)、辞書生成部8bは、図7Cの1行目に示すように、氏名代替辞書202に、読み「ヒト」、品詞「名」、代替文字「仁、人」のデータを含むレコードを登録する(S515)。単語jの処理済みフラグは「処理済み」にされる(S516)。単語jは、データリストの次の単語に進められる(S517)。辞書生成部8bは、単語jが、データリストの末尾に達するまで(S508でNoと判断されるまで)、上記の処理(S510〜S517)を繰り返す。
例えば、単語iが「敏仁」、単語jが「俊仁」のときに、氏名代替辞書202には、読み「トシ」、品詞「名」、代替文字「敏、俊」が登録される。そして、順次に単語iと単語jが進められる。単語iが「敏夫」、単語jが「俊夫」となった場合、氏名代替辞書202には、すでに、読み「トシ」、代替文字「敏、俊」の登録は存在するので、ここでは氏名代替辞書202に新たな登録はされない。さらに、単語jが進められ、単語iが「敏夫」、単語jが「利夫」となった場合、氏名代替辞書202には、読み「トシ」、代替文字「敏、俊」という登録はあるが、「利」に関しては登録がないので、「利」が追加される。その結果、氏名代替辞書202には、読み「トシ」、代替文字「敏、俊、利」が登録になる。以上のような処理を繰り返すことによって、図7Bおよび図7Cに示すように氏名単語辞書104と氏名代替辞書202が作成される。
(第3の実施形態)
さて、例えば、音声自動応答装置では、あらかじめ用意されたフロー(あるいはシナリオとも呼ばれる)に基づいて、情報提供等のサービスを進めていく場合がある。サービスのある場面では、これから読み上げる対象のテキストが、固有名詞であることが予め分かる場合がある。例えば、これから読み上げる対象のテキストが、氏名のみからなる文字列であることや、住所のみからなる文字列であることが分かっている場合がある。具体例として、テレホンバンキングにおいて、電話をかけてきたユーザ(預金者)が自分の口座番号を電話のプッシュボタンを押下して入力した後、音声自動応答システムが合成音声を用いて預金者名を電話で返答して、確認する場面が想定できよう。このとき、音声自動応答システムでは、例えば、「山本光人様ですね。」といったテキストから音声が合成される。音声自動応答システムは、「山本光人」は氏名であることがあらかじめ分かっているので、この部分を氏名であることを明示する情報(固有名詞指定情報)をテキストに付加して音声合成を行うことが可能である。このような固有名詞指定情報として、例えば、読み上げテキストに埋め込むことができるタグが挙げられる。具体例として、氏名の開始位置を示す「<氏名開始>」と、氏名の終了位置を示す「<氏名終了>」というタグを定義しておき、これを読み上げテキストに埋め込んで、例えば、「<氏名開始>山本光人<氏名終了>様ですね。」という読み上げテキストを用意することができる。音声自動応答システムでは、音声合成の形態素解析時にタグを検出して、<氏名開始>と<氏名終了>に挟まれた文字列は、氏名であることを認識した上で処理することができる。その結果、より精度よく氏名を読み上げることが可能となる。なお、固有名詞指定情報はタグに限られない。例えば、その他の所定の記号やデータ構造により、テキスト中の固有名詞の部分を定義することができる。
第3の実施形態は、上記例のように、固有名詞の区間を示す情報が含まれたテキストを入力して、読みアクセント情報を出力する読み生成装置に関する。図8は、第3の実施形態に係る読み生成装置の構成を示す機能ブロック図である。図8に示す読み生成装置10aにおいて、図1に示す読み生成装置10とおなじ機能ブロックには、同じ番号を付す。
図8に示す読み生成装置10aは、テキスト区間設定部11をさらに備える。読み生成装置10aの形態素解析部は、形態素解析用の単語辞書として、一般単語辞書102、地名単語辞書103、氏名単語辞書104、一文字辞書105を備え、さらに、地名部分文字列辞書201aと氏名部分文字列辞書202aを備える。また、形態素解析部は、単語検索部として、一般単語検索部12、地名単語検索部13および氏名単語検索部14を備え、単語特定部として、一般単語特定部15、地名単語特定部16、氏名単語特定部17を備える。地名単語検索部13および氏名単語検索部14は、固有名詞単語検索部の例である。地名単語特定部16および氏名単語特定部17は、固有名詞単語特定部の例である。形態素解析部は、さらに、形態素解析結果を統合する統合部18も備える。
上記第1の実施形態における地名代替辞書201および氏名代替辞書202が、地名単語辞書103や氏名単語辞書104に登録されている単語の表記の一部を代替するために用いられるのに対し、本実施形態の地名部分文字列辞書201aおよび氏名部分文字列辞書202aは、地名や氏名を構成する部分文字を登録した辞書として機能する。なお、地名代替辞書201と地名部分文字列辞書201aのデータ構成および内容、氏名代替辞書202と氏名部分文字列辞書202aのデータ構成および内容は、それぞれ同じであってもよい。
入力部1は、テキスト中の氏名または地名の部分をタグによって明示したテキストを入力する。テキスト区間設定部11は、入力テキスト中のタグに基づいて、入力テキストのうち、一般文字列の区間、氏名文字列の区間および地名文字列の区間を判定する。例えば、テキスト区間設定部11は、テキスト中で、氏名を示すタグに挟まれた部分を氏名文字列区間、地名を示すタグに挟まれた部分を地名文字列区間、それ以外の部分を一般文字列区間と判定することができる。
形態素解析部は、単語辞書からの単語候補を検索する処理、および、単語候補から最適な単語を決定する処理を、一般文字列区間、氏名文字列区間および地名文字列区間それぞれについて個別に実行する。つまり、一般文字列区間については、一般単語検索部12が一般単語辞書102と一文字辞書105から単語候補を抽出し、一般単語特定部15が、一般単語検索部12で抽出された単語候補から、単語接続評価値テーブル109を用いて最適な単語の組み合わせを決定する。地名文字列区間については、地名単語検索部13が地名単語辞書103、地名部分文字列辞書201aおよび一文字辞書105から単語候補を抽出し、地名単語特定部16が、抽出された単語候補から最適な組み合わせを特定することにより形態素解析が行われる。氏名文字列区間については、氏名単語検索部14が氏名単語辞書104、氏名部分文字列辞書202aおよび一文字辞書105から単語候補を抽出し、氏名単語特定部17が抽出された単語候補から最適な単語の組み合わせを特定することにより形態素解析を行う。
統合部18は、一般文字列区間、地名文字列区間および氏名文字列区間でそれぞれ実行された形態素解析の結果を統合し、入力テキストの形態素解析結果としてまとめる。結合部18は、例えば、一般単語特定部15、地名単語特定部16および氏名単語特定部17それぞれで特定された単語の組をつなぎ合わせることで、形態素解析結果を統合することができる。読みアクセント生成部5および出力部6は、上記第1の実施例と同様に構成することができる。
[読み生成装置の動作例その1]
次に、本実施形態に係る読み生成装置10aの動作例を説明する。ここでは、一例として、氏名単語辞書104には、図9Aに示す内容のデータが記録されており、氏名部分文字列辞書202aには、図9Bに示す内容のデータが記録されている場合の動作例を説明する。図9Aに示す例では、氏名単語辞書104には、表記が「光」の単語および表記が「山本」の単語それぞれについて、読みアクセント、漢字読み対応(各漢字に対応する読み)、品詞(「姓」または「名」)が記録されている。図9Bに示す例では、氏名部分文字列辞書202aには、姓の部分文字列として「ヤマ」「モト」「ミツ」「ヒト」という読みそれぞれについて、品詞および文字が登録されている。なお、氏名単語辞書104や氏名部分文字列辞書202aにはこれ以外にも多数の単語が登録され得る。図9A、図9Bには、本動作例を説明するために必要なデータのみ表示されている。
入力テキストが、図9Cに示すように、「<氏名開始>山本光人<氏名終了>様ですね。」であるとき、テキスト区間設定部11は、入力テキスト中のタグを検出して、図9Dのように、「山本光人」を氏名文字列区間、「様ですね。」を一般文字列区間と設定する。
次に、氏名単語検索部14は、氏名単語辞書104、氏名部分文字列辞書202aおよび一文字辞書105を検索して、氏名文字列区間「山本光人」のテキスト表記に部分一致する単語候補を検出する。図9Eの左側は、氏名単語検索部14により検索された、氏名文字列区間「山本光人」における単語候補の例を示している。図9Eでは、同じ辞書から検索された単語が破線で囲まれている。図9Eに示す例では、氏名単語辞書104からは「山本(ヤマモト:姓)」「光(ヒカル:名)」が、一文字辞書105からは、「山(サン:未知語)」「本(ホン:未知語)」「光(コウ:未知語)」「人(ジン:未知語)」が、氏名部分文字列辞書202aからは、「山(ヤマ:姓の部分)」「本(モト:姓の部分)」「光(ミツ:名の部分)」「人(ヒト:名の部分)」が単語候補として抽出されている。この例において、氏名単語辞書104と一文字辞書105だけだと、氏名文字列区間のテキスト表記「光」「人」に相当する妥当な単語を検索されないが、氏名部分文字列辞書202aがあるので、妥当な単語が単語候補として抽出されていることが分かる。
氏名単語特定部17は、これらの単語候補の中から最適な単語の組み合わせを決定する。その際、氏名単語特定部17は、以下に示す判定基準(1)〜(5)を順に適用することができる。
(1)氏名文字列区間が、品詞「姓」の1個の単語と、品詞「名」の1個の単語で構成される。
(2)氏名文字列区間が、品詞「姓」の1個の単語と、品詞「名」の1個以上の部分文字列で構成される。
(3)氏名文字列区間が、品詞「姓」の1個以上の部分文字列と、品詞「名」の1個の単語で構成される。
(4)氏名文字列区間が、品詞「姓」の1個以上の部分文字列と、品詞「名」の1個以上の部分文字列で構成される。
(5)以上(1)〜(4)の基準で解析できなかった部分について、一文字辞書から検索した未知語を採用する。
図9Eでは、上記の判定基準を適用して決定された単語の組み合わせを、太線で表し、直線で連結している。具体的には、氏名単語特定部17は、まず(1)の基準を適用して、氏名文字列区間「山本光人」を、姓「山本(ヤマモト)」と名「光(ヒカル)」と解析しようとする。しかし、氏名文字列区間にある文字「人」が解析できない。そのため、氏名単語特定部17は、次に(2)の基準を適用して、姓「山本(ヤマモト)」、名の部分文字列「光(ミツ)」、名の部分文字列「人(ヒト)」と解析する。この解析結果であれば、氏名文字列区間をすべて網羅する解析が可能であるので、これが採用される。
このようにして、氏名文字列区間を網羅する解析が可能になるまで、上記(1)〜(5)の基準を順次適用することにより、効率よく最適な単語の組み合わせを決定することができる。なお、適用する基準は、上記例に限られない。例えば、まず、氏名単語辞書104から抽出された単語、次に、氏名部分文字列辞書202aから抽出された単語、その次に一文字辞書105から抽出された単語の順に評価値を設定し、評価値が最も高くなる組み合わせを、最適な単語の組み合わせにすることもできる。このように、氏名単語辞書から検索された単語候補で解析できない場合に、氏名部分文字列辞書で検索された単語候補で解析することで、効率よく解析することができる。
一般単語検索部12では、一般単語辞書102および一文字辞書105を検索して、一般文字列区間「様ですね。」に部分一致する単語候補を検出する。図9Eの右側は、一般単語検索部12により検索された単語候補の例を示している。一般単語特定部15において、これらの単語候補の中から単語接続評価値テーブル109を用いて最適な単語を決定する方法は、上記第1の実施形態と同様であってもよい。図9Eに示す例では「様(接尾語)」「です(助動詞)」「ね(終助詞)」「。(句点)」が最適であると判定されている。
統合部18は、氏名単語特定部17による形態素解析結果(氏名文字列区間における最適な単語の組み合わせ)と、一般単語特定部15による形態素解析結果(一般文字列区間における最適な単語の組み合わせ)を統合して、入力テキスト全体の解析結果を生成する。この結果に基づき、読みアクセント生成部5は、「ヤマモト ミツ’ヒトサマデスネ.」という読みアクセント情報を生成し、出力部6がこの読みアクセント情報を出力する。
ここで、読みアクセント生成部5は、「光人」の部分のアクセントを次にようにして推定することができる。例えば、統計的に、4モーラの名前は2型アクセントであることが多く、2モーラ、3モーラの名前は1型アクセントであることが多い。そのため、品詞=「名」の単語には、モーラ数に応じた、これらのアクセント型を適用すれば、概ね正しいアクセントを付与することができる。例外的に、「美」「実」など「ミ」という読みで終わる名前や、「江」「恵」など「エ」という読みで終わる名前は、3モーラであれば0型アクセントとなる。そのため、このようなルールをプログラムまたはデータベースで記録しておいて、読みアクセント生成部5のアクセント推定処理に用いることで、アクセントを高精度に推定することが可能になる。
[読み生成装置の動作例その2]
次に、本実施形態に係る読み生成装置10aの他の動作例を説明する。ここでは、一例として、地名単語辞書103は、図10Aに示す内容のデータが記録されており、地名部分文字列辞書201aには、図10Bに示す内容のデータが記録されている場合の動作例を説明する。図10Aに示す例では、地名単語辞書103には、表記が「盛岡市」の単語について、読みアクセント「モリオカ’シ」、漢字読み対応(各漢字に対応する読み)「盛=モリ、岡=オカ、市=シ」、品詞(属性)「市名」が記録されている。図10Bに示す例では、地名部分文字列辞書201aには、地名の部分文字列として「モリ」「オカ」「ウチ」「マル」という読みそれぞれについて、文字が登録されている。なお、地名単語辞書103や地名部分文字列辞書201aにはこれ以外にも多数の単語が登録され得る。図10A、図10Bには、本動作例を説明するために必要なデータのみ表示されている。
入力テキストが、図10Cに示すように、「<地名開始>盛岡市内丸<地名終了>ですね。」であるとき、テキスト区間設定部11は、入力テキスト中のタグを検出して、図10Dのように、「盛岡市内丸」を地名文字列区間、「ですね。」を一般文字列区間と設定する。
次に、地名単語検索部13は、地名単語辞書103、地名部分文字列辞書201a、一文字辞書105を検索して、地名文字列区間に部分一致する単語を単語候補として抽出する。図12Eの左側は、地名単語検索部13により検索された、地名文字列区間「盛岡市内丸」の単語候補の例を示している。
地名単語特定部16は、これらの単語候補の中から最適な単語の組み合わせを決定する。その際、地名単語特定部16は、以下に示す判定基準(1)〜(3)を順に適用することができる。
(1)地名単語辞書から検索された地名単語を採用する。
(2)地名単語辞書から検索されなかった部分について、地名部分文字列を採用する。
(3)地名単語でも地名部分文字列でも解析できなかった文字列に対して、一文字辞書から検索した未知語を採用する。
具体的には、地名単語特定部16は、まず(1)の基準を適用して「盛岡市(モリオカシ)」を決定し、さらに、(2)の基準を適用して、地名部分文字列「内(ウチ)」、地名部分文字列「丸(マル)」を決定する。このように、地名単語特定部16は、地名文字列区間をすべて網羅する解析ができるまで、上記(1)〜(3)の基準を順次適用することができる。なお、適用する基準は、上記例に限られない。例えば、まず、地名単語辞書103から抽出された単語、次に、地名部分文字列辞書201aから抽出された単語、その次に一文字辞書105から抽出された単語の順に評価値を設定し、評価値が最も高くなる組み合わせを、最適な単語の組み合わせにすることもできる。このように、地名単語辞書から検索された単語候補で解析できない場合に、地名部分文字列辞書で検索された単語候補で解析することで、効率よく解析することができる。
一般単語検索部12では、一般単語辞書102、一文字辞書105を検索して、例えば、図10Eの右側に示すような単語候補を検出する。一般単語特定部15は、第1の実施形態と同様に、これらの単語候補の中から単語接続評価値テーブル109を用いて最適な単語を決定することができる。図10Eに示す例では、「です(助動詞)」「ね(終助詞)」「。(句点)」が最適であると判定されている。
統合部18は、地名単語特定部16による形態素解析結果と、一般単語特定部15による形態素解析結果を統合して、入力テキスト全体の解析結果とする。この結果に基づき、読みアクセント生成部5は、「モリオカ'シ ウチマルデ’スネ.」という読みアクセント情報を生成し、出力部6が、この読みアクセント情報を出力する。なお、地名の場合には、モーラ数からアクセント型を推定するのは困難なので、読みアクセント生成部5は、例えば、地名には、一律に0型アクセントを設定するという方法をとってもよい。
以上のとおり、本実施形態によれば、地名単語辞書または氏名単語辞書のような固有名詞辞書に登録された単語の一部分の読みに対する表記のバリエーションを、地名部分代替辞書、氏名部分代替辞書に登録される。これにより、辞書サイズ増大を抑えつつも、対応できる固有名詞を増やすことができる。その結果、小さい辞書サイズで、効率的に、読み情報の精度を向上させることが可能になる。
(第4の実施形態)
第4の実施形態は、上記第3の実施形態における地名単語辞書103、氏名単語辞書104、地名部分文字列辞書201aおよび氏名部分文字列辞書202aを作成するための辞書作成装置に関する。図11Aおよび図11Bは、第4の実施形態に係る辞書作成装置の構成を示す機能ブロック図である。図11Aは、地名単語辞書103および地名部分文字列辞書201aの辞書作成装置、図11Bは、氏名単語辞書104および氏名部分文字列辞書202aの辞書作成装置の構成を示している。図11A、図11Bにおいて、図5A、図5Bと同じ機能ブロックには同じ番号を付している。
図11Aおよび図11Bに示す辞書作成装置は、データ入力部7a、7bおよび辞書生成部19a、19bを備える。地名データリスト402および氏名データリスト403の内容および、データ入力部7a、7bの機能は、上記第2の実施形態と同様であってよい。
辞書生成部19aは、データ入力部7aが入力した地名データリスト402に基づいて、地名単語辞書103と地名部分文字列辞書201aを作成する。辞書生成部19bは、氏名データリスト403の入力に基づいて、氏名単語辞書104と氏名部分文字列辞書202aを作成する。辞書生成部19a、19bは、地名データリスト402または氏名データリスト403に含まれる地名または氏名の表記、読みアクセントおよび漢字に対応する読みを地名単語辞書103または氏名単語辞書104へ登録する。
さらに、辞書生成部19a、19bは、データ入力部7a、7bが入力したデータリストに含まれる固有名詞単語の一部を構成するテキスト表記とそれに対応する読みを、地名部分文字列辞書201a、氏名部分文字列辞書202aに登録する。これにより、固有名詞単語だけでなく、固有名詞単語を構成する漢字を含む他の固有名詞単語についても網羅する辞書の組(単語辞書と部分文字列単語辞書)が作成される。
例えば、データ入力部7bが、図7Aに示すような氏名データリスト403を読み込んだ場合、辞書生成部19bは、氏名データリスト403のレコードを順に読み込み、各レコードの、表記、読みアクセント、漢字読み対応を氏名単語辞書104に、品詞「名」とともに登録する。さらに、辞書生成部19bは、各レコードの固有名詞単語を構成する漢字それぞれについて、読みと漢字(表記)を氏名部分文字列辞書202aに登録する。
一例として、氏名データリスト403に、表記「敏人」、読みアクセント「トシ’ヒト」、漢字読み対応「敏=トシ、人=ヒト」のレコードと、表記「敏仁」、読みアクセント「トシ’ヒト」、漢字読み対応「敏=トシ、仁=ヒト」のレコードとがある場合、辞書生成部19aは、氏名部分文字列辞書202aの読み=「トシ」のレコードに、表記「敏」を追加し、読み=「ヒト」のレコードに、表記「人」および「仁」を追加することができる。なお、上記例では、固有名詞に含まれる各漢字を、固有名詞の部分文字列として、部分文字列辞書に登録しているが、部分文字列辞書に登録される部分文字列の単位は、必ずしも漢字1文字とする必要はない。
なお、図11Aおよび図11Bに示す辞書作成装置は、例えば、上記第3の実施形態における読み生成装置の一部に組み込むことができる。読み生成装置と同じコンピュータに所定のプログラムをインストールすること辞書作成装置の機能を実現することもできるし、あるいは、読み生成装置とは別に独立したコンピュータで辞書作成装置を実現することもできる。データ入力部7a、7bおよび辞書生成部19a、19bの各機能は、プロセッサが所定のプログラムを実行することによって実現される。上記各機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も本発明の一実施態様である。
以上のとおり、第1〜4の実施形態によれは、氏名や地名などの固有名詞の読みアクセントの誤りを軽減し、高精度に読みアクセント情報の生成を行うことが可能になる。すなわち、固有名詞の単語辞書に加えて、代替辞書または部分文字列辞書を用意することにより、辞書サイズ増大を抑えつつも、音声合成エンジンの形態素解析の誤りに起因する読み誤りを軽減することが可能になる。
また、上記第1〜4の実施形態にかかる読み生成装置は、例えば、音声合成装置や読み上げ装置等に用いることができる。なお、本願発明の適用範囲は、上記第1〜4の実施形態に限られない。
以上の第1〜第4の実施形態に関し、さらに以下の付記を開示する。
(付記1)
固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、
前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、
前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書と、
テキストを入力する入力部と、
前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索部と、
前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索部と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索部および前記代替単語検索部によって検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定部と、
前記単語特定部によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成部とを備える、読み生成装置。
(付記2)
前記代替情報は、固有名詞単語の一部と代替可能なテキスト表記と、当該テキスト表記の読みと品詞を表す情報であって、
前記代替単語検索部は、前記固有名詞辞書に格納された単語の一部のテキスト表記を、前記代替情報が表すテキスト表記の一部で代替した単語であって、前記入力テキストに部分一致する単語を検索して単語候補とする、付記1に記載の読み生成装置。
(付記3)
固有名詞単語のテキスト表記および読みと品詞とを対応づけて登録した固有名詞辞書と、
前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、
固有名詞単語の一部の読みと代替文字とが対応づけて格納された部分文字列辞書と、
固有名詞部分を予め定義する固有名詞指定情報を含むテキストを入力する入力部と、
前記固有名詞指定情報に基づいて、入力テキストのうち、固有名詞区間と、その他の一般文字列区間とを設定する、テキスト区間設定部と、
一般文字列区間と設定された区間に対して、前記一般単語辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする一般単語検索部と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記一般単語検索部によって検索された単語候補の中から最適な単語の組み合わせを特定する一般単語特定部と、
固有名詞区間と設定された区間に対して前記固有名詞辞書および前記部分文字列辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする固有名詞単語検索部と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記固有名詞単語検索部によって検索された前記単語候補の中から最適な単語の組み合わせを特定する固有名詞単語特定部と、
前記一般単語特定部と前記固有名詞単語特定部によって特定された結果を統合する統合部と、
前記統合部により統合された単語の読みに基づいて、前記入力テキストに相当する読み情報を生成する読み生成部とを備える、読み生成装置。
(付記4)
前記固有名詞単語特定部は、前記固有名詞区間に、前記固有名詞辞書から検索された単語候補のいずれにも一致しない部分がある場合、前記部分文字列辞書から検索された、前記部分に一致する単語候補を、最適な単語の組み合わせに含める、付記3に記載の読み生成装置。
(付記5)
複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、
前記データ入力部が入力したデータの集合に含まれる前記固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、
前記辞書生成部は、前記データ入力部が入力したデータの集合に含まれる固有名詞単語と読みが同じ固有名詞単語が、既に前記固有名詞辞書に登録されている場合、既に登録されている既存の固有名詞単語と異なる部分のテキスト表記と、当該テキスト表記に対応する読みと品詞を、固有名詞単語の一部を構成するテキスト表記および読みと品詞として、代替辞書に登録する、付記1または2に記載の読み生成装置。
(付記6)
前記固有名詞辞書は、氏名用の氏名固有名詞辞書と地名用の地名固有名詞辞書を含み、
前記単語検索部は、前記一般単語辞書および前記氏名固有名詞辞書と前記地名固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とし、
前記代替単語検索部は、前記一般単語辞書または前記氏名固有名詞辞書または前記地名固有名詞辞書から検索された部分一致する単語の一致しない一部を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに含まれる単語に一致する単語を検索する、付記1、2および5のいずれか1項に記載の読み生成装置。
(付記7)
複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、
前記データ入力部が入力したデータの集合に含まれる固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、
前記辞書生成部は、さらに、前記データ入力部が入力したデータの集合に含まれる固有名詞単語の一部を構成するテキスト表記と当該テキスト表記に対応する読みを、部分文字列辞書に登録する、付記3または4に記載の読み生成装置。
(付記8)
前記代替辞書または前記部分文字列辞書と、前記固有名詞辞書と、前記一般単語辞書とにおいては、読みを表す情報に加えて、当該読みのアクセント情報も登録され、
前記読み生成部は、前記アクセント情報を用いて、前記入力テキストに相当する読みのアクセントを表す情報も生成する、付記1〜7のいずれか1項に記載の読み生成装置。
(付記9)
固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書とにアクセス可能なコンピュータに処理を実行させる読み生成プログラムであって、
テキストを入力する入力処理と、
前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索処理と、
前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索処理と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索処理および前記代替単語検索処理によって検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定処理と、
前記単語特定処理によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成処理とをコンピュータに実行させる読み生成プログラム。
(付記10)
固有名詞単語のテキスト表記および読みと品詞とを対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、固有名詞単語の一部の読みと代替文字とが対応づけて格納された部分文字列辞書とにアクセス可能なコンピュータに処理を実行させる読み生成プログラムであって、
固有名詞部分を予め定義する固有名詞指定情報を含むテキストを入力する入力処理と、
前記固有名詞指定情報に基づいて、入力テキストのうち、固有名詞区間と、その他の一般文字列区間とを設定する、テキスト区間設定処理と、
一般文字列区間と設定された区間に対して、前記一般単語辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする一般単語検索処理と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記一般単語検索処理によって検索された単語候補の中から最適な単語の組み合わせを特定する一般単語特定処理と、
固有名詞区間と設定された区間に対して前記固有名詞辞書および前記部分文字列辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする固有名詞単語検索処理と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記固有名詞単語検索処理によって検索された前記単語候補の中から最適な単語の組み合わせを特定する固有名詞単語特定処理と、
前記一般単語特定処理と前記固有名詞単語特定処理によって特定された結果を統合する統合処理と、
前記統合処理により統合された単語の読みに基づいて、前記入力テキストに相当する読み情報を生成する読み生成処理とをコンピュータに実行させる、読み生成プログラム。
(付記11)
固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書とにアクセス可能なコンピュータが実行する読み生成方法であって、
テキストを入力する入力工程と、
前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索工程と、
前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索工程と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索工程および前記代替単語検索工程で検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定工程と、
前記単語特定工程によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成工程とを含む読み生成方法。
(付記12)
固有名詞単語のテキスト表記および読みと品詞とを対応づけて登録した固有名詞辞書と、前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、固有名詞単語の一部の読みと代替文字とが対応づけて格納された部分文字列辞書とにアクセス可能なコンピュータが実行する読み生成方法であって、
固有名詞部分を予め定義する固有名詞指定情報を含むテキストを入力する入力工程と、
前記固有名詞指定情報に基づいて、入力テキストのうち、固有名詞区間と、その他の一般文字列区間とを設定する、テキスト区間設定工程と、
一般文字列区間と設定された区間に対して、前記一般単語辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする一般単語検索工程と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記一般単語検索工程で検索された単語候補の中から最適な単語の組み合わせを特定する一般単語特定工程と、
固有名詞区間と設定された区間に対して前記固有名詞辞書および前記部分文字列辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする固有名詞単語検索工程と、
予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記固有名詞単語検索工程によって検索された前記単語候補の中から最適な単語の組み合わせを特定する固有名詞単語特定工程と、
前記一般単語特定工程と前記固有名詞単語特定工程で特定された結果を統合する統合工程と、
前記統合工程により統合された単語の読みに基づいて、前記入力テキストに相当する読み情報を生成する読み生成工程とを含む、読み生成方法。
1 入力部
2 単語検索部
3 代替単語検索部
4 単語特定部
5 読みアクセント生成部
6 出力部
7a、7b データ入力部
8a、8b 辞書生成部
10、10a 読み生成装置
11 テキスト区間設定部
12 一般単語検索部
13 地名単語検索部
14 氏名単語検索部
15 一般単語特定部
16 地名単語特定部
17 氏名単語特定部
18 統合部
19a、19b 辞書生成部
101 単語辞書
102 一般単語辞書
103 地名単語辞書
104 氏名単語辞書
105 一文字辞書
109 単語接続評価値テーブル
201 地名代替辞書
201 代替辞書
201a 地名部分文字列辞書
202 氏名代替辞書
202a 氏名部分文字列辞書
402 地名データリスト
403 氏名データリスト

Claims (8)

  1. 固有名詞単語のテキスト表記および読みと品詞を対応づけて登録した固有名詞辞書と、
    前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、
    前記固有名詞単語の一部を代替する読みと代替文字を対応づけた代替情報を格納した代替辞書と、
    テキストを入力する入力部と、
    前記一般単語辞書および前記固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とする単語検索部と、
    前記固有名詞辞書の単語を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに部分一致する単語を検索して単語候補とする代替単語検索部と、
    予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データに従って、前記単語検索部および前記代替単語検索部によって検索された前記単語候補の中から前記入力テキスト含まれる単語の組み合わせを特定する単語特定部と、
    前記単語特定部によって特定された単語の読みに基づいて、前記入力テキストの前記単語の読みを示す情報を生成する読み生成部とを備える、読み生成装置。
  2. 前記代替情報は、固有名詞単語の一部と代替可能なテキスト表記と、当該テキスト表記の読みと品詞を表す情報であって、
    前記代替単語検索部は、前記固有名詞辞書に格納された単語の一部のテキスト表記を、前記代替情報が表すテキスト表記の一部で代替した単語であって、前記入力テキストに部分一致する単語を検索して単語候補とする、請求項1に記載の読み生成装置。
  3. 固有名詞単語のテキスト表記および読みと品詞とを対応づけて登録した固有名詞辞書と、
    前記固有名詞を除く単語のテキスト表記および読みと品詞を登録した一般単語辞書と、
    固有名詞単語の一部の読みと代替文字とが対応づけて格納された部分文字列辞書と、
    固有名詞部分を予め定義する固有名詞指定情報を含むテキストを入力する入力部と、
    前記固有名詞指定情報に基づいて、入力テキストのうち、固有名詞区間と、その他の一般文字列区間とを設定する、テキスト区間設定部と、
    一般文字列区間と設定された区間に対して、前記一般単語辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする一般単語検索部と、
    予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記一般単語検索部によって検索された単語候補の中から最適な単語の組み合わせを特定する一般単語特定部と、
    固有名詞区間と設定された区間に対して前記固有名詞辞書および前記部分文字列辞書から、前記入力テキストに部分一致する単語を検索して単語候補とする固有名詞単語検索部と、
    予め記録されている、連接する単語の組み合わせの繋がり易さを示す評価データを用いて、前記固有名詞単語検索部によって検索された前記単語候補の中から最適な単語の組み合わせを特定する固有名詞単語特定部と、
    前記一般単語特定部と前記固有名詞単語特定部によって特定された結果を統合する統合部と、
    前記統合部により統合された単語の読みに基づいて、前記入力テキストに相当する読み情報を生成する読み生成部とを備える、読み生成装置。
  4. 前記固有名詞単語特定部は、前記固有名詞区間に、前記固有名詞辞書から検索された単語候補のいずれにも一致しない部分がある場合、前記部分文字列辞書から検索された、前記部分に一致する単語候補を、最適な単語の組み合わせに含める、請求項3に記載の読み生成装置。
  5. 複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、
    前記データ入力部が入力したデータの集合に含まれる前記固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、
    前記辞書生成部は、前記データ入力部が入力したデータの集合に含まれる固有名詞単語と読みが同じ固有名詞単語が、既に前記固有名詞辞書に登録されている場合、既に登録されている既存の固有名詞単語と異なる部分のテキスト表記と、当該テキスト表記に対応する読みと品詞を、固有名詞単語の一部を構成するテキスト表記および読みと品詞として、代替辞書に登録する、請求項1または2に記載の読み生成装置。
  6. 前記固有名詞辞書は、氏名用の氏名固有名詞辞書と地名用の地名固有名詞辞書を含み、
    前記単語検索部は、前記一般単語辞書および前記氏名固有名詞辞書と前記地名固有名詞辞書に登録された単語の中から、前記入力テキストに部分一致する単語を検索して単語候補とし、
    前記代替単語検索部は、前記一般単語辞書または前記氏名固有名詞辞書または前記地名固有名詞辞書から検索された部分一致する単語の一致しない一部を、前記代替辞書に登録された前記代替情報によって代替したときに、前記入力テキストに含まれる単語に一致する単語を検索する、請求項1、2および5のいずれか1項に記載の読み生成装置。
  7. 複数の固有名詞単語のテキスト表記および読みを表すデータの集合を入力するデータ入力部と、
    前記データ入力部が入力したデータの集合に含まれる固有名詞単語のテキスト表記および読みと品詞を対応づけて固有名詞辞書に登録する辞書生成部とをさらに備え、
    前記辞書生成部は、さらに、前記データ入力部が入力したデータの集合に含まれる固有名詞単語の一部を構成するテキスト表記と当該テキスト表記に対応する読みを、部分文字列辞書に登録する、請求項3または4に記載の読み生成装置。
  8. 前記代替辞書または前記部分文字列辞書と、前記固有名詞辞書と、前記一般単語辞書とにおいては、読みを表す情報に加えて、当該読みのアクセント情報も登録され、
    前記読み生成部は、前記アクセント情報を用いて、前記入力テキストに相当する読みのアクセントを表す情報も生成する、請求項1〜7のいずれか1項に記載の読み生成装置。
JP2009020406A 2009-01-30 2009-01-30 読み生成装置 Expired - Fee Related JP5252209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009020406A JP5252209B2 (ja) 2009-01-30 2009-01-30 読み生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009020406A JP5252209B2 (ja) 2009-01-30 2009-01-30 読み生成装置

Publications (2)

Publication Number Publication Date
JP2010176539A JP2010176539A (ja) 2010-08-12
JP5252209B2 true JP5252209B2 (ja) 2013-07-31

Family

ID=42707424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009020406A Expired - Fee Related JP5252209B2 (ja) 2009-01-30 2009-01-30 読み生成装置

Country Status (1)

Country Link
JP (1) JP5252209B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120283A (ja) * 1991-10-28 1993-05-18 Sharp Corp 漢字読み仮名変換装置
JP3371761B2 (ja) * 1997-06-19 2003-01-27 富士通株式会社 氏名読み音声合成装置
JP2006155213A (ja) * 2004-11-29 2006-06-15 Hitachi Information Systems Ltd 漢字氏名のふりがな取得装置及びその取得方法

Also Published As

Publication number Publication date
JP2010176539A (ja) 2010-08-12

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
US20110131038A1 (en) Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
JP2009037633A (ja) 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定
JP4740837B2 (ja) 音声認識における統計的言語モデリング方法、システム及び記録媒体
JP4570509B2 (ja) 読み生成装置、読み生成方法及びコンピュータプログラム
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
Scherrer et al. Natural Language Processing for the Swiss German Dialect Area.
JP2009258293A (ja) 音声認識語彙辞書作成装置
Nguyen et al. A method for Vietnamese Text Normalization to improve the quality of speech synthesis
JP5252209B2 (ja) 読み生成装置
JP2005339347A (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP4751299B2 (ja) 読み情報生成装置、読み情報生成方法、読み情報生成プログラムおよび音声合成装置
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
JP6009396B2 (ja) 発音付与方法とその装置とプログラム
Xydas et al. Text normalization for the pronunciation of non-standard words in an inflected language
JP3029403B2 (ja) 文章データ音声変換システム
KR102278288B1 (ko) 음소 기반 텍스트 검색 장치 및 방법
JP4206253B2 (ja) 自動音声応答装置及び自動音声応答方法
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2010039864A (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JP2021085996A (ja) 音声認識システム、音声認識方法
JP2005202198A (ja) 辞書生成装置及び音声認識装置
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130321

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130403

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees