JP2004206659A - 読み情報決定方法及び装置及びプログラム - Google Patents

読み情報決定方法及び装置及びプログラム Download PDF

Info

Publication number
JP2004206659A
JP2004206659A JP2003046042A JP2003046042A JP2004206659A JP 2004206659 A JP2004206659 A JP 2004206659A JP 2003046042 A JP2003046042 A JP 2003046042A JP 2003046042 A JP2003046042 A JP 2003046042A JP 2004206659 A JP2004206659 A JP 2004206659A
Authority
JP
Japan
Prior art keywords
reading
word
determination
information
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003046042A
Other languages
English (en)
Other versions
JP3952964B2 (ja
Inventor
Hisako Asano
久子 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003046042A priority Critical patent/JP3952964B2/ja
Publication of JP2004206659A publication Critical patent/JP2004206659A/ja
Application granted granted Critical
Publication of JP3952964B2 publication Critical patent/JP3952964B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

【課題】アルファベットや数字からなる単語に対する日本語読みを決定する際に、アルファベット読み、英語読み等が一概に決定されない文字列に対する読みを自動的に付与する。
【解決手段】本発明は、形態素解析された単語情報から対象単語を抽出し、対象単語に関する属性を抽出し、読みクラス判定モデルに適用して読みクラスを判定し、判定された読みクラスに応じて読みを付与する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、読み情報決定方法及び装置及びプログラムに係り、特に、日本語のテキスト音声合成を行う際に、日本語文章内に含まれる英数字列の読みクラスを判別することにより英数字列の読み精度を向上させるための読み情報決定方法及び装置及びプログラムに関する。
【0002】
また、インターネット検索エンジンにおいて、日本語のページを検索対象とする際に、検索キーワードとして入力されたアルファベット列をカナに音訳して質問拡張する場合の拡張キーワードの精度向上のために利用される。
【0003】
【従来の技術】
日本語テキスト音声合成は、日本語テキストに対して、読み、及び、アクセント、ポーズ等の韻律情報を設定し、これらを元に、音声波形を生成して合成音声を出力する。正しく自然な音声合成を出力するためには、この読みや韻律情報を正しく設定する必要がある。
【0004】
読みとアクセスの付与は、単語に対する情報(単語情報)を用いることで、高精度に設定することができる。単語情報は、一般に日本語形態素解析を用いて得ることができる。日本語形態素解析は、成熟した技術であり、新聞記事などを対象にした場合、99%以上の精度を実現しているものが数多く存在する。これらの形態素解析は、一般に単語情報を登録した単語辞書を用いて、解析を行う(例えば、非特許文献1参照)。
【0005】
また、アルファベット列が未知語となった場合は、読みが付与されていないため、1文字ずつアルファベット読みをしたり(例えば、非特許文献2参照)、英単語と仮定して、英日音訳を行ったりしている(例えば、非特許文献3参照)。
また、入力されたテキストにおいて、アルファベット母音の出現頻度とアルファベット子音の出現頻度の割合により、そのテキストをローマ字読みするか英語読みするか判別する手法(例えば、特許文献1参照)がある。この方法は、アルファベット母音(a,i,u,e,o)及びアルファベット子音について、それぞれ毎に出現頻度を抽出して、アルファベット母音の出現頻度÷アルファベット子音の出現頻度の値が予め定められた値より大きいとき、テキスト中のアルファベット文字列をローマ字として、そうでないときには、英語として読み上げる技術である。
【0006】
また、数字列に関しては、正数型、小数型など(以後、これを数字読みクラスと記す)に分類し、読み分ける方法が確立されている(例えば、非特許文献4参照)。
【0007】
【特許文献1】
特開2000−10579号公報
【0008】
【非特許文献1】
渕武志,他2名、「保守性を考慮した形態素解析システム」、情報処理学会研究報告:自然言語処理,1997年 1月20日、pp.59−66.
【0009】
【非特許文献2】
宮崎正弘,他1名「日本分音声出力のための言語処理方式」、情報処理学会論文誌,1986年11月、第27巻、第11号、pp.1053−1061.
【0010】
【非特許文献3】
高木伸一郎,他4名「電子メールを電話で確認できる通信秘書技術」,NTT技術ジャーナル、日本電信電話株式会社、平成9年6月1日、第9巻、第6号、pp.63−68.
【0011】
【非特許文献4】
宮崎正弘、「日本文音声変換のための数詞読み規則」、情報処理学会論文誌、1984年6月、第25巻、第6号、pp.1035−1043.
【0012】
【発明が解決しようとする課題】
しかしながら、日本語テキスト中に現れるアルファベット列(アルファベットとまとまって単語を構成しているアポストロフィーなどの記号類も含む)に対しては、辞書登録されている割合が低く、未知語となる割合が高い。また、数字列(数字とまとまってある情報を表している、小数点や市外局番前後のかっこなどの記号類も含む)は、前後の文脈により読み方が変わる場合があるが、これは、上記従来の形態素解析では対応できない。
【0013】
また、アルファベット列が未知語となった場合に、1文字ずつアルファベット読みをしたり、英日音訳を行う場合、実際には、アルファベット読みや英語読みしない単語の場合には読み誤りとなる(以後、アルファベット読み、英単語読み、ローマ字読み、フランス語読み…などをアルファベット読みクラスと記す)。
また、アルファベット母音の出現頻度とアルファベット子音の出現頻度の割合によりローマ字読みまたは、英語読みするかを判断する方法は、英語とローマ字が混在する日本語テキストにたいしても、どちらか片方の読み方に固定され、読み誤りが生じる可能性がある。例えば、「YOKOHAMA TEA HOUSEは、来月1日にオープンします。」という文では、アルファベット母音の割合が大きいため、ローマ字読みと決定され、「YOKOHAMA TEA HOUSE」は、「ヨコハマ テア ホウセ」という読みが付与されてしまう。
【0014】
また、数字読みクラスに分類して読み分ける方法では、前後の文脈に応じてこの型を正しく推定する手法は解決されていない。
【0015】
上記のように、ある種の日本語テキストには、英数字列が数多く含まれているものがある。例えば、インターネット上の店舗紹介のページなどでは、店名やサービス名、製品名が、アルファベット表記されているものが多く、その読み方もアルファベト読みするもの(例:CD)、ローマ字読みするもの(例:YOKOHAMA)、英語読みするもの(例:Restaurant)、フランス語読みするもの(例:TERRASSE)、イタリア語読みするもの(例:TRATTORIA)等多彩である。また、テキストの前後の状況に応じて数字列の読み方にもバリエーションがある。例えば、「611」という数字列は、「611番」の場合は「ロッピャクジュウイチ」という読み、「A611it」(品番など)では、「ロクイチイチ」という読みになる。
【0016】
しかし、これらのアルファベット列は固有名詞が多く新しい語も増えていくため、形態素解析の単語辞書に全てを登録するのは不可能であり、また、収集できる範囲で辞書登録するにしても、ローマ字や各種外来語などを登録しなければならず、単語辞書サイズが膨大になる。また、数字列は無限に存在し、さらにその前後の文字列まで考慮して登録するのは、非現実的である。
【0017】
このため、アルファベット列に対しては、アルファベット列から読み(カナ列)へ変換する音訳が必要となるが、この音訳は、ある範囲のテキストに対して、英語読みやローマ字読みなどの特定アルファベット読みクラスを仮定して音訳を行っていたため、仮定と異なるクラスの場合には、正しく読みが付与されないという問題がある。
【0018】
また、数字列に対しては、小数点などの数少ない文字を手掛かりに、数字読みクラスを判定し、数字列に読みを付与していたため、数字読みクラスを誤った場合に正しく読みが付与されないという問題がある。
【0019】
本発明は、上記の点に鑑みなされたもので、アルファベットや数字からなる単語に対する日本語読みを決定する際に、アルファベット読み、英語読み等が一概に決定されない文字列に対する読みを自動的に付与するための読み情報決定方法及び装置及びプログラムを提供することを目的とする。
【0020】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0021】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定方法において、
処理対象のテキストと設定情報を入力として受け付け(ステップ1)、単語辞書を用いてテキストを形態素解析して単語情報を取得し(ステップ2)、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出し(ステップ3)、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出し(ステップ4)、
抽出された対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行い(ステップ5)、
読みクラスの第1候補のスコアが所定の信頼度閾値未満あるいは、抽出された対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行い(ステップ6)、対象単語情報利用型判定と該文脈利用型判定の第1候補のスコアを比較して、該対象単語情報利用型判定の読みクラスの第1の候補のスコアと、該文脈利用型判定で判定された第1候補の読みのクラスのスコアとスコアの重み(但し、スコアの重みは定数)を乗算した値のうち、値の大きい読みクラスを最終結果とし(ステップ8)、
対象単語情報利用型判定の読みクラスの第1候補のスコアが所定の信頼度閾値以上、あるいは、対象単語情報利用型判定と文脈利用型判定の第1候補が同一、あるいは、対象単語が数字列の場合には、該第1候補を読みクラス判定の最終結果とし(ステップ7)、
対象単語が数字列の場合には、文脈利用型判定を行い(ステップ6)、その第1候補を読みクラス判定の最終結果とし(ステップ7)、
判定された読みクラスに応じて読み付与を行い(ステップ9)、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する(ステップ10)。
【0022】
また、本発明の対象単語情報利用型読み判定モデルは、少なくとも、単語の文字数、第1音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
対象単語情報利用型読み判定モデルに対して、抽出された対象単語の単語情報から得られる少なくとも単語の文字数、第1音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する。
【0023】
また、本発明の文脈利用型読みクラス判定モデルは、
少なくとも、単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
文脈利用型読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる少なくとも各単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける)、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する。
【0024】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定方法において、
処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得し、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出し、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出し、
一括読みクラス判定モデルを用いた一括判定を行い、第1候補を読みクラス判定の結果とし、
判定された読みクラスに応じて読み付与を行い、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する。
【0025】
また、本発明の一括読みクラス判定モデルは、少なくとも、アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞数字タイプ(先頭文字が“0”かどうか)を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第1位の候補を選択する順位関数を有し、
一括読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる、少なくとも、
アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、
数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する。
【0026】
図2は、本発明の原理構成図である。
【0027】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定装置であって、
処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得する形態素解析手段2と、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出手段3と、
対象単語抽出手段3で抽出された各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出手段41と、
対象単語抽出手段3で抽出された対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行う対象単語情報利用型判定手段42と、
読みクラスの第1候補のスコアが所定の信頼度閾値未満、あるいは、対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行う文脈利用型判定手段43と、
対象単語情報利用型判定手段42と文脈利用型判定手段43の第1候補のスコアを比較して、対象単語情報利用型判定手段42の読みクラスの第1の候補のスコアと、文脈利用型判定手段43で判定された第1候補の読みのクラスのスコアとスコアの重み(但し、スコアの重みは定数)を乗算した値のうち、値の大きい読みクラスを最終結果とし、対象単語情報利用型判定手段42の読みクラスの第1候補のスコアが所定の信頼度閾値以上、あるいは、対象単語情報利用型判定手段42と文脈利用型判定手段43の第1候補が同一、あるいは、対象単語が数字列の場合には、該第1候補を読みクラス判定の最終結果とする最終判定手段44と、
最終判定手段44で判定された読みクラスに応じて読み付与を行う読み付与手段5と、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力手段6と、を有する。
【0028】
また、本発明の対象単語情報利用型読み判定モデルは、
少なくとも、単語の文字数、第1音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
対象単語情報利用型判定手段42は、
対象単語情報利用型読み判定モデルに対して、抽出された対象単語の単語情報から得られる少なくとも単語の文字数、第1音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む。
【0029】
また、本発明の文脈利用型読みクラス判定モデルは、
少なくとも、単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
文脈利用型判定手段43は、
文脈利用型読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる少なくとも各単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける)、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む。
【0030】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定装置であって、
処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得する形態素解析手段と、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出手段と、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出手段と、
一括読みクラス判定モデルを用いた一括判定を行い、第1候補を読みクラス判定の結果とする一括判定手段と、
判定された読みクラスに応じて読み付与を行う読み付与手段と、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力手段と、を有する。
【0031】
上記の一括読みクラス判定モデルは、少なくとも、アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞数字タイプ(先頭文字が“0”かどうか)を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第1位の候補を選択する順位関数を有し、
一括判定手段は、
一括読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる、少なくとも、
アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、
数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む。
【0032】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定プログラムであって、
処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得する形態素解析ステップと、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出ステップと、
対象単語抽出ステップで抽出された各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出ステップと、
対象単語抽出ステップで抽出された対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行う対象単語情報利用型判定ステップと、
読みクラスの第1候補のスコアが所定の信頼度閾値未満、あるいは、対象単語抽出ステップで抽出された対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行う文脈利用型判定ステップと、 対象単語情報利用型判定ステップと該文脈利用型判定ステップの第1候補のスコアを比較して、該対象単語情報利用型判定の読みクラスの第1の候補のスコアと、該文脈利用型判定で判定された第1候補の読みのクラスのスコアとスコアの重み(但し、スコアの重みは定数)を乗算した値のうち、値の大きい読みクラスを最終結果とし、該対象単語情報利用型判定ステップの読みクラスの第1候補のスコアが所定の信頼度閾値以上、あるいは、対象単語情報利用型判定ステップと文脈利用型判定ステップの第1候補が同一、あるいは、対象単語が数字列の場合には、該第1候補を読みクラス判定の最終結果とする最終判定ステップと、
最終判定ステップで判定された読みクラスに応じて読み付与を行う読み付与ステップと、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力ステップと、をコンピュータ上で実行する。
【0033】
また、上記の対象単語情報利用型判定ステップは、
少なくとも、単語の文字数、第1音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有する対象単語情報利用型読み判定モデルに対して、抽出された対象単語の単語情報から得られる少なくとも単語の文字数、第1音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む。
【0034】
また、上記の文脈利用型判定ステップは、
少なくとも、単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有する文脈利用型読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる少なくとも各単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける)、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む。
【0035】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定プログラムであって、
処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得する形態素解析ステップと、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出ステップと、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出ステップと、
一括読みクラス判定モデルを用いた一括判定を行い、第1候補を読みクラス判定の結果とする一括判定ステップと、
判定された読みクラスに応じて読み付与を行う読み付与ステップと、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力ステップと、をコンピュータ上で実行する。
【0036】
上記の一括判定ステップは、
少なくとも、アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞数字タイプ(先頭文字が“0”かどうか)を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第1位の候補を選択する順位関数を有する一括読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる、少なくとも、
アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、
数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む。
上記のように本発明は、アルファベット列及び数字列に対して、各種辞書等より収集が容易な当該文字列自身の情報、及び、コーパス等を作成するコストが必要な当該文字列近辺の文字列情報を利用した統計モデルを用いて、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補を決め、前後の単語の文脈との関係から属性を判定して読みクラスを絞りこむことを可能にする。
【0037】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態を説明する。
【0038】
最初に読み情報決定装置の概要を説明する。
【0039】
図3は、本発明の一実施の形態における読み情報決定装置の構成を示す。
【0040】
同図に示す読み情報決定装置は、テキスト入力部1、形態素解析部2、対象単語抽出部3、読みクラス判定部4、読み付与部5、単語情報出力部6、単語辞書7、及び読みクラス判定モデル8から構成される。
【0041】
テキスト入力部1は、テキストと設定情報を入力する。
【0042】
ここで、テキストは、キーボードから入力される、あるいはハードディスクやメモリ等に格納されている等の、読み等の単語情報を付与する対象となる任意のテキストであり、形態素解析部2に渡す。
【0043】
また、設定情報(対象単語列抽出部3で用いられる)として、読みクラスの判定を行う単語を構成する文字列の条件(指定された字種列(アルファベット、全文大文字、小文字等))であり、例えば、全アルファベット列、全数字列、未知語のあったアルファベット列と全数字列、未知語または、読みの多義のあるアルファベット列、または、全く判定しない等)、出力する単語情報の形式(例えば、全ての単語情報をメモリに出力、読みだけを標準出力に出力、表記と読みをハードディスク上のファイルに出力等)からなり、キーボードから入力される、あるいは、ハードディスクやメモリ等に格納されている情報である。読みクラスの判定を行う字種の指定は、対象単語列抽出部3に渡す。出力する単語情報の形式は、単語情報出力部6に渡す。
【0044】
形態素解析部2は、テキスト入力部1から受け取ったテキストを、単語表記、品詞、読み、アクセント型等を対応付けて記憶した単語辞書7を用いて、単語に区切り、表記、品詞、読み、アクセント型などからなる単語情報を付与する。ここで、単語辞書7に登録されておらず、未知語となった単語は字種単位でまとめて1語として扱う。また、数字はまとめて1語として扱う。
【0045】
対象単語列抽出部3は、テキスト入力部1から得られた読みクラスの判定を行う単語の指定により、指定された単語を、形態素解析部3から得られた単語情報の中から抽出して、読みクラスの判定を行う対象単語の抽出を行う。
【0046】
読みクラス判定部4は、対象単語列抽出部3が抽出した各対象単語に対して、読みクラス判定モデル8を利用して、読みクラスの判定を行う。ここで判定された読みクラスは、形態素解析部2が出力した単語情報に追加する。読みクラス判定部4及び読みクラス判定モデル8の詳細については後述する。
【0047】
読み付与部5は、対象単語列抽出部3で抽出された各対象単語に対して、付与された読みクラスに応じて、読みを付与する。
【0048】
具体的には、数字列に対しては、判定された数字読みクラスに応じて、例えば、表記のゆれを吸収するための日本語の数表記を七つの形式に分類し、数表記の標準形を定め、これらに標準的な音韻とアクセント、ポーズを付与する規則を作成し、また、数字に助数詞が連接した場合の数詞、助数詞の音韻変化とアクセント結合についての規則化を行う、「宮崎正弘,『日本文音声変換のための数字読み規則』,情報処理学会論文誌,1984年6月,第25巻、第6号、pp.1035−1043」に示されるような規則を適用して読みを付与する。アルファベット列に対しては、アルファベット読みと判定された単語には、アルファベット各文字とその読みを対応させたアルファベット読み対応表(例:A=エー,B=ビー)を用いて読みを付与し、ローマ字読みと判定された単語には、ローマ字とその読みを対応させたローマ字読み対応表(例:A=ア,KA=カ)を用いて読みを付与し、英語読み、フランス語読みなどの各小国語に対しては、それぞれの言語毎に、例えば、特開2001−142877公報に示される方法などを用いて読みを付与する。この方法は、英文字とカタカナ対応データから作成された音訳モデルに基づき、英単語とカタカナの同時出現確率が最大となる経路を探索するとにより、任意の英単語について最適なカタカナ音訳を行うものである。
【0049】
ここで付与された読みは、形態素解析部2で出力した単語情報を上書きする(単語情報が読みの多義を持つ構造の場合には、ここで付与された読みを第一位とする)。なお、当該読み付与5が読みを付与するために、ローマ字読みの場合にはローマ字表、アルファベット読みの場合には、アルファベット表、英語読み、フランス語読み等で特開2001−142877号公報に示される方法を用いる場合には、音訳モデルが必要となるため、これらの表を当該読み付与部5内部または、外部にデータベースとして設けられるものとする。
【0050】
単語情報出力部6は、テキスト入力部1から得られた出力する単語情報の形式に従って単語情報を指定された出力先に指定された形式で出力する。
【0051】
[第1の実施の形態]
上記の読みクラス判定部4の詳細な処理について説明する。
【0052】
図4は、本発明の第1の実施の形態における読みクラス判定部の構成を示す。同図に示す読みクラス判定部4は、読みクラス候補抽出部41、対象単語情報利用型判定部42、文脈利用型判定部43、最終判定部44からなる。また、読みクラス判定モデル8は、対象単語情報利用型読みクラス判定モデル81と文脈利用型読みクラス判定モデル82を有し、対象単語情報利用型読みクラス判定モデル81は、対象単語情報利用型判定部42により参照され、文脈利用型読みクラス判定モデル82は、文脈利用型判定部43により参照される。
【0053】
読みクラス候補抽出部41は、対象とする読みクラスのうち、対象単語列抽出部3が抽出した対象単語が取り得る読みクラスを抽出する。例えば、数字列の場合には、アルファベット読みやローマ字読みといった読みクラスにはなり得ないので、これらのクラスを除外する。また、アルファベット列では棒読みや桁読みというクラスが除外され、さらに、ローマ字になり得ないもの、例えば、ローマ字で用いられない文字が存在(例:EMON)、ローマ字であり得ない文字列の並びが存在(例:RESTAURAN)した場合には、ローマ字読みというクラスも除外される。
【0054】
対象単語情報利用型判定部42は、対象単語列抽出部3が抽出した対象単語の単語情報から得られる属性を対象単語情報利用型読みクラス判定モデル81に入力する。
【0055】
ここでは、アルファベット列のみを対象としている。これは、アルファベット列は対象単語の情報だけで読みクラスが決定できる場合が数多くあり得るが(例:「beautiful」=英語読み、「SVM」=アルファベット読みなど)、数字列は先に挙げた「611」の例のように、対象単語の情報のみでは読みクラスが決定できないからである。
【0056】
対象単語情報利用型読みクラス判定モデル81は、以下に述べる属性を入力とする識別関数と、識別関数の出力値を入力して、各読みクラス候補の指定順位をスコア付きで出力する順位関数からなる。日本語テキストコーパス(または、辞書)等を用いて学習データを作成し、例えば、「山田寛康、他1名、『Support Vector Machineの多値分類問題への適用法について』、情報処理学会研究報告: 自然言語処理、2001年11月20日、pp.33−38」に数種類示されるSupport Vector Machine(SVM)を多値分類拡張したもの等を学習器として用いて、識別関数のパラメータは予め決定しておく。利用する属性は、少なくとも単語の文字数と、第1音節、末尾音節の表記を含む。それ以外の音節の表記を属性に加えても構わない。ここでの音節の境界は、“母音(aiueo) +それ以外の文字”となる位置とする。なお、順位関数としては、例えば、前述の山田他の文献に示されるpairwise法により順位を決定し、投票されたクラスの距離の緩和をスコアとするものなどが考えられる。
【0057】
文脈利用型判定部43は、対象単語列抽出部3が抽出した対象単語及びその隣接単語の単語情報から得られる属性を文脈利用型読みクラス判定モデル82に入力して、各読みクラス候補の推定順序をスコア付で出力する。
文脈利用型読みクラス判定モデル82は、以下に述べる属性を入力とする識別関数と、識別関数の出力値を入力して、各読みクラス候補の推定順位をスコア付きで出力する順位関数からなる。日本語テキストコーパス(または、辞書)等を用いて学習データを作成し、対象単語情報利用型判定モデル81で用いた学習器を用いて、日本語テキストコーパス等から学習データを収集し、予め作成しておく。利用する属性は、対象単語、及びその前方M個の単語(M>0、任意に設定可能)、後方N個の単語(N>0、任意に設定可能)の文字数、字種(アルファベット列は、すべて大文字、先頭大文字、その他に分ける)、品詞等である。
【0058】
なお、順位関数としては、例えば、前述の山田他の文献に示されるpairwise法により順位を決定し、投票されたクラスの距離の緩和をスコアとするものなどが考えられる。
【0059】
最終判定部44は、対象単語情報利用型判定部42と文脈利用型判定部43の判定結果より、最終的に判定した読みクラスを出力する。
【0060】
図5は、本発明の第1の実施の形態における読みクラス判定処理動作のフローチャートである。
【0061】
ステップ101) まず、現在の処理対象単語から、取り得る読みクラスを抽出する。
【0062】
ステップ102) 対象単語が数字列であるか判定し、数字列である場合にはステップ105に移行する。また、数字列でない場合にはステップ103に移行する。
【0063】
ステップ103) 対象単語が数字列でない場合には、対象単語情報利用型判定を行い、ステップ101で抽出された各読みクラス候補の推定順位をスコア付きで出力する。
【0064】
ステップ104) ステップ103で出力された読みクラス候補第1位のスコアが信頼性閾値以上であるか判定し、信頼性閾値以上である場合には、ステップ108に移行し、信頼性閾値未満である場合には、ステップ105に移行する。ここで、信頼性閾値は、経験的に予め設定しておく値である。
【0065】
ステップ105) 読みクラス候補第1位のスコアが信頼性閾値以上でない場合、あるいは、対象単語が数字列の場合は、文脈利用型判定を行い、各読みクラス候補の推定順位をスコア付きで出力する。ここで、判定を行う読みクラスの候補は、ステップ101で抽出された読みクラスの候補のすべてとしてもよいし、ステップ103で順位付けされた読みクラスのうちの上位いくつかとする、あるいは、ステップ103で得られたスコアがある値以上の読みクラスのみとする等の絞り込みを行ってもよい(この場合でも、ステップ103を通らない場合は、ステップ101で抽出された読みクラス候補すべてとする)。
【0066】
ステップ106) ステップ103が行われているかどうかを判定し、行われている場合には、ステップ103とステップ105で判定された各第1位の読みクラスが同じであるか判定する。ステップ103が行われなかった場合と、ステップ103が行われ、ステップ105と第1位の読みクラスが同じ場合には、ステップ108へ移行する。それ以外の場合にはステップ107に移行する。
【0067】
ステップ107) ステップ103で判定された第1位の読みクラスのスコアと、ステップ105で判定された第1位の読みクラスの“スコア*スコアの重み”(但し、スコアの重みは定数)の値のうち、値の大きい読みクラスを最終的な読みクラスとし、処理を終了する。スコア重みは、経験的に予め設定しておく定数である。
【0068】
ステップ108) ステップ103あるいはステップ105(行われたもの)で判定された第1位の読みクラスを最終的な読みクラスとし、処理を終了する。
[第2の実施の形態]
図6は、本発明の第2の実施の形態における読みクラス判定部の構成図である。同図に示す読みクラス判定部4は、読みクラス候補抽出部41と一括判定部45を有し、一括判定部45は一括読みクラス判定モデル83を参照する。
【0069】
読みクラス候補抽出部41は、一括判定部45が出力対象とする読みクラスのうち、対象単語列抽出部3が抽出した対象単語が取り得る読みクラスを抽出する。これは、前述の第1の実施の形態と全く同一である。
【0070】
一括判定部45は、対象単語列抽出部3が抽出した対象単語及びその隣接単語の単語情報から得られる属性を一括読みクラス判定モデル83に入力して、各読みクラス候補の推定順位を得て、その第1位となった読みクラスを最終的な読みクラスとし、出力する。
一括読みクラス判定モデル83は、対象単語情報利用型読みクラス判定モデル81で用いた学習器を用いて、日本語テキストコーパス(または、辞書)等から抽出した属性と読みクラスのセットを学習データとして予め作成される識別関数と、識別関数の出力値を入力して、各読みクラス候補の推定順位をスコア付きで出力る順位関数からなる。ここで一括読みクラス判定モデル83は、アルファベット列と数字列をまとめて1つのモデルとしてもよいし、アルファベット列用と数字列用の2つのモデルに分けてもよい。
【0071】
利用する属性は、対象単語、及び対象単語前方M個の単語(M>0,任意に設定可能)、及び対象単語後方N個の単語(N>0,任意に設定可能)に対する単語属性と、対象単語前方M個の読みクラスである。
【0072】
アルファベット列用の単語属性としては、少なくとも、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は、全て大文字、先頭大文字、全て小文字、その他に分ける)を含む。ここで、単語がアルファベット列以外の場合には、第1音節表記、末尾音節表記はなしとなる。
【0073】
数字列用の単語属性としては、少なくとも、文字数、文字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む。
【0074】
アルファベット列と数字列用の(1つにまとめた)属性としては、少なくとも、文字数、第1音節表記、末尾音節表記、文字種(アルファベット列は、全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む。
【0075】
【実施例】
以下では、図7に示すテキストを入力例として、図7から図12を用いて本発明の実施例を説明する。
【0076】
図7は、本発明の一実施例の入力から対象単語抽出までのデータ例を示し、図8は、本発明の一実施例の文脈利用型判定の属性例を示し、図9〜図11は、本発明の一実施例の一括判定の属性例を示し、図12は、本発明の一実施例の最終出力する単語情報例を示す。
【0077】
ここでは、入力される設定情報は、『読みクラスの判定を行う単語=全アルファベット列・全数字列、出力する単語の形式=すべての単語情報をメモリに出力である』としておくが、以下では、部分的に他の設定情報の場合にはどうなるかについても説明を加える。
【0078】
テキスト入力部1では、『読みクラスの判定を行う単語=全アルファベット列・全数字列』を対象単語抽出部3に渡す。また、『出力する単語の形式=全ての単語情報をメモリに出力』を単語情報出力部6に渡す。また、テキストを形態素解析部2に渡す。
【0079】
次に、形態素解析部2は、単語辞書7を用いて、図7に示すように単語の認定を行い、各単語毎に、表記、品詞、読み、字種などからなる単語情報が得られる。
【0080】
次に、対象単語抽出部3は、『単語情報と、読みクラスの判定を行う単語=全アルファベット列・全数字列』という指定より、図7に示す対象単語を抽出する。
【0081】
ちなみに、設定情報として、『読みクラスの判定を行う単語=未知語のアルファベット』が入力された場合には、「1:YOKOSUKA」と「13:AIR」のみを対象単語として抽出する。
【0082】
以下、読みクラス判定部4として、前述の第1の実施の形態における図4に示した読みクラスの判定処理について説明する。ここでは、「1:YOKOSUKA」、「4:10」の例を用いて図5のフローチャートに基づいて説明する。
【0083】
ここでは、アルファベット読みクラスとして、アルファベット読み、英語読み、ローマ字読み、数字読みクラスとして、整数型、小数型、分数型、概数型、棒読み型、範囲型、併記型、英語型(「宮崎正弘、「日本文音声変換のための数詞読み規則」、情報処理学会論文誌、1984年6月、第25巻、第6号、pp.1035−1043. 」の分類に英語型を加えたもの)を扱うこととする。
【0084】
対象単語情報利用型読みクラス判定モデル81は、単語文字数と第1音節・末尾音節表記を属性として、SVMをペアワイズ法により、多値分類に拡張したモデルを利用するものとする。
【0085】
文脈利用型読みクラス判定モデル82は、対象単語及び前後2単語それぞれについての文字数、字種、単語表記、先頭文字表記、末尾文字表記、品詞、及び前方2つの読みクラス(それらが読みクラス判定の対象単語の場合のみ)を属性として、SVMをペアワイズ法により多値分類に拡張したモデルを利用するものとする。
【0086】
また、ステップ104の信頼度閾値=1.00、ステップ107のスコアの重み=1.00とする。
【0087】
ステップ105では、読みクラスを限定して、ステップ103を通る場合には、ステップ103の上位2位の読みクラスに対する判定を行うものとし、ステップ103、ステップ105のスコアとしては、第1解=第2解との距離、それ以外=0とする。
【0088】
まず、「1:YOKOSUKA」の場合を示す。
【0089】
図6のステップ101において、「YOKOSUKA」は、アルファベット列であるため、全数字読みクラスを除外する。また、ローマ字になり得る綴りかをチェックして、なり得ると判定する。この結果、読みクラス候補は、アルファベット読み、英語読み、ローマ字読みの3種類となる。
【0090】
次に、ステップ102で、「YOKOSUKA」は数字列ではないので、ステプ103に移行する。
【0091】
ステップ103では、単語文字数=8、第1音節表記=YO、末尾音節表記=KAを属性として抽出し、アルファベット読み、英語読み、ローマ字読みを読みクラス候補として、対象単語情報利用型読みクラス判定モデル81に適用する。この結果、
1位:ローマ字読み、スコア=2.54
2位:英語読み、スコア=0
3位:アルファベット読み、スコア=0
が得られたとする。
【0092】
ステップ104では、第1解スコア=2.54、信頼度閾値=1.00であるので、ステップ108に移行し、ローマ字読みと判定して処理を終了する。
【0093】
次に、「4:10」の場合を示す。
【0094】
ステップ101において、「10」は数字列であるため、全アルファベット読みクラスを除外する。この結果、読みクラス候補は、整数型、小数型、分数型、概数型、棒読み型、範囲型、併記型、英語型となる。
【0095】
次に、ステップ102で「10」は数字列なので、ステップ105に移行する。
【0096】
ステップ105で、判定に用いる属性を図8に示す。読みクラス候補を整数型、小数型、分数型、概数型、棒読み型、範囲型、併記型、英語型として、この属性を、文脈利用型読み判定モデル82に適用し、この結果、
1位:英語型、スコア=0.03
2位:整数型、スコア=0
3位:小数型、スコア0
(以下、略)
が得られたとする。
【0097】
ステップ106では、ステップ103の判定を行っていないので、ステップ108に移行し、英語型と判定して処理を終了する。
【0098】
次に、読みクラス判定部4として、図6に示す前述の第2の実施の形態を用いた場合の実施例を「4:10」,「13:AIR」の例を用いて説明する。
【0099】
ここでは、アルファベット読みクラスとして、アルファベット読み、英語読み、ローマ字読み、フランス語読み、イタリア語読み、数字読みクラスとして、整数型、小数型、分数型、概数型、棒読み型、範囲型、併記型、英語型(「宮崎正弘、「日本文音声変換のための数詞読み規則」、情報処理学会論文誌、1984年6月、第25巻、第6号、pp.1035−1043. 」の分類に英語型を加えたもの)を扱うこととする。
【0100】
一括読みクラス判定モデル83は、ここでは、アルファベット列用と数字列用の2つのモデルに分けるものとする。いずれのモデルもSVMをペアワイズ法により多値分類に拡張したモデルを利用するものとし、対象単語及び前後2単語についての以下に示すそれぞれの単語属性、及び、前方2単語の読みクラスを属性とするものとする。
【0101】
アルファベット列用の単語属性は、文字数、第1、第2、末尾−1、末尾音節表記(アルファベット列以外は値なし)、文字種(アルファベット列は、全て大文字、先頭大文字、全て小文字、その他に分ける)とする。
【0102】
数字列用の単語属性は、表記、文字数、数字タイプ(先頭文字が“0”かどうか)、主品詞、文字種(アルファベット列は、すべて大文字、先頭大文字、全て小文字、その他に分ける)とする。
【0103】
図6の読みクラス候補抽出部41において、「4:10」は、数字列であるため、全アルファベット読みクラスを除外する。この結果、読みクラス候補は、整数型、小数型、分数型、概数型、棒読み型、範囲型、並記型、英語型の8種類となる。
【0104】
次に、一括判定部45では、上記8種類を読みクラスの候補として、図9に示す属性を、数字列用の一括読みクラス判定モデル83に適用し、この結果、
1位:英語型
2位:整数型
(以下略)
が得られたとする。これにより、英語型と判定して処理を終了する。
【0105】
図6の読みクラス候補抽出部41において「AIR」は、アルファベット列であるため、全数字読みクラスを除外する。また、ローマ字では「R」が語尾となることはあり得ないので、ローマ字読みも読みクラスから除外する。この結果、読みクラスの候補は、アルファベット読み、英語読み、イタリア語読み、フランス語読みの4種類となる。
【0106】
次に、一括判定部45では、アルファベット読み、英語読み、フランス語読み、イタリア語読みを読みクラスの候補として、図10に示す属性を、一括読みクラス判定モデル83に適用し、この結果、
1位:英語読み
2位:アルファベット読み
3位:イタリア語読み
4位:フランス語読み
が得られたとする。これにより、英語読みと判定して処理を終了する。
【0107】
次に、一括読みクラス判定モデル83として、アルファベット列と数字列を纏めて1つにした場合の具体例を「1:YOKOSUKA」の例を用いて説明する。
【0108】
このモデルはSVMをペアワイズ法により多値分類に拡張したモデルを利用するものとし、対象単語及び前後2単語についての以下に示す単語属性、及び、前方2単語の読みクラス属性とするものである。
【0109】
単語属性は、表記、文字数、第1、第2、末尾−1、末尾音節表記(アルファベット列以外は値なし)、文字種(アルファベット列は、すべて大文字、先頭大文字、すべて小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)とする。
【0110】
図6の読みクラス候補抽出部41において、「1:YOKOSUKA」は、アルファベット列であるため、全数字読みクラスを除外する。この結果、読みクラスの候補は、アルファベット読み、英語読み、ローマ字読み、フランス語読み、イタリア語読みとなる。
【0111】
次に、一括判定部45では、上記読みクラスを候補として、図11に示す属性を、一括読みクラス判定モデル83に適用し、この結果、
1位:ローマ字読み
2位:英語読み
3位:イタリア語読み
4位:フランス語読み
5位:アルファベット読み
が得られたとする。これにより、ローマ字読みと判定して処理を終了する。
【0112】
図3において、読みクラス判定部4は、上記に示したように、対象単語抽出部3で抽出された単語すべてに読みクラスを付与する(図12の読みクラス参照)。
【0113】
次に読み付与部5は、付与した読みクラスに基づき読みを付与する。
【0114】
例えば、「1:YOKOSUKA」はローマ字読みと判定されているので、「YO→ヨ」、「KO→コ」、「SU→ス」、「KA→カ」と変換され、「ヨコスカ」という読みを得る。
【0115】
「4:10」は、英語型と判定されているので、予め用意しておいた、英語読み変換表により、「テン」という読みを得る。
【0116】
「13:AIR」は英語型と判定されているので、英語用に作られた「特開2001−142877号公報」等を利用して、「エア」という読みを得る。なお、当該「特開2001−142877号公報」による方法を用いる場合には、各国語音訳モデルを用いるものとする。
【0117】
最後に、単語情報出力部6では、設定情報で『出力する単語の形式=すべての単語情報をメモリに出力』としてあるので、図12の単語情報をメモリに出力する。
【0118】
この出力された単語情報は、例えば、音声合成装置へ入力すれば、合成音声が出力できる。
【0119】
なお、上記の第1の実施の形態及び第2の実施の形態における読みクラス判定部の動作をプログラムとして構築し、読み情報決定装置として利用されるコンピュータにインストールし、CPU等の制御手段で実行することも可能である。また、図3に示す単語辞書をデータベースとして構築し、記憶手段に記憶しておき、他の構成要素についてもプログラムとして構築し、読み情報決定装置として利用されるコンピュータにインストールし、CPU等の制御手段で実行することも可能である。
【0120】
また、構築されたプログラムを読み情報決定装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスクやCD−ROM等の可搬記憶媒体に格納しておき、本発明を実施するコンピュータにインストールすることも可能である。
【0121】
なお、本発明は上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0122】
【発明の効果】
上述のように、本発明によれば、アルファベット列及び数字列に対して、各種辞書等により、収集が用意な当該文字列自身の情報、及びコーパス等を作成するコストが必要な当該文字列近辺の文字列情報を利用した統計モデルを用いて、アルファベット読みクラス、数字読みクラスを推定することにより、日本語テキスト中に含まれる英数字列の読み精度を向上させることができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における読み情報決定装置の構成図である。
【図4】本発明の第1の実施の形態における読みクラス判定部の構成図である。
【図5】本発明の第1の実施の形態における読みクラス判定処理動作のフローチャートである。
【図6】本発明の第2の実施の形態における読みクラス判定部の構成図である。
【図7】本発明の一実施例の入力から対象単語抽出までのデータ例である。
【図8】本発明の一実施例の文脈利用型判定の属性例である。
【図9】本発明の一実施例の一括判定の属性例(その1)である。
【図10】本発明の一実施例の一括判定の属性例(その2)である。
【図11】本発明の一実施例の一括判定の属性例(その3)である。
【図12】本発明の一実施例の最終出力する単語情報例である。
【符号の説明】
1 テキスト入力部
2 形態素解析手段、形態素解析部
3 対象単語抽出手段、対象単語抽出部
4 読みクラス判定部
5 読み付与手段、読み付与部
6 単語情報出力手段、単語情報出力部
7 単語辞書
8 読みクラス判定モデル
41 読みクラス候補抽出部
42 対象単語情報利用型判定手段、対象単語情報利用型判定部
43 文脈利用型判定手段、文脈利用型判定部
44 最終判定手段、最終判定部
45 一括判定部
81 対象単語情報利用型読みクラス判定モデル
82 文脈利用型読みクラス判定モデル
83 一括読みクラス判定モデル

Claims (15)

  1. 処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定方法において、
    前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得し、
    前記設定情報として入力された読みクラスの判定を行う単語の指定により、前記単語情報の中から読みクラスの判定を行う対象単語を抽出し、
    各前記対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出し、
    抽出された前記対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行い、
    読みクラスの第1候補のスコアが所定の信頼度閾値未満あるいは、抽出された前記対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行い、前記対象単語情報利用型判定と該文脈利用型判定の第1候補のスコアを比較して、該対象単語情報利用型判定の読みクラスの第1の候補のスコアと、該文脈利用型判定で判定された第1候補の読みのクラスのスコアとスコアの重み(但し、スコアの重みは定数)を乗算した値のうち、値の大きい読みクラスを最終結果とし、
    前記対象単語情報利用型判定の前記読みクラスの第1候補のスコアが所定の信頼度閾値以上、あるいは、前記対象単語情報利用型判定と前記文脈利用型判定の第1候補が同一、あるいは、対象単語が数字列の場合には、該第1候補を読みクラス判定の最終結果とし、
    前記対象単語が数字列の場合には、文脈利用型判定を行い、その第1候補を読みクラス判定の最終結果とし、
    判定された前記読みクラスに応じて読み付与を行い、
    前記設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力することを特徴とする読み情報決定方法。
  2. 前記対象単語情報利用型読み判定モデルは、少なくとも、単語の文字数、第1音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
    前記対象単語情報利用型読み判定モデルに対して、抽出された前記対象単語の単語情報から得られる少なくとも単語の文字数、第1音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、該識別関数の出力値を前記順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する請求項1記載の読み情報決定方法。
  3. 前記文脈利用型読みクラス判定モデルは、
    少なくとも、単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
    前記文脈利用型読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる少なくとも各単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける)、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、該識別関数の出力値を前記順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する請求項1記載の読み情報決定方法。
  4. 処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定方法において、
    前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得し、
    前記設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出し、
    各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出し、
    一括読みクラス判定モデルを用いた一括判定を行い、第1候補を読みクラス判定の結果とし、
    判定された読みクラスに応じて読み付与を行い、
    設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力することを特徴とする読み情報決定方法。
  5. 前記一括読みクラス判定モデルは、少なくとも、アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞数字タイプ(先頭文字が“0”かどうか)を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第1位の候補を選択する順位関数を有し、
    前記一括読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる、少なくとも、
    アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、
    数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
    アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する請求項4記載の読み情報決定方法。
  6. 処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定装置であって、
    前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得する形態素解析手段と、
    前記設定情報として入力された読みクラスの判定を行う単語の指定により、前記単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出手段と、
    前記対象単語抽出手段で抽出された各前記対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出手段と、
    前記対象単語抽出手段で抽出された前記対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行う対象単語情報利用型判定手段と、
    読みクラスの第1候補のスコアが所定の信頼度閾値未満、あるいは、対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行う文脈利用型判定手段と、
    前記対象単語情報利用型判定手段と該文脈利用型判定手段の第1候補のスコアを比較して、該対象単語情報利用型判定手段の読みクラスの第1の候補のスコアと、該文脈利用型判定手段で判定された第1候補の読みのクラスのスコアとスコアの重み(但し、スコアの重みは定数)を乗算した値のうち、値の大きい読みクラスを最終結果とし、該対象単語情報利用型判定手段の前記読みクラスの第1候補のスコアが所定の信頼度閾値以上、あるいは、前記対象単語情報利用型判定手段と前記文脈利用型判定手段の第1候補が同一、あるいは、対象単語が数字列の場合には、該第1候補を読みクラス判定の最終結果とする最終判定手段と、
    前記最終判定手段で判定された前記読みクラスに応じて読み付与を行う読み付与手段と、
    前記設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力手段と、を有することを特徴とする読み情報決定装置。
  7. 前記対象単語情報利用型読み判定モデルは、
    少なくとも、単語の文字数、第1音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
    前記対象単語情報利用型判定手段は、
    前記対象単語情報利用型読み判定モデルに対して、抽出された前記対象単語の単語情報から得られる少なくとも単語の文字数、第1音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む請求項6記載の読み情報決定装置。
  8. 前記文脈利用型読みクラス判定モデルは、
    少なくとも、単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
    前記文脈利用型判定手段は、
    前記文脈利用型読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる少なくとも各単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける)、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、該識別関数の出力値を前記順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む請求項6記載の読み情報決定装置。
  9. 処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定装置であって、
    前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得する形態素解析手段と、
    前記設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出手段と、
    各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出手段と、
    一括読みクラス判定モデルを用いた一括判定を行い、第1候補を読みクラス判定の結果とする一括判定手段と、
    判定された読みクラスに応じて読み付与を行う読み付与手段と、
    設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力手段と、を有することを特徴とする読み情報決定装置。
  10. 前記一括読みクラス判定モデルは、少なくとも、アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞数字タイプ(先頭文字が“0”かどうか)を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第1位の候補を選択する順位関数を有し、
    前記一括判定手段は、
    前記一括読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる、少なくとも、
    アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、
    数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
    アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
    を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む請求項9記載の読み情報決定装置。
  11. 処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定プログラムであって、
    前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得する形態素解析ステップと、
    前記設定情報として入力された読みクラスの判定を行う単語の指定により、前記単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出ステップと、
    前記対象単語抽出ステップで抽出された各前記対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出ステップと、
    前記対象単語抽出ステップで抽出された前記対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行う対象単語情報利用型判定ステップと、
    読みクラスの第1候補のスコアが所定の信頼度閾値未満、あるいは、前記対象単語抽出ステップで抽出された前記対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行う文脈利用型判定ステップと、
    前記対象単語情報利用型判定ステップと該文脈利用型判定ステップの第1候補のスコアを比較して、該対象単語情報利用型判定の読みクラスの第1の候補のスコアと、該文脈利用型判定で判定された第1候補の読みのクラスのスコアとスコアの重み(但し、スコアの重みは定数)を乗算した値のうち、値の大きい読みクラスを最終結果とし、該対象単語情報利用型判定ステップの前記読みクラスの第1候補のスコアが所定の信頼度閾値以上、あるいは、前記対象単語情報利用型判定ステップと前記文脈利用型判定ステップの第1候補が同一、あるいは、対象単語が数字列の場合には、該第1候補を読みクラス判定の最終結果とする最終判定ステップと、
    前記最終判定ステップで判定された前記読みクラスに応じて読み付与を行う読み付与ステップと、
    前記設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力ステップと、をコンピュータ上で実行することを特徴とする読み情報決定プログラム。
  12. 前記対象単語情報利用型判定ステップは、
    少なくとも、単語の文字数、第1音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有する前記対象単語情報利用型読み判定モデルに対して、抽出された前記対象単語の単語情報から得られる少なくとも単語の文字数、第1音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、該識別関数の出力値を該順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む請求項11記載の読み情報決定プログラム。
  13. 前記文脈利用型判定ステップは、
    少なくとも、単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有する前記文脈利用型読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる少なくとも各単語の文字数、字種(アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける)、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む請求項11記載の読み情報決定プログラム。
  14. 処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定プログラムであって、
    前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得する形態素解析ステップと、
    前記設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出ステップと、
    各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出ステップと、
    一括読みクラス判定モデルを用いた一括判定を行い、第1候補を読みクラス判定の結果とする一括判定ステップと、
    判定された読みクラスに応じて読み付与を行う読み付与ステップと、
    設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力ステップと、をコンピュータ上で実行することを特徴とする読み情報決定プログラム。
  15. 前記一括判定ステップは、
    少なくとも、アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞数字タイプ(先頭文字が“0”かどうか)を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第1位の候補を選択する順位関数を有する前記一括読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方M個の単語(M>0,任意に設定可能)、後方N個の単語(N>0,任意に設定可能)の単語情報から得られる、少なくとも、
    アルファベット列用のみとしては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)を含む属性、
    数字列用のみとしては、文字数、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
    アルファベット列と数字列共用としては、文字数、第1音節表記、末尾音節表記、字種(アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける)、品詞、数字タイプ(先頭文字が“0”かどうか)を含む属性、
    を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む請求項14記載の読み情報決定プログラム。
JP2003046042A 2002-11-07 2003-02-24 読み情報決定方法及び装置及びプログラム Expired - Lifetime JP3952964B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003046042A JP3952964B2 (ja) 2002-11-07 2003-02-24 読み情報決定方法及び装置及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002324323 2002-11-07
JP2003046042A JP3952964B2 (ja) 2002-11-07 2003-02-24 読み情報決定方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2004206659A true JP2004206659A (ja) 2004-07-22
JP3952964B2 JP3952964B2 (ja) 2007-08-01

Family

ID=32828368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003046042A Expired - Lifetime JP3952964B2 (ja) 2002-11-07 2003-02-24 読み情報決定方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP3952964B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301446A (ja) * 2005-04-22 2006-11-02 Fujitsu Ltd 読み生成装置、読み生成方法及びコンピュータプログラム
JP2007109233A (ja) * 2005-10-09 2007-04-26 Toshiba Corp 音訳モデル及び構文解析統計モデルを訓練するための方法及び装置、及び音訳のための方法及び装置
JP2009064383A (ja) * 2007-09-10 2009-03-26 Advanced Telecommunication Research Institute International 読み付与装置、およびプログラム
CN111580685A (zh) * 2020-05-18 2020-08-25 马福泉 一种蒙古文输入法及输入法系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301446A (ja) * 2005-04-22 2006-11-02 Fujitsu Ltd 読み生成装置、読み生成方法及びコンピュータプログラム
JP4570509B2 (ja) * 2005-04-22 2010-10-27 富士通株式会社 読み生成装置、読み生成方法及びコンピュータプログラム
JP2007109233A (ja) * 2005-10-09 2007-04-26 Toshiba Corp 音訳モデル及び構文解析統計モデルを訓練するための方法及び装置、及び音訳のための方法及び装置
JP2009064383A (ja) * 2007-09-10 2009-03-26 Advanced Telecommunication Research Institute International 読み付与装置、およびプログラム
CN111580685A (zh) * 2020-05-18 2020-08-25 马福泉 一种蒙古文输入法及输入法系统
CN111580685B (zh) * 2020-05-18 2023-05-23 马福泉 一种蒙古文输入法及输入法系统

Also Published As

Publication number Publication date
JP3952964B2 (ja) 2007-08-01

Similar Documents

Publication Publication Date Title
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
US6490563B2 (en) Proofreading with text to speech feedback
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
KR20040101678A (ko) 복합 형태소 분석 장치 및 방법
Luu et al. A pointwise approach for Vietnamese diacritics restoration
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
Sornlertlamvanich et al. Panel: The State of the Art in Thai Language Processing
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
Rajendran et al. Text processing for developing unrestricted Tamil text to speech synthesis system
Nunsanga et al. Part-of-speech tagging for mizo language using conditional random field
JP2006053866A (ja) カタカナ文字列の表記ゆれの検出方法
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Yi et al. Improved grapheme-to-phoneme conversion for mandarin tts
JP3508312B2 (ja) キーワード抽出装置
Zaghal et al. Arabic morphological analyzer with text to voice
Balc et al. A learning-based approach for Romanian syllabification and stress assignment
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JPH0869467A (ja) 日本語文書処理装置
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
JPS63163956A (ja) 文書作成・校正支援装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070423

R150 Certificate of patent or registration of utility model

Ref document number: 3952964

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100511

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110511

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130511

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140511

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term