JP6221764B2

JP6221764B2 - 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム

Info

Publication number: JP6221764B2
Application number: JP2014007666A
Authority: JP
Inventors: 村瀬　健太郎; 健太郎村瀬; 片江　伸之; 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-01-20
Filing date: 2014-01-20
Publication date: 2017-11-01
Anticipated expiration: 2034-01-20
Also published as: JP2015138273A

Description

本発明は、例えば、読みが未知な語の読みを推定する読み推定装置、読み推定方法及び読み推定用コンピュータプログラムに関する。

近年、音声合成技術及び音声認識技術が様々な用途で利用されている。音声合成技術及び音声認識技術では、入力されたテキストデータに含まれる単語の読みを特定するため、あるいは、入力された音声に含まれる単語を特定するために、一般に、単語とその読みが登録された辞書が利用される。このような辞書は、単語辞書と呼ばれることがある。そのため、辞書に登録されていない単語が、入力されたテキストデータまたは音声に含まれていると、その単語の読みが不明であるために、読みが誤った合成音声が生成されてしまったり、あるいは、その単語が認識されないことがある。そこで、辞書には、できるだけ多くの単語が登録されていることが好ましい。

一方、日常において生み出される造語、または町村合併等により新たに命名された市町村名など、年々、新たに生成される単語がある。そして辞書生成後に新たに生成された単語は、その辞書には登録されていないことがある。また、商品名といった、一般的でない単語も、既存の辞書には登録されていない可能性が高い。そこで、例えば、これらの未登録単語にも対応できるように、定期的、あるいは不定期的に、辞書を更新しようとすると、その更新作業は煩雑となる。また、辞書を最初に作成する際にも、辞書には例えば数十万個の単語を登録することになり、その作業量は膨大となる。

一方、Web上のテキストデータまたは業務用商品データベースなどには、辞書に未登録の単語の読みが表されていることがある。そこでこれらのデータを自動解析することで、未登録の単語の読みを特定できれば、辞書に単語を登録する作業が効率化できる。一方、テキスト情報に含まれる用語を解析する技術が提案されている（例えば、特許文献１を参照）。

例えば、特許文献１に開示された音声合成装置は、単語単位に分割されたテキスト情報から複合語を抽出し、複合語に含まれる複数の単語の意味情報を示す複合語意味情報に基づいて、抽出された複合語を分離する位置を決定する。

特開２００４−１０２２４２号公報

しかし、特許文献１に記載の技術では、複合語に含まれる各単語が既知であることが前提となっている。そのため、複合語の一部に未知の単語が含まれていると、特許文献１に記載の技術は、複合語を適切に分離できないので、複合語全体の読みが既知であったとしても、複合語に含まれる未知の単語の読みを正確に特定できない。

そこで本明細書は、一つの側面として、読みが未知の語を含み、かつ、全体として読みが既知の複合語に基づいて、その未知の語の読みを推定できる読み推定装置を提供することを目的とする。

一つの実施形態によれば、読み推定装置が提供される。この読み推定装置は、第１の複合語及びその第１の複合語の読みを表すテキストデータを取得する入力部と、複数の単語及び複数の単語のそれぞれの属性が登録された属性付辞書を記憶する記憶部と、複数の単語のうち、第１の複合語の一部と一致する少なくとも一つの単語のそれぞれを第１の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、その未知の語の候補ごとに、その候補を検出するために第１の複合語から除かれた単語の属性をその候補の属性とする候補検出部と、未知の語の候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、その候補を含む第２の複合語を検出する候補含有複合語検索部と、未知の語の候補のそれぞれについて、その候補を含む第２の複合語のうちでその候補の属性と同じ属性の第２の複合語の出現頻度を算出する属性別頻度算出部と、未知の語の候補のうち、出現頻度が最も高い候補を未知語とし、第１の複合語の読みから未知語以外の部分の読みを除いた部分を未知語の読みと推定する読み推定部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された読み推定装置は、読みが未知の語を含み、かつ、全体として読みが既知の複合語に基づいて、その未知の語の読みを推定できる。

読みが未知の単語を含み、かつ、全体の読みが既知の複合語のリストの一例を示す図である。第１の実施形態による辞書登録装置の概略構成図である。処理部の機能ブロック図である。対象複合語、属性付単語辞書に登録された単語及び未知語候補の関係の一例を示す図である。未知語候補と検索用コーパスに含まれるテキストデータの関係の一例を示す図である。読み推定処理の動作フローチャートである。第２の実施形態による処理部の機能ブロック図である。読み推定装置が実装されたサーバクライアントシステムの概略構成図である。

以下、図を参照しつつ、読み推定装置について説明する。
図１は、読みが未知の語（以下、便宜上、単に未知語と呼ぶ）を含み、かつ、全体の読みが既知の複合語のリストの一例を示す。リスト１００には、三つの複合語「三山木駅」、「江津本町」、「串本町」及びその読み「みやまきえき」、「ごうつほんまち」、「くしもとちょう」が登録されている。ここで、単語「三山木」、「江津」及び「串本」が未知語であり、単語「町」と「本町」の読みが既知であるとする。この場合において、複合語「三山木駅」については、その複合語から既知の単語「駅」を取り除いた残りの部分の読みが、単語「三山木」の読みと推定される。一方、複合語「江津本町」については、「町」及び「本町」の何れも既知の単語なので、複合語「江津本町」から「町」を取り除いた残りの部分「江津本」が未知語なのか、「本町」を取り除いた残りの部分「江津」が未知語なのか単純には特定できない。そのため、独立した語としては使用されない文字列である「江津本」が誤って辞書に登録されてしまうおそれがある。例えば、あるWebサイト上に公開されているテキストデータには、複合語が数十万個ある。したがって、未知語以外の単語を一意に特定できないものが、それらの複合語のうちの数％であったとしても、未知語部分が一意に特定できない複合語の数は数千語にもなる。

そこで、例えば、複合語から既知の単語を取り除くことで得られる未知語の候補ごとに、様々なテキストデータ上での出現頻度を調べ、その出現頻度が最も高い候補を未知語と推定することが考えられる。例えば、上記の複合語「江津本町」に関して、未知語の候補「江津本」は本来意味の無い文字列なので、「江津本」の出現頻度よりも、地名を表す単語である「江津」の出現頻度の方が高くなる。そのため、複合語「江津本町」に含まれる未知語は「江津」であると推定される。

しかし、複合語「串本町」については、その複合語から既知の単語「町」及び「本町」をそれぞれ取り除いて得られる未知語の候補「串本」及び「串」の何れも、意味の有る単語である。そのため、未知語の候補「串本」の出現頻度と未知語の候補「串」の出現頻度の何れも高く、複合語「串本町」に含まれる未知語が特定できないおそれがある。
ここで、発明者は、未知語は、その未知語とともに複合語を形成している他の単語の属性と同じ属性の単語とともに利用されることが多いことに着目した。例えば、「串本」は、地名の属性を持つ「町」だけでなく、同じく地名の属性を持つ「駅」、「温泉」などとともに複合語を形成することがある。

そこで、この読み推定装置は、未知語を含む対象複合語から、既知の１以上の単語をそれぞれ取り除くことで、１以上の未知語の候補を求める。そしてこの読み推定装置は、未知語の候補ごとに、検索用コーパスに含まれる様々なテキストデータについて、その候補を決定する際に対象複合語から取り除いた単語の属性と同じ属性を持つ単語をその候補に結合して得られる複合語の出現頻度を求める。そしてこの読み推定装置は、未知語の候補のうちで、その出現頻度が最も高い候補を未知語として推定し、対象複合語の読みから、未知語以外の単語に相当する読みを取り除いて得られる部分を、その未知語の読みと推定する。なお、本実施形態では、未知語は単語であってもよく、あるいは、二つ以上の単語が結合された複合語であってもよい。

図２は、読み推定装置の一例である、第１の実施形態による辞書登録装置の概略構成図である。本実施形態では、辞書登録装置１は、入力部２と、記憶部３と、通信部４と、処理部５とを有する。入力部２、記憶部３及び通信部４は、処理部５とバスを介して接続されている。

入力部２は、未知語を含む対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを取得する。なお、対象複合語の表記は、例えば、漢字と仮名の組み合わせ、または漢字のみで表記され、一方、対象複合語の読みは、例えば、仮名で表記される。そのために、入力部２は、例えば、キーボードを有する。また、入力部２は、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを通信ネットワークを介して辞書登録装置１と接続された他の機器から取得してもよい。この場合、入力部２は、辞書登録装置１を通信ネットワークに接続するためのインターフェース回路を有する。さらに、入力部２は、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータが記録された磁気記録媒体あるいは光記録媒体といった記録媒体から読み込んでもよい。この場合には、入力部２は、そのような記録媒体のアクセス装置であってもよい。なお、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータは、どのようなファイル形式で表されていてもよい。
入力部２は、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを処理部５へ渡す。

記憶部３は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部３は、処理部５で用いられる各種コンピュータプログラム、及び辞書登録処理に用いられる各種のデータを記憶する。例えば、記憶部３は、様々な単語の漢字仮名表記と各単語の読み及び属性が登録された属性付単語辞書を記憶する。なお、本実施形態における単語の属性とは、その単語が他の単語と複合語を形成した際の他の単語の意味などを表す属性であり、例えば、地名、姓、普通名詞などである。例えば、属性が地名である単語には、「町」、「本町」、「温泉」、「支所」、「駅」、「高校」など、地名の単語と複合語を形成する頻度が高い単語が含まれる。また、属性が姓である単語には、「様」、「殿」、「家」など、姓を表す単語と複合語を形成する頻度が高い単語が含まれる。そして属性が普通名詞である単語には、「料理」、「駒」、「車」など、特定の属性の単語と複合語を形成する頻度が突出して高くなることはない単語が含まれる。

また記憶部３は、未知語の候補を含む複合語である候補含有複合語の検索に利用されるテキストデータの集合である検索用コーパスを記憶していてもよい。さらに、記憶部３は、未知語の表記及び読みを登録すべき辞書を記憶していてもよい。未知語の表記及び読みが登録される辞書は、例えば、音声合成または音声認識において使用される単語辞書である。

通信部４は、検索用コーパスを、通信ネットワークに接続された他の機器から取得する。そのために、通信部４は、通信ネットワークに辞書登録装置１を接続するためのインターフェース回路を有する。
また通信部４は、処理部５から受け取った未知語の表記を表すテキストデータ及び未知語の読みを表すテキストデータを、その未知語が登録される辞書を記憶した装置へ通信ネットワークを介して出力する。なお、入力部２も通信ネットワークを介して対象複合語のテキストデータを取得する場合、入力部２と通信部４は一体化されていてもよい。

処理部５は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部５は、対象複合語に含まれる未知語及びその未知語の読みを推定する。
図３は、処理部５の機能ブロック図である。処理部５は、候補検出部１１と、候補含有複合語検索部１２と、属性別頻度算出部１３と、読み推定部１４と、登録部１５とを有する。
処理部５が有するこれらの各部は、例えば、処理部５が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部５が有するこれらの各部は、その各部の機能を実現する一つの集積回路として辞書登録装置１に実装されてもよい。

候補検出部１１は、属性付単語辞書に登録された単語ごとに、入力された対象複合語の一部と一致するか否か判定する。そして候補検出部１１は、その単語が、対象複合語の一部と一致する場合、その対象複合語からその単語と一致する部分を除いた残りの部分を未知語候補とする。複数の未知語候補が検出される場合、それらの未知語候補は、対象複合語の互いに異なる部分に対応する。ただし、複数の未知語同士の一部が重なっていたり、一方の未知語全体が他方の未知語に含まれることはある。また候補検出部１１は、対象複合語全体の読みから、属性付単語辞書に登録された単語と一致した部分に相当する読みを除いた残りの部分を未知語候補の読みとする。なお、属性付単語辞書に登録された単語と一致するか否かが調べられる複合語の一部は、複合語の末尾の単語、すなわち、接尾語であってもよい。

また候補検出部１１は、未知語候補ごとに、その未知語候補を決定するために、対象複合語から除かれた単語の属性を、その未知語候補の属性とする。そして候補検出部１１は、未知語候補ごとに、その未知語の表記及び属性を、候補含有複合語検索部１２及び属性別頻度算出部１３へ通知する。

図４は、対象複合語、属性付単語辞書に登録された単語及び未知語候補の関係の一例を示す図である。
この例では、対象複合語４００として、「串本町」及びその読み「くしもとちょう」が入力される。一方、属性付単語辞書４０１には、他の単語と複合語を形成した際に、他の単語の属性が地名である頻度が高い単語「町」及び「本町」が登録されている。この場合、複合語「串本町」から単語「町」を除いた残りの部分である「串本」及び複合語「串本町」から単語「本町」を除いた残りの部分である「串」が、それぞれ、未知語候補４０２、４０３となる。この場合、未知語候補「串本」及びその属性「地名」が一つの組として候補含有複合語検索部１２及び属性別頻度算出部１３に通知される。また、未知語候補「串」及びその属性「地名」が他の一つの組として候補含有複合語検索部１２及び属性別頻度算出部１３に通知される。

候補含有複合語検索部１２は、未知語候補ごとに、検索用コーパスの中から、その未知語候補を含む複合語である候補含有複合語を検索する。

なお、候補含有複合語検索部１２は、検索用コーパスとして、例えば、辞書登録装置１と通信ネットワークを介して接続されている様々なWebサイト上で公開されているWebページに含まれる、漢字仮名混じり文のテキストデータを利用できる。あるいは、候補含有複合語検索部１２は、検索用コーパスとして、例えば、製品のマニュアル、議事録、メールなどに含まれる漢字仮名混じり文のテキストデータを利用できる。

候補含有複合語検索部１２は、例えば、検索用コーパスに含まれるテキストデータの中から、未知語候補と一致する文字列を検出する。そして候補含有複合語検索部１２は、検出した文字列の前または後に連続して漢字がある場合、その検出した文字列及びその文字列と連続する漢字を全て含む文字列を、候補含有複合語とする。

あるいは、候補含有複合語検索部１２は、連続する複数の漢字を含み、かつ、その前後の文字が漢字でない文字列を候補含有複合語の候補として検出してもよい。そして候補含有複合語検索部１２は、候補含有複合語の候補の一部と何れかの未知語候補が一致する場合、その候補含有複合語の候補を候補含有複合語としてもよい。

なお、未知語候補が、対象複合語から接尾語を除くことによって生成されている場合、候補含有複合語検索部１２は、未知語候補の後に漢字が続く文字列のみを候補含有複合語としてもよい。

図５は、未知語候補と検索用コーパスに含まれるテキストデータの関係の一例を示す図である。検索用コーパス５００に含まれるテキストデータ５０１には、対象複合語「串本町」に含まれる未知語候補「串本」を含む二つの複合語「串本温泉」、「串本支所」が含まれている。そこでこれらの複合語が、候補含有複合語５０２、５０３として検出される。また、検索用コーパス５００に含まれるテキストデータ５１１には、対象複合語「串本町」に含まれる未知語候補「串」を含む二つの複合語「串揚げ」、「串料理」が含まれている。そこでこれらの複合語が、候補含有複合語５１２、５１３として検出される。

候補含有複合語検索部１２は、未知語候補ごとに、検出された候補含有複合語を属性別頻度算出部１３へ通知する。

属性別頻度算出部１３は、未知語候補ごとに、未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度を算出する。そのために、先ず、属性別頻度算出部１３は、各候補含有複合語の属性を決定する。
例えば、属性別頻度算出部１３は、候補含有複合語から、その候補含有複合語に含まれる未知語候補を除いた部分と一致する単語が属性付単語辞書に登録されているか否か判定する。そしてその単語が属性付単語辞書に登録されている場合、属性別頻度算出部１３は、その単語の属性を、候補含有複合語の属性とする。一方、候補含有複合語に含まれる未知語候補を除いた部分と一致する単語が属性付単語辞書に登録されていない場合、属性別頻度算出部１３は、その候補含有複合語の属性は無いと判定する。

例えば、図５に示されるように、未知語候補「串」を含む候補含有複合語として「串揚げ」、「串料理」が検索用コーパスから検出されたとする。そして、図４に示されるように、属性付単語辞書に、属性が普通名詞である単語「料理」が登録されており、一方、単語「揚げ」は属性付単語辞書に登録されていないとする。この場合、属性別頻度算出部１３は、候補含有複合語「串揚げ」の属性は無し、候補含有複合語「串料理」の属性は普通名詞と判定する。
また、図５に示されるように、未知語候補「串本」を含む候補含有複合語として「串本温泉」、「串本支所」が検索用コーパスから検出されたとする。そして、図４に示されるように、属性付単語辞書に、属性が地名である単語「温泉」、「支所」が登録されているとする。この場合、属性別頻度算出部１３は、候補含有複合語「串本温泉」、「串本支所」の属性をともに地名と判定する。

属性別頻度算出部１３は、未知語候補ごとに、その未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度を算出する。以下では、この出現頻度を、説明の便宜上、同一属性出現頻度と呼ぶ。そして属性別頻度算出部１３は、未知語候補ごとの同一属性出現頻度を読み推定部１４に通知する。

例えば、図４及び図５に示された例では、未知語候補「串」及び「串本」の何れの属性も地名である。したがって、属性別頻度算出部１３は、未知語候補「串」を含む候補含有複合語のうち、属性が地名である候補含有複合語の出現頻度を同一属性出現頻度として算出する。同様に、属性別頻度算出部１３は、未知語候補「串本」を含む候補含有複合語のうち、属性が地名である候補含有複合語の出現頻度を同一属性出現頻度として算出する。
例えば、図５に示されるように、属性が地名である未知語候補「串」を含む候補含有複合語として「串揚げ」、「串料理」が検出されているとする。この場合、その二つの候補含有複合語の属性は何れも地名でないので、未知語候補「串」を含む候補含有複合語の同一属性出現頻度は０となる。一方、属性が地名である未知語候補「串本」を含む候補含有複合語として「串本温泉」、「串本支所」が検出されている場合、その二つの候補含有複合語の属性は何れも地名である。したがって、未知語候補「串本」を含む候補含有複合語の同一属性出現頻度は２となる。

読み推定部１４は、各未知語候補の同一属性出現頻度のうちで最も頻度が高い未知語候補を、入力された複合語に含まれる未知語と推定する。そして読み推定部１４は、対象複合語の読みから未知語以外の部分の読みを除いた残りの部分の読みを、未知語の読みと推定する。
例えば、上記の例では、未知語候補「串」の同属性出現頻度は０であり、一方、「串本」の同属性出現頻度は２である。したがって、読み推定部１４は、未知語候補「串本」を未知語と推定し、その読み「くしもと」を推定された未知語の読みとする。

読み推定部１４は、推定された未知語の表記及び読みを表すテキストデータを生成し、そのテキストデータを登録部１５に渡す。

登録部１５は、推定された未知語の表記及び読みを表すテキストデータを通信部４を介して登録対象辞書が格納された機器へ出力する。あるいは、登録対象辞書が記憶部３に記憶されている場合、読み推定部１４は、推定された未知語の表記及び読みをその登録対象辞書に登録する。

図６は、辞書登録装置１の処理部５によって実行される読み推定処理の動作フローチャートである。処理部５は、入力部２を介して未知語を含む対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを取得する度に、以下の動作フローチャートに従って、その対象複合語に含まれる未知語及びその読みを推定する。

候補検出部１１は、属性付単語辞書に登録された単語のうちで対象複合語の一部と一致するものを対象複合語から除くことで一つ以上の未知語候補を検出する（ステップＳ１０１）。また候補検出部１１は、未知語候補ごとに、その未知語候補を決定するために入力された対象複合語から除かれた単語の属性を、その未知語候補の属性とする（ステップＳ１０２）。

候補含有複合語検索部１２は、未知語候補ごとに、検索用コーパスの中から、その未知語候補を含む複合語である候補含有複合語を検索する（ステップＳ１０３）。

属性別頻度算出部１３は、各候補含有複合語に含まれる、未知語候補以外の単語の属性に基づいて、その候補含有複合語の属性を決定する（ステップＳ１０４）。そして属性別頻度算出部１３は、未知語候補ごとに、その未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度を同一属性出現頻度として算出する（ステップＳ１０５）。

読み推定部１４は、各未知語候補の同一属性出現頻度のうちで最も頻度が高い未知語候補を、入力された複合語に含まれる未知語と推定する。読み推定部１４は、対象複合語全体の読みから推定された未知語以外の部分の読みを除いたものを、推定された未知語の読みとする（ステップＳ１０６）。登録部１５は、推定された未知語の表記及びその読みを辞書に登録する（ステップＳ１０７）。そして処理部５は、未知語推定処理を終了する。

以上に説明してきたように、この辞書登録装置は、未知語を含む対象複合語から属性付辞書に登録された単語を除いた部分を未知語候補として検出するとともに、その単語の属性を未知語候補の属性とする。この辞書登録装置は、検索用コーパスから検出された、未知語候補を含む候補含有複合語のうち、未知語候補の属性と同じ属性を持つ候補含有複合語の同属性出現頻度を算出する。そしてこの辞書登録装置は、同属性頻度が最も高い未知語候補及びその読みを、未知語及びその読みと推定する。このように、この辞書登録装置は、未知語候補の属性と同じ属性の複合語の出現頻度に応じて未知語を推定するので、正確に未知語を推定できる。

次に、第２の実施形態による辞書登録装置について説明する。第２の実施形態による辞書登録装置は、未知語及びその読みを推定するために、１以上の文または文節を表すテキストデータを取得する。この辞書登録装置は、そのテキストデータから、複数の漢字が連結された文字列のうち、その文字列の一部のみが属性付単語辞書に登録された単語と一致する文字列を、未知語を含む複合語として検出する。そしてこの辞書登録装置は、検出した複合語に対して、第１の実施形態による辞書登録装置と同様の処理を実行して、未知語及び未知語の読みを推定する。

図７は、第２の実施形態による辞書登録装置の処理部の機能ブロック図である。処理部５は、未知語含有複合語検出部１６と、候補検出部１１と、候補含有複合語検索部１２と、属性別頻度算出部１３と、読み推定部１４と、登録部１５とを有する。
第２の実施形態による辞書登録装置は、第１の実施形態による辞書登録装置と比較して、処理部５が未知語含有複合語検出部１６を有する点で異なる。そこで以下では、未知語含有複合語検出部１６及びその関連部分について説明する。第２の実施形態による辞書登録装置のその他の構成要素については、第１の実施形態による辞書登録装置の対応する構成要素の説明を参照されたい。

未知語含有複合語検出部１６は、入力部２を介して入力されたテキストデータから、未知語を含む複合語を検出する。ここで、未知語を含む複合語が検出されるテキストデータは、漢字仮名混じり文とそのフリガナが含まれるテキストデータであればよい。例えば、未知語を含む複合語が検出されるテキストデータは、様々なWebサイト上で公開されているWebページに含まれるテキストデータのうちの、漢字仮名混じり文及びそのフリガナを含む部分とすることができる。あるいは、未知語を含む複合語が検出されるテキストデータは、商品のカタログ、従業員情報のデータベースあるいは電子商取引の受発注履歴といった、データベースまたは表に含まれるテキストデータであってもよい。
なお、未知語を含む複合語の検出対象となるテキストデータは、候補含有複合語に用いられる検索用コーパスの一部であってもよく、あるいは、検索用コーパスとは別個に用意されたものであってもよい。

未知語含有複合語検出部１６は、入力されたテキストデータから、連続する複数の漢字を含み、かつ、その前後の文字が漢字でない文字列を複合語の候補として検出する。そして未知語含有複合語検出部１６は、検出した複合語の候補のうち、その複合語を表す文字列の一部のみが、属性付単語辞書に登録された単語の何れかと一致する候補を、未知語を含む複合語とする。
未知語含有複合語検出部１６は、検出された複合語のそれぞれについて、その複合語の漢字仮名表記と、その複合語のフリガナ、すなわち、その複合語の読みを、候補検出部１１へ渡す。
候補検出部１１、候補含有複合語検索部１２、属性別頻度算出部１３、読み推定部１４及び登録部１５は、抽出された各複合語に対して第１の実施形態と同様の処理を行って、未知語及びその読みを推定し、辞書に未知語及びその読みを登録する。

第２の実施形態による辞書登録装置は、テキストデータから自動的に未知語を含む複合語を検出するので、より簡易な操作で未知語及びその読みを推定できる。特に、定期的、あるいは不定期的に、予め設定されたWebページなどからテキストデータを入力するように設定することで、この辞書登録装置は、辞書に未知語及びその読みを追加登録する作業をより簡単化できる。

なお、変形例によれば、属性別頻度算出部１３は、未知語候補ごとに、その未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度だけでなく、未知語候補の属性と異なる属性を持つ候補含有複合語についても、属性ごとの出現頻度を算出してもよい。そして属性別頻度算出部１３は、各未知語候補について、属性ごとの候補含有複合語の出現頻度を読み推定部１４に通知してもよい。
読み推定部１４は、未知語候補のうち、その未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度がその未知語候補の属性と異なる属性を持つ候補含有複合語の出現頻度よりも高い未知語候補のなかから、未知語を推定してもよい。

また、各実施形態またはその変形例による読み推定装置は、サーバクライアントシステムに実装されてもよい。
図８は、読み推定装置が実装されたサーバクライアントシステムの概略構成図である。サーバクライアントシステム１００は、端末１１０とサーバ１２０とを有し、端末１１０とサーバ１２０とは、通信ネットワーク１３０を介して互いに通信可能となっている。なお、サーバクライアントシステム１００が有する端末１１０は複数存在してもよい。同様に、サーバクライアントシステム１００が有するサーバ１２０は複数存在してもよい。

端末１１０は、入力部１１１と、記憶部１１２と、通信部１１３と、制御部１１４とを有する。入力部１１１、記憶部１１２及び通信部１１３は、制御部１１４とバスを介して接続されている。

入力部１１１は、例えば、キーボードを有し、未知語を含む対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを取得する。
記憶部１１２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１１２は、端末１１０を制御するためのコンピュータプログラム、端末１１０の識別情報、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータなどを記憶する。
また記憶部１１２は、未知語及びその読みの登録対象となる辞書を記憶していてもよい。

通信部１１３は、端末１１０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１１３は、制御部１１４から受け取ったテキストデータを通信ネットワーク１３０を介してサーバ１２０へ送信する。また通信部１１３は、未知語を含む複合語の抽出対象となるテキストデータを、通信ネットワーク１３０に接続された他の装置１４０、例えば、Webサーバから受信し、制御部１１４に渡してもよい。
さらに、通信部１１３は、サーバ１２０から未知語及びその読みを表すテキストデータを受信して、制御部１１４に渡す。

制御部１１４は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部１１４は、上記の各実施形態または変形例による処理部の各機能のうち、未知語含有複合語検出部１６及び登録部１５の機能を実現する。すなわち、制御部１１４は、未知語を含む複合語の抽出対象となるテキストデータから、未知語を含む複合語を抽出し、その複合語及びその読みを表すテキストデータを作成する。そして制御部１１４は、そのテキストデータを端末１１０の識別情報とともに、通信部１１３及び通信ネットワーク１３０を介してサーバ１２０へ送信する。
また制御部１１４は、サーバ１２０から通信ネットワーク１３０及び通信部１１３を介して受信した、未知語及びその読みを表すテキストデータに基づいて、未知語及びその読みを辞書に登録する。

サーバ１２０は、通信部１２１と、記憶部１２２と、処理部１２３とを有する。通信部１２１及び記憶部１２２は、処理部１２３とバスを介して接続されている。

通信部１２１は、サーバ１２０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１２１は、未知語を含む複合語及びその複合語全体の読みを表すテキストデータと端末１１０の識別情報とを端末１１０から通信ネットワーク１３０を介して受信して処理部１２３に渡す。また通信部１２１は、端末１１０の識別情報に基づいて、処理部１２３から受け取った未知語及びその読みを含むテキストデータを通信ネットワーク１３０を介して端末１１０へ送信する。
さらに、通信部１２１は、通信ネットワーク１３０に接続された他の装置１４０から検索用コーパスを受信し、処理部１２３に渡してもよい。なお、検索用コーパスを記憶する装置は、未知語を含む複合語の抽出対象となるテキストデータが記憶されている装置とは別個の装置であってもよい。

記憶部１２２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１２２は、サーバ１２０を制御するためのコンピュータプログラム、属性付単語辞書などを記憶する。また記憶部１２２は、検索用コーパスを記憶していてもよい。

処理部１２３は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部１２３は、上記の各実施形態または変形例による処理部の各機能のうち、候補検出部１１、候補含有複合語検索部１２、属性別頻度算出部１３及び読み推定部１４の機能を実現する。すなわち、処理部１２３は、端末１１０から受信した、未知語を含む複合語及びその読みを表すテキストデータから、未知語及びその読みを推定する。そして処理部１２３は、未知語及びその読みを表すテキストデータを作成し、そのテキストデータを、通信部１２１及び通信ネットワーク１３０を介して端末１１０へ送信する。

この実施形態によれば、個々の端末１１０は、未知語を含む複合語及びその複合語全体の読みを表すテキストデータを作成してサーバ１２０へ送信するだけで、その複合語に含まれる未知語及びその読みを得ることができる。そのため、個々の端末１１０は、属性付単語辞書及び検索用コーパスを記憶する必要が無い。

さらに、上記の各実施形態による辞書登録装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

１辞書登録装置（読み推定装置）
２入力部
３記憶部
４通信部
５処理部
１１候補検出部
１２候補含有複合語検索部
１３属性別頻度算出部
１４読み推定部
１５登録部
１６未知語含有複合語検出部
１００サーバクライアントシステム
１１０端末
１２０サーバ
１３０通信ネットワーク
１１１入力部
１１２記憶部
１１３通信部
１１４制御部
１２１通信部
１２２記憶部
１２３処理部

Claims

第１の複合語及び該第１の複合語の読みを表すテキストデータを取得する入力部と、
複数の単語及び該複数の単語のそれぞれの属性が登録された属性付辞書を記憶する記憶部と、
前記複数の単語のうち、前記第１の複合語の一部と一致する少なくとも一つの単語のそれぞれを前記第１の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、前記候補ごとに、前記候補を検出するために前記第１の複合語から除かれた単語の属性を前記候補の属性とする候補検出部と、
前記候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、当該候補を含む第２の複合語を検出する候補含有複合語検索部と、
前記候補のそれぞれについて、当該候補を含む前記第２の複合語のうちで当該候補の属性と同じ属性の第２の複合語の出現頻度を算出する属性別頻度算出部と、
前記候補のうち、前記出現頻度が最も高い候補を未知語とし、前記第１の複合語の読みから前記未知語以外の部分の読みを除いた部分を前記未知語の読みと推定する読み推定部と、
を有する読み推定装置。
前記属性別頻度算出部は、前記第２の複合語に含まれる前記候補を除いた部分と一致する前記属性付辞書に登録された単語を検出し、該検出された単語の属性を前記第２の複合語の属性とする、請求項１に記載の読み推定装置。
漢字仮名混じり文及び該漢字仮名混じり文の読みを表すテキストデータから、複数の漢字が連続する文字列を検出し、該検出された文字列のうち、当該文字列の一部に前記属性付辞書に登録された何れの単語とも一致しない文字を含む文字列を前記第１の複合語として検出する未知語含有複合語検出部をさらに有する、請求項１または２に記載の読み推定装置。
第１の複合語及び該第１の複合語の読みを表すテキストデータを取得し、
処理部が、記憶部に記憶された属性付辞書に属性とともに登録された複数の単語のうち、前記第１の複合語の一部と一致する少なくとも一つの単語のそれぞれを前記第１の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、前記候補ごとに、前記候補を検出するために前記第１の複合語から除かれた単語の属性を前記候補の属性とし、
前記処理部が、前記候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、前記候補を含む第２の複合語を検出し、
前記処理部が、前記候補のそれぞれについて、当該候補を含む前記第２の複合語のうちで当該候補の属性と同じ属性の第２の複合語の出現頻度を算出し、
前記処理部が、前記候補のうち、前記出現頻度が最も高い候補を未知語とし、前記第１の複合語の読みから前記未知語以外の部分の読みを除いた部分を前記未知語の読みと推定する、
ことを含む読み推定方法。
第１の複合語及び該第１の複合語の読みを表すテキストデータを取得し、
記憶部に記憶された属性付辞書に属性とともに登録された複数の単語のうち、前記第１の複合語の一部と一致する少なくとも一つの単語のそれぞれを前記第１の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、前記候補ごとに、前記候補を検出するために前記第１の複合語から除かれた単語の属性を前記候補の属性とし、
前記候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、前記候補を含む第２の複合語を検出し、
前記候補のそれぞれについて、当該候補を含む前記第２の複合語のうちで当該候補の属性と同じ属性の第２の複合語の出現頻度を算出し、
前記候補のうち、前記出現頻度が最も高い候補を未知語とし、前記第１の複合語の読みから前記未知語以外の部分の読みを除いた部分を前記未知語の読みと推定する、
ことをコンピュータに実行させるための読み推定用コンピュータプログラム。