JP2016177369A

JP2016177369A - 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置

Info

Publication number: JP2016177369A
Application number: JP2015055271A
Authority: JP
Inventors: 真人矢島; Masato Yajima; 祐一宮村; Yuichi Miyamura
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-03-18
Filing date: 2015-03-18
Publication date: 2016-10-06

Abstract

【課題】形態素解析の精度を向上させる。【解決手段】実施形態によれば、辞書更新装置は、格納部と、形態素解析部と、判定部と、更新部とを含む。格納部は、テキストと、当該テキストの属するドメイン名とを対応付けて格納する。形態素解析部は、テキストを形態素解析することによって解析結果を生成する。判定部は、解析結果が、入力された単語文字列を含むように形態素単位の単語に分割されているか否かを判定し、解析結果が単語文字列を含むように形態素単位の単語に分割されている場合に、形態素解析における単語文字列の影響点を計算する。更新部は、前記影響点が基準値を超える場合に、前記単語文字列と前記ドメイン名とを対応付ける。【選択図】図１

Description

実施形態は、辞書更新技術に関する。

日本語の形態素解析は、英語などのように単語同士が分かち書きされていないため、正確に単語を分割することが困難である。例えば、「のいちご（名詞）」などの単語は、綴りが全て平仮名であり、「の（助詞）」を含むように解釈できるため、形態素解析によって複数の解析候補を得る可能性がある。従って、複数の解析候補から正しい解析結果を選択することが必要となる。

従来、形態素解析において特定の単語に対する採否を一律に決定する方法が知られている。例えば、「のいちご」という単語に不採用の採否判定情報を付加することによって、複数の解析候補に対して「のいちご」という単語を不採用とする。しかしながら、全てのテキストに対して不採用とするため、必ずしも正しい選択結果を得られない恐れがある。

特許第４７６００４３号公報

実施形態は、形態素解析の精度を向上させることを目的とする。

実施形態によれば、辞書更新装置は、格納部と、形態素解析部と、判定部と、更新部とを含む。格納部は、テキストと、当該テキストの属するドメイン名とを対応付けて格納する。形態素解析部は、テキストを形態素解析することによって解析結果を生成する。判定部は、解析結果が、入力された単語文字列を含むように形態素単位の単語に分割されているか否かを判定し、解析結果が単語文字列を含むように形態素単位の単語に分割されている場合に、形態素解析における単語文字列の影響点を計算する。更新部は、前記影響点が基準値を超える場合に、前記単語文字列と前記ドメイン名とを対応付ける。

第１の実施形態に係る辞書更新装置を例示するブロック図。格納部に格納される日本語テキストおよびドメイン名を例示する図。図１の形態素解析部の解析結果を例示する図。図１の判定部による判定画面を例示する図。図１の辞書更新装置の動作を例示するフローチャート。図５Ａのドメイン名付与処理を例示するフローチャート。図１の形態素解析部の解析結果を例示する図。形態素解析辞書に格納されるデータを例示する図。形態素解析辞書に格納されるデータを例示する図。形態素解析辞書に格納されるデータを例示する図。第３の実施形態に係る形態素解析装置を例示するブロック図。図８の形態素解析装置の動作を例示するフローチャート。図９Ａの評価点再計算処理を例示するフローチャート。図９Ａの評価点再計算処理を例示するフローチャート。

以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、解説済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。

（第１の実施形態）
図１に例示されるように、第１の実施形態に係る辞書更新装置１００は、入力部１０１と、形態素解析部１０２と、判定部１０３と、更新部１０４と、形態素解析辞書１０５と、格納部１０６と、出力部１０７とを備える。

入力部１０１は、ユーザが単語文字列をテキスト形式で入力する。入力部１０１として、例えばキーボード、タブレットおよび光学式文字読み取り装置（ＯＣＲ）などの既存の入力デバイスが用いられてもよいし、あるいは複数の単語文字列を格納した、メディアおよびＨＤＤなどの既存の記憶媒体が用いられてもよい。入力部１０１は、単語文字列を形態素解析部１０２および判定部１０３へと出力する。

格納部１０６は、日本語テキストと、日本語テキストの属するドメイン名とを対応付けて格納する。格納部１０６は、日本語テキストに複数のドメイン名を対応付けて格納してもよい。ドメイン名は、例えば「児童書」「ビジネス書」「料理本」「中国古典」「明治文学」「俳句」などの情報を表す。格納部１０６は、例えば、図２に示されるように、「温室のいちごは甘かった」（日本語テキスト）および「児童書」（ドメイン名）を対応付けて格納する。格納部１０６は、日本語テキスト（以降、特に記載が無い限り日本語テキストにドメイン名が対応付けられているものとする）を形態素解析部１０２へと出力する。尚、本実施形態では、日本語が入力されることを想定するが、形態素解析の際に複数の解析候補が得られるような構成を有する言語であれば他の言語でもよい。

形態素解析部１０２は、入力部１０１から単語文字列が入力される。形態素解析部１０２は、さらに、形態素解析辞書１０５から形態素解析処理に必要な情報が入力され、格納部１０６から日本語テキストが入力される。形態素解析部１０２は、日本語テキストを形態素解析することによって単語ネットワークを生成し、複数の解析候補を得る。形態素解析部１０２は、さらに、複数の解析候補のそれぞれに評価点を付け、評価点が最も高い解析候補を解析結果とする。

具体的には、形態素解析部１０２は、形態素解析に基づいて図３に例示されるような単語ネットワークを生成し、複数の解析候補を得る。単語ネットワークは、複数の分割候補を持つ文字列（ここでは「のいちご」）を分岐させて、テキストを網の目状に表したものである。例えば、「温室のいちごは甘かった」という日本語テキストの形態素解析を行った場合に、「のいちご」の部分において「の（助詞）／いちご（名詞）」および「のいちご（名詞）」という複数の分割候補を持つ文字列が存在し、前後の形態素の文字列を繋げた単語ネットワークを作成する。形態素解析部１０２は、単語ネットワークに基づいて、「温室（名詞）／のいちご（名詞）／は（助詞）／甘かっ（形容詞連用形）／た（助動詞終止形）」（第１解析候補）および「温室（名詞）／の（助詞）／いちご（名詞）／は（助詞）／甘かっ（形容詞連用形）／た（助動詞終止形）」（第２解析候補）のような、形態素単位の単語に分割された２つの解析候補を生成する。形態素解析部１０２は、第１解析候補に１００点、第２解析候補に５０点の評価点を付けた場合に、評価点が高い第１解析候補を解析結果として出力する。評価点は、解析候補に含まれる形態素単位の自立語（助詞や助動詞などの付属語を除いた単語）の数に応じて付けられるが、品詞の並び順が日本語として適切か否かを判定して付けられてもよい。形態素解析の方法は、以上の例に限らず、種々の技法を利用してもよい。形態素解析部１０２は、解析結果を判定部１０３へと出力する。

判定部１０３は、入力部１０１から単語文字列が入力され、形態素解析部１０２から解析結果と、解析結果の日本語テキストが属するドメイン名とが入力される。判定部１０３は、解析結果が単語文字列を含むように形態素単位の単語に分割されているか否かを判定する。判定部１０３は、解析結果が単語文字列を含むように形態素単位の単語に分割されている場合に、単語文字列が形態素解析処理に影響を及ぼす割合を示す影響点を計算する。影響点は、形態素解析処理に悪い影響を及ぼす悪影響点と、形態素解析処理に良い影響を及ぼす好影響点とがある。

例えば、判定部１０３は、形態素解析しにくい性質の条件に基づいて、単語文字列の悪影響点を計算する（尚、好影響点を計算する例については後述される）。形態素解析しにくい性質の条件は、「綴りが全て平仮名である」「単語文字列が『の（助詞）』を含むように解釈できる」などが挙げられる。あるいは、判定部１０３は、図４のような判定画面に基づいて、ユーザに正否を選択させることで悪影響点を付与してもよい。換言すれば、判定部１０３は、日本語テキストの文脈として用いられることが望ましくない解析候補の形態素（単語文字列）の悪影響点を計算する。判定部１０３は、単語文字列と、単語文字列の影響点と、解析結果の日本語テキストが属するドメイン名とを更新部１０４へと出力する。判定部１０３は、さらに、解析結果を出力部１０７へと出力する。

更新部１０４は、判定部１０３から単語文字列、影響点およびドメイン名が入力される。更新部１０４は、影響点が基準値を超える場合に、単語文字列に影響点が基準値を超えた解析結果の日本語テキストが属するドメイン名を対応付ける。なお、以下では、単語文字列にドメインを対応付けることを、「単語文字列にドメイン名を付与する」ともいう。

形態素解析辞書１０５は、更新部１０４から単語文字列およびドメイン名が入力される。形態素解析辞書１０５は、形態素解析に必要な情報である見出し、品詞および活用などをそれぞれ対応付けて格納する。形態素解析辞書１０５は、さらに、見出しにドメイン名を対応付けて格納することができる。形態素解析辞書１０５は、入力された単語文字列に一致する見出しにドメイン名を対応付けて格納する。形態素解析辞書１０５は、見出しに複数のドメイン名を対応付けて格納してもよい。形態素解析辞書１０５は、形態素解析に必要な情報を形態素解析部１０２へと出力する。

出力部１０７は、判定部１０３から入力された解析結果を外部に出力する。具体的には、出力部１０７は、ＣＲＴディスプレイ装置および液晶表示装置などの表示デバイスを用いて解析結果を表示してもよい。出力部１０７は、さらに、入力部１０１から単語文字列を、判定部１０３から判定画面を表示デバイスに表示してもよい。

辞書更新装置１００は、図５Ａに例示されるように動作する。ユーザからの入力を受けることで図５Ａの処理は開始する。

ステップＳ５０１において、入力部１０１は、単語文字列をテキスト形式で入力する。ステップＳ５０１の後に、形態素解析部１０２は、格納部１０６に格納された複数の日本語テキストに、初期値をゼロとする識別番号Ｎ（Ｎ＝０，１，２，・・・）を付ける（ステップＳ５０２）。

ステップＳ５０３において、形態素解析部１０２は、日本語テキストを形態素解析することによって単語ネットワークを作成する。ステップＳ５０４において、形態素解析部１０２は、単語ネットワークに含まれる複数の解析候補にそれぞれ評価点をつけ、評価点が最も高い解析候補を解析結果して選択する。ステップＳ５０４の後に、ドメイン名付与処理（ステップＳ５０５）が行われる。

ドメイン名付与処理（ステップＳ２０５）の詳細が図５Ｂに例示される。ドメイン名付与処理が開始すると、判定部１０３は、解析結果に含まれる形態素単位の単語に対し、初期値をゼロとする識別番号ｋ（ｋ＝０，１，２，・・・）を付ける（ステップＡ５０１）。

ステップＡ５０２では、判定部１０３は、ｋ番目の単語が単語文字列と一致する（即ち、解析結果が単語文字列を含むように形態素単位の単語に分割されている）か否かを判定する。単語文字列と一致する場合には処理はステップＡ５０３へと進み、そうでなければ処理はステップＡ５０５へと進む。

ステップＡ５０３では、判定部１０３は、ｋ番目の単語が解析に影響を与えているか否かを判定する。解析に影響を与えている場合には処理はステップＡ５０４へと進み、そうでなければ処理はステップＡ５０５へと進む。

ステップＡ５０４において、判定部１０３は、ｋ番目の単語の影響点（悪影響点または好影響点）を計算し、ｋ番目の単語に対応付ける。

ステップＡ５０５において、判定部１０３は、識別番号ｋに１をインクリメントする。

ステップＡ５０６では、判定部１０３は、ｋ番目に形態素単位の単語が存在するか否かを判定する。形態素単位の単語が存在する場合には処理はステップＡ５０２へと戻り、そうでなければ処理はステップＡ５０７へと進む。

ステップＡ５０７では、更新部１０４は、ｋ番目の単語の影響点（悪影響点または好影響点）が基準値を超えているか否かを判定する。基準値を超えている場合には処理はステップＡ５０８へと進み、そうでなければ処理は終了し、処理は図５ＡのステップＳ５０６へと進む。

ステップＡ５０８において、更新部１０４は、ｋ番目の単語に解析結果の日本語テキストが属するドメイン名を対応付ける。さらに、形態素解析辞書１０５は、ｋ番目の単語に一致する見出しにドメイン名を対応付けて格納する。

ステップＡ５０８の後に、図５Ｂのドメイン名付与処理は終了し、処理は図５ＡのステップＳ５０６へと進む。

ステップＳ５０６において、更新部１０４は、識別番号Ｎに１をインクリメントする。

ステップＳ５０７では、形態素解析部１０２は、Ｎ番目に日本語テキストが存在するか否かを判定する。日本語テキストが存在する場合には処理はステップＳ５０３へと戻り、そうでなければ処理は終了する。

尚、辞書更新装置１００は、単語文字列が含まれる日本語テキストを予め抽出して一連の動作を行ってもよいし、格納部１０６に含まれる日本語テキストのドメイン名を指定して一連の動作を行ってもよい。

ここで、図５Ｂのドメイン名付与処理の動作の具体例を説明する。ドメイン名付与処理の前段において、単語文字列として「のいちご」が入力され、解析結果として「温室（名詞）／のいちご（名詞）／は（助詞）／甘かっ（形容詞連用形）／た（助動詞終止形）」が選択されているとする。さらに、判定部１０３は、悪影響点を計算するものとする。

判定部１０３は、解析結果の形態素単位の単語に識別番号ｋを付ける。識別番号ｋは、「温室（名詞）」にｋ＝０、「のいちご（名詞）」にｋ＝１と、以下順番に付けられる。判定部１０３は、ｋ＝１の「のいちご（名詞）」が単語文字列と一致しているので、「のいちご」の悪影響点を計算する。悪影響点は、例えば、「綴りが全て平仮名」であるから４０点、「の（助詞）／いちご（名詞）」に分割可能であるから６０点とし、合計１００点となる。

更新部１０４は、ｋ番目の単語の悪影響点が任意の基準値を超えているか否かを判定する。例えば、基準値が８０点である場合、単語文字列の悪影響点が基準値を越えるので、更新部１０４は、単語文字列「のいちご」にドメイン名「児童書」を対応付ける。さらに、形態素解析辞書１０５は、単語文字列「のいちご」に一致する見出しにドメイン名「児童書」を対応付けて格納する。

以上は、悪影響点の例を示したが、判定部１０３は、形態素解析しやすい性質の条件に基づいて、単語文字列の好影響点を計算してもよい。形態素解析しやすい性質の条件は、例えば「特定のジャンル（ドメイン名およびドメイン名のグループなどに相当）において、単語文字列の文字数が多いもの」などが挙げられる。換言すれば、判定部１０３は、日本語テキストの文脈として用いられることが望ましい解析候補の形態素（単語文字列）の好影響点を計算する。好影響点を付加する例として、入力文字列「縦にする（ほしいままにする）」を入力した場合に、図２に示される「虚名を縦にすること今に数十年なり」（ドメイン名は「中国古典」）が形態素解析される時の動作を以下に記述する。

形態素解析部１０２は、形態素解析に基づいて図６に例示されるような単語ネットワークを生成し、複数の解析候補を得る。形態素解析部１０２は、単語ネットワークに基づいて、「虚名（名詞）／を（助詞）／縦にする（動詞：読み「ほしいままにする」）／こと（名詞）／・・・」（第１解析候補）および「虚名（名詞）／を（助詞）／縦（名詞：読み「たて」）／に（助詞）／する（動詞）／こと（名詞）／・・・」（第２解析候補）のような、形態素単位の単語に分割された２つの解析候補を生成する。形態素解析部１０２は、第１解析候補に１００点、第２解析候補に５０点の評価点を付けた場合に、評価点が高い第１解析候補を解析結果として出力する。

判定部１０３は、「縦にする（動詞）」が形態素解析辞書１０５の単語文字列と一致しているので、「縦にする」の好影響点を計算する。好影響点は、例えば、「（動詞として）単語文字列の文字数が多い」ことにより８０点を付ける。更新部１０４は、基準値が５０点である場合に、単語文字列の好影響点が基準値を超えるので、単語文字列「縦にする」にドメイン名「中国古典」を対応付ける。さらに、形態素解析辞書１０５は、単語文字列「縦にする」に一致する見出しにドメイン名「中国古典」を対応付けて格納する。

図７Ａおよび図７Ｂに例示される形態素解析辞書１０５は、見出しとなる単語文字列にドメイン名（悪影響ドメイン名および好影響ドメイン名）が対応付けられて格納されている。この形態素解析辞書１０５のドメイン名を含めた情報で形態素解析することによって、形態素解析の精度を向上させることができる。例えば、ドメイン名を指定して日本語テキストを形態素解析する場合に、日本語テキストが属するドメイン名と形態素解析辞書１０５の単語文字列に対応付けられたドメイン名とに基づいて解析をする。ドメイン名に基づいた形態素解析は、評価点にドメイン名の影響（悪影響または好影響）を加味して、解析候補から解析結果を出力する。即ち、より多くの情報に基づいて形態素解析を行うことができる。形態素解析辞書１０５のドメイン名を含めた情報で形態素解析を行う実施例は、第３の実施形態で詳説する。

以上説明したように、第１の実施形態に係る辞書更新装置は、入力された単語文字列が特定の日本語テキストの形態素解析に影響（悪影響または好影響）を与えると判定した場合に、日本語テキストが属するドメイン名を形態素解析辞書の該当する単語文字列に対応付ける。そして、この形態素解析辞書を用いることによって、同一のドメイン名を持つ日本語テキストにおいて、より多くの情報に基づいて形態素解析を行うことができる。故に、この辞書更新装置によれば、形態素解析の精度を向上させることができる。

（第２の実施形態）
第２の実施形態に係る辞書更新装置は、図１の形態素解析辞書１０５に格納されるドメイン名が付与される毎に、付与された回数も格納する点で第１の実施形態に係る辞書更新装置とは異なる。

具体的には、形態素解析辞書１０５は、更新部１０４から単語文字列およびドメイン名が入力される。形態素解析辞書１０５は、入力された単語文字列に対応する見出しにドメイン名が既に付与されていた場合に、付与された回数（更新回数）も対応付けて格納する。

図７Ｃに例示される形態素解析辞書１０５には、単語文字列にドメイン名（悪影響ドメイン名）および更新回数が対応付けられて格納されている。形態素解析辞書１０５のドメイン名および更新回数を含めた情報で形態素解析することによって、形態素解析の精度を向上させることができる。形態素解析辞書１０５のドメイン名および更新回数を含めた情報で形態素解析を行う実施例は、第４の実施形態で詳説する。

以上説明したように、第２の実施形態に係る辞書更新装置は、形態素解析辞書に格納されたドメイン名に更新回数を対応付ける。そして、この形態素解析辞書を用いることによって、同一のドメイン名を持つ日本語テキストにおいて、さらに多くの情報に基づいて形態素解析を行うことができる。故に、この辞書更新装置によれば、形態素解析の精度を向上させることができる。

（第３の実施形態）
図８に例示されるように、第３の実施形態に係る形態素解析装置８００は、入力部１０１と、形態素解析部１０２と、判定部１０３と、更新部１０４と、形態素解析辞書１０５と、格納部１０６と、出力部１０７と、第２形態素解析部８０１とを備える。形態素解析装置８００は、図１の辞書更新装置１００に第２形態素解析部８０１が追加される。形態素解析装置８００は、ドメイン名を指定した日本語テキストを入力し、ドメイン名を含めた形態素解析に必要な情報で形態素解析する。

図８の入力部１０１は、第１の実施形態に係る入力部１０１の処理に加え、第２形態素解析部８０１へと日本語テキストおよび日本語テキストの属するドメイン名を出力する点で図１の入力部１０１とは異なる。図８の形態素解析辞書１０５は、第１の実施形態に係る形態素解析辞書１０５の処理に加え、第２形態素解析部８０１へと形態素解析処理に必要な情報（これは、ドメイン名を含む）を出力する点で図１の形態素解析辞書１０５とは異なる。出力部１０７は、第２形態素解析部８０１の結果も表示する点で図１の出力部１０７とは異なる。

入力部１０１は、日本語テキストおよび日本語テキストの属するドメイン名を入力する。入力部１０１は、日本語テキストおよび日本語テキストの属するドメイン名を第２形態素解析部８０１へと出力する。

形態素解析辞書１０５は、形態素解析に必要な情報である見出し、品詞、活用およびドメイン名などをそれぞれ対応付けて格納する。形態素解析辞書１０５は、形態素解析に必要な情報を第２形態素解析部８０１へと出力する。

第２形態素解析部８０１は、入力部１０１から日本語テキストおよび日本語テキストの属するドメイン名が入力される。第２形態素解析部８０１は、さらに、形態素解析辞書１０５から形態素解析に必要な情報が入力される。第２形態素解析部８０１は、日本語テキストを形態素解析することによって単語ネットワークを生成し、複数の解析候補を得る。

具体的には、第２形態素解析部８０１は、「くだもののいちごはおいしいね」という日本語テキストから、「くだもの（名詞）」「のいちご（名詞）」「の（助詞）」「いちご（名詞）」「は（助詞）」「おいしい（形容詞終止形）」「ね（助詞）」などのように、形態素単位の単語に分割する。第２形態素解析部８０１は、分割された形態素単位の単語から単語ネットワークを生成する。第２形態素解析部８０１は、単語ネットワークに基づいて、「くだもの（名詞）／のいちご（名詞）／は（助詞）／おいしい（形容動詞終止形）／ね（助詞）」（第１解析候補）および「くだもの（名詞）／の（助詞）／いちご（名詞）／は（助詞）／おいしい（形容動詞終止形）／ね（助詞）」（第２解析候補）のような、形態素単位の単語に分割された２つの解析候補を生成する。

第２形態素解析部８０１は、さらに、複数の解析候補のそれぞれに評価点を付け、評価点が最も高い解析候補を解析結果して選択する。評価点は、通常の形態素解析を利用する（例えば、形態素解析部１０２のような）付け方に加え、形態素解析辞書１０５の見出しに対応付けられたドメイン名も利用して付けられる。具体的には、第２形態素解析部８０１は、通常の形態素解析を利用して第１解析候補に１００点、第２解析候補に６０点の評価点を付ける。そして、第２形態素解析部８０１は、第１解析候補の形態素に、形態素解析辞書１０５の見出しに対応付けられた悪影響ドメイン名が存在した場合に、第１解析候補の評価点から６０点を減点することによって、評価点が高い第２解析候補を解析結果として出力する。尚、ここでは評価点を減点する例を挙げたが、形態素解析辞書１０５の見出しに対応付けられた好影響ドメイン名が存在した場合に、評価点を加点してもよい。第２形態素解析部８０１は、解析結果を出力部１０７へと出力する。

出力部１０７は、第２形態素解析部８０１から入力された解析結果を外部に出力する。

形態素解析装置８００は、図９Ａに例示されるように動作する。ユーザからの入力を受けることで図９Ａの処理は開始する。

ステップＳ９０１において、入力部１０１は、日本語テキストおよび日本語テキストに属するドメイン名を入力する。ステップＳ９０１の後に、第２形態素解析部８０１は、入力された日本語テキストを形態素解析することによって単語ネットワークを作成し、複数の解析候補を生成する（ステップＳ９０２）。このとき、第２形態素解析部８０１は、解析候補の評価点を計算する。さらに、第２形態素解析部８０１は、複数の解析候補に、初期値を０とする識別番号ｉ（ｉ＝０，１，２，・・・）を付ける（ステップＳ９０３）。ステップＳ９０３の後に、評価点再計算処理（ステップＳ９０４）が行われる。

評価点再計算処理（ステップＳ９０４）の詳細が図９Ｂに例示される。評価点再計算処理が開始すると、第２形態素解析部８０１は、解析候補に含まれる形態素単位の単語に対し、初期値を０とする識別番号ｋ（ｋ＝０，１，２，・・・）をつける（ステップＡ９０１）。

ステップＡ９０２では、第２形態素解析部８０１は、ｋ番目の単語（形態素）のドメイン名と入力された日本語テキストの属するドメイン名とが一致するか否かを判定する。ドメイン名が一致する場合には処理はステップＡ９０３へと進み、そうでなければ処理はステップＡ９０４へと進む。

ステップＡ９０３において、第２形態素解析部８０１は、解析候補の評価点を再計算（加算または減算）する。

ステップＡ９０４において、第２形態素解析部８０１は、識別番号ｋに１をインクリメントする。

ステップＡ９０５では、第２形態素解析部８０１は、ｋ番目に形態素単位の単語が存在するか否かを判定する。形態素単位の単語が存在する場合には処理はステップＡ９０２へと戻り、そうでなければ処理は終了し、処理は図９ＡのステップＳ９０５へと進む。

ステップＳ９０５において、第２形態素解析部８０１は、識別番号ｉに１をインクリメントする。

ステップＳ９０６において、第２形態素解析部８０１は、ｉ番目に解析候補が存在するか否かを判定する。解析候補が存在する場合には処理はステップＳ９０４へと戻り、そうでなければ処理はステップＳ９０７へと進む。

ステップＳ９０７では、第２形態素解析部８０１は、評価点が最も高い解析候補を解析結果として選択し、処理を終了する。

ここで、図９Ｂの評価点再計算処理の動作の具体例を説明する。予め図７Ａに例示する形態素解析辞書１０５が用意され、「評価点再計算処理の前段において、日本語テキストおよび日本語テキストが属するドメイン名としてそれぞれ「くだもののいちごはおいしいね」「児童書」が入力され、解析候補として「くだもの（名詞）／のいちご（名詞）／は（助詞）／おいしい（形容動詞終止形）／ね（助詞）」（第１解析候補：評価点１００点）が選択されているものとする。

第２形態素解析部８０１は、解析候補の形態素単位の単語に識別番号を付ける。識別番号は、「くだもの（名詞）」にｋ＝０、「のいちご（名詞）」にｋ＝１と、以下順番に付けられる。第２形態素解析部８０１は、ｋ＝１の「のいちご（名詞）」が形態素解析辞書１０５に格納された当該単語の悪影響ドメイン名「児童書」と一致しているので、解析候補の評価点を下げる。評価点は、例えば、入力された日本語テキストの形態素と形態素解析辞書に格納された形態素とのドメイン名が一致することによって６０点が減算され、４０点となる。

さらに、第２形態素解析部８０１は、全ての解析候補について評価点再計算処理が終わった後に、解析候補から解析結果を選択する。第２形態素解析部８０１は、評価点再計算処理において、「くだもの（名詞）／の（助詞）／いちご（名詞）／は（助詞）／おいしい（形容動詞終止形）／ね（助詞）」（第２解析候補：評価点６０点）の評価点が維持されたため、第２解析候補を解析結果として出力する。よって、第２形態素解析部８０１は、解析候補の形態素および解析候補に対応付けられたドメイン名と、形態素解析辞書１０５の見出しおよび見出しに対応付けられた悪影響ドメイン名とがそれぞれ一致した場合に、解析候補の形態素を、悪影響ドメイン名の属する日本語テキストの文脈として用いられることが望ましくない単語文字列として排除することができる。

以上は、評価点を下げる例を示したが、第２形態素解析部８０１は、予め図７Ｂに示す形態素解析辞書１０５が用意され、日本語テキストの形態素が形態素解析辞書１０５に格納された当該単語の好影響ドメイン名と一致した場合に、評価点を上げる処理をしてもよい。評価点を上げる処理の例として、日本語テキスト「曹操は権勢を縦にした」（ドメイン名は「中国古典」）が形態素解析される時の動作を以下に記述する。

第２形態素解析部８０１は、形態素解析によって単語ネットワークを生成し、複数の解析候補を得る。第２形態素解析部８０１は、単語ネットワークに基づいて、「曹操（固有名詞）／は（助詞）／権勢（名詞）／を（助詞）／縦にし（動詞）／た（助動詞）」（第１解析候補）および「曹操（固有名詞）／は（助詞）／権勢（名詞）／を（助詞）／縦（名詞）／に（助詞）／し（動詞）／た（助動詞）」（第２解析候補）という２つの解析候補を生成する。第２形態素解析部８０１は、第１解析候補に５０点、第２解析候補に１００点の評価点を付ける。評価点は、ここでは、解析候補に含まれる形態素単位の自立語（助詞や助動詞などの付属語を除いた単語）の数に応じて付けられるが、品詞の並び順が日本語として適切か否かを判定して付けられてもよい。評価点は、さらに、単語自体の使用頻度によって付けられてもよい。例えば、「縦にする」という表現は、現代文では使用頻度が低いため、評価点が低く付けられる。

さらに、第２形態素解析部８０１は、第１解析候補の「縦にし（動詞）」が形態素解析辞書１０５に格納された当該単語のドメイン名「中国古典」と一致しているので、第１解析候補の評価点を上げる。第１解析候補の評価点は、例えば、入力された日本語テキストの形態素と形態素解析辞書に格納された形態素とのドメイン名が一致することによって６０点が加算され、１１０点となる。第２形態素解析部８０１は、第２解析候補について評価点の加算が無いことから、第１解析候補を解析結果として出力する。よって、第２形態素解析部８０１は、解析候補の形態素および解析候補に対応付けられたドメイン名と、形態素解析辞書１０５の見出しおよび見出しに対応付けられた好影響ドメイン名とがそれぞれ一致した場合に、解析候補の形態素を、好影響ドメイン名の属する日本語テキストの文脈として用いられることが望ましい単語文字列として優先することができる。

以上説明したように、第３の実施形態に係る形態素解析装置は、入力された日本語テキストの形態素と形態素解析辞書に格納された形態素とのドメイン名が一致した場合に、その形態素を含む日本語テキストの解析候補の評価点を再計算する。故に、この形態素解析装置によれば、形態素解析における単語文字列の優先度を変えることができるので、従来の方法よりも形態素解析の精度を向上させることができる。

（第４の実施形態）
第４の実施形態に係る形態素解析装置は、評価点再計算処理においてドメイン名の更新回数も利用して解析候補の評価点を付ける点で第３の実施形態に係る形態素解析装置とは異なる。

形態素解析辞書１０５は、ドメイン名に対応付けられた更新回数（単語に同一ドメイン名が対応付けられた回数）を含めた、形態素解析に必要な情報を第２形態素解析部８０１へと出力する。

形態素解析装置８００は、図９Ａの評価点再計算処理（ステップＳ９０４）において、ドメイン名に対応付けられた更新回数が設定値を超えているか否かを判定するステップを新規に追加する。

新規ステップが追加された評価点再計算処理（ステップＳ９０４）の詳細が図１０に例示される。図１０の評価点再計算処理は、ステップＡ９０２において、ドメイン名が一致する場合に処理がステップＡ１００１へと進む点で図９Ｂの評価点再計算処理とは異なる。

ステップＡ１００１では、第２形態素解析部８０１は、形態素解析辞書１０５のドメイン名に対応付けられた更新回数が設定値を超えているか否かを判定する。更新回数が設定値を超えている場合には処理はステップＡ９０３へと進み、そうでなければ処理はステップＳ９０４へと進む。

ここで、図１０のステップＡ１００１の動作の具体例を図７Ｃの見出し「のいちご」を用いて説明する。第２形態素解析部８０１は、日本語テキストの形態素である「のいちご（名詞）」のドメイン名（これは、日本語テキストの属するドメイン名）が形態素解析辞書１０５に格納された見出し「のいちご」のドメイン名と一致している場合に、更新回数および設定値（例えば４）を比較する。第２形態素解析部８０１は、一致しているドメイン名が「児童書」の場合、更新回数が設定値を越えていることから、形態素解析辞書１０５に格納されるドメイン名の信頼度は高いと考えられるので、解析候補の評価点を再計算する。他方、第２形態素解析部８０１は、一致しているドメイン名が「料理本」の場合、更新回数が設定値を下回っていることから解析候補の評価点を再計算しない。

以上説明したように、第４の実施形態に係る形態素解析装置は、評価点再計算処理においてドメイン名の更新回数も利用して解析候補の評価点をつける。そして、ドメイン名の更新回数も利用することによって、解析候補の信頼度を考慮することができる。故に、この形態素解析装置によれば、従来の方法よりも形態素解析の精度を向上させることができる。

上記各実施形態の処理の少なくとも一部は、コンピュータをハードウェアとして用いることでも実現可能である。ここで、コンピュータは、パーソナルコンピュータに限られず、例えば演算処理装置、マイクロコントローラなどのプログラムを実行可能な任意の装置であってもよい。また、コンピュータは、１つの装置に限らず、複数の装置が例えばインターネット、ＬＡＮなどのネットワークで接続されたシステムであってもよい。また、コンピュータにインストールされたプログラム内の指示に基づいて、当該コンピュータのミドルウェア（例えば、ＯＳ、データベース管理ソフトウェア、ネットワークなど）が上記各実施形態の処理の少なくとも一部を行ってもよい。

上記処理を実現するプログラムは、コンピュータで読み取り可能な記憶媒体に保存されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記憶媒体に保存される。プログラムは、１つの記憶媒体にまとめて保存されてもよいし、複数の記憶媒体に分割して保存されてもよい。記憶媒体は、プログラムを保存可能であって、かつ、コンピュータによって読み取り可能であればよい。記憶媒体は、例えば、磁気ディスク、フレキシブルディスク、ハードディスク、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリなどである。

また、上記処理を実現するプログラムを、ネットワークに接続されたコンピュータ（サーバ）上に保存し、ネットワーク経由でコンピュータ（クライアント）にダウンロードさせてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・辞書更新装置
１０１・・・入力部
１０２・・・形態素解析部
１０３・・・判定部
１０４・・・更新部
１０５・・・形態素解析辞書
１０６・・・格納部
１０７・・・出力部
８００・・・形態素解析装置
８０１・・・第２形態素解析部

Claims

テキストと、当該テキストの属するドメイン名とを対応付けて格納する格納部と、
前記テキストを形態素解析することによって解析結果を生成する形態素解析部と、
前記解析結果が、入力された単語文字列を含むように形態素単位の単語に分割されているか否かを判定し、当該解析結果が当該単語文字列を含むように形態素単位の単語に分割されている場合に、形態素解析における当該単語文字列の影響点を計算する判定部と、
前記影響点が基準値を超える場合に、前記単語文字列と前記ドメイン名とを対応付ける更新部と
を具備する、辞書更新装置。
前記更新部は、前記単語文字列と前記ドメイン名とを対応付け、形態素解析辞書を更新する、請求項１に記載の辞書更新装置。
前記判定部は、前記ドメイン名に属する前記テキストの文脈として用いられない形態素の条件に基づいて、前記単語文字列の前記影響点を計算する、請求項１または請求項２に記載の辞書更新装置。
前記判定部は、前記ドメイン名に属する前記テキストの文脈として用いられる形態素の条件に基づいて、前記単語文字列の前記影響点を計算する、請求項１または請求項２に記載の辞書更新装置。
前記更新部は、前記単語文字列に前記ドメイン名が付与された回数を当該単語文字列および当該ドメイン名に対応付ける、請求項１乃至請求項４のいずれか１項に記載の辞書更新装置。
請求項１乃至請求項５のいずれか１項に記載の辞書更新装置と、
新たなテキストを、対応付けられた前記単語文字列および前記ドメイン名に基づいて、当該単語文字列の優先度を変えて形態素解析することによって前記解析結果を生成する第２形態素解析部と
を具備する、形態素解析装置。
請求項５に記載の辞書更新装置と、
新たなテキストを、前記回数が設定値を超えている場合に、対応付けられた前記単語文字列および前記ドメイン名に基づいて、当該単語文字列の優先度を変えて形態素解析することによって前記解析結果を生成する第２形態素解析部と
を具備する、形態素解析装置。
テキストと、当該テキストの属するドメイン名とを対応付けて格納することと、
前記テキストを形態素解析することによって解析結果を生成することと、
前記解析結果が、入力された単語文字列を含むように形態素単位の単語に分割されているか否かを判定し、当該解析結果が当該単語文字列を含むように形態素単位の単語に分割されている場合に、形態素解析における当該単語文字列の影響点を計算することと、
前記影響点が基準値を超える場合に、前記単語文字列と前記ドメイン名とを対応付けることと
を具備する、辞書更新方法。
コンピュータを、
テキストと、当該テキストの属するドメイン名とを対応付けて格納する手段と、
前記テキストを形態素解析することによって解析結果を生成する手段と、
前記解析結果が、入力された単語文字列を含むように形態素単位の単語に分割されているか否かを判定し、当該解析結果が当該単語文字列を含むように形態素単位の単語に分割されている場合に、形態素解析における当該単語文字列の影響点を計算する手段と、
前記影響点が基準値を超える場合に、前記単語文字列と前記ドメイン名とを対応付ける手段
として機能させる、辞書更新プログラム。