JP2006139463A

JP2006139463A - 形態素解析装置、形態素解析方法及び形態素解析プログラム

Info

Publication number: JP2006139463A
Application number: JP2004327570A
Authority: JP
Inventors: Hisako Asano; 久子浅野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-11-11
Filing date: 2004-11-11
Publication date: 2006-06-01

Abstract

【課題】日本語文の部分文字列が入力された場合であっても正しく解析可能な形態素解析装置、その方法及びプログラムを提供すること。
【解決手段】単語連鎖生成手段６において、入力情報として、日本語文とともに当該日本語文の先頭の直前にあるとする仮想的な単語の品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞を指定する文末品詞情報のいずれか一方もしくは両方が含まれている場合には、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書３及び文法規則４を用いて接続可能な品詞連鎖を満たす単語を抽出して単語連鎖侯補列を作成し、単語選択手段７において、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記日本語文の文頭から文末までに対応する一連の単語連鎖からなる単語情報列を選択して出力する。
【選択図】図１

Description

本発明は、入力された日本語文（日本語テキスト）を単語分割し、当該単語毎に読みや品詞等の情報が付与された単語情報列を出力する形態素解析技術に関する。

日本語文の形態素解析としては、単語辞書及び文法規則を用いて、入力された日本語文を品詞を特定可能な単語に分割し、接続可能な品詞連鎖を満たす単語を抽出し、当該抽出した単語をその読みや品詞等の情報とともに前記日本語文の文頭から文末までに対応させて組み合わせた単語連鎖の侯補である単語連鎖候補列を生成し（単語連鎖生成処理）、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記日本語文の文頭から文末までに対応する一連の単語連鎖からなる単語情報列を少なくとも１つ選択して出力する（単語選択処理）手法が一般的である。

具体的なコスト計算の手法としては、文節の数が少ない連鎖を優先する文節数最小法（非特許文献１参照）や、語の隣接規則にコストを設け、その合計が最小な連鎖を優先するコスト最小法（非特許文献２参照）ベースの技術が確立されている。
吉村賢治、他「文節数最小法を用いたべた書き日本語文の形態素解析」情報処理学会論文誌、Ｖｏｌ．２４，No．１，１９８３、ｐ．４０〜４６久光徹、他「接続コスト最小法による形態素解析の提案と計算量の評価について」電子情報通信学会技術研究報告、Ｖｏｌ．９０，No．１１６，１９９０、ｐ．１７〜２４

ところで、従来の単語連鎖生成処理では、入力された日本語文の先頭の直前には文頭を表す品詞を有する仮想的な単語があり、また、日本語文の末尾の直後には文末を表す品詞を有する仮想的な単語があることを前提として、接続可能な品詞連鎖を満たす単語を抽出し、単語連鎖侯補列を生成していた。このため、日本語文から切り出した部分文字列、例えば「横浜で会いましょう」という日本語文のうち「で会いましょう」という部分文字列のみを形態素解析の入力とした場合、文頭を表す品詞は、一般的に付属語より自立語との接続を優先するという隣接規則により、先頭の「で」が助詞ではなく、動詞（一段動詞「でる」の語幹）として誤認定されてしまうという問題があった。

本発明は、上記の点に鑑みなされたもので、日本語文の部分文字列が入力された場合であっても正しく解析可能な形態素解析装置、その方法及びプログラムを提供することを目的とする。

前記課題を解決するため、本発明では、入力情報として、日本語文とともに当該日本語文の先頭の直前にあるとする仮想的な単語の品詞である文頭品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞である文末品詞を指定する文末品詞情報のいずれか一方もしくは両方が含まれている場合には、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書及び文法規則を用いて接続可能な品詞連鎖を満たす単語を抽出し、単語連鎖侯補列を作成することを特徴とする。

本発明によれば、日本語文の部分文字列が入力された場合であっても、当該部分文字列の文頭・文末品詞に対応した正しい単語連鎖候補列を生成でき、正しく解析できるようになる。

以下、この発明を図示の実施の形態により詳細に説明する。

図１は本発明の実施の形態にかかる形態素解析装置を示すもので、図中、１は第１の記憶手段、２は第２の記憶手段、３は単語辞書、４は文法規則、５は中央処理装置（ＣＰＵ）である。

第１の記憶手段１は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された入力情報、即ち日本語文（以下、入力テキストと呼ぶ。）と、当該入力テキストの先頭の直前にあるとする仮想的な単語の品詞である文頭品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞である文末品詞を指定する文末品詞情報のいずれか一方もしくは両方とを記憶する。

なお、前記文頭・文末品詞情報は、入力テキストの先頭・末尾が実際に文頭・文末である時には省略可能とし、省略された時は従来の場合と同等になる。

第２の記憶手段２は、後述する単語連鎖生成手段によって生成された単語連鎖侯補列を記憶する。

単語辞書３は、少なくとも１つの文字を含む単語をその読みや品詞等の情報とともに多数登録してなるものであり、また、文法規則４は、様々な品詞同士の連鎖に関し、接続可能か不能かを記述してなるものであり、これらは実際には図示しない記憶装置に記憶・保持されている。

ＣＰＵ５は、図２にフローチャートで示すプログラムに従って前述した各部を制御するとともに、この際、単語連鎖生成手段６及び単語選択手段７を構成する。

単語連鎖生成手段６は、第１の記憶手段１の記憶内容を読み出し、文頭品詞情報または文末品詞情報のいずれか一方もしくは両方が含まれている場合は、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書３及び文法規則４を用いて、入力テキストを品詞を特定可能な単語に分割し、接続可能な品詞連鎖を満たす単語を抽出し、当該抽出した単語をその読みや品詞等の情報とともに前記入力テキストの文頭から文末までに対応させて組み合わせた単語連鎖の侯補である単語連鎖候補列を生成し、第２の記憶手段２に記憶する。

単語選択手段７は、第２の記憶手段２から単語連鎖侯補列を読み出し、当該単語連鎖侯補列に対して所定のコスト計算（例えば、既存の文節数最小法やコスト最小法等、どのようなものを用いても良い。）を行い、入力テキストの文頭から文末までに対応する一連の単語連鎖（文頭・文末の仮想的な単語は除く）のうち、優先順位の最も高いものを単語情報列として出力する。なお、この際、指定された数だけ、優先順位順に複数の単語情報列（多義）を出力しても良い。

以下、本発明装置による形態素解析方法を説明する。

まず、ＣＰＵ５は、入力情報が図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力されると、これを第１の記憶手段１に記憶する（ｓ１）。

次に、ＣＰＵ５は、その単語連鎖生成手段６により、第１の記憶手段１の記憶内容を読み出し（ｓ２）、その中に文頭品詞情報があるか否かを判定する（ｓ３）。この際、文頭品詞情報があれば、文頭におかれる仮想的な単語の品詞を文頭品詞情報に設定し（ｓ４）、文頭品詞情報がなければ、文頭におかれる仮想的な単語の品詞を「文頭」に設定する（ｓ５）。

次に、ＣＰＵ５は、その単語連鎖生成手段６により、第１の記憶手段１の記憶内容中に文末品詞情報があるか否かを判定する（ｓ６）。この際、文末品詞情報があれば、文末におかれる仮想的な単語の品詞を文末品詞情報に設定し（ｓ７）、文末品詞情報がなければ、文末におかれる仮想的な単語の品詞を「文末」に設定する（ｓ８）。

次に、ＣＰＵ５は、その単語連鎖生成手段６により、単語辞書３及び文法規則４を用いて、従来の場合と同様な単語連鎖生成処理を行って単語連鎖候補列を作成し（ｓ９）、これを第２の記憶手段２に記憶する（ｓ１０）。

最後に、ＣＰＵ５は、その単語選択手段７により、第２の記憶手段２から単語連鎖侯補列を読み出し（ｓ１１）、従来の場合と同様な単語選択処理を行って単語情報列を出力して（ｓ１２）、処理を終了する。

次に、本発明による具体的な形態素解析の処理例について説明する。なお、以下の例では、文法規則４において「文頭と格助詞」及び「文頭と判定詞」という品詞の接続が禁止されているものとする。

＜処理例１＞
図３は入力テキスト「横浜で会う。」、文頭・文末品詞情報なしの場合の処理例を示すもので、以下、図２中の代表的な処理に関して説明する。

まず、単語連鎖生成手段６によるステップｓ３の処理では、文頭品詞情報が無いので、ステップｓ５の処理に移り、文頭品詞を「文頭」に設定する。また、ステップｓ６の処理では、文末品詞情報が無いので、ステップｓ８の処理に移り、文末品詞を「文末」に設定する。そして、ステップｓ９の処理では、従来の場合と同様な単語連鎖生成処理によって、図３に示すような単語連鎖侯補列１１を生成する。

次に、単語選択手段７によるステップｓ１２の処理では、従来の場合と同様な単語選択処理によって、図３に示すような単語情報列１２を出力する。この単語情報列１２は、従来の場合と全く同じ結果になる。

＜処理例２＞
図４は入力テキスト「で会う。」、文頭・文末品詞情報なしの場合の処理例を示すもので、以下、図２中の代表的な処理に関して説明する。

まず、単語連鎖生成手段６によるステップｓ３の処理では、文頭品詞情報が無いので、ステップｓ５の処理に移り、文頭品詞を「文頭」に設定する。また、ステップｓ６の処理では、文末品詞情報が無いので、ステップｓ８の処理に移り、文末品詞を「文末」に設定する。そして、ステップｓ９の処理では、従来の場合と同様な単語連鎖生成処理によって、図４に示すような単語連鎖侯補列２１を生成する。この際、「文頭と格助詞」、「文頭と判定詞」の接続は文法規則４で禁止されているため、格助詞「で」、判定詞「で」は単語連鎖侯補列２１に含まれない。

次に、単語選択手段７によるステップｓ１２の処理では、従来の場合と同様な単語選択処理によって、図４に示すような単語情報列２２を出力する。この単語情報列２２も、従来の場合と全く同じ結果になる。

＜処理例３＞
図５は入力テキスト「で会う。」、文頭品詞情報「名詞」、文末品詞情報なしの場合の処理例を示すもので、以下、図２中の代表的な処理に関して説明する。

まず、単語連鎖生成手段６によるステップｓ３の処理では、文頭品詞情報が有り、「名詞」なので、ステップｓ４の処理に移り、文頭品詞を「名詞」に設定する。また、ステップｓ６の処理では、文末品詞情報が無いので、ステップｓ８の処理に移り、文末品詞を「文末」に設定する。そして、ステップｓ９の処理では、従来の場合と同様な単語連鎖生成処理によって、図５に示すような単語連鎖侯補列３１を生成する。この際、「名詞と格助詞」、「名詞と判定詞」、「名詞と動詞語幹」の接続は文法規則４で許可されているため、格助詞「で」、判定詞「で」、動詞語幹「で」が単語連鎖候補列３１に含まれる。

次に、単語選択手段７によるステップｓ１２の処理では、従来の場合と同様な単語選択処理によって、図５に示すような単語情報列３２を出力する。この単語情報列３２は従来の場合と同じ図４の単語情報列２２とは異なり、文頭の単語「横浜」がある図３の単語情報列１２と同じになる（但し、文頭の単語「横浜」は除く。）。

なお、本発明中の第１及び第２の記憶手段という記載は、どのようなデータを記憶するかという機能上の違いに基づく表現であり、ハードウェア的に２つの個別の記憶装置が必要であるという意味ではない。また、実施の形態では、単語連鎖生成手段及び単語選択手段を中央演算処理装置（ＣＰＵ）上でプログラムにより構成した例を示したが、それぞれハードウェアで構成しても良いことはいうまでもない。

本発明の実施の形態にかかる形態素解析装置を示すブロック構成図本発明の実施の形態にかかる形態素解析装置のプログラムに対応するフローチャート本発明による具体的な形態素解析処理の一例を示す説明図本発明による具体的な形態素解析処理の他の例を示す説明図本発明による具体的な形態素解析処理のさらに他の例を示す説明図

符号の説明

１：第１の記憶手段、２：第２の記憶手段、３：単語辞書、４：文法規則、５：中央処理装置（ＣＰＵ）、６：単語連鎖生成手段、７：単語選択手段。

Claims

入力された日本語文を単語分割し、当該単語毎に読みや品詞等の情報が付与された単語情報列を出力する形態素解析装置において、
入力された日本語文と、当該日本語文の先頭の直前にあるとする仮想的な単語の品詞である文頭品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞である文末品詞を指定する文末品詞情報のいずれか一方もしくは両方とを記憶する第１の記憶手段と、
第１の記憶手段の記憶内容を読み出し、文頭品詞情報または文末品詞情報のいずれか一方もしくは両方が含まれている場合は、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書及び文法規則を用いて、入力された日本語文を品詞を特定可能な単語に分割し、接続可能な品詞連鎖を満たす単語を抽出し、当該抽出した単語をその読みや品詞等の情報とともに前記日本語文の文頭から文末までに対応させて組み合わせた単語連鎖の候補である単語連鎖候補列を生成する単語連鎖生成手段と、
前記生成された単語連鎖侯補列を記憶する第２の記憶手段と、
第２の記憶手段から単語連鎖侯補列を読み出し、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記日本語文の文頭から文末までに対応する一連の単語連鎖からなる単語情報列を少なくとも１つ選択して出力する単語選択手段とを備えた
ことを特徴とする形態素解析装置。
入力された日本語文を単語分割し、当該単語毎に読みや品詞等の情報が付与された単語情報列を出力する形態素解析方法において、
単語辞書と、文法規則と、第１の記憶手段と、第２の記憶手段とを備えた計算機を用い、
当該計算機が、
入力された日本語文と、当該日本語文の先頭の直前にあるとする仮想的な単語の品詞である文頭品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞である文末品詞を指定する文末品詞情報のいずれか一方もしくは両方とを第１の記憶手段に記憶し、
第１の記憶手段の記憶内容を読み出し、文頭品詞情報または文末品詞情報のいずれか一方もしくは両方が含まれている場合は、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書及び文法規則を用いて、入力された日本語文を品詞を特定可能な単語に分割し、接続可能な品詞連鎖を満たす単語を抽出し、当該抽出した単語をその読みや品詞等の情報とともに前記日本語文の文頭から文末までに対応させて組み合わせた単語連鎖の侯補である単語連鎖候補列を生成し、
生成した単語連鎖侯補列を第２の記憶手段に記憶し、
第２の記憶手段から単語連鎖侯補列を読み出し、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記日本語文の文頭から文末までに対応する一連の単語連鎖からなる単語情報列を少なくとも１つ選択して出力する
ことを特徴とする形態素解析方法。
入力された日本語文を単語分割し、当該単語毎に読みや品詞等の情報が付与された単語情報列を出力する形態素解析プログラムにおいて、
単語辞書と、文法規則と、第１の記憶手段と、第２の記憶手段とを備えた計算機に、
入力された日本語文と、当該日本語文の先頭の直前にあるとする仮想的な単語の品詞である文頭品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞である文末品詞を指定する文末品詞情報のいずれか一方もしくは両方とを第１の記憶手段に記憶し、
第１の記憶手段の記憶内容を読み出し、文頭品詞情報または文末品詞情報のいずれか一方もしくは両方が含まれている場合は、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書及び文法規則を用いて、入力された日本語文を品詞を特定可能な単語に分割し、接続可能な品詞連鎖を満たす単語を抽出し、当該抽出した単語をその読みや品詞等の情報とともに前記日本語文の文頭から文末までに対応させて組み合わせた単語連鎖の侯補である単語連鎖候補列を生成し、
生成した単語連鎖侯補列を第２の記憶手段に記憶し、
第２の記憶手段から単語連鎖侯補列を読み出し、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記日本語文の文頭から文末までに対応する一連の単語連鎖からなる単語情報列を少なくとも１つ選択して出力する処理を実行させる
ことを特徴とする形態素解析プログラム。