JP2006139463A - 形態素解析装置、形態素解析方法及び形態素解析プログラム - Google Patents

形態素解析装置、形態素解析方法及び形態素解析プログラム Download PDF

Info

Publication number
JP2006139463A
JP2006139463A JP2004327570A JP2004327570A JP2006139463A JP 2006139463 A JP2006139463 A JP 2006139463A JP 2004327570 A JP2004327570 A JP 2004327570A JP 2004327570 A JP2004327570 A JP 2004327570A JP 2006139463 A JP2006139463 A JP 2006139463A
Authority
JP
Japan
Prior art keywords
speech
sentence
word
information
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004327570A
Other languages
English (en)
Inventor
Hisako Asano
久子 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004327570A priority Critical patent/JP2006139463A/ja
Publication of JP2006139463A publication Critical patent/JP2006139463A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】日本語文の部分文字列が入力された場合であっても正しく解析可能な形態素解析装置、その方法及びプログラムを提供すること。
【解決手段】単語連鎖生成手段6において、入力情報として、日本語文とともに当該日本語文の先頭の直前にあるとする仮想的な単語の品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞を指定する文末品詞情報のいずれか一方もしくは両方が含まれている場合には、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書3及び文法規則4を用いて接続可能な品詞連鎖を満たす単語を抽出して単語連鎖侯補列を作成し、単語選択手段7において、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記日本語文の文頭から文末までに対応する一連の単語連鎖からなる単語情報列を選択して出力する。
【選択図】図1

Description

本発明は、入力された日本語文(日本語テキスト)を単語分割し、当該単語毎に読みや品詞等の情報が付与された単語情報列を出力する形態素解析技術に関する。
日本語文の形態素解析としては、単語辞書及び文法規則を用いて、入力された日本語文を品詞を特定可能な単語に分割し、接続可能な品詞連鎖を満たす単語を抽出し、当該抽出した単語をその読みや品詞等の情報とともに前記日本語文の文頭から文末までに対応させて組み合わせた単語連鎖の侯補である単語連鎖候補列を生成し(単語連鎖生成処理)、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記日本語文の文頭から文末までに対応する一連の単語連鎖からなる単語情報列を少なくとも1つ選択して出力する(単語選択処理)手法が一般的である。
具体的なコスト計算の手法としては、文節の数が少ない連鎖を優先する文節数最小法(非特許文献1参照)や、語の隣接規則にコストを設け、その合計が最小な連鎖を優先するコスト最小法(非特許文献2参照)ベースの技術が確立されている。
吉村賢治、他「文節数最小法を用いたべた書き日本語文の形態素解析」情報処理学会論文誌、Vol.24,No.1,1983、p.40〜46 久光 徹、他「接続コスト最小法による形態素解析の提案と計算量の評価について」電子情報通信学会技術研究報告、Vol.90,No.116,1990、p.17〜24
ところで、従来の単語連鎖生成処理では、入力された日本語文の先頭の直前には文頭を表す品詞を有する仮想的な単語があり、また、日本語文の末尾の直後には文末を表す品詞を有する仮想的な単語があることを前提として、接続可能な品詞連鎖を満たす単語を抽出し、単語連鎖侯補列を生成していた。このため、日本語文から切り出した部分文字列、例えば「横浜で会いましょう」という日本語文のうち「で会いましょう」という部分文字列のみを形態素解析の入力とした場合、文頭を表す品詞は、一般的に付属語より自立語との接続を優先するという隣接規則により、先頭の「で」が助詞ではなく、動詞(一段動詞「でる」の語幹)として誤認定されてしまうという問題があった。
本発明は、上記の点に鑑みなされたもので、日本語文の部分文字列が入力された場合であっても正しく解析可能な形態素解析装置、その方法及びプログラムを提供することを目的とする。
前記課題を解決するため、本発明では、入力情報として、日本語文とともに当該日本語文の先頭の直前にあるとする仮想的な単語の品詞である文頭品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞である文末品詞を指定する文末品詞情報のいずれか一方もしくは両方が含まれている場合には、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書及び文法規則を用いて接続可能な品詞連鎖を満たす単語を抽出し、単語連鎖侯補列を作成することを特徴とする。
本発明によれば、日本語文の部分文字列が入力された場合であっても、当該部分文字列の文頭・文末品詞に対応した正しい単語連鎖候補列を生成でき、正しく解析できるようになる。
以下、この発明を図示の実施の形態により詳細に説明する。
図1は本発明の実施の形態にかかる形態素解析装置を示すもので、図中、1は第1の記憶手段、2は第2の記憶手段、3は単語辞書、4は文法規則、5は中央処理装置(CPU)である。
第1の記憶手段1は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された入力情報、即ち日本語文(以下、入力テキストと呼ぶ。)と、当該入力テキストの先頭の直前にあるとする仮想的な単語の品詞である文頭品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞である文末品詞を指定する文末品詞情報のいずれか一方もしくは両方とを記憶する。
なお、前記文頭・文末品詞情報は、入力テキストの先頭・末尾が実際に文頭・文末である時には省略可能とし、省略された時は従来の場合と同等になる。
第2の記憶手段2は、後述する単語連鎖生成手段によって生成された単語連鎖侯補列を記憶する。
単語辞書3は、少なくとも1つの文字を含む単語をその読みや品詞等の情報とともに多数登録してなるものであり、また、文法規則4は、様々な品詞同士の連鎖に関し、接続可能か不能かを記述してなるものであり、これらは実際には図示しない記憶装置に記憶・保持されている。
CPU5は、図2にフローチャートで示すプログラムに従って前述した各部を制御するとともに、この際、単語連鎖生成手段6及び単語選択手段7を構成する。
単語連鎖生成手段6は、第1の記憶手段1の記憶内容を読み出し、文頭品詞情報または文末品詞情報のいずれか一方もしくは両方が含まれている場合は、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書3及び文法規則4を用いて、入力テキストを品詞を特定可能な単語に分割し、接続可能な品詞連鎖を満たす単語を抽出し、当該抽出した単語をその読みや品詞等の情報とともに前記入力テキストの文頭から文末までに対応させて組み合わせた単語連鎖の侯補である単語連鎖候補列を生成し、第2の記憶手段2に記憶する。
単語選択手段7は、第2の記憶手段2から単語連鎖侯補列を読み出し、当該単語連鎖侯補列に対して所定のコスト計算(例えば、既存の文節数最小法やコスト最小法等、どのようなものを用いても良い。)を行い、入力テキストの文頭から文末までに対応する一連の単語連鎖(文頭・文末の仮想的な単語は除く)のうち、優先順位の最も高いものを単語情報列として出力する。なお、この際、指定された数だけ、優先順位順に複数の単語情報列(多義)を出力しても良い。
以下、本発明装置による形態素解析方法を説明する。
まず、CPU5は、入力情報が図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力されると、これを第1の記憶手段1に記憶する(s1)。
次に、CPU5は、その単語連鎖生成手段6により、第1の記憶手段1の記憶内容を読み出し(s2)、その中に文頭品詞情報があるか否かを判定する(s3)。この際、文頭品詞情報があれば、文頭におかれる仮想的な単語の品詞を文頭品詞情報に設定し(s4)、文頭品詞情報がなければ、文頭におかれる仮想的な単語の品詞を「文頭」に設定する(s5)。
次に、CPU5は、その単語連鎖生成手段6により、第1の記憶手段1の記憶内容中に文末品詞情報があるか否かを判定する(s6)。この際、文末品詞情報があれば、文末におかれる仮想的な単語の品詞を文末品詞情報に設定し(s7)、文末品詞情報がなければ、文末におかれる仮想的な単語の品詞を「文末」に設定する(s8)。
次に、CPU5は、その単語連鎖生成手段6により、単語辞書3及び文法規則4を用いて、従来の場合と同様な単語連鎖生成処理を行って単語連鎖候補列を作成し(s9)、これを第2の記憶手段2に記憶する(s10)。
最後に、CPU5は、その単語選択手段7により、第2の記憶手段2から単語連鎖侯補列を読み出し(s11)、従来の場合と同様な単語選択処理を行って単語情報列を出力して(s12)、処理を終了する。
次に、本発明による具体的な形態素解析の処理例について説明する。なお、以下の例では、文法規則4において「文頭と格助詞」及び「文頭と判定詞」という品詞の接続が禁止されているものとする。
<処理例1>
図3は入力テキスト「横浜で会う。」、文頭・文末品詞情報なしの場合の処理例を示すもので、以下、図2中の代表的な処理に関して説明する。
まず、単語連鎖生成手段6によるステップs3の処理では、文頭品詞情報が無いので、ステップs5の処理に移り、文頭品詞を「文頭」に設定する。また、ステップs6の処理では、文末品詞情報が無いので、ステップs8の処理に移り、文末品詞を「文末」に設定する。そして、ステップs9の処理では、従来の場合と同様な単語連鎖生成処理によって、図3に示すような単語連鎖侯補列11を生成する。
次に、単語選択手段7によるステップs12の処理では、従来の場合と同様な単語選択処理によって、図3に示すような単語情報列12を出力する。この単語情報列12は、従来の場合と全く同じ結果になる。
<処理例2>
図4は入力テキスト「で会う。」、文頭・文末品詞情報なしの場合の処理例を示すもので、以下、図2中の代表的な処理に関して説明する。
まず、単語連鎖生成手段6によるステップs3の処理では、文頭品詞情報が無いので、ステップs5の処理に移り、文頭品詞を「文頭」に設定する。また、ステップs6の処理では、文末品詞情報が無いので、ステップs8の処理に移り、文末品詞を「文末」に設定する。そして、ステップs9の処理では、従来の場合と同様な単語連鎖生成処理によって、図4に示すような単語連鎖侯補列21を生成する。この際、「文頭と格助詞」、「文頭と判定詞」の接続は文法規則4で禁止されているため、格助詞「で」、判定詞「で」は単語連鎖侯補列21に含まれない。
次に、単語選択手段7によるステップs12の処理では、従来の場合と同様な単語選択処理によって、図4に示すような単語情報列22を出力する。この単語情報列22も、従来の場合と全く同じ結果になる。
<処理例3>
図5は入力テキスト「で会う。」、文頭品詞情報「名詞」、文末品詞情報なしの場合の処理例を示すもので、以下、図2中の代表的な処理に関して説明する。
まず、単語連鎖生成手段6によるステップs3の処理では、文頭品詞情報が有り、「名詞」なので、ステップs4の処理に移り、文頭品詞を「名詞」に設定する。また、ステップs6の処理では、文末品詞情報が無いので、ステップs8の処理に移り、文末品詞を「文末」に設定する。そして、ステップs9の処理では、従来の場合と同様な単語連鎖生成処理によって、図5に示すような単語連鎖侯補列31を生成する。この際、「名詞と格助詞」、「名詞と判定詞」、「名詞と動詞語幹」の接続は文法規則4で許可されているため、格助詞「で」、判定詞「で」、動詞語幹「で」が単語連鎖候補列31に含まれる。
次に、単語選択手段7によるステップs12の処理では、従来の場合と同様な単語選択処理によって、図5に示すような単語情報列32を出力する。この単語情報列32は従来の場合と同じ図4の単語情報列22とは異なり、文頭の単語「横浜」がある図3の単語情報列12と同じになる(但し、文頭の単語「横浜」は除く。)。
なお、本発明中の第1及び第2の記憶手段という記載は、どのようなデータを記憶するかという機能上の違いに基づく表現であり、ハードウェア的に2つの個別の記憶装置が必要であるという意味ではない。また、実施の形態では、単語連鎖生成手段及び単語選択手段を中央演算処理装置(CPU)上でプログラムにより構成した例を示したが、それぞれハードウェアで構成しても良いことはいうまでもない。
本発明の実施の形態にかかる形態素解析装置を示すブロック構成図 本発明の実施の形態にかかる形態素解析装置のプログラムに対応するフローチャート 本発明による具体的な形態素解析処理の一例を示す説明図 本発明による具体的な形態素解析処理の他の例を示す説明図 本発明による具体的な形態素解析処理のさらに他の例を示す説明図
符号の説明
1:第1の記憶手段、2:第2の記憶手段、3:単語辞書、4:文法規則、5:中央処理装置(CPU)、6:単語連鎖生成手段、7:単語選択手段。

Claims (3)

  1. 入力された日本語文を単語分割し、当該単語毎に読みや品詞等の情報が付与された単語情報列を出力する形態素解析装置において、
    入力された日本語文と、当該日本語文の先頭の直前にあるとする仮想的な単語の品詞である文頭品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞である文末品詞を指定する文末品詞情報のいずれか一方もしくは両方とを記憶する第1の記憶手段と、
    第1の記憶手段の記憶内容を読み出し、文頭品詞情報または文末品詞情報のいずれか一方もしくは両方が含まれている場合は、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書及び文法規則を用いて、入力された日本語文を品詞を特定可能な単語に分割し、接続可能な品詞連鎖を満たす単語を抽出し、当該抽出した単語をその読みや品詞等の情報とともに前記日本語文の文頭から文末までに対応させて組み合わせた単語連鎖の候補である単語連鎖候補列を生成する単語連鎖生成手段と、
    前記生成された単語連鎖侯補列を記憶する第2の記憶手段と、
    第2の記憶手段から単語連鎖侯補列を読み出し、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記日本語文の文頭から文末までに対応する一連の単語連鎖からなる単語情報列を少なくとも1つ選択して出力する単語選択手段とを備えた
    ことを特徴とする形態素解析装置。
  2. 入力された日本語文を単語分割し、当該単語毎に読みや品詞等の情報が付与された単語情報列を出力する形態素解析方法において、
    単語辞書と、文法規則と、第1の記憶手段と、第2の記憶手段とを備えた計算機を用い、
    当該計算機が、
    入力された日本語文と、当該日本語文の先頭の直前にあるとする仮想的な単語の品詞である文頭品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞である文末品詞を指定する文末品詞情報のいずれか一方もしくは両方とを第1の記憶手段に記憶し、
    第1の記憶手段の記憶内容を読み出し、文頭品詞情報または文末品詞情報のいずれか一方もしくは両方が含まれている場合は、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書及び文法規則を用いて、入力された日本語文を品詞を特定可能な単語に分割し、接続可能な品詞連鎖を満たす単語を抽出し、当該抽出した単語をその読みや品詞等の情報とともに前記日本語文の文頭から文末までに対応させて組み合わせた単語連鎖の侯補である単語連鎖候補列を生成し、
    生成した単語連鎖侯補列を第2の記憶手段に記憶し、
    第2の記憶手段から単語連鎖侯補列を読み出し、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記日本語文の文頭から文末までに対応する一連の単語連鎖からなる単語情報列を少なくとも1つ選択して出力する
    ことを特徴とする形態素解析方法。
  3. 入力された日本語文を単語分割し、当該単語毎に読みや品詞等の情報が付与された単語情報列を出力する形態素解析プログラムにおいて、
    単語辞書と、文法規則と、第1の記憶手段と、第2の記憶手段とを備えた計算機に、
    入力された日本語文と、当該日本語文の先頭の直前にあるとする仮想的な単語の品詞である文頭品詞を指定する文頭品詞情報または当該日本語文の末尾の直後にあるとする仮想的な単語の品詞である文末品詞を指定する文末品詞情報のいずれか一方もしくは両方とを第1の記憶手段に記憶し、
    第1の記憶手段の記憶内容を読み出し、文頭品詞情報または文末品詞情報のいずれか一方もしくは両方が含まれている場合は、文頭品詞または文末品詞のいずれか一方もしくは両方をそれぞれ指定されている品詞に置き換えた後、単語辞書及び文法規則を用いて、入力された日本語文を品詞を特定可能な単語に分割し、接続可能な品詞連鎖を満たす単語を抽出し、当該抽出した単語をその読みや品詞等の情報とともに前記日本語文の文頭から文末までに対応させて組み合わせた単語連鎖の侯補である単語連鎖候補列を生成し、
    生成した単語連鎖侯補列を第2の記憶手段に記憶し、
    第2の記憶手段から単語連鎖侯補列を読み出し、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記日本語文の文頭から文末までに対応する一連の単語連鎖からなる単語情報列を少なくとも1つ選択して出力する処理を実行させる
    ことを特徴とする形態素解析プログラム。
JP2004327570A 2004-11-11 2004-11-11 形態素解析装置、形態素解析方法及び形態素解析プログラム Pending JP2006139463A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004327570A JP2006139463A (ja) 2004-11-11 2004-11-11 形態素解析装置、形態素解析方法及び形態素解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004327570A JP2006139463A (ja) 2004-11-11 2004-11-11 形態素解析装置、形態素解析方法及び形態素解析プログラム

Publications (1)

Publication Number Publication Date
JP2006139463A true JP2006139463A (ja) 2006-06-01

Family

ID=36620261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004327570A Pending JP2006139463A (ja) 2004-11-11 2004-11-11 形態素解析装置、形態素解析方法及び形態素解析プログラム

Country Status (1)

Country Link
JP (1) JP2006139463A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014026514A (ja) * 2012-07-27 2014-02-06 Fujitsu Ltd 文字入力支援プログラム、文字入力支援方法および文字入力支援装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014026514A (ja) * 2012-07-27 2014-02-06 Fujitsu Ltd 文字入力支援プログラム、文字入力支援方法および文字入力支援装置

Similar Documents

Publication Publication Date Title
JP3971373B2 (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置
Pasha et al. Madamira: A fast, comprehensive tool for morphological analysis and disambiguation of arabic.
US5930746A (en) Parsing and translating natural language sentences automatically
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP2004303240A (ja) 単語解析のためのシステムおよび方法
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
JP2006139463A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP2005345846A (ja) 入力テキストのポーズ位置予測装置
JP4007504B2 (ja) 単語分割装置、記憶媒体およびプログラム
JP2006178671A (ja) 同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体
JP2007316916A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP2002258884A (ja) 音声合成方法および装置並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002351871A (ja) 形態素解析装置、形態素解析方法、プログラムおよび記録媒体
JP2001265763A (ja) 形態素解析方法および形態素解析プログラムを記録した記録媒体
JPH06289890A (ja) 自然言語処理装置
JP2003296323A (ja) 形態素解析装置
KR100617320B1 (ko) 한국어 특성을 이용한 용언간 구조 분석 방법 및 그 장치
JPH0612449A (ja) 機械翻訳装置及びその方法
JP2001184345A (ja) 言語処理装置
Tugwell Practical Syntactic Processing of Flexible Word Order Languages with Dynamic Syntax
JPH04370873A (ja) かな漢字変換方式
JPH02257363A (ja) 自動翻訳装置