JPH09319746A - 文書解析方法および装置 - Google Patents
文書解析方法および装置Info
- Publication number
- JPH09319746A JPH09319746A JP8156376A JP15637696A JPH09319746A JP H09319746 A JPH09319746 A JP H09319746A JP 8156376 A JP8156376 A JP 8156376A JP 15637696 A JP15637696 A JP 15637696A JP H09319746 A JPH09319746 A JP H09319746A
- Authority
- JP
- Japan
- Prior art keywords
- words
- analysis
- vocabulary
- affix
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】文節数最小法を用いた形態素解析を精密に行う
ことができるようにする。また、正確な自立語抽出を行
うようことができるようにする。 【解決手段】 日本語テキストを文節数最小法を用いた
形態素解析によって解析する文書解析方法において、品
詞別に分類した語の集合からなる一般語彙の形態素解析
用の辞書のほかに、接辞(接尾辞あるいは接頭辞)の組
合せによって構成される自立語を新たな接辞として定義
する接辞語彙辞書を用意し、形態素解析においては、そ
の接辞語彙辞書にある語を接辞として取り扱って文節を
決定する。また、上記形態素解析の結果を基に自立語の
抽出をする際には、接辞語彙辞書にある語を自立語とし
て抽出する。
ことができるようにする。また、正確な自立語抽出を行
うようことができるようにする。 【解決手段】 日本語テキストを文節数最小法を用いた
形態素解析によって解析する文書解析方法において、品
詞別に分類した語の集合からなる一般語彙の形態素解析
用の辞書のほかに、接辞(接尾辞あるいは接頭辞)の組
合せによって構成される自立語を新たな接辞として定義
する接辞語彙辞書を用意し、形態素解析においては、そ
の接辞語彙辞書にある語を接辞として取り扱って文節を
決定する。また、上記形態素解析の結果を基に自立語の
抽出をする際には、接辞語彙辞書にある語を自立語とし
て抽出する。
Description
【0001】
【発明の属する技術分野】本発明は、日本語テキストの
形態素解析による文書解析方法およびその方法を実施す
るための装置に関する。
形態素解析による文書解析方法およびその方法を実施す
るための装置に関する。
【0002】
【従来の技術】日本語のテキストを単語単位に分割し、
かつ、各単語の品詞情報/活用情報を得る技術のことを
日本語形態素解析(以下、単に形態素解析と記述する)
と呼ぶ。形態素解析は、文書から自動的にキーワード
(文書を代表する語)を抽出する処理や、構文解析等の
より高次な自然言語処理の基礎となる重要な技術であ
る。
かつ、各単語の品詞情報/活用情報を得る技術のことを
日本語形態素解析(以下、単に形態素解析と記述する)
と呼ぶ。形態素解析は、文書から自動的にキーワード
(文書を代表する語)を抽出する処理や、構文解析等の
より高次な自然言語処理の基礎となる重要な技術であ
る。
【0003】形態素解析は語彙辞書と接続関係テーブル
を用いることによって実現できる。語彙辞書は、日本語
の単語のリストであって、各単語には品詞情報/活用情
報が付加されている。接続関係テーブルは、語彙辞書中
の単語間の接続の可否を記述した表である。語彙辞書中
に存在する単語を接続テーブルで許可されている接続関
係に従って連接していくことによって、入力された日本
語テキストの文字列と同一の文字列を表現できた場合、
形態素解析が成功したことになる。形態素解析に成功し
た時、連接された単語の並びをその単語が持つ品詞情報
/活用情報と共に出力したものが解析結果となる。
を用いることによって実現できる。語彙辞書は、日本語
の単語のリストであって、各単語には品詞情報/活用情
報が付加されている。接続関係テーブルは、語彙辞書中
の単語間の接続の可否を記述した表である。語彙辞書中
に存在する単語を接続テーブルで許可されている接続関
係に従って連接していくことによって、入力された日本
語テキストの文字列と同一の文字列を表現できた場合、
形態素解析が成功したことになる。形態素解析に成功し
た時、連接された単語の並びをその単語が持つ品詞情報
/活用情報と共に出力したものが解析結果となる。
【0004】通常、接続関係テーブルには1文節内での
単語間の接続関係が記述される。ここで、文節とは、
「1つの自立語単語(名詞、動詞等)に0個以上の付属
語単語(助詞、助動詞)が後続して成立する意味単位」
であり、日本語テキスト(文章)は文節の繰り返しによ
って構成される。したがって、形態素解析時には、文節
間の係り受け関係や意味関係は一切無視され、文節に後
続する単語は、自立語であれば何であっても構わないこ
とになる。
単語間の接続関係が記述される。ここで、文節とは、
「1つの自立語単語(名詞、動詞等)に0個以上の付属
語単語(助詞、助動詞)が後続して成立する意味単位」
であり、日本語テキスト(文章)は文節の繰り返しによ
って構成される。したがって、形態素解析時には、文節
間の係り受け関係や意味関係は一切無視され、文節に後
続する単語は、自立語であれば何であっても構わないこ
とになる。
【0005】上記のように、通常文節間の接続関係には
何ら規定がないため、形態素解析結果として多数の候補
が得られることになる。したがって、それら多数の候補
を1つあるいは少数の候補へと絞り込む必要が生じる。
何ら規定がないため、形態素解析結果として多数の候補
が得られることになる。したがって、それら多数の候補
を1つあるいは少数の候補へと絞り込む必要が生じる。
【0006】例として日本語の文章「にほんのれきしを
まなぶ」を形態素解析した結果、以下の2種の解析結果
の候補が得られる。記号”/”は文節の切れ目を示
し、”{”、”}”で挟まれた文字列は品詞情報/活用
情報を示している。
まなぶ」を形態素解析した結果、以下の2種の解析結果
の候補が得られる。記号”/”は文節の切れ目を示
し、”{”、”}”で挟まれた文字列は品詞情報/活用
情報を示している。
【0007】(1)「にほん{名詞}/のれ{動詞,
命令形}/きし{名詞}を{助詞}/まなぶ{動詞,
終止形}」 (日本/乗れ/岸を/学ぶ)
命令形}/きし{名詞}を{助詞}/まなぶ{動詞,
終止形}」 (日本/乗れ/岸を/学ぶ)
【0008】(2)「にほん{名詞}の{助詞}/れき
し{名詞}を{助詞}/まなぶ{動詞, 終止形}」 (日本の/歴史を/学ぶ)
し{名詞}を{助詞}/まなぶ{動詞, 終止形}」 (日本の/歴史を/学ぶ)
【0009】複数の解析結果の候補を絞り込む代表的な
方法(ヒューリスティクス)として、「日高: 自然言
語理解の基礎−形態論, 情報処理, Vol. 3
0,No. 10, pp. 1169−1175
(1989)」において述べられている文節数最小法を
挙げることができる。文節数最小法は、得られた解析結
果の候補のうち文節数が最も少ない候補を最終的な解析
結果とするものである。上記の例では、(1)の文節数
が4、(2)の文節数が3であるため、(2)を最終的
な解析結果とする。文節数が最小の候補が複数存在する
場合には、それらすべてを最終的な解析結果とする。
方法(ヒューリスティクス)として、「日高: 自然言
語理解の基礎−形態論, 情報処理, Vol. 3
0,No. 10, pp. 1169−1175
(1989)」において述べられている文節数最小法を
挙げることができる。文節数最小法は、得られた解析結
果の候補のうち文節数が最も少ない候補を最終的な解析
結果とするものである。上記の例では、(1)の文節数
が4、(2)の文節数が3であるため、(2)を最終的
な解析結果とする。文節数が最小の候補が複数存在する
場合には、それらすべてを最終的な解析結果とする。
【0010】上記文献において述べられているとおり、
文節数最小法による絞り込みは処理速度の点において有
効な手法である。
文節数最小法による絞り込みは処理速度の点において有
効な手法である。
【0011】
【発明が解決しようとする課題】日本語では、自立語が
接尾辞あるいは接頭辞を伴って、新たな1つの自立語と
なることが多い。
接尾辞あるいは接頭辞を伴って、新たな1つの自立語と
なることが多い。
【0012】例えば、「栄養素」は、名詞「栄養」が接
尾辞「素」を伴って1つの自立語となっている。「ミカ
ン色」は、名詞「ミカン」が接尾辞「色」を伴って1つ
の自立語となっている。「非現実」は、名詞「現実」が
接頭辞「非」を伴って1つの自立語となっている。
尾辞「素」を伴って1つの自立語となっている。「ミカ
ン色」は、名詞「ミカン」が接尾辞「色」を伴って1つ
の自立語となっている。「非現実」は、名詞「現実」が
接頭辞「非」を伴って1つの自立語となっている。
【0013】また、接尾辞あるいは接頭辞は、複数個連
続する場合がある。例えば、「栄養素等」は、名詞「栄
養」が接尾辞「素」および「等」を伴って1つの自立語
となっている。「ミカン色他」は、名詞「ミカン」が接
尾辞「色」および「他」を伴って1つの自立語となって
いる。「超非現実」は、名詞「現実」が接頭辞「超」お
よび「非」を伴って1つの自立語となっている。
続する場合がある。例えば、「栄養素等」は、名詞「栄
養」が接尾辞「素」および「等」を伴って1つの自立語
となっている。「ミカン色他」は、名詞「ミカン」が接
尾辞「色」および「他」を伴って1つの自立語となって
いる。「超非現実」は、名詞「現実」が接頭辞「超」お
よび「非」を伴って1つの自立語となっている。
【0014】すなわち、「0個以上の接頭辞+自立語+
0個以上の接尾辞」もまた自立語であるといえる。
0個以上の接尾辞」もまた自立語であるといえる。
【0015】接頭辞あるいは接尾辞が連続する場合、実
際にどのような組合せがあり得るのかを網羅的に知るこ
とは困難である。したがって、通常接続関係テーブルに
は、全ての接尾辞が任意の個数自立語に後続できるよう
記述がなされ、また、全ての接頭辞が任意の個数続いた
後に自立語が後続できるよう記述がなされている。
際にどのような組合せがあり得るのかを網羅的に知るこ
とは困難である。したがって、通常接続関係テーブルに
は、全ての接尾辞が任意の個数自立語に後続できるよう
記述がなされ、また、全ての接頭辞が任意の個数続いた
後に自立語が後続できるよう記述がなされている。
【0016】しかしながら、この場合、文節数最小法を
用いた形態素解析において以下のような問題が生じる。
用いた形態素解析において以下のような問題が生じる。
【0017】(問題点1)ある文字列Sに対して形態素
解析を行い、「自立語+複数個の接尾辞」(「複数個の
接頭辞+自立語」)なる解析結果の候補が得られたとす
る。ここで、もし、”複数個の接尾辞”(”複数個の接
頭辞”)が1つの自立語としても成り立つ場合「自立語
+自立語」という解析結果の候補も得られる。しかしな
がら、文節は1つの自立語に0個以上の付属語が後続し
たものであるので、前者の文節数は1、後者の文節数は
2となる。したがって、このような場合、文節数最小法
では、常に「自立語+複数個の接尾辞」(または「複数
個の接頭辞+自立語」)が最終的な解析結果となり、
「自立語+自立語」は解析結果に含まれなくなってしま
う。
解析を行い、「自立語+複数個の接尾辞」(「複数個の
接頭辞+自立語」)なる解析結果の候補が得られたとす
る。ここで、もし、”複数個の接尾辞”(”複数個の接
頭辞”)が1つの自立語としても成り立つ場合「自立語
+自立語」という解析結果の候補も得られる。しかしな
がら、文節は1つの自立語に0個以上の付属語が後続し
たものであるので、前者の文節数は1、後者の文節数は
2となる。したがって、このような場合、文節数最小法
では、常に「自立語+複数個の接尾辞」(または「複数
個の接頭辞+自立語」)が最終的な解析結果となり、
「自立語+自立語」は解析結果に含まれなくなってしま
う。
【0018】例えば、「有害色素」を形態素解析した結
果得られる候補は以下の2つとなる。
果得られる候補は以下の2つとなる。
【0019】(1)「有害{名詞}色{接尾辞}素{接
尾辞}」
尾辞}」
【0020】(2)「有害{名詞}/色素{名詞}」
【0021】(1)の文節数は1、(2)の文節数は2
であるため、文節数最小法によれば(1)が最終的な解
析結果となる。しかし、この場合実際には(2)が正し
い解析結果であることは明らかである。
であるため、文節数最小法によれば(1)が最終的な解
析結果となる。しかし、この場合実際には(2)が正し
い解析結果であることは明らかである。
【0022】また、上記(例)において「色素」が語彙
辞書の名詞と接尾辞に属する語として重複して登録され
ている場合、形態素解析した結果得られる候補は以下の
3つである。
辞書の名詞と接尾辞に属する語として重複して登録され
ている場合、形態素解析した結果得られる候補は以下の
3つである。
【0023】(1)「有害{名詞}色{接尾辞}素{接
尾辞}」
尾辞}」
【0024】(2)「有害{名詞}色素{接尾辞}」
【0025】(3)「有害{名詞}/色素{名詞}」
【0026】ここで、(1)および(2)が、文節数が
1であるため、最終的な解析結果となる。この場合の
(2)においても、「色素」は接尾辞として解析される
のみであって、正しい解析結果が得られたとは言えな
い。したがって、例えば文章中から自立語を抽出する際
には問題が残る。すなわち、自立語として抽出される語
は、名詞として解析された「有害」のみであり、「色
素」は抽出されない。仮に、接尾辞も自立語であると仮
定して抽出した場合でも、「色素」は抽出されるが、同
時に「色」や「素」といった単独で意味を成さない語も
抽出されてしまうことになる。
1であるため、最終的な解析結果となる。この場合の
(2)においても、「色素」は接尾辞として解析される
のみであって、正しい解析結果が得られたとは言えな
い。したがって、例えば文章中から自立語を抽出する際
には問題が残る。すなわち、自立語として抽出される語
は、名詞として解析された「有害」のみであり、「色
素」は抽出されない。仮に、接尾辞も自立語であると仮
定して抽出した場合でも、「色素」は抽出されるが、同
時に「色」や「素」といった単独で意味を成さない語も
抽出されてしまうことになる。
【0027】つまり、文節数最小法を用いた形態素解析
において以下の問題が生じる。
において以下の問題が生じる。
【0028】(問題点2)語彙辞書に接尾辞(接頭辞)
と自立語の双方に重複して登録されている語がある場
合、「自立語+自立語」および「自立語+接尾辞」
(「接頭辞+自立語」)が解析結果の候補として得られ
るが、最終的な解析結果には「自立語+接尾辞」(「接
頭辞+自立語」)のみが残り、正しい解析結果が得られ
ず、したがって正確な自立語抽出を行うことができな
い。
と自立語の双方に重複して登録されている語がある場
合、「自立語+自立語」および「自立語+接尾辞」
(「接頭辞+自立語」)が解析結果の候補として得られ
るが、最終的な解析結果には「自立語+接尾辞」(「接
頭辞+自立語」)のみが残り、正しい解析結果が得られ
ず、したがって正確な自立語抽出を行うことができな
い。
【0029】本発明は上記の問題点1および問題点2を
解決するためになされたものである。即ち本発明は、文
節数最小法を用いた形態素解析を正確に行うようにする
ことを課題とする。また本発明は正確な自立語抽出を行
うことを課題とする。
解決するためになされたものである。即ち本発明は、文
節数最小法を用いた形態素解析を正確に行うようにする
ことを課題とする。また本発明は正確な自立語抽出を行
うことを課題とする。
【0030】
【課題を解決するための手段】本発明の文書解析方法
(請求項1)は、日本語テキストを文節数最小法を用い
た形態素解析によって解析する文書解析方法において、
品詞別に分類した語の集合からなる一般語彙の形態素解
析用の辞書のほかに、接辞(接尾辞あるいは接頭辞)の
組合せによって構成される自立語からなる接辞語彙辞書
を用意し、形態素解析においては、その接辞語彙辞書に
ある語を接辞として取り扱って文節を決定する。また、
本発明(請求項2)は上記形態素解析の結果を基に自立
語の抽出をする際には、接辞語彙辞書にある語を自立語
として抽出することを特徴とする。
(請求項1)は、日本語テキストを文節数最小法を用い
た形態素解析によって解析する文書解析方法において、
品詞別に分類した語の集合からなる一般語彙の形態素解
析用の辞書のほかに、接辞(接尾辞あるいは接頭辞)の
組合せによって構成される自立語からなる接辞語彙辞書
を用意し、形態素解析においては、その接辞語彙辞書に
ある語を接辞として取り扱って文節を決定する。また、
本発明(請求項2)は上記形態素解析の結果を基に自立
語の抽出をする際には、接辞語彙辞書にある語を自立語
として抽出することを特徴とする。
【0031】また、本発明(請求項3)の文書解析装置
は、語の集合を品詞別に分類して格納する一般語彙格納
手段と、一般語彙格納手段に、品詞が接辞として分類さ
れている語の組合せによって構成される語の集合を格納
する接辞語彙格納手段と、接辞語彙格納手段に格納され
ている語を接辞(接尾辞あるいは接頭辞)と同等の接続
関係を持つ品詞であると定義した上で、各品詞間の接続
関係の記述を格納する接続関係格納手段と、前記一般語
彙格納手段、接辞語彙格納手段および接続関係格納手段
の内容を参照し、日本語テキストを文節数最小法によっ
て形態素解析する形態素解析手段とを有することを特徴
とする。また、本発明(請求項4)は、上記文書解析装
置において、形態素解析手段から得られる解析結果か
ら、接辞語彙格納手段中の語彙を自立語とみなした上
で、利用者が所望する語彙を抽出する抽出手段を有す
る。
は、語の集合を品詞別に分類して格納する一般語彙格納
手段と、一般語彙格納手段に、品詞が接辞として分類さ
れている語の組合せによって構成される語の集合を格納
する接辞語彙格納手段と、接辞語彙格納手段に格納され
ている語を接辞(接尾辞あるいは接頭辞)と同等の接続
関係を持つ品詞であると定義した上で、各品詞間の接続
関係の記述を格納する接続関係格納手段と、前記一般語
彙格納手段、接辞語彙格納手段および接続関係格納手段
の内容を参照し、日本語テキストを文節数最小法によっ
て形態素解析する形態素解析手段とを有することを特徴
とする。また、本発明(請求項4)は、上記文書解析装
置において、形態素解析手段から得られる解析結果か
ら、接辞語彙格納手段中の語彙を自立語とみなした上
で、利用者が所望する語彙を抽出する抽出手段を有す
る。
【0032】
【作用】本発明(請求項1、請求項3)の文書解析方法
または文書解析装置では、形態素解析を行う際に、接辞
の組合せによって構成される自立語を、新たな接辞と定
義する。これにより、解析対象文章中に接辞が連続し、
かつ、その連続が既存の語彙と一致する場合、あるい
は、語彙辞書中に自立語と接辞の双方に重複して登録さ
れている語がある場合においても、文節数最小法による
絞り込み後に正しい解析結果を残すことが可能となる。
また、本発明(請求項2、請求項4)は、上記の解析結
果から自立語を抽出する際に、上記新たに定義された接
辞も自立語であるとみなして抽出する。これにより、解
析対象文章中に接辞が連続し、かつ、その連続が既存の
語彙と一致する場合、あるいは、語彙辞書中に自立語と
接辞の双方に重複して登録されている語がある場合にお
いても、正しい自立語を抽出することが可能となる。
または文書解析装置では、形態素解析を行う際に、接辞
の組合せによって構成される自立語を、新たな接辞と定
義する。これにより、解析対象文章中に接辞が連続し、
かつ、その連続が既存の語彙と一致する場合、あるい
は、語彙辞書中に自立語と接辞の双方に重複して登録さ
れている語がある場合においても、文節数最小法による
絞り込み後に正しい解析結果を残すことが可能となる。
また、本発明(請求項2、請求項4)は、上記の解析結
果から自立語を抽出する際に、上記新たに定義された接
辞も自立語であるとみなして抽出する。これにより、解
析対象文章中に接辞が連続し、かつ、その連続が既存の
語彙と一致する場合、あるいは、語彙辞書中に自立語と
接辞の双方に重複して登録されている語がある場合にお
いても、正しい自立語を抽出することが可能となる。
【0033】
【発明の実施の形態】本発明の一実施の形態としての形
態素解析装置の構成例を図1に示す。本例は、日本語文
章から自立語を抽出することを目的とし、接尾辞から構
成される名詞単語を対象として説明するものであるが、
接尾辞から構成される名詞以外の単語、あるいは、接頭
辞から構成される単語を対象として同様のシステムを構
築できることは明らかである。以下図1の各構成要素に
ついて説明する。
態素解析装置の構成例を図1に示す。本例は、日本語文
章から自立語を抽出することを目的とし、接尾辞から構
成される名詞単語を対象として説明するものであるが、
接尾辞から構成される名詞以外の単語、あるいは、接頭
辞から構成される単語を対象として同様のシステムを構
築できることは明らかである。以下図1の各構成要素に
ついて説明する。
【0034】入力手段1は、解析の対象となる日本語文
章を入力することが可能なインタフェースを持つプログ
ラムモジュールである。
章を入力することが可能なインタフェースを持つプログ
ラムモジュールである。
【0035】一般語彙格納手段2は、品詞別(活用語に
関してはさらに活用形別)に分類された日本語の単語の
リストを、品詞名(活用語に関してはさらに活用形名)
と対にして格納する記憶装置である。
関してはさらに活用形別)に分類された日本語の単語の
リストを、品詞名(活用語に関してはさらに活用形名)
と対にして格納する記憶装置である。
【0036】接尾辞語彙格納手段3は、一般語彙格納手
段2に格納されている単語のうち、接尾辞として分類さ
れている単語の組合せによって構成されている名詞単語
のリストを、品詞名({接尾辞名詞})と対にして格納
する記憶装置である。
段2に格納されている単語のうち、接尾辞として分類さ
れている単語の組合せによって構成されている名詞単語
のリストを、品詞名({接尾辞名詞})と対にして格納
する記憶装置である。
【0037】接続関係格納手段4は、一般語彙格納手段
2に格納されている単語(品詞、活用形)間の、日本語
文節における接続関係を記述した接続関係テーブルを格
納する記憶装置である。
2に格納されている単語(品詞、活用形)間の、日本語
文節における接続関係を記述した接続関係テーブルを格
納する記憶装置である。
【0038】形態素解析手段5は、語彙接続関係検索手
段51と候補絞り込み手段52とからなる。
段51と候補絞り込み手段52とからなる。
【0039】語彙接続関係検索手段51は、入力手段1
に入力された日本語文章を句読点をデリミタとして、複
数の文字列に区切り、各文字列と同一な単語の並びを、
接続関係格納手段4に格納された接続関係情報に従っ
て、一般語彙格納手段2、接辞語彙格納手段3に格納さ
れた単語リストから検索して作成し、解析結果の候補と
して出力するプログラムモジュールである。
に入力された日本語文章を句読点をデリミタとして、複
数の文字列に区切り、各文字列と同一な単語の並びを、
接続関係格納手段4に格納された接続関係情報に従っ
て、一般語彙格納手段2、接辞語彙格納手段3に格納さ
れた単語リストから検索して作成し、解析結果の候補と
して出力するプログラムモジュールである。
【0040】候補絞り込み手段52は、語彙接続関係検
索手段51から得られる解析結果の候補から文節数最小
法によって候補の絞り込みを行うプログラムモジュール
である。
索手段51から得られる解析結果の候補から文節数最小
法によって候補の絞り込みを行うプログラムモジュール
である。
【0041】自立語抽出手段6は、候補絞り込み手段5
2から得られる形態素解析結果から自立語および品詞名
が{接尾辞名詞}の語を抽出するプログラムモジュール
である。
2から得られる形態素解析結果から自立語および品詞名
が{接尾辞名詞}の語を抽出するプログラムモジュール
である。
【0042】出力手段7は、自立語抽出手段6によって
抽出された自立語の集合を表示することが可能なインタ
フェースを持つプログラムモジュールである。
抽出された自立語の集合を表示することが可能なインタ
フェースを持つプログラムモジュールである。
【0043】図2に、一般語彙格納手段2および接尾辞
語彙格納手段3における単語の格納例を示す。接尾辞語
彙格納手段3に格納されている単語(品詞名{接尾辞名
詞})は、一般語彙格納手段2に品詞名が{名詞}とし
て格納されている単語のうち、品詞名が{接尾辞}とし
て格納されている単語の組合わせによって構成される単
語を抜き出したものである。
語彙格納手段3における単語の格納例を示す。接尾辞語
彙格納手段3に格納されている単語(品詞名{接尾辞名
詞})は、一般語彙格納手段2に品詞名が{名詞}とし
て格納されている単語のうち、品詞名が{接尾辞}とし
て格納されている単語の組合わせによって構成される単
語を抜き出したものである。
【0044】図3は、接続関係格納手段4に格納される
接続関係テーブルの例である。”後続する単語”欄に記
載された単語が、”先行する単語”欄に記載された単語
に後続して接続可能な場合を”○”で、接続不可な場合
を”−”で示している。
接続関係テーブルの例である。”後続する単語”欄に記
載された単語が、”先行する単語”欄に記載された単語
に後続して接続可能な場合を”○”で、接続不可な場合
を”−”で示している。
【0045】例えば、一般語彙格納手段2に品詞が{名
詞}として格納されている各単語の後には、{名詞}と
して分類されている単語は接続できないが、{接尾
辞},{助詞}として分類されている単語や接尾辞語彙
格納手段3に格納されている単語(品詞名{接尾辞名
詞})は接続可能である。
詞}として格納されている各単語の後には、{名詞}と
して分類されている単語は接続できないが、{接尾
辞},{助詞}として分類されている単語や接尾辞語彙
格納手段3に格納されている単語(品詞名{接尾辞名
詞})は接続可能である。
【0046】図4に、本実施例の処理手順をフローチャ
ートで示す。入力手段1に入力された(ステップS1)
日本語文章を句読点「、」や「。」をデリミタとして分
割し(ステップS2)、分割された文字列それぞれに対
して、語彙接続関係検索手段51が解析を行い(ステッ
プS4)、解析結果の候補として品詞名の付加された単
語の並びを候補絞り込み手段52に渡す(ステップS
5)。候補絞り込み手段52は、文節数最小法により最
終的な解析結果を決定する(ステップS6)。自立語抽
出手段6は、得られた解析結果から品詞が自立語(名
詞、動詞等)である単語および品詞名が{接尾辞名詞}
である単語を抽出し、抽出結果を表示する(ステップS
7)。
ートで示す。入力手段1に入力された(ステップS1)
日本語文章を句読点「、」や「。」をデリミタとして分
割し(ステップS2)、分割された文字列それぞれに対
して、語彙接続関係検索手段51が解析を行い(ステッ
プS4)、解析結果の候補として品詞名の付加された単
語の並びを候補絞り込み手段52に渡す(ステップS
5)。候補絞り込み手段52は、文節数最小法により最
終的な解析結果を決定する(ステップS6)。自立語抽
出手段6は、得られた解析結果から品詞が自立語(名
詞、動詞等)である単語および品詞名が{接尾辞名詞}
である単語を抽出し、抽出結果を表示する(ステップS
7)。
【0047】例えば、入力手段1に「外国勢力等の台頭
と、プロダクト品質の低下」なる文章が入力された場合
(S1)を考える。まず、句読点をデリミタとして以下
の通り文章を区切る(S2)。
と、プロダクト品質の低下」なる文章が入力された場合
(S1)を考える。まず、句読点をデリミタとして以下
の通り文章を区切る(S2)。
【0048】(1)外国勢力等の台頭と
【0049】(2)プロダクト品質の低下
【0050】(1)に対する解析結果の候補は、以下の
通りである。
通りである。
【0051】(1−a) 外国{名詞}勢{接尾辞}力
{接尾辞}等{接尾辞}の{助詞}/台頭{名詞}と
{接尾辞}
{接尾辞}等{接尾辞}の{助詞}/台頭{名詞}と
{接尾辞}
【0052】(1−b) 外国{名詞}勢力{接尾辞名
詞}等{接尾辞}の{助詞}/台頭{名詞}と{接尾
辞}
詞}等{接尾辞}の{助詞}/台頭{名詞}と{接尾
辞}
【0053】(1−c) 外国{名詞}/勢力{名詞}
等{接尾辞}の{助詞}/台頭{名詞}と{接尾辞}
等{接尾辞}の{助詞}/台頭{名詞}と{接尾辞}
【0054】(1−a)と(1−b)は文節数が2であ
り、(1−c)は3である。したがって、文節数最小法
による絞り込みにより、最終的に得られる解析結果は
(1−a)と(1−b)となる。
り、(1−c)は3である。したがって、文節数最小法
による絞り込みにより、最終的に得られる解析結果は
(1−a)と(1−b)となる。
【0055】ここで、品詞が自立語である単語および品
詞名が{接尾辞名詞}である単語を抽出することによ
り、結果として得られる自立語は「外国」「勢力」「台
頭」となる。
詞名が{接尾辞名詞}である単語を抽出することによ
り、結果として得られる自立語は「外国」「勢力」「台
頭」となる。
【0056】(2)に対する解析結果の候補は、以下の
通りである。
通りである。
【0057】(2−a)プロダクト{名詞}品{接尾
辞}質{接尾辞}の{助詞}/低下{名詞}
辞}質{接尾辞}の{助詞}/低下{名詞}
【0058】(2−b)プロダクト{名詞}品質{接尾
辞名詞}の{助詞}/低下{名詞}
辞名詞}の{助詞}/低下{名詞}
【0059】(2−c)プロダクト{名詞}/品質{名
詞}の{助詞}/低下{名詞}
詞}の{助詞}/低下{名詞}
【0060】(2−a)と(2−b)は文節数が2であ
り、(2−c)は3である。したがって、文節数最小法
による絞り込みにより、最終的に得られる解析結果は
(2−a)と(2−b)となる。
り、(2−c)は3である。したがって、文節数最小法
による絞り込みにより、最終的に得られる解析結果は
(2−a)と(2−b)となる。
【0061】ここで、品詞が自立語である単語および品
詞名が{接尾辞名詞}である単語を抽出することによ
り、結果として得られる自立語は「プロダクト」「品
質」「低下」となる。
詞名が{接尾辞名詞}である単語を抽出することによ
り、結果として得られる自立語は「プロダクト」「品
質」「低下」となる。
【0062】
【発明の効果】以上のように本発明によれば、形態素解
析を行う際に、接辞(接尾辞または接頭辞)を構成要素
とする既存の語彙の集合を、新たな接辞と定義すること
により、解析対象文章中に接辞が連続し、かつ、その連
続が既存の語彙と一致する場合、あるいは、語彙辞書中
に自立語と接辞の双方に登録されている語がある場合に
おいても、文節数最小法による絞り込み後に正しい解析
結果を残すことが可能となり、また、正確な自立語の抽
出を行うことができる。
析を行う際に、接辞(接尾辞または接頭辞)を構成要素
とする既存の語彙の集合を、新たな接辞と定義すること
により、解析対象文章中に接辞が連続し、かつ、その連
続が既存の語彙と一致する場合、あるいは、語彙辞書中
に自立語と接辞の双方に登録されている語がある場合に
おいても、文節数最小法による絞り込み後に正しい解析
結果を残すことが可能となり、また、正確な自立語の抽
出を行うことができる。
【図1】本発明の一実施形態の形態素解析装置の概略構
成例を示すブロック図である。
成例を示すブロック図である。
【図2】(a)は一般語彙格納手段に格納されたデータ
例、(b)は接尾辞語彙格納手段中のデータ例を示す図
である。
例、(b)は接尾辞語彙格納手段中のデータ例を示す図
である。
【図3】接続関係格納手段中のデータ例を示す図であ
る。
る。
【図4】実施形態の例の処理手順を示すフローチャート
である。
である。
1…入力手段、2…一般語彙格納手段、3…接尾辞語彙
格納手段、4…接続関係格納手段、5…形態素解析手
段、51…語彙接続関係検索手段、52…候補絞り込み
手段、6…自立語抽出手段、7…出力手段。
格納手段、4…接続関係格納手段、5…形態素解析手
段、51…語彙接続関係検索手段、52…候補絞り込み
手段、6…自立語抽出手段、7…出力手段。
Claims (4)
- 【請求項1】日本語テキストを文節数最小法を用いた形
態素解析によって解析する文書解析方法において、品詞
別に分類した語の集合からなる一般語彙の形態素解析用
の辞書のほかに、接辞(接尾辞あるいは接頭辞)の組合
せによって構成される自立語からなる接辞語彙辞書を用
意し、形態素解析においては、その接辞語彙辞書にある
語を接辞として取り扱って文節を決定することを特徴と
する文書解析方法。 - 【請求項2】 自立語の抽出においては接辞語彙辞書に
ある語を自立語として抽出することを特徴とする請求項
1記載の文書解析方法。 - 【請求項3】語の集合を品詞別に分類して格納する一般
語彙格納手段と、 一般語彙格納手段に、品詞が接辞として分類されている
語の組合せによって構成される語の集合を格納する接辞
語彙格納手段と、 接辞語彙格納手段に格納されている語を接辞と同等の接
続関係を持つ品詞であると定義した上で、各品詞間の接
続関係の記述を格納する接続関係格納手段と、 前記一般語彙格納手段、接辞語彙格納手段および接続関
係格納手段の内容を参照し、日本語テキストを文節数最
小法によって形態素解析する形態素解析手段と、を有す
ることを特徴とする文書解析装置。 - 【請求項4】形態素解析手段から得られる解析結果か
ら、接辞語彙格納手段中の語彙を自立語とみなした上
で、利用者が所望する語彙を抽出する抽出手段を有する
ことを特徴とする特許請求の範囲第3項記載の文書解析
装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8156376A JPH09319746A (ja) | 1996-05-29 | 1996-05-29 | 文書解析方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8156376A JPH09319746A (ja) | 1996-05-29 | 1996-05-29 | 文書解析方法および装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09319746A true JPH09319746A (ja) | 1997-12-12 |
Family
ID=15626407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8156376A Pending JPH09319746A (ja) | 1996-05-29 | 1996-05-29 | 文書解析方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH09319746A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934209A (zh) * | 2019-05-17 | 2019-06-25 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路及介质 |
-
1996
- 1996-05-29 JP JP8156376A patent/JPH09319746A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934209A (zh) * | 2019-05-17 | 2019-06-25 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路及介质 |
CN109934209B (zh) * | 2019-05-17 | 2019-07-30 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路及介质 |
US10621428B1 (en) | 2019-05-17 | 2020-04-14 | NextVPU (Shanghai) Co., Ltd. | Layout analysis on image |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
US5680628A (en) | Method and apparatus for automated search and retrieval process | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
US6473729B1 (en) | Word phrase translation using a phrase index | |
US20050216253A1 (en) | System and method for reverse transliteration using statistical alignment | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
Davydov et al. | Mathematical method of translation into Ukrainian sign language based on ontologies | |
JPS62163173A (ja) | 機械翻訳方法 | |
US10606903B2 (en) | Multi-dimensional query based extraction of polarity-aware content | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
Yeshambel et al. | Evaluation of corpora, resources and tools for Amharic information retrieval | |
Elsheikh | Timeline of the development of Arabic PoS taggers and Morphological analysers | |
Senellart | Locating noun phrases with finite state transducers | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
JPH09319746A (ja) | 文書解析方法および装置 | |
JP4007630B2 (ja) | 対訳例文登録装置 | |
Oudah et al. | Studying the impact of language-independent and language-specific features on hybrid Arabic Person name recognition | |
Angle et al. | Kannada morpheme segmentation using machine learning | |
Saint-Joanis | A new set of linguistic resources for Ukrainian | |
Pudaruth et al. | English to Creole and Creole to English Rule Based Machine Translation System | |
Salim Elsheikh et al. | TIMELINE OF THE DEVELOPMENT OF ARABIC POS TAGGERS AND MORPHOLOGICALANALYSERS | |
Pazos R et al. | Algorithm for Processing Queries that Involve Boolean Columns for a Natural Language Interface to Databases | |
Farooqui et al. | The Role of NLP in Coreference Resolution in Sindhi Text | |
Prakapenka et al. | Creation of a Legal Domain Corpus for the Belarusian Module in NooJ: Texts, Dictionaries, Grammars | |
Mittal et al. | Word Sense Disambiguation Approaches for Indian Languages: A Survey |