JP2807236B2 - 形態素解析方法 - Google Patents

形態素解析方法

Info

Publication number
JP2807236B2
JP2807236B2 JP63180064A JP18006488A JP2807236B2 JP 2807236 B2 JP2807236 B2 JP 2807236B2 JP 63180064 A JP63180064 A JP 63180064A JP 18006488 A JP18006488 A JP 18006488A JP 2807236 B2 JP2807236 B2 JP 2807236B2
Authority
JP
Japan
Prior art keywords
speech
words
word
arrangement
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63180064A
Other languages
English (en)
Other versions
JPH0228873A (ja
Inventor
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63180064A priority Critical patent/JP2807236B2/ja
Publication of JPH0228873A publication Critical patent/JPH0228873A/ja
Application granted granted Critical
Publication of JP2807236B2 publication Critical patent/JP2807236B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、日本語を原言語とする機械翻訳システムや
校正支援システム等において用いられる形態素解析方法
に関する。
従来の技術 従来、この種の形態素解析法としては、最長一致法や
文節数最小法を用いたものが多い。
発明が解決しようとする問題点 これらの従来法による場合、単語選択の際の評価方式
は単なる長さ、品詞毎の頻度、同表記語内の優先順位な
どを取り入れたものが多く、必ずしも文節本来の構造を
反映した解析とはならず、誤解析を起こすことが多々あ
る。
例えば、従来の最長一致法などによる解析では、以下
の例1,例2のような処理ができず、又は、非効率なもの
である。
例1:入力「結婚したものだそうである。」 例2:入力「全社員は」 例1の「だそうである」の処理で辞書検索の結果、助
動詞「だ」と動詞「出す」の未然形を候補とし、最長一
致法により「だそ」を選択する。次に、「うである」で
は辞書検索により助動詞「う」を得る。ここまでは一見
正しいが、「である」からの処理で助動詞「う」にいか
なる「で」も接続しないので、ここではじめて誤解析で
あることが判明する。バツクトラツクを1ステツプする
システムでは、この場合、誤解析となり、回復不可能で
ある。また、2ステツプ以上バツクトラツクするシステ
ムでは処理が非効率的となる。
また、例2では最長一致法であるために「全社」を選
択し、直後の「員」も接尾辞で接続するのでバツクトラ
ツクせず、そのまま誤解析となる。
また、長さの同じ語や同表記語は、最長一致法や文節
数最小法では、文節構造を無視した解を選択することが
ある。その例を例3,例4に示す。
例3:入力「店舗からの発注」 例4:入力「結婚できる」 問題点を解決するための手段 単語の表記と品詞情報との対を記憶した単語辞書を格
納するメモリと、単語間の接続情報を記憶した接続テー
ブルを格納するメモリとを用い、日本語文を構成する単
語を前記単語辞書を格納したメモリを検索して日本語文
を可能なすべての単語と品詞の並びに分割し、日本語文
の分割された単語の並びが隣り合う単語の品詞順で前記
接続テーブルを格納したメモリを検索して接続可否を判
定することで分割された単語と品詞の並びの中から唯一
つの単語と品詞の並びを選択する形態素解析方法におい
て、単語の表記あるいは品詞の並びとこの並びに対する
処理とを該当する現象の少ない順に一般ルールよりもメ
モリの先頭箇所に個別ルールとして記憶し、分割された
単語と品詞の並びの中で接続可否の判定で接続可として
残された単語と品詞の並びに対しルールを記憶したメモ
リの先頭箇所から適用し、ルールに対応付けられた処理
内容によって候補の選択又は削除を行い、候補が複数個
残った場合には、更に一般的ルールを適用して正しいと
考えられる単語と品詞の並びを決定する。
さらには、このような処理を、入力された日本語文を
その字種の切目などにより区切り、区切られた区間毎に
行う。
作用 最長一致法や文節数最小法などの一般的ルールの適用
に先立ち、品詞や単語の連鎖などの文節構造を反映した
言語現象を扱える個別ルールを適用して候補を絞り込む
ことにより、高精度な形態素解析がなされる。
この際、日本語文の1文全体を処理せず、区切られた
一定区間毎に処理するという横型解析を行い、この一定
区間内の可能な解だけを生成するので、バツクトラツク
等の無駄な処理をしなくて済む。
実施例 本発明の一実施例を図面に基づいて説明する。まず、
第2図に本発明を実施する形態素解析装置のブロツク図
を示す。この装置は、入力装置1と出力装置2と、情報
を記憶したテーブル類を有する処理装置3とに大別され
る。ここに、処理装置3は、区間生成部4と候補生成部
5と候補評価部6とからなる。区間生成部4は入力され
て処理する文の処理範囲を決め、区間に区切るものであ
る。1文全体と字種などの切目による部分処理のどちら
も可能なものである。候補生成部5は表記、接続、活用
するかどうかなどの情報を記憶した単語辞書7と、活用
しない語の接続情報を記憶した品詞分類表8と、活用す
る語の語尾を記憶した語尾テーブル9と、語の接続関係
を記憶した接続テーブル10とを有し、これらを用いて、
区間生成部4により生成された区間内で考えられる可能
な解を全て生成し、候補記憶部11に格納する。
また、候補評価部6は、候補生成部5で作成されその
候補記憶部11に格納された解析結果からルールテーブル
12を用いて正しい解を導き出すものである。各解析結果
に対してルールテーブル12内の個別ルール12aの中の最
もスペシフイツクなルールから順に適用して候補を選択
又は削除して絞り込み、最終的に一般的ルール12bを適
用することで正しい解を選択する。ルールの適用は、個
別ルール12aのスペシフイツクなものから順に行われ、
最後に一般的ルール12bについて行う。このため、候補
評価部6は、概念的には、個別ルールの適用部6aと、一
般的ルールの適用部6bとを有する。
次に、各テーブル類等について個々に説明する。ま
ず、単語辞書7の例を第3図に示す。この単語辞書7は
語の接続や活用を調べるためのコード、表記、活用する
かどうかを表す活用語尾フラグFからなる。活用語尾フ
ラグFは活用すれば1、活用しなければ0と記憶する。
活用する語は活用語尾テーブルを参照するとにより語の
正しい活用形を固定することができる。
語尾テーブル9の例を第4図に示す。これは、活用す
る語を語毎に活用別のその接続をしるした受けコード、
係りコード、活用形名とを記憶したものである。
品詞分類表8の例を第5図に示す。これは、活用しな
い語を語毎にその接続をしるした受けコード、係りコー
ドとを記憶したものである。
接続テーブル10の例を第6図に示す。これは、係りと
受けとの関係を2次元行列の形で記憶したものである。
接続するときには1、接続しないときには0を立てる。
ルールテーブル12の例を第7図に示す。これは、複数
の候補から正しい解を得るためにルールをスペシフイツ
クな順に並べたものである。ここには、特に、従来の文
節数最小法、単語数最小法、最長一致法などでは正しく
解析できなかつた語を個別ルール12aとして、一般的ル
ール12bとは分けて記憶し、解の選択に用いる。ルール
テーブル12は個々の言語現象について記述した個別ルー
ル12aを前置し、文節数最小法などを一般的ルール12bと
して後置してある。個別ルール12aは条件部と処理部と
からなり、条件部には品詞や単語の連鎖などを記憶し、
処理部にはそれに対する処理を記憶するようになされて
いる。この個別ルール12aは品詞レベルだけでなく、特
定の単語についても記述できる。ルールは先頭のものか
ら実行されるようになつており、個別ルール12aを全て
適用した後、一般的ルール12bで最終解を求めることに
なる。
候補記憶部11の例を第8図に示す。これは、辞書検索
を行い、候補となるものを全てここに格納するととも
に、ルールを参照することでこの候補記憶部11内の候補
を絞つて、より正しい候補だけを保持するために用いら
れる このような構成において、形態素解析処理の主な流れ
を第9図に示す。まず、入力日本語文に対して、文末か
どうかチエツクし、文末でなければ区間生成部4におい
て未処理の文字列の先頭から区間を生成する。ここで区
切られた区間の範囲で並列解析を行う。区間の設定は、
例えばひらがなから漢字への字種の切目や助詞の切目な
どで粗く決定できる。区間の設定後、候補生成部5にお
いてその区間内で可能な全ての解(パス)を作り、候補
記憶部11に記憶する。次に、候補評価部6において、候
補記憶部11中の各候補に対して、ルールテーブル12内の
各個別ルール12aをスペシフイツクな順に適用し、候補
記憶部11中の候補を選択又は削除して絞り込み、残つた
候補に対して単語数最小法や文節数最小法などの一般的
ルール12bを適用して最終的な解を決定する。当該区間
内の解が決定すると、当該区間の処理を終了し、当該区
間の直後の文字列に処理を進める。
このような処理中、特に、本実施例の特徴とする区間
内の候補評価部6における処理を、第1図のフローチヤ
ートを参照して、より詳細に説明する。これは、候補記
憶部11中の各候補に対してルールを適用し、候補を絞つ
ていくものであり、まず、区間において候補数が1であ
るかどうかチエツクする。候補数が1であれば、当該候
補をそのまま解とするため、候補評価部6の処理を終了
する。候補数が複数の場合には、各候補に対してルール
テーブル12内の個別ルール12aを適用し、ルールに適合
する文字や品詞の連鎖がある場合はそのルールに従つて
候補を選択し、又は削除する。この処理後、及び、適合
する連鎖がない場合も、次の個別ルール12aの適用へ処
理を進め、さらに候補を絞り込む、このような個別ルー
ル12aの適用処理が進み、候補数が1つのみとなり、又
は、適用する個別ルール12aが尽きた場合には、その時
点で候補記憶部11中に残つている候補について一般的ル
ール12bを適用し、最終的な1つの解を決定する。ここ
に、ルールテーブル12内には先に個別ルール12aの群が
格納され、後に一般的なルール12bの群が格納され、か
つ、個別ルール12aの群はスペシフイツクな順に並んで
いるので、最もスペシフイツクなルールから適用される
ことになる。
このような本実施例方式に基づいた、具体的な処理例
を具体例1,2,3として説明する。
具体例1: 入力が「失敗するということを確認した。」の場合を
第10図(a)を参照して説明する。まず、区間生成部4
においてひらがなから漢字への切目を区間の区切りとす
ると「失敗するということを」までが1つの区間とな
る。候補生成部5においてこの区間内の可能な解(パ
ス)を作成すると、第10図(a)に示すようになる。そ
して、候補評価部6内での処理として、各候補に対して
ルールテーブル12内の個別ルール12aをそのテーブルの
先頭から適用する。まず、サ変名詞とサ変助動詞との連
鎖があれば、それを選択するルールが適合するので、第
10図(a)中に示すパス3とパス4とが削除される。こ
の処理の後、次の個別ルール12aの適用へと処理を進め
る。すると、条件部に「と」と「いう、言う、思う、考
える」と並びの場合には、格助詞「と」を含む1,3を選
択する。続いて、さらに、個別ルール12aをテーブルの
順番のあとのものに順に適用すると、「サ変名詞−サ変
助動詞」の並びが、第10図(a)の候補1に該当する。
このルールでは、「サ変助動詞」を選択するとあるの
で、候補1を選択する。この時点で、候補数が一つにな
るので、候補評価部6での処理を終了する。
「確認した」なる後続の区間文についても同様に処理
する。「サ変名詞−サ変助動詞」の並びが該当し、この
ルールでは、「サ変助動詞」を選択するとあるので、
「サ変名詞−サ変助動詞」の候補を選択する。
区間に区切らない場合でも、全文を1区間とみなし
て、品詞、単語の並びに同様にルールを適用すればよ
い。
具体例2 入力が「店舗からの発注」の場合を第10図(b)を参
照して説明する。この場合、各パス1,2に対して個別ル
ールを適用すると、名詞の直後は格助詞を選択するとい
う個別ルールにより、パス1側が選択され、パス2側は
削除される。この結果、候補数が1となるので、パス1
を解として処理を終了する。
具体例3 入力が「開発することになる。」の場合を第10図
(c)を参照して説明する。まず、区間生成部4におい
てひらがなから漢字への切目を区間の区切りとすると
「開発することになる」までが1つの区間となる。この
場合、区間が1文全体に該当する。区間を設定せずに、
文全体を解析することもできる。候補生成部5において
この区間内の可能な解(パス)を作成すると、第10図
(c)に示すようになる。そして、候補評価部6内での
処理として、各候補に対してルールテーブル12内の個別
ルール12aをそのテーブルの先頭から適用する。この場
合、ルールテーブルの条件部に「サ変助動詞−形式名
詞」、「サ変動詞−形式名詞」があり、処理部には「形
式名詞を選択する」とあるので、第10図(c)の候補の
うち、2,4を選択する。文節数最小法や最長一致法では
パス1,3を選択して誤解析となっていたが、本実施例で
は正しく解析できる。残りの2,4の候補に対して、さら
にルールテーブルを適用すると、「サ変名詞−サ変助動
詞」があり、「サ変助動詞を選択する」とあるので、第
10図(c)の候補のうち、2を選択する。ここで、候補
数が1であるので、候補評価を終了する。
発明の効果 本発明は上述のように、単語の表記と品詞情報との対
を記憶した単語辞書を格納するメモリと、単語間の接続
情報を記憶した接続テーブルを格納するメモリとを用
い、日本語文を構成する単語を前記単語辞書を格納した
メモリを検索して日本語文を可能なすべての単語と品詞
の並びに分割し、日本語文の分割された単語の並びが隣
り合う単語の品詞順で前記接続テーブルを格納したメモ
リを検索して接続可否を判定することで分割された単語
と品詞の並びの中から唯一つの単語と品詞の並びを選択
する形態素解析方法において、単語の表記あるいは品詞
の並びとこの並びに対する処理とを該当する現象の少な
い順に一般ルールよりもメモリの先頭箇所に個別ルール
として記憶し、分割された単語と品詞の並びの中で接続
可否の判定で接続可として残された単語と品詞の並びに
対しルールを記憶したメモリの先頭箇所から適用し、ル
ールに対応付けられた処理内容によって候補の選択又は
削除を行い、候補が複数個残った場合には、更に一般的
ルールを適用して正しいと考えられる単語と品詞の並び
を決定するようにしたので、処理のスコープを広げ、品
詞や単語の連鎖などの文節構造を反映した個別ルールを
適用して候補を絞り込むことにより、最長一致法や文節
数最小法などの一般的ルールでは扱えない個別の言語現
象をも扱い、誤解析の少ない高精度な形態素解析が可能
となる。また、このような個別ルールを評価方式に採り
入れたこのような処理を、日本語文の1文全体の処理と
はせずに、入力された日本語文をその字種の切目などに
より区切り、区切られた区間毎に行うようにしたので、
この一定区間内の可能な解だけを生成することになり、
バツクトラツク等の無駄な処理をしなくて済むものであ
る。
【図面の簡単な説明】
図面は本発明の一実施例を示し、第1図は候補評価部で
の処理を示すフローチヤート、第2図は全体のブロツク
図、第3図は単語辞書の構成図、第4図は語尾テーブル
の構成図、第5図は品詞分類表の構成図、第6図は接続
テーブルの構成図、第7図はルールテーブルの構成図、
第8図は候補記憶部の構成図、第9図は形態素解析処理
の概略を示すフローチヤート、第10図は具体例を示す説
明図である。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】単語の表記と品詞情報との対を記憶した単
    語辞書を格納するメモリと、単語間の接続情報を記憶し
    た接続テーブルを格納するメモリとを用い、日本語文を
    構成する単語を前記単語辞書を格納したメモリを検索し
    て日本語文を可能なすべての単語と品詞の並びに分割
    し、日本語文の分割された単語の並びが隣り合う単語の
    品詞順で前記接続テーブルを格納したメモリを検索して
    接続可否を判定することで分割された単語と品詞の並び
    の中から唯一つの単語と品詞の並びを選択する形態素解
    析方法において、単語の表記あるいは品詞の並びとこの
    並びに対する処理とを該当する現象の少ない順に一般ル
    ールよりもメモリの先頭箇所に個別ルールとして記憶
    し、分割された単語と品詞の並びの中で接続可否の判定
    で接続可として残された単語と品詞の並びに対しルール
    を記憶したメモリの先頭箇所から適用し、ルールに対応
    付けられた処理内容によって候補の選択又は削除を行
    い、候補が複数個残った場合には、更に一般的ルールを
    適用して正しいと考えられる単語と品詞の並びを決定す
    ることを特徴とする形態素解析方法。
  2. 【請求項2】入力された日本語文をその字種の切目など
    により区切り、区切られた区間毎に処理を行うことを特
    徴とする請求項1記載の形態素解析方法。
JP63180064A 1988-07-19 1988-07-19 形態素解析方法 Expired - Lifetime JP2807236B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63180064A JP2807236B2 (ja) 1988-07-19 1988-07-19 形態素解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63180064A JP2807236B2 (ja) 1988-07-19 1988-07-19 形態素解析方法

Publications (2)

Publication Number Publication Date
JPH0228873A JPH0228873A (ja) 1990-01-30
JP2807236B2 true JP2807236B2 (ja) 1998-10-08

Family

ID=16076846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63180064A Expired - Lifetime JP2807236B2 (ja) 1988-07-19 1988-07-19 形態素解析方法

Country Status (1)

Country Link
JP (1) JP2807236B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556970B1 (en) 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02308369A (ja) * 1989-05-23 1990-12-21 Nec Corp 形態素分割方式
JP2794998B2 (ja) * 1991-09-09 1998-09-10 三菱電機株式会社 形態素解析装置および文節辞書作成装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556970B1 (en) 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized

Also Published As

Publication number Publication date
JPH0228873A (ja) 1990-01-30

Similar Documents

Publication Publication Date Title
EP0281742B1 (en) Method for verifying spelling of compound words
EP0283685B1 (en) A spelling assistance method for compound words
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JPH0724055B2 (ja) 単語分割処理方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US20050065776A1 (en) System and method for the recognition of organic chemical names in text documents
JP2807236B2 (ja) 形態素解析方法
KR20000021962A (ko) 부분 문자열별 기분석에 기반한 한국어 형태소 분석장치 및 그방법
JPS62139076A (ja) 言語解析方式
KR20000039406A (ko) 부분 구문 분석을 통한 보어-술어 관계의 복합명사 색인 방법
KR20010004090A (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
JP2897942B2 (ja) 日本語形態素解析システム及び形態素解析方式
JPH04211867A (ja) 日本語構文解析システム
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置
JPH0320866A (ja) テキストベース検索方式
JPH0827803B2 (ja) テキストベース検索方法
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式
JPS6126172A (ja) カナ漢字変換方式
Zupeng et al. An improved approach for Chinese parsing
JPS63138465A (ja) 構文解析装置
JPH10198676A (ja) 日本語形態素解析装置及び日本語形態素解析方法
JPH0581314A (ja) 係り受け関係判定方式
JPH05225232A (ja) テキスト自動前編集装置
JPH06332938A (ja) 自然言語解析装置および機械翻訳装置
JPH03129468A (ja) 英日機械翻訳装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070724

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080724

Year of fee payment: 10

EXPY Cancellation because of completion of term