JP3139624B2 - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JP3139624B2
JP3139624B2 JP02095619A JP9561990A JP3139624B2 JP 3139624 B2 JP3139624 B2 JP 3139624B2 JP 02095619 A JP02095619 A JP 02095619A JP 9561990 A JP9561990 A JP 9561990A JP 3139624 B2 JP3139624 B2 JP 3139624B2
Authority
JP
Japan
Prior art keywords
word
string
words
candidate
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP02095619A
Other languages
English (en)
Other versions
JPH03292565A (ja
Inventor
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP02095619A priority Critical patent/JP3139624B2/ja
Publication of JPH03292565A publication Critical patent/JPH03292565A/ja
Application granted granted Critical
Publication of JP3139624B2 publication Critical patent/JP3139624B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は、形態素解析装置に関し、より詳細には、日
本語のように単語の境界が明示されない言葉の文章を対
象として形態素解析を行なう場合に、単語を認定する際
の曖昧さを解消するようにした形態素解析装置に関す
る。例えば、機械翻訳システムや音声合成システムの前
処理部分、あるいは光学的文字認識装置(OCR)の誤認
識訂正部やキーワード自動抽出システムに適用されるも
のである。
従来技術 自然言語文を計算機で処理する場合には、まず文章を
単語単位に分割し、辞書から対応する文法情報を検索す
る必要がある。この文章がどのような単語から構成され
ているのかを解析する処理を形態素解析と呼んでいる。
機械翻訳などでの日本語の文章を計算機で処理する場
合には、まず文を単語単位に分割する必要がある。これ
は日本文に限らず、英文のように単語が空白によって区
切られない表記法を採る言語の文すべてに当てはまる。
本発明に係る従来技術を記載した公知文献としては
「日本文音声出力システムの言語処理」(NTT研究実用
化報告第35巻第2号,P.157−167,1986年)がある。
この文献には、漢字仮名混じり文を対象とした場合の
従来の形態素解析方式について説明されている。なお、
文が仮名のみからなる場合(仮名漢字変換を行なう場
合)の処理も基本的には同じである。この従来の形態素
解析方式は以下の手順によるものである。
与えられた文字列に出現している可能性のある単語を
すべて単語辞書から検索し、文法情報を付与する。この
とき、文字列全体を一度に処理するのではなく、句読点
や字種変化点などに基づいて分割された部分文字列を対
象にしてもよい。
与えられた文字列全体をカバーする互いに文法的に接
続可能な単語列をすべて求める。接続可能かどうかは、
前記で単語辞書から得た文法情報を使って判定する。
複数の単語列が得られた場合、何らかの基準により単
語列を1つだけに決定する。
ところで、ある文字列をカバーする互いに文法的に接
続可能な単語列は一般に複数存在する。従って、どのよ
うにして複数の単語列からただ1つの正しい単語列を解
として決定すればよいかが問題となる。そのために従来
一般的に使われているのが、自立語の数が最少の単語列
や、単語数が最少の単語列を選択するという方法であ
る。
例えば“現代理科を”という文字列を解析する場合
“現/代理/科/を”“現代/理科/を”という2種類
の候補単語列がある(‘/'は単語の境界を表す)。単語
数が最少の単語列を選択すれば正しく“現代/理科/
を”という単語列に決定することができる。しかしこの
ような単純な方法では正しく決定できない場合も多い。
例えば、“畜産物価格安定法を”という文字列を考え
る。ここから多くの候補単語列が得られるが、単語数が
最少の単語列は“畜産/物価/格安/定法/を”で、正
解の“畜産/物/価格/安定/法/を”という単語列を
解として得ることができない。
これを解決するために以下の方法が提案されている。
(1)意味情報を使った簡易係り受け解析を行なう方
法。文献としては日本文音声出力システムの言語処理」
(NTT研究実用化報告第35巻第2号,P.157−167,1986
年)がある。(2)単語あるいは文字の連続確率を利用
する方法。文献としては、「統計的手法を用いた漢字複
合語の短単位分割」(情報処理学会 自然言語処理,48
−2,1985年)がある。(3)ある単語と共起頻度の高い
単語のリストを利用する方法。文献としては「単語共起
頻度を利用した形態素解析」(情報処理学会 自然言語
処理,69−5,1988年)がある。
前記(1)の方法では意味情報をあらかじめ各単語に
付与しておかねばならず、辞書の作成に膨大な手間がか
かる。また必要な意味情報は文書の対象分野によって異
なるため、多くの分野の文書に1つの辞書で対応するの
が困難であるという問題もある。前記(2)や(3)の
方法では、確率や共起頻度を算出するのに用いたテキス
トと異なる分野の文書を対象とすると解析精度が低下す
る恐れがある。
目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、対象とする文書で曖昧さなく認定できる単語を利用
して、あらかじめ特殊な辞書情報を作成しておく必要が
なく、どのような分野の文章でも高精度に正しい単語列
を決定することができる形態素解析装置を提供すること
を目的としてなされたものである。
構成 本発明は、上記目的を達成するために、(1)単語の
表記と該表記に対応する文法情報とを保持する単語辞書
と、与えられた文字列に含まれる可能性のある単語を前
記単語辞書から検索する単語辞書検索手段と、互いに文
法的に接続可能な単語列を作成する候補単語列作成手段
と、該候補単語列作成手段からの複数の候補単語列から
1つの単語列を解として決定する単語列決定手段とから
成る形態素解析装置において、同一文書において曖昧さ
なく決定された単語を保持する優先単語保持手段を有
し、前記単語列決定手段が、該優先単語保持手段からの
最も多くの優先単語を含む候補単語列を解として決定す
ることを特徴としたものである。以下、本発明の実施例
に基づいて説明する。
第1図は、本発明による形態素解析装置の一実施例を
説明するための構成図で、図中、1は単語辞書、2は単
語辞書検索手段、3は候補単語列作成手段、4は優先単
語保持手段、5は単語列決定手段である。
単語辞書1は、単語の表記をキーとして、その単語の
品詞を検索できるようにした辞書である。同じ表記でも
複数の品詞に対応する場合もある。単語辞書の内容の例
を第2図に示す。例えば第2図から、‘格安’という表
記の形容動詞語幹が存在することが解る。一般的に使用
される単語を網羅しておく必要があるため、少なくとも
数万語程度の単語を収録しておかねばならない。
単語辞書検索手段2は、与えられた文字列に含まれる
可能性のある単語をすべて単語辞書から検索する。与え
られた文字列の文字数をn、先頭からi番目の文字をCi
とすると、文字列は次のように表現できる。
C1C2…Cn ここで、1≦i≦nを満たすすべてのiについて、 CiCi+1…C1+k,ただしi+k≦n という文字列と一致する、単語辞書に登録されているす
べての単語とそれに対応する文法情報を検索しておく。
例えば、“畜産物価格安定法を”という文字列が与え
られた場合、第2図に明示してあるすべての単語を検索
する必要がある。
候補単語列作成手段3は、検索された単語から、与え
られた文字列全体をカバーする互いに文法的に接続可能
なすべての候補単語列を作成する。ある2つの単語が互
いに文法的に接続可能かどうかは、その2つの単語の品
詞と、第3図に示すような接続行列表を使用する。左側
(前側)の単語の品詞と右側(後側)の単語の品詞をキ
ーとしてこの表を調べれば、その単語同士が文法的に接
続可能か接続不可能かが判定できる。
例えば、“畜産物価格安定法を”という文字列が与え
られた場合、第2図に明示してある単語が検索された場
合、第3図の接続行列表を使って、次の5種類の候補単
語列が得られる。
“畜産/物価/格安/定法/を” “畜産/物価/格/安定/法/を” “畜産/物価/格/安/定法/を” “畜産/物/価格/安定/法/を” “畜産/物/価格/安/定法/を” 優先単語保持手段とは、対象とする文書内で、すでに
形態素解析が終了している部分で、ただ1つの候補単語
しかなかった部分に対応する単語を保持しておく手段で
ある。ただし、保持するのは、自立語と接辞のみとす
る。
例えば対象とする文書に、“安定供給が”という部分
があり、その部分がすでに形態素解析されていたとす
る。この部分を解析する際、“安定/供給/が”という
ただ1つの候補単語列しか得られなかったとすると、こ
の候補列に含まれる自立語である‘安定’と‘供給’と
いう2つの単語を優先単語として保持しておく。また、
“価格”という部分があり、それに対して“価格/を”
というただ1つの候補単語列しか得られなかった場合、
‘価格’という単語も優先単語として保持する。
単語列決定手段5は、複数の候補単語列から正解とな
る単語列をただ1つ決定する。ここでの処理は次の3段
階に分かれている。
それぞれの候補単語について、何種類の優先単語(優
先単語保持手段に保持されている単語)を含むかを計数
する。
最も多種類の優先単語を含む候補単語列以外を棄却す
る。
複数の候補単語列が残ったら、従来と同様に自立語数
の少ない候補列を解として決定する。候補単語列がただ
1つだけ残った場合は、その単語列を解として決定す
る。
もし、候補単語列として前述した5種類が得られてい
て、優先単語として優先単語保持手段4の説明でふれた
‘安定’‘供給’‘価格’の3語が保持されているとす
ると、2種類の優先単語を含む “畜産/物/価格/安定/法/を” という単語列を解として正しく決定することができる。
上記の処理は、1つの文書中で同じ単語が何回も使わ
れる傾向があるという考え方に基づいている。
第4図は、本発明による形態素解析装置の動作処理の
フローチャートである。以下、各ステップに従って順に
説明する。
まず対象とする文章は字種の変化点を基準にいくつか
の部分文字列に分割し、それぞれの部分文字列を先頭か
ら順に処理していく。
step1;本処理の部分文字列があるかどうか判断する。未
処理の部分文字列がなければ終了する。
step2;未処理の部分文字列があれば、部分文字列に含ま
れる可能性のある単語をすべて単語辞書から検索する。
step3;次に部分文字列全体をカバーする互いに文法的に
接続可能な候補単語列をすべて求める。
step4;候補単語列が複数あるかどうか判断する。
step5,step6;前記step4で候補単語列が複数なければ、
すなわち候補単語列がただ1つしか求まらなかった場
合、その単語列を解析結果として決定すると共に、その
単語列に含まれている自立語・接辞を優先単語として保
持しておく。
step7;前記step4で候補単語列が複数求まった場合、そ
れぞれの候補単語列について、優先単語と一致する単語
が何種類あるかを求める。
step8;最も多くの種類の優先単語を含む候補単語列を解
析結果として確定する。
効果 以上の説明から明らかなように、本発明によると、対
象とする文書で曖昧さなく認定できる単語を利用して、
あらかじめ特殊な辞書情報(データ)を作成しておく必
要がなく、どのような分野の文章でも正しい単語列を高
精度に決定することができる。
【図面の簡単な説明】
第1図は、本発明による形態素解析装置の一実施例を説
明するための構成図、第2図は、単語辞書の例を示す
図、第3図は、候補単語列作成手段で用いる接続行列表
の例を示す図、第4図は、本発明による形態素解析装置
の動作処理のフローチャートである。 1……単語辞書、2……単語辞書検索手段、3……候補
単語列作成手段、4……優先単語保持手段、5……単語
列決定手段。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】単語の表記と該表記に対応する文法情報と
    を保持する単語辞書と、与えられた文字列に含まれる可
    能性のある単語を前記単語辞書から検索する単語辞書検
    索手段と、互いに文法的に接続可能な単語列を作成する
    候補単語列作成手段と、該候補単語列作成手段からの複
    数の候補単語列から1つの単語列を解として決定する単
    語列決定手段とから成る形態素解析装置において、同一
    文書において曖昧さなく決定された単語を保持する優先
    単語保持手段を優し、前記単語列決定手段が、該優先単
    語保持手段からの最も多くの優先単語を含む候補単語列
    を解として決定することを特徴とする形態素解析装置。
JP02095619A 1990-04-11 1990-04-11 形態素解析装置 Expired - Fee Related JP3139624B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02095619A JP3139624B2 (ja) 1990-04-11 1990-04-11 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02095619A JP3139624B2 (ja) 1990-04-11 1990-04-11 形態素解析装置

Publications (2)

Publication Number Publication Date
JPH03292565A JPH03292565A (ja) 1991-12-24
JP3139624B2 true JP3139624B2 (ja) 2001-03-05

Family

ID=14142563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02095619A Expired - Fee Related JP3139624B2 (ja) 1990-04-11 1990-04-11 形態素解析装置

Country Status (1)

Country Link
JP (1) JP3139624B2 (ja)

Also Published As

Publication number Publication date
JPH03292565A (ja) 1991-12-24

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US8660834B2 (en) User input classification
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
US5680628A (en) Method and apparatus for automated search and retrieval process
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
US7676358B2 (en) System and method for the recognition of organic chemical names in text documents
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
Patil et al. Issues and challenges in marathi named entity recognition
CN113076748A (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
Tufiş et al. DIAC+: A professional diacritics recovering system
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
Pal et al. Vartani Spellcheck--Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
WO2003003241A1 (en) Predictive cascading algorithm for multi-parser architecture
JP3139624B2 (ja) 形態素解析装置
JP3531222B2 (ja) 類似文字列検索装置
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
Islam et al. A generalized approach to word segmentation using maximum length descending frequency and entropy rate
JP2004280316A (ja) 分野判定装置及び言語処理装置
JPH10301956A (ja) キーセンテンス抽出方式及び抄録方式及び文書表示方式
KR102338949B1 (ko) 기술문서 번역 지원 시스템
JP3939264B2 (ja) 形態素解析装置
JP3508312B2 (ja) キーワード抽出装置
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees