JPH03292565A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPH03292565A
JPH03292565A JP2095619A JP9561990A JPH03292565A JP H03292565 A JPH03292565 A JP H03292565A JP 2095619 A JP2095619 A JP 2095619A JP 9561990 A JP9561990 A JP 9561990A JP H03292565 A JPH03292565 A JP H03292565A
Authority
JP
Japan
Prior art keywords
word
words
string
word string
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2095619A
Other languages
English (en)
Other versions
JP3139624B2 (ja
Inventor
Shiyou Imasato
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP02095619A priority Critical patent/JP3139624B2/ja
Publication of JPH03292565A publication Critical patent/JPH03292565A/ja
Application granted granted Critical
Publication of JP3139624B2 publication Critical patent/JP3139624B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 孜豊分団 本発明は、形態素解析装置に関し、より詳細には1日本
語のように単語の境界が明示されない言語の文章を対象
として形態素解析を行なう場合に、単語を認定する際の
曖昧さを解消するようにした形態素解析装置に関する。
例えば、機械翻訳システムや音声合成システムの前処理
部分、あるいは光学的文字認識装置(OCR)の誤認識
訂正部やキーワード自動抽出システムに適用されるもの
である。
英」0引雛 自然言語文を計算機で処理する場合には、まず文章を単
語単位に分割し、辞書から対応する文法情報を検索する
必要がある。この文章がどのような単語から構成され゛
ているのかを解析する処理を形態素解析と呼んでいる。
機械翻訳などでの日本語の文章を計算機で処理する場合
には、まず文を単語単位に分割する必要がある。これは
日本文に限らず、英文のように単語が空白によって区切
られない表記法を採る言語の文すへでに当てはまる。
本発明に係る従来技術を記載した公知文献としては「日
本文音声出力システムの言語処理」(NTT研究実用化
報告第35巻第2号、 P、157−167゜1986
年)がある。
この文献には、漢字仮名混じり文を対象とした場合の従
来の形態素解析方式について説明されている。なお、文
が仮名のみからなる場合(仮名漢字変換を行なう場合)
の処理も基本的には同じである。この従来の形態素解析
方式は以下の手順によるものである。
■与えられた文字列に出現している可能性のある単語を
すべて単語辞書から検索し、文法情報を付与する。この
とき、文字列全体を一度に処理するのではなく、句読点
や字種変化点などに基づいて分割された部分文字列を対
象にしてもよい。
■与えられた文字列全体をカバーする互いに文法的に接
続可能な単語列をすべて求める。接続可能かどうかは、
前記ので単語辞書から得た文法情報を使って判定する。
■複数の単語列が得られた場合、何らかの基準により単
語列を1つだけに決定する。
ところで、ある文字列をカバーする互いに文法的に接続
可能な単語列は一般に複数存在する。従って、どのよう
にして複数の単語列からただ1つの正しい単語列を解と
して決定すればよいかが問題となる。そのために従来一
般的に使われているのが、自立語の数が最少の単語列や
、単語数が最少の単語列を選択するという方法である。
例えば″現代理科を′という文字列を解析する場合“現
/代理/科/を”現代/理科/を”という2種類の候補
単語列がある(′/′ は単語の境界を表す)。単語数
が最少の単語列を選択すれば正しく“現代/理科/を”
という単語列に決定することができる。しかしこのよう
な単純な方法では正しく決定できない場合も多い。
例えば、″蓄産物価格安定法を”という文字列を考える
。ここから多くの候補単語列が得られるが、単語数が最
少の単語列は″蓄産/物価/格安/定法/を″で、正解
の″蓄産/物/価格/安定/法/を″という単語列を解
として得ることができない。
これを解決するために以下の方法が提案されている。(
1)意味情報を使った簡易係り受は解析を行なう方法。
文献としては「日本文音声出力システムの言語処理J 
 (NTT研究実用化報告第35巻第2号、 P、15
7−167、1986年)がある。
(2)単語あるいは文字の連続確率を利用する方法。文
献としては、「統計的手法を用いた漢字複合語の短単位
分割」 (情報処理学会 自然言語処理、 48−2.
1985年)がある。(3)ある単語と共起頻度の高い
単語のリストを利用する方法。文献としては「単語共起
頻度を利用した形態素解析」(情報処理学会 自然言語
処理、 69−5.1988年)がある。
前記(1)の方法では意味情報をあらかじめ各単語に付
与しておかねばならず、辞書の作成に膨大な手間がかか
る。また必要な意味情報は文書の対象分野によって異な
るため、多くの分野の文書に1つの辞書で対応するのが
困難であるという問題もある。前記(2)や(3)の方
法では、確率や共起頻度を算出するのに用いたテキスト
と異なる分野の文書を対象とすると解析精度が低下する
恐れがある。
目     じと 本発明は、上述のごとき実情に鑑みてなされたもので、
対象とする文書で曖昧さなく認定できる単語を利用して
、あらかしめ特殊な辞書情報を作成しておく必要がなく
、どのような分野の文章でも高精度に正しい単語列を決
定することができる形態素解析装置を提供することを目
的としてなされたものである。
構   成 本発明は、上記目的を達成するために、(1)単語の表
記と該表記に対応する文法情報とを保持する単語辞書と
、与えられた文字列に含まれる可能性のある単語を前記
単語辞書から検索する単語辞書検索手段と、互いに文法
的に接続可能な単語列を作成する候補単語列作成手段と
、該候補単語列作成手段からの複数の候補単語列から1
つの単語列を解として決定する単語列決定手段とから成
る形態素解析装置において、同一文書において曖昧さな
く決定された単語を保持する優先単語保持手段を有し、
前記単語列決定手段が、該優先単語保持手段からの最も
多くの優先単語を含む候補単語列を解として決定するこ
とを特徴としたものである。以下、本発明の実施例に基
づいて説明する。
第1図は、本発明による形態素解析装置の一実施例を説
明するための構成図で1図中、1は単語辞書、2は単語
辞書検索手段、3は候補単語列作成手段、4は優先単語
保持手段、5は単語列決定手段である。
単語辞書1は、単語の表記をキーとして、その単語の品
詞を検索できるようにした辞書である。
同じ表記でも複数の品詞に対応する場合もある。
単語辞書の内容の例を第2図に示す。例えば第2図から
、′格安′という表記の形容動詞語幹が存在することが
解る。一般的に使用される単語を網羅しておく必要があ
るため、少なくとも数万語程度の単語を収録しておかね
ばならない。
単語辞書検索手段2は、与えられた文字列に含まれる可
能性のある単語をすべて単語辞書から検索する。与えら
れた文字列の文字数をn、先頭から1番目の文字をCI
とすると、文字列は次のように表現できる。
C1C2・・・C,。
ここで、1≦i≦nを満たすすべてのiについて、 C+ Ct 4 □”’ C14* +ただしi+に≦
nという文字列と一致する、単語辞書に登録されている
すべての単語とそれに対応する文法情報を検索しておく
例えば、゛′蓄産物価格安定法を”という文字列が与え
られた場合、第2図に明示しであるすべての単語を検索
する必要がある。
候補単語列作成手段3は、検索された単語から、与えら
れた文字列全体をカバーする互いに文法的に接続可能な
すべての候補単語列を作成する。ある2つの単語が互い
に文法的に接続可能かどうかは、その2つの単語の品詞
と、第3図に示すような接続行列表を使用する。左側(
前側)の単語の品詞と右側(後側)の東語の品詞をキー
としてこの表を調べれば、その単語同士が文法的に接続
可能か接続不可能かが判定できる。
例えば、″蓄産物価格安定法を”という文字列が与えら
れた場合、第2図に明示しである単語が検索された場合
、第3図の接続行列表を使って、次の5種類の候補単語
列が得られる。
″蓄産/物価/格安/定法/を” ″菩産/物価/格/安定/法/を” “蓄産/物価/格/安/定法/を″ ″蓄産/物/価格/安定/法/を″ ″蓄産/物/価格/安/定法/を” 優先単語保持手段とは、対象とする文書内で、すでに形
態素解析が終了している部分で、ただ1つの候補単語し
かなかった部分に対応する単語を保持しておく手段であ
る。ただし、保持するのは、自立語と接辞のみとする。
例えば対象とする文書に、パ安定供給が”という部分が
あり、その部分がすでに形態素解析されていたとする。
この部分を解析する際、パ安定/供給/が″というただ
1つの候補単語列しか得られなかったとすると、この候
補列に含まれる自立語である′安定′と′供給′という
2つの単語を優先単語として保持しておく。また、゛′
価格″という部分があり、それに対して゛価格/を″と
いうただ1つの候補単語列しか得られなかった場合、′
価格′という単語も優先単語として保持する。
東語列決定手段5は、複数の候補単語列から正解となる
単語列をただ1つ決定する。ここでの処理は次の3段階
に分かれている。
■それぞれの候補単語について、何種類の優先単語(優
先単語保持手段に保持されている単語)を含むかを計数
する。
■最も多種類の優先単語を含む候補単語列以外を棄却す
る。
■複数の候補単語列が残ったら、従来と同様に自立語数
の少ない候補列を解として決定する。候補単語列がただ
1つだけ残った場合は、その単35列を解として決定す
る。
もし、候補単語列として前述した5種類が得られていて
、優先単語として優先単語保持手段4の説明でふれた′
安定″供給″ ′価格′の3語が保持されているとする
と、2種類の優先単語を含む ″蓄産/物/価格/安定/法/を″ という単語列を解として正しく決定することができる。
上記の処理は、1つの文書中で同じ単語が何回も使われ
る傾向があるという考え方に基づいている。
第4図は、本発明による形態素解析装置の動作処理のフ
ローチャートである。以下、各ステップに従って順に説
明する。
まず対象とする文章は字種の変化点を基準にいくつかの
部分文字列に分割し、それぞれの部分文字列を先頭から
順に処理していく。
5;本処理の部分文字列があるかどうか判断する。未処
理の部分文字列がなければ終了する。
steρ2;未処理の部分文字列があれば、部分文字列
に含まれる可能性のある単語をすべて単語辞書から検索
する。
5tep3;次に部分文字列全体をカバーする互いに文
法的に接続可能な候補単語列をすべて求める。
共肚±;候補単語列が複数あるかどうか判断する。
5tep5 、5tep6 ;前記5tep 4で候補
単語列が複数なければ、すなわち候補単語列がただ1つ
しか求まらなかった場合、その単語列を解析結果として
決定すると共に、その単語列に含まれている自立語・接
辞を優先単語として保持しておく。
5tep7;前記5tep 4で候補単語列が複数求ま
った場合、それぞれの候補単語列について、優先単語と
一致する単語が何種類あるかを求める。
5tep8;最も多くの種類の優先単語を含む候補単語
列を解析結果として確定する。
効   果 以上の説明から明らかなように、本発明によると、対象
とする文書で曖昧さなく認定できる単語を利用して、あ
らかじめ特殊な辞書情報(データ)を作成しておく必要
がなく、どのような分野の文章でも正しい単語列を高精
度に決定することができる。
【図面の簡単な説明】
第1図は、本発明による形態素解析装置の一実施例を説
明するための構成図、第2図は、単語辞書の例を示す図
、第3図は、候補単語列作成手段で用いる接続行列表の
例を示す図、第4図は、本発明による形態素解析装置の
動作処理のフローチャ・−トである。 1・・・単語辞書、2・・・単語辞書検索手段、3・・
・候補単語列作成手段、4・・・優先単語保持手段、5
・・・単語列決定手段。 第1図 第2図 第 4 図

Claims (1)

    【特許請求の範囲】
  1. 1、単語の表記と該表記に対応する文法情報とを保持す
    る単語辞書と、与えられた文字列に含まれる可能性のあ
    る単語を前記単語辞書から検索する単語辞書検索手段と
    、互いに文法的に接続可能な単語列を作成する候補単語
    列作成手段と、該候補単語列作成手段からの複数の候補
    単語列から1つの単語列を解として決定する単語列決定
    手段とから成る形態素解析装置において、同一文書にお
    いて曖昧さなく決定された単語を保持する優先単語保持
    手段を優し、前記単語列決定手段が、該優先単語保持手
    段からの最も多くの優先単語を含む候補単語列を解とし
    て決定することを特徴とする形態素解析装置。
JP02095619A 1990-04-11 1990-04-11 形態素解析装置 Expired - Fee Related JP3139624B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02095619A JP3139624B2 (ja) 1990-04-11 1990-04-11 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02095619A JP3139624B2 (ja) 1990-04-11 1990-04-11 形態素解析装置

Publications (2)

Publication Number Publication Date
JPH03292565A true JPH03292565A (ja) 1991-12-24
JP3139624B2 JP3139624B2 (ja) 2001-03-05

Family

ID=14142563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02095619A Expired - Fee Related JP3139624B2 (ja) 1990-04-11 1990-04-11 形態素解析装置

Country Status (1)

Country Link
JP (1) JP3139624B2 (ja)

Also Published As

Publication number Publication date
JP3139624B2 (ja) 2001-03-05

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2001034623A (ja) 情報検索方法と情報検索装置
CN113076748A (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
JP2960936B2 (ja) 係り受け解析装置
Novák et al. Morphological annotation of Old and Middle Hungarian corpora
Alsayed et al. A performance analysis of transformer-based deep learning models for Arabic image captioning
JP2002189734A (ja) 検索語抽出装置および検索語抽出方法
Al-Taani et al. Searching concepts and keywords in the Holy Quran
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPH03292565A (ja) 形態素解析装置
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JP2001051996A (ja) 形態素解析方法及び装置及び形態素解析プログラムを格納した記憶媒体
JP2001357065A (ja) 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体
JP3508312B2 (ja) キーワード抽出装置
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
Frantíková Tagging and Searching the Hittite Corpus
JPH0244462A (ja) 自然言語処理装置
JPH03229367A (ja) テキストベース検索方式
JP2001022752A (ja) 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees