JP3109187B2 - 形態素解析方式 - Google Patents

形態素解析方式

Info

Publication number
JP3109187B2
JP3109187B2 JP03297517A JP29751791A JP3109187B2 JP 3109187 B2 JP3109187 B2 JP 3109187B2 JP 03297517 A JP03297517 A JP 03297517A JP 29751791 A JP29751791 A JP 29751791A JP 3109187 B2 JP3109187 B2 JP 3109187B2
Authority
JP
Japan
Prior art keywords
character
characters
index
word
morphological analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03297517A
Other languages
English (en)
Other versions
JPH05135096A (ja
Inventor
義道 奥野
丈介 平岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Original Assignee
Meidensha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp filed Critical Meidensha Corp
Priority to JP03297517A priority Critical patent/JP3109187B2/ja
Publication of JPH05135096A publication Critical patent/JPH05135096A/ja
Application granted granted Critical
Publication of JP3109187B2 publication Critical patent/JP3109187B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自然言語処理のための
形態素解析方式に関する。
【0002】
【従来の技術】自然言語処理は、ワードプロセッサや機
械翻訳などに応用されてきており、処理過程としてはま
ず入力テキストを単語毎に区切って品詞情報や意味情報
を与える形態素解析、つづいて統語処理(構文解析)が
行われ、これら処理で残る曖昧性や漠然性を取除くため
の意味処理や文脈処理などが行われる。
【0003】従来の形態素解析方式には有限オートマト
ンによる方式、連想記憶による方式さらにはニューロ技
術を利用した方式がある。
【0004】有限オートマトンによる方式は、文字マッ
チングの状態遷移図よりオートマトンを生成し、ソフト
ウエア又はワイヤードロジックによって文字列の単語理
解を行う。
【0005】連想記憶による方式は、メモリ本体に検索
機能を与えて文字列のセル毎の比較によって全文検索を
行う。
【0006】ニューロ技術を利用した方式は、ニューロ
コンピュータにより学習を行いながら全文検索を行う。
【0007】
【発明が解決しようとする課題】従来の形態素解析方式
において、有限オートマトン方式は、文字列の字抜けや
ワールドカードの利用による曖昧検索も可能であるが、
文字列の一文字目が曖昧になったときの対応がとりにく
い問題があった。また、ハードウエア構成の場合にはア
プリケーションソフトの様々な検索要求に対応しきれな
いし、ソフトウエア構成の場合には検索スピードの点で
他の方式に劣ることがある。
【0008】次に、連想記憶方式は、メモリ本体に大容
量のものを必要として高いコストになる。なお、メモリ
本体をディスクのような大容量記憶装置を利用すること
は技術的に非常に難しく、現在ではメモリ本体が1MB
にも満たない。また、ソフトウエア、特にアプリケーシ
ョンとの結合が難しく、複雑な文章の検索にはアプリケ
ーション側のプログラムも複雑になってしまう。
【0009】次に、ニューロコンピュータ方式は、学習
までは検索に時間がかかるが、学習後には文書の量にあ
まり左右されずに高速検索ができ、また曖昧検索も可能
である。しかし、問題はベタのテキストイメージに対す
る検索であれば高速検索になるが、構造を持った電子化
辞書のようなデータベースに対して対応が難しくなる。
【0010】本発明の目的は、高速検索及び小容量メモ
リ構成にしながら文章の誤字や脱字の抽出も可能にした
形態素解析方式を提供することにある。
【0011】
【課題を解決するための手段】本発明は、前記課題の解
決を図るため、日本語文字の単語を表記文字と属性リス
トの構造体で保存する単語辞書と、前記単語辞書中の表
記文字に含まれる文字を1文字毎に全てソートした文字
及び該表記文字中の保存位置になるインデックスリスト
とを有する構造体の文字インデックスと、形態素解析対
象となる入力テキストの形態素を解析する処理装置とを
備え、前記処理装置は入力テキストの各文字に一致する
前記文字インデックスの文字とインデックスリストを抽
出し、前記保存位置が連続する文字列は1つの単語とし
て抽出し、この抽出に失敗した文字列中に1文字又は所
定数文字分だけ保存位置が連続しないときに該1文字又
は所定数文字分に誤字,脱字,多字の何れかが存在する
ことを判定する。
【0012】
【作用】本発明によれば、単語辞書に保存される1文字
毎に文字インデックスを生成しておき、入力テキストの
文字列を構成する各文字について文字インデックスのイ
ンデックスリストから保存位置の連続性の有無を判定す
ることで当該文字列が1つの単語か否かを解析する。ま
た、連続しない1文字又は所定数文字を含むときに当該
文字又は文字列が誤字等になることの判定を得る。
【0013】
【実施例】図1は本発明の一実施例を示す構成図であ
る。ファイル構成の単語辞書1は、平仮名,片仮名,英
数字,単漢字,熟語を含む単語の表記とその属性リスト
の構造体を有して格納されている。例えば、構造体ポイ
ンタKには構造体1kで示すように表記に「秋雨」とい
う熟語が属性リストの品詞に「名詞」が、読みに「アキ
サメ」等が格納されている。
【0014】ファイル構成の文字インデックス2は、単
語辞書1をデータベースとして処理装置3によって生成
され、単語辞書1の全ての表記文字について1文字毎の
インデックスリストが格納されている。例えば、ポイン
タHには構成2nで示すようにメンバー文字に「秋」
が、そのインデックスリストには文字「秋」を持つ単語
中の当該文字「秋」のアドレスが格納されている。この
インデックスリストは、文字「秋」を表記に含む単語辞
書1の単語を構成する文字「秋」の保存位置になり、例
えば単語辞書1に「秋雨」、「中秋」、「秋月」という
単語が保存されていると、夫々が文字「秋」を含むこと
から夫々の単語中の文字「秋」のアドレス「A1」、
「A8」、「A21」が保存位置データとして生成,保存
される。
【0015】この文字インデックス2の生成手順は、単
語辞書1中の全ての表記文字について辞書ファイルの各
単語の先頭からの位置(アドレス)を抽出し、その情報
を文字毎に集めてソートし、次いで文字とアドレスを示
したインデックスの対を集めて文字インデックスファイ
ルに保存する。この保存振分けは、例えば保存位置の衝
突を避けるハッシュ関数が使用され、高速の検索環境に
も構築される。
【0016】処理装置3は単語辞書1からの文字インデ
ックス2の生成処理を行った後は、インターフェース4
を通して与えられる入力テキスト(仮名,漢字混じりの
文章)について形態素解析処理を行う。
【0017】この処理は図2に示す手順で実行される。
まず、入力テキストに対し最長一致法などによる形態素
解析がなされる(ステップS1)。この処理には辞書と
のマッチングに文字インデックス2を使用し、入力テキ
ストの第1番目の文字から連続した文字列を1文字づつ
文字インデックス2の文字照合からそのインデックスリ
ストを順番に取出し、該インデックスリスト列の距離が
全て1になっているものかつ最長のものがあれば単語辞
書1中に当該文字列が存在すると判定し、当該文字列を
形態素解析リストとして決定する。
【0018】この処理を図3に示す例で説明する。同図
中、(a)には単語辞書1に保存される単語「東南アジ
ア」の表記部分がアドレス「a」から「a+4」までに
保存される場合を示す。この単語に対し、文字インデッ
クス2には同図(b)に示すように文字「ア」について
はインデックスリストにアドレス「a+2」と「a+
4」が他のアドレスと共に書込まれており、文字「ジ」
についてはインデックスリストにアドレス「a+3」が
他のアドレスと共に書込まれ、文字「東」にはアドレス
「a」が、文字「南」にはアドレス「a+1」が書込ま
れている。
【0019】ここで、形態素解析に際しては、入力テキ
スト中に文字列「東南アジア」が含まれていると、文字
インデックス2から文字列「東南アジア」のインデック
スリストを読出し、その中に含まれるアドレス「a+
2」、「a+4」、「a+3」、「a」、「a+1」か
ら隣接文字間の距離が全て1になることが認識される。
例えば文字「東」と「南」の距離は「a+1」−「a」
=1になる。従って、文字列「東南アジア」は単語辞書
1中に存在すると判定でき、1つの単語として形態素リ
ストに上げられる。
【0020】図2に戻って、ステップS1の処理によっ
て入力テキストは単語毎の形態素リストとして抽出され
るが、この形態素解析に失敗する文字が残ることがあ
る。この解析に失敗した文字列,文字は単漢字文字列リ
ストとして抽出される(ステップS2)。
【0021】抽出された文字列,文字について誤字,脱
字及び多字があるか否かを検出・修正する(ステップS
3)。このうち、誤字の検出は、検出対象文字列の1文
字づつに文字インデックス2を参照してそのインデック
スリストを読出し、前の文字と1つ後の文字について夫
々のアドレス間距離を求め、この距離が1でないものが
あったときには当該文字をとばして次の文字に対するア
ドレス間距離を求め、前の文字との距離が2になるとき
にとばした文字を誤字と判定する。
【0022】例えば、形態素解析に失敗した文字列が
「東軟アジア」であった場合、文字「東」と「軟」とは
そのインデックスリストにあるアドレス間距離が1にな
らない。このとき、文字「軟」をとばして次の文字
「ア」と前の文字「東」との距離をチェックすると2に
なるため、文字「軟」を誤字と判定する。
【0023】次に、脱字の検出は、検出対象文字列の1
文字づつに文字インデックス2を参照してそのインデッ
クスリストを読出し、前の文字との間のアドレス間距離
を求め、この距離が2になるものがあったとき両文字間
に脱字があったと判定する。
【0024】例えば、形態素解析に失敗した文字列が
「東南アア」であった場合、第3番目の文字「ア」と第
4番目の文字「ア」との間のアドレス間距離が2にな
り、両文字「ア」と「ア」間に脱字があったと判定す
る。
【0025】次に、多字の検出は、検出対象文字列の1
文字づつのインデックスリストを読出し、前の文字との
間のアドレス間距離が1でないものがあったとき、当該
文字をとばして次の文字との間の距離を求め、この距離
が1になるときはとばした文字を多字と判定する。
【0026】例えば、形態素解析に失敗した文字列が
「東南軟アジア」であった場合、文字「南」と文字
「軟」との距離が1でないため、文字「軟」をとばして
文字「ア」と文字「南」との距離を求め、この距離が1
になるため文字「軟」を多字と判定する。
【0027】再び図2に戻って、ステップS3による誤
字、脱字、多字の検出・修正が施された文字列はステッ
プS1での解析で求められた形態素リストに戻され、正
しく形態素解析された文字列の候補リストとして取出さ
れる。この候補リストは他の文字列との接続チェック処
理がなされて形態素解析を終了する(ステップS4)。
この接続チェック処理は、例えば前の単語に対する品詞
からチェックする。
【0028】以上のとおり、本実施例は単語辞書1から
文字インデックスを生成しておき、解析対象文字列のア
ドレス間距離の連続性から形態素解析を行うと共に誤
字、脱字、多字の検出を行う。
【0029】このため、単語辞書との文字列照合に較べ
て当該文字を含む単語を文字インデックスから直接に検
索し得て高速解析を得ることができ、さらにテキストの
1文字目が曖昧になるときの解析も含めて誤字、脱字、
多字のチェックを容易にする。
【0030】また、メモリ容量としては文字インデック
スを確保できるものであれば良く、コンピュータの内部
メモリ等の比較的小容量のもので済むし、アプリケーシ
ョン側のプログラムを複雑にすることは無い。
【0031】さらに、電子化辞書等のデータベースの解
析にも容易に対応できる。
【0032】なお、実施例では1文字の誤字,脱字,多
字の検出を行う場合を示すが、n文字(2文字や3文
字)の誤字、脱字、多字検出にも応用することができ
る。
【0033】例えば、n文字の誤字検出にはアドレス間
距離が1でない文字があったときにn文字とばしてアド
レス間距離を求め、これがn+1の距離になったときに
とばしたn文字を誤字と判定する。
【0034】同様に、n文字の多字検出には距離が1で
ない文字があったときにn文字とばして距離を求め、こ
れが距離1になったときにその間のn文字を多字と判定
する。また、n文字の多字検出は、距離が1でない文字
がありかつ距離がn+1になっているときに該文字間に
脱字があると判定する。
【0035】なお、上述のn文字の誤字,脱字の検出に
ついては文字総数のチェックを加えることによって単語
末尾の誤字,脱字の検出ができる。このためには、図4
に示すように、文字インデックスリストにアドレスデー
タのほかに当該文字を含む単語の文字数と当該単語内で
の文字位置をメンバーとして加えておき、n文字目が辞
書の単語文字数と文字位置で一致したか否かを判定に加
える。
【0036】
【発明の効果】以上のとおり、本発明によれば、入力テ
キストの文字列について文字インデックスから抽出した
単語辞書の保存位置の連続性から形態素解析及び誤字,
脱字,多字の検出を行うようにしたため、単語辞書と文
字列の照合になる解析に較べて高速検索になり、また文
字インデックスには小容量のメモリ確保で済み、さらに
文章の誤字,脱字,多字の検証を行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す構成図。
【図2】実施例の解析処理手順図。
【図3】実施例における形態素解析の態様図。
【図4】他の実施例における態様図。
【符号の説明】
1…単語辞書、2…文字インデックス、3…処理装置。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/27 G06F 17/24

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 日本語文字の単語を表記文字と属性リス
    トの構造体で保存する単語辞書と、前記単語辞書中の表
    記文字に含まれる文字を1文字毎に全てソートした文字
    及び該表記文字中の保存位置になるインデックスリスト
    とを有する構造体の文字インデックスと、形態素解析対
    象となる入力テキストの形態素を解析する処理装置とを
    備え、前記処理装置は入力テキストの各文字に一致する
    前記文字インデックスの文字とインデックスリストを抽
    出し、前記保存位置が連続する文字列は1つの単語とし
    て抽出し、この抽出に失敗した文字列中に1文字又は所
    定数文字分だけ保存位置が連続しないときに該1文字又
    は所定数文字分に誤字,脱字,多字の何れかが存在する
    ことを判定する形態素解析方式。
JP03297517A 1991-11-14 1991-11-14 形態素解析方式 Expired - Fee Related JP3109187B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03297517A JP3109187B2 (ja) 1991-11-14 1991-11-14 形態素解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03297517A JP3109187B2 (ja) 1991-11-14 1991-11-14 形態素解析方式

Publications (2)

Publication Number Publication Date
JPH05135096A JPH05135096A (ja) 1993-06-01
JP3109187B2 true JP3109187B2 (ja) 2000-11-13

Family

ID=17847547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03297517A Expired - Fee Related JP3109187B2 (ja) 1991-11-14 1991-11-14 形態素解析方式

Country Status (1)

Country Link
JP (1) JP3109187B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7095264B2 (ja) * 2017-11-13 2022-07-05 富士通株式会社 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法

Also Published As

Publication number Publication date
JPH05135096A (ja) 1993-06-01

Similar Documents

Publication Publication Date Title
Mangu et al. Automatic rule acquisition for spelling correction
US6654717B2 (en) Multi-language document search and retrieval system
US6424983B1 (en) Spelling and grammar checking system
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
JP2742115B2 (ja) 類似文書検索装置
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP2014238865A (ja) 曖昧感応自然言語処理システムにおける同一指示解決
Azmi et al. Real-word errors in Arabic texts: A better algorithm for detection and correction
JPH0525138B2 (ja)
JP2010519655A (ja) 名前照合システムの名前インデックス付け
Lins et al. Automatic language identification of written texts
Kumar et al. A study of spell checking techniques for indian languages
Zhang et al. Automated multiword expression prediction for grammar engineering
Vilares et al. Managing misspelled queries in IR applications
US6470334B1 (en) Document retrieval apparatus
JP3109187B2 (ja) 形態素解析方式
Kanada A method of geographical name extraction from Japanese text for thematic geographical search
JP4283898B2 (ja) 文章校正装置
JPH0991297A (ja) 文字列検索方法及び装置
Chakraborty et al. Identifying bengali multiword expressions using semantic clustering
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP5412137B2 (ja) 機械学習装置及び方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees