JP3109187B2

JP3109187B2 - 形態素解析方式

Info

Publication number: JP3109187B2
Application number: JP03297517A
Authority: JP
Inventors: 義道奥野; 丈介平岡
Original assignee: Meidensha Corp
Current assignee: Meidensha Corp
Priority date: 1991-11-14
Filing date: 1991-11-14
Publication date: 2000-11-13
Anticipated expiration: 2015-11-13
Also published as: JPH05135096A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自然言語処理のための
形態素解析方式に関する。

【０００２】

【従来の技術】自然言語処理は、ワードプロセッサや機
械翻訳などに応用されてきており、処理過程としてはま
ず入力テキストを単語毎に区切って品詞情報や意味情報
を与える形態素解析、つづいて統語処理（構文解析）が
行われ、これら処理で残る曖昧性や漠然性を取除くため
の意味処理や文脈処理などが行われる。

【０００３】従来の形態素解析方式には有限オートマト
ンによる方式、連想記憶による方式さらにはニューロ技
術を利用した方式がある。

【０００４】有限オートマトンによる方式は、文字マッ
チングの状態遷移図よりオートマトンを生成し、ソフト
ウエア又はワイヤードロジックによって文字列の単語理
解を行う。

【０００５】連想記憶による方式は、メモリ本体に検索
機能を与えて文字列のセル毎の比較によって全文検索を
行う。

【０００６】ニューロ技術を利用した方式は、ニューロ
コンピュータにより学習を行いながら全文検索を行う。

【０００７】

【発明が解決しようとする課題】従来の形態素解析方式
において、有限オートマトン方式は、文字列の字抜けや
ワールドカードの利用による曖昧検索も可能であるが、
文字列の一文字目が曖昧になったときの対応がとりにく
い問題があった。また、ハードウエア構成の場合にはア
プリケーションソフトの様々な検索要求に対応しきれな
いし、ソフトウエア構成の場合には検索スピードの点で
他の方式に劣ることがある。

【０００８】次に、連想記憶方式は、メモリ本体に大容
量のものを必要として高いコストになる。なお、メモリ
本体をディスクのような大容量記憶装置を利用すること
は技術的に非常に難しく、現在ではメモリ本体が１ＭＢ
にも満たない。また、ソフトウエア、特にアプリケーシ
ョンとの結合が難しく、複雑な文章の検索にはアプリケ
ーション側のプログラムも複雑になってしまう。

【０００９】次に、ニューロコンピュータ方式は、学習
までは検索に時間がかかるが、学習後には文書の量にあ
まり左右されずに高速検索ができ、また曖昧検索も可能
である。しかし、問題はベタのテキストイメージに対す
る検索であれば高速検索になるが、構造を持った電子化
辞書のようなデータベースに対して対応が難しくなる。

【００１０】本発明の目的は、高速検索及び小容量メモ
リ構成にしながら文章の誤字や脱字の抽出も可能にした
形態素解析方式を提供することにある。

【００１１】

【課題を解決するための手段】本発明は、前記課題の解
決を図るため、日本語文字の単語を表記文字と属性リス
トの構造体で保存する単語辞書と、前記単語辞書中の表
記文字に含まれる文字を１文字毎に全てソートした文字
及び該表記文字中の保存位置になるインデックスリスト
とを有する構造体の文字インデックスと、形態素解析対
象となる入力テキストの形態素を解析する処理装置とを
備え、前記処理装置は入力テキストの各文字に一致する
前記文字インデックスの文字とインデックスリストを抽
出し、前記保存位置が連続する文字列は１つの単語とし
て抽出し、この抽出に失敗した文字列中に１文字又は所
定数文字分だけ保存位置が連続しないときに該１文字又
は所定数文字分に誤字，脱字，多字の何れかが存在する
ことを判定する。

【００１２】

【作用】本発明によれば、単語辞書に保存される１文字
毎に文字インデックスを生成しておき、入力テキストの
文字列を構成する各文字について文字インデックスのイ
ンデックスリストから保存位置の連続性の有無を判定す
ることで当該文字列が１つの単語か否かを解析する。ま
た、連続しない１文字又は所定数文字を含むときに当該
文字又は文字列が誤字等になることの判定を得る。

【００１３】

【実施例】図１は本発明の一実施例を示す構成図であ
る。ファイル構成の単語辞書１は、平仮名，片仮名，英
数字，単漢字，熟語を含む単語の表記とその属性リスト
の構造体を有して格納されている。例えば、構造体ポイ
ンタＫには構造体１ｋで示すように表記に「秋雨」とい
う熟語が属性リストの品詞に「名詞」が、読みに「アキ
サメ」等が格納されている。

【００１４】ファイル構成の文字インデックス２は、単
語辞書１をデータベースとして処理装置３によって生成
され、単語辞書１の全ての表記文字について１文字毎の
インデックスリストが格納されている。例えば、ポイン
タＨには構成２ｎで示すようにメンバー文字に「秋」
が、そのインデックスリストには文字「秋」を持つ単語
中の当該文字「秋」のアドレスが格納されている。この
インデックスリストは、文字「秋」を表記に含む単語辞
書１の単語を構成する文字「秋」の保存位置になり、例
えば単語辞書１に「秋雨」、「中秋」、「秋月」という
単語が保存されていると、夫々が文字「秋」を含むこと
から夫々の単語中の文字「秋」のアドレス「Ａ₁」、
「Ａ₈」、「Ａ₂₁」が保存位置データとして生成，保存
される。

【００１５】この文字インデックス２の生成手順は、単
語辞書１中の全ての表記文字について辞書ファイルの各
単語の先頭からの位置（アドレス）を抽出し、その情報
を文字毎に集めてソートし、次いで文字とアドレスを示
したインデックスの対を集めて文字インデックスファイ
ルに保存する。この保存振分けは、例えば保存位置の衝
突を避けるハッシュ関数が使用され、高速の検索環境に
も構築される。

【００１６】処理装置３は単語辞書１からの文字インデ
ックス２の生成処理を行った後は、インターフェース４
を通して与えられる入力テキスト（仮名，漢字混じりの
文章）について形態素解析処理を行う。

【００１７】この処理は図２に示す手順で実行される。
まず、入力テキストに対し最長一致法などによる形態素
解析がなされる（ステップＳ１）。この処理には辞書と
のマッチングに文字インデックス２を使用し、入力テキ
ストの第１番目の文字から連続した文字列を１文字づつ
文字インデックス２の文字照合からそのインデックスリ
ストを順番に取出し、該インデックスリスト列の距離が
全て１になっているものかつ最長のものがあれば単語辞
書１中に当該文字列が存在すると判定し、当該文字列を
形態素解析リストとして決定する。

【００１８】この処理を図３に示す例で説明する。同図
中、（ａ）には単語辞書１に保存される単語「東南アジ
ア」の表記部分がアドレス「ａ」から「ａ＋４」までに
保存される場合を示す。この単語に対し、文字インデッ
クス２には同図（ｂ）に示すように文字「ア」について
はインデックスリストにアドレス「ａ＋２」と「ａ＋
４」が他のアドレスと共に書込まれており、文字「ジ」
についてはインデックスリストにアドレス「ａ＋３」が
他のアドレスと共に書込まれ、文字「東」にはアドレス
「ａ」が、文字「南」にはアドレス「ａ＋１」が書込ま
れている。

【００１９】ここで、形態素解析に際しては、入力テキ
スト中に文字列「東南アジア」が含まれていると、文字
インデックス２から文字列「東南アジア」のインデック
スリストを読出し、その中に含まれるアドレス「ａ＋
２」、「ａ＋４」、「ａ＋３」、「ａ」、「ａ＋１」か
ら隣接文字間の距離が全て１になることが認識される。
例えば文字「東」と「南」の距離は「ａ＋１」−「ａ」
＝１になる。従って、文字列「東南アジア」は単語辞書
１中に存在すると判定でき、１つの単語として形態素リ
ストに上げられる。

【００２０】図２に戻って、ステップＳ１の処理によっ
て入力テキストは単語毎の形態素リストとして抽出され
るが、この形態素解析に失敗する文字が残ることがあ
る。この解析に失敗した文字列，文字は単漢字文字列リ
ストとして抽出される（ステップＳ２）。

【００２１】抽出された文字列，文字について誤字，脱
字及び多字があるか否かを検出・修正する（ステップＳ
３）。このうち、誤字の検出は、検出対象文字列の１文
字づつに文字インデックス２を参照してそのインデック
スリストを読出し、前の文字と１つ後の文字について夫
々のアドレス間距離を求め、この距離が１でないものが
あったときには当該文字をとばして次の文字に対するア
ドレス間距離を求め、前の文字との距離が２になるとき
にとばした文字を誤字と判定する。

【００２２】例えば、形態素解析に失敗した文字列が
「東軟アジア」であった場合、文字「東」と「軟」とは
そのインデックスリストにあるアドレス間距離が１にな
らない。このとき、文字「軟」をとばして次の文字
「ア」と前の文字「東」との距離をチェックすると２に
なるため、文字「軟」を誤字と判定する。

【００２３】次に、脱字の検出は、検出対象文字列の１
文字づつに文字インデックス２を参照してそのインデッ
クスリストを読出し、前の文字との間のアドレス間距離
を求め、この距離が２になるものがあったとき両文字間
に脱字があったと判定する。

【００２４】例えば、形態素解析に失敗した文字列が
「東南アア」であった場合、第３番目の文字「ア」と第
４番目の文字「ア」との間のアドレス間距離が２にな
り、両文字「ア」と「ア」間に脱字があったと判定す
る。

【００２５】次に、多字の検出は、検出対象文字列の１
文字づつのインデックスリストを読出し、前の文字との
間のアドレス間距離が１でないものがあったとき、当該
文字をとばして次の文字との間の距離を求め、この距離
が１になるときはとばした文字を多字と判定する。

【００２６】例えば、形態素解析に失敗した文字列が
「東南軟アジア」であった場合、文字「南」と文字
「軟」との距離が１でないため、文字「軟」をとばして
文字「ア」と文字「南」との距離を求め、この距離が１
になるため文字「軟」を多字と判定する。

【００２７】再び図２に戻って、ステップＳ３による誤
字、脱字、多字の検出・修正が施された文字列はステッ
プＳ１での解析で求められた形態素リストに戻され、正
しく形態素解析された文字列の候補リストとして取出さ
れる。この候補リストは他の文字列との接続チェック処
理がなされて形態素解析を終了する（ステップＳ４）。
この接続チェック処理は、例えば前の単語に対する品詞
からチェックする。

【００２８】以上のとおり、本実施例は単語辞書１から
文字インデックスを生成しておき、解析対象文字列のア
ドレス間距離の連続性から形態素解析を行うと共に誤
字、脱字、多字の検出を行う。

【００２９】このため、単語辞書との文字列照合に較べ
て当該文字を含む単語を文字インデックスから直接に検
索し得て高速解析を得ることができ、さらにテキストの
１文字目が曖昧になるときの解析も含めて誤字、脱字、
多字のチェックを容易にする。

【００３０】また、メモリ容量としては文字インデック
スを確保できるものであれば良く、コンピュータの内部
メモリ等の比較的小容量のもので済むし、アプリケーシ
ョン側のプログラムを複雑にすることは無い。

【００３１】さらに、電子化辞書等のデータベースの解
析にも容易に対応できる。

【００３２】なお、実施例では１文字の誤字，脱字，多
字の検出を行う場合を示すが、ｎ文字（２文字や３文
字）の誤字、脱字、多字検出にも応用することができ
る。

【００３３】例えば、ｎ文字の誤字検出にはアドレス間
距離が１でない文字があったときにｎ文字とばしてアド
レス間距離を求め、これがｎ＋１の距離になったときに
とばしたｎ文字を誤字と判定する。

【００３４】同様に、ｎ文字の多字検出には距離が１で
ない文字があったときにｎ文字とばして距離を求め、こ
れが距離１になったときにその間のｎ文字を多字と判定
する。また、ｎ文字の多字検出は、距離が１でない文字
がありかつ距離がｎ＋１になっているときに該文字間に
脱字があると判定する。

【００３５】なお、上述のｎ文字の誤字，脱字の検出に
ついては文字総数のチェックを加えることによって単語
末尾の誤字，脱字の検出ができる。このためには、図４
に示すように、文字インデックスリストにアドレスデー
タのほかに当該文字を含む単語の文字数と当該単語内で
の文字位置をメンバーとして加えておき、ｎ文字目が辞
書の単語文字数と文字位置で一致したか否かを判定に加
える。

【００３６】

【発明の効果】以上のとおり、本発明によれば、入力テ
キストの文字列について文字インデックスから抽出した
単語辞書の保存位置の連続性から形態素解析及び誤字，
脱字，多字の検出を行うようにしたため、単語辞書と文
字列の照合になる解析に較べて高速検索になり、また文
字インデックスには小容量のメモリ確保で済み、さらに
文章の誤字，脱字，多字の検証を行うことができる。

【図面の簡単な説明】

【図１】本発明の一実施例を示す構成図。

【図２】実施例の解析処理手順図。

【図３】実施例における形態素解析の態様図。

【図４】他の実施例における態様図。

【符号の説明】

１…単語辞書、２…文字インデックス、３…処理装置。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/27 G06F 17/24

Claims

(57)【特許請求の範囲】

【請求項１】日本語文字の単語を表記文字と属性リス
トの構造体で保存する単語辞書と、前記単語辞書中の表
記文字に含まれる文字を１文字毎に全てソートした文字
及び該表記文字中の保存位置になるインデックスリスト
とを有する構造体の文字インデックスと、形態素解析対
象となる入力テキストの形態素を解析する処理装置とを
備え、前記処理装置は入力テキストの各文字に一致する
前記文字インデックスの文字とインデックスリストを抽
出し、前記保存位置が連続する文字列は１つの単語とし
て抽出し、この抽出に失敗した文字列中に１文字又は所
定数文字分だけ保存位置が連続しないときに該１文字又
は所定数文字分に誤字，脱字，多字の何れかが存在する
ことを判定する形態素解析方式。