JPH07296005A

JPH07296005A - 日本語テキスト登録・検索装置

Info

Publication number: JPH07296005A
Application number: JP6087003A
Authority: JP
Inventors: Tamaki Saito; 珠喜斎藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1994-04-25
Filing date: 1994-04-25
Publication date: 1995-11-10

Abstract

(57)【要約】【目的】任意の検索条件文字列による日本語テキスト
データの高速かつ的確な検索を可能にする。【構成】登録テキストデータはフロッピーディスク２
０に蓄積されている。登録処理部３１は、フロッピーデ
ィスク２０からテキストデータを読み込み、単語辞書５
１を用いて、該テキストデータから単語を抽出し、各単
語を見出し語とし、当該単語を含むテキストデータの管
理符号を見出し語に対応づけたインデックステーブル４
１を作成し、データベース４０に登録する。読み込んだ
テキストデータはデータベース４０のテキストデータ領
域４４に格納する。検索処理部３２は、キーボード１０
から入力される検索条件文字列の単語によりインデック
ステーブル４１を参照して、一致する見出し語の管理符
号を得、テキストデータ領域４４から該管理符号のテキ
ストデータを取り出す。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、日本語テキストファイ
ルすなわち日本語テキストデータの登録・検索装置に関
するものである。

【０００２】

【従来の技術】従来、英語等、テキストを単語に区切っ
て記述する言語の場合は、単語単位のインデックス付け
を行い、該インデックスを用いた検索さらには内容的分
類（クラスタリング）も試みられている（例えば、Ｗil
liam Ｂ．Ｆrakes，ＲicardoＢaeza-Ｙates “Ｉnforma
tion Ｒetrieval”Ｐrentics Ｈall １９９２）。

【０００３】これに対し、日本語のテキストでは文字列
がつながられて記述され、単語に区切る技術（形態素解
析技術）も開発されているが、未登録語の出現などによ
り、実用的に十分な精度が達成されないため、あらかじ
め登録されたキーワードによる検索が一般的である。し
かし、現実には用字や用語の不統一により、あらかじめ
登録されたキーワードでは検索がスムーズに行えない場
合がある。そこで、テキストの各文字または、連続する
各二文字についてインデックステーブルを作成する方法
が提案されている。これによって、テキストデータの登
録・検索が可能である。なお、これについては、例え
ば、情報処理学会情報学基礎研究報告Ｎo.２５（特
集：全文データベース、検索と内容の理解）の中の日本
語文書用高速文検索の一手法（菊池忠一著、２５−
２））に説明されている。

【０００４】

【発明が解決しようとする課題】上記従来技術では、キ
ーワード付与の必要がない、シソーラス（同義語辞書）
利用によっても発生する検索漏れを防げる、検索キー
（検索条件）に制限がないので、誰でも簡単に利用でき
る、等の利点があるが、次のような問題点がある。（１）作成されるインデックステーブルが元のテキスト
データと同程度（あるいは、それ以上）のデータ量にな
る。（２）インデックスが意味を担う言葉の単位（これをこ
こでは単語と表現する）でないため、単語単位の検索条
件に対してインデックステーブルだけから検索結果を求
めることができない。（３）テキストの内容による類似性を計算する、さら
に、その類似性によって分類する、といった場合に、元
のテキストの内容を解析することが必要になる。（４）例えば、「東京都」をインデックスとするテキス
トは、その中の「京都」のような、単語内の部分文字列
では検索できない。さらに、「東京都営業本部」という
文字列は、形態素解析処理では「東京都／営業／本部」
または「東京都／営業本部」のように単語切りされるの
で、単語をまたがる「都営」というような言葉は単語と
して抽出されず、結果として検索できない。すなわち、
単語にまたがる言葉、特に、ある単語の第二文字目以降
から始まって他の単語の先頭の文字につながる言葉では
検索ができない。

【０００５】本発明は、従来技術の問題点に鑑みなされ
たもので、インデックステーブルでの意味的な登録を可
能とし、任意の文字列での検索も可能にする日本語テキ
ストデータ登録・検索装置を提供することを目的とす
る。

【０００６】

【課題を解決するための手段】本発明の日本語テキスト
登録・検索装置は、日本語テキストデータを入力し、単
語を抽出する手段と、入力テキストデータを管理符号を
付して蓄積する手段と、各単語を見出し語としてテキス
トデータの管理符号を格納するインデックステーブル
と、検索要求の文字列に対してインデックステーブルを
参照して、一致する見出し語の管理符号に対応するテキ
ストデータの検索結果を得る手段からなることを主要な
特徴とする。

【０００７】

【作用】テキストデータの登録時に、該テキストデータ
の単語を抽出し、各単語を見出し語として当該テキスト
の管理符号をインデックステーブルに格納する。検索時
は、検索条件の単語に対応してインデックステーブルか
ら該当テキストの管理符号を得ることにより、検索結果
のテキストを特定する。見出し語にない言葉（未登録
語）の場合には、各単語（見出し語）の文字列を全文検
索することにより、見出し語の部分文字列を検索でき
る。また、検索条件の文字列が見出し語の文字列よりも
長い稚の場合には、検索条件文字列を適当に分割しなが
ら部分一致を調べることで、単語をまたがる文字列につ
いての検索も容易になる。さらに、インデックステーブ
ルの内容からテキスト毎にそれが含む単語の種類が分か
るので、テキスト間の単語種類の類似性によってテキス
ト間の類似度を求めることで、検索結果のテキストを分
類することも可能になる。

【０００８】

【実施例】以下、本発明の一実施例について図面により
説明する。

【０００９】図１は本発明による日本語テキスト登録・
検索装置のシステム概要を示す図である。図において、
１０は各種コマンドや検索条件などを入力するキーボー
ド、２０は日本語テキストデータ（以下、単にテキスト
データと称す）が蓄積されているフロッピーディスク、
３０の各部の動作制御及び登録／検索処理を司どる処理
装置（ＣＰＵ）、４０は検索のためのインデックステー
ブル４１、見出し文字列ファイル４２、見出し文字列逆
字ファイル４３、及びテキストデータ４４を格納するテ
キストデータベース、５０は形態素解析用の単語辞書５
１を格納する辞書メモリ、６０は検索結果などを表示す
るディスプレイ、７０はプリンタである。他には所謂マ
ウス等のポインディングデバイスもあるが、図１では省
略してある。また、テキストデータ蓄積手段はフロッピ
ーディスクに限る必要はなく、さらにはキーボードから
直接入力することでもよい。

【００１０】処理装置３０は登録処理部３１と検索処理
部３２を有する。以下、これらの処理について詳述す
る。

【００１１】〈登録処理〉図２はテキスト登録処理の一
実施例のフローチャート、図３はそのうちのインデック
ステーブル作成処理の詳細フローチャートである。登録
処理部３１では、フロッピーディスク２０よりテキスト
データを読み込み（ステップ２０１）、まず、辞書メモ
リ５０の単語辞書５１を参照して形態素解析を行い、単
語を抽出する（ステップ２０２）。図４に単語辞書５１
の概略構成を示す。形態解析は、テキストデータの文字
列が単語辞書５１にあれば、それを単語として認識する
処理である。なお、単語辞書５１との一致については、
最長一致法を用いることができる。

【００１２】次に、登録処理部３１では、該テキストデ
ータから抽出した各単語をインデックスとしてインデッ
クステーブル４１を作成する（ステップ２０３）。図３
に示すように、このステップ２０３では、抽出した単語
がインデックステーブル４１の見出し語にすでに登録さ
れているか否か判定し（ステップ２０３１）、すでに登
録されていれば、該単語の見出し語に対応して当該テキ
ストの管理符号をインデックステーブル４１に書き込み
（ステップ２０３２）、インデックステーブル４１の見
出し語に未登録の単語については、インデックステーブ
ル４１の見出し語に該単語を追加し（ステップ２０３
３）、該追加した単語の見出し語に対応して当該テキス
トの管理符号を書き込む（ステップ２０３２）。

【００１３】その後、登録処理部３１では、読み込んだ
テキストデータをテキストデータベース４０に蓄積する
（ステップ２０４）。図５に、テキストデータベース４
０のインデックステーブル４１とテキストデータ４４と
の対応関係を示す。図５において、４４１が一つのテキ
ストデータのまとまり、４４２は該テキストデータのま
とまりごとに付けられたテキスト管理符号（例ではテキ
ストの通し番号）である。インデックステーブル４１に
は、抽出した単語を見出し語とし、該単語の含まれるテ
キストデータのテキスト番号が登録される。これによ
り、読み込まれたテキストデータは、それに含まれる単
語を見出し語としてインデックステーブル４１によって
管理されることなる。なお、一般にテキスト管理符号と
しては、テキスト番号（本例のテキストの通番）、
上記テキスト番号にその中での当該位置（例えば当該テ
キストでの先頭から文字位置（先頭から何文字目か））
を加えたもの、テキストが章・節・項のような構造を
持っている場合のどの部分であるかの符号をテキスト番
号に加えたもの（あるいはさらにその中での文字位置を
加えたもの）などが考えられる。

【００１４】上記テキストデータの蓄積後、さらに、登
録処理部３１では、インデックステーブル４１の各見出
し語の文字列群からなる見出し文字列ファイル４２、及
び、該見出し語の文字列をそれぞれ逆にした文字列群か
らなる見出し文字列逆字ファイル４３を作成し、テキス
トデータベース４０に格納する（ステップ２０５，２０
６）。図６に見出し文字列ファイル４２、図７に見出し
文字列逆字ファイル４３の構成例を示す。なお、見出し
文字列逆字ファイル４３は、分かりやすいように、１語
１レコードのイメージで示してある。

【００１５】〈検索処理〉図８は、テキスト検索処理の
一実施例のフローチャートである。検索処理部３２で
は、キーボード１０から検索要求として入力された文字
列を取り込み（ステップ８０１）、該文字列から形態素
解析によって単語を抽出し（ステップ８０２）、該単語
についてインデックステーブル４１を参照して、該単語
に対応する見出し語の管理符号を抽出し（ステップ８０
３）、蓄積されたテキストデータ４４より、該管理符号
に対応するテキストを取り出す（ステップ８０４）。単
語が複数の場合には、それぞれの単語について、ステッ
プ８０３，８０４の処理を行う。これによって検索条件
に合致するテキストの検索が行われたことになる。な
お、検索要求として単語そのものを入力する場合はステ
ップ８０２を省略してもよい。

【００１６】ここで、上記抽出された管理符号によって
対応するインデックス（単語）をリストアップしてテキ
スト毎の一致度を計算し、その値によってテキスト同士
を類似しているとして分類することができる。図８のス
テップ８０５は、これを示している。テキストｉとｊの
類似度は、例えばテキストｉのベクトルを（ｗi1，ｗi
2，…）／（Σｗik²）^1/2、テキストｊのベクトルを
（ｗi1，ｗi2，…）／（Σｗik²）^1/2と表したとき、こ
れらのベクトルの内積で定義することができる。ここ
で、ｗi1（ｋ＝１，２，…）は、テキストｉ中での単語
ｋの出現回数を、また、ｗik（ｋ＝１，２，…）は、テ
キストｊ中での単語ｋの出現回数を表し、内積としての
類似度Ｒijは、例えば次のように定義する（ここで、ｗ
ik，ｗjkは出現した場合には回数には関係なく１とする
ことも可能である）。Ｒij＝Σ（ｗik・ｗjk）／（Σｗik²)^1/2（Σｗjk²)^1/2 ただし、この類似度による分類処理は、例えば検索結果
が少ない場合のように状況あるいはユーザ設定等により
省略することも可能である。検索結果は、ディスプレイ
６０に表示し、また、必要によりプリンタ７０でプリン
トアウトする（ステップ８０６）。

【００１７】次に、図８のステップ８０３で、インデッ
クステーブル４１に対応する見出し語が見つからなかっ
た場合の処理について説明する。図９に、この場合の処
理フローチャートを示す。

【００１８】図９の処理は、検索条件の文字列から切り
出された、未知語を含む単語のうち、インデックステー
ブル４１の見出し語にないものをすべて対象となる。ま
ず、ｎを０に初期設定した後（ステップ９０１）、その
ような検索条件の文字列（文字列長をＮとする）を末尾
からｎ文字と先頭からのＮ−ｎ文字の二つに分割し（ス
テップ９０２）、先頭からのＮ−ｎ文字のについて、見
出し文字列ファイル４２を全文検索して、該Ｎ−ｎ文字
の文字列を含む見出し語を抽出する（ステップ９０
３）。抽出されない場合は、ｎ＋１して（ステップ９０
４）、処理を繰り返す。ここで、見出し文字列ファイル
４２は、図６に示すように、インデックステーブル４１
の見出し語を、適当な区切り文字（図６の例で
は、“，”（：カンマ））を間に挿入して、すべてを文
字列として並べたものである。図９の場合、この見出し
文字列ファイル４２の全文検索では、文字列の分割位置
を末尾から一文字ずつ前へずらしていくことで最も長い
文字列で一致した文字列を優先する、いわゆる「最長一
致法」のアルゴリズムになっている。一致を検出した
ら、当該見出し語をスタックに格納した後、ステップ９
０１に戻り、すべての分割位置で常にｎ＝Ｎまで、一致
する文字列をすべて抽出する（ステップ９０５）。この
ようにして、可能な文字列を漏れなくリストアップす
る。なお、一旦一致したら、次の文字列の処理に移るよ
うにも構成できることはいうまでもない。

【００１９】図９の処理によれば、例えば検索条件の文
字列“都営”がインデックステーブル４１の見出し語に
なかった場合、まずｎ＝０で“都営”が検索され、それ
を含む見出し語文字列がなければ、ｎ＝１として“都”
が検索され、“東京都”，“京都”等が抽出されること
になる。ここで、見出し語文字列ファイル４２の全文検
索結果としては、区切り文字で挾まれた範囲を出力する
ようにしておく。こうして抽出された文字列をスタック
に格納した後、次の文字列“営”について、同様に見出
し語文字列ファイル４２を全文検索し、これを含む見出
し語文字列として、“営業”，“営業本部”，“営繕”
等が抽出される。これらの抽出された単語でインデック
ステーブル４１を参照し、対応するテキストを求めれ
ば、それが検索結果（の候補）である。ｎ＝Ｎになるま
で処理を繰り返し、最終的には、分割したそれぞれの検
索結果のＡＮＤが検索結果になる（この例では、（東京
都ＯＲ京都）ＡＮＤ（営業ＯＲ営業本部ＯＲ営繕））。
また、文字列が“都営業本部”のように文字列が長い場
合も、見出し語とマッチングした文字列を順次分離して
処理を繰り返せばよい。

【００２０】ここで、先頭の文字（ここでは、“都”）
を含む検索の場合には、見出し語文字列ファイル４２の
区切り文字の直前までの一致に（例えば、この例では
“都，”での検索と同じ）、その他の場合（先頭の文字
を含まない場合）は区切り文字の直後からの一致で、か
つ最後の文字（ここでは、“営”）を含む検索の場合の
み部分一致を許容するという条件（ここの例では、“，
営”での検索と同じ）を加えることによって、より適切
な候補だけに絞れることは言うまでもない。

【００２１】また、先頭の文字を含む全文検索の場合、
図７に示したように見出し語の文字列を逆順にした見出
し文字列逆字ファイル４３を用い、該ファイルを先頭か
らの部分一致で検索することで、見出し語としてその終
端部分に検索条件の先頭からの文字列を含む場合、検索
処理を高速化できる。図１０に、検索文字列が「京都」
の場合を例に、見出し文字列逆字ファイル４３を用いた
場合の処理を示す。

【００２２】

【発明の効果】以上説明したように、本発明の日本語テ
キスト登録・検索装置によれば、次のような効果が得ら
れる。

【００２３】（１）テキストデータ登録時に、形態素解
析等を利用して単語を抽出し、該単語を見出し語とする
インデックステーブルを作成し、検索時には、検索要求
（検索条件）の単語でインデックステーブルを参照し
て、該単語に対応する見出し語から該当テキストの管理
符号を得て検索結果のテキストを特定することで、所望
テキストを高速にかつ的確に検出することができる。ま
た、インデックステーブルのデータ量は、見出し語が単
語単位であるため、元のテキストデータのデータ量以下
に維持できる。

【００２４】（２）インデックステーブルの内容からテ
キスト毎にそれが含む単語の種類が分かるので、テキス
ト間の単語種類の類似性によってテキスト間の類似度を
求めることができ、検索結果のテキストを分類すること
が可能になり、検索者（ユーザ）が求めるものを容易に
確認できる。

【００２５】（３）インデックステーブルの見出し語に
ない単語文字列の場合にも、該文字列について見出し文
字列ファイルの全文検索で部分文字列を得、該部分文字
列でインデックステーブルを参照することにより、もっ
ともらしい候補を得ることができる。

【００２６】（４）見出し語の文字列を逆順に見出し文
字列逆字ファイルを利用することにより、見出し語とし
てその終端部分に検索条件の先頭からの文字列を含む場
合、全文検索の処理を高速化できる。

【図面の簡単な説明】

【図１】本発明の一実施例のシステム構成図である。

【図２】本発明の一実施例のテキスト検索処理を示すフ
ローチャートである。

【図３】図２のテキスト登録中のインデックステーブル
作成の詳細フローチャートである。

【図４】単語辞書の構成例を示す図である。

【図５】インデックステーブルと蓄積テキストデータと
の対応関係を示す図である。

【図６】見出し文字列ファイルの構成例を示す図であ
る。

【図７】見出し文字列逆字ファイルの構成例を示す図で
ある。

【図８】本発明の一実施例のテキスト検索処理を示すフ
ローチャートである。

【図９】未知語文字列に対する部分文字列検索のフロー
チャートである。

【図１０】見出し文字列逆字ファイルを用いた処理例を
示す図である。

【符号の説明】

１０キーボード２０フロッピーディスク３０処理装置（ＣＰＵ）３１登録処理部３２検索処理部４０テキストデータベース４１インデックステーブル４２見出し文字列ファイル４３見出し文字列逆字ファイル４４テキストデータ５０辞書メモリ５１単語辞書６０ディスプレイ７０プリンタ

Claims

【特許請求の範囲】

【請求項１】日本語テキストデータ（以下、単にテキ
ストデータという）を入力し、単語を抽出する手段と、
入力テキストデータを管理符号を付して蓄積する手段
と、各単語を見出し語としてテキストデータの管理符号
を格納するインデックステーブルと、検索要求の文字列
に対してインデックステーブルを参照して、一致する見
出し語の管理符号に対応するテキストデータの検索結果
を得る手段とを有することを特徴とする日本語テキスト
登録・検索装置。
【請求項２】請求項１記載の日本語テキスト登録・検
索装置において、検索結果のテキストを、各テキストに
現われる単語の種類の一致度に応じて分類する手段を有
することを特徴とする日本語テキスト登録・検索装置。
【請求項３】請求項１もしくは２記載の日本語テキス
ト登録・検索装置において、適当な区切り文字を見出し
語の間に挿入してインデックステーブルの見出し語をす
べて収容してなる見出し文字列ファイルを有し、検索要
求の文字列の見出し語がインデックステーブルにない場
合、該見出し文字列ファイルを用いて検索要求の文字列
の部分文字列を検索し、該部分文字列によってインデッ
クステーブルを参照して検索結果を得ることを特徴とす
る日本語テキスト登録・検索装置。
【請求項４】請求項１もしくは２記載の日本語テキス
ト登録・検索装置において、インデックステーブルの各
見出し語の文字列を逆の文字列に並べ換えたものを見出
し語とする見出し文字列逆字ファイルを有し、検索要求
の文字列の見出し語がインデックステーブルにない場
合、該見出し文字列逆字ファイルを用いて検索要求の文
字列の部分文字列を検索し、該部分文字列によってイン
デックステーブルを参照して検索結果を得ることを特徴
とする日本語テキスト登録・検索装置。