JPH07296005A - 日本語テキスト登録・検索装置 - Google Patents

日本語テキスト登録・検索装置

Info

Publication number
JPH07296005A
JPH07296005A JP6087003A JP8700394A JPH07296005A JP H07296005 A JPH07296005 A JP H07296005A JP 6087003 A JP6087003 A JP 6087003A JP 8700394 A JP8700394 A JP 8700394A JP H07296005 A JPH07296005 A JP H07296005A
Authority
JP
Japan
Prior art keywords
character string
text
word
text data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6087003A
Other languages
English (en)
Inventor
Tamaki Saito
珠喜 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP6087003A priority Critical patent/JPH07296005A/ja
Publication of JPH07296005A publication Critical patent/JPH07296005A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 任意の検索条件文字列による日本語テキスト
データの高速かつ的確な検索を可能にする。 【構成】 登録テキストデータはフロッピーディスク2
0に蓄積されている。登録処理部31は、フロッピーデ
ィスク20からテキストデータを読み込み、単語辞書5
1を用いて、該テキストデータから単語を抽出し、各単
語を見出し語とし、当該単語を含むテキストデータの管
理符号を見出し語に対応づけたインデックステーブル4
1を作成し、データベース40に登録する。読み込んだ
テキストデータはデータベース40のテキストデータ領
域44に格納する。検索処理部32は、キーボード10
から入力される検索条件文字列の単語によりインデック
ステーブル41を参照して、一致する見出し語の管理符
号を得、テキストデータ領域44から該管理符号のテキ
ストデータを取り出す。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語テキストファイ
ルすなわち日本語テキストデータの登録・検索装置に関
するものである。
【0002】
【従来の技術】従来、英語等、テキストを単語に区切っ
て記述する言語の場合は、単語単位のインデックス付け
を行い、該インデックスを用いた検索さらには内容的分
類(クラスタリング)も試みられている(例えば、Wil
liam B.Frakes,RicardoBaeza-Yates “Informa
tion Retrieval”Prentics Hall 1992)。
【0003】これに対し、日本語のテキストでは文字列
がつながられて記述され、単語に区切る技術(形態素解
析技術)も開発されているが、未登録語の出現などによ
り、実用的に十分な精度が達成されないため、あらかじ
め登録されたキーワードによる検索が一般的である。し
かし、現実には用字や用語の不統一により、あらかじめ
登録されたキーワードでは検索がスムーズに行えない場
合がある。そこで、テキストの各文字または、連続する
各二文字についてインデックステーブルを作成する方法
が提案されている。これによって、テキストデータの登
録・検索が可能である。なお、これについては、例え
ば、情報処理学会 情報学基礎研究報告No.25(特
集:全文データベース、検索と内容の理解)の中の日本
語文書用高速文検索の一手法(菊池忠一著、25−
2))に説明されている。
【0004】
【発明が解決しようとする課題】上記従来技術では、キ
ーワード付与の必要がない、シソーラス(同義語辞書)
利用によっても発生する検索漏れを防げる、検索キー
(検索条件)に制限がないので、誰でも簡単に利用でき
る、等の利点があるが、次のような問題点がある。 (1)作成されるインデックステーブルが元のテキスト
データと同程度(あるいは、それ以上)のデータ量にな
る。 (2)インデックスが意味を担う言葉の単位(これをこ
こでは単語と表現する)でないため、単語単位の検索条
件に対してインデックステーブルだけから検索結果を求
めることができない。 (3)テキストの内容による類似性を計算する、さら
に、その類似性によって分類する、といった場合に、元
のテキストの内容を解析することが必要になる。 (4)例えば、「東京都」をインデックスとするテキス
トは、その中の「京都」のような、単語内の部分文字列
では検索できない。さらに、「東京都営業本部」という
文字列は、形態素解析処理では「東京都/営業/本部」
または「東京都/営業本部」のように単語切りされるの
で、単語をまたがる「都営」というような言葉は単語と
して抽出されず、結果として検索できない。すなわち、
単語にまたがる言葉、特に、ある単語の第二文字目以降
から始まって他の単語の先頭の文字につながる言葉では
検索ができない。
【0005】本発明は、従来技術の問題点に鑑みなされ
たもので、インデックステーブルでの意味的な登録を可
能とし、任意の文字列での検索も可能にする日本語テキ
ストデータ登録・検索装置を提供することを目的とす
る。
【0006】
【課題を解決するための手段】本発明の日本語テキスト
登録・検索装置は、日本語テキストデータを入力し、単
語を抽出する手段と、入力テキストデータを管理符号を
付して蓄積する手段と、各単語を見出し語としてテキス
トデータの管理符号を格納するインデックステーブル
と、検索要求の文字列に対してインデックステーブルを
参照して、一致する見出し語の管理符号に対応するテキ
ストデータの検索結果を得る手段からなることを主要な
特徴とする。
【0007】
【作用】テキストデータの登録時に、該テキストデータ
の単語を抽出し、各単語を見出し語として当該テキスト
の管理符号をインデックステーブルに格納する。検索時
は、検索条件の単語に対応してインデックステーブルか
ら該当テキストの管理符号を得ることにより、検索結果
のテキストを特定する。見出し語にない言葉(未登録
語)の場合には、各単語(見出し語)の文字列を全文検
索することにより、見出し語の部分文字列を検索でき
る。また、検索条件の文字列が見出し語の文字列よりも
長い稚の場合には、検索条件文字列を適当に分割しなが
ら部分一致を調べることで、単語をまたがる文字列につ
いての検索も容易になる。さらに、インデックステーブ
ルの内容からテキスト毎にそれが含む単語の種類が分か
るので、テキスト間の単語種類の類似性によってテキス
ト間の類似度を求めることで、検索結果のテキストを分
類することも可能になる。
【0008】
【実施例】以下、本発明の一実施例について図面により
説明する。
【0009】図1は本発明による日本語テキスト登録・
検索装置のシステム概要を示す図である。図において、
10は各種コマンドや検索条件などを入力するキーボー
ド、20は日本語テキストデータ(以下、単にテキスト
データと称す)が蓄積されているフロッピーディスク、
30の各部の動作制御及び登録/検索処理を司どる処理
装置(CPU)、40は検索のためのインデックステー
ブル41、見出し文字列ファイル42、見出し文字列逆
字ファイル43、及びテキストデータ44を格納するテ
キストデータベース、50は形態素解析用の単語辞書5
1を格納する辞書メモリ、60は検索結果などを表示す
るディスプレイ、70はプリンタである。他には所謂マ
ウス等のポインディングデバイスもあるが、図1では省
略してある。また、テキストデータ蓄積手段はフロッピ
ーディスクに限る必要はなく、さらにはキーボードから
直接入力することでもよい。
【0010】処理装置30は登録処理部31と検索処理
部32を有する。以下、これらの処理について詳述す
る。
【0011】〈登録処理〉図2はテキスト登録処理の一
実施例のフローチャート、図3はそのうちのインデック
ステーブル作成処理の詳細フローチャートである。登録
処理部31では、フロッピーディスク20よりテキスト
データを読み込み(ステップ201)、まず、辞書メモ
リ50の単語辞書51を参照して形態素解析を行い、単
語を抽出する(ステップ202)。図4に単語辞書51
の概略構成を示す。形態解析は、テキストデータの文字
列が単語辞書51にあれば、それを単語として認識する
処理である。なお、単語辞書51との一致については、
最長一致法を用いることができる。
【0012】次に、登録処理部31では、該テキストデ
ータから抽出した各単語をインデックスとしてインデッ
クステーブル41を作成する(ステップ203)。図3
に示すように、このステップ203では、抽出した単語
がインデックステーブル41の見出し語にすでに登録さ
れているか否か判定し(ステップ2031)、すでに登
録されていれば、該単語の見出し語に対応して当該テキ
ストの管理符号をインデックステーブル41に書き込み
(ステップ2032)、インデックステーブル41の見
出し語に未登録の単語については、インデックステーブ
ル41の見出し語に該単語を追加し(ステップ203
3)、該追加した単語の見出し語に対応して当該テキス
トの管理符号を書き込む(ステップ2032)。
【0013】その後、登録処理部31では、読み込んだ
テキストデータをテキストデータベース40に蓄積する
(ステップ204)。図5に、テキストデータベース4
0のインデックステーブル41とテキストデータ44と
の対応関係を示す。図5において、441が一つのテキ
ストデータのまとまり、442は該テキストデータのま
とまりごとに付けられたテキスト管理符号(例ではテキ
ストの通し番号)である。インデックステーブル41に
は、抽出した単語を見出し語とし、該単語の含まれるテ
キストデータのテキスト番号が登録される。これによ
り、読み込まれたテキストデータは、それに含まれる単
語を見出し語としてインデックステーブル41によって
管理されることなる。なお、一般にテキスト管理符号と
しては、テキスト番号(本例のテキストの通番)、
上記テキスト番号にその中での当該位置(例えば当該テ
キストでの先頭から文字位置(先頭から何文字目か))
を加えたもの、テキストが章・節・項のような構造を
持っている場合のどの部分であるかの符号をテキスト番
号に加えたもの(あるいはさらにその中での文字位置を
加えたもの)などが考えられる。
【0014】上記テキストデータの蓄積後、さらに、登
録処理部31では、インデックステーブル41の各見出
し語の文字列群からなる見出し文字列ファイル42、及
び、該見出し語の文字列をそれぞれ逆にした文字列群か
らなる見出し文字列逆字ファイル43を作成し、テキス
トデータベース40に格納する(ステップ205,20
6)。図6に見出し文字列ファイル42、図7に見出し
文字列逆字ファイル43の構成例を示す。なお、見出し
文字列逆字ファイル43は、分かりやすいように、1語
1レコードのイメージで示してある。
【0015】〈検索処理〉図8は、テキスト検索処理の
一実施例のフローチャートである。検索処理部32で
は、キーボード10から検索要求として入力された文字
列を取り込み(ステップ801)、該文字列から形態素
解析によって単語を抽出し(ステップ802)、該単語
についてインデックステーブル41を参照して、該単語
に対応する見出し語の管理符号を抽出し(ステップ80
3)、蓄積されたテキストデータ44より、該管理符号
に対応するテキストを取り出す(ステップ804)。単
語が複数の場合には、それぞれの単語について、ステッ
プ803,804の処理を行う。これによって検索条件
に合致するテキストの検索が行われたことになる。な
お、検索要求として単語そのものを入力する場合はステ
ップ802を省略してもよい。
【0016】ここで、上記抽出された管理符号によって
対応するインデックス(単語)をリストアップしてテキ
スト毎の一致度を計算し、その値によってテキスト同士
を類似しているとして分類することができる。図8のス
テップ805は、これを示している。テキストiとjの
類似度は、例えばテキストiのベクトルを(wi1,wi
2,…)/(Σwik21/2、テキストjのベクトルを
(wi1,wi2,…)/(Σwik21/2と表したとき、こ
れらのベクトルの内積で定義することができる。ここ
で、wi1(k=1,2,…)は、テキストi中での単語
kの出現回数を、また、wik(k=1,2,…)は、テ
キストj中での単語kの出現回数を表し、内積としての
類似度Rijは、例えば次のように定義する(ここで、w
ik,wjkは出現した場合には回数には関係なく1とする
ことも可能である)。 Rij=Σ(wik・wjk)/(Σwik2)1/2(Σwjk2)1/2 ただし、この類似度による分類処理は、例えば検索結果
が少ない場合のように状況あるいはユーザ設定等により
省略することも可能である。検索結果は、ディスプレイ
60に表示し、また、必要によりプリンタ70でプリン
トアウトする(ステップ806)。
【0017】次に、図8のステップ803で、インデッ
クステーブル41に対応する見出し語が見つからなかっ
た場合の処理について説明する。図9に、この場合の処
理フローチャートを示す。
【0018】図9の処理は、検索条件の文字列から切り
出された、未知語を含む単語のうち、インデックステー
ブル41の見出し語にないものをすべて対象となる。ま
ず、nを0に初期設定した後(ステップ901)、その
ような検索条件の文字列(文字列長をNとする)を末尾
からn文字と先頭からのN−n文字の二つに分割し(ス
テップ902)、先頭からのN−n文字のについて、見
出し文字列ファイル42を全文検索して、該N−n文字
の文字列を含む見出し語を抽出する(ステップ90
3)。抽出されない場合は、n+1して(ステップ90
4)、処理を繰り返す。ここで、見出し文字列ファイル
42は、図6に示すように、インデックステーブル41
の見出し語を、適当な区切り文字(図6の例で
は、“,”(:カンマ))を間に挿入して、すべてを文
字列として並べたものである。図9の場合、この見出し
文字列ファイル42の全文検索では、文字列の分割位置
を末尾から一文字ずつ前へずらしていくことで最も長い
文字列で一致した文字列を優先する、いわゆる「最長一
致法」のアルゴリズムになっている。一致を検出した
ら、当該見出し語をスタックに格納した後、ステップ9
01に戻り、すべての分割位置で常にn=Nまで、一致
する文字列をすべて抽出する(ステップ905)。この
ようにして、可能な文字列を漏れなくリストアップす
る。なお、一旦一致したら、次の文字列の処理に移るよ
うにも構成できることはいうまでもない。
【0019】図9の処理によれば、例えば検索条件の文
字列“都営”がインデックステーブル41の見出し語に
なかった場合、まずn=0で“都営”が検索され、それ
を含む見出し語文字列がなければ、n=1として“都”
が検索され、“東京都”,“京都”等が抽出されること
になる。ここで、見出し語文字列ファイル42の全文検
索結果としては、区切り文字で挾まれた範囲を出力する
ようにしておく。こうして抽出された文字列をスタック
に格納した後、次の文字列“営”について、同様に見出
し語文字列ファイル42を全文検索し、これを含む見出
し語文字列として、“営業”,“営業本部”,“営繕”
等が抽出される。これらの抽出された単語でインデック
ステーブル41を参照し、対応するテキストを求めれ
ば、それが検索結果(の候補)である。n=Nになるま
で処理を繰り返し、最終的には、分割したそれぞれの検
索結果のANDが検索結果になる(この例では、(東京
都OR京都)AND(営業OR営業本部OR営繕))。
また、文字列が“都営業本部”のように文字列が長い場
合も、見出し語とマッチングした文字列を順次分離して
処理を繰り返せばよい。
【0020】ここで、先頭の文字(ここでは、“都”)
を含む検索の場合には、見出し語文字列ファイル42の
区切り文字の直前までの一致に(例えば、この例では
“都,”での検索と同じ)、その他の場合(先頭の文字
を含まない場合)は区切り文字の直後からの一致で、か
つ最後の文字(ここでは、“営”)を含む検索の場合の
み部分一致を許容するという条件(ここの例では、“,
営”での検索と同じ)を加えることによって、より適切
な候補だけに絞れることは言うまでもない。
【0021】また、先頭の文字を含む全文検索の場合、
図7に示したように見出し語の文字列を逆順にした見出
し文字列逆字ファイル43を用い、該ファイルを先頭か
らの部分一致で検索することで、見出し語としてその終
端部分に検索条件の先頭からの文字列を含む場合、検索
処理を高速化できる。図10に、検索文字列が「京都」
の場合を例に、見出し文字列逆字ファイル43を用いた
場合の処理を示す。
【0022】
【発明の効果】以上説明したように、本発明の日本語テ
キスト登録・検索装置によれば、次のような効果が得ら
れる。
【0023】(1)テキストデータ登録時に、形態素解
析等を利用して単語を抽出し、該単語を見出し語とする
インデックステーブルを作成し、検索時には、検索要求
(検索条件)の単語でインデックステーブルを参照し
て、該単語に対応する見出し語から該当テキストの管理
符号を得て検索結果のテキストを特定することで、所望
テキストを高速にかつ的確に検出することができる。ま
た、インデックステーブルのデータ量は、見出し語が単
語単位であるため、元のテキストデータのデータ量以下
に維持できる。
【0024】(2)インデックステーブルの内容からテ
キスト毎にそれが含む単語の種類が分かるので、テキス
ト間の単語種類の類似性によってテキスト間の類似度を
求めることができ、検索結果のテキストを分類すること
が可能になり、検索者(ユーザ)が求めるものを容易に
確認できる。
【0025】(3)インデックステーブルの見出し語に
ない単語文字列の場合にも、該文字列について見出し文
字列ファイルの全文検索で部分文字列を得、該部分文字
列でインデックステーブルを参照することにより、もっ
ともらしい候補を得ることができる。
【0026】(4)見出し語の文字列を逆順に見出し文
字列逆字ファイルを利用することにより、見出し語とし
てその終端部分に検索条件の先頭からの文字列を含む場
合、全文検索の処理を高速化できる。
【図面の簡単な説明】
【図1】本発明の一実施例のシステム構成図である。
【図2】本発明の一実施例のテキスト検索処理を示すフ
ローチャートである。
【図3】図2のテキスト登録中のインデックステーブル
作成の詳細フローチャートである。
【図4】単語辞書の構成例を示す図である。
【図5】インデックステーブルと蓄積テキストデータと
の対応関係を示す図である。
【図6】見出し文字列ファイルの構成例を示す図であ
る。
【図7】見出し文字列逆字ファイルの構成例を示す図で
ある。
【図8】本発明の一実施例のテキスト検索処理を示すフ
ローチャートである。
【図9】未知語文字列に対する部分文字列検索のフロー
チャートである。
【図10】見出し文字列逆字ファイルを用いた処理例を
示す図である。
【符号の説明】
10 キーボード 20 フロッピーディスク 30 処理装置(CPU) 31 登録処理部 32 検索処理部 40 テキストデータベース 41 インデックステーブル 42 見出し文字列ファイル 43 見出し文字列逆字ファイル 44 テキストデータ 50 辞書メモリ 51 単語辞書 60 ディスプレイ 70 プリンタ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 日本語テキストデータ(以下、単にテキ
    ストデータという)を入力し、単語を抽出する手段と、
    入力テキストデータを管理符号を付して蓄積する手段
    と、各単語を見出し語としてテキストデータの管理符号
    を格納するインデックステーブルと、検索要求の文字列
    に対してインデックステーブルを参照して、一致する見
    出し語の管理符号に対応するテキストデータの検索結果
    を得る手段とを有することを特徴とする日本語テキスト
    登録・検索装置。
  2. 【請求項2】 請求項1記載の日本語テキスト登録・検
    索装置において、検索結果のテキストを、各テキストに
    現われる単語の種類の一致度に応じて分類する手段を有
    することを特徴とする日本語テキスト登録・検索装置。
  3. 【請求項3】 請求項1もしくは2記載の日本語テキス
    ト登録・検索装置において、適当な区切り文字を見出し
    語の間に挿入してインデックステーブルの見出し語をす
    べて収容してなる見出し文字列ファイルを有し、検索要
    求の文字列の見出し語がインデックステーブルにない場
    合、該見出し文字列ファイルを用いて検索要求の文字列
    の部分文字列を検索し、該部分文字列によってインデッ
    クステーブルを参照して検索結果を得ることを特徴とす
    る日本語テキスト登録・検索装置。
  4. 【請求項4】 請求項1もしくは2記載の日本語テキス
    ト登録・検索装置において、インデックステーブルの各
    見出し語の文字列を逆の文字列に並べ換えたものを見出
    し語とする見出し文字列逆字ファイルを有し、検索要求
    の文字列の見出し語がインデックステーブルにない場
    合、該見出し文字列逆字ファイルを用いて検索要求の文
    字列の部分文字列を検索し、該部分文字列によってイン
    デックステーブルを参照して検索結果を得ることを特徴
    とする日本語テキスト登録・検索装置。
JP6087003A 1994-04-25 1994-04-25 日本語テキスト登録・検索装置 Pending JPH07296005A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6087003A JPH07296005A (ja) 1994-04-25 1994-04-25 日本語テキスト登録・検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6087003A JPH07296005A (ja) 1994-04-25 1994-04-25 日本語テキスト登録・検索装置

Publications (1)

Publication Number Publication Date
JPH07296005A true JPH07296005A (ja) 1995-11-10

Family

ID=13902729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6087003A Pending JPH07296005A (ja) 1994-04-25 1994-04-25 日本語テキスト登録・検索装置

Country Status (1)

Country Link
JP (1) JPH07296005A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09237281A (ja) * 1996-03-01 1997-09-09 Omron Corp テキストデータ検索装置およびテキストデータ検索方法
JPH09248664A (ja) * 1996-03-18 1997-09-22 Toshiba Mach Co Ltd ダイカストマシン制御装置の画面表示制御方法
JPH11184893A (ja) * 1997-12-24 1999-07-09 Oki Electric Ind Co Ltd パターン照合装置及び文書処理装置
WO2012117544A1 (ja) * 2011-03-02 2012-09-07 富士通株式会社 検索プログラム、検索装置、および検索方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09237281A (ja) * 1996-03-01 1997-09-09 Omron Corp テキストデータ検索装置およびテキストデータ検索方法
JPH09248664A (ja) * 1996-03-18 1997-09-22 Toshiba Mach Co Ltd ダイカストマシン制御装置の画面表示制御方法
JPH11184893A (ja) * 1997-12-24 1999-07-09 Oki Electric Ind Co Ltd パターン照合装置及び文書処理装置
WO2012117544A1 (ja) * 2011-03-02 2012-09-07 富士通株式会社 検索プログラム、検索装置、および検索方法
JP5621906B2 (ja) * 2011-03-02 2014-11-12 富士通株式会社 検索プログラム、検索装置、および検索方法
US9501558B2 (en) 2011-03-02 2016-11-22 Fujitsu Limited Computer product, searching apparatus, and searching method

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2783558B2 (ja) 要約生成方法および要約生成装置
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
JP2742115B2 (ja) 類似文書検索装置
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US9558234B1 (en) Automatic metadata identification
JPH0424869A (ja) 文書処理システム
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JPH0484271A (ja) 文書内情報検索装置
JPH09198395A (ja) 文書検索装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JPH08263521A (ja) 文書登録検索システム
JP2002183195A (ja) 概念検索方式
JPH06124305A (ja) 文書検索方法
JP3825829B2 (ja) 登録情報検索装置及びその方法
JP2002132789A (ja) 文書検索方法
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
KR970049752A (ko) 동사정보를 이용한 한국어 자연어 질의 정보검색 방법
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH0635971A (ja) 文書検索装置
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体