JPH0652222A

JPH0652222A - 情報検索処理装置

Info

Publication number: JPH0652222A
Application number: JP4203351A
Authority: JP
Inventors: Chuichi Kikuchi; 忠一菊池; Shinichi Ito; 伸一伊藤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1992-07-30
Filing date: 1992-07-30
Publication date: 1994-02-25
Anticipated expiration: 2017-02-25
Also published as: JP3260428B2

Abstract

(57)【要約】【目的】検索の高速化と文字の修正時間の短縮化を図
ること。【構成】テキストファイル１２からテキストに関する
データをサブテキスト生成部１３に入力し、サブテキス
ト生成部１３で、予め設定した文字あるいは文字列をサ
ブテキストの終端としてテキストを複数のサブテキスト
に分割する。各サブテキストのデータを文字連鎖抽出部
１４へ転送し、サブテキスト中に存在する文字連鎖と文
字連鎖位置とを抽出し、これらのデータを文字連鎖イン
デックス１５に記憶する。そしてテキスト修正時には、
修正対象文字列から抽出する文字連鎖と文字連鎖位置か
ら文字連鎖インデックス１５を検索して、修正対象文字
列が存在するサブテキストを抽出し、修正対象文字列の
検索及び修正対象文字列の挿入によって修正サブテキス
トを生成する。そしてこの修正サブテキストから抽出さ
れた文字連鎖と文字連鎖位置を文字連鎖インデックス１
５に記憶する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は情報検索処理装置に係わ
り、特に、文書等のデータベースに存在する文字列等を
検索したり文字列の修正を行うに好適な情報検索処理装
置に関する。

【０００２】

【従来の技術】従来、情報処理システムにおいては、デ
ータベースにおける目的の文字等のデータ（キーワー
ド）の検索を行うに際しては、予め記憶されているデー
タ即ちテキストを、全て検索するように構成された逐次
検索方式が一般的に採用されている。図１２は、キーワ
ードの逐次検索方式が適用された従来の構成図である。
図１２において、検索すべき文字データであるキーワー
ドはマッチング部５１に入力されるようになっている。
このマッチング部５１には、テキスト即ち予め記憶され
た文字等のデータを記憶しているテキストメモリ５２が
接続されている。そしてマッチング部５１はその文書の
文字を１文字づつ読み出して、キーワードと一致してい
るか否かを判別するようになっている。

【０００３】しかし、従来の逐次検索方式では、テキス
ト中の全ての文字とキーワードとを順次比較してキーワ
ードが存在するか否かを判別しているため、その検索に
時間を要するという問題を有している。特に、テキスト
の文字が増加するに伴って、その検索時間も増加するた
め、大容量のテキストの検索を行うときには検索に多く
の時間を要することになる。そこでこのような問題点を
解決するために、検索を短時間で行うようにしたものと
して、例えば特開昭６４−３５６２７号があげられる。

【０００４】図１３は新しい検索方式を採用した装置の
機能ブロック図である。図１３において、文字連鎖抽出
手段５３には複数の文字よりなるキーワードが入力され
るようになっており、この文字連鎖抽出手段５３はその
複数の文字で構成される特定数の文字列とキーワード中
の位置とを抽出することができる。文字連鎖インデック
ス５４は検索すべきテキスト中に存在する特定数の連続
する文字がテキスト中のどの位置に存在するかを記憶し
ている。インデックス検索手段５５は、文字連鎖抽出手
段５３により抽出された文字列を基に、文字連鎖インデ
ックス５４を検索するとともに、複数の文字列の位置関
係からキーワードのテキスト中における位置を検索でき
るようになっている。

【０００５】

【発明が解決しようとする課題】しかし、従来技術で
は、逐次検索方式よりも検索の高速化を図ることはでき
るが、テキストの修正時には、修正箇所以降の文字位置
を表すポインタを全て更新しなければならないという問
題が生じる。即ち、修正が生じた場合、修正箇所以降の
文字連鎖の文字位置が変わるため、文字連鎖インデック
ス５４に格納した文字連鎖に対応するポインタのうち、
修正箇所のうち、修正箇所以降の文字連鎖に対応する全
てのポインタを更新しなければならない。

【０００６】本発明の目的は、検索の高速化と文書の修
正時間の短縮化を図ることができる情報検索処理装置を
提供することにある。

【０００７】

【課題を解決するための手段】前記目的を達成するため
に、本発明は、複数の文字等で構成されている文字列の
データをその位置データとともに記憶するテキストファ
イルと、テキストファイルのデータを特定文字または特
定文字列のデータ毎に分割して複数のサブテキストを生
成するサブテキスト生成手段と、サブテキスト生成手段
の生成による各サブテキストから複数の特定文字数で構
成される文字連鎖とこの文字連鎖のサブテキスト中の位
置を示す文字連鎖位置とに関するデータを抽出する第１
文字連鎖抽出手段と、第１文字連鎖抽出手段の抽出によ
る文字連鎖の文字連鎖位置データをテキスト中の位置デ
ータに変換する位置データ変換手段と、位置データ変換
手段により位置データの変換された文字連鎖データをテ
キスト中の位置に対応づけて記憶する文字連鎖記憶手段
と、指定の文字連鎖とこの文字連鎖のテキスト中の位置
に関するデータを含むキーワードを出力するキーワード
出力手段と、キーワード出力手段の出力によるキーワー
ドから複数の特定文字数で構成される文字連鎖とその文
字連鎖位置に関するデータを抽出する第２文字連鎖抽出
手段と、文字連鎖記憶手段を検索して第２文字列連鎖手
段の抽出による文字連鎖と同一の文字連鎖をその位置デ
ータとともに抽出するインデックス検索手段とを備えて
いる情報処理検索装置を構成したものである。

【０００８】また本発明は、複数の文字等で構成される
文字列のデータをその位置データとともに記憶するテキ
ストファイルと、テキストファイルのデータを特定文字
または特定文字列のデータ毎に分割して複数の修正対象
サブテキストを生成する修正対象サブテキスト生成手段
と、修正対象サブテキスト生成手段の生成による各修正
対象サブテキストから複数の特定文字数で構成される文
字連鎖とこの文字連鎖の修正対象サブテキスト中の位置
を示す文字連鎖位置とに関するデータを抽出する文字連
鎖抽出手段と、文字連鎖抽出手段の抽出による文字連鎖
の文字連鎖位置データをサブテキスト中の位置データに
変換する位置データ変換手段と、位置データ変換手段に
より位置データの変換された文字連鎖データをサブテキ
スト中の位置に対応づけて記憶する文字連鎖記憶手段
と、指定の文字連鎖とこの文字連鎖のサブテキスト中の
位置に関するデータを含む修正対象文字列を指定する修
正対象文字列指定手段と、修正対象文字列指定手段の指
定による修正対象文字列の文字連鎖とその文字連鎖の位
置に関するデータを生成する第１修正対象文字列データ
生成手段と、修正対象文字列データ生成手段の生成によ
るデータに従って文字連鎖記憶手段を検索して修正対象
文字列のテキスト中の位置データを抽出する位置データ
抽出手段と、位置データ抽出手段の抽出によるデータを
基に修正対象サブテキスト生成手段から指定の修正対象
サブテキストを抽出する修正対象サブテキスト抽出手段
と、修正対象サブテキスト抽出手段の抽出による修正対
象サブテキストから複数の特定文字数で構成された文字
連鎖と修正対象文字列中の位置を示す文字連鎖位置に関
するデータを生成する第２修正対象文字列データ生成手
段と、文字列の修正を指令する文字列修正指令手段と、
文字列修正指令手段の指令による修正文字列に従って修
正対象サブテキストの文字列を修正する修正対象サブテ
キスト修正手段と、修正対象サブテキスト修正手段の修
正による修正サブテキストから修正された文字連鎖と修
正された文字連鎖位置に関するデータを生成する修正サ
ブテキスト生成手段と、修正サブテキスト生成手段の生
成によるデータに従って文字連鎖記憶手段の指定のデー
タを修正するデータ修正手段とを備えている情報検索処
理装置を構成したものである。

【０００９】

【作用】まず、登録処理として、テキストファイルに文
字列のデータとその位置データが記憶されると、テキス
トファイルのデータがサブテキスト生成手段に入力され
る。テキストファイルのデータがサブテキスト生成手段
に入力されると、テキストファイルのデータを特定文字
または特定文字列のデータ毎に分割して複数のサブテキ
ストが生成される。各サブテキストのデータはそれぞれ
文字連鎖抽出手段に入力される。文字連鎖抽出手段で
は、各サブテキストの文字列に関するデータを受け、各
サブテキストのデータの中から特定文字数で構成される
文字連鎖とこの文字連鎖のサブテキスト中の位置を示す
文字連鎖位置とに関するデータを抽出する。例えば３文
字連鎖の複数の文字列とその文字列のサブテキスト中で
の位置を求める。そして抽出された文字連鎖の文字連鎖
位置データはテキスト中の位置データに変換され、位置
データの変換された文字連鎖データがテキスト中の位置
に対応付けられて文字連鎖記憶手段に記憶される。

【００１０】次に、検索処理として、指定の文字連鎖と
この文字連鎖のテキスト中の位置に関するデータを含む
キーワードがキーワード出力手段から出力されると、こ
のキーワードから複数の特定文字数で構成される文字連
鎖とその文字連鎖位置に関するデータが文字連鎖抽出手
段によって抽出される。例えば３文字連鎖の文字列とそ
の文字列のキーワード中での位置が求められる。文字連
鎖記憶手段には、テキスト中に存在する文字列とその位
置データが記憶されており、文字連鎖抽出手段から入力
した複数の文字列のテキスト中の位置を文字連鎖記憶手
段から読み出す。そして前述のテキストより抽出した文
字列が例えば３文字単位の場合、先頭から３文字続い
て、１文字後の連続する３文字、さらには２文字後の連
続する３文字である。１文字単位でシフトして３文字単
位の文字列であるので、キーワードがテキスト中に位置
するときには、文字連鎖記憶手段から読み出した位置デ
ータはキーワード中での文字列の位置データとその連続
性が一致することになる。従って、インデックス検索手
段がその連続性を位置関係から求めると、テキスト中の
キーワードと同一文字列の位置データを検索することが
できる。

【００１１】次に修正処理について述べる。テキストフ
ァイルのデータを特定文字または特定文字列のデータ毎
に分割して得られた複数の修正対象サブテキストが入力
されると、修正対象文字列を複数の特定文字数の連続す
る文字列、例えば３文字連鎖の文字列とその文字列の修
正対象文字列中での位置が求められる。これらのデータ
はサブテキスト中の位置に対応付けられて文字連鎖記憶
手段に記憶される。そして検索処理と同様に、インデッ
クス検索手段がその文字列の修正対象文字列中での位置
とテキスト中の修正対象文字列と同一の文字列の位置デ
ータを検索すると、修正対象文字列が存在するサブテキ
スト番号のデータが文字連鎖修正手段に入力される。こ
の修正対象サブテキスト生成手段がテキストファイルか
らこのサブテキスト番号に一致するサブテキストを抽出
すると、このサブテキストに関するデータが文字連鎖抽
出手段に転送される。そして文字連鎖抽出手段により、
サブテキスト中の複数の特定文字数の連続する文字列、
例えば３文字連鎖の文字列とその文字列のサブテキスト
中での位置が求められる。そして文字連鎖記憶手段に記
憶されているサブテキスト番号を有する全ての位置デー
タが消去される。次に修正文字列が入力されると、この
修正文字列に関するデータが文字連鎖抽出手段に入力さ
れる。そして修正文字列を複数の特定文字数の連続する
文字列、例えば３文字連鎖の文字列とその文字列のサブ
テキスト中での位置が求められ、これらのデータが文字
連鎖修正手段へ出力される。この文字連鎖修正手段で
は、既に得ている修正対象文字列が存在する文字列位置
とサブテキスト及び修正文字列から修正サブテキストを
生成する。そしてサブテキストから複数の特定文字数の
文字列とテキスト中の位置データをインデックス検索手
段へ転送する。インデックス検索手段はこの文字列と位
置データを文字連鎖記憶手段へ格納する。このテキスト
の修正はサブテキスト内に留まり、修正箇所以降のサブ
テキストには影響がないため、テキストの修正を短時間
で行うことができる。また文字列の挿入や削除も修正と
同様に、該当するサブテキスト内の位置データの削除あ
るいは追加で短時間に行うことができる。

【００１２】

【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図１は本発明の一実施例である情報検索処理装
置の全体構成図、図２は本発明の登録処理例の構成を示
す構成図、図３は図２の動作を説明するための動作説明
図である。図１及び図２において、１２は複数の文字等
で構成される文字列のデータをその位置データとともに
記憶するテキストファイルを構成している。テキストフ
ァイル１２のデータがサブテキスト生成部１３に入力さ
れると、テキストのデータが特定文字または特定文字列
のデータ毎に複数のサブテキストに分割される。各サブ
テキストのデータは文字連鎖抽出部１４に転送され、各
サブテキストから複数の特定文字数で構成される文字連
鎖とこの文字連鎖のサブテキスト中の位置を示す文字連
鎖位置とに関するデータが抽出される。抽出されたデー
タが文字連鎖修正部１７へ転送されると、文字連鎖の文
字連鎖位置データがテキスト中の位置データに変換され
る。即ち文字連鎖修正部１７は位置データ変換手段とし
て構成されている。文字連鎖修正部１７により位置デー
タの変換された文字データはテキスト中の位置に対応付
けられて文字連鎖インデックス１５に格納される。即ち
文字連鎖インデックス１５は文字連鎖記憶手段として構
成されている。また指定の文字連鎖とこの文字連鎖のテ
キスト中の位置に関するデータを含むキーワードが文字
連鎖抽出部１４に入力されると、文字連鎖抽出部１４に
おいて、キーワードから複数の特定文字数で構成される
文字連鎖とその文字連鎖位置に関するデータが抽出され
る。即ち文字連鎖抽出部１４は第１文字連鎖抽出手段と
第２文字連鎖抽出手段を構成している。そして文字連鎖
抽出部１４で抽出されたデータがインデックス検索部１
６へ転送されると、文字連鎖抽出部１４で抽出された文
字連鎖と同一の文字連鎖が文字連鎖インデックス１５か
ら位置データとともに抽出される。即ちインデックス検
索部１６はインデックス検索手段として構成されてい
る。

【００１３】上記構成において、本実施例の登録処理を
図２及び図３に従って説明する。まず登録テキストがテ
キストファイル１２からサブテキスト生成部１３に入力
されると、サブテキスト生成部１３で、サブテキストの
終端を表す予め設定された文字あるいは文字列の探索が
行われる。図３では、句点「。」をサブテキストの終端
としている。そしてサブテキスト生成部１３で句
点「。」を検出すると、句点を検出する毎に、検出まで
に文字列を参照した全ての文字で構成される文字列をサ
ブテキストとし、テキスト中のサブテキストの出現順位
をサブテキスト番号とする。例えば、図３のように、テ
キストが（・・・。・・・あいうえお・・・。・・・か
きくけこ・・・・。・・・）の場合、サブテキストの番
号は（・・・ｉ ₁、ｉ₂になり、サブテキスト番号ｉ₁と
ｉ₂のサブテキストはそれぞれ、（・・・あいうえお・
・・。）と（・・・かきくけこ・・・・。）になる。

【００１４】登録処理が終了した後、図４に示されるよ
うに、複数のサブテキストを生成するための処理が行わ
れる。まずテキストファイル１２からテキストのデータ
がサブテキスト生成部１３に入力されると、イニシャル
セット（ステップ）ＯＰ１が行われる。即ち、サブテキ
スト番号ｃｎｔを“１”に、テキストの先頭からの文字
位置ｉを“２”、サブテキスト終端文字列をｐ₁〜ｐ
_kに、ｐ₁〜ｐ_kを検出するまでの照合回数ｊを“０”にセ
ットする。そしてテキストから取り出したｋ文字（ｋは
ｐ_kのｋに同じ）の文字列とサブテキスト終端文字列ｐ₁
〜ｐ_kが一致するか否かをステップＯＰ２で判定する。
この処理で一致しないと判定されたときには、ステップ
ＯＰ３でテキストとサブテキスト終端文字列ｐ₁〜ｐ_kと
の文字列照合が終了するか否かの判定を行う。このステ
ップで継続と判定されたときには、ステップ４で文字位
置ｉと照合回数ｊを＋１とする。さらにステップＯＰ２
以降の処理を繰り返し、テキストの終わりまでテキスト
から取り出すｋ文字の文字列とサブテキスト終端文字列
ｐ₁〜ｐ_kが一致するか否かを判定する。次に、ステップ
ＯＰ２で、テキストから取り出したｋ文字の文字列とサ
ブテキスト終端文字列ｐ₁〜ｐ_kが一致すると、ステップ
ＯＰ５で、これまでに文字列の照合で得られた文字で構
成されるサブテキスト“Ｃ_i-j〜Ｃ_i+k-1”とサブテキス
ト番号ｃｎｔをこれまでのテキスト分割結果とする。次
にステップＯＰ６で、次のサブテキストを探索するため
に、サブテキスト番号ｃｎｔを＋１し、照合回数ｊ“−
１”にする。さらにステップＯＰ３で、テキストの終わ
りまでの文字列照合を確認すると、ステップＯＰ７でこ
れまでにステップステップＯＰ５で作成されたサブテキ
ストとサブテキスト番号をサブテキスト分割の結果とす
る。

【００１５】さらに、図３に示されるように、サブテキ
ストとサブテキスト番号がサブテキスト生成部１３から
文字連鎖抽出部１４に転送されると、文字連鎖抽出部１
４においてそのサブテキストから、複数の特定文字数で
構成される文字連鎖と、サブテキスト中の位置を表す文
字連鎖位置データとが求められる。例えば、図３で３文
字連鎖を求めた場合には、文字連鎖とその位置は・・
・、＜あいう，ｉ₁〜ｐｔ₁＞，＜いうえ，ｉ₁〜ｐｔ
₂＞，＜うえおｉ₁〜ｐｔ₃＞，・・・，＜かきくｉ₂〜ｐ
ｔ₁’＞，＜きくけｉ₂〜ｐｔ₂’＞，＜くけこｉ₂〜ｐｔ
₃’＞，・・・となる。ここでｐｔ₁及びｐｔ₁’等は、文
字連鎖の位置を表している。

【００１６】次に、文字連鎖抽出処理の動作を図５に従
って説明する。入力Ｓ即ち、サブテキストが文字連鎖抽
出部１４に入力されると、イニシャルセットＯＰ８が行
われる。即ち文字連鎖の文字数ａを“３”にセットし、
入力Ｓの文字連鎖の先頭を表すポインタｉを１にする。
そして、次に文字連鎖抽出の最後であるか否かをステッ
プＯＰ９で判定する。ポインタｉは後述する動作で変化
し、文字連鎖の先頭を指示しているので、その指示位置
を含めてａ文字分後方でキーワードが連続しているか否
かの判定をステップＯＰ９で行うことになる。そしてサ
ブテキストが１０文字（・・・あいうえお・・・。）の
ときには、ｎは１０であるので、ｉ＝８まで、ｉ＋ａ−
１＞ｎを満足しない（ＮＯ）ので、次にはポインタｉが
指示する位置から３文字分のデータをレジスタＸに格納
する処理をステップＯＰ１０で行う。レジスタＸはマト
リックスレジスタであり、ｊ＝１〜ａ即ち１，２，３と
変化して入力Ｓ（１）〜Ｓ（ｎ）の３文字分をまず記憶
する。ｉ＝１のときにはＸ（１，１）←Ｓ（１），Ｘ
（１，２）←Ｓ（２），Ｘ（１，３）←Ｓ（３）とな
る。この動作で先頭から３文字分が１個の文字連鎖とし
てレジスタＸに記憶される。そして次にポインタｉをイ
ンクリメントする動作をステップＯＰ１１で行う。即
ち、次の文字をポイントすべき動作を行う。そしてステ
ップＯＰ９で再び判別動作を行う。この繰り返しの動作
によって、次ぎにはＸ（２，１）←Ｓ（２），Ｘ（２，
２）←Ｓ（３），Ｘ（２，３）←Ｓ（４）が行われる。

【００１７】サブテキストが１０文字の場合、ポインタ
ｉが９を指示したときには、ｉ＋ａ−１＝１１，ｎ＝１
０であるので、ｉ＋ａ−１＞ｎを満足する（ＹＥＳ）よ
うになり、Ｘをインデックス検索部１６に出力する処理
をステップ１２で行って全ての動作を終了する。

【００１８】以上の動作によってインデックス検索部１
５に文字連鎖とその位置データが格納される。なお、マ
トリックスレジスタＸ（ｉ，ｊ）におけるｉの値がその
文字連鎖の位置を表している。そして文字連鎖インデッ
クス１５には図３に示されるように、文字連鎖（・・
・，あいう，いうえ，・・・，きくけ，くけこ，・・
・）のような３文字の文字連鎖と、テキスト中の位置を
表すポインタ（・・・，ｉ ₁−ｐｔ₁，ｉ₁−ｐｔ₂，・・
・ｉ₂−ｐｔ₂’，ｉ₂−ｐｔ₃’，・・・）が記憶され
る。例えば、あいう，いうえ，きくけ，，くけこ、に対
応してｉ₁−ｐｔ₁，ｉ ₁−ｐｔ₂，ｉ₂−ｐｔ₁’，ｉ₂−
ｐｔ₃’が記憶される。なお、文字連鎖インデックス１
５には、３文字連鎖の他に、１文字や２文字連鎖等にも
対応できるように、それらの文字連鎖とポインタも記憶
されている。

【００１９】次に、検索処理を図６及び図７に従って説
明する。まずキーワード出力手段からキーワードが文字
連鎖抽出部１４において、キーワードから、複数の特定
文字数で構成される文字連鎖と、キーワード中の位置を
表す文字連鎖位置データとが抽出される。例えば、図７
で３文字連鎖を求めた場合には、文字連鎖とその文字連
鎖位置データは、＜あいう，１＞，＜いうえ，２＞にな
る。ここで“１”及び“２”は文字連鎖位置データを表
している。また文字連鎖抽出動作は図５と同じ処理が行
われる。文字連鎖と文字連鎖位置データが文字連鎖抽出
部１４からインデックス検索部１６は、前述した文字連
鎖（あいう，いうえ）を用いて、まず“あいう”と“い
うえ”のテキスト文中の文字連鎖のポインタ列ここでは
Ｐ,Ｑとすると、Ｐ,Ｑを求める。ポインタ列Ｐ,Ｑは一般
的に複数のポインタからなり、ポインタ列Ｐはｐ（１）
〜ｐ（ｌ）の集合であり、。またポインタ列Ｑはｑ
（１）〜ｑ（ｍ）の集合である。このポインタ列は“あ
いう”と“いうえ”の文字連鎖が存在するテキスト文中
の位置を表しているものであり、“あいうえ”なるキー
ワードがテキスト文中に存在するときには、ｐ（ｌ）−
ｑ（ｍ）＝−１を満足するポインタが存在する。このポ
インタの抽出もインデックス検索部１６で行われる。

【００２０】図８はポインタ抽出の動作を示すフローチ
ャートである。インデックス検索部１６が文字連鎖イン
デックス１５を検索することにより文字連鎖に対応した
ポインタ列Ｐ，Ｑを求めると、次ぎにはｉ，ｊ，ｈをセ
ットする動作がステップＯＰ１３で行われる。ｉ，ｊは
ポインタ列ｐ（１）〜ｐ（ｌ）とｑ（１）〜ｑ（ｍ）を
それぞれ指定するポインタであり、ｈは目的とした文字
列即ちキーワードと同一の文字連鎖が存在したときに、
その文字連鎖位置を格納する処理結果レジスタＹ（ｈ）
を指示をするポインタである。そしてイニシャルセット
動作がステップＯＰ１３で行われた後は、ポインタｉ，
ｊがそれぞれｉ＞１，ｊ＞ｍの判別がステップＯＰ１４
で行われる。ｌ，ｍはポインタ列Ｐ，Ｑの最終ポインタ
を表しており、ともに満足していないときには、ｉ，ｊ
で指示されるポインタｐ（ｉ），ｑ（ｊ）がキーワード
中の一連の文字連鎖の条件を満足しているか否かの判定
がステップＯＰ１５で行われる。即ち、キーワードから
抽出した文字連鎖位置データａｘとｂｘを用いてポイン
タ列ＰとＱの文字位置の差を、ａｏ←ｐ（ｉ）−ａｘ，
ｂｏ←ｑ（ｊ）−ｂｘと修正する。ステップＯＰ１６と
ＯＰ１８で、レジスタａａ，ｂｏの値が同一であったと
きには、連続する一連の文字連鎖であるから、ステップ
ＯＰ２０でこのときのａｏを処理結果Ｙ（ｈ）に格納
し、Ｙ（ｈ）のポインタｈを＋１とする。またステップ
１６でａｏがｂｏより大きいときには、ポインタｐ
（ｉ）がポインタｑ（ｊ）より文中の先を指示している
場合であるので、ステップＯＰ１７でポインタ列Ｑのポ
インタｊを＋１とする。一方、ステップ１８でｂｏがａ
ｏより大きいと判定されたときには、ポインタｑ（ｊ）
がポインタｐ（ｉ）より文中の先を指示している場合で
あるので、ステップＯＰ１９でポインタ列Ｐのポインタ
ｉを＋１とする。そしてａｏとｂｏが一致したときに
は、ポインタｐ（ｉ）とｑ（ｊ）は同一の一連の文字連
鎖を指示しているので、それぞれが次のポインタとすべ
きで、ステップＯＰ２１でポインタｉとポインタｊをそ
れぞれ＋１とする。このような動作の繰り返しによっ
て、キーワードと同一の文字連鎖の位置が求められ、そ
れぞれの位置データがレジスタＹに格納される。

【００２１】一方、ステップＯＰ１４においてｉ＞１，
ｊ＞ｍの一方が満足したときには、満足したほうのポイ
ンタ列にこれ以上のポインタがないことになるため、処
理結果Ｙを出力する処理をステップ２２で行う。この動
作によってインデックス検索部１６の処理が終了するこ
とになる。

【００２２】次に、修正処理について述べる。図９は本
発明の修正処理の実施例を示す構成図であり、図１０は
その動作を示す動作説明図である。そしてサブテキスト
生成部１３は修正対象サブテキスト生成手段を構成して
おり、文字連鎖修正部１７は第１，第２修正対象文字列
データ生成手段及びデータ修正手段を構成するようにな
っている。そして修正対象文字列はこれから修正しよう
とする文字列を表しており、修正文字列は修正対象文字
列を書き換える文字列である。なお、挿入処理は修正対
象文字列がなく、削除処理は修正文字列がない場合であ
る。そして修正対象文字列が文字連鎖抽出部１４に入力
されると、文字連鎖抽出部１４は修正対象文字列から、
複数の特定文字数で構成される文字連鎖と修正対象文字
列中の位置を表す文字連鎖位置データとを求めるように
なっている。例えば図１０で、文字連鎖３文字を求めた
場合には、文字連鎖と文字連鎖位置データは＜あいう，
１＞＜いうえ，２＞になる。

【００２３】これらの文字連鎖と文字連鎖位置データが
インデックス検索部１６に入力されると、検索処理と同
様に、文字連鎖インデックス１５から、修正対象文字列
がテキスト中に存在する場所を表すポインタを求めるた
めの処理が行われる。図１０では、ｉ₁−ｐ_t1，ｉ₁−ｐ
_t2がポインタである。このポインタを文字連鎖修正部１
７が入力すると、サブテキスト生成部１３にサブテキス
ト番号ｉ₁が転送される。サブテキスト生成部１３は、
テキストファイル１２から、このサブテキスト番号ｉ₁
に該当するサブテキストを抽出し、文字連鎖修正部１７
へ出力する。このとき、該当するサブテキストは、例え
ば（・・・あいうえお・・・。）である。

【００２４】文字連鎖修正部１７が修正対象サブテキス
トに関するデータを入力すると、これらのデータは文字
連鎖抽出部１４へ転送される。文字連鎖抽出部１４は、
この修正対象サブテキストのデータから、複数の特定文
字数で構成される文字連鎖と修正対象文字列中の位置を
表す文字連鎖位置データとを求め、これらのデータを文
字連鎖修正部１７へ転送する。例えば、図１０で、文字
連鎖３文字を求めた場合には、文字連鎖と文字連鎖位置
データは・・・＜あいう，ｉ₁−ｐ_t1＞，＜いうえｉ₁−
ｐ_t2＞，・・・になる。そして文字連鎖修正部１７は、
この修正前の文字連鎖と文字連鎖位置データを基に、文
字連鎖インデックス１５に記憶されている修正前の文字
連鎖と文字連鎖位置データを削除する。

【００２５】次に、文字連鎖修正部１７は、先ほどイン
デックス検索部１６から入力した修正対象文字列のポイ
ンタｉ₁−ｐ_t1とｉ₁−ｐ_t2を用いて、この修正対象サブ
テキストから修正対象文字列を削除する。そして、別途
入力する修正文字列を修正対象文字列のポインタ位置に
挿入して修正サブテキストを作成し、作成した修正サブ
テキストを文字連鎖抽出部１４へ転送する。例えば、図
１０では、修正文字列はａｂｃであるから、修正サブテ
キストは（・・・ａｂｃお・・・）になる。そして文字
連鎖抽出部１４は、この修正サブテキストから、特定の
文字数で構成される文字連鎖と修正サブテキスト中の位
置を表す文字連鎖位置データとを求める。例えば、図１
０で文字連鎖３文字を求めたときには、文字連鎖とその
位置データは・・・，＜ａｂｃ，ｉ₁−ｐ_t1＞，＜ｂｃ
お，ｉ₁−ｐ_t2＞，・・・になる。次に文字連鎖修正部
１７が文字連鎖抽出部１４から修正サブテキストの文字
連鎖と文字連鎖位置データを入力すると、文字連鎖イン
デックス１５の修正文字連鎖に対応するポインタ列に、
修正文字連鎖位置データが格納され、ポインタ列中で昇
順配列にソートされ、修正された文字連鎖インデックス
が作成される。

【００２６】図１１は、本発明の修正処理における修正
対象サブテキスト抽出の動作を示すフローチャートであ
る。図１１において、テキストファイル１２からテキス
トのデータが入力されると、まずステップＯＰ２３でイ
ニシャルセットが行われる。即ちサブテキスト番号ｃｎ
ｔを“１”に、テキストの先頭からの文字位置ｉを
“１”に、サブテキスト終端文字列をｐ₁〜ｐ_kに、ｐ₁
〜ｐ_kを検出するまでの処理回数ｊを“０”に、文字連
鎖修正部１７から入力した抽出サブテキスト番号Ｉをセ
ットする。そして、テキストから取り出したｋ文字（ｋ
はｐ_kのＫに同じ）の文字列とサブテキスト終端文字列
ｐ₁〜ｐ_kが一致するか否かの判定をＯＰ２４で行う。こ
のステップで一致しないと判定されたときには、ステッ
プＯＰ２５で、テキストとサブテキスト終端文字列ｐ₁
〜ｐ_kとの文字列照合が終了したか否かの判定を行う。
この処理で継続と判定されたときには、ステップＯＰ２
６で文字位置ｉと照合回数ｊを＋１とする。さらにステ
ップＯＰ４２以降の処理を繰り返し、テキストの終わり
まで、テキストから取り出すｋ文字の文字列とサブテキ
スト終端文字列ｐ₁〜ｐ_kが一致するか否かの判定が行わ
れる。

【００２７】ステップＯＰ２４でテキストから取り出し
たｋ文字の文字列とサブテキスト終端文字列ｐ₁〜ｐ_kと
が一致したときには、ステップＯＰ２７で、このサブテ
キストの番号が抽出サブテキスト番号Ｉに一致するか否
かの判定が行われる。このステップで一致しないと判定
されたときには、次のサブテキストを探索するため、ス
テップＯＰ２８で、サブテキスト番号ｃｎｔを＋１し、
照合回数ｊを“−１”にする。ステップＯＰ２５で、テ
キストとサブテキスト終端文字列ｐ₁〜ｐ_kとの文字列照
合が終了するか否かの判定を行う。さらにステップＯＰ
２４以降の処理を繰り返し、テキストの終わりまで文字
列の照合を行う。

【００２８】ステップＯＰ２７で、このサブテキストの
番号ｃｎｔが抽出されるテキスト番号Ｉに一致したとき
には、ステップＯＰ２９で、一致したサブテキスト“Ｃ
_i-j〜Ｃ_i+k-1”を出力し、修正対象サブテキストの抽出
を終了する。なおステップＯＰ２５でテキストとサブテ
キスト終端文字列ｐ₁〜ｐ_kとの文字列照合が終了したと
きには、ステップＯＰ３０で、エラーメッセージ“該当
なし”を出力し、このルーチンでの処理を終了する。

【００２９】本実施例においては、サブテキスト終端文
字列を句点「。」とし、１個の文ごとにサブテキストを
構成したが、句点＋スペースをサブテキスト終端文字列
とすると、１個の段落ごとにサブテキストを構成するこ
ともできる。さらに、登録テキストに、例えば利用単位
を考慮して利用単位区切り文字列を挿入し、１利用単位
ごとにサブテキストを構成することもできる。さらに、
登録テキストに、例えば利用単位を考慮して利用単位区
切り文字列を挿入し、位置利用単位ごとにサブテキスト
を構成することもできる。

【００３０】また、上記実施例においては、文字連鎖イ
ンデックスの文字数を３文字以下とした場合について述
べたが、４文字以上の文字連鎖でも前記実施例と同様な
処理で検索ができる。また検索時に、文字連鎖の重なり
具合が最小となるように、文字連鎖をキーワードから抽
出することもできる。例えば、キーワードが“あいうえ
お”の場合、文字連鎖を“あいう”と“うえお”とする
ことも可能である。

【００３１】さらに、本発明は、文字連鎖に限らず、一
般的なデータに対しても同様に行うことができる。

【００３２】

【発明の効果】本発明によれば、上記実施例から明らか
なように、予め設定したサブテキスト終端文字列でテキ
ストを複数のサブテキストに分割し、各サブテキストご
とに文字位置を管理することにより、テキストの修正・
挿入・削除時には、修正・挿入・削除箇所以降の文字位
置の変更をサブテキスト内に留めるようにしたため、テ
キストの修正・挿入・削除の短縮化が可能となる。また
同一文あるいは同一段落に、全キーワードが存在するこ
とが求められる近接演算検索処理の場合には、全キーワ
ードから求められるポインタのサブテキスト番号が全て
一致するかを確認するだけてよく、近接演算検索処理の
高速化にも寄与することができる。

【図面の簡単な説明】

【図１】本発明の一実施例を示す全体構成図

【図２】本発明の登録処理例を示す構成図

【図３】本発明の登録処理例の動作を説明するための動
作説明図

【図４】サブテキスト分割処理を説明するためのフロー
チャート

【図５】文字連鎖抽出の動作を説明するためのフローチ
ャート

【図６】本発明の検索処理を示す構成図

【図７】本発明の検索処理の動作を説明するための動作
説明図

【図８】ポインタ抽出の動作を説明するためのフローチ
ャート

【図９】本発明の修正処理例を示す構成図

【図１０】本発明の修正処理例の動作を説明するための
動作説明図

【図１１】修正対象サブテキストの抽出動作を説明する
ためのフローチャート

【図１２】従来例の構成図

【図１３】他の従来例の構成図

【符号の説明】

１２テキストファイル１３サブテキスト生成部１４文字連鎖抽出部１５文字連鎖インデックス１６インデックス検索部１７文字連鎖修正部

Claims

【特許請求の範囲】

【請求項１】複数の文字等で構成されている文字列の
データをその位置データとともに記憶するテキストファ
イルと、テキストファイルのデータを特定文字または特
定文字列のデータ毎に分割して複数のサブテキストを生
成するサブテキスト生成手段と、サブテキスト生成手段
の生成による各サブテキストから複数の特定文字数で構
成される文字連鎖とこの文字連鎖のサブテキスト中の位
置を示す文字連鎖位置とに関するデータを抽出する第１
文字連鎖抽出手段と、第１文字連鎖抽出手段の抽出によ
る文字連鎖の文字連鎖位置データをテキスト中の位置デ
ータに変換する位置データ変換手段と、位置データ変換
手段により位置データの変換された文字連鎖データをテ
キスト中の位置に対応づけて記憶する文字連鎖記憶手段
と、指定の文字連鎖とこの文字連鎖のテキスト中の位置
に関するデータを含むキーワードを出力するキーワード
出力手段と、キーワード出力手段の出力によるキーワー
ドから複数の特定文字数で構成される文字連鎖とその文
字連鎖位置に関するデータを抽出する第２文字連鎖抽出
手段と、文字連鎖記憶手段を検索して第２文字列連鎖手
段の抽出による文字連鎖と同一の文字連鎖をその位置デ
ータとともに抽出するインデックス検索手段とを備えて
いる情報処理検索装置。
【請求項２】複数の文字等で構成される文字列のデー
タをその位置データとともに記憶するテキストファイル
と、テキストファイルのデータを特定文字または特定文
字列のデータ毎に分割して複数の修正対象サブテキスト
を生成する修正対象サブテキスト生成手段と、修正対象
サブテキスト生成手段の生成による各修正対象サブテキ
ストから複数の特定文字数で構成される文字連鎖とこの
文字連鎖の修正対象サブテキスト中の位置を示す文字連
鎖位置とに関するデータを抽出する文字連鎖抽出手段
と、文字連鎖抽出手段の抽出による文字連鎖の文字連鎖
位置データをサブテキスト中の位置データに変換する位
置データ変換手段と、位置データ変換手段により位置デ
ータの変換された文字連鎖データをサブテキスト中の位
置に対応づけて記憶する文字連鎖記憶手段と、指定の文
字連鎖とこの文字連鎖のサブテキスト中の位置に関する
データを含む修正対象文字列を指定する修正対象文字列
指定手段と、修正対象文字列指定手段の指定による修正
対象文字列の文字連鎖とその文字連鎖の位置に関するデ
ータを生成する第１修正対象文字列データ生成手段と、
修正対象文字列データ生成手段の生成によるデータに従
って文字連鎖記憶手段を検索して修正対象文字列のテキ
スト中の位置データを抽出する位置データ抽出手段と、
位置データ抽出手段の抽出によるデータを基に修正対象
サブテキスト生成手段から指定の修正対象サブテキスト
を抽出する修正対象サブテキスト抽出手段と、修正対象
サブテキスト抽出手段の抽出による修正対象サブテキス
トから複数の特定文字数で構成された文字連鎖と修正対
象文字列中の位置を示す文字連鎖位置に関するデータを
生成する第２修正対象文字列データ生成手段と、文字列
の修正を指令する文字列修正指令手段と、文字列修正指
令手段の指令による修正文字列に従って修正対象サブテ
キストの文字列を修正する修正対象サブテキスト修正手
段と、修正対象サブテキスト修正手段の修正による修正
サブテキストから修正された文字連鎖と修正された文字
連鎖位置に関するデータを生成する修正サブテキスト生
成手段と、修正サブテキスト生成手段の生成によるデー
タに従って文字連鎖記憶手段の指定のデータを修正する
データ修正手段とを備えている情報検索処理装置。