JPH0652222A - 情報検索処理装置 - Google Patents

情報検索処理装置

Info

Publication number
JPH0652222A
JPH0652222A JP4203351A JP20335192A JPH0652222A JP H0652222 A JPH0652222 A JP H0652222A JP 4203351 A JP4203351 A JP 4203351A JP 20335192 A JP20335192 A JP 20335192A JP H0652222 A JPH0652222 A JP H0652222A
Authority
JP
Japan
Prior art keywords
character
data
character chain
subtext
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4203351A
Other languages
English (en)
Other versions
JP3260428B2 (ja
Inventor
Chuichi Kikuchi
忠一 菊池
Shinichi Ito
伸一 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP20335192A priority Critical patent/JP3260428B2/ja
Publication of JPH0652222A publication Critical patent/JPH0652222A/ja
Application granted granted Critical
Publication of JP3260428B2 publication Critical patent/JP3260428B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 検索の高速化と文字の修正時間の短縮化を図
ること。 【構成】 テキストファイル12からテキストに関する
データをサブテキスト生成部13に入力し、サブテキス
ト生成部13で、予め設定した文字あるいは文字列をサ
ブテキストの終端としてテキストを複数のサブテキスト
に分割する。各サブテキストのデータを文字連鎖抽出部
14へ転送し、サブテキスト中に存在する文字連鎖と文
字連鎖位置とを抽出し、これらのデータを文字連鎖イン
デックス15に記憶する。そしてテキスト修正時には、
修正対象文字列から抽出する文字連鎖と文字連鎖位置か
ら文字連鎖インデックス15を検索して、修正対象文字
列が存在するサブテキストを抽出し、修正対象文字列の
検索及び修正対象文字列の挿入によって修正サブテキス
トを生成する。そしてこの修正サブテキストから抽出さ
れた文字連鎖と文字連鎖位置を文字連鎖インデックス1
5に記憶する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は情報検索処理装置に係わ
り、特に、文書等のデータベースに存在する文字列等を
検索したり文字列の修正を行うに好適な情報検索処理装
置に関する。
【0002】
【従来の技術】従来、情報処理システムにおいては、デ
ータベースにおける目的の文字等のデータ(キーワー
ド)の検索を行うに際しては、予め記憶されているデー
タ即ちテキストを、全て検索するように構成された逐次
検索方式が一般的に採用されている。図12は、キーワ
ードの逐次検索方式が適用された従来の構成図である。
図12において、検索すべき文字データであるキーワー
ドはマッチング部51に入力されるようになっている。
このマッチング部51には、テキスト即ち予め記憶され
た文字等のデータを記憶しているテキストメモリ52が
接続されている。そしてマッチング部51はその文書の
文字を1文字づつ読み出して、キーワードと一致してい
るか否かを判別するようになっている。
【0003】しかし、従来の逐次検索方式では、テキス
ト中の全ての文字とキーワードとを順次比較してキーワ
ードが存在するか否かを判別しているため、その検索に
時間を要するという問題を有している。特に、テキスト
の文字が増加するに伴って、その検索時間も増加するた
め、大容量のテキストの検索を行うときには検索に多く
の時間を要することになる。そこでこのような問題点を
解決するために、検索を短時間で行うようにしたものと
して、例えば特開昭64−35627号があげられる。
【0004】図13は新しい検索方式を採用した装置の
機能ブロック図である。図13において、文字連鎖抽出
手段53には複数の文字よりなるキーワードが入力され
るようになっており、この文字連鎖抽出手段53はその
複数の文字で構成される特定数の文字列とキーワード中
の位置とを抽出することができる。文字連鎖インデック
ス54は検索すべきテキスト中に存在する特定数の連続
する文字がテキスト中のどの位置に存在するかを記憶し
ている。インデックス検索手段55は、文字連鎖抽出手
段53により抽出された文字列を基に、文字連鎖インデ
ックス54を検索するとともに、複数の文字列の位置関
係からキーワードのテキスト中における位置を検索でき
るようになっている。
【0005】
【発明が解決しようとする課題】しかし、従来技術で
は、逐次検索方式よりも検索の高速化を図ることはでき
るが、テキストの修正時には、修正箇所以降の文字位置
を表すポインタを全て更新しなければならないという問
題が生じる。即ち、修正が生じた場合、修正箇所以降の
文字連鎖の文字位置が変わるため、文字連鎖インデック
ス54に格納した文字連鎖に対応するポインタのうち、
修正箇所のうち、修正箇所以降の文字連鎖に対応する全
てのポインタを更新しなければならない。
【0006】本発明の目的は、検索の高速化と文書の修
正時間の短縮化を図ることができる情報検索処理装置を
提供することにある。
【0007】
【課題を解決するための手段】前記目的を達成するため
に、本発明は、複数の文字等で構成されている文字列の
データをその位置データとともに記憶するテキストファ
イルと、テキストファイルのデータを特定文字または特
定文字列のデータ毎に分割して複数のサブテキストを生
成するサブテキスト生成手段と、サブテキスト生成手段
の生成による各サブテキストから複数の特定文字数で構
成される文字連鎖とこの文字連鎖のサブテキスト中の位
置を示す文字連鎖位置とに関するデータを抽出する第1
文字連鎖抽出手段と、第1文字連鎖抽出手段の抽出によ
る文字連鎖の文字連鎖位置データをテキスト中の位置デ
ータに変換する位置データ変換手段と、位置データ変換
手段により位置データの変換された文字連鎖データをテ
キスト中の位置に対応づけて記憶する文字連鎖記憶手段
と、指定の文字連鎖とこの文字連鎖のテキスト中の位置
に関するデータを含むキーワードを出力するキーワード
出力手段と、キーワード出力手段の出力によるキーワー
ドから複数の特定文字数で構成される文字連鎖とその文
字連鎖位置に関するデータを抽出する第2文字連鎖抽出
手段と、文字連鎖記憶手段を検索して第2文字列連鎖手
段の抽出による文字連鎖と同一の文字連鎖をその位置デ
ータとともに抽出するインデックス検索手段とを備えて
いる情報処理検索装置を構成したものである。
【0008】また本発明は、複数の文字等で構成される
文字列のデータをその位置データとともに記憶するテキ
ストファイルと、テキストファイルのデータを特定文字
または特定文字列のデータ毎に分割して複数の修正対象
サブテキストを生成する修正対象サブテキスト生成手段
と、修正対象サブテキスト生成手段の生成による各修正
対象サブテキストから複数の特定文字数で構成される文
字連鎖とこの文字連鎖の修正対象サブテキスト中の位置
を示す文字連鎖位置とに関するデータを抽出する文字連
鎖抽出手段と、文字連鎖抽出手段の抽出による文字連鎖
の文字連鎖位置データをサブテキスト中の位置データに
変換する位置データ変換手段と、位置データ変換手段に
より位置データの変換された文字連鎖データをサブテキ
スト中の位置に対応づけて記憶する文字連鎖記憶手段
と、指定の文字連鎖とこの文字連鎖のサブテキスト中の
位置に関するデータを含む修正対象文字列を指定する修
正対象文字列指定手段と、修正対象文字列指定手段の指
定による修正対象文字列の文字連鎖とその文字連鎖の位
置に関するデータを生成する第1修正対象文字列データ
生成手段と、修正対象文字列データ生成手段の生成によ
るデータに従って文字連鎖記憶手段を検索して修正対象
文字列のテキスト中の位置データを抽出する位置データ
抽出手段と、位置データ抽出手段の抽出によるデータを
基に修正対象サブテキスト生成手段から指定の修正対象
サブテキストを抽出する修正対象サブテキスト抽出手段
と、修正対象サブテキスト抽出手段の抽出による修正対
象サブテキストから複数の特定文字数で構成された文字
連鎖と修正対象文字列中の位置を示す文字連鎖位置に関
するデータを生成する第2修正対象文字列データ生成手
段と、文字列の修正を指令する文字列修正指令手段と、
文字列修正指令手段の指令による修正文字列に従って修
正対象サブテキストの文字列を修正する修正対象サブテ
キスト修正手段と、修正対象サブテキスト修正手段の修
正による修正サブテキストから修正された文字連鎖と修
正された文字連鎖位置に関するデータを生成する修正サ
ブテキスト生成手段と、修正サブテキスト生成手段の生
成によるデータに従って文字連鎖記憶手段の指定のデー
タを修正するデータ修正手段とを備えている情報検索処
理装置を構成したものである。
【0009】
【作用】まず、登録処理として、テキストファイルに文
字列のデータとその位置データが記憶されると、テキス
トファイルのデータがサブテキスト生成手段に入力され
る。テキストファイルのデータがサブテキスト生成手段
に入力されると、テキストファイルのデータを特定文字
または特定文字列のデータ毎に分割して複数のサブテキ
ストが生成される。各サブテキストのデータはそれぞれ
文字連鎖抽出手段に入力される。文字連鎖抽出手段で
は、各サブテキストの文字列に関するデータを受け、各
サブテキストのデータの中から特定文字数で構成される
文字連鎖とこの文字連鎖のサブテキスト中の位置を示す
文字連鎖位置とに関するデータを抽出する。例えば3文
字連鎖の複数の文字列とその文字列のサブテキスト中で
の位置を求める。そして抽出された文字連鎖の文字連鎖
位置データはテキスト中の位置データに変換され、位置
データの変換された文字連鎖データがテキスト中の位置
に対応付けられて文字連鎖記憶手段に記憶される。
【0010】次に、検索処理として、指定の文字連鎖と
この文字連鎖のテキスト中の位置に関するデータを含む
キーワードがキーワード出力手段から出力されると、こ
のキーワードから複数の特定文字数で構成される文字連
鎖とその文字連鎖位置に関するデータが文字連鎖抽出手
段によって抽出される。例えば3文字連鎖の文字列とそ
の文字列のキーワード中での位置が求められる。文字連
鎖記憶手段には、テキスト中に存在する文字列とその位
置データが記憶されており、文字連鎖抽出手段から入力
した複数の文字列のテキスト中の位置を文字連鎖記憶手
段から読み出す。そして前述のテキストより抽出した文
字列が例えば3文字単位の場合、先頭から3文字続い
て、1文字後の連続する3文字、さらには2文字後の連
続する3文字である。1文字単位でシフトして3文字単
位の文字列であるので、キーワードがテキスト中に位置
するときには、文字連鎖記憶手段から読み出した位置デ
ータはキーワード中での文字列の位置データとその連続
性が一致することになる。従って、インデックス検索手
段がその連続性を位置関係から求めると、テキスト中の
キーワードと同一文字列の位置データを検索することが
できる。
【0011】次に修正処理について述べる。テキストフ
ァイルのデータを特定文字または特定文字列のデータ毎
に分割して得られた複数の修正対象サブテキストが入力
されると、修正対象文字列を複数の特定文字数の連続す
る文字列、例えば3文字連鎖の文字列とその文字列の修
正対象文字列中での位置が求められる。これらのデータ
はサブテキスト中の位置に対応付けられて文字連鎖記憶
手段に記憶される。そして検索処理と同様に、インデッ
クス検索手段がその文字列の修正対象文字列中での位置
とテキスト中の修正対象文字列と同一の文字列の位置デ
ータを検索すると、修正対象文字列が存在するサブテキ
スト番号のデータが文字連鎖修正手段に入力される。こ
の修正対象サブテキスト生成手段がテキストファイルか
らこのサブテキスト番号に一致するサブテキストを抽出
すると、このサブテキストに関するデータが文字連鎖抽
出手段に転送される。そして文字連鎖抽出手段により、
サブテキスト中の複数の特定文字数の連続する文字列、
例えば3文字連鎖の文字列とその文字列のサブテキスト
中での位置が求められる。そして文字連鎖記憶手段に記
憶されているサブテキスト番号を有する全ての位置デー
タが消去される。次に修正文字列が入力されると、この
修正文字列に関するデータが文字連鎖抽出手段に入力さ
れる。そして修正文字列を複数の特定文字数の連続する
文字列、例えば3文字連鎖の文字列とその文字列のサブ
テキスト中での位置が求められ、これらのデータが文字
連鎖修正手段へ出力される。この文字連鎖修正手段で
は、既に得ている修正対象文字列が存在する文字列位置
とサブテキスト及び修正文字列から修正サブテキストを
生成する。そしてサブテキストから複数の特定文字数の
文字列とテキスト中の位置データをインデックス検索手
段へ転送する。インデックス検索手段はこの文字列と位
置データを文字連鎖記憶手段へ格納する。このテキスト
の修正はサブテキスト内に留まり、修正箇所以降のサブ
テキストには影響がないため、テキストの修正を短時間
で行うことができる。また文字列の挿入や削除も修正と
同様に、該当するサブテキスト内の位置データの削除あ
るいは追加で短時間に行うことができる。
【0012】
【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図1は本発明の一実施例である情報検索処理装
置の全体構成図、図2は本発明の登録処理例の構成を示
す構成図、図3は図2の動作を説明するための動作説明
図である。図1及び図2において、12は複数の文字等
で構成される文字列のデータをその位置データとともに
記憶するテキストファイルを構成している。テキストフ
ァイル12のデータがサブテキスト生成部13に入力さ
れると、テキストのデータが特定文字または特定文字列
のデータ毎に複数のサブテキストに分割される。各サブ
テキストのデータは文字連鎖抽出部14に転送され、各
サブテキストから複数の特定文字数で構成される文字連
鎖とこの文字連鎖のサブテキスト中の位置を示す文字連
鎖位置とに関するデータが抽出される。抽出されたデー
タが文字連鎖修正部17へ転送されると、文字連鎖の文
字連鎖位置データがテキスト中の位置データに変換され
る。即ち文字連鎖修正部17は位置データ変換手段とし
て構成されている。文字連鎖修正部17により位置デー
タの変換された文字データはテキスト中の位置に対応付
けられて文字連鎖インデックス15に格納される。即ち
文字連鎖インデックス15は文字連鎖記憶手段として構
成されている。また指定の文字連鎖とこの文字連鎖のテ
キスト中の位置に関するデータを含むキーワードが文字
連鎖抽出部14に入力されると、文字連鎖抽出部14に
おいて、キーワードから複数の特定文字数で構成される
文字連鎖とその文字連鎖位置に関するデータが抽出され
る。即ち文字連鎖抽出部14は第1文字連鎖抽出手段と
第2文字連鎖抽出手段を構成している。そして文字連鎖
抽出部14で抽出されたデータがインデックス検索部1
6へ転送されると、文字連鎖抽出部14で抽出された文
字連鎖と同一の文字連鎖が文字連鎖インデックス15か
ら位置データとともに抽出される。即ちインデックス検
索部16はインデックス検索手段として構成されてい
る。
【0013】上記構成において、本実施例の登録処理を
図2及び図3に従って説明する。まず登録テキストがテ
キストファイル12からサブテキスト生成部13に入力
されると、サブテキスト生成部13で、サブテキストの
終端を表す予め設定された文字あるいは文字列の探索が
行われる。図3では、句点「。」をサブテキストの終端
としている。そしてサブテキスト生成部13で句
点「。」を検出すると、句点を検出する毎に、検出まで
に文字列を参照した全ての文字で構成される文字列をサ
ブテキストとし、テキスト中のサブテキストの出現順位
をサブテキスト番号とする。例えば、図3のように、テ
キストが(・・・。・・・あいうえお・・・。・・・か
きくけこ・・・・。・・・)の場合、サブテキストの番
号は(・・・i 1、i2になり、サブテキスト番号i1
2のサブテキストはそれぞれ、(・・・あいうえお・
・・。)と(・・・かきくけこ・・・・。)になる。
【0014】登録処理が終了した後、図4に示されるよ
うに、複数のサブテキストを生成するための処理が行わ
れる。まずテキストファイル12からテキストのデータ
がサブテキスト生成部13に入力されると、イニシャル
セット(ステップ)OP1が行われる。即ち、サブテキ
スト番号cntを“1”に、テキストの先頭からの文字
位置iを“2”、サブテキスト終端文字列をp1〜p
kに、p1〜pkを検出するまでの照合回数jを“0”にセ
ットする。そしてテキストから取り出したk文字(kは
kのkに同じ)の文字列とサブテキスト終端文字列p1
〜pkが一致するか否かをステップOP2で判定する。
この処理で一致しないと判定されたときには、ステップ
OP3でテキストとサブテキスト終端文字列p1〜pk
の文字列照合が終了するか否かの判定を行う。このステ
ップで継続と判定されたときには、ステップ4で文字位
置iと照合回数jを+1とする。さらにステップOP2
以降の処理を繰り返し、テキストの終わりまでテキスト
から取り出すk文字の文字列とサブテキスト終端文字列
1〜pkが一致するか否かを判定する。次に、ステップ
OP2で、テキストから取り出したk文字の文字列とサ
ブテキスト終端文字列p1〜pkが一致すると、ステップ
OP5で、これまでに文字列の照合で得られた文字で構
成されるサブテキスト“Ci-j〜Ci+k-1”とサブテキス
ト番号cntをこれまでのテキスト分割結果とする。次
にステップOP6で、次のサブテキストを探索するため
に、サブテキスト番号cntを+1し、照合回数j“−
1”にする。さらにステップOP3で、テキストの終わ
りまでの文字列照合を確認すると、ステップOP7でこ
れまでにステップステップOP5で作成されたサブテキ
ストとサブテキスト番号をサブテキスト分割の結果とす
る。
【0015】さらに、図3に示されるように、サブテキ
ストとサブテキスト番号がサブテキスト生成部13から
文字連鎖抽出部14に転送されると、文字連鎖抽出部1
4においてそのサブテキストから、複数の特定文字数で
構成される文字連鎖と、サブテキスト中の位置を表す文
字連鎖位置データとが求められる。例えば、図3で3文
字連鎖を求めた場合には、文字連鎖とその位置は・・
・、<あいう,i1〜pt1>,<いうえ,i1〜pt
2>,<うえおi1〜pt3>,・・・,<かきくi2〜p
1’>,<きくけi2〜pt2’>,<くけこi2〜pt
3’>,・・・となる。ここでpt1及びpt1’等は、文
字連鎖の位置を表している。
【0016】次に、文字連鎖抽出処理の動作を図5に従
って説明する。入力S即ち、サブテキストが文字連鎖抽
出部14に入力されると、イニシャルセットOP8が行
われる。即ち文字連鎖の文字数aを“3”にセットし、
入力Sの文字連鎖の先頭を表すポインタiを1にする。
そして、次に文字連鎖抽出の最後であるか否かをステッ
プOP9で判定する。ポインタiは後述する動作で変化
し、文字連鎖の先頭を指示しているので、その指示位置
を含めてa文字分後方でキーワードが連続しているか否
かの判定をステップOP9で行うことになる。そしてサ
ブテキストが10文字(・・・あいうえお・・・。)の
ときには、nは10であるので、i=8まで、i+a−
1>nを満足しない(NO)ので、次にはポインタiが
指示する位置から3文字分のデータをレジスタXに格納
する処理をステップOP10で行う。レジスタXはマト
リックスレジスタであり、j=1〜a即ち1,2,3と
変化して入力S(1)〜S(n)の3文字分をまず記憶
する。i=1のときにはX(1,1)←S(1),X
(1,2)←S(2),X(1,3)←S(3)とな
る。この動作で先頭から3文字分が1個の文字連鎖とし
てレジスタXに記憶される。そして次にポインタiをイ
ンクリメントする動作をステップOP11で行う。即
ち、次の文字をポイントすべき動作を行う。そしてステ
ップOP9で再び判別動作を行う。この繰り返しの動作
によって、次ぎにはX(2,1)←S(2),X(2,
2)←S(3),X(2,3)←S(4)が行われる。
【0017】サブテキストが10文字の場合、ポインタ
iが9を指示したときには、i+a−1=11,n=1
0であるので、i+a−1>nを満足する(YES)よ
うになり、Xをインデックス検索部16に出力する処理
をステップ12で行って全ての動作を終了する。
【0018】以上の動作によってインデックス検索部1
5に文字連鎖とその位置データが格納される。なお、マ
トリックスレジスタX(i,j)におけるiの値がその
文字連鎖の位置を表している。そして文字連鎖インデッ
クス15には図3に示されるように、文字連鎖(・・
・,あいう,いうえ,・・・,きくけ,くけこ,・・
・)のような3文字の文字連鎖と、テキスト中の位置を
表すポインタ(・・・,i 1−pt1,i1−pt2,・・
・i2−pt2’,i2−pt3’,・・・)が記憶され
る。例えば、あいう,いうえ,きくけ,,くけこ、に対
応してi1−pt1,i 1−pt2,i2−pt1’,i2
pt3’が記憶される。なお、文字連鎖インデックス1
5には、3文字連鎖の他に、1文字や2文字連鎖等にも
対応できるように、それらの文字連鎖とポインタも記憶
されている。
【0019】次に、検索処理を図6及び図7に従って説
明する。まずキーワード出力手段からキーワードが文字
連鎖抽出部14において、キーワードから、複数の特定
文字数で構成される文字連鎖と、キーワード中の位置を
表す文字連鎖位置データとが抽出される。例えば、図7
で3文字連鎖を求めた場合には、文字連鎖とその文字連
鎖位置データは、<あいう,1>,<いうえ,2>にな
る。ここで“1”及び“2”は文字連鎖位置データを表
している。また文字連鎖抽出動作は図5と同じ処理が行
われる。文字連鎖と文字連鎖位置データが文字連鎖抽出
部14からインデックス検索部16は、前述した文字連
鎖(あいう,いうえ)を用いて、まず“あいう”と“い
うえ”のテキスト文中の文字連鎖のポインタ列ここでは
P,Qとすると、P,Qを求める。ポインタ列P,Qは一般
的に複数のポインタからなり、ポインタ列Pはp(1)
〜p(l)の集合であり、。またポインタ列Qはq
(1)〜q(m)の集合である。このポインタ列は“あ
いう”と“いうえ”の文字連鎖が存在するテキスト文中
の位置を表しているものであり、“あいうえ”なるキー
ワードがテキスト文中に存在するときには、p(l)−
q(m)=−1を満足するポインタが存在する。このポ
インタの抽出もインデックス検索部16で行われる。
【0020】図8はポインタ抽出の動作を示すフローチ
ャートである。インデックス検索部16が文字連鎖イン
デックス15を検索することにより文字連鎖に対応した
ポインタ列P,Qを求めると、次ぎにはi,j,hをセ
ットする動作がステップOP13で行われる。i,jは
ポインタ列p(1)〜p(l)とq(1)〜q(m)を
それぞれ指定するポインタであり、hは目的とした文字
列即ちキーワードと同一の文字連鎖が存在したときに、
その文字連鎖位置を格納する処理結果レジスタY(h)
を指示をするポインタである。そしてイニシャルセット
動作がステップOP13で行われた後は、ポインタi,
jがそれぞれi>1,j>mの判別がステップOP14
で行われる。l,mはポインタ列P,Qの最終ポインタ
を表しており、ともに満足していないときには、i,j
で指示されるポインタp(i),q(j)がキーワード
中の一連の文字連鎖の条件を満足しているか否かの判定
がステップOP15で行われる。即ち、キーワードから
抽出した文字連鎖位置データaxとbxを用いてポイン
タ列PとQの文字位置の差を、ao←p(i)−ax,
bo←q(j)−bxと修正する。ステップOP16と
OP18で、レジスタaa,boの値が同一であったと
きには、連続する一連の文字連鎖であるから、ステップ
OP20でこのときのaoを処理結果Y(h)に格納
し、Y(h)のポインタhを+1とする。またステップ
16でaoがboより大きいときには、ポインタp
(i)がポインタq(j)より文中の先を指示している
場合であるので、ステップOP17でポインタ列Qのポ
インタjを+1とする。一方、ステップ18でboがa
oより大きいと判定されたときには、ポインタq(j)
がポインタp(i)より文中の先を指示している場合で
あるので、ステップOP19でポインタ列Pのポインタ
iを+1とする。そしてaoとboが一致したときに
は、ポインタp(i)とq(j)は同一の一連の文字連
鎖を指示しているので、それぞれが次のポインタとすべ
きで、ステップOP21でポインタiとポインタjをそ
れぞれ+1とする。このような動作の繰り返しによっ
て、キーワードと同一の文字連鎖の位置が求められ、そ
れぞれの位置データがレジスタYに格納される。
【0021】一方、ステップOP14においてi>1,
j>mの一方が満足したときには、満足したほうのポイ
ンタ列にこれ以上のポインタがないことになるため、処
理結果Yを出力する処理をステップ22で行う。この動
作によってインデックス検索部16の処理が終了するこ
とになる。
【0022】次に、修正処理について述べる。図9は本
発明の修正処理の実施例を示す構成図であり、図10は
その動作を示す動作説明図である。そしてサブテキスト
生成部13は修正対象サブテキスト生成手段を構成して
おり、文字連鎖修正部17は第1,第2修正対象文字列
データ生成手段及びデータ修正手段を構成するようにな
っている。そして修正対象文字列はこれから修正しよう
とする文字列を表しており、修正文字列は修正対象文字
列を書き換える文字列である。なお、挿入処理は修正対
象文字列がなく、削除処理は修正文字列がない場合であ
る。そして修正対象文字列が文字連鎖抽出部14に入力
されると、文字連鎖抽出部14は修正対象文字列から、
複数の特定文字数で構成される文字連鎖と修正対象文字
列中の位置を表す文字連鎖位置データとを求めるように
なっている。例えば図10で、文字連鎖3文字を求めた
場合には、文字連鎖と文字連鎖位置データは<あいう,
1><いうえ,2>になる。
【0023】これらの文字連鎖と文字連鎖位置データが
インデックス検索部16に入力されると、検索処理と同
様に、文字連鎖インデックス15から、修正対象文字列
がテキスト中に存在する場所を表すポインタを求めるた
めの処理が行われる。図10では、i1−pt1,i1−p
t2がポインタである。このポインタを文字連鎖修正部1
7が入力すると、サブテキスト生成部13にサブテキス
ト番号i1が転送される。サブテキスト生成部13は、
テキストファイル12から、このサブテキスト番号i1
に該当するサブテキストを抽出し、文字連鎖修正部17
へ出力する。このとき、該当するサブテキストは、例え
ば(・・・あいうえお・・・。)である。
【0024】文字連鎖修正部17が修正対象サブテキス
トに関するデータを入力すると、これらのデータは文字
連鎖抽出部14へ転送される。文字連鎖抽出部14は、
この修正対象サブテキストのデータから、複数の特定文
字数で構成される文字連鎖と修正対象文字列中の位置を
表す文字連鎖位置データとを求め、これらのデータを文
字連鎖修正部17へ転送する。例えば、図10で、文字
連鎖3文字を求めた場合には、文字連鎖と文字連鎖位置
データは・・・<あいう,i1−pt1>,<いうえi1
t2>,・・・になる。そして文字連鎖修正部17は、
この修正前の文字連鎖と文字連鎖位置データを基に、文
字連鎖インデックス15に記憶されている修正前の文字
連鎖と文字連鎖位置データを削除する。
【0025】次に、文字連鎖修正部17は、先ほどイン
デックス検索部16から入力した修正対象文字列のポイ
ンタi1−pt1とi1−pt2を用いて、この修正対象サブ
テキストから修正対象文字列を削除する。そして、別途
入力する修正文字列を修正対象文字列のポインタ位置に
挿入して修正サブテキストを作成し、作成した修正サブ
テキストを文字連鎖抽出部14へ転送する。例えば、図
10では、修正文字列はabcであるから、修正サブテ
キストは(・・・abcお・・・)になる。そして文字
連鎖抽出部14は、この修正サブテキストから、特定の
文字数で構成される文字連鎖と修正サブテキスト中の位
置を表す文字連鎖位置データとを求める。例えば、図1
0で文字連鎖3文字を求めたときには、文字連鎖とその
位置データは・・・,<abc,i1−pt1>,<bc
お,i1−pt2>,・・・になる。次に文字連鎖修正部
17が文字連鎖抽出部14から修正サブテキストの文字
連鎖と文字連鎖位置データを入力すると、文字連鎖イン
デックス15の修正文字連鎖に対応するポインタ列に、
修正文字連鎖位置データが格納され、ポインタ列中で昇
順配列にソートされ、修正された文字連鎖インデックス
が作成される。
【0026】図11は、本発明の修正処理における修正
対象サブテキスト抽出の動作を示すフローチャートであ
る。図11において、テキストファイル12からテキス
トのデータが入力されると、まずステップOP23でイ
ニシャルセットが行われる。即ちサブテキスト番号cn
tを“1”に、テキストの先頭からの文字位置iを
“1”に、サブテキスト終端文字列をp1〜pkに、p1
〜pkを検出するまでの処理回数jを“0”に、文字連
鎖修正部17から入力した抽出サブテキスト番号Iをセ
ットする。そして、テキストから取り出したk文字(k
はpkのKに同じ)の文字列とサブテキスト終端文字列
1〜pkが一致するか否かの判定をOP24で行う。こ
のステップで一致しないと判定されたときには、ステッ
プOP25で、テキストとサブテキスト終端文字列p1
〜pkとの文字列照合が終了したか否かの判定を行う。
この処理で継続と判定されたときには、ステップOP2
6で文字位置iと照合回数jを+1とする。さらにステ
ップOP42以降の処理を繰り返し、テキストの終わり
まで、テキストから取り出すk文字の文字列とサブテキ
スト終端文字列p1〜pkが一致するか否かの判定が行わ
れる。
【0027】ステップOP24でテキストから取り出し
たk文字の文字列とサブテキスト終端文字列p1〜pk
が一致したときには、ステップOP27で、このサブテ
キストの番号が抽出サブテキスト番号Iに一致するか否
かの判定が行われる。このステップで一致しないと判定
されたときには、次のサブテキストを探索するため、ス
テップOP28で、サブテキスト番号cntを+1し、
照合回数jを“−1”にする。ステップOP25で、テ
キストとサブテキスト終端文字列p1〜pkとの文字列照
合が終了するか否かの判定を行う。さらにステップOP
24以降の処理を繰り返し、テキストの終わりまで文字
列の照合を行う。
【0028】ステップOP27で、このサブテキストの
番号cntが抽出されるテキスト番号Iに一致したとき
には、ステップOP29で、一致したサブテキスト“C
i-j〜Ci+k-1”を出力し、修正対象サブテキストの抽出
を終了する。なおステップOP25でテキストとサブテ
キスト終端文字列p1〜pkとの文字列照合が終了したと
きには、ステップOP30で、エラーメッセージ“該当
なし”を出力し、このルーチンでの処理を終了する。
【0029】本実施例においては、サブテキスト終端文
字列を句点「。」とし、1個の文ごとにサブテキストを
構成したが、句点+スペースをサブテキスト終端文字列
とすると、1個の段落ごとにサブテキストを構成するこ
ともできる。さらに、登録テキストに、例えば利用単位
を考慮して利用単位区切り文字列を挿入し、1利用単位
ごとにサブテキストを構成することもできる。さらに、
登録テキストに、例えば利用単位を考慮して利用単位区
切り文字列を挿入し、位置利用単位ごとにサブテキスト
を構成することもできる。
【0030】また、上記実施例においては、文字連鎖イ
ンデックスの文字数を3文字以下とした場合について述
べたが、4文字以上の文字連鎖でも前記実施例と同様な
処理で検索ができる。また検索時に、文字連鎖の重なり
具合が最小となるように、文字連鎖をキーワードから抽
出することもできる。例えば、キーワードが“あいうえ
お”の場合、文字連鎖を“あいう”と“うえお”とする
ことも可能である。
【0031】さらに、本発明は、文字連鎖に限らず、一
般的なデータに対しても同様に行うことができる。
【0032】
【発明の効果】本発明によれば、上記実施例から明らか
なように、予め設定したサブテキスト終端文字列でテキ
ストを複数のサブテキストに分割し、各サブテキストご
とに文字位置を管理することにより、テキストの修正・
挿入・削除時には、修正・挿入・削除箇所以降の文字位
置の変更をサブテキスト内に留めるようにしたため、テ
キストの修正・挿入・削除の短縮化が可能となる。また
同一文あるいは同一段落に、全キーワードが存在するこ
とが求められる近接演算検索処理の場合には、全キーワ
ードから求められるポインタのサブテキスト番号が全て
一致するかを確認するだけてよく、近接演算検索処理の
高速化にも寄与することができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す全体構成図
【図2】本発明の登録処理例を示す構成図
【図3】本発明の登録処理例の動作を説明するための動
作説明図
【図4】サブテキスト分割処理を説明するためのフロー
チャート
【図5】文字連鎖抽出の動作を説明するためのフローチ
ャート
【図6】本発明の検索処理を示す構成図
【図7】本発明の検索処理の動作を説明するための動作
説明図
【図8】ポインタ抽出の動作を説明するためのフローチ
ャート
【図9】本発明の修正処理例を示す構成図
【図10】本発明の修正処理例の動作を説明するための
動作説明図
【図11】修正対象サブテキストの抽出動作を説明する
ためのフローチャート
【図12】従来例の構成図
【図13】他の従来例の構成図
【符号の説明】
12 テキストファイル 13 サブテキスト生成部 14 文字連鎖抽出部 15 文字連鎖インデックス 16 インデックス検索部 17 文字連鎖修正部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数の文字等で構成されている文字列の
    データをその位置データとともに記憶するテキストファ
    イルと、テキストファイルのデータを特定文字または特
    定文字列のデータ毎に分割して複数のサブテキストを生
    成するサブテキスト生成手段と、サブテキスト生成手段
    の生成による各サブテキストから複数の特定文字数で構
    成される文字連鎖とこの文字連鎖のサブテキスト中の位
    置を示す文字連鎖位置とに関するデータを抽出する第1
    文字連鎖抽出手段と、第1文字連鎖抽出手段の抽出によ
    る文字連鎖の文字連鎖位置データをテキスト中の位置デ
    ータに変換する位置データ変換手段と、位置データ変換
    手段により位置データの変換された文字連鎖データをテ
    キスト中の位置に対応づけて記憶する文字連鎖記憶手段
    と、指定の文字連鎖とこの文字連鎖のテキスト中の位置
    に関するデータを含むキーワードを出力するキーワード
    出力手段と、キーワード出力手段の出力によるキーワー
    ドから複数の特定文字数で構成される文字連鎖とその文
    字連鎖位置に関するデータを抽出する第2文字連鎖抽出
    手段と、文字連鎖記憶手段を検索して第2文字列連鎖手
    段の抽出による文字連鎖と同一の文字連鎖をその位置デ
    ータとともに抽出するインデックス検索手段とを備えて
    いる情報処理検索装置。
  2. 【請求項2】 複数の文字等で構成される文字列のデー
    タをその位置データとともに記憶するテキストファイル
    と、テキストファイルのデータを特定文字または特定文
    字列のデータ毎に分割して複数の修正対象サブテキスト
    を生成する修正対象サブテキスト生成手段と、修正対象
    サブテキスト生成手段の生成による各修正対象サブテキ
    ストから複数の特定文字数で構成される文字連鎖とこの
    文字連鎖の修正対象サブテキスト中の位置を示す文字連
    鎖位置とに関するデータを抽出する文字連鎖抽出手段
    と、文字連鎖抽出手段の抽出による文字連鎖の文字連鎖
    位置データをサブテキスト中の位置データに変換する位
    置データ変換手段と、位置データ変換手段により位置デ
    ータの変換された文字連鎖データをサブテキスト中の位
    置に対応づけて記憶する文字連鎖記憶手段と、指定の文
    字連鎖とこの文字連鎖のサブテキスト中の位置に関する
    データを含む修正対象文字列を指定する修正対象文字列
    指定手段と、修正対象文字列指定手段の指定による修正
    対象文字列の文字連鎖とその文字連鎖の位置に関するデ
    ータを生成する第1修正対象文字列データ生成手段と、
    修正対象文字列データ生成手段の生成によるデータに従
    って文字連鎖記憶手段を検索して修正対象文字列のテキ
    スト中の位置データを抽出する位置データ抽出手段と、
    位置データ抽出手段の抽出によるデータを基に修正対象
    サブテキスト生成手段から指定の修正対象サブテキスト
    を抽出する修正対象サブテキスト抽出手段と、修正対象
    サブテキスト抽出手段の抽出による修正対象サブテキス
    トから複数の特定文字数で構成された文字連鎖と修正対
    象文字列中の位置を示す文字連鎖位置に関するデータを
    生成する第2修正対象文字列データ生成手段と、文字列
    の修正を指令する文字列修正指令手段と、文字列修正指
    令手段の指令による修正文字列に従って修正対象サブテ
    キストの文字列を修正する修正対象サブテキスト修正手
    段と、修正対象サブテキスト修正手段の修正による修正
    サブテキストから修正された文字連鎖と修正された文字
    連鎖位置に関するデータを生成する修正サブテキスト生
    成手段と、修正サブテキスト生成手段の生成によるデー
    タに従って文字連鎖記憶手段の指定のデータを修正する
    データ修正手段とを備えている情報検索処理装置。
JP20335192A 1992-07-30 1992-07-30 情報検索処理装置 Expired - Fee Related JP3260428B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20335192A JP3260428B2 (ja) 1992-07-30 1992-07-30 情報検索処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20335192A JP3260428B2 (ja) 1992-07-30 1992-07-30 情報検索処理装置

Publications (2)

Publication Number Publication Date
JPH0652222A true JPH0652222A (ja) 1994-02-25
JP3260428B2 JP3260428B2 (ja) 2002-02-25

Family

ID=16472595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20335192A Expired - Fee Related JP3260428B2 (ja) 1992-07-30 1992-07-30 情報検索処理装置

Country Status (1)

Country Link
JP (1) JP3260428B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3805234A1 (de) * 1988-02-19 1989-08-31 Shima Seiki Mfg Verfahren zum verhindern des auftrennens der abschlusskante eines gestricks oder gewirks
JPH08221443A (ja) * 1995-02-17 1996-08-30 Fujitsu Ltd 漢字を含むテキストの検索方法及び装置
US6714927B1 (en) 1999-08-17 2004-03-30 Ricoh Company, Ltd. Apparatus for retrieving documents
JP2005002132A (ja) * 1996-09-30 2005-01-06 Otsuka Pharmaceut Co Ltd サイトカイン産生抑制剤及び接着抑制剤
JP2005011078A (ja) * 2003-06-19 2005-01-13 Patolis Corp 類似単語検索装置、この方法、このプログラム、このプログラムを記録した記録媒体、および情報検索システム
JP2006083192A (ja) * 1996-09-30 2006-03-30 Otsuka Pharmaceut Co Ltd サイトカイン異常産生又は接着作用の亢進に伴う疾患を予防又は治療するための薬剤

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02190971A (ja) * 1989-01-20 1990-07-26 Nec Corp 索引更新方式
JPH04205560A (ja) * 1990-11-30 1992-07-27 Teremateiiku Kokusai Kenkyusho:Kk 情報検索処理方式および検索ファイル作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02190971A (ja) * 1989-01-20 1990-07-26 Nec Corp 索引更新方式
JPH04205560A (ja) * 1990-11-30 1992-07-27 Teremateiiku Kokusai Kenkyusho:Kk 情報検索処理方式および検索ファイル作成装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3805234A1 (de) * 1988-02-19 1989-08-31 Shima Seiki Mfg Verfahren zum verhindern des auftrennens der abschlusskante eines gestricks oder gewirks
JPH08221443A (ja) * 1995-02-17 1996-08-30 Fujitsu Ltd 漢字を含むテキストの検索方法及び装置
JP2005002132A (ja) * 1996-09-30 2005-01-06 Otsuka Pharmaceut Co Ltd サイトカイン産生抑制剤及び接着抑制剤
JP2006083192A (ja) * 1996-09-30 2006-03-30 Otsuka Pharmaceut Co Ltd サイトカイン異常産生又は接着作用の亢進に伴う疾患を予防又は治療するための薬剤
US6714927B1 (en) 1999-08-17 2004-03-30 Ricoh Company, Ltd. Apparatus for retrieving documents
US7188104B2 (en) 1999-08-17 2007-03-06 Ricoh Company, Ltd. Apparatus for retrieving documents
JP2005011078A (ja) * 2003-06-19 2005-01-13 Patolis Corp 類似単語検索装置、この方法、このプログラム、このプログラムを記録した記録媒体、および情報検索システム

Also Published As

Publication number Publication date
JP3260428B2 (ja) 2002-02-25

Similar Documents

Publication Publication Date Title
Blumer et al. Complete inverted files for efficient text retrieval and analysis
JP3672242B2 (ja) パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体
JP3152868B2 (ja) 検索装置および辞書/テキスト検索方法
JP4459443B2 (ja) 中国語テキストにおける単語分割
WO2000063783A1 (en) Method and system for generating structured data from semi-structured data sources
JPH09134369A (ja) ラティスをキーとした検索を行う辞書検索装置および方法
JPH09198398A (ja) パターン検索装置
US5553284A (en) Method for indexing and searching handwritten documents in a database
JP4114600B2 (ja) 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム
Navarro et al. On stricter reachable repetitiveness measures
JP3260428B2 (ja) 情報検索処理装置
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
JPH0869476A (ja) 検索システム
KR20170107808A (ko) 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
EP0878766A2 (en) Method for converting formatted documents to ordered word lists
Oflazer Error-tolerant retrieval of trees
JP6347023B1 (ja) コード自動記述2ソフトウェアを記録した記録媒体
CN115244539B (zh) 单词或词段词元化的推断方法
JP2000259629A (ja) 形態素解析方法およびその装置
JP6318327B1 (ja) コード自動記述ソフトウェアを記録した記録媒体
JP3062119B2 (ja) 文字列探索用テーブル、その作成方法及び文字列探索方法
JP4183767B2 (ja) 文字列検索装置およびその検索方法
JP2729342B2 (ja) 仮名漢字変換方法および装置
JPH11161666A (ja) ドキュメントデータ検索方法および装置、並びにドキュメント編集装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071214

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081214

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091214

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091214

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees