CN1162154A - 数据搜索装置 - Google Patents

数据搜索装置 Download PDF

Info

Publication number
CN1162154A
CN1162154A CN97102618A CN97102618A CN1162154A CN 1162154 A CN1162154 A CN 1162154A CN 97102618 A CN97102618 A CN 97102618A CN 97102618 A CN97102618 A CN 97102618A CN 1162154 A CN1162154 A CN 1162154A
Authority
CN
China
Prior art keywords
data
index file
record
recording mechanism
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97102618A
Other languages
English (en)
Other versions
CN1094218C (zh
Inventor
木下哲也
小山隆正
菊池忠一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1162154A publication Critical patent/CN1162154A/zh
Application granted granted Critical
Publication of CN1094218C publication Critical patent/CN1094218C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

揭示了一种数据搜索装置,该装置包括:请求接收部分,接收搜索请求和登记请求;记录号提供部分,把记录号数据提供给每个记录;相对编号部分,把记录号数据分组及转换成组号数据和相对记录号数据;索引文件产生部分,产生索引文件;索引文件存储部分,存储索引文件;索引文件搜索部分,搜索由搜索数据指出的记录;绝对编号部分,把被搜索记录的相对号数据和组号数据转换成记录号数据;以及搜索结果输出部分,依据记录号数据输出搜索结果。

Description

数据搜索装置
本发明涉及一种响应于请求提供数据搜索用数据的数据搜索装置。
公知一种数据搜索装置,用于把将登记入数据库的文件分成记录,对这些记录进行编号,并存储记录号数据,以处理被登记的文件,其中每个记录是存储在数据库中用于登记和搜索的一个数据单元。
这种常规的数据搜索装置在预定存储区中存储记录号和字符出现数据。图17是已有技术数据搜索装置所使用的索引文件的数据格式的示意图。
在图17中,用作索引文件的三十二位的预定存储区存储二十位的记录号数据和十二位的字符出现数据。因此,存在的问题是索引文件此种格式只对1048576(220)个记录提供处理。此外,在已有技术中,存在的问题是如果记录的数目增加,则应增加索引文件的大小(位)。
此外,在已有技术的数据搜索装置中,必须提供表示文件号、页号和记录号之间对应性的对应性表格。因此,存在的问题是必须增加对应性表格,且如果更新文件引起页数增加,则必须对对应表进行排序(sort)。
本发明的目的是提供一种改进的数据搜索装置。
依据本发明,提供了第一数据搜索装置,它包括:输入部分,用于接收包括搜索请求数据和登记请求的搜索请求;响应于来自输入部分的登记请求的分段部分,用于依据包含在数据中的分段数据把要登记入记录单元的数据进行分段;编号部分,用于对记录进行分组和编号从而把每个预定数目的记录分成一组,并从被编号和分组的记录中产生组号数据和相对记录号数据;存储部分,用于相应地存储组号数据和相对记录号数据;以及搜索数据产生部分,用于依据来自输入部分的搜索请求数据以及存储部分中的组号数据和相对记录号数据,产生和输出将用于搜索一个记录的搜索数据。
依据本发明,提供了第二数据搜索装置,它包括:请求接收部分,用于接收包括搜索数据和登记请求的搜索请求;响应于登记请求的记录号提供部分,用于把记录号数据提供给每个记录,每个记录是将登记的一个数据单元;相对编号部分,用于把记录号数据组分组,并把记录号数据转换成组号数据和每个组中相对记录号数据;索引文件产生部分,用于从数据和相对记录号数据中产生索引文件;索引文件存储部分,用于存储索引文件;索引文件搜索部分,用于响应于来自请求接收部分的搜索请求,依据索引文件存储部分中的索引文件,搜索由搜索数据所指出的一个记录;绝对编号部分,用于把被搜索一个记录的相对号数据和组号数据转换成记录号数据;以及搜索结果输出部分,用于依据来自绝对编号部分的记录号数据输出搜索结果。
第二数据搜索装置还可包括插入区产生部分,用于在索引文件存储部分中提供存储空间,以在今后索引文件存储部分存储索引文件时把索引数据存入索引文件存储部分。
在第二数据搜索装置中,记录号提供部分产生表示包含在数据中的记录号数据和分段数据之间对应性的记录号对应性表格,搜索结果输出部分依据记录号对应性表格从来自绝对编号部分的记录号数据中输出搜索结果。
在第二数据搜索装置中,索引文件产生部分产生索引文件,它包括至少一个用于存储每个组号数据的标题,以及接在标题后用于存储相对记录号和相应记录数据的索引数据区,此标题和每个索引数据区具有相同的大小。
依据本发明,提供了第三数据搜索装置,它包括:请求接收部分,用于接收搜索请求和登记请求;响应于登记请求的记录号提供部分,用于依据包含在数据中的分段数据,通过唯一确定记录号数据的法则,把记录号提供给每个记录,此每个记录是将要登记的一个数据单元;相对编号部分,用于对记录分组从而记录号和至少一个备用记录构成一组,并从被分组的记录号产生组号数据和相应的相对号数据;索引文件产生部分,用于使用相对记录号数据和组号数据从数据中产生索引文件;索引文件存储部分,用于存储索引文件;索引文件搜索部分,响应于来自请求接收部分的搜索请求,依据索引文件存储部分中的索引文件,搜索由搜索请求所指出的一个记录;绝对编号部分,用于把被搜索的一个记录的相对号数据和组号数据转换成记录号数据;以及搜索结果输出部分,用于依据来自绝对编号部分的记录号数据输出搜索结果。
第三数据搜索装置还可包括插入区产生部分,用于在索引存储部分中提供一存储空间,以在今后索引文件存储部分存储索引文件时把索引文件存入索引文件存储部分。
从以下结合附图的详细描述可使本发明的目的和特征变得明显起来,其中:
图1是本发明第一实施例数据搜索装置的方框图,该图也用于本发明的第三实施例;
图2示出第一实施例的流程图,在第二和第三实施例中也参考该图;
图3是示出第一实施例的被记录文件一个示例情况的示意图;
图4是示出第一实施例的对应性表格一个示例情况的示意图;
图5是示出第一实施例的绝对记录号和相对记录号之间关系的示意图;
图6是示出第一实施例的索引文件的示意图;
图7A是示出第一实施例的字符串和出现次数之间关系的示意图;
图7B是示出包括两个预定字符的字符串和出现次数数据之间关系的示意图;
图8是此实施例示出索引文件的示意图;
图9和10示出第一实施例的搜索处理的流程图;
图11是第二实施例的数据搜索装置的方框图;
图12示出第二实施例的文件登记操作的流程图;
图13是示出第二实施例的文件记录号的示意图;
图14示出第三实施例的索引文件产生处理的流程图;
图15是示出第三实施例的索引文件的示意图;
图16是示出第三实施例的用于产生索引文件的数据的示意图;以及
图17是已有技术数据搜索装置所使用的索引文件的数据格式的示意图。
在所有的附图中用相同的标号表示相同或相应的元件或部分。
以下将描述本发明的第一实施例。
图1是本发明第一实施例数据搜索装置的方框图,在第三实施例中也参考该图。
此数据搜索装置包括:请求接收部分1,用于接收各种处理用的请求;记录号提供部分2,用于把记录号(数据)分配给将被登记的文件,并产生代表文件号、页号和记录号之间对应性的记录号对应性表格;记录号对应性表格存储部分3,用于存储记录号提供部分2产生的记录号对应性表格;相对编号部分4,用于把记录号提供部分2提供的记录号(数据)分组,并在一个组中把该记录号转换成相对号码;索引文件产生部分5,用于从相对编号部分4提供的相对数目和被登记的数据产生索引文件;索引文件存储部分6,用于存储索引文件产生部分5产生的索引文件;索引文件搜索部分7,用于使用索引文件存储部分6中的索引文件进行搜索;绝对编号部分8,用于把索引文件搜索部分7搜索的相对记录号转换成绝对记录号;文件号转换部分9,用于使用记录号对应性表格存储部分3中的记录号对应性表格,把绝对编号部分8提供的记录号转换成文件号和页号;搜索结果输出部分10,用于显示被搜索的文件号;以及插入区产生部分11,用于在索引文件产生部分5把索引文件存入索引文件存储部分6之前提供用于存储附加数据的数据区。在第一实施例中,不使用插入区产生部分11。
将描述第一实施例的操作。图2示出第一实施例的流程图,在第二和第三实施例中也参考该图。图3是示出此实施例的被记录文件的一个示例情况的示意图。图4是示出此实施例的对应性表格的一个示例情况的示意图。
包含在此数据搜索装置中的cpu(它是包含在数据搜索装置中的一个中央处理单元,但未示出)执行图2中流程图所示的程序。
当用户登记一个文件时,请求接收部分1接收到文件登记请求,而记录号提供部分2响应于此请求把记录号提供给每个记录,此每个记录是将在步骤s1中登记的一个数据单元。即,将被登记的数据即文件包括一些页,而把每页作为提供了一记录号的一个记录。
例如,如果如图3所示登记文件,则向文件D1的第一页提供记录号1;向文件D1的第二页提供记录号2;以及向文件D2的第一页提供记录号3。
cpu产生用于记录号对应性表格的表格数据,此表格代表记录号、文件号和页号之间的关系。cpu在步骤s2中使用表格数据更新记录号对应性表格,并把已更新的记录号对应性表格存入对应性表格存储部分3。当登记了如图3所示的文件时,记录号对应性表格的数据情况如图4所示。
cpu在步骤s3把记录分组。假定把65536个记录分成一组,则给出组号如下:
组号=<记录号/65536>
这里<>代表商,即组数是一个通过略去记录号/65536的小数部分而提供的整数。
在接着的步骤s4中,给出组中的相对记录号如下:
相对记录号=记录号%65536
这里算符%代表余数。
如示出本实施例绝对记录号和相对号之间关系的图5所示,绝对记录号被转换成相对号。例如,绝对记录号65537被转换成第一组中的相对记录号1,绝对记录号13072被转换成第二组中的相对记录号0。
然后,cpu在步骤s5中产生索引文件。图6是示出本实施例索引文件的示意图。索引文件包括在一包含两个字符的字符串中两个字符出现次数数据。
图7A是示出第一实施例字符串和出现次数之间关系的示意图。
图7B是示出包括两个预定字符的字符串和出现次数数据之间关系的示意图。
假定被登记的数据是“abaabcac”,则各个字符的出现次数如图7A所示。然后,划分被登记的数据,从而以重叠方式从被登记数据顶部连续提供字符链。即,在每隔两个字符把字符串分段,其中每隔一个字符转移分段点。于是,第一字符链是(a,b),其出现次数数据是(1,1)。接着的字符链是(b,a),出现次数数据是(1,2)。类似地,cpu获得所有字符链的出现次数数据。
图8是示出此实施例索引文件的示意图。假定在组1中以记录号1中登记的数据是“ababcbcababc”,在组1中以记录号2中登记的数据是“bbaabbcabc”,在组2中以记录号1中登记的数据是“bcababcbc”,在组2的记录号2中登记的数据是“acbcabbaabc”。cpu依据图8所示的字符链(a,b)和(b,c)计算出现次数。
cpu反复执行步骤s1到s7,以产生所述索引文件直到处理了最后一个记录,以提供索引文件。即,cpu确定是否在步骤s6处理了最后一个记录。如果此记录是最后一个,则处理结束。如果记录不是最后一个,则处理返回步骤s1。
将描述搜索处理。
图9和10示出本实施例搜索处理的流程图。
当用户输入包括将被搜索的字符串(搜索字符串)数据的搜索请求时,接收部分1接收搜索请求,并把搜索字符串数据提供给索引文件搜索部分7。索引文件搜索部分7把字符串划分成多个字符链。
如果搜索字符串是“abc”,则索引文件搜索部分7在步骤s11把它划分成字符链(a,b)和(b,c)。在步骤s12中,索引文件搜索部分7从索引文件存储部分6中各个信息顶部位置处字符链(a,b)和字符链(b,c)的出现次数数据文件中获得字符链(a,b)和(b,c)的顶部出现次数数据。由索引文件的指针提供位置。
在图8的情况中,在组1的记录号1处,字符链(a,b)的出现次数数据是(1,1),字符链(b,c)的出现次数数据是(2,1)。因此,索引文件搜索部分7从索引文件存储部分6获得字符链(a,b)的出现次数数据(1,1),以及字符链(b,c)的出现次数数据(2,1)。
然后,在步骤s13,索引文件搜索部分7比较索引文件存储部分6中获得的字符链(a,b)和(b,c)的出现次数数据的组号。如果获得的出现次数数据不相同,则索引文件搜索部分7把位于具有较小组号的组中任一个字符链(a,b)和(b,c)的索引文件的指针加到下一组中出现次数数据的顶部,并重复步骤s13和s14。如果获得的字符链(a,b)和(b,c)的出现次数数据的组号相同,则索引文件搜索部分7在步骤s15中比较获得的出现次数数据的记录号。
在图8的情况中,因为两者的组号是1,所以索引文件搜索部分7比较记录号。
如果同一组中的相对记录号不同,则索引文件搜索部分7在步骤s16确定获得的出现次数数据是否是组中最后一个数据。如果获得的出现次数数据不是组中的最后一个数据,则索引文件搜索部分7在步骤s17获得组中具有较小记录号的下一个出现次数数据。索引文件搜索部分7重复从步骤s15到s17的处理。如果获得的出现次数数据是组中的最后一个数据,则索引文件搜索部分7在步骤s18获得位于下一组顶部的出现次数数据,并重复从步骤s13到步骤s18的处理。如果该组中的记录号相同,则索引文件搜索部分7在步骤s19比较出现次数数据。
在图8的情况下,因为组中的两个记录号都是1,则索引文件搜索部分7比较出现次数数据。
索引文件搜索部分7比较出现次数数据如下:
把字符链(a,b)中字符“b”的出现次数与字符链(b,c)中字符“b”的出现次数相比。如果两个出现次数数据彼此相同,则字符链(a,b)中的字符“b”与字符链(b,c)中的字符“b”是相同字符。这意味着这两个字符链是一连续的字符串,即,有字符串“abc”。
如果出现次数互不相同,则索引文件搜索部分7在步骤s10中获得接在具有较小出现次数数据的字符链后面的字符链的次数数据,并从步骤s5重复处理。
在图8的情况中,因为(a,b)的出现次数数据是(1,1),而(b,c)的出现次数数据是(2,1),因此字符链(a,b)的第二个字符(b)的出现次数数据与字符链(b,c)第一个字符(b)的出现次数数据不相同(COM1),索引文件搜索部分7在字符链(a,b)具有较小的出现次数值后,获得同一组中的记录号1的出现次数数据(2,2)。
然后,因为出现次数数据处于同一记录号和同一组中,所以索引文件搜索部分7比较这两个出现次数数据(COM2)。因为这两个出现次数数据都是2,所以搜索到字符串“abc”。
当出现次数数据相同时,即,如果有要被搜索的字符串时,则在步骤s11中用以下公式从组号和记录号中计算记录号。
记录号=65536*组号+组中的记录号
然后,在步骤s12中,索引文件搜索部分7使用图4所示存储在记录号对应性表格存储部分3中的对应性表格,从记录号中获得文件号和页号。
在接着的步骤s13中,索引文件搜索部分7输出在步骤s12中获得的文件号和页号作为将要搜索的文件号。重复此处理,直到处理了最后一个数据。
索引文件产生部分5产生索引文件,它包括至少一个用于存储每个组号数据的标题60,以及接在标题60后用于存储相对记录号数据以及相应的索引数据的索引数据区62。标题60和每个索引数据区具有相同的大小。
如上所述,在此实施例的数据搜索装置中,当登记文件时,把记录号分配给每一页,把记录号分组并转换成将被控制的相对记录号,从而每一组可重复使用同一范围内的记录号。
在此实施例中,由包括两个字符的字符链的出现次数数据提供索引文件。然而,对于索引文件也可使用代表字符串出现的其它数据,诸如字符串的绝对位置数据。此外,在此实施例中,每一页提供登记的一个记录。然而,也可在每个预定部分提供一个记录,诸如被句号(period)等分段数据分段的每个文件、每个句子或每个段落。
将描述第二实施例。
图11是第二实施例数据搜索装置的方框图。
第二实施例的数据搜索装置包括请求接收部分12,可接收用于各种处理的请求;记录号提供部分13,用于依据从文件号和页号中唯一确定记录号的法则提供记录号;相对编号部分14,用于对由记录号提供部分13提供的记录号进行分组;索引文件产生部分15,用于产生索引文件,它包括被相对编号部分14转换的相对记录号和将被登记的数据;索引文件存储部分16,用于存储索引文件产生部分15产生的索引文件;索引文件搜索部分17,用于使用存储在索引文件存储部分16中的索引文件进行数据搜索;绝对编号部分18,用于把索引文件搜索部分17搜索的记录的相对记录号转换成绝对记录号;文件号转换部分19,用于通过记录号提供部分13进行的逆变换从记录号中提供文件号和页号;以及搜索结果输出部分20,用于输出文件号作为搜索结果。
首先,将描述登记文件的操作。图12是示出第二实施例的文件登记操作的流程图。图13是示出第二实施例的文件记录号的示意图。
当用户对请求接收部分12输入登记请求时,请求接收部分12接收此登记请求。然后,记录编号部分13用从文件号和页号唯一确定记录号的法则提供记录号。从以下公式计算此记录号。
记录号=(文件号-1)*文件中的最大页数+页号
这里通过把一文件中的页数设定为如图13所示的预定数目可唯一地确定记录号。
在此处理后的登记文件的处理类似于图2所示的从步骤s3到s8的处理。
基本上通过图9和10所示的处理进行搜索操作。然而,通过以下公式在步骤12中从记录号计算文件号和页号。
文件号P=记录号/文件的最大页数+1
页号=记录号%文件的最大页数
如上所述,在第二实施例的数据搜索装置中,可通过将记录号分组和用相对记录号进行控制来控制大量记录号,从而可通过从一文件的最大页数和页号唯一确定记录号的法则分配页号。因此,不必产生第一实施例中所需的对应性表格。此外,如果由于更新文件使页数增加,也可在预定的最多页内对记录号进行规则地编号。
此外,如果某一至记录号的其它转换能从文件号和页号唯一确定记录号,则它也可应用于此实施例,诸如:
记录号=文件的最大数目*(页数-1)+文件号
将描述第三实施例。
第三实施例的结构和操作类似于第一实施例。第一和第三实施例的不同之处在于还提供了插入区产生部分11。插入区产生部分11在索引文件产生部分5把索引文件存入索引文件存储部分6时产生插入区,并把出现次数数据存入插入区中。
类似于图2所示从步骤s1到s4的处理进行文件的登记操作。
图14示出第三实施例索引文件产生处理的流程图。
在步骤s41中,类似于第一实施例索引文件产生部分那样产生包括两个字符的字符链出现次数数据。索引文件产生部分5在步骤s42中确定是否有用于存储出现次数数据的插入区。如果没有用于存储出现次数数据的插入区,则插入区产生部分11在步骤s43产生预定大小的存储区。如果在步骤s42中有用于存储出现次数数据的插入区,则索引文件产生部分5在步骤s44把出现次数数据存入插入区。
图15是示出第三实施例的索引文件的示意图。图16是示出第三实施例的用于产生索引文件的数据的示意图。
假定组1中具有记录号1的句子为“ababcbcababc”,在组1中具有记录号2的句子为“bbaabbcabc”,在组2中具有记录号1的句子为“bcababcbc”,以及在组2中具有记录号2的句子为“acbcabbaabc”。然后,类似于第一实施例,索引文件产生部分5产生代表字符链(a,b)出现次数数据的索引文件,如图16所示还在每一组中插入具有预定大小的插入区。
把出现次数数据加到索引文件的情况是再登记文件,并更新已登记的文件,于是应更新出现次数数据。
在此处理后,类似于图2所示第一实施例步骤s6到s7的处理进行数据登记处理,以完成数据登记处理。
类似于图9和10所示的处理进行搜索操作。
如上所述,在第三实施例的数据搜索装置中,因为产生具有预定大小的插入区。因此,如果更新被登记的文件或再登记新文件,则可把出现次数数据加入插入区,从而可防止由于插入数据而引起的登记速度的降低。
在此实施例中,由相对编号提供记录号。然而,也可用未被相对编号的一般记录号控制记录号。

Claims (7)

1.一种数据搜索装置,其特征在于包括:
输入装置,用于接收包括搜索请求数据的搜索请求和登记请求;
分段装置,用于响应于来自所述输入装置的所述登记请求依据包含在所述数据中的分段数据把将被登记的数据划分成记录单元;
编号装置,用于对所述记录进行分组和编号从而把每个预定数目的所述记录分成一组,并用于从被编号和分组的记录中产生组号数据和相对记录号数据;
存储装置,用于相应地存储所述组号数据和所述相对记录号数据;以及
搜索数据产生装置,用于依据来自所述输入装置的所述搜索请求数据以及所述存储装置中的所述组数据和相对记录号数据产生和输出将被用于搜索一个所述记录的搜索数据。
2.一种数据搜索装置,其特征在于包括:
请求接收装置,用于接收包括搜索数据的搜索请求和登记请求;
记录号提供装置,用于响应于所述登记请求把记录号数据提供给每个记录,所述每个记录是将被登记的一个数据单元;
相对编号装置,用于把所述记录号数据分组,并把所述记录号数据转换成组号数据和每个所述组内的相对记录号数据;
索引文件产生装置,用于从所述数据和所述相对记录号数据产生索引文件;
索引文件存储装置,用于存储所述索引文件;
索引文件搜索装置,用于响应于来自所述请求接收装置的所述搜索请求,依据所述索引文件存储装置中的所述索引文件,搜索由所述搜索数据所指出的一个记录;
绝对编号装置,用于把所述被搜索的一个记录的相对号数据和组号数据转换成所述记录号数据;以及
搜索结果输出装置,用于依据来自所述绝对编号装置的记录号数据输出搜索结果。
3.如权利要求2所述的数据搜索装置,其特征在于所述记录号提供装置产生表示所述记录号数据与包含在所述数据中的分段数据之间对应性的记录号对应性表格,所述搜索结果输出装置依据所述记录号对应性表格输出来自绝对编号装置的所述记录号数据的所述搜索结果。
4.如权利要求2所述的数据搜索装置,其特征在于所述索引文件产生装置产生所述索引文件,所述索引文件包括至少一个用于存储每个所述组号数据的标题,以及接在所述标题后用于存储相对记录号数据和相应的所述索引数据的所述索引数据区,所述标题和每个所述索引数据区具有相同的大小。
5.一种数据搜索装置,其特征在于包括:
请求接收装置,用于接收搜索请求和登记请求;
记录号提供装置,用于响应于所述登记请求依据包含在数据中的分段数据,通过唯一确定所述记录号数据的法则,把所述记录号数据提供给每个记录,所述每个记录是将被登记的所述数据的一个单元;
相对编号装置,用于把所述记录分组从而所述记录号和至少一个备用记录构成所述组中的一组,并从被分组的记录号中产生组号数据和相应的相对号数据;
索引文件产生装置,用于使用所述相对记录号数据和所述组号数据从所述数据中产生索引文件;
索引文件存储装置,用于存储所述索引文件;
索引文件搜索装置,用于响应于来自所述请求接收装置的所述搜索请求,依据所述索引文件存储装置中的所述索引文件,搜索由所述搜索数据所指出的一个记录;
绝对编号装置,用于把被搜索的一个记录的相对号数据和组号数据转换成所述记录号数据;以及
搜索结果输出装置,用于依据来自所述绝对编号装置的记录号数据输出搜索结果。
6.如权利要求2所述的数据搜索装置,其特征在于还包括插入区产生装置,用于在所述索引存储装置中提供一存储空间,以在今后所述索引文件存储装置存储所述索引文件时把所述索引数据存入所述索引文件存储装置。
7.如权利要求5所述的数据搜索装置,其特征在于还包括插入区产生装置,用于在所述索引存储装置中提供一存储空间,以在今后所述索引文件存储装置存储所述索引文件时把所述索引数据存入所述索引文件存储装置。
CN971026181A 1996-03-12 1997-02-12 数据搜索装置 Expired - Fee Related CN1094218C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP8054588A JP2888188B2 (ja) 1996-03-12 1996-03-12 情報検索装置
JP54588/96 1996-03-12

Publications (2)

Publication Number Publication Date
CN1162154A true CN1162154A (zh) 1997-10-15
CN1094218C CN1094218C (zh) 2002-11-13

Family

ID=12974892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN971026181A Expired - Fee Related CN1094218C (zh) 1996-03-12 1997-02-12 数据搜索装置

Country Status (6)

Country Link
US (1) US5915248A (zh)
EP (1) EP0806732B1 (zh)
JP (1) JP2888188B2 (zh)
KR (1) KR100240243B1 (zh)
CN (1) CN1094218C (zh)
DE (1) DE69712568T2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100394424C (zh) * 1999-05-10 2008-06-11 奥弗图尔服务公司 具有二维线性可缩放并行结构的搜索引擎
CN100411336C (zh) * 2003-12-10 2008-08-13 联想(北京)有限公司 无线网格下共享文件的搜索方法
CN1653448B (zh) * 2001-11-20 2010-06-23 尤尼瑟奇有限公司 搜索数据源的系统和方法
CN103136242A (zh) * 2011-11-28 2013-06-05 上海可鲁系统软件有限公司 一种多源数据索引存储、读取方法及装置
CN106947722A (zh) * 2017-04-28 2017-07-14 连云港中新污水处理有限公司 微生物菌剂及其制备方法和在污水处理中的应用

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3571201B2 (ja) * 1997-12-12 2004-09-29 富士通株式会社 データベース検索装置及びデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6745196B1 (en) * 1999-10-08 2004-06-01 Intuit, Inc. Method and apparatus for mapping a community through user interactions on a computer network
US6480857B1 (en) 2001-06-07 2002-11-12 David Chandler Method of organizing hierarchical data in a relational database
US7222160B2 (en) * 2001-07-20 2007-05-22 Sharp Laboratories Of America, Inc. Object search and retrieval service for an ad hoc data communication system
WO2003088132A1 (en) * 2002-04-12 2003-10-23 Agency For Science, Technology And Research Robust face registration via multiple face prototypes synthesis
US7636710B2 (en) * 2004-03-04 2009-12-22 Symantec Operating Corporation System and method for efficient file content searching within a file system
JP4802672B2 (ja) * 2005-11-14 2011-10-26 株式会社日立製作所 電子文書管理装置、電子文書管理プログラム、電子文書管理システム
US20110060718A1 (en) * 2009-09-04 2011-03-10 Song You Method and Apparatus for Organizing Hierarchical Data in a Relational Database
JP5942634B2 (ja) 2012-06-27 2016-06-29 富士通株式会社 秘匿化装置、秘匿化プログラムおよび秘匿化方法
US9729327B2 (en) * 2013-10-29 2017-08-08 International Business Machines Corporation Computer-based optimization of digital signature generation for records based on eventual selection criteria for products and services
CN105097785A (zh) * 2014-05-09 2015-11-25 群创光电股份有限公司 显示面板的多重静电放电环装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5164897A (en) * 1989-06-21 1992-11-17 Techpower, Inc. Automated method for selecting personnel matched to job criteria
US5257365A (en) * 1990-03-16 1993-10-26 Powers Frederick A Database system with multi-dimensional summary search tree nodes for reducing the necessity to access records
US5530855A (en) * 1992-10-13 1996-06-25 International Business Machines Corporation Replicating a database by the sequential application of hierarchically sorted log records
JP3170095B2 (ja) * 1993-04-14 2001-05-28 富士通株式会社 情報検索システム
GB9311580D0 (en) * 1993-06-04 1993-07-21 Phonelink Data Limited Data retrieval system
US5734886A (en) * 1994-11-16 1998-03-31 Lucent Technologies Inc. Database dependency resolution method and system for identifying related data files
US5717919A (en) * 1995-10-02 1998-02-10 Sybase, Inc. Database system with methods for appending data records by partitioning an object into multiple page chains

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100394424C (zh) * 1999-05-10 2008-06-11 奥弗图尔服务公司 具有二维线性可缩放并行结构的搜索引擎
CN1653448B (zh) * 2001-11-20 2010-06-23 尤尼瑟奇有限公司 搜索数据源的系统和方法
CN100411336C (zh) * 2003-12-10 2008-08-13 联想(北京)有限公司 无线网格下共享文件的搜索方法
CN103136242A (zh) * 2011-11-28 2013-06-05 上海可鲁系统软件有限公司 一种多源数据索引存储、读取方法及装置
CN103136242B (zh) * 2011-11-28 2016-09-21 上海可鲁系统软件有限公司 一种多源数据索引存储、读取方法及装置
CN106947722A (zh) * 2017-04-28 2017-07-14 连云港中新污水处理有限公司 微生物菌剂及其制备方法和在污水处理中的应用

Also Published As

Publication number Publication date
DE69712568D1 (de) 2002-06-20
EP0806732B1 (en) 2002-05-15
JPH09245043A (ja) 1997-09-19
DE69712568T2 (de) 2002-10-31
US5915248A (en) 1999-06-22
JP2888188B2 (ja) 1999-05-10
CN1094218C (zh) 2002-11-13
KR970066948A (ko) 1997-10-13
EP0806732A2 (en) 1997-11-12
KR100240243B1 (ko) 2000-01-15
EP0806732A3 (en) 1998-12-23

Similar Documents

Publication Publication Date Title
CN1094218C (zh) 数据搜索装置
US6460046B1 (en) Method and system for forming, storing and using sets of data values
Har-Peled et al. Fast construction of nets in low dimensional metrics, and their applications
US7730316B1 (en) Method for document fingerprinting
US7603370B2 (en) Method for duplicate detection and suppression
CN1008016B (zh) 输入处理系统
CN1363069A (zh) 信息管理、检索和显示系统以及相关方法
US20020169770A1 (en) Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
JP3263963B2 (ja) 文書検索方法及び装置
CN1317114A (zh) 一种用于数据检索的搜索系统和方法及其在搜索引擎中的应用
CN1900933A (zh) 图像搜索系统、图像搜索方法和存储介质
US8538964B2 (en) Using an ID domain to improve searching
CN1831825A (zh) 文档管理方法和装置以及文档搜索方法和装置
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
CN1710561A (zh) 用于索引和检索文档的方法、计算机程序及数据载体
CN115794745B (zh) 文件搜索方法、系统、设备及存储介质
CN108920705A (zh) 一种知识点标识的编码方法及装置
CN1165571A (zh) 文件检索装置
JP2000231560A (ja) 文書自動分類方式
Petri et al. Efficient indexing algorithms for approximate pattern matching in text
CN1065058C (zh) 有辅佐外字造字功能的文件处理装置
Tischler Low space external memory construction of the succinct permuted longest common prefix array
JPS59109939A (ja) 用例辞書
CN1041356C (zh) 数据检索装置
JPH10162126A (ja) 文書の電子化装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee