CN1316707A - 数据压缩与检索方法和数据检索设备及记录媒体 - Google Patents
数据压缩与检索方法和数据检索设备及记录媒体 Download PDFInfo
- Publication number
- CN1316707A CN1316707A CN01101746A CN01101746A CN1316707A CN 1316707 A CN1316707 A CN 1316707A CN 01101746 A CN01101746 A CN 01101746A CN 01101746 A CN01101746 A CN 01101746A CN 1316707 A CN1316707 A CN 1316707A
- Authority
- CN
- China
- Prior art keywords
- data
- key
- packet
- character
- compressed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24526—Internal representations for queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
Abstract
本发明提供一种产生一个有主数据和为了有效地检索主数据的被压缩的搜索数据的数据包的方法,为了用一个由多个数据包给出的搜索键有效地检索主数据的一种检索方法和一种检索设备,一种其中记录了这些多个数据包的记录媒体,和一种有主数据和为了有效地检索主数据的被压缩的搜索数据的数据包信号。
Description
本发明一般地涉及一个产生一个包含主数据和为了有效地检索主数据而被压缩的检索数据的数据包的方法。此外,本发明一般地涉及一个根据一个输入的搜索键,从多个包含主数据和为了有效地检索主数据而被压缩的检索数据的数据包,有效地检索主数据的数据检索方法。而且,本发明一般地涉及一个根据一个输入的搜索键,从多个包含主数据和为了有效地检索主数据而被压缩的检索数据的数据包,有效地检索主数据的数据检索设备。进一步,本发明一般地涉及一个记录多个包含主数据和为了有效地检索主数据而被压缩的检索数据的数据包的记录媒体。更进一步,本发明一般地涉及一个包含主数据和为了有效地检索主数据而被压缩的检索数据的数据包信号。
诸所谓的数据库检索设备和诸所谓的电子字典设备广泛地用于输入要被检索的数据的一个字符串的全部或一部分,并且显示被检索的数据或诸文本。类似的功能也由工作在诸个人计算机上的诸电子字典程序和诸数据库程序来完成。
下面,我们参照图1描述在一个相关技术的数据库检索设备中的数据检索处理,在该数据库检索设备中将用于检索的数据记录在一个信息记录媒体,如一个CD-ROM(光盘-只读存储器)或一个半导体存储器中。
通过将一个与要被检索的数据对应的输入的字符串用作一个搜索键,数据库检索设备根据一个存储在一个信息记录媒体上的索引11,搜索一个预先记录在一个用于数据的信息存储媒体上的文本本体数据库12。然后,数据库检索设备显示出被检索的数据。
索引11是用于所谓的前向匹配搜索的数据,由一个属于一个主索引块层的索引块21,n个属于一个第二索引块层的索引块22-1到22-n,和m个属于一个第三索引块层的索引块23-1到23-m组成。
索引11是根据诸搜索方法,例如前向匹配搜索和后向匹配搜索形成的,每个索引都预先存储在一个信息存储媒体中。更具体地说,如果数据库检索设备能够实施例如前向匹配搜索或后向匹配搜索,则信息存储媒体存储一个前向匹配搜索索引和一个后向匹配搜索索引。
索引块21,诸索引块22-1到22-n和诸索引块23-1到23-m中的每一个都有诸比较键如“AP”和“BO”,将诸比较键与搜索键和与诸比较键对应的诸地址或诸数据地址进行比较。以诸字母上升的顺序安排诸搜索键。
索引块21的每一个地址都表示属于第二索引块层的诸索引块22-1到22-n中的一个的一个头部存储位置。诸索引块22-1到22-n中的每一个的每一个地址表示属于第三索引块层的诸索引块23-1到23-m中的一个的一个头部存储位置。诸索引块23-1到23-m中的每一个的每一个文本本体地址都表示存储在文本本体数据库12中的预先确定的数据的存储位置。
当输入一个与要被检索的数据对应的字符串时,数据库检索设备用输入的字符串作为一个搜索键,比较搜索键的最初的两个字符与索引块21的一个比较键。数据库检索设备根据这个比较的结果,确定这两个字符是否以字母顺序位于索引块21的比较键的前面或后面或者与这个比较键相同。
如果发现搜索键的最初的两个字符是以字母顺序位于索引块21的比较键的后面,则数据库检索设备比较搜索键的最初的两个字符与索引块21的下一个比较键。
如果发现搜索键的最初的两个字符是以字母顺序位于索引块21的下一个比较键的前面或者与这个比较键相同,则数据库检索设备根据与索引块21的这个比较键对应的地址,确定属于第二索引块层的诸索引块22-1到22-n中的对应的一个。
然后,数据库检索设备比较搜索键的最初的两个字符与诸索引块22-1到22-n中的规定的一个的一个比较键,以便实施与索引块21相同的处理。数据库检索设备根据这个比较的结果,确定搜索键的最初的两个字符是否以字母顺序位于诸索引块22-1到22-n中的规定的一个的比较键的前面或后面或者与这个比较键相同。
如果发现搜索键的最初的两个字符是以字母顺序位于诸索引块22-1到22-n中的规定的一个的比较键的后面,则数据库检索设备比较搜索键的最初的两个字符与诸索引块22-1到22-n中的规定的一个的下一个比较键。
如果发现搜索键的最初的两个字符是以字母顺序位于诸索引块22-1到22-n中的规定的一个的下一个比较键的前面或者与这个比较键相同,则数据库检索设备根据与诸索引块22-1到22-n中的规定的一个的比较键对应的地址,确定属于第三索引块层的诸索引块23-1到23-m中的对应的一个。
然后,数据库检索设备比较搜索键的所有的字符与诸索引块23-1到23-m 中的规定的一个的一个比较键。数据库检索设备根据这个比较的结果,确定搜索键是否以字母顺序位于诸索引块23-1到23-m中的规定的一个的比较键的后面,是否与比较键相同,或是否被包含在比较键中。
如果发现搜索键是以字母顺序位于诸索引块23-1到23-m中的规定的一个的比较键的后面,则数据库检索设备比较搜索键与诸索引块23-1到23-m中的规定的一个的下一个比较键。
如果发现搜索键与比较键相同,或被包含在比较键中,则数据库检索设备根据与诸索引块23-1到23-m中的规定的一个的比较键对应的数据的地址,确定一个存储在文本本体数据库12中的对应的文本本体。
更具体地说,如果对于要被检索的数据输入一个字符串“abroad”,则搜索键变成“ABROAD”,并如图1所示从最上面向下顺序地比较最初的两个字符“AB”与索引块21的诸比较键。因为,搜索键的最初的两个字符“AB”以字母顺序位于索引块22的第一个比较键“AP”的前面,所以数据库检索设备根据与比较键“AP”对应的地址,确定属于第二索引块层的索引块22-1。
因为搜索键的最初的两个字符“AB”以字母顺序位于索引块22-1的第一个比较键“AC”的前面,所以数据库检索设备根据与比较键“AC”对应的地址,确定属于第三索引块层的索引块23-1。
数据库检索设备在索引块23-1中从顶部检测与搜索键“ABROAD”对应的第三个比较键“ABROAD”,并根据与这个比较键“ABROAD”对应的数据的地址,从文本本体数据库12读出数据并将数据显示出来。
在其它的信息存储媒体中,不用索引。即,与主数据对应地将诸关键字预先存储在文本本体数据库中。数据库检索设备根据存储的诸关键字检索主数据。
参照图2,在那里表示了一个相关技术的文本本体数据库31的一个例子,与主数据对应地将一个关键字预先存储在文本本体数据库31中。文本本体数据库31以字母上升的顺序存储主数据。
在文本本体数据库31中的“TOP”表示一个位于主数据的首部前面的标识符。文本本体数据库31的“KW”表示一个位于主数据的关键字前面的标识符,和一个有值“00”的标识符位于关键字的后面。
主数据位于有值“00”的标识符的后面。
参照图2,在数据“TOP ap·ple KW APPLE 00 A kind of fruits”中,位于第一个标识符“TOP”和第二个标识符“KW”之间的“ap·ple”表示一个首部。位于第二个标识符“KW”和第三个标识符“00”之间的“APPLE”表示对于首部“ap·ple”的关键字。位于第三个标识符“00”后面的“A kind of fruits”表示对于首部“ap·ple”和关键字“APPLE”的主数据。
类似地,在文本本体数据库31中的数据“TOP Ap·ple·seed KWAPPLESEED 00 Johnny(John Chapman)”中,位于标识符“TOP”和标识符“KW”之间的“Ap·ple·seed”表示一个首部。位于标识符“KW”和标识符“00”之间的“APPLESEED”表示对于首部“Ap·ple·seed”的关键字。位于标识符“00”后面的“Johnny(JohnChapman)”表示对于首部“Ap·ple·seed”和关键字“APPLESEED”的主数据。
下面,我们参照图3所示的流程图描述为了检索文本本体数据库31由相关技术的数据库检索设备实施的在一个搜索键和一个选择的关键字之间的比较处理。在步骤S11,数据库检索设备读出搜索键的第一个字符。在步骤S12,数据库检索设备读出选择的关键字的第一个字符。
在步骤S13,数据库检索设备确定在搜索键的第一个字符和选择的关键字的第一个字符之间是否存在一个匹配。如果发现一个匹配,则在步骤S14,数据库检索设备确定搜索键的第一个字符和选择的关键字的第一个字符是否是它们的最后的字符。
如果在步骤S14中的确定结果是“是”,则在步骤S15,数据库检索设备输出一个表示搜索键与选择的关键字匹配的消息,根据该消息处理结束。
如果在步骤S13中的确定结果是“否”,则在步骤S16,数据库检索设备输出一个表示搜索键不与选择的关键字匹配的消息,根据该消息处理结束。
如果在步骤S14中的确定结果是“否”,则意味着在那里余留着要被比较的诸字符,所以,在步骤S17,数据库检索设备读出搜索键的下一个字符。在步骤S18,数据库检索设备读出关键字的下一个字符。然后,回到步骤S13,数据库检索设备重复上述的比较处理。
然而,用诸索引的数据检索涉及一个必须将预先确定数量的索引数据和主数据一起存储在一个信息存储媒体中,于是要求提供一个有一个成正比例地大的存储区域的信息存储媒体的问题。例如,当诸索引总计约有8兆比特时,包含一个60,000到70,000字的文本本体的主数据总计有30兆比特。
用安排在主数据中的诸关键字而不用诸索引的主数据检索要求进行在许多字符之间的诸比较,为了进行检索处理这要化费很长的时间。
所以本发明的一个目的是提供一种数据压缩方法,一种数据检索方法,一种数据检索设备,一种记录媒体和数据包信号,用于将主数据存储在比相关技术的相应方法和设备小得相当多的存储区域中从而实现比相关技术的相应方法和设备快很多的数据检索。
在实施本发明和根据本发明的一个方面时,我们提供了一种用于有效地检索为了检索主数据的关键字数据和压缩要被记录在一个记录媒体上的关键字数据的数据量的数据压缩方法,该方法包括下列诸步骤:比较由诸字符的第一个数目组成的第一个关键字数据与由诸字符的第二个数目组成的第二个关键字数据,第二个关键字数据的诸字符的第二个数目大于第一个关键字数据的诸字符的第一个数目;根据在第一个关键字数据与第二个关键字数据之间的一个比较结果,检测在第一个关键字数据与第二个关键字数据之间匹配的字符的数目,从第二个关键字数据删除一个与第一个关键字数据匹配的字符,并产生一个有诸匹配字符的数目和通过从第二个关键字数据删除与第一个关键字数据匹配的字符得到的一个不匹配字符的数据包;和将数据包记录在记录媒体上。
在实施本发明和根据本发明的另一个方面时,我们提供了一种用于根据一个输入的搜索键和被压缩的关键字数据,检索由主数据,由在与主数据相关的关键字数据和相邻的关键字数据之间的诸重复字符的数目形成的被压缩的关键字数据和通过从关键字数据删除一个重复字符得到的一个不匹配字符,形成的一个数据包中的主数据的数据检索方法,该方法包括下列诸步骤:检索数据包,在该数据包中关键字数据等于不匹配字符;检测在检索步骤中被检索的数据包中的被压缩的关键字数据的一个不匹配字符和搜索键之间的一个不匹配部分;和如果在被压缩的关键字数据的不匹配字符与搜索键之间检测出不匹配部分,则检测在一个与该数据包相邻的数据包的被压缩的关键字数据的一个不匹配字符和检测出的不匹配部分之间的一个不匹配部分。
在实施本发明和根据本发明的又一个另一个方面时,我们提供了一种用于根据一个输入的搜索键和被压缩的关键字数据,从记录一个由主数据,由在与主数据相关的关键字数据和相邻的关键字数据之间的诸重复字符的数目形成的被压缩的关键字数据和通过从关键字数据删除一个重复字符得到的一个不匹配字符形成的数据包的一个记录媒体,检索主数据的数据检索设备,该数据检索设备包括:一个记录媒体接入装置,用于从记录媒体读出数据包;一个检索装置,用于检索数据包,在该数据包中关键字数据等于不匹配字符;一个不匹配检测装置,用于检测在一个预先确定的数据包中的被压缩的关键字数据中的一个不匹配字符和一个用于比较的输入字符串之间的一个不匹配字符部分;和一个控制装置,用于控制检索装置,使检索装置能检索其中关键字数据等于不匹配字符的数据包,通过控制不匹配检测装置检测在被检索的数据包和输入的搜索键之间的一个不匹配部分,和如果发现不匹配部分,则通过控制不匹配检测装置检测在检测出的不匹配部分和一个与被检索装置检索的数据包相邻的数据包之间的一个不匹配部分,并通过控制记录媒体接入装置将它读出来。
在实施本发明和根据本发明的又一个另一个方面时,我们提供了一种用于根据一个输入的搜索键和被压缩的关键字数据,从记录一个由主数据,由在与主数据相关的关键字数据和相邻的关键字数据之间的诸重复字符的数目形成的被压缩的关键字数据和通过从关键字数据删除一个重复字符得到的一个不匹配字符形成的数据包的一个记录媒体,检索主数据的数据检索设备,该数据检索设备包括:一个记录媒体接入装置,用于从记录媒体读出数据包;一个操作员装置,用于输入检索键;一个显示装置,用于显示被检索的主数据;一个被压缩的关键字数据检索装置,用于从记录媒体读出的数据包检索被压缩的关键字数据;一个第一个比较装置,用于比较被压缩的关键字数据的一个不匹配字符和搜索键;一个保持装置,用于根据比较装置所作的比较的一个结果保持在被压缩的关键字数据的不匹配字符和搜索键之间的不匹配字符的数目;和一个第二个比较装置,用于比较保持在保持装置中的字符的数目与表示被压缩的字符的数目的数据;和一个控制装置,用于控制第一个比较装置,使第一个比较装置比较从操作员装置输入的搜索键与由被压缩的关键字数据检索装置检索的被压缩的关键字数据的诸不匹配字符的数目,并将在通过第一个比较装置进行比较得到的搜索键和被压缩的关键字数据之间的诸不匹配字符的数目保持在保持装置中,比较一个相邻的数据包的不匹配字符与用比较装置发现不匹配的搜索键的一个字符串,和将这样检索得到的主数据在显示装置上显示出来。
在实施本发明和根据本发明的一个不同方面时,我们提供了一种有主数据和一个用于检索主数据的检索字符串的数据包信号,该信号包括:一个主数据信号部分;在压缩在用于检索主数据的关键字数据与用于另一个主数据的关键字数据之间的一个匹配的字符部分后保留下来的一个不匹配信号部分;和一个表示被压缩的数据的字符数目的被压缩的字符计数信号部分。
在实施本发明和根据本发明的又一个不同方面时,我们提供了一种记录一个有主数据和用于检索主数据的被压缩的数据的数据包的记录媒体,该数据包有:主数据;在删除一个在用于检索主数据的检索数据和用于检索一个相邻的数据包的主数据的检索数据之间的匹配字符后保留下来的不匹配数据;和表示作为匹配的一个结果被删除的诸字符的数目的诸被压缩的字符的数目。
我们将通过参照结合所附的诸图进行的描述,了解本发明的这些和其它的诸目的,其中:
图1是一个说明在一个相关技术的数据库检索设备中的数据处理的示意图;
图2说明一个相关技术的文本本体数据库的一个例子;
图3是一个描述在搜索键和选择的键之间的相关技术的比较处理的流程图;
图4是一个说明作为本发明的一个优先实施例实施的一个数据库检索设备的结构的方框图;
图5说明一个构成一个文本本体数据库110的数据包;
图6A说明文本本体数据库110的一个字段1;
图6B说明文本本体数据库110的一个字段2;
图7A说明一个用于文本本体数据库110的首部“ap·ple”的数据包;
图7B说明一个用于文本本体数据库110的首部“Apple”的数据包;
图7C说明一个用于文本本体数据库110的首部“ap·ple”的数据包;
图7D说明一个用于文本本体数据库110的首部“Applet”的数据包;
图8说明在一个显示面板57上显示出来的一个检索结果;
图9说明文本本体数据库110的一个被分开的部分;
图10说明一个被压缩的关键字的结构;
图11A和11B说明在搜索键和被压缩的关键字之间的比较处理,与在搜索键和未被压缩的关键字之间的比较处理进行比较;
图12说明一个字段信息表;
图13是一个描述文本本体数据库110的检索处理的流程图;
图14是一个描述在搜索键和选择的被压缩的关键字之间的比较处理的流程图;
图15是一个描述在来自搜索键的开头的k个字符和来自被压缩的关键字的开头的k个字符之间的比较处理的流程图;和
图16是一个用于描述一个文本本体数据库101的图。
我们将通过例子参照所附的诸图更详细地描述本发明。
现在,参照图4,一个CPU(中央处理机)51,例如由一个MPU(微处理机)构成,执行一个存储在一个ROM(只读存储器)52中的控制程序,以便根据从一个键操作块54输入的诸信号对数据库检索设备进行整体地控制,和同时实施用于检索与一个输入的字符串对应的主数据的处理。
ROM 52,例如由一个掩模ROM,一个EPROM(可擦可编程只读存储器),一个EEPROM(电可擦可编程只读存储器),或一个闪速存储器构成,存储例如由CPU 51执行的控制程序,为了执行控制程序所必需的诸基本上固定的参数,和字型数据(表示诸字符形状的数据)。
一个RAM(随机存取存储器)53,例如由一个DRAM(动态随机存取存储器)或一个SRAM(静态随机存取存储器)构成,存储例如当执行控制程序时其值发生变化的数据,暂时作为检索处理的一个结果存储起来的诸匹配字符的数目(在后面对它进行描述)。键操作块54已经预先确定了诸操作员键和诸开关,并将对应于由数据库检索设备的用户所作的诸操作产生的诸信号输出到CPU 51。
一个用作一个数据库的字典ROM 55,由一个存储媒体如一个掩模ROM,一个EPROM,一个EEPROM,一个闪速存储器,一个磁盘如硬盘,一个磁光盘,或一个光盘构成,存储文本本体数据等。一个显示控制器56,在CPU 51的控制下,接收例如来自ROM52的与表示一个检索结果的诸预先确定的字符对应的字型数据,和在一个显示面板57上显示出诸接收的字符。显示面板57,由一个LCD(液晶显示器)或类似的器件组成,在显示控制器56的控制下显示出诸预先确定的字符或诸图像。
一个驱动器59从装载在驱动器59中的一个磁盘60,一个光盘61,或一个磁光盘62读出数据(例如文本本体数据)或诸程序(包括控制程序),并在CPU 51的控制下通过一个接口58将数据或诸程序提供给CPU51,接口58将从驱动器59接收的数据或诸程序提供给CPU51,并同时从一个装载在接口58中的半导体存储器63读出数据如文本本体数据或包括控制程序在内的诸程序,并将它们提供给CPU 51。
一个通信块64由一个路由器,一个调制解调器,或一个与一个预先确定的通信方案对应的通信电路构成,通过图中未画出的有线或无线通信媒体如一个本地区网络,因特网,和数字卫星广播接收预先确定的数据或诸程序,并将接收的数据和诸程序提供给CPU51。
参照图5,在那里表示出一个对于存储在作为一个数据库的字典ROM 55中的一个主数据的数据格式。如图所示,将每一个主数据分包成一个称为文本本体数据的数据包。以一个预先确定的顺序将主数据存储起来。每个数据包都由一个首部开始。在这个例子中,将“1F14”分配给首部,首部在长度上是固定的。首部后面跟着一个表示主数据的一个摘要的首部字。首部字在长度上是可变的并用一个首部字结束代码结束。在这个例子中,首部字结束代码是“1F61”。首部字结束代码的后面跟随着一个匹配计数。匹配计数表示在一个将在后面描述的被压缩的关键字中的诸被压缩的字符的数目。根据匹配计数,如将在后面描述的那样对关键字进行去压缩。匹配计数的后面跟随着一个被压缩的关键字。用表示主数据的开头的主数据识别数据的“00”识别被压缩的关键字的终端。主数据识别数据的后面跟随着主数据。对于一个主数据的数据包在主数据的终端结束。
图6A和6B表示多个数据包存储在字典ROM 55中的诸状态,已经参照图5对所述多个数据包中的一个进行了描述。图6A和6B代表通过用一个预先确定的尺度对在字典ROM 55中的一个存储区域进行分隔得到的诸块。将每个块称为一个字段。物理上或逻辑上可以将存储区域分成诸字段。通过无论那种方式进行分隔,在接入诸最后导致的字段方面没有差别。将字段1和字段2存储在字典ROM 55中,使得它们能够被连续地读出。所以,将首部字4存储在字段1和字段2中。在一个读出操作中,在字段1中的首部字4和在字段2中的首部字4是连在一起的。
如图6A和6B所示,在每个字段中,将多个数据包连续地存储起来。字段1包含对于主数据1的数据包1,对于主数据2的数据包2,对于主数据3的数据包3,和对于主数据4的数据包4的一部分。字段2包含数据包4的一个余下部分,对于主数据5的数据包5。如图5所示,每个数据包用“1F41”开始和用主数据结束。因为如图6A和6B所示连续地存储诸数据包,所以通过搜索“1F41”能够容易地检测出每个数据包的终端,它是下一个数据包的首部。例如,对于数据包1,检测直接位于首部字2前面的“1F41”能够检测出主数据1的终端部分和数据包1的终点。
图7A,7B,7C和7D通过例子表示诸特定的数据包。图7A表示一个对于它的关键字是“APPLE”的数据的数据包。图7B表示一个对于它的关键字是“APPLE”的数据的数据包。图7C表示一个对于它的关键字是“APPLESEED”的数据的数据包。图7D表示一个对于它的关键字是“APPLET”的数据的数据包。
参照图8,那里表示出当用“APPLE”作为一个搜索键在前向匹配搜索中搜索如图10所示文本本体数据110时,由根据本发明的数据库检索设备实施的在显示面板57上的一个显示例。
如图8所示,有值“1F41”的标识符,有值“1F61”的标识符,有值“00”的标识符,和被压缩关键字没有在显示面板57上显示出来。根据本发明的数据库检索设备将诸被检索的首部字显示在显示面板57的左边,在它们的下面以一种预定的方式显示相应的主数据。
如果有两个或更多的被检索的首部字和文本本体,则根据本发明的数据库检索设备显示一个被检索的文本本体,在它后面在新的一行中显示下一个首部字。
更具体地,将首部字“ap·ple”显示在显示面板57的左上方,在它的下面显示与这个首部字对应的主数据“A kind of fruits”。在主数据“A kind of fruits”的下面显示首部字“APPLE”。在它的下面显示与首部字“APPLE”对应的文本本体“Label of records”。
再次参照图9,在文本本体数据81中由“1F41 Apple 1F61 0100”代表的数据中,在诸标识符“1F41”和“IF61”之间的“APPLE”表示一个首部字。
在诸标识符“1F61”和“00”之间的“05”表示一个对于首部“APPLE”的被压缩关键字。在标识符“00”后面的“Label ofrecords”表示对于首部“APPLE”和被压缩的关键字“05”的主数据。
类似地,例如在文本本体数据110中在由“1F41 Ap·ple′seed1F61 05 seed 00 Johnny(John Chapman)”代表的数据中,在诸标识符“1F41”和“1F61”之间的“Ap·ple·seed”表示一个首部字。在诸标识符“1F61”和“00”之间的“05 seed”表示一个对于首部字“Ap·ple·seed”的被压缩的关键字。
在标识符“00”后面的“Johnny(John Chapman)”表示与首部字“Ap·ple·seed”和被压缩的关键字“05 Seed”对应的主数据。
将文本本体数据110分成有诸预先确定的存储区域的诸字段111-1到111-2。在如图9所示的例子中,将文本本体数据110分成两个字段111-1到111-2。也可以将文本本体数据110分成多于两个的字段。
下面,我们参照图10描述一个被压缩的关键字的结构。在图10中,左边的列表示压缩前的诸关键字,而右边的列表示对应的被压缩的诸关键字。
更具体地,如果以“APPLE”,“APPLE”,“APPLESEED”和“APPLET”的顺序将被压缩前的诸关键字安排在文本本体数据中,则在被压缩的文本本体数据110中,诸被压缩的关键字是它的匹配字符计数为“00”和余下的关键字为“APPLE”的一个被压缩的关键字,它的匹配字符计数为“05”和没有余下的关键字的一个被压缩的关键字,它的匹配字符计数为“05”和余下的关键字为“SEED”的一个被压缩的关键字,和它的匹配字符计数为“05”和余下的关键字为“T”的一个被压缩的关键字。
即,在被压缩的文本本体数据110中,用它的匹配字符计数为“05”和余下的关键字为“APPLE”的关键字取代压缩前的关键字“APPLE”,用它的匹配字符计数为“05”和没有余下的关键字的被压缩关键字取代压缩前的关键字“APPLE”(在图中为从上向下数的第二行),和用它的匹配字符计数为“05”和余下的关键字为“SEED”的被压缩的关键字取代压缩前的关键字“APPLESEED”。
类似地,在被压缩的文本本体数据110中,用它的匹配字符计数为“05”和余下的关键字为“T”的被压缩的关键字取代压缩前的关键字“APPLET”。
每个被压缩的关键字的匹配字符计数将一个与上一个被压缩的关键字对应的未被压缩的关键字的第一个字符串的诸字符的数目设置在与被压缩的关键字的诸字符的数目匹配的字符数目上。
余下的被压缩的关键字设置通过从未被压缩的关键字的开头删除诸匹配字符导致的诸余下的字符。
例如,如果未被压缩的关键字“APPLE”后面跟随着未被压缩的关键字“APPLE”,则这些关键字在最初的5个字符中是相互匹配的。所以,将“05”设置为与未被压缩的关键字“APPLE”(在图10中为从上向下数的第二行)对应的被压缩的关键字的匹配字符计数,和因为由于这两个未被压缩的关键字“APPLE”相互抵消而没有东西余留下来,所以在余下的关键字上设置“没有”。
即,对于有相同拼写但是意义不同的诸字来说,将“APPLE”设置为对于有相同拼写但是意义不同的上一个的字的余下的关键字,而对于有相同拼写但是意义不同的下一个的字的余下的关键字变得没有了。
如果未被压缩的关键字“APPLESEED”跟在未被压缩的关键字“APPLE”的后面,则在最初的5个字符中未被压缩的关键字“APPLESEED”与上一个未被压缩的关键字“APPLE”是匹配的,从而将“05”设置为与未被压缩的关键字“APPLE”对应的被压缩的关键字的匹配字符计数,和将通过从“APPLESEED”删除最初5个字符导致的“SEED”设置为余下的关键字。
例如,如果未被压缩的关键字“APPLESEED”后面跟随着未被压缩的关键字“APPLET”,则这些关键字在最初的5个字符中是相互匹配的,从而将“05”设置为与未被压缩的关键字“APPLET”对应的被压缩的关键字的匹配字符计数,和将通过从“APPLET”删除最初5个字符导致的“T”设置为余下的字符。
下面,我们参照图11A和11B,描述在搜索键和被压缩的关键字之间的比较处理,与搜索键和未被压缩的关键字之间的比较进行比较。
在如图11A所示用诸未被压缩的关键字进行一个检索时,如果将关键字“APPLE”,关键字“APPLESEED”和关键字“APPLET”以这种顺序安排在文本本体数据中和搜索键为“APPLET”,则数据库检索设备首先比较搜索键“APPLET”与关键字“APPLE”。
数据库检索设备比较搜索键“APPLET”的第一个字符“A”与未被压缩的关键字“APPLE”的第一个字符“A”。因为两者相互匹配,所以然后数据库检索设备比较搜索键“APPLET”的第二个字符“P”与未被压缩的关键字“APPLE”的第二个字符“P”。
因为两者相互匹配,所以下一次数据库检索设备比较搜索键“APPLET”的第三个字符“P”与未被压缩的关键字“APPLE”的第三个字符“P”。因为两者相互匹配,所以下一次数据库检索设备比较搜索键的第四个字符“L”与未被压缩的关键字的第四个字符“L”。
因为两者相互匹配,所以下一次数据库检索设备比较搜索键“APPLET”的第五个字符“E”与未被压缩的关键字“APPLE”的第五个字符“E”。因为两者相互匹配,所以下一次数据库检索设备比较搜索键“APPLET”的第六个字符“T”与未被压缩的关键字的第六个字符。
然而,在未被压缩的关键字中没有要与搜索键的第六个字符“T”进行比较的第六个字符,数据库检索设备确定搜索键“APPLET”不与未被压缩的关键字“APPLE”匹配。
下面,数据库检索设备比较搜索键“APPLET”与一个未被压缩的关键字“APPLESEED”。如上所述,数据库检索设备比较搜索键“APPLET”与未被压缩的关键字“APPLESEED”,从这些字符串的开头一个一个地进行比较。当搜索键“APPLET”的第六个字符“T”与未被压缩的关键字“APPLESEED”的第六个字符“S”进行比较时,不存在匹配,所以数据库检索设备确定搜索键“APPLET”不与未被压缩的关键字“APPLESEED”匹配。
数据库检索设备比较搜索键“APPLET”与一个未被压缩的关键字“APPLET”。数据库检索设备比较搜索键“APPLET”的诸字符与关键字“APPLET”的诸字符,从这些字符串的开头一个一个地进行比较。当数据库检索设备比较搜索键“APPLET”的第六个字符“T”与未被压缩的关键字“APPLET”的第六个字符“T”并确定两者相互匹配时,于是,数据库检索设备确定两者是否是搜索键与未被压缩的关键字的诸字符串中的最后一个字符。因为它们是最后一个字符,所以数据库检索设备确定在搜索键与未被压缩的关键字之间存在匹配。
下面,我们描述根据诸被压缩的关键字进行的数据检索处理。如果文本本体数据110以下面这样的顺序包含诸被压缩的关键字“00 APPLE”,“05 SEED”和“05 T”,并且搜索键是“APPLET”,则数据库检索设备比较搜索键“APPLET”与被压缩的关键字“00APPLE”。
因为匹配字符计数是“00”,所以数据库检索设备比较搜索键“APPLET”的第一个字符“A”与被压缩的关键字的余下的关键字“APPLE”的第一个字符“A”。因为两者相互匹配,所以然后数据库检索设备比较搜索键“APPLET”的第二个字符“P”与余下的关键字“APPLE”的第二个字符“P”。
因为两者相互匹配,所以然后数据库检索设备比较搜索键“APPLET”的第三个字符“P”与余下的关键字“APPLE”的第三个字符“P”。因为两者相互匹配,所以然后数据库检索设备比较搜索键“APPLET”的第四个字符“L”与余下的关键字“APPLE”的第四个字符“L”。
因为两者相互匹配,所以然后数据库检索设备比较搜索键“APPLET”的第五个字符“E”与余下的关键字“APPLE”的第五个字符“E”。
因为两者相互匹配,所以然后数据库检索设备试图比较搜索键“APPLET”的第六个字符“T”与余下的关键字“APPLE”的第六个字符。但是,在余下的关键字中没有第六个字符,数据库检索设备确定在搜索键“APPLET”与被压缩的关键字“00 APPLE”之间不存在匹配。
因此,数据库检索设备将在最初的5个字符中在搜索键“APPLET”与被压缩的关键字“05 APPLE”之间的一个匹配存储起来。
下面,数据库检索设备比较搜索键“APPLET”与被压缩的关键字“05 SEED”。因为数据库检索设备将在搜索键“APPLET”与被压缩的关键字“05 APPLE”之间在最初的5个字符的最后一次比较中发现的匹配存储起来了,并且被压缩的关键字“05 SEED”的匹配字符计数是“05”,所以数据库检索设备比较搜索键“APPLET”的第六个字符“T”与被压缩的关键字的余下的关键字“SEED”的第一个字符“S”。
因为两者不相互匹配,所以数据库检索设备确定在搜索键“APPLET”与被压缩的关键字“05 SEED”之间不存在匹配。
因此,数据库检索设备将在最初的5个字符中在搜索键“APPLET”与被压缩的关键字“05 SEED”之间的一个匹配存储起来。
下面,数据库检索设备比较搜索键“APPLET”与一个被压缩的关键字“05 T”。因为数据库检索设备将在搜索键“APPLET”与被压缩的关键字“05 SEED”之间的在最初的5个字符中的匹配存储起来了,并且被压缩的关键字“05 T”的匹配字符计数是“05”,所以数据库检索设备比较搜索键“APPLET”的第六个字符“T”与被压缩的关键字“T”的第一个字符“T”。
因为两者相互匹配,所以数据库检索设备确定搜索键“APPLET”的第六个字符“T”与被压缩的关键字的余下的关键字“T”的第一个字符“T”是否都是最后一个字符。因为这些字符都是最后一个字符,所以数据库检索设备确定在搜索键“APPLE”与被压缩的关键字“05 T”之间存在一个匹配。
于是,通过使用诸被压缩的关键字,数据库检索设备能够检索与一个在被压缩前的关键字对应的一个字或一个句子。有时通过使用诸被压缩的关键字对文本本体数据的检索不用比较包含在多个关键字中的诸相同的字符串,从而当与根据诸未被压缩的关键字的比较进行比较时,允许数据库检索设备减少在诸字符串之间所作的比较的次数。
下面,我们参照图12描述存储在字典ROM 55中的一个字段信息表91。一个字段信息表91存储表示存储在文本本体数据110的诸字段111-1和111-2中的诸最后的首部字的数据。例如,在如图12所示的例子中,字段信息表91存储表示存储在字段111-1中的最后的首部字为“Ap·ple·seed” (将首部字的开始的字符存储在字段111-1中)和存储在字段111-2中的最后的首部字为“applet”的数据。
以后,除非有特别的说明,一般地将诸字段111-1和111-2称为一个字段111。
下面,我们参照图13中所示的流程图描述如由存储在ROM 52中的控制程序指示的那样由CPU 51对文本本体数据110实施的检索处理。首先,在步骤S51,控制程序,根据一个从键操作块54提供的信号,读出一个搜索键。在步骤S52,控制程序参考存储在字典ROM 55中的字段信息表,识别包含一个与搜索键对应的被压缩的关键字的字段111。
因为识别有一个预先确定的存储区域的字段111,以便搜索一个存储在被识别的字段111中的被压缩的关键字,所以当与一个其中整个地搜索文本本体数据110的方法进行比较时,数据库检索设备能够减少要被比较的被压缩的关键字的数目。
在步骤S53,控制程序选择位于在步骤S52中被识别的字段111的开头中的被压缩的关键字。在步骤S54,控制程序实施在搜索键和选择的被压缩的关键字之间的比较。我们将参照图14中所示的流程图详细地说明步骤S54的处理。
在步骤S55,控制程序根据在步骤S54中的处理结果,确定在搜索键和选择的被压缩的关键字之间是否存在一个匹配。如果确定的结果是“是”,则在步骤S56,控制程序从存储在字典ROM 55中的文本本体数据110读出与被压缩的关键字对应的文本本体,并使显示控制器56在显示面板57上显示出被检索的文本本体,从而结束处理。
如果在步骤S55确定的结果是“否”,则在步骤S57,控制程序从存储在字典ROM 55中的文本本体数据110选择下一个被压缩的关键字,回到步骤S54重复上述的比较处理。
于是,数据库检索设备根据存储在文本本体数据110中的诸被压缩的关键字检索一个特定的文本本体。
下面,我们参照图14中所示的流程图描述与步骤S54对应的,如由存储在ROM 52中的控制程序所指示的那样,由CPU 51实施的在搜索键和选择的被压缩的关键字之间的比较处理。在步骤S81,控制程序从字典ROM 55读出一个选择的被压缩的关键字的匹配字符的计数n。
在步骤S82,控制程序确定被压缩的关键字的匹配字符的计数n是否是0。如果匹配字符的计数n不是0,则在步骤S83,控制程序实施在从搜索键的开头算起的n个字符与从最接近的上一个被压缩的关键字的开头算起的n个字符之间的比较处理。我们将参照图15中所示的流程图详细地说明步骤S83的处理。
如果将搜索键和最接近的上一个被压缩的关键字的匹配字符的计数存储起来,并且如后面要描述的那样,在步骤S90和步骤S110发现在从搜索键的开头算起的n个字符与从最接近的上一个被压缩的关键字的开头算起的n个字符之间的一个匹配,则跳过步骤S83。
在步骤S84,控制程序,根据步骤S83中的处理结果,确定在从搜索键的开头算起的n个字符与从最接近的上一个被压缩的关键字的开头算起的n个字符之间是否存在一个匹配。如果发现存在一个匹配,则控制程序在步骤S85读出搜索键的第n+1个字符。在步骤S86,控制程序从存储在字典ROM 55中的文本本体数据110读出被压缩的关键字的余下的关键字的第一个字符。
在步骤S87,控制程序确定在搜索键的读出的字符与余下的关键字的读出的字符之间是否存在一个匹配。如果发现存在一个匹配,则控制程序在步骤S88确定诸读出的字符是否是搜索键和余下的关键字的最后一个字符。
如果在步骤S88发现诸读出的字符是最后的字符,则在步骤S89,控制程序将在搜索键和被压缩的关键字之间的匹配存储起来,从而结束处理。
如果在步骤S84发现在从搜索键的开头算起的n个字符与从最接近的上一个被压缩的关键字的开头算起的n个字符之间不存在匹配,和如果在步骤S87发现在搜索键的读出的字符与余下的关键字的读出的字符之间不存在匹配,则在步骤S90,控制程序将在搜索键和被压缩的关键字之间的一个不匹配存储起来。然后,控制程序将在搜索键和被压缩的关键字之间的诸匹配字符的数目匹配存储起来,从而结束处理。
如果在步骤S88发现诸读出的字符不是最后的字符,则在步骤S91,控制程序读出搜索键的下一个字符。在步骤S92,控制程序从存储在字典ROM 55中的文本本体数据110读出被压缩的关键字的余下的关键字的下一个字符,并且前进到步骤S87,重复字符比较处理。
如果在步骤S82,发现被压缩的关键字的匹配字符的计数n是0,则不需要对匹配字符的计数进行处理,从而控制程序前进到步骤S85,实施字符比较。
于是,数据库检索设备实施在搜索键和选择的被压缩的关键字之间的比较,并将在它们之间的匹配或不匹配存储起来。
下面,我们将参照图15中所示的流程图描述由CPU 51根据存储在ROM 52中的控制程序在从一个搜索键的开头算起的k个字符与从一个被压缩的关键字的开头算起的k个字符之间实施对于步骤S83的比较处理。首先,在步骤S101,控制程序从字典ROM 55读出被压缩的关键字的匹配字符的计数m。
在步骤S102,控制程序确定被压缩的关键字的匹配字符的计数m是否是0。如果确定的结果是“否”,则控制程序前进到步骤S103,并实施在从搜索键的开头算起的m个字符与从最接近的上一个被压缩的关键字的开头算起的m个字符之间的比较。即,控制程序循环地实施在从搜索键的开头算起的k个字符与从被压缩的关键字的开头算起的k个字符之间的比较。
如果将搜索键和最接近的上一个被压缩的关键字的匹配字符的计数存储起来,并且在步骤S90和步骤S110发现在从搜索键的开头算起的m个字符与从最接近的上一个被压缩的关键字的开头算起的m个字符之间存在一个匹配,则跳过步骤S103。
在步骤S104,控制程序,根据步骤S103中实施的处理结果,确定在从搜索键的开头算起的m个字符与从最接近的上一个被压缩的关键字的开头算起的m个字符之间是否存在一个匹配。如果发现存在一个匹配,则控制程序前进到步骤S105,读出搜索键的第m+1个字符。在步骤S106,控制程序从存储在字典ROM 55中的文本本体数据110读出被压缩的关键字的余下的关键字的第一个字符。
在步骤S107,控制程序确定在搜索键的读出的字符与余下的关键字的字符之间是否存在一个匹配。如果发现存在一个匹配,则控制程序前进到步骤S108,确定诸读出的字符是否是搜索键和被压缩的关键字的诸第k个字符。
如果在步骤S108发现诸读出的字符是搜索键和被压缩的关键字的诸第k个字符,则控制程序前进到步骤S109,将在从搜索键的开头算起的k个字符与从被压缩的关键字的开头算起的k个字符之间存在的匹配存储起来,从而结束处理。
如果在步骤S104发现在从搜索键的开头算起的m个字符与从最接近的上一个被压缩的关键字的开头算起的m个字符之间不存在匹配,和如果在步骤S107发现在搜索键的读出的字符与余下的关键字的字符之间不存在匹配,则控制程序前进到步骤S110,将在从搜索键的开头算起的k个字符与从被压缩的关键字的开头算起的k个字符之间的不匹配存储起来。然后,控制程序将在搜索键和被压缩的关键字之间的诸匹配字符的数目匹配存储起来,从而结束处理。
如果在步骤S108发现诸读出的字符不是搜索键和被压缩的关键字的诸第k个字符,则控制程序前进到步骤S111,读出搜索键的下一个字符。在步骤S112,控制程序从存储在字典ROM 55中的文本本体数据110读出被压缩的关键字的余下的关键字的下一个字符,并前进到步骤S107,重复字符比较处理。
如果在步骤S102,发现被压缩的关键字的匹配字符的计数m是0,则不需要对匹配字符的计数进行处理,从而控制程序前进到步骤S105,实施字符比较处理。
于是,数据库检索设备实施在从搜索键的开头算起的k个字符与从被压缩的关键字的开头算起的k个字符之间的比较,并将一个表示在这些k个字符之间是否存在一个匹配的结果存储起来。
参照图16,那里画出了一个用于描述存储在字典ROM 55中的另一个文本本体数据的图。如果一个未被压缩的关键字后面跟随着另一个未被压缩的关键字并且这些未被压缩的关键字的诸第一个字符串相互不匹配,则将在文本本体数据101中的一个被压缩的关键字的匹配字符的计数设置为“00”。如果在诸未被压缩的关键字的这些字符串中的诸匹配字符的数目是1或1以上,则将被压缩的关键字的匹配字符的计数设置为“0”后面的“1”。
例如,如果一个未被压缩的关键字“APPLE”后面跟随着一个未被压缩的关键字“APPLESEED”,则后者和前者在最初的5个字符中是相互匹配的,从而将“011111”设置为一个与未被压缩的关键字“APPLESEED”对应的被压缩的关键字的匹配字符的计数,和将通过从“APPLESEED”删除最初5个字符导致的“SEED”设置为余下的关键字。
将文本本体数据101分成每个都有一个预先确定的存储区域的诸字段102-1到102-2。在图16所示的例子中,将文本本体数据101分成两个字段102-1到102-2。然而,也可以将文本本体数据101分成多于两个的字段。
这样,检索文本本体数据110或101不需要索引。此外,将与常规的被压缩的关键字比较由较少的字符组成的诸被压缩的关键字存储在文本本体数据110或101中。因此,这些就减少了用于存储文本本体数据110或101的存储区域的尺度。例如,将包括诸预先确定的标识符在内的约1.5兆比特的诸被压缩的关键字存储在能存储一个60,000到70,000字的文本本体的文本本体数据中。
进一步,因为要被比较的诸字符的数目较小,所以根据诸被压缩的关键字的检索处理比相关技术的检索处理快。
在上述的实施例中,我们用字典ROM 55存储文本本体数据110。对于那些熟练的技术人员来说,显然知道可以将文本本体数据110存储在磁盘60,光盘61,磁光盘62或半导体存储器63上。即,与本发明有关的信息存储媒体是由例如字典ROM 55,磁盘60,光盘61,磁光盘62或半导体存储器63构成的。
在上述的实施例中,字典ROM 55将文本本体数据110预先存储起来。对于那些熟练的技术人员来说,显然知道字典ROM 55可以由例如一个用于通过通信块64存储文本本体数据110的EEPROM构成。
可以由硬件以及软件实施上述的一系列处理操作。对于用软件实施的情形,我们使用一台计算机,在该计算机中将构成这个软件的诸程序存储在一个专用的硬件装置中;否则例如用一台一般目的的个人计算机,在该计算机中安装有这些来自一个程序存储媒体的程序。
一个用于存储诸计算机-可读和可执行的程序的程序存储媒体可以是一个由磁盘60(包括软盘),光盘61(包括CD-ROM(光盘-只读存储器)和DVD(数字通用光盘)),磁光盘62(包括MD(小型光盘))或半导体存储器63,其上暂时地或永久地存储着诸程序的ROM 52,或一个硬盘构成的程序包媒体,在图中未画出。通过由一个路由器或当需要时的调制解调器构成的通信块64从有线或无线通信媒体如一个本地区网络,因特网,和数字卫星广播将诸程序存储在程序存储媒体中。
我们应该指出不仅以一个与时间有关的方式以所描述的顺序执行,而且以并行的或以一个离散的方式执行描述存储在程序存储媒体中的诸程序的诸步骤。
虽然我们已经用诸特定的术语描述了本发明的诸优先的实施例,但是这种描述只是为了说明的目的,我们懂得可以作出诸改变和诸变化而没有偏离所附的权利要求书的精神或范围。
Claims (20)
1.一种数据压缩方法,它用于有效地检索为了检索主数据的关键字数据和压缩被记录在一个记录媒体上的所述的关键字数据的一个数据量,该方法包括下列诸步骤:
比较由诸字符的第一个数目组成的第一个关键字数据与由诸字符第二个数目组成的第二个关键字数据,所述的第二个关键字数据的诸字符的所述的第二个数目大于所述的第一个关键字数据的诸字符的所述的第一个数目;
根据在所述的第一个关键字数据和所述的第二个关键字数据之间的一个比较结果,检测在所述的第一个关键字数据和所述的第二个关键字数据之间的诸匹配字符的数目,从所述的第二个关键字数据删除一个与所述的第一个关键字数据匹配的字符,并产生一个有诸匹配字符的所述数目和一个通过从所述的与第二个关键字数据删除所述的与所述的第一个关键字数据匹配的字符得到的一个不匹配字符的数据包;和
将说述的数据包记录在所述的记录媒体上。
2.根据权利要求1的数据压缩方法,其中所述的第一个关键字数据和所述的第二个关键字数据按照一个预先确定的安排规则位于相互邻接的位置上。
3.根据权利要求1的数据压缩方法,其中所述的记录媒体有多个存储区域,每个区域都有一个预先确定的存储尺度,所述的方法进一步包括下列诸步骤:
从记录在所述的记录媒体上的所述的多个记录区域中的每一个上的所述的诸数据包中的至少一个选择一个关键字数据;和
通过将所述的关键字数据与所述的多个记录区域中的每一个联系起来,记录对在所述的记录媒体上的所述的多个记录区域中的每一个选择的所述的关键字数据。
4.一种数据检索方法,它用于根据一个输入的搜索键和所述的被压缩的关键字数据,检索在一个由所述的主数据,由在与所述的主数据有关的关键字数据和相邻的关键字数据之间的诸重复字符的数目组成的被压缩的关键字数据和通过从所述的关键字数据删除一个重复的字符得到的一个不匹配字符组成的数据包中的主数据,该方法包括下列诸步骤:
检索所述的数据包,在该数据包中所述的关键字数据等于所述的不匹配字符;
检测在所述的检索步骤中被检索的所述的数据包中的所述的被压缩的关键字数据的一个不匹配字符与所述的搜索键之间的一个不匹配部分;和
如果在所述的被压缩的关键字数据的所述的不匹配字符与所述的搜索键之间检测出所述的不匹配部分,则检测在一个与所述的数据包相邻的数据包的所述的被压缩的关键字数据的一个不匹配字符和所述的检测出的不匹配部分之间的一个不匹配部分。
5.根据权利要求4的数据检索方法,其中所述的记录媒体有多个存储区域,每个区域都有一个预先确定的存储尺度和用于搜索所述的多个存储区域的多个存储区域搜索键,检索所述的数据包的步骤,在该数据包中所述的关键字数据等于所述的不匹配字符,进一步包括下列步骤:
根据所述的搜索键和所述的存储区域搜索键,向前搜索在其中存储被检索的数据包的存储区域附近的存储区域。
6.根据权利要求4的数据检索方法,其中按照一个预先确定的安排规则安排记录在所述的记录媒体上的诸数据包。
7.一种数据检索设备,它用于根据一个输入的搜索键和所述的被压缩的关键字数据,从一个记录一个由所述的主数据,由在与所述的主数据有关的关键字数据和相邻的关键字数据之间的诸重复字符的数目组成的被压缩的关键字数据和通过从所述的关键字数据删除一个重复字符得到的一个不匹配字符组成的数据包的记录媒体检索主数据,所述的数据检索设备包括:
记录媒体接入装置,用于从所述的记录媒体读出所述的数据包;
检索装置,用于检索所述的数据包,在该数据包中所述的关键字数据等于所述的不匹配字符;
不匹配检测装置,用于检测在一个预先确定的数据包中的所述的被压缩的关键字数据中的一个不匹配字符和一个用于比较的输入的字符串之间的一个不匹配部分;和
控制装置,用于控制所述的检索装置,使检索装置能检索其中所述的关键字数据等于所述的不匹配字符的所述的数据包,通过控制所述的不匹配检测装置检测在被检索的数据包和所述的输入的搜索键之间的一个不匹配部分;和如果发现所述的不匹配部分,则通过控制所述的不匹配检测装置,检测在检测出的不匹配部分和一个与被所述的检索装置检索的数据包相邻的数据包之间的一个不匹配部分,并通过控制所述的记录媒体接入装置将它读出来。
8.根据权利要求7的数据检索设备,进一步包括显示装置,用于显示包含在所述的数据包中的主数据,所述的数据包是在所述的控制装置的控制下由所述的搜索键检索出来的。
9.根据权利要求7的数据检索设备,进一步包括用于输入所述的搜索键的输入装置,所述的控制装置根据从所述的输入装置输入的所述的搜索键检索所述的数据包。
10.根据权利要求7的数据检索设备,其中所述的数据包进一步有与所述的主数据有关的子数据,所述的数据检索设备在所述的显示装置上在显示出所述的被检索的主数据前,先显示出所述的子数据。
11.根据权利要求7的数据检索设备,其中所述的记录媒体有多个数据包记录区域,每个记录区域都有一个预先确定的记录尺度,用于记录诸所述的数据包中的至少一个,和一个记录识别数据的识别数据记录区域,识别数据用于识别记录在所述的多个数据包记录区域中的诸所述的数据包中的至少一个,将所述的识别数据与所述的多个数据包记录区域中的每一个有关地记录下来,
所述的数据检索设备进一步包括识别数据接入装置,用于从所述的识别数据记录区域读出所述的识别数据,和
所述的控制装置根据所述的输入的搜索键控制所述的识别数据接入装置,开始从其中记录了要被检索的数据包的数据包记录区域附近的数据包记录区域进行一个检索。
12.一种数据检索设备,它用于根据一个输入的搜索键和所述的被压缩的关键字数据,从一个记录一个由所述的主数据,由在与所述的主数据有关的关键字数据和相邻的关键字数据之间的诸重复字符的数目组成的被压缩的关键字数据和通过从所述的关键字数据删除一个重复字符得到的一个不匹配字符组成的数据包的记录媒体检索主数据,所述的数据检索设备包括:
记录媒体接入装置,用于从所述的记录媒体读出所述的数据包;
操作员装置,用于输入所述的搜索键;
显示装置,用于显示所述的被检索的主数据;
被压缩的关键字数据检索装置,用于从由所述的记录媒体读出的所述的数据包检索所述的被压缩的关键字数据;
第一个比较装置,用于比较所述的被压缩的关键字数据的一个不匹配字符和搜索键;
保持装置,用于根据所述的比较装置作出的一个比较结果,保持在所述的被压缩的关键字数据的不匹配字符和所述的搜索键之间的诸不匹配字符的数目;
第二个比较装置,用于比较保持在所述的保持装置中的诸字符的数目与表示诸被压缩的字符的数目的数据;和
控制装置,用于控制所述的第一个比较装置,使所述的第一个比较装置比较从所述的操作员装置输入的所述的搜索键与由所述的被压缩的关键字数据检索装置检索的被压缩的关键字数据的诸不匹配字符的数目,并将通过所述的第一个比较装置进行比较得到的所述的搜索键和所述的被压缩的关键字数据之间的匹配字符的数目保持在所述的保持装置中,比较一个相邻的数据包的所述的不匹配字符与用所述的比较装置发现不匹配的所述的搜索键的一个字符串,和将这样检索得到的所述的主数据在所述的显示装置上显示出来。
13.一种有主信号和一个用于检索所述的主数据的检索字符串的数据包信号,该信号包括:
一个主数据信号部分;
在压缩用于检索所述的主数据的关键字数据和用于另一个主数据的关键字数据之间的一个匹配的字符部分后保留下来的一个不匹配信号部分;和
一个表示被压缩的数据的诸字符的数目的被压缩的字符的计数信号部分。
14.根据权利要求13的数据包信号,它进一步包括一个表示所述的主数据的一个内容的首部字部分。
15.根据权利要求13的数据包信号,其中当用于检索所述的主数据的所述的关键字数据等于所述的另一个主数据的所述的关键字数据时,通过压缩略去所述的不匹配信号部分。
16.根据权利要求13的数据包信号,进一步包括:
一个表示所述的数据包信号的开始的首部信号;
一个表示所述的首部字信号结束的首部字结束信号;
一个表示所述的主数据的开始的主数据开始信号。
17.一个记录一个有主数据和用于检索所述的主数据的被压缩的数据的数据包的记录媒体,所述的数据包包含:
所述的主数据;
在删除一个在用于检索所述的主数据的检索数据和用于检索一个相邻的数据包的主数据的检索数据之间的匹配字符后保留下来的不匹配数据;和
表示作为匹配的一个结果而被删除的诸字符的数目的诸被压缩的字符的数目。
18.根据权利要求17的记录媒体,其中用于压缩的相邻的检索数据是位于按照一个预先确定的安排规则安排的所述的数据包前面的数据包。
19.根据权利要求17的记录媒体,其中所述的数据包进一步有一个用于识别所述的主数据的首部字。
20.根据权利要求17的记录媒体,进一步有一个用于记录块关键字数据的块关键字数据记录区域,该块关键字数据用于检索一个其中一起放入一个或多个所述的数据包的块。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000015617 | 2000-01-25 | ||
JP015617/2000 | 2000-01-25 | ||
JP002277/2001 | 2001-01-10 | ||
JP2001002277A JP2001282820A (ja) | 2000-01-25 | 2001-01-10 | データ圧縮方法、検索方法、検索装置、データパケット信号および記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1316707A true CN1316707A (zh) | 2001-10-10 |
Family
ID=26584086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN01101746A Pending CN1316707A (zh) | 2000-01-25 | 2001-01-23 | 数据压缩与检索方法和数据检索设备及记录媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20010022792A1 (zh) |
JP (1) | JP2001282820A (zh) |
KR (1) | KR20010076315A (zh) |
CN (1) | CN1316707A (zh) |
HK (1) | HK1043411A1 (zh) |
TW (1) | TW482965B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100354865C (zh) * | 2006-02-20 | 2007-12-12 | 南京工业大学 | 仿人工细粒度网页信息采集方法 |
CN100365629C (zh) * | 2005-01-17 | 2008-01-30 | 佳能信息技术(北京)有限公司 | 网页搜索的显示方法及其客户端设备 |
CN100367278C (zh) * | 2004-11-29 | 2008-02-06 | 中兴通讯股份有限公司 | 历史数据归档和查询装置及方法 |
CN100388276C (zh) * | 2002-06-07 | 2008-05-14 | 网络装置公司 | 多路并行现用文件系统 |
CN100390790C (zh) * | 2002-05-10 | 2008-05-28 | 甲骨文国际公司 | 存储和访问数据,以及提高数据库查询语言语句性能的方法和机制 |
CN100392658C (zh) * | 2006-05-30 | 2008-06-04 | 南京大学 | 基于本体的主题式网络爬虫系统构建方法 |
CN100399337C (zh) * | 2006-04-29 | 2008-07-02 | 哈尔滨工业大学 | 一种铸件凝固时搜索孤立区的方法 |
CN100401301C (zh) * | 2006-05-30 | 2008-07-09 | 南京大学 | 基于本体学习的智能主题式网络爬虫系统构建方法 |
CN100403306C (zh) * | 2005-03-11 | 2008-07-16 | 谢永强 | 实现不同平台间信息网站移植的方法 |
CN100405368C (zh) * | 2005-03-25 | 2008-07-23 | 威盛电子股份有限公司 | 多国语言软件执行系统及方法 |
CN100410934C (zh) * | 2005-01-21 | 2008-08-13 | 林修平 | 使用于通讯系统中的实时数据搜寻系统 |
CN100424699C (zh) * | 2006-04-30 | 2008-10-08 | 华中科技大学 | 一种属性可扩展的对象文件系统 |
CN100440204C (zh) * | 2002-11-28 | 2008-12-03 | 国际商业机器公司 | 用于将文件超链接的方法和系统 |
CN100465959C (zh) * | 2006-05-25 | 2009-03-04 | 中国工商银行股份有限公司 | 本地化数据采集方法和系统 |
CN100489844C (zh) * | 2003-11-25 | 2009-05-20 | Abb技术股份公司 | 类属产品查找器系统和方法 |
CN100576317C (zh) * | 2004-05-19 | 2009-12-30 | 索尼株式会社 | 内容呈现设备和内容呈现方法 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040187083A1 (en) * | 2003-03-18 | 2004-09-23 | Tracey Bryan D. | System and method for reducing the size of wireless communications |
US9069547B2 (en) | 2006-09-22 | 2015-06-30 | Intel Corporation | Instruction and logic for processing text strings |
US10069924B2 (en) | 2007-07-25 | 2018-09-04 | Oath Inc. | Application programming interfaces for communication systems |
US9584343B2 (en) | 2008-01-03 | 2017-02-28 | Yahoo! Inc. | Presentation of organized personal and public data using communication mediums |
KR20100050072A (ko) * | 2008-11-05 | 2010-05-13 | 삼성전자주식회사 | 데이터 압축 방법 및 이를 이용한 데이터 통신 시스템 |
EP2438571A4 (en) | 2009-06-02 | 2014-04-30 | Yahoo Inc | AUTOMATICALLY ADDRESSED ADDRESS BOOK |
US20110191717A1 (en) | 2010-02-03 | 2011-08-04 | Xobni Corporation | Presenting Suggestions for User Input Based on Client Device Characteristics |
KR101049699B1 (ko) * | 2009-07-17 | 2011-07-15 | (주)이스트소프트 | 데이터의 압축방법 |
US9514466B2 (en) | 2009-11-16 | 2016-12-06 | Yahoo! Inc. | Collecting and presenting data including links from communications sent to or from a user |
US9760866B2 (en) | 2009-12-15 | 2017-09-12 | Yahoo Holdings, Inc. | Systems and methods to provide server side profile information |
US8924956B2 (en) * | 2010-02-03 | 2014-12-30 | Yahoo! Inc. | Systems and methods to identify users using an automated learning process |
US8754848B2 (en) | 2010-05-27 | 2014-06-17 | Yahoo! Inc. | Presenting information to a user based on the current state of a user device |
US9549197B2 (en) * | 2010-08-16 | 2017-01-17 | Dolby Laboratories Licensing Corporation | Visual dynamic range timestamp to enhance data coherency and potential of metadata using delay information |
CN104025080B (zh) | 2011-11-04 | 2017-05-03 | 富士通株式会社 | 对照控制程序、对照控制装置以及对照控制方法 |
KR101403356B1 (ko) * | 2012-10-22 | 2014-06-05 | (주)티베로 | 데이터 압축 장치, 데이터 압축 방법 및 그 방법을 위한 컴퓨터 판독 가능한 기록 매체 |
US20160127771A1 (en) * | 2014-10-30 | 2016-05-05 | Broadcom Corporation | System and method for transporting hd video over hdmi with a reduced link rate |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4058672A (en) * | 1976-11-10 | 1977-11-15 | International Telephone And Telegraph Corporation | Packet-switched data communications system |
US5881104A (en) * | 1996-03-25 | 1999-03-09 | Sony Corporation | Voice messaging system having user-selectable data compression modes |
US6618366B1 (en) * | 1997-12-05 | 2003-09-09 | The Distribution Systems Research Institute | Integrated information communication system |
-
2001
- 2001-01-10 JP JP2001002277A patent/JP2001282820A/ja not_active Withdrawn
- 2001-01-16 TW TW090100964A patent/TW482965B/zh active
- 2001-01-17 KR KR1020010002680A patent/KR20010076315A/ko not_active Application Discontinuation
- 2001-01-22 US US09/766,919 patent/US20010022792A1/en not_active Abandoned
- 2001-01-23 CN CN01101746A patent/CN1316707A/zh active Pending
-
2002
- 2002-04-09 HK HK02102664.9A patent/HK1043411A1/zh unknown
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100390790C (zh) * | 2002-05-10 | 2008-05-28 | 甲骨文国际公司 | 存储和访问数据,以及提高数据库查询语言语句性能的方法和机制 |
US7962531B2 (en) | 2002-06-07 | 2011-06-14 | Netapp, Inc. | Multiple concurrent active file systems |
US7685169B2 (en) | 2002-06-07 | 2010-03-23 | Netapp, Inc. | Multiple concurrent active file systems |
CN100388276C (zh) * | 2002-06-07 | 2008-05-14 | 网络装置公司 | 多路并行现用文件系统 |
CN100440204C (zh) * | 2002-11-28 | 2008-12-03 | 国际商业机器公司 | 用于将文件超链接的方法和系统 |
CN100489844C (zh) * | 2003-11-25 | 2009-05-20 | Abb技术股份公司 | 类属产品查找器系统和方法 |
CN100576317C (zh) * | 2004-05-19 | 2009-12-30 | 索尼株式会社 | 内容呈现设备和内容呈现方法 |
CN100367278C (zh) * | 2004-11-29 | 2008-02-06 | 中兴通讯股份有限公司 | 历史数据归档和查询装置及方法 |
CN100365629C (zh) * | 2005-01-17 | 2008-01-30 | 佳能信息技术(北京)有限公司 | 网页搜索的显示方法及其客户端设备 |
CN100410934C (zh) * | 2005-01-21 | 2008-08-13 | 林修平 | 使用于通讯系统中的实时数据搜寻系统 |
CN100403306C (zh) * | 2005-03-11 | 2008-07-16 | 谢永强 | 实现不同平台间信息网站移植的方法 |
CN100405368C (zh) * | 2005-03-25 | 2008-07-23 | 威盛电子股份有限公司 | 多国语言软件执行系统及方法 |
CN100354865C (zh) * | 2006-02-20 | 2007-12-12 | 南京工业大学 | 仿人工细粒度网页信息采集方法 |
CN100399337C (zh) * | 2006-04-29 | 2008-07-02 | 哈尔滨工业大学 | 一种铸件凝固时搜索孤立区的方法 |
CN100424699C (zh) * | 2006-04-30 | 2008-10-08 | 华中科技大学 | 一种属性可扩展的对象文件系统 |
CN100465959C (zh) * | 2006-05-25 | 2009-03-04 | 中国工商银行股份有限公司 | 本地化数据采集方法和系统 |
CN100392658C (zh) * | 2006-05-30 | 2008-06-04 | 南京大学 | 基于本体的主题式网络爬虫系统构建方法 |
CN100401301C (zh) * | 2006-05-30 | 2008-07-09 | 南京大学 | 基于本体学习的智能主题式网络爬虫系统构建方法 |
Also Published As
Publication number | Publication date |
---|---|
TW482965B (en) | 2002-04-11 |
US20010022792A1 (en) | 2001-09-20 |
KR20010076315A (ko) | 2001-08-11 |
JP2001282820A (ja) | 2001-10-12 |
HK1043411A1 (zh) | 2002-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1316707A (zh) | 数据压缩与检索方法和数据检索设备及记录媒体 | |
CN1215415C (zh) | 文件管理方法和存储信息记录重放装置 | |
CN1288581C (zh) | 用缩减大小的索引进行文献检索的设备 | |
CN1227613C (zh) | 注释数据生成、音素或字搜索及添加的相应设备与方法 | |
CN1139884C (zh) | 信息处理方法和装置 | |
CN1533163A (zh) | 电子节目指南数据的自由文本和属性搜索 | |
CN1503167A (zh) | 信息存储及检索 | |
CN1744087A (zh) | 搜索文档的文档处理装置及其控制方法 | |
CN1914602A (zh) | 文件名生成装置 | |
CN1180369C (zh) | 输入字符串的设备和方法 | |
CN1167014C (zh) | 文件处理方法和数据处理装置 | |
CN1172994A (zh) | 文件检索系统 | |
CN1959674A (zh) | 网络搜索方法、网络搜索设备和用户终端 | |
CN1239793A (zh) | 基于字符分类检索字符串的装置和方法 | |
CN101482877A (zh) | 内容显示装置 | |
CN101080927A (zh) | 内容推荐装置 | |
CN1146256C (zh) | 根据预设关键字对接收报文进行分类和存储的接收机 | |
CN1774027A (zh) | 数据处理装置、信息处理系统、选择程序及可读记录介质 | |
CN1910581A (zh) | 用于按类别提供关键字输入频率信息的搜索系统及其方法 | |
US20070168346A1 (en) | Method and system for implementing two-phased searching | |
CN1825304A (zh) | 信息管理装置、信息管理方法和信息管理程序 | |
CN1748215A (zh) | 信息处理设备、和信息处理方法以及计算机程序 | |
CN1677366A (zh) | 信息处理装置、信息处理方法、以及计算机程序 | |
CN1627294A (zh) | 用学习数据有效提取检索者合意的文档的过滤方法和设备 | |
CN1894675A (zh) | 信息处理装置、信息处理方法和计算机程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1043411 Country of ref document: HK |