CN1121655C - 实现不规则片语快速查找的方法 - Google Patents

实现不规则片语快速查找的方法 Download PDF

Info

Publication number
CN1121655C
CN1121655C CN 98104140 CN98104140A CN1121655C CN 1121655 C CN1121655 C CN 1121655C CN 98104140 CN98104140 CN 98104140 CN 98104140 A CN98104140 A CN 98104140A CN 1121655 C CN1121655 C CN 1121655C
Authority
CN
China
Prior art keywords
key word
key
word
phrase
eigenwert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 98104140
Other languages
English (en)
Other versions
CN1190216A (zh
Inventor
王东胜
穆立源
宋建福
林光信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN 98104140 priority Critical patent/CN1121655C/zh
Publication of CN1190216A publication Critical patent/CN1190216A/zh
Application granted granted Critical
Publication of CN1121655C publication Critical patent/CN1121655C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

实现不规则片语快速查找的方法,该法藉抽取一关键字库中所有关键字的多个共通特征进行编码,依特征间关连性分别建立多个索引表,针对当前计算机屏幕上待查的片语或字符串进行查找时,依据特征的规则,利用逆向排除运算法,自索引表中针对该共通特征进行查找对比,以判断该关键字库中各关键字的对比价值,排除该关键字库中绝大多数特征不符的关键字,直到通过索引表自该关键字库中筛选出少数特征相同的关键字后,再逐一针对该关键字进行细部对比,以查找出所欲查找的关键字。

Description

实现不规则片语快速 查找的方法
                         技术领域
本发明涉及计算机检索方法,特别涉及可在极短的时间内,自个人计算机所存储的大量信息资料中,查找出所有相关的资料的方法。
                         背景技术
现今计算机技术的发展,无论在软件或硬件上,均以具有人性化、个性化及亲和性的设计理想及要求,作为吸引使用者的最终目的,以WIN95视窗作业系统为例,其人性化的界面设计不仅操作简便,且容易学习,而所提供的个性化工具,又可令使用者根据其个人喜好规划及布置所使用的画面,使计算机环境充满个人风格,如此,使用者对于计算机的使用操作,已变得像布置自家后院一样地简单,且乐于利用计算机处理事务、检索新技术及信息,但是,在另一方面,个人长期累积于计算机中的大量信息资料,也因其任意置放,极易四处散落于存储装置中诸多被遗忘的角落。
为解决上述问题,必须针对个人的大量信息资料间,建立一种如百科全书般的超链关系,例如:某使用者的计算机中存储有一朋友几年前传来的相片,还有历年来该朋友传来的电子邮件,以及该朋友最近传来的计算机音乐作品,此时,若该使用者是以该朋友的名字作为关键字,建立所有档案的关联,则该使用者以该朋友的名字进行检索时,所有与其相关的资料均将被列示,供该使用者选择开启,如此,该使用者即可在欣赏该朋友的最新音乐作品时,顺便调阅其相片,倘若该档案间没有此一超链关系,该使用者在计算机未提示相关档案名称的情形下,可能早已忘却该计算机中封存已久的陈年往事了。
目前各种计算机系统中所使用的快速查找方法均系利用一数据库或字典,针对当前屏幕上的单字或数据,自所设计的数据库/字典中查找所需的资料,其查询对象往往仅局限于单字。
在此种传统的查找方法中,若使用者欲针对个人计算机中所存储的大量信息资料进行查找,必需通过输入相关的单字,以作为检索及搜寻的依据,但是,由于该单字一般均系由使用者自行定义,非常不规则,例如:该单字可能构成一长片语(词组)、中英组合或混杂标点的字符串等,因此,传统查找方法并无法满足使用者的实际需求,而截至目前为止,尚未发现一种可有效针对该种片语及类似字符串的查找方法。
                         发明内容
本发明为有效改善上述传统查找方法的缺点,且使用者仅需藉由输入一片语或字符串(如:朋友们的名字或分类),即可在极短的时间内,自个人计算机所存储的大量信息资料中,查找出所有相关的资料,特针对一般片语或字符串的特点进行分析,其中片语是单字的组合,即由一长串字符所组成,其出现率低,而使用者自定义的字符串,其出现率更低,故本发明所设计的查找方法中,其查找方向是相反的,以针对当前屏幕上欲查找的片语或字符串,将一关键字库中的相关关键字予以快速地定位,供使用者选择,以有效改善传统查找方法效率低、速度慢且不能满足实际要求的缺点。
本发明针对片语或字符串的特点,利用快速排除非片语或字符串(而非快速确认片语或字符串)的判断处理方式,再加上本发明独创以片语特征确定片语的处理方式,即可大幅提高其快速查找的效率,例如:本发明的一关键字库中包含有一关键字“wang dong sheng”,此时,当前计算机屏幕上有一片语“wang dong is”,若利用传统查找方法,必需针对每一单字重复进行多次字符串的异同比较,直到比较到“is”不同时,才能排除此词的查找,而本发明则取“wang”的特征编码“w4”,在一索引表中查找是否有此编码,若有,则继续查“dong”的特征编码“d”,如果有,则比较“wang dong is”片语之长度10是否与关键字“wang dong sheng”的长度15相同,由于在本例中不同,于是排除此关键字的查找,如此,整个查找过程仅需进行三次整体的比较,即可达到查找的目的,其查找速度自然大幅度提高。
本发明提供的一种实现不规则片语快速查找的方法包括有步骤:
(a)抽取一关键字库中所有关键字的多个共通特征,对其进行编码;
(b)依其关连性分别建立多个索引表;
(c)当针对当前计算机屏幕上待查找的片语或字符串进行查找时,中央处理单元可依据该共通特征的规则,利用逆向排除的运算法,自该索引表中针对该特征进行查找对比,以判断该关键字库中各关键字的对比价值,排除该关键字库中绝大多数特征不符的关键字;和
(d)直到通过该索引表自该关键字库中筛选出少数该特征相同的关键字后,再逐一对针该关键字进行细部比对,以查找出所欲查找的关键字。
                       附图说明
图1是本发明实现不规则片语快速查找的硬件结构示意图;
图2是本发明实现不规则片语快速查找的系统结构示意图。
                      具体实施方式
本发明在实现不规则片语快速查找时,参照图1所示,其硬件结构主要包括一中央处理单元、一存储器单元、一存储单元(可视实际需要为一硬盘…等)、一输入装置(可视实际需要为一键盘、鼠标…等)、一输出装置(可视实际需要为一计算机监视器…等)及其它所需的周边装置,其中该中央处理单元是用以执行本发明的方法,并负责操控所有装置的运作,该存储器单元是用以存储本发明运作所需的相关数据,该存储单元是用以存储所建立的一关键字库,以提供使用者查找所需的关键字,该输入装置是提供输入资料,该输出装置是用以将输入装置所输入的资料及该中央处理单元所完成的查找结果予以显示。
本发明主要是先针对所建立的一关键字库中各关键字的特点进行编码,其编码方法及相应的由整体到细部的比较方法,可归纳为下列几点:
1、本发明针对一般的关键字都是由不规则片语组合而成的特性,藉抽取关键字的五个特征,对其进行编码,如此,当本发明对输入装置所输入的一片语或字符串进行关键字的验证时,仅需对其五个特征编码进行验证,而不需对其长达二、三十个字母所组合的片语或字符串中每一字母或符号逐一验证,故,其整体的比较速度将远远快于逐一验证每一字母或符号的速度,从而大幅度地提高了检索的速度;
2、本发明针对待查找的一片语或字符串中绝大多数的内容不包含关键字的特性,利用逆向排除的方法,就当前输出装置的屏幕上一待查找的片语或字符串,依五个特征编码设计的原则,自该关键字库中进行查找,经由对其第一单词的首字母及长度、第二单词的首字母、整个片语的长度…等特征编码的比较,迅速决定该关键字库中各关键字是否具备可比较的价值,再藉后续其它特征编码的每一次比较,进一步确认各关键字的可比较价值,直到极有可能的情况下,开始进行字符串的最后比较。故,本发明是一种通过由整体到细部的比较路径,根据当前屏幕所欲查找的内容,自一关键字库中筛选出少数整体特征相同,且具备比较价值的关键字后,再逐一针对该关键字进行细部对比,以确认完全符合需求的关键字,此种逆向排除法确实可大幅度减少字符串逐一比较所需的时间,从而达到真正快速查找的目的。
由于一关键字库中所包含的关键字范围广泛,现为能更清楚表达本发明的发明理想及技术特征,仅以查找一关键字“wang dong sheng”为例,详细说明如下:
本发明主要是针对关键字的特点进行编码,再根据此一编码规则利用逆向排除的运算法,达到快速查找的目的,其中该编码的数据结构及组织是为方便该逆向排除的运算法而制定,该编码方式主要是对所有关键字取出以下五项特征进行编码:
(1)关键字的第一个单词的首字母(中文取其内码的低12位);
(2)关键字的第一个单词的长度(中文取其内码的低12位);
(3)关键字的第二个单词的首字母(中文取其内码的高8位);
(4)关键字的尾字符(中文取其内码的低8位);
(5)关键字的总长度;其中第1及2项组成本发明中关键字的第一特征值,第3项组成本发明中关键字的第二特征值,依据以上5项特征基本上即可确定一个关键字。
在本发明中,假设该关键字库中所包含的关键字的最大长度为32个字节(对于其他长度的关键字,其做法以此类推),而所有关键字是根据下列三个表建立其关键字库:
(1)关键字表:包含关键字、关键字的尾字符、关键字的长度等三项,其中各关键字需依字典排序法排列,中文则按其内码排列;例如:一具有五个关键字的关键字表如下:
关键字 关键字的尾字符 关键字的长度
Li jian     n(ASCII110)     7
Li ming     g(ASCII103)     7
Wang dong     g(ASCII103)     9
012
Wang dong sheng   g(ASCII103)     15
穆立源   (ASCII110)     6
34
(2)二级索引表:是用以记录所有包含第一及第二特征值的关键字在关键字表中的位置,该索引表包括三项内容,其中第一项内容为关键字中第二单词的首字母(即第二特征);第二项内容为所有包含第一及第二特征值的关键字在关键字表中的起始位置(From);第三项内容为所有包含第一及第二特征值的关键字在关键字表中的结束位置(To);下表即一根据前述的关键字表所制作的二级索引表的内容:
关键字的第二特征值     FROM     TO
    j     0     0
    m     1     1
    d     2     3
    223(立)     4     4
0123其中该二级索引表中第三列第一项为d,是对应于前述关键字表的“wangdong”和“wang dong sheng”的第二特征值,由于该二关键字位于该关键字表中的第2列和第3列,故,在该二级索引表中的From及To分别为2及3。
(3)一级索引表:其大小固定,其内容与关键字的最大长度有关,所有关键字的第一特征值均可藉由公式计算出其在该一级索引表中的位置,此位置的内容指向该二级索引表中该关键字的第二特征值。当中央处理单元自输出装置的屏幕上扫描到一待查找的片语时,本发明首先会根据其第一特征值查找在一级索引表中相应的内容,如果为空,则不存在以此单词为首的关键字,此时,进行下一单词的扫描,否则,继续自二级索引表进行查找。
该一级索引表共分为两项,第一项为含有第一特征值的所有关键字在二级索引表中的起始位置(From),第二项为含有第二特征值的所有关键字在二级索引表中的结束位置(To);下表即一根据前述关键字表和二级索引表所制作的一级索引表的内容:
   FROM    T0
    …     …
    0     1
    …     …
236471
    2     2
    …     …
    3     3
    …     …
4287
本发明中,可由关键字的第一特征值,依下列公式计算其在一级索引表中的位置:
(西文)位置=(单词的长度-1)×A+单词的首字母的ASCII码值
(中文)位置=(中文内码的低十二位)+(A×B),
其中A是西文ASCII码表的大小,B是定义该关键字的最大长度。
这里A=128,B=32
本发明根据前述关键字库中的该等索引表,再依下列逆向排除运算法的步骤,参阅图2所示,进行如下的处理:
(1)由待查找的片语或字符串的第一特征值求出其在一级索引表中的位置,检查对应项的内容;若空白,则该关键字库中没有以此单词为首的关键字,继续步骤(5),结束该运算法的处理动作;
否则,依该对应的From及To项中的内容查找二级索引表中的相应内容,例如:屏幕上待查找的片语“wang dong sheng”中第一单词“wang”的第一特征为w4,其在一级索引表中的位置为(4-1)×128+87=471,此时,由一级索引表可知第471项的内容是From 2 To 2,所以,可由二级索引表中的位置“2”进行查找;
(2)中央处理单元继续在屏幕上扫描该待查找片语的第一单词后面的单词,将其第二特征与先前由二级索引表中查到的相应第一项内容相比较;若不相同,则表示该关键字库中没有以此二单词为首的关键字,此时,继续步骤(5),结束该运算法的处理动作;
否则,依二级索引表中查到的相应From及To的内容,查找关键字表中的相应内容,例如:屏幕上待查找的片语“wang dong sheng”中第二单词“dong”的第二特征为“d”,故依先前步骤得知,可自二级索引表中的位置“2”进行查找,其第一项内容“d”,其后两项为From 2 To 3,因此,由关键字表中查找位置3和2的内容(此查找顺序是按字典排列法,较长的词排在后面,所以先查位置靠后的项目)。
(3)由该关键字库的关键字表中取出相应位置的该关键字的长度和尾字节,并与屏幕上待查片语的长度和尾字节进行对比,并判断二者是否相符;若否,则表示该关键字库中没有此待查片语的关键字,此时,继续步骤(5)结束该运算法的处理动作;
否则,取出关键字表中的关键字,进一步与屏幕上待查片语的每一字符进行逐一对比,此时,由于该待查片语不是该关键字的可能性经筛选后已降至一极低的程度,故,既便进行费时的字符对比,也不致耗费太多时间,经对比后,仍无相符的关键字,则确定该关键字库中没有此待查片语的关键字,此时,继续步骤(5),结束该运算法的处理动作;
例如:屏幕上待查找片语“wang dong sheng”中,依先前步骤得知,可由关键字表中查找位置3和2的内容,此时,自关键字表中取出位置3的内容,其对应关键字长度为15,尾字节为g,此与屏幕上待查片语中第15个字符为g的事实恰好相同,然后再对屏幕上待查片语与关键字“wang dongsheng”进行字符的逐一对比,对比结果亦完全相同;
否则,继续步骤(4)的处理动作;
(4)确认屏幕上待查找片语即关键字,再对其进行单词标注等各项操作。
(5)结束该逆向排除运算法的处理。
如此,利用本发明的快速查找方法即可迅速排除许多与待查片语无关的关键字,从而自该关键字库的大量信息资料中筛选出较为接近的关键字,进行字符对比,如此,整个查找过程仅需进行几次整体性的比较,即可达成快速查找的目的,不仅有效减轻了中央处理单元的运算负担,大幅度缩短了查找所需的时间,更重要地是提供使用者一种操作简便且极具亲和力的查找工具。
以上所述,是本发明的较佳实施例,而本发明所主张的权利范围,并不局限于此,凡本领域所属技术人员,依据本发明所揭露的技术内容,可轻易思及的等效变化,均应属于不脱离本发明的保护范畴。

Claims (7)

1.一种实现不规则片语快速查找的方法,该方法包括有步骤:
(a)抽取一关键字库中所有关键字的多个共通特征,对其进行编码;
(b)依其关连性分别建立多个索引表;
(c)当针对当前计算机屏幕上待查找的片语或字符串进行查找时,中央处理单元可依据该共通特征的规则,利用逆向排除的运算法,自该索引表中针对该特征进行查找对比,以判断该关键字库中各关键字的对比价值,排除该关键字库中绝大多数特征不符的关键字;和
(d)直到通过该索引表自该关键字库中筛选出少数该特征相同的关键字后,再逐一针对该关键字进行细部比对,以查找出所欲查找的关键字。
2.如权利要求1所述的实现不规则片语快速查找的方法,其中该关键字库中除中文关键字之外的所有关键字的多个共通特征,主要包含:
(1)关键字的第一个单词的首字母;
(2)关键字的第一个单词的长度;
(3)关键字的第二个单词的首字母;
(4)关键字的尾字符;
(5)关键字的长度;其中第1及2项组成关键字的第一特征值,第3项组成关键字的第二特征值。
3.如权利要求1所述的实现不规则片语快速查找的方法,其中该关键字库中所有中文关键字的多个共通特征,主要包含:
(1)中文关键字的第一个单词内码的低12位;
(2)中文关键字的第一个单词内码的低12位的长度;
(3)中文关键字的第二个单词内码的高8位;
(4)中文关键字的最后一单词内码的低8位;
(5)关键字的总长度;其中第1及2项组成关键字的第一特征值,第3项组成关键字的第二特征值。
4.如权利要求2或3所述的实现不规则片语快速查找的方法,其中该索引表包含:
关键字表,该关键字表包含关键字、关键字的尾字符、关键字的长度三项,对关键字需依第一特征值排列,若第一特征值相同,则再依第二特征值排列,若第二特征值仍相同,则依长度排列,若各项均相同,则排列顺序为任意;
二级索引表,该二级索引表是用以记录所有包含第一及第二特征值的关键字在关键字表中的位置,该索引表包括关键字中第二单词的首字母、所有包含该第一及第二特征值的关键字在关键字表中的起始位置,及所有包含该第一及第二特征值的关键字在关键字表中的结束位置三项;
一级索引表,该一级索引表的大小固定,其内容包含第一特征值的所有关键字在二级索引表中的起始位置及第二特征值的所有关键字在二级索引表中的结束位置,所有关键字的第一特征值均可藉由公式计算出其在该一级索引表中的位置,此位置的内容是指向该二级索引表中该关键字的第二特征值。
5.如权利要求4所述的实现不规则片语快速查找的方法,其中该逆向排除运算法的步骤包括:
(1)由待查找片语的第一特征值求出其在一级索引表中的位置,检查对应项的内容,若空白,则该关键字库中没有以此单词为首的关键字,结束该运算法的处理;
否则,依该对应的起始位置及结束位置项中的内容,查找二级索引表中的相应内容;
(2)继续以该待查找片语的第二特征和先前由二级索引表中查到的相应第一项内容比较,若不相同,则表示该关键字库中没有以此二单词为首的关键字,结束该运算法的处理;
否则,依二级索引表中查到的相应起始位置及结束位置的内容,查找关键字表中的相应内容;
(3)由该关键字表中取出相应位置的该关键字的长度和尾字节,并与屏幕上待查片语的长度和尾字节进行对比,并判断二者是否相符,若否,则表示该关键字库中没有此待查片语的关键字,结束该运算法的处理;
否则,逐一取出关键字表中的关键字,进一步与屏幕上待查片语的每一字符进行逐一对比,若仍无相符的关键字,则确定该关键字库中没有此待查片语的关键字,结束该运算法的处理;
否则,继续步骤(4);
(4)确认屏幕上待查片语即关键字,再对其进行单词标注各项操作。
6.如权利要求4所述的实现不规则片语快速查找的方法,其中西文关键字的第一特征值可依下列公式计算其在一级索引表中的位置:
位置=(单词的长度-1)×A+单词的首字母的ASCII码值,其中A是西文ASCII码表的大小。
7.如权利要求4所述的实现不规则片语快速查找的方法,其中中文关键字的第一特征值可依下列公式计算其在一级索引表中的位置:
位置=(中文内码的低十二位)+(A×B),
其中A是西文ASCII码表的大小,B是定义该关键字的最大长度。
CN 98104140 1998-03-11 1998-03-11 实现不规则片语快速查找的方法 Expired - Fee Related CN1121655C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 98104140 CN1121655C (zh) 1998-03-11 1998-03-11 实现不规则片语快速查找的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 98104140 CN1121655C (zh) 1998-03-11 1998-03-11 实现不规则片语快速查找的方法

Publications (2)

Publication Number Publication Date
CN1190216A CN1190216A (zh) 1998-08-12
CN1121655C true CN1121655C (zh) 2003-09-17

Family

ID=5218173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 98104140 Expired - Fee Related CN1121655C (zh) 1998-03-11 1998-03-11 实现不规则片语快速查找的方法

Country Status (1)

Country Link
CN (1) CN1121655C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008098495A1 (fr) * 2007-02-14 2008-08-21 Jie Bai Procédé et dispositif de détermination d'un fichier objet

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008098495A1 (fr) * 2007-02-14 2008-08-21 Jie Bai Procédé et dispositif de détermination d'un fichier objet

Also Published As

Publication number Publication date
CN1190216A (zh) 1998-08-12

Similar Documents

Publication Publication Date Title
US6826576B2 (en) Very-large-scale automatic categorizer for web content
Shang et al. Tries for approximate string matching
US5710916A (en) Method and apparatus for similarity matching of handwritten data objects
Robertson et al. Applications of n‐grams in textual information systems
US7257530B2 (en) Method and system of knowledge based search engine using text mining
CN102142038B (zh) 用于记号空间资料库的多级查询处理系统与方法
EP1578020B1 (en) Data compressing method, program and apparatus
US8855998B2 (en) Parsing culturally diverse names
Sood et al. Probabilistic near-duplicate detection using simhash
CN1871605A (zh) 问答式文献检索系统和方法
CN1950831A (zh) 用于手写识别的装置和方法
CN105843960B (zh) 基于语义树的索引方法和系统
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
Bachteler et al. Similarity filtering with multibit trees for record linkage
US20090006075A1 (en) Phonetic search using normalized string
WO2020037794A1 (zh) 一种英文地名的索引建立方法及其查询方法和装置
Hauser et al. Unsupervised learning of edit distance weights for retrieving historical spelling variations
CN110245275B (zh) 一种大规模相似新闻标题快速归一化方法
CN1121655C (zh) 实现不规则片语快速查找的方法
Aref et al. Ink as a first-class datatype in multimedia databases
CN115204147A (zh) 一种数据特征指纹构建及相似性度量方法与索引
Ng et al. Data Fusion of Machine-Learning Methods for the TREC5 Routing Task (and other work).
Shrikhande et al. Enhancing Large Document Organization Through Effective Preprocessing and Data Embedding
CN110175268B (zh) 一种最长匹配资源映射方法
Benbrahim et al. Neighbourhood exploitation in hypertext categorization

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030917

Termination date: 20110311