CN102663011A - 一种位置敏感的签名索引方法 - Google Patents

一种位置敏感的签名索引方法 Download PDF

Info

Publication number
CN102663011A
CN102663011A CN2012100746145A CN201210074614A CN102663011A CN 102663011 A CN102663011 A CN 102663011A CN 2012100746145 A CN2012100746145 A CN 2012100746145A CN 201210074614 A CN201210074614 A CN 201210074614A CN 102663011 A CN102663011 A CN 102663011A
Authority
CN
China
Prior art keywords
word
eigenwert
text block
position sensing
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100746145A
Other languages
English (en)
Other versions
CN102663011B (zh
Inventor
吴明晖
金苍宏
应晶
陈天洲
张红喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University City College ZUCC
Original Assignee
Zhejiang University City College ZUCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University City College ZUCC filed Critical Zhejiang University City College ZUCC
Priority to CN2012100746145A priority Critical patent/CN102663011B/zh
Publication of CN102663011A publication Critical patent/CN102663011A/zh
Application granted granted Critical
Publication of CN102663011B publication Critical patent/CN102663011B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种位置敏感的签名索引方法,在计算文本位置敏感特征值时,同时包含长度为16比特的单词特征值和单词所在文本块中的相对位置信息,使得位置敏感特征值不但可以判断单词是否包含在文本内,还可以判断单词是否出现在特定的位置,具体包括如下步骤:计算文本的位置敏感特征值;根据所述文本的位置敏感特征值进行单词匹配查询。本发明用于提高索引更新效率,同时保证多个单词查询的词序一致性。

Description

一种位置敏感的签名索引方法
技术领域
本发明属于信息检索技术领域,特别地涉及一种位置敏感的签名索引方法。
背景技术
信息爆炸时代,面对海量的数据,需要有效的信息获取途径来帮助用户检索,提取,整合信息。搜索引擎作为信息检索中的重要工具,日益成为人们获得信息的重要手段。搜索引擎的结构可以分为爬虫,数据处理,索引,匹配排序等部分,其中索引部分是构建引擎数据模型的核心,索引的结构,索引的大小,索引的更新效率等都直接影响索引引擎的质量。
索引结构可以分为,正向索引结构,倒排索引结构,位图索引结构,签名索引结构等。
对于搜索引擎中常用的单个词语的查询,倒排索引结构,位图索引结构和签名索引结构都能比较好的支持。但是位图索引结构需要的空间较大,不合适于大数据的检索。倒排索引对于单词查询的AND和OR操作有较好支持,但是不能很好的支持单词间词序的一致性。签名索引技术通常用于数字证书,用户验证领域。签名索引也可以用于信息的检索,使用签名方法对文本块中的每个单词进行特征值的计算,文本块的特征值签名就是包含的所有单词的特征值的并集。使用签名索引对于单词在文本块中的匹配比倒排索引效率高,同时,签名索引也支持单词的AND操作,但是由于签名索引机制,无法很好的支持单词的OR操作,同时无法支持文本块中的单词词序的正确性。因此,签名索引具有如下缺点:第一,对于文本块中的词序匹配,只能当成词袋中无序的单词匹配进行。第二,文本的签名索引方法需要对文本中的所有单词进行索引,因此文本块的长度越大,所包含的单词数量就越多,单词之间的特征值重叠就越强,因此越容易出现误配的情况。第三,对于不同长度的文本块的签名索引,当更新时需要对整个文本块进行重新计算,因此更新效率较低。
故,针对目前现有技术中存在的上述缺陷,实有必要进行研究,以提供一种方案,解决现有技术中存在的缺陷,避免造成索引更新效率低,单词词序无法保证的问题。
发明内容
为解决上述问题,本发明的目的在于提供一种位置敏感的签名索引方法,用于提高索引更新效率,同时保证多个单词查询的词序一致性。
为实现上述目的,本发明的技术方案为:
一种位置敏感的签名索引方法,在计算文本位置敏感特征值时,同时包含长度为16比特的单词特征值和单词所在文本块中的相对位置信息,使得位置敏感特征值不但可以判断单词是否包含在文本内,还可以判断单词是否出现在特定的位置,具体包括如下步骤:
计算文本块的位置敏感特征值;
根据所述文本块的位置敏感特征值进行单词匹配查询。
优选地,所述计算文本块的位置敏感特征值进一步包括以下步骤:
将需要检索的文本按照设定的固定长度的单词数量切割成不同的文本块;
将所述文本块切割成单词数组,去除字符串中包含的停用词,同时对单个单词进行词根操作,按照单词在文本块的顺序形成词组;
对于所述词组中的每个单词分别选择MD4,MD5,RipeMD128三种哈希算法,分别产生第一哈希值,第二哈希值和第三哈希值,对所述第一哈希值,第二哈希值和第三哈希值通过合取函数进行与操作,得到长度为16比特的特征值;
计算每个单词在文本块中出现的位置下标信息,记录所述位置下标信息;
将所述单词特征值向右循环偏移所述位置下标信息值,偏移后的第四哈希值为所述单词的位置敏感特征值;
计算文本块中的所有单词的位置敏感特征值,通过析取函数的或操作获得文本块的位置敏感特征值。
优选地,所述根据文本块的位置敏感特征值进行单词匹配查询进一步包括以下步骤:
提取出给定文本块的文本块的位置敏感特征值;
对需要匹配的单词使用MD4,MD5,RipeMD128哈希算法得到一长度为16比特的单词特征值,根据单词所在文本块中的相对位置偏移,得到所述单词的位置敏感特征值;
判断所述单词的位置敏感特征值是否包含在文本块特征值中,
如果包含,则单词和文本块查询匹配,
如果不包含,则文本块不包含该单词或单词没有出现在特定的位置上。
与现有技术采用的签名索引结构相比,本发明可提高索引更新效率,同时保证多个单词查询的词序一致性。
附图说明
图1为本发明实施例的位置敏感的签名索引方法的流程图;
图2为本发明实施例的位置敏感的签名索引方法步骤S10的流程图;
图3为本发明实施例的位置敏感的签名索引方法步骤S20的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参见图1,所是为本发明实施例的一种位置敏感的签名索引方法流程图,将单词特征值和单词在句子中的相对位置编织在一起,使得签名特征值不但可以判断单词是否包含在文本内,还可以判断单词是否出现在特定的位置,具体包括如下步骤:
S10,计算文本块的位置敏感特征值;
S20,根据文本块的位置敏感特征值进行单词匹配查询。
具体地,S10进一步包括以下步骤:
S101,将需要检索的文本按照设定的固定长度的单词数量分割成不同的文本块;
对于需要检索的文本,通过固定长度的单词数量分割成不同的文本块。该步骤的把文章分成同等单词数量的片段,在文章作小范围更新时,只需要对相应的文本块片段进行位置敏感签名算法的重计算,其它部分可以保持不变,提高了索引更新的效率。
S102,对指定文本块切割成单词数组,去除字符串中包含的停用词,同时对单词进行词根操作,按照单词在文本块的顺序形成词组;
具体的词组形式为:[单词1,单词2,单词3,...,单词N]。
S103,对于词组中的每个单词分别选择MD4,MD5,RipeMD128三种哈希算法,产生第一哈希值,第二哈希值和第三哈希值,对所述第一哈希值,第二哈希值和第三哈希值通过合取函数进行与操作,得到长度为16比特的单词特征值;
即,F(word)=FMD4(word)∩FMD5(word)∩FRipeMD128(word),其中FMD4(word)为第一哈希值,FMD5(word)为第二哈希值,FRipeMD128(word)为第三哈希值,F(word)为16比特的特征值。以上第一哈希值,第二哈希值和第三哈希值都为定长特征值,优点在于部分更新索引时,可以根据定长的特性直接定位到相应的文本块特征值所在位置进行更新操作。
S104,计算每个单词在文本块中出现的位置下标信息,记录所述位置下标信息;
计算每个单词在文本块中的位置下标信息p,记录p值。
S105,将长度为16比特的单词特征值向右循环偏移所述位置下标信息值,偏移后的第四哈希值为单词的位置敏感特征值;
例如特征值为10010001单词在句子的第2位,即位置下标信息值为2,那么需要向右循环偏移2位,得到第四哈希值为位置敏感特征值,位置敏感特征值为01100100。单词的位置敏感特征值不但包括了单词特征信息,还通过偏移包括了单词的位置信息,相同单词在不同位置上的特征值不同。
S106,计算文本块中的所有单词的位置敏感特征值,通过析取函数的或操作获得文本块的位置敏感特征值。
对于在步骤S101中的文本块分割成的单词数组[单词1,单词2,单词3,...,单词N]的位置敏感特征值分别为Fw1,Fw2,...,Fwn,则整个句子的特征值Fp=Fw1∪Fw2∪...∪Fwn,由于F长度为16比特,析取操作以后Fp长度还是16比特。Fp就是该文本块的位置敏感签名特征值。
具体地,S20进一步包括以下步骤:
S201,提取出给定文本块的位置敏感特征值Fp
S202,对需要匹配的单词使用MD4,MD5,RipeMD128哈希算法得到一长度为16比特的单词特征值,根据单词所在文本块中的相对位置偏移,得到单词的位置敏感特征值Fw
S203,判断所述单词的位置敏感特征值是否包含在文本块特征值中,
如果包含,则单词和文本块查询匹配,
如果不包含,则文本块不包含该单词或单词没有出现在特定的位置上。
可用公式Fp ∪Fw=Fp表示,其中Fp是指文本块的位置敏感签名特征值,Fw是指查询单词的位置敏感签名特征值,把Fp和Fw做二进制的或操作,得到的值如果和Fp相同,则表示Fw包含在Fp中,也就是单词包含在文本的特定位置中。
根据以上技术方案,可提高索引更新效率,同时保证多个单词查询的词序一致性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种位置敏感的签名索引方法,其特征在于,在计算文本的位置敏感特征值时,同时包含长度为16比特的单词特征值和单词所在文本块中的相对位置信息,使得位置敏感特征值不但可以判断单词是否包含在文本内,还可以判断单词是否出现在特定的位置,具体包括如下步骤:
计算文本块的位置敏感特征值;
根据所述位置敏感特征值进行单词匹配查询。
2.根据权利要求1所述的位置敏感的签名索引方法,其特征在于,所述计算文本的位置敏感特征值进一步包括以下步骤:
将需要检索的文本按照设定的固定长度的单词数量切割成不同的文本块;
将所述文本块切割成单词数组,去除字符串中包含的停用词,同时对单个单词进行词根操作,按照单词在文本块的顺序形成词组;
对于所述词组中的每个单词分别选择MD4,MD5,RipeMD128三种哈希算法,分别产生第一哈希值,第二哈希值和第三哈希值,对所述第一哈希值,第二哈希值和第三哈希值通过合取函数进行与操作,得到长度为16比特的单词特征值;
计算每个单词在文本块中出现的位置下标信息,记录所述位置下标信息;
将所述单词特征值向右循环偏移所述位置下标信息值,偏移后的第四哈希值为所述单词的位置敏感特征值;
计算文本块中的所有单词的位置敏感特征值,通过析取函数的或操作获得文本块的位置敏感特征值。
3.根据权利要求1所述的位置敏感的签名索引方法,其特征在于,根据所述文本块的位置敏感特征值进行单词匹配查询进一步包括以下步骤:
提取出给定文本块的文本块的位置敏感特征值;
对需要匹配的单词使用MD4,MD5,RipeMD128哈希算法得到一长度为16比特的单词特征值,根据单词所在文本块中的相对位置偏移,得到所述单词的位置敏感特征值;
判断所述单词的位置敏感特征值是否包含在文本块特征值中,
如果包含,则单词和文本块查询匹配,
如果不包含,则文本块不包含该单词或单词没有出现在特定的位置上。
CN2012100746145A 2012-03-20 2012-03-20 一种位置敏感的签名索引方法 Expired - Fee Related CN102663011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100746145A CN102663011B (zh) 2012-03-20 2012-03-20 一种位置敏感的签名索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100746145A CN102663011B (zh) 2012-03-20 2012-03-20 一种位置敏感的签名索引方法

Publications (2)

Publication Number Publication Date
CN102663011A true CN102663011A (zh) 2012-09-12
CN102663011B CN102663011B (zh) 2013-11-27

Family

ID=46772502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100746145A Expired - Fee Related CN102663011B (zh) 2012-03-20 2012-03-20 一种位置敏感的签名索引方法

Country Status (1)

Country Link
CN (1) CN102663011B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949285A (zh) * 2020-10-13 2021-06-11 广州市百果园网络科技有限公司 语句文本检测方法、系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101162470A (zh) * 2007-11-16 2008-04-16 北京交通大学 一种基于分层匹配的视频广告识别方法
US20100070509A1 (en) * 2008-08-15 2010-03-18 Kai Li System And Method For High-Dimensional Similarity Search
CN101866366A (zh) * 2010-07-15 2010-10-20 哈尔滨工业大学 一种基于内容的图像格式中文文档检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101162470A (zh) * 2007-11-16 2008-04-16 北京交通大学 一种基于分层匹配的视频广告识别方法
US20100070509A1 (en) * 2008-08-15 2010-03-18 Kai Li System And Method For High-Dimensional Similarity Search
CN101866366A (zh) * 2010-07-15 2010-10-20 哈尔滨工业大学 一种基于内容的图像格式中文文档检索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949285A (zh) * 2020-10-13 2021-06-11 广州市百果园网络科技有限公司 语句文本检测方法、系统、电子设备及存储介质
CN112949285B (zh) * 2020-10-13 2024-04-05 广州市百果园网络科技有限公司 语句文本检测方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN102663011B (zh) 2013-11-27

Similar Documents

Publication Publication Date Title
CN104123374B (zh) 分布式数据库中聚合查询的方法及装置
CN101719128B (zh) 一种基于模糊匹配的中文地理编码确定方法
WO2016165538A1 (zh) 一种地址数据的管理方法和装置
CN105808609A (zh) 一种信息点数据冗余的判别方法和设备
CN104063365B (zh) 在pdf文档中插入对象的方法
US9773009B2 (en) Methods and apparatus for obtaining structured information in fixed layout documents
CN104866610B (zh) 一种基于相似类型匹配估算的SQLite删除数据恢复方法
CN104199750A (zh) 一种linux系统的文件恢复方法及装置
CN103123650A (zh) 一种基于整数映射的xml数据库全文索引方法
CN102420842A (zh) 一种移动网络中网页的发送方法及系统
CN104714950A (zh) 用于对数据库中的信息进行修正及补充的方法及系统
CN112364114A (zh) 地址标准化方法、装置、计算机设备和存储介质
CN104391899B (zh) 一种集中清算系统的数据管理方法及系统
EP3343395A1 (en) Data storage method and apparatus for mobile terminal
CN103106197A (zh) 层次化数据的展示方法及系统
CN106802958A (zh) Cad数据到gis数据的转换方法及系统
CN104516955A (zh) 一种海量车机轨迹数据的存储方法
CN104700030A (zh) 一种病毒数据查找方法、装置及服务器
CN102663011B (zh) 一种位置敏感的签名索引方法
CN102637204B (zh) 一种基于互索引结构的文本查询方法
CN105989124A (zh) Sqlite文件恢复自增主键值的方法及其系统
US20150278978A1 (en) Onboard unit and method for updating geodata therein
CN104731965A (zh) 一种基于互联网地图的酒店查询方法
CN102436453B (zh) 一种父子维的处理方法及装置
CN104572605A (zh) 脚注排版的实现方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131127