CN102663011A - 一种位置敏感的签名索引方法 - Google Patents
一种位置敏感的签名索引方法 Download PDFInfo
- Publication number
- CN102663011A CN102663011A CN2012100746145A CN201210074614A CN102663011A CN 102663011 A CN102663011 A CN 102663011A CN 2012100746145 A CN2012100746145 A CN 2012100746145A CN 201210074614 A CN201210074614 A CN 201210074614A CN 102663011 A CN102663011 A CN 102663011A
- Authority
- CN
- China
- Prior art keywords
- word
- eigenwert
- text block
- position sensing
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title abstract description 11
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种位置敏感的签名索引方法,在计算文本位置敏感特征值时,同时包含长度为16比特的单词特征值和单词所在文本块中的相对位置信息,使得位置敏感特征值不但可以判断单词是否包含在文本内,还可以判断单词是否出现在特定的位置,具体包括如下步骤:计算文本的位置敏感特征值;根据所述文本的位置敏感特征值进行单词匹配查询。本发明用于提高索引更新效率,同时保证多个单词查询的词序一致性。
Description
技术领域
本发明属于信息检索技术领域,特别地涉及一种位置敏感的签名索引方法。
背景技术
信息爆炸时代,面对海量的数据,需要有效的信息获取途径来帮助用户检索,提取,整合信息。搜索引擎作为信息检索中的重要工具,日益成为人们获得信息的重要手段。搜索引擎的结构可以分为爬虫,数据处理,索引,匹配排序等部分,其中索引部分是构建引擎数据模型的核心,索引的结构,索引的大小,索引的更新效率等都直接影响索引引擎的质量。
索引结构可以分为,正向索引结构,倒排索引结构,位图索引结构,签名索引结构等。
对于搜索引擎中常用的单个词语的查询,倒排索引结构,位图索引结构和签名索引结构都能比较好的支持。但是位图索引结构需要的空间较大,不合适于大数据的检索。倒排索引对于单词查询的AND和OR操作有较好支持,但是不能很好的支持单词间词序的一致性。签名索引技术通常用于数字证书,用户验证领域。签名索引也可以用于信息的检索,使用签名方法对文本块中的每个单词进行特征值的计算,文本块的特征值签名就是包含的所有单词的特征值的并集。使用签名索引对于单词在文本块中的匹配比倒排索引效率高,同时,签名索引也支持单词的AND操作,但是由于签名索引机制,无法很好的支持单词的OR操作,同时无法支持文本块中的单词词序的正确性。因此,签名索引具有如下缺点:第一,对于文本块中的词序匹配,只能当成词袋中无序的单词匹配进行。第二,文本的签名索引方法需要对文本中的所有单词进行索引,因此文本块的长度越大,所包含的单词数量就越多,单词之间的特征值重叠就越强,因此越容易出现误配的情况。第三,对于不同长度的文本块的签名索引,当更新时需要对整个文本块进行重新计算,因此更新效率较低。
故,针对目前现有技术中存在的上述缺陷,实有必要进行研究,以提供一种方案,解决现有技术中存在的缺陷,避免造成索引更新效率低,单词词序无法保证的问题。
发明内容
为解决上述问题,本发明的目的在于提供一种位置敏感的签名索引方法,用于提高索引更新效率,同时保证多个单词查询的词序一致性。
为实现上述目的,本发明的技术方案为:
一种位置敏感的签名索引方法,在计算文本位置敏感特征值时,同时包含长度为16比特的单词特征值和单词所在文本块中的相对位置信息,使得位置敏感特征值不但可以判断单词是否包含在文本内,还可以判断单词是否出现在特定的位置,具体包括如下步骤:
计算文本块的位置敏感特征值;
根据所述文本块的位置敏感特征值进行单词匹配查询。
优选地,所述计算文本块的位置敏感特征值进一步包括以下步骤:
将需要检索的文本按照设定的固定长度的单词数量切割成不同的文本块;
将所述文本块切割成单词数组,去除字符串中包含的停用词,同时对单个单词进行词根操作,按照单词在文本块的顺序形成词组;
对于所述词组中的每个单词分别选择MD4,MD5,RipeMD128三种哈希算法,分别产生第一哈希值,第二哈希值和第三哈希值,对所述第一哈希值,第二哈希值和第三哈希值通过合取函数进行与操作,得到长度为16比特的特征值;
计算每个单词在文本块中出现的位置下标信息,记录所述位置下标信息;
将所述单词特征值向右循环偏移所述位置下标信息值,偏移后的第四哈希值为所述单词的位置敏感特征值;
计算文本块中的所有单词的位置敏感特征值,通过析取函数的或操作获得文本块的位置敏感特征值。
优选地,所述根据文本块的位置敏感特征值进行单词匹配查询进一步包括以下步骤:
提取出给定文本块的文本块的位置敏感特征值;
对需要匹配的单词使用MD4,MD5,RipeMD128哈希算法得到一长度为16比特的单词特征值,根据单词所在文本块中的相对位置偏移,得到所述单词的位置敏感特征值;
判断所述单词的位置敏感特征值是否包含在文本块特征值中,
如果包含,则单词和文本块查询匹配,
如果不包含,则文本块不包含该单词或单词没有出现在特定的位置上。
与现有技术采用的签名索引结构相比,本发明可提高索引更新效率,同时保证多个单词查询的词序一致性。
附图说明
图1为本发明实施例的位置敏感的签名索引方法的流程图;
图2为本发明实施例的位置敏感的签名索引方法步骤S10的流程图;
图3为本发明实施例的位置敏感的签名索引方法步骤S20的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参见图1,所是为本发明实施例的一种位置敏感的签名索引方法流程图,将单词特征值和单词在句子中的相对位置编织在一起,使得签名特征值不但可以判断单词是否包含在文本内,还可以判断单词是否出现在特定的位置,具体包括如下步骤:
S10,计算文本块的位置敏感特征值;
S20,根据文本块的位置敏感特征值进行单词匹配查询。
具体地,S10进一步包括以下步骤:
S101,将需要检索的文本按照设定的固定长度的单词数量分割成不同的文本块;
对于需要检索的文本,通过固定长度的单词数量分割成不同的文本块。该步骤的把文章分成同等单词数量的片段,在文章作小范围更新时,只需要对相应的文本块片段进行位置敏感签名算法的重计算,其它部分可以保持不变,提高了索引更新的效率。
S102,对指定文本块切割成单词数组,去除字符串中包含的停用词,同时对单词进行词根操作,按照单词在文本块的顺序形成词组;
具体的词组形式为:[单词1,单词2,单词3,...,单词N]。
S103,对于词组中的每个单词分别选择MD4,MD5,RipeMD128三种哈希算法,产生第一哈希值,第二哈希值和第三哈希值,对所述第一哈希值,第二哈希值和第三哈希值通过合取函数进行与操作,得到长度为16比特的单词特征值;
即,F(word)=FMD4(word)∩FMD5(word)∩FRipeMD128(word),其中FMD4(word)为第一哈希值,FMD5(word)为第二哈希值,FRipeMD128(word)为第三哈希值,F(word)为16比特的特征值。以上第一哈希值,第二哈希值和第三哈希值都为定长特征值,优点在于部分更新索引时,可以根据定长的特性直接定位到相应的文本块特征值所在位置进行更新操作。
S104,计算每个单词在文本块中出现的位置下标信息,记录所述位置下标信息;
计算每个单词在文本块中的位置下标信息p,记录p值。
S105,将长度为16比特的单词特征值向右循环偏移所述位置下标信息值,偏移后的第四哈希值为单词的位置敏感特征值;
例如特征值为10010001单词在句子的第2位,即位置下标信息值为2,那么需要向右循环偏移2位,得到第四哈希值为位置敏感特征值,位置敏感特征值为01100100。单词的位置敏感特征值不但包括了单词特征信息,还通过偏移包括了单词的位置信息,相同单词在不同位置上的特征值不同。
S106,计算文本块中的所有单词的位置敏感特征值,通过析取函数的或操作获得文本块的位置敏感特征值。
对于在步骤S101中的文本块分割成的单词数组[单词1,单词2,单词3,...,单词N]的位置敏感特征值分别为Fw1,Fw2,...,Fwn,则整个句子的特征值Fp=Fw1∪Fw2∪...∪Fwn,由于F长度为16比特,析取操作以后Fp长度还是16比特。Fp就是该文本块的位置敏感签名特征值。
具体地,S20进一步包括以下步骤:
S201,提取出给定文本块的位置敏感特征值Fp;
S202,对需要匹配的单词使用MD4,MD5,RipeMD128哈希算法得到一长度为16比特的单词特征值,根据单词所在文本块中的相对位置偏移,得到单词的位置敏感特征值Fw;
S203,判断所述单词的位置敏感特征值是否包含在文本块特征值中,
如果包含,则单词和文本块查询匹配,
如果不包含,则文本块不包含该单词或单词没有出现在特定的位置上。
可用公式Fp ∪Fw=Fp表示,其中Fp是指文本块的位置敏感签名特征值,Fw是指查询单词的位置敏感签名特征值,把Fp和Fw做二进制的或操作,得到的值如果和Fp相同,则表示Fw包含在Fp中,也就是单词包含在文本的特定位置中。
根据以上技术方案,可提高索引更新效率,同时保证多个单词查询的词序一致性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种位置敏感的签名索引方法,其特征在于,在计算文本的位置敏感特征值时,同时包含长度为16比特的单词特征值和单词所在文本块中的相对位置信息,使得位置敏感特征值不但可以判断单词是否包含在文本内,还可以判断单词是否出现在特定的位置,具体包括如下步骤:
计算文本块的位置敏感特征值;
根据所述位置敏感特征值进行单词匹配查询。
2.根据权利要求1所述的位置敏感的签名索引方法,其特征在于,所述计算文本的位置敏感特征值进一步包括以下步骤:
将需要检索的文本按照设定的固定长度的单词数量切割成不同的文本块;
将所述文本块切割成单词数组,去除字符串中包含的停用词,同时对单个单词进行词根操作,按照单词在文本块的顺序形成词组;
对于所述词组中的每个单词分别选择MD4,MD5,RipeMD128三种哈希算法,分别产生第一哈希值,第二哈希值和第三哈希值,对所述第一哈希值,第二哈希值和第三哈希值通过合取函数进行与操作,得到长度为16比特的单词特征值;
计算每个单词在文本块中出现的位置下标信息,记录所述位置下标信息;
将所述单词特征值向右循环偏移所述位置下标信息值,偏移后的第四哈希值为所述单词的位置敏感特征值;
计算文本块中的所有单词的位置敏感特征值,通过析取函数的或操作获得文本块的位置敏感特征值。
3.根据权利要求1所述的位置敏感的签名索引方法,其特征在于,根据所述文本块的位置敏感特征值进行单词匹配查询进一步包括以下步骤:
提取出给定文本块的文本块的位置敏感特征值;
对需要匹配的单词使用MD4,MD5,RipeMD128哈希算法得到一长度为16比特的单词特征值,根据单词所在文本块中的相对位置偏移,得到所述单词的位置敏感特征值;
判断所述单词的位置敏感特征值是否包含在文本块特征值中,
如果包含,则单词和文本块查询匹配,
如果不包含,则文本块不包含该单词或单词没有出现在特定的位置上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100746145A CN102663011B (zh) | 2012-03-20 | 2012-03-20 | 一种位置敏感的签名索引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100746145A CN102663011B (zh) | 2012-03-20 | 2012-03-20 | 一种位置敏感的签名索引方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102663011A true CN102663011A (zh) | 2012-09-12 |
CN102663011B CN102663011B (zh) | 2013-11-27 |
Family
ID=46772502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100746145A Expired - Fee Related CN102663011B (zh) | 2012-03-20 | 2012-03-20 | 一种位置敏感的签名索引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102663011B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949285A (zh) * | 2020-10-13 | 2021-06-11 | 广州市百果园网络科技有限公司 | 语句文本检测方法、系统、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101162470A (zh) * | 2007-11-16 | 2008-04-16 | 北京交通大学 | 一种基于分层匹配的视频广告识别方法 |
US20100070509A1 (en) * | 2008-08-15 | 2010-03-18 | Kai Li | System And Method For High-Dimensional Similarity Search |
CN101866366A (zh) * | 2010-07-15 | 2010-10-20 | 哈尔滨工业大学 | 一种基于内容的图像格式中文文档检索方法 |
-
2012
- 2012-03-20 CN CN2012100746145A patent/CN102663011B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101162470A (zh) * | 2007-11-16 | 2008-04-16 | 北京交通大学 | 一种基于分层匹配的视频广告识别方法 |
US20100070509A1 (en) * | 2008-08-15 | 2010-03-18 | Kai Li | System And Method For High-Dimensional Similarity Search |
CN101866366A (zh) * | 2010-07-15 | 2010-10-20 | 哈尔滨工业大学 | 一种基于内容的图像格式中文文档检索方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949285A (zh) * | 2020-10-13 | 2021-06-11 | 广州市百果园网络科技有限公司 | 语句文本检测方法、系统、电子设备及存储介质 |
CN112949285B (zh) * | 2020-10-13 | 2024-04-05 | 广州市百果园网络科技有限公司 | 语句文本检测方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102663011B (zh) | 2013-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104123374B (zh) | 分布式数据库中聚合查询的方法及装置 | |
CN101719128B (zh) | 一种基于模糊匹配的中文地理编码确定方法 | |
WO2016165538A1 (zh) | 一种地址数据的管理方法和装置 | |
CN105808609A (zh) | 一种信息点数据冗余的判别方法和设备 | |
CN104063365B (zh) | 在pdf文档中插入对象的方法 | |
US9773009B2 (en) | Methods and apparatus for obtaining structured information in fixed layout documents | |
CN104866610B (zh) | 一种基于相似类型匹配估算的SQLite删除数据恢复方法 | |
CN104199750A (zh) | 一种linux系统的文件恢复方法及装置 | |
CN103123650A (zh) | 一种基于整数映射的xml数据库全文索引方法 | |
CN102420842A (zh) | 一种移动网络中网页的发送方法及系统 | |
CN104714950A (zh) | 用于对数据库中的信息进行修正及补充的方法及系统 | |
CN112364114A (zh) | 地址标准化方法、装置、计算机设备和存储介质 | |
CN104391899B (zh) | 一种集中清算系统的数据管理方法及系统 | |
EP3343395A1 (en) | Data storage method and apparatus for mobile terminal | |
CN103106197A (zh) | 层次化数据的展示方法及系统 | |
CN106802958A (zh) | Cad数据到gis数据的转换方法及系统 | |
CN104516955A (zh) | 一种海量车机轨迹数据的存储方法 | |
CN104700030A (zh) | 一种病毒数据查找方法、装置及服务器 | |
CN102663011B (zh) | 一种位置敏感的签名索引方法 | |
CN102637204B (zh) | 一种基于互索引结构的文本查询方法 | |
CN105989124A (zh) | Sqlite文件恢复自增主键值的方法及其系统 | |
US20150278978A1 (en) | Onboard unit and method for updating geodata therein | |
CN104731965A (zh) | 一种基于互联网地图的酒店查询方法 | |
CN102436453B (zh) | 一种父子维的处理方法及装置 | |
CN104572605A (zh) | 脚注排版的实现方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131127 |