CN105955982A - 信息序列特征编码和检索的方法和系统 - Google Patents

信息序列特征编码和检索的方法和系统 Download PDF

Info

Publication number
CN105955982A
CN105955982A CN201610239012.9A CN201610239012A CN105955982A CN 105955982 A CN105955982 A CN 105955982A CN 201610239012 A CN201610239012 A CN 201610239012A CN 105955982 A CN105955982 A CN 105955982A
Authority
CN
China
Prior art keywords
information
sequence
characteristic
unit
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610239012.9A
Other languages
English (en)
Inventor
张留学
朱小姣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Niwa Communication Technology Co Ltd
Original Assignee
Shanghai Niwa Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Niwa Communication Technology Co Ltd filed Critical Shanghai Niwa Communication Technology Co Ltd
Priority to CN201610239012.9A priority Critical patent/CN105955982A/zh
Publication of CN105955982A publication Critical patent/CN105955982A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息序列特征编码和检索的方法和系统,主要提供一种针对数字信息分段,对分段信息按最小信息单元进行增量哈希编码,形成分段信息特征编码序列,从而建立特征信息集合,提供一种基于信息bit位的特征检索的方法和系统。主要包括:信息分割,对分割的信息进行递增散列编码,形成特征信息序列,存储特征信息序列,构建特征信息集合;构建特征信息和文档关系表;以及建立在其上的基于信息bit位的特征检索的方法和系统。

Description

信息序列特征编码和检索的方法和系统
技术领域
本发明涉及信息检索领域,主要提供一种针对数字信息分段,对分段信息按最小信息单元进行增量哈希编码,形成分段信息特征编码序列,构建一种基于信息bit位的特征检索。
背景技术
随着计算机网络技术、通讯技术飞速发展,人类进入数字化时代,信息的存储和查找就尤为重要了。信息分类一般来说:主要分为结构化信息和非结构化信息。结构化信息是可以数字化的数据信息,可以方便地通过计算机和数据库技术进行管理。无法完全数字化的信息称为非结构化信息,这些资源中拥有大量的有价值的信息,这类非结构化信息正以成倍的速度增长。
非结构化信息指信息的形式相对不固定,常常是各种格式的文件。它是相对结构化信息而言的,从宏观上看也是结构化信息的一种形式。诸如电子文档、电子邮件、网页、视频文件、多媒体等。
对于二进制文件和视频、音频等多媒体信息来说,信息具有非结构化的特性,不容易用关系模型来描述。这种检索比较困难。计算机的普及和数字化媒体的发展,进入了大数据时代,信息的存储和检索技术面临着新的挑战。
用于结构信息的检索技术比较成熟,通过数据库建立索引即可。非结构话信息的检索一般通过标注、摘要等形式,构建结构化信息索引来完成。
Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
本专利公开的是信息序列特征编码和检索的方法和系统。通过对信息进行分段,规定最小信息单元,按信息单元的划分进行增量散列编码,形成信息特征序列,方便信息的检索,适合于非结构信息的索引,构建一种基于信息bit位的特征检索。
发明内容
本发明目的是提供一种信息序列特征编码和检索的方法和系统,对数字信息进行分段,对分段的信息按最小信息单元进行增量散列编码,形成最小信息单元组合的特征信息集合,便于信息的序列化检索。信息序列特征编码和检索的方法和系统方法主要包括:信息的分割,信息的最小单元的定义,分割信息编码形成特征序列,存储特征序列、文档,以及特征序列和文档的关系。主要分信息的存储和信息的查找两个阶段来进行。
信息的存储阶段包括:
特征信息编码和检索处理。需要给定序列的分段处理的方式,特定的分割段落标识符号。
定义最小信息单元。给定信息最小单元的定义。
特征序列的增量编码。对分割段落的信息按最小信息单元的定义,进行增量hash编码。
特征序列包括:前特征序列(如为序列首部,则可以为空),最小信息单元,尾部文档标识。
特征序列和文档的关系。存储特征序列和文档的关系,需要存储的信息包括特征序列,该特征序列对应信息在文档中的位置。
信息的查找阶段,首先需要对信息进行特征序列编码,然后从特征信息树中查找,知道找到文档标识或者无法找到位置,具体来说分为以下部署:
对查找的序列进行切分;
对切换的序列进行特征编码;
在存储的序列中查找相关特征编码;
最大化查找算法,从特征序列队列的尾部开始查询,如果特征序列没有找到,则递减搜索该特征序列的前一个特征序列,直到找到或者查找到特征序列头为止。
含有尾部标识的特征序列的查找。通过特征信息序列集合,查找以该特征信息集合为前特征信息的特征信息集合,依此递归,找到含有尾部标识的特征信息集合找到为止。
文档标识查找。利用找到的含有尾部标识的特征序列,在文档和特征序列关系表中查询文档标识和该序列的位置信息。
文档查找。根据文档标识在文档信息处理表中查找文档。
附图说明
图1为本发明实施信息序列特征编码和检索的方法和系统的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行进一步的说明。
本发明对信息序列进行分段处理,构建信息特征编码树的方式,实现对信息序列的全文索引的方法,提出一种面向应用的解决方案,用于信息bit位的特征检索。
如图1所示,本发明提供的特征信息编码和检索的方法。
序列分段。确定分隔符,定义分隔符是否参与最小信息单元编码。
构建特征序列。分割后的序列依次进行编码。
特征序列构建特征序列集合。
编码后的特征序列,参与编码的最小信息单元,前特征序列,在序列中的位置(位于序列的头部、中部或者尾部),保存到数据库中,构建特征序列集合。对于位于尾部的单元特征序列需要保存到特征序列和文件标识的关联表中。存储文件信息。
信息的查找:
构建特征序列,在存储的特征序列集合,首先进行最大化查找策略,如果找到则进行文档查找;否则进入递减查找,直到找到或者递减到序列首部位置,找到则进行文档查找。
最大化查找策略
构建的特征序列中最后的特征单元进行查找,找到进入文档查找;没找到进入递减查找。查找信息序列按最小单元排列如下:I1I2I3...In;依次表示为最小单元1到最小单元n的排列如下;
构建特征序列:
I1的特征序列定义为t1,t1=hash(I1);
I2的特征序列定义为t2,t2=hash(t1+I2);
依此类推,In的特征序列定义为tn,tn=hash(tn-1+In);
ti其中i=1,2,...n表示该语句的信息特征序列。
首先查找tn,如果找到则停止;否者找tn-1,递归直到找到或者递减到t1依然没有找到为止。
特征序列找到后还需要查找该特征序列集合中,后续包含该序列并有序列尾部标识的特征信息,即需要进行位于序列尾部的特征信息的查找。
通过特征信息序列集合,查找以该特征信息集合为前特征信息的特征信息集合,依此递归,找到含有尾部表示的特征信息集合找到为止。
文档查找:
根据有尾部标志特征单元,则在特征序列和文档标识表中查询文档标识,根据文档标识在文档信息库中查询文档。

Claims (6)

1.信息序列特征编码和检索的方法和系统,主要特征包括:
给定信息分割符,对序列进行分段;
对分段信息进行特征信息编码;
构建特征信息树,存储特征信息和文档的关系;
信息查找方法,包括特征信息的查找,特征信息关联文档的查找。
2.构建信息序列增量索引,生成最小信息单元的特征序列,主要特征包括:
给定最小信息单元,对最小信息单元进行编码,编码的结果为该信息单元的特征序列,含有该信息单元和该信息单元的前信息单元的特征序列信息;
对信息单元进行增量编码,编码方式为:
信息序列按最小单元排列如下:I1I2I3...In;依次表示为最小单元1到最小单元n的排列;
I1的特征序列定义为t1,t1=hash(I1);
I2的特征序列定义为t2,t2=hash(t1+I2);
依此类推,In的特征序列定义为tn,tn=hash(tn-1+In);
ti其中i=1,2,...n表示该语句的信息特征序列。
依此类推直到序列编码完毕。
3.索引构建和数据存储,本发明的数据存储主要特征包括:
根据权利2描述的方法,形成特征信息编码序列,对特征信息编码序列进行存储,其特征序列存储格式为:前置特征序列(首部可以为空),最小信息单元,自身特征序列和该单元位于该段落的位置标识(句首、句中和句尾)。
文档关联表,根据权利1描述的方法,存储位于段落尾部的特征序列和文档的关联信息。其存储特征包括:特征序列,文档标识,该单元在文档中的位置。
4.最大化查找算法。根据权利1的分段规则结合权利2给定的最小信息单元,依照权利2构建特征序列,先对位于分段序列尾部的特征序列进行查询;查询的结果是特征序列尾部,则查找该信息关联的文档;否则根据后续特征信息关联的前特征信息持续查找,直到找到文档关联信息为止。
构建的特征序列中最后的特征单元进行查找,找到进入文档查找;没找到进入递减查找。查找信息序列按最小单元排列如下:I1I2I3...In;依次表示为最小单元1到最小单元n的排列。构建特征序列:
I1的特征序列定义为t1,t1=hash(I1);
I2的特征序列定义为t2,t2=hash(t1+I2);
依此类推,In的特征序列定义为tn,tn=hash(tn-1+In);
ti其中i=1,2,...n表示该语句的信息特征序列。
首先查找tn,找到则停止;否者找tn-1,递归直到找到或者递减到t1依然没有找到为止。
5.根据权利1要求,特征序列的文档标识查找,主要在于查找段落尾特征序列,特征在于:
根据权利3的方法,在特征序列信息表中查找前特征序列为该序列的文档,判断是否位于段落尾,如果有则找到;否者继续递归查找,直到含有段落尾特征序列找到为止。
6.根据权利1信息查找的方法,使用段落尾特征序列查找对应的文档,其特征在于:
利用特征序列标识在特征信息和文档关联的信息表中查询文档标识,根据文档标识查找文档。
CN201610239012.9A 2016-04-18 2016-04-18 信息序列特征编码和检索的方法和系统 Withdrawn CN105955982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610239012.9A CN105955982A (zh) 2016-04-18 2016-04-18 信息序列特征编码和检索的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610239012.9A CN105955982A (zh) 2016-04-18 2016-04-18 信息序列特征编码和检索的方法和系统

Publications (1)

Publication Number Publication Date
CN105955982A true CN105955982A (zh) 2016-09-21

Family

ID=56917517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610239012.9A Withdrawn CN105955982A (zh) 2016-04-18 2016-04-18 信息序列特征编码和检索的方法和系统

Country Status (1)

Country Link
CN (1) CN105955982A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121791A (zh) * 2017-12-14 2018-06-05 苏州泥娃软件科技有限公司 一种交通大数据路径可搜索系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101467150A (zh) * 2006-06-30 2009-06-24 电子地图北美公司 对具有可变压缩的自适应索引的最接近搜索
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法
CN104008205A (zh) * 2014-06-18 2014-08-27 中国人民解放军信息工程大学 一种内容路由的查询方法及系统
CN105721882A (zh) * 2016-04-18 2016-06-29 上海泥娃通信科技有限公司 一种分离编解码的方法和系统
CN105843960A (zh) * 2016-04-18 2016-08-10 上海泥娃通信科技有限公司 基于语义树的索引方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101467150A (zh) * 2006-06-30 2009-06-24 电子地图北美公司 对具有可变压缩的自适应索引的最接近搜索
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法
CN104008205A (zh) * 2014-06-18 2014-08-27 中国人民解放军信息工程大学 一种内容路由的查询方法及系统
CN105721882A (zh) * 2016-04-18 2016-06-29 上海泥娃通信科技有限公司 一种分离编解码的方法和系统
CN105843960A (zh) * 2016-04-18 2016-08-10 上海泥娃通信科技有限公司 基于语义树的索引方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜传震 等: ""一种基于哈希编码的内容路由查询匹配机制"", 《计 算 机 应 用 研 究》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121791A (zh) * 2017-12-14 2018-06-05 苏州泥娃软件科技有限公司 一种交通大数据路径可搜索系统

Similar Documents

Publication Publication Date Title
US8175875B1 (en) Efficient indexing of documents with similar content
JP3889762B2 (ja) データ圧縮方法、プログラム及び装置
US8838551B2 (en) Multi-level database compression
WO2011004846A1 (ja) 情報検索システム、情報管理装置、情報検索方法、情報管理方法、及び、記録媒体
GB2496120A (en) Analysis of emails using a hidden Markov model to recognize sections of the email, e.g. header, body, signature block and disclaimer
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN107357843B (zh) 基于数据流结构的海量网络数据查找方法
CN101794307A (zh) 基于互联网分词思想的车载导航poi搜索引擎
CN105589894B (zh) 文档索引建立方法和装置、文档检索方法和装置
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN105843960A (zh) 基于语义树的索引方法和系统
CN107145568A (zh) 一种快速的新闻事件聚类系统及方法
CN103678385A (zh) 一种适用于移动搜索的个性化词典构造方法
CN109284362B (zh) 一种内容检索方法及系统
CN105515586B (zh) 一种快速差量压缩方法
CN105955982A (zh) 信息序列特征编码和检索的方法和系统
CN107943981A (zh) HBase行分页方法、服务器及计算机可读存储介质
WO2018226221A1 (en) Context-dependent shared dictionaries
CN107657067B (zh) 一种基于余弦距离的前沿科技信息快速推送方法及系统
CN108776705B (zh) 一种文本全文精确查询的方法、装置、设备及可读介质
CN105426490A (zh) 一种基于树形结构的索引方法
CN101576877A (zh) 一种快速分词的实现方法
CN114491597A (zh) 一种基于汉字部件组合的文本无载体信息隐藏方法
CN109657108B (zh) 一种域名资产数据存储和查询方法和系统
CN112883704A (zh) 一种大数据相似文本去重预处理方法、装置及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20160921