CN105955982A

CN105955982A - 信息序列特征编码和检索的方法和系统

Info

Publication number: CN105955982A
Application number: CN201610239012.9A
Authority: CN
Inventors: 张留学; 朱小姣
Original assignee: Shanghai Niwa Communication Technology Co Ltd
Current assignee: Shanghai Niwa Communication Technology Co Ltd
Priority date: 2016-04-18
Filing date: 2016-04-18
Publication date: 2016-09-21

Abstract

本发明公开了一种信息序列特征编码和检索的方法和系统，主要提供一种针对数字信息分段，对分段信息按最小信息单元进行增量哈希编码，形成分段信息特征编码序列，从而建立特征信息集合，提供一种基于信息bit位的特征检索的方法和系统。主要包括：信息分割，对分割的信息进行递增散列编码，形成特征信息序列，存储特征信息序列，构建特征信息集合；构建特征信息和文档关系表；以及建立在其上的基于信息bit位的特征检索的方法和系统。

Description

信息序列特征编码和检索的方法和系统

技术领域

本发明涉及信息检索领域，主要提供一种针对数字信息分段，对分段信息按最小信息单元进行增量哈希编码，形成分段信息特征编码序列，构建一种基于信息bit位的特征检索。

背景技术

随着计算机网络技术、通讯技术飞速发展，人类进入数字化时代，信息的存储和查找就尤为重要了。信息分类一般来说：主要分为结构化信息和非结构化信息。结构化信息是可以数字化的数据信息，可以方便地通过计算机和数据库技术进行管理。无法完全数字化的信息称为非结构化信息，这些资源中拥有大量的有价值的信息，这类非结构化信息正以成倍的速度增长。

非结构化信息指信息的形式相对不固定，常常是各种格式的文件。它是相对结构化信息而言的，从宏观上看也是结构化信息的一种形式。诸如电子文档、电子邮件、网页、视频文件、多媒体等。

对于二进制文件和视频、音频等多媒体信息来说，信息具有非结构化的特性，不容易用关系模型来描述。这种检索比较困难。计算机的普及和数字化媒体的发展，进入了大数据时代，信息的存储和检索技术面临着新的挑战。

用于结构信息的检索技术比较成熟，通过数据库建立索引即可。非结构话信息的检索一般通过标注、摘要等形式，构建结构化信息索引来完成。

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入(又叫做预映射，pre-image)，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

本专利公开的是信息序列特征编码和检索的方法和系统。通过对信息进行分段，规定最小信息单元，按信息单元的划分进行增量散列编码，形成信息特征序列，方便信息的检索，适合于非结构信息的索引，构建一种基于信息bit位的特征检索。

发明内容

本发明目的是提供一种信息序列特征编码和检索的方法和系统，对数字信息进行分段，对分段的信息按最小信息单元进行增量散列编码，形成最小信息单元组合的特征信息集合，便于信息的序列化检索。信息序列特征编码和检索的方法和系统方法主要包括：信息的分割，信息的最小单元的定义，分割信息编码形成特征序列，存储特征序列、文档，以及特征序列和文档的关系。主要分信息的存储和信息的查找两个阶段来进行。

信息的存储阶段包括：

特征信息编码和检索处理。需要给定序列的分段处理的方式，特定的分割段落标识符号。

定义最小信息单元。给定信息最小单元的定义。

特征序列的增量编码。对分割段落的信息按最小信息单元的定义，进行增量hash编码。

特征序列包括：前特征序列(如为序列首部，则可以为空)，最小信息单元，尾部文档标识。

特征序列和文档的关系。存储特征序列和文档的关系，需要存储的信息包括特征序列，该特征序列对应信息在文档中的位置。

信息的查找阶段，首先需要对信息进行特征序列编码，然后从特征信息树中查找，知道找到文档标识或者无法找到位置，具体来说分为以下部署：

对查找的序列进行切分；

对切换的序列进行特征编码；

在存储的序列中查找相关特征编码；

最大化查找算法，从特征序列队列的尾部开始查询，如果特征序列没有找到，则递减搜索该特征序列的前一个特征序列，直到找到或者查找到特征序列头为止。

含有尾部标识的特征序列的查找。通过特征信息序列集合，查找以该特征信息集合为前特征信息的特征信息集合，依此递归，找到含有尾部标识的特征信息集合找到为止。

文档标识查找。利用找到的含有尾部标识的特征序列，在文档和特征序列关系表中查询文档标识和该序列的位置信息。

文档查找。根据文档标识在文档信息处理表中查找文档。

附图说明

图1为本发明实施信息序列特征编码和检索的方法和系统的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行进一步的说明。

本发明对信息序列进行分段处理，构建信息特征编码树的方式，实现对信息序列的全文索引的方法，提出一种面向应用的解决方案，用于信息bit位的特征检索。

如图1所示，本发明提供的特征信息编码和检索的方法。

序列分段。确定分隔符，定义分隔符是否参与最小信息单元编码。

构建特征序列。分割后的序列依次进行编码。

特征序列构建特征序列集合。

编码后的特征序列，参与编码的最小信息单元，前特征序列，在序列中的位置(位于序列的头部、中部或者尾部)，保存到数据库中，构建特征序列集合。对于位于尾部的单元特征序列需要保存到特征序列和文件标识的关联表中。存储文件信息。

信息的查找：

构建特征序列，在存储的特征序列集合，首先进行最大化查找策略，如果找到则进行文档查找；否则进入递减查找，直到找到或者递减到序列首部位置，找到则进行文档查找。

最大化查找策略

构建的特征序列中最后的特征单元进行查找，找到进入文档查找；没找到进入递减查找。查找信息序列按最小单元排列如下：I₁I₂I₃...I_n；依次表示为最小单元1到最小单元n的排列如下；

构建特征序列：

I₁的特征序列定义为t₁，t₁＝hash(I₁)；

I₂的特征序列定义为t₂，t₂＝hash(t₁+I₂)；

依此类推，I_n的特征序列定义为t_n，t_n＝hash(t_n-1+I_n)；

t_i其中i＝1，2，...n表示该语句的信息特征序列。

首先查找t_n，如果找到则停止；否者找t_n-1，递归直到找到或者递减到t₁依然没有找到为止。

特征序列找到后还需要查找该特征序列集合中，后续包含该序列并有序列尾部标识的特征信息，即需要进行位于序列尾部的特征信息的查找。

通过特征信息序列集合，查找以该特征信息集合为前特征信息的特征信息集合，依此递归，找到含有尾部表示的特征信息集合找到为止。

文档查找：

根据有尾部标志特征单元，则在特征序列和文档标识表中查询文档标识，根据文档标识在文档信息库中查询文档。

Claims

1.信息序列特征编码和检索的方法和系统，主要特征包括：

给定信息分割符，对序列进行分段；

对分段信息进行特征信息编码；

构建特征信息树，存储特征信息和文档的关系；

信息查找方法，包括特征信息的查找，特征信息关联文档的查找。

2.构建信息序列增量索引，生成最小信息单元的特征序列，主要特征包括：

给定最小信息单元，对最小信息单元进行编码，编码的结果为该信息单元的特征序列，含有该信息单元和该信息单元的前信息单元的特征序列信息；

对信息单元进行增量编码，编码方式为：

信息序列按最小单元排列如下：I₁I₂I₃...I_n；依次表示为最小单元1到最小单元n的排列；

I₁的特征序列定义为t₁，t₁＝hash(I₁)；

I₂的特征序列定义为t₂，t₂＝hash(t₁+I₂)；

依此类推，I_n的特征序列定义为t_n，t_n＝hash(t_n-1+I_n)；

t_i其中i＝1，2，...n表示该语句的信息特征序列。

依此类推直到序列编码完毕。

3.索引构建和数据存储，本发明的数据存储主要特征包括：

根据权利2描述的方法，形成特征信息编码序列，对特征信息编码序列进行存储，其特征序列存储格式为：前置特征序列(首部可以为空)，最小信息单元，自身特征序列和该单元位于该段落的位置标识(句首、句中和句尾)。

文档关联表，根据权利1描述的方法，存储位于段落尾部的特征序列和文档的关联信息。其存储特征包括：特征序列，文档标识，该单元在文档中的位置。

4.最大化查找算法。根据权利1的分段规则结合权利2给定的最小信息单元，依照权利2构建特征序列，先对位于分段序列尾部的特征序列进行查询；查询的结果是特征序列尾部，则查找该信息关联的文档；否则根据后续特征信息关联的前特征信息持续查找，直到找到文档关联信息为止。

构建的特征序列中最后的特征单元进行查找，找到进入文档查找；没找到进入递减查找。查找信息序列按最小单元排列如下：I₁I₂I₃...I_n；依次表示为最小单元1到最小单元n的排列。构建特征序列：

I₁的特征序列定义为t₁，t₁＝hash(I₁)；

I₂的特征序列定义为t₂，t₂＝hash(t₁+I₂)；

依此类推，I_n的特征序列定义为t_n，t_n＝hash(t_n-1+I_n)；

t_i其中i＝1，2，...n表示该语句的信息特征序列。

首先查找t_n，找到则停止；否者找t_n-1，递归直到找到或者递减到t₁依然没有找到为止。

5.根据权利1要求，特征序列的文档标识查找，主要在于查找段落尾特征序列，特征在于：

根据权利3的方法，在特征序列信息表中查找前特征序列为该序列的文档，判断是否位于段落尾，如果有则找到；否者继续递归查找，直到含有段落尾特征序列找到为止。

6.根据权利1信息查找的方法，使用段落尾特征序列查找对应的文档，其特征在于：

利用特征序列标识在特征信息和文档关联的信息表中查询文档标识，根据文档标识查找文档。