CN107016092B

CN107016092B - 一种基于扁平化算法的文本搜索方法

Info

Publication number: CN107016092B
Application number: CN201710219456.0A
Authority: CN
Inventors: 欧阳建权; 周晴宇; 郑浩; 刘天明
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2019-12-03
Anticipated expiration: 2037-04-06
Also published as: CN107016092A

Abstract

一种基于扁平化算法的文本搜索方法，其特征在于：该方法包括以下步骤：1)获取文本摘要，形成文档集；2)对文档集中的文档进行断句，获得句子集合；3)对句子集合进行分词，获取词集合；4)计算词集合中任意两个词之间的共现次数；5)以词为节点，共现次数为边，构建无向加权图；6)根据用户提交的关键词集合，确定任意一组关键词在无向加权图中的关联关系；7)以扁平化算法计算并还原词与词之间的路径，以图片的形式呈现关联关系。本发明采用扁平化算法计算并还原路径，以图片的方式呈现关联关系，极大提高了搜索的召回率与准确率。

Description

一种基于扁平化算法的文本搜索方法

技术领域

本发明涉及信息检索领域，具体涉及一种基于扁平化算法的文本搜索方法。

背景技术

当前Web检索主要采用PageRank、Hilltop算法，利用外链进行检索。纯文本检索方面则采用BM25公式，主要在计算查询词与某个文本的相关的功能性。但当前的搜索引擎在召回率和准确率上约为48％，未有超过50％的算法。

本申请采用的文本搜索方法基于扁平化算法，借鉴基本的共现关系的频次、权重，图片搜索方法深度优先、广度优先以及剪枝的原理，实现在毫秒级时间内准确查找到若干词之间的关联关系。

发明内容

针对上述现有技术中的不足，本发明的目的在于提供一种基于扁平化算法的文本搜索方法，该方法采用扁平化算法计算并还原路径，以图片的方式呈现关联关系，极大提高了搜索的召回率与准确率。

根据本发明的实施方案，提供一种基于扁平化算法的文本搜索方法。

一种基于扁平化算法的文本搜索方法，该方法包括以下步骤：

1)获取文本摘要，形成文档集D；

2)对文档集D中的文档进行断句，d_i(d_i∈D)，获得句子集合

3)对句子集合进行分词，获取词集合

4)计算词集合中任意两个词之间的共现次数f_c；

5)以词W_k为节点，共现次数f_c为边，构建无向加权图；

6)根据用户提交的关键词集合K＝{k_i|i＝1,2,3...n}，确定任意一组关键词在无向加权图中的关联关系；

7)以扁平化算法计算并还原词与词之间的路径，以图片的形式呈现关联关系。

在本发明中，步骤2)中所述对文档集D中的文档进行断句的具体操作为：

以句号、分号、感叹号、问号和换行符等符号作为分隔符，将文本(即，字符串)分隔成多个子串，即句子。

在本发明中，步骤3)中所述分词的具体规则为：

采用最短路分词算法，设需要分词的字符串为a₁，a₂，a₃...，a_s；

1)以字为顶点建立字图；

2)从字符串中匹配出词典中存在的词，在字图中搭建新的边(如图5所示)。

3)计算首个字符至结尾字符之间的最短路径。该路径上的顶点即为分词的结果。

在本发明中，步骤4)中所述计算词集合中任意两个词之间的共现次数具体为：将词集合中任意两个词分组，计算任意一组词在句子集合中的所有句子中共同出现的次数。

在本发明中，步骤5)中所述构建无向加权图的具体操作为：以词为图的顶点，若词w_i和w_j出现同一个句子中则表示词w_i和词w_j所对应的顶点之间存在边，且边的权值为两个词出现在同一句子中的频率f_ij。

在本发明中，步骤6)中所述根据用户提交的关键词集合，确定任意一组关键词在无向加权图中的关联关系，按如下进行：关键词集合即指关键词的个数可以是一个或多个，若关键词为1个，则该关键词所在的邻接节点即为该关键词在无向加权图中的关联关系；若关键词≥2个，则需要从无向加权图中搜索该关键词集合中任意两个关键词之间的关联关系。

在本发明中，若关键词≥2个，所述确定关联关系的具体操作为：

1)将用户提交的关键词集合中的其中任意一个关键词K_i扁平化；

2)根据无向加权图，确定关键词Ki的第一层扩展，以向量l_ki,1表示，

确定关键词K_i的第二层扩展，以向量l_ki,2表示，

……

确定关键词K_i的第n层扩展，以向量l_ki,n表示；

3)关键词Ki扁平化：l_ki,mix＝l_ki,1|l_ki,2|……|l_ki,n；

4)重复步骤1)至3)，根据无向加权图，将第二个关键词K_j扁平化：l_kj,mix＝l_kj,1|l_kj,2|……|l_kj,n；

5)重复步骤1)至3)的方法，将关键词集合中的所有其它关键词扁平化；

6)计算交集：l_mix＝l_ki,mix&l_kj,mix&……。

在本发明中，步骤7)中所述还原词与词之间的路径为扁平化还原，具体操作为：

1)关键词K_i的第一层还原：l_mix&l_ki,1，得出路径“M_Ki,1”；

2)关键词K_i的第二层还原：l_mix&l_ki,2，得出路径“M_Ki,2”；

……

3)关键词K_i的第n层还原：l_mix&l_ki,n，得出路径“M_Ki,n”；

4)重复步骤1)至3)的方法，还原关键词K_j的路径：“M_Kj,1”、“M_Kj,2”……“M_Kj,n”；

5)重复步骤1)至3)的方法，还原关键词集合中的所有其它关键词的路径；

6)得出关键词集合的还原路径为：“M_Ki,1”+“M_Ki,2”+……+“M_Ki,n”+“M_Kj,1”+“M_Kj,2”+……+“M_Kj,n”。

在本发明中，步骤1)中所述文本摘要为现有各大数据库中的文本摘要。

在本发明中，所述关联关系在无向加权图中节点间共现权重越大(或共现次数越多)时联系越紧密。

在本发明中，所述关联关系在无向加权图中节点间跳跃越少时联系越紧密。

在本发明中，所述关联关系是通过构建无向加权图来展现的。无向加权图是以词为节点，共现次数为边进行构建。例如，关键词集合为{1,2,3,4,5,6,7}，无向加权图如图6所示。

所述关联关系在无向加权图中节点间共现权重越大(或共现次数越多)时联系越紧密。其中节点间共现权重是指文本搜索时输入的关键词集合(即相应节点间)的共现次数，节点间共现权重越大则是指文本搜索时输入的关键词集合(即相应节点间)的共现次数越多。

同时，在无向加权图中节点间跳跃越少时联系越紧密。其中节点间跳跃度是指文本搜索时输入的关键词集合(即相应节点间)所经过的节点数目，节点间跳跃越少则是指文本搜索时输入的关键词集合(即相应节点间)所经过的节点数目越少，也即相应节点间的经过路径越短。

其中，节点间共现权重对关联关系紧密性的影响大于节点间跳跃度，因此文本搜索时优先考虑节点间共现权重。

在本发明中，扁平化算法可以分为：扁平化和去扁平化两步，扁平化的目的是简化计算。扁平化是指将图的生成树的多层结构压缩至一层的过程。去扁平化是从压缩后单层结构中还原出层次信息。具体过程如下：设生成树如图1和图2，结合所有树的节点根据值进行排序，并去掉值相同的节点，形成字典，在下图实例中字典大小为||D||＝9。对单棵树各层节点排序，对所有节点同样排序，图1会得到图3结构。同样图2得到图4结构。将每层以向量表示，向量维度为字典大小，设一层中所包含的节点在字典中对应序号为I，那么向量第I维设为1，其他为0。图3的第0层、1层、2层、混合层的向量表示分别为(1,0,0,0,0,0,0,0,0)、(0,1,1,0,0,0,0,0,0)、(0,0,0,1,1,1,0,0,0)、(1,1,1,1,1,1,0,0,0)。混合层即为扁平化结果。去扁平话，则利用混合层以外的其他层次信息进行还原，如对于某个节点(0,1,0,0,0,0,0,0,0)，依次与树1的第0、1、2层的向量计算按位与操作，可以得到与第1层计算结果不为0，则该节点位于树1的第一层。该过程为去扁平化。

与现有技术相比，本发明具有以下有益效果：

1、本发明采用扁平化算法计算并还原路径，以图片的方式呈现关联关系，极大提高了搜索的召回率与准确率；

2、采用本发明所述的文本搜索方法，能在毫秒级时间间隔内准确找到词与词之间的关联关系，减少搜索次数与搜索时间；

3、本发明以图片的形式呈现关联关系，使得词与词之间的关系脉络化、清晰化。

附图说明

图1为扁平化算法中扁平化生成树实例示意图一；

图2为扁平化算法中扁平化生成树实例示意图二；

图3为图1的层节点排序图；

图4为图2的层节点排序图；

图5为词集合获取过程示意图；

图6为实施例1中无向加权图的示意图；

图7为实施例1中关键词的关联关系示意图。

具体实施方式

根据本发明的实施方案，提供一种基于扁平化算法的文本搜索方法：

1)获取文本摘要，形成文档集D；

2)对文档集D中的文档进行断句，d_i(d_i∈D)，获得句子集合

3)对句子集合进行分词，获取词集合

4)计算词集合中任意两个词之间的共现次数f_c；

5)以词W_k为节点，共现次数f_c为边，构建无向加权图；

在本发明中，步骤3)中所述分词的具体规则如下所示：

1)以字为顶点建立字图；

2)从字符串中匹配出词典中存在的词，在字图中搭建新的边，如图5所示；

在本发明中，步骤5)中所述构建无向加权图的具体操作为：

以词为图的顶点，若词w_i和w_j出现同一个句子中则表示词w_i和词w_j所对应的顶点之间存在边，且边的权值为两个词出现在同一句子中的频率f_ij。

确定关键词K_i的第二层扩展，以向量l_ki,2表示，

……

确定关键词K_i的第n层扩展，以向量l_ki,n表示；

3)关键词Ki扁平化：l_ki,mix＝l_ki,1|l_ki,2|……|l_ki,n；

6)计算交集：l_mix＝l_ki,mix&l_kj,mix&……。

1)关键词K_i的第一层还原：l_mix&l_ki,1，得出路径“M_Ki,1”；

2)关键词K_i的第二层还原：l_mix&l_ki,2，得出路径“M_Ki,2”；

……

3)关键词K_i的第n层还原：l_mix&l_ki,n，得出路径“M_Ki,n”；

在本发明中，扁平化算法可以分为：扁平化和去扁平化两步，扁平化的目的是简化计算。扁平化是指将图的生成树的多层结构压缩至一层的过程。去扁平化是从压缩后单层结构中还原出层次信息。具体过程如下：设生成树如图1和图2，结合所有树的节点根据值进行排序，并去掉值相同的节点，形成字典，在下图实例中字典大小为||D||＝9。对单棵树各层节点排序，对所有节点同样排序，图1会得到图3结构。同样图2得到图4结构。将每层以向量表示，向量维度为字典大小，设一层中所包含的节点在字典中对应序号为I，那么向量第I维设为1，其他为0。图(3)的第0层、1层、2层、混合层的向量表示分别为(1,0,0,0,0,0,0,0,0)、(0,1,1,0,0,0,0,0,0)、(0,0,0,1,1,1,0,0,0)、(1,1,1,1,1,1,0,0,0)。混合层即为扁平化结果。去扁平话，则利用混合层以外的其他层次信息进行还原，如对于某个节点(0,1,0,0,0,0,0,0,0)，依次与树1的第0、1、2层的向量计算按位与操作，可以得到与第1层计算结果不为0，则该节点位于树1的第一层。该过程为去扁平化。

实施例

1)获取文本摘要，形成文档集D；

2)对文档集D中的文档进行断句，d_i(d_i∈D)，获得句子集合

3)对句子集合进行分词，获取词集合

4)计算词集合中任意两个词之间的共现次数f_c；

5)以词W_k为节点，共现次数f_c为边，构建无向加权图，如图6所示；

进行步骤6)时，采用以下方式扩大搜索：

以某一节点出发，遍历该节点的所有邻接点，将所有邻接点按共现权重从大到小排列，选取前x个邻接点，同时以层为顺序，将某一层上的所有节点都搜索到了之后才向下一层搜索，设层数(或迭代次数)为n。

以图6为例，设关键词集合为{1,7}，n＝2,x＝2。一般，最大搜索层数n的经验值一般为2-5层，邻接顶点阈值x(＝2)在此处也为经验值。

以关键词“1”求扁平图：

“2”，“3”为第一层扩展，以向量表示为l_1,1＝(0,1,1,0,0,0,0)；图6的总顶点数目为7，对应向量的维度为7，“1”的第一层扩展为“2”，“3”，二者在所有顶点中按字典序排序分别为2，3，则第一层扩展的向量的第2、3维置为1，其他置为0。即为l_1,1＝(0,1,1,0,0,0,0)。

“5”，“6”，“7”为第二层扩展l_(1,2)＝(0,0,0,0,1,1,1)；

扁平化：l_1,mix＝l_1,1|l_1,2＝(0,1,1,0,1,1,1)；

同理，以关键词“7”求扁平图：

“3”，“4”为第一层扩展，以向量表示为l_7,1＝(0,0,1,1,0,0,0)；

“1”，“6”为第二层扩展，以向量表示为l_7,2＝(1,0,0,0,0,1,0)；

扁平化：l_7,mix＝l_7,1|l_7,2＝(1,0,1,1,0,1,0)；

计算交集l_mix＝l₁,mix&l_7,mix,mix＝(0,0,1,0,0,0,0)。

扁平化还原，即去扁平化，以上的操作将某一顶点的多个层次，压缩至一层，而压缩之后如何解压还原层次信息，则是以下操作：以节点“7”为例：

第一层：l_mix&l_7,1＝(0,0,1,0,0,0,0)，路径为“7-3”；

第二层：l_mix&l_7,2＝(0,0,0,0,0,0,0)，无。

同理，节点“1”有，

第一层：l_mix&l_1,1＝(0,0,1,0,0,0,0)，路径为“1-3”；

第二层：l_mix&l_1,2＝(0,0,0,0,0,0,0)，无。

结合两者路径：

“1-3”+“7-3”＝“1-3-7”。

7)以图片形式展现关联关系，同时还原路径获取文本，如图7所示。

Claims

1.一种基于扁平化算法的文本搜索方法，其特征在于：该方法包括以下步骤：

1)获取文本摘要，形成文档集D；

2)对文档集D中的文档进行断句，d_i(d_i∈D)，获得句子集合

3)对句子集合进行分词，获取词集合

4)计算词集合中任意两个词之间的共现次数f_c；

5)以词W_k为节点，共现次数f_c为边，构建无向加权图；

7)以扁平化算法计算并还原词与词之间的路径，以图片的形式呈现关联关系；其中：以扁平化算法计算并还原词与词之间的路径，具体操作为：

701)关键词K_i的第一层还原：l_mix&l_ki,1，得出路径“M_Ki,1”；

702)关键词K_i的第二层还原：l_mix&l_ki,2，得出路径“M_Ki,2”；

……

703)关键词K_i的第n层还原：l_mix&l_ki,n，得出路径“M_Ki,n”；

704)重复步骤1)至3)的方法，还原关键词K_j的路径：“M_Kj,1”、“M_Kj,2”……“M_Kj,n”；

705)重复步骤1)至3)的方法，还原关键词集合中的所有其它关键词的路径；

706)得出关键词集合的还原路径为：“M_Ki,1”+“M_Ki,2”+……+“M_Ki,n”+“M_Kj,₁”+“M_Kj,2”+……+“M_Kj,n”。

2.根据权利要求1所述的方法，其特征在于：步骤2)中所述对文档集D中的文档进行断句的具体操作为：以句号、分号、感叹号、问号和换行符作为分隔符，将文本分隔成多个子串，即句子。

3.根据权利要求1或2所述的方法，其特征在于：步骤3)中所述分词的具体规则为：

1)以字为顶点建立字图；

2)从字符串中匹配出词典中存在的词，在字图中搭建新的边；

3)计算首个字符至结尾字符之间的最短路径，该路径上的顶点即为分词的结果。

4.根据权利要求1或2所述的方法，其特征在于：步骤4)中所述计算词集合中任意两个词之间的共现次数具体为：将词集合中任意两个词分组，计算任意一组词在句子集合中的所有句子中共同出现的次数。

5.根据权利要求1或2中任一项所述的方法，其特征在于：步骤5)中所述构建无向加权图的具体操作为：

6.根据权利要求1或2所述的方法，其特征在于：步骤6)中所述根据用户提交的关键词集合，确定任意一组关键词在无向加权图中的关联关系具体为：关键词集合即指关键词的个数可以是一个或多个，若关键词为1个，则该关键词所在的邻接节点即为该关键词在无向加权图中的关联关系；若关键词≥2个，则需要从无向加权图中搜索该关键词集合中任意两个关键词之间的关联关系。

7.根据权利要求6所述的方法，其特征在于：若关键词≥2个，所述确定关联关系的具体操作为：

确定关键词K_i的第二层扩展，以向量l_ki,2表示，

……

确定关键词K_i的第n层扩展，以向量l_ki,n表示；

3)关键词Ki扁平化：l_ki,mix＝l_ki,1|l_ki,2|……|l_ki,n；

6)计算交集：l_mix＝l_ki,mix&l_kj,mix&……。

8.根据权利要求1或2所述的方法，其特征在于：步骤1)中所述文本摘要为现有各大数据库中的文本摘要。

9.根据权利要求1或2所述的方法，其特征在于：所述关联关系在无向加权图中节点间共现权重越大时联系越紧密；和/或

所述关联关系在无向加权图中节点间跳跃越少时联系越紧密。

10.根据权利要求3所述的方法，其特征在于：所述关联关系在无向加权图中节点间共现权重越大时联系越紧密；和/或

11.根据权利要求4所述的方法，其特征在于：所述关联关系在无向加权图中节点间共现权重越大时联系越紧密；和/或

12.根据权利要求5所述的方法，其特征在于：所述关联关系在无向加权图中节点间共现权重越大时联系越紧密；和/或

13.根据权利要求6所述的方法，其特征在于：所述关联关系在无向加权图中节点间共现权重越大时联系越紧密；和/或