CN108572953B

CN108572953B - 一种词条结构的合并方法

Info

Publication number: CN108572953B
Application number: CN201710131120.9A
Authority: CN
Inventors: 马也驰; 谭红
Original assignee: Shanghai Yiwei Network Technology Co ltd
Current assignee: Shanghai Yiwei Network Technology Co ltd
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2023-06-20
Anticipated expiration: 2037-03-07
Also published as: CN108572953A; US10885069B2; WO2018161975A1; US20200042541A1

Abstract

本发明公开了一种词条结构的合并方法，能够自动将相近的词条结构进行合并，提升了用户检索词条、获取知识的效率。其技术方案为：将词条结构格式转化为文本格式；在文本格式的基础上，基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本；将合并后的文本格式再转化为词条结构格式。

Description

一种词条结构的合并方法

技术领域

本发明涉及一种词条结构的合并方法，尤其涉及基于余弦相似度这一参数对词条结构进行合并的方法。

背景技术

在以词条结构为基础的信息平台上，随着用户数量的增加，会有很多用户对同样的知识体系进行定义和结构化。在用户对词条进行搜索的过程中，一个词条必然会出现众多相同或者相似的解释，这会给用户带来困扰，也会降低知识获取的效率。

以前遇到这样的情况，是由信息平台的管理人员手工对相似词条进行合并，然而这种手工合并的方式不仅费时费力，而且受限于管理人员自身的知识储备，手工合并的方式也会存在大量的合并失误。

因此，目前业界亟待可自动化的合并相近词条结构的方法。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种词条结构的合并方法，能够自动将相近的词条结构进行合并，提升了用户检索词条、获取知识的效率。

本发明的技术方案为：本发明揭示了一种词条结构的合并方法，包括：

步骤一：将词条结构格式转化为文本格式；

步骤二：在文本格式的基础上，基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本；

步骤三：将合并后的文本格式再转化为词条结构格式。

根据本发明的词条结构的合并方法的一实施例，在步骤一中，词条结构中的词条属性按照键值对以哈希存储方式进行存储，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条，在将词条结构格式转化为文本格式的过程中，将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。

根据本发明的词条结构的合并方法的一实施例，步骤二进一步包括：

步骤1：将第一文档作为合并主体，将第二文档作为合并次体；

步骤2：第二文档的根词条遍历第一文档的所有词条，得到相应的余弦相似度；

步骤3：比较步骤2中得到的余弦相似度，找到最大的余弦相似度的值；

步骤4：若步骤3得到的最大的余弦相似度的值大于第一阈值，则执行步骤5，否则执行步骤7；

步骤5：记录最大余弦相似度的值对应的合并主体中的词条，将合并次体的根词条合并到所记录的合并主体中的对应词条中；

步骤6：将合并后的词条的所有子词条进行两两余弦相似度计算，若余弦相似度大于第一阈值，则将两词条合并，合并后的词条再重复进行步骤6，直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束；

步骤7：将第二文档作为合并主体，将第一文档作为合并次体；

步骤8：第一文档的根词条遍历第二文档的所有词条，得到相应的余弦相似度；

步骤9：比较步骤8中得到的余弦相似度，找到最大的余弦相似度的值；

步骤10：若步骤9得到的最大的余弦相似度的值大于第一阈值，则执行步骤11，否则执行步骤13；

步骤11：记录最大的余弦相似度的值对应的合并主体中的词条，将合并次体的根词条合并到所记录的合并主体中的对应词条中；

步骤12：将合并后的词条的所有子词条进行两两余弦相似度计算，若余弦相似度大于第一阈值，则将两词条合并，合并后的词条再重复进行步骤12，直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束；

步骤13：重新将第一文档作为合并主体，将第二文档作为合并次体；

步骤14：第二文档的根词条遍历第一文档的所有词条的文本，得到相应的余弦相似度；

步骤15：比较步骤14中得到的余弦相似度，找到最大的余弦相似度的值；

步骤16：若步骤15得到的最大的余弦相似度的值大于第二阈值，则执行步骤17，否则执行步骤18；

步骤17：记录最大余弦相似度的值对应的合并主体中的词条，将合并次体的根词条合并到对应的合并主体中的所记录的词条；

步骤18：将第二文档作为合并主体，将第一文档作为合并次体；

步骤19：第一文档的根词条遍历第二文档的所有词条的文本，得到相应的余弦相似度；

步骤20：比较步骤19中得到的余弦相似度，找到最大的余弦相似度的值；

步骤21：若步骤20得到的最大余弦相似度的值大于第二阈值，则执行步骤22，否则判断两词条文本无相关性；

步骤22：记录最大余弦相似度的值对应的合并主体中的词条，将合并次体的根词条合并到对应的合并主体中的所记录的词条，合并结束。

步骤1：比较第一文档和第二文档的词条数目，将词条数目多的作为合并主体，将词条数目少的作为合并次体；

步骤2：合并次体的所有词条遍历合并主体的所有词条，得到相应的余弦相似度；

步骤4：若步骤3得到的最大余弦相似度的值大于第一阈值，则执行步骤5，否则执行步骤7；

步骤5：记录最大余弦相似度对应的在合并主体以及合并次体中的两个词条，将合并次体中的这一词条合并到合并主体的这一词条中，并保持合并次体不变；

步骤6：将合并主体中的合并后的词条的所有子词条进行两两余弦相似度的计算，若余弦相似度大于第一阈值则将两词条合并，合并后的词条重复步骤6，直到最后合并后的词条的所有子词条两两余弦相似度全部小于第一阈值，合并结束；

步骤7：合并次体的所有词条遍历合并主体的所有词条的文本，得到相应的余弦相似度；

步骤8：比较步骤7得到的余弦相似度，找到最大的余弦相似度的值；

步骤9：若步骤8得到的最大余弦相似度的值大于第二阈值，执行步骤10，否则判断两文本无相关性；

步骤10：记录最大余弦相似度对应的合并次体中的词条和相应文本对应的合并主体中的词条，将所记录的合并次体的词条合并到所记录的合并主体的词条中，并保持合并次体的文档不变，合并结束。

根据本发明的词条结构的合并方法的一实施例，计算词条与词条的余弦相似度的过程包括：

步骤1：导入gensim数据库；

步骤2；将合并主体中的所有词条导入documents列表中，词条与词条用逗号间隔；

步骤3：将所有词条向量化；

步骤4：通过步骤3中的向量值构建相应的TD_IDF模型；

步骤5：通过TD_IDF模型计算每个词条的TD_IDF值；

步骤6：通过每个词条的TD_IDF值构建相应的LSI模型；

步骤7：导入合并次体的根词条，将其向量化；

步骤8：将步骤7中的合并次体的根词条的向量值导入步骤6构建的LSI模型中；

步骤9：将步骤3中的词条的向量值导入步骤6构建的LSI模型中，并构建余弦相似度计算模型；

步骤10：将步骤8得到的值导入到余弦相似度计算模型中，输出合并次体根词条与合并主体中的所有词条的余弦相似度。

根据本发明的词条结构的合并方法的一实施例，计算词条与文本的余弦相似度的过程包括：

步骤1：导入gensim数据库；

步骤2：将合并主体中的所有词条对应的文本导入到documents列表中，文本与文本用逗号间隔；

步骤3：将所有文本向量化；

步骤4：通过步骤3的向量值构建相应的TD_IDF模型；

步骤5：通过TD_IDF模型计算每个词条的TD_IDF值；

步骤6：通过每个词条的TD_IDF值构建相应的LSI模型；

步骤7：导入合并次体根词条，将其向量化；

步骤8：将步骤7中的向量值导入到步骤6构建的LSI模型中；

步骤9：将步骤3中的向量值导入步骤6构建的LSI模型中，并构建余弦相似度计算模型；

步骤10：将步骤8得到的值导入到余弦相似度计算模型中，计算合并次体根词条与合并主体中的所有词条对应的文本的余弦相似度。

根据本发明的词条结构的合并方法的一实施例，在步骤三的在将文本格式转化为词条结构格式的过程中，将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。

根据本发明的词条结构的合并方法的一实施例，步骤三进一步包括：

步骤1：使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象；

步骤2：web前端加载D3.js开源库；

步骤3：使用d3.layout.tree命令定义一个tree对象，并确定图像区域大小；

步骤4：web前端向服务器请求数据，服务器将步骤1的对象按照JSON格式传到web前端中；

步骤5：根据步骤4的JSON数据生成节点集合nodes；

步骤6：根据nodes集合生成节点；

步骤7：使用tree.links(nodes)命令获取节点关系集合；

步骤8：为关系集合设置贝塞尔曲线连接；

步骤9：为节点添加圆形标记,如果有子节点为黑色，否则白色；

步骤10：根据JSON数据的document属性为节点添加说明文字；

步骤11：完成文本格式到结构格式的转化。

本发明对比现有技术有如下的有益效果：本发明是将词条结构先转化为文本，然后基于余弦相似度这一参数对相似的文本进行合并，最后再将合并后的文本转化为词条结构。通过这样的方式，本发明能够自动将多个相似的词条结构合并成一个新的词条结构，便于信息平台对词条结构的整理，也有利于提升用户在信息平台上的使用感受。

附图说明

图1示出了本发明的词条结构的合并方法的一实施例的整体流程图。

图2示出了本发明举例用的两个词条结构。

图3示出了本发明的文本合并的第一实施例的流程图。

图4示出了本发明的文本合并的第二实施例的流程图。

图5示出了本发明的计算词条与词条的余弦相似度的流程图。

图6示出了本发明的计算词条与文本的余弦相似度的流程图。

图7示出了本发明的文本格式转化为词条结构格式的流程图。

具体实施方式

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

词条结构的合并方法的第一实施例

图1示出了本发明的词条结构的合并方法的实现，方法主要通过以下三个步骤来实现：首先，将词条结构格式转化为文本格式，然后，在文本格式的基础上，基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本，最后，将合并后的文本格式再转化为词条结构格式。

在本实施例的描述中，用图2所示的两个词条结构来举例，词条属性包括词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中，将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。

现在网络的结构化显示多采用D3开源库，即D3开源库将存储在服务器的词条按照树状图的方式显示。词条属性按照键值对进行存储，即是一个string类型的field和value的映射表。因此hash(哈希)存储方式适用于上述存储，其中ID值为888是某一结构的根词条，因此它的父级词条是null,即无。

web后台使用Key-Value数据库redis存储词条以及词条属性，创建的每个词条的词条属性按照hash存储方式存储在数据库redis中。需要格式转化时，使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出。以图2为例，词条结构在数据库中的局部存储信息示例如下：

ID：888

name:1.1

document:aaaabbbbcccc

parent:null

children:1.1.1 1.1.2 1.1.3 1.1.4

ID:999

name:1.1.2

document:ddddeeeeffff

parent:1

children:1.1.2.1 1.1.2.2 1.1.2.3

经过词条结构到文本结构的转化，第一结构转化为第一文档，第二结构转化为第二文档。图2示例的两个结构转化为文本格式的示例如下。

第一文档：

第一层：1.1

第二层：1.1.1 1.1.2 1.1.3 1.1.4

第三层：1.1.2.1 1.1.2.2 1.1.2.3

第二文档：

第一层：2.1

第二层：2.1.1 2.1.2 2.1.3

第三层：2.1.2.1 2.1.2.2 2.1.2.3

文本之间的合并是借助于词条与词条的余弦相似度以及词条与文本的余弦相似度的计算来实现的，其具体的实施步骤如图3所示，下面是图3所示的各个步骤的详细描述。

步骤S101：将第一文档作为合并主体，将第二文档作为合并次体。

步骤S102：第二文档的根词条遍历第一文档的所有词条，得到相应的余弦相似度。

步骤S103：比较步骤S102中得到的余弦相似度，找到最大的余弦相似度的值。

步骤S104：若步骤S103得到的最大的余弦相似度的值大于第一阈值(例如80％)，则执行步骤S105，否则执行步骤S107。

步骤S105：记录最大余弦相似度的值对应的合并主体中的词条，将合并次体的根词条合并到所记录的合并主体中的对应词条中。

例如，记录的最大余弦相似度的值对应的合并主体中的词条是1.1.3，将合并次体中的根词条2.1合并到词条1.1.3中，具体合并的方式是根词条2.1的名称和词条1.1.3的名称合并为词条1.1.3的名称，根词条2.1的文本和词条1.1.3的文本分段并列合并，其中根词条2.1的子词条和原词条1.1.3的子词条成为新的词条1.1.3的子词条。

步骤S106：将合并后的词条(例如新词条1.1.3)的所有子词条进行两两余弦相似度计算，若余弦相似度大于第一阈值(80％)，则将两词条合并(合并规则和步骤S105相同)，合并后的词条再重复进行步骤S106，直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束。

步骤S107：将第二文档作为合并主体，将第一文档作为合并次体。

步骤S108：第一文档的根词条遍历第二文档的所有词条，得到相应的余弦相似度。

步骤S109：比较步骤S108中得到的余弦相似度，找到最大的余弦相似度的值。

步骤S110：若步骤S109得到的最大的余弦相似度的值大于第一阈值(80％)，则执行步骤S111，否则执行步骤S113。

步骤S111：记录最大的余弦相似度的值对应的合并主体中的词条，将合并次体的根词条合并到所记录的合并主体中的对应词条中。

例如，记录的最大的余弦相似度的值对应的合并主体中的词条是词条2.1.2.2，将合并次体中的根词条1.1合并到相应的词条2.1.2.2中。具体的合并方式是：根词条1.1的名称和词条2.1.2.2的名称合并为词条2.1.2.2的名称，根词条1.1的文本和词条2.1.2.2的文本分段并列合并，其中根词条1.1的子词条和原词条2.1.2.2的子词条成为新词条2.1.2.2的子词条。

步骤S112：将合并后的词条的所有子词条进行两两余弦相似度计算，若余弦相似度大于第一阈值(80％)，则将两词条合并(合并规则和步骤S111相同)，合并后的词条再重复进行步骤S112，直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值(80％)，合并结束。

步骤S113：重新将第一文档作为合并主体，将第二文档作为合并次体。

步骤S114：第二文档的根词条遍历第一文档的所有词条的文本，得到相应的余弦相似度。

步骤S115：比较步骤S114中得到的余弦相似度，找到最大的余弦相似度的值。

步骤S116：若步骤S115得到的最大的余弦相似度的值大于第二阈值(60％)，则执行步骤S117，否则执行步骤S118。

步骤S117：记录最大余弦相似度的值对应的合并主体中的词条，将合并次体的根词条合并到对应的合并主体中的所记录的词条。

例如，记录的最大余弦相似度的值对应的合并主体中的词条是词条1.1.3，将合并次体的根词条2.1合并到相应的词条1.1.3中去，其中根词条2.1的名称和词条1.1.3的名称合并为2.1&1.1.3，其中根词条2.1的文本和原词条1.3的文本分段并列合并，其中根词条2.1的子词条和原词条1.1.3的子词条成为词条2.1&1.1.3的子词条，合并结束。

步骤S118：将第二文档作为合并主体，将第一文档作为合并次体。

步骤S119：第一文档的根词条遍历第二文档的所有词条的文本，得到相应的余弦相似度。

步骤S120：比较步骤S119中得到的余弦相似度，找到最大的余弦相似度的值。

步骤S121：若步骤S120得到的最大余弦相似度的值大于第二阈值(60％)，则执行步骤S122，否则判断两词条文本无相关性。

步骤S122：记录最大余弦相似度的值对应的合并主体中的词条，将合并次体的根词条合并到对应的合并主体中的所记录的词条，合并结束。

例如记录的最大余弦相似度的值对应的合并主体中的词条是2.1.2.2，将合并次体的根词条1.1合并到相应的词条2.1.2.2中去。其中根词条1.1的名称和词条2.1.2.2的名称合并为1.1&2.1.2.2，其中根词条1.1的文本和词条2.1.2.2的文本分段并列合并，其中根词条1.1的子词条和词条2.1.2.2的子词条成为1.1&2.1.2.2的子词条，合并结束。

在上述的图3所示的文本合并的步骤中，涉及到了计算词条与词条的余弦相似度以及计算词条与文本的余弦相似度的问题。其中图5示出了词条与词条的余弦相似度的计算，图6示出了词条与文本的余弦相似度的计算。

请参见图5，图5示出了词条与词条的余弦相似度的计算方式，以下是对各个实施步骤的详述。

步骤S301：导入gensim数据库。

步骤S302；将合并主体中的所有词条导入自建的documents列表中，词条与词条用逗号间隔。

步骤S303：将所有词条向量化。

步骤S304：通过步骤S303中的向量值构建相应的TD_IDF模型。

步骤S305：通过TD_IDF模型计算每个词条的TD_IDF值。

步骤S306：通过每个词条的TD_IDF值构建相应的LSI模型。

步骤S307：导入合并次体的根词条，将其向量化。

步骤S308：将步骤S307中的合并次体的根词条的向量值导入步骤S306构建的LSI模型中。

步骤S309：将步骤S303中的词条的向量值导入步骤S306构建的LSI模型中，并构建余弦相似度计算模型。

步骤S310：将步骤S308得到的值导入到余弦相似度计算模型中，输出合并次体根词条与合并主体中的所有词条的余弦相似度。

请参见图6，图6示出了词条与词条文本的余弦相似度的计算方式，以下是对各个实施步骤的详述。

步骤S401：导入gensim数据库。

步骤S402：将合并主体中的所有词条对应的文本导入到自建的documents列表中，文本与文本用逗号间隔。

步骤S403：将所有文本向量化。

步骤S404：通过步骤S403的向量值构建相应的TD_IDF模型。

步骤S405：通过TD_IDF模型计算每个词条的TD_IDF值。

步骤S406：通过每个词条的TD_IDF值构建相应的LSI模型。

步骤S407：导入合并次体根词条，将其向量化。

步骤S408：将步骤S407中的向量值导入到步骤S406构建的LSI模型中。

步骤S409：将步骤S403中的向量值导入步骤S406构建的LSI模型中，并构建余弦相似度计算模型。

步骤S410：将步骤S408得到的值导入到余弦相似度计算模型中，计算合并次体根词条与合并主体中的所有词条对应的文本的余弦相似度。

在图1所示的将合并后的文本格式再转化为词条格式的过程中，将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。所有词条以及词条属性存储在redis数据库中，存储格式为哈希hash格式。其具体实现步骤进一步如图7所示，如下。

步骤S501：使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象。

步骤S502：web前端加载D3.js开源库。

步骤S503：使用d3.layout.tree命令定义一个tree对象，并确定图像区域大小。

步骤S504：web前端向服务器请求数据，服务器将步骤S501的对象按照JSON格式传到web前端中。

步骤S505：根据步骤S504的JSON数据生成节点集合nodes。

步骤S506：根据nodes集合生成节点。

步骤S507：使用tree.links(nodes)命令获取节点关系集合。

步骤S508：为关系集合设置贝塞尔曲线连接。

步骤S509：为节点添加圆形标记,如果有子节点为黑色，否则白色。

步骤S510：根据JSON数据的document属性为节点添加说明文字。

步骤S511：完成文本格式到结构格式的转化。

本实施例中提到的工具是在python中使用，其中D3、gensim、redis都是python的开源库。documents是自己创建的列表，TD_IDF、LSI模型是gensim开源库的模型，hgetall是redis开源库的基本命令，tree是D3开源库的命令d3.layout.tree定义的对象，JSON是一种数据格式，nodes是自己创建的节点集合对象。这一实施例的算法执行速度较第二实施例更快。

词条结构的合并方法的第二实施例

图1示出了本发明的词条结构的合并方法的实现，方法主要通过以下三个步骤来实现：首先，将词条结构格式转化为文本格式，然后，在文本格式的基础上，基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本，最后，将合并后的文本格式再转化为词条格式。

ID：888

name:1.1

document:aaaabbbbcccc

parent:null

children:1.1.1 1.1.2 1.1.3 1.1.4

ID:999

name:1.1.2

document:ddddeeeeffff

parent:1

children:1.1.2.1 1.1.2.2 1.1.2.3

第一文档：

第一层：1.1

第二层：1.1.1 1.1.2 1.1.3 1.1.4

第三层：1.1.2.1 1.1.2.2 1.1.2.3

第二文档：

第一层：2.1

第二层：2.1.1 2.1.2 2.1.3

第三层：2.1.2.1 2.1.2.2 2.1.2.3

文本之间的合并是借助于词条与词条的余弦相似度以及词条与文本的余弦相似度的计算来实现的，其具体的实施步骤如图4所示，下面是图4所示的各个步骤的详细描述。

步骤S201：比较第一文档和第二文档的词条数目，将词条数目多的作为合并主体，将词条数目少的作为合并次体。

步骤S202：合并次体的所有词条遍历合并主体的所有词条，得到相应的余弦相似度。

步骤S203：比较步骤S202中得到的余弦相似度，找到最大的余弦相似度的值。

步骤S204：若步骤S203得到的最大余弦相似度的值大于第一阈值(80％)，则执行步骤S205，否则执行步骤S207。

步骤S205：记录最大余弦相似度对应的在合并主体以及合并次体中的两个词条，将合并次体中的这一词条合并到合并主体的这一词条中，并保持合并次体不变。

例如，最大余弦相似度对应的两个词条是词条1.1.3和2.1.2，则将合并次体的词条2.1.2合并到合并主体的词条1.1.3中，合并次体的文档保持不变，合并主体的文档做出如下的改变：

词条2.1.2的名称和词条1.1.3的名称合并为词条1.1.3，其中词条2.1.2的文本和词条1.1.3的文本分段并列合并，词条2.1.2的子词条和原词条1.1.3的子词条成为新词条1.1.3的子词条。

步骤S206：将合并主体中的合并后的词条的所有子词条进行两两余弦相似度的计算，若余弦相似度大于第一阈值(80％)则将两词条合并，合并后的词条重复步骤S206，直到最后合并后的词条的所有子词条两两余弦相似度全部小于第一阈值，合并结束。

步骤S207：合并次体的所有词条遍历合并主体的所有词条的文本，得到相应的余弦相似度。

步骤S208：比较步骤S207得到的余弦相似度，找到最大的余弦相似度的值。

步骤S209：若步骤S208得到的最大余弦相似度的值大于第二阈值(60％)，执行步骤S210，否则判断两文本无相关性。

步骤S210：记录最大余弦相似度对应的合并次体中的词条和相应文本对应的合并主体中的词条，将所记录的合并次体的词条合并到所记录的合并主体的词条中，并保持合并次体的文档不变，合并结束。

例如，最大余弦相似度对应的词条为词条2.1.2和词条1.1.3，将合并次体的词条2.1.2合并到合并主体的词条1.1.3中去，合并次体的文档保持不变，合并主体的文档做出如下的改变：

词条2.1.2的名称和词条1.1.3的名称合并为2.1.2&1.1.3，其中词条2.1.2的文本和词条1.1.3的文本分段并列合并，词条2.1.2的子词条和词条1.1.3的子词条成为2.1.2&1.1.3的子词条，合并结束。

在上述的图4所示的文本合并的步骤中，涉及到了计算词条与词条的余弦相似度以及计算词条与文本的余弦相似度的问题。其中图5示出了词条与词条的余弦相似度的计算，图6示出了词条与文本的余弦相似度的计算。

步骤S301：导入gensim数据库。

步骤S302；将合并主体中的所有词条导入documents列表中，词条与词条用逗号间隔。

步骤S303：将所有词条向量化。

步骤S304：通过步骤S303中的向量值构建相应的TD_IDF模型。

步骤S305：通过TD_IDF模型计算每个词条的TD_IDF值。

步骤S306：通过每个词条的TD_IDF值构建相应的LSI模型。

步骤S307：导入合并次体的根词条，将其向量化。

步骤S401：导入gensim数据库。

步骤S403：将所有文本向量化。

步骤S404：通过步骤S403的向量值构建相应的TD_IDF模型。

步骤S405：通过TD_IDF模型计算每个词条的TD_IDF值。

步骤S406：通过每个词条的TD_IDF值构建相应的LSI模型。

步骤S407：导入合并次体根词条，将其向量化。

步骤S502：web前端加载D3.js开源库。

步骤S505：根据步骤S504的JSON数据生成节点集合nodes。

步骤S506：根据nodes集合生成节点。

步骤S507：使用tree.links(nodes)命令获取节点关系集合。

步骤S508：为关系集合设置贝塞尔曲线连接。

步骤S510：根据JSON数据的document属性为节点添加说明文字。

步骤S511：完成文本格式到结构格式的转化。

本实施例中提到的工具是在python中使用，其中D3、gensim、redis都是python的开源库。documents是自己创建的列表，TD_IDF、LSI模型是gensim开源库的模型，hgetall是redis开源库的基本命令，tree是D3开源库的命令d3.layout.tree定义的对象，JSON是一种数据格式，nodes是自己创建的节点集合对象。这一实施例考虑的情况较第一实施例更全面，但程序执行时间较慢。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种词条结构的合并方法，其特征在于，包括：

步骤一：将词条结构格式转化为文本格式，其中，词条结构中的词条属性按照键值对以哈希存储方式进行存储，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条，在将词条结构格式转化为文本格式的过程中，将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式；

步骤三：将合并后的文本格式再转化为词条结构格式。

2.根据权利要求1所述的词条结构的合并方法，其特征在于，步骤二进一步包括：

3.根据权利要求1所述的词条结构的合并方法，其特征在于，步骤二进一步包括：

4.根据权利要求2或3所述的词条结构的合并方法，其特征在于，计算词条与词条的余弦相似度的过程包括：

步骤1：导入gensim数据库；

步骤3：将所有词条向量化；

步骤4：通过步骤3中的向量值构建相应的TD_IDF模型；

步骤5：通过TD_IDF模型计算每个词条的TD_IDF值；

步骤6：通过每个词条的TD_IDF值构建相应的LSI模型；

步骤7：导入合并次体的根词条，将其向量化；

5.根据权利要求2或3所述的词条结构的合并方法，其特征在于，计算词条与文本的余弦相似度的过程包括：

步骤1：导入gensim数据库；

步骤3：将所有文本向量化；

步骤4：通过步骤3的向量值构建相应的TD_IDF模型；

步骤5：通过TD_IDF模型计算每个词条的TD_IDF值；

步骤6：通过每个词条的TD_IDF值构建相应的LSI模型；

步骤7：导入合并次体根词条，将其向量化；

步骤8：将步骤7中的向量值导入到步骤6构建的LSI模型中；

6.根据权利要求1所述的词条结构的合并方法，其特征在于，在步骤三的在将文本格式转化为词条结构格式的过程中，将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。

7.根据权利要求1所述的词条结构的合并方法，其特征在于，步骤三进一步包括：

步骤2：web前端加载D3.js开源库；

步骤5：根据步骤4的JSON数据生成节点集合nodes；

步骤6：根据nodes集合生成节点；

步骤7：使用tree.links(nodes)命令获取节点关系集合；

步骤8：为关系集合设置贝塞尔曲线连接；

步骤10：根据JSON数据的document属性为节点添加说明文字；

步骤11：完成文本格式到结构格式的转化。