CN108572954A

CN108572954A - 一种近似词条结构推荐方法和系统

Info

Publication number: CN108572954A
Application number: CN201710131132.1A
Authority: CN
Inventors: 马也驰; 谭红
Original assignee: Shanghai Yi Network Technology Co Ltd
Current assignee: Shanghai Yi Network Technology Co Ltd
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2018-09-25
Anticipated expiration: 2037-03-07
Also published as: CN108572954B; WO2018184600A1

Abstract

本发明公开了一种近似词条结构推荐方法和系统，能够自动将相近的词条结构识别出来并提供给新建词条的用户进行参考，提升了用户建立词条结构的效率、并能加深用户对词条结构的理解。其技术方案为：接收用户新建的根词条的结构，实时将结构格式转化为文本格式并存储；将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比；将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户，否则不呈现给用户。

Description

一种近似词条结构推荐方法和系统

技术领域

本发明涉及一种近似词条结构的推荐方法和系统，尤其涉及基于余弦相似度这一参数对词条结构进行推荐的技术。

背景技术

在以词条结构为基础的信息平台上，随着用户数量的增加，会有很多用户对同样的知识体系进行定义和结构化。当用户在系统中为了建立一个词条结构而新建一个根词条时，往往在系统中已经存储了和该新建根词条类似的词条结构。

在以往的信息平台上，即使存在类似的词条结构，也不会告知新建根词条的用户，信息平台上已知的词条结构便不能为该用户服务。用户依然在没有任何参考的情况下建立词条结构，这会造成用户在信息平台上的使用效率的降低。而且容易导致平台上产生大量结构格式相似的词条，不利于平台上的信息整理和显示。

因此，目前业界亟待一种能够自动将系统中已存的近似词条结构获取出来并提供给用户进行参考的手段。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种近似词条结构推荐方法和系统，能够自动将相近的词条结构识别出来并提供给新建词条的用户进行参考，提升了用户建立词条结构的效率、并能加深用户对词条结构的理解。

本发明的技术方案为：本发明揭示了一种近似词条结构推荐方法，包括：

步骤一：接收用户新建的根词条的结构，实时将结构格式转化为文本格式并存储；

步骤二：将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比；

步骤三：将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户，否则不呈现给用户。

根据本发明的近似词条结构推荐方法的一实施例，词条结构格式转化为文本格式的过程中，词条结构中的词条属性按照键值对以哈希存储方式进行存储，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条，在将词条结构格式转化为文本格式的过程中，将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。

根据本发明的近似词条结构推荐方法的一实施例，步骤二进一步包括：

步骤1：导入gensim数据库；

步骤2；将现有的所有词条导入documents列表中，词条与词条用逗号间隔；

步骤3：将现有的所有词条向量化；

步骤4：通过步骤3中的向量值构建相应的TD_IDF模型；

步骤5：通过TD_IDF模型计算每个词条的TD_IDF值；

步骤6：通过每个词条的TD_IDF值构建相应的LSI模型；

步骤7：导入用户新建的根词条，将其向量化；

步骤8：将步骤7中的新建的根词条的向量值导入步骤6构建的LSI模型中；

步骤9：将步骤3中的词条的向量值导入步骤6构建的LSI模型中，并构建余弦相似度计算模型；

步骤10：将步骤8得到的值导入到余弦相似度计算模型中，输出新建的根词条与现有的所有词条的余弦相似度。

根据本发明的近似词条结构推荐方法的一实施例，在步骤三的在将文本格式转化为词条结构格式的过程中，将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。

根据本发明的近似词条结构推荐方法的一实施例，在步骤三进一步包括：

步骤1：使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象；

步骤2：web前端加载D3.js开源库；

步骤3：使用d3.layout.tree命令定义一个tree对象，并确定图像区域大小；

步骤4：web前端向服务器请求数据，服务器将步骤1的对象按照JSON格式传到web前端中；

步骤5：根据步骤4的JSON数据生成节点集合nodes；

步骤6：根据nodes集合生成节点；

步骤7：使用tree.links(nodes)命令获取节点关系集合；

步骤8：为关系集合设置贝塞尔曲线连接；

步骤9：为节点添加圆形标记,如果有子节点为黑色，否则白色；

步骤10：根据JSON数据的document属性为节点添加说明文字；

步骤11：完成文本格式到结构格式的转化。

本发明还揭示了一种近似词条结构推荐系统，包括：

文本格式转化模块，将根词条的结构格式转化为文本格式；

存储模块，存储所有词条的结构格式及其对应的文本格式；

余弦相似度对比模块，将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比，筛选出余弦相似度高于预设阈值的已有根词条的文本格式并输出为词条结构格式；

结构格式转化模块，将根词条的文本格式转化为词条的结构格式。

根据本发明的近似词条结构推荐系统的一实施例，在文本格式转化模块中，词条结构中的词条属性按照键值对以哈希存储方式进行存储，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条，在将词条结构格式转化为文本格式的过程中，将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。

根据本发明的近似词条结构推荐系统的一实施例，结构格式转化模块中，将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。

附图说明

图1示出了本发明的近似词条结构推荐方法的实施例的流程图。

图2示出了本发明举例用的两个词条结构。

图3示出了本发明的计算词条与词条的余弦相似度的流程图。

图4示出了本发明的文本格式转化为词条结构格式的流程图。

图5示出了本发明的近似词条结构推荐系统的实施例的原理图。

具体实施方式

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

近似词条结构推荐方法的实施例

图1示出了本发明的近似词条结构推荐方法的实施例的实现，在本实施例的描述中，用图2所示的两个词条结构来举例，分别为图2中所示的词条结构1和词条结构2。

步骤S1：接收用户新建的根词条的结构，实时将结构格式转化为文本格式并存储。

词条属性包括词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中，将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。

现在网络的结构化显示多采用D3开源库，即D3开源库将存储在服务器的词条按照树状图的方式显示。词条属性按照键值对进行存储，即是一个string类型的field和value的映射表，因此hash(哈希)存储方式适用于上述存储。

web后台使用Key-Value数据库redis存储词条以及词条属性，创建的每个词条的词条属性按照hash存储方式存储在数据库redis中。需要格式转化时，使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出。以图2为例，词条结构在数据库中的局部存储信息示例如下：

文本1：

标题1

XXXXXX这是标题1的内容XXXXXX

第一章

XXXXXX第一章的内容XXXXXX

第一节

XXXXXX第一节的内容XXXXXX

第二节

XXXXXX第二节的内容XXXXXX

第二章

XXXXXX第二章的内容XXXXXX

第一节

XXXXXX第一节的内容XXXXXX

第二节

XXXXXX第二节的内容XXXXXX

第三节

XXXXXX第三节的内容XXXXXX

第三章

XXXXXX第三章的内容XXXXXX

第一节

XXXXXX第一节的内容XXXXXX

第二节

XXXXXX第二节的内容XXXXXX

文本2：

标题2

XXXXXX这是标题2的内容XXXXXX

第一章

XXXXXX第一章的内容XXXXXX

第二章

XXXXXX第二章的内容XXXXXX

第一节

XXXXXX第一节的内容XXXXXX

第二节

XXXXXX第二节的内容XXXXXX

第三章

XXXXXX第三章的内容XXXXXX

第一节

XXXXXX第一节的内容XXXXXX

第二节

XXXXXX第二节的内容XXXXXX

步骤S2：将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比。

词条与词条之间的余弦相似度的计算如图3所示，具体步骤如下。

步骤S201：导入gensim数据库。

步骤S202；将现有的所有词条导入documents列表中，词条与词条用逗号间隔。

步骤S203：将现有的所有词条向量化。

步骤S204：通过步骤S203中的向量值构建相应的TD_IDF模型。

步骤S205：通过TD_IDF模型计算每个词条的TD_IDF值。

步骤S206：通过每个词条的TD_IDF值构建相应的LSI模型。

步骤S207：导入用户新建的根词条，将其向量化。

步骤S208：将步骤S207中的新建的根词条的向量值导入步骤S206构建的LSI模型中。

步骤S209：将步骤S203中的词条的向量值导入步骤S206构建的LSI模型中，并构建余弦相似度计算模型。

步骤S210：将步骤S208得到的值导入到余弦相似度计算模型中，输出新建的根词条与现有的所有词条的余弦相似度。

步骤S3：将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户，否则不呈现给用户。

将余弦相似度超过预设阈值(比如80％)的已有根词条识别出来，将文本格式转化为结构格式。

将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。所有词条以及词条属性存储在redis数据库中，存储格式为哈希hash格式。其具体实现步骤进一步如图4所示，如下。

步骤S301：使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象。

步骤S302：web前端加载D3.js开源库。

步骤S303：使用d3.layout.tree命令定义一个tree对象，并确定图像区域大小。

步骤S304：web前端向服务器请求数据，服务器将步骤S301的对象按照JSON格式传到web前端中。

步骤S305：根据步骤S304的JSON数据生成节点集合nodes。

步骤S306：根据nodes集合生成节点。

步骤S307：使用tree.links(nodes)命令获取节点关系集合。

步骤S308：为关系集合设置贝塞尔曲线连接。

步骤S309：为节点添加圆形标记,如果有子节点为黑色，否则白色。

步骤S310：根据JSON数据的document属性为节点添加说明文字。

步骤S311：完成文本格式到结构格式的转化。

本实施例中提到的工具是在python中使用，其中D3、gensim、redis都是python的开源库。documents是自己创建的列表，TD_IDF、LSI模型是gensim开源库的模型，hgetall是redis开源库的基本命令，tree是D3开源库的命令d3.layout.tree定义的对象，JSON是一种数据格式，nodes是自己创建的节点集合对象。

近似词条结构推荐系统的实施例

图5示出了本发明的近似词条结构推荐系统的实施例的原理。请参见图5，本实施例的系统包括文本格式转换模块1、余弦相似度对比模块2、结构格式转换模块3以及存储模块4。

文本格式转化模块1用于实现将根词条的结构格式转化为文本格式。在文本格式转化模块1中，词条属性包括词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中，将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。

文本1：

标题1

XXXXXX这是标题1的内容XXXXXX

第一章

XXXXXX第一章的内容XXXXXX

第一节

XXXXXX第一节的内容XXXXXX

第二节

XXXXXX第二节的内容XXXXXX

第二章

XXXXXX第二章的内容XXXXXX

第一节

XXXXXX第一节的内容XXXXXX

第二节

XXXXXX第二节的内容XXXXXX

第三节

XXXXXX第三节的内容XXXXXX

第三章

XXXXXX第三章的内容XXXXXX

第一节

XXXXXX第一节的内容XXXXXX

第二节

XXXXXX第二节的内容XXXXXX

文本2：

标题2

XXXXXX这是标题2的内容XXXXXX

第一章

XXXXXX第一章的内容XXXXXX

第二章

XXXXXX第二章的内容XXXXXX

第一节

XXXXXX第一节的内容XXXXXX

第二节

XXXXXX第二节的内容XXXXXX

第三章

XXXXXX第三章的内容XXXXXX

第一节

XXXXXX第一节的内容XXXXXX

第二节

XXXXXX第二节的内容XXXXXX

存储模块4用于存储所有词条的结构格式及其对应的文本格式。

余弦相似度对比模块2将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比，筛选出余弦相似度高于预设阈值的已有根词条的文本格式并输出为词条结构格式。

余弦相似度对比模块2中有关词条与词条之间的余弦相似度的计算如图3所示，具体步骤如下。

步骤S201：导入gensim数据库。

步骤S203：将现有的所有词条向量化。

步骤S204：通过步骤S203中的向量值构建相应的TD_IDF模型。

步骤S205：通过TD_IDF模型计算每个词条的TD_IDF值。

步骤S206：通过每个词条的TD_IDF值构建相应的LSI模型。

步骤S207：导入用户新建的根词条，将其向量化。

结构格式转化模块3用于将根词条的文本格式转化为词条的结构格式。结构格式转化模块3中，将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。所有词条以及词条属性存储在redis数据库中，存储格式为哈希hash格式。其具体实现步骤进一步如图4所示，如下。

步骤S302：web前端加载D3.js开源库。

步骤S305：根据步骤S304的JSON数据生成节点集合nodes。

步骤S306：根据nodes集合生成节点。

步骤S307：使用tree.links(nodes)命令获取节点关系集合。

步骤S308：为关系集合设置贝塞尔曲线连接。

步骤S310：根据JSON数据的document属性为节点添加说明文字。

步骤S311：完成文本格式到结构格式的转化。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种近似词条结构推荐方法，其特征在于，包括：

2.根据权利要求1所述的近似词条结构推荐方法，其特征在于，词条结构格式转化为文本格式的过程中，词条结构中的词条属性按照键值对以哈希存储方式进行存储，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条，在将词条结构格式转化为文本格式的过程中，将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。

3.根据权利要求1所述的近似词条结构推荐方法，其特征在于，步骤二进一步包括：

步骤1：导入gensim数据库；

步骤3：将现有的所有词条向量化；

步骤4：通过步骤3中的向量值构建相应的TD_IDF模型；

步骤5：通过TD_IDF模型计算每个词条的TD_IDF值；

步骤6：通过每个词条的TD_IDF值构建相应的LSI模型；

步骤7：导入用户新建的根词条，将其向量化；

4.根据权利要求1所述的近似词条结构推荐方法，其特征在于，在步骤三的在将文本格式转化为词条结构格式的过程中，将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。

5.根据权利要求4所述的近似词条结构推荐方法，其特征在于，在步骤三进一步包括：

步骤2：web前端加载D3.js开源库；

步骤5：根据步骤4的JSON数据生成节点集合nodes；

步骤6：根据nodes集合生成节点；

步骤7：使用tree.links(nodes)命令获取节点关系集合；

步骤8：为关系集合设置贝塞尔曲线连接；

步骤10：根据JSON数据的document属性为节点添加说明文字；

步骤11：完成文本格式到结构格式的转化。

6.一种近似词条结构推荐系统，其特征在于，包括：

文本格式转化模块，将根词条的结构格式转化为文本格式；

存储模块，存储所有词条的结构格式及其对应的文本格式；

7.根据权利要求6所述的近似词条结构推荐系统，其特征在于，在文本格式转化模块中，词条结构中的词条属性按照键值对以哈希存储方式进行存储，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条，在将词条结构格式转化为文本格式的过程中，将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。

8.根据权利要求6所述的近似词条结构推荐系统，其特征在于，结构格式转化模块中，将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构，其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。