CN108572954A - 一种近似词条结构推荐方法和系统 - Google Patents

一种近似词条结构推荐方法和系统 Download PDF

Info

Publication number
CN108572954A
CN108572954A CN201710131132.1A CN201710131132A CN108572954A CN 108572954 A CN108572954 A CN 108572954A CN 201710131132 A CN201710131132 A CN 201710131132A CN 108572954 A CN108572954 A CN 108572954A
Authority
CN
China
Prior art keywords
entry
format
entries
root
text format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710131132.1A
Other languages
English (en)
Other versions
CN108572954B (zh
Inventor
马也驰
谭红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yi Network Technology Co Ltd
Original Assignee
Shanghai Yi Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yi Network Technology Co Ltd filed Critical Shanghai Yi Network Technology Co Ltd
Priority to CN201710131132.1A priority Critical patent/CN108572954B/zh
Priority to PCT/CN2018/084818 priority patent/WO2018184600A1/zh
Publication of CN108572954A publication Critical patent/CN108572954A/zh
Application granted granted Critical
Publication of CN108572954B publication Critical patent/CN108572954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种近似词条结构推荐方法和系统,能够自动将相近的词条结构识别出来并提供给新建词条的用户进行参考,提升了用户建立词条结构的效率、并能加深用户对词条结构的理解。其技术方案为:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储;将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比;将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户,否则不呈现给用户。

Description

一种近似词条结构推荐方法和系统
技术领域
本发明涉及一种近似词条结构的推荐方法和系统,尤其涉及基于余弦相似度这一参数对词条结构进行推荐的技术。
背景技术
在以词条结构为基础的信息平台上,随着用户数量的增加,会有很多用户对同样的知识体系进行定义和结构化。当用户在系统中为了建立一个词条结构而新建一个根词条时,往往在系统中已经存储了和该新建根词条类似的词条结构。
在以往的信息平台上,即使存在类似的词条结构,也不会告知新建根词条的用户,信息平台上已知的词条结构便不能为该用户服务。用户依然在没有任何参考的情况下建立词条结构,这会造成用户在信息平台上的使用效率的降低。而且容易导致平台上产生大量结构格式相似的词条,不利于平台上的信息整理和显示。
因此,目前业界亟待一种能够自动将系统中已存的近似词条结构获取出来并提供给用户进行参考的手段。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种近似词条结构推荐方法和系统,能够自动将相近的词条结构识别出来并提供给新建词条的用户进行参考,提升了用户建立词条结构的效率、并能加深用户对词条结构的理解。
本发明的技术方案为:本发明揭示了一种近似词条结构推荐方法,包括:
步骤一:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储;
步骤二:将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比;
步骤三:将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户,否则不呈现给用户。
根据本发明的近似词条结构推荐方法的一实施例,词条结构格式转化为文本格式的过程中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
根据本发明的近似词条结构推荐方法的一实施例,步骤二进一步包括:
步骤1:导入gensim数据库;
步骤2;将现有的所有词条导入documents列表中,词条与词条用逗号间隔;
步骤3:将现有的所有词条向量化;
步骤4:通过步骤3中的向量值构建相应的TD_IDF模型;
步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;
步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;
步骤7:导入用户新建的根词条,将其向量化;
步骤8:将步骤7中的新建的根词条的向量值导入步骤6构建的LSI模型中;
步骤9:将步骤3中的词条的向量值导入步骤6构建的LSI模型中,并构建余弦相似度计算模型;
步骤10:将步骤8得到的值导入到余弦相似度计算模型中,输出新建的根词条与现有的所有词条的余弦相似度。
根据本发明的近似词条结构推荐方法的一实施例,在步骤三的在将文本格式转化为词条结构格式的过程中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。
根据本发明的近似词条结构推荐方法的一实施例,在步骤三进一步包括:
步骤1:使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象;
步骤2:web前端加载D3.js开源库;
步骤3:使用d3.layout.tree命令定义一个tree对象,并确定图像区域大小;
步骤4:web前端向服务器请求数据,服务器将步骤1的对象按照JSON格式传到web前端中;
步骤5:根据步骤4的JSON数据生成节点集合nodes;
步骤6:根据nodes集合生成节点;
步骤7:使用tree.links(nodes)命令获取节点关系集合;
步骤8:为关系集合设置贝塞尔曲线连接;
步骤9:为节点添加圆形标记,如果有子节点为黑色,否则白色;
步骤10:根据JSON数据的document属性为节点添加说明文字;
步骤11:完成文本格式到结构格式的转化。
本发明还揭示了一种近似词条结构推荐系统,包括:
文本格式转化模块,将根词条的结构格式转化为文本格式;
存储模块,存储所有词条的结构格式及其对应的文本格式;
余弦相似度对比模块,将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比,筛选出余弦相似度高于预设阈值的已有根词条的文本格式并输出为词条结构格式;
结构格式转化模块,将根词条的文本格式转化为词条的结构格式。
根据本发明的近似词条结构推荐系统的一实施例,在文本格式转化模块中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
根据本发明的近似词条结构推荐系统的一实施例,结构格式转化模块中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。
附图说明
图1示出了本发明的近似词条结构推荐方法的实施例的流程图。
图2示出了本发明举例用的两个词条结构。
图3示出了本发明的计算词条与词条的余弦相似度的流程图。
图4示出了本发明的文本格式转化为词条结构格式的流程图。
图5示出了本发明的近似词条结构推荐系统的实施例的原理图。
具体实施方式
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
近似词条结构推荐方法的实施例
图1示出了本发明的近似词条结构推荐方法的实施例的实现,在本实施例的描述中,用图2所示的两个词条结构来举例,分别为图2中所示的词条结构1和词条结构2。
步骤S1:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储。
词条属性包括词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
现在网络的结构化显示多采用D3开源库,即D3开源库将存储在服务器的词条按照树状图的方式显示。词条属性按照键值对进行存储,即是一个string类型的field和value的映射表,因此hash(哈希)存储方式适用于上述存储。
web后台使用Key-Value数据库redis存储词条以及词条属性,创建的每个词条的词条属性按照hash存储方式存储在数据库redis中。需要格式转化时,使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出。以图2为例,词条结构在数据库中的局部存储信息示例如下:
文本1:
标题1
XXXXXX这是标题1的内容XXXXXX
第一章
XXXXXX第一章的内容XXXXXX
第一节
XXXXXX第一节的内容XXXXXX
第二节
XXXXXX第二节的内容XXXXXX
第二章
XXXXXX第二章的内容XXXXXX
第一节
XXXXXX第一节的内容XXXXXX
第二节
XXXXXX第二节的内容XXXXXX
第三节
XXXXXX第三节的内容XXXXXX
第三章
XXXXXX第三章的内容XXXXXX
第一节
XXXXXX第一节的内容XXXXXX
第二节
XXXXXX第二节的内容XXXXXX
文本2:
标题2
XXXXXX这是标题2的内容XXXXXX
第一章
XXXXXX第一章的内容XXXXXX
第二章
XXXXXX第二章的内容XXXXXX
第一节
XXXXXX第一节的内容XXXXXX
第二节
XXXXXX第二节的内容XXXXXX
第三章
XXXXXX第三章的内容XXXXXX
第一节
XXXXXX第一节的内容XXXXXX
第二节
XXXXXX第二节的内容XXXXXX
步骤S2:将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比。
词条与词条之间的余弦相似度的计算如图3所示,具体步骤如下。
步骤S201:导入gensim数据库。
步骤S202;将现有的所有词条导入documents列表中,词条与词条用逗号间隔。
步骤S203:将现有的所有词条向量化。
步骤S204:通过步骤S203中的向量值构建相应的TD_IDF模型。
步骤S205:通过TD_IDF模型计算每个词条的TD_IDF值。
步骤S206:通过每个词条的TD_IDF值构建相应的LSI模型。
步骤S207:导入用户新建的根词条,将其向量化。
步骤S208:将步骤S207中的新建的根词条的向量值导入步骤S206构建的LSI模型中。
步骤S209:将步骤S203中的词条的向量值导入步骤S206构建的LSI模型中,并构建余弦相似度计算模型。
步骤S210:将步骤S208得到的值导入到余弦相似度计算模型中,输出新建的根词条与现有的所有词条的余弦相似度。
步骤S3:将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户,否则不呈现给用户。
将余弦相似度超过预设阈值(比如80%)的已有根词条识别出来,将文本格式转化为结构格式。
将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。所有词条以及词条属性存储在redis数据库中,存储格式为哈希hash格式。其具体实现步骤进一步如图4所示,如下。
步骤S301:使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象。
步骤S302:web前端加载D3.js开源库。
步骤S303:使用d3.layout.tree命令定义一个tree对象,并确定图像区域大小。
步骤S304:web前端向服务器请求数据,服务器将步骤S301的对象按照JSON格式传到web前端中。
步骤S305:根据步骤S304的JSON数据生成节点集合nodes。
步骤S306:根据nodes集合生成节点。
步骤S307:使用tree.links(nodes)命令获取节点关系集合。
步骤S308:为关系集合设置贝塞尔曲线连接。
步骤S309:为节点添加圆形标记,如果有子节点为黑色,否则白色。
步骤S310:根据JSON数据的document属性为节点添加说明文字。
步骤S311:完成文本格式到结构格式的转化。
本实施例中提到的工具是在python中使用,其中D3、gensim、redis都是python的开源库。documents是自己创建的列表,TD_IDF、LSI模型是gensim开源库的模型,hgetall是redis开源库的基本命令,tree是D3开源库的命令d3.layout.tree定义的对象,JSON是一种数据格式,nodes是自己创建的节点集合对象。
近似词条结构推荐系统的实施例
图5示出了本发明的近似词条结构推荐系统的实施例的原理。请参见图5,本实施例的系统包括文本格式转换模块1、余弦相似度对比模块2、结构格式转换模块3以及存储模块4。
文本格式转化模块1用于实现将根词条的结构格式转化为文本格式。在文本格式转化模块1中,词条属性包括词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
现在网络的结构化显示多采用D3开源库,即D3开源库将存储在服务器的词条按照树状图的方式显示。词条属性按照键值对进行存储,即是一个string类型的field和value的映射表,因此hash(哈希)存储方式适用于上述存储。
web后台使用Key-Value数据库redis存储词条以及词条属性,创建的每个词条的词条属性按照hash存储方式存储在数据库redis中。需要格式转化时,使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出。以图2为例,词条结构在数据库中的局部存储信息示例如下:
文本1:
标题1
XXXXXX这是标题1的内容XXXXXX
第一章
XXXXXX第一章的内容XXXXXX
第一节
XXXXXX第一节的内容XXXXXX
第二节
XXXXXX第二节的内容XXXXXX
第二章
XXXXXX第二章的内容XXXXXX
第一节
XXXXXX第一节的内容XXXXXX
第二节
XXXXXX第二节的内容XXXXXX
第三节
XXXXXX第三节的内容XXXXXX
第三章
XXXXXX第三章的内容XXXXXX
第一节
XXXXXX第一节的内容XXXXXX
第二节
XXXXXX第二节的内容XXXXXX
文本2:
标题2
XXXXXX这是标题2的内容XXXXXX
第一章
XXXXXX第一章的内容XXXXXX
第二章
XXXXXX第二章的内容XXXXXX
第一节
XXXXXX第一节的内容XXXXXX
第二节
XXXXXX第二节的内容XXXXXX
第三章
XXXXXX第三章的内容XXXXXX
第一节
XXXXXX第一节的内容XXXXXX
第二节
XXXXXX第二节的内容XXXXXX
存储模块4用于存储所有词条的结构格式及其对应的文本格式。
余弦相似度对比模块2将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比,筛选出余弦相似度高于预设阈值的已有根词条的文本格式并输出为词条结构格式。
余弦相似度对比模块2中有关词条与词条之间的余弦相似度的计算如图3所示,具体步骤如下。
步骤S201:导入gensim数据库。
步骤S202;将现有的所有词条导入documents列表中,词条与词条用逗号间隔。
步骤S203:将现有的所有词条向量化。
步骤S204:通过步骤S203中的向量值构建相应的TD_IDF模型。
步骤S205:通过TD_IDF模型计算每个词条的TD_IDF值。
步骤S206:通过每个词条的TD_IDF值构建相应的LSI模型。
步骤S207:导入用户新建的根词条,将其向量化。
步骤S208:将步骤S207中的新建的根词条的向量值导入步骤S206构建的LSI模型中。
步骤S209:将步骤S203中的词条的向量值导入步骤S206构建的LSI模型中,并构建余弦相似度计算模型。
步骤S210:将步骤S208得到的值导入到余弦相似度计算模型中,输出新建的根词条与现有的所有词条的余弦相似度。
结构格式转化模块3用于将根词条的文本格式转化为词条的结构格式。结构格式转化模块3中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。所有词条以及词条属性存储在redis数据库中,存储格式为哈希hash格式。其具体实现步骤进一步如图4所示,如下。
步骤S301:使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象。
步骤S302:web前端加载D3.js开源库。
步骤S303:使用d3.layout.tree命令定义一个tree对象,并确定图像区域大小。
步骤S304:web前端向服务器请求数据,服务器将步骤S301的对象按照JSON格式传到web前端中。
步骤S305:根据步骤S304的JSON数据生成节点集合nodes。
步骤S306:根据nodes集合生成节点。
步骤S307:使用tree.links(nodes)命令获取节点关系集合。
步骤S308:为关系集合设置贝塞尔曲线连接。
步骤S309:为节点添加圆形标记,如果有子节点为黑色,否则白色。
步骤S310:根据JSON数据的document属性为节点添加说明文字。
步骤S311:完成文本格式到结构格式的转化。
本实施例中提到的工具是在python中使用,其中D3、gensim、redis都是python的开源库。documents是自己创建的列表,TD_IDF、LSI模型是gensim开源库的模型,hgetall是redis开源库的基本命令,tree是D3开源库的命令d3.layout.tree定义的对象,JSON是一种数据格式,nodes是自己创建的节点集合对象。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (8)

1.一种近似词条结构推荐方法,其特征在于,包括:
步骤一:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储;
步骤二:将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比;
步骤三:将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户,否则不呈现给用户。
2.根据权利要求1所述的近似词条结构推荐方法,其特征在于,词条结构格式转化为文本格式的过程中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
3.根据权利要求1所述的近似词条结构推荐方法,其特征在于,步骤二进一步包括:
步骤1:导入gensim数据库;
步骤2;将现有的所有词条导入documents列表中,词条与词条用逗号间隔;
步骤3:将现有的所有词条向量化;
步骤4:通过步骤3中的向量值构建相应的TD_IDF模型;
步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;
步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;
步骤7:导入用户新建的根词条,将其向量化;
步骤8:将步骤7中的新建的根词条的向量值导入步骤6构建的LSI模型中;
步骤9:将步骤3中的词条的向量值导入步骤6构建的LSI模型中,并构建余弦相似度计算模型;
步骤10:将步骤8得到的值导入到余弦相似度计算模型中,输出新建的根词条与现有的所有词条的余弦相似度。
4.根据权利要求1所述的近似词条结构推荐方法,其特征在于,在步骤三的在将文本格式转化为词条结构格式的过程中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。
5.根据权利要求4所述的近似词条结构推荐方法,其特征在于,在步骤三进一步包括:
步骤1:使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象;
步骤2:web前端加载D3.js开源库;
步骤3:使用d3.layout.tree命令定义一个tree对象,并确定图像区域大小;
步骤4:web前端向服务器请求数据,服务器将步骤1的对象按照JSON格式传到web前端中;
步骤5:根据步骤4的JSON数据生成节点集合nodes;
步骤6:根据nodes集合生成节点;
步骤7:使用tree.links(nodes)命令获取节点关系集合;
步骤8:为关系集合设置贝塞尔曲线连接;
步骤9:为节点添加圆形标记,如果有子节点为黑色,否则白色;
步骤10:根据JSON数据的document属性为节点添加说明文字;
步骤11:完成文本格式到结构格式的转化。
6.一种近似词条结构推荐系统,其特征在于,包括:
文本格式转化模块,将根词条的结构格式转化为文本格式;
存储模块,存储所有词条的结构格式及其对应的文本格式;
余弦相似度对比模块,将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比,筛选出余弦相似度高于预设阈值的已有根词条的文本格式并输出为词条结构格式;
结构格式转化模块,将根词条的文本格式转化为词条的结构格式。
7.根据权利要求6所述的近似词条结构推荐系统,其特征在于,在文本格式转化模块中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
8.根据权利要求6所述的近似词条结构推荐系统,其特征在于,结构格式转化模块中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。
CN201710131132.1A 2017-03-07 2017-03-07 一种近似词条结构推荐方法和系统 Active CN108572954B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710131132.1A CN108572954B (zh) 2017-03-07 2017-03-07 一种近似词条结构推荐方法和系统
PCT/CN2018/084818 WO2018184600A1 (zh) 2017-03-07 2018-04-27 一种近似词条结构推荐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710131132.1A CN108572954B (zh) 2017-03-07 2017-03-07 一种近似词条结构推荐方法和系统

Publications (2)

Publication Number Publication Date
CN108572954A true CN108572954A (zh) 2018-09-25
CN108572954B CN108572954B (zh) 2023-04-28

Family

ID=63577212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710131132.1A Active CN108572954B (zh) 2017-03-07 2017-03-07 一种近似词条结构推荐方法和系统

Country Status (2)

Country Link
CN (1) CN108572954B (zh)
WO (1) WO2018184600A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829862A (zh) * 2024-03-04 2024-04-05 贵州联广科技股份有限公司 一种基于互联互通的数据源追溯方法及系统

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6458018A (en) * 1987-08-28 1989-03-06 Hitachi Ltd Method and device for retrieving data
JP2004005337A (ja) * 2002-03-28 2004-01-08 Nippon Telegr & Teleph Corp <Ntt> 単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法
EP2000925A1 (en) * 2007-06-08 2008-12-10 Deutsche Telekom AG An intelligent graph-based expert searching system
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
CN102360358A (zh) * 2011-09-28 2012-02-22 百度在线网络技术(北京)有限公司 关键词推荐方法及系统
CN103150667A (zh) * 2013-03-14 2013-06-12 北京大学 一种基于本体结构的个性化推荐方法
CN103593792A (zh) * 2013-11-13 2014-02-19 复旦大学 一种基于中文知识图谱的个性化推荐方法与系统
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN104408148A (zh) * 2014-12-03 2015-03-11 复旦大学 一种基于通用百科网站的领域百科构建系统
CN104484374A (zh) * 2014-12-08 2015-04-01 百度在线网络技术(北京)有限公司 一种创建网络百科词条的方法及装置
CN104572970A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于本体库内容的sparql查询语句生成系统
US20150169734A1 (en) * 2013-12-14 2015-06-18 Microsoft Corporation Building features and indexing for knowledge-based matching
CN104866614A (zh) * 2015-06-05 2015-08-26 深圳市爱学堂教育科技有限公司 创建词条的方法及创建词条的装置
US20160092557A1 (en) * 2014-09-26 2016-03-31 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
CN105653650A (zh) * 2015-12-28 2016-06-08 湖北工业大学 一种基于d3的研讨系统思维导图及其开发方法
CN105989088A (zh) * 2015-02-12 2016-10-05 马正方 数字化环境下的学习装置
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
CN106295912A (zh) * 2016-08-30 2017-01-04 成都科来软件有限公司 一种基于业务逻辑对交易路径配置、展现的方法及装置
CN106372194A (zh) * 2016-08-31 2017-02-01 杭州追灿科技有限公司 一种呈现搜索结果的方法和系统
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150376B (zh) * 2013-03-12 2015-12-02 中科软科技股份有限公司 一种行业应用软件词根表的构建方法
US10402414B2 (en) * 2015-01-30 2019-09-03 Nec Corporation Scalable system and method for weighted similarity estimation in massive datasets revealed in a streaming fashion

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6458018A (en) * 1987-08-28 1989-03-06 Hitachi Ltd Method and device for retrieving data
JP2004005337A (ja) * 2002-03-28 2004-01-08 Nippon Telegr & Teleph Corp <Ntt> 単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法
EP2000925A1 (en) * 2007-06-08 2008-12-10 Deutsche Telekom AG An intelligent graph-based expert searching system
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
CN102360358A (zh) * 2011-09-28 2012-02-22 百度在线网络技术(北京)有限公司 关键词推荐方法及系统
CN103150667A (zh) * 2013-03-14 2013-06-12 北京大学 一种基于本体结构的个性化推荐方法
CN103593792A (zh) * 2013-11-13 2014-02-19 复旦大学 一种基于中文知识图谱的个性化推荐方法与系统
US20150169734A1 (en) * 2013-12-14 2015-06-18 Microsoft Corporation Building features and indexing for knowledge-based matching
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
US20160092557A1 (en) * 2014-09-26 2016-03-31 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
CN104408148A (zh) * 2014-12-03 2015-03-11 复旦大学 一种基于通用百科网站的领域百科构建系统
CN104484374A (zh) * 2014-12-08 2015-04-01 百度在线网络技术(北京)有限公司 一种创建网络百科词条的方法及装置
CN104572970A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于本体库内容的sparql查询语句生成系统
CN105989088A (zh) * 2015-02-12 2016-10-05 马正方 数字化环境下的学习装置
CN104866614A (zh) * 2015-06-05 2015-08-26 深圳市爱学堂教育科技有限公司 创建词条的方法及创建词条的装置
CN105653650A (zh) * 2015-12-28 2016-06-08 湖北工业大学 一种基于d3的研讨系统思维导图及其开发方法
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
CN106295912A (zh) * 2016-08-30 2017-01-04 成都科来软件有限公司 一种基于业务逻辑对交易路径配置、展现的方法及装置
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106372194A (zh) * 2016-08-31 2017-02-01 杭州追灿科技有限公司 一种呈现搜索结果的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘怀亮;杜坤;秦春秀;: "基于知网语义相似度的中文文本分类研究" *
方辉;谭建荣;谭颖;冯毅雄;: "基于Web的制造信息主动推荐服务研究" *

Also Published As

Publication number Publication date
CN108572954B (zh) 2023-04-28
WO2018184600A1 (zh) 2018-10-11

Similar Documents

Publication Publication Date Title
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US8312041B2 (en) Resource description framework network construction device and method using an ontology schema having class dictionary and mining rule
KR20200019824A (ko) 엔티티 관계 데이터 생성 방법, 장치, 기기 및 저장 매체
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
WO2015009297A1 (en) Systems and methods for extracting table information from documents
CN106776495B (zh) 一种文档逻辑结构重建方法
US20120233213A1 (en) Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema
CN105446986A (zh) 用于处理web页面的方法和装置
CN104268192A (zh) 一种网页信息提取方法、装置及终端
CN105005616A (zh) 基于文本图片特征交互扩充的文本图解方法及系统
CN113127506A (zh) 目标查询语句的构建方法、装置、存储介质和电子装置
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN112529615A (zh) 自动生成广告的方法、装置、设备和计算机可读存储介质
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN113535977A (zh) 一种知识图谱融合方法和装置及设备
CN112582073B (zh) 医疗信息获取方法、装置、电子设备和介质
CN112632948A (zh) 案件文书排序方法及相关设备
CN108572954B (zh) 一种近似词条结构推荐方法和系统
CN114036921A (zh) 一种政策信息匹配方法和装置
WO2020146784A1 (en) Converting unstructured technical reports to structured technical reports using machine learning
CN113946648B (zh) 结构化信息生成方法、装置、电子设备和介质
US20210117920A1 (en) Patent preparation system
KR20220068462A (ko) 지식 그래프 생성 방법 및 장치
US8522133B2 (en) Incrementally tokenizing and/or parsing a style sheet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
GR01 Patent grant
GR01 Patent grant