CN108572953B - 一种词条结构的合并方法 - Google Patents

一种词条结构的合并方法 Download PDF

Info

Publication number
CN108572953B
CN108572953B CN201710131120.9A CN201710131120A CN108572953B CN 108572953 B CN108572953 B CN 108572953B CN 201710131120 A CN201710131120 A CN 201710131120A CN 108572953 B CN108572953 B CN 108572953B
Authority
CN
China
Prior art keywords
entries
merging
cosine similarity
entry
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710131120.9A
Other languages
English (en)
Other versions
CN108572953A (zh
Inventor
马也驰
谭红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yiwei Network Technology Co ltd
Original Assignee
Shanghai Yiwei Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yiwei Network Technology Co ltd filed Critical Shanghai Yiwei Network Technology Co ltd
Priority to CN201710131120.9A priority Critical patent/CN108572953B/zh
Priority to PCT/CN2018/084821 priority patent/WO2018161975A1/zh
Publication of CN108572953A publication Critical patent/CN108572953A/zh
Priority to US16/600,499 priority patent/US10885069B2/en
Application granted granted Critical
Publication of CN108572953B publication Critical patent/CN108572953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种词条结构的合并方法,能够自动将相近的词条结构进行合并,提升了用户检索词条、获取知识的效率。其技术方案为:将词条结构格式转化为文本格式;在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本;将合并后的文本格式再转化为词条结构格式。

Description

一种词条结构的合并方法
技术领域
本发明涉及一种词条结构的合并方法,尤其涉及基于余弦相似度这一参数对词条结构进行合并的方法。
背景技术
在以词条结构为基础的信息平台上,随着用户数量的增加,会有很多用户对同样的知识体系进行定义和结构化。在用户对词条进行搜索的过程中,一个词条必然会出现众多相同或者相似的解释,这会给用户带来困扰,也会降低知识获取的效率。
以前遇到这样的情况,是由信息平台的管理人员手工对相似词条进行合并,然而这种手工合并的方式不仅费时费力,而且受限于管理人员自身的知识储备,手工合并的方式也会存在大量的合并失误。
因此,目前业界亟待可自动化的合并相近词条结构的方法。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种词条结构的合并方法,能够自动将相近的词条结构进行合并,提升了用户检索词条、获取知识的效率。
本发明的技术方案为:本发明揭示了一种词条结构的合并方法,包括:
步骤一:将词条结构格式转化为文本格式;
步骤二:在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本;
步骤三:将合并后的文本格式再转化为词条结构格式。
根据本发明的词条结构的合并方法的一实施例,在步骤一中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
根据本发明的词条结构的合并方法的一实施例,步骤二进一步包括:
步骤1:将第一文档作为合并主体,将第二文档作为合并次体;
步骤2:第二文档的根词条遍历第一文档的所有词条,得到相应的余弦相似度;
步骤3:比较步骤2中得到的余弦相似度,找到最大的余弦相似度的值;
步骤4:若步骤3得到的最大的余弦相似度的值大于第一阈值,则执行步骤5,否则执行步骤7;
步骤5:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中;
步骤6:将合并后的词条的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值,则将两词条合并,合并后的词条再重复进行步骤6,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束;
步骤7:将第二文档作为合并主体,将第一文档作为合并次体;
步骤8:第一文档的根词条遍历第二文档的所有词条,得到相应的余弦相似度;
步骤9:比较步骤8中得到的余弦相似度,找到最大的余弦相似度的值;
步骤10:若步骤9得到的最大的余弦相似度的值大于第一阈值,则执行步骤11,否则执行步骤13;
步骤11:记录最大的余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中;
步骤12:将合并后的词条的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值,则将两词条合并,合并后的词条再重复进行步骤12,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束;
步骤13:重新将第一文档作为合并主体,将第二文档作为合并次体;
步骤14:第二文档的根词条遍历第一文档的所有词条的文本,得到相应的余弦相似度;
步骤15:比较步骤14中得到的余弦相似度,找到最大的余弦相似度的值;
步骤16:若步骤15得到的最大的余弦相似度的值大于第二阈值,则执行步骤17,否则执行步骤18;
步骤17:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到对应的合并主体中的所记录的词条;
步骤18:将第二文档作为合并主体,将第一文档作为合并次体;
步骤19:第一文档的根词条遍历第二文档的所有词条的文本,得到相应的余弦相似度;
步骤20:比较步骤19中得到的余弦相似度,找到最大的余弦相似度的值;
步骤21:若步骤20得到的最大余弦相似度的值大于第二阈值,则执行步骤22,否则判断两词条文本无相关性;
步骤22:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到对应的合并主体中的所记录的词条,合并结束。
根据本发明的词条结构的合并方法的一实施例,步骤二进一步包括:
步骤1:比较第一文档和第二文档的词条数目,将词条数目多的作为合并主体,将词条数目少的作为合并次体;
步骤2:合并次体的所有词条遍历合并主体的所有词条,得到相应的余弦相似度;
步骤3:比较步骤2中得到的余弦相似度,找到最大的余弦相似度的值;
步骤4:若步骤3得到的最大余弦相似度的值大于第一阈值,则执行步骤5,否则执行步骤7;
步骤5:记录最大余弦相似度对应的在合并主体以及合并次体中的两个词条,将合并次体中的这一词条合并到合并主体的这一词条中,并保持合并次体不变;
步骤6:将合并主体中的合并后的词条的所有子词条进行两两余弦相似度的计算,若余弦相似度大于第一阈值则将两词条合并,合并后的词条重复步骤6,直到最后合并后的词条的所有子词条两两余弦相似度全部小于第一阈值,合并结束;
步骤7:合并次体的所有词条遍历合并主体的所有词条的文本,得到相应的余弦相似度;
步骤8:比较步骤7得到的余弦相似度,找到最大的余弦相似度的值;
步骤9:若步骤8得到的最大余弦相似度的值大于第二阈值,执行步骤10,否则判断两文本无相关性;
步骤10:记录最大余弦相似度对应的合并次体中的词条和相应文本对应的合并主体中的词条,将所记录的合并次体的词条合并到所记录的合并主体的词条中,并保持合并次体的文档不变,合并结束。
根据本发明的词条结构的合并方法的一实施例,计算词条与词条的余弦相似度的过程包括:
步骤1:导入gensim数据库;
步骤2;将合并主体中的所有词条导入documents列表中,词条与词条用逗号间隔;
步骤3:将所有词条向量化;
步骤4:通过步骤3中的向量值构建相应的TD_IDF模型;
步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;
步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;
步骤7:导入合并次体的根词条,将其向量化;
步骤8:将步骤7中的合并次体的根词条的向量值导入步骤6构建的LSI模型中;
步骤9:将步骤3中的词条的向量值导入步骤6构建的LSI模型中,并构建余弦相似度计算模型;
步骤10:将步骤8得到的值导入到余弦相似度计算模型中,输出合并次体根词条与合并主体中的所有词条的余弦相似度。
根据本发明的词条结构的合并方法的一实施例,计算词条与文本的余弦相似度的过程包括:
步骤1:导入gensim数据库;
步骤2:将合并主体中的所有词条对应的文本导入到documents列表中,文本与文本用逗号间隔;
步骤3:将所有文本向量化;
步骤4:通过步骤3的向量值构建相应的TD_IDF模型;
步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;
步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;
步骤7:导入合并次体根词条,将其向量化;
步骤8:将步骤7中的向量值导入到步骤6构建的LSI模型中;
步骤9:将步骤3中的向量值导入步骤6构建的LSI模型中,并构建余弦相似度计算模型;
步骤10:将步骤8得到的值导入到余弦相似度计算模型中,计算合并次体根词条与合并主体中的所有词条对应的文本的余弦相似度。
根据本发明的词条结构的合并方法的一实施例,在步骤三的在将文本格式转化为词条结构格式的过程中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。
根据本发明的词条结构的合并方法的一实施例,步骤三进一步包括:
步骤1:使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象;
步骤2:web前端加载D3.js开源库;
步骤3:使用d3.layout.tree命令定义一个tree对象,并确定图像区域大小;
步骤4:web前端向服务器请求数据,服务器将步骤1的对象按照JSON格式传到web前端中;
步骤5:根据步骤4的JSON数据生成节点集合nodes;
步骤6:根据nodes集合生成节点;
步骤7:使用tree.links(nodes)命令获取节点关系集合;
步骤8:为关系集合设置贝塞尔曲线连接;
步骤9:为节点添加圆形标记,如果有子节点为黑色,否则白色;
步骤10:根据JSON数据的document属性为节点添加说明文字;
步骤11:完成文本格式到结构格式的转化。
本发明对比现有技术有如下的有益效果:本发明是将词条结构先转化为文本,然后基于余弦相似度这一参数对相似的文本进行合并,最后再将合并后的文本转化为词条结构。通过这样的方式,本发明能够自动将多个相似的词条结构合并成一个新的词条结构,便于信息平台对词条结构的整理,也有利于提升用户在信息平台上的使用感受。
附图说明
图1示出了本发明的词条结构的合并方法的一实施例的整体流程图。
图2示出了本发明举例用的两个词条结构。
图3示出了本发明的文本合并的第一实施例的流程图。
图4示出了本发明的文本合并的第二实施例的流程图。
图5示出了本发明的计算词条与词条的余弦相似度的流程图。
图6示出了本发明的计算词条与文本的余弦相似度的流程图。
图7示出了本发明的文本格式转化为词条结构格式的流程图。
具体实施方式
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
词条结构的合并方法的第一实施例
图1示出了本发明的词条结构的合并方法的实现,方法主要通过以下三个步骤来实现:首先,将词条结构格式转化为文本格式,然后,在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本,最后,将合并后的文本格式再转化为词条结构格式。
在本实施例的描述中,用图2所示的两个词条结构来举例,词条属性包括词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
现在网络的结构化显示多采用D3开源库,即D3开源库将存储在服务器的词条按照树状图的方式显示。词条属性按照键值对进行存储,即是一个string类型的field和value的映射表。因此hash(哈希)存储方式适用于上述存储,其中ID值为888是某一结构的根词条,因此它的父级词条是null,即无。
web后台使用Key-Value数据库redis存储词条以及词条属性,创建的每个词条的词条属性按照hash存储方式存储在数据库redis中。需要格式转化时,使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出。以图2为例,词条结构在数据库中的局部存储信息示例如下:
ID:888
name:1.1
document:aaaabbbbcccc
parent:null
children:1.1.1 1.1.2 1.1.3 1.1.4
ID:999
name:1.1.2
document:ddddeeeeffff
parent:1
children:1.1.2.1 1.1.2.2 1.1.2.3
经过词条结构到文本结构的转化,第一结构转化为第一文档,第二结构转化为第二文档。图2示例的两个结构转化为文本格式的示例如下。
第一文档:
第一层:1.1
第二层:1.1.1 1.1.2 1.1.3 1.1.4
第三层:1.1.2.1 1.1.2.2 1.1.2.3
第二文档:
第一层:2.1
第二层:2.1.1 2.1.2 2.1.3
第三层:2.1.2.1 2.1.2.2 2.1.2.3
文本之间的合并是借助于词条与词条的余弦相似度以及词条与文本的余弦相似度的计算来实现的,其具体的实施步骤如图3所示,下面是图3所示的各个步骤的详细描述。
步骤S101:将第一文档作为合并主体,将第二文档作为合并次体。
步骤S102:第二文档的根词条遍历第一文档的所有词条,得到相应的余弦相似度。
步骤S103:比较步骤S102中得到的余弦相似度,找到最大的余弦相似度的值。
步骤S104:若步骤S103得到的最大的余弦相似度的值大于第一阈值(例如80%),则执行步骤S105,否则执行步骤S107。
步骤S105:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中。
例如,记录的最大余弦相似度的值对应的合并主体中的词条是1.1.3,将合并次体中的根词条2.1合并到词条1.1.3中,具体合并的方式是根词条2.1的名称和词条1.1.3的名称合并为词条1.1.3的名称,根词条2.1的文本和词条1.1.3的文本分段并列合并,其中根词条2.1的子词条和原词条1.1.3的子词条成为新的词条1.1.3的子词条。
步骤S106:将合并后的词条(例如新词条1.1.3)的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值(80%),则将两词条合并(合并规则和步骤S105相同),合并后的词条再重复进行步骤S106,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束。
步骤S107:将第二文档作为合并主体,将第一文档作为合并次体。
步骤S108:第一文档的根词条遍历第二文档的所有词条,得到相应的余弦相似度。
步骤S109:比较步骤S108中得到的余弦相似度,找到最大的余弦相似度的值。
步骤S110:若步骤S109得到的最大的余弦相似度的值大于第一阈值(80%),则执行步骤S111,否则执行步骤S113。
步骤S111:记录最大的余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中。
例如,记录的最大的余弦相似度的值对应的合并主体中的词条是词条2.1.2.2,将合并次体中的根词条1.1合并到相应的词条2.1.2.2中。具体的合并方式是:根词条1.1的名称和词条2.1.2.2的名称合并为词条2.1.2.2的名称,根词条1.1的文本和词条2.1.2.2的文本分段并列合并,其中根词条1.1的子词条和原词条2.1.2.2的子词条成为新词条2.1.2.2的子词条。
步骤S112:将合并后的词条的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值(80%),则将两词条合并(合并规则和步骤S111相同),合并后的词条再重复进行步骤S112,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值(80%),合并结束。
步骤S113:重新将第一文档作为合并主体,将第二文档作为合并次体。
步骤S114:第二文档的根词条遍历第一文档的所有词条的文本,得到相应的余弦相似度。
步骤S115:比较步骤S114中得到的余弦相似度,找到最大的余弦相似度的值。
步骤S116:若步骤S115得到的最大的余弦相似度的值大于第二阈值(60%),则执行步骤S117,否则执行步骤S118。
步骤S117:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到对应的合并主体中的所记录的词条。
例如,记录的最大余弦相似度的值对应的合并主体中的词条是词条1.1.3,将合并次体的根词条2.1合并到相应的词条1.1.3中去,其中根词条2.1的名称和词条1.1.3的名称合并为2.1&1.1.3,其中根词条2.1的文本和原词条1.3的文本分段并列合并,其中根词条2.1的子词条和原词条1.1.3的子词条成为词条2.1&1.1.3的子词条,合并结束。
步骤S118:将第二文档作为合并主体,将第一文档作为合并次体。
步骤S119:第一文档的根词条遍历第二文档的所有词条的文本,得到相应的余弦相似度。
步骤S120:比较步骤S119中得到的余弦相似度,找到最大的余弦相似度的值。
步骤S121:若步骤S120得到的最大余弦相似度的值大于第二阈值(60%),则执行步骤S122,否则判断两词条文本无相关性。
步骤S122:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到对应的合并主体中的所记录的词条,合并结束。
例如记录的最大余弦相似度的值对应的合并主体中的词条是2.1.2.2,将合并次体的根词条1.1合并到相应的词条2.1.2.2中去。其中根词条1.1的名称和词条2.1.2.2的名称合并为1.1&2.1.2.2,其中根词条1.1的文本和词条2.1.2.2的文本分段并列合并,其中根词条1.1的子词条和词条2.1.2.2的子词条成为1.1&2.1.2.2的子词条,合并结束。
在上述的图3所示的文本合并的步骤中,涉及到了计算词条与词条的余弦相似度以及计算词条与文本的余弦相似度的问题。其中图5示出了词条与词条的余弦相似度的计算,图6示出了词条与文本的余弦相似度的计算。
请参见图5,图5示出了词条与词条的余弦相似度的计算方式,以下是对各个实施步骤的详述。
步骤S301:导入gensim数据库。
步骤S302;将合并主体中的所有词条导入自建的documents列表中,词条与词条用逗号间隔。
步骤S303:将所有词条向量化。
步骤S304:通过步骤S303中的向量值构建相应的TD_IDF模型。
步骤S305:通过TD_IDF模型计算每个词条的TD_IDF值。
步骤S306:通过每个词条的TD_IDF值构建相应的LSI模型。
步骤S307:导入合并次体的根词条,将其向量化。
步骤S308:将步骤S307中的合并次体的根词条的向量值导入步骤S306构建的LSI模型中。
步骤S309:将步骤S303中的词条的向量值导入步骤S306构建的LSI模型中,并构建余弦相似度计算模型。
步骤S310:将步骤S308得到的值导入到余弦相似度计算模型中,输出合并次体根词条与合并主体中的所有词条的余弦相似度。
请参见图6,图6示出了词条与词条文本的余弦相似度的计算方式,以下是对各个实施步骤的详述。
步骤S401:导入gensim数据库。
步骤S402:将合并主体中的所有词条对应的文本导入到自建的documents列表中,文本与文本用逗号间隔。
步骤S403:将所有文本向量化。
步骤S404:通过步骤S403的向量值构建相应的TD_IDF模型。
步骤S405:通过TD_IDF模型计算每个词条的TD_IDF值。
步骤S406:通过每个词条的TD_IDF值构建相应的LSI模型。
步骤S407:导入合并次体根词条,将其向量化。
步骤S408:将步骤S407中的向量值导入到步骤S406构建的LSI模型中。
步骤S409:将步骤S403中的向量值导入步骤S406构建的LSI模型中,并构建余弦相似度计算模型。
步骤S410:将步骤S408得到的值导入到余弦相似度计算模型中,计算合并次体根词条与合并主体中的所有词条对应的文本的余弦相似度。
在图1所示的将合并后的文本格式再转化为词条格式的过程中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。所有词条以及词条属性存储在redis数据库中,存储格式为哈希hash格式。其具体实现步骤进一步如图7所示,如下。
步骤S501:使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象。
步骤S502:web前端加载D3.js开源库。
步骤S503:使用d3.layout.tree命令定义一个tree对象,并确定图像区域大小。
步骤S504:web前端向服务器请求数据,服务器将步骤S501的对象按照JSON格式传到web前端中。
步骤S505:根据步骤S504的JSON数据生成节点集合nodes。
步骤S506:根据nodes集合生成节点。
步骤S507:使用tree.links(nodes)命令获取节点关系集合。
步骤S508:为关系集合设置贝塞尔曲线连接。
步骤S509:为节点添加圆形标记,如果有子节点为黑色,否则白色。
步骤S510:根据JSON数据的document属性为节点添加说明文字。
步骤S511:完成文本格式到结构格式的转化。
本实施例中提到的工具是在python中使用,其中D3、gensim、redis都是python的开源库。documents是自己创建的列表,TD_IDF、LSI模型是gensim开源库的模型,hgetall是redis开源库的基本命令,tree是D3开源库的命令d3.layout.tree定义的对象,JSON是一种数据格式,nodes是自己创建的节点集合对象。这一实施例的算法执行速度较第二实施例更快。
词条结构的合并方法的第二实施例
图1示出了本发明的词条结构的合并方法的实现,方法主要通过以下三个步骤来实现:首先,将词条结构格式转化为文本格式,然后,在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本,最后,将合并后的文本格式再转化为词条格式。
在本实施例的描述中,用图2所示的两个词条结构来举例,词条属性包括词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
现在网络的结构化显示多采用D3开源库,即D3开源库将存储在服务器的词条按照树状图的方式显示。词条属性按照键值对进行存储,即是一个string类型的field和value的映射表。因此hash(哈希)存储方式适用于上述存储,其中ID值为888是某一结构的根词条,因此它的父级词条是null,即无。
web后台使用Key-Value数据库redis存储词条以及词条属性,创建的每个词条的词条属性按照hash存储方式存储在数据库redis中。需要格式转化时,使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出。以图2为例,词条结构在数据库中的局部存储信息示例如下:
ID:888
name:1.1
document:aaaabbbbcccc
parent:null
children:1.1.1 1.1.2 1.1.3 1.1.4
ID:999
name:1.1.2
document:ddddeeeeffff
parent:1
children:1.1.2.1 1.1.2.2 1.1.2.3
经过词条结构到文本结构的转化,第一结构转化为第一文档,第二结构转化为第二文档。图2示例的两个结构转化为文本格式的示例如下。
第一文档:
第一层:1.1
第二层:1.1.1 1.1.2 1.1.3 1.1.4
第三层:1.1.2.1 1.1.2.2 1.1.2.3
第二文档:
第一层:2.1
第二层:2.1.1 2.1.2 2.1.3
第三层:2.1.2.1 2.1.2.2 2.1.2.3
文本之间的合并是借助于词条与词条的余弦相似度以及词条与文本的余弦相似度的计算来实现的,其具体的实施步骤如图4所示,下面是图4所示的各个步骤的详细描述。
步骤S201:比较第一文档和第二文档的词条数目,将词条数目多的作为合并主体,将词条数目少的作为合并次体。
步骤S202:合并次体的所有词条遍历合并主体的所有词条,得到相应的余弦相似度。
步骤S203:比较步骤S202中得到的余弦相似度,找到最大的余弦相似度的值。
步骤S204:若步骤S203得到的最大余弦相似度的值大于第一阈值(80%),则执行步骤S205,否则执行步骤S207。
步骤S205:记录最大余弦相似度对应的在合并主体以及合并次体中的两个词条,将合并次体中的这一词条合并到合并主体的这一词条中,并保持合并次体不变。
例如,最大余弦相似度对应的两个词条是词条1.1.3和2.1.2,则将合并次体的词条2.1.2合并到合并主体的词条1.1.3中,合并次体的文档保持不变,合并主体的文档做出如下的改变:
词条2.1.2的名称和词条1.1.3的名称合并为词条1.1.3,其中词条2.1.2的文本和词条1.1.3的文本分段并列合并,词条2.1.2的子词条和原词条1.1.3的子词条成为新词条1.1.3的子词条。
步骤S206:将合并主体中的合并后的词条的所有子词条进行两两余弦相似度的计算,若余弦相似度大于第一阈值(80%)则将两词条合并,合并后的词条重复步骤S206,直到最后合并后的词条的所有子词条两两余弦相似度全部小于第一阈值,合并结束。
步骤S207:合并次体的所有词条遍历合并主体的所有词条的文本,得到相应的余弦相似度。
步骤S208:比较步骤S207得到的余弦相似度,找到最大的余弦相似度的值。
步骤S209:若步骤S208得到的最大余弦相似度的值大于第二阈值(60%),执行步骤S210,否则判断两文本无相关性。
步骤S210:记录最大余弦相似度对应的合并次体中的词条和相应文本对应的合并主体中的词条,将所记录的合并次体的词条合并到所记录的合并主体的词条中,并保持合并次体的文档不变,合并结束。
例如,最大余弦相似度对应的词条为词条2.1.2和词条1.1.3,将合并次体的词条2.1.2合并到合并主体的词条1.1.3中去,合并次体的文档保持不变,合并主体的文档做出如下的改变:
词条2.1.2的名称和词条1.1.3的名称合并为2.1.2&1.1.3,其中词条2.1.2的文本和词条1.1.3的文本分段并列合并,词条2.1.2的子词条和词条1.1.3的子词条成为2.1.2&1.1.3的子词条,合并结束。
在上述的图4所示的文本合并的步骤中,涉及到了计算词条与词条的余弦相似度以及计算词条与文本的余弦相似度的问题。其中图5示出了词条与词条的余弦相似度的计算,图6示出了词条与文本的余弦相似度的计算。
请参见图5,图5示出了词条与词条的余弦相似度的计算方式,以下是对各个实施步骤的详述。
步骤S301:导入gensim数据库。
步骤S302;将合并主体中的所有词条导入documents列表中,词条与词条用逗号间隔。
步骤S303:将所有词条向量化。
步骤S304:通过步骤S303中的向量值构建相应的TD_IDF模型。
步骤S305:通过TD_IDF模型计算每个词条的TD_IDF值。
步骤S306:通过每个词条的TD_IDF值构建相应的LSI模型。
步骤S307:导入合并次体的根词条,将其向量化。
步骤S308:将步骤S307中的合并次体的根词条的向量值导入步骤S306构建的LSI模型中。
步骤S309:将步骤S303中的词条的向量值导入步骤S306构建的LSI模型中,并构建余弦相似度计算模型。
步骤S310:将步骤S308得到的值导入到余弦相似度计算模型中,输出合并次体根词条与合并主体中的所有词条的余弦相似度。
请参见图6,图6示出了词条与词条文本的余弦相似度的计算方式,以下是对各个实施步骤的详述。
步骤S401:导入gensim数据库。
步骤S402:将合并主体中的所有词条对应的文本导入到自建的documents列表中,文本与文本用逗号间隔。
步骤S403:将所有文本向量化。
步骤S404:通过步骤S403的向量值构建相应的TD_IDF模型。
步骤S405:通过TD_IDF模型计算每个词条的TD_IDF值。
步骤S406:通过每个词条的TD_IDF值构建相应的LSI模型。
步骤S407:导入合并次体根词条,将其向量化。
步骤S408:将步骤S407中的向量值导入到步骤S406构建的LSI模型中。
步骤S409:将步骤S403中的向量值导入步骤S406构建的LSI模型中,并构建余弦相似度计算模型。
步骤S410:将步骤S408得到的值导入到余弦相似度计算模型中,计算合并次体根词条与合并主体中的所有词条对应的文本的余弦相似度。
在图1所示的将合并后的文本格式再转化为词条格式的过程中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。所有词条以及词条属性存储在redis数据库中,存储格式为哈希hash格式。其具体实现步骤进一步如图7所示,如下。
步骤S501:使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象。
步骤S502:web前端加载D3.js开源库。
步骤S503:使用d3.layout.tree命令定义一个tree对象,并确定图像区域大小。
步骤S504:web前端向服务器请求数据,服务器将步骤S501的对象按照JSON格式传到web前端中。
步骤S505:根据步骤S504的JSON数据生成节点集合nodes。
步骤S506:根据nodes集合生成节点。
步骤S507:使用tree.links(nodes)命令获取节点关系集合。
步骤S508:为关系集合设置贝塞尔曲线连接。
步骤S509:为节点添加圆形标记,如果有子节点为黑色,否则白色。
步骤S510:根据JSON数据的document属性为节点添加说明文字。
步骤S511:完成文本格式到结构格式的转化。
本实施例中提到的工具是在python中使用,其中D3、gensim、redis都是python的开源库。documents是自己创建的列表,TD_IDF、LSI模型是gensim开源库的模型,hgetall是redis开源库的基本命令,tree是D3开源库的命令d3.layout.tree定义的对象,JSON是一种数据格式,nodes是自己创建的节点集合对象。这一实施例考虑的情况较第一实施例更全面,但程序执行时间较慢。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (7)

1.一种词条结构的合并方法,其特征在于,包括:
步骤一:将词条结构格式转化为文本格式,其中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式;
步骤二:在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本;
步骤三:将合并后的文本格式再转化为词条结构格式。
2.根据权利要求1所述的词条结构的合并方法,其特征在于,步骤二进一步包括:
步骤1:将第一文档作为合并主体,将第二文档作为合并次体;
步骤2:第二文档的根词条遍历第一文档的所有词条,得到相应的余弦相似度;
步骤3:比较步骤2中得到的余弦相似度,找到最大的余弦相似度的值;
步骤4:若步骤3得到的最大的余弦相似度的值大于第一阈值,则执行步骤5,否则执行步骤7;
步骤5:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中;
步骤6:将合并后的词条的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值,则将两词条合并,合并后的词条再重复进行步骤6,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束;
步骤7:将第二文档作为合并主体,将第一文档作为合并次体;
步骤8:第一文档的根词条遍历第二文档的所有词条,得到相应的余弦相似度;
步骤9:比较步骤8中得到的余弦相似度,找到最大的余弦相似度的值;
步骤10:若步骤9得到的最大的余弦相似度的值大于第一阈值,则执行步骤11,否则执行步骤13;
步骤11:记录最大的余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中;
步骤12:将合并后的词条的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值,则将两词条合并,合并后的词条再重复进行步骤12,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束;
步骤13:重新将第一文档作为合并主体,将第二文档作为合并次体;
步骤14:第二文档的根词条遍历第一文档的所有词条的文本,得到相应的余弦相似度;
步骤15:比较步骤14中得到的余弦相似度,找到最大的余弦相似度的值;
步骤16:若步骤15得到的最大的余弦相似度的值大于第二阈值,则执行步骤17,否则执行步骤18;
步骤17:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到对应的合并主体中的所记录的词条;
步骤18:将第二文档作为合并主体,将第一文档作为合并次体;
步骤19:第一文档的根词条遍历第二文档的所有词条的文本,得到相应的余弦相似度;
步骤20:比较步骤19中得到的余弦相似度,找到最大的余弦相似度的值;
步骤21:若步骤20得到的最大余弦相似度的值大于第二阈值,则执行步骤22,否则判断两词条文本无相关性;
步骤22:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到对应的合并主体中的所记录的词条,合并结束。
3.根据权利要求1所述的词条结构的合并方法,其特征在于,步骤二进一步包括:
步骤1:比较第一文档和第二文档的词条数目,将词条数目多的作为合并主体,将词条数目少的作为合并次体;
步骤2:合并次体的所有词条遍历合并主体的所有词条,得到相应的余弦相似度;
步骤3:比较步骤2中得到的余弦相似度,找到最大的余弦相似度的值;
步骤4:若步骤3得到的最大余弦相似度的值大于第一阈值,则执行步骤5,否则执行步骤7;
步骤5:记录最大余弦相似度对应的在合并主体以及合并次体中的两个词条,将合并次体中的这一词条合并到合并主体的这一词条中,并保持合并次体不变;
步骤6:将合并主体中的合并后的词条的所有子词条进行两两余弦相似度的计算,若余弦相似度大于第一阈值则将两词条合并,合并后的词条重复步骤6,直到最后合并后的词条的所有子词条两两余弦相似度全部小于第一阈值,合并结束;
步骤7:合并次体的所有词条遍历合并主体的所有词条的文本,得到相应的余弦相似度;
步骤8:比较步骤7得到的余弦相似度,找到最大的余弦相似度的值;
步骤9:若步骤8得到的最大余弦相似度的值大于第二阈值,执行步骤10,否则判断两文本无相关性;
步骤10:记录最大余弦相似度对应的合并次体中的词条和相应文本对应的合并主体中的词条,将所记录的合并次体的词条合并到所记录的合并主体的词条中,并保持合并次体的文档不变,合并结束。
4.根据权利要求2或3所述的词条结构的合并方法,其特征在于,计算词条与词条的余弦相似度的过程包括:
步骤1:导入gensim数据库;
步骤2;将合并主体中的所有词条导入documents列表中,词条与词条用逗号间隔;
步骤3:将所有词条向量化;
步骤4:通过步骤3中的向量值构建相应的TD_IDF模型;
步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;
步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;
步骤7:导入合并次体的根词条,将其向量化;
步骤8:将步骤7中的合并次体的根词条的向量值导入步骤6构建的LSI模型中;
步骤9:将步骤3中的词条的向量值导入步骤6构建的LSI模型中,并构建余弦相似度计算模型;
步骤10:将步骤8得到的值导入到余弦相似度计算模型中,输出合并次体根词条与合并主体中的所有词条的余弦相似度。
5.根据权利要求2或3所述的词条结构的合并方法,其特征在于,计算词条与文本的余弦相似度的过程包括:
步骤1:导入gensim数据库;
步骤2:将合并主体中的所有词条对应的文本导入到documents列表中,文本与文本用逗号间隔;
步骤3:将所有文本向量化;
步骤4:通过步骤3的向量值构建相应的TD_IDF模型;
步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;
步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;
步骤7:导入合并次体根词条,将其向量化;
步骤8:将步骤7中的向量值导入到步骤6构建的LSI模型中;
步骤9:将步骤3中的向量值导入步骤6构建的LSI模型中,并构建余弦相似度计算模型;
步骤10:将步骤8得到的值导入到余弦相似度计算模型中,计算合并次体根词条与合并主体中的所有词条对应的文本的余弦相似度。
6.根据权利要求1所述的词条结构的合并方法,其特征在于,在步骤三的在将文本格式转化为词条结构格式的过程中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。
7.根据权利要求1所述的词条结构的合并方法,其特征在于,步骤三进一步包括:
步骤1:使用redis hash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象;
步骤2:web前端加载D3.js开源库;
步骤3:使用d3.layout.tree命令定义一个tree对象,并确定图像区域大小;
步骤4:web前端向服务器请求数据,服务器将步骤1的对象按照JSON格式传到web前端中;
步骤5:根据步骤4的JSON数据生成节点集合nodes;
步骤6:根据nodes集合生成节点;
步骤7:使用tree.links(nodes)命令获取节点关系集合;
步骤8:为关系集合设置贝塞尔曲线连接;
步骤9:为节点添加圆形标记,如果有子节点为黑色,否则白色;
步骤10:根据JSON数据的document属性为节点添加说明文字;
步骤11:完成文本格式到结构格式的转化。
CN201710131120.9A 2017-03-07 2017-03-07 一种词条结构的合并方法 Active CN108572953B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710131120.9A CN108572953B (zh) 2017-03-07 2017-03-07 一种词条结构的合并方法
PCT/CN2018/084821 WO2018161975A1 (zh) 2017-03-07 2018-04-27 一种词条结构的合并方法
US16/600,499 US10885069B2 (en) 2017-03-07 2019-10-12 Method for combining entry structures including entry ID, entry text, parent entry and child entry

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710131120.9A CN108572953B (zh) 2017-03-07 2017-03-07 一种词条结构的合并方法

Publications (2)

Publication Number Publication Date
CN108572953A CN108572953A (zh) 2018-09-25
CN108572953B true CN108572953B (zh) 2023-06-20

Family

ID=63448361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710131120.9A Active CN108572953B (zh) 2017-03-07 2017-03-07 一种词条结构的合并方法

Country Status (3)

Country Link
US (1) US10885069B2 (zh)
CN (1) CN108572953B (zh)
WO (1) WO2018161975A1 (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001229060A (ja) * 2000-02-17 2001-08-24 Nec Corp ディレクトリ検索システム及び方法、ディレクトリ検索プログラムを記録したコンピュータ読取可能な記録媒体
JP2006146355A (ja) * 2004-11-16 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索方法および装置
CN103810293A (zh) * 2014-02-28 2014-05-21 广州云宏信息科技有限公司 基于Hadoop的文本分类方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3492981B2 (ja) * 1999-05-30 2004-02-03 テジック・コミュニケーションズ・インコーポレーテッド 音声仮名文字の入力順序を生成するための入力システム
US20080235260A1 (en) * 2007-03-23 2008-09-25 International Business Machines Corporation Scalable algorithms for mapping-based xml transformation
JP2009075791A (ja) * 2007-09-20 2009-04-09 Toshiba Corp 機械翻訳を行う装置、方法、プログラムおよびシステム
CN101441643B (zh) * 2007-11-22 2010-09-22 英业达股份有限公司 一种数字词库的生成系统及其方法
US8356045B2 (en) * 2009-12-09 2013-01-15 International Business Machines Corporation Method to identify common structures in formatted text documents
US8781810B2 (en) * 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
CN102591986B (zh) 2012-01-12 2013-09-18 北京中科大洋科技发展股份有限公司 基于bs方式实现视音频编辑的系统及方法
CN102591988B (zh) * 2012-01-16 2014-10-15 西安电子科技大学 基于语义图的短文本分类方法
CN104854611A (zh) * 2012-10-10 2015-08-19 电子湾有限公司 使买家和卖家联系
CN103984688B (zh) * 2013-04-28 2015-11-25 百度在线网络技术(北京)有限公司 一种基于本地词库提供输入候选词条的方法与设备
CN104008171A (zh) * 2014-06-03 2014-08-27 中国科学院计算技术研究所 一种法律数据库构建方法及法律检索服务方法
CN104199833B (zh) * 2014-08-01 2017-09-01 北京奇虎科技有限公司 一种网络搜索词的聚类方法和聚类装置
US10210246B2 (en) * 2014-09-26 2019-02-19 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
CN104484374B (zh) * 2014-12-08 2018-11-16 百度在线网络技术(北京)有限公司 一种创建网络百科词条的方法及装置
JP6499477B2 (ja) * 2015-02-27 2019-04-10 日本放送協会 オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム
US10019515B2 (en) * 2015-04-24 2018-07-10 Microsoft Technology Licensing, Llc Attribute-based contexts for sentiment-topic pairs
CN105095196B (zh) * 2015-07-24 2017-11-14 北京京东尚科信息技术有限公司 文本中新词发现的方法和装置
US10002292B2 (en) * 2015-09-30 2018-06-19 Microsoft Technology Licensing, Llc Organizational logo enrichment
US10740678B2 (en) * 2016-03-31 2020-08-11 International Business Machines Corporation Concept hierarchies

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001229060A (ja) * 2000-02-17 2001-08-24 Nec Corp ディレクトリ検索システム及び方法、ディレクトリ検索プログラムを記録したコンピュータ読取可能な記録媒体
JP2006146355A (ja) * 2004-11-16 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索方法および装置
CN103810293A (zh) * 2014-02-28 2014-05-21 广州云宏信息科技有限公司 基于Hadoop的文本分类方法及装置

Also Published As

Publication number Publication date
CN108572953A (zh) 2018-09-25
US10885069B2 (en) 2021-01-05
WO2018161975A1 (zh) 2018-09-13
US20200042541A1 (en) 2020-02-06

Similar Documents

Publication Publication Date Title
US20110295904A1 (en) Cluster identification and transformation
US20190019088A1 (en) Knowledge graph construction method and device
Aronshtam et al. Collapsibility and vanishing of top homology in random simplicial complexes
US20190318256A1 (en) Method, apparatus and system for estimating causality among observed variables
CN111324577B (zh) 一种Yml文件读写的方法及装置
CN107679221A (zh) 面向减灾任务的时空数据获取与服务组合方案生成方法
CN113127506B (zh) 目标查询语句的构建方法、装置、存储介质和电子装置
JPWO2005119516A1 (ja) 配列の生成方法、情報処理装置、及び、プログラム
CN112100396B (zh) 一种数据处理方法和装置
CN111325022B (zh) 识别层级地址的方法和装置
CN102521364B (zh) 一种图上两点间最短路径查询方法
CN110188131B (zh) 一种频繁模式挖掘方法及装置
CN110059264A (zh) 基于知识图谱的地点检索方法、设备及计算机存储介质
CN104699698A (zh) 基于海量数据的图查询处理方法
WO2022036596A1 (zh) 生产订单的分解方法和装置
CN116932730B (zh) 基于多叉树和大规模语言模型的文档问答方法及相关设备
CN108572953B (zh) 一种词条结构的合并方法
US20170046387A1 (en) Method and apparatus for querying nondeterministic graph
CN115587111A (zh) 用于数据库查询优化的基数估计方法及装置
CN108572954B (zh) 一种近似词条结构推荐方法和系统
Dillies Example of an order 16 non-symplectic action on a K3 surface
CN110442690B (zh) 一种基于概率推理的询问优化方法、系统和介质
CN111460325B (zh) Poi搜索方法、装置与设备
JP2017059216A (ja) クエリ校正システムおよび方法
CN109918473B (zh) 数学公式相似度的测量方法及其测量系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
GR01 Patent grant
GR01 Patent grant