CN112199961A - 一种基于深度学习的知识图谱获取方法 - Google Patents

一种基于深度学习的知识图谱获取方法 Download PDF

Info

Publication number
CN112199961A
CN112199961A CN202011415892.3A CN202011415892A CN112199961A CN 112199961 A CN112199961 A CN 112199961A CN 202011415892 A CN202011415892 A CN 202011415892A CN 112199961 A CN112199961 A CN 112199961A
Authority
CN
China
Prior art keywords
knowledge
data
knowledge graph
entity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011415892.3A
Other languages
English (en)
Other versions
CN112199961B (zh
Inventor
汪晖
陆建波
王恩茂
钱微夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Wanwei Space Information Technology Co ltd
Original Assignee
Zhejiang Wanwei Space Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Wanwei Space Information Technology Co ltd filed Critical Zhejiang Wanwei Space Information Technology Co ltd
Priority to CN202011415892.3A priority Critical patent/CN112199961B/zh
Publication of CN112199961A publication Critical patent/CN112199961A/zh
Application granted granted Critical
Publication of CN112199961B publication Critical patent/CN112199961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的知识图谱获取方法,包括获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数;根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量;将所述词向量输入至图谱神经网络模型,得到第一知识图谱;根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱,相对于传统的自监督模式,本发明较为灵活,不同的数据源可以使用不同的方法,也可以根据不同的需求偏向和场景特征进行选择,最大化的突出每种方法的优势,更优的降低成本和提高成果精确度。

Description

一种基于深度学习的知识图谱获取方法
技术领域
本发明涉及深度学习领域,尤其涉及一种基于深度学习的知识图谱获取方法。
背景技术
知识图谱,本质上是一种揭露实体之间关系的语义网络,在逻辑结构上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储,如果用(实体1,关系,实体2)、(实体,属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等,模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达,本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。
大规模知识库的构建与应用需要多种智能信息处理技术的支持,通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素,通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库,知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库,分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。
现有技术中存在这样一种知识图谱的构建方法:利用某行业工艺领域的开放数据源,建立原始资料数据库,将原始资料数据库划分为结构化、半结构化和非结构化资料,根据结构化和半结构化构建知识图谱数据层,并建立知识图谱模式层和数据层之间的映射关系,采用自监督学习法提取原始资料数据库中非结构化资料中包含的实体、关系及实体属性信息,并依据建立的知识图谱数据层和模式层之间的映射关系,补充知识图谱数据层,对知识图谱数据层进行知识融合,对融合后的数据进行知识推理,得到领域知识图谱,这样得到的知识库,需要融合人的思想和信息,其中,知识更新是一个重要的部分,人类的认知能力、知识储备以及业务需求都会随时间而不断递增,因此,知识图谱的内容也需要与时俱进,不论是通用知识图谱,还是行业知识图谱,它们都需要不断地迭代更新,扩展现有的知识,增加新的知识,但是由于人的思想融入而得到的知识库,虽然具有灵活性,但是不及人工智能深度学习所获得的知识图谱更全面,动态更新更快,所展示出的知识网更复杂,因此基于此所得到的知识图谱所获得的知识更加准确。
发明内容
本发明提供的一种基于深度学习的知识图谱获取方法,旨在解决现有技术中创建知识图谱需要加入人工的知识和经验而导致获取的知识图谱关系网不全面、不灵活的问题。
为实现上述目的,本发明采用以下技术方案:
本发明的一种基于深度学习的知识图谱获取方法,包括以下步骤:
获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1 的整数;
根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量;
将所述词向量输入至图谱神经网络模型,得到第一知识图谱;
根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱。
获取纯文本、关系数据库、XML、图片、视频等多源异构数据,按其数据内部各项数据是否存在明确的关系名称和对应关系,将其划分为结构化数据、半结构化数据和非结构化数据,其中,结构化数据和半结构化数据用于构建知识库,所述知识库用于存储优质知识图谱,非结构化数据需要经过自然语言模型进行处理,进行实体消歧后,再与知识库中对应的实体建立连接,其中,词向量正是从这个训练好的语言模型中的副产物模型参数,将这些参数是作为输入x的某种向量化表示,这个向量就叫做词向量,将所述词向量输入至图谱神经网络模型,得到第一知识图谱,根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱。
作为优选,所述获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1 的整数,包括:
获取异构数据,所述异构数据包括结构化数据、半结构化数据和非结构化数据。
作为优选,所述根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量,包括:
根据所述结构化数据和所述半结构化数据构建知识库;
根据实体链接技术识别所述非结构化数据中的候选实体,并将所述候选实体消歧,得到所述知识库中的实体,所述知识库还包括实体关系和实体属性;
基于所述实体关系将所述实体与所述知识库建立连接,并将所述实体在所述知识库中向量化表示,得到词向量。
作为优选,所述将所述词向量输入至图谱神经网络模型,得到第一知识图谱,包括:
获取目标行业信息,所述目标行业信息包括M个节点和消息特征,其中,M为大于2的整数;
将所述消息特征从第一个节点传输至相邻节点,在所述相邻节点将所述消息特征进行处理,并将处理后的消息特征传输至下一节点,以此迭代学习,得到图谱神经网络模型;
将所述词向量输入至所述图谱神经网络模型,得到第一知识图谱。
作为优选,所述根据聚类法或词袋模型对所述第一知识图谱进行处理,得到第二知识图谱,包括:
获取所述第一知识图谱,并根据TF-IDF模型获取文本特征词集合,所述第一知识图谱用于表示词义序列关系,所述文本特征词集合包括多义词;
根据所述词义序列关系确定所述多义词在指定语义环境中的唯一语义;
根据所述唯一语义将所述多义词在所述文本特征词集合中进行聚类,得到第二知识图谱。
一种基于深度学习的知识图谱获取装置,包括:
获取模块:用于获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数;
处理模块:用于根据自然语言处理技术将所述获取模块获取的所述N个结构数据进行相应的处理,得到词向量;
训练模块:用于将所述处理模块得到的所述词向量输入至图谱神经网络模型,得到第一知识图谱;
聚类模块:用于根据聚类法和词袋模型对训练模块得到的所述第一知识图谱进行处理,得到第二知识图谱。
作为优选,所述处理模块具体包括:
构建单元:用于根据所述结构化数据和所述半结构化数据构建知识库;
识别单元:用于根据实体链接技术识别所述非结构化数据中的候选实体,并将所述候选实体消歧,得到所述知识库中的实体,所述知识库还包括实体关系和实体属性;
连接单元:用于基于所述实体关系将所述实体与所述构建单元构建的所述知识库建立连接,并将所述实体在所述知识库中向量化表示,得到词向量。
作为优选,所述训练模块具体包括:
第一获取单元:用于获取目标行业信息,所述目标行业信息包括M个节点和消息特征,其中,M为大于2的整数;
学习单元:用于将所述第一获取单元获取的所述消息特征从第一个节点传输至相邻节点,在所述相邻节点将所述消息特征进行处理,并将处理后的消息特征传输至下一节点,以此迭代学习,得到图谱神经网络模型;
输入单元:用于将所述词向量输入至学习单元获得的所述图谱神经网络模型,得到第一知识图谱。
作为优选,所述聚类模块包括:
第二获取单元:用于获取所述第一知识图谱,并根据TF-IDF模型获取文本特征词集合,所述第一知识图谱用于表示词义序列关系,所述文本特征词集合包括多义词;
确定单元:用于根据所述第二获取单元获取的所述词义序列关系确定所述多义词在指定语义环境中的唯一语义;
向量化单元:用于根据所述确定单元得到的所述唯一语义将所述多义词在所述文本特征词集合中进行聚类,得到第二知识图谱。
一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种基于深度学习的知识图谱获取方法。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述中任一项所述的一种基于深度学习的知识图谱获取方法。
本发明具有如下有益效果:
相对于传统的自监督模式,本发明较为灵活,不同的数据源可以使用不同的方法,也可以根据不同的需求偏向和场景特征进行选择,最大化的突出每种方法的优势,更优的降低成本和提高成果精确度,并且得到第一知识图谱后,采用聚类法和词袋模型提高结果质量,得到第二知识图谱,对所述第二知识图谱进行质量评估,经过质量评估之后,将合格的部分加入到知识库中,确保了知识库的质量。
附图说明
图1是本发明实施例实现一种基于深度学习的知识图谱获取方法第一流程图;
图2是本发明实施例实现一种基于深度学习的知识图谱获取方法第二流程图;
图3是本发明实施例实现一种基于深度学习的知识图谱获取方法第三流程图;
图4是本发明实施例实现一种基于深度学习的知识图谱获取方法第四流程图;
图5是本发明实施例实现一种基于深度学习的知识图谱获取方法具体实施流程图;
图6是本发明实施例实现一种基于深度学习的知识图谱获取装置示意图;
图7是本发明实施例实现一种基于深度学习的知识图谱获取装置的处理模块示意图;
图8是本发明实施例实现一种基于深度学习的知识图谱获取装置的训练模块示意图;
图9是本发明实施例实现一种基于深度学习的知识图谱获取装置的聚类模块示意图;
图10是本发明实施例实现一种基于深度学习的知识图谱获取装置的一种电子设备示意图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的权利要求书和说明书的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式,此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同,本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
实施例1
如图1所示,一种基于深度学习的知识图谱获取方法,包括以下步骤:
S110、获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1 的整数;
S120、根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量;
S130、将所述词向量输入至图谱神经网络模型,得到第一知识图谱;
S140、根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱。
在实施例1中,获取纯文本、关系数据库、XML、图片、视频等多源异构数据,按其数据内部各项数据是否存在明确的关系名称和对应关系,将其划分为结构化数据、半结构化数据和非结构化数据,其中,结构化数据和半结构化数据用于构建知识库,所述知识库用于存储优质知识图谱,非结构化数据需要经过自然语言模型进行处理,进行实体消歧后,再与知识库中对应的实体建立连接,其中,词向量正是从语言模型中得到的副产物模型参数,这些参数是作为输入x的某种向量化表示,这个向量就叫做词向量,将所述词向量输入至图谱神经网络模型,得到第一知识图谱,根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱,对所述第二知识图谱进行质量评估,经过质量评估之后,将合格的部分加入到知识库中,确保了知识库的质量。
实施例2
如图2所示,一种基于深度学习的知识图谱获取方法,包括:
S210、获取异构数据,所述异构数据包括结构化数据、半结构化数据和非结构化数据;
S220、根据所述结构化数据和所述半结构化数据构建知识库;
S230、根据实体链接技术识别所述非结构化数据中的候选实体,并将所述候选实体消歧,得到所述知识库中的实体,所述知识库还包括实体关系和实体属性;
S240、基于所述实体关系将所述实体与所述知识库建立连接,并将所述实体在所述知识库中向量化表示,得到词向量。
S250、将所述词向量输入至图谱神经网络模型,得到第一知识图谱;
S260、根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱。
由实施例2可知,首先获取纯文本、关系数据库、XML、图片、视频等多源异构数据,这些数据包含了某一行业领域的大量信息以及专业术语,将所述多源异构数据按结构划分为结构化数据、半结构化数据和非结构化数据,不同的数据源采用不同的处理方法:针对结构化数据,主要包括关系型数据库数据和链接数据,这类数据的特点是各项之间存在明确的关系名称和对应关系,采用D2R技术把关系型数据库中的数据转换为RDF数据或其他形式的知识库内容,对于链接数据,通常使用图映射的方法进行获取;针对半结构化数据,这类数据主要有表格、列表和信息框,采用包装器的方式进行处理,通过包装器归纳基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据,并将目标数据存储于知识库中;另一类数据是非结构化数据,主要是纯文本数据,经由命名实体识别或词典匹配技术进行实体的指称识别,由于刚刚识别出来的实体可能是实体的部分表示或另类表示,因此需要结束表层名字扩展、搜索引擎、构建查询实体引用表等技术来对候选实体进行生成,经过该步骤生成的实体可能有多个候选项,因此需要对候选实体进行消岐,此处可使用基于图的方法、基于概率生成模型、基于主题模型或基于深度学习的方法,经过实体消岐后得到的唯一实体候选后与知识库中的实体进行连接;经过不同数据源采用不同的处理方法后,所述多源异构数据经过初步处理,为得到所述第一知识图谱做准备,利用实体消歧、数据融合等技术,将其转化为词向量输入已训练好的图谱神经网络模型进行分析,以第一知识图谱的形式输出结果,结果再以聚类法、 词袋模型、增量证据模型提高结果质量,得到第二知识图谱,其中,对于词向量的获取是在自然语言处理中得出的副产物模型参数,是利用神经网络DNN来训练出词向量,一般采用三层神经网络结构,分为输入层,隐藏层,和输出层(softmax层),该模型中V代表词汇表的大小,N代表隐藏层神经元个数(即想要的词向量维度);输入某个词,一般用one-hot表示该词(长度为词汇表长度),隐藏层有N个神经元,代表我们想要的词向量的维度,输入层与隐藏层全连接,输出层的神经元个数和输入层相同,隐藏层再到输出层时最后需要计算每个位置的概率,每个位置代表不同的单词,使用softmax计算,该模型中我们想要的就是经过训练以后,输入层到隐藏层的权重即为词向量;本实施例的有益效果是对于不同数据源采用不同的处理方式,针对各个结构数据的特点针对处理,有效提高获取数据的效率和准确率。
实施例3
如图3所示,一种基于深度学习的知识图谱获取方法,包括:
S310、获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1 的整数;
S320、根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量;
S330、获取目标行业信息,所述目标行业信息包括M个节点和消息特征,其中,M为大于2的整数;
S340、将所述消息特征从第一个节点传输至相邻节点,在所述相邻节点将所述消息特征进行处理,并将处理后的消息特征传输至下一节点,以此迭代学习,得到图谱神经网络模型;
S350、将所述词向量输入至所述图谱神经网络模型,得到第一知识图谱;
S360、根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱。
实施例3中,做图谱神经网络训练时,每一个节点会给它相邻的节点发消息,消息可以来自于边上的特征,也可以来自于节点上的特征,邻居节点拿到消息之后会进行聚合操作,然后通过一个神经网络的非线性变换,例如 ReLu,并把它的输出作为下一次发送消息的输入,然后继续发送给邻居节点,通过这样不断迭代学习最终学会函数参数表示,该模型适用于处理可以表示为图的数据,通过一个函数τ ( G , n ) ∈ R m将图G和其中的一个顶点n映射到一个m−维欧式空间,可以直接处理众多实用类型的图。
实施例4
如图4所示,一种基于深度学习的知识图谱获取方法,包括:
S410、获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1 的整数;
S420、根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量;
S430、将所述词向量输入至图谱神经网络模型,得到第一知识图谱;
S440、获取所述第一知识图谱,并根据TF-IDF模型获取文本特征词集合,所述第一知识图谱用于表示词义序列关系,所述文本特征词集合包括多义词;
S450、根据所述词义序列关系确定所述多义词在指定语义环境中的唯一语义;
S460、根据所述唯一语义将所述多义词在所述文本特征词集合中进行聚类,得到第二知识图谱。
在实施例4中,初步得到的第一知识图谱,需要经过质量提升和质量评估后才能加入到知识库中,以保证知识库的质量,文本聚类算法采用TF-IDF模型获取文本特征词集合,利用知识图谱表达的词义序列关系确定多义词在特定的语义环境中的唯一语义,在词义概念层面完成文本的向量化表示,进行文本聚类;词袋模型将所有词语装进一个袋子里,不考虑其词法和语序的问题,每个词语都是独立的,把每一个单词都进行统计,同时计算每个单词出现的次数;然后采用词袋模型,主要步骤为:分词,统计修订词特征值与标准化,经过此实施例所得到的第二知识图谱关系网更全面、更准确。
实施例5
如图5所示,一种具体的实施方式可为:
S510、获取多源异构数据;
所述多源异构数据包括文本、结构化数据库、多媒体、人工众包,按结构划分为三类,不同结构的数据源按不同方法处理,这里数据源可以有多种分类方法。
S520、将所述异构数据进行处理;
采用自然语言处理技术实现实体、实体链接、关系抽取,实体链接通过实体的识别->候选实体生成->候选实体消歧三个步骤来实现;关系抽取需要从文本中抽取两个或多个实体之间的语义关系,通过基于模板的方法、监督学习、半监督/无监督学习三种方法来实现;综合利用实体消歧、数据融合等技术,实体消岐分为基于聚类的消歧系统和基于实体链接的消歧系统,基于聚类的命名实体消歧系统以聚类方式对实体指称项进行消歧,指向同一个目标的实体的指称项聚到同一类别下,基于实体链接的实体消歧系统与目标实体列表中的对应实体进行链接实现消歧。
S530、将处理后的异构数据转换为词向量,加入图谱神经网络模型;
将处理后的异构数据转换为词向量输入已经训练好的图谱神经网络模型进行分析,词向量以各实体形式存在,各个词向量以实体关系连接,比如面向集成电路为例,“二极管是一种电子元件”,“二极管具有单向导电性”,“二极管使用半导体材料诸如硅和锗”,这一条条知识组成了知识库,这样的方式不利于计算机处理,因此利用三元组的方式表达知识,把每一条知识以“实体-实体关系-实体”的方式连接起来,实体还包括其属性,这里图谱神经网络模型所要做的事情就是,把每一个实体以节点方式串行,每一个节点将其消息传递给邻居节点,以此迭代学习,建立连接,最后以知识图谱的形式输出结果。
S540、使用聚类法、词袋模型提高结果质量,对构建好的知识图谱进行质量评估;
经过质量评估之后,将合格的部分加入到知识库中,确保知识库的质量,质量评估主要包括知识图谱补全和知识图谱错误检测,集中在三元组的上下位问题,属性问题以及逻辑问题;质量评估部分需要人工的参与和甄别。
实施例6
如图6所示,一种基于深度学习的知识图谱获取装置,包括:
获取模块10:用于获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数;
处理模块20:用于根据自然语言处理技术将所述获取模块10获取的所述N个结构数据进行相应的处理,得到词向量;
训练模块30:用于将所述处理模块20得到的所述词向量输入至图谱神经网络模型,得到第一知识图谱;
聚类模块40:用于根据聚类法和词袋模型对所述训练模块30得到的所述第一知识图谱进行处理,得到第二知识图谱。
上述装置的一种实施方式可为:获取模块10获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1 的整数,处理模块20根据自然语言处理技术将所述获取模块10获取的所述N个结构数据进行相应的处理,得到词向量,训练模块30将所述处理模块20得到的所述词向量输入至图谱神经网络模型,得到第一知识图谱,聚类模块40根据聚类法和词袋模型对所述训练模块30得到的所述第一知识图谱进行处理,得到第二知识图谱。
实施例7
如图7所示,一种基于深度学习的知识图谱获取装置的处理模块20包括:
构建单元22:用于根据所述结构化数据和所述半结构化数据构建知识库;
识别单元24:用于根据实体链接技术识别所述非结构化数据中的候选实体,并将所述候选实体消歧,得到所述知识库中的实体,所述知识库还包括实体关系和实体属性;
连接单元26:用于基于所述实体关系将所述实体与所述构建单元22构建的所述知识库建立连接,并将所述实体在所述知识库中向量化表示,得到词向量。
上述装置的处理模块20的一种实施方式可为:构建单元22根据所述结构化数据和所述半结构化数据构建知识库,识别单元24根据实体链接技术识别所述非结构化数据中的候选实体,并将所述候选实体消歧,得到所述知识库中的实体,所述知识库还包括实体关系和实体属性,连接单元26基于所述实体关系将所述实体与所述构建单元22构建的所述知识库建立连接,并将所述实体在所述知识库中向量化表示,得到词向量。
实施例8
如图8所示,一种基于深度学习的知识图谱获取装置的训练模块30包括:
第一获取单元32:用于获取目标行业信息,所述目标行业信息包括M个节点和消息特征,其中,M为大于2的整数;
学习单元34:用于将所述第一获取单元32获取的所述消息特征从第一个节点传输至相邻节点,在所述相邻节点将所述消息特征进行处理,并将处理后的消息特征传输至下一节点,以此迭代学习,得到图谱神经网络模型;
输入单元36:用于将所述词向量输入至所述学习单元34获得的所述图谱神经网络模型,得到第一知识图谱。
上述装置的训练模块30的一种实施方式可为:第一获取单元32获取目标行业信息,所述目标行业信息包括M个节点和消息特征,其中,M为大于2的整数,学习单元34将所述第一获取单元32获取的所述消息特征从第一个节点传输至相邻节点,在所述相邻节点将所述消息特征进行处理,并将处理后的消息特征传输至下一节点,以此迭代学习,得到图谱神经网络模型,输入单元36将所述词向量输入至所述学习单元34获得的所述图谱神经网络模型,得到第一知识图谱。
实施例9
如图9所示,一种基于深度学习的知识图谱获取装置的聚类模块40包括:
第二获取单元42:用于获取所述第一知识图谱,并根据TF-IDF模型获取文本特征词集合,所述第一知识图谱用于表示词义序列关系,所述文本特征词集合包括多义词;
确定单元44:用于根据所述第二获取单元42获取的所述词义序列关系确定所述多义词在指定语义环境中的唯一语义;
向量化单元46:用于根据所述确定单元44得到的所述唯一语义将所述多义词在所述文本特征词集合中进行聚类,得到第二知识图谱。
上述装置的聚类模块40的一种实施方式可为:第二获取单元42获取所述第一知识图谱,并根据TF-IDF模型获取文本特征词集合,所述第一知识图谱用于表示词义序列关系,所述文本特征词集合包括多义词,确定单元44根据所述第二获取单元42获取的所述词义序列关系确定所述多义词在指定语义环境中的唯一语义,向量化单元46根据所述确定单元44得到的所述唯一语义将所述多义词在所述文本特征词集合中进行聚类,得到第二知识图谱。
实施例10
如图10所示,一种电子设备,包括存储器1001和处理器1002,所述存储器1001用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1002执行以实现上述的一种基于深度学习的知识图谱获取方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述的一种基于深度学习的知识图谱获取方法。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器1001中,并由处理器1002执行,并由输入接口1005和输出接口1006完成数据的I/O接口传输,以完成本发明,一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机设备中的执行过程。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,存储器1001、处理器1002,本领域技术人员可以理解,本实施例仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入器1007、网络接入设备、总线等。
处理器1002可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器1002、数字信号处理器1002(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器1002可以是微处理器1002或者该处理器1002也可以是任何常规的处理器1002等。
存储器1001可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器1001也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等,进一步地,存储器1001还可以既包括计算机设备的内部存储单元也包括外部存储设备,存储器1001用于存储计算机程序以及计算机设备所需的其他程序和数据,存储器1001还可以用于暂时地存储在输出器1008,而前述的存储介质包括U盘、移动硬盘、只读存储器ROM1003、随机存储器RAM1004、碟盘或光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的具体实施例,但本发明的技术特征并不局限于此,任何本领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims (11)

1.一种基于深度学习的知识图谱获取方法,其特征在于,包括:
获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1 的整数;
根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量;
将所述词向量输入至图谱神经网络模型,得到第一知识图谱;
根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱。
2.根据权利要求1所述的一种基于深度学习的知识图谱获取方法,其特征在于,获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1 的整数,包括:
获取异构数据,所述异构数据包括结构化数据、半结构化数据和非结构化数据。
3.根据权利要求1所述的一种基于深度学习的知识图谱获取方法,其特征在于,根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量,包括:
根据所述结构化数据和所述半结构化数据构建知识库;
根据实体链接技术识别所述非结构化数据中的候选实体,并将所述候选实体消歧,得到所述知识库中的实体,所述知识库还包括实体关系和实体属性;
基于所述实体关系将所述实体与所述知识库建立连接,并将所述实体在所述知识库中向量化表示,得到词向量。
4.根据权利要求1所述的一种基于深度学习的知识图谱获取方法,其特征在于,将所述词向量输入至图谱神经网络模型,得到第一知识图谱,包括:
获取目标行业信息,所述目标行业信息包括M个节点和消息特征,其中,M为大于2的整数;
将所述消息特征从第一个节点传输至相邻节点,在所述相邻节点将所述消息特征进行处理,并将处理后的消息特征传输至下一节点,以此迭代学习,得到图谱神经网络模型;
将所述词向量输入至所述图谱神经网络模型,得到第一知识图谱。
5.根据权利要求1所述的一种基于深度学习的知识图谱获取方法,其特征在于,根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱,包括:
获取所述第一知识图谱,并根据TF-IDF模型获取文本特征词集合,所述第一知识图谱用于表示词义序列关系,所述文本特征词集合包括多义词;
根据所述词义序列关系确定所述多义词在指定语义环境中的唯一语义;
根据所述唯一语义将所述多义词在所述文本特征词集合中进行聚类,得到第二知识图谱。
6.一种基于深度学习的知识图谱获取装置,其特征在于,包括:
获取模块:用于获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数;
处理模块:用于根据自然语言处理技术将所述获取模块获取的所述N个结构数据进行相应的处理,得到词向量;
训练模块:用于将所述处理模块得到的所述词向量输入至图谱神经网络模型,得到第一知识图谱;
聚类模块:用于根据聚类法和词袋模型对所述训练模块得到的所述第一知识图谱进行处理,得到第二知识图谱。
7.根据权利要求5所述的一种基于深度学习的知识图谱获取装置,其特征在于,所述处理模块具体包括:
构建单元:用于根据所述结构化数据和所述半结构化数据构建知识库;
识别单元:用于根据实体链接技术识别所述非结构化数据中的候选实体,并将所述候选实体消歧,得到所述知识库中的实体,所述知识库还包括实体关系和实体属性;
连接单元:用于基于所述实体关系将所述实体与所述构建单元构建的所述知识库建立连接,并将所述实体在所述知识库中向量化表示,得到词向量。
8.根据权利要求5所述的一种基于深度学习的知识图谱获取装置,其特征在于,所述训练模块具体包括:
第一获取单元:用于获取目标行业信息,所述目标行业信息包括M个节点和消息特征,其中,M为大于2的整数;
学习单元:用于将所述第一获取单元获取的所述消息特征从第一个节点传输至相邻节点,在所述相邻节点将所述消息特征进行处理,并将处理后的消息特征传输至下一节点,以此迭代学习,得到图谱神经网络模型;
输入单元:用于将所述词向量输入至所述学习单元获得的所述图谱神经网络模型,得到第一知识图谱。
9.根据权利要求5所述的一种基于深度学习的知识图谱获取装置,其特征在于,所述聚类模块具体还包括:
第二获取单元:用于获取所述第一知识图谱,并根据TF-IDF模型获取文本特征词集合,所述第一知识图谱用于表示词义序列关系,所述文本特征词集合包括多义词;
确定单元:用于根据所述第二获取单元获取的所述词义序列关系确定所述多义词在指定语义环境中的唯一语义;
向量化单元:用于根据所述确定单元得到的所述唯一语义将所述多义词在所述文本特征词集合中进行聚类,得到第二知识图谱。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1~5中任一项所述的一种基于深度学习的知识图谱获取方法。
11.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现如权利要求1~5中任一项所述的一种基于深度学习的知识图谱获取方法。
CN202011415892.3A 2020-12-07 2020-12-07 一种基于深度学习的知识图谱获取方法 Active CN112199961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011415892.3A CN112199961B (zh) 2020-12-07 2020-12-07 一种基于深度学习的知识图谱获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011415892.3A CN112199961B (zh) 2020-12-07 2020-12-07 一种基于深度学习的知识图谱获取方法

Publications (2)

Publication Number Publication Date
CN112199961A true CN112199961A (zh) 2021-01-08
CN112199961B CN112199961B (zh) 2021-04-02

Family

ID=74034431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011415892.3A Active CN112199961B (zh) 2020-12-07 2020-12-07 一种基于深度学习的知识图谱获取方法

Country Status (1)

Country Link
CN (1) CN112199961B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051408A (zh) * 2021-03-30 2021-06-29 电子科技大学 一种基于信息增强的稀疏知识图谱推理方法
CN113987152A (zh) * 2021-11-01 2022-01-28 北京欧拉认知智能科技有限公司 一种知识图谱抽取方法、系统、电子设备及介质
CN114416890A (zh) * 2022-01-21 2022-04-29 中国人民解放军国防科技大学 异构知识点一体化表示、存储、检索、生成及交互方法
CN117592562A (zh) * 2024-01-18 2024-02-23 卓世未来(天津)科技有限公司 基于自然语言处理的知识库自动构建方法
WO2024072453A1 (en) * 2022-09-29 2024-04-04 Visa International Service Association Entity linking using a graph neural network

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘峤 等: "知识图谱构建技术综述", 《计算机研究与发展》 *
项威: "事件知识图谱构建技术与应用综述", 《计算机与现代化》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051408A (zh) * 2021-03-30 2021-06-29 电子科技大学 一种基于信息增强的稀疏知识图谱推理方法
CN113051408B (zh) * 2021-03-30 2023-02-14 电子科技大学 一种基于信息增强的稀疏知识图谱推理方法
CN113987152A (zh) * 2021-11-01 2022-01-28 北京欧拉认知智能科技有限公司 一种知识图谱抽取方法、系统、电子设备及介质
CN113987152B (zh) * 2021-11-01 2022-08-12 北京欧拉认知智能科技有限公司 一种知识图谱抽取方法、系统、电子设备及介质
CN114416890A (zh) * 2022-01-21 2022-04-29 中国人民解放军国防科技大学 异构知识点一体化表示、存储、检索、生成及交互方法
WO2024072453A1 (en) * 2022-09-29 2024-04-04 Visa International Service Association Entity linking using a graph neural network
CN117592562A (zh) * 2024-01-18 2024-02-23 卓世未来(天津)科技有限公司 基于自然语言处理的知识库自动构建方法
CN117592562B (zh) * 2024-01-18 2024-04-09 卓世未来(天津)科技有限公司 基于自然语言处理的知识库自动构建方法

Also Published As

Publication number Publication date
CN112199961B (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112199961B (zh) 一种基于深度学习的知识图谱获取方法
CN106934012B (zh) 一种基于知识图谱的自然语言问答实现方法和系统
CN112200317A (zh) 多模态知识图谱构建方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN111339313A (zh) 一种基于多模态融合的知识库构建方法
CN103544242A (zh) 面向微博的情感实体搜索系统
CN111651447B (zh) 一种智能建造全寿期数据处理分析管控系统
Xiong et al. Knowledge graph question answering with semantic oriented fusion model
Mehndiratta et al. Identification of sarcasm using word embeddings and hyperparameters tuning
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN106599824B (zh) 一种基于情感对的gif动画情感识别方法
CN114117000A (zh) 应答方法、装置、设备及存储介质
Han et al. Augmenting image descriptions using structured prediction output
Popova et al. Multilevel ontologies for big data analysis and processing
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
Hu et al. A question answering system for assembly process of wind turbines based on multi-modal knowledge graph and large language model
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
Zschech et al. Towards a text-based recommender system for data mining method selection
Leng et al. Automatic MEP knowledge acquisition based on documents and natural language processing
Sharma et al. Fusion approach for document classification using random forest and svm
CN110750632B (zh) 一种改进的中文alice智能问答方法及系统
CN117290478A (zh) 一种知识图谱问答方法、装置、设备和存储介质
CN109977194B (zh) 基于无监督学习的文本相似度计算方法、系统、设备及介质
Wu et al. A summary of the latest research on knowledge graph technology
Kamel et al. Robust sentiment fusion on distribution of news

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A knowledge map acquisition method based on deep learning

Effective date of registration: 20210512

Granted publication date: 20210402

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: Zhejiang wanwei Space Information Technology Co.,Ltd.

Registration number: Y2021330000386

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210728

Granted publication date: 20210402

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: Zhejiang wanwei Space Information Technology Co.,Ltd.

Registration number: Y2021330000386

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A knowledge map acquisition method based on deep learning

Effective date of registration: 20210820

Granted publication date: 20210402

Pledgee: Bank of Hangzhou Limited by Share Ltd. science and Technology Branch

Pledgor: Zhejiang wanwei Space Information Technology Co.,Ltd.

Registration number: Y2021980008001