CN112287043A - 基于领域知识的图编码自动生成方法及系统、电子设备 - Google Patents

基于领域知识的图编码自动生成方法及系统、电子设备 Download PDF

Info

Publication number
CN112287043A
CN112287043A CN202011590695.5A CN202011590695A CN112287043A CN 112287043 A CN112287043 A CN 112287043A CN 202011590695 A CN202011590695 A CN 202011590695A CN 112287043 A CN112287043 A CN 112287043A
Authority
CN
China
Prior art keywords
data
matrix
graph
training
graph coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011590695.5A
Other languages
English (en)
Other versions
CN112287043B (zh
Inventor
姚苗
查琳
冶莎
张晨
周智海
王芳杰
覃晨
黄庆娇
王振宇
陈刚
何青松
向波
杨志勤
邢尚合
周凡吟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN202011590695.5A priority Critical patent/CN112287043B/zh
Publication of CN112287043A publication Critical patent/CN112287043A/zh
Application granted granted Critical
Publication of CN112287043B publication Critical patent/CN112287043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于领域知识的图编码自动生成方法及系统、电子设备,其中该方法包括步骤:对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵;将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入预训练好的通用型图编码模型进行自动训练,得到所述业务数据的图编码矩阵;所述通用型图编码模型基于领域知识训练而得。本发明通过先基于领域大数据训练得到通用型图编码模型,当有新的业务数据时,再基于通用型图编码模型进行参数调整,即可得到适应该业务数据的图编码矩阵,不仅可以极大地提升图编码效率,而且得到的图编码矩阵具有更丰富的语义,解决语义稀疏问题。

Description

基于领域知识的图编码自动生成方法及系统、电子设备
技术领域
本发明涉及知识图谱技术领域,特别涉及一种基于领域知识的图编码自动生成方法及系统、电子设备。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。图编码是图计算、图分析、图挖掘的前置步骤。目前,在工程应用领域,图编码的构建都是基于当前业务数据进行,这意味着每当业务数据发生变化时,都需要重新建立图编码模型,进行模型的训练、模型的验证、模型的测试,才能得到适应新业务数据的图编码模型,也就是每次有任务需求都需要根据该业务数据进行图编码建模,效率极其低下,无法快速地、敏捷地响应业务场景中,基于图数据进行信息挖掘、信息预测等要求。另外,图编码仅基于当前业务数据进行构建,也存在图编码语义稀疏性问题,导致基于图表面的图计算可能不够准确。
发明内容
本发明的目的在于改善现有技术中所存在的图编码效率低下、语义稀疏的不足,提供一种基于领域知识的图编码自动生成方法及系统、电子设备,以提升图编码的效率,并丰富图编码的语义信息。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一方面,本发明实施例提供了一种基于领域知识的图编码自动生成方法,包括步骤:
对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵;
将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入预训练好的通用型图编码模型进行自动训练,得到所述业务数据的图编码矩阵;所述通用型图编码模型基于领域知识训练而得。
上述方案中,收集到新业务数据后,并不是像传统方法那样基于该新业务数据重新训练得到对应的图编码矩阵,而是将该业务数据预处理后输入已经训练好的通用型图编码模型,在该通用型图编码模型的基础上进行参数微调,即可快速得到图编码矩阵,参数微调与重新训练、验证相比,可以极大地节省时间,因此本方法可以大大提升图编码的处理效率。另外,由于通用型图编码模型是基于领域内大数据训练得到的,相比于仅基于单一应用的业务数据,数据更全面,可获得的语义更丰富,因此可以解决目前图编码存在的语义稀疏问题。
所述对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表的步骤,包括:基于领域的数据标准,将收集的业务数据处理为标准化数据;对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关系,属性>的三元组列表。
上述方案中,先将数据进行标准化处理,然后再提取实体、关系、属性,建立三元组列表,标准化处理后方便于快速提取所需信息,因此本方案可以提升信息提取效率,同时也能保障信息提取准确。
所述对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关系,属性>的三元组列表的步骤,包括:对所述标准化数据进行实体抽取、属性抽取、关系抽取,得到实体、关系、实体属性;依据实体间属性的重合度和实体名称相似度,进行实体-属性的融合,依据关系名称的相似度和关系链接实体名称的相似度,进行实体间关系的融合,得到<实体,关系,实体>,以及<实体,关系,属性>的三元组列表。
上述方案中,基于相似度进行实体-属性的融合以及实体间关系的融合,可以保障三元组列表的准确性。
所述由三元组列表得到第一邻接矩阵和第一特征矩阵的步骤,包括:将所述三元组列表转化为图,实体对应于图中的节点,属性对应于节点的特征,关系对应于图中的边,并利用word2vec算法,得到所述第一邻接矩阵以及第一特征矩阵。
所述通用型图编码模型经过以下步骤训练得到:收集领域内的大数据;对收集的大数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第二邻接矩阵和第二特征矩阵;将所述第二邻接矩阵和第二特征矩阵输入图编码模型进行训练,得到所述通用型图编码模型。
所述图编码模型为基于注意力机制的GCNs模型。
所述领域内的大数据包括结构化数据、半结构化数据和非结构化数据。
另一方面,本发明实施例提供了一种基于领域知识的图编码自动生成系统,包括:
通用模型训练系统,用于基于领域内大数据,训练得到通用型图编码模型;
业务应用系统,其数据输入端与所述通用模型训练系统的数据输出端连接,用于接收通用模型训练系统输出的所述通用型图编码模型,并将收集的业务数据预处理后,与设定的微调参数列表一起输入所述通用型图编码模型,输出得到所述业务数据的图编码矩阵。
所述通用模型训练系统包括第一数据收集单元、第一预处理单元和第一训练单元,其中,第一数据收集单元用于收集领域内的大数据;第一预处理单元的数据输入端连接第一数据收集单元的数据输出端,第一预处理单元用于对收集的大数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第二邻接矩阵和第二特征矩阵;第一训练单元的数据输入端连接第一预处理单元的数据输出端,第一训练单元用于将所述第二邻接矩阵和第二特征矩阵输入图编码模型进行训练,得到所述通用型图编码模型。
第一预处理单元在构建三元组列表时,先基于领域的数据标准,将收集的大数据处理为标准化数据,然后对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关系,属性>的三元组列表。
第一预处理单元在由三元组列表得到第二邻接矩阵和第二特征矩阵时,先将所述三元组列表转化为图,实体对应于图中的节点,属性对应于节点的特征,关系对应于图中的边,然后利用word2vec算法,得到所述第二邻接矩阵以及第二特征矩阵。
第一训练单元具体用于将所述第二邻接矩阵和第二特征矩阵,输入基于注意力机制的GCNs模型进行训练,得到所述通用型图编码模型。
所述业务应用系统包括第二数据收集单元、第二预处理单元和第二训练单元,其中,第二数据收集单元用于收集业务数据;第二预处理单元的数据输入端连接第二数据收集单元的数据输出端,第二预处理单元用于对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵;第二训练单元的数据输入端连接第二预处理单元的数据输出端、第一训练单元的数据输出端,第二训练单元用于将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入通用型图编码模型进行自动训练,得到所述业务数据的图编码矩阵。
第三方面,本发明实施例提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例中任一实施方式所述的基于领域知识的图编码自动生成方法中的步骤。
与现有技术相比,本发明方法及系统具有以下技术优势:
(1)基于领域知识训练得到的通用型图编码模型具有通用性,可以适用于本领域内各种业务应用。
(2)收集到新业务数据后,并不是像传统方法那样基于该新业务数据重新训练得到对应的图编码矩阵,而是在通用型图编码模型的基础上进行参数微调,即可快速得到图编码矩阵,参数微调与重新训练、验证相比,可以极大地节省时间,因此本方法可以大大提升图编码的处理效率。
(3)由于通用型图编码模型是基于领域内大数据训练得到的,相比于仅基于单一应用的业务数据训练而得,使用的数据更全面,可获得的语义更丰富,因此可以解决目前图编码存在的语义稀疏问题。
(4)本发明系统相对平台而言十分独立,可以内置在任何基于图编码的平台上,包括知识图谱的关系推理、节点分类,以及图计算等模块中。
本发明所具有的其他优势将会在具体实施例中进行相应说明。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为实施例中基于领域知识的图编码自动生成方法的流程图。
图2为实施例中通用型图编码模型构建的流程图。
图3为数据预处理过程的流程图。
图4为Att-GCNs模型结构示意图。
图5为自动图编码业务应用步骤的流程图。
图6为实施例中基于领域知识的图编码自动生成系统框图。
图7为实施例中所述的电子设备的组成框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本实施例中提供的基于领域知识的图编码自动生成方法的流程图,请参阅图1,该方法包括两个步骤,分别是通用型图编码模型构建步骤和自动图编码业务应用步骤。
在通用型图编码模型构建步骤中,先获取领域知识,即领域内的大数据,然后对大数据进行预处理,预处理后的大数据再输入例如Att-GCNs模型等图编码模型进行训练,最终得到通用型图编码模型。
在自动图编码业务应用步骤中,先获取业务数据,然后对业务数据进行预处理,再将预处理后的业务数据和针对当前业务应用而配置的微调参数列表(由于针对于不同业务数据而配置的参数列表可能不同,因此也可称为特定的参数列表),一起输入所述通用型图编码模型中进行自动训练,即可生成对应的图编码,即输出得到该业务数据的图编码矩阵。
如图1所示,得到通用型图编码模型后,本领域内的各种业务(业务1至业务n)都可以基于该通用型图编码模型进行自动训练,生成对应的图编码(或称为图编码矩阵)。
容易理解的,在实际应用时,通用型图编码模型已经训练得到,因此仅是执行业务应用步骤。
图2为通用型图编码模型构建的流程图。请参阅图2,通用型图编码模型构建方法包括步骤:
S11,收集领域内大数据,大数据是指本领域存在的各种数据。从数据结构上讲,大数据包括结构化数据(例如表数据),半结构化数据(如json数据),非结构化数据(如文本数据)。
对于数据的收集方式,可以是通过网络爬虫技术对公开的网页信息进行爬取,也可以是相关机构直接提供。
S12,对收集到的大数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到邻接矩阵和特征矩阵。
为了便于区分,此处将基于领域大数据得到的邻接矩阵和特征矩阵分别称为第二邻接矩阵和第二特征矩阵。
S13,基于第二邻接矩阵和第二特征矩阵进行图编码模型训练,得到通用型图编码模型。
本实施例中,图编码模型训练过程为无监督学习任务,利用基于注意力机制的GCNs模型(简称Att-GCNs模型,如图4所示)作为图编码模型,对节点属性特征通过min-max标准化进行归一化处理,利用word2vec算法对节点属性特征进行向量化表示,将得到的第二邻接矩阵和第二特征矩阵,作为Att-GCNs模型的输入。训练过程即图编码模型的超参 W的学习,超参W是Att-GCNs模型的所有神经元本身的参数(偏置值)和神经元与神经元之间连接的权重参数,利用BP算法和Adam优化器优化W的学习过程。在训练过程结束后,得到通用型图编码模型,包括模型结构及其超参W。
应用场景里的图都是大图,仅基于业务数据编码后得到的图编码矩阵中语义稀疏性非常严重。本方案基于领域大数据,在训练过程中,可以利用BFS(宽度优先搜索)算法,用节点的一跳邻居语义信息来丰富节点语义信息,因此可以解决语义稀疏性问题。
图3为数据预处理过程的流程图。请参阅图3,前述步骤S12包括以下步骤:
S121,基于领域公共的数据标准,将收集的大数据处理为标准化数据。
数据标准包括数据命名规范、字段类型、字段长度、唯一性要求等,不同领域的数据标准可能不同。通过数据标准化处理,将各种类型的数据转换为标准化数据,以便于进行后续处理。例如,工商数据,具有企业名称、注册地址、征信代码、注册时间、经营范围等字段信息;通过国家发布的数据标准规范,对省、市、县、街道名称都有标准规范命名,需要按照对应字段的数据标准,对注册地址进行标准化处理。又例如,征信代码,具有统一长度、唯一性的规范要求。
S122,对预处理后的大数据进行实体抽取、实体属性抽取、关系抽取,并依据实体间属性的重合度和实体名称相似度,进行实体-属性的融合,依据关系名称的相似度和关系链接实体名称的相似度,进行实体间关系的融合,得到<实体,关系,实体>,<实体,关系,属性>的三元组列表。
例如,实体-属性的融合,例如<企业,地址>的融合前:<北京DD科技公司,北京>,<北京DD科技有限公司,null>,融合后:<北京DD科技有限公司,北京>,根据企业名称是否相同进行融合。
又例如,实体-关系的融合,例如<北京DD公司,合作,EE科技有限公司>,<DD科技公司,合作,EE科技有限公司>,利用三元组匹配,两个三元组具有相同的关系(合作),且客体相同(EE科技有限公司),DD科技又包含于北京DD公司,因此融合后可得<北京DD科技公司,合作,EE科技有限公司>。
S123,将三元组列表转化为图,其中,实体对应于图中的节点,属性对应于节点的特征,关系对应于图中的边,因此实体-关系对应于图的节点-关系。例如三元组<实体1,关系,实体2>,对应到图中,即为节点1、节点2和一条边,且节点1和节点2之间通过该边连接。
然后利用word2vec算法进行向量化表示,得到初始图编码数据,即图的第二邻接矩阵A以及第二特征矩阵X,其中
Figure 886166DEST_PATH_IMAGE002
Figure 272148DEST_PATH_IMAGE004
,n为节点个数,d为属性个数,R是实数域。
图5为自动图编码业务应用步骤的流程图。如图5所示,业务应用步骤包括以下步骤:
S21,收集业务数据。对于数据的收集方式,可以是通过网络爬虫技术对公开的网页信息进行爬取,也可以是相关机构直接提供。
S22,对收集到的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵。
本步骤的处理过程可以参考图3所示。
S23,用设定的微调参数列表中的参数更新通用型图编码模型中超参W中的相应参数,并基于第一邻接矩阵和第一特征矩阵进行图编码模型自动训练,得到业务数据下的图编码矩阵(或称为图编码)。
微调参数列表例如可以包括学习率、步长、图嵌入维度、丢弃率、模型层数(CNN的层数、Attention的层数)等。基于不同的业务数据,微调参数列表中包含的微调参数项是相同的,但是微调参数的数据值可能不同。
与现有图编码技术相比,预训练图编码模型可以极大程度上解决同一领域内,根据业务数据变化,针对不同业务数据,重复训练图编码模型,造成的计算资源的浪费的问题,同时也可以提升图编码效率,快速响应于新业务数据的图编码需求。
试验例
基于金融领域知识进行自动图编码。
步骤1:采集金融领域大数据,通过网络爬虫技术,对公开的金融领域新闻网站(例如和讯网、金融界、新浪新闻、百度新闻等)新闻信息进行爬取,对权威机构发布的公开的企业工商信息(例如企业信用信息、招投标信息、企业财报信息等)进行爬取,形成.txt格式的文件,从而构建金融领域知识大数据。
步骤2:将大数据标准化处理,例如针对于文本数据,利用中文分词工具,对文本进行分词处理,然后利用公开的停用词表进行停用词去除。然后利用Bi-LSTMs+CRF模型,进行知识抽取,抽取到的结果为一个三元组列表。
例如,针对于<实体,关系,实体> 三元组列表,由文本数据“5月2日,BB租车发布公告,其主要股东BB优车和AA集团签订了战略合作协议”,有<AA集团,企业合作,BB优车>;
例如,针对于<实体,关系,属性>三元组列表,由CVS数据“BB优车股份有限公司,股份有限公司(中外合资、未上市),北京市海淀区大钟寺CCC北楼1层、2层C区,2020-xx-xx”,有<BB优车,企业类型, 股份有限公司(中外合资、未上市)>,<BB优车,企业地址, 北京市海淀区大钟寺CCC北楼1层、2层C区>,<BB优车 ,企业注册时间,2020-xx-xx>等。
抽取到的三元组列表后,以实体为节点,以关系为边,得到金融领域知识的图,继而得到初始图编码数据,即邻接矩阵表示A和属性特征矩阵X。
步骤3:配置初始模型参数列表为:学习率=0.01,步长=64、图嵌入维度=150、丢弃率=0.5、CNN的层数=2、Attention的层数=1,将A、X以及初始模型参数列表,作为Att-GCNs模型的输入,进行训练,得到带超参W的通用型图编码模型。
业务场景:对公司发生的事件图谱的图编码
步骤1:采集获得业务数据,并对业务数据进行预处理,得到该业务数据对应的邻接矩阵A’以及特征矩阵X’。
步骤2:利用训练好的带超参W的Att-GCNs模型,将通过微调技术,调节初始模型参数列表,调整后为:学习率0.001,步长64,图嵌入维度=200,丢弃率=0.6,CNN的层数=2,Attention的层数=1,然后将调整后的参数列表与邻接矩阵A’以及特征矩阵X’一起,输入给通用型图编码模型,即可以得到语义更加丰富的业务数据图编码矩阵。
图6为本实施例中提供的基于领域知识的图编码自动生成系统的组成框图。请参阅图6,本系统包括通用模型训练系统和业务应用系统,业务应用系统的数据输入端与所述通用模型训练系统的数据输出端连接。其中,通用模型训练系统用于基于领域内大数据,训练得到通用型图编码模型;业务应用系统用于接收通用模型训练系统输出的所述通用型图编码模型,并将收集的业务数据预处理后,与设定的微调参数列表一起输入所述通用型图编码模型,输出得到所述业务数据的图编码矩阵。
进一步参阅图6,通用模型训练系统包括第一数据收集单元、第一预处理单元和第一训练单元,其中,第一数据收集单元用于收集领域内的大数据;第一预处理单元的数据输入端连接第一数据收集单元的数据输出端,第一预处理单元用于对收集的大数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第二邻接矩阵和第二特征矩阵;第一训练单元的数据输入端连接第一预处理单元的数据输出端,第一训练单元用于将所述第二邻接矩阵和第二特征矩阵输入图编码模型进行训练,得到所述通用型图编码模型。
业务应用系统包括第二数据收集单元、第二预处理单元和第二训练单元,其中,第二数据收集单元用于收集业务数据;第二预处理单元的数据输入端连接第二数据收集单元的数据输出端,第二预处理单元用于对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵;第二训练单元的数据输入端连接第二预处理单元的数据输出端、第一训练单元的数据输出端,第二训练单元用于将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入通用型图编码模型进行自动训练,得到所述业务数据的图编码矩阵。
本系统中个单元的具体执行操作可以参见图2、图3、图5,此处不再赘述。
如图7所示,本实施例同时提供了一种电子设备,该电子设备可以包括处理器71和存储器72,其中存储器72耦合至处理器71。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构。
如图7所示,该电子设备还可以包括:输入单元73、显示单元74和电源75。值得注意的是,该电子设备也并不是必须要包括图7中显示的所有部件。此外,电子设备还可以包括图7中没有示出的部件,可以参考现有技术。
处理器71有时也称控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器71接收输入并控制电子设备的各个部件的操作。
其中,存储器72例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器71的配置信息、处理器71执行的指令、记录的表格数据等信息。处理器71可以执行存储器72存储的程序,以实现信息存储或处理等。在一个实施例中,存储器72中还包括缓冲存储器,即缓冲器,以存储中间信息。
输入单元73例如用于向处理器71提供实体主体的数据或者数据持有方所拥有的数据。显示单元74用于显示处理过程中的各种结果,例如页面中展示的本体模型、文本框、节点表的字段等等,该显示单元例如可以为LCD显示器,但本发明并不限于此。电源75用于为电子设备提供电力。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种基于领域知识的图编码自动生成方法,其特征在于,包括步骤:
对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵;
将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入预训练好的通用型图编码模型进行自动训练,得到所述业务数据的图编码矩阵;所述通用型图编码模型基于领域知识训练而得。
2.根据权利要求1所述的基于领域知识的图编码自动生成方法,其特征在于,所述对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表的步骤,包括:
基于领域的数据标准,将收集的业务数据处理为标准化数据;
对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关系,属性>的三元组列表。
3.根据权利要求2所述的基于领域知识的图编码自动生成方法,其特征在于,所述对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关系,属性>的三元组列表的步骤,包括:
对所述标准化数据进行实体抽取、属性抽取、关系抽取,得到实体、关系、实体属性;
依据实体间属性的重合度和实体名称相似度,进行实体-属性的融合,依据关系名称的相似度和关系链接实体名称的相似度,进行实体间关系的融合,得到<实体,关系,实体>,以及<实体,关系,属性>的三元组列表。
4.根据权利要求1所述的基于领域知识的图编码自动生成方法,其特征在于,所述由三元组列表得到第一邻接矩阵和第一特征矩阵的步骤,包括:
将所述三元组列表转化为图,实体对应于图中的节点,属性对应于节点的特征,关系对应于图中的边,并利用word2vec算法,得到所述第一邻接矩阵以及第一特征矩阵。
5.根据权利要求1所述的基于领域知识的图编码自动生成方法,其特征在于,所述通用型图编码模型经过以下步骤训练得到:
收集领域内的大数据;
对收集的大数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第二邻接矩阵和第二特征矩阵;
将所述第二邻接矩阵和第二特征矩阵输入图编码模型进行训练,得到所述通用型图编码模型。
6.根据权利要求5所述的基于领域知识的图编码自动生成方法,其特征在于,所述图编码模型为基于注意力机制的GCNs模型。
7.根据权利要求5所述的基于领域知识的图编码自动生成方法,其特征在于,所述领域内的大数据包括结构化数据、半结构化数据和非结构化数据。
8.一种基于领域知识的图编码自动生成系统,其特征在于,包括:
通用模型训练系统,用于基于领域内大数据,训练得到通用型图编码模型;
业务应用系统,其数据输入端与所述通用模型训练系统的数据输出端连接,用于接收通用模型训练系统输出的所述通用型图编码模型,并将收集的业务数据预处理后,与设定的微调参数列表一起输入所述通用型图编码模型,输出得到所述业务数据的图编码矩阵。
9.根据权利要求8所述的基于领域知识的图编码自动生成系统,其特征在于,所述通用模型训练系统包括第一数据收集单元、第一预处理单元和第一训练单元,其中,
第一数据收集单元用于收集领域内的大数据;
第一预处理单元的数据输入端连接第一数据收集单元的数据输出端,第一预处理单元用于对收集的大数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第二邻接矩阵和第二特征矩阵;
第一训练单元的数据输入端连接第一预处理单元的数据输出端,第一训练单元用于将所述第二邻接矩阵和第二特征矩阵输入图编码模型进行训练,得到所述通用型图编码模型。
10.根据权利要求9所述的基于领域知识的图编码自动生成系统,其特征在于,第一预处理单元在构建三元组列表时,先基于领域的数据标准,将收集的大数据处理为标准化数据,然后对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关系,属性>的三元组列表。
11.根据权利要求9所述的基于领域知识的图编码自动生成系统,其特征在于,第一预处理单元在由三元组列表得到第二邻接矩阵和第二特征矩阵时,先将所述三元组列表转化为图,实体对应于图中的节点,属性对应于节点的特征,关系对应于图中的边,然后利用word2vec算法,得到所述第二邻接矩阵以及第二特征矩阵。
12.根据权利要求9所述的基于领域知识的图编码自动生成系统,其特征在于,第一训练单元具体用于将所述第二邻接矩阵和第二特征矩阵,输入基于注意力机制的GCNs模型进行训练,得到所述通用型图编码模型。
13.根据权利要求9所述的基于领域知识的图编码自动生成系统,其特征在于,所述业务应用系统包括第二数据收集单元、第二预处理单元和第二训练单元,其中,
第二数据收集单元用于收集业务数据;
第二预处理单元的数据输入端连接第二数据收集单元的数据输出端,第二预处理单元用于对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵;
第二训练单元的数据输入端连接第二预处理单元的数据输出端、第一训练单元的数据输出端,第二训练单元用于将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入通用型图编码模型进行自动训练,得到所述业务数据的图编码矩阵。
14.一种电子设备,其特征在于,包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1-7任一所述方法中的步骤。
CN202011590695.5A 2020-12-29 2020-12-29 基于领域知识的图编码自动生成方法及系统、电子设备 Active CN112287043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011590695.5A CN112287043B (zh) 2020-12-29 2020-12-29 基于领域知识的图编码自动生成方法及系统、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011590695.5A CN112287043B (zh) 2020-12-29 2020-12-29 基于领域知识的图编码自动生成方法及系统、电子设备

Publications (2)

Publication Number Publication Date
CN112287043A true CN112287043A (zh) 2021-01-29
CN112287043B CN112287043B (zh) 2021-06-18

Family

ID=74426687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011590695.5A Active CN112287043B (zh) 2020-12-29 2020-12-29 基于领域知识的图编码自动生成方法及系统、电子设备

Country Status (1)

Country Link
CN (1) CN112287043B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561928A (zh) * 2009-05-27 2009-10-21 湖南大学 基于属性关系图外观模型的多人体跟踪方法
US20120310551A1 (en) * 2011-05-10 2012-12-06 Edison Welding Institute, Inc. Three-dimensional matrix phased array spot weld inspection system
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN105630881A (zh) * 2015-12-18 2016-06-01 陕西师范大学 一种rdf的数据存储方法和查询方法
CN106815447A (zh) * 2017-02-03 2017-06-09 南京航空航天大学 基于历史数据的复杂结构件加工特征智能定义与分类方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN108021710A (zh) * 2017-12-28 2018-05-11 广东蜂助手网络技术股份有限公司 一种动态接口转换方法、装置、终端设备及存储介质
CN109118155A (zh) * 2017-06-26 2019-01-01 华为技术有限公司 一种生成操作模型的方法及装置
CN109189944A (zh) * 2018-09-27 2019-01-11 桂林电子科技大学 基于用户正负反馈画像编码的个性化景点推荐方法及系统
CN109326316A (zh) * 2018-09-18 2019-02-12 哈尔滨工业大学(深圳) 一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用
CN109389151A (zh) * 2018-08-30 2019-02-26 华南师范大学 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN109543043A (zh) * 2018-05-10 2019-03-29 国网江西省电力有限公司信息通信分公司 一种基于知识图谱推理的电力通信大数据错误的自动监测方法
CN109740106A (zh) * 2019-01-09 2019-05-10 中国人民解放军国防科技大学 基于图卷积神经网络的大规模网络介数逼近方法、存储装置及存储介质
CN110413844A (zh) * 2019-05-24 2019-11-05 浙江工业大学 基于时空注意力深度模型的动态链路预测方法
CN110489613A (zh) * 2019-07-29 2019-11-22 北京航空航天大学 协同可视数据推荐方法及装置
CN111241212A (zh) * 2020-01-20 2020-06-05 京东方科技集团股份有限公司 知识图谱的构建方法及装置、存储介质、电子设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561928A (zh) * 2009-05-27 2009-10-21 湖南大学 基于属性关系图外观模型的多人体跟踪方法
US20120310551A1 (en) * 2011-05-10 2012-12-06 Edison Welding Institute, Inc. Three-dimensional matrix phased array spot weld inspection system
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN105630881A (zh) * 2015-12-18 2016-06-01 陕西师范大学 一种rdf的数据存储方法和查询方法
CN106815447A (zh) * 2017-02-03 2017-06-09 南京航空航天大学 基于历史数据的复杂结构件加工特征智能定义与分类方法
CN109118155A (zh) * 2017-06-26 2019-01-01 华为技术有限公司 一种生成操作模型的方法及装置
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN108021710A (zh) * 2017-12-28 2018-05-11 广东蜂助手网络技术股份有限公司 一种动态接口转换方法、装置、终端设备及存储介质
CN109543043A (zh) * 2018-05-10 2019-03-29 国网江西省电力有限公司信息通信分公司 一种基于知识图谱推理的电力通信大数据错误的自动监测方法
CN109389151A (zh) * 2018-08-30 2019-02-26 华南师范大学 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN109326316A (zh) * 2018-09-18 2019-02-12 哈尔滨工业大学(深圳) 一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用
CN109189944A (zh) * 2018-09-27 2019-01-11 桂林电子科技大学 基于用户正负反馈画像编码的个性化景点推荐方法及系统
CN109740106A (zh) * 2019-01-09 2019-05-10 中国人民解放军国防科技大学 基于图卷积神经网络的大规模网络介数逼近方法、存储装置及存储介质
CN110413844A (zh) * 2019-05-24 2019-11-05 浙江工业大学 基于时空注意力深度模型的动态链路预测方法
CN110489613A (zh) * 2019-07-29 2019-11-22 北京航空航天大学 协同可视数据推荐方法及装置
CN111241212A (zh) * 2020-01-20 2020-06-05 京东方科技集团股份有限公司 知识图谱的构建方法及装置、存储介质、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚娟: "基于深度学习的实体关系抽取和知识图谱补全方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN112287043B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
WO2021103492A1 (zh) 一种企业经营风险预测方法和系统
CN106407208B (zh) 一种城市管理本体知识库的构建方法及系统
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
Andariesta et al. Machine learning models for predicting international tourist arrivals in Indonesia during the COVID-19 pandemic: a multisource Internet data approach
CN111581376B (zh) 一种知识图谱自动构建系统及方法
CN112199608A (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN107679221A (zh) 面向减灾任务的时空数据获取与服务组合方案生成方法
CN115563297A (zh) 一种基于图神经网络的食品安全知识图谱构建与补全方法
CN110955770A (zh) 一种智能对话系统
CN112529615A (zh) 自动生成广告的方法、装置、设备和计算机可读存储介质
CN113159149A (zh) 一种企业办公地址的识别方法及装置
CN112613611A (zh) 一种基于知识图谱的税务知识库系统
Si Construction and application of enterprise internal audit data analysis model based on decision tree algorithm
CN111241153A (zh) 企业自然人实体综合判断对齐方法及系统
AlSukhayri et al. Leveraging the saudi linked open government data: A framework and potential benefits
CN112287043B (zh) 基于领域知识的图编码自动生成方法及系统、电子设备
CN117112782A (zh) 一种招标公告信息提取方法
CN111177653A (zh) 一种信用评估方法和装置
CN113762372B (zh) 即时通讯信息中组织成员识别方法及装置
CN115455198A (zh) 模型训练方法、法律诉讼信息对齐融合方法及其终端设备
CN106407271B (zh) 一种智能客服系统及其智能客服知识库的更新方法
CN115204393A (zh) 一种基于知识图谱的智慧城市知识本体库构建方法和装置
CN112767933B (zh) 公路养护管理系统的语音交互方法、装置、设备及介质
CN115827885A (zh) 一种运维知识图谱的构建方法、装置及电子设备
CN112037029B (zh) 银行信贷审批问题自动生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant