CN113868432A - 一种用于钢铁制造企业的知识图谱自动构建方法和系统 - Google Patents

一种用于钢铁制造企业的知识图谱自动构建方法和系统 Download PDF

Info

Publication number
CN113868432A
CN113868432A CN202111100811.5A CN202111100811A CN113868432A CN 113868432 A CN113868432 A CN 113868432A CN 202111100811 A CN202111100811 A CN 202111100811A CN 113868432 A CN113868432 A CN 113868432A
Authority
CN
China
Prior art keywords
vector
entity
relation
knowledge graph
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111100811.5A
Other languages
English (en)
Inventor
董津
王坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202111100811.5A priority Critical patent/CN113868432A/zh
Publication of CN113868432A publication Critical patent/CN113868432A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Manufacturing & Machinery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Factory Administration (AREA)

Abstract

本发明涉及一种用于钢铁制造企业的知识图谱自动构建方法和系统,方法包括:收集制造企业的文本数据;预处理后构建单句集合;将单句载入BERT预训练模型中,进行分词、向量化和特征提取,输出词序列向量;对词序列向量进行最大池化处理后,与[CLS]向量拼接得到实体向量表示,获取实体识别结果;根据实体向量表示,选取候选关系向量,一起载入关系分类模块中,获取关系分类结果;得到实体关系三元组;对获取三元组进行打分选取正确的三元组,通过路径排序算法挖掘新的三元组,实现知识进化。与现有技术相比,本发明将异构数据抽象成知识,对知识进行建模,同时提升了钢铁制造领域知识图谱构建效率、降低了钢铁制造领域知识图谱构建成本。

Description

一种用于钢铁制造企业的知识图谱自动构建方法和系统
技术领域
本发明涉及知识图谱构建技术领域,尤其是涉及一种用于钢铁制造企业的知识图谱自动构建方法和系统。
背景技术
随着互联网、大数据、人工智能等技术的迅猛发展,传统制造业正加速向新一代智能制造迈进,信息化和工业化的两化融合已成为发展趋势。在传统制造向智能制造发展的过程中,伴随着制造系统复杂度日益增加、用户个性化需求不断增长,制造过程中产生的工业数据规模也愈发庞大多元。异构数据会造成信息交互的问题。将异构数据抽象成知识,对知识进行建模,利用知识图谱进行异构数据的集成与融合,不仅可以解决操作障碍,减少数据冗余,还可以加强数据的推理和决策能力。
与通用知识图谱相较而言,领域知识图谱基于特定数据集构建,强调知识的深度。传统的领域知识图谱构建方法依靠专家手工构建,需要花费大量的人力资源,一旦构建的知识图谱规模较为庞大,会耗费大量的时间和精力。目前,对于制造领域知识建模方法的研究尚未形成一个成熟体系。针对钢铁制造企业研究其知识建模方法以及进化机制,构建出高质量、高相关度、语义丰富的知识图谱并对其进行补全,不仅可以解决信息间语义关联少的问题,同时还能提升知识图谱构建效率、降低知识图谱构建成本,十分具有理论研究意义。
近年来,随着深度学习以及自然语言处理技术的不断发展,钢铁领域知识图谱的自动构建成为可能,但仍然存在以下不足之处:(1)现阶段知识抽取大多采用传统的流水线抽取方式,存在多个抽取任务时会造成误差累积。(2)知识建模的过程采用自动形式,注定会使其中包含的知识不具有完整性,即知识库无法包含全部的知识。由于知识图谱的不完整性,知识图谱补全可以用来向知识图谱中添加新的三元组,实现知识的学习与进化。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于钢铁制造企业的知识图谱自动构建方法和系统,将异构数据抽象成知识,对知识进行建模,同时提升了钢铁制造领域知识图谱构建效率、降低了钢铁制造领域知识图谱构建成本,并为企业数据管理提供了一条解决之道。
本发明的目的可以通过以下技术方案来实现:
一种用于钢铁制造企业的知识图谱自动构建方法,包括以下步骤:
数据收集步骤:收集制造企业的文本数据;
数据处理步骤:对收集的文本数据进行预处理,构建单句集合;
知识建模步骤:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;
根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建。
进一步地,所述预处理包括判断文本数据中句子的完整性,对每个句子进行去重和去特殊符号处理。
进一步地,所述双向Transformer结构采用多头注意力机制进行特征聚合,所述多头注意力机制的计算表达式为:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
headi=Attention(QWi Q,KWi K,VWi V)
Figure BDA0003270844970000021
式中,MultiHead(Q,K,V)为多头注意力机制的输出,Q,K,V分别为词向量矩阵、句向量矩阵和位置向量矩阵,所述词向量矩阵、句向量矩阵和位置向量矩阵由BERT预训练模型输出,WO为附加的权重矩阵,Wi Q,Wi K,Wi V表示不同的线性变换对Q,K,V进行投影,dk为Q,K,V矩阵的列数。
进一步地,所述词序列向量中,t位置对应的向量表示为:
Figure BDA0003270844970000031
Figure BDA0003270844970000032
式中,k为自然数。
进一步地,所述实体向量表示的表达式为:
Figure BDA0003270844970000033
式中,ei为经过最大池化处理过后的词向量表示,c为[CLS]向量,符号
Figure BDA0003270844970000038
为拼接,m为候选实体结束字符所在位置标记,n为候选实体的开头字符所在位置标记;
所述实体识别结果的计算表达式为:
Figure BDA0003270844970000034
式中,
Figure BDA0003270844970000035
为实体识别结果,softmax为Softmax处理函数,W为乘法系数,b为加法系数,xe为实体向量表示。
进一步地,所述关系分类模块获取关系分类结果的计算表达式为:
Figure BDA0003270844970000039
Figure BDA0003270844970000036
式中,
Figure BDA0003270844970000037
为关系分类结果,softmax为Softmax处理函数,Ws为关系分类乘法系数,cr为候选关系向量,xe1为cr前的实体向量表示,xe2为cr后的实体向量表示。
进一步地,所述方法还包括知识进化步骤:将获得的实体关系三元组输入预设的词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并根据构建的损失函数对实体关系三元组的置信度进行打分,通过预设的置信阈值判断是否为正确的三元组;
将正确的三元组输入改进路径排序算法中,挖掘新的三元组,作为进化后的知识图谱。
进一步地,所述词向量嵌入模型采用用TransE模型对实体关系三元组进行编码,将实体和关系编码到相同维度的向量空间,并假设:
h+r-t≈0
式中,h为头实体向量,r为关系向量,t为尾实体向量;
所述损失函数的计算表达式为:
Figure BDA0003270844970000041
式中,fr(h,t)为损失函数的计算结果,符号
Figure BDA0003270844970000042
为L2范数。
进一步地,所述改进路径排序算法利用双层随机游走机制对路径特征进行评估,该双层随机游走机制中引入向量空间相似性的启发式方法,获取关系路径特征模式。
本发明还提供一种采用如上所述的一种用于钢铁制造企业的知识图谱自动构建方法的知识图谱自动构建系统,包括
数据收集模块,被配置为:收集制造企业的文本数据;
数据处理模块,被配置为:对收集的文本数据进行预处理,构建单句集合;
知识建模模块,被配置为:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;
根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建。
与现有技术相比,本发明具有以下优点:
(1)本发明提供领域知识图谱的自动构建方法,首先通过收集文本获取单句,然后由BERT预训练模型获取词序列向量,并与[CLS]向量拼接得到实体向量表示;一方面由该实体向量表示可获得实体识别结果;另一方面为克服传统的流水线抽取方式存在误差累积的缺陷,本发明将由BERT预训练模型得到的实体向量表示与候选关系向量组合一起载入关系分类模块中,获得关系分类结果,实现将实体识别与关系抽取任务进行联合建模,实现端到端的模型,减少了误差累积,达到了更优的效果。
(2)本发明考虑到知识建模的过程使得知识库无法包含全部的知识,存在知识图谱的不完整性,增设的知识进化模块步骤进行知识图谱补全,实现了知识的学习与进化;
知识进化模块步骤中本发明首先对抽取得到的三元组进行维度转换,然后进行置信度打分,判断出正确的三元组,从而通过改进路径排序算法进行新的三元组的挖掘;
改进路径排序算法利用双层随机游走机制对路径特征进行评估,在随机游走中引入向量空间相似性的启发式方法,放宽采样约束,以缓解路径特征的稀疏性,得到更多的关系路径特征模式,提高了有效关系模式的发现率。
(3)本发明将异构数据抽象成知识,对知识进行建模,同时提升钢铁制造领域知识图谱构建效率、降低钢铁制造领域知识图谱构建成本,并为企业数据管理提供了一条解决之道。
附图说明
图1为本发明实施例中提出的一种用于钢铁制造企业的知识图谱自动构建方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供一种用于钢铁制造企业的知识图谱自动构建方法,包括以下步骤:
数据收集步骤S1:收集制造企业的文本数据;
本实施例中,这一部分由制造企业内外部信息构成,包括企业信息系统数据、生产设备信息以及互联网上的供应商、客户信息,采集到的数据包括专家经验、班组日志以及供应商等信息,以及来自企业信息系统的工艺制度、生产调度计划以及规则数据等,以及设备数据、钢种数据等。这些文本信息是构建制造领域知识图谱的数据来源。
数据处理步骤S2:对收集的文本数据进行预处理,构建单句集合;
本实施例中,在采集到所需数据之后,需要对数据进行预处理,对于数据的特征进行分析,对网页文本进行解析。判断文本中段落句子的完整性,并对每一个句子进行去重、去特殊字符等预处理操作,最终输入到下一部分的是单句的集合;
知识建模步骤S3:使用实体关系联合抽取算法对知识进行抽取以及建模,具体包括以下步骤:
S31:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
本实施例中,对于输入的单句,首先使用BERT预训练模型对其进行分词并向量化;输出的向量由词向量(Token Embedding)、句向量(Segment Embedding)和位置向量(Position Embedding)组成,相加之后送入双向Transformer结构进行特征提取,最后得到含有丰富语义特征的序列向量。深层双向Transformer的模型结构是BERT模型中的核心,使得模型在进行单词的处理时,能够表征单词在上下文中的具体语义。Transformer编码结构采用多头注意力机制,放弃时间循环结构,可以同时处理整个输入序列,多头注意力机制的输出为:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
headi=Attention(QWii Q,KWi K,VWi V)
Figure BDA0003270844970000061
式中,MultiHead(Q,K,V)为多头注意力机制的输出,Q,K,V分别为词向量矩阵、句向量矩阵和位置向量矩阵,所述词向量矩阵、句向量矩阵和位置向量矩阵由BERT预训练模型输出,Wo为附加的权重矩阵,Wi Q,Wi K,Wi V表示不同的线性变换对Q,K,V进行投影,dk为Q,K,V矩阵的列数。
对于一个长度为n的输入序列,其词序列向量中,t位置对应的向量表示为:
Figure BDA0003270844970000062
Figure BDA0003270844970000063
式中,k为自然数;
S32:对BERT预训练模型输出的词序列向量进行最大池化处理,进行平均和之后,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示xe;该实体向量表示xe的表达式为:
Figure BDA0003270844970000071
式中,ei为经过最大池化处理过后的词向量表示,c为[CLS]向量,符号
Figure BDA0003270844970000076
为拼接,m为候选实体结束字符所在位置标记,n为候选实体的开头字符所在位置标记;[CLS]向量为能够表示整个文本的语义特征向量;
最后将得到的实体向量xe送入全连接加Softmax层,计算最有可能的实体标记,公式如下:
Figure BDA0003270844970000072
式中,
Figure BDA0003270844970000073
为实体识别结果,softmax为Softmax处理函数,W为乘法系数,b为加法系数,xe为实体向量表示。
S33:根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
本实施例中,将获得的实体识别结果以及经BERT预训练模型得到的语句级表征输入至关系分类器中,经过全连接以及Softmax操作,获得关系分类结果;关系分类模块输入由两部分组成,一是在实体识别部分得到的实体向量表示xe,包括词序列向量以及能够表示整个文本的语义特征向量[CLS];二是两个实体之间文本的向量表示,即候选关系向量,在进行最大池化处理后与前后的实体向量进行拼接,送入关系分类器中,公式如下:
Figure BDA0003270844970000077
Figure BDA0003270844970000074
式中,
Figure BDA0003270844970000075
为关系分类结果,softmax为Softmax处理函数,Ws为关系分类乘法系数,cr为候选关系向量,也属于经过最大池化处理过后的词序列向量,xe1为cr前的实体向量表示,xe2为cr后的实体向量表示。
S34:根据所述实体识别结果以及关系分类结果,得到实体关系三元组,即形如“<加热炉,包括,点火器>”实体关系三元组之后,对其进行筛选,完成知识建模。
作为一种优选的实施方式,本实施例还提供知识进化步骤,具体描述如下:
4、知识进化步骤
知识进化步骤S4:主要任务是进行知识图谱补全,基于已有的知识去推理出新的未知的知识;具体包括以下步骤:
S41:将获得的实体关系三元组输入预设的词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并根据构建的损失函数对实体关系三元组的置信度进行打分,通过预设的置信阈值判断是否为正确的三元组;
本实施例中,将实体关系三元组输入至词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并使用词向量嵌入模型根据构建的损失函数对三元组的置信度进行打分。具体操作是将三元组中的头尾实体向量投影至该关系对应的超平面上,若三元组为真,那么实体向量将会以较小的误差连接。将损失函数值引入打分函数,对候选事实进行打分,鼓励正确的事实获得较小的数值,以此判断该三元组的可信程度;本实施例采用TransE模型对候选三元组对其进行编码,该模型将关系看作是从头部实体到尾部实体的转移,将知识库中的实体和关系编码到相同维度的向量空间,并假设:
h+r-t≈0
其中,h为头实体向量,r为关系向量,t为尾实体向量。
该模型的损失函数为:
Figure BDA0003270844970000081
式中,fr(h,t)为损失函数的计算结果,符号
Figure BDA0003270844970000082
为L2范数。
最终通过设置阈值,来根据损失函数的结果对其判断其是否为正确的三元组;
S42:将正确的三元组输入改进路径排序算法中,利用双层随机游走机制对路径特征进行评估;
S43:在随机游走中引入向量空间相似性的启发式方法,放宽采样约束,以缓解路径特征的稀疏性,得到更多的关系路径特征模式,提高有效关系模式的发现率;
S44:最终输出补全后的三元组,即进化后的知识。
本实施例还提供一种采用如上所述的一种用于钢铁制造企业的知识图谱自动构建方法的知识图谱自动构建系统,包括
数据收集模块,被配置为:收集制造企业的文本数据;相当于执行上述数据收集步骤S1;
数据处理模块,被配置为:对收集的文本数据进行预处理,构建单句集合;相当于执行上述数据处理步骤S2;
知识建模模块,被配置为:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;
根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建;相当于执行上述知识建模步骤S3;
知识进化模块,被配置为:将获得的实体关系三元组输入预设的词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并根据构建的损失函数对实体关系三元组的置信度进行打分,通过预设的置信阈值判断是否为正确的三元组;
将正确的三元组输入改进路径排序算法中,挖掘新的三元组,作为进化后的知识图谱;相当于执行上述知识进化步骤S4。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,包括以下步骤:
数据收集步骤:收集制造企业的文本数据;
数据处理步骤:对收集的文本数据进行预处理,构建单句集合;
知识建模步骤:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;
根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建。
2.根据权利要求1所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述预处理包括判断文本数据中句子的完整性,对每个句子进行去重和去特殊符号处理。
3.根据权利要求1所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述双向Transformer结构采用多头注意力机制进行特征聚合,所述多头注意力机制的计算表达式为:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
Figure FDA0003270844960000011
式中,MultiHead(Q,K,V)为多头注意力机制的输出,Q,K,V分别为词向量矩阵、句向量矩阵和位置向量矩阵,所述词向量矩阵、句向量矩阵和位置向量矩阵由BERT预训练模型输出,WO为附加的权重矩阵,Wi Q,Wi K,Wi V表示不同的线性变换对Q,K,V进行投影,dk为Q,K,V矩阵的列数。
4.根据权利要求3所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述词序列向量中,t位置对应的向量表示为:
Figure FDA0003270844960000021
Figure FDA0003270844960000022
式中,k为自然数。
5.根据权利要求1所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述实体向量表示的表达式为:
Figure FDA0003270844960000023
式中,ei为经过最大池化处理过后的词向量表示,c为[CLS]向量,符号
Figure FDA0003270844960000029
为拼接,m为候选实体结束字符所在位置标记,n为候选实体的开头字符所在位置标记;
所述实体识别结果的计算表达式为:
Figure FDA0003270844960000024
式中,
Figure FDA0003270844960000025
为实体识别结果,softmax为Softmax处理函数,W为乘法系数,b为加法系数,xe为实体向量表示。
6.根据权利要求1所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述关系分类模块获取关系分类结果的计算表达式为:
Figure FDA0003270844960000026
Figure FDA0003270844960000027
式中,
Figure FDA0003270844960000028
为关系分类结果,softmax为Softmax处理函数,Ws为关系分类乘法系数,cr为候选关系向量,xe1为cr前的实体向量表示,xe2为cr后的实体向量表示。
7.根据权利要求1所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述方法还包括知识进化步骤:将获得的实体关系三元组输入预设的词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并根据构建的损失函数对实体关系三元组的置信度进行打分,通过预设的置信阈值判断是否为正确的三元组;
将正确的三元组输入改进路径排序算法中,挖掘新的三元组,作为进化后的知识图谱。
8.根据权利要求7所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述词向量嵌入模型采用用TransE模型对实体关系三元组进行编码,将实体和关系编码到相同维度的向量空间,并假设:
h+r-t≈0
式中,h为头实体向量,r为关系向量,t为尾实体向量;
所述损失函数的计算表达式为:
Figure FDA0003270844960000031
式中,fr(h,t)为损失函数的计算结果,符号
Figure FDA0003270844960000032
为L2范数。
9.根据权利要求7所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述改进路径排序算法利用双层随机游走机制对路径特征进行评估,该双层随机游走机制中引入向量空间相似性的启发式方法,获取关系路径特征模式。
10.一种采用如权利要求1-9任一所述的一种用于钢铁制造企业的知识图谱自动构建方法的知识图谱自动构建系统,其特征在于,包括
数据收集模块,被配置为:收集制造企业的文本数据;
数据处理模块,被配置为:对收集的文本数据进行预处理,构建单句集合;
知识建模模块,被配置为:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;
根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建。
CN202111100811.5A 2021-09-18 2021-09-18 一种用于钢铁制造企业的知识图谱自动构建方法和系统 Pending CN113868432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111100811.5A CN113868432A (zh) 2021-09-18 2021-09-18 一种用于钢铁制造企业的知识图谱自动构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111100811.5A CN113868432A (zh) 2021-09-18 2021-09-18 一种用于钢铁制造企业的知识图谱自动构建方法和系统

Publications (1)

Publication Number Publication Date
CN113868432A true CN113868432A (zh) 2021-12-31

Family

ID=78992856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111100811.5A Pending CN113868432A (zh) 2021-09-18 2021-09-18 一种用于钢铁制造企业的知识图谱自动构建方法和系统

Country Status (1)

Country Link
CN (1) CN113868432A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022058A (zh) * 2022-01-06 2022-02-08 成都晓多科技有限公司 基于时序知识图谱的中小企业失信风险预测方法
CN116226408A (zh) * 2023-03-27 2023-06-06 中国科学院空天信息创新研究院 农产品生长环境知识图谱构建方法及装置、存储介质
CN116502807A (zh) * 2023-06-27 2023-07-28 北京中企慧云科技有限公司 基于科技知识图谱的产业链分析应用方法和装置
CN116628212A (zh) * 2022-11-25 2023-08-22 云南大学 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法
CN116628212B (zh) * 2022-11-25 2024-06-04 云南大学 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022058A (zh) * 2022-01-06 2022-02-08 成都晓多科技有限公司 基于时序知识图谱的中小企业失信风险预测方法
CN116628212A (zh) * 2022-11-25 2023-08-22 云南大学 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法
CN116628212B (zh) * 2022-11-25 2024-06-04 云南大学 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法
CN116226408A (zh) * 2023-03-27 2023-06-06 中国科学院空天信息创新研究院 农产品生长环境知识图谱构建方法及装置、存储介质
CN116226408B (zh) * 2023-03-27 2023-12-19 中国科学院空天信息创新研究院 农产品生长环境知识图谱构建方法及装置、存储介质
CN116502807A (zh) * 2023-06-27 2023-07-28 北京中企慧云科技有限公司 基于科技知识图谱的产业链分析应用方法和装置
CN116502807B (zh) * 2023-06-27 2023-09-12 北京中企慧云科技有限公司 基于科技知识图谱的产业链分析应用方法和装置

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN111160008A (zh) 一种实体关系联合抽取方法及系统
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN113868432A (zh) 一种用于钢铁制造企业的知识图谱自动构建方法和系统
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
CN112463424B (zh) 一种基于图的端到端程序修复方法
CN113064586B (zh) 一种基于抽象语法树增广图模型的代码补全方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN112417063B (zh) 一种基于异构关系网络的相容功能项推荐方法
CN115145551A (zh) 一种面向机器学习应用低代码开发的智能辅助系统
CN114911945A (zh) 基于知识图谱的多价值链数据管理辅助决策模型构建方法
CN113408288A (zh) 一种基于BERT与BiGRU-CRF的命名实体识别方法
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN115438709A (zh) 基于代码属性图的代码相似性检测方法
CN116661805A (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113312498B (zh) 用无向图嵌入知识图谱的文本信息抽取方法
CN114036246A (zh) 商品图谱向量化方法、装置、电子设备及存储介质
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN112148879B (zh) 一种自动给代码打数据结构标签的计算机可读存储介质
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN117033423A (zh) 一种注入最优模式项和历史交互信息的sql生成方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination