CN113868432A - 一种用于钢铁制造企业的知识图谱自动构建方法和系统 - Google Patents
一种用于钢铁制造企业的知识图谱自动构建方法和系统 Download PDFInfo
- Publication number
- CN113868432A CN113868432A CN202111100811.5A CN202111100811A CN113868432A CN 113868432 A CN113868432 A CN 113868432A CN 202111100811 A CN202111100811 A CN 202111100811A CN 113868432 A CN113868432 A CN 113868432A
- Authority
- CN
- China
- Prior art keywords
- vector
- entity
- relation
- knowledge graph
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 45
- 238000010276 construction Methods 0.000 title claims abstract description 30
- 229910000831 Steel Inorganic materials 0.000 title claims abstract description 28
- 239000010959 steel Substances 0.000 title claims abstract description 28
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 title abstract description 24
- 229910052742 iron Inorganic materials 0.000 title abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 151
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000011176 pooling Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000005065 mining Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005295 random walk Methods 0.000 claims description 8
- 238000013480 data collection Methods 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000002436 steel type Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Manufacturing & Machinery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- General Factory Administration (AREA)
Abstract
本发明涉及一种用于钢铁制造企业的知识图谱自动构建方法和系统,方法包括:收集制造企业的文本数据;预处理后构建单句集合;将单句载入BERT预训练模型中,进行分词、向量化和特征提取,输出词序列向量;对词序列向量进行最大池化处理后,与[CLS]向量拼接得到实体向量表示,获取实体识别结果;根据实体向量表示,选取候选关系向量,一起载入关系分类模块中,获取关系分类结果;得到实体关系三元组;对获取三元组进行打分选取正确的三元组,通过路径排序算法挖掘新的三元组,实现知识进化。与现有技术相比,本发明将异构数据抽象成知识,对知识进行建模,同时提升了钢铁制造领域知识图谱构建效率、降低了钢铁制造领域知识图谱构建成本。
Description
技术领域
本发明涉及知识图谱构建技术领域,尤其是涉及一种用于钢铁制造企业的知识图谱自动构建方法和系统。
背景技术
随着互联网、大数据、人工智能等技术的迅猛发展,传统制造业正加速向新一代智能制造迈进,信息化和工业化的两化融合已成为发展趋势。在传统制造向智能制造发展的过程中,伴随着制造系统复杂度日益增加、用户个性化需求不断增长,制造过程中产生的工业数据规模也愈发庞大多元。异构数据会造成信息交互的问题。将异构数据抽象成知识,对知识进行建模,利用知识图谱进行异构数据的集成与融合,不仅可以解决操作障碍,减少数据冗余,还可以加强数据的推理和决策能力。
与通用知识图谱相较而言,领域知识图谱基于特定数据集构建,强调知识的深度。传统的领域知识图谱构建方法依靠专家手工构建,需要花费大量的人力资源,一旦构建的知识图谱规模较为庞大,会耗费大量的时间和精力。目前,对于制造领域知识建模方法的研究尚未形成一个成熟体系。针对钢铁制造企业研究其知识建模方法以及进化机制,构建出高质量、高相关度、语义丰富的知识图谱并对其进行补全,不仅可以解决信息间语义关联少的问题,同时还能提升知识图谱构建效率、降低知识图谱构建成本,十分具有理论研究意义。
近年来,随着深度学习以及自然语言处理技术的不断发展,钢铁领域知识图谱的自动构建成为可能,但仍然存在以下不足之处:(1)现阶段知识抽取大多采用传统的流水线抽取方式,存在多个抽取任务时会造成误差累积。(2)知识建模的过程采用自动形式,注定会使其中包含的知识不具有完整性,即知识库无法包含全部的知识。由于知识图谱的不完整性,知识图谱补全可以用来向知识图谱中添加新的三元组,实现知识的学习与进化。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于钢铁制造企业的知识图谱自动构建方法和系统,将异构数据抽象成知识,对知识进行建模,同时提升了钢铁制造领域知识图谱构建效率、降低了钢铁制造领域知识图谱构建成本,并为企业数据管理提供了一条解决之道。
本发明的目的可以通过以下技术方案来实现:
一种用于钢铁制造企业的知识图谱自动构建方法,包括以下步骤:
数据收集步骤:收集制造企业的文本数据;
数据处理步骤:对收集的文本数据进行预处理,构建单句集合;
知识建模步骤:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;
根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建。
进一步地,所述预处理包括判断文本数据中句子的完整性,对每个句子进行去重和去特殊符号处理。
进一步地,所述双向Transformer结构采用多头注意力机制进行特征聚合,所述多头注意力机制的计算表达式为:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
headi=Attention(QWi Q,KWi K,VWi V)
式中,MultiHead(Q,K,V)为多头注意力机制的输出,Q,K,V分别为词向量矩阵、句向量矩阵和位置向量矩阵,所述词向量矩阵、句向量矩阵和位置向量矩阵由BERT预训练模型输出,WO为附加的权重矩阵,Wi Q,Wi K,Wi V表示不同的线性变换对Q,K,V进行投影,dk为Q,K,V矩阵的列数。
进一步地,所述词序列向量中,t位置对应的向量表示为:
式中,k为自然数。
进一步地,所述实体向量表示的表达式为:
所述实体识别结果的计算表达式为:
进一步地,所述关系分类模块获取关系分类结果的计算表达式为:
进一步地,所述方法还包括知识进化步骤:将获得的实体关系三元组输入预设的词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并根据构建的损失函数对实体关系三元组的置信度进行打分,通过预设的置信阈值判断是否为正确的三元组;
将正确的三元组输入改进路径排序算法中,挖掘新的三元组,作为进化后的知识图谱。
进一步地,所述词向量嵌入模型采用用TransE模型对实体关系三元组进行编码,将实体和关系编码到相同维度的向量空间,并假设:
h+r-t≈0
式中,h为头实体向量,r为关系向量,t为尾实体向量;
所述损失函数的计算表达式为:
进一步地,所述改进路径排序算法利用双层随机游走机制对路径特征进行评估,该双层随机游走机制中引入向量空间相似性的启发式方法,获取关系路径特征模式。
本发明还提供一种采用如上所述的一种用于钢铁制造企业的知识图谱自动构建方法的知识图谱自动构建系统,包括
数据收集模块,被配置为:收集制造企业的文本数据;
数据处理模块,被配置为:对收集的文本数据进行预处理,构建单句集合;
知识建模模块,被配置为:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;
根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建。
与现有技术相比,本发明具有以下优点:
(1)本发明提供领域知识图谱的自动构建方法,首先通过收集文本获取单句,然后由BERT预训练模型获取词序列向量,并与[CLS]向量拼接得到实体向量表示;一方面由该实体向量表示可获得实体识别结果;另一方面为克服传统的流水线抽取方式存在误差累积的缺陷,本发明将由BERT预训练模型得到的实体向量表示与候选关系向量组合一起载入关系分类模块中,获得关系分类结果,实现将实体识别与关系抽取任务进行联合建模,实现端到端的模型,减少了误差累积,达到了更优的效果。
(2)本发明考虑到知识建模的过程使得知识库无法包含全部的知识,存在知识图谱的不完整性,增设的知识进化模块步骤进行知识图谱补全,实现了知识的学习与进化;
知识进化模块步骤中本发明首先对抽取得到的三元组进行维度转换,然后进行置信度打分,判断出正确的三元组,从而通过改进路径排序算法进行新的三元组的挖掘;
改进路径排序算法利用双层随机游走机制对路径特征进行评估,在随机游走中引入向量空间相似性的启发式方法,放宽采样约束,以缓解路径特征的稀疏性,得到更多的关系路径特征模式,提高了有效关系模式的发现率。
(3)本发明将异构数据抽象成知识,对知识进行建模,同时提升钢铁制造领域知识图谱构建效率、降低钢铁制造领域知识图谱构建成本,并为企业数据管理提供了一条解决之道。
附图说明
图1为本发明实施例中提出的一种用于钢铁制造企业的知识图谱自动构建方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供一种用于钢铁制造企业的知识图谱自动构建方法,包括以下步骤:
数据收集步骤S1:收集制造企业的文本数据;
本实施例中,这一部分由制造企业内外部信息构成,包括企业信息系统数据、生产设备信息以及互联网上的供应商、客户信息,采集到的数据包括专家经验、班组日志以及供应商等信息,以及来自企业信息系统的工艺制度、生产调度计划以及规则数据等,以及设备数据、钢种数据等。这些文本信息是构建制造领域知识图谱的数据来源。
数据处理步骤S2:对收集的文本数据进行预处理,构建单句集合;
本实施例中,在采集到所需数据之后,需要对数据进行预处理,对于数据的特征进行分析,对网页文本进行解析。判断文本中段落句子的完整性,并对每一个句子进行去重、去特殊字符等预处理操作,最终输入到下一部分的是单句的集合;
知识建模步骤S3:使用实体关系联合抽取算法对知识进行抽取以及建模,具体包括以下步骤:
S31:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
本实施例中,对于输入的单句,首先使用BERT预训练模型对其进行分词并向量化;输出的向量由词向量(Token Embedding)、句向量(Segment Embedding)和位置向量(Position Embedding)组成,相加之后送入双向Transformer结构进行特征提取,最后得到含有丰富语义特征的序列向量。深层双向Transformer的模型结构是BERT模型中的核心,使得模型在进行单词的处理时,能够表征单词在上下文中的具体语义。Transformer编码结构采用多头注意力机制,放弃时间循环结构,可以同时处理整个输入序列,多头注意力机制的输出为:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
headi=Attention(QWii Q,KWi K,VWi V)
式中,MultiHead(Q,K,V)为多头注意力机制的输出,Q,K,V分别为词向量矩阵、句向量矩阵和位置向量矩阵,所述词向量矩阵、句向量矩阵和位置向量矩阵由BERT预训练模型输出,Wo为附加的权重矩阵,Wi Q,Wi K,Wi V表示不同的线性变换对Q,K,V进行投影,dk为Q,K,V矩阵的列数。
对于一个长度为n的输入序列,其词序列向量中,t位置对应的向量表示为:
式中,k为自然数;
S32:对BERT预训练模型输出的词序列向量进行最大池化处理,进行平均和之后,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示xe;该实体向量表示xe的表达式为:
最后将得到的实体向量xe送入全连接加Softmax层,计算最有可能的实体标记,公式如下:
S33:根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
本实施例中,将获得的实体识别结果以及经BERT预训练模型得到的语句级表征输入至关系分类器中,经过全连接以及Softmax操作,获得关系分类结果;关系分类模块输入由两部分组成,一是在实体识别部分得到的实体向量表示xe,包括词序列向量以及能够表示整个文本的语义特征向量[CLS];二是两个实体之间文本的向量表示,即候选关系向量,在进行最大池化处理后与前后的实体向量进行拼接,送入关系分类器中,公式如下:
式中,为关系分类结果,softmax为Softmax处理函数,Ws为关系分类乘法系数,cr为候选关系向量,也属于经过最大池化处理过后的词序列向量,xe1为cr前的实体向量表示,xe2为cr后的实体向量表示。
S34:根据所述实体识别结果以及关系分类结果,得到实体关系三元组,即形如“<加热炉,包括,点火器>”实体关系三元组之后,对其进行筛选,完成知识建模。
作为一种优选的实施方式,本实施例还提供知识进化步骤,具体描述如下:
4、知识进化步骤
知识进化步骤S4:主要任务是进行知识图谱补全,基于已有的知识去推理出新的未知的知识;具体包括以下步骤:
S41:将获得的实体关系三元组输入预设的词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并根据构建的损失函数对实体关系三元组的置信度进行打分,通过预设的置信阈值判断是否为正确的三元组;
本实施例中,将实体关系三元组输入至词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并使用词向量嵌入模型根据构建的损失函数对三元组的置信度进行打分。具体操作是将三元组中的头尾实体向量投影至该关系对应的超平面上,若三元组为真,那么实体向量将会以较小的误差连接。将损失函数值引入打分函数,对候选事实进行打分,鼓励正确的事实获得较小的数值,以此判断该三元组的可信程度;本实施例采用TransE模型对候选三元组对其进行编码,该模型将关系看作是从头部实体到尾部实体的转移,将知识库中的实体和关系编码到相同维度的向量空间,并假设:
h+r-t≈0
其中,h为头实体向量,r为关系向量,t为尾实体向量。
该模型的损失函数为:
最终通过设置阈值,来根据损失函数的结果对其判断其是否为正确的三元组;
S42:将正确的三元组输入改进路径排序算法中,利用双层随机游走机制对路径特征进行评估;
S43:在随机游走中引入向量空间相似性的启发式方法,放宽采样约束,以缓解路径特征的稀疏性,得到更多的关系路径特征模式,提高有效关系模式的发现率;
S44:最终输出补全后的三元组,即进化后的知识。
本实施例还提供一种采用如上所述的一种用于钢铁制造企业的知识图谱自动构建方法的知识图谱自动构建系统,包括
数据收集模块,被配置为:收集制造企业的文本数据;相当于执行上述数据收集步骤S1;
数据处理模块,被配置为:对收集的文本数据进行预处理,构建单句集合;相当于执行上述数据处理步骤S2;
知识建模模块,被配置为:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;
根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建;相当于执行上述知识建模步骤S3;
知识进化模块,被配置为:将获得的实体关系三元组输入预设的词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并根据构建的损失函数对实体关系三元组的置信度进行打分,通过预设的置信阈值判断是否为正确的三元组;
将正确的三元组输入改进路径排序算法中,挖掘新的三元组,作为进化后的知识图谱;相当于执行上述知识进化步骤S4。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,包括以下步骤:
数据收集步骤:收集制造企业的文本数据;
数据处理步骤:对收集的文本数据进行预处理,构建单句集合;
知识建模步骤:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;
根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建。
2.根据权利要求1所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述预处理包括判断文本数据中句子的完整性,对每个句子进行去重和去特殊符号处理。
3.根据权利要求1所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述双向Transformer结构采用多头注意力机制进行特征聚合,所述多头注意力机制的计算表达式为:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
式中,MultiHead(Q,K,V)为多头注意力机制的输出,Q,K,V分别为词向量矩阵、句向量矩阵和位置向量矩阵,所述词向量矩阵、句向量矩阵和位置向量矩阵由BERT预训练模型输出,WO为附加的权重矩阵,Wi Q,Wi K,Wi V表示不同的线性变换对Q,K,V进行投影,dk为Q,K,V矩阵的列数。
7.根据权利要求1所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述方法还包括知识进化步骤:将获得的实体关系三元组输入预设的词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并根据构建的损失函数对实体关系三元组的置信度进行打分,通过预设的置信阈值判断是否为正确的三元组;
将正确的三元组输入改进路径排序算法中,挖掘新的三元组,作为进化后的知识图谱。
9.根据权利要求7所述的一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,所述改进路径排序算法利用双层随机游走机制对路径特征进行评估,该双层随机游走机制中引入向量空间相似性的启发式方法,获取关系路径特征模式。
10.一种采用如权利要求1-9任一所述的一种用于钢铁制造企业的知识图谱自动构建方法的知识图谱自动构建系统,其特征在于,包括
数据收集模块,被配置为:收集制造企业的文本数据;
数据处理模块,被配置为:对收集的文本数据进行预处理,构建单句集合;
知识建模模块,被配置为:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;
对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;
根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;
根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111100811.5A CN113868432A (zh) | 2021-09-18 | 2021-09-18 | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111100811.5A CN113868432A (zh) | 2021-09-18 | 2021-09-18 | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113868432A true CN113868432A (zh) | 2021-12-31 |
Family
ID=78992856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111100811.5A Pending CN113868432A (zh) | 2021-09-18 | 2021-09-18 | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113868432A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022058A (zh) * | 2022-01-06 | 2022-02-08 | 成都晓多科技有限公司 | 基于时序知识图谱的中小企业失信风险预测方法 |
CN116226408A (zh) * | 2023-03-27 | 2023-06-06 | 中国科学院空天信息创新研究院 | 农产品生长环境知识图谱构建方法及装置、存储介质 |
CN116502807A (zh) * | 2023-06-27 | 2023-07-28 | 北京中企慧云科技有限公司 | 基于科技知识图谱的产业链分析应用方法和装置 |
CN116628212A (zh) * | 2022-11-25 | 2023-08-22 | 云南大学 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
CN116628212B (zh) * | 2022-11-25 | 2024-06-04 | 云南大学 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
-
2021
- 2021-09-18 CN CN202111100811.5A patent/CN113868432A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022058A (zh) * | 2022-01-06 | 2022-02-08 | 成都晓多科技有限公司 | 基于时序知识图谱的中小企业失信风险预测方法 |
CN116628212A (zh) * | 2022-11-25 | 2023-08-22 | 云南大学 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
CN116628212B (zh) * | 2022-11-25 | 2024-06-04 | 云南大学 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
CN116226408A (zh) * | 2023-03-27 | 2023-06-06 | 中国科学院空天信息创新研究院 | 农产品生长环境知识图谱构建方法及装置、存储介质 |
CN116226408B (zh) * | 2023-03-27 | 2023-12-19 | 中国科学院空天信息创新研究院 | 农产品生长环境知识图谱构建方法及装置、存储介质 |
CN116502807A (zh) * | 2023-06-27 | 2023-07-28 | 北京中企慧云科技有限公司 | 基于科技知识图谱的产业链分析应用方法和装置 |
CN116502807B (zh) * | 2023-06-27 | 2023-09-12 | 北京中企慧云科技有限公司 | 基于科技知识图谱的产业链分析应用方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN111160008A (zh) | 一种实体关系联合抽取方法及系统 | |
CN111159407B (zh) | 训练实体识别和关系分类模型的方法、装置、设备及介质 | |
CN113868432A (zh) | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN112463424B (zh) | 一种基于图的端到端程序修复方法 | |
CN113064586B (zh) | 一种基于抽象语法树增广图模型的代码补全方法 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN112417063B (zh) | 一种基于异构关系网络的相容功能项推荐方法 | |
CN115145551A (zh) | 一种面向机器学习应用低代码开发的智能辅助系统 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN113408288A (zh) | 一种基于BERT与BiGRU-CRF的命名实体识别方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN115438709A (zh) | 基于代码属性图的代码相似性检测方法 | |
CN116661805A (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113312498B (zh) | 用无向图嵌入知识图谱的文本信息抽取方法 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN113742396A (zh) | 一种对象学习行为模式的挖掘方法及装置 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN112148879B (zh) | 一种自动给代码打数据结构标签的计算机可读存储介质 | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN117033423A (zh) | 一种注入最优模式项和历史交互信息的sql生成方法 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN116663539A (zh) | 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |