CN117370569A - 基于义原预测的工业知识图谱验证方法 - Google Patents
基于义原预测的工业知识图谱验证方法 Download PDFInfo
- Publication number
- CN117370569A CN117370569A CN202311274719.XA CN202311274719A CN117370569A CN 117370569 A CN117370569 A CN 117370569A CN 202311274719 A CN202311274719 A CN 202311274719A CN 117370569 A CN117370569 A CN 117370569A
- Authority
- CN
- China
- Prior art keywords
- entity
- sense
- type
- original
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012795 verification Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 86
- 238000005065 mining Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 29
- 230000002787 reinforcement Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于义原预测的工业知识图谱验证方法,属于知识图谱技术领域。它包括以下步骤:S1、预处理数据,基于预处理数据搭建义原预测模型,同时对预处理数据进行规则挖掘;S2、训练步骤S1的义原预测模型得训练模型;S3、基于步骤S1中的规则挖掘和步骤S2中的训练模型,验证知识图谱得到验证后的知识图谱。本发明解决了垂直领域知识图谱难验证的问题,并且使用了专家标注的Hownet义原库训练义原预测模型和加入了义原是最基本的、不宜再分割的最小语义单位的原理,将义原与知识图谱验证结合,大幅度提高了验证垂直领域知识图谱的准确率以及验证效率。
Description
技术领域
本发明涉及基于义原预测的工业知识图谱验证方法,属于知识图谱技术领域。
背景技术
HowNet是董振东先生、董强先生父子毕数十年之功标注的大型语言知识库,主要面向中文的词汇与概念。Hownet秉承还原轮思想,认为词汇和词义可以用更小的语义单位来描述。这种语义单位被称为义原,顾名思义就是原子语义,既最基本的、不宜再分割的最小语义单位。义原自问世以来,受到自然语言处理领域的广泛关注,国内外学者在词汇语义消歧、相似度计算、文本分类等方面探索了义原的重要应用价值。由于每天都有新的单词和短语出现,并且现有概念的语义不断变化,因此对于人类专家来说,注释新的单词和短语是费时费力的,因此在词汇义原自动标注方面,谢若冰等人提出了义原预测任务,该任务是在HowNet义原集合中选择出适合构建新概念的Def描述的义原子集。义原预测任务能很好的解决没有Hownet背景知识和未经专门训练的人员难以较好地完成义原标注任务。
知识图谱是一种以图结构或拓扑结构模型来整合数据的知识数据库,由一系列相互连接的实体(物体、事件、情景等)和它们的属性构成,它是一种半结构化或结构化的数据模型,旨在捕捉和组织大量的知识。知识图谱能够允许人或计算机以一种高效且没有歧义的方式,对网络中的数据进行处理和使用。知识图谱的组织和存储形式多种多样,其中最常用的是由W3C提出的资源描述框RDF,该框架以三元组<主体-关系-客体>的形式表达实体之间的关系,这种存储形式为知识图谱的构建和存储提供了很大的便利。目前知识图谱可应用到各个领域,以便在不同领域中,提供知识化服务、知识搜索、大数据分析等服务。
目前,知识图谱在工业领域也得到了广泛应用。但是,在工业企业领域,工业数据中常常存在噪音、异常值和不完整的数据。这可能由传感器故障、设备故障、人为错误或其他干扰因素引起。所以由工业数据为基础构建而成的知识图谱存在许多错误,它们通常是由数据录入、数据整合或数据处理过程中的错误引入,常见的错误类别有实体错误、关系错误、属性错误、逻辑错误。如果不对知识图谱的错误进行检测,不仅会影响知识图谱的质量,更会影响其下游任务例如问答系统、信息检索、推荐系统、实体链接、语义搜索等的质量。因此急需一种快速且可靠的方法检测工业知识图谱的错误的方法,使其知识图谱的质量有所保障。
发明内容
本发明针对上述背景技术所提及的技术问题,而采用以下技术方案来实现:
基于义原预测的工业知识图谱验证方法,包括以下步骤:
S1、预处理数据,基于预处理数据建立义原预测模型和对预处理数据进行规则挖掘;
S2、训练步骤S1所述的义原预测模型得训练模型;
S3、基于步骤S1中的规则挖掘和步骤S2中的训练模型,验证知识图谱得验证后的知识图谱。
作为优选实例,预处理数据的步骤为:需获取义原训练模型的训练数据集和对结构化未标注的文本数据集进行文本标注。
进一步的,按照下列方法获取义原训练模型的训练数据集:
步骤1、获得工业数据的非结构化文本和大型语料库的数据;
步骤2、对步骤1中所述的非结构化文本进行清洗数据、缺失值填充、分句分词的预处理,得到结构化未标注的文本数据集;
步骤3、标注结构化未标注的文本数据集,得标注后数据;
步骤4、对步骤3中的标注后数据和大型语料库的数据整合后得训练数据集。
更进一步的,步骤2中,文本数据集记为Y={y1,y2,...,yi,...,yN},其中,N表示一个批次中的句子的数目;yi表示第i个句子,并且其中M表示句子中的单词个数;/>表示第i个句子yi中第j个单词。
按照下列方法对步骤3中的结构化未标注的文本数据集进行文本标注,且文本标注计为Y:
D1、对句子中存在的工业实体进行人工标注,得实体类型;
D2、对句子中的实体之间存在关系进行人工标注,得关系类型;
D3、对句子中的实体进行人工标注义原,得义原类型;
D4、对关系对中的头实体指向尾实体的义原进行人工标注,得到义原集。
更进一步的,步骤D1中,实体类型记为:E={e1,e2,...,ek,...,en},其中n表示实体类型总数;其中ek表示第k种实体类型;步骤D2中,关系类型记为R={r1,r2,...,rl,...,rm},其中m表示实体间关系类型的总数;rl表示第l种关系类型,第i个句子中的三元组记为,其中表示第i个句子yi的第k个三元组,/>表示第k个头实体,/>表示第k个尾实体,/>表示三元组的关系类型,/> 表示第k个头实体的实体类型,/>表示第k个尾实体的实体类型;步骤D3中,义原类型记为S={s1,s2,...,sz,...sv},其中v表示实体中存在的义原类型总数;sz表示第z种义原类型;步骤D4中,义原集记为 表示第1个头实体的义原指向第1个尾实体的义原;
作为优选实例,步骤S1中,按照下列方式建立义原预测模型:
步骤一、建立预训练字符增强词向量模型;
步骤二、基于步骤一中的预训练字符增强词向量模型,搭建义原预测模型的字符加强模型;
步骤三、基于步骤二中所构建的编码的词向量,搭建义原预测模型的位置得分模型。
步骤四、基于字符加强模型和位置得分模型搭建义原预测模型。
优选的,在步骤一中,将字符嵌入、类型嵌入、位置嵌入、分割嵌入相加作为输入对象,建立预训练字符增强词向量模型。
进一步,在步骤一中,建立预训练字符增强词向量模型的方法为:使用掩码Transformer Encoder作为预训练字符增强词向量模型,该模型以多头自注意力机制为基本架构,其掩码自注意力训练过程公式如下:
其中X∈Rn×d,X为输入序列的表示,为输出序列的表示,T为转置符号,n表示序列中token的数目,d和dk为每个token的维度,Softmax()为激活函数。其WQ,WK,/>是可学习参数,M为自注意力矩阵且M∈Rn×n;
在步骤二中,搭建义原预测模型的字符加强模型,首先构建其编码器,利用编码器将与单词相关的信息编码成向量,首先将每个词中的字符进行词嵌入的拼接,其公式如下:
其ci表示词中的第i个字符,WU为投影矩阵,ui为预训练得到字符增强词嵌入,为拼接完成后的词向量;拼接完成后将其传入Bi-Lstm编码;将两个方向上最后一个隐藏状态的连接记为h并传入多标签分类器,其公式如下:
其中W∈R|S|×2l,b∈R|S|,w为大型语料库预训练词向量,Bi-LSTM为双向长短期记忆网络,W为投影矩阵,b为偏置量,l表示单个方向上隐层状态的维数,其SG为所求词的义原得分;
在步骤三中,搭建义原预测模型的位置得分模型,首先构建词对应义原矩阵Mij,Mij∈{0,1}表示单词wi对应的义原sj标注;
其次将词按位置分解为字符,将词w定义为w=c1c2...c|w|其分解公式如下:
其中B,M,E分别代表位置Begin,Middle,End;π表示按位置分解的字符集,c表示所分解的字符;
然后构建字符位置义原得分函数,其公式如下:
其中c和p分别表示所给字符和其位置,sj表示被计算得分的义原,πp表示πB,πM,πE其中一个,Pp(sj|c)为字符位置义原得分;
最后构建词位置义原得分函数,其公式如下:
其中P(sj|w)为词位置义原得分;
在步骤四中,根据字符加强模型和位置得分模型搭建义原预测模型,首先获取字符加强模型的义原得分,记为SG,并获取位置得分模型的字符位置义原得分,记为SL,然后将SG和SL两者分数加权求和并求其最终义原得分,其公式如下:
SE=αSG+(1-α)SL (7)
其中:SE表示单词经过义原预测模型预测义原的最终得分,α代表加权系数,且为训练模型后固定的常数。
作为优选实例,在步骤S1中,按照下列方法对预处理数据进行规则挖掘:
I、基于步骤D2中的yi的三元组Triplei的头实体和尾实体/>获取实体集,或,基于步骤D2中的yi的三元组Triplei的头实体/>关系类型/>和头实体的实体类型/>获取头实体关系集;或,基于步骤D2中的yi的三元组Triplei的尾实体/>关系类型/>和尾实体的实体类型/>获取尾实体关系集;
II、遍历步骤I中所述的实体集,并统计实体的实体类型以及对应义原,得实体类型对应的义原集,即挖掘实体类对应义原规则;或,遍历步骤I中所述的头实体关系集中的头实体关系对,并统计头实体关系对中的,头实体所属关系类型,头实体的实体类型以及对应义原,即可挖掘关系头实体对应义原规则,或,遍历步骤I中所述的尾实体关系集中的尾实体关系对,并统计尾实体关系对中的,尾实体所属关系类型,尾实体的实体类型以及对应义原,即可挖掘关系尾实体对应义原规则;或,遍历步骤I中所述的yi的三元组Triplei,并统计头实体指向尾实体的义原集Set,既可挖掘关系指向对应义原规则。
进一步的,在步骤I中,实体集的表示方式为:Entity={entity1,entity2,...,entityk,...,entityn},其中:entityk表示第k个实体,n表示实体总个数;
头实体关系集的表示方式为:其中:/>表示第k个头实体、第l种关系类型和第k个头实体的实体类型组成的头实体关系对,n和m分别表示头实体个数和关系类型数,
尾实体关系集,记为其中表示第k个尾实体、第l种关系类型和第k个尾实体的实体类型组成的头实体关系对,n和m分别表示头实体个数和关系类型数;
在步骤II中,可挖掘实体类对应义原规则,表达方式为:
其中:entity表示某个实体,e和E分别表示entity的类型和实体类型的集合,Sememe()和Type()分别表示求某实体的义原和实体类型,Ge表示该实体类型对应的义原集;
可挖掘关系头实体对应义原规则,表达方式为:
其中:r(head,tail)表示某条关系,和R分别表示r的类型和关系类型的集合,head和tail为r的头实体,/>和Hr分别表示该关系类型头实体对应的义原集和该关系类型头实体的实体类型;
可挖掘关系尾实体对应义原规则,表达方式为:
和/>分别表示该关系类型尾实体对应的义原集和该关系类型尾实体的实体类型;
可挖掘关系指向对应义原规则,表达方式为:
其中:Sememe_d表示求其指向关系义原,表示关系指向对应义原集。
作为优选实例,在S2中,按照下列方式得到训练模型:
i、将语料库的数据和标注的数据作为输入,其中语料库数据用作预训练词向量,标注数据用于训练步骤S1中的义原预测模型;
ii、训练步骤一中所述的预训练字符增强词向量模型步骤i中的义原预测模型得训练好的义原预测模型即得训练模型,用于预测词的义原。
进一步的,在步骤i中,语料库数据用作预训练词向量,标注数据用于训练义原预测模型,随机屏蔽15%的输入序列,其中80%用其掩码token替换,10%被相同token类型的随机token替换,10%保持不变,将公式(1)作为预训练词向量基本架构;
在步骤ii中,将预训练模型批大小设置为1024,义原预测模型的词嵌入维度设置为200,Bi-Lstm隐层状态维数设置为512*2,批大小为128;使用Adam优化器对预训练模型和义原预测模型训练,学习率设置为0.0001,并计算损失函数L,将误差反向传播至所述模型中,以更新模型参数,直到损失函数L没有持续减小训练停止,即得。
作为优选实例,在步骤S3中,按照下列方式验证知识图谱得验证后的知识图谱:
s1、基于步骤D2中Triplei的格式获取待验证知识图谱的三元组,且三元组有n组;
s2、搭建义原预测模块;
s3、遍历Triplekg,获取三元组的头实体Hk与尾实体Tk并使用义原预测模块获取实体对应的义原集,使用规则(8)实体类是否对应义原规则进行验证,若满足规则,那么实体的实体类型正确,否则实体的实体类型有误;
s4、获取三元组的头实体关系对/>并使用义原预测模块获取该头实体对应的义原集,使用规则(9)头实体是否对应义原规则进行验证,如果满足规则,则该关系对中头实体的实体类型正确,否则错误;
s5、获取三元组的尾实体关系对/>并使用义原预测模块获取该尾实体对应的义原集,使用规则(10)尾实体是否对应义原规则进行验证,如果满足规则,则该关系对中尾实体的实体类型正确,否则错误;
s6、获取三元组并使用义原预测模块获取该关系对头实体指向尾实体的义原集,使用规则(11)关系指向是否对应义原规则进行验证,如果满足规则,则该三元组正确,否则错误。
本发明的有益效果是:本发明通过标注数据,将标注数据用于训练义原预测模型,并得到最优的义原预测模型并且使用训练集挖掘验证规则,使用义原预测模型和Hownet库中的实例类搭建义原预测模块,并使用义原预测模块对其知识图谱进行验证,删除掉图谱中不满足验证规则的三元组,从而完成了对知识图谱的错误的验证;
本发明解决了垂直领域知识图谱难验证的问题,并且使用了专家标注的Hownet义原库训练义原预测模型和加入了义原是最基本的、不宜再分割的最小语义单位的原理,将义原与知识图谱验证结合,大幅度提高了验证垂直领域知识图谱的准确率以及验证效率。
附图说明
图1为本发明的实现流程图;
图2为本发明中的义原预测模块图;
图3为本发明中使用实体类对应义原规则验证流程图;
图4为本发明中使用关系头实体对应义原规则验证流程图;
图5为本发明中使用关系尾实体对应义原规则验证流程图;
图6为本发明中使用关系指向对应义原规则验证流程图。
具体实施方式
为了对本发明的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示和实施例,进一步阐述本发明。
实施例
如图1-6所示,基于义原预测的工业知识图谱验证方法,包括以下步骤:
S1、预处理数据,基于预处理数据搭建义原预测模型,同时对预处理数据进行规则挖掘;
S2、训练步骤S1的义原预测模型得训练模型;
S3、基于步骤S1中的规则挖掘和步骤S2中的训练模型,验证知识图谱得到验证后的知识图谱。
所述预处理数据包括对工业数据的非结构化文本和大型语料库的数据进行预处理,和对结构化未标注的文本数据集进行文本标注,获取义原训练模型的训练数据集。
按照下列方法获取义原训练模型的训练数据集:
步骤1、获得工业数据的非结构化文本和大型语料库的数据;
步骤2、对步骤1中所述的非结构化文本进行清洗数据、缺失值填充、分句分词的预处理,得到结构化未标注的文本数据集;
步骤3、标注结构化未标注的文本数据集,得标注后数据;
步骤4、对步骤3中的标注后数据和大型语料库的数据整合后得训练数据集。
其中:在步骤2中,文本数据集记为Y={y1,y2,...,yi,...,yN},其中,N表示一个批次中的句子的数目;yi表示第i个句子,并且其中M表示句子中的单词个数;/>表示第i个句子yi中第j个单词。
按照下列方法对步骤3中的结构化未标注的文本数据集进行文本标注,且文本标注计为Y:
D1、对句子中存在的工业实体进行人工标注,得实体类型;
D2、对句子中的实体之间存在关系进行人工标注,得关系类型;
D3、对句子中的实体进行人工标注义原,得义原类型;
D4、对关系对中的头实体指向尾实体的义原进行人工标注,得到义原集.
步骤D1中,实体类型记为:E={e1,e2,...,ek,...,en},其中n表示实体类型总数;其中ek表示第k种实体类型;步骤D2中,关系类型记为R={r1,r2,...,rl,...,rm},其中m表示实体间关系类型的总数;rl表示第l种关系类型,第i个句子中的三元组记为其中表示第i个句子yi的第k个三元组,/>表示第k个头实体,/>表示第k个尾实体,/>表示三元组的关系类型,/> 表示第k个头实体的实体类型,/>表示第k个尾实体的实体类型;步骤D3中,义原类型记为S={s1,s2,...,sz,...sv},其中v表示实体中存在的义原类型总数;sz表示第z种义原类型;步骤D4中,义原集记为 表示第1个头实体的义原指向第1个尾实体的义原。
步骤S1中,按照下列方式建立义原预测模型:
步骤一、将字符嵌入、类型嵌入、位置嵌入、分割嵌入相加作为输入,建立预训练字符增强词向量模型;
步骤二、基于步骤一中的预训练字符增强词向量模型,搭建义原预测模型的字符加强模型;
步骤三、基于步骤二中的加强模型,搭建义原预测模型的位置得分模型。
步骤四、基于字符加强模型和位置得分模型搭建义原预测模型。
在步骤一中,建立预训练字符增强词向量模型的方法为:使用掩码TransformerEncoder作为预训练字符增强词向量模型,该模型以多头自注意力机制为基本架构,其掩码自注意力训练过程公式如下:
其中X∈Rn×d,X为输入序列的表示,为输出序列的表示,T为转置符号,n表示序列中token的数目,d和dk为每个token的维度,Softmax()为激活函数,其WQ,WK,/>是可学习参数,M为自注意力矩阵且M∈Rn×n;
在步骤二中,搭建义原预测模型的字符加强模型,首先构建其编码器,利用编码器将与单词相关的信息编码成向量,首先将每个词中的字符进行词嵌入的拼接,其公式如下:
其ci表示词中的第i个字符,WU为投影矩阵,ui为预训练得到字符增强词嵌入,为拼接完成后的词向量;拼接完成后将其传入Bi-Lstm编码;将两个方向上最后一个隐藏状态的连接记为h并传入多标签分类器,其公式如下:
其中W∈R|S|×2l,b∈R|S|,w为大型语料库预训练词向量,Bi-LSTM为双向长短期记忆网络,W为投影矩阵,b为偏置量,l表示单个方向上隐层状态的维数,其SG为所求词的义原得分;
对于训练,其损失函数公式如下:
其中σ为sigmoid函数,yj∈{0,1}表示第j个义原是否在单词w的义原集中;
在步骤三中,搭建义原预测模型的位置得分模型,具体为首先构建词对应义原矩阵Mij,Mij∈{0,1}表示单词wi对应的义原sj标注;其中Mij=1表示义原Sj属于单词wi的标注义原集既/>Mij=0表示Sj不属于单词wi的标注义原集/>既/>
其次将词按位置分解为字符,将词w定义为w=c1c2...c|w|其分解公式如下:
其中B,M,E分别代表位置Begin,Middle,End;π表示按位置分解的字符集,c表示所分解的字符;
然后构建字符位置义原得分函数,其公式如下:
其中c和p分别表示所给字符和其位置,sj表示被计算得分的义原,πp表示πB,πM,πE其中一个,Pp(sj|c)为字符位置义原得分;
最后构建词位置义原得分函数,其公式如下:
其中P(sj|w)为词位置义原得分;
在步骤四中,根据字符加强模型和位置得分模型搭建义原预测模型,首先获取字符加强模型的义原得分,记为SG,并获取位置得分模型的字符位置义原得分,记为SL,然后将SG和SL两者分数加权求和并求其最终义原得分,其公式如下:
SE=αSG+(1-α)SL (7),
其中SE表示单词经过义原预测模型预测义原的最终得分,α代表加权系数,且为训练模型后固定的常数;
在步骤S1中,按照下列方法对预处理数据进行规则挖掘:
I、基于步骤D2中的yi的三元组Triplei的头实体和尾实体/>获取实体集,或,基于步骤D2中的yi的三元组Triplei的头实体/>和关系类型/>获取头实体关系集;或,基于步骤D2中的yi的三元组Triplei的尾实体/>和关系类型/>获取尾实体关系集;
II、遍历步骤I中的实体集,并统计实体的实体类型以及对应义原,得实体类型对应的义原集,即挖掘实体类对应义原规则;或,遍历步骤I中的头实体关系集中的头实体关系对,并统计头实体关系对中的,头实体所属关系类型,头实体的实体类型以及对应义原,即可挖掘关系头实体对应义原规则,或,遍历步骤I中的尾实体关系集中的尾实体关系对,并统计尾实体关系对中的,尾实体所属关系类型,尾实体的实体类型以及对应义原,即可挖掘关系尾实体对应义原规则;或,遍历步骤I中的yi的三元组Triplei,并统计头实体指向尾实体的义原集Set,既可挖掘关系指向对应义原规则。
在步骤I中,实体集的表示方式为:Entity={entity1,entity2,...,entityk,...,entityn},其中:entityk表示第k个实体,n表示实体总个数;
头实体关系集的表示方式为:其中:/>表示第k个头实体、第l种关系类型和第k个头实体的实体类型组成的头实体关系对,n和m分别表示头实体个数和关系类型数,
尾实体关系集,记为其中/>表示第k个尾实体、第l种关系类型和第k个尾实体的实体类型组成的头实体关系对,n和m分别表示头实体个数和关系类型数;
在步骤II中,可挖掘实体类对应义原规则,表达方式为:
其中:entity表示某个实体,e和E分别表示entity的类型和实体类型的集合,Sememe()和Type()分别表示求某实体的义原和实体类型,Ge表示该实体类型对应的义原集;
可挖掘关系头实体对应义原规则,表达方式为:
其中:r(head,tail)表示某条关系,和R分别表示r的类型和关系类型的集合,head和tail为r的头实体,/>和Hr分别表示该关系类型头实体对应的义原集和该关系类型头实体的实体类型;
可挖掘关系尾实体对应义原规则,表达方式为:
和/>分别表示该关系类型尾实体对应的义原集和该关系类型尾实体的实体类型;
可挖掘关系指向对应义原规则,表达方式为:
其中:Sememe_d表示求其指向关系义原,表示关系指向对应义原集。
在S2中,按照下列方式得到训练模型:
i、将语料库的数据和标注的数据作为输入,其中语料库数据用作预训练词向量,标注数据用于训练步骤S1中的义原预测模型;
ii、训练步骤一中的预训练字符增强词向量模型和i中的义原预测模型得训练好的义原预测模型即得训练模型,用于预测词的义原。
在步骤i中,语料库数据用作预训练词向量,标注数据用于训练义原预测模型,随机屏蔽15%的输入序列,其中80%用其掩码token替换,10%被相同token类型的随机token替换,10%保持不变,将公式(1)作为预训练词向量基本架构;
在步骤ii中,将预训练模型批大小设置为1024,义原预测模型的词嵌入维度设置为200,Bi-Lstm隐层状态维数设置为512*2,批大小为128;使用Adam优化器对预训练模型和义原预测模型训练,学习率设置为0.0001,并计算损失函数L,将误差反向传播至模型中,以更新模型参数,直到损失函数L没有持续减小训练停止,即得。
在步骤S3中,按照下列方式验证知识图谱得验证后的知识图谱:
s1、基于D2中Triplei的格式获取待验证知识图谱的三元组,且三元组有n组,具体为以(D2)中Triplei的格式获取待验证知识图谱的三元组记为
s2、搭建义原预测模块,具体为参照图2,先获取要预测义原的词,然后在Hownet库中查找是否有某实体义原,如果有,则通过实例化OpenHownet.HowNetDict()类获取查找义原函数get_related_sememes(),并将参数设置为relaton=’hypernym’,return_triples=True,并递归查找其义原;
如果在库中查找失败,则用(4)中训练好的义原预测模型即得训练模型进行义原预测;
s3、遍历Triplekg,获取三元组的头实体Hk与尾实体Tk并使用义原预测模块获取实体对应的义原集,使用挖掘出的规则(8)实体类是否对应义原规则进行验证,若满足规则,则实体的实体类型正确,否则实体的实体类型有误;
s4、获取三元组的头实体关系对/>并使用义原预测模块获取该头实体对应的义原集,使用规则(9)头实体是否对应义原规则进行验证,如果满足规则,则该关系对中头实体的实体类型正确,否则错误;
s5、获取三元组的尾实体关系对/>并使用义原预测模块获取该尾实体对应的义原集,使用规则(10)尾实体是否对应义原规则进行验证,如果满足规则,则该关系对中尾实体的实体类型正确,否则错误;
s6、获取三元组并使用义原预测模块获取该关系对头实体指向尾实体的义原集,使用规则(11)关系指向是否对应义原规则进行验证,如果满足规则,则该三元组正确,否则错误。
上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (9)
1.基于义原预测的工业知识图谱验证方法,其特征在于,包括以下步骤:
S1、预处理数据,基于预处理数据搭建义原预测模型,同时对预处理数据进行规则挖掘;
S2、训练步骤S1所述的义原预测模型得训练模型;
S3、基于步骤S1中的规则挖掘和步骤S2中的训练模型,验证知识图谱得到验证后的知识图谱。
2.根据权利要求1所述的验证方法,其特征在于:所述预处理数据包括:对工业数据的非结构化文本和大型语料库的数据进行预处理,和对结构化未标注的文本数据集进行文本标注,获取义原训练模型的训练数据集。
3.根据权利要求2所述的验证方法,其特征在于:按照下列方法获取义原训练模型的训练数据集:
步骤1、获得工业数据的非结构化文本和大型语料库的数据;
步骤2、对步骤1中所述的非结构化文本进行清洗数据、缺失值填充、分句分词的预处理,得到结构化未标注的文本数据集;
步骤3、标注结构化未标注的文本数据集,得标注后数据;
步骤4、对步骤3中的标注后数据和大型语料库的数据整合后得训练数据集。
4.根据权利要求3所述的验证方法,其特征在于:按照下列方法对步骤3中的结构化未标注的文本数据集进行文本标注,且文本标注计为Y:
D1、对句子中存在的工业实体进行人工标注,得实体类型,记为:E={e1,e2,...,ek,...,en},其中n表示实体类型总数;ek表示第k种实体类型;
D2、对句子中的实体之间存在关系进行人工标注,得关系类型;记为R={r1,r2,...,rl,...,rm},其中m表示实体间关系类型的总数;rl表示第l种关系类型,第i个句子中的三元组记为,其中/>表示第i个句子yi的第k个三元组,/>表示第k个头实体,/>表示第k个尾实体,/>表示三元组的关系类型,/>表示第k个头实体的实体类型,/>表示第k个尾实体的实体类型;;
D3、对句子中的实体进行人工标注义原,得义原类型,记为S={s1,s2,...,sz,...sv},其中v表示实体中存在的义原类型总数;sz表示第z种义原类型;
D4、对关系对中的头实体指向尾实体的义原进行人工标注,得到义原集,记为表示第1个头实体的义原指向第1个尾实体的义原。
5.根据权利要求1所述的验证方法,其特征在于,在步骤S1中,按照下列方式建立义原预测模型:
步骤一、建立预训练字符增强词向量模型;
步骤二、基于步骤一中的预训练字符增强词向量模型,搭建义原预测模型的字符加强模型;
步骤三、基于步骤二中的加强模型,搭建义原预测模型的位置得分模型;
步骤四、基于字符加强模型和位置得分模型搭建义原预测模型。
6.根据权利要求5所述的验证方法,其特征在于:在步骤一中,将字符嵌入、类型嵌入、位置嵌入、分割嵌入相加作为输入对象,用于建立预训练字符增强词向量模型。
7.根据权利要求4所述的验证方法,其特征在于:在步骤S1中,按照下列方法对预处理数据进行规则挖掘:
I、基于步骤D2中的yi的三元组Triplei的头实体和尾实体/>获取实体集,或,基于步骤D2中的yi的三元组Triplei的头实体/>关系类型/>和头实体的实体类型/>获取头实体关系集;或,基于步骤D2中的yi的三元组Triplei的尾实体/>关系类型/>和尾实体的的实体类型/>获取尾实体关系集;
II、遍历步骤I中所述的实体集,并统计实体的实体类型以及对应义原,得实体类型对应的义原集,即挖掘实体类对应义原规则,记为其中:entity表示某个实体,e和E分别表示entity的类型和实体类型的集合,Sememe()和Type()分别表示求某实体的义原和实体类型,Ge表示该实体类型对应的义原集;
或,遍历步骤I中所述的头实体关系集中的头实体关系对,并统计头实体关系对中的,头实体所属类型,头实体的实体类型以及对应义原,即可挖掘关系头实体对应义原规则,记为:
其中:r(head,tail)表示某条关系,和R分别表示r的类型和关系类型的集合,head和tail为r的头实体,/>和Hr分别表示该关系类型头实体对应的义原集和该关系类型头实体的实体类型;
或,遍历步骤I中所述的尾实体关系集中的尾实体关系对,并统计尾实体关系对中的,尾实体所属关系类型,尾实体的实体类型以及对应义原,即可挖掘关系尾实体对应义原规则,记为:
和/>分别表示该关系类型尾实体对应的义原集和该关系类型尾实体的实体类型;或,遍历步骤I中所述的yi的三元组Triplei,并统计头实体指向尾实体的义原集Set,既可挖掘关系指向对应义原规则,记为/>
其中:Sememe_d表示求其指向关系义原,表示关系指向对应义原集。
8.根据权利要求5所述的验证方法,其特征在于:在步骤S2中,按照下列方式得到训练模型:
i、将语料库的数据和标注的数据作为输入,其中语料库数据用作预训练词向量,标注数据用于训练步骤S1中的义原预测模型;
ii、训练步骤一中所述的预训练字符增强词向量模型和步骤i中的义原预测模型得训练好的义原预测模型即得训练模型,用于预测词的义原。
9.根据权利要求4所述的验证方法,其特征在于:在步骤S3中,按照下列方式验证知识图谱得验证后的知识图谱:
s1、基于步骤D2中Triplei的格式获取待验证知识图谱的三元组,且三元组有n组;
s2、搭建义原预测模块;
s3、遍历Triplekg,获取三元组的头实体Hk与尾实体Tk并使用义原预测模块获取实体对应的义原集,使用挖掘出权利要求7中的规则(1)实体类是否对应义原规则进行验证,若满足规则,则实体的实体类型正确,否则实体的实体类型有误;
s4、获取三元组的头实体关系对/>并使用义原预测模块获取该头实体对应的义原集,使用权利要求7中的规则(2)头实体是否对应义原规则进行验证,如果满足规则那么该关系对中头实体的实体类型正确,否则错误;
s5、获取三元组的尾实体关系对/>并使用义原预测模块获取该尾实体对应的义原集,使用权利要求7中的规则(3)尾实体是否对应义原规则进行验证,如果满足规则那么该关系对中尾实体的实体类型正确,否则错误;
s6、获取三元组并使用义原预测模块获取该关系对头实体指向尾实体的义原集,使用权利要求7中的规则(4)关系指向是否对应义原规则进行验证,如果满足规则那么该三元组正确,否则错误。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311274719.XA CN117370569A (zh) | 2023-09-28 | 2023-09-28 | 基于义原预测的工业知识图谱验证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311274719.XA CN117370569A (zh) | 2023-09-28 | 2023-09-28 | 基于义原预测的工业知识图谱验证方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117370569A true CN117370569A (zh) | 2024-01-09 |
Family
ID=89390244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311274719.XA Pending CN117370569A (zh) | 2023-09-28 | 2023-09-28 | 基于义原预测的工业知识图谱验证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117370569A (zh) |
-
2023
- 2023-09-28 CN CN202311274719.XA patent/CN117370569A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6941513B2 (en) | System and method for text structuring and text generation | |
CN110532557B (zh) | 一种无监督的文本相似度计算方法 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN111680484B (zh) | 一种视觉常识推理问答题的答题模型生成方法和系统 | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN109977220B (zh) | 一种基于关键句和关键字的反向生成摘要的方法 | |
CN114020936B (zh) | 多模态事理图谱的构建方法、系统和可读存储介质 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN113987199B (zh) | 一种规范自动解译的bim智能审图方法、系统和介质 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN113254507B (zh) | 一种数据资产目录智能构建盘点方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN112036189A (zh) | 一种金文语义识别方法和系统 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN113076421B (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN115408506B (zh) | 联合语义解析和语义成分匹配的nl2sql的方法 | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 | |
CN117370569A (zh) | 基于义原预测的工业知识图谱验证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |