CN116362247A - 一种基于mrc框架的实体抽取方法 - Google Patents

一种基于mrc框架的实体抽取方法 Download PDF

Info

Publication number
CN116362247A
CN116362247A CN202310157203.0A CN202310157203A CN116362247A CN 116362247 A CN116362247 A CN 116362247A CN 202310157203 A CN202310157203 A CN 202310157203A CN 116362247 A CN116362247 A CN 116362247A
Authority
CN
China
Prior art keywords
sentence
word
entity
entity extraction
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310157203.0A
Other languages
English (en)
Inventor
贝毅君
高克威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310157203.0A priority Critical patent/CN116362247A/zh
Publication of CN116362247A publication Critical patent/CN116362247A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于MRC框架的实体抽取方法,该方法包括:首先根据设备维护手册获取目标句子,根据实体类型的定义生成相应的问题,将目标句子和问题进行拼接以获取语料;然后采用分词工具对语料进行分词,并进行编码后输入BERT模型获取目标句子的词嵌入表示;其次将目标句子的词嵌入表示通过句子分类模块获取句子级别特征;再将句子级别特征和目标句子的词嵌入表示相结合以整合到实体抽取模块;最后将句子分类模块和实体抽取模块相结合,并对二者共同训练,根据训练完成的两个模块完成实体抽取。本发明能够将句子级别的信息用于实体抽取任务中,有助于提高实体抽取的精度,很好地解决了设备维护文档中实体的抽取问题。

Description

一种基于MRC框架的实体抽取方法
技术领域
本发明涉及工业设备维护领域,尤其涉及一种基于MRC(Machine ReadingComprehension,机器阅读理解)框架的实体抽取方法。
背景技术
数控机床设备是生产活动的物质技术基础,保证设备健康持续地运行,减少风险和故障的发生,是每一个制造业企业能够正常运行的前提。但是随着经济全球化的发展,企业之间的竞争在不断地加大,设备也变得越来越机械化、自动化和智能化。与此同时,设备系统结构复杂性日益增加,设备的故障检测、诊断、预测和日常综合维护等工作难度也不断的加大。系统中任何一个部件出现故障,都将影响整个设备系统的正常运行。在近十几年快速发展的工业中,国内外由于机械部件故障而导致的灾难性事件也时有发生。
数控机床设备维护技术和工业生产的发展相互促进,随着传统工业生产的发展,其存在不足与局限性:由于数据分散、繁杂,传统的设备管理系统信息检索效果非常不理想;各个数据之间其实是存在关联的,如设备和各个故障维修方法,两者是存在着紧密联系,而传统的系统对于这些数据没有进行一定的关联,导致数据与数据之间关联性较差;传统的设备维护大部分都是依赖维护人员的经验知识以及维护文档,知识非常零散,当设备出现故障时,维护工作难以快速、有效的展开。
由于这些的不足,数控机床设备维护的技术方法需要不断的提高,同时数控机床设备维护知识图谱存在缺失的问题,使得遇到一些问题难以快速展开。而命名实体识别是知识图谱构建过程中的重要步骤。本发明旨在提出一种面向设备维护领域的实体抽取方法,以用于知识图谱在数控机床设备维护领域的构建。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于MRC框架的实体抽取方法。
本发明的目的是通过以下技术方案来实现的:一种基于MRC框架的实体抽取方法,包括以下步骤:
(1)根据设备维护手册获取目标句子,根据实体类型的定义生成相应的问题,将所述目标句子和所述问题进行拼接以获取语料;
(2)采用分词工具对所述步骤(1)获得的语料进行分词,并对分词后的语料进行编码,将编码后的语料输入BERT模型,以获取目标句子的词嵌入表示;
(3)根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征;
(4)将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中,以获取新的目标句子词嵌入;根据新的目标句子词嵌入预测可能作为开端的词,以获取词头集合;根据新的目标句子词嵌入预测可能作为结尾的词,以获取词尾集合;并将词头集合和词尾集合中的词进行匹配;
(5)根据所述步骤(4)中匹配后的结果完成实体抽取。
可选地,所述步骤(2)中,分词工具为WordpieceTokenizer;通过bert-embedding对分词后的语料进行编码。
可选地,所述步骤(3)中,根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征具体为:将所述步骤(2)获取的目标句子的词嵌入表示通过多头注意力机制层,并将多头注意力机制层的输出进行最大池化处理以获取目标句子嵌入,根据目标句子嵌入预测句子类型。
可选地,所述目标句子嵌入为句子级别特征。
可选地,所述根据目标句子嵌入预测句子类型具体为:将目标句子嵌入通过线性映射层以获取未归一化的对数概率;将该对数概率进行softmax函数归一化处理,以获取句子类型的预测分布,根据该预测分布预测句子类型;
根据所述预测分布和实际分布之间的交叉熵获取句子类型预测的损失函数
Figure BDA0004092844210000021
可选地,所述步骤(4)中,将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中的方法具体为:首先根据句子类型和实体类型同时出现的概率计算不同句子类型和实体类型之间的相关程度矩阵;然后将相关程度矩阵对应的值作为初始化权重;最后根据初始化权重将目标句子嵌入加到每个目标句子的词嵌入表示中。
可选地,所述步骤(4)中,所述获取词头集合的方法具体为:首先将目标句子词嵌入通过线性映射层,得到未归一化的对数概率;然后将未归一化的对数概率进行softmax函数归一化处理,得到各词预测为实体开端的概率分布;最后选取作为实体开端的概率大于0.5的词为可能作为开端的词集合,即为词头集合;
根据预测的所述实体开端的概率分布和实际分布之间的交叉熵获取开端坐标预测的损失函数
Figure BDA0004092844210000022
可选地,所述步骤(4)中,所述获取词尾集合的方法具体为:首先将目标句子词嵌入通过线性映射层,得到未归一化的对数概率;然后将未归一化的对数概率进行softmax函数归一化处理,得到各词预测为实体结尾的概率分布;最后选取作为实体结尾的概率大于0.5的词为可能作为结尾的词集合,即为词尾集合;
根据预测的所述实体结尾的概率分布和实际分布之间的交叉熵获取结尾坐标预测的损失函数
Figure BDA0004092844210000031
可选地,所述步骤(4)中,所述将词头集合和词尾集合中的词进行匹配的方法具体为:首先将词头集合中候选开端的词和词尾集合中候选结尾的词的嵌入表示进行结合;然后将结合后的词嵌入通过线性映射层,得到未归一化的对数概率;最后将未归一化的对数概率进行softmax函数归一化处理,得到对应的预测匹配概率分布;
根据所述预测匹配概率分布和实际分布的交叉熵获取开端坐标和结尾坐标匹配的损失函数
Figure BDA0004092844210000032
可选地,所述步骤(5)中,根据所述步骤(4)中匹配后的结果完成实体抽取具体为:基于所述步骤(4)中匹配后的结果生成开端坐标预测的损失函数
Figure BDA0004092844210000033
结尾坐标预测的损失函数/>
Figure BDA0004092844210000035
开端坐标和结尾坐标匹配的损失函数/>
Figure BDA0004092844210000034
同时结合句子类型预测的损失函数/>
Figure BDA0004092844210000036
给每个损失函数赋予不同的权重,对其求和以获取最终的损失函数,根据最终的损失函数进行训练,以完成实体抽取。
本发明的有益效果是,本发明将知识图谱技术引入制造业企业的设备管理与维护业务,实现设备管理与维护信息化,帮助生产企业优化决策管理,构建了更有效的信息检索方式;本发明能够更好地凸显设备数据之间的联系,构建有效的知识网络;本发明整合了设备制造数据,形成了完整的知识脉络;本发明在抽取时能够较高准确率地将实体抽取出来,有助于提高实体抽取的精度。
附图说明
图1是本发明的整体流程图;
图2是基于MRC框架的多任务实体抽取模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明的基于MRC框架的实体抽取方法,可以通过引入句子级别信息来提高实体抽取模型的性能,该实体抽取方法包括以下步骤:
(1)根据设备维护手册获取目标句子,根据实体类型的定义生成相应的问题,将所述目标句子和所述问题进行拼接以获取语料。
本实施例中,可以将实体抽取问题建模为一类机器阅读理解问题,不同的实体类型可以生成相应的问题。
需要说明的是,工业设备包括多种设备,例如数控机床、车床、钻床等,相对应的,不同的工业设备会有相对应的设备维护手册,从该设备维护手册中即可获取目标句子。
本实施例中,以数控机床的设备维护手册为例,例如,中国知识出版社出版的《实用数控机床故障诊断及维修技术500例》,从该书的案例中可以获取具体的目标句子。
具体地,对数据进行标注,该标注包括实体类型标注和句子类别标注。对于实体类型,根据数控机床设备维护领域的特点,可以分为:系统、部件、报警等ne个不同类型。对于句子类别,根据数控机床设备维护文档格式严谨、专业区分跨度大的特点,分类包括多层次,首先根据案例文档的格式进行分配,比如故障现象、分析处理过程等;之后根据案例所属的故障类别进行分类,比如CNC故障、伺服进给系统故障、伺服驱动系统故障等。然后将实体类型和句子类别这两类标签进行两两组合,可以得到最终nl个语料标签。
问题的生成有很多种方式,本实施例中将实体类型的定义作为问题。示例性地,如图2所示,实体类型为“数控系统”,对应的问题为“数控系统是数字控制系统的简称,根据计算机存储器中存储的控制程序,执行部分或全部数值控制功能,并配有接口电路和伺服驱动装置的专用计算机系统”。将问题序列记作Q{q1,q2,…,qk},其中k代表的是问题的词数量;目标句子记作W{w1,w2,…,wn},其中n代表的是输入序列的长度。将Q和W进行拼接,得到最终的语料,记为{[CLS],q1,q2,…,qk,{SEP},w1,w2,…,wn},将拼接后的语料作为一条数据输入到BERT模型中。
(2)采用分词工具对步骤(1)获得的语料进行分词,并对分词后的语料进行编码,将编码后的语料输入BERT模型(Bidirectional Encoder Representation fromTransformers),以获取目标句子的词嵌入表示。
应当理解的是,BERT模型通过训练无监督任务来获取目标句子的词嵌入表示,故将编码后的语料输入到BERT模型中即可获取目标句子的词嵌入表示。
本实施例中,需要将问题和目标句子即语料同时输入到BERT模型中,另外,由于对每一个汉字进行编码成本很大,且效果不好,所以需要先采用分词工具对语料进行分词,将较长的语料划分为具体的小单元,然后再进行编码,编码后再输入到BERT模型中,以获取目标句子的词嵌入表示。
具体地,采用分词工具如WordpieceTokenizer将输入语料进行分词,通过预训练的词嵌入bert-embedding对分词后的语料进行编码,并且同时加入了分段嵌入SegmentEmbedding来区分问题和目标句子,也加入了位置嵌入Position Embedding来表示位置信息。之后进入到BERT模型,BERT模型用两个无监督模型Masked Language Model和NextSentence Prediction来进行预训练。其中,Masked Language Model的训练任务为:通过去掉部分单词的句子来预测被去掉的单词,其倾向于获取token层次的表征;而NextSentence Prediction的训练任务为:预测给定句子是否为目标句子的下一句,其更倾向于句子层次的表征。如图1所示,BERT模型最终输出的目标句子的词嵌入表示为
Figure BDA0004092844210000051
Figure BDA0004092844210000052
其中U=u1,u2,…,uk}是问题的预训练嵌入,H=h1,h2,…,hn}是输入目标句子的预训练嵌入。因为BERT模型是一个双向深度模型,通过训练,H中各词的嵌入表示已经包含了问题以及上下文的信息,因此直接用H来执行之后的任务。
应当理解的是,因为中文NLP已经发展了一段时间,目前已经有很多预训练好的embedding了,与字典类似,一个词语对应一个编码。
(3)根据步骤(2)获取的目标句子的词嵌入表示获取句子级别特征。
本实施例中,如图2所示,根据步骤(2)获取的目标句子的词嵌入表示获取句子级别特征具体为:将步骤(2)获取的目标句子的词嵌入表示通过多头注意力机制(Multi-headAttention)层,并将多头注意力机制层的输出进行最大池化处理以获取目标句子嵌入,根据目标句子嵌入预测句子类型。
需要说明的是,句子级别特征即为目标句子嵌入。
本实施例中,句子分类模块执行的是句子分类任务,将步骤(2)获取的目标句子的词嵌入表示通过该模块即可获取句子级别特征。具体地,首先将BERT模型中获得的目标句子的词嵌入表示即H通过一个Multi-head Attention层,过程如下:
Figure BDA0004092844210000056
headj=attention(Qj,Kj,Vj)
Qj,Ki,Vj=HWj Q,HWj K,HWi v
其中,
Figure BDA0004092844210000053
都是需要训练的权重。其中,nh代表的是head数量。
进一步地,attention函数的计算如下所示:
Figure BDA0004092844210000054
其中,softmax指的是归一指数化函数。这里选用Transformer中的标准点积attention,选择
Figure BDA0004092844210000055
本实施例中,如图2所示,根据目标句子嵌入预测句子类型具体为:将目标句子嵌入通过线性映射层以获取未归一化的对数概率;将该对数概率进行softmax函数归一化处理,以获取句子类型的预测分布,根据该预测分布预测句子类型。
具体地,通过多头注意力机制(Multi-head Attention)层的输出定义为H′={h′1,h′2,…h′n},
Figure BDA0004092844210000061
之后将H′通过最大池化层得到/>
Figure BDA0004092844210000062
之后将h*通过线性映射层得到非归一化的对数概率,将其输入到softmax函数中实现归一化,得到句子分类模块的预测/>
Figure BDA0004092844210000063
本实施例中,根据预测分布和实际分布之间的交叉熵作为句子类型预测的损失函数
Figure BDA0004092844210000064
将训练数据中的真实句子类别分布定义为Rl,该损失函数/>
Figure BDA0004092844210000065
的表达式为:
Figure BDA0004092844210000066
其中,上标(i)代表的是第i个输入样本,符号“·”代表的是点积,M代表样本量。
(4)将步骤(3)获取的句子级别特征按照权重结合到步骤(2)获取的目标句子的词嵌入表示中,以获取新的目标句子词嵌入;根据新的目标句子词嵌入预测可能作为开端的词,以获取词头集合;根据新的目标句子词嵌入预测可能作为结尾的词,以获取词尾集合;并将词头集合和词尾集合中的词进行匹配。
本实施例中,实体抽取模块执行的是实体抽取任务,通过实体抽取模块即可执行上述步骤,不同的实体类型和不同的句子类型之间存在着一定的关联性,为了将句子类别用于辅助提升实体抽取任务的表现,本实施例将句子级别特征用于实体抽取任务中,因此这里并不直接将H用于执行实体抽取任务,而是将句子级别特征添加到H中,这里用h*代表句子级别特征。
将句子级别特征按照权重结合到目标句子的词嵌入表示中的方法具体为:首先根据句子类型和实体类型同时出现的概率计算不同句子类型和实体类型之间的相关程度矩阵;然后将相关程度矩阵对应的值作为初始化权重;最后根据初始化权重将目标句子嵌入加到每个目标句子的词嵌入表示中。
示例性地,以第i类实体的识别过程为例,具体的结合方式如下:
首先根据不同的句子类别和实体类别同时出现的概率,计算不同句子类别和实体类别之间的匹配程度矩阵
Figure BDA0004092844210000067
其中nl代表的是句子类别的数量,ne代表的是实体类别的数量,接下来根据匹配程度矩阵M,将h*结合到输入句子的嵌入表示H上。
H″=H+λ{h*,h*,…h*}
λ0=M(i)·Psen
其中,λ是需要训练的参数,λ0是λ的初始化值,M(i)为步骤(1)中的关联度匹配模型M的第i列,
Figure BDA0004092844210000071
由于输入属于同一个句子,它们有相同的句子级别特征,所以将h*以相同的方式结合到H的每一个词嵌入上。最终得到含有句子级别信息的输入句子嵌入表示
Figure BDA0004092844210000072
本实施例中,得到词头集合的方法具体为:首先将目标句子词嵌入(即目标句子的各词的嵌入)通过线性映射层,得到未归一化的对数概率;然后将未归一化的对数概率进行softmax函数归一化处理,得到各词预测为实体开端的概率分布;最后选取作为实体开端的概率大于0.5的词为可能作为开端的词集合,即为词头集合。
本实施例中,得到词尾集合的方法具体为:首先将目标句子词嵌入(目标句子的各词的嵌入)通过线性映射层,得到未归一化的对数概率;然后将未归一化的对数概率进行softmax函数归一化处理,得到各词预测为实体结尾的概率分布;最后选取作为实体结尾的概率大于0.5的词为可能作为结尾的词集合,即为词尾集合。
具体地,因为一个句子中都能存在多个命名实体,所以每个单词都有可能是命名实体的开头,同样也都有可能是命名实体的结尾。因此在计算在预测命名实体的过程中,我们分别预测每个单词作为命名实体开端的概率分布Pstart,以及作为实体结尾的概率分布Pend。Pstart和Pend的计算过程如下:
Figure BDA0004092844210000073
Figure BDA0004092844210000074
上述公式中,Tstart,
Figure BDA0004092844210000075
是在训练过程中需要学习的参数。以Pstart为例,为了得到每个单词是命名实体开头的概率分布,赋予每个单词一个二元数组表示未归一化的对数概率分布,之后通过softmax函数进行归一化,输出代表了每个单词作为命名实体开头的概率分布,如/>
Figure BDA0004092844210000076
是一个二元数组,表示的是第i个单词作为实体开端的概率分布,该二元数组中第一个元素代表的是作为开端的概率,第二个元素代表的是不是作为开端的概率。Pend的计算过程也是同上。
接下来获取作为开端的候选词的坐标集合Ss,以及作为结尾的候选词的坐标集合Se。获取Pstart中预测为开端概率大于0.5的词的坐标集合Ss,同样的,将Pend中预测为结尾概率大于0.5的词的坐标集合定义为Se
本实施例中,将词头集合和词尾集合中的词进行匹配的方法具体为:首先将词头集合中候选开端的词和词尾集合中候选结尾的词的嵌入表示进行结合;然后将结合后的词嵌入通过线性映射层,得到未归一化的对数概率;最后将未归一化的对数概率进行softmax函数归一化处理,得到对应的预测匹配概率分布。
具体地,由于考虑命名实体之间可能存在嵌套的情况,无法直接通过就近原则来匹配开头坐标和结尾坐标。因此需要将候选的开端集合Ss中的坐标和候选的结尾集合Se中的坐标进行匹配。将候选开端词的嵌入和候选结尾词的嵌入进行拼接,将拼接得到的嵌入表示用于计算匹配的概率。
对于候选开端词的坐标istart∈Ss,候选结尾词的坐标iend∈Se,我们有匹配概率:
Figure BDA0004092844210000081
其中,
Figure BDA0004092844210000082
是需要学习的权重;sigmod(·)表示逻辑斯蒂函数;/>
Figure BDA0004092844210000083
表示候选开端词的嵌入表示;/>
Figure BDA0004092844210000084
表示候选结尾词的嵌入表示。
本实施例中,实体抽取任务的损失函数由三部分组成,分别是实体开端坐标预测的损失函数
Figure BDA0004092844210000085
实体结尾坐标预测的损失函数/>
Figure BDA0004092844210000086
以及开端坐标和结尾坐标匹配的损失函数/>
Figure BDA0004092844210000087
具体地,将开端的预测分布和实际分布之间的交叉熵作为开端坐标预测的损失函数
Figure BDA0004092844210000088
将结尾的预测分布和实际分布之间的交叉熵作为结尾坐标预测的损失函数/>
Figure BDA0004092844210000089
将预测匹配概率分布和实际分布的交叉熵作为开端坐标和结尾坐标匹配的损失函数
Figure BDA00040928442100000810
另外,用R表示真实数据的分布,相对应地,则有:
Figure BDA00040928442100000811
Figure BDA00040928442100000812
Figure BDA00040928442100000813
其中,
Figure BDA00040928442100000814
代表的是交叉熵,/>
Figure BDA00040928442100000815
代表的是不同的开端坐标和不同的结尾坐标之间的匹配概率。
(5)根据步骤(4)中匹配后的结果完成实体抽取。
本实施例中,BERT模型需要执行句子分类以及实体抽取这两个任务,且需要协同进行,相应地,句子分类模块和实体抽取模块需要共同训练,因此需要将句子分类任务的损失函数和实体抽取的损失函数相结合,即可获取最终的损失函数。
具体地,基于步骤(4)中匹配后的结果生成开端坐标预测的损失函数、结尾坐标预测的损失函数、开端坐标和结尾坐标匹配的损失函数,同时结合句子类型预测的损失函数,根据结合的损失函数对句子分类模块和实体抽取模块共同训练,根据训练完成的句子分类模块和实体抽取模块以完成实体抽取。
本实施例中,将句子分类模块和实体抽取模块的损失函数结合的方法具体为:将句子类型预测的损失函数
Figure BDA0004092844210000091
作为句子分类模块的损失函数;将开端坐标预测的损失函数
Figure BDA0004092844210000092
结尾坐标预测的损失函数/>
Figure BDA0004092844210000093
开端坐标和结尾坐标匹配的损失函数/>
Figure BDA0004092844210000094
作为实体抽取模块的损失函数;给每个损失函数赋予不同的权重,对其求和以获取最终的损失函数。
最终的损失函数的表达式为:
Figure BDA0004092844210000095
其中,α,β,γ,δ∈[0,1]是超参,代表了不同任务在整个训练过程中的权重。
通过上述步骤的实施,可以在数控机床设备维护文档中抽取出预先定义类型的实体类型。且由于句子分类模块的协同,将句子级别特征来辅助实体抽取,能够有效的提升实体抽取方法的有效性。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于MRC框架的实体抽取方法,其特征在于,包括以下步骤:
(1)根据设备维护手册获取目标句子,根据实体类型的定义生成相应的问题,将所述目标句子和所述问题进行拼接以获取语料;
(2)采用分词工具对所述步骤(1)获得的语料进行分词,并对分词后的语料进行编码,将编码后的语料输入BERT模型,以获取目标句子的词嵌入表示;
(3)根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征;
(4)将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中,以获取新的目标句子词嵌入;根据新的目标句子词嵌入预测可能作为开端的词,以获取词头集合;根据新的目标句子词嵌入预测可能作为结尾的词,以获取词尾集合;并将词头集合和词尾集合中的词进行匹配;
(5)根据所述步骤(4)中匹配后的结果完成实体抽取。
2.根据权利要求1所述的基于MRC框架的实体抽取方法,其特征在于,所述步骤(2)中,分词工具为WordpieceTokenizer;通过bert-embedding对分词后的语料进行编码。
3.根据权利要求1所述的基于MRC框架的实体抽取方法,其特征在于,所述步骤(3)中,根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征具体为:将所述步骤(2)获取的目标句子的词嵌入表示通过多头注意力机制层,并将多头注意力机制层的输出进行最大池化处理以获取目标句子嵌入,根据目标句子嵌入预测句子类型。
4.根据权利要求3所述的基于MRC框架的实体抽取方法,其特征在于,所述目标句子嵌入为句子级别特征。
5.根据权利要求3所述的基于MRC框架的实体抽取方法,其特征在于,所述根据目标句子嵌入预测句子类型具体为:将目标句子嵌入通过线性映射层以获取未归一化的对数概率;将该对数概率进行softmax函数归一化处理,以获取句子类型的预测分布,根据该预测分布预测句子类型;
根据所述预测分布和实际分布之间的交叉熵获取句子类型预测的损失函数
Figure FDA0004092844190000011
6.根据权利要求1所述的基于MRC框架的实体抽取方法,其特征在于,所述步骤(4)中,将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中的方法具体为:首先根据句子类型和实体类型同时出现的概率计算不同句子类型和实体类型之间的相关程度矩阵;然后将相关程度矩阵对应的值作为初始化权重;最后根据初始化权重将目标句子嵌入加到每个目标句子的词嵌入表示中。
7.根据权利要求1所述的基于MRC框架的实体抽取方法,其特征在于,所述步骤(4)中,所述获取词头集合的方法具体为:首先将目标句子词嵌入通过线性映射层,得到未归一化的对数概率;然后将未归一化的对数概率进行softmax函数归一化处理,得到各词预测为实体开端的概率分布;最后选取作为实体开端的概率大于0.5的词为可能作为开端的词集合,即为词头集合;
根据预测的所述实体开端的概率分布和实际分布之间的交叉熵获取开端坐标预测的损失函数
Figure FDA0004092844190000021
8.根据权利要求1所述的基于MRC框架的实体抽取方法,其特征在于,所述步骤(4)中,所述获取词尾集合的方法具体为:首先将目标句子词嵌入通过线性映射层,得到未归一化的对数概率;然后将未归一化的对数概率进行softmax函数归一化处理,得到各词预测为实体结尾的概率分布;最后选取作为实体结尾的概率大于0.5的词为可能作为结尾的词集合,即为词尾集合;
根据预测的所述实体结尾的概率分布和实际分布之间的交叉熵获取结尾坐标预测的损失函数
Figure FDA0004092844190000022
9.根据权利要求1所述的基于MRC框架的实体抽取方法,其特征在于,所述步骤(4)中,所述将词头集合和词尾集合中的词进行匹配的方法具体为:首先将词头集合中候选开端的词和词尾集合中候选结尾的词的嵌入表示进行结合;然后将结合后的词嵌入通过线性映射层,得到未归一化的对数概率;最后将未归一化的对数概率进行softmax函数归一化处理,得到对应的预测匹配概率分布;
根据所述预测匹配概率分布和实际分布的交叉熵获取开端坐标和结尾坐标匹配的损失函数
Figure FDA0004092844190000023
10.根据权利要求1所述的基于MRC框架的实体抽取方法,其特征在于,所述步骤(5)中,根据所述步骤(4)中匹配后的结果完成实体抽取具体为:基于所述步骤(4)中匹配后的结果生成开端坐标预测的损失函数
Figure FDA0004092844190000024
结尾坐标预测的损失函数/>
Figure FDA0004092844190000025
开端坐标和结尾坐标匹配的损失函数/>
Figure FDA0004092844190000026
同时结合句子类型预测的损失函数/>
Figure FDA0004092844190000027
给每个损失函数赋予不同的权重,对其求和以获取最终的损失函数,根据最终的损失函数进行训练,以完成实体抽取。
CN202310157203.0A 2023-02-23 2023-02-23 一种基于mrc框架的实体抽取方法 Pending CN116362247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310157203.0A CN116362247A (zh) 2023-02-23 2023-02-23 一种基于mrc框架的实体抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310157203.0A CN116362247A (zh) 2023-02-23 2023-02-23 一种基于mrc框架的实体抽取方法

Publications (1)

Publication Number Publication Date
CN116362247A true CN116362247A (zh) 2023-06-30

Family

ID=86932212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310157203.0A Pending CN116362247A (zh) 2023-02-23 2023-02-23 一种基于mrc框架的实体抽取方法

Country Status (1)

Country Link
CN (1) CN116362247A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210357588A1 (en) * 2020-05-15 2021-11-18 Robert Bosch Gmbh Device and method for determining at least one part of a knowledge graph

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210357588A1 (en) * 2020-05-15 2021-11-18 Robert Bosch Gmbh Device and method for determining at least one part of a knowledge graph
US11947910B2 (en) * 2020-05-15 2024-04-02 Robert Bosch Gmbh Device and method for determining at least one part of a knowledge graph

Similar Documents

Publication Publication Date Title
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN112101028B (zh) 一种多特征双向门控领域专家实体抽取方法及系统
CN110929149B (zh) 一种工业设备故障维修推荐方法和系统
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN110489750A (zh) 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN111553159B (zh) 一种问句生成方法及系统
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN112541600A (zh) 一种基于知识图谱的辅助维修决策方法
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN116362247A (zh) 一种基于mrc框架的实体抽取方法
CN109858550B (zh) 潜在工艺失效模式机器识别方法
CN114356924A (zh) 用于从结构化文档提取数据的方法和设备
CN112347780B (zh) 基于深度神经网络的司法事实查明生成方法、装置、介质
CN115860002B (zh) 一种基于事件抽取的作战任务生成方法及系统
CN116975161A (zh) 电力设备局放文本的实体关系联合抽取方法、设备、介质
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination