CN116306657B - 基于方阵标注和双仿射层注意力的实体抽取方法及系统 - Google Patents
基于方阵标注和双仿射层注意力的实体抽取方法及系统 Download PDFInfo
- Publication number
- CN116306657B CN116306657B CN202310565366.2A CN202310565366A CN116306657B CN 116306657 B CN116306657 B CN 116306657B CN 202310565366 A CN202310565366 A CN 202310565366A CN 116306657 B CN116306657 B CN 116306657B
- Authority
- CN
- China
- Prior art keywords
- text
- matrix
- entity
- corpus
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 112
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 title claims abstract description 41
- 238000002372 labelling Methods 0.000 title claims abstract description 34
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 47
- 238000000034 method Methods 0.000 claims description 36
- 230000009977 dual effect Effects 0.000 claims description 22
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000004821 distillation Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims 2
- 238000005406 washing Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 6
- 230000011218 segmentation Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 241000849798 Nita Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于方阵标注和双仿射层注意力的实体抽取方法及系统。本发明由文本数据库模块、文本预处理模块、文本建模模块、输出模块四个部分组成。该系统是首次将图像语义分割的思想融入文本实体抽取的任务中,将传统的序列标注任务转变成方阵标注任务,并使用双仿射层注意力机制将序列表示的语义向量转化为长宽均为文本序列长度的方阵,缓解了中文文本实体识别任务中实体边缘检测难,检测精度低的问题。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于方阵标注和双仿射层注意力的实体抽取系统。
背景技术
命名实体识别是自然语言处理中的一项重要任务,它是对无结构化的文本数据进行结构化分析的基础手段,目的是识别出文本中存在的人名、地名、机构名、时间、日期、货币等,各类实体是许多自然语言处理下游任务的基础,例如关系抽取、实体链接、知识图谱等。
当前,实体抽取主要采用序列标注的方法,使得某个字符的错误预测被放大,直接导致某个实体的错误预测,例如文本“尼M尔河流经尼M尔和尼M尼亚”中“尼M尔河”的某个字符预测错误,则会使得整个实体被预测错误。且中文文本中实体常常不带有明显的边界信息,文本“尼M尔河流经尼M尔和尼M尼亚”中“尼M尔河”就存在被预测成“尼M尔河流”的可能性。
因此,关于实体边缘的准确检测及模型对预测字符的自我纠正能力的技术问题是亟需解决的。
发明内容
针对现有技术的不足,本发明公开一种基于方阵标注和双仿射层注意力的实体抽取系统。本发明由文本数据库模块、文本预处理模块、文本建模模块、输出模块四个部分组成。本发明的方法首次将图像语义分割的思想融入文本实体抽取的任务中,将传统的序列标注任务转变成方阵标注任务,并使用双仿射层注意力机制将序列表示的语义向量转化为长宽均为文本序列长度的方阵,缓解了中文文本实体识别任务中实体边缘检测难,检测精度低的问题。
本发明的目的是通过以下技术方案来实现的:本发明地第一方面提供一种基于方阵标注和双仿射层注意力的实体抽取方法,包括如下步骤:
(1)获取大量文本语料并存储至文本数据库中;
(2)清洗文本数据库中的文本语料,并根据文本的标签进行方阵标注;所述清洗文本数
据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作;
(3)构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练,
并根据训练好的模型去抽取文本中存在的实体;
(4)最终输出识别的实体。
进一步地,所述根据文本的标签进行方阵标注的具体包括如下子步骤:
(2.1)将语料库中的文本语料按照字符进行切分,形成每个文本的字符序列表示和每个文本的字符序列表示长度/>;并统计每个文本标签中的实体在文本中对应的起始和结束位置;
(2.2)将文本语料里的实体类型数字化,并建立每个标签中的实体与对应实体类型的数值的字典,例如/>表示实体/>的类别为地点名,而地点名的实体类型用数字2表示;
(2.3)建立一个长和宽均为的空标签方阵/>,将方阵中第/>到/>行且位于第/>到/>列的子方阵中的值设为/>中键值为/>对应的值,即使用/>的值填充/>,标签方阵/>中其他位置使用0值填充。
进一步地,所述文本建模模块构建基于预训练模型和双仿射层注意力机制的实体抽取模型的具体包括如下子步骤:
(3.1)将输入文本的字符序列表示进行文本向量化得到;使用预训练模型构建文本的语义编码器,即/>;
(3.2)使用双仿射层注意力机制模型去交互不同层面的文本语义信息,具体是使用两个全连接层构建双仿射层,即、/>,使用注意力机制交互双仿射层拟合的信息得到文本的方阵得分矩阵/>,即/>;式中,/>和/>的维度为/>,/>和/>的维度为/>,/>的维度是/>,/>的维度是/>,/>、/>和/>是偏置,/>表示文本的词嵌入维度,/>是实体类别的数量加1。
所述使用预训练模型构建文本的语义编码器,其预训练模型采用RoBERTa-Base模型,并以RoBERTa-Large模型和RoBERTa-Base模型的蒸馏模型rbt3为备用。
进一步地,所述文本建模模块进行训练的具体包括如下子步骤:
(4.1)将文本数据库中的有标签语料划分为训练集和评估集/>;
(4.2)将中的语料按批次/>输入构建的实体抽取模型/>,得到文本/>的方阵得分矩阵/>;将文本/>的方阵得分矩阵/>和标签方阵打平,即将方阵得分矩阵/>的维度从三维/>变换为二维,将二维标签方阵/>打平成一维向量;
(4.3)将打平后方阵得分矩阵和标签方阵/>输入交叉熵损失函数计算模型的损失值并进行反馈优化,即;
(4.4)当训练集每一轮训练结束后,将评估集中的语料按批次输入实体抽取模型/>,并统计每一轮训练结束后评估集在当前模型上的F1值,所述F1值的标准计算公式为F1=(2×Precision×Recall)/(Precision+Recall), Precision为精确率,表示预测为正确的样本中,真正对的样本所占的比例,Recall为召回率,表示真正正确的样本中,预测对的样本所占的比例;若F1值在连续五轮的训练中未超过设定的最大值/>,则停止训练;若超过设定的最大值/>,则将当前的F1值赋予设定的最大值/>。
进一步地,所述将评估集中的语料按批次输入实体抽取模型/>,并统计每一轮训练结束后评估集在当前模型上的F1值,具体包括如下步骤:
(5.1)将将评估集中的语料/>按批次输入实体抽取模型/>,所述的下标m表示评估集中的第m条语料,得到语料/>的方阵得分矩阵/>,即;
(5.2)由语料的得分矩阵/>查询语料/>中每个实体的起始位置/>和结束位置/>,所述/>下标n表示语料/>的第n个实体;从位置0到位置/>遍历实体的起始位置/>,从位置/>到位置1遍历实体的结束位置/>,若同时存在位置/>和位置/>,使得方阵得分矩阵/>中的第/>行的第/>列到第/>列与第/>列中的第/>行第/>行中所有向量和预测的结果为实体/>,即,式中/>表述出现次数最多的值;且方阵得分矩阵/>中的第/>行的第/>列到第/>列与第/>列中的第/>行第/>行中所有向量和预测的结果也为实体n,即;
(5.3)通过起始位置和结束位置/>预测中语料m中的实体/>;循环查找,直至遍历出文本中所有实体的起始位置和结束位置,并预测出起始位置和结束位置对应的实体;并计算预测实体与实际实体的F1值。
具体地,所述根据训练好的模型去抽取文本中存在的实体即为预测评估清洗后的文本语料中实体的流程。
本发明第二方面:一种基于方阵标注和双仿射层注意力的实体抽取系统,包括文本数据库模块、文本预处理模块、文本建模模块、输出模块;
文本数据库模块:获取大量文本语料并存储至文本数据库中;
文本预处理模块:清洗文本数据库中的文本语料,并根据文本的标签进行方阵标注;所
述清洗文本数据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作;
文本建模模块:构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练,
并根据训练好的模型去抽取文本中存在的实体;
输出模块:输出识别的实体。
第三方面本发明提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现所述的基于预训练模型和双仿射层注意力机制的实体抽取方法的步骤。
第四方面本发明提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现所述的基于预训练模型和双仿射层注意力机制的实体抽取方法的步骤。
本发明的有益效果如下:
1、本发明提出的方法创新性的将图像语义分割的思想融入到实体识别的任务中,有效缓解了中文文本中实体的边界常常难以被准确预测的难题,提高了实体识别的精度;
2、本发明提出的方法能够使用预测字符周围字符的预测结果验证该字符是否预测正确,提高了实体检测的精度。
附图说明
图1为本发明的功能模块图;
图2为本发明的文本数据标签编码后的标签矩阵示意图;
图3为本发明中模型的构建和训练方式示意图;
图4为本发明根据得分矩阵抽取文本中实体的示意图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
下面根据附图进一步对本发明进行说明:
参考图1,一种基于方阵标注和双仿射层注意力的实体抽取系统,其为基于方阵标注和双仿射层注意力机制的实体抽取系统的功能模块图,文本数据库模块、文本预处理模块、文本建模模块以及输出模块依次相连;
所述文本数据库模块获取大量的财经、行业、时政等相关的文本语料并存储;
所述文本预处理模块清洗文本数据库中的文本语料,具体是依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作;并根据文本的标签进行方阵标注;
所述文本建模模块构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练,并根据训练好的模型去抽取文本中存在的实体;
所述输出模块输出识别的实体;
参考图2,基于方阵标注和双仿射层注意力机制的实体抽取系统中文本数据标签的编码格式,以短文本“3月初,三A股份被罚”为例,具体包含以下内容:
将语料库中的文本语料按照字符进行切分,形成每个文本的字符序列表示和每个文本的字符序列表示长度/>,示例文本切分后形成的字符序列表示:/>,示例文本的文本长度为10;
统计每个文本标签中的实体在文本中对应的起始和结束位置,示例文本中每个实体在文本中对应的起始和结束位置字典为:{‘一月’: [0,1], ‘三A股份’:[4,7]};将文本语料里的实体类型数字化,并建立每个标签中的实体与对应实体类型的数值的字典,例如/>表示实体/>的类别为地点名,而地点名的实体类型用数字2表示,示例文本中实体与对应实体类型的数值的字典为:{‘一月’: 3, ‘三A股份’:6};建立一个长和宽均为/>的空标签方阵/>,将方阵中第/>到行且位于第/>到/>列的子方阵中的值设为/>中键值为/>对应的值,即使用的值填充/>,标签方阵/>中其他位置使用0值填充,示例文本的标签方阵如图2所示,字符“三”、“月”的字符均属于“三月”这个时间实体,且“三”、“月”分别位于文本序列表示的第一个、第二个位置,则标签矩阵中位于0~1行且0~1列位置使用时间实体的类别3进行标注,即图三中颜色较深的浅灰色部分。字符“三”、“A”、“股”、“份”属于公司名实体“三A股份”,且字符“三”、“A”、“股”、“份”位于文本序列表示的第4~7的位置,则标签矩阵中位于4~7行且4~7列位置使用公司名实体的类别6进行标注,即图2中深灰色部分。其他位置使用字符0标记,即标签矩阵的浅灰色部分。
参考图3,基于方阵标注和双仿射层注意力机制的实体抽取系统中模型的构建和训练方式示意图,具体包含以下内容:
将输入文本的字符序列表示进行文本向量化得到;使用预训练模型构建文本语义编码器,即/>;所述使用预训练模型构建文本的语义编码器中的预训练模型采用RoBERTa-Base模型,并以RoBERTa-Large模型为备用,以面对更高准确率、低推断速度的应用需求,以rbt3模型(RoBERTa-Base模型的蒸馏模型)为备用,以面对较低准确率,高推断速度的应用需求。
使用双仿射层注意力机制模型去交互不同层面的文本语义信息,具体是使用两个全连接层构建双仿射层,即、/>,使用注意力机制交互双仿射层拟合的信息得到文本的方阵得分矩阵/>,即/>;式中/>,/>和/>的维度为/>,/>和/>的维度为/>,/>的维度是/>,/>的维度是,/>、/>和/>是偏置,/>表示文本的词嵌入维度,/>是实体类别的数量加1。
所述文本建模模块进行训练的具体步骤包括:将文本数据库中的有标签语料划分为训练集和评估集/>;将/>中的语料按批次/>输入所构建的实体抽取模型/>,得到文本/>的方阵得分矩阵/>;将文本/>的方阵得分矩阵和标签方阵/>打平,即将方阵得分矩阵/>的维度从三维/>变换为二维/>,将二维标签方阵/>打平成一维向量;将打平后方阵得分矩阵/>和标签方阵/>输入交叉熵损失函数/>计算模型的损失值并进行反馈优化,即/>;当训练集每一轮训练结束后,将评估集中的语料按批次输入实体抽取模型/>,并统计每一轮训练结束后评估集在当前模型上的F1值,若F1值在连续五轮的训练中没有超过设定的最大值/>,则停止训练,若超过设定的最大值/>,则将当前的F1值赋予设定的最大值/>。
参考图4,基于方阵标注和双仿射层注意力机制的实体抽取系统中根据得分矩阵抽取文本中实体的示意图,具体包含以下内容:
将所述评估集中的语料按批次输入实体抽取模型/>,并统计每一轮训练结束后评估集在当前模型上的F1值,具体步骤包括:将将评估集/>中的语料/>按批次输入实体抽取模型/>(下标m表示评估集中的第m条语料),得到语料/>的方阵得分矩阵/>,即/>;并由语料/>的得分矩阵/>查询语料/>中每个实体的起始位置/>和结束位置/>(下表n表示语料/>的第n个实体);从位置0到位置/>遍历实体的起始位置/>,从位置/>到位置1遍历实体的结束位置/>,若同时存在位置/>和位置/>,使得方阵得分矩阵/>中的第/>行的第/>列到第/>列与第/>列中的第/>行第行中所有向量和预测的结果为实体/>,即,式中/>表述出现次数最多的值;且方阵得分矩阵/>中的第/>行的第/>列到第/>列与第/>列中的第/>行第/>行中所有向量和预测的结果也为实体n,即;则通过起始位置/>和结束位置预测中语料m中的实体/>;循环查找,直至遍历出文本中所有实体的起始位置和结束位置,预测出起始位置和结束位置对应的实体;并计算预测实体与实际实体的F1值;
示例文本的预测方阵得分矩阵如图4所示,第1行第7列位置处的结果被错误预测为3完全不影响该位置处字符的预测结果,因为方阵中实体的结果应预测在左上到右下的对角线上,而第4行第5列的值被错误的预测成0,因,该位置的预测结果被纠正为6,则完全不影响实体“三A股份”最终的预测结果。同理第6行第8列的值被错误的预测成6,因,该位置的预测结果被纠正为0,也完全不影响实体“三圣股份”最终的预测结果;
在Resume数据集上进行试验,基于方阵标注和双仿射层注意力机制的实体抽取系统的方法能达到F1=0.9596,已超过使用序列标注方法的F1=0.9376。
以上所述实施例表达了本发明的具体实施方式,其描述较为具体和详细,旨在用于帮助理解本发明的方法及其核心思想,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于方阵标注和双仿射层注意力的实体抽取方法,其特征在于,包括如下步骤:
(1)获取大量文本语料并存储至文本数据库中;
(2)清洗文本数据库中的文本语料,并根据文本的标签进行方阵标注得到标签方阵;所述清洗文本数据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作;所述根据文本的标签进行方阵标注的具体包括如下子步骤:
(2.1)将语料库中的文本语料按照字符进行切分,形成每个文本的字符序列表示Ti=[ti1,ti2,ti3,...]和每个文本的字符序列表示长度Leni;并统计每个文本标签中的实体在文本中对应的起始和结束位置En2SEi={eni1:[si1,ei1],eni2:[si2,ei2],eni3:[si3,ei3],...enij:[sij,eij],...};
(2.2)将文本语料里的实体类型数字化,并建立每个标签中的实体与对应实体类型的数值的字典En2numi={eni1:2,eni2:1,eni3:2,...enij:7,...},其中{eni1:2}表示实体eni1的类别为地点名,而地点名的实体类型用数字2表示;
(2.3)建立一个长和宽均为Leni的空标签方阵Matrixi,将方阵中第sij到eij行且位于第sij到eij列的子方阵中的值设为En2numi中键值为enij对应的值,即使用En2numi[enij]的值填充Matrixi[sij:eij,sij:eij],标签方阵Matrixi中其他位置使用0值填充;
(3)构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练,并根据训练好的模型去抽取文本中存在的实体;所述训练具体包括如下子步骤:
(4.1)将文本数据库中的有标签语料划分为训练集Strain和评估集Sdev;
(4.2)将Strain=[T1,T2,T3,...Ti,...]中的语料按批次Ti输入构建的实体抽取模型Model,Ti表示Strain=[T1,T2,T3,...Ti,...]里面的一个语料,得到文本i的方阵得分矩阵scorei=Model(Ti);将文本i的方阵得分矩阵scorei和标签方阵Matrixi打平,即将方阵得分矩阵scorei的维度从三维Leni×Leni×(c+1)变换为二维Leni×(Leni×c+Leni),将二维标签方阵Matrixi打平成一维向量;
(4.3)将打平后方阵得分矩阵scorei和标签方阵Matrixi输入交叉熵损失函数Crossentropy计算模型的损失值并进行反馈优化,即lossi=CrossentropyLoss(scorei,Matrixi);
(4.4)当训练集每一轮训练结束后,将评估集Sdev中的语料按批次输入实体抽取模型Model,并统计每一轮训练结束后评估集在当前模型上的F1值,所述F1值的标准计算公式为F1=(2×Precision×Recall)/(Precision+Recall),Precision为精确率,表示预测为正确的样本中,真正对的样本所占的比例,Recall为召回率,表示真正正确的样本中,预测对的样本所占的比例;若F1值在连续五轮的训练中未超过设定的最大值F1max,则停止训练;若超过设定的最大值F1max,则将当前的F1值赋予设定的最大值F1max;
(4)最终输出识别的实体。
2.根据权利要求1所述的一种基于方阵标注和双仿射层注意力的实体抽取方法,其特征在于,所述构建基于预训练模型和双仿射层注意力机制的实体抽取模型具体包括如下子步骤:
(3.1)将输入文本的字符序列表示Ti=[ti1,ti2,ti3,...]进行文本向量化得到Xi=[xi1,xi2,xi3,...];使用预训练模型构建文本的语义编码器,即Xi,embed=encoder(Xi);
(3.2)使用双仿射层注意力机制模型去交互不同层面的文本语义信息,具体是使用两个全连接层构建双仿射层,即h1i=W1(Xi,embed)+b1、h2i=W2(Xi,embed)+b2,使用注意力机制交互双仿射层拟合的信息得到文本的方阵得分矩阵scorei,即式中h1i,h2i和Xi,embed的维度为Leni×d,W1和W2的维度为d×d,Um的维度是d×c×d,scorei的维度是Leni×Leni×(c+1),b1、b2和bm是偏置,d表示文本的词嵌入维度,c是实体类别的数量加1。
3.根据权利要求2所述的一种基于方阵标注和双仿射层注意力的实体抽取方法,其特征在于,所述使用预训练模型构建文本的语义编码器,其预训练模型采用RoBERTa-Base模型,并以RoBERTa-Large模型和RoBERTa-Base模型的蒸馏模型rbt3为备用。
4.根据权利要求1所述的一种基于方阵标注和双仿射层注意力的实体抽取方法,其特征在于,所述将评估集Sdev中的语料按批次输入实体抽取模型Model,并统计每一轮训练结束后评估集在当前模型上的F1值,具体包括如下步骤:
(5.1)将将评估集Sdev中的语料Tm∈Sdev按批次输入实体抽取模型Model,所述Tm的下标m表示评估集中的第m条语料,得到语料Tm的方阵得分矩阵scorem,即scorem=Model(Tm);
(5.2)由语料Tm的得分矩阵scorem查询语料Tm中每个实体的起始位置smn和结束位置emn,所述smn下标n表示语料Tm的第n个实体;从位置0到位置Lenm-1遍历实体的起始位置smn,从位置Lenm到位置1遍历实体的结束位置emn,若同时存在位置smn和位置emn,使得方阵得分矩阵scorem中的第smn行的第smn列到第emn列与第smn列中的第smn行到第emn行中所有向量和预测的结果为实体enmn,即max_cound(scorem[smn,smn;emn],scorem[smn:emn,Smn])→enmn,式中max_count表述出现次数最多的值;且方阵得分矩阵scorem中的第emn行的第smn列到第emn列与第emn列中的第smn行到第emn行中所有向量和预测的结果也为实体enmn,即max_cound(scorem[smn,smn;emn],scorem[smn:emn,emn])→enmn;
(5.3)通过起始位置smn和结束位置emn预测中语料m中的实体enmn;循环查找,直至遍历出文本中所有实体的起始位置和结束位置,并预测出起始位置和结束位置对应的实体;并计算预测实体与实际实体的F1值。
5.根据权利要求1所述的一种基于方阵标注和双仿射层注意力的实体抽取方法,其特征在于,所述根据训练好的模型去抽取文本中存在的实体即为预测评估集语料中实体的流程。
6.一种基于方阵标注和双仿射层注意力的实体抽取系统,其特征在于,包括文本数据库模块、文本预处理模块、文本建模模块、输出模块;
文本数据库模块:获取大量文本语料并存储至文本数据库中;
文本预处理模块:清洗文本数据库中的文本语料,并根据文本的标签进行方阵标注;所述清洗文本数据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作;所述根据文本的标签进行方阵标注的具体包括如下子步骤:
(2.1)将语料库中的文本语料按照字符进行切分,形成每个文本的字符序列表示Ti=[ti1,ti2,ti3,...]和每个文本的字符序列表示长度Leni;并统计每个文本标签中的实体在文本中对应的起始和结束位置En2SEi={eni1:[si1,ei1],eni2:[si2,ei2],eni3:[si3,ei3],...enij:[sij,eij],...};
(2.2)将文本语料里的实体类型数字化,并建立每个标签中的实体与对应实体类型的数值的字典En2numi={eni1:2,eni2:1,eni3:2,...enij:7,...},其中{eni1:2}表示实体eni1的类别为地点名,而地点名的实体类型用数字2表示;
(2.3)建立一个长和宽均为Leni的空标签方阵Matrixi,将方阵中第sij到eij行且位于第sij到eij列的子方阵中的值设为En2numi中键值为enij对应的值,即使用En2numi[enij]的值填充Matrixi[sij:eij,sij:eij],标签方阵Matrixi中其他位置使用0值填充;
文本建模模块:构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练,
并根据训练好的模型去抽取文本中存在的实体;所述训练具体包括如下子步骤:
(4.1)将文本数据库中的有标签语料划分为训练集Strain和评估集Sdev;
(4.2)将Strain=[T1,T2,T3,...Ti,...]中的语料按批次Ti输入构建的实体抽取模型Model,Ti表示Strain=[T1,T2,T3,...Ti,...]里面的一个语料,得到文本i的方阵得分矩阵scorei=Model(Ti);将文本i的方阵得分矩阵scorei和标签方阵Matrixi打平,即将方阵得分矩阵scorei的维度从三维Leni×Leni×(c+1)变换为二维Leni×(Leni×c+Leni),将二维标签方阵Matrixi打平成一维向量;
(4.3)将打平后方阵得分矩阵scorei和标签方阵Matrixi输入交叉熵损失函数Crossentropy计算模型的损失值并进行反馈优化,即lossi=CrossentropyLoss(scorei,Matrixi);
(4.4)当训练集每一轮训练结束后,将评估集Sdev中的语料按批次输入实体抽取模型Model,并统计每一轮训练结束后评估集在当前模型上的F1值,所述F1值的标准计算公式为F1=(2×Precision×Recall)/(Precision+Recall),Precision为精确率,表示预测为正确的样本中,真正对的样本所占的比例,Recall为召回率,表示真正正确的样本中,预测对的样本所占的比例;若F1值在连续五轮的训练中未超过设定的最大值F1max,则停止训练;若超过设定的最大值F1max,则将当前的F1值赋予设定的最大值F1max;
输出模块:输出识别的实体。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的一种基于方阵标注和双仿射层注意力的实体抽取方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的一种基于方阵标注和双仿射层注意力的实体抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310565366.2A CN116306657B (zh) | 2023-05-19 | 2023-05-19 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310565366.2A CN116306657B (zh) | 2023-05-19 | 2023-05-19 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116306657A CN116306657A (zh) | 2023-06-23 |
CN116306657B true CN116306657B (zh) | 2023-08-22 |
Family
ID=86794532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310565366.2A Active CN116306657B (zh) | 2023-05-19 | 2023-05-19 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306657B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN111160035A (zh) * | 2019-12-31 | 2020-05-15 | 北京明朝万达科技股份有限公司 | 文本语料的处理方法和装置 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN112989835A (zh) * | 2021-04-21 | 2021-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
CN113836929A (zh) * | 2021-09-28 | 2021-12-24 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及存储介质 |
CN114398871A (zh) * | 2022-02-23 | 2022-04-26 | 招商银行股份有限公司 | 金融实体抽取方法、装置、设备与计算机可读存储介质 |
CN115357699A (zh) * | 2022-08-17 | 2022-11-18 | 招商银行股份有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN115392252A (zh) * | 2022-09-01 | 2022-11-25 | 广东工业大学 | 一种融合自注意力与层级残差记忆网络的实体识别方法 |
CN115470354A (zh) * | 2022-11-03 | 2022-12-13 | 杭州实在智能科技有限公司 | 基于多标签分类识别嵌套和重叠风险点的方法及系统 |
CN115809666A (zh) * | 2022-12-05 | 2023-03-17 | 杭州电子科技大学 | 一种融合词典信息和注意力机制的命名实体识别方法 |
CN115983271A (zh) * | 2022-12-12 | 2023-04-18 | 北京百度网讯科技有限公司 | 命名实体的识别方法和命名实体识别模型的训练方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215223B (zh) * | 2020-10-16 | 2024-03-19 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
-
2023
- 2023-05-19 CN CN202310565366.2A patent/CN116306657B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN111160035A (zh) * | 2019-12-31 | 2020-05-15 | 北京明朝万达科技股份有限公司 | 文本语料的处理方法和装置 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN112989835A (zh) * | 2021-04-21 | 2021-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
CN113836929A (zh) * | 2021-09-28 | 2021-12-24 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及存储介质 |
CN114398871A (zh) * | 2022-02-23 | 2022-04-26 | 招商银行股份有限公司 | 金融实体抽取方法、装置、设备与计算机可读存储介质 |
CN115357699A (zh) * | 2022-08-17 | 2022-11-18 | 招商银行股份有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN115392252A (zh) * | 2022-09-01 | 2022-11-25 | 广东工业大学 | 一种融合自注意力与层级残差记忆网络的实体识别方法 |
CN115470354A (zh) * | 2022-11-03 | 2022-12-13 | 杭州实在智能科技有限公司 | 基于多标签分类识别嵌套和重叠风险点的方法及系统 |
CN115809666A (zh) * | 2022-12-05 | 2023-03-17 | 杭州电子科技大学 | 一种融合词典信息和注意力机制的命名实体识别方法 |
CN115983271A (zh) * | 2022-12-12 | 2023-04-18 | 北京百度网讯科技有限公司 | 命名实体的识别方法和命名实体识别模型的训练方法 |
Non-Patent Citations (1)
Title |
---|
基于注意力机制的特征融合序列标注模型;王旭强;岳顺民;张亚行;刘杰;王扬;杨青;;山东科技大学学报(自然科学版)(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116306657A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lombardi et al. | Deep learning for historical document analysis and recognition—a survey | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN112836046A (zh) | 一种四险一金领域政策法规文本实体识别方法 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN113722490B (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN112749562A (zh) | 命名实体识别方法、装置、存储介质及电子设备 | |
CN114818708B (zh) | 关键信息抽取方法、模型训练方法、相关装置及电子设备 | |
CN113204967B (zh) | 简历命名实体识别方法及系统 | |
CN112269872B (zh) | 简历解析方法、装置、电子设备及计算机存储介质 | |
Shan et al. | Robust encoder-decoder learning framework towards offline handwritten mathematical expression recognition based on multi-scale deep neural network | |
CN112329767A (zh) | 基于联合预训练的合同文本图像关键信息提取系统和方法 | |
CN114880468A (zh) | 基于BiLSTM与知识图谱的建筑规范审查方法与系统 | |
CN112507190A (zh) | 一种财经快讯的关键词提取方法和系统 | |
CN113468887A (zh) | 基于边界与片段分类的学者信息关系抽取方法和系统 | |
CN111428480A (zh) | 简历识别方法、装置、设备及存储介质 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
CN115510864A (zh) | 一种融合领域词典的中文农作物病虫害命名实体识别方法 | |
CN112818117A (zh) | 标签映射方法、系统、计算机可读存储介质 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN111597302B (zh) | 文本事件的获取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |