CN114647715A - 一种基于预训练语言模型的实体识别方法 - Google Patents

一种基于预训练语言模型的实体识别方法 Download PDF

Info

Publication number
CN114647715A
CN114647715A CN202210361634.4A CN202210361634A CN114647715A CN 114647715 A CN114647715 A CN 114647715A CN 202210361634 A CN202210361634 A CN 202210361634A CN 114647715 A CN114647715 A CN 114647715A
Authority
CN
China
Prior art keywords
record
vector
character
attention
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210361634.4A
Other languages
English (en)
Inventor
戴国骏
蒋世豪
叶晨
张桦
吴以凡
支浩仕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210361634.4A priority Critical patent/CN114647715A/zh
Publication of CN114647715A publication Critical patent/CN114647715A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于预训练语言模型的实体识别方法。本发明涉及深度学习,自然语言处理任务中的预训练语言模型和数据集成领域中的实体识别子任务。本发明添加了对于实体识别任务本身独特需求的关注,具体是提出一个关注相似片段和数字信息片段的联合实体识别模型,通过一个感知相似片段的编码器和一个感知数字片段的编码器,可以有效处理预训练语言模型在小训练集上注意力分散的问题,从而使模型能够更好的处理实体识别任务。本发明能够在小训练集上较现有最新方法有显著的提升,目前大部分方法都需要大量的训练数据,这就意味着需要大量人工参与标注数据,本发明可以有效节省人工标注的成本。

Description

一种基于预训练语言模型的实体识别方法
技术领域
本发明涉及深度学习,自然语言处理任务中的预训练语言模型和数据集成领域中的实体识别子任务。添加了对于实体识别任务本身独特需求的关注,具体是提出一个关注相似片段和数字信息片段的联合实体识别模型,通过一个感知相似片段的编码器和一个感知数字片段的编码器,可以有效处理预训练语言模型在小训练集上注意力分散的问题,从而使模型能够更好的处理实体识别任务。
背景技术
实体识别(又称实体解析)任务,旨在识别两个记录是否引用了相同的世界真实实体。传统的实体识别方法主要关注结构化数据,这些数据大多是原子化也就是属性值较短的。近年来,由于大数据时代对于匹配文本化的实体数据的需求不断增加,例如匹配长文本的产品描述,对传统的实体识别方法提出了挑战。
在自然语言处理NLP领域的任务中,文本分类和相似性问题跟文本数据的问题息息相关。文本分类是针对不同场景(诸如情绪分析、主题检测、问答类型检测)预测给定文本的一个或多个类别标签的任务。近来,有些研究利用了一种基于transformer的BERT结构,在模型顶层设计一个线性分类器,从而可以处理诸如文本分类、语句问答等下游任务。
得益于预训练语言模型的研究发展和应用成熟,两种基于预训练语言模型的实体识别方法被提出,分别是DITTO方法和JointBERT方法,两者都被证明能够获得更好的表现结果。DITTO可以通过在预处理期间注入独特的标记来利用领域知识,JointBERT是一种基于预训练语言模型的双目标训练方法,能够在大量数据集下获得更加优秀的表现。
然而,这些方法比较直接地使用预训练的语言模型,并将实体识别和实体本身的特点割裂视为一个自然语言处理(Natural Language Processing,NLP)任务,不考虑实体识别任务的独特需求。DITTO的领域内先验知识并不总是可用且有效的,该缺点会导致整个模型的泛化能力较差;而JointBERT在训练集有限的情况下,返而会对原有的预训练语言模型造成负面影响,降低了模型的识别准确率。
因此,本发明拟针对深度学习模型中的注意力分散和小训练集下无法关注实体数据本身特点的问题,提出能够更加关注于相似片段和数字信息的实体识别方法。
发明内容
针对上述问题,本发明提出了一种不需要手动注入独特标记和先验知识的实体识别方法,增强了对文本数据中关键数字信息和相似片段的关注。
本发明解决其技术问题所采用的技术方案如下:
步骤1:数据预处理,根据基于文本相似度的处理方法预先生成所有的实体候选对,针对每个实体候选对(记录u,记录v),先将记录u和记录v的实体文本描述分别生成序列Ⅰ和生成序列Ⅱ,然后使用特殊标识符连接生成序列Ⅰ和生成序列Ⅱ,从而得到一个综合生成序列Ⅲ。
步骤2:使用预训练语言模型(Pre-trained Language Model)将预处理之后的生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ分别进行分词、提取单词嵌入向量特征,并根据不同的文本长度进行对齐,最后分别得到生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ对应的词向量Eu、词向量Ev和组合后的整个词向量Et
步骤3:提取后的词向量Eu、词向量Ev和词向量Et输入本发明的相似片段编码器,捕获每个实体候选对(记录u,记录v)两条记录之间相似的片段,增加重要片段的关注度。
输入:记录u和记录v经过预训练语言模型提取的词向量Eu和Ev,以及实体候选对(记录u,记录v)组合后的整个词向量Et
3-1.提取背景语义,将整个实体候选对(记录u,记录v)的词向量Et作为背景语义,这里选择Et[CLS]来表征整个背景语义,“[CLS]”的词向量汇总了词向量Et的所有token词向量。
3-2.背景语义融合,分别在两个记录的词向量Eu和词向量Ev上执行一个背景语义的融合算子,因为Et[CLS]包含了记录对的整体背景语义,采用该融合算子将有助于记录u和记录v之间的注意力交互。
3-3.两个记录之间的交互注意力,为了能够让记录u和记录v相互影响注意力,本发明同时提出一个记录v到记录u的注意力计算机制和一个记录u到记录v的注意力计算机制。结合整体背景语义表达,可以得到在整体背景语义下的包含相似片段感知的嵌入向量。
3-4.特征压缩与提取,采用卷积神经网络CNN进行特征压缩,输入经过交互注意力机制后的词向量
Figure BDA0003584007930000032
Figure BDA0003584007930000031
的拼接向量
Figure BDA0003584007930000033
将其进行卷积获得相似片段的信息。定义一个卷积矩阵
Figure BDA0003584007930000034
其中da是CNN的输出向量维度,l是卷积核大小,d是词向量维度。利用不同大小的卷积核进行卷积运算,进一步执行最大池化的操作以获取输出特征
Figure BDA0003584007930000035
步骤4:同时也利用数字信息片段编码器来编码预处理的输入,并根据预训练语言模型对数字本身的自注意力权重来筛选数字信息片段,给出经过数字编码器的向量。
输入:数字信息片段编码器的输入与上一个编码器稍微不同,只需要实体候选对(记录u,记录v)组合后的整个词向量Et
4-1.全部实体候选对编辑距离计算,首先计算每个实体候选对包含数字的字符子串的编辑距离(su,sv),其中su和sv分别是来自记录u和记录v的包含数字的字符子串。这样就可以从记录u和v中选择出相似的数字型号组合。
4-2.子串过滤,对包含子串关系的字符子串组合进行剔除,当一个字符子串su是另一个字符子串sv的子串,或一个字符子串sv是另一个字符子串su的子串时,应当将编辑距离改为0,这是因为两个字符子串可能以不同的格式描述相同的信息。
4-3.量化字符子串相似度,简单用编辑距离的长度无法描述所有的记录,因为不同实体文本描述其匹配的字符子串会各不相同,会根据字符子串数量和字符子串本身的长度而产生不同量级的结果。因此,单纯用编辑距离本身是没有办法量化这个标准,所以采用编辑距离比例(Levenshtein ratio)来描述差异,在计算完编辑距离的基础上添加一个比例。
4-4.其他距离度量,有一点需要关注,本发明主要的考量是在包含数字的片段中,其数值视作产品型号的字符子串,因为在实际应用中,比如产品ID等,数值型号类型的字符子串存在相当普遍。然而,包含数字的片段中,其数值类型也可以被视为数字本身的大小描述,此时的距离计算可以采用平方函数等其他度量。
4-5.重要字符子串选择,引入预训练语言模型的自注意力权重来过滤自注意力权重低于设定阈值的字符子串。
4-6.综合编辑距离分数计算,在获得所有重要的字符子串后,生成数字感知的词向量
Figure BDA0003584007930000044
Figure BDA0003584007930000045
以及它们各自的编辑距离分数
Figure BDA0003584007930000047
4-7.基于卷积神经网络CNN的特征提取,和上面的相似感知编码器中CNN模块类似,同样使用CNN来提取
Figure BDA0003584007930000041
的联合特征。首先执行不同长度的卷积运算,然后同样地通过最大池化操作来获得输出特征
Figure BDA0003584007930000042
步骤5:拼接相似片段编码器和数字片段编码器输出向量
Figure BDA0003584007930000046
Figure BDA0003584007930000043
将该联合特征向量通过一个线性层和一个softmax层输出分类概率。根据标签数据,计算损失函数,然后进行反向传播,不断微调和优化模型的参数,再次从步骤2得到新的模型输入,反复迭代,当损失函数收敛时停止训练。得到最终的语言模型和编码器参数。
本发明的有益效果如下:
针对现有研究多直接使用自然语言处理方法而忽视实体识别任务本身独特需求来解决文本数据实体识别任务的不足,提出了一种能够结合真实世界实体本身特征的实体识别方法。本发明包含一个相似片段编码器和数字片段编码器,能够有效处理文本数据在实体识别中受冗余字段干扰和对关键数字型号信息不敏感的问题。
其次,相较于采用命名实体识别、数据增强等技术手段,本发明不需要进行过多设计,也就是在不需要先验知识的情况下就能取得很好的识别精度提升。同时,本发明在时间效率上也有一定程度上的提升。
本发明能够在小训练集上较现有最新方法有显著的提升,目前大部分方法都需要大量的训练数据,这就意味着需要大量人工参与标注数据,本发明可以有效节省人工标注的成本。
附图说明
图1是本发明相似片段编码器的流程图;
图2是本发明数字信息片段编码器提取关键型号信息流程图;
图3是本发明方法整体实施流程图;
图4是本发明实施实例。
具体实施方式
下面结合附图和实例,对本发明的具体实施方案作进一步描述。
如图4所示,本文的数据输入是两个实体的文本描述,并添加特殊标识符处理成序列。整体流程如图3所示,输入分别经过一个相似片段编码器模块和一个数字片段编码器模块,最后组合两个编码器的输出给出分类结果。具体步骤如下:
步骤1:文本数据预处理
将大量需要识别的实体文本描述记录组成记录对,本发明采用分块方法生成候选对,降低识别搜索空间。
将文本数据拼接的公式如下:
serialize(u,v)::=[CLS]serizalize(u)[SEP]serialize(v)[SEP] (1)
其中,
serialize(x)::=[COL]attr1[VAL]val1…[COL]attrk[VAL]valk (2)
表示在一个文本数据中,有多种属性值来描述一个实体,使用“COL”来突出属性名,并在“VAL”后突出属性的值。serialize(x)表示单纯生成一个记录的生成序列,::=符号代表该序列化方法定义为右式,在图4中的一个记录经过生成后会得到“COL title VALMEMORYIA…”。attr1和val1分别表示记录的属性名和属性值输入,如图4,记录一般以二元组(attrk,valk)形式输入,k表示第k个二元组,一个二元组在记录u中分别是“title”和“MEMORIA…”。serialize(u,v)则是把两个记录的生成序列用特殊标识符“[CLS]”和“[SEP]”拼接,如图4,得到“[CLS]COLtitle VAL MEMORIA…[SEP]COL title VALCrucial…[SEP]”。
每一个记录u和记录v的原始输入通过序列化方法serialize得到各自记录的独立输入[CLS]serialize(u)[SEP]和[CLS]serialize(v)[SEP],由公式(1)得到,同时还需要给出记录u和v的联合输入,由公式(2)得到。其中,“[SEP]”、“[COL]”、“[VAL]”是保留输入结构的特殊标记。
步骤2:提取词向量
使用预训练语言模型BERT(Bidirectional Encoder Representations fromTransformers)将预处理之后的数据进行分词、提取单词嵌入向量特征,根据不同的文本长度进行对齐。这里在实际应用编码中,每个attri和vali都需要被token化,从而缓解训练时语料库不足的问题,例如记录u1中的“8GB”会被拆分成“8”和“#GB”,添加一个“#”符号表明其是前一个单词的部分。最后得到每条记录本身的向量Eu和Ev,记录对(u,v)组合后的整个词向量Et
步骤3:相似片段编码器再分配注意力
图1展示了相似片段编码器的流程。
输入:相似片段编码器的输入由三部分组成,记录u和记录v的经过预训练语言模型提取的词向量式Eu和Ev,以及实体候选对(记录u,记录v)组合后的整个词向量Et。lu和lv表示u和v的token序列化后的序列长度,d表示每个token词向量的维度。同样地,本文将记录u和v的联合表达标识为词向量Et,这里lt=lu+lv-1,保证输入的长度一致性。这样,模型就获得了三个输入词向量Et、Eu、Ev
3-1.提取背景语义,将整个实体候选对(记录u,记录v)本身的词向量Et作为背景语义进行注意力的交互,这里选择Et[CLS]来表征整个语义,“[CLS]”的表达向量汇总了Et词向量的所有token嵌入表达,采用BERT-base模型时,每个token的词向量维度是768,此处若输出整个背景语义的全部信息就是lt×768的维度,但该向量精确到每个token的特征,一方面不适合作为一个广泛的背景语义,另一方面考虑向量对齐,所以采用“CLS”汇总所有语义。
3-2.背景语义融合,分别在两个记录的词向量Eu和Ev上执行一个背景语义的融合算子,也就是
E′u=Eu+E′t[CLS] (3)
E′v=Ev+E′t[CLS] (4)
其中Et′[CLS]表示在一个维度上扩展Et[CLS]从而对齐Eu和Ev形状大小的向量。因为Et[CLS]包含了实体候选对(记录u,记录v)的整体背景语义,采用该融合算子将十分有助于记录u和v之间的注意力交互。
3-3.记录之间的交互注意力,为了能够让记录u和v相互影响注意力,本发明同时提出一个记录v到记录u的注意力计算机制和一个记录u到记录v的注意力计算机制。
对于记录v到记录u的注意力计算,考虑其注意力分布矩阵A:
A=B/repeat(Bj,lv)(5)
其中
Figure BDA0003584007930000071
Figure BDA0003584007930000072
repeat操作是将未归一化的注意力分布矩阵B的按列求和得到列总和Bj,并沿着第一维(行维度)进行向量扩展,方便后续矩阵运算。
接着将E′v和注意力分布矩阵A进行融合,并且将结果重新加回到Eu上去并且最终得到交互后的词向量Cu
Cu=Eu+ATE′v (6)
类似地,交互后的词向量Cv也可以通过同样u到v的交互注意力方式计算得到。最后分别融合Cu和Et,Cv和Et,得到在整体背景语义下的包含相似片段感知的嵌入向量。
Figure BDA0003584007930000073
Figure BDA0003584007930000074
由于需要进行拼接,这里说明下
Figure BDA0003584007930000075
的意义,Cu输出维度是lu×d,将其与lt×d的词向量Et拼接时,只需要拼接前lu长度d维向量,这里的1:lu代表取词向量第1列至第lu列所有的d维向量。需要注意的是,交互后的词向量Cu和Cv中“[CLS]”(在词向量中处于第一列)的token嵌入向量都会单独和Et中的token“[CLS]”相加,也就是
Figure BDA0003584007930000081
Figure BDA0003584007930000082
3-4.特征压缩与提取,采用卷积神经网络CNN进行特征压缩,输入
Figure BDA0003584007930000083
Figure BDA0003584007930000084
的拼接向量
Figure BDA0003584007930000085
将其进行卷积获得相似片段的信息。定义一个卷积矩阵
Figure BDA0003584007930000086
其中da是CNN的输出向量维度,卷积核大小l分别设置为3,4,5。利用不同大小的卷积核进行卷积运算,进一步执行最大池化的操作以获取输出特征
Figure BDA0003584007930000087
步骤4:数字信息片段编码器提取关键型号信息
如图2所示,数字信息片段编码器通过注意力权重和编辑距离获取关键数字信息。
输入:数字信息片段编码器的输入与上一个编码器稍微不同,只需要记录对(u,v)组合后的整个词向量Et
4-1.全部候选对编辑距离计算,本文首先计算每一对包含数字的字符子串候选对的编辑距离(su,sv),其中su和sv分别是来自记录u和记录v的包含数字的字符子串。这样就可以从文本记录u和v中选择出相似的数字型号组合。
具体地,下面给出如何计算两个字符子串su和sv的编辑距离:
Figure BDA0003584007930000088
这里的i和j分别代表su和sv的字符子串下标。在真实数据集上,不同型号的字符子串往往差距只在1-2个可替换的字母或者数字,比如“1060”和“1070”只相差“6”和“7”。为了体现出这种差距,本文在原来的编辑距离计算公式的基础上,将编辑操作中的“替换”的代价变为2,从而能够对这种微小的字符差异进行放大。
4-2.子串过滤,包含子串关系的字符子串组合进行剔除,当一个字符子串su是另一个字符子串sv的子串,或一个字符子串sv是另一个字符子串su的子串时,应当将编辑距离改为0,这是因为两个字符子串可能以不同的格式描述相同的信息,例如“1x8gb”和“8gb”都描述了一个规格的信息。
4-3.量化字符子串相似度,简单的用编辑距离的长度无法描述所有的记录,因为不同文本描述其匹配的子串对会各不相同,会根据子串对数量和子串本身的长度而产生不同量级的结果。因此,单纯用编辑距离本身是没有办法量化这个标准,所以采用编辑距离比例来描述差异,在计算完编辑距离的基础上添加一个比例,其计算公式如下:
Figure BDA0003584007930000091
其中lsum是su的加上sv的编辑距离长度,设定一个阈值当r(su,sv)≥0.5,则认为(su,sv)是相似的字符子串。
4-4.其他距离度量,有一点需要关注,本发明主要的考量是在包含数字的片段中,其数值视作产品型号的字符子串,因为在实际应用中,比如产品ID等,数值型号类型的字符子串存在相当普遍。然而,包含数字的片段中,其数值类型也可以被视为数字本身的大小描述,此时的距离计算可以采用平方函数等其他度量。
4-5.重要字符子串对选择,引入预训练语言模型的自注意力权重来过滤这些无关的字符子串对。具体来说,使用
Figure BDA0003584007930000092
Figure BDA0003584007930000093
来表示su和sv的自注意力权重。如果自注意力
Figure BDA0003584007930000094
或者
Figure BDA0003584007930000095
权重超过设定阈值1/lt,那么就可以将这一对字符子串视为蕴含重要信息的字符子串对,并在模型训练过程中添加额外的关注。
4-6.综合编辑距离分数计算,在获得所有重要的字符子串对之后,生成数字感知的表达向量
Figure BDA0003584007930000096
Figure BDA0003584007930000097
以及它们各自的编辑距离分数
Figure BDA0003584007930000098
也就是
Figure BDA0003584007930000099
Figure BDA00035840079300000910
会通过平均所有字符子串su和sv在u和v内的token嵌入表达向量得到,而编辑距离分数
Figure BDA00035840079300000911
则由如下公式计算得到:
Figure BDA00035840079300000912
其中,
Figure BDA00035840079300000913
表示字符子串对的集合,
Figure BDA00035840079300000914
代表字符子串对的数量。
4-7.基于卷积神经网络CNN的特征提取,和上面的相似感知编码器中CNN模块类似,同样使用CNN来提取
Figure BDA00035840079300000915
的联合特征。此处的卷积被定义成拼接向量
Figure BDA0003584007930000101
和矩阵
Figure BDA0003584007930000102
之间的操作,其中da是CNN的输出向量维度,并且卷积核的滑动窗口大小为1和2。首先执行不同卷积核的卷积运算,然后同样地通过最大池化操作来获得输出特征
Figure BDA0003584007930000103
步骤5:联合输出
如图3所示,拼接相似片段编码器和数字片段编码器输出向量
Figure BDA0003584007930000104
Figure BDA0003584007930000105
将该联合特征向量通过一个线性层和一个softmax层输出分类概率。根据标签数据,计算预测样本和真值样本之间的损失函数:
Figure BDA0003584007930000106
其中,y*表示训练数据中真实的结果,由0,1组成来表示匹配或不匹配;y表示本发明最后输出的0,1预测结果;N表示训练集数量,本发明每个batchsize为32,所以N为32。
然后进行反向传播,不断微调和优化模型的参数,再次从步骤2得到新的模型输入,反复迭代,当损失函数收敛时停止训练。得到最终的语言模型和编码器参数。

Claims (10)

1.一种基于预训练语言模型的实体识别方法,其特征在于包括如下步骤:
步骤1:数据预处理,根据基于文本相似度的处理方法预先生成所有的实体候选对,针对每个实体候选对(记录u,记录v),先将记录u和记录v的实体文本描述分别生成序列Ⅰ和生成序列Ⅱ,然后使用特殊标识符连接生成序列Ⅰ和生成序列Ⅱ,从而得到一个综合生成序列Ⅲ;
步骤2:使用预训练语言模型将预处理之后的生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ分别进行分词、提取单词嵌入向量特征,并根据不同的文本长度进行对齐,最后分别得到生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ对应的词向量Eu、词向量Ev和组合后的整个词向量Et
步骤3:提取后的词向量Eu、词向量Ev和词向量Et输入相似片段编码器,捕获每个实体候选对(记录u,记录v)两条记录之间的相似片段;
步骤4:同时也利用数字信息片段编码器来编码预处理的输入,并根据预训练语言模型对数字本身的自注意力权重来筛选数字信息片段,给出经过数字编码器的向量;
步骤5:拼接相似片段编码器和数字片段编码器输出向量
Figure FDA0003584007920000011
Figure FDA0003584007920000012
将该联合特征向量通过一个线性层和一个softmax层输出分类概率;根据标签数据,计算损失函数,然后进行反向传播,不断微调和优化模型的参数,再次从步骤2得到新的模型输入,反复迭代,当损失函数收敛时停止训练;得到最终的语言模型和编码器参数。
2.根据权利要求1所述的一种基于预训练语言模型的实体识别方法,其特征在于步骤3具体实现如下:
输入:记录u和记录v经过预训练语言模型提取的词向量Eu和Ev,以及实体候选对(记录u,记录v)组合后的整个词向量Et
3-1.提取背景语义,将整个实体候选对(记录u,记录v)的词向量Et作为背景语义,这里选择Et[CLS]来表征整个背景语义,“[CLS]”的词向量汇总了词向量Et的所有token词向量;
3-2.背景语义融合,分别在两个记录的词向量Eu和词向量Ev上执行一个背景语义的融合算子,因为Et[CLS]包含了记录对的整体背景语义,采用该融合算子将有助于记录u和记录v之间的注意力交互;
3-3.两个记录之间的交互注意力,提出一个记录v到记录u的注意力计算机制和一个记录u到记录v的注意力计算机制;结合整体背景语义表达,得到在整体背景语义下的包含相似片段感知的嵌入向量;
3-4.特征压缩与提取,采用卷积神经网络CNN进行特征压缩,输入经过交互注意力机制后的词向量
Figure FDA0003584007920000021
Figure FDA0003584007920000022
的拼接向量
Figure FDA0003584007920000023
将其进行卷积获得相似片段的信息;定义一个卷积矩阵
Figure FDA0003584007920000024
其中da是CNN的输出向量维度,l是卷积核大小,d是词向量维度;利用不同大小的卷积核进行卷积运算,进一步执行最大池化的操作以获取输出特征
Figure FDA0003584007920000025
步骤4:同时也利用数字信息片段编码器来编码预处理的输入,并根据预训练语言模型对数字本身的自注意力权重来筛选数字信息片段,给出经过数字编码器的向量。
3.根据权利要求2所述的一种基于预训练语言模型的实体识别方法,其特征在于步骤4具体实现如下:
输入:数字信息片段编码器的输入与上一个编码器稍微不同,只需要实体候选对(记录u,记录v)组合后的整个词向量Et
4-1.全部实体候选对编辑距离计算,首先计算每个实体候选对包含数字的字符子串的编辑距离(su,sv),其中su和sv分别是来自记录u和记录v的包含数字的字符子串,便于从记录u和v中选择出相似的数字型号组合;
4-2.子串过滤,对包含子串关系的字符子串组合进行剔除,当一个字符子串su是另一个字符子串sv的子串,或一个字符子串sv是另一个字符子串su的子串时,应当将编辑距离改为0,这是因为两个字符子串可能以不同的格式描述相同的信息;
4-3.量化字符子串相似度,在计算完编辑距离的基础上添加一个编辑距离比例;
4-4.重要字符子串选择,引入预训练语言模型的自注意力权重来过滤自注意力权重低于设定阈值的字符子串;
4-5.综合编辑距离分数计算,在获得所有重要的字符子串后,生成数字感知的词向量
Figure FDA0003584007920000031
Figure FDA0003584007920000032
以及它们各自的编辑距离分数
Figure FDA0003584007920000035
4-6.基于卷积神经网络CNN的特征提取,同样使用CNN来提取
Figure FDA0003584007920000033
的联合特征;首先执行不同卷积核的卷积运算,然后同样地通过最大池化操作来获得输出特征
Figure FDA0003584007920000034
4.根据权利要求1所述的一种基于预训练语言模型的实体识别方法,其特征在于步骤1具体实现如下:
将需要识别的实体的文本描述记录组成记录对,采用分块方法生成候选对,将文本数据拼接的公式如下:
serialize(u,v)::=[CLS]serizalize(u)[SEP]serialize(v)[SEP] (1)
其中,
serialize(x)::=[COL]attr1[VAL]val1…[COL]attrk[VAL]valk (2)
表示在一个文本数据中,有多种属性值来描述一个实体,使用“COL”来突出属性名,并在“VAL”后突出属性的值;serialize(x)表示单纯生成一个记录的生成序列,::=符号代表该序列化方法定义为右式,attr1和val1分别表示记录的属性名和属性值输入,记录一般以二元组(attrk,valk)形式输入,k表示第k个二元组,serialize(u,v)则是把两个记录的生成序列用特殊标识符“[CLS]”和“[SEP]”拼接;
每一个记录u和记录v的原始输入通过序列化方法serialize得到各自记录的独立输入[CLS]serialize(u)[SEP]和[CLS]serialize(v)[SEP],由公式(1)得到,同时还需要给出记录u和v的联合输入,由公式(2)得到;其中,“[SEP]”、“[COL]”、“[VAL]”是保留输入结构的特殊标记。
5.根据权利要求4所述的一种基于预训练语言模型的实体识别方法,其特征在于步骤2具体实现如下:使用预训练语言模型BERT将预处理之后的数据进行分词、提取单词嵌入向量特征,根据不同的文本长度进行对齐,且在实际应用编码中,每个attri和vali都需要被token化,最后得到记录u和v本身的向量Eu和Ev,记录对(u,v)组合后的整个词向量Et
6.根据权利要求2所述的一种基于预训练语言模型的实体识别方法,其特征在于步骤3-2背景语义融合具体实现如下:
别在两个记录的词向量Eu和Ev上执行一个背景语义的融合算子,也就是
E′u=Eu+E′t[CLS] (3)
E′v=Ev+E′t[CLS] (4)
其中Et′[CLS]表示在一个维度上扩展Et[CLS]从而对齐Eu和Ev形状大小的向量;因为Et[CLS]包含了实体候选对(记录u,记录v)的整体背景语义,采用该融合算子将十分有助于记录u和v之间的注意力交互。
7.根据权利要求2或6所述的一种基于预训练语言模型的实体识别方法,其特征在于步骤3-3提出一个记录v到记录u的注意力计算机制和一个记录u到记录v的注意力计算机制,具体实现如下:
对于记录v到记录u的注意力计算,考虑其注意力分布矩阵A:
A=B/repeat(Bj,lv) (5)
其中
Figure FDA0003584007920000041
Figure FDA0003584007920000042
repeat操作是将未归一化的注意力分布矩阵B的按列求和得到列总和Bj,并沿着第一维进行向量扩展;
接着将E′v和注意力分布矩阵A进行融合,并且将结果重新加回到Eu上去并且最终得到交互后的词向量Cu
Cu=Eu+ATE′v (6)
类似地,交互后的词向量Cv也通过同样u到v的交互注意力方式计算得到;最后分别融合Cu和Et,Cv和Et,得到在整体背景语义下的包含相似片段感知的嵌入向量;
Figure FDA0003584007920000043
Figure FDA0003584007920000044
由于需要进行拼接,因此补充说明
Figure FDA0003584007920000051
的意义,Cu输出维度是lu×d,将其与lt×d的词向量Et拼接时,只需要拼接前lu长度d维向量,这里的1:lu代表取词向量第1列至第lu列所有的d维向量,交互后的词向量Cu和Cv中“[CLS]”的token嵌入向量都会单独和Et中的token“[CLS]”相加,也就是
Figure FDA0003584007920000052
Figure FDA0003584007920000053
8.根据权利要求3所述的一种基于预训练语言模型的实体识别方法,其特征在于步骤4-1所述的全部候选对编辑距离计算,具体如下:首先计算每一对包含数字的字符子串候选对的编辑距离(su,sv),其中su和sv分别是来自记录u和记录v的包含数字的字符子串;具体地,下面给出如何计算两个字符子串su和sv的编辑距离:
Figure FDA0003584007920000054
这里的i和j分别代表su和sv的字符子串下标;在真实数据集上,不同型号的字符子串往往差距只在1-2个可替换的字母或者数字,因此在原来的编辑距离计算公式的基础上,将编辑操作中的“替换”的代价变为2,从而能够对这种微小的字符差异进行放大。
9.根据权利要求8所述的一种基于预训练语言模型的实体识别方法,其特征在于步骤4-3所述的量化字符子串相似度采用的编辑距离比例具体如下:
Figure FDA0003584007920000055
其中lsum是su的加上sv的编辑距离长度,设定一个阈值当r(su,sv)≥0.5,则认为(su,sv)是相似的字符子串。
10.根据权利要求9所述的一种基于预训练语言模型的实体识别方法,其特征在于步骤4-5所述的综合编辑距离分数计算,在获得所有重要的字符子串对之后,生成数字感知的表达向量
Figure FDA0003584007920000056
Figure FDA0003584007920000057
以及它们各自的编辑距离分数
Figure FDA0003584007920000058
也就是
Figure FDA0003584007920000059
Figure FDA00035840079200000510
会通过平均所有字符子串su和sv在u和v内的token嵌入表达向量得到,而编辑距离分数
Figure FDA0003584007920000061
则由如下公式计算得到:
Figure FDA0003584007920000062
其中,
Figure FDA0003584007920000063
表示字符子串对的集合,
Figure FDA0003584007920000064
代表字符子串对的数量。
CN202210361634.4A 2022-04-07 2022-04-07 一种基于预训练语言模型的实体识别方法 Pending CN114647715A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210361634.4A CN114647715A (zh) 2022-04-07 2022-04-07 一种基于预训练语言模型的实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210361634.4A CN114647715A (zh) 2022-04-07 2022-04-07 一种基于预训练语言模型的实体识别方法

Publications (1)

Publication Number Publication Date
CN114647715A true CN114647715A (zh) 2022-06-21

Family

ID=81997380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210361634.4A Pending CN114647715A (zh) 2022-04-07 2022-04-07 一种基于预训练语言模型的实体识别方法

Country Status (1)

Country Link
CN (1) CN114647715A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114439A (zh) * 2022-08-30 2022-09-27 北京百度网讯科技有限公司 多任务模型推理、多任务信息处理的方法和装置
CN115129826A (zh) * 2022-09-01 2022-09-30 国网智能电网研究院有限公司 电力领域模型预训练方法、精调方法、装置及设备
CN115168620A (zh) * 2022-09-09 2022-10-11 之江实验室 一种面向知识图谱实体对齐的自监督联合学习方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114439A (zh) * 2022-08-30 2022-09-27 北京百度网讯科技有限公司 多任务模型推理、多任务信息处理的方法和装置
CN115129826A (zh) * 2022-09-01 2022-09-30 国网智能电网研究院有限公司 电力领域模型预训练方法、精调方法、装置及设备
CN115168620A (zh) * 2022-09-09 2022-10-11 之江实验室 一种面向知识图谱实体对齐的自监督联合学习方法

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN112801010B (zh) 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN111914062B (zh) 一种基于关键词的长文本问答对生成系统
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN110222338B (zh) 一种机构名实体识别方法
CN112633431B (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN112287695A (zh) 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113111663A (zh) 一种融合关键信息的摘要生成方法
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN112818117A (zh) 标签映射方法、系统、计算机可读存储介质
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114117041B (zh) 一种基于特定属性词上下文建模的属性级情感分析方法
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN112287687B (zh) 基于案件属性感知的案件倾向性抽取式摘要方法
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN116561594A (zh) 一种基于Word2vec的法律文件相似度分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination