CN114580415B - 一种面向教育考试的跨域图匹配实体识别方法 - Google Patents

一种面向教育考试的跨域图匹配实体识别方法 Download PDF

Info

Publication number
CN114580415B
CN114580415B CN202210180038.6A CN202210180038A CN114580415B CN 114580415 B CN114580415 B CN 114580415B CN 202210180038 A CN202210180038 A CN 202210180038A CN 114580415 B CN114580415 B CN 114580415B
Authority
CN
China
Prior art keywords
graph
target domain
model
source domain
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210180038.6A
Other languages
English (en)
Other versions
CN114580415A (zh
Inventor
马千里
郑俊豪
郑彦魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qichen Guangzhou Electronic Technology Co ltd
South China University of Technology SCUT
Original Assignee
Qichen Guangzhou Electronic Technology Co ltd
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qichen Guangzhou Electronic Technology Co ltd, South China University of Technology SCUT filed Critical Qichen Guangzhou Electronic Technology Co ltd
Priority to CN202210180038.6A priority Critical patent/CN114580415B/zh
Publication of CN114580415A publication Critical patent/CN114580415A/zh
Application granted granted Critical
Publication of CN114580415B publication Critical patent/CN114580415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Educational Technology (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Human Resources & Organizations (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种面向教育考试的跨域图匹配实体识别方法,步骤如下:获取源域命名实体识别数据集,使用源域命名实体识别数据集训练深度神经网络模型得到源域模型;获取带有实体类别标注的教育考试文本数据;利用训练好的源域模型构建目标域模型;把教育考试文本数据输入源域模型和目标域模型分别计算得到源域图和目标域图;利用教育考试文本数据、源域图和目标域图训练目标域模型,训练完成的目标域模型可用于教育考试文本实体识别。该方法利用迁移学习的优势,把模型在数据充足的任务下学习到的知识有效地迁移到带实体类别标注数据较为稀缺的教育考试文本实体识别任务中,提升了对教育考试文本实体识别的准确率。

Description

一种面向教育考试的跨域图匹配实体识别方法
技术领域
本发明涉及命名实体识别技术领域,具体涉及一种面向教育考试的跨域图匹配实体识别方法。
背景技术
识别教育考试文本数据中的实体有助于对文本内容的分析,能够帮助教师提取试题知识点、分类试题以提高教学质量。现有的命名实体识别技术主要依赖于利用海量有标注数据训练深度学习模型,然而要获取带有实体类别标注的教育考试文本数据通常费时费力,且往往无法通过公开渠道获取,因此训练一个深度学习模型用于教育考试文本数据的命名实体识别的成本较高。此外,由于不同任务下人们对识别的实体类别存在差异,所以在一种任务下训练好的模型无法应用到其他的场景。为了解决此问题,人们采取迁移学习的方式,把深度学习模型在一个任务中学习的知识迁移到另一个任务当中,由此提高模型在新任务中的表现。然而现有迁移学习的范式“预训练+微调”已经成为一种迁移知识的范式。“预训练+微调”目前是迁移学习的常用方法,具体指先在数据充足的任务中训练深度学习模型,然后在新任务中用少量数据对深度学习模型进行微调。然而由于不同的命名实体任务的实体类别往往不完全相同,“预训练+微调”这种方法无法取得很好的效果。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种面向教育考试的跨域图匹配实体识别方法。该方法通过匹配不同场景下模型构建的标签图,利用标签图匹配来迁移模型在源域场景中学习到的知识从而帮助训练出更好地模型用于教育考试文本数据的实体识别任务。
本发明的目的可以通过采取如下技术方案达到:
一种面向教育考试的跨域图匹配实体识别方法,所述跨域图匹配实体识别方法包括以下步骤:
S1、获取一个包含语句及每个词实体标签的数据集作为源域命名实体识别数据集,并去除其中包含缺失值的语句;
S2、利用步骤S1源域命名实体识别数据集训练深度神经网络模型得到源域模型;
S3、获取带有实体标签的教育考试文本数据,并去除其中包含缺失值的语句;
S4、利用步骤S2中获得的源域模型构建目标域模型;
S5、把步骤S3中获得的教育考试文本数据输入步骤S2中获得的源域模型和步骤S4中获得的目标域模型分别计算得到源域图和目标域图;
S6、利用步骤S3中获得的教育考试文本数据和步骤S5中获得的源域图和目标域图来训练目标域模型,将经过训练的目标域模型用于教育考试实体识别;
S7、输入步骤S3中获得的教育考试文本数据到经过训练的目标域模型,得到目标域模型对教育考试文本数据实体识别的结果。
进一步地,所述深度神经网络模型包括特征编码器和全连接层,其中,特征编码器把文本的单词映射到特征空间当中,全连接层则把特征空间映射到类别空间当中,从而实现对文本单词的实体分类。所述特征编码器为预训练语言模型BERT,由12层Transformer单元和12层多头注意力组成。把特征编码器记作函数g(),其定义如下:E=g(X)
其中是文本,/>表示第ix个单词,Nt为单词个数,是文本特征嵌入,dh是文本特征嵌入的维度,dh设为768,/>表示实数域;
所述全连接层的计算公式如下:Os=EWs+bs
其中为源域模型输出,/>与/>分别为源域模型全连接层的权重矩阵与偏置,Cs为源域命名实体识别数据集中实体类别的个数;
所述深度神经网络模型记为函数f0(),定义如下:f0(X)=Os=EWs+bs=g(X)Ws+bs
经过预训练的语言模型,有更强的文本建模能力。多头注意力机制使得特征编码器在计算每个单词的文本特征嵌入时动态关联上下文的语义信息,从而增强文本特征嵌入的表达能力。
进一步地,所述步骤S4中通过源域模型构建目标域模型的过程如下:
S401、构建与所述源域模型具有相同参数的目标域模型。利用训练好的源域模型特征编码器的参数初始化目标域模型有助于目标域模型学习到源域当中的类别信息,同时减少训练时间;
S402、把目标域模型的全连接层更换为以下全连接层并随机初始化其参数。这里使用新全连接层的目的是为了把文本特征嵌入映射到教育考试文本数据实体类别的类别空间当中。其中,最后一层的全连接层的计算公式如下:
Ot=EWt+bt
其中为目标域模型输出,/>与/>分别为目标域模型全连接层的权重矩阵与偏置,Ct为教育考试文本数据中实体类别的个数;
所述目标域模型记为函数f(),定义如下:f(X)=Ot=EWt+bt=g(X)Wt+bt
进一步地,所述步骤S5中源域图和目标域图生成过程如下:
S501、给定教育考试文本数据利用步骤S2中获得的源域模型,计算类别之间的后验概率ps(ys|yt):/>
其中,ys和yt分别表示源域命名实体识别数据集和教育考试文本数据的类别,为/>中所有实体类别为y的样本,xi和yi表示/>中第i个样本的单词和实体标签,/>表示/>中样本的个数,f’0()为调整输出平滑度后的源域模型,f’0()的定义如下:
其中T为控制平滑度的超参数,e表示自然常数;表示源域模型对第i个样本第Ks个类别的预测分数,Ks=1,2,...,Cs
通过得到的后验概率ps(ys|yt),构建源域图其中/>和εs分别代表源域图的图节点和边集合,源域图中图节点定义为:
其中和/>分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合,/>分别表示/>中的第n个类别,/>和/>分别表示/>和/>中包含类别的个数,/>表示归一化前源域图类别yt的图节点,y1和y2是教育考试文本数据的任意两个类别,/>表示归一化前源域图类别y1和y2的图节点,/>表示源域图类别yt的图节点,源域图中边定义为:
其中表示源域图类别为y1和y2的图节点之间的边长,/>和/>分别表示源域图类别y1和y2的图节点,/>表示源域图图节点/>和/>的欧氏距离,δ为边长设定的阈值,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边;利用源域模型估计教育考试文本实体类别的后验概率分布可以构建对应的源域图,从而建模教育考试文本实体类别在源域类别空间当中的关系。
S502、利用步骤S4中获得的目标域模型,计算类别之间的后验概率pt(yt1|yt2):
其中,yt1和yt2为教育考试文本数据的类别, 中所有实体类别为yt1的样本,xj和yj表示/>中第j个样本的单词和实体标签,/>表示/>中样本的个数,f′()为调整输出平滑度后的目标域模型,f′()的定义如下:
其中,表示目标域模型对第j个样本第Kt个类别的预测分数;
通过得到的后验概率pt(yt1|yt2),构建目标域图其中/>和εt分别代表目标域图的图节点和边集合,目标域图中图节点定义为:
其中yt2(m)表示中的第m个类别,/>表示归一化前目标域图类别yt1的图节点,y3和y4是教育考试文本数据的任意两个类别,/>和/>表示归一化前目标域图类别y3和y4的图节点,/>表示目标域图类别yt1的图节点,目标域图中边定义为:
其中,表示目标域图类别为y3和y4的图节点之间的边长,/>和/>分别表示目标域图类别y3和y4的图节点,/>表示目标域图图节点/>和/>的欧氏距离,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边。利用目标域模型估计教育考试文本实体类别的后验概率分布可以构建对应的目标域图,从而建模教育考试文本实体类别在目标域类别空间当中的关系。
进一步地,所述步骤S6中训练目标域模型的过程如下:
S601、计算源域图和目标域图的相似度
其中u和v分别表示源域图和目标域图对应的离散分布,每个图节点被分配相同的质量,而且所有质量之和为1,Π(u,v)表示分布u和v的联合概率分布;i1和i2分别表示源域命名实体识别数据集中的任意两个类别;j1和j2分别表示教育考试文本数据中的任意两个类别;和/>分别表示源域图类别为i1和i2的图节点;/>和/>分别表示目标域图类别为j1和j2的图节点./>表示估计的最优传输计划矩阵,通过sinkhom算法可以求解,/>分别表示/>中的第i1行第j1列和第i2行第j2列的值;L()表示计算边之间相似度的函数,定义为:
其中表示源域图图节点/>和/>的欧氏距离,/>表示目标域图图节点/>和/>的欧氏距离;
S602、计算目标域模型的分类损失
其中,Nt为教育考试文本数据中训练样本的个数,表示教育考试文本数据中第it个训练样本的单词,/>表示目标域模型对单词/>的第ic个类别的预测分数,/>为表示单词/>是否属于第ic个类别的零一变量,ln()表示自然对数函数;
S603、计算总损失 其中λ为Dgw的权重参数;
S604、通过梯度下降的方式最小化当总损失/>不再下降时结束训练。最小化源域图和目标域图的相似度有助于类别的结构化关系从源域模型向目标域模型迁移,最小化目标域模型的分类损失有助于指导目标域模型正确地对实体类别进行分类。
本发明相对于现有技术具有如下的优点及效果:
1.本发明基于迁移学习的方式有效地把模型在数据相对充足的源域数据集中学习的知识迁移到实体类别标注稀缺的教育考试文本数据实体识别任务,能够有效提高模型对教育考试文本数据的实体识别准确率。
2.本发明在数据充足和数据稀缺的场景下均能取得不错的实体识别效果,因此本发明不仅具有较广泛的应用场景,而且能够降低教育考试文本数据的实体识别任务中对实体类别标注数据的依赖,降低数据搜集或标注的人力成本和时间成本。
3.本发明公开的方法不受模型的限制,可以使用不同的模型(例如BERT,RoBERTa等)作为特征提取器,具有良好的可扩展性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的流程图;
图2是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的网络结构图;
图3是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的网络示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的流程图,如图1所示,该方法包括以下步骤:
S1、获取公开数据集CONLL2003作为源域命名实体识别数据集,并去除其中包含缺失值的语句;
S2、利用CONLL2003训练深度神经网络模型得到源域模型;
S201、所述深度神经网络模型包括特征编码器和全连接层,其中,特征编码器把文本的单词映射到特征空间当中,全连接层则把特征空间映射到类别空间当中,从而实现对文本单词的实体分类。所述特征编码器为预训练语言模型BERT,由12层Transformer单元和12层多头注意力组成。把特征编码器记作函数g(),其定义如下:E=g(X)
其中是文本,/>表示第ix个单词,Nt为单词个数,是文本特征嵌入,dh是文本特征嵌入的维度,dh设为768,/>表示实数域;
全连接层的计算公式如下:Os=EWs+bs
其中为源域模型输出,/>与/>分别为源域模型全连接层的权重矩阵与偏置,Cs为源域命名实体识别数据集中实体类别的个数;
深度神经网络模型记为函数f0(),定义如下:f0(X)=Os=EWs+bs=g(X)Ws+bs
经过预训练的语言模型,有更强的文本建模能力。多头注意力机制使得特征编码器在计算每个单词的文本特征嵌入时动态关联上下文的语义信息,从而增强文本特征嵌入的表达能力。
S3、获取带有实体标签的教育考试文本数据,这里使用公开数据集MIT Movie、MITRestaurant、ATIS和CrossNER作为教育考试文本数据的示例,并去除其中包含缺失值的语句;
S4、利用步骤S2中获得的源域模型构建目标域模型;
S401、构建与所述源域模型具有相同参数的目标域模型。利用训练好的源域模型特征编码器的参数初始化目标域模型有助于目标域模型学习到源域当中的类别信息,同时减少训练时间;
S402、把目标域模型的全连接层更换为以下全连接层并随机初始化其参数。这里使用新全连接层的目的是为了把文本特征嵌入映射到教育考试文本数据实体类别的类别空间当中。其中,最后一层的全连接层的计算公式如下:O=XW+b
其中为目标域模型输出,/>为目标域模型倒数第二层的输出,/>与/>分别为全连接层的权重矩阵与偏置,/>为样本个数,/>为教育考试文本数据中实体类别的个数,/>为目标域模型倒数第二层输出的维度。
S5、把步骤S3中获得的教育考试文本数据输入步骤S2中获得的源域模型和步骤S4中获得的目标域模型分别计算得到源域图和目标域图。图2是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的网络结构图。如图2所示,把语句“David was a memberof both ACL and ACCL”输入到源域模型和目标域模型中分别可以得到由源域模型和目标域模型估计的后验概率分布,从而建立对应的源域图和目标域图;
S501、给定教育考试文本数据利用步骤S2中获得的源域模型,计算类别之间的后验概率ps(ys|yt):/>
其中,ys和yt分别表示源域命名实体识别数据集和教育考试文本数据的类别,为/>中所有实体类别为y的样本,xi和yi表示/>中第i个样本的单词和实体标签,/>表示/>中样本的个数,f’0()为调整输出平滑度后的源域模型,f’0()的定义如下:
其中,T为控制平滑度的超参数,e表示自然常数;表示源域模型对第i个样本第Ks个类别的预测分数,Ks=1,2,...,Cs
通过得到的后验概率ps(ys|yt),构建源域图其中/>和εs分别代表源域图的图节点和边集合,源域图中图节点定义为:
其中和/>分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合,/>分别表示/>中的第n个类别,/>和/>分别表示/>和/>中包含类别的个数,/>表示归一化前源域图类别yt的图节点,y1和y2是教育考试文本数据的任意两个类别,/>表示归一化前源域图类别y1和y2的图节点,/>表示源域图类别yt的图节点,源域图中边定义为:
其中表示源域图类别为y1和y2的图节点之间的边长,/>和/>分别表示源域图类别y1和y2的图节点,/>表示源域图图节点/>和/>的欧氏距离,δ为边长设定的阈值,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边;利用源域模型估计教育考试文本实体类别的后验概率分布可以构建对应的源域图,从而建模教育考试文本实体类别在源域类别空间当中的关系。
S502、利用步骤S4中获得的目标域模型,计算类别之间的后验概率pt(yt1|yt2):
其中,yt1和yt2为教育考试文本数据的类别, 中所有实体类别为yt1的样本,xj和yj表示/>中第j个样本的单词和实体标签,/>表示/>中样本的个数,f′()为调整输出平滑度后的目标域模型,f′()的定义如下:
其中,表示目标域模型对第j个样本第Kt个类别的预测分数;
通过得到的后验概率pt(yt1|yt2),构建目标域图其中/>和εt分别代表目标域图的图节点和边集合,目标域图中图节点定义为:
其中yt2 (m)表示中的第m个类别,/>表示归一化前目标域图类别yt1的图节点,y3和y4是教育考试文本数据的任意两个类别,/>和/>表示归一化前目标域图类别y3和y4的图节点,/>表示目标域图类别yt1的图节点,目标域图中边定义为:
其中,表示目标域图类别为y3和y4的图节点之间的边长,/>和/>分别表示目标域图类别y3和y4的图节点,/>表示目标域图图节点/>和/>的欧氏距离,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边。利用目标域模型估计教育考试文本实体类别的后验概率分布可以构建对应的目标域图,从而建模教育考试文本实体类别在目标域类别空间当中的关系。
S6、利用步骤S3中获得的教育考试文本数据和步骤S5中获得的源域图和目标域图来训练目标域模型,将经过训练的目标域模型用于教育考试实体识别;
S601、计算源域图和目标域图的相似度
其中u和v分别表示源域图和目标域图对应的离散分布,每个图节点被分配相同的质量,而且所有质量之和为1,Π(u,v)表示分布u和v的联合概率分布;i1和i2分别表示源域命名实体识别数据集中的任意两个类别;j1和j2分别表示教育考试文本数据中的任意两个类别;和/>分别表示源域图类别为i1和i2的图节点;/>和/>分别表示目标域图类别为j1和j2的图节点;/>表示估计的最优传输计划矩阵,通过Gabriel Peyré和Marco Cuturi的论文《Computational Optimal Transport sinkhorn》第57-84页中提到的sinkhom算法可以求解,/>和/>分别表示/>中的第i1行第j1列和第i2行第j2列的值;L()表示计算边之间相似度的函数,定义为:
其中表示源域图图节点/>和/>的欧氏距离,/>表示目标域图图节点/>和/>的欧氏距离;
S602、计算目标域模型的分类损失
其中,Nt为教育考试文本数据中训练样本的个数,表示教育考试文本数据中第it个训练样本的单词,/>表示目标域模型对单词/>的第ic个类别的预测分数,/>为表示单词/>是否属于第ic个类别的零一变量,ln()表示自然对数函数;
S603、计算总损失 其中λ为Dgw的权重参数;
S604、通过梯度下降的方式最小化当总损失/>不再下降时结束训练。最小化源域图和目标域图的相似度有助于类别的结构化关系从源域模型向目标域模型迁移,最小化目标域模型的分类损失有助于指导目标域模型正确地对实体类别进行分类。
S7、输入步骤S3中获得的教育考试文本数据到经过训练的目标域模型,得到模型对教育考试文本数据实体识别的结果。
实施例2
本实施例继续公开一种面向教育考试的跨域图匹配实体识别方法,过程如下:
S1、获取公开数据集CONLL2003作为源域命名实体识别数据集,并去除其中包含缺失值的语句;
S2、利用CONLL2003训练深度神经网络模型得到源域模型;
其中,深度神经网络模型包括特征编码器和全连接层,其中,特征编码器把文本的单词映射到特征空间当中,全连接层则把特征空间映射到类别空间当中,从而实现对文本单词的实体分类。所述特征编码器为预训练语言模型BERT,由12层Transformer单元和12层多头注意力组成。把特征编码器记作函数g(),其定义如下:是文本,/>表示第ix个单词,Nt为单词个数,/>是文本特征嵌入,dh是文本特征嵌入的维度,dh设为768,/>表示实数域;
全连接层的计算公式如下:Os=EWs+bs
其中为源域模型输出,/>与/>分别为源域模型全连接层的权重矩阵与偏置,Cs为源域命名实体识别数据集中实体类别的个数;
深度神经网络模型记为函数f0(),定义如下:
f0(X)=Os=EWs+bs=g(X)Ws+bs
经过预训练的语言模型,有更强的文本建模能力。多头注意力机制使得特征编码器在计算每个单词的文本特征嵌入时动态关联上下文的语义信息,从而增强文本特征嵌入的表达能力。
S3、获取带有实体标签的教育考试文本数据,这里使用公开数据集MIT Movie、MITRestaurant、ATIS和CrossNER作为教育考试文本数据的示例,并去除其中包含缺失值的语句;
S4、利用步骤S2中获得的源域模型构建目标域模型;
S401、构建与所述源域模型具有相同参数的目标域模型。利用训练好的源域模型特征编码器的参数初始化目标域模型有助于目标域模型学习到源域当中的类别信息,同时减少训练时间;
S402、把目标域模型的全连接层更换为以下全连接层并随机初始化其参数。这里使用新全连接层的目的是为了把文本特征嵌入映射到教育考试文本数据实体类别的类别空间当中。其中,最后一层的全连接层的计算公式如下:O=XW+b
其中为目标域模型输出,/>为目标域模型倒数第二层的输出,/>与/>分别为全连接层的权重矩阵与偏置,/>为样本个数,/>为教育考试文本数据中实体类别的个数,/>为目标域模型倒数第二层输出的维度。
S5、把步骤S3中获得的教育考试文本数据输入步骤S2中获得的源域模型和步骤S4中获得的目标域模型分别计算得到源域图和目标域图。图3是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的网络示意图。如图3所示,把语句“A fast method forcomputing maximum likelihood estimates for the probit model was proposed byRonald Fisher”输入到源域模型和目标域模型中分别可以得到由源域模型和目标域模型估计的后验概率分布,从而建立对应的源域图和目标域图;
S501、给定教育考试文本数据利用步骤S2中获得的源域模型,计算类别之间的后验概率ps(ys|yt):/>
其中,ys和yt分别表示源域命名实体识别数据集和教育考试文本数据的类别,为/>中所有实体类别为y的样本,xi和yi表示/>中第i个样本的单词和实体标签,/>表示/>中样本的个数,f’0()为调整输出平滑度后的源域模型,f’0()的定义如下:
其中,T为控制平滑度的超参数,e表示自然常数;表示源域模型对第i个样本第Ks个类别的预测分数,Ks=1,2,...,Cs
通过得到的后验概率ps(ys|yt),构建源域图其中/>和εs分别代表源域图的图节点和边集合,源域图中图节点定义为:
其中,和/>分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合,/>分别表示/>中的第n个类别,/>和/>分别表示/>和/>中包含类别的个数,表示归一化前源域图类别yt的图节点,y1和y2是教育考试文本数据的任意两个类别,和/>表示归一化前源域图类别y1和y2的图节点,/>表示源域图类别yt的图节点,源域图中边定义为:
其中,表示源域图类别为y1和y2的图节点之间的边长,/>和/>分别表示源域图类别y1和y2的图节点,/>表示源域图图节点/>和/>的欧氏距离,δ为边长设定的阈值,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边;利用源域模型估计教育考试文本实体类别的后验概率分布可以构建对应的源域图,从而建模教育考试文本实体类别在源域类别空间当中的关系。
S502、利用步骤S4中获得的目标域模型,计算类别之间的后验概率pt(yt1|yt2):
其中,yt1和yt2为教育考试文本数据的类别, 中所有实体类别为yt1的样本,xj和yj表示/>中第j个样本的单词和实体标签,/>表示中样本的个数,f′()为调整输出平滑度后的目标域模型,f′()的定义如下:
其中,表示目标域模型对第j个样本第Kt个类别的预测分数;
通过得到的后验概率pt(yt1|yt2),构建目标域图其中/>和εt分别代表目标域图的图节点和边集合,目标域图中图节点定义为:
其中,yt2 (m)表示中的第m个类别,/>表示归一化前目标域图类别yt1的图节点,y3和y4是教育考试文本数据的任意两个类别,/>和/>表示归一化前目标域图类别y3和y4的图节点,/>表示目标域图类别yt1的图节点,目标域图中边定义为:
其中,表示目标域图类别为y3和y4的图节点之间的边长,/>和/>分别表示目标域图类别y3和y4的图节点,/>表示目标域图图节点/>和/>的欧氏距离,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边。利用目标域模型估计教育考试文本实体类别的后验概率分布可以构建对应的目标域图,从而建模教育考试文本实体类别在目标域类别空间当中的关系。
S6、利用步骤S3中获得的教育考试文本数据和步骤S5中获得的源域图和目标域图来训练目标域模型,将经过训练的目标域模型用于教育考试实体识别;
S601、计算源域图和目标域图的相似度
其中u和v分别表示源域图和目标域图对应的离散分布,每个图节点被分配相同的质量,而且所有质量之和为1,Π(u,v)表示分布u和v的联合概率分布;i1和i2分别表示源域命名实体识别数据集中的任意两个类别;j1和j2分别表示教育考试文本数据中的任意两个类别;和/>分别表示源域图类别为i1和i2的图节点;/>和/>分别表示目标域图类别为j1和j2的图节点./>表示估计的最优传输计划矩阵,通过Gabriel Peyré和Marco Cuturi的论文《Computational Optimal Transport sinkhom》第57-84页中提到的sinkhom算法可以求解,/>和/>分别表示/>中的第i1行第j1列和第i2行第j2列的值;L()表示计算边之间相似度的函数,定义为:
其中表示源域图图节点/>和/>的欧氏距离,/>表示目标域图图节点/>和/>的欧氏距离;
S602、计算目标域模型的分类损失
其中,Nt为教育考试文本数据中训练样本的个数,表示教育考试文本数据中第it个训练样本的单词,/>表示目标域模型对单词/>的第ic个类别的预测分数,/>为表示单词/>是否属于第ic个类别的零一变量,ln()表示自然对数函数;
S603、计算总损失 其中λ为Dgw的权重参数;
S604、通过梯度下降的方式最小化当总损失/>不再下降时结束训练。最小化源域图和目标域图的相似度有助于类别的结构化关系从源域模型向目标域模型迁移,最小化目标域模型的分类损失有助于指导目标域模型正确地对实体类别进行分类。
S7、输入步骤S3中获得的教育考试文本数据到经过训练的目标域模型,得到模型对教育考试文本数据实体识别的结果。
以上两个实施例的结果如下:
数据集MIT Movie、MIT Restaurant、ATIS和CrossNER的统计信息如表1所示,从表1中可以看出数据集MIT Movie、MIT Restaurant、ATIS三个数据集的训练样本较为充足,数据集CrossNER的训练样本较少。
表1.不同数据集的统计信息
考虑到不同数据域的训练样本个数,使用Mov.,Res.和Dia.三个数据域的全部训练样本模拟教育考试文本数据充足的场景,表2是本发明在数据充足场景下与其他方法的实体识别F1分数对比。“预训练+微调”是一种常用且相对高效的迁移学习方法(BERT-tagger),已经在自然语言处理领域和计算机视觉领域被广泛地应用NNShot和StructuralShot是两种针对样本稀缺场景设计的算法,在数据稀缺时有较好的表现。BiLSTM-CRF、Coach和templateNER是三种命名实体识别的有效方法。如表2所示,本发明公开的一种面向教育考试的跨域图匹配实体识别方法(跨域图匹配方法)在数据域Mov.和Dia.取得了最高的实体识别F1分数,在数据域Res.取得了第二高的实体识别F1分数。此外,数据域Mov.,Res.和Dia.包含的实体类别与源域命名实体识别数据集CONLL2003中所包含的实体类别有很大差异,因此跨域图匹配方法能够提升模型模型跨域迁移的能力,从而提高新任务中的表现。
表2.本发明在数据充足场景下与其他方法的实体识别F1分数对比
Mov. Res. Dia.
BiLSTM-CRF 67.16 77.49 95.10
Coach 67.62 77.82 95.04
BERT-tagger 67.49 76.71 95.12
NNShot 60.39 72.33 95.04
StructShot 22.63 53.34 90.18
templateNER 54.63 69.94 64.92
跨域图匹配方法 68.53 77.65 95.20
为了模拟教育考试文本数据稀缺的场景,分别对每个数据域(Pol.,Sci.,Mus.,Lit.,AI,Mov.,Res.和Dia.)随机挑选的每个实体类别各50个样本作为训练样本。表3为本发明在数据稀缺场景下与其他方法的实体识别F1分数对比。如表3所示,在数据稀缺的场景下NNShot和StructShot有相对较好的表现,BiLSTM-CRF、Coach、BERT-tagger和templateNER的表现相对较差,而本发明公开的一种面向教育考试的跨域图匹配实体识别方法(跨域图匹配方法)在6个数据域上取得了最高的实体识别F1分数,在2个数据域上取得了第二高的实体识别F1分数。由此看出跨域图匹配方法能够减少模型对带实体类别标注训练样本的依赖,从而降低数据标注的人力和时间成本。
表3.本发明在数据稀缺场景下与其他方法的实体识别F1分数对比
Pol. Sci. Mus. Lit. AI Mov. Res. Dia.
BiLSTM-CRF 53.46 48.89 43.65 41.54 44.73 56.13 58.11 94.28
Coach 60.97 52.03 51.56 48.73 51.15 56.09 57.50 94.69
BERT-tagger 66.13 63.93 68.41 63.44 58.93 58.16 60.58 94.51
NNShot 66.33 63.78 67.94 63.19 59.17 57.34 60.26 93.86
StructShot 67.16 64.52 70.21 65.33 59.73 58.74 61.60 94.38
templateNER 65.23 62.84 64.57 64.49 56.58 43.42 54.05 59.67
跨域图匹配方法 68.19 64.42 70.17 66.13 59.86 60.33 62.73 94.74
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种面向教育考试的跨域图匹配实体识别方法,其特征在于,所述跨域图匹配实体识别方法包括以下步骤:
S1、获取一个包含语句及每个词实体标签的数据集作为源域命名实体识别数据集,并去除其中包含缺失值的语句;
S2、利用步骤S1源域命名实体识别数据集训练深度神经网络模型得到源域模型;
S3、获取带有实体标签的教育考试文本数据,并去除其中包含缺失值的语句;
S4、利用步骤S2中获得的源域模型构建目标域模型;其中,
S5、把步骤S3中获得的教育考试文本数据输入步骤S2中获得的源域模型和步骤S4中获得的目标域模型分别计算得到源域图和目标域图,源域图和目标域图生成过程如下:
S501、给定教育考试文本数据利用步骤S2中获得的源域模型,计算类别之间的后验概率ps(ys|yt):
其中,ys和yt分别表示源域命名实体识别数据集和教育考试文本数据的类别,为/>中所有实体类别为y的样本,xi和yi表示/>中第i个样本的单词和实体标签,/>表示/>中样本的个数,f’0()为调整输出平滑度后的源域模型,f’0()的定义如下:
其中T为控制平滑度的超参数,e表示自然常数;表示源域模型对第i个样本第Ks个类别的预测分数,Ks=1,2,…,Cs,/>表示源域模型对第i个样本第Cs个类别的预测分数;
通过得到的后验概率ps(ys|yt),构建源域图其中/>和εs分别代表源域图的图节点和边集合,源域图中图节点定义为:
其中和/>分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合,分别表示/>中的第n个类别,/>和/>分别表示/>和/>中包含类别的个数,/>表示归一化前源域图类别yt的图节点,y1和y2是教育考试文本数据的任意两个类别,/>表示归一化前源域图类别y1和y2的图节点,/>表示源域图类别yt的图节点,源域图中边定义为:
其中表示源域图类别为y1和y2的图节点之间的边长,/>和/>分别表示源域图类别y1和y2的图节点,/>表示源域图图节点/>和/>的欧氏距离,δ为边长设定的阈值,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边;
S502、利用步骤S4中获得的目标域模型,计算类别之间的后验概率pt(yt1|yt2):
其中,yt1和yt2为教育考试文本数据的类别, 为/>中所有实体类别为yt1的样本,xj和yj表示/>中第j个样本的单词和实体标签,/>表示中样本的个数,f′()为调整输出平滑度后的目标域模型,f′()的定义如下:
其中,表示目标域模型对第j个样本第Kt个类别的预测分数,/>表示目标域模型对第j个样本第Ct个类别的预测分数;
通过得到的后验概率pt(yt1|yt2),构建目标域图其中/>和εt分别代表目标域图的图节点和边集合,目标域图中图节点定义为:
其中yt2 (m)表示中的第m个类别,/>表示归一化前目标域图类别yt1的图节点,y3和y4是教育考试文本数据的任意两个类别,/>和/>表示归一化前目标域图类别y3和y4的图节点,/>表示目标域图类别yt1的图节点,目标域图中边定义为:
其中,表示目标域图类别为y3和y4的图节点之间的边长,/>和/>分别表示目标域图类别y3和y4的图节点,/>表示目标域图图节点/>和/>的欧氏距离,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边;
S6、利用步骤S3中获得的教育考试文本数据和步骤S5中获得的源域图和目标域图来训练目标域模型,将经过训练的目标域模型用于教育考试实体识别,其中,训练目标域模型的过程如下:
S601、计算源域图和目标域图的相似度
其中u和v分别表示源域图和目标域图对应的离散分布,每个图节点被分配相同的质量,而且所有质量之和为1,∏(u,v)表示分布u和v的联合概率分布;i1和i2分别表示源域命名实体识别数据集中的任意两个类别;j1和j2分别表示教育考试文本数据中的任意两个类别;和/>分别表示源域图类别为i1和i2的图节点;/>和/>分别表示目标域图类别为j1和j2的图节点;/>表示估计的最优传输计划矩阵,/>和/>分别表示/>中的第i1行第j1列和第i2行第j2列的值;L()表示计算边之间相似度的函数,定义为:
其中表示源域图图节点/>和/>的欧氏距离,/>表示目标域图图节点/>和/>的欧氏距离;
S602、计算目标域模型的分类损失
其中,Nt为教育考试文本数据中训练样本的个数,表示教育考试文本数据中第it个训练样本的单词,/>表示目标域模型对单词/>的第ic个类别的预测分数,/>为表示单词/>是否属于第ic个类别的零一变量,ln()表示自然对数函数;
S603、计算总损失 其中λ为Dgw的权重参数;
S604、通过梯度下降的方式最小化当总损失/>不再下降时结束训练;
S7、输入步骤S3中获得的教育考试文本数据到经过训练的目标域模型,得到目标域模型对教育考试文本数据实体识别的结果。
2.根据权利要求1所述的一种面向教育考试的跨域图匹配实体识别方法,其特征在于,所述深度神经网络模型包括特征编码器和全连接层,其中,
所述特征编码器为预训练语言模型BERT,由12层Transformer单元和12层多头注意力组成,把特征编码器记作函数g(),定义如下:
E=g(X)
其中是文本,/>表示第ix个单词,Nt为单词个数,是文本特征嵌入,dh是文本特征嵌入的维度,dh设为768,/>表示实数域;
所述全连接层的计算公式如下:
Os=EWs+bs
其中为源域模型输出,/>与/>分别为源域模型全连接层的权重矩阵与偏置,Cs为源域命名实体识别数据集中实体类别的个数;
所述深度神经网络模型记为函数f0(),定义如下:
f0(X)=Os=EWs+bs=g(X)Ws+bs
3.根据权利要求1所述的一种面向教育考试的跨域图匹配实体识别方法,其特征在于,所述步骤S4中通过源域模型构建目标域模型的过程如下:
S401、构建与所述源域模型具有相同参数的目标域模型;
S402、把目标域模型的全连接层更换为以下全连接层并随机初始化其参数,其中,最后一层的全连接层的计算公式如下:
Ot=EWt+bt
其中为目标域模型输出,/>与/>分别为目标域模型全连接层的权重矩阵与偏置,Ct为教育考试文本数据中实体类别的个数,/>是文本特征嵌入;
所述目标域模型记为函数f(),定义如下:
f(X)=Ot=EWt+bt=g(X)Wt+bt
CN202210180038.6A 2022-02-25 2022-02-25 一种面向教育考试的跨域图匹配实体识别方法 Active CN114580415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210180038.6A CN114580415B (zh) 2022-02-25 2022-02-25 一种面向教育考试的跨域图匹配实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210180038.6A CN114580415B (zh) 2022-02-25 2022-02-25 一种面向教育考试的跨域图匹配实体识别方法

Publications (2)

Publication Number Publication Date
CN114580415A CN114580415A (zh) 2022-06-03
CN114580415B true CN114580415B (zh) 2024-03-22

Family

ID=81770074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210180038.6A Active CN114580415B (zh) 2022-02-25 2022-02-25 一种面向教育考试的跨域图匹配实体识别方法

Country Status (1)

Country Link
CN (1) CN114580415B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102006299A (zh) * 2010-11-29 2011-04-06 西安交通大学 一种面向可信互联网的基于实体标识的身份认证方法及系统
CN111738003A (zh) * 2020-06-15 2020-10-02 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN113486665A (zh) * 2021-07-05 2021-10-08 哈尔滨工业大学(深圳) 隐私保护文本命名实体识别方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814871B (zh) * 2020-06-13 2024-02-09 浙江大学 一种基于可靠权重最优传输的图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102006299A (zh) * 2010-11-29 2011-04-06 西安交通大学 一种面向可信互联网的基于实体标识的身份认证方法及系统
CN111738003A (zh) * 2020-06-15 2020-10-02 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN113486665A (zh) * 2021-07-05 2021-10-08 哈尔滨工业大学(深圳) 隐私保护文本命名实体识别方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种面向初高中英语单选题的类人答题系统;陈志刚;刘青文;林伟;汪洋;陈小平;;中国科学技术大学学报;20160315(第03期);全文 *

Also Published As

Publication number Publication date
CN114580415A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN110110585A (zh) 基于深度学习的智能阅卷实现方法及系统、计算机程序
CN112508334B (zh) 融合认知特性及试题文本信息的个性化组卷方法及系统
CN110807328A (zh) 面向法律文书多策略融合的命名实体识别方法及系统
CN108536870A (zh) 一种融合情感特征和语义特征的文本情感分类方法
WO2022028249A1 (zh) 一种面向在线学习社区的学习兴趣发现方法
CN110347791B (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN112307773B (zh) 机器阅读理解系统的自定义问题数据自动生成方法
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN112950414B (zh) 一种基于解耦法律要素的法律文本表示方法
CN112115230B (zh) 一种基于层次类别信息的知识图谱构建方法
CN114580415B (zh) 一种面向教育考试的跨域图匹配实体识别方法
CN111898337A (zh) 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
US20230289528A1 (en) Method for constructing sentiment classification model based on metaphor identification
CN116578708A (zh) 一种基于图神经网络的论文数据姓名消歧算法
CN111339258A (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN115757815A (zh) 知识图谱的构建方法、装置及存储介质
CN112001222B (zh) 一种基于半监督学习的学生表情预测方法
CN114021658A (zh) 一种命名实体识别模型的训练方法、应用方法及其系统
CN113010697A (zh) 用于无监督跨模态检索的充分场景表达生成方法
CN112507723A (zh) 基于多模型融合的新闻情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant