CN115827879A - 基于样本增强和自训练的低资源文本智能评阅方法和装置 - Google Patents

基于样本增强和自训练的低资源文本智能评阅方法和装置 Download PDF

Info

Publication number
CN115827879A
CN115827879A CN202310113302.9A CN202310113302A CN115827879A CN 115827879 A CN115827879 A CN 115827879A CN 202310113302 A CN202310113302 A CN 202310113302A CN 115827879 A CN115827879 A CN 115827879A
Authority
CN
China
Prior art keywords
sample
text
model
training
review
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310113302.9A
Other languages
English (en)
Other versions
CN115827879B (zh
Inventor
孙宇清
杨涛
马磊
袁峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Original Assignee
SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANDONG SHANDA OUMA SOFTWARE CO Ltd filed Critical SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority to CN202310113302.9A priority Critical patent/CN115827879B/zh
Publication of CN115827879A publication Critical patent/CN115827879A/zh
Application granted granted Critical
Publication of CN115827879B publication Critical patent/CN115827879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于样本增强和自训练的低资源文本智能评阅方法和装置,属于自然语言处理的技术领域,包括:样本增强:用于完成对输入的评阅样本的增强任务,得到增强后的评阅样本;样本困难性评价:用于在评阅模型微调和自训练过程中计算每个样本的困难性;评阅模型微调及自训练:用于基于样本增强后的评阅样本对评阅模型进行微调训练;然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中,对评阅模型进行自训练。本发明能更好适合于评阅样本数量有限的情况,提升了数据增强效果和模型的鲁棒性;能增强评阅模型在训练数据中存在噪音样本和简单样本时的性能;能够提升伪标记的准确率。

Description

基于样本增强和自训练的低资源文本智能评阅方法和装置
技术领域
本发明公开基于样本增强和自训练的低资源文本智能评阅方法和装置,属于自然语言处理的技术领域。
背景技术
文本智能评阅是人工智能和自然语言处理研究领域的重要问题,是指对于给定知识点的参考答案文本、若干学生答案文本以及预先定义的分数段类型,采用神经网络模型对学生答案所属分数类型进行判定。由于专业领域文本内容需要专家评阅,获取标记数据成本高昂,导致只有极少量样本可用的低资源情况。智能评阅能够降低人工评阅成本,去除个体偏见,具有重要实用价值。
现有文本理解技术主要采用深度学习,依赖大量样本以监督学习方式训练模型,较少的样本则会严重影响模型性能。针对样本数量少的情况,相关工作通常采用数据增强技术来增强初始少量样本的信息量。
例如中国专利文献CN115048940A公开基于实体词属性特征和回译的中文金融文本数据增强方法,其中使用“回译”和专业词汇替换对文本进行增强。但是“回译”数据增强技术受限于翻译模型的翻译质量,尤其对于专业文本的“回译”增强效果不佳。对于文本对形式的专业领域评阅样本,“回译”并不能有效增强文本对的交互信息,仅可增强单文本的语义信息。
另外,基于初始少量样本并引入大量无标记数据进行模型自训练也是突破极少样本限制进而提升模型性能的有效方式,例如中国专利文献CN114357153A公开一种文本分类模型训练方法、装置、文本分类方法及装置,其中利用初始少量样本训练模型后预测无标记数据的伪标记,并对大量伪样本进行监督学习以增强模型性能。自训练技术利用现有模型对无标记数据标注伪标记后扩充到原有训练集中进行训练,故伪标记的准确性对后续自训练模型的性能影响较大。自训练技术中标注伪标记的策略需要被精心设计,以缓解可能存在的错误累积问题。
综上,在现有技术中,怎样在低资源专业文本智能评阅中摆脱样本数量受限成为新的技术突破思路。
发明内容
本发明公开一种基于样本增强和自训练的低资源文本智能评阅方法
本发明还公开一种实现上述评阅方法的装置。
本发明的技术方案如下:
基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,包括:
(1)样本增强:用于完成对输入的评阅样本的增强任务,得到增强后的评阅样本;
(2)样本困难性评价:用于在评阅模型微调和自训练过程中计算每个样本的困难性,根据困难性为样本施加不同优化权重,以降低简单样本和噪音样本的优化力度,提升困难样本的优化力度;
(3)评阅模型微调及自训练:用于基于样本增强后的评阅样本对评阅模型进行微调训练;然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中,对评阅模型进行自训练。
根据本发明优选的,所述步骤(1)所述样本增强的具体方法包括,对输入的少量评阅样本进行增强:
初始少量评阅样本包括多个知识点上的若干文本推理样本;
每个知识点上的样本表示为
Figure SMS_1
的集合,其中
Figure SMS_4
为包含代表该知识点的参考答案文本
Figure SMS_7
和学生答案文本
Figure SMS_2
的文本对形式,推理标记
Figure SMS_8
表示文本对的蕴含和非蕴含两种推理关系;其中,蕴含关系表示学生答案文本
Figure SMS_9
在参考答案文本
Figure SMS_3
所关联的知识点上与参考答案文本
Figure SMS_5
语义一致,非蕴含关系则表示不一致;
(1-1)利用少量评阅样本构建NLI任务的蕴含、矛盾、中立三分类样本来进行样本增强,所述NLI任务是指类似自然语言推理任务,NLI是英文Natural Language Inference的缩写,NLI任务识别输入的<前提,假设>文本对的推理关系属于蕴含、矛盾、中立中的一种;本发明所述样本增强方法,使得不同知识点间以及相同知识点内的学生答案文本的语义也可以得到交互,可用于在评阅模型微调及自训练时对输入的训练用评阅样本进行增强,形式如表1所示:
(1-1-1)构造蕴含样本,使得同知识点中两个语义一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参考答案文本
Figure SMS_10
和呈蕴含关系的学生答案文本组成的文本对
Figure SMS_11
;同参考答案文本
Figure SMS_12
呈蕴含关系的任意两个学生答案文本组成的文本对
Figure SMS_13
,其标签
Figure SMS_14
,表蕴含;
(1-1-2)构造矛盾样本,使得同知识点中两个语义不一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参考答案文本
Figure SMS_15
和呈非蕴含关系的学生答案文本组成的文本对
Figure SMS_16
;同参考答案文本
Figure SMS_17
分别呈蕴含和非蕴含关系的任意两个学生答案文本组成的文本对
Figure SMS_18
,其标签
Figure SMS_19
,表矛盾;
(1-1-3)构造中立样本,使得不同知识点(文本关注点不同)中的单文本的语义信息得到交互,从不同知识点采样进行构造,包括某一个知识点的参考答案文本
Figure SMS_20
或学生答案文本
Figure SMS_21
,和另一知识点的学生答案文本
Figure SMS_22
的交互文本对
Figure SMS_23
Figure SMS_24
,其标签
Figure SMS_25
,表中立;
(1-2)评阅模型对参考答案文本
Figure SMS_27
和学生答案文本
Figure SMS_33
位置调换的文本对样本进行预测时,其预测结果不变,为保证模型鲁棒性,将包含参考答案文本
Figure SMS_37
的文本对进行翻转增强,其标签不变;定义蕴含、矛盾、中立三类增强样本的构造比例分别为
Figure SMS_28
,许可一般情况
Figure SMS_30
Figure SMS_34
Figure SMS_38
,且
Figure SMS_29
,优选的,
Figure SMS_32
Figure SMS_36
Figure SMS_40
,具体比例见表1,为保证增强前的少量样本中的信息被充分包含,其中
Figure SMS_26
Figure SMS_31
不使用随机采样方式构造,而是直接使用增强前的全部样本,占比
Figure SMS_35
,故增强后数据集大小是增强前的
Figure SMS_39
倍:
表1.样本增强构造方式及比例
Figure SMS_41
根据本发明优选的,所述步骤(2)中样本困难性评价的具体方法,包括:
评阅模型输入样本进行监督学习,由于数据集中可能存在噪音样本且样本的推理难度存在差异,对此,根据评阅模型微调时计算样本优化的梯度大小来评价样本困难性,并设计难度敏感(Difficulty Sensitive)损失
Figure SMS_42
通过在微调时对样本产生的交叉熵损失进行加权,来提高对困难样本的优化力度,降低模型对简单样本以及噪音样本的优化力度;
为了使评阅模型反向传播的梯度能有效反映样本困难性;
(2-1)使用交叉熵损失函数
Figure SMS_43
训练评阅模型,经过若干轮训练让评阅模型拟合简单样本;交叉熵损失如公式(I):
Figure SMS_44
(I)
其中,
Figure SMS_45
为类别标签
Figure SMS_47
的独热向量;
Figure SMS_48
为评阅模型预测的概率分布;
(2-2)计算评阅模型优化每个样本时反向传播的梯度大小来量化样本的困难性:评阅模型通过多分类器输出概率分布
Figure SMS_49
Figure SMS_50
为神经网络给分类器的输入,推导梯度知
Figure SMS_51
分别是
Figure SMS_52
的第
Figure SMS_54
元素值;
定义样本困难性量化值
Figure SMS_56
为梯度模长之和的一半:
Figure SMS_57
Figure SMS_58
其中,样本困难性量化值
Figure SMS_59
Figure SMS_60
为表示样本类别的标签集合,
Figure SMS_61
为样本所属类别的标签;
Figure SMS_62
为概率分布
Figure SMS_63
的第
Figure SMS_64
元素值,代表着评阅模型预测出样本为第
Figure SMS_65
类的概率;
由于先用交叉熵损失函数
Figure SMS_66
训练使得评阅模型可以较好拟合简单样本,反向传播时简单样本产生的梯度较小,困难样本产生梯度较大,噪音样本产生梯度最大,综上,利用样本困难性量化值
Figure SMS_67
值大小反应样本难易,
Figure SMS_68
越大样本越困难,且
Figure SMS_69
值越靠近1的有较大概率为噪音样本;
公式(III)所示正态分布函数为加权函数,优选的,
Figure SMS_70
Figure SMS_71
Figure SMS_72
Figure SMS_73
Figure SMS_74
其中,加权函数
Figure SMS_76
如附图1所示,横坐标为
Figure SMS_79
值,纵坐标为正态分布函数
Figure SMS_82
的值,由图像可知
Figure SMS_75
值接近0和1时函数值
Figure SMS_78
较小;根据困难性量化值
Figure SMS_81
利用函数
Figure SMS_84
对样本的交叉熵损失进行加权,得到如公式(IV)所示难度敏感损失函数
Figure SMS_77
,达到重点优化困难样本,降低简单样本和噪音样本优化力度的目的;样本困难性评价利用
Figure SMS_80
Figure SMS_83
两阶段损失函数训练评阅模型,在下述评阅模型微调及自训练中用于训练评阅模型。
根据本发明优选的,所述步骤(3)评阅模型微调及自训练中:
微调是指对评阅模型参数进行微调,将评阅样本中的文本对输入给所述评阅模型,利用评阅模型的输出和样本标签计算损失函数值,利用损失函数值计算评阅模型参数的梯度,采用梯度下降的方式对参数进行微调;
在专业领域考试中,易获取大量未评阅学生答案文本及对应参考答案文本作为无标记数据,在评阅模型微调后引入大量无标记数据参与评阅模型自训练。
根据本发明优选的,所述评阅模型微调涉及的评阅样本为样本增强后的评阅样本,损失函数为样本困难性评价中的两阶段损失函数;
采用验证集早停机制结束模型微调,早停轮数设置为5;
采用Adam优化器对评阅模型参数进行优化,学习率设置为
Figure SMS_85
评阅模型采用基于BERT(BidirectionalEncoder Representations fromTransformers)编码的文本对分类模型Bert-Softmax,即评阅模型为Bert-Softmax评阅模型;BERT编码器在大规模通用语料库上进行掩码语言模型(Mask Language Model, MLM)和下一句预测(NextSentence Prediction, NSP)任务的预训练,能有效编码文本对语义应用于专业文本智能评阅任务;将文本对
Figure SMS_86
以分类模型Bert-Softmax所需格式
Figure SMS_87
输入,选择
Figure SMS_88
位置的输出向量
Figure SMS_89
作为文本对语义交互表示向量,输入多层感知机。
根据本发明优选的,所述感知机层数设置为2,如公式(V)和(VI)所示,感知机第一层权重及偏置项为
Figure SMS_91
Figure SMS_96
、经
Figure SMS_93
非线性激活输出表示向量
Figure SMS_94
,第二层权重及偏置项为
Figure SMS_98
Figure SMS_101
,输出表示向量
Figure SMS_90
Figure SMS_95
后经过
Figure SMS_99
分类器得到标签集合
Figure SMS_102
上的预测概率分布
Figure SMS_92
,预测类别为
Figure SMS_97
Figure SMS_103
Figure SMS_104
Figure SMS_105
Figure SMS_106
Figure SMS_107
Figure SMS_108
Figure SMS_109
Figure SMS_110
根据本发明优选的,所述步骤(3)评阅模型微调及自训练的具体方法,
在专家标注的初始样本集
Figure SMS_111
上,为其中每个知识点样本集
Figure SMS_112
都引入同批次考试的大量未评阅学生答案文本作为同源的无标记数据,表示为文本对
Figure SMS_113
的集合
Figure SMS_115
,
Figure SMS_116
为对应知识点的参考答案文本,
Figure SMS_117
为对应知识点的无标记学生答案文本;采用投票方式获取高置信伪样本,并将所述伪样本加入到评阅模型自训练过程中;
输入Bert-Softmax评阅模型、初始样本集
Figure SMS_118
中多个知识点的无标记数据集合
Figure SMS_119
,微调及自训练步骤如下:
(3-1)样本增强及评阅模型微调:采用步骤(1)的样本增强方法对
Figure SMS_120
进行增强得到增强样本集
Figure SMS_121
,作为训练用标记数据,对Bert-Softmax评阅模型进行微调得到评阅模型
Figure SMS_122
(3-2)隐式特征计算:对于初始样本集
Figure SMS_125
中一个知识点的样本集
Figure SMS_128
,与对应知识点的无标记数据
Figure SMS_130
中的无标记学生答案文本
Figure SMS_124
组成文本库
Figure SMS_126
;对学生答案文本
Figure SMS_129
,计算学生答案文本
Figure SMS_131
的TF-IDF向量,使用主成分分析法(PrincipalComponent Analysis, PCA)分析TF-IDF向量的主要特征并进行降维,得到学生答案文本
Figure SMS_123
的隐式特征向量为
Figure SMS_127
,优选的,隐式向量特征维度选取为32;
(3-3)伪标记预测及置信伪样本采样:对于无标记数据
Figure SMS_132
,构造关于
Figure SMS_133
的敏感文本对集合:
Figure SMS_135
其中,
Figure SMS_137
为隐式特征向量最靠近
Figure SMS_139
隐式特征向量
Figure SMS_142
Figure SMS_138
个带蕴含标签的学生答案文本;使用评阅模型
Figure SMS_141
进行关系预测,得到
Figure SMS_144
个预测结果
Figure SMS_145
,相应的预测类别为
Figure SMS_136
;采用众数投票方式,得
Figure SMS_140
的伪标记为
Figure SMS_143
计算第
Figure SMS_147
次推理的概率分布
Figure SMS_151
对伪标记
Figure SMS_153
的预测概率
Figure SMS_148
与最大非伪标记预测概率之差
Figure SMS_150
,作为第
Figure SMS_152
次推理对于伪标记
Figure SMS_154
的置信度,
Figure SMS_146
越大置信度越高,其中
Figure SMS_149
Figure SMS_155
Figure SMS_156
综合
Figure SMS_157
次置信度量,得文本
Figure SMS_158
的伪标记置信度量化值为
Figure SMS_159
Figure SMS_160
Figure SMS_161
其中,
Figure SMS_163
越大,无标记数据
Figure SMS_170
的伪标记
Figure SMS_164
越置信;从
Figure SMS_166
中根据
Figure SMS_169
值从大到小不放回采样伪样本,采样和原
Figure SMS_172
相同的数据量,扩充至
Figure SMS_162
中得到样本集
Figure SMS_165
,对每个知识点对应样本集经过上述扩充过程后,原样本集
Figure SMS_168
扩充为新样本集
Figure SMS_171
(3-4)回到步骤(3-1),以样本集
Figure SMS_173
在评阅模型
Figure SMS_174
上继续微调,
Figure SMS_175
为不放回采样后剩下的无标记数据集合;
重复步骤(3-1)至步骤(3-3)共
Figure SMS_176
轮,每轮训练用样本量扩充为原先的两倍,即
Figure SMS_177
,最终通过上述自训练过程得到评阅模型
Figure SMS_178
,优选的,自训练轮数
Figure SMS_179
设为3,评阅模型三轮自训练过程如附图2所示。
一种实现上述评阅方法的装置,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现本发明记载的任一项所述方法的步骤。
本发明的技术优势在于:
1)本发明所提出的评阅样本增强方法,能够更好地增加文本对中参考答案文本和学生答案文本或学生答案文本之间的交互信息量,相较于现有工作基于单文本的语义增强技术,能更好适合于评阅样本数量有限的情况,提升了样本增强效果和模型的鲁棒性。
2)本发明所提出的样本困难性评价方法,能够针对性地提高困难样本的优化力度,降低简单样本和噪音样本的优化力度,相较于基于交叉熵损失函数的监督训练,能增强评阅模型在训练数据中存在噪音样本和简单样本时的性能。
3)本发明所提出的评阅模型微调及自训练,能够有效提升评阅模型在少量样本情况下的评阅性能。其中提出了基于投票的伪标记预测方法以及基于置信度的伪样本采样方法,相比于使用模型单次预测结果作为伪标记以及单次预测概率作为伪标记置信度的方法,能够提升伪标记的准确率,缓解自训练过程中基于伪样本进行监督学习时存在的错误累积问题。
附图说明
图1为本发明中所述
Figure SMS_180
的加权函数
Figure SMS_181
的图像;
图2为本发明评阅模型经历三轮自训练过程示意图,其中
Figure SMS_182
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
实施例1、
基于样本增强和自训练的低资源文本智能评阅方法,包括:
(1)样本增强:用于完成对输入的评阅样本的增强任务,得到增强后的评阅样本;
(2)样本困难性评价:用于在评阅模型微调和自训练过程中计算每个样本的困难性,根据困难性为样本施加不同优化权重,以降低简单样本和噪音样本的优化力度,提升困难样本的优化力度;
(3)评阅模型微调及自训练:用于基于样本增强后的评阅样本对评阅模型进行微调训练;然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中,对评阅模型进行自训练。
所述步骤(1)所述样本增强的具体方法包括,对输入的少量评阅样本进行增强:
初始少量评阅样本包括多个知识点上的若干文本推理样本;
每个知识点上的样本表示为
Figure SMS_184
的集合,其中
Figure SMS_187
为包含代表该知识点的参考答案文本
Figure SMS_189
和学生答案文本
Figure SMS_185
的文本对形式,推理标记
Figure SMS_186
表示文本对的蕴含和非蕴含两种推理关系;其中,蕴含关系表示学生答案文本
Figure SMS_188
在参考答案文本
Figure SMS_190
所关联的知识点上与参考答案文本
Figure SMS_183
语义一致,非蕴含关系则表示不一致;
(1-1)利用少量评阅样本构建NLI任务的蕴含、矛盾、中立三分类样本来进行样本增强,所述NLI任务是指类似自然语言推理任务,NLI是英文Natural Language Inference的缩写,NLI任务识别输入的<前提,假设>文本对的推理关系属于蕴含、矛盾、中立中的一种;本发明所述样本增强方法,使得不同知识点间以及相同知识点内的学生答案文本的语义也可以得到交互,可用于在评阅模型微调及自训练时对输入的训练用评阅样本进行增强,形式如表1所示:
(1-1-1)构造蕴含样本,使得同知识点中两个语义一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参考答案文本
Figure SMS_191
和呈蕴含关系的学生答案文本组成的文本对
Figure SMS_192
;同参考答案文本
Figure SMS_193
呈蕴含关系的任意两个学生答案文本组成的文本对
Figure SMS_194
,其标签
Figure SMS_195
,表蕴含;
(1-1-2)构造矛盾样本,使得同知识点中两个语义不一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参考答案文本
Figure SMS_196
和呈非蕴含关系的学生答案文本组成的文本对
Figure SMS_197
;同参考答案文本
Figure SMS_198
分别呈蕴含和非蕴含关系的任意两个学生答案文本组成的文本对
Figure SMS_199
,其标签
Figure SMS_200
,表矛盾;
(1-1-3)构造中立样本,使得不同知识点(文本关注点不同)中的单文本的语义信息得到交互,从不同知识点采样进行构造,包括某一个知识点的参考答案文本
Figure SMS_201
或学生答案文本
Figure SMS_202
,和另一知识点的学生答案文本
Figure SMS_204
的交互文本对
Figure SMS_205
,其标签
Figure SMS_206
,表中立;
(1-2)评阅模型对参考答案文本
Figure SMS_207
和学生答案文本
Figure SMS_212
位置调换的文本对样本进行预测时,其预测结果不变,为保证模型鲁棒性,将包含参考答案文本
Figure SMS_214
的文本对进行翻转增强,其标签不变;定义蕴含、矛盾、中立三类增强样本的构造比例分别为
Figure SMS_209
,许可一般情况
Figure SMS_211
,优选的,
Figure SMS_213
,具体比例见表1,为保证增强前的少量样本中的信息被充分包含,其中
Figure SMS_215
不使用随机采样方式构造,而是直接使用增强前的全部样本,占比
Figure SMS_208
,故增强后数据集大小是增强前的
Figure SMS_210
倍:
表1.样本增强构造方式及比例
Figure SMS_216
所述步骤(2)中样本困难性评价的具体方法,包括:
评阅模型输入样本进行监督学习,由于数据集中可能存在噪音样本且样本的推理难度存在差异,对此,根据评阅模型微调时计算样本优化的梯度大小来评价样本困难性,并设计难度敏感(Difficulty Sensitive)损失
Figure SMS_217
Figure SMS_218
Figure SMS_219
通过在微调时对样本产生的交叉熵损失进行加权,来提高对困难样本的优化力度,降低模型对简单样本以及噪音样本的优化力度;
为了使评阅模型反向传播的梯度能有效反映样本困难性;
(2-1)使用交叉熵损失函数
Figure SMS_220
训练评阅模型,经过若干轮训练让评阅模型拟合简单样本;交叉熵损失如公式(I):
Figure SMS_221
Figure SMS_222
其中,
Figure SMS_223
为类别标签
Figure SMS_224
的独热向量;
Figure SMS_225
为评阅模型预测的概率分布;
(2-2)计算评阅模型优化每个样本时反向传播的梯度大小来量化样本的困难性:评阅模型通过多分类器输出概率分布
Figure SMS_226
Figure SMS_227
为神经网络给分类器的输入,推导梯度知
Figure SMS_228
分别是
Figure SMS_229
的第
Figure SMS_230
元素值;
定义样本困难性量化值
Figure SMS_231
为梯度模长之和的一半:
Figure SMS_232
Figure SMS_233
其中,样本困难性量化值
Figure SMS_234
Figure SMS_235
为表示样本类别的标签集合,
Figure SMS_236
为样本所属类别的标签;
Figure SMS_237
为概率分布
Figure SMS_238
的第
Figure SMS_239
元素值,代表着评阅模型预测出样本为第
Figure SMS_240
类的概率;
由于先用交叉熵损失函数
Figure SMS_241
训练使得评阅模型可以较好拟合简单样本,反向传播时简单样本产生的梯度较小,困难样本产生梯度较大,噪音样本产生梯度最大,综上,利用样本困难性量化值
Figure SMS_242
值大小反应样本难易,
Figure SMS_243
越大样本越困难,且
Figure SMS_244
值越靠近1的有较大概率为噪音样本;
公式(III)所示正态分布函数为加权函数,优选的,
Figure SMS_245
Figure SMS_246
Figure SMS_247
Figure SMS_248
Figure SMS_249
其中,加权函数
Figure SMS_252
如附图1所示,横坐标为
Figure SMS_258
值,纵坐标为正态分布函数
Figure SMS_251
的值,由图像可知
Figure SMS_253
值接近0和1时函数值
Figure SMS_256
较小;根据困难性量化值
Figure SMS_259
,利用函数
Figure SMS_250
对样本的交叉熵损失进行加权,得到如公式(IV)所示难度敏感损失函数
Figure SMS_254
,达到重点优化困难样本,降低简单样本和噪音样本优化力度的目的;样本困难性评价利用
Figure SMS_257
Figure SMS_260
两阶段损失函数训练评阅模型,在下述评阅模型微调及自训练中用于训练评阅模型。
所述步骤(3)评阅模型微调及自训练中:
微调是指对评阅模型参数进行微调,将评阅样本中的文本对输入给所述评阅模型,利用评阅模型的输出和样本标签计算损失函数值,利用损失函数值计算评阅模型参数的梯度,采用梯度下降的方式对参数进行微调;
在专业领域考试中,易获取大量未评阅学生答案文本及对应参考答案文本作为无标记数据,在评阅模型微调后引入大量无标记数据参与评阅模型自训练。
实施例2、
如实施例1所述基于样本增强和自训练的低资源文本智能评阅方法,所述评阅模型微调涉及的评阅样本为样本增强后的评阅样本,损失函数为样本困难性评价中的两阶段损失函数;
采用验证集早停机制结束模型微调,早停轮数设置为5;
采用Adam优化器对评阅模型参数进行优化,学习率设置为
Figure SMS_261
评阅模型采用基于BERT(BidirectionalEncoder Representations fromTransformers)编码的文本对分类模型Bert-Softmax,即评阅模型为Bert-Softmax评阅模型;BERT编码器在大规模通用语料库上进行掩码语言模型(Mask Language Model, MLM)和下一句预测(NextSentence Prediction, NSP)任务的预训练,能有效编码文本对语义应用于专业文本智能评阅任务;将文本对
Figure SMS_262
以分类模型Bert-Softmax所需格式
Figure SMS_263
输入,选择
Figure SMS_264
位置的输出向量
Figure SMS_265
作为文本对语义交互表示向量,输入多层感知机。
所述感知机层数设置为2,如公式(V)和(VI)所示,感知机第一层权重及偏置项为
Figure SMS_267
Figure SMS_269
、经
Figure SMS_272
非线性激活输出表示向量
Figure SMS_268
,第二层权重及偏置项为
Figure SMS_270
,输出表示向量
Figure SMS_273
Figure SMS_275
后经过
Figure SMS_266
分类器得到标签集合
Figure SMS_271
上的预测概率分布
Figure SMS_274
,预测类别为
Figure SMS_276
Figure SMS_277
Figure SMS_278
Figure SMS_279
Figure SMS_280
Figure SMS_281
Figure SMS_282
Figure SMS_283
Figure SMS_284
实施例3、
如实施例1所述基于样本增强和自训练的低资源文本智能评阅方法,所述步骤(3)评阅模型微调及自训练的具体方法,
输入Bert-Softmax评阅模型、初始样本集
Figure SMS_285
中多个知识点的无标记数据集合
Figure SMS_286
,微调及自训练步骤如下:
(3-1)样本增强及评阅模型微调:采用步骤(1)的样本增强方法对
Figure SMS_287
进行增强得到增强样本集
Figure SMS_288
,作为训练用标记数据,对Bert-Softmax评阅模型进行微调得到评阅模型
Figure SMS_289
(3-2)隐式特征计算:对于初始样本集
Figure SMS_291
中一个知识点的样本集
Figure SMS_295
,与对应知识点的无标记数据
Figure SMS_297
中的无标记学生答案文本
Figure SMS_292
组成文本库
Figure SMS_294
;对学生答案文本
Figure SMS_296
,计算学生答案文本
Figure SMS_298
的TF-IDF向量,使用主成分分析法(Principal Component Analysis, PCA)分析TF-IDF向量的主要特征并进行降维,得到学生答案文本
Figure SMS_290
的隐式特征向量为
Figure SMS_293
,优选的,隐式向量特征维度选取为32;
(3-3)伪标记预测及置信伪样本采样:对于无标记数据
Figure SMS_300
,构造关于
Figure SMS_301
的敏感文本对集合:
Figure SMS_302
其中,
Figure SMS_304
为隐式特征向量最靠近
Figure SMS_311
隐式特征向量
Figure SMS_312
Figure SMS_305
个带蕴含标签的学生答案文本;使用评阅模型
Figure SMS_306
进行关系预测,得到
Figure SMS_308
个预测结果
Figure SMS_310
,相应的预测类别为
Figure SMS_303
;采用众数投票方式,得
Figure SMS_307
的伪标记为
Figure SMS_309
计算第
Figure SMS_314
次推理的概率分布
Figure SMS_316
对伪标记
Figure SMS_319
的预测概率
Figure SMS_315
与最大非伪标记预测概率之差
Figure SMS_318
,作为第
Figure SMS_320
次推理对于伪标记
Figure SMS_321
的置信度,
Figure SMS_313
越大置信度越高,其中
Figure SMS_317
Figure SMS_322
Figure SMS_323
综合
Figure SMS_324
次置信度量,得文本
Figure SMS_325
的伪标记置信度量化值为
Figure SMS_326
Figure SMS_327
Figure SMS_328
其中,
Figure SMS_330
越大,无标记数据
Figure SMS_337
的伪标记
Figure SMS_331
越置信;从
Figure SMS_333
中根据
Figure SMS_336
值从大到小不放回采样伪样本,采样和原
Figure SMS_339
相同的数据量,扩充至
Figure SMS_329
中得到样本集
Figure SMS_332
,对每个知识点对应样本集经过上述扩充过程后,原样本集
Figure SMS_335
扩充为新样本集
Figure SMS_338
(3-4)回到步骤(3-1),以样本集
Figure SMS_340
在评阅模型
Figure SMS_341
上继续微调,
Figure SMS_342
为不放回采样后剩下的无标记数据集合;
重复步骤(3-1)至步骤(3-3)共
Figure SMS_344
轮,每轮训练用样本量扩充为原先的两倍,即
Figure SMS_345
,最终通过上述自训练过程得到评阅模型
Figure SMS_346
,优选的,自训练轮数
Figure SMS_347
设为3,评阅模型三轮自训练过程如附图2所示。模型
Figure SMS_348
均为Bert-Softmax评阅模型的多次模型参数迭代版本。
实施例4、
一种实现如实施例1、2、3所述评阅方法的装置,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明记载的任一项所述方法的步骤。

Claims (8)

1.基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,包括:
(1)样本增强:用于完成对输入的评阅样本的增强任务,得到增强后的评阅样本;
(2)样本困难性评价:用于在评阅模型微调和自训练过程中计算每个样本的困难性;
(3)评阅模型微调及自训练:用于基于样本增强后的评阅样本对评阅模型进行微调训练;然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中,对评阅模型进行自训练。
2.根据权利要求1所述的基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,所述步骤(1)所述样本增强的具体方法包括,对输入的少量评阅样本进行增强:
初始少量评阅样本包括多个知识点上的若干文本推理样本;
每个知识点上的样本表示为
Figure QLYQS_2
的集合,其中
Figure QLYQS_5
为包含代表该知识点的参考答案文本
Figure QLYQS_7
和学生答案文本
Figure QLYQS_3
的文本对形式,推理标记
Figure QLYQS_4
表示文本对的蕴含和非蕴含两种推理关系;其中,蕴含关系表示学生答案文本
Figure QLYQS_6
在参考答案文本
Figure QLYQS_8
所关联的知识点上与参考答案文本
Figure QLYQS_1
语义一致,非蕴含关系则表示不一致;
(1-1)利用少量评阅样本构建NLI任务的蕴含、矛盾、中立三分类样本来进行样本增强:
(1-1-1)构造蕴含样本,使得同知识点中两个语义一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参考答案文本
Figure QLYQS_9
和呈蕴含关系的学生答案文本组成的文本对
Figure QLYQS_10
;同参考答案文本
Figure QLYQS_11
呈蕴含关系的任意两个学生答案文本组成的文本对
Figure QLYQS_12
,其标签
Figure QLYQS_13
,表蕴含;
(1-1-2)构造矛盾样本,使得同知识点中两个语义不一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参考答案文本
Figure QLYQS_14
和呈非蕴含关系的学生答案文本组成的文本对
Figure QLYQS_15
;同参考答案文本
Figure QLYQS_16
分别呈蕴含和非蕴含关系的任意两个学生答案文本组成的文本对
Figure QLYQS_17
,其标签
Figure QLYQS_18
,表矛盾;
(1-1-3)构造中立样本,使得不同知识点,即不同文本关注点,其中的单文本的语义信息得到交互,从不同知识点采样进行构造,包括某一个知识点的参考答案文本
Figure QLYQS_19
或学生答案文本
Figure QLYQS_20
,和另一知识点的学生答案文本
Figure QLYQS_21
的交互文本对
Figure QLYQS_22
,其标签
Figure QLYQS_23
,表中立;
(1-2)评阅模型对参考答案文本
Figure QLYQS_24
和学生答案文本
Figure QLYQS_25
位置调换的文本对样本进行预测时,其预测结果不变,将包含参考答案文本
Figure QLYQS_26
的文本对进行翻转增强,其标签不变;定义蕴含、矛盾、中立三类增强样本的构造比例分别为
Figure QLYQS_27
,许可一般情况
Figure QLYQS_28
,且
Figure QLYQS_29
,优选的,
Figure QLYQS_30
3.根据权利要求1所述的基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,所述步骤(2)中样本困难性评价的具体方法,包括:
(2-1)使用交叉熵损失函数
Figure QLYQS_31
训练评阅模型,经过若干轮训练让评阅模型拟合简单样本;交叉熵损失如公式(I):
Figure QLYQS_32
Figure QLYQS_33
其中,
Figure QLYQS_34
为类别标签
Figure QLYQS_35
的独热向量;
Figure QLYQS_36
为评阅模型预测的概率分布;
(2-2)计算评阅模型优化每个样本时反向传播的梯度大小来量化样本的困难性:评阅模型通过多分类器输出概率分布
Figure QLYQS_37
Figure QLYQS_39
为神经网络给分类器的输入,推导梯度知
Figure QLYQS_40
分别是
Figure QLYQS_41
的第
Figure QLYQS_42
元素值;
定义样本困难性量化值
Figure QLYQS_44
为梯度模长之和的一半:
Figure QLYQS_45
Figure QLYQS_46
其中,样本困难性量化值
Figure QLYQS_47
Figure QLYQS_48
为表示样本类别的标签集合,
Figure QLYQS_49
为样本所属类别的标签;
Figure QLYQS_50
为概率分布
Figure QLYQS_51
的第
Figure QLYQS_52
元素值,代表着评阅模型预测出样本为第
Figure QLYQS_53
类的概率;
公式(III)所示正态分布函数为加权函数,优选的,
Figure QLYQS_54
Figure QLYQS_55
Figure QLYQS_56
Figure QLYQS_57
Figure QLYQS_58
其中,根据困难性量化值
Figure QLYQS_59
,利用函数
Figure QLYQS_60
对样本的交叉熵损失进行加权,得到如公式(IV)所示难度敏感损失函数
Figure QLYQS_61
4.根据权利要求1所述的基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,所述步骤(3)评阅模型微调及自训练中:
微调是指对评阅模型参数进行微调,将评阅样本中的文本对输入给所述评阅模型,利用评阅模型的输出和样本标签计算损失函数值,利用损失函数值计算评阅模型参数的梯度,采用梯度下降的方式对参数进行微调;
在评阅模型微调后引入无标记数据参与评阅模型自训练。
5.根据权利要求1所述的基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,所述评阅模型微调涉及的评阅样本为样本增强后的评阅样本,损失函数为样本困难性评价中的两阶段损失函数;
采用验证集早停机制结束模型微调,早停轮数设置为5;
采用Adam优化器对评阅模型参数进行优化,学习率设置为
Figure QLYQS_62
评阅模型采用基于BERT编码的文本对分类模型Bert-Softmax,即评阅模型为Bert-Softmax评阅模型;将文本对
Figure QLYQS_63
以分类模型Bert-Softmax所需格式
Figure QLYQS_64
输入,选择
Figure QLYQS_65
位置的输出向量
Figure QLYQS_66
作为文本对语义交互表示向量,输入多层感知机。
6.根据权利要求5所述的基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,所述感知机层数设置为2,感知机第一层权重及偏置项为
Figure QLYQS_68
、经
Figure QLYQS_71
非线性激活输出表示向量
Figure QLYQS_74
,第二层权重及偏置项为
Figure QLYQS_69
,输出表示向量
Figure QLYQS_70
Figure QLYQS_73
后经过
Figure QLYQS_75
分类器得到标签集合
Figure QLYQS_67
上的预测概率分布
Figure QLYQS_72
,预测类别为
Figure QLYQS_76
Figure QLYQS_77
Figure QLYQS_78
Figure QLYQS_79
Figure QLYQS_80
Figure QLYQS_81
Figure QLYQS_82
Figure QLYQS_83
Figure QLYQS_84
7.根据权利要求1所述的基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,所述步骤(3)评阅模型微调及自训练的具体方法,
输入Bert-Softmax评阅模型、初始样本集
Figure QLYQS_85
中多个知识点的无标记数据集合
Figure QLYQS_86
,微调及自训练步骤如下:
(3-1)样本增强及评阅模型微调:采用步骤(1)的样本增强方法对
Figure QLYQS_87
进行增强得到增强样本集
Figure QLYQS_88
,作为训练用标记数据,对Bert-Softmax评阅模型进行微调得到评阅模型
Figure QLYQS_89
(3-2)隐式特征计算:对于初始样本集
Figure QLYQS_91
中一个知识点的样本集
Figure QLYQS_93
,与对应知识点的无标记数据
Figure QLYQS_96
中的无标记学生答案文本
Figure QLYQS_92
组成文本库
Figure QLYQS_94
;对学生答案文本
Figure QLYQS_97
,计算学生答案文本
Figure QLYQS_98
的TF-IDF向量,使用主成分分析法分析TF-IDF向量的主要特征并进行降维,得到学生答案文本
Figure QLYQS_90
的隐式特征向量为
Figure QLYQS_95
,优选的,隐式向量特征维度选取为32;
(3-3)伪标记预测及置信伪样本采样:对于无标记数据
Figure QLYQS_100
,构造关于
Figure QLYQS_101
的敏感文本对集合:
Figure QLYQS_102
其中,
Figure QLYQS_104
为隐式特征向量最靠近
Figure QLYQS_108
隐式特征向量
Figure QLYQS_110
Figure QLYQS_105
个带蕴含标签的学生答案文本;使用评阅模型
Figure QLYQS_109
进行关系预测,得到
Figure QLYQS_112
个预测结果
Figure QLYQS_103
,相应的预测类别为
Figure QLYQS_107
;采用众数投票方式,得
Figure QLYQS_111
的伪标记为
Figure QLYQS_113
计算第
Figure QLYQS_115
次推理的概率分布
Figure QLYQS_118
对伪标记
Figure QLYQS_121
的预测概率
Figure QLYQS_116
与最大非伪标记预测概率之差
Figure QLYQS_117
,作为第
Figure QLYQS_120
次推理对于伪标记
Figure QLYQS_122
的置信度,
Figure QLYQS_114
越大置信度越高,其中
Figure QLYQS_119
Figure QLYQS_123
Figure QLYQS_124
综合
Figure QLYQS_125
次置信度量,得文本
Figure QLYQS_126
的伪标记置信度量化值为
Figure QLYQS_127
Figure QLYQS_128
Figure QLYQS_129
其中,
Figure QLYQS_132
越大,无标记数据
Figure QLYQS_134
的伪标记
Figure QLYQS_137
越置信;从
Figure QLYQS_131
中根据
Figure QLYQS_133
值从大到小不放回采样伪样本,采样和原
Figure QLYQS_136
相同的数据量,扩充至
Figure QLYQS_139
中得到样本集
Figure QLYQS_130
,对每个知识点对应样本集经过上述扩充过程后,原样本集
Figure QLYQS_135
扩充为新样本集
Figure QLYQS_138
(3-4)回到步骤(3-1),以样本集
Figure QLYQS_140
在评阅模型
Figure QLYQS_141
上继续微调,
Figure QLYQS_142
为不放回采样后剩下的无标记数据集合;
重复步骤(3-1)至步骤(3-3)共
Figure QLYQS_143
轮,每轮训练用样本量扩充为原先的两倍,即
Figure QLYQS_144
,最终通过上述自训练过程得到评阅模型
Figure QLYQS_145
8.一种实现如权利要求1-7任意一项所述评阅方法的装置,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7记载的任一项所述方法的步骤。
CN202310113302.9A 2023-02-15 2023-02-15 基于样本增强和自训练的低资源文本智能评阅方法和装置 Active CN115827879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310113302.9A CN115827879B (zh) 2023-02-15 2023-02-15 基于样本增强和自训练的低资源文本智能评阅方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310113302.9A CN115827879B (zh) 2023-02-15 2023-02-15 基于样本增强和自训练的低资源文本智能评阅方法和装置

Publications (2)

Publication Number Publication Date
CN115827879A true CN115827879A (zh) 2023-03-21
CN115827879B CN115827879B (zh) 2023-05-26

Family

ID=85521381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310113302.9A Active CN115827879B (zh) 2023-02-15 2023-02-15 基于样本增强和自训练的低资源文本智能评阅方法和装置

Country Status (1)

Country Link
CN (1) CN115827879B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117932039A (zh) * 2024-03-21 2024-04-26 山东大学 基于启发式问答推理的可解释文本评阅方法和系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156766A (zh) * 2015-03-25 2016-11-23 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
CN112199472A (zh) * 2020-10-12 2021-01-08 山东山大鸥玛软件股份有限公司 一种基于迁移学习的主观题智能评卷方法、系统及设备
US20210150151A1 (en) * 2019-01-08 2021-05-20 Institute Of Automation, Chinese Academy Of Sciences Autonomous evolution intelligent dialogue method, system, and device based on a game with a physical environment
CN113344144A (zh) * 2021-07-29 2021-09-03 中国人民解放军国防科技大学 半监督的小样本类别增量学习方法、装置及分类识别方法
CN114360537A (zh) * 2021-12-27 2022-04-15 科大讯飞股份有限公司 口语问答的评分方法、训练方法、计算机设备及存储介质
CN114461802A (zh) * 2022-02-09 2022-05-10 湘潭大学 一种针对拒答问题的机器阅读理解模型的自训练方法
US20220222529A1 (en) * 2021-01-12 2022-07-14 Zhejiang Lab Method and platform for meta-knowledge fine-tuning based on domain-invariant features
CN114969260A (zh) * 2022-05-30 2022-08-30 桂林旅游学院 一种联合试题分类与评分学习的主观题自动评阅深度学习方法
US20220321612A1 (en) * 2021-04-02 2022-10-06 Whatsapp Llc Enhanced text and voice communications
CN115345243A (zh) * 2022-08-18 2022-11-15 华中师范大学 一种文本分类方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156766A (zh) * 2015-03-25 2016-11-23 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
US20210150151A1 (en) * 2019-01-08 2021-05-20 Institute Of Automation, Chinese Academy Of Sciences Autonomous evolution intelligent dialogue method, system, and device based on a game with a physical environment
CN112199472A (zh) * 2020-10-12 2021-01-08 山东山大鸥玛软件股份有限公司 一种基于迁移学习的主观题智能评卷方法、系统及设备
US20220222529A1 (en) * 2021-01-12 2022-07-14 Zhejiang Lab Method and platform for meta-knowledge fine-tuning based on domain-invariant features
US20220321612A1 (en) * 2021-04-02 2022-10-06 Whatsapp Llc Enhanced text and voice communications
CN113344144A (zh) * 2021-07-29 2021-09-03 中国人民解放军国防科技大学 半监督的小样本类别增量学习方法、装置及分类识别方法
CN114360537A (zh) * 2021-12-27 2022-04-15 科大讯飞股份有限公司 口语问答的评分方法、训练方法、计算机设备及存储介质
CN114461802A (zh) * 2022-02-09 2022-05-10 湘潭大学 一种针对拒答问题的机器阅读理解模型的自训练方法
CN114969260A (zh) * 2022-05-30 2022-08-30 桂林旅游学院 一种联合试题分类与评分学习的主观题自动评阅深度学习方法
CN115345243A (zh) * 2022-08-18 2022-11-15 华中师范大学 一种文本分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张超然;裘杭萍;孙毅;王中伟;: "基于预训练模型的机器阅读理解研究综述" *
盛晓辉等: "基于数据增强和相似伪标签的半监督文本分类算法" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117932039A (zh) * 2024-03-21 2024-04-26 山东大学 基于启发式问答推理的可解释文本评阅方法和系统
CN117932039B (zh) * 2024-03-21 2024-08-06 山东大学 基于启发式问答推理的可解释文本评阅方法和系统

Also Published As

Publication number Publication date
CN115827879B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
JP7149560B2 (ja) リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム
CN109902301B (zh) 基于深度神经网络的关系推理方法、装置及设备
CN113987187B (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
US20220366140A1 (en) Text generation apparatus, text generation learning apparatus, text generation method, text generation learning method and program
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
US20220300718A1 (en) Method, system, electronic device and storage medium for clarification question generation
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN113128206A (zh) 基于单词重要性加权的问题生成方法
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN115204143A (zh) 一种基于prompt的文本相似度计算方法及系统
CN113158674A (zh) 一种人工智能领域文档关键信息抽取方法
CN115827879A (zh) 基于样本增强和自训练的低资源文本智能评阅方法和装置
CN118364111A (zh) 一种基于大语言模型文本增强的人格检测方法
CN114970563A (zh) 融合内容和形式多样性的中文问题生成方法和系统
CN118227791A (zh) 一种基于多层次增强对比学习的慕课学习者学习成效预测方法
CN117634431A (zh) 一种评估文本风格转换质量的方法及系统
CN116543289B (zh) 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法
CN116681078A (zh) 一种基于强化学习的关键词生成方法
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant