CN116432605A - 融入先验知识的作文评语生成方法及装置 - Google Patents

融入先验知识的作文评语生成方法及装置 Download PDF

Info

Publication number
CN116432605A
CN116432605A CN202310700488.8A CN202310700488A CN116432605A CN 116432605 A CN116432605 A CN 116432605A CN 202310700488 A CN202310700488 A CN 202310700488A CN 116432605 A CN116432605 A CN 116432605A
Authority
CN
China
Prior art keywords
composition
attention
knowledge
priori knowledge
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310700488.8A
Other languages
English (en)
Other versions
CN116432605B (zh
Inventor
孙宇清
郑璐阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202310700488.8A priority Critical patent/CN116432605B/zh
Publication of CN116432605A publication Critical patent/CN116432605A/zh
Application granted granted Critical
Publication of CN116432605B publication Critical patent/CN116432605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种融入先验知识的作文评语生成方法及装置,属于自然语言处理的技术领域。一种融入先验知识的作文评语生成方法在作文评语生成过程中,融合了两种知识,来共同生成高质量的作文评语,分别是:内部知识和先验知识;所述内部知识是指通过对作文内容的理解和概括得到的作文语义知识,所述先验知识则是指学习到的与作文标签相关的常频词汇知识。基于以上方法生成的作文评语内容不仅包含作文核心内容,还包含了对作文各个角度的评价,使得评语内容丰富且具备评价性质。

Description

融入先验知识的作文评语生成方法及装置
技术领域
本发明公开一种融入先验知识的作文评语生成方法及装置,属于自然语言处理的技术领域。
背景技术
自然语言处理领域的文本生成任务指根据具体的任务目标,将一段原始文本转换为另一段目标文本,具体实施过程为对输入的原始文本数据进行理解和分析得到原始文本的隐含语义向量,然后通过该隐含向量生成目标文本,具有广泛的应用场景,如作文评语生成、故事生成、论文摘要生成等。在自动作文评阅系统中,通过作文评语生成装置给出作文对应的评语,可增强智能作文评阅的可解释性。作文评语生成本质上是对作文文本进行语义理解和评价,由此进行语义可控的文本生成,其困难点包括长文本理解、基于标签信息的可控作文评语生成、评语知识空间的建模以及融合多种知识的评语生成,具有重要的理论价值和应用价值。
现有的评论生成方法大多是根据输入的文本内容,通过基于模板的相关技术,生成评论文本。
中国专利文献CN115309973A公开了一种基于文章内容生成评论的方法、设备及存储介质,其中他们获取等待自动填充评论的文章的目标信息,包括文章类别及文章关键字,通过目标信息在数据库中查找匹配的目标文章,对查找到的目标文章的评论进行筛选,得到目标信息对应的评论素材,最后,根据目标信息和评论素材,借助现有的自动造句工具、模板工具来生成目标评论。但是对于作文评语生成的场景来说,首先由于作文属于创造性的文本,不同作文的内容本身就具有极大的差异性,因此,无法通过检索数据库得到内容相似的作文;其次,根据模板、自动造句等方法得到的作文评语缺乏多样性。
考虑到以上基于模板方法的局限性,一些研究从文本本身来深度挖掘信息,提供更多信息来生成相关评论。中国专利文献CN113486649A公开了一种文本评论的生成方法以及电子设备,将待评论的文本,根据文本中每个句子的关键词,确定不同句子之间的语义关系,然后将每个句子对应的句子特征以及不同句子之间的语义关系,作为已训练的文本生成模型的输入,最后将文本生成模型输出的组合概率最高的多条词汇序列作为模型评论语句。然而,针对作文评语生成的场景来说,作文评语的语义不仅仅和作文内容相关,还包含了评论性质的文本,如果生成文本所需的信息仅仅来源于作文内容是远远不够的。因此作文评语生成任务的一个困难点在于其评语语义空间和作文语义空间之间的较大差异性。
综上,利用现有技术解决作文评语生成任务中遇到的技术依然存在问题:没有针对作文评语空间的建模方法,无法满足作文评语的词汇分布特征,从而导致多样性欠佳,无法使文本中蕴含多种知识以满足评语丰富的要求。没有关注到长文本理解对作文评价的阻碍问题。没有基于标签实现可控评语生成的方法,无法应对根据标签的不同生成不同的文本的需求。
发明内容
针对现有技术的不足,本发明公开一种融入先验知识的作文评语生成方法。
本发明还公开一种实现上述作文评语生成方法的装置。
本发明还提供了一种实现上述作文评语生成方法的可读存储介质。
本发明涉及作文评语生成任务,目标是根据作文内容和作文标签,生成涵盖作文核心内容且符合标签信息的合理评价文本,标签是指作文相关的其他信息,包括作者年级、作文类型等。
发明概述
本发明在作文评语生成过程中,融合了两种知识,来共同生成高质量的作文评语,分别是:内部知识和先验知识。所述内部知识是指通过对作文内容的理解和概括得到的作文语义知识,所述先验知识则是指学习到的与作文标签相关的常频词汇知识,例如符合标签的一些常用的作文评价词汇。
为解决长文本理解挑战,本发明采用无监督摘要抽取方法,抽取长文本中的核心内容构成作文摘要。在训练过程中,解码器每次生成一个字,多次迭代后生成完整的文本。解码过程中,采用注意力模块得到当前解码器状态对内部知识的注意力分布,采用互注意力模块得到当前解码状态和内部知识共同对先验知识的注意力分布,最后通过语义融合模块将内部知识和先验知识融合到解码过程中。
基于以上方法生成的作文评语内容不仅包含作文核心内容,还包含了对作文各个角度的评价,使得评语内容丰富且具备评价性质。在生成过程中,根据每一步得到的结果和参考评语中对应位置的字计算损失函数,以此来更新模型的参数。
技术术语解释
1、作文标签:指的是每篇作文的作者年级、作文类型等相关信息,令标签的类别数为O,真实的作文标签均包含O个种类。
2、先验知识:根据已有评语的词汇统计得到的上述每个标签类别对应的评语常用词汇表。
例如,对于6年级的记叙文,所对应的先验知识包含“描写”、“叙事”、“突出”、“表达”、“生动”、“流畅”等词汇;而对于6年级的议论文,所对应的先验知识包含“论证”、“观点”、“论述”、“议论文”、“说服力”等词汇。
3、先验知识库:包含所有标签对应的先验知识的总体。
本发明的技术方案如下:
一种融入先验知识的作文评语生成方法,其特征在于,包括:
S1:针对评语词汇的先验知识学习,根据已有的评语数据,得到不同作文标签下的评语常频词汇,以构建先验知识库;
S2:输入作文文本,利用无监督摘要抽取方法,抽取作文摘要,作为内部知识;
S3:输入内部知识,经过编码器,得到内部知识的语义向量;将作文标签输入外部知识库,得到对应的先验知识,将先验知识中的词汇拼接起来输入所述编码器,得到先验知识的语义向量;
S4:解码器根据当前解码状态,通过注意力模块和互注意力模块分别得到当前解码状态对内部知识和先验知识的注意力分布,接着通过语义融合模块将内部知识和先验知识融合到解码过程中,以输出生成作文评语。
根据本发明优选的,所述S1中构建先验知识库的方法,包括:
对已有的评语数据进行常频词的统计和筛选,首先,按照作文标签,将同属于一个类别标签下的评语划分为一个集合;接着,对一个类别标签对应的评语集合中的所有评语,先进行分词操作,并去除停用词;最后,对所述集合内的所有词汇统计词频,选择前m个常频词作为所述作文标签对应的先验知识,将所有标签对应的先验知识汇总构成先验知识库。
根据《全国新课标高考作文评分标准》、《义务教育语文课程标准》以及各省的中考作文评分标准可以发现,针对不同年级、不同类型的作文,评价的标准是不一样的,通过评语内容可以发现,由于不同年级,不同类型的作文的评价角度和评价标准的不同,因此不同标签下的作文在评语的用词上也存在很大的差别。基于以上的结论,本发明通过已有的作文评语数据,学习不同作文标签类别下的评语常频词,作为先验知识,接着将学习到的先验知识引入评语生成过程中,帮助模型生成更好的作文评语。
根据本发明优选的,所述S2中,利用无监督摘要抽取方法,抽取作文摘要,作为内部知识的具体方法,包括:
所述无监督摘要抽取采用的是无监督算法TextRank抽取作文摘要,TextRank的基本思想是以句子作为顶点,边则表示两个句子对应句向量之间的相似性,将一个文本转化为一个图结构,接着通过循环迭代计算顶点的TextRank值,最后选择排名高的顶点构成文本摘要,即选择句子作为抽取的基本单位,对应于TextRank算法中的图的顶点,令作文为
Figure SMS_1
Figure SMS_2
表示作文
Figure SMS_3
的第
Figure SMS_4
个句子,则共有
Figure SMS_5
个顶点,顶点之间的边则表示了句子之间的内容相关性,边的数目为
Figure SMS_6
,所述边的权重通过由对应句向量之间的余弦相似度计算得到;
接着通过TextRank算法得到句子
Figure SMS_7
的重要性分数
Figure SMS_8
Figure SMS_9
(1);
在公式(1)中,
Figure SMS_10
表示作文
Figure SMS_11
的第
Figure SMS_12
个句子;
Figure SMS_13
中每个句子
Figure SMS_14
得到的
Figure SMS_15
分数进行排序,取前k个得分最高的句子字符串按照原文中出现的顺序拼接为作文摘要文本
Figure SMS_16
,即作文摘要文本
Figure SMS_17
是由k个作文原文的句子按原文中出现的顺序排列构成,用于概括了原文的核心内容。
根据本发明优选的,所述S3中,所述编码器均为预训练好的BERT模型,英文为Bidirectional Encoder Representations from Transformers;
具体步骤如下:
S31:将作文摘要文本A输入所述编码器中,得到作文摘要文本A编码后的语义向量
Figure SMS_18
Figure SMS_19
(2);
在公式(2)中,
Figure SMS_20
;l表示作文摘要文本
Figure SMS_21
中词元的数目;
Figure SMS_22
表示每个词向量的维度;
Figure SMS_23
表示编码器;
S32:根据作文的标签
Figure SMS_24
,得到该标签对应的先验知识,即评语常用的m个常频词
Figure SMS_25
Figure SMS_26
是常频词构成的序列,
Figure SMS_27
则表示第m个常频词,一般是由1到4个词元组成的,将所述m个常频词拼接起来,输入到所述编码器中,得到先验知识编码后的语义向量
Figure SMS_28
Figure SMS_29
(3);
在公式(3)中,
Figure SMS_30
Figure SMS_31
表示常频词
Figure SMS_32
中词元的数量;
Figure SMS_33
表示每个词向量的维度。
根据本发明优选的,在S4中,所述解码器为基于单向LSTM解码器,英文LongShort-term Memory;
具体步骤如下:
S41:在第
Figure SMS_34
个时间步,基于单向LSTM解码器的输入是第
Figure SMS_35
时刻生成的词元,记为
Figure SMS_36
,将其输入词嵌入层,词嵌入层可以视为就是对词进行编码的网络,得到编码后的输入向量
Figure SMS_37
Figure SMS_38
(4);
在公式(4)中,
Figure SMS_44
表示词嵌入层;将第
Figure SMS_40
步输入的词元表示向量
Figure SMS_49
以及上一步解码器的状态
Figure SMS_41
输入LSTM,其中
Figure SMS_48
包含了基于单向LSTM解码器在上一个时间步中记忆细胞存储的信息
Figure SMS_50
和隐藏状态
Figure SMS_55
,基于单向LSTM解码器借助
Figure SMS_46
Figure SMS_53
,并结合当前的输入
Figure SMS_39
指的是当前第
Figure SMS_47
时刻的输入
Figure SMS_42
编码后的表示向量,得到第
Figure SMS_51
步的输出
Figure SMS_45
和第
Figure SMS_52
步的隐藏状态
Figure SMS_43
和细胞状态
Figure SMS_54
Figure SMS_56
(5);
在公式(5)中,
Figure SMS_57
,第
Figure SMS_58
步的解码器状态;
S42:根据第
Figure SMS_60
步的解码器状态
Figure SMS_63
和编码器输出
Figure SMS_66
计算
Figure SMS_61
Figure SMS_62
中每个词元的注意力分布,其中
Figure SMS_65
作为注意力机制中的查询Q,
Figure SMS_68
作为注意力机制中的键K和值V的来源;注意力分布的计算采用加性注意力的计算方式,计算第
Figure SMS_59
步解码器的状态
Figure SMS_64
和解码器的输出
Figure SMS_67
之间的注意力分布
Figure SMS_69
Figure SMS_70
(6);
Figure SMS_71
(7);
在公式(6)、公式(7)中,
Figure SMS_74
表示
Figure SMS_78
中第i个词元对应的注意力分数;
Figure SMS_82
表示
Figure SMS_75
Figure SMS_77
Figure SMS_81
个词元对应的注意力分数的整体表示;
Figure SMS_84
表示
Figure SMS_72
转置后的向量;
Figure SMS_76
表示
Figure SMS_80
中第i个词元的表示向量;
Figure SMS_85
Figure SMS_73
Figure SMS_79
Figure SMS_83
均是可训练的参数,注意力分布
Figure SMS_86
为在作文摘要文本词元上的一个概率分布,用于通知解码器在生成下一个词元的时候应该关注作文摘要文本中的哪些词元;
S43:根据注意力分布
Figure SMS_87
和编码器的输出
Figure SMS_88
计算加权和,得到作文内容的上下文向量
Figure SMS_89
Figure SMS_90
(8);
在公式(8)中,
Figure SMS_91
表示
Figure SMS_92
中第i个词元在第
Figure SMS_93
时刻的均一化后的注意力分数;
S44:对于得到先验知识编码后的语义向量
Figure SMS_95
,分别计算上下文向量
Figure SMS_98
Figure SMS_100
中每个词元的注意力分布
Figure SMS_96
以及第
Figure SMS_97
步解码器的状态
Figure SMS_99
Figure SMS_101
中每个词元的注意力分布
Figure SMS_94
Figure SMS_102
(9);
Figure SMS_103
(10);
Figure SMS_104
(11);
Figure SMS_105
(12);
在公式(9)、公式(10)、公式(11)和公式(12)中,
Figure SMS_111
表示第
Figure SMS_108
步解码器的状态
Figure SMS_119
Figure SMS_106
中第i个词元的注意力分数;
Figure SMS_114
表示
Figure SMS_112
Figure SMS_118
个词元对应的注意力分数的整体表示;
Figure SMS_109
表示上下文向量
Figure SMS_120
Figure SMS_107
中第i个词元的注意力分数;
Figure SMS_115
表示
Figure SMS_110
Figure SMS_117
Figure SMS_116
个词元对应的注意力分数的整体表示;
Figure SMS_121
表示
Figure SMS_113
中第i个词元的表示向量;
Figure SMS_124
Figure SMS_129
Figure SMS_135
Figure SMS_125
Figure SMS_134
Figure SMS_140
Figure SMS_145
Figure SMS_123
均是可学习的参数,
Figure SMS_130
Figure SMS_136
转置后的表示向量,
Figure SMS_141
Figure SMS_127
转置后的表示向量,
Figure SMS_131
表示
Figure SMS_137
Figure SMS_142
的注意力分布,
Figure SMS_128
表示
Figure SMS_133
Figure SMS_139
的注意力分布;在计算
Figure SMS_144
中,
Figure SMS_122
作为注意力机制中的查询(Q),
Figure SMS_132
作为注意力机制中的键(K)和值(V)的来源;在计算
Figure SMS_138
中,
Figure SMS_143
作为注意力机制中的查询(Q),
Figure SMS_126
作为注意力机制中的键(K)和值(V)的来源;
S45:采用互注意力模块对
Figure SMS_146
Figure SMS_147
两个注意力分布进行融合,过程如附图3所示;
S46:为了将内部知识和先验知识融合到评语生成过程中,在S4中还包括语义融合模块,所述语义融合模块具体步骤如下:
S461:根据基于单向LSTM解码器最后一个单元的输出
Figure SMS_148
、以及作文内容的上下文向量
Figure SMS_149
,计算生成的字表分布
Figure SMS_150
Figure SMS_151
(18);
在公式(18)中,
Figure SMS_152
Figure SMS_153
均是可学习的参数;
S462:作文评语一般包含两个部分,第一部分是对作文核心内容的概括,第二部分是对作文各个角度的评价,因此,针对这两个部分,本发明采用了复制机制,分别从内部知识和先验知识中复制相关词汇加入到生成的文本中,具体步骤如下:
根据作文内容的上下文向量
Figure SMS_154
、第
Figure SMS_155
步解码器的状态
Figure SMS_156
、先验知识的上下文向量
Figure SMS_157
以及第
Figure SMS_158
步输入的词元表示向量
Figure SMS_159
,计算生成的概率
Figure SMS_160
,这个概率决定了从字表生成字的概率:
Figure SMS_161
(19);
在公式(19)中,
Figure SMS_162
表示sigmoid函数;
Figure SMS_163
Figure SMS_164
Figure SMS_165
Figure SMS_166
Figure SMS_167
均是可学习的参数;
然后,根据得到的作文内容上下文向量
Figure SMS_168
和先验知识上下文向量
Figure SMS_169
,计算从先验知识中复制词元的概率
Figure SMS_170
,这个概率是决定从先验知识中复制词元还是从作文原文中复制词元:
Figure SMS_171
(20);
在公式(20)中,
Figure SMS_172
表示sigmoid函数;
Figure SMS_173
Figure SMS_174
Figure SMS_175
均是可学习的参数;
最终,根据生成的字表分布
Figure SMS_176
和对原文每个字的注意力分布
Figure SMS_177
以及先验知识中每个字的注意力分布
Figure SMS_178
加权得到生成字w的概率分布
Figure SMS_179
Figure SMS_180
(21);
在公式(21)中,
Figure SMS_181
表示注意力分布
Figure SMS_182
中下标为i的字对应的均一化后的注意力分数;
Figure SMS_183
表示注意力分布
Figure SMS_184
中下标为i的字对应的均一化后的注意力分数;
计算解码器的损失函数
Figure SMS_185
,以优化模型:
Figure SMS_186
(22);
在公式(22)中,
Figure SMS_187
表示第t步真实评语的词元;
Figure SMS_188
表示评语的长度;
Figure SMS_189
表示第
Figure SMS_190
步解码器最终生成该词元的概率,以得到融入先验知识的作文评语生成模型。综上通过S2—S4得到融入先验知识的作文评语生成模型,到这里为止模型的方法描述就结束了,后面的部分是模型如何训练的方法。
根据本发明优选的,在S46中还包括S463融入先验知识的作文评语生成模型的训练流程,具体过程如下:
(a)根据已有的评语数据构造先验知识库,并使用新闻文本对模型中的LSTM部分进行预训练,形成训练好的LSTM和预训练好的BERT;选择新闻文本预训练的原因是新闻文本用词严谨,具备一定的评价性质,且长度和评语长度相似;
(b)根据训练数据对所述融入先验知识的作文评语生成模型进行联合训练;
(c)如所述融入先验知识的作文评语生成模型未完成训练,则转回步骤(b);
如果所述融入先验知识的作文评语生成模型完成训练,则保存融入先验知识的作文评语生成模型;
(d)利用保存融入先验知识的作文评语生成模型对附带标签的作文完成评语生成。
根据本发明优选的,所述S45中,采用互注意力模块对
Figure SMS_191
Figure SMS_192
两个注意力分布进行融合的具体步骤包括:
S451:将
Figure SMS_193
Figure SMS_194
在每一维上拼接得到一个注意力分布矩阵
Figure SMS_195
,由于
Figure SMS_196
Figure SMS_197
都是归一化后的结果,因此矩阵M本身就是列归一化的,每一列表示
Figure SMS_198
Figure SMS_199
对先验知识中每一个词元的注意力分数;
S452:对注意力分布矩阵M进行行归一化,
Figure SMS_200
表示先验知识中的第i个词元对
Figure SMS_201
Figure SMS_202
的注意力分数,得到先验知识对
Figure SMS_203
Figure SMS_204
的单向注意力矩阵
Figure SMS_205
Figure SMS_206
(13);
Figure SMS_207
(14);
S453:将单向注意力矩阵
Figure SMS_208
在列方向上求均值,得到先验知识对
Figure SMS_209
Figure SMS_210
的注意力分布
Figure SMS_211
Figure SMS_212
的权重系数
Figure SMS_213
Figure SMS_214
(15);
在公式(15)中,
Figure SMS_215
Figure SMS_216
表示
Figure SMS_217
对应的权重;
Figure SMS_218
表示
Figure SMS_219
对应的权重;
S454:计算
Figure SMS_220
Figure SMS_221
合并后的注意力分布
Figure SMS_222
Figure SMS_223
(16);
S455:计算先验知识的上下文向量表示
Figure SMS_224
Figure SMS_225
(17);
在公式(17)中,
Figure SMS_226
表示注意力分布
Figure SMS_227
中第i个均一化后的注意力分数,也就是先验知识表示向量
Figure SMS_228
中第i个词元对应的权重。
一种融入先验知识的作文评语生成方法的装置,其特征在于,包括:处理器、存储装置以及存储在存储装置上并在所述处理器上执行的计算机程序;
所述处理器执行计算机程序时实现:
判断是融入先验知识的作文评语生成模型的训练阶段还是使用阶段;
如果是训练阶段,则获取训练数据;根据训练数据,对融入先验知识的作文评语生成模型进行训练;训练完成后,得到融入先验知识的作文评语生成模型;
如果是使用阶段,则得到融入先验知识的作文评语生成模型,将待处理的作文以及标签输入本装置中;作文文本经过摘要抽取模块,得到内部知识,将其输入编码器中,得到内部知识的语义编码表示;作文标签经过先验知识库,得到标签对应的先验知识,将先验知识输入编码器,得到先验知识的语义编码表示;
然后将内部知识的语义编码表示输入注意力模块,得到当前状态对内部知识的注意力分布;将先验知识的语义编码表示输入互注意力模块,得到当前解码状态和内部知识对先验知识的注意力分布;
最后,将得到的两个注意力分布通过语义融合模块融合到解码过程中,通过解码器得到输出的作文评语。
一种实现上述作文评语生成方法的可读存储介质,其特征在于:
将可执行的计算机程序存储在可读存储介质上,可执行的计算机程序被执行时能够完成上述方法所述的融入先验知识的作文评语生成模型的训练过程以及生成过程。
计算机设备包含可读存储介质、处理器、内存储器、输入设备和输出设备。可读存储介质中包括数据库和可执行计算机程序;数据库中存储有先验知识库、训练数据以及模型的初始化参数,如图5所示。
本发明的技术优势包括:
1.在无可用先验知识的前提下,本发明根据历史大型考试的作文评分标准发现,作文的评价角度和范围是有界的,各个评价角度的常用评价词汇也是有限的。因此,借助已有的评语数据,根据统计学原理,得到各个标签对应的评语常频词汇表,作为标签对应的先验知识。最后,将所有标签对应的先验知识的总体表示为先验知识库。
2.本发明解决标签信息可控的作文评语生成问题。由于缺少作文评语场景中可用的先验知识,因此根据已有各种类别的作文评语数据,学习作文标签相关的常频词汇先验知识,并将先验知识融入到生成过程中,使得生成文本既满足作文评语词汇分布特征,又富有多样性。为了解决长文本理解的挑战,采用无监督摘要抽取算法,抽取作文摘要作为内部知识,将长文本转化为精炼、简洁的短文本,便于模型对文本内容的理解和分析。在解码过程中,针对作文评语的语义空间建模问题,采用注意力模块得到当前状态对内部知识的注意力分布,采用互注意力模块得到当前解码状态和内部知识与先验知识的关联,最后通过语义融合模块,融合已有评语内容、作文标签和作文内容等信息,使得生成的作文评语内容不仅包含作文内容的概括,还包含了对作文各个角度的评价,评语内容丰富且符合正常评语要求。
附图说明
图1 是本发明融入先验知识的作文评语生成方法的架构图;
图2 是本发明融入先验知识的作文评语生成模型示意图;
图3 是本发明中所述互注意力模块示意图;
图4 是本发明中融入先验知识的作文评语生成模型流程示意图;
图5 是本发明所述装置的设备结构图。
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
实施例1、
如附图1、附图2所示,一种融入先验知识的作文评语生成方法,包括:
S1:针对评语词汇的先验知识学习,根据已有的评语数据,得到不同作文标签下的评语常频词汇,以构建先验知识库;
S2:输入作文文本,利用无监督摘要抽取方法,抽取作文摘要,作为内部知识;
S3:输入内部知识,经过编码器,得到内部知识的语义向量;将作文标签输入外部知识库,得到对应的先验知识,将先验知识中的词汇拼接起来输入所述编码器,得到先验知识的语义向量;
S4:解码器根据当前解码状态,通过注意力模块和互注意力模块分别得到当前解码状态对内部知识和先验知识的注意力分布,接着通过语义融合模块将内部知识和先验知识融合到解码过程中,以输出生成作文评语。
在附图2中,<s>是解释为解码器开始解码时输入的第一个特殊词元;
所述S1中构建先验知识库的方法,包括:
对已有的评语数据进行常频词的统计和筛选,首先,按照作文标签,将同属于一个类别标签下的评语划分为一个集合;接着,对一个类别标签对应的评语集合中的所有评语,先进行分词操作,并去除停用词;最后,对所述集合内的所有词汇统计词频,选择前m个常频词作为所述作文标签对应的先验知识,将所有标签对应的先验知识汇总构成先验知识库。
所述S2中,利用无监督摘要抽取方法,抽取作文摘要,作为内部知识的具体方法,包括:
所述无监督摘要抽取采用的是无监督算法TextRank抽取作文摘要,TextRank的基本思想是以句子作为顶点,边则表示两个句子对应句向量之间的相似性,将一个文本转化为一个图结构,接着通过循环迭代计算顶点的TextRank值,最后选择排名高的顶点构成文本摘要,即选择句子作为抽取的基本单位,对应于TextRank算法中的图的顶点,令作文为
Figure SMS_229
Figure SMS_230
表示作文
Figure SMS_231
的第
Figure SMS_232
个句子,则共有
Figure SMS_233
个顶点,顶点之间的边则表示了句子之间的内容相关性,边的数目为
Figure SMS_234
,所述边的权重通过由对应句向量之间的余弦相似度计算得到;
接着通过TextRank算法得到句子
Figure SMS_235
的重要性分数
Figure SMS_236
Figure SMS_237
(1);
在公式(1)中,
Figure SMS_238
表示作文
Figure SMS_239
的第
Figure SMS_240
个句子;
Figure SMS_241
中每个句子
Figure SMS_242
得到的
Figure SMS_243
分数进行排序,取前k个得分最高的句子字符串按照原文中出现的顺序拼接为作文摘要文本
Figure SMS_244
,即作文摘要文本
Figure SMS_245
是由k个作文原文的句子按原文中出现的顺序排列构成,用于概括了原文的核心内容。
所述S3中,所述编码器均为预训练好的BERT模型,英文为Bidirectional EncoderRepresentations from Transformers;
具体步骤如下:
S31:将作文摘要文本A输入所述编码器中,得到作文摘要文本A编码后的语义向量
Figure SMS_246
Figure SMS_247
(2);
在公式(2)中,
Figure SMS_248
;l表示作文摘要文本
Figure SMS_249
中词元的数目;
Figure SMS_250
表示每个词向量的维度;
Figure SMS_251
表示编码器;
S32:根据作文的标签,得到该标签对应的先验知识,即评语常用的m个常频词
Figure SMS_253
Figure SMS_254
是常频词构成的序列,
Figure SMS_255
则表示第m个常频词,一般是由1到4个词元组成的,将所述m个常频词拼接起来,输入到所述编码器中,得到先验知识编码后的语义向量
Figure SMS_256
Figure SMS_257
(3);
在公式(3)中,
Figure SMS_258
Figure SMS_259
表示常频词
Figure SMS_260
中词元的数量;
Figure SMS_261
表示每个词向量的维度。
在S4中,所述解码器为基于单向LSTM解码器,英文Long Short-term Memory;
具体步骤如下:
S41:在第
Figure SMS_262
个时间步,基于单向LSTM解码器的输入是第
Figure SMS_263
时刻生成的词元,记为
Figure SMS_264
,将其输入词嵌入层,词嵌入层可以视为就是对词进行编码的网络,得到编码后的输入向量
Figure SMS_265
Figure SMS_266
(4);
在公式(4)中,
Figure SMS_273
表示词嵌入层;将第
Figure SMS_269
步输入的词元表示向量
Figure SMS_279
以及上一步解码器的状态
Figure SMS_271
输入LSTM,其中
Figure SMS_277
包含了基于单向LSTM解码器在上一个时间步中记忆细胞存储的信息
Figure SMS_282
和隐藏状态
Figure SMS_283
,基于单向LSTM解码器借助
Figure SMS_268
Figure SMS_276
,并结合当前的输入
Figure SMS_274
指的是当前第
Figure SMS_280
时刻的输入
Figure SMS_267
编码后的表示向量,得到第
Figure SMS_275
步的输出
Figure SMS_272
和第
Figure SMS_278
步的隐藏状态
Figure SMS_270
和细胞状态
Figure SMS_281
Figure SMS_284
(5);
在公式(5)中,
Figure SMS_285
,第
Figure SMS_286
步的解码器状态;
S42:根据第
Figure SMS_289
步的解码器状态
Figure SMS_291
和编码器输出
Figure SMS_294
计算
Figure SMS_288
Figure SMS_290
中每个词元的注意力分布,其中
Figure SMS_293
作为注意力机制中的查询Q,
Figure SMS_296
作为注意力机制中的键K和值V的来源;注意力分布的计算采用加性注意力的计算方式,计算第
Figure SMS_287
步解码器的状态
Figure SMS_292
和解码器的输出
Figure SMS_295
之间的注意力分布
Figure SMS_297
Figure SMS_298
(6);
Figure SMS_299
(7);
在公式(6)、公式(7)中,
Figure SMS_300
表示
Figure SMS_304
中第i个词元对应的注意力分数;
Figure SMS_308
表示
Figure SMS_303
Figure SMS_306
Figure SMS_310
个词元对应的注意力分数的整体表示;
Figure SMS_313
表示
Figure SMS_301
转置后的向量;
Figure SMS_307
表示
Figure SMS_311
中第i个词元的表示向量;
Figure SMS_314
Figure SMS_302
Figure SMS_305
Figure SMS_309
均是可训练的参数,注意力分布
Figure SMS_312
为在作文摘要文本词元上的一个概率分布,用于通知解码器在生成下一个词元的时候应该关注作文摘要文本中的哪些词元;
S43:根据注意力分布
Figure SMS_315
和编码器的输出
Figure SMS_316
计算加权和,得到作文内容的上下文向量
Figure SMS_317
Figure SMS_318
(8);
在公式(8)中,
Figure SMS_319
表示
Figure SMS_320
中第i个词元在第
Figure SMS_321
时刻的均一化后的注意力分数;
S44:对于得到先验知识编码后的语义向量
Figure SMS_322
,分别计算上下文向量
Figure SMS_326
Figure SMS_328
中每个词元的注意力分布
Figure SMS_324
以及第
Figure SMS_325
步解码器的状态
Figure SMS_327
Figure SMS_329
中每个词元的注意力分布
Figure SMS_323
Figure SMS_330
(9);
Figure SMS_331
(10);
Figure SMS_332
(11);
Figure SMS_333
(12);
在公式(9)、公式(10)、公式(11)和公式(12)中,
Figure SMS_350
表示第
Figure SMS_336
步解码器的状态
Figure SMS_346
Figure SMS_337
中第i个词元的注意力分数 ;
Figure SMS_343
表示
Figure SMS_335
Figure SMS_347
Figure SMS_338
个词元对应的注意力分数的整体表示;
Figure SMS_344
表示上下文向量
Figure SMS_334
Figure SMS_342
中第i个词元的注意力分数;
Figure SMS_340
表示
Figure SMS_345
Figure SMS_341
Figure SMS_348
个词元对应的注意力分数的整体表示;
Figure SMS_339
表示
Figure SMS_349
中第i个词元的表示向量;
Figure SMS_356
Figure SMS_360
Figure SMS_366
Figure SMS_355
Figure SMS_359
Figure SMS_365
Figure SMS_371
Figure SMS_351
均是可学习的参数,
Figure SMS_363
Figure SMS_369
转置后的表示向量,
Figure SMS_374
Figure SMS_357
转置后的表示向量,
Figure SMS_361
表示
Figure SMS_367
Figure SMS_372
的注意力分布,
Figure SMS_354
表示
Figure SMS_358
Figure SMS_364
的注意力分布;在计算
Figure SMS_370
中,
Figure SMS_353
作为注意力机制中的查询(Q),
Figure SMS_362
作为注意力机制中的键(K)和值(V)的来源;在计算
Figure SMS_368
中,
Figure SMS_373
作为注意力机制中的查询(Q),
Figure SMS_352
作为注意力机制中的键(K)和值(V)的来源;
S45:采用互注意力模块对
Figure SMS_375
Figure SMS_376
两个注意力分布进行融合,过程如附图3所示;
S46:为了将内部知识和先验知识融合到评语生成过程中,在S4中还包括语义融合模块,所述语义融合模块具体步骤如下:
S461:根据基于单向LSTM解码器最后一个单元的输出
Figure SMS_377
、以及作文内容的上下文向量
Figure SMS_378
,计算生成的字表分布
Figure SMS_379
Figure SMS_380
(18);
在公式(18)中,
Figure SMS_381
Figure SMS_382
均是可学习的参数;
S462:作文评语一般包含两个部分,第一部分是对作文核心内容的概括,第二部分是对作文各个角度的评价,因此,针对这两个部分,本发明采用了复制机制,分别从内部知识和先验知识中复制相关词汇加入到生成的文本中,具体步骤如下:
根据作文内容的上下文向量
Figure SMS_383
、第
Figure SMS_384
步解码器的状态
Figure SMS_385
、先验知识的上下文向量
Figure SMS_386
以及第
Figure SMS_387
步输入的词元表示向量
Figure SMS_388
,计算生成的概率
Figure SMS_389
,这个概率决定了从字表生成字的概率:
Figure SMS_390
(19);
在公式(19)中,
Figure SMS_391
表示sigmoid函数;
Figure SMS_393
Figure SMS_394
Figure SMS_395
Figure SMS_396
均是可学习的参数;
然后,根据得到的作文内容上下文向量
Figure SMS_397
和先验知识上下文向量
Figure SMS_398
,计算从先验知识中复制词元的概率
Figure SMS_399
,这个概率是决定从先验知识中复制词元还是从作文原文中复制词元:
Figure SMS_400
(20);
在公式(20)中,
Figure SMS_401
表示sigmoid函数;
Figure SMS_402
Figure SMS_403
Figure SMS_404
均是可学习的参数;
最终,根据生成的字表分布
Figure SMS_405
和对原文每个字的注意力分布
Figure SMS_406
以及先验知识中每个字的注意力分布
Figure SMS_407
加权得到生成字w的概率分布
Figure SMS_408
Figure SMS_409
(21);
在公式(21)中,
Figure SMS_410
表示注意力分布
Figure SMS_411
中下标为i的字对应的均一化后的注意力分数;
Figure SMS_412
表示注意力分布
Figure SMS_413
中下标为i的字对应的均一化后的注意力分数;
计算解码器的损失函数
Figure SMS_414
,以优化模型:
Figure SMS_415
(22);
在公式(22)中,
Figure SMS_416
表示第
Figure SMS_417
步真实评语的词元;
Figure SMS_418
表示评语的长度;
Figure SMS_419
表示第
Figure SMS_420
步解码器最终生成该词元的概率,以得到融入先验知识的作文评语生成模型。综上通过S3—S4得到融入先验知识的作文评语生成模型,到这里为止模型的方法描述就结束了,后面的部分是模型如何训练的方法。
如图1所示,输入由两个部分构成:一是原始的作文文本;二是作文附带的标签信息。
摘要抽取模块的输入是原始作文文本,抽取其核心的句子,构成作文的摘要,作为内部知识输出,以此解决长文本理解的挑战。
编码器是用于对文本的语义信息进行编码的模块。
注意力模块用于输出当前解码状态对于内部知识的注意力分布,这个分布可以告诉解码器对于内部知识中的哪些内容应该更关注。
互注意力模块根据内部知识和当前的解码状态,输出这两者共同对于先验知识的注意力分布,以此告诉解码器对先验知识中的哪些部分应该更为关注。
解码器中还包含了一个语义融合模块,这个模块是用于将内部知识和先验知识融合到每一个解码步中,通过解码器最后生成评语内容。
实施例2、
如图4所示,如实施例1所述的融入先验知识的作文评语生成方法,在S46中还包括S463融入先验知识的作文评语生成模型的训练流程,具体过程如下:
(a)根据已有的评语数据构造先验知识库,并使用新闻文本对模型中的LSTM部分进行预训练,形成训练好的LSTM和预训练好的BERT;选择新闻文本预训练的原因是新闻文本用词严谨,具备一定的评价性质,且长度和评语长度相似;
(b)根据训练数据对所述融入先验知识的作文评语生成模型进行联合训练;
(c)如所述融入先验知识的作文评语生成模型未完成训练,则转回步骤(b);
如果所述融入先验知识的作文评语生成模型完成训练,则保存融入先验知识的作文评语生成模型;
(d)利用保存融入先验知识的作文评语生成模型对附带标签的作文完成评语生成。
实施例3、
如图3所示,如实施例1所述的融入先验知识的作文评语生成方法,所述S45中,采用互注意力模块对
Figure SMS_421
Figure SMS_422
两个注意力分布进行融合的具体步骤包括:
S451:将
Figure SMS_423
Figure SMS_424
在每一维上拼接得到一个注意力分布矩阵
Figure SMS_425
,由于
Figure SMS_426
Figure SMS_427
都是归一化后的结果,因此矩阵M本身就是列归一化的,每一列表示
Figure SMS_428
Figure SMS_429
对先验知识中每一个词元的注意力分数;
S452:对注意力分布矩阵M进行行归一化,
Figure SMS_430
表示先验知识中的第i个词元对
Figure SMS_431
Figure SMS_432
的注意力分数,得到先验知识对
Figure SMS_433
Figure SMS_434
的单向注意力矩阵
Figure SMS_435
Figure SMS_436
(13);
Figure SMS_437
(14);
S453:将单向注意力矩阵
Figure SMS_438
在列方向上求均值,得到先验知识对
Figure SMS_439
Figure SMS_440
的注意力分布
Figure SMS_441
Figure SMS_442
的权重系数
Figure SMS_443
Figure SMS_444
(15);
在公式(15)中,
Figure SMS_445
Figure SMS_446
表示
Figure SMS_447
对应的权重;
Figure SMS_448
表示
Figure SMS_449
对应的权重;
S454:计算
Figure SMS_450
Figure SMS_451
合并后的注意力分布
Figure SMS_452
Figure SMS_453
(16);
在附图3中,公式(16)中两个矩阵相乘的矩阵乘法符号表示为⊙;
S455:计算先验知识的上下文向量表示
Figure SMS_454
Figure SMS_455
(17);
在公式(17)中,
Figure SMS_456
表示注意力分布
Figure SMS_457
中第i个均一化后的注意力分数,也就是先验知识表示向量
Figure SMS_458
中第i个词元对应的权重。
实施例4、
如图5所示,一种融入先验知识的作文评语生成方法的装置,包括:处理器、存储装置以及存储在存储装置上并在所述处理器上执行的计算机程序;
所述处理器执行计算机程序时实现:
判断是融入先验知识的作文评语生成模型的训练阶段还是使用阶段;
如果是训练阶段,则获取训练数据;根据训练数据,对融入先验知识的作文评语生成模型进行训练;训练完成后,得到融入先验知识的作文评语生成模型;
如果是使用阶段,则得到融入先验知识的作文评语生成模型,将待处理的作文以及标签输入本装置中;作文文本经过摘要抽取模块,得到内部知识,将其输入编码器中,得到内部知识的语义编码表示;作文标签经过先验知识库,得到标签对应的先验知识,将先验知识输入编码器,得到先验知识的语义编码表示;
然后将内部知识的语义编码表示输入注意力模块,得到当前状态对内部知识的注意力分布;将先验知识的语义编码表示输入互注意力模块,得到当前解码状态和内部知识对先验知识的注意力分布;
最后,将得到的两个注意力分布通过语义融合模块融合到解码过程中,通过解码器得到输出的作文评语。
实施例5、
一种实现如实施例1-3所述作文评语生成方法的可读存储介质,将可执行的计算机程序存储在可读存储介质上,可执行的计算机程序被执行时能够完成上述方法所述的融入先验知识的作文评语生成模型的训练过程以及生成过程。
结合本发明的实施例对以下作文进行评语生成,具体如下:
作文输入“题目:郁金香
作文正文:
我喜欢郁金香。
第一次知道“郁金香”这个名称,是在唐代大诗人李白的名诗《客中行》里读到的:兰陵美酒郁金香,玉碗盛来琥珀光。但使主人能醉客,不知何处是他乡。后来,通过电视、画报、书籍和其他途径,慢慢了解到郁金香是荷兰的国花,它的茎叶很光滑,上面有一层薄薄的白粉。叶子长出来时,通常有三到五片,叶子顶端有少数毛,一般长十五厘米,宽三厘米。郁金香的叶子基本算是长椭圆形状,长大约十到十一厘米,宽大约一到六厘米,花茎高大约六到十厘米。
郁金香的整个造型很奇特,它的花朵像王冠,叶子有点像宝剑,球根又像一条条的黄金。目前,郁金香有白色、粉色、紫色等颜色,花期能持续两个月左右,经过园艺专家们长期的杂交栽培,现在全世界已拥有了8000多个品种,被大量生产的大约有150多种。
如果说,人人都是一朵花的话,我绝不做昙花,因为它的生命太短暂了;也不做菊花,因为它太伤感、太悲观,只在百花凋零的秋天里开放;而梅花呢,它太孤僻了,只孤身一人在白雪里“笑傲江湖”;我愿意做一朵郁金香,除了给人美的享受外,还默默地为人们送去淡淡的花香……
做一朵平凡的郁金香,在人们学习、工作之余,为人们送去美和香,该多好啊!”
作文标签:5年级、状物
专家标准答案:这篇文章小作者用准确的语言为我们描写了郁金香的外形特点,同时准确中也形象生动,运用比喻的修辞手法,将郁金香的花朵比作王冠,叶子比作宝剑,球根比作黄金,生动形象,富有趣味。表达了小作者对郁金香的赞美与热爱。
输出:通过本发明实施例中所述的融入先验知识的作文评语生成模型处理,得到:这是一篇描写“郁金香”的文章,开篇点题“我喜欢郁金香”。文章字里行间流露着我对郁金香的喜爱。全文语言流畅自然,较为生动,是一篇不错的习作。结尾“做一朵平凡的郁金香,在人们学习、工作之余,为人们送去美和香”深化了主题;全文语言流畅自然,较为生动,是一篇不错的习作。如:“我愿意做一朵郁金香,除了给人美的享受外,还默默地为人们送去淡淡的花香……做一朵平凡的郁金香,在人们学习、工作之余,为人们送去美和香”。
综上,本发明针对已有各种类别的作文评语数据,学习作文标签相关的常频词汇先验知识,并将先验知识融入到生成过程中,其优势在于生成结果既满足作文评语词汇分布特征,又富有多样性;针对长文本理解挑战,采用无监督摘要抽取算法,抽取作文摘要作为内部知识;针对作文评语的语义空间建模问题,采用互注意力模块得到生成过程中每一步解码状态与内部知识对先验知识的注意力分布,进而控制二者和先验知识的关联,最后采用语义融合模块,融合已有评语内容、作文标签和作文内容等信息,使得生成的文本蕴含了多种知识,其优势在于生成的作文评语内容不仅包含作文内容的概括,还包含了对作文各个角度的评价,使得评语内容丰富且符合正常评语要求。

Claims (9)

1.一种融入先验知识的作文评语生成方法,其特征在于,包括:
S1:针对评语词汇的先验知识学习,得到不同作文标签下的评语常频词汇,以构建先验知识库;
S2:输入作文文本,利用无监督摘要抽取方法,抽取作文摘要,作为内部知识;
S3:输入内部知识,经过编码器,得到内部知识的语义向量;将作文标签输入外部知识库,得到对应的先验知识,将先验知识中的词汇拼接起来输入所述编码器,得到先验知识的语义向量;
S4:解码器根据当前解码状态,通过注意力模块和互注意力模块分别得到当前解码状态对内部知识和先验知识的注意力分布,接着通过语义融合模块将内部知识和先验知识融合到解码过程中,以输出生成作文评语。
2.根据权利要求1所述一种融入先验知识的作文评语生成方法,其特征在于,所述S1中构建先验知识库的方法,包括:
首先,按照作文标签,将同属于一个类别标签下的评语划分为一个集合;接着,对一个类别标签对应的评语集合中的所有评语,先进行分词操作,并去除停用词;最后,对所述集合内的所有词汇统计词频,选择前m个常频词作为所述作文标签对应的先验知识,将所有标签对应的先验知识汇总构成先验知识库。
3.根据权利要求1所述一种融入先验知识的作文评语生成方法,其特征在于,所述S2中,利用无监督摘要抽取方法,抽取作文摘要,作为内部知识的具体方法,包括:
所述无监督摘要抽取采用的是无监督算法TextRank抽取作文摘要,选择句子作为抽取的基本单位,对应于TextRank算法中的图的顶点,令作文为
Figure QLYQS_1
Figure QLYQS_2
表示作文
Figure QLYQS_3
的第
Figure QLYQS_4
个句子,则共有
Figure QLYQS_5
个顶点,顶点之间的边则表示了句子之间的内容相关性,边的数目为
Figure QLYQS_6
,所述边的权重通过由对应句向量之间的余弦相似度计算得到;
接着通过TextRank算法得到句子
Figure QLYQS_7
的重要性分数
Figure QLYQS_8
Figure QLYQS_9
(1);
在公式(1)中,
Figure QLYQS_10
表示作文
Figure QLYQS_11
的第
Figure QLYQS_12
个句子;
Figure QLYQS_13
中每个句子
Figure QLYQS_14
得到的
Figure QLYQS_15
分数进行排序,取前k个得分最高的句子字符串按照原文中出现的顺序拼接为作文摘要文本
Figure QLYQS_16
,即作文摘要文本
Figure QLYQS_17
是由k个作文原文的句子按原文中出现的顺序排列构成。
4.根据权利要求1所述一种融入先验知识的作文评语生成方法,其特征在于,所述S3中,所述编码器均为预训练好的BERT模型,具体步骤如下:
S31:将作文摘要文本A输入所述编码器中,得到作文摘要文本A编码后的语义向量
Figure QLYQS_18
Figure QLYQS_19
(2);
在公式(2)中,
Figure QLYQS_20
;l表示作文摘要文本
Figure QLYQS_21
中词元的数目;
Figure QLYQS_22
表示每个词向量的维度;
Figure QLYQS_23
表示编码器;
S32:根据作文的标签
Figure QLYQS_24
,得到该标签对应的先验知识,即评语常用的m个常频词
Figure QLYQS_25
Figure QLYQS_26
则表示第m个常频词,将所述m个常频词拼接起来,输入到所述编码器中,得到先验知识编码后的语义向量
Figure QLYQS_27
Figure QLYQS_28
(3);
在公式(3)中,
Figure QLYQS_29
Figure QLYQS_30
表示常频词
Figure QLYQS_31
中词元的数量;
Figure QLYQS_32
表示每个词向量的维度。
5.根据权利要求1所述一种融入先验知识的作文评语生成方法,其特征在于,在S4中,所述解码器为基于单向LSTM解码器;
具体步骤如下:
S41:在第
Figure QLYQS_33
个时间步,基于单向LSTM解码器的输入是第
Figure QLYQS_34
时刻生成的词元,记为
Figure QLYQS_35
,将其输入词嵌入层,得到编码后的输入向量
Figure QLYQS_36
Figure QLYQS_37
(4);
在公式(4)中,
Figure QLYQS_41
表示词嵌入层;将第
Figure QLYQS_45
步输入的词元表示向量
Figure QLYQS_49
以及上一步解码器的状态
Figure QLYQS_39
输入LSTM,其中
Figure QLYQS_43
包含了基于单向LSTM解码器在上一个时间步中记忆细胞存储的信息
Figure QLYQS_47
和隐藏状态
Figure QLYQS_51
,基于单向LSTM解码器借助
Figure QLYQS_38
Figure QLYQS_42
,并结合当前的输入
Figure QLYQS_46
,得到第
Figure QLYQS_50
步的输出
Figure QLYQS_40
和第
Figure QLYQS_44
步的隐藏状态
Figure QLYQS_48
和细胞状态
Figure QLYQS_52
Figure QLYQS_53
(5);
在公式(5)中,
Figure QLYQS_54
,第
Figure QLYQS_55
步的解码器状态;
S42:根据第
Figure QLYQS_57
步的解码器状态
Figure QLYQS_60
和编码器输出
Figure QLYQS_63
计算
Figure QLYQS_58
Figure QLYQS_61
中每个词元的注意力分布,其中
Figure QLYQS_64
作为注意力机制中的查询Q,
Figure QLYQS_66
作为注意力机制中的键K和值V的来源;计算第
Figure QLYQS_56
步解码器的状态
Figure QLYQS_59
和解码器的输出
Figure QLYQS_62
之间的注意力分布
Figure QLYQS_65
Figure QLYQS_67
(6);
Figure QLYQS_68
(7);
在公式(6)、公式(7)中,
Figure QLYQS_71
表示
Figure QLYQS_73
中第i个词元对应的注意力分数;
Figure QLYQS_77
表示
Figure QLYQS_70
Figure QLYQS_74
Figure QLYQS_78
个词元对应的注意力分数的整体表示;
Figure QLYQS_81
表示
Figure QLYQS_72
转置后的向量;
Figure QLYQS_76
表示
Figure QLYQS_80
中第i个词元的表示向量;
Figure QLYQS_83
Figure QLYQS_69
Figure QLYQS_75
Figure QLYQS_79
均是可训练的参数,注意力分布
Figure QLYQS_82
为在作文摘要文本词元上的一个概率分布;
S43:根据注意力分布
Figure QLYQS_84
和编码器的输出
Figure QLYQS_85
计算加权和,得到作文内容的上下文向量
Figure QLYQS_86
Figure QLYQS_87
(8);
在公式(8)中,
Figure QLYQS_88
表示
Figure QLYQS_89
中第i个词元在第
Figure QLYQS_90
时刻的均一化后的注意力分数;
S44:对于得到先验知识编码后的语义向量
Figure QLYQS_92
,分别计算上下文向量
Figure QLYQS_94
Figure QLYQS_96
中每个词元的注意力分布
Figure QLYQS_93
以及第
Figure QLYQS_95
步解码器的状态
Figure QLYQS_97
Figure QLYQS_98
中每个词元的注意力分布
Figure QLYQS_91
Figure QLYQS_99
(9);
Figure QLYQS_100
(10);
Figure QLYQS_101
(11);
Figure QLYQS_102
(12);
在公式(9)、公式(10)、公式(11)和公式(12)中,
Figure QLYQS_104
表示第
Figure QLYQS_105
步解码器的状态
Figure QLYQS_116
Figure QLYQS_108
中第i个词元的注意力分数;
Figure QLYQS_115
表示
Figure QLYQS_111
Figure QLYQS_118
个词元对应的注意力分数的整体表示;
Figure QLYQS_110
表示上下文向量
Figure QLYQS_117
Figure QLYQS_103
中第i个词元的注意力分数;
Figure QLYQS_112
表示
Figure QLYQS_107
Figure QLYQS_113
Figure QLYQS_109
个词元对应的注意力分数的整体表示;
Figure QLYQS_114
表示
Figure QLYQS_106
中第i个词元的表示向量;
Figure QLYQS_119
Figure QLYQS_126
Figure QLYQS_132
Figure QLYQS_123
Figure QLYQS_128
Figure QLYQS_134
Figure QLYQS_139
Figure QLYQS_122
均是可学习的参数,
Figure QLYQS_127
Figure QLYQS_133
转置后的表示向量,
Figure QLYQS_138
Figure QLYQS_125
转置后的表示向量,
Figure QLYQS_130
表示
Figure QLYQS_136
Figure QLYQS_141
的注意力分布,
Figure QLYQS_120
表示
Figure QLYQS_129
Figure QLYQS_135
的注意力分布;在计算
Figure QLYQS_140
中,
Figure QLYQS_121
作为注意力机制中的查询(Q),
Figure QLYQS_131
作为注意力机制中的键(K)和值(V)的来源;在计算
Figure QLYQS_137
中,
Figure QLYQS_142
作为注意力机制中的查询(Q),
Figure QLYQS_124
作为注意力机制中的键(K)和值(V)的来源;
S45:采用互注意力模块对
Figure QLYQS_143
Figure QLYQS_144
两个注意力分布进行融合;
S46:在S4中还包括语义融合模块,所述语义融合模块具体步骤如下:
S461:根据基于单向LSTM解码器最后一个单元的输出
Figure QLYQS_145
、以及作文内容的上下文向量
Figure QLYQS_146
,计算生成的字表分布
Figure QLYQS_147
Figure QLYQS_148
(18);
在公式(18)中,
Figure QLYQS_149
Figure QLYQS_150
均是可学习的参数;
S462:分别从内部知识和先验知识中复制相关词汇加入到生成的文本中,具体步骤如下:
根据作文内容的上下文向量
Figure QLYQS_151
、第
Figure QLYQS_152
步解码器的状态
Figure QLYQS_153
、先验知识的上下文向量
Figure QLYQS_154
以及第
Figure QLYQS_155
步输入的词元表示向量
Figure QLYQS_156
,计算生成的概率
Figure QLYQS_157
Figure QLYQS_158
(19);
在公式(19)中,
Figure QLYQS_159
表示sigmoid函数;
Figure QLYQS_160
Figure QLYQS_161
Figure QLYQS_162
Figure QLYQS_163
Figure QLYQS_164
均是可学习的参数;
然后,根据得到的作文内容上下文向量
Figure QLYQS_165
和先验知识上下文向量
Figure QLYQS_166
,计算从先验知识中复制词元的概率
Figure QLYQS_167
Figure QLYQS_168
(20);
在公式(20)中,
Figure QLYQS_169
表示sigmoid函数;
Figure QLYQS_170
Figure QLYQS_171
Figure QLYQS_172
均是可学习的参数;
最终,根据生成的字表分布
Figure QLYQS_173
和对原文每个字的注意力分布
Figure QLYQS_174
以及先验知识中每个字的注意力分布
Figure QLYQS_175
加权得到生成字w的概率分布
Figure QLYQS_176
Figure QLYQS_177
(21);
在公式(21)中,
Figure QLYQS_178
表示注意力分布
Figure QLYQS_179
中下标为i的字对应的均一化后的注意力分数;
Figure QLYQS_180
表示注意力分布
Figure QLYQS_181
中下标为i的字对应的均一化后的注意力分数;
计算解码器的损失函数
Figure QLYQS_182
,以优化模型:
Figure QLYQS_183
(22);
在公式(22)中,
Figure QLYQS_184
表示第
Figure QLYQS_185
步真实评语的词元;
Figure QLYQS_186
表示评语的长度;
Figure QLYQS_187
表示第
Figure QLYQS_188
步解码器最终生成该词元的概率,以得到融入先验知识的作文评语生成模型。
6.根据权利要求5所述一种融入先验知识的作文评语生成方法,其特征在于,在S46中还包括S463融入先验知识的作文评语生成模型的训练流程,具体过程如下:
(a)根据已有的评语数据构造先验知识库,并使用新闻文本对模型中的LSTM部分进行预训练,形成训练好的LSTM和预训练好的BERT;
(b)根据训练数据对所述融入先验知识的作文评语生成模型进行联合训练;
(c)如所述融入先验知识的作文评语生成模型未完成训练,则转回步骤(b);
如果所述融入先验知识的作文评语生成模型完成训练,则保存融入先验知识的作文评语生成模型;
(d)利用保存融入先验知识的作文评语生成模型对附带标签的作文完成评语生成。
7.根据权利要求5所述一种融入先验知识的作文评语生成方法,其特征在于,所述S45中,采用互注意力模块对
Figure QLYQS_189
Figure QLYQS_190
两个注意力分布进行融合的具体步骤包括:
S451:将
Figure QLYQS_191
Figure QLYQS_192
在每一维上拼接得到一个注意力分布矩阵
Figure QLYQS_193
S452:对注意力分布矩阵M进行行归一化,
Figure QLYQS_194
表示先验知识中的第i个词元对
Figure QLYQS_195
Figure QLYQS_196
的注意力分数,得到先验知识对
Figure QLYQS_197
Figure QLYQS_198
的单向注意力矩阵
Figure QLYQS_199
Figure QLYQS_200
(13);
Figure QLYQS_201
(14);
S453:将单向注意力矩阵
Figure QLYQS_202
在列方向上求均值,得到先验知识对
Figure QLYQS_203
Figure QLYQS_204
的注意力分布
Figure QLYQS_205
Figure QLYQS_206
的权重系数
Figure QLYQS_207
Figure QLYQS_208
(15);
在公式(15)中,
Figure QLYQS_209
Figure QLYQS_210
表示
Figure QLYQS_211
对应的权重;
Figure QLYQS_212
表示
Figure QLYQS_213
对应的权重;
S454:计算
Figure QLYQS_214
Figure QLYQS_215
合并后的注意力分布
Figure QLYQS_216
Figure QLYQS_217
(16);
S455:计算先验知识的上下文向量表示
Figure QLYQS_218
Figure QLYQS_219
(17);
在公式(17)中,
Figure QLYQS_220
表示注意力分布
Figure QLYQS_221
中第i个均一化后的注意力分数。
8.一种实现如权利要求1-7任意一项所述一种融入先验知识的作文评语生成方法的可读存储介质,其特征在于:将可执行的计算机程序存储在可读存储介质上,可执行的计算机程序被执行时能够完成上述方法所述的融入先验知识的作文评语生成模型的训练过程以及生成过程。
9.一种融入先验知识的作文评语生成方法的装置,其特征在于,包括:处理器、存储装置以及存储在存储装置上并在所述处理器上执行的计算机程序;
所述处理器执行计算机程序时实现:
判断是融入先验知识的作文评语生成模型的训练阶段还是使用阶段;
如果是训练阶段,则获取训练数据;根据训练数据,对融入先验知识的作文评语生成模型进行训练;训练完成后,得到融入先验知识的作文评语生成模型;
如果是使用阶段,则得到融入先验知识的作文评语生成模型,将待处理的作文以及标签输入本装置中;作文文本经过摘要抽取模块,得到内部知识,将其输入编码器中,得到内部知识的语义编码表示;作文标签经过先验知识库,得到标签对应的先验知识,将先验知识输入编码器,得到先验知识的语义编码表示;
然后将内部知识的语义编码表示输入注意力模块,得到当前状态对内部知识的注意力分布;将先验知识的语义编码表示输入互注意力模块,得到当前解码状态和内部知识对先验知识的注意力分布;
最后,将得到的两个注意力分布通过语义融合模块融合到解码过程中,通过解码器得到输出的作文评语。
CN202310700488.8A 2023-06-14 2023-06-14 融入先验知识的作文评语生成方法及装置 Active CN116432605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310700488.8A CN116432605B (zh) 2023-06-14 2023-06-14 融入先验知识的作文评语生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310700488.8A CN116432605B (zh) 2023-06-14 2023-06-14 融入先验知识的作文评语生成方法及装置

Publications (2)

Publication Number Publication Date
CN116432605A true CN116432605A (zh) 2023-07-14
CN116432605B CN116432605B (zh) 2023-09-22

Family

ID=87085911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310700488.8A Active CN116432605B (zh) 2023-06-14 2023-06-14 融入先验知识的作文评语生成方法及装置

Country Status (1)

Country Link
CN (1) CN116432605B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892720A (zh) * 2024-03-15 2024-04-16 北京和气聚力教育科技有限公司 一种中文作文ai句评流水线输出方法、装置及存储介质
CN118395953A (zh) * 2024-06-28 2024-07-26 山东山大鸥玛软件股份有限公司 融入元示例的作文评语生成方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180004718A1 (en) * 2016-06-30 2018-01-04 Yahoo Holdings, Inc. Fact machine for user generated content
CN108804417A (zh) * 2018-05-21 2018-11-13 山东科技大学 一种基于特定领域情感词的文档级情感分析方法
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法
CN113221577A (zh) * 2021-04-28 2021-08-06 西安交通大学 一种教育文本知识归纳方法、系统、设备及可读存储介质
CN113254604A (zh) * 2021-07-15 2021-08-13 山东大学 一种基于参考规范的专业文本生成方法及装置
US20210357469A1 (en) * 2020-05-14 2021-11-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for evaluating knowledge content, electronic device and storage medium
CN113673241A (zh) * 2021-08-03 2021-11-19 之江实验室 一种基于范例学习的文本摘要生成框架及方法
WO2022033332A1 (zh) * 2020-08-14 2022-02-17 腾讯科技(深圳)有限公司 对话生成方法、网络训练方法、装置、存储介质及设备
CN114398478A (zh) * 2022-01-17 2022-04-26 重庆邮电大学 一种基于bert和外部知识的生成式自动文摘方法
CN115422329A (zh) * 2022-04-22 2022-12-02 南京信息工程大学 一种基于知识驱动的多路筛选融合对话生成方法
CN115952291A (zh) * 2023-03-14 2023-04-11 山东大学 基于多头自注意力及lstm的金融舆情分类方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180004718A1 (en) * 2016-06-30 2018-01-04 Yahoo Holdings, Inc. Fact machine for user generated content
CN108804417A (zh) * 2018-05-21 2018-11-13 山东科技大学 一种基于特定领域情感词的文档级情感分析方法
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法
US20210357469A1 (en) * 2020-05-14 2021-11-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for evaluating knowledge content, electronic device and storage medium
WO2022033332A1 (zh) * 2020-08-14 2022-02-17 腾讯科技(深圳)有限公司 对话生成方法、网络训练方法、装置、存储介质及设备
CN113221577A (zh) * 2021-04-28 2021-08-06 西安交通大学 一种教育文本知识归纳方法、系统、设备及可读存储介质
CN113254604A (zh) * 2021-07-15 2021-08-13 山东大学 一种基于参考规范的专业文本生成方法及装置
CN113673241A (zh) * 2021-08-03 2021-11-19 之江实验室 一种基于范例学习的文本摘要生成框架及方法
CN114398478A (zh) * 2022-01-17 2022-04-26 重庆邮电大学 一种基于bert和外部知识的生成式自动文摘方法
CN115422329A (zh) * 2022-04-22 2022-12-02 南京信息工程大学 一种基于知识驱动的多路筛选融合对话生成方法
CN115952291A (zh) * 2023-03-14 2023-04-11 山东大学 基于多头自注意力及lstm的金融舆情分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JING SU等: "BERT-hLSTMs: BERT and hierarchical LSTMs for visual storytelling", 《COMPUTER SPEECH & LANGUAGE》 *
徐艳华;苗雨洁;苗琳;吕学强;: "基于LDA模型的HSK作文生成", 数据分析与知识发现, no. 09 *
盛艺暄;兰曼;: "利用外部知识辅助和多步推理的选择题型机器阅读理解模型", 计算机系统应用, no. 04 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892720A (zh) * 2024-03-15 2024-04-16 北京和气聚力教育科技有限公司 一种中文作文ai句评流水线输出方法、装置及存储介质
CN117892720B (zh) * 2024-03-15 2024-06-11 北京和气聚力教育科技有限公司 一种中文作文ai句评流水线输出方法、装置及存储介质
CN118395953A (zh) * 2024-06-28 2024-07-26 山东山大鸥玛软件股份有限公司 融入元示例的作文评语生成方法、装置、电子设备及存储介质
CN118395953B (zh) * 2024-06-28 2024-09-20 山东山大鸥玛软件股份有限公司 融入元示例的作文评语生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116432605B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
Biten et al. Good news, everyone! context driven entity-aware captioning for news images
CN116432605B (zh) 融入先验知识的作文评语生成方法及装置
CN107133211B (zh) 一种基于注意力机制的作文评分方法
CN111046668B (zh) 多模态文物数据的命名实体识别方法与装置
CN110390103A (zh) 基于双编码器的短文本自动摘要方法及系统
CN108986186A (zh) 文字转化视频的方法和系统
CN110909736B (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN107729326B (zh) 基于Multi-BiRNN编码的神经机器翻译方法
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
Stappen et al. Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild
CN110083824A (zh) 一种基于多模型组合神经网络的老挝语分词方法
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
Li et al. Abstractive text summarization with multi-head attention
CN112541347A (zh) 一种基于预训练模型的机器阅读理解方法
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
CN113673241B (zh) 一种基于范例学习的文本摘要生成框架系统及方法
CN114580416A (zh) 基于多视图语义特征融合的中文命名实体识别方法及装置
Lee et al. Generating Realistic Images from In-the-wild Sounds
CN111046966B (zh) 基于度量注意力机制的图像字幕生成方法
CN118014077A (zh) 一种基于知识蒸馏的多模态思维链推理方法和装置
CN113901172B (zh) 基于关键词结构编码的涉案微博评价对象抽取方法
CN113590745B (zh) 一种可解释的文本推断方法
CN112464673B (zh) 融合义原信息的语言含义理解方法
CN118395953B (zh) 融入元示例的作文评语生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant