CN116227428A - 一种基于迁移模式感知的文本风格迁移方法 - Google Patents

一种基于迁移模式感知的文本风格迁移方法 Download PDF

Info

Publication number
CN116227428A
CN116227428A CN202310510077.2A CN202310510077A CN116227428A CN 116227428 A CN116227428 A CN 116227428A CN 202310510077 A CN202310510077 A CN 202310510077A CN 116227428 A CN116227428 A CN 116227428A
Authority
CN
China
Prior art keywords
sentence
migration
style
model
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310510077.2A
Other languages
English (en)
Other versions
CN116227428B (zh
Inventor
张勇东
毛震东
赵慧婷
韩靖轩
张立成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310510077.2A priority Critical patent/CN116227428B/zh
Publication of CN116227428A publication Critical patent/CN116227428A/zh
Application granted granted Critical
Publication of CN116227428B publication Critical patent/CN116227428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言生成领域。本发明提供了一种基于迁移模式感知的文本风格迁移方法,对输入的文本,输出对应的迁移模式分类,基于迁移模式分类和句子表示集合,定义类内对比学习损失,基于风格和句子表示集合定义类间对比学习损,并基于类内对比学习损失、类间对比学习损失、文本风格迁移模型的损失一起计算总体损失来训练文本风格迁移模型。使用训练后的文本风格迁移模型对目标文本进行文本风格迁移。本发明增加了句子表示的准确性和区分度,进而提高文本风格迁移任务的性能。本发明将迁移模式分类提取模型与文本风格迁移模型结合使用,提高了文本风格迁移模型的性能。

Description

一种基于迁移模式感知的文本风格迁移方法
技术领域
本发明涉及领域人工智能领域,具体涉及一种基于迁移模式感知的文本风格迁移方法。
背景技术
文本风格迁移是自然语言生成领域中一个重要的任务,它旨在改变风格属性的同时保留句子中的内容语义,这些风格属性包括但不限于情感、礼貌和格式。它不仅可以转换文本风格来做数据增广,还有利于各种下游任务如无监督的摘要、翻译甚至语音识别。
由于缺乏成对的句子,所以目前的研究工作大都关注于自监督的方法,并且可以大致分为两种途径。第一种途径将句子分离出独立于其风格属性的表示,并使用目标风格属性对此表示进行修改。第二种途径通过使用额外的风格嵌入直接修改输入句子的表示。
然而,现有的两种途径只考虑风格之间的差异性来完成风格迁移,没有注意到风格内部迁移模式的差异性对风格迁移的影响。事实上,文本风格迁移任务中有很多迁移模式。图2展示了情感迁移任务中消极情感到积极情感的三个例子,分别对应三种不同迁移模式。第一种迁移模式是提取关键的形容词并取其反义词。第二种迁移模式是加否定助词将正向情感改变为负向情感,而最后一种是将负极性短语改变为正极性短语。这种潜在的迁移模式自然存在于各种文本中,暗示着解决文本迁移任务的不同方法。
发明内容
为解决上述问题,本发明提供一种基于迁移模式感知的文本风格迁移方法。
该方法用迁移模式分类提取模型和文本风格迁移模型,将输入的句子的风格替换成目标风格,完成文本风格迁移任务,具体包括:
步骤一,准备由N个句子和各句子对应的风格标签组成的训练数据集;
步骤二,对训练数据集中每个句子
Figure SMS_1
进行编码得到句子编码向量/>
Figure SMS_2
,d为句子编码向量的维度,j为1到N的整数;
步骤三,自适应聚类:构建基于聚类算法的迁移模式分类提取模型,将句子编码向量
Figure SMS_3
输入至迁移模式分类提取模型,输出句子编码向量/>
Figure SMS_4
对应的迁移模式分类;
步骤四,对比学习:将所述训练数据集输入到文本风格迁移模型,得到句子表示集合,基于所述迁移模式分类和所述句子表示集合,定义类内对比学习损失
Figure SMS_5
,基于风格标签和所述句子表示集合定义类间对比学习损失/>
Figure SMS_6
则对比学习总体损失
Figure SMS_7
Figure SMS_8
H为风格标签的数量,
Figure SMS_9
为第h个风格标签的类内对比学习损失;
步骤五,文本风格迁移模型的损失为
Figure SMS_10
,计算文本风格迁移任务的总体损失/>
Figure SMS_11
,其中,/>
Figure SMS_12
为一个平衡/>
Figure SMS_13
与/>
Figure SMS_14
的参数;
保持文本风格迁移模型的结构不变,基于所述总体损失
Figure SMS_15
训练文本风格迁移模型;
步骤六,使用训练过的文本风格迁移模型处理文本风格迁移任务。
进一步的,步骤三中,构建基于聚类算法的迁移模式分类提取模型的过程,包括:
步骤三A,定义
Figure SMS_16
为每个风格标签对应的迁移模式类别的数量,随机初始化一个向量作为聚类中心表示/>
Figure SMS_17
,1≤/>
Figure SMS_18
≤/>
Figure SMS_19
,根据句子编码向量集合/>
Figure SMS_20
与聚类中心表示集合/>
Figure SMS_21
,获得句子编码向量和聚类中心表示之间的距离矩阵/>
Figure SMS_22
Figure SMS_23
其中
Figure SMS_24
为距离矩阵/>
Figure SMS_26
中的元素,代表第/>
Figure SMS_27
个聚类中心表示/>
Figure SMS_25
与第/>
Figure SMS_29
个句子编码向量/>
Figure SMS_30
之间的归一化距离,/>
Figure SMS_31
是可学习的模型参数,/>
Figure SMS_28
是欧几里得距离;
步骤三B,根据所述距离矩阵
Figure SMS_32
对所述句子进行分类:
Figure SMS_33
其中
Figure SMS_34
代表句子编码向量/>
Figure SMS_35
不属于每一类的程度,/>
Figure SMS_36
为argmin函数,argmin函数根据最小距离将句子编码向量/>
Figure SMS_37
划分到相应的类,/>
Figure SMS_38
代表句子编码向量/>
Figure SMS_39
被划分到的类索引;
步骤三C,定义聚类损失函数
Figure SMS_40
为:
Figure SMS_41
其中
Figure SMS_42
代表第/>
Figure SMS_43
类聚类中心,计算/>
Figure SMS_44
最小时的模型参数/>
Figure SMS_45
步骤三D,根据聚类损失函数
Figure SMS_46
训练迁移模式分类提取模型;
步骤三E,获得完成训练的迁移模式分类提取模型。
进一步的,步骤三D中,根据聚类损失函数
Figure SMS_47
训练迁移模式分类提取模型,具体包括:
重新计算聚类中心表示
Figure SMS_48
Figure SMS_49
根据重新计算的聚类中心表示
Figure SMS_50
训练迁移模式分类提取模型。
进一步的,步骤四中,将所述训练数据集输入到文本风格迁移模型,得到句子表示集合,基于所述迁移模式分类和所述句子表示集合,定义类内对比学习损失
Figure SMS_51
,基于风格标签和所述句子表示集合定义类间对比学习损失/>
Figure SMS_52
,具体包括:
步骤四A,所述训练数据集中的句子组成句子集合B={},使用文本风格迁移模型对所述训练数据集得到句子表示集合Z={};
步骤四B,对第
Figure SMS_54
个句子/>
Figure SMS_58
,收集和/>
Figure SMS_60
有相同迁移模式分类的正向句子集合/>
Figure SMS_55
,收集和/>
Figure SMS_57
有不同迁移模式分类的负向句子集合/>
Figure SMS_59
,/>
Figure SMS_61
,/>
Figure SMS_53
为取余运算,定义类内对比学习损失/>
Figure SMS_56
如下:
Figure SMS_62
Figure SMS_65
是温度系数,/>
Figure SMS_67
代表由文本风格迁移模型获得的第/>
Figure SMS_70
个句子/>
Figure SMS_66
的句子表示,/>
Figure SMS_69
表示/>
Figure SMS_72
对应的正向句子集合/>
Figure SMS_74
中第/>
Figure SMS_63
个句子的句子表示,/>
Figure SMS_68
表示/>
Figure SMS_71
对应的负向句子集合
Figure SMS_73
中第/>
Figure SMS_64
个句子的句子表示;
步骤四C,对第
Figure SMS_77
个句子/>
Figure SMS_78
,收集和/>
Figure SMS_80
有相同风格的正向句子集合/>
Figure SMS_75
,收集和/>
Figure SMS_79
有不同风格的负向句子集合/>
Figure SMS_81
,/>
Figure SMS_82
,定义类间对比学习损失/>
Figure SMS_76
如下:
Figure SMS_83
优选的,步骤四A中,使用文本风格迁移模型对所述训练数据集得到句子表示集合
Figure SMS_84
,具体包括:
将训练数据中的句子组成句子序列
Figure SMS_85
,使用RACoLN文本风格迁移模型的编码模块将所述句子序列/>
Figure SMS_86
映射为一个和风格无关的内容表示/>
Figure SMS_87
将所述内容表示
Figure SMS_88
与目标风格/>
Figure SMS_89
作为RACoLN文本风格迁移模型的样式编辑器的输入,得到内容相关的风格表示/>
Figure SMS_90
Figure SMS_91
作为所述句子表示集合/>
Figure SMS_92
优选的,步骤四A中,使用文本风格迁移模型对所述训练数据集得到句子表示集合
Figure SMS_93
,具体包括:
使用Style Transformer文本风格迁移模型将句子的初始风格
Figure SMS_94
映射为一个风格表示向量/>
Figure SMS_95
使用Style Transformer文本风格迁移模型的编码模块将每个句子
Figure SMS_96
与所述风格表示向量/>
Figure SMS_97
编码为一个连续的表示/>
Figure SMS_98
Figure SMS_99
作为所述句子表示集合/>
Figure SMS_100
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供了一个迁移模式分类提取模型来自动挖掘潜在的迁移模式信息并获得迁移模式标签,然后利用句子的迁移模式标签对同一种风格内的句子进行对比学习,同时利用句子的风格标签对不同风格间的句子进行对比学习,这样增加了句子表示的准确性和区分度,进而提高文本风格迁移任务的性能。将本发明的提供的迁移模式分类提取模型与文本风格迁移模型结合使用,可以提高文本风格迁移模型的性能。
附图说明
图1为本发明实施例提供的基于聚类算法的迁移模式分类提取模型的训练流程图;
图2为现有技术中的迁移模式举例。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明,在详细说明本发明各实施例的技术方案前,对所涉及的名词和术语进行解释说明,在本说明书中,名称相同或标号相同的部件代表相似或相同的结构,且仅限于示意的目的。
本发明提出的迁移模式分类提取模型训练方法如图1所示。迁移模式分类提取模型自动挖掘每种风格中的潜在迁移模式。基于挖掘到的迁移模式信息,对比学习模块采用风格内对比学习损失和风格间对比学习损失来学习更精确的句子表示。最终这两个损失被应用于文本风格迁移模型,以进一步提高其性能。
(1)迁移模式分类提取模型
此模型的目标是挖掘潜在的迁移模式信息,将同一风格中的句子按照不同迁移模式进行聚类。本发明用两层全连接神经网络搭建迁移模式分类提取模型,并设计了一种聚类算法来对同一风格的句子进行聚类。根据句子编码向量到聚类中心(质心)的距离来对句子进行分类,然后通过所有句子编码向量的加权和来计算每个质心,最终设计了一种聚类损失来优化聚类网络以将句子划分为不同的类。聚类结果就可以看作迁移模式的监督信息来帮助获得更为精确的句子编码向量。
详细来讲,将
Figure SMS_103
个句子输入BERT预训练语言模型,定义/>
Figure SMS_106
为每个风格中的迁移模式类别的数量,对每个句子/>
Figure SMS_109
进行编码得到一个/>
Figure SMS_101
维的表示向量,所述表示向量即为句子编码向量/>
Figure SMS_105
,随机初始化一个向量作为聚类中心表示/>
Figure SMS_108
,1≤/>
Figure SMS_111
≤/>
Figure SMS_102
,迁移模式分类提取模型将句子编码向量集合/>
Figure SMS_104
与聚类中心表示集合/>
Figure SMS_107
作为输入,计算句子编码向量和聚类中心表示之间的距离矩阵/>
Figure SMS_110
Figure SMS_112
其中
Figure SMS_113
是距离矩阵/>
Figure SMS_117
中的元素,代表第/>
Figure SMS_120
个聚类中心表示/>
Figure SMS_115
与第/>
Figure SMS_118
个句子编码向量/>
Figure SMS_121
之间的归一化距离,代表了句子编码向量/>
Figure SMS_122
不属于第/>
Figure SMS_114
类的程度,/>
Figure SMS_116
是可学习的模型参数,/>
Figure SMS_119
是欧几里得距离;
而后,根据距离矩阵
Figure SMS_123
来对句子编码向量进行分类:
Figure SMS_124
其中
Figure SMS_125
代表句子编码向量/>
Figure SMS_126
不属于每一类的程度,/>
Figure SMS_127
函数根据最小距离将句子编码向量/>
Figure SMS_128
划分到相应的类,/>
Figure SMS_129
代表句子编码向量/>
Figure SMS_130
被划分到的类索引。
为了训练迁移模式分类提取模型来获得最优的聚类范式,本发明提出了一种聚类损失来最小化句子编码向量和其相应的聚类中心表示之间的距离。聚类损失的目标是找到一个最优化的模型参数
Figure SMS_131
从而计算出最优化的聚类中心表示/>
Figure SMS_132
,以至于在句子编码向量经过此迁移模式分类提取模型后,其与相应的聚类中心表示的距离更小,与其他聚类中心表示的距离更大。聚类损失/>
Figure SMS_133
如下所示:
Figure SMS_134
其中
Figure SMS_135
代表第/>
Figure SMS_136
类聚类中心。
之后,根据距离矩阵
Figure SMS_137
来得到所有句子编码向量的权重,并根据句子编码向量的加权和来更新聚类中心表示/>
Figure SMS_138
,更新的公式如下所示:
Figure SMS_139
当迁移模式分类提取模型充分训练后,通过计算各个
Figure SMS_140
就得到了每个句子的迁移模式分类作为迁移模式的监督信息。
(2)对比学习模块
本发明采用有监督对比学习来正则化隐空间,使得相同迁移模式或者相同风格的句子对在隐空间中的表示更近,使得不同迁移模式和风格的句子对在隐空间中的表示更远,最终让句子表示更有准确性与区分度。基于迁移模式标签对于同一风格的数据本发明设计了类内对比学习损失,基于风格标签对于不同风格的数据本发明设计了类间对比学习损失。这两个损失最终都会应用到文本风格迁移模型上。
A.类内对比学习损失
对于句子集合
Figure SMS_143
中的一个句子/>
Figure SMS_145
,/>
Figure SMS_149
是/>
Figure SMS_141
的正向句子集合,/>
Figure SMS_146
里的句子都和/>
Figure SMS_151
有相同的迁移模式。对应地,/>
Figure SMS_153
,/>
Figure SMS_142
表示取余运算,表示/>
Figure SMS_147
的负向句子集合,/>
Figure SMS_150
里的句子都和/>
Figure SMS_152
有不同的迁移模式。使用文本风格迁移模型对句子集合/>
Figure SMS_144
得到句子表示集合/>
Figure SMS_148
,类内对比学习损失如下:
Figure SMS_154
其中,
Figure SMS_156
是温度系数,/>
Figure SMS_161
表示类内对比学习损失,/>
Figure SMS_164
代表/>
Figure SMS_157
的句子表示,/>
Figure SMS_162
表示
Figure SMS_165
的正向句子集合/>
Figure SMS_166
中第/>
Figure SMS_155
个句子的句子表示,/>
Figure SMS_159
表示/>
Figure SMS_160
的负向句子集合/>
Figure SMS_163
中第/>
Figure SMS_158
个句子的句子表示。
通过最小化
Figure SMS_167
,同种迁移模式句子表示之间的距离会更近,不同迁移模式句子表示之间的距离会更远。
B.类间对比学习损失
类似的,对于句子集合
Figure SMS_170
中的一个句子/>
Figure SMS_171
,/>
Figure SMS_174
是/>
Figure SMS_168
的正向句子集合,这里面的句子都和/>
Figure SMS_172
有着相同的风格。对应地,/>
Figure SMS_175
,表示/>
Figure SMS_176
的负向句子集合,/>
Figure SMS_169
里的句子都和/>
Figure SMS_173
有不同的风格。类间对比学习损失如下:/>
Figure SMS_177
其中,
Figure SMS_179
是温度系数,/>
Figure SMS_185
表示类间对比学习损失,/>
Figure SMS_188
代表/>
Figure SMS_180
的句子表示,/>
Figure SMS_183
表示
Figure SMS_186
的正向句子集合/>
Figure SMS_189
中第/>
Figure SMS_178
个句子的句子表示,/>
Figure SMS_182
表示/>
Figure SMS_184
的负向句子集合/>
Figure SMS_187
中第/>
Figure SMS_181
个句子的句子表示。
通过最小化
Figure SMS_190
,同种风格句子表示之间的距离会更近,不同风格句子表示之间的距离会更远。
每一个风格内部都会存在一个类内对比学习损失
Figure SMS_191
,在这些风格之间还会存在一个类间对比学习损失/>
Figure SMS_192
。因此,对于/>
Figure SMS_193
种风格标签的数据集,总体的对比学习损失
Figure SMS_194
一般形式为:
Figure SMS_195
其中,
Figure SMS_196
为第h个风格标签的类内对比学习损失举例来讲;如图1所示的情感风格迁移任务,这里面有积极和消极两种风格,因此这个情感风格迁移任务中/>
Figure SMS_197
(3)文本风格迁移模型的应用举例
本发明的训练包括了两个阶段,在第一阶段,用聚类损失
Figure SMS_198
训练一个独立的迁移模式分类提取模型来得到迁移模式标签。在第二阶段,基于已有的迁移模式标签与风格标签,本发明通过对比学习模块计算出/>
Figure SMS_199
。定义文本风格迁移模型的损失为/>
Figure SMS_200
,保持文本风格迁移模型的结构不变,用/>
Figure SMS_201
与/>
Figure SMS_202
联合训练得到最终的文本风格迁移模型,训练的总损失/>
Figure SMS_203
如下所示:
Figure SMS_204
其中
Figure SMS_205
为一个平衡/>
Figure SMS_206
与/>
Figure SMS_207
的参数。
下方为两个实施例,分别利用了两个不同的主流文本风格迁移模型来解释本发明的方法。
实施例1:
RACoLN文本风格迁移模型使用背景技术中提到的第一种主流方法,即将句子分离出独立于其风格属性的表示,并使用目标风格属性对此表示进行修改。它的基础结构包括一个编码器,一个解码器还有一个风格调整器(stylizer)。编码器将输入的句子序列
Figure SMS_209
映射为一个和风格无关的内容表示/>
Figure SMS_212
,stylizer将这个内容表示/>
Figure SMS_216
与目标风格/>
Figure SMS_211
作为输入,产生一个内容相关的风格表示/>
Figure SMS_215
,解码器将/>
Figure SMS_218
与/>
Figure SMS_220
作为输入,产生一个新的序列/>
Figure SMS_208
。将/>
Figure SMS_213
作为RACoLN文本风格迁移模型得到的句子表示,计算总体学习损失/>
Figure SMS_217
,再根据总体学习损失/>
Figure SMS_219
计算/>
Figure SMS_210
,再由/>
Figure SMS_214
来优化RACoLN文本风格迁移模型。
详细来讲RACoLN文本风格迁移模型包括四个损失。
对RACoLN模型输入句子序列
Figure SMS_221
与此句子序列的初始风格/>
Figure SMS_222
,自重构损失旨在训练RACoLN模型将输入的句子序列转换为此句子序列的初始风格:
Figure SMS_223
其中,
Figure SMS_225
代表自重构损失,/>
Figure SMS_227
是输入序列/>
Figure SMS_229
的内容表示,/>
Figure SMS_226
是风格/>
Figure SMS_228
的表示,D代表句子序列x和初始风格s的集合,/>
Figure SMS_230
表示对D中的/>
Figure SMS_231
求[]内表达式的期望,/>
Figure SMS_224
是由解码器定义的序列上的条件分布。
假设本发明首先将句子序列
Figure SMS_232
转换到目标风格/>
Figure SMS_233
得到/>
Figure SMS_234
,而后又把/>
Figure SMS_235
转换为原来的风格/>
Figure SMS_236
。循环重构损失希望模型重建原来的输入/>
Figure SMS_237
Figure SMS_238
其中,
Figure SMS_239
代表循环重构损失,/>
Figure SMS_240
是转换后的句子序列/>
Figure SMS_241
的内容表示。
句子序列
Figure SMS_242
与转换后的句子序列/>
Figure SMS_243
的内容表示预期是相似的,所以有了如下的内容损失/>
Figure SMS_244
Figure SMS_245
最终为了实现风格控制,想让转换后的句子序列
Figure SMS_246
有着风格/>
Figure SMS_247
,所以有了如下风格转移损失/>
Figure SMS_248
Figure SMS_249
其中,
Figure SMS_250
是一个训练好的风格分类器,/>
Figure SMS_251
是基于此分类器的条件分布,/>
Figure SMS_252
由软采样获得。
综上,此文本风格迁移模型的基础损失
Figure SMS_253
为:
Figure SMS_254
其中
Figure SMS_255
、/>
Figure SMS_256
、/>
Figure SMS_257
、/>
Figure SMS_258
分别为平衡各个损失之间的参数。
实施例2:
Style Transformer文本风格迁移模型使用背景技术中提到的第二种主流方法,通过使用额外的风格嵌入直接修改输入句子的表示,它采用Transformer作为自己的基本模块,加入了一个额外的风格嵌入来将句子的初始风格
Figure SMS_260
映射为一个风格表示向量/>
Figure SMS_263
。Transformer的编码器将一个句子/>
Figure SMS_265
与风格表示向量/>
Figure SMS_261
编码为一个连续的表示/>
Figure SMS_266
。解码器将/>
Figure SMS_268
作为输入,并计算出与/>
Figure SMS_270
和/>
Figure SMS_259
相关的输出。将/>
Figure SMS_267
作为文本风格迁移模型得到的句子表示,计算总体学习损失/>
Figure SMS_269
,再根据总体学习损失/>
Figure SMS_271
计算/>
Figure SMS_262
,再由/>
Figure SMS_264
来优化StyleTransformer文本风格迁移模型。
详细来讲Style Transformer文本风格迁移模型包括三个损失。对模型输入一个句子
Figure SMS_272
与此句子的初始风格/>
Figure SMS_273
,自重构损失旨在训练模型重建输入的句子:
Figure SMS_274
;/>
其中,
Figure SMS_275
代表自重构损失,/>
Figure SMS_276
代表Style Transformer文本风格迁移模型中的模型参数,/>
Figure SMS_277
代表模型参数为/>
Figure SMS_278
时的输出概率分布,/>
Figure SMS_279
代表重构句子的风格。
为了保存输入句子
Figure SMS_281
的语义信息,将生成的句子/>
Figure SMS_283
与句子/>
Figure SMS_285
的初始风格
Figure SMS_282
输入到模型中。/>
Figure SMS_284
代表模型参数为/>
Figure SMS_286
的生成模型,/>
Figure SMS_287
代表目标风格,/>
Figure SMS_280
代表生成的句子。
循环损失旨在训练模型重建最初的输入
Figure SMS_288
Figure SMS_289
其中,
Figure SMS_290
代表循环损失。
为了确保输出风格的准确性,风格控制损失用一个训练好的分类器
Figure SMS_291
来训练模型:
Figure SMS_292
其中,
Figure SMS_293
代表风格控制损失,/>
Figure SMS_294
代表模型参数为/>
Figure SMS_295
时的输出概率分布,/>
Figure SMS_296
代表输出句子风格的类别。
综上Style Transformer文本风格迁移模型的损失
Figure SMS_297
为:
Figure SMS_298
其中,
Figure SMS_299
、/>
Figure SMS_300
、/>
Figure SMS_301
分别为平衡各个损失之间的参数。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (6)

1.一种基于迁移模式感知的文本风格迁移方法,用迁移模式分类提取模型和文本风格迁移模型,将输入的句子的风格替换成目标风格,完成文本风格迁移任务,其特征在于,包括以下步骤:
步骤一,准备由N个句子和各句子对应的风格标签组成的训练数据集;
步骤二,对训练数据集中每个句子
Figure QLYQS_1
进行编码得到句子编码向量/>
Figure QLYQS_2
,d为句子编码向量的维度,j为1到N的整数;
步骤三,自适应聚类:构建基于聚类算法的迁移模式分类提取模型,将句子编码向量
Figure QLYQS_3
输入至迁移模式分类提取模型,输出句子编码向量/>
Figure QLYQS_4
对应的迁移模式分类;
步骤四,对比学习:将所述训练数据集输入到文本风格迁移模型,得到句子表示集合,基于所述迁移模式分类和所述句子表示集合,定义类内对比学习损失
Figure QLYQS_5
,基于风格标签和所述句子表示集合定义类间对比学习损失/>
Figure QLYQS_6
则对比学习总体损失
Figure QLYQS_7
Figure QLYQS_8
H为风格标签的数量,
Figure QLYQS_9
为第h个风格标签的类内对比学习损失;
步骤五,文本风格迁移模型的损失为
Figure QLYQS_10
,计算文本风格迁移任务的总体损失
Figure QLYQS_11
,其中,/>
Figure QLYQS_12
为一个平衡/>
Figure QLYQS_13
与/>
Figure QLYQS_14
的参数;
保持文本风格迁移模型的结构不变,基于所述总体损失
Figure QLYQS_15
训练文本风格迁移模型;
步骤六,使用训练过的文本风格迁移模型处理文本风格迁移任务。
2.根据权利要求1所述基于迁移模式感知的文本风格迁移方法,其特征在于,步骤三中,构建基于聚类算法的迁移模式分类提取模型的过程,包括:
步骤三A,定义
Figure QLYQS_16
为每个风格标签对应的迁移模式类别的数量,随机初始化一个向量作为聚类中心表示/>
Figure QLYQS_17
,1≤/>
Figure QLYQS_18
≤/>
Figure QLYQS_19
,根据句子编码向量集合/>
Figure QLYQS_20
与聚类中心表示集合
Figure QLYQS_21
,获得句子编码向量和聚类中心表示之间的距离矩阵/>
Figure QLYQS_22
Figure QLYQS_23
其中
Figure QLYQS_25
为距离矩阵/>
Figure QLYQS_28
中的元素,代表第/>
Figure QLYQS_30
个聚类中心表示/>
Figure QLYQS_26
与第/>
Figure QLYQS_27
个句子编码向量/>
Figure QLYQS_29
之间的归一化距离,/>
Figure QLYQS_31
是可学习的模型参数,/>
Figure QLYQS_24
是欧几里得距离;
步骤三B,根据所述距离矩阵
Figure QLYQS_32
对所述句子进行分类:
Figure QLYQS_33
其中
Figure QLYQS_34
代表句子编码向量/>
Figure QLYQS_35
不属于每一类的程度,/>
Figure QLYQS_36
为argmin函数,argmin函数根据最小距离将句子编码向量/>
Figure QLYQS_37
划分到相应的类,/>
Figure QLYQS_38
代表句子编码向量/>
Figure QLYQS_39
被划分到的类索引;/>
步骤三C,定义聚类损失函数
Figure QLYQS_40
为:
Figure QLYQS_41
其中
Figure QLYQS_42
代表第/>
Figure QLYQS_43
类聚类中心,计算/>
Figure QLYQS_44
最小时的模型参数/>
Figure QLYQS_45
步骤三D,根据聚类损失函数
Figure QLYQS_46
训练迁移模式分类提取模型;
步骤三E,获得完成训练的迁移模式分类提取模型。
3.根据权利要求2所述基于迁移模式感知的文本风格迁移方法,其特征在于,步骤三D中,根据聚类损失函数
Figure QLYQS_47
训练迁移模式分类提取模型,具体包括:
重新计算聚类中心表示
Figure QLYQS_48
Figure QLYQS_49
根据重新计算的聚类中心表示
Figure QLYQS_50
训练迁移模式分类提取模型。
4.根据权利要求1所述基于迁移模式感知的文本风格迁移方法,其特征在于,步骤四中,将所述训练数据集输入到文本风格迁移模型,得到句子表示集合,基于所述迁移模式分类和所述句子表示集合,定义类内对比学习损失
Figure QLYQS_51
,基于风格标签和所述句子表示集合定义类间对比学习损失/>
Figure QLYQS_52
,具体包括:
步骤四A,所述训练数据集中的句子组成句子集合
Figure QLYQS_53
,使用文本风格迁移模型对所述训练数据集得到句子表示集合/>
Figure QLYQS_54
步骤四B,对第
Figure QLYQS_56
个句子/>
Figure QLYQS_60
,收集和/>
Figure QLYQS_62
有相同迁移模式分类的正向句子集合/>
Figure QLYQS_57
,收集和
Figure QLYQS_59
有不同迁移模式分类的负向句子集合/>
Figure QLYQS_61
,/>
Figure QLYQS_63
,/>
Figure QLYQS_55
为取余运算,定义类内对比学习损失/>
Figure QLYQS_58
如下:
Figure QLYQS_64
Figure QLYQS_65
是温度系数,/>
Figure QLYQS_73
代表由文本风格迁移模型获得的第/>
Figure QLYQS_75
个句子/>
Figure QLYQS_67
的句子表示,/>
Figure QLYQS_70
表示/>
Figure QLYQS_71
对应的正向句子集合/>
Figure QLYQS_74
中第/>
Figure QLYQS_66
个句子的句子表示,/>
Figure QLYQS_69
表示/>
Figure QLYQS_72
对应的负向句子集合/>
Figure QLYQS_76
中第/>
Figure QLYQS_68
个句子的句子表示;
步骤四C,对第
Figure QLYQS_77
个句子/>
Figure QLYQS_80
,收集和/>
Figure QLYQS_82
有相同风格的正向句子集合/>
Figure QLYQS_78
,收集和/>
Figure QLYQS_81
有不同风格的负向句子集合/>
Figure QLYQS_83
,/>
Figure QLYQS_84
,定义类间对比学习损失/>
Figure QLYQS_79
如下:
Figure QLYQS_85
5.根据权利要求4所述基于迁移模式感知的文本风格迁移方法,其特征在于,步骤四A中,使用文本风格迁移模型对所述训练数据集得到句子表示集合
Figure QLYQS_86
,具体包括:
将训练数据中的句子组成句子序列
Figure QLYQS_87
,使用RACoLN文本风格迁移模型的编码模块将所述句子序列/>
Figure QLYQS_88
映射为一个和风格无关的内容表示/>
Figure QLYQS_89
;/>
将所述内容表示
Figure QLYQS_90
与目标风格/>
Figure QLYQS_91
作为RACoLN文本风格迁移模型的样式编辑器的输入,得到内容相关的风格表示/>
Figure QLYQS_92
Figure QLYQS_93
作为所述句子表示集合/>
Figure QLYQS_94
6.根据权利要求4所述的基于迁移模式感知的文本风格迁移方法,其特征在于,步骤四A中,使用文本风格迁移模型对所述训练数据集得到句子表示集合
Figure QLYQS_95
,具体包括:
使用Style Transformer文本风格迁移模型将句子的初始风格
Figure QLYQS_96
映射为一个风格表示向量/>
Figure QLYQS_97
使用Style Transformer文本风格迁移模型的编码模块将每个句子
Figure QLYQS_98
与所述风格表示向量/>
Figure QLYQS_99
编码为一个连续的表示/>
Figure QLYQS_100
Figure QLYQS_101
作为所述句子表示集合/>
Figure QLYQS_102
。/>
CN202310510077.2A 2023-05-08 2023-05-08 一种基于迁移模式感知的文本风格迁移方法 Active CN116227428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310510077.2A CN116227428B (zh) 2023-05-08 2023-05-08 一种基于迁移模式感知的文本风格迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310510077.2A CN116227428B (zh) 2023-05-08 2023-05-08 一种基于迁移模式感知的文本风格迁移方法

Publications (2)

Publication Number Publication Date
CN116227428A true CN116227428A (zh) 2023-06-06
CN116227428B CN116227428B (zh) 2023-07-18

Family

ID=86579127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310510077.2A Active CN116227428B (zh) 2023-05-08 2023-05-08 一种基于迁移模式感知的文本风格迁移方法

Country Status (1)

Country Link
CN (1) CN116227428B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242841A (zh) * 2020-01-15 2020-06-05 杭州电子科技大学 一种基于语义分割和深度学习的图片背景风格迁移方法
CN113095063A (zh) * 2020-01-08 2021-07-09 中国科学院信息工程研究所 一种基于遮蔽语言模型的两阶段情感迁移方法和系统
US20210303803A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Text style transfer using reinforcement learning
CN113869420A (zh) * 2021-09-28 2021-12-31 平安科技(深圳)有限公司 基于对比学习的文本推荐方法及相关设备
US20220092108A1 (en) * 2020-09-18 2022-03-24 Adobe Inc. Determining fine-grain visual style similarities for digital images by extracting style embeddings disentangled from image content
CN114494789A (zh) * 2022-04-02 2022-05-13 中国科学技术大学 图像风格迁移模型的训练方法、系统、设备及存储介质
CN114912434A (zh) * 2022-05-07 2022-08-16 国家计算机网络与信息安全管理中心 一种风格文本的生成方法及装置、存储介质、电子设备
CN115578248A (zh) * 2022-11-28 2023-01-06 南京理工大学 一种基于风格引导的泛化增强图像分类算法
CN115731119A (zh) * 2022-10-19 2023-03-03 中国石油大学(华东) 基于非匹配地质图像的自动去噪方法
CN115795039A (zh) * 2023-02-08 2023-03-14 成都索贝数码科技股份有限公司 基于深度学习的风格标题生成方法、设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095063A (zh) * 2020-01-08 2021-07-09 中国科学院信息工程研究所 一种基于遮蔽语言模型的两阶段情感迁移方法和系统
CN111242841A (zh) * 2020-01-15 2020-06-05 杭州电子科技大学 一种基于语义分割和深度学习的图片背景风格迁移方法
US20210303803A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Text style transfer using reinforcement learning
US20220092108A1 (en) * 2020-09-18 2022-03-24 Adobe Inc. Determining fine-grain visual style similarities for digital images by extracting style embeddings disentangled from image content
CN113869420A (zh) * 2021-09-28 2021-12-31 平安科技(深圳)有限公司 基于对比学习的文本推荐方法及相关设备
CN114494789A (zh) * 2022-04-02 2022-05-13 中国科学技术大学 图像风格迁移模型的训练方法、系统、设备及存储介质
CN114912434A (zh) * 2022-05-07 2022-08-16 国家计算机网络与信息安全管理中心 一种风格文本的生成方法及装置、存储介质、电子设备
CN115731119A (zh) * 2022-10-19 2023-03-03 中国石油大学(华东) 基于非匹配地质图像的自动去噪方法
CN115578248A (zh) * 2022-11-28 2023-01-06 南京理工大学 一种基于风格引导的泛化增强图像分类算法
CN115795039A (zh) * 2023-02-08 2023-03-14 成都索贝数码科技股份有限公司 基于深度学习的风格标题生成方法、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YONGDONG ZHANG ET AL.: "DR2-Net:Deep Residual Reconstruction Network for image Compressive Sensing", 《NEUROCOMPUTING》, vol. 359, pages 483 - 493 *
张勇东等: "基于循环生成对抗网络的跨媒体信息检索算法", 《计算机学报》, vol. 45, no. 7, pages 1529 - 1538 *
高晓雪: "基于对比学习的文本风格迁移", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Also Published As

Publication number Publication date
CN116227428B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
CN114676234A (zh) 一种模型训练方法及相关设备
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
CN112183106B (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
Sun et al. Multi-classification speech emotion recognition based on two-stage bottleneck features selection and MCJD algorithm
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN112528168A (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN116227428B (zh) 一种基于迁移模式感知的文本风格迁移方法
CN111368531A (zh) 翻译文本处理方法、装置、计算机设备和存储介质
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116595170A (zh) 一种基于软提示的医疗文本分类方法
CN117291193A (zh) 机器翻译方法、设备及存储介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN113901820A (zh) 一种基于bert模型的中文三元组抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant