CN116227428A - 一种基于迁移模式感知的文本风格迁移方法 - Google Patents
一种基于迁移模式感知的文本风格迁移方法 Download PDFInfo
- Publication number
- CN116227428A CN116227428A CN202310510077.2A CN202310510077A CN116227428A CN 116227428 A CN116227428 A CN 116227428A CN 202310510077 A CN202310510077 A CN 202310510077A CN 116227428 A CN116227428 A CN 116227428A
- Authority
- CN
- China
- Prior art keywords
- sentence
- migration
- style
- model
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言生成领域。本发明提供了一种基于迁移模式感知的文本风格迁移方法,对输入的文本,输出对应的迁移模式分类,基于迁移模式分类和句子表示集合,定义类内对比学习损失,基于风格和句子表示集合定义类间对比学习损,并基于类内对比学习损失、类间对比学习损失、文本风格迁移模型的损失一起计算总体损失来训练文本风格迁移模型。使用训练后的文本风格迁移模型对目标文本进行文本风格迁移。本发明增加了句子表示的准确性和区分度,进而提高文本风格迁移任务的性能。本发明将迁移模式分类提取模型与文本风格迁移模型结合使用,提高了文本风格迁移模型的性能。
Description
技术领域
本发明涉及领域人工智能领域,具体涉及一种基于迁移模式感知的文本风格迁移方法。
背景技术
文本风格迁移是自然语言生成领域中一个重要的任务,它旨在改变风格属性的同时保留句子中的内容语义,这些风格属性包括但不限于情感、礼貌和格式。它不仅可以转换文本风格来做数据增广,还有利于各种下游任务如无监督的摘要、翻译甚至语音识别。
由于缺乏成对的句子,所以目前的研究工作大都关注于自监督的方法,并且可以大致分为两种途径。第一种途径将句子分离出独立于其风格属性的表示,并使用目标风格属性对此表示进行修改。第二种途径通过使用额外的风格嵌入直接修改输入句子的表示。
然而,现有的两种途径只考虑风格之间的差异性来完成风格迁移,没有注意到风格内部迁移模式的差异性对风格迁移的影响。事实上,文本风格迁移任务中有很多迁移模式。图2展示了情感迁移任务中消极情感到积极情感的三个例子,分别对应三种不同迁移模式。第一种迁移模式是提取关键的形容词并取其反义词。第二种迁移模式是加否定助词将正向情感改变为负向情感,而最后一种是将负极性短语改变为正极性短语。这种潜在的迁移模式自然存在于各种文本中,暗示着解决文本迁移任务的不同方法。
发明内容
为解决上述问题,本发明提供一种基于迁移模式感知的文本风格迁移方法。
该方法用迁移模式分类提取模型和文本风格迁移模型,将输入的句子的风格替换成目标风格,完成文本风格迁移任务,具体包括:
步骤一,准备由N个句子和各句子对应的风格标签组成的训练数据集;
步骤六,使用训练过的文本风格迁移模型处理文本风格迁移任务。
进一步的,步骤三中,构建基于聚类算法的迁移模式分类提取模型的过程,包括:
步骤三A,定义为每个风格标签对应的迁移模式类别的数量,随机初始化一个向量作为聚类中心表示/>,1≤/>≤/>,根据句子编码向量集合/>与聚类中心表示集合/>,获得句子编码向量和聚类中心表示之间的距离矩阵/>:
步骤三E,获得完成训练的迁移模式分类提取模型。
进一步的,步骤四中,将所述训练数据集输入到文本风格迁移模型,得到句子表示集合,基于所述迁移模式分类和所述句子表示集合,定义类内对比学习损失,基于风格标签和所述句子表示集合定义类间对比学习损失/>,具体包括:
步骤四A,所述训练数据集中的句子组成句子集合B={},使用文本风格迁移模型对所述训练数据集得到句子表示集合Z={};
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供了一个迁移模式分类提取模型来自动挖掘潜在的迁移模式信息并获得迁移模式标签,然后利用句子的迁移模式标签对同一种风格内的句子进行对比学习,同时利用句子的风格标签对不同风格间的句子进行对比学习,这样增加了句子表示的准确性和区分度,进而提高文本风格迁移任务的性能。将本发明的提供的迁移模式分类提取模型与文本风格迁移模型结合使用,可以提高文本风格迁移模型的性能。
附图说明
图1为本发明实施例提供的基于聚类算法的迁移模式分类提取模型的训练流程图;
图2为现有技术中的迁移模式举例。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明,在详细说明本发明各实施例的技术方案前,对所涉及的名词和术语进行解释说明,在本说明书中,名称相同或标号相同的部件代表相似或相同的结构,且仅限于示意的目的。
本发明提出的迁移模式分类提取模型训练方法如图1所示。迁移模式分类提取模型自动挖掘每种风格中的潜在迁移模式。基于挖掘到的迁移模式信息,对比学习模块采用风格内对比学习损失和风格间对比学习损失来学习更精确的句子表示。最终这两个损失被应用于文本风格迁移模型,以进一步提高其性能。
(1)迁移模式分类提取模型
此模型的目标是挖掘潜在的迁移模式信息,将同一风格中的句子按照不同迁移模式进行聚类。本发明用两层全连接神经网络搭建迁移模式分类提取模型,并设计了一种聚类算法来对同一风格的句子进行聚类。根据句子编码向量到聚类中心(质心)的距离来对句子进行分类,然后通过所有句子编码向量的加权和来计算每个质心,最终设计了一种聚类损失来优化聚类网络以将句子划分为不同的类。聚类结果就可以看作迁移模式的监督信息来帮助获得更为精确的句子编码向量。
详细来讲,将个句子输入BERT预训练语言模型,定义/>为每个风格中的迁移模式类别的数量,对每个句子/>进行编码得到一个/>维的表示向量,所述表示向量即为句子编码向量/>,随机初始化一个向量作为聚类中心表示/>,1≤/>≤/>,迁移模式分类提取模型将句子编码向量集合/>与聚类中心表示集合/>作为输入,计算句子编码向量和聚类中心表示之间的距离矩阵/>:
为了训练迁移模式分类提取模型来获得最优的聚类范式,本发明提出了一种聚类损失来最小化句子编码向量和其相应的聚类中心表示之间的距离。聚类损失的目标是找到一个最优化的模型参数从而计算出最优化的聚类中心表示/>,以至于在句子编码向量经过此迁移模式分类提取模型后,其与相应的聚类中心表示的距离更小,与其他聚类中心表示的距离更大。聚类损失/>如下所示:
(2)对比学习模块
本发明采用有监督对比学习来正则化隐空间,使得相同迁移模式或者相同风格的句子对在隐空间中的表示更近,使得不同迁移模式和风格的句子对在隐空间中的表示更远,最终让句子表示更有准确性与区分度。基于迁移模式标签对于同一风格的数据本发明设计了类内对比学习损失,基于风格标签对于不同风格的数据本发明设计了类间对比学习损失。这两个损失最终都会应用到文本风格迁移模型上。
A.类内对比学习损失
对于句子集合中的一个句子/>,/>是/>的正向句子集合,/>里的句子都和/>有相同的迁移模式。对应地,/>,/>表示取余运算,表示/>的负向句子集合,/>里的句子都和/>有不同的迁移模式。使用文本风格迁移模型对句子集合/>得到句子表示集合/>,类内对比学习损失如下:
B.类间对比学习损失
(3)文本风格迁移模型的应用举例
本发明的训练包括了两个阶段,在第一阶段,用聚类损失训练一个独立的迁移模式分类提取模型来得到迁移模式标签。在第二阶段,基于已有的迁移模式标签与风格标签,本发明通过对比学习模块计算出/>。定义文本风格迁移模型的损失为/>,保持文本风格迁移模型的结构不变,用/>与/>联合训练得到最终的文本风格迁移模型,训练的总损失/>如下所示:
下方为两个实施例,分别利用了两个不同的主流文本风格迁移模型来解释本发明的方法。
实施例1:
RACoLN文本风格迁移模型使用背景技术中提到的第一种主流方法,即将句子分离出独立于其风格属性的表示,并使用目标风格属性对此表示进行修改。它的基础结构包括一个编码器,一个解码器还有一个风格调整器(stylizer)。编码器将输入的句子序列映射为一个和风格无关的内容表示/>,stylizer将这个内容表示/>与目标风格/>作为输入,产生一个内容相关的风格表示/>,解码器将/>与/>作为输入,产生一个新的序列/>。将/>作为RACoLN文本风格迁移模型得到的句子表示,计算总体学习损失/>,再根据总体学习损失/>计算/>,再由/>来优化RACoLN文本风格迁移模型。
详细来讲RACoLN文本风格迁移模型包括四个损失。
实施例2:
Style Transformer文本风格迁移模型使用背景技术中提到的第二种主流方法,通过使用额外的风格嵌入直接修改输入句子的表示,它采用Transformer作为自己的基本模块,加入了一个额外的风格嵌入来将句子的初始风格映射为一个风格表示向量/>。Transformer的编码器将一个句子/>与风格表示向量/>编码为一个连续的表示/>。解码器将/>作为输入,并计算出与/>和/>相关的输出。将/>作为文本风格迁移模型得到的句子表示,计算总体学习损失/>,再根据总体学习损失/>计算/>,再由/>来优化StyleTransformer文本风格迁移模型。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (6)
1.一种基于迁移模式感知的文本风格迁移方法,用迁移模式分类提取模型和文本风格迁移模型,将输入的句子的风格替换成目标风格,完成文本风格迁移任务,其特征在于,包括以下步骤:
步骤一,准备由N个句子和各句子对应的风格标签组成的训练数据集;
步骤六,使用训练过的文本风格迁移模型处理文本风格迁移任务。
2.根据权利要求1所述基于迁移模式感知的文本风格迁移方法,其特征在于,步骤三中,构建基于聚类算法的迁移模式分类提取模型的过程,包括:
步骤三A,定义为每个风格标签对应的迁移模式类别的数量,随机初始化一个向量作为聚类中心表示/>,1≤/>≤/>,根据句子编码向量集合/>与聚类中心表示集合,获得句子编码向量和聚类中心表示之间的距离矩阵/>:
步骤三E,获得完成训练的迁移模式分类提取模型。
4.根据权利要求1所述基于迁移模式感知的文本风格迁移方法,其特征在于,步骤四中,将所述训练数据集输入到文本风格迁移模型,得到句子表示集合,基于所述迁移模式分类和所述句子表示集合,定义类内对比学习损失,基于风格标签和所述句子表示集合定义类间对比学习损失/>,具体包括:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310510077.2A CN116227428B (zh) | 2023-05-08 | 2023-05-08 | 一种基于迁移模式感知的文本风格迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310510077.2A CN116227428B (zh) | 2023-05-08 | 2023-05-08 | 一种基于迁移模式感知的文本风格迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116227428A true CN116227428A (zh) | 2023-06-06 |
CN116227428B CN116227428B (zh) | 2023-07-18 |
Family
ID=86579127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310510077.2A Active CN116227428B (zh) | 2023-05-08 | 2023-05-08 | 一种基于迁移模式感知的文本风格迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116227428B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242841A (zh) * | 2020-01-15 | 2020-06-05 | 杭州电子科技大学 | 一种基于语义分割和深度学习的图片背景风格迁移方法 |
CN113095063A (zh) * | 2020-01-08 | 2021-07-09 | 中国科学院信息工程研究所 | 一种基于遮蔽语言模型的两阶段情感迁移方法和系统 |
US20210303803A1 (en) * | 2020-03-25 | 2021-09-30 | International Business Machines Corporation | Text style transfer using reinforcement learning |
CN113869420A (zh) * | 2021-09-28 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于对比学习的文本推荐方法及相关设备 |
US20220092108A1 (en) * | 2020-09-18 | 2022-03-24 | Adobe Inc. | Determining fine-grain visual style similarities for digital images by extracting style embeddings disentangled from image content |
CN114494789A (zh) * | 2022-04-02 | 2022-05-13 | 中国科学技术大学 | 图像风格迁移模型的训练方法、系统、设备及存储介质 |
CN114912434A (zh) * | 2022-05-07 | 2022-08-16 | 国家计算机网络与信息安全管理中心 | 一种风格文本的生成方法及装置、存储介质、电子设备 |
CN115578248A (zh) * | 2022-11-28 | 2023-01-06 | 南京理工大学 | 一种基于风格引导的泛化增强图像分类算法 |
CN115731119A (zh) * | 2022-10-19 | 2023-03-03 | 中国石油大学(华东) | 基于非匹配地质图像的自动去噪方法 |
CN115795039A (zh) * | 2023-02-08 | 2023-03-14 | 成都索贝数码科技股份有限公司 | 基于深度学习的风格标题生成方法、设备及介质 |
-
2023
- 2023-05-08 CN CN202310510077.2A patent/CN116227428B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095063A (zh) * | 2020-01-08 | 2021-07-09 | 中国科学院信息工程研究所 | 一种基于遮蔽语言模型的两阶段情感迁移方法和系统 |
CN111242841A (zh) * | 2020-01-15 | 2020-06-05 | 杭州电子科技大学 | 一种基于语义分割和深度学习的图片背景风格迁移方法 |
US20210303803A1 (en) * | 2020-03-25 | 2021-09-30 | International Business Machines Corporation | Text style transfer using reinforcement learning |
US20220092108A1 (en) * | 2020-09-18 | 2022-03-24 | Adobe Inc. | Determining fine-grain visual style similarities for digital images by extracting style embeddings disentangled from image content |
CN113869420A (zh) * | 2021-09-28 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于对比学习的文本推荐方法及相关设备 |
CN114494789A (zh) * | 2022-04-02 | 2022-05-13 | 中国科学技术大学 | 图像风格迁移模型的训练方法、系统、设备及存储介质 |
CN114912434A (zh) * | 2022-05-07 | 2022-08-16 | 国家计算机网络与信息安全管理中心 | 一种风格文本的生成方法及装置、存储介质、电子设备 |
CN115731119A (zh) * | 2022-10-19 | 2023-03-03 | 中国石油大学(华东) | 基于非匹配地质图像的自动去噪方法 |
CN115578248A (zh) * | 2022-11-28 | 2023-01-06 | 南京理工大学 | 一种基于风格引导的泛化增强图像分类算法 |
CN115795039A (zh) * | 2023-02-08 | 2023-03-14 | 成都索贝数码科技股份有限公司 | 基于深度学习的风格标题生成方法、设备及介质 |
Non-Patent Citations (3)
Title |
---|
YONGDONG ZHANG ET AL.: "DR2-Net:Deep Residual Reconstruction Network for image Compressive Sensing", 《NEUROCOMPUTING》, vol. 359, pages 483 - 493 * |
张勇东等: "基于循环生成对抗网络的跨媒体信息检索算法", 《计算机学报》, vol. 45, no. 7, pages 1529 - 1538 * |
高晓雪: "基于对比学习的文本风格迁移", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN116227428B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN111897949B (zh) | 一种基于Transformer的引导性文本摘要生成方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110597961B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN112306494A (zh) | 一种基于卷积和循环神经网络的代码分类及聚类方法 | |
CN111581970B (zh) | 一种网络语境的文本识别方法、装置及存储介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN111309918A (zh) | 一种基于标签关联性的多标签文本分类方法 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN112183106B (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114154504A (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
Sun et al. | Multi-classification speech emotion recognition based on two-stage bottleneck features selection and MCJD algorithm | |
CN116757195B (zh) | 一种基于提示学习的隐性情感识别方法 | |
CN113297374A (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN112528168A (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN116227428B (zh) | 一种基于迁移模式感知的文本风格迁移方法 | |
CN111368531A (zh) | 翻译文本处理方法、装置、计算机设备和存储介质 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN116595170A (zh) | 一种基于软提示的医疗文本分类方法 | |
CN117291193A (zh) | 机器翻译方法、设备及存储介质 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN113901820A (zh) | 一种基于bert模型的中文三元组抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |