CN111931496B - 一种基于递归神经网络模型的文本风格转换系统及方法 - Google Patents

一种基于递归神经网络模型的文本风格转换系统及方法 Download PDF

Info

Publication number
CN111931496B
CN111931496B CN202010652890.XA CN202010652890A CN111931496B CN 111931496 B CN111931496 B CN 111931496B CN 202010652890 A CN202010652890 A CN 202010652890A CN 111931496 B CN111931496 B CN 111931496B
Authority
CN
China
Prior art keywords
style
vector
text
sequence
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010652890.XA
Other languages
English (en)
Other versions
CN111931496A (zh
Inventor
郝志峰
陈渝升
蔡瑞初
陈炳丰
温雯
王丽娟
陈诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010652890.XA priority Critical patent/CN111931496B/zh
Publication of CN111931496A publication Critical patent/CN111931496A/zh
Application granted granted Critical
Publication of CN111931496B publication Critical patent/CN111931496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供的一种基于递归神经网络模型的文本风格转换系统及方法,包括包括输入模块、原风格样本数据库、目标风格样本数据库、预处理模块、训练模块、模型数据库、输出模块和评价模块,能充分提取文本特征,结合半监督的方法,对平行语料库需求较低,且通过函数映射的方式实现风格转换,需要优化的参数少,容易收敛,便于实际的应用;同时,其引入反馈机制,能适时更具新增样本对模型进行调整,提高输出文本的质量。

Description

一种基于递归神经网络模型的文本风格转换系统及方法
技术领域
本发明涉及自然语言处理技术领域,更具体的,涉及一种基于递归神经网络模型的文本风格转换系统及方法。
背景技术
语言风格是自然语言交流的一个组成部分,它表达了交流发生的社会背景,并且定义了使用语言与文本可以访问的观众进行交流的特定方式,因而对“文本风格”进行因地制宜的转换对人们的工作与生活具有重要意义。现实生活中,由于教育、环境日积月累的影响,不同的人对同一件事的叙述有所不同,语言在传播的过程中不免引起歧义等问题,这阻碍了沟通的顺畅,但如果将文字通过一系列参数,在保留核心内容不变的前提下,将晦涩难懂的文本变得简单直白,则很大程度地解决了此类问题。
专利CN2018113482778公开了一种文本风格转换方法、装置及存储介质、计算机设备,其公开了一种模型用于文本风格的转换,但其需要训练及优化的参数多,不容易收敛,不便于现实的操作。
发明内容
本发明为克服现有的文本风格转换方法存在需要训练及优化的参数多,不容易收敛的技术缺陷,提供一种基于递归神经网络模型的文本风格转换系统及方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于递归神经网络模型的文本风格转换系统,包括输入模块、原风格样本数据库、目标风格样本数据库、预处理模块、训练模块、模型数据库、输出模块和评价模块;其中:
所述输入模块用于输入待处理文本;
所述原风格样本数据库根据输入待处理文本的文本风格将原风格样本数据库更新为对应的样本风格;
所述目标风格样本数据库用于保存目标风格文本;
所述预处理模块将待处理文本、目标风格文本进行预处理,得到对应文本向量化处理的结果;
所述训练模块用于构建神经网络模型,并根据对应文本向量化处理的结果进行训练,输出训练完成的神经网络模型,并由所述模型数据库进行保存;
所述输出模块将待处理文本的文本序列及词性序列输入神经网络模型中,输出文本风格转换结果;
所述评价模块对文本风格转换结果进行得分评估,根据设置的分数阈值,对分数低于分数阈值的结果进行保留修改,并反馈给所述目标风格样本数据库。
上述方案中,本发明主要用于向中文环境的文本风格转换,建立基于递归神经网络的模型,以从网上获取的不同作者文章的依据,经过筛选、分词等预处理操作,对建立的模型进行训练与测试,最终使其能够根据给定的来自某类风格/作者文本,在保证内容相符的前提下转换为另一风格。
上述方案中,输入模块在将输入文本输入预处理模块的同时,还将文本进行存储;原风格样本数据库用于保存输入的风格样本,并根据用户输入内容增加,用于模型的训练更新;目标风格样本数据库是目标风格的文本集,作为模型更新时的训练集;模型数据库用于保存训练好的模型,定期跟进更新的样本库对模型进行微调,以改进模型参数,其中对就旧版参数进行保留,用于回档,避免因更新参数陷入局部最后而影响模型表现;预处理模块,用于对文本进行向量化处理;训练模块用于根据数据库中已有的训练样本训练递归神经网络模型,并将模型保存至模型数据库中;输出模块,用于调用模型数据库中的模型,对向量化的文本数据进行风格转换,并转为文本输出;评价模块根据用户修改,对结果根据BLEU与修改程度计算得分,对分数过低的输出数据进行保留,将修改后的数据存入目标风格样本数据库中。
上述方案中,为使系统再中文语法上有较好表现,本发明系统的模型通过两个自编码机学习对应风格文本分布,保证模型能较好地提取文本特征。而对于不同风格间的转换,则通过在抽象空间上,建立两种风格间的映射函数,通过映射函数的协调实现各类文本间的灵活转换。
其中,在所述预处理模块中,所述预处理过程具体包括对文本进行清洗、分词、标注,并根据词典进行编码,进行向量化处理。
其中,在所述训练模块中,构建的神经网络模型包括输入层、编码层、解码层和权重调整模块;其中:
所述输入层用于输入待处理文本或训练文本对应的文本向量;
在所述编码层中,通过内容编码器编码得到内容特征序列,通过风格编码器得到风格特征序列;
所述解码器为待注意力机制的循环神经网络解码器,对所述内容特征进行解码并根据预设的目标风格调整解码向量,得到最终输出的词概率,再使用集束搜索得到预测句子;
所述权重调整模块通过使用交叉熵损失函数,计算预测句子与目标句子的损失函数值,通过随机梯度下降法,调整编码器的网络权重,并重新计算模型损失,直至损失函数值收敛,完成神经网络模型的训练。
其中,在所述输入层中,对预处理后的文本向量提取其对应的文本序列和词性序列,并分别将文本序列和词性序列转为独热编码,通过词嵌入方法分别将独热编码序列转化为词向量序列
Figure BDA0002575640900000035
与词性向量序列
Figure BDA0002575640900000036
其中,wi为句中第i个词的词向量,n为句子最大长度,维度大小为k,而pi为句中第i个词对应词性的高维向量,维度大小为l;最后将词向量序列与词性向量序列拼接,得到最终消歧后的输入编码x。
其中,在所述解码器中,首先计算当前时间步的上下文向量c(t)
Figure BDA0002575640900000031
Figure BDA0002575640900000032
其中,a(jt)表示与t时刻下对编码序列第j个状态的权重系数;K,Q,V的值均为对应的状态向量h经过前馈网络计算得到,f(*)计算向量之间的相似度;上下文向量c(t)是隐状态的值的加权平均;
接着根据上下文向量c(t)、上一个时间步的输出x(t-1)与隐藏向量h(t-1)计算出当前时间步的解码向量,具体表示为:
Figure BDA0002575640900000033
Figure BDA0002575640900000034
其中,拼接上下文向量c(t)与上一个时间步的输出x(t-1),连同隐藏向量h(t-1)输入到LSTM解码网络中,获得输出向量d(t);将d(t)经过线性网络映射与softmax缩放后转为输出的词概率,Woc为线性网络的权重,boc为偏置,γ为温度参数。
最后根据预设的目标风格调整解码向量:
借助注意力机制对风格特征映射,采用如下方式得到查询风格所用的键向量Ks,具体为:
Figure BDA0002575640900000041
其中,W为网络权重,b表示网络偏置,β为目标风格的编号,每一类风格有其对应的矩阵
Figure BDA0002575640900000046
每个风格矩阵由α个e维的属性向量拼接而成,α为预设种类数量,e为隐状态的尺寸;设定Ks来自矩阵中属性向量的组合,组合方式则是依靠当前输出的词汇编码
Figure BDA0002575640900000042
经过映射得到,它是一个长度为α的向量,每个维度的值均处于[0,1],表示对M中每种属性的权重;
添加对应的偏置向量Bβ,调整后的风格序列特征s(t)计算为:
Figure BDA0002575640900000043
式中,hs表示风格特征序列;之后使用用线性映射得到调整向量:
Figure BDA0002575640900000044
最终输出的词概率为二者的加权平均,其中限定内容向量输出的权重α高于风格特征的输出,具体大小根据训练数据学习得到,具体表示为:
Figure BDA0002575640900000045
一种基于递归神经网络模型的文本风格转换方法,包括学习过程和工作过程,其中:
所述学习过程具体包括以下步骤:
A1:将原风格样本数据库更新为待处理文本的文本风格,并将目标风格文本保存在目标风格样本数据库中;
A2:通过预处理模块对待处理文本、目标风格文本进行预处理,得到对应文本向量化处理的结果;
A3:通过训练模块构建并根据对应文本向量化处理的结果进行训练,输出训练完成的神经网络模型,并由模型数据库进行保存;
所述工作过程具体包括以下步骤:
B1:通过输入模块输入待处理文本;
B2:通过预处理模块对待处理文本、进行预处理,得到对应的文本向量;
B3:将文本向量输入到神经网络模型中,输出文本风格转换结果;
B4:由评价模块对文本风格转换结果进行得分评估,根据设置的分数阈值,对分数低于分数阈值的结果进行保留修改,并反馈给目标风格样本数据库,对神经网络模型进行实时更新。
其中,在所述步骤A2和B2中,所述预处理过程具体包括对文本进行清洗、分词、标注,并根据词典进行编码,进行向量化处理。
其中,在所述步骤A3中,训练模块构建的神经网络模型包括输入层、编码层、解码层和权重调整模块;其中:
所述输入层用于输入待处理文本或训练文本对应的文本向量;
在所述编码层中,通过内容编码器编码得到内容特征序列,通过风格编码器得到风格特征序列;
所述解码器为待注意力机制的循环神经网络解码器,对所述内容特征进行解码并根据预设的目标风格调整解码向量,得到最终输出的词概率,再使用集束搜索得到预测句子;
所述权重调整模块通过使用交叉熵损失函数,计算预测句子与目标句子的损失函数值,通过随机梯度下降法,调整编码器的网络权重,并重新计算模型损失,直至损失函数值收敛,完成神经网络模型的训练。
其中,在所述输入层中,对预处理后的文本向量提取其对应的文本序列和词性序列,并分别将文本序列和词性序列转为独热编码,通过词嵌入方法分别将独热编码序列转化为词向量序列
Figure BDA0002575640900000053
与词性向量序列
Figure BDA0002575640900000054
其中,wi为句中第i个词的词向量,n为句子最大长度,维度大小为k,而pi为句中第i个词对应词性的高维向量,维度大小为l;最后将词向量序列与词性向量序列拼接,得到最终消歧后的输入编码x。
其中,在所述解码器中,首先计算当前时间步的上下文向量c(t)
Figure BDA0002575640900000051
Figure BDA0002575640900000052
其中,a(jt)表示与t时刻下对编码序列第j个状态的权重系数;K,Q,V的值均为对应的状态向量h经过前馈网络计算得到,f(*)计算向量之间的相似度;上下文向量c(t)是隐状态的值的加权平均;
接着根据上下文向量c(t)、上一个时间步的输出x(t-1)与隐藏向量h(t-1)计算出当前时间步的解码向量,具体表示为:
Figure BDA0002575640900000061
Figure BDA0002575640900000062
其中,拼接上下文向量c(t)与上一个时间步的输出x(t-1),连同隐藏向量h(t-1)输入到LSTM解码网络中,获得输出向量d(t);将d(t)经过线性网络映射与softmax缩放后转为输出的词概率,Woc为线性网络的权重,boc为偏置,γ为温度参数。
最后根据预设的目标风格调整解码向量:
借助注意力机制对风格特征映射,采用如下方式得到查询风格所用的键向量Ks,具体为:
Figure BDA0002575640900000063
其中,W为网络权重,b表示网络偏置,β为目标风格的编号,每一类风格有其对应的矩阵
Figure BDA0002575640900000068
每个风格矩阵由α个e维的属性向量拼接而成,α为预设种类数量,e为隐状态的尺寸;设定Ks来自矩阵中属性向量的组合,组合方式则是依靠当前输出的词汇编码
Figure BDA0002575640900000064
经过映射得到,它是一个长度为α的向量,每个维度的值均处于[0,1],表示对M中每种属性的权重;
添加对应的偏置向量Bβ,调整后的风格序列特征s(t)计算为:
Figure BDA0002575640900000065
式中,hs表示风格特征序列;之后使用用线性映射得到调整向量:
Figure BDA0002575640900000066
最终输出的词概率为二者的加权平均,其中限定内容向量输出的权重α高于风格特征的输出,具体大小根据训练数据学习得到,具体表示为:
Figure BDA0002575640900000067
与现有技术相比,本发明技术方案的有益效果是:
本发明提供的一种基于递归神经网络模型的文本风格转换系统及方法,能充分提取文本特征,结合半监督的方法,对平行语料库需求较低,且通过函数映射的方式实现风格转换,需要优化的参数少,容易收敛,便于实际的应用;同时,其引入反馈机制,能适时更具新增样本对模型进行调整,提高输出文本的质量。
附图说明
图1为本发明所述系统结构示意图;
图2为本发明所述的学习过程流程图;
图3为本发明所述的工作过程流程图;
图4为本发明一实施例的模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于递归神经网络模型的文本风格转换系统,包括输入模块、原风格样本数据库、目标风格样本数据库、预处理模块、训练模块、模型数据库、输出模块和评价模块;其中:
所述输入模块用于输入待处理文本;
所述原风格样本数据库根据输入待处理文本的文本风格将原风格样本数据库更新为对应的样本风格;
所述目标风格样本数据库用于保存目标风格文本;
所述预处理模块将待处理文本、目标风格文本进行预处理,得到对应文本向量化处理的结果;
所述训练模块用于构建神经网络模型,并根据对应文本向量化处理的结果进行训练,输出训练完成的神经网络模型,并由所述模型数据库进行保存;
所述输出模块将待处理文本的文本序列及词性序列输入神经网络模型中,输出文本风格转换结果;
所述评价模块对文本风格转换结果进行得分评估,根据设置的分数阈值,对分数低于分数阈值的结果进行保留修改,并反馈给所述目标风格样本数据库。
在具体实施过程中,本发明主要用于向中文环境的文本风格转换,建立基于递归神经网络的模型,以从网上获取的不同作者文章的依据,经过筛选、分词等预处理操作,对建立的模型进行训练与测试,最终使其能够根据给定的来自某类风格/作者文本,在保证内容相符的前提下转换为另一风格。
在具体实施过程中,输入模块在将输入文本输入预处理模块的同时,还将文本进行存储;原风格样本数据库用于保存输入的风格样本,并根据用户输入内容增加,用于模型的训练更新;目标风格样本数据库是目标风格的文本集,作为模型更新时的训练集;模型数据库用于保存训练好的模型,定期跟进更新的样本库对模型进行微调,以改进模型参数,其中对就旧版参数进行保留,用于回档,避免因更新参数陷入局部最后而影响模型表现;预处理模块,用于对文本进行向量化处理;训练模块用于根据数据库中已有的训练样本训练递归神经网络模型,并将模型保存至模型数据库中;输出模块,用于调用模型数据库中的模型,对向量化的文本数据进行风格转换,并转为文本输出;评价模块根据用户修改,对结果根据BLEU与修改程度计算得分,对分数过低的输出数据进行保留,将修改后的数据存入目标风格样本数据库中。
在具体实施过程中,为使系统再中文语法上有较好表现,本发明系统的模型通过两个自编码机学习对应风格文本分布,保证模型能较好地提取文本特征。而对于不同风格间的转换,则通过在抽象空间上,建立两种风格间的映射函数,通过映射函数的协调实现各类文本间的灵活转换。
更具体的,在所述预处理模块中,所述预处理过程具体包括对文本进行清洗、分词、标注,并根据词典进行编码,进行向量化处理。
更具体的,在所述训练模块中,构建的神经网络模型包括输入层、编码层、解码层和权重调整模块;其中:
所述输入层用于输入待处理文本或训练文本对应的文本向量;
在所述编码层中,通过内容编码器编码得到内容特征序列,通过风格编码器得到风格特征序列;
所述解码器为待注意力机制的循环神经网络解码器,对所述内容特征进行解码并根据预设的目标风格调整解码向量,得到最终输出的词概率,再使用集束搜索得到预测句子;
所述权重调整模块通过使用交叉熵损失函数,计算预测句子与目标句子的损失函数值,通过随机梯度下降法,调整编码器的网络权重,并重新计算模型损失,直至损失函数值收敛,完成神经网络模型的训练。
更具体的,在所述输入层中,对预处理后的文本向量提取其对应的文本序列和词性序列,并分别将文本序列和词性序列转为独热编码,通过词嵌入方法分别将独热编码序列转化为词向量序列
Figure BDA0002575640900000099
与词性向量序列
Figure BDA00025756409000000910
其中,wi为句中第i个词的词向量,n为句子最大长度,维度大小为k,而pi为句中第i个词对应词性的高维向量,维度大小为l;最后将词向量序列与词性向量序列拼接,得到最终消歧后的输入编码x。
更具体的,在所述解码器中,首先计算当前时间步的上下文向量c(t)
Figure BDA0002575640900000091
Figure BDA0002575640900000092
其中,a(jt)表示与t时刻下对编码序列第j个状态的权重系数;K,Q,V的值均为对应的状态向量h经过前馈网络计算得到,f(*)计算向量之间的相似度;上下文向量c(t)是隐状态的值的加权平均;
接着根据上下文向量c(t)、上一个时间步的输出x(t-1)与隐藏向量h(t-1)计算出当前时间步的解码向量,具体表示为:
Figure BDA0002575640900000093
Figure BDA0002575640900000094
其中,拼接上下文向量c(t)与上一个时间步的输出x(t-1),连同隐藏向量h(t-1)输入到LSTM解码网络中,获得输出向量d(t);将d(t)经过线性网络映射与softmax缩放后转为输出的词概率,Woc为线性网络的权重,boc为偏置,γ为温度参数。
最后根据预设的目标风格调整解码向量:
借助注意力机制对风格特征映射,采用如下方式得到查询风格所用的键向量Ks,具体为:
Figure BDA0002575640900000095
其中,W为网络权重,b表示网络偏置,β为目标风格的编号,每一类风格有其对应的矩阵
Figure BDA0002575640900000096
每个风格矩阵由α个e维的属性向量拼接而成,α为预设种类数量,e为隐状态的尺寸;设定Ks来自矩阵中属性向量的组合,组合方式则是依靠当前输出的词汇编码
Figure BDA0002575640900000097
经过映射得到,它是一个长度为α的向量,每个维度的值均处于[0,1],表示对M中每种属性的权重;
添加对应的偏置向量Bβ,调整后的风格序列特征s(t)计算为:
Figure BDA0002575640900000098
式中,hs表示风格特征序列;之后使用用线性映射得到调整向量:
Figure BDA0002575640900000101
最终输出的词概率为二者的加权平均,其中限定内容向量输出的权重α高于风格特征的输出,具体大小根据训练数据学习得到,具体表示为:
Figure BDA0002575640900000102
实施例2
更具体的,图1显示的系统有两个独立过程,包括学习过程和工作过程。其中,如图2、图3所示,一种基于递归神经网络模型的文本风格转换方法,具体包括了学习过程和工作过程,其中:
所述学习过程具体包括以下步骤:
A1:将原风格样本数据库更新为待处理文本的文本风格,并将目标风格文本保存在目标风格样本数据库中;
A2:通过预处理模块对待处理文本、目标风格文本进行预处理,得到对应文本向量化处理的结果;
A3:通过训练模块构建并根据对应文本向量化处理的结果进行训练,输出训练完成的神经网络模型,并由模型数据库进行保存;
所述工作过程具体包括以下步骤:
B1:通过输入模块输入待处理文本;
B2:通过预处理模块对待处理文本、进行预处理,得到对应的文本向量;
B3:将文本向量输入到神经网络模型中,输出文本风格转换结果;
B4:由评价模块对文本风格转换结果进行得分评估,根据设置的分数阈值,对分数低于分数阈值的结果进行保留修改,并反馈给目标风格样本数据库,对神经网络模型进行实时更新。
更具体的,在所述步骤A2和B2中,所述预处理过程具体包括对文本进行清洗、分词、标注,并根据词典进行编码,进行向量化处理。
更具体的,如图4所示,在所述步骤A3中,训练模块构建的神经网络模型包括输入层、编码层、解码层和权重调整模块;其中:
所述输入层用于输入待处理文本或训练文本对应的文本向量;
在所述编码层中,通过内容编码器编码得到内容特征序列,通过风格编码器得到风格特征序列;
所述解码器为待注意力机制的循环神经网络解码器,对所述内容特征进行解码并根据预设的目标风格调整解码向量,得到最终输出的词概率,再使用集束搜索得到预测句子;
所述权重调整模块通过使用交叉熵损失函数,计算预测句子与目标句子的损失函数值,通过随机梯度下降法,调整编码器的网络权重,并重新计算模型损失,直至损失函数值收敛,完成神经网络模型的训练。
在具体实施过程中,本发明提出的模型包括两个主要部分。一是通过两个独立的自编码机学习文本分布,对于经过预处理操作的文本数据,首先通过词嵌入(Embedding)将句子中每个编码后的词映射为较低维度的向量,之后经过基于递归神经网络的编码机,将句子抽象为hidden State,最后通过解码器和softmax层重构回先前文本;另一个则是通过转换函数将两种文本的hidden State相互映射。对该函数参数的学习可直接通过对平行语料库的训练得到,但在样本不足的情况下,可先通过对少量的平行语料库的训练来初始化参数,之后通过策略梯度优化的方式让参数进一步收敛。
更具体的,在所述输入层中,对预处理后的文本向量提取其对应的文本序列和词性序列,并分别将文本序列和词性序列转为独热编码,通过词嵌入方法分别将独热编码序列转化为词向量序列
Figure BDA0002575640900000111
与词性向量序列
Figure BDA0002575640900000112
其中,wi为句中第i个词的词向量,n为句子最大长度,维度大小为k,而pi为句中第i个词对应词性的高维向量,维度大小为l;最后将词向量序列与词性向量序列拼接,得到最终消歧后的输入编码x。
其中,在所述解码器中,首先计算当前时间步的上下文向量c(t)
Figure BDA0002575640900000113
Figure BDA0002575640900000114
其中,a(jt)表示与t时刻下对编码序列第j个状态的权重系数;K,Q,V的值均为对应的状态向量h经过前馈网络计算得到,f(*)计算向量之间的相似度;上下文向量c(t)是隐状态的值的加权平均;
接着根据上下文向量c(t)、上一个时间步的输出x(t-1)与隐藏向量h(t-1)计算出当前时间步的解码向量,具体表示为:
Figure BDA0002575640900000121
Figure BDA0002575640900000122
其中,拼接上下文向量c(t)与上一个时间步的输出x(t-1),连同隐藏向量h(t-1)输入到LSTM解码网络中,获得输出向量d(t);将d(t)经过线性网络映射与softmax缩放后转为输出的词概率,Woc为线性网络的权重,boc为偏置,γ为温度参数。
最后根据预设的目标风格调整解码向量:
借助注意力机制对风格特征映射,采用如下方式得到查询风格所用的键向量Ks,具体为:
Figure BDA0002575640900000123
其中,W为网络权重,b表示网络偏置,β为目标风格的编号,每一类风格有其对应的矩阵
Figure BDA0002575640900000124
每个风格矩阵由α个e维的属性向量拼接而成,α为预设种类数量,e为隐状态的尺寸;设定Ks来自矩阵中属性向量的组合,组合方式则是依靠当前输出的词汇编码
Figure BDA0002575640900000125
经过映射得到,它是一个长度为α的向量,每个维度的值均处于[0,1],表示对M中每种属性的权重;
添加对应的偏置向量Bβ,调整后的风格序列特征s(t)计算为:
Figure BDA0002575640900000126
式中,hs表示风格特征序列;之后使用用线性映射得到调整向量:
Figure BDA0002575640900000127
最终输出的词概率为二者的加权平均,其中限定内容向量输出的权重α高于风格特征的输出,具体大小根据训练数据学习得到,具体表示为:
Figure BDA0002575640900000128
在具体实施过程中,本发明提供的一种基于递归神经网络模型的文本风格转换系统及方法,能充分提取文本特征,结合半监督的方法,对平行语料库需求较低,且通过函数映射的方式实现风格转换,需要优化的参数少,容易收敛,便于实际的应用;同时,其引入反馈机制,能适时更具新增样本对模型进行调整,提高输出文本的质量。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于递归神经网络模型的文本风格转换系统,其特征在于,包括输入模块、原风格样本数据库、目标风格样本数据库、预处理模块、训练模块、模型数据库、输出模块和评价模块;其中:
所述输入模块用于输入待处理文本;
所述原风格样本数据库根据输入待处理文本的文本风格将原风格样本数据库更新为对应的样本风格;
所述目标风格样本数据库用于保存目标风格文本;
所述预处理模块将待处理文本、目标风格文本进行预处理,得到对应文本向量化处理的结果;
所述训练模块用于构建神经网络模型,并根据对应文本向量化处理的结果进行训练,输出训练完成的神经网络模型,并由所述模型数据库进行保存;
所述输出模块将待处理文本的文本序列及词性序列输入神经网络模型中,输出文本风格转换结果;
所述评价模块对文本风格转换结果进行得分评估,根据设置的分数阈值,对分数低于分数阈值的结果进行保留修改,并反馈给所述目标风格样本数据库;
在所述训练模块中,构建的神经网络模型包括输入层、编码层、解码层和权重调整模块;其中:
所述输入层用于输入待处理文本或训练文本对应的文本向量;
在所述编码层中,通过内容编码器编码得到内容特征序列,通过风格编码器得到风格特征序列;
解码器为带 注意力机制的循环神经网络解码器,对所述内容特征进行解码并根据预设的目标风格调整解码向量,得到最终输出的词概率,再使用集束搜索得到预测句子;
所述权重调整模块通过使用交叉熵损失函数,计算预测句子与目标句子的损失函数值,通过随机梯度下降法,调整编码器的网络权重,并重新计算模型损失,直至损失函数值收敛,完成神经网络模型的训练;
在所述输入层中,对预处理后的文本向量提取其对应的文本序列和词性序列,并分别将文本序列和词性序列转为独热编码,通过词嵌入方法分别将独热编码序列转化为词向量序列
Figure FDA0003831570600000021
与词性向量序列
Figure FDA0003831570600000022
其中,wi为句中第i个词的词向量,n为句子最大长度,维度大小为k,而pi为句中第i个词对应词性的高维向量,维度大小为l;最后将词向量序列与词性向量序列拼接,得到最终消歧后的输入编码x;
在所述解码器中,首先计算当前时间步的上下文向量c(t)
Figure FDA0003831570600000023
Figure FDA0003831570600000024
其中,a(jt)表示与t时刻下对编码序列第j个状态的权重系数;K(j),Q(j),V(j)的值均为对应的状态向量h经过前馈网络计算得到,f(*)计算向量之间的相似度;上下文向量c(t)是隐状态的值的加权平均;
接着根据上下文向量c(t)、上一个时间步输出的词汇编码x(t-1)与隐藏向量h(t-1)计算出当前时间步的解码向量,具体表示为:
d(t)=LSTM(ht-1,[c(t),x(t-1)])
Figure FDA0003831570600000025
其中,拼接上下文向量c(t)与上一个时间步输出的词汇编码x(t-1),连同隐藏向量h(t-1)输入到LSTM解码网络中,获得输出向量d(t);将d(t)经过线性网络映射与softmax缩放后转为输出的词概率,Woc为线性网络的权重,boc为偏置,γ为温度参数;
最后根据预设的目标风格调整解码向量:
借助注意力机制对风格特征映射,采用如下方式得到查询风格所用的键向量Ks,具体为:
Figure FDA0003831570600000026
其中,W为网络权重,b表示网络偏置,β为目标风格的编号,每一类风格有其对应的矩阵
Figure FDA0003831570600000027
每个风格矩阵由α个e维的属性向量拼接而成,α为预设种类数量,e为隐状态的尺寸;设定Ks来自矩阵中属性向量的组合,组合方式则是依靠当前输出的词汇编码x(t-1)经过映射得到,它是一个长度为α的向量,每个维度的值均处于[0,1],表示对M中每种属性的权重;
添加对应的偏置向量Bβ,调整后的风格序列特征s(t)计算为:
Figure FDA0003831570600000031
式中,hs表示风格特征序列;之后使用线性映射得到调整向量:
Figure FDA0003831570600000032
最终输出的词概率为二者的加权平均,其中限定内容向量输出的权重α高于风格特征的输出,具体大小根据训练数据学习得到,具体表示为:
Figure FDA0003831570600000033
α∈(0.5,1]。
2.根据权利要求1所述的一种基于递归神经网络模型的文本风格转换系统,其特征在于,在所述预处理模块中,预处理过程具体包括对文本进行清洗、分词、标注,并根据词典进行编码,进行向量化处理。
3.一种基于递归神经网络模型的文本风格转换方法,其特征在于,包括学习过程和工作过程,其中:
所述学习过程具体包括以下步骤:
A1:将原风格样本数据库更新为待处理文本的文本风格,并将目标风格文本保存在目标风格样本数据库中;
A2:通过预处理模块对待处理文本、目标风格文本进行预处理,得到对应文本向量化处理的结果;
A3:通过训练模块构建并根据对应文本向量化处理的结果进行训练,输出训练完成的神经网络模型,并由模型数据库进行保存;
所述工作过程具体包括以下步骤:
B1:通过输入模块输入待处理文本;
B2:通过预处理模块对待处理文本、进行预处理,得到对应的文本向量;
B3:将文本向量输入到神经网络模型中,输出文本风格转换结果;
B4:由评价模块对文本风格转换结果进行得分评估,根据设置的分数阈值,对分数低于分数阈值的结果进行保留修改,并反馈给目标风格样本数据库,对神经网络模型进行实时更新;
在所述步骤A3中,训练模块构建的神经网络模型包括输入层、编码层、解码层和权重调整模块;其中:
所述输入层用于输入待处理文本或训练文本对应的文本向量;
在所述编码层中,通过内容编码器编码得到内容特征序列,通过风格编码器得到风格特征序列;
解码器为带 注意力机制的循环神经网络解码器,对所述内容特征进行解码并根据预设的目标风格调整解码向量,得到最终输出的词概率,再使用集束搜索得到预测句子;
所述权重调整模块通过使用交叉熵损失函数,计算预测句子与目标句子的损失函数值,通过随机梯度下降法,调整编码器的网络权重,并重新计算模型损失,直至损失函数值收敛,完成神经网络模型的训练;
在所述输入层中,对预处理后的文本向量提取其对应的文本序列和词性序列,并分别将文本序列和词性序列转为独热编码,通过词嵌入方法分别将独热编码序列转化为词向量序列
Figure FDA0003831570600000041
与词性向量序列
Figure FDA0003831570600000042
其中,wi为句中第i个词的词向量,n为句子最大长度,维度大小为k,而pi为句中第i个词对应词性的高维向量,维度大小为l;最后将词向量序列与词性向量序列拼接,得到最终消歧后的输入编码x;
在所述解码器中,首先计算当前时间步的上下文向量c(t)
Figure FDA0003831570600000043
Figure FDA0003831570600000044
其中,a(jt)表示与t时刻下对编码序列第j个状态的权重系数;K(j),Q(j),V(j)的值均为对应的状态向量h经过前馈网络计算得到,f(*)计算向量之间的相似度;上下文向量c(t)是隐状态的值的加权平均;
接着根据上下文向量c(t)、上一个时间步输出的词汇编码x(t-1)与隐藏向量h(t-1)计算出当前时间步的解码向量,具体表示为:
d(t)=LSTM(ht-1,[c(t),x(t-1)])
Figure FDA0003831570600000045
其中,拼接上下文向量c(t)与上一个时间步输出的词汇编码x(t-1),连同隐藏向量h(t-1)输入到LSTM解码网络中,获得输出向量d(t);将d(t)经过线性网络映射与softmax缩放后转为输出的词概率,Woc为线性网络的权重,boc为偏置,γ为温度参数;
最后根据预设的目标风格调整解码向量:
借助注意力机制对风格特征映射,采用如下方式得到查询风格所用的键向量Ks,具体为:
Figure FDA0003831570600000051
其中,W为网络权重,b表示网络偏置,β为目标风格的编号,每一类风格有其对应的矩阵
Figure FDA0003831570600000052
每个风格矩阵由α个e维的属性向量拼接而成,α为预设种类数量,e为隐状态的尺寸;设定Ks来自矩阵中属性向量的组合,组合方式则是依靠当前输出的词汇编码x(t-1)经过映射得到,它是一个长度为α的向量,每个维度的值均处于[0,1],表示对M中每种属性的权重;
添加对应的偏置向量Bβ,调整后的风格序列特征s(t)计算为:
Figure FDA0003831570600000053
式中,hs表示风格特征序列;之后使用线性映射得到调整向量:
Figure FDA0003831570600000054
最终输出的词概率为二者的加权平均,其中限定内容向量输出的权重α高于风格特征的输出,具体大小根据训练数据学习得到,具体表示为:
Figure FDA0003831570600000055
α∈(0.5,1]。
4.根据权利要求3所述的一种基于递归神经网络模型的文本风格转换方法,其特征在于,在所述步骤A2和B2中,预处理过程具体包括对文本进行清洗、分词、标注,并根据词典进行编码,进行向量化处理。
CN202010652890.XA 2020-07-08 2020-07-08 一种基于递归神经网络模型的文本风格转换系统及方法 Active CN111931496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010652890.XA CN111931496B (zh) 2020-07-08 2020-07-08 一种基于递归神经网络模型的文本风格转换系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010652890.XA CN111931496B (zh) 2020-07-08 2020-07-08 一种基于递归神经网络模型的文本风格转换系统及方法

Publications (2)

Publication Number Publication Date
CN111931496A CN111931496A (zh) 2020-11-13
CN111931496B true CN111931496B (zh) 2022-11-15

Family

ID=73312856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010652890.XA Active CN111931496B (zh) 2020-07-08 2020-07-08 一种基于递归神经网络模型的文本风格转换系统及方法

Country Status (1)

Country Link
CN (1) CN111931496B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468857B (zh) * 2021-07-13 2024-03-29 北京百度网讯科技有限公司 风格转换模型的训练方法、装置、电子设备以及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380236B1 (en) * 2017-09-22 2019-08-13 Amazon Technologies, Inc. Machine learning system for annotating unstructured text
US20190287012A1 (en) * 2018-03-16 2019-09-19 Microsoft Technology Licensing, Llc Encoder-decoder network with intercommunicating encoder agents
CN108563622B (zh) * 2018-05-04 2020-04-07 清华大学 一种具有风格多样性的绝句生成方法及装置
CN109344391B (zh) * 2018-08-23 2022-10-21 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109635253B (zh) * 2018-11-13 2024-05-28 平安科技(深圳)有限公司 文本风格转换方法、装置及存储介质、计算机设备
CN109885811B (zh) * 2019-01-10 2024-05-14 平安科技(深圳)有限公司 文章风格转换方法、装置、计算机设备及存储介质
CN109948152B (zh) * 2019-03-06 2020-07-17 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN110287461B (zh) * 2019-05-24 2023-04-18 北京百度网讯科技有限公司 文本转换方法、装置及存储介质
CN110688834B (zh) * 2019-08-22 2023-10-31 创新先进技术有限公司 基于深度学习模型进行智能文稿风格改写的方法和设备
CN110929030B (zh) * 2019-11-07 2022-05-03 电子科技大学 一种文本摘要和情感分类联合训练方法
CN111145720B (zh) * 2020-02-04 2022-06-21 清华珠三角研究院 一种将文本转换成语音的方法、系统、装置和存储介质
CN111325660B (zh) * 2020-02-20 2021-01-29 中国地质大学(武汉) 一种基于文本数据的遥感图像风格转换方法

Also Published As

Publication number Publication date
CN111931496A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN108984524A (zh) 一种基于变分神经网络主题模型的标题生成方法
CN111177394A (zh) 基于句法注意力神经网络的知识图谱关系数据分类方法
CN109933808B (zh) 一种基于动态配置解码的神经机器翻译方法
CN112115247B (zh) 一种基于长短时记忆信息的个性化对话生成方法和系统
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN110413768B (zh) 一种文章题目自动生成方法
CN111178093B (zh) 一种基于堆叠算法的神经机器翻译系统训练加速方法
CN112199945A (zh) 一种文本纠错的方法和装置
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN111626041B (zh) 一种基于深度学习的音乐评论生成方法
CN111767718A (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114996467A (zh) 基于语义相似度的知识图谱实体属性对齐算法
CN112214989A (zh) 一种基于bert的汉语句子简化方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
CN111931496B (zh) 一种基于递归神经网络模型的文本风格转换系统及方法
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN117251562A (zh) 一种基于事实一致性增强的文本摘要生成方法
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant