CN109885811A - 文章风格转换方法、装置、计算机设备及存储介质 - Google Patents

文章风格转换方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109885811A
CN109885811A CN201910023767.9A CN201910023767A CN109885811A CN 109885811 A CN109885811 A CN 109885811A CN 201910023767 A CN201910023767 A CN 201910023767A CN 109885811 A CN109885811 A CN 109885811A
Authority
CN
China
Prior art keywords
sequence
text
urtext
word
term vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910023767.9A
Other languages
English (en)
Other versions
CN109885811B (zh
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910023767.9A priority Critical patent/CN109885811B/zh
Publication of CN109885811A publication Critical patent/CN109885811A/zh
Application granted granted Critical
Publication of CN109885811B publication Critical patent/CN109885811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文章风格转换方法、装置、计算机设备及存储介质。该方法属于人工智能技术,该方法包括:分别对原始文本以及原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列;对原始文本分词序列中的单词以及风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列;通过原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练;若接收到待转换文本,通过训练后的编码解码模型对待转换文本的风格化文本进行预测并输出预测结果,从而能够实现文章风格的自动化转换,提高了文章风格转换的效率,降低了文章风格转换的成本。

Description

文章风格转换方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文章风格转换方法、装置、计算机设备及存储介质。
背景技术
为了满足用户的个性化阅读需求,提高用户的阅读体验,通常会对文章进行风格化转换,即由某一风格转换为另一风格,例如将白话文风格的文章转换为古诗风格的文章。
在现有技术中,通过采用人为改写的方式改变文章的风格,以上方式效率极其低下,难以满足目前文章风格化转变的需求。
发明内容
本发明实施例提供了一种文章风格转换方法、装置、计算机设备及存储介质,旨在达到快速准确转换文章风格的目的。
第一方面,本发明实施例提供了一种文章风格转换方法,其包括:
分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列,其中,所述原始文本分词序列为对所述原始文本进行分词后得到的单词组成的序列,所述风格化文本分词序列为对所述风格化文本进行分词后得到的单词组成的序列;
对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列,其中,所述原始文本词向量序列为所述原始文本分词序列中的单词的词向量组成的序列,所述风格化文本词向量序列为所述风格化文本分词序列中的单词的词向量组成的序列;
通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练;
若接收到待转换文本,通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果。
第二方面,本发明实施例还提供了一种文章风格转换装置,其包括:
第一分词单元,用于分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列,其中,所述原始文本分词序列为对所述原始文本进行分词后得到的单词组成的序列,所述风格化文本分词序列为对所述风格化文本进行分词后得到的单词组成的序列;
第一训练单元,用于对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列,其中,所述原始文本词向量序列为所述原始文本分词序列中的单词的词向量组成的序列,所述风格化文本词向量序列为所述风格化文本分词序列中的单词的词向量组成的序列;
第二训练单元,用于通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练;
预测单元,用于若接收到待转换文本,通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种文章风格转换方法、装置、计算机设备及存储介质。其中,所述方法包括:分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列;对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列;通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练;若接收到待转换文本,通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果,从而能够实现文章风格的自动化转换,提高了文章风格转换的效率,极大地降低了文章风格转换的成本。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文章风格转换方法的流程示意图;
图2为本发明实施例提供的一种文章风格转换方法的子流程示意图;
图3为本发明实施例提供的一种文章风格转换方法的子流程示意图;
图4为本发明实施例提供的一种文章风格转换方法的子流程示意图;
图5为本发明实施例提供的一种文章风格转换方法的子流程示意图;
图6为本发明实施例提供的一种文章风格转换装置的示意性框图;
图7为本发明实施例提供的一种文章风格转换装置的第一分词单元的示意性框图;
图8为本发明实施例提供的一种文章风格转换装置的第一训练单元的示意性框图;
图9为本发明实施例提供的一种文章风格转换装置的第二训练单元的示意性框图;
图10为本发明实施例提供的一种文章风格转换装置的预测单元的示意性框图;以及
图11为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
S1,分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列。
其中,所述原始文本分词序列为对所述原始文本进行分词后得到的单词组成的序列,所述风格化文本分词序列为对所述风格化文本进行分词后得到的单词组成的序列。
在本实施例中,原始文本以及其对应的风格化文本是预存在终端中的,具体地可由用户输入到终端中。终端可直接调用获取。或者,在其他实施例中,可通过其他方式获取原始文本以及其对应的风格化文本,本发明对此不做具体限定。
具体实施中,对原始文本进行分词处理得到原始文本分词序列,原始文本分词序列为对所述原始文本进行分词后得到的单词组成的序列。对风格化文本进行分词处理得到风格化文本分词序列,风格化文本分词序列为对所述风格化文本进行分词后得到的单词组成的序列。
需要说明的是,风格化文本为原始文本转换为某一风格后的文本,例如,在一实施例中,原始文本为“夕阳依傍着西山慢慢地沉没,滔滔黄河朝着东海汹涌奔流”,该原始文本对应的古诗风格的风格化文本为“白日依山尽,黄河入海流”。
在一实施例中,参见图2,以上步骤S1具体包括如下步骤S11-S13。
S11,通过预设分词工具对所述原始文本以及所述风格化文本进行分词处理以分别得到初始原始文本分词集合以及初始风格化文本分词集合。
具体实施中,常用的分词工具为结巴分词工具。在本发明实施例中,通过结巴分词工具对所述原始文本以及所述风格化文本进行分词处理以分别得到初始原始文本分词集合以及初始风格化文本分词集合。
S12,分别将所述初始原始文本分词集合以及所述初始风格化文本分词集合中的停止词去除以分别得到原始文本分词集合以及风格化文本分词集合。
具体实施中,分别将所述初始原始文本分词集合以及所述初始风格化文本分词集合中的停止词去除以分别得到原始文本分词集合以及风格化文本分词集合。
要说明的是,停止词(stop word),常为介词、副词或连词等。例如,"在"、"里面"、"也"、"的"、"它"、"为"等都为停止词。
S13,按照所述原始文本中各单词的顺序对所述原始文本分词集合中的单词进行排序以得到所述原始文本分词序列,以及按照所述风格化文本中各单词的顺序对所述风格化文本分词集合中的单词进行排序以得到所述风格化文本分词序列。
具体实施中,按照所述原始文本中各单词的顺序对所述原始文本分词集合中的单词进行排序以得到所述原始文本分词序列。
类似地,按照所述风格化文本中各单词的顺序对所述风格化文本分词集合中的单词进行排序以得到所述风格化文本分词序列。
例如,在一实施例中对“夕阳依傍着西山慢慢地沉没”进行分词后得到的单词为“夕阳”“依傍”“西山”“慢慢地”“沉没”,则其对应的原始文本分词序列为(夕阳,依傍,西山,慢慢地,沉没)。
S2,对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列,其中,所述原始文本词向量序列为所述原始文本分词序列中的单词的词向量组成的序列,所述风格化文本词向量序列为所述风格化文本分词序列中的单词的词向量组成的序列。
具体实施中,对所述原始文本分词序列中的单词进行词向量训练以得到原始文本词向量序列。其中,所述原始文本词向量序列为所述原始文本分词序列中的单词的词向量组成的序列。
对所述风格化文本分词序列中的单词进行词向量训练以得到风格化文本词向量序列。其中,所述风格化文本词向量序列为所述风格化文本分词序列中的单词的词向量组成的序列。
在一实施例中,参见图3,以上步骤S2具体包括如下步骤S21-S23。
S21,通过预设的词向量工具分别对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到所述原始文本分词序列中的单词的词向量以及所述风格化文本分词序列中的单词的词向量。
具体实施中,采用word2vec作为词向量工具,word2vec是一种自然语言处理工具,其作用就是将自然语言中的字词转为计算机可以理解的词向量。
传统的词向量容易受维数灾难的困扰,且任意两个词之间都是孤立的,不能体现词和词之间的关系,因此本实施例采用word2vec来得到词向量,其可通过计算向量之间的距离来体现词与词之间的相似性。
或者,在其他实施例中,可采用其他词向量工具对所述检索词样本分词集合以及答案词样本分词集合进行词向量训练,本发明对此不作具体限定。
具体地,通过word2vec分别对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到所述原始文本分词序列中的单词的词向量以及所述风格化文本分词序列中的单词的词向量。
S22,按照所述原始文本分词序列中各单词的顺序对所述原始文本分词序列中各单词的词向量进行排序以得到所述原始文本词向量序列,以及按照所述风格化文本分词序列中各单词的顺序对所述风格化文本分词序列中各单词的词向量进行排序以得到所述风格化文本词向量序列。
具体实施中,按照所述原始文本分词序列中各单词的顺序对所述原始文本分词序列中各单词的词向量进行排序以得到所述原始文本词向量序列。
类似地,按照所述风格化文本分词序列中各单词的顺序对所述风格化文本分词序列中各单词的词向量进行排序以得到所述风格化文本词向量序列。
例如,在一实施例中,原始文本分词序列(夕阳,依傍,西山,慢慢地,沉没)中,“夕阳”的词向量为A1,“依傍”的词向量为A2,“西山”的词向量为A3;“慢慢地”的词向量为A4;“沉没”的词向量为A5。则对应的原始文本词向量序列为(A1,A2,A3,A4,A5)。
S3,通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练。
在本发明的方案中,构建一个端到端的模型结构,具体为编码解码模型(Encoder-Decoder)。具体的,采用循环神经网络(RNN)作为编码器以及解码器。之后通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练。
需要说明的是在该编码解码模型中,原始文本是输入序列,风格化文本是输出序列,通过将原始文本输入到编码器中编码得到一个语义特征向量,然后通过解码器对该语义特征向量进行解码得到答案。具体如下:
X={x1、x2...xm}
Y={y1、y2...ym}
C=F(x1、x2...xm)
yi=g(C,y1、y2...yi-1)
其中,X为输入序列,Y为输出序列,C为语义特征向量,编码器通过输入序列X进行编码,将其转化为中间语义特征向量C,然后解码器根据编码器生成的表示上下文的语义特征向量和前一时刻得到的输出进行解码生成yi
在一实施例中,参见图4,以上步骤S3具体包括S31-S36。
S31,将所述原始文本词向量序列作为目标序列。
具体实施例中,将所述原始文本词向量序列作为目标序列。
S32,将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量。
具体实施中,将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量。
S33,将所述语义特征向量输入到所述编码解码模型的解码器中以得到预测序列。
具体实施中,在获取了原始文本词向量序列的语义特征向量后,将语义特征向量输入到所述编码解码模型的解码器中以得到预测序列。
S34,判断所述预测序列与所述风格化文本词向量序列是否相同。
具体实施中,判断所述编码解码模型的解码器输出的预测序列与原始文本对应的风格化文本的风格化文本词向量序列是否相同。
S35,若所述预测序列与所述风格化文本词向量序列不相同,将所述预测序列作为新的目标序列,并返回所述将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量的步骤。
具体实施中,如果所述预测序列与所述风格化文本词向量序列不相同,将所述预测序列作为新的目标序列,并返回所述将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量的步骤,通过以上方式循环迭代,直到解码器输出的预测序列与所述风格化文本词向量序列相同为止。
S36,若所述预测序列与所述风格化文本词向量序列相同,结束训练。
具体实施中,若所述预测序列与所述风格化文本词向量序列相同,结束训练。
S4,若接收到待转换文本,通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果。
具体实施中,如果接收到待转换文本,则通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果,从而能够实现文章风格的转换。
在一实施例中,参见图5,以上步骤S4,具体包括如下步骤S41-S43。
S41,对所述待转换文本进行分词处理以得到待转换文本分词序列。
其中,所述待转换文本分词序列为对所述待转换文本进行分词后得到的单词组成的序列。
具体实施中,对所述待转换文本进行分词处理以得到初始待转换文本分词集合。将所述初始待转换文本分词集合中的停止词去除后得到待转换文本分词集合。按照所述待转换文本中各单词的顺序对所述待转换文本分词集合中的单词进行排序以得到所述待转换文本分词序列。
S42,对所述待转换文本分词序列的单词进行词向量训练以得到待转换文本词向量序列。
其中,所述待转换文本词向量序列为所述待转换文本分词序列中的单词的词向量组成的序列。
具体实施中,对所述待转换文本分词序列的单词进行词向量训练以得到待转换文本输入序列,其中,所述待转换文本词向量序列为所述待转换文本分词序列中的单词的词向量组成的序列。
具体的,按照所述待转换文本分词序列中各单词的顺序对所述待转换文本分词序列中各单词的词向量进行排序以得到所述待转换文本词向量序列。
S43,将所述待转换文本词向量序列作为输入序列输入到训练后的编码解码模型的编码器中,并将所述编码解码模型的解码器的输出序列作为所述待转换文本的风格化文本的预测结果。
具体实施中,将所述待转换文本词向量序列作为输入序列输入到训练后的编码解码模型的编码器中以得到语义特征向量,将获取到的语义特征向量输入到所述编码解码模型的解码器中,并将所述编码解码模型的解码器的输出序列作为所述待转换文本的风格化文本的预测结果。
通过应用本发明实施例的技术方案,分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列;对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列;通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练;在接收到待转换文本,通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果,从而能够实现文章风格的自动化转换,提高了文章风格转换的效率,极大地降低了文章风格转换的成本。
图6是本发明实施例提供的一种文章风格转换装置60的示意性框图。如图6所示,对应于以上文章风格转换方法,本发明还提供一种文章风格转换装置60。该文章风格转换装置60包括用于执行上述文章风格转换方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图6,该文章风格转换装置60包括第一分词单元61、第一训练单元62、第二训练单元63以及预测单元64。
第一分词单元61,用于分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列,其中,所述原始文本分词序列为对所述原始文本进行分词后得到的单词组成的序列,所述风格化文本分词序列为对所述风格化文本进行分词后得到的单词组成的序列;
第一训练单元62,用于对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列,其中,所述原始文本词向量序列为所述原始文本分词序列中的单词的词向量组成的序列,所述风格化文本词向量序列为所述风格化文本分词序列中的单词的词向量组成的序列;
第二训练单元63,用于通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练;
预测单元64,用于若接收到待转换文本,通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果。
在一实施例中,如图7所示,所述第一分词单元61包括第二分词单元611、去除单元612以及第一排序单元613。
第二分词单元611,用于通过预设分词工具对所述原始文本以及所述风格化文本进行分词处理以分别得到初始原始文本分词集合以及初始风格化文本分词集合;
去除单元612,用于分别将所述初始原始文本分词集合以及所述初始风格化文本分词集合中的停止词去除以分别得到原始文本分词集合以及风格化文本分词集合;
第一排序单元613,用于按照所述原始文本中各单词的顺序对所述原始文本分词集合中的单词进行排序以得到所述原始文本分词序列,以及按照所述风格化文本中各单词的顺序对所述风格化文本分词集合中的单词进行排序以得到所述风格化文本分词序列。
在一实施例中,如图8所示,所述第一训练单元62包括第三训练单元621以及第二排序单元622。
第三训练单元621,用于通过预设的词向量工具分别对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到所述原始文本分词序列中的单词的词向量以及所述风格化文本分词序列中的单词的词向量;
第二排序单元622,用于按照所述原始文本分词序列中各单词的顺序对所述原始文本分词序列中各单词的词向量进行排序以得到所述原始文本词向量序列,以及按照所述风格化文本分词序列中各单词的顺序对所述风格化文本分词序列中各单词的词向量进行排序以得到所述风格化文本词向量序列。
在一实施例中,如图9所示,所述第二训练单元63包括作为单元631、第一输入单元632、第二输入单元633、判断单元634、通知单元635以及结束单元636。
作为单元631;用于将所述原始文本词向量序列作为目标序列;
第一输入单元632,用于将所述原始文本词向量序列作为目标序列将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量;
第二输入单元633,用于将所述语义特征向量输入到所述编码解码模型的解码器中以得到预测序列;
判断单元634,用于判断所述预测序列与所述风格化文本词向量序列是否相同;
通知单元635,用于若所述预测序列与所述风格化文本词向量序列不相同,将所述预测序列作为新的目标序列,并通知第一输入单元返回所述将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量的步骤;
结束单元636,用于若所述预测序列与所述风格化文本词向量序列相同,结束训练。
在一实施例中,如图10所示,所述预测单元64包括第三分词单元641、第四训练单元642以及第三输入单元643。
第三分词单元641,用于对所述待转换文本进行分词处理以得到待转换文本分词序列,所述待转换文本分词序列为对所述待转换文本进行分词后得到的单词组成的序列;
第四训练单元642,用于对所述待转换文本分词序列的单词进行词向量训练以得到待转换文本词向量序列,所述待转换文本词向量序列为所述待转换文本分词序列中的单词的词向量组成的序列;
第三输入单元643,用于将所述待转换文本词向量序列作为输入序列输入到训练后的编码解码模型的编码器中,并将所述编码解码模型的解码器的输出序列作为所述待转换文本的风格化文本的预测结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述文章风格转换装置60和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述文章风格转换装置可以实现为一种计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种文章风格转换方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种文章风格转换方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列,其中,所述原始文本分词序列为对所述原始文本进行分词后得到的单词组成的序列,所述风格化文本分词序列为对所述风格化文本进行分词后得到的单词组成的序列;
对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列,其中,所述原始文本词向量序列为所述原始文本分词序列中的单词的词向量组成的序列,所述风格化文本词向量序列为所述风格化文本分词序列中的单词的词向量组成的序列;
通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练;
若接收到待转换文本,通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果。
在一实施例中,处理器502在实现所述分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列步骤时,具体实现如下步骤:
通过预设分词工具对所述原始文本以及所述风格化文本进行分词处理以分别得到初始原始文本分词集合以及初始风格化文本分词集合;
分别将所述初始原始文本分词集合以及所述初始风格化文本分词集合中的停止词去除以分别得到原始文本分词集合以及风格化文本分词集合;
按照所述原始文本中各单词的顺序对所述原始文本分词集合中的单词进行排序以得到所述原始文本分词序列,以及按照所述风格化文本中各单词的顺序对所述风格化文本分词集合中的单词进行排序以得到所述风格化文本分词序列。
在一实施例中,处理器502在实现所述对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列步骤时,具体实现如下步骤:
通过预设的词向量工具分别对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到所述原始文本分词序列中的单词的词向量以及所述风格化文本分词序列中的单词的词向量;
按照所述原始文本分词序列中各单词的顺序对所述原始文本分词序列中各单词的词向量进行排序以得到所述原始文本词向量序列,以及按照所述风格化文本分词序列中各单词的顺序对所述风格化文本分词序列中各单词的词向量进行排序以得到所述风格化文本词向量序列。
在一实施例中,处理器502在实现所述通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练步骤时,具体实现如下步骤:
将所述原始文本词向量序列作为目标序列;
将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量;
将所述语义特征向量输入到所述编码解码模型的解码器中以得到预测序列;
判断所述预测序列与所述风格化文本词向量序列是否相同;
若所述预测序列与所述风格化文本词向量序列不相同,将所述预测序列作为新的目标序列,并返回所述将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量的步骤;
若所述预测序列与所述风格化文本词向量序列相同,结束训练。
在一实施例中,处理器502在实现所述通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果步骤时,具体实现如下步骤:
对所述待转换文本进行分词处理以得到待转换文本分词序列,所述待转换文本分词序列为对所述待转换文本进行分词后得到的单词组成的序列;
对所述待转换文本分词序列的单词进行词向量训练以得到待转换文本词向量序列,所述待转换文本词向量序列为所述待转换文本分词序列中的单词的词向量组成的序列;
将所述待转换文本词向量序列作为输入序列输入到训练后的编码解码模型的编码器中,并将所述编码解码模型的解码器的输出序列作为所述待转换文本的风格化文本的预测结果。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:
分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列,其中,所述原始文本分词序列为对所述原始文本进行分词后得到的单词组成的序列,所述风格化文本分词序列为对所述风格化文本进行分词后得到的单词组成的序列;
对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列,其中,所述原始文本词向量序列为所述原始文本分词序列中的单词的词向量组成的序列,所述风格化文本词向量序列为所述风格化文本分词序列中的单词的词向量组成的序列;
通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练;
若接收到待转换文本,通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列步骤时,具体实现如下步骤:
通过预设分词工具对所述原始文本以及所述风格化文本进行分词处理以分别得到初始原始文本分词集合以及初始风格化文本分词集合;
分别将所述初始原始文本分词集合以及所述初始风格化文本分词集合中的停止词去除以分别得到原始文本分词集合以及风格化文本分词集合;
按照所述原始文本中各单词的顺序对所述原始文本分词集合中的单词进行排序以得到所述原始文本分词序列,以及按照所述风格化文本中各单词的顺序对所述风格化文本分词集合中的单词进行排序以得到所述风格化文本分词序列。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列步骤时,具体实现如下步骤:
通过预设的词向量工具分别对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到所述原始文本分词序列中的单词的词向量以及所述风格化文本分词序列中的单词的词向量;
按照所述原始文本分词序列中各单词的顺序对所述原始文本分词序列中各单词的词向量进行排序以得到所述原始文本词向量序列,以及按照所述风格化文本分词序列中各单词的顺序对所述风格化文本分词序列中各单词的词向量进行排序以得到所述风格化文本词向量序列。
在一实施例中,所述处理器在执行所述计算机程序而实现所述通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练步骤时,具体实现如下步骤:
将所述原始文本词向量序列作为目标序列;
将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量;
将所述语义特征向量输入到所述编码解码模型的解码器中以得到预测序列;
判断所述预测序列与所述风格化文本词向量序列是否相同;
若所述预测序列与所述风格化文本词向量序列不相同,将所述预测序列作为新的目标序列,并返回所述将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量的步骤;
若所述预测序列与所述风格化文本词向量序列相同,结束训练。
在一实施例中,所述处理器在执行所述计算机程序而实现所述通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果步骤时,具体实现如下步骤:
对所述待转换文本进行分词处理以得到待转换文本分词序列,所述待转换文本分词序列为对所述待转换文本进行分词后得到的单词组成的序列;
对所述待转换文本分词序列的单词进行词向量训练以得到待转换文本词向量序列,所述待转换文本词向量序列为所述待转换文本分词序列中的单词的词向量组成的序列;
将所述待转换文本词向量序列作为输入序列输入到训练后的编码解码模型的编码器中,并将所述编码解码模型的解码器的输出序列作为所述待转换文本的风格化文本的预测结果。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文章风格转换方法,其特征在于,包括:
分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列,其中,所述原始文本分词序列为对所述原始文本进行分词后得到的单词组成的序列,所述风格化文本分词序列为对所述风格化文本进行分词后得到的单词组成的序列;
对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列,其中,所述原始文本词向量序列为所述原始文本分词序列中的单词的词向量组成的序列,所述风格化文本词向量序列为所述风格化文本分词序列中的单词的词向量组成的序列;
通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练;
若接收到待转换文本,通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果。
2.根据权利要求1所述的方法,其特征在于,所述分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列,包括:
通过预设分词工具对所述原始文本以及所述风格化文本进行分词处理以分别得到初始原始文本分词集合以及初始风格化文本分词集合;
分别将所述初始原始文本分词集合以及所述初始风格化文本分词集合中的停止词去除以分别得到原始文本分词集合以及风格化文本分词集合;
按照所述原始文本中各单词的顺序对所述原始文本分词集合中的单词进行排序以得到所述原始文本分词序列,以及按照所述风格化文本中各单词的顺序对所述风格化文本分词集合中的单词进行排序以得到所述风格化文本分词序列。
3.根据权利要求1所述的方法,其特征在于,所述对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列,包括:
通过预设的词向量工具分别对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到所述原始文本分词序列中的单词的词向量以及所述风格化文本分词序列中的单词的词向量;
按照所述原始文本分词序列中各单词的顺序对所述原始文本分词序列中各单词的词向量进行排序以得到所述原始文本词向量序列,以及按照所述风格化文本分词序列中各单词的顺序对所述风格化文本分词序列中各单词的词向量进行排序以得到所述风格化文本词向量序列。
4.根据权利要求1所述的方法,其特征在于,所述通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练,包括:
将所述原始文本词向量序列作为目标序列;
将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量;
将所述语义特征向量输入到所述编码解码模型的解码器中以得到预测序列;
判断所述预测序列与所述风格化文本词向量序列是否相同;
若所述预测序列与所述风格化文本词向量序列不相同,将所述预测序列作为新的目标序列,并返回所述将所述目标序列输入到所述编码解码模型的编码器中以得到语义特征向量的步骤;
若所述预测序列与所述风格化文本词向量序列相同,结束训练。
5.根据权利要求1所述的方法,其特征在于,所述通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果,包括:
对所述待转换文本进行分词处理以得到待转换文本分词序列,所述待转换文本分词序列为对所述待转换文本进行分词后得到的单词组成的序列;
对所述待转换文本分词序列的单词进行词向量训练以得到待转换文本词向量序列,所述待转换文本词向量序列为所述待转换文本分词序列中的单词的词向量组成的序列;
将所述待转换文本词向量序列作为输入序列输入到训练后的编码解码模型的编码器中,并将所述编码解码模型的解码器的输出序列作为所述待转换文本的风格化文本的预测结果。
6.一种文章风格转换装置,其特征在于,包括:
第一分词单元,用于分别对原始文本以及所述原始文本对应的风格化文本进行分词处理以分别得到原始文本分词序列以及风格化文本分词序列,其中,所述原始文本分词序列为对所述原始文本进行分词后得到的单词组成的序列,所述风格化文本分词序列为对所述风格化文本进行分词后得到的单词组成的序列;
第一训练单元,用于对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到原始文本词向量序列以及风格化文本词向量序列,其中,所述原始文本词向量序列为所述原始文本分词序列中的单词的词向量组成的序列,所述风格化文本词向量序列为所述风格化文本分词序列中的单词的词向量组成的序列;
第二训练单元,用于通过所述原始文本词向量序列以及所述风格化文本词向量序列对预设的编码解码模型进行训练;
预测单元,用于若接收到待转换文本,通过训练后的编码解码模型对所述待转换文本的风格化文本进行预测并输出预测结果。
7.根据权利要求6所述的文章风格转换装置,其特征在于,所述第一分词单元包括:
第二分词单元,用于通过预设分词工具对所述原始文本以及所述风格化文本进行分词处理以分别得到初始原始文本分词集合以及初始风格化文本分词集合;
去除单元,用于分别将所述初始原始文本分词集合以及所述初始风格化文本分词集合中的停止词去除以分别得到原始文本分词集合以及风格化文本分词集合;
第一排序单元,用于按照所述原始文本中各单词的顺序对所述原始文本分词集合中的单词进行排序以得到所述原始文本分词序列,以及按照所述风格化文本中各单词的顺序对所述风格化文本分词集合中的单词进行排序以得到所述风格化文本分词序列。
8.根据权利要求6所述的文章风格转换装置,其特征在于,所述第一训练单元包括:
第二训练单元,用于通过预设的词向量工具分别对所述原始文本分词序列中的单词以及所述风格化文本分词序列中的单词进行词向量训练以分别得到所述原始文本分词序列中的单词的词向量以及所述风格化文本分词序列中的单词的词向量;
第二排序单元,用于按照所述原始文本分词序列中各单词的顺序对所述原始文本分词序列中各单词的词向量进行排序以得到所述原始文本词向量序列,以及按照所述风格化文本分词序列中各单词的顺序对所述风格化文本分词序列中各单词的词向量进行排序以得到所述风格化文本词向量序列。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-5中任一项所述的方法。
CN201910023767.9A 2019-01-10 2019-01-10 文章风格转换方法、装置、计算机设备及存储介质 Active CN109885811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910023767.9A CN109885811B (zh) 2019-01-10 2019-01-10 文章风格转换方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910023767.9A CN109885811B (zh) 2019-01-10 2019-01-10 文章风格转换方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109885811A true CN109885811A (zh) 2019-06-14
CN109885811B CN109885811B (zh) 2024-05-14

Family

ID=66925887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910023767.9A Active CN109885811B (zh) 2019-01-10 2019-01-10 文章风格转换方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109885811B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334334A (zh) * 2019-06-19 2019-10-15 腾讯科技(深圳)有限公司 一种摘要生成方法、装置及计算机设备
CN110688834A (zh) * 2019-08-22 2020-01-14 阿里巴巴集团控股有限公司 基于深度学习模型进行智能文稿风格改写的方法和设备
CN110825855A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 基于人工智能的应答方法、装置、计算机设备及存储介质
CN111931496A (zh) * 2020-07-08 2020-11-13 广东工业大学 一种基于递归神经网络模型的文本风格转换系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844480A (zh) * 2017-10-21 2018-03-27 科大讯飞股份有限公司 将书面文本转换为口语文本的方法及系统
CN108228576A (zh) * 2017-12-29 2018-06-29 科大讯飞股份有限公司 文本翻译方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844480A (zh) * 2017-10-21 2018-03-27 科大讯飞股份有限公司 将书面文本转换为口语文本的方法及系统
CN108228576A (zh) * 2017-12-29 2018-06-29 科大讯飞股份有限公司 文本翻译方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334334A (zh) * 2019-06-19 2019-10-15 腾讯科技(深圳)有限公司 一种摘要生成方法、装置及计算机设备
CN110334334B (zh) * 2019-06-19 2024-05-14 腾讯科技(深圳)有限公司 一种摘要生成方法、装置及计算机设备
CN110688834A (zh) * 2019-08-22 2020-01-14 阿里巴巴集团控股有限公司 基于深度学习模型进行智能文稿风格改写的方法和设备
CN110688834B (zh) * 2019-08-22 2023-10-31 创新先进技术有限公司 基于深度学习模型进行智能文稿风格改写的方法和设备
CN110825855A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 基于人工智能的应答方法、装置、计算机设备及存储介质
CN111931496A (zh) * 2020-07-08 2020-11-13 广东工业大学 一种基于递归神经网络模型的文本风格转换系统及方法

Also Published As

Publication number Publication date
CN109885811B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN109885811A (zh) 文章风格转换方法、装置、计算机设备及存储介质
CN106887225B (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
CN109657051A (zh) 文本摘要生成方法、装置、计算机设备及存储介质
CN110444223A (zh) 基于循环神经网络和声学特征的说话人分离方法及装置
WO2019007406A1 (zh) 一种数据处理装置和方法
CN110223671A (zh) 语言韵律边界预测方法、装置、系统和存储介质
CN110008956A (zh) 发票关键信息定位方法、装置、计算机设备及存储介质
CN112084752B (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN109933652A (zh) 智能问答方法、装置、计算机设备及存储介质
CN105261358A (zh) 用于语音识别的n元文法模型构造方法及语音识别系统
CN112231584A (zh) 基于小样本迁移学习的数据推送方法、装置及计算机设备
CN115438215B (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN109299264A (zh) 文本分类方法、装置、计算机设备及存储介质
WO2022156434A1 (zh) 用于生成文本的方法和装置
CN112820269A (zh) 文本转语音方法、装置、电子设备及存储介质
CN114462356B (zh) 一种文本纠错方法、装置、电子设备和介质
WO2023071562A1 (zh) 语音识别文本处理方法、装置、设备、存储介质及程序产品
CN110222333A (zh) 一种语音交互方法、装置以及相关设备
CN115269786B (zh) 可解释的虚假文本检测方法、装置、存储介质以及终端
CN113962737A (zh) 目标识别模型训练方法和装置、目标识别方法和装置
CN116564270A (zh) 基于去噪扩散概率模型的歌唱合成方法、设备及介质
CN117786087A (zh) 信息抽取方法、装置、设备及存储介质
CN110019952B (zh) 视频描述方法、系统及装置
CN112765330A (zh) 文本数据处理方法、装置、电子设备和存储介质
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant