CN110147535A - 相似文本生成方法、装置、设备及存储介质 - Google Patents

相似文本生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110147535A
CN110147535A CN201910315374.5A CN201910315374A CN110147535A CN 110147535 A CN110147535 A CN 110147535A CN 201910315374 A CN201910315374 A CN 201910315374A CN 110147535 A CN110147535 A CN 110147535A
Authority
CN
China
Prior art keywords
text
current
vocabulary
similar
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910315374.5A
Other languages
English (en)
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910315374.5A priority Critical patent/CN110147535A/zh
Publication of CN110147535A publication Critical patent/CN110147535A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及语义解析技术领域,公开一种相似文本生成方法、装置、设备及存储介质,该方法通过将初始文本输入至生成式对抗网络中的文本生成器以获取相似文本,并将生成的相似文本和用户输入的初始文本输入至生成式对抗网络的文本鉴别器中计算文本之间的当前判别概率,然后检测该当前判别概率是否等于预设概率值,若等于则将当前生成的相似文本作为目标文本,若不等于则根据预先设定的优化策略对文本生成器和文本鉴别器进行循环优化,直至获取到的判别概率等于预设概率值,由于是对生成式对抗网络模型进行循环优化并检测模型文本结果是否满足最终的输出条件,从而能够保证获得的相似文本直接为计算机所理解,保证了文本输入的准确性及可靠性。

Description

相似文本生成方法、装置、设备及存储介质
技术领域
本发明涉及语义解析技术领域,尤其涉及一种相似文本生成方法、装置、设备及存储介质。
背景技术
采用自然语言写成的输入文本通常难以直接为计算机所理解,因此,在文本分类、文本翻译等场合,通常需要采用深度学习模型根据输入文本获取到相似文本,以便于计算机对文本进行理解。在现有的深度学习模型中,生成式对抗网络(Generative AdversarialNetworks,GAN)因能够输出准确度高的结果,在图像生成等领域受到广泛的重视,生成式对抗网络的架构通常包括生成器(Generator)和鉴别器(Discriminator),二者互相博弈学习产生相当好的输出。
目前,虽然GAN模型已经被应用到文本数据的语义解析领域,但由于GAN模型本身的自由性,对于文本这一类离散序列数据而言,该模型的稳定性仍十分不足,经常会导致模型最终输出的文本结果不理想。
发明内容
本发明的主要目的在于提供了一种相似文本生成方法、装置、设备及存储介质,旨在解决生成式对抗网络在处理文本类数据时,最终输出的文本结果不理想的技术问题。
为实现上述目的,本发明提供了一种相似文本生成方法,所述方法包括以下步骤:
将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本;
将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率;
检测所述当前判别概率是否等于预设概率值,若不等于,则根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,以获得优化后的文本生成器和优化后的文本鉴别器;
将优化后的文本生成器作为新的当前文本生成器,将优化后的文本鉴别器作为新的文本鉴别器,并返回至所述将当前获取到的初始文本输入至当前文本生成器的步骤;
循环检测获取到的当前判别概率是否等于所述预设概率值,若等于,则将所述当前相似文本作为目标相似文本。
优选的,所述当前文本生成器为第一卷积神经网络,所述第一卷积神经网络包括第一输入层和至少一个第一卷积层;
所述将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本的步骤,包括:
将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量;
将所述第一文本向量输入至所述第一卷积层,以使所述第一卷积层对所述第一文本向量进行文本特征提取,以获取词汇隐变量;
通过第一映射函数对所述词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本。
优选的,所述将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量的步骤,包括:
将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行分词处理以获取对应的词汇文本;
通过所述第一输入层去除所述词汇文本中包含的停用词以获得目标文本,按所述目标文本的词汇序列将所述目标文本向量化,获得第一文本向量。
优选的,所述第一映射函数为gumbel-softmax函数;
所述通过第一映射函数对所述词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本的步骤,包括:
通过第一映射函数对所述词汇隐变量中包含的所有词汇进行概率计算,获取各词汇对应的分类概率值;
将所述分类概率值大于预设阈值的词汇作为目标词汇,并根据所述目标词汇生成当前相似文本;
其中,所述第一映射函数为:
式中,y为分类概率值,α为词汇隐变量中包含的词汇,g为符合gumble标准分布的随机变量,τ为预设趋近系数。
优选的,所述当前文本鉴别器为第二卷积神经网络,所述第二卷积神经网络包括第二输入层、至少一个第二卷积层、池化层以及输出层;
所述将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率的步骤,包括:
将所述当前相似文本输入至所述第二输入层,以使所述第二输入层将所述当前相似文本向量化,获得第二文本向量;
将所述第二文本向量输入至所述第二卷积层,以使所述第二卷积层对所述第二文本向量进行文本特征提取,以获取目标隐变量;
通过所述池化层对所述目标隐变量进行词汇抽取以获取特征词汇,并根据所述特征词汇生成待比对文本;
将所述初始文本以及所述待比对文本输入至所述输出层并获取所述输出层输出的当前判别概率。
优选的,所述通过所述池化层对所述目标隐变量进行词汇抽取以获取特征词汇,并根据所述特征词汇生成待比对文本的步骤,包括:
通过所述池化层对所述目标隐变量中包含的词汇进行下采样操作,获取对应的词汇向量;
将获取到的所述词汇向量组成一维词汇向量,并将所述一维词汇向量作为待比对文本。
优选的,所述输出层为第二映射函数;
所述将所述初始文本以及所述待比对文本输入至所述输出层并获取所述输出层输出的当前判别概率的步骤,包括:
对所述初始文本进行归一化处理获得对应的第一词汇变量;
对所述待比对文本进行归一化处理获得对应的第二词汇变量;
将所述第一词汇变量和所述第二词汇变量输入至所述第二映射函数中进行概率计算,并获取所述第二映射函数输出的当前判别概率;
其中,所述第二映射函数为:
式中,σ为判别概率,K为变量数量,zj为第二词汇变量,zk为第一词汇变量。
此外,为实现上述目的,本发明还提出一种相似文本生成装置,所述装置包括:
文本生成模块,用于将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本;
概率计算模块,用于将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率;
文本比较模块,用于检测所述当前判别概率是否等于预设概率值,若不等于,则根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,以获得优化后的文本生成器和优化后的文本鉴别器;
所述文本比较模块,还用于将优化后的文本生成器作为新的当前文本生成器,将优化后的文本鉴别器作为新的文本鉴别器,并执行所述将当前获取到的初始文本输入至当前文本生成器的操作;
结果确定模块,用于循环检测获取到的当前判别概率是否等于所述预设概率值,若等于,则将所述当前相似文本作为目标相似文本。
此外,为实现上述目的,本发明还提出一种相似文本生成设备,所述相似文本生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的相似文本生成程序,所述相似文本生成程序配置为实现如上文所述的相似文本生成方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有相似文本生成程序,所述相似文本生成程序被处理器执行时实现如上文所述的相似文本生成方法的步骤。
本发明通过将初始文本输入至文本生成器以获取相似文本,并将生成的相似文本和用户输入的初始文本输入至文本鉴别器中计算文本之间的当前判别概率,然后检测该当前判别概率是否等于预设概率值,若等于则表明将当前生成的相似文本作为目标文本,若不等于则根据预先设定的优化策略对文本生成器和文本鉴别器进行循环优化,直至获取到的判别概率等于预设概率值,从而能够保证最终获得的相似文本能够直接为计算机所理解,保证了文本输入的准确性及可靠性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的相似文本生成设备的结构示意图;
图2为本发明相似文本生成方法第一实施例的流程示意图;
图3为本发明相似文本生成方法第二实施例的流程示意图;
图4为本发明相似文本生成方法第三实施例的流程示意图;
图5为本发明相似文本生成装置的第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的相似文本生成设备结构示意图。
如图1所示,该相似文本生成设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对相似文本生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及相似文本生成程序。
在图1所示的相似文本生成设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明相似文本生成设备中的处理器1001、存储器1005可以设置在相似文本生成设备中,所述相似文本生成设备通过处理器1001调用存储器1005中存储的相似文本生成程序,并执行本发明实施例提供的相似文本生成方法。
本发明实施例提供了一种相似文本生成方法,参照图2,图2为本发明相似文本生成方法第一实施例的流程示意图。
本实施例中,所述相似文本生成方法包括以下步骤:
步骤S10:将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本;
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算服务设备,例如手机、平板电脑以及个人电脑等,以下简称终端设备。本步骤中,所述初始文本可以是用户手动输入的字符数据,也可以是终端设备通过语音识别方式获取的用户语音数据,本实施例对此不作具体限制。
应理解的是,所述当前文本生成器,即GAN模型框架中包含的生成模型(Generative Model)。通常而言,生成器一般通过马尔科夫链(Markov chains)或者展开的近似推理网络(unrolled approximate inference networks)来实现,它能够使得相似文本与用户输入的初始文本在全局特征上更加接近。考虑到在自然语言处理(NaturalLanguage Processing,NLP)领域,卷积神经网络(Convolutional Neural Networks,CNN)的表现被证实优于上述马尔科夫链或者展开的近似推理网络以及其它一些深度算法,因此本实施例中,所述当前文本生成器优选采用卷积神经网络。
在具体实现中,终端设备可先获取用户输入的初始文本,然后将当前获取到的初始文本输入至当前文本生成器(即所述卷积神经网络),以使所述卷积神经网络根据初始文本生成并输出当前相似文本。
步骤S20:将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率;
应理解的是,所述当前文本鉴别器,即GAN模型框架中包含的判别模型(Discriminative Model)。在机器学习领域,机器学习的模型可大体分为两类:生成模型(Generative Model)和判别模型(Discriminative Model)。判别模型需要输入变量,通过某种模型来实现结果预测;而生成模型则是给定某种隐含信息,来随机产生观测数据。与所述当前文本生成器类似,本实施例中所述文本鉴别器采用由卷积层和池化层构成的Text卷积神经网络(即TextCNN)来实现。
其中,所述当前判别概率即所述当前文本鉴别器计算出的初始文本与当前相似文本之间的相似程度,相似程度高表明当前文本生成器生成的相似文本能够以假乱真,与用户输入的初始文本较为相似或相近。
在具体实现中,终端设备可将当前文本生成器根据初始文本生成的当前相似文本和初始文本均输入至当前文本鉴别器,从而使得当前文本鉴别器计算初始文本和当前相似文本之间的当前判别概率。
步骤S30:检测所述当前判别概率是否等于预设概率值,若不等于,则根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,以获得优化后的文本生成器和优化后的文本鉴别器;
需要说明的是,所述预设概率值是指,预先设置的用于将其与所述当前判别概率进行比较,根据比较结果能够实现对当前相似文本真假(即与初始文本相似或不相似)判别的数值。在GAN模型中,当所述当前判别概率大于或小于所述预设概率值时,当前相似文本对应被判断为真或者假,此时,生成器和鉴别器之间仍需要进一步的博弈。在生成器和鉴别器进行博弈的过程中,生成器可在预设优化器的作用下,重复进行优化,并重复生成当前相似文本,直至鉴别器已经无法分辨当前相似文本的真假。本实施例GAN的架构中除了包括生成器(Generator)和鉴别器(Discriminator)还包括用于优化生成器以及鉴别器的优化器(Optimizer),所述优化器用于根据预先设定的模型优化策略对所述文本生成器以及所述文本鉴别器进行优化。
进一步地,考虑到Adam优化器常用于生成式对抗网络中对生成器的优化,本实施例中所述优化器优选为Adam优化器,Adam优化器为一种采用Adam算法实现优化的优化器。其中,所述Adam算法能够根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计,动态调整针对于每个参数的学习速率,从而能够实现对当前生成器的卷积神经网络进行优化。
可理解的是,在GAN的架构中,当鉴别器判断当前相似文本为假时,表明所述当前相似文本与所述初始文本相似度过低,就不能满足语义解析的需求,在鉴别器判断当前相似文本为真时,表明所述当前相似文本与所述初始文本则过于接近,也不利于后续语义解析的继续进行,因此通常情况下,所述预设概率值设置为0.5左右。
在具体实现中,终端设备在获取到所述文本鉴别器输出的当前判别概率时,即可检测所述当前判别概率是否等于预设概率值,若不等于,则调用预设优化器根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,从而获得优化后的文本生成器和优化后的文本鉴别器。
步骤S40:将优化后的文本生成器作为新的当前文本生成器,将优化后的文本鉴别器作为新的文本鉴别器,并返回至所述将当前获取到的初始文本输入至当前文本生成器的步骤;
应理解的是,若终端设备检测到当前判别概率不等于预设概率值,则表明文本鉴别器此时仍然能够判别所述当前相似文本的真假,因此仍需要对文本生成器和文本鉴别器进行迭代优化,直至文本鉴别器输出的当前判别概率等于预设概率值,此时表明当前的文本鉴别器已经无法分辨出哪一个文本是用户输入的初始文本,哪一个文本是文本生成器生成的相似文本,也说明文本生成器和文本鉴别器之间已经完成了博弈学习的过程,因而可以将此时的当前相似文本作为最终的生成文本结果。
在具体实现中,终端设备可将每次优化后的文本生成器作为新的文本生成器,同时将每次优化后的文本鉴别器作为新的文本鉴别器,然后基于新的文本生成器根据初始文本生成相似文本,再将当前生成的相似文本输入至新的文本鉴别器进行判别概率的计算,且在每一次计算出判别概率后都将其与预设概率值的比较。
步骤S50:循环检测获取到的当前判别概率是否等于所述预设概率值,若等于,则将所述当前相似文本作为目标相似文本。
在具体实现中,终端设备在检测到文本鉴别器某一次输出的当前判别概率等于所述预设概率值时,表明文本鉴别器当前已经无法分辨当前相似文本的真假,此时即可将所述当前相似文本作为最终的目标相似文本。
本实施例通过将初始文本输入至文本生成器以获取相似文本,并将生成的相似文本和用户输入的初始文本输入至文本鉴别器中计算文本之间的当前判别概率,然后检测该当前判别概率是否等于预设概率值,若等于则表明将当前生成的相似文本作为目标文本,若不等于则根据预先设定的优化策略对文本生成器和文本鉴别器进行循环优化,直至获取到的判别概率等于预设概率值,从而能够保证最终获得的相似文本能够直接为计算机所理解,保证了文本输入的准确性及可靠性。
参考图3,图3为本发明相似文本生成方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述当前文本生成器为(第一)卷积神经网络,所述第一卷积神经网络包括第一输入层和至少一个第一卷积层;
相应地,所述步骤S10具体可以包括以下步骤:
步骤S101:将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量;
应理解的是,卷积神经网络的输入层可以处理多维数据,一般一维卷积神经网络的输入层接收一维或二维数组,而卷积神经网络的隐含层则一般包含卷积层、池化层和全连接层三类常见构筑。其中,所述卷积层的功能是对输入数据进行特征提取。
在具体实现中,终端设备可将当前获取到的初始文本输入到第一输入层中,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量。
具体的,所述第一输入层可将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行分词处理以获取对应的词汇文本;然后通过所述第一输入层去除所述词汇文本中包含的停用词以获得目标文本,按所述目标文本的词汇序列将所述目标文本向量化,获得第一文本向量,例如:如初始文本中有一段文本为“文本表达的观点在于……”,经过分词之后得到词汇文本“文本/表达/的/观点/在于……”;然后对分词处理后的词汇文本去停用词,即去掉语气助词、连接词、介词、副词等,如的、地、得等,如上述例子可以得到目标文本“文本/表达/观点……”;最后再按所述目标文本的词汇序列将所述目标文本向量化,获得第一文本向量,如{文本:(1,9),表达:(2,4),观点:(3,2),……}。
步骤S102:将所述第一文本向量输入至所述第一卷积层,以使所述第一卷积层对所述第一文本向量进行文本特征提取,以获取词汇隐变量;
需要说明的是,所谓隐变量,广义上讲是指“不能被直接观察到,但是对系统的状态和能观察到的输出存在影响的一种因素”,本方案中所述词汇隐变量,即词汇提取过程中用于筛选出构成当前相似文本的备选词汇,这些备选词汇需要进行进一步的词汇筛选,才能获得最终的相似文本词汇。
在具体实现中,终端设备可将所述第一文本向量输入至所述第一卷积层,以使所述第一卷积层对所述第一文本向量进行文本特征提取,以获取词汇隐变量。
步骤S103:通过第一映射函数对所述词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本。
需要说明的是,在文本词汇量较大的情况下,卷积层筛选出来的词汇隐变量中包含的备选词汇往往数量众多,而这些备选词汇中有些词汇可能存在一些对当前相似文本与初始文本之间相似程度影响不大的词汇需要被剔除,因此本实施例中所述词汇隐变量需要进一步筛选。
具体的,本实施例中终端设备可通过第一映射函数对所述词汇隐变量中包含的所有词汇进行概率计算,获取各词汇对应的分类概率值;然后将所述分类概率值大于预设阈值的词汇作为目标词汇,并根据所述目标词汇生成当前相似文本;其中,所述第一映射函数为:
式中,y为分类概率值,α为词汇隐变量中包含的词汇,g为符合gumble标准分布的随机变量,τ为预设趋近系数,该系数趋近于0,且在训练中可以向0做微调。
应理解的是,所述第一映射函数为gumbel-softmax函数,该函数通常用来实现二分类问题,例如数值a和数值b,且a>b;若取max则直接选取数值a,结合到本方案中终端设备可通过上述第一映射函数来计算词汇隐变量中各词汇是否大于预设阈值,若是则能够被筛选为所述目标词汇。
在具体实现中,终端设备在通过第一映射函数对所述词汇隐变量进行变量筛选后,即可根据获取到的筛选结果生成当前相似文本。
本实施例通过将当前获取到的初始文本输入至第一输入层,以使第一输入层对初始文本进行向量转化,获得第一文本向量;将第一文本向量输入至第一卷积层,以使第一卷积层对第一文本向量进行文本特征提取,以获取词汇隐变量;通过第一映射函数对词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本,由于是采用卷积神经网络来作为GAN模型中的文本生成器,从而能够保证生成的相似文本的准确度。
参考图4,图4为本发明相似文本生成方法第三实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述当前文本鉴别器为第二卷积神经网络,所述第二卷积神经网络包括第二输入层、至少一个第二卷积层、池化层以及输出层;
相应地,所述步骤S20具体可以包括以下步骤:
步骤S201:将所述当前相似文本输入至所述第二输入层,以使所述第二输入层将所述当前相似文本向量化,获得第二文本向量;
应理解的是,为了对当前生成的相似文本和用户输入的初始文本进行相似程度的鉴别,本实施例中终端设备还会将生成的当前相似文本先输入至文本鉴别器中的第二输入层中,以使所述第二输入层将所述当前相似文本向量化,获得第二文本向量。具体的文本向量化方式与上述第二实施例中的步骤S101相同,此处不再详述。
步骤S202:将所述第二文本向量输入至所述第二卷积层,以使所述第二卷积层对所述第二文本向量进行文本特征提取,以获取目标隐变量;
应理解的是,通过情况下,卷积层在输入层的基础上,会使用过滤窗口(FilterWindow)进行卷积操作得到特征映射(Feature Map)。卷积层中的过滤器(Filter)能从输入的文本向量中抽取出若干个特征词汇,而这些提取出的词汇在自然语言处理(NaturalLanguage Processing,NLP)中称为文本特征。
在具体实现中,终端设备在获取到第二输入层输出的第二文本向量后,可将所述第二文本向量输入至所述第二卷积层,由所述第二卷积层对所述第二文本向量进行文本特征提取,并将提取到的特征词汇作为目标隐变量。
步骤S203:通过所述池化层对所述目标隐变量进行词汇抽取以获取特征词汇,并根据所述特征词汇生成待比对文本;
应理解的是,在卷积神经网络中在卷积层进行特征提取后,输出的特征会被传递至池化层进行特征选择和信息过滤,池化层的作用是将高维的向量转化为一维的向量进行输出。本实施例中,为了保证文本生成器生成的当前相似文本与用户输入的初始文本之间具有合理的相似程度,文本鉴别器还将通过池化层对目标隐变量进行词汇抽取以获取特征词汇,并根据所述特征词汇生成待比对文本。
具体的,可通过所述池化层对所述目标隐变量中包含的词汇进行下采样操作,获取对应的词汇向量;将获取到的所述词汇向量组成一维词汇向量,并将所述一维词汇向量作为待比对文本。
需要说明的是,所述下采样操作又称为降采样处理,它是通过对于一个样值序列每间隔几个样值取样一次,这样能够得到新序列,得到的新序列是原序列的下采样,例如,对目标隐变量中的词汇序列{我,是,中国,人,我,爱,自己,的,祖国}进行一次降采样处理,得到新的词汇序列为{我,中国,人,爱,自己,祖国}。
在获取到下采样操作后的词汇序列后,需要重新根据各词汇的顺序构建对应的词汇向量,然后将该词汇向量组成一维词汇向量,并将所述一维词汇向量作为待比对文本。
步骤S204:将所述初始文本以及所述待比对文本输入至所述输出层并获取所述输出层输出的当前判别概率。
在具体实现中,终端设备在获取到所述初始文本以及所述待比对文本后,可对所述初始文本进行归一化处理获得对应的第一词汇变量;然后对所述待比对文本进行归一化处理获得对应的第二词汇变量;将所述第一词汇变量和所述第二词汇变量输入至所述第二映射函数中进行概率计算,并获取所述第二映射函数输出的当前判别概率;其中,所述第二映射函数为:
式中,σ为判别概率,K为变量数量,zj为第二词汇变量,zk为第一词汇变量。
本实施例中,所述归一化处理即将文本对应的词汇向量统一到相同的量纲,然后进行文本相似程度的判定。例如对词汇向量{主题(1,10),表达(2,5),含义(5,2)}归一化处理后,得到的词汇变量则为{主题(0.1,1),表达(0.2,0.5),含义(0.5,0.2)}。
本实施例通过采用卷积神经网络来作为GAN模型中的文本鉴别器来计算初始文本和当前相似文本之间的判别概率,能够使当前判别概率能够更加直观地反应所述输入文本和所述当前相似文本之间的相似程度。
参照图5,图5为本发明相似文本生成装置第一实施例的结构框图。
如图5所示,本发明实施例提出的相似文本生成装置包括:
文本生成模块501,用于将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本;
概率计算模块502,用于将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率;
文本比较模块503,用于检测所述当前判别概率是否等于预设概率值,若不等于,则根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,以获得优化后的文本生成器和优化后的文本鉴别器;
所述文本比较模块503,还用于将优化后的文本生成器作为新的当前文本生成器,将优化后的文本鉴别器作为新的文本鉴别器,并执行所述将当前获取到的初始文本输入至当前文本生成器的操作;
结果确定模块504,用于循环检测获取到的当前判别概率是否等于所述预设概率值,若等于,则将所述当前相似文本作为目标相似文本。
基于本发明上述相似文本生成装置第一实施例,提出本发明相似文本生成装置的第二实施例。
在本实施例中,所述文本生成模块501,还用于将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量;将所述第一文本向量输入至所述第一卷积层,以使所述第一卷积层对所述第一文本向量进行文本特征提取,以获取词汇隐变量;通过第一映射函数对所述词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本。
进一步地,所述文本生成模块501,还用于将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行分词处理以获取对应的词汇文本;通过所述第一输入层去除所述词汇文本中包含的停用词以获得目标文本,按所述目标文本的词汇序列将所述目标文本向量化,获得第一文本向量。
进一步地,所述文本生成模块501,还用于将所述分类概率值大于预设阈值的词汇作为目标词汇,并根据所述目标词汇生成当前相似文本;其中,所述第一映射函数为:
式中,y为分类概率值,α为词汇隐变量中包含的词汇,g为符合gumble标准分布的随机变量,τ为预设趋近系数。
进一步地,所述概率计算模块502,还用于将所述当前相似文本输入至所述第二输入层,以使所述第二输入层将所述当前相似文本向量化,获得第二文本向量;将所述第二文本向量输入至所述第二卷积层,以使所述第二卷积层对所述第二文本向量进行文本特征提取,以获取目标隐变量;通过所述池化层对所述目标隐变量进行词汇抽取以获取特征词汇,并根据所述特征词汇生成待比对文本;将所述初始文本以及所述待比对文本输入至所述输出层并获取所述输出层输出的当前判别概率。
进一步地,所述概率计算模块502,还用于通过所述池化层对所述目标隐变量中包含的词汇进行下采样操作,获取对应的词汇向量;将获取到的所述词汇向量组成一维词汇向量,并将所述一维词汇向量作为待比对文本。
进一步地,所述概率计算模块502,还用于对所述初始文本进行归一化处理获得对应的第一词汇变量;对所述待比对文本进行归一化处理获得对应的第二词汇变量;将所述第一词汇变量和所述第二词汇变量输入至所述第二映射函数中进行概率计算,并获取所述第二映射函数输出的当前判别概率;其中,所述第二映射函数为:
式中,σ为判别概率,K为变量数量,zj为第二词汇变量,zk为第一词汇变量。
本发明相似文本生成装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种相似文本生成方法,其特征在于,所述相似文本生成方法包括以下步骤:
将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本;
将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率;
检测所述当前判别概率是否等于预设概率值,若不等于,则根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,以获得优化后的文本生成器和优化后的文本鉴别器;
将优化后的文本生成器作为新的当前文本生成器,将优化后的文本鉴别器作为新的文本鉴别器,并返回至所述将当前获取到的初始文本输入至当前文本生成器的步骤;
循环检测获取到的当前判别概率是否等于所述预设概率值,若等于,则将所述当前相似文本作为目标相似文本。
2.如权利要求1所述的相似文本生成方法,其特征在于,所述当前文本生成器为第一卷积神经网络,所述第一卷积神经网络包括第一输入层和至少一个第一卷积层;
所述将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本的步骤,包括:
将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量;
将所述第一文本向量输入至所述第一卷积层,以使所述第一卷积层对所述第一文本向量进行文本特征提取,以获取词汇隐变量;
通过第一映射函数对所述词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本。
3.如权利要求2所述的相似文本生成方法,其特征在于,所述将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量的步骤,包括:
将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行分词处理以获取对应的词汇文本;
通过所述第一输入层去除所述词汇文本中包含的停用词以获得目标文本,按所述目标文本的词汇序列将所述目标文本向量化,获得第一文本向量。
4.如权利要求2所述的相似文本生成方法,其特征在于,所述第一映射函数为gumbel-softmax函数;
所述通过第一映射函数对所述词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本的步骤,包括:
通过第一映射函数对所述词汇隐变量中包含的所有词汇进行概率计算,获取各词汇对应的分类概率值;
将所述分类概率值大于预设阈值的词汇作为目标词汇,并根据所述目标词汇生成当前相似文本;
其中,所述第一映射函数为:
式中,y为分类概率值,α为词汇隐变量中包含的词汇,g为符合gumble标准分布的随机变量,τ为预设趋近系数。
5.如权利要求1至4任一项所述的相似文本生成方法,其特征在于,所述当前文本鉴别器为第二卷积神经网络,所述第二卷积神经网络包括第二输入层、至少一个第二卷积层、池化层以及输出层;
所述将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率的步骤,包括:
将所述当前相似文本输入至所述第二输入层,以使所述第二输入层将所述当前相似文本向量化,获得第二文本向量;
将所述第二文本向量输入至所述第二卷积层,以使所述第二卷积层对所述第二文本向量进行文本特征提取,以获取目标隐变量;
通过所述池化层对所述目标隐变量进行词汇抽取以获取特征词汇,并根据所述特征词汇生成待比对文本;
将所述初始文本以及所述待比对文本输入至所述输出层并获取所述输出层输出的当前判别概率。
6.如权利要求5所述的相似文本生成方法,其特征在于,所述通过所述池化层对所述目标隐变量进行词汇抽取以获取特征词汇,并根据所述特征词汇生成待比对文本的步骤,包括:
通过所述池化层对所述目标隐变量中包含的词汇进行下采样操作,获取对应的词汇向量;
将获取到的所述词汇向量组成一维词汇向量,并将所述一维词汇向量作为待比对文本。
7.如权利要求5所述的相似文本生成方法,其特征在于,所述输出层为第二映射函数;
所述将所述初始文本以及所述待比对文本输入至所述输出层并获取所述输出层输出的当前判别概率的步骤,包括:
对所述初始文本进行归一化处理获得对应的第一词汇变量;
对所述待比对文本进行归一化处理获得对应的第二词汇变量;
将所述第一词汇变量和所述第二词汇变量输入至所述第二映射函数中进行概率计算,并获取所述第二映射函数输出的当前判别概率;
其中,所述第二映射函数为:
式中,σ为判别概率,K为变量数量,zj为第二词汇变量,zk为第一词汇变量。
8.一种相似文本生成装置,其特征在于,所述装置包括:
文本生成模块,用于将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本;
概率计算模块,用于将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率;
文本比较模块,用于检测所述当前判别概率是否等于预设概率值,若不等于,则根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,以获得优化后的文本生成器和优化后的文本鉴别器;
所述文本比较模块,还用于将优化后的文本生成器作为新的当前文本生成器,将优化后的文本鉴别器作为新的文本鉴别器,并执行所述将当前获取到的初始文本输入至当前文本生成器的操作;
结果确定模块,用于循环检测获取到的当前判别概率是否等于所述预设概率值,若等于,则将所述当前相似文本作为目标相似文本。
9.一种相似文本生成设备,其特征在于,所述相似文本生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的相似文本生成程序,所述相似文本生成程序配置为实现如权利要求1至7中任一项所述的相似文本生成方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有相似文本生成程序,所述相似文本生成程序被处理器执行时实现如权利要求1至7任一项所述的相似文本生成方法的步骤。
CN201910315374.5A 2019-04-18 2019-04-18 相似文本生成方法、装置、设备及存储介质 Pending CN110147535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910315374.5A CN110147535A (zh) 2019-04-18 2019-04-18 相似文本生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910315374.5A CN110147535A (zh) 2019-04-18 2019-04-18 相似文本生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110147535A true CN110147535A (zh) 2019-08-20

Family

ID=67589665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910315374.5A Pending CN110147535A (zh) 2019-04-18 2019-04-18 相似文本生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110147535A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837806A (zh) * 2019-11-11 2020-02-25 辽宁科技学院 一种基于深度卷积记忆网络的室内定位方法
CN111680494A (zh) * 2020-04-27 2020-09-18 平安科技(深圳)有限公司 相似文本的生成方法及装置
CN112818082A (zh) * 2019-11-15 2021-05-18 北京沃东天骏信息技术有限公司 评价文本推送方法和装置
WO2021139250A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 一种数据增强模型的训练方法及装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392147A (zh) * 2017-07-20 2017-11-24 北京工商大学 一种基于改进的生成式对抗网络的图像语句转换方法
US20180011931A1 (en) * 2016-07-06 2018-01-11 Adobe Systems Incorporated Master content summaries for variant content
CN108038821A (zh) * 2017-11-20 2018-05-15 河海大学 一种基于生成式对抗网络的图像风格迁移方法
CN108491514A (zh) * 2018-03-26 2018-09-04 清华大学 对话系统中提问的方法及装置、电子设备、计算机可读介质
CN108491497A (zh) * 2018-03-20 2018-09-04 苏州大学 基于生成式对抗网络技术的医疗文本生成方法
CN108875511A (zh) * 2017-12-01 2018-11-23 北京迈格威科技有限公司 图像生成的方法、装置、系统及计算机存储介质
CN108875766A (zh) * 2017-11-29 2018-11-23 北京旷视科技有限公司 图像处理的方法、装置、系统及计算机存储介质
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置
CN108923922A (zh) * 2018-07-26 2018-11-30 北京工商大学 一种基于生成对抗网络的文本隐写方法
CN109003678A (zh) * 2018-06-12 2018-12-14 清华大学 一种仿真文本病历的生成方法及系统
CN109033390A (zh) * 2018-07-27 2018-12-18 深圳追科技有限公司 自动生成相似问句的方法和装置
CN109063004A (zh) * 2018-07-09 2018-12-21 深圳追科技有限公司 一种自动生成faq相似问句的方法和装置
CN109413028A (zh) * 2018-08-29 2019-03-01 集美大学 基于卷积神经网络算法的sql注入检测方法
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质
CN109614996A (zh) * 2018-11-28 2019-04-12 桂林电子科技大学 基于生成对抗网络的弱可见光与红外图像融合的识别方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180011931A1 (en) * 2016-07-06 2018-01-11 Adobe Systems Incorporated Master content summaries for variant content
CN107392147A (zh) * 2017-07-20 2017-11-24 北京工商大学 一种基于改进的生成式对抗网络的图像语句转换方法
CN108038821A (zh) * 2017-11-20 2018-05-15 河海大学 一种基于生成式对抗网络的图像风格迁移方法
CN108875766A (zh) * 2017-11-29 2018-11-23 北京旷视科技有限公司 图像处理的方法、装置、系统及计算机存储介质
CN108875511A (zh) * 2017-12-01 2018-11-23 北京迈格威科技有限公司 图像生成的方法、装置、系统及计算机存储介质
CN108491497A (zh) * 2018-03-20 2018-09-04 苏州大学 基于生成式对抗网络技术的医疗文本生成方法
CN108491514A (zh) * 2018-03-26 2018-09-04 清华大学 对话系统中提问的方法及装置、电子设备、计算机可读介质
CN109003678A (zh) * 2018-06-12 2018-12-14 清华大学 一种仿真文本病历的生成方法及系统
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置
CN109063004A (zh) * 2018-07-09 2018-12-21 深圳追科技有限公司 一种自动生成faq相似问句的方法和装置
CN108923922A (zh) * 2018-07-26 2018-11-30 北京工商大学 一种基于生成对抗网络的文本隐写方法
CN109033390A (zh) * 2018-07-27 2018-12-18 深圳追科技有限公司 自动生成相似问句的方法和装置
CN109413028A (zh) * 2018-08-29 2019-03-01 集美大学 基于卷积神经网络算法的sql注入检测方法
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质
CN109614996A (zh) * 2018-11-28 2019-04-12 桂林电子科技大学 基于生成对抗网络的弱可见光与红外图像融合的识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高志强 等: "《虚拟现实与人工智能技术的综合应用》", 湖北科学技术出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837806A (zh) * 2019-11-11 2020-02-25 辽宁科技学院 一种基于深度卷积记忆网络的室内定位方法
CN112818082A (zh) * 2019-11-15 2021-05-18 北京沃东天骏信息技术有限公司 评价文本推送方法和装置
CN111680494A (zh) * 2020-04-27 2020-09-18 平安科技(深圳)有限公司 相似文本的生成方法及装置
WO2021139250A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 一种数据增强模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN110147535A (zh) 相似文本生成方法、装置、设备及存储介质
CN107609101B (zh) 智能交互方法、设备及存储介质
CN107797984B (zh) 智能交互方法、设备及存储介质
CN110010156A (zh) 基于对事件子部分的序列的建模的声音事件检测
CN109635273A (zh) 文本关键词提取方法、装置、设备及存储介质
CN109918676A (zh) 一种检测意图正则表达式的方法及装置、终端设备
CN109063000A (zh) 问句推荐方法、客服系统以及计算机可读存储介质
CN112347223B (zh) 文档检索方法、设备及计算机可读存储介质
CN107316635B (zh) 语音识别方法及装置、存储介质、电子设备
EP4020305A1 (en) Pre-trained language model fine-tuning method and apparatus and non-transitory computer-readable medium
CN108536595A (zh) 测试用例智能化匹配方法、装置、计算机设备及存储介质
CN110096591A (zh) 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
WO2024098524A1 (zh) 文本视频的互检索及模型训练方法、装置、设备及介质
WO2024093578A1 (zh) 语音识别方法、装置、电子设备、存储介质及计算机程序产品
CN110705282A (zh) 关键词提取方法、装置、存储介质及电子设备
CN103324641A (zh) 信息记录推荐方法和装置
CN110457707A (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
CN113821296A (zh) 可视化界面生成方法、电子设备及存储介质
CN109471953A (zh) 一种语音数据检索方法及终端设备
CN112580669A (zh) 一种对语音信息的训练方法及装置
CN116860963A (zh) 一种文本分类方法、设备及存储介质
CN111339287B (zh) 摘要生成方法及装置
CN111930884A (zh) 一种确定回复语句的方法、设备和人机对话系统
CN114626340B (zh) 基于手机信令的行为特征提取方法及相关装置
CN117112734B (zh) 基于语义的知识产权文本表示与分类方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190820

RJ01 Rejection of invention patent application after publication