CN112528647A - 相似文本生成方法、装置、电子设备及可读存储介质 - Google Patents

相似文本生成方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112528647A
CN112528647A CN202011421416.2A CN202011421416A CN112528647A CN 112528647 A CN112528647 A CN 112528647A CN 202011421416 A CN202011421416 A CN 202011421416A CN 112528647 A CN112528647 A CN 112528647A
Authority
CN
China
Prior art keywords
text
feature
initial
hidden
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011421416.2A
Other languages
English (en)
Inventor
姚晓远
杨海钦
段逸群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011421416.2A priority Critical patent/CN112528647A/zh
Publication of CN112528647A publication Critical patent/CN112528647A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及智能决策,揭露一种相似文本生成方法,包括:将初始文本转换为词向量序列,将词向量序列输入相似文本生成模型的编码区,得到第一隐含特征序列,基于第一隐含特征序列及相似文本生成模型的第一特征映射区得到隐含状态对应的正态分布;从正态分布中采样一个隐变量,将隐变量输入相似文本生成模型的第二特征映射区和编码区,得到初始隐含特征;基于起始字符、初始隐含特征及相似文本生成模型的解码区得到第二隐含特征序列,将隐变量及第二隐含特征序列输入相似文本生成模型的第三特征映射区得到目标文本。本发明还提供一种相似文本生成装置、电子设备及可读存储介质。本发明提高了目标文本与初始文本的匹配度。

Description

相似文本生成方法、装置、电子设备及可读存储介质
技术领域
本发明涉及智能决策领域,尤其涉及一种相似文本生成方法、装置、电子设备及可读存储介质。
背景技术
随着科技的发展,自然语言处理在人们生活中的应用越来越广泛,例如利用文本生成模型生成相似文本。
当前通常采用VAE(Variational Auto-Encoder,变分自动编码器)来生成相似文本,然而,训练得到的变分自动编码器遇到了后验消散的问题,即依赖于样本的分布和数量,使得训练得到的模型的生成过程完全忽略了VAE隐变量,从而训练得到的变分自动编码器生成的目标文本与初始文本匹配度不够高。因此,亟需一种相似文本生成方法,以提高目标文本与初始文本的匹配度。
发明内容
鉴于以上内容,有必要提供一种相似文本生成方法,旨在提高目标文本与初始文本的匹配度。
本发明提供的相似文本生成方法,包括:
解析用户基于客户端发出的相似文本生成请求,得到所述相似文本生成请求携带的初始文本,将所述初始文本转换为词向量序列;
将所述词向量序列输入相似文本生成模型的编码区,得到所述初始文本对应的第一隐含特征序列,基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布;
从所述正态分布中随机采样一个隐变量,将所述隐变量输入所述相似文本生成模型的第二特征映射区和编码区,得到所述隐变量对应的初始隐含特征;
获取为所述相似文本生成模型预设的起始字符,基于所述起始字符、所述初始隐含特征及所述相似文本生成模型的解码区得到第二隐含特征序列,将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本。
可选的,所述将所述初始文本转换为词向量序列,包括:
对所述初始文本执行分词处理,得到词语序列;
将所述词语序列输入词向量模型,得到词向量序列。
可选的,所述第一特征映射区包括第一MLP网络和第二MLP网络,所述基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布,包括:
将所述第一隐含特征序列输入所述第一特征映射区的第一MLP网络,得到所述初始文本的隐含状态的均值;
将所述第一隐含特征序列输入所述第一特征映射区的第二MLP网络,得到所述初始文本的隐含状态的方差;
基于所述均值和方差确定所述初始文本的隐含状态对应的正态分布。
可选的,所述将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本包括:
将所述第二隐含特征序列中第i个特征及所述隐变量输入所述相似文本生成模型的第三特征映射区,生成目标文本中第i个词语,合并所述第二隐含特征序列中每个特征对应生成的词语,得到所述初始文本对应的目标文本。
可选的,所述将所述第二隐含特征序列中第i个特征及所述隐变量输入所述相似文本生成模型的第三特征映射区,生成目标文本中第i个词语,包括:
将所述第二隐含特征序列中第i个特征、所述隐变量及预设词典输入所述相似文本生成模型的第三特征映射区,得到所述预设词典中各个单词在所述目标文本的第i个词语位置的概率分布表;
将所述概率分布表中最大概率值对应的单词作为所述目标文本中第i个词语位置对应的目标单词。
可选的,所述概率分布表对应的概率分布的公式为:
pθ(xi∣x<i,z)=Softmax(Wzz+WHHi+b)
其中,pθ(xi∣x<i,z)表示预设词典中各个单词在目标文本的第i个词语位置的概率分布,xi表示目标文本中第i个词语,x<i表示目标文本中第i个词语前面的词语,参数θ包括解码区参数
Figure BDA0002820682160000021
和偏置参数b,dz表示变分参数,dh表示隐含状态,|V|表示预设字典的单词数量,z表示隐变量,Hi表示第二隐含特征序列中第i个特征。
为了解决上述问题,本发明还提供一种相似文本生成装置,所述装置包括:
解析模块,用于解析用户基于客户端发出的相似文本生成请求,得到所述相似文本生成请求携带的初始文本,将所述初始文本转换为词向量序列;
输入模块,用于将所述词向量序列输入相似文本生成模型的编码区,得到所述初始文本对应的第一隐含特征序列,基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布;
采样模块,用于从所述正态分布中随机采样一个隐变量,将所述隐变量输入所述相似文本生成模型的第二特征映射区和编码区,得到所述隐变量对应的初始隐含特征;
生成模块,用于获取为所述相似文本生成模型预设的起始字符,基于所述起始字符、所述初始隐含特征及所述相似文本生成模型的解码区得到第二隐含特征序列,将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本。
可选的,所述第一特征映射区包括第一MLP网络和第二MLP网络,所述基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布,包括:
将所述第一隐含特征序列输入所述第一特征映射区的第一MLP网络,得到所述初始文本的隐含状态的均值;
将所述第一隐含特征序列输入所述第一特征映射区的第二MLP网络,得到所述初始文本的隐含状态的方差;
基于所述均值和方差确定所述初始文本的隐含状态对应的正态分布。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的相似文本生成程序,所述相似文本生成程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述相似文本生成方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有相似文本生成程序,所述相似文本生成程序可被一个或者多个处理器执行,以实现上述相似文本生成方法。
相较现有技术,本发明首先获取相似文本生成请求携带的初始文本,将初始文本转换为词向量序列;将词向量序列输入相似文本生成模型的编码区,得到初始文本对应的第一隐含特征序列,基于第一隐含特征序列及相似文本生成模型的第一特征映射区得到初始文本的隐含状态对应的正态分布;从正态分布中随机采样一个隐变量,将隐变量输入相似文本生成模型的第二特征映射区和编码区,得到隐变量对应的初始隐含特征;获取为所述相似文本生成模型预设的起始字符,基于起始字符、初始隐含特征及相似文本生成模型的解码区得到第二隐含特征序列,将隐变量及第二隐含特征序列输入相似文本生成模型的第三特征映射区得到初始文本对应的目标文本。本发明将隐变量与第二隐含特征序列一起输入相似文本生成模型的第三特征映射区,得到初始文本对应的目标文本,使得隐变量直接融合到生成目标文本中每个词语的过程中,有效解决了后验消散的问题,提高了初始文本与目标文本的匹配度。因此,本发明提高了目标文本与初始文本的匹配度。
附图说明
图1为本发明一实施例提供的相似文本生成方法的流程示意图;
图2为本发明一实施例提供的相似文本生成模型生成目标文本的流程示意图;
图3为本发明一实施例提供的相似文本生成装置的模块示意图;
图4为本发明一实施例提供的实现相似文本生成方法的电子设备的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种相似文本生成方法。参照图1所示,为本发明一实施例提供的相似文本生成方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
本实施例中,相似文本生成方法包括:
S1、解析用户基于客户端发出的相似文本生成请求,得到所述相似文本生成请求携带的初始文本,将所述初始文本转换为词向量序列。
本实施例的应用场景为:给定一个初始文本,生成一个与初始文本相似的目标文本,所述初始文本可以是一句话,也可以是一篇文章,还可以是一首诗。
所述将所述初始文本转换为词向量序列,包括:
A11、对所述初始文本执行分词处理,得到词语序列;
本实施例中,可采用基于词表的分词算法(正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法)或基于N-gram语言模型的分词方法对初始文本进行分词。
A12、将所述词语序列输入词向量模型,得到词向量序列。
所述词向量模型可以是word2vec模型,也可以是BERT模型。
S2、将所述词向量序列输入相似文本生成模型的编码区,得到所述初始文本对应的第一隐含特征序列,基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布。
所述相似文本生成模型包括编码区、解码区、第一、第二及第三特征映射区。所述编码区、解码区为LSTM网络(长短期记忆网络)或Transformer模型,第一、第二及第三特征映射区为MLP网络(多层感知器)。
其中,编码区用于将输入的词向量序列转换为较小的密集表示(第一隐含特征序列),第一特征映射区用于根据第一隐含特征序列计算初始文本的隐含状态对应的正态分布,第二特征映射区用于将从正态分布中采样的隐变量映射为隐性特征,解码区用于将输入特征进行还原,第三特征映射区用于根据隐变量及解码区输出的特征生成目标文本。
所述相似文本生成模型是由变分自动编码器转换而来的,与现有变分自动编码器的区别在于,相似文本生成模型增加了第三特征映射区(现有变分自动编码器采用一层全连接层将解码区输出的特征转换为目标文本),且建立了第一特征映射区的输出与第三特征映射区的输入之间的连接关系。
例如,将初始文本x分词后得到的词语序列中有T个词语x=(x1,x2,…,xT),词向量化处理后得到的词向量序列为(e1,e2,…,eT),将词向量序列输入模型的编码区,得到第一隐含特征序列(h1,h2,…,hT)=Enc(e1,e2,…,eT),其中,Enc()表示执行编码处理。
本实施例中,所述第一特征映射区包括第一MLP网络和第二MLP网络,所述基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布,包括:
B11、将所述第一隐含特征序列输入所述第一特征映射区的第一MLP网络,得到所述初始文本的隐含状态的均值;
B12、将所述第一隐含特征序列输入所述第一特征映射区的第二MLP网络,得到所述初始文本的隐含状态的方差;
B13、基于所述均值和方差确定所述初始文本的隐含状态对应的正态分布。
其中,根据均值和方差确定隐含状态对应的正态分布的过程为现有技术,在此不再赘述。
S3、从所述正态分布中随机采样一个隐变量,将所述隐变量输入所述相似文本生成模型的第二特征映射区和编码区,得到所述隐变量对应的初始隐含特征。
例如,从正态分布中随机采样的隐变量为z,z经过第二特征映射区和解码区得到的初始隐含特征为H0,目标文本是基于H0生成的。
S4、获取为所述相似文本生成模型预设的起始字符,基于所述起始字符、所述初始隐含特征及所述相似文本生成模型的解码区得到第二隐含特征序列,将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本。
例如,预先确定的起始字符为X0(变分自动编码器每次生成文本时的起始字符是固定的,起始字符为特定字符,与初始文本没有关系,与隐变量z也没有关系)。对X0执行词向量化处理(通过词向量模型进行转换)得到E0,将H0、E0输入相似样本生成模型的解码区得到H1。所述第二隐含特征序列为(H1,H2,…,HT),当前先生成第一个特征H1,基于H1和隐变量z生成目标文本的第一个词语X1,对X1执行词向量化处理得到E1,将H1、E1输入相似样本生成模型的解码区得到H2,依次类推,得到第二隐含特征序列中的其他特征。
本实施例中,所述将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本包括:
将所述第二隐含特征序列中第i个特征及所述隐变量输入所述相似文本生成模型的第三特征映射区,生成目标文本中第i个词语,合并所述第二隐含特征序列中每个特征对应生成的词语,得到所述初始文本对应的目标文本。
本实施例中,所述将所述第二隐含特征序列中第i个特征及所述隐变量输入所述相似文本生成模型的第三特征映射区,生成目标文本中第i个词语,包括:
C11、将所述第二隐含特征序列中第i个特征、所述隐变量及预设词典输入所述相似文本生成模型的第三特征映射区,得到所述预设词典中各个单词在所述目标文本的第i个词语位置的概率分布表;
C12、将所述概率分布表中最大概率值对应的单词作为所述目标文本中第i个词语位置对应的目标单词。
所述概率分布表对应的概率分布的公式为:
pθ(xi∣x<i,z)=Softmax(Wzz+WHHi+b)
其中,pθ(xi∣x<i,z)表示预设词典中各个单词在目标文本的第i个词语位置的概率分布,xi表示目标文本中第i个词语,x<i表示目标文本中第i个词语前面的词语,参数θ包括解码区参数
Figure BDA0002820682160000071
和偏置参数b,dz表示变分参数,dh表示隐含状态,|V|表示预设字典的单词数量,z表示隐变量,Hi表示第二隐含特征序列中第i个特征。
现有技术中,应用变分自动编码器时,都是将第二隐含特征序列输入全连接层生成目标文本,没有考虑隐变量对生成结果的影响,而本发明将隐变量与第二隐含特征序列一起输入第三特征映射区进行映射、合并,而后生成目标文本,实现了将隐变量直接融合到生成目标文本的每个单词的过程中,有效解决了后验消散的问题,使得生成的目标文本与初始文本更为匹配。
本实施例中,损失函数
Figure BDA0002820682160000072
的梯度函数为:
Figure BDA0002820682160000073
其中,g(pθ(H,z))是损失函数
Figure BDA0002820682160000074
在pθ(H,z)上的导数。上述公式清楚地表明,与现有变分自动编码器不同,本发明保留了Wz来控制隐变量z的作用。若没有Wz,当文本序列较长时,很容易地减小
Figure BDA0002820682160000075
的影响。这与“变分自动编码器容易记住第一个单词和句子的长度”这一事实相吻合。通过本发明的改进,可以有效减少梯度消散的问题。
由上述实施例可知,本发明提出的相似文本生成方法,首先,获取相似文本生成请求携带的初始文本,将初始文本转换为词向量序列;将词向量序列输入相似文本生成模型的编码区,得到初始文本对应的第一隐含特征序列,基于第一隐含特征序列及相似文本生成模型的第一特征映射区得到初始文本的隐含状态对应的正态分布;从正态分布中随机采样一个隐变量,将隐变量输入相似文本生成模型的第二特征映射区和编码区,得到隐变量对应的初始隐含特征;获取为所述相似文本生成模型预设的起始字符,基于起始字符、初始隐含特征及相似文本生成模型的解码区得到第二隐含特征序列,将隐变量及第二隐含特征序列输入相似文本生成模型的第三特征映射区得到初始文本对应的目标文本。本发明将隐变量与第二隐含特征序列一起输入相似文本生成模型的第三特征映射区,得到初始文本对应的目标文本,使得隐变量直接融合到生成目标文本中每个词语的过程中,有效解决了后验消散的问题,提高了初始文本与目标文本的匹配度。因此,本发明提高了目标文本与初始文本的匹配度。
如图2所示,为本发明一实施例提供的相似文本生成模型生成目标文本的流程示意图。
本实施例中,初始文本x分词后得到的词语序列中有T个词语x=(x1,x2,…,xT),将词语序列(x1,x2,…,xT)输入词向量模型,得到的词向量序列为(e1,e2,…,eT),将词向量序列输入相似文本生成模型的编码区,得到的第一隐含特征序列为(h1,h2,…,hT)。
将第一隐含特征序列(h1,h2,…,hT)输入第一特征映射区,得到初始文本的隐含状态对应的正态分布,从所述正态分布中随机采样一个隐变量z,z通过所述相似文本生成模型的第二特征映射区、解码区得到初始隐含特征H0
获取相似文本生成模型对应的起始字符X0,对X0执行词向量化处理(通过词向量模型进行转换)得到E0,将H0、E0输入相似样本生成模型的解码区得到H1,基于H1和隐变量z生成目标文本的第一个词语X1,对X1执行词向量化处理得到E1,将H1、E1输入相似样本生成模型的解码区得到H2,基于H2和隐变量z生成目标文本的第一个词语X2,依次类推,得到第二隐含特征序列(H1,H2,…,HT)中的其它特征及目标文本X=(X1,X2,…,XT)中的其它词语。
如图3所示,为本发明一实施例提供的相似文本生成装置的模块示意图。
本发明所述相似文本生成装置100可以安装于电子设备中。根据实现的功能,所述相似文本生成装置100可以包括解析模块110、输入模块120、采样模块130及生成模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
解析模块110,用于解析用户基于客户端发出的相似文本生成请求,得到所述相似文本生成请求携带的初始文本,将所述初始文本转换为词向量序列。
本实施例的应用场景为:给定一个初始文本,生成一个与初始文本相似的目标文本,所述初始文本可以是一句话,也可以是一篇文章,还可以是一首诗。
所述将所述初始文本转换为词向量序列,包括:
A21、对所述初始文本执行分词处理,得到词语序列;
本实施例中,可采用基于词表的分词算法(正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法)或基于N-gram语言模型的分词方法对初始文本进行分词。
A22、将所述词语序列输入词向量模型,得到词向量序列。
所述词向量模型可以是word2vec模型,也可以是BERT模型。
输入模块120,用于将所述词向量序列输入相似文本生成模型的编码区,得到所述初始文本对应的第一隐含特征序列,基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布。
所述相似文本生成模型包括编码区、解码区、第一、第二及第三特征映射区。所述编码区、解码区为LSTM网络(长短期记忆网络)或Transformer模型,第一、第二及第三特征映射区为MLP网络(多层感知器)。
其中,编码区用于将输入的词向量序列转换为较小的密集表示(第一隐含特征序列),第一特征映射区用于根据第一隐含特征序列计算初始文本的隐含状态对应的正态分布,第二特征映射区用于将从正态分布中采样的隐变量映射为隐性特征,解码区用于将输入特征进行还原,第三特征映射区用于根据隐变量及解码区输出的特征生成目标文本。
所述相似文本生成模型是由变分自动编码器转换而来的,与现有变分自动编码器的区别在于,相似文本生成模型增加了第三特征映射区(现有变分自动编码器采用一层全连接层将解码区输出的特征转换为目标文本),且建立了第一特征映射区的输出与第三特征映射区的输入之间的连接关系。
本实施例中,初始文本x分词后得到的词语序列中有T个词语x=(x1,x2,…,xT),词向量化处理后得到的词向量序列为(e1,e2,…,eT),将词向量序列输入模型的编码区,得到第一隐含特征序列(h1,h2,…,hT)=Enc(e1,e2,…,eT),其中,Enc()表示执行编码处理。
本实施例中,所述第一特征映射区包括第一MLP网络和第二MLP网络,所述基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布,包括:
B21、将所述第一隐含特征序列输入所述第一特征映射区的第一MLP网络,得到所述初始文本的隐含状态的均值;
B22、将所述第一隐含特征序列输入所述第一特征映射区的第二MLP网络,得到所述初始文本的隐含状态的方差;
B23、基于所述均值和方差确定所述初始文本的隐含状态对应的正态分布。
其中,根据均值和方差确定隐含状态对应的正态分布的过程为现有技术,在此不再赘述。
采样模块130,用于从所述正态分布中随机采样一个隐变量,将所述隐变量输入所述相似文本生成模型的第二特征映射区和编码区,得到所述隐变量对应的初始隐含特征。
例如,从正态分布中随机采样的隐变量为z,z经过第二特征映射区和解码区得到的初始隐含特征为H0,目标文本是基于H0生成的。
生成模块140,用于获取为所述相似文本生成模型预设的起始字符,基于所述起始字符、所述初始隐含特征及所述相似文本生成模型的解码区得到第二隐含特征序列,将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本。
例如,预先确定的起始字符为X0(变分自动编码器每次生成文本时的起始字符是固定的,起始字符为特定字符,与初始文本没有关系,与隐变量z也没有关系)。对X0执行词向量化处理(通过词向量模型进行转换)得到E0,将H0、E0输入相似样本生成模型的解码区得到H1。所述第二隐含特征序列为(H1,H2,…,HT),当前先生成第一个特征H1,基于H1和隐变量z生成目标文本的第一个词语X1,对X1执行词向量化处理得到E1,将H1、E1输入相似样本生成模型的解码区得到H2,依次类推,得到第二隐含特征序列中的其他特征。
本实施例中,所述将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本包括:
将所述第二隐含特征序列中第i个特征及所述隐变量输入所述相似文本生成模型的第三特征映射区,生成目标文本中第i个词语,合并所述第二隐含特征序列中每个特征对应生成的词语,得到所述初始文本对应的目标文本。
本实施例中,所述将所述第二隐含特征序列中第i个特征及所述隐变量输入所述相似文本生成模型的第三特征映射区,生成目标文本中第i个词语,包括:
C21、将所述第二隐含特征序列中第i个特征、所述隐变量及预设词典输入所述相似文本生成模型的第三特征映射区,得到所述预设词典中各个单词在所述目标文本的第i个词语位置的概率分布表;
C22、将所述概率分布表中最大概率值对应的单词作为所述目标文本中第i个词语位置对应的目标单词。
所述概率分布表对应的概率分布的公式为:
pθ(xi∣x<i,z)=Softmax(Wzz+WHHi+b)
其中,pθ(xi∣x<i,z)表示预设词典中各个单词在目标文本的第i个词语位置的概率分布,xi表示目标文本中第i个词语,x<i表示目标文本中第i个词语前面的词语,参数θ包括解码区参数
Figure BDA0002820682160000111
和偏置参数b,dz表示变分参数,dh表示隐含状态,|V|表示预设字典的单词数量,z表示隐变量,Hi表示第二隐含特征序列中第i个特征。
现有技术中,应用变分自动编码器时,都是将第二隐含特征序列输入全连接层生成目标文本,没有考虑隐变量对生成结果的影响,而本发明将隐变量与第二隐含特征序列一起输入第三特征映射区进行映射、合并,而后生成目标文本,实现了将隐变量直接融合到生成目标文本的每个单词的过程中,有效解决了后验消散的问题,使得生成的目标文本与初始文本更为匹配。
本实施例中,损失函数
Figure BDA0002820682160000112
的梯度函数为:
Figure BDA0002820682160000113
其中,g(pθ(H,z))是损失函数
Figure BDA0002820682160000114
在pθ(H,z)上的导数。上述公式清楚地表明,与现有变分自动编码器不同,本发明保留了Wz来控制隐变量z的作用。若没有Wz,当文本序列较长时,很容易地减小
Figure BDA0002820682160000115
的影响。这与“变分自动编码器容易记住第一个单词和句子的长度”这一事实相吻合。通过本发明的改进,可以有效减少梯度消散的问题。
如图4所示,为本发明一实施例提供的实现相似文本生成方法的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有相似文本生成程序10,所述相似文本生成程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及相似文本生成程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的相似文本生成程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行相似文本生成程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的相似文本生成程序10是多个指令的组合,在所述处理器12中运行时,可以实现:
解析用户基于客户端发出的相似文本生成请求,得到所述相似文本生成请求携带的初始文本,将所述初始文本转换为词向量序列;
将所述词向量序列输入相似文本生成模型的编码区,得到所述初始文本对应的第一隐含特征序列,基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布;
从所述正态分布中随机采样一个隐变量,将所述隐变量输入所述相似文本生成模型的第二特征映射区和编码区,得到所述隐变量对应的初始隐含特征;
获取为所述相似文本生成模型预设的起始字符,基于所述起始字符、所述初始隐含特征及所述相似文本生成模型的解码区得到第二隐含特征序列,将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本。
具体地,所述处理器12对上述相似文本生成程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述初始文本、目标文本的私密和安全性,上述初始文本、目标文本还可以存储于一区块链的节点中。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有相似文本生成程序10,所述相似文本生成程序10可被一个或者多个处理器执行,本发明计算机可读存储介质具体实施方式与上述相似文本生成方法各实施例基本相同,在此不作赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种相似文本生成方法,其特征在于,所述方法包括:
解析用户基于客户端发出的相似文本生成请求,得到所述相似文本生成请求携带的初始文本,将所述初始文本转换为词向量序列;
将所述词向量序列输入相似文本生成模型的编码区,得到所述初始文本对应的第一隐含特征序列,基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布;
从所述正态分布中随机采样一个隐变量,将所述隐变量输入所述相似文本生成模型的第二特征映射区和编码区,得到所述隐变量对应的初始隐含特征;
获取为所述相似文本生成模型预设的起始字符,基于所述起始字符、所述初始隐含特征及所述相似文本生成模型的解码区得到第二隐含特征序列,将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本。
2.如权利要求1所述的相似文本生成方法,其特征在于,所述将所述初始文本转换为词向量序列,包括:
对所述初始文本执行分词处理,得到词语序列;
将所述词语序列输入词向量模型,得到词向量序列。
3.如权利要求1所述的相似文本生成方法,其特征在于,所述第一特征映射区包括第一MLP网络和第二MLP网络,所述基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布,包括:
将所述第一隐含特征序列输入所述第一特征映射区的第一MLP网络,得到所述初始文本的隐含状态的均值;
将所述第一隐含特征序列输入所述第一特征映射区的第二MLP网络,得到所述初始文本的隐含状态的方差;
基于所述均值和方差确定所述初始文本的隐含状态对应的正态分布。
4.如权利要求1所述的相似文本生成方法,其特征在于,所述将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本包括:
将所述第二隐含特征序列中第i个特征及所述隐变量输入所述相似文本生成模型的第三特征映射区,生成目标文本中第i个词语,合并所述第二隐含特征序列中每个特征对应生成的词语,得到所述初始文本对应的目标文本。
5.如权利要求4所述的相似文本生成方法,其特征在于,所述将所述第二隐含特征序列中第i个特征及所述隐变量输入所述相似文本生成模型的第三特征映射区,生成目标文本中第i个词语,包括:
将所述第二隐含特征序列中第i个特征、所述隐变量及预设词典输入所述相似文本生成模型的第三特征映射区,得到所述预设词典中各个单词在所述目标文本的第i个词语位置的概率分布表;
将所述概率分布表中最大概率值对应的单词作为所述目标文本中第i个词语位置对应的目标单词。
6.如权利要求5所述的相似文本生成方法,其特征在于,所述概率分布表对应的概率分布的公式为:
pθ(xi∣x<i,z)=Softmax(Wzz+WHHi+b)
其中,pθ(xi∣x<i,z)表示预设词典中各个单词在目标文本的第i个词语位置的概率分布,xi表示目标文本中第i个词语,x<i表示目标文本中第i个词语前面的词语,参数θ包括解码区参数
Figure FDA0002820682150000021
和偏置参数b,dz表示变分参数,dh表示隐含状态,|V|表示预设字典的单词数量,z表示隐变量,Hi表示第二隐含特征序列中第i个特征。
7.一种相似文本生成方法装置,其特征在于,所述装置包括:
解析模块,用于解析用户基于客户端发出的相似文本生成请求,得到所述相似文本生成请求携带的初始文本,将所述初始文本转换为词向量序列;
输入模块,用于将所述词向量序列输入相似文本生成模型的编码区,得到所述初始文本对应的第一隐含特征序列,基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布;
采样模块,用于从所述正态分布中随机采样一个隐变量,将所述隐变量输入所述相似文本生成模型的第二特征映射区和编码区,得到所述隐变量对应的初始隐含特征;
生成模块,用于获取为所述相似文本生成模型预设的起始字符,基于所述起始字符、所述初始隐含特征及所述相似文本生成模型的解码区得到第二隐含特征序列,将所述隐变量及所述第二隐含特征序列输入所述相似文本生成模型的第三特征映射区得到所述初始文本对应的目标文本。
8.如权利要求7所述的相似文本生成装置,其特征在于,所述第一特征映射区包括第一MLP网络和第二MLP网络,所述基于所述第一隐含特征序列及所述相似文本生成模型的第一特征映射区得到所述初始文本的隐含状态对应的正态分布,包括:
将所述第一隐含特征序列输入所述第一特征映射区的第一MLP网络,得到所述初始文本的隐含状态的均值;
将所述第一隐含特征序列输入所述第一特征映射区的第二MLP网络,得到所述初始文本的隐含状态的方差;
基于所述均值和方差确定所述初始文本的隐含状态对应的正态分布。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的相似文本生成程序,所述相似文本生成程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的相似文本生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有相似文本生成程序,所述相似文本生成程序可被一个或者多个处理器执行,以实现如权利要求1至6任一项所述的相似文本生成方法。
CN202011421416.2A 2020-12-07 2020-12-07 相似文本生成方法、装置、电子设备及可读存储介质 Pending CN112528647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011421416.2A CN112528647A (zh) 2020-12-07 2020-12-07 相似文本生成方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011421416.2A CN112528647A (zh) 2020-12-07 2020-12-07 相似文本生成方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112528647A true CN112528647A (zh) 2021-03-19

Family

ID=74998132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011421416.2A Pending CN112528647A (zh) 2020-12-07 2020-12-07 相似文本生成方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112528647A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535927A (zh) * 2021-07-30 2021-10-22 杭州网易智企科技有限公司 获取相似文本的方法、介质、装置和计算设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535927A (zh) * 2021-07-30 2021-10-22 杭州网易智企科技有限公司 获取相似文本的方法、介质、装置和计算设备

Similar Documents

Publication Publication Date Title
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112016312B (zh) 数据关系抽取方法、装置、电子设备及存储介质
WO2021174774A1 (zh) 神经网络关系抽取方法、计算机设备及可读存储介质
CN112541338A (zh) 相似文本匹配方法、装置、电子设备及计算机存储介质
CN112182224A (zh) 裁判文书摘要生成方法、装置、电子设备及可读存储介质
WO2022222943A1 (zh) 科室推荐方法、装置、电子设备及存储介质
CN112001179A (zh) 命名实体识别方法、装置、电子设备及可读存储介质
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN114462412B (zh) 实体识别方法、装置、电子设备及存储介质
CN112506486A (zh) 搜索系统建立方法、装置、电子设备及可读存储介质
CN115238670B (zh) 信息文本抽取方法、装置、设备及存储介质
WO2023178978A1 (zh) 基于人工智能的处方审核方法、装置、设备及介质
CN112464642A (zh) 文本添加标点的方法、装置、介质及电子设备
CN113627160B (zh) 文本纠错方法、装置、电子设备及存储介质
WO2022160442A1 (zh) 答案生成方法、装置、电子设备及可读存储介质
CN112528647A (zh) 相似文本生成方法、装置、电子设备及可读存储介质
CN112232052A (zh) 文本拼接方法、装置、计算机设备及存储介质
CN116719904A (zh) 基于图文结合的信息查询方法、装置、设备及存储介质
CN113688239B (zh) 少样本下的文本分类方法、装置、电子设备及存储介质
CN113656586B (zh) 情感分类方法、装置、电子设备及可读存储介质
CN113486680B (zh) 文本翻译方法、装置、设备及存储介质
CN115186188A (zh) 基于行为分析的产品推荐方法、装置、设备及存储介质
CN115114408A (zh) 多模态情感分类方法、装置、设备及存储介质
CN114138243A (zh) 基于开发平台的功能调用方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination