CN112287641A - 一种同义句生成方法、系统、终端及存储介质 - Google Patents
一种同义句生成方法、系统、终端及存储介质 Download PDFInfo
- Publication number
- CN112287641A CN112287641A CN202011555183.5A CN202011555183A CN112287641A CN 112287641 A CN112287641 A CN 112287641A CN 202011555183 A CN202011555183 A CN 202011555183A CN 112287641 A CN112287641 A CN 112287641A
- Authority
- CN
- China
- Prior art keywords
- vector
- grammar
- semantic
- synonym
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种同义句生成方法、系统、终端及存储介质,所述方法包括:构建同义句生成基础模型;对待转换的句子及其所有训练语料中的句子进行自编码,获得语义向量和语法向量;对所述语法向量进行变分推断得到变分推断后的语法向量;对所述语义向量和变分推断后的语法向量进行解耦;采用解耦后的所述语义向量和变分推断后的语法向量,对训练语料中的句子进行重构,更新训练语料;利用更新后的训练语料,重新执行解耦,对向量解耦进行优化;采用源文本的语义向量拼接变分推断后的语法向量生成同义句。本发明对语法和语义进行解耦,使得生成的句子语法更加可控,同时使得生成的句子具有更强的语义一致性。
Description
技术领域
本发明涉及自然语言处理中的文本生成技术领域,具体地,涉及一种基于语义和语法解耦的同义句生成方法、系统、终端及存储介质。
背景技术
同义句生成是文本生成领域的一个重要问题,是指对一个任意给定文本生成语义相同或者相近的文本。同义句生成的重要性不仅体现在表达了人类语言的多样性,还体现在其作为其他自然语言处理任务的关键组成部分,例如问题回答、机器翻译、数据增强等任务。传统的模型通常是基于规则的,它们对输入的文本中的某个词或词组进行替换,首先从同义词词典中找到候选同义词或词组,然后使用同义词或词组相应地进行替换。这种方法虽然可以生成同义句,但是需要大量的人工成本构建同义词典,并且生成的同义句效果并不理想。
近年来,随着深度神经网络的发展,基于端到端机器学习方法的模型开始应用于
同义句生成,模型主要依靠基于注意力机制(attention)的序列到序列(sequence to
sequence)学习框架,相比于在传统基于规则的方法上,其生成效果有非常显著的提升。具
体而言,该学习框架包含一个编码器和解码器,编码器对输入文本进行处理得到一个文本
的编码序列,解码器对该编码序列进行递归解码,解码出输出文本的每一个
词。并且在解码第个词的时候,该框架使用注意力机制对编码序列进行加权求和得到编码
向量,其中为的注意力权重,然后该编码向量结合前个解码的词,
解码出第个词。然而,尽管基于注意力机制的序列到序列学习框架相比于传统规则模型提
升了同义句生成的效果,但是该框架仍然存在两个问题:(1)模型往往过于注重原句和生成
句子的局部信息的对齐,不能保证生成句子的语义与原句的一致性;(2)同义句的生成语法
不可控,当有多个同义句时(数量大于2),生成的过程应该是原句的语义信息加上目标语句
的语法信息,生成相应的同义句。因此同义句生成应该看作是基于一对多的星形架构的匹
配问题,而非基于一对一的匹配问题。
经过检索发现,公开号为CN110765758A,公开日为2020年2月7日,发明名称为《一种同义句生成模型的生成方法、装置及介质》的中国发明专利申请,该发明使用第一集合训练得到一生成模型和一判别模型;所述第一集合包括多个同义句组,每个同义句组包括至少两个同义句;对所述生成模型和所述判别模型进行迭代处理直至所述生成模型收敛。该发明使用了大量的单句,充分利用了单句的成本低和无需人工标注的优点。在对模型的训练过程中,结合了大量的单句和强化学习方式,单句的使用极大的增加了语义的丰富性,强化学习方式可以使模型在迭代过程中不断优化,从而完全无需依赖大量的平行语料便可以训练出优质的同义句生成模型。
该专利文献所提供的技术,仍然存在上述问题。
发明内容
针对现有技术中存在的上述技术问题/之一,本发明提供了一种基于语义和语法解耦的同义句生成方法、系统、终端及存储介质。
根据本发明的一个方面,提供了一种同义句生成方法,包括:
S100,构建同义句生成基础模型;
S200,利用所述同义句生成基础模型,对待转换的句子及其所有训练语料中的句子进行自编码,获得语义向量和语法向量;
对所述语法向量进行变分推断得到变分推断后的语法向量,并使变分推断后的语法向量服从于一个预先定义的分布中;
对所述语义向量和变分推断后的语法向量进行解耦;
S300,利用所述同义句生成基础模型,采用解耦后的所述语义向量和变分推断后的语法向量,对训练语料中的句子进行重构,更新训练语料;利用更新后的训练语料,重新执行S200,对向量解耦进行优化;
S400,在完成对向量解耦过程优化的基础上,基于解耦后的语义向量和变分推断后的语法向量,采用源文本的语义向量拼接变分推断后的语法向量生成同义句。
可选地,所述同义句生成基础模型采用变分自编码器构建;所述变分自编码器包括两个编码器和一个解码器,其中,
一个所述编码器获得语义向量的语义向量提取模型,用于语义向量提取自编码;
另一个所述编码器获得语法向量的语法向量提取模型,用于语法向量提取自编码;
所述解码器用于对训练语料中的句子进行重构。
可选地,所述语义向量提取模型基于预训练语言模型构建得到,所述语法向量提取模型基于长短时记忆网络构建得到;所述解码器采用基于长短时记忆网络的解码模型。
可选地,所述语义向量提取模型基于预训练语言模型构建得到,包括:
采用海量文本对预训练语言模型进行学习,使该模型初步具备语义提取的能力;
随着所述预训练语言模型在学习过程中网络层数的加深,更深层的特征表示蕴含的语义信息更加丰富,进而构成语义向量提取模型。
可选地,所述语义向量提取模型,提取语义向量的方法包括:
采用预训练语言模型,对得到的每个词进行分词;
采用预训练语言模型,对所有分词进行编码,对预训练语言模型的最后一层编码取平均池化操作,获得每个句子的语义向量。
可选地,对所述语义向量和变分推断后的语法向量进行解耦,采用对抗学习实现,包括:
构建两个判别器,分别为语法向量至语义判别器和语义向量至语法判别器;判别器的优化目标为使语法向量至语义判别器能够成功预测出语义向量,同时使语义向量至语法判别器能够成功预测出语法向量;
将变分自编码器作为生成器,与两个判别器进行对抗学习,生成器的优化目标为使得语法向量至语义判别器无法预测出语义向量,同时使得语义向量至语法判别器无法预测出语法向量;
生成器和判别器交替训练直至达到纳什均衡,此时生成的语义向量和语法向量成功解耦。
可选地,采用配对训练数据,对用于获得语义向量的语义向量提取模型进行微调,所述微调的方法,包括:
对于标注了第一或第二数值的配对训练数据,采用softmax函数计算同义句的概率,使用交叉熵计算其损失函数;其中,第一数值代表语义不一致,第二数值代表语义一致;
对于标注了第一或第二中任意小数数值的配对训练数据,采用cosine相似度计算同义句相似程度,使用均方差计算其损失函数;第一或第二数值中的小数数值代表两个句子的相似程度;
使用梯度下降方法,优化损失函数,从而使得语义向量提取模型获得的同义句语义向量在拉式空间中相互接近,实现对语义向量提取模型的微调。
可选地,所述采用源文本的语义向量拼接变分推断后的语法向量生成同义句,包括:
采用源文本的语义向量拼接一个随机采样的变分推断后的语法向量生成同义句,或,
采用源文本的语义向量拼接另一个文本的变分推断后的语法向量生成同义句。
根据本发明的第二个方面,提供一种同义句生成系统,包括:
基础模型构建模块,该模块用于构建同义句生成基础模型;
语义和语法解耦模块,该模块利用所述基础模型构建模块得到的同义句生成基础模型,对待转换的句子及其所有训练语料中的句子进行自编码,获得语义向量和语法向量;对所述语法向量进行变分推断得到变分推断后的语法向量,并使变分推断后的语法向量服从于一个预先定义的分布中;对所述语义向量和变分推断后的语法向量进行解耦;
解耦优化模块,该模块利用所述基础模型构建模块得到的同义句生成基础模型,以及语义和语法解耦模块得到的解耦后的所述语义向量和变分推断后的语法向量,对训练语料中的句子进行重构,更新训练语料;利用更新后的训练语料,重新进行语义和语法解耦,对向量解耦进行优化;
同义句生成模块,该模块在所述解耦优化模块完成对向量解耦过程优化的基础上,基于解耦后的语义向量和变分推断后的语法向量,采用源文本的语义向量拼接变分推断后的语法向量生成同义句。
根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项所述的同义句方法。
根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行上述任一项所述的同义句方法。
由于采用了上述技术方案,本发明实施例具有如下至少一种有益效果:
本发明提供的同义句生成方法、终端及存储介质,基于语义和语法解耦,相较于传统模型,对语法和语义进行解耦,使得生成的句子语法更加可控,同时使得生成的句子具有更强的语义一致性。
本发明提供的同义句生成方法、终端及存储介质,一方面基于大规模预训练语言模型构建了语义向量提取模型,基于该语义向量模型对生成的同义句添加语义一致约束,增强同义句的语义一致性;另一方面,通过对抗学习对拉式空间的语义和语法向量进行解耦,利用上多种同义句的不同语法信息,增强同义句生成的语法可控性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明一实施例中同义句生成方法的流程图。
图2是本发明一优选实施例中同义句生成方法中采用变分自编码器构建的同义句生成基础模型的工作示意图。
图3是本发明一优选实施例中同义句生成方法的流程图。
图4是本发明一实施例中同义句生成系统的模块图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
图1为本发明一实施例中同义句生成方法的流程图。
如图1所示,本实施例中所提供的同义句生成方法,可以包括如下步骤:
S100,构建同义句生成基础模型;
S200,利用同义句生成基础模型,对待转换的句子及其所有训练语料中的句子进行自编码,获得语义向量和语法向量;对语法向量进行变分推断得到变分推断后的语法向量,并使变分推断后的语法向量服从于一个预先定义的分布中;对语义向量和变分推断后的语法向量进行解耦;
S300,利用同义句生成基础模型,采用解耦后的语义向量和变分推断后的语法向量,对训练语料中的句子进行重构,更新训练语料;利用更新后的训练语料,重新执行S200,对向量解耦进行优化;
S400,在完成对向量解耦过程优化的基础上,基于解耦后的语义向量和变分推断后的语法向量,采用源文本的语义向量拼接变分推断后的语法向量生成同义句。
目前在基于序列到序列生成模型的基础上,语义和语法解耦成为一个在文本生成中受到关注的技术,有研究在无监督场景下对文本进行语义和语法的解耦,但需要指出的是这些语义和语法的定义都存在局限性。如有研究用词袋向量定义语义向量,但是很明显原句和同义句可以使用不同的词,导致不同的词袋向量也具备相同的语义,因此该语义向量并不理想。并且其语法向量与词袋向量定义的语义向量进行对抗学习,并不能保证语法向量不包含语义信息,因为其有可能包含同义词,所以如何定义语义向量成为同义句生成的关键问题。本发明上述实施例提供了一种同义句生成方法,该方法基于语义和语法解耦,解耦出语义和语法向量,同时对此解耦的两种向量进行约束,提升输出同义句的语义一致性和语法可控性。
在本发明部分优选实施例中,上述同义句生成基础模型可以采用变分自编码器构建。进一步的,变分自编码器包括两个编码器和一个解码器,其中,一个编码器获得语义向量的语义向量提取模型,用于语义向量提取自编码,另一个编码器获得语法向量的语法向量提取模型,用于语法向量提取自编码;解码器用于对训练语料中的句子进行重构。具体的,在一些具体实施例中,语义向量提取模型可以基于预训练语言模型构建得到;语法向量提取模型可以基于长短时记忆网络构建得到;解码器可以采用基于长短时记忆网络的解码模型。当然,在其他实施例中,也可以采用其他的方式构建上述的模型,具体可以根据实际应用场合进行确定,并不一定局限于上述的选择。
进一步的,上述的S200中,一个编码器获得语义向量的语义向量提取模型,为了更好实现语义向量提取,可以优选基于预训练语言模型构建语义向量提取模型的方法。具体的,在一实施例中,采用海量文本对预训练语言模型进行学习,使该模型初步具备语义提取的能力,同时,随着预训练语言模型在学习过程中网络层数的加深,更深层的特征表示蕴含的语义信息更加丰富,进而构成语义向量提取模型。同时,可以优选语义向量提取模型提取语义向量的方法,具体为:采用预训练语言模型,对得到的每个词进行分词;采用预训练语言模型,对所有分词进行编码,对预训练语言模型的最后一层编码取平均池化操作,获得每个句子的语义向量。
上述S200中,为了对语法向量进行变分推断得到变分推断后的语法向量,并使变分推断后的语法向量服从于一个预先定义的分布中,可以采用以下具体操作来实现,具体包括:
在本发明部分优选实施例中,S300对向量解耦进行优化,其中对语义向量和变分推断后的语法向量进行解耦可以采用对抗学习来实现。具体的,在一实施例中,可以先构建两个判别器,两个判别器分别为语法向量至语义判别器和语义向量至语法判别器;判别器的优化目标为使语法向量至语义判别器能够成功预测出语义向量,同时使语义向量至语法判别器能够成功预测出语法向量;同时,将变分自编码器作为生成器,与两个判别器进行对抗学习,生成器的优化目标为使得语法向量至语义判别器无法预测出语义向量,同时使得语义向量至语法判别器无法预测出语法向量;生成器和判别器交替训练直至达到纳什均衡,此时生成的语义向量和语法向量成功解耦。
进一步的,上述的两个判别器最大化似然概率为:
将语义向量提取模型和语法向量提取模型与两个判别器进行对抗学习,优化目标为最小化概率分布:
在本发明部分实施例中,同义句生成基础模型将解耦后的语义向量和变分推断后的语法向量,可以作为训练数据对训练语料中的句子进行拼接重构:
最小化重构后句子的交叉熵并计算每一步的损失:
在本发明另一优选实施例中,在上述实施例的基础上,同义句生产方法还可以进一步包括:采用配对训练数据,对用于获得语义向量的语义向量提取模型进行微调。在一具体实施例中,上述微调的方法可以为:对于标注了0或1数值的配对训练数据,采用softmax函数计算同义句的概率,使用交叉熵计算其损失函数;其中,0代表语义不一致,1代表语义一致;对于标注了0至1中任意小数数值的配对训练数据,采用cosine相似度计算同义句相似程度,使用均方差计算其损失函数;0至1中的小数数值代表两个句子的相似程度;使用梯度下降方法,优化相应的损失函数,从而使得语义向量提取模型获得的同义句语义向量在拉式空间中相互接近,实现对语义向量提取模型的微调。通过该微调,可以进一步提升生成的句子的语义一致性。
上述实施例S400中,同义句生成可以是采用源文本的语义向量,拼接一个随机采样的变分推断后的语法向量生成同义句;也可以是采用源文本的语义向量,拼接另一个文本的变分推断后的语法向量生成同义句。
图3为本发明一优选实施例中同义句生成方法的流程图。
如图3所示,本优选实施例中所提供的同义句生成方法,可以包括如下步骤:
步骤S1:采用变分自编码器构建同义句生成基础模型;
步骤S6:在完成对向量解耦过程优化的基础上,基于解耦后的语义向量和语法向量,完成如下同义句生成方法。
本实施例中,基于预训练语言模型构建语义向量提取模型的方法为:
采用海量文本对语言模型进行学习,使该模型初步具备语义提取的能力,同时,随着语言模
型在学习过程中网络层数的加深,更深层的特征表示蕴含的语义信息更加丰富,进而构成
语义向量提取模型。
本实施例中,语义向量提取模型提取语义向量的方法,包括:采用预
训练语言模型,对得到的每个词进行分词;采用预训练语言模型,对所有分词进行编码,对
预训练语言模型的最后一层编码取平均池化操作,获得每个句子的语义向量。
本实施例中,对于训练中所用的文本,构建变分自编码器架构进行重构和变分推
断,该架构包括两个编码器和一个解码器,其中两个编码器为语义编码器和语法编码器。语
义编码器为基于大规模预训练语言模型的语义向量提取模型,语法编码器为基于长短时记
忆网络的模型。对语法编码器提取的向量进行变分推断,使得向量在拉式空间中连续、平
滑。解码器把语义向量和变分推断后的语法向量进行拼接,使用基于长短时记忆网络的模
型进行逐步预测。用公式表示语义编码器,其中是输入的文本,是提取的语
义向量,用公式表示语法编码器,是提取的语法向量,用公式
表示解码器。首先文本的似然概率可以表示为:
变分自编码器的重构和语法向量的变分推断过程可以用以下公式表示:
上述步骤S1中初步划分了语义向量空间和语法向量空间,但是仍然需要解决一个问题,即语法和语义空间并没有区分开,语法向量可能包含语义信息,语义向量也可能包含语法信息。因此本实施例采用对抗学习的方法进行语法和语义向量的解耦。为了达到该目的,本发明优选实施例还包括:采用对抗学习的方法进行语法和语义向量的解耦。进一步地包括:
构建两个判别器,分别为语法向量至语义判别器,语义向量至语法判别器,判别器的优化目标为使语法向量至语义判别器成功预测出语义向量,同时使语义向量至语法判别器成功预测出语法向量。训练判别器时,最大其对数似然函数:
同时,模型把变分自编码器作为生成器,与两个判别器进行对抗学习,生成器的优化目标为使得语法向量至语义判别器无法预测出语义向量,同时使得语义向量至语法判别器无法预测出语法向量,训练生成器时,其优化目标为:
生成器和判别器交替训练直至达到纳什均衡,此时生成的语义向量和语法向量成功解耦。
在训练完成后,本实施例形成两种同义句的生成方式:第一种从原句中提取语义
向量,拼接从预先定义的概率分布中采样的语法向量生成同义句,第二种从给定的
待转换句子中提取语义向量,从随机另一句子中提取语法向量进行拼接生
成同义句。
本实施例基于大规模预训练语言模型构建语义向量提取模型。进一步地,大规模预训练语言模型通过对海量文本进行语言模型进行学习,可以初步具备语义提取的能力,同时随着预训练模型网络层数的加深,更深层的特征表示蕴含的语义信息更加丰富,构成语义向量提取模型。进一步地,该语义向量提取模型:使用预训练语言模型对每个词进行分词,使用预训练语言模型所有分词进行编码,对最后一层编码取平均池化操作,获得整句话的语义向量。
本实施例提供的方法,还可以包括:判断是否存在配对同义句数据(即配对训练数据),若存在配对同义句数据,则对建立的语义提取模型进行微调。进一步地,对语义提取模型进行微调的方法,包括:首先使用基于全连接神经网络对配对训练文本的语义向量进行映射,然后,根据配对数据集的类型,调整微调的目标函数。对于某些配对数据,其标注了0或1数值,代表语义不一致或语义一致,对此,使用softmax函数计算同义句的概率,使用交叉熵计算其损失函数。对于某些配对数据,其标注了0至1的小数数值代表两个句子的相似程度,对此,使用cosine相似度计算同义句相似程度,使用均方差计算其损失函数。微调阶段使用梯度下降的方法,优化该损失函数,从而使得语义提取模型获得的同义句语义向量在拉式空间中相互接近,进而实现对语义向量提取模型的微调。
本实施例中没有详细说明的其他内容,可以参照图1所示实施例的上述记载,本实施例中不再赘述。
图4是本发明一实施例中同义句生成系统的模块图。在本发明另一实施例中,还提供一种同义句生成系统,该系统用于实现上述实施例中的同义句生成方法。具体的,参照图4所示,该实施例中的同义句生成系统包括:基础模型构建模块,该模块用于构建同义句生成基础模型;语义和语法解耦模块,该模块利用所述基础模型构建模块得到的同义句生成基础模型,对待转换的句子及其所有训练语料中的句子进行自编码,获得语义向量和语法向量;对所述语法向量进行变分推断得到变分推断后的语法向量,并使变分推断后的语法向量服从于一个预先定义的分布中;对所述语义向量和变分推断后的语法向量进行解耦;解耦优化模块,该模块利用所述基础模型构建模块得到的同义句生成基础模型,以及语义和语法解耦模块得到的解耦后的所述语义向量和变分推断后的语法向量,对训练语料中的句子进行重构,更新训练语料;利用更新后的训练语料,重新进行语义和语法解耦,对向量解耦进行优化;同义句生成模块,该模块在所述解耦优化模块完成对向量解耦过程优化的基础上,基于解耦后的语义向量和变分推断后的语法向量,采用源文本的语义向量拼接变分推断后的语法向量生成同义句。
上述同义句生成系统中各模块的具体实现技术可以参照上述同义句生成方法步骤中的技术,在此不再赘述。
在本发明另一实施例中,还提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行本发明上述实施例中任一项的方法。
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
在本发明另一实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行本发明上述实施例中任一项的方法。
本发明上述实施例提供的同义句生成方法、系统、终端及存储介质,基于语义和语法解耦,在无监督场景下使用大规模预训练语言模型初步提取句子级别语义向量;在有监督场景下使用同义句数据微调语义向量提取模型;使用变分自编码器对语法向量采用变分推断使得语法向量在拉式空间中连续采样;使用对抗学习对自编码器中的向量进行语义和语法的解耦;在生成同义句时提供了两种生成方法,第一种从给定的待转换句子中提取语义向量,拼接随机生成的语法向量生成同义句,第二种从给定的待转换句子中提取语义向量,从随机另一句子中提取语法向量进行拼接生成同义句。本发明上述实施例提供的方法相较于传统模型,对语法和语义进行解耦,使得生成的句子语法更加可控,同时使得生成的句子具有更强的语义一致性。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流程,即,系统中的实施例可理解为实现方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (14)
1.一种同义句生成方法,其特征在于,包括:
S100,构建同义句生成基础模型;
S200,利用所述同义句生成基础模型,对待转换的句子及其所有训练语料中的句子进行自编码,获得语义向量和语法向量;
对所述语法向量进行变分推断得到变分推断后的语法向量,并使变分推断后的语法向量服从于一个预先定义的分布中;
对所述语义向量和变分推断后的语法向量进行解耦;
S300,利用所述同义句生成基础模型,采用解耦后的所述语义向量和变分推断后的语法向量,对训练语料中的句子进行重构,更新训练语料;利用更新后的训练语料,重新执行S200,对向量解耦进行优化;
S400,在完成对向量解耦过程优化的基础上,基于解耦后的语义向量和变分推断后的语法向量,采用源文本的语义向量拼接变分推断后的语法向量生成同义句。
2.根据权利要求1所述的同义句生成方法,其特征在于,所述同义句生成基础模型采用变分自编码器构建;所述变分自编码器包括两个编码器和一个解码器,其中,
一个所述编码器获得语义向量的语义向量提取模型,用于语义向量提取自编码;
另一个所述编码器获得语法向量的语法向量提取模型,用于语法向量提取自编码;
所述解码器用于对训练语料中的句子进行重构。
3.根据权利要求2所述的同义句生成方法,其特征在于,所述语义向量提取模型基于预训练语言模型构建得到,所述语法向量提取模型基于长短时记忆网络构建得到;所述解码器采用基于长短时记忆网络的解码模型。
4.根据权利要求3所述的同义句生成方法,其特征在于,所述语义向量提取模型基于预训练语言模型构建得到,包括:
采用海量文本对预训练语言模型进行学习,使该模型初步具备语义提取的能力;
随着所述预训练语言模型在学习过程中网络层数的加深,更深层的特征表示蕴含的语义信息更加丰富,进而构成语义向量提取模型。
5.根据权利要求4所述的同义句生成方法,其特征在于,所述语义向量提取模型,提取语义向量的方法包括:
采用预训练语言模型,对得到的每个词进行分词;
采用预训练语言模型,对所有分词进行编码,对预训练语言模型的最后一层编码取平均池化操作,获得每个句子的语义向量。
7.根据权利要求2所述的同义句生成方法,其特征在于,对所述语义向量和变分推断后的语法向量进行解耦,采用对抗学习实现,包括:
构建两个判别器,分别为语法向量至语义判别器和语义向量至语法判别器;判别器的优化目标为使语法向量至语义判别器能够成功预测出语义向量,同时使语义向量至语法判别器能够成功预测出语法向量;
将变分自编码器作为生成器,与两个判别器进行对抗学习,生成器的优化目标为使得语法向量至语义判别器无法预测出语义向量,同时使得语义向量至语法判别器无法预测出语法向量;
生成器和判别器交替训练直至达到纳什均衡,此时生成的语义向量和语法向量成功解耦。
9.根据权利要求2所述的同义句生成方法,其特征在于,采用配对训练数据,对用于获得语义向量的语义向量提取模型进行微调,所述微调的方法,包括:
对于标注了第一或第二数值的配对训练数据,采用softmax函数计算同义句的概率,使用交叉熵计算其损失函数;其中,第一数值代表语义不一致,第二数值代表语义一致;
对于标注了第一或第二中任意小数数值的配对训练数据,采用cosine相似度计算同义句相似程度,使用均方差计算其损失函数;第一或第二数值中的小数数值代表两个句子的相似程度;
使用梯度下降方法,优化损失函数,从而使得语义向量提取模型获得的同义句语义向量在拉式空间中相互接近,实现对语义向量提取模型的微调。
11.根据权利要求1所述的同义句生成方法,其特征在于,所述采用源文本的语义向量拼接变分推断后的语法向量生成同义句,是指:采用源文本的语义向量拼接一个随机采样的变分推断后的语法向量生成同义句,或,采用源文本的语义向量拼接另一个文本的变分推断后的语法向量生成同义句。
12.一种同义句生成系统,其特征在于,包括:
基础模型构建模块,该模块用于构建同义句生成基础模型;
语义和语法解耦模块,该模块利用所述基础模型构建模块得到的同义句生成基础模型,对待转换的句子及其所有训练语料中的句子进行自编码,获得语义向量和语法向量;对所述语法向量进行变分推断得到变分推断后的语法向量,并使变分推断后的语法向量服从于一个预先定义的分布中;对所述语义向量和变分推断后的语法向量进行解耦;
解耦优化模块,该模块利用所述基础模型构建模块得到的同义句生成基础模型,以及语义和语法解耦模块得到的解耦后的所述语义向量和变分推断后的语法向量,对训练语料中的句子进行重构,更新训练语料;利用更新后的训练语料,重新进行语义和语法解耦,对向量解耦进行优化;
同义句生成模块,该模块在所述解耦优化模块完成对向量解耦过程优化的基础上,基于解耦后的语义向量和变分推断后的语法向量,采用源文本的语义向量拼接变分推断后的语法向量生成同义句。
13.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-11中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011555183.5A CN112287641B (zh) | 2020-12-25 | 2020-12-25 | 一种同义句生成方法、系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011555183.5A CN112287641B (zh) | 2020-12-25 | 2020-12-25 | 一种同义句生成方法、系统、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287641A true CN112287641A (zh) | 2021-01-29 |
CN112287641B CN112287641B (zh) | 2021-03-09 |
Family
ID=74426120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011555183.5A Active CN112287641B (zh) | 2020-12-25 | 2020-12-25 | 一种同义句生成方法、系统、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287641B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505701A (zh) * | 2021-07-12 | 2021-10-15 | 辽宁工程技术大学 | 一种结合知识图谱的变分自编码器零样本图像识别方法 |
CN114936548A (zh) * | 2022-03-22 | 2022-08-23 | 北京探境科技有限公司 | 一种相似命令文本的生成方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797985A (zh) * | 2017-09-27 | 2018-03-13 | 百度在线网络技术(北京)有限公司 | 建立同义鉴别模型以及鉴别同义文本的方法、装置 |
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
CN108959551A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 近邻语义的挖掘方法、装置、存储介质和终端设备 |
CN111241789A (zh) * | 2020-01-14 | 2020-06-05 | 平安科技(深圳)有限公司 | 一种文本生成的方法及装置 |
US20200226475A1 (en) * | 2019-01-14 | 2020-07-16 | Cambia Health Solutions, Inc. | Systems and methods for continual updating of response generation by an artificial intelligence chatbot |
CN111563148A (zh) * | 2020-04-17 | 2020-08-21 | 华南理工大学 | 一种基于词组多样性的对话生成方法 |
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
CN111931461A (zh) * | 2020-08-24 | 2020-11-13 | 中国计量大学 | 一种用于文本生成的变分自编码器 |
-
2020
- 2020-12-25 CN CN202011555183.5A patent/CN112287641B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797985A (zh) * | 2017-09-27 | 2018-03-13 | 百度在线网络技术(北京)有限公司 | 建立同义鉴别模型以及鉴别同义文本的方法、装置 |
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
CN108959551A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 近邻语义的挖掘方法、装置、存储介质和终端设备 |
US20200226475A1 (en) * | 2019-01-14 | 2020-07-16 | Cambia Health Solutions, Inc. | Systems and methods for continual updating of response generation by an artificial intelligence chatbot |
CN111241789A (zh) * | 2020-01-14 | 2020-06-05 | 平安科技(深圳)有限公司 | 一种文本生成的方法及装置 |
CN111563148A (zh) * | 2020-04-17 | 2020-08-21 | 华南理工大学 | 一种基于词组多样性的对话生成方法 |
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
CN111931461A (zh) * | 2020-08-24 | 2020-11-13 | 中国计量大学 | 一种用于文本生成的变分自编码器 |
Non-Patent Citations (2)
Title |
---|
刘祖斌: "人工智能语音识别英语口语评估路径探讨", 《信息记录材料》 * |
赵芃 等: "一种面向短文本分类的基于词嵌技术的改进模型的设计", 《仪器仪表用户》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505701A (zh) * | 2021-07-12 | 2021-10-15 | 辽宁工程技术大学 | 一种结合知识图谱的变分自编码器零样本图像识别方法 |
CN114936548A (zh) * | 2022-03-22 | 2022-08-23 | 北京探境科技有限公司 | 一种相似命令文本的生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112287641B (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN107844469B (zh) | 基于词向量查询模型的文本简化方法 | |
CN107967262B (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN108153913B (zh) | 回复信息生成模型的训练方法、回复信息生成方法及装置 | |
CN112052692B (zh) | 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN112559702B (zh) | 基于Transformer的土木建筑信息领域自然语言问题生成方法 | |
CN106484682A (zh) | 基于统计的机器翻译方法、装置及电子设备 | |
CN106126507A (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
CN111914067A (zh) | 中文文本匹配方法及系统 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN110059324B (zh) | 基于依存信息监督的神经网络机器翻译方法及装置 | |
CN112257465B (zh) | 一种基于图像描述生成的多模态机器翻译数据增强方法 | |
CN111666756B (zh) | 一种基于主题融合的序列模型文本摘要生成方法 | |
CN112699688B (zh) | 一种篇章关系可控的文本生成方法和系统 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN112287641B (zh) | 一种同义句生成方法、系统、终端及存储介质 | |
CN114218928A (zh) | 一种基于图知识和主题感知的抽象文本摘要方法 | |
WO2023231513A1 (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
CN113609284A (zh) | 一种融合多元语义的文本摘要自动生成方法及装置 | |
CN112560456A (zh) | 一种基于改进神经网络的生成式摘要生成方法和系统 | |
Mathur et al. | A scaled‐down neural conversational model for chatbots | |
CN114841167A (zh) | 一种基于图神经网络多嵌入联合的临床命名实体识别方法 | |
CN112380882B (zh) | 一种具有误差修正功能的蒙汉神经机器翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |