CN117313656A - 文本生成方法、训练方法、模型、装置、设备及存储介质 - Google Patents
文本生成方法、训练方法、模型、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117313656A CN117313656A CN202311224380.2A CN202311224380A CN117313656A CN 117313656 A CN117313656 A CN 117313656A CN 202311224380 A CN202311224380 A CN 202311224380A CN 117313656 A CN117313656 A CN 117313656A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- vector
- generation model
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims description 217
- 230000009467 reduction Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 235000013399 edible fruits Nutrition 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 241000234295 Musa Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供文本生成方法、训练方法、模型、装置、设备及存储介质,训练方法包括:获取训练文本,其中,所述训练文本包括目标文本和输入文本;利用所述训练文本对初始文本生成模型进行训练,得到训练好的文本生成模型,其中,在训练所述初始文本生成模型时,根据所述初始文本生成模型预测的词与所述目标文本中的词的差异度来调节所述初始文本生成模型的参数,所述初始文本生成模型预测的第i个词是根据其预测的第i‑1个词预测得到,i依次取1至N,N为所述目标文本中词的总数量。达到通过训练得到的文本生成模型提高生成文本的质量的目的。
Description
技术领域
本申请属于自然语言处理技术领域,具体涉及一种文本生成方法、训练方法、模型、装置、设备及存储介质。
背景技术
文本到文本的生成技术是指对输入文本进行变换和处理,从而获得新文本的技术。主要包括文本摘要、文本改写、机器翻译、自动问答等等。文本到文本的生成所使用的文本生成模型大多使用encoder(编码器)decoder(解码器)架构。
现有方案中,基于encoder(编码器)decoder(解码器)架构加入扩散模型,依据词语在语句中的重要程度,将重要的词先加噪,实现了能够在还原过程中去噪,达到了更好的生成效果。但是其在结合过程中并没有最大限度地利用扩散模型,生成文本的质量还有提高空间。
发明内容
鉴于此,本申请的目的在于提供一种文本生成方法、训练方法、模型、装置、设备及存储介质,实现提高生成文本的质量的目的。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供了一种文本生成模型的训练方法,方法包括:获取训练文本,其中,在训练所述初始文本生成模型时,根据所述初始文本生成模型预测的词与所述目标文本中的词的差异度来调节所述初始文本生成模型的参数,所述初始文本生成模型预测的第i个词是根据其预测的第i-1个词预测得到,i依次取1至N,N为所述目标文本中词的总数量
在上述实现过程中,获取训练文本,并在训练初始文本生成模型时,将训练文本输入至初始文本生成模型,利用训练文本训练初始文本生成模型。在训练初始文本生成模型过程中,通过初始文本生成模型第i-1个词来预测第i个词,并根据预测得到的词以及训练文本中的目标文本调整初始文本生成模型的参数,得到文本生成模型。利用相近词语之间存在的关联性来预测当前所需要预测的词,进而得到文本生成模型,提高了得到的文本生成模型的准确性。
结合第一方面实施例的一种可选的实施方式,所述利用所述训练文本对初始文本生成模型进行训练,得到训练好的文本生成模型,包括:
利用所述文本生成模型将所述目标文本编码成第一向量,以及将所述输入文本编码成第二向量;
利用所述文本生成模型对所述第一向量中的每个词向量进行加噪,得到加噪后的各个词向量;
利用所述文本生成模型根据加噪后的所述第一向量中的第i个词的词向量、所述第二向量、以及所述初始文本生成模型预测得到的第i-1个词的词向量,预测第i个词的噪声;
利用所述文本生成模型根据预测得到第i个词的噪声对加噪后的第i个词的词向量进行去噪,得到预测所需的第i个词的词向量;
利用所述文本生成模型根据所述预测所需的第i个词的词向量预测第i个词;
根据预测的第i个词以及所述目标文本中第i个词的差异,调整所述初始文本生成模型的参数。
在上述实现过程中,将目标文本编码成第一向量、以及将输入文本编码成第二向量,并对第一向量进行加噪,得到加入噪声后目标文本的各个词的词向量,根据加噪后的所述第一向量中的第i个词的词向量、所述第二向量、以及所述初始文本生成模型预测得到的第i-1个词的词向量,预测第i个词的噪声,根据预测得到的噪声对加噪后的第i个词的词向量去除噪声,得到当前所需预测的词的词向量,进一步得到当前所需预测的词以及目标文本中第i个词的差异调整初始文本生成模型的参数,得到文本生成模型。通过在已预测得到的第i-1个词得到所需预测的第i个词的噪声,进而得到当前所需预测的第i个词,并对当前初始文本生成模型的参数进行调整得到文本生成模型,利用相近词语之间存在的关联性来预测当前所需要预测的词,进而得到文本生成模型,提高了得到的文本生成模型的准确性。
结合第一方面实施例的一种可选的实施方式,所述初始文本生成模型包括:第一编码层、第二编码层、隐藏层、解码层、还原层以及连接层,所述第一编码层与所述隐藏层连接,所述隐藏层与所述解码层连接,所述第二编码层与所述解码层连接,所述解码层与所述还原层连接,所述还原层与所述连接层连接,所述连接层与所述解码层连接;
所述利用所述训练文本对初始文本生成模型进行训练,得到训练好的文本生成模型,包括:
所述利用所述训练文本对初始文本生成模型进行训练,得到训练好的文本生成模型,包括:
利用所述第一编码层将所述目标文本编码成第一向量,以及利用所述第二编码层将所述输入文本编码成第二向量;
利用所述隐藏层对所述第一向量中的每个词向量进行加噪;
利用所述解码层根据加噪后的所述第一向量中的第i个词的词向量、所述第二向量、以及所述初始文本生成模型预测得到的第i-1个词的词向量,预测第i个词的噪声;
利用所述还原层根据加噪后的第i个词的词向量、以及预测第i个词的噪声预测第i个词;
利用所述全连接层根据所述预测所需的第i个词的词向量预测第i个词;
根据预测第i个词以及所述目标文本中第i个词的差异,调整所述初始文本生成模型的参数。
在上述实现过程中,通过在已预测得到的第i-1个词得到当前所需预测的第i个词的噪声,进而得到当前所需预测的第i个词,并对当前初始文本生成模型的参数进行调整得到文本生成模型,利用相近词语之间存在的关联性来预测当前所需要预测的词,并根据其对初始文本生成模型的参数进行调整,进而得到文本生成模型,提高了得到的文本生成模型的准确性。
结合第一方面实施例的一种可选的实施方式,利用隐藏层对所述目标文本进行加噪,包括:
利用隐藏层按照与所述目标文本的排序方向相反的顺序,在所述第一向量中的每个词向量依次加入随机高斯噪声。
在上述实现过程中,在对目标文本的词向量进行加噪时,通过控制隐藏层按照与目标文本的排序方向相反的顺序,对每个词向量加入随机高斯噪声,进而在还原层还原的过程中,先得到当前预测的词的第i-1个,从而实现了在训练初始文本生成模型时能够通过第i-1个词预测所需的第i个词的噪声,提高了训练得到的文本生成模型生成与输入文本对应的目标文本的准确性。
结合第一方面实施例的一种可选的实施方式,将加噪后的目标文本的各个词向量输入至解码层,包括:
按照加噪完成的逆顺序将加噪后的第一向量的各个词向量输入至解码层。
在上述实现过程中,通过按照加噪完成的逆顺序将加噪后的第一向量的各个词向量输入至解码层的方式,初始文本生成模型能够根据已预测得到的第i-1个的词向量得到当前预测所需的第i个词的词向量,利用了相邻词语之间的关联性,提高了训练得到的文本生成模型的准确性。
第二方面,本申请实施例还提供一种文本生成模型,所述文本生成模型包括:
第一编码层,用于将输入的目标文本编码成第一向量;
第二编码层,用于将输入的输入文本编码成第二向量;
隐藏层,与所述第一编码层连接,所述隐藏层用于将所述第一向量中的各个词向量进行加噪;
解码层,与所述第二编码层和所述隐藏层连接,所述解码层用于根据加噪后的所述第一向量中的第i个词的词向量、所述第二向量、以及所述文本生成模型预测得到的第i-1个词的词向量,预测第i个词的噪声,i依次取1至N,N为所述目标文本中词的总数量;
还原层,与所述解码层连接,所述还原层根据所述预测所需的第i个词的词向量预测第i个词;
连接层,与所述还原层和所述解码层连接,所述全连接层用于根据所述预测所需的第i个词的词向量预测第i个词,并将预测得到的第i个词传输给所述解码层。
在上述实现结构中,通过在已预测得到的第i-1个词得到所需预测的第i个词的噪声,进而得到当前所需预测的第i个词,并对当前初始文本生成模型的参数进行调整得到文本生成模型,利用相近词语之间存在的关联性来预测所需的第i个词,并根据其对初始文本生成模型的参数进行调整,进而得到文本生成模型,提高了得到的文本生成模型的准确性。
第三方面,本申请实施例还提供一种文本生成方法,所述方法包括:
获取输入文本;
将所述输入文本输入至所述文本生成模型,根据所述文本生成模型的输出结果得到与所述输入文本对应的目标文本,其中,文本生成模型预测的第i个词是根据其预测的第i-1个词预测得到,i为正整数。
在上述实现过程中,文本生成模型根据第i-1个词来预测所需的第i个词,利用了相邻词之间的关联性,提高了预测得到的目标文本的准确性。
第四方面,本申请实施例还提供一种文本生成装置,所述装置包括:
获取模块,用于获取输入文本;
生成模块,用于将所述输入文本输入所述文本生成模型,根据所述文本生成模型的输出结果得到与所述输入文本对应的目标文本,其中,文本生成模型预测的第i个词是根据其预测的第i-1个词预测得到,i为正整数。
第五方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行用于实现第三方面实施例以及结合第三方面实施例的任意一种可能的实现方式提供的方法。
第六方面,本申请实施例还提供一种电子设备,包括:
存储器和处理器,所述处理器与所述存储器连接;
所述存储器,用于存储程序;
所述处理器,用于调用存储于所述存储器中的程序,以执行如用于实现第三方面实施例以及结合第三方面实施例的任意一种可能的实现方式提供的方法。
本申请的其他特征和优点将在随后的说明书阐述。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。
图1示出了本申请实施例提供的文本生成模型的训练方法的流程示意图。
图2示出了本申请实施例提供的训练初始文本生成模型的流程示意图。
图3为本申请实施例提供的文本生成模型的结构示意图。
图4示出了本申请实施例提供的文本生成装置的模块示意图。
图5示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。以下实施例可作为示例,用于更加清楚地说明本申请的技术方案,而不能以此来限制本申请的保护范围。本领域技术人员可以理解的是,在不相冲突的情况下,下述实施例及实施例中的特征可以相互结合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
请参阅图1,本申请一实施例提供一种文本生成模型的训练方法,该文本生成模型的训练方法可以在文本生成模型的训练装置上实现,且包括如下步骤。
步骤S100,获取训练文本,其中,所述训练文本包括目标文本和输入文本;
文本生成模型的训练装置和文本生成装置可以分别设置于不同的具有计算能力的电子设备。文本生成模型的训练装置和文本生成装置还可以同时设置于同一个具有较强计算能力的电子设备。
文本生成模型的训练装置在离线阶段获取训练文本后,可以采用本申请实施例提供的文本生成模型的训练方法进行模型训练,得到文本生成模型,其中,本申请中的训练文本包括目标文本和输入文本,输入文本可以为接收到的用户输入的问题,目标文本则可以为问题对应的答案。在本申请中输入文本和目标文本可根据文本生成模型的使用场景变化,例如,若其为翻译场景时,则输入文本则可以为中文,目标文本可以为与输入文本对应的英文。在本实施例中不对输入文本和目标文本、以及文本生成模型的使用场景进行限制。
步骤S200,利用所述训练文本对初始文本生成模型进行训练,得到训练好的文本生成模型,其中,在训练所述初始文本生成模型时,根据所述初始文本生成模型预测的词与所述目标文本中的词的差异度来调节所述初始文本生成模型的参数,所述初始文本生成模型预测的第i个词是根据其预测的第i-1个词预测得到,i依次取1至N,N为所述目标文本中词的总数量。
本申请实施例采用的初始文本生成模型的架构为编码器-解码器结构。将训练文本中的目标文本输入编码器,编码器对目标文本进行编码,得到输入的目标文本的向量。将得到的向量进行加噪,并通过解码器预测向量中的噪声,对其进行还原,得到预测的词的词向量。在一些实现方案中,本申请可基于Transformer模型实现编码器-解码器架构。
此外,本申请的初始文本生成模型还可以采用基于其他模型实现的编码器-解码器结构,例如基于RNN(Recurrent Neural Network,循环神经网络)等实现。
在训练过程中,利用初始文本生成模型预测得到的前一个词进一步预测当前初始文本生成模型所需要预测的词,并根据预测得到的词和目标文本中的词的差异度调节初始文本生成模型的参数,得到训练好的文本生成模型。
在本申请实施例中,获取训练文本,并在训练初始文本生成模型时,将训练文本输入至初始文本生成模型,利用训练文本训练初始文本生成模型。在训练初始文本生成模型过程中,通过初始文本生成模型第i-1个词来预测所需第i个词,并根据预测得到的第i个词以及训练文本中的目标文本中的第i个词调整初始文本生成模型的参数,得到文本生成模型。利用相近词语之间存在的关联性来预测所需的第i个词,进而得到文本生成模型,提高了得到的文本生成模型的准确性。
在本申请的另一些实施例中,可将目标文本编码成第一向量、将输入文本编码成第二向量,并对编码完成的第一向量进行加噪,得到加噪后的第一向量中的各个词向量。之后,根据加噪后得到的各个词向量、编码得到的第二向量、以及第i-1个词的词向量预测得到当前初始文本生成模型所需预测的词的噪声,根据预测得到的噪声,加噪后的词向量进行去噪,得到当前初始文本生成模型所需预测的词的词向量,根据词向量得到当前所需预测的词,并根据预测的词以及目标文本调整初始文本生成模型的参数,得到文本生成模型。
例如,在本申请中输入文本可以为“你最喜欢的水果是什么”,目标文本为“我最喜欢的水果为苹果”。初始文本生成模型将目标文本“我最喜欢的水果为苹果”编码成第一向量W,其中,第一向量W中的每一列向量对应为目标文本包含的各个词,例如W1、W2、W3、W4、W5、W6、W7、W8、W9、W10,将其进行加噪后得到的各个词向量分别为W1′、W2′、W3、W4′、W5′、W6′、W7′、W8′、W9′、W10′。将输入文本编码得到的第二向量为Y,目标文本中词的总数量N为10,初始文本生成模型预测得到的第i-1个词的词向量为Z4,加噪后预测所需的第i个词的词向量为W5′、利用初始文本生成模型根据第二向量Y、加噪后预测所需的第i个词的词向量W5′、以及第i-1个词的词向量Z4所需的第i个词的噪声,根据预测得到的噪声对加噪后的词向量W5′进行去噪。在本申请实施例中,对词向量加噪时是随机加入高斯噪声,初始文本生成模型预测得到的噪声为接近随机加入的高斯噪声。所以在利用预测得到的噪声对当前所需预测的词的词向量W5′进行去噪时,由于预测的噪声为接近随机加入的高斯噪声,由此,最后初始文本生成模型预测得到的词Z5也接近或者等于在目标文本中对应的词。进而根据预测的词Z5和目标文本对应的词“的”之间的差异,调整初始文本生成模型的参数,使预测得到的词和目标文本中对应的词更接近,得到最终的文本生成模型。
在本申请实施例,将目标文本编码成第一向量、以及将输入文本编码成第二向量,并对第一向量进行加噪,得到加入噪声后目标文本的各个词的词向量,根据加噪后的所述第一向量中的第i个词的词向量、所述第二向量、以及所述初始文本生成模型预测得到的第i-1个词的词向量,预测第i个词的噪声,根据预测得到的噪声对加噪后的第i个词的词向量去除噪声,得到当前所需预测的词的词向量,进一步得到当前所需预测的词以及目标文本中第i个词的差异调整初始文本生成模型的参数,得到文本生成模型。通过在已预测得到的第i-1个词得到所需预测的第i个词的噪声,进而得到当前所需预测的第i个词,并对当前初始文本生成模型的参数进行调整得到文本生成模型,利用相近词语之间存在的关联性来预测当前所需要预测的词,进而得到文本生成模型,提高了得到的文本生成模型的准确性。
在本申请的另一些实施例中,初始文本生成模型包括:第一编码层、第二编码层、隐藏层、解码层、还原层以及连接层。其中,第一编码层与隐藏层连接,隐藏层与解码层连接,第二编码层与解码层连接,解码层与还原层连接,还原层与连接层连接,连接层与解码层连接。
其中第一编码层用于将目标文本编码成第一向量,第二编码层用于将输入文本编码成第二向量。在第一编码层编码完成后,利用隐藏层将编码完成的第一向量中包含的每一个词向量进行加噪,得到加噪后的各个词向量。之后,将加噪后的第i个词的词向量、编码得到的第二向量、以及第i-1个词的词向量输入解码层,利用解码层预测得到加入第i个词的噪声。进而将预测得到的噪声、加噪后的第i个词的词向量输入至还原层,利用还原层对加噪后的第i个词的词向量进行去噪。进而,再将去噪后的第i个词的词向量输入至连接层,得到当前初始文本生成模型所需预测的词。根据预测的第i个词以及目标文本中第i个词的差异,调整所述初始文本生成模型的参数,得到文本生成模型。
在本申请实施例中,通过在已预测得到第i-1个词预测所需的第i个词的噪声,进而预测所需第i个词,并对当前初始文本生成模型的参数进行调整得到文本生成模型,利用相近词语之间存在的关联性来预测当前所需要预测的词,并根据其对初始文本生成模型的参数进行调整,进而得到文本生成模型,提高了得到的文本生成模型的准确性。
在本申请另一些实施例中,利用隐藏层对目标文本进行加噪时,可按照目标文本排序方向相反的顺序,对目标文本进行编码后得到的第一向量中的每个词依次加入随机高斯噪声。
参照图2,图2为本申请训练初始文本生成模型的流程示意图。在本申请实施例中,利用编码层对目标文本进行编码后得到第一向量。进而将第一向量输入隐藏层进行加噪,其中,X0为未经过加噪的的向量,其包含目标文本中各词对应的词向量,之后,将各个词向量依次进行加噪。可以理解的是,在对各个词向量进行加噪时,按照目标文本的排序方向相反的顺序对每个词向量依次加入高斯噪声。例如,若目标文本为“我最喜欢的水果为香蕉”,将其编码成第一向量X0,其中,第一向量X0中的每一列向量对应为目标文本包含的各个词的词向量,例如,“蕉”的词向量为X0 1、“香”的词向量为X0 2、“为”的词向量为X0 3、“果”的词向量为X0 4、“水”的词向量为X0 5、“的”的词向量为X0 6、“欢”的词向量为X0 7、“喜”的词向量为X0 8、“最”的词向量为X0 9、“我”的词向量为X0 10。目标文本的排序方向为从左到右;在对目标文本进行加噪时,按照目标文本的排序方向相反的方向对各个词向量进行加噪,例如,在第一次加噪时,先对词向量为X0 1进行第一次加噪,得到加噪后的词向量X1 1、再对词向量X0 2进行第一次加噪,得到加噪后的词向量X1 2、……、再对词向量X0 10进行第一次加噪,得到加噪后的词向量X1 10;在第二次加噪时,对词向量为X1 1进行第二次加噪,得到加噪后的词向量X2 1、再对词向量X1 2进行第二次加噪,得到加噪后的词向量X2 2、……、对词向量X1 10进行第二次加噪,得到加噪后的词向量X2 10;……;在第t次加噪时,先对词向量为Xt-1 1进行第二次加噪,得到加噪后的词向量Xt 1、再对词向量Xt-1 2进行第二次加噪,得到加噪后的词向量Xt 2、……、对词向量Xt-1 10进行第二次加噪,得到加噪后的词向量Xt 10。
在图2中X的上标代表目标文本中的各个词的词向量、下标代表对目标文本进行的加噪次数,其中,将目标文本的词向量经过第t次加噪后,加入的噪声为纯高斯噪声,则停止对词向量进行加噪。
在本实施例中,在对目标文本的词向量进行加噪时,通过控制隐藏层按照与目标文本的排序方向相反的顺序,对每个词向量加入随机高斯噪声,进而在还原层还原的过程中,先得到第i-1个词,从而实现了在训练初始文本生成模型时能够通过第i-1个词预测第i个词的噪声,提高了训练得到的文本生成模型生成与输入文本对应的目标文本的准确性。
在本申请另一些实施例中,编码层将输入文本编码成第二向量。在得到第二向量后,将其输入至解码层。利用解码层根据输入的第二向量、当前所需预测的词的词向量、以及第i-1个词的词向量预测得到当前的噪声。
在对词向量进行还原时,按照加噪完成的逆顺序将加噪后的第一向量中的各个词向量依次输入解码层进行噪声预测。请继续参照图2,在加噪的过程中隐藏层按照目标文本的排序方向相反的顺序对第一向量进行加噪,即从右到左进行加噪;则在还原过程中,按照加噪后得到的词向量的逆顺序,将加噪后得到的词向量输入至解码层。例如,首先将加噪后的词向量Xt 10、第二向量输入解码层进行解码,预测得到该词的噪声,进而预测得到第一个词,在连接层将去噪后的词向量Xt 10还原成词,并根据还原得到的词目标文本中的第一个词“我”之间的差异,调整初始文本生成模型;接着,将加噪后的词向量Xt 9、第二向量以及预测得到的第一个词的词向量输入解码层进行解码,预测得到加入词向量Xt 9的噪声,进而预测得到第二个词语,在连接层将去噪后的词向量Xt 10还原成词,并根据还原得到的词目标文本中的第一个词“最”之间的差异,调整初始文本生成模型;……;根据还原得到的词目标文本中的第十个词“蕉”之间的差异,调整初始文本生成模型,得到文本生成模型。
在本实施例中,通过按照加噪完成的逆顺序将加噪后的第一向量的各个词向量输入至解码层的方式,初始文本生成模型能够根据已预测得到的第i-1个词的词向量得到所需预测的第i个词的词向量,利用了相邻词语之间的关联性,提高了训练得到的文本生成模型的准确性。
在本申请的另一些实施例中,在训练得到文本生成模型后,可直接将输入文本输入至文本生成模型中,即可得到与输入文本对应的目标文本。其中,在文本生成模型预测在生成目标文本所包含的词时,所需预测的第i个词是根据第i-1个词预测得到。文本生成模型根据第i-1个词来预测第i个词,利用了相邻词之间的关联性,提高了预测得到的目标文本的准确性。
参照图3,图3为本申请提出的文本生成模型的结构示意图。在本申请的另一些实施例中,所述文本生成模型10包括:第一编码层11、第二编码层12、隐藏层13、解码层14、还原层15、连接层16,其中,
第一编码层11,用于将输入的目标文本编码成第一向量;
第二编码层12,用于将输入的输入文本编码成第二向量;
隐藏层13,与所述第一编码层连接,所述隐藏层用于将所述第一向量中的各个词向量进行加噪;
解码层14,与所述第二编码层和所述隐藏层连接,所述解码层用于根据加噪后的所述第一向量中的第i个词的词向量、所述第二向量、以及所述文本生成模型预测得到的第i-1个词的词向量,预测第i个词的噪声,i依次取1至N,N为所述目标文本中词的总数量;
还原层15,与所述解码层连接,所述还原层根据所述预测所需的第i个词的词向量预测第i个词;
连接层16,与所述还原层和所述解码层连接,所述全连接层用于根据所述预测所需的第i个词的词向量预测第i个词,并将预测得到的第i个词传输给所述解码层。
参照图4,图4为本申请提出的文本生成装置的模块示意图。所述文本生成装置100包括:获取模块101、生成模块102,其中,
获取模块101,用于获取输入文本;
生成模块102,用于将所述输入文本输入所述文本生成模型,根据所述文本生成模型的输出结果得到与所述输入文本对应的目标文本,其中,文本生成模型预测的第i个词是根据其预测的第i-1个词预测得到,i为正整数。
在本申请的另一些实施例中,本申请还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述实施例所执行的方法。
本申请实施例所提供的文本生成装置100,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
如图5所示,图5示出了本申请实施例提供的一种电子设备200的结构框图。所述电子设备200包括:收发器210、存储器220、通讯总线230以及处理器240。
所述收发器210、所述存储器220、处理器240各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线230或信号线实现电性连接。其中,收发器210用于收发数据。存储器220用于存储计算机程序,如存储有图5中所示的软件功能模块,即文本生成装置100。其中,文本生成装置100包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器220中或固化在所述电子设备200的操作系统(Operating System,OS)中的软件功能模块。所述处理器240,用于执行存储器220中存储的可执行模块。
其中,存储器220可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器240可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器240也可以是任何常规的处理器等。
其中,上述的电子设备200,包括但不限于交换机、路由器等。
本申请实施例还提供了一种非易失性的计算机可读取存储介质(以下简称存储介质),该存储介质上存储有计算机程序,该计算机程序被计算机如上述的电子设备200运行时,执行上述所示的文本生成方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者电子设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种文本生成模型的训练方法,其特征在于,包括:
获取训练文本,其中,所述训练文本包括目标文本和输入文本;
利用所述训练文本对初始文本生成模型进行训练,得到训练好的文本生成模型,其中,在训练所述初始文本生成模型时,根据所述初始文本生成模型预测的词与所述目标文本中的词的差异度来调节所述初始文本生成模型的参数,所述初始文本生成模型预测的第i个词是根据其预测的第i-1个词预测得到,i依次取1至N,N为所述目标文本中词的总数量。
2.根据权利要求1所述的方法,其特征在于,所述利用所述训练文本对初始文本生成模型进行训练,得到训练好的文本生成模型,包括:
利用所述文本生成模型将所述目标文本编码成第一向量,以及将所述输入文本编码成第二向量;
利用所述文本生成模型对所述第一向量中的每个词向量进行加噪,得到加噪后的各个词向量;
利用所述文本生成模型根据加噪后的所述第一向量中的第i个词的词向量、所述第二向量、以及所述初始文本生成模型预测得到的第i-1个词的词向量,预测第i个词的噪声;
利用所述文本生成模型根据预测得到第i个词的噪声对加噪后的第i个词的词向量进行去噪,得到预测所需的第i个词的词向量;
利用所述文本生成模型根据所述预测所需的第i个词的词向量预测第i个词;
根据预测的第i个词以及所述目标文本中第i个词的差异,调整所述初始文本生成模型的参数。
3.根据权利要求1或2所述的方法,其特征在于,所述初始文本生成模型包括:第一编码层、第二编码层、隐藏层、解码层、还原层以及连接层,所述第一编码层与所述隐藏层连接,所述隐藏层与所述解码层连接,所述第二编码层与所述解码层连接,所述解码层与所述还原层连接,所述还原层与所述连接层连接,所述连接层与所述解码层连接;
所述利用所述训练文本对初始文本生成模型进行训练,得到训练好的文本生成模型,包括:
利用所述第一编码层将所述目标文本编码成第一向量,以及利用所述第二编码层将所述输入文本编码成第二向量;
利用所述隐藏层对所述第一向量中的每个词向量进行加噪;
利用所述解码层根据加噪后的所述第一向量中的第i个词的词向量、所述第二向量、以及所述初始文本生成模型预测得到的第i-1个词的词向量,预测第i个词的噪声;
利用所述还原层根据加噪后的第i个词的词向量、以及预测第i个词的噪声预测第i个词;
利用所述全连接层根据所述预测所需的第i个词的词向量预测第i个词;
根据预测第i个词以及所述目标文本中第i个词的差异,调整所述初始文本生成模型的参数。
4.根据权利要求3所述的方法,其特征在于,利用隐藏层对所述目标文本进行加噪,包括:
利用隐藏层按照与所述目标文本的排序方向相反的顺序,在所述第一向量中的每个词向量依次加入随机高斯噪声。
5.根据权利要求3所述的方法,其特征在于,将加噪后的目标文本的各个词向量输入至解码层,包括:
按照加噪完成的逆顺序将加噪后的第一向量的各个词向量输入至解码层。
6.一种文本生成模型,其特征在于,所述文本生成模型包括:
第一编码层,用于将输入的目标文本编码成第一向量;
第二编码层,用于将输入的输入文本编码成第二向量;
隐藏层,与所述第一编码层连接,所述隐藏层用于将所述第一向量中的各个词向量进行加噪;
解码层,与所述第二编码层和所述隐藏层连接,所述解码层用于根据加噪后的所述第一向量中的第i个词的词向量、所述第二向量、以及所述文本生成模型预测得到的第i-1个词的词向量,预测第i个词的噪声,i依次取1至N,N为所述目标文本中词的总数量;
还原层,与所述解码层连接,所述还原层根据所述预测所需的第i个词的词向量预测第i个词;
连接层,与所述还原层和所述解码层连接,所述全连接层用于根据所述预测所需的第i个词的词向量预测第i个词,并将预测得到的第i个词传输给所述解码层。
7.一种文本生成方法,其特征在于,所述方法包括:
获取输入文本;
将所述输入文本输入至所述文本生成模型,根据所述文本生成模型的输出结果得到与所述输入文本对应的目标文本,其中,文本生成模型预测的第i个词是根据其预测的第i-1个词预测得到,i为正整数。
8.一种文本生成装置,其特征在于,所述装置包括:
获取模块,用于获取输入文本;
生成模块,用于将所述输入文本输入所述文本生成模型,根据所述文本生成模型的输出结果得到与所述输入文本对应的目标文本,其中,文本生成模型预测的第i个词是根据其预测的第i-1个词预测得到,i为正整数。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求7所述的方法。
10.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器与所述存储器连接;
所述存储器,用于存储程序;
所述处理器,用于调用存储于所述存储器中的程序,以执行如权利要求7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311224380.2A CN117313656B (zh) | 2023-09-21 | 2023-09-21 | 文本生成方法、训练方法、模型、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311224380.2A CN117313656B (zh) | 2023-09-21 | 2023-09-21 | 文本生成方法、训练方法、模型、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117313656A true CN117313656A (zh) | 2023-12-29 |
CN117313656B CN117313656B (zh) | 2024-05-07 |
Family
ID=89287655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311224380.2A Active CN117313656B (zh) | 2023-09-21 | 2023-09-21 | 文本生成方法、训练方法、模型、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117313656B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040190239A1 (en) * | 2003-03-26 | 2004-09-30 | Shih-Lung Weng | Detachable keyboard structure |
CN106200778A (zh) * | 2015-06-01 | 2016-12-07 | 仁宝电脑工业股份有限公司 | 可携式电子装置及其触控面板控制方法 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
US20190251167A1 (en) * | 2018-02-10 | 2019-08-15 | Wipro Limited | Method and device for automatic data correction using context and semantic aware learning techniques |
CN110298046A (zh) * | 2019-07-03 | 2019-10-01 | 科大讯飞股份有限公司 | 一种翻译模型训练方法、文本翻译方法及相关装置 |
CN111476024A (zh) * | 2020-02-29 | 2020-07-31 | 新华三大数据技术有限公司 | 一种文本分词方法、装置及模型训练方法 |
CN113761845A (zh) * | 2021-01-28 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法、装置、存储介质及电子设备 |
CN114662483A (zh) * | 2022-03-30 | 2022-06-24 | 桂林电子科技大学 | 一种文本摘要生成方法、装置以及存储介质 |
US20230162723A1 (en) * | 2020-07-10 | 2023-05-25 | Huawei Technologies Co., Ltd. | Text data processing method and apparatus |
CN116306610A (zh) * | 2023-02-16 | 2023-06-23 | 京东科技信息技术有限公司 | 模型训练方法及装置、自然语言处理方法及装置 |
-
2023
- 2023-09-21 CN CN202311224380.2A patent/CN117313656B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040190239A1 (en) * | 2003-03-26 | 2004-09-30 | Shih-Lung Weng | Detachable keyboard structure |
CN106200778A (zh) * | 2015-06-01 | 2016-12-07 | 仁宝电脑工业股份有限公司 | 可携式电子装置及其触控面板控制方法 |
US20190251167A1 (en) * | 2018-02-10 | 2019-08-15 | Wipro Limited | Method and device for automatic data correction using context and semantic aware learning techniques |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110298046A (zh) * | 2019-07-03 | 2019-10-01 | 科大讯飞股份有限公司 | 一种翻译模型训练方法、文本翻译方法及相关装置 |
CN111476024A (zh) * | 2020-02-29 | 2020-07-31 | 新华三大数据技术有限公司 | 一种文本分词方法、装置及模型训练方法 |
US20230162723A1 (en) * | 2020-07-10 | 2023-05-25 | Huawei Technologies Co., Ltd. | Text data processing method and apparatus |
CN113761845A (zh) * | 2021-01-28 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法、装置、存储介质及电子设备 |
CN114662483A (zh) * | 2022-03-30 | 2022-06-24 | 桂林电子科技大学 | 一种文本摘要生成方法、装置以及存储介质 |
CN116306610A (zh) * | 2023-02-16 | 2023-06-23 | 京东科技信息技术有限公司 | 模型训练方法及装置、自然语言处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117313656B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10762305B2 (en) | Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium | |
CN112789625A (zh) | 承诺信息速率变分自编码器 | |
CN110326002B (zh) | 使用在线注意的序列处理 | |
US11663488B2 (en) | Initialization of parameters for machine-learned transformer neural network architectures | |
CN110175336B (zh) | 翻译方法、装置和电子设备 | |
CN112509555B (zh) | 方言语音识别方法、装置、介质及电子设备 | |
KR20170030923A (ko) | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 | |
CN113590761B (zh) | 文本处理模型的训练方法、文本处理方法及相关设备 | |
CN112800757B (zh) | 关键词生成方法、装置、设备及介质 | |
CN112270200B (zh) | 一种文本信息的翻译方法、装置、电子设备和存储介质 | |
CN116884391B (zh) | 基于扩散模型的多模态融合音频生成方法及装置 | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
CN115831105A (zh) | 基于改进Transformer模型的语音识别方法及装置 | |
CN110913229B (zh) | 基于rnn的解码器隐状态确定方法、设备和存储介质 | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN117316140A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
CN117313656B (zh) | 文本生成方法、训练方法、模型、装置、设备及存储介质 | |
CN111797225A (zh) | 一种文本摘要生成方法和装置 | |
CN109241262B (zh) | 基于关键词生成回复语句的方法及装置 | |
CN115270719A (zh) | 基于多模态信息的文本摘要生成方法、训练方法及其装置 | |
CN116306612A (zh) | 一种词句生成方法及相关设备 | |
EP4360004A1 (en) | Contrastive learning and masked modeling for end-to-end self-supervised pre-training | |
CN112509559B (zh) | 音频识别方法、模型训练方法、装置、设备及存储介质 | |
CN115050371A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN115357710A (zh) | 表格描述文本生成模型的训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |