CN111126047B - 一种同义文本生成的方法及装置 - Google Patents
一种同义文本生成的方法及装置 Download PDFInfo
- Publication number
- CN111126047B CN111126047B CN201911337552.0A CN201911337552A CN111126047B CN 111126047 B CN111126047 B CN 111126047B CN 201911337552 A CN201911337552 A CN 201911337552A CN 111126047 B CN111126047 B CN 111126047B
- Authority
- CN
- China
- Prior art keywords
- text
- model
- sub
- type
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 69
- 239000013598 vector Substances 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims 2
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种同义文本生成的方法及装置,其中,方法包括:将第一类型的第一文本输入至第一子模型,得到与第一文本同义的第二类型的第二文本;将第二文本输入至第二子模型,得到与第二文本同义的第一类型的第三文本;根据第三文本和第一文本的差异,更新由第一子模型和第二子模型组成的文本生成模型;文本生成模型用于根据输入文本生成与输入文本同义的输出文本。上述技术方案解决现有技术中有监督模型训练中需要对大量文本进行关联和标注,浪费大量人力的问题。
Description
技术领域
本发明实施例涉及机器学习领域,尤其涉及一种同义文本生成的方法及装置。
背景技术
同义文本生成,即同义复写,是机器翻译领域下的子任务之一,同义文本生成广泛应用于自然语言处理的语义分析与理解等场景。同义文本生成一般针对于同一种语言,在不改变原句主体语义的情况下完成语句的改写,诸如自动文摘、拼写纠错等任务均可归类于同义文本生成的范畴下。
现有技术有关同义文本生成的方法主要集中于有监督学习方法,有监督学习方法需要大规模有标注的语料支持,比如,在将全称文本—简称文本相互转换的模型训练中,需要将具有相同意思的全称文本和简称文本进行关联,且将每个文本标识出其属于全称类别还是简称类别,进而将有关联关系且进行标注的文本作为训练样本进行有监督模型训练。该方式中,需要人工对大量文本进行关联和标注,浪费大量人力。
发明内容
本发明实施例提供一种同义文本生成的方法及装置,用以解决现有技术中有监督模型训练中需要对大量文本进行关联和标注,浪费大量人力的问题。
本发明实施例提供的一种同义文本生成的方法,包括:
将第一类型的第一文本输入至第一子模型,得到与所述第一文本同义的第二类型的第二文本;
将所述第二文本输入至第二子模型,得到与所述第二文本同义的所述第一类型的第三文本;
根据所述第三文本和所述第一文本的差异,更新由所述第一子模型和所述第二子模型组成的文本生成模型;所述文本生成模型用于根据输入文本生成与所述输入文本同义的输出文本。
上述技术方案中,文本生成模型包括第一子模型和第二子模型,第一子模型用于将第一类型的文本转换成第二类型的文本,第二子模型用于将第二类型的文本转换成第一类型的文本,进而根据第一子模型的输入和第二子模型的输出对文本生成模型进行更新,通过将二者串联实现文本生成模型的无监督训练,从而在进行文本生成模型的训练过程中无需人工对大量文本进行关联和标注,降低人力成本。
可选的,将第一类型的第一文本输入至第一子模型之前,还包括:
隐藏第二类型的文本中的第一预设比例的文本,并根据所述第二类型的文本和隐藏所述第一预设比例的文本后的第二类型的文本,对所述第一子模型训练;
隐藏第一类型的文本中的第二预设比例的文本,并根据所述第一类型的文本和隐藏所述第二预设比例的文本后的第一类型的文本,对所述第二子模型训练。
上述技术方案中,先训练出文本生成模型的语言模型,该语言模型相当于是找到了文本的语言特征,在找到文本语言特征的基础上再进行迭代优化,以生成最终的文本生成模型,可以快速实现文本生成模型的收敛,且文本生成模型训练效果好。
可选的,所述第一子模型基于编码算法对所述第一文本编码处理,以及基于第一解码算法对所述编码处理后的第一文本解码处理,以得到所述第二文本;
所述第二子模型基于所述编码算法对所述第二文本编码处理,以及基于第二解码算法对所述编码处理后的第二文本解码处理,以得到所述第三文本。
上述技术方案中,考虑到采用将第一子模型和第二子模型串联的方式,实现无监督的文本生成模型训练,所以,第一子模型和第二子模型共享编码算法可以更好的实现将文本的第一类型和第二类型进行关联,使得文本生成模型的收敛速度较快,且模型训练的效果较好。
可选的,所述更新由所述第一子模型和所述第二子模型组成的文本生成模型,包括:
更新所述第二子模型中的所述编码算法和所述第二解码算法;
在所述更新所述第二子模型之后,还包括:
将第二类型的第四文本输入至第二子模型,得到与所述第四文本同义的第一类型的第五文本;
将所述第五文本输入至第一子模型,得到与所述第五文本同义的所述第二类型的第六文本;
根据所述第四文本和所述第六文本的差异,更新所述第一子模型中的所述编码算法和所述第一解码算法。
上述技术方案中,可以快速的将第一子模型和第二子模型收敛,从而提高收敛速度,即模型训练的速度。此外,该方式中,可以是将第一子模型训练和第二子模型训练轮流进行,也即,先根据第一子模型的输出参数和第二子模型的输入参数更新第一子模型,随后根据第二子模型的输出参数和第一子模型的输入参数更新第二子模型,再进一步根据第一子模型的输出参数和第二子模型的输入参数更新第一子模型,以及再根据第二子模型的输出参数和第一子模型的输入参数更新第二子模型,经过多轮循环后,可以将第一子模型和第二子模型训练出较好的效果。
可选的,所述第一类型的文本为多个;
将第一类型的第一文本输入至第一子模型之前,还包括:
针对每个第一类型的文本,将所述第一类型的文本切分得到所述第一类型的文本对应的至少一个基本语义单元;
根据各第一类型的文本对应的至少一个基本语义单元,生成每个基本语义单元对应的特征向量;所述基本语义单元对应的特征向量用于指示所述基本语义单元与其他基本语义单元之间的相似度。
上述技术方案中,在对训练文本进行预处理后,可以将每个基本语义单元对应的特征向量存储至特征向量空间中,在模型训练过程中将各文本对应的特征向量输入至神经网络和共享编码层。
相应的,本发明实施例还提供了一种同义文本生成的装置,包括:
第一处理单元,用于将第一类型的第一文本输入至第一子模型,得到与所述第一文本同义的第二类型的第二文本;
第二处理单元,用于将所述第二文本输入至第二子模型,得到与所述第二文本同义的所述第一类型的第三文本;
训练单元,用于根据所述第三文本和所述第一文本的差异,更新由所述第一子模型和所述第二子模型组成的文本生成模型;所述文本生成模型用于根据输入文本生成与所述输入文本同义的输出文本。
可选的,所述训练单元,还用于:
将第一类型的第一文本输入至第一子模型之前,隐藏第二类型的文本中的第一预设比例的文本,并根据所述第二类型的文本和隐藏所述第一预设比例的文本后的第二类型的文本,对所述第一子模型训练;
隐藏第一类型的文本中的第二预设比例的文本,并根据所述第一类型的文本和隐藏所述第二预设比例的文本后的第一类型的文本,对所述第二子模型训练。
可选的,所述第一子模型基于编码算法对所述第一文本编码处理,以及基于第一解码算法对所述编码处理后的第一文本解码处理,以得到所述第二文本;
所述第二子模型基于所述编码算法对所述第二文本编码处理,以及基于第二解码算法对所述编码处理后的第二文本解码处理,以得到所述第三文本。
可选的,所述训练单元,具体用于:
更新所述第二子模型中的所述编码算法和所述第二解码算法;
所述第二处理单元还用于在所述训练单元更新所述第二子模型之后,将第二类型的第四文本输入至第二子模型,得到与所述第四文本同义的第一类型的第五文本;
所述第一处理单元,还用于将所述第五文本输入至第一子模型,得到与所述第五文本同义的所述第二类型的第六文本;
所述训练单元,还用于根据所述第四文本和所述第六文本的差异,更新所述第一子模型中的所述编码算法和所述第一解码算法。
可选的,所述第一类型的文本为多个;
所述训练单元还用于:
在所述第一处理单元将第一类型的第一文本输入至第一子模型之前,针对每个第一类型的文本,将所述第一类型的文本切分得到所述第一类型的文本对应的至少一个基本语义单元;
根据各第一类型的文本对应的至少一个基本语义单元,生成每个基本语义单元对应的特征向量;所述基本语义单元对应的特征向量用于指示所述基本语义单元与其他基本语义单元之间的相似度。
相应的,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述同义文本生成的方法。
相应的,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述同义文本生成的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统架构的示意图;
图2为本发明实施例提供的一种同义文本生成的方法的流程示意图;
图3为本发明实施例提供的一种同义文本生成的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示例性的示出了本发明实施例提供同义文本生成的方法所适用的系统架构,该系统架构可以包括共享编码器、第一生成器和第二生成器。其中,共享编码器用于对输入文本进行编码,第一生成器用于将编码后的输入文本解码成第一类型的输出文本,第二生成器用于将编码后的输入文本解码成第二类型的输出文本。具体的,共享编码器将第一输入文本进行编码后输入至第一生成器中,第一生成器将编码后的第一输入文本解码为第一类型的第一输出文本;或者,共享编码器将第二输入文本进行编码后输入至第二生成器中,第二生成器将编码后的第二输入文本解码为第二类型的第二输出文本。
当然,如图1示出的系统架构中,可以将共享编码器替换为与第一生成器对应的第一编码器和第二生成器对应的第二编码器。第一编码器将第一输入文本进行编码后输入至第一生成器中,第一生成器将编码后的第一输入文本解码为第一类型的第一输出文本;第二编码器将第二输入文本进行编码后输入至第二生成器中,第二生成器将编码后的第二输入文本解码为第二类型的第二输出文本。
图1虽然仅示出了两种类型文本的生成器,但可以根据实际需求增加文本生成器,以用于生成其他类型的文本。还可以在某个生成器中增加文本输出类型,以用于生成其他类型的文本。
基于上述描述,图2示例性的示出了本发明实施例提供的一种同义文本生成的方法的流程,该流程可以由同义文本生成的装置执行。
如图2所示,该流程具体包括:
步骤201,将第一类型的第一文本输入至第一子模型,得到与第一文本同义的第二类型的第二文本;
步骤202,将第二文本输入至第二子模型,得到与第二文本同义的第一类型的第三文本;
步骤203,根据第三文本和第一文本的差异,更新由第一子模型和第二子模型组成的文本生成模型。
文本生成模型即用于根据输入文本生成与输入文本同义的输出文本。示例性的,该文本生成模型为全称/简称文本生成模型,假设输入全称文本“A股份有限公司”,则可以输出该全称文本对应的简称文本,如“A”。
本发明实施例中,用于模型训练的训练文本可以有两种,即第一类型的文本和第二类型的文本,其中,第一类型的文本可以是从标准数据库中获取到的,如第一类型的文本为全称公司的文本,则可以从用于记载公司全称的标准数据库中获取;第二类型的文本可以是从各种途径中获取到的,如第二类型的文本为简称公司的文本,则可以从各个网站通过爬虫技术获取。
本发明实施例中,先对获取到的训练文本进行预处理,该预处理指的是将各训练文本切分为对应的至少一个基本语义单元,可以对训练文本按照字、词、短语等级别的基本语义单元进行切分,进而根据各文本对应的至少一个基本语义单元,确定各基本语义单元的特征向量,其中,基本语义单元对应的特征向量用于指示该基本语义单元与其他基本语义单元之间的相似度。可以是将各文本对应的至少一个基本语义单元输入至预先设定的词向量生成模型中,以生成各基本语义单元的特征向量。可以是对第一类型的文本和第二类型的文本均做预处理,示例性的,第一类型的文本为多个,针对每个第一类型的文本,将第一类型的文本切分得到第一类型的文本对应的至少一个基本语义单元;根据各第一类型的文本对应的至少一个基本语义单元,生成每个基本语义单元对应的特征向量。在对训练文本进行预处理后,可以将每个基本语义单元对应的特征向量存储至如图1所示的特征向量空间中,在模型训练过程中将各文本对应的特征向量输入至LSTM网络和共享编码层。
输入至第一子模型的第一类型的文本可以是单个文本,也可以是文本集合,文本集合中可以包括10条、20条或者其他数量的文本。当单个文本输入至第一子模型时,可以是根据该单个文本与第二子模型输出的单个文本的差异度,对文本生成模型进行更新;当文本集合输入至第一子模型时,可以是根据该文本集合与第二子模型输出的文本集合差异度,对文本生成模型进行更新。
本发明实施例中,文本生成模型包括第一子模型和第二子模型,第一子模型用于将第一类型的文本转换成第二类型的文本,第二子模型用于将第二类型的文本转换成第一类型的文本。仍以该全称/简称文本生成模型为例,假设实际环境中,全称文本L1与简称文本L2对应,则将全称文本L1输入至第一子模型中,可以得到与全称文本L1同义的简称文本L2’;再将该简称文本L2’输入至第二子模型中,则可以得到与简称文本L2’同义的全称文本L1’;理论上,如果该文本生成模型效果较好,则输出的全称文本L1’与全称文本L1之间的差异较小。差异即可以理解成差异程度、相似距离等,具体训练中,可以采用混淆度(Perplexity)、KL散度等。基于上述描述,在文本生成模型训练过程中,可以将训练文本中第一类型的文本作为输入参数,输入至第一子模型,将第一子模型的输出参数再输入至第二子模型,进而根据第二子模型的输出参数与第一子模型的输入参数的差异对文本生成模型进行更新。
本发明实施例中,通过将第一子模型和第二子模型串联实现文本生成模型的无监督训练,从而在进行文本生成模型的训练过程中无需人工对大量文本进行关联和标注,降低人力成本。
结合图1示出的系统架构,本发明实施例提供一种实现方式,第一子模型可以对应共享编码器和第一生成器,第二子模型可以对应共享编码器和第二生成器。具体的,第一子模型基于共享编码器中的编码算法对第一文本编码处理,以及基于第一生成器中的第一解码算法对编码处理后的第一文本解码处理,以得到第二文本;第二子模型基于共享编码器中的编码算法对第二文本编码处理,以及基于第二生成器中的第二解码算法对编码处理后的第二文本解码处理,以得到第三文本。
另一种实现方式中,第一子模型对应第一编码器和第一生成器,第二子模型对应第二编码器和第二生成器,具体的,第一子模型基于第一编码器中的编码算法对第一文本编码处理,以及基于第一生成器中的第一解码算法对编码处理后的第一文本解码处理,以得到第二文本;第二子模型基于第二编码器中的编码算法对第二文本编码处理,以及基于第二生成器中的第二解码算法对编码处理后的第二文本解码处理,以得到第三文本。
由于本发明实施例采用将第一子模型和第二子模型串联的方式,实现无监督的文本生成模型训练,所以,第一子模型和第二子模型共享编码算法可以更好的实现将文本的第一类型和第二类型进行关联,使得文本生成模型的收敛速度较快,且模型训练的效果较好。
在更新文本生成模型时,可以是同时更新第一子模型和第二子模型,也可以是单独更新第一子模型或单独更新第二子模型。上述实施例中,是将第一类型的文本作为输入参数,输入至第一子模型中,再将第一子模型的输出参数输入至第二子模型中,由于第三文本为第二子模型的直接输出参数,所以根据第三文本(即第二子模型的输出参数)与第一文本(即第一子模型的输入参数)更新第二子模型的参数,具体的,可以是更新第二子模型的共享编码器的编码算法和第二解码算法,或者是更新第二子模型的第二编码器的编码算法和第二解码算法。在此基础上,还可以有如下实现方式:
将第二类型的第四文本输入至第二子模型,得到与第四文本同义的第一类型的第五文本;将第五文本输入至第一子模型,得到与第五文本同义的第二类型的第六文本;根据第四文本和第六文本的差异,更新第一子模型中的编码算法。相当于,将第二类型的文本作为输入参数,输入至第二子模型中,再将第二子模型的输出参数输入至第一子模型中,由于第六文本为第一子模型的直接输出参数,所以根据第六文本(即第一子模型的输出参数)与第四文本(即第二子模型的输入参数)更新第一子模型的参数,具体的,可以是更新第一子模型的共享编码器的编码算法和第一解码算法,或者是更新第一子模型的第一编码器的编码算法和第一解码算法。
通过该方式可以快速的将第一子模型和第二子模型收敛,从而提高收敛速度,即模型训练的速度。此外,该方式中,可以是将第一子模型训练和第二子模型训练轮流进行,也即,先根据第一子模型的输出参数和第二子模型的输入参数更新第一子模型,随后根据第二子模型的输出参数和第一子模型的输入参数更新第二子模型,再进一步根据第一子模型的输出参数和第二子模型的输入参数更新第一子模型,以及再根据第二子模型的输出参数和第一子模型的输入参数更新第二子模型,经过多轮循环后,可以将第一子模型和第二子模型训练出较好的效果。
此外,为了提高文本生成模型的训练速度和效果,可以先将文本生成模型训练成符合训练样本的语言特征的初始模型,该初始模型可以称为是语言模型,具体的,可以根据第一类型文本中各文本的语言特征将第一子模型训练成符合第一类型文本的语言特征的模型,以及根据第二类型文本中各文本的语言特征将第二子模型训练成符合第二类型文本的语言特征的模型。
具体训练过程中,隐藏第二类型的文本中的第一预设比例的文本,并根据第二类型的文本和隐藏第一预设比例的文本后的第二类型的文本,对第一子模型训练;隐藏第一类型的文本中的第二预设比例的文本,并根据第一类型的文本和隐藏第二预设比例的文本后的第一类型的文本,对第二子模型训练。
在生成语言模型时,可以采用MASK(掩码)语言模型、单向语言模型、双向语言模型等形式。举例来说,采用MASK方式将第二类型的文本“abcdefghjk”,随机隐藏10%,可以随机获取到如“abcd(MASK)fghjk”,然后将“abcd(MASK)fghjk”和“abcdefghjk”一起输入至第一子模型中,以对第一子模型训练。
上述实施例中,相当于先训练出文本生成模型的语言模型,该语言模型相当于是找到了文本的语言特征,在找到文本语言特征的基础上再进行迭代优化,以生成最终的文本生成模型,可以快速实现文本生成模型的收敛,且文本生成模型训练效果好。
为了更好地解释本发明实施例,下面以一个具体的例子来说明。
第一步:预处理
收集大规模未标注语料:多个全称文本和多个简称文本;假设多个全称文本中包括“AB股份有限公司”,“BCCC有限责任公司”、“ETR有限公司”,多个简称文本中包括“AB”、“AB公司”、“BCCC”、“ETR”;
将多个全称文本按照字级别的基本语义单元进行切分,分别切分为“A/B/股/份/有/限/公/司”、“B/C/C/C/有/限/责/任/公/司”、“E/T/R/有/限/公/司”。
将多个简称文本按照字级别的基本语义单元进行切分,分别切分为“A/B”、“A/B/公/司”、“B/C/C/C”、“E/T/R”。
此处,设特征向量V∈R[v,d],其中v为词表大小,d为词向量维度。第一类型的多个文本可以得到特征向量R[14,d],第二类型的多个文本可以得到特征向量R[8,d]。
第二步:语言模型训练
构建全称/简称编码器、全称解码器、简称解码器。
针对多个全称文本对应的切分后的第一序列“A/B/股/份/有/限/公/司/B/C/C/C/有/限/责/任/公/司/E/T/R/有/限/公/司”,随机隐藏预设比例的字,比如,隐藏后的第一序列为“A/B/(MASK)/份/有/限/公/司/B/(MASK)/C/C/有/限/责/任/公/(MASK)/E/T/R/有/限/公/司”;将“A/B/(MASK)/份/有/限/公/司/B/(MASK)/C/C/有/限/责/任/公/(MASK)/E/T/R/有/限/公/司”和“A/B/股/份/有/限/公/司/B/C/C/C/有/限/责/任/公/司/E/T/R/有/限/公/司”输入至全称/简称的编码器、全称解码器串联生成的第二子模型中,对第二子模型进行优化。
针对多个简称文本对应的切分后的第二序列“A/B/A/B/公/司/B/C/C/C/E/T/R”,随机隐藏预设比例的字,比如,隐藏后的第二序列为“A/B/A/B/公/(MASK)/B/C/C/(MASK)/E/T/R”;将“A/B/A/B/公/(MASK)/B/C/C/(MASK)/E/T/R”和“A/B/A/B/公/司/B/C/C/C/E/T/R”输入至全称/简称的编码器、简称解码器串联生成的第一子模型中,对第一子模型进行优化。
第三步:迭代优化
将“A/B/股/份/有/限/公/司/B/C/C/C/有/限/责/任/公/司/E/T/R/有/限/公/司”输入到第一子模型中,得到“A/B/股/份/有/限/公/司/B/C/C/C/有/限/责/任/公/司/E/T/R/有/限/公/司”的伪简称;
将“A/B/股/份/有/限/公/司/B/C/C/C/有/限/责/任/公/司/E/T/R/有/限/公/司”的伪简称输入到第二子模型中,得到伪简称对应的伪全称;
计算伪全称和“A/B/股/份/有/限/公/司/B/C/C/C/有/限/责/任/公/司/E/T/R/有/限/公/司”之间的Perplexity差异,作为损失函数,迭代优化第二子模型。
同理,将“A/B/A/B/公/司/B/C/C/C/E/T/R”输入到第二子模型中,得到“A/B/A/B/公/司/B/C/C/C/E/T/R”的伪全称;
将“A/B/A/B/公/司/B/C/C/C/E/T/R”的伪全称输入到第一子模型中,得到伪全称对应的伪简称;
计算伪简称和“A/B/A/B/公/司/B/C/C/C/E/T/R”之间的Perplexity差异,作为损失函数,迭代优化第一子模型。
最终将训练好的第一子模型和第二子模型组成文本生成模型。
本发明实施例中,文本生成模型包括第一子模型和第二子模型,第一子模型用于将第一类型的文本转换成第二类型的文本,第二子模型用于将第二类型的文本转换成第一类型的文本,通过将二者串联实现文本生成模型的无监督训练,从而在进行文本生成模型的训练过程中无需人工对大量文本进行关联和标注,降低人力成本。
基于同一发明构思,图3示例性的示出了本发明实施例提供的一种同义文本生成的装置的结构,该装置可以执行基于区块链的同义文本生成的方法的流程。
所述装置包括:
第一处理单元301,用于将第一类型的第一文本输入至第一子模型,得到与所述第一文本同义的第二类型的第二文本;
第二处理单元302,用于将所述第二文本输入至第二子模型,得到与所述第二文本同义的所述第一类型的第三文本;
训练单元303,用于根据所述第三文本和所述第一文本的差异,更新由所述第一子模型和所述第二子模型组成的文本生成模型;所述文本生成模型用于根据输入文本生成与所述输入文本同义的输出文本。
可选的,所述训练单元303,还用于:
将第一类型的第一文本输入至第一子模型之前,隐藏第二类型的文本中的第一预设比例的文本,并根据所述第二类型的文本和隐藏所述第一预设比例的文本后的第二类型的文本,对所述第一子模型训练;
隐藏第一类型的文本中的第二预设比例的文本,并根据所述第一类型的文本和隐藏所述第二预设比例的文本后的第一类型的文本,对所述第二子模型训练。
可选的,所述第一子模型基于编码算法对所述第一文本编码处理,以及基于第一解码算法对所述编码处理后的第一文本解码处理,以得到所述第二文本;
所述第二子模型基于所述编码算法对所述第二文本编码处理,以及基于第二解码算法对所述编码处理后的第二文本解码处理,以得到所述第三文本。
可选的,所述训练单元303,具体用于:
更新所述第二子模型中的所述编码算法和所述第二解码算法;
所述第二处理单元302还用于在所述训练单元303更新所述第二子模型之后,将第二类型的第四文本输入至第二子模型,得到与所述第四文本同义的第一类型的第五文本;
所述第一处理单元301,还用于将所述第五文本输入至第一子模型,得到与所述第五文本同义的所述第二类型的第六文本;
所述训练单元303,还用于根据所述第四文本和所述第六文本的差异,更新所述第一子模型中的所述编码算法和所述第一解码算法。
可选的,所述第一类型的文本为多个;
所述训练单元303还用于:
在所述第一处理单元301将第一类型的第一文本输入至第一子模型之前,针对每个第一类型的文本,将所述第一类型的文本切分得到所述第一类型的文本对应的至少一个基本语义单元;
根据各第一类型的文本对应的至少一个基本语义单元,生成每个基本语义单元对应的特征向量;所述基本语义单元对应的特征向量用于指示所述基本语义单元与其他基本语义单元之间的相似度。
基于同一发明构思,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述同义文本生成的方法。
基于同一发明构思,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述同义文本生成的方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种同义文本生成的方法,其特征在于,包括:
将第一类型的第一文本输入至第一子模型,得到与所述第一文本同义的第二类型的第二文本;所述第一类型的第一文本是从标准数据库中获取到的;所述第二类型的第二文本是从各种途径获取到的;
将所述第二文本输入至第二子模型,得到与所述第二文本同义的所述第一类型的第三文本;
根据所述第三文本和所述第一文本的差异,更新由所述第一子模型和所述第二子模型组成的文本生成模型;所述文本生成模型用于根据输入文本生成与所述输入文本同义的输出文本;
其中,所述第一子模型对应共享编码器和第一生成器,所述第二子模型对应共享编码器和第二生成器;或,所述第一子模型对应第一编码器和第一生成器,所述第二子模型对应第二编码器和第二生成器。
2.如权利要求1所述的方法,其特征在于,
将第一类型的第一文本输入至第一子模型之前,还包括:
隐藏第二类型的文本中的第一预设比例的文本,并根据所述第二类型的文本和隐藏所述第一预设比例的文本后的第二类型的文本,对所述第一子模型训练;
隐藏第一类型的文本中的第二预设比例的文本,并根据所述第一类型的文本和隐藏所述第二预设比例的文本后的第一类型的文本,对所述第二子模型训练。
3.如权利要求1所述的方法,其特征在于,
所述第一子模型基于编码算法对所述第一文本编码处理,以及基于第一解码算法对所述编码处理后的第一文本解码处理,以得到所述第二文本;
所述第二子模型基于所述编码算法对所述第二文本编码处理,以及基于第二解码算法对所述编码处理后的第二文本解码处理,以得到所述第三文本。
4.如权利要求1所述的方法,其特征在于,所述更新由所述第一子模型和所述第二子模型组成的文本生成模型,包括:
更新所述第二子模型中的编码算法和第二解码算法;
在所述更新所述第二子模型之后,还包括:
将第二类型的第四文本输入至第二子模型,得到与所述第四文本同义的第一类型的第五文本;
将所述第五文本输入至第一子模型,得到与所述第五文本同义的所述第二类型的第六文本;
根据所述第四文本和所述第六文本的差异,更新所述第一子模型中的所述编码算法和第一解码算法。
5.如权利要求1至4任一项所述的方法,其特征在于,所述第一类型的文本为多个;
将第一类型的第一文本输入至第一子模型之前,还包括:
针对每个第一类型的文本,将所述第一类型的文本切分得到所述第一类型的文本对应的至少一个基本语义单元;
根据各第一类型的文本对应的至少一个基本语义单元,生成每个基本语义单元对应的特征向量;所述基本语义单元对应的特征向量用于指示所述基本语义单元与其他基本语义单元之间的相似度。
6.一种同义文本生成的装置,其特征在于,包括:
第一处理单元,用于将第一类型的第一文本输入至第一子模型,得到与所述第一文本同义的第二类型的第二文本;所述第一类型的第一文本是从标准数据库中获取到的;所述第二类型的第二文本是从各种途径获取到的;
第二处理单元,用于将所述第二文本输入至第二子模型,得到与所述第二文本同义的所述第一类型的第三文本;
训练单元,用于根据所述第三文本和所述第一文本的差异,更新由所述第一子模型和所述第二子模型组成的文本生成模型;所述文本生成模型用于根据输入文本生成与所述输入文本同义的输出文本;
其中,所述第一子模型对应共享编码器和第一生成器,所述第二子模型对应共享编码器和第二生成器;或,所述第一子模型对应第一编码器和第一生成器,所述第二子模型对应第二编码器和第二生成器。
7.如权利要求6所述的装置,其特征在于,所述训练单元,还用于:
将第一类型的第一文本输入至第一子模型之前,隐藏第二类型的文本中的第一预设比例的文本,并根据所述第二类型的文本和隐藏所述第一预设比例的文本后的第二类型的文本,对所述第一子模型训练;
隐藏第一类型的文本中的第二预设比例的文本,并根据所述第一类型的文本和隐藏所述第二预设比例的文本后的第一类型的文本,对所述第二子模型训练。
8.如权利要求6所述的装置,其特征在于,
所述第一子模型基于编码算法对所述第一文本编码处理,以及基于第一解码算法对所述编码处理后的第一文本解码处理,以得到所述第二文本;
所述第二子模型基于所述编码算法对所述第二文本编码处理,以及基于第二解码算法对所述编码处理后的第二文本解码处理,以得到所述第三文本。
9.如权利要求6所述的装置,其特征在于,所述训练单元,具体用于:
更新所述第二子模型中的编码算法和第二解码算法;
所述第二处理单元,还用于在所述训练单元更新所述第二子模型之后,将第二类型的第四文本输入至第二子模型,得到与所述第四文本同义的第一类型的第五文本;
所述第一处理单元,还用于将所述第五文本输入至第一子模型,得到与所述第五文本同义的所述第二类型的第六文本;
所述训练单元,还用于根据所述第四文本和所述第六文本的差异,更新所述第一子模型中的所述编码算法和第一解码算法。
10.如权利要求6至9任一项所述的装置,其特征在于,所述第一类型的文本为多个;
所述训练单元还用于:
在所述第一处理单元将第一类型的第一文本输入至第一子模型之前,针对每个第一类型的文本,将所述第一类型的文本切分得到所述第一类型的文本对应的至少一个基本语义单元;
根据各第一类型的文本对应的至少一个基本语义单元,生成每个基本语义单元对应的特征向量;所述基本语义单元对应的特征向量用于指示所述基本语义单元与其他基本语义单元之间的相似度。
11.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至5任一项所述的方法。
12.一种计算机可读非易失性存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911337552.0A CN111126047B (zh) | 2019-12-23 | 2019-12-23 | 一种同义文本生成的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911337552.0A CN111126047B (zh) | 2019-12-23 | 2019-12-23 | 一种同义文本生成的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126047A CN111126047A (zh) | 2020-05-08 |
CN111126047B true CN111126047B (zh) | 2024-02-13 |
Family
ID=70501186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911337552.0A Active CN111126047B (zh) | 2019-12-23 | 2019-12-23 | 一种同义文本生成的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126047B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709248B (zh) * | 2020-05-28 | 2023-07-11 | 北京百度网讯科技有限公司 | 文本生成模型的训练方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797985A (zh) * | 2017-09-27 | 2018-03-13 | 百度在线网络技术(北京)有限公司 | 建立同义鉴别模型以及鉴别同义文本的方法、装置 |
WO2019052311A1 (zh) * | 2017-09-12 | 2019-03-21 | 腾讯科技(深圳)有限公司 | 风格语句的生成方法、模型训练方法、装置及计算机设备 |
US10380236B1 (en) * | 2017-09-22 | 2019-08-13 | Amazon Technologies, Inc. | Machine learning system for annotating unstructured text |
CN110209817A (zh) * | 2019-05-31 | 2019-09-06 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN110532575A (zh) * | 2019-08-21 | 2019-12-03 | 语联网(武汉)信息技术有限公司 | 文本翻译方法及装置 |
-
2019
- 2019-12-23 CN CN201911337552.0A patent/CN111126047B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019052311A1 (zh) * | 2017-09-12 | 2019-03-21 | 腾讯科技(深圳)有限公司 | 风格语句的生成方法、模型训练方法、装置及计算机设备 |
US10380236B1 (en) * | 2017-09-22 | 2019-08-13 | Amazon Technologies, Inc. | Machine learning system for annotating unstructured text |
CN107797985A (zh) * | 2017-09-27 | 2018-03-13 | 百度在线网络技术(北京)有限公司 | 建立同义鉴别模型以及鉴别同义文本的方法、装置 |
CN110209817A (zh) * | 2019-05-31 | 2019-09-06 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN110532575A (zh) * | 2019-08-21 | 2019-12-03 | 语联网(武汉)信息技术有限公司 | 文本翻译方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111126047A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022095682A1 (zh) | 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN111651557B (zh) | 一种自动化文本生成方法、装置及计算机可读存储介质 | |
CN110673840B (zh) | 一种基于标签图嵌入技术的自动代码生成方法及系统 | |
CN109785833A (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
CN114385178B (zh) | 基于抽象语法树结构信息增强的代码生成方法 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN114118065B (zh) | 一种电力领域中文文本纠错方法、装置、存储介质及计算设备 | |
CN113641819A (zh) | 基于多任务稀疏共享学习的论辩挖掘系统及方法 | |
CN110287333A (zh) | 一种基于知识库进行释义生成的方法及系统 | |
CN112417092A (zh) | 基于深度学习的智能化文本自动生成系统及其实现方法 | |
CN108549644A (zh) | 面向神经机器翻译的省略代词翻译方法 | |
CN112560456A (zh) | 一种基于改进神经网络的生成式摘要生成方法和系统 | |
CN113421551A (zh) | 语音识别方法、装置、计算机可读介质及电子设备 | |
CN117216200A (zh) | 大型语言模型的微调方法和基于大型语言模型的智能助手 | |
CN115906815A (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN111126047B (zh) | 一种同义文本生成的方法及装置 | |
CN114626529A (zh) | 一种自然语言推理微调方法、系统、装置及存储介质 | |
CN112287641B (zh) | 一种同义句生成方法、系统、终端及存储介质 | |
CN109979461A (zh) | 一种语音翻译方法及装置 | |
CN114997143B (zh) | 文本生成模型训练方法和系统、文本生成方法及存储介质 | |
CN111159424A (zh) | 标注知识图谱实体的方法,装置,存储介质及电子设备 | |
CN115859121A (zh) | 文本处理模型训练方法及装置 | |
CN112434143B (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |