CN110457718A - 一种文本生成方法、装置、计算机设备及存储介质 - Google Patents

一种文本生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110457718A
CN110457718A CN201910775529.3A CN201910775529A CN110457718A CN 110457718 A CN110457718 A CN 110457718A CN 201910775529 A CN201910775529 A CN 201910775529A CN 110457718 A CN110457718 A CN 110457718A
Authority
CN
China
Prior art keywords
word
source text
vector
sequence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910775529.3A
Other languages
English (en)
Other versions
CN110457718B (zh
Inventor
王星
涂兆鹏
王龙跃
史树明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910775529.3A priority Critical patent/CN110457718B/zh
Publication of CN110457718A publication Critical patent/CN110457718A/zh
Application granted granted Critical
Publication of CN110457718B publication Critical patent/CN110457718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种文本生成方法、装置、计算机设备及存储介质,涉及人工智能中的自然语言处理及机器学习技术,依据树形结构源文本序列的结构,计算每个单词的位置向量;将每个单词对应的位置向量输入到机器翻译模型中;进行语义编码,得到每个单词各自对应的语义向量;依据位置向量以及语义向量,生成每个单词各自对应的源端语义向量;进行语义解码,得到每个单词各自对应的目标单词;确定目标单词的组合顺序并对目标单词进行拼接,生成目标文本。树形结构源文本序列能体现源文本的句法结构,计算得到的位置向量能够体现出源文本的句法结构,在确定单词语义的过程中考虑到了源文本的句法结构对单词语义的影响,提高翻译结果的准确性。

Description

一种文本生成方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,更具体的说,是涉及一种文本生成方法、装置、计算机设备及存储介质。
背景技术
随着机器学习技术的不断发展,逐渐出现了机器翻译技术。机器翻译技术是计算语言学的一个分支,目前的机器翻译技术主要是基于神经网络的机器翻译技术,主要利用人工智能技术将一种自然语言转换为另一种自然语言的过程。在目前的机器翻译技术中,基于自注意力模型的变换器成为神经网络机器翻译的主流架构选择。
然而,目前的神经网络机器翻译技术存在着翻译结果不准确的问题。
发明内容
有鉴于此,本发明提供了一种文本生成方法、装置、计算机设备及存储介质,以克服现有技术中存在的翻译结果不准确的问题。
为实现上述目的,本发明提供如下技术方案:
一方面,本申请提供了一种文本生成方法,所述方法包括:
获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置;
将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;
利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
又一方面,本申请还提供了一种文本生成装置,所述装置包括:
树形结构源文本序列获取单元,用于获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
位置向量计算单元,用于依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置;
位置向量输入单元,用于将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;
语义编码单元,用于利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
源端语义向量生成单元,用于利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
语义解码单元,用于利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
目标文本生成单元,用于利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
又一方面,本申请还提供了一种计算机设备,所述计算机设备包括:
处理器和存储器;
所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器用于存储所述程序,所述程序至少用于:
获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置;
将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;
利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
又一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上所述的文本生成方法。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种文本生成方法、装置、计算机设备及存储介质,通过获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置;将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。由于本申请中依据源文本中每个单词之间的依存关系,得到树形结构源文本序列,而树形结构源文本序列能够体现出源文本的句法结构,因此,依据树形结构源文本序列的结构,计算得到的源文本中的每个单词的位置向量能够体现出源文本的句法结构,进而机器翻译模型结合每个单词对应的位置信息向量,得到每个单词对应的源端语义向量,从而在确定单词语义的过程中考虑到了源文本的句法结构对单词语义的影响,提高翻译结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种位置信息示意图;
图2为本发明实施例提供的文本生成系统的一种组成结构示意图;
图3为本发明实施例提供的计算机设备的一种组成结构示意图;
图4为本发明实施例提供的一种文本生成方法的流程示意图;
图5为本发明实施例提供的另一种文本生成方法的流程示意图;
图6为本发明实施例提供的一种树形结构源文本序列的结构示意图;
图7为本发明实施例提供的另一种位置信息示意图;
图8为本发明实施例提供的又一种文本生成方法的流程示意图;
图9为本发明实施例提供的又一种文本生成方法的流程示意图;
图10为本发明实施例提供的一种机器翻译模型训练过程的流程示意图;
图11为本发明实施例提供的一种文本生成装置的组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供的机器翻译模型训练方法涉及人工智能中的自然语言处理技术以及机器学习技术等,下面先对人工智能技术、自然语言处理技术和机器学习技术进行说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的文本预处理、语义理解以及机器翻译等技术,具体通过如下实施例进行说明:
由于注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于自然语言处理过程中,特别是机器翻译领域中。而自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
在机器翻译领域,基于自注意力模型的变换器成为神经网络机器翻译的主流架构选择,其性能已在诸多语言对中超过了传统的统计机器翻译方法。以自注意力模型为核心部件的变换器的优势主要在于:
1、不再需要人工显性地定义特征,而是直接从训练数据中习得隐性特征;
2、变换器架构中自注意力模型的可以更好的捕获长距离的历史信息;
3、变换器架构中自注意力模型可以进行并行训练,极大地缩减了模型训练时间。
基于此,目前采用的机器翻译模型为自注意力模型,自注意力模型与传统的神经机器翻译中的循环神经网络模型相比,打破了输入序列元素间的结构约束,从而每个元素的自注意力可以互相独立地记性,以提高训练速度。
然而,发明人经研究发现,忽视输入序列元素间结构约束给自然语言处理带来了新的问题:由于自然语言句子不是词语的简单堆砌,文本句子的结构在自然语言理解和自然语言生成中扮演着重要的角色。文本句子结构的忽略会导致句子语义不准确,进而对机器翻译模型翻译结果的准确性有很大影响。如果在翻译过程中,考虑文本句子结构信息,将会提高机器翻译模型确定句子语义的准确性,进而提高翻译结果的准确性。
为了提高翻译结果的准确性,目前给出了如下一种文本句子结构的表示方法:利用文本句子序列中每个单词在文本句子序列中的位置来表示文本句子序列结构,每个单词在文本句子序列中的位置可以采用绝对位置或相对位置的方式来表示,绝对位置为按照从左到右的顺序,每个单词在文本句子序列中实际所处的位置;相对位置为每个单词相对于文本句子序列中的参照单词的位置,参照单词可以由本领域技术人员指定,本申请并不做具体限定。
下面关于绝对位置以及相对位置举例具体说明:
给定一文本句子序列“Bush held a talk with Sharon”,参照图1所示的位置信息示意图,利用绝对位置表示方法,按照从左到右的顺序,来表示文本句子序列中每个单词在文本句子序列中的绝对位置序列号:“Bush”的绝对位置序列号是“0”,“held”的绝对位置序列号是“1”,“a”的绝对位置序列号是“2”,“talk”的绝对位置序列号是“3”,“with”的绝对位置序列号是“4”,“Sharon”的绝对位置序列号是“5”。
采用相对位置表示方法,表示文本句子序列中每个单词相对于文本句子序列中的参照单词的相对位置序列号:针对句子中的每个单词,选取某个目标单词为参照单词,每个单词相对于参照单词,被赋予一个相对位置信息,以“talk”为参照单词,位于参照单词左侧的单词的方向向量为负,位于参照单词右侧的单词的方向向量为正。参照图1所示的位置信息示意图,每个单词在文本句子序列中的相对位置序列号分别为:“Bush”相对位置是序列号“-3”,“held”的相对位置序列号是“-2”,“a”的相对位置序列号是“-1”,“talk”的相对位置序列号是“0”,“with”的相对位置序列号是“+1”,“Sharon”的相对位置是“+2”。
进一步的,发明人经研究发现,目前上述采用的绝对位置以及相对位置表示方式都仅仅能够反映文本句子序列中各个单词的组合序列结构,无法体现出文本句子序列的句法结构,而文本句子序列的句法结构才能够准确体现出文本句子的结构,文本句子序列中各个单词的组合序列结构无法准确体现出文本句子的结构。也就是说,目前上述采用的绝对位置以及相对位置表示方式无法准确表示文本句子的结构。
为了能够对文本句子的结构进行准确的表示,从而在确定单词语义的过程中考虑文本句子的结构,提高翻译结果的准确性,本方案发明人经研究提出了如下一种文本生成方法,本申请提供的方法可以用在所有主流神经网络机器翻译系统中,并适用于所有语言的翻译任务。
通过获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置;将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。由于本申请中依据源文本中每个单词之间的依存关系,得到树形结构源文本序列,而树形结构源文本序列能够体现出源文本的句法结构,因此,依据树形结构源文本序列的结构,计算得到的源文本中的每个单词的位置向量能够体现出源文本的句法结构,进而机器翻译模型结合每个单词对应的位置信息向量,得到每个单词对应的源端语义向量,从而在确定单词语义的过程中考虑到了源文本的句法结构对单词语义的影响,提高翻译结果的准确性。
为了便于理解,先对本申请实施例的文本生成方法所适用的系统架构进行介绍。如图2所示,其示出了本申请的方案所适用的文本生成系统的一种组成结构示意图。在图2中,该文本生成系统可以包括:终端10以及服务器20,终端10可将源文本发送至服务器20,服务器20执行文本翻译过程,得到目标文本,再将目标文本返回至终端10。终端10也可在获取源文本后执行文本翻译方法。终端10和服务器20通过网络连接。终端10具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑和笔记本电脑等中的至少一种。服务器20可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
申请实施例的文本生成方法可以应用于计算机设备,该计算机设备具体可以为上述实施例中的终端10或服务器20。如图3所示,其示出了本申请的方案所适用的计算机设备的一种组成结构示意图。在图3中,该计算机设备可以包括:处理器101和存储器102。
该服务器100还可以包括:通信接口103、输入单元104和显示器105和通信总线106。
处理器101、存储器102、通信接口103、输入单元104、显示器105、均通过通信总线106完成相互间的通信。
在本申请实施例中,该处理器101,可以为中央处理器(Central ProcessingUnit,CPU),现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。
该处理器可以调用存储器102中存储的程序,具体的,可以处理器可以执行以下方法实施例中终端侧所执行的操作。
存储器102中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置;
将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;
利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
如图4所示,其示出了本申请一种文本生成方法一个实施例的流程示意图,本实施例主要以该方法应用于计算机设备来举例说明,该计算机设备可以是上述图2中的终端10或服务器20。参照图4,该文本生成方法具体包括如下步骤:
S100、获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
需要说明的是,本申请中的源文本为待翻译的文本,源文本具体可以为句子、段落或者篇章等文本,本申请中对源文本的语言类型并不做具体限定,源文本具体可以为中文文本、还可以为英文文本等。
可选的,在获取源文本之后,可以对源文本执行分词处理,得到各个词组成的源文本序列,再对源文本序列进行处理,得到树形结构源文本序列。
需要说明的是,本申请中公开的对源文本序列进行处理,得到树形结构源文本序列的过程为:确定源文本序列中的关键词,依据源文本中除了关键词之外的其他每个单词各自分别与关键词之间的依存关系,将源文本序列中的各个单词按照树形结构排列,得到树形结构源文本序列。
其中,源文本序列中的关键词可以为源文本序列中的谓语动词,源文本中除了谓语动词之外的其他每个单词都与谓语动词存在直接或间接的依存关系,而单词之间的依存关系能够反映单词之间在句法上的搭配关系,这种搭配关系是和语义相关联的,也就是说,本申请中的树形结构源文本序列能够体现源文本序列中单词之间的依存关系,从而体现源文本序列中单词的语义。
需要说明的是,本申请中的树形结构源文本序列为将源文本序列中的各个单词按照树形结构排列得到的序列,本申请中的树形结构源文本序列具体可以为依存树。
S110、依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量;
需要说明的是,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置,由于树形结构源文本序列能够体现出源文本的句法结构,因此,依据树形结构源文本序列的结构,计算得到的源文本中的每个单词的位置向量能够体现出源文本的句法结构。
可选的,本申请中可以将单词在树形结构源文本序列中的位置采用预设维度的向量来表示,从而得到单词在树形结构源文本序列中的位置向量。其中,预设维度可以由本领域技术人员依据实际情况而设置,本申请并不做具体限定。
S120、将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;
本申请中的机器翻译模型应用的是自注意力模型,基于编码器-解码器的变换器框架,编码器读入源端源文本,经过自注意力机制和前向神经网络后输出一个语义向量序列;解码器根据此语义向量序列,逐词通过自注意力机制和前向神经网络生成目标文本。
S130、利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
源文本中的每个单词的语义可以利用语义向量来表示,语义向量中每一维度的向量都表示了单词的语义信息。
语义向量的维度可以由本领域技术人员依据实际情况而设置,本申请并不做具体限定。并且,语义向量的维度与位置向量的维度可以相同,也可以不同,本申请并不做具体限定。如果不相同,在后续进行向量运算之前,需要进行维度统一,例如:对低维度向量做升维处理,比如语义向量维度为512,位置向量维度为312,那么可以让位置向量乘以一个312*512维度的矩阵,将位置向量变换为512维度的位置向量。本申请还可以采用对高维度向量做降维处理,具体的降维处理方式本申请实施例不再详细介绍。
每个单词各自对应的语义向量的维度度可以相同,也可以不同,如果不相同,在后续进行向量运算之前,需要进行维度统一,例如:对低维度向量做升维处理,比如一个单词的语义向量维度为512,另一个单词的语义向量维度为312,那么可以让另一个单词的语义向量乘以一个312*512维度的矩阵,将另一个单词的语义向量变换为512维度的语义向量。本申请还可以采用对高维度向量做降维处理,具体的降维处理方式本申请实施例不再详细介绍。
S140、利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
本申请中可以利用所述机器翻译模型,对源文本中的某一单词对应的位置向量以及语义向量做向量运算处理,得到源文本中的某一单词对应的源端语义向量。
S150、利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
需要说明的是,本申请实施例中,利用机器翻译模型对源文本中的每个单词各自对应的源端语义向量进行语义解码,可以得到源文本中的每个单词各自对应的目标单词。
对源文本中的任一个单词对应的源端语义向量进行语义解码的过程为:将源文本中的任一个单词对应的源端语义向量与数据库中存储的所有备选单词的语义向量做相似性运算,得到相似性运算结果,将相似性运算结果符合预设相似性阈值的备选单词作为源文本中该单词对应的目标单词。
其中,本申请实施例可以将源文本中的任一个单词对应的源端语义向量与数据库中存储的所有备选单词的语义向量做点积,得到点积结果,将对点积结果作为相似性运算结果,并对点积结果执行概率化运算,得到概率化运算结果,依据概率化运算结果,从中选择符合预设概率阈值的备选单词作为源文本中该单词对应的目标单词。
S160、利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
本申请中的机器翻译模型可以结合源文本中的每个单词在所述树形结构源文本序列中的位置向量以及预先训练得到的单词调序方式,得到源文本中的每个单词各自对应的目标单词的组合顺序,从而依据组合顺序对目标单词进行拼接,生成源文本对应的目标文本。
由于本申请实施例中依据源文本中每个单词之间的依存关系,得到树形结构源文本序列,而树形结构源文本序列能够体现出源文本的句法结构,因此,依据树形结构源文本序列的结构,计算得到的源文本中的每个单词的位置向量能够体现出源文本的句法结构,进而机器翻译模型结合每个单词对应的位置信息向量,得到每个单词对应的源端语义向量,从而在确定单词语义的过程中考虑到了源文本的句法结构对单词语义的影响,提高翻译结果的准确性。
为了提高翻译结果的准确性,本申请中还提供了如下一种文本生成方法一个实施例的流程示意图,参照图5,本实施例包括:
S200、获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
S210、将位于所述树形结构源文本序列中根结点位置的单词作为关键词;
位于所述树形结构源文本序列中根结点位置的单词即为关键词。
S220、将所述树形结构源文本序列中任一单词各自距离所述关键词的跳数,作为所述树形结构源文本序列中任一单词各自对应的绝对位置;
给定一文本句子序列“Bush held a talk with Sharon”,树形结构源文本序列的结构参照图6,并参照图7所示的位置信息示意图,关键词为“held”,树形结构源文本序列中任一单词各自距离所述关键词的跳数分别为:“1”,“0”,“2”,“1”,“2”,“1”。据此,树形结构源文本序列中各单词各自对应的绝对位置序列号分别为:“Bush”的绝对位置序列号是“1”,“held”的绝对位置序列号是“0”,“a”的绝对位置序列号是“2”,“talk”的绝对位置序列号是“1”,“with”的绝对位置序列号是“2”,“Sharon”的绝对位置序列号是“1”。
可选的,本申请还提供了如下另一种确定树形结构源文本序列中任一单词各自对应的绝对位置的方式:将任一单词所在的树形结构源文本序列中的层级输作为树形结构源文本序列中任一单词各自对应的绝对位置序列号。
例如:“held”在树形结构源文本序列的第0层,则“held”的绝对位置序列号是“0”;“Bush”、“talk”与“Sharon”在树形结构源文本序列的第1层,则“Bush”、“talk”与“Sharon”的绝对位置序列号是“1”;“a”与“with”在树形结构源文本序列的第2层,则“a”与“with”的绝对位置序列号是“2”。
S230、将任一单词各自对应的绝对位置映射为预设维数的向量,得到每个单词各自对应的绝对位置向量;
需要说明的是,所述绝对位置向量表示了源文本中的单词在所述树形结构源文本序列中的绝对位置,由于树形结构源文本序列能够体现出源文本的句法结构,因此,依据树形结构源文本序列的结构,计算得到的源文本中的每个单词的绝对位置向量能够体现出源文本的句法结构。
可选的,本申请中可以将单词在树形结构源文本序列中的绝对位置采用预设维度的向量来表示,从而得到单词在树形结构源文本序列中的绝对位置向量。其中,预设维度可以由本领域技术人员依据实际情况而设置,本申请并不做具体限定。
S240、将所述源文本中的每个单词对应的绝对位置向量输入到预先训练的机器翻译模型中;
S250、利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
S260、利用所述机器翻译模型,依据所述源文本中的每个单词对应的绝对位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
可选的,本申请中可以利用所述机器翻译模型,对所述源文本中的每个单词对应的绝对位置向量和语义向量执行对位相加操作,将对位相加操作得到的结果作为所述源文本中的每个单词对应的源端语义向量,具体计算过程可以为:
对于单词w_i,其绝对位置为p_i,输入自注意力模型的源端语义向量ri为:
ri=f(E(w_i),D(p_i))
其中E(w_i)是该单词的语义向量,维度为d,D(p_i)是该单词的绝对位置向量,维度为d。f是一个对位相加操作,ri是对位相加操作的结果,即源端语义向量,维度为d。
S270、利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
S280、利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
需要说明的是,本申请实施例中的步骤S200、步骤S250、步骤S270-S280分别与上述实施例中的步骤S100、步骤S130、步骤S150-S160相对应,具体内容请参考上述实施例,本申请实施例不做赘述。
由于本申请实施例中依据源文本中每个单词之间的依存关系,得到树形结构源文本序列,而树形结构源文本序列能够体现出源文本的句法结构,因此,依据树形结构源文本序列的结构,计算得到的源文本中的每个单词的绝对位置向量能够体现出源文本的句法结构,进而机器翻译模型结合每个单词对应的绝对位置信息向量,得到每个单词对应的源端语义向量,从而在确定单词语义的过程中考虑到了源文本的句法结构对单词语义的影响,提高翻译结果的准确性。
为了提高翻译结果的准确性,本申请中还提供了如下一种文本生成方法一个实施例的流程示意图,参照图8,本实施例包括:
S300、获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
S310、按照预设的参照词确定规则,从所述树形结构源文本序列中确定参照词;
需要说明的是,本申请可以由本领域技术人员依据实际情况从树形结构源文本序列中确定参照词,本申请并不做具体限定。
S320、判断树形结构源文本序列中的任一个单词与参照词是否在同一条依存路径上;如果是,则执行步骤S330,否则执行步骤S340;
从树形结构源文本序列中的根节点到每一个不同叶子节点之间的路径称为不同的依存路径。
S330、将任一单词的绝对位置与参照词的绝对位置的差值绝对值作为该任一单词的相对位置数值;
需要说明的是,如果一单词与参照词在一条依存路径上,则以该单词的绝对位置d_j与参照词的绝对位置d_i的差值绝对值作为该单词的相对位置数值s_ij,s_ij=|d_i–d_j|。
S340、将任一单词的绝对位置与参照词的绝对位置的和值作为该任一单词的相对位置数值;
需要说明的是,如果一单词与参照词不在一条依存路径上,则以该单词的绝对位置d_j与参照词的绝对位置d_i的和值作为该单词的相对位置数值s_ij’,s_ij’=d_i+d_j。
S350、依据源文本中任一单词与参照词的左右位置关系,确定任一单词的相对位置方向;
需要说明的是,在确定相对位置数值之后,引入相对位置方向,本申请实施例是在源文本序列中判断某一单词与参照词的左右位置关系。如果某一单词在参照词的左侧,则赋予相对位置方向为负值,如果该单词在参照词语的右侧,则赋予相对位置方向为正值。
S360、组合任一单词的相对位置数值与该任一单词的相对位置方向,得到该任一单词的相对位置;
给定一文本句子序列“Bush held a talk with Sharon”,参照图7所示的位置信息示意图,以单词“talk”为参照词,“Bush”与其不在其同一条依存路径上,“Bush”的依存结构的相对位置为-2。“a”与其在同一条依存路径上,“a”的依存结构的相对位置为“-1”。
S370、将任一单词各自对应的相对位置映射为预设维数的向量,得到每个单词各自对应的相对位置向量;
S380、将所述源文本中的每个单词对应的相对位置向量输入到预先训练的机器翻译模型中;
S390、利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
S391、利用所述机器翻译模型,依据所述源文本中的每个单词对应的相对位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
可选的,本申请实施例利用所述机器翻译模型,依据所述源文本中的每个单词对应的相对位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量的过程可以为:
A1:对所述源文本中的每个单词对应的语义向量执行线性变换处理,将每个单词对应的语义向量转换成请求向量序列以及键-值对向量序列;
需要说明的是,本申请实施例中某个单词对应的语义向量R可以被三个不同的可学习参数矩阵线性变换为请求向量序列Q、以及键-值对向量序列,键-值对向量序列包含键向量序列K以及值向量序列V;
其中,请求向量序列Q、键向量序列K以及值向量序列V的维度与语义向量R的维度相同。
A2:利用所述每个单词对应的请求向量序列、键-值对向量序列中的键向量序列以及相对位置向量,得到每个单词的请求向量序列与键向量序列之间的逻辑相似度向量;
可选的,本申请可以利用公式得到每个单词的请求向量序列与键向量序列之间的逻辑相似度向量,上述公式中的qi为请求向量序列Q,K为键向量序列,S为相对位置向量,d为模型隐藏层向量的维度,与Q、K以及S的维度相同,ei为请求向量序列与键向量序列之间的逻辑相似度向量;上述公式的运算方式为将键向量序列K与SK对位相加,再将对位相加的结果做转置,得到转置矩阵,然后将请求向量序列qi与转置矩阵中的每一个元素做相似度比较,得到请求向量序列与键向量序列之间的逻辑相似度向量。
A3:对每个单词的请求向量序列与键向量序列之间的逻辑相似度向量执行归一化处理,得到每个单词的逻辑相似度向量对应的权重向量;
可选的,本申请实施例可以利用公式αi=softmax(ei)得到每个单词的逻辑相似度向量对应的权重向量,ei为请求向量序列与键向量序列之间的逻辑相似度向量,softmax为归一化函数,αi为权重向量;归一化处理后的权重向量中每一个维度的向量的数值都在0到1之间,并且每一个维度的向量的数值的和为1。
A4:利用所述每个单词的权重向量、每个单词的键-值对向量序列中的值向量序列以及相对位置向量得到每个单词各自对应的源端语义向量。
可选的,本申请实施例可以利用公式oi=αi(V+SV)得到每个单词各自对应的源端语义向量,上述公式中αi为权重向量,V为值向量序列,S为相对位置向量,上述公式的运算方式为将值向量序列V与SV对位相加,再将对位相加的结果与权重向量进行加权求和,加权求和方式为将对位相加的结果与权重向量进行点积运算,得到源端语义向量oi
S392、利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
S393、利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
需要说明的是,本申请实施例中的步骤S300、步骤S390、步骤S392-S393分别与上述实施例中的步骤S100、步骤S130、步骤S150-S160相对应,具体内容请参考上述实施例,本申请实施例不做赘述。
由于本申请实施例中依据源文本中每个单词之间的依存关系,得到树形结构源文本序列,而树形结构源文本序列能够体现出源文本的句法结构,因此,依据树形结构源文本序列的结构,计算得到的源文本中的每个单词的相对位置向量能够体现出源文本的句法结构,进而机器翻译模型结合每个单词对应的相对位置信息向量,得到每个单词对应的源端语义向量,从而在确定单词语义的过程中考虑到了源文本的句法结构对单词语义的影响,提高翻译结果的准确性。
需要说明的是,本申请技术方案中除了可以各自分别利用绝对位置向量与相对位置向量确定单词语义之外,还可以将绝对位置向量与相对位置向量两者结合起来,确定单词语义,从而能够进一步提高翻译结果的准确性,下面,本申请中还提供了如下一种文本生成方法一个实施例的流程示意图,参照图9,本实施例包括:
S400、获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
S410、将位于所述树形结构源文本序列中根结点位置的单词作为关键词;
S420、将所述树形结构源文本序列中任一单词各自距离所述关键词的跳数,作为所述树形结构源文本序列中任一单词各自对应的绝对位置;
给定一文本句子序列“Bush held a talk with Sharon”,树形结构源文本序列的结构参照图6,并参照图7所示的位置信息示意图,关键词为“held”,树形结构源文本序列中任一单词各自距离所述关键词的跳数分别为:“1”,“0”,“2”,“1”,“2”,“1”。据此,树形结构源文本序列中各单词各自对应的绝对位置序列号分别为:“Bush”的绝对位置序列号是“1”,“held”的绝对位置序列号是“0”,“a”的绝对位置序列号是“2”,“talk”的绝对位置序列号是“1”,“with”的绝对位置序列号是“2”,“Sharon”的绝对位置序列号是“1”。
S430、将任一单词各自对应的绝对位置映射为预设维数的向量,得到每个单词各自对应的绝对位置向量;
S440、将所述源文本中的每个单词对应的绝对位置向量输入到预先训练的机器翻译模型中;
S450、利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
S460、利用所述机器翻译模型,依据所述源文本中的每个单词对应的绝对位置向量以及语义向量,生成所述源文本中的每个单词各自对应的初始语义向量;
S470、按照预设的参照词确定规则,从所述树形结构源文本序列中确定参照词;
S480、判断树形结构源文本序列中的任一个单词与参照词是否在同一条依存路径上;如果是,则执行步骤S490,否则执行步骤S491;
从树形结构源文本序列中的根节点到每一个不同叶子节点之间的路径称为不同的依存路径。
S490、将任一单词的绝对位置与参照词的绝对位置的差值绝对值作为该任一单词的相对位置数值;
需要说明的是,如果一单词与参照词在一条依存路径上,则以该单词的绝对位置d_j与参照词的绝对位置d_i的差值绝对值作为该单词的相对位置数值s_ij,s_ij=|d_i–d_j|。
S491、将任一单词的绝对位置与参照词的绝对位置的和值作为该任一单词的相对位置数值;
需要说明的是,如果一单词与参照词不在一条依存路径上,则以该单词的绝对位置d_j与参照词的绝对位置d_i的和值作为该单词的相对位置数值s_ij’,s_ij’=d_i+d_j。
S492、依据源文本中任一单词与参照词的左右位置关系,确定任一单词的相对位置方向;
S493、组合任一单词的相对位置数值与该任一单词的相对位置方向,得到该任一单词的相对位置;
S494、将任一单词各自对应的相对位置映射为预设维数的向量,得到每个单词各自对应的相对位置向量;
S495、将所述源文本中的每个单词对应的相对位置向量输入到预先训练的机器翻译模型中;
S496、利用所述机器翻译模型,依据所述源文本中的每个单词对应的相对位置向量以及初始语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
S497、利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
S498、利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
由于本申请实施例中依据源文本中每个单词之间的依存关系,得到树形结构源文本序列,而树形结构源文本序列能够体现出源文本的句法结构,因此,依据树形结构源文本序列的结构,计算得到的源文本中的每个单词的绝对位置向量能够体现出源文本的句法结构,利用绝对位置向量生成所述源文本中的每个单词各自对应的初始语义向量,从而使得输入到机器翻译模型中的初始语义向量能够体现出源文本的句法结构。进而利用相对位置向量对初始语义向量做调整,进一步得到源文本中的每个单词各自对应的源端语义向量,使得源端语义向量能够更加充分体现出源文本的句法结构,从而在确定单词语义的过程中充分考虑到了源文本的句法结构对单词语义的影响,进一步提高翻译结果的准确性。
需要说明的是,将本申请实施例中公开的上述方案应用在汉英机器翻译任务中进行测试,测试结果如下表1:
表1
由表1可知,组合序列结构为本申请说明书中提到的依据文本句子序列中各个单词的组合序列结构确定单词对应的位置信息的方式,而树形结构源文本序列结构则是本申请实施例公开的依据树形结构源文本序列确定单词对应的位置信息的方案,“×”表示不采用,“√”表示采用,采用了本申请中的依据树形结构源文本序列确定单词对应的绝对位置信息表示方式之后,BLEU数值中的第二行35.43比第一行28.33提高了7.1,采用了本申请中的依据树形结构源文本序列确定单词对应的绝对位置信息表示方式之后,BLEU数值中的第四行44.84比第三行44.31提高了0.53,由于一般提高超过0.5个点即是显著提高,基于上述实验数据可以看出,本申请中的技术方案能够明显翻译结果的准确性。
下面,本申请中还提供了如下一种机器翻译模型的训练过程的流程示意图,参照图10,本实施例包括:
S500、获取样本集中的训练样本的样本文本序列、样本文本中每个单词对应的位置向量以及参考输出文本序列;
具体地,样本集是用于进行模型训练时需要的大量的训练数据的集合。样本集中包括各个样本对应的样本文本序列、样本文本中每个单词对应的位置向量以及参考输出文本序列。
S510、将所述样本集中的训练样本的样本文本序列以及样本文本中每个单词对应的位置向量输入到机器翻译模型中进行训练,得到预测输出文本序列;
具体地,将所述样本集中的训练样本的样本文本序列以及样本文本中每个单词对应的位置向量输入到机器翻译模型中,利用机器翻译模型执行上述文本生成方法,得到预测输出文本序列。
S520、利用所述参考输出文本序列以及所述预测输出文本序列得到所述机器翻译模型的目标函数;
具体的,训练过程中可朝着减小参考输出文本序列与预测输出文本序列之间的差异的方向,不断调整模型参数。这样,通过不断的输入样本集,得到预测输出文本序列,根据参考输出文本序列与预测输出文本序列之间的差异调整模型参数,以训练机器翻译模型。
S530、将所述目标函数最大化时的模型参数作为所述机器翻译模型的模型参数,返回执行步骤S510继续训练,直至满足训练停止条件时停止训练。
其中,训练停止条件是结束模型训练的条件,训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的机器翻译模型的性能指标达到预设指标等,本申请不做具体限定。具体地,对于每个样本序列对应的目标函数,取目标函数最大化时的模型参数作为机器翻译模型的模型参数,然后在该模型参数的基础上对下一个样本集进行预测,以对模型参数继续进行训练,直至满足训练停止条件时停止训练。
通过利用本申请实施例公开的上述模型训练方法能够得到准确的机器翻译模型,训练得到的模型能够得到准确的翻译结果。
对应本申请的一种文本生成方法,本申请还提供了一种文本生成装置。如图11所示,其示出了本申请一种文本生成装置的一种组成结构示意图,该装置可以包括:
树形结构源文本序列获取单元100,用于获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
位置向量计算单元110,用于依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置;
位置向量输入单元120,用于将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;
语义编码单元130,用于利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
源端语义向量生成单元140,用于利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
语义解码单元150,用于利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
目标文本生成单元160,用于利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
可选的,位置向量计算单元包括:
关键词确定单元,用于将位于所述树形结构源文本序列中根结点位置的单词作为关键词;
绝对位置确定单元,用于将所述树形结构源文本序列中任一单词各自距离所述关键词的跳数,作为所述树形结构源文本序列中任一单词各自对应的绝对位置;
绝对位置映射单元,用于将任一单词各自对应的绝对位置映射为预设维数的向量,得到每个单词各自对应的绝对位置向量。
可选的,位置向量计算单元包括:
参照词确定单元,用于按照预设的参照词确定规则,从所述树形结构源文本序列中确定参照词;
第一相对位置数值确定单元,用于在所述树形结构源文本序列中的任一个单词与参照词在同一条依存路径上的情况下,将任一单词的绝对位置与参照词的绝对位置的差值绝对值作为该任一单词的相对位置数值;
相对位置方向确定单元,用于依据源文本中任一单词与参照词的左右位置关系,确定任一单词的相对位置方向;
第一相对位置确定单元,用于组合任一单词的相对位置数值与该任一单词的相对位置方向,得到该任一单词的相对位置;
第一相对位置映射单元,用于将任一单词各自对应的相对位置映射为预设维数的向量,得到每个单词各自对应的相对位置向量。
可选的,位置向量计算单元包括:
参照词确定单元,用于按照预设的参照词确定规则,从所述树形结构源文本序列中确定参照词;
第二相对位置数值确定单元,用于在所述树形结构源文本序列中的任一个单词与参照词不在同一条依存路径上的情况下,将任一单词的绝对位置与参照词的绝对位置的和值作为该任一单词的相对位置数值;
相对位置方向确定单元,用于依据源文本中任一单词与参照词的左右位置关系,确定任一单词的相对位置方向;
第二相对位置确定单元,用于组合任一单词的相对位置数值与该任一单词的相对位置方向,得到该任一单词的相对位置;
第二相对位置映射单元,用于将任一单词各自对应的相对位置映射为预设维数的向量,得到每个单词各自对应的相对位置向量。
可选的,所述源端语义向量生成单元包括:
第一源端语义向量生成子单元,用于利用所述机器翻译模型,对所述源文本中的每个单词对应的绝对位置向量和语义向量执行对位相加操作,将对位相加操作得到的结果作为所述源文本中的每个单词对应的源端语义向量。
可选的,所述源端语义向量生成单元包括:
线性变换处理单元,用于对所述源文本中的每个单词对应的语义向量执行线性变换处理,将每个单词对应的语义向量转换成请求向量序列以及键-值对向量序列;
逻辑相似度向量确定单元,用于利用所述每个单词对应的请求向量序列、键-值对向量序列中的键向量序列以及相对位置向量,得到每个单词的请求向量序列与键向量序列之间的逻辑相似度向量;
归一化单元,用于对每个单词的请求向量序列与键向量序列之间的逻辑相似度向量执行归一化处理,得到每个单词的逻辑相似度向量对应的权重向量;
第二源端语义向量生成子单元,用于利用所述每个单词的权重向量、每个单词的键-值对向量序列中的值向量序列以及相对位置向量得到每个单词各自对应的源端语义向量。
本申请中的文本生成装置还包括:机器翻译模型训练单元,所述机器翻译模型训练单元具体用于:
获取样本集中的训练样本的样本文本序列、样本文本中每个单词对应的位置向量以及参考输出文本序列;
将所述样本集中的训练样本的样本文本序列以及样本文本中每个单词对应的位置向量输入到机器翻译模型中进行训练,得到预测输出文本序列;
利用所述参考输出文本序列以及所述预测输出文本序列得到所述机器翻译模型的目标函数;
将所述目标函数最大化时的模型参数作为所述机器翻译模型的模型参数,返回所述将所述样本集中的训练样本的样本文本序列以及样本文本中每个单词对应的位置向量输入到机器翻译模型中进行训练,得到预测输出文本序列的步骤继续训练,直至满足训练停止条件时停止训练。
另一方面,本申请还提供了一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上所述的文本生成方法。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的文本生成方法可以应用于以上任意领域。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文本生成方法,其特征在于,所述方法包括:
获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置;
将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;
利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
2.根据权利要求1所述的方法,其特征在于,所述依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量的过程包括:
将位于所述树形结构源文本序列中根结点位置的单词作为关键词;
将所述树形结构源文本序列中任一单词各自距离所述关键词的跳数,作为所述树形结构源文本序列中任一单词各自对应的绝对位置;
将任一单词各自对应的绝对位置映射为预设维数的向量,得到每个单词各自对应的绝对位置向量。
3.根据权利要求2所述的方法,其特征在于,所述依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量的过程包括:
按照预设的参照词确定规则,从所述树形结构源文本序列中确定参照词;
在所述树形结构源文本序列中的任一个单词与参照词在同一条依存路径上的情况下,将任一单词的绝对位置与参照词的绝对位置的差值绝对值作为该任一单词的相对位置数值;
依据源文本中任一单词与参照词的左右位置关系,确定任一单词的相对位置方向;
组合任一单词的相对位置数值与该任一单词的相对位置方向,得到该任一单词的相对位置;
将任一单词各自对应的相对位置映射为预设维数的向量,得到每个单词各自对应的相对位置向量。
4.根据权利要求2所述的方法,其特征在于,所述依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量的过程包括:
按照预设的参照词确定规则,从所述树形结构源文本序列中确定参照词;
在所述树形结构源文本序列中的任一个单词与参照词不在同一条依存路径上的情况下,将任一单词的绝对位置与参照词的绝对位置的和值作为该任一单词的相对位置数值;
依据源文本中任一单词与参照词的左右位置关系,确定任一单词的相对位置方向;
组合任一单词的相对位置数值与该任一单词的相对位置方向,得到该任一单词的相对位置;
将任一单词各自对应的相对位置映射为预设维数的向量,得到每个单词各自对应的相对位置向量。
5.根据权利要求2所述的方法,其特征在于,所述利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量的过程包括:
利用所述机器翻译模型,对所述源文本中的每个单词对应的绝对位置向量和语义向量执行对位相加操作,将对位相加操作得到的结果作为所述源文本中的每个单词对应的源端语义向量。
6.根据权利要求3或4所述的方法,其特征在于,所述利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量的过程包括:
对所述源文本中的每个单词对应的语义向量执行线性变换处理,将每个单词对应的语义向量转换成请求向量序列以及键-值对向量序列;
利用所述每个单词对应的请求向量序列、键-值对向量序列中的键向量序列以及相对位置向量,得到每个单词的请求向量序列与键向量序列之间的逻辑相似度向量;
对每个单词的请求向量序列与键向量序列之间的逻辑相似度向量执行归一化处理,得到每个单词的逻辑相似度向量对应的权重向量;
利用所述每个单词的权重向量、每个单词的键-值对向量序列中的值向量序列以及相对位置向量得到每个单词各自对应的源端语义向量。
7.根据权利要求1所述的方法,其特征在于,所述所述机器翻译模型的训练过程包括:
获取样本集中的训练样本的样本文本序列、样本文本中每个单词对应的位置向量以及参考输出文本序列;
将所述样本集中的训练样本的样本文本序列以及样本文本中每个单词对应的位置向量输入到机器翻译模型中进行训练,得到预测输出文本序列;
利用所述参考输出文本序列以及所述预测输出文本序列得到所述机器翻译模型的目标函数;
将所述目标函数最大化时的模型参数作为所述机器翻译模型的模型参数,返回所述将所述样本集中的训练样本的样本文本序列以及样本文本中每个单词对应的位置向量输入到机器翻译模型中进行训练,得到预测输出文本序列的步骤继续训练,直至满足训练停止条件时停止训练。
8.一种文本生成装置,其特征在于,所述装置包括:
树形结构源文本序列获取单元,用于获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
位置向量计算单元,用于依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置;
位置向量输入单元,用于将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;
语义编码单元,用于利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
源端语义向量生成单元,用于利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
语义解码单元,用于利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
目标文本生成单元,用于利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
9.一种计算机设备,其特征在于,所述计算机设备包括:
处理器和存储器;
所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器用于存储所述程序,所述程序至少用于:
获取源文本,依据源文本中每个单词之间的依存关系,得到树形结构源文本序列;
依据所述树形结构源文本序列的结构,计算所述源文本中的每个单词在所述树形结构源文本序列中的位置向量,所述位置向量表示了源文本中的单词在所述树形结构源文本序列中的位置;
将所述源文本中的每个单词对应的位置向量输入到预先训练的机器翻译模型中;
利用所述机器翻译模型对所述源文本中的每个单词进行语义编码,得到所述源文本中的每个单词各自对应的语义向量;
利用所述机器翻译模型,依据所述源文本中的每个单词对应的位置向量以及语义向量,生成所述源文本中的每个单词各自对应的源端语义向量;
利用所述机器翻译模型对所述源文本中的每个单词各自对应的源端语义向量进行语义解码,得到所述源文本中的每个单词各自对应的目标单词;
利用所述机器翻译模型确定所述源文本中的每个单词各自对应的目标单词的组合顺序,并依据所述组合顺序对所述目标单词进行拼接,生成所述源文本对应的目标文本。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至7任一项所述的文本生成方法。
CN201910775529.3A 2019-08-21 2019-08-21 一种文本生成方法、装置、计算机设备及存储介质 Active CN110457718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910775529.3A CN110457718B (zh) 2019-08-21 2019-08-21 一种文本生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910775529.3A CN110457718B (zh) 2019-08-21 2019-08-21 一种文本生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110457718A true CN110457718A (zh) 2019-11-15
CN110457718B CN110457718B (zh) 2020-11-24

Family

ID=68488408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910775529.3A Active CN110457718B (zh) 2019-08-21 2019-08-21 一种文本生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110457718B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027312A (zh) * 2019-12-12 2020-04-17 中金智汇科技有限责任公司 文本扩充方法、装置、电子设备及可读存储介质
CN111783455A (zh) * 2020-07-13 2020-10-16 网易(杭州)网络有限公司 文本生成模型的训练方法及装置、文本生成方法及装置
WO2021139344A1 (zh) * 2020-06-16 2021-07-15 平安科技(深圳)有限公司 基于人工智能的文本生成方法、装置、计算机设备和介质
EP3855339A1 (en) * 2020-01-23 2021-07-28 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and apparatus for generating text based on semantic representation
CN113468883A (zh) * 2020-03-30 2021-10-01 株式会社理光 位置信息的融合方法、装置及计算机可读存储介质
WO2021233112A1 (zh) * 2020-05-20 2021-11-25 腾讯科技(深圳)有限公司 基于多模态机器学习的翻译方法、装置、设备及存储介质
WO2023067743A1 (ja) * 2021-10-20 2023-04-27 日本電信電話株式会社 学習装置、学習方法及びプログラム
CN111783455B (zh) * 2020-07-13 2024-06-04 网易(杭州)网络有限公司 文本生成模型的训练方法及装置、文本生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002017128A1 (en) * 2000-08-24 2002-02-28 Science Applications International Corporation Word sense disambiguation
CN104699695A (zh) * 2013-12-05 2015-06-10 中国科学院软件研究所 一种基于多特征语义树核的关系抽取方法和信息检索方法
CN107729326A (zh) * 2017-09-25 2018-02-23 沈阳航空航天大学 基于Multi‑BiRNN编码的神经机器翻译方法
CN108681539A (zh) * 2018-05-07 2018-10-19 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN109543195A (zh) * 2018-11-19 2019-03-29 腾讯科技(深圳)有限公司 一种文本翻译的方法、信息处理的方法以及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002017128A1 (en) * 2000-08-24 2002-02-28 Science Applications International Corporation Word sense disambiguation
CN104699695A (zh) * 2013-12-05 2015-06-10 中国科学院软件研究所 一种基于多特征语义树核的关系抽取方法和信息检索方法
CN107729326A (zh) * 2017-09-25 2018-02-23 沈阳航空航天大学 基于Multi‑BiRNN编码的神经机器翻译方法
CN108681539A (zh) * 2018-05-07 2018-10-19 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN109543195A (zh) * 2018-11-19 2019-03-29 腾讯科技(深圳)有限公司 一种文本翻译的方法、信息处理的方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
傅爱平: "广义依存关系和汉语自动分析", 《自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027312B (zh) * 2019-12-12 2024-04-19 中金智汇科技有限责任公司 文本扩充方法、装置、电子设备及可读存储介质
CN111027312A (zh) * 2019-12-12 2020-04-17 中金智汇科技有限责任公司 文本扩充方法、装置、电子设备及可读存储介质
KR102465160B1 (ko) 2020-01-23 2022-11-09 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 의미적 표현에 기반한 텍스트 생성 방법 및 장치
EP3855339A1 (en) * 2020-01-23 2021-07-28 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and apparatus for generating text based on semantic representation
KR20210095578A (ko) * 2020-01-23 2021-08-02 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 의미적 표현에 기반한 텍스트 생성 방법 및 장치
US11461549B2 (en) 2020-01-23 2022-10-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating text based on semantic representation, and medium
CN113468883B (zh) * 2020-03-30 2024-04-30 株式会社理光 位置信息的融合方法、装置及计算机可读存储介质
CN113468883A (zh) * 2020-03-30 2021-10-01 株式会社理光 位置信息的融合方法、装置及计算机可读存储介质
WO2021233112A1 (zh) * 2020-05-20 2021-11-25 腾讯科技(深圳)有限公司 基于多模态机器学习的翻译方法、装置、设备及存储介质
WO2021139344A1 (zh) * 2020-06-16 2021-07-15 平安科技(深圳)有限公司 基于人工智能的文本生成方法、装置、计算机设备和介质
CN111783455A (zh) * 2020-07-13 2020-10-16 网易(杭州)网络有限公司 文本生成模型的训练方法及装置、文本生成方法及装置
CN111783455B (zh) * 2020-07-13 2024-06-04 网易(杭州)网络有限公司 文本生成模型的训练方法及装置、文本生成方法及装置
WO2023067743A1 (ja) * 2021-10-20 2023-04-27 日本電信電話株式会社 学習装置、学習方法及びプログラム

Also Published As

Publication number Publication date
CN110457718B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN110457718A (zh) 一种文本生成方法、装置、计算机设备及存储介质
WO2021047286A1 (zh) 文本处理模型的训练方法、文本处理方法及装置
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
Bamman et al. An annotated dataset of coreference in English literature
Seo et al. Query-reduction networks for question answering
Yao et al. An improved LSTM structure for natural language processing
CN112288075B (zh) 一种数据处理方法及相关设备
CN110532571A (zh) 文本处理方法及相关装置
CN110444199A (zh) 一种语音关键词识别方法、装置、终端及服务器
Abdallah et al. Automated question-answer medical model based on deep learning technology
CN110263177A (zh) 用于事件预测的知识图构建方法与事件预测方法
CN109597988A (zh) 跨语言的词汇义原预测方法、装置与电子设备
CN112052668A (zh) 地址文本识别模型的训练方法、地址的预测方法及装置
WO2023284716A1 (zh) 一种神经网络搜索方法及相关设备
CN109635197A (zh) 搜索方法、装置、电子设备及存储介质
CN113505193A (zh) 一种数据处理方法及相关设备
CN114648032B (zh) 语义理解模型的训练方法、装置和计算机设备
CN110472239A (zh) 实体链接模型的训练方法、装置及电子设备
Ahmed et al. Conversational ai: An explication of few-shot learning problem in transformers-based chatbot systems
CN110502613A (zh) 一种模型训练方法、智能检索方法、装置和存储介质
CN112132281B (zh) 一种基于人工智能的模型训练方法、装置、服务器及介质
Khan et al. Towards achieving machine comprehension using deep learning on non-GPU machines
Cree et al. Computational models of semantic memory
Singh et al. Encoder-decoder architectures for generating questions
CN113705251A (zh) 机器翻译模型的训练方法、语言翻译方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant