CN113822080A - 翻译、对话翻译模型的处理方法、装置和计算机设备 - Google Patents
翻译、对话翻译模型的处理方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN113822080A CN113822080A CN202110839034.XA CN202110839034A CN113822080A CN 113822080 A CN113822080 A CN 113822080A CN 202110839034 A CN202110839034 A CN 202110839034A CN 113822080 A CN113822080 A CN 113822080A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- vector
- data
- conversation
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 238
- 238000003672 processing method Methods 0.000 title description 17
- 238000000034 method Methods 0.000 claims abstract description 84
- 239000013598 vector Substances 0.000 claims description 471
- 238000012545 processing Methods 0.000 claims description 111
- 238000006243 chemical reaction Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 24
- 230000009466 transformation Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 238000013507 mapping Methods 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种翻译方法、装置和计算机设备。所述方法包括:获取源语种的待翻译对话数据和历史对话数据;确定所述待翻译对话数据与所述历史对话数据间的上下文关系;基于所述待翻译对话数据和所述历史对话数据,确定所述源语种发言对象的对话表达特征;根据所述上下文关系和所述对话表达特征进行对话翻译,得到目标语种的对话数据。采用本方法能够提高对话翻译的准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种翻译、对话翻译模型的处理方法、装置和计算机设备。
背景技术
随着人工智能技术的发展,深度学习在自然语言处理任务中都取得了飞跃性的发展。随着国际交流的日益密切,大规模的跨语种交流场景日益增多,这些场景翻译任务量十分巨大,机器翻译技术的诞生,为类似场景的解决方案提供了理论依据与基础。
传统的方案中,通常采用平行句样本训练翻译模型,然后将翻译模型应用到对话翻译的场景中。然而,该训练方式所得到的翻译模型在执行对话翻译任务时,无法将翻译任务与产生待翻译语句的实际对话场景相结合,导致翻译结果不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高对话翻译准确性的翻译、对话翻译模型的处理方法、装置和计算机设备。
一种翻译方法,其特征在于,所述方法包括:
获取源语种的待翻译对话数据和历史对话数据;
确定所述待翻译对话数据与所述历史对话数据间的上下文关系;
基于所述待翻译对话数据和所述历史对话数据,确定所述源语种发言对象的对话表达特征;
根据所述上下文关系和所述对话表达特征进行对话翻译,得到目标语种的对话数据。
在一个实施例中,所述对包括上下文关系和对话表达特征的所述编码向量依次进行掩模遮挡处理、交叉注意力处理和线性转换,得到输出向量包括:
对所述编码向量中的目标向量之后的其他向量进行掩模遮挡处理,得到第一掩模隐状态向量;
对所述第一掩模隐状态向量进行交叉自注意力处理,得到第三隐状态向量;
对所述第三隐状态向量进行正则化处理,得到第三正则化向量;
融合所述第三正则化向量和所述第一掩模隐状态向量,得到融合特征;
对所述融合特征进行线性转换,得到输出向量。
在一个实施例中,所述通过所述解码器中的第i解码层,对第i-1解码层的输出向量依次进行掩模遮挡处理、交叉注意力处理和线性转换包括:
对所述第i-1解码层输出向量进行掩模遮挡处理,得到第二掩模隐状态向量;
对所述第二掩模隐状态向量进行交叉自注意力处理,得到第四隐状态向量;
对所述第四隐状态向量进行正则化处理,得到第四正则化向量;
将所述第四正则化向量与所述第二掩模隐状态向量进行融合,得到所述第i解码层的输出向量;
所述基于所述第i解码层的输出向量和变换矩阵,确定目标语种的对话数据包括:
当i等于N时,获取所述第N解码层的输出向量和变换矩阵,基于所述第N解码层的输出向量和所述变换矩阵预测出目标语种的对话数据。
一种翻译装置,所述装置包括:
数据获取模块,用于获取源语种的待翻译对话数据和历史对话数据;
关系确定模块,用于确定所述待翻译对话数据与所述历史对话数据间的上下文关系;基于所述待翻译对话数据和所述历史对话数据,确定所述源语种发言对象的对话表达特征;
翻译模块,用于根据所述上下文关系和所述对话表达特征进行对话翻译,得到目标语种的对话数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取源语种的待翻译对话数据和历史对话数据;
确定所述待翻译对话数据与所述历史对话数据间的上下文关系;
基于所述待翻译对话数据和所述历史对话数据,确定所述源语种发言对象的对话表达特征;
根据所述上下文关系和所述对话表达特征进行对话翻译,得到目标语种的对话数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取源语种的待翻译对话数据和历史对话数据;
确定所述待翻译对话数据与所述历史对话数据间的上下文关系;
基于所述待翻译对话数据和所述历史对话数据,确定所述源语种发言对象的对话表达特征;
根据所述上下文关系和所述对话表达特征进行对话翻译,得到目标语种的对话数据。
一种计算机程序,所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以下步骤:
获取源语种的待翻译对话数据和历史对话数据;
确定所述待翻译对话数据与所述历史对话数据间的上下文关系;
基于所述待翻译对话数据和所述历史对话数据,确定所述源语种发言对象的对话表达特征;
根据所述上下文关系和所述对话表达特征进行对话翻译,得到目标语种的对话数据。
上述翻译方法、装置和计算机设备,在获取到源语种的待翻译对话数据和历史对话数据之后,确定待翻译对话数据与历史对话数据间的上下文关系,以及确定源语种发言对象的对话表达特征;从而在根据上下文关系和对话表达特征进行对话翻译时,可以充分考虑待翻译对话所属的对话场景,使得翻译所得到的目标语种的对话数据更加准确。
一种对话翻译模型的处理方法,其特征在于,所述方法包括:
获取目标对话样本和历史对话样本;
通过对话翻译模型,确定所述目标对话样本和所述历史对话样本之间的上下文关系,以及基于所述目标对话样本和所述历史对话样本确定所述目标对话样本的发言对象的对话表达特征;
基于所述上下文关系、关系标签、所述对话表达特征和特征标签,确定损失值;
基于所述损失值对所述对话翻译模型进行参数调整。
一种对话翻译模型的处理装置,所述装置包括:
样本获取模块,用于获取目标对话样本和历史对话样本;
样本关系确定模块,用于通过对话翻译模型,确定所述目标对话样本和所述历史对话样本之间的上下文关系,以及基于所述目标对话样本和所述历史对话样本确定所述目标对话样本的发言对象的对话表达特征;
损失值确定模块,用于基于所述上下文关系、关系标签、所述对话表达特征和特征标签,确定损失值;
参数调整模块,用于基于所述损失值对所述对话翻译模型进行参数调整。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标对话样本和历史对话样本;
通过对话翻译模型,确定所述目标对话样本和所述历史对话样本之间的上下文关系,以及基于所述目标对话样本和所述历史对话样本确定所述目标对话样本的发言对象的对话表达特征;
基于所述上下文关系、关系标签、所述对话表达特征和特征标签,确定损失值;
基于所述损失值对所述对话翻译模型进行参数调整。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标对话样本和历史对话样本;
通过对话翻译模型,确定所述目标对话样本和所述历史对话样本之间的上下文关系,以及基于所述目标对话样本和所述历史对话样本确定所述目标对话样本的发言对象的对话表达特征;
基于所述上下文关系、关系标签、所述对话表达特征和特征标签,确定损失值;
基于所述损失值对所述对话翻译模型进行参数调整。
一种计算机程序,所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以下步骤:
获取目标对话样本和历史对话样本;
通过对话翻译模型,确定所述目标对话样本和所述历史对话样本之间的上下文关系,以及基于所述目标对话样本和所述历史对话样本确定所述目标对话样本的发言对象的对话表达特征;
基于所述上下文关系、关系标签、所述对话表达特征和特征标签,确定损失值;
基于所述损失值对所述对话翻译模型进行参数调整。
上述对话翻译模型的处理方法、装置和计算机设备,通过获取目标对话样本和历史对话样本,通过对话翻译模型,确定目标对话样本和历史对话样本之间的上下文关系,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征,基于上下文关系、关系标签、对话表达特征和特征标签,确定损失值,基于损失值对对话翻译模型进行参数调整,从而使得训练好的对话翻译模型具有分析待翻译对话数据对应的上下文关系和对话表达特征的能力,进而在基于该训练好的对话翻译模型执行对话翻译任务时,可以得到更加准确的翻译结果。
附图说明
图1为一个实施例中翻译方法的应用环境图;
图2为一个实施例中翻译方法的流程示意图;
图3为另一个实施例中翻译方法的流程示意图;
图4为一个实施例中对话翻译模型的结构示意图;
图5为一个实施例中对话翻译模型的处理方法的流程示意图;
图6为另一个实施例中对话翻译模型的处理方法的流程示意图;
图7为一个实施例中翻译装置的结构框图;
图8为另一个实施例中翻译装置的结构框图;
图9为一个实施例中对话翻译模型的处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请提供的翻译方法、对话翻译模型的处理方法涉及人工智能的机器学习等技术,具体可以应用于如图1所示的应用环境中。其中,终端102、终端106分别通过网络与服务器104进行通信,其中,当以终端102为源语言端时,终端106则为目标语言端,当以终端106为源语言端时,终端102则为目标语言端,源语言端对话时采用的语种为源语种,目标语言端对话时采用的语种为目标语种,源语种和目标语种不同,终端102和终端106均采用各自的语种的语言通过服务器104与对方进行对话。上述对话翻译、对话翻译模型的处理方法可以单独执行于终端(终端102或终端106)或服务器104,也可以通过终端(终端102或终端106)和服务器104之间的交互来实现。以翻译方法执行于服务器104为例进行说明,服务器104获取源语种的待翻译对话数据和历史对话数据;确定待翻译对话数据与历史对话数据间的上下文关系;基于待翻译对话数据和历史对话数据,确定源语种发言对象的对话表达特征;根据上下文关系和对话表达特征进行对话翻译,得到目标语种的对话数据。以对话翻译模型的处理方法执行于服务器104为例进行说明,服务器104获取目标对话样本和历史对话样本;通过对话翻译模型,确定目标对话样本和历史对话样本之间的上下文关系,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征;基于上下文关系、关系标签、对话表达特征和特征标签,确定损失值;基于损失值对对话翻译模型进行参数调整。
其中,终端102和终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是独立的物理服务器,也可以是区块链系统中的多个服务节点所组成的服务器集群,各服务节点之间形成组成点对点(P2P,PeerTo Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission ControlProtocol)协议之上的应用层协议。
此外,服务器104还可以是多个物理服务器构成的服务器集群,可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个实施例中,如图2所示,提供了一种翻译方法,以该方法应用于图1中的计算机设备(终端或服务器)为例进行说明,包括以下步骤:
S202,获取源语种的待翻译对话数据和历史对话数据。
其中,源语种是待翻译对话数据所属的语种,可以理解的是,本申请实施例中,通过翻译方法实现的是,将基于源语种的待翻译对话数据翻译为目标语种的对话数据,目标语种是与源语种不同的语种,语种具体可是汉语、英语、法语、西班牙语、俄语、阿拉伯语等,也可以是普通话、方言等。
例如,源语种为汉语,目标语种为英语;源语种为英语,目标语种为法语等。又例如,源语种为普通话,目标语种为四川话;源语种为湖南话,目标语种为普通话。
待翻译对话数据是双语对话过程中,产生的需要进行翻译的对话数据。历史对话数据是双语对话过程中,在待翻译对话数据之前所产生的对话数据。历史对话数据所属语种与待翻译对话数据所属语种相同,历史对话数据包括直接产生的基于源语种的对话数据,以及对产生的基于目标语种的原始对话数据进行翻译,所得到的基于源语种的翻译对话数据。
例如,双语对话过程是采用汉语和英语进行对话的过程,用户A通过图1中的终端102与终端106所对应的用户B进行对话,用户A采用汉语、用户B采用英语,二者轮流以各自的语种产生对话数据,得到u-1句对话数据,u为奇数,其中,对话数据序列为终端102产生的基于汉语的对话数据,对话数据序列为终端106产生的基于英语的对话数据,对话数据序列 为将对话数据序列翻译为英语所得到翻译对话数据序列,对话数据序列为将对话数据序列翻译为汉语所得到的翻译对话数据序列,若用户A产生第u句对话数据Xu,则对话数据Xu即为基于汉语的待翻译对话数据,则该待翻译对话数据所对应的历史对话数据为对话数据序列CXu={X1,X2,X3,……,Xu-2,Xu-1},对待翻译对话数据Xu进行翻译,得到基于英语的对话数据Yu;若用户B产生第u+1句对话数据Yu+1,则对话数据Yu+1即为基于英语的待翻译对话数据,则该待翻译对话数据所对应的历史对话数据为对话数据序列CYu={Y1,Y2,Y3,……,Yu-2,Yu-1,Yu},对待翻译对话数据Yu+1进行翻译,得到基于汉语的对话数据Xu+1。
在一个实施例中,计算机设备直接获取源语种发言对象所输入的对话文本,将获取的对话文本作为待翻译对话数据,并获取该待翻译对话数据所对应的历史对话数据。
例如,源语种发言对象和目标源语种发言对象所使用的终端上均安装有社交应用,源语种发言对象和目标语种发言对象之间通过社交应用进行聊天,源语种发言对象通过社交应用的聊天界面的文本输入框输入对话文本,则终端获取通过对话输入框输入的对话文本,并将所输入的对话文本和该对话文本所属对话的对话标识发送至服务器,服务器将所接收到的对话文本确定为待翻译对话数据,基于所接收到的对话标识查找待翻译对话数据所对应的历史对话数据。
在一个实施例中,计算机设备可以获取源语种发言对象所输入的对话语音,并对对话语音进行语音识别得到识别文本,并将得到的识别文本作为待翻译对话数据,并获取该待翻译对话数据所对应的历史对话数据。
例如,源语种发言对象和目标源语种发言对象所使用的终端上均安装有社交应用,源语种发言对象和目标语种发言对象之间通过社交应用进行聊天,源语种发言对象触发社交应用的聊天界面的语音输入控件,终端响应于对语音输入控件的触发操作,启动语音采集装置,通过语音采集装置采集源语种发言对象所输入的对话语音,并将所采集的对话语音和该对话语音所属对话的对话标识发送至服务器,服务器通过预先训练的语音识别模型对接收的对话语音进行识别,得到识别文本,并将识别文本确定为待翻译对话数据,并基于所接收到的对话标识查找待翻译对话数据所对应的历史对话数据,其中所查找到的历史对话数据包括对基于源语种的语音对话数据进行翻译所得到的文本对话数据,以及对基于目标语种的原始对话数据进行翻译,所得到的基于源语种的翻译对话数据。
S204,确定待翻译对话数据与历史对话数据间的上下文关系。
其中,上下文关系用于表示待翻译对话数据与历史对话数据之间的连贯性,上下文关系是词、短语、语句、语段或篇章内部的前后关系,用于帮助理解词、短语、句子等语言成分的特定意义。
本申请实施例中待翻译对话数据与历史对话数据间的上下文关系,是指待翻译对话数据中的词、短语、句子,与历史对话数据中的词、短语、语句之间的前后关系。可以理解的是,在对话翻译时,利用待翻译对话数据与历史对话数据间的上下文关系可以帮助理解待翻译对话数据中词、短语、句子等语言成分的特定意义,从更能够对待翻译对话数据进行更加准确的翻译。
在一个实施例中,计算机设备在获取到待翻译对话数据和历史对话数据之后,对待翻译对话数据和历史对话数据进行向量化处理,得到对话词向量,并将对话词向量输入训练好的对话翻译模型中,通过对话翻译模型确定出待翻译对话数据与历史对话数据间的上下文关系。
其中,对话翻译模型为神经网络模型,具体包括编码器和解码器,该对话翻译模型是采用基于源语种和目标语种的双语对话数据,以及基于源语种的单语对话数据,对翻译模型进行多任务训练而得到的,其中多任务包括主任务和辅助任务,主任务为翻译任务,辅助任务包括判断是否存在上下文关系的分类任务。
通过编码器可以对输入对话翻译模型的对话词向量进行分析,从而确定出待翻译对话数据与历史对话数据间的上下文关系。
S206,基于待翻译对话数据和历史对话数据,确定源语种发言对象的对话表达特征。
其中,对话表达特征用于表示发出待翻译对话数据的对话方的对话特点,即源语种发言对象在语言表达时的语言表达特点,具体可以是语言组织方式,语言的组织方式包括用词选择、句子格式、语序安排中的至少一种。
在用词选择方面,比如同义词“疼”和“痛”,部分发言对象会选择“疼”,如“我的腿有点疼”,另一部分发言对象会选择“痛”,如“我的腿有点痛”;在句子格式方面,比如有一些句子部分发言对象选择用“把”,如“我明天去把他们找回来”,部分发言对象却没有用“把”,如“我明天去找他们回来”;在语序安排方面,比如表达同一意思,不同发言对象所使用的语序却不相同,如部分发言对象使用“外面好大的雨”来形容外面在下大雨,而部分发言对象使用“外面雨好大”来形容外面在下大雨。
在一个实施例中,计算机设备在获取到待翻译对话数据和历史对话数据之后,对待翻译对话数据和历史对话数据进行向量化处理,得到对话词向量,并将对话词向量输入训练好的对话翻译模型中,通过对话翻译模型确定出源语种发言对象的对话表达特征。
其中,对话翻译模型为神经网络模型,具体包括编码器和解码器,该对话翻译模型是采用基于源语种和目标语种的双语对话数据,以及基于源语种的单语对话数据,对翻译模型进行多任务训练而得到的,其中多任务包括主任务和辅助任务,主任务为翻译任务,辅助任务包括判断是否为目标发言对象的分类任务。通过编码器可以对输入对话翻译模型的对话词向量进行分析,从而确定出源语种发言对象的对话表达特征。
S208,根据上下文关系和对话表达特征进行对话翻译,得到目标语种的对话数据。
其中,目标语种是与源语种不同的语种,例如,源语种为汉语,目标语种为英语;源语种为英语,目标语种为法语等。又例如,源语种为普通话,目标语种为四川话;源语种为湖南话,目标语种为普通话。
在一个实施例中,计算机设备在得到上下文关系和对话表达者特征之后,根据上下文关系和对话表达者特征对待翻译对话语句进行编码,得到编码向量,并对编码向量进行解码,得到解码结果,并将解码结果确定为目标语种的对话数据。
在一个实施例中,计算机设备在通过对话翻译模型得到上下文关系和对话表达者特征之后,通过对话翻译模型根据上下文关系和对话表达者特征对待翻译对话数据进行编码,得到编码向量,并通过对话翻译模型对编码向量进行解码,得到解码结果,并将解码结果确定为目标语种的对话数据。
其中,对话翻译模型为神经网络模型,具体包括编码器和解码器,该对话翻译模型是采用基于源语种和目标语种的双语对话数据,以及基于源语种的单语对话数据,对翻译模型进行多任务训练而得到的,其中多任务包括主任务和辅助任务,主任务为翻译任务,辅助任务包括判断是否存在上下文关系的分类任务,以及判断是否为目标发言对象的分类任务。通过编码器可以对输入对话翻译模型的对话词向量进行分析,从而确定出上下文关系和对话表达者特征,并通过编码器根据上下文关系和对话表达者特征对对话词向量进行编码,从而得到编码向量,然后采用解码器对编码向量进行解码,得到解码结果,并将解码结果确定为目标语种的对话数据。
上述翻译方法中,计算机设备在获取到源语种的待翻译对话数据和历史对话数据之后,确定待翻译对话数据与历史对话数据间的上下文关系,以及确定源语种发言对象的对话表达特征;从而在根据上下文关系和对话表达特征进行对话翻译时,可以充分考虑待翻译对话所属的对话场景,使得翻译所得到的目标语种的对话数据更加准确。
在一个实施例中,上述翻译方法还包括词向量化的过程,具体包括以下步骤:对待翻译对话数据进行词向量转换,得到待翻译对话词向量;将历史对话数据转换为历史对话词向量;拼接待翻译对话词向量与历史对话词向量,得到拼接词向量。
其中,词向量也被称为分布式词语表示,指的是用一个低维实数向量来表征一个词语的语义信息的技术方法。拼接词向量,用于确定上下文关系和对话表达特征。
具体地,计算机设备在得到待翻译对话数据和历史对话数据之后,将该待翻译对话数据输入对话翻译模型,该对话翻译模型包括词嵌入层,通过对话翻译模型的词嵌入层对待翻译对话数据进行词向量转换,得到待翻译对话词向量,通过对话翻译模型的词嵌入层对历史对话数据进行词向量转换,得到历史对话词向量,并将待翻译对话词向量与历史对话词向量进行拼接,得到拼接词向量,然后将拼接词向量输入对话翻译模型的编码器,以使编码器基于拼接词向量确定出待翻译对话数据与历史对话数据间的上下文关系、以及源语种发言对象的对话表达特征。
可以理解的是,当待翻译对话数据中的单词的数量为两个以上时,对待翻译对话数据进行词向量转换所得到的待翻译对话词向量包含多个词向量,也就是说,得到的是待翻译对话词向量是一个词向量序列或词向量矩阵。当历史对话数据中的单词的数量为两个以上时,对历史对话数据进行词向量转换所得到的历史对话词向量包含多个词向量,也就是说,得到的是历史对话词向量是一个词序列或词向量矩阵。对待翻译对话词向量序列和历史对话词向量序列进行拼接,所得到拼接词向量也包含多个词向量,也就是说,得到的是拼接词向量也是一个词向量序列或词向量矩阵。
在一个实施例中,当待翻译对话数据中的单词的数量为两个以上,且历史对话数据中的单词的数量也为两个以上时,计算机设备还可以获取待翻译对话数据中的各个单词的第一位置信息,以及历史对话数据中各个单词的第二位置信息,并基于第一位置信息对待翻译对话数据进行词向量转换,得到待翻译对话词向量,基于第二位置信息对历史对话数据进行词向量转换,得到历史对话词向量,并将待翻译对话词向量与历史对话词向量进行拼接,得到拼接词向量,然后将拼接词向量输入对话翻译模型的编码器,以使编码器基于拼接词向量确定出待翻译对话数据与历史对话数据间的上下文关系、以及源语种发言对象的对话表达特征。
其中,第一位置信息是单词在待翻译对话数据中出现的位置,第二位置信息是单词在历史对话数据中出现的位置。
上述实施例中,计算机设备通过拼接待翻译对话词向量与历史对话词向量,得到拼接词向量,以便基于所得到的拼接词向量确定上下文关系和对话表达特征,进而可以基于上下文关系和对话表达特进行对话翻译,提高对话翻译的准确性。
在一个实施例中,上下文关系和对话表达特征包含于编码拼接词向量所得的编码向量,计算机设备确定待翻译对话数据与历史对话数据间的上下文关系;基于待翻译对话数据和历史对话数据,确定源语种发言对象的对话表达特征的过程具体包括以下步骤:将拼接词向量输入至对话翻译模型中的编码器;通过编码器对拼接词向量进行编码,得到包括上下文关系和对话表达特征的编码向量。
其中,上下文关系用于表示待翻译对话数据与历史对话数据之间的连贯性;对话表达特征用于表示发出待翻译对话数据的对话方的对话特点。对话翻译模型为神经网络模型,具体包括编码器和解码器,该对话翻译模型是采用基于源语种和目标语种的双语对话数据,以及基于源语种的单语对话数据,对翻译模型进行多任务训练而得到的,其中多任务包括主任务和辅助任务,主任务为翻译任务,辅助任务包括判断是否存在上下文关系的分类任务,以及判断是否为目标发言对象的分类任务。
可以理解的是,通过多任务训练方式训练好的对话翻译模型,其编码器具有分析待翻译对话数据对应的上下文关系和对话表达特征的能力,计算机设备在得到拼接词向量之后,直接将拼接词向量输入对话翻译模型的编码器,编码器便可以对拼接词向量进行编码,得到能充分体现对话连贯性和对话者对话特点编码向量。
上述实施例中,计算机设备将拼接词向量输入训练好的对话翻译模型,通过训练好的对话翻译模型可以更加准确地对输入的拼接词向量进行分析,得到包括上下文关系和对话表达特征的编码向量,进而在基于上下文关系和对话表达特进行对话翻译时,可以更进一步地提高对话翻译的准确性。
在一个实施例中,对话翻译模型的编码器包括多个编码层,如N个编码层,计算机设备通过编码器对拼接词向量进行编码,得到包括上下文关系和对话表达特征的编码向量的过程包括以下步骤:将拼接词向量输入编码器中的编码层;当i等于1时,通过编码器中的第i编码层,基于历史对话词向量对待翻译对话词向量依次进行自注意力处理和线性转换;当i大于1且不大于N时,通过编码器中的第i编码层,对第i-1编码层的输出向量依次进行自注意力处理和线性转换;将第N编码层所得的输出向量,确定为包括上下文关系和对话表达特征的编码向量。
其中,每个编码层均包含自注意力子层(SelfAtt)和前馈网络子层(FFN),自注意力子层用于对输入该子层的数据进行自注意力处理,前馈网络子层用于对输入该子层的数据进行线性转换。
注意力(Attention)是指人的心理活动指向和集中于某种事物的能力。注意力机制(Attention Mechanism)是基于人类的视觉注意力机制。简单来说,视觉注意力机制就是:当人们观察一幅图片时,首先注意到的是图片中的某一部分,而不是浏览全部内容,之后在观察的过程中调整注意的聚焦点。因此,神经网络领域中的注意力机制就是通过这个原理得来的。
上述实施例中,计算机设备通过多个可以进行自注意力处理和线性转换的编码层对拼接词向量进行编码,可以使编码过程充分考虑上下文关系和对话表达特征,进而得到更加准确的编码向量,从而可以基于编码向量解码出更加准确的目标语种的对话数据。
在一个实施例中,当i=1时,计算机设备通过编码器的第1层编码层,基于历史对话词向量对待翻译对话词向量依次进行自注意处理和线性转换的过程包括以下步骤:基于历史对话词向量对待翻译对话词向量依次进行自注意力处理,得到第一隐状态向量;对第一隐状态向量进行正则化处理,得到第一正则化向量;融合第一正则化向量和拼接词向量,得到融合特征;对融合特征进行线性转换,得到输出向量。
具体地,当待翻译对话词向量包含多个词向量时,对于待翻译对话词向量中的目标词向量,计算机设备基于待翻译对话词向量中的目标词向量之外的其他词向量以及历史对话词向量,对目标词向量进行自注意力处理。并依次采用该自注意处理方式逐个对待翻译对话词向量中的每个待翻译词向量进行自注意力处理,从而得到每个词向量所对应的隐藏状态向量,进而得到待翻译对话词向量所对应的第一隐藏状态向量。第一隐藏状态向量包含多个隐藏状态向量,也就是说,第一隐藏状态向量是隐藏状态向量序列或隐藏状态向量矩阵。
其中,融合特征可以采用以下公式(1)进行表示:
c(i)=LN(SelfAtt(h(i-1),h(i-1),h(i-1)))+h(i-1) (1)
其中,c(i)为第i层编码层的融合特征,h(i-1)为第i-1层编码层的输出向量,SelfAtt(h(i-1),h(i-1),h(i-1))为第i层编码层的隐状态向量,LN(SelfAtt(h(i-1),h(i-1),h(i-1)))为第i层编码层的正则化向量。可以理解的是,当i=1时,c(1)为第1层编码层的融合特征,h(0)为输入的拼接词向量,SelfAtt(h(0),h(0),h(0))为第1层编码层的隐状态向量,LN(SelfAtt(h(0),h(0),h(0)))为第1层编码层的正则化向量。
在一个实施例中,计算机设备对融合特征进行线性转换,得到输出向量的过程包括以下步骤:通过前馈网络子层对融合特征进行映射,得到映射特征,对映射特征进行正则化处理,得到正则化特征,并将正则化特征和融合特征进行融合,得到输出向量。
具体地,输出向量可以采用以下公式(2)进行表示:
h(i)=LN(FFN(c(i)))+c(i) (2)
其中,h(i)为第i层编码层的输出向量,c(i)为第i层编码层的融合特征。可以理解的是,当i=1时,h(1)为第1层编码层的输出向量。
上述实施例中,计算机设备通过在第1层编码层采用自注意处理机制充分考虑上下文关系和对话表达特征,对拼接词向量进行编码处理,进而得到更加准确的编码向量,从而可以基于编码向量解码出更加准确的目标语种的对话数据。
在一个实施例中,当i大于1且不大于N时,计算机设备通过编码器中的第i编码层,对第i-1编码层的输出向量依次进行自注意力处理和线性转换的过程包括以下步骤:对第i-1编码层的输出向量进行自注意力处理,得到第二隐状态向量;对第二隐状态向量进行正则化处理,得到第二正则化向量;将第二正则化向量与第i-1编码层的输出向量进行融合,得到第i编码层的输出向量;当i等于N时,获取第N编码层的输出向量,并将获取的输出向量作为包括上下文关系和对话表达特征的编码向量。
具体地,针对第2层编码层至第N层编码层,计算机设备可以采用公式(1)和公式(2)来逐层确定每一编码层的输出向量h(2)至h(N)。其中,编码器的第N层编码层的输出向量h(N)即为编码器最终所输出的编码向量。可以理解的是,当输入的待翻译对话词向量包含多个词向量时,编码器所输出的编码向量也包含多个向量,即编码器输出的编码向量为向量序列或向量矩阵。
上述实施例中,计算机设备通过在第1层之后的其他编码层采用自注意处理机制充分考虑上下文关系和对话表达特征,对输入的上一层的输出向量进行编码处理,进而得到更加准确的编码向量,从而可以基于编码向量解码出更加准确的目标语种的对话数据。
在一个实施例中,编码器包含N个编码层,该N个编码层分别属于两个编码块,其中N个编码层中的前a个编码层属于底部编码块,N个编码层中的后b个编码层属于顶部编码块,其中a+b=N,计算机设备通过编码器对拼接词向量进行编码,得到包括上下文关系和对话表达特征的编码向量的过程包括:将拼接词向量输入编码器中的编码层;当i等于1时,通过编码器中的第i编码层,基于历史对话词向量对待翻译对话词向量依次进行自注意力处理和线性转换;当i大于1且不大于a时,通过编码器中的第i编码层,对第i-1编码层的输出向量依次进行自注意力处理和线性转换;当i大于a且不大于N时,通过编码器中的第i编码层,对第i-1编码层的输出向量中的待翻译编码向量所对应的部分依次进行自注意力处理和线性转换;将第N编码层所得的输出向量,确定为包括上下文关系和对话表达特征的编码向量。
例如,a=1,则计算机设备通过第1层编码层,基于历史对话词向量对待翻译对话词向量中的各个词向量进行自注意力处理和线性转换,得到第1层的输出向量h(1),第i层编码层(i大于1时),则对第i-1编码层的输出向量h(i-1)中的待翻译编码向量所对应的部分依次进行自注意力处理和线性转换。
上述实施例中,计算机设备通过编码器的前a层编码层的自注意力机制充分考虑历史对话数据与待翻译对话数据上下文关系和对话表达特征,对输入的向量进行编码处理,并通过编码器的后b层编码层的自注意力机制充分考虑待翻译对话数据内部各单词之间的上下文关系,对输入的向量进行编码处理,从而使得所得到的编码向量更加准确,从而可以基于编码向量解码出更加准确的目标语种的对话数据。
在一个实施例中,解码器包括N个解码层,计算机设备包括上下文关系和对话表达特征的所述编码向量进行解码,得到目标语种的对话数据的过程包括以下步骤:当i等于1时,通过解码器中的第i解码层,对包括上下文关系和对话表达特征的编码向量依次进行掩模遮挡处理、交叉注意力处理和线性转换,得到输出向量;当i大于1且不大于N时,通过解码器中的第i解码层,对第i-1解码层的输出向量依次进行掩模遮挡处理、交叉注意力处理和线性转换;基于第i解码层的输出向量和变换矩阵,确定目标语种的对话数据。
其中,每个解码层均包含掩码自注意力子层(MaskedSelfAtt)、交叉注意力子层(CrossAtt)和前馈网络子层(FFN),掩码自注意力子层用于对输入该子层的数据进行掩模遮挡处理,交叉注意力子层用于输入该子层的数据进行交叉注意力处理,前馈网络子层用于对输入该子层的数据进行线性转换。
上述实施例中,计算机设备通过多个可以进行自注意力处理和线性转换的编码层对编码向量进行解码,从而可以准确地解码出目标语种的对话数据。
在一个实施例中,当i等于1时,计算机设备通过解码器中的第i解码层,对包括上下文关系和对话表达特征的编码向量依次进行掩模遮挡处理、交叉注意力处理和线性转换,得到输出向量包括:对编码向量中的目标向量之后的其他向量进行掩模遮挡处理,得到第一掩模隐状态向量;对第一掩模隐状态向量进行交叉自注意力处理,得到第三隐状态向量;对第三隐状态向量进行正则化处理,得到第三正则化向量;融合第三正则化向量和第一掩模隐状态向量,得到融合特征;对融合特征进行线性转换,得到输出向量。
具体地,当编码向量中包含多个向量时计算机设备对该多个向量是逐个进行解码的,即在对第一个向量进行解码得到对应的目标语种的单词之后,再对下一个向量进行解码。编码向量中的目标向量即为当前时刻所要解码的向量,对编码向量中的目标向量之后的其他向量进行掩模遮挡处理,即为对目标向量之外的、且尚未解码的向量进行掩摸遮挡处理。
在一个实施例中,计算机设备在对编码向量中的目标向量之后的其他向量进行掩模遮挡处理,得到掩模遮挡处理后的编码向量之后,还可以对掩模遮挡处理后的编码向量进行正则化处理,得到正则化处理结果,并将正则化处理结果与编码向量进行融合,得到融合结果,并将该融合结果确定为第一掩模隐状态向量。
其中,第一掩模隐状态向量可以采用以下公式(3)进行表示:
a(i)=LN(MaskedSelfAtt(s(i-1),s(i-1),s(i-1)))+s(i-1) (3)
其中,a(i)为第i层解码层的第一掩模隐状态向量,s(i-1)为输入第i层解码层的第i-1层解码层的输出向量,LN(MaskedSelfAtt(s(i-1),s(i-1),s(i-1)))为对第i层解码层的掩模遮挡处理后的编码向量进行正则化处理得到正则化处理结果,MaskedSelfAtt(s(i-1),s(i-1),s(i-1))为对第i层解码层的输入的编码向量进行掩模遮挡处理得到的掩模遮挡处理后的编码向量。可以理解的是,当i=1时,a(1)为第1层解码层的第一掩模隐状态向量,s(0)为编码器输出的编码向量,若编码器包含N个编码层,则s(0)为编码器的第N个编码层输出的编码向量h(N),LN(MaskedSelfAtt(s(0),s(0),s(0)))为对第1层解码层的掩模遮挡处理后的编码向量进行正则化处理得到正则化处理结果,MaskedSelfAtt(s(0),s(0),s(0))为对第1层解码层的输入的编码向量进行掩模遮挡处理得到的掩模遮挡处理后的编码向量。
在一个实施例中,计算机设备在得到第一掩模隐状态向量之后,对第一掩模隐状态向量进行交叉自注意力处理,得到第三隐状态向量,并对第三隐状态向量进行正则化处理,得到第三正则化向量,并将第三正则化向量和得到的第一掩模隐状态向量进行融合,得到融合特征,并对融合特征进行线性转换,得到输出向量。
具体地,融合特征可以采用以下公式(4)进行表示:
z(i)=LN(CrossAtt(a(i),s(0),s(0)))+a(i) (4)
其中,z(i)为第i层解码层的融合特征,LN(CrossAtt(a(i),s(0),s(0)))为对第i层解码层中的第三正则化向量,CrossAtt(a(i),s(0),s(0))为第i层解码层的第三隐状态向量,s(0)为输入解码器的编码向量,若编码器包含N个编码层,则s(0)为编码器的第N个编码层输出的编码向量h(N)。可以理解的是,当i=1时,z(1)为第1层解码层的融合特征,LN(CrossAtt(a(1),s(0),s(0)))为对第1层解码层中的第三正则化向量,CrossAtt(a(1),s(0),s(0))为第1层解码层的第三隐状态向量。
在一个实施例中,计算机设备对第三正则化向量和第一掩模隐状态向量的融合特征进行线性转换,得到输出向量的过程具体包括以下步骤:通过前馈网络子层对融合特征进行映射,得到映射特征,对映射特征进行正则化处理,得到正则化特征,并将正则化特征和融合特征进行融合,得到输出向量。
具体地,输出向量可以采用以下公式(5)进行表示:
s(i)=LN(FFN(z(i)))+z(i) (5)
其中,s(i)为第i层解码层的输出向量,z(i)为第i层解码层的融合特征。可以理解的是,当i=1时,s(1)为第1层编码层的输出向量。
上述实施例中,计算机设备通过解码层对编码向量依次进行掩模遮挡处理、交叉注意力处理和线性转换,避免了尚未解码的向量对当前正在解码的向量的影响,从而使得解码得到的目标语种的对话数据更加准确。
在一个实施例中,当i大于1且不大于N时,计算机设备过解码器中的第i解码层,对第i-1解码层的输出向量依次进行掩模遮挡处理、交叉注意力处理和线性转换的过程具体包括以下步骤:对输出向量第i-1解码层输出向量进行掩模遮挡处理,得到第二掩模隐状态向量;对输出向量第二掩模隐状态向量进行交叉自注意力处理,得到第四隐状态向量;对输出向量第四隐状态向量进行正则化处理,得到第四正则化向量;将输出向量第四正则化向量与输出向量第二掩模隐状态向量进行融合,得到输出向量第i解码层的输出向量。
具体地,针对第2层解码层至第N层解码层,计算机设备可以采用公式(3)、公式/4)和公式(5)来逐层确定每一解码层的输出向量s(2)至s(N)。其中,解码器的第N层解码层的输出向量s(N)即为解码器最终所输出的解码向量。可以理解的是,当输入的待翻译对话词向量包含多个词向量时,解码器每次输出的一个向量,并进行多次输出,多次输出的多个向量即为解码器所输出的解码向量。
上述实施例中,计算机设备通过解码层对编码向量依次进行掩模遮挡处理、交叉注意力处理和线性转换,避免了尚未解码的向量对当前正在解码的向量的影响,从而使得解码得到的目标语种的对话数据更加准确。
在一个实施例中,计算机设备在得到第N层解码层的输出向量之后,获取变换矩阵,并基于第N解码层的输出向量和变换矩阵预测出目标语种的对话数据。其中,变换矩阵为线性变换矩阵,是通过对翻译模型进行训练而得到的。
具体地,解码器每次输出的一个向量,并进行多次输出,计算机设备每次在得到第N层解码层的输出的向量之后,将该输出的向量输入至预测层,并通过预测层基于预先训练好的变换矩阵预测出该输出的向量所对应的目标语种的单词,并将解码器多次输出的向量分别预测出的单词组合成语句,得到目标语种的对话数据。预测的单词在词表上的概率分布如下:
p(yt|y<t,x)=soft max(Wst) (6)
其中,p(yt|y<t,x)为在t时刻预测出的单词yt的概率,y<t为在t时刻之前预测出的单词,x为基于源语种的待翻译对话数据,W为变换矩阵,st为在t时刻解码器所输出的向量。
在一个实施例中,如图3所示,提供了一种翻译方法,以该方法应用于图1中的计算机设备(终端或服务器)为例进行说明,包括以下步骤:
S302,获取源语种的待翻译对话数据和历史对话数据。
S304,对待翻译对话数据进行词向量转换,得到待翻译对话词向量。
S306,将历史对话数据转换为历史对话词向量。
S308,拼接待翻译对话词向量与历史对话词向量,得到拼接词向量。
S310,将拼接词向量输入至对话翻译模型中的编码器。
S312,通过编码器对拼接词向量进行编码,得到包括上下文关系和对话表达特征的编码向量。
其中,上下文关系用于表示待翻译对话数据与历史对话数据之间的连贯性;对话表达特征用于表示发出待翻译对话数据的对话方的对话特点。
S314,通过解码器对包括上下文关系和对话表达特征的编码向量进行解码,得到目标语种的对话数据。
本申请还提供一种应用场景,该应用场景应用上述的翻译方法。具体地,该翻译方法在该应用场景的应用如下:
参考图4所示的对话翻译模型结构示意图,该翻译方法通过图4所示的对话翻译模型来实现,该对话翻译模型包括词嵌入层、编码器和解码器,其中编码器包括N个编码层,解码器包括N个解码层,计算机设备在获取到待翻译对话数据和历史对话数据之后,将待翻译对话数据和历史对话数据输入词嵌入层,通过词嵌入层对待翻译对话数据和历史对话数据进行词向量化处理,得到拼接词向量,并将拼接词向量输入第一编码层,第一编码层基于自注意力机制对拼接词向量进行编码处理,得到包括上下文关系和对话表达特征的输出向量,并将输出向量输入至第2编码层,第2层编码层至第N层编码层均基于自注意力机制对输入的前一编码层的输出向量中的待翻译对话数据所对应的部分处理,得到各层编码层的输出向量,并将第N层编码层的输出向量作为编码向量输入至解码器,当待翻译数据包含多个单词时,编码向量则包含多个向量,解码器则每次解码出一个向量所对应的目标语种的单词,经过多次解码,从而得到目标语种的对话数据。
在一个实施例中,如图5所示,提供了一种对话翻译模型的处理方法,以该方法应用于图1中的计算机设备(终端或服务器)为例进行说明,包括以下步骤:
S502,获取目标对话样本和历史对话样本。
其中,目标对话样本是从训练数据集中抽取的基于源语种的一句对话数据,历史对话样本是从训练数据集中抽取的目标对话样本之外的基于源语种的一组对话数据。训练数据集中包括多组对话数据,该多组对话数据分别属于基于源语种与目标语种的双语对话类别、基于源语种的单语对话类别,属于双语对话类别的对话数据也称为双语对话数据,属于单语对话数据类别的对话数据也称为单语对话数据,每组对话数据的发言对象可以是多个。
需要说明的是,通过结合使用基于源语种的单语对话类别的单语对话数据对翻译模型进行训练,可以避免由于双语对话数据的数据量较少导致模型训练不充分的问题。
在一个实施例中,目标对话样本包括目标发言对象的对话文本和其他发言对象的对话文本。
其中,其他发言对象是指目标发言对象之外的发言对象,发言对象的对话文本包括发言对象基于其所对应的语种产生的对话文本,以及对发言对象所产生的对话文本进行翻译所得到的翻译对话文本。与目标对话样本匹配的历史对话文本,是指历史对话文本与目标对话样本属于同一组对话数据,也就是说历史对话文本与目标对象样本属于同一语种,且产生于同一个对话过程中。
例如,某个双语对话过程中所产生的用户A采用汉语、用户B采用英语,二者轮流以各自的语种产生对话数据,得到u句对话数据,u为奇数,其中,对话数据序列为用户A产生的基于汉语的对话数据,对话数据序列为用户B产生的基于英语的对话数据,对话数据序列为将对话数据序列翻译为英语所得到翻译对话数据序列,对话数据序列为将对话数据序列翻译为汉语所得到的翻译对话数据序列,则可以到基于汉语与英语的双语对话数据CXu={X1,X2,X3,……,Xu-2,Xu-1,Xu}和CYu={Y1,Y2,Y3,……,Yu-2,Yu-1,Yu}, 若用户A为目标发言对象,则用户B即为其他发言对象,和均为用户A的对话样本序列,和均为用户B的对话样本序列。
某个单语对话过程中,用户1采用汉语、用户2采用汉语,二者轮流以各自的语种产生对话数据,得到u句对话数据,u为奇数,其中,对话数据序列={x1,x3,x5,……,xu-4,xu-2,xu}为用户1产生的基于汉语的对话数据,对话数据序列为用户2产生的基于汉语的对话数据,则可以到基于汉语的单语对话数据Cx={x1,x2,x3,……,xu-2,xu-1,xu},若用户1为目标发言对象,则用户2即为其他发言对象,为用户1所对应的对话文本序列,用户2所对应的对话文本序列。
在一个实施例中,计算机设备从训练数据集所包含的多组对话数据中随机选取一组对话数据,并从所选取出的该组对话数据随机选取出一句对话数据作为目标对话样本。
例如,选取的该组对话数据为Ca={a1,a2,a3,a4,a5}包含a1至a5的5轮对话,则确定从所选取出的该组对话数据随机选取出一句对话数据作为目标对话样本,如选取a4作为目标对话样本。
在一个实施例中,计算机设备从训练数据集所包含的多组对话数据中随机选取一组对话数据,并将所选取的该组对话数据中的最后一句对话作为目标对话样本。
例如,选取的该组对话数据为Ca={a1,a2,a3,a4,a5}包含a1至a5的5轮对话,则确定a5作为目标对话样本。
在一个实施例中,计算机设备从训练数据集所包含的多组对话数据中随机选取一组对话数据,并将所选取出的该组对话数据作为历史对话样本。
例如,选取的该组对话数据为Cb={b1,b2,b3,b4,b5},则直接将该组对话数据中所包含的b1至b5的5轮对话数据确定为历史对话样本。
在一个实施例中,计算机设备从训练数据集所包含的多组对话数据中随机选取一组对话数据,并将该组对话数据中最后一句对话之外的其他对话数据确定为历史对话样本。
例如,选取的该组对话数据为Cb={b1,b2,b3,b4,b5},则直接将该组对话数据中所包含的b1至b4的4轮对话数据确定为历史对话样本。
在一个实施例中,计算机设备获取到目标对话样本和历史对话样本之后,基于获取到目标对话样本和历史对话样本之间的上下文关系生成关系标签,并基于目标对话样本第一发言对象和历史对话样本的第二发言对象生成特征标签。其中关系标签包括正关系标签和负关系标签,其中,正关系标签表征存在上下文关系,负关系标签表征不存在上下文关系,特征标签包括正特征标签和负特征标签,其中,正特征标签表征第一发言对象和第二发言对象相同,负特征标签表征第一发言对象和第二发言对象不同。
在一个实施例中,正关系标签包括双语对话正关系标签和单语对话关系正标签,负关系标签包括单语对话正关系标签和单语对话关系正标签,正特征标签包括双语对话正特征标签和单语对话特征正标签,负特征标签包括单语对话正特征标签和单语对话特征正标签。
作为一个示例进行说明,假设训练数据集包括至少包括CXu={X1,X2,X3,……,Xu-2,Xu-1,Xu}、CYu={Y1,Y2,Y3,……,Yu-2,Yu-1,Yu}和Cx={x1,x2,x3,……,xu-2,xu-1,xu对话数据,其中若所获取的目标对话样本和历史对话样本为(Xu,CXu),则目标对话样本和历史对话样本之间的关系标签为双语对话正关系标签;若所获取的目标对话样本和历史对话样本为(CXu),为从CXu之外的其他对话数据中所选取的对话数据,则目标对话样本和历史对话样本之间的关系标签为双语对话负关系标签;若所获取的目标对话样本和历史对话样本为(x,Cx),则目标对话样本和历史对话样本之间的关系标签为单语对话正关系标签;若所获取的目标对话样本和历史对话样本为(x-,Cx),x-为从Cx之外的其他对话数据中所选取的对话数据,则目标对话样本和历史对话样本之间的关系标签为单语对话负关系标签;若所获取的目标对话样本和历史对话样本为(Xu,),则目标对话样本和历史对话样本之间的特征标签为双语对话正特征标签;若所获取的目标对话样本和历史对话样本为(Xu,),则目标对话样本和历史对话样本之间的特征标签为双语对话负特征标签;若所获取的目标对话样本和历史对话样本为(x,),则目标对话样本和历史对话样本之间的特征标签为单语对话正特征标签;若所获取的目标对话样本和历史对话样本为(x,),则目标对话样本和历史对话样本之间的特征标签为单语对话负特征标签。
S504,通过对话翻译模型,确定目标对话样本和历史对话样本之间的上下文关系,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征。
其中,对话翻译模型为神经网络模型,具体包括编码器和解码器,其中在对对话翻译模型进行训练时,编码器一方面用于执行翻译任务中对输入的目标对话样本进行编码得到样本编码向量,并通过解码器对样本编码向量进行解码得到基于目标语种的翻译文本,另一方面还用于执行辅助任务,辅助任务具体包括目标对话样本和历史对话样本之间的上下文关系,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征。
在一个实施例中,计算机设备在获取到目标对话样本和历史对话样本之后,对目标对话样本进行词向量转换,得到目标对话词向量;将历史对话样本转换为历史对话样本词向量,并拼接目标对话词向量和历史对话样本词向量,得到样本拼接词向量,其中,样本拼接词向量用于确定目标对话样本和历史对话样本之间的上下文关系和发言对象的对话表达特征。
在一个实施例中,计算机设备在得到样本拼接词向量之后,将样本拼接词向量输入对话翻译模型的编码器,通过编码器确定目标对话样本和历史对话样本之间的上下文关系,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征。
在一个实施例中,编码器包括N层编码层,计算机设备在得到样本拼接词向量之后,将样本拼接词向量输入对话翻译模型的编码器的第一编码层,通过第一编码层确定目标对话样本和历史对话样本之间的上下文关系,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征。
S506,基于上下文关系、关系标签、对话表达特征和特征标签,确定损失值。
其中,损失值包括关系损失值和特征损失值,关系损失值为基于上下文关系和关系标签所确定的损失值,特征损失值为基于对话表达特征和特征标签所对应的损失值。关系损失值包括双语对话关系损失值和单语对话关系损失值;特征损失值包括双语对话特征损失值和单语对话特征损失值。
在一个实施例中,辅助任务具属于分类任务,计算机设备确定出目标对话样本和历史对话样本之间的上下文关系之后,输出目标对话样本和历史对话样本对应的预测关系标签,并基于预测关系标签和预先确定的关系标签,确定关系损失值。
在一个实施例中,辅助任务具属于分类任务,计算机设备确定出目标对话样本的发言对象的对话表达特征之后,输出目标对话样本对应的预测特征标签,并基于预测特征标签和预先确定的特征标签,确定特征损失值。
以输入的目标对话样本和历史对话样本为(Xu,CXu)为例进行说明,分类任务输出预测关系标签的概率如下:
其中,T1,1表示双语对话上下文关系,为双语对话预测关系标签的概率,为预测标签,1表示正关系标签,0表示负关系标签,是用于确定双语对话上下文关系的二分类任务的可学习的线性变换矩阵。是输入编码器的样本拼接词向量
在得到预测关系标签的概率之后,可以基于预测关系标签和预先确定的关系标签,确定关系损失值,具体可采用以下公式(9)计算:
可以理解的是,针对单语对话上下文关系T1,2、双语对话的对话表达特征T2,1、单语对话的对话表达特征T2,2,结合其分别所对应的线性变换矩阵和以及公式(7)和公式(8),分类任务分别输出预测标签的概率和进而基于公式(9)确定出单语对话关系损失值双语对话特征损失值和单语对话特征损失值
S508,基于损失值对对话翻译模型进行参数调整。
在一个实施例中,损失值还包括翻译损失值,计算机设备还通过编码器对输入的目标对话样本进行编码得到样本编码向量,并通过解码器对样本编码向量进行解码得到基于目标语种的翻译文本,并基于翻译文本确定出翻译损失值。
具体地,解码器输出预测的翻译文本在词表上的概率,然后采用下式确定出翻译损失值:
在一个实施例中,计算机设备在得到损失值之后,基于损失值对对话翻译模型的参数进行调整,得到调整后对话翻译模型,然后重新执行步骤S502,直至模型收敛,并将此时所得到的调整后对话翻译模型确定为训练完成的对话翻译模型,该训练好的对话翻译模型具有分析待翻译对话数据对应的上下文关系和对话表达特征的能力。
上述实施例中,计算机设备通过获取目标对话样本和历史对话样本,通过对话翻译模型,确定目标对话样本和历史对话样本之间的上下文关系,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征,基于上下文关系、关系标签、对话表达特征和特征标签,确定损失值,基于损失值对对话翻译模型进行参数调整,从而使得训练好的对话翻译模型具有分析待翻译对话数据对应的上下文关系和对话表达特征的能力,进而在基于该训练好的对话翻译模型执行对话翻译任务时,可以得到更加准确的翻译结果。
在一个实施例中,计算机设备在获取目标对话样本和历史对话样本之前,还包括对对话翻译模型进行预训练的过程,该预训练过程包括以下步骤:获取双语平行句样本;双语平行句样本包括源语种文本和对应的目标语种文本标签;通过训练前的对话翻译模型,对源语种文本进行翻译得到目标语种的预测数据;确定预测数据和目标语种文本标签间的差异值;基于差异值对对话翻译模型进行参数调整,直至模型收敛。
其中,双语平行句样本可以是从大规模的双语平行句数据集中选取的平行句样本。
具体地,对话翻译模型包括编码器和解码器,计算机设备在获取到双语平行句样本之后,将双语平行句样本中的源语种文本输入待训练的对话翻译模型,通过对话翻译模型的编码器对源语种文本进行编码得到编码向量,并通过解码器对编码向量进行解码,得到目标语种的预测数据,并确定预测数据和目标语种文本标签之间的差异值,基于差一只对对话翻译模型进行参数调整,直至模型收敛。
在一个实施例中,差异值可以基于以下公式进行计算:
其中,Ls-nmt(θnmt)为预训练阶段的差异值,θnct为对话翻译模型翻译过程的相关参数,p(yt|x,y<t)为预测数据在词表中的概率,x为输入的源语种文本。
上述实施例中,计算机设备通过预先采用大规模的双语平行句样本对对话翻译模型进行训练,得到预训练的对话翻译模型,进而再基于对话数据对该预训练的对话翻译模型进行训练,缓解了双语对话数据稀缺导致模型训练不充分的问题,从而可以得到训练充分的对话翻译模型。
在一个实施例中,如图6所示,还提供了一种对话翻译模型的处理方法,以该方法应用于图1中的计算机设备(终端或服务器)为例进行说明,包括以下步骤:
S602,获取双语平行句样本。
其中,双语平行句样本包括源语种文本和对应的目标语种文本标签。
S604,通过训练前的对话翻译模型,对源语种文本进行翻译得到目标语种的预测数据。
S606,确定预测数据和目标语种文本标签间的差异值。
S608,基于差异值对对话翻译模型进行参数调整,直至模型收敛。
S610,获取目标对话样本和历史对话样本。
S612,通过对话翻译模型,确定目标对话样本和历史对话样本之间的上下文关系,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征。
S614,基于上下文关系、关系标签、对话表达特征和特征标签,确定损失值。
S616,基于损失值对对话翻译模型进行参数调整。
本申请还另外提供一种应用场景,该应用场景应用上述的对话翻译模型的处理方法。具体地,该对话翻译模型的处理方法在该应用场景的应用如下:
参考图4所示的对话翻译模型结构示意图,该对话翻译模型的处理方法用于处理图4所示的对话翻译模型,该对话翻译模型包括词嵌入层、编码器和解码器,其中编码器包括N个编码层,解码器包括N个解码层,计算机设备先获取大规模双语平行句样本,通过双语平行句样本对对话翻译模型进行预训练,然后获取目标对话样本和历史对话样本,并将目标对话样本和历史对话样本输入对话翻译模型的词嵌入层,通过词嵌入层对目标对话样本和历史对话样本进行词向量化处理,得到样本拼接词向量,并将样本拼接词向量输入编码器的第一个编码层,通过第一个编码层确定出目标对话样本和历史对话样本之间的上下文关系,并输出预测关系标签,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征,并输出预测特征标签,同时第1层编码层还对拼接词向量进行编码处理,得到第1层样本输出向量,并将样本输出向量输入至第2层,第2层编码层至第N层编码层均基于自注意力机制对输入的前一编码层的样本输出向量中的目标对话样本所对应的部分处理,得到各层编码层的样本输出向量,并将第N层编码层的样本输出向量作为样本编码向量输入至解码器,当目标对话样本包含多个单词时,样本编码向量则包含多个向量,解码器则每次解码出一个向量所对应的目标语种的单词,经过多次解码,从而得到预测的目标语种的对话数据,然后基于预测关系标签、预测特征标签和预测的目标语种的对话数据确定损失值,并基于损失值对对话翻译模型进行参数调整,直至模型收敛,并将此时所得到的调整后对话翻译模型确定为训练完成的对话翻译模型。
应该理解的是,虽然图2、3、5和6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3、5和6中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种翻译装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:数据获取模块702、关系确定模块704和翻译模块706,其中:
数据获取模块702,用于获取源语种的待翻译对话数据和历史对话数据。
关系确定模块704,用于确定待翻译对话数据与历史对话数据间的上下文关系;基于待翻译对话数据和历史对话数据,确定源语种发言对象的对话表达特征。
翻译模块706,用于根据上下文关系和对话表达特征进行对话翻译,得到目标语种的对话数据。
上述实施例中,在获取到源语种的待翻译对话数据和历史对话数据之后,确定待翻译对话数据与历史对话数据间的上下文关系,以及确定源语种发言对象的对话表达特征;从而在根据上下文关系和对话表达特征进行对话翻译时,可以充分考虑待翻译对话所属的对话场景,使得翻译所得到的目标语种的对话数据更加准确。
在一个实施例中,如图8所示,装置还包括词向量转换模块708,用于:
对待翻译对话数据进行词向量转换,得到待翻译对话词向量;
将历史对话数据转换为历史对话词向量;
拼接待翻译对话词向量与历史对话词向量,得到拼接词向量;拼接词向量,用于确定上下文关系和对话表达特征。
在一个实施例中,上下文关系和对话表达特征包含于编码拼接词向量所得的编码向量;
关系确定模块704,还用于:将拼接词向量输入至对话翻译模型中的编码器;通过编码器对拼接词向量进行编码,得到包括上下文关系和对话表达特征的编码向量;其中,上下文关系用于表示待翻译对话数据与历史对话数据之间的连贯性;对话表达特征用于表示发出待翻译对话数据的对话方的对话特点。
在一个实施例中,编码器包括N个编码层;关系确定模块704,还用于:将拼接词向量输入编码器中的编码层;当i等于1时,通过编码器中的第i编码层,基于历史对话词向量对待翻译对话词向量依次进行自注意力处理和线性转换;当i大于1且不大于N时,通过编码器中的第i编码层,对第i-1编码层的输出特征依次进行自注意力处理和线性转换;将第N编码层所得的输出向量,确定为包括上下文关系和对话表达特征的编码向量。
在一个实施例中,关系确定模块704,还用于:基于历史对话词向量对待翻译对话词向量依次进行自注意力处理,得到第一隐状态向量;对第一隐状态向量进行正则化处理,得到第一正则化向量;融合第一正则化向量和拼接词向量,得到融合特征;对融合特征进行线性转换,得到输出向量。
在一个实施例中,关系确定模块704,还用于:对第i-1编码层的输出向量进行自注意力处理,得到第二隐状态向量;对第二隐状态向量进行正则化处理,得到第二正则化向量;将第二正则化向量与第i-1编码层的输出向量进行融合,得到第i编码层的输出向量;当i等于N时,获取第N编码层的输出向量,并将获取的输出向量作为包括上下文关系和对话表达特征的编码向量。
在一个实施例中,翻译模块706,还用于:通过解码器对包括上下文关系和对话表达特征的编码向量进行解码,得到目标语种的对话数据。
在一个实施例中,翻译模块706,还用于:当i等于1时,通过解码器中的第i解码层,对包括上下文关系和对话表达特征的编码向量依次进行掩模遮挡处理、交叉注意力处理和线性转换,得到输出向量;当i大于1且不大于N时,通过解码器中的第i解码层,对第i-1解码层的输出向量依次进行掩模遮挡处理、交叉注意力处理和线性转换;当i等于N时,基于第i解码层的输出向量和变换矩阵,确定目标语种的对话数据。
在一个实施例中,翻译模块706,还用于:对编码向量中的目标向量之后的其他向量进行掩模遮挡处理,得到第一掩模隐状态向量;对第一掩模隐状态向量进行交叉自注意力处理,得到第三隐状态向量;对第三隐状态向量进行正则化处理,得到第三正则化向量;融合第三正则化向量和第一掩模隐状态向量,得到融合特征;对融合特征进行线性转换,得到输出向量。
在一个实施例中,翻译模块706,还用于:对第i-1解码层输出向量进行掩模遮挡处理,得到第二掩模隐状态向量;对第二掩模隐状态向量进行交叉自注意力处理,得到第四隐状态向量;对第四隐状态向量进行正则化处理,得到第四正则化向量;将第四正则化向量与第二掩模隐状态向量进行融合,得到第i解码层的输出向量;基于第i解码层的输出向量和变换矩阵,确定目标语种的对话数据包括:当i等于N时,获取第N解码层的输出向量和变换矩阵,基于第N解码层的输出向量和变换矩阵预测出目标语种的对话数据。
关于翻译装置的具体限定可以参见上文中对于翻译方法的限定,在此不再赘述。上述翻译装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图9所示,提供了一种对话翻译模型的处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:样本获取模块902、样本关系确定模块904、损失值确定模块906和参数调整模块908,其中:
样本获取模块902,用于获取目标对话样本和历史对话样本。
样本关系确定模块904,用于通过对话翻译模型,确定目标对话样本和历史对话样本之间的上下文关系,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征。
损失值确定模块906,用于基于上下文关系、关系标签、对话表达特征和特征标签,确定损失值。
参数调整模块908,用于基于损失值对对话翻译模型进行参数调整。
上述实施例中,通过获取目标对话样本和历史对话样本,通过对话翻译模型,确定目标对话样本和历史对话样本之间的上下文关系,以及基于目标对话样本和历史对话样本确定目标对话样本的发言对象的对话表达特征,基于上下文关系、关系标签、对话表达特征和特征标签,确定损失值,基于损失值对对话翻译模型进行参数调整,从而使得训练好的对话翻译模型具有分析待翻译对话数据对应的上下文关系和对话表达特征的能力,进而在基于该训练好的对话翻译模型执行对话翻译任务时,可以得到更加准确的翻译结果。
在一个实施例中,样本获取模块902,还用于:获取双语平行句样本;双语平行句样本包括源语种文本和对应的目标语种文本标签;样本关系确定模块904,还用于:通过训练前的对话翻译模型,对源语种文本进行翻译得到目标语种的预测数据;损失值确定模块906,还用于:确定预测数据和目标语种文本标签间的差异值;参数调整模块908,还用于:基于差异值对对话翻译模型进行参数调整,直至模型收敛。
在一个实施例中,目标对话样本包括目标发言对象的对话文本和其他发言对象的对话文本。
关于对话翻译模型的处理装置的具体限定可以参见上文中对于对话翻译模型的处理方法的限定,在此不再赘述。上述对话翻译模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对话数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种翻译方法、一种对话翻译模型的处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种翻译方法、一种对话翻译模型的处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10或图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种翻译方法,其特征在于,所述方法包括:
获取源语种的待翻译对话数据和历史对话数据;
确定所述待翻译对话数据与所述历史对话数据间的上下文关系;
基于所述待翻译对话数据和所述历史对话数据,确定所述源语种发言对象的对话表达特征;
根据所述上下文关系和所述对话表达特征进行对话翻译,得到目标语种的对话数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述待翻译对话数据进行词向量转换,得到待翻译对话词向量;
将所述历史对话数据转换为历史对话词向量;
拼接所述待翻译对话词向量与所述历史对话词向量,得到拼接词向量;所述拼接词向量,用于确定所述上下文关系和所述对话表达特征。
3.根据权利要求2所述的方法,其特征在于,所述上下文关系和所述对话表达特征包含于编码所述拼接词向量所得的编码向量;
所述确定所述待翻译对话数据与所述历史对话数据间的上下文关系;基于所述待翻译对话数据和所述历史对话数据,确定所述源语种发言对象的对话表达特征包括:
将所述拼接词向量输入至对话翻译模型中的编码器;
通过所述编码器对所述拼接词向量进行编码,得到包括上下文关系和对话表达特征的编码向量;
其中,所述上下文关系用于表示所述待翻译对话数据与所述历史对话数据之间的连贯性;所述对话表达特征用于表示发出所述待翻译对话数据的对话方的对话特点。
4.根据权利要求3所述的方法,其特征在于,所述编码器包括N个编码层;所述通过所述编码器对所述拼接词向量进行编码,得到包括上下文关系和对话表达特征的编码向量包括:
将所述拼接词向量输入所述编码器中的编码层;
当i等于1时,通过所述编码器中的第i编码层,基于所述历史对话词向量对所述待翻译对话词向量依次进行自注意力处理和线性转换;
当i大于1且不大于N时,通过所述编码器中的第i编码层,对第i-1编码层的输出特征依次进行自注意力处理和线性转换;
将所述第N编码层所得的输出向量,确定为包括上下文关系和对话表达特征的编码向量。
5.根据权利要求4所述的方法,其特征在于,所述基于所述历史对话词向量对所述待翻译对话词向量依次进行自注意力处理和线性转换包括:
基于所述历史对话词向量对所述待翻译对话词向量依次进行自注意力处理,得到第一隐状态向量;
对所述第一隐状态向量进行正则化处理,得到第一正则化向量;
融合所述第一正则化向量和所述拼接词向量,得到融合特征;
对所述融合特征进行线性转换,得到输出向量。
6.根据权利要求5所述的方法,其特征在于,所述对第i-1编码层的输出向量依次进行自注意力处理和线性转换包括:
对所述第i-1编码层的输出向量进行自注意力处理,得到第二隐状态向量;
对所述第二隐状态向量进行正则化处理,得到第二正则化向量;
将所述第二正则化向量与所述第i-1编码层的输出向量进行融合,得到所述第i编码层的输出向量;
所述将所述第N编码层所得的输出向量,确定为包括上下文关系和对话表达特征的编码向量包括:
当i等于N时,获取所述第N编码层的输出向量,并将获取的所述输出向量作为包括上下文关系和对话表达特征的编码向量。
7.根据权利要求3至6任一项所述的方法,其特征在于,所述根据所述上下文关系和所述对话表达特征进行对话翻译,得到目标语种的对话数据包括:
通过解码器对包括上下文关系和对话表达特征的所述编码向量进行解码,得到目标语种的对话数据。
8.根据权利要求7所述的方法,其特征在于,所述解码器包括N个解码层;所述对包括上下文关系和对话表达特征的所述编码向量进行解码,得到目标语种的对话数据包括:
当i等于1时,通过所述解码器中的第i解码层,对包括上下文关系和对话表达特征的所述编码向量依次进行掩模遮挡处理、交叉注意力处理和线性转换,得到输出向量;
当i大于1且不大于N时,通过所述解码器中的第i解码层,对第i-1解码层的输出向量依次进行掩模遮挡处理、交叉注意力处理和线性转换;
当i等于N时,基于所述第i解码层的输出向量和变换矩阵,确定目标语种的对话数据。
9.一种对话翻译模型的处理方法,其特征在于,所述方法包括:
获取目标对话样本和历史对话样本;
通过对话翻译模型,确定所述目标对话样本和所述历史对话样本之间的上下文关系,以及基于所述目标对话样本和所述历史对话样本确定所述目标对话样本的发言对象的对话表达特征;
基于所述上下文关系、关系标签、所述对话表达特征和特征标签,确定损失值;
基于所述损失值对所述对话翻译模型进行参数调整。
10.根据权利要求9所述的方法,其特征在于,所述获取目标对话样本和历史对话样本之前,所述方法还包括:
获取双语平行句样本;所述双语平行句样本包括源语种文本和对应的目标语种文本标签;
通过训练前的所述对话翻译模型,对所述源语种文本进行翻译得到目标语种的预测数据;
确定所述预测数据和所述目标语种文本标签间的差异值;
基于所述差异值对所述对话翻译模型进行参数调整,直至模型收敛。
11.根据权利要求9或10述的方法,其特征在于,所述目标对话样本包括目标发言对象的对话文本和其他发言对象的对话文本。
12.一种翻译装置,其特征在于,所述装置包括:
数据获取模块,用于获取源语种的待翻译对话数据和历史对话数据;
关系确定模块,用于确定所述待翻译对话数据与所述历史对话数据间的上下文关系;基于所述待翻译对话数据和所述历史对话数据,确定所述源语种发言对象的对话表达特征;
翻译模块,用于根据所述上下文关系和所述对话表达特征进行对话翻译,得到目标语种的对话数据。
13.一种对话翻译模型的处理装置,其特征在于,所述装置包括:
样本获取模块,用于获取目标对话样本和历史对话样本;
样本关系确定模块,用于通过对话翻译模型,确定所述目标对话样本和所述历史对话样本之间的上下文关系,以及基于所述目标对话样本和所述历史对话样本确定所述目标对话样本的发言对象的对话表达特征;
损失值确定模块,用于基于所述上下文关系、关系标签、所述对话表达特征和特征标签,确定损失值;
参数调整模块,用于基于所述损失值对所述对话翻译模型进行参数调整。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110839034.XA CN113822080A (zh) | 2021-07-23 | 2021-07-23 | 翻译、对话翻译模型的处理方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110839034.XA CN113822080A (zh) | 2021-07-23 | 2021-07-23 | 翻译、对话翻译模型的处理方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113822080A true CN113822080A (zh) | 2021-12-21 |
Family
ID=78923912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110839034.XA Pending CN113822080A (zh) | 2021-07-23 | 2021-07-23 | 翻译、对话翻译模型的处理方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822080A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130297284A1 (en) * | 2012-05-02 | 2013-11-07 | Electronics And Telecommunications Research Institute | Apparatus and method for generating polite expressions for automatic translation |
US20130297285A1 (en) * | 2012-05-02 | 2013-11-07 | Electronics And Telecommunications Research Institute | Apparatus and method for providing two-way automatic interpretation and translation service |
CN107885734A (zh) * | 2017-11-13 | 2018-04-06 | 深圳市沃特沃德股份有限公司 | 语言翻译方法和装置 |
CN110147554A (zh) * | 2018-08-24 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 同声翻译方法、装置和计算机设备 |
CN110297887A (zh) * | 2019-06-26 | 2019-10-01 | 山东大学 | 基于云平台的服务机器人个性化对话系统及方法 |
CN110852116A (zh) * | 2019-11-07 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 非自回归神经机器翻译方法、装置、计算机设备和介质 |
KR20200069727A (ko) * | 2018-12-07 | 2020-06-17 | 조훈근 | 대화자 관계 기반 언어적 특성 정보를 반영한 번역지원 시스템 및 방법 |
CN111309883A (zh) * | 2020-02-13 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的人机对话方法、模型训练方法及装置 |
US10963819B1 (en) * | 2017-09-27 | 2021-03-30 | Amazon Technologies, Inc. | Goal-oriented dialog systems and methods |
WO2021077974A1 (zh) * | 2019-10-24 | 2021-04-29 | 西北工业大学 | 一种个性化对话内容生成方法 |
-
2021
- 2021-07-23 CN CN202110839034.XA patent/CN113822080A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130297284A1 (en) * | 2012-05-02 | 2013-11-07 | Electronics And Telecommunications Research Institute | Apparatus and method for generating polite expressions for automatic translation |
US20130297285A1 (en) * | 2012-05-02 | 2013-11-07 | Electronics And Telecommunications Research Institute | Apparatus and method for providing two-way automatic interpretation and translation service |
US10963819B1 (en) * | 2017-09-27 | 2021-03-30 | Amazon Technologies, Inc. | Goal-oriented dialog systems and methods |
CN107885734A (zh) * | 2017-11-13 | 2018-04-06 | 深圳市沃特沃德股份有限公司 | 语言翻译方法和装置 |
CN110147554A (zh) * | 2018-08-24 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 同声翻译方法、装置和计算机设备 |
KR20200069727A (ko) * | 2018-12-07 | 2020-06-17 | 조훈근 | 대화자 관계 기반 언어적 특성 정보를 반영한 번역지원 시스템 및 방법 |
CN110297887A (zh) * | 2019-06-26 | 2019-10-01 | 山东大学 | 基于云平台的服务机器人个性化对话系统及方法 |
WO2021077974A1 (zh) * | 2019-10-24 | 2021-04-29 | 西北工业大学 | 一种个性化对话内容生成方法 |
CN110852116A (zh) * | 2019-11-07 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 非自回归神经机器翻译方法、装置、计算机设备和介质 |
CN111309883A (zh) * | 2020-02-13 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的人机对话方法、模型训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
周可艳;宗成庆;: "对话行为信息在口语翻译中的应用", 中文信息学报, no. 06, 15 November 2010 (2010-11-15), pages 58 - 63 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN107979764B (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
WO2020199904A1 (zh) | 视频描述信息的生成方法、视频处理方法、相应的装置 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN111738025B (zh) | 基于人工智能的翻译方法、装置、电子设备和存储介质 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN113569892A (zh) | 图像描述信息生成方法、装置、计算机设备及存储介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
EP4336378A1 (en) | Data processing method and related device | |
CN115131638A (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN116246213B (zh) | 数据处理方法、装置、设备以及介质 | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN113407663B (zh) | 基于人工智能的图文内容质量识别方法和装置 | |
CN114282013A (zh) | 一种数据处理方法、装置及存储介质 | |
CN110750998A (zh) | 一种文本输出方法、装置、计算机设备和存储介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN113240115A (zh) | 一种生成人脸变化图像模型的训练方法及相关装置 | |
Khurram et al. | Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics | |
CN116975288A (zh) | 文本处理方法及文本处理模型训练方法 | |
Rastgoo et al. | A survey on recent advances in Sign Language Production | |
CN117609550A (zh) | 视频标题生成方法和视频标题生成模型的训练方法 | |
CN116977903A (zh) | 一种通过文本智能生成短视频的aigc方法 | |
CN116956953A (zh) | 翻译模型的训练方法、装置、设备、介质及程序产品 | |
CN116208824A (zh) | 标题生成方法、计算机设备、存储介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |