CN112668345B - 语法缺陷数据识别模型构建方法和语法缺陷数据识别方法 - Google Patents
语法缺陷数据识别模型构建方法和语法缺陷数据识别方法 Download PDFInfo
- Publication number
- CN112668345B CN112668345B CN202011552924.4A CN202011552924A CN112668345B CN 112668345 B CN112668345 B CN 112668345B CN 202011552924 A CN202011552924 A CN 202011552924A CN 112668345 B CN112668345 B CN 112668345B
- Authority
- CN
- China
- Prior art keywords
- text
- grammar
- model
- defect
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007547 defect Effects 0.000 title claims abstract description 634
- 238000000034 method Methods 0.000 title claims abstract description 199
- 238000010276 construction Methods 0.000 title claims abstract description 29
- 238000013519 translation Methods 0.000 claims abstract description 610
- 238000012549 training Methods 0.000 claims abstract description 365
- 239000013598 vector Substances 0.000 claims description 279
- 230000008569 process Effects 0.000 claims description 97
- 230000003993 interaction Effects 0.000 claims description 82
- 230000002950 deficient Effects 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 18
- 230000015654 memory Effects 0.000 description 12
- 230000008859 change Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000004140 cleaning Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种语法缺陷数据识别模型构建方法和语法缺陷数据识别方法,该构建方法包括:在获取到第一训练源文本、第一标准翻译文本及其对应的第一实际识别结果、和第一语法缺陷翻译文本及其对应的第二实际识别结果后,将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型,得到第一标准翻译文本对应的第一预测识别结果和第一语法缺陷翻译文本对应的第二预测识别结果;再根据第一预测识别结果、第二预测识别结果、第一实际识别结果和第二实际识别结果更新第一模型,并返回执行将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型的步骤,直至在达到第一停止条件时根据第一模型构建语法缺陷数据识别模型。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种语法缺陷数据识别模型构建方法和语法缺陷数据识别方法。
背景技术
随着机器学习技术的发展,机器翻译模型逐渐代替人工翻译,以实现将一种自然语言(也就是,源语言)转换成另一种自然语言(也就是,目标语言)。
另外,为了保证机器翻译模型具有较好的翻译性能,通常需要使用大量训练数据对该机器翻译模型进行训练,以使该机器翻译模型能够从这些训练数据中学习到如何将源语言翻译成目标语言。可见,训练数据的质量能够影响机器翻译模型的翻译性能。
目前,为了提高训练数据的质量,可以对该上述大量训练数据进行数据清洗,以将一些质量较差的训练数据从上述大量训练数据中清洗出去,得到清洗后训练数据。然而,因现有的数据清洗方法无法从上述大量训练数据中识别出语法缺陷数据,使得无法将该语法缺陷数据从上述大量训练数据中清洗出去,从而使得清洗后训练数据中仍然存在一些语法缺陷数据,如此导致清洗后训练数据的质量仍然比较差。可见,如何从大量训练数据中识别出语法缺陷数据是一个亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提供一种语法缺陷数据识别模型构建方法和语法缺陷数据识别方法,能够从大量训练数据中识别出语法缺陷数据,以便后续能够将识别出的语法缺陷数据从该大量训练数据中清洗出去,以使清洗后训练数据具有较高质量。
本申请实施例提供了一种语法缺陷数据识别模型构建方法,所述方法包括:
获取第一训练源文本、第一标准翻译文本、第一语法缺陷翻译文本、所述第一标准翻译文本对应的第一实际识别结果和所述第一语法缺陷翻译文本对应的第二实际识别结果;其中,所述第一标准翻译文本表示所述第一训练源文本对应的标准翻译文本;所述第一语法缺陷翻译文本表示所述第一训练源文本对应的语法缺陷翻译文本;
将所述第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入第一模型,得到所述第一模型输出的所述第一标准翻译文本对应的第一预测识别结果和所述第一语法缺陷翻译文本对应的第二预测识别结果;
根据所述第一预测识别结果、所述第二预测识别结果、所述第一实际识别结果和所述第二实际识别结果,更新所述第一模型,并返回执行所述将第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入第一模型的步骤,直至在达到第一停止条件时,根据所述第一模型,构建所述语法缺陷数据识别模型。
本申请实施例还提供了一种语法缺陷数据识别方法,所述方法包括:
获取待识别文本和所述待识别文本的源文本;
将所述待识别文本和所述待识别文本的源文本输入预先构建的语法缺陷数据识别模型,得到所述语法缺陷数据识别模型输出的所述待识别文本的预测识别结果;其中,所述语法缺陷数据识别模型是利用本申请实施例提供的语法缺陷数据识别模型构建方法的任一实施方式进行构建的;
根据所述待识别文本的预测识别结果,确定所述待识别文本是否为语法缺陷数据。
本申请实施例还提供了一种语法缺陷数据识别模型构建装置,所述装置包括:
第一获取单元,用于获取所述第一训练源文本、第一标准翻译文本、第一语法缺陷翻译文本、所述第一标准翻译文本对应的第一实际识别结果和所述第一语法缺陷翻译文本对应的第二实际识别结果;其中,所述第一标准翻译文本表示所述第一训练源文本对应的标准翻译文本;所述第一语法缺陷翻译文本表示所述第一训练源文本对应的语法缺陷翻译文本;
第一预测单元,用于将所述第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入第一模型,得到所述第一模型输出的所述第一标准翻译文本对应的第一预测识别结果和所述第一语法缺陷翻译文本对应的第二预测识别结果;
模型更新单元,用于根据所述第一预测识别结果、所述第二预测识别结果、所述第一实际识别结果和所述第二实际识别结果,更新所述第一模型,并返回所述第一预测单元执行所述将第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入第一模型,直至在达到第一停止条件时,根据所述第一模型,构建所述语法缺陷数据识别模型。
本申请实施例还提供了一种语法缺陷数据识别装置,所述装置包括:
第二获取单元,用于获取待识别文本和所述待识别文本的源文本;
第二预测单元,用于将所述待识别文本和所述待识别文本的源文本输入预先构建的语法缺陷数据识别模型,得到所述语法缺陷数据识别模型输出的待识别文本的预测识别结果;其中,所述语法缺陷数据识别模型是利用本申请实施例提供的语法缺陷数据识别模型构建方法的任一实施方式进行构建的;
第一确定单元,用于根据所述待识别文本的预测识别结果,确定所述待识别文本是否为语法缺陷数据。
本申请实施例还提供了一种语法缺陷数据识别模型构建设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的语法缺陷数据识别模型构建方法的任一种实施方式。
本申请实施例还提供了一种语法缺陷数据识别设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的语法缺陷数据识别方法的任一种实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的语法缺陷数据识别模型构建方法的任一种实施方式,或者执行本申请实施例提供的语法缺陷数据识别方法的任一种实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的语法缺陷数据识别模型构建方法的任一种实施方式,或者执行本申请实施例提供的语法缺陷数据识别方法的任一种实施方式。
基于上述技术方案,本申请具有以下有益效果:
本申请提供的语法缺陷数据识别模型构建方法中,在获取到第一训练源文本、第一标准翻译文本、第一语法缺陷翻译文本、该第一标准翻译文本对应的第一实际识别结果和该第一语法缺陷翻译文本对应的第二实际识别结果之后,先将该第一训练源文本、该第一标准翻译文本和该第一语法缺陷翻译文本输入第一模型,得到该第一模型输出的该第一标准翻译文本对应的第一预测识别结果和该第一语法缺陷翻译文本对应的第二预测识别结果;再根据该第一预测识别结果、该第二预测识别结果、该第一实际识别结果和该第二实际识别结果,更新该第一模型,并返回执行上述将该第一训练源文本、该第一标准翻译文本和该第一语法缺陷翻译文本输入第一模型的步骤,直至在达到第一停止条件时,根据该第一模型,构建该语法缺陷数据识别模型。其中,第一标准翻译文本表示第一训练源文本对应的标准翻译文本;第一语法缺陷翻译文本表示第一训练源文本对应的语法缺陷翻译文本。
可见,因第一模型是根据第一训练源文本、该第一训练源文本对应的标准翻译文本及其第一实际识别结果、和该第一训练源文本对应的语法缺陷翻译文本及其第二实际识别结果训练得到的,使得该第一模型能够准确地区分出存在语法缺陷的文本和不存在语法缺陷的文本(也就是,按照目标语言下标准语法进行表达的文本),从而使得基于该第一模型构建的语法缺陷数据识别模型也能够准确地区分出存在语法缺陷的文本和不存在语法缺陷的文本,如此使得后续能够利用该语法缺陷数据识别模型从大量训练数据中识别出语法缺陷数据,并将识别出的语法缺陷数据从该大量训练数据中清洗出去,以使清洗后训练数据具有较高质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语法缺陷数据识别模型构建方法的流程图;
图2为本申请实施例提供的一种第一模型的结构示意图;
图3为本申请实施例提供的一种第一编码层的结构示意图;
图4为本申请实施例提供的另一种第一编码层的结构示意图;
图5为本申请实施例提供的又一种第一编码层的结构示意图;
图6为本申请实施例提供的句式编码向量和语义编码向量的拼接示意图;
图7为本申请实施例提供的另一种第一模型的结构示意图;
图8为本申请实施例提供的一种第一模型的工作原理;
图9为本申请实施例提供的一种语法缺陷数据识别方法的流程图;
图10为本申请实施例提供的应用于终端设备的语法缺陷数据识别方法的应用场景示意图;
图11为本申请实施例提供的应用于服务器的语法缺陷数据识别方法的应用场景示意图;
图12为本申请实施例提供的一种第二模型的结构示意图;
图13为本申请实施例提供的一种第一对齐模型的结构示意图;
图14为本申请实施例提供的一种第二对齐模型的结构示意图;
图15为本申请实施例提供的语法缺陷数据识别模型构建装置的结构示意图;
图16为本申请实施例提供的语法缺陷数据识别装置的结构示意图。
具体实施方式
发明人在对数据清洗的研究中发现,可以采用以下相关技术对大量训练数据进行数据清洗,该相关技术可以包括:①根据源语言句子/目标语言句子的长度、长度比、句子中的符号及标点等信息按照预设清洗规则进行清洗。②利用预先构建的机器翻译模型判断源语言句子与该源语言句子对应的目标语言句子之间句意是否一致,并将句意不一致的源语言句子以及该源语言句子对应的目标语言句子从大量训练数据中清洗出去。另外,上述相关技术只可以识别出源语言句子的内容与目标语言句子的内容之间是否对应,却无法检测出源语言句子的语法或者目标语言句子的语法是否正确。为了便于理解,下面结合示例进行说明。
作为示例,当大量训练数据包括第一源句子和该第一源句子对应的目标语言句子,第一源句子为“队长的缺席,对队伍的战力有着非常大的减损”,且该第一源句子对应的目标语言句子为“the absence of the captain,the team's fighting power has avery big loss”时,利用上述相关技术可以确定出该第一源句子的内容与该第一源句子对应的目标语言句子的内容之间是对应的,从而使得在利用上述相关技术进行数据清洗时不会将该第一源句子及其对应的目标语言句子从大量训练数据中清洗出去;但是,因第一源句子对应的目标语言句子是直译方式获得的,使得该第一源句子对应的目标语言句子的语法不符合目标语言下的标准语法,从而使得该第一源句子对应的目标语言句子存在语法问题,如此使得该第一源句子对应的目标语言句子应该为语法缺陷数据,故为了提高训练数据的质量,应该将第一源句子和该第一源句子对应的目标语言句子从大量训练数据中清洗出去。
可见,因上述相关技术无法检测出源语言句子的语法或者目标语言句子的语法是否正确,导致上述相关技术无法将语法缺陷数据从大量训练数据中清洗出去,从而导致利用上述相关技术得到的清洗后训练数据中仍然存在一些语法缺陷数据,如此导致利用上述相关技术得到的清洗后训练数据的质量仍然比较差。
为了解决背景技术部分的技术问题以及上述相关技术存在的缺陷,本申请实施例提供了一种语法缺陷数据识别模型构建方法,该方法包括:获取第一训练源文本、第一标准翻译文本、第一语法缺陷翻译文本、该第一标准翻译文本对应的第一实际识别结果和该第一语法缺陷翻译文本对应的第二实际识别结果;将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型,得到第一模型输出的该第一标准翻译文本对应的第一预测识别结果和该第一语法缺陷翻译文本对应的第二预测识别结果;根据第一预测识别结果、第二预测识别结果、第一实际识别结果和第二实际识别结果,更新第一模型,并返回执行上述将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型的步骤,直至在达到第一停止条件时,根据第一模型,构建语法缺陷数据识别模型。其中,第一标准翻译文本表示第一训练源文本对应的标准翻译文本;第一语法缺陷翻译文本表示第一训练源文本对应的语法缺陷翻译文本。
可见,因第一模型是根据第一训练源文本、该第一训练源文本对应的标准翻译文本及其第一实际识别结果、和该第一训练源文本对应的语法缺陷翻译文本及其第二实际识别结果训练得到的,使得该第一模型能够准确地区分出存在语法缺陷的文本和不存在语法缺陷的文本(也就是,按照目标语言下标准语法进行表达的文本),从而使得基于该第一模型构建的语法缺陷数据识别模型也能够准确地区分出存在语法缺陷的文本和不存在语法缺陷的文本,如此使得后续能够利用该语法缺陷数据识别模型从大量训练数据中识别出语法缺陷数据,并将识别出的语法缺陷数据从该大量训练数据中清洗出去,以使清洗后训练数据具有较高质量。
此外,本申请实施例不限定语法缺陷数据识别模型构建方法的执行主体,例如,本申请实施例提供的语法缺陷数据识别模型构建方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal DigitalAssitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例一
参见图1,该图为本申请实施例提供的一种语法缺陷数据识别模型构建方法的流程图。
本申请实施例提供的语法缺陷数据识别模型构建方法,包括S101-S105:
S101:获取第一训练源文本、第一标准翻译文本、第一语法缺陷翻译文本、该第一标准翻译文本对应的第一实际识别结果和该第一语法缺陷翻译文本对应的第二实际识别结果。
其中,第一训练源文本是指构建语法缺陷数据识别模型时所需使用的源语言下文本数据。另外,本申请实施例不限定源语言,例如,源语言可以为中文。需要说明的是,本申请实施例不限定第一训练源文本的个数。
第一标准翻译文本是指将第一训练源文本按照目标语言下标准语法进行翻译得到的翻译文本,使得该第一标准翻译文本表示第一训练源文本对应的标准翻译文本。另外,本申请实施例也不限定目标语言,例如,目标语言可以为英文。此外,本申请实施例不限定第一标准翻译文本的获取方式。需要说明的是,第一标准翻译文本的个数与第一训练源文本的个数相同。
第一语法缺陷翻译文本是指将第一训练源文本按照目标语言下的非标准语法进行翻译得到的翻译文本,使得该第一语法缺陷翻译文本表示第一训练源文本对应的语法缺陷翻译文本。另外,第一语法缺陷翻译文本的个数与第一训练源文本的个数相同。
需要说明的是,本申请实施例不限定目标语言下的非标准语法,例如,当第一训练源文本使用倒装语法进行表达时,若针对该第一训练源文本按照直译方式进行翻译(也就是逐词翻译且不调整翻译后词汇之间的排列顺序),则易导致翻译得到的文本数据不符合目标语言下的自然表达方式(也就是,目标语言下的标准语法)。可见,目标语言下的非标准语法可以包括按照直译方式进行翻译所产生的错误语法。
另外,本申请实施例不限定第一语法缺陷翻译文本的获取过程,为了便于理解,下面结合两种可能的实施方式进行说明。
在第一种可能的实施方式中,第一语法缺陷翻译文本的获取过程具体可以为:将第一训练源文本输入预先构建的预设机器翻译模型,得到该预设机器翻译模型输出的第一标准翻译文本。
其中,预设机器翻译模型用于将源语言下文本数据翻译成目标语言下文本数据,而且本申请实施例不限定预设机器翻译模型,例如,该预设机器翻译模型可以是统计机器翻译模型(Statistical Machine Translation,SMT)。
另外,预设机器翻译模型可以根据源语言文本样本和该源语言文本样本的目标语言文本训练得到。其中,源语言文本样本所属的语言类型为源语言,且该源语言文本样本的目标语言文本所属的语言类型为目标语言。需要说明的是,在预设机器翻译模型的训练过程中,源语言文本样本充当该预设机器翻译模型的输入数据的角色,且该源语言文本样本的目标语言文本充当该预设机器翻译模型的标签信息的角色,以使该源语言文本样本的目标语言文本能够指导该预设机器翻译模型的更新过程。
基于上述获取第一语法缺陷翻译文本的第一种可能的实施方式的相关内容可知,可以直接将第一训练源文本输入到预先构建的预设机器翻译模型,以使该预设机器翻译模型能够对该第一训练源文本进行翻译,得到并输出该第一语法缺陷翻译文本。
实际上,在利用预设机器翻译模型进行翻译时,该预设机器翻译模型可以将一些文本按照目标语言下的标准语法进行翻译,也可以将另一些文本按照目标语言下的非标准语法(例如,按照直译方式进行翻译所产生的错误语法等预设缺陷语法)进行翻译,故为了保证第一语法缺陷翻译文本确实是存在语法缺陷的文本数据,本申请实施例还提供了获取第一语法缺陷翻译文本的第二种可能的实施方式,其具体可以包括步骤11-步骤14:
步骤11:获取待筛选源文本和该待筛选源文本的标准翻译文本。
其中,待筛选源文本是指在获取第一训练源文本时所需使用的源语言下文本数据。另外,本申请实施例不限定待筛选源文本的个数。
待筛选源文本的标准翻译文本是指将待筛选源文本按照目标语言下的标准语法进行翻译得到的翻译文本。
步骤12:将待筛选源文本输入预设机器翻译模型,得到该预设机器翻译模型输出的该待筛选源文本的模型翻译文本。
步骤13:计算待筛选源文本的标准翻译文本和该待筛选源文本的模型翻译文本之间的相似度,得到文本相似度。
其中,文本相似度用于描述待筛选源文本的标准翻译文本和该待筛选源文本的模型翻译文本之间的相似程度。另外,本申请实施例不限定文本相似度的计算方式。
步骤14;在确定文本相似度低于预设相似阈值时,将待筛选源文本确定为第一训练源文本,将该待筛选源文本的标准翻译文本确定为该第一标准翻译文本,并将该待筛选源文本的模型翻译文本确定为该第一语法缺陷翻译文本。其中,预设相似阈值可以预先设定(如,0.9)。
本申请实施例中,在获取到文本相似度之后,判断文本相似度是否低于预设相似阈值,若低于预设相似阈值,则表示待筛选源文本的标准翻译文本和该待筛选源文本的模型翻译文本之间的差距较大,从而表示该待筛选源文本的模型翻译文本存在语法缺陷,从而可以根据该待筛选源文本及其相关文本,确定第一训练源文本及其相关文本;若高于预设相似阈值,则表示待筛选源文本的标准翻译文本和该待筛选源文本的模型翻译文本之间的差距较小,从而表示该待筛选源文本的模型翻译文本几乎不存在语法缺陷,故应该舍弃该待筛选源文本及其相关文本。
基于上述步骤11至步骤14的相关内容可知,在利用预设机器翻译模型针对待筛选源文本输出模型翻译文本之后,可以根据该模型翻译文本与该待筛选源文本的标准翻译文本之间的相似度,确定该模型翻译文本是否属于语法缺陷数据,以便在确定该模型翻译文本属于语法缺陷数据时,将该待筛选源文本、该待筛选源文本的标准翻译文本以及该模型翻译文本,分别确定为第一训练源文本、该第一标准翻译文本以及该第一语法缺陷翻译文本。
第一实际识别结果表示第一标准翻译文本是否属于语法缺陷数据的实际识别结果;而且本申请实施例不限定第一实际识别结果,例如,第一实际识别结果可以包括第一标准翻译文本属于非语法缺陷数据(也就是,目标语言下标准语法)的实际概率(例如,1),和/或,第一标准翻译文本属于语法缺陷数据的实际概率(例如,0)。
第二实际识别结果表示第一语法缺陷翻译文本是否属于语法缺陷数据的实际识别结果;而且本申请实施例不限定第二实际识别结果,例如,第二实际识别结果可以包括第一语法缺陷翻译文本属于非语法缺陷数据的实际概率(例如,0),和/或,第一语法缺陷翻译文本属于语法缺陷数据的实际概率(例如,1)。
S102:将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型,得到该第一模型输出的该第一标准翻译文本对应的第一预测识别结果和该第一语法缺陷翻译文本对应的第二预测识别结果。
其中,第一预测识别结果是指由第一模型针对第一标准翻译文本输出的预测识别结果;而且本申请实施例不限定第一预测识别结果,例如,第一预测识别结果可以包括第一标准翻译文本属于非语法缺陷数据的预测概率,和/或,第一标准翻译文本属于语法缺陷数据的预测概率。
第二预测识别结果是指由第一模型针对第一语法缺陷翻译文本输出的预测识别结果;而且本申请实施例不限定第二预测识别结果,例如,第二预测识别结果可以包括第一语法缺陷翻译文本属于非语法缺陷数据的预测概率,和/或,第一语法缺陷翻译文本属于语法缺陷数据的预测概率。
第一模型用于区分语法缺陷数据(也就是,按照目标语言下非标准语法进行表达的文本)和非语法缺陷数据(也就是,按照目标语言下标准语法进行表达的文本)。
另外,本申请实施例不限定第一模型的结构,可以采用现有的或者未来出现的任一种分类器结构进行实施。例如,在一种可能的实施方式下,如图2所示,第一模型可以包括第一输入层、第一编码层、交互层和第一输出层;而且第一编码层的输入数据是第一输入层的输出数据,交互层的输入数据是第一编码层的输出数据,第一输出层的输入数据是交互层的输出数据。
为了便于理解图2所示的第一模型的工作原理,下面结合示例进行说明。
作为示例,若将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型,则该第一模型的工作过程可以包括步骤21-步骤24:
步骤21:将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一输入层,得到第一输入层输出的该第一训练源文本对应的第一文本向量、该第一标准翻译文本对应的第二文本向量和该第一语法缺陷翻译文本对应的第三文本向量。
其中,第一输入层用于对该第一输入层的输入数据进行向量化处理,得到该输入数据的文本向量。另外,本申请实施例不限定第一输入层中向量化处理的实施方式,可以采用现有的或者未来出现的任一种能够将文本进行向量化处理的方法(例如,word2vec等词嵌入方法)进行实施。
第一文本向量是指由第一输入层针对第一训练源文本进行向量化处理得到的文本向量,以使该第一文本向量用于表征第一训练源文本携带的文本信息。
第二文本向量是指由第一输入层针对第一标准翻译文本进行向量化得到的文本向量,以使该第二文本向量用于表征第一标准翻译文本携带的文本信息。
第三文本向量是指由第一输入层针对第一语法缺陷翻译文本进行向量化得到的文本向量,以使该第三文本向量用于表征第一语法缺陷翻译文本携带的文本信息。
基于上述步骤21的相关内容可知,在将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型之后,可以由该第一模型中第一输入层分别对该第一训练源文本、该第一标准翻译文本和该第一语法缺陷翻译文本进行向量化处理,得到并输出第一文本向量、第二文本向量和第三文本向量,以使该第一文本向量能够表征第一训练源文本携带的文本信息,该第二文本向量表征第一标准翻译文本携带的文本信息,以及该第三文本向量表征第一语法缺陷翻译文本携带的文本信息。
步骤22:将第一文本向量、第二文本向量和第三文本向量输入第一编码层,得到第一编码层输出的第一训练源文本对应的第一文本编码、第一标准翻译文本对应的第二文本编码和第一语法缺陷翻译文本对应的第三文本编码。
其中,第一文本编码是指由第一编码层根据第一训练源文本对应的第一文本向量进行文本编码得到的,以使该第一文本编码用于表征该第一训练源文本携带的文本信息(例如,句式信息、语义信息等)。
第二文本编码是指由第一编码层根据第一标准翻译文本对应的第二文本向量进行文本编码得到的,以使该第二文本编码用于表征该第一标准翻译文本携带的文本信息。
第三文本编码是指由第一编码层根据第一语法缺陷翻译文本对应的第三文本向量进行文本编码得到的,以使该第一文本编码用于表征该第一语法缺陷翻译文本携带的文本信息。
可见,第一编码层用于对该第一编码层的输入数据进行文本编码,得到该输入数据的编码向量。另外,本申请实施例不限定第一编码层中文本编码过程,可以采用现有的或者未来出现的任一种能够根据文本向量进行编码的方法进行实施。为了便于理解,下面结合图3-图5对第一编码层的三种可能的实施方式进行说明。
在第一种可能的实施方式下,如图3所示,第一编码层可以包括句式编码子层、语义编码子层和第一编码表示子层,而且语义编码子层的输入数据是句式编码子层的输出数据,第一编码表示子层的输入数据是语义编码子层的输出数据。为了便于理解图3所示的第一编码层,下面结合步骤22的一种可能的实施方式进行说明。
在一种可能的实施方式中,步骤22具体可以包括步骤22A1-步骤22A3:
步骤22A1:将第一文本向量、第二文本向量和第三文本向量输入句式编码子层,得到该句式编码子层输出的第一训练源文本对应的第一句式编码、第一标准翻译文本对应的第二句式编码和第一语法缺陷翻译文本对应的第三句式编码。
其中,句式编码子层用于对该句式编码子层的输入数据进行句式编码,得到该输入数据的句式编码向量。
另外,本申请实施例不限定句式编码子层中句式编码过程,可以采用现有的或未来出现的任一种能够基于句子句式进行编码的方法进行实施。例如,句式编码子层可以采用长短期记忆人工神经网络(Long Short-Term Memory,LSTM)进行实施。
第一句式编码是指由句式编码子层根据第一训练源文本对应的第一文本向量进行句式编码得到的;而且该第一句式编码用于表征该第一训练源文本的句式特征(例如,流畅度、语法等方面特征)。
第二句式编码是指由句式编码子层根据第一标准翻译文本对应的第二文本向量进行句式编码得到的;而且该第二句式编码用于表征该第一标准翻译文本的句式特征。
第三句式编码是指由句式编码子层根据第一语法缺陷翻译文本对应的第三文本向量进行句式编码得到的;而且该第三句式编码用于表征该第一语法缺陷翻译文本的句式特征。
步骤22A2:将第一句式编码、第二句式编码和第三句式编码输入语义编码子层,得到该语义编码子层输出的第一训练源文本对应的第一语义编码、第一标准翻译文本对应的第二语义编码和第一语法缺陷翻译文本对应的第三语义编码。
其中,语义编码子层用于对该语义编码子层的输入数据进行语义编码,得到该输入数据的语义编码向量。
另外,本申请实施例不限定语义编码子层中语义编码过程,可以采用现有的或未来出现的任一种能够基于句子语义内容进行编码的方法进行实施。例如,语义编码子层可以采用自注意力机制(self-Attention)进行实施。
第一语义编码是指由语义编码子层根据第一训练源文本对应的第一句式编码进行语义编码得到的;而且该第一语义编码用于表征该第一训练源文本的句式特征和语义特征(例如,语义内容等方面特征)。
第二语义编码是指由语义编码子层根据第一标准翻译文本对应的第二句式编码进行语义编码得到的;而且该第二语义编码用于表征该第一标准翻译文本的句式特征和语义特征。
第三语义编码是指由语义编码子层根据第一语法缺陷翻译文本对应的第三句式编码进行语义编码得到的;而且该第三语义编码用于表征该第一语法缺陷翻译文本的句式特征和语义特征。
步骤22A3:将第一语义编码、第二语义编码和第三语义编码输入第一编码表示子层,得到该第一编码表示子层输出的第一文本编码、第二文本编码和第三文本编码。
其中,第一编码表示子层用于对该第一编码表示子层的输入数据进行第一表示处理,得到该输入数据对应的文本编码向量。
另外,本申请实施例不限定第一表示处理,可以采用现有的或者未来出现的任一种能够根据语义编码进行编码表示的方法进行实施。例如,在一种可能的实施方式下,若第一编码表示子层的输入数据为则第一表示处理可以采用公式(1)进行实施。
式中,hout表示由第一编码表示子层根据该第一编码表示子层的输入数据Hin生成的文本编码向量;为第一编码表示子层的输入数据,N表示Hin中对应的文本中总词数;表示Hin所表征的文本(例如,第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本等)中第k个词对应的编码向量;tfidfk表示Hin所表征的文本中第k个词对应的词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)。需要说明的是,本申请实施例不限定tfidfk的获取方式。
可见,本申请实施例中,在将第一语义编码、第二语义编码和第三语义编码输入第一编码表示子层之后,该第一编码表示子层可以利用公式(1)对第一语义编码、第二语义编码和第三语义编码分别进行第一表示处理,得到并输出第一文本编码、第二文本编码和第三文本编码,以使该第一文本编码能够准确地表征第一训练源文本携带的文本信息,该第二文本编码能够准确地表征第一标准翻译文本携带的文本信息,以及该第三文本编码能够准确地表征第一语法缺陷翻译文本携带的文本信息。
基于上述第一编码层的第一种可能的实施方式的相关内容可知,若第一模型包括图3所示的第一编码层,则在该第一编码层接收到第一输入层的输出数据(如,第一文本向量、第二文本向量、第三文本向量等)之后,可以对该第一输入层的输出数据进行句式编码→语义编码→第一表示处理,得到该第一编码层针对该第一输入层的输出数据生成的文本编码向量(如,第一文本编码、第二文本编码、第三文本编码等)。
在第二种可能的实施方式下,如图4所示,第一编码层可以包括语义编码子层、句式编码子层和第一编码表示子层,而且句式编码子层的输入数据是语义编码子层的输出数据,第一编码表示子层的输入数据是句式编码子层的输出数据。为了便于理解图4所示的第一编码层,下面结合步骤22的一种可能的实施方式进行说明。
在一种可能的实施方式下,步骤22具体可以包括步骤22B1-步骤22B3:
步骤22B1:将第一文本向量、第二文本向量和第三文本向量输入语义编码子层,得到该语义编码子层输出的第一训练源文本对应的第四语义编码、第一标准翻译文本对应的第五语义编码和第一语法缺陷翻译文本对应的第六语义编码。
其中,步骤22B1中“语义编码子层”的相关内容可以参见上文步骤22A2中“语义编码子层”的相关内容。
第四语义编码是指由语义编码子层根据第一训练源文本对应的第一文本向量进行语义编码得到的;而且该第一语义编码用于表征该第一训练源文本的语义特征(例如,语义内容等方面特征)。
第五语义编码是指由语义编码子层根据第一标准翻译文本对应的第二文本向量进行语义编码得到的;而且该第二语义编码用于表征该第一标准翻译文本的语义特征。
第六语义编码是指由语义编码子层根据第一语法缺陷翻译文本对应的第三文本向量进行语义编码得到的;而且该第三语义编码用于表征该第一语法缺陷翻译文本的语义特征。
步骤22B2:将第四语义编码、第五语义编码和第六语义编码输入句式编码子层,得到该句式编码子层输出的第一训练源文本对应的第四句式编码、第一标准翻译文本对应的第五句式编码和第一语法缺陷翻译文本对应的第六句式编码。
其中,步骤22B2中“句式编码子层”的相关内容可以参见上文步骤22A1中“句式编码子层”的相关内容。
第四句式编码是指由句式编码子层根据第一训练源文本对应的第四语义编码进行句式编码得到的;而且该第四句式编码用于表征该第一训练源文本的语义特征和句式特征。
第五句式编码是指由句式编码子层根据第一标准翻译文本对应的第五语义编码进行句式编码得到的;而且该第五句式编码用于表征该第一标准翻译文本的语义特征和句式特征。
第六句式编码是指由句式编码子层根据第一语法缺陷翻译文本对应的第六语义编码进行句式编码得到的;而且该第六句式编码用于表征该第一语法缺陷翻译文本的语义特征和句式特征。
步骤22B3:将第四句式编码、第五句式编码和第六句式编码输入第一编码表示子层,得到该第一编码表示子层输出的第一文本编码、第二文本编码和第三文本编码。
其中,步骤22B3中“第一编码表示子层”的相关内容可以参见上文步骤22A3中“第一编码表示子层”的相关内容。
可见,本申请实施例中,在将第四句式编码、第五句式编码和第六句式编码输入第一编码表示子层之后,该第一编码表示子层可以利用公式(1)对第四句式编码、第五句式编码和第六句式编码分别进行第一表示处理,得到并输出第一文本编码、第二文本编码和第三文本编码,以使该第一文本编码能够准确地表征第一训练源文本携带的文本信息,该第二文本编码能够准确地表征第一标准翻译文本携带的文本信息,以及该第三文本编码能够准确地表征一语法缺陷翻译文本携带的文本信息。
基于上述第一编码层的第二种可能的实施方式的相关内容可知,若第一模型包括图4所示的第一编码层,则在该第一编码层接收到第一输入层的输出数据(如,第一文本向量、第二文本向量、第三文本向量等)之后,可以对该第一输入层的输出数据进行语义编码→句式编码→第一表示处理,得到该第一编码层针对该第一输入层的输出数据生成的文本编码向量(如,第一文本编码、第二文本编码、第三文本编码等)。
在第三种可能的实施方式下,如图5所示,第一编码层可以包括语义编码子层、句式编码子层和第一编码表示子层,而且第一编码表示子层的输入数据包括句式编码子层的输出数据和语义编码子层的输出数据。为了便于理解图5所示的第一编码层,下面结合步骤22的一种可能的实施方式进行说明,
在一种可能的实施方式下,步骤22具体可以包括步骤22C1-步骤22C3:
步骤22C1:将第一文本向量、第二文本向量和第三文本向量输入句式编码子层,得到句式编码子层输出的第一训练源文本对应的第一句式编码、第一标准翻译文本对应的第二句式编码和第一语法缺陷翻译文本对应的第三句式编码。
需要说明的是,步骤22C1的相关内容请参见上文步骤22A1的相关内容。
步骤22C2:将第一文本向量、第二文本向量和第三文本向量输入语义编码子层,得到语义编码子层输出的第一训练源文本对应的第四语义编码、第一标准翻译文本对应的第五语义编码和第一语法缺陷翻译文本对应的第六语义编码。
需要说明的是,步骤22C2的相关内容请参见上文步骤22B1的相关内容。
步骤22C3:将第一句式编码、第二句式编码、第三句式编码、第四语义编码、第五语义编码和第六语义编码输入第一编码表示子层,得到第一编码表示子层输出的第一文本编码、第二文本编码和第三文本编码。
其中,第一编码表示子层用于对该第一编码表示子层的输入数据进行编码拼接处理和第二表示处理,得到该输入数据对应的文本编码向量。
其中,编码拼接处理用于针对句式编码向量和语义编码向量进行拼接;而且本申请实施例不限定编码拼接处理拼接过程,可以采用现有的或者未来出现的任一种能够将两个编码向量进行拼接的方法(如图6所示的拼接方法)进行实施。
另外,本申请实施例不限定第二表示处理,可以采用现有的或者未来出现的任一种能够根据语义编码进行编码表示的方法进行实施。例如,在一种可能的实施方式下,若第一编码表示子层的输入数据包括句式编码向量及其对应的语义编码向量则先利用图6所示的拼接方法针对和进行编码拼接处理,得到拼接编码向量再利用公式(2)对Zin进行第二表示处理,得到该输入数据对应的文本编码向量zout。
式中,zout表示由第一编码表示子层根据拼接编码向量Zin生成的该第一编码表示子层的输入数据对应的文本编码向量;拼接编码向量Zin是指由句式编码向量及其对应的语义编码向量进行编码拼接处理得到的,以使 N表示句式编码向量对应的文本中总词数,至分别表示句式编码向量对应的文本中第1个词对应的句式编码至第N个词对应的句式编码;至分别表示语义编码向量对应的文本中第1个词对应的语义编码至第N个词对应的语义编码;tfidfk表示对应的文本(也就是,将句式编码向量对应的文本与语义编码向量对应的文本进行拼接得到的文本)中第k个词对应的TF-IDF。
可见,本申请实施例中,在将第一句式编码、第二句式编码、第三句式编码、第四语义编码、第五语义编码和第六语义编码输入第一编码表示子层之后,可以将第一句式编码和第四语义编码进行编码拼接,得到第一训练源文本对应的第一拼接编码向量,并对该第一拼接编码向量进行第二表示处理,得到并输出第一文本编码,以使该第一文本编码能够准确地表征第一训练源文本携带的文本信息;同样,可以将第二句式编码和第五语义编码进行编码拼接,得到第一标准翻译文本对应的第二拼接编码向量,并对该第二拼接编码向量进行第二表示处理,得到并输出第二文本编码,以使该第二文本编码能够准确地表征第一标准翻译文本携带的文本信息;同样,可以将第三句式编码和第六语义编码进行编码拼接,得到第一语法缺陷翻译文本对应的第三拼接编码向量,并对该第三拼接编码向量进行第二表示处理,得到并输出第三文本编码,以使该第三文本编码能够准确地表征第一语法缺陷翻译文本携带的文本信息。
基于上述第一编码层的第三种可能的实施方式的相关内容可知,若第一模型包括图5所示的第一编码层,则在该第一编码层接收到第一输入层的输出数据(如,第一文本向量、第二文本向量、第三文本向量等)之后,可以先对该第一输入层的输出数据分别进行句式编码和语义编码,再根据句式编码结果和该句式编码结果对应的语义编码结果进行编码拼接处理和第二表示处理,得到该第一编码层针对该第一输入层的输出数据生成的文本编码向量(如,第一文本编码、第二文本编码、第三文本编码等)。
基于上述步骤22的相关内容可知,当第一模型中第一输出层输出第一文本向量、第二文本向量和第三文本向量之后,该第一模型中第一编码层可以根据第一文本向量、第二文本向量和第三文本向量进行文本编码,得到并输出第一文本编码、第二文本编码和第三文本编码,以使该第一文本编码能够准确地表征第一训练源文本携带的文本信息,该第二文本编码能够准确地表征第一标准翻译文本携带的文本信息,以及该第三文本编码能够准确地表征第一语法缺陷翻译文本携带的文本信息。
步骤23:将第一文本编码、第二文本编码和第三文本编码输入交互层,得到该交互层输出的第一标准翻译文本对应的第一交互向量和第一语法缺陷翻译文本对应的第二交互向量。
其中,第一交互向量是由交互层根据第一文本编码和第二文本编码进行信息交互得到的交互编码向量,以使该第一交互向量表示第一文本编码与第二文本编码之间的交互编码向量。
第二交互向量是由交互层根据第一文本编码和第三文本编码进行信息交互得到的交互编码向量,以使该第二交互向量表示第一文本编码与第三文本编码之间的交互编码向量。
可见,交互层用于将该交互层的输入数据进行信息交互,得到该输入数据对应的交互编码向量。另外,本申请实施例不限定交互层,例如,在一种可能的实施方式中,该交互层可以包括交叉注意力编码子层和第二编码表示子层,且该第二编码表示子层的输入数据是交叉注意力编码子层的输出数据。为了便于理解上述交互层,下面结合步骤23的一种可能的实施方式进行说明。
在一种可能的实施方式下,步骤23具体可以包括步骤231-步骤232:
步骤231:将第一文本编码、第二文本编码和第三文本编码输入交叉注意力编码子层,得到交叉注意力编码子层输出的第一标准翻译文本对应的第一权重和第一语法缺陷翻译文本对应的第二权重。
其中,交叉注意力编码子层用于对该交叉注意力编码子层的输入数据进行交叉注意力编码,得到该输入数据对应的交叉注意力权重。
另外,本申请实施例不限定交叉注意力编码子层,例如,交叉注意力编码子层可以采用公式(3)-(4)进行实施。
α1=softmax(H1·H2) (3)
α2=softmax(H1·H3) (4)
式中,α1表示第一权重;H1表示第一文本编码;H2表示第二文本编码;α2表示第二权重;H3表示第三文本编码。
可见,在将第一文本编码、第二文本编码和第三文本编码输入交叉注意力编码子层之后,该交叉注意力编码子层根据第一文本编码和第二文本编码,利用公式(3)进行交叉注意力编码,得到并输出第一权重,以使该第一权重能够准确地表示出第一标准翻译文本携带的文本信息与第一训练源文本携带的文本信息之间的相似程度;同样,该交叉注意力编码子层根据第一文本编码和第三文本编码,利用公式(4)进行交叉注意力编码,得到并输出第二权重,以使该第二权重能够准确地表示出第一语法缺陷翻译文本携带的文本信息与第一训练源文本携带的文本信息之间的相似程度。
步骤232:将第二文本编码、第三文本编码、第一权重和第二权重输入第二编码表示子层,得到第二编码表示子层输出的第一交互向量和第二交互向量。
本申请实施例中,在将第二文本编码、第三文本编码、第一权重和第二权重输入第二编码表示子层之后,该第二编码表示子层可以将第二文本编码和第一权重的乘积确定为第一交互向量,以使该第一交互向量能够更准确全面地表示出第一标准翻译文本携带的文本信息;同样,该第二编码表示子层可以将第三文本编码和第二权重的乘积确定为第二交互向量,以使该第二交互向量能够更准确全面地表示出第一语法缺陷翻译文本携带的文本信息。
基于上述步骤23的相关内容可知,当第一模型中第一编码层输出第一文本编码、第二文本编码和第三文本编码之后,该第一模型中交互层可以根据第一文本编码和第二文本编码进行信息交互,得到并输出第一交互向量,以使该第一交互向量除了携带有第一标准翻译文本的语义信息、句式信息等以外,还携带有第一标准翻译文本与第一训练源文本之间的匹配描述信息,从而使得该第一交互向量能够更准确全面地表示出第一标准翻译文本携带的文本信息;同样,该交互层也可以根据第一文本编码和第三文本编码进行信息交互,得到并输出第二交互向量,以使该第二交互向量除了携带有第一语法缺陷翻译文本的语义信息、句式信息等以外,还携带有第一语法缺陷翻译文本与第一训练源文本之间的匹配描述信息,从而使得该第二交互向量能够更准确全面地表示出第一语法缺陷翻译文本携带的文本信息。
步骤24:将第一交互向量和第二交互向量输入第一输出层,得到第一输出层输出的第一预测识别结果和第二预测识别结果。
其中,第一输出层用于对该第一输出层的输入数据进行分类概率预测;而且本申请实施例不限定第一输出层,例如,第一输出层可以是全连接层。
可见,当第一模型中交互层输出第一交互向量和第二交互向量之后,该第一模型中第一输出层可以根据第一交互向量确定出第一预测识别结果,以使该第一预测识别结果能够表示出第一标准翻译文本属于语法缺陷数据的可能性(和/或属于非语法缺陷数据的可能性);同样,该第一输出层也可以根据第二交互向量确定出第二预测识别结果,以使该第二预测识别结果能够表示出第一语法缺陷翻译文本属于语法缺陷数据的可能性(和/或属于非语法缺陷数据的可能性)。
基于步骤21至步骤24的相关内容来说,对于图2所示的第一模型来说,该第一模型可以针对该第一模型的输入数据进行向量化→文本编码→信息交互→全连接,得到并输出该输入数据对应的预测识别结果。
在一些情况下,为了能够保证第一模型能够更准确地区分出非语法缺陷数据和语法缺陷数据,本申请实施例还提供了第一模型的一种可能的实施方式,如图7所示,该第一模型可以包括源文本编码子模型、标准文本识别子模型和缺陷文本识别子模型;而且标准文本识别子模型的输入数据和缺陷文本识别子模型的输入数据均包括源文本编码子模型的输出数据。
为了便于理解图7所示的第一模型的工作原理,下面结合示例进行说明。
作为示例,若将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型,则该第一模型的工作过程可以包括步骤31-步骤34:
步骤31:将第一训练源文本输入源文本编码子模型,得到源文本编码子模型输出的第一训练源文本的编码向量。
其中,源文本编码子模型用于对源语言下文本数据进行文本编码。另外,本申请实施例不限定源文本编码子模型,可以采用现有的或者未来出现的任一种文本编码模型进行实施。例如,源文本编码子模型可以包括源文本输入层和源文本编码层,而且该源文本编码层的输入数据是源文本输入层的输出数据。
需要说明的是,源文本输入层和源文本编码层均专用于对源语言下文本数据进行处理。另外,本申请实施例不限定源文本输入层,例如,该源文本输入层可以采用上文第一输入层的任一实施方式进行实施,只需将上文第一输入层的任一实施方式的层参数设置为在对源语言下文本数据进行向量化处理时所需使用的层参数即可。同样,本申请实施例不限定源文本编码层,例如,该源文本编码层可以采用上文第一编码层的任一实施方式进行实施,只需将上文第一编码层的任一实施方式的层参数设置为在对源语言下文本数据对应的文本向量进行文本编码时所需使用的层参数即可。
第一训练源文本的编码向量用于表征第一训练源文本携带的文本信息。
基于上述步骤31的相关内容可知,在将第一训练源文本输入到第一模型中源文本编码子模型之后,该源文本编码子模型可以对该第一训练源文本进行向量化处理以及文本编码,得到该第一训练源文本的编码向量,以使该第一训练源文本的编码向量能够准确地表征第一训练源文本携带的文本信息。
步骤32:将第一标准翻译文本和第一训练源文本的编码向量输入标准文本识别子模型,得到该标准文本识别子模型输出的第一预测识别结果。
其中,标准文本识别子模型用于识别一个目标语言下的翻译文本是否是按照目标语言下的标准语法进行表达的(也就是,用于识别一个目标语言下的翻译文本是否为目标语言下的标准翻译文本)。
另外,本申请实施例不限定标准文本识别子模型,例如,在一种可能的情况下,该标准文本识别子模型可以包括标准文本输入层、标准文本编码层、标准文本交叉层和标准文本输出层。
需要说明的是,本申请实施例不限定标准文本输入层、标准文本编码层、标准文本交叉层和标准文本输出层。例如,标准文本输入层可以采用上文第一输入层的任一实施方式进行实施,只需将上文第一输入层的任一实施方式的层参数设置为在对标准翻译文本进行向量化处理时所需使用的层参数即可;标准文本编码层可以采用上文第一编码层的任一实施方式进行实施,只需将上文第一编码层的任一实施方式的层参数设置为在对标准翻译文本进行文本编码时所需使用的层参数即可;标准文本交叉层可以采用上文交互层的任一实施方式进行实施,只需将上文交互层的任一实施方式的层参数设置为在对标准翻译文本和该标准翻译文本对应的源文本进行信息交互时所需使用的层参数即可;标准文本输出层可以采用上文第一输出层的任一实施方式进行实施,只需将上文第一输出层的任一实施方式的层参数设置为在对标准翻译文本进行分类概率预测时所需使用的层参数即可。
可见,若标准文本识别子模型包括标准文本输入层、标准文本编码层、标准文本交叉层和标准文本输出层,则在将第一标准翻译文本和第一训练源文本的编码向量输入标准文本识别子模型之后,可以先由标准文本输入层针对该第一标准翻译文本进行向量化处理,得到并输出该第一标准翻译文本的文本向量;再由标准文本编码层根据该第一标准翻译文本的文本向量进行文本编码,得到并输出该第一标准翻译文本的编码向量;然后,由标准文本交叉层根据该第一标准翻译文本的编码向量和第一训练源文本的编码向量进行信息交互,得到并输出该第一标准翻译文本的交互编码向量;最后,由标准文本输出层根据该第一标准翻译文本的交互编码向量进行分类概率预测,得到并输出第一预测识别结果。
步骤33:将第一语法缺陷翻译文本和第一训练源文本的编码向量输入缺陷文本识别子模型,得到该缺陷文本识别子模型输出的第二预测识别结果。
其中,缺陷文本识别子模型用于识别一个目标语言下文本数据是否按照目标语言下的非标准语法进行表达(也就是,用于识别一个目标语言下的翻译文本是否为语法缺陷翻译文本)。
另外,本申请实施例不限定缺陷文本识别子模型,例如,在一种可能的情况下,该缺陷文本识别子模型可以包括语法缺陷文本输入层、语法缺陷文本编码层、语法缺陷文本交叉层和语法缺陷文本输出层。
需要说明的是,本申请实施例不限定语法缺陷文本输入层、语法缺陷文本编码层、语法缺陷文本交叉层和语法缺陷文本输出层。例如,语法缺陷文本输入层可以采用上文第一输入层的任一实施方式进行实施,只需将上文第一输入层的任一实施方式的层参数设置为在对语法缺陷翻译文本进行向量化处理时所需使用的层参数即可;语法缺陷文本编码层可以采用上文第一编码层的任一实施方式进行实施,只需将上文第一编码层的任一实施方式的层参数设置为在对语法缺陷翻译文本进行文本编码时所需使用的层参数即可;语法缺陷文本交叉层可以采用上文交互层的任一实施方式进行实施,只需将上文交互层的任一实施方式的层参数设置为在对语法缺陷翻译文本和该语法缺陷翻译文本对应的源文本进行信息交互时所需使用的层参数即可;语法缺陷文本输出层可以采用上文第一输出层的任一实施方式进行实施,只需将上文第一输出层的任一实施方式的层参数设置为在对语法缺陷翻译文本进行分类概率预测时所需使用的层参数即可。
可见,若缺陷文本识别子模型包括语法缺陷文本输入层、语法缺陷文本编码层、语法缺陷文本交叉层和语法缺陷文本输出层,则在将第一语法缺陷翻译文本和第一训练源文本的编码向量输入缺陷文本识别子模型之后,可以先由语法缺陷文本输入层针对该第一语法缺陷翻译文本进行向量化处理,得到并输出该第一语法缺陷翻译文本的文本向量;再由语法缺陷文本编码层根据该第一语法缺陷翻译文本的文本向量进行文本编码,得到并输出该第一语法缺陷翻译文本的编码向量;然后,由语法缺陷文本交叉层根据该第一语法缺陷翻译文本的编码向量和第一训练源文本的编码向量进行信息交互,得到并输出该第一语法缺陷翻译文本的交互编码向量;最后,由语法缺陷文本输出层根据该第一语法缺陷翻译文本的交互编码向量进行分类概率预测,得到并输出第一预测识别结果。
基于步骤31至步骤33的相关内容可知,对于图7所示的第一模型来说,可以利用源文本编码子模型处理源语言下文本数据、利用标准文本识别子模型识别非语法缺陷数据(也就是目标语言下标准翻译文本)并利用缺陷文本识别子模型识别语法缺陷数据,以使得第一模型能够更准确地区分出非语法缺陷数据和语法缺陷数据(如图8所示),如此有利于提高模型的识别准确率。
基于上述S102的相关内容可知,在获取到第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本之后,可以将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型,以使该第一模型能够根据第一训练源文本和第一标准翻译文本,识别该第一标准翻译文本是否为语法缺陷数据,得到并输出第一预测识别结果,以使该第一预测识别结果用于表示出该第一标准翻译文本属于语法缺陷数据的可能性(和/或属于非语法缺陷数据的可能性);同样,该第一模型能够根据第一训练源文本和第一语法缺陷翻译文本,识别该第一语法缺陷翻译文本是否为语法缺陷数据,得到并输出第二预测识别结果,以使该第二预测识别结果用于表示出该第一语法缺陷翻译文本属于语法缺陷数据的可能性(和/或属于非语法缺陷数据的可能性)。
S103:判断是否达到第一停止条件,若是,则执行S105;若否,则执行S104。
其中,第一停止条件可以预先设定;而且本申请实施例不限定第一停止条件。例如,第一停止条件可以为第一模型的预测损失低于第一损失阈值,也可以为第一模型的预测损失的变化率低于第一变化率阈值,还可以为第一模型的更新次数达到第一次数阈值。需要说明的是,第一损失阈值、第一变化率阈值和第一次数阈值均可以预先设定。
另外,本申请实施例不限定第一模型的预测损失的获取过程,例如,在一种可能的实施方式下,第一模型的预测损失的获取过程可以包括步骤41-步骤44:
步骤41:根据第一预测识别结果和第一实际识别结果,确定标准文本识别损失。
其中,标准文本识别损失用于描述第一模型针对标准翻译文本的识别性能;而且,本申请实施例不限定标准文本识别损失的计算过程,例如,可以根据第一预测识别结果和第一实际识别结果之间的均方误差,确定标准文本识别损失。
可见,若第一训练源文本的个数为M,则第一标准翻译文本的个数也为M;此时,步骤41具体可以为:根据M个第一标准翻译文本对应的第一预测识别结果以及第一实际识别结果,利用公式(5)计算标准文本识别损失。
式中,Losspos为标准文本识别损失;为第m个第一标准翻译文本对应的第一实际识别结果;为第m个第一标准翻译文本对应的第一预测识别结果;m为正整数,m≤M。需要说明的是,第m个第一标准翻译文本表示第m个第一训练源文本对应的标准翻译文本。
步骤42:根据第二预测识别结果和第二实际识别结果,确定缺陷文本识别损失。
其中,缺陷文本识别损失用于描述第一模型针对语法缺陷翻译文本的识别性能;而且,本申请实施例不限定缺陷文本识别损失的计算过程,例如,可以根据第二预测识别结果和第二实际识别结果之间的均方误差,确定缺陷文本识别损失。
可见,若第一训练源文本的个数为M,则第一语法缺陷翻译文本的个数也为M;此时,步骤42具体可以为:根据M个第一语法缺陷翻译文本对应的第二预测识别结果以及第二实际识别结果,利用公式(6)计算语法缺陷文本识别损失。
式中,Lossneg为语法缺陷文本识别损失;为第m个第一语法缺陷翻译文本对应的第二实际识别结果;为第m个第一语法缺陷翻译文本对应的第二预测识别结果;m为正整数,m≤M。需要说明的是,第m个第一语法缺陷翻译文本表示第m个第一训练源文本对应的语法缺陷翻译文本。
步骤43:根据第一预测识别结果和第二预测识别结果,确定文本区分损失。
其中,文本区分损失用于描述第一模型针对语法缺陷数据和非语法缺陷数据的区分性能;而且,本申请实施例不限定文本区分损失,例如,可以根据第一预测识别结果和第二预测识别结果之间的差值,确定文本区分损失。
可见,若第一训练源文本的个数为M,则第一标准翻译文本的个数也为M,且第一语法缺陷翻译文本的个数也为M;此时,步骤43具体可以为:根据M个第一标准翻译文本对应的第一预测识别结果和M个第一语法缺陷翻译文本对应的第二预测识别结果,利用公式(7)计算文本区分损失。
式中,Losspair为文本区分损失;为第m个第一标准翻译文本对应的第一预测识别结果;为第m个第一语法缺陷翻译文本对应的第二预测识别结果;m为正整数,m≤M。
步骤44:根据标准文本识别损失、缺陷文本识别损失和文本区分损失,确定第一模型的预测损失。
本申请实施例中,在获取到标准文本识别损失、缺陷文本识别损失和文本区分损失之后,可以将标准文本识别损失、缺陷文本识别损失和文本区分损失进行加权求和(如公式(8)所示),得到第一模型的预测损失。
Lossmodel1=β1×sqrt(Losspos)+β2×sqrt(Lossneg)-β3×Losspair (8)
式中,Lossmodel1为第一模型的预测损失;β1为标准文本识别损失对应的权重;Losspos为标准文本识别损失;β2为缺陷文本识别损失对应的权重;Lossneg为缺陷文本识别损失;β3为文本区分损失对应的权重;Losspair为文本区分损失;sqrt()为计算平方根的函数。
基于上述步骤41至步骤44的相关内容可知,在获取到第一模型输出的第一预测识别结果和第二预测识别结果之后,可以先根据第一预测识别结果、第二预测识别结果、第一实际识别结果和第二实际识别结果,分别计算得到标准文本识别损失、缺陷文本识别损失以及文本区分损失;再根据标准文本识别损失、缺陷文本识别损失以及文本区分损失,确定第一模型的预测损失,以使该预测损失能够准确地表示出该第一模型的识别性能。
基于上述S103的相关内容可知,本申请实施例中,对于当前轮第一模型来说,可以判断当前轮第一模型是否达到第一停止条件,若达到,则表示当前轮第一模型具有较好的识别性能,故可以结束对第一模型的训练过程,并根据当前轮第一模型构建语法缺陷数据识别模型,以使构建好的语法缺陷数据识别模型也具有较好的识别性能;若未达到,则表示当前轮第一模型具有较差的识别性能,故可以根据第一预测识别结果、第二预测识别结果、第一实际识别结果和第二实际识别结果更新第一模型,以使更新后的第一模型具有更好的识别性能。
S104:根据第一预测识别结果、第二预测识别结果、第一实际识别结果和第二实际识别结果,更新第一模型,并返回执行S102。
本申请实施例不限定第一模型的更新过程,例如,在一种可能的实施方式下,S104具体可以为:先根据第一预测识别结果、第二预测识别结果、第一实际识别结果和第二实际识别结果,确定第一模型的预测损失;再根据该第一模型的预测损失,更新第一模型,并返回执行S102。其中,“第一模型的预测损失”的相关内容请参见上文S103中“第一模型的预测损失”的相关内容。
S105:根据第一模型,构建语法缺陷数据识别模型。
本申请实施例不限定S105的实施方式,为了便于理解,下面结合三个示例进行说明。
示例1,S105具体可以为:将第一模型确定为语法缺陷数据识别模型。
可见,在确定第一模型达到第一停止条件时,直接将第一模型确定为语法缺陷数据识别模型,以便后续能够利用该语法缺陷数据识别模型识别一个翻译文本是否为语法缺陷数据。例如,若第一模型包括源文本编码子模型、标准文本识别子模型和缺陷文本识别子模型,则根据源文本编码子模型、标准文本识别子模型和缺陷文本识别子模型,构建语法缺陷数据识别模型,以使该语法缺陷数据识别模型包括源文本编码子模型、标准文本识别子模型和缺陷文本识别子模型。
需要说明的是,对于示例1来说,因第一模型的输入数据包括三种类型的文本(例如,第一训练源文本、第一标准翻译文本、第一语法缺陷翻译文本),使得语法缺陷数据识别模型的输入数据也需要包括该三种类型的文本,故后续在利用语法缺陷数据识别模型对待识别文本进行识别时,该语法缺陷数据识别模型的输入数据可以包括待识别文本的源文本(相当于上文“第一训练源文本”)、待识别文本(相当于上文“第一标准翻译文本”)和待识别文本(相当于上文“第一语法缺陷翻译文本”),而且最后可以根据该语法缺陷数据识别模型输出的两个预测识别结果中的至少一个,确定该待识别文本的预测识别结果。
示例2,当第一模型包括源文本编码子模型、标准文本识别子模型和缺陷文本识别子模型时,S105具体可以为:根据源文本编码子模型和标准文本识别子模型,构建语法缺陷数据识别模型。
可见,若第一模型包括源文本编码子模型、标准文本识别子模型和缺陷文本识别子模型,则在确定第一模型达到第一停止条件时,可以根据源文本编码子模型和标准文本识别子模型,构建语法缺陷数据识别模型,以使该语法缺陷数据识别模型包括源文本编码子模型和标准文本识别子模型。
需要说明的是,对于示例2来说,因语法缺陷数据识别模型是根据第一模型中的部分结构(例如,源文本编码子模型和标准文本识别子模型)进行构建的,使得该语法缺陷数据识别模型可以输入两种类型的文本(例如,第一训练源文本、第一标准翻译文本),故后续在利用语法缺陷数据识别模型对待识别文本进行识别时,该语法缺陷数据识别模型的输入数据可以包括待识别文本的源文本(相当于上文“第一训练源文本”)和待识别文本(相当于上文“第一标准翻译文本”),而且该语法缺陷数据识别模型输出的预测识别结果也只有一个,故可以直接将该语法缺陷数据识别模型输出的预测识别结果,确定为该待识别文本的预测识别结果。
示例3,当第一模型包括源文本编码子模型、缺陷文本识别子模型和缺陷文本识别子模型时,S105具体可以为:根据源文本编码子模型和缺陷文本识别子模型,构建语法缺陷数据识别模型。
可见,若第一模型包括源文本编码子模型、标准文本识别子模型和缺陷文本识别子模型,则在确定第一模型达到第一停止条件时,可以根据源文本编码子模型和缺陷文本识别子模型,构建语法缺陷数据识别模型,以使该语法缺陷数据识别模型包括源文本编码子模型和缺陷文本识别子模型。
需要说明的是,对于示例3来说,因语法缺陷数据识别模型是根据第一模型中的部分结构(例如,源文本编码子模型和缺陷文本识别子模型)进行构建的,使得该语法缺陷数据识别模型可以输入两种类型的文本(例如,第一训练源文本、第一语法缺陷翻译文本),故后续在利用语法缺陷数据识别模型对待识别文本进行识别时,该语法缺陷数据识别模型的输入数据可以包括待识别文本的源文本(相当于上文“第一训练源文本”)和待识别文本(相当于上文“第一语法缺陷翻译文本”),而且该语法缺陷数据识别模型输出的预测识别结果也只有一个,故可以直接将该语法缺陷数据识别模型输出的预测识别结果,确定为该待识别文本的预测识别结果。
基于上述S101至S105的相关内容可知,在获取到第一训练源文本、第一标准翻译文本、第一语法缺陷翻译文本、该第一标准翻译文本对应的第一实际识别结果和该第一语法缺陷翻译文本对应的第二实际识别结果之后,先将该第一训练源文本、该第一标准翻译文本和该第一语法缺陷翻译文本输入第一模型,得到该第一模型输出的该第一标准翻译文本对应的第一预测识别结果和该第一语法缺陷翻译文本对应的第二预测识别结果;再根据该第一预测识别结果、该第二预测识别结果、该第一实际识别结果和该第二实际识别结果,更新该第一模型,并返回执行上述将该第一训练源文本、该第一标准翻译文本和该第一语法缺陷翻译文本输入第一模型的步骤,直至在达到第一停止条件时,根据该第一模型,构建该语法缺陷数据识别模型。其中,第一标准翻译文本表示第一训练源文本对应的标准翻译文本;第一语法缺陷翻译文本表示第一训练源文本对应的语法缺陷翻译文本。
可见,因第一模型是根据第一训练源文本、该第一训练源文本对应的标准翻译文本及其第一实际识别结果、和该第一训练源文本对应的语法缺陷翻译文本及其第二实际识别结果训练得到的,使得该第一模型能够准确地区分出存在语法缺陷的文本和不存在语法缺陷的文本(也就是,按照目标语言下标准语法进行表达的文本),从而使得基于该第一模型构建的语法缺陷数据识别模型也能够准确地区分出存在语法缺陷的文本和不存在语法缺陷的文本,如此使得后续能够利用该语法缺陷数据识别模型从大量训练数据中识别出语法缺陷数据,并将识别出的语法缺陷数据从该大量训练数据中清洗出去,以使清洗后训练数据具有较高质量。
在构建好语法缺陷数据识别模型之后,可以使用该语法缺陷数据识别模型进行语法缺陷数据识别。基于此,本申请实施例提供了一种语法缺陷数据识别方法,下面结合附图进行说明。
方法实施例二
参见图9,该图为本申请实施例提供的一种语法缺陷数据识别方法的流程图。
本申请实施例提供的语法缺陷数据识别方法,包括S901-S903:
S901:获取待识别文本和该待识别文本的源文本。
其中,待识别文本是指需要检验是否为语法缺陷数据的文本。
待识别文本的源文本能够通过源语言到目标语言方向的翻译过程转换成待识别文本;而且待识别文本的源文本所属的语言类型(也就是,源语言)不同于该待识别文本所属的语言类型(也就是,目标语言)。
另外,本申请实施例不限定S901的实施方式,例如,在一种可能的实施方式下,当机器翻译模型的训练过程需要N个训练数据,且各个训练数据均包括一个目标文本和该目标文本对应的源文本时,S901具体可以为:将第i个训练数据中目标文本,确定为待识别文本,并将该第i个训练数据中该目标文本对应源文本,确定为该待识别文本的源文本。其中,i为正整数,i≤N。目标文本所属的语言类型为目标语言,且目标文本对应的源文本所属的语言类型为源语言。
可见,为了提高机器翻译模型的翻译性能,可以在利用第i个训练数据对机器翻译模型进行训练之前,先判断第i个训练数据中是否存在语法缺陷数据,而且该判断过程具体可以为:将该第i个训练数据中目标文本确定为待识别文本,并将该第i个训练数据中该目标文本对应源文本,确定为该待识别文本的源文本,以便后续能够利用S902-S903确定待识别文本是否为语法缺陷数据,以便在确定该待识别文本为语法缺陷数据时,确定第i个训练数据中目标文本为语法缺陷数据,从而确定该第i个训练数据中存在语法缺陷数据,故可以将该第i个训练数据从该N个训练数据中清洗出去,如此能够实现将语法缺陷数据从N个训练数据中清洗出去的目的。
S902:将待识别文本和该待识别文本的源文本输入预先构建的语法缺陷数据识别模型,得到该语法缺陷数据识别模型输出的待识别文本的预测识别结果。
其中,语法缺陷数据识别模型用于识别语法缺陷数据;而且该语法缺陷数据识别模型可以利用上文方法实施例一提供的语法缺陷数据识别模型构建方法的任一实施方式进行构建。
待识别文本的预测识别结果用于表征该待识别文本是否属于语法缺陷数据。另外,本申请实施例不限定待识别文本的预测识别结果,例如,待识别文本的预测识别结果可以包括待识别文本属于非语法缺陷数据的预测概率,和/或,待识别文本属于语法缺陷数据的预测概率。
基于上述S902的相关内容可知,在获取到待识别文本和该待识别文本的源文本之后,可以将该待识别文本和该待识别文本的源文本输入语法缺陷数据识别模型,以使该语法缺陷数据识别模型可以根据该待识别文本和该待识别文本的源文本,确定待识别文本属于非语法缺陷数据的预测概率,和/或,待识别文本属于语法缺陷数据的预测概率,得到并输出待识别文本的预测识别结果,以使该待识别文本的预测识别结果能够准确地表示出待识别文本属于目标语言下标准语法的可能性,和/或,该待识别文本属于语法缺陷数据的可能性,以便后续能够基于该待识别文本的预测识别结果准确地确定出该待识别文本是否为语法缺陷数据。
S903:根据待识别文本的预测识别结果,确定该待识别文本是否为语法缺陷数据。
本申请实施例不限定S903的实施方式,为了便于理解,下面结合两种可能的实施方式进行说明。
在第一种可能的实施方式中,S903具体可以为:判断待识别文本的预测识别结果是否满足第二条件,若是,则确定该待识别文本为语法缺陷数据;若否,则确定该待识别文本不是语法缺陷数据。
其中,第二条件可以预先根据应用场景设定。例如,当待识别文本的预测识别结果包括待识别文本属于语法缺陷数据的预测概率时,该第二条件可以设定为高于第一概率阈值(例如,0.5)。又如,当待识别文本的预测识别结果包括待识别文本属于非语法缺陷数据的预测概率时,该第二条件可以设定为低于第二概率阈值(例如,0.5)。还如,当待识别文本的预测识别结果包括待识别文本属于非语法缺陷数据的预测概率和待识别文本属于语法缺陷数据的预测概率时,该第二条件可以设定为待识别文本属于语法缺陷数据的预测概率高于第一概率阈值;和/或,待识别文本属于非语法缺陷数据的预测概率低于第二概率阈值。
基于S903的第一种可能的实施方式的相关内容可知,在获取到待识别文本的预测识别结果之后,若确定待识别文本的预测识别结果满足第二条件,则可以确定该待识别文本是语法缺陷数据;若确定待识别文本的预测识别结果不满足第二条件,则可以确定待识别文本不是语法缺陷数据。
在一些情况下,语法缺陷数据所使用的预设缺陷语法(例如,按照直译方式进行翻译所产生的错误语法)也可能是目标语言下的一种标准语法,使得目标语言下一些标准翻译文本也是按照该预设缺陷语法进行表达的,故为了进一步提高语法缺陷数据的识别准确性,本申请实施例提供了S903的第二种可能的实施方式,其具体可以包括S9031-S9032:
S9031:根据待识别文本、待识别文本的源文本、预先构建的第一对齐模型和预先构建的第二对齐模型,确定待识别文本的语法特征。
第一对齐模型用于按照目标语言下的标准语法将一个翻译文本(例如,待识别文本)与该翻译文本对应的源文本(例如,待识别文本的源文本)进行对齐。其中,翻译文本所属的语言类型为目标语言,且该目标文本对应的源文本所属的语言类型为源语言。
另外,第一对齐模型可以根据第二训练源文本和第二标准翻译文本进行构建。其中,第二训练源文本所属的语言类型为源语言,而且第二标准翻译文本所属的语言类型为目标语言。此外,第一对齐模型的详细内容可以参见下文方法实施例三。
第二对齐模型用于按照预设缺陷语法将一个翻译文本(例如,待识别文本)与该翻译文本对应的源文本(例如,待识别文本的源文本)进行对齐。其中,翻译文本所属的语言类型为目标语言,且该目标文本对应的源文本所属的语言类型为源语言。
其中,预设缺陷语法是指语法缺陷数据所使用的语法;而且,本申请实施例不限定预设缺陷语法,例如,预设缺陷语法可以是任一种翻译过程使用的易导致翻译文本发生错误的语法(如,按照直译方式进行翻译所产生的错误语法)。另外,本申请实施例不限定预设缺陷语法的个数。
另外,第二对齐模型可以根据第三训练源文本和第二语法缺陷翻译文本进行构建。其中,第三训练源文本所属的语言类型为源语言,且第二语法缺陷翻译文本所属的语言类型为目标语言。此外,第二对齐模型的详细内容可以参见下文方法实施例三。
待识别文本的语法特征用于表征待识别文本对应的标准语法与预设缺陷语法之间的相似程度。其中,待识别文本对应的标准语法是指当待识别文本按照目标语言下标准语法进行表达时应该使用的语法。
另外,本申请实施例不限定待识别文本的语法特征的获取方式,例如,在一种可能的实施方式下,待识别文本的语法特征的获取过程具体可以包括步骤51-步骤53:
步骤51:将待识别文本和该待识别文本的源文本输入第一对齐模型,得到该第一对齐模型输出的第一对齐结果。
其中,第一对齐结果是指由第一对齐模型将待识别文本和该待识别文本的源文本进行对齐得到的;而且该第一对齐结果用于表征待识别文本按照目标语言下的标准语法与该待识别文本的源文本进行对齐时所产生的对齐信息。
步骤52:将待识别文本和该待识别文本的源文本输入第二对齐模型,得到该第二对齐模型输出的第二对齐结果。
其中,第二对齐结果是指由第二对齐模型将待识别文本和该待识别文本的源文本进行对齐得到的结果;而且该第二对齐结果用于表征待识别文本按照预设缺陷语法与该待识别文本的源文本进行对齐时所产生的对齐信息。
步骤53:根据第一对齐结果和第二对齐结果,确定待识别文本的语法特征。
本申请实施例不限定步骤53的实施方式,为了便于理解,下面结合步骤53的一种可能的实施方式进行说明。
在一种可能的实施方式下,当第一对齐结果为aij表示由第一对齐模型输出的待识别文本的源文本中第i个待处理对象与该待识别文本中第j个待处理对象之间的对齐概率;而且第二对齐结果为bij表示由第二对齐模型输出的待识别文本的源文本中第i个待处理对象与该待识别文本中第j个待处理对象之间的对齐概率;i为正整数,i≤m,j为正整数,j≤n时,步骤53具体可以为:根据第一对齐结果和第二对齐结果,并利用公式(1)计算出待识别文本的语法特征。
式中,v2表示待识别文本的语法特征;aij表示由第一对齐模型输出的待识别文本的源文本中第i个待处理对象与该待识别文本中第j个待处理对象之间的对齐概率;bij表示由第二对齐模型输出的待识别文本的源文本中第i个待处理对象与该待识别文本中第j个待处理对象之间的对齐概率;m表示待识别文本的源文本中待处理对象个数;n表示待识别文本中待处理对象个数。需要说明的是,本申请实施例不限定待处理对象,待处理对象可以是字和/或词。
可见,若v2的值越小,则表示待识别文本按照目标语言下的标准语法确定的表达方式与该待识别文本按照预设缺陷语法确定的表述方式之间的差异性越小,从而表示该待识别文本对应的标准语法与预设缺陷语法越相似;若v2的值越大,则表示待识别文本按照目标语言下的标准语法确定的表达方式与该待识别文本按照预设缺陷语法确定的表述方式之间的差异性越大,从而表示该待识别文本对应的标准语法与预设缺陷语法越不同。
基于上述步骤51至步骤53的相关内容可知,在获取到待识别文本和该待识别文本的源文本之后,可以先将该待识别文本和该待识别文本的源文本输入第二对齐模型,以使该第二对齐模型按照目标语言下的标准语法计算该待识别文本中各个待处理对象与该待识别文本的源文本中各个待处理对象之间的对齐概率,得到并输出第一对齐结果,以使该第一对齐结果能够准确地表示出该待识别文本按照目标语言下的标准语法与该待识别文本的源文本进行对齐时所产生的对齐信息;并且,还将该待识别文本和该待识别文本的源文本输入第二对齐模型,以使该第二对齐模型按照预设缺陷语法计算该待识别文本中各个待处理对象与该待识别文本的源文本中各个待处理对象之间的对齐概率,得到并输出第二对齐结果,以使该第二对齐结果能够准确地表示出该待识别文本按照预设缺陷语法与该待识别文本的源文本进行对齐时所产生的对齐信息;再根据第一对齐结果和第二对齐结果确定待识别文本的语法特征,以使该待识别文本的语法特征能够准确地表示出待识别文本对应的标准语法与预设缺陷语法之间的相似程度,以便后续能够利用该待识别文本的语法特征辅助确定待识别文本是否为语法缺陷数据。
S9032:根据待识别文本的预测识别结果和该待识别文本的语法特征,确定待识别文本是否为语法缺陷数据。
本申请实施例不限定S9032的实施方式,为了便于理解,下面结合两个示例进行说明。
示例1,S9032具体可以包括S9032A1-S9032A3:
S9032A1:判断待识别文本的语法特征是否满足第一条件,若是,则执行S9032A2;若否,则执行S9032A3。其中,第一条件可以预先设定,例如,第一条件可以为低于预设差值。
S9032A2:根据待识别文本的预测识别结果,确定待识别文本是否为语法缺陷数据。
需要说明的是,S9032A2可以采用上文S903的第一种可能的实施方式的任一实施方式进行实施。
S9032A3:确定待识别文本不是语法缺陷数据。
基于上述示例1的相关内容可知,在获取到待识别文本的预测识别结果以及语法特征之后,可以判断该语法特征是否满足第一条件,以便在确定该语法特征满足第一条件时,可以确定该待识别文本对应的标准语法完全不同于预设缺陷语法,故可以只依据该待识别文本的预测识别结果,确定待识别文本是否为语法缺陷数据;然而,在确定该语法特征不满足第一条件时,可以确定待识别文本的标准语法与预设缺陷语法比较相似(甚至相同),从而可以确定待识别文本是按照目标语言下的标准语法进行表达的,故可以确定该待识别文本不是语法缺陷数据。
示例2,S9032具体可以包括S9032B1-S9032B3:
S9032B1:根据待识别文本的语法特征,确定校正系数。
其中,校正系数用于对待识别文本的预测识别结果进行校正。
另外,本申请实施例不限定该校正系数的获取方式,例如,在一种可能的实施方式下,校正系数可以利用公式(10)进行计算。
其中,γ为校正系数;F()为校正系数的计算函数;v2为待识别文本的语法特征;τ为第一阈值,且第一阈值可以预先设定;T为校正系数,T≥2(如,T=2),且T可以预先设定。
可见,若v2≥τ,则表示待识别文本对应的标准语法完全不同于预设缺陷语法,从而表示待识别文本按照该待识别文本的标准语法进行表达与该待识别文本按照预设缺陷语法进行表达之间的差异性较大,如此使得语法缺陷数据识别模型更易于区分出该待识别文本到底是按照待识别文本的标准语法进行表达的,还是按照预设缺陷语法进行表达的,从而使得该语法缺陷数据识别模型输出的待识别文本的预测识别结果比较准确。
然而,若v2<τ,则表示待识别文本的标准语法与预设缺陷语法比较相似(甚至相同),从而表示待识别文本按照该待识别文本的标准语法进行表达与该待识别文本按照预设缺陷语法进行表达之间的差异性较小(甚至没有差异),如此使得语法缺陷数据识别模型很难区分出该待识别文本到底是按照待识别文本的标准语法进行表达的,还是按照预设缺陷语法进行表达的,从而使得该语法缺陷数据识别模型输出的待识别文本的预测识别结果比较不准确,故可以利用通过校正系数T,对待识别文本的预测识别结果进行校正,以使校正后的待识别文本的预测识别结果(也就是,T×v1)能够更准确地表示出待识别文本属于语法缺陷数据的可能性。
S9032B2:将待识别文本的预测识别结果和校正系数之间的乘积,确定为校正后识别结果。
本申请实施例中,在获取到校正系数之后,可以直接利用该校正系数对该待识别文本的预测识别结果进行校正(如公式(11)所示的校正过程),得到校正后识别结果,以使该校正后识别结果能够更准确地表示出该待识别文本属于语法缺陷数据的可能性,和/或,该待识别文本属于非语法缺陷数据的可能性。
V=γ×v1 (11)
式中,V为校正后识别结果;v1为待识别文本的预测识别结果。
S9032B3:根据校正后识别结果,确定待识别文本是否为语法缺陷数据。
本申请实施例中,在获取到校正后识别结果之后,可以根据该校正后识别结果,确定待识别文本是否为语法缺陷数据;而且该确定过程具体可以为:判断校正后识别结果是否达到第三条件,若是,则确定该待识别文本为语法缺陷数据;若否,则确定该待识别文本不是语法缺陷数据。
其中,第三条件可以预先根据应用场景设定。例如,当待识别文本的校正后识别结果包括待识别文本属于语法缺陷数据的预测概率时,该第三条件可以设定为高于第四概率阈值(例如,0.5)。又如,当待识别文本的校正后识别结果包括待识别文本属于非语法缺陷数据的预测概率时,该第三条件可以设定为低于第五概率阈值(例如,0.5)。还如,当待识别文本的校正后识别结果包括待识别文本属于非语法缺陷数据的预测概率和待识别文本属于语法缺陷数据的预测概率时,该第三条件可以设定为待识别文本属于语法缺陷数据的预测概率高于第四概率阈值;和/或,待识别文本属于非语法缺陷数据的预测概率低于第五概率阈值。
基于上述示例2的相关内容可知,在获取到待识别文本的预测识别结果以及语法特征之后,可以先利用该语法特征计算得到校正系数,以使该校正系数能够准确地表征待识别文本的语法特征对该待识别文本的预测识别结果的影响程度;再利用该校正系数对该待识别文本的预测识别结果进行校正,得到校正后识别结果,以使该校正后识别结果能够更准确地表示出该待识别文本属于语法缺陷数据的可能性(和/或,非语法缺陷数据的可能性);最后,根据该校正后识别结果确定该待识别文本是否为语法缺陷数据,如此有利于提高语法缺陷数据的识别准确性。
基于上述S903的第二种可能的实施方式的相关内容可知,在获取到待识别文本的预测识别结果和该待识别文本的语法特征之后,可以根据待识别文本的预测识别结果以及语法特征,确定该待识别文本是否为语法缺陷数据。其中,因待识别文本的语法特征能够准确地表示出该待识别文本对应的标准语法与预设缺陷语法之间的相似程度,使得结合该待识别文本的预测识别结果以及语法特征综合确定的识别结论“待识别文本是否为语法缺陷数据”更准确,如此有利于提高语法缺陷数据的识别准确性。
基于上述S901至S903的相关内容可知,在本申请提供的语法缺陷数据识别方法中,在获取到待识别文本和该待识别文本的源文本之后,先将该待识别文本和该待识别文本的源文本输入预先构建的语法缺陷数据识别模型,得到该语法缺陷数据识别模型输出的待识别文本的预测识别结果;再根据该待识别文本的预测识别结果,确定该待识别文本是否为语法缺陷数据。
其中,因语法缺陷数据识别模型是根据第一训练源文本、该第一标准翻译文本和该第一语法缺陷翻译文本进行构建的,使得该语法缺陷数据识别模型能够准确地区分出存在语法缺陷的文本和不存在语法缺陷的文本,从而使得基于该语法缺陷数据识别模型确定的待识别文本的预测识别结果能够准确地表示出待识别文本是否属于存在语法缺陷的文本,如此使得基于该待识别文本的预测识别结果能够准确地确定出该待识别文本是否为语法缺陷数据。
另外,本申请实施例不限定本申请实施例提供的语法缺陷数据识别方法的应用场景,为了便于理解,下面分别结合图10和图11对本申请实施例提供的语法缺陷数据识别方法的应用场景进行示例性介绍。其中,图10为本申请实施例提供的应用于终端设备的语法缺陷数据识别方法的应用场景示意图;图11为本申请实施例提供的应用于服务器的语法缺陷数据识别方法的应用场景示意图。
在图10所示的应用场景中,当用户1001在终端设备1002上触发语法缺陷数据识别请求时,终端设备1002接收该语法缺陷数据识别请求,并通过执行本申请实施例提供的语法缺陷数据识别方法的任一实施方式识别待识别文本是否为语法缺陷数据,以便后续该终端设备1002能够使用该待识别文本的识别结果(例如,将该待识别文本的识别结果显示给用户1001;或者,利用该待识别文本的识别结果进行数据清洗)。
在图11所示的应用场景中,当用户1101在终端设备1102上触发语法缺陷数据识别请求时,终端设备1102接收该语法缺陷数据识别请求,并将该语法缺陷数据识别请求转发给服务器1103,以使服务器1103通过执行本申请实施例提供的语法缺陷数据识别方法的任一实施方式识别待识别文本是否为语法缺陷数据,以便后续服务器1103能够使用该待识别文本的识别结果(例如,服务器1103将该待识别文本的识别结果反馈给终端设备1102,以便该终端设备1102将该待识别文本的识别结果显示给用户1101等)。
需要说明的是,上述语法缺陷数据识别请求用于请求识别待识别文本是否为语法缺陷数据,而且本申请实施例不限定语法缺陷数据识别请求的触发方式。
另外,因服务器1103中的语法缺陷数据识别过程与终端设备1002中的语法缺陷数据识别过程类似,故为了便于理解上述两个应用场景下的语法缺陷数据识别过程,下面结合示例进行说明。
以图11所示的语法缺陷数据识别过程为示例,服务器1103中的语法缺陷数据识别过程具体可以为:服务器1103在获取到待识别文本和该待识别文本的源文本之后,先将该待识别文本和该待识别文本的源文本输入预先构建的语法缺陷数据识别模型,得到该语法缺陷数据识别模型输出的待识别文本的预测识别结果;再根据待识别文本的预测识别结果,确定该待识别文本是否为语法缺陷数据。
方法实施例三
为了进一步提高语法缺陷数据的识别准确性,本申请实施例还提供了一种第一对齐模型的构建过程,其具体可以包括步骤61-步骤65:
步骤61:获取第二训练源文本、第二标准翻译文本和第一实际对齐结果。
其中,第二训练源文本是指构建第一对齐模型时所需使用的源语言下文本数据。另外,本申请实施例不限定第二训练源文本的个数。
第二标准翻译文本是指将第二训练源文本按照目标语言下的标准语法进行翻译得到的翻译文本,使得该第二标准翻译文本表示第二训练源文本对应的标准翻译文本。另外,本申请实施例不限定第二标准翻译文本的获取方式。需要说明的是,第二标准翻译文本的个数与第二训练源文本的个数相同。
第一实际对齐结果用于描述第二训练源文本中待对齐对象与第二标准翻译文本中待对齐对象之间的实际对齐概率。另外,本申请实施例不限定待对齐对象,例如,待对齐对象可以为字和/或词。此外,本申请实施例不限定第一实际对齐结果的表示方式(如,可以采用对齐矩阵进行表示)。
步骤62:将第二训练源文本和第二标准翻译文本输入第二模型,得到该第二模型输出的第一预测对齐结果和该第二训练源文本的预测翻译文本。
其中,第一预测对齐结果用于描述第二训练源文本中待对齐对象与第二标准翻译文本中待对齐对象之间的预测对齐概率;而且,该第一预测对齐结果是由第二模型针对第二训练源文本和第二标准翻译文本进行文本对齐得到的。
第二模型具有文本翻译和文本对齐功能,其具体为:若第二模型的输入数据包括一个源文本和该源文本对应的目标文本,则该第二模型用于对该源文本进行源语言到目标语言方向的文本翻译,且用于按照目标语言下的标准语法将该源文本对应的目标文本和该源文本进行文本对齐。
另外,本申请实施例不限定第二模型的模型结构,例如,第二模型可以通过在目标机器翻译模型中增加一个文本对齐层进行实施。为了便于理解第二模型的模型结构,下面以图12所示的第二模型进行说明。
如图12所示,第二模型可以包括第二输入层、第二编码层、第一解码层和第一对齐层。其中,第二编码层的输入数据是第二输入层的输出数据;第一解码层的输入数据包括第二输入层的输出数据和第二编码层的输出数据;第一对齐层的输入数据包括第二编码层的输出数据和第一解码层的输出数据。为了便于理解图12所示的第二模型的工作原理,下面以第一预测对齐结果的生成过程为例进行说明。
作为示例,第一预测对齐结果的生成过程具体可以包括步骤71-步骤74:
步骤71:将第二训练源文本和第二标准翻译文本输入第二输入层,得到该第二输入层输出的第二训练源文本对应的第四文本向量和第二标准翻译文本对应的第五文本向量。
其中,第二输入层用于对该第二输入层的输入数据进行向量化处理,得到该输入数据的文本向量。另外,本申请实施例不限定第二输入层中向量化处理的实施方式,可以采用现有的或者未来出现的任一种能够将文本进行向量化处理的方法(例如,word2vec等词嵌入方法)进行实施。
第四文本向量是指由第二输入层针对第二训练源文本进行向量化处理得到的文本向量,以使该第四文本向量用于表征第二训练源文本携带的文本信息。
第五文本向量是指由第二输入层针对第二标准翻译文本进行向量化处理得到的文本向量,以使该第五文本向量用于表征该第二标准翻译文本携带的文本信息。
步骤72:将第四文本向量输入第二编码层,得到该第二编码层输出的第二训练源文本对应的第四文本编码。
其中,第二编码层用于对该第二编码层的输入数据进行文本编码,得到该输入数据的编码向量。其中,第二编码层的输入数据为源语言下文本数据的文本向量。另外,本申请实施例不限定第二编码层中文本编码过程,可以采用现有的或者未来出现的任一种能够根据文本向量进行编码的方法进行实施。
另外,第四文本编码是指由第二编码层根据第二训练源文本对应的第四文本向量进行文本编码得到的;而且该第四文本编码用于表征该第二训练源文本携带的文本信息。
步骤73:将第五文本向量输入第一解码层,得到该第一解码层输出的第二标准翻译文本对应的第五文本编码。
第一解码层可以用于对该第一解码层的输入数据进行文本编码,得到该输入数据的编码向量。其中,第一解码层的输入数据为目标语言下文本数据的文本向量。
另外,本申请实施例不限定第一解码层中文本编码过程,可以采用现有的或者未来出现的任一种能够根据文本向量进行编码的方法进行实施(例如,第一解码层中文本编码过程可以与第二编码层中文本编码过程相对应,以使该第一解码层能够针对第二编码层的输出数据进行解码处理)。
此外,第五文本编码是指由第一解码层根据第二标准翻译文本对应的第五文本向量进行文本编码得到的;而且该第五文本编码用于表征该第二标准翻译文本携带的文本信息。
步骤74:将第四文本编码和第五文本编码输入第一对齐层,得到该第一对齐层输出的第一预测对齐结果。
其中,第一对齐层用于针对第二输入层的输出数据进行文本对齐,得到该输出数据对应的文本对齐结果。另外,本申请实施例不限定第一对齐层中文本对齐过程,可以采用现有的或者未来出现的任一种能够实现文本对齐的方法进行实施。例如,第一对齐层可以为基于线性连接的全连接层。
基于步骤71至步骤74的相关内容可知,可以由图12所示的第二模型按照目标语言下的标准语法将第二标准翻译文本和第二训练源文本进行文本对齐,得到第一预测对齐结果,以使该第一预测对齐结果能够准确地表示出第二训练源文本中待对齐对象与第二标准翻译文本中待对齐对象之间的预测对齐概率。
另外,因第二模型不仅能够进行文本对齐,还能够进行文本翻译,故为了进一步地理解第二模型的工作原理,下面以第二训练源文本的预测翻译文本的生成过程为例进行说明。
作为示例,如图12所示,若第二模型还包括第二输出层,且该第二输出层的输入数据为第一解码层的输出数据,则第二训练源文本的预测翻译文本的生成过程具体可以包括步骤81-步骤85:
步骤81:将第二训练源文本输入第二输入层,得到该第二输入层输出的第二训练源文本对应的第四文本向量。
需要说明的是,步骤81中“第四文本向量”的相关内容请参见上文步骤71中“第四文本向量”的相关内容。
步骤82:将第四文本向量输入第二编码层,得到第二编码层输出的第二训练源文本对应的第四文本编码。
需要说明的是,步骤82的相关内容请参见上文步骤72的相关内容。
步骤83:将第四文本编码输入第一解码层,得到该第一解码层输出的第一解码向量。
其中,第一解码层还用于对第二编码层的输出数据进行文本解码,得到该输出数据对应的解码向量。需要说明的是,本申请实施例不限定第一解码层中文本解码过程和上文“第一解码层中文本编码过程”之间的关系,例如,第一解码层中文本解码过程可以与上文“第一解码层中文本编码过程”是同一个过程,也可以是不同过程。
第一解码向量是指由第一解码层根据第二训练源文本对应的第四文本编码进行文本解码得到的;而且该第一解码向量用于表征第二训练源文本的预测翻译文本携带的文本信息。
步骤84:将第一解码向量输入第二输出层,得到该第二输出层输出的第二训练源文本的预测翻译文本。
需要说明的是,本申请实施例不限定第二输出层,例如,该第二输出层可以是全连接层。
基于上述步骤81至步骤84的相关内容可知,图12所示的第二模型可以针对源语言下文本数据(如,第二训练源文本)进行文本翻译,得到并输出该源语言下文本数据对应的预测翻译文本。
基于上述步骤62的相关内容可知,在获取到第二训练源文本和第二标准翻译文本之后,可以将该第二训练源文本和第二标准翻译文本输入第二模型,以使该第二模型能够针对第二训练源文本进行文本翻译,得到该第二训练源文本的预测翻译文本,并针对第二训练源文本和第二标准翻译文本进行文本对齐,得到第一预测对齐结果,以使该第一预测对齐结果用于描述第二训练源文本中待对齐对象与第二标准翻译文本中待对齐对象之间的预测对齐概率,以便后续能够根据第一预测对齐结果和第二训练源文本的预测翻译文本,确定第二模型的预测性能。
步骤63:判断是否达到第二停止条件,若是,则执行步骤65;若否,则执行步骤64。
其中,第二停止条件可以预先设定;而且本申请实施例不限定第二停止条件。例如,第二停止条件可以为第二模型的预测损失低于第二损失阈值,也可以为第二模型的预测损失的变化率低于第二变化率阈值,还可以为第二模型的更新次数达到第二次数阈值。需要说明的是,第二损失阈值、第二变化率阈值和第二次数阈值均可以预先设定。
另外,本申请实施例不限定第二模型的预测损失的获取过程,例如,在一种可能的实施方式下,第二模型的预测损失的获取过程可以包括步骤91-步骤93:
步骤91:根据第一预测对齐结果和第一实际对齐结果,确定第一对齐损失。
其中,第一对齐损失用于描述第二模型针对源语言下文本数据及其标准翻译文本之间的文本对齐性能;而且,本申请实施例不限定第一对齐损失的计算过程。
步骤92:根据第二训练源文本的预测翻译文本和第二标准翻译文本,确定第一翻译损失。
其中,第一翻译损失用于描述第二模型针对源语言下文本数据的文本翻译性能;而且,本申请实施例不限定第一翻译损失的计算过程。
步骤93:根据第一对齐损失和第一翻译损失,确定第二模型的预测损失。
基于上述步骤91至步骤93的相关内容可知,在获取到第一预测对齐结果和第二训练源文本的预测翻译文本之后,可以根据第一预测对齐结果与第一实际对齐结果之间的差距、以及该第二训练源文本的预测翻译文本与第二标准翻译文本之间的差距,确定第二模型的预测损失,以使该第二模型的预测损失能够准确地表示出第二模型的预测性能。
基于步骤63的相关内容可知,本申请实施例中,对于当前轮第二模型来说,可以判断当前轮第二模型是否达到第二停止条件,若达到,则表示当前轮第二模型具有较好的预测性能,故可以结束对第二模型的训练过程,并根据当前轮第二模型构建第一对齐模型,以使该第一对齐模型也具有较好的预测性能;若未达到,则表示当前轮第二模型具有较差的预测性能,故可以根据第一预测对齐结果、第一实际对齐结果、第二训练源文本的预测翻译文本和第二标准翻译文本,更新第二模型,以使更新后的第二模型具有更好的预测性能。
步骤64:根据第一预测对齐结果、第一实际对齐结果、第二训练源文本的预测翻译文本和第二标准翻译文本,更新第二模型,并返回执行步骤62。
本申请实施例不限定第二模型的更新过程,例如,在一种可能的实施方式下,步骤64具体可以为:先根据第一预测对齐结果、第一实际对齐结果、第二训练源文本的预测翻译文本和第二标准翻译文本,确定第二模型的预测损失;再根据第二模型的预测损失,更新第二模型,并返回执行步骤62。其中,“第二模型的预测损失”的相关内容请参见上文步骤63中“第二模型的预测损失”的相关内容。
步骤65:根据第二模型,构建第一对齐模型。
本申请实施例不限定步骤65的实施方式,例如,在一种可能的实施方式下,若第二模型包括第二输入层、第二编码层、第一解码层和第一对齐层,则步骤65具体可以为:根据第二输入层、第二编码层、第一解码层和第一对齐层,构建第一对齐模型(如图13所示),以使该第一对齐模型用于对该第一对齐模型的输入数据进行文本对齐。其中,第二编码层的输入数据是第二输入层的输出数据;第一解码层的输入数据为第二输入层的输出数据;第一对齐层的输入数据包括第二编码层的输出数据和第一解码层的输出数据。
需要说明的是,因第一对齐模型只用于进行文本对齐,故可以根据第二模型中用于进行文本对齐的模型参数,确定第一对齐模型,以使该第一对齐模型的文本对齐性能达到第二模型的文本对齐性能。
基于上述步骤61至步骤65的相关内容可知,可以先利用第二训练源文本、第二标准翻译文本和第一实际对齐结果,对第二模型进行训练,以使训练好的第二模型具有较好的文本翻译性能和文本对齐性能;再利用训练好的第二模型,构建第一对齐模型,以使该第一对齐模型也具有较好的文本对齐性能。
此外,为了进一步提高语法缺陷数据的识别准确性,本申请实施例还提供了一种第二对齐模型的构建过程,其具体可以包括步骤101-步骤105:
步骤101:获取第三训练源文本、第二语法缺陷翻译文本和第二实际对齐结果。
其中,第三训练源文本是指构建第二对齐模型时所需使用的源语言下文本数据。另外,本申请实施例不限定第三训练源文本的个数。
第二语法缺陷翻译文本是指将第三训练源文本按照预设缺陷语法进行翻译得到的翻译文本,使得该第二语法缺陷翻译文本表示第三训练源文本对应的语法缺陷翻译文本。另外,本申请实施例不限定第二语法缺陷翻译文本的获取方式。此外,第二语法缺陷翻译文本的个数与第三训练源文本的个数相同。
第二实际对齐结果用于描述第三训练源文本中待对齐对象与第二语法缺陷翻译文本中待对齐对象之间的实际对齐概率。
步骤102:将第三训练源文本和第二语法缺陷翻译文本输入第三模型,得到该第三模型输出的第二预测对齐结果和该第三训练源文本的预测翻译文本。
其中,第二预测对齐结果用于描述第三训练源文本中待对齐对象与第二语法缺陷翻译文本中待对齐对象之间的预测对齐概率;而且,该第二预测对齐结果是由第三模型针对第三训练源文本和第二语法缺陷翻译文本进行文本对齐得到的。
第三模型具有文本翻译和文本对齐功能,其具体为:若第三模型的输入数据包括一个源文本和该源文本对应的目标文本,则该第三模型用于对该源文本进行源语言到目标语言方向的文本翻译,且用于按照预设缺陷语法将该源文本对应的目标文本和该源文本进行文本对齐。
另外,本申请实施例不限定第三模型的模型结构,例如,第三模型的模型结构可以采用上文第二模型的模型结构进行实施。为了便于理解第三模型的模型结构,下面结合示例进行说明。
作为示例,第三模型可以包括第三输入层、第三编码层、第二解码层和第二对齐层。其中,第三编码层的输入数据是第三输入层的输出数据;第二解码层的输入数据包括第三输入层的输出数据和第三编码层的输出数据;第二对齐层的输入数据包括第三编码层的输出数据和第二解码层的输出数据。
基于上述第三模型的模型结构可知,第二预测对齐结果的生成过程可以包括步骤111-步骤114:
步骤111:将第三训练源文本和第二语法缺陷翻译文本输入第三输入层,得到该第三输入层输出的第三训练源文本对应的第六文本向量和第二语法缺陷翻译文本对应的第七文本向量。
其中,第三输入层用于对该第三输入层的输入数据进行向量化处理,得到该输入数据的文本向量。另外,本申请实施例不限定第三输入层中向量化处理的实施方式,可以采用现有的或者未来出现的任一种能够将文本进行向量化处理的方法(例如,word2vec等词嵌入方法)进行实施。
第六文本向量是指由第三输入层针对第三训练源文本进行向量化得到的文本向量,以使该第六文本向量用于表征该第三训练源文本携带的文本信息。
第七文本向量是指由第三输入层针对第二语法缺陷翻译文本进行向量化得到的文本向量,以使该第七文本向量用于表征该第二语法缺陷翻译文本携带的文本信息。
步骤112:将第六文本向量输入第三编码层,得到该第三编码层输出的第三训练源文本对应的第六文本编码。
其中,第三编码层用于对该第三编码层的输入数据进行文本编码,得到该输入数据的编码向量。其中,第三编码层的输入数据为源语言下文本数据的文本向量。另外,本申请实施例不限定第三编码层中文本编码过程,可以采用现有的或者未来出现的任一种能够根据文本向量进行编码的方法进行实施。
第六文本编码是指由第三编码层根据第三训练源文本对应的第六文本向量进行文本编码得到的;而且该第六文本编码用于表征该第三训练源文本携带的文本信息。
步骤113:将第七文本向量输入第二解码层,得到该第二解码层输出的第二语法缺陷翻译文本对应的第七文本编码。
第二解码层可以用于对该第二解码层的输入数据进行文本编码,得到该输入数据的编码向量。其中,第二解码层的输入数据为目标语言下文本数据的文本向量。
另外,本申请实施例不限定第二解码层中文本编码过程,可以采用现有的或者未来出现的任一种能够根据文本向量进行编码的方法进行实施(例如,第二解码层中文本编码过程可以与第三编码层中文本编码过程相对应,以使该第二解码层能够针对第三编码层的输出数据进行解码处理)。
此外,第七文本编码是指由第二解码层根据第二语法缺陷翻译文本对应的第七文本向量进行文本编码得到的;而且该第七文本编码用于表征该第二语法缺陷翻译文本携带的文本信息。
步骤114:将第六文本编码和第七文本编码输入第二对齐层,得到该第二对齐层输出的第二预测对齐结果。
其中,第二对齐层用于针对第三输入层的输出数据进行文本对齐,得到该输出数据对应的文本对齐结果。另外,本申请实施例不限定第二对齐层中文本对齐过程,可以采用现有的或者未来出现的任一种能够实现文本对齐的方法进行实施。例如,第二对齐层可以为基于线性连接的全连接层。
基于步骤111至步骤114的相关内容可知,可以由第三模型按照预设缺陷语法将第二语法缺陷翻译文本和第三训练源文本进行文本对齐,得到第二预测对齐结果,以使该第二预测对齐结果能够准确地表示出第三训练源文本中待对齐对象与第二语法缺陷翻译文本中待对齐对象之间的预测对齐概率。
另外,因第三模型不仅能够进行文本对齐,还能够进行文本翻译,故为了进一步地理解第三模型的工作原理,下面以第三训练源文本的预测翻译文本的生成过程为例进行说明。
作为示例,若第三模型还包括第三输出层,且该第三输出层的输入数据为第二解码层的输出数据,则第三训练源文本的预测翻译文本的生成过程具体可以包括步骤121-步骤125:
步骤121:将第三训练源文本输入第三输入层,得到第三输入层输出的第三训练源文本对应的第六文本向量。
需要说明的是,步骤121中“第六文本向量”的相关内容请参见上文步骤111中“第六文本向量”的相关内容。
步骤122:将第六文本向量输入第三编码层,得到第三编码层输出的第三训练源文本对应的第六文本编码。
需要说明的是,步骤122的相关内容请参见上文步骤112的相关内容。
步骤123:将第六文本编码输入第二解码层,得到该第二解码层输出的第二解码向量。
其中,第二解码层还用于对第三编码层的输出数据进行文本解码,得到该输出数据对应的解码向量。需要说明的是,本申请实施例不限定第二解码层中文本解码过程和上文“第二解码层中文本编码过程”之间的关系,例如,第二解码层中文本解码过程可以与上文“第二解码层中文本编码过程”是同一个过程,也可以是不同过程。
第二解码向量是指由第二解码层根据第三训练源文本对应的第六文本编码进行文本解码得到的;而且该第二解码向量用于表征第三训练源文本的预测翻译文本携带的文本信息。
步骤124:将第二解码向量输入第三输出层,得到该第三输出层输出的第三训练源文本的预测翻译文本。
需要说明的是,本申请实施例不限定第三输出层,例如,该第三输出层可以是全连接层。
基于上述步骤121至步骤124的相关内容可知,第三模型可以针对源语言下文本数据(如,第三训练源文本)进行文本翻译,得到并输出该源语言下文本数据对应的预测翻译文本。
基于上述步骤102的相关内容可知,在获取到第三训练源文本和第二语法缺陷翻译文本之后,可以将该第三训练源文本和第二语法缺陷翻译文本输入第三模型,以使该第三模型能够针对第三训练源文本进行文本翻译,得到该第三训练源文本的预测翻译文本,并针对第三训练源文本和第二语法缺陷翻译文本进行文本对齐,得到第二预测对齐结果,以使该第二预测对齐结果用于描述第三训练源文本中待对齐对象与第二语法缺陷翻译文本中待对齐对象之间的预测对齐概率,以便后续能够根据第二预测对齐结果和第三训练源文本的预测翻译文本,确定第三模型的预测性能。
步骤103:判断是否达到第三停止条件,若是,则执行步骤105;若否,则执行步骤104。
其中,第三停止条件可以预先设定;而且本申请实施例不限定第三停止条件。例如,第三停止条件可以为第三模型的预测损失低于第三损失阈值,也可以为第三模型的预测损失的变化率低于第三变化率阈值,还可以为第三模型的更新次数达到第三次数阈值。需要说明的是,第三损失阈值、第三变化率阈值和第三次数阈值均可以预先设定。
另外,本申请实施例不限定第三模型的预测损失的获取过程,例如,在一种可能的实施方式下,第三模型的预测损失的获取过程可以包括步骤131-步骤133:
步骤131:根据第二预测对齐结果和第二实际对齐结果,确定第二对齐损失。
其中,第二对齐损失用于描述第三模型针对源语言下文本数据及其语法缺陷翻译文本之间的文本对齐性能;而且,本申请实施例不限定第二对齐损失的计算过程。
步骤132:根据第三训练源文本的预测翻译文本和第二语法缺陷翻译文本,确定第二翻译损失。
其中,第二翻译损失用于描述第三模型针对源语言下文本数据的文本翻译性能;而且,本申请实施例不限定第二翻译损失的计算过程。
步骤133:根据第二对齐损失和第二翻译损失,确定第三模型的预测损失。
基于上述步骤131至步骤133的相关内容可知,在获取到第二预测对齐结果和第三训练源文本的预测翻译文本之后,可以根据第二预测对齐结果与第二实际对齐结果之间的差距、以及该第三训练源文本的预测翻译文本与第二语法缺陷翻译文本之间的差距,确定第三模型的预测损失,以使该第三模型的预测损失能够准确地表示出第三模型的预测性能。
基于步骤103的相关内容可知,本申请实施例中,对于当前轮第三模型来说,可以判断当前轮第三模型是否达到第三停止条件,若达到,则表示当前轮第三模型具有较好的预测性能,故可以结束对第三模型的训练过程,并根据当前轮第三模型构建第二对齐模型,以使该第二对齐模型也具有较好的预测性能;若未达到,则表示当前轮第三模型具有较差的预测性能,故可以根据第二预测对齐结果、第二实际对齐结果、第三训练源文本的预测翻译文本和第二语法缺陷翻译文本,更新第三模型,以使更新后的第三模型具有更好的预测性能。
步骤104:根据第二预测对齐结果、第二实际对齐结果、第三训练源文本的预测翻译文本和第二语法缺陷翻译文本,更新第三模型,并返回执行步骤102。
本申请实施例不限定第三模型的更新过程,例如,在一种可能的实施方式下,步骤104具体可以为:先根据第二预测对齐结果、第二实际对齐结果、第三训练源文本的预测翻译文本和第二语法缺陷翻译文本,确定第三模型的预测损失;再根据第三模型的预测损失,更新第三模型,并返回执行步骤102。其中,“第三模型的预测损失”的相关内容请参见上文步骤103中“第三模型的预测损失”的相关内容。
步骤105:根据第三模型,构建第二对齐模型。
本申请实施例不限定步骤105的实施方式,例如,在一种可能的实施方式下,若第三模型包括第三输入层、第三编码层、第二解码层和第二对齐层,则步骤105具体可以为:根据第三输入层、第三编码层、第二解码层和第二对齐层,构建第二对齐模型(如图14所示),以使该第二对齐模型于对该第二对齐模型的输入数据进行文本对齐。其中,第三编码层的输入数据是第三输入层的输出数据;第二解码层的输入数据是第三输入层的输出数据;第二对齐层的输入数据包括第三编码层的输出数据和第二解码层的输出数据。
需要说明的是,因第二对齐模型只用于进行文本对齐,故可以根据第三模型中用于进行文本对齐的模型参数,确定第二对齐模型,以使该第二对齐模型的文本对齐性能达到第三模型的文本对齐性能。
基于上述步骤101至步骤105的相关内容可知,可以先利用第三训练源文本、第二语法缺陷翻译文本和第二实际对齐结果,对第三模型进行训练,以使训练好的第三模型具有较好的文本翻译性能和文本对齐性能;再利用训练好的第三模型,构建第二对齐模型,以使该第二对齐模型也具有较好的文本对齐性能。
基于上述方法实施例提供的语法缺陷数据识别模型构建方法,本申请实施例还提供了一种语法缺陷数据识别模型构建装置,下面结合附图进行解释和说明。
装置实施例一
装置实施例对语法缺陷数据识别模型构建装置进行介绍,相关内容请参见上述方法实施例。
参见图15,该图为本申请实施例提供的语法缺陷数据识别模型构建装置的结构示意图。
本申请实施例提供的语法缺陷数据识别模型构建装置1500,包括:
第一获取单元1501,用于获取所述第一训练源文本、第一标准翻译文本、第一语法缺陷翻译文本、所述第一标准翻译文本对应的第一实际识别结果和所述第一语法缺陷翻译文本对应的第二实际识别结果;其中,所述第一标准翻译文本表示所述第一训练源文本对应的标准翻译文本;所述第一语法缺陷翻译文本表示所述第一训练源文本对应的语法缺陷翻译文本;
第一预测单元1502,用于将所述第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入第一模型,得到所述第一模型输出的所述第一标准翻译文本对应的第一预测识别结果和所述第一语法缺陷翻译文本对应的第二预测识别结果;
模型更新单元1503,用于根据所述第一预测识别结果、所述第二预测识别结果、所述第一实际识别结果和所述第二实际识别结果,更新所述第一模型,并返回所述第一预测单元1502执行所述将第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入第一模型,直至在达到第一停止条件时,根据所述第一模型,构建所述语法缺陷数据识别模型。
在一种可能的实施方式下,模型更新单元1503,包括:
第一更新子单元,用于根据所述第一预测识别结果和所述第一实际识别结果,确定标准文本识别损失;根据所述第二预测识别结果和所述第二实际识别结果,确定缺陷文本识别损失;根据所述第一预测识别结果和所述第二预测识别结果,确定文本区分损失;根据所述标准文本识别损失、所述缺陷文本识别损失和所述文本区分损失,确定所述第一模型的预测损失;根据所述第一模型的预测损失,更新所述第一模型。
在一种可能的实施方式下,所述第一模型包括源文本编码子模型、标准文本识别子模型和缺陷文本识别子模型;
所述第一预测识别结果和所述第二预测识别结果的生成过程包括:
将所述第一训练源文本输入所述源文本编码子模型,得到所述源文本编码子模型输出的所述第一训练源文本的编码向量;将所述第一标准翻译文本和所述第一训练源文本的编码向量输入所述标准文本识别子模型,得到所述标准文本识别子模型输出的所述第一预测识别结果;将所述第一语法缺陷翻译文本和所述第一训练源文本的编码向量输入所述缺陷文本识别子模型,得到所述缺陷文本识别子模型输出的所述第二预测识别结果。
在一种可能的实施方式下,所述根据所述第一模型,构建所述语法缺陷数据识别模型,包括:
根据所述源文本编码子模型和所述标准文本识别子模型,构建所述语法缺陷数据识别模型;
或者,
根据所述源文本编码子模型和所述缺陷文本识别子模型,构建所述语法缺陷数据识别模型。
在一种可能的实施方式下,所述第一模型包括第一输入层、第一编码层、交互层和第一输出层;
所述第一预测识别结果和所述第二预测识别结果的生成过程包括:
将所述第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入所述第一输入层,得到所述第一输入层输出的所述第一训练源文本对应的第一文本向量、所述第一标准翻译文本对应的第二文本向量和所述第一语法缺陷翻译文本对应的第三文本向量;将所述第一文本向量、所述第二文本向量和所述第三文本向量输入所述第一编码层,得到所述第一编码层输出的所述第一文本向量对应的第一文本编码、所述第一标准翻译文本对应的第二文本编码和所述第一语法缺陷翻译文本对应的第三文本编码;将所述第一文本编码、所述第二文本编码和所述第三文本编码输入所述交互层,得到所述交互层输出的所述第一标准翻译文本对应的第一交互向量和所述第一语法缺陷翻译文本对应的第二交互向量;将所述第一交互向量和所述第二交互向量输入所述第一输出层,得到所述第一输出层输出的所述第一预测识别结果和所述第二预测识别结果。
在一种可能的实施方式下,所述第一编码层包括句式编码子层、语义编码子层和第一编码表示子层;
所述第一文本编码、第二文本编码和第三文本编码的生成过程包括:
将所述第一文本向量、所述第二文本向量和所述第三文本向量输入所述句式编码子层,得到所述句式编码子层输出的所述第一训练源文本对应的第一句式编码、所述第一标准翻译文本对应的第二句式编码和所述第一语法缺陷翻译文本对应的第三句式编码;将所述第一句式编码、所述第二句式编码和所述第三句式编码输入所述语义编码子层,得到所述语义编码子层输出的所述第一训练源文本对应的第一语义编码、所述第一标准翻译文本对应的第二语义编码和所述第一语法缺陷翻译文本对应的第三语义编码;将所述第一语义编码、所述第二语义编码和所述第三语义编码输入所述第一编码表示子层,得到所述第一编码表示子层输出的所述第一文本编码、第二文本编码和第三文本编码;
或者,
所述第一文本编码、第二文本编码和第三文本编码的生成过程包括:
将所述第一文本向量、所述第二文本向量和所述第三文本向量输入所述语义编码子层,得到所述语义编码子层输出的所述第一训练源文本对应的第四语义编码、所述第一标准翻译文本对应的第五语义编码和所述第一语法缺陷翻译文本对应的第六语义编码;将所述第四语义编码、所述第五语义编码和所述第六语义编码输入所述句式编码子层,得到所述句式编码子层输出的所述第一训练源文本对应的第四句式编码、所述第一标准翻译文本对应的第五句式编码和所述第一语法缺陷翻译文本对应的第六句式编码;将所述第四句式编码、所述第五句式编码和所述第六句式编码输入所述第一编码表示子层,得到所述第一编码表示子层输出的所述第一文本编码、第二文本编码和第三文本编码;
或者,
所述第一文本编码、第二文本编码和第三文本编码的生成过程包括:
将所述第一文本向量、所述第二文本向量和所述第三文本向量输入所述句式编码子层,得到所述句式编码子层输出的所述第一训练源文本对应的第一句式编码、所述第一标准翻译文本对应的第二句式编码和所述第一语法缺陷翻译文本对应的第三句式编码;将所述第一文本向量、所述第二文本向量和所述第三文本向量输入所述语义编码子层,得到所述语义编码子层输出的所述第一训练源文本对应的第四语义编码、所述第一标准翻译文本对应的第五语义编码和所述第一语法缺陷翻译文本对应的第六语义编码;将所述第一句式编码、所述第二句式编码、所述第三句式编码、所述第四语义编码、所述第五语义编码和所述第六语义编码输入所述第一编码表示子层,得到所述第一编码表示子层输出的所述第一文本编码、第二文本编码和第三文本编码。
在一种可能的实施方式下,所述交互层包括交叉注意力编码子层和第二编码表示子层;
所述第一交互向量和所述第二交互向量的生成过程包括:
将所述第一文本编码、所述第二文本编码和所述第三文本编码输入所述交叉注意力编码子层,得到所述交叉注意力编码子层输出的所述第一标准翻译文本对应的第一权重和所述第一语法缺陷翻译文本对应的第二权重;将所述第二文本编码、所述第三文本编码、所述第一权重和所述第二权重输入所述第二编码表示子层,得到所述第二编码表示子层输出的所述第一交互向量和所述第二交互向量。
基于上述方法实施例提供的语法缺陷数据识别方法,本申请实施例还提供了一种语法缺陷数据识别装置,下面结合附图进行解释和说明。
装置实施例二
装置实施例对语法缺陷数据识别装置进行介绍,相关内容请参见上述方法实施例。
参见图16,该图为本申请实施例提供的语法缺陷数据识别装置的结构示意图。
本申请实施例提供的语法缺陷数据识别装置1600,包括:
第二获取单元1601,用于获取待识别文本和所述待识别文本的源文本;
第二预测单元1602,用于将所述待识别文本和所述待识别文本的源文本输入预先构建的语法缺陷数据识别模型,得到所述语法缺陷数据识别模型输出的待识别文本的预测识别结果;其中,所述语法缺陷数据识别模型是利用本申请实施例提供的语法缺陷数据识别模型构建方法任一实施方式进行构建的;
第一确定单元1603,用于根据所述待识别文本的预测识别结果,确定所述待识别文本是否为语法缺陷数据。
在一种可能的实施方式下,所述语法缺陷数据识别装置1600,还包括:
第二确定单元,用于根据所述待识别文本、所述待识别文本的源文本、预先构建的第一对齐模型和预先构建的第二对齐模型,确定所述待识别文本的语法特征;其中,所述第一对齐模型是根据第二训练源文本和第二标准翻译文本进行构建的;所述第二标准翻译文本表示所述第二训练源文本对应的标准翻译文本;所述第二对齐模型是根据第三训练源文本和所述第二语法缺陷翻译文本进行构建的;所述第二语法缺陷翻译文本表示所述第三训练源文本对应的语法缺陷翻译文本;
所述第一确定单元1603,具体用于:根据所述待识别文本的预测识别结果和所述待识别文本的语法特征,确定所述待识别文本是否为语法缺陷数据。
在一种可能的实施方式下,所述第二确定单元,具体用于:
将所述待识别文本和所述待识别文本的源文本输入所述第一对齐模型,得到所述第一对齐模型输出的第一对齐结果;将所述待识别文本和所述待识别文本的源文本输入所述第二对齐模型,得到所述第二对齐模型输出的第二对齐结果;根据所述第一对齐结果和所述第二对齐结果,确定所述待识别文本的语法特征。
在一种可能的实施方式下,所述第一对齐模型的构建过程包括:
获取所述第二训练源文本、所述第二标准翻译文本和第一实际对齐结果;其中,所述第一实际对齐结果用于描述所述第二训练源文本中待对齐对象与所述第二标准翻译文本中待对齐对象之间的实际对齐概率;
将所述第二训练源文本和所述第二标准翻译文本输入第二模型,得到所述第二模型输出的第一预测对齐结果和所述第二训练源文本的预测翻译文本;其中,所述第一预测对齐结果用于描述所述第二训练源文本中待对齐对象与所述第二标准翻译文本中待对齐对象之间的预测对齐概率;
根据所述第一预测对齐结果、所述第一实际对齐结果、所述第二训练源文本的预测翻译文本和所述第二标准翻译文本,更新所述第二模型,并返回执行所述将所述第二训练源文本和所述第二标准翻译文本输入第二模型的步骤,直至在达到第二停止条件时,根据所述第二模型,构建所述第一对齐模型。
在一种可能的实施方式下,所述根据所述第一预测对齐结果、所述第一实际对齐结果、所述第二训练源文本的预测翻译文本和所述第二标准翻译文本,更新所述第二模型,包括:
根据所述第一预测对齐结果和所述第一实际对齐结果,确定第一对齐损失;
根据所述第二训练源文本的预测翻译文本和所述第二标准翻译文本,确定第一翻译损失;
根据所述第一对齐损失和所述第一翻译损失,确定所述第二模型的预测损失;
根据所述第二模型的预测损失,更新所述第二模型。
在一种可能的实施方式下,所述第二对齐模型的构建过程包括:
获取所述第三训练源文本、所述第二语法缺陷翻译文本和第二实际对齐结果;其中,所述第二实际对齐结果用于描述所述第三训练源文本中待对齐对象与所述第二语法缺陷翻译文本中待对齐对象之间的实际对齐概率;
将所述第三训练源文本和所述第二语法缺陷翻译文本输入第三模型,得到所述第三模型输出的第二预测对齐结果和所述第三训练源文本的预测翻译文本;其中,所述第二预测对齐结果用于描述所述第三训练源文本中待对齐对象与所述第二语法缺陷翻译文本中待对齐对象之间的预测对齐概率;
根据所述第二预测对齐结果、所述第二实际对齐结果、所述第三训练源文本的预测翻译文本和所述第二语法缺陷翻译文本,更新所述第三模型,并返回执行所述将所述第三训练源文本和所述第二语法缺陷翻译文本输入第三模型的步骤,直至在达到第三停止条件时,根据所述第三模型,构建所述第二对齐模型。
在一种可能的实施方式下,所述根据所述第二预测对齐结果、所述第二实际对齐结果、所述第三训练源文本的预测翻译文本和所述第二语法缺陷翻译文本,更新所述第三模型,包括:
根据所述第二预测对齐结果和所述第二实际对齐结果,确定第二对齐损失;
根据所述第三训练源文本的预测翻译文本和所述第二语法缺陷翻译文本,确定第二翻译损失;
根据所述第二对齐损失和所述第二翻译损失,确定所述第三模型的预测损失;
根据所述第三模型的预测损失,更新所述第三模型。
在一种可能的实施方式下,所述第二模型包括第二输入层、第二编码层、第一解码层和第一对齐层;
所述根据所述第二模型,构建所述第一对齐模型,包括:
根据所述第二输入层、所述第二编码层、所述第一解码层和所述第一对齐层,构建所述第一对齐模型;
所述第一预测对齐结果的生成过程为:
将所述第二训练源文本和所述第二标准翻译文本输入所述第二输入层,得到所述第二输入层输出的所述第二训练源文本对应的第四文本向量和所述第二标准翻译文本对应的第五文本向量;
将所述第四文本向量输入所述第二编码层,得到所述第二编码层输出的所述第二训练源文本对应的第四文本编码;
将所述第五文本向量输入所述第一解码层,得到所述第一解码层输出的所述第二标准翻译文本对应的第五文本编码;
将所述第四文本编码和所述第五文本编码输入所述第一对齐层,得到所述第一对齐层输出的所述第一预测对齐结果。
在一种可能的实施方式下,所述第三模型包括第三输入层、第三编码层、第二解码层和第二对齐层;
所述根据所述第三模型,构建所述第二对齐模型,包括:
根据所述第三输入层、所述第三编码层、所述第二解码层和所述第二对齐层,构建所述第二对齐模型;
所述第二预测对齐结果的生成过程为:
将所述第三训练源文本和所述第二语法缺陷翻译文本输入所述第三输入层,得到所述第三输入层输出的所述第三训练源文本对应的第六文本向量和所述第二语法缺陷翻译文本对应的第七文本向量;
将所述第六文本向量输入所述第三编码层,得到所述第三编码层输出的所述第三训练源文本对应的第六文本编码;
将所述第七文本向量输入所述第二解码层,得到所述第二解码层输出的所述第二语法缺陷翻译文本对应的第七文本编码;
将所述第六文本编码和所述第七文本编码输入所述第二对齐层,得到所述第二对齐层输出的所述第二预测对齐结果。
在一种可能的实施方式下,所述第一确定单元1603,具体用于:在确定所述待识别文本的语法特征满足第一条件时,根据所述待识别文本的预测识别结果,确定所述待识别文本是否为语法缺陷数据;在确定所述待识别文本的语法特征不满足第一条件时,确定所述待识别文本不是语法缺陷数据。
在一种可能的实施方式下,所述第一确定单元1603,具体用于:根据所述待识别文本的语法特征,确定校正系数;将所述待识别文本的预测识别结果和所述校正系数之间的乘积,确定为校正后识别结果;根据所述校正后识别结果,确定所述待识别文本是否为语法缺陷数据。
进一步地,本申请实施例还提供了一种语法缺陷数据识别模型构建设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语法缺陷数据识别模型构建方法的任一种实现方法。
进一步地,本申请实施例还提供了一种语法缺陷数据识别设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语法缺陷数据识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语法缺陷数据识别模型构建方法的任一种实现方法,或者执行上述语法缺陷数据识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述语法缺陷数据识别模型构建方法的任一种实现方法,或者执行上述语法缺陷数据识别方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (18)
1.一种语法缺陷数据识别模型构建方法,其特征在于,所述方法包括:
获取第一训练源文本、第一标准翻译文本、第一语法缺陷翻译文本、所述第一标准翻译文本对应的第一实际识别结果和所述第一语法缺陷翻译文本对应的第二实际识别结果;其中,所述第一标准翻译文本表示所述第一训练源文本对应的标准翻译文本;所述第一语法缺陷翻译文本表示所述第一训练源文本对应的语法缺陷翻译文本;
将所述第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入第一模型,得到所述第一模型输出的所述第一标准翻译文本对应的第一预测识别结果和所述第一语法缺陷翻译文本对应的第二预测识别结果;
根据所述第一预测识别结果、所述第二预测识别结果、所述第一实际识别结果和所述第二实际识别结果,更新所述第一模型,并返回执行所述将第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入第一模型的步骤,直至在达到第一停止条件时,根据所述第一模型,构建所述语法缺陷数据识别模型;
其中,所述第一模型的更新过程,包括:
根据所述第一预测识别结果、所述第二预测识别结果、所述第一实际识别结果和所述第二实际识别结果,确定所述第一模型的预测损失;
根据所述第一模型的预测损失,更新第一模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测识别结果、所述第二预测识别结果、所述第一实际识别结果和所述第二实际识别结果,确定所述第一模型的预测损失,包括:
根据所述第一预测识别结果和所述第一实际识别结果,确定标准文本识别损失;
根据所述第二预测识别结果和所述第二实际识别结果,确定缺陷文本识别损失;
根据所述第一预测识别结果和所述第二预测识别结果,确定文本区分损失;
根据所述标准文本识别损失、所述缺陷文本识别损失和所述文本区分损失,确定所述第一模型的预测损失。
3.根据权利要求1所述的方法,其特征在于,所述第一模型包括源文本编码子模型、标准文本识别子模型和缺陷文本识别子模型;
所述第一预测识别结果和所述第二预测识别结果的生成过程包括:
将所述第一训练源文本输入所述源文本编码子模型,得到所述源文本编码子模型输出的所述第一训练源文本的编码向量;
将所述第一标准翻译文本和所述第一训练源文本的编码向量输入所述标准文本识别子模型,得到所述标准文本识别子模型输出的所述第一预测识别结果;
将所述第一语法缺陷翻译文本和所述第一训练源文本的编码向量输入所述缺陷文本识别子模型,得到所述缺陷文本识别子模型输出的所述第二预测识别结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一模型,构建所述语法缺陷数据识别模型,包括:
根据所述源文本编码子模型和所述标准文本识别子模型,构建所述语法缺陷数据识别模型;
或者,
根据所述源文本编码子模型和所述缺陷文本识别子模型,构建所述语法缺陷数据识别模型。
5.根据权利要求1所述的方法,其特征在于,所述第一模型包括第一输入层、第一编码层、交互层和第一输出层;
所述第一预测识别结果和所述第二预测识别结果的生成过程包括:
将所述第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入所述第一输入层,得到所述第一输入层输出的所述第一训练源文本对应的第一文本向量、所述第一标准翻译文本对应的第二文本向量和所述第一语法缺陷翻译文本对应的第三文本向量;
将所述第一文本向量、所述第二文本向量和所述第三文本向量输入所述第一编码层,得到所述第一编码层输出的所述第一文本向量对应的第一文本编码、所述第一标准翻译文本对应的第二文本编码和所述第一语法缺陷翻译文本对应的第三文本编码;
将所述第一文本编码、所述第二文本编码和所述第三文本编码输入所述交互层,得到所述交互层输出的所述第一标准翻译文本对应的第一交互向量和所述第一语法缺陷翻译文本对应的第二交互向量;
将所述第一交互向量和所述第二交互向量输入所述第一输出层,得到所述第一输出层输出的所述第一预测识别结果和所述第二预测识别结果。
6.根据权利要求5所述的方法,其特征在于,所述第一编码层包括句式编码子层、语义编码子层和第一编码表示子层;
所述第一文本编码、第二文本编码和第三文本编码的生成过程包括:
将所述第一文本向量、所述第二文本向量和所述第三文本向量输入所述句式编码子层,得到所述句式编码子层输出的所述第一训练源文本对应的第一句式编码、所述第一标准翻译文本对应的第二句式编码和所述第一语法缺陷翻译文本对应的第三句式编码;
将所述第一句式编码、所述第二句式编码和所述第三句式编码输入所述语义编码子层,得到所述语义编码子层输出的所述第一训练源文本对应的第一语义编码、所述第一标准翻译文本对应的第二语义编码和所述第一语法缺陷翻译文本对应的第三语义编码;
将所述第一语义编码、所述第二语义编码和所述第三语义编码输入所述第一编码表示子层,得到所述第一编码表示子层输出的所述第一文本编码、第二文本编码和第三文本编码;
或者,
所述第一文本编码、第二文本编码和第三文本编码的生成过程包括:
将所述第一文本向量、所述第二文本向量和所述第三文本向量输入所述语义编码子层,得到所述语义编码子层输出的所述第一训练源文本对应的第四语义编码、所述第一标准翻译文本对应的第五语义编码和所述第一语法缺陷翻译文本对应的第六语义编码;
将所述第四语义编码、所述第五语义编码和所述第六语义编码输入所述句式编码子层,得到所述句式编码子层输出的所述第一训练源文本对应的第四句式编码、所述第一标准翻译文本对应的第五句式编码和所述第一语法缺陷翻译文本对应的第六句式编码;
将所述第四句式编码、所述第五句式编码和所述第六句式编码输入所述第一编码表示子层,得到所述第一编码表示子层输出的所述第一文本编码、第二文本编码和第三文本编码;
或者,
所述第一文本编码、第二文本编码和第三文本编码的生成过程包括:
将所述第一文本向量、所述第二文本向量和所述第三文本向量输入所述句式编码子层,得到所述句式编码子层输出的所述第一训练源文本对应的第一句式编码、所述第一标准翻译文本对应的第二句式编码和所述第一语法缺陷翻译文本对应的第三句式编码;
将所述第一文本向量、所述第二文本向量和所述第三文本向量输入所述语义编码子层,得到所述语义编码子层输出的所述第一训练源文本对应的第四语义编码、所述第一标准翻译文本对应的第五语义编码和所述第一语法缺陷翻译文本对应的第六语义编码;
将所述第一句式编码、所述第二句式编码、所述第三句式编码、所述第四语义编码、所述第五语义编码和所述第六语义编码输入所述第一编码表示子层,得到所述第一编码表示子层输出的所述第一文本编码、第二文本编码和第三文本编码。
7.根据权利要求5所述的方法,其特征在于,所述交互层包括交叉注意力编码子层和第二编码表示子层;
所述第一交互向量和所述第二交互向量的生成过程包括:
将所述第一文本编码、所述第二文本编码和所述第三文本编码输入所述交叉注意力编码子层,得到所述交叉注意力编码子层输出的所述第一标准翻译文本对应的第一权重和所述第一语法缺陷翻译文本对应的第二权重;
将所述第二文本编码、所述第三文本编码、所述第一权重和所述第二权重输入所述第二编码表示子层,得到所述第二编码表示子层输出的所述第一交互向量和所述第二交互向量。
8.一种语法缺陷数据识别方法,其特征在于,所述方法包括:
获取待识别文本和所述待识别文本的源文本;
将所述待识别文本和所述待识别文本的源文本输入预先构建的语法缺陷数据识别模型,得到所述语法缺陷数据识别模型输出的所述待识别文本的预测识别结果;其中,所述语法缺陷数据识别模型是利用权利要求1-7任一项所述的语法缺陷数据识别模型构建方法进行构建的;
根据所述待识别文本的预测识别结果,确定所述待识别文本是否为语法缺陷数据。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述待识别文本、所述待识别文本的源文本、预先构建的第一对齐模型和预先构建的第二对齐模型,确定所述待识别文本的语法特征;其中,所述第一对齐模型是根据第二训练源文本和第二标准翻译文本进行构建的;所述第二标准翻译文本表示所述第二训练源文本对应的标准翻译文本;所述第二对齐模型是根据第三训练源文本和所述第二语法缺陷翻译文本进行构建的;所述第二语法缺陷翻译文本表示所述第三训练源文本对应的语法缺陷翻译文本;
所述根据所述待识别文本的预测识别结果,确定所述待识别文本是否为语法缺陷数据,包括:
根据所述待识别文本的预测识别结果和所述待识别文本的语法特征,确定所述待识别文本是否为语法缺陷数据。
10.根据权利要求9所述的方法,其特征在于,所述根据所述待识别文本、所述待识别文本的源文本、预先构建的第一对齐模型和预先构建的第二对齐模型,确定所述待识别文本的语法特征,包括:
将所述待识别文本和所述待识别文本的源文本输入所述第一对齐模型,得到所述第一对齐模型输出的第一对齐结果;
将所述待识别文本和所述待识别文本的源文本输入所述第二对齐模型,得到所述第二对齐模型输出的第二对齐结果;
根据所述第一对齐结果和所述第二对齐结果,确定所述待识别文本的语法特征。
11.根据权利要求9所述的方法,其特征在于,所述第一对齐模型的构建过程包括:
获取所述第二训练源文本、所述第二标准翻译文本和第一实际对齐结果;其中,所述第一实际对齐结果用于描述所述第二训练源文本中待对齐对象与所述第二标准翻译文本中待对齐对象之间的实际对齐概率;
将所述第二训练源文本和所述第二标准翻译文本输入第二模型,得到所述第二模型输出的第一预测对齐结果和所述第二训练源文本的预测翻译文本;其中,所述第一预测对齐结果用于描述所述第二训练源文本中待对齐对象与所述第二标准翻译文本中待对齐对象之间的预测对齐概率;
根据所述第一预测对齐结果、所述第一实际对齐结果、所述第二训练源文本的预测翻译文本和所述第二标准翻译文本,更新所述第二模型,并返回执行所述将所述第二训练源文本和所述第二标准翻译文本输入第二模型的步骤,直至在达到第二停止条件时,根据所述第二模型,构建所述第一对齐模型;
和/或,
所述第二对齐模型的构建过程包括:
获取所述第三训练源文本、所述第二语法缺陷翻译文本和第二实际对齐结果;其中,所述第二实际对齐结果用于描述所述第三训练源文本中待对齐对象与所述第二语法缺陷翻译文本中待对齐对象之间的实际对齐概率;
将所述第三训练源文本和所述第二语法缺陷翻译文本输入第三模型,得到所述第三模型输出的第二预测对齐结果和所述第三训练源文本的预测翻译文本;其中,所述第二预测对齐结果用于描述所述第三训练源文本中待对齐对象与所述第二语法缺陷翻译文本中待对齐对象之间的预测对齐概率;
根据所述第二预测对齐结果、所述第二实际对齐结果、所述第三训练源文本的预测翻译文本和所述第二语法缺陷翻译文本,更新所述第三模型,并返回执行所述将所述第三训练源文本和所述第二语法缺陷翻译文本输入第三模型的步骤,直至在达到第三停止条件时,根据所述第三模型,构建所述第二对齐模型。
12.根据权利要求11所述的方法,其特征在于,所述根据所述第一预测对齐结果、所述第一实际对齐结果、所述第二训练源文本的预测翻译文本和所述第二标准翻译文本,更新所述第二模型,包括:
根据所述第一预测对齐结果和所述第一实际对齐结果,确定第一对齐损失;
根据所述第二训练源文本的预测翻译文本和所述第二标准翻译文本,确定第一翻译损失;
根据所述第一对齐损失和所述第一翻译损失,确定所述第二模型的预测损失;
根据所述第二模型的预测损失,更新所述第二模型;
和/或,
所述根据所述第二预测对齐结果、所述第二实际对齐结果、所述第三训练源文本的预测翻译文本和所述第二语法缺陷翻译文本,更新所述第三模型,包括:
根据所述第二预测对齐结果和所述第二实际对齐结果,确定第二对齐损失;
根据所述第三训练源文本的预测翻译文本和所述第二语法缺陷翻译文本,确定第二翻译损失;
根据所述第二对齐损失和所述第二翻译损失,确定所述第三模型的预测损失;
根据所述第三模型的预测损失,更新所述第三模型。
13.根据权利要求11所述的方法,其特征在于,所述第二模型包括第二输入层、第二编码层、第一解码层和第一对齐层;
所述根据所述第二模型,构建所述第一对齐模型,包括:
根据所述第二输入层、所述第二编码层、所述第一解码层和所述第一对齐层,构建所述第一对齐模型;
所述第一预测对齐结果的生成过程为:
将所述第二训练源文本和所述第二标准翻译文本输入所述第二输入层,得到所述第二输入层输出的所述第二训练源文本对应的第四文本向量和所述第二标准翻译文本对应的第五文本向量;
将所述第四文本向量输入所述第二编码层,得到所述第二编码层输出的所述第二训练源文本对应的第四文本编码;
将所述第五文本向量输入所述第一解码层,得到所述第一解码层输出的所述第二标准翻译文本对应的第五文本编码;
将所述第四文本编码和所述第五文本编码输入所述第一对齐层,得到所述第一对齐层输出的所述第一预测对齐结果。
14.根据权利要求11所述的方法,其特征在于,所述第三模型包括第三输入层、第三编码层、第二解码层和第二对齐层;
所述根据所述第三模型,构建所述第二对齐模型,包括:
根据所述第三输入层、所述第三编码层、所述第二解码层和所述第二对齐层,构建所述第二对齐模型;
所述第二预测对齐结果的生成过程为:
将所述第三训练源文本和所述第二语法缺陷翻译文本输入所述第三输入层,得到所述第三输入层输出的所述第三训练源文本对应的第六文本向量和所述第二语法缺陷翻译文本对应的第七文本向量;
将所述第六文本向量输入所述第三编码层,得到所述第三编码层输出的所述第三训练源文本对应的第六文本编码;
将所述第七文本向量输入所述第二解码层,得到所述第二解码层输出的所述第二语法缺陷翻译文本对应的第七文本编码;
将所述第六文本编码和所述第七文本编码输入所述第二对齐层,得到所述第二对齐层输出的所述第二预测对齐结果。
15.根据权利要求9所述的方法,其特征在于,所述根据所述待识别文本的预测识别结果和所述待识别文本的语法特征,确定所述待识别文本是否为语法缺陷数据,包括:
在确定所述待识别文本的语法特征满足第一条件时,根据所述待识别文本的预测识别结果,确定所述待识别文本是否为语法缺陷数据;
在确定所述待识别文本的语法特征不满足第一条件时,确定所述待识别文本不是语法缺陷数据。
16.根据权利要求9所述的方法,其特征在于,所述根据所述待识别文本的预测识别结果和所述待识别文本的语法特征,确定所述待识别文本是否为语法缺陷数据,包括:
根据所述待识别文本的语法特征,确定校正系数;
将所述待识别文本的预测识别结果和所述校正系数之间的乘积,确定为校正后识别结果;
根据所述校正后识别结果,确定所述待识别文本是否为语法缺陷数据。
17.一种语法缺陷数据识别模型构建装置,其特征在于,所述装置包括:
第一获取单元,用于获取所述第一训练源文本、第一标准翻译文本、第一语法缺陷翻译文本、所述第一标准翻译文本对应的第一实际识别结果和所述第一语法缺陷翻译文本对应的第二实际识别结果;其中,所述第一标准翻译文本表示所述第一训练源文本对应的标准翻译文本;所述第一语法缺陷翻译文本表示所述第一训练源文本对应的语法缺陷翻译文本;
第一预测单元,用于将所述第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入第一模型,得到所述第一模型输出的所述第一标准翻译文本对应的第一预测识别结果和所述第一语法缺陷翻译文本对应的第二预测识别结果;
模型更新单元,用于根据所述第一预测识别结果、所述第二预测识别结果、所述第一实际识别结果和所述第二实际识别结果,更新所述第一模型,并返回所述第一预测单元执行所述将第一训练源文本、所述第一标准翻译文本和所述第一语法缺陷翻译文本输入第一模型,直至在达到第一停止条件时,根据所述第一模型,构建所述语法缺陷数据识别模型;
其中,所述模型更新单元,具体用于:
根据所述第一预测识别结果、所述第二预测识别结果、所述第一实际识别结果和所述第二实际识别结果,确定所述第一模型的预测损失;
根据所述第一模型的预测损失,更新第一模型。
18.一种语法缺陷数据识别装置,其特征在于,所述装置包括:
第二获取单元,用于获取待识别文本和所述待识别文本的源文本;
第二预测单元,用于将所述待识别文本和所述待识别文本的源文本输入预先构建的语法缺陷数据识别模型,得到所述语法缺陷数据识别模型输出的待识别文本的预测识别结果;其中,所述语法缺陷数据识别模型是利用权利要求1-7任一项所述的语法缺陷数据识别模型构建方法进行构建的;
第一确定单元,用于根据所述待识别文本的预测识别结果,确定所述待识别文本是否为语法缺陷数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011552924.4A CN112668345B (zh) | 2020-12-24 | 2020-12-24 | 语法缺陷数据识别模型构建方法和语法缺陷数据识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011552924.4A CN112668345B (zh) | 2020-12-24 | 2020-12-24 | 语法缺陷数据识别模型构建方法和语法缺陷数据识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112668345A CN112668345A (zh) | 2021-04-16 |
CN112668345B true CN112668345B (zh) | 2024-06-04 |
Family
ID=75408464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011552924.4A Active CN112668345B (zh) | 2020-12-24 | 2020-12-24 | 语法缺陷数据识别模型构建方法和语法缺陷数据识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112668345B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN110297656A (zh) * | 2019-05-23 | 2019-10-01 | 重庆金融资产交易所有限责任公司 | 基于配置模型评审代码的方法、装置及计算机设备 |
CN110895559A (zh) * | 2018-09-12 | 2020-03-20 | 阿里巴巴集团控股有限公司 | 模型训练、文本处理方法、装置以及设备 |
CN110956045A (zh) * | 2018-09-26 | 2020-04-03 | 北京三星通信技术研究有限公司 | 机器翻译方法、训练方法、相应的装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711551B2 (en) * | 2005-06-13 | 2010-05-04 | Microsoft Corporation | Static analysis to identify defects in grammars |
EP1894125A4 (en) * | 2005-06-17 | 2015-12-02 | Nat Res Council Canada | MEANS AND METHOD FOR ADAPTED LANGUAGE TRANSLATION |
US20090326913A1 (en) * | 2007-01-10 | 2009-12-31 | Michel Simard | Means and method for automatic post-editing of translations |
CN106484681B (zh) * | 2015-08-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
-
2020
- 2020-12-24 CN CN202011552924.4A patent/CN112668345B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110895559A (zh) * | 2018-09-12 | 2020-03-20 | 阿里巴巴集团控股有限公司 | 模型训练、文本处理方法、装置以及设备 |
CN110956045A (zh) * | 2018-09-26 | 2020-04-03 | 北京三星通信技术研究有限公司 | 机器翻译方法、训练方法、相应的装置及电子设备 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN110297656A (zh) * | 2019-05-23 | 2019-10-01 | 重庆金融资产交易所有限责任公司 | 基于配置模型评审代码的方法、装置及计算机设备 |
Non-Patent Citations (2)
Title |
---|
基于语义分布相似度的翻译模型领域自适应研究;姚亮;洪宇;刘昊;刘乐;姚建民;;山东大学学报(理学版)(07);全文 * |
深度学习在统计机器翻译领域自适应中的应用研究;丁亮;姚长青;何彦青;李辉;;情报工程(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112668345A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598713B (zh) | 基于深度神经网络的智能图像自动描述方法 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN111401084B (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN111309915A (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN112084793B (zh) | 基于依存句法的语义识别方法、设备和可读存储介质 | |
CN108228576B (zh) | 文本翻译方法及装置 | |
CN112446221B (zh) | 翻译评估方法、装置、系统及计算机存储介质 | |
CN114818668B (zh) | 一种语音转写文本的人名纠错方法、装置和计算机设备 | |
CN112633007B (zh) | 一种语义理解模型构建方法及装置、语义理解方法及装置 | |
CN112101010A (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115545041B (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
CN108763230B (zh) | 利用外部信息的神经机器翻译方法 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN115204143A (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN115757695A (zh) | 一种日志语言模型训练方法及系统 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
KR102608867B1 (ko) | 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램 | |
CN114611521A (zh) | 一种实体识别方法、装置、设备及存储介质 | |
CN117973372A (zh) | 一种基于拼音约束的中文语法纠错方法 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN113761875A (zh) | 事件抽取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230509 Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96 Applicant after: University of Science and Technology of China Applicant after: IFLYTEK Co.,Ltd. Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province Applicant before: IFLYTEK Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |