CN111666775B

CN111666775B - 文本处理方法、装置、设备及存储介质

Info

Publication number: CN111666775B
Application number: CN202010436527.4A
Authority: CN
Inventors: 李文斌; 喻宁; 冯晶凌; 柳阳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2023-08-22
Anticipated expiration: 2040-05-21
Also published as: CN111666775A

Abstract

本发明涉及人工智能，提供一种文本处理方法、装置、设备及存储介质。通过对原始文本预处理后得到的待翻译文本依次进行翻译和回译后，得到第一回译文本。在将待翻译文本和第一回译文本输入至预设的回译文本分类模型后，得到第一回译文本分类结果为第一分类结果时，获取待翻译文本的流畅度和第一回译文本的流畅度；若第一回译文本的流畅度低于或等于待翻译文本的流畅度，将记录为翻译改写文本的待翻译文本与原始文本的不同内容，按照预设的标记规则标记在原始文本中，并将标记之后的原始文本作为输出文本输出。当待翻译文本与第一回译文本文义相同时，考虑文本语境中每一单词的流畅度，故对两个文本的流畅度进行比较，以提高翻译文本改写的准确率。

Description

文本处理方法、装置、设备及存储介质

技术领域

本发明涉及文字识别技术领域，尤其涉及一种文本处理方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，自然语言处理技术也随之发展，应用在各个领域中，例如，文本自动转换技术、文本自动生成技术、文本自动更改技术或者智能文本助手等。

传统上，文本自动更改技术主要采用两种方案。第一种是基于规则的方式来进行文本自动更改。即基于日常使用的文本规则，经由人工梳理之后进行机器学习，形成文本自动更改方法。但是基于规则的方式进行更改，无法结合文本内容的语境进行替换，仅仅只是某个词或者某个词组的同义替换，易导致句子的文意改变。第二种是基于深度学习的方式，利用现有的文本更改语料，进行模型训练，达到文本更改的要求；这种方式解决了语境替换的问题，但是文本更改语料需要大量的专业人士进行查询、积累和标注，对于文本更改语料质量要求很高，且耗费的成本很高。

发明内容

本发明实施例提供一种文本处理方法、装置、设备及存储介质，以解决改写文本质量低的问题。

一种文本处理方法，包括：

获取原始文本，并对所述原始文本进行预处理，得到待翻译文本；

采用第一神经网络翻译模型对所述待翻译文本依次进行翻译和回译处理之后，得到第一回译文本；

将所述待翻译文本和所述第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果，所述第一回译文本分类结果包括了表征所述第一回译文本合格的第一分类结果，以及表征了所述第一回译文本不合格的第二分类结果；

若所述第一回译文本分类结果为所述第一分类结果，则通过文本流畅度模型获取所述待翻译文本的流畅度和所述第一回译文本的流畅度，并对所述待翻译文本的流畅度和所述第一回译文本的流畅度进行比较；

若所述第一回译文本的流畅度低于或等于所述待翻译文本的流畅度，则将所述待翻译文本记录为翻译改写文本；

在所述翻译改写文本与所述原始文本存在不同内容时，获取所述不同内容之后，将所述不同内容按照预设的标记规则标记在所述原始文本中，并将标记之后的所述原始文本作为输出文本输出。

一种文本处理装置，其特征在于，包括：

原始文本获取模块，用于获取原始文本，并对所述原始文本进行预处理，得到待翻译文本；

第一文本处理模块，用于采用第一神经网络翻译模型对所述待翻译文本依次进行翻译和回译处理之后，得到第一回译文本；

第一文本分类模块，用于将所述待翻译文本和所述第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果，所述第一回译文本分类结果包括了表征所述第一回译文本合格的第一分类结果，以及表征了所述第一回译文本不合格的第二分类结果；

第一文本流畅度获取模块，用于在所述第一回译文本分类结果为所述第一分类结果时，通过文本流畅度模型获取所述待翻译文本的流畅度和所述第一回译文本的流畅度，并对所述待翻译文本的流畅度和所述第一回译文本的流畅度；

第一文本记录模块，用于在所述第一回译文本的流畅度低于或等于所述待翻译文本的流畅度时，将所述待翻译文本记录为翻译改写文本；

文本输出模块，用于在所述翻译改写文本与所述原始文本存在不同内容时，获取所述不同内容之后，将所述不同内容按照预设的标记规则标记在所述原始文本中，并将标记之后的所述原始文本作为输出文本输出。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文本处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文本处理方法。

上述文本处理方法、装置、设备及存储介质，通过获取原始文本，并对原始文本进行预处理，得到待翻译文本；采用第一神经网络翻译模型对待翻译文本依次进行翻译和回译处理，得到第一回译文本；将待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果，第一回译文本分类结果包括了表征第一回译文本合格的第一分类结果，以及表征了第一回译文本不合格的第二分类结果；若第一回译文本分类结果为第一分类结果，则通过文本流畅度模型获取待翻译文本的流畅度和第一回译文本的流畅度，并对待翻译文本的流畅度和第一回译文本的流畅度进行比较；若第一回译文本的流畅度低于或等于待翻译文本的流畅度，则将待翻译文本记录为翻译改写文本；在翻译改写文本与原始文本存在不同内容时，获取不同内容之后，将不同内容按照预设的标记规则标记在原始文本中，并将标记之后的原始文本作为输出文本输出。通过上述方法，当待翻译文本与第一回译文本文义相同时，则对待翻译文本的流畅度和第一回译文本的流畅度进行进一步比较，能够考虑到由于一些单词的影响造成判定两个文本形式不同但语义相同，这些单词的影响是较小的，而通过流畅度比较的方法，能够考虑到在文本语境中每一单词的流畅度，提高了翻译文本改写的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中文本处理方法的一应用环境示意图；

图2是本发明一实施例中文本处理方法的一流程图；

图3是本发明一实施例中文本处理方法的另一流程图；

图4是本发明一实施例中文本处理方法中步骤S12的一流程图；

图5是本发明一实施例中文本处理方法中步骤S13的一流程图；

图6是本发明一实施例中文本处理方法中步骤S14的一流程图；

图7是本发明一实施例中文本处理装置的一原理框图；

图8是本发明一实施例中文本处理装置的另一原理框图；

图9是本发明一实施例中文本处理装置中第一文本处理模块的一原理框图；

图10是本发明一实施例中文本处理装置中第一文本分类模块的一原理框图；

图11是本发明一实施例中文本处理装置中第一文本流畅度获取模块的一原理框图；

图12是本发明一实施例中计算机设备的一示意图。

具体实施方式

本发明实施例提供一文本处理方法，该文本处理方法可应用如图1所示的应用环境中。具体地，该文本处理方法应用在文本处理系统中，该文本处理系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于数据孤岛问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种文本处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S11：获取原始文本，并对原始文本进行预处理，得到待翻译文本。

其中，原始文本为输入文本，原始文本可以通过用户在文本编辑框中输入形成的文本，也可以为经用户上传的文本。预处理可以为对原始文本进行字词纠错、语法纠错或者语句顺序调整。待翻译文本为经过预处理后等待进行翻译的文本。

具体地，在获取到原始文本之后，对原始文本进行字词纠错、语法纠错或者语句顺序调整等预处理操作，得到预处理后的文本，即待翻译文本。

S12：采用第一神经网络翻译模型对待翻译文本依次进行翻译和回译处理之后，得到第一回译文本。

其中，第一神经网络翻译模型为将待翻译文本中的语言翻译为需求语言的模型，第一神经网络翻译模型中包括文本翻译模型和文本回译模型。文本处理为对待翻译文本进行翻译和回译处理的操作。第一回译文本为对待翻译文本经过翻译和回译处理之后得到的文本。

具体地，在对原始文本进行预处理，得到待翻译文本之后，将待翻译文本输入至第一神经网络翻译模型中的翻译模型中，对待翻译文本进行翻译，再将翻译后的待翻译文本输入至第一神经网络翻译模型中的回译模型中，对翻译后的待翻译文本进行回译，得到第一回译文本。

S13：将待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果，第一回译文本分类结果包括了表征第一回译文本合格的第一分类结果，以及表征了第一回译文本不合格的第二分类结果。

其中，预设的回译文本分类模型的实质是一个文本相似性判断模型，预设的回译文本分类模型是用于判断第一回译文本是否合格的模型。第一回译文本分类结果用于表征第一回译文本是否合格的结果，第一回译文本分类结果包括第一分类结果和第二分类结果。第一分类结果指示第一回译文本与待翻译文本的相似率超过阈值。第二分类结果指示第一回译文本与待翻译文本的相似率未超过阈值。

具体地，在采用预设的神经网络翻译模型对待翻译文本进行文本处理，得到第一回译文本之后，将待翻译文本和第一回译文本输入至预设的回译文本分类模型，判断第一回译文本与待翻译文本的相似率是否超过阈值，得到第一回译文本分类结果。进一步地，第一回译文本分类结果包括第一分类结果和第二分类结果。若待翻译文本与第一回译文本的相似率超过阈值，则确定第一回译文本是合格的文本，即得到第一分类结果。若待翻译文本与第一回译文本的相似率未超过阈值，则确定第一回译文本是不合格的文本，即得到第二分类结果。

S14：若第一回译文本分类结果为第一分类结果，则通过文本流畅度模型获取待翻译文本的流畅度和第一回译文本的流畅度，并对待翻译文本的流畅度和第一回译文本的流畅度进行比较。

其中，待翻译文本的流畅度指的是待翻译文本中每一单词的分布在当前位置的流畅程度。第一回译文本的流畅度指的是第一回译文本中每一单词的分布在当前位置的流畅程度。文本流畅度模型用于获取任意文本的流畅度，该文本流畅度模型中包括文本语言表示模型等。

具体地，在将待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果之后，若待翻译文本与第一回译文本文意相同，即待翻译文本与第一回译文本的相似率超过阈值时，即第一回译文本分类结果为第一分类结果的时候，则将待翻译文本和第一回译文本输入至文本流畅度模型中，以获取待翻译文本的流畅度和第一回译文本的流畅度，并对获取到的待翻译文本的流畅度和第一回译文本的流畅度进行比较，从而对待翻译文本和第一回译文本进行进一步的比较。

S15：若第一回译文本的流畅度低于或等于待翻译文本的流畅度，则将待翻译文本记录为翻译改写文本。

其中，翻译改写文本为与原始文本进行区别对照的改写文本。

具体地，在获取到待翻译文本的流畅度和第一回译文本的流畅度之后，对待翻译文本的流畅度和第一回译文本的流畅度进行比较，若第一回译文本的流畅度低于或等于待翻译文本的流畅度，则表明待翻译文本的流畅度比第一回译文本的流畅度好，即待翻译文本的质量优于第一回译文本的质量，因此，将待翻译文本记录为翻译改写文本，以供与原始文本进行区别对照。

S16：在翻译改写文本与原始文本存在不同内容时，获取不同内容之后，将不同内容按照预设的标记规则标记在原始文本中，并将标记之后的原始文本作为输出文本输出。

其中，预设的标记规则的实质为修改规则，预设的标记规则可以通过标注、修订或者颜色替换等标记方式，标记内容可以包括对原始文本的增加、删除、替换或者顺序调整等。

具体地，在将待翻译文本记录为翻译改写文本之后，将待翻译文本与原始文本进行对比，在翻译改写文本与原始文本存在不同内容时，获取待翻译文本与原始文本之间的不同内容，并按照标注、修订或者颜色替换的方式将不同内容标记在原始文本中，得到标记后的原始文本，并将标记后的原始文本输出为输出文本。

在一具体实施方式中，若翻译改写文本与原始文本完全相同，则将翻译改写文本作为输出文本输出。

在本实施例中，当待翻译文本与第一回译文本文义相同时，则对待翻译文本的流畅度和第一回译文本的流畅度进行进一步比较，能够考虑到由于一些单词的影响造成判定两个文本形式不同但语义相同，这些单词的影响是较小的，而通过流畅度比较的方法，能够考虑到在文本语境中每一单词的流畅度，提高了翻译文本改写的准确率。

在一实施例中，如图3所示，步骤S14之后，也即获取待翻译文本的流畅度和第一回译文本的流畅度之后，还包括：

S17：若第一回译文本的流畅度高于待翻译文本的流畅度，则将第一回译文本输入第二神经网络翻译模型，并采用第二神经网络翻译模型对第一回译文本依次进行翻译和回译处理之后，得到第二回译文本。第二神经网络翻译模型是根据第一回译文本对第一神经网络翻译模型进行训练后得到的。

其中，第二回译文本是采用预设的神经网络翻译模型对第一回译文本进行文本处理得到的文本。第二神经网络翻译模型是根据第一回译文本对第一神经网络翻译模型进行训练后得到的，第二神经网络翻译模型也包括文本翻译模型和文本回译模型。

具体地，在获取到待翻译文本的流畅度和第一回译文本的流畅度之后，对待翻译文本的流畅度和第一回译文本的流畅度进行比较，若第一回译文本的流畅度高于待翻译文本的流畅度，则表明待翻译文本的流畅度比第一回译文本的流畅度差，即待翻译文本的质量低于第一回译文本的质量，因此，对第一回译文本进行同样的文本处理，进一步判断第一回译文本是否是流畅度最高的文本。进一步地，将第一回译文本输入第二神经网络翻译模型，并采用第二神经网络翻译模型中的文本翻译模型对第一回译文本进行翻译，采用第二神经网络翻译模型中的文本回译模型对翻译后的第一回译文本进行回译得到第二回译文本。

其中，第二神经网络翻译模型是根据第一回译文本对第一神经网络翻译模型进行训练后得到的。通过上述训练方法，可以避免生成与第一回译文本有关联关系的文本，如待翻译文本或者对待翻译文本进行翻译后的文本。进一步提高了改写文本生成的准确率。

S18：将第一回译文本和第二回译文本输入至预设的回译文本分类模型，得到第二回译文本分类结果，第二回译文本分类结果包括表征了第二回译文本合格的第三分类结果，以及表征了第二回译文本不合格的第四分类结果。

其中，第二回译文本分类结果用于表征第二回译文本是否合格的结果，第二回译文本分类结果包括第三分类结果和第四分类结果。第三分类结果指示第一回译文本与第二回译文本的相似率超过阈值。第四分类结果指示第一回译文本与第二回译文本的相似率未超过阈值。

具体地，在采用预设的神经网络翻译模型对第一回译文本进行文本处理，得到第二回译文本之后，将第一回译文本和第二回译文本输入至预设的回译文本分类模型，判断第一回译文本与第二回译文本的相似率是否超过阈值，得到第二回译文本分类结果。进一步地，第二回译文本分类结果包括第三分类结果和第四分类结果。若第一回译文本与第二回译文本的相似率超过阈值，则确定第二回译文本是合格的文本，即得到第三分类结果。若第一回译文本与第二回译文本的相似率未超过阈值，则确定第二回译文本是不合格的文本，即得到第四分类结果。

S19：若第二回译文本分类结果为第三分类结果，则获取第一回译文本的流畅度和第二回译文本的流畅度，并对第一回译文本的流畅度和第二回译文本的流畅度进行比较。

具体地，在将第一回译文本和第二回译文本输入至预设的回译文本分类模型，得到第二回译文本分类结果之后，若第一回译文本与第二回译文本文意相同，即第一回译文本与第二回译文本的相似率超过阈值，即第一回译文本分类结果为第三分类结果的时候，则获取第一回译文本的流畅度和第二回译文本的流畅度，对第一回译文本和第二回译文本进行进一步的比较。

S20：若第二回译文本的流畅度低于或等于第一回译文本的流畅度，则将第一回译文本记录为翻译改写文本。

具体地，在获取到第一回译文本的流畅度和第二回译文本的流畅度之后，对第一回译文本的流畅度和第二回译文本的流畅度进行比较，若第二回译文本的流畅度低于或等于第一回译文本的流畅度，则表明第一回译文本的流畅度比第二回译文本的流畅度好，即第一回译文本的质量优于第二回译文本的质量，因此，将第一回译文本记录为翻译改写文本，以供与原始文本进行区别对照。

在本实施例中，考虑到第一回译文本的流畅度高于待翻译文本的流畅度的情况，在第一回译文本的流畅度较好的时候，对第一回译文本进行再次文本处理，确定文本处理后的第二回译文本的流畅度是否比第一回译文本的流畅度高。在第二回译文本的流畅度高于第一回译文本时，则将第二回译文本输入至第三神经网络翻译模型中，以得到第三回译文本，并将第二回译文本和第三回译文本输入至预设的回译文本分类结果，在确定第三回译文本为合格文本之后，将获取到的第二回译文本的流畅度和第三回译文本的流畅度进行比较，若第三回译文本的流畅度高于第二回译文本的流畅度，则再将第三回译文本输入至第四神经网络翻译模型中，该第四神经网络翻译模型是根据第三回译文本对第三神经网络翻译模型进行训练后得到的，并参照上述内容，重复执行步骤S17-S20。也即，在后续步骤中，若出现任一新的回译文本的流畅度比与其对应的前一个回译文本的流畅度高(比如，流畅度高于第三回译文本的第四回译文本等)，则将该新的回译文本再次执行S17-S19步骤，直到该新的回译文本的流畅度低于或等于与其对应的前一个回译文本的流畅度，将该新的回译文本输出，终止上述循环步骤。从而使得生成的翻译改写文本更加精确，比起人工或者智能对原始文本修改确定的翻译改写文本的准确率更高，也更符合原始文本的语境。

在一实施例中，如图4所示，步骤S12中，也即采用第一神经网络翻译模型对待翻译文本进行文本处理，得到第一回译文本，包括：

S121：采用第一神经网络翻译模型中的文本翻译模型对待翻译文本进行翻译，得到翻译文本。

S122：采用第一神经网络翻译模型中的文本回译模型对翻译文本进行回译，得到第一回译文本。

其中，翻译文本为待翻译文本进行翻译之后得到的文本。文本翻译模型与文本回译模型均为翻译模型，文本翻译模型用于将文本中的语言翻译为另一种语言，文本回译模型用于将翻译后的文本的语言回译成初始语言。

具体地，在对原始文本进行预处理，得到待翻译文本之后，将待翻译文本输入至第一神经网络翻译模型中的文本翻译模型，采用文本翻译模型对待翻译文本进行翻译，得到翻译文本。将翻译文本输入至第一神经网络翻译模型中的文本回译模型，采用文本回译模型将翻译文本回译成待翻译文本的初始语言，得到第一回译文本。其中，翻译文本与待翻译文本是不属于同一语言系统的，并且翻译文本与待翻译文本之间的文本语法差别需要尽可能的大。

可选地，文本翻译模型与文本回译模型可采用第三方工具来执行建模，例如google、百度或者translate api等。

进一步地，文本翻译模型与文本回译模型的训练语料可以使用CzEng语料和欧洲议会平行语料Europarl，CzEng语料量大，可以保证翻译文意一致性；而欧洲议会平行语料Europarl是官方的人工翻译数据，可以很好的保证输出文本的流畅度、语法结构等。

在本实施例中，采用文本翻译模型和文本回译模型，能够避免出现任一神经网络翻译模型会出现历史翻译记录的情况。同时采用的训练预料是官方的翻译数据语料，能够保证在翻译模型生成翻译文本和回译文本的流畅度和语法结构是合格的。并且不需要人工大量的进行语料标注。

在一实施例中，如图5所示，步骤S13中，也即将待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果，包括：

S131：将待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到文本相似概率。

其中，文本相似概率为两个文本之间的相似程度。

具体地，在采用预设的神经网络翻译模型对待翻译文本进行文本处理，得到第一回译文本之后，将待翻译文本和第一回译文本输入至预设的回译文本分类模型，对待翻译文本和第一回译文本的相似性进行判断。其中，预设回译文本分类模型会以0表征待翻译文本和第一回译文本不一致，以1表征待翻译文本和第一回译文本一致，在对待翻译文本和第一回译文本的相似性进行判断之后，预设的回译文本分类模型会输出表征为1的概率，即文本相似概率。

S132：若文本相似概率高于或等于预设相似阈值，则得到第一分类结果，第一分类结果指示第一回译文本是合格的文本。

S133：若文本相似概率低于预设相似阈值，则得到第二分类结果，第二分类结果指示第一回译文本是不合格的文本。

其中，预设相似阈值是在预设的回译文本分类模型中设定的，该预设相似阈值可以为模型中默认的值，也可以为用户设置的值。示例性地，预设相似阈值可以为0.9、0.95或者0.98等。

具体地，在将待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到文本相似概率之后，将文本相似概率与预设相似阈值进行比较。

示例性地，假设文本相似概率为0.92，预设相似阈值为0.90，则表明文本相似概率高于预设相似阈值，则表征待翻译文本与第一回译文本相同，即得到第一分类结果。

示例性地，假设文本相似概率为0.92，预设相似阈值为0.95，则表明文本相似概率低于预设相似阈值，则表征待翻译文本与第一回译文本不相同，即得到第二分类结果。

在一具体实施例中，预设的回译文本分类模型的输出也可以为表征为0的概率，即文本差异概率。若文本差异概率低于或等于预设差异阈值，则得到第一差异结果，第一差异结果指示待翻译文本与第一回译文本相同。若文本差异概率高于预设差异阈值，则得到第二差异结果，第二差异结果指示待翻译文本与第一回译文本不相同。

其中，文本差异概率为待翻译文本和第一回译文本之间的差异程度。预设差异阈值也是在预设的回译文本分类模型中设定的，该预设阈值可以为模型中默认的值，也可以为用户设置的值。示例性地，预设差异阈值可以为0.02、0.05或者0.1等。

具体地，在将待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到文本差异概率之后，将文本差异概率与预设差异阈值进行比较。

示例性地，假设文本差异概率为0.02，预设差异阈值为0.08，则表明文本差异概率低于预设差异阈值，则表征待翻译文本与第一回译文本相同，即得到第一差异结果。

示例性地，假设文本差异概率为0.12，预设差异阈值为0.05，则表明文本差异概率高于预设差异阈值，则表征待翻译文本与第一回译文本不相同，即得到第二差异结果。

在本实施例中，通过对待翻译文本和第一回译文本进行相似性判断，并且将得到的文本相似概率和预设的阈值进行比较，使得文本相似性的判断不会有太大的误差，提高了准确性。并且通过与预设阈值比对的方法，用户能够更加灵活的调整不同文本需要达到的相似度对应的阈值，提高了对比的灵活性和全面性。

在一实施例中，步骤S13之后，也即将待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果之后，还包括：

若第一回译文本分类结果为第二分类结果，则将待翻译文本记录为翻译改写文本。

具体地，在待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果之后，若待翻译文本与第一回译文本不相同，即第一回译文本分类结果为第二分类结果，则将待翻译文本记录为翻译改写文本。

在一实施例中，如图6所示，步骤S14中，也即通过文本流畅度模型获取待翻译文本的流畅度和第一回译文本的流畅度，包括：

S141：将待翻译文本输入至文本流畅度模型中的bert模型中，得到待翻译文本中每一单词的第一位置概率，同时将第一回译文本输入至bert模型中，得到第一回译文本中每一单词的第二位置概率。

其中，bert模型的实质为语言模型，bert语言模型是一个masked language model(遮掩式语言模型)，即对文本中的每个单词逐一mask(遮掩)，然后计算去掉这个单词之后的文本的得分。待翻译文本中每一单词的第一位置概率为待翻译文本中每一单词在原始位置中的概率。第一回译文本中每一单词的第一位置概率为第一回译文本中每一单词在原始位置中的概率。

具体地，在确定第一回译文本分类结果为第一分类结果，为了获取待翻译文本的流畅度和第一回译文本的流畅度，将待翻译文本输入至文本流畅度模型中的bert模型中，计算待翻译文本中每一单词出现在原始位置的概率，得到待翻译文本中每一单词的第一位置概率；将第一回译文本输入至bert模型中，计算第一回译文本中每一单词出现在原始位置的概率，得到第一回译文本中每一单词的第二位置概率。

示例性地，假设待翻译文本“George and Ruth later reconcile at the timeof Nate's death.”，将待翻译文本翻译为中文之后，翻译文本为“内特死后乔治和露丝后来和解”，再将翻译文本回译为第一回译文本，得到第一回译文本为“George and Ruthlater reconciled after Nate's death.”。

进一步地，待翻译文本与第一回译文本的区别点在于，待翻译文本中使用的是“atthe time of”，第一回译文本中使用的是“after”,因此主要关注这两个单词的位置概率，计算待翻译文本中每一单词出现在原始位置的概率，得到“at the time of”4个单词出现在该上下文中的概率分别为0.351、0.831,、0.633、0.662，而“after”出现在该上下文中的概率为0.566。

其中，在bert语言模型中计算待翻译文本中每一单词出现在原始位置的概率和第一回译文本中每一单词出现在原始位置的概率的公式为：P(x_i/x_x<i)；

上述公式表明待翻译文本或者第一回译文本中第i个单词x基于上下文情景出现在该位置的概率。

S142：根据第一位置概率生成待翻译文本的第一语言模型分布相似度，同时根据第二位置概率生成第一回译文本的第二语言模型分布相似度。

其中，第一语言模型分布相似度的实质为待翻译文本的交叉熵，该第一语言模型分布相似度表征待翻译文本的语言分布与bert语言模型中正式语言分布的相似性。第二语言模型分布相似度的实质为第一回译文本的交叉熵，该第二语言模型分布相似度表征第一回译文本的语言分布与bert语言模型中正式语言分布的相似性。

具体地，在得到待翻译文本中每一单词的第一位置概率和第一回译文本中每一单词的第二位置概率之后，根据第一位置概率生成待翻译文本的第一语言模型分布相似度，同时根据第二位置概率生成第一回译文本的第二语言模型分布相似度。

其中，第一语言模型分布相似度和第二语言模型分布相似度可以采用如下公式进行算：

其中，H(x)为待翻译文本的第一语言模型分布相似度或者第一回译文本的第二语言模型分布相似度。P(x_i/x_<i)为待翻译文本或者第一回译文本中第i个单词x基于上下文情景出现在该位置的概率。|x|为待翻译文本或者第一回译文本的单词长度。

S143：采用文本流畅度模型中的文本流畅度指标对待翻译文本的第一语言模型分布相似度进行流畅度计算，得到待翻译文本的流畅度，同时采用文本流畅度指标对第一回译文本的第二语言模型分布相似度进行流畅度计算，得到第一回译文本的流畅度。

其中，文本流畅度指标为判断文本中语言流畅度的指标，该指标是基于符合海量文本语言分布的语言模型计算得到的，该文本流畅度指标的取值范围为0-1，取值越高表示文本越流畅。

具体地，在根据所述第一位置概率生成待翻译文本的第一语言模型分布相似度，同时根据所述第二位置概率生成第一回译文本的第二语言模型分布相似度之后，采用文本流畅度模型中的文本流畅度指标对待翻译文本的第一语言模型分布相似度进行流畅度计算，得到待翻译文本的流畅度。同时，采用文本流畅度指标对第一回译文本的第二语言模型分布相似度进行流畅度计算，得到第一回译文本的流畅度。

其中，文本流畅度指标计算流畅度的计算公式如下：

f(x)＝1/1+H(x)；

其中，f(x)为待翻译文本的流畅度或者第一回译文本的流畅度，H(x)为待翻译文本的第一语言模型分布相似度或者第一回译文本的第二语言模型分布相似度。

在本实施例中，为了提高文本的质量，引入文本流畅度指标对待翻译文本和第一回译文本进行流畅度的计算，并且采用bert语言模型来计算每一单词在原文本中当前位置的概率，能够更加精确的得到文本相似度，并且bert语言模型能够考虑到原始文本中语境，在语境下做出计算，提高了准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种文本处理装置，该文本处理装置与上述实施例中文本处理方法一一对应。如图7所示，该文本处理装置包括原始文本获取模块11、第一文本处理模块12、第一文本分类模块13、第一文本流畅度获取模块14、第一文本记录模块15和文本输出模块16。各功能模块详细说明如下：

原始文本获取模块11，用于获取原始文本，并对原始文本进行预处理，得到待翻译文本。

第一文本处理模块12，用于采用第一神经网络翻译模型对待翻译文本依次进行翻译和回译处理之后，得到第一回译文本。

第一文本分类模块13，用于将待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果，第一回译文本分类结果包括了表征第一回译文本合格的第一分类结果，以及表征了第一回译文本不合格的第二分类结果。

第一文本流畅度获取模块14，用于在第一回译文本分类结果为第一分类结果时，通过文本流畅度模型获取待翻译文本的流畅度和第一回译文本的流畅度，并对待翻译文本的流畅度和第一回译文本的流畅度进行比较。

第一文本记录模块15，用于在第一回译文本的流畅度低于或等于待翻译文本的流畅度时，将待翻译文本记录为翻译改写文本。

文本输出模块16，用于在翻译改写文本与原始文本存在不同内容时，获取不同内容之后，将不同内容按照预设的标记规则标记在原始文本中，并将标记之后的原始文本作为输出文本输出。

优选地，如图8所示，文本处理装置还包括：

第二文本处理模块17，在第一回译文本的流畅度高于待翻译文本的流畅度时，将第一回译文本输入至第二神经网络翻译模型，并采用第二神经网络翻译模型对第一回译文本依次进行翻译和回译处理之后，得到第二回译文本。第二神经网络翻译模型是根据所述第一回译文本对所述第一神经网络翻译模型进行训练后得到的。

第二文本分类模块18，用于将第一回译文本和第二回译文本输入至预设的回译文本分类模型，得到第二回译文本分类结果，第二回译文本分类结果包括表征了第二回译文本合格的第三分类结果，以及表征了第二回译文本不合格的第四分类结果。

第二文本流畅度获取模块19，用于在第二回译文本分类结果为第三分类结果时，获取第一回译文本的流畅度和第二回译文本的流畅度，并对第一回译文本的流畅度和第二回译文本的流畅度进行比较。

第二文本记录模块20，用于在第二回译文本的流畅度低于或等于第一回译文本的流畅度时，将所述第一回译文本记录为翻译改写文本。

优选地，如图9所示，第一文本处理模块12包括：

文本翻译单元121，用于采用第一神经网络翻译模型中的文本翻译模型对待翻译文本进行翻译，得到翻译文本。

文本回译单元122，用于采用第一神经网络翻译模型中的文本回译模型对翻译文本进行回译，得到第一回译文本。

优选地，如图10所示，第一文本分类模块13包括：

文本相似概率确定单元131，用于将待翻译文本和第一回译文本输入至预设的回译文本分类模型，得到文本相似概率。

第一分类结果确定单元132，用于在文本相似概率高于或等于预设相似阈值时，得到第一分类结果，第一分类结果指示第一回译文本是合格的文本。

第二分类结果确定单元133，用于在文本相似概率低于预设相似阈值时，得到第二分类结果，第二分类结果指示第一回译文本是不合格的文本。

优选地，如图11所示，文本处理装置还包括：

第三文本记录模块，用于在第一回译文本分类结果为第二分类结果时，将待翻译文本记录为翻译改写文本。

优选地，第一文本流畅度获取模块14包括：

位置概率确定单元141，用于将待翻译文本输入至文本流畅度模型中的bert模型中，得到待翻译文本中每一单词的第一位置概率，同时将第一回译文本输入至bert模型中，得到第一回译文本中每一单词的第二位置概率。

分布相似度确定单元142，用于根据第一位置概率生成待翻译文本的第一语言模型分布相似度，同时根据第二位置概率生成第一回译文本的第二语言模型分布相似度。

文本流畅度确定单元143，用于采用文本流畅度模型中的文本流畅度指标对待翻译文本的第一语言模型分布相似度进行流畅度计算，得到待翻译文本的流畅度，同时采用文本流畅度指标对第一回译文本的第二语言模型分布相似度进行流畅度计算，得到第一回译文本的流畅度。

关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定，在此不再赘述。上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述文本处理方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中文本处理方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中文本处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种文本处理方法，其特征在于，包括：

在所述翻译改写文本与所述原始文本存在不同内容时，获取所述不同内容之后，将所述不同内容按照预设的标记规则标记在所述原始文本中，并将标记之后的所述原始文本作为输出文本输出；

所述通过文本流畅度模型获取所述待翻译文本的流畅度和所述第一回译文本的流畅度，包括：

将所述待翻译文本输入至所述文本流畅度模型中的bert模型中，得到所述待翻译文本中每一单词的第一位置概率，同时将所述第一回译文本输入至bert模型中，得到所述第一回译文本中每一单词的第二位置概率；

根据所述第一位置概率生成所述待翻译文本的第一语言模型分布相似度，同时根据所述第二位置概率生成所述第一回译文本的第二语言模型分布相似度；

采用所述文本流畅度模型中的文本流畅度指标对所述待翻译文本的第一语言模型分布相似度进行流畅度计算，得到待翻译文本的流畅度，同时采用文本流畅度指标对所述第一回译文本的第二语言模型分布相似度进行流畅度计算，得到第一回译文本的流畅度。

2.如权利要求1所述的文本处理方法，其特征在于，所述获取所述待翻译文本的流畅度和所述第一回译文本的流畅度之后，还包括：

若所述第一回译文本的流畅度高于所述待翻译文本的流畅度，则将所述第一回译文本输入至第二神经网络翻译模型，并采用所述第二神经网络翻译模型对所述第一回译文本依次进行翻译和回译处理之后，得到第二回译文本；所述第二神经网络翻译模型是根据所述第一回译文本对所述第一神经网络翻译模型进行训练后得到的；

将所述第一回译文本和所述第二回译文本输入至所述预设的回译文本分类模型，得到第二回译文本分类结果，所述第二回译文本分类结果包括表征了所述第二回译文本合格的第三分类结果，以及表征了所述第二回译文本不合格的第四分类结果；

若所述第二回译文本分类结果为所述第三分类结果，则获取所述第一回译文本的流畅度和所述第二回译文本的流畅度，并对所述第一回译文本的流畅度和所述第二回译文本的流畅度进行比较；

若所述第二回译文本的流畅度低于或等于所述第一回译文本的流畅度，则将所述第一回译文本记录为翻译改写文本。

3.如权利要求1所述的文本处理方法，其特征在于，所述采用第一神经网络翻译模型对所述待翻译文本进行文本处理，得到第一回译文本，包括：

采用所述第一神经网络翻译模型中的文本翻译模型对所述待翻译文本进行翻译，得到翻译文本；

采用所述第一神经网络翻译模型中的文本回译模型对所述翻译文本进行回译，得到所述第一回译文本。

4.如权利要求1所述的文本处理方法，其特征在于，所述将所述待翻译文本和所述第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果，包括：

将所述待翻译文本和所述第一回译文本输入至所述预设的回译文本分类模型，得到文本相似概率；

若所述文本相似概率高于或等于预设相似阈值，则得到所述第一分类结果，第一分类结果指示第一回译文本是合格的文本；

若所述文本相似概率低于预设相似阈值，则得到第二分类结果，第二分类结果指示第一回译文本是不合格的文本。

5.如权利要求1所述的文本处理方法，其特征在于，在所述将所述待翻译文本和所述第一回译文本输入至预设的回译文本分类模型，得到第一回译文本分类结果之后，还包括：

若所述第一回译文本分类结果为所述第二分类结果，则将所述待翻译文本记录为翻译改写文本。

6.一种文本处理装置，其特征在于，包括：

第一文本流畅度获取模块，用于在所述第一回译文本分类结果为所述第一分类结果时，通过文本流畅度模型获取所述待翻译文本的流畅度和所述第一回译文本的流畅度，并对所述待翻译文本的流畅度和所述第一回译文本的流畅度进行比较；

文本输出模块，用于在所述翻译改写文本与所述原始文本存在不同内容时，获取所述不同内容之后，将所述不同内容按照预设的标记规则标记在所述原始文本中，并将标记之后的所述原始文本作为输出文本输出；

第一文本流畅度获取模块包括：

位置概率确定单元，用于将待翻译文本输入至文本流畅度模型中的bert模型中，得到待翻译文本中每一单词的第一位置概率，同时将第一回译文本输入至bert模型中，得到第一回译文本中每一单词的第二位置概率；

分布相似度确定单元，用于根据第一位置概率生成待翻译文本的第一语言模型分布相似度，同时根据第二位置概率生成第一回译文本的第二语言模型分布相似度；

文本流畅度确定单元，用于采用文本流畅度模型中的文本流畅度指标对待翻译文本的第一语言模型分布相似度进行流畅度计算，得到待翻译文本的流畅度，同时采用文本流畅度指标对第一回译文本的第二语言模型分布相似度进行流畅度计算，得到第一回译文本的流畅度。

7.如权利要求6所述的文本处理装置，其特征在于，还包括：

第二文本处理模块，在所述第一回译文本的流畅度高于所述待翻译文本的流畅度时，将所述第一回译文本输入至第二神经网络翻译模型，并采用所述第二神经网络翻译模型对所述第一回译文本依次进行翻译和回译处理之后，得到第二回译文本；所述第二神经网络翻译模型是根据所述第一回译文本对所述第一神经网络翻译模型进行训练后得到的；

第二文本分类模块，用于将所述第一回译文本和所述第二回译文本输入至所述预设的回译文本分类模型，得到第二回译文本分类结果，所述第二回译文本分类结果包括表征了所述第二回译文本合格的第三分类结果，以及表征了所述第二回译文本不合格的第四分类结果；

第二文本流畅度获取模块，用于在所述第二回译文本分类结果为所述第三分类结果时，获取所述第一回译文本的流畅度和所述第二回译文本的流畅度；

第二文本记录模块，用于在所述第二回译文本的流畅度低于或等于所述第一回译文本的流畅度时，将所述第一回译文本记录为翻译改写文本。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述文本处理方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本处理方法。