CN112052648A

CN112052648A - 一种字串翻译方法、装置、电子设备及存储介质

Info

Publication number: CN112052648A
Application number: CN202010912678.2A
Authority: CN
Inventors: 郭云辉; 韩娜
Original assignee: Wensihai Huizhike Technology Co ltd
Current assignee: Wensihai Huizhike Technology Co ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-12-08
Anticipated expiration: 2040-09-02
Also published as: CN112052648B

Abstract

本申请提供一种字串翻译方法、装置、电子设备及存储介质，该方法包括：获得待翻译的第一文件；将第一文件与具有译文的第二文件进行比较，获得共同字串集合；根据共同字串集合和第一文件确定待翻译字串集合；获得翻译后字串集合；将翻译后字串集合与第二文件的译文进行合并，获得第一文件的译文。在上述的实现过程中，通过第一文件与第二文件中的共同字串集合和第一文件确定待翻译字串集合，将翻译后的字串集合进行合并，使得计算机辅助翻译工具或系统、翻译人员或者翻译机器仅仅需要处理或翻译待翻译字串集合即可，不需要重复处理或翻译已翻译的字串，节省了大量重复处理或翻译的工作量，节省了系统资源，有效地提高了翻译工作中的翻译效率。

Description

一种字串翻译方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机数据处理和翻译的技术领域，具体而言，涉及一种字串翻译方法、装置、电子设备及存储介质。

背景技术

在目前的翻译工作中，大部分翻译工作都是通过人工翻译并校对的，为了加速翻译工作，通过人工地查阅各种人工构造的翻译文件数据库；在具体的实践过程中，在翻译文件增量更新的场景中，需要人工地在翻译文件数据库中查找出与需要翻译的文件最相似的翻译文件，并对翻译文件进行适应性修改为需要翻译的文件。虽然通过人工在翻译文件数据库查询翻译文件，在一定程度上能够加速翻译过程，但相较于直接将需要翻译的文件从头开始翻译的方式，上述增量更新场景中的人工查找和适应性修改的方式中，存在着大量的对比工作和修改工作导致翻译效率相对低下。

发明内容

本申请实施例的目的在于提供一种字串翻译方法、装置、电子设备及存储介质，用于改善在翻译过程中的翻译效率相对低下的问题。

本申请实施例提供了一种字串翻译方法，包括：获得待翻译的第一文件；将第一文件与具有译文的第二文件进行比较，获得共同字串集合，共同字串集合包括第一文件和第二文件中均存在的共同字串；根据共同字串集合和第一文件确定待翻译字串集合；获得翻译后字串集合，翻译后字串集合为对待翻译字串集合进行翻译得到的；将翻译后字串集合与第二文件的译文进行合并，获得第一文件的译文。在上述的实现过程中，通过将需要翻译的第一文件与具有译文的第二文件进行比较，获得已翻译的共同字串集合，再根据共同字串集合和第一文件确定待翻译字串集合，最后将翻译后的字串集合进行合并，使得计算机辅助翻译工具或系统、翻译人员或者翻译机器仅仅需要处理或翻译待翻译字串集合即可，不需要重复处理或翻译已翻译的字串，不但节省了重复处理或翻译的工作量，同时节省了大量的对比工作量，也节省了将共同字串集合与需要翻译的文件进行合并的工作量，节省了系统资源，有效地提高了翻译工作中的翻译效率。

可选地，在本申请实施例中，将第一文件与具有译文的第二文件进行比较，获得共同字串集合，包括：比较第一文件和第二文件中各字串的字串标识和字串内容，并将字串标识相同且字串内容相同的字串集合确定为共同字串集合。在上述的实现过程中，通过将字串内容相同且字串内容相同的字符内容确定为相同字串，有效地提高了确定出第一文件和第二文件中的共同字串集合的准确率。

可选地，在本申请实施例中，根据共同字串集合和第一文件确定待翻译字串集合，包括：从第一文件中删除共同字串集合对应的字串，以得到待翻译字串集合。

可选地，在本申请实施例中，将翻译后字串集合与第二文件的译文进行合并，包括：确定第二文件的译文中与共同字串集合对应的共有译文，并根据翻译后字串集合和共有译文，得到第一文件对应的译文。

可选地，在本申请实施例中，根据翻译后字串集合和共有译文，得到第一文件对应的译文，包括：分别获取翻译后字串集合中各字串的字串标识以及共有译文中各字串的字串标识；根据字串标识的顺序，将翻译后字串集合与共有译文拼接成第一文件对应的译文。在上述的实现过程中，通过分别获取翻译后字串集合中各字串的字串标识以及共有译文中各字串的字串标识；根据字串标识的顺序将翻译后字串集合与共有译文拼接成第一文件对应的译文；从而避免了在合并过程中出现第一文件对应的译文与第一文件的原文顺序不一致的情况，有效地保证了翻译后的译文正确率。

可选地，在本申请实施例中，字串翻译方法还包括：在翻译文件数据库中匹配出第一文件的标识相同的文件，获得第二文件；或者在翻译文件数据库中匹配出与第一文件的内容相似度最大的文件，获得第二文件。在上述的实现过程中，通过在翻译文件数据库中匹配出与第一文件对应的第二文件；从而减轻了译员翻译的工作负担，有效地提高了译员翻译的工作效率。

可选地，在本申请实施例中，获得翻译后字串集合，包括：使用预先训练的深度神经网络模型或者基于语义规则算法对待翻译字串集合进行翻译，获得翻译后字串集合。在上述的实现过程中，通过使用预先训练的深度神经网络模型或者基于语义规则算法对待翻译字串集合进行翻译，获得翻译后字串集合；从而减轻了译员翻译的工作负担，有效地提高了译员翻译的工作效率。

可选地，在本申请实施例中，获得翻译后字串集合，包括：向第一设备发送待翻译字串集合，待翻译字串集合用于被第一设备翻译并返回翻译后字串集合；接收第一设备发送的翻译后字串集合。在上述的实现过程中，通过向第一设备发送待翻译字串集合，待翻译字串集合用于被第一设备翻译并返回翻译后字串集合；接收第一设备发送的翻译后字串集合；从而减轻了电子设备对待翻译字串集合进行翻译的计算量，有效地节约了电子设备的计算资源。

可选地，在本申请实施例中，获得待翻译的第一文件，包括：接收第二设备发送的第一文件；在获得第一文件的译文之后，还包括：向第二设备发送第一文件的译文。在上述的实现过程中，通过接收第二设备发送的第一文件；在获得第一文件的译文之后，向第二设备发送第一文件的译文，从而为第二设备提供了有效地翻译服务，节约了第二设备的计算资源。

本申请实施例还提供了一种字串翻译装置，包括：第一文件获得模块，用于获得待翻译的第一文件；共同字串获得模块，用于将第一文件与具有译文的第二文件进行比较，获得共同字串集合，共同字串集合包括第一文件和第二文件中均存在的共同字串；待翻字串确定模块，用于根据共同字串集合和第一文件确定待翻译字串集合；译后字串获得模块，用于获得翻译后字串集合，翻译后字串集合为对待翻译字串集合进行翻译得到的；字串译文合并模块，用于将翻译后字串集合与第二文件的译文进行合并，获得第一文件的译文。

可选地，在本申请实施例中，共同字串获得模块，包括：共同字串确定模块，用于比较第一文件和第二文件中各字串的字串标识和字串内容，并将字串标识相同且字串内容相同的字串集合确定为共同字串集合。

可选地，在本申请实施例中，待翻字串确定模块，包括：共同字串删除模块，用于从第一文件中删除共同字串集合对应的字串，以得到待翻译字串集合。

可选地，在本申请实施例中，字串译文合并模块，包括：字串译文获得模块，用于确定第二文件的译文中与共同字串集合对应的共有译文，并根据翻译后字串集合和共有译文，得到第一文件对应的译文。

可选地，在本申请实施例中，字串译文合并模块，还包括：字串标识获取模块，用于分别获取翻译后字串集合中各字串的字串标识以及共有译文中各字串的字串标识；字串译文拼接模块，用于根据字串标识的顺序，将翻译后字串集合与共有译文拼接成第一文件对应的译文。

可选地，在本申请实施例中，还包括：第二文件获得模块，用于在翻译文件数据库中匹配出第一文件的标识相同的文件，获得第二文件；或者在翻译文件数据库中匹配出与第一文件的内容相似度最大的文件，获得第二文件。

可选地，在本申请实施例中，译后字串获得模块，包括：模型算法翻译模块，用于使用预先训练的深度神经网络模型或者基于语义规则算法对待翻译字串集合进行翻译，获得翻译后字串集合。

可选地，在本申请实施例中，译后字串获得模块，包括：待翻字串发送模块，用于向第一设备发送待翻译字串集合，待翻译字串集合用于被第一设备翻译并返回翻译后字串集合；译后字串接收模块，用于接收第一设备发送的翻译后字串集合。

可选地，在本申请实施例中，还包括：待翻文件接收模块，用于接收第二设备发送的第一文件；译文文件发送模块，用于向第二设备发送第一文件的译文。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的字串翻译方法的流程示意图；

图2示出的本申请实施例提供的其中一种翻译实施方式的流程示意图；

图3示出的本申请实施例提供的为终端设备提供翻译服务的流程示意图；

图4示出的本申请实施例提供的字串翻译装置的结构示意图；

图5示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的字串翻译方法之前，先介绍本申请实施例中涉及的一些概念：

光学字符识别(Optical Character Recognition，OCR)是指利用相机、扫描仪等光学输入设备对票据、订单号、文本文件或其它载体上的字符进行拍摄或扫描，然后对拍摄或扫描后的图像文件进行数字化处理，得到文字信息的过程。

脚本对象简谱(JavaScript Object Notation，JSON)是一种轻量级的数据交换格式；JSON基于ECMAScript的一个子集，这里的ECMAScript是欧洲计算机协会制定的JavaScript规范，JSON采用完全独立于编程语言的文本格式来存储和表示数据。

需要说明的是，本申请实施例提供的字串翻译方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digitalassistant，PDA)、移动上网设备(mobile Internet device，MID)、网络交换机或网络路由器等。

在介绍本申请实施例提供的字串翻译方法之前，先介绍该字串翻译方法适用的应用场景，这里的应用场景包括但不限于：将该字串翻译方法应用于对翻译行业中的专业翻译软件、计算机辅助翻译工具(Computer Aided Tool，CAT)或者在线翻译管理系统进行功能完善，并使用功能完善后的专业翻译软件或者在线翻译管理系统对需要翻译的电子文件进行翻译；其中，电子文件包括但不限于：用户帮助(User Assistance，UA)文档、手册、说明书和专业文档等等。当然，也可以使用该字串翻译方法构建并完善翻译数据库、翻译记忆(Translation Memory)库或翻译版本库等应用系统。

请参见图1示出的本申请实施例提供的字串翻译方法的流程示意图；该字串翻译方法的主要思路是，通过将需要翻译的第一文件与具有译文的第二文件进行比较，从而快速地确定出待翻译字串集合，然后将翻译后的字串集合与比较出的共同字串对应译文进行合并，使得计算机辅助翻译工具(CAT)或系统、翻译人员或者翻译机器仅仅需要处理或翻译待翻译字串集合即可，不需要重复处理或翻译已翻译的字串，不但节省了重复处理或翻译的工作量，同时节省了大量的对比工作量，也节省了将共同字串集合与需要翻译的文件进行合并的工作量，节省了系统资源，有效地提高了翻译工作中的翻译效率；上述的字串翻译方法可以包括：

步骤S110：获得待翻译的第一文件。

第一文件是指可以被翻译的文件，简称为可翻文件；具体地，第一文件可以是使用CAT工具对原始文件(例如格式为doc、docx、ppt和xlsx等需要翻译的文件)进行处理后的文件，此处的CAT工具处理包括：从原始文件中提取可翻译内容，从而将获得的待翻译源文作为第一文件。当然，若没有CAT工具，也可以根据实际情况获取第一文件，具体例如：第一文件是需要被翻译的文件，该文件可以是电子文件，此处的电子文件中包括待翻译的文字内容，也可以是由纸质文件扫描并采用光学字符识别(OCR)后获得的电子文件，也可以是由人工地将待翻译的文字内容输入获得电子文件。

请参见图2示出的本申请实施例提供的其中一种翻译实施方式的流程示意图；为了便于理解和说明，下面均以该图中的文件内容作为示例进行说明，将待翻译的中文内容翻译为英文内容，其中，待翻译的第一文件的具体内容例如：字串标识为ID_0的字串内容为“抱歉”，字串标识为ID_2的字串内容为“谢谢”，字串标识为ID_3的字串内容为“好的”；其中，待翻译的第一文件使用JSON格式表示为{"tus1":[{"ID":"0","src":"抱歉","trg":""},{"ID":"2","src":"谢谢","trg":""},{"ID":"3","src":"好的","trg":""}]}；其中，tus表示翻译单元集合(translation units)，tus1可以表示第一文件，即可以将第一文件理解为第一翻译单元集合，ID表示字串标识，src表示字串源文(source)，trg表示字串译文(target)，可以将字串标识、字串源文和字串译文的组合理解为CAT中的翻译单元，翻译单元在没有被翻译之前可以称之为待译单元，在被翻译之后可以称之为已译单元。

在具体的实施过程中，上述的待翻译的第一文件也可以根据具体情况表示为简单的JSON格式，以兼容老版本的软件系统，待翻译的第一文件使用简单的单语种形式的JSON格式表示为{"ID_0":"抱歉","ID_2":"谢谢","ID_3":"好的"}；同样的道理，本申请实施例中的所有的JSON格式可以体现出英语、汉语和日语等等需要翻译的语言，也可以使用单语种形式、双语形式或者三种语言形式的JSON格式，也可以使用简单的JSON格式或者是别的格式，例如：可扩展标记语言(eXtensible Markup Language，XML)等等格式；因此，本申请实施例中的语言种类、语言形式、字串内容和字串格式均是示例性的，不应当将语言种类、语言形式、字串内容和字串格式作为本申请实施例的限制。

上述步骤S110中的第一文件有很多种获得方式，包括但不限于这几种：第一种获得方式，接收其它终端设备发送的第一文件，将第一文件存储至文件系统、数据库或移动存储设备中；第二种获得方式，获取预先存储的第一文件，具体例如：从文件系统中获取第一文件，或者从数据库中获取第一文件，或者从移动存储设备中获取第一文件；第三种获得方式，使用浏览器等软件获取互联网上的第一文件，或者使用其它应用程序访问互联网获得第一文件。

在步骤S110之后，执行步骤S120：将第一文件与具有译文的第二文件进行比较，获得共同字串集合。

第二文件是指电子设备根据第一文件进行匹配获得的文件，第二文件例如可以是与第一文件的内容相似的文件或者有部分内容相同的文件，第二文件的具体内容例如：字串标识为ID_1的字串内容为“您好”，字串标识为ID_2的字串内容为“再见”，字串标识为ID_3的字串内容为“好的”。其中，具有译文的第二文件使用JSON格式表示为{"tus2":[{"ID":"1","src":"您好","trg":""},{"ID":"2","src":"再见","trg":""},{"ID":"3","src":"好的","trg":""}]}；其中，tus2表示第二文件，其它的字段含义请参见对第一文件tus1的解释说明。

可以理解的是，在将第一文件与具有译文的第二文件进行比较之前，还可以使用计算机辅助翻译工具(CAT)将第一文件分割为多个待译句段，此处的待译句段又被称为翻译单元(Translation Unit，TU)，已经被翻译的待译句段(或翻译单元)可以存储在翻译文件数据库中，翻译文件数据库中存储的翻译单元可以包括句段源文和句段源文对应的译文。

上述的根据第一文件匹配出第二文件有很多种匹配方式，包括：

第一种匹配方式，在翻译文件数据库中匹配出第一文件的标识相同的文件，获得第二文件，文件标识可以采用文件的其中一个属性或者文件的多个属性作为联合标识，此处文件的属性包括但不限于：文件编号、文件实际存放路径、文件虚拟相对路径和文件名称加后缀等等，具体例如：假设采用文件名称加后缀作为文件标识，若第一文件的文件标识为transfile.doc，即可在翻译文件数据库中查找到文件标识为transfile.doc的第二文件。

第二种匹配方式，在翻译文件数据库中匹配出与第一文件的内容相似度最大的文件，获得第二文件，可以推出匹配过程中至少存在三种情况：第一种完全匹配的情况，在翻译文件数据库中找到与第一文件一模一样的第二文件，第二种模糊匹配的情况，在翻译文件数据库中找到与第一文件相似度较高的第二文件，第三种没有匹配的情况，在翻译文件数据库中没有找到与第一文件相似的第二文件；其中，内容相似度的具体算法可以采用将第一文件和第二文件均划分为多个语句，计算第一文件中的所有语句与第二文件中的所有语句的相似度，语句与语句的相似度可以采用的评价指标包括：余弦距离、余弦相似度、汉明距离或欧氏距离等等。

在上述的实现过程中，通过在翻译文件数据库中匹配出与第一文件对应的第二文件；从而减轻了译员翻译的工作负担，有效地提高了译员翻译的工作效率。

共同字串集合，是指第一文件中的字串和第二文件中的字串相同的集合，也就是说，共同字串集合包括第一文件和第二文件中均存在的共同字串，其中，这里的相同可以是字串标识相同且字串内容均相同。

上述步骤S120的实施方式包括：比较第一文件和第二文件中各字串的字串标识和字串内容，在比较的过程中，可以使用的算法包括但不限于：最长公共字串(LongestCommon Substring，LCS)算法，然后将字串标识相同且字串内容相同的字串集合确定为共同字串集合，具体例如：如图2显示的，假设第一文件使用JSON格式表示为{"tus1":[{"ID":"0","src":"抱歉","trg":""},{"ID":"2","src":"谢谢","trg":""},{"ID":"3","src":"好的","trg":""}]}，且第二文件使用JSON格式表示为{"tus2":[{"ID":"1","src":"您好","trg":""},{"ID":"2","src":"再见","trg":""},{"ID":"3","src":"好的","trg":""}]}，将第一文件和第二文件中各字串的字串标识和字串内容进行比较，可以得知，第一文件和第二文件中字串标识且字串内容均相同的共同字串使用JSON格式表示为{"ID":"3","src":"好的","trg":""}，也就是说，共同字串集合包括：字串标识为ID_3的字串内容是“好的”；其中，共同字串的字串标识ID_3的状态可以标记为same。

在步骤S120之后，执行步骤S130：根据共同字串集合和第一文件确定待翻译字串集合。

上述步骤S130的实施方式包括：从第一文件中删除共同字串集合对应的字串，以得到待翻译字串集合，具体例如：若第一文件使用JSON格式表示为{"tus1":[{"ID":"0","src":"抱歉","trg":""},{"ID":"2","src":"谢谢","trg":""},{"ID":"3","src":"好的","trg":""}]}，且共同字串使用JSON格式表示为{"ID":"3","src":"好的","trg":""}，那么从第一文件中删除标记为same的字串后，获得的待翻译字串集合可以表示为[{"ID":"0","src":"抱歉","trg":""},{"ID":"2","src":"谢谢","trg":""}]。

在步骤S130之后，执行步骤S140：获得翻译后字串集合，翻译后字串集合为对待翻译字串集合进行翻译得到的。

上述步骤S140的实施方式有很多种，包括但不限于如下几种：

第一种实施方式，使用基于机器翻译(Manchine Translation，MT)方法来对字串进行翻译，包括：

步骤S141：使用人工神经网络模型或者基于统计方法对字串进行翻译，获得翻译后字串集合。

上述步骤S141的实施方式例如：人工神经网络模型可以采用预先训练的深度神经网络模型，基于统计方法包括：基于语料库(Corpus-Based)算法或者基于语义规则(Rule-Based)算法；使用上述的人工神经网络模型或者基于统计方法对待翻译字串集合进行翻译，获得翻译后字串集合；其中，深度神经网络(Deep Neural Networks,DNN)模型是一种判别模型，可以使用反向传播算法进行训练；可以使用的深度神经网络模型包括但不限于：VGG网络、Resnet网络、Wide Resnet网络和Inception网络等。具体例子，若待翻译字串集合使用JSON格式表示为[{"ID":"0","src":"抱歉","trg":""},{"ID":"2","src":"谢谢","trg":""}]，那么翻译后字串集合可以表示为[{"ID":"0","src":"抱歉","trg":"sorry"},{"ID":"2","src":"谢谢","trg":"thanks"}]。在上述的实现过程中，通过使用预先训练的深度神经网络模型或者基于语义规则算法对待翻译字串集合进行翻译，获得翻译后字串集合；从而减轻了译员翻译的工作负担，有效地提高了译员翻译的工作效率。

第二种实施方式，让执行字串翻译方法的电子设备将待翻译字串集合发送给其他设备，让其它设备进行人工翻译处理或者机器翻译处理，包括：

步骤S142：电子设备向第一设备发送待翻译字串集合，待翻译字串集合用于被第一设备翻译并返回翻译后字串集合。

步骤S143：电子设备接收第一设备发送的翻译后字串集合。

上述步骤S142至步骤S143的实施方式例如：电子设备通过传输控制协议(Transmission Control Protocol，TCP)或者用户数据报协议(User Datagram Protocol，UDP)向第一设备发送待翻译字串集合，第一设备将待翻译字串集合进行翻译，第一设备翻译的方式包括但不限于：人工翻译处理或者机器翻译处理；然后第一设备通过TCP协议或者UDP协议向电子设备发送翻译后字串集合；电子设备通过TCP协议或者UDP协议接收第一设备发送的翻译后字串集合；具体地，若待翻译字串集合使用JSON格式表示为[{"ID":"0","src":"抱歉","trg":""},{"ID":"2","src":"谢谢","trg":""}]，那么翻译后字串集合使用JSON格式可以表示为[{"ID":"0","src":"抱歉","trg":"sorry"},{"ID":"2","src":"谢谢","trg":"thanks"}]。

第三种实施方式，结合第一种实施方式和第二种实施方式，先由机器翻译(MT)能够完全匹配的部分字串，此处的完全匹配的部分字串包括：字串内容与机器中存储的已经翻译的字串百分之百完全相同的字串，然后再将不能够完全匹配的部分字串做机器后编辑(POST Editing)，即将不能够完全匹配的部分字串交给翻译人员进行人工翻译、编辑和校对，可以获得翻译后字串集合。

在上述的实现过程中，通过向第一设备发送待翻译字串集合，待翻译字串集合用于被第一设备翻译并返回翻译后字串集合；接收第一设备发送的翻译后字串集合；从而减轻了电子设备对待翻译字串集合进行翻译的计算量，有效地节约了电子设备的计算资源。

在步骤S140之后，执行步骤S150：将翻译后字串集合与第二文件的译文进行合并，获得第一文件的译文。

第二文件的译文，是指电子设备根据第一文件进行匹配获得的文件译文，具体例如：若第二文件使用JSON格式表示为{"tus2":[{"ID":"1","src":"您好","trg":""},{"ID":"2","src":"再见","trg":""},{"ID":"3","src":"好的","trg":""}]}，那么第二文件的译文使用JSON格式可以表示为{"tus2":[{"ID":"1","src":"您好","trg":"hello"},{"ID":"2","src":"再见","trg":"bye"},{"ID":"3","src":"好的","trg":"good"}]}。

上述步骤S150的实施方式有很多种，其中一种实施方式例如：

步骤S151：确定第二文件的译文中与共同字串集合对应的共有译文。

上述步骤S151的实施方式包括：若共同字串集合使用JSON格式表示为{"ID":"3","src":"好的","trg":""}，则共同字串集合对应的共有译文使用JSON格式表示表示为{"ID":"3","src":"好的","trg":"good"}，假设第二文件的译文使用JSON格式表示为{"tus2":[{"ID":"1","src":"您好","trg":"hello"},{"ID":"2","src":"再见","trg":"bye"},{"ID":"3","src":"好的","trg":"good"}]}，那么确定第二文件的译文中与共同字串集合对应的共有译文为{"ID":"3","src":"好的","trg":"good"}。

步骤S152：根据翻译后字串集合和共有译文，得到第一文件对应的译文。

上述步骤S152的实施方式包括：若翻译后字串集合使用JSON格式表示为[{"ID":"0","src":"抱歉","trg":"sorry"},{"ID":"2","src":"谢谢","trg":"thanks"}]，且共有译文表示为{"ID":"3","src":"好的","trg":"good"}，将翻译后字串集合与共有译文拼接成第一文件对应的译文使用JSON格式可以表示为{"tus1":[{"ID":"0","src":"抱歉","trg":"sorry"},{"ID":"2","src":"谢谢","trg":"thanks"},{"ID":"3","src":"好的","trg":"good"}]}。在上述的实现过程中，通过分别获取翻译后字串集合中各字串的字串标识以及共有译文中各字串的字串标识；根据字串标识的顺序将翻译后字串集合与共有译文拼接成第一文件对应的译文；从而避免了在合并过程中出现第一文件对应的译文与第一文件的原文顺序不一致的情况，有效地保证了翻译后的译文正确率。

可以将上述字串翻译方法来增强计算机辅助翻译工具(CAT)的功能，例如：使用CAT在翻译文件数据库自动查找待翻译的待译字串(即待译句段)是否存在相似度超过预设阈值的已译字串，其中，待译句段是使用CAT将待翻译的第一文件进行分割获得的，具体例如：判断在翻译文件数据库中是否存在与待译字串的相似度超过预设阈值的已译字串；若存在，则将已译字串对应的译文作为待译字串的译文；若不存在，则返回提示信息。通过上述增强功能后的CAT可以有效地帮助翻译人员提高翻译效率，并保持翻译形式的一致性，此处的翻译形式包括但不限于：翻译用词、翻译句式和翻译风格等等。列举一个比较实际的例子，来说明功能增强后的CAT能够达到的效果例如：对于一个增量更新的翻译项目，假设该翻译项目需要翻译的全部字数为一万字，如果在翻译文件数据库自动查找到相似已译字串字数达到八千字，那么实际上只需要翻译的增量字数仅仅只有两千字，从而有效地节省了翻译人力资源。通过预先比较翻译源文，仅仅获取并处理需要翻译的增量字数(即翻译项目中的所有字数与翻译文件数据库中的已存字数的差异部分)，有效地节省CAT系统的计算资源和处理时间，同时也节省了翻译人员的时间，并提高了翻译人员的效率。

在上述的实现过程中，通过将需要翻译的第一文件与具有译文的第二文件进行比较，从而快速地确定出待翻译字串集合，然后将翻译后的字串集合与比较出的共同字串对应译文进行合并，使得计算机辅助翻译工具或系统、翻译人员或者翻译机器仅仅需要处理或翻译待翻译字串集合即可，不需要重复处理或翻译已翻译的字串，不但节省了重复处理或翻译的工作量，同时节省了大量的对比工作量，也节省了将共同字串集合与需要翻译的文件进行合并的工作量，节省了系统资源，有效地提高了翻译工作中的翻译效率。

在具体的实践过程中，针对一些没有字串标识的文件例如：用户帮助(UserAssistant)文档，还可以将字符内容的相对顺序作为字串标识；而针对有字串标识的文件例如：用户界面(User Interface)文档，则可以直接使用用户界面文档中的字串标识；如此一来，有字串标识的文档和没有字串标识的文档都可以通过上述的字串标识和字串内容判断字串是否相同。除了上述将共同字串的字串标识标记为same之外，还可以根据不同的标记结果对字串标识进行标记，具体例如：若第一文件中的字串标识不存在于第二文件中，则将该字串标识对应的字串称为新增字串，并将新增字串的状态标记为new；若第二文件中的字串标识不存在于第一文件中，则将该字串标识对应的字串称为删除字串，并将删除字串的状态标记为deleted；若第一文件中的字串标识存在于第二文件中，且该字串标识对应的字串内容在第一文件和第二文件中并不相同，则将该字串标识对应的字串内容称为更新字串，并将更新字串的状态标记为updated。

上述步骤的实施方式也可以基于已经标记的状态来实现，具体例如：在上述步骤S130中的确定待翻译字串集合的过程中，可以直接将上述标记为new和updated状态的字串确定为待翻译字串，从而有效地提高确定待翻译字串集合的效率，并且能够根据这些标记的状态对字串的翻译过程进行审计分析和溯源。在上述步骤S150中的将翻译后字串集合与第二文件的译文进行合并的过程中，若第一文件中的所有字串标识的状态均被标记为new或者updated，且在第二文件中没有标记为deleted和same状态的字串标识，那么可以直接将翻译后字串集合中的所有译文确定为第一文件的译文；若第一文件中的所有字串标识的状态均被标记为new或者updated，且在第二文件中有标记为deleted的字串标识，那么可以将第二文件的译文中标记为deleted的字串删除，并将翻译后字串集合中的所有译文确定为第一文件的译文，以此类推。

请参见图3示出的本申请实施例提供的为终端设备提供翻译服务的流程示意图；可选地，在本申请实施例中，上述执行字串翻译方法的电子设备还可以为其他设备提供翻译服务，可以包括：

步骤S210：电子设备接收第二设备发送的第一文件。

上述步骤S210的实施方式包括：电子设备通过超文本传输协议(Hyper TextTransfer Protocol，HTTP)和超文本传输安全协议(Hyper Text Transfer ProtocolSecure，HTTPS)接收第二设备发送的第一文件。

步骤S220：电子设备将第一文件与具有译文的第二文件进行比较，获得共同字串集合。

步骤S230：电子设备根据共同字串集合和第一文件确定待翻译字串集合。

步骤S240：电子设备获得翻译后字串集合。

步骤S250：电子设备将翻译后字串集合与第二文件的译文进行合并，获得第一文件的译文。

其中，该步骤S220至步骤S250的实施原理和实施方式与步骤S120至步骤S150的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S120至步骤S150的描述。

步骤S260：电子设备向第二设备发送第一文件的译文。

上述步骤S260的实施方式包括：电子设备通过HTTP协议和HTTPS协议向第二设备发送第一文件的译文。

在上述的实现过程中，通过接收第二设备发送的第一文件；在获得第一文件的译文之后，向第二设备发送第一文件的译文，从而为第二设备提供了有效地翻译服务，节约了第二设备的计算资源。

请参见图4示出的本申请实施例提供的字串翻译装置的结构示意图；本申请实施例提供了一种字串翻译装置300，包括：

第一文件获得模块310，用于获得待翻译的第一文件。

共同字串获得模块320，用于将第一文件与具有译文的第二文件进行比较，获得共同字串集合，共同字串集合包括第一文件和第二文件中均存在的共同字串。

待翻字串确定模块330，用于根据共同字串集合和第一文件确定待翻译字串集合。

译后字串获得模块340，用于获得翻译后字串集合，翻译后字串集合为对待翻译字串集合进行翻译得到的。

字串译文合并模块350，用于将翻译后字串集合与第二文件的译文进行合并，获得第一文件的译文。

可选地，在本申请实施例中，共同字串获得模块，包括：

共同字串确定模块，用于比较第一文件和第二文件中各字串的字串标识和字串内容，并将字串标识相同且字串内容相同的字串集合确定为共同字串集合。

可选地，在本申请实施例中，待翻字串确定模块，包括：

共同字串删除模块，用于从第一文件中删除共同字串集合对应的字串，以得到待翻译字串集合。

可选地，在本申请实施例中，字串译文合并模块，包括：

字串译文获得模块，用于确定第二文件的译文中与共同字串集合对应的共有译文，并根据翻译后字串集合和共有译文，得到第一文件对应的译文。

可选地，在本申请实施例中，字串译文合并模块，还包括：

字串标识获取模块，用于分别获取翻译后字串集合中各字串的字串标识以及共有译文中各字串的字串标识。

字串译文拼接模块，用于根据字串标识的顺序，将翻译后字串集合与共有译文拼接成第一文件对应的译文。

可选地，在本申请实施例中，字串翻译装置，还可以包括：

第二文件获得模块，用于在翻译文件数据库中匹配出第一文件的标识相同的文件，获得第二文件；或者在翻译文件数据库中匹配出与第一文件的内容相似度最大的文件，获得第二文件。

可选地，在本申请实施例中，译后字串获得模块，包括：

模型算法翻译模块，用于使用预先训练的深度神经网络模型或者基于语义规则算法对待翻译字串集合进行翻译，获得翻译后字串集合。

可选地，在本申请实施例中，译后字串获得模块，还可以包括：

待翻字串发送模块，用于向第一设备发送待翻译字串集合，待翻译字串集合用于被第一设备翻译并返回翻译后字串集合。

译后字串接收模块，用于接收第一设备发送的翻译后字串集合。

可选地，在本申请实施例中，字串翻译装置还可以包括：

待翻文件接收模块，用于接收第二设备发送的第一文件。

译文文件发送模块，用于向第二设备发送第一文件的译文。

应理解的是，该装置与上述的字串翻译方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以使用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种字串翻译方法，其特征在于，包括：

获得待翻译的第一文件；

将所述第一文件与具有译文的第二文件进行比较，获得共同字串集合，所述共同字串集合包括所述第一文件和所述第二文件中均存在的共同字串；

根据所述共同字串集合和所述第一文件确定待翻译字串集合；

获得翻译后字串集合，所述翻译后字串集合为对所述待翻译字串集合进行翻译得到的；

将所述翻译后字串集合与所述第二文件的译文进行合并，获得所述第一文件的译文。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一文件与具有译文的第二文件进行比较，获得共同字串集合，包括：

比较所述第一文件和所述第二文件中各字串的字串标识和字串内容，并将字串标识相同且字串内容相同的字串集合确定为所述共同字串集合。

3.根据权利要求2所述的方法，其特征在于，所述根据所述共同字串集合和所述第一文件确定待翻译字串集合，包括：

从所述第一文件中删除所述共同字串集合对应的字串，以得到所述待翻译字串集合。

4.根据权利要求1所述的方法，其特征在于，所述将所述翻译后字串集合与所述第二文件的译文进行合并，包括：

确定所述第二文件的译文中与所述共同字串集合对应的共有译文，并根据所述翻译后字串集合和所述共有译文，得到所述第一文件对应的译文。

5.根据权利要求4所述的方法，其特征在于，所述根据所述翻译后字串集合和所述共有译文，得到所述第一文件对应的译文，包括：

分别获取所述翻译后字串集合中各字串的字串标识以及所述共有译文中各字串的字串标识；

根据字串标识的顺序，将所述翻译后字串集合与所述共有译文拼接成所述第一文件对应的译文。

6.根据权利要求1所述的方法，其特征在于，还包括：

在翻译文件数据库中匹配出所述第一文件的标识相同的文件，获得所述第二文件；或者

在翻译文件数据库中匹配出与所述第一文件的内容相似度最大的文件，获得所述第二文件。

7.根据权利要求1-6任一所述的方法，其特征在于，所述获得翻译后字串集合，包括：

使用预先训练的深度神经网络模型或者基于语义规则算法对所述待翻译字串集合进行翻译，获得翻译后字串集合。

8.根据权利要求1-6任一所述的方法，其特征在于，所述获得翻译后字串集合，包括：

向第一设备发送所述待翻译字串集合，所述待翻译字串集合用于被所述第一设备翻译并返回翻译后字串集合；

接收所述第一设备发送的所述翻译后字串集合。

9.根据权利要求1-6任一所述的方法，其特征在于，所述获得待翻译的第一文件，包括：

接收第二设备发送的所述第一文件；

在所述获得所述第一文件的译文之后，还包括：

向所述第二设备发送所述第一文件的译文。

10.一种字串翻译装置，其特征在于，包括：

第一文件获得模块，用于获得待翻译的第一文件；

共同字串获得模块，用于将所述第一文件与具有译文的第二文件进行比较，获得共同字串集合，所述共同字串集合包括所述第一文件和所述第二文件中均存在的共同字串；

待翻字串确定模块，用于根据所述共同字串集合和所述第一文件确定待翻译字串集合；

译后字串获得模块，用于获得翻译后字串集合，所述翻译后字串集合为对所述待翻译字串集合进行翻译得到的；

字串译文合并模块，用于将所述翻译后字串集合与所述第二文件的译文进行合并，获得所述第一文件的译文。

11.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的方法。

12.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任一所述的方法。