CN116070644A

CN116070644A - 辅助翻译方法、装置、电子设备及存储介质

Info

Publication number: CN116070644A
Application number: CN202111284896.7A
Authority: CN
Inventors: 樊兵兵
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Iol Wuhan Information Technology Co ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2023-05-05

Abstract

本发明提供一种辅助翻译方法、装置、电子设备及存储介质，该方法包括：使用预先根据术语数据构建的多模式串匹配算法，对翻译原文进行术语匹配，获取所述翻译原文中的术语信息；基于所述术语信息，在所述翻译原文中标识出成功匹配的各个术语，以辅助用户完成后续的翻译处理过程。通过本发明提供的辅助翻译方法、装置、电子设备及存储介质，可以使得译员或质控人员直观了解翻译原文中包含的术语情况，从而可以辅助译员提高翻译质量，以及辅助质控人员提高质控效率。

Description

辅助翻译方法、装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种辅助翻译方法、装置、电子设备及存储介质。

背景技术

在正常的翻译生产过程中，对于某些关键词汇(如特殊名词、生词、二义性词汇等)翻译有一致性要求，这些关键的词汇可以称之为“术语”，要求在整个翻译项目中所有的“术语”按照严格的一致性统一翻译。

然而，由于翻译项目一般较大，译员在进行翻译项目的过程中，容易出现对翻译原文中的术语进行错翻、漏翻或没有一致性统一翻译的情况，导致翻译效果不理想。因此，如何提出一种辅助翻译方法，以提高对翻译原文中术语的翻译质量，是业界亟需解决的重要课题。

发明内容

针对现有技术存在的问题，本发明提供一种辅助翻译方法、装置、电子设备及存储介质。

第一方面，本发明提供一种辅助翻译方法，包括：

使用预先根据术语数据构建的多模式串匹配算法，对翻译原文进行术语匹配，获取所述翻译原文中的术语信息；

基于所述术语信息，在所述翻译原文中标识出成功匹配的各个术语，以辅助用户完成后续的翻译处理过程。

可选地，，所述多模式串匹配算法为基于双数组Trie树的AC自动机算法。

可选地，，构建所述多模式串匹配算法，包括以下任一项或其组合：

设置添加对字符大小写不敏感的配置；

设置不允许模式串在待匹配文本中前后重叠匹配的配置；

设置只匹配完整单词的配置。

可选地，，所述方法还包括：

获取所述翻译原文对应的翻译译文；

检测所述翻译译文中对所述各个术语的翻译是否与所述各个术语的预设译文一致，并根据检测结果，在所述翻译原文和/或所述翻译译文中对所述各个术语进行标识。

可选地，，所述根据检测结果，在所述翻译原文和/或所述翻译译文中对所述各个术语进行标识，包括：

若确定所述翻译译文中对目标术语的翻译与所述目标术语的预设译文一致，则在所述翻译原文和/或所述翻译译文中对所述目标术语使用第一样式进行标识；和/或，

若确定所述翻译译文中对目标术语的翻译与所述目标术语的预设译文不一致，则在所述翻译原文和/或所述翻译译文中对所述目标术语使用第二样式进行标识；其中，所述第二样式与所述第一样式不同。

可选地，，所述方法还包括：

将所述各个术语以表格形式集中展示。

第二方面，本发明还提供一种辅助翻译装置，包括：

匹配模块，用于使用预先根据术语数据构建的多模式串匹配算法，对翻译原文进行术语匹配，获取所述翻译原文中的术语信息；

标识模块，用于基于所述术语信息，在所述翻译原文中标识出成功匹配的各个术语，以辅助用户完成后续的翻译处理过程。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述第一方面所述的辅助翻译方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述第一方面所述的辅助翻译方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述辅助翻译方法的步骤。

本发明提供的辅助翻译方法、装置、电子设备及存储介质，通过使用多模式串匹配算法对翻译文本中的特定术语进行词匹配，并在翻译文本中标识出成功匹配的各个术语，可以使得译员或质控人员直观了解翻译原文中包含的术语情况，从而可以辅助译员提高翻译质量，以及辅助质控人员提高质控效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的辅助翻译方法的流程示意图；

图2是本发明提供的辅助翻译装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的辅助翻译方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤100、使用预先根据术语数据构建的多模式串匹配算法，对翻译原文进行术语匹配，获取翻译原文中的术语信息；

具体地，本发明实施例提供一种辅助翻译方案，使用预先根据术语数据构建的多模式串匹配算法，把需要翻译的文本内容(即翻译原文，匹配算法中也被称为目标串或主串)和特定的术语(匹配算法中也被称为模式串或子串)进行词匹配，精确定位文本翻译必须使用的术语，为在线处理文本翻译或质控检查时提供术语使用参考及提示。

可选地，多模式串匹配算法可以为基于双数组Trie树的AC自动机算法。

Trie树也称为字典树、前缀树，是一种常被用于词检索的树结构，其思想非常简单：利用词的共同前缀以达到节省空间的目的，基本的实现有array与linked-list两种，array实现需要为每一个字符开辟一个字母表大小的数组。

双数组Trie树(Double-array Trie，DAT)是Trie结构的压缩形式，仅用两个线性数组来表示Trie树，该结构有效结合了数字搜索树(Digital Search Tree)检索时间高效的特点和链式表示的Trie空间结构紧凑的特点，能高速完成单模式串匹配(即在一个主串中查找一个模式串)，并且内存消耗可控，然而软肋在于多模式串匹配(在一个主串中查找多个模式串)，如果要匹配多个模式串，必须先实现前缀查询，然后频繁截取文本后缀才可多匹配，这样一份文本要回退扫描多遍，性能极低。

AC自动机(Aho-Corasick automation)是个可以高速完成多模式串匹配的算法，该算法在1975年产生于贝尔实验室，是著名的多模式串匹配算法之一。但是AC自动机大部分实现都是一个Map<Character，State>，无论是TreeMap的对数复杂度，还是HashMap的巨额空间复杂度与哈希函数的性能消耗，都会降低整体性能。

基于上述考虑，本发明实施例中，可以使用结合了双数组Trie树和AC自动机算法优点的，基于双数组Trie树的AC自动机算法来实现翻译文本中所包含术语的精确定位。

在根据特定术语数据(或术语库)构建基于双数组Trie树的AC自动机算法之后，即可使用该算法对需要翻译的翻译原文进行术语匹配，匹配完成后，算法输出匹配成功的各个术语在翻译原文中出现的相关信息，即术语信息。其中，术语信息可以包括匹配成功的各个术语，以及各个术语在翻译原文中出现的位置和次数等信息。

步骤101、基于术语信息，在翻译原文中标识出成功匹配的各个术语，以辅助用户完成后续的翻译处理过程。

具体地，获取到匹配成功的各个术语在翻译原文中出现的相关信息之后，即可以在翻译原文中对各个术语进行标识，例如进行高亮显示，用以辅助用户(如译员或质控人员等)完成后续的翻译处理过程。例如，公司翻译平台的译员可以在在线处理文本翻译时，根据翻译原文中对各个术语的标识，直观了解翻译原文中包含的术语情况，质控人员根据翻译原文中对各个术语的标识，也可以快速定位到需要翻译的术语，检查译员译文的翻译情况。

本发明提供的辅助翻译方法，通过使用多模式串匹配算法对翻译文本中的特定术语进行词匹配，并在翻译文本中标识出成功匹配的各个术语，可以使得译员或质控人员直观了解翻译原文中包含的术语情况，从而可以辅助译员提高翻译质量，以及辅助质控人员提高质控效率。

可选地，构建多模式串匹配算法，包括以下任一项或其组合：

设置添加对字符大小写不敏感的配置；

设置不允许模式串在待匹配文本中前后重叠匹配的配置；

设置只匹配完整单词的配置。

具体地，为了进一步提高术语匹配的准确率，本发明实施例中，在构建多模式串匹配算法时，考虑针对术语翻译的特定场景，设置多种配置方案，例如，可以包括以下任一项或其组合：

(1)设置添加对字符大小写不敏感的配置。

具体地，可以设置添加大小写不敏感配置，忽略大小写，即使得待匹配文本中字符的大小写不同不会影响到最终的匹配结果，从而避免因大小写问题而无法匹配。例如，可以在获取到翻译原文之后，先对翻译原文中的各字符统一转换为大写字符或统一转换为小写字符，然后再进行术语匹配。

(2)设置不允许模式串在待匹配文本中前后重叠匹配的配置.

具体地，可以设置不允许模式串在待匹配文本中前后重叠匹配的配置，以避免具有包含关系的模式串重复匹配。例如，若模式串中包含“abcd”和“bc”两种字符串，而待匹配文本中存在“abcd”这一字符串，通常的模式串匹配算法会输出模式串“abcd”与待匹配文本中“abcd”匹配，以及同时模式串“bc”与待匹配文本中“bc”也成功匹配的信息，此即为模式串在待匹配文本中前后重叠匹配。为了避免具有包含关系的术语重复匹配，本发明实施例中，可以设置不允许模式串在待匹配文本中前后重叠匹配的配置。例如，可以在构建多模式串匹配算法时，先将作为模式串的各个术语按照长度从大到小的顺序进行排列，再根据排序后的术语构建AC自动机，然后在匹配过程中，一旦有术语在翻译原文中匹配成功，则立即删除翻译原文中的该术语，从而避免了术语在翻译原文中前后重叠匹配的问题。

(3)设置只匹配完整单词的配置。

具体地，可以设置只匹配完整单词的配置，以避免单词被不正确地拆分进行匹配。对于中文、日文和泰文等文字，词之间不需要采用空格隔开，而对于其他如英文等文字，其单词之间需要空格隔开才能正确表达整个句子的含义，对于这类文字进行翻译时，为了避免单词被拆分进行匹配，如翻译文本中的“hers”匹配到模式串“he”，导致术语定位错误，本发明实施例中，可以设置只匹配完整单词的配置，以避免单词被不正确地拆分进行匹配。举例来说，可以在获取翻译原文后，先进行文字类型识别，比如识别出翻译原文为英文文字，则可以在进行术语匹配之后，再通过正则表达式等方式，确定匹配成功的各个术语前后是否存在空格或标点符号之类的特殊字符，如果匹配成功的某个术语前后均为特殊字符而不是英文字母，那么就可以将该术语确定为完整单词，作为最终确定的匹配成功的术语进行输出。

可选地，该方法还包括：

获取翻译原文对应的翻译译文；

检测翻译译文中对各个术语的翻译是否与各个术语的预设译文一致，并根据检测结果，在翻译原文和/或翻译译文中对各个术语进行标识。

具体地，对翻译原文中的术语进行匹配之后，还可以进一步在翻译完成后，获取翻译原文对应的翻译译文，并检测翻译译文中对各个术语的翻译是否与各个术语的预设译文一致，以此来检查对各个术语的翻译是否使用了各个术语预先统一设定的译文。

可选地，根据检测结果，在翻译原文和/或翻译译文中对各个术语进行标识，包括：

若确定翻译译文中对目标术语的翻译与目标术语的预设译文一致，则在翻译原文和/或翻译译文中对目标术语使用第一样式进行标识；和/或，

若确定翻译译文中对目标术语的翻译与目标术语的预设译文不一致，则在翻译原文和/或翻译译文中对目标术语使用第二样式进行标识；其中，第二样式与第一样式不同。

具体地，检测翻译译文中对各个术语的翻译是否与各个术语的预设译文一致时，可以根据不同的检测结果，在翻译原文和/或翻译译文中对匹配成功的各个术语采用不同的样式进行标识，例如，可以采用不同颜色的高亮显示进行标识，从而对翻译译文是否正确使用术语译文进行提示。

可选地，该方法还包括：

将各个术语以表格形式集中展示。

具体地，本发明实施例中，还可以在获得匹配成功的术语信息后，将匹配的各个术语以表格的形式集中展示在用户操作界面上。例如，可以在译员翻译界面展示表格形式的术语信息，也可以在质控处理界面展示表格形式的术语信息。

下面分别从译员翻译处理和质控处理用户界面(User Interface，UI)的角度对上述辅助翻译方法的部分内容进行举例说明。

1、译员翻译处理UI动态渲染设计

(1)翻译处理文本时，原文中的术语高亮显示。

(2)文本包含的术语集合以表格的形式在显眼地方展示。

(3)文本翻译完成时，对文本是否正确使用术语译文进行校验提示。

(4)译文提交后，分析哪些术语正确使用了译文，哪些术语未正确使用译文，并在翻译原文和译文中进行标注另行存储。

(5)提交刷新翻译处理界面，未正确使用术语译文的译文框高亮显示。

2、质控处理UI动态渲染设计

(1)质控处理界面，正确使用术语译文的翻译原文和译文：把术语用绿色高亮标识出来；未正确使用术语译文的翻译原文和译文：把术语用红色高亮标识出来。

(2)质控查看文本处理详情时，术语集合以表格的形式在显眼地方展示，方便质控判断译文是否有术语未统一翻译的问题。

在线翻译业务平台可以在翻译和质控流程时嵌入本发明的技术方案进行辅助处理，例如，通过本发明提供的技术方案，译员在线处理文本翻译时，可以直观地了解待翻译文本里包含的术语情况，并在翻译处理未正确使用术语译文时提醒译员，减少译员出错概率，提高译员的翻译质量；质控人员在检查译员译文时，可以直观地了解译文是否有正确使用提供的术语译文，加快质控的处理速度，提高质控效率。

下面对本发明提供的辅助翻译装置进行描述，下文描述的辅助翻译装置与上文描述的辅助翻译方法可相互对应参照。

图2为本发明提供的辅助翻译装置的结构示意图，如图2所示，该装置包括：

匹配模块200，用于使用预先根据术语数据构建的多模式串匹配算法，对翻译原文进行术语匹配，获取翻译原文中的术语信息；

标识模块210，用于基于术语信息，在翻译原文中标识出成功匹配的各个术语，以辅助用户完成后续的翻译处理过程。

可选地，多模式串匹配算法为基于双数组Trie树的AC自动机算法。

可选地，该装置还包括：

算法构建模块220，用于构建多模式串匹配算法，包括以下任一项或其组合：

设置添加对字符大小写不敏感的配置；

设置不允许模式串在待匹配文本中前后重叠匹配的配置；

设置只匹配完整单词的配置。

可选地，匹配模块200，还用于：获取翻译原文对应的翻译译文；

标识模块210，还用于：检测翻译译文中对各个术语的翻译是否与各个术语的预设译文一致，并根据检测结果，在翻译原文和/或翻译译文中对各个术语进行标识。

可选地，标识模块210，还用于：将各个术语以表格形式集中展示。

在此需要说明的是，本发明提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图3为本发明提供的电子设备的结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行上述各实施例提供的任一所述辅助翻译方法的步骤，例如：使用预先根据术语数据构建的多模式串匹配算法，对翻译原文进行术语匹配，获取翻译原文中的术语信息；基于术语信息，在翻译原文中标识出成功匹配的各个术语，以辅助用户完成后续的翻译处理过程。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例提供的任一所述辅助翻译方法的步骤，例如：使用预先根据术语数据构建的多模式串匹配算法，对翻译原文进行术语匹配，获取翻译原文中的术语信息；基于术语信息，在翻译原文中标识出成功匹配的各个术语，以辅助用户完成后续的翻译处理过程。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的任一所述辅助翻译方法的步骤，例如：使用预先根据术语数据构建的多模式串匹配算法，对翻译原文进行术语匹配，获取翻译原文中的术语信息；基于术语信息，在翻译原文中标识出成功匹配的各个术语，以辅助用户完成后续的翻译处理过程。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种辅助翻译方法，其特征在于，包括：

2.根据权利要求1所述的辅助翻译方法，其特征在于，所述多模式串匹配算法为基于双数组Trie树的AC自动机算法。

3.根据权利要求1或2所述的辅助翻译方法，其特征在于，构建所述多模式串匹配算法，包括以下任一项或其组合：

设置添加对字符大小写不敏感的配置；

设置不允许模式串在待匹配文本中前后重叠匹配的配置；

设置只匹配完整单词的配置。

4.根据权利要求1所述的辅助翻译方法，其特征在于，所述方法还包括：

获取所述翻译原文对应的翻译译文；

5.根据权利要求4所述的辅助翻译方法，其特征在于，所述根据检测结果，在所述翻译原文和/或所述翻译译文中对所述各个术语进行标识，包括：

6.根据权利要求1所述的辅助翻译方法，其特征在于，所述方法还包括：

将所述各个术语以表格形式集中展示。

7.一种辅助翻译装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述辅助翻译方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述辅助翻译方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述辅助翻译方法的步骤。