CN114372481A

CN114372481A - 一种基于意群的翻译方法、装置、设备及介质

Info

Publication number: CN114372481A
Application number: CN202111660857.2A
Authority: CN
Inventors: 廖富林; 李明; 张马成
Original assignee: Chengdu Ue Information Technology Co ltd
Current assignee: Chengdu Ue Information Technology Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-19

Abstract

本发明公开了一种基于意群的翻译方法、装置、设备及介质，涉及自然语言处理技术领域。该方法通过获取待翻译文本，将待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率；当文本匹配率低于匹配率阈值，则根据意群本身的属性，即在意思上相对完整、在语法上密切联系、不能再分的一个词组，对待翻译文本进行意群切分，得到意群文本；基于意群文本与翻译记忆库中的原文进行匹配，当得到的意群匹配结果为匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文，提高翻译准确性和效率。

Description

一种基于意群的翻译方法、装置、设备及介质

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于意群的翻译方法、装置、设备及介质。

背景技术

随着全球化和信息化进程的不断推进，翻译行业也迎来了前所未有的挑战，仅通过翻译人员翻译已无法正常满足人们的需求，随着AI语言的广泛应用，机器翻译应运而生，但机器翻译时大多以词、句子为单位进行翻译，由于语言本身的复杂性，一个词在不同词法、语法、句法以及语境中的更换，因此，对于在一些较为复杂的翻译内容，机器翻译的准确率并不高。

发明内容

本发明所要解决的技术问题是目前仅通过翻译人员翻译效率不高，仅通过机器翻译，翻译准确率不高。因此，本发明提供一种基于意群的翻译方法、装置、设备及介质，在提高翻译准确率的同时提高翻译效率。

本发明通过下述技术方案实现：

获取待翻译文本，将待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率；

当文本匹配率低于匹配率阈值，则对待翻译文本进行意群切分，得到意群文本；

基于所述意群文本与翻译记忆库中的原文进行意群匹配，当意群匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文。

进一步地，所述将待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率，包括：

调用文本匹配工具对待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率。

进一步地，所述对待翻译文本进行意群切分，得到意群文本，包括：

调用意群切分脚本，按照断句标记对待翻译文本进行句子划分，得到待翻译句子；

对待翻译句子中的每个词进行词性分析，并按照预设意群切分规则对携带有词性的待翻译句子进行意群切分，得到意群文本。

进一步地，所述基于所述意群文本与翻译记忆库中的原文进行意群匹配，当意群匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文，包括：

对翻译记忆库中的原文和译文分别进行意群切分，得到意群原文和意群译文；

将意群文本和翻译记忆库中的所有意群原文进行匹配，当匹配一致时，则基于意群原文从翻译记忆库中选择对应的意群译文作为意群文本的译文。

进一步地，所述一种基于意群的翻译方法还包括：

当意群匹配不一致时，则调用机器翻译工具对意群匹配不一致的意群文本进行翻译，并将翻译后的译文作为意群文本的译文。

一种基于意群的翻译装置，包括：

待翻译文本获取模块，用于获取待翻译文本，将待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率；

意群切分模块，用于当文本匹配率低于匹配率阈值，则对待翻译文本进行意群切分，得到意群文本；

意群翻译模块，用于基于所述意群文本与翻译记忆库中的原文进行意群匹配，当意群匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文。

进一步地，所述意群切分模块包括：

句子划分单元，用于调用意群切分脚本，按照断句标记对待翻译文本进行句子划分，得到待翻译句子；

意群切分单元，用于对待翻译句子中的每个词进行词性分析，并按照预设意群切分规则对携带有词性的待翻译句子进行意群切分，得到意群文本。

进一步地，所述意群翻译模块包括：

翻译记忆库意群切分单元，用于对翻译记忆库中的原文和译文分别进行意群切分，得到意群原文和意群译文；

意群译文匹配单元，用于将意群文本和翻译记忆库中的所有意群原文进行匹配，当匹配一致时，则基于意群原文从翻译记忆库中选择对应的意群译文作为意群文本的译文。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于意群的翻译方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于意群的翻译方法。

本发明提供一种基于意群的翻译方法、装置、设备及介质，通过获取待翻译文本，将待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率；当文本匹配率低于匹配率阈值，则根据意群本身的属性，即在意思上相对完整、在语法上密切联系、不能再分的一个词组，对待翻译文本进行意群切分，得到意群文本；基于意群文本与翻译记忆库中的原文进行匹配，当得到的意群匹配结果为匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文，提高翻译的准确性和速度。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一种基于意群的翻译方法的一流程图。

图2为图1中步骤S20的一具体流程图。

图3为图1中步骤S30的一具体流程图。

图4为本发明一种基于意群的翻译装置的结构示意图。

图5为本发明计算机设备的一示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

由于采用纯机器翻译准确率不高，采用纯人工翻译效率不高，为了保证翻译的准确性和翻译效率，本发明提供一种基于意群的翻译方法，采用存储有翻译人员翻译的大量译文的翻译记忆库和意群文本相结合的手段完成待翻译文本的翻译，在保证翻译准确率的同时，提高翻译效率。该方法可应用于不同电子设备中，该电子设备包括但不限于各种个人计算机、笔记本电脑、智能手机和平板电脑。

在一实施例中，如图1所示，本发明提供一种基于意群的翻译方法，包括：

S10：获取待翻译文本，将待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率；

S20：当文本匹配率低于匹配率阈值，则对待翻译文本进行意群切分，得到意群文本；

S30：基于意群文本与翻译记忆库中的原文进行匹配，当得到的意群匹配结果为匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文。

其中，待翻译文本指需要翻译的文本，该待翻译文本可以任意语种的文本。

匹配率阈值指预先设定的用于判断文本匹配率是否满足要求的值。

作为一示例，步骤S10中，获取待翻译文本后，调用文本匹配工具对待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率。本实施例中对文本匹配工具不做限定，任何可以计算匹配率的方法或工具都可以。

作为一示例，步骤S20中，在获取文本匹配率后，将文本匹配率与匹配率阈值进行比较，当文本匹配率低于匹配率阈值，则表示待翻译文本与翻译记忆库中的原文相差较大，不适合直接采用翻译记忆库中的译文作为待翻译文本的译文，此时，对待翻译文本进行意群切分，得到意群文本。

意群指在意思上相对完整、在语法上密切联系、不能再分的一个词组，意群可以由一个单词、词组或短语组成，也可以由一个从句，或一定的语法结构组成。在一个句子中，意群在内部表现为语法关系密切，外部表现为读音中间不能停顿词组，意群不能随意拆分，否则会引起误解。本实施例正是利用意群本身特有的属性对待翻译文本进行意群切分，得到意群文本。

当文本匹配率不低于匹配率阈值，则表示待翻译文本与翻译记忆库中的原文相差在允许范围内，可以直接将原文对应的译文作为待翻译文本的译文。

作为一示例，步骤S30中，在得到意群文本后，将意群文本与翻译记忆库中的原文进行匹配，当匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文，

进一步地，当意群文本与翻译记忆库中的原文进行匹配后得到的意群匹配结果为匹配不一致，则调用机器翻译工具对意群匹配不一致的意群文本进行翻译，并将翻译后的译文作为意群文本的译文。

在一实施例中，如图2所示，步骤S20中，对待翻译文本进行意群切分，得到意群文本，具体包括如下步骤：

S21：调用意群切分脚本，按照断句标记对待翻译文本进行句子划分，得到待翻译句子；

S22：对待翻译句子中的每个词进行词性分析，并按照预设意群切分规则对携带有词性的待翻译句子进行意群切分，得到意群文本。

其中，意群切分脚本指根据对待翻译文本进行句子划分，并根据意群切分规则对划分后的句子进行意群切分的脚本，意群切分规则指根据句子语法对句子进行切分的规则，本实施例中的意群切分规则包括但不限于主谓宾、介词短语做宾补、动词短语+宾语、动词短语+动名词词组宾语、介词短语做状语、名词词组做主语、谓语+宾语、分词短语化、副词连接词、介词+分词化短语做状语、介词短语后置定语。

作为一示例，步骤S21中，调用意群切分脚本，按照断句标记对待翻译文本进行句子划分，得到待翻译句子，本实施例中的断句标记为可以对任何语言的文本内容进行断句的标识，在此不做限定。以中文为例，断句标记可以为标点符号“。”“！”“？”“：”，也可以为其他形式的标识符。

作为一示例，步骤S22中，在对待翻译文本进行句子划分，得到待翻译句子后，采用词性分析工具对待翻译句子中的每个词进行词性标注，以使待翻译句子中的每个词都携带有对应的词性，然后根据预设意群切分规则对待翻译句子进行意群切分，得到意群文本。

如对待翻译文本中的每个词进行词性标注后，并通过意群切分规则对待翻译句子进行分析后为：The purpose is to associate the“intangible culture”to theenhancement(主系表)/of the monuments(介词短语做后置定语)/in order to(介词短语)/sensitize the local population to the importance and necessity(介词短语做目的状语)/of its protection and preservation(介词短语做后置定语)/and assistin the development(目的状语中的并列动词短语)/of the site(介词短语做后置定语)/as Angkor is a living heritage site(从句的主谓宾)/where Khmer people(定语从句的主语)/in general,(插入语)/but especially the local population,(插入语)/are known to particularly conservative(定语从句的系动词与表语)/withrespect to(介词短语)/ancestral traditions(名词短语做介宾)/and wheretheyadhere to(并列定语从句的主谓)/a great number of(介词短语做定语)/archaiccultural practices(名词短语做宾语)/that have disappeared elsewhere(定语从句)。

对待翻译句子进行意群切分得到意群文本为：

在一实施例中，如图3所示，步骤S30，基于所述意群文本与翻译记忆库中的原文进行意群匹配，当意群匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文，具体包括如下步骤：

S31：对翻译记忆库中的原文和译文分别进行意群切分，得到意群原文和意群译文。

S32：将意群文本和翻译记忆库中的所有意群原文进行匹配，当匹配一致时，则基于意群原文从翻译记忆库中选择对应的意群译文作为意群文本的译文。

其中，意群原文指对翻译记忆库中的原文进行意群切分得到文本；意群译文指对翻译记忆库中的译文进行意群切分得到文本。

作为一示例，步骤S31中，调用意群切分脚本，按照断句标记对翻译记忆库中的原文进行句子划分，得到原文对应的句子，然后对原文对应的句子中的每个词进行词性分析，并按照预设意群切分规则对携带有词性的句子进行意群切分，得到意群原文，同理，完成翻译记忆库中的译文的意群切分，得到意群译文。

作为一示例，步骤S32中，将意群文本和翻译记忆库中的所有意群原文进行匹配，当匹配一致时，则基于意群原文，利用词对齐工具从翻译记忆库中选择对应的意群译文作为意群文本的译文。本实施例采用现有的词对齐工具，任何可以实现双语对齐的词对齐工具都可以，在此不做限定。

本发明提供的一种基于意群的翻译方法，通过获取待翻译文本，将待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率；当文本匹配率低于匹配率阈值，则根据意群本身的属性，即在意思上相对完整、在语法上密切联系、不能再分的一个词组，对待翻译文本进行意群切分，得到意群文本；基于意群文本与翻译记忆库中的原文进行匹配，当得到的意群匹配结果为匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文，提高翻译准确性和效率。

在一实施例中，提供一种基于意群的翻译装置，该基于意群的翻译装置与上述实施例中一种基于意群的翻译方法一一对应。如图4所示，该基于意群的翻译装置包括待翻译文本获取模块10、意群切分模块20和意群翻译模块30。

各功能模块详细说明如下：

待翻译文本获取模块10，用于获取待翻译文本，将待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率；

意群切分模块20，用于当文本匹配率低于匹配率阈值，则对待翻译文本进行意群切分，得到意群文本；

意群翻译模块30，用于基于意群文本与翻译记忆库中的原文进行匹配，当得到的意群匹配结果为匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文。

进一步地，意群切分模块包括句子划分单元和意群切分单元。

进一步地，意群翻译模块包括翻译记忆库意群切分单元和意群译文匹配单元。

意群译文匹配单元，用于将意群文本和翻译记忆库中的所有意群原文进行匹配，当匹配一致时，则基于意群原文从翻译记忆库中选择对应的意群译文作为意群文本的译文

关于一种基于意群的翻译装置的具体限定可以参见上文中对于一种基于意群的翻译方法的限定，在此不再赘述。上述一种基于意群的翻译装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储一种基于意群的翻译方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于意群的翻译方法。

提供的一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中一种基于意群的翻译方法的步骤，例如图1所示步骤S10-S30，或者图2至图3中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现上述实施例中一种基于意群的翻译装置的各模块/单元的功能，例如图4所示模块 10至模块30的功能。为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中一种基于意群的翻译方法的步骤，例如图1所示的步骤S10-S30，或者图2至图3中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现一种基于意群的翻译装置这一实施例中的各模块/单元的功能，例如图4所示的模块 10至模块30的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率 SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于意群的翻译方法，其特征在于，包括：

2.根据权利要求1所述的一种基于意群的翻译方法，其特征在于，所述将待翻译文本与翻译记忆库中的原文进行匹配，得到文本匹配率，包括：

3.根据权利要求1所述的一种基于意群的翻译方法，其特征在于，所述对待翻译文本进行意群切分，得到意群文本，包括：

4.根据权利要求1所述的一种基于意群的翻译方法，其特征在于，所述基于所述意群文本与翻译记忆库中的原文进行意群匹配，当意群匹配一致时，则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文，包括：

5.根据权利要求4所述的一种基于意群的翻译方法，其特征在于，所述一种基于意群的翻译方法还包括：

6.一种基于意群的翻译装置，其特征在于，包括：

7.根据权利要求6所述的一种基于意群的翻译装置，其特征在于，所述意群切分模块包括：

8.根据权利要求6所述的一种基于意群的翻译装置，其特征在于，所述意群翻译模块包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于意群的翻译方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于意群的翻译方法。