CN113627200A

CN113627200A - 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法

Info

Publication number: CN113627200A
Application number: CN202110662358.0A
Authority: CN
Inventors: 宋培彦; 鞠佳辰; 冯超慧
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-11-09
Anticipated expiration: 2041-06-15
Also published as: CN113627200B

Abstract

本发明公开了一种基于多机器翻译引擎的国际组织科技术语主题句萃取方法，涉及信息科学与知识工程技术领域。该方法以跨语言术语知识库为基础，通过调用多种机器翻译引擎并采用自然语言组块处理技术，设计了跨语言科技文本的术语句自动识别、主题语句组块剖析和译文连接融合等技术步骤，实现将国际组织科技知识进行术语知识点快速识别、主题句自动探测和优质译文融合生成，从而保证了主题句萃取的准确度和流畅度，最终实现动态监测国际组织发布的科技信息，满足用户对于跨语言专业科技知识的知识处理需求。

Description

多机器翻译引擎驱动的国际组织科技术语主题句萃取方法

技术领域

本发明涉及信息科学与知识工程技术领域，尤其涉及一种多机器翻译引擎驱动的国际组织科技术语主题句萃取方法。

背景技术

机器翻译，即通过计算机将一种语言的文本翻译成另一种语言，已成为目前解决多语言障碍的重要方法之一。早在2013年，谷歌翻译每天提供翻译服务就达十亿次之多，相当于全球一年的人工翻译量，处理的文字数量相当于一百万册图书。

国际组织发布了大量的专业知识文献，权威性高、知识内容丰富，但受限于语言障碍，国内用户很难快速了解和使用这些宝贵的知识内容，采用机器翻译并进行快速融合，是可行之策。相比人工翻译，机器翻译可以大幅节约翻译时间，提高翻译效率，满足诸如专业知识等时效性要求较高或者特定领域的翻译需求，极大地降低了人力成本。而更重要的是，它让跨语言交流变成可能，语言不通不再是人们获取信息和服务的障碍。因此，本发明具有较强的使用价值。

现有机器翻译主要是基于统计的机器翻译，一般能够在通用领域、单个句子的翻译精确度较高，但是对术语等专业知识的翻译存在较大问题，大多只是翻译出对应单词的表面意思而缺少句子的整体信息，导致对专业文献的翻译精度不足。这也是现有机器翻译引擎的主要难点之一，很难适用于跨语言的知识发现与监测。原因在于：一是国际组织发布的知识内容大多是围绕特定专业领域的某些主题，术语繁多、句子结构复杂、语种多样，单个机器翻译引擎往往难以处理，准确性直线下降；二是从用户需求角度看，很少需要依靠机器进行全文翻译，主要的核心任务是对主题句、专业词进行快速融合，即可满足知识监测的需要。因此，本专利提出了新的方法，以术语所在的句子作为主题句和翻译对象，采用多引擎进行翻译、句子组块分析和译文融合，形成了基于多机器翻译引擎的国际组织科技术语主题句萃取方法，速度和精度有较大提升。

任何单独的翻译引擎都有其算法特长和使用场景，因此，本专利从用户进行知识监测的实际需求出发，将术语所在的句子作为主题句和基本单位，采用多个翻译引擎进行译文生成、组块分析和语义融合，进而采用“投票机制”遴选最佳译文，最终进行跨句子连接的语篇生成，是提高翻译质量、满足用户需求的可行方法，也是本发明的创新点。

发明内容

本发明的目的在于提供一种基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，包括如下步骤：

S1，调用多种机器翻译引擎对输入内容进行翻译，并按句输出结果形成原始译文；

S2，通过计算译文标引术语与已采集的国际组织术语库中术语翻译的语义相似性，作为候选主题句；

S3，在确保科技术语翻译准确的前提下，通过对候选主题句组块切分，比较文本相似性，判断语句通顺度和句法合规性，进而得到局部最佳译句；

S4，遴选多源翻译引擎译文，通过译文连接融合方法进行后修饰，融合成全局最佳译文并输出主题句。

优选地，S1包括如下步骤：

S101，将从各种文献，包括论文、专利、科技报告中抽取的目标内容输入机器翻译系统,输入内容包括但不仅限于文本、语音、文档、图像等；

S102，机器翻译服务引擎以句子为基本单位对输入内容将进行转换处理，翻译成为机器翻译引擎可识别的目标语言(默认为中文)，每个语句由多个机器翻译引擎完成翻译，输出多个候选翻译句子；

S103，机器翻译引擎能及时响应用户请求，按句输出翻译结果。

优选地，S2包括如下步骤：

S201，采用自动标引技术标识出译文中的专业科技术语；

S202，根据译文中标引出的科技术语与已有的国际组织术语库中标准术语翻译对照，将术语库中标准术语翻译作为“金标准”，以此判断不同机器翻译引擎翻译准确程度；

S203，根据术语优先原则，选取与“金标准”完全相同或最接近的翻译作为推荐术语主题句。

优选地，S201具体为，以所述中文译文作为原始语料进行分词和词性标注，得到句子中标注的科技术语；

优选地，S202具体为，可采用同义词计算方法判断句子中科技术语翻译的准确性，在同义词计算时将字面匹配法作为最基本的方法，字面匹配不适用时再考虑读取术语库中的同义词和上下位词进一步识别。

优选地，S203具体为，不同机器翻译引擎的候选翻译句可出现以下三种结果：①所有机器翻译引擎术语翻译结果完全一致，任选一种翻译引擎随机选择作为待选结果；②几种翻译引擎对同一术语翻译结果都不相同，那么将直接选择权威度最高的翻译引擎译文作为最终结果；③几种翻译引擎术语翻译结果不完全相同但出现相同项，那么将选取翻译结果出现次数最多的作为最终结果。

优选地，S3包括如下步骤：

S301，在术语翻译准确优先的基础上，首先对目标句子进行组块切分，可用核心动词为边界，将句子切分出主、谓、宾结构，作为基本组块；

S302，对切分语句进行组块处理，，通过对组块两两比较其文本相似度，如果候选译文的组块成分相似度较高，则说明二者的翻译质量较为接近，由此选出综合语义相似度最高的句子作为局部最佳翻译，相应的机器翻译译文作为优选；

S303如果较长的语句存在组块嵌套，则递归执行S302步骤。

优选地，S302具体为，由于在S2中已经排除术语翻译不准确的结果，因此此步骤在术语翻译准确的基础上通过每组块两两比较综合语义相似度最高的语句，实现从句子结构层面对译文质量进行判断；

S303如果较长的语句存在组块嵌套，则递归执行S302步骤。

优选地，S4包括如下步骤：

S401，以术语翻译准确度作基准，以语句翻译通顺度作为参考指标，原始译文的每句翻译都将得到一个局部最优结果；

S402，将各个单句最优结果融合成最终高质量译文并输出，依靠上下文句子间的连接词成份进行连接，以提高语句的通顺性。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法总体流程图；

图2是机器翻译通用模型示意图；

图3是术语主题句萃取技术流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，包括如下步骤：

S2，通过计算译文标引术语与已采集的国际组织术语库中术语翻译的相似性判断科技术语翻译准确度；

S3，在确保科技术语翻译准确优先的前提下，通过对目标句切分、组块比较文本相似性判断语句通顺度进而得到最佳译句；

S4，通过自然语言组块分析和语义计算方法，将最佳译句融合成最佳译文并输出。

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学、知识工程的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。目前，市面上已经有很多相对成熟的机器翻译引擎，比如谷歌翻译、百度翻译、有道翻译等等，值得一提的是这些机器翻译引擎都提供API接口可以直接调用，方便使用和操作。

术语是专业知识的载体，术语尤其是科技术语的翻译是判定整体译文质量的核心要素。因此本发明多次提到的“金标准”即国际组织术语库中标准术语翻译是判定译文质量的基线。充分利用好已收集的国际组织术语库是提高术语翻译准确度的关键。术语标引是对专业领域知识进行组织的一种基本技术手段，通过同义词计算可以轻松地将标引术语与“金标准”对比并得到最接近的翻译结果。同义词计算在信息检索、中文信息处理、知识挖掘等方面起着重要作用，是进行文本挖掘的基础技术之一，其主要任务是对于给定的两个词(或短语)，自动计算两者的语义相似度。

基于多机器翻译引擎国际组织术语主题词萃取，“萃取”是自然语言处理中的术语，意思是通过上下文语境、语义计算、句子组块chunk切分等进行抽取、融合与生成。通过本专利提出的萃取技术，可以在术语库的基础上更加准确流畅进行翻译，实现术语为基础、句子组块为语境的融合，进而得到高质量的译文，满足各种论文、专利、科技报告等文献翻译高质量的需求。

所以，本发明实施例提供的基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，具有非常重要的科学价值和应用前景。

本发明主要以术语所在的句子作为主题句，对多个机器翻译引擎的译文质量(包括译文准确度和译文通顺度)进行判定和遴选，不考虑不同机器翻译引擎间的系统问题。换言之，是通过术语翻译的准确性和句子组块的相似性进行译文质量的判定，选择并生成最优翻译译文，而不依赖于机器翻译引擎的具体算法。在知识管理和应用的实践中，以句子为翻译的基本单位，要先保证术语翻译正确、后保证译文语句上下文正确，最后考虑语篇通顺；如果科技术语、整句均正确，则最后输出的译文篇章一定是最能体现专业知识内容、符合主题监测需求的最优结果。

虽然现有的单个机器翻译引擎能够较好的处理一些任务重复性较大、翻译难度较低的常规任务，但专业词汇(术语)的翻译仍是明显短板，大量存在错翻、漏翻和重复翻译的情况，尤其在名称缩写、格式不统一、新词表达等新知识时较难处理，直接影响了用户对知识获取的正常进行。

基于此，本发明提出了一种基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，满足了科技领域的专业知识尤其是科技术语的翻译严谨性要求，避免了科技术语的错翻、漏翻以及最终译文整体不流畅的问题，为用户快速掌握新知识、了解新动态提供有力支撑。

如图3所示，基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法主要技术手段是基于词汇即术语层和句子层的操作。基于词汇的技术手段包括术语标引、同义词计算和术语优选；基于句子的技术手段包括切分、组块和融合，在上下文语境中判断译文质量。这些也是整个发明的核心技术；在资源层面，通过广泛收集联合国教科文组织、国际劳工组织、世界卫生组织等10余个国际组织发布的术语表、叙词表等资源，已经建成了100万词、涵盖多个科技领域的国际组织术语库，并对术语的同义关系、上下位关系、相关关系、中英文翻译等进行了明确记录，形成计算机可读的数据库，用于支撑译文中的术语识别与术语计算，是是整个发明中术语识别的“金标准”。技术和数据资源二者相辅相成缺一不可。

本发明采用术语计算的技术手段已经有相对成熟的算法和软件供参考和使用，大大节省了人力和经济成本并且方便应用。需要调用的机器翻译引擎，市面上已经有很多发展成熟的、完全可以供选择使用的翻译疫情和API接口。包括同义词计算、文本相似性判断、组块、融合等技术手段在内，都已经有大量的相关研究并提供了一种或多种算法和操作流程，提供了强有力的技术条件。

在本发明的一个优选实施例中，S1可以包括如下步骤：

本实施例中，S2可以包括如下步骤：

S201，以术语库为基础，采用自动标引技术标识出译文中的专业科技术语；

S202，根据译文中标引出的科技术语与已有的国际组织术语库中标准术语翻译对照(将术语库中标准术语翻译视为“金标准”)，以此判断不同机器翻译引擎翻译准确程度；

S203，根据术语优先原则，选取与“金标准”完全相同或最接近的翻译作为候选术语主题句；

10、其中，S201具体为，以上述中文译文作为原始语料进行分词和词性标注，得到句子中标注的科技术语；

11、S202具体为，可采同义词计算方法判断句子中科技术语翻译的准确度，可采用同义词计算方法判断句子中科技术语翻译的准确性，在同义词计算时将字面匹配法作为最基本的方法，字面匹配不适用时再考虑读取术语库中的同义词和上下位词进一步识别；

12、S203具体为，不同机器翻译引擎可出现以下三种结果：不同机器翻译引擎的候选翻译句可出现以下三种结果：①所有机器翻译引擎术语翻译结果完全一致，任选一种翻译引擎随机选择作为待选结果；②几种翻译引擎对同一术语翻译结果都不相同，那么将直接选择权威度最高的翻译引擎译文作为最终结果；③几种翻译引擎术语翻译结果不完全相同但出现相同项，那么将选取翻译结果出现次数最多的作为最终结果。由此，借助“投票机制”遴选最佳翻译结果。

本实施例中，S3可以包括如下步骤：

S302，对切分语句进行组块处理，，通过对组块两两比较其文本相似度，如果候选译文的组块成分相似度较高，则说明二者的翻译质量较为接近，由此选出综合语义相似度最高的句子作为最佳翻译，相应的机器翻译译文作为优选；

S303如果较长的语句存在组块嵌套，则递归执行S302步骤。

由于在S2中已经排除术语翻译不准确的结果，因此此步骤在术语翻译准确的基础上通过每组块两两比较综合语义相似度最高的语句，实现从句子结构的规范性层面对译文质量进行判断。

本实施例中，S4可以包括如下步骤：

具体实施例：

本发明提供了一种基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，主要包括四大阶段，一是调用多机器翻译引擎翻译输入内容形成原始译文；二是计算标引术语的相似性判断术语准确性；三是切分、组块比较文本相似性，判断单个句子的通顺度和句法合规性；四是萃取成为最佳译文并输出。主要包括以下步骤：

步骤A，调用多种机器翻译引擎对输入内容进行翻译，并按句输出结果形成原始译文；

具体包括如下步骤：

A01，将从各种文献，包括论文、专利、科技报告中抽取的目标内容输入机器翻译系统,输入内容包括但不仅限于文本，语音，文档，图像；

A02，以句子为基本单位，机器翻译服务引擎对输入内容将进行转换处理，翻译成为机器翻译引擎可识别的目标语言(默认为中文)，每个语句由多个机器翻译引擎完成翻译，输出多个候选翻译句子；

A03，机器翻译引擎能及时响应用户请求，按句输出翻译结果。

步骤B，通过计算译文标引术语与已采集的国际组织术语库中术语翻译的相似性判断科技术语翻译准确性；

具体包括如下步骤：

步骤B01，采用自动标引技术标识出译文中的专业科技术语；

步骤B01-1:以所述译文作为原始语料进行分词和词性标注，得到句子中标注的科技术语；值得注意的是若原始译文为中文译文可先进行分词，再使用相关软件标引

步骤B02，根据译文中标引出的科技术语与我们已有的国际组织术语库中标准术语翻译对照(我们将术语库中标准术语翻译作为“金标准”)，以此判断不同机器翻译引擎翻译准确程度；

步骤B02-1采同义词计算方法判断句子中科技术语翻译的准确度，在同义词计算时将字面匹配法作为最基本的方法，字面匹配不适用时再考虑同义词和上下位词的识别方法。

步骤B03，根据术语优先原则，选取与“金标准”完全相同或最接近的翻译作为最佳术语翻译结果；

步骤C，在确保科技术语翻译准确优先的前提下，通过对目标句切分、组块比较文本相似性判断语句通顺度进而得到最佳译句；

对句子切分、组块操作主要包括以下步骤：

步骤C01，在术语翻译准确优先的基础上，首先对目标句子进行切分，可用核心动词将句子切分出主谓宾结构。

步骤C02，对切分语句进行组块处理，通过对每组块两两比较其文本相似度，选出综合语义相似度最高的句子作为最佳翻译，相应的机器翻译引擎作为最佳翻译引擎。

步骤C03如果较长的语句存在组块嵌套，则递归执行S302步骤。

步骤D，通过自然语言萃取方法，将最佳译句融合成最佳译文并输出。具体包括如下步骤：

步骤D01，以术语翻译准确度作基准，以语句翻译通顺度作为参考指标，原始译文的每句翻译都将得到一个局部最优结果；

步骤D02，通过自然语言萃取方式，将各个单句最优结果融合成最终高质量译文并输出。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：以跨语言术语知识库为切入点，通过调用多种机器翻译引擎并采用自然语言组块处理技术，设计了跨语言科技文本的术语主题句自动识别、语句组块剖析和译文连接融合等技术步骤，实现将国际组织科技知识进行术语知识点快速识别、主题句组块自动探测和优质译文融合生成，从而保证了术语主题句萃取的准确度和流畅度，最终实现动态监测国际组织发布的科技信息，满足用户对于跨语言专业科技知识的知识处理需求。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域人员应该理解的是，上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整，也可根据实际情况并发进行。

上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，例如：个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，例如：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，其特征在于，S1包括如下步骤：

3.根据权利要求1所述的基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，其特征在于，S2包括如下步骤：

S201，采用自动标引技术标识出译文中的专业科技术语；

4.根据权利要求3所述的基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，其特征在于，S201具体为，以所述中文译文作为原始语料进行分词和词性标注，得到句子中标注的科技术语。

5.根据权利要求3所述的基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，其特征在于，S202具体为，可采用同义词计算方法判断句子中科技术语翻译的准确性，在同义词计算时将字面匹配法作为最基本的方法，字面匹配不适用时再考虑读取术语库中的同义词和上下位词进一步识别。

6.根据权利要求3所述的基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，其特征在于，S203具体为，不同机器翻译引擎的候选翻译句可出现以下三种结果：①所有机器翻译引擎术语翻译结果完全一致，任选一种翻译引擎随机选择作为待选结果；②几种翻译引擎对同一术语翻译结果都不相同，那么将直接选择权威度最高的翻译引擎译文作为最终结果；③几种翻译引擎术语翻译结果不完全相同但出现相同项，那么将选取翻译结果出现次数最多的作为最终结果。

7.根据权利要求1所述的基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，其特征在于，S3包括如下步骤：

S303如果较长的语句存在组块嵌套，则递归执行S302步骤。

8.根据权利要求7所述的基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，其特征在于，S302具体为，由于在S2中已经排除术语翻译不准确的结果，因此此步骤在术语翻译准确的基础上通过每组块两两比较综合语义相似度最高的语句，实现从句子结构层面对译文质量进行判断。

9.根据权利要求1所述的基于多机器翻译引擎驱动的国际组织科技术语主题句萃取方法，其特征在于，S4包括如下步骤：