CN111221965A

CN111221965A - 基于公共标识语双语语料的分类抽样检测方法

Info

Publication number: CN111221965A
Application number: CN201911388729.XA
Authority: CN
Inventors: 李伟彬; 张洁; 段成; 陈压美; 熊晖; 孟嵊; 李娜
Original assignee: Chengdu University of Information Technology; Chengdu Univeristy of Technology
Current assignee: Chengdu University of Information Technology; Chengdu Univeristy of Technology
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-06-02

Abstract

本发明涉及一种基于公共标识语双语语料的分类抽样检测方法，包括(S1)分类存储公共标识语双语平行语料信息；(S2)指定一公共标识语类型，随机选取一关键词进行搜索，获得涉及该关键词的该类型公共标识语的列表；(S3)提取对应的公共标识语的双语平行语料信息进行翻译检测，若结果达标，则指定另一公共标识语类型检测，若结果未达标，则(S4)对该类型的所有公共标识语重新进行翻译，并指定另一公共标识语类型检测。本发明采用分类提取关键词的方式随机逐次检测公共标识语双语平行语料库中翻译内容的准确度，通过人工复检的形式辅助机器翻译提高公共标识语平行语料信息的翻译准确性，提高了语料库内存储语料资源的可靠性和质量。

Description

基于公共标识语双语语料的分类抽样检测方法

技术领域

本发明涉及一种基于公共标识语双语语料的分类抽样检测方法。

背景技术

公共标识语也被称为公示语，主要是在城市中为公众或游客的出行方便而提供的指示性语音，包括服务设施、机构名称、广告牌、公共设施、公共交通、旅游景点、街头路牌、标语口号、商店招牌等，其作用是通过简明的语言向公众提供有效的信息。随着经济文化的发展，尤其是旅游业的发展，很多城市都吸引了大量的外国友人，因此公共标识语的翻译显得尤为重要，其不仅是城市语言环境和人文环境的代表，而且为促进旅游产业的发展起到重要的作用。正确、得体的公共标识语翻译内容能够为各国游客提供良好便捷的帮助并提高城市的整体形象，反之，错误、不得体的公共标识语反应内容会给外国游客带来理解上的障碍甚至误区，因此保证公共标识语翻译的准确很有必要。

随着科学技术发展，采用机器辅助翻译能够帮助翻译者更快更好地完成翻译任务，提高翻译效率。但是在目前机器翻译的智能化较低，大多还是逐词进行翻译，缺乏对整句话的语境考虑，翻译结果常显生硬，而且常常出现词不达意的情况，尤其是在公共标识语领域，出现机翻错误的情况多有发生，因此仍需工人翻译进行辅助校正，以提高翻译结果的准确度。

发明内容

针对上述技术问题，本发明提供一种基于公共标识语双语语料的分类抽样检测方法，以提高了语料机器翻译的准确率。

为实现上述目的，本发明采用的技术方案如下：

一种基于公共标识语双语语料的分类抽样检测方法，包括以下步骤：

(S1)在公共标识语语料库中按照公共标识语类型分类存储公共标识语双语平行语料信息；

(S2)指定一公共标识语类型，从该类型的公共标识语的关键词库中随机选取一关键词进行搜索，获得涉及该关键词的该类型公共标识语的列表；

(S3)从该列表内的指定位置提取对应的公共标识语的双语平行语料信息进行翻译检测，若翻译检测结果达标，则跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行，若翻译检测结果未达标，则执行下一步；

(S4)对该类型的所有公共标识语重新进行翻译，并跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行。

具体地，所述公共标识语类型至少包括对应公共标识语双语平行语料信息的主要分类的一级类别，以及对应公共标识语双语平行语料信息的次要分类的二级类别，所述指定的公共标识语类型选自二级类别。

具体地，所述步骤(S3)中，当所述列表中的双语平行语料信息的条数少于5条时，提取该列表内所有的公共标识语的双语平行语料信息进行翻译检测；

当所述列表中的双语平行语料信息的条数不少于5条时，提取该列表内指定位置的3条公共标识语的双语平行语料信息进行翻译检测，其中该指定位置的3条为列表的首尾位置各一条以及除首尾位置外的中间位置中的任一条。

具体地，所述翻译检测结果达标为进行翻译检测的所有公共标识语的双语平行语料信息与其对应的标准人工翻译结果对比的近似度均不低于90％。

具体地，所述翻译检测包括：

(S3-1)提取一条公共标识语的双语平行语料信息，并分离其中文部分和外文部分；

(S3-2)对该分离的中文部分进行标准人工翻译，获得与分离的外文部分同语种的翻译标准对照；

(S3-3)将该翻译标准对照和分离的外文部分进行近似度对比，若二者近似度低于90％，则该条公共标识语的双语平行语料信息的翻译检测结果不达标，反之跳转至步骤(S3-1)提取另一条未检测过的公共标识语的双语平行语料信息执行翻译检测，直至所有指定位置的双语平行语料信息均进行过翻译检测。

具体地，所述步骤(S4)中对该类型的所有公共标识语重新进行翻译为：

采用最新的翻译词库对该类型的所有公共标识语逐条进行机器翻译，完成后再对其采用人工翻译校正。

与现有技术相比，本发明具有以下有益效果：

本发明采用分类提取关键词的方式随机逐次检测公共标识语双语平行语料库中翻译内容的准确度，通过人工复检的形式辅助机器翻译提高公共标识语平行语料信息的翻译准确性，提高了语料库内存储语料资源的可靠性和质量，并可根据基本语料信息的发展及时更新语料库的内容，顺应社会节奏发展，适合在公共标识语领域的广泛应用。

附图说明

图1为本发明的流程示意图。

图2为本发明中翻译检测的流程示意图。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明，本发明的方式包括但不仅限于以下实施例。

实施例

如图1至图2所示，该基于公共标识语双语语料的分类抽样检测方法，包括以下步骤：

(S2)指定一公共标识语类型，从该类型的公共标识语的关键词库中随机选取一关键词进行搜索，获得涉及该关键词的该类型公共标识语的列表；具体地，所述公共标识语类型至少包括对应公共标识语双语平行语料信息的主要分类的一级类别，以及对应公共标识语双语平行语料信息的次要分类的二级类别，所述指定的公共标识语类型选自二级类别。

具体地，所述翻译检测包括：

上述实施例仅为本发明的优选实施方式之一，不应当用于限制本发明的保护范围，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内。

Claims

1.一种基于公共标识语双语语料的分类抽样检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于公共标识语双语语料的分类抽样检测方法，其特征在于，所述公共标识语类型至少包括对应公共标识语双语平行语料信息的主要分类的一级类别，以及对应公共标识语双语平行语料信息的次要分类的二级类别，所述指定的公共标识语类型选自二级类别。

3.根据权利要求2所述的基于公共标识语双语语料的分类抽样检测方法，其特征在于，所述步骤(S3)中，当所述列表中的双语平行语料信息的条数少于5条时，提取该列表内所有的公共标识语的双语平行语料信息进行翻译检测；

4.根据权利要求3所述的基于公共标识语双语语料的分类抽样检测方法，其特征在于，所述翻译检测结果达标为进行翻译检测的所有公共标识语的双语平行语料信息与其对应的标准人工翻译结果对比的近似度均不低于90％。

5.根据权利要求4所述的基于公共标识语双语语料的分类抽样检测方法，其特征在于，所述翻译检测包括：

6.根据权利要求5所述的基于公共标识语双语语料的分类抽样检测方法，其特征在于，所述步骤(S4)中对该类型的所有公共标识语重新进行翻译为：