CN106503195A

CN106503195A - 一种基于搜索引擎的翻译词库检索方法及系统

Info

Publication number: CN106503195A
Application number: CN201610944105.1A
Authority: CN
Inventors: 秦小廷
Original assignee: Sichuan Union Technology Co Ltd
Current assignee: Sichuan Union Technology Co Ltd
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2017-03-15

Abstract

本发明公开了一种基于搜索引擎的翻译词库检索方法，其特征在于：包括以下几个步骤：步骤一：从原始文件中抽取翻译词条对应的原文和译文信息，并将翻译词条转化为符合词库映射的数据格式，进行索引入库；步骤二：使用标准分析器进行分词，并将分词正规划为标准形式；步骤三：创建批量索引，使用预定义的映射，并指定规划的路由值；配置分片数量；步骤四：把数据均匀分布到各分片中；步骤五：建立客户端；步骤六：构造查询语句，进行检索。本发明基于搜索引擎，设计了新的翻译词库存储和索引，可以进行精确匹配查询，提高查询的准确度和速度，大幅提升翻译人员的翻译质量，提高翻译效率。

Description

一种基于搜索引擎的翻译词库检索方法及系统

技术领域

本发明涉及计算辅助翻译技术领域，尤其是一种用于CAT软件或多语言翻译系统中数据存储和检索模块的设计和开发，基于开源搜索引擎的翻译词库检索方法。

背景技术

随着CAT技术的发展，作为机器翻译基础支持单元的各种翻译词库，其容量也成指数级别地增长扩大。海量词库有效的存储和检索成了机器翻译系统的重要问题。

基于平面文件的词库存储方式，无法实现多用户的并发访问；对词条的查找只能顺序进行，速度较慢；修改和删除词条时，需要更新整个词库文件，效率低下；传统的关系数据库，如MS SQL SERVER 或ORACLE，有很好的并发处理能力，在数据量较小的情况下，能够获得良好的检索性能。但随着数据量的增加，数据库各方面的性能都会明显下降。针对术语或词条的LIKE查询，会耗费更多的数据库资源，导致更多的性能瓶颈。

目前翻译界翻译词库存储和检索技术，均依赖于平面文件或关系数据库，检索性能低下，也限制了词库的扩充和扩展。利用开源搜索引擎对翻译词库进行重新设计和索引，将为翻译词库用户提供更好的使用体验和使用价值。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于搜索引擎，进行数据存储和检索模块的重新设计和索引，具有很好检索性能，词库能够得到扩充和扩展的翻译词库检索方法。

本发明采用的技术方案如下：

本发明一种基于搜索引擎的翻译词库检索方法，包括以下几个步骤：

步骤一：从原始文件中抽取翻译词条对应的原文和译文信息，并将翻译词条转化为符合词库映射的数据格式，进行索引入库；

步骤二：使用标准分析器将翻译词条的文档中域的值切分为独立的单词，将其创建为无重复的有序单词列表，并将单词正规划为标准形式；

步骤三：创建批量索引，使用预定义的映射，并指定规划的路由值；配置分片数量；

步骤四：搜索引擎根据预先设置的存储方式索引词条，把数据均匀分布到各分片中；

步骤五：建立客户端；

步骤六：构造查询语句，进行检索。

由于原始的原语言、目标语言的翻译词条语言对，可能存储在各种类型的文件之中或者关系数据库之中，原始文件格式可能是HTML、PDF、MSWord、Text文件，在进行索引入库前，应把待入库词条整理为符合目标词库映射的数据格式；可以使用搜索引擎自带的或其他第三方文本解析插件，抽取词条信息，进行索引。

本发明一种基于搜索引擎的翻译词库检索方法，所述标准分析器包括字符过滤器、分词器和分词过滤器；所述字符过滤器，用于在文本被切割之前进行清理操作；所述分词器，用于将文本切分为独立的词项；所述分词过滤器，用于转换字符、移除词项或者添加词项。

本发明一种基于搜索引擎的翻译词库检索方法，所述步骤三中映射的定义为：S1所有的字段，在索引时都保存原始值，即创建映射时，指定store为yes，可以在字段精确匹配时，查找到特定的目标；S2除原语言和目标语言字段之外的其他控制字段，使用全称，不再关联其他的类型，行业和专业名称不需要进行分词，进行精确匹配查询；S3使用标准的分词器；S4根据预知的行业或专业等字段属性，确定对应的路由值。

本发明一种基于搜索引擎的翻译词库检索方法，所述标准分词器的分词方法为：对于英文等西方文字，以语言本身的空格或其他的单词分隔符进行分词，对于中文词汇，直接以单个汉字分词后进行索引；如果使用针对中文语言定制的以词汇为分隔方法的分词器，将导致在模糊搜索原语言或目标语言时没有匹配结果的现象。

本发明一种基于搜索引擎的翻译词库检索方法，所述步骤三中分片配置的方法：设置主分片和从分片，指定主分片的数量，主分片前期部署在一台机器上，后期根据用户量的增加，通过增加节点的方式来优化查询性能；指定从分片的数量，每个主分片至少对应一个从分片。当有大量的文档时，由于内存的限制、硬盘能力、处理能力不足、无法足够快地响应客户端请求等，一个节点可能不够；在这种情况下，数据可以分为较小的分片，每个分片都是一个独立的索引，每个分片可以放在不同的服务器上，因此，数据可以在集群的节点中传播；当你查询的索引分布在多个分片上时，系统会把查询发送给每个相关的分片，并将结果合并在一起，多个分片可以加快索引和扩大词库的容量。

本发明一种基于搜索引擎的翻译词库检索方法，所述路由值的规划: 如果词库包含的行业或专业为已知，在定义映射时，直接设置路由值；若不指定路由值，默认使用映射中定义的路由值。

本发明一种基于搜索引擎的翻译词库检索方法，所述客户端包括浏览器、桌面客户端程序或Word插件。

本发明一种基于搜索引擎的翻译词库检索方法，所述构造查询语句的方法：使用DSL语言，指定检索关键字、词库编号或搜索引擎路由信息为查询条件构造查询语句。

本发明一种基于搜索引擎的翻译词库检索系统，包括词条导入模块，用于抽取词条对应的原文和译文信息，并转换成适用的词条格式；词条分析模块，用于将词条原文和译文进行分词，将词条分割成序列；批量索引模块，用于创建批量索引，并设置索引的对应存储方式；分片存储模块，用于将数据均匀分布到各分片中；客户端模块，用于查询词条的输入和查询结果的显示；查询模块，通过DSL语言，构造查询语句，进行检索。

综上所述，由于采用了上述技术方案，本发明的有益效果是：与现有的翻译词库存储和检索技术相比，本发明基于搜索引擎，设计了新的翻译词库存储和索引，可以进行精确匹配查询，提高查询的准确度和速度，大幅提升翻译人员的翻译质量，提高翻译效率。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明一种基于搜索引擎的翻译词库检索方法示意图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书（包括任何附加权利要求、摘要）中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

实施例一：

如图1 ，本发明一种基于搜索引擎的翻译词库检索方法，包括以下几个步骤：

步骤五：建立客户端；

步骤六：构造查询语句，进行检索。

本发明一种基于搜索引擎的翻译词库检索方法，所述步骤三中分片配置的方法：设置主分片和从分片，指定主分片的数量，主分片前期部署在一台机器上，后期根据用户量的增加，通过增加节点的方式来优化查询性能；指定从分片的数量，每个主分片至少对应一个从分片。

实施例二:

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于搜索引擎的翻译词库检索方法，其特征在于：包括以下几个步骤：

步骤五：建立客户端；

步骤六：构造查询语句，进行检索。

2.根据权利要求1所述的基于搜索引擎的翻译词库检索方法，其特征在于：所述标准分析器包括字符过滤器、分词器和分词过滤器；所述字符过滤器，用于在文本被切割之前进行清理操作；所述分词器，用于将文本切分为独立的词项；所述分词过滤器，用于转换字符、移除词项或者添加词项。

3.根据权利要求1所述的基于搜索引擎的翻译词库检索方法，其特征在于：所述步骤三中映射的定义方法为：S1所有的字段，在索引时都保存原始值；S2除原语言和目标语言字段之外的其他控制字段，使用全称，不再关联其他的类型，行业和专业名称不需要进行分词，进行精确匹配查询；S3使用标准的分词器；S4根据预知的行业或专业等字段属性，确定对应的路由值。

4.根据权利要求3所述的基于搜索引擎的翻译词库检索方法，其特征在于：所述标准分词器的分词方法为：对于英文等西方文字，以语言本身的空格或其他的单词分隔符进行分词，对于中文词汇，直接以单个汉字分词后进行索引。

5.根据权利要求1所述的基于搜索引擎的翻译词库检索方法，其特征在于：所述步骤三中分片配置的方法：设置主分片和从分片，指定主分片的数量，主分片前期部署在一台机器上，后期根据用户量的增加，通过增加节点的方式来优化查询性能；指定从分片的数量，每个主分片至少对应一个从分片。

6.根据权利要求1所述的基于搜索引擎的翻译词库检索方法，其特征在于：所述路由值的规划: 如果词库包含的行业或专业为已知，在定义映射时，直接设置路由值；若不指定路由值，默认使用映射中定义的路由值。

7.根据权利要求1所述的基于搜索引擎的翻译词库检索方法，其特征在于：所述客户端包括浏览器、桌面客户端程序或Word插件。

8.根据权利要求1所述的基于搜索引擎的翻译词库检索方法，其特征在于：所述构造查询语句的方法：使用DSL语言，指定检索关键字、词库编号或搜索引擎路由信息为查询条件构造查询语句。

9.一种基于搜索引擎的翻译词库检索系统，其特征在于：包括词条导入模块，用于抽取词条对应的原文和译文信息，并转换成适用的词条格式；词条分析模块，用于将词条原文和译文进行分词，将词条分割成序列；批量索引模块，用于创建批量索引，并设置索引的对应存储方式；分片存储模块，用于将数据均匀分布到各分片中；客户端模块，用于查询词条的输入和查询结果的显示；查询模块，通过DSL语言，构造查询语句，进行检索。