CN106503195A - 一种基于搜索引擎的翻译词库检索方法及系统 - Google Patents

一种基于搜索引擎的翻译词库检索方法及系统 Download PDF

Info

Publication number
CN106503195A
CN106503195A CN201610944105.1A CN201610944105A CN106503195A CN 106503195 A CN106503195 A CN 106503195A CN 201610944105 A CN201610944105 A CN 201610944105A CN 106503195 A CN106503195 A CN 106503195A
Authority
CN
China
Prior art keywords
translation
burst
search engine
entry
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610944105.1A
Other languages
English (en)
Inventor
秦小廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Union Technology Co Ltd
Original Assignee
Sichuan Union Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Union Technology Co Ltd filed Critical Sichuan Union Technology Co Ltd
Priority to CN201610944105.1A priority Critical patent/CN106503195A/zh
Publication of CN106503195A publication Critical patent/CN106503195A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于搜索引擎的翻译词库检索方法,其特征在于:包括以下几个步骤:步骤一:从原始文件中抽取翻译词条对应的原文和译文信息,并将翻译词条转化为符合词库映射的数据格式,进行索引入库;步骤二:使用标准分析器进行分词,并将分词正规划为标准形式;步骤三:创建批量索引,使用预定义的映射,并指定规划的路由值;配置分片数量;步骤四:把数据均匀分布到各分片中;步骤五:建立客户端;步骤六:构造查询语句,进行检索。本发明基于搜索引擎,设计了新的翻译词库存储和索引,可以进行精确匹配查询,提高查询的准确度和速度,大幅提升翻译人员的翻译质量,提高翻译效率。

Description

一种基于搜索引擎的翻译词库检索方法及系统
技术领域
本发明涉及计算辅助翻译技术领域,尤其是一种用于CAT软件或多语言翻译系统中数据存储和检索模块的设计和开发,基于开源搜索引擎的翻译词库检索方法。
背景技术
随着CAT技术的发展,作为机器翻译基础支持单元的各种翻译词库,其容量也成指数级别地增长扩大。海量词库有效的存储和检索成了机器翻译系统的重要问题。
基于平面文件的词库存储方式,无法实现多用户的并发访问;对词条的查找只能顺序进行,速度较慢;修改和删除词条时,需要更新整个词库文件,效率低下;传统的关系数据库,如MS SQL SERVER 或ORACLE,有很好的并发处理能力,在数据量较小的情况下,能够获得良好的检索性能。但随着数据量的增加,数据库各方面的性能都会明显下降。针对术语或词条的LIKE查询,会耗费更多的数据库资源,导致更多的性能瓶颈。
目前翻译界翻译词库存储和检索技术,均依赖于平面文件或关系数据库,检索性能低下,也限制了词库的扩充和扩展。利用开源搜索引擎对翻译词库进行重新设计和索引,将为翻译词库用户提供更好的使用体验和使用价值。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于搜索引擎,进行数据存储和检索模块的重新设计和索引,具有很好检索性能,词库能够得到扩充和扩展的翻译词库检索方法。
本发明采用的技术方案如下:
本发明一种基于搜索引擎的翻译词库检索方法,包括以下几个步骤:
步骤一:从原始文件中抽取翻译词条对应的原文和译文信息,并将翻译词条转化为符合词库映射的数据格式,进行索引入库;
步骤二:使用标准分析器将翻译词条的文档中域的值切分为独立的单词,将其创建为无重复的有序单词列表,并将单词正规划为标准形式;
步骤三:创建批量索引,使用预定义的映射,并指定规划的路由值;配置分片数量;
步骤四:搜索引擎根据预先设置的存储方式索引词条,把数据均匀分布到各分片中;
步骤五:建立客户端;
步骤六:构造查询语句,进行检索。
由于原始的原语言、目标语言的翻译词条语言对,可能存储在各种类型的文件之中或者关系数据库之中,原始文件格式可能是HTML、PDF、MSWord、Text文件,在进行索引入库前,应把待入库词条整理为符合目标词库映射的数据格式;可以使用搜索引擎自带的或其他第三方文本解析插件,抽取词条信息,进行索引。
本发明一种基于搜索引擎的翻译词库检索方法,所述标准分析器包括字符过滤器、分词器和分词过滤器;所述字符过滤器,用于在文本被切割之前进行清理操作;所述分词器,用于将文本切分为独立的词项;所述分词过滤器,用于转换字符、移除词项或者添加词项。
本发明一种基于搜索引擎的翻译词库检索方法,所述步骤三中映射的定义为:S1所有的字段,在索引时都保存原始值,即创建映射时,指定store为yes,可以在字段精确匹配时,查找到特定的目标;S2除原语言和目标语言字段之外的其他控制字段,使用全称,不再关联其他的类型,行业和专业名称不需要进行分词,进行精确匹配查询;S3使用标准的分词器;S4根据预知的行业或专业等字段属性,确定对应的路由值。
本发明一种基于搜索引擎的翻译词库检索方法,所述标准分词器的分词方法为:对于英文等西方文字,以语言本身的空格或其他的单词分隔符进行分词,对于中文词汇,直接以单个汉字分词后进行索引;如果使用针对中文语言定制的以词汇为分隔方法的分词器,将导致在模糊搜索原语言或目标语言时没有匹配结果的现象。
本发明一种基于搜索引擎的翻译词库检索方法,所述步骤三中分片配置的方法:设置主分片和从分片,指定主分片的数量,主分片前期部署在一台机器上,后期根据用户量的增加,通过增加节点的方式来优化查询性能;指定从分片的数量,每个主分片至少对应一个从分片。当有大量的文档时,由于内存的限制、硬盘能力、处理能力不足、无法足够快地响应客户端请求等,一个节点可能不够;在这种情况下,数据可以分为较小的分片,每个分片都是一个独立的索引,每个分片可以放在不同的服务器上,因此,数据可以在集群的节点中传播;当你查询的索引分布在多个分片上时,系统会把查询发送给每个相关的分片,并将结果合并在一起,多个分片可以加快索引和扩大词库的容量。
本发明一种基于搜索引擎的翻译词库检索方法,所述路由值的规划: 如果词库包含的行业或专业为已知,在定义映射时,直接设置路由值;若不指定路由值,默认使用映射中定义的路由值。
本发明一种基于搜索引擎的翻译词库检索方法,所述客户端包括浏览器、桌面客户端程序或Word插件。
本发明一种基于搜索引擎的翻译词库检索方法,所述构造查询语句的方法:使用DSL语言,指定检索关键字、词库编号或搜索引擎路由信息为查询条件构造查询语句。
本发明一种基于搜索引擎的翻译词库检索系统,包括词条导入模块,用于抽取词条对应的原文和译文信息,并转换成适用的词条格式;词条分析模块,用于将词条原文和译文进行分词,将词条分割成序列;批量索引模块,用于创建批量索引,并设置索引的对应存储方式;分片存储模块,用于将数据均匀分布到各分片中;客户端模块,用于查询词条的输入和查询结果的显示;查询模块,通过DSL语言,构造查询语句,进行检索。
综上所述,由于采用了上述技术方案,本发明的有益效果是:与现有的翻译词库存储和检索技术相比,本发明基于搜索引擎,设计了新的翻译词库存储和索引,可以进行精确匹配查询,提高查询的准确度和速度,大幅提升翻译人员的翻译质量,提高翻译效率。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明一种基于搜索引擎的翻译词库检索方法示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
实施例一:
如图1 ,本发明一种基于搜索引擎的翻译词库检索方法,包括以下几个步骤:
步骤一:从原始文件中抽取翻译词条对应的原文和译文信息,并将翻译词条转化为符合词库映射的数据格式,进行索引入库;
步骤二:使用标准分析器将翻译词条的文档中域的值切分为独立的单词,将其创建为无重复的有序单词列表,并将单词正规划为标准形式;
步骤三:创建批量索引,使用预定义的映射,并指定规划的路由值;配置分片数量;
步骤四:搜索引擎根据预先设置的存储方式索引词条,把数据均匀分布到各分片中;
步骤五:建立客户端;
步骤六:构造查询语句,进行检索。
本发明一种基于搜索引擎的翻译词库检索方法,所述标准分析器包括字符过滤器、分词器和分词过滤器;所述字符过滤器,用于在文本被切割之前进行清理操作;所述分词器,用于将文本切分为独立的词项;所述分词过滤器,用于转换字符、移除词项或者添加词项。
本发明一种基于搜索引擎的翻译词库检索方法,所述步骤三中映射的定义为:S1所有的字段,在索引时都保存原始值,即创建映射时,指定store为yes,可以在字段精确匹配时,查找到特定的目标;S2除原语言和目标语言字段之外的其他控制字段,使用全称,不再关联其他的类型,行业和专业名称不需要进行分词,进行精确匹配查询;S3使用标准的分词器;S4根据预知的行业或专业等字段属性,确定对应的路由值。
本发明一种基于搜索引擎的翻译词库检索方法,所述标准分词器的分词方法为:对于英文等西方文字,以语言本身的空格或其他的单词分隔符进行分词,对于中文词汇,直接以单个汉字分词后进行索引;如果使用针对中文语言定制的以词汇为分隔方法的分词器,将导致在模糊搜索原语言或目标语言时没有匹配结果的现象。
本发明一种基于搜索引擎的翻译词库检索方法,所述步骤三中分片配置的方法:设置主分片和从分片,指定主分片的数量,主分片前期部署在一台机器上,后期根据用户量的增加,通过增加节点的方式来优化查询性能;指定从分片的数量,每个主分片至少对应一个从分片。
本发明一种基于搜索引擎的翻译词库检索方法,所述路由值的规划: 如果词库包含的行业或专业为已知,在定义映射时,直接设置路由值;若不指定路由值,默认使用映射中定义的路由值。
本发明一种基于搜索引擎的翻译词库检索方法,所述客户端包括浏览器、桌面客户端程序或Word插件。
本发明一种基于搜索引擎的翻译词库检索方法,所述构造查询语句的方法:使用DSL语言,指定检索关键字、词库编号或搜索引擎路由信息为查询条件构造查询语句。
实施例二:
本发明一种基于搜索引擎的翻译词库检索系统,包括词条导入模块,用于抽取词条对应的原文和译文信息,并转换成适用的词条格式;词条分析模块,用于将词条原文和译文进行分词,将词条分割成序列;批量索引模块,用于创建批量索引,并设置索引的对应存储方式;分片存储模块,用于将数据均匀分布到各分片中;客户端模块,用于查询词条的输入和查询结果的显示;查询模块,通过DSL语言,构造查询语句,进行检索。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (9)

1.一种基于搜索引擎的翻译词库检索方法,其特征在于:包括以下几个步骤:
步骤一:从原始文件中抽取翻译词条对应的原文和译文信息,并将翻译词条转化为符合词库映射的数据格式,进行索引入库;
步骤二:使用标准分析器将翻译词条的文档中域的值切分为独立的单词,将其创建为无重复的有序单词列表,并将单词正规划为标准形式;
步骤三:创建批量索引,使用预定义的映射,并指定规划的路由值;配置分片数量;
步骤四:搜索引擎根据预先设置的存储方式索引词条,把数据均匀分布到各分片中;
步骤五:建立客户端;
步骤六:构造查询语句,进行检索。
2.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述标准分析器包括字符过滤器、分词器和分词过滤器;所述字符过滤器,用于在文本被切割之前进行清理操作;所述分词器,用于将文本切分为独立的词项;所述分词过滤器,用于转换字符、移除词项或者添加词项。
3.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述步骤三中映射的定义方法为:S1所有的字段,在索引时都保存原始值;S2除原语言和目标语言字段之外的其他控制字段,使用全称,不再关联其他的类型,行业和专业名称不需要进行分词,进行精确匹配查询;S3使用标准的分词器;S4根据预知的行业或专业等字段属性,确定对应的路由值。
4.根据权利要求3所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述标准分词器的分词方法为:对于英文等西方文字,以语言本身的空格或其他的单词分隔符进行分词,对于中文词汇,直接以单个汉字分词后进行索引。
5.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述步骤三中分片配置的方法:设置主分片和从分片,指定主分片的数量,主分片前期部署在一台机器上,后期根据用户量的增加,通过增加节点的方式来优化查询性能;指定从分片的数量,每个主分片至少对应一个从分片。
6.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述路由值的规划: 如果词库包含的行业或专业为已知,在定义映射时,直接设置路由值;若不指定路由值,默认使用映射中定义的路由值。
7.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述客户端包括浏览器、桌面客户端程序或Word插件。
8.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述构造查询语句的方法:使用DSL语言,指定检索关键字、词库编号或搜索引擎路由信息为查询条件构造查询语句。
9.一种基于搜索引擎的翻译词库检索系统,其特征在于:包括词条导入模块,用于抽取词条对应的原文和译文信息,并转换成适用的词条格式;词条分析模块,用于将词条原文和译文进行分词,将词条分割成序列;批量索引模块,用于创建批量索引,并设置索引的对应存储方式;分片存储模块,用于将数据均匀分布到各分片中;客户端模块,用于查询词条的输入和查询结果的显示;查询模块,通过DSL语言,构造查询语句,进行检索。
CN201610944105.1A 2016-11-02 2016-11-02 一种基于搜索引擎的翻译词库检索方法及系统 Pending CN106503195A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610944105.1A CN106503195A (zh) 2016-11-02 2016-11-02 一种基于搜索引擎的翻译词库检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610944105.1A CN106503195A (zh) 2016-11-02 2016-11-02 一种基于搜索引擎的翻译词库检索方法及系统

Publications (1)

Publication Number Publication Date
CN106503195A true CN106503195A (zh) 2017-03-15

Family

ID=58321736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610944105.1A Pending CN106503195A (zh) 2016-11-02 2016-11-02 一种基于搜索引擎的翻译词库检索方法及系统

Country Status (1)

Country Link
CN (1) CN106503195A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408817A (zh) * 2018-10-12 2019-03-01 科大国创软件股份有限公司 一种中文分词自定义词库系统及其动态生效方法
CN109815390A (zh) * 2018-11-08 2019-05-28 平安科技(深圳)有限公司 多语言信息的检索方法、装置、计算机设备及计算机存储介质
CN109829010A (zh) * 2017-08-28 2019-05-31 西安中兴新软件有限责任公司 一种词条修改方法和词条修改装置
CN110020063A (zh) * 2017-07-18 2019-07-16 北京京东尚科信息技术有限公司 垂直搜索方法和系统
CN110866410A (zh) * 2019-11-15 2020-03-06 深圳市赛为智能股份有限公司 多语言转换方法、装置、计算机设备及存储介质
WO2020084440A1 (en) * 2018-10-23 2020-04-30 International Business Machines Corporation Cognitive collation configuration for enhancing multilingual data governance and management
CN112380410A (zh) * 2020-11-10 2021-02-19 北京字节跳动网络技术有限公司 信息处理方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176967A (zh) * 2011-12-23 2013-06-26 英顺源(上海)科技有限公司 依据多个查询字词的翻译查询系统及其方法
CN103488648A (zh) * 2012-06-13 2014-01-01 阿里巴巴集团控股有限公司 一种多语种混合检索方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176967A (zh) * 2011-12-23 2013-06-26 英顺源(上海)科技有限公司 依据多个查询字词的翻译查询系统及其方法
CN103488648A (zh) * 2012-06-13 2014-01-01 阿里巴巴集团控股有限公司 一种多语种混合检索方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周映 等: "ElasticSearch在电子商务系统中的应用实例", 《信息技术与标准化》 *
张建中 等: "基于ElasticSearch的数字图书馆检索系统", 《计算机与现代化》 *
陈亚杰 等: "ElasticSearch分布式搜索引擎在天文大数据检索中的应用研究", 《天文学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020063A (zh) * 2017-07-18 2019-07-16 北京京东尚科信息技术有限公司 垂直搜索方法和系统
CN109829010A (zh) * 2017-08-28 2019-05-31 西安中兴新软件有限责任公司 一种词条修改方法和词条修改装置
CN109829010B (zh) * 2017-08-28 2023-11-14 西安中兴新软件有限责任公司 一种词条修改方法和词条修改装置
CN109408817A (zh) * 2018-10-12 2019-03-01 科大国创软件股份有限公司 一种中文分词自定义词库系统及其动态生效方法
WO2020084440A1 (en) * 2018-10-23 2020-04-30 International Business Machines Corporation Cognitive collation configuration for enhancing multilingual data governance and management
GB2591210A (en) * 2018-10-23 2021-07-21 Ibm Cognitive collation configuration for enhancing multilingual data governance and management
US11256862B2 (en) 2018-10-23 2022-02-22 International Business Machines Corporation Cognitive collation configuration for enhancing multilingual data governance and management
CN109815390A (zh) * 2018-11-08 2019-05-28 平安科技(深圳)有限公司 多语言信息的检索方法、装置、计算机设备及计算机存储介质
CN109815390B (zh) * 2018-11-08 2023-08-08 平安科技(深圳)有限公司 多语言信息的检索方法、装置、计算机设备及计算机存储介质
CN110866410A (zh) * 2019-11-15 2020-03-06 深圳市赛为智能股份有限公司 多语言转换方法、装置、计算机设备及存储介质
CN110866410B (zh) * 2019-11-15 2023-07-25 深圳市赛为智能股份有限公司 多语言转换方法、装置、计算机设备及存储介质
CN112380410A (zh) * 2020-11-10 2021-02-19 北京字节跳动网络技术有限公司 信息处理方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN106503195A (zh) 一种基于搜索引擎的翻译词库检索方法及系统
JP5611390B2 (ja) 対話型サーチクエリーを改良するためのシステム及び方法
US8312034B2 (en) Concept bridge and method of operating the same
US8316007B2 (en) Automatically finding acronyms and synonyms in a corpus
US8600997B2 (en) Method and framework to support indexing and searching taxonomies in large scale full text indexes
US20110113048A1 (en) Enabling Faster Full-Text Searching Using a Structured Data Store
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
US8812508B2 (en) Systems and methods for extracting phases from text
CN111400323B (zh) 数据检索方法、系统、设备及存储介质
US9529908B2 (en) Tiering of posting lists in search engine index
US20080059432A1 (en) System and method for database indexing, searching and data retrieval
CN105843960B (zh) 基于语义树的索引方法和系统
JP6533876B2 (ja) 商品情報表示システム、商品情報表示方法、及びプログラム
CN106649286B (zh) 一种基于双数组字典树进行术语匹配的方法
CN112231321A (zh) 一种Oracle二级索引及索引实时同步方法
JP4237813B2 (ja) 構造化文書管理システム
US10565188B2 (en) System and method for performing a pattern matching search
KR20000049333A (ko) 지능형 인터넷 쇼핑몰 상품비교검색엔진
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
KR20160001167A (ko) 데이터베이스에서 데이터 이동을 처리하는 방법 및 장치
KR100645711B1 (ko) 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템
JP6764973B1 (ja) 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム
Schallehn et al. Supporting similarity operations based on approximate string matching on the web
CN114372077A (zh) 性能指标数据检索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315

RJ01 Rejection of invention patent application after publication