CN106503195A - 一种基于搜索引擎的翻译词库检索方法及系统 - Google Patents
一种基于搜索引擎的翻译词库检索方法及系统 Download PDFInfo
- Publication number
- CN106503195A CN106503195A CN201610944105.1A CN201610944105A CN106503195A CN 106503195 A CN106503195 A CN 106503195A CN 201610944105 A CN201610944105 A CN 201610944105A CN 106503195 A CN106503195 A CN 106503195A
- Authority
- CN
- China
- Prior art keywords
- translation
- burst
- search engine
- entry
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于搜索引擎的翻译词库检索方法,其特征在于:包括以下几个步骤:步骤一:从原始文件中抽取翻译词条对应的原文和译文信息,并将翻译词条转化为符合词库映射的数据格式,进行索引入库;步骤二:使用标准分析器进行分词,并将分词正规划为标准形式;步骤三:创建批量索引,使用预定义的映射,并指定规划的路由值;配置分片数量;步骤四:把数据均匀分布到各分片中;步骤五:建立客户端;步骤六:构造查询语句,进行检索。本发明基于搜索引擎,设计了新的翻译词库存储和索引,可以进行精确匹配查询,提高查询的准确度和速度,大幅提升翻译人员的翻译质量,提高翻译效率。
Description
技术领域
本发明涉及计算辅助翻译技术领域,尤其是一种用于CAT软件或多语言翻译系统中数据存储和检索模块的设计和开发,基于开源搜索引擎的翻译词库检索方法。
背景技术
随着CAT技术的发展,作为机器翻译基础支持单元的各种翻译词库,其容量也成指数级别地增长扩大。海量词库有效的存储和检索成了机器翻译系统的重要问题。
基于平面文件的词库存储方式,无法实现多用户的并发访问;对词条的查找只能顺序进行,速度较慢;修改和删除词条时,需要更新整个词库文件,效率低下;传统的关系数据库,如MS SQL SERVER 或ORACLE,有很好的并发处理能力,在数据量较小的情况下,能够获得良好的检索性能。但随着数据量的增加,数据库各方面的性能都会明显下降。针对术语或词条的LIKE查询,会耗费更多的数据库资源,导致更多的性能瓶颈。
目前翻译界翻译词库存储和检索技术,均依赖于平面文件或关系数据库,检索性能低下,也限制了词库的扩充和扩展。利用开源搜索引擎对翻译词库进行重新设计和索引,将为翻译词库用户提供更好的使用体验和使用价值。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于搜索引擎,进行数据存储和检索模块的重新设计和索引,具有很好检索性能,词库能够得到扩充和扩展的翻译词库检索方法。
本发明采用的技术方案如下:
本发明一种基于搜索引擎的翻译词库检索方法,包括以下几个步骤:
步骤一:从原始文件中抽取翻译词条对应的原文和译文信息,并将翻译词条转化为符合词库映射的数据格式,进行索引入库;
步骤二:使用标准分析器将翻译词条的文档中域的值切分为独立的单词,将其创建为无重复的有序单词列表,并将单词正规划为标准形式;
步骤三:创建批量索引,使用预定义的映射,并指定规划的路由值;配置分片数量;
步骤四:搜索引擎根据预先设置的存储方式索引词条,把数据均匀分布到各分片中;
步骤五:建立客户端;
步骤六:构造查询语句,进行检索。
由于原始的原语言、目标语言的翻译词条语言对,可能存储在各种类型的文件之中或者关系数据库之中,原始文件格式可能是HTML、PDF、MSWord、Text文件,在进行索引入库前,应把待入库词条整理为符合目标词库映射的数据格式;可以使用搜索引擎自带的或其他第三方文本解析插件,抽取词条信息,进行索引。
本发明一种基于搜索引擎的翻译词库检索方法,所述标准分析器包括字符过滤器、分词器和分词过滤器;所述字符过滤器,用于在文本被切割之前进行清理操作;所述分词器,用于将文本切分为独立的词项;所述分词过滤器,用于转换字符、移除词项或者添加词项。
本发明一种基于搜索引擎的翻译词库检索方法,所述步骤三中映射的定义为:S1所有的字段,在索引时都保存原始值,即创建映射时,指定store为yes,可以在字段精确匹配时,查找到特定的目标;S2除原语言和目标语言字段之外的其他控制字段,使用全称,不再关联其他的类型,行业和专业名称不需要进行分词,进行精确匹配查询;S3使用标准的分词器;S4根据预知的行业或专业等字段属性,确定对应的路由值。
本发明一种基于搜索引擎的翻译词库检索方法,所述标准分词器的分词方法为:对于英文等西方文字,以语言本身的空格或其他的单词分隔符进行分词,对于中文词汇,直接以单个汉字分词后进行索引;如果使用针对中文语言定制的以词汇为分隔方法的分词器,将导致在模糊搜索原语言或目标语言时没有匹配结果的现象。
本发明一种基于搜索引擎的翻译词库检索方法,所述步骤三中分片配置的方法:设置主分片和从分片,指定主分片的数量,主分片前期部署在一台机器上,后期根据用户量的增加,通过增加节点的方式来优化查询性能;指定从分片的数量,每个主分片至少对应一个从分片。当有大量的文档时,由于内存的限制、硬盘能力、处理能力不足、无法足够快地响应客户端请求等,一个节点可能不够;在这种情况下,数据可以分为较小的分片,每个分片都是一个独立的索引,每个分片可以放在不同的服务器上,因此,数据可以在集群的节点中传播;当你查询的索引分布在多个分片上时,系统会把查询发送给每个相关的分片,并将结果合并在一起,多个分片可以加快索引和扩大词库的容量。
本发明一种基于搜索引擎的翻译词库检索方法,所述路由值的规划: 如果词库包含的行业或专业为已知,在定义映射时,直接设置路由值;若不指定路由值,默认使用映射中定义的路由值。
本发明一种基于搜索引擎的翻译词库检索方法,所述客户端包括浏览器、桌面客户端程序或Word插件。
本发明一种基于搜索引擎的翻译词库检索方法,所述构造查询语句的方法:使用DSL语言,指定检索关键字、词库编号或搜索引擎路由信息为查询条件构造查询语句。
本发明一种基于搜索引擎的翻译词库检索系统,包括词条导入模块,用于抽取词条对应的原文和译文信息,并转换成适用的词条格式;词条分析模块,用于将词条原文和译文进行分词,将词条分割成序列;批量索引模块,用于创建批量索引,并设置索引的对应存储方式;分片存储模块,用于将数据均匀分布到各分片中;客户端模块,用于查询词条的输入和查询结果的显示;查询模块,通过DSL语言,构造查询语句,进行检索。
综上所述,由于采用了上述技术方案,本发明的有益效果是:与现有的翻译词库存储和检索技术相比,本发明基于搜索引擎,设计了新的翻译词库存储和索引,可以进行精确匹配查询,提高查询的准确度和速度,大幅提升翻译人员的翻译质量,提高翻译效率。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明一种基于搜索引擎的翻译词库检索方法示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
实施例一:
如图1 ,本发明一种基于搜索引擎的翻译词库检索方法,包括以下几个步骤:
步骤一:从原始文件中抽取翻译词条对应的原文和译文信息,并将翻译词条转化为符合词库映射的数据格式,进行索引入库;
步骤二:使用标准分析器将翻译词条的文档中域的值切分为独立的单词,将其创建为无重复的有序单词列表,并将单词正规划为标准形式;
步骤三:创建批量索引,使用预定义的映射,并指定规划的路由值;配置分片数量;
步骤四:搜索引擎根据预先设置的存储方式索引词条,把数据均匀分布到各分片中;
步骤五:建立客户端;
步骤六:构造查询语句,进行检索。
本发明一种基于搜索引擎的翻译词库检索方法,所述标准分析器包括字符过滤器、分词器和分词过滤器;所述字符过滤器,用于在文本被切割之前进行清理操作;所述分词器,用于将文本切分为独立的词项;所述分词过滤器,用于转换字符、移除词项或者添加词项。
本发明一种基于搜索引擎的翻译词库检索方法,所述步骤三中映射的定义为:S1所有的字段,在索引时都保存原始值,即创建映射时,指定store为yes,可以在字段精确匹配时,查找到特定的目标;S2除原语言和目标语言字段之外的其他控制字段,使用全称,不再关联其他的类型,行业和专业名称不需要进行分词,进行精确匹配查询;S3使用标准的分词器;S4根据预知的行业或专业等字段属性,确定对应的路由值。
本发明一种基于搜索引擎的翻译词库检索方法,所述标准分词器的分词方法为:对于英文等西方文字,以语言本身的空格或其他的单词分隔符进行分词,对于中文词汇,直接以单个汉字分词后进行索引;如果使用针对中文语言定制的以词汇为分隔方法的分词器,将导致在模糊搜索原语言或目标语言时没有匹配结果的现象。
本发明一种基于搜索引擎的翻译词库检索方法,所述步骤三中分片配置的方法:设置主分片和从分片,指定主分片的数量,主分片前期部署在一台机器上,后期根据用户量的增加,通过增加节点的方式来优化查询性能;指定从分片的数量,每个主分片至少对应一个从分片。
本发明一种基于搜索引擎的翻译词库检索方法,所述路由值的规划: 如果词库包含的行业或专业为已知,在定义映射时,直接设置路由值;若不指定路由值,默认使用映射中定义的路由值。
本发明一种基于搜索引擎的翻译词库检索方法,所述客户端包括浏览器、桌面客户端程序或Word插件。
本发明一种基于搜索引擎的翻译词库检索方法,所述构造查询语句的方法:使用DSL语言,指定检索关键字、词库编号或搜索引擎路由信息为查询条件构造查询语句。
实施例二:
本发明一种基于搜索引擎的翻译词库检索系统,包括词条导入模块,用于抽取词条对应的原文和译文信息,并转换成适用的词条格式;词条分析模块,用于将词条原文和译文进行分词,将词条分割成序列;批量索引模块,用于创建批量索引,并设置索引的对应存储方式;分片存储模块,用于将数据均匀分布到各分片中;客户端模块,用于查询词条的输入和查询结果的显示;查询模块,通过DSL语言,构造查询语句,进行检索。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
Claims (9)
1.一种基于搜索引擎的翻译词库检索方法,其特征在于:包括以下几个步骤:
步骤一:从原始文件中抽取翻译词条对应的原文和译文信息,并将翻译词条转化为符合词库映射的数据格式,进行索引入库;
步骤二:使用标准分析器将翻译词条的文档中域的值切分为独立的单词,将其创建为无重复的有序单词列表,并将单词正规划为标准形式;
步骤三:创建批量索引,使用预定义的映射,并指定规划的路由值;配置分片数量;
步骤四:搜索引擎根据预先设置的存储方式索引词条,把数据均匀分布到各分片中;
步骤五:建立客户端;
步骤六:构造查询语句,进行检索。
2.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述标准分析器包括字符过滤器、分词器和分词过滤器;所述字符过滤器,用于在文本被切割之前进行清理操作;所述分词器,用于将文本切分为独立的词项;所述分词过滤器,用于转换字符、移除词项或者添加词项。
3.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述步骤三中映射的定义方法为:S1所有的字段,在索引时都保存原始值;S2除原语言和目标语言字段之外的其他控制字段,使用全称,不再关联其他的类型,行业和专业名称不需要进行分词,进行精确匹配查询;S3使用标准的分词器;S4根据预知的行业或专业等字段属性,确定对应的路由值。
4.根据权利要求3所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述标准分词器的分词方法为:对于英文等西方文字,以语言本身的空格或其他的单词分隔符进行分词,对于中文词汇,直接以单个汉字分词后进行索引。
5.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述步骤三中分片配置的方法:设置主分片和从分片,指定主分片的数量,主分片前期部署在一台机器上,后期根据用户量的增加,通过增加节点的方式来优化查询性能;指定从分片的数量,每个主分片至少对应一个从分片。
6.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述路由值的规划: 如果词库包含的行业或专业为已知,在定义映射时,直接设置路由值;若不指定路由值,默认使用映射中定义的路由值。
7.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述客户端包括浏览器、桌面客户端程序或Word插件。
8.根据权利要求1所述的基于搜索引擎的翻译词库检索方法,其特征在于:所述构造查询语句的方法:使用DSL语言,指定检索关键字、词库编号或搜索引擎路由信息为查询条件构造查询语句。
9.一种基于搜索引擎的翻译词库检索系统,其特征在于:包括词条导入模块,用于抽取词条对应的原文和译文信息,并转换成适用的词条格式;词条分析模块,用于将词条原文和译文进行分词,将词条分割成序列;批量索引模块,用于创建批量索引,并设置索引的对应存储方式;分片存储模块,用于将数据均匀分布到各分片中;客户端模块,用于查询词条的输入和查询结果的显示;查询模块,通过DSL语言,构造查询语句,进行检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610944105.1A CN106503195A (zh) | 2016-11-02 | 2016-11-02 | 一种基于搜索引擎的翻译词库检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610944105.1A CN106503195A (zh) | 2016-11-02 | 2016-11-02 | 一种基于搜索引擎的翻译词库检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106503195A true CN106503195A (zh) | 2017-03-15 |
Family
ID=58321736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610944105.1A Pending CN106503195A (zh) | 2016-11-02 | 2016-11-02 | 一种基于搜索引擎的翻译词库检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503195A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408817A (zh) * | 2018-10-12 | 2019-03-01 | 科大国创软件股份有限公司 | 一种中文分词自定义词库系统及其动态生效方法 |
CN109815390A (zh) * | 2018-11-08 | 2019-05-28 | 平安科技(深圳)有限公司 | 多语言信息的检索方法、装置、计算机设备及计算机存储介质 |
CN109829010A (zh) * | 2017-08-28 | 2019-05-31 | 西安中兴新软件有限责任公司 | 一种词条修改方法和词条修改装置 |
CN110020063A (zh) * | 2017-07-18 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 垂直搜索方法和系统 |
CN110866410A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市赛为智能股份有限公司 | 多语言转换方法、装置、计算机设备及存储介质 |
WO2020084440A1 (en) * | 2018-10-23 | 2020-04-30 | International Business Machines Corporation | Cognitive collation configuration for enhancing multilingual data governance and management |
CN112380410A (zh) * | 2020-11-10 | 2021-02-19 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176967A (zh) * | 2011-12-23 | 2013-06-26 | 英顺源(上海)科技有限公司 | 依据多个查询字词的翻译查询系统及其方法 |
CN103488648A (zh) * | 2012-06-13 | 2014-01-01 | 阿里巴巴集团控股有限公司 | 一种多语种混合检索方法和系统 |
-
2016
- 2016-11-02 CN CN201610944105.1A patent/CN106503195A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176967A (zh) * | 2011-12-23 | 2013-06-26 | 英顺源(上海)科技有限公司 | 依据多个查询字词的翻译查询系统及其方法 |
CN103488648A (zh) * | 2012-06-13 | 2014-01-01 | 阿里巴巴集团控股有限公司 | 一种多语种混合检索方法和系统 |
Non-Patent Citations (3)
Title |
---|
周映 等: "ElasticSearch在电子商务系统中的应用实例", 《信息技术与标准化》 * |
张建中 等: "基于ElasticSearch的数字图书馆检索系统", 《计算机与现代化》 * |
陈亚杰 等: "ElasticSearch分布式搜索引擎在天文大数据检索中的应用研究", 《天文学报》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020063A (zh) * | 2017-07-18 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 垂直搜索方法和系统 |
CN109829010A (zh) * | 2017-08-28 | 2019-05-31 | 西安中兴新软件有限责任公司 | 一种词条修改方法和词条修改装置 |
CN109829010B (zh) * | 2017-08-28 | 2023-11-14 | 西安中兴新软件有限责任公司 | 一种词条修改方法和词条修改装置 |
CN109408817A (zh) * | 2018-10-12 | 2019-03-01 | 科大国创软件股份有限公司 | 一种中文分词自定义词库系统及其动态生效方法 |
WO2020084440A1 (en) * | 2018-10-23 | 2020-04-30 | International Business Machines Corporation | Cognitive collation configuration for enhancing multilingual data governance and management |
GB2591210A (en) * | 2018-10-23 | 2021-07-21 | Ibm | Cognitive collation configuration for enhancing multilingual data governance and management |
US11256862B2 (en) | 2018-10-23 | 2022-02-22 | International Business Machines Corporation | Cognitive collation configuration for enhancing multilingual data governance and management |
CN109815390A (zh) * | 2018-11-08 | 2019-05-28 | 平安科技(深圳)有限公司 | 多语言信息的检索方法、装置、计算机设备及计算机存储介质 |
CN109815390B (zh) * | 2018-11-08 | 2023-08-08 | 平安科技(深圳)有限公司 | 多语言信息的检索方法、装置、计算机设备及计算机存储介质 |
CN110866410A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市赛为智能股份有限公司 | 多语言转换方法、装置、计算机设备及存储介质 |
CN110866410B (zh) * | 2019-11-15 | 2023-07-25 | 深圳市赛为智能股份有限公司 | 多语言转换方法、装置、计算机设备及存储介质 |
CN112380410A (zh) * | 2020-11-10 | 2021-02-19 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503195A (zh) | 一种基于搜索引擎的翻译词库检索方法及系统 | |
JP5611390B2 (ja) | 対話型サーチクエリーを改良するためのシステム及び方法 | |
US8312034B2 (en) | Concept bridge and method of operating the same | |
US8316007B2 (en) | Automatically finding acronyms and synonyms in a corpus | |
US8600997B2 (en) | Method and framework to support indexing and searching taxonomies in large scale full text indexes | |
US20110113048A1 (en) | Enabling Faster Full-Text Searching Using a Structured Data Store | |
US20170212899A1 (en) | Method for searching related entities through entity co-occurrence | |
US8812508B2 (en) | Systems and methods for extracting phases from text | |
CN111400323B (zh) | 数据检索方法、系统、设备及存储介质 | |
US9529908B2 (en) | Tiering of posting lists in search engine index | |
US20080059432A1 (en) | System and method for database indexing, searching and data retrieval | |
CN105843960B (zh) | 基于语义树的索引方法和系统 | |
JP6533876B2 (ja) | 商品情報表示システム、商品情報表示方法、及びプログラム | |
CN106649286B (zh) | 一种基于双数组字典树进行术语匹配的方法 | |
CN112231321A (zh) | 一种Oracle二级索引及索引实时同步方法 | |
JP4237813B2 (ja) | 構造化文書管理システム | |
US10565188B2 (en) | System and method for performing a pattern matching search | |
KR20000049333A (ko) | 지능형 인터넷 쇼핑몰 상품비교검색엔진 | |
KR100659370B1 (ko) | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 | |
KR100434718B1 (ko) | 문서 색인 시스템 및 그 방법 | |
KR20160001167A (ko) | 데이터베이스에서 데이터 이동을 처리하는 방법 및 장치 | |
KR100645711B1 (ko) | 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템 | |
JP6764973B1 (ja) | 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム | |
Schallehn et al. | Supporting similarity operations based on approximate string matching on the web | |
CN114372077A (zh) | 性能指标数据检索方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170315 |
|
RJ01 | Rejection of invention patent application after publication |