CN106528630B - 一种对本地数据进行术语匹配的方法 - Google Patents

一种对本地数据进行术语匹配的方法 Download PDF

Info

Publication number
CN106528630B
CN106528630B CN201610881689.2A CN201610881689A CN106528630B CN 106528630 B CN106528630 B CN 106528630B CN 201610881689 A CN201610881689 A CN 201610881689A CN 106528630 B CN106528630 B CN 106528630B
Authority
CN
China
Prior art keywords
string data
term
data
character string
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610881689.2A
Other languages
English (en)
Other versions
CN106528630A (zh
Inventor
冯泽康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201610881689.2A priority Critical patent/CN106528630B/zh
Publication of CN106528630A publication Critical patent/CN106528630A/zh
Application granted granted Critical
Publication of CN106528630B publication Critical patent/CN106528630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种对本地数据进行术语匹配的方法,其特征是其中,所述建索引的步骤如下:读取数据源,获取字符串数据,所述字符串数据包括源字符串数据和目标字符串数据;根据源字符串数据和目标字符串数据生成双数组字典树;用于生成字符串数据的索引;其中,所述用索引进行术语查询匹配的步骤如下:从双数组字典树中查询需要的字符串,得出字符串在双数组字典树里的位置值,根据位置值计算字符串在内存缓存系统里的ID,根据ID从内存缓存系统里查询字符串数据,获取查询匹配结果。既可以满足术语匹配的多种查询需求,又提高了整体匹配的性能。

Description

一种对本地数据进行术语匹配的方法
技术领域
本发明属于计算机通信领域,尤其涉及一种对本地数据进行术语匹配的方法。
背景技术
当前计算机辅助翻译是提高翻译一致性和效率的重要手段,它要求软件能够不断地记忆最新的术语及语料,并且在后续的翻译流程中能够及时地调出满足相应条件的术语或语料以供选择。随着术语和语料规模的不断扩大,基于传统的关系型数据库或是目前较新的非关系型数据库来直接根据原文或译文检索出完整的翻译信息都是会有明显的效率下降的,当处理比较大的待译稿时,速度自然不能接受。
结合双数组字典树,辅以redis缓存和适当的数据结构设计,我们可以构建出这样一套满足需求的索引及匹配系统。采用双数组字典树对术语建立外围索引,然后用将双数组建立的索引与每条术语记录的ObjectId(相当于数据库关键字字段)相关联并将这种对应关系存放于redis作为二级索引缓存,最终加快查询速度。
发明内容
本发明所要解决的技术问题是针对从本地文件或者从互联网抓取的数据源,目前术语匹配引擎在查词效率上速度偏慢,而改善这一问题的办法就是对术语建一个外围索引,引入双数组字典树可以解决大量术语建索引慢以及查询慢的问题。
为解决上述技术问题,本发明提供了一种对本地数据进行术语匹配的方法,其特征是包括建索引的步骤,及用索引进行术语查询匹配的步骤;
其中,所述建索引的步骤如下:
读取数据源,获取字符串数据,所述字符串数据包括源字符串数据和目标字符串数据;
根据源字符串数据和目标字符串数据生成双数组字典树;
将所述字符串数据插入双数组字典树,返回字符串数据在双数组字典树里的位置值,并通过位置值计算得出字符串数据ID,将字符串数据ID放入内存缓存系统,同时将字符串数据放入内存缓存系统并建立起与ID的对应关系,用于生成字符串数据的索引;
其中,所述用索引进行术语查询匹配的步骤如下:
从双数组字典树中查询需要的字符串,得出字符串在双数组字典树里的位置值,根据位置值计算字符串在内存缓存系统里的ID,根据ID从内存缓存系统里查询字符串数据,获取查询匹配结果。
进一步,所述内存缓存系统是在术语语料所在的数据库之外。
进一步,还包括定时将保存到内存缓存系统中的字符串数据的索引写入硬盘。
进一步,还包括当索引达到数量阈值后将保存到内存缓存系统中的字符串数据的索引写入硬盘。
进一步,所述数据源是本地文件或者从互联网抓取的文件。
进一步,所述索引为双向索引。
采用上述技术方案,可达到以下效果:
1. 用双数组字典树对术语建立外围索引,外围索引即在术语语料所在的数据库之外的内存缓存系统中,加快查询速度;
2. 基于双数组字典树和内存缓存系统来存放外围索引信息,将较长的原文或译文映射为全局唯一且带有快速索引的记录ID字段,从而加速了术语的匹配,同时借助双数组的特性,也具备分词,前缀查询等翻译行业所需的功能;
既可以满足术语匹配的多种查询需求,又提高了整体匹配的性能,对于可以带来较好的用户体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种对本地数据进行术语匹配的方法的流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
为解决上述技术问题,本发明提供了一种一种对本地数据进行术语匹配的方法,如图1所示,
包括建索引的步骤,及用索引进行术语查询匹配的步骤;
其中,所述建索引的步骤如下:
读取数据源,获取字符串数据,所述字符串数据包括源字符串数据和目标字符串数据;
根据源字符串数据和目标字符串数据生成双数组字典树;
将所述字符串数据插入双数组字典树,返回字符串数据在双数组字典树里的位置值,并通过位置值计算得出字符串数据ID,将字符串数据ID放入内存缓存系统,同时将字符串数据放入内存缓存系统并建立起与ID的对应关系,用于生成字符串数据的索引;
其中,所述用索引进行术语查询匹配的步骤如下:
从双数组字典树中查询需要的字符串,得出字符串在双数组字典树里的位置值,根据位置值计算字符串在内存缓存系统里的ID,根据ID从内存缓存系统里查询字符串数据,获取查询匹配结果。
进一步,所述内存缓存系统是在术语语料所在的数据库之外。
进一步,还包括定时将保存到内存缓存系统中的字符串数据的索引写入硬盘。
进一步,还包括当索引达到数量阈值后将保存到内存缓存系统中的字符串数据的索引写入硬盘。
进一步,所述数据源是本地文件或者从互联网抓取的文件。
进一步,所述索引为双向索引。
本领域技术人员还应当理解,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种对本地数据进行术语匹配的方法,其特征是包括建索引的步骤,及用索引进行术语查询匹配的步骤;
其中,所述建索引的步骤如下:
读取数据源,获取字符串数据,所述字符串数据包括源字符串数据和目标字符串数据;
根据源字符串数据和目标字符串数据生成双数组字典树;
将所述字符串数据插入双数组字典树,返回字符串数据在双数组字典树里的位置值,并通过位置值计算得出字符串数据ID,将字符串数据ID放入内存缓存系统,同时将字符串数据放入内存缓存系统并建立起与ID的对应关系,用于生成字符串数据的索引;
其中,所述用索引进行术语查询匹配的步骤如下:
从双数组字典树中查询需要的字符串,得出字符串在双数组字典树里的位置值,根据位置值计算字符串在内存缓存系统里的ID,根据ID从内存缓存系统里查询字符串数据,获取查询匹配结果。
2.根据权利要求1所述的一种对本地数据进行术语匹配的方法,其特征是所述内存缓存系统是在术语语料所在的数据库之外。
3.根据权利要求1所述的一种对本地数据进行术语匹配的方法,其特征是还包括定时将保存到内存缓存系统中的字符串数据的索引写入硬盘。
4.根据权利要求1所述的一种对本地数据进行术语匹配的方法,其特征是还包括当索引达到数量阈值后将保存到内存缓存系统中的字符串数据的索引写入硬盘。
5.根据权利要求1所述的一种对本地数据进行术语匹配的方法,其特征是所述数据源是本地文件或者从互联网抓取的文件。
6.根据权利要求1所述的一种对本地数据进行术语匹配的方法,其特征是所述索引为双向索引。
CN201610881689.2A 2016-10-10 2016-10-10 一种对本地数据进行术语匹配的方法 Active CN106528630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610881689.2A CN106528630B (zh) 2016-10-10 2016-10-10 一种对本地数据进行术语匹配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610881689.2A CN106528630B (zh) 2016-10-10 2016-10-10 一种对本地数据进行术语匹配的方法

Publications (2)

Publication Number Publication Date
CN106528630A CN106528630A (zh) 2017-03-22
CN106528630B true CN106528630B (zh) 2019-09-10

Family

ID=58331260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610881689.2A Active CN106528630B (zh) 2016-10-10 2016-10-10 一种对本地数据进行术语匹配的方法

Country Status (1)

Country Link
CN (1) CN106528630B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183369A (zh) * 2007-12-11 2008-05-21 中山大学 一种嵌入式电子词典词库结构
CN101398830A (zh) * 2007-09-27 2009-04-01 阿里巴巴集团控股有限公司 词库模糊查询方法及词库模糊查询系统
CN102193914A (zh) * 2011-05-26 2011-09-21 中国科学院计算技术研究所 计算机辅助翻译的方法及系统
CN103577394A (zh) * 2012-07-31 2014-02-12 阿里巴巴集团控股有限公司 一种基于双数组搜索树的机器翻译方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10742577B2 (en) * 2013-03-15 2020-08-11 Disney Enterprises, Inc. Real-time search and validation of phrases using linguistic phrase components

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398830A (zh) * 2007-09-27 2009-04-01 阿里巴巴集团控股有限公司 词库模糊查询方法及词库模糊查询系统
CN101183369A (zh) * 2007-12-11 2008-05-21 中山大学 一种嵌入式电子词典词库结构
CN102193914A (zh) * 2011-05-26 2011-09-21 中国科学院计算技术研究所 计算机辅助翻译的方法及系统
CN103577394A (zh) * 2012-07-31 2014-02-12 阿里巴巴集团控股有限公司 一种基于双数组搜索树的机器翻译方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
双数组Trie树Java实现;hankcs;《www.hankcs.com/program/java/双数组trie树doublearrattriejava实现.html》;20140318;1-12

Also Published As

Publication number Publication date
CN106528630A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN100423005C (zh) 索引实体的方法和系统
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
US9129010B2 (en) System and method of partitioned lexicographic search
CN106649286B (zh) 一种基于双数组字典树进行术语匹配的方法
CN100498782C (zh) 一种在全文检索系统中快速更新数据域的方法
CN102289467A (zh) 确定目标网点的方法和装置
CN106484684B (zh) 一种对数据库中的数据进行术语匹配的方法
CN102737133B (zh) 一种实时搜索的方法
CN102567329A (zh) 一种数据查询方法及系统
CN103955538A (zh) HBase数据持久和查询方法及HBase系统
CN106407360A (zh) 一种数据的处理方法及装置
CN104714974A (zh) 一种查询语句解析与再处理的方法和装置
CN105404677A (zh) 一种基于树形结构的检索方法
CN105138649A (zh) 数据的搜索方法、装置及终端
CN101963993B (zh) 一种数据库单表记录快速查找的方法
CN106528630B (zh) 一种对本地数据进行术语匹配的方法
CN104462588A (zh) 一种基于云数据库的知识产权检索系统
Hovy et al. Data Acquisition and Integration in the DGRC's Energy Data Collection Project
CN105426490A (zh) 一种基于树形结构的索引方法
CN107273483B (zh) 稀疏数据的访问方法及系统
CN110134661A (zh) 一种面向刻面的学术大数据存储查询方法
CN105224596A (zh) 一种访问数据的方法及装置
CN110851517A (zh) 一种源数据抽取方法、装置、设备及计算机存储介质
Kharade et al. Selection of small index to reduce the number of pages for improving efficiency
Medhi Visualization of graph models for web document in neo4j

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant