CN106844303A - 一种基于相似度匹配算法为待译稿件匹配译员的方法 - Google Patents

一种基于相似度匹配算法为待译稿件匹配译员的方法 Download PDF

Info

Publication number
CN106844303A
CN106844303A CN201611207417.0A CN201611207417A CN106844303A CN 106844303 A CN106844303 A CN 106844303A CN 201611207417 A CN201611207417 A CN 201611207417A CN 106844303 A CN106844303 A CN 106844303A
Authority
CN
China
Prior art keywords
manuscript
translation
existing
treat
interpreter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611207417.0A
Other languages
English (en)
Inventor
宋安琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201611207417.0A priority Critical patent/CN106844303A/zh
Publication of CN106844303A publication Critical patent/CN106844303A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是包括以下步骤:(1)对已有译稿进行预处理;所述已有译稿均记录着完稿译员的信息;(2)对待译稿件进行预处理;(3)将预处理后的已有译稿和预处理后的待译稿件根据公式(一)进行文档相似度匹配,获得候选译稿,(4)获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息。可达到以下效果:通过译稿匹配译员,代替人工指派译员,降低人工劳动强度,提高匹配准确率;通过对对已有译稿和待译稿进行预处理提高了匹配基础,通过高效的相似度匹配算法提高了匹配效率和质量。

Description

一种基于相似度匹配算法为待译稿件匹配译员的方法
技术领域
本发明属于自然语言处理、信息检索,尤其涉及一种基于相似度匹配算法为待译稿件匹配译员的方法。
背景技术
在大体量的翻译公司或者翻译平台上,不得不面对的一个问题是如何为待译稿件匹配译员,常见的做法是人工判别和机器判别,人工判别是通过语言专家或翻译专家分别对翻译文档和译员进行分析和判断,由于人的阅读和理解限制,这种方法速度较慢同时要耗费非常大的的人力成本,并且由于判别人能力的参差以及每人对文档难度的理解不同而产生很大的判别差别,判别结果无法做到统一标准,客观性很差;机器判别的方法包括一种方法:根据译稿匹配译员,实际是通过译稿匹配译稿库中已有译稿,进而确定译员。
文档相似度匹配可以通过搜索引擎实现,Lucene是一套用于全文检索和搜索的开源程序库,为互联网时代搜索引擎是常见的信息检索工具。
通常一个文档集合里会有很多文档包含某个单词,每个文档会记录文档编号,单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息,这样与一个文档相关的信息叫做倒排索引项,包含这个单词的一系列倒排索引项构成了这个单词对应的倒排索引表,成万上亿个单词的倒排索引表构成了倒排索引。
目前,对利用文档处理及匹配提高匹配译员的效率尚有许多提高空间。
发明内容
本发明所要解决的技术问题是通过对已有译稿和待译稿进行预处理,基于高效的相似度匹配算法对预处理后的已有译稿和预处理后的待译稿进行相似度匹配,从而高效准确地匹配到合适的译员。
为解决上述技术问题,本发明提供了一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是包括以下步骤:
(1)对已有译稿进行预处理,所述已有译稿均记录着完稿译员的信息,所述预处理包括分词;
(2)对待译稿件进行预处理,所述预处理包括分词;
(3)将预处理后的已有译稿与预处理后的待译稿件进行文档相似度匹配,获得候选译稿;
(4)获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息;
所述将预处理后的已有译稿与预处理后的待译稿件进行文档相似度匹配的步骤是根据公式(一)计算文档相似度,所述公式(一)为:
其中,Q表示待译稿件,d表示已有译稿,qi表示预处理后的待译稿件词语,N表示译稿库中的总文档数;
k1, b为调节因子,设置k1=1.2,b=0.75,fi为qi在d中的出现次数,n(qi)为译稿库中包含qi的文档数,dl为已有译稿d的长度,avgdl为译稿库中所有文档的平均长度;
所述公式一的计算因子N,qi,n(qi),dl,avgdl,fi由以下步骤得出;
(a)记录译稿库中的总文档数N,总文档长度adl,根据公式 计算得出平均文档长度avgdl;
(b)根据步骤(2)获取预处理后的待译稿件词语qi,获取已有译稿d的长度dl,获取qi在已有译稿d中的出现次数 fi,计算译稿库中包含qi的文档数n(qi) 。
进一步,所述公式(一)是由公式集合(二)转换而来,
所述公式集合(二)为:
其中, Wi表示qi的权重;R(qi,d)表示qi与已有译稿d的相关性得分,
k1,k2,b为调节因子,设k2=0 ,qfi为qi在待译稿件中的出现频率,Wi表示词语与文档相关性的权重,IDF为逆文档频率。
进一步,所述对待译稿件进行预处理的步骤是:对待译稿件进行分词,形成待译稿件词汇集合,提取待译稿件主题,对待译稿件分词后的待译稿件词汇集合和待译稿件主题进行加权,获得预处理后的待译稿件;
进一步,所述对已有译稿进行预处理的步骤是:(1)对已有译稿分词并建立基于词汇的倒排索引;(2) 对分词后的已有译稿提取主题,建立基于译稿主题的倒排索引;(3)对基于词汇的倒排索引和基于译稿主题的倒排索引进行加权,获得预处理后的已有译稿。
进一步,所述对已有译稿分词后提取主题的方法是:(1)如果有标题,将标题默认为主题;(2)如果没有标题,但有关键词,根据关键词提取译稿主题;(3)如果没有标题,也没有关键词,默认首句为主题句。
进一步,所述对待译稿件进行分词是通过调用Lucene搜索引擎进行分词,所述Lucene搜索引擎包括若干种分词器。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器对译稿库中已有译稿进行分词。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器,所述语种类别包括拉丁语系和东亚语系,所述拉丁语系采用具有词干提取功能的分词器,所述东亚语系采用基于词典和统计的分词器。
采用上述技术方案,可达到以下效果:
通过译稿匹配译员,代替人工指派译员,降低人工劳动强度,提高匹配准确率;
通过对对已有译稿和待译稿进行预处理提高了匹配基础 ;
通过高效的相似度匹配算法提高了匹配效率和质量。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,在附图中:
图1示出了一种基于相似度匹配算法为待译稿件匹配译员的方法的流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
为解决上述技术问题,本发明提供了一种基于相似度匹配算法为待译稿件匹配译员的方法,如图1所示,其特征是包括以下步骤:
为解决上述技术问题,本发明提供了一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是包括以下步骤:
(1)对已有译稿进行预处理,所述已有译稿均记录着完稿译员的信息,所述预处理包括分词;
(2)对待译稿件进行预处理,所述预处理包括分词;
(3)将预处理后的已有译稿与预处理后的待译稿件进行文档相似度匹配,获得候选译稿;
(4)获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息;
所述将预处理后的已有译稿与预处理后的待译稿件进行文档相似度匹配的步骤是根据公式(一)计算文档相似度,所述公式(一)为:
其中,Q表示待译稿件,d表示已有译稿,qi表示预处理后的待译稿件词语,N表示译稿库中的总文档数;
k1, b为调节因子,设置k1=1.2,b=0.75,fi为qi在d中的出现次数,n(qi)为译稿库中包含qi的文档数,dl为已有译稿d的长度,avgdl为译稿库中所有文档的平均长度;
所述公式一的计算因子N,qi,n(qi),dl,avgdl,fi由以下步骤得出;
(a)记录译稿库中的总文档数N,总文档长度adl,根据公式 计算得出平均文档长度avgdl;
(b)根据步骤(2)获取预处理后的待译稿件词语qi,获取已有译稿d的长度dl,获取qi在已有译稿d中的出现次数 fi,计算译稿库中包含qi的文档数n(qi) 。
进一步,所述公式(一)是由公式集合(二)转换而来,
所述公式集合(二)为:
其中, Wi表示qi的权重;R(qi,d)表示qi与已有译稿d的相关性得分,
k1,k2,b为调节因子,设k2=0 ,qfi为qi在待译稿件中的出现频率,Wi表示词语与文档相关性的权重,IDF为逆文档频率。
进一步,所述对待译稿件进行预处理的步骤是:对待译稿件进行分词,形成待译稿件词汇集合,提取待译稿件主题,对待译稿件分词后的待译稿件词汇集合和待译稿件主题进行加权,获得预处理后的待译稿件;
进一步,所述对已有译稿进行预处理的步骤是:(1)对已有译稿分词并建立基于词汇的倒排索引;(2) 对分词后的已有译稿提取主题,建立基于译稿主题的倒排索引;(3)对基于词汇的倒排索引和基于译稿主题的倒排索引进行加权,获得预处理后的已有译稿。
进一步,所述对已有译稿分词后提取主题的方法是:(1)如果有标题,将标题默认为主题;(2)如果没有标题,但有关键词,根据关键词提取译稿主题;(3)如果没有标题,也没有关键词,默认首句为主题句。
进一步,所述对待译稿件进行分词是通过调用Lucene搜索引擎进行分词,所述Lucene搜索引擎包括若干种分词器。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器对译稿库中已有译稿进行分词。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器,所述语种类别包括拉丁语系和东亚语系,所述拉丁语系采用具有词干提取功能的分词器,所述东亚语系采用基于词典和统计的分词器。
本领域技术人员还应当理解,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是包括以下步骤:
(1)对已有译稿进行预处理,所述已有译稿均记录着完稿译员的信息,所述预处理包括分词;
(2) 对待译稿件进行预处理,所述预处理包括分词;
(3) 将预处理后的已有译稿与预处理后的待译稿件进行文档相似度匹配,获得候选译稿;
(4) 获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息;
所述将预处理后的已有译稿与预处理后的待译稿件进行文档相似度匹配的步骤是根据公式(一)计算文档相似度,所述公式(一)为:
其中,Q表示待译稿件,d表示已有译稿,qi表示预处理后的待译稿件词语,N表示译稿库中的总文档数;
k1, b为调节因子,设置k1=1.2,b=0.75,fi为qi在d中的出现次数,n(qi)为译稿库中包含qi的文档数,dl为已有译稿d的长度,avgdl为译稿库中所有文档的平均长度;
所述公式一的计算因子N,qi,n(qi),dl,avgdl,fi由以下步骤得出;
(a)记录译稿库中的总文档数N,总文档长度adl,根据公式 计算得出平均文档长度avgdl;
(b)根据步骤(2)获取预处理后的待译稿件词语qi,获取已有译稿d的长度dl,获取qi在已有译稿d中的出现次数 fi,计算译稿库中包含qi的文档数n(qi) 。
2.根据权利要求1所述的一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是所述公式(一)是由公式集合(二)转换而来,
所述公式集合(二)为:
其中, Wi表示qi的权重;R(qi,d)表示qi与已有译稿d的相关性得分,
k1,k2,b为调节因子,设k2=0 ,qfi为qi在待译稿件中的出现频率,Wi表示词语与文档相关性的权重,IDF为逆文档频率。
3.根据权利要求1所述的一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是所述对待译稿件进行预处理的步骤是:对待译稿件进行分词,形成待译稿件词汇集合,提取待译稿件主题,对待译稿件分词后的待译稿件词汇集合和待译稿件主题进行加权,获得预处理后的待译稿件。
4.根据权利要求1所述的一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是所述对已有译稿进行预处理的步骤是:(1)对已有译稿分词并建立基于词汇的倒排索引;(2)对分词后的已有译稿提取主题,建立基于译稿主题的倒排索引;(3)对基于词汇的倒排索引和基于译稿主题的倒排索引进行加权,获得预处理后的已有译稿。
5.根据权利要求4所述的一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是所述对已有译稿分词后提取主题的方法是:(1)如果有标题,将标题默认为主题;(2)如果没有标题,但有关键词,根据关键词提取译稿主题;(3)如果没有标题,也没有关键词,默认首句为主题句。
6.根据权利要求1所述的一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是所述对待译稿件进行分词是通过调用Lucene搜索引擎进行分词,所述Lucene搜索引擎包括若干种分词器。
7.根据权利要求6所述的一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是所述Lucene搜索引擎根据语种类别采用相匹配的分词器对译稿库中已有译稿进行分词。
8.根据权利要求7所述的一种基于相似度匹配算法为待译稿件匹配译员的方法,其特征是所述Lucene搜索引擎根据语种类别采用相匹配的分词器,所述语种类别包括拉丁语系和东亚语系,所述拉丁语系采用具有词干提取功能的分词器,所述东亚语系采用基于词典和统计的分词器。
CN201611207417.0A 2016-12-23 2016-12-23 一种基于相似度匹配算法为待译稿件匹配译员的方法 Pending CN106844303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611207417.0A CN106844303A (zh) 2016-12-23 2016-12-23 一种基于相似度匹配算法为待译稿件匹配译员的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611207417.0A CN106844303A (zh) 2016-12-23 2016-12-23 一种基于相似度匹配算法为待译稿件匹配译员的方法

Publications (1)

Publication Number Publication Date
CN106844303A true CN106844303A (zh) 2017-06-13

Family

ID=59136861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611207417.0A Pending CN106844303A (zh) 2016-12-23 2016-12-23 一种基于相似度匹配算法为待译稿件匹配译员的方法

Country Status (1)

Country Link
CN (1) CN106844303A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299737A (zh) * 2018-09-19 2019-02-01 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109508463A (zh) * 2018-11-21 2019-03-22 传神语联网网络科技股份有限公司 翻译工程的精细化处理
CN109636199A (zh) * 2018-12-14 2019-04-16 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及系统
CN112598231A (zh) * 2020-12-11 2021-04-02 四川语言桥信息技术有限公司 稿件分配方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及系统
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彭京 等: "一种基于语义内积空间模型的文本聚类算法", 《计算机学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299737A (zh) * 2018-09-19 2019-02-01 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109299737B (zh) * 2018-09-19 2021-10-26 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109508463A (zh) * 2018-11-21 2019-03-22 传神语联网网络科技股份有限公司 翻译工程的精细化处理
CN109508463B (zh) * 2018-11-21 2023-06-20 传神语联网网络科技股份有限公司 翻译工程的精细化处理方法、系统和可读存储介质
CN109636199A (zh) * 2018-12-14 2019-04-16 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及系统
CN112598231A (zh) * 2020-12-11 2021-04-02 四川语言桥信息技术有限公司 稿件分配方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN110543639B (zh) 一种基于预训练Transformer语言模型的英文句子简化算法
Ma Champollion: A Robust Parallel Text Sentence Aligner.
Mubarak et al. Using Twitter to collect a multi-dialectal corpus of Arabic
Elhadad et al. Sentence alignment for monolingual comparable corpora
Baroni et al. Unsupervised discovery of morphologically related words based on orthographic and semantic similarity
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN105022725A (zh) 一种应用于金融Web领域的文本情感倾向分析方法
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN106844303A (zh) 一种基于相似度匹配算法为待译稿件匹配译员的方法
CN109522547B (zh) 基于模式学习的中文同义词迭代抽取方法
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
Nguyen-Son et al. Identifying computer-generated text using statistical analysis
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
Ibrahim et al. Sentiment analysis of Arabic tweets: With special reference restaurant tweets
Bernstein et al. Comparative rates of text reuse in classical Latin hexameter poetry.
CN106484672A (zh) 词汇识别方法和词汇识别系统
CN106802881A (zh) 一种基于停用词表为待译稿件匹配译员的方法
Hakkani-Tur et al. Statistical sentence extraction for information distillation
CN106844304A (zh) 一种基于译稿分类为待译稿件匹配译员的方法
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
Fujita et al. Expanding paraphrase lexicons by exploiting lexical variants
CN106776563A (zh) 一种为待译稿件匹配译员的方法
Thakker et al. Acronym disambiguation: A domain independent approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613