CN106802881A - 一种基于停用词表为待译稿件匹配译员的方法 - Google Patents

一种基于停用词表为待译稿件匹配译员的方法 Download PDF

Info

Publication number
CN106802881A
CN106802881A CN201611212365.6A CN201611212365A CN106802881A CN 106802881 A CN106802881 A CN 106802881A CN 201611212365 A CN201611212365 A CN 201611212365A CN 106802881 A CN106802881 A CN 106802881A
Authority
CN
China
Prior art keywords
manuscript
translation
existing
treat
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611212365.6A
Other languages
English (en)
Inventor
宋安琪
张芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201611212365.6A priority Critical patent/CN106802881A/zh
Publication of CN106802881A publication Critical patent/CN106802881A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于停用词表为待译稿件匹配译员的方法,其特征是包括以下步骤:(1)建立停用词表;(2)对已有译稿进行预处理,所述已有译稿均记录着完稿译员的信息,所述预处理包括分词;(3)对已有译稿进行预处理,所述已有译稿均记录着完稿译员的信息,所述预处理包括分词;(4) 将预处理后的已有译稿与待译稿进行文档相似度匹配,获得候选译稿;(5)获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息。可达到以下效果:通过译稿匹配译员,代替人工指派译员,降低人工劳动强度,提高匹配准确率;通过计算高频通用词补充停用词表提高匹配准确率。

Description

一种基于停用词表为待译稿件匹配译员的方法
技术领域
本发明属于自然语言处理、信息检索,尤其涉及一种基于停用词表为待译稿件匹配译员的方法。
背景技术
在大体量的翻译公司或者翻译平台上,不得不面对的一个问题是如何为待译稿件匹配译员,常见的做法是人工判别和机器判别,人工判别是通过语言专家或翻译专家分别对翻译文档和译员进行分析和判断,由于人的阅读和理解限制,这种方法速度较慢同时要耗费非常大的的人力成本,并且由于判别人能力的参差以及每人对文档难度的理解不同而产生很大的判别差别,判别结果无法做到统一标准,客观性很差。机器判别的方法包括一种方法:根据译稿匹配译员,实际是通过译稿匹配译稿库中已有译稿,进而确定译员。
文档相似度匹配可以通过搜索引擎实现,Lucene是一套用于全文检索和搜索的开源程序库,为互联网时代搜索引擎是常见的信息检索工具。
通常一个文档集合里会有很多文档包含某个单词,每个文档会记录文档编号,单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息,这样与一个文档相关的信息叫做倒排索引项,包含这个单词的一系列倒排索引项构成了这个单词对应的倒排索引表,成万上亿个单词的倒排索引表构成了倒排索引。
目前,对利用文档处理及匹配提高匹配译员的效率尚有许多提高空间。
发明内容
本发明所要解决的技术问题是通过对已有译稿和待译稿进行预处理,基于高效的相似度匹配算法对预处理后的已有译稿和待译稿进行相似度匹配,从而高效准确地匹配到合适的译员。
为解决上述技术问题,本发明提供了一种基于停用词表为待译稿件匹配译员的方法,其特征是包括以下步骤:
(1)建立停用词表
所述建立停用词表的步骤是通过译稿库计算得到高频通用词,通过高频通用词和常见停用词建立停用词表;
(2)对已有译稿进行预处理,所述已有译稿记录着完稿译员的信息,所述预处理包括分词;
(3)对待译稿进行预处理,所述预处理包括分词;
(4)将预处理后的已有译稿与预处理后的待译稿进行文档相似度匹配,获得候选译稿;
(5)获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息。
进一步,所述建立停用词表的步骤是:(1) 收集若干类文档作为训练样本;(2) 对译稿分类器进行训练;(3)对译稿库中已有译稿进行分类;(4)通过译稿库计算得到高频通用词;(5)通过高频通用词和常见停用词建立停用词表。
进一步,所述对待译稿进行预处理的步骤是:(1)对待译稿进行分词;(2)提取待译稿主题;(3)对待译稿分词后的待译稿内容和待译稿主题进行加权,获得预处理后的待译稿。
进一步,所述对已有译稿进行预处理的步骤是:(1)对已有译稿分词并建立基于词汇的倒排索引;(2)对分词后的已有译稿提取主题,建立基于译稿主题的倒排索引;(3)对基于词汇的倒排索引和基于译稿主题的倒排索引进行加权,获得预处理后的已有译稿。
进一步,所述对分词后的已有译稿提取主题的方法是:(1)如果有标题,将标题默认为主题;(2)如果没有标题,但有关键词,根据关键词提取译稿主题;(3)如果没有标题,也没有关键词,默认首句为主题句。
进一步,所述对待译稿进行分词是通过调用Lucene搜索引擎进行分词,所述Lucene搜索引擎包括若干种分词器。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器对译稿库中已有译稿进行分词。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器,所述语种类别包括拉丁语系和东亚语系,所述拉丁语系采用具有词干提取功能的分词器,所述东亚语系采用基于词典和统计的分词器。
进一步,所述将预处理后的已有译稿与待译稿件进行文档相似度匹配的步骤是根据公式(一)计算文档相似度,所述公式(一)为:
其中,Q表示待译稿件,d表示已有译稿,qi表示预处理后的待译稿件词语,N表示译稿库中的总文档数;
k1, b为调节因子,设置k1=1.2,b=0.75,fi为qi在d中的出现次数,n(qi)为译稿库中包含qi的文档数,dl为已有译稿d的长度,avgdl为译稿库中所有文档的平均长度;
所述公式一的计算因子N,qi,n(qi),dl,avgdl,fi由以下步骤得出;
(a)记录译稿库中的总文档数N,总文档长度adl,根据公式 计算得出平均文档长度avgdl;
(b)根据步骤(2)获取预处理后的待译稿件词语qi,获取已有译稿d的长度dl,获取qi在已有译稿d中的出现次数 fi,计算译稿库中包含qi的文档数n(qi) 。
进一步,所述公式(一)是由公式集合(二)转换而来,
所述公式集合(二)为:
其中, Wi表示qi的权重;R(qi,d)表示qi与已有译稿d的相关性得分,
k1,k2,b为调节因子,设k2=0 ,qfi为qi在待译稿件中的出现频率,Wi表示词语与文档相关性的权重,IDF为逆文档频率。
采用上述技术方案,可达到以下效果:
通过译稿匹配译员,代替人工指派译员,降低人工劳动强度,提高匹配准确率;
通过对对已有译稿和待译稿进行预处理提高了匹配基础 ;
通过高效的相似度匹配算法提高了匹配效率和质量;
通过计算高频通用词补充停用词表提高匹配准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,在附图中:
图1示出了一种基于停用词表为待译稿件匹配译员的方法的流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
为解决上述技术问题,本发明提供了一种基于停用词表为待译稿件匹配译员的方法,如图1所示,其特征是包括以下步骤:
(1)建立停用词表
所述建立停用词表的步骤是通过译稿库计算得到高频通用词,通过高频通用词和常见停用词建立停用词表;
(2)对已有译稿进行预处理,所述已有译稿均记录着完稿译员的信息,所述预处理包括分词;
(3)对待译稿进行预处理,所述预处理包括分词;
(4)将预处理后的已有译稿与预处理后的待译稿进行文档相似度匹配,获得候选译稿;
(5)获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息。
进一步,所述建立停用词表的步骤是: (1) 收集若干类文档作为训练样本;(2)对译稿分类器进行训练;(3)对译稿库中已有译稿进行分类;(4)通过译稿库计算得到高频通用词;(5)通过高频通用词和常见停用词建立停用词表。
进一步,所述对待译稿进行预处理的步骤是:(1)对待译稿进行分词;(2)提取待译稿主题;(3)对待译稿分词后的待译稿内容和待译稿主题进行加权,获得预处理后的待译稿。
进一步,所述对已有译稿进行预处理的步骤是:(1)对已有译稿分词并建立基于词汇的倒排索引;(2)对分词后的已有译稿提取主题,建立基于译稿主题的倒排索引;(3)对基于词汇的倒排索引和基于译稿主题的倒排索引进行加权,获得预处理后的已有译稿。
进一步,所述对分词后的已有译稿提取主题的方法是:(1)如果有标题,将标题默认为主题;(2)如果没有标题,但有关键词,根据关键词提取译稿主题;(3)如果没有标题,也没有关键词,默认首句为主题句。
进一步,所述对待译稿进行分词是通过调用Lucene搜索引擎进行分词,所述Lucene搜索引擎包括若干种分词器。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器对译稿库中已有译稿进行分词。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器,所述语种类别包括拉丁语系和东亚语系,所述拉丁语系采用具有词干提取功能的分词器,所述东亚语系采用基于词典和统计的分词器。
进一步,所述将预处理后的已有译稿与待译稿件进行文档相似度匹配的步骤是根据公式(一)计算文档相似度,所述公式(一)为:
其中,Q表示待译稿件,d表示已有译稿,qi表示预处理后的待译稿件词语,N表示译稿库中的总文档数;
k1, b为调节因子,设置k1=1.2,b=0.75,fi为qi在d中的出现次数,n(qi)为译稿库中包含qi的文档数,dl为已有译稿d的长度,avgdl为译稿库中所有文档的平均长度;
所述公式一的计算因子N,qi,n(qi),dl,avgdl,fi由以下步骤得出;
(a)记录译稿库中的总文档数N,总文档长度adl,根据公式 计算得出平均文档长度avgdl;
(b)根据步骤(2)获取预处理后的待译稿件词语qi,获取已有译稿d的长度dl,获取qi在已有译稿d中的出现次数 fi,计算译稿库中包含qi的文档数n(qi) 。
进一步,所述公式(一)是由公式集合(二)转换而来,
所述公式集合(二)为:
其中, Wi表示qi的权重;R(qi,d)表示qi与已有译稿d的相关性得分,
k1,k2,b为调节因子,设k2=0 ,qfi为qi在待译稿件中的出现频率,Wi表示词语与文档相关性的权重,IDF为逆文档频率。
本领域技术人员还应当理解,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于停用词表为待译稿件匹配译员的方法;其特征是包括以下步骤:
(1)建立停用词表
所述建立停用词表的步骤是通过译稿库计算得到高频通用词,通过高频通用词和常见停用词建立停用词表;
(2) 对已有译稿进行预处理,所述已有译稿记录着完稿译员的信息,所述预处理包括分词;
(3) 对待译稿进行预处理,所述预处理包括分词;
(4) 将预处理后的已有译稿与预处理后的待译稿进行文档相似度匹配,获得候选译稿;
获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息。
2.根据权利要求1所述的一种基于停用词表为待译稿件匹配译员的方法,其特征是所述建立停用词表的步骤是:(1) 收集若干类文档作为训练样本;(2) 对译稿分类器进行训练;(3)对译稿库中已有译稿进行分类;(4)通过译稿库计算得到高频通用词;(5)通过高频通用词和常见停用词建立停用词表。
3.根据权利要求1所述的一种基于停用词表为待译稿件匹配译员的方法,其特征是所述对待译稿进行预处理的步骤是:(1)对待译稿进行分词;(2)提取待译稿主题,(3)对待译稿分词后的待译稿内容和待译稿主题进行加权,获得预处理后的待译稿。
4.根据权利要求1所述的一种基于停用词表为待译稿件匹配译员的方法,其特征是所述对已有译稿进行预处理的步骤是:(1)对已有译稿分词并建立基于词汇的倒排索引;(2)对分词后的已有译稿提取主题,建立基于译稿主题的倒排索引;(3)对基于词汇的倒排索引和基于译稿主题的倒排索引进行加权,获得预处理后的已有译稿。
5.根据权利要求4所述的一种基于停用词表为待译稿件匹配译员的方法,其特征是所述对分词后的已有译稿提取主题的方法是:(1)如果有标题,将标题默认为主题;(2)如果没有标题,但有关键词,根据关键词提取译稿主题;(3)如果没有标题,也没有关键词,默认首句为主题句。
6.根据权利要求1所述的一种基于停用词表为待译稿件匹配译员的方法,其特征是所述对待译稿进行分词是通过调用Lucene搜索引擎进行分词,所述Lucene搜索引擎包括若干种分词器。
7.根据权利要求6所述的一种基于停用词表为待译稿件匹配译员的方法,其特征是所述Lucene搜索引擎根据语种类别采用相匹配的分词器对译稿库中已有译稿进行分词。
8.根据权利要求7所述的一种基于停用词表为待译稿件匹配译员的方法,其特征是所述Lucene搜索引擎根据语种类别采用相匹配的分词器,所述语种类别包括拉丁语系和东亚语系,所述拉丁语系采用具有词干提取功能的分词器,所述东亚语系采用基于词典和统计的分词器。
9.根据权利要求1所述的一种基于停用词表为待译稿件匹配译员的方法,其特征是所述将预处理后的已有译稿与预处理后的待译稿件进行文档相似度匹配的步骤是根据公式(一)计算文档相似度,所述公式(一)为:
其中,Q表示待译稿件,d表示已有译稿,qi表示预处理后的待译稿件词语,N表示译稿库中的总文档数;
k1, b为调节因子,设置k1=1.2,b=0.75,fi为qi在d中的出现次数,n(qi)为译稿库中包含qi的文档数,dl为已有译稿d的长度,avgdl为译稿库中所有文档的平均长度;
所述公式一的计算因子N,qi,n(qi),dl,avgdl,fi由以下步骤得出;
(a)记录译稿库中的总文档数N,总文档长度adl,根据公式计算得出平均文档长度avgdl;
(b)根据步骤(2)获取预处理后的待译稿件词语qi,获取已有译稿d的长度dl,获取qi在已有译稿d中的出现次数 fi,计算译稿库中包含qi的文档数n(qi) 。
10.根据权利要求9所述的一种基于停用词表为待译稿件匹配译员的方法,其特征是所述公式(一)是由公式集合(二)转换而来,
所述公式集合(二)为:
其中, Wi表示qi的权重;R(qi,d)表示qi与已有译稿d的相关性得分,
k1,k2,b为调节因子,设k2=0 ,qfi为qi在待译稿件中的出现频率,Wi表示词语与文档相关性的权重,IDF为逆文档频率。
CN201611212365.6A 2016-12-25 2016-12-25 一种基于停用词表为待译稿件匹配译员的方法 Pending CN106802881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611212365.6A CN106802881A (zh) 2016-12-25 2016-12-25 一种基于停用词表为待译稿件匹配译员的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611212365.6A CN106802881A (zh) 2016-12-25 2016-12-25 一种基于停用词表为待译稿件匹配译员的方法

Publications (1)

Publication Number Publication Date
CN106802881A true CN106802881A (zh) 2017-06-06

Family

ID=58985396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611212365.6A Pending CN106802881A (zh) 2016-12-25 2016-12-25 一种基于停用词表为待译稿件匹配译员的方法

Country Status (1)

Country Link
CN (1) CN106802881A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382265A (zh) * 2018-12-28 2020-07-07 中国移动通信集团贵州有限公司 搜索方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及系统
CN105138521A (zh) * 2015-08-27 2015-12-09 武汉传神信息技术有限公司 一种翻译行业风险项目通用推荐译员方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及系统
CN105138521A (zh) * 2015-08-27 2015-12-09 武汉传神信息技术有限公司 一种翻译行业风险项目通用推荐译员方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382265A (zh) * 2018-12-28 2020-07-07 中国移动通信集团贵州有限公司 搜索方法、装置、设备和介质
CN111382265B (zh) * 2018-12-28 2023-09-19 中国移动通信集团贵州有限公司 搜索方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
Paetzold et al. A survey on lexical simplification
Ma Champollion: A Robust Parallel Text Sentence Aligner.
Mubarak et al. Using Twitter to collect a multi-dialectal corpus of Arabic
CN105022725B (zh) 一种应用于金融Web领域的文本情感倾向分析方法
CN108959258B (zh) 一种基于表示学习的特定领域集成实体链接方法
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN109522547B (zh) 基于模式学习的中文同义词迭代抽取方法
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN106844303A (zh) 一种基于相似度匹配算法为待译稿件匹配译员的方法
Al-Kabi et al. Evaluating social context in arabic opinion mining.
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
Nguyen-Son et al. Identifying computer-generated text using statistical analysis
Hidayat et al. Effect of Stemming Nazief & Adriani on the Ratcliff/Obershelp algorithm in identifying level of similarity between slang and formal words
Pickard Comparing word2vec and GloVe for automatic measurement of MWE compositionality
CN106802881A (zh) 一种基于停用词表为待译稿件匹配译员的方法
Hakkani-Tur et al. Statistical sentence extraction for information distillation
CN106844304A (zh) 一种基于译稿分类为待译稿件匹配译员的方法
Prnjak et al. CLEF 2023 JOKER task 1, 2, 3: pun detection, pun interpretation, and pun translation
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
Fujita et al. Expanding paraphrase lexicons by exploiting lexical variants
Friðriksdóttir et al. Building an Icelandic Entity Linking Corpus
Medveď et al. English-french document alignment based on keywords and statistical translation
CN106776563A (zh) 一种为待译稿件匹配译员的方法
Thakker et al. Acronym disambiguation: A domain independent approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170606

RJ01 Rejection of invention patent application after publication