CN105279147A - 一种译员稿件快速匹配方法 - Google Patents

一种译员稿件快速匹配方法 Download PDF

Info

Publication number
CN105279147A
CN105279147A CN201510631426.1A CN201510631426A CN105279147A CN 105279147 A CN105279147 A CN 105279147A CN 201510631426 A CN201510631426 A CN 201510631426A CN 105279147 A CN105279147 A CN 105279147A
Authority
CN
China
Prior art keywords
word
term
contribution
interpreter
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510631426.1A
Other languages
English (en)
Other versions
CN105279147B (zh
Inventor
江潮
张芃
蔺伟
陈钰清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510631426.1A priority Critical patent/CN105279147B/zh
Publication of CN105279147A publication Critical patent/CN105279147A/zh
Application granted granted Critical
Publication of CN105279147B publication Critical patent/CN105279147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种译员稿件快速匹配方法,涉及互联网翻译行业项目智能处理技术领域,包括:拆分待翻译稿件,通过术语提取方法从待翻译稿件中提取术语组成稿件特征库;提取译员专业属性特征,通过术语提取方法从译员稿件库中提取术语组成译员专业特征库;通过对稿件特征库及译员专业特征库进行相似性分析来进行匹配,获得最接近的译员特征库。解决了现有技术为待翻译稿件筛选合适的译员的匹配过程较繁琐,不能快速筛选出合适译员的技术问题。

Description

一种译员稿件快速匹配方法
技术领域
本发明涉及互联网翻译行业项目智能处理技术领域,特别是涉及一种译员稿件快速匹配方法。
背景技术
随着互联网的兴起,翻译服务业正向着大规模产业化的方向发展,平台化处理翻译项目成为主流处理方式。但平台处理必须考虑的问题是如何给译员推荐一个比较合适的项目。通知我们会根据译员的语种,行业,稿件类型三大维度来匹配译员。其中行业和稿件类型只能通过人为的方式凭主观打分,并且由于行业和稿件类型有上千多种,通常不能很客观的评价译员的真实能力。本算法是从译员历史上翻译的稿件出发,通过词汇库的相似性来替代“行业”+“稿件类型”的评估。
发明内容
本发明所要解决的是现有技术在为待翻译稿件筛选合适的译员的匹配过程较繁琐,不能快速筛选出合适译员的技术问题。
为了解决上述问题,本发明公开了一种译员稿件快速匹配方法,包括:
拆分待翻译稿件,通过术语提取方法从待翻译稿件中提取术语组成稿件特征库;
提取译员专业属性特征,通过术语提取方法从译员稿件库中提取术语组成译员专业特征库;
通过对稿件特征库及译员专业特征库进行相似性分析来进行匹配,获得最接近的译员特征库。
进一步,所述术语提取方法包括构建一个词语信息表,步骤如下:
步骤1:确定待翻译稿件或译员历史翻译稿件确定的稿件集合,定义所述稿件集合为:R_doc;
步骤2:对所述稿件集合R_doc中的稿件进行编号,每篇稿件对应一个编号,将所述编号记为:docID;
步骤3:对所述稿件集合R_doc中的稿件进行分词处理,经过过滤处理除去其中无意义词语以及不再做匹配使用的词语,得到所述稿件集合R_doc中所有词语的集合,所述词语的集合记为:R_word,对词语的集合R_word中的每个词语进行编号,记为wordID;
步骤4:计算所述词语的集合R_word中的每个词语在所述稿件集合R_doc中每篇稿件中的出现次数,记为词频tf;
步骤5:计算R_word中每个词语在稿件集合R_doc稿件集合中的每篇文档中的位置信息,即所述词语是所述文档的第几个词语,所述词语的词频tf为所述词语在稿件集合R_doc的每篇稿件的词频数之和。
从而对于稿件集合R_doc中的所有词语,得到了包含稿件文档编号、词频信息、词语位置信息的词语信息表。
进一步,所述方法采用反向匹配的思路进行匹配,即以稿件中的所有词语作为关键词,在术语库中进行匹配,所述匹配过程中采用二分法进行匹配。
进一步,所述匹配过程包括如下步骤:
步骤a:当待翻译稿件与术语库中的某一术语的第一个词语匹配成功,则计算所述术语的词长,将所述词长设为len;
当len=1时,所述词语即为术语,返回所述术语的行业、学科、领域属性信息给所述词语所属的文档;
步骤b:否则根据所述词语在文档中的位置信息,将所述词语的位置后面的len-1个词语相应与所述术语的后len-1个词语进行顺序匹配,若某个词语不匹配则放弃;否则继续,直到len-1个词语都匹配完,并返回所述术语的行业、学科领域信息给所述词语所属的文档。
进一步,所述相似性分析包括:
步骤A:根据得到的待匹配文档的术语词频,计算术语的权重,计算方法如下:
设待翻译稿件共有n个术语,词频为:f1,f2,…,fn,则每个术语的权重为Wi,各术语权重向量为:{w1,w2,…,wn};
每个术语的权重Wi通过如下公式计算得到:
w i = f i Σ i = 1 n f i , ( i = 1 , 2 , ... , n ) ;
步骤B:计算所述待翻译稿件的n个术语在译员的专业特征库中的的数量,分别记为ki,i=1,2,......n,
得到用于表示n个术语的数量的向量{k1,k2,…,kn};
分别计算所述待翻译稿件的n个术语在译员的专业特征库中的数量,假定共有m个译员作为待筛选的译员;
得到m个用于表示每个译员的专业特征库中n个术语的数量的向量:{k11,k12,…,k1n}、{k21,k22,…,k2n}……、{km1,km2,…,kmn};
步骤C:进行相似度计算,相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量的乘积并加权后得到,即分别计算向量{w1,w2,…,wn}与向量{k11,k12,…,k1n}、{k21,k22,…,k2n}、……、{km1,km2,…,kmn}的点积后得到。
进一步,在执行完所述步骤B后,执行所述步骤C之前,还包括:对用于表示n个术语的数量的向量{k1,k2,…,kn}的规范化处理;
在所述步骤C中,相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量规范化处理后的数据的乘积并加权后得到。
进一步,所述规范化处理包括:引入用于评价译员对每个术语的掌握度k′i,i=1,2,……,n;
以及用于计算所述掌握度k′i的临界值v;
当译员翻译某术语的次数ki不大于所述临界值v的一半时候,所述术语的掌握度k′i随着翻译所述术语的次数ki增加而增大;
当译员翻译某术语的次数ki大于所述临界值v的一半时候,所述术语的掌握度k′i不再随着对所述术语的翻译次数ki的增加而大幅增大。
进一步,所述掌握度k′i通过如下公式计算得到:
当译员翻译某术语的次数ki不大于所述临界值v的一半时候,
即当时,k′i=ki
当译员翻译某术语的次数ki大于所述临界值v的一半时候,
即当 k i > [ V 2 ] 时, k i ′ = v / 1 + e - α ( k i - [ v 2 ] ) ;
式中:表示对向下取整;
α为缩小系数,
进一步,在执行完步骤C后,得到相似度Sim,之后通过计算得到匹配度,匹配度=Sim/v。
与现有技术相比,本发明具有以下优点:
本发明提供了一种翻译稿件的匹配的方法,可以依据此方法建立风险项目推荐译员平台,能够方便快捷对接中大型翻译公司在线交付平台,为其风险项目推荐合适译员,极大提高其风险项目处理能力。
附图说明
图1是本发明的优选实施例1的匹配方法的流程示意图;
图2是本发明的优选实施例1中的步骤1的子流程示意图;
图3是本发明的优选实施例1中的步骤3的子流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和实施例作进一步详细的说明。
如图1所示,在本发明的优选实施例中,提供了一种译员稿件快速匹配方法,包括:
S1:拆分待翻译稿件,通过术语提取方法从待翻译稿件中提取术语组成稿件特征库;
S2:提取译员专业属性特征,通过术语提取方法从译员稿件库中提取术语组成译员专业特征库;
S3:通过对稿件特征库及译员专业特征库进行相似性分析来进行匹配,获得最接近的译员特征库。
在优选的实施例1中,步骤S1中包括构建一个词语信息表的过程,步骤如图2所示:
S1.1:确定待翻译稿件或译员历史翻译稿件确定的稿件集合,定义所述稿件集合为:R_doc;
S1.2:对所述稿件集合R_doc中的稿件进行编号,每篇稿件对应一个编号,将所述编号记为:docID;
S1.3:对所述稿件集合R_doc中的稿件进行分词处理,经过过滤处理除去其中无意义词语以及不再做匹配使用的词语,得到所述稿件集合R_doc中所有词语的集合,所述词语的集合记为:R_word,对词语的集合R_word中的每个词语进行编号,记为wordID;
S1.4:计算所述词语的集合R_word中的每个词语在所述稿件集合R_doc中每篇稿件中的出现次数,记为词频tf;
S1.5:计算R_word中每个词语在稿件集合R_doc稿件集合中的每篇文档中的位置信息,即所述词语是所述文档的第几个词语,所述词语的词频tf为所述词语在稿件集合R_doc的每篇稿件的词频数之和。位置信息记为pos。
对于R_word中的每个词语就得到了一个如下表所示的词语信息表结构:
所述方法采用反向匹配的思路进行匹配,即以稿件中的所有词语作为关键词,由于术语库为严格按字典顺序排列的词语集合,在术语库中进行匹配,所述匹配过程与正向匹配方法(将术语库中的术语在稿件中进行匹配)只能采用顺序匹配不同,可以采用二分法进行匹配。所述匹配过程包括如下步骤:
步骤a:当待翻译稿件与术语库中的某一术语的第一个词语匹配成功,则计算所述术语的词长,将所述词长设为len;
当len=1时,所述词语即为术语,返回所述术语的行业、学科、领域属性信息给所述词语所属的文档;
步骤b:否则根据所述词语在文档中的位置信息,将所述词语的位置后面的len-1个词语相应与所述术语的后len-1个词语进行顺序匹配,若某个词语不匹配则放弃;否则继续,直到len-1个词语都匹配完,并返回所述术语的行业、学科领域信息给所述词语所属的文档。
以下逻辑代码表示所述匹配过程的大致流程:
Begin
count=|R_word|;
while(count≠0){
取R_doc中第count个词语在术语库中进行模式匹配;
if(与某术语的第一个词语匹配成功){
计算所述术语的词长len;
if(len=1){
返回所述术语的行业领域等类别信息;
根据所述词语在其词语信息表中的词频信息进行术语数量统计;
}
else{
count2=len-1;
for(i=1,i≠count2,i++){
根据词语信息表,将所述词语在各个文本各个位置后的第i个词语与术语后第i个词语与进行匹配;
if(不匹配)break;
}
对于len-1个词语都匹配成功的,返回所述术语的行业类别信息;
对于len-1个词语都匹配成功的,进行术语数量统计;
}
}
count--;
}
End
如图3所示,在优选的实施例1中,所述相似性分析包括:
S3.1:根据得到的待匹配文档的术语词频,计算术语的权重,计算方法如下:
设待翻译稿件共有n个术语,词频为:f1,f2,…,fn,则每个术语的权重为Wi,各术语权重向量为:{w1,w2,…,wn};
每个术语的权重Wi通过如下公式计算得到:
w i = f i Σ i = 1 n f i , ( i = 1 , 2 , ... , n ) ;
S3.2:计算所述待翻译稿件的n个术语在译员的专业特征库中的的数量,分别记为ki,i=1,2,......n,
得到用于表示n个术语的数量的向量{k1,k2,…,kn};
分别计算所述待翻译稿件的n个术语在译员的专业特征库中的数量,假定共有m个译员作为待筛选的译员;
得到m个用于表示每个译员的专业特征库中n个术语的数量的向量:{k11,k12,…,k1n}、{k21,k22,…,k2n}……、{km1,km2,…,kmn};
S3.3:进行相似度计算,相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量的乘积并加权后得到,即分别计算向量{w1,w2,…,wn}与向量{k11,k12,…,k1n}、{k21,k22,…,k2n}、……、{km1,km2,…,kmn}的点积后得到。
在优选的实施例2中,在执行完S3.2后,执行S3.3之前,还包括:对用于表示n个术语的数量的向量{k1,k2,…,kn}的规范化处理的过程。
在S3.3中,相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量规范化处理后的数据的乘积并加权后得到。
所述规范化处理包括:引入用于评价译员对每个术语的掌握度k′i,i=1,2,……,n;
以及用于计算所述掌握度k′i的临界值v;
临界值v表达的含义为:译员对术语掌握程度的临界值,当译员翻译某术语的次数小于所述值的时候,译员对所述术语的掌握度随着翻译所述术语的次数增加而增大,当达到并超过所述值得时候,表明所述译员对所述术语达到基本掌握的程度,译员对所述术语的掌握程度不再随着对所述术语的翻译次数的增加而大幅增大。
通过引入掌握度和临界值来进行相似性匹配,能够更综合全面的评价译员对于某一术语的熟悉程度,更能综合体现译员对于不同术语的掌握程度,通过临界值的引入,综合考虑了当译员翻译某一术语达到一定次数后就足够熟悉所述术语,后续的继续翻译工作对与翻译所述术语的翻译水平提升并不像刚接触所述术语那样有明显效果,因而对于译员的翻译能力的评价更为准确,同时也能获得更为准确的匹配结果。
当译员翻译某术语的次数ki不大于所述临界值v的一半时候,所述术语的掌握度k′i随着翻译所述术语的次数ki增加而增大;
当译员翻译某术语的次数ki大于所述临界值v的一半时候,所述术语的掌握度k′i不再随着对所述术语的翻译次数ki的增加而大幅增大。
所述掌握度k′i通过如下公式计算得到:
当译员翻译某术语的次数ki不大于所述临界值v的一半时候,
即当时,k′i=ki
当译员翻译某术语的次数ki大于所述临界值v的一半时候,
即当 k i > [ v 2 ] 时, k i ′ = v / 1 + e - α ( k i - [ v 2 ] ) ;
式中:表示对向下取整;
α为缩小系数,v越大,α越小,一般取
在执行完步骤C后,得到相似度Sim,之后通过计算得到匹配度,匹配度=Sim/v。
采用优选的实施例1的匹配方法进行的一次匹配过程如下所示:
下表为稿件的术语表,及两个译员的术语库中对这些术语的词频
术语 稿件术语数 译员1术语数 译员2术语数
Term1 f1=6 k11=8 k21=5
Term2 f2=2 k12=2 k22=0
Term3 f3=10 k13=4 k23=8
Term4 f4=5 k14=13 k24=6
得到:
w 1 = 6 6 + 2 + 10 + 5 = 0.26
w 2 = 2 6 + 2 + 10 + 5 = 0.09
w 3 = 10 6 + 2 + 10 + 5 = 0.43
w 4 = 5 6 + 2 + 10 + 5 = 0.22
译员1和所述稿件的相似度为:
Sim1=w1k11+w1k12+w1k13+w1k14=7.14
译员2和所述稿件的相似度为:
Sim2=w1k21+w1k22+w1k23+w1k24=6.06
采用优选的实施例2的匹配方法进行的一次匹配过程如下所示:
v取值为10,α取值为0.5;
下表为稿件的术语表,及两个译员的术语库中对这些术语的词频
术语 稿件术语数 译员1术语数 译员2术语数
Term1 f1=6 k11=8 k21=5
Term2 f2=2 k12=2 k22=0
Term3 f3=10 k13=4 k23=8
Term4 f4=5 k14=13 k24=6
得到:
w 1 = 6 6 + 2 + 10 + 5 = 0.26
w 2 = 2 6 + 2 + 10 + 5 = 0.09
w 3 = 10 6 + 2 + 10 + 5 = 0.43
w 4 = 5 6 + 2 + 10 + 5 = 0.22
k 11 ′ = 10 1 + e - 0.5 ( 8 - 5 ) = 8.18
k′12=2
k′13=4
k 14 ′ = 10 1 + e - 0.5 ( 13 - 5 ) = 9.82
k′21=5
k′22=0
k 23 ′ = 10 1 + e - 0.5 ( 8 - 5 ) = 8.18
k 24 ′ = 10 1 + e - 0.5 ( 6 - 5 ) = 6.22
译员1和所述稿件的相似度为:
Sim1=w1k′11+w1k′12+w1k′13+w1k′14=6.2
译员2和所述稿件的相似度为:
Sim2=w1k′21+w1k′22+w1k′23+w1k′24=6.19
译员1和待翻译稿件的匹配度为:
(w1k′11+w1k′12+w1k′13+w1k′14)/v=0.62
译员2和待翻译稿件的匹配度为:
(w1k′21+w1k′22+w1k′23+w1k′24)/v=0.619
通过上述技术方案的运用,本发明提供了一种译员稿件快速匹配方法,可以依据此方法建立风险项目推荐译员平台,能够方便快捷对接中大型翻译公司在线交付平台,为其风险项目推荐合适译员,极大提高其风险项目处理能力。能够快速高效的完成一篇待翻译稿件的译员的推荐,为每篇待翻译稿件选取合适的译员进行稿件翻译工作。
以上对本发明实施例所提供的一种译员稿件快速匹配方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明实施例的限制。

Claims (9)

1.一种译员稿件快速匹配方法,其特征在于,包括:
拆分待翻译稿件,通过术语提取方法从待翻译稿件中提取术语组成稿件特征库;
提取译员专业属性特征,通过术语提取方法从译员稿件库中提取术语组成译员专业特征库;
通过对稿件特征库及译员专业特征库进行相似性分析来进行匹配,获得最接近的译员特征库。
2.根据权利要求1中所述的方法,其特征在于,所述术语提取方法包括构建一个词语信息表的过程,步骤如下:
步骤1:确定待翻译稿件或译员历史翻译稿件确定的稿件集合,定义所述稿件集合为:R_doc;
步骤2:对所述稿件集合R_doc中的稿件进行编号,每篇稿件对应一个编号,将所述编号记为:docID;
步骤3:对所述稿件集合R_doc中的稿件进行分词处理,经过过滤处理除去其中无意义词语以及不再做匹配使用的词语,得到所述稿件集合R_doc中所有词语的集合,所述词语的集合记为:R_word,对词语的集合R_word中的每个词语进行编号,记为wordID;
步骤4:计算所述词语的集合R_word中的每个词语在所述稿件集合R_doc中每篇稿件中的出现次数,记为词频tf;
步骤5:计算R_word中每个词语在所述稿件集合R_doc稿件集合中的每篇文档中的位置信息,即所述词语是所述稿件集合R_doc的第几个词语,所述词语的词频tf为所述词语在稿件集合R_doc的每篇稿件的词频数之和。
3.根据权利要求2中所述的方法,其特征在于,采用反向匹配的思路进行匹配,即以稿件中的所有词语R_word作为关键词,在术语库中进行匹配,所述匹配过程采用二分法进行匹配。
4.根据权利要求3中所述的方法,其特征在于,所述匹配过程包括如下步骤:
步骤a:当待翻译稿件与术语库中的某一术语的第一个词语匹配成功,则计算所述术语的词长,将所述词长设为len;
当len=1时,所述词语即为术语,返回所述术语的行业、学科、领域属性信息给所述词语所属的文档;
步骤b:否则根据所述词语在文档中的位置信息,将所述词语的位置后面的len-1个词语相应与所述术语的后len-1个词语进行顺序匹配,若某个词语不匹配则放弃;否则继续,直到len-1个词语都匹配完,并返回所述术语的行业、学科领域信息给所述词语所属的文档。
5.根据权利要求4中所述的方法,其特征在于,所述相似性分析包括:
步骤A:根据得到的待匹配文档的术语词频,计算术语的权重,计算方法如下:
设待翻译稿件共有n个术语,词频为:f1,f2,…,fn,则每个术语的权重为Wi,各术语权重向量为:{w1,w2,…,wn};
每个术语的权重Wi通过如下公式计算得到:
w i = f i Σ i = 1 n f i , ( i = 1 , 2 , ... , n ) ;
步骤B:计算所述待翻译稿件的n个术语在译员的专业特征库中的的数量,分别记为ki,i=1,2,......n,
得到用于表示n个术语的数量的向量{k1,k2,…,kn};
分别计算所述待翻译稿件的n个术语在译员的专业特征库中的数量,假定共有m个译员作为待筛选的译员;
得到m个用于表示每个译员的专业特征库中n个术语的数量的向量:{k11,k12,…,k1n}、{k21,k22,…,k2n}……、{km1,km2,…,kmn};
步骤C:进行相似度计算,相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量的乘积并加权后得到,即分别计算向量{w1,w2,…,wn}与向量{k11,k12,…,k1n}、{k21,k22,…,k2n}、……、{km1,km2,…,kmn}的点积后得到。
6.根据权利要求5中所述的方法,其特征在于,在执行完所述步骤B后,执行所述步骤C之前,还包括:对用于表示n个术语的数量的向量{k1,k2,…,kn}的规范化处理的过程;
在所述步骤C中,相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量规范化处理后的数据的乘积并加权后得到。
7.根据权利要求6中所述的方法,其特征在于,所述规范化处理包括:引入用于评价译员对每个术语的掌握度k′i,i=1,2,……,n;
以及用于计算所述掌握度k′i的临界值v;
当译员翻译某术语的次数ki不大于所述临界值v的一半时候,所述术语的掌握度k′i随着翻译所述术语的次数ki增加而增大;
当译员翻译某术语的次数ki大于所述临界值v的一半时候,所述术语的掌握度k′i不再随着对所述术语的翻译次数ki的增加而大幅增大。
8.根据权利要求7中所述的方法,其特征在于,所述掌握度k′i通过如下公式计算得到:
当译员翻译某术语的次数ki不大于所述临界值v的一半时候,
即当时,k′i=ki
当译员翻译某术语的次数ki大于所述临界值v的一半时候,
即当 k i > [ V 2 ] 时, k i ′ = v / 1 + e - α ( k i - [ V 2 ] ) ;
式中:表示对向下取整;
α为缩小系数,通常取
9.根据权利要求8中所述的方法,其特征在于,在执行完步骤C后,得到相似度Sim,之后通过计算得到匹配度,匹配度=Sim/v。
CN201510631426.1A 2015-09-29 2015-09-29 一种译员稿件快速匹配方法 Active CN105279147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510631426.1A CN105279147B (zh) 2015-09-29 2015-09-29 一种译员稿件快速匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510631426.1A CN105279147B (zh) 2015-09-29 2015-09-29 一种译员稿件快速匹配方法

Publications (2)

Publication Number Publication Date
CN105279147A true CN105279147A (zh) 2016-01-27
CN105279147B CN105279147B (zh) 2018-02-23

Family

ID=55148176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510631426.1A Active CN105279147B (zh) 2015-09-29 2015-09-29 一种译员稿件快速匹配方法

Country Status (1)

Country Link
CN (1) CN105279147B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713899A (zh) * 2017-03-09 2017-05-24 山东师范大学 基于全息成像和语音识别的交互三维立体影像系统及方法
CN109241239A (zh) * 2018-07-26 2019-01-18 四川长虹电器股份有限公司 考察文字排列顺序的文本相似度匹配方法
CN109299737A (zh) * 2018-09-19 2019-02-01 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109636199A (zh) * 2018-12-14 2019-04-16 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及系统
CN110033144A (zh) * 2017-10-31 2019-07-19 语联网(武汉)信息技术有限公司 一种翻译项目风险的动态自适应评估方法及系统
CN112598231A (zh) * 2020-12-11 2021-04-02 四川语言桥信息技术有限公司 稿件分配方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004055691A1 (ja) * 2002-12-18 2004-07-01 Ricoh Company, Ltd. 翻訳支援システムおよびそのプログラム
CN102693309A (zh) * 2011-05-26 2012-09-26 中国科学院计算技术研究所 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103064970A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 优化译员的检索方法
CN103092827A (zh) * 2012-12-31 2013-05-08 武汉传神信息技术有限公司 多策略译员稿件自动匹配的方法
CN104537009A (zh) * 2014-12-17 2015-04-22 语联网(武汉)信息技术有限公司 译员推荐方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004055691A1 (ja) * 2002-12-18 2004-07-01 Ricoh Company, Ltd. 翻訳支援システムおよびそのプログラム
CN102693309A (zh) * 2011-05-26 2012-09-26 中国科学院计算技术研究所 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103064970A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 优化译员的检索方法
CN103092827A (zh) * 2012-12-31 2013-05-08 武汉传神信息技术有限公司 多策略译员稿件自动匹配的方法
CN104537009A (zh) * 2014-12-17 2015-04-22 语联网(武汉)信息技术有限公司 译员推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王惠 等: ""翻译风险识别"", 《CHINESE TRANSLATORS JOURNAL》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713899A (zh) * 2017-03-09 2017-05-24 山东师范大学 基于全息成像和语音识别的交互三维立体影像系统及方法
CN110033144A (zh) * 2017-10-31 2019-07-19 语联网(武汉)信息技术有限公司 一种翻译项目风险的动态自适应评估方法及系统
CN110033144B (zh) * 2017-10-31 2023-05-23 语联网(武汉)信息技术有限公司 一种翻译项目风险的动态自适应评估方法及系统
CN109241239A (zh) * 2018-07-26 2019-01-18 四川长虹电器股份有限公司 考察文字排列顺序的文本相似度匹配方法
CN109299737A (zh) * 2018-09-19 2019-02-01 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
WO2020057003A1 (zh) * 2018-09-19 2020-03-26 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109299737B (zh) * 2018-09-19 2021-10-26 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109636199A (zh) * 2018-12-14 2019-04-16 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及系统
CN112598231A (zh) * 2020-12-11 2021-04-02 四川语言桥信息技术有限公司 稿件分配方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN105279147B (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN105279147A (zh) 一种译员稿件快速匹配方法
Angiani et al. A comparison between preprocessing techniques for sentiment analysis in Twitter.
Kenter et al. Short text similarity with word embeddings
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN103049470B (zh) 基于情感相关度的观点检索方法
CN111460148A (zh) 文本分类方法、装置、终端设备及存储介质
CN106294863A (zh) 一种针对海量文本快速理解的文摘方法
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
Kelemework Automatic Amharic text news classification: Aneural networks approach
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
CN110889282A (zh) 一种基于深度学习的文本情感分析方法
CN109934251A (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
Bhakuni et al. Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
Hicham et al. An efficient approach for improving customer Sentiment Analysis in the Arabic language using an Ensemble machine learning technique
Tang et al. A joint segmentation and classification framework for sentiment analysis
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks
CN110765762B (zh) 一种大数据背景下在线评论文本最佳主题提取系统和方法
Wang et al. YNUWB at SemEval-2019 Task 6: K-max pooling CNN with average meta-embedding for identifying offensive language
pal Singh et al. Naive Bayes classifier for word sense disambiguation of Punjabi language
Medagoda et al. Keywords based temporal sentiment analysis
CN111125329A (zh) 一种文本信息筛选方法、装置及设备
Kulkarni et al. Domain adaptation for named entity recognition in online media with word embeddings

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 Wuhan, Wuhan City, Hubei, Wuhan City, East Lake New Technology Development Zone Software Park, No. 4, No. five building, E City, Optics Valley.

Applicant before: Wuhan Transn Information Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant