CN105335358B - 翻译系统中使用语料等级评价方法 - Google Patents

翻译系统中使用语料等级评价方法 Download PDF

Info

Publication number
CN105335358B
CN105335358B CN201510792859.5A CN201510792859A CN105335358B CN 105335358 B CN105335358 B CN 105335358B CN 201510792859 A CN201510792859 A CN 201510792859A CN 105335358 B CN105335358 B CN 105335358B
Authority
CN
China
Prior art keywords
language material
score
language
supplier
grade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510792859.5A
Other languages
English (en)
Other versions
CN105335358A (zh
Inventor
张马成
王兴强
屈耕
熊易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Ue Information Technology Co ltd
Original Assignee
CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd filed Critical CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510792859.5A priority Critical patent/CN105335358B/zh
Publication of CN105335358A publication Critical patent/CN105335358A/zh
Application granted granted Critical
Publication of CN105335358B publication Critical patent/CN105335358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了翻译系统中使用语料等级评价方法,包括如下步骤:上传需要翻译的语料到翻译系统中;在翻译系统中的已有语料中查找是否有重复的语料,对于已重复的语料则在该语料总得分上加0.1倍语料重复得分,在语料提供者得分上减0.3倍重复得分;在使用语料的过程中,每当有语料被展示一次,在该语料总得分上减0.1倍语料展示得分,该语料被采用一次,则在语料总得分上加上0.8倍语料采用得分且在语料提供者得分上加0.7倍采用得分;基于上述步骤得出等级。本发明通过上述原理,当用户使用语料的情况发生变化时,能够对使用语料排序进行动态调整,不断进行自我优化,实时得出任意时点所对应的语料和语料提供者排序,使用灵活,用户借鉴性强。

Description

翻译系统中使用语料等级评价方法
技术领域
本发明涉及翻译系统领域,具体地,涉及翻译系统中使用语料等级评价方法。
背景技术
翻译软件,将一种语言翻译为另一种语言的软件,分为在线翻译软件和本地翻译软件,无论是我们平时浏览网页还是阅读文献都会或多或少遇到几个难懂的英文词汇,这时我们就不免要翻词典了,且单位、公司、企业对于外文的翻译都有需求,无论是何种语言之间的转换,都关系到其切身利益。
网上的词典工具大概可以分为两种:离线词典,就是可以不用联网,只要下载安装并运行就可以方便取词在线翻译;另外一种是在线翻译词典,它需要我们访问一个网站,而后输入要查找的词汇等。
从上世纪80年代中期开始,基于语料和多引擎机译方法的广泛运用,翻译软件的性能和效率有了明显提高,各式各样的翻译软件如雨后春笋般问世。翻译软件消除了不同文字和语言间的隔阂,堪称高科技造福人类之举,但其译文质量长期以来一直是个问题,离理想目标仍相差甚远,原因在于机器翻译具有一些特殊的困难,制约译文质量的瓶颈所在。
在现有翻译系统中使用语料的排序情况是固定不变的,无法根据使用者后期的使用情况的变化而进行相应的调整,缺乏自我优化能力,使用不灵活,已无法满足现有用户的需要。
发明内容
本发明所要解决的技术问题是提供翻译系统中使用语料等级评价方法,当用户使用语料的情况发生变化时,能够对使用语料排序进行动态调整,不断进行自我优化,实时得出任意时点所对应的语料和语料提供者排序,使用灵活,用户借鉴性强。
本发明解决上述问题所采用的技术方案是:翻译系统中使用语料等级评价方法,包括如下步骤:
A)上传需要翻译的语料到翻译系统中;
B)在翻译系统中的已有语料中查找是否有重复的需要翻译的语料,对于已重复的语料则在该语料总得分上加0.1倍语料重复得分,在语料提供者得分上减0.3倍重复得分;
C)在使用语料的过程中,采用pagerank思想,针对提供者和语料本身计算各自得分,每当有语料被展示一次,在该语料总得分上减0.1倍语料展示得分,该语料被采用一次,则在语料总得分上加上0.8倍语料采用得分且在语料提供者得分上加0.7倍采用得分;
D)基于步骤C)算出语料总得分和语料提供者得分,根据得分得出语料和语料提供者的等级。
在本方法中语料重复得分=上传人数个数/语料被上传次数,语料采用得分=sum(本语料被某一用户使用次数/某一用户总共使用语料数),语料展示得分=sum(本语料展示给某一用户的次数/该用户总查看语料数),采用得分=sum(该语料提供者的某一语料被使用的次数/该语料被展示次数),重复得分=sum(重复语料的上传人数个数/被上传次数),语料总得分=语料重复得分*0.1+语料采用得分*0.8-语料展示得分*0.1,语料提供者得分=采用得分*0.7-重复得分*0.3,前面涉及到的sum代表的是求和函数,前面涉及到的系数均是通过多次试验后得到的最优系数用于统计分数,语料代表的是需要翻译的词语或者是句段,通过该方法能够对语料总得分和语料提供者得分进行实时的统计,并对最终的统计结果进行分数由高到低的排序,从而得出精确的实时排序情况提供给使用者使用,借鉴性更强,随着使用时间的推移,还能不断的进行自我优化,提高翻译的准确度和效率。而原有的翻译系统中只能对语料进行固定排序,当使用者常用语料发生变化时,翻译系统中语料和语料提供者的排序无法不断的进行自我优化,在准确性和效率方面均存在缺陷,与以往的翻译系统的方法相比,该方法优势明显。
进一步的,步骤C)中语料总得分的计算公式为:语料总得分=语料重复得分*0.1+语料采用得分*0.8-语料展示得分*0.1+语料初始值,其中的语料重复得分=上传人数个数/语料被上传次数,其中的语料采用得分=sum(本语料被某一用户使用次数/某一用户总共使用语料数),其中的语料展示得分=sum(本语料展示给某一用户的次数/该用户总查看语料数),其中的语料初始值为人为设定。
进一步的,步骤C)中语料提供者得分的计算公式为:语料提供者得分=采用得分*0.7-重复得分*0.3+上传得分*0.2+语料提供者初始值,其中的采用得分=sum(该语料提供者的某一语料被使用的次数/该语料被展示次数),其中的重复得分=sum(重复语料的上传人数个数/被上传次数),其中的上传得分=log(上传语料数)。前面提到的log为10为底数的指数函数,其中的语料提供初始值为人为设定。在语料总得分的基础上加上语料初始值,在语料提供者得分的基础上加上语料提供者初始值,是为了避免语料总得分和语料提供者得分最后出现负数,不方便后面对语料总得分和语料提供者得分进行排序,通过设置初始值则避免出现总分为负数的情况,最后的排序结果更准确,后期的参考价值更高。而在语料提供者得分中还加入了0.2倍上传得分,对语料提供者得分进行进一步优化,使最后的得分情况更加的合理。
进一步的,步骤D)中语料和语料提供者的等级单独评定,当语料总得分或语料提供者得分小于等于1万且得分排名小于等于10%为A级,当语料总得分或语料提供者得分小于等于1万且10%<得分排名≦30%为B级,当语料总得分或语料提供者得分小于等于1万且30%<得分排名≦40%为C级;当语料总得分或语料提供者得分大于1万且得分排名小于等于1%为SSS级,当语料总得分或语料提供者得分大于1万且1%<得分排名≦5%为SS级,当语料总得分或语料提供者得分大于1万且5%<得分排名≦10%为S级。该种等级评价方式仅是根据得分得出语料和语料提供者的等级的一种形式,也可以采用其他形式对语料和语料提供者进行等级区分,但该种形式的等级形式已经能够满足后期用户使用的需要。
综上,本发明的有益效果是:
本方法能够对语料总得分和语料提供者得分进行实时的统计,对使用语料排序进行动态调整,不断进行自我优化,实时得出任意时点所对应的语料和语料提供者排序,将语料和语料提供者分为多个等级,从而得出精确的等级情况提供给使用者使用,借鉴性更强,提高翻译的准确度和效率。
具体实施方式
下面结合实施例对本发明作进一步地的详细说明,但本发明的实施方式不限于此。
实施例1:
本发明公开了翻译系统中使用语料等级评价方法,包括如下步骤:
A)上传需要翻译的语料到翻译系统中;
B)在翻译系统中的已有语料中查找是否有重复的需要翻译的语料,对于已重复的语料则在该语料总得分上加0.1倍语料重复得分,在语料提供者得分上减0.3倍重复得分;
C)在使用语料的过程中,采用pagerank思想,针对提供者和语料本身计算各自得分,每当有语料被展示一次,在该语料总得分上减0.1倍语料展示得分,该语料被采用一次,则在语料总得分上加上0.8倍语料采用得分且在语料提供者得分上加0.7倍采用得分;
D)基于步骤C)算出语料总得分和语料提供者得分,根据得分得出语料和语料提供者的等级。
在本方法中语料重复得分=上传人数个数/语料被上传次数,语料采用得分=sum(本语料被某一用户使用次数/某一用户总共使用语料数),语料展示得分=sum(本语料展示给某一用户的次数/该用户总查看语料数),采用得分=sum(该语料提供者的某一语料被使用的次数/该语料被展示次数),重复得分=sum(重复语料的上传人数个数/被上传次数),语料总得分=语料重复得分*0.1+语料采用得分*0.8-语料展示得分*0.1,语料提供者得分=采用得分*0.7-重复得分*0.3,前面涉及到的sum代表的是求和函数,前面涉及到的系数均是通过多次试验后得到的最优系数用于统计分数,语料代表的是需要翻译的词语或者是句段,通过该方法能够对语料总得分和语料提供者得分进行实时的统计,并对最终的统计结果进行分数由高到低的排序,从而得出精确的实时排序情况提供给使用者使用,借鉴性更强,随着使用时间的推移,还能不断的进行自我优化,提高翻译的准确度和效率。而原有的翻译系统中只能对语料进行固定排序,当使用者常用语料发生变化时,翻译系统中语料和语料提供者的排序无法不断的进行自我优化,在准确性和效率方面均存在缺陷,与以往的翻译系统的方法相比,该方法优势明显。
实施例2:
本实施例在实施例1的基础山优选如下:步骤C)中语料总得分的计算公式为:语料总得分=语料重复得分*0.1+语料采用得分*0.8-语料展示得分*0.1+语料初始值,其中的语料重复得分=上传人数个数/语料被上传次数,其中的语料采用得分=sum(本语料被某一用户使用次数/某一用户总共使用语料数),其中的语料展示得分=sum(本语料展示给某一用户的次数/该用户总查看语料数),其中的语料初始值为人为设定。
步骤C)中语料提供者得分的计算公式为:语料提供者得分=采用得分*0.7-重复得分*0.3+上传得分*0.2+语料提供者初始值,其中的采用得分=sum(该语料提供者的某一语料被使用的次数/该语料被展示次数),其中的重复得分=sum(重复语料的上传人数个数/被上传次数),其中的上传得分=log(上传语料数)。其中的语料提供初始值为人为设定。在上面所涉及到的系数均为通过多次试验后得到的最佳系数值。在语料总得分的基础上加上语料初始值,在语料提供者得分的基础上加上语料提供者初始值,是为了避免语料总得分和语料提供者得分最后出现负数,不方便后面对语料总得分和语料提供者得分进行排序,通过设置初始值则避免出现总分为负数的情况,最后的排序结果更准确,后期的参考价值更高。而在语料提供者得分中还加入了0.2倍上传得分,对语料提供者得分进行进一步优化,使最后的得分情况更加的合理。
实施例3:
本实施例在上述实施例的基础上优选如下:步骤D)中语料和语料提供者的等级单独评定,当语料总得分或语料提供者得分小于等于1万且得分排名小于等于10%为A级,当语料总得分或语料提供者得分小于等于1万且10%<得分排名≦30%为B级,当语料总得分或语料提供者得分小于等于1万且30%<得分排名≦40%为C级;当语料总得分或语料提供者得分大于1万且得分排名小于等于1%为SSS级,当语料总得分或语料提供者得分大于1万且1%<得分排名≦5%为SS级,当语料总得分或语料提供者得分大于1万且5%<得分排名≦10%为S级。该种等级评价方式仅是根据得分得出语料和语料提供者的等级的一种形式,也可以采用其他形式对语料和语料提供者进行等级区分,但该种形式的等级形式已经能够满足后期用户使用的需要。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (3)

1.翻译系统中使用语料等级评价方法,其特征在于,包括如下步骤:
上传需要翻译的语料到翻译系统中;
在翻译系统中的已有语料中查找是否有重复的需要翻译的语料,对于已重复的语料则在该语料总得分上加0.1倍语料重复得分,在语料提供者得分上减0.3倍重复得分;
在使用语料的过程中,采用pagerank思想,针对提供者和语料本身计算各自得分,每当有语料被展示一次,在该语料总得分上减0.1倍语料展示得分,该语料被采用一次,则在语料总得分上加上0.8倍语料采用得分且在语料提供者得分上加0.7倍采用得分,语料提供者得分=采用得分*0.7-重复得分*0.3+上传得分*0.2+语料提供者初始值,其中的采用得分=sum(该语料提供者的某一语料被使用的次数/该语料被展示次数),其中的重复得分=sum(重复语料的上传人数个数/被上传次数),其中的上传得分=log(上传语料数);
基于步骤C)算出语料总得分和语料提供者得分,根据得分得出语料和语料提供者的等级。
2.根据权利要求1所述的翻译系统中使用语料等级评价方法,其特征在于,步骤C)中语料总得分的计算公式为:语料总得分=语料重复得分*0.1+语料采用得分*0.8-语料展示得分*0.1+语料初始值,其中的语料重复得分=上传人数个数/语料被上传次数,其中的语料采用得分=sum(本语料被某一用户使用次数/某一用户总共使用语料数),其中的语料展示得分=sum(本语料展示给某一用户的次数/该用户总查看语料数),其中的语料初始值为人为设定。
3.根据权利要求1所述的翻译系统中使用语料等级评价方法,其特征在于,步骤D)中语料和语料提供者的等级单独评定,当语料总得分或语料提供者得分小于等于1万且得分排名小于等于10%为A级,当语料总得分或语料提供者得分小于等于1万且10%<得分排名≦30%为B级,当语料总得分或语料提供者得分小于等于1万且30%<得分排名≦40%为C级;当语料总得分或语料提供者得分大于1万且得分排名小于等于1%为SSS级,当语料总得分或语料提供者得分大于1万且1%<得分排名≦5%为SS级,当语料总得分或语料提供者得分大于1万且5%<得分排名≦10%为S级。
CN201510792859.5A 2015-11-18 2015-11-18 翻译系统中使用语料等级评价方法 Active CN105335358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510792859.5A CN105335358B (zh) 2015-11-18 2015-11-18 翻译系统中使用语料等级评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510792859.5A CN105335358B (zh) 2015-11-18 2015-11-18 翻译系统中使用语料等级评价方法

Publications (2)

Publication Number Publication Date
CN105335358A CN105335358A (zh) 2016-02-17
CN105335358B true CN105335358B (zh) 2018-07-06

Family

ID=55285903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510792859.5A Active CN105335358B (zh) 2015-11-18 2015-11-18 翻译系统中使用语料等级评价方法

Country Status (1)

Country Link
CN (1) CN105335358B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224583A1 (en) * 2005-03-31 2006-10-05 Google, Inc. Systems and methods for analyzing a user's web history
CN102053978B (zh) * 2009-10-27 2014-04-30 深圳市世纪光速信息技术有限公司 单句的主题词提取方法和装置
KR101850124B1 (ko) * 2011-06-24 2018-04-19 구글 엘엘씨 교차-언어 쿼리 제안을 위한 쿼리 번역 평가
CN102945232B (zh) * 2012-11-16 2015-01-21 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN104714943A (zh) * 2015-03-26 2015-06-17 百度在线网络技术(北京)有限公司 翻译方法及系统

Also Published As

Publication number Publication date
CN105335358A (zh) 2016-02-17

Similar Documents

Publication Publication Date Title
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
CN103729359B (zh) 一种推荐搜索词的方法及系统
CN103218436B (zh) 一种融合用户类别标签的相似问题检索方法及装置
CN110110322A (zh) 网络新词发现方法、装置、电子设备及存储介质
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN109726298A (zh) 适用于科技文献的知识图谱构建方法、系统、终端及介质
US20180246880A1 (en) System for generating synthetic sentiment using multiple points of reference within a hierarchical head noun structure
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及系统
CN104298732B (zh) 一种面向网络用户的个性化文本排序及推荐方法
KR20060122276A (ko) 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
CN103544307B (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN116401417B (zh) 一种基于海量农产品数据的分级存储方法
CN102103416A (zh) 一种汉字输入方法和装置
CN102542024A (zh) 一种视频资源语义标签的标定方法
CN108304509A (zh) 一种基于文本多向量表示相互学习的垃圾评论过滤方法
CN105335357B (zh) 翻译系统中语料推荐方法
CN106815266A (zh) 裁判文书检索方法和装置
CN103530316A (zh) 一种基于多视图学习的科学主题提取方法
CN109145286A (zh) 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法
US20210182293A1 (en) Candidate projection enumeration based query response generation
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
CN107832344A (zh) 一种基于storm流计算框架的食品安全网络舆情分析方法
CN105335358B (zh) 翻译系统中使用语料等级评价方法
CN107341142A (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN104408036B (zh) 关联话题的识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 610000 Chengdu City, Sichuan Province, China (Sichuan) Free Trade Pilot Zone No. 401, No. 5, No. 599, South Century Road, Chengdu High-tech Zone, Chengdu

Patentee after: CHENGDU UE INFORMATION TECHNOLOGY CO.,LTD.

Address before: 610000, No. 1, building 107, 1 West Bauhinia Road, Chengdu hi tech Zone, Sichuan, 6

Patentee before: CHENGDU UE INFORMATION TECHNOLOGY CO.,LTD.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: The Method of Using Corpus Level Evaluation in Translation Systems

Effective date of registration: 20230526

Granted publication date: 20180706

Pledgee: Industrial Bank Limited by Share Ltd. Chengdu branch

Pledgor: CHENGDU UE INFORMATION TECHNOLOGY CO.,LTD.

Registration number: Y2023980041884