CN109299737A

CN109299737A - 译员基因的选取方法、装置与电子设备

Info

Publication number: CN109299737A
Application number: CN201811095799.1A
Authority: CN
Inventors: 张芃
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language Network (wuhan) Information Technology Co Ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-02-01
Anticipated expiration: 2038-09-19
Also published as: WO2020057003A1; CN109299737B; WO2020057001A1

Abstract

本发明实施例提供一种译员基因的选取方法、装置与电子设备，该方法包括：从备选译员基因列表中，分别选取多组不同的基因，构成多个译员基因组；对于每一个译员基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并据此计算该译员基因组对应的匹配成功率的均值和标准差；基于所有译员基因组分别对应的均值和每一个译员基因组对应的标准差，计算该译员基因组对应的Z值；基于每一个译员基因组对应的Z值，选取满足设定条件的译员基因组，并将满足设定条件的译员基因组中的基因合并，获取最终选取的译员基因。本发明实施例能够选取更有效的译员基因组合与待翻译稿件进行匹配，从而有效提高翻译效率和翻译准确率。

Description

译员基因的选取方法、装置与电子设备

技术领域

本发明实施例涉及数据处理技术领域，更具体地，涉及一种译员基因的选取方法、装置与电子设备。

背景技术

信息时代和网络化使翻译工作方式发生了很大的变化。利用翻译流程管理平台，根据不同对象储存人才资料，以根据待翻译的稿件匹配出最适合的译员。不同的译员，其所包含的关键信息不尽相同，则根据这些关键信息，可以为译员匹配最适合的翻译稿件，从而有效提高翻译效率和翻译准确性。

译员与稿件的基因匹配是指将稿件基因与译员基因在既定策略下通过匹配模型，实现为稿件找到最佳译员的过程。所选取的用于进行基因匹配的译员基因与其它译员基因相比，应该能够更好的体现译员的差异性，如此才能为待翻译稿件匹配到更适合的译员。

译员基因主要指通过对译员特征属性进行分析计算、量化处理，所获取到的存在于特定译员的、区别于其他译员的、独一无二的关键信息组合。译员基因的来源渠道很多，在社交时代，译员的一举一动的所有数据均可以提取出基因来。

译员基因存在于管理平台的所有译员中，不同译员具备不同的译员基因。由于具体应用的不同，目前存在的译员/文稿基因匹配算法在选择译员的待匹配基因进行匹配计算时，常根据经验来选择相应的基因组合。

但是，在译员工作过程中，基因会随着能力的提升、时间的增加、知识的积累而发生相应的变化。即随着任务的处理、审校和QC的评价、历史语料的积累、社区活动的参与以及译员能力的测试等活动，译员基因将不断更新。因此，上述依据经验的译员基因选择方式会存在一定的局限性，导致选择出的译员基因不能很好的体现译员间的差异性。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种译员基因的选取方法、装置与电子设备，用以使得选取出的译员基因能够更好的体现译员间的差异性。

第一方面，本发明实施例提供一种译员基因的选取方法，包括：从备选译员基因列表中，分别选取多组不同的基因，构成多个译员基因组；对于每一个所述译员基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于所述多个匹配成功率样本，计算该译员基因组对应的匹配成功率的均值和标准差；基于所有所述译员基因组分别对应的所述均值和每一个所述译员基因组对应的所述标准差，计算该译员基因组对应的Z值；基于每一个所述译员基因组对应的所述Z值，从所有所述译员基因组中选取满足设定条件的译员基因组，并将所述满足设定条件的译员基因组中的基因合并，获取最终选取的译员基因；其中，所述Z值表示大样本差异性验证中Z值。

第二方面，本发明实施例提供一种译员基因的选取装置，包括：初始基因选取模块，用于从备选译员基因列表中，分别选取多组不同的基因，构成多个译员基因组；第一计算模块，用于对于每一个所述译员基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于所述多个匹配成功率样本，计算该译员基因组对应的匹配成功率的均值和标准差；第二计算模块，用于基于所有所述译员基因组分别对应的所述均值和每一个所述译员基因组对应的所述标准差，计算该译员基因组对应的Z值；最终基因选取模块，用于基于每一个所述译员基因组对应的所述Z值，从所有所述译员基因组中选取满足设定条件的译员基因组，并将所述满足设定条件的译员基因组中的基因合并，获取最终选取的译员基因；其中，所述Z值表示大样本差异性验证中Z值。

第三方面，本发明实施例提供一种电子设备，包括：至少一个存储器、至少一个处理器、通信接口和总线；所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信，所述通信接口用于所述电子设备与译员信息设备之间的信息传输；所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上第一方面所述的译员基因的选取方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上第一方面所述的译员基因的选取方法。

本发明实施例提供的译员基因的选取方法、装置与电子设备，通过预先从所有译员的译员基因池中选取多组译员基因组，并通过计算这些译员基因组所对应的Z值，来选取Z值满足设定条件的译员基因组，以作为最终的选取结果，使得选取出的译员基因能够更好的体现译员间的差异性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的译员基因的选取方法的流程示意图；

图2为根据本发明实施例提供的译员基因的选取方法中译员特征与译员基因的关系示意图；

图3为根据本发明实施例提供的译员基因的选取方法中计算Z值的流程示意图；

图4为本发明实施例提供的译员基因的选取装置的结构示意图；

图5为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明实施例的一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

译员基因的来源渠道很多，在社交时代，译员的一举一动的所有数据均可以提取出基因来。由于具体应用的不同，目前存在的译员/文稿基因匹配算法在选择译员的待匹配基因进行匹配计算时，常根据经验来选择相应的基因组合。但是，传统方法具有一定的局限性，导致选择出的译员基因不能很好的体现译员的差异性。

针对上述问题，本发明实施例通过预先从译员的译员基因池中选取多组译员基因组，并通过计算这些译员基因组所对应的Z值，来选取Z值满足设定条件的译员基因组，以作为最终的选取结果，使得选取出的译员基因能够更好的体现译员间的差异性。其中，Z值表示大样本差异性验证中Z值。

作为本发明实施例的一个方面，本实施例提供一种译员基因的选取方法，参考图1，为本发明实施例提供的译员基因的选取方法的流程示意图，包括：

S101，从备选译员基因列表中，分别选取多组不同的基因，构成多个译员基因组。

可以理解为，在进行本实施例的译员基因选取之前，事先会根据译员的所有属性信息建立一个备选译员基因列表，该备选译员基因列表中可以包含与译员特定属性相关的所有基因。具体的，该备选译员基因列表可以认为是一个基因池，在该基因池中以基因为单位存放有从所有译员中提取的与译员信息相关的基因，即译员基因。译员基因主要指通过对译员特征属性进行分析计算、量化处理，所获取到的存在于特定译员的、区别于其他译员的、独一无二的关键信息组合。

本步骤中根据该备选译员基因列表，分别选取多组译员基因，并分别以每一组译员基因构成一个基因组，作为译员基因组，该译员基因组为初选出的译员基因组。可以理解的是，在进行各组译员基因的选择时，可以从备选译员基因列表中随机抽选表中的多个译员基因，则利用这些随机抽取的译员基因可以构成一个基因组，即为译员基因组。

当然，也可以事先定义抽取规则，如，同时抽取或依次抽取，隔行抽取或指定行号抽取，根据基因表征的不同译员信息抽取，抽取的数量，等等。之后在进行实际的抽取过程时，对于每一组译员基因的抽取，根据该预先定义的抽取规则，从备选译员基因列表抽取相应的多个基因。

例如，从备选译员基因列表中随机选取3-5个不同的基因，作为一组基因，构成一个译员基因组。则采用相同的方式，可以同时分别选取也可以依次选取多组基因，构成多个译员基因组，本发明实施例对此不作限制。

S102，对于每一个译员基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于多个匹配成功率样本，计算该译员基因组对应的匹配成功率的均值和标准差。

可以理解为，对于每一组初选出的译员基因组而言，需要确定其与稿件的匹配效果，从而选择更适于基因匹配的译员基因。同时，为了不失一般性，对于每一组译员基因组，可以将该译员基因组输入给定匹配模型，利用给定匹配模型进行多次匹配结果采样，每次采样可获取一个匹配成功率样本。

可以理解的是，对于每一组译员基因组，在利用匹配模型进行匹配成功率样本的采集时，将该组译员基因组中的基因输入到匹配模型中，该匹配模型会根据自身提供的稿件基因，自动计算该译员基因组中的基因与稿件基因的匹配成功率数值并输出，则匹配模型输出的该匹配成功率数值即可作为一个匹配成功率样本。对于同一译员基因组，进行多次上述匹配结果采样过程，则可以得到多个匹配成功率样本。

之后，对于每一个初选出的译员基因组而言，根据上述多次匹配结果采样获取的多个匹配成功率样本，计算该译员基因组的综合匹配成功率，即分别计算该译员基因组对应的匹配成功率的均值和标准差。可以理解的是，每一个匹配成功率样本，实际上是一次匹配结果采样得到的匹配成功率数值。

例如，假设根据某个译员基因组进行匹配结果采样，得到n个匹配成功率样本分别为p₁,p₂,...p_n。则据其计算该译员基因组对应的匹配成功率的均值为：

式中，E(p)表示译员基因组对应的匹配成功率的均值，p_i表示译员基因组的第i个匹配成功率样本，n表示针对该译员基因组采集的匹配成功率样本的总个数。

在此基础上，计算该译员基因组对应的匹配成功率的标准差如下：

式中，S表示译员基因组对应的匹配成功率的标准差，E(p)表示译员基因组对应的匹配成功率的均值，p_i表示译员基因组的第i个匹配成功率样本，n表示针对该译员基因组采集的匹配成功率样本的总个数。

其中，在一个实施例中，在进行多次匹配结果采样，获取多个匹配成功率样本的步骤之前，还包括：根据与待翻译稿件的基因匹配计算精度的需求，设定进行匹配结果采样的总次数阈值，即设定阈值。则相应的在实际采样时，采集匹配成功率样本的个数不小于该总次数阈值。例如，对于每一个译员基因组，要求提取的匹配成功率样本的个数不少于50，则该数据50即为预先设定的总次数阈值。

S103，基于所有译员基因组分别对应的均值和每一个译员基因组对应的标准差，计算该译员基因组对应的Z值；其中，Z值表示大样本差异性验证中Z值。

可以理解为，在根据上述步骤计算得到每个初选出的译员基因组对应的匹配成功率的均值和标准差的基础上，对于每一个初选出的译员基因组，计算其Z值。具体而言，对于每一个译员基因组，根据其所对应的匹配成功率的标准差以及所有译员基因组分别对应匹配成功率的均值，计算其对应的Z值。

可以理解的是，其中的Z值的概念为大样本差异性验证，即Z验证中的Z值的概念。Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率，从而比较两个平均数的差异是否显著。当已知标准差时，验证一组数的均值是否与某一期望值相等。本发明实施例中利用Z验证来衡量初选出的译员基因组的匹配差异性验证，因此对每一个初选出的译员基因组进行Z值计算。

S104，基于每一个译员基因组对应的Z值，从所有译员基因组中选取满足设定条件的译员基因组，并将该满足设定条件的译员基因组中的基因合并，获取最终选取的译员基因。

可以理解为，根据上述步骤，可以计算出每个译员基因组的Z值，根据该Z值可以判断各对应译员基因组在进行基因匹配时的差异性性能。因此，根据每个译员基因组对应的Z值，可以利用预先设定的设定条件，判断该Z值对应的译员基因组是否满足设定的差异性要求。如果不满足，则将其从初选出的各译员基因组中剔除，最终剩余没有被剔除的所有译员基因组即为符合要求的译员基因组。将剩余的所有译员基因组中的基因取出，并在去除这些基因中的重复基因后，形成新的一组基因，即作为最终选取的译员基因。

例如，假设针对某个译员基因组总共采集了n个匹配成功率样本，这些匹配成功率样本符合正态分布。同时，预先设定了选择译员基因的设定条件为，选出的基因的置信度不低于95％，该置信度对应到译员基因组的Z值为1.96。则，对于初选出的每一个译员基因组，将其对应的Z值与1.96进行比较，若Z值大于1.96，则将该Z值对应的译员基因组剔除，否则，保留该Z值对应的译员基因组。

假设根据上述处理过程，从所有n个初选出的译员基因组中剔除了p个不满足设定条件的译员基因组，剩余的n-p个译员基因组是满足设定条件的。则，在这n-p个译员基因组中，可能有两个或者两个以上的译员基因组中同时包含了某个译员基因。因此将这n-p个译员基因组中的全部译员基因取出，放入一个新的基因池中，在该基因池中，对于出现多次的每个译员基因，剔除多余的而仅保留一个该译员基因。最终这个新的基因池中所包含的是多个非重复的译员基因，将这些基因作为最终选取的译员基因。

本发明实施例提供的译员基因的选取方法，通过预先从所有译员的译员基因池中选取多组译员基因组，并通过计算这些译员基因组所对应的Z值，来选取Z值满足设定条件的译员基因组，以作为最终的选取结果，使得选取出的译员基因能够更好的体现译员间的差异性。另外，在基因匹配应用中，能够使据此选取的译员与待翻译稿件进行更合理的匹配，从而有效提高翻译效率和翻译准确率。

其中，在一个实施例中，在从备选译员基因列表中，分别选取多组不同的基因的步骤之前，本发明实施例的方法还包括：

分别从所有译员的基础信息、能力信息、信用信息和经验信息中提取相应的基因，并对应形成译员的基础信息基因、能力信息基因、信用信息基因和经验信息基因；

基于基础信息基因、能力信息基因、信用信息基因和经验信息基因，构成备选译员基因列表。

可以理解为，译员基因的来源渠道很多，在社交时代，译员的一举一动的所有数据均可以提取出基因来，通过译员基因的来源渠道，本实施例从以下几个方面提取译员基因，构成备选译员基因列表：

基础信息，译员的个人相关信息，如姓名、年龄、所在地以及联络方式等；

能力信息，译员拥有的翻译能力信息，如擅长的语种方向、行业领域以及翻译速度等；

信用信息，译员在从事翻译工作过程中累积的信用信息，如及时交稿率以及中途退稿率等；

经验信息，译员在长期从事翻译工作过程中积累的相关经验，如翻译总字数以及总金额等。

基于译员的上述信息，分别提取译员对应的相应基因，并根据上述各方面，形成对应的基础信息基因、能力信息基因、信用信息基因和经验信息基因。之后，基于上述各方面的基因，构成备选译员基因列表。例如，对于译员的基础信息，可以构建基础信息对应的备选译员基因列表如表1所示，为根据本发明实施例的一种基础信息备选译员基因列表。

表1，根据本发明实施例的一种基础信息备选译员基因列表

则，在根据表1进行多个译员基因组的选取时，可以随机选择各数据项中的多个分别对应的译员基因，如抽选到“所学专业”对应的基因“石油开采”以及“海外工作及学习经历”对应的基因“有”，则以二者构成一个译员基因组。采用同样的处理过程，还可以选取别的多个不同的译员基因组。

同样的，假如事先设定了抽取规则为选取与译员资历信息相关的基因，可以选择表1中“IM”、“所学专业”、“出生日期”以及“海外工作经历”等对应的基因，构成译员基因组。

本发明实施例提供的译员基因的选取方法，通过从译员的基础信息、能力信息、信用信息和经验信息四个方面，分别提取译员的基因，并据此构成备选译员基因列表，以进行更优译员基因的选择与匹配，能够更全面的考虑译员不同方面的特殊信息，为更合理的进行基因匹配提供可靠依据。

其中，根据上述实施例可选的，分别从译员的所有基础信息、能力信息、信用信息和经验信息中提取相应的基因的步骤进一步包括：

获取译员的所有基础信息、能力信息、信用信息和经验信息，并分别从基础信息、能力信息、信用信息和经验信息中获取译员特征；

基于译员特征，提取译员的译员直接基因。

可以理解为，译员基因存在于译员中，不同译员具备不同的基因，有共性但更重要的是要提取差异性的基因，这样才可以差异化对待，匹配最佳译员。

但是，基因不是特征，无法简单明确的辨识，所以需要有步骤进行提取。基因与特征存在本质区别，特征是对对象所共有的特性抽象出某一概念。特征中包含细分属性，而属性中所包含的对象的最根本信息——基因。

因此本实施例在进行译员基因的提取时，首先根据上述实施例的译员的四个方面信息，提取对应的特征信息，作为译员特征。之后，根据不同的译员特征，分别提取译员的最根本信息，构成译员直接基因。例如，如图2所示，为根据本发明实施例提供的译员基因的选取方法中译员特征与译员基因的关系示意图。

本发明实施例提供的译员基因的选取方法，通过对译员特征的提取，进一步提取译员基因，能够获取到的存在于特定译员的、区别于其他译员的、独一无二的关键信息。

其中，根据上述各实施例可选的，进行多次匹配结果采样，获取多个匹配成功率样本的步骤进一步包括：

对于任一轮多次匹配结果采样，执行如下处理流程：

对所有译员基因组的匹配成功率的初始值进行初始设定；

从所有译员基因组中随机选取一个译员基因组，对选取的该译员基因组进行匹配试验，并基于对该译员基因组本次匹配试验的匹配成功率结果与历史匹配成功率结果，更新该译员基因组当前的匹配成功率值；

重复执行随机选取至更新的步骤，直至对任一译员基因组的匹配试验的次数达到第一设定阈值，停止对该译员基因组的匹配试验，并记录该译员基因组当前的匹配成功率值；

对停止匹配试验的译员基因组以外的译员基因组，重复执行随机选取至记录的步骤，直至对所有译员基因组的匹配试验的总次数达到第二设定阈值，则记录每个译员基因组当前的匹配成功率值，并结束本轮多次匹配结果采样，进入下一轮多次匹配结果采样，直至执行多次匹配结果采样的总轮数达到第三设定阈值，获取每个译员基因组的数量为第三设定阈值的匹配成功率样本。

可以理解为，根据上述各实施例，对于每一组初选出的译员基因组而言，需要确定其与稿件的匹配效果，从而选择更适于基因匹配的译员基因。同时，为了不失一般性，对于每一组译员基因组，进行多次匹配结果采样。而具体在进行每一组初选出的译员基因组的匹配结果采样时，利用上述匹配模型进行。

具体而言，可以利用给定匹配模型，进行多轮多次匹配结果采样。获取多个匹配成功率样本时，可以假设根据上述各实施例选取了m组译员基因组，则可以对每个译员基因组的匹配成功率进行采样，基于以上m个基因组进行多轮多次(一般不少于30次)匹配实验，每轮匹配试验过程如下：

步骤1，对每个译员基因组的匹配成功率的取值进行初始化设定，例如初始化设置为0。

步骤2，随机选择一个译员基因组，在给定匹配模型中进行匹配成功率结果计算，得到本次匹配试验的匹配成功率结果。同时，结合本轮多次匹配结果采样中历史记录的之前数次的匹配试验的匹配成功率结果，即历史匹配成功率结果，计算选取的该译员基因组当前的匹配成功率值。

步骤3，多次循环执行上述步骤1和2，由于每次选取译员基因组都是从所有译员基因组中随机选取，因此每个基因组被进行匹配试验的次数可能不同，则当对某个译员基因组的匹配试验的次数达到第一设定阈值的时候，即停止对该译员基因组的本轮匹配试验，并记录停止试验时，该译员基因组当前的匹配成功率值。

步骤4，对于除去达到第一设定阈值的译员基因组之外的其余译员基因组，继续执行上述步骤1-3的处理流程，直至本轮匹配试验的总次数达到第二设定阈值，停止本轮匹配试验。此时对于每个译员基因组，均有一个匹配成功率值与之对应，即为本轮多次匹配结果采样得到的匹配成功率样本，则对于m个译员基因组，就能得到m个匹配成功率样本。那么，对于所有译员基因组，进行多轮(例如达到第三设定阈值)上述的多次匹配结果采样，即可以得到每个译员基因组的多个匹配成功率样本，例如轮数设为n，则匹配成功率样本数为n(n一般不小于50)。

例如，假设初选出了a₁、a₂和a₃共三个译员基因组，并预先设定第一设定阈值、第二设定阈值和第三设定阈值分别为3、8和5。则，在每一轮多次匹配结果采样时：

首先进行第一次选取，从a₁、a₂和a₃中随机选取一个，例如选取到a₁，则对a₁进行匹配试验，试验结果为匹配成功，则得到a₁的匹配成功率值为100％。

接下来进行第二次选取，假设选取到a₂，对其进行匹配试验，得到试验结果为匹配不成功，则得到a₂的匹配成功率值为0％。

接下来再进行第三次选取，假设又选取到a₁，且匹配试验结果为匹配不成功，则根据对a₁的总共两次匹配试验结果，得到a₁当前的匹配成功率值为50％。

接下来再进行第四次选取，假设选取到a₃，且匹配试验结果为匹配成功，则得到a₃的匹配成功率值为100％。

接下来再进行第五次选取，假设又选取到a₁，且匹配试验结果为匹配成功，则根据对a₁的总共三次匹配试验结果，得到a₁当前的匹配成功率值为66.6％。此时，对a₁的匹配试验次数已经达到了第一设定阈值3，则停止继续对a₁进行匹配试验，并输出其当前的匹配成功率值66.6％，即为本轮多次匹配结果采样中译员基因组a₁的匹配成功率样本。

接下来再进行第六次选取，由于对a₁已经达到3次匹配试验，则只在a₂和a₃中进行随机选取并进行匹配试验，具体选取和匹配试验流程与上述步骤类似。如此，直到总的匹配试验的次数，即对a₁、a₂和a₃的匹配试验的总次数达到第二设定阈值8次时，结束本轮多次匹配结果采样。此时，对于每一个译员基因组，均根据上述匹配试验得到了一个匹配成功率样本。

那么，对三个译员基因组a₁、a₂和a₃，重复多轮进行上述的多次匹配结果采样，则每一轮会得到a₁、a₂和a₃分别对应的一组匹配成功率样本。直到重复的论述达到第三设定阈值5，则可以得到a₁、a₂和a₃各自分别对应的5个匹配成功率样本。

本发明实施例提供的译员基因的选取方法，利用给定匹配模型进行各译员基因组的多次匹配成功率计算，并据此选取匹配成功率更高的译员基因组，可使计算结果可靠性更高。

其中，根据上述实施例可选的，基于所有译员基因组分别对应的均值和每一个译员基因组对应的标准差，计算该译员基因组对应的Z值的进一步处理步骤参考图3，为根据本发明实施例提供的译员基因的选取方法中计算Z值的流程示意图，包括：

S301，基于所有译员基因组分别对应的均值，计算所有译员基因组的匹配成功率的统一均值。

可以理解为，对于初选出的所有译员基因组来说，根据上述实施例可以计算出各译员基因组分别对应的匹配成功率的均值。则本实施例中首先根据各译员基因组分别对应的匹配成功率的均值，计算所有译员基因组整体所对应的匹配成功率的均值，即匹配成功率的统一均值。具体而言，可根据下式计算：

式中，μ表示所有译员基因组整体对应的匹配成功率统一均值，m表示初选出的所有译员基因组的组数，E_i(p)表示第i个译员基因组对应的匹配成功率的均值。

S302，基于每一个译员基因组对应的标准差和均值，以及所有译员基因组对应的统一均值，计算该译员基因组对应的Z值。

可以理解为，在上述步骤计算获取所有译员基因组对应的统一均值的基础上，结合上述实施例计算得到每一个译员基因组对应的匹配成功率的标准差和均值，利用给定的Z值计算公式，可以对应计算初选出的每个译员基因组Z值。

其中，在一个实施例中，计算该译员基因组对应的Z值的步骤进一步包括：利用如下公式，计算各译员基因组对应的Z值：

式中，Z_i表示第i个译员基因组对应的Z值，n表示每个译员基因组对应的匹配成功率样本的个数，E_i(p)表示第i个译员基因组对应的均值，μ表示所有译员基因组对应的统一均值，S_i表示第i个译员基因组对应的标准差。

本发明实施例提供的译员基因的选取方法，利用初选出的每一个译员基因组分别对应的均值，依次计算所有译员基因组的统一均值和每个译员基因组的Z值，能够更精确的表征每个译员基因组的匹配成功率情况，从而能够更精准的选取译员基因来与稿件基因进行匹配，改善匹配效果。

另外，在上述实施例的基础上，在从所有译员基因组中选取满足设定条件的译员基因组的步骤之后，本发明实施例的方法还可以包括如下处理步骤：若所有译员基因组中，没有一个译员基因组的Z值能够满足上述实施例的设定条件，则回到步骤S101，从备选译员基因列表中重新选取多组不同的译员基因组，重新进行上述实施例的计算与选取过程。

例如，对于采样的匹配成功率样本符合正态分布的情况，若要获得95％的置信度，即预先设定的设定条件是译员基因组的置信度满足95％，则针对译员基因组计算的Z值应不大于1.96。而实际应用中，在从备选译员基因列表中选取多组译员基因组时，可能由于是随机选取等原因，导致在对选取出的译员基因组计算Z值时，Z值均不能满足上述标准，则需要重新在备选译员基因列表中选择另外的译员基因组，并进行重新计算和选取。

本发明实施例提供的译员基因的选取方法，通过对计算结果的判断和对选取步骤的循环重复执行，能够保证可以选取出满足要求的高质量基因，对于更精准的匹配待翻译稿件具有重要意义。

作为本发明实施例的另一个方面，本发明实施例根据上述各实施例提供一种译员基因的选取装置，该装置用于在上述各实施例中实现对最终译员基因的选取。因此，在上述各实施例的译员基因的选取方法中的描述和定义，可以用于本发明实施例中各个执行模块的理解，具体可参考上述实施例，此处不在赘述。

根据本发明本方面实施例的一个实施例，译员基因的选取装置的结构如图4所示，为本发明实施例提供的译员基因的选取装置的结构示意图，该装置可以用于对上述各方法实施例中译员基因的选取，该装置包括：初始基因选取模块401、第一计算模块402、第二计算模块403和最终基因选取模块404。

其中，初始基因选取模块401用于从备选译员基因列表中，分别选取多组不同的基因，构成多个译员基因组；第一计算模块402用于对于每一个译员基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于多个匹配成功率样本，计算该译员基因组对应的匹配成功率的均值和标准差；第二计算模块403用于基于所有译员基因组分别对应的均值和每一个译员基因组对应的标准差，计算该译员基因组对应的Z值；最终基因选取模块404用于基于每一个译员基因组对应的Z值，从所有译员基因组中选取满足设定条件的译员基因组，并将该满足设定条件的译员基因组中的基因合并，获取最终选取的译员基因；其中，所述Z值表示大样本差异性验证中Z值。

具体而言，初始基因选取模块301可以根据预先建立的备选译员基因列表，分别选取多组译员基因，并分别以每一组译员基因构成一个基因组，作为译员基因组，该译员基因组为初选出的译员基因组。例如，在进行各组译员基因的选择时，初始基因选取模块301可以从备选译员基因列表中随机抽选表中的多个译员基因，并利用这些随机抽取的译员基因构成一个基因组，即为译员基因组。

之后，对于每一组初选出的译员基因组而言，需要确定其与稿件的匹配效果，从而选择更适于基因匹配的译员基因。同时，为了不失一般性，对于每一组译员基因组，第一计算模块302可以通过将该译员基因组输入给定匹配模型，利用给定匹配模型进行多次匹配结果采样，每次采样均可获取一个匹配成功率样本。可以理解的是，每一个匹配成功率样本，实际上是一次匹配结果采样得到的匹配成功率数值。

另外，对于每一个初选出的译员基因组而言，第一计算模块302根据上述多次匹配结果采样获取的多个匹配成功率样本，计算该译员基因组的综合匹配成功率，即分别计算该译员基因组对应的匹配成功率的均值和标准差。

之后，第二计算模块403对于每一个初选出的译员基因组，计算其Z值。具体而言，对于每一个译员基因组，根据其所对应的匹配成功率的标准差以及所有译员基因组分别对应匹配成功率的均值，计算其对应的Z值。

最后，最终基因选取模块404根据上述计算得到的Z值可以判断各对应译员基因组在进行基因匹配时的差异性性能。因此，根据每个译员基因组对应的Z值，最终基因选取模块404可以利用预先设定的设定条件，判断该Z值对应的译员基因组是否满足设定的差异性要求。如果不满足，则将其从初选出的各译员基因组中剔除，最终剩余没有被剔除的所有译员基因组即为符合要求的译员基因组。最终基因选取模块404再将剩余的所有译员基因组中的基因取出，并在去除这些基因中的重复基因后，形成新的一组基因，即作为最终选取的译员基因。

进一步的，在上述实施例的基础上，本发明实施例的装置还包括备选译员基因列表构建模块，用于：分别从译员的所有基础信息、能力信息、信用信息和经验信息中提取相应的基因，并对应形成译员的基础信息基因、能力信息基因、信用信息基因和经验信息基因；基于所述基础信息基因、能力信息基因、信用信息基因和经验信息基因，构成所述备选译员基因列表。

其中可选的，备选译员基因列表构建模块具体用于：获取译员的所有基础信息、能力信息、信用信息和经验信息，并分别从基础信息、能力信息、信用信息和经验信息中获取译员特征；基于译员特征，提取译员的译员直接基因。

其中可选的，第二计算模块具体用于：基于所有译员基因组分别对应的均值，计算所有译员基因组的匹配成功率的统一均值；基于每一个译员基因组对应的标准差和均值，以及所有译员基因组对应的统一均值，计算该译员基因组对应的Z值。

其中可选的，第二计算模块具体用于：利用如下公式，计算各译员基因组对应的Z值：

其中可选的，第一计算模块具体用于：对于任一轮多次匹配结果采样，执行如下处理流程：对所有译员基因组的匹配成功率的初始值进行初始设定；从所有译员基因组中随机选取一个译员基因组，对选取的该译员基因组进行匹配试验，并基于对该译员基因组本次匹配试验的匹配成功率结果与历史匹配成功率结果，更新该译员基因组当前的匹配成功率值；重复执行随机选取至更新的步骤，直至对任一译员基因组的匹配试验的次数达到第一设定阈值，停止对该译员基因组的匹配试验，并记录该译员基因组当前的匹配成功率值；对停止匹配试验的译员基因组以外的译员基因组，重复执行随机选取至记录的步骤，直至对所有译员基因组的匹配试验的总次数达到第二设定阈值，则记录每个译员基因组当前的匹配成功率值，并结束本轮多次匹配结果采样，进入下一轮多次匹配结果采样，直至执行多次匹配结果采样的总轮数达到第三设定阈值，获取每个译员基因组的数量为第三设定阈值的匹配成功率样本。

其中可选的，第一计算模块具体用于，对于每一个译员基因组，提取的匹配成功率样本的个数不少于设定阈值。

可以理解的是，本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且，本发明实施例各译员基因的选取装置在用于对上述各方法实施例中译员基因的选取时，产生的有益效果与对应的上述各方法实施例相同，可以参考上述各方法实施例，此处不再赘述。

作为本发明实施例的又一个方面，本实施例根据上述各实施例提供一种电子设备，参考图5，为本发明实施例提供的电子设备的实体结构示意图，包括：至少一个存储器501、至少一个处理器502、通信接口503和总线504。

其中，存储器501、处理器502和通信接口503通过总线504完成相互间的通信，通信接口503用于该电子设备与译员信息设备之间的信息传输；存储器501中存储有可在处理器502上运行的计算机程序，处理器502执行该计算机程序时，实现如上述各实施例所述的译员基因的选取方法。

可以理解为，该电子设备中至少包含存储器501、处理器502、通信接口503和总线504，且存储器501、处理器502和通信接口503通过总线504形成相互间的通信连接，并可完成相互间的通信，如处理器502从存储器501中读取译员基因的选取方法的程序指令等。另外，通信接口503还可以实现该电子设备与译员信息设备之间的通信连接，并可完成相互间信息传输，如通过通信接口503实现对译员基因的选取等。

电子设备运行时，处理器502调用存储器501中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：从备选译员基因列表中，分别选取多组不同的基因，构成多个译员基因组；对于每一个译员基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于多个匹配成功率样本，计算该译员基因组对应的匹配成功率的均值和标准差；基于所有译员基因组分别对应的均值和每一个译员基因组对应的标准差，计算该译员基因组对应的Z值；基于每一个译员基因组对应的Z值，从所有译员基因组中选取满足设定条件的译员基因组，并将该满足设定条件的译员基因组中的基因合并，获取最终选取的译员基因；其中，所述Z值表示大样本差异性验证中Z值等。

上述的存储器501中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。或者，实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行如上述各实施例所述的译员基因的选取方法，例如包括：从备选译员基因列表中，分别选取多组不同的基因，构成多个译员基因组；对于每一个译员基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于多个匹配成功率样本，计算该译员基因组对应的匹配成功率的均值和标准差；基于所有译员基因组分别对应的均值和每一个译员基因组对应的标准差，计算该译员基因组对应的Z值；基于每一个译员基因组对应的Z值，从所有译员基因组中选取满足设定条件的译员基因组，并将该满足设定条件的译员基因组中的基因合并，获取最终选取的译员基因；其中，所述Z值表示大样本差异性验证中Z值等。

本发明实施例提供的电子设备和非暂态计算机可读存储介质，通过执行上述各实施例所述的译员基因的选取方法，预先从所有译员的译员基因池中选取多组译员基因组，并通过计算这些译员基因组所对应的Z值，来选取Z值满足设定条件的译员基因组，以作为最终的选取结果，使得选取出的译员基因能够更好的体现译员间的差异性。另外，在基因匹配应用中，能够使据此选取的译员与待翻译稿件进行更合理的匹配，从而有效提高翻译效率和翻译准确率。

可以理解的是，以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，既可以位于一个地方，或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解，各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令，用以使得一台计算机设备(如个人计算机，服务器，或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。

另外，本领域内的技术人员应当理解的是，在本发明实施例的申请文件中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例的说明书中，说明了大量具体细节。然而应当理解的是，本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个，在上面对本发明实施例的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明实施例的单独实施例。

最后应说明的是：以上实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述实施例对本发明实施例进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

1.一种译员基因的选取方法，其特征在于，包括：

从备选译员基因列表中，分别选取多组不同的基因，构成多个译员基因组；

对于每一个所述译员基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于所述多个匹配成功率样本，计算该译员基因组对应的匹配成功率的均值和标准差；

基于所有所述译员基因组分别对应的所述均值和每一个所述译员基因组对应的所述标准差，计算该译员基因组对应的Z值；

基于每一个所述译员基因组对应的所述Z值，从所有所述译员基因组中选取满足设定条件的译员基因组，并将所述满足设定条件的译员基因组中的基因合并，获取最终选取的译员基因；

其中，所述Z值表示大样本差异性验证中Z值。

2.根据权利要求1所述的方法，其特征在于，在所述从备选译员基因列表中，分别选取多组不同的基因的步骤之前，还包括：

分别从译员的所有基础信息、能力信息、信用信息和经验信息中提取相应的基因，并对应形成译员的基础信息基因、能力信息基因、信用信息基因和经验信息基因；

基于所述基础信息基因、能力信息基因、信用信息基因和经验信息基因，构成所述备选译员基因列表。

3.根据权利要求1所述的方法，其特征在于，所述基于所有所述译员基因组分别对应的所述均值和每一个所述译员基因组对应的所述标准差，计算该译员基因组对应的Z值的步骤进一步包括：

基于所有所述译员基因组分别对应的所述均值，计算所有所述译员基因组的匹配成功率的统一均值；

基于每一个所述译员基因组对应的所述标准差和所述均值，以及所有所述译员基因组对应的所述统一均值，计算该译员基因组对应的所述Z值。

4.根据权利要求3所述的方法，其特征在于，所述计算该译员基因组对应的所述Z值的步骤进一步包括：

利用如下公式，计算各所述译员基因组对应的所述Z值：

式中，Z_i表示第i个译员基因组对应的所述Z值，n表示每个译员基因组对应的所述匹配成功率样本的个数，E_i(p)表示第i个译员基因组对应的所述均值，μ表示所有所述译员基因组对应的所述统一均值，S_i表示第i个译员基因组对应的所述标准差。

5.根据权利要求1所述的方法，其特征在于，所述进行多次匹配结果采样，获取多个匹配成功率样本的步骤进一步包括：

对于任一轮所述多次匹配结果采样，执行如下处理流程：

对所有所述译员基因组的匹配成功率的初始值进行初始设定；

从所有所述译员基因组中随机选取一个所述译员基因组，对选取的该译员基因组进行匹配试验，并基于对该译员基因组本次匹配试验的匹配成功率结果与历史匹配成功率结果，更新该译员基因组当前的匹配成功率值；

重复执行所述随机选取至所述更新的步骤，直至对任一所述译员基因组的匹配试验的次数达到第一设定阈值，停止对该译员基因组的匹配试验，并记录该译员基因组当前的匹配成功率值；

对停止匹配试验的译员基因组以外的译员基因组，重复执行所述随机选取至所述记录的步骤，直至对所有所述译员基因组的匹配试验的总次数达到第二设定阈值，则记录每个所述译员基因组当前的匹配成功率值，并结束本轮所述多次匹配结果采样，进入下一轮所述多次匹配结果采样，直至执行所述多次匹配结果采样的总轮数达到第三设定阈值，获取每个所述译员基因组的数量为第三设定阈值的所述匹配成功率样本。

6.根据权利要求1所述的方法，其特征在于，对于每一个所述译员基因组，提取的所述匹配成功率样本的个数不少于设定阈值。

7.一种译员基因的选取装置，其特征在于，包括：

初始基因选取模块，用于从备选译员基因列表中，分别选取多组不同的基因，构成多个译员基因组；

第一计算模块，用于对于每一个所述译员基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于所述多个匹配成功率样本，计算该译员基因组对应的匹配成功率的均值和标准差；

第二计算模块，用于基于所有所述译员基因组分别对应的所述均值和每一个所述译员基因组对应的所述标准差，计算该译员基因组对应的Z值；

最终基因选取模块，用于基于每一个所述译员基因组对应的所述Z值，从所有所述译员基因组中选取满足设定条件的译员基因组，并将所述满足设定条件的译员基因组中的基因合并，获取最终选取的译员基因；

其中，所述Z值表示大样本差异性验证中Z值。

8.一种电子设备，其特征在于，包括：至少一个存储器、至少一个处理器、通信接口和总线；

所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信，所述通信接口用于所述电子设备与译员信息设备之间的信息传输；

所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1至6中任一所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6中任一所述的方法。