CN115082045B - 数据校对方法、装置、计算机设备和存储介质 - Google Patents

数据校对方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115082045B
CN115082045B CN202211003340.0A CN202211003340A CN115082045B CN 115082045 B CN115082045 B CN 115082045B CN 202211003340 A CN202211003340 A CN 202211003340A CN 115082045 B CN115082045 B CN 115082045B
Authority
CN
China
Prior art keywords
metadata
target
collation
proofreading
machine processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211003340.0A
Other languages
English (en)
Other versions
CN115082045A (zh
Inventor
王耀处
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Decode Technology Co ltd
Original Assignee
Shenzhen Decode Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Decode Technology Co ltd filed Critical Shenzhen Decode Technology Co ltd
Priority to CN202211003340.0A priority Critical patent/CN115082045B/zh
Publication of CN115082045A publication Critical patent/CN115082045A/zh
Application granted granted Critical
Publication of CN115082045B publication Critical patent/CN115082045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据校对方法、装置、计算机设备和存储介质。所述方法包括:获取目标元数据对应的待校对的机器处理数据;目标元数据是对原始数据进行拆分得到的,机器处理数据是对原始机器处理数据进行拆分得到的;原始机器处理数据,是对原始数据进行机器处理所得到的数据;按照对象等级从低到高的顺序,从候选校对对象中确定与目标元数据匹配的目标校对对象;候选校对对象具有对象等级,对象等级用于表征目标校对对象的校对能力水平;基于目标校对对象针对待校对的机器处理数据的校对结果,确定机器处理数据对应的校对后的机器处理数据。采用本方法能够提高数据校对的效率。

Description

数据校对方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据校对方法、装置、计算机设备、存储介质。
背景技术
随着计算机技术及互联网的发展,通过机器处理可以将文字翻译成其他语言、将音频转成文字、对视频添加字幕、提取图片中的文字,由于机器处理的结果存在一定的不准确性,因此通常需要人工对机器处理后的数据进行进一步校对。例如,将音频转成文字后,需要人工进行校对所转的文字与音频所说的内容是否一致,将视频配上字幕后,需要人工进行校对所显示字幕是否与说话时间和内容一致,将图片转成文字后,需要人工进行校对所转的文字与图片上显示是否一致,将文本翻译成其他语种的时候,需要人工进行校对所翻译的内容是否与原文内容一致。
传统技术中,在数据校对领域,通常是将待校对的数据随机分配对校对人员进行校对,然而由于校对人员的校对水平通常是参差不齐的,随机分配的方式并不合理,容易导致校对过程中的时间浪费,从而存在数据校对效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据校对效率的数据校对方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种数据校对方法。所述方法包括:获取目标元数据对应的待校对的机器处理数据;所述目标元数据是对原始数据进行拆分得到的,所述机器处理数据是对原始机器处理数据进行拆分得到的;所述原始机器处理数据,是对所述原始数据进行机器处理所得到的数据;按照对象等级从低到高的顺序,从候选校对对象中确定与所述目标元数据匹配的目标校对对象;所述候选校对对象具有对象等级,所述对象等级用于表征所述目标校对对象的 校对能力水平;基于所述目标校对对象针对所述待校对的机器处理数据的校对结果,确定所述机器处理数据对应的校对后的机器处理数据。
第二方面,本申请还提供了一种数据校对装置。所述装置包括:数据获取模块,用于获取目标元数据对应的待校对的机器处理数据;所述目标元数据是对原始数据进行拆分得到的,所述机器处理数据是对原始机器处理数据进行拆分得到的;所述原始机器处理数据,是对所述原始数据进行机器处理所得到的数据;对象确认模块,用于按照对象等级从低到高的顺序,从候选校对对象中确定与所述目标元数据匹配的目标校对对象;所述候选校对对象具有对象等级,所述对象等级用于表征所述目标校对对象的校对能力水平;结果比对模块,用于基于所述目标校对对象针对所述待校对的机器处理数据的校对结果,确定所述机器处理数据对应的校对后的机器处理数据。
在一些实施例中,所述候选校对对象对应有元数据标签;所述元数据标签是用于表征元数据的特征的标签;所述对象确认模块还用于:获取所述目标元数据对应的目标元数据标签;按照对象等级从低到高的顺序,从所述候选校对对象中,确定所述目标元数据标签对应的目标校对对象。
在一些实施例中,所述目标校对对象为至少一个,包括第一校对对象;所述对象等级为多个,包括第一对象等级;所述对象确认模块还用于:获取所述目标元数据在所述元数据集合中的元数据编号;在所述元数据编号满足预设编号条件的情况下,从第一对象等级开始,按照对象等级从低到高的顺序,从所述候选校对对象中,确定所述目标元数据标签对应的第一校对对象;将所述目标元数据以及所述目标元数据的前向元数据发送至所述第一校对对象的校对终端,以对所述目标元数据以及所述前向元数据进行校对。
在一些实施例中,所述目标校对对象为至少一个,包括第二校对对象;所述对象等级为多个,包括第二对象等级;所述对象确认模块还用于:从第二对象等级开始,按照对象等级从低到高的顺序,从候选校对对象中确定与所述目标元数据匹配的第二校对对象;将所述目标元数据发送至所述第二校对对象的校对终端,以对所述目标元数据进行校对。
在一些实施例中,所述第一对象等级高于所述第二对象等级;所述结果比对模块还用于:获取所述第一校对对象的校对终端返回的第一校对结果以及第二校对结果;所述第一校对结果是针对所述目标元数据的校对结果,所述第二校对结果是针对所述前向元数据的校对结果;获取所述目标元数据的第三校对结果;所述第三校对结果是第二校对对象针对所述目标元数据的校对结果;获取所述前向元数据的第四校对结果;所述第四校对结果是第三校对对象针对所述前向元数据的校对结果;将所述第一校对结果与所述第三校对结果进行比对,以及将所述第二校对结果与所述第四校对结果进行比对,基于比对结果确定所述机器处理数据对应的校对后的机器处理数据。
在一些实施例中,所述装置还用于:获取所述目标校对对象对应的至少一个的已校对元数据;获取所述目标校对对象针对每个所述已校对元数据的目标校对结果;获取参考校对对象针对每个所述已校对元数据的参考校对结果;基于每个所述已校对元数据对应目标校对结果以及对应的参考校对结果,更新所述目标校对对象的对象等级。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述数据校对方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据校对方法中的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述数据校对方法中的步骤。
上述数据校对方法、装置、计算机设备、存储介质和计算机程序产品,获取目标元数据对应的待校对的机器处理数据,目标元数据是对原始数据进行拆分得到的,机器处理数据是对原始机器处理数据进行拆分得到的,原始机器处理数据,是对原始数据进行机器处理所得到的数据,按照对象等级从低到高的顺序,从候选校对对象中确定与目标元数据匹配的目标校对对象,候选校对对象具有对象等级,对象等级用于表征目标校对对象的校对能力,基于目标校对对象针对待校对的机器处理数据的校对结果,确定机器处理数据对应的校对后的机器处理数据。通过按照对象等级从低到高的顺序,从候选校对对象中确定与目标元数据匹配的目标校对对象,以使得目标校对对象执行校对任务,从而根据对象等级合理对校对对象进行了校对任务的分派,提高了校对工作中的校对任务的分派合理性和效率,从而加快了数据校对的效率。
附图说明
图1为一个实施例中数据校对方法的应用环境图;
图2为一个实施例中数据校对方法的流程示意图;
图3A为一个实施例中校对任务派单的流程示意图;
图3B为一个实施例中搜索目标校对对象的流程示意图;
图4为一个实施例中分配目标元数据的流程示意图;
图5为一个实施例中更新校对对象的对象等级的流程示意图;
图6另一个实施例中数据校对方法的流程示意图;
图7为一个实施例中数据校对装置的结构框图;
图8为一个实施例中计算机设备的内部结构图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的数据校对方法,可以应用于如图1所示的应用环境中。应用环境包括服务器102、第一校对终端104、第二校对终端106、第三校对终端108以及数据提交终端110。其中,第一校对终端104、第二校对终端106、第三校对终端108以及数据提交终端110通过网络与服务器102进行通信。数据存储系统可以存储服务器102需要处理的数据。数据存储系统可以集成在服务器102上,也可以放在云上或其他网络服务器上。第一校对终端104为初级校对对象的终端,第二校对终端106为中级校对对象的终端,第三校对终端108为高级校对对象的终端。
具体地,服务器102可以获取目标元数据和目标元数据对应的待校对的机器处理数据,机器处理数据是对目标元数据进行机器处理所得到的数据,按照对象等级从低到高的顺序,从候选校对对象中确定与目标元数据匹配的目标校对对象,例如,目标校对对象可以为与目标元数据标签相匹配的初级校对对象和中级校对对象,服务器102可以将目标元数据以及目标元数据对应的待校对的机器处理数据,发送至目标校对对象分别对应的校对终端,并接收不同对象等级的目标校对对象针对机器处理数据的校对结果然后进行比对,基于比对结果确定校对后的机器处理数据。例如,服务器可以将目标元数据以及目标元数据对应的待校对的机器处理数据发送至第一校对终端104以及第二校对终端106,在第一校对终端104以及第二校对终端106返回的校对结果不一致的情况下,还可以将目标元数据以及目标元数据对应的待校验的机器处理数据发送至第三校对终端108。服务器102可以储存数据校对过程中产生的所有数据以及校对对象的相关信息,例如可以存储原始数据、目标元数据、待校对的机器处理数据、校对结果或校对后的机器处理数据中的至少一种。
其中,终端可以但不限于是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑和智能手表等中的至少一种。服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案相关的部分场景,并不构成对本申请方案应用环境的限定。
在一些实施例中,如图2所示,提供了一种数据校对方法,该方法可以由终端或服务器执行,还可以由终端和服务器共同执行,以该方法应用于图1中的服务器102为例进行说明,包括以下步骤:
步骤202,获取目标元数据对应的待校对的机器处理数据;目标元数据是对原始数据进行拆分得到的,机器处理数据是对原始机器处理数据进行拆分得到的;原始机器处理数据,是对原始数据进行机器处理所得到的数据。
其中,元数据是指对原始数据进行拆分得到的数据,例如,元数据可以是对音频进行拆分得到的音频片段,原始数据可以拆分得到多个元数据,多个是指至少两个。目标元数据可以是任意的元数据。
原始数据是未经过拆分和机器处理的数据,原始数据包括音频、视频、图片、图形、表或文本中至少一种。目标元数据对应的待校对的机器处理数据是对目标元数据进行机器处理后得到的数据,机器处理包括但不限于是翻译、摘要提取、语音识别、文本识别或图像识别中的至少一种,机器处理还可以包括文章和内容、表格、图形、图片、音频、视频以及其他数据形式的文件的自动生成,机器处理是利用计算机对数据进行处理的过程,例如可以采用机器识别算法对数据进行处理,机器识别算法可以包括对音频进行识别得到音频对应的文本的算法、对视频进行识别得到视频对应的文本的算法、对图片进行识别得到图片对应的文本的算法或对文本进行翻译得到其他语言类型的文本的算法中的至少一种,机器处理数据包括音频对应的文本数据、视频对应的文本数据、图片对应的文本数据或文本对应的翻译数据中的至少一种。
具体地,服务器获取原始数据,对原始数据进行拆分和机器处理,得到目标元数据以及目标元数据对应的待校对的机器处理数据。然后,服务器会将目标元数据与对应的待校对的机器处理数据优先分配给不同对象等级的校对对象。原始数据可以是预先存储在服务器中的,也可以是服务器从其他设备获取的。
在一些实施例中,服务器可以首先对原始数据进行拆分,得到目标元数据,再对目标元数据进行机器处理得到对应的待校对的机器处理数据。例如,当原始数据为原始音频数据时,服务器对原始音频数据进行拆分,得到多个音频片段,每一个音频片段即为一个元数据。对原始音频数据的拆分方式可以是在固定时长处出现语气停顿时进行拆分,比如在音频时长1分钟处附近寻找语气停顿,对语气停顿点进行拆分,也可以按照固定时长对音频数据进行拆分,比如每一段音频片段的长度为1分钟。服务器将原始音频数据拆分成多个音频片段后,利用语音识别技术将每个音频片段转换成对应的文字内容,将转换成的文本内容确定为音频片段对应的待校对的机器处理数据。
在一些实施例中,服务器首先对原始数据进行机器处理,得到原始数据对应的原始机器处理数据,再对原始数据以及原始机器处理数据进行拆分,得到目标元数据和目标元数据对应的待校对的机器处理数据。例如,可以对原始数据进行拆分,得到多个元数据,对于每个元数据,从原始机器处理数据中确定元数据对应的数据片段,元数据对应的数据片段是原始机器处理数据中该元数据对应的识别结果。服务器可以将各个数据片段从原始机器处理数据中拆分出来,得到各个元数据分别对应的待校对的机器处理数据。
步骤204,按照对象等级从低到高的顺序,从候选校对对象中确定与目标元数据匹配的目标校对对象;候选校对对象具有对象等级,对象等级用于表征目标校对对象的校对能力水平。
其中,校对对象是负责对数据进行校对的对象,校对对象可以利用校对对象在校对系统中的身份信息进行唯一识别,身份信息包括在校对系统中的账号或手机号等中的至少一种。校对系统是指为校对工作提供支持的系统,例如,服务器中可以基于该校对系统实现本申请提供的数据校对方法。校对对象具有对象状态,对象状态用于表征校对对象当前校对工作的状态,对象状态可以划分为登录状态和离线状态。候选校对对象可以是任意的校对对象,例如可以是指当前处于登录状态的校对对象。候选校对对象可以为多个。该多个候选校对对象中可以包括分别属于各对象等级的候选校对对象,例如可以包括初级的候选校对对象、中级的候选校对对象或高级的候选校对对象中至少一种候选校对对象。
对象等级是用于表征校对对象的校对能力水平的,对象等级与校对能力水平成正相关关系,对象等级越高,则校对能力水平越大。其中,正相关关系指的是:在其他条件不变的情况下,两个变量变动方向相同,一个变量由大到小变化时,另一个变量也由大到小变化。校对能力水平包括但不限于校对准确程度、校对效率或校对次数中的至少一个。校对准确程度是指校对对象对机器处理数据进行校对得到的校对结果的准确率,校对效率是指于校对对象对机器处理数据进行校对得到的校对结果的速度,校对次数是指校对对象机器处理数据进行校对的次数。目标校对对象是由服务器确定的与目标元数据相匹配的校对对象,对象等级包括初级、中级、高级或终极中的至少一个,故不同对象等级的校对对象包括初级校对对象、中级校对对象、高级校对对象或终极校对对象中的至少一个。校对准确程度是指校对对象对机器处理数据进行校对得到的校对结果的准确程度,对象等级可以基于校对效率或校对准确程度中的至少一个得到。
具体地,服务器可以从候选校对对象集合中,按照对象等级从低到高的顺序,确定与目标元数据匹配的目标校对对象,并将目标元数据和对应的机器处理数据发送至目标校对对象的校对终端。其中,候选校对对象集合中包括一个或多个候选校对对象,多个是指至少两个。候选校对对象集合中的每个候选校对对象可以是当前处于登录状态的校对对象。例如,在分配一个元数据的校对任务之前,服务器按照对象等级从低到高的顺序,首先从候选校对对象中寻找与目标元数据匹配的初级校对对象,若当前候选校对对象中不存在初级校对对象,则从候选校对对象中继续寻找中级校对对象,若当前候选校对对象中也不存在中级校对对象,则从候选校对对象中继续寻找高级校对对象,按照这个优先顺序找到目标校对对象,并将目标元数据以及对应的待校对的机器处理数据发送至目标校对对象的校对终端。又例如,在分配多个元数据的校对任务之前,服务器按照对象等级从低到高的顺序,首先从候选校对对象中寻找与目标元数据匹配的中级校对对象,若当前候选校对对象中不存在中级校对对象,则从候选校对对象中继续寻找高级校对对象,按照这个优先顺序找到目标校对对象,并将多个目标元数据以及对应的待校对的机器处理数据发送至目标校对对象的校对终端。
在一些实施例中,服务器将原始数据进行拆分和机器处理后,把拆分的元数据和对应的待校对的机器处理数据作为一个数据包,在确定与目标元数据相匹配的目标校对对象后,将一个或多个数据包发送至目标校对对象的校对终端。服务器发送数据包的过程是独立的,并且可以将多个数据包进行合并后再发送。举例说明:服务器对原始音频拆分和语音识别得到了6个音频片段和分别对应的待校对的文字内容,一个音频片段和该音频片段对应的文字内容即为一个数据包。服务器向第一初级校对对象发送第1个音频片段对应的数据包,向第二初级校对对象发送第2个音频片段对应的数据包,而向中级校对对象发送数据包时,将第1个音频片段和第2个音频片段分别对应的数据包进行合并之后,将合并的数据包发送至中级校对对象的校对终端。而在对初级校对结果和中级校对结果进行对比的时候,可以将第1个音频片段和第2个音频片段对应的初级校对结果进行合并,与第1个音频片段和第2个音频片段对应的中级校对结果进行比对。在需要进行高级校对时,服务器可以将原始音频拆分得到的6个音频片段对应的校对结果按照等级进行合并,得到原始音频对应的初级校对结果和中级校对结果,将6个音频片段、各音频片段分别对应的待校对的文字内容、初级校对结果以及中级校对结果发送至高级校对对象的校对终端。
在一些实施例中,服务器可以对校对对象的对象状态进行更新。例如,对于处于登录状态的校对对象,服务器将目标元数据及机器处理数据发送至与之匹配的校对对象的校对终端,并记录发送时间,计算当前时间与发送时间之间的第一时间间隔,在第一时间间隔大于第一间隔阈值的情况下,未接收到校对对象的校对终端反馈的信息,则设置该校对对象为离线状态。第一间隔阈值可以根据需要预先设置,例如为5分钟。又例如,服务器在接收到校对对象的校对终端反馈的信息时,记录下接收时间,记录当前时间与接收之间的第二时间间隔,若在第二时间间隔大于第二间隔阈值的情况下,未接收到校对对象的校对终端提交的校对结果,则设置该校对对象为离线状态。
在一些实施例中,数据提交终端可以显示数据校对提交页面,数据校对提交页面上可以包括数据输入区域,数据输入区域用于接收原始数据。数据提交终端获取向数据输入区域中输入的原始数据,向服务器发送数据校对请求,数据校对请求中可以携带向数据输入区域中输入的原始数据,服务器可以对接收到的原始数据进行拆分,得到目标元数据。
在一些实施例中,服务器可以基于目标元数据标签,从候选校对对象中确定与目标元数据匹配的目标校对对象。其中,目标元数据标签是指目标元数据的元数据标签,元数据标签是对元数据进行特征提取得到的特征标签,用于表征元数据的特征。
步骤206,基于目标校对对象针对待校对的机器处理数据的校对结果,确定机器处理数据对应的校对后的机器处理数据。
其中,校对结果是根据目标元数据对目标元数据对应的待校对的机器处理数据进行校对得到的数据。在校对对象确定待校对的机器处理数据为准确的情况下,则校对对象得到的校对结果与待校对的机器处理数据一致,在校对对象确定待校对的机器处理数据需要修改的情况下,可以对待校对的机器处理数据进行修改,修改后的机器处理数据为该校对对象的校对结果。
校对后的机器处理数据是指经过不同等级的校对对象校对后最终确定的机器处理数据,例如,可以是对不同等级的校对对象的校对结果进行比对,基于比对结果确定的机器处理数据。比对结果是将不同对象等级的目标校对对象的校对结果进行比对后得到的,例如,比对结果可以是不同点数,不同点数是指两个校对结果中不同之处的数量,例如,目标元数据为音频片段。目标元数据的机器处理数据对音频片段对应的文本数据A,初级校对对象的校对结果为A1,中级校对对象的校对结果为A2,A1与A2中的不同之处的数量则为不同点数。
具体地,校对终端可以在校对页面显示目标元数据以及目标元数据对应的待校对的机器处理数据,响应于针对待校对的机器处理数据的修改操作,显示修改后的机器处理数据,响应于校对完成操作,将当前的修改后的机器处理数据确定为校对对象的校对结果,将校对结果发送至服务器。
在一些实施例中,服务器可以获取初级校对对象对应的初级校对结果以及中级校对对象对应的中级校对结果,初级校对结果是初级校对对象基于目标元数据以及目标元数据对应的待校对的机器处理数据进行校对后所得到的结果,中级校对结果是中级校对对象基于目标元数据以及目标元数据对应的待校对的机器处理数据进行校对后所得到的结果,将初级校对结果与中级校对结果进行比对,得到不同点数,基于不同点数与点数阈值,确定目标元数据对应的校对后的机器处理数据。其中,点数阈值可以根据需要设置。当不同点数大于或等于点数阈值时,则服务器确定与目标元数据的元数据标签匹配的高级校对对象,将目标元数据、机器处理数据、初级校对结果与中级校对结果中的不同之处,发送至高级校对对象的校对终端,并获取高级校对对象的高级校对结果。当不同点数小于点数阈值,则无需进行高级校对。
在一些实施例中,服务器获取目标元数据所属的元数据集合,以及元数据集合中各元数据分别对应的初级校对结果和中级校对结果,得到每个元数据对应的初级校对结果和中级校对结果之间的不同点数,统计元数据集合对应的不同点数之和,若不同点数之和大于点数阈值,则服务器可以确定元数据集合对应的初级校对结果以及中级校对结果之间的不同之处,将不同之处、元数据集合以及元数据集合中各元数据对应的待校对的机器处理数据,发送至高级校对对象的校对终端。
在一些实施例中,服务器可以确定目标元数据对应的初级校对结果、中级校对结果以及高级校对结果之间的不同之处,将该不同之处、目标元数据、目标元数据对应的待校对的机器处理数据,发送至终极校对对象对应的校对终端,得到终极校对结果。
在一些实施例中,服务器获取到的多个不同对象等级的校对对象分别反馈的校对结果,若多个不同等级的校对结果均不同,则服务器可以将对应的目标元数据及机器处理数据发送至更多具有该目标元数据标签的校对对象的校对终端。当服务器所有获取到的校对结果中的一个校对结果数量达到了预设数量要求时,则停止发送,以该校对结果作为校对后的机器处理数据。
上述数据校对方法中,获取目标元数据对应的待校对的机器处理数据,目标元数据是对原始数据进行拆分得到的,机器处理数据是对原始机器处理数据进行拆分得到的,原始机器处理数据,是对原始数据进行机器处理所得到的数据,按照对象等级从低到高的顺序,从候选校对对象中确定与目标元数据匹配的目标校对对象,候选校对对象具有对象等级,对象等级用于表征目标校对对象的校对能力水平,基于目标校对对象针对待校对的机器处理数据的校对结果,确定机器处理数据对应的校对后的机器处理数据。通过按照对象等级从低到高的顺序,从候选校对对象中确定与目标元数据匹配的目标校对对象,以使得目标校对对象执行校对任务,从而根据对象等级合理对校对对象进行了校对任务的分派,提高了校对工作中的校对任务的分派合理性和效率,从而加快数据校对工作的效率。
本申请提供的数据校对方法,通过分级众包模式实现校对任务的分配,众包是指一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的大众志愿者的做法,分级是指基于对象等级分配不同数量的数据包的任务,一个数据包可以包括一个元数据以及该元数据对应的待校对的机器处理数据。本申请提供的数据校对方法,通过把原始数据拆分成元数据集合,将各元数据与对应的待校对的机器处理数据,分配给校对系统中至少两个对象等级的校对对象,实现了分级众包,提高了数据校对的效率,此外,将至少两个对象等级的校对对象的校对结果进行比对,基于比对结果得到校对后的机器处理数据,提高了数据校对的准确度,另外,还降低了校对成本。
在一些实施例中,候选校对对象对应有元数据标签;元数据标签是用于表征元数据的特征的标签;步骤204还包括:获取目标元数据对应的目标元数据标签;按照对象等级从低到高的顺序,从候选校对对象中,确定目标元数据标签对应的目标校对对象。
其中,元数据标签是对元数据进行特征提取得到的特征标签,用于表征元数据的特征,元数据标签包括目标元数据所属领域、语种或语速中的至少一种,领域包括教育、金融、法律或娱乐等中的至少一个,语种包括普通话、英文、俄文或粤语等中的至少一个,语速包括快速、中速或慢速中的至少一个。目标元数据标签是目标元数据的特征标签。校对对象对应有元数据标签,例如,初级校对对象、中级校对对象以及高级校对对象等分别对应有元数据标签。不同等级的校对对象所对应的元数据标签可以相同也可以不同,每个校对对象可以有至少一个元数据标签。校对对象所对应的元数据标签可以是根据需要设置的,也可以是根据校对对象在历史时间段内已完成校对工作的元数据的特征确定的,例如,可以获取校对对象在历史时间段内已完成校对工作的各元数据,获取该各元数据中的每个元数据分别对应的元数据标签,可以从获取的各个元数据标签中,统计出每一种元数据标签的数量,得到每一种元数据标签分别对应的标签数量,将标签数量大于数量阈值的元数据标签确定为该校对对象所对应的元数据标签。数据阈值可以根据需要设置。
具体地,服务器对目标元数据进行特征提取,基于提取到的特征识别目标元数据所属的元数据标签,得到目标元数据标签。例如,目标元数据中包括与游戏相关的内容的情况,则可以确定目标元数据所属的领域为娱乐,则可以将娱乐作为目标元数据的元数据标签。对于每种对象等级,服务器可以获取该对象等级的各候选校对对象,计算目标元数据标签与候选校对对象的元数据标签之间的标签相似度,基于标签相似度从该对象等级的候选校对对象中确定与目标元数据匹配的该对象等级的目标校对对象,例如,可以将标签相似度大于相似度阈值的候选校对对象确定为该对象等级的目标校对对象,或者将标签相似度最大的候选校对对象确定为该对象等级的目标校对对象,每种对象等级的候选校对对象可以为一个或多个,多个是指至少两个。其中,相似度阈值可以根据需要进行设置。例如,服务器对目标元数据进行特征提取,得到目标元数据对应的元数据标签为“金融”和“粤语”,从初级校对对象的各候选校对对象中,查找具有“金融”和“粤语”标签的初级校对对象,得到初级校对对象的目标校对对象,从中级校对对象的各候选校对对象中,查找具有“金融”和“粤语”标签的初级校对对象,得到中级校对对象的目标校对对象。服务器可以将目标元数据、机器处理数据发送至初级校对对象和中级校对对象分别对应的校对终端。
在一些实施例中,如图3A所示,服务器基于目标元数据标签确定对应的目标校对对象之后,对目标元数据及对应的机器处理数据进行锁定,锁定后的数据无法被发送至其他校对对象的校对终端,然后向目标校对对象的校对终端发送接单通知,若服务器没有接收到校对终端的接单反馈,则在候选校对对象中确定目标校对对象;若服务器接收到校对终端的接单反馈,则将目标元数据及对应的机器处理数据发送至目标校对对象的校对终端,若服务器在预设时间内未收到目标校对对象的校对结果,则该校对任务作废,服务器继续在候选校对对象中确定新的目标校对对象,若服务器在预设时间内接收到目标校对对象的校对结果,则确定目标校对对象完成本次校对,并将目标元数据的校对状态更新为已校对,已校对的数据不会被发送至其他校对对象的校对终端。校对状态可以划分为已校对、未校对和校对中。
在一些实施例中,如图3B所示,候选校对对象为处于登录状态的校对对象,服务器可以获取所有处于登录状态的校对对象,若获取失败,则服务器生成通知消息,将通知消息发送至处于离线状态的校对对象的校对终端,通知消息可以是手机短信息、手机通话或终端页面弹窗;若获取成功,则在处于登录状态的各校对对象中,确定是否存在与目标元数据标签对应的校对对象,若不存在,则服务器生成通知消息,将通知消息发送至处于离线状态的校对对象的校对终端,若存在,则从与目标元数据标签对应的校对对象中,确定对应的目标校对对象,并将目标元数据及对应的机器处理数据发送至目标校对对象的校对终端。
本实施例中,通过对元数据标签进行匹配,将目标元数据与对应的机器处理数据分配给目标校对对象进行校对,提高了数据校对的工作效率,同时也提高了数据校对的准确率。
在一些实施例中,目标校对对象为至少一个,包括第一校对对象;对象等级为多个,包括第一对象等级,步骤204还包括:获取目标元数据在元数据集合中的元数据编号;在元数据编号满足预设编号条件的情况下,从第一对象等级开始,按照对象等级从低到高的顺序,从候选校对对象中,确定目标元数据标签对应的第一校对对象;将目标元数据以及目标元数据的前向元数据发送至第一校对对象的校对终端,以对目标元数据以及前向元数据进行校对。
其中,第一校对对象是指对2个元数据及对应的机器处理数据进行校对的校对对象,第一校对等级是第一校对对象的校对等级,第一校对等级可以为中级或高级中的至少一个,第一校对对象包括中级校对对象或高级校对对象中的至少一个。中级校对对象是候选校对对象中对象等级为中级的校对对象,高级校对对象是候选校对对象中对象等级为高级的校对对象。
元数据集合是对原始数据进行拆分得到的各个元数据组成的集合,元数据编号是元数据在元数据集合中对应的编号,不同的元数据所对应的元数据编号不同,元数据编号可以是根据元数据在原始数据中的位置确定的,元数据在原始数据中的位置越靠前,则元数据对应的元数据编号越小。例如,原始数据经过拆分后得到了3个元数据,分别为第一个元数据、第二个元数据和第三个元数据,第一个元数据在原始数据中的位置在第二个元数据之前,第二个元数据在原始数据中的位置在第三个元数据之前,则第一个元数据的编号可以为0、第二个元数据编号可以为1、第三个元数据编号可以为2。预设编号条件可以是元数据编号为奇数或元数据编号为最大编号中的至少一个。元数据集合中各个元数据分别对应的元数据编号是从0开始的连续的正整数。
具体地,服务器获取目标元数据在元数据集合中对应的元数据编号,当目标元数据的元数据编号属于奇数的情况下,在候选校对对象中,从对象等级为中级开始,按照对象等级从低到高的顺序,确定目标元数据标签对应的第一校对对象,将目标元数据、目标元数据的前向元数据、目标元数据的待校对的机器处理数据、目标元数据的前向元数据对应的待校对的机器处理数据,发送至第一校对对象的校对终端。其中,目标元数据的前向元数据的元数据编号小于目标元数据的元数据编号,目标元数据的前向元数据的元数据编号与目标元数据的元数据编号连续。
举例说明,元数据集合中有5个元数据,元数据编号分别为0、1、2、3和4,目标元数据为元数据集合中元数据编号为1的元数据,由于元数据编号为1 满足元数据编号为奇数的条件,故服务器可以获取元数据编号为0的元数据,将元数据编号为1的元数据即目标元数据、元数据编号为0的元数据即目标元数据的前向元数据、元数据编号为1的元数据的待校对的机器处理数据、元数据编号为0的元数据的待校对的机器处理数据,发送至第一校对对象的校对终端。
在一些实施例中,服务器获取目标元数据在元数据集合中对应的元数据编号,当目标元数据的元数据编号为元数据集合中编号最大的目标元数据,则确定目标元数据的元数据编号满足元数据编号为最大编号的条件,则将目标元数据以及目标元数据对应的待校对的机器处理数据发送至第一校对对象。
在一些实施例中,元数据集合中各个元数据分别对应的元数据编号是从0开始的连续的正整数。服务器可以按照元数据编号从小到大的顺序,依次从元数据集合中确定目标元数据,将目标元数据分配给目标元数据标签对应的初级校对对象。举例说明,元数据集合中有3个元数据,元数据编号分别为0、1和2。服务器在元数据集合中获取的元数据编号为0,将其确定为目标元数据并获取对应的目标元数据标签,基于目标元数据标签确定相匹配的初级校对对象,然后将目标元数据、机器处理数据发送至初级校对对象的校对终端。之后,服务器在元数据集合中获取元数据编号为1的元数据,重复上述步骤。
如图4所示,服务器获取原始数据,确定校对模式,然后对原始数据进行拆分和机器处理,得到N个元数据以及对应的待校对的机器处理数据,然后对第i个元数据进行特征提取,得到第i个元数据对应的元数据标签,i的初始值为0。其中,服务器对原始数据进行拆分和机器处理的顺序不限定,可以先对原始数据进行拆分得到N个元数据,再对第i个元数据进行机器处理,即将第i个元数据作为目标元数据,得到第i个元数据对应的待校对的机器处理数据;也可以先对原始数据进行机器处理,得到原始数据对应的原始机器处理数据,再对原始数据和原始机器处理数据进行拆分,得到N个元数据,从原始机器处理数据中确定每个元数据对应的数据片段,得到第i个元数据对应的待校对的机器处理数据。
服务器基于元数据标签确定对应的初级校对对象和中级校对对象,将第i个元数据以及第i个元数据对应的待校对的机器处理数据,发送至初级校对对象的校对终端,当i为奇数的时候,把第i个和第i-1个元数据组合后,将组合后的元数据以及对应的待校对的机器处理数据,发送至中级校对对象的校对终端;或者在N为奇数的情况下,即原始数据拆分得到了奇数个元数据,当i为最大编号值时,把第i个和第i-1个元数据组合后,将组合后的元数据以及对应的待校对的机器处理数据,发送至中级校对对象的校对终端。这里将元数据发给初级校对对象和中级校对对象分别对应的校对终端,是没有先后顺序的,两个过程是独立的,互不冲突。当初级校对对象校对完第i个元数据之后,校对系统检测中级校对对象是否完成第i个元数据校对,如果确认完成就初级校对结果与中级校对结果进行比对,比对后得到不同点数,当不同点数大于点数阈值,则继续进行高级校对,或者在N个元数据全部校对完成之后,对元数据集合进行高级校对。服务器确认完成高级校对之后,可以根据校对需求进行终极校对。
在一个实施例中,如图4所示,服务器在基于元数据标签确定对应的目标校对对象时,优先获取初级校对对象和中级校对对象,并不限定目标校对对象的等级。服务器基于元数据标签获取对应的初级校对对象,将第i个元数据以及第i个元数据对应的待校对的机器处理数据,发送至初级校对对象的校对终端;当没有获取到对应的初级校对对象时,可以获取对应的中级校对对象,将第i个元数据和对应的待校对的机器处理数据发送至中级校对对象的校对终端;当没有获取到对应中级校对对象时,可以获取对应的高级校对对象,将第i个元数据和对应的待校对的机器处理数据发送至高级校对对象的校对终端。同样的,当i为奇数或为最大编号值的时候,服务器基于元数据标签获取对应的中级校对对象,将第i-1和第i个元数据组合后,将组合后的元数据以及对应的待校对的机器处理数据,发送至中级校对对象的校对终端;当没有获取到对应中级校对对象时,可以获取对应的高级校对对象,将第i-1和第i个元数据组合后,将组合后的元数据以及对应的待校对的机器处理数据,发送至高级校对对象的校对终端。
本实施例中,基于目标元数据在元数据集合中的元数据编号与预设编号条件,实现了将元数据合理分配至第一校对对象,提高了校对工作的效率。
在一些实施例中,目标校对对象为至少一个,包括第二校对对象;对象等级为多个,包括第二对象等级;步骤204包括:从第二对象等级开始,按照对象等级从低到高的顺序,从候选校对对象中确定与目标元数据匹配的第二校对对象;将目标元数据发送至第二校对对象的校对终端,以对目标元数据进行校对。
其中,第二校对对象指对1个元数据及对应的机器处理数据进行校对的校对对象,第二校对等级是第二校对对象的校对等级,第二校对等级可以为初级、中级或高级中的至少一个,第二校对对象包括初级校对对象、中级校对对象或高级校对对象中的至少一个。
在一些实施例中,第一对象等级高于第二对象等级;步骤206还包括:获取第一校对对象的校对终端返回的第一校对结果以及第二校对结果;第一校对结果是针对目标元数据的校对结果,第二校对结果是针对前向元数据的校对结果;获取目标元数据的第三校对结果;第三校对结果是第二校对对象针对目标元数据的校对结果;获取前向元数据的第四校对结果;第四校对结果是第三校对对象针对前向元数据的校对结果;将第一校对结果与第三校对结果进行比对,以及将第二校对结果与第四校对结果进行比对,基于比对结果确定机器处理数据对应的校对后的机器处理数据。
其中,目标元数据的前向元数据的元数据编号小于目标元数据的元数据编号,目标元数据的前向元数据的元数据编号与目标元数据的元数据编号连续。
具体地,服务器可以将目标元数据以及目标元数据的待校对的机器处理数据,发送至第二校对对象的校对终端,将目标元数据的前向元数据以及该前向元数据对应的待校对的机器处理数据,发送至第三校对对象的校对终端,并将目标元数据、目标元数据的前向元数据、目标元数据的待校对的机器处理数据、目标元数据的前向元数据对应的待校对的机器处理数据,发送至第一校对对象的校对终端。第二校对对象的校对终端、第三校对对象的校对终端以及第一校对对象的校对终端,可以将对应的校对结果返回至服务器,服务器接收第二校对对象的校对终端返回的第三校对结果、第三校对对象的校对终端返回的第四校对结果、第一校对对象的校对终端返回的第一校对结果以及第二校对结果,将第三校对结果与第一校对结果进行对比,并将第四校对结果与第二校对结果进行比对,得到比对结果,即不同点数,若不同点数大于点数阈值,则确定第三校对结果与第一校对结果、第四校对结果与第二校对结果的不同之处,将该不同之处、目标元数据、目标元数据对应的待校对的机器处理数据、目标元数据的前向元数据、前向元数据对应的待校对的机器处理数据,发送至高级校对对象的校对终端。若不同点数小于点数阈值,则无需进行高级校对。
本实施例中,通过将第二校对对象的第三校对结果和与第三校对对象的第四校对结果与第一校对对象的第一校对结果和第二校对结果进行比对,基于比对结果确定校对后的机器处理数据,提高了数据校对的效率。
在一些实施例中,目标元数据是对原始文本数据进行拆分得到的元数据集合中的元数据;数据校对方法还包括:对原始文本数据进行翻译,得到原始文本数据的翻译文本数据;对原始文本数据进行拆分得到元数据集合;对翻译文本数据进行拆分,得到元数据集合中每个元数据分别对应的待校对的机器处理数据。
其中,原始文本数据是指文本格式的原始数据。
具体地,由于文本数据的各段落涉及上下文关系,影响其机器翻译的准确度,故服务器可以首先对原始文本数据进行翻译,得到原始文本数据的翻译文本数据,再按照段落对原始文本数据进行拆分,得到文本段落集合,文本段落集合即为元数据集合,一个文本段落即为一个元数据,并对原始文本数据对应的翻译文本数据进行拆分,得到原始文本数据每个段落对应的待校对的翻译文本数据的段落。
本实施例中,通过对原文本数据进行先翻译后拆分的处理步骤,能够提高文本识别的准确度,从而提高了数据校对的准确度。
在一些实施例中,数据校对方法还包括:获取目标校对对象对应的至少一个的已校对元数据;获取目标校对对象针对每个已校对元数据的目标校对结果;获取参考校对对象针对每个已校对元数据的参考校对结果;基于每个已校对元数据对应目标校对结果以及对应的参考校对结果,更新目标校对对象的对象等级。
其中,在元数据的待校对的机器处理数据完成校对的情况下,元数据则属于已校对元数据,即在确定了元数据对应的校对后的机器处理数据的情况下,元数据则属于已校对元数据。目标校对对象对应的已校对元数据是指经过该目标校对对象校对过的已校对元数据。
目标校对对象针对已校对元数据的目标校对结果,是指在校对对象为目标校对对象的情况下,该已校对元数据的校对结果。
参考校对对象是指确认已校对元数据对应的参考校对结果的校对对象,已校对元数据的参考校对结果是指该已校对元数据对应的校对后的机器处理数据。参考校对对象是指确定已校对元数据对应的校对后的机器处理数据的校对对象。
具体地,服务器获取目标校对对象对应的至少一个已校对元数据,获取目标校对对象的初始积分,将初始积分作为当前积分,依次从该至少一个已校对元数据中确定一个已校对元数据,获取目标校对对象对该已校对元数据的校对结果,得到该已校对元数据的目标校对结果,获取参考校对对象针对该已校对元数据的参考校对结果,在目标校对结果与参考校对结果相同的情况下,在当前积分与递增积分进行加和计算,得到下一轮的当前积分,返回依次从该至少一个已校对元数据中确定一个已校对元数据的步骤,指到遍历至少一个已校对元数据中的各已校对元数据为止,将当前积分作为目标积分。其中,在目标校对结果与参考校对结果不同的情况下,保持目标校对对象的当前积分不变。初始积分可以根据需要设置,例如为0。递增积分可以根据需要设置,例如为1。
如图5所示,服务器针对不同对象等级的目标校对对象,获取目标校对对象对应的至少一个的已校对元数据,基于每个已校对元数据对应目标校对结果以及对应的参考校对结果,更新目标校对对象的当前积分。如图5中的(a)所示,为更新初级校对对象的当前积分的流程示意图;如图5中的(b)所示,为更新中级校对对象的当前积分的流程示意图;如图5中的(c)所示,为更新高级校对对象的当前积分的流程示意图。
在一些实施例中,针对该至少一个已校对元数据中的每个已校对元数据,在目标校对结果与参考校对结果相同的情况下,确定校对正确,在目标校对结果与参考校对结果不同的情况下,确定校对错误,统计目标校对对象对应的至少一个已校对元数据中校对正确的已校对元数据的数量,得到正确校对数量,基于正确校对数据确定目标校对对象的当前校对准确率,当前校对准确率与正确校对数量成正相关关系。服务器可以将当前校对准确率与准确率阈值进行对比,在当前校对准确率大于准确率阈值的情况下,提升目标校对对象的对象等级,在当前校对准确率小于准确率阈值的情况下,降低目标校对对象的对象等级。
服务器基于目标校对对象的目标积分与积分阈值进行比对,在目标积分大于积分阈值的情况下,提升目标校对对象的对象等级,在目标积分小于积分阈值的情况下,降低目标校对对象的对象等级。积分阈值可以根据需要设置。
在一些实施例中,服务器基于目标校对对象对应的至少一个已校对元数据的元数据标签,确定目标校对对象对应有的元数据标签。服务器可以获取目标校对对象对应的至少一个已校对元数据的元数据标签,以及已校对元数据对应的积分获取情况,基于元数据标签进行积分统计,将积分排名前三的元数据标签作为目标校对对象对应的元数据标签。
在一些实施例中,用户只要进行注册就可以成为校对系统中的校对对象,注册不限制用户的文化水平、年龄、性别和地域。初始校对对象没有校对等级,所进行的校对过程为校对练习,需要校对练习次数达到预设练习次数或校对练习准确率达到预设练习准确率阈值中的至少一个,才能获得对应的对象等级。等级要求可以是练习次数达到预设次数要求或练习结果准确率达到预设准确率要求中的至少一个。
在一些实施例中,校对对象完成校对任务后,校对对象只能通过校对终端查看到本次校对任务的时间、准确率和校对积分,而不能再查看元数据、对应的机器处理数据以及自己的校对结果,使数据得到一定的保护。
本实施例中,通过将每个已校对元数据对应的目标校对对象的目标校对结果与参考校对对象的参考校对结果进行对比,更新目标校对对象的对象等级,提高了数据校对的效率。此外,通过减少数据校对的门槛限制,还降低了校对成本。
在一些实施例中,如图6所示,提供了一种数据校对方法,该方法可以由终端或服务器执行,还可以由终端和服务器共同执行,以该方法应用于服务器为例进行说明,包括以下步骤:
步骤602,获取原始数据,基于原始数据得到目标元数据与对应的待校对的机器处理数据。
其中,机器处理数据是对目标元数据进行机器处理所得到的数据。
步骤604,对目标元数据进行特征提取,得到目标元数据标签。
其中,目标元数据标签是用于表征元数据的特征的标签。
步骤606,从候选校对对象中确定具有目标元数据标签的初级校对对象与中级校对对象,将目标元数据及待校对的机器处理数据发送至对应的校对终端。
步骤608,获取目标元数据的第一初级校对结果和前向元数据的第二初级校对结果。
其中,第一初级校对结果是第一初级校对对象针对目标元数据的校对结果,第二初级校对结果是第二初级校对对象针对前向元数据的校对结果;
步骤610,获取中级校对对象的校对终端返回的第一中级校对结果以及第二中级校对结果。
其中,第一中级校对结果是针对目标元数据的校对结果,第二中级校对结果是针对前向元数据的校对结果。
步骤612,将第一初级校对结果与第一中级校对结果进行比对,以及将第二初级校对结果与第二中级校对结果进行比对,得到不同点数。
步骤614,基于不同点数与点数阈值,确定校对后的机器处理数据。
本实施例中,获取目标元数据与对应的待校对的机器处理数据,并对目标元数据进行特征提取得到元数据标签,从候选校对对象中确定具有目标元数据标签的初级校对对象与中级校对对象,将目标元数据及待校对的机器处理数据发送至对应的校对终端,获取目标元数据的第一初级校对结果和前向元数据的第二初级校对结果,以及中级校对对象的校对终端返回的第一中级校对结果以及第二中级校对结果,将第一初级校对结果与第一中级校对结果以及第二初级校对结果与第二中级校对结果分别进行比对,得到不同点数,基于不同点数与点数阈值,确定校对后的机器处理数据。通过基于初级校对对象与中级校对对象分别针对机器处理数据的校对结果,快速的确定了校对后的机器处理数据,提高了数据校对工作的效率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据校对方法的数据校对装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据校对装置实施例中的具体限定可以参见上文中对于数据校对方法的限定,在此不再赘述。
在一些实施例中,如图7所示,提供了一种数据校对装置,包括:数据获取模块702、对象确认模块704和结果比对模块706,其中:
数据获取模块702,用于获取目标元数据对应的待校对的机器处理数据;目标元数据是对原始数据进行拆分得到的,机器处理数据是对原始机器处理数据进行拆分得到的;原始机器处理数据,是对原始数据进行机器处理所得到的数据。
对象确认模块704,用于按照对象等级从低到高的顺序,从候选校对对象中确定与目标元数据匹配的目标校对对象;候选校对对象具有对象等级,对象等级用于表征目标校对对象的校对能力水平。
结果比对模块706,基于目标校对对象针对待校对的机器处理数据的校对结果,确定机器处理数据对应的校对后的机器处理数据。
在一些实施例中,候选校对对象对应有元数据标签;元数据标签是用于表征元数据的特征的标签;对象确认模块还用于:获取目标元数据对应的目标元数据标签;按照对象等级从低到高的顺序,从候选校对对象中,确定目标元数据标签对应的目标校对对象。
在一些实施例中,目标校对对象为至少一个,包括第一校对对象;对象等级为多个,包括第一对象等级;对象确认模块还用于:获取目标元数据在元数据集合中的元数据编号;在元数据编号满足预设编号条件的情况下,从第一对象等级开始,按照对象等级从低到高的顺序,从候选校对对象中,确定目标元数据标签对应的第一校对对象;将目标元数据以及目标元数据的前向元数据发送至第一校对对象的校对终端,以对目标元数据以及前向元数据进行校对。
在一些实施例中,目标校对对象为至少一个,包括第二校对对象;对象等级为多个,包括第二对象等级;对象确认模块还用于:从第二对象等级开始,按照对象等级从低到高的顺序,从候选校对对象中确定与目标元数据匹配的第二校对对象;将目标元数据发送至第二校对对象的校对终端,以对目标元数据进行校对。
在一些实施例中,第一对象等级高于第二对象等级;结果比对模块还用于:获取第一校对对象的校对终端返回的第一校对结果以及第二校对结果;第一校对结果是针对目标元数据的校对结果,第二校对结果是针对前向元数据的校对结果;获取目标元数据的第三校对结果;第三校对结果是第二校对对象针对目标元数据的校对结果;获取前向元数据的第四校对结果;第四校对结果是第三校对对象针对前向元数据的校对结果;将第一校对结果与第三校对结果进行比对,以及将第二校对结果与第四校对结果进行比对,基于比对结果确定机器处理数据对应的校对后的机器处理数据。
在一些实施例中,装置还用于:获取目标校对对象对应的至少一个的已校对元数据;获取目标校对对象针对每个已校对元数据的目标校对结果;获取参考校对对象针对每个已校对元数据的参考校对结果;基于每个已校对元数据对应目标校对结果以及对应的参考校对结果,更新目标校对对象的对象等级。
上述数据校对装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据校对涉及的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据校对方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据校对方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述数据校对方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述数据校对方法中的步骤.
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述数据校对方法中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据校对方法,其特征在于,所述方法包括:
获取目标元数据对应的待校对的机器处理数据;所述目标元数据是对原始数据进行拆分得到的,所述机器处理数据是对原始机器处理数据进行拆分得到的;所述原始机器处理数据,是对所述原始数据进行机器处理所得到的数据;
按照对象等级从低到高的顺序,从候选校对对象中确定与所述目标元数据匹配的目标校对对象;所述候选校对对象具有对象等级,所述对象等级用于表征所述目标校对对象的校对能力水平;所述目标校对对象包括第一校对对象以及第二校对对象;所述第一校对对象的对象等级高于所述第二校对对象的对象等级;更新所述目标校对对象的对象等级的步骤包括:获取所述目标校对对象对应的至少一个的已校对元数据;获取所述目标校对对象针对每个已校对元数据的目标校对结果;获取参考校对对象针对每个已校对元数据的参考校对结果;基于每个已校对元数据对应的目标校对结果以及对应的参考校对结果,更新目标校对对象的对象等级;
基于所述目标校对对象针对所述待校对的机器处理数据的校对结果,确定所述机器处理数据对应的校对后的机器处理数据;包括:将所述目标元数据、所述目标元数据的前向元数据、所述目标元数据的待校对的机器处理数据、所述目标元数据的前向元数据对应的待校对的机器处理数据,发送至所述第一校对对象的校对终端,以对所述目标元数据以及所述前向元数据分别对应的待校对的机器处理数据进行校对;将所述目标元数据以及目标元数据的待校对的机器处理数据发送至所述第二校对对象的校对终端,以对所述目标元数据的待校对的机器处理数据进行校对;将所述第一校对对象针对所述待校对的机器处理数据的校对结果与所述第二校对对象针对所述待校对的机器处理数据的校对结果进行对比,基于对比结果确定所述机器处理数据对应的校对后的机器处理数据;其中,所述前向元数据的元数据编号小于所述目标元数据的元数据编号,所述前向元数据的元数据编号与所述目标元数据的元数据编号连续。
2.根据权利要求1所述的方法,其特征在于,所述候选校对对象对应有元数据标签;所述元数据标签是用于表征元数据的特征的标签;
所述按照对象等级从低到高的顺序,从候选校对对象中确定与所述目标元数据匹配的目标校对对象包括:
获取所述目标元数据对应的目标元数据标签;
按照对象等级从低到高的顺序,从所述候选校对对象中,确定所述目标元数据标签对应的目标校对对象。
3.根据权利要求2所述的方法,其特征在于,所述对象等级为多个,包括第一对象等级;所述按照对象等级从低到高的顺序,从所述候选校对对象中,确定所述目标元数据标签对应的目标校对对象包括:
获取所述目标元数据在元数据集合中的元数据编号;
在所述元数据编号满足预设编号条件的情况下,从第一对象等级开始,按照对象等级从低到高的顺序,从所述候选校对对象中,确定所述目标元数据标签对应的第一校对对象;
将所述目标元数据、所述目标元数据的前向元数据、所述目标元数据的待校对的机器处理数据、所述目标元数据的前向元数据对应的待校对的机器处理数据,发送至所述第一校对对象的校对终端,以对所述目标元数据以及所述前向元数据分别对应的待校对的机器处理数据进行校对。
4.根据权利要求3所述的方法,其特征在于,所述对象等级为多个,包括第二对象等级;
所述按照对象等级从低到高的顺序,从所述候选校对对象中,确定所述目标元数据标签对应的目标校对对象包括:
从第二对象等级开始,按照对象等级从低到高的顺序,从候选校对对象中确定与所述目标元数据匹配的第二校对对象;
将所述目标元数据以及目标元数据的待校对的机器处理数据发送至所述第二校对对象的校对终端,以对所述目标元数据的待校对的机器处理数据进行校对。
5.根据权利要求4所述的方法,其特征在于,所述第一对象等级高于所述第二对象等级;所述基于所述目标校对对象针对所述待校对的机器处理数据的校对结果,确定所述机器处理数据对应的校对后的机器处理数据包括:
获取所述第一校对对象的校对终端返回的第一校对结果以及第二校对结果;所述第一校对结果是针对所述目标元数据的校对结果,所述第二校对结果是针对所述前向元数据的校对结果;
获取所述目标元数据的第三校对结果;所述第三校对结果是第二校对对象针对所述目标元数据的校对结果;
获取所述前向元数据的第四校对结果;所述第四校对结果是第三校对对象针对所述前向元数据的校对结果;
将所述第一校对结果与所述第三校对结果进行比对,以及将所述第二校对结果与所述第四校对结果进行比对,基于比对结果确定所述机器处理数据对应的校对后的机器处理数据。
6.根据权利要求1所述的方法,其特征在于,所述基于每个已校对元数据对应的目标校对结果以及对应的参考校对结果,更新目标校对对象的对象等级,包括:
获取所述目标校对对象的初始积分,将所述初始积分作为当前积分;
将每个已校对元数据对应的目标校对结果以及对应的参考校对结果分别进行对比,以更新当前积分,将更新后的当前积分作为目标积分;
在所述目标积分大于积分阈值的情况下,提升所述目标校对对象的对象等级。
7.一种数据校对装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标元数据对应的待校对的机器处理数据;所述目标元数据是对原始数据进行拆分得到的,所述机器处理数据是对原始机器处理数据进行拆分得到的;所述原始机器处理数据,是对所述原始数据进行机器处理所得到的数据;
对象确认模块,用于按照对象等级从低到高的顺序,从候选校对对象中确定与所述目标元数据匹配的目标校对对象;所述候选校对对象具有对象等级,所述对象等级用于表征所述目标校对对象的校对能力;所述目标校对对象包括第一校对对象以及第二校对对象;所述第一校对对象的对象等级高于所述第二校对对象的对象等级;更新所述目标校对对象的对象等级的步骤包括:获取所述目标校对对象对应的至少一个的已校对元数据;获取所述目标校对对象针对每个已校对元数据的目标校对结果;获取参考校对对象针对每个已校对元数据的参考校对结果;基于每个已校对元数据对应的目标校对结果以及对应的参考校对结果,更新目标校对对象的对象等级;
结果比对模块,用于基于所述目标校对对象针对所述待校对的机器处理数据的校对结果,确定所述机器处理数据对应的校对后的机器处理数据;包括:将所述目标元数据、所述目标元数据的前向元数据、所述目标元数据的待校对的机器处理数据、所述目标元数据的前向元数据对应的待校对的机器处理数据,发送至所述第一校对对象的校对终端,以对所述目标元数据以及所述前向元数据分别对应的待校对的机器处理数据进行校对;将所述目标元数据以及目标元数据的待校对的机器处理数据发送至所述第二校对对象的校对终端,以对所述目标元数据的待校对的机器处理数据进行校对;将所述第一校对对象针对所述待校对的机器处理数据的校对结果与所述第二校对对象针对所述待校对的机器处理数据的校对结果进行对比,基于对比结果确定所述机器处理数据对应的校对后的机器处理数据;其中,所述前向元数据的元数据编号小于所述目标元数据的元数据编号,所述前向元数据的元数据编号与所述目标元数据的元数据编号连续。
8.根据权利要求7所述的装置,其特征在于,所述候选校对对象对应有元数据标签;所述元数据标签是用于表征元数据的特征的标签;
所述对象确认模块还用于:
获取所述目标元数据对应的目标元数据标签;按照对象等级从低到高的顺序,从所述候选校对对象中,确定所述目标元数据标签对应的目标校对对象。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202211003340.0A 2022-08-22 2022-08-22 数据校对方法、装置、计算机设备和存储介质 Active CN115082045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211003340.0A CN115082045B (zh) 2022-08-22 2022-08-22 数据校对方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211003340.0A CN115082045B (zh) 2022-08-22 2022-08-22 数据校对方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN115082045A CN115082045A (zh) 2022-09-20
CN115082045B true CN115082045B (zh) 2023-01-03

Family

ID=83245251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211003340.0A Active CN115082045B (zh) 2022-08-22 2022-08-22 数据校对方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115082045B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779488A (zh) * 2017-01-20 2017-05-31 深圳市天朗时代科技有限公司 数字版电子书的校对方法及系统
CN110059186A (zh) * 2019-04-04 2019-07-26 上海申康医院发展中心 一种医学术语校对任务分配的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442331B2 (en) * 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US20070299665A1 (en) * 2006-06-22 2007-12-27 Detlef Koll Automatic Decision Support
CN106601253B (zh) * 2016-11-29 2017-12-12 肖娟 智能机器人文字播音朗读审核校对方法和系统
CN111460781A (zh) * 2020-03-11 2020-07-28 南京栖鸿阁文化发展有限公司 一种图书排版校对的控制方法
CN113642337B (zh) * 2020-05-11 2023-12-19 阿里巴巴集团控股有限公司 数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质
CN112733554B (zh) * 2020-12-23 2021-09-07 深圳市爱科云通科技有限公司 口语文本处理方法、装置、服务器及可读存储介质
CN114358030A (zh) * 2021-12-29 2022-04-15 苏州远卓科技信息有限公司 一种专利文献翻译后的机器校对方法及其系统
CN114297312A (zh) * 2021-12-31 2022-04-08 北京中知智慧科技有限公司 多人协同操作数据库进行专利数据标引的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779488A (zh) * 2017-01-20 2017-05-31 深圳市天朗时代科技有限公司 数字版电子书的校对方法及系统
CN110059186A (zh) * 2019-04-04 2019-07-26 上海申康医院发展中心 一种医学术语校对任务分配的方法

Also Published As

Publication number Publication date
CN115082045A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
US11122333B2 (en) User feature generation method and apparatus, device, and computer-readable storage medium
WO2020057022A1 (zh) 关联推荐方法、装置、计算机设备和存储介质
US9767183B2 (en) Method and system for enhanced query term suggestion
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN109992601B (zh) 待办事项信息的推送方法、装置和计算机设备
US10713306B2 (en) Content pattern based automatic document classification
TW201917601A (zh) 使用者意圖識別方法及裝置
US20180239986A1 (en) Image Clustering Method, Image Clustering System, And Image Clustering Server
US11238050B2 (en) Method and apparatus for determining response for user input data, and medium
CN110750523A (zh) 数据标注方法、系统、计算机设备和存储介质
CN112925898B (zh) 基于人工智能的问答方法、装置、服务器及存储介质
CN111582405B (zh) 一种数据标注方法及装置
US9965812B2 (en) Generating a supplemental description of an entity
CN113343108B (zh) 推荐信息处理方法、装置、设备及存储介质
CN114356968A (zh) 查询语句生成方法、装置、计算机设备及存储介质
CN108550019B (zh) 一种简历筛选方法及装置
CN115082045B (zh) 数据校对方法、装置、计算机设备和存储介质
CN112100491A (zh) 基于用户数据的信息推荐方法、装置、设备及存储介质
CN111581344A (zh) 一种接口信息审核方法、装置、计算机设备及存储介质
CN111324687A (zh) 知识库中数据处理方法、装置、计算机设备和存储介质
CN110674383A (zh) 舆情查询方法、装置及设备
CN108363707B (zh) 用于生成网页的方法和装置
CN112685439B (zh) 针对风控系统的造数方法、系统、装置及存储介质
CN112182107B (zh) 名单数据获取方法、装置、计算机设备及存储介质
CN114416847A (zh) 一种数据转换的方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant