CN113205130B - 一种数据审核方法、装置、电子设备及存储介质 - Google Patents

一种数据审核方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113205130B
CN113205130B CN202110470382.4A CN202110470382A CN113205130B CN 113205130 B CN113205130 B CN 113205130B CN 202110470382 A CN202110470382 A CN 202110470382A CN 113205130 B CN113205130 B CN 113205130B
Authority
CN
China
Prior art keywords
data
warehouse
label
cluster
manual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110470382.4A
Other languages
English (en)
Other versions
CN113205130A (zh
Inventor
张津赫
张瀚予
史忠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN202110470382.4A priority Critical patent/CN113205130B/zh
Publication of CN113205130A publication Critical patent/CN113205130A/zh
Application granted granted Critical
Publication of CN113205130B publication Critical patent/CN113205130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)

Abstract

本发明提供了一种数据审核方法、装置、电子设备及存储介质,该方法包括:在接收到待审核数据时,确定所述待审核数据所属的聚类仓库,所述聚类仓库中包括已审核数据和聚类仓库标签,所述聚类仓库标签和已审核数据的数据标签相同;若所述聚类仓库的数据量大于或等于预设数据量,则将所述聚类仓库标签确定为所述待审核数据的数据标签;若所述聚类仓库的数据量小于所述预设数据量,则将所述待审核数据存储至待审库中,所述待审库中的数据由人工审核系统拉取并进行人工审核。本发明由于相同或者相似的数据不需要重复进行人工审核,实现了基于少量的人工审核数据对数据进行审核,提高了审核效率,解决了均由人工审核造成审核数据积压的问题。

Description

一种数据审核方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据审核方法、装置、电子设备及存储介质。
背景技术
现有技术中,业务方将需要审核的数据推入风控系统,风控系统将数据流入待审库中,审核人员通过人工审核页面从待审库中获取需要审核的数据,最后审核人员根据数据是否违规来对数据进行处理。
现有技术通过人工审核每一条数据,审核效率较低,而且当推审的数据量远远大于人工审核的数据量时,无法快速及时审核数据,容易造成审核积压。
发明内容
本发明实施例提供一种数据审核方法、装置、电子设备及存储介质,以提高数据审核效率。
依据本发明的第一方面,提供了一种数据审核方法,包括:
在接收到待审核数据时,确定所述待审核数据所属的聚类仓库,所述聚类仓库中包括已审核数据和聚类仓库标签,所述聚类仓库标签和已审核数据的数据标签相同;
若所述聚类仓库的数据量大于或等于预设数据量,则将所述聚类仓库标签确定为所述待审核数据的数据标签;
若所述聚类仓库的数据量小于所述预设数据量,则将所述待审核数据存储至待审库中,所述待审库中的数据由人工审核系统拉取并进行人工审核。
依据本发明的第二方面,提供了一种数据审核装置,包括:
聚类仓库确定模块,用于在接收到待审核数据时,确定所述待审核数据所属的聚类仓库,所述聚类仓库中包括已审核数据和聚类仓库标签,所述聚类仓库标签和已审核数据的数据标签相同;
自动审核模块,用于若所述聚类仓库的数据量大于或等于预设数据量,则将所述聚类仓库标签确定为所述待审核数据的数据标签;
人工审核模块,用于若所述聚类仓库的数据量小于所述预设数据量,则将所述待审核数据存储至待审库中,所述待审库中的数据由人工审核系统拉取并进行人工审核。
依据本发明的第三方面,还提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的数据审核方法的步骤。
依据本发明的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的数据审核方法的步骤。
本发明实施例提供的数据审核方法、装置、电子设备及存储介质,通过在接收到待审核数据时确定待审核数据所属的聚类仓库,并在聚类仓库的数据量大于或等于预设数据量时将聚类仓库标签确定待审核数据的数据标签,在聚类仓库的数据量小于预设数据量时将待审核数据存储至待审库中,由人工审核系统拉取进行人工审核,由于相同或者相似的数据不需要重复进行人工审核,审核人员只审核少量的不相同的数据,实现了基于少量的人工审核数据对数据进行审核,避免了将所有的数据均由人工审核,提高了审核效率,解决了均由人工审核造成审核数据积压的问题。
附图说明
图1是本发明实施例提供的一种数据审核方法的步骤流程图;
图2是本发明实施例提供的数据审核方法的处理过程示意图;
图3是本发明实施例提供的一种数据审核装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种数据审核方法的步骤流程图,如图1所示,该方法可以包括:
步骤101,在接收到待审核数据时,确定所述待审核数据所属的聚类仓库,所述聚类仓库中包括已审核数据和聚类仓库标签,所述聚类仓库标签和已审核数据的数据标签相同。
其中,所述待审核数据包括图像数据或文本数据。本发明实施例提供的数据审核方法,对于图像数据或文本数据都可以进行处理,对于不同类型的数据分别进行处理,处理流程相同。
待审核数据可以是业务方推送过来的业务数据,在接收到业务方推送来的待审核数据后,将待审核数据与已有的聚类仓库中的数据进行对比,若与一个聚类仓库中的数据相似,则确定该聚类仓库为待审核数据所属的聚类仓库。聚类仓库中的数据为已审核数据,所述已审核数据包括人工审核数据,或者所述已审核数据可以包括人工审核数据和自动审核数据,所述自动审核数据是基于聚类仓库标签进行自动审核的数据,所述聚类仓库标签与人工审核数据的数据标签相同,即一个聚类仓库中已审核数据的数据标签均相同,例如,若聚类仓库标签为通过,则聚类仓库内所有已审核数据的数据标签均为通过,若聚类仓库标签为不通过,则聚类仓库内所有已审核数据的数据标签均为不通过。
在本发明的一个实施例中,所述确定所述待审核数据所属的聚类仓库,包括:确定所述待审核数据与已有的聚类仓库的中心数据的相似度;将所述相似度大于或等于预设阈值的聚类仓库确定为所述待审核数据所属的聚类仓库。
其中,所述中心数据可以是聚类仓库中的一条数据或者多条数据。
本发明实施例应用于待审核数据中有大部分待审核数据的数据内容相同或相似的场景中。在确定待审核数据所属的聚类仓库时,计算待审核数据与已有的聚类仓库的中心数据的相似度,将得到的多个聚类仓库对应的相似度分别与预设阈值进行比较,若一个聚类仓库对应的相似度大于或等于预设阈值,则将该聚类仓库确定为待审核数据所属的聚类仓库。在中心数据为多条数据时,分别计算待审核数据与已有的聚类仓库的多条中心数据的相似度,并确定待审核数据与多条中心数据的相似度的平均值,并将平均值与预设阈值进行比较,若一个聚类仓库对应的平均值大于或等于预设阈值,则将该聚类仓库确定为待审核数据所属的聚类仓库。
如果将待审核数据与已有的所有聚类仓库的中心数据的相似度均小于预设阈值,则直接将待审核数据存储至待审库中,由人工审核系统从待审库中拉取并进行人工审核。
由于需要进行数据审核的数据,大部分都是相同或相似的数据,从而通过确定待审核数据与已有聚类仓库的中心数据的相似度,并基于该相似度确定待审核数据所属的聚类仓库,可以快速的将待审核数据聚类到已有的聚类仓库中,从而提高数据审核速度。
步骤102,若所述聚类仓库的数据量大于或等于预设数据量,则将所述聚类仓库标签确定为所述待审核数据的数据标签。
如果聚类仓库的数据量大于或者等于预设数据量,说明聚类仓库中相同或相似的数据已达到预期的数据规模,这时可以获取该聚类仓库的聚类仓库标签,并将聚类仓库标签确定为待审核数据的数据标签。不需要再将待审核数据推送至待审库,不需要人工手动再去审核这条数据,只需复用已有的审核结果,即达到了免审的效果。
步骤103,若所述聚类仓库的数据量小于所述预设数据量,则将所述待审核数据存储至待审库中,所述待审库中的数据由人工审核系统拉取并进行人工审核。
其中,所述待审库中的数据是需要进行人工审核的数据。
如果聚类仓库的数据量小于预设数据量,则说明相同或者相似的数据还没有达到预期的数据规模,将待审核数据存储至待审库中。人工审核系统基于审核人员的操作指令从待审库拉取待审核数据,由审核人员对待审核数据打标签,得到待审核数据的数据标签,数据标签可以为通过或者不通过,当然也可以为其他标签。
本实施例提供的数据审核方法,通过在接收到待审核数据时确定待审核数据所属的聚类仓库,并在聚类仓库的数据量大于或等于预设数据量时将聚类仓库标签确定待审核数据的数据标签,在聚类仓库的数据量小于预设数据量时将待审核数据存储至待审库中,由人工审核系统拉取进行人工审核,由于相同或者相似的数据不需要重复进行人工审核,审核人员只审核少量的不相同的数据,实现了基于少量的人工审核数据对数据进行审核,避免了将所有的数据均由人工审核,提高了审核效率,解决了均由人工审核造成审核数据积压的问题。
在上述技术方案的基础上,在将所述待审核数据存储至待审库中之后,还包括:获取所述人工审核系统返回的人工审核数据;根据所述人工审核数据的数据标签,对所述人工审核数据进行聚类,得到聚类仓库。
获取人工审核系统返回的人工审核数据,该人工审核数据包括数据和对应的数据标签,所述数据标签可以为通过或不通过,根据人工审核数据的数据标签,对人工审核数据进行聚类,即对于数据标签为通过的人工审核数据和数据标签为不通过的人工审核数据分别进行聚类,将相同或相似的数据存放在同一个聚类仓库中,不相同或者不相似的数据会被分别存储在不同的聚类仓库中,从而得到多个聚类仓库。
在一种可选的实施方式中,根据所述人工审核数据的数据标签,对所述人工审核数据进行聚类,得到聚类仓库,包括:根据所述人工审核数据的数据标签,确定人工审核数据与已有的聚类仓库的中心数据的相似度;将所述人工审核数据归类到所述相似度大于或等于预设阈值的聚类仓库中;若所述相似度均小于所述预设阈值,则新建立一个聚类仓库,并将所述人工审核数据确定为新建立的聚类仓库的中心数据,将所述人工审核数据的数据标签确定为所述新建立的聚类仓库的聚类仓库标签。
在对数据进行聚类时,首先计算获取到的人工审核数据与已有的相同标签的聚类仓库的中心数据的相似度,若存在相似度大于预设阈值的聚类仓库,则将该人工审核数据归类到该相似度大于预设阈值的聚类仓库中,若不存在相似度大于预设阈值的聚类仓库,则新建立一个聚类仓库,并将该人工审核数据作为新建立的聚类仓库的中心数据,以便于对后续的数据进行比较从而进行聚类。在对人工审核数据进行聚类时首先与已有的聚类仓库的中心数据进行比较,如果不存在相似度大于预设阈值的已有聚类仓库时,再重新建立一个聚类仓库,实现了对相同或相似数据的聚类,避免将相同或相似的数据存储至多个聚类仓库,造成人工审核数据量大的问题。
在另一种可选的实施方式中,根据所述人工审核数据的数据标签,对所述人工审核数据进行聚类,得到聚类仓库,包括:根据人工审核数据的数据标签,从所述人工审核数据中选取一个数据作为中心数据;分别确定具有相同数据标签的其他人工审核数据与中心数据的相似度;将相似度大于或等于预设阈值的其他人工审核数据和所述中心数据归为一个新的聚类仓库,并将所述中心数据的数据标签确定为所述新的聚类仓库的数据标签。
在开始进行处理时,如果还没有已有的聚类仓库,则可以根据人工审核数据的数据标签,从人工审核数据中选取一个数据作为中心数据,即从数据标签为通过的数据中选取一个数据,作为数据标签为通过对应的中心数据,从数据标签为不通过的数据中选取一个数据,作为数据标签为不通过对应的中心数据。之后,根据数据标签,分别确定具有相同数据标签的其他人工审核数据与中心数据的相似度,相似度大于或等于预设阈值的其他人工审核和所述中心数据归为一个新的聚类仓库,并将中心数据的数据标签确定为该新的聚类仓库的聚类仓库标签。之后,再从相似度小于预设阈值的人工审核数据中选取一个数据作为中心数据,并基于其他的人工审核数据与该中心数据的相似度来建立新的聚类仓库,直至将所有的人工审核数据归类为聚类仓库。通过选取中心数据并基于相似度进行聚类,实现了对相同或相似的数据进行聚类。
在上述技术方案的基础上,所述方法还包括:将所述聚类仓库标签确定为所述待审核数据的数据标签后,将所述待审核数据标记为自动审核数据;从预设时间内的自动审核数据中抽取预设比例的自动审核数据,作为质检数据,并将所述质检数据推送至人工审核系统;获取所述人工审核系统返回的对所述质检数据的质检结果。
其中,所述预设时间是过去的一段时间,例如可以是前一天。
将聚类仓库标签确定为待审核数据的数据标签后,将这种待审核数据标记为自动审核数据,即该数据不是人工审核的,以便于对这种自动审核数据进行质检。在对自动审核数据进行质检时,从预设时间内的自动审核数据中抽取预设比例的数据,并将这些数据作为质检数据,将质检数据推送至人工审核系统,由审核人员通过人工审核系统进行人工审核,人工审核系统返回审核人员对质检数据的质检结果。通过抽取少量的数据进行人工审核,保证数据审核的准确性。
在上述技术方案的基础上,在获取所述人工审核系统返回的对所述质检数据的质检结果之后,还包括:若所述质检结果与所述质检数据的数据标签不同,则将所述数据标签更新为所述质检结果,并将所述质检数据所属的聚类仓库的聚类仓库标签更新为所述质检结果。
大部分的质检结果与原有的数据标签都是相同的,只有可能有少量的不同。如果人工审核的质检结果与质检数据的自动审核结果即数据标签相同,则该质检数据和所属的聚类仓库的聚类仓库标签不需要做任何改动;如果人工审核的质检结果与质检数据的自动审核结果即数据标签不同,则将质检数据所属的聚类仓库标签更新为质检结果。通过人工质检保证了数据审核的准确性,通过在质检结果与数据标签不同时,基于质检结果更新聚类仓库标签,可以及时修改审核错误的数据。
图2是本发明实施例提供的数据审核方法的处理过程示意图,如图2所示,该数据审核方法主要由风控系统、人工审核系统和聚类仓库服务来完成,风控系统在接收到业务方推送的待审核数据后,确定待审核数据所属的聚类仓库,判断聚类仓库的数据量是否小于预设数据量,如果是,则将该数据推送至待审库,如果否,则获取聚类仓库标签,并基于聚类仓库标签对待审核数据打标签,该待审核数据审核结束;推送至待审库中的数据需要进行人工审核,由人工审核系统从待审库中拉取数据并进行人工审核,获取人工审核的数据标签,将数据和标签推送至聚类仓库服务,聚类仓库服务对人工审核后的数据进行聚类,生成聚类仓库,并基于聚类仓库内的数据标签对聚类仓库打标签,得到聚类仓库标签。通过这样的处理,实现了基于少量的人工审核数据对后续接收到的数据进行自动审核,提高了数据审核效率。对于大部分数据是合规数据的场景,通过这样的审核方式,可以避免人工审核大量合规的数据造成的审核资源浪费的问题,可以节省审核资源。经过实践,通过这样的方式进行自动审核,审核的准确率可以达到99%,与人工审核效果相同。
图3是本发明实施例提供的一种数据审核装置的结构示意图,如图3所示,该装置可以包括:
聚类仓库确定模块301,用于在接收到待审核数据时,确定所述待审核数据所属的聚类仓库,所述聚类仓库中包括已审核数据和聚类仓库标签,所述聚类仓库标签和已审核数据的数据标签相同;
自动审核模块302,用于若所述聚类仓库的数据量大于或等于预设数据量,则将所述聚类仓库标签确定为所述待审核数据的数据标签;
人工审核模块303,用于若所述聚类仓库的数据量小于所述预设数据量,则将所述待审核数据存储至待审库中,所述待审库中的数据由人工审核系统拉取并进行人工审核。
可选的,所述聚类仓库确定模块包括:
第一相似度确定单元,用于确定所述待审核数据与已有的聚类仓库的中心数据的相似度;
聚类仓库确定单元,用于将所述相似度大于或等于预设阈值的聚类仓库确定为所述待审核数据所属的聚类仓库。
可选的,所述装置还包括:
人工审核结果获取模块,用于获取所述人工审核系统返回的人工审核数据;
聚类模块,用于根据所述人工审核数据的数据标签,对所述人工审核数据进行聚类,得到聚类仓库。
可选的,所述聚类模块包括:
第二相似度确定单元,用于根据所述人工审核数据的数据标签,确定人工审核数据与已有的聚类仓库的中心数据的相似度;
第一聚类单元,用于将所述人工审核数据归类到所述相似度大于或等于预设阈值的聚类仓库中;
第二聚类单元,用于若所述相似度均小于所述预设阈值,则新建立一个聚类仓库,并将所述人工审核数据确定为新建立的聚类仓库的中心数据,将所述人工审核数据的数据标签确定为所述新建立的聚类仓库的聚类仓库标签。
可选的,所述聚类模块包括:
中心数据确定单元,用于根据所述人工审核数据的数据标签,从所述人工审核数据中选取一个数据作为中心数据;
第三相似度确定单元,用于分别确定具有相同数据标签的其他人工审核数据与中心数据的相似度;
第三聚类单元,用于将相似度大于或等于预设阈值的其他人工审核数据和所述中心数据归为一个新的聚类仓库,并将所述中心数据的数据标签确定为所述新的聚类仓库的聚类仓库标签。
可选的,所述装置还包括:
数据标记模块,用于将所述聚类仓库标签确定为所述待审核数据的数据标签后,将所述待审核数据标记为自动审核数据;
质检模块,用于从预设时间内的自动审核数据中抽取预设比例的自动审核数据,作为质检数据,并将所述质检数据推送至人工审核系统;
质检结果获取模块,用于获取所述人工审核系统返回的对所述质检数据的质检结果。
可选的,所述装置还包括:
聚类仓库标签更新模块,用于若所述质检结果与所述质检数据的数据标签不同,则将所述数据标签更新为所述质检结果,并将所述质检数据所属的聚类仓库的聚类仓库标签更新为所述质检结果。
可选的,所述待审核数据包括图像数据或文本数据。
本实施例提供的数据审核装置,通过在接收到待审核数据时确定待审核数据所属的聚类仓库,并在聚类仓库的数据量大于或等于预设数据量时将聚类仓库标签确定待审核数据的数据标签,在聚类仓库的数据量小于预设数据量时将待审核数据存储至待审库中,由人工审核系统拉取进行人工审核,由于相同或者相似的数据不需要重复进行人工审核,审核人员只审核少量的不相同的数据,实现了基于少量的人工审核数据对数据进行审核,避免了将所有的数据均由人工审核,提高了审核效率,解决了均由人工审核造成审核数据积压的问题。
优选的,本发明实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述数据审核方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述数据审核方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种数据审核方法,其特征在于,包括:
在接收到待审核数据时,确定所述待审核数据所属的聚类仓库,所述聚类仓库中包括已审核数据和聚类仓库标签,所述聚类仓库标签和已审核数据的数据标签相同;
若所述聚类仓库的数据量大于或等于预设数据量,则将所述聚类仓库标签确定为所述待审核数据的数据标签;
若所述聚类仓库的数据量小于所述预设数据量,则将所述待审核数据存储至待审库中,所述待审库中的数据由人工审核系统拉取并进行人工审核;
所述确定所述待审核数据所属的聚类仓库,包括:
若所述待审核数据与预设聚类仓库中的数据相似,则将所述预设聚类仓库确定为所述待审核数据所属的聚类仓库。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待审核数据所属的聚类仓库,包括:
确定所述待审核数据与已有的聚类仓库的中心数据的相似度;
将所述相似度大于或等于预设阈值的聚类仓库确定为所述待审核数据所属的聚类仓库。
3.根据权利要求1所述的方法,其特征在于,在将所述待审核数据存储至待审库中之后,还包括:
获取所述人工审核系统返回的人工审核数据;
根据所述人工审核数据的数据标签,对所述人工审核数据进行聚类,得到聚类仓库。
4.根据权利要求3所述的方法,其特征在于,根据所述人工审核数据的数据标签,对所述人工审核数据进行聚类,得到聚类仓库,包括:
根据所述人工审核数据的数据标签,确定人工审核数据与已有的聚类仓库的中心数据的相似度;
将所述人工审核数据归类到所述相似度大于或等于预设阈值的聚类仓库中;
若所述相似度均小于所述预设阈值,则新建立一个聚类仓库,并将所述人工审核数据确定为新建立的聚类仓库的中心数据,将所述人工审核数据的数据标签确定为所述新建立的聚类仓库的聚类仓库标签。
5.根据权利要求3所述的方法,其特征在于,根据所述人工审核数据的数据标签,对所述人工审核数据进行聚类,得到聚类仓库,包括:
根据所述人工审核数据的数据标签,从所述人工审核数据中选取一个数据作为中心数据;
分别确定具有相同数据标签的其他人工审核数据与中心数据的相似度;
将相似度大于或等于预设阈值的其他人工审核数据和所述中心数据归为一个新的聚类仓库,并将所述中心数据的数据标签确定为所述新的聚类仓库的聚类仓库标签。
6.根据权利要求1所述的方法,其特征在于,还包括:
将所述聚类仓库标签确定为所述待审核数据的数据标签后,将所述待审核数据标记为自动审核数据;
从预设时间内的自动审核数据中抽取预设比例的自动审核数据,作为质检数据,并将所述质检数据推送至人工审核系统;
获取所述人工审核系统返回的对所述质检数据的质检结果。
7.根据权利要求6所述的方法,其特征在于,在获取所述人工审核系统返回的对所述质检数据的质检结果之后,还包括:
若所述质检结果与所述质检数据的数据标签不同,则将所述数据标签更新为所述质检结果,并将所述质检数据所属的聚类仓库的聚类仓库标签更新为所述质检结果。
8.根据权利要求1所述的方法,其特征在于,所述待审核数据包括图像数据或文本数据。
9.一种数据审核装置,其特征在于,包括:
聚类仓库确定模块,用于在接收到待审核数据时,若所述待审核数据与预设聚类仓库中的数据相似,则将所述预设聚类仓库确定为所述待审核数据所属的聚类仓库,所述聚类仓库中包括已审核数据和聚类仓库标签,所述聚类仓库标签和已审核数据的数据标签相同;
自动审核模块,用于若所述聚类仓库的数据量大于或等于预设数据量,则将所述聚类仓库标签确定为所述待审核数据的数据标签;
人工审核模块,用于若所述聚类仓库的数据量小于所述预设数据量,则将所述待审核数据存储至待审库中,所述待审库中的数据由人工审核系统拉取并进行人工审核。
10.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据审核方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的数据审核方法的步骤。
CN202110470382.4A 2021-04-28 2021-04-28 一种数据审核方法、装置、电子设备及存储介质 Active CN113205130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110470382.4A CN113205130B (zh) 2021-04-28 2021-04-28 一种数据审核方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110470382.4A CN113205130B (zh) 2021-04-28 2021-04-28 一种数据审核方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113205130A CN113205130A (zh) 2021-08-03
CN113205130B true CN113205130B (zh) 2023-05-02

Family

ID=77029454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110470382.4A Active CN113205130B (zh) 2021-04-28 2021-04-28 一种数据审核方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113205130B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491184B (zh) * 2022-04-02 2022-07-12 飞狐信息技术(天津)有限公司 一种数据处理方法及装置、存储介质及电子设备
CN115062155A (zh) * 2022-08-18 2022-09-16 广州市千钧网络科技有限公司 一种直播间评论快速审核的方法、装置及相关产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679995A (zh) * 2017-08-31 2018-02-09 平安科技(深圳)有限公司 电子装置、保险案件理赔审核方法及计算机可读存储介质
CN109831751A (zh) * 2019-01-04 2019-05-31 上海创蓝文化传播有限公司 一种基于自然语言处理的短信内容风控系统及方法
CN110297711A (zh) * 2019-05-16 2019-10-01 平安科技(深圳)有限公司 批量数据处理方法、装置、计算机设备及存储介质
CN110929764A (zh) * 2019-10-31 2020-03-27 北京三快在线科技有限公司 图片审核方法和装置,电子设备及存储介质
CN110991486A (zh) * 2019-11-07 2020-04-10 北京邮电大学 多人协作图像标注质量控制的方法和装置
CN112163081A (zh) * 2020-10-14 2021-01-01 网易(杭州)网络有限公司 标签确定方法、装置、介质及电子设备
CN112562835A (zh) * 2020-12-17 2021-03-26 南京吉帝思信息科技有限公司 一种医疗耗材调拨业务管理方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960782A (zh) * 2018-07-10 2018-12-07 北京木瓜移动科技股份有限公司 内容审核方法以及装置
CN109495783A (zh) * 2018-11-02 2019-03-19 平安科技(深圳)有限公司 视频审核方法、装置、电子设备及介质
CN110377775A (zh) * 2019-07-26 2019-10-25 Oppo广东移动通信有限公司 一种图片审核方法及装置、存储介质
CN111382291B (zh) * 2020-03-12 2023-05-23 北京金山云网络技术有限公司 机器审核方法、装置及机器审核服务器
CN111881991B (zh) * 2020-08-03 2023-11-10 联仁健康医疗大数据科技股份有限公司 一种识别欺诈的方法、装置及电子设备
CN112613741B (zh) * 2020-12-24 2024-10-01 广东南方数码科技股份有限公司 一种空间数据质检结果人工复核记录自动继承方法、电子设备、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679995A (zh) * 2017-08-31 2018-02-09 平安科技(深圳)有限公司 电子装置、保险案件理赔审核方法及计算机可读存储介质
CN109831751A (zh) * 2019-01-04 2019-05-31 上海创蓝文化传播有限公司 一种基于自然语言处理的短信内容风控系统及方法
CN110297711A (zh) * 2019-05-16 2019-10-01 平安科技(深圳)有限公司 批量数据处理方法、装置、计算机设备及存储介质
CN110929764A (zh) * 2019-10-31 2020-03-27 北京三快在线科技有限公司 图片审核方法和装置,电子设备及存储介质
CN110991486A (zh) * 2019-11-07 2020-04-10 北京邮电大学 多人协作图像标注质量控制的方法和装置
CN112163081A (zh) * 2020-10-14 2021-01-01 网易(杭州)网络有限公司 标签确定方法、装置、介质及电子设备
CN112562835A (zh) * 2020-12-17 2021-03-26 南京吉帝思信息科技有限公司 一种医疗耗材调拨业务管理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
殷秀叶."大数据环境下的相似重复记录检测方法".《武汉工程大学学报》.2014,第36卷(第9期),第66-69页. *

Also Published As

Publication number Publication date
CN113205130A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN107330459B (zh) 一种数据处理方法、装置和电子设备
CN106874134B (zh) 工单类型的处理方法、装置及系统
CN113205130B (zh) 一种数据审核方法、装置、电子设备及存储介质
CN107545038B (zh) 一种文本分类方法与设备
US10984518B2 (en) Methods and systems for assessing the quality of geospatial data
CN108717519B (zh) 一种文本分类方法及装置
CN111338692A (zh) 基于漏洞代码的漏洞分类方法、装置及电子设备
CN113516251B (zh) 一种机器学习系统及模型训练方法
CN103258123A (zh) 一种基于隐写分析系统盲性的隐写分析方法
CN106897743B (zh) 基于贝叶斯模型的移动考勤防作弊大数据检测方法
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN108804501B (zh) 一种检测有效信息的方法及装置
CN111401438B (zh) 图像分拣方法、装置及系统
CN106682516A (zh) 应用程序的检测方法、检测装置和服务器
CN108549722B (zh) 多平台数据发布方法、系统及介质
CN103177091A (zh) 视频分类方法和系统
CN108075918B (zh) 互联网业务变更检测方法及系统
CN112445687A (zh) 一种计算设备的卡顿检测方法及相关装置
CN113946703B (zh) 一种图片漏检处理方法及其相关装置
CN107084728B (zh) 用于检测数字地图的方法和装置
CN115935231A (zh) 一种数据分类方法、装置、设备及存储介质
CN104484330A (zh) 基于分档关键词阈值组合评估的垃圾评论预选方法及装置
CN111177501B (zh) 一种标签处理方法、装置及系统
CN114511403A (zh) 一种监管报告的生成方法及装置、电子设备、存储介质
CN114356781A (zh) 软件功能测试方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant