CN113516208A - 一种数据的审核方法、装置、电子设备及存储介质 - Google Patents

一种数据的审核方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113516208A
CN113516208A CN202111071557.0A CN202111071557A CN113516208A CN 113516208 A CN113516208 A CN 113516208A CN 202111071557 A CN202111071557 A CN 202111071557A CN 113516208 A CN113516208 A CN 113516208A
Authority
CN
China
Prior art keywords
data
auditing
model
determining
classification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111071557.0A
Other languages
English (en)
Inventor
白世杰
赵宇航
郑榕
伭剑辉
王秋明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanjian Information Technology Co Ltd
Original Assignee
Beijing Yuanjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanjian Information Technology Co Ltd filed Critical Beijing Yuanjian Information Technology Co Ltd
Priority to CN202111071557.0A priority Critical patent/CN113516208A/zh
Publication of CN113516208A publication Critical patent/CN113516208A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据的审核方法、装置、电子设备及存储介质,其中,该方法包括:获取待审核数据,确定待审核数据对应的场景信息以及数据类型;根据数据类型,确定数据类型对应的预先训练好的审核模型;将待审核数据以及对应的场景信息输入至审核模型,确定待审核数据对应的尺度分类结果以及分类识别结果,其中,审核模型是根据训练数据以及对应的尺度分类标签以及分类识别标签训练得到的;将尺度分类结果以及分类识别结果确定为待审核数据对应的审核结果。开发人员只需部署一次识别模型即可应对不同应用场景下不同审核要求的数据,在节约了审核数据内容的人力成本的同时,增加了数据内容审核的效率。

Description

一种数据的审核方法、装置、电子设备及存储介质
技术领域
本公开涉及神经网络技术领域,具体而言,涉及一种数据的审核方法、装置、电子设备及存储介质。
背景技术
目前,随着各种网络平台的发展,在平台上进行内容分享,进行社交活动或话题讨论已经成为了用户日常的网络活动,随着用户量的不断增加,网络平台的数据量也随之剧增,作为网络平台的管理人员,需要对用户上传或分享的内容进行审核,以防止违法内容在网络中流通。
在现有的内容审核过程中,由于不同平台对不同内容的审核尺度不同,导致审核标准千差万别,因此为了适配不同项目的审核要求以及尺度,往往需要为每种审核标准定制相应的自定义审核策略以及自定义审核知识库,但是此种方法的工作量较大,并且浪费人力,进而导致数据内容审核的效率较低。
发明内容
本公开实施例至少提供一种数据的审核方法、装置、电子设备及存储介质,可以提升数据内容审核的效率。
本公开实施例提供了一种数据的审核方法,所述方法包括:
获取待审核数据,确定待审核数据对应的场景信息以及数据类型;
根据所述数据类型,确定所述数据类型对应的预先训练好的审核模型;
将所述待审核数据以及对应的场景信息输入至所述审核模型,确定所述待审核数据对应的尺度分类结果以及分类识别结果,其中,所述审核模型是根据训练数据以及对应的尺度分类标签以及分类识别标签训练得到的;
将所述尺度分类结果以及所述分类识别结果确定为所述待审核数据对应的审核结果。
一种可选的实施方式中,基于以下方法训练所述审核模型:
获取训练数据以及所述训练数据对应的场景信息;
将带有所述尺度分类标签以及分类识别标签的所述训练数据输入至所述审核模型,确定所述训练数据对应的尺度分类结果以及分类识别结果,并根据所述尺度分类结果以及分类识别结果,确定所述审核模型对应的模型分类结果;
根据所述训练数据以及所述训练数据对应的场景信息,确定所述训练数据对应的标准分类结果;
根据所述标准分类结果以及所述模型分类结果,确定所述标准分类结果以及所述模型分类结果之间的偏差损失;
根据所述偏差损失更新所述审核模型。
一种可选的实施方式中,基于以下方法确定所述模型分类结果:
将所述训练数据对应的尺度分类结果以及分类识别结果输入至所述审核模型中的尺度矫正学习分支,确定所述训练数据对应的矫正尺度分类结果;
将所述矫正尺度分类结果确定为所述模型分类结果。
一种可选的实施方式中,所述根据所述标准分类结果以及所述模型分类结果,确定所述标准分类结果以及所述模型分类结果之间的偏差损失,具体包括:
将所述标准分类结果以及所述模型分类结果输入至预设损失函数,确定所述标准分类结果以及所述模型分类结果之间的交叉熵损失;
将所述交叉熵损失确定为所述偏差损失。
一种可选的实施方式中,所述根据所述偏差损失更新所述审核模型,具体包括:
根据所述交叉熵损失,更新所述审核模型中的尺度权重参数;
根据所述交叉熵损失,更新尺度矫正学习分支中的尺度权重参数。
一种可选的实施方式中,所述根据所述训练数据以及所述训练数据对应的场景信息,确定所述训练数据对应的标准分类结果,具体包括:
将所述训练数据以及所述训练数据对应的场景信息输入至预先设置的人工审核平台,接收所述人工审核平台返回的所述标准分类结果。
一种可选的实施方式中,在所述根据所述偏差损失更新所述审核模型之后,所述方法还包括:
确定所述偏差损失是否小于预设偏差阈值,若所述偏差损失小于预设偏差阈值,则确定所述审核模型训练完成。
本公开实施例还提供一种数据的审核装置,所述装置包括:
获取模块,用于获取待审核数据,确定待审核数据对应的场景信息以及数据类型;
模型选择模块,用于根据所述数据类型,确定所述数据类型对应的预先训练好的审核模型;
审核模块,用于将所述待审核数据以及对应的场景信息输入至所述审核模型,确定所述待审核数据对应的尺度分类结果以及分类识别结果,其中,所述审核模型是根据训练数据以及对应的尺度分类标签以及分类识别标签训练得到的;
确定模块,用于将所述尺度分类结果以及所述分类识别结果确定为所述待审核数据对应的审核结果。
一种可选的实施方式中,所述审核模块还用于:
获取训练数据以及所述训练数据对应的场景信息;
将带有所述尺度分类标签以及分类识别标签的所述训练数据输入至所述审核模型,确定所述训练数据对应的尺度分类结果以及分类识别结果,并根据所述尺度分类结果以及分类识别结果,确定所述审核模型对应的模型分类结果;
根据所述训练数据以及所述训练数据对应的场景信息,确定所述训练数据对应的标准分类结果;
根据所述标准分类结果以及所述模型分类结果,确定所述标准分类结果以及所述模型分类结果之间的偏差损失;
根据所述偏差损失更新所述审核模型。
一种可选的实施方式中,所述审核模块还用于:
将所述训练数据对应的尺度分类结果以及分类识别结果输入至所述待训练审核模型中的尺度矫正学习分支,确定所述训练数据对应的矫正尺度分类结果;
将所述矫正尺度分类结果确定为所述模型分类结果。
一种可选的实施方式中,所述审核模块还用于:
将所述标准分类结果以及所述模型分类结果输入至预设损失函数,确定所述标准分类结果以及所述模型分类结果之间的交叉熵损失;
将所述交叉熵损失确定为所述偏差损失。
一种可选的实施方式中,所述审核模块还用于:
根据所述交叉熵损失,更新所述审核模型中的尺度权重参数;
根据所述交叉熵损失,更新尺度矫正学习分支中的尺度权重参数。
一种可选的实施方式中,所述审核模块还用于:
将所述训练数据以及所述训练数据对应的场景信息输入至预先设置的人工审核平台,接收所述人工审核平台返回的所述标准分类结果。
一种可选的实施方式中,所述审核模块还用于:
确定所述偏差损失是否小于预设偏差阈值,若所述偏差损失小于预设偏差阈值,则确定所述审核模型训练完成。
本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述数据的审核方法,或上述数据的审核方法中任一种可能的实施方式中的步骤。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据的审核方法,或上述数据的审核方法中任一种可能的实施方式中的步骤。
本公开实施例提供的一种数据的审核方法、装置、电子设备及存储介质,可以通过识别模型处理不同应用场景下、不同审核尺度以及审核标准的数据,自动获取该数据的审核结果,并且在使用过程中,识别模型通过不断针对数据的不同应用场景的不同审核尺度需求进行学习,并且根据模型自身的审核结果与标准结果进行比较后针对模型自身进行负反馈更新,开发人员只需部署一次识别模型即可应对不同应用场景下不同审核要求的数据,在节约了审核数据内容的人力成本的同时,增加了数据内容审核的效率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种数据的审核方法的流程图;
图2示出了本公开实施例提供的一种审核模型训练方法的流程图之一;
图3示出了本公开实施例提供的一种审核模型训练方法的流程图之二;
图4示出了本公开实施例所提供的一种数据的审核装置的示意图;
图5示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,在现有的内容审核过程中,由于不同平台对不同内容的审核尺度不同,导致审核标准千差万别,因此为了适配不同项目的审核要求以及尺度,往往需要为每种审核标准定制相应的自定义审核策略以及自定义审核知识库,但是此种方法的工作量较大,并且浪费人力,进而导致数据内容审核的效率较低。
基于上述研究,本公开提供了一种数据的审核方法,可以通过识别模型处理不同应用场景下、不同审核尺度以及审核标准的数据,自动获取该数据的审核结果,并且在使用过程中,识别模型通过不断针对数据的不同应用场景的不同审核尺度需求进行学习,并且根据模型自身的审核结果与标准结果进行比较后针对模型自身进行负反馈更新,开发人员只需部署一次识别模型即可应对不同应用场景下不同审核要求的数据,在节约了审核数据内容的人力成本的同时,增加了数据内容审核的效率。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种数据的审核方法进行详细介绍,本公开实施例所提供的数据的审核方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该数据的审核方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例所提供的一种数据的审核方法的流程图,所述方法包括步骤S101~S104,其中:
S101、获取待审核数据,确定待审核数据对应的场景信息以及数据类型。
该步骤中,在进行数据审核时,首先获取需要进行审核的数据,确定获取到的待审核数据所应用的场景作为待审核数据的场景信息,将场景信息添加至待审核数据中,同时,还需要确定待审核数据的数据类型。
这里,待审核数据的场景信息可以为待审核数据的应用场所,具体的,可以为待审核数据所要分享至的目标平台。在具体实施过程中,不同网络平台对于在其中发布流通的数据的审核标准与审核尺度需求可能不同,例如:针对待审核数据为文本数据的情况时,若文本数据中出现了某一敏感词汇,当该数据需要分享或发布至教育平台时,由于教育平台的审核标准较为严格,对该敏感词汇的审核要求为完全不能出现,但是当该数据需要分享或发布至社交平台时,社交平台的审核标准相比较于教育平台的审核标准比较宽松,针对同一敏感词的审核要求为可以出现,由此可见同一待审核数据在不同平台的审核结果可能存在差异,在教育平台的审核结果可能为高危数据,在社交平台的审核结果可能为正常数据,因此需要获取待审核数据的场景信息,以便审核模型针对待审核数据的在不同应用场景下的不同审核标准与审核尺度需求来确定待审核数据是否为高危数据。
其中,待审核数据可以为用户需要分享或者发布至不同网络平台的数据信息,其数据类型可以为视频数据、图片数据、文字数据以及音频数据。
这样,根据待审核数据的场景信息,可以确定出在该种应用场景下的审核标准,审核模型在审核过程中可以以该种应用场景下的审核标准对待审核数据进行审核,增加对待审核数据的审核效率。
S102、根据所述数据类型,确定所述数据类型对应的预先训练好的审核模型。
该步骤中,根据获取到的待审核数据的数据类型,如:视频数据、图片数据、文字数据以及音频数据,选择可以处理该种数据类型的审核模型对待审核数据进行审核。
这里,预先训练好的审核模型可以有多个种类,由于数据类型的多样化,在实际审核过程中,根据待审核数据的数据类型选择与该种数据类型对应的审核模型,例如:若待审核数据为视频数据,则选择视频审核模型进行审核;若待审核数据为图片数据,则选择图片审核模型进行审核;若待审核数据为文字数据,则选择文字审核模型进行审核;若待审核数据为音频数据,则选择音频审核模型进行选择。
作为一种可能的实施方式,多种预先训练好的审核模型可以存储在审核模型池中,当需要进行数据审核时,根据待审核数据的数据类型,在审核模型池中调取与待审核数据类型对应的审核模型进行审核工作。
这样,在数据审核的过程中可以适用多种类型的数据,提升数据审核的适用广度。
S103、将所述待审核数据以及对应的场景信息输入至所述审核模型,确定所述待审核数据对应的尺度分类结果以及分类识别结果,其中,所述审核模型是根据训练数据以及对应的尺度分类标签以及分类识别标签训练得到的。
该步骤中,将待审核数据输入至预先根据尺度分类标签以及分类识别标签训练,经过负反馈更新后训练好的审核模型中,由审核模型根据待审核数据中包括的场景信息,确定在该种应用场景下的审核标准,并根据该种审核标准对待审核数据进行审核,以得到待审核数据对应的尺度分类结果以及分类识别结果。
这里,尺度分类结果可以为:数据正常或者数据高危两种分类结果;分类识别结果可以为:若待审核数据为高危数据时,待审核数据具体的违规种类。
其中,数据正常可以表明待审核数据在其所要分享或发布至的平台中,基于该平台的审核标准,其中不存在违规图像以及敏感词等内容;数据高危可以表明待审核数据在其所要分享或发布至的平台中,基于该平台的审核标准,其中存在违规图像以及敏感词等内容。分类识别结果可以在尺度分类结果判定待审核数据为高危数据时,其具体违反了哪一项审核标准,例如:待审核数据为存在违规图像高危,或者待审核数据存在敏感词高危。
这样,输入至审核模型的数据包括有待审核数据的场景信息,而场景信息又对应有在该种应用场景下的审核标准,因此审核模型在进行数据审核时,可以以待审核数据的场景信息对应的审核标准对待审核数据进行审核,可以适应不同平台不同审核标准的审核需求,无需针对不同的平台配置不同的审核模型,增加了数据审核的效率。
S104、将所述尺度分类结果以及所述分类识别结果确定为所述待审核数据对应的审核结果。
该步骤中,将审核模型审核得到的待审核数据的尺度分类结果以及分类识别结果作为待审核数据的审核结果,反馈至待审核数据所要分享或发布至的网络平台,或直接反馈至用户处,提示用户分享或发布的数据属于违规数据或正常数据,以便在待审核数据为高危数据时方便用户针对性进行修改。
作为一种可能的实施方式,当审核结果为数据高危时,在待审核数据中标示违规部分,并向用户或网络平台发送数据违规提示,所述数据违规提示中包括数据违规的具体类别;当审核结果为数据正常时,向用户或网络平台发送允许发布或允许分享提示。
例如,待审核数据为文本数据,当审核结果为敏感词高危时,在文本数据中将敏感词进行标注,并设置特殊文字样式,将经过敏感词标示后的文本数据以及数据违规提示反馈至用户或网络平台。
本公开实施例提供的一种数据的审核方法,可以通过识别模型处理不同应用场景下、不同审核尺度以及审核标准的数据,自动获取该数据的审核结果,并且在使用过程中,识别模型通过不断针对数据的不同应用场景的不同审核尺度需求进行学习,并且根据模型自身的审核结果与标准结果进行比较后针对模型自身进行负反馈更新,开发人员只需部署一次识别模型即可应对不同应用场景下不同审核要求的数据,在节约了审核数据内容的人力成本的同时,增加了数据内容审核的效率。
参见图2所示,为本公开实施例提供的一种审核模型训练方法的流程图,所述方法包括步骤S201~S205,其中:
S201、获取训练数据以及所述训练数据对应的场景信息。
该步骤中,获取作为训练样本的训练数据以及训练数据对应的场景信息,并为每个训练数据配置尺度分类标签以及分类识别标签。
这里,训练数据可以为多种数据类型的数据,也可以为单一数据类型的数据。当训练数据为多种数据类型的数据时,需要在将带有所述尺度分类标签以及分类识别标签的训练数据输入至审核模型之前,根据训练数据对应的数据类型,选择与该数据类型对应的审核模型。当训练数据为单一数据类型的数据时,需要在训练完成该种数据类型对应的审核模型后,继续训练其他数据种类对应的审核模型。
其中,尺度分类标签以及分类识别标签可以由人工进行配置。训练数据的数量可以根据实际需要进行选择,在此不做具体限制。
S202、将带有所述尺度分类标签以及分类识别标签的所述训练数据输入至所述审核模型,确定所述训练数据对应的尺度分类结果以及分类识别结果,并根据所述尺度分类结果以及分类识别结果,确定所述审核模型对应的模型分类结果。
该步骤中,将带有所述尺度分类标签以及分类识别标签的训练数据输入至待训练的审核模型,以得到训练数据对应的尺度分类结果以及分类识别结果,进一步的根据尺度分类结果以及分类识别结果,确定审核模型对应的模型分类结果。
其中,模型分类结果为经过矫正后的尺度分类结果,相比较于尺度分类结果更加准确。
作为一种可能的实施方式,确定模型分类结果的方法可以包括:将所述训练数据对应的尺度分类结果以及分类识别结果输入至所述待训练审核模型中的尺度矫正学习分支,确定所述训练数据对应的矫正尺度分类结果;将所述矫正尺度分类结果确定为所述模型分类结果。
这里,由于待训练的审核模型没有训练完成,因此其得到的尺度分类结果可能不准确存在较大误差,因此在进行模型更新前需要对待训练的审核模型进行矫正,并将矫正后的尺度分类结果确定为待审核模型对应的模型分类结果。
其中,尺度矫正学习分支为待训练审核模型中加入的多任务学习分支,在审核过程中,对分类识别结果不做处理。
S203、根据所述训练数据以及所述训练数据对应的场景信息,确定所述训练数据对应的标准分类结果。
该步骤中,根据所述训练数据以及训练数据对应的场景信息,确定用于矫正待训练的审核模型输出的模型分类结果的标准分类结果。
其中,标准分类结果为针对某一数据及其对应的应用场景所需求的审核标准,由审核人员审核得到的人工审核结果。
作为一种可能的实施方式,确定标准分类结果的方法可以为:将所述训练数据以及所述训练数据对应的场景信息输入至预先设置的人工审核平台,接收所述人工审核平台返回的所述标准分类结果。
S204、根据所述标准分类结果以及所述模型分类结果,确定所述标准分类结果以及所述模型分类结果之间的偏差损失。
该步骤中,基于标准分类结果以及模型分类结果,确定分类结果以及模型分类结果之间的偏差损失。
这里,确定标准分类结果以及模型分类结果之间的偏差损失,也就是确定针对同一训练数据,由待训练的审核模型确定出的模型分类结果与人工审核确定出的之间的偏差,以用于矫正待训练的审核模型,在待训练的审核模型中不断用人工审核的标准分类结果对待训练的审核模型进行干预,使待训练的审核模型在训练过程中不断学习人工审核针对不同应用场景下的不同审核标准,以便于审核模型确定出的审核结果逐渐与人工审核的结果相同。
例如,针对某一训练数据,由待训练的审核模型得到的模型分类结果可以为:该训练数据为高危数据的概率为0.2,为正常数据的概率为0.8,即确定该训练数据为正常数据,而人工审核根据该训练数据以及该训练数据的应用场景对应的审核标准,给出的标准分类结果为该数据为高危数据,即该训练数据为高危数据的概率为1,为正常数据的概率为0,因此待训练的审核模型得到的模型分类结果不够准确,需要对待训练的审核模型进行更新矫正。
作为一种可能的实施方式,确定标准分类结果以及模型分类结果之间的偏差损失的方法可以为:将所述标准分类结果以及所述模型分类结果输入至预设损失函数,确定所述标准分类结果以及所述模型分类结果之间的交叉熵损失;将所述交叉熵损失确定为所述偏差损失。
S205、根据所述偏差损失更新所述审核模型。
该步骤中,将步骤S204中确定的偏差损失负反馈至待训练的审核模型,针对待训练的审核模型进行反向梯度更新。
具体的,根据偏差损失更新待训练的审核模型中的尺度权重参数,以及待训练的审核模型中的尺度矫正学习分支中的尺度权重参数。
作为一种可能的实施方式,标准分类结果以及模型分类结果之间的偏差损失可以为交叉熵损失,根据所述交叉熵损失,更新所述审核模型中的尺度权重参数;根据所述交叉熵损失,更新尺度矫正学习分支中的尺度权重参数。
这样,在对于待训练的审核模型的训练过程中,不断通过人工审核的审核结果干预审核模型的审核尺度标准,并且将两者的损失偏差不断负反馈至审核模型,使审核模型确定出的审核结果逐渐与人工审核的结果相同。
参见图2所示,为本公开实施例提供的一种审核模型训练方法的流程图,所述方法包括步骤S301~S206,其中:
S301、获取训练数据以及所述训练数据对应的场景信息。
S302、将带有所述尺度分类标签以及分类识别标签的所述训练数据输入至所述审核模型,确定所述训练数据对应的尺度分类结果以及分类识别结果,并根据所述尺度分类结果以及分类识别结果,确定所述审核模型对应的模型分类结果。
S303、根据所述训练数据以及所述训练数据对应的场景信息,确定所述训练数据对应的标准分类结果。
S304、根据所述标准分类结果以及所述模型分类结果,确定所述标准分类结果以及所述模型分类结果之间的偏差损失。
S305、根据所述偏差损失更新所述审核模型。
其中,S301-S305所应用的技术手段以及达到的技术效果与S201-S205均相同,对此不再赘述。
S306、确定所述偏差损失是否小于预设偏差阈值,若所述偏差损失小于预设偏差阈值,则确定所述审核模型训练完成。
该步骤中,针对同一训练数据,当第一次训练过程完成后审核模型得到的模型分类结果与标准分类结果之间的偏差损失很大,审核模型的审核结果不够准确,在对审核模型进行更新后,继续确定审核模型得到的模型分类结果与标准分类结果之间的偏差损失,并判断偏差损失是否小于预设偏差阈值,若所述偏差损失小于预设偏差阈值,则确定所述审核模型训练完成,若偏差损失仍大于预设偏差阈值,则继续根据偏差损失对审核模型进行更新,直至偏差损失小于预设偏差阈值时,审核模型针对该训练数据在其对应的审核标准下的数据审核训练完成。
本公开实施例提供的一种审核模型的训练方法,可以根据模型自身的审核结果与标准结果进行比较后针对模型自身进行负反馈更新,使待训练的审核模型在训练过程中不断学习人工审核针对不同应用场景下的不同审核标准,进而审核模型确定出的审核结果逐渐与人工审核的结果相同,提升审核模型在应对不同应用场景下对应的不同审核标准时,数据审核的准确性。
本公开实施例提供的数据的审核方法,可以通过识别模型处理不同应用场景下、不同审核尺度以及审核标准的数据,自动获取该数据的审核结果,并且在使用过程中,识别模型通过不断针对数据的不同应用场景的不同审核尺度需求进行学习,并且根据模型自身的审核结果与标准结果进行比较后针对模型自身进行负反馈更新,开发人员只需部署一次识别模型即可应对不同应用场景下不同审核要求的数据,在节约了审核数据内容的人力成本的同时,增加了数据内容审核的效率。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与数据的审核方法对应的数据的审核装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据的审核方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图4,图4为本公开实施例提供的一种数据的审核装置的示意图之一,如图4中所示,本公开实施例提供的审核装置400包括:获取模块410、模型选择模块420、审核模块430以及确定模块440;
获取模块410,用于获取待审核数据,确定待审核数据对应的场景信息以及数据类型。
模型选择模块420,用于根据所述数据类型,确定所述数据类型对应的预先训练好的审核模型。
审核模块430,用于将所述待审核数据以及对应的场景信息输入至所述审核模型,确定所述待审核数据对应的尺度分类结果以及分类识别结果,其中,所述审核模型是根据训练数据以及对应的尺度分类标签以及分类识别标签训练得到的。
确定模块440,用于将所述尺度分类结果以及所述分类识别结果确定为所述待审核数据对应的审核结果。
可选的,所述审核模块430还用于:
获取训练数据以及所述训练数据对应的场景信息;
将带有所述尺度分类标签以及分类识别标签的所述训练数据输入至所述审核模型,确定所述训练数据对应的尺度分类结果以及分类识别结果,并根据所述尺度分类结果以及分类识别结果,确定所述审核模型对应的模型分类结果;
根据所述训练数据以及所述训练数据对应的场景信息,确定所述训练数据对应的标准分类结果;
根据所述标准分类结果以及所述模型分类结果,确定所述标准分类结果以及所述模型分类结果之间的偏差损失;
根据所述偏差损失更新所述审核模型。
可选的,所述审核模块430还用于:
将所述训练数据对应的尺度分类结果以及分类识别结果输入至所述待训练审核模型中的尺度矫正学习分支,确定所述训练数据对应的矫正尺度分类结果;
将所述矫正尺度分类结果确定为所述模型分类结果。
可选的,所述审核模块430还用于:
将所述标准分类结果以及所述模型分类结果输入至预设损失函数,确定所述标准分类结果以及所述模型分类结果之间的交叉熵损失;
将所述交叉熵损失确定为所述偏差损失。
可选的,所述审核模块430还用于:
根据所述交叉熵损失,更新所述审核模型中的尺度权重参数;
根据所述交叉熵损失,更新尺度矫正学习分支中的尺度权重参数。
可选的,所述审核模块430还用于:
将所述训练数据以及所述训练数据对应的场景信息输入至预先设置的人工审核平台,接收所述人工审核平台返回的所述标准分类结果。
可选的,所述审核模块430还用于:
确定所述偏差损失是否小于预设偏差阈值,若所述偏差损失小于预设偏差阈值,则确定所述审核模型训练完成。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例提供的数据的审核装置,可以通过识别模型处理不同应用场景下、不同审核尺度以及审核标准的数据,自动获取该数据的审核结果,并且在使用过程中,识别模型通过不断针对数据的不同应用场景的不同审核尺度需求进行学习,并且根据模型自身的审核结果与标准结果进行比较后针对模型自身进行负反馈更新,开发人员只需部署一次识别模型即可应对不同应用场景下不同审核要求的数据,在节约了审核数据内容的人力成本的同时,增加了数据内容审核的效率。
对应于图1中的数据的审核方法,本公开实施例还提供了一种电子设备500,如图5所示,为本公开实施例提供的电子设备500结构示意图,包括:
处理器51、存储器52、和总线53;存储器52用于存储执行指令,包括内存521和外部存储器522;这里的内存521也称内存储器,用于暂时存放处理器51中的运算数据,以及与硬盘等外部存储器522交换的数据,处理器51通过内存521与外部存储器522进行数据交换,当所述电子设备500运行时,所述处理器51与所述存储器52之间通过总线53通信,使得所述处理器51执行图1、图2以及图3中的数据的审核方法的步骤。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据的审核方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据的审核方法,其特征在于,包括:
获取待审核数据,确定待审核数据对应的场景信息以及数据类型;
根据所述数据类型,确定所述数据类型对应的预先训练好的审核模型;
将所述待审核数据以及对应的场景信息输入至所述审核模型,确定所述待审核数据对应的尺度分类结果以及分类识别结果,其中,所述审核模型是根据训练数据以及对应的尺度分类标签以及分类识别标签训练得到的;
将所述尺度分类结果以及所述分类识别结果确定为所述待审核数据对应的审核结果。
2.根据权利要求1所述的方法,其特征在于,基于以下方法训练所述审核模型:
获取所述训练数据以及所述训练数据对应的场景信息;
将带有所述尺度分类标签以及分类识别标签的所述训练数据输入至所述审核模型,确定所述训练数据对应的尺度分类结果以及分类识别结果,并根据所述尺度分类结果以及分类识别结果,确定所述审核模型对应的模型分类结果;
根据所述训练数据以及所述训练数据对应的场景信息,确定所述训练数据对应的标准分类结果;
根据所述标准分类结果以及所述模型分类结果,确定所述标准分类结果以及所述模型分类结果之间的偏差损失;
根据所述偏差损失更新所述审核模型。
3.根据权利要求2所述的方法,其特征在于,基于以下方法确定所述模型分类结果:
将所述训练数据对应的尺度分类结果以及分类识别结果输入至所述审核模型中的尺度矫正学习分支,确定所述训练数据对应的矫正尺度分类结果;
将所述矫正尺度分类结果确定为所述模型分类结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述标准分类结果以及所述模型分类结果,确定所述标准分类结果以及所述模型分类结果之间的偏差损失,具体包括:
将所述标准分类结果以及所述模型分类结果输入至预设损失函数,确定所述标准分类结果以及所述模型分类结果之间的交叉熵损失;
将所述交叉熵损失确定为所述偏差损失。
5.根据权利要求4所述的方法,其特征在于,所述根据所述偏差损失更新所述审核模型,具体包括:
根据所述交叉熵损失,更新所述审核模型中的尺度权重参数;
根据所述交叉熵损失,更新尺度矫正学习分支中的尺度权重参数。
6.根据权利要求2所述的方法,其特征在于,所述根据所述训练数据以及所述训练数据对应的场景信息,确定所述训练数据对应的标准分类结果,具体包括:
将所述训练数据以及所述训练数据对应的场景信息输入至预先设置的人工审核平台,接收所述人工审核平台返回的所述标准分类结果。
7.根据权利要求2所述的方法,其特征在于,在所述根据所述偏差损失更新所述审核模型之后,所述方法还包括:
确定所述偏差损失是否小于预设偏差阈值,若所述偏差损失小于预设偏差阈值,则确定所述审核模型训练完成。
8.一种数据的审核装置,其特征在于,所述装置包括:
获取模块,用于获取待审核数据,确定待审核数据对应的场景信息以及数据类型;
模型选择模块,用于根据所述数据类型,确定所述数据类型对应的预先训练好的审核模型;
审核模块,用于将所述待审核数据以及对应的场景信息输入至所述审核模型,确定所述待审核数据对应的尺度分类结果以及分类识别结果,其中,所述审核模型是根据训练数据以及对应的尺度分类标签以及分类识别标签训练得到的;
确定模块,用于将所述尺度分类结果以及所述分类识别结果确定为所述待审核数据对应的审核结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7中任一项所述的数据的审核方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7中任一项所述的数据的审核方法的步骤。
CN202111071557.0A 2021-09-14 2021-09-14 一种数据的审核方法、装置、电子设备及存储介质 Pending CN113516208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111071557.0A CN113516208A (zh) 2021-09-14 2021-09-14 一种数据的审核方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111071557.0A CN113516208A (zh) 2021-09-14 2021-09-14 一种数据的审核方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113516208A true CN113516208A (zh) 2021-10-19

Family

ID=78063132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111071557.0A Pending CN113516208A (zh) 2021-09-14 2021-09-14 一种数据的审核方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113516208A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408669A (zh) * 2018-09-29 2019-03-01 北京数美时代科技有限公司 一种针对不同应用场景的内容审核方法及装置
US20190334789A1 (en) * 2018-04-26 2019-10-31 EMC IP Holding Company LLC Generating Specifications for Microservices Implementations of an Application
CN111143612A (zh) * 2019-12-27 2020-05-12 广州市百果园信息技术有限公司 视频审核模型训练方法、视频审核方法及相关装置
CN112148898A (zh) * 2020-09-18 2020-12-29 京东数字科技控股股份有限公司 一种媒体内容审核的数据处理方法及装置
CN112613501A (zh) * 2020-12-21 2021-04-06 深圳壹账通智能科技有限公司 信息审核分类模型的构建方法和信息审核方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190334789A1 (en) * 2018-04-26 2019-10-31 EMC IP Holding Company LLC Generating Specifications for Microservices Implementations of an Application
CN109408669A (zh) * 2018-09-29 2019-03-01 北京数美时代科技有限公司 一种针对不同应用场景的内容审核方法及装置
CN111143612A (zh) * 2019-12-27 2020-05-12 广州市百果园信息技术有限公司 视频审核模型训练方法、视频审核方法及相关装置
CN112148898A (zh) * 2020-09-18 2020-12-29 京东数字科技控股股份有限公司 一种媒体内容审核的数据处理方法及装置
CN112613501A (zh) * 2020-12-21 2021-04-06 深圳壹账通智能科技有限公司 信息审核分类模型的构建方法和信息审核方法

Similar Documents

Publication Publication Date Title
CN108076154B (zh) 应用信息推荐方法、装置及存储介质和服务器
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
CN106022826A (zh) 一种网络直播平台中的作弊用户识别方法与系统
CN111950638A (zh) 基于模型蒸馏的图像分类方法、装置和电子设备
CN110837869A (zh) 图像分类模型训练方法、图像处理方法及装置
CN110264274B (zh) 客群划分方法、模型生成方法、装置、设备及存储介质
CN105894028B (zh) 用户识别方法和装置
CN111353037A (zh) 一种题目生成方法、装置以及计算机可读存储介质
CN107491536B (zh) 一种试题校验方法、试题校验装置及电子设备
CN111061933A (zh) 图片样本库构建方法、装置、可读存储介质及终端设备
CN113536081A (zh) 基于人工智能的数据中心数据管理方法及系统
CN111836063A (zh) 一种直播内容监测方法及装置
EP4113376A1 (en) Image classification model training method and apparatus, computer device, and storage medium
CN112734046A (zh) 模型训练及数据检测方法、装置、设备及介质
CN114626380A (zh) 实体识别的方法和装置、电子设备和存储介质
CN116204714A (zh) 推荐方法、装置、电子设备及存储介质
CN112668300B (zh) 一种公式编辑方法、装置、计算机设备和存储介质
CN113705792A (zh) 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN112035605A (zh) 题目推荐方法、装置、设备及存储介质
CN116167457A (zh) 一种数据标注方法、装置、计算机设备和存储介质
CN113516208A (zh) 一种数据的审核方法、装置、电子设备及存储介质
CN113361381B (zh) 人体关键点检测模型训练方法、检测方法及装置
CN110110280B (zh) 对坐标的曲线积分计算方法、装置、设备及存储介质
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
CN109885504B (zh) 推荐系统的测试方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211019