一种数据筛选方法、装置、电子设备和存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种数据筛选方法、装置、电子设备和存储介质。
背景技术
随着网络技术的发展,人们与网络的关系越来越密切,人们会将大量的数据上传至网络上,例如:人们可以通过某社交平台将一些视频、图片或文字等数据上传至网络,以供其他用户观看。
为了保证人们上传的内容符合一定要求,例如:上传的内容是非色情内容,或者是非暴力内容,再或者是非反动内容,需要对有嫌疑的上传内容进行召回,然后通过人工排查的方式确定该召回的内容是否符合要求,在对有嫌疑的上传内容进行召回时,通常采用通过神经网络模型进行召回,但是通过神经网络模型召回的内容数据量较大,且召回的内容中存在符合要求的内容,因此,通过上述方式进行召回的准确率较低,从而导致人工排查时的人工工作量较大。
发明内容
有鉴于此,本公开实施例提供了一种数据筛选方法、装置、电子设备和存储介质,以降低人工排查时的人工工作量。
第一方面,本公开实施例提供了一种数据筛选方法,包括:
获取基于神经网络模型从内容召回池召回的与预设内容类型相关的多个待筛选数据单元;每个所述待筛选数据单元中包括至少一种数据类型对应的待筛选数据;
对于每个所述待筛选数据单元,根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度;
判断确定的所述匹配度是否在预设范围内;
如果确定的所述匹配度在所述预设范围内,则将该待筛选数据单元发送给目标设备。
可选地,所述根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度,包括:
根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度;
根据该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度,确定该待筛选数据单元与所述预设内容类型的匹配度。
可选地,所述根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度,包括:
针对数据类型为文本的待筛选数据,对所述文本进行拆词处理,得到所述文本中包括的词语;将得到的词语的词向量作为所述文本的特征信息输入至文本得分模型中,以得到所述文本与所述预设内容类型的第一匹配度;
针对数据类型为图片的待筛选数据,获取所述图片中的各像素的三通道像素值;将所述三通道像素值作为所述图片的特征信息输入至图片得分模型中,以得到所述图片与所述预设内容类型的第一匹配度;
针对数据类型为视频的待筛选数据,获取所述视频中的关键帧;获取所述关键帧的各像素的三通道像素值;将所述三通道像素值作为所述视频的特征信息输入至所述图片得分模型中,以得到所述视频与所述预设内容类型的第一匹配度。
可选地,所述根据该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度,确定该待筛选数据单元与所述预设内容类型的匹配度,包括:
获取该待筛选数据单元在网络上的网络传播信息,以及在预设时间段内与该待筛选数据单元的作者的作品、网络行为和基本信息相关的作者特征信息;
根据所述第一匹配度、所述网络传播信息和所述作者特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度。
可选地,所述根据所述第一匹配度、所述网络传播信息和所述作者特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度,包括:
将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数输入至梯度上升决策树模型GBDT中,得到第二匹配度,将该第二匹配度作为该待筛选数据单元与所述预设内容类型的匹配度。
可选地,所述第二匹配度包括第三匹配度和第四匹配度;所述将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数输入至梯度上升决策树模型GBDT中,得到第二匹配度,包括:
将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数分别输入第一GBDT和第二GBDT中,以得到所述第三匹配度和所述第四匹配度;
其中,所述第一GBDT在进行训练时使用的样本为所述预设内容类型中属于第一类内容类型的样本,所述第二GBDT在进行训练时使用的样本为所述预设内容类型中属于第二类内容类型的样本,所述第一类内容类型的召回优先级高于所述第二类内容类型的召回优先级。
可选地,所述判断确定的所述匹配度是否在预设范围内,包括:
当所述第三匹配度属于第一预设范围和/或当所述第四匹配度属于第二预设范围时,确定所述匹配度在预设范围内;
其中,所述第一预设范围位于第一预设匹配度和第二预设匹配度之间,所述第二预设范围位于第三预设匹配度和第四预设匹配度之间。
可选地,所述方法还包括:
当所述第三匹配度小于或等于所述第一预设匹配度,以及所述第四匹配度小于或等于所述第三预设匹配度时,则确定该待筛选数据单元与所述预设内容类型不相匹配。
可选地,所述方法还包括:
当所述第三匹配度大于或等于所述第二预设匹配度,以及所述第四匹配度大于或等于所述第四预设匹配度时,则确定该待筛选数据单元为违规内容。
可选地,所述至少一种数据类型包括以下至少一种:
文本、图片、视频。
第二方面,本公开实施例提供了一种数据筛选装置,包括:
获取单元,用于获取基于神经网络模型从内容召回池召回的与预设内容类型相关的多个待筛选数据单元;每个所述待筛选数据单元中包括至少一种数据类型对应的待筛选数据;
确定单元,用于对于每个所述待筛选数据单元,根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度;
判断单元,用于判断确定的所述匹配度是否在预设范围内;
发送单元,用于如果确定的所述匹配度在所述预设范围内,则将该待筛选数据单元发送给目标设备。
可选地,所述确定单元的配置在用于根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度时,包括:
根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度;
根据该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度,确定该待筛选数据单元与所述预设内容类型的匹配度。
可选地,所述确定单元的配置在用于根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度时,包括:
针对数据类型为文本的待筛选数据,对所述文本进行拆词处理,得到所述文本中包括的词语;将得到的词语的词向量作为所述文本的特征信息输入至文本得分模型中,以得到所述文本与所述预设内容类型的第一匹配度;
针对数据类型为图片的待筛选数据,获取所述图片中的各像素的三通道像素值;将所述三通道像素值作为所述图片的特征信息输入至图片得分模型中,以得到所述图片与所述预设内容类型的第一匹配度;
针对数据类型为视频的待筛选数据,获取所述视频中的关键帧;获取所述关键帧的各像素的三通道像素值;将所述三通道像素值作为所述视频的特征信息输入至所述图片得分模型中,以得到所述视频与所述预设内容类型的第一匹配度。
可选地,所述确定单元的配置在用于根据该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度,确定该待筛选数据单元与所述预设内容类型的匹配度时,包括:
获取该待筛选数据单元在网络上的网络传播信息,以及在预设时间段内与该待筛选数据单元的作者的作品、网络行为和基本信息相关的作者特征信息;
根据所述第一匹配度、所述网络传播信息和所述作者特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度。
可选地,所述确定单元的配置在用于根据所述第一匹配度、所述网络传播信息和所述作者特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度时,包括:
将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数输入至梯度上升决策树模型GBDT中,得到第二匹配度,将该第二匹配度作为该待筛选数据单元与所述预设内容类型的匹配度。
可选地,所述第二匹配度包括第三匹配度和第四匹配度;所述确定单元的配置在用于将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数输入至梯度上升决策树模型GBDT中,得到第二匹配度时,包括:
将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数分别输入第一GBDT和第二GBDT中,以得到所述第三匹配度和所述第四匹配度;
其中,所述第一GBDT在进行训练时使用的样本为所述预设内容类型中属于第一类内容类型的样本,所述第二GBDT在进行训练时使用的样本为所述预设内容类型中属于第二类内容类型的样本,所述第一类内容类型的召回优先级高于所述第二类内容类型的召回优先级。
可选地,所述判断单元的配置在用于判断确定的所述匹配度是否在预设范围内时,包括:
当所述第三匹配度属于第一预设范围和/或当所述第四匹配度属于第二预设范围时,确定所述匹配度在预设范围内;
其中,所述第一预设范围位于第一预设匹配度和第二预设匹配度之间,所述第二预设范围位于第三预设匹配度和第四预设匹配度之间。
可选地,所述判断单元,还用于:
当所述第三匹配度小于或等于所述第一预设匹配度,以及所述第四匹配度小于或等于所述第三预设匹配度时,则确定该待筛选数据单元与所述预设内容类型不相匹配。
可选地,所述判断单元,还用于:
当所述第三匹配度大于或等于所述第二预设匹配度,以及所述第四匹配度大于或等于所述第四预设匹配度时,则确定该待筛选数据单元为违规内容。
可选地,所述至少一种数据类型包括以下至少一种:
文本、图片、视频。
第三方面,本公开实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面中任一项所述的数据筛选方法的步骤。
第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面中任一项所述的数据筛选方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
在本公开中,在获取到利用神经网络模型从内容召回池中召回的数据(即:多个待筛选数据单元)后,由于待筛选数据单元是由各种类型的数据构成的,该待筛选数据单元是否符合要求,可以通过该待筛选数据单元中各种数据类型对应的待筛选数据反映出来,因此可以根据每个待筛选数据单元中包括的各数据类型对应的待筛选数据的特征信息,来确定该待筛选数据单元与预设内容类型的匹配度,且当确定的匹配度在预设范围内(即:满足一定条件)时,表示该待筛选数据单元与预设内容类型的匹配度较高,进一步地,该待筛选数据单元是需要人工进行排查内容的可能性较高,因此需要将该待筛选数据单元发送给目标设备,以供该目标设备显示该待筛选数据,从而便于人工排查,通过上述方法,可以对通过神经网络模型召回的数据进行二次筛选,以便将通过神经网络模型召回的数据中与预设内容类型匹配度相对较高的数据发送给目标设备进行人工排查,相对于将通过神经网络模型召回的数据进行人工排查的方式,本公开有利于降低进行人工排查的数据的数据量,从而有利于降低人工工作量。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本公开实施例一提供的一种数据筛选方法的流程示意图;
图2为本公开实施例一提供的另一种数据筛选方法的流程示意图;
图3为本公开实施例一提供的另一种数据筛选方法的流程示意图;
图4为本公开实施例二提供的一种数据筛选装置的结构示意图;
图5为本公开实施例三提供的一种电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
实施例一
图1为本公开实施例一提供的一种数据筛选方法的流程示意图,如图1所示,该数据筛选方法包括以下步骤:
步骤101、获取基于神经网络模型从内容召回池召回的与预设内容类型相关的多个待筛选数据单元;每个所述待筛选数据单元中包括至少一种数据类型对应的待筛选数据。
这里,一个待筛选数据单元可以指一篇文章、一个视频、一张图片等作为一个逻辑整体存在的数据单元。
在实施中,可以将在指定的平台上传的所有数据作为内容召回池,在进行数据召回之前预先设定好将要召回的内容类型,例如:召回色情内容,或者召回暴力内容,再或者召回反动内容等,在设置好将要召回的内容类型后,可以从上传到该平台上的所有数据中进行召回,在召回时可以使用重召回的神经网络模型进行召回,例如使用深度神经网络模型来进行内容召回,以便将该平台上所有相关的上传数据都进行召回,避免一些非法的信息发布出去。
需要说明的是,关于内容召回池可以根据实际需要进行定义或设置,例如:可以为某一能够进行数据上传的平台,或者也可以为一个用于进行数据存储的数据库,具体的内容召回池在此不做具体限定,并且,预设内容类型也可以根据实际需要进行设置,例如:可以召回一些违法的内容,或者可以是一些与检索词相关的内容等,关于具体的召回内容在此不做具体限定,同时,具体的神经网络模型也可以根据实际需要进行设置,在此不做具体限定。
步骤102、对于每个所述待筛选数据单元,根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度。
具体的,对于某一待筛选数据单元而言,其包括至少一种数据类型的待筛选数据,由于该待筛选数据单元是由不同数据类型的待筛选数据构成的,因此该待筛选数据单元中的每种数据类型下的待筛选数据都能反映该待筛选数据单元是否与预设内容类型相匹配,并且,由于通过对该待筛选数据单元中包括的各数据类型下的待筛选数据进行分析后,可以更加准确地确定该待筛选数据单元是否真的与预设内容类型相匹配,从而有利于降低该待筛选数据单元中只有一小部分内容与预设内容类型相关,而该待筛选数据单元的绝大部分数据与预设内容类型不相关时出现将该待筛选数据单元判断为与预设内容类型匹配度较高的数据的情况。
步骤103、判断确定的所述匹配度是否在预设范围内。
步骤104、如果确定的所述匹配度在所述预设范围内,则将该待筛选数据单元发送给目标设备。
具体的,当该待筛选数据单元与预设内容类型的匹配度在预设范围内时,表示该待筛选数据单元与预设内容类型的相关度较高,即:该待筛选数据单玉环与用户想要筛选出来的内容相关度较高,因此需要将该待筛选数据单元发送给目标设备,以使该目标设备将该待筛选数据单元显示给用户进行人工筛选,例如:当预设内容类型为召回色情内容时,如果该待筛选数据单元与预设内容类型的匹配度在预设范围内,表示该待筛选单元内容为色情内容的概率较高,因此为了进一步确认该待筛选数据单元是否真的为色情内容,需要将该待筛选单元发送给目标设备(如:工作人员进行筛选工作的设备上),以便对该待筛选数据单元进行人工排查。
通过上述方法,可以对通过神经网络模型召回的数据进行二次筛选,以便将通过神经网络模型召回的数据中与预设内容类型匹配度相对较高的数据发送给目标设备进行人工排查,相对于将所有重召回的数据进行人工排查的方式,本公开有利于降低进行人工排查的数据的数据量,从而有利于降低人工工作量。
在一个可行的实施方案中,图2为本公开实施例一提供的另一种数据筛选方法的流程示意图,如图2所示,在执行步骤102时,可以通过以下步骤实现:
步骤201、根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度。
步骤202、根据该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度,确定该待筛选数据单元与所述预设内容类型的匹配度。
具体的,不同数据类型下的待筛选数据有不同的特征信息,而特征信息能够表征该待筛选数据的相关信息,因此根据特征信息能够判断对应的待筛选数据与预设内容类型的匹配程度,在确定出该待筛选数据单元中包括的各数据类型下的待筛选数据与预设内容类型的匹配程度后,可以分析得到该待筛选数据单元与预设内容类型的匹配程度,通过上述方式可以从该待筛选数据单元的多个方面来判断与预设内容类型的匹配程度,从而有利于提高判断结果的准确性。
在一个可行的实施方案中,该待筛选数据中包括的各数据类型包括以下至少一种:文本、图片和视频,在执行步骤201时,可以通过采用以下至少一种方式实现:
方式一:针对数据类型为文本的待筛选数据,对所述文本进行拆词处理,得到所述文本中包括的词语;将得到的词语的词向量作为所述文本的特征信息输入至文本得分模型中,以得到所述文本与所述预设内容类型的第一匹配度。
方式二:针对数据类型为图片的待筛选数据,获取所述图片中的各像素的三通道像素值;将所述三通道像素值作为所述图片的特征信息输入至图片得分模型中,以得到所述图片与所述预设内容类型的第一匹配度。
方式三:针对数据类型为视频的待筛选数据,获取所述视频中的关键帧;获取所述关键帧的各像素的三通道像素值;将所述三通道像素值作为所述视频的特征信息输入至所述图片得分模型中,以得到所述视频与所述预设内容类型的第一匹配度。
具体的,待筛选数据单元中包括文本、图片和视频中的至少一种数据类型,在确定出该待筛选数据单元中包括的数据类型后,需要使用对应的处理方式对对应的待筛选数据进行处理,以得到该待筛选数据单元中包括的各数据类型下的待筛选数据与预设内容类型的匹配度,即:该待筛选数据单元中包括的各数据类型下的待筛选数据的第一匹配度,例如:当一个待筛选数据单元中包括的数据类型有文本和图片时,对于文本的数据可以采用方式一进行处理,对于图片的数据可以采用方式二进行处理,从而得到文本对应的待筛选数据的第一匹配度数值和图片对应的待筛选数据的第一匹配度数值;当一个待筛选数据单元中包括的数据类型有文本、图片和视频时,对于文本对应的待筛选数据可以采用方式一进行处理,对于图片对应的待筛选数据可以采用方式二进行处理,对于视频对应的待筛选数据可以采用方式三进行处理,从而得到文本对应的待筛选数据的第一匹配度、图片对应的待筛选数据的第一匹配度和视频对应的待筛选数据的第一匹配度数值。
举例说明,对于文本对应的待筛选数据,可以预先设置与预设内容类型相关的敏感词,然后通过文本得分模型判断文本对应的待筛选数据包括的词语中包含的敏感词的数量,通过包含敏感词的数量确定文本对应的待筛选数据的第一匹配度;对于图片对应的待筛选数据和视频对应的待筛选数据,可以预先设置与预设内容类型相关的模型,如:国内领导人模型、当地领导人模型、色情模型、恶心模型、血腥模型、高危消重模型、泛低俗模型、打架模型、性感模型、自残模型、虐待动物模型、模糊模型、自拍模型和未成年模型等,然后判断图片对应的待筛选数据和视频对应的待筛选数据的关键帧与上述模型相匹配的数量来确定图片对应的待筛选数据的第一匹配度和视频对应的待筛选数据的第一匹配度,需要注意的是,上述示例仅是示意性的说明,并不对本公开形成限定,具体的方式可以根据实际需要进行设置,在此不做具体限定。
需要说明的是,关于具体的文本得分模型和图片得分模型可以根据实际需要进行设置,在此不做具体限定。
在一个可行的实施方案中,图3为本公开实施例一提供的另一种数据筛选方法的流程示意图,如图3所示,在执行步骤202时,可以通过以下步骤实现:
步骤301、获取该待筛选数据单元在网络上的网络传播信息,以及在预设时间段内与该待筛选数据单元的作者的作品、网络行为和基本信息相关的作者特征信息。
步骤302、根据所述第一匹配度、所述网络传播信息和所述作者特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度。
具体的,该待筛选数据单元在网络上的网络传播信息可以包括:该待筛选数据单元在网络上的点展数、收藏数、分享数、评论数、举报数、转发数、下载数、点展比(点击数和展现量的比值)、点赞比(点赞数和点击数的比值)、收藏比、分享比、评论比、举报比、转发比和下载比等,在预设时间段内与该待筛选数据单元的作者的作品相关的作者特征信息包括:作者最近的进审率、下架数、下架率和订阅数等,在预设时间段内与该待筛选数据单元的作者的网络行为相关的作者特征信息包括:作者最近浏览的内容里被下架的数量和比例,以及作者最近浏览的内容里被订阅的数量和比例等,在预设时间段内与该待筛选数据单元的作者的基本信息相关的作者特征信息包括:作者的粉丝数量、粉丝增长率、认证情况、发文方式等。
关于在预设时间段内与该待筛选数据单元的作者的作品、网络行为和基本信息相关的作者特征信息可以根据实际需要进行设置,在此不做具体限定。
由于第一匹配度能够反映该待筛选数据单元中各数据类型下的待筛选数据与预设内容类型的匹配程度,网络传播信息能够反映该待筛选数据单元在网络上传播情况,作者特征信息能够反映该待筛选数据单元的作者的一些历史信誉度信息,通过结合该待筛选数据单元的作者的历史信誉情况来考虑当前的该待筛选数据单元是否与要预设内容类型相匹配可以使判断结果相对更佳准确,因此在第一匹配度的基础上结合其他两种信息可以更加准确的确定该待筛选数据单元与预设内容类型的匹配程度,从而使得有利于提高判断结果的准确性。
在一个可行的实施方案中,在执行步骤302时,可以将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数输入至GBDT(Gradient Boosting DecisionTree,梯度上升决策树模型)中,得到第二匹配度,将该第二匹配度作为该待筛选数据单元与所述预设内容类型的匹配度。
具体的,将上述三种信息作为输入参数一起输入至GBDT模型中后,可以在得到第二匹配度时综合考虑上述三种信息,即:第一匹配度的基础上结合该待筛选数据单元的作者的历史信誉情况来确定该待筛选数据单元与预设内容类型的匹配程度,从而使得有利于提高判断结果的准确性。
在一个可行的实施方案中,所述第二匹配度包括第三匹配度和第四匹配度,在执行步骤302时,可以将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数分别输入第一GBDT和第二GBDT中,以得到所述第三匹配度和所述第四匹配度,其中,所述第一GBDT在进行训练时使用的样本为所述预设内容类型中属于第一类内容类型的样本,所述第二GBDT在进行训练时使用的样本为所述预设内容类型中属于第二类内容类型的样本,所述第一类内容类型的召回优先级高于所述第二类内容类型的召回优先级。
具体的,召回的待筛选数据单元可能存在多个属性,并且该多个属性的召回优先级是不同的,以召回色情内容为例,召回的待筛选数据单元可能既属于色情内容有属于低俗内容,且在召回时,色情内容的优先级高于低俗内容的优先级,只有当待筛选数据单元在同时满足上述至少一个属性时才是符合要求的召回数据,为了确定该待筛选数据单元是否满足上述至少一个属性,需要将上述三种信息作为输入参数分别输入第一GBDT和第二GBDT,其中,第一GBDT在进行模型训练时使用第一类内容类型的样本进行训练,第二GBDT在进行模型训练时使用第二类内容类型的样本进行训练,例如:第一GBDT在进行模型训练时使用色情内容为样本进行训练,第二GBDT在进行模型训练时使用低俗内容为样本进行训练,从而在将上述三种信息作为输入参数分别输入第一GBDT和第二GBDT后可以得到第三匹配度和第四匹配的,即:可以得到该待筛选数据单元与色情内容的匹配度和该待筛选数据单元与低俗内容的匹配度。
需要说明的是,关于具体的第一类内容类型和第二类内容类型可以根据实际需要进行设定,在此不再详细说明,关于第一类内容类型的样本和第二类内容类型的样本可以根据实际需要进行选择,在此不做具体限定。
在一个可行的实施方案中,在执行步骤103时,当所述第三匹配度属于第一预设范围和/或当所述第四匹配度属于第二预设范围时,确定所述匹配度在预设范围内;其中,所述第一预设范围位于第一预设匹配度和第二预设匹配度之间,所述第二预设范围位于第三预设匹配度和第四预设匹配度之间。
具体的,当第三匹配度属于第一预设范围表示该待筛选数据单元可能是第一类内容类型,当第四匹配度属于第二预设范围表示该待筛选数据单元可能是第二类内容类型,当所述第三匹配度属于第一预设范围和/或当所述第四匹配度属于第二预设范围时表示该待筛选数据单元符合召回要求的可能性比较大,因此需要进行人工排查。
在一个可行的实施方案中,当所述第三匹配度小于或等于所述第一预设匹配度,以及所述第四匹配度小于或等于所述第三预设匹配度时,则确定该待筛选数据单元与所述预设内容类型不相匹配。
具体的,当所述第三匹配度小于或等于所述第一预设匹配度时表示该待筛选数据单元基本不属于第一类内容类型,当所述第四匹配度小于或等于所述第三预设匹配度时表示该待筛选数据单元基本不属于第二类内容类型,当所述第三匹配度小于或等于所述第一预设匹配度,以及所述第四匹配度小于或等于所述第三预设匹配度时表示该待筛选数据单元基本不属于需要召回的内容,此时可以不需要进行人工排查,该待筛选数据单元可以直接被其他用户观看或使用。
在一个可行的实施方案中,当所述第三匹配度大于或等于所述第二预设匹配度,以及所述第四匹配度大于或等于所述第四预设匹配度时,则确定该待筛选数据单元为违规内容。
具体的,当所述第三匹配度大于或等于所述第二预设匹配度时表示该待筛选数据单元属于第一类内容类型,当所述第四匹配度大于或等于所述第四预设匹配度时表示该待筛选数据单元属于第二类内容类型,当该待筛选数据单元同时满足上述两个条件时,可以直接确定是必须需要召回的内容,可以不需要进行人工排查,当该待筛选数据同时满足上述两个条件时,采用的处理方式可以包括直接下架,或者将该待筛选数据单元设置成只能由作者观看的模式,关于具体的处理方式可以根据实际需要进行设置,在此不做具体限定。
实施例二
图4为本公开实施例二提供的一种数据筛选装置的结构示意图,如图4所示,该数据筛选装置包括:
获取单元41,用于获取基于神经网络模型从内容召回池召回的与预设内容类型相关的多个待筛选数据单元;每个所述待筛选数据单元中包括至少一种数据类型对应的待筛选数据;
确定单元42,用于对于每个所述待筛选数据单元,根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度;
判断单元43,用于判断确定的所述匹配度是否在预设范围内;
发送单元44,用于如果确定的所述匹配度在所述预设范围内,则将该待筛选数据单元发送给目标设备。
在一个可行的实施方案中,所述确定单元42的配置在用于根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度时,包括:
根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度;
根据该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度,确定该待筛选数据单元与所述预设内容类型的匹配度。
在一个可行的实施方案中,所述确定单元42的配置在用于根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度时,包括:
针对数据类型为文本的待筛选数据,对所述文本进行拆词处理,得到所述文本中包括的词语;将得到的词语的词向量作为所述文本的特征信息输入至文本得分模型中,以得到所述文本与所述预设内容类型的第一匹配度;
针对数据类型为图片的待筛选数据,获取所述图片中的各像素的三通道像素值;将所述三通道像素值作为所述图片的特征信息输入至图片得分模型中,以得到所述图片与所述预设内容类型的第一匹配度;
针对数据类型为视频的待筛选数据,获取所述视频中的关键帧;获取所述关键帧的各像素的三通道像素值;将所述三通道像素值作为所述视频的特征信息输入至所述图片得分模型中,以得到所述视频与所述预设内容类型的第一匹配度。
在一个可行的实施方案中,所述确定单元42的配置在用于根据该待筛选数据单元中每一种数据类型下的待筛选数据与所述预设内容类型的第一匹配度,确定该待筛选数据单元与所述预设内容类型的匹配度时,包括:
获取该待筛选数据单元在网络上的网络传播信息,以及在预设时间段内与该待筛选数据单元的作者的作品、网络行为和基本信息相关的作者特征信息;
根据所述第一匹配度、所述网络传播信息和所述作者特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度。
在一个可行的实施方案中,所述确定单元42的配置在用于根据所述第一匹配度、所述网络传播信息和所述作者特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度时,包括:
将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数输入至梯度上升决策树模型GBDT中,得到第二匹配度,将该第二匹配度作为该待筛选数据单元与所述预设内容类型的匹配度。
可选地,所述第二匹配度包括第三匹配度和第四匹配度;所述确定单元的配置在用于将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数输入至梯度上升决策树模型GBDT中,得到第二匹配度时,包括:
将所述第一匹配度、所述网络传播信息和所述作者特征信息作为输入参数分别输入第一GBDT和第二GBDT中,以得到所述第三匹配度和所述第四匹配度;
其中,所述第一GBDT在进行训练时使用的样本为所述预设内容类型中属于第一类内容类型的样本,所述第二GBDT在进行训练时使用的样本为所述预设内容类型中属于第二类内容类型的样本,所述第一类内容类型的召回优先级高于所述第二类内容类型的召回优先级。
在一个可行的实施方案中,所述判断单元43的配置在用于判断确定的所述匹配度是否在预设范围内时,包括:
当所述第三匹配度属于第一预设范围和/或当所述第四匹配度属于第二预设范围时,确定所述匹配度在预设范围内;
其中,所述第一预设范围位于第一预设匹配度和第二预设匹配度之间,所述第二预设范围位于第三预设匹配度和第四预设匹配度之间。
在一个可行的实施方案中,所述判断单元43,还用于:
当所述第三匹配度小于或等于所述第一预设匹配度,以及所述第四匹配度小于或等于所述第三预设匹配度时,则确定该待筛选数据单元与所述预设内容类型不相匹配。
在一个可行的实施方案中,所述判断单元43,还用于:
当所述第三匹配度大于或等于所述第二预设匹配度,以及所述第四匹配度大于或等于所述第四预设匹配度时,则确定该待筛选数据单元为违规内容。
在一个可行的实施方案中,所述至少一种数据类型包括以下至少一种:
文本、图片、视频。
关于实施例二的相关解释可参考实施例一的相关说明,在此不再详细说明。
在本公开中,在获取到利用神经网络模型从内容召回池中召回的数据(即:多个待筛选数据单元)后,由于待筛选数据单元是由各种类型的数据构成的,该待筛选数据单元是否符合要求,可以通过该待筛选数据单元中各种数据类型对应的待筛选数据反映出来,因此可以根据每个待筛选数据单元中包括的各数据类型对应的待筛选数据的特征信息,来确定该待筛选数据单元与预设内容类型的匹配度,且当确定的匹配度在预设范围内(即:满足一定条件)时,表示该待筛选数据单元与预设内容类型的匹配度较高,进一步地,该待筛选数据单元是需要人工进行排查内容的可能性较高,因此需要将该待筛选数据单元发送给目标设备,以供该目标设备显示该待筛选数据,从而便于人工排查,通过上述方法,可以对通过神经网络模型召回的数据进行二次筛选,以便将通过神经网络模型召回的数据中与预设内容类型匹配度相对较高的数据发送给目标设备进行人工排查,相对于将通过神经网络模型召回的数据进行人工排查的方式,本公开有利于降低进行人工排查的数据的数据量,从而有利于降低人工工作量。
实施例三
图5为本公开实施例三提供的一种电子设备的结构示意图,包括:处理器501、存储介质502和总线503,所述存储介质502存储有所述处理器501可执行的机器可读指令,当电子设备运行上述的数据筛选方法时,所述处理器501与所述存储介质502之间通过总线503通信,所述处理器501执行所述机器可读指令,以执行以下步骤:
获取基于神经网络模型从内容召回池召回的与预设内容类型相关的多个待筛选数据单元;每个所述待筛选数据单元中包括至少一种数据类型对应的待筛选数据;
对于每个所述待筛选数据单元,根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度;
判断确定的所述匹配度是否在预设范围内;
如果确定的所述匹配度在所述预设范围内,则将该待筛选数据单元发送给目标设备。
在本公开实施例中,所述存储介质502还可以执行其它机器可读指令,以执行如实施例一中其它所述的方法,关于具体执行的方法步骤和原理参见实施例一的说明,在此不再详细赘述。
实施例四
本公开实施例四还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行以下步骤:
获取基于神经网络模型从内容召回池召回的与预设内容类型相关的多个待筛选数据单元;每个所述待筛选数据单元中包括至少一种数据类型对应的待筛选数据;
对于每个所述待筛选数据单元,根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息,确定该待筛选数据单元与所述预设内容类型的匹配度;
判断确定的所述匹配度是否在预设范围内;
如果确定的所述匹配度在所述预设范围内,则将该待筛选数据单元发送给目标设备。
在本公开实施例中,该计算机程序被处理器运行时还可以执行其它机器可读指令,以执行如实施例一中其它所述的方法,关于具体执行的方法步骤和原理参见实施例一的说明,在此不再详细赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本公开中不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。