一种内容载体风险检测方法、装置、设备及介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种内容载体风险检测方法、装置、设备及介质。
背景技术
内容载体可以有多种类型,例如应用程序或者网页,内容载体可以供人们获取和处理数据,极大地提高了人们的生活便利性。但是,内容载体的使用也可能带来一些风险,例如资金诈骗、非法信息的传播等,因此对内容载体的风险检测也是一个重要课题。如上,内容载体具有多样化特点,且对于某种内容载体来说,其呈现形式也可能不断产生新的变化。例如,对于应用程序这一种内容载体来说,除了常见的需要下载安装的应用程序,包括支付宝在内的一些平台上还推出了“小程序”这一新形式的应用程序。小程序无需用户下载安装,用户只需扫一扫或者搜一下,即可打开并使用小程序提供的各式功能。这些小程序作为中介工具,为用户提供连接政府、机构、商家及用户的极简服务能力与工具。目前,包括小程序在内的应用程序的多样化,以及内容载体的多样化,给互联网内容安全管控带来了更大的挑战。特别是对于小程序来说,其出现时间较短,且使用方式不同于传统的应用程序,目前业内尚没有比较有效的小程序内容风险检测手段及小程序风险刻画方法。
有鉴于此,需要更有效的内容载体风险检测方案。
发明内容
本说明书实施例提供了一种内容载体风险检测方法、装置、设备及介质,用以解决如何更有效地进行内容载体风险检测的技术问题。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供一种内容载体风险检测方法,包括:
提取内容载体的一种或多种类型的内容单元,确定所述内容单元的风险检测结果;
根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果。
本说明书实施例提供一种内容载体风险检测装置,包括;
第一风险确定模块,用于提取内容载体的一种或多种类型的内容单元,确定所述内容单元的风险检测结果;
第二风险确定模块,用于根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果。
本说明书实施例提供一种内容载体风险检测设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
提取内容载体的一种或多种类型的内容单元,确定所述内容单元的风险检测结果;
根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果。
本说明书实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如下的步骤:
提取内容载体的一种或多种类型的内容单元,确定所述内容单元的风险检测结果;
根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书实施例将内容载体的风险检测转化为先对内容载体中的各类型内容单元进行风险检测,然后再通过内容单元的风险检测结果确定内容载体的风险检测结果,使得对内容载体的风险检测更加准确、全面和高效,并且适用于各种形式或类型的内容载体,具有更好的普适性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书第一个实施例提供的一种实际应用场景下的内容载体风险检测系统的示意图。
图2是本说明书第二个实施例提供的一种内容载体风险检测方法的流程示意图。
图3是本说明书第二个实施例中一种应用场景下的内容载体风险检测过程示意图。
图4是本说明书第三个实施例中一种应用场景下的内容载体风险检测过程示意图。
图5是本说明书第三个实施例中另一种应用场景下的内容载体风险检测过程示意图。
图6是本说明书第三个实施例中另一种应用场景下的内容载体风险检测过程示意图。
图7是本说明书第三个实施例中另一种应用场景下的内容载体风险检测过程示意图。
图8是本说明书第三个实施例中另一种应用场景下的内容载体风险检测过程示意图
图9是本说明书第四个实施例提供的一种内容载体风险检测装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
如图1所示,本说明书第一个实施例提供了一种实际应用场景下的内容载体风险检测系统。在本实施例中,通过第一风险检测系统11从内容载体中提取一种或多种或指定类型的内容单元,确定所述内容单元的风险检测结果;第二风险检测系统12根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果。本实施例将内容载体的风险检测转化为先对内容载体中的内容单元进行风险检测,然后再通过内容单元的风险检测结果确定内容载体的风险检测结果,使得对内容载体的风险检测更加准确、全面和高效,并且适用于各种形式或类型的内容载体,具有更好的普适性。
从程序角度而言,上述流程的执行主体可以为计算机或者服务器或者相应的内容载体风险检测系统等。另外,也可以由第三方应用客户端协助所述执行主体执行上述流程。
图2为本说明书第二个实施例提供的一种内容载体风险检测方法的流程示意图,图3是本说明书第二个实施例中一种应用场景下的内容载体风险检测过程示意图。结合图2和图3,本说明书本实施例提供的一种内容载体风险检测方法具体可以包括以下步骤:
S101:提取内容载体的一种或多种类型的内容单元,确定所述内容单元的风险检测结果。
本实施例中,内容载体是可以有多种类型的,例如可以是下载安装使用或在线访问使用的应用程序,应用程序包括小程序,还可以是网页等,内容载体可用于供用户获取数据或信息。这些内容载体一般都具有一种或多种或指定类型的内容单元,内容单元包括但不限于文本和/或图片和/或音频和/或视频,内容单元可以是向用户展示过或者没有展示过。内容单元可以是能够进行风险检测的最小单元。对于任一种类型的内容载体,可以提取该类型内容载体的一种或多种或指定类型的内容单元,具体提取哪些类型的内容单元可以指定。本实施例中,内容单元提取是一个连续的过程,提取出的每种类型的内容单元都是内容流,比如一段视频,一段音频,一张图片,一段文字等。另外,所提取出的内容单元还携带内容单元所属的内容载体的身份数据以及提取时间,身份数据包括内容载体的版本号和/或内容载体的ID,每个内容载体自身都具有身份数据,不同设备上的内容载体可以具有相同的身份数据,例如安装在不同设备上的同种应用程序可以具有相同或不同的身份数据;在不同设备上使用的同种小程序可以具有相同或不同的身份数据;在不同设备上使用的同一网页可以具有相同或不同的身份数据。
比如对于一段视频来说,该段视频提取自某一应用程序,则该段视频携带有该应用程序的身份数据;再比如,在某应用程序上先后提取同一段视频,若在两次提取该段视频期间该应用程序的身份数据没有更改,则这两段视频携带的该应用程序的身份数据是相同的;相应的,若在两次提取该段视频期间该应用程序的身份数据发生了更改,例如该应用程序进行了版本更新,则这两段视频携带的该应用程序的身份数据是不同的;再比如,两段视频先后提取自某一应用程序,若在提取这两段视频期间该应用程序的身份数据没有更改,则这两段视频携带的该应用程序的身份数据是相同的,即使这两段视频的内容不同;相应的,若在提取这两段视频期间该应用程序的身份数据发生了更改,例如该应用程序进行了版本更新,则这两段视频携带的该应用程序的身份信息是不同的,即使这两段视频的内容相同。总之,内容单元所携带的内容载体的身份数据只与内容单元所属的内容载体相关。
另外,提取的内容单元还可以携带内容单元所属的内容载体所在的设备(包括但不限于手机、计算机)的身份数据,例如,某段视频提取自某应用程序,该应用程序安装在某手机上,则该段视频既可以携带该应用程序的身份数据,也可以携带该手机的身份数据(例如手机的ID)。此外,提取的内容单元还携带内容单元所属的内容载体所在的设备(包括但不限于手机、计算机)上的操作系统的身份数据,例如,某段视频提取自某应用程序,该应用程序安装在某手机上,则该段视频既可以携带该应用程序的身份数据,也可以携带该手机的身份数据(例如手机的品牌和/或手机ID),还可以携带该手机上的操作系统的身份数据(例如操作系统的版本号和/或ID)。
由上可知,通过内容单元携带的内容载体的身份数据可以确定内容单元所属的内容载体。还可以将提取出的内容单元根据所携带的内容载体身份数据做分类,携带有相同的内容载体身份数据和/或设备身份数据和/或操作系统身份数据的内容单元分到一类。
在提取了内容单元后,就可以对所提取的内容单元进行风险检测。内容单元以及后续的内容载体的风险检测结果的类型包括但不限于:互斥型结果,即可能出现的结果之间相互排斥,例如有风险或无风险;分档型结果,即可能出现的结果包括若干档次,例如可以分为无风险、低风险、中风险以及高风险,也可以进行其他形式的分档或增减分档数;连续型结果,即可能出现的结果呈连续分布,例如使用0-100或其他连续型分值来刻画内容单元或内容载体的风险。
为了提高风险检测效率,可以将具有不同的内容载体身份数据但类型相同的内容单元统一进行风险检测,也可以单独对某内容载体的内容单元进行风险检测。下面介绍对内容单元可以采用的一些风险检测方法,对内容单元的风险检测方法不限于下面给出的方法。
(1)对于文本这一类型的内容单元来说,可以构建关键词库或者利用已有的词库,然后将待检测的文本与关键词库或词库进行匹配,根据匹配结果确定文本的风险检测结果,风险检测结果的类型取决于关键词库或词库的属性是互斥型还是分档型,或关键词库、词库中的元素的风险划分是互斥型还是分档型。
另外,还可以利用风险检测模型进行文本的风险检测,所得到的风险检测结果一般为连续型结果,例如0-100的分值。可以将达到或者超过一定分值的连续型结果或位于一定分数区间内的连续型结果对应到互斥型或分档型结果上,例如文本标签为涉政且分值大于60,则对应为互斥型结果中的有风险或分档型结果中的高风险;文本标签为语言辱骂或者语言暴力且分值大于60,则对应为互斥型结果中的有风险或分档型结果中的高风险;将分值在40至60之间对应到中风险。
(2)对于图片这一类型的内容单元来说,可以构建样本图库或者利用已有的样本图库,然后将待检测的图片与样本图库进行匹配,例如可以将待检测图片的URL与样本图库中图片的URL进行匹配,匹配一致则为相同或相似图片;或者计算待检测图片的MD5,并与样本图库中的图片的MD5进行匹配,MD5达到一定的相同条件则为相同或相似图片;或者计算待检测图片和样本图库中的图片的phash值,然后计算待检测图片的phash值与样本图库中的图片的phash值的汉明距离,汉明距离达到一定条件则为相同或相似图片。这些情况下,风险检测结果的类型取决于样本图库的属性是互斥型还是分档型,或样本图库中的元素的风险划分是互斥型还是分档型。
若图片中包含文字,则可以利用OCR技术将待检测图片中的文字提取出来,再转化为(1)中的文本检测。
若采用风险检测模型对待检测图片进行风险检测,所得到的风险检测结果一般为连续型结果,例如0-100的分值。同(1),可以将达到或者超过一定分值的连续型结果对应到互斥型或分档型结果上。
(3)对于音频这一类型的内容单元来说,可以构建声纹库或利用已有的声纹库,将待检测的音频与声纹库进行匹配,根据匹配结果确定音频的风险检测结果,风险检测结果的类型取决于声纹库的属性是互斥型还是分档型,或声纹库中的元素的风险划分是互斥型还是分档型。
还可以将音频转换为文本,再转化为(1)中的文本检测。
若采用风险检测模型对待检测音频进行风险检测,所得到的风险检测结果一般为连续型结果,例如0-100的分值。同(1),可以将达到或者超过一定分值的连续型结果对应到互斥型或分档型结果上。
(4)对于视频这一类型的内容单元来说,可以构建视频库或利用已有的视频库,将待检测的视频与视频库进行匹配,根据匹配结果确定视频的风险检测结果,风险检测结果的类型取决于视频库的属性是互斥型还是分档型,或视频库中的元素的风险划分是互斥型还是分档型。
还可以对待检测视频进行截帧,每一帧都是图片,然后转化为(2)中的图片检测,根据图片检测的结果确定视频的检测结果。
还可以利用AI分析产出待检测视频的关键词,例如“凳子”“小明”“钞票”,然后转化为(1)中的文本检测。
若采用风险检测模型对待检测视频进行风险检测,所得到的风险检测结果一般为连续型结果,例如0-100的分值。同(1),可以将达到或者超过一定分值的连续型结果或位于一定分数区间内的连续型结果对应到互斥型或分档型结果上。
另外,对于互斥型或分档型结果,也可以赋予一定的分值,比如互斥型结果中有风险赋予分值100,无风险赋予分值0;分档型特征中无风险赋予分值0,低风险赋予分值10,中风险赋予分值20,高风险赋予分值30。可见,各种风险检测结果是互通的,且都可以归结到用分值表示。
S102:根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果。
在得到各类型内容单元(“各类型”也可以仅为一种类型)的风险检测结果后,可以根据所述各类型内容单元的风险检测结果确定所述内容载体的风险检测结果。例如,当某个或某些文本或图片或音频或视频被检测为有风险,则根据其携带的内容载体身份数据将具有相同身份数据的内容载体判定为有风险,还可以根据其携带的设备身份数据定位有风险的内容载体所在的设备,还可以根据其携带的操作系统身份数据定位有风险的内容载体所在的设备所使用的操作系统。
本实施例将内容载体的风险检测转化为先对内容载体中的内容单元进行风险检测,然后再通过内容单元的风险检测结果确定内容载体的风险检测结果,使得对内容载体的风险检测更加准确、全面和高效,并且适用于各种形式或类型的内容载体,具有更好的普适性。
本说明书的第三个实施例是在第二个实施例的基础上,根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果包括:根据所述内容单元的风险检测结果确定所述内容载体的风险指标;根据所述内容载体的风险指标确定所述内容载体的风险检测结果。
对于任一内容单元,当得到了该内容单元的风险检测结果后,可以根据该内容单元的风险检测结果确定该内容单元的标签以及风险指标。例如,对于一段视频来说,经风险检测该段视频中包含色情片段,且分值为70分;则可以将该段视频映射到涉黄这个标签,用来刻画该标签的指标分值可以与内容单元的风险检测分值相同(70分),也可以另外赋予指标分值,或者每种标签对应一定的指标分值。一些情况下,一个内容单元可能有多种风险。例如,对于一段视频来说,经风险检测,该视频中包含色情片段,风险检测分值为70分;包含诋毁国家领导人片段,风险检测分值为99分;包含广告传销片段,风险检测分值为61分,则将该段视频映射到涉黄、涉政、广告三个标签,假设三个标签对应的指标分值分别为20分、40分和10分,那么可以将三个标签的指标分值相加作为该视频的风险指标(70分),也可以从三个标签中选取最大的指标分值作为该视频的风险指标(40分)。文本、图片、音频的风险指标同理可得。
根据所述内容单元的风险检测结果确定所述内容载体的风险指标包括但不限于以下方式:
1、如图4所示,对于任一内容载体,可以根据提取自该内容载体的内容单元的所述风险指标确定该内容载体的风险指标。这里面隐含了利用身份数据对内容单元进行分类的过程,即确定内容单元与内容载体的对应关系。进一步,对于任一内容载体,根据提取自该内容载体的内容单元的所述风险指标确定该内容载体的风险指标可以包括:
(1.1)对于任一内容载体,将提取自该内容载体的所有或指定类型内容单元的风险指标求和作为该内容载体的风险指标。举例来说,对于具有某身份数据的某小程序,提取自该小程序的内容单元有文本、图片、音频和视频,这些内容单元具有相同的小程序身份数据,每一类型的内容单元可能有一个或多个。计算出提取自该小程序的各个内容单元的风险指标后,可以将提取自该小程序的所有或指定类型内容单元的风险指标求和作为该小程序的风险指标。假如提取自该小程序的文本有a个,这a个文本的风险指标分别是A1,A2,……,Aa;提取自该小程序的图片有b个,这b个图片的风险指标分别是B1,B2,……,Bb;提取自该小程序的音频有c个,这c个音频的风险指标分别是C1,C2,……,Cc;提取自该小程序的视频有d个,这d个视频的风险指标分别是D1,D2,……,Dd,那么可以把A1+……Aa+B1+……+Bb+C1+……+Cc+D1+……+Dd作为该小程序的风险指标。其他类型的内容载体的风险指标的计算同理可得。
(1.2)确定各类型内容单元的风险指标的权重,对于任一内容载体,将提取自该内容载体的所有或指定类型内容单元的风险指标加权求和作为该内容载体的风险指标。举例来说,对于具有某身份数据的某小程序,提取自该小程序的内容单元有文本、图片、音频和视频,这些内容单元具有相同的小程序身份数据,每一类型的内容单元可能有一个或多个。计算出提取自该小程序的各个内容单元的风险指标后,可以将提取自该小程序的所有或指定类型内容单元的风险指标加权求和作为该小程序的风险指标。假如提取自该小程序的文本有a个,这a个文本的风险指标分别是A1,A2,……,Aa;提取自该小程序的图片有b个,这b个图片的风险指标分别是B1,B2,……,Bb;提取自该小程序的音频有c个,这c个音频的风险指标分别是C1,C2,……,Cc;提取自该小程序的视频有d个,这d个视频的风险指标分别是D1,D2,……,Dd;并且文本的权重为h,图片的权重为i,音频的权重为j,视频的权重为k,那么可以把h*(A1+……Aa)+i*(B1+……+Bb)+j*(C1+……+Cc)+k*(D1+……+Dd)作为该小程序的风险指标。其他类型的内容载体的风险指标的计算同理可得。
2、如图5所示,可以筛选内容单元的风险指标(单个内容单元的风险指标的确定方法同上),具体可以是:
对于任一内容载体的任一类型内容单元,将该类型内容单元的求和后大于和/或等于指标阈值的风险指标筛选出来,例如该类型内容单元有5个,可以将单个内容单元的风险指标与指标阈值比较,也可以将风险指标两两相加或每三个相加或每四个相加或五个相加与指标阈值比较;和/或,对于任一内容载体的任一类型内容单元,将第一时间段内的该类型内容单元的风险指标筛选出来;和/或,对于任一内容载体的任一类型内容单元,将过去第一数目的该类型内容单元的风险指标筛选出来;和/或,对于任一内容载体的任一类型内容单元,将第二时间段内达到或者超过一定重复次数的该类型内容单元的风险指标筛选出来;和/或,对于任一内容载体的任一类型内容单元,将第三时间段内去重后的该类型内容单元的风险指标筛选出来。上述的第一、第二、第三时间段可以根据需要指定,第一数目也可以根据需要指定。
对于任一内容载体,可以根据提取自该内容载体的内容单元筛选后的风险指标确定该内容载体的风险指标,具体可以包括:
(2.1)对于任一内容载体,将提取自该内容载体的内容单元筛选后的风险指标求和作为该内容载体的风险指标。
(2.2)确定各类型内容单元的风险指标的权重,对于任一内容载体,将提取自该内容载体的内容单元筛选后的风险指标加权求和作为该内容载体的风险指标。加权求和过程类似同(1.2)。
3、如图6所示,当得到了内容单元的风险检测结果后,可能有一些内容单元的利用价值不大,例如无风险或者风险等级较低的内容单元,故在本实施例中,可以筛选各类型内容单元的风险检测结果,筛选的标准可以根据实际情况确定,例如在互斥型结果下,将无风险的内容单元丢弃;在分档型结果下,将无风险以下、低风险以下或者中风险以下的内容单元丢弃;在连续型结果下,将分值在60以下的内容单元丢弃。
每个内容单元对应各自的风险检测结果,对风险检测结果进行筛选的同时也就对内容单元进行了筛选,根据筛选出的风险检测结果就可以确定筛选出的风险检测结果对应的内容单元以及这些内容单元的风险指标(单个内容单元的风险指标如何确定如前述)。对内容载体的风险检测结果整体进行筛选也就相当于对任一风险载体的内容载体的风险检测结果进行了筛选,从而对于任一风险载体,可以得到提取自该内容载体的内容单元中,筛选出的风险检测结果对应的内容单元。
对于任一内容载体,可以根据提取自该内容载体的内容单元中,筛选出的风险检测结果对应的内容单元的风险指标确定该内容载体的风险指标,具体可以包括:
(3.1)对于任一内容载体,将提取自该内容载体的内容单元中,“筛选出的风险检测结果对应的内容单元”的风险指标求和作为该内容载体的风险指标。
(3.2)确定各类型内容单元的风险指标的权重,对于任一内容载体,将提取自该内容载体的内容单元中,“筛选出的风险检测结果对应的内容单元”的风险指标加权求和作为该内容载体的风险指标。加权求和过程类似同(1.2)。
4、如图7所示,可以对内容单元进行筛选。比如可以将来自于白名单中的内容载体(例如电商小程序就可以是白名单中的内容载体)的内容单元(例如内衣模特图片)丢弃。对于任一内容载体,可以筛选提取自该内容载体的各类型内容单元,例如对于任一内容载体,当前所拥有的内容单元既包括过去一小时该内容载体所展示的内容,也包括过去二小时该内容载体所展示的内容或者其他时间段该内容载体所展示的内容,则可以将特定时间段内容的内容单元提取出来;再比如,可以从当前拥有的内容单元中提取出该内容载体过去100条所展示的内容,即特定数量的内容单元;或者还可以提取将特定时间段或特定数量的内容单元进行去重后剩余的内容单元;或者还可以将特定时间段或特定数量的内容单元中达到一定重复次数的内容单元提取出来。
对于任一内容载体,可以根据提取自该内容载体的筛选后的内容单元的风险指标确定该内容载体的风险指标,具体可以包括:
(4.1)对于任一内容载体,将“提取自该内容载体的筛选后的内容单元”的风险指标求和作为该内容载体的风险指标。
(4.2)确定各类型内容单元的风险指标的权重,对于任一内容载体,将“提取自该内容载体的筛选后的内容单元”的风险指标加权求和作为该内容载体的风险指标。加权求和过程类似同(1.2)。
可以看出,由于内容单元各自都对应有风险检测结果,因而筛选风险检测结果与筛选内容单元两者是相互的,筛选风险检测结果也就筛选了内容单元,筛选内容单元也就筛选了风险检测结果,但并不是说从风险检测结果这方面进行筛选和从内容单元这方面进行筛选的结果是相同的。具体的筛选手段可以根据应用场景选择,特别的,筛选内容单元和筛选风险检测结果两者可以都进行。
可以看出,由于内容单元各自都对应有风险指标,因而筛选风险指标与筛选内容单元两者是相互的,筛选风险指标也就筛选了内容单元,筛选内容单元也就筛选了风险指标,但并不是说从风险指标这方面进行筛选和从内容单元这方面进行筛选的结果是相同的。具体的筛选手段可以根据应用场景选择,特别的,筛选内容单元和筛选风险指标两者可以都进行。
进一步,如图8所示,可以既进行内容单元的筛选,又进行内容单元的风险检测结果或者内容单元的风险指标的筛选,或者三种筛选过程具体如何选择以及筛选次数可以根据需要确定。
特别的,本实施例中,对内容单元的筛选也可以在提取到内容单元后就进行,也可以在得到内容单元的风险检测结果或风险指标之前或之后进行。上述筛选过程可以针对所有的或指定的内容单元进行,不区分内容单元的来源。
本实施例中,根据内容载体的风险指标可以确定内容载体的风险检测结果。内容载体的风险检测结果同样可以包括互斥型结果和/或分档型结果和/或连续型结果,例如任一内容载体,计算出其风险指标后,可以使用该风险指标作为该内容载体的风险检测结果(连续型结果),或者可以将其风险指标映射到一定的风险档次,例如风险指标80-100映射到高风险(分档型结果);或者可以将其风险指标映射到有风险或无风险,例如若其风险指标达到和/或超出风险指标阈值(不同种类内容载体的风险指标阈值可以不同),则映射到有风险,未达到风险指标阈值则映射到无风险(互斥型结果)。
特别说明的是,在只考虑内容载体的身份数据的情况下,本说明书本实施例中所记载的“任一内容载体”并不一定特指某个设备上的某个内容载体,而是指具有某身份数据的内容载体,不论具有该身份数据的内容载体的当前被下载、被安装、被使用的数量有多少,分布在多少设备上。比如上面提到的“具有某身份数据的某小程序”,这里的“某小程序”不是指某个设备上安装的小程序,而是泛指具有该身份数据的小程序。再比如支付宝平台上的小程序,只要确定了小程序版本号和小程序ID这两个字段,那么所有具有该小程序版本号和小程序ID的小程序的可对用户展示的内容就是相同的。所以“提取具有某身份数据的某小程序”的内容单元,不需要特别的从哪个设备上的哪个小程序中提取。
进一步,若对于某些内容载体来说,即使具有相同的身份数据,但是在不同设备或不同操作系统上的可对用户展示的内容可能不同,这种情况下,提取内容单元就可以进一步精确定位到从哪个设备或者从哪种操作系统环境下提取,即如前所述,提取的内容单元不仅携带所述内容载体的身份数据,还携带设备身份数据和/或操作系统身份数据,这样在计算内容载体的风险指标时,除了携带相同的内容载体身份数据之外,还可以挑取携带相同设备身份数据和/或操作系统身份数据的内容单元进行内容单元的风险指标的计算以及这些内容单元所属的内容载体的风险指标的计算,从而精确到对某设备上的某内容载体和/或在某操作系统环境下运行的内容载体进行风险指标的计算。
本实施例可以采用“拆分-归并”的思路,将内容载体的风险检测拆分为先对内容载体中的各类型内容单元进行风险检测,并得到内容单元的风险指标,然后通过合并内容单元的风险指标确定内容载体的风险指标,最终得到内容载体的风险检测结果,使得对内容载体的风险检测更加准确、全面和高效,并且适用于各种形式或类型的内容载体,具有更好的普适性。
本实施例还可以采用“拆分-筛选-归并”的思路,将内容载体的风险检测拆分为先对内容载体中的各类型内容单元进行风险检测,经过筛选和合并内容单元的风险指标确定内容载体的风险指标,最终得到内容载体的风险检测结果,使得对内容载体的风险检测更加准确、全面和高效,并且适用于各种形式或类型的内容载体,具有更好的普适性
下面介绍如何确定各类型内容单元的风险指标的权重,确定各类型内容单元的风险指标的权重包括但不限于下面的方法:
(1)各类型内容单元的风险指标分别对应一定的权重,例如文本的风险指标的权重指定为p,图片的风险指标的权重指定为q,音频的风险指标的权重指定为r,视频的风险指标的权重指定为s。
(2)根据各类型内容单元的热度确定各类型内容单元的风险指标的权重。例如,对于任一内容载体,过去一段时间内文本的出现次数较多,则文本的风险指标的权重可以更高一些。
基于同样的思路,如图9所示,本说明书第四个实施例提供了一种内容载体风险检测装置,包括;
第一风险确定模块,用于提取内容载体的一种或多种类型的内容单元,确定所述内容单元的风险检测结果;
第二风险确定模块,用于根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果。
可选的,所述内容单元的类型包括文本和/或图片和/或音频和/或视频。
可选的,所述内容单元为内容流。
可选的,所述内容单元携带内容载体的身份数据,所述身份数据用于确定所述内容单元所属的内容载体。
可选的,所述风险检测结果包括互斥型结果和/或分档型结果和/或连续型结果。
可选的,根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果包括:
根据所述内容单元的风险检测结果确定所述内容载体的风险指标;
根据所述内容载体的风险指标确定所述内容载体的风险检测结果。
可选的,根据所述内容单元的风险检测结果确定所述内容载体的风险指标包括:
根据所述内容单元的风险检测结果确定内容单元的风险指标;
对于任一内容载体,根据提取自该内容载体的内容单元的所述风险指标确定该内容载体的风险指标;
或,
根据所述内容单元的风险检测结果确定内容单元的风险指标;
筛选所述内容单元的风险指标;
对于任一内容载体,根据提取自该内容载体的内容单元筛选后的风险指标确定该内容载体的风险指标;
和/或,
筛选内容单元的风险检测结果,根据筛选出的风险检测结果确定筛选出的风险检测结果对应的内容单元的风险指标;
对于任一内容载体,根据提取自该内容载体的内容单元中,筛选出的风险检测结果对应的内容单元的风险指标确定该内容载体的风险指标;
和/或,
筛选所述内容单元,根据筛选出的内容单元的风险检测结果确定所述筛选出的内容单元的风险指标;
对于任一内容载体,根据提取自该内容载体的筛选后的内容单元的风险指标确定该内容载体的风险指标。
可选的,筛选所述内容单元的风险指标包括:
对于任一内容载体的任一类型内容单元,将该类型内容单元的求和后大于和/或等于指标阈值的风险指标筛选出来;和/或,对于任一内容载体的任一类型内容单元,将第一时间段内的该类型内容单元的风险指标筛选出来;和/或,对于任一内容载体的任一类型内容单元,将过去第一数目的该类型内容单元的风险指标筛选出来;和/或,对于任一内容载体的任一类型内容单元,将第二时间段内达到或者超过一定重复次数的该类型内容单元的风险指标筛选出来;和/或,对于任一内容载体的任一类型内容单元,将第三时间段内去重后的该类型内容单元的风险指标筛选出来。
可选的,对于任一内容载体,根据提取自该内容载体的内容单元的所述风险指标确定该内容载体的风险指标包括:
对于任一内容载体,将提取自该内容载体的所有或指定类型内容单元的风险指标求和作为该内容载体的风险指标;或,
确定各类型内容单元的风险指标的权重,对于任一内容载体,将提取自该内容载体的所有或指定类型内容单元的风险指标加权求和作为该内容载体的风险指标;
或,
对于任一内容载体,根据提取自该内容载体的内容单元筛选后的风险指标确定该内容载体的风险指标包括:
对于任一内容载体,将提取自该内容载体的内容单元筛选后的风险指标求和作为该内容载体的风险指标;或,
确定各类型内容单元的风险指标的权重,对于任一内容载体,将提取自该内容载体的内容单元筛选后的风险指标加权求和作为该内容载体的风险指标;
和/或,
对于任一内容载体,根据提取自该内容载体的内容单元中,筛选出的风险检测结果对应的内容单元的风险指标确定该内容载体的风险指标包括:
对于任一内容载体,将提取自该内容载体的内容单元中,筛选出的风险检测结果对应的内容单元的风险指标求和作为该内容载体的风险指标;或,
确定各类型内容单元的风险指标的权重,对于任一内容载体,将提取自该内容载体的内容单元中,筛选出的风险检测结果对应的内容单元的风险指标加权求和作为该内容载体的风险指标;
和/或,
对于任一内容载体,根据提取自该内容载体的筛选后的内容单元的风险指标确定该内容载体的风险指标包括:
对于任一内容载体,将提取自该内容载体的筛选后的内容单元的风险指标求和作为该内容载体的风险指标;或,
确定各类型内容单元的风险指标的权重,对于任一内容载体,将提取自该内容载体的筛选后的内容单元的风险指标加权求和作为该内容载体的风险指标。
可选的,确定各类型内容单元的风险指标的权重包括:
各类型内容单元的风险指标分别对应一定的权重和/或根据各类型内容单元的热度确定各类型内容单元的风险指标的权重。
基于同样的思路,本说明书第五个实施例提供了一种内容载体风险检测设备,包括:
至少一个处理器,以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
提取内容载体的一种或多种类型的内容单元,确定所述内容单元的风险检测结果;
根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果。
基于同样的思路,本说明书第六个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如下的步骤:
提取内容载体的一种或多种类型的内容单元,确定所述内容单元的风险检测结果;
根据所述内容单元的风险检测结果确定所述内容载体的风险检测结果。
上述对本说明书特定实施例进行了描述,其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的,因此,装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。