CN112600834B - 内容安全识别方法及装置、存储介质和电子设备 - Google Patents

内容安全识别方法及装置、存储介质和电子设备 Download PDF

Info

Publication number
CN112600834B
CN112600834B CN202011454244.9A CN202011454244A CN112600834B CN 112600834 B CN112600834 B CN 112600834B CN 202011454244 A CN202011454244 A CN 202011454244A CN 112600834 B CN112600834 B CN 112600834B
Authority
CN
China
Prior art keywords
detected
content
content information
security detection
identification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011454244.9A
Other languages
English (en)
Other versions
CN112600834A (zh
Inventor
吴清烽
丁杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongdun Holdings Co Ltd
Original Assignee
Tongdun Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongdun Holdings Co Ltd filed Critical Tongdun Holdings Co Ltd
Priority to CN202011454244.9A priority Critical patent/CN112600834B/zh
Publication of CN112600834A publication Critical patent/CN112600834A/zh
Application granted granted Critical
Publication of CN112600834B publication Critical patent/CN112600834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/302Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/306Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information intercepting packet switched data communications, e.g. Web, Internet or IMS communications

Landscapes

  • Engineering & Computer Science (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Storage Device Security (AREA)

Abstract

本公开提供了一种内容安全识别方法及装置、存储介质和电子设备。该方法应用于客户端,该客户端中集成内容安全检测软件开发工具包。该方法包括:获取待检测内容信息;调用内容安全检测软件开发工具包对待检测内容信息进行安全检测,获得风险识别结果;若风险识别结果为正常,则将风险识别结果作为目标识别结果;若风险识别结果为具有疑似违规内容,则将待检测内容信息发送至内容安全检测服务端;接收内容安全检测服务端返回的待检测内容信息的内容安全检测结果,并将内容安全检测结果作为所述目标识别结果;根据目标识别结果对待检测内容信息执行对应的业务处理。本公开实施例通过客户端与内容安全检测服务端的组合,能够提高内容安全检测效率。

Description

内容安全识别方法及装置、存储介质和电子设备
技术领域
本公开涉及计算机和通信技术领域,具体而言,涉及一种内容安全识别方法及装置、计算机可读存储介质、电子设备。
背景技术
随着互联网技术的发展,互联网多媒体信息例如视频、图像、语音、文本等的流量在近几年大量增加,例如短视频、直播等各种新型UGC(用户生产内容,User GeneratedContent)促使互联网多媒体信息越来越丰富。
与此同时,大量内容违规的多媒体信息,如内容涉及恐怖、涉及暴力、涉及色情、涉及赌博等的多媒体信息,也被生产并意图在互联网上传播。
因此,在多媒体信息发布之前或发布之后,一般需要对该多媒体信息的内容进行审核,滤除内容违规的视频。相关技术中,企业主要采用云端内容安全服务器或者对接第三方厂商API(Application Programming Interface,应用程序接口)进行内容安全检测,其可以包括以下步骤:客户端接收用户的UGC内容信息;客户端与云端内容安全服务器建立连接;客户端发送接收到的UGC内容信息至该云端内容安全服务器;由该云端内容安全服务器对该UGC内容信息进行风险识别,获得内容安全检测的结果;该云端内容安全服务器再将该内容安全检测的结果返回至客户端;客户端根据云端内容安全服务器返回的该内容安全检测的结果进行相应的业务处置。
然而,随着5G(5th generation mobile networks或5th generation wirelesssystems,第五代移动通信技术)时代的到来,用户在业务平台上产生的UGC、PGC(Professional Generated Content,专业生产内容)内容越来越多,上述相关技术方案应对海量的内容安全检测存在以下技术问题:
单纯依靠云端内容安全服务器,会导致云端内容安全服务器的并发压力巨大,大量的UGC、PGC内容需要排队等待处理,使得出现无网络导致的消息无法发送、网络延时严重、消息阻塞等问题,从而使得内容安全检测不及时,这些问题降低了安全检测效率,并影响了用户体验。
同时,在所有的UGC、PGC内容中,真正存在安全风险的UGC、PGC内容占比还是相对较少的,将所有的UGC、PGC内容均发送至云端内容安全服务器进行安全检测,也导致了云端内容安全服务器宝贵的计算资源被浪费。此外,全量的UGC、PGC内容安全检测还会导致企业在内容安全检测方面的成本不断升高。
因此,需要一种新的内容安全识别方法及装置、计算机可读存储介质、电子设备。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开实施例提供一种内容安全识别方法及装置、计算机可读存储介质、电子设备,能够解决上述相关技术中存在的内容安全识别效率较低且成本较高的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种内容安全识别方法,应用于客户端,所述客户端中集成内容安全检测软件开发工具包。所述方法包括:获取待检测内容信息;调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果;若所述风险识别结果为所述待检测内容信息正常,则将所述风险识别结果作为目标识别结果;若所述待检测内容信息的风险识别结果为所述待检测内容信息中具有疑似违规内容,则将所述待检测内容信息发送至与所述客户端连接的内容安全检测服务端,以便所述内容安全检测服务端对所述待检测内容信息进行安全检测,获得所述待检测内容信息的内容安全检测结果;接收所述内容安全检测服务端返回的所述待检测内容信息的内容安全检测结果,并将所述内容安全检测结果作为所述目标识别结果;根据所述目标识别结果对所述待检测内容信息执行对应的业务处理。
本公开实施例提供一种内容安全识别装置,应用于客户端,所述客户端中集成内容安全检测软件开发工具包。所述装置包括:待检测内容信息获取单元,用于获取待检测内容信息;风险识别结果获得单元,用于调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果;目标识别结果确定单元,用于若所述风险识别结果为所述待检测内容信息正常,则将所述风险识别结果作为目标识别结果;待检测内容信息上传单元,用于若所述待检测内容信息的风险识别结果为所述待检测内容信息中具有疑似违规内容,则将所述待检测内容信息发送至与所述客户端连接的内容安全检测服务端,以便所述内容安全检测服务端对所述待检测内容信息进行安全检测,获得所述待检测内容信息的内容安全检测结果;内容安全检测结果接收单元,用于接收所述内容安全检测服务端返回的所述待检测内容信息的内容安全检测结果,并将所述内容安全检测结果作为所述目标识别结果;业务处理执行单元,用于根据所述目标识别结果对所述待检测内容信息执行对应的业务处理。
本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的内容安全识别方法。
本公开实施例提供了一种电子设备,包括:至少一个处理器;存储装置,配置为存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述实施例中所述的内容安全识别方法。
在本公开的一些实施例所提供的技术方案中,一方面,通过在客户端中集成内容安全检测软件开发工具包,当该客户端获取到待检测内容信息时,客户端首先调用该客户端内集成的内容安全检测软件开发工具包对该待检测内容信息进行安全检测,初步通过客户端获得该待检测内容信息的风险识别结果,这样,只有在客户端上的内容安全检测软件开发工具包获得的该待检测内容信息的风险识别结果为该待检测内容信息中存在疑似违规内容时,才进一步将该待检测内容信息发送至内容安全检测服务端进行二次检测,否则可以直接根据该客户端上内容安全检测软件开发工具包获得的该待检测内容信息的风险识别结果直接对该待检测内容信息进行相应的业务处理,从而可以避免将所有的、海量的待检测内容信息均发送至内容安全检测服务端进行风险识别,而只是将部分存疑的待检测内容信息发送至内容安全检测服务端进行风险识别,由于一般而言,大部分待检测内容信息是正常的,只有其中百分比较少的待检测内容信息存在风险,因此可以大大减轻内容安全检测服务端的数据处理量,让内容安全检测服务端能够真正地为可能存在风险的待检测内容信息服务,较大地提高了内容安全检测的效率,降低了检测成本;另一方面,对于存疑的待检测内容信息,会同时经过客户端和内容安全检测服务端的二次检测,由此可以提高内容安全检测的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本公开的一实施例的内容安全识别方法的流程图。
图2示意性示出了根据本公开的一实施例的内容安全识别方法的流程图。
图3为图2中步骤S201在一示例性实施例中的流程图。
图4示意性示出了根据本公开的一实施例的内容安全识别方法的流程图。
图5示意性示出了根据本公开的一实施例的处于初始状态的布隆滤波器对应的目标位数组的示意图。
图6示意性示出了根据本公开的一实施例的将n个元素插入图5所示的目标位数组的示意图。
图7示意性示出了根据本公开的一实施例的将k个当前散列值与目标位图文件比较的示意图。
图8示意性示出了根据本公开的一实施例的内容安全识别方法的架构示意图。
图9示意性示出了根据本公开的一实施例的内容安全识别装置的框图。
图10示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在至少一个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在至少一个要素/组成部分/等;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”和“第三”等仅作为标记使用,不是对其对象的数量限制。
下面结合附图对本公开示例实施方式进行详细说明。
基于上述相关技术中存在的技术问题,本公开实施例提出了一种内容安全识别方法,以用于至少部分解决上述问题。本公开各实施例提供的方法可以由任意的电子设备来执行,例如服务器,或者终端,或者服务器与终端之间进行交互,本公开对此不做限定。
本公开实施例中提及的服务器可以是独立的服务器,也可以是多个服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云端内容安全服务器。
本公开实施例中提及的终端可以包括但不限于平板电脑、智能手机、电视、可穿戴智能设备、VR(Virtual Reality,虚拟现实)设备、AR(Augmented Reality,增强现实)设备、智能音箱等。
图1示意性示出了根据本公开的一实施例的内容安全识别方法的流程图。本公开实施例以终端上安装并运行的客户端执行为例进行举例说明,但本公开并不限定于此。所述客户端中可以集成内容安全检测软件开发工具包(Software Development Kit,SDK)。
本公开实施例中的内容安全检测SDK有时也简称为SDK,是可以用于对待检测内容信息进行内容安全审核、检测和风险识别的软件开发工具包。其中,内容安全主要面向社交媒体、电子商务、政务等领域的互联网相关内容发布企事业单位,对其准备发布的文本、图片或图像、语音、视频等进行检测,精准识别其内容中是否涉黄、涉政、暴恐、违禁、广告等多类违规风险,以确保其内容的合规性及安全性。
如图1所示,本公开实施例提供的方法可以包括以下步骤。
在步骤S110中,获取待检测内容信息。
本公开实施例中,待检测内容信息可以是任意的当前准备公开发布的信息,可以包括文本、图像、语音、视频等中的任意一种或者多种。在下面的举例说明中,以待检测内容信息为UGC内容信息为例进行举例说明。
其中,UGC是一种用户生产内容,是用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。
在步骤S120中,调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果。
在示例性实施例中,所述内容安全检测软件开发工具包中可以封装有预处理逻辑。
本公开实施例中的预处理逻辑是指可以用于对待检测内容信息进行预处理的逻辑,例如包括对UGC内容信息进行原始数据的清洗、转换,以使得其符合识别模型或者后续风险识别的输入规范,进而有效提升识别模型匹配的效率与效果。预处理逻辑具体包括的内容,可以根据待检测内容和识别模型的需求而定。
其中,调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,可以包括:当所述待检测内容信息中包括待检测文本时,调用所述内容安全检测软件开发工具包中的预处理逻辑对所述待检测文本进行分词和去停用词预处理,将所述待检测文本处理成词粒度的目标词;当所述待检测内容信息中包括待检测图像时,调用所述内容安全检测软件开发工具包中的预处理逻辑对所述待检测图像进行特征抽取、去模糊和大小归一化预处理,将所述待检测图像处理成尺寸和大小一致的目标图像;当所述待检测内容信息中包括待检测语音时,调用所述内容安全检测软件开发工具包中的预处理逻辑对所述待检测语音进行采样、滤波、端点检测、噪音抑制和分帧加窗预处理,将所述待检测语音处理成目标语音信号;当所述待检测内容信息中包括待检测视频时,调用所述内容安全检测软件开发工具包中的预处理逻辑抽取所述待检测视频中的关键帧,并对所述关键帧进行图像去噪、白平衡和图像缩放处理,将所述待检测视频处理成标准图像。
具体地,预处理逻辑中可以包括文本预处理,其可以用于对待检测内容信息中的待检测文本进行分词和去停用词处理。其中,分词可将待检测文本处理成词粒度的词。本公开实施例中可以采用任意合适的分词工具进行分词,例如结巴分词,本公开对此不做限定。去停用词可以去除待检测文本中一些高频的代词、连词、介词等对待检测文本分类识别无意义的词。经过分词和去停用词处理后,获得待检测文本中的目标词,将目标词作为特征颗粒度去进行后续地匹配,效果远高于字粒度。
预处理逻辑中还可以包括图像预处理,其可以用于对待检测内容信息中的待检测图像进行特征提取、去模糊、大小归一化和其他匹配前所进行的处理。其中,大小归一化使得待检测图像输入至下文的图像识别神经网络模型之前,每张待检测图像保证一样的尺寸和大小,例如256像素*256像素、128像素*128像素、64像素*64像素等,可以根据实际场景进行设置。
预处理逻辑中还可以包括语音预处理,其可以用于对待检测内容信息中的待检测语音,在提取目标语音信号之前对原始序列进行一系列的预处理,例如进行采样、滤波、端点检测、噪音抑制、分帧加窗处理等,以提高语音质量。
预处理逻辑中还可以包括视频预处理,其可以用于对待检测内容信息中的待检测视频进行关键帧抽取,从待检测视频中抽取的这些关键帧,足以表达待检测视频中的主要内容,由此可以降低后续识别模型的耗时。
本公开实施例中,可以结合客户端的计算能力,将内容冗余的待检测视频中的视频帧下采样为多张低冗余的关键帧。其中,关键帧提取算法基于视频压缩方式,待检测视频进行压缩之后,得到的文件可以看做是连续的一组帧的集合。帧的类型分为I帧(intrapicture,帧内编码帧)、P帧(predictive-frame,前向预测编码帧)和B帧(bi-directionalinterpolated prediction frame,双向预测内插编码帧)。其中只有I帧中的数据是可自描述的,B帧和P帧需要找到对应的一个或者多个参考帧才能解码。对于P帧和B帧来说,他们所包含的内容可以理解为针对其参考帧的一个变化量,所以他们不包含整个视频帧的信息,只描述与参考帧之间的变化关系。所以在字节大小方面,P帧和B帧要远远小于I帧。本公开实施例中,关键帧提取算法根据视频压缩中的I帧进行关键帧提取。针对得到的关键帧,通过图像去噪、白平衡、图像缩放方式将关键帧转换为标准形式的标准图像。
在示例性实施例中,所述内容安全检测软件开发工具包还可以封装有训练完成的识别模型。
本公开实施例中,识别模型是指针对待检测内容信息进行色情、涉政、暴恐、广告等进行风险检测的模型。
本公开实施例中,识别模型按照风险防控需求进行部署,可以是单个模型也可以是多个模型的组合。
其中,调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果,可以包括:当所述待检测内容信息中包括待检测文本时,将所述目标词输入所述识别模型中的文本识别神经网络模型,获得所述待检测文本的风险识别结果;当所述待检测内容信息中包括待检测图像时,将所述目标图像输入至所述识别模型中的图像识别神经网络模型,获得所述待检测图像的风险识别结果;当所述待检测内容信息中包括待检测语音时,将所述目标语音信号输入至所述识别模型中的声音识别神经网络模型,获得所述待检测语音的风险识别结果;当所述待检测内容信息中包括待检测视频时,将所述标准图像输入至所述识别模型中的视频识别神经网络模型,获得所述待检测视频的风险识别结果;根据所述待检测文本的风险识别结果、所述待检测图像的风险识别结果、所述待检测语音的风险识别结果和所述待检测视频的风险识别结果,确定所述待检测内容信息的风险识别结果。
本公开实施例中,可以根据待检测内容信息中待审核的内容类型的不同而采取不同的识别模型。
例如,对于待检测内容信息中的待检测文本,可以采用相应的文本识别神经网络模型,例如TextCNN(Text Convolutional Neural Networks,文本卷积神经网络)模型,还可以添加用于识别灌水、辱骂、网址等的神经网络模型。
再例如,对于待检测内容信息中的待检测图像,可以采用相应的图像识别神经网络模型,例如鉴黄识别模型、暴恐识别模型、人脸识别模型,OCR(Optical CharacterRecognition,光学字符识别)识别模型等。
再例如,对于待检测内容信息中的待检测语音,可以采用相应的声音识别神经网络模型,能够识别待检测语音中的一些违规的特殊声音。
若待检测文本中同时包括待检测文本、待检测图像、待检测语音和带检测视频中的一种或者多种,则可以综合考虑所述待检测文本的风险识别结果、所述待检测图像的风险识别结果、所述待检测语音的风险识别结果和所述待检测视频的风险识别结果,确定所述待检测内容信息的风险识别结果。例如,只要其中所述待检测文本的风险识别结果、所述待检测图像的风险识别结果、所述待检测语音的风险识别结果和所述待检测视频的风险识别结果中存在至少一项的风险识别结果为具有疑似违规内容,则所述待检测内容信息的风险识别结果为具有疑似违规内容。当所述待检测文本的风险识别结果、所述待检测图像的风险识别结果、所述待检测语音的风险识别结果和所述待检测视频的风险识别结果中所有的风险识别结果均为正常时,则所述待检测内容信息的风险识别结果为正常,即不存在疑似违规内容。
在示例性实施例中,所述方法还可以包括:获取初始训练数据集,所述初始训练数据集包括内容信息初始样本及其样本标签;对所述内容信息初始样本进行变换处理,获得内容信息增强样本及其样本标签;将所述内容信息增强样本及其样本标签添加至所述初始训练数据集,获得目标训练数据集;根据所述客户端的计算能力,并利用所述目标训练数据集训练获得所述识别模型;将所述识别模型集成至所述内容安全检测软件开发工具包中。
本公开实施例中,上述集成到SDK中的识别模型,需要根据客户端的计算能力进行重新训练,满足尽可能小的算力要求、尽可能大的识别精度,且训练完成后的识别模型的安装包要尽可能小,在满足上述条件下将识别模型集成到SDK中。尤其是当识别模型中包括多个模型时,需要考虑到识别模型的大小。例如,SDK中集成文本识别神经网络模型,其大小在100KB-300KB(Kilobyte,千字节)之间,因集成的文本识别神经网络模型与客户端类型(如安卓、iOS操作系统)会有不同。如果同时还将图像识别神经网络模型、声音识别神经网络模型和视频识别神经网络模型集成进SDK内的话,可能会在几MB(MByte,兆字节)甚至几十MB的大小。
在示例性实施例中,所述预处理逻辑及识别模型的安全通过代码函数替换混淆保护。
相关技术中的SDK开发者往往把重点聚焦在功能的实现上,在编写代码时,代码都符合一定的规范,代码中所采用的变量名、函数名一般让人看到就知道是什么功能,在安全性上没有过多重视。一旦出现安全漏洞,很容易被恶意者知道进而利用。本公开实施例中,通过代码函数替换混淆,可以将代码中的变量名、函数名替换成人看不懂的字符,机器能够正常执行代码,但人很难看懂,这样可以确保代码安全,不易被恶意反编译破解,可以保护SDK预处理逻辑及识别模型的安全。
在示例性实施例中,所述内容安全检测软件开发工具包中还可以封装有数据文件,其中所述数据文件从映射表导出,所述内容安全检测服务端对敏感词库中的敏感词进行编码形成敏感词与对应的字符串之间的所述映射表。
其中,调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果,可以包括:当所述待检测内容信息中包括待检测文本时,对所述目标词进行编码;采用多核心多进程将编码后的目标词与所述映射表进行并行匹配,获得匹配结果;若所述匹配结果为存在与所述映射表中的敏感词匹配的目标词,则所述待检测内容信息的风险识别结果为所述待检测内容信息中具有疑似违规内容。
本公开实施例中,针对待检测内容信息中的待检测文本,可以利用预先配置的敏感词去匹配。具体地,可以在内容安全检测服务端例如云端内容安全服务器对敏感词库中的敏感词进行编码,形成敏感词与字符串的一一映射表。然后,将映射表导出成数据文件封装到内容安全检测SDK中,然后将内容安全检测SDK集成到APP客户端中。在APP客户端启动内容安全检测SDK进行检测时,可以先对例如UGC内容信息中的待检测文本进行分词和去停用词等预处理,形成很多目标词,然后对每个目标词进行编码。在内容安全检测SDK执行过程中,将编码后的目标词进行多核心多进程并行匹配,得到映射表的匹配结果。通过多核心多进程并行技术,可以提升匹配效率。
本公开实施例中,内容安全检测SDK中增量的敏感词可以通过编码,采用云端更新的方式同步到内容安全检测SDK中。
在步骤S130中,若所述风险识别结果为所述待检测内容信息正常,则将所述风险识别结果作为目标识别结果。
在步骤S140中,若所述待检测内容信息的风险识别结果为所述待检测内容信息中具有疑似违规内容,则将所述待检测内容信息发送至与所述客户端连接的内容安全检测服务端,以便所述内容安全检测服务端对所述待检测内容信息进行安全检测,获得所述待检测内容信息的内容安全检测结果。
本公开实施例中,在客户端调用内容安全检测SDK进行检测时,考虑到客户端的计算能力,可以只进行一个比较粗放的判断,即告知有疑似风险或者风险或者正常的风险识别结果即可,强调高召回率。在内容安全检测服务端,由于其计算能力及模型能力比客户端更强、识别精度更高,可以对存疑的待检测内容信息进行更高要求的检测,同时可以给出明确的风险原因,出现较少的误判情况。在下面的举例说明中,均以内容安全检测服务端采用云端内容安全服务器为例进行举例说明。
在步骤S150中,接收所述内容安全检测服务端返回的所述待检测内容信息的内容安全检测结果,并将所述内容安全检测结果作为所述目标识别结果。
内容安全检测服务端再将内容安全检测结果返回至客户端。
在步骤S160中,根据所述目标识别结果对所述待检测内容信息执行对应的业务处理。
本公开实施例中,若所述风险识别结果为正常,则将客户端本地识别的所述风险识别结果作为目标识别结果,以对所述待检测内容信息执行对应的业务处理。当客户端的风险识别结果为所述待检测内容信息中具有疑似违规内容,会对该待检测内容信息通过内容安全检测服务端进行二次检测,当客户端的风险识别结果和内容安全检测服务端的内容安全检测结果不一致时,以内容安全检测服务端的内容安全检测结果为准,根据内容安全检测结果进行相应的业务处理。
例如,若风险识别结果和内容安全检测结果均为正常,则相应的业务处理为允许发送该待检测内容信息;若内容安全检测结果为该待检测内容信息违规,则相应的业务处理为不允许发送该待检测内容信息;若内容安全检测结果为该待检测内容信息疑似违规,则相应的业务处理为设置该待检测内容信息仅本人可见、他人可见中的一种或者多种。具体采取何种业务处理,可以根据相应的应用场景设置,本公开对此不做限定。
本公开实施方式提供的内容安全识别方法,一方面,通过在客户端中集成内容安全检测软件开发工具包,当该客户端获取到待检测内容信息时,客户端首先调用该客户端内集成的内容安全检测软件开发工具包对该待检测内容信息进行安全检测,初步通过客户端获得该待检测内容信息的风险识别结果,这样,只有在客户端上的内容安全检测软件开发工具包获得的该待检测内容信息的风险识别结果为该待检测内容信息中存在疑似违规内容时,才进一步将该待检测内容信息发送至内容安全检测服务端进行二次检测,否则可以直接根据该客户端上内容安全检测软件开发工具包获得的该待检测内容信息的风险识别结果直接对该待检测内容信息进行相应的业务处理,从而可以避免将所有的、海量的待检测内容信息均发送至内容安全检测服务端进行风险识别,而只是将部分存疑的待检测内容信息发送至内容安全检测服务端进行风险识别,由于一般而言,大部分待检测内容信息是正常的,只有其中百分比较少的待检测内容信息存在风险,因此可以大大减轻内容安全检测服务端的数据处理量,让内容安全检测服务端能够真正地为可能存在风险的待检测内容信息服务,较大地提高了内容安全检测的效率,可以降低检测成本;另一方面,对于存疑的待检测内容信息,会同时经过客户端和内容安全检测服务端的二次检测,由此可以提高内容安全检测的准确性。
图2示意性示出了根据本公开的一实施例的内容安全识别方法的流程图。如图2所示,与上述图1实施例的不同之处在于,本公开实施例提供的方法还可以进一步包括以下步骤。
在步骤S201中,采用目标训练数据集训练获得识别模型。
本公开实施例中,如上所述,当识别模型为一个或者多个模型的组合时,可以获取相应的目标训练数据集来训练获得对应的神经网络模型作为识别模型。
在步骤S202中,在客户端例如APP(application,应用程序)客户端中集成内容安全检测SDK,SDK中封装有预处理逻辑和训练完成的识别模型。
在步骤S203中,获取待检测内容信息。
在步骤S204中,采用SDK中的预处理逻辑对该待检测内容信息进行预处理,以获得模型可识别内容。
本公开实施例中,因APP客户端的硬件资源和算力的限制,在集成识别模型时要考虑更少的计算量、更高的精度以及更小的体积。本公开实施例中,通过对识别模型的输入值进行规范化,即通过预处理获得模型可识别内容,可以加快基于梯度下降法或随机梯度下降法训练的识别模型的收敛速度,提升识别模型的精度;基于对神经网络模型的参数进行规范化,可以提升识别模型的泛化能力,提高识别模型的可压缩性。
其中,规范化是神经网络模型中采用的方式,对UGC内容信息进行统一的预处理以得到满足识别模型匹配的数据。例如,对UGC内容信息进行预处理以得到模型可识别内容,例如上述的目标词、目标图像、目标语音信号和标准图像。
在步骤S205中,采用SDK中的识别模型对该模型可识别内容进行识别,获得APP客户端的风险识别结果。
在步骤S206中,根据该风险识别结果判定该待检测内容信息是否正常;如果正常,则跳转到下述步骤S211;反之,则进入下述步骤S207。
在步骤S207中,APP客户端通过企业应用服务器与内容安全检测服务端建立连接。
在步骤S208中,APP客户端将待检测内容信息发送至内容安全检测服务端,由内容安全检测服务端对该待检测内容信息进行风险识别,生成该待检测内容信息的内容安全检测结果。
在步骤S209中,APP客户端接收该内容安全检测服务端返回的该待检测内容信息的内容安全检测结果。
在步骤S210中,APP客户端根据该待检测内容信息的内容安全检测结果对该待检测内容信息执行对应的业务处理。
在步骤S211中,APP客户端根据SDK的风险识别结果对该待检测内容信息执行对应的业务处理。
本公开实施方式提供的内容安全识别方法,一方面,可以通过集成在内容安全检测SDK中的预处理逻辑完成对输入至识别模型的待检测内容信息的规范化,从而可以提高识别模型的识别精度和识别效率;另一方面,还可以通过集成在内容安全检测SDK中的识别模型,实现待检测内容信息的安全检测地自动化和智能化,提升了安全检测的效率和精度,降低安全检测的成本。
图3为图2中步骤S201在一示例性实施例中的流程图。如图3所示,图2实施例中的步骤S201可以进一步包括以下步骤。
在步骤S2011中,获取初始训练数据集,所述初始训练数据集包括内容信息初始样本及其样本标签。
根据待检测内容信息中包含的待审核内容的类型的不同,可以采用相应的初始训练数据集。
例如,对于为待检测文本训练的文本识别神经网络模型,内容信息初始样本可以包括文本初始样本,可以从海量的文本中筛选部分作为文本初始正样本,另一部分作为文本初始负样本,其中文本初始正样本假设为其中包含违规内容的文本,文本初始负样本假设为其中不包含违规内容的文本,并添加对应的样本标签,例如文本初始正样本的样本标签假设为“1”,文本初始负样本的样本标签假设为“0”,但本公开并不限定于此。
再例如,对于待检测图像训练的图像识别神经网络模型,内容信息初始样本可以包括图像初始样本,可以从海量的图像中筛选部分作为图像初始正样本,另一部分作为图像初始负样本,其中图像初始正样本假设为其中包含违规内容的图像,图像初始负样本假设为其中不包含违规内容的图像,并添加对应的样本标签,例如图像初始正样本的样本标签假设为“1”,图像初始负样本的样本标签假设为“0”,但本公开并不限定于此。
进一步地,本公开实施例中,一次文本或者图像安全检测,可以同时包含鉴黄、涉政、暴恐、广告等多种检测,因此可以分别设置不同的模型,例如分别对应设置鉴黄识别模型、涉政识别模型、暴恐识别模型、广告识别模型等。在训练模型时,可以针对不同模型的细分风险类型再次进行细分。例如鉴黄识别模型中可以涉及裸露色情、动漫色情、动物色情、大尺度性感等,暴恐识别模型中可以涉及极端服饰、危险武器、管制刀具、燃烧等,针对不同模型的这些不同细分标签定义不同的正负样本,再对相应的模型进行训练。
在步骤S2012中,对所述内容信息初始样本进行变换处理,获得内容信息增强样本及其样本标签。
本公开实施例中,为了增大初始训练数据集中的内容信息初始样本以达到更好的训练效果,可以对内容信息初始样本进行变换处理。例如,对于图像初始样本,可以通过图像翻转、旋转、极坐标变换等方式来增强图像初始样本数据。
在步骤S2013中,将所述内容信息增强样本及其样本标签添加至所述初始训练数据集,获得目标训练数据集。
在步骤S2014中,根据所述客户端的计算能力,并利用所述目标训练数据集训练获得所述识别模型。
本公开实施例中,还可以采用CPU(central processing unit,中央处理器)多核心多进程并行技术,在客户端进行识别模型的并行训练。可以基于开源的移动端深度学习框架,如Caffe2、TensorFlow Lite,在CPU多核心多进程并行优化上,依赖开源框架进行场景化训练及性能验证提升,满足业务场景需求,提升整体的运行效率。
本公开实施方式提供的内容安全识别方法,一方面,可以通过样本增强处理,增大样本量,以提升训练获得的识别模型的识别精度;另一方面,可以结合多核心多进程并行技术来提升整体的运行效率。
图4示意性示出了根据本公开的一实施例的内容安全识别方法的流程图。如图4所示,本公开实施例提供的方法可以包括以下步骤。
在步骤S401中,内容安全检测服务端对敏感词库中的敏感词进行编码,形成敏感词与对应的字符串之间的映射表。
在示例性实施例中,其中所述内容安全检测服务端利用布隆过滤器对所述敏感词进行哈希,将所述敏感词哈希后查重并进行序列化形成二进制数组,对所述二进制数组进行加密形成字符串,根据所述敏感词与对应的字符串之间的对应关系生成所述映射表,将所述映射表封装至所述内容安全检测软件开发工具包中。
本公开实施例中的敏感词是指涉及违规的词,例如涉及暴恐、涉政、违法等的词。例如,以敏感词中的暴恐敏感词(或者关键词)进行举例说明,假设正常明文展示是“枪支、弹药、飞刀、毒药、燃烧”,内容安全检测服务端利用Bloom Filter(布隆过滤器)将所有敏感词进行哈希,经过布隆过滤器哈希之后就会转换得到各自对应的哈希字符串,例如:
“y0GBQtMjQtO5zv8w=、
N6aDfcd1WaSuT/B05r4U=、
Ul39l2aBfp93Gb7Eg=、
Cm2ZLOl3TDtYmgWAA=、
nh3F8iBh8/urzSgYnzE=”
为了规避敏感词中有重复的敏感词,可以进行去重处理。序列化是为了将上述哈希字符串转换成对应的二进制数组,即将上述哈希字符串转换成“0”和“1”组成的二进制数组。然后采用Base64(基于64个可打印字符来表示二进制数据)加密之后集成到SDK中,由于Base64编码具有不可读性,需要解码后才能阅读,因此可以满足敏感词不被泄露的目的。在映射表中,具有多个例如数万个敏感词,当匹配到该映射表中的任意一个敏感词时,都判断是违规的词。
在步骤S402中,从映射表导出数据文件。
在步骤S403中,将数据文件封装至内容安全检测SDK中,将该内容安全检测SDK集成至APP客户端内。
在步骤S404中,当待检测内容信息中包括待检测文本时,调用内容安全检测SDK中的预处理逻辑对该待检测文本进行分词和去停用词预处理,将待检测文本处理成词粒度的目标词。
在步骤S405中,对目标词进行编码。
在步骤S406中,采用多核心多进程将编码后的目标词与映射表进行并行匹配,获得匹配结果。
在步骤S407中,若匹配结果为存在与映射表中的敏感词匹配的目标词,则待检测内容信息的风险识别结果为该待检测内容信息中具有疑似违规内容。
客户端为了将目标词与上述预置的敏感词库进行匹配,对目标词进行Base64加密后转成二进制数组,利用布隆过滤器的调用函数例如BloomFilter.readFrom来还原得到Bloom Filter。
具体地,在客户端调用SDK例如通过文本检测函数(为了客户端进行文本检测,SDK提供的对应客户端的时使用接口)进行文本安全检测时,SDK先将待检测文本拆分获得目标词,再利用布隆过滤器的调用函数例如BloomFilter.mightContain逐个检查,当待检测文本经过一系列转换后,得到的字符串在映射表中匹配到了(即存在映射表中),那么说明命中了敏感词,即该待检测文本包含违规内容,存在风险。
图5示意性示出了根据本公开的一实施例的处于初始状态的布隆滤波器对应的目标位数组的示意图。
其中,Bloom Filter是一个二进制向量和一系列随机映射函数实现的,可以用于检索一个元素是否在一个集合中。
本公开实施例中,对每个敏感词通过多次散列加密算法构建Bloom Filter,保证散列结果分布均匀。其中,散列加密算法主要以降低数据被攻击破解风险而设计的,不可被解密为原文。
首先,假设BloomFilter是一个包含m位的目标位数组,初始状态时,位数组中的每一位都设置为第二值(这里以0为例进行举例说明,但本公开并不限定于此)。
例如,如图5所示,假设m=12,则初始化时,将目标位数组的12个位的值均设置为0。
图6示意性示出了根据本公开的一实施例的将n个敏感词(元素)插入图5所示的目标位数组的示意图。
然后,往目标位数组中添加元素,为了将n个元素(n为大于或等于1的正整数)的集合表达到Bloom Filter中,使用k(k为大于1的正整数)个独立的目标散列加密函数例如hash(哈希)函数分别将n个元素映射到{1,…,m}的范围里。
其中,k个独立的hash函数例如可以包括MurmurHash(一种非加密散列函数)、FNV(属于非密码学哈希函数,它最初由Glenn Fowler和Kiem-Phong Vo于1991年首先提出,最后由Landon Curt Noll完善,故该算法以三人姓的首字母命名)等。每次的hash函数可以相同,也可以不同。
具体地,当新增n个元素中的一个元素X时,对X进行k次独立的hash函数处理得到k个hash值(作为目标散列值),然后将目标位数组中对应位置的位的值置为第一值例如1。
需要说明的是,若根据n个元素中的每个元素的k个hash值,对目标位数组中的同一位置的位多次置1操作,则仅第一次生效。
例如,如图6所示,n个元素中的X1的第二位、第五位和第九位的值为1,X2的第五位、第七位和第十一位为1,其中元素X1和X2在位数组的第五个位置的位(第五位)的值都是1,那么位数组的第五个位置的位的值就是1。
本公开实施例中,假设p为误报率,则m的取值主要由n和p决定,m和k计算公式可以如下:
Figure BDA0002827899050000181
Figure BDA0002827899050000182
最终生成的就是由0、1组成的这样一个目标位数组。
图7示意性示出了根据本公开的一实施例的将k个当前散列值与布隆过滤器比较的示意图。
具体地,当待检测文本中的某个目标词(称之为元素Y)进来后,进行k次独立的hash函数处理得到k个当前散列值(又可以称之为当前hash值),然后将这k个当前hash值与上述目标位数组进行比较,若元素Y的k个当前hash值在目标位数组上对应位置的位的值都为1,则可以判定Y可能在敏感词中;如果存在1个或以上的位置的位的值不为1,则可以判定Y肯定不在敏感词中。
例如,如图7所示,Y1命中的3个位置(第二位为1,第四位为0,第八位为0)有两个不为1,那么Y1肯定不在这个目标位数组中,Y2命中的3个位置(第五位、第七位和第十一位)都为1,那么Y2可能在这个目标位数组中。
本公开实施方式提供的内容安全识别方法,一方面,通过布隆过滤器来编码敏感词库中的敏感词,可以带来很高的空间效率,占用较少的存储资源,且布隆过滤器不需要存储敏感词(元素)本身,可以满足敏感词的保密性要求,同时,哈希函数相互之间没有关系,方便由硬件并行实现;另一方面,进一步对二进制数组采用Base64加密,可以进一步提升敏感词的安全性。
图8示意性示出了根据本公开的一实施例的内容安全识别方法的架构示意图。
如图8所示,在APP客户端内集成内容安全检测SDK,SDK提供调用方法供APP客户端使用。SDK中预置了预处理逻辑和识别模型,能够支持对文本、图像、语音、视频等进行预处理,然后通过识别模型进行内容安全检测。
本公开实施例提供的SDK具备良好的兼容性,能够兼容主流市场上的客户端类型,例如安卓、iOS等众多机型。如安卓机型上用Java(一种面向对象编程语言)语言编写SDK程序,用Java的通用性解决兼容性问题。如iPhone机型,采用苹果指定的开发工具满足兼容性问题。
本公开实施例中,SDK提供良好的遍历算法来提升匹配效率,在毫秒级返回风险识别结果。其中,遍历算法是指采用高效的搜索算法,如对敏感词库进行全部匹配,获得匹配结果的时间更短。
APP客户端接收用户的例如UGC内容信息,并在APP客户端调用内容安全检测SDK对该UGC内容信息进行安全检测,获得该UGC内容信息的风险识别结果。APP客户端对该UGC内容信息的风险识别结果进行逻辑判断,将检测到可能存在风险的UGC内容信息,让APP客户端通过企业应用服务端的API与内容安全检测服务端建立连接,然后APP客户端将该可能存在风险的UGC内容信息发送至内容安全检测服务端进行二次检测。
在示例性实施例中,所述方法还可以包括:抽样上报所述风险识别结果至所述内容安全检测服务端。
本公开实施例中,内容安全检测SDK可以通过抽样上报日志至内容安全检测服务端,使得在后台可以分享客户端的检测效果。
其中,可以采用随机抽样,通过设置抽样比例,抽样比例为大于0且小于1的实数,按照设置的抽样比例进行随机抽样上报。
进一步地,内容安全检测服务端可以通过SDK云端更新,对内容安全检测SDK进行升级维护。
本公开实施例提供的方法可以应用于在用户资料、商品资料、私信聊天、短评弹幕、发帖回帖等UGC内容场景,但本公开并不限定于此。
本公开实施方式提供的内容安全识别方法,依托移动安全技术及内容安全检测技术,一方面,通过提供企业在APP客户端集成的内容安全检测SDK,该SDK支持在APP客户端就对文本、图像、视频、语音等进行预处理即模型识别,并将识别到的风险识别结果返回至APP客户端,并将客户端检测可能存在风险的UGC内容信息发送到内容安全检测服务端进行二次检测,依托内容安全检测服务端的综合风险评估,获得返回的内容安全检测结果,即可以通过“客户端检测+内容安全检测服务端检测”的组合方案,充分利用了移动安全技术和AI(Artificial Intelligence,人工智能)技术以保证客户端运行的可行性和可靠性,支持前置内容安全检测及业务处理机制,在客户端快速识别出违规内容,净化网络环境,在不与已有内容安全检测服务端检测方案冲突的前提下,充分利用客户端算力来减轻内容安全检测服务端的处理压力,帮助企业在客户端进行检测,进而达到提升用户体验、降低企业成本的目的;另一方面,为了保障客户端的检测效果,内容安全检测SDK与内容安全检测服务端具备交互能力,实现内容抽样上报及SDK云端更新的功能,以便持续观察及优化。
图9示意性示出了根据本公开的一实施例的内容安全识别装置的框图。如图9所示,本公开实施例提供的内容安全识别装置120应用于客户端100,客户端100内集成了内容安全检测SDK 110。其中,内容安全识别装置120可以包括待检测内容信息获取单元121、风险识别结果获得单元122、目标识别结果确定单元123、待检测内容信息上传单元124、内容安全检测结果接收单元125以及业务处理执行单元126。
本公开实施例中,待检测内容信息获取单元121可以用于获取待检测内容信息。风险识别结果获得单元122可以用于调用内容安全检测SDK110对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果。目标识别结果确定单元123可以用于若所述风险识别结果为所述待检测内容信息正常,则将所述风险识别结果作为目标识别结果。待检测内容信息上传单元124可以用于若所述待检测内容信息的风险识别结果为所述待检测内容信息中具有疑似违规内容,则将所述待检测内容信息发送至与所述客户端100连接的内容安全检测服务端200,以便所述内容安全检测服务端对所述待检测内容信息进行安全检测,获得所述待检测内容信息的内容安全检测结果。内容安全检测结果接收单元125可以用于接收所述内容安全检测服务端200返回的所述待检测内容信息的内容安全检测结果,并将所述内容安全检测结果作为所述目标识别结果。业务处理执行单元126可以用于根据所述目标识别结果对所述待检测内容信息执行对应的业务处理。
本公开实施方式提供的内容安全识别装置,一方面,通过在客户端中集成内容安全检测软件开发工具包,当该客户端获取到待检测内容信息时,客户端首先调用该客户端内集成的内容安全检测软件开发工具包对该待检测内容信息进行安全检测,初步通过客户端获得该待检测内容信息的风险识别结果,这样,只有在客户端上的内容安全检测软件开发工具包获得的该待检测内容信息的风险识别结果为该待检测内容信息中存在疑似违规内容时,才进一步将该待检测内容信息发送至内容安全检测服务端进行二次检测,否则可以直接根据该客户端上内容安全检测软件开发工具包获得的该待检测内容信息的风险识别结果直接对该待检测内容信息进行相应的业务处理,从而可以避免将所有的、海量的待检测内容信息均发送至内容安全检测服务端进行风险识别,而只是将部分存疑的待检测内容信息发送至内容安全检测服务端进行风险识别,由于一般而言,大部分待检测内容信息是正常的,只有其中百分比较少的待检测内容信息存在风险,因此可以大大减轻内容安全检测服务端的数据处理量,让内容安全检测服务端能够真正地为可能存在风险的待检测内容信息服务,较大地提高了内容安全检测的效率,可以降低检测成本;另一方面,对于存疑的待检测内容信息,会同时经过客户端和内容安全检测服务端的二次检测,由此可以提高内容安全检测的准确性。
在示例性实施例中,所述内容安全检测软件开发工具包中可以封装有预处理逻辑。其中,风险识别结果获得单元122可以包括:文本预处理单元,可以用于当所述待检测内容信息中包括待检测文本时,调用所述内容安全检测软件开发工具包中的预处理逻辑对所述待检测文本进行分词和去停用词预处理,将所述待检测文本处理成词粒度的目标词;图像预处理单元,可以用于当所述待检测内容信息中包括待检测图像时,调用所述内容安全检测软件开发工具包中的预处理逻辑对所述待检测图像进行特征抽取、去模糊和大小归一化预处理,将所述待检测图像处理成尺寸和大小一致的目标图像;语音预处理单元,可以用于当所述待检测内容信息中包括待检测语音时,调用所述内容安全检测软件开发工具包中的预处理逻辑对所述待检测语音进行采样、滤波、端点检测、噪音抑制和分帧加窗预处理,将所述待检测语音处理成目标语音信号;视频预处理单元,可以用于当所述待检测内容信息中包括待检测视频时,调用所述内容安全检测软件开发工具包中的预处理逻辑抽取所述待检测视频中的关键帧,并对所述关键帧进行图像去噪、白平衡和图像缩放处理,将所述待检测视频处理成标准图像。
在示例性实施例中,所述内容安全检测软件开发工具包还可以封装有训练完成的识别模型。其中,风险识别结果获得单元122可以包括:文本风险识别单元,可以用于当所述待检测内容信息中包括待检测文本时,将所述目标词输入所述识别模型中的文本识别神经网络模型,获得所述待检测文本的风险识别结果;图像风险识别单元,可以用于当所述待检测内容信息中包括待检测图像时,将所述目标图像输入至所述识别模型中的图像识别神经网络模型,获得所述待检测图像的风险识别结果;语音风险识别单元,可以用于当所述待检测内容信息中包括待检测语音时,将所述目标语音信号输入至所述识别模型中的声音识别神经网络模型,获得所述待检测语音的风险识别结果;视频风险识别单元,可以用于当所述待检测内容信息中包括待检测视频时,将所述标准图像输入至所述识别模型中的视频识别神经网络模型,获得所述待检测视频的风险识别结果;客户端风险识别单元,可以用于根据所述待检测文本的风险识别结果、所述待检测图像的风险识别结果、所述待检测语音的风险识别结果和所述待检测视频的风险识别结果,确定所述待检测内容信息的风险识别结果。
在示例性实施例中,内容安全识别装置120还可以包括:初始训练集获取单元,可以用于获取初始训练数据集,所述初始训练数据集包括内容信息初始样本及其样本标签;初始样本变换单元,可以用于对所述内容信息初始样本进行变换处理,获得内容信息增强样本及其样本标签;目标训练集获取单元,可以用于将所述内容信息增强样本及其样本标签添加至所述初始训练数据集,获得目标训练数据集;客户端模型训练单元,可以用于根据所述客户端的计算能力,并利用所述目标训练数据集训练获得所述识别模型;识别模型集成单元,可以用于将所述识别模型集成至所述内容安全检测软件开发工具包中。
在示例性实施例中,所述预处理逻辑及识别模型的安全通过代码函数替换混淆保护。
在示例性实施例中,所述内容安全检测服务端对敏感词库中的敏感词哈希后查重并进行序列化形成二进制数组,对所述二进制数组进行加密形成字符串,根据所述敏感词与对应的字符串之间的对应关系生成映射表,将所述映射表封装至所述内容安全检测软件开发工具包中。
在示例性实施例中,风险识别结果获得单元122可以包括:目标词编码单元,可以用于当所述待检测内容信息中包括待检测文本时,对所述目标词进行编码;匹配结果获得单元,可以用于采用多核心多进程将编码后的目标词与所述映射表进行并行匹配,获得匹配结果;目标词匹配单元,可以用于若所述匹配结果为存在与所述映射表中的敏感词匹配的目标词,则所述待检测内容信息的风险识别结果为所述待检测内容信息中具有疑似违规内容。
在示例性实施例中,内容安全识别装置120还可以包括:抽样上报单元,可以用于抽样上报所述风险识别结果至所述内容安全检测服务端。
本公开实施例的内容安全识别装置的其它内容可以参照上述实施例。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
下面参考图10,其示出了适于用来实现本申请实施例的电子设备的结构示意图。图10示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。该电子设备中按照有客户端,所述客户端中集成内容安全检测软件开发工具包。
参照图10,本公开实施例提供的电子设备可以包括:处理器1001、通信接口1002、存储器1003和通信总线1004。
其中处理器1001、通信接口1002和存储器1003通过通信总线1004完成相互间的通信。
可选的,通信接口1002可以为通信模块的接口,如GSM(Global System forMobile communications,全球移动通信系统)模块的接口。处理器1001用于执行程序。存储器1003用于存放程序。程序可以包括计算机程序,该计算机程序包括计算机操作指令。其中,程序中可以包括:游戏客户端的程序。
处理器1001可以是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本公开实施例的一个或多个集成电路。
存储器1003可以包含高速RAM(random access memory,随机存取存储器)存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,程序可具体用于:获取待检测内容信息;调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果;若所述风险识别结果为所述待检测内容信息正常,则将所述风险识别结果作为目标识别结果;若所述待检测内容信息的风险识别结果为所述待检测内容信息中具有疑似违规内容,则将所述待检测内容信息发送至与所述客户端连接的内容安全检测服务端,以便所述内容安全检测服务端对所述待检测内容信息进行安全检测,获得所述待检测内容信息的内容安全检测结果;接收所述内容安全检测服务端返回的所述待检测内容信息的内容安全检测结果,并将所述内容安全检测结果作为所述目标识别结果;根据所述目标识别结果对所述待检测内容信息执行对应的业务处理。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。
需要理解的是,在本公开附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (8)

1.一种内容安全识别方法,其特征在于,应用于客户端,所述客户端中集成内容安全检测软件开发工具包;其中,所述方法包括:
内容安全检测服务端对敏感词库中的敏感词哈希后查重并进行序列化形成二进制数组,对所述二进制数组进行加密形成字符串,根据所述敏感词与对应的字符串之间的对应关系生成映射表,将所述映射表封装至所述内容安全检测软件开发工具包中;
获取待检测内容信息;
调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果,包括:
当所述待检测内容信息中包括待检测文本时,将所述待检测文本拆分获得目标词,通过布隆过滤器的调用函数BloomFilter.mightContain将编码后的目标词与所述映射表进行匹配,获得匹配结果,并根据所述匹配结果获得所述待检测内容信息的风险识别结果;
若所述风险识别结果为所述待检测内容信息正常,则将所述风险识别结果作为目标识别结果;
若所述待检测内容信息的风险识别结果为所述待检测内容信息中具有疑似违规内容,则将所述待检测内容信息发送至与所述客户端连接的内容安全检测服务端,以便所述内容安全检测服务端对所述待检测内容信息进行安全检测;
接收所述内容安全检测服务端返回的所述待检测内容信息的内容安全检测结果,并将所述内容安全检测结果作为所述目标识别结果;
根据所述目标识别结果对所述待检测内容信息执行对应的业务处理;
抽样上报所述风险识别结果至所述内容安全检测服务端;
所述内容安全检测软件开发工具包采用云端更新,对所述内容安全检测软件开发工具包进行升级维护,包括,对所述内容安全检测软件开发工具包中增量的敏感词进行更新。
2.根据权利要求1所述的方法,其特征在于,所述内容安全检测软件开发工具包中封装有预处理逻辑;其中,调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,包括:
当所述待检测内容信息中包括待检测文本时,调用所述内容安全检测软件开发工具包中的预处理逻辑对所述待检测文本进行分词和去停用词预处理,将所述待检测文本处理成词粒度的目标词;
当所述待检测内容信息中包括待检测图像时,调用所述内容安全检测软件开发工具包中的预处理逻辑对所述待检测图像进行特征抽取、去模糊和大小归一化预处理,将所述待检测图像处理成尺寸和大小一致的目标图像;
当所述待检测内容信息中包括待检测语音时,调用所述内容安全检测软件开发工具包中的预处理逻辑对所述待检测语音进行采样、滤波、端点检测、噪音抑制和分帧加窗预处理,将所述待检测语音处理成目标语音信号;
当所述待检测内容信息中包括待检测视频时,调用所述内容安全检测软件开发工具包中的预处理逻辑抽取所述待检测视频中的关键帧,并对所述关键帧进行图像去噪、白平衡和图像缩放处理,将所述待检测视频处理成标准图像。
3.根据权利要求2所述的方法,其特征在于,所述内容安全检测软件开发工具包还封装有训练完成的识别模型;其中,调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果,包括:
当所述待检测内容信息中包括待检测文本时,将所述目标词输入所述识别模型中的文本识别神经网络模型,获得所述待检测文本的风险识别结果;
当所述待检测内容信息中包括待检测图像时,将所述目标图像输入至所述识别模型中的图像识别神经网络模型,获得所述待检测图像的风险识别结果;
当所述待检测内容信息中包括待检测语音时,将所述目标语音信号输入至所述识别模型中的声音识别神经网络模型,获得所述待检测语音的风险识别结果;
当所述待检测内容信息中包括待检测视频时,将所述标准图像输入至所述识别模型中的视频识别神经网络模型,获得所述待检测视频的风险识别结果;
根据所述待检测文本的风险识别结果、所述待检测图像的风险识别结果、所述待检测语音的风险识别结果和所述待检测视频的风险识别结果,确定所述待检测内容信息的风险识别结果。
4.根据权利要求3所述的方法,其特征在于,所述预处理逻辑及识别模型的安全通过代码函数替换混淆保护。
5.根据权利要求1所述的方法,其特征在于,调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果,包括:
当所述待检测内容信息中包括待检测文本时,对所述目标词进行编码;
采用多核心多进程将编码后的目标词与所述映射表进行并行匹配,获得匹配结果;
若所述匹配结果为存在与所述映射表中的敏感词匹配的目标词,则所述待检测内容信息的风险识别结果为所述待检测内容信息中具有疑似违规内容。
6.一种内容安全识别装置,其特征在于,应用于客户端,所述客户端中集成内容安全检测软件开发工具包;其中,所述装置包括:
待检测内容信息获取单元,用于获取待检测内容信息;
风险识别结果获得单元,用于调用所述内容安全检测软件开发工具包对所述待检测内容信息进行安全检测,获得所述待检测内容信息的风险识别结果,包括:
所述内容安全检测服务端对敏感词库中的敏感词哈希后查重并进行序列化形成二进制数组,对所述二进制数组进行加密形成字符串,根据所述敏感词与对应的字符串之间的对应关系生成映射表,将所述映射表封装至所述内容安全检测软件开发工具包中;
目标识别结果确定单元,用于若所述风险识别结果为所述待检测内容信息正常,则将所述风险识别结果作为目标识别结果,包括:
当所述待检测内容信息中包括待检测文本时,将所述待检测文本拆分获得目标词,通过布隆过滤器的调用函数BloomFilter.mightContain将编码后的目标词与所述映射表进行匹配,获得匹配结果,并根据所述匹配结果获得所述待检测内容信息的风险识别结果;
待检测内容信息上传单元,用于若所述待检测内容信息的风险识别结果为所述待检测内容信息中具有疑似违规内容,则将所述待检测内容信息发送至与所述客户端连接的内容安全检测服务端,以便所述内容安全检测服务端对所述待检测内容信息进行安全检测,获得所述待检测内容信息的内容安全检测结果;
内容安全检测结果接收单元,用于接收所述内容安全检测服务端返回的所述待检测内容信息的内容安全检测结果,并将所述内容安全检测结果作为所述目标识别结果;
业务处理执行单元,用于根据所述目标识别结果对所述待检测内容信息执行对应的业务处理;
抽样上报单元,用于抽样上报所述风险识别结果至所述内容安全检测服务端。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至5任一项所述的方法。
8.一种电子设备,其特征在于,包括:
至少一个处理器;
存储装置,配置为存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如权利要求1至5任一项所述的方法。
CN202011454244.9A 2020-12-10 2020-12-10 内容安全识别方法及装置、存储介质和电子设备 Active CN112600834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011454244.9A CN112600834B (zh) 2020-12-10 2020-12-10 内容安全识别方法及装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011454244.9A CN112600834B (zh) 2020-12-10 2020-12-10 内容安全识别方法及装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN112600834A CN112600834A (zh) 2021-04-02
CN112600834B true CN112600834B (zh) 2023-03-24

Family

ID=75192205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011454244.9A Active CN112600834B (zh) 2020-12-10 2020-12-10 内容安全识别方法及装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112600834B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034331A (zh) * 2021-05-06 2021-06-25 国家计算机网络与信息安全管理中心上海分中心 一种基于多模态融合的安卓赌博应用识别方法和系统
CN113645214B (zh) * 2021-08-03 2023-08-15 北京百度网讯科技有限公司 数据检测方法、装置、电子设备及可读存储介质
CN114257563B (zh) * 2021-12-20 2023-10-24 创盛视联数码科技(北京)有限公司 一种直播间聊天内容回调的过滤方法
CN115964582B (zh) * 2022-11-03 2023-09-19 太平洋电信股份有限公司 一种网络安全风险评估方法及系统
CN116708024B (zh) * 2023-07-31 2023-11-03 天际友盟(珠海)科技有限公司 威胁情报碰撞筛选方法、网关系统、电子设备和存储介质
CN117294526B (zh) * 2023-11-22 2024-03-12 深圳大智软件技术有限公司 一种通信信息共享方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574076A (zh) * 2015-11-27 2016-05-11 湖南大学 一种基于Bloom Filter的键值对存储结构及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103188530A (zh) * 2011-12-30 2013-07-03 大连天维科技有限公司 分级内容审核系统
US20160255535A1 (en) * 2013-10-30 2016-09-01 Interdigital Patent Holdings, Inc. Enabling information centric networks specialization
CN106791517A (zh) * 2016-11-21 2017-05-31 广州爱九游信息技术有限公司 直播视频检测方法、装置及服务端
US10652265B2 (en) * 2018-01-12 2020-05-12 Lianqun YANG Method and apparatus for network forensics compression and storage
CN109614771B (zh) * 2018-10-31 2020-07-03 同盾控股有限公司 一种基于Java代码的混淆方法和装置
CN110444198B (zh) * 2019-07-03 2023-05-30 平安科技(深圳)有限公司 检索方法、装置、计算机设备和存储介质
CN110598075A (zh) * 2019-08-21 2019-12-20 成都信息工程大学 一种基于人工智能的互联网媒体内容安全监测系统及方法
CN111400705B (zh) * 2020-03-04 2023-03-14 支付宝(杭州)信息技术有限公司 一种应用程序的检测方法、装置及设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574076A (zh) * 2015-11-27 2016-05-11 湖南大学 一种基于Bloom Filter的键值对存储结构及方法

Also Published As

Publication number Publication date
CN112600834A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112600834B (zh) 内容安全识别方法及装置、存储介质和电子设备
WO2017084586A1 (zh) 基于深度学习方法推断恶意代码规则的方法、系统及设备
US9973521B2 (en) System and method for field extraction of data contained within a log stream
CN112468520B (zh) 一种数据检测方法、装置、设备及可读存储介质
CN107895122B (zh) 一种专用敏感信息主动防御方法、装置及系统
US11336689B1 (en) Detecting phishing websites via a machine learning-based system using URL feature hashes, HTML encodings and embedded images of content pages
Damshenas et al. A survey on digital forensics trends
US11438377B1 (en) Machine learning-based systems and methods of using URLs and HTML encodings for detecting phishing websites
US10699358B2 (en) Image hidden information detector
US11444978B1 (en) Machine learning-based system for detecting phishing websites using the URLS, word encodings and images of content pages
CN114422271B (zh) 数据处理方法、装置、设备及可读存储介质
CN115426121A (zh) 检测僵尸网络的方法、装置和介质
Las-Casas et al. A big data architecture for security data and its application to phishing characterization
US11568416B2 (en) Cryptocurrency transaction pattern based threat intelligence
CN114244611B (zh) 异常攻击检测方法、装置、设备及存储介质
CN111680161A (zh) 一种文本处理方法、设备以及计算机可读存储介质
CN111586695A (zh) 短信识别方法及相关设备
Chen et al. Using adversarial examples to bypass deep learning based url detection system
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
CN108650229B (zh) 一种网络应用行为解析还原方法及系统
Chiscop et al. AI-based detection of DNS misuse for network security
CN115982675A (zh) 文档处理方法、装置、电子设备以及存储介质
CN113472686B (zh) 信息识别方法、装置、设备及存储介质
Wilson et al. Detection of steganographic techniques on twitter
CN115396128A (zh) 恶意流量检测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant