CN111090813B - 一种内容处理方法、装置和计算机可读存储介质 - Google Patents

一种内容处理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111090813B
CN111090813B CN201911328600.XA CN201911328600A CN111090813B CN 111090813 B CN111090813 B CN 111090813B CN 201911328600 A CN201911328600 A CN 201911328600A CN 111090813 B CN111090813 B CN 111090813B
Authority
CN
China
Prior art keywords
content
target content
target
emotion
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911328600.XA
Other languages
English (en)
Other versions
CN111090813A (zh
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911328600.XA priority Critical patent/CN111090813B/zh
Publication of CN111090813A publication Critical patent/CN111090813A/zh
Application granted granted Critical
Publication of CN111090813B publication Critical patent/CN111090813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种内容处理方法、装置和计算机可读存储介质;本发明实施例在接收至少一个第一终端发送的目标内容下载请求后,该目标内容下载请求携带目标内容标识,将目标内容标识对应的目标内容发送至第一终端,获取目标内容在第一终端的互动信息,当互动信息中的数据满足预设异常条件时,确定目标内容存在异常,并对目标内容的质量进行鉴定,基于鉴定结果,对目标内容进行处理,该方案可以增加内容审核的准确性。

Description

一种内容处理方法、装置和计算机可读存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种内容处理方法、装置和计算机可读存储介质。
背景技术
近年来,随着社交网络和自媒体的发展,社交网络中的内容鱼龙混杂。为了净化社交网络中的内容空间,提升内容质量,需要对上传的内容进行审核,现有技术主要采用机器算法和人工审核相结合,对上传至社交网络的内容进行审核,当审核通过后便将内容分发至消费端。
在对现有技术的研究和实践过程中,本发明的发明人发现现有技术针对专业化和个性化内容的理解和审核存在困难,导致内容审核的准确性不足。
发明内容
本发明实施例提供一种内容处理方法、装置和计算机可读存储介质。可以提高内容审核的准确性。
一种内容处理方法,包括:
接收至少一个第一终端发送的目标内容下载请求,所述目标内容下载请求携带目标内容标识;
将所述目标内容标识对应的目标内容发送至所述第一终端;
获取所述目标内容在所述第一终端的互动信息;
当所述互动信息的数据满足预设异常条件时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定;
基于鉴定结果,对所述目标内容进行处理。
相应的,本发明实施例提供一种内容处理装置,包括:
接收单元,用于接收第一终端发送的目标内容下载请求,所述目标内容下载请求携带目标内容标识;
发送单元,用于将所述目标内容标识对应的目标内容发送至所述第一终端;
获取单元,用于获取所述目标内容在所述第一终端的互动信息;
鉴定单元,用于当所述互动信息的数据满足预设异常条件时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定;
处理单元,用于基于鉴定结果,对所述目标内容进行处理。
可选的,在一些实施例中,所述鉴定单元,具体可以用于对所述互动信息的互动操作类型进行监测;对所述互动信息的内容进行情感分析,得到所述目标内容的情感数据;根据监测得到的互动操作类型数据和情感数据分别与所述预设异常条件中对应的异常数据阈值进行对比;当所述互动操作类型数据和情感数据中至少存在一个数据超过所述异常数据阈值时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定。
可选的,在一些实施例中,所述鉴定单元,具体可以用于在所述互动信息中筛选出至少一条评论信息;采用训练后情感分类模型对所述评论信息进行情感分类,以确定所述评论信息的情感类型,所述情感类型包括正向情感、负向情感和中立情感;统计具有负向情感的负向评论信息的数量,将负向评论信息的数量作为目标内容的情感数据。
可选的,在一些实施例中,所述鉴定单元,具体可以用于在所述评论信息中筛选出关键词文本;采用所述第一分类网络对所述关键词文本进行情感分类,得到第一初始情感类型;采用所述第二分类网络对所述关键词文本进行情感分类,得到第二初始情感类型;将所述第一初始情感类型与所述第二初始情感类型进行融合,以确定所述评论信息的情感类型。
可选的,在一些实施例中,所述鉴定单元,具体可以用于当所述统计后目标互动操作类型数据超过所述第一预设阈值,或所述情感数据超过所述第二预设阈值时,确定所述目标内容存在异常;将所述目标内容发送至审核服务器进行审核;接收所述审核服务器的审核结果;当所述审核结果为审核未通过时,确定所述目标内容的质量不合格;当所述审核结果为审核通过时,确定所述目标内容的质量合格,并对所述目标内容进行标注和存储。
可选的,在一些实施例中,所述鉴定单元,具体可以用于在所述互动操作类型数据中筛选出目标互动操作类型数据;对所述目标互动操作类型数据进行统计;将统计后目标互动操作类型数据与所述第一预设阈值进行对比;将所述情感数据中的与所述第二预设阈值进行对比;所述当所述互动操作类型数据和情感数据中至少存在一个数据超过所述异常数据阈值时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定,包括:当所述统计后目标互动操作类型数据超过所述第一预设阈值,或所述情感数据超过所述第二预设阈值时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定。
可选的,在一些实施例中,所述处理单元,具体可以用于当鉴定结果为所述目标内容的质量不合格时,在预设内容数据库中筛选出所述目标内容对应的目标特征信息;基于所述目标特征信息,在所述预设内容数据库中筛选出与所述目标内容相似度超过预设相似度阈值的相似内容;在所述预设内容数据库中将所述目标内容和相似内容删除。
可选的,在一些实施例中,所述处理单元,具体可以用于当鉴定结果为所述目标内容的质量不合格时,在所述预设内容数据库中筛选出所述目标内容对应的发布用户的身份标识;根据所述身份标识,在所述预设内容数据库中筛选出所述身份标识对应的至少一个剩余内容,所述剩余内容为在所述身份标识对应的发布用户发布的全部内容中去除所述目标内容和相似内容后剩余的内容;对所述剩余内容的质量进行鉴定;统计质量不合格的剩余内容的数量;当质量不合格的剩余内容的数量超过预设数量阈值时,在所述预设内容数据库中删除所述剩余内容,并限制所述发布用户发布内容的权限。
可选的,在一些实施例中,所述接收单元,具体可以用于接收第二终端发送的原始内容,所述原始内容包括所述目标内容;提取所述原始内容的特征信息;根据所述特征信息,对所述原始内容进行审核;当所述原始内容审核通过时,将所述原始内容和原始内容对应的特征信息存储至所述预设内容数据库。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的内容处理方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种内容处理方法中的步骤。
本发明实施例在接收至少一个第一终端发送的目标内容下载请求后,该目标内容下载请求携带目标内容标识,将目标内容标识对应的目标内容发送至第一终端,获取目标内容在第一终端的互动信息,当互动信息的数据中满足预设异常条件时,确定目标内容存在异常,并对所述目标内容的质量进行鉴定,基于鉴定结果,对目标内容进行处理,由于该方案中采用互动信息中用户对内容的反馈信息,可以及时发现质量标准不清晰或难以界定的专业化和个性化内容,并进行复核,可以增加内容审核的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的内容处理方法的场景示意图;
图2是本发明实施例提供的内容处理方法的流程示意图;
图3是本发明实施例提供的存储目标内容的流程示意图;
图4是本发明实施例提供的情感分类的流程示意图;
图5是本发明实施例提供的将内容处理装置应用于区块链的数据共享系统的结构示意图;
图6是本发明实施例提供的内容处理方法的另一流程示意图;
图7是本发明实施例提供的处理目标内容的流程示意图;
图8是本发明实施例提供的区块链的结构示意图;
图9是本发明实施例提供的区块链中新区块产生的过程示意图;
图10是本发明实施例提供的内容处理装置的结构示意图;
图11是本发明实施例提供的内容处理装置的鉴定单元的结构示意图;
图12是本发明实施例提供的内容处理装置的处理单元的结构示意图;
图13是本发明实施例提供的内容处理装置的处理单元的另一结构示意图;
图14是本发明实施例提供的内容处理装置的另一结构示意图;
图15是本发明实施例提供的内容处理装置的另一结构示意图;
图16是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种内容处理方法、装置和计算机可读存储介质。其中,该内容处理装置可以集成在电子设备中,该电子设备可以是服务器,该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群。
例如,参见图1,以内容处理装置集成在电子设备中为例,接收至少一个第一终端发送的目标内容下载请求后,该目标内容下载请求携带目标内容标识,将目标内容标识对应的目标内容发送至第一终端,获取目标内容在第一终端的互动信息,根据互动信息,对所述目标内容的质量进行鉴定,基于鉴定结果,对目标内容进行处理。
其中,第一终端属于消费端,第一终端下载的目标内容来自于内容生产端生产的原始内容,在本实施例中,内容生产端为第二终端,第二终端将生成的原始内容发送至内容处理装置进行审核,审核通过后,将原始内容存储至预设内容数据库,内容处理装置在接收到第一终端的下载请求,根据下载请求中的目标内容标识在预设内容数据库中筛选出目标内容,并将目标内容发送至第一终端。
其中,第一终端和第二终端都可以为终端,该终端可以包括平板电脑、笔记本电脑、以及个人计算(PC,Personal Computer)等设备。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从内容处理装置的角度进行描述,该内容处理装置具体可以集成在电子设备中,该电子设备可以是服务器,该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群。
一种内容处理方法,包括:接收至少一个第一终端发送的目标内容下载请求,该目标内容下载请求携带目标内容标识,将目标内容标识对应的目标内容发送至第一终端,获取目标内容在第一终端的互动信息,当互动信息中的数据满足预设异常条件时,确定目标内容存在异常,并对目标内容的质量进行鉴定,基于鉴定结果,对目标内容进行处理。
如图2所示,该内容处理方法的具体流程如下:
101、接收至少一个第一终端发送的目标内容下载请求,该目标内容下载请求携带目标内容标识。
其中,目标内容标识可以为指示目标内容的标识或标签,比如,可以为目标内容的名称,譬如,足球视频或某足球明星的图像等。
所谓目标内容可以为图像、视频、音频或文本等内容信息,比如,可以为某栋建筑物的照片,还可以为某个事件的视频、某个电影的视频片段或用户录制的视频,还可以为某首歌曲的音频或用户录制的音频,还可以为用户对某个事件的评论内容,该评论内容的格式为文本等。
例如,可以直接接收至少一个第一终端发送的目标内容下载请求,该内容请求携带目标内容标识。比如,第一终端接收到内容处理装置的预设内容数据库中的内容信息,在该内容信息中确认需要下载的目标内容,并获取目标内容对应的目标内容标识,第一终端生成目标内容下载请求,并将目标内容添加至目标内容下载请求中,将目标内容下载请求发送至内容处理装置,内容处理装置可以直接接收至少一个第一终端发送的目标内容请求,在该目标内容请求中获取第一终端需要下载的目标内容对应的目标内容标识。如果第一终端的数量较多的情况下,接收第一终端发送的目标内容下载请求还可以采用间接接收的方式来接收,比如,多个第一终端将目标内容下载请求发送至第三方数据库暂存,给内容处理装置发送提示信息,提示信息中包含了第三方数据库的地址,内容处理装置按照地址找到第三方数据库,并在第三方数据库中获取目标内容下载请求中的目标内容标识,还可以在获取到目标内容标识后给对应的第一终端发送反馈信息,以提示第一终端。
在接收第一终端发送的目标内容下载请求之前,内容处理装置中需要存在该目标内容标识对应的目标内容,这样才能将该目标内容发送给第一终端。因此,在步骤“接收第一终端发送的目标内容下载请求之前”,还可以包括:
接收第二终端发送的原始内容,该原始内容包括目标内容,提取原始内容的特征信息,根据特征信息,对原始内容进行审核,当原始内容通过审核时,将原始内容和原始内容对应的特征信息存储至预设内容数据库。
以上步骤可以理解为在预设内容数据库中存储包含目标内容的原始内容,存储过程如图3所示,具体可以如下:
S1、接收第二终端发送的原始内容,该原始内容包括目标内容。
其中,原始内容可以包括各类图像、视频、音频和文本信息等内容。
例如,用户可以在网络上获取各类内容信息,可以将各类内容信息直接通过第二终端发送至内容处理装置,还可以通过第二终端对获取到的各类内容信息进行编辑,比如,可以对获取到的视频进行截取,添加表情、文字或动画等,还可以对获取到的图像、文本进行编辑等操作,将编辑好的各类内容信息通过第二终端发送至内容处理装置。还可以通过第二终端自带的内容采集装置采集内容信息发送至内容处理装置中,比如,可以通过摄像头拍摄一些短视频或图像,可以直接将短视频或图像作为原始内容发送至内容处理装置,还可以对短视频进行编辑后作为原始内容发送至内容处理装置,比如,可以对拍摄的短视频进行剪辑,选择搭配的音乐、滤镜模板,如果拍摄的是图像,还可以对图像进行美化,并添加文本信息等编辑动作,将编辑好的短视频或者图文作为原始内容通过第二终端发送至内容处理装置,内容处理装置接收第二终端发送的原始内容。
在此,第二终端发送的原始内容中需要包含第一终端想要下载的目标内容,整个过程可以看成至少一个第二终端将包含目标内容的原始内容发送至内容处理装置进行审核。
S2、提取原始内容的特征信息。
其中,特征信息可以为原始内容的元信息和特征向量等信息。
所谓元信息可以为图文信息的元信息频文件大小、封面图链接、视频码率、文件格式、标题、发布时间、作者等信息。特征向量可以为对图文内容进行特征提取,对提取的特征进行向量化而得到的向量,具体向量化的方法可以采用语言处理模型(BidirectionalEncoder Representations from Transformers,BERT) 根据提取的特征,生成特征对应的向量。
例如,对原始内容进行特征提取,比如,针对原始内容中的图文信息,可以提取元信息频文件大小、封面图链接、视频码率、文件格式、标题、发布时间、作者等信息。还可以对原始内容中的特征进行BERT向量化,从而得到图文信息对应的特征向量。
其中,针对原始内容中的视频内容,还可以对视频内容进行标准的转码操作,转码完成后异步返回元信息主要是文件大小,码率、规格和截取封面图等信息。将这些信息也作为特征信息。
S3、根据特征信息,对原始内容进行审核。
其中,对原始内容进行审核可以包括通过人工初步检测原始内容是否涉及色情、赌博和政治敏感等,在采用识别模型对初步检测通过的原始内容进行识别,在采用人工对原始内容的识别结果进行分类和标签的标注或确认,分类和确认完成即表示审核通过。
例如,根据特征信息,对原始内容的图文信息进行预处理,比如,以对视频文件进行预处理为例,可以对视频文件中不同码率、不同清晰度、不同尺寸、部分黑屏,添加的滤镜、视频标志(logo)、插入的广告内容和片头片尾无关内容都可以进行裁剪处理,保证进入人工审核的原始内容符合处理流程的需要,还可以根据特征信息,在原始内容中将已经审核过的重复内容过滤掉,比如,根据同一个图像下载地址对应的同一张图像,已经通过审核了,当第二次被第二终端发送至内容处理装置时,可以将该图像进行过滤,便于节省人工审核的时间。将过滤后的原始内容发送至审核服务器,人工在审核服务器对过滤后的原始内容进行审核,主要审核的方面为过滤后内容是否涉及色情、赌博和政治敏感等,通过人工初步审核的过滤后内容被发送给识别模型进行识别,主要识别过滤后内容的内容本身和类型,一般识别模型可以采用图像识别模型、文本识别模型、文本识别模型等。识别模型对过滤后内容进行识别,得出识别结果,可以根据识别结果对过滤后内容贴标签,也可以不贴。人工根据识别模型得到的识别结果和标签,对过滤后内容进行二次审核,主要根据识别结果,对过滤后内容进行分类和对标签的标注或确认。过滤后通过确认之后,表示该过滤后内容对应的原始内容通过了审核。
其中,需要强调的是,审核服务器中,该识别模型可以有多个内容样本训练而成,具体可以由其他设备进行训练,提供给该内容处理装置,或者,也可以由该内容处理装置自行训练,即“采用识别模型识别过滤后内容的内容本身和类型”之前,该内容处理方法还可以包括:
采集多个内容样本,该内容样本包括已标注类型和标签的内容,采用预设识别模型对内容样本的类型和标签进行预测,得到内容样本的预测结果,根据预测结果与标注结果对预设识别模型进行收敛,得到训练后识别模型。
S4、当原始内容审核通过时,将原始内容和原始内容对应的特征信息存储至预设内容数据库。
例如,当原始内容审核通过时,将识别模型和人工审核得到的分类结果、标签或者标注等添加至原始内容对应的特征信息中,比如,原始内容为一段视频,通过审核后,得到视频为体育视频,且对于的标签为足球体育视频,将体育视频和足球体育视频添加至特征信息中。将原始内容和原始内容对应的特征信息存储至预设内容数据库。
其中,第一终端可以作为内容消费端,第二终端可以作为内容生成端,比如,第二终端可以将获取到的短视频发送给内容处理装置进行审核和展示,当第一终端看到该短视频时,可以提交下载请求,将该短视频下载并进行观看和互动等操作。第一终端和第二终端都可以为终端,该终端可以包括平板电脑、笔记本电脑、以及个人计算(PC,PersonalComputer)等设备。
102、将目标内容标识对应的目标内容发送至第一终端。
例如,在预设内容数据库中查询目标内容标识对应的原始内容,将该原始内容作为目标内容发送至第一终端。比如,目标内容标识中的内容名称为201X 年XX运动会视频,目标内容标识中的作者为张三,则在预设内容数据库中通过查询原始内容对应的特征信息,在特征信息中匹配该目标内容标识,譬如,在特征信息查询视频名称为201X年XX运动会视频的视频,在查询到视频中继续查询作者为张三对应的视频,进而可以查询到目标内容标识对应的原始内容,将该原始内容作为目标内容。将该目标内容直接发送给第一终端,还可以间接发送给第一终端,比如,可以将目标内容发送至第三方数据库进行存储,将第三方数据库的地址发送给第一终端,第一终端根据第三方数据库的地址,在第三方数据库中获取到需要下载的目标内容。当目标内容的文件占用较大内存时,还可以对目标内容进行压缩后发送给第一终端。
103、获取目标内容在第一终端的互动信息。
其中,互动信息可以为第一终端对目标内容的评论、点赞、转发或下载等互动操作产生的信息,还可以包括跟第一终端存在关联关系的用户对第一终端转发的目标内容的评论、转发、点赞或下载等互动操作产生的信息。
例如,可以通过获取第一终端对目标内容的处理行为数据,得到目标内容在第一终端的互动信息,比如,第一终端对目标内容进行评论时,则可以根据获取到的评论信息作为互动信息,第一终端对目标内容进行转发时,则可以将获取到的转发时间等作为互动信息,第一终端对目标进行点赞时,则可以将获取的点赞时间和点赞类型等作为互动信息,第一终端对目标内容进行转发后,与第一终端存在关联关系的其他终端对该目标内容的点赞和评论,也可以作为互动信息。
104、当互动信息中的数据满足预设异常条件时,确定目标内容存在异常,并对目标内容的质量进行鉴定。
其中,内容的质量可以为判断目标内容是否有价值,是否是拼凑的内容、内容是否完整的图像信息、内容中的图文信息是否真实客观、内容是否是胡编乱造等得到的结果。比如,在历史和军事等特定领域,如果目标内容不够客观,譬如,与真实历史事件存在较大出入,则可以认定该目标内容为低质量内容。
其中,预设异常条件可以为预先设置好的针对一些数据条件信息,可以包括第一预设阈值和第二预设阈值,第一预设阈值为互动操作类型数据对应的预设阈值,比如,可以为在一段时间内评论的次数的最大阈值,当超过这个阈值时,可以认定该目标内容存在异常。第二预设阈值为所述情感数据对应的预设阈值,比如,可以为目标内容中负向评论数量的最大阈值,当负向评论数量超过该阈值时,可以认定该目标内容同样存在异常。
例如,根据互动信息,对目标内容的质量进行鉴定的过程具体如下:
C1、对互动信息的互动操作类型进行监测。
其中,互动操作类型可以为对目标内动进行点赞、转发和评论等操作。
例如,以存在多个第一终端为例,监测每一个下载了目标内容的第一终端对目标内容的互动操作,比如,监测每一个第一终端是否转发了目标内容、是否评论了目标内容,是否对目标内容进行点赞,并监测转发了该目标内容的第一终端接收到的互动操作,譬如,第一终端A转发了目标内容,此时,与第一终端A存在关联关系的其他终端B对目标内容进行转发、点赞和评论等互动操作时,也一并进行监测,最后,将检测得到的数据作为互动操作类型数据。比如,该互动操作类型数据可以为XX时间第一终端A对目标内容进行点赞和转发各一次,XX时间其他终端B对目标内容进行评论一次。
C2、对互动信息的内容进行情感分析,得到目标内容的情感数据。
其中,情感分析可以为分析互动信息对目标内容的情感类型,所谓情感类型,可以理解为对目标内容喜好的情感,可以包括正向情感、负向情感和中立情感。比如,互动信息中情感为喜欢、赞扬等,则可以判断该互动信息对目标内容的情感类型为正向情感,互动信息中情感为讨厌、不欢迎或不喜欢等,则可以判断该互动信息对目标内容的情感类型为负向情感。如果不存在正向情感和负向情感,则该互动信息为中立情感。
其中,情感数据为评论信息中负向情感的数量。
例如,对互动信息的内容进行情感分析,在此需要强调的是,可以存在多个第一终端,因此,在互动信息中可以存在多条评论信息,具体分析过程如下:
(1)在互动信息中筛选出至少一条评论信息。
例如,对互动信息中的内容进行分类,比如,可以分为点赞信息、评论信息、转发信息等,在分类后的互动信息中筛选出至少一条评论信息。
(2)采用训练后情感分类模型对评论信息进行情感分类,以确定评论信息的情感类型。
例如,采用训练后情感分类模型对评论信息进行情感分类,如图4所示,具体过程如下:
在评论信息中筛选出关键词文本,比如,可以预先设定筛选关键词的规则,譬如,出现频率最高的词,出现在关键位置的词,将这些词作为关键词文本筛选出来。还可以根据预设关键词,在评论信息中筛选出关键词文本,比如,预设关键词可以为喜欢、讨厌或真假等情感词,在评论信息中筛选出这类的情感词,将情感词作为关键词。分别采用情感分类模型的第一分类网络和第二分类网络分别对关键词文本进行情感分类,可以得到关键词文本的第一初始情感类型和第二初始情感类型,比如,第一分类网络可以为文本分类卷积神经网络 (TextCNN),第二分类网络可以为长短期记忆网络(Long Short-Term Memory,LSTM),采用TextCNN对关键词文本进行情感分类,可以得到第一初始情感类型,采用LSTM对关键词文本进行情感分类,可以得到第二初始情感类型。将第一初始情感类型和第二初始情感类型进行融合,以确定评论信息的情感类型。比如,当第一初始情感类型和第二初始情感类型的结果一致时,譬如,都为正向情感,则可以确定评论信息的情感类型为正向情感。当第一初始情感类型和第二初始情感类型不一致时,比较第一初始情感类型和第二初始情感类型中的情感类型的概率值,譬如,第一初始情感类型为概率为80%的负向情感,第二初始情感类型为概率为60%的中立情感,比较情感类型的概率值,将概率值大的情感类型作为评论信息对应的情感类型,在此就可以确定该评论信息的情感类型为负向情感。
其中,训练后情感分类模型可以由多个评论信息样本训练而成,具体可以由其他设备进行训练后,提供给该内容处理装置,或者,也可以由该内容处理装置自行训练,即步骤“采用训练后情感分类模型对评论信息进行情感分类”之前,该内容理方法还可以包括:
采集多个评论信息样本,该评论信息样本包括已标注情感类型的评论信息,采用预设情感分类模型对评论信息样本的情感类型进行预测,得到评论信息样本的预测结果,根据预测结果与标注结果对预设情感分类模型进行收敛,得到训练后情感分类模型。
例如,可以通过数据库、网络和内容采集设备采集多个评论信息作为原始内容样本,对原始评论信息样本进行预处理,比如,提取关键词文本等操作,以得到满足该预设情感分类模型的输入标准的评论信息样本,然后,对这些预处理后的评论信息样本进行情感类型的标注,得到标记后的评论信息样本。采用预设情感分类模型的第一分类网络对评论信息样本进行情感分类,得到第一初始情感类型,采用预设情感分类模型的第二分类网络对评论信息样本进行情感分类,得到第二初始情感类型,将第一初始情感类型和第二初始情感类型进行融合,得到该评论信息样本的预测结果。可以通过插值损失函数,根据预测结果与标注结果对预设情感分类模型进行收敛,得到训练后情感分类模型。比如,具体可以如下:
采用Dice函数(一种损失函数),根据该评论信息样本的标注结果和预测结果对该预设情感分类模型中用于情感分类的参数进行调整,得到训练后情感分类模型。
可选的,为了提高情感分类的精确性,除了采用Dice函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛,具体可以如下:
采用交叉熵损失函数,根据该评论信息样本的标注结果和预测结果对该预设情感分类模型中用于情感分类的参数进行调整,以及通过插值损失函数,根据该评论信息样本的标注结果和预测结果对该预设情感分类模型中用于情感分类的参数进行调整,得到训练后情感分类模型。
其中,在此需要强调的是,对评论信息进行情感分析的对象为单条评论信息,如果互动信息中存在多条评论信息时,分别对每条评论信息进行情感分析。
(3)统计具有负向情感的负向评论信息的数量,将负向评论信息的数量作为目标内容的情感数据。
其中,负向评论信息可以为对目标内容具有负向情感的评论信息。
例如,统计目标内容的互动信息中的负向评论信息的数量,统计完成后,将负向评论信息的数量作为目标内容的情感数据,比如,统计的负向评论信息的数量为40条,则该目标内容的情感数据就为40。
C3、根据监测得到的互动操作类型数据和情感数据分别与所述预设异常条件中对应的异常数据阈值进行对比。
其中,互动操作类型数据可以为点赞次数、评论次数、浏览次数、点赞频率、评论频率和浏览频率等数据。
例如,对比主要分两个部分,一个部分是互动操作类型数据与第一预设阈值进行对比,另一个部分是情感数据与第二预设阈值进行对比,因此需要分开来进行对比。
一是将互动操作类型数据与第一预设阈值进行对比,比如,在互动操作类型数据中筛选出目标互动操作类型数据,譬如,评论次数、浏览次数、点击次数、转发次数或点赞次数等数据。对目标互动操作类型数据进行统计,比如,可以统计在一段时间内评论的总次数,浏览和点击的总次数,转发的总次数和 /或点在的总次数的数据。将统计后目标互动操作数据与预设第一阈值进行对不,比如,预设第一阈值为互动操作数据预设正常条件为为小时的评论信息最多500次,转发次数最多1000次,浏览或者点击次数最多1000次等,然后,将统计后的一小时内评论总数、转发次数、浏览或点击次数进行对比。如果超过预设第一阈值,则可以认定该目标内容存在异常。
二是将情感数据与第二预设阈值进行对比,比如,情感数据就为负向评论信息的数量,因此,只需要比较负向评论信息的数量与第二预设阈值即可,譬如,统计的负向评论信息的数量为40条,且互动信息中总的评论信息为50条,将负向评论信息的数量与第一预设阈值进行对比,比如,第一预设阈值为异常数量阈值为30条,且负向评论信息数量占比阈值为70%,因此,以统计的负向评论信息的数量为40条为例,可以看出情感数据超过了预设第二阈值,如果统计的负向评论信息的数量为20条,则可以判断情感数据未超过预设第二阈值。
C4、当所述互动操作类型数据和情感数据中至少存在一个数据超过所述异常数据阈值时,确定所述目标内容存在异常,并对目标内容的质量进行鉴定。
例如,当所述统计后目标互动操作类型数据超过所述第一预设阈值,或所述情感数据超过所述第二预设阈值时,确定所述目标内容存在异常,并对目标内容的质量进行鉴定,具体过程可以如下:
(1)当所述统计后目标互动操作类型数据超过所述第一预设阈值,或所述情感数据超过所述第二预设阈值时,确定所述目标内容存在异常。
例如,将统计后目标互动操作类型数据与第一预设阈值对比,情感数据与第二预设阈值对比后,当统计后目标互动操作类型数据超过第一预设阈值,或情感数据超过第二预设阈值时,确定该目标内容存在异常。比如,当一小时内统计后的转发次数超过第一预设阈值的5000次时,就可以认定该目标内容存在异常,或者当一小时内目标内容的负向评论信息数量超过第二预设阈值100次时,也同样可以认定该目标内容存在异常。确定该目标内容是否存在异常,只需要统计后目标互动操作类型数据和情感数据中任意一个数据超过对应的预设阈值,即可以认定该目标内容存在异常,当确定目标内容存在异常时,该目标内容就需要进行审核,审核可以包括审核服务器的异常类型判断和复核。
(2)将目标内容发送至审核服务器进行审核。
其中,审核可以包括目标内容异常类型判断和复核。
所谓目标内容异常类型判断可以为判断目标内容是否为常见的异常,比如,目标内容为标题党,目标内容中存在错别字等情况。复核又可以为再次采用人工加识别模型对目标内容再进行一次审核,尤其是在人工审核阶段,可以结合评论信息,对目标内容进行复核。
例如,将目标内容发送至审核服务器进行审核,比如,将目标内容发送至审核服务器进行审核,审核服务器可以包括人工和识别模型对目标内容进行再次审核,这次审核过程中,会提取互动信息中的评论信息,将评论信息作为参考,对目标内容进行一次客观的审核,审核内容的质量。
其中,为了减少审核过程的时间,审核服务器在对目标内容进行复核过程中,可以优先对目标内容的异常类型进行判断,是否为常见异常类型,比如,可以优先审核目标内容的标题和正文文本信息,当标题与内容不符合时,可以认定为标题党,当正文文本信息中存在大量错别字时,可以认定为异常类型为错别字较多。当对目标内容进行审核后,发现该目标内容的异常类型是否是常见异常类型,如果是,就可以反馈审核结果了,如果不是,则继续采用人工和识别模型对剩下的内容进行审核,得到审核结果。
(3)接收审核服务器的审核结果。
例如,当审核服务器采用人工和识别模型对目标内容进行审核完成后,接收审核服务器发送的审核结果,审核结果可以为目标内容存在的问题类型,比如,文字拼凑、标题党、错别字多或内容不客观等审核结果。
(4)当审核结果为审核未通过时,确定目标内容的质量不合格。
其中,目标内容的质量可以为合格和不合格,当目标内容的审核结果中存在负面问题,审核未通过,则可以认定该目标内容的质量为不合格,当目标内容的审核结果中不存在负面问题,审核通过,则可以认定该目标内容的质量为合格。
例如,对审核结果进行判断,当审核结果为审核未通过时,比如,审核结果为存在文字拼凑、标题党、错别字多或内容不客观等问题,审核未通过时,确定目标内容的质量为不合格。当审核结果为不存在负面问题,审核通过时,确定目标内容的质量为合格。
(5)当审核结果为审核通过时,确定目标内容的质量合格,并对目标内容进行标注和存储。
例如,当审核结果为审核通过时,可以认定该目标内容的质量合格。当目标内容的质量合格时,将该目标内容在人工审核中确认的标签和分类进行标注,将标注后的目标内容作为审核服务器中的审核模型的内容样本存在至样本集合中,供审核模型进行训练,可以大大丰富内容样本集合,也可以提高收敛质量标准。
105、基于鉴定结果,对目标内容进行处理。
例如,基于鉴定结果,对目标内容进行处理,处理的方式可以包括多种,比如,对上架的内容进行下架,对内容进行删除等方式,处理方式可以分为两大类,具体处理过程可以如下:
B1、删除目标内容和目标内容的相似内容。
其中,相似内容为预设内容数据库中跟目标内容相似度超过预设相似度阈值的内容。
(1)当鉴定结果不合格时,在预设内容数据库中筛选出目标内容对应的目标特征信息。
例如,当鉴定结果为目标内容的质量不合格时,在预设内容数据库中国筛选出目标内容对应的目标特征信息,在目标特征信息中提取出目标特征向量。
(2)基于目标特征信息,在预设内容数据库中筛选出与目标内容相似度超过预设相似度阈值的相似内容。
例如,可以根据目标特征信息的目标特征向量来获取相似内容,比如,当目标内容为图文信息时,可以通过与图文信息的BERT图文向量比较距离来确定相似度,当目标内容为视频信息时,可以通过抽帧的视频特征向量来确定相似度,将相似度超过预设相似度阈值的内容作为相似内容。
(3)在预设内容数据库中将目标内容和相似内容删除。
例如,在预设内容数据库中将目标内容和相似内容删除,比如,可以在预设内容数据库中将目标内容和筛选到的相似内容删除,如果目标内容和相似内容被推荐给其他终端时,还可以将目标内容和相似内容从其他终端中召回,如果目标内容和相似内容被内容处理装置进行展示,还需要将展示的目标内容和相似进行下架处理。
B2、删除目标内容的发布用户的剩余内容,并限制发布内容的权限。
其中,剩余内容可以为目标内容的发布用户在内容处理装置中发布的除了目标内容和相似内容以外的内容,比如,发布用户A发布了4段内容,包括目标内容A1,相似内容A2,其他内容A3和A4,则剩余内容就为其他内容A3和 A4。
例如,删除目标内容的发布用户的剩余内容,并限制发布内容的权限,具体过程可以如下:
(1)当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容对应的发布用户的身份标识。
例如,当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容的目标特征信息,在目标特征信息中提取出目标视频的作者等可以表明发布用户身份信息,将该身份信息作为发布用户的身份标识。比如,目标特征信息中包括目标内容的作者或者发布者,则可以将作者或者发布者作为发布用户的身份标识即可。
(2)根据身份标识,在预设内容数据库中筛选出身份标识对应的至少一个剩余内容。
例如,根据身份标识,在预设内容数据库中筛选出身份标识对应的至少一个剩余内容,比如,发布者的身份标识为作者A,则在预设内容数据库中筛选出作者A发布的全部内容,将全部内容中去除目标内容和相似内容,得到剩余内容。
(3)对剩余内容的质量进行鉴定。
例如,对剩余内容的质量进行鉴定过程跟对目标内容的鉴定过程可以一样,比如,获取剩余内容的互动信息,对剩余内容的互动信息的互动操作类型进行监测,对剩余内容的互动信息的内容进行情感分析,根据检测得到的互动操作类型数据和情感分析结果,对剩余内容的质量进行鉴定。
其中,鉴定过程在前面实施例已经一一描述,在此就不再赘述。
(4)统计质量不合格的剩余内容的数量,当质量不合格的剩余内容的数量超过预设数量阈值时,在预设内容数据库中删除剩余内容,并限制发布用户发布内容的权限。
例如,对剩余内容的质量鉴定完整后,当剩余内容存在多个时,统计剩余内容中质量不合格的数量,将质量不合格的剩余内容数量与预设数量阈值进行对比,当质量不合格的剩余内容的数量超过预设数量阈值时,确定发布用户存在持续生产低质量内容的负面问题,此时,将该发布用户剩下的剩余内容在预设内容数据库中进行删除,如果存在剩余内容被推荐给其他终端时,还可以将剩余内容从其他终端中召回,如果剩余内容被内容处理装置进行展示,还需要将展示的目标内容和相似进行下架处理。处理之后,还可以直接限制发布用户在内容处理装置发布内容的权限,禁止该发布用户发布内容。
可选的,在一些实施例中,参考图5,上述终端和服务器可以是一个数据共享系统中的一个节点,数据共享系统是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点,多个节点可以是指数据共享系统中各个网络设备。每个节点中都存储有一条相同的区块链,内容处理装置可以将目标内容存储至区块链中,从而与其它网络设备进行数据共享。
由以上可知,本实施例在接收至少一个第一终端发送的目标内容下载请求后,该目标内容下载请求携带目标内容标识,将目标内容标识对应的目标内容发送至第一终端,获取目标内容在第一终端的互动信息,根据互动信息,对目标内容的质量进行鉴定,基于鉴定结果,对目标内容进行处理,由于该方案中采用互动信息中用户对内容的反馈信息,可以及时发现质量标准不清晰或难以界定的专业化和个性化内容,并进行复核,可以增加内容审核的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该内容处理装置具体集成在电子设备为例进行说明。
如图6所示,一种内容处理方法,具体流程如下:
201、电子设备接收第二终端发送的原始内容,该原始内容包括目标内容。
例如,用户可以在网络上获取各类内容信息,可以将各类内容信息直接通过第二终端发送至电子设备还可以通过第二终端对获取到的各类内容信息进行编辑,比如,可以对获取到的视频进行截取,添加表情、文字或动画等,还可以对获取到的图像、文本进行编辑等操作,将编辑好的各类内容信息通过第二终端发送至电子设备。还可以通过第二终端自带的内容采集装置采集内容信息发送至电子设备中,比如,可以通过摄像头拍摄一些短视频或图像,可以直接将短视频或图像作为原始内容发送至电子设备,还可以对短视频进行编辑后作为原始内容发送至电子设备,比如,可以对拍摄的短视频进行剪辑,选择搭配的音乐、滤镜模板,如果拍摄的是图像,还可以对图像进行美化,并添加文本信息等编辑动作,将编辑好的短视频或者图文作为原始内容通过第二终端发送至电子设备,电子设备接收第二终端发送的原始内容。
202、电子设备提取原始内容的特征信息。
例如,针对原始内容中的图文信息,电子设备可以提取元信息频文件大小、封面图链接、视频码率、文件格式、标题、发布时间、作者等信息。电子设备还可以对原始内容中的特征进行BERT向量化,从而得到图文信息对应的特征向量。
203、电子设备根据特征信息,对原始内容进行审核。
例如,以对视频文件进行预处理为例,电子设备可以对视频文件中不同码率、不同清晰度、不同尺寸、部分黑屏,添加的滤镜、视频标志(logo)、插入的广告内容和片头片尾无关内容都可以进行裁剪处理,保证进入人工审核的原始内容符合处理流程的需要,还可以根据特征信息,在原始内容中将已经审核过的重复内容过滤掉,比如,根据同一个图像下载地址对应的同一张图像,已经通过审核了,当第二次被第二终端发送至内容处理装置时,可以将该图像进行过滤,便于节省人工审核的时间。将过滤后的原始内容发送至审核服务器,人工在审核服务器对过滤后的原始内容进行审核,主要审核的方面为过滤后内容是否涉及色情、赌博和政治敏感等,通过人工初步审核的过滤后内容被发送给识别模型进行识别,主要识别过滤后内容的内容本身和类型,一般识别模型可以采用图像识别模型、文本识别模型、文本识别模型等。识别模型对过滤后内容进行识别,得出识别结果,可以根据识别结果对过滤后内容贴标签,也可以不贴。人工根据识别模型得到的识别结果和标签,对过滤后内容进行二次审核,主要根据识别结果,对过滤后内容进行分类和对标签的标注或确认。过滤后通过确认之后,表示该过滤后内容对应的原始内容通过了审核。
其中,审核服务器中,该识别模型可以有多个内容样本训练而成,具体可以由其他设备进行训练,提供给该内容处理装置,或者,也可以由该内容处理装置自行训练,即“采用识别模型识别过滤后内容的内容本身和类型”之前,该内容处理方法还可以包括:
采集多个内容样本,该内容样本包括已标注类型和标签的内容,采用预设识别模型对内容样本的类型和标签进行预测,得到内容样本的预测结果,根据预测结果与标注结果对预设识别模型进行收敛,得到训练后识别模型。
204、当原始内容审核通过时,电子设备将原始内容和原始内容对应的特征信息存储至预设内容数据库。
例如,当原始内容审核通过时,电子设备将识别模型和人工审核得到的分类结果、标签或者标注等添加至原始内容对应的特征信息中,比如,原始内容为一段视频,通过审核后,得到视频为体育视频,且对于的标签为足球体育视频,将体育视频和足球体育视频添加至特征信息中。将原始内容和原始内容对应的特征信息存储至预设内容数据库。
205、电子设备接收至少一个第一终端发送的目标内容下载请求,该目标内容下载请求携带目标内容标识。
例如,第一终端接收到内容处理装置的预设内容数据库中的内容信息,在该内容信息中确认需要下载的目标内容,并获取目标内容对应的目标内容标识,第一终端生成目标内容下载请求,并将目标内容添加至目标内容下载请求中,将目标内容下载请求发送至内容处理装置,内容处理装置可以直接接收至少一个第一终端发送的目标内容请求,在该目标内容请求中获取第一终端需要下载的目标内容对应的目标内容标识。如果第一终端的数量较多的情况下,接收第一终端发送的目标内容下载请求还可以采用间接接收的方式来接收,比如,多个第一终端将目标内容下载请求发送至第三方数据库暂存,给内容处理装置发送提示信息,提示信息中包含了第三方数据库的地址,内容处理装置按照地址找到第三方数据库,并在第三方数据库中获取目标内容下载请求中的目标内容标识,还可以在获取到目标内容标识后给对应的第一终端发送反馈信息,以提示第一终端。
206、电子设备将目标内容标识对应的目标内容发送至第一终端。
例如,以目标内容标识中的内容名称为201X年XX运动会视频为例,目标内容标识中的作者为张三,则在预设内容数据库中通过查询原始内容对应的特征信息,在特征信息中匹配该目标内容标识,譬如,在特征信息查询视频名称为201X年XX运动会视频的视频,在查询到视频中继续查询作者为张三对应的视频,进而可以查询到目标内容标识对应的原始内容,将该原始内容作为目标内容。将该目标内容直接发送给第一终端,还可以间接发送给第一终端,比如,可以将目标内容发送至第三方数据库进行存储,将第三方数据库的地址发送给第一终端,第一终端根据第三方数据库的地址,在第三方数据库中获取到需要下载的目标内容。当目标内容的文件占用较大内存时,还可以对目标内容进行压缩后发送给第一终端。
207、电子设备获取目标内容在第一终端的互动信息。
例如,可以通过获取第一终端对目标内容的处理行为数据,得到目标内容在第一终端的互动信息,比如,第一终端对目标内容进行评论时,则可以根据获取到的评论信息作为互动信息,第一终端对目标内容进行转发时,则可以将获取到的转发时间等作为互动信息,第一终端对目标进行点赞时,则可以将获取的点赞时间和点赞类型等作为互动信息,第一终端对目标内容进行转发后,与第一终端存在关联关系的其他终端对该目标内容的点赞和评论,也可以作为互动信息。
208、电子设备对互动信息的互动操作类型进行监测。
例如,以存在多个第一终端为例,电子设备监测每一个下载了目标内容的第一终端对目标内容的互动操作,比如,监测每一个第一终端是否转发了目标内容、是否评论了目标内容,是否对目标内容进行点赞,并监测转发了该目标内容的第一终端接收到的互动操作,譬如,第一终端A转发了目标内容,此时,与第一终端A存在关联关系的其他终端B对目标内容进行转发、点赞和评论等互动操作时,也一并进行监测,最后,将检测得到的数据作为互动操作类型数据。比如,该互动操作类型数据可以为XX时间第一终端A对目标内容进行点赞和转发各一次,XX时间其他终端B对目标内容进行评论一次。
209、电子设备对互动信息的内容进行情感分析,得到目标内容的情感数据。
例如,电子设备对互动信息的内容进行情感分析,具体分析过程如下:
(1)电子设备在互动信息中筛选出至少一条评论信息。
例如,对互动信息中的内容进行分类,比如,可以分为点赞信息、评论信息、转发信息等,在分类后的互动信息中筛选出至少一条评论信息。
(2)电子设备采用训练后情感分类模型对评论信息进行情感分类,以确定评论信息的情感类型。
例如,采用训练后情感分类模型对评论信息进行情感分类,如图3所示,具体过程如下:
在评论信息中筛选出关键词文本,比如,可以预先设定筛选关键词的规则,譬如,出现频率最高的词,出现在关键位置的词,将这些词作为关键词文本筛选出来。还可以根据预设关键词,在评论信息中筛选出关键词文本,比如,预设关键词可以为喜欢、讨厌或真假等情感词,在评论信息中筛选出这类的情感词,将情感词作为关键词。分别采用情感分类模型的第一分类网络和第二分类网络分别对关键词文本进行情感分类,可以得到关键词文本的第一初始情感类型和第二初始情感类型,比如,第一分类网络可以为文本分类卷积神经网络 (TextCNN),第二分类网络可以为长短期记忆网络(Long Short-Term Memory,LSTM),采用TextCNN对关键词文本进行情感分类,可以得到第一初始情感类型,采用LSTM对关键词文本进行情感分类,可以得到第二初始情感类型。将第一初始情感类型和第二初始情感类型进行融合,以确定评论信息的情感类型。比如,当第一初始情感类型和第二初始情感类型的结果一致时,譬如,都为正向情感,则可以确定评论信息的情感类型为正向情感。当第一初始情感类型和第二初始情感类型不一致时,比较第一初始情感类型和第二初始情感类型中的情感类型的概率值,譬如,第一初始情感类型为概率为80%的负向情感,第二初始情感类型为概率为60%的中立情感,比较情感类型的概率值,将概率值大的情感类型作为评论信息对应的情感类型,在此就可以确定该评论信息的情感类型为负向情感。
其中,训练后情感分类模型可以由多个评论信息样本训练而成,具体可以由其他设备进行训练后,提供给该内容处理装置,或者,也可以由该内容处理装置自行训练,即步骤“采用训练后情感分类模型对评论信息进行情感分类”之前,该内容理方法还可以包括:
采集多个评论信息样本,该评论信息样本包括已标注情感类型的评论信息,采用预设情感分类模型对评论信息样本的情感类型进行预测,得到评论信息样本的预测结果,根据预测结果与标注结果对预设情感分类模型进行收敛,得到训练后情感分类模型。
例如,可以通过数据库、网络和内容采集设备采集多个评论信息作为原始内容样本,对原始评论信息样本进行预处理,比如,提取关键词文本等操作,以得到满足该预设情感分类模型的输入标准的评论信息样本,然后,对这些预处理后的评论信息样本进行情感类型的标注,得到标记后的评论信息样本。采用预设情感分类模型的第一分类网络对评论信息样本进行情感分类,得到第一初始情感类型,采用预设情感分类模型的第二分类网络对评论信息样本进行情感分类,得到第二初始情感类型,将第一初始情感类型和第二初始情感类型进行融合,得到该评论信息样本的预测结果。可以通过插值损失函数,根据预测结果与标注结果对预设情感分类模型进行收敛,得到训练后情感分类模型。比如,具体可以如下:
采用Dice函数(一种损失函数),根据该评论信息样本的标注结果和预测结果对该预设情感分类模型中用于情感分类的参数进行调整,得到训练后识别模型。
可选的,为了提高情感分类的精确性,除了采用Dice函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛,具体可以如下:
采用交叉熵损失函数,根据该评论信息样本的标注结果和预测结果对该预设情感分类模型中用于情感分类的参数进行调整,以及通过插值损失函数,根据该评论信息样本的标注结果和预测结果对该预设情感分类模型中用于情感分类的参数进行调整,得到训练后情感分类模型。
(3)电子设备统计具有负向情感的负向评论信息的数量,将负向评论信息的数量作为目标内容的情感数据。
例如,统计的负向评论信息的数量为40条,且互动信息中总的评论信息为 50条,将负向评论信息的数量作为目标内容的情感数据,比如,统计的负向评论信息的数量为40条,则该目标内容的情感数据就为40。
210、电子设备根据监测得到的互动操作类型数据和情感数据分别与所述预设异常条件中对应的异常数据阈值进行对比,当所述互动操作类型数据和情感数据中至少存在一个数据超过所述异常数据阈值时,电子设备确定所述目标内容存在异常,并对目标内容的质量进行鉴定。
F1、电子设备根据监测得到的互动操作类型数据和情感数据分别与所述预设异常条件中对应的异常数据阈值进行对比。
例如,电子设备将互动操作类型数据和情感数据分别与所述预设异常条件中对应的异常数据阈值进行对比主要分两个部分,一个部分是互动操作类型数据与第一预设阈值进行对比,另一个部分是情感数据与第二预设阈值进行对比,因此需要分开来进行对比。
一是电子设备将互动操作类型数据与第一预设阈值进行对比,比如,在互动操作类型数据中筛选出目标互动操作类型数据,譬如,评论次数、浏览次数、点击次数、转发次数或点赞次数等数据。对目标互动操作类型数据进行统计,比如,可以统计在一段时间内评论的总次数,浏览和点击的总次数,转发的总次数和/或点在的总次数的数据。将统计后目标互动操作数据与预设第一阈值进行对不,比如,预设第一阈值为互动操作数据预设正常条件为为小时的评论信息最多500次,转发次数最多1000次,浏览或者点击次数最多1000次等,然后,将统计后的一小时内评论总数、转发次数、浏览或点击次数进行对比。如果超过预设第一阈值,则可以认定该目标内容存在异常。
二是电子设备将情感数据与第二预设阈值进行对比,比如,情感数据就为负向评论信息的数量,因此,只需要比较负向评论信息的数量与第二预设阈值即可,譬如,统计的负向评论信息的数量为40条,且互动信息中总的评论信息为50条,将负向评论信息的数量与第一预设阈值进行对比,比如,第一预设阈值为异常数量阈值为30条,且负向评论信息数量占比阈值为70%,因此,以统计的负向评论信息的数量为40条为例,可以看出情感数据超过了预设第二阈值,如果统计的负向评论信息的数量为20条,则可以判断情感数据未超过预设第二阈值。
F2、当所述互动操作类型数据和情感数据中至少存在一个数据超过所述异常数据阈值时,电子设备确定所述目标内容存在异常,并对目标内容的质量进行鉴定。
例如,当所述统计后目标互动操作类型数据超过所述第一预设阈值,或所述情感数据超过所述第二预设阈值时,确定所述目标内容存在异常,并对目标内容的质量进行鉴定,具体过程可以如下:
(1)当所述统计后目标互动操作类型数据超过所述第一预设阈值,或所述情感数据超过所述第二预设阈值时,电子设备确定所述目标内容存在异常。
例如,电子设备将统计后目标互动操作类型数据与第一预设阈值对比,情感数据与第二预设阈值对比后,当统计后目标互动操作类型数据超过第一预设阈值,或情感数据超过第二预设阈值时,确定该目标内容存在异常。比如,当一小时内统计后的转发次数超过第一预设阈值的5000次时,就可以认定该目标内容存在异常,或者当一小时内目标内容的负向评论信息数量超过第二预设阈值100次时,也同样可以认定该目标内容存在异常。确定该目标内容是否存在异常,只需要统计后目标互动操作类型数据和情感数据中任意一个数据超过对应的预设阈值,即可以认定该目标内容存在异常,当确定目标内容存在异常时,该目标内容就需要进行审核,审核可以包括审核服务器的异常类型判断和复核。
(2)电子设备将目标内容发送至审核服务器进行审核。
例如,将目标内容发送至审核服务器进行审核,审核服务器可以包括人工和识别模型对目标内容进行再次审核,这次审核过程中,会提取互动信息中的评论信息,将评论信息作为参考,对目标内容进行一次客观的审核,审核内容的质量。
其中,为了减少审核过程的时间,审核服务器在对目标内容进行复核过程中,可以优先对目标内容的异常类型进行判断,是否为常见异常类型,比如,可以优先审核目标内容的标题和正文文本信息,当标题与内容不符合时,可以认定为标题党,当正文文本信息中存在大量错别字时,可以认定为异常类型为错别字较多。当对目标内容进行审核后,发现该目标内容的异常类型是否是常见异常类型,如果是,就可以反馈审核结果了,如果不是,则继续采用人工和识别模型对剩下的内容进行审核,得到审核结果。
(3)电子设备接收审核服务器的审核结果。
例如,当审核服务器采用人工和识别模型对目标内容进行审核完成后,接收审核服务器发送的审核结果,审核结果可以为目标内容存在的问题类型,比如,文字拼凑、标题党、错别字多或内容不客观等审核结果。
(4)当审核结果为审核未通过时,电子设备确定目标内容的质量不合格。
例如,审核结果为存在文字拼凑、标题党、错别字多或内容不客观等问题,导致审核未通过时,确定目标内容的质量为不合格。当审核结果为不存在负面问题,导致审核通过时,确定目标内容的质量为合格。
(5)当审核结果为审核通过时,电子设备确定目标内容的质量合格,并对目标内容进行标注和存储。
例如,当审核结果为审核通过时,电子设备可以认定该目标内容的质量合格。当目标内容的质量合格时,将该目标内容在人工审核中确认的标签和分类进行标注,将标注后的目标内容作为审核服务器中的审核模型的内容样本存在至样本集合中,供审核模型进行训练,可以大大丰富内容样本集合,也可以提高收敛质量标准。
211、电子设备基于鉴定结果,对目标内容进行处理。
例如,基于鉴定结果,对目标内容进行处理,处理的方式可以包括多种,比如,对上架的内容进行下架,对内容进行删除等方式,处理方式可以分为两大类,如图7所示,具体处理过程可以如下:
E1、删除目标内容和目标内容的相似内容。
(1)当鉴定结果不合格时,电子设备在预设内容数据库中筛选出目标内容对应的目标特征信息。
例如,当鉴定结果为目标内容的质量不合格时,在预设内容数据库中国筛选出目标内容对应的目标特征信息,在目标特征信息中提取出目标特征向量。
(2)基于目标特征信息,电子设备在预设内容数据库中筛选出与目标内容相似度超过预设相似度阈值的相似内容。
例如,当目标内容为图文信息时,可以通过与图文信息的BERT图文向量比较距离来确定相似度,当目标内容为视频信息时,可以通过抽帧的视频特征向量来确定相似度,将相似度超过预设阈值的内容作为相似内容。
(3)电子设备在预设内容数据库中将目标内容和相似内容删除。
例如,可以在预设内容数据库中将目标内容和筛选到的相似内容删除,如果目标内容和相似内容被推荐给其他终端时,还可以将目标内容和相似内容从其他终端中召回,如果目标内容和相似内容被内容处理装置进行展示,还需要将展示的目标内容和相似进行下架处理。
E2、删除目标内容的发布用户的剩余内容,并限制发布内容的权限。
例如,删除目标内容的发布用户的剩余内容,并限制发布内容的权限,具体过程可以如下:
(1)当鉴定结果为目标内容的质量不合格时,电子设备在预设内容数据库中筛选出目标内容对应的发布用户的身份标识。
例如,当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容的目标特征信息,在目标特征信息中提取出目标视频的作者等可以表明发布用户身份信息,将该身份信息作为发布用户的身份标识。比如,目标特征信息中包括目标内容的作者或者发布者,则可以将作者或者发布者作为发布用户的身份标识即可。
(2)根据身份标识,电子设备在预设内容数据库中筛选出身份标识对应的至少一个剩余内容。
例如,发布者的身份标识为作者A,则在预设内容数据库中筛选出作者A 发布的全部内容,将全部内容中去除目标内容和相似内容,得到剩余内容。
(3)电子设备对剩余内容的质量进行鉴定。
例如,获取剩余内容的互动信息,对剩余内容的互动信息的互动操作类型进行监测,对剩余内容的互动信息的内容进行情感分析,根据检测得到的互动操作类型数据和情感分析结果,对剩余内容的质量进行鉴定。
其中,鉴定过程在前面实施例已经一一描述,在此就不再赘述。
(4)电子设备统计质量不合格的剩余内容的数量,当质量不合格的剩余内容的数量超过预设数量阈值时,在预设内容数据库中删除剩余内容,并限制发布用户发布内容的权限。
例如,对剩余内容的质量鉴定完整后,当剩余内容存在多个时,统计剩余内容中质量不合格的数量,将质量不合格的剩余内容数量与预设数量阈值进行对比,当质量不合格的剩余内容的数量超过预设数量阈值时,确定发布用户存在持续生产低质量内容的负面问题,此时,将该发布用户剩下的剩余内容在预设内容数据库中进行删除,如果存在剩余内容被推荐给其他终端时,还可以将剩余内容从其他终端中召回,如果剩余内容被内容处理装置进行展示,还需要将展示的目标内容和相似进行下架处理。处理之后,还可以直接限制发布用户在内容处理装置发布内容的权限,禁止该发布用户发布内容。
可选的,在一实施例中,该内容处理方法还包括将所述目标内容存储至区块链。
其中,参考图5,集成有该内容处理装置的电子设备是数据共享系统中的一个节点,数据共享系统中的每个节点在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。
对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,如下表中仅以IP地址为例进行说明。
节点名称 节点标识
节点1 117.114.151.174
节点2 117.116.189.145
节点N 119.123.789.258
数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成,参见图8,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。
在生成区块链中的各个区块时,参见图9,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits +x))<TARGET
其中,SHA256为计算特征值所用的特征值算法;version(版本号)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits 为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x 为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据数据共享系统中其他节点的节点标识,将新生成的区块分别发送给其所在的数据共享系统中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
由以上可知,本实施例电子设备在接收至少一个第一终端发送的目标内容下载请求后,该目标内容下载请求携带目标内容标识,将目标内容标识对应的目标内容发送至第一终端,获取目标内容在第一终端的互动信息,根据互动信息,对所述目标内容的质量进行鉴定,基于鉴定结果,对目标内容进行处理,由于该方案中采用互动信息中用户对内容的反馈信息,可以及时发现质量标准不清晰或难以界定的专业化和个性化内容,并进行复核,可以增加内容审核的准确性。
为了更好地实施以上方法,本发明实施例还提供一种内容处理装置,该内容处理装置可以集成在电子设备,该电子设备可以服务器等设备。
例如,如图10所示,该内容处理装置可以包括接收单元301、发送单元302、获取单元303、鉴定单元304和处理单元305,如下:
(1)接收单元301;
接收单元301,用于接收第一终端发送的目标内容下载请求,该目标内容下载请求携带目标内容标识。
例如,接收单元301,具体可以用于接收第二终端发送的原始内容,该原始内容包括目标内容,提取原始内容的特征信息,根据特征信息,对原始内容进行审核,当原始内容审核通过时,将原始内容和原始内容对应的特征信息存储至预设内容数据库,收第一终端发送的目标内容下载请求,该目标内容下载请求携带目标内容标识。
(2)发送单元302;
发送单元302,用于将目标内容标识对应的目标内容发送至第一终端。
例如,发送单元302,具体可以用于将目标内容标识对应的目标内容发送至所述第一终端。
(3)获取单元303;
获取单元303,用于目标内容在第一终端的互动信息。
例如,获取单元303,具体可以用于可以通过获取第一终端对目标内容的处理行为数据,得到目标内容在第一终端的互动信息。
(4)鉴定单元304;
鉴定单元304,用于根据互动信息,对目标内容的质量进行鉴定。
鉴定单元304可以包括监测子单元3041、分析子单元3042、对比子单元3403 和第一鉴定子单元3044,如图11所示,具体可以如下:
监测子单元3041,用于对互动信息的互动操作类型进行监测;
分析子单元3042,用于对互动信息的内容进行情感分析,得到目标内容的情感数据;
对比子单元3043,用于根据监测得到的互动操作类型数据和情感数据分析结果分别与预设异常条件中对应的异常数据阈值进行对比;
第一鉴定子单元3044,用于当所述互动操作类型数据和情感数据中至少存在一个数据超过所述异常数据阈值时,确定所述目标内容存在异常,并对目标内容的质量进行鉴定。
例如,监测子单元3041对互动信息的互动操作类型进行监测,分析子单元 3042对互动信息的内容进行情感分析,得到目标内容的情感数据,对比子单元3043根据监测得到的互动操作类型数据和情感数据分析结果分别与预设异常条件中对应的异常数据阈值进行对比,第一鉴定子单元3044当所述互动操作类型数据和情感数据中至少存在一个数据超过所述异常数据阈值时,确定所述目标内容存在异常,并对目标内容的质量进行鉴定。
(5)处理单元305;
处理单元305,用于基于鉴定结果,对目标内容进行处理。
其中,处理单元305可以包括第一筛选子单元3051、第二筛选子单元3052 和第一删除子单元3053,如图12所示,具体如下:
第一筛选子单元3051,用于当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容对应的目标特征信息;
第二筛选子单元3052,用于基于目标特征信息,在预设内容数据库中筛选出与目标内容相似度超过预设阈值的相似内容;
第一删除子单元3053,用于在预设内容数据库中将目标内容和相似内容删除。
例如,第一筛选子单元3051当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容对应的目标特征信息,第二筛选子单元3052 基于目标特征信息,在预设内容数据库中筛选出与目标内容相似度超过预设阈值的相似内容,第一删除子单元3053在预设内容数据库中将目标内容和相似内容删除。
其中,处理单元305还可以包括第三筛选子单元3054、第四筛选子单元3055 和第二鉴定子单元3056、统计子单元3057和第二删除子单元3058,如图13所示,具体如下:
第三筛选子单元3054,用于当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容对应的发布用户的身份标识;
第四筛选子单元3055,用于根据身份标识,在预设内容数据库中筛选出身份标识对应的至少一个剩余内容,该剩余内容为在身份标识对应的发布用户发布的全部内容中去除目标内容和相似内容后剩余的内容;
第二鉴定子单元3056,用于对剩余内容的质量进行鉴定;
统计子单元3057,用于统计质量不合格的剩余内容的数量;
第二删除子单元3058,用于当质量不合格的剩余内容的数量超过第二预设异常阈值时,在预设内容数据库中删除所述剩余内容,并限制发布用户发布内容的权限。
例如,第三筛选子单元3054当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容对应的发布用户的身份标识,第四筛选子单元 3055根据身份标识,在预设内容数据库中筛选出身份标识对应的至少一个剩余内容,该剩余内容为在身份标识对应的发布用户发布的全部内容中去除目标内容和相似内容后剩余的内容,第二鉴定子单元3056对剩余内容的质量进行鉴定,统计子单元3057统计质量不合格的剩余内容的数量,第二删除子单元3058当质量不合格的剩余内容的数量超过第二预设异常阈值时,在预设内容数据库中删除所述剩余内容,并限制发布用户发布内容的权限。
该内容处理装置还可以包括第一采集单元306和第一训练单元307,如图14 所示,具体如下:
第一采集单元306,用于采集多个内容样本,该内容样本包括已标注类型和标签的内容;
第一训练单元307,用于采用预设识别模型对内容样本的类型和标签进行预测,得到内容样本的预测结果,根据预测结果与标注结果对预设识别模型进行收敛,得到训练后识别模型。
例如,第一采集单元306采集多个内容样本,该内容样本包括已标注类型和标签的内容,第一训练单元307采用预设识别模型对内容样本的类型和标签进行预测,得到内容样本的预测结果,根据预测结果与标注结果对预设识别模型进行收敛,得到训练后识别模型。
该内容处理装置还可以包括第二采集单元308和第二训练单元309,如图15 所示,具体如下:
第二采集单元308,用于采集多个评论信息样本,该评论信息样本包括已标注情感类型的评论信息;
第二训练单元309,用于采用预设情感分类模型对评论信息样本的情感类型进行预测,得到评论信息样本的预测结果,根据预测结果与标注结果对预设情感分类模型进行收敛,得到训练后情感分类模型。
例如,第二采集单元308采集多个评论信息样本,该评论信息样本包括已标注情感类型的评论信息,第二训练单元309采用预设情感分类模型对评论信息样本的情感类型进行预测,得到评论信息样本的预测结果,根据预测结果与标注结果对预设情感分类模型进行收敛,得到训练后情感分类模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在接收单元301接收至少一个第一终端发送的目标内容下载请求后,该目标内容下载请求携带目标内容标识,发送单元302将目标内容标识对应的目标内容发送至第一终端,获取单元303获取目标内容在第一终端的互动信息,鉴定单元304当互动信息中的数据满足预设异常条件时,确定目标内容存在异常,并对目标内容的质量进行鉴定,处理单元305基于鉴定结果,对目标内容进行处理,由于该方案中采用互动信息中用户对内容的反馈信息,可以及时发现质量标准不清晰或难以界定的专业化和个性化内容,并进行复核,可以增加内容审核的准确性。
本发明实施例还提供一种电子设备,如图16所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图16中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器 402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
接收至少一个第一终端发送的目标内容下载请求,该目标内容下载请求携带目标内容标识,将目标内容标识对应的目标内容发送至第一终端,获取目标内容在第一终端的互动信息,当互动信息中的数据满足预设异常条件时,确定目标内容存在异常,并对目标内容的质量进行鉴定,基于鉴定结果,对目标内容进行处理。
例如,接收第二终端发送的原始内容,该原始内容包括目标内容,提取原始内容的特征信息,根据特征信息,对原始内容进行审核,当原始内容审核通过时,将原始内容和原始内容对应的特征信息存储至预设内容数据库,收第一终端发送的目标内容下载请求,该目标内容下载请求携带目标内容标识。将目标内容标识对应的目标内容发送至所述第一终端。获取第一终端对目标内容的处理行为数据,得到目标内容在第一终端的互动信息。对互动信息的互动操作类型进行监测,对互动信息的内容进行情感分析,得到目标内容的情感数据,根据监测得到的互动操作类型数据和情感数据分别与预设异常条件中对应的异常数据阈值进行对比,当互动操作类型数据和情感数据中至少存在一个数据超过异常数据阈值时,确定目标内容存在异常,并对目标内容的质量进行鉴定。当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容对应的目标特征信息,基于目标特征信息,在预设内容数据库中筛选出与目标内容相似度超过预设相似度阈值的相似内容,在预设内容数据库中将目标内容和相似内容删除。可选的,还可以当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容对应的发布用户的身份标识,根据身份标识,在预设内容数据库中筛选出身份标识对应的至少一个剩余内容,该剩余内容为在身份标识对应的发布用户发布的全部内容中去除目标内容和相似内容后剩余的内容,对剩余内容的质量进行鉴定,统计质量不合格的剩余内容的数量,当质量不合格的剩余内容的数量超过预设数量阈值时,在预设内容数据库中删除所述剩余内容,并限制发布用户发布内容的权限。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本发明实施例在接收至少一个第一终端发送的目标内容下载请求后,该目标内容下载请求携带目标内容标识,将目标内容标识对应的目标内容发送至第一终端,获取目标内容在第一终端的互动信息,当互动信息中的数据满足预设异常条件时,确定目标内容存在异常,并对目标内容的质量进行鉴定,基于鉴定结果,对目标内容进行处理,由于该方案中采用互动信息中用户对内容的反馈信息,可以及时发现质量标准不清晰或难以界定的专业化和个性化内容,并进行复核,可以增加内容审核的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种内容处理方法中的步骤。例如,该指令可以执行如下步骤:
接收至少一个第一终端发送的目标内容下载请求,该目标内容下载请求携带目标内容标识,将目标内容标识对应的目标内容发送至第一终端,获取目标内容在第一终端的互动信息,当互动信息中的数据满足预设异常条件时,确定目标内容存在异常,并对目标内容的质量进行鉴定,基于鉴定结果,对目标内容进行处理。
例如,接收第二终端发送的原始内容,该原始内容包括目标内容,提取原始内容的特征信息,根据特征信息,对原始内容进行审核,当原始内容审核通过时,将原始内容和原始内容对应的特征信息存储至预设内容数据库,收第一终端发送的目标内容下载请求,该目标内容下载请求携带目标内容标识。将目标内容标识对应的目标内容发送至所述第一终端。获取第一终端对目标内容的处理行为数据,得到目标内容在第一终端的互动信息。对互动信息的互动操作类型进行监测,对互动信息的内容进行情感分析,得到目标内容的情感数据,根据监测得到的互动操作类型数据和情感数据分别与预设异常条件中对应的异常数据阈值进行对比,当互动操作类型数据和情感数据中至少存在一个数据超过异常数据阈值时,确定目标内容存在异常,并对目标内容的质量进行鉴定。当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容对应的目标特征信息,基于目标特征信息,在预设内容数据库中筛选出与目标内容相似度超过预设相似度阈值的相似内容,在预设内容数据库中将目标内容和相似内容删除。可选的,还可以当鉴定结果为目标内容的质量不合格时,在预设内容数据库中筛选出目标内容对应的发布用户的身份标识,根据身份标识,在预设内容数据库中筛选出身份标识对应的至少一个剩余内容,该剩余内容为在身份标识对应的发布用户发布的全部内容中去除目标内容和相似内容后剩余的内容,对剩余内容的质量进行鉴定,统计质量不合格的剩余内容的数量,当质量不合格的剩余内容的数量超过预设数量阈值时,在预设内容数据库中删除所述剩余内容,并限制发布用户发布内容的权限。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种内容处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种内容处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种内容处理方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种内容处理方法,其特征在于,包括:
接收至少一个第一终端发送的目标内容下载请求,所述目标内容下载请求携带目标内容标识;
将所述目标内容标识对应的目标内容发送至所述第一终端;
获取所述目标内容在所述第一终端的互动信息,所述互动信息为所述第一终端、以及与所述第一终端存在关联关系的用户对所述目标内容进行互动操作产生的信息;
当所述互动信息中的数据满足预设异常条件时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定;
基于鉴定结果,对所述目标内容、所述目标内容的相似内容和发布所述目标内容的发布用户进行处理。
2.根据权利要求1所述的内容处理方法,其特征在于,所述当所述互动信息中的数据满足预设异常条件时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定,包括:
对所述互动信息的互动操作类型进行监测;
对所述互动信息的内容进行情感分析,得到所述目标内容的情感数据;
根据监测得到的互动操作类型数据和情感数据分别与所述预设异常条件中对应的异常数据阈值进行对比;
当所述互动操作类型数据和情感数据中至少存在一个数据超过所述异常数据阈值时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定。
3.根据权利要求2所述的内容处理方法,其特征在于,所述对所述互动信息的内容进行情感分析,得到所述目标内容的情感数据,包括:
在所述互动信息中筛选出至少一条评论信息;
采用训练后情感分类模型对所述评论信息进行情感分类,以确定所述评论信息的情感类型,所述情感类型包括正向情感、负向情感和中立情感;
统计具有负向情感的负向评论信息的数量,将所述负向评论信息的数量作为所述目标内容的情感数据。
4.根据权利要求2所述的内容处理方法,其特征在于,所述异常数据阈值包括第一预设阈值和第二预设阈值,所述第一预设阈值为所述互动操作类型数据对应的预设阈值,所述第二预设阈值为所述情感数据对应的预设阈值,所述根据监测得到的互动操作类型数据和情感数据分别与所述预设异常条件中对应的异常数据阈值进行对比,包括:
在所述互动操作类型数据中筛选出目标互动操作类型数据;
对所述目标互动操作类型数据进行统计;
将统计后目标互动操作类型数据与所述第一预设阈值进行对比;
将所述情感数据中的与所述第二预设阈值进行对比;
所述当所述互动操作类型数据和情感数据中至少存在一个数据超过所述异常数据阈值时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定,包括:当所述统计后目标互动操作类型数据超过所述第一预设阈值,或所述情感数据超过所述第二预设阈值时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定。
5.根据权利要求3所述的内容处理方法,其特征在于,所述训练后情感分类模型包括第一分类网络和第二分类网络,所述采用训练后情感分类模型对所述评论信息进行情感分类,以确定所述评论信息的情感类型,包括:
在所述评论信息中筛选出关键词文本;
采用所述第一分类网络对所述关键词文本进行情感分类,得到第一初始情感类型;
采用所述第二分类网络对所述关键词文本进行情感分类,得到第二初始情感类型;
将所述第一初始情感类型与所述第二初始情感类型进行融合,以确定所述评论信息的情感类型。
6.根据权利要求4所述的内容处理方法,其特征在于,所述当所述统计后目标互动操作类型数据超过所述第一预设阈值,或所述情感数据超过所述第二预设阈值时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定,包括:
当所述统计后目标互动操作类型数据超过所述第一预设阈值,或所述情感数据超过所述第二预设阈值时,确定所述目标内容存在异常;
将所述目标内容发送至审核服务器进行审核;
接收所述审核服务器的审核结果;
当所述审核结果为审核未通过时,确定所述目标内容的质量不合格;
当所述审核结果为审核通过时,确定所述目标内容的质量合格,并对所述目标内容进行标注和存储。
7.根据权利要求 6所述的内容处理方法,其特征在于,所述基于鉴定结果,对所述目标内容、所述目标内容的相似内容和发布所述目标内容的发布用户进行处理,包括:
当鉴定结果为所述目标内容的质量不合格时,在预设内容数据库中筛选出所述目标内容对应的目标特征信息;
基于所述目标特征信息,在所述预设内容数据库中筛选出与所述目标内容相似度超过预设相似度阈值的相似内容;
在所述预设内容数据库中将所述目标内容和相似内容删除,并对发布所述目标内容的发布用户进行处理。
8.根据权利要求7所述的内容处理方法,其特征在于,所述对发布所述目标内容的发布用户进行处理,包括:
在所述预设内容数据库中筛选出所述目标内容对应的发布用户的身份标识;
根据所述身份标识,在所述预设内容数据库中筛选出所述身份标识对应的至少一个剩余内容,所述剩余内容为在所述身份标识对应的发布用户发布的全部内容中去除所述目标内容和相似内容后剩余的内容;
对所述剩余内容的质量进行鉴定;
统计质量不合格的剩余内容的数量;
当质量不合格的剩余内容的数量超过预设数量阈值时,在所述预设内容数据库中删除所述剩余内容,并限制所述发布用户发布内容的权限。
9.根据权利要求7或8任一项所述的内容处理方法,其特征在于,所述接收第一终端发送的目标内容下载请求之前,还包括:
接收第二终端发送的原始内容,所述原始内容包括所述目标内容;
提取所述原始内容的特征信息;
根据所述特征信息,对所述原始内容进行审核;
当所述原始内容审核通过时,将所述原始内容和原始内容对应的特征信息存储至所述预设内容数据库。
10.一种内容处理装置,其特征在于,包括:
接收单元,用于接收第一终端发送的目标内容下载请求,所述目标内容下载请求携带目标内容标识;
发送单元,用于将所述目标内容标识对应的目标内容发送至所述第一终端;
获取单元,用于获取所述目标内容在所述第一终端的互动信息,所述互动信息为所述第一终端、以及与所述第一终端存在关联关系的用户对所述目标内容进行互动操作产生的信息;
鉴定单元,用于当所述互动信息中的数据满足预设异常条件时,确定所述目标内容存在异常,并对所述目标内容的质量进行鉴定;
处理单元,用于基于鉴定结果,对所述目标内容、所述目标内容的相似内容和发布所述目标内容的发布用户进行处理。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的内容处理方法中的步骤。
CN201911328600.XA 2019-12-20 2019-12-20 一种内容处理方法、装置和计算机可读存储介质 Active CN111090813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911328600.XA CN111090813B (zh) 2019-12-20 2019-12-20 一种内容处理方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911328600.XA CN111090813B (zh) 2019-12-20 2019-12-20 一种内容处理方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111090813A CN111090813A (zh) 2020-05-01
CN111090813B true CN111090813B (zh) 2021-09-28

Family

ID=70395957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911328600.XA Active CN111090813B (zh) 2019-12-20 2019-12-20 一种内容处理方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111090813B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885399B (zh) * 2020-06-29 2023-06-13 腾讯科技(武汉)有限公司 内容分发方法、装置、电子设备以及存储介质
CN111882416A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种风险预测模型的训练方法和相关装置
CN112199640B (zh) * 2020-09-30 2024-03-12 广州市百果园网络科技有限公司 异常用户审核方法、装置、电子设备和存储介质
CN114374857A (zh) * 2020-10-15 2022-04-19 腾讯科技(深圳)有限公司 一种内容分发方法、装置、服务器及存储介质
CN112579771B (zh) * 2020-12-08 2024-05-07 腾讯科技(深圳)有限公司 一种内容的标题检测方法及装置
CN113159722B (zh) * 2021-04-27 2023-08-08 广东电网有限责任公司广州供电局 业务审核系统、方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315978A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种检测开放式互动平台中子集的异常状态的方法与设备
CN103188530A (zh) * 2011-12-30 2013-07-03 大连天维科技有限公司 分级内容审核系统
CN106776245A (zh) * 2016-11-18 2017-05-31 维沃移动通信有限公司 一种异常应用处理方法、装置及移动终端
CN108304452A (zh) * 2017-12-14 2018-07-20 腾讯科技(深圳)有限公司 文章处理方法及装置、存储介质
CN110083827A (zh) * 2019-03-28 2019-08-02 无锡天脉聚源传媒科技有限公司 基于机器学习的虚假信息鉴别方法、系统及存储介质
CN110084373A (zh) * 2019-04-22 2019-08-02 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机可读存储介质和计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083674A1 (en) * 2005-10-07 2007-04-12 Sony Ericsson Mobile Communications Ab Method and apparatus for republishing electronic content from a wireless communication device
CN107291780B (zh) * 2016-04-12 2021-05-28 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置
US20180060512A1 (en) * 2016-08-29 2018-03-01 Jeffrey Sorenson System and method for medical imaging informatics peer review system
CN109271512B (zh) * 2018-08-29 2023-11-24 中国平安保险(集团)股份有限公司 舆情评论信息的情感分析方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315978A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种检测开放式互动平台中子集的异常状态的方法与设备
CN103188530A (zh) * 2011-12-30 2013-07-03 大连天维科技有限公司 分级内容审核系统
CN106776245A (zh) * 2016-11-18 2017-05-31 维沃移动通信有限公司 一种异常应用处理方法、装置及移动终端
CN108304452A (zh) * 2017-12-14 2018-07-20 腾讯科技(深圳)有限公司 文章处理方法及装置、存储介质
CN110083827A (zh) * 2019-03-28 2019-08-02 无锡天脉聚源传媒科技有限公司 基于机器学习的虚假信息鉴别方法、系统及存储介质
CN110084373A (zh) * 2019-04-22 2019-08-02 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机可读存储介质和计算机设备

Also Published As

Publication number Publication date
CN111090813A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN111090813B (zh) 一种内容处理方法、装置和计算机可读存储介质
CN111382623B (zh) 一种直播审核的方法、装置、服务器和存储介质
JP5795580B2 (ja) タイムベースメディアにおけるソーシャルインタレストの推定および表示
CN110909205B (zh) 一种视频封面确定方法、装置、电子设备及可读存储介质
US11966404B2 (en) Media names matching and normalization
CN110008378B (zh) 基于人工智能的语料收集方法、装置、设备及存储介质
CN108874832B (zh) 目标评论确定方法及装置
CN111522724B (zh) 异常账号的确定方法、装置、服务器及存储介质
CN111125429A (zh) 一种视频推送方法、装置和计算机可读存储介质
CN112202849A (zh) 内容分发方法、装置、电子设备和计算机可读存储介质
CN112732949B (zh) 一种业务数据的标注方法、装置、计算机设备和存储介质
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN113094543B (zh) 一种音乐鉴权方法、装置、设备及介质
CN112287111B (zh) 一种文本处理方法和相关装置
CN114065090A (zh) 分类数据库的更新方法、系统、存储介质及计算机设备
JP7268739B2 (ja) 学習データ生成装置、学習装置、識別装置、生成方法及びプログラム
CN111444362A (zh) 恶意图片拦截方法、装置、设备和存储介质
US9521164B1 (en) Computerized system and method for detecting fraudulent or malicious enterprises
US9148708B2 (en) Automated statutory warning system to display disclaimers
CN111611973B (zh) 目标用户识别的方法、装置及存储介质
CN110337008B (zh) 视频互动调整方法、装置、设备及存储介质
JP7108566B2 (ja) デジタルエビデンス管理方法およびデジタルエビデンス管理システム
CN110019942B (zh) 一种视频鉴别方法及系统
CN114189585A (zh) 骚扰电话异常检测方法、装置及计算设备
CN114611637B (zh) 一种数据处理方法、装置、设备以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant