CN111125193B

CN111125193B - 多媒体非正常评论的识别方法、装置、设备及存储介质

Info

Publication number: CN111125193B
Application number: CN201911344727.0A
Authority: CN
Inventors: 许冷杉; 冯允
Original assignee: Beijing Second Hand Artificial Intelligence Technology Co ltd
Current assignee: Beijing Second Hand Artificial Intelligence Technology Co ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2023-08-29
Anticipated expiration: 2039-12-23
Also published as: CN111125193A

Abstract

本发明提供一种多媒体非正常评论的识别方法、装置、电子设备及存储介质，涉及互联网信息处理技术领域。其中，该方法通过获取多媒体资源发布后任一评估时间段中评论量涨幅，若评论量涨幅大于第一预设值，则计算获取评估时间段的评论密度，若评论密度大于第二预设值，则确定评估时间段内的评论为非正常评论。本发明能够有效的解决了在分析社交数据时多媒体非正常评论过多对分析结果产生干扰的问题。

Description

多媒体非正常评论的识别方法、装置、设备及存储介质

技术领域

本发明涉及互联网信息处理技术领域，具体而言，涉及多媒体非正常评论的识别方法、装置、设备及存储介质。

背景技术

近年来，随着多媒体如火如荼的发展，多媒体逐渐成为全民记录生活的重要平台，例如可以发布视频、短视频、动图、图片、语音等。与此同时，多媒体也成了全新的低成本宣传平台，于是出现了众多的非正常评论，他们通过评论特定主题的视频，达到虚假宣传、产生干扰等目的。

但目前，针对相关技术中难以对在海量的多媒体用户中检测并且识别到这些非正常评论的技术问题，目前尚未提出有效的解决在分析社交数据时多媒体非正常评论过多对分析结果产生干扰的技术问题。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种多媒体非正常评论的识别方法、装置、电子设备及存储介质，以便解决在分析社交数据时多媒体非正常评论过多对分析结果产生干扰的技术问题。

为实现上述目的，本发明实施例采用的技术方案根据下：

第一方面，本发明实施例提供了一种多媒体非正常评论的识别方法，包括：

获取多媒体资源发布后任一评估时间段中评论量涨幅；

若评论量涨幅大于第一预设值，则计算获取评估时间段的评论密度；

若评论密度大于第二预设值，则确定评估时间段内的评论为非正常评论。

进一步地，获取多媒体资源发布后任一评估时间段中评论量涨幅，包括：

获取多媒体资源发布后，预设正常时间段以外任一评估时间段中评论量涨幅。

进一步地，确定评估时间段内的评论为非正常评论之后，还包括：

若评估时间段内，存在评论次数大于第三预设值的目标发布用户标识，将目标发布用户标识确定为非正常用户。

进一步地，将目标发布用户标识确定为非正常用户之后，还包括：

获取非正常用户在预设历史时间段评论过的历史多媒体资源；

确定历史多媒体资源为非正常资源。

采用预设算法，识别获取非正常评论之间的重复率；

根据重复率确定各非正常评论的等级。

第二方面，本发明实施例还提供了一种多媒体非正常评论的识别装置，包括：获取模块、处理模块、识别模块；

获取模块，用于获取多媒体资源发布后任一评估时间段中评论量涨幅；

处理模块，用于若评论量涨幅大于第一预设值，则计算获取评估时间段的评论密度；

识别模块，用于若评论密度大于第二预设值，则确定评估时间段内的评论为非正常评论。

进一步地，获取模块，具体用于获取多媒体资源发布后，预设正常时间段以外任一评估时间段中评论量涨幅。

进一步地，识别模块还用于若评估时间段内，存在评论次数大于第三预设值的目标发布用户标识，将目标发布用户标识确定为非正常用户。

进一步地，识别模块，还用于获取非正常用户在预设历史时间段评论过的历史多媒体资源，确定历史多媒体资源为非正常资源。

进一步地，识别模块还用于采用预设算法，识别获取非正常评论之间的重复率，根据重复率确定各非正常评论的等级。

第三方面，本发明实施例提供了一种电子设备，包括：处理器、存储介质和总线，存储介质存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行上述第一方面的多媒体非正常评论的识别方法的步骤。

第四方面，本发明实施例提供了一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行如执行上述第一方面的多媒体非正常评论的识别方法的步骤。

本发明的有益效果是：本发明实施例提供的一种多媒体非正常评论的识别方法、装置、电子设备及存储介质中，通过获取多媒体资源发布后任一评估时间段中评论量涨幅，若评论量涨幅大于第一预设值，则计算获取评估时间段的评论密度，若评论密度大于第二预设值，则确定评估时间段内的评论为非正常评论，从而达到了在分析社交数据时多媒体非正常评论过多对分析结果产生干扰的目的。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的一种多媒体非正常评论的识别方法的流程示意图；

图2为本发明实施例的一种多媒体非正常评论的识别方法的流程示意图；

图3为本发明实施例的一种多媒体非正常评论的识别方法流程示意图；

图4为本发明实施例的一种多媒体非正常评论的识别方法装置的结构示意图；

图5为本发明实施例的一种电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1为本发明实施例提供的一种多媒体非正常评论的识别方法的流程示意图一，该方法的执行主体可以是计算机、服务器、处理器、移动终端等可以进行数据处理的设备，根据图1所示，该方法包括：

步骤S10，获取多媒体资源发布后任一评估时间段中评论量涨幅。

其中，评论量涨幅可以表示一段时间内评论数的上涨幅度，可以用增加的数量、比例等来表示。

具体实现过程中，可以根据在多媒体平台上用户的粉丝量、历史近期发布多媒体资源获得的点赞量、评论量、互动量综合计算找出需要监控的目标账号，持续监测该目标账号发布的多媒体资源，根据该目标账号的发布多媒体资源时间和评论时间，随机抽取任一评估时间段，统计评估时间段内的评论量b；并获取评估时间段之前一段参考时间段的评论量a，那么评论量涨幅c计算公式可以是c＝b/a*100％，具体可以根据实际情况来设定评论量涨幅计算公式，并不以此为限。其中，a、b、c均大于0。

步骤S20，若评论量涨幅大于第一预设值，则计算获取评估时间段的评论密度。

在计算得到任一评估时间段t内的评论量涨幅c后，判断该评论量涨幅c是否大于第一预设值x，若评论量涨幅大于第一预设值x，则计算获取评估时间段的评论密度p。

可选地，评论密度p的计算公式可以是p＝b/t，具体可以根据实际情况来设定评论密度计算公式，并不以此为限。其中，t、p、x均大于0。

步骤S30，若评论密度大于第二预设值，则确定评估时间段内的评论为非正常评论。

计算获取评估时间段的评论密度p后，判断评论密度p是否大于第二预设值y，若评论密度大于第二预设值y，则判定评估时间段内的评论为非正常评论。

进一步地，可以将获取的非正常评论作为非正常数据做进一步分析，也可以将该非正常评论剔除掉，避免引起数据统计过程中的干扰等。

综上所述，本发明实施例的多媒体非正常评论的识别方法中，通过获取多媒体资源发布后任一评估时间段中评论量的涨幅,若评论量涨幅大于第一预设值，则计算获取评估时间段的评论密度,若评论密度大于第二预设值，则确定评估时间段内的评论为非正常评论，实现了可以从大量评论中识别出非正常评论，进一步还可以避免在分析社交数据时多媒体非正常评论过多时产生干扰的问题。

进一步地，获取多媒体资源发布后任一评估时间段中评论量涨幅，包括：获取多媒体资源发布后，预设正常时间段以外任一评估时间段中评论量涨幅。

具体的，可以预先配置多媒体资源发布后的一段时间为预设正常时间段，即认为在预设正常时间段内发布的评论都是正常评论，例如预设正常时间段为一小时，用户在早上8点发布了一条多媒体资源，那么早上8点到9点之间的一小时为预设正常时间段。

那么在除预设正常时间段以外的时间段内，进一步分析是否存在非正常评论。也即上述评估时间段为预设正常时间段以外随机抽取的任一时间段。需要说明的是，评估时间段的时长在此不作限制，可以是半小时、三小时、十二小时等。

可选地，可以将预设正常时间段作为上述参考时间段，相应地，统计评估时间段内的评论量b1；并获取预设正常时间段的评论量a1，那么评论量涨幅c1计算公式可以是c1＝b1/a1*100％，具体可以根据实际情况来设定评论量涨幅计算公式，并不以此为限。

在确定了非正常评论之后，在本实施例中，还可以进一步根据非正常评论来确定其中参与评论的非正常用户。

可选地，在上述确定评估时间段内的评论为非正常评论之后，若评估时间段内，存在评论次数大于第三预设值的目标发布用户标识，将目标发布用户标识确定为非正常用户。

举例说明，假设该第三预设值取值2，若多媒体资源发布后，存在目标发布用户对该多媒体资源评论了3次，则此目标发布用户评论该多媒体资源次数3大于第三预设值2(3>2)，则将该目标发布用户标识确定为非正常用户。

进一步地，在确定非正常用户之后，还可以以非正常用户为线索，进一步找到其他的非正常资源，例如这些非正常用户评论过的其他资源。

图2为本发明实施例的一种多媒体非正常评论的识别方法的流程示意图，在上述确定评估时间段内的评论为非正常评论之后，还包括：

步骤S31，若评估时间段内，存在评论次数大于第三预设值的目标发布用户标识，将目标发布用户标识确定为非正常用户。

步骤S32，获取非正常用户在预设历史时间段评论过的历史多媒体资源。

在将目标发布用户标识确定为非正常用户之后，然后，获取非正常用户在预设历史时间段评论过的历史多媒体资源，例如，预设历史时间段在当前时间之前一年，具体可以根据实际情况来设定，并不以此为限。可以通过网络大数据获取之前一年内非正常用户评论过的多媒体资源，还可以进一步统计非正常用户评论过各多媒体资源的次数等相关信息。

步骤S33，确定历史多媒体资源为非正常资源。

具体实现时，可以将预设历史时间段内非正常用户评论过的多媒体资源都作为非正常资源。

或者，也可以是将预设历史时间段内非正常用户评论次数大于一定阈值的多媒体资源作为非正常资源。例如该非正常用户对历史某一多媒体资源评论的次数大于第三预设值，假设该第三预设值取值2，若存在该非正常用户对历史某一多媒体资源评论的次数是3次，则确定该历史多媒体资源为非正常资源。

综上所述，本发明实施例提供的多媒体非正常评论的识别方法中，通过获取非正常用户在预设历史时间段评论过的历史多媒体资源，确定历史多媒体资源为非正常资源，进而可以将非正常资源剔除掉或者提醒其他用户该非正常资源(例如在多媒体资源显示界面上添加非正常标记等)，从而达到了在分析社交数据时多媒体非正常资源过多对分析结果产生干扰的目的。

为了更好地评估非正常评论，也避免误删除一些正常评论，可以进一步地对非正常评论进行分级。在本实施例中，图3为本发明实施例提供的一种多媒体非正常评论的识别方法的流程示意图，如图3所示，在确定评估时间段内的评论为非正常评论之后，还包括：

步骤S301，采用预设算法，识别获取非正常评论之间的重复率。

一般大量的非正常评论中会存在刷屏的情况，例如网络水军大量复制粘贴相同的评论内容在某些多媒体资源下刷评论量，那么可以通过计算重复率来确定非正常评论的等级。

可选地，在确定评估时间段内的评论为非正常评论之后，可以对大量的非正常评论的评论内容进行语义解析或者字符识别等技术，识别获取非正常评论之间的重复率，具体可以根据实际情况来设定，并不以此为限。

步骤S302，根据重复率确定各非正常评论的等级。

识别获取非正常评论之间的重复率之后，假设非正常评论量之间的重复率大于第四预设值，例如第四预设值取值50％、80％等，具体可以根据实际情况来设定，并不以此为限，当多媒体发布资源的非正常评论量之间的重复率大于50％，将非正常评论的等级定义为二级非正常评论，当非正常评论量之间的重复率大于80％，将非正常评论的等级定义为一级非正常评论。

还可以统计重复率大于第四预设值的非正常评论数量，如果评论数量过多，可以作为重点监控的非正常评论。例如某条相同的评论内容，在某多媒体资源下面出现次数过多，那么可以确定该评论内容、以及对应的多媒体资源均为非正常，且等级较高，可重点标记并监控分析等。

综上所述，本发明实施例提供的多媒体非正常评论的识别方法中，通过采用预设算法，识别获取非正常评论之间的重复率，根据重复率确定各非正常评论的等级，进一步地，可以根据分析需求，将不同等级的该非正常评论进行分类、标注等，或者也可以将级别较高的非正常评论直接删除，达到了在分析社交数据时多媒体非正常评论过多对分析结果产生干扰的目的。

在本实施例中，图4为本发明实施例的一种多媒体非正常评论的识别装置的结构示意图，该多媒体非正常评论的识别模块100包括获取模块1、处理模块2及识别模块3。其中，获取模块1、处理模块2及识别模块3依次通信连接，以实现数据的传输或交互。例如，这些模块之间通过一条或多条通讯总线或信号线实现电性连接。

获取模块1，用于获取多媒体资源发布后任一评估时间段中评论量涨幅。

处理模块2，用于若评论量涨幅大于第一预设值，则计算获取评估时间段的评论密度。

识别模块3，用于若评论密度大于第二预设值，则确定评估时间段内的评论为非正常评论。

进一步地，获取模块1，具体用于获取多媒体资源发布后，预设正常时间段以外任一评估时间段中评论量涨幅。

进一步地，识别模块3还用于若评估时间段内，存在评论次数大于第三预设值的目标发布用户标识，将目标发布用户标识确定为非正常用户。

进一步地，识别模块3还用于采用预设算法，识别获取非正常评论之间的重复率，根据重复率确定各非正常评论的等级。前面已叙述过如何识别多媒体非正常评论的步骤，在此不再赘述。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例根据：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再根据，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例根据中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再根据，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图5为本发明实施例提供的一种电子设备结构示意图，该装置可以集成于终端设备或者终端设备的芯片，该终端可以是具备数据处理功能的计算设备。

该装置包括：处理器501、存储器502。

存储器502用于存储程序，处理器501调用存储器502存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例根据计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例根据，以上所描述的装置实施例仅仅是示意性的，例根据，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例根据多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种多媒体非正常评论的识别方法，其特征在于，包括：

获取多媒体资源发布后任一评估时间段中评论量涨幅，其中，所述评论量涨幅的计算公式为：c＝b/a*100％，a为所述评估时间段之前一段参考时间段的评论量，b为所述评估时间段中的评论量，c为所述评论量涨幅；

若所述评论量涨幅大于第一预设值，则计算获取所述评估时间段的评论密度；

若所述评论密度大于第二预设值，则确定所述评估时间段内的评论为非正常评论；

所述确定所述评估时间段内的评论为非正常评论之后，还包括：

采用预设算法，识别获取所述非正常评论之间的重复率；

根据所述重复率确定各所述非正常评论的等级。

2.根据权利要求1所述的方法，其特征在于，所述获取多媒体资源发布后任一评估时间段中评论量涨幅，包括：

获取所述多媒体资源发布后，预设正常时间段以外任一评估时间段中评论量涨幅。

3.根据权利要求1所述的方法，其特征在于，所述确定所述评估时间段内的评论为非正常评论之后，还包括：

若所述评估时间段内，存在评论次数大于第三预设值的目标发布用户标识，将所述目标发布用户标识确定为非正常用户。

4.根据权利要求3所述的方法，其特征在于，所述将所述目标发布用户标识确定为非正常用户之后，还包括：

获取所述非正常用户在预设历史时间段评论过的历史多媒体资源；

确定所述历史多媒体资源为非正常资源。

5.一种多媒体非正常评论的识别装置，其特征在于，包括：获取模块、处理模块、识别模块；

所述获取模块，用于获取多媒体资源发布后任一评估时间段中评论量涨幅，其中，所述评论量涨幅的计算公式为：c＝b/a*100％，a为所述评估时间段之前一段参考时间段的评论量，b为所述评估时间段中的评论量，c为所述评论量涨幅；

所述处理模块，用于若所述评论量涨幅大于第一预设值，则计算获取所述评估时间段的评论密度；

所述识别模块，用于若所述评论密度大于第二预设值，则确定所述评估时间段内的评论为非正常评论；

所述识别模块还用于采用预设算法，识别获取所述非正常评论之间的重复率，根据所述重复率确定各所述非正常评论的等级。

6.根据权利要求5所述的装置，其特征在于，所述获取模块，具体用于获取所述多媒体资源发布后，预设正常时间段以外任一评估时间段中评论量涨幅。

7.根据权利要求5所述的装置，其特征在于，所述识别模块，还用于若所述评估时间段内，存在评论次数大于第三预设值的目标发布用户标识，将所述目标发布用户标识确定为非正常用户。

8.根据权利要求7所述的装置，其特征在于，所述识别模块，还用于获取所述非正常用户在预设历史时间段评论过的历史多媒体资源；

确定所述历史多媒体资源为非正常资源。

9.根据权利要求5所述的装置，其特征在于，所述识别模块，还用于采用预设算法，识别获取所述非正常评论之间的重复率；

根据所述重复率确定各所述非正常评论的等级。

10.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-4任一所述多媒体非正常评论的识别方法的步骤。

11.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-4任一多媒体非正常评论的识别方法的步骤。