CN108304452B - 文章处理方法及装置、存储介质 - Google Patents

文章处理方法及装置、存储介质 Download PDF

Info

Publication number
CN108304452B
CN108304452B CN201711338235.1A CN201711338235A CN108304452B CN 108304452 B CN108304452 B CN 108304452B CN 201711338235 A CN201711338235 A CN 201711338235A CN 108304452 B CN108304452 B CN 108304452B
Authority
CN
China
Prior art keywords
article
comment
comment content
content
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711338235.1A
Other languages
English (en)
Other versions
CN108304452A (zh
Inventor
孙子荀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711338235.1A priority Critical patent/CN108304452B/zh
Publication of CN108304452A publication Critical patent/CN108304452A/zh
Application granted granted Critical
Publication of CN108304452B publication Critical patent/CN108304452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种文章处理方法及装置、存储介质,所述方法包括:获取待发送的文章,并向文章测试终端集群内的终端发送文章;获取文章测试终端集群内终端发送的文章的评论内容,得到评论内容集合;从评论内容集合中选取目标评论内容;根据目标评论内容对文章进行撤回处理。本发明实施例通过对文章进行小范围投放,并获得该文章的评论内容,基于该评论内容的类型选取相应的目标评论内容(例如负面类型的评论内容等)对文章进行打击撤回,提高文章监控过程的效率和准确度。

Description

文章处理方法及装置、存储介质
技术领域
本发明涉及信息处理技术领域,具体涉及一种文章处理方法及装置、存储介质。
背景技术
随着自媒体的发展,越来越多各种类型的文章出现在不同的文章发布平台,并且在文章显示页面中一般会设置有评论功能,用户可以在文章页面上面进行评论。
目前在一些文章发布平台中,平台每天发布的文章数量非常庞大,而这些文章里面会出现很多低质量文章,例如娱乐蹭热点文章、负面文章或者不实报道。为了防止低质量文章对用户产生负面的影响,这些文章发布平台一般会通过人工对这些低质量文章进行监控。此时,如果文章发布平台发布的文章较多的时候,会造成监控效率较差的问题。
发明内容
本发明实施例提供一种文章处理方法及装置、存储介质,可以提高文章的监控效率。
本发明实施例提供一种文章处理方法,所述文章处理方法包括:
获取待发送的文章,并向文章测试终端集群内的终端发送所述文章;
获取所述文章测试终端集群内终端发送的针对所述文章的评论内容,得到评论内容集合;
从所述评论内容集合中选取目标评论内容,所述目标评论内容为属于目标内容类型的评论内容;
根据所述目标评论内容对所述文章进行撤回处理。
本发明实施例还提供的一种文章处理装置,所述文章处理装置,包括:
第一发送模块,用于获取待发送的文章,并向文章测试终端集群内的终端发送所述文章;
集合获取模块,用于获取所述文章测试终端集群内终端发送的针对所述文章的评论内容,得到评论内容集合;
评论获取模块,用于从所述评论内容集合中选取目标评论内容,所述目标评论内容为属于目标内容类型的评论内容;以及
撤回模块,用于根据所述目标评论内容对所述文章进行撤回处理。
本发明实施例还提供一种存储介质,所述存储介质存储多条指令,所述多条指令适于在计算机上运行时,使得所述计算机执行如上所述的文章处理方法。
在本发明实施例中,获取待发送的文章,并向文章测试终端集群内的终端发送所述文章,以在小范围内投放文章;获取所述文章测试终端集群内终端发送的针对所述文章的评论内容,得到评论内容集合;从所述评论内容集合中选取目标评论内容,根据所述目标评论内容对所述文章进行撤回处理。本发明实施例通过对文章进行小范围投放,并获得该文章的评论内容,基于该评论内容的类型选取相应的目标评论内容(例如负面类型的评论内容等)对文章进行打击撤回,提高文章监控过程的效率和准确度。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1为本发明实施例提供的文章处理方法的应用场景示意图;
图2为本发明实施例提供的文章处理方法的实现流程示意图;
图3为本发明实施例提供的文章处理方法的另一应用场景示意图;
图4为本发明实施例提供的文章处理方法的另一实现流程示意图;
图5为本发明实施例提供的文章处理装置的结构示意图;
图6为本发明实施例提供的文章处理装置的另一结构示意图;
图7为本发明实施例提供的终端的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
本发明中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
其中,该文章处理装置可以集成在网络设备中,比如该网络设备可以包括:服务器或者具有运算、存储数据能力的其他设备等。
参见图1,图1公开了一种文章处理系统,该系统包括服务器,以及与服务器网络连接的至少一个终端。其中,该终端可以是个人电脑、智能手机、智能手环等带网络接入功能以及显示操作功能的设备,终端通过有线或无线网络与该服务器进行连接。该服务器内可以存储一篇或多篇文章,并对这些文章进行管理,执行相应的操作,例如:根据终端发送的指令向指定的终端发送文章、接收终端发送的评论内容、对终端发送的评论内容进行分析等。
其中,服务器用于:获取待发送的文章,并向文章测试终端集群内的终端发送文章;终端通过浏览服务器向该终端发送的关于该文章的网页,即可浏览文章内容,该终端还可以向该服务器发送针对该文章的评论内容,此时服务器可执行以下动作:获取文章测试终端集群内终端发送的文章的评论内容,得到评论内容集合;在服务器获得该评论内容集合后,服务器会获取评论内容集合内的评论内容所属的内容类型,例如负面评论、正面评论、中性评论等,然后,服务器根据评论内容所属的内容类型,从评论内容集合中选取目标评论内容,并根据目标评论内容对文章进行撤回处理,该目标评论内容可以用来识别该文章中的评论内容是否满足文章撤回条件,例如某篇文章里带色情、暴力内容的评论的数量满足一定的条件,服务器会对该文章进行打击撤回,提交人工审核,待人工将该文章的评论进行清理后再重新发送,甚至直接关闭该文章的网页,不让任何终端访问查看该文章。
如图2所示,本发明实施例提供了一种文章处理方法,所述文章处理方法可由图1所述的服务器执行相关流程,具体流程可以如下:
步骤101、获取待发送的文章,并向文章测试终端集群内的终端发送文章。
其中,获取该待发送的文章,可以是从存储有预先上传至文章处理装置的数据的存储器中获取,或者是通过与该文章处理装置连接的其他电子设备中获取。
其中,文章测试终端集群可以是一个或多个终端组成的集群,文章测试终端集群为文章发布终端集群的子集,其中文章发布终端集群包括该文章需要发布到的所有终端。比如,将文章测试终端集群的终端数量设置为50万台,而文章发布终端集群内的终端数量可能为1000万台。其中,文章测试终端集群可以属于文章发布终端集群的其中一部分。
例如,某地级市对应的终端集群为文章发布终端集群时,可以将该地级市中的某个社区的终端集群设为文章测试终端集群,并将该文章向该社区的终端集群进行发布,以形成小范围测试。
在向文章测试终端集群内的终端发送文章时,可以预设一个具有文章内容的网络页面,并对该网络页面设置唯一对应的网络地址。在文章的发送过程中,比如,将该文章内容对应的网络地址放置在只有文章测试终端集群中的终端才能查看的页面中。当终端对该网络地址进行点击进入时,可以通过该网络地址进入到设置有文章的网络页面中,如此使用该终端的用户即可对文章进行查阅。
为了避免文章测试终端集群中的终端将文章进行分享,在一些实施例中,可以通过检测访问该文章页面的终端的网络物理地址是否属于文章测试终端集群中的终端,若该终端并非是文章测试终端集群中的终端,则拒绝该终端对该文章所在页面进行访问。
在另一些实施例中,还可以对不同用户的评论内容的输入权限进行限定,如只对文章测试终端集群中的终端对应的用户开放评论入口。若某用户不属于文章测试终端集群中的终端对应的用户,该用户则不能在该文章中进行评论。
在另一些实施例中,还可以通过取消该文章的分享路径来避免文章测试终端集群中的终端将文章进行分享。如将该文章附属的分享按钮进行隐藏处理。
可以理解的,除了上述实施例,还可以采用其他实现方式来限制非文章测试终端集群中的终端或对应的用户对文章进行访问,以确保后续判断该文章中的评论内容是否符合文章撤回条件的准确性。
又比如,将该文章内容对应的网络地址,通过短信、数据包的形式发送给终端,终端可通过短信浏览器或者其他应用程序接收到该文章内容对应的网络地址,从而使终端的用户可以选择是否点击查看该网络地址,当终端对该网络地址进行点击进入时,可以通过该网络地址进入到设置有文章的网络页面中。
步骤102、获取所述文章测试终端集群内终端发送的针对所述文章的评论内容,得到评论内容集合。
其中,评论内容是用户在该文章上输入的、并在特定区域进行显示的内容,该内容可以是利用文字、图像或影像中的一种或多种组合进行表达的内容,该内容可供其他用户查看。
例如,用户在某篇文章的评论框中输入“这篇文章很好”的内容,则当该内容上传到服务器以后,服务器会对该内容在评论显示区域中进行显示,其他用户可以查看到该内容。
在一些实施例中,若该文章预设有多个具有不同评论内容的评论选项,评论内容还可以是用户选取的评论选项中所对应的内容。
例如,该文章预设有两个分别显示“谣言”以及“低俗内容”的评论选项,若用户选取显示“谣言”的评论选项时,此时所获取的该用户的评论内容即为“谣言”。可以理解的,每一个评论选项均包含一个评论内容,不同评论选项中可以包含不同的评论内容。
在终端浏览该文章的过程中,该文章内容的网络页面当中可以设置一个用于接收用户评论的评论获取模块,并在用户的终端上进行显示。当用户在终端的评论获取模块输入评论内容后,则可以获得终端发送的该评论内容。
当获取到终端针对该文章输入的评论内容后,会将评论内容与该文章进行关联,从而可以获取到与该文章关联的所有评论内容,将所有评论内容或者部分评论内容作为一个集合,得到评论内容集合,其中,评论内容集合内具有一个或多个获取到的与文章相关的评论内容。
当然,评论内容可以为多种不同的类型,并可根据实际需求设定,例如,评论内容可以是文字、符号、表情或者图片等。
步骤103、从评论内容集合中选取目标评论内容,所述目标评论内容为属于目标内容类型的评论内容。
其中,在评论内容中,一些评论内容的不同关键词存在不同的语义,通过对不同的语义类型对评论内容进行划分,以形成不同的评论内容所属的内容类型。例如:中性类型的评论内容、正/负面类型的评论内容、无意义类型的评论内容等,以区分不同的评论内容。
具体的,在负面类型的评论内容中,可能会包含对其他人造成负面影响的负面内容,如包含色情、暴力、人身攻击或者诽谤内容的评论等;而在正面类型的评论内容中,可能会包含对其他人造成正面影响的正面内容,如包含赞美或者善意建议内容评论等,具体的内容类型以及类型数量可以根据实际需要进行设定。
在本实施例中,在从评论内容集合中选取目标评论内容之前,可以先确定该评论内容的内容类型是否是目标内容类型。
其中,目标内容类型是人为设定的用于选取目标评论内容的内容类型,如中性类型的评论内容、正/负面类型的评论内容、无意义类型的评论内容等。
确定该评论内容的内容类型是否是目标内容类型,可以采用如下实现方式:
提取评论内容的关键词;
根据评论内容的关键词确定评论内容的内容类型是否是目标评论类型。
在本实施例中,在提取评论内容的关键词的过程中,首先,可以对评论内容进行分词。分词处理能够将连续的汉字序列按照一定的规则重新切分为词或词组,利用分割出的词或词组进行判断的时候,能保证有较高的效率和准确度。当进行完分词以后,筛选出对意义不大的停用词,并对这些停用词进行删除,以获取到对判断更有用的词作为关键词。当然,除了上述实施例中的方法,还可以通过其他算法提取评论内容的关键词。通过提取评论内容的关键词可以提高对评论内容是否是目标评论类型的判断效率,并使得判断结果更为准确。
在本实施例中,根据评论内容的关键词确定评论内容的内容类型是否是目标评论类型,可以采用如下实现方式:
将评论内容的关键词与词汇数据库中的预设关键词进行匹配;
若匹配,根据词汇数据库中的预设关键词对应的词汇类型确定评论内容的内容类型是否是目标评论类型。
其中,词汇数据库可以是通过一定的机器学习对评论内容所涉及的词汇进行获取、积累,并利用机器学习算法对这些关键词进行匹配分类后所形成的数据库。
比如,利用基于深度学习的长短期记忆(Long Short-Term Memory,LSTM)网络的文本分类器对关键词进行分类,如将某个具有暴力倾向的词“词A”标记为预设关键词,将该关键词的词汇类型定义为“暴力”,并将具有该“词A”的评论内容定义为负面评论。则在匹配过程中,若评论内容中具有“词A”,则通过该文本分类器的时候会将该评论定义为负面评论。可以理解的,除了上述文本分类器,还可以采用其他具有机器学习能力的文本分类器实现对关键词的匹配分类功能。
除此之外,该例子中的文本分类器可以结合某些通过特定方式采集到的具有大量负面评论的评论内容样本来进行训练,以提高该文本分类器的处理效率。
在一些实施例中,可以将网络中某些热门文章中的评论内容进行获取,并将从中获取到的评论内容加载到该文本分类器的模型中,以对该文本分类器的模型进行训练。
如某热门明星文章下面的评论内容,或者某时事热点文章下面的评论内容,在这些文章中可以获取到大量的评论内容,将这些评论内容加载到该文本分类器的模型中,并利用该文本分类器对这些评论内容的内容类型进行分类。当分类完成后,工作人员可以对这些评论内容的分类结果进行确认,在文本分类器对某评论内容的类型分类不正确时,修正文本分类器的模型,以达到提高文本分类器的分类正确率以及效率的效果。
当然,在这里为了提高训练效率,还可以采用历史上被撤回的文章下面的评论内容来对文本分类器的模型进行训练,使得训练更加有针对性。
可以理解的,具体的训练方式可以参考本领域中常用的模型训练方式。
结合词汇数据库以及基于机器学习的文本分类器确定关键词的词汇类型,从而通过该词汇类型确定评论内容的内容类型,可以大大减少人工对文章的评论内容进行监控的工作量,进一步提高对评论内容的内容类型的判断效率及准确度。
在一些实施例中,为了提高评论内容所述的内容类型的获取准确度,在获取文章测试终端集群内的终端发送的所述文章的评论内容,得到评论内容集合之后、从评论内容集合中选取目标评论内容之前,可以采用以下实现方式:
获取评论内容集合中评论内容对应的用户标识;
判断用户标识的种数是否大于预设种数;
若是,则执行获取评论内容集合内的评论内容所属的内容类型的步骤。
其中,用户标识可以为终端上用户的唯一标识(Identification,ID),判断用户标识的种数是否大于预设种数,此处的用户标识的种数,可以理解为唯一标识不同的用户的数量,也即,判断与其他用户的唯一标识不同的用户的数量是否大于预设数量,当这些用户的数量大于预设数量时,则执行获取评论内容集合内的评论内容所属的内容类型的步骤。
通过获取评论内容集合中评论内容对应的用户标识,并通过判断这些用户标识对应的独立用户的数量是否大于某个数值,可以避免可能的存在恶意刷负面评论的情况,提高获取的评论内容的参考价值。
在一些实施例中,从评论内容集合中选取目标评论内容可以基于上述确定该评论内容的内容类型是否是目标内容类型后进行。
比如,用户希望选取负面评论的评论内容作为条件判断依据,则可以从评论内容集合中选取被定义为负面评论的评论内容作为目标评论内容。
又比如,用户希望选取正面评论进行突出显示,则可以通过在评论内容集合中选取被定义为正面评论的评论内容作为目标评论内容。
当然,除了将上述例子中的内容类型定义为目标评论内容,还可以指定其他内容类型的评论内容作为目标评论内容。具体的规则和实现方式可以根据实际需要进行制定。
在一些实施例中,当遇到某篇文章即使终端上用户的浏览量较大,但评论数量较少的时候,则该篇文章有可能对社会造成的影响较小,此时可以考虑将该文章向目标终端群体进行发送,在获取文章测试终端集群内的终端发送的文章的评论内容,得到评论内容集合之后,可以采用以下实现方式:
判断评论内容集合内的评论内容总数量是否小于第四阈值;
若否,则执行从所述评论内容集合中选取目标评论内容的步骤;
若是,则获取文章在文章测试终端集群内被浏览的浏览量,当浏览量大于预设浏览量阈值时,向文章发布终端集群内的终端发送文章,其中,文章发布终端集群中的终端数量大于文章测试终端集群中的终端数量。
其中,第四阈值可以为任意数值,例如判断评论内容集合内的评论内容总数量是否小于5条。
在一些实施例中,若评论内容集合内多条评论内容对应的用户标识为同一用户标识时,可以将该多条评论内容只作为一条评论内容进行记录,也可以作为多条评论内容进行记录,具体的评论内容数量的判断方式可以根据实际情况而进行设定。
比如,同一用户“甲”在该文章中一共评论了三条评论内容。在判断评论内容集合内的评论内容总数量时,可以将这三条评论内容作为一条评论内容,也可以将这三条评论内容分别作为三条评论内容进行记录。
为了确定浏览量,可以通过统计终端对文章对应的网页进行点击的次数来确定浏览量,也可以采用其他方式来对文章的浏览量进行统计,具体浏览量的统计方式可根据实际情况而定。
预设浏览量阈值可以设定为任意一个具体数值,则可以将文章在文章测试终端集群内被浏览的浏览量与该数值进行匹配。
例如,预设浏览量阈值设定为1000,而获取到的文章在文章测试终端集群内被浏览的浏览量为1500,则通过匹配可以知道该文章的浏览量大于阈值1000,从而确定浏览量大于预设浏览量阈值,进而向文章发布终端集群内的终端发送文章。
当评论内容集合内的评论内容总数量小于第四阈值的时候,此时若文章在文章测试终端集群内被浏览的浏览量大于预设浏览量阈值时,则会向文章发布终端集群内的终端发送文章。
其中,文章发布终端集群可以是多个终端组成的集群,该文章发布终端集群的终端数量相对文章测试终端集群较大,可以理解的,文章测试终端集群可以属于文章发布终端集群的其中一部分。
本实施例中,在终端浏览该文章的过程中,该文章内容的网络页面当中可以设置一个用于接收用户评论的评论获取模块,并在用户的终端上进行显示。当用户在终端的评论获取模块输入评论内容后,则可以获得终端发送的该评论内容。
该实施例通过对评论内容的总数量进行阈值判断,从而可以将可能对社会造成的影响较小的文章提前放出,以减少机器对评论内容进行判断所占用的资源,提高对文章的处理速度。
步骤104、根据目标评论内容对文章进行撤回处理。
其中,撤回处理可以是将所发送的进入该文章相关网页的网络地址进行删除,或者只将文章相关的网页进行关闭,最终目的是避免其他终端继续对该文章进行浏览,撤回处理的具体实现过程可以根据实际需要进行设定。
具体的,为了判断是否对文章进行撤回处理,可以通过获取目标评论内容的数量、目标评论内容的语义、特定关键词来进行判断,当然,还可以采用基于目标评论内容的其他特征来判断是否对文章进行撤回处理,具体实现方式可以根据实际情况进行制定。
下面将对根据目标评论内容对文章进行撤回处理的不同实现方式进行说明:
(1)基于目标评论内容的数量对文章进行撤回处理;
具体的,当根据目标评论内容的数量对文章进行撤回处理时,可以设置一个预设阈值,并判断目标评论内容的数量是否大于/小于/等于一个预设阈值来确定是否对文章进行撤回处理。
例如,设置负面评论内容的数量的阈值为10条,并在负面评论内容的数量大于或等于10条时对文章进行撤回处理。
又例如,设置正面评论内容的数量的阈值为10条,并在正面评论内容的数量小于或等于10条时对文章进行撤回处理。
目标评论内容的数量可以反映出该文章的评论倾向,例如当文章中出现的负面评论较多时,又或者在正面评论过少时,可以确定该文章的评论内容很可能会对社会造成负面影响。采用目标评论内容的数量来确定是否对文章进行撤回处理,实现起来较为简单,可操作性强。
(2)基于目标评论内容的占比对文章进行撤回处理;
其中,目标评论内容的占比为目标评论内容的数量与评论内容集合内的评论内容总数量的比值。
例如,目标评论内容的数量为10条,评论内容集合内的评论内容总数量为20条,则目标评论内容的占比为10/20*100%=50%。该占比可以根据所获取的与文章相关的评论内容数据进行计算。
具体的,当根据该评论内容的占比对文章进行撤回处理时,可以设置一个预设比值,并判断该评论内容的占比是否大于/小于/等于该预设比值来确定是否对文章进行撤回处理。
例如,设置目标评论内容的数量占评论内容集合内的评论内容总数量的预设比值为50%,并在目标评论内容的占比大于50%时对文章进行撤回处理。
目标评论内容的占比可以反映出该文章的评论倾向,采用目标评论内容的占比来确定是否对文章进行撤回处理,当评论内容数量较多时可以基于目标评论内容的占比,来确保评论倾向的判断准确度。
(3)基于目标评论内容的数量以及目标评论内容的占比对文章进行撤回处理;
当然,除了单独根据目标评论内容的数量或者目标评论内容的占比对文章进行撤回处理,还可以是将目标评论内容的数量以及目标评论内容的占比两个参数进行结合甚至对其进行加权来确定是否对文章进行撤回处理。
例如,设置满足对文章进行撤回处理的条件是:目标评论内容的数量大于5条,且目标评论内容的占比大于50%。
在本实施例中,根据目标评论内容的数量以及目标评论内容的占比,对文章进行撤回处理,可以采用如下实现方式:
在一些实施例中,当目标评论内容为负面评论内容时,若目标评论内容的数量大于预设阈值,且目标评论内容的占比大于预设比例,则对文章进行撤回处理。
例如,若目标评论内容为负面评论内容时,将此处目标评论内容的数量的预设阈值设置成5条,目标评论内容的占比的预设比例设置成50%,若在文章中所获取的评论内容集合中负面评论内容的数量为6条,且负面评论内容的占比为60%,则可以确定该文章的评论内容集合满足文章撤回条件,然后会对文章进行撤回处理。
在一些实施例中,当目标评论内容为正面评论内容时,若目标评论内容的数量小于预设阈值,且目标评论内容的占比小于预设比例,则对文章进行撤回处理。
例如,若目标评论内容为正面评论内容时,将此处目标评论内容的数量的预设阈值设置成5条,目标评论内容的占比的预设比例设置成50%,若在文章中所获取的评论内容集合中正面评论内容的数量为3条,且正面评论内容的占比为20%,则可以确定该文章的评论内容集合满足文章撤回条件,然后会对文章进行撤回处理。
将目标评论内容的数量以及目标评论内容的占比两个参数进行结合来确定评论内容是否满足撤回条件,相对于只采用单一参数进行判断,可以提高判断结果的可信度。
(4)基于目标评论内容的数量、评论内容集合内的评论内容总数量以及目标评论内容的占比对文章进行撤回处理。
其中,目标评论内容的数量、评论内容集合内的评论内容总数量以及目标评论内容的占比可以通过设置相对应的参考阈值进行结合来实现对参数值的判断。
通过目标评论内容的数量、评论内容集合内的评论内容总数量以及目标评论内容的占比三个参数,来对该文章的评论内容是否满足撤回条件进行判断,可以使得判断结果更加有效、准确。
例如,将目标评论内容的数量、评论内容集合内的评论内容总数量以及目标评论内容的占比与预设阈值或者是预设区间进行比对,设定判断范围条件,当上述三个数值均满足撤回条件对应的数值范围时,则对所述文章进行撤回处理。
在本实施例中,根据所述目标评论内容的数量、所述评论内容集合内的评论内容总数量以及所述目标评论内容的占比,对所述文章进行撤回处理,可以采用以下实现方式:
当评论内容集合内的目标评论内容数量大于第一阈值,且评论内容集合内的评论内容总数量大于第二阈值、目标评论内容的占比大于第一比值时,对文章进行撤回处理;
当评论内容集合内的评论内容总数量大于第三阈值,且目标评论内容的占比大于第二比值时,对所述文章进行撤回处理;
其中,第三阈值大于第一阈值,且第二比值小于第一比值。
第一阈值、第二阈值、第三阈值,以及第一比值、第二比值均可以设定为任意数值,例如若是评论数量的话,可以为5条、10条,若是比值的话,可以为40%或50%,诸如此类,具体数值可以根据实际需要而定。
其中,这里第三阈值大于第二阈值,使得小于第二阈值、第二阈值至第三阈值之间以及大于第三阈值形成多个判断区间,当不同的值位于不同的范围时,则会采用不同的阈值条件进行判断。
并且,在第三阈值大于第二阈值的前提下,设置第一比值大于第二比值,可以使得当评论内容集合内的评论内容总数量较少时,对目标评论内容的占比要求更为严格。因为在一些有争议的文章中,即使在曝光前期,也有可能会收到较多的负面评论,设置较为严格的起始阈值可提前将容易起争议的文章进行撤回,避免这类文章的大范围曝光。
例如,将第一阈值设定为5条,第二阈值设定为5条,第三阈值设定为10条、第一比值设定为50%、第二比值设定为40%,假设评论内容集合内的目标评论内容数量为m,评论内容集合内的评论内容总数量为n,目标评论内容的占比p,则形成以下至少两个撤回条件:
1、评论内容集合内的目标评论内容数量m>5;
评论内容集合内的评论内容总数量10≥n>5;
目标评论内容的占比p>50%。
2、评论内容集合内的目标评论内容数量n>10;
目标评论内容的占比n>40%。
若获取到的某篇文章的评论内容集合中m=12、n=16、p=50%,将上述数值与条件中的阈值进行比较,可以得知其满足条件2的撤回条件,会对该文章进行撤回。
该举例仅用于解释本发明实施例,具体阈值以及比值的取值,或者是范围的选取,均可以根据实际情况进行制定。
采用目标评论内容的数量、评论内容集合内的评论内容总数量以及目标评论内容的占比来确定评论内容是否满足撤回条件,通过多个参数来实现多重限定,可以提高判断结果的可信度。
由上可知,本发明实施例的文章处理方法,首先,获取待发送的文章,并向文章测试终端集群内的终端发送所述文章,以在小范围内投放文章;然后,获取文章测试终端集群内终端发送的文章的评论内容,得到评论内容集合;接着,从评论内容集合中选取目标评论内容,最后,根据目标评论内容对文章进行撤回处理。本发明实施例通过对文章进行小范围投放,并获得该文章的评论内容,基于该评论内容的类型选取相应的目标评论内容(例如负面类型的评论内容等)对文章进行打击撤回,提高文章监控过程的效率和准确度。
根据图2所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以服务器作为文章处理方法的执行主体为例进行说明。
如图3所示,结合图4,本发明实施例提供了一种文章处理方法的另一实现流程,具体的步骤在具体流程可以如下:
步骤201、服务器向文章测试终端集群发送文章。
服务器先会获取该待发送的文章,可以是从存储有预先上传至文章处理装置的数据的存储器中获取,或者是通过与该文章处理装置连接的其他电子设备中获取。
例如,在文章的发送过程中,服务器先将文章向某个社区的终端集群进行发送,而该社区所在的地级市对应的终端集群为文章发布终端集群时,该社区中的终端集群则为文章测试终端集群,并只将文章在该文章测试终端集群内进行公开,以形成小范围测试。
步骤202、服务器获取终端发送的用户的评论内容。
当服务器获取到终端针对该文章输入的评论内容后,会将评论内容与该文章进行关联,从而可以获取到与该文章关联的所有评论内容,将所有评论内容或者部分评论内容作为一个集合,得到评论内容集合,其中,评论内容集合内具有一个或多个获取到的与文章相关的评论内容。
当然,评论内容可以为多种不同的类型,并可根据实际需求设定,例如,评论内容可以是文字、符号、表情或者图片等。
步骤203、服务器判断所获取的评论内容是否满足分析启动条件;若是,则利用评论分析模型分析评论内容;若否,则不执行动作。
在本实施例中,分析启动条件可以设为评论内容集合内的评论内容总数量为大于5条,即是当服务器获取到的评论内容总数量大于5条时,才开始对评论内容是否符合撤回条件进行分析。
当然,为了提高分析的准确率,当评论内容的数量大于5条后,服务器会先获取每个评论内容对应的用户ID,也即是获取评论内容集合中评论内容对应的用户标识,并判断所有评论内容对应的独立用户ID的总数量是否为大于5个,也即是判断用户标识的种数是否大于预设种数,当判断结果为是时,则执行对评论内容的分析动作。如此可以避免存在恶意刷评论的现象,提高分析的准确率。
步骤204、服务器利用评论分析模型分析评论内容。
比如,服务器利用基于深度学习长短期记忆(Long Short-Term Memory,LSTM)网络的文本分类器对关键词进行分类,如将某个具有暴力倾向的词“词A”标记为预设关键词,将该关键词的词汇类型定义为“暴力”,并将具有该“词A”的评论内容定义为负面类型的评论内容。则在匹配过程中,若评论内容中具有“词A”,则通过该文本分类器的时候会将该评论内容定义为负面类型的评论内容。可以理解的,除了上述文本分类器,还可以采用其他具有机器学习能力的文本分类器实现对关键词的匹配分类功能。
除此之外,该文本分类器可以结合某些通过特定方式采集到的具有大量负面类型的评论内容的评论内容样本来进行训练,以提高该文本分类器的处理效率。
步骤205、服务器判断评论内容是否满足撤回条件;若是,则对文章进行撤回,执行人工检查;若否,则继续获取用户评论内容。
例如,目标评论内容可以设置为负面类型的评论内容,并设置如下两个条件,:
在评论内容总数量少于20条的时候,适用于条件A:
A、评论内容集合内的目标评论内容数量n<20;
评论内容集合内的负面类型的评论内容的数量m>5;
负面类型的评论内容的占比p≥50%。
除此之外,在评论内容总数量大于10条的时候,适用于条件2:
B、评论内容集合内的目标评论内容数量n>10;
负面类型的评论内容的占比p≥40%。
当满足A和/或B的时候,则对文章进行撤回,交给人工进行检查。
当文章发布在文章测试终端集群进行测试的过程中,若不满足文章的撤回条件,则将该文章发布至文章发布终端集群。
步骤206、服务器对文章进行撤回,执行人工检查。
在本实施例中,当通过人工来对撤回的文章进行检查的时候,可以将该文章下面的负面类型的评论内容进行保存,以成为训练评论分析模型的评论内容样本,以此不断对评论分析模型进行训练。
步骤207、在服务器获取到用户评论内容后,判断评论内容是否满足浏览量条件;若是,则向文章发布终端集群发送文章。
也即,判断评论内容集合内的评论内容总数量是否小于第四阈值,若是,则获取文章在文章测试终端集群内被浏览的浏览量,当浏览量大于预设浏览量阈值时,向文章发布终端集群内的终端发送所述文章。
例如,判断评论内容集合内的评论内容总数量是否小于5条,当评论内容总数量小于5条时,则获取该文章的浏览量为1500。如果设浏览量阈值为1000,则通过匹配可以知道该文章的浏览量大于阈值1000,从而确定浏览量大于预设浏览量阈值,进而向文章发布终端集群内的终端发送文章。
步骤208、服务器向文章发布终端集群发送文章。
其中,文章发布终端集群可以是一个或多个终端组成的集群,该文章发布终端集群的终端数量相对文章测试终端集群的终端数量较大,比如,将文章测试终端集群的终端数量设置为50万台,而文章测试终端集群的终端数量可能为1000万台。其中,文章测试终端集群可以属于文章发布终端集群的其中一部分。
例如,若某个社区中的所有终端组成的集群作为文章测试终端集群,则可以将该社区所在的地级市对应的所有终端集群作为文章发布终端集群。
该举例仅用于解释本发明实施例,具体阈值以及比值的取值,或者是范围的选取,均可以根据实际情况进行制定。
由上可知,本发明实施例的文章处理方法,首先,获取待发送的文章,并向文章测试终端集群内的终端发送所述文章,以在小范围内投放文章;然后,获取文章测试终端集群内终端发送的文章的评论内容,得到评论内容集合;接着,从评论内容集合中选取目标评论内容,最后,根据目标评论内容对文章进行撤回处理。本发明实施例通过对文章进行小范围投放,并获得该文章的评论内容,基于该评论内容的类型选取相应的目标评论内容(例如负面类型的评论内容等)对文章进行打击撤回,提高文章监控过程的效率和准确度。
为了更好地实施上述方法,如图5所示,本发明实施例提供一种文章处理装置的结构,该文章处理装置包括第一发送模块301、集合获取模块302、类型获取模块303、评论获取模块304以及撤回模块305,其中:
第一发送模块301,用于获取待发送的文章,并向文章测试终端集群内的终端发送所述文章。
在向文章测试终端集群内的终端发送文章时,可以预设一个具有文章内容的网络页面,并对该网络页面设置唯一对应的网络地址。在文章的发送过程中,比如,将该文章内容对应的网络地址放置在只有文章测试终端集群中的终端才能查看的页面中。当终端对该网络地址进行点击进入时,可以通过该网络地址进入到设置有文章的网络页面中。
集合获取模块302,用于获取所述文章测试终端集群内终端发送的针对所述文章的评论内容,得到评论内容集合。
当获取到终端针对该文章输入的评论内容后,会将评论内容与该文章进行关联,从而可以获取到与该文章关联的所有评论内容,将所有评论内容或者部分评论内容作为一个集合,得到评论内容集合,其中,评论内容集合内具有一个或多个获取到的与文章相关的评论内容。
当然,评论内容可以为多种不同的类型,并可根据实际需求设定,例如,评论内容可以是文字、符号、表情或者图片等。
评论获取模块303,用于从评论内容集合中选取目标评论内容。
在本实施例中,所述目标评论内容为属于目标内容类型的评论内容。
内容类型用于区分不同的评论内容,例如可能会对其他用户造成负面影响的负面类型的评论内容,如包含色情、暴力、人身攻击或者诽谤内容的评论等;或者是可能会对其他用户造成正面影响的正面评论,如包含赞美或者善意建议内容评论等,具体的内容类型以及类型数量可以根据实际需要进行设定。
目标内容类型是人为设定的用于选取目标评论内容的内容类型,如中性类型的评论内容、正/负面类型的评论内容、无意义类型的评论内容等。
比如,用户希望选取负面类型的评论内容的评论内容作为条件判断依据,则可以从评论内容集合中选取被定义为负面类型的评论内容的评论内容作为目标评论内容。
又比如,用户希望选取正面评论进行突出显示,则可以通过在评论内容集合中选取被定义为正面评论的评论内容作为目标评论内容。
撤回模块304,用于根据目标评论内容对文章进行撤回处理。
撤回处理可以是将所发送的进入该文章相关网页的网络地址进行删除,或者只将文章相关的网页进行关闭,最终目的是避免其他终端继续对该文章进行浏览,撤回处理的具体实现过程可以根据实际需要进行设定。
如图6所示,本发明实施例提供一种文章处理装置的另一结构,相对于图5中的实施例结构,该文章处理装置还包括第二判断模块305、第二发送模块306、标识获取模块307以及第一判断模块308,其中:
第二判断模块305,用于判断评论内容集合内的评论内容总数量是否小于第四阈值;若否,则执行所述从所述评论内容集合中选取目标评论内容的步骤;
第二发送模块306,用于若是,则获取文章在文章测试终端集群内被浏览的浏览量,当浏览量大于预设浏览量阈值时,向文章发布终端集群内的终端发送文章,其中,文章发布终端集群中的终端数量大于文章测试终端集群中的终端数量。
类型获取模块303,包括提取子模块3031以及类型确定子模块3032,其中:
提取子模块3031,用于提取评论内容的关键词;
类型确定子模块3032,用于根据评论内容的关键词确定评论内容的内容类型是否是目标评论类型。
类型确定子模块3032,还用于将评论内容的关键词与词汇数据库中的预设关键词进行匹配;若匹配,根据词汇数据库中的预设关键词对应的词汇类型确定评论内容的内容类型是否是目标评论类型。
在类型获取模块303与评论获取模块303之间,还包括:
标识获取模块307,用于获取评论内容集合中评论内容对应的用户标识;
第一判断模块308,用于判断用户标识的种数是否大于预设种数;若是,则执行获取评论内容集合内的评论内容所属的内容类型的步骤。
撤回模块304,包括第一获取子模块3041以及第一撤回子模块3042,其中:
第一获取子模块3041,用于获取目标评论内容的数量、和/或目标评论内容的占比,目标评论内容的占比为目标评论内容的数量与评论内容集合内的评论内容总数量的比值;
第一撤回子模块3042,用于根据目标评论内容的数量、和/或目标评论内容的占比,对文章进行撤回处理。
第一撤回子模块3042,还用于当目标评论内容的数量大于预设阈值,且目标评论内容的占比大于预设比例时,对文章进行撤回处理。
撤回模块304,还包括第二获取子模块3043、第二撤回子模块3044:
第二获取子模块3043,用于获取目标评论内容的数量、评论内容集合内的评论内容总数量以及目标评论内容的占比,目标评论内容的占比为目标评论内容的数量与评论内容集合内的评论内容总数量的比值;
第二撤回子模块3044,用于根据目标评论内容的数量、评论内容集合内的评论内容总数量以及目标评论内容的占比,对文章进行撤回处理。
第二撤回子模块3044,还用于当评论内容集合内的目标评论内容数量大于第一阈值,且评论内容集合内的评论内容总数量大于第二阈值、目标评论内容的占比大于第一比值时,对文章进行撤回处理;当评论内容集合内的评论内容总数量大于第三阈值,且目标评论内容的占比大于第二比值时,对文章进行撤回处理;其中,第三阈值大于第二阈值,且第二比值小于第一比值。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本发明实施例的文章处理装置,首先,第一发送模块获取待发送的文章,并向文章测试终端集群内的终端发送所述文章,以在小范围内投放文章;然后,集合获取模块获取文章测试终端集群内终端发送的文章的评论内容,得到评论内容集合;接着,类型获取模块从评论内容集合中选取目标评论内容,最后,评论获取模块根据目标评论内容对文章进行撤回处理。本发明实施例通过对文章进行小范围投放,并获得该文章的评论内容,基于该评论内容的类型选取相应的目标评论内容(例如负面类型的评论内容等)对文章进行打击撤回,提高文章监控过程的效率和准确度。
本实施例还提供了一种服务器,比如,请参考图7,该服务器可以包括网络模块401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、包括有一个或者一个以上处理核心的处理器408以及电源409等部件。本领域技术人员可以理解,图7中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
网络模块401可用于与网络连接,通过网络收发信息,特别地,将下行信息接收后,交由一个或者一个以上处理器407处理;另外,将涉及上行的数据发送给基站。存储器402可用于存储软件程序以及模块。处理器407通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器407和输入单元403对存储器402的访问。
输入单元403可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元403可包括触敏表面以及其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆、指纹识别模组等中的一种或多种。
显示单元404可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
服务器还可包括至少一种传感器405,比如光传感器、运动传感器以及其他传感器。
音频电路406可通过扬声器、传声器提供用户与服务器之间的音频接口。
处理器407是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器407可包括一个或多个处理核心;优选的,处理器407可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和目标应用等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器407中。
服务器还包括给各个部件供电的电源408(比如电池)。尽管未示出,服务器还可以包蓝牙模块、摄像头等,在此不再赘述。
在本实施例中,服务器中的处理器407会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器407来运行存储在存储器402中的应用程序,从而实现各种功能:
获取待发送的文章,并向文章测试终端集群内的终端发送所述文章;获取所述文章测试终端集群内终端发送的针对所述文章的评论内容,得到评论内容集合;获取所述评论内容集合内的评论内容所属的内容类型;根据所述评论内容所属的内容类型,从所述评论内容集合中选取目标评论内容;根据所述目标评论内容对所述文章进行撤回处理。
可选地,该处理器407还用于执行:获取所述目标评论内容的数量、和/或目标评论内容的占比,所述目标评论内容的占比为所述目标评论内容的数量与所述评论内容集合内评论内容总数量的比值;根据所述目标评论内容的数量、和/或目标评论内容的占比,对所述文章进行撤回处理。
可选地,该处理器407还用于执行:当所述目标评论内容的数量大于预设阈值,且所述目标评论内容的占比大于预设比例时,对所述文章进行撤回处理。
可选地,该处理器407还用于执行:获取所述目标评论内容的数量、所述评论内容集合内评论内容总数量以及所述目标评论内容的占比,所述目标评论内容的占比为所述目标评论内容的数量与所述评论内容集合内的评论内容总数量的比值;根据所述目标评论内容的数量、所述评论内容集合内的评论内容总数量以及所述目标评论内容的占比,对所述文章进行撤回处理。
可选地,该处理器407还用于执行:当所述评论内容集合内的目标评论内容数量大于第一阈值,且所述评论内容集合内的评论内容总数量大于第二阈值、所述目标评论内容的占比大于第一比值时,对所述文章进行撤回处理;当所述评论内容集合内的评论内容总数量大于第三阈值,且所述目标评论内容的占比大于第二比值时,对所述文章进行撤回处理;其中,所述第三阈值大于所述第一阈值,且所述第二比值小于所述第一比值。
可选地,该处理器407还用于执行:获取所述评论内容集合中评论内容对应的用户标识;判断用户标识的种数是否大于预设种数;若是,则执行所述从所述评论内容集合中选取目标评论内容的步骤。
可选地,该处理器407还用于执行:判断所述评论内容集合内的评论内容总数量是否小于第四阈值;若否,则执行所述获取所述评论内容集合内评论内容所属的内容类型的步骤;若是,则获取所述文章在所述测试服务器集群内被浏览的浏览量,当所述浏览量大于预设浏览量阈值时,向文章发布终端集群内的服务器发送所述文章,其中,所述文章发布终端集群中的服务器数量大于所述文章测试终端集群中的服务器数量。
可选地,该处理器407还用于执行:提取所述评论内容的关键词;根据所述评论内容的关键词确定所述评论内容的内容类型。
可选地,该处理器407还用于执行:将所述评论内容的关键词与词汇数据库中的预设关键词进行匹配;若匹配,根据所述词汇数据库中的预设关键词对应的词汇类型确定所述评论内容的内容类型。
上述操作具体可参见前面的方法实施例,在此不再赘述。
在本发明实施例中,首先,获取待发送的文章,并向文章测试终端集群内的终端发送所述文章,以在小范围内投放文章;然后,获取所述文章测试终端集群内终端发送的针对所述文章的评论内容,得到评论内容集合;接着,获取所述评论内容集合内的评论内容所属的内容类型,根据所述评论内容所属的内容类型,从所述评论内容集合中选取目标评论内容,最后,根据所述目标评论内容对所述文章进行撤回处理。本发明实施例通过对文章进行小范围投放,并获得该文章的评论内容,基于该评论内容的类型选取相应的目标评论内容(例如负面类型的评论内容等)对文章进行打击撤回,提高文章监控过程的效率和准确度。
需要说明的是,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读的介质中,该介质可以包括但不限于:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上对本发明实施例所提供的文章处理方法及装置、存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种文章处理方法,其特征在于,包括:
获取待发送的文章,并向文章测试终端集群内的终端发送所述文章,以在小范围内投放所述文章,通过检测访问所述文章页面的终端的网络物理地址是否属于所述文章测试终端集群中的终端,来避免所述文章测试终端集群中的终端将所述文章分享至非文章测试终端集群中的终端,所述文章测试终端集群为目标终端集群的子集,所述目标终端集群中包括所述文章需要发布到的所有终端;
获取所述文章测试终端集群内的终端发送的针对所述文章的评论内容,得到评论内容集合;
当判断出所述评论内容集合内的评论内容总数量小于第四阈值时,获取所述文章在所述文章测试终端集群内被浏览的浏览量,当所述浏览量大于预设浏览量阈值时,向所述目标终端集群内的终端发送所述文章;
当判断出所述评论内容集合内的评论内容总数量不小于所述第四阈值时,提取所述评论内容的关键词;采用历史上被撤回的文章下面的评论内容对文本分类器的模型进行训练,结合词汇数据库以及训练后的文本分类器,确定所述关键词的词汇类型,根据所述关键词的词汇类型从所述评论内容集合中选取目标评论内容;
当所述目标评论内容为负面评论内容时,若所述负面评论内容数量大于第一阈值、所述评论内容集合内的评论内容总数量大于第二阈值且小于等于第三阈值、所述负面评论内容的占比大于第一比值,对所述文章进行撤回处理;当所述评论内容集合内的评论内容总数量大于所述第三阈值,且所述负面评论内容的占比大于第二比值时,对所述文章进行撤回处理,其中,所述第二比值小于所述第一比值。
2.如权利要求1所述的文章处理方法,其特征在于,还包括:
当所述目标评论内容为正面评论内容时,若所述目标评论内容的数量小于预设阈值,且所述目标评论内容的占比小于预设比例,则对所述文章进行撤回处理。
3.如权利要求1所述的文章处理方法,其特征在于,在所述获取所述文章测试终端集群内的终端发送的所述文章的评论内容,得到评论内容集合之后、所述判断出所述评论内容集合内的评论内容总数量小于第四阈值之前,还包括:
获取所述评论内容集合中评论内容对应的用户标识;
判断用户标识的种数是否大于预设种数;
若是,则执行所述判断出所述评论内容集合内的评论内容总数量小于第四阈值的步骤。
4.如权利要求1所述的文章处理方法,其特征在于,所述目标终端集群中的终端数量大于所述文章测试终端集群中的终端数量。
5.如权利要求1所述的文章处理方法,其特征在于,所述根据所述关键词的词汇类型从所述评论内容集合中选取目标评论内容,包括:
根据所述关键词的词汇类型,确定所述评论内容的内容类型是否是目标评论类型。
6.一种文章处理装置,其特征在于,包括:
第一发送模块,用于获取待发送的文章,并向文章测试终端集群内的终端发送所述文章,以在小范围内投放所述文章,通过检测访问所述文章页面的终端的网络物理地址是否属于所述文章测试终端集群中的终端,来避免所述文章测试终端集群中的终端将所述文章分享至非文章测试终端集群中的终端,所述文章测试终端集群为目标终端集群的子集,所述目标终端集群中包括所述文章需要发布到的所有终端;
集合获取模块,用于获取所述文章测试终端集群内的终端发送的针对所述文章的评论内容,得到评论内容集合;
评论获取模块,用于当判断出所述评论内容集合内的评论内容总数量小于第四阈值时,获取所述文章在所述文章测试终端集群内被浏览的浏览量,当所述浏览量大于预设浏览量阈值时,向所述目标终端集群内的终端发送所述文章;当判断出所述评论内容集合内的评论内容总数量不小于所述第四阈值时,提取所述评论内容的关键词;采用历史上被撤回的文章下面的评论内容对文本分类器的模型进行训练,结合词汇数据库以及训练后的文本分类器,确定所述关键词的词汇类型,根据所述关键词的词汇类型从所述评论内容集合中选取目标评论内容;以及
撤回模块,用于当所述目标评论内容为负面评论内容时,若所述负面评论内容数量大于第一阈值、所述评论内容集合内的评论内容总数量大于第二阈值且小于等于第三阈值、所述负面评论内容的占比大于第一比值,对所述文章进行撤回处理;当所述评论内容集合内的评论内容总数量大于所述第三阈值,且所述负面评论内容的占比大于第二比值时,对所述文章进行撤回处理,其中,所述第二比值小于所述第一比值。
7.如权利要求6所述的文章处理装置,其特征在于,所述撤回模块,还用于当所述目标评论内容为正面评论内容时,若所述目标评论内容的数量小于预设阈值,且所述目标评论内容的占比小于预设比例,则对所述文章进行撤回处理。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储多条指令,所述多条指令适于在计算机上运行时,使得所述计算机执行如权利要求1至5中任意一项所述的文章处理方法。
9.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~5中任一项所述的文章处理方法中的步骤。
CN201711338235.1A 2017-12-14 2017-12-14 文章处理方法及装置、存储介质 Active CN108304452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711338235.1A CN108304452B (zh) 2017-12-14 2017-12-14 文章处理方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711338235.1A CN108304452B (zh) 2017-12-14 2017-12-14 文章处理方法及装置、存储介质

Publications (2)

Publication Number Publication Date
CN108304452A CN108304452A (zh) 2018-07-20
CN108304452B true CN108304452B (zh) 2021-03-26

Family

ID=62870035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711338235.1A Active CN108304452B (zh) 2017-12-14 2017-12-14 文章处理方法及装置、存储介质

Country Status (1)

Country Link
CN (1) CN108304452B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134856A (zh) * 2019-04-12 2019-08-16 平安国际智慧城市科技股份有限公司 应用程序评论的监控方法、装置及存储介质、计算机设备
CN110337008B (zh) * 2019-06-21 2020-10-13 腾讯科技(深圳)有限公司 视频互动调整方法、装置、设备及存储介质
CN111090813B (zh) * 2019-12-20 2021-09-28 腾讯科技(深圳)有限公司 一种内容处理方法、装置和计算机可读存储介质
CN111641859B (zh) * 2020-05-22 2023-08-25 腾讯科技(深圳)有限公司 显示信息方法和装置、计算机可读的存储介质及电子装置
CN112364154A (zh) * 2020-11-10 2021-02-12 北京乐学帮网络技术有限公司 一种评论内容显示方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929861B (zh) * 2012-10-22 2015-07-22 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和系统
US9223831B2 (en) * 2013-01-02 2015-12-29 Codeq Llc System, method and computer program product for searching summaries of mobile apps reviews
CN106528525B (zh) * 2016-09-30 2021-02-12 广州酷狗计算机科技有限公司 一种识别排行榜作弊的方法和装置
CN107330613A (zh) * 2017-06-29 2017-11-07 平安万家医疗投资管理有限责任公司 一种舆情监控方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN108304452A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304452B (zh) 文章处理方法及装置、存储介质
US10977447B2 (en) Method and device for identifying a user interest, and computer-readable storage medium
US20200175397A1 (en) Method and device for training a topic classifier, and computer-readable storage medium
CN107908619B (zh) 基于舆情监控的处理方法、装置、终端及计算机存储介质
CN108319630B (zh) 信息处理方法、装置、存储介质和计算机设备
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN111738011A (zh) 违规文本的识别方法及装置、存储介质、电子装置
CN109803152A (zh) 违规审核方法、装置、电子设备以及存储介质
CN106874253A (zh) 识别敏感信息的方法及装置
CN110909531B (zh) 信息安全的甄别方法、装置、设备及存储介质
CN109194689B (zh) 异常行为识别方法、装置、服务器及存储介质
CN111488623A (zh) 一种网页篡改检测方法及相关装置
CN111538931A (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
CN111680287B (zh) 基于用户隐私保护的应用程序检测方法及装置
CN111435369B (zh) 音乐推荐方法、装置、终端及存储介质
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
US10805255B2 (en) Network information identification method and apparatus
CN109634436A (zh) 输入法的联想方法、装置、设备及可读存储介质
CN113190646A (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN114978624A (zh) 钓鱼网页检测方法、装置、设备及存储介质
CN110765261A (zh) 潜在专利纠纷的监控方法、装置、服务器和存储介质
CN108197105B (zh) 自然语言处理方法、装置、存储介质及电子设备
CN109726726B (zh) 视频中的事件检测方法及装置
CN113626624A (zh) 一种资源识别方法和相关装置
WO2024055603A1 (zh) 一种未成年人文本识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant