CN110427577B - 内容的影响评估方法、装置、电子设备和存储介质 - Google Patents

内容的影响评估方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110427577B
CN110427577B CN201910563714.6A CN201910563714A CN110427577B CN 110427577 B CN110427577 B CN 110427577B CN 201910563714 A CN201910563714 A CN 201910563714A CN 110427577 B CN110427577 B CN 110427577B
Authority
CN
China
Prior art keywords
content
flow
log
sampling
evaluated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910563714.6A
Other languages
English (en)
Other versions
CN110427577A (zh
Inventor
李文学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN201910563714.6A priority Critical patent/CN110427577B/zh
Publication of CN110427577A publication Critical patent/CN110427577A/zh
Application granted granted Critical
Publication of CN110427577B publication Critical patent/CN110427577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Abstract

本发明提供了一种内容的影响评估方法、装置、电子设备和存储介质,该方法包括:获取发布内容的流量日志;基于每条流量日志被抽中概率一致的抽样算法,对流量日志进行抽样,得到抽检流量日志;获取抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容;根据待评估发布内容和属性信息,识别待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志;根据待测流量日志和抽检流量日志,确定待测内容的影响范围。本发明使用发布内容的流量日志进行抽检,流量大的发布内容被抽检到的概率就大,从而在发布内容的数据量较大的情况下也可以正确评估内容的影响范围,提高了内容影响范围评估的准确性。

Description

内容的影响评估方法、装置、电子设备和存储介质
技术领域
本发明涉及互联网技术领域,特别是涉及一种内容的影响评估方法、装置、电子设备和存储介质。
背景技术
在互联网时代,网上发帖、浏览、购物等行为如家常便饭,那么针对网站的运营者来说,这些用户群体非常庞大,这些用户当中大多数都是一些正常的用户,但是同时也会掺杂着一些用户会发布一些不良内容。
针对庞大的用户群体产生的数据量也是巨大的,当要评估这些不良内容影响的范围的时候,无法逐个进行排查分析。现有技术中,可以通过一些常见的网站数据分析指标(如PV、UV等)进行侧面评估衡量,但是,这种侧面评估的方式结果不理想,不能正确评估内容的影响范围。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种内容的影响评估方法、装置、电子设备和存储介质。
依据本发明实施例的第一方面,提供了一种内容的影响评估方法,包括:
获取发布内容的流量日志;
基于每条流量日志被抽中概率一致的抽样算法,对所述流量日志进行抽样,得到抽检流量日志;
获取所述抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容;
根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志;
根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围。
可选的,所述获取发布内容的流量日志,包括:
从消息队列中获取发布内容的流量日志,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的。
可选的,所述基于每条流量日志被抽中概率一致的抽样算法,对所述流量日志进行抽样,得到抽检流量日志,包括:
基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志。
可选的,所述获取发布内容的流量日志,包括:
将消息队列中的流量日志保存到数据仓库中,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的;
在进行评估时,从所述数据仓库中获取发布内容的流量日志。
可选的,所述基于每条流量日志被抽中概率一致的抽样算法,对所述流量日志进行抽样,得到抽检流量日志,包括:
基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志;或者
基于蓄水池抽样算法,从所述流量日志中抽取设定条数的流量日志,作为抽检流量日志。
可选的,所述根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,包括:
将所述待评估发布内容和属性信息发送给人工审核系统,并接收所述人工审核系统返回的待评估发布内容对应的审核标签;
基于所述审核标签,确定所述待评估发布内容中的待测内容。
可选的,所述将所述待评估发布内容和属性信息发送给人工审核系统,包括:
将所述待评估发布内容和属性信息推送到消息投递通道,通过所述消息投递通道将所述待评估发布内容和属性信息发送给人工审核系统。
可选的,在所述基于所述审核标签,确定所述待评估发布内容中的待测内容时,还包括:
确定所述待测内容对应的等级;
所述根据所述待测流量日志和所述抽检流量日志,确定待测内容的影响范围,包括:
针对每个等级,分别根据对应等级的待测流量日志和抽检流量日志,确定对应等级待测内容的影响范围。
可选的,所述根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围,包括:
统计所述待测流量日志的数量及所述抽检流量日志的总数量;
计算所述数量和所述总数量的百分比,作为所述影响范围。
依据本发明实施例的第二方面,提供了一种内容的影响评估装置,包括:
流量日志获取模块,用于获取发布内容的流量日志;
抽样模块,用于基于每条流量日志被抽中概率一致的抽样算法,对所述流量日志进行抽样,得到抽检流量日志;
详细信息获取模块,用于获取所述抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容;
待测内容识别模块,用于根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志;
影响范围确定模块,用于根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围。
可选的,所述流量日志获取模块具体用于:
从消息队列中获取发布内容的流量日志,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的。
可选的,所述抽样模块包括:
随机抽样单元,用于基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志。
可选的,所述流量日志获取模块包括:
离线存储单元,用于将消息队列中的流量日志保存到数据仓库中,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的;
流量日志获取单元,用于在进行评估时,从所述数据仓库中获取发布内容的流量日志。
可选的,所述抽样模块包括:
随机抽样单元,用于基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志;或者
蓄水池抽样单元,用于基于蓄水池抽样算法,从所述流量日志中抽取设定条数的流量日志,作为抽检流量日志。
可选的,所述待测内容识别模块包括:
人工审核单元,用于将所述待评估发布内容和属性信息发送给人工审核系统,并接收所述人工审核系统返回的待评估发布内容对应的审核标签;
待测内容识别单元,用于基于所述审核标签,确定所述待评估发布内容中的待测内容。
可选的,所述人工审核单元包括:
详细信息发送子单元,用于将所述待评估发布内容和属性信息推送到消息投递通道,通过所述消息投递通道将所述待评估发布内容和属性信息发送给人工审核系统。
可选的,所述待测内容识别单元还用于:
在所述基于所述审核标签,确定所述待评估发布内容中的不良内容时,确定所述待测内容对应的等级;
所述影响范围确定模块具体用于:
针对每个等级,分别根据对应等级的待测流量日志和抽检流量日志,确定对应等级待测内容的影响范围。
可选的,所述影响范围确定模块包括:
数量统计单元,用于统计所述待测流量日志的数量及所述抽检流量日志的总数量;
影响范围确定单元,用于计算所述数量和所述总数量的百分比,作为所述影响范围。
依据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的内容的影响评估方法。
依据本发明实施例的第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的内容的影响评估方法。
本发明实施例提供的内容的影响评估方法、装置、电子设备和存储介质,通过获取发布内容的流量日志,基于每条流量日志被抽中一致的抽样算法,对流量日志进行抽样,得到抽检流量日志,获取抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容,根据所述待评估发布内容和属性信息,识别待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志,根据待测流量日志和抽检流量日志,确定待测内容的影响范围,使用发布内容的流量日志进行抽检,流量大的发布内容被抽检到的概率就大,从而在发布内容的数据量较大的情况下也可以正确评估待测内容的影响范围,提高了内容影响范围评估的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1是本发明实施例提供的一种内容的影响评估方法的步骤流程图;
图2是本发明实施例提供的一种内容的影响评估方法的步骤流程图;
图3是本发明实施例提供的一种内容的影响评估方法的步骤流程图;
图4是本发明实施例提供的一种内容的影响评估装置的结构框图;
图5为本发明实施例提供的一种电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种内容的影响评估方法的步骤流程图,该方法可以应用于互联网平台中来评估内容对整个平台的影响,可以由服务器或者分布式文件存储系统执行,如图1所示,该方法可以包括:
步骤101,获取发布内容的流量日志。
其中,所述发布内容可以是帖子或者商品等。流量日志是所述发布内容被浏览的日志,发布内容被浏览一次,产生一次流量日志。流量日志包括发布内容标识。
可以实时在线获取发布内容的流量日志,也可以将获取到的流量日志存储到数据仓库中,在进行离线评估时从数据仓库中获取发布内容的流量日志。
步骤102,基于每条流量日志被抽中概率一致的抽样算法,对所述流量日志进行抽样,得到抽检流量日志。
保证每条流量日志被抽中的概率一致,这样流量大的发布内容被抽检到的概率就大,才能对待测内容的影响进行准确评估。因此,要基于每条流量日志被抽中概率一致的抽样算法,对流量日志进行抽样,抽取到的流量日志作为抽检流量日志,用于进行后续待测内容的识别及进行影响评估。
步骤103,获取所述抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容。
其中,发布内容可以是发布的具体内容,例如发布的一个帖子的具体内容或者是发布的商品的信息(例如商品图片及商品描述信息)。属性信息为发布内容的属性信息,例如发布人、发布时间等。发布内容和属性信息可以从发布内容的详情页获取到。
可以根据抽检流量日志中的发布内容标识,获取抽检流量日志对应的发布内容及该发布内容对应的属性信息,将抽检流量日志对应的发布内容作为待评估发布内容,抽检流量日志对应的发布内容的属性信息即是待评估发布内容的属性信息,将待评估发布内容和属性信息作为识别待测内容的基础数据进行后续的识别及影响评估。其中,所述发布内容标识为发布内容的唯一标识,例如可以是URL,从而通过URL可以获取到该发布内容及属性信息。
步骤104,根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志。
其中,所述待测内容可以是一些不良内容,包括违规内容、欺诈内容和违法内容等中的一种或多种,例如涉黄图片等。
对待评估发布内容中的待测内容的识别可以基于人工进行识别,或者,基于机器学习算法进行识别。对于基于机器学习算法进行识别,例如可以采用神经网络模型进行识别,首先收集大量的待测内容及对应的属性信息作为训练数据,使用训练数据对神经网络模型进行训练,神经网络模型训练完成后可以用来识别待测内容。
步骤105,根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围。
可以统计待测内容对应的流量日志的数量和抽取到的流量日志的总数量,根据所述数量和总数量,来确定待测内容的影响范围。
在一种具体的实施方案中,所述根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围,包括:
统计所述待测流量日志的数量及所述抽检流量日志的总数量;
计算所述数量和所述总数量的百分比,作为所述影响范围。
其中,待测内容的影响范围可以是待测内容的流量日志数量占抽检流量日志数量的百分比。
本实施例提供的内容的影响评估方法,通过获取发布内容的流量日志,基于每条流量日志被抽中一致的抽样算法,对流量日志进行抽样,得到抽检流量日志,获取抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容,根据所述待评估发布内容和属性信息,识别待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志,根据待测流量日志和抽检流量日志,确定待测内容的影响范围,使用发布内容的流量日志进行抽检,流量大的发布内容被抽检到的概率就大,从而在发布内容的数据量较大的情况下也可以正确评估待测内容的影响范围,提高了待测内容影响范围评估的准确性。
在上述技术方案的基础上,所述根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,可选包括:
将所述待评估发布内容和属性信息发送给人工审核系统,并接收所述人工审核系统返回的待评估发布内容对应的审核标签;
基于所述审核标签,确定所述待评估发布内容中的待测内容。
将所述待评估发布内容和属性信息发送给人工审核系统,由人工审核系统进行显示,由人工进行审核打标签,并接收人工对待评估发布内容的审核标签,将审核标签发送给执行待测内容的影响评估方法的服务器,服务器接收对应的审核标签,基于对审核标签的识别,确定待评估发布内容中的待测内容。其中,待测内容和正常内容的审核标签不同,从而可以基于审核标签识别待评估发布内容中的待测内容。基于人工审核识别待评估发布内容中的待测内容,识别的较为准确,从而可以提高内容的影响评估的准确性。
在上述技术方案的基础上,所述将所述待评估发布内容和属性信息发送给人工审核系统,可选包括:
将所述待评估发布内容和属性信息推送到消息投递通道,通过所述消息投递通道将所述待评估发布内容和属性信息发送给人工审核系统。
消息投递通道主要用来缓解人工审核系统承担分布式文件存储系统并发投递消息的压力,同时可以针对流量日志获取到待评估发布内容和属性信息,即获取到发布内容的详情页的内容,从而使人工可以正常审核。将待评估发布内容和属性信息推送到消息投递通道,从而人工审核系统可以从消息投递通道获取待评估发布内容和属性信息,并进行人工审核。通过消息投递通道减轻了并发投递消息的压力。
在上述技术方案的基础上,在所述基于所述审核标签,确定所述待评估发布内容中的待测内容时,还包括:确定所述待测内容对应的等级;
所述根据所述待测流量日志和所述抽检流量日志,确定待测内容的影响范围,包括:针对每个等级,分别根据对应等级的待测流量日志和抽检流量日志,确定对应等级待测内容的影响范围。
通过人工审核系统进行审核时,可以根据待测内容的不良情况设置对应等级的审核标签,即每个等级的审核标签不同,从而在基于审核标签确定待评估发布内容中的待测内容时,可以同时确定待测内容对应的等级,例如涉及业务违规的发布内容为一级不良内容,涉及业务欺诈的待测内容为二级不良内容,涉及违法的待测内容(如涉黄信息、涉暴信息等)为三级不良内容。在评估待测内容的影响范围时,针对每个等级,分别根据对应等级的待测流量日志的数量和抽检流量日志的总数量,确定对应等级待测内容的影响范围,实现了对不同等级的待测内容的影响范围的评估。
图2是本发明实施例提供的一种内容的影响评估方法的步骤流程图,本实施例可以在线对内容进行影响评估,如图2所示,该方法可以包括:
步骤201,从消息队列中获取发布内容的流量日志,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的。
其中,消息队列是在消息的传输过程中保存消息的容器。消息队列管理器在将消息从它的源中继到它的目标时充当中间人。队列的主要目的是提供路由并保证消息的传递;如果发送消息时接收者不可用,消息队列会保留消息,直到可以成功地传递它。目前开源产品主要包括:kafka、MetaQ、rabbitMQ等。这些消息队列中的消息可以供多个消费者进行消费,多个消费者可以订阅消息队列中的消息,并各自保存对应的指针,用于指示已读取到的位置,下次读取时,基于该指针指示的位置进行读取。
日志收集设备收集到流量日志后,将收集到的流量日志推送到消息队列中,供实时进行待测内容的影响评估消费,或者是存储到数据仓库中,供离线进行待测内容的影响评估。流量日志收集设备可以是分布式文件存储系统中的一个节点。分布式文件存储系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件存储系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色,比较常见的开源产品如Hadoop的HDFS。
在本实施例中,从消息队列中获取发布内容的流量日志,用于实时在线进行待测内容的影响评估。
步骤202,基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志。
在进行在线抽检时,不能确定被抽检的日志的准确量值是多少,而且还要保证每条日志被抽中的概率一致,这时可以采用随机抽样算法。在抽取每一条流量日志时,根据设定比例生成对应的随机数,从而可以基于随机数控制所要抽检的比例,从而使得抽检流量日志与整体流量日志的比例为设定比例。
步骤203,获取所述抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容。
本步骤的具体内容与上述实施例中步骤103的具体内容相同,这里不再赘述。
步骤204,根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志。
本步骤的具体内容与上述实施例中步骤104的具体内容相同,这里不再赘述。
步骤205,根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围。
本步骤的具体内容与上述实施例中步骤105的具体内容相同,这里不再赘述。
本实施例提供的内容的影响评估方法,通过从消息队列中获取发布内容的流量日志,并基于随机抽样算法,从流量日志中抽取设定比例的流量日志,作为抽检流量日志,基于该抽检流量日志对待测内容的影响进行在线评估,提高了在线进行内容影响评估的准确性。
图3是本发明实施例提供的一种内容的影响评估方法的步骤流程图,本实施例可以离线对内容进行影响评估,如图3所示,该方法可以包括:
步骤301,将消息队列中的流量日志保存到数据仓库中,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的。
其中,消息队列是在消息的传输过程中保存消息的容器。消息队列管理器在将消息从它的源中继到它的目标时充当中间人。队列的主要目的是提供路由并保证消息的传递;如果发送消息时接收者不可用,消息队列会保留消息,直到可以成功地传递它。目前开源产品主要包括:kafka、MetaQ、rabbitMQ等。这些消息队列中的消息可以供多个消费者进行消费,多个消费者可以订阅消息队列中的消息,并各自保存对应的指针,用于指示已读取到的位置,下次读取时,基于该指针指示的位置进行读取。
日志收集设备收集到流量日志后,将收集到的流量日志推送到消息队列中,供实时进行不良内容的影响评估消费,或者是存储到数据仓库中,供离线进行不良内容的影响评估。流量日志收集设备可以是分布式文件存储系统中的一个节点。分布式文件存储系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件存储系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色,比较常见的开源产品如Hadoop的HDFS。其中,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持企业的管理和决策。
在本实施例中,将消息队列中的流量日志保存到数据仓库中,便于离线进行待测内容的影响评估。
步骤302,在进行评估时,从所述数据仓库中获取发布内容的流量日志。
在需要对待测内容的影响进行评估时,从数据仓库中获取发布内容的流量日志。
步骤303,基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志;或者,基于蓄水池抽样算法,从所述流量日志中抽取设定条数的流量日志,作为抽检流量日志。
在进行离线抽检时,可以抽取设定比例的流量日志作为抽检流量日志,有可以抽取设定条数的流量日志,作为抽检流量日志,具体可以根据需求选择抽取设定比例的流量日志或者设定条数的流量日志。在抽取设定比例的流量日志时,可以基于随机抽样算法对流量日志进行抽样;在抽取设定条数的流量日志时,可以基于蓄水池抽样算法对流量日志进行抽样。随机抽样算法和蓄水池抽样算法都能够保证每条流量日志被抽中的概率一致。
抽取设定数量的流量日志适用的场景可以是在对流量不同的多个业务线分别进行评估时,可以分别抽取设定数量的流量日志进行评估。例如主要对两个业务线进行抽样,一条业务线流量特别大,另一条业务线流量很少,如果抽取设定比例的流量日志,会导致一条业务线抽样出来的数据量要远远大于另外一条业务线,所以这时采用随机抽样方法可能不太适用,因此采用针对每一条业务线设定数量的抽样,主要适用于离线抽样,由于数据量较大,所以不易获知日志总量,日志总量未知,同时抽出来的流量日志数量固定,还要保证每条流量日志被抽中的概率一致,所以主要采用蓄水池抽样算法来进行抽样。
步骤304,获取所述抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容。
本步骤的具体内容与上述实施例中步骤103的具体内容相同,这里不再赘述。
步骤305,根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志。
本步骤的具体内容与上述实施例中步骤104的具体内容相同,这里不再赘述。
步骤306,根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围。
本步骤的具体内容与上述实施例中步骤105的具体内容相同,这里不再赘述。
本实施例提供的内容的影响评估方法,通过将消息队列中的流量日志保存到数据仓库中,在进行评估时从数据仓库中获取发布内容的流量日志,基于随机抽样算法从流量日志中抽取设定比例的流量日志,作为抽检流量日志,或者,基于蓄水池抽样算法从流量日志中抽取设定条数的流量日志,作为抽检流量日志,基于抽检流量日志对待测内容的影响进行离线评估,提高了离线进行内容影响评估的准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图4是本发明实施例提供的一种内容的影响评估装置的结构框图,该内容的影响评估装置可以应用于互联网平台中来评估不良内容对整个平台的影响,可以配置于服务器或者分布式文件存储系统中,如图4所示,该内容的影响评估装置可以包括:
流量日志获取模块401,用于获取发布内容的流量日志;
抽样模块402,用于基于每条流量日志被抽中概率一致的抽样算法,对所述流量日志进行抽样,得到抽检流量日志;
详细信息获取模块403,用于获取所述抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容;
待测内容识别模块404,用于根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志;
影响范围确定模块405,用于根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围。
可选的,所述流量日志获取模块具体用于:
从消息队列中获取发布内容的流量日志,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的。
可选的,所述抽样模块包括:
随机抽样单元,用于基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志。
可选的,所述流量日志获取模块包括:
离线存储单元,用于将消息队列中的流量日志保存到数据仓库中,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的;
流量日志获取单元,用于在进行评估时,从所述数据仓库中获取发布内容的流量日志。
可选的,所述抽样模块包括:
随机抽样单元,用于基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志;或者
蓄水池抽样单元,用于基于蓄水池抽样算法,从所述流量日志中抽取设定条数的流量日志,作为抽检流量日志。
可选的,所述待测内容识别模块包括:
人工审核单元,用于将所述待评估发布内容和属性信息发送给人工审核系统,并接收所述人工审核系统返回的待评估发布内容对应的审核标签;
待测内容识别单元,用于基于所述审核标签,确定所述待评估发布内容中的待测内容。
可选的,所述人工审核单元包括:
详细信息发送子单元,用于将所述待评估发布内容和属性信息推送到消息投递通道,通过所述消息投递通道将所述待评估发布内容和属性信息发送给人工审核系统。
可选的,所述待测内容识别单元还用于:
在所述基于所述审核标签,确定所述待评估发布内容中的待测内容时,确定所述待测内容对应的等级;
所述影响范围确定模块具体用于:
针对每个等级,分别根据对应等级的待测流量日志和抽检流量日志,确定对应等级待测内容的影响范围。
可选的,所述影响范围确定模块包括:
数量统计单元,用于统计所述待测流量日志的数量及所述抽检流量日志的总数量;
影响范围确定单元,用于计算所述数量和所述总数量的百分比,作为所述影响范围。
本实施例提供的内容的影响评估装置,通过流量日志获取模块获取发布内容的流量日志,抽样模块基于每条流量日志被抽中一致的抽样算法,对流量日志进行抽样,得到抽检流量日志,详细信息获取模块获取抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容,待测内容识别模块根据所述待评估发布内容和属性信息,识别待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志,影响范围确定模块根据待测流量日志和抽检流量日志,确定待测内容的影响范围,使用发布内容的流量日志进行抽检,流量大的发布内容被抽检到的概率就大,从而在发布内容的数据量较大的情况下也可以正确评估内容的影响范围,提高了内容影响范围评估的准确性。
图5为本发明实施例提供的一种电子设备的结构框图。如图5所示,该电子设备500可以包括一个或多个处理器501以及与处理器501连接的一个或多个存储器502。电子设备500还可以包括输入接口503和输出接口504,用于与另一装置或系统进行通信。被处理器501的CPU执行的程序代码可存储在存储器502中。
电子设备500中的处理器501调用存储在存储器502的程序代码,以执行上述实施例中的内容的影响评估方法。
处理器为上述电子设备的控制中心,并提供处理装置,用于执行指令,进行中断操作,提供计时功能以及多种其他功能。处理器可为单核(单CPU)处理器或多核(多CPU)处理器。除非另有声明,描述为用于执行任务的例如处理器或存储器的部件可实现为通用部件,其暂时用于在给定时间执行任务,或实现为专门制造用于执行该任务的特定部件。此处所用的术语“处理器”指一个或多个装置,电路和/或处理核,用于处理数据,例如计算机程序指令。
上述电子设备中的上述元件可通过总线彼此连接,总线例如数据总线、地址总线、控制总线、扩展总线和局部总线之一或其任意组合。
根据本发明的一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,存储介质可以是只读存储器(Read-Only Memory,ROM),或是可读写的,例如硬盘、闪存。所述计算机程序被处理器执行时实现前述实施例的内容的影响评估方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种内容的影响评估方法、装置、电子设备和存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种内容的影响评估方法,其特征在于,包括:
获取发布内容的流量日志;
基于每条流量日志被抽中概率一致的抽样算法,对所述流量日志进行抽样,得到抽检流量日志;
获取所述抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容;
根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志;
根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围;
其中,所述基于每条流量日志被抽中概率一致的抽样算法,对所述流量日志进行抽样,得到抽检流量日志,包括:
基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志;或者
基于蓄水池抽样算法,从所述流量日志中抽取设定条数的流量日志,作为抽检流量日志。
2.根据权利要求1所述的方法,其特征在于,所述获取发布内容的流量日志,包括:
从消息队列中获取发布内容的流量日志,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的。
3.根据权利要求2所述的方法,其特征在于,所述基于每条流量日志被抽中概率一致的抽样算法,对所述流量日志进行抽样,得到抽检流量日志,包括:
基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志。
4.根据权利要求1所述的方法,其特征在于,所述获取发布内容的流量日志,包括:
将消息队列中的流量日志保存到数据仓库中,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的;
在进行评估时,从所述数据仓库中获取发布内容的流量日志。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,包括:
将所述待评估发布内容和属性信息发送给人工审核系统,并接收所述人工审核系统返回的待评估发布内容对应的审核标签;
基于所述审核标签,确定所述待评估发布内容中的待测内容。
6.根据权利要求5所述的方法,其特征在于,所述将所述待评估发布内容和属性信息发送给人工审核系统,包括:
将所述待评估发布内容和属性信息推送到消息投递通道,通过所述消息投递通道将所述待评估发布内容和属性信息发送给人工审核系统。
7.根据权利要求5所述的方法,其特征在于,在所述基于所述审核标签,确定所述待评估发布内容中的待测内容时,还包括:
确定所述待测内容对应的等级;
所述根据所述待测流量日志和所述抽检流量日志,确定待测内容的影响范围,包括:
针对每个等级,分别根据对应等级的待测流量日志和抽检流量日志,确定对应等级待测内容的影响范围。
8.根据权利要求1所述的方法,其特征在于,所述根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围,包括:
统计所述待测流量日志的数量及所述抽检流量日志的总数量;
计算所述数量和所述总数量的百分比,作为所述影响范围。
9.一种内容的影响评估装置,其特征在于,包括:
流量日志获取模块,用于获取发布内容的流量日志;
抽样模块,用于基于每条流量日志被抽中概率一致的抽样算法,对所述流量日志进行抽样,得到抽检流量日志;
详细信息获取模块,用于获取所述抽检流量日志对应的发布内容及属性信息,将该发布内容作为待评估发布内容;
待测内容识别模块,用于根据所述待评估发布内容和属性信息,识别所述待评估发布内容中的待测内容,并确定待测内容对应的流量日志,作为待测流量日志;
影响范围确定模块,用于根据所述待测流量日志和所述抽检流量日志,确定所述待测内容的影响范围;
所述抽样模块还包括:
随机抽样单元,用于基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志;或者
蓄水池抽样单元,用于基于蓄水池抽样算法,从所述流量日志中抽取设定条数的流量日志,作为抽检流量日志。
10.根据权利要求9所述的装置,其特征在于,所述流量日志获取模块具体用于:
从消息队列中获取发布内容的流量日志,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的。
11.根据权利要求10所述的装置,其特征在于,所述抽样模块包括:
随机抽样单元,用于基于随机抽样算法,从所述流量日志中抽取设定比例的流量日志,作为抽检流量日志。
12.根据权利要求9所述的装置,其特征在于,所述流量日志获取模块包括:
离线存储单元,用于将消息队列中的流量日志保存到数据仓库中,所述消息队列中的流量日志是由流量日志收集设备收集到消息队列中的;
流量日志获取单元,用于在进行评估时,从所述数据仓库中获取发布内容的流量日志。
13.根据权利要求9所述的装置,其特征在于,所述待测内容识别模块包括:
人工审核单元,用于将所述待评估发布内容和属性信息发送给人工审核系统,并接收所述人工审核系统返回的待评估发布内容对应的审核标签;
待测内容识别单元,用于基于所述审核标签,确定所述待评估发布内容中的待测内容。
14.根据权利要求13所述的装置,其特征在于,所述人工审核单元包括:
详细信息发送子单元,用于将所述待评估发布内容和属性信息推送到消息投递通道,通过所述消息投递通道将所述待评估发布内容和属性信息发送给人工审核系统。
15.根据权利要求13所述的装置,其特征在于,所述待测内容识别单元还用于:
在所述基于所述审核标签,确定所述待评估发布内容中的待测内容时,确定所述待测内容对应的等级;
所述影响范围确定模块具体用于:
针对每个等级,分别根据对应等级的待测流量日志和抽检流量日志,确定对应等级待测内容的影响范围。
16.根据权利要求9所述的装置,其特征在于,所述影响范围确定模块包括:
数量统计单元,用于统计所述待测流量日志的数量及所述抽检流量日志的总数量;
影响范围确定单元,用于计算所述数量和所述总数量的百分比,作为所述影响范围。
17.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-8任一项所述的内容的影响评估方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的内容的影响评估方法。
CN201910563714.6A 2019-06-26 2019-06-26 内容的影响评估方法、装置、电子设备和存储介质 Active CN110427577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910563714.6A CN110427577B (zh) 2019-06-26 2019-06-26 内容的影响评估方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910563714.6A CN110427577B (zh) 2019-06-26 2019-06-26 内容的影响评估方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN110427577A CN110427577A (zh) 2019-11-08
CN110427577B true CN110427577B (zh) 2022-04-19

Family

ID=68409743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910563714.6A Active CN110427577B (zh) 2019-06-26 2019-06-26 内容的影响评估方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110427577B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205146A (zh) * 2015-09-18 2015-12-30 国家计算机网络与信息安全管理中心 一种计算微博用户影响力的方法
CN106549813A (zh) * 2015-09-16 2017-03-29 中兴通讯股份有限公司 一种网络性能的评估方法及系统
CN106780204A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种用于试题题库的评估方法及装置
CN108959364A (zh) * 2018-05-21 2018-12-07 大连理工大学 一种社交媒体事件级新闻中新闻媒体影响力评估方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069667A1 (en) * 2004-09-30 2006-03-30 Microsoft Corporation Content evaluation
CN102315952A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种用于社区网络中检测垃圾帖子的方法与设备
CN102982048B (zh) * 2011-09-07 2017-08-01 百度在线网络技术(北京)有限公司 一种用于评估垃圾信息挖掘规则的方法与设备
CN103020140B (zh) * 2012-11-21 2016-01-20 合一网络技术(北京)有限公司 一种对互联网用户评论内容自动过滤的方法和装置
CN104252679A (zh) * 2013-06-30 2014-12-31 北京百度网讯科技有限公司 一种品牌广告评估体系的构建方法及系统
CN106203864A (zh) * 2016-07-18 2016-12-07 周云 一种基于大数据的品牌资产评估方法及系统
US10330727B2 (en) * 2016-09-15 2019-06-25 Samsung Electronics Co., Ltd. Importance sampling method for multiple failure regions
CN107341095B (zh) * 2017-06-27 2020-07-28 北京优特捷信息技术有限公司 一种智能分析日志数据的方法及装置
CN108920617B (zh) * 2018-06-28 2022-07-12 中译语通科技股份有限公司 一种数据采集的判定系统及方法、信息数据处理终端
CN108984775B (zh) * 2018-07-24 2020-05-22 南京新贝金服科技有限公司 一种基于商品评论的舆情监控方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106549813A (zh) * 2015-09-16 2017-03-29 中兴通讯股份有限公司 一种网络性能的评估方法及系统
CN105205146A (zh) * 2015-09-18 2015-12-30 国家计算机网络与信息安全管理中心 一种计算微博用户影响力的方法
CN106780204A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种用于试题题库的评估方法及装置
CN108959364A (zh) * 2018-05-21 2018-12-07 大连理工大学 一种社交媒体事件级新闻中新闻媒体影响力评估方法

Also Published As

Publication number Publication date
CN110427577A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN108737535B (zh) 一种消息推送方法、存储介质和服务器
CN109118316B (zh) 线上店铺真实性的识别方法和装置
CN103118043A (zh) 一种用户账号的识别方法及设备
CN109684475A (zh) 投诉的处理方法、装置、设备以及存储介质
CN107784205B (zh) 一种用户产品审核的方法、装置、服务器和存储介质
CN109241084B (zh) 数据的查询方法、终端设备及介质
CN110648172B (zh) 一种融合多种移动设备的身份识别方法和系统
CN108920479B (zh) 针对两微一端跨信源账号推荐方法
CN111062770B (zh) 商户识别方法、设备及计算机可读介质
CN109559149A (zh) 一种流量识别处理方法及装置
CN109711849B (zh) 以太坊地址画像生成方法、装置、电子设备及存储介质
CN110309373B (zh) 信息处理方法及装置
CN109711656B (zh) 多系统关联预警方法、装置、设备及计算机可读存储介质
CN111126071A (zh) 提问文本数据的确定方法、装置和客服群的数据处理方法
CN110427577B (zh) 内容的影响评估方法、装置、电子设备和存储介质
CN111373395A (zh) 基于层次聚类的人工智能系统和方法
CN109101577A (zh) 一种数据流通方法、装置及系统
CN110413500B (zh) 基于大数据融合的故障分析方法及装置
CN116738293A (zh) 一种业务评价处理方法、装置及电子设备
CN104915329B (zh) 一种报表生成方法、装置和系统
CN115170073A (zh) 物流仲裁单处理方法、装置、设备及存储介质
RU2372656C2 (ru) Система и способ формирования и распространения информации о товарах
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN112860722A (zh) 数据核对方法、装置、电子设备和可读存储介质
CN112488562A (zh) 一种业务实现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant