CN105245380B - 一种消息的传播方式识别方法及装置 - Google Patents

一种消息的传播方式识别方法及装置 Download PDF

Info

Publication number
CN105245380B
CN105245380B CN201510690048.4A CN201510690048A CN105245380B CN 105245380 B CN105245380 B CN 105245380B CN 201510690048 A CN201510690048 A CN 201510690048A CN 105245380 B CN105245380 B CN 105245380B
Authority
CN
China
Prior art keywords
propagation
message
diffusion coefficient
mode
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510690048.4A
Other languages
English (en)
Other versions
CN105245380A (zh
Inventor
卢铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510690048.4A priority Critical patent/CN105245380B/zh
Publication of CN105245380A publication Critical patent/CN105245380A/zh
Application granted granted Critical
Publication of CN105245380B publication Critical patent/CN105245380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/508Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement
    • H04L41/5093Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement wherein the managed service relates to messaging or chat services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种消息的传播方式识别方法及装置。该传播方式识别方法可以通过获取消息在每级传播单元上的扩散系数,然后根据消息在每级传播单元上的扩散系数识别消息的传播方式;与现有技术相比,实现了消息的传播方式的识别,便于后续对消息的分析或者处理。

Description

一种消息的传播方式识别方法及装置
技术领域
本发明属于通信技术领域,尤其涉及一种消息的传播方式识别方法及装置。
背景技术
随着智能终端的普及,越来越多用户使用智能终端进行学习、娱乐等等,不仅丰富用户生活,还给用户带来便利。
而伴随着智能终端的发展,各种智能终端的应用程序也被开发出来,以满足用户的不同应用需求;例如社交应用程序(APP),游戏应用程序等等。
其中,社交APP是通过互联网传递消息或者分享消息的软件,例如手机微信、手机QQ等。在实际应用中,出于某些考虑比如信息安全、网络文明、消息分析,趋势分析等考虑,社交APP开发方需要对某些消息的传播进行监控,统计这些消息在某一时间段内的转发情况,以便衡量该消息的相关属性。例如腾讯公司需要对微信朋友圈分享或者转发的热门消息(图片、链接或者文字消息等)的传播进行监控,统计某一时间段内,消息的总转发量和转发增量,以便根据统计结果衡量消息的热门程度或趋势等。
然而,目前对消息传播的监控或者分析,仅限于对消息传播结果进行统计,没有对消息的传播方式进行挖掘,因此,无法知晓消息是如何传播起来的,进而无法识别出消息的传播方式。目前传播方式主要可划分为两大类,一种是自然传播,即在没有外力因素干扰下的消息传播、另一种是非自然传播,即在外力因素干扰下的消息传播。
比如,对于同样两个热门消息,一个可能因为其质量高而被自然地传播开来,一个可能质量低劣,却通过人工运营(蓄意用大量号对消息进行转发)也被传播开来;现有技术只能对消息传播结果进行统计,得出这两个消息均是热门消息,但其并不能够识别这两个消息的传播方式,传播方式具体地无法识别出这两个消息各自的传播方式是自然传播还是非自然传播,进而无法识别消息是自然传播消息还是非自然传播消息。
因此,现有技术无法识别出消息的传播方式的技术问题急需解决。
发明内容
本发明的目的在于提供种消息的传播方式识别方法及装置,以解决现有技术无法识别出消息的传播方式的技术问题。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明的实施例提供了一种消息的传播方式识别方法,包括:
获取在预设时间段内传播消息的传播单元的总级数,所述传播单元包括至少一个用于传播所述消息的传播节点,所述总级数为n,n≥1;
获取所述消息在每一级传播单元上的扩散系数,所述消息在i级传播单元上的扩散系数为i级传播单元中传播节点传播所述消息的平均次数,0≤i≤n-1;
根据所述消息在每一级传播单元上的扩散系数识别所述消息的传播方式。
在本发明的传播方式识别方法中,所述根据所述消息在每一级传播单元上的扩散系数识别所述消息的传播方式的步骤包括:
根据所述消息在每一级传播单元的扩散系数生成所述消息的扩散系数直方图;
根据所述扩散系数直方图识别所述消息的传播方式。
在本发明的传播方式识别方法中,所述根据所述扩散系数直方图识别所述消息的传播方式的步骤包括:
根据所述扩散系数直方图和预设分类模型识别所述消息的传播方式;其中所述预设分类模型包括:通过预设训练样本构建的分类模型,所述预设训练样本包括:多个预设传播方式对应的扩散系数直方图。
在本发明的传播方式识别方法中,所述根据所述扩散系数直方图和预设分类模型识别所述消息的传播方式的步骤包括:
从所述扩散系数直方图中提取所述消息的传播方式识别特征;
根据所述传播方式识别特征和预设分类模型识别所述消息的传播方式。
在本发明的传播方式识别方法中,所述消息的传播方式包括:非自然传播和自然传播;所述根据所述传播识别特征和预设分类模型识别所述消息的传播方式的步骤包括:
根据所述消息的传播方式识别特征和所述预设分类模型计算出所述消息的传播方式为非自然传播的概率;
将所述概率与预设概率进行比较;
当所述概率大于所述预设概率,则确定所述消息的传播方式为非自然传播。
在本发明的传播方式识别方法中,所述消息的传播方式包括:非自然传播和自然传播;所述根据所述传播识别特征和预设分类模型识别所述消息的传播方式的步骤包括:
根据所述消息的传播识别特征和所述预设分类模型计算出所述消息的传播方式为非自然传播的第一概率、以及所述消息的传播方式为自然传播的第二概率;
根据所述第一概率和所述第二概率识别所述消息的传播方式是自然传播还是非自然传播。
本发明的实施例还提供了一种消息的传播方式识别装置,包括:
级数获取模块,用于获取在预设时间段内传播消息的传播单元的总级数,所述传播单元包括至少一个用于传播所述消息的传播节点,所述总级数为n,n≥1;
系数获取模块,用于获取所述消息在每一级传播单元上的扩散系数,所述消息在i级传播单元上的扩散系数为i级传播单元中传播节点传播所述消息的平均次数,0≤i≤n-1;
识别模块,用于根据所述消息在每一级传播单元上的扩散系数识别所述消息的传播方式。
在本发明的传播方式识别装置中,所述消息的传播方式包括:自然传播和非自然传播。
在本发明的传播方式识别装置中,所述识别模块具体包括:
图形生成子模块,用于根据所述消息在每一级传播单元的扩散系数生成所述消息的扩散系数直方图;
识别子模块,用于根据所述扩散系数直方图识别所述消息的传播方式。
在本发明的传播方式识别装置中,所述识别子模块,具体用于:
根据所述扩散系数直方图和预设分类模型识别所述消息的传播方式;其中所述预设分类模型包括:通过预设训练样本构建的分类模型,所述预设训练样本包括:多个预设传播方式对应的扩散系数直方图。
在本发明的传播方式识别装置中,所述识别子模块,具体用于:
从所述扩散系数直方图中提取所述消息的传播方式识别特征;
根据所述传播方式识别特征和预设分类模型识别所述消息的传播方式。
本发明的实施例提供了一种消息的传播方式识别方法及装置,本发明实施例的消息的传播方式识别方法可以通过获取消息在每个传播级上的扩散系数,然后根据消息在每个传播级上的扩散系数识别消息的传播方式;由于每个传播方式的消息在传播过程中扩散系数是不相同的,例如在自然传播过程中的扩散系数与在非自然传播过程中的扩散系数不相同,因此,可以利用消息在传播级上的扩散系数来识别消息的传播方式,进而可挖掘出消息的传播方式,便于后续对消息的分析或者处理。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1为本发明实施例一提供的一种消息的传播方式识别方法的流程示意图;
图2为本发明实施例一提供的一种消息传播的示意图;
图3为本发明实施例二提供的一种消息的传播方式识别方法的流程示意图;
图4为本发明实施例二提供的一种消息自然传播的扩散系数直方图;
图5为本发明实施例二提供的一种消息非自然传播的扩散系数直方图;
图6为本发明实施例三提供的一种消息的传播方式识别方法的流程示意图;
图7为本发明实施例四提供的一种消息的传播方式识别装置的结构示意图;
图8为本发明实施例四提供的另一种消息的传播方式识别装置的结构示意图;
图9为本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
实施例一:
请参阅图1,图1为本发明实施例一提供的一种消息的传播方式识别方法的流程示意图。本实施例的传播方式识别方法包括:
步骤101,获取在预设时间段内传播消息的传播单元的级数,所述传播单元包括至少一个用于传播所述消息的传播节点。
本实施例中消息的类型可以包括:图片、视频、文字、链接地址中的至少一种。该消息可以为社交APP转发或者分享的消息,例如可以为微信或者QQ转发或者分享的消息。
本实施例中预设时间段可以根据实际情况进行设定,可以在一天、一个星期等,例如当需要分析一天内容微信转发的消息的情况下,可以设定预设时间为一天(9月28日到10月28日)。
在消息传播过程中消息是从消息源通过多个传播级一级级传播的,即通过多级传播单元传播,在消息传播过程中传播单元的总级数一般大于或等于2,例如消息通过零级传播单元、一级传播单元、二级传播单元……N级传播级进行传播,其中零级传播单元通常只包括一个传播节点,即为消息源。本实施例中传播单元由处于同一级的传播节点组成,例如所有处于N级的传播节点组成了N级传播单元。其中,传播节点用于将消息从上一级传播单元中的传播节点传递到下一级传播单元中的传播节点,例如,N级传播单元中的传播节点,用于将消息从N-1级传播单元中的传播节点传递到N+1级传播单元中的传播节点。
具体地,本步骤可以统计在预设时间段内传播消息的传播单元的级数,也即统计在预设时间段内有多少级的传播单元传播了该消息,例如传播单元的级数为N时,也即表明有N级传播单元传播了该消息。
请参考图2,为一种消息传播过程的示意图。图2中,消息经过零级传播单元(由于零级传播单元只有一个传播节点,该零级传播单元即为消息源)、一级传播单元、二级传播单元……N级传播单元(N为大于2的正整数)进行传播;其中,一级传播单元包括:4个一级传播节点,二级传播单元包括:11个二级传播节点。
步骤102,获取消息在每一级传播单元上的扩散系数,该消息在i级传播单元上的扩散系数为i级传播单元中传播节点传播所述消息的平均次数,0≤i≤n-1。
本实施例中在获取传播消息的传播单元的总级数之后,可以计算出消息在每一级传播单元上的扩散系数,所述消息在某一级传播单元上的扩散系数为该级传播单元中传播节点传播该消息的平均次数,也即下一级传播单元中传播节点与该级传播单元中传播节点之比。
例如,在确定消息经过n级传播单元传播后,依次计算消息在零级传播单元上的扩散系数、消息在一级传播单元上的扩散系数、消息在二级传播单元上的扩散系数……消息在m级传播单元上的扩散系数……消息在n-1级传播单元上的扩散系数,其中2<m<n-1。
具体地,获取消息在i级传播单元上的扩散系数的方式包括:
直接统计i级传播单元中每个传播节点传播消息的次数,然后计算i级传播单元传播消息的总次数,最后将总次数除以i级传播单元中传播节点的总个数,即得到消息在i级传播单元上的扩散系数;
获取i+1级传播单元中传播节点数量a和i级传播单元中传播节点数量b,然后用b除以a,即得到消息在i级传播单元上的扩散系数;例如参考图2,采用该种方式可以计算出消息在零级传播单元上的扩散系数为4,消息在一级传播单元上的扩散系数为11/4,以此类推,可以计算出消息在三级传播单元的扩散系数等等。
步骤103,根据消息在每一级传播单元上的扩散系数识别所述消息的传播方式。
具体地,当有n级传播单元时,获取消息在每一级传播单元上的扩散系数,得到n个扩散系数,然后根据n个扩散系统来识别消息的传播方式。
优选地,本实施例中消息的传播方式可以包括:自然传播和非自然传播。其中自然传播指的是:消息在没有外力因素干扰情况下的传播,其中外力因素主要指人工运营,例如自然传播可以为高质量消息的正常传播;非自然传播指的是:消息在外力因素干扰情况下的传播,例如通过人工运营,蓄意加速、加大消息传播,该传播即可非自然传播。
应当理解的是:虽然本实施例仅介绍了两种优选传播方式的划分,然后在实际应用中可以根据消息监控需求、消息分析需求或者消息传播的特点等划分多种传播方式。
优选地,本实施例的识别方法可以由后台服务器执行,例如某个社交App对应的后台服务器执行,当然也可以由其他网络设备来执行。
由于不同传播方式传播消息时扩散系数不相同,因此本实施例的传播方式识别方法可以通过消息在每一级传播单元上的扩散系数来识别消息的传播方式,例如识别消息的传播方式是否是非自然传播,或者自然传播,在得到消息的传播方式后,即得到该消息是哪种传播方式传播的消息,例如非自然传播消息或者自然传播消息;采用本实施例方法可以实现识别消息的传播方式,可以使社交软件开发方了解社交APP传播的热门消息是如何传播起来,便于对消息的管理或者处理。
实施例二:
请参阅图3,图3为本发明实施例二提供的一种消息的传播方式识别方法。该传播方式识别方法,包括:
步骤301,在预设时间段内传播消息的传播单元的总级数,所述传播单元包括至少一个用于传播所述消息的传播节点,所述总级数为n,n≥1。
比如,需要识别微信朋友圈的某个热门消息的传播方式时,首先确定一个时间段,然后统计在该时间段传播该热门消息的传播单元的总级数,该总级数为n。
步骤302,获取消息在每一级传播单元上的扩散系数,所述消息在i级传播单元上的扩散系数为i级传播单元中传播节点传播所述消息的平均次数,0≤i≤n-1。
比如,在有n级传播单元传播上述微信朋友圈转发的热门消息时,获取该热门消息在每一级传播单元上的扩散系数,这里可以获取n个扩散系数;具体地,获取该热门消息在零级传播单元上的扩散系数(以下简称,零级扩散系统)、该热门消息在一级传播单元上的扩散系数(以下简称,一级扩散系统)、该热门消息在二级传播单元上的扩散系数(以下简称,二级扩散系统)……该热门消息在m级传播单元上的扩散系数(以下简称,m级扩散系统)……该热门消息在n-1级传播单元上的扩散系数,其中2<m<n-1。本实施例获取扩散系数的方式可以参考上述实施例一的介绍。
步骤303,根据消息在每个传播级上的扩散系数生成所述消息的扩散系数直方图。
具体地,在获取热门消息在每一级传播单元上的扩散系数之后,这里获取n个扩散系数,然后生成该消息的扩散系数直方图,扩散系数直方图的横轴表示扩散系数的类型,比如零级扩散系数、一级扩散系数……n级扩散系数;扩散系数直方图的纵轴表示扩散系数的系数值,参考图4,图4为自然传播消息的扩散系数直方图,其横轴表示扩散系数类型,纵轴表示扩散系数的数值。
步骤304,根据扩散系数直方图识别消息的传播方式。
具体地,由于不同的消息传播方式对应的扩散系数直方图不相同,本实施例可以基于扩散系数直方图来识别消息的传播方式,例如识别微信朋友圈的热门消息的传播方式是否为自然或者非自然传播。参考图4和图5,其中图5为非自然传播消息的扩散系数直方图;比较图4和图5,对于自然传播消息,在自然传播过程中,每级扩散系数相差不会很大,一开始传播可能比较慢,但由于稳定的扩散系数,后面传播将呈级数增长;而对于非自然传播消息,在有人为因素干扰的情况下,一开始的扩散系数会比较大,后面将急剧下降;可见消息在自然传播和非自然传播的情况下,扩散系数直方图是不相同;因此为了能够识别消息的传播方式,可以将扩散系数直方图作为传播方式的特征,以此来识别传播方式。
优选地,本实施例可以通过建立分类模型的方式来识别消息的传播方式,具体地,步骤304包括:根据扩散系数直方图和预设分类模型识别消息的传播方式;其中预设分类模型包括:通过预设训练样本构建的分类模型,预设训练样本包括:多个预设传播方式传播消息的扩散系数直方图。
本实施例中可以在执行识别方法之前,预先确定使用的分类模型,例如确定使用SVM、决策树等分类模型,然后再选取一定量预设传播方式对应的扩散系数直方图作为训练样本,例如选取多个自然传播对应的扩散系数直方图、和/或多个非自然传播对应的扩散系数直方图作为训练样本,接着以选取的训练样本训练分类模型;这样,在传播方式识别时,可以根据当前消息的扩散系数直方图和预先训练出的分类模型识别该消息的传播方式。例如识别该消息的传播方式是自然传播还是非自然传播。
优选地,本实施例中根据所述扩散系数直方图和预设分类模型识别消息的传播方式的过程可以包括:
从扩散系数直方图中提取所述消息的传播方式识别特征;
根据该传播方式识别特征和预设分类模型识别消息的传播方式。
优选地,本实施例中传播方式识别特征为可以用来识别消息传播方式的特征,例如可以包括:所述消息的扩散系数变化规律、和/或消息在预设级传播单元上的扩散系数(例如,消息在一级传播单元上的扩散系数、消息在二级传播单元上的扩散系数)。
例如,当QQ空间分享的热门消息的扩散系数直方图为如图5所示的直方图时,在识别时,可以从图5所示直方图中提取消息的传播方式识别特征(例如从零级扩散系数到n级扩散系数之间的系数值变化走势、和/或一级扩散系数的值、二级扩散系数的值),然后根据该传播方式识别特征和预设分类模型识别该热门消息的传播方式;此时,在训练预设分类模型过程中需要从训练样本中提取传播方式识别特征来训练分类模型。
本实施例方法可以将消息传播方式对应的扩散系数直方图作为识别特征,通过预先建立的分类模型和当前消息的传播方式的直方图来识别当前消息的传播方式;本发明的消息识别方法具有实施简单,成本低、识别精度高、应用范围广等优点。
实施例三:
请参阅图6,图6为本发明实施例三提供的一种消息的传播方式识别方法。该传播方式识别方法包括:
步骤601,统计在预设时间段内传播热门消息的传播单元的总级数。
本实施例中热门消息可以为社交APP或者社交网站或者新闻网站传播的热门消息,本实施例虽然以消息为例来介绍本发明的方法,但应当理解的是,其他消息也同样适用于本发明的识别方法。
比如,统计在一天内传播微信朋友圈或者qq空间消息(文章或者网址链接)的传播单元的总级数,例如为n级,即消息经过n级传播单元传播。
步骤602,计算该热门消息在每一级传播单元上的扩散系数。
具体扩散系数计算方式可以参考实施例一种的相关描述。
步骤603,根据该热门消息在每一级传播单元上的扩散系数生成对应的扩散系数直方图。
在获取扩散系数之后,可以绘制对应的扩散系数直方图,可以参考图4或5.
步骤604,从该扩散系数直方图中提取该热门消息的传播方式识别特征。
具体地,可以从扩散系数直方图中提取扩散系数变化规律、和/或消息在预设级传播单元上的扩散系数。例如,获取从零级扩散系数到n级扩散系数之间的系数值变化,一级扩散系数,二级扩散系数等。
步骤605,根据该热门消息的传播方式识别特征和预设分类模型计算出该热门消息的传播方式为非自然传播的概率。
本实施例将消息的传播方式划分为自然传播和非自然传播。
具体地,在步骤601之前,需要预先选定使用的分类模型和训练样本,其中训练样本可以为消息自然传播对应的扩散系数直方图、和/或消息非自然传播对应的扩散系数直方图;然后用训练样本训练分类模型,训练出识别所需的分类模型,即为本步骤的预设分类模型;例如可以将自然传播对应的扩散系数直方图作为正例,消息非自然传播对应的扩散系数直方图作为负例训练决策树分类模型,得到识别所需的决策树分类模型。
在识别时,只需根据训练出的分类模型和当前热门消息的扩散系数直方图计算出该热门消息的传播方式为非自然传播的概率A。
步骤606,将上述概率与预设概率进行比较,当上述概率大于预设概率时,确定该热门消息的传播方式为非自然传播,即该热门消息为非自然传播消息。
具体地,在计算出该热门消息的传播方式为非自然传播的概率A之后,将概率A与预设概率B进行比较,当概率A大于概率B时确定该热门消息的传播方式为非自然传播,例如概率A为80%,概率B为60%时,就会确定当前热门消息的传播方式为非自然传播。
本实施例识别方法可以通过消息的扩散系数直方图和预设分类模型计算出该消息的传播方式为非自然传播的概率,然后根据该概率和预设概率的比较结果来识别消息的传播方式是否为非自然传播;本实施例识别方法可以进一步提高传播方式的识别精度,还可以供分析人员根据实际情况设定不同的预设概率,以使本实施例识别方法应用于各种场景,提高方法的应用性。
本实施例中以计算传播方式为非自然传播的概率的方式来进行识别,然而,为了提高识别的精确性,本实施例方法还可以通过分别计算传播方式为自然传播的概率和非自然传播的概率,综合考虑着这两个概率识别消息的传播方式。具体地,上述步骤605可以替换为:根据该热门消息的传播方式识别特征和预设分类模型计算出该热门消息的传播方式为非自然传播的第一概率、以及为自然传播的第二概括;上述步骤606可以替换为:根据第一概率和第二概率识别所述消息的传播方式是自然传播还是非自然传播。例如当第一概率大于第二概率时确定传播方式为非自然传播,当第一概率小于第二概率时确定传播方式为自然传播等等。
实施例四:
为便于更好的实施本发明实施例提供的传播方式识别方法,本发明实施例还提供一种基于上述传播方式识别方法的装置。其中名词的含义与上述提示方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图7,图7为本发明实施例四提供的一种消息的传播方式识别装置的结构示意图。该传播方式识别装置包括:级数获取模块701、系数获取模块702和识别模块703;
其中,级数获取模块701,用于获取在预设时间段内传播消息的传播单元的总级数,传播单元包括至少一个用于传播所述消息的传播节点,所述总级数为n,n≥1;
系数获取模块702,用于获取消息在每一级传播单元上的扩散系数,所述消息在i级传播单元上的扩散系数为i级传播单元中传播节点传播所述消息的平均次数,0≤i≤n-1;
识别模块703,用于根据消息在每一级传播单元上的扩散系数识别所述消息的传播方式。
本实施例中消息的类型可以包括:图片、视频、文字、链接地址中的至少一种。该消息可以为社交APP转发或者分享的消息,例如可以为微信或者QQ转发或者分享的消息。
优选地,所述消息的传播方式包括:自然传播和非自然传播。
优选地,如图8所示,本实施例中识别模块703,具体包括:
图形生成子模块7031,用于根据所述消息在每一级传播单元的扩散系数生成所述消息的扩散系数直方图;
识别子模块7032,用于根据所述扩散系数直方图识别所述消息的传播方式。
优选地,识别子模块7032,具体用于:
根据所述扩散系数直方图和预设分类模型识别所述消息的传播方式;其中所述预设分类模型包括:通过预设训练样本构建的分类模型,所述预设训练样本包括:多个预设传播方式对应的扩散系数直方图。
优选地,识别子模块7032,具体用于:
识别子模块,具体用于:
根据所述扩散系数直方图和预设分类模型识别所述消息的传播方式;其中所述预设分类模型包括:通过预设训练样本构建的分类模型,所述预设训练样本包括:多个预设传播方式对应的扩散系数直方图。
优选地,本实施例中,传播方式识别特征包括:扩散系数变化规律、和/或所述消息在预设级传播单元上的扩散系数。
优选地,当消息的传播方式包括:非自然传播和自然传播时,识别子模块,具体用于:
根据所述消息的传播方式识别特征和所述预设分类模型计算出所述消息的传播方式为非自然传播的概率;
将所述概率与预设概率进行比较;
当所述概率大于所述预设概率,则确定所述消息的传播方式为非自然传播。
优选地,当消息的传播方式包括:非自然传播和自然传播时,识别子模块,具体用于:
根据所述消息的传播识别特征和所述预设分类模型计算出所述消息的传播方式为非自然传播的第一概率、以及所述消息的传播方式为自然传播的第二概率;
根据所述第一概率和所述第二概率识别所述消息的传播方式是自然传播还是非自然传播。具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上述可知,本实施例消息的传播方式识别装置可以应用于后台服务器中,例如社交应用程序或者游戏应用程序对应的后台服务器;采用本实施例的传播方式识别装置可以通过获取消息在每个传播级上的扩散系数,然后根据消息在每个传播级上的扩散系数识别消息的传播方式;由于每个传播方式的消息在传播过程中扩散系数是不相同的,例如在自然传播过程中的扩散系数与在非自然传播过程中的扩散系数不相同,因此,可以利用消息在传播级上的扩散系数来识别消息的传播方式,进而可挖掘出消息的传播方式,便于后续对消息的分析或者处理;另外,还可以提高信息安全、规范网络文明等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对消息的传播方式识别方法的详细描述,此处不再赘述。
本发明实施例提供的所述传播方式识别装置,譬如为计算机、平板电脑、具有触摸功能的手机等等,所述传播方式识别装置与上文实施例中的传播方式识别方法属于同一构思,在所述传播方式识别装置上可以运行所述传播方式识别方法实施例中提供的任一方法,其具体实现过程详见所述提示方法实施例,此处不再赘述。
如图9所示,本实施例还提供了一种服务器,该服务器用于实施上述实施例中提供的消息的传播方式识别方法。
服务器包括处理器(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104,以及连接系统存储器1104和处理器1101的系统总线1105。所述服务器还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
所述服务器包括处理器(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104,以及连接系统存储器1104和处理器1101的系统总线1105。所述服务器还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到处理器1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到处理器1101。所述大容量存储设备1107及其相关联的计算机可读介质为客户端设备提供非易失性存储。也就是说,所述大容量存储设备1107可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
根据本发明的各种实施例,所述服务器还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的模块,所述一个或者一个以上模块存储于存储器中,且被配置由一个或多个处理器1101执行,所述一个或多个模块具有如下功能:
获取在预设时间段内传播消息的传播单元的总级数,所述传播单元包括至少一个用于传播所述消息的传播节点,所述总级数为n,n≥1;
获取所述消息在每一级传播单元上的扩散系数,所述消息在i级传播单元上的扩散系数为i级传播单元中传播节点传播所述消息的平均次数,0≤i≤n-1;
根据所述消息在每一级传播单元上的扩散系数识别所述消息的传播方式。
优选地,所述消息的传播方式包括:自然传播和非自然传播。
优选地,根据所述消息在每一级传播单元上的扩散系数识别所述消息的传播方式的步骤具体包括:
根据所述消息在每一级传播单元的扩散系数生成所述消息的扩散系数直方图;
根据所述扩散系数直方图识别所述消息的传播方式。
优选地,所述根据所述扩散系数直方图识别所述消息的传播方式的步骤具体包括:
根据所述扩散系数直方图和预设分类模型识别所述消息的传播方式;其中所述预设分类模型包括:通过预设训练样本构建的分类模型,所述预设训练样本包括:多个预设传播方式对应的扩散系数直方图。
需要说明的是,对本发明所述消息的传播方式识别方法而言,本领域普通测试人员可以理解实现本发明实施例所述传播方式识别方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在终端的存储器中,并被该终端内的至少一个处理器执行,在执行过程中可包括如所述传播方式识别方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read OnlyMemory)、随机存取记忆体(RAM,Random Access Memory)等。
对本发明实施例的所述传播方式识别装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本发明实施例提供的一种消息的传播方式识别方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种消息的传播方式识别方法,其特征在于,包括:
获取在预设时间段内传播消息的传播单元的总级数,所述传播单元包括至少一个用于传播所述消息的传播节点,所述总级数为n,n≥1;所述预设时间段能够根据实际需求进行调节;
获取所述消息在每一级传播单元上的扩散系数,所述消息在i级传播单元上的扩散系数为i+1级传播单元中传播节点数量与所述i级传播单元中传播节点数量的比值;
根据所述消息在每一级传播单元上的扩散系数生成所述消息的扩散系数直方图;
从所述扩散系数直方图中提取所述消息的传播方式识别特征,所述传播方式识别特征包括所述消息的扩散系数变化规律;
根据所述消息的传播方式识别特征和预设分类模型计算所述消息的传播方式为非自然传播的第一概率;
根据所述消息的传播方式为非自然传播的第一概率识别所述消息的传播方式是否为非自然传播;
其中,所述预设分类模型通过预设训练样本训练得到,所述预设训练样本以自然传播对应的扩散系数直方图为正例,以非自然传播对应的扩散系统直方图为负例。
2.如权利要求1所述的消息的传播方式识别方法,其特征在于,所述根据所述消息的传播方式为非自然传播的第一概率识别所述消息的传播方式是否为非自然传播包括:
将所述第一概率与预设概率进行比较;
当所述第一概率大于所述预设概率,则确定所述消息的传播方式为非自然传播。
3.如权利要求1所述的消息的传播方式识别方法,其特征在于,所述根据所述消息的传播方式为非自然传播的第一概率识别所述消息的传播方式是否为非自然传播包括:
根据所述消息的传播识别特征和所述预设分类模型计算出所述消息的传播方式为自然传播的第二概率;
根据所述第一概率和所述第二概率识别所述消息的传播方式是自然传播还是非自然传播。
4.一种消息的传播方式识别装置,其特征在于,包括:
级数获取模块,用于获取在预设时间段内传播消息的传播单元的总级数,所述传播单元包括至少一个用于传播所述消息的传播节点,所述总级数为n,n≥1;所述预设时间段能够根据实际需求进行调节;
系数获取模块,用于获取所述消息在每一级传播单元上的扩散系数,所述消息在i级传播单元上的扩散系数为i+1级传播单元中传播节点数量与所述i级传播单元中传播节点数量的比值;
图形生成模块,用于根据所述消息在每一级传播单元上的扩散系数生成所述消息的扩散系数直方图;
识别模块,用于从所述扩散系数直方图中提取所述消息的传播方式识别特征,所述传播方式识别特征包括所述消息的扩散系数变化规律;根据所述消息的传播方式识别特征和预设分类模型计算所述消息的传播方式为非自然传播的第一概率;根据所述消息的传播方式为非自然传播的第一概率识别所述消息的传播方式是否为非自然传播;
其中,所述预设分类模型通过预设训练样本训练得到,所述预设训练样本以自然传播对应的扩散系数直方图为正例,以非自然传播对应的扩散系统直方图为负例。
5.一种服务器,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~3中任一项所述的消息的传播方式识别方法。
6.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如权利要求1-3任意一项所述的消息的传播方式识别方法。
CN201510690048.4A 2015-10-21 2015-10-21 一种消息的传播方式识别方法及装置 Active CN105245380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510690048.4A CN105245380B (zh) 2015-10-21 2015-10-21 一种消息的传播方式识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510690048.4A CN105245380B (zh) 2015-10-21 2015-10-21 一种消息的传播方式识别方法及装置

Publications (2)

Publication Number Publication Date
CN105245380A CN105245380A (zh) 2016-01-13
CN105245380B true CN105245380B (zh) 2021-02-12

Family

ID=55042891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510690048.4A Active CN105245380B (zh) 2015-10-21 2015-10-21 一种消息的传播方式识别方法及装置

Country Status (1)

Country Link
CN (1) CN105245380B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407324A (zh) * 2016-08-31 2017-02-15 北京城市网邻信息技术有限公司 联系方式识别方法及装置
CN108322316B (zh) * 2017-01-17 2021-10-19 阿里巴巴(中国)有限公司 确定信息传播热度的方法、装置及计算设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279868B (zh) * 2013-05-22 2016-08-17 兰亭集势有限公司 一种自动识别欺诈订单的方法和装置
CN103530402A (zh) * 2013-10-23 2014-01-22 北京航空航天大学 一种基于改进的PageRank的微博关键用户识别方法
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置

Also Published As

Publication number Publication date
CN105245380A (zh) 2016-01-13

Similar Documents

Publication Publication Date Title
US10891322B2 (en) Automatic conversation creator for news
CN110598157B (zh) 目标信息识别方法、装置、设备及存储介质
US20160239581A1 (en) Tracking changes in user-generated textual content on social media computing platforms
US10031901B2 (en) Narrative generation using pattern recognition
JP6776310B2 (ja) ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN109829164B (zh) 用于生成文本的方法和装置
CN109614327B (zh) 用于输出信息的方法和装置
US20130103772A1 (en) Method for an instant messaging system and instant messaging system
CN110866040A (zh) 用户画像生成方法、装置和系统
CN111400170A (zh) 一种数据权限测试方法及装置
CN110738056A (zh) 用于生成信息的方法和装置
CN105245380B (zh) 一种消息的传播方式识别方法及装置
CN110888972A (zh) 一种基于Spark Streaming的敏感内容识别方法及装置
CN113055751B (zh) 数据处理方法、装置、电子设备和存储介质
US9639610B1 (en) Method for gauging public interest in a topic using network analysis of online discussions
CN109656803B (zh) 信息推送方法、装置和电子设备
CN106796587B (zh) 用于验证分析结果的方法和系统
CN117131281A (zh) 舆情事件处理方法、装置、电子设备和计算机可读介质
CN111191242A (zh) 漏洞信息确定方法、装置、计算机可读存储介质及设备
CN110737691B (zh) 用于处理访问行为数据的方法和装置
CN113590447B (zh) 埋点处理方法和装置
CN115249043A (zh) 数据分析方法、装置、电子设备及存储介质
CN111784377B (zh) 用于生成信息的方法和装置
CN109635074B (zh) 一种基于舆情信息的实体关系分析方法及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant