CN107967364B - 网络文章传播力评估方法及装置 - Google Patents

网络文章传播力评估方法及装置 Download PDF

Info

Publication number
CN107967364B
CN107967364B CN201711407394.2A CN201711407394A CN107967364B CN 107967364 B CN107967364 B CN 107967364B CN 201711407394 A CN201711407394 A CN 201711407394A CN 107967364 B CN107967364 B CN 107967364B
Authority
CN
China
Prior art keywords
processed
article
network
network article
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711407394.2A
Other languages
English (en)
Other versions
CN107967364A (zh
Inventor
吴新丽
姚笛
赵立永
李云飞
王文文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhuanet Co ltd
Original Assignee
Xinhuanet Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhuanet Co ltd filed Critical Xinhuanet Co ltd
Priority to CN201711407394.2A priority Critical patent/CN107967364B/zh
Publication of CN107967364A publication Critical patent/CN107967364A/zh
Application granted granted Critical
Publication of CN107967364B publication Critical patent/CN107967364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络文章传播力评估方法及装置,该网络文章传播力评估方法,包括:提取待处理网络文章的特征参数;并根据所述特征参数计算所述待处理网络文章的影响力权重值;根据所述影响力权重值确定目标网络文章的传播力指数。本发明中,根据提取的待处理网络文章的特征参数来计算该待处理网络文章的影响力权重值,进而根据该影响力权重值来确定目标网络文章的传播力指数。实现了对网络文章传播力的有效评估。

Description

网络文章传播力评估方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种网络文章传播力评估方法及装置。
背景技术
目前针对一些互联网应用的相关分析基本都集中在其公众号的影响力分析方面。针对单篇原创文章的传播情况,仅仅以统计该篇文章的阅读数和点赞数为主,但在实际情况中,存在大量公众号转载其他公众号所发文章内容的现象,这些转载的行为都应该纳入该文章整体传播力的范畴。
对于该互联网应用,其官方首次确认其活跃用户数超过9亿,公众号数量超过2000万,活跃公众号数量已经超过350万个。这些公众号每天发布的文章数量高达数百万篇。针对这些文章在该应用中的整体传播情况,目前的方式为通过该应用公众平台后台查看指定账号下文章的阅读人数(阅读数)、转发次数(转发数)来了解文章的传播情况。当前主流的微博传播力计算为清博指数和微指数。二者均以阅读数和点赞数为衡量依据。但在实际情况中,存在大量的原创文章内容被其他公众号转发但并未关联转发来源或者即使标明了来源却存在不可回溯的问题,而这些都应该纳入到该指定原创文章传播力的评估范畴。如何实现客观全面的评估网络文章的传播力,对于改进和提升公众号运营策略、保护原创知识产权等均具有重要的意义。
其中,清博指数的应用传播指数WCI以公众号为单位进行分析,具体包括四个分析指标,分别为整体传播力、篇均传播力、头条传播力和峰值传播力。所有的计算均以文章的阅读数和点赞数为依据,具体如图1所示。
其中针对文章的传播力是计算该应用公众号下所发文章的平均传播力,计算依据是篇均阅读数和篇均点赞数。而对于如何确定每篇文章各自的传播力的方式是当前亟待解决的技术问题。
发明内容
本发明提供网络文章传播力评估方法及装置,以实现对网络文章传播力的有效评估。
本发明提供了一种网络文章传播力评估方法,包括:
提取待处理网络文章的特征参数;
并根据所述特征参数计算所述待处理网络文章的影响力权重值;
根据所述影响力权重值确定目标网络文章的传播力指数。
优选地,所述提取待处理网络文章的特征参数,包括:
根据目标网络文章确定其所对应的待处理网络文章,并获取所述待处理网络文章的索引信息;
根据所述索引信息查找预先建立的消息队列;
获取所述消息队列中对应所述索引信息的特征参数。
优选地,所述根据所述特征参数计算所述待处理网络文章的影响力权重值,包括:
根据所述待处理网络文章的特征参数计算所述待处理网络文章的待处理相似度值;
根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较,并根据比较结果对所述待处理网络文章进行集合分配;
根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值。
优选地,所述特征参数包括正文内容,所述根据所述待处理网络文章的特征参数计算相似度,得到待处理相似度值,包括:
对所述正文内容进行分词、去噪处理,得到特征词;
根据特征词的权重得到特征词集合;
并对所述特征词集合中的特征词进行哈希Hash值序列串计算,得到待处理相似度值。
优选地,所述根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较,并根据比较结果对所述待处理网络文章进行集合分配,包括:
计算所述目标相似度值与待处理网络文章的待处理相似度值间的海明距离;
并根据所述海明距离对所述待处理网络文章进行集合划分。
优选地,所述特征参数还包括该待处理网络文章的转载来源信息,所述根据所述海明距离对所述待处理网络文章进行集合划分,包括:
若所述海明距离大于预设阈值,将所述待处理网络文章划分到初始转载文章集合中;
并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析,将所述待处理网络文章划分到对应的转载文章子集中。
优选地,所述特征参数还包括阅读数、点赞数以及留言数,所述根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值,包括如下公式:
ValInf=fRead*ln(NumRead+1)+fLike*ln(NumLike+1)+fComm*ln(NumComm+1)
其中,ValInf为所述待处理网络文章的影响力权重值,NumRead为所述待处理网络文章的阅读数,fRead为阅读数的权值因子,NumLike为所述待处理网络文章的点赞数,fLike为点赞数的权值因子,NumComm为所述待处理网络文章的留言数,fComm为留言数的权值因子。
优选地,所述根据所述影响力权重值确定目标网络文章的传播力指数,包括:
确定各待处理网络文章的影响力权重值;
根据各待处理网络文章的影响力权重值、各待处理网络文章所属子集的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。
本发明还提供了一种网络文章传播力评估装置,包括:
提取单元,用于提取待处理网络文章的特征参数;
处理单元,用于根据所述特征参数计算所述待处理网络文章的影响力权重值;
确定单元,用于根据所述影响力权重值确定目标网络文章的传播力指数。
优选地,所述提取单元,用于根据目标网络文章确定其所对应的待处理网络文章,并获取所述待处理网络文章的索引信息;根据所述索引信息查找预先建立的消息队列;获取所述消息队列中对应所述索引信息的特征参数。
优选地,所述处理单元,用于根据所述待处理网络文章的特征参数计算所述待处理网络文章的待处理相似度值;根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较,并根据比较结果对所述待处理网络文章进行集合分配;根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值。
优选地,所述特征参数包括正文内容,所述处理单元,具体用于对所述正文内容进行分词、去噪处理,得到特征词;根据特征词的权重得到特征词集合;并对所述特征词集合中的特征词进行哈希Hash值序列串计算,得到待处理相似度值。
优选地,所述处理单元,还具体用于计算所述目标相似度值与待处理网络文章的待处理相似度值间的海明距离;并根据所述海明距离对所述待处理网络文章进行集合划分。
优选地,所述特征参数还包括该待处理网络文章的转载来源信息,所述处理单元,具体用于若所述海明距离大于预设阈值,将所述待处理网络文章划分到初始转载文章集合中;并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析,将所述待处理网络文章划分到对应的转载文章子集中。
优选地,所述特征参数还包括阅读数、点赞数以及留言数,所述处理单元在根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值时,包括如下公式:
ValInf=fRead*ln(NumRead+1)+fLike*ln(NumLike+1)+fComm*ln(NumComm+1)
其中,ValInf为所述待处理网络文章的影响力权重值,NumRead为所述待处理网络文章的阅读数,fRead为阅读数的权值因子,NumLike为所述待处理网络文章的点赞数,fLike为点赞数的权值因子,NumComm为所述待处理网络文章的留言数,fComm为留言数的权值因子。
优选地,所述确定单元,用于确定各待处理网络文章的影响力权重值;根据各待处理网络文章的影响力权重值、各待处理网络文章所属子集的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。
与现有技术相比,本发明至少具有以下优点:
根据提取的待处理网络文章的特征参数来计算该待处理网络文章的影响力权重值,进而根据该影响力权重值来确定目标网络文章的传播力指数。实现了对网络文章传播力的有效评估。
附图说明
图1是现有技术中通过清博指数进行传播力分析的示意图;
图2是本发明提供的网络文章传播力评估方法的流程示意图;
图3是本发明提供的网络文章传播力评估装置的结构图。
具体实施方式
本发明提出一种网络文章传播力评估方法及装置,下面结合附图,对本发明具体实施方式进行详细说明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
基于本发明所要解决的如何实现对网络文章传播力的有效评估的技术问题,本发明提供了一种网络文章传播力评估方法及装置。其中,该网络文章传播力评估方法,如图2所示,包括如下步骤:
步骤201,提取待处理网络文章的特征参数。
本步骤中,该提取待处理网络文章的特征参数的处理,包括:
根据目标网络文章确定其所对应的待处理网络文章,并获取所述待处理网络文章的索引信息;
根据所述索引信息查找预先建立的消息队列;
获取所述消息队列中对应所述索引信息的特征参数。
步骤202,根据所述特征参数计算所述待处理网络文章的影响力权重值。
本步骤中,该根据所述特征参数计算所述待处理网络文章的影响力权重值的处理,包括如下步骤:
S1.根据所述待处理网络文章的特征参数计算所述待处理网络文章的待处理相似度值;
S2.根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较,并根据比较结果对所述待处理网络文章进行集合分配;
S3.根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值。
进一步地,所述特征参数包括正文内容,该S1所述根据所述待处理网络文章的特征参数计算相似度,得到待处理相似度值的处理,包括:
对所述正文内容进行分词、去噪处理,得到特征词;
根据特征词的权重得到特征词集合;
并对所述特征词集合中的特征词进行哈希Hash值序列串计算,得到待处理相似度值。
进一步地,该S2根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较,并根据比较结果对所述待处理网络文章进行集合分配,包括:
计算所述目标相似度值与待处理网络文章的待处理相似度值间的海明距离;
并根据所述海明距离对所述待处理网络文章进行集合划分。
其中,该特征参数还包括该待处理网络文章的转载来源信息,所述根据所述海明距离对所述待处理网络文章进行集合划分,包括:
若所述海明距离大于预设阈值,将所述待处理网络文章划分到初始转载文章集合中;
并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析,将所述待处理网络文章划分到对应的转载文章子集中。
更进一步地,所述特征参数还包括阅读数、点赞数以及留言数,该S3根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值的处理,包括如下公式:
ValInf=fRead*ln(NumRead+1)+fLike*ln(NumLike+1)+fComm*ln(NumComm+1)
其中,ValInf为所述待处理网络文章的影响力权重值,NumRead为所述待处理网络文章的阅读数,fRead为阅读数的权值因子,NumLike为所述待处理网络文章的点赞数,fLike为点赞数的权值因子,NumComm为所述待处理网络文章的留言数,fComm为留言数的权值因子。
在本步骤中,由于待处理网络文章可能存在多个,若存在多个待处理网络文章时,需要对每一个待处理网络文章进行转载文章子集的划分,并在将各待处理网络文章划分到对应的转载文章子集之后,分别计算各待处理网络文章在所对应的转载文章子集中的影响力权重值,当然,计算过程同上述处理。
步骤203,根据所述影响力权重值确定目标网络文章的传播力指数。
本步骤中,所述根据所述影响力权重值确定目标网络文章的传播力指数的处理,包括:
确定各待处理网络文章的影响力权重值;
根据各待处理网络文章的影响力权重值、各待处理网络文章所属子集的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。
针对上述本发明所提供的网络文章传播力评估方法,下面以一个具体实施例对该方法做详尽阐述。当然,该实施例仅是为了介绍本发明网络文章传播力评估方法所优选的一种实施方式,对于其他任意采用本发明所提供的技术特征实现本发明上述技术方案的实施方式均在本发明的保护范围之内。
该网络文章传播力评估方法的整体处理流程可以包括公众号及网络文章获取单元U1、网络文章内容信息处理单元U2以及网络文章传播力计算单元U3这三个处理单元。
U1公众号及网络文章获取单元,用于实现依据指定条件进行指定信息的获取。具体包括从分布式存储数据库(如HBase等)中检索出指定目标网络文章AO的所有数据项,以及根据给定的网络文章检索出所有发布时间晚于该网络文章发布时间的非原创网络文章的相关信息,并将这些相关信息内容放入消息队列(如Kafka、Redis等)中。
在本实施例中,指定的原创的目标网络文章AO为:某官方公众号发布的“这件关乎每个人的“小事”,XXX批示了!”,从HBase库中检索出的该网络文章数据的格式如下:
Figure BDA0001520609670000091
Figure BDA0001520609670000101
Figure BDA0001520609670000111
其中,所用检索条件为网络文章的发布时间晚于特定时间的ArtO的发布时间,且文章原创类型取值为0(0表示非原创)。
U2实现网络文章内容信息处理。根据待处理网络文章的索引信息从消息队列中取出该待处理网络文章的内容信息,对该待处理网络文章的正文内容进行相似度计算,并记录每篇待处理网络文章的相似度值,同时对待处理网络文章中标记的转载来源的身份识别号信息进行比对,获取各待处理网络文章对应的转载文章子集。
待处理网络文章内容信息处理的具体实施过程为:
步骤一:U201正文内容相似度计算单元,采用SimHash算法,对正文内容进行相似度计算。首先对正文内容进行分词,如“厕所问题不是小事情,是城乡文明建设的重要方面……”的分词结果为:“厕所、问题、不、是、小、事情、是、城乡、文明、建设、的、重要、方面……”;其次,去掉该分词结果中的噪音词,依据TF-IDF计算去掉噪音词后得到的各特征词的权重,得到该文档的特征词集合“厕所、问题、城乡、文明、建设、重要方面……”;接下来对该集合中的各特征词进行哈希hash值计算,得到以下结果:
序号 特征词 Hash值 权重
1 厕所 10111100 0.92
2 问题 00001011 0.75
…… …… ……
n 重要方面 11100010 0.65
并针对特征词进行计算得到其对应的Hash值序列串如下:
Figure BDA0001520609670000121
对上述每个特征词的hash值序列串按位相加,得到该段内容的Hash值序列串,并进一步进行降维处理,把计算出来的Hash值序列串变成“01”串,如果当前位大于0则记为1,如果小于0则记为0。最后算出结果“11010110”,这个数值为该待处理网络文章的Simhash签名ValSimHash
步骤二:U202转载文档集计算单元,计算ArtO的ValSimHash和待处理网络文章的ValSimHash值之间的海明距离。并将海明距离大于指定阈值(阈值Diso默认取经验值,可根据实际需要进行调整)的待处理网络文章被认定为转载文章,并形成初始转载文章集合Corignal,文章总数量为N。对Corignal中的各待处理网络文章Arti i∈[0,N]进行转载来源比对分析,如果Arti的来源名称与ArtO的来源名称完全相同或者包含了ArtO的来源名称,则将该待处理网络文章Arti从Corignal提取出来放入CFirst,CFirst为一级转载子集,即直接转载的待处理网络文章的集合;如果待处理网络文章Arti的转载来源名称中为CFirst集合中的待处理网络文章的来源名称,则将该待处理网络文章从Corignal提取出来放入CSecond集合,CSecond为二级转载子集,即间接转载的待处理网络文章的集合;当完成上述比对后,Corignal剩余的待处理网络文章全部归入CThird。CThird子集中包含了三级及以上的待处理网络文章和所有未标明转载来源的待处理网络文章。
U3实现网络文章传播力计算。计算每篇待处理网络文章的影响力权重,进而根据该权重数值计算得出指定网络文章ArtO的传播力指数。
网络文章传播力计算的具体实施过程为:
步骤一:U301单篇待处理网络文章的影响力权重计算。针对三个转载子集CFirst、CSecond、CThird中的待处理网络文章进行单篇待处理网络文章影响力权重计算。定义ValInf为单篇待处理网络文章的影响力权重值,NumRead为单篇待处理网络文章的阅读数,fRead为阅读数的权值因子,NumLike为单篇待处理网络文章的点赞数,fLike为点赞数的权值因子,NumComm为单篇待处理网络文章的留言数,,fComm为留言数的权值因子。
ValInf=fRead*ln(NumRead+1)+fLike*ln(NumLike+1)+fComm*ln(NumComm+1)
其中,fRead+fLike+fComm=1,此处我们定义:fRead=70%,fLike=20%,fComm=10%。
步骤二:U302指定目标网络文章ArtO的传播力指数计算。定义ArtO的传播力指数为
Figure BDA0001520609670000131
则:
Figure BDA0001520609670000132
其中,
Figure BDA0001520609670000133
为目标网络文章ArtO的影响力权重值,fFirst为一级转载文章子集CFirst的权重因子,fSecond为二级转载文章子集CSecond的权重因子,fThird为三级转载文章子集CThird的权重因子,fFirst+fSecond+fThird=1,此处定义:fFirst=60%,fSecond=25%,fThird=15%。
Figure BDA0001520609670000134
Figure BDA0001520609670000135
分别表示三个转载文章子集中的待处理网络文章的影响力权重值。
更优的,在计算上述目标网络文章的传播力指数时,并不仅局限于阅读数、点赞数以及留言数这三个参数,还可以将目标网络文章所属公众号的活跃度和影响力纳入考虑范围,以得到更优的传播力指数数值。
基于上述本发明所提供的网络文章传播力评估方法,本发明还提供了一种网络文章传播力评估装置,如图3所示,包括:
提取单元31,用于提取待处理网络文章的特征参数;
处理单元32,用于根据所述特征参数计算所述待处理网络文章的影响力权重值;
确定单元33,用于根据所述影响力权重值确定目标网络文章的传播力指数。
优选地,所述提取单元31,用于根据目标网络文章确定其所对应的待处理网络文章,并获取所述待处理网络文章的索引信息;根据所述索引信息查找预先建立的消息队列;获取所述消息队列中对应所述索引信息的特征参数。
优选地,所述处理单元32,用于根据所述待处理网络文章的特征参数计算所述待处理网络文章的待处理相似度值;根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较,并根据比较结果对所述待处理网络文章进行集合分配;根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值。
优选地,所述特征参数包括正文内容,所述处理单元32,具体用于对所述正文内容进行分词、去噪处理,得到特征词;根据特征词的权重得到特征词集合;并对所述特征词集合中的特征词进行哈希Hash值序列串计算,得到待处理相似度值。
优选地,所述处理单元32,还具体用于计算所述目标相似度值与待处理网络文章的待处理相似度值间的海明距离;并根据所述海明距离对所述待处理网络文章进行集合划分。
优选地,所述特征参数还包括该待处理网络文章的转载来源信息,所述处理单元32,具体用于若所述海明距离大于预设阈值,将所述待处理网络文章划分到初始转载文章集合中;并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析,将所述待处理网络文章划分到对应的转载文章子集中。
优选地,所述特征参数还包括阅读数、点赞数以及留言数,所述处理单元32在根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值时,包括如下公式:
ValInf=fRead*ln(NumRead+1)+fLike*ln(NumLike+1)+fComm*ln(NumComm+1)
其中,ValInf为所述待处理网络文章的影响力权重值,NumRead为所述待处理网络文章的阅读数,fRead为阅读数的权值因子,NumLike为所述待处理网络文章的点赞数,fLike为点赞数的权值因子,NumComm为所述待处理网络文章的留言数,fComm为留言数的权值因子。
优选地,所述确定单元33,用于确定各待处理网络文章的影响力权重值;根据各待处理网络文章的影响力权重值、各待处理网络文章所属子集的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。
本发明中,根据提取的待处理网络文章的特征参数来计算该待处理网络文章的影响力权重值,进而根据该影响力权重值来确定目标网络文章的传播力指数。实现了对网络文章传播力的有效评估。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
其中,本发明装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (14)

1.一种网络文章传播力评估方法,其特征在于,包括:
提取待处理网络文章的特征参数;所述特征参数包括待处理网络文章的正文内容、转载来源信息、阅读数、点赞数以及留言数;
并根据所述特征参数计算所述待处理网络文章的影响力权重值;所述根据所述特征参数计算所述待处理网络文章的影响力权重值,包括:根据所述特征参数计算所述待处理网络文章的待处理相似度值;根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较,并根据比较结果和所述转载来源信息对所述待处理网络文章进行集合分配;根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值;
根据所述影响力权重值确定目标网络文章的传播力指数;
所述待处理网络文章包括发布时间晚于目标网络文章发布时间的非原创网络文章的相关信息;
所述根据所述特征参数计算所述待处理网络文章的待处理相似度值,包括:
根据所述待处理网络文章的正文内容计算相似度,得到待处理相似度值;
所述根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值,包括:
根据所述阅读数、所述点赞数以及所述留言数计算所述待处理网络文章在所属集合中的影响力权重值。
2.如权利要求1所述的方法,其特征在于,所述提取待处理网络文章的特征参数,包括:
根据目标网络文章确定其所对应的待处理网络文章,并获取所述待处理网络文章的索引信息;
根据所述索引信息查找预先建立的消息队列;
获取所述消息队列中对应所述索引信息的特征参数。
3.如权利要求1所述的方法,其特征在于,所述根据所述待处理网络文章的正文内容计算相似度,得到待处理相似度值,包括:
对所述正文内容进行分词、去噪处理,得到特征词;
根据特征词的权重得到特征词集合;
并对所述特征词集合中的特征词进行哈希Hash值序列串计算,得到待处理相似度值。
4.如权利要求3所述的方法,其特征在于,所述根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较,并根据比较结果和所述转载来源信息对所述待处理网络文章进行集合分配,包括:
计算所述目标相似度值与待处理网络文章的待处理相似度值间的海明距离;
并根据所述海明距离对所述待处理网络文章进行集合划分。
5.如权利要求4所述的方法,其特征在于,所述根据所述海明距离对所述待处理网络文章进行集合划分,包括:
若所述海明距离大于预设阈值,将所述待处理网络文章划分到初始转载文章集合中;
并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析,将所述待处理网络文章划分到对应的转载文章集合中。
6.如权利要求1中所述的方法,其特征在于,所述根据所述阅读数、所述点赞数以及所述留言数计算所述待处理网络文章在所属集合中的影响力权重值,包括如下公式:
ValInf=fRead*ln(NumRead+1)+fLike*ln(NumLike+1)+fComm*ln(NumComm+1)
其中,ValInf为所述待处理网络文章的影响力权重值,NumRead为所述待处理网络文章的阅读数,fRead为阅读数的权值因子,NumLike为所述待处理网络文章的点赞数,fLike为点赞数的权值因子,NumComm为所述待处理网络文章的留言数,fComm为留言数的权值因子。
7.如权利要求1-6中任一项所述的方法,其特征在于,所述根据所述影响力权重值确定目标网络文章的传播力指数,包括:
确定各待处理网络文章的影响力权重值;
根据各待处理网络文章的影响力权重值、各待处理网络文章所属集合的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。
8.一种网络文章传播力评估装置,其特征在于,包括:
提取单元,用于提取待处理网络文章的特征参数;所述特征参数包括待处理网络文章的正文内容、转载来源信息、阅读数、点赞数以及留言数;
处理单元,用于根据所述特征参数计算所述待处理网络文章的影响力权重值;所述处理单元,用于根据所述特征参数计算所述待处理网络文章的待处理相似度值;根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较,并根据比较结果和所述转载来源信息对所述待处理网络文章进行集合分配;根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值;
确定单元,用于根据所述影响力权重值确定目标网络文章的传播力指数;
所述根据所述特征参数计算所述待处理网络文章的待处理相似度值,包括:
根据所述待处理网络文章的正文内容计算相似度,得到待处理相似度值;
所述根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值,包括:
根据所述阅读数、所述点赞数以及所述留言数计算所述待处理网络文章在所属集合中的影响力权重值。
9.如权利要求8所述的装置,其特征在于,所述提取单元,用于根据目标网络文章确定其所对应的待处理网络文章,并获取所述待处理网络文章的索引信息;根据所述索引信息查找预先建立的消息队列;获取所述消息队列中对应所述索引信息的特征参数。
10.如权利要求8所述的装置,其特征在于,所述处理单元,具体用于对所述正文内容进行分词、去噪处理,得到特征词;根据特征词的权重得到特征词集合;并对所述特征词集合中的特征词进行哈希Hash值序列串计算,得到待处理相似度值。
11.如权利要求8所述的装置,其特征在于,所述处理单元,还具体用于计算所述目标相似度值与待处理网络文章的待处理相似度值间的海明距离;并根据所述海明距离对所述待处理网络文章进行集合划分。
12.如权利要求11所述的装置,其特征在于,所述处理单元,具体用于若所述海明距离大于预设阈值,将所述待处理网络文章划分到初始转载文章集合中;并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析,将所述待处理网络文章划分到对应的转载文章集合中。
13.如权利要求11所述的装置,其特征在于,所述处理单元在根据所述阅读数、所述点赞数以及所述留言数计算所述待处理网络文章在所属集合中的影响力权重值时,包括如下公式:
ValInf=fRead*ln(NumRead+1)+fLike*ln(NumLike+1)+fComm*ln(NumComm+1)
其中,ValInf为所述待处理网络文章的影响力权重值,NumRead为所述待处理网络文章的阅读数,fRead为阅读数的权值因子,NumLike为所述待处理网络文章的点赞数,fLike为点赞数的权值因子,NumComm为所述待处理网络文章的留言数,fComm为留言数的权值因子。
14.如权利要求8-13中任一项所述的装置,其特征在于,所述确定单元,用于确定各待处理网络文章的影响力权重值;根据各待处理网络文章的影响力权重值、各待处理网络文章所属集合的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。
CN201711407394.2A 2017-12-22 2017-12-22 网络文章传播力评估方法及装置 Active CN107967364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711407394.2A CN107967364B (zh) 2017-12-22 2017-12-22 网络文章传播力评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711407394.2A CN107967364B (zh) 2017-12-22 2017-12-22 网络文章传播力评估方法及装置

Publications (2)

Publication Number Publication Date
CN107967364A CN107967364A (zh) 2018-04-27
CN107967364B true CN107967364B (zh) 2021-11-23

Family

ID=61994290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711407394.2A Active CN107967364B (zh) 2017-12-22 2017-12-22 网络文章传播力评估方法及装置

Country Status (1)

Country Link
CN (1) CN107967364B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875018B (zh) * 2018-06-19 2021-06-29 网智天元科技集团股份有限公司 新闻影响力评估方法、装置及电子设备
CN109829091B (zh) * 2018-08-28 2023-01-03 上海雅高文化传播有限公司 电子作品传播程度的测评方法、计算机存储介质、及终端
CN110334356B (zh) * 2019-07-15 2023-08-04 腾讯科技(深圳)有限公司 文章质量的确定方法、文章筛选方法、以及相应的装置
CN111260197A (zh) * 2020-01-10 2020-06-09 光明网传媒有限公司 网络文章评价方法、系统、计算机设备及可读存储介质
CN111666428B (zh) * 2020-06-04 2023-08-08 杭州凡闻科技有限公司 网络媒体传播力评估方法
CN113761319A (zh) * 2021-04-30 2021-12-07 中科天玑数据科技股份有限公司 一种度量文章传播影响力的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098592A2 (en) * 2004-03-31 2005-10-20 Google Inc. Systems and methods for weighting a search query result
CN101409634A (zh) * 2007-10-10 2009-04-15 中国科学院自动化研究所 基于信息检索的互联网新闻影响力定量分析工具及方法
CN102541912A (zh) * 2010-12-17 2012-07-04 北大方正集团有限公司 一种网络文章传播影响力的评价系统及方法
CN104077377A (zh) * 2014-06-25 2014-10-01 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN104346443A (zh) * 2014-10-20 2015-02-11 北京国双科技有限公司 网络文本处理方法及装置
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN106547777A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 文章转载量的统计方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547780A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 文章转载量的统计方法及装置
CN106156364A (zh) * 2016-08-02 2016-11-23 西南石油大学 一种基于时间流的计算新闻事件动态影响力的方法与系统
CN106708947B (zh) * 2016-11-25 2020-06-09 成都寻道科技有限公司 一种基于大数据的网络文章转发识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098592A2 (en) * 2004-03-31 2005-10-20 Google Inc. Systems and methods for weighting a search query result
CN101409634A (zh) * 2007-10-10 2009-04-15 中国科学院自动化研究所 基于信息检索的互联网新闻影响力定量分析工具及方法
CN102541912A (zh) * 2010-12-17 2012-07-04 北大方正集团有限公司 一种网络文章传播影响力的评价系统及方法
CN104077377A (zh) * 2014-06-25 2014-10-01 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN104346443A (zh) * 2014-10-20 2015-02-11 北京国双科技有限公司 网络文本处理方法及装置
CN106547777A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 文章转载量的统计方法及装置
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种微信公众号影响力的评估方法;颜月明;《情报杂志》;20160930;第35卷(第9期);第[141]-[145]页 *
微博影响力评价研究;李军等;《信息网络安全》;20120331(第03期);第[10]-[13]、[27]页 *

Also Published As

Publication number Publication date
CN107967364A (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN107967364B (zh) 网络文章传播力评估方法及装置
Aiello‐Lammens et al. spThin: an R package for spatial thinning of species occurrence records for use in ecological niche models
CN106845265B (zh) 一种文档密级自动识别方法
Lecy et al. Representative literature reviews using constrained snowball sampling and citation network analysis
CN103970722B (zh) 一种文本内容去重的方法
Kosmidis et al. Machine learning and images for malware detection and classification
Gao et al. Effective and effortless features for popularity prediction in microblogging network
CN102822822B (zh) 图像管理装置、图像管理方法、程序、记录介质、集成电路
CN105550583A (zh) 基于随机森林分类方法的Android平台恶意应用检测方法
CN103886077B (zh) 短文本的聚类方法和系统
Lucchese et al. X-DART: blending dropout and pruning for efficient learning to rank
Vieira et al. Performance evaluation of modularity based community detection algorithms in large scale networks
Graham et al. Finding and visualizing graph clusters using pagerank optimization
Wang et al. ngs LCA—A toolkit for fast and flexible lowest common ancestor inference and taxonomic profiling of metagenomic data
CN103177105A (zh) 一种图像检索方法及装置
Burnside et al. One Day in Twitter: Topic Detection Via Joint Complexity.
CN105389297A (zh) 文本相似度处理方法
Chang et al. Ups and downs in buzzes: Life cycle modeling for temporal pattern discovery
Tatsumi et al. Estimating competition coefficients in tree communities: a hierarchical Bayesian approach to neighborhood analysis
Baig et al. Correlation of node importance measures: An empirical study through graph robustness
CN105512145A (zh) 信息分类方法及装置
CN106528510A (zh) 一种数据处理的方法及装置
JP2012088880A (ja) 準頻出構造パターンマイニング装置と頻出構造パターンマイニング装置とそれらの方法、及びプログラム
Tuchowski et al. OBCAS-An Ontology-Based Cluster Analysis System
Jones et al. Multi-label classification for multi-species distribution modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant