CN112270183B

CN112270183B - 一种基于文本的新闻传播效果监测系统

Info

Publication number: CN112270183B
Application number: CN202011131700.6A
Authority: CN
Inventors: 朱俊杰
Original assignee: Beijing Ti Krypton New Media Technology Co ltd
Current assignee: Beijing Ti Krypton New Media Technology Co ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2024-03-19
Anticipated expiration: 2040-10-21
Also published as: CN112270183A

Abstract

本发明公开了一种基于文本的新闻传播效果监测系统，利用采集来源和发布来源相结合的方式，找出了候选原创文章，极大地减少了文章相似判断的计算量，策略加算法的方式让原创的判断易于实施；使用传播链主文章关键词与候选文章进行比较的方式，在保证传播链选取计算准确的同时，也提高了传播链选取的效率，使得在同样的资源投入下，能够处理更多的文章；计算传播链的过程，在算力资源充足的情况下，可以考虑使用大数据组件进行流式计算，将候选文章与传播链中每篇文章进行比较，可以稍微提高传播链的准确性。

Description

一种基于文本的新闻传播效果监测系统

技术领域

本发明涉及通信技术领域，具体领域为一种基于文本的新闻传播效果监测系统。

背景技术

随着移动互联网的兴起，新媒体和自媒体呈现出了一片欣欣向荣之势。除了互联网主要平台外，有实力的媒体单位也开始建设自己的APP，形成了由微博、微信、APP、头条和网站等多平台组成的媒体矩阵。在这些平台上，优秀的文章通常会被大量发布者转载，通过监测媒体用户发布的原创新闻在各平台的传播情况及根据传播力模型计算传播力指数，对稿件传播路径和传播趋势进行分析，多种维度对整体传播效果进行统计分析和展示，直观反映新闻资讯的传播影响力。为新闻媒体稿件传播数字化运营提供决策依据，为记者、编辑考核提供量化数据。

专利2018104356329，介绍了一种文字传播路径分析方法及系统，该分析方法包括：将互联网稿件和参考稿件分别按语句向量化，得到互联网稿件语句维度向量和参考稿件语句维度向量；通过计算汉明距离判断互联网稿件和参考稿件是否有共有语句；当互联网稿件与参考稿件有共有语句时，且互联网稿件不包含预设关键词时，确定互联网稿件与参考稿件采用关系的种类。该方法计算汉明距离采用的simhash有两个缺点：一是无法对大量数据进行实时计算，得到相似关系；二是对短文本相似性的准确率会很差。

专利2018110388280，介绍了基于文章特征的原创新闻评估方法和系统，该方法包括：获取新闻文章的特征信息，特征信息包括来源特征信息和关键词特征信息；将来源特征信息与预设的来源关键词库进行匹配评估，得到第一评估报告；根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估，得到第二评估报告；根据第一评估报告和第二评估报告确定新闻文章原创性等级。该方法旨在计算原创性，没有提供计算传播路径及传播效果的方案。

发明内容

本发明的目的在于提供一种基于文本的新闻传播效果监测系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于文本的新闻传播效果监测系统，其特征在于：包括以下步骤：

第一步：通过离线爬虫系统对网络新闻文章进行离线数据的采集；

第二步：将采集到的离线新闻文章进行NLP处理，获得的NLP分词，同时获取文章的基本信息，其包括采集来源、标题、发布来源、发布时间、正文；

第三步：将NLP分词与近期文章进行比对，获得相似度判断结果信息，并将信息放到kafka的第一topic中，为后续的判定提供因子；

第四步：将基本信息存入hbase中备用，同时对通过kafka获得的信息进行比对，初步判定是否为原创；

第五步：若初步判定为原创文章或不可确定则采集数据构成关键索引词，并存入es库中，进行延迟对比；

第六步：第五步的二次判定结果若未找到主文章关键词与所述文章关键词匹配超过75％的传播链，则使用所述文章创建一条新的传播链，并记为统计类型1，结果推送步骤三的kafka的第二topic中；

第七步：第五步的二次判定结果若找到主文章关键词与所述文章关键词匹配超过75％的传播链，则将所述文章以原创或不确定类型加入所述传播链，并记为统计类型2，结果推送步骤三的kafka的第二topic中；

第八步：若第四步的初步判定为非原创文章则采集关键索引词，并存入es库内，进行延时对比；

第九步：第八步的二次判定结果若未找到主文章关键词与所述文章关键词匹配超过75％的传播链，则将所述文章丢弃，不纳入统计；

第十步：第八步的二次判定结果若找到主文章关键词与所述文章关键词匹配超过75％的传播链，则将所述文章以被转载类型加入所述传播链，并记为统计类型3，结果推送步骤三的kafka的第二topic中；

第十一步：离线统计程序从所述kafka中读取统计类型结果，将原创转载统计结果批量入库，然后根据不同类型统计转载总数、地域转载数、媒体转载数和渠道转载数，并按照转载统计批量入库。

第四步所述的判定原则如下：

1)采集来源和发布来源一致；

2)采集来源包含发布来源；

3)发布来源标为“本站原创”、“本网原创”、“本站发布”、“本网发布”的；

4)采集来源和发布来源是关联媒体；

5)以上条件任意一项满足则可作为候选原创文章；

6)将候选原创文章与近期已采集的文章做比较，如果没有找到高度相似的文章，则确定为原创文章。

第六步、第七步、第九步与第十步均是通过NLP分词和TF-IDF算法，得到按权重降序的关键词，通过比较所述文章前20个关键词与已采集文章前20个关键词相同的比例，根据预先设定的阈值，决定是否加入已有传播链。

与现有技术相比，本发明的有益效果是：

1、利用采集来源和发布来源相结合的方式，找出了候选原创文章，极大地减少了文章相似判断的计算量，策略加算法的方式让原创的判断易于实施。

2、使用传播链主文章关键词与候选文章进行比较的方式，在保证传播链选取计算准确的同时，也提高了传播链选取的效率，使得在同样的资源投入下，能够处理更多的文章。

3、计算传播链的过程，在算力资源充足的情况下，可以考虑使用大数据组件机型流式计算，将候选文章与传播链中每篇文章进行比较，可以稍微提高传播链的准确性。

附图说明

图1为本发明的处理流程系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参阅图1，本发明提供一种技术方案：一种基于文本的新闻传播效果监测系统，其特征在于：包括以下步骤：

第四步所述的判定原则如下：

1)采集来源和发布来源一致；

2)采集来源包含发布来源；

4)采集来源和发布来源是关联媒体；

5)以上条件任意一项满足则可作为候选原创文章；

在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明使用到的标准零件均可以从市场上购买，异形件根据说明书和附图的记载均可以进行订制，各个零件的具体连接方式均采用现有技术中成熟的螺栓、铆钉、焊接等常规手段，机械、零件和设备均采用现有技术中，常规的型号，加上电路连接采用现有技术中常规的连接方式，在此不再详述。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于文本的新闻传播效果监测系统，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于文本的新闻传播效果监测系统，其特征在于：第四步所述的判定原则如下：

1)采集来源和发布来源一致；

2)采集来源包含发布来源；

4)采集来源和发布来源是关联媒体；

5)以上条件任意一项满足则可作为候选原创文章；

3.根据权利要求1所述的一种基于文本的新闻传播效果监测系统，其特征在于：第六步、第七步、第九步与第十步均是通过NLP分词和TF-IDF算法，得到按权重降序的关键词，通过比较所述文章前20个关键词与已采集文章前20个关键词相同的比例，根据预先设定的阈值，决定是否加入已有传播链。