CN112270183B - 一种基于文本的新闻传播效果监测系统 - Google Patents
一种基于文本的新闻传播效果监测系统 Download PDFInfo
- Publication number
- CN112270183B CN112270183B CN202011131700.6A CN202011131700A CN112270183B CN 112270183 B CN112270183 B CN 112270183B CN 202011131700 A CN202011131700 A CN 202011131700A CN 112270183 B CN112270183 B CN 112270183B
- Authority
- CN
- China
- Prior art keywords
- article
- keywords
- propagation chain
- original
- articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000694 effects Effects 0.000 title claims abstract description 12
- 238000012544 monitoring process Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 5
- 238000012546 transfer Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本的新闻传播效果监测系统,利用采集来源和发布来源相结合的方式,找出了候选原创文章,极大地减少了文章相似判断的计算量,策略加算法的方式让原创的判断易于实施;使用传播链主文章关键词与候选文章进行比较的方式,在保证传播链选取计算准确的同时,也提高了传播链选取的效率,使得在同样的资源投入下,能够处理更多的文章;计算传播链的过程,在算力资源充足的情况下,可以考虑使用大数据组件进行流式计算,将候选文章与传播链中每篇文章进行比较,可以稍微提高传播链的准确性。
Description
技术领域
本发明涉及通信技术领域,具体领域为一种基于文本的新闻传播效果监测系统。
背景技术
随着移动互联网的兴起,新媒体和自媒体呈现出了一片欣欣向荣之势。除了互联网主要平台外,有实力的媒体单位也开始建设自己的APP,形成了由微博、微信、APP、头条和网站等多平台组成的媒体矩阵。在这些平台上,优秀的文章通常会被大量发布者转载,通过监测媒体用户发布的原创新闻在各平台的传播情况及根据传播力模型计算传播力指数,对稿件传播路径和传播趋势进行分析,多种维度对整体传播效果进行统计分析和展示,直观反映新闻资讯的传播影响力。为新闻媒体稿件传播数字化运营提供决策依据,为记者、编辑考核提供量化数据。
专利2018104356329,介绍了一种文字传播路径分析方法及系统,该分析方法包括:将互联网稿件和参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;通过计算汉明距离判断互联网稿件和参考稿件是否有共有语句;当互联网稿件与参考稿件有共有语句时,且互联网稿件不包含预设关键词时,确定互联网稿件与参考稿件采用关系的种类。该方法计算汉明距离采用的simhash有两个缺点:一是无法对大量数据进行实时计算,得到相似关系;二是对短文本相似性的准确率会很差。
专利2018110388280,介绍了基于文章特征的原创新闻评估方法和系统,该方法包括:获取新闻文章的特征信息,特征信息包括来源特征信息和关键词特征信息;将来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;根据第一评估报告和第二评估报告确定新闻文章原创性等级。该方法旨在计算原创性,没有提供计算传播路径及传播效果的方案。
发明内容
本发明的目的在于提供一种基于文本的新闻传播效果监测系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于文本的新闻传播效果监测系统,其特征在于:包括以下步骤:
第一步:通过离线爬虫系统对网络新闻文章进行离线数据的采集;
第二步:将采集到的离线新闻文章进行NLP处理,获得的NLP分词,同时获取文章的基本信息,其包括采集来源、标题、发布来源、发布时间、正文;
第三步:将NLP分词与近期文章进行比对,获得相似度判断结果信息,并将信息放到kafka的第一topic中,为后续的判定提供因子;
第四步:将基本信息存入hbase中备用,同时对通过kafka获得的信息进行比对,初步判定是否为原创;
第五步:若初步判定为原创文章或不可确定则采集数据构成关键索引词,并存入es库中,进行延迟对比;
第六步:第五步的二次判定结果若未找到主文章关键词与所述文章关键词匹配超过75%的传播链,则使用所述文章创建一条新的传播链,并记为统计类型1,结果推送步骤三的kafka的第二topic中;
第七步:第五步的二次判定结果若找到主文章关键词与所述文章关键词匹配超过75%的传播链,则将所述文章以原创或不确定类型加入所述传播链,并记为统计类型2,结果推送步骤三的kafka的第二topic中;
第八步:若第四步的初步判定为非原创文章则采集关键索引词,并存入es库内,进行延时对比;
第九步:第八步的二次判定结果若未找到主文章关键词与所述文章关键词匹配超过75%的传播链,则将所述文章丢弃,不纳入统计;
第十步:第八步的二次判定结果若找到主文章关键词与所述文章关键词匹配超过75%的传播链,则将所述文章以被转载类型加入所述传播链,并记为统计类型3,结果推送步骤三的kafka的第二topic中;
第十一步:离线统计程序从所述kafka中读取统计类型结果,将原创转载统计结果批量入库,然后根据不同类型统计转载总数、地域转载数、媒体转载数和渠道转载数,并按照转载统计批量入库。
第四步所述的判定原则如下:
1)采集来源和发布来源一致;
2)采集来源包含发布来源;
3)发布来源标为“本站原创”、“本网原创”、“本站发布”、“本网发布”的;
4)采集来源和发布来源是关联媒体;
5)以上条件任意一项满足则可作为候选原创文章;
6)将候选原创文章与近期已采集的文章做比较,如果没有找到高度相似的文章,则确定为原创文章。
第六步、第七步、第九步与第十步均是通过NLP分词和TF-IDF算法,得到按权重降序的关键词,通过比较所述文章前20个关键词与已采集文章前20个关键词相同的比例,根据预先设定的阈值,决定是否加入已有传播链。
与现有技术相比,本发明的有益效果是:
1、利用采集来源和发布来源相结合的方式,找出了候选原创文章,极大地减少了文章相似判断的计算量,策略加算法的方式让原创的判断易于实施。
2、使用传播链主文章关键词与候选文章进行比较的方式,在保证传播链选取计算准确的同时,也提高了传播链选取的效率,使得在同样的资源投入下,能够处理更多的文章。
3、计算传播链的过程,在算力资源充足的情况下,可以考虑使用大数据组件机型流式计算,将候选文章与传播链中每篇文章进行比较,可以稍微提高传播链的准确性。
附图说明
图1为本发明的处理流程系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参阅图1,本发明提供一种技术方案:一种基于文本的新闻传播效果监测系统,其特征在于:包括以下步骤:
第一步:通过离线爬虫系统对网络新闻文章进行离线数据的采集;
第二步:将采集到的离线新闻文章进行NLP处理,获得的NLP分词,同时获取文章的基本信息,其包括采集来源、标题、发布来源、发布时间、正文;
第三步:将NLP分词与近期文章进行比对,获得相似度判断结果信息,并将信息放到kafka的第一topic中,为后续的判定提供因子;
第四步:将基本信息存入hbase中备用,同时对通过kafka获得的信息进行比对,初步判定是否为原创;
第五步:若初步判定为原创文章或不可确定则采集数据构成关键索引词,并存入es库中,进行延迟对比;
第六步:第五步的二次判定结果若未找到主文章关键词与所述文章关键词匹配超过75%的传播链,则使用所述文章创建一条新的传播链,并记为统计类型1,结果推送步骤三的kafka的第二topic中;
第七步:第五步的二次判定结果若找到主文章关键词与所述文章关键词匹配超过75%的传播链,则将所述文章以原创或不确定类型加入所述传播链,并记为统计类型2,结果推送步骤三的kafka的第二topic中;
第八步:若第四步的初步判定为非原创文章则采集关键索引词,并存入es库内,进行延时对比;
第九步:第八步的二次判定结果若未找到主文章关键词与所述文章关键词匹配超过75%的传播链,则将所述文章丢弃,不纳入统计;
第十步:第八步的二次判定结果若找到主文章关键词与所述文章关键词匹配超过75%的传播链,则将所述文章以被转载类型加入所述传播链,并记为统计类型3,结果推送步骤三的kafka的第二topic中;
第十一步:离线统计程序从所述kafka中读取统计类型结果,将原创转载统计结果批量入库,然后根据不同类型统计转载总数、地域转载数、媒体转载数和渠道转载数,并按照转载统计批量入库。
第四步所述的判定原则如下:
1)采集来源和发布来源一致;
2)采集来源包含发布来源;
3)发布来源标为“本站原创”、“本网原创”、“本站发布”、“本网发布”的;
4)采集来源和发布来源是关联媒体;
5)以上条件任意一项满足则可作为候选原创文章;
6)将候选原创文章与近期已采集的文章做比较,如果没有找到高度相似的文章,则确定为原创文章。
第六步、第七步、第九步与第十步均是通过NLP分词和TF-IDF算法,得到按权重降序的关键词,通过比较所述文章前20个关键词与已采集文章前20个关键词相同的比例,根据预先设定的阈值,决定是否加入已有传播链。
在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明使用到的标准零件均可以从市场上购买,异形件根据说明书和附图的记载均可以进行订制,各个零件的具体连接方式均采用现有技术中成熟的螺栓、铆钉、焊接等常规手段,机械、零件和设备均采用现有技术中,常规的型号,加上电路连接采用现有技术中常规的连接方式,在此不再详述。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.一种基于文本的新闻传播效果监测系统,其特征在于:包括以下步骤:
第一步:通过离线爬虫系统对网络新闻文章进行离线数据的采集;
第二步:将采集到的离线新闻文章进行NLP处理,获得的NLP分词,同时获取文章的基本信息,其包括采集来源、标题、发布来源、发布时间、正文;
第三步:将NLP分词与近期文章进行比对,获得相似度判断结果信息,并将信息放到kafka的第一topic中,为后续的判定提供因子;
第四步:将基本信息存入hbase中备用,同时对通过kafka获得的信息进行比对,初步判定是否为原创;
第五步:若初步判定为原创文章或不可确定则采集数据构成关键索引词,并存入es库中,进行延迟对比;
第六步:第五步的二次判定结果若未找到主文章关键词与所述文章关键词匹配超过75%的传播链,则使用所述文章创建一条新的传播链,并记为统计类型1,结果推送步骤三的kafka的第二topic中;
第七步:第五步的二次判定结果若找到主文章关键词与所述文章关键词匹配超过75%的传播链,则将所述文章以原创或不确定类型加入所述传播链,并记为统计类型2,结果推送步骤三的kafka的第二topic中;
第八步:若第四步的初步判定为非原创文章则采集关键索引词,并存入es库内,进行延时对比;
第九步:第八步的二次判定结果若未找到主文章关键词与所述文章关键词匹配超过75%的传播链,则将所述文章丢弃,不纳入统计;
第十步:第八步的二次判定结果若找到主文章关键词与所述文章关键词匹配超过75%的传播链,则将所述文章以被转载类型加入所述传播链,并记为统计类型3,结果推送步骤三的kafka的第二topic中;
第十一步:离线统计程序从所述kafka中读取统计类型结果,将原创转载统计结果批量入库,然后根据不同类型统计转载总数、地域转载数、媒体转载数和渠道转载数,并按照转载统计批量入库。
2.根据权利要求1所述的一种基于文本的新闻传播效果监测系统,其特征在于:第四步所述的判定原则如下:
1)采集来源和发布来源一致;
2)采集来源包含发布来源;
3)发布来源标为“本站原创”、“本网原创”、“本站发布”、“本网发布”的;
4)采集来源和发布来源是关联媒体;
5)以上条件任意一项满足则可作为候选原创文章;
6)将候选原创文章与近期已采集的文章做比较,如果没有找到高度相似的文章,则确定为原创文章。
3.根据权利要求1所述的一种基于文本的新闻传播效果监测系统,其特征在于:第六步、第七步、第九步与第十步均是通过NLP分词和TF-IDF算法,得到按权重降序的关键词,通过比较所述文章前20个关键词与已采集文章前20个关键词相同的比例,根据预先设定的阈值,决定是否加入已有传播链。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011131700.6A CN112270183B (zh) | 2020-10-21 | 2020-10-21 | 一种基于文本的新闻传播效果监测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011131700.6A CN112270183B (zh) | 2020-10-21 | 2020-10-21 | 一种基于文本的新闻传播效果监测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270183A CN112270183A (zh) | 2021-01-26 |
CN112270183B true CN112270183B (zh) | 2024-03-19 |
Family
ID=74342588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011131700.6A Active CN112270183B (zh) | 2020-10-21 | 2020-10-21 | 一种基于文本的新闻传播效果监测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270183B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221010B (zh) * | 2021-05-26 | 2023-06-02 | 支付宝(杭州)信息技术有限公司 | 事件传播状态的显示方法、装置和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8255521B1 (en) * | 2008-02-28 | 2012-08-28 | Attensa, Inc. | Predictive publishing of RSS articles |
CN105786799A (zh) * | 2016-03-21 | 2016-07-20 | 成都寻道科技有限公司 | 网络文章原创性判定方法 |
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
KR101681109B1 (ko) * | 2015-10-01 | 2016-11-30 | 한국외국어대학교 연구산학협력단 | 대표 색인어와 유사도를 이용한 문서 자동 분류 방법 |
CN106708947A (zh) * | 2016-11-25 | 2017-05-24 | 成都寻道科技有限公司 | 一种基于大数据的网络文章转发识别方法 |
CN108595439A (zh) * | 2018-05-04 | 2018-09-28 | 北京中科闻歌科技股份有限公司 | 一种文字传播路径分析方法及系统 |
CN109213845A (zh) * | 2018-09-06 | 2019-01-15 | 杭州凡闻科技有限公司 | 基于文章特征的原创新闻评估方法和系统 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
-
2020
- 2020-10-21 CN CN202011131700.6A patent/CN112270183B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8255521B1 (en) * | 2008-02-28 | 2012-08-28 | Attensa, Inc. | Predictive publishing of RSS articles |
KR101681109B1 (ko) * | 2015-10-01 | 2016-11-30 | 한국외국어대학교 연구산학협력단 | 대표 색인어와 유사도를 이용한 문서 자동 분류 방법 |
CN105786799A (zh) * | 2016-03-21 | 2016-07-20 | 成都寻道科技有限公司 | 网络文章原创性判定方法 |
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN106708947A (zh) * | 2016-11-25 | 2017-05-24 | 成都寻道科技有限公司 | 一种基于大数据的网络文章转发识别方法 |
CN108595439A (zh) * | 2018-05-04 | 2018-09-28 | 北京中科闻歌科技股份有限公司 | 一种文字传播路径分析方法及系统 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109213845A (zh) * | 2018-09-06 | 2019-01-15 | 杭州凡闻科技有限公司 | 基于文章特征的原创新闻评估方法和系统 |
Non-Patent Citations (3)
Title |
---|
一种微博事件源头发现的方法;时国华;周斌;韩毅;;信息网络安全;20120810(08);全文 * |
网站新闻全网阅读量统计方法研究;陈泰伟;苏国伟;程策;;中国传媒科技;20180815(08);全文 * |
针对互联网数据的新闻转载引用分析;陈辛夷;陈;王熠;;中国传媒科技;20171115(11);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112270183A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202211B (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
CN100565526C (zh) | 一种针对网页作弊的反作弊方法及系统 | |
CN103593371B (zh) | 推荐搜索关键词的方法和装置 | |
CN111538888A (zh) | 基于主动监测引擎和大数据的网络舆情烈度演化分析系统 | |
CN105893444A (zh) | 情感分类方法及装置 | |
CN112711705B (zh) | 舆情数据处理方法、设备及存储介质 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN105005553A (zh) | 基于情感词典的短文本情感倾向分析方法 | |
CN105022805A (zh) | 一种基于so-pmi商品评价信息的情感分析方法 | |
CN103150374A (zh) | 一种识别微博异常用户的方法和系统 | |
CN107507028A (zh) | 用户偏好确定方法、装置、设备及存储介质 | |
CN102542024B (zh) | 一种视频资源语义标签的标定方法 | |
CN113590928A (zh) | 内容推荐方法、装置及计算机可读存储介质 | |
CN103914491A (zh) | 对优质用户生成内容的数据挖掘方法和系统 | |
CN112270183B (zh) | 一种基于文本的新闻传播效果监测系统 | |
CN113032557A (zh) | 一种基于频繁词集与bert语义的微博热点话题发现方法 | |
CN105550253A (zh) | 一种类型关系的获取方法及装置 | |
CN104778157A (zh) | 一种多文档摘要句的生成方法 | |
CN110929683B (zh) | 一种基于人工智能的视频舆情监测方法及系统 | |
CN115248855B (zh) | 文本处理方法及装置、电子设备、计算机可读存储介质 | |
CN105808602B (zh) | 一种垃圾信息的检测方法及装置 | |
CN102467537B (zh) | 删除词汇的方法和装置 | |
CN108133018B (zh) | 一种基于关联聚合的数据取证推荐方法 | |
CN116738979A (zh) | 基于核心数据识别的电网数据搜索方法、系统及电子设备 | |
CN111309911A (zh) | 面向司法领域的案件话题发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Sui Li Inventor after: Yang Shuhai Inventor after: Cheng Wei Inventor before: Zhu Junjie |