CN103186599A - 互联网新闻的监控方法和装置 - Google Patents

互联网新闻的监控方法和装置 Download PDF

Info

Publication number
CN103186599A
CN103186599A CN2011104551832A CN201110455183A CN103186599A CN 103186599 A CN103186599 A CN 103186599A CN 2011104551832 A CN2011104551832 A CN 2011104551832A CN 201110455183 A CN201110455183 A CN 201110455183A CN 103186599 A CN103186599 A CN 103186599A
Authority
CN
China
Prior art keywords
news
keyword
mark
positive
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104551832A
Other languages
English (en)
Other versions
CN103186599B (zh
Inventor
王松
杨建武
梁汝峰
张涛
孙红娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201110455183.2A priority Critical patent/CN103186599B/zh
Publication of CN103186599A publication Critical patent/CN103186599A/zh
Application granted granted Critical
Publication of CN103186599B publication Critical patent/CN103186599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种互联网新闻的监控方法,包括:获取互联网新闻的相关信息;以监管指令匹配互联网新闻的相关信息;提交匹配结果。本发明提供了一种互联网新闻的监控装置,包括:获取模块,用于获取互联网新闻的相关信息;匹配模块,用于以监管指令匹配互联网新闻的相关信息;提交模块,用于提交匹配结果。本发明提高了互联网新闻的监控效率。

Description

互联网新闻的监控方法和装置
技术领域
本发明涉及互联网信息技术领域,具体而言,涉及一种互联网新闻的监控方法和装置。
背景技术
目前监管部门对互联网新闻的监控和追踪工作仅靠人工完成。大量的工作人员手动刷新各大门户网站的新闻区,阅读新闻内容,人工判断其是否符合监管部门的宣传要求。这种工作模式存在一定的问题:
1、效率低:完全依靠人工操作,人工查找和阅读需要一定的时间。
2、准确率低:需要人工阅读大量的文字内容,存在一定的风险性。
3、无法追踪:无法追踪正负面新闻在一定时间内的发布、撤销情况。
4、无法衡量:无法衡量各大门户网站对监控部门发布指令的响应、实施情况。
发明内容
本发明旨在提供一种互联网新闻的监控方法和装置,以解决人工监控的问题。
在本发明的实施例中,提供了一种互联网新闻的监控方法,包括:获取互联网新闻的相关信息;以监管指令匹配互联网新闻的相关信息;提交匹配结果。
在本发明的实施例中,提供了一种互联网新闻的监控装置,包括:获取模块,用于获取互联网新闻的相关信息;匹配模块,用于以监管指令匹配互联网新闻的相关信息;提交模块,用于提交匹配结果。
本发明上述实施例的互联网新闻的监控方法和装置因为采用匹配方法,所以克服了人工监控的问题,提高了互联网新闻的监控效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例的互联网新闻的监控方法的流程图;
图2示出了根据本发明优选实施例的互联网新闻的监控方法的流程图;
图3示出了根据本发明实施例的链接撤销指令的监控方法的流程图;
图4示出了根据本发明实施例的互联网新闻的监控装置的示意图;
图5示出了根据本发明实施例的获取模块的示意图;
图6示出了根据本发明优选实施例的互联网新闻的监控装置的示意图;
图7示出了根据本发明实施例的链接撤销指令的监控装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的互联网新闻的监控方法的流程图,包括:
步骤S10,获取互联网新闻的相关信息;
步骤S20,以监管指令匹配互联网新闻的相关信息;
步骤S30,提交匹配结果。
在实践当中,可以通过网络爬虫等程序很容易地获取互联网新闻的相关信息,通过计算机编程可以很容易地实现匹配算法,因此本实施例可以很容易地通过计算机程序来实现,从而用自动化方法代替了人工操作,克服了人工监控互联网新闻的缺陷,大幅度提高了互联网新闻监控的效率。另外,该自动化过程是机器来做的,所以准确率较高、且可以很容易地追踪正负面新闻在一定时间内的发布、撤销情况,也可以很容易地衡量各大门户网站对监控部门发布指令的响应、实施情况。
监管指令可以包括以下至少一项:正面宣传指令、负面宣传指令、指定链接撤销。各种监管指令的功能要求如下:
1、正面宣传指令:录入的正面宣传指令可以为标题关键词和各关键词权重或标题加正文关键词及各关键词权重,宣传指令还需要录入有效期。系统根据有效的指令不间断的追踪探测,将各指令在各网站上的发布情况、延迟时间展示在本功能中,可显示各网站是否有效发布,如是否提前、滞后发布,也可汇总查看一定时间内单一网站的多次探测情况。
2、负面宣传指令:基本与正面宣传指令相同。系统显示各指令在各网站上的撤销或未发布情况、延迟时间等,可显示各网站是否有效撤销,如是否提前、滞后撤销。也可汇总查看。
3、指定链接撤销:本功能只针对已发布到各大网站上的负面新闻。录入的宣传指令包括指定撤销的新闻链接和有效期。系统显示各指令在链接网站上的撤销情况、延迟时间等,同样可显示有效和汇总情况。
优选地,本监控方法还包括网站实施汇总:统计各网站有效、无效响应宣传指令情况,可查看某一网站在一定时间内执行具体指令的情况。
图2示出了根据本发明优选实施例的互联网新闻的监控方法的流程图,包括:
步骤S51,采集各网站新闻频道要闻区标题和链接。
通过网络爬虫可以抓取到各网站新闻频道要闻区中的内容,包括新闻标题和链接。要闻区一般出现在各网站首页、新闻频道中最核心的位置,重要意义最大。
步骤S52,读取要闻区新闻的源文件新闻。
根据步骤S51采集的要闻区新闻链接地址,读取要闻区新闻的源文件新闻时,首先通过模拟HTTP请求返回新闻状态码。如果状态码非200或有异常出现,则表明要闻区内容已不存在;如果正常返回200,则通过HttpMethodBase的getResponseBody()方法获取网页源文件的字节数组及其编码格式,通过编码格式将源文件字节数组转化为字符形式的源文件新闻。
步骤S53,提取源文件中正文内容。
提取源文件正文有多种方法,例如:剔除源文件中的无用标签,将剩余部分根据划分区域标签拆封为各个子块,综合各子块的大小、上下块之间的距离和标题分词获取较为准确的正文内容。
步骤S53,读取有效的正负面指令。
新闻具有时效性的特点,监控部门并不关心滞后或过期淘汰的新闻内容。读取时注意读取所有未过期的数据,即使指令还未进入有效期,也要读取,目的在于判断指令内容是否提前发布或撤销。
步骤S54,检测各指令在各网站存在情况。
检测时先取某一指令,若只有标题关键词,则只匹配采集到的标题内容,若标题、正文关键词都有,需综合匹配。
(i)只有标题关键词。
根据标题和各关键词的匹配次数及各关键词的权重综合计算匹配值,根据匹配到的关键词数和指令配置的关键词数的比例做矫正计算,保证计算准确度。用计算出的匹配值与参考系数比较,判断是否匹配以获得检测结果。参考系数可以根据用户需要给定或经过长期抽样计算获得。
优选地,设置匹配值P=n1*w1+n2*w2+...+nn*wn+(np/n)*X,其中,所述当前的监管指令只包括n个标题关键词,其权重为w1...wn,匹配次数分别为n1...nn,共有np个标题关键词存在匹配,矫正值为X。
(ii)含有标题和正文关键词。
与(i)算法基本相同。根据标题、正文关键词在标题、正文中匹配到的次数及各关键词的权重综合计算匹配值,同样需要矫正计算,矫正时需注意正文和标题分开。获得结果后同样需要和参考系数进行比较以获得检测结果。
设置匹配值P=n标1*w标1+n标2*w标2+...+n标n*w标n+m正1*w正1+m正2*w正2+...+m正m*w正m+((n标p/n)*X+(m正p/m)*X)/2,其中,所述当前的监管指令包括n个标题关键词,其权重为w标1...w标n,匹配次数分别为n标1...n标n,共有n标p个标题关键词存在匹配,矫正值为X;所述当前的监管指令包括m个正文关键词,其权重为w正1...w正m,匹配次数分别为m正1...m正m,共有m正p个正文关键词存在匹配,矫正值为X
某一指令探测完成记录结果后,取下一指令继续探测。
步骤S55,存储各指令在各网站的检测结果。
将步骤S54的结果存储到数据库中,供统计和汇总使用。
图3示出了根据本发明实施例的链接撤销指令的监控方法的流程图,包括:
该部分可以是系统启动线程不间断运行的,包括以下步骤:
步骤S61,采集各网站新闻频道要闻区链接。
通过网络爬虫可以抓取到各网站新闻频道要闻区中的内容,这里指获取链接内容即可。
步骤S62,读取有效的链接撤销指令。
读取时同样注意读取所有未过期的数据,即使指令还未进入有效期,也要读取,目的在于判断是否提前撤销。
步骤S63,检测链接撤销指令在各网站存在情况。
因为链接地址存在唯一性,故直接以配置的撤销链接和采集到的要闻区各链接进行匹配即可。
步骤S64,存储各指令在各网站的检测结果。
将步骤S63的结果存储到数据库中,供统计和汇总使用。
图4示出了根据本发明实施例的互联网新闻的监控装置的示意图,包括:
获取模块10,用于获取互联网新闻的相关信息;
匹配模块20,用于以监管指令匹配互联网新闻的相关信息;
提交模块30,用于提交匹配结果。
本装置提高了互联网新闻监控的效率。
图5示出了根据本发明实施例的获取模块的示意图,包括录入装置101,和与之连接的数据库装置102。
录入装置101用于录入正面宣传、负面撤销和链接撤销指令。正面宣传、负面撤销指令包括标题关键词、各关键词权重和有效期,可追加正文关键词和各关键词权重已保证探测准确。
数据库装置102用于存储录入的指令。
图6示出了根据本发明优选实施例的互联网新闻的监控装置的示意图,包括采集装置201、提取装置202、检测装置203、数据库装置102(记录指令)、数据库装置103(记录探测状态)。
采集装置201用于获取监控网站要闻区内容,包括要闻标题、链接和根据链接获取到的新闻源文件内容。
提取装置202用于提取新闻源文件内容中的正文部分。
采集装置201和提取装置202用于实现图4中的获取模块10。
检测装置203用于检测要闻区内容标题、链接、正文和指令内容的匹配情况。检测装置203用于实现图4中的匹配模块20。
数据库装置102(记录指令)维护并提供已录入的指令。
数据库装置103(记录探测状态)记录各指令在各网站上的各次探测结果。数据库装置102和数据库装置103用于实现图4中的提交模块30。
图7示出了根据本发明实施例的链接撤销指令的监控装置的示意图,该部分包括采集装置201、检测装置203、数据库装置102(记录指令)、数据库装置103(记录探测状态)。
采集装置201在本部分只用于获取监控网站要闻区内容的链接地址。
检测装置203只用于检测要闻区内容链接和指令内容的匹配情况。
数据库装置102(记录指令)维护并提供已录入的指令。
数据库装置103(记录探测状态)记录各指令在各网站上的各次探测结果。
综上所述,本发明通过不间断地采集并探测各网站要闻区标题、链接、正文内容与指令内容是否匹配,来对正负面新闻指令进行追踪的方法,可以替代大量的人工操作,在相当程度上保证了追踪探测的准确率,有效的维护良好的网络环境,为互联网的安全性提供正面保障。
本发明能够实现的有益效果包括:
1、自动探测正面新闻宣传指令在各大新闻网站要闻区上是否发布,宣传内容是否正确。
2、自动探测负面新闻宣传指令在各大新闻网站要闻区上是否撤销或未发布。
3、计算各大新闻网站在要闻区中响应各宣传指令所消耗的时间,衡量其响应速度。
4、追踪符合正负面宣传指令的新闻在各大新闻网站要闻区中、一定时间段内的存在情况,衡量指令响应是否有效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种互联网新闻的监控方法,其特征在于,包括:
获取互联网新闻的相关信息;
以监管指令匹配所述互联网新闻的相关信息;
提交匹配结果。
2.根据权利要求1所述的方法,其特征在于,获取互联网新闻的相关信息包括:
通过网络爬虫获取网站要闻区的要闻标题及其链接、以及
获取所述链接的新闻源文件的内容。
3.根据权利要求2所述的方法,其特征在于,获取所述链接的新闻源文件的内容包括:
获取所述链接的新闻源文件;
剔除所述新闻源文件中的无用标签;将剩余部分根据划分区域标签拆封为各个子块;
根据各子快的大小、上下子块块之间的距离和标题分词以获取所述内容。
4.根据权利要求1所述的方法,其特征在于,以监管指令匹配所述互联网新闻的相关信息包括:
获取所述监管指令;
判断所述监管指令是否处于有效期;
将处于有效期的所述监管指令匹配所述互联网新闻的相关信息。
5.根据权利要求4所述的方法,其特征在于,将处于有效期的所述监管指令匹配所述互联网新闻的相关信息包括:
确定当前的监管指令只包括标题关键词;
根据所述互联网新闻的标题和各所述标题关键词的匹配次数及各所述标题关键词的权重设置匹配值;
根据匹配到的关键词数和指令配置的关键词数的比例做矫正;
用矫正的匹配值与预设的参考系数比较,判断是否匹配。
6.根据权利要求5所述的方法,其特征在于,设置匹配值P=n1*w1+n2*w2+...+nn*wn+(np/n)*X,其中,所述当前的监管指令只包括n个标题关键词,其权重为w1...wn,匹配次数分别为n1...nn,共有np个标题关键词存在匹配,矫正值为X。
7.根据权利要求4所述的方法,其特征在于,将处于有效期的所述监管指令匹配所述互联网新闻的相关信息包括:
确定当前的监管指令包括含有标题关键词和正文关键词;
根据所述互联网新闻的标题和各所述标题关键词的匹配次数及各所述标题关键词的权重,以及所述互联网新闻的正文和各所述正文关键词的匹配次数及各所述正文关键词的权重设置匹配值;
根据匹配到的关键词数和指令配置的关键词数的比例做矫正;
用矫正的匹配值与预设的参考系数比较,判断是否匹配。
8.根据权利要求7所述的方法,其特征在于,设置匹配值P=n 1*w标1+n标2*w标2+...+n标n*w标n+m正1*w正1+m正2*w正2+...+m正m*w正m+((n标p/n)*X+(m正p/m)*X)/2,其中,所述当前的监管指令包括n个标题关键词,其权重为w标1...w标n,匹配次数分别为n标1...n标n,共有n标p个标题关键词存在匹配,矫正值为X;所述当前的监管指令包括m个正文关键词,其权重为w正1...w正m,匹配次数分别为m正1...m正m,共有m正p个正文关键词存在匹配,矫正值为X
9.根据权利要求1-8任一项所述的方法,其特征在于,所述监管指令包括以下至少一项:正面宣传指令、负面宣传指令、指定链接撤销。
10.一种互联网新闻的监控装置,其特征在于,包括:
获取模块,用于获取互联网新闻的相关信息;
匹配模块,用于以监管指令匹配所述互联网新闻的相关信息;
提交模块,用于提交匹配结果。
CN201110455183.2A 2011-12-28 2011-12-28 互联网新闻的监控方法和装置 Active CN103186599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110455183.2A CN103186599B (zh) 2011-12-28 2011-12-28 互联网新闻的监控方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110455183.2A CN103186599B (zh) 2011-12-28 2011-12-28 互联网新闻的监控方法和装置

Publications (2)

Publication Number Publication Date
CN103186599A true CN103186599A (zh) 2013-07-03
CN103186599B CN103186599B (zh) 2016-04-20

Family

ID=48677768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110455183.2A Active CN103186599B (zh) 2011-12-28 2011-12-28 互联网新闻的监控方法和装置

Country Status (1)

Country Link
CN (1) CN103186599B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617213A (zh) * 2013-11-19 2014-03-05 北京奇虎科技有限公司 识别新闻网页属性特征的方法和系统
CN104579830A (zh) * 2014-12-25 2015-04-29 小米科技有限责任公司 服务监控方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US20050262302A1 (en) * 2004-05-03 2005-11-24 Microsoft Corporation Processing information received at an auxiliary computing device
CN101231641A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动分析互联网上热点主题传播过程的方法及系统
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US20050262302A1 (en) * 2004-05-03 2005-11-24 Microsoft Corporation Processing information received at an auxiliary computing device
CN101231641A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动分析互联网上热点主题传播过程的方法及系统
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李勇: "互联网新闻监控系统的设计与实现", 《万方学位论文数据库》, 29 April 2007 (2007-04-29) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617213A (zh) * 2013-11-19 2014-03-05 北京奇虎科技有限公司 识别新闻网页属性特征的方法和系统
CN103617213B (zh) * 2013-11-19 2017-04-19 北京奇虎科技有限公司 识别新闻网页属性特征的方法和系统
CN104579830A (zh) * 2014-12-25 2015-04-29 小米科技有限责任公司 服务监控方法及装置
CN104579830B (zh) * 2014-12-25 2018-05-25 小米科技有限责任公司 服务监控方法及装置

Also Published As

Publication number Publication date
CN103186599B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
Sleiman et al. A survey on region extractors from web documents
Gulhane et al. Web-scale information extraction with vertex
US8239387B2 (en) Structural clustering and template identification for electronic documents
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
CN103186600B (zh) 互联网舆情的专题分析方法和装置
CN102402627B (zh) 一种文章实时智能抓取系统和方法
CN107657052A (zh) 一种基于元数据管理的数据治理系统
CN102682109B (zh) 一种专利信息解析方法和装置
CN107844425A (zh) 一种数据库语句检查方法和装置
US11550937B2 (en) Privacy trustworthiness based API access
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN103412903B (zh) 基于兴趣对象预测的物联网实时搜索方法及系统
CN106126648A (zh) 一种基于重做日志的分布式商品信息爬虫方法
CN102662969A (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN115547466B (zh) 基于大数据的医疗机构登记评审系统及其方法
CN104899324A (zh) 一种基于idc有害信息监测系统的样本训练系统
CN107194007A (zh) 一种航天器异构测试数据集成管理系统
CN104182548A (zh) 网页更新处理方法及装置
Parameswaran et al. Optimal schemes for robust web extraction
CN112650910A (zh) 确定网站更新信息的方法、装置、设备和存储介质
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN103186599A (zh) 互联网新闻的监控方法和装置
CN113608955A (zh) 一种日志记录方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220615

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right