CN116861058A - 应用于政务领域的舆情监测系统及方法 - Google Patents

应用于政务领域的舆情监测系统及方法 Download PDF

Info

Publication number
CN116861058A
CN116861058A CN202311126389.XA CN202311126389A CN116861058A CN 116861058 A CN116861058 A CN 116861058A CN 202311126389 A CN202311126389 A CN 202311126389A CN 116861058 A CN116861058 A CN 116861058A
Authority
CN
China
Prior art keywords
data
element information
grabbing
public opinion
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311126389.XA
Other languages
English (en)
Other versions
CN116861058B (zh
Inventor
张凯
陈兆亮
宁方刚
迟钰沛
刘燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN202311126389.XA priority Critical patent/CN116861058B/zh
Publication of CN116861058A publication Critical patent/CN116861058A/zh
Application granted granted Critical
Publication of CN116861058B publication Critical patent/CN116861058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了应用于政务领域的舆情监测系统及方法,属于政务系统技术领域,要解决的技术问题为如何高效全面的实现舆情监测。包括:数据抓取模块,用于通过调度器调度抓取进程,通过抓取进程解析网页的DOM元素,得到元素信息;数据清洗模块,用于对元素信息进行数据过滤,并设置情感标签,得到预处理后数据,预处理后数据为带有情感标签的过滤后数据;数据输出模块,用于将预处理后数据存储至数据仓库,对预处理后数据进行增量发布,并在数据仓库中配置实时索引服务,实时索引服务提供索引API,用户通过索引API访问实时索引服务,实时索引服务用于基于指定的搜索条件返回检索结果。

Description

应用于政务领域的舆情监测系统及方法
技术领域
本发明涉及政务系统技术领域,具体地说是应用于政务领域的舆情监测系统及方法。
背景技术
互联网的快速发展为政务单位和公众之间交流搭建起一座沟通的桥梁,这使得政务可以更好向工作传达政策法规,有利于政务工作的顺畅进行。虽然互联网在政府与公众沟通上发挥着巨大的作用,但负面舆情信息也是难以避免的。只有及时聆听公众的声音,并及时处理,才能防止负面舆情信息的无线扩大,避免给政府公信力和形象造成损害,所以一般通过网络舆情检测软件的采集功能对网络进行定时的搜索,利用网络舆情检测系统对监测采集到的公众舆论和媒介报道进行分类汇总,形成事件的舆情分析报告,为政务部门负面舆情信息处置提供重要的决策依据。
如何高效全面的实现舆情监测,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供应用于政务领域的舆情监测系统及方法,来解决如何高效全面的实现舆情监测的技术问题。
第一方面,本发明一种应用于政务领域的舆情监测系统,包括:
数据抓取模块,所述数据抓取模块用于通过调度器调度抓取进程,通过抓取进程解析网页的DOM元素,得到元素信息;
数据清洗模块,所述数据清洗模块用于对元素信息进行数据过滤,并设置情感标签,得到预处理后数据,预处理后数据为带有情感标签的过滤后数据;
数据输出模块,所述数据输出模块用于将预处理后数据存储至数据仓库,对预处理后数据进行增量发布,并在数据仓库中配置实时索引服务,所述实时索引服务提供索引API,用户通过索引API访问实时索引服务,所述实时索引服务用于基于指定的搜索条件返回检索结果,其中搜索条件包括返回条目、时间窗口、产品线、数据源、情感、标签和关键字。
作为优选,对于所有待抓取的页面,所述数据抓取模块用于基于页面的链接地址形成链接列表;
调度器用于将一个IP地址下的抓取进程分配至链接列表,对于链接列表中每个页面,抓取进程通过预配置的正则表达式从页面中解析的DOM元素,得到元素信息并返回调度器;
如果抓取进程在预定时间内未返回或者返回失败,调度器重新分配一个新的IP地址的抓取进程继续进行数据抓取,直至返回元素信息,如果预定次数后均未返回元素信息,通过人工干预的方式对抓取失败的页面进行数据抓取。
作为优选,对于更新的网页,配置新的正则表达式,抓取进程通过新的正则表达式从更新的页面中解析的DOM元素,得到元素信息并返回调度器。
作为优选,1-3任一项所述的应用于政务领域的舆情监测系统,其特征在于,所述数据清洗模块用于执行如下对元素信息进行数据过滤:
对与营销文案相关的元素信息进行过滤;
对过滤后的元素信息进行相关性过滤。
第二方面,本发明一种应用于政务领域的舆情监测方法,用于通过如第一方面任一项所述的一种应用于政务领域的舆情监测系统进行舆情监测,所述方法包括如下步骤:
数据抓取:通过调度器调度抓取进程,通过抓取进程解析网页的DOM元素,得到元素信息;
数据清洗:对元素信息进行数据过滤,并设置情感标签,得到预处理后数据,预处理后数据为带有情感标签的过滤后数据;
数据输出:将预处理后数据存储至数据仓库,对预处理后数据进行增量发布,并在数据仓库中配置实时索引服务,所述实时索引服务提供索引API,用户通过索引API访问实时索引服务,所述实时索引服务用于基于指定的搜索条件返回检索结果,其中搜索条件包括返回条目、时间窗口、产品线、数据源、情感、标签和关键字。
作为优选,对于所有待抓取的页面,基于页面的链接地址形成链接列表;
通过调度器将一个IP地址下的抓取进程分配至链接列表,对于链接列表中每个页面,抓取进程通过预配置的正则表达式从页面中解析的DOM元素,得到元素信息并返回调度器;
如果抓取进程在预定时间内未返回或者返回失败,调度器重新分配一个新的IP地址的抓取进程继续进行数据抓取,直至返回元素信息,如果预定次数后均未返回元素信息,通过人工干预的方式对抓取失败的页面进行数据抓取。
作为优选,对于更新的网页,配置新的正则表达式,抓取进程通过新的正则表达式从更新的页面中解析的DOM元素,得到元素信息并返回调度器。
作为优选,对元素信息进行数据过滤,包括如下步骤:
对与营销文案相关的元素信息进行过滤;
对过滤后的元素信息进行相关性过滤。
本发明的应用于政务领域的舆情监测系统及方法具有以下优点:
1、在数据抓取过程中,通过抓取进程解析网页的DOM元素,对于得的元素信息进行进行过滤后,得到带有情感标签的过滤后数据,并上述数据存储在数据仓库中,对数据进行增量发布,并在数据仓库中配置实时索引服务,从而实现了全面的舆情监测,并为用户提供了数据检索;
2、鉴于网页存在更新情况,在数据抓取过程,对于更新的网页,通过更新的正则表达式进行网页解析,提高了数据抓取的精确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1一种应用于政务领域的舆情监测系统中数据抓取原理框图;
图2为实施例2一种应用于政务领域的舆情监测方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供应用于政务领域的舆情监测系统及方法,用于解决如何高效全面的实现舆情监测的技术问题。
实施例1:本发明一种应用于政务领域的舆情监测系统,包括数据抓取模块、数据清洗模块以及数据输出模块。
数据抓取模块用于通过调度器调度抓取进程,通过抓取进程解析网页的DOM元素,得到元素信息。
本实施例中,对于所有待抓取的页面,数据抓取模块用于基于页面的链接地址形成链接列表。对应的,调度器用于将一个IP地址下的抓取进程分配至链接列表,对于链接列表中每个页面,抓取进程通过预配置的正则表达式从页面中解析的DOM元素,得到元素信息并返回调度器;如果抓取进程在预定时间内未返回或者返回失败,调度器重新分配一个新的IP地址的抓取进程继续进行数据抓取,直至返回元素信息,如果预定次数后均未返回元素信息,通过人工干预的方式对抓取失败的页面进行数据抓取。
作为具体实施,数据抓取过程中,浏览器会把HTML文档(网页)解析成一个树结构,并且在此基础上定义了访问和操作 HTML 文档的标准,根据W3C标准称之为DOM文档对象模型。
抓取进程应该通过解析DOM元素快速提取希望获得的元素信息,通过配置提取数据的正则表达式,抓取任意页面中的任意内容。解析DOM元素通过正则表达式匹配出想要的数据。
每一个抓取进程将被调度器分配待抓取的链接列表与对应配置,独立工作,互不干扰,并自有延迟与异常处理。当一个抓取进程长时无返回,或返回失败时,调度端将相应任务分配于其它IP段的新起抓取进程再度重试,只至最终成功、或多次尝试后仍失败。外部数据源的屏蔽策略与网页结构升级经常会导致抓取失败,此时,系统应及时检测问题,由人工介入干预。由于采用了标准配置项,介入工作只需确定抓取失败的页面仍能打开,重新定位到变更后的元素节点,测试配置后重新抓取。
抓取数据的时候,因为很多网站都有反爬机制,所以很容易被封IP,如果预定长内未从网页中抓取到内容,则分配其他IP段的抓取进程。
抓取的网页可能更新,需要设置新的正则表达式提取想要的数据。本实施例中,对于更新的网页,配置新的正则表达式,抓取进程通过新的正则表达式从更新的页面中解析的DOM元素,得到元素信息并返回调度器。
数据清洗模块用于对元素信息进行数据过滤,并设置情感标签,得到预处理后数据,预处理后数据为带有情感标签的过滤后数据。
本实施例中,数据清洗模块用于执行如下对元素信息进行数据过滤:对与营销文案相关的元素信息进行过滤;对过滤后的元素信息进行相关性过滤。
作为具体实施,数据清洗分为三个阶段:数据过滤,数据相关性,数据情感标签。数据过滤主要针对各类营销文案进行屏蔽,尤其是不少产品或活动,会在设计中鼓励用户自动在“微博”等媒体上留下分享痕迹。这些痕迹不是自然的用户反馈,且数量较大,会干扰舆情分析。转化为算法问题,有一个很大的字符串列表,找到这次字符串中出现频次高于某阈值的子字符串。这个算法时间复杂度明显非一阶,不具备可扩展性,本实施例优化方案是抽样聚类后提取出模板,然后用O(N)的方法对全文本进行过滤。
数据输出模块用于将预处理后数据存储至数据仓库,对预处理后数据进行增量发布,并在数据仓库中配置实时索引服务,所述实时索引服务提供索引API,用户通过索引API访问实时索引服务,所述实时索引服务用于基于指定的搜索条件返回检索结果,其中搜索条件包括返回条目、时间窗口、产品线、数据源、情感、标签和关键字。
本实施例,数据输出模块用于在数据清洗后进入仓库,仓库基础上,建设了实时索引,将标记完成清洗的数据增量发布。下游用户可通过标准API形式访问,指定返回条目、时间窗口、产品线、数据源、情感、标签、关键字等信息,可获得相应反馈。由于对反馈的内容文本进行倒排索引,用户可以方便检索,获得用户在一定时间内在微博、贴吧、论坛等各渠道的相关反馈,非常方便。
实施例2:本发明一种应用于政务领域的舆情监测方法,通过实施例1公开的系统进行舆情监测。该方法包括数据抓取、数据清洗和数据输出三个步骤。
步骤S100、数据抓取:通过调度器调度抓取进程,通过抓取进程解析网页的DOM元素,得到元素信息。
本实施例中,对于所有待抓取的页面,基于页面的链接地址形成链接列表。对应的,调度器将一个IP地址下的抓取进程分配至链接列表,对于链接列表中每个页面,抓取进程通过预配置的正则表达式从页面中解析的DOM元素,得到元素信息并返回调度器;如果抓取进程在预定时间内未返回或者返回失败,调度器重新分配一个新的IP地址的抓取进程继续进行数据抓取,直至返回元素信息,如果预定次数后均未返回元素信息,通过人工干预的方式对抓取失败的页面进行数据抓取。
作为具体实施,数据抓取过程中,浏览器会把HTML文档(网页)解析成一个树结构,并且在此基础上定义了访问和操作 HTML 文档的标准,根据W3C标准称之为DOM文档对象模型。
抓取进程应该通过解析DOM元素快速提取希望获得的元素信息,通过配置提取数据的正则表达式,抓取任意页面中的任意内容。解析DOM元素通过正则表达式匹配出想要的数据。
每一个抓取进程将被调度器分配待抓取的链接列表与对应配置,独立工作,互不干扰,并自有延迟与异常处理。当一个抓取进程长时无返回,或返回失败时,调度端将相应任务分配于其它IP段的新起抓取进程再度重试,只至最终成功、或多次尝试后仍失败。外部数据源的屏蔽策略与网页结构升级经常会导致抓取失败,此时,系统应及时检测问题,由人工介入干预。由于采用了标准配置项,介入工作只需确定抓取失败的页面仍能打开,重新定位到变更后的元素节点,测试配置后重新抓取。
抓取数据的时候,因为很多网站都有反爬机制,所以很容易被封IP,如果预定长内未从网页中抓取到内容,则分配其他IP段的抓取进程。
抓取的网页可能更新,需要设置新的正则表达式提取想要的数据。本实施例中,对于更新的网页,配置新的正则表达式,抓取进程通过新的正则表达式从更新的页面中解析的DOM元素,得到元素信息并返回调度器。
步骤S200、数据清洗:对元素信息进行数据过滤,并设置情感标签,得到预处理后数据,预处理后数据为带有情感标签的过滤后数据。
本实施例中,对元素信息进行数据过滤包括如下步骤:对与营销文案相关的元素信息进行过滤;对过滤后的元素信息进行相关性过滤。
作为具体实施,数据清洗分为三个阶段:数据过滤,数据相关性,数据情感标签。数据过滤主要针对各类营销文案进行屏蔽,尤其是不少产品或活动,会在设计中鼓励用户自动在“微博”等媒体上留下分享痕迹。这些痕迹不是自然的用户反馈,且数量较大,会干扰舆情分析。转化为算法问题,有一个很大的字符串列表,找到这次字符串中出现频次高于某阈值的子字符串。这个算法时间复杂度明显非一阶,不具备可扩展性,本实施例优化方案是抽样聚类后提取出模板,然后用O(N)的方法对全文本进行过滤。
步骤S300、数据输出:将预处理后数据存储至数据仓库,对预处理后数据进行增量发布,并在数据仓库中配置实时索引服务,所述实时索引服务提供索引API,用户通过索引API访问实时索引服务,所述实时索引服务用于基于指定的搜索条件返回检索结果,其中搜索条件包括返回条目、时间窗口、产品线、数据源、情感、标签和关键字。
本实施例,在数据清洗后进入仓库,仓库基础上,建设了实时索引,将标记完成清洗的数据增量发布。下游用户可通过标准API形式访问,指定返回条目、时间窗口、产品线、数据源、情感、标签、关键字等信息,可获得相应反馈。由于对反馈的内容文本进行倒排索引,用户可以方便检索,获得用户在一定时间内在微博、贴吧、论坛等各渠道的相关反馈,非常方便。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (8)

1.一种应用于政务领域的舆情监测系统,其特征在于,包括:
数据抓取模块,所述数据抓取模块用于通过调度器调度抓取进程,通过抓取进程解析网页的DOM元素,得到元素信息;
数据清洗模块,所述数据清洗模块用于对元素信息进行数据过滤,并设置情感标签,得到预处理后数据,预处理后数据为带有情感标签的过滤后数据;
数据输出模块,所述数据输出模块用于将预处理后数据存储至数据仓库,对预处理后数据进行增量发布,并在数据仓库中配置实时索引服务,所述实时索引服务提供索引API,用户通过索引API访问实时索引服务,所述实时索引服务用于基于指定的搜索条件返回检索结果,其中搜索条件包括返回条目、时间窗口、产品线、数据源、情感、标签和关键字。
2.根据权利要求1所述的应用于政务领域的舆情监测系统,其特征在于,对于所有待抓取的页面,所述数据抓取模块用于基于页面的链接地址形成链接列表;
调度器用于将一个IP地址下的抓取进程分配至链接列表,对于链接列表中每个页面,抓取进程通过预配置的正则表达式从页面中解析的DOM元素,得到元素信息并返回调度器;
如果抓取进程在预定时间内未返回或者返回失败,调度器重新分配一个新的IP地址的抓取进程继续进行数据抓取,直至返回元素信息,如果预定次数后均未返回元素信息,通过人工干预的方式对抓取失败的页面进行数据抓取。
3.根据权利要求2所述的应用于政务领域的舆情监测系统,其特征在于,对于更新的网页,配置新的正则表达式,抓取进程通过新的正则表达式从更新的页面中解析的DOM元素,得到元素信息并返回调度器。
4.根据权利要求2所述的应用于政务领域的舆情监测系统,其特征在于,1-3任一项所述的应用于政务领域的舆情监测系统,其特征在于,所述数据清洗模块用于执行如下对元素信息进行数据过滤:
对与营销文案相关的元素信息进行过滤;
对过滤后的元素信息进行相关性过滤。
5.一种应用于政务领域的舆情监测方法,其特征在于,用于通过如权利要求1-4任一项所述的一种应用于政务领域的舆情监测系统进行舆情监测,所述方法包括如下步骤:
数据抓取:通过调度器调度抓取进程,通过抓取进程解析网页的DOM元素,得到元素信息;
数据清洗:对元素信息进行数据过滤,并设置情感标签,得到预处理后数据,预处理后数据为带有情感标签的过滤后数据;
数据输出:将预处理后数据存储至数据仓库,对预处理后数据进行增量发布,并在数据仓库中配置实时索引服务,所述实时索引服务提供索引API,用户通过索引API访问实时索引服务,所述实时索引服务用于基于指定的搜索条件返回检索结果,其中搜索条件包括返回条目、时间窗口、产品线、数据源、情感、标签和关键字。
6.根据权利要求5所述的应用于政务领域的舆情监测方法,其特征在于,对于所有待抓取的页面,基于页面的链接地址形成链接列表;
通过调度器将一个IP地址下的抓取进程分配至链接列表,对于链接列表中每个页面,抓取进程通过预配置的正则表达式从页面中解析的DOM元素,得到元素信息并返回调度器;
如果抓取进程在预定时间内未返回或者返回失败,调度器重新分配一个新的IP地址的抓取进程继续进行数据抓取,直至返回元素信息,如果预定次数后均未返回元素信息,通过人工干预的方式对抓取失败的页面进行数据抓取。
7.根据权利要求6所述的应用于政务领域的舆情监测方法,其特征在于,对于更新的网页,配置新的正则表达式,抓取进程通过新的正则表达式从更新的页面中解析的DOM元素,得到元素信息并返回调度器。
8.根据权利要求5-7任一项所述的应用于政务领域的舆情监测方法,其特征在于,对元素信息进行数据过滤,包括如下步骤:
对与营销文案相关的元素信息进行过滤;
对过滤后的元素信息进行相关性过滤。
CN202311126389.XA 2023-09-04 2023-09-04 应用于政务领域的舆情监测系统及方法 Active CN116861058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311126389.XA CN116861058B (zh) 2023-09-04 2023-09-04 应用于政务领域的舆情监测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311126389.XA CN116861058B (zh) 2023-09-04 2023-09-04 应用于政务领域的舆情监测系统及方法

Publications (2)

Publication Number Publication Date
CN116861058A true CN116861058A (zh) 2023-10-10
CN116861058B CN116861058B (zh) 2024-04-12

Family

ID=88234457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311126389.XA Active CN116861058B (zh) 2023-09-04 2023-09-04 应用于政务领域的舆情监测系统及方法

Country Status (1)

Country Link
CN (1) CN116861058B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567521A (zh) * 2011-12-29 2012-07-11 维构(上海)文化传媒有限公司 网页数据抓取过滤方法
CN102682109A (zh) * 2012-05-09 2012-09-19 北京彼速信息技术有限公司 一种专利信息解析方法和装置
CN103177076A (zh) * 2012-12-28 2013-06-26 中联竞成(北京)科技有限公司 一种基于定点网站的舆情监测系统及方法
CN104462158A (zh) * 2013-09-25 2015-03-25 北大方正集团有限公司 数据抓取方法和数据抓取系统
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN104991904A (zh) * 2015-06-16 2015-10-21 浪潮软件集团有限公司 一种动态网页的页面数据采集方法
CN105447081A (zh) * 2015-11-04 2016-03-30 国云科技股份有限公司 面向云平台的一种政务舆情监控方法
CN105468744A (zh) * 2015-11-25 2016-04-06 浪潮软件集团有限公司 一种实现税务舆情分析和全文检索的大数据平台
CN107562936A (zh) * 2017-09-12 2018-01-09 中山大学 一种基于Jsoup的网页新闻列表的抓取及保存方法
CN108052586A (zh) * 2017-12-11 2018-05-18 上海壹账通金融科技有限公司 舆情分析方法、系统、计算机设备和存储介质
US11216426B1 (en) * 2018-06-14 2022-01-04 KnowPeds, LLC Efficient data scraping and deduplication system for registered sex offender queries
US11379542B1 (en) * 2021-06-25 2022-07-05 metacluster lt, UAB Advanced response processing in web data collection
CN114896543A (zh) * 2022-06-02 2022-08-12 上海华客信息科技有限公司 舆情分析方法、装置及存储介质
US20230018387A1 (en) * 2021-07-06 2023-01-19 metacluster lt, UAB Dynamic web page classification in web data collection
WO2023023135A1 (en) * 2021-08-20 2023-02-23 Forter Ltd A system and method for realtime js access control to dom/apis

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567521A (zh) * 2011-12-29 2012-07-11 维构(上海)文化传媒有限公司 网页数据抓取过滤方法
CN102682109A (zh) * 2012-05-09 2012-09-19 北京彼速信息技术有限公司 一种专利信息解析方法和装置
CN103177076A (zh) * 2012-12-28 2013-06-26 中联竞成(北京)科技有限公司 一种基于定点网站的舆情监测系统及方法
CN104462158A (zh) * 2013-09-25 2015-03-25 北大方正集团有限公司 数据抓取方法和数据抓取系统
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN104991904A (zh) * 2015-06-16 2015-10-21 浪潮软件集团有限公司 一种动态网页的页面数据采集方法
CN105447081A (zh) * 2015-11-04 2016-03-30 国云科技股份有限公司 面向云平台的一种政务舆情监控方法
CN105468744A (zh) * 2015-11-25 2016-04-06 浪潮软件集团有限公司 一种实现税务舆情分析和全文检索的大数据平台
CN107562936A (zh) * 2017-09-12 2018-01-09 中山大学 一种基于Jsoup的网页新闻列表的抓取及保存方法
CN108052586A (zh) * 2017-12-11 2018-05-18 上海壹账通金融科技有限公司 舆情分析方法、系统、计算机设备和存储介质
US11216426B1 (en) * 2018-06-14 2022-01-04 KnowPeds, LLC Efficient data scraping and deduplication system for registered sex offender queries
US11379542B1 (en) * 2021-06-25 2022-07-05 metacluster lt, UAB Advanced response processing in web data collection
US20230018387A1 (en) * 2021-07-06 2023-01-19 metacluster lt, UAB Dynamic web page classification in web data collection
WO2023023135A1 (en) * 2021-08-20 2023-02-23 Forter Ltd A system and method for realtime js access control to dom/apis
CN114896543A (zh) * 2022-06-02 2022-08-12 上海华客信息科技有限公司 舆情分析方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
湛高峰;蒋勇;: "基于搜索引擎技术的网络舆情监测系统应用研究", 科学家, no. 15, 8 November 2016 (2016-11-08), pages 128 - 129 *
肖慧华;: "政府网络舆情监测系统的功能分析", 科技广场, no. 03, 30 March 2017 (2017-03-30), pages 53 - 56 *

Also Published As

Publication number Publication date
CN116861058B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
US10679051B2 (en) Method and apparatus for extracting information
US8886797B2 (en) System and method for deriving user expertise based on data propagating in a network environment
KR101114012B1 (ko) 정보 신규성 및 다이내믹스의 분석을 통해 뉴스피드를 개인화하는 원리 및 방법
CN106959944A (zh) 一种基于中文语法规则的事件提取方法和系统
CN104899324B (zh) 一种基于idc有害信息监测系统的样本训练系统
US8935274B1 (en) System and method for deriving user expertise based on data propagating in a network environment
CN103942268B (zh) 搜索与应用相结合的方法、设备以及应用接口
US20130238980A1 (en) Method and Apparatus for Processing World Wide Web Page
CN105183873A (zh) 恶意点击行为检测方法及装置
CN112749284A (zh) 知识图谱构建方法、装置、设备及存储介质
CN111125485A (zh) 基于Scrapy的网站URL爬取方法
CN116861058B (zh) 应用于政务领域的舆情监测系统及方法
KR102413961B1 (ko) Rpa 모니터링을 이용한 뉴스 분석 서비스 제공 방법
CN104965894A (zh) 一种用于idc有害信息监测平台的数据分析系统
Girish et al. Extreme event detection and management using twitter data analysis
JP2009199341A (ja) スパム・イベント検出装置及び方法並びにプログラム
CN111859867B (zh) 基于XML和XPath的Web数据提取系统以及其使用方法
CN115204393A (zh) 一种基于知识图谱的智慧城市知识本体库构建方法和装置
CN114328947A (zh) 一种基于知识图谱的问答方法和装置
Adam et al. CUTER: An efficient useful text extraction mechanism
Hendryli et al. Development of Web Crawler to Build Indonesian Text Corpus
CN106934002B (zh) 一种搜索关键字数字化解析方法和引擎
JP2012088800A (ja) 検索装置、検索システム、検索方法及び検索プログラム
Wang et al. Comparison and Analysis of the Positive and Negative words in the websites among Australia, UK and Canada
CN116756399A (zh) 一种基于电网信息的数据获取方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant