CN113609403B - 一种互联网舆情信息采集方法 - Google Patents

一种互联网舆情信息采集方法 Download PDF

Info

Publication number
CN113609403B
CN113609403B CN202110686060.3A CN202110686060A CN113609403B CN 113609403 B CN113609403 B CN 113609403B CN 202110686060 A CN202110686060 A CN 202110686060A CN 113609403 B CN113609403 B CN 113609403B
Authority
CN
China
Prior art keywords
information
event
public opinion
speaker
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110686060.3A
Other languages
English (en)
Other versions
CN113609403A (zh
Inventor
张昊苏
张茜
孙夏夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Institute of Technology
Original Assignee
Henan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Institute of Technology filed Critical Henan Institute of Technology
Priority to CN202110686060.3A priority Critical patent/CN113609403B/zh
Publication of CN113609403A publication Critical patent/CN113609403A/zh
Application granted granted Critical
Publication of CN113609403B publication Critical patent/CN113609403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种互联网舆情信息采集方法,包括步骤S01、获取第一事件的网络舆情信息;S02、提取该网络舆情信息中的发言人相关信息,并标记为第一发言人相关信息;S03、调取第二事件网络舆情信息的第二发言人相关信息,将第一发言人相关信息与第二发言人相关信息中相同发言人的舆情信息进行提取;S04、分析并统计步骤S03中的提取信息,并将分析统计结果进行存储记录。该发明具有对互联网舆情信息采集面广,舆情变化情况统计价值度高的优点。

Description

一种互联网舆情信息采集方法
技术领域
本发明涉及网络舆情领域,尤其是涉及了一种互联网舆情信息采集方法。
背景技术
网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。网络舆情以网络为载体,以事件为核心,是广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。
现有的网络舆情采集主要是通过网络页面之间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。采集后进行数据清理、数据统计等处理后,提取主要内容、发言人、发言时间等信息,最后形成格式化的信息。但是目前的网络舆情采集主要对单一事件的网络舆情信息进行提取,通过关注偏激或负面舆情信息,对单一事件进行安全把控,无法在大时间跨度上对舆论者的态度变化进行了解,不方便对国民认知的成长性进行观察,也不便于对新事件发生时进行预估。
发明内容
为了解决背景技术中所存在的问题,本发明提出了一种互联网舆情信息采集方法。
一种互联网舆情信息采集方法,包括步骤
S01、获取第一事件的网络舆情信息;
S02、提取该网络舆情信息中的发言人相关信息,并标记为第一发言人相关信息;
S03、调取第二事件网络舆情信息的第二发言人相关信息,将第一发言人相关信息与第二发言人相关信息中相同发言人的舆情信息进行提取;
S04、分析并统计步骤S03中的提取信息,并将分析统计结果进行存储记录。
基于上述,步骤S03包括:
S301、获取第二事件的网络舆情信息;
S302、提取该网络舆情信息中的发言人相关信息,并标记为第二发言人相关信息;
S303、建立分析参考库,将所提取的第二发言人相关信息记录并存储入分析参考库。
基于上述,第二事件为第一事件的同主题在先事件。
基于上述,步骤S04中的分析统计结果存储记录入分析参考库中。
基于上述,所述发言人相关信息至少包括发言人ID信息、发言倾向信息、发言时间信息。
基于上述,所述分析统计结果包括变化群体的统计信息,至少包括发言倾向改变的相同发言人的数量、发言倾向变化信息、时间跨度信息和占比信息。
基于上述,所述分析统计结果包括重点群体的统计信息,至少包括发言倾向持续偏激或负面的相同发言人的数量、发言倾向信息、时间跨度信息和占比信息。
基于上述,根据统计信息,建立预估模型并结合分析参考库,持续完善和修正预估模型。
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说,本发明通过对相同事件的网络舆情信息进行采集,统计相同发言人的观点倾向变化,掌握了解网络舆论者的成长情况,并根据统计结果建立预估模型,以便对新发生的同主题事件进行预估指导,具有对互联网舆情信息采集面广,舆情变化情况统计价值度高的优点。
附图说明
图1是本发明的流程示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种互联网舆情信息采集方法,包括步骤S01、获取第一事件的网络舆情信息;S02、提取该网络舆情信息中的发言人相关信息,并标记为第一发言人相关信息;S03、调取第二事件网络舆情信息的第二发言人相关信息,将第一发言人相关信息与第二发言人相关信息中相同发言人的舆情信息进行提取;S04、分析并统计步骤S03中的提取信息,并将分析统计结果进行存储记录。
对不同的相同主题事件中,发言人相关信息进行提取,对相同发言人的舆情进行提取后,进行分析统计,以掌握对第一事件和第二事件均有舆论的发言人的观点倾向变化情况、占比情况、观点发生变化时的时间跨度情况等。
具体的,步骤S03包括:S301、获取第二事件的网络舆情信息;S302、提取该网络舆情信息中的发言人相关信息,并标记为第二发言人相关信息;S303、建立分析参考库,将所提取的第二发言人相关信息记录并存储入分析参考库。实际中,第二事件为第一事件的同主题在先事件,分析参考库中存储记录有多个事件,并按主题进行分类,每个分类下有多个同主题的事件。在进行第二发言人相关信息提取时,第二事件有多个,分别提取发言人相关信息,并提取相同发言人的舆情信息。现实中,还将第一事件的网络舆情信息存储入分析参考库。分析统计结束时,步骤S04中的分析统计结果存储记录入分析参考库中,以对后来事件进行参考指导。
本实施例中,所述发言人相关信息至少包括发言人ID信息、发言倾向信息、发言时间信息。
实际中,所述分析统计结果包括变化群体的统计信息,至少包括发言倾向改变的相同发言人的数量、发言倾向变化信息、时间跨度信息和占比信息,占比信息包括相同发言人在第一事件中的占比、在第二事件中的占比,发言倾向变化的相同发言人数量在相同发言人中的占比等。通过统计和分析,可了解网络舆论者在对同一主题事件的关注兴趣发生的变化,可了解对同一主题事件的观点态度的变化、成长性等。
优选地,所述分析统计结果包括重点群体的统计信息,至少包括发言倾向持续偏激或负面的相同发言人的数量、发言倾向信息、时间跨度信息和占比信息。占比信息包括发言倾向持续偏激或负面的相同发言人在第一事件中的占比、在第二事件中的占比,发言倾向持续偏激或负面的相同发言人数量在相同发言人中的占比等。通过统计和分析,可了解对同一主题事件的发言倾向持续偏激或负面的网络舆论者群体重点关注,也可对该群体进行持续关注以进行了解和分析,掌握该情况的成因等,以方便对该群体进行帮助及预防。
现实中,还可根据统计信息,根据不同群体占比或观点倾向变化率、变化速率等,建立预估模型并结合分析参考库,持续完善和修正预估模型,以便在未来发生同主题事件时,有效的进行预估和参考。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (1)

1.一种互联网舆情信息采集方法,其特征在于:包括步骤
S01、获取第一事件的网络舆情信息;
S02、提取该网络舆情信息中的发言人相关信息,并标记为第一发言人相关信息;其中,所述发言人相关信息至少包括发言人ID信息、发言倾向信息、发言时间信息;
S03、调取第二事件的网络舆情信息,提取该网络舆情信息中的发言人相关信息,并标记为第二发言人相关信息,建立分析参考库,将所提取的第二发言人相关信息记录并存储入分析参考库,还将第一事件的网络舆情信息存储入分析参考库;将第一发言人相关信息与第二发言人相关信息中相同发言人的舆情信息进行提取;
其中,所述第二事件为第一事件的同主题在先事件,分析参考库中存储记录有多个事件,并按主题进行分类,每个分类下有多个同主题的事件;在进行所述第二发言人相关信息提取时,第二事件有多个,分别提取发言人相关信息,并提取相同发言人的舆情信息;
S04、分析并统计步骤S03中的提取信息,并将分析统计结果进行存储记录,分析统计结果存储记录入分析参考库中,以对后来事件进行参考指导;对不同的相同主题事件中,发言人相关信息进行提取,对相同发言人的舆情进行提取后,进行分析统计,以掌握对第一事件和第二事件均有舆论的发言人的观点倾向变化情况、占比情况、观点发生变化时的时间跨度情况;
其中,所述分析统计结果包括变化群体的统计信息,至少包括发言倾向改变的相同发言人的数量、发言倾向变化信息、时间跨度信息和第一占比信息;所述第一占比信息包括相同发言人在第一事件中的占比、在第二事件中的占比,发言倾向变化的相同发言人数量在相同发言人中的占比;通过统计和分析,用于了解网络舆论者在对同一主题事件的关注兴趣发生的变化,了解对同一主题事件的观点态度的变化和成长性;
所述分析统计结果还包括重点群体的统计信息,至少包括发言倾向持续偏激或负面的相同发言人的数量、发言倾向信息、时间跨度信息和第二占比信息;所述第二占比信息包括发言倾向持续偏激或负面的相同发言人在第一事件中的占比、在第二事件中的占比,发言倾向持续偏激或负面的相同发言人数量在相同发言人中的占比;通过统计和分析,用于对同一主题事件的发言倾向持续偏激或负面的网络舆论者群体重点关注,也对该群体进行持续关注以进行了解和分析,掌握该情况的成因,以方便对该群体进行帮助及预防;
还根据统计信息,根据不同群体占比或观点倾向变化率、变化速率,建立预估模型并结合分析参考库,持续完善和修正预估模型,以便在未来发生同主题事件时,有效的进行预估和参考。
CN202110686060.3A 2021-06-21 2021-06-21 一种互联网舆情信息采集方法 Active CN113609403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110686060.3A CN113609403B (zh) 2021-06-21 2021-06-21 一种互联网舆情信息采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110686060.3A CN113609403B (zh) 2021-06-21 2021-06-21 一种互联网舆情信息采集方法

Publications (2)

Publication Number Publication Date
CN113609403A CN113609403A (zh) 2021-11-05
CN113609403B true CN113609403B (zh) 2024-03-26

Family

ID=78336658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110686060.3A Active CN113609403B (zh) 2021-06-21 2021-06-21 一种互联网舆情信息采集方法

Country Status (1)

Country Link
CN (1) CN113609403B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN103218410A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 互联网事件分析方法与装置
CN104199947A (zh) * 2014-09-11 2014-12-10 浪潮集团有限公司 一种对重点人员言论监督与关联关系挖掘的方法
CN105243448A (zh) * 2015-10-13 2016-01-13 北京交通大学 网络舆论的演化趋势的预测方法和装置
CN111310021A (zh) * 2019-11-04 2020-06-19 深圳邦拓盛世品牌咨询管理有限公司 一种网络舆情监控方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN103218410A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 互联网事件分析方法与装置
CN104199947A (zh) * 2014-09-11 2014-12-10 浪潮集团有限公司 一种对重点人员言论监督与关联关系挖掘的方法
CN105243448A (zh) * 2015-10-13 2016-01-13 北京交通大学 网络舆论的演化趋势的预测方法和装置
CN111310021A (zh) * 2019-11-04 2020-06-19 深圳邦拓盛世品牌咨询管理有限公司 一种网络舆情监控方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
宗利永著.《网络危机舆情演化仿真与沟通问题研究》.上海科学技术文献出版社,2016,第37页. *
李真等.网络舆情观点主题识别研究.2017,第1卷(第8期),第20页. *
网络舆情指标体系设计与分析;李雯静;许鑫;陈正权;;情报科学;20090715(07);28-33 *
陈忆金著.《面向应对决策的网络舆情信息聚合研究》.武汉大学出版社,2020,第308-309页. *

Also Published As

Publication number Publication date
CN113609403A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN106453971B (zh) 呼叫中心质检语音的获取方法和呼叫中心质检系统
CN108154304A (zh) 具有教学质量评估功能的服务器
CN106161209B (zh) 一种基于深度自学习的垃圾短信过滤方法及系统
CN106022708A (zh) 一种预测员工离职的方法
CN112002328B (zh) 一种字幕生成方法、装置及计算机存储介质、电子设备
CN107562760A (zh) 一种语音数据处理方法及装置
CN108257594A (zh) 一种会议系统及其信息处理方法
CN108650546B (zh) 弹幕处理方法、计算机可读存储介质及电子设备
CN116884390B (zh) 一种提高用户交互流畅度的方法和装置
EP2962296A2 (de) Wortwahlbasierte sprachanalyse und sprachanalyseeinrichtung
CN113609403B (zh) 一种互联网舆情信息采集方法
CN111242110A (zh) 一种新闻自动拆条的自适应条件随机场算法的训练方法
CN104135638A (zh) 优化的视频快照
CN106708827A (zh) 质检方法及装置
CN111970471A (zh) 基于视频会议的参会人员评分方法、装置、设备及介质
CN106372083B (zh) 一种有争议性新闻线索自动发现的方法及系统
CN113240396A (zh) 分析员工工作状态的方法、装置、设备及存储介质
CN110516066B (zh) 一种文本内容安全防护方法和装置
CN112235254A (zh) 一种高速主干网中Tor网桥的快速识别方法
Wu et al. Cold start problem for automated live video comments
CN114443930A (zh) 一种新闻舆情智能监测分析方法、系统及计算机存储介质
DE112017007900T5 (de) Systeme und verfahren zur erzeugung von daten natürlicher sprache
Vinciarelli 27 Social Signal Processing for Conflict Analysis and Measurement
US20230394244A1 (en) Detection of interaction events in recorded audio streams
CN117633294A (zh) 一种短视频内容观点挖掘方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant