CN107491499B - 一种基于非结构化数据的舆情预警方法 - Google Patents

一种基于非结构化数据的舆情预警方法 Download PDF

Info

Publication number
CN107491499B
CN107491499B CN201710624261.4A CN201710624261A CN107491499B CN 107491499 B CN107491499 B CN 107491499B CN 201710624261 A CN201710624261 A CN 201710624261A CN 107491499 B CN107491499 B CN 107491499B
Authority
CN
China
Prior art keywords
data
early warning
unstructured data
correlation rule
unstructured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710624261.4A
Other languages
English (en)
Other versions
CN107491499A (zh
Inventor
沈贝伦
张登
李冰
沈俊青
俞山青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhongao Technology Co Ltd
Original Assignee
Hangzhou Zhongao Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhongao Technology Co Ltd filed Critical Hangzhou Zhongao Technology Co Ltd
Priority to CN201710624261.4A priority Critical patent/CN107491499B/zh
Publication of CN107491499A publication Critical patent/CN107491499A/zh
Application granted granted Critical
Publication of CN107491499B publication Critical patent/CN107491499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于网络舆情预警的技术领域,公开了一种基于非结构化数据的舆情预警方法,先利用爬虫工具在互联网上获取相应的时序数据,再对数据进行预处理,对同一事件的结构化数据和非结构化数据进行关联处理,通过结构化数据的分析对非结构化数进行自动标记,且时序非结构化数据的特征通过深度学习方法来提取,很好的克服了目前非结构化数据的处理需要大量人为标注、人力物力耗费大和处理难度高的缺点,也解决了图片、语音、视频等非结构化数据带来的舆情问题,本发明还采用了预警评估,通过独特的强化学习方法实时在线的更新关联规则,保证了预警的可靠性和时效性。

Description

一种基于非结构化数据的舆情预警方法
【技术领域】
本发明涉及网络舆情预警的技术领域,特别涉及一种基于非结构化数据的舆情预警方法。
【背景技术】
网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。不当的网络舆情会危害社会的公共安全,因此对网络舆情的及时预警就变的极为重要了。
之前网络舆情预警主要以文本分析的方法对结构化数据进行分析得到该文章/消息的舆情安全级别,以及是否需要预警。这种技术在当下能解决一部分的网络舆情危机,但现在的网络社交中存在着的一些以图片、语音、视频传播的网络舆情危害并不能通过此方法正确的解决。而且当今对结构化数据的处理方法较为完善,现在的方法主要为各种聚类方法比如熵权-离差聚类法,而对非结构化数据的处理则往往需要大量人为标注进行处理,非常的耗费人力和精力。为克服现非结构化数据难处理的缺点,解决图片、语音、视频等非结构化数据带来的舆情问题,保证预警的可靠性和时效性,有必要提出一种基于非结构化数据的舆情预警方法,对同一事件结构化数据和非结构化数据进行关联处理。
【发明内容】
本发明的目的在于克服上述现有技术的不足,提供一种基于非结构化数据的舆情预警方法,其旨在解决现有技术中对非结构化数据的处理则往往需要大量人为标注进行处理,非常的耗费人力和精力,处理难度大的技术问题。
为实现上述目的,本发明提出了一种基于非结构化数据的舆情预警方法,通过对同一事件的结构化数据和非结构化数据进行关联处理,并实时在线更新关联规则,达到高效精准的舆情预警,具体步骤如下:
S1、利用爬虫工具在互联网上对历史事件和当前发生事件的数据片段进行数据采集,获得相应的时序数据,时序数据包括结构化数据和非结构化数据;
S2、对结构化数据进行事件认定,对不同事件的结构化数据进行不同的标记,对非结构化数据进行特征提取;
S3、根据结构化数据的标记和非结构化数据的特征进行关联处理,即获取同一事件的结构化数据标记和非结构化数据特征,然后将同一事件的结构化数据和非结构化数据建立关联,通过结构化数据的分析对非结构化数据进行自动标记,并提取出关联规则;
S4、根据所提取的关联规则建立关联规则库,对同一关联规则上的结构化数据和非结构化数据能够构成不当网络舆情的发出预警;
S5、未事件认定的结构化数据继续事件认定,且事件认定后进行预警评估,对已经发出预警的事件结合事件认定进行实时评估,并根据时间推移实时更新评估结果,根据评估结果判断所发出的预警是否出现错误,并将判断结果反馈给关联规则库进行强化学习。
作为优选,所述的步骤S1中结构化数据包括文本数据,所述的非结构化数据包括图片、语音、视频数据。
作为优选,所述的步骤S2中对结构化数据进行事件认定采用聚类方法。
作为优选,所述的步骤S2中对非结构化数据进行特征提取采用深度学习方法。
作为优选,所述的步骤S5中将判断结果反馈给关联规则库进行强化学习包括:如果预警无误,则反馈给关联规则库增加相应关联规则的权重;如果预警有误,则降低相应关联规则的权重,通过权重与关联规则的匹配程度得到预警指数。
作为优选,所述的预警指数超过一定阈值时报警,所述的预警指数的计算公式为:其中,j:代表事件j;ri:第i条关联规则;R:关联规则集合;fj:事件j特征;m(ri,fj):事件j与第i条关联规则的匹配程度;wi:关联规则权重;Nr:关联规则总数。
作为优选,所述的步骤S5之后还包括:未特征提取的非结构化数据继续特征提取,并根据提取出的特征与关联规则库中的关联规则进行匹配,如果匹配成功,则直接对该非结构化数据发出预警;若匹配不成功,则等待与相对应的结构化数据标记进行关联。
本发明的有益效果:与现有技术相比,本发明提供的一种基于非结构化数据的舆情预警方法,对同一事件的结构化数据和非结构化数据进行关联处理,通过结构化数据的分析对非结构化数据进行自动标记,且时序非结构化数据的特征通过深度学习方法来提取,很好的克服了目前非结构化数据难处理的缺点,也解决了图片、语音、视频等非结构化数据带来的舆情问题,本发明还采用了预警评估,通过独特的强化学习方法实时在线更新关联规则,保证了预警的可靠性和时效性。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是本发明实施例一种基于非结构化数据的舆情预警方法的流程示意图。
【具体实施方式】
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明实施例提供一种基于非结构化数据的舆情预警方法,通过对同一事件的结构化数据和非结构化数据进行关联处理,并实时在线更新关联规则,达到高效精准的舆情预警,具体步骤如下:
S1、利用爬虫工具在互联网上对历史事件和当前发生事件的数据片段进行数据采集,获得相应的时序数据,时序数据包括结构化数据和非结构化数据,其中,结构化数据包括文本数据,所述的非结构化数据包括图片、语音、视频数据。
S2、对结构化数据采用聚类方法进行事件认定,对不同事件的结构化数据进行不同的标记,对非结构化数据采用深度学习方法进行特征提取。
在本发明实施例中,采用聚类方法发现网络热点,并根据热点性质和热度进行事件认定,事件认定之前先对垃圾信息过滤去噪等预处理工作。
S3、根据结构化数据的标记和非结构化数据的特征进行关联处理,即获取同一事件的结构化数据标记和非结构化数据特征,然后将同一事件的结构化数据和非结构化数据建立关联,通过结构化数据的分析对非结构化数据进行自动标记,并提取出关联规则。
S4、根据所提取的关联规则建立关联规则库,对同一关联规则上的结构化数据和非结构化数据能够构成不当网络舆情的发出预警。
S5、未事件认定的结构化数据继续事件认定,且事件认定后进行预警评估,对已经发出预警的事件结合事件认定进行实时评估,并根据时间推移实时更新评估结果,根据评估结果判断所发出的预警是否出现错误,并将判断结果反馈给关联规则库进行强化学习,如果预警无误,则反馈给关联规则库增加相应关联规则的权重;如果预警有误,则降低相应关联规则的权重,通过权重与关联规则的匹配程度得到预警指数,预警指数超过一定阈值时报警,所述的预警指数的计算公式为:其中,j:代表事件j;ri:第i条关联规则;R:关联规则集合;fj:事件j特征;m(ri,fj):事件j与第i条关联规则的匹配程度;wi:关联规则权重;Nr:关联规则总数。
在本发明中,随着时间推移,同一关联规则上的结构化数据和非结构化数据在互联网上仍然能保持较高的关联度,则表示预警无误,若随着时间推移关联度较低甚至无关联,则表示预警有误。
S6、未特征提取的非结构化数据继续特征提取,并根据提取出的特征与关联规则库中的关联规则进行匹配,如果匹配成功,则直接对该非结构化数据发出预警;若匹配不成功,则等待与相对应的结构化数据标记进行关联。
本发明一种基于非结构化数据的舆情预警方法,对同一事件的结构化数据和非结构化数据进行关联处理,通过结构化数据的分析对非结构化数进行自动标记,且时序非结构化数据的特征通过深度学习方法来提取,很好的克服了目前非结构化数据难处理的缺点,也解决了图片、语音、视频等非结构化数据带来的舆情问题,本发明还采用了预警评估,通过独特的强化学习方法实时在线更新关联规则,保证了预警的可靠性和时效性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于非结构化数据的舆情预警方法,其特征在于:通过对同一事件的结构化数据和非结构化数据进行关联处理,并实时在线更新关联规则,达到高效精准的舆情预警,具体步骤如下:
S1、利用爬虫工具在互联网上对历史事件和当前发生事件的数据片段进行数据采集,获得相应的时序数据,时序数据包括结构化数据和非结构化数据,结构化数据包括文本数据,所述的非结构化数据包括图片、语音、视频数据;
S2、对结构化数据进行事件认定,对不同事件的结构化数据进行不同的标记,对非结构化数据进行特征提取;
S3、根据结构化数据的标记和非结构化数据的特征进行关联处理,即获取同一事件的结构化数据标记和非结构化数据特征,然后将同一事件的结构化数据和非结构化数据建立关联,通过结构化数据的分析对非结构化数据进行自动标记,并提取出关联规则;
S4、根据所提取的关联规则建立关联规则库,对同一关联规则上的结构化数据和非结构化数据能够构成不当网络舆情的发出预警;
S5、未事件认定的结构化数据继续事件认定,且事件认定后进行预警评估,对已经发出预警的事件结合事件认定进行实时评估,并根据时间推移实时更新评估结果,根据评估结果判断所发出的预警是否出现错误,并将判断结果反馈给关联规则库进行强化学习。
2.如权利要求1所述的一种基于非结构化数据的舆情预警方法,其特征在于:所述的步骤S2中对结构化数据进行事件认定采用聚类方法。
3.如权利要求1所述的一种基于非结构化数据的舆情预警方法,其特征在于:所述的步骤S2中对非结构化数据进行特征提取采用深度学习方法。
4.如权利要求1所述的一种基于非结构化数据的舆情预警方法,其特征在于:所述的步骤S5中将判断结果反馈给关联规则库进行强化学习包括:如果预警无误,则反馈给关联规则库增加相应关联规则的权重;如果预警有误,则降低相应关联规则的权重,通过权重与关联规则的匹配程度得到预警指数。
5.如权利要求4所述的一种基于非结构化数据的舆情预警方法,其特征在于:所述的预警指数超过一定阈值时报警,所述的预警指数的计算公式为:,其中,:代表事件:第i条关联规则;R:关联规则集合;:事件特征;:事件与第i条关联规则的匹配程度;:关联规则权重;:关联规则总数。
6.如权利要求1所述的一种基于非结构化数据的舆情预警方法,其特征在于:所述的步骤S5之后还包括:未特征提取的非结构化数据继续特征提取,并根据提取出的特征与关联规则库中的关联规则进行匹配,如果匹配成功,则直接对该非结构化数据发出预警;若匹配不成功,则等待与相对应的结构化数据标记进行关联。
CN201710624261.4A 2017-07-27 2017-07-27 一种基于非结构化数据的舆情预警方法 Active CN107491499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710624261.4A CN107491499B (zh) 2017-07-27 2017-07-27 一种基于非结构化数据的舆情预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710624261.4A CN107491499B (zh) 2017-07-27 2017-07-27 一种基于非结构化数据的舆情预警方法

Publications (2)

Publication Number Publication Date
CN107491499A CN107491499A (zh) 2017-12-19
CN107491499B true CN107491499B (zh) 2018-09-04

Family

ID=60644940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710624261.4A Active CN107491499B (zh) 2017-07-27 2017-07-27 一种基于非结构化数据的舆情预警方法

Country Status (1)

Country Link
CN (1) CN107491499B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491499B (zh) * 2018-03-20 2020-03-06 苏州思必驰信息科技有限公司 数据采集方法、数据采集平台、客户端及业务服务器
CN109933709B (zh) * 2019-01-31 2023-09-26 平安科技(深圳)有限公司 视频文本组合数据的舆情跟踪方法、装置和计算机设备
CN110046746B (zh) * 2019-03-18 2021-09-10 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于强化学习的网络舆情装置的调度方法
CN110516138A (zh) * 2019-08-31 2019-11-29 武汉理工大学 一种基于多源自更新威胁情报库的食品安全事件预警系统
CN110688557A (zh) * 2019-09-23 2020-01-14 中国农业大学 一种面向食品安全事件的预警方法
CN111241177B (zh) * 2019-12-31 2023-07-04 中国联合网络通信集团有限公司 数据采集方法、系统及网络设备
CN113806414A (zh) * 2020-06-11 2021-12-17 中移(苏州)软件技术有限公司 一种架构重构方法、装置和计算机可读存储介质
CN111859074B (zh) * 2020-07-29 2023-12-29 东北大学 基于深度学习的网络舆情信息源影响力评估方法及系统
US11748384B2 (en) 2021-05-28 2023-09-05 International Business Machines Corporation Determining an association rule

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2490475A1 (en) * 2002-06-25 2003-12-31 Abs Software Partners Llc System and method for online monitoring of and interaction with chat and instant messaging participants
US20050203881A1 (en) * 2004-03-09 2005-09-15 Akio Sakamoto Database user behavior monitor system and method
US20110185428A1 (en) * 2010-01-27 2011-07-28 Mcafee, Inc. Method and system for protection against unknown malicious activities observed by applications downloaded from pre-classified domains
US8429141B2 (en) * 2011-03-01 2013-04-23 Xerox Corporation Linguistically enhanced email detector

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测系统

Also Published As

Publication number Publication date
CN107491499A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
CN107491499B (zh) 一种基于非结构化数据的舆情预警方法
CN106328166B (zh) 人机对话异常检测系统及方法
CN105354196B (zh) 信息推送方法和信息推送装置
CN106357416A (zh) 一种群信息推荐方法、装置及终端
CN102890776B (zh) 通过面部表情调取表情图释的方法
CN103324745B (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN106845373A (zh) 面向监控视频的行人属性预测方法
CN108549806B (zh) 基于用户滑动和点击行为的身份认证方法
CN103854063B (zh) 一种基于互联网开放信息的事件发生风险预测并预警方法
CN107944838A (zh) 一种智能道闸现场监控系统及方法
US9563770B2 (en) Spammer group extraction apparatus and method
CN106257455B (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping方法
CN106354845A (zh) 基于传播结构的微博谣言识别方法和系统
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
CN103176984B (zh) 一种用户生成内容中欺骗性垃圾意见检测方法
CN104376108B (zh) 一种基于6w语义标识的非结构化自然语言信息抽取方法
CN102867020A (zh) 基于人物性格特征的交友匹配方法
CN106845415A (zh) 一种基于深度学习的行人精细化识别方法及装置
CN103729420B (zh) 微博热点追踪系统及追踪方法
CN104156447A (zh) 一种智能社交平台广告预警及处理方法
CN105808691A (zh) 一种卡口车辆检索方法及其系统
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
CN109634994A (zh) 一种简历与职位的匹配推送方法及计算机设备和存储介质
WO2009094624A3 (en) System and method for analyzing voters
CN110176228A (zh) 一种小语料语音识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20191118

Granted publication date: 20180904

PD01 Discharge of preservation of patent
PD01 Discharge of preservation of patent

Date of cancellation: 20200714

Granted publication date: 20180904

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 310000 room 1408, building 2, Caizhi Shunfeng innovation center, No. 99, housheng street, Gongshu District, Hangzhou City, Zhejiang Province

Patentee after: HANGZHOU CHINAOLY TECHNOLOGY CO.,LTD.

Address before: 2 / F, building A04, 9 Jiusheng Road, Jianggan District, Hangzhou City, Zhejiang Province 310000

Patentee before: HANGZHOU CHINAOLY TECHNOLOGY CO.,LTD.