CN113657547B - 基于自然语言处理模型的舆情监测方法及其相关设备 - Google Patents

基于自然语言处理模型的舆情监测方法及其相关设备 Download PDF

Info

Publication number
CN113657547B
CN113657547B CN202111012980.3A CN202111012980A CN113657547B CN 113657547 B CN113657547 B CN 113657547B CN 202111012980 A CN202111012980 A CN 202111012980A CN 113657547 B CN113657547 B CN 113657547B
Authority
CN
China
Prior art keywords
public opinion
data
information
natural language
language processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111012980.3A
Other languages
English (en)
Other versions
CN113657547A (zh
Inventor
刘亮
周炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Medical and Healthcare Management Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN202111012980.3A priority Critical patent/CN113657547B/zh
Publication of CN113657547A publication Critical patent/CN113657547A/zh
Application granted granted Critical
Publication of CN113657547B publication Critical patent/CN113657547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例属于人工智能领域,应用于智慧政务领域,涉及一种基于自然语言处理模型的舆情监测方法及其相关设备,包括接收舆情采集指令,并获取所述舆情采集指令携带的目标网址,对所述目标网址进行信息爬取操作,获得舆情数据;基于预先训练的自然语言处理模型分类并标记所述舆情数据,获得标记数据,其中,所述标记数据携带标签信息;确定所述标签信息是否属于指定领域,将属于指定领域的标签信息对应的标记数据作为目标数据,基于所述目标数据生成舆情分析报告,并确定所述舆情分析报告中的舆情信息是否超过舆情阈值,在所述舆情信息超过舆情阈值时,进行舆情预警。舆情数据可存储于区块链中。本申请能够对指定领域的舆情数据进行针对性监测。

Description

基于自然语言处理模型的舆情监测方法及其相关设备
技术领域
本申请涉及人工智能技术领域,尤其涉及基于自然语言处理模型的舆情监测方法及其相关设备。
背景技术
目前大多数的舆情监测依然采用传统方式,依靠人工收集信息并进行上报,其缺点是舆情信息不全面,舆情发现不及时。通用的舆情监测工具仅对舆情信息进行集中收集和汇总,缺乏对指定领域的舆情信息进行专项监测。
发明内容
本申请实施例的目的在于提出一种基于自然语言处理模型的舆情监测方法及其相关设备,能够对指定领域的舆情数据进行针对性监测。
为了解决上述技术问题,本申请实施例提供一种基于自然语言处理模型的舆情监测方法,采用了如下所述的技术方案:
一种基于自然语言处理模型的舆情监测方法,包括下述步骤:
接收舆情采集指令,并获取所述舆情采集指令携带的目标网址,对所述目标网址进行信息爬取操作,获得舆情数据;
基于预先训练的自然语言处理模型分类并标记所述舆情数据,获得标记数据,其中,所述标记数据携带标签信息;
确定所述标签信息是否属于指定领域,将属于指定领域的标签信息对应的标记数据作为目标数据,基于所述目标数据生成舆情分析报告,并确定所述舆情分析报告中的舆情信息是否超过舆情阈值,在所述舆情信息超过舆情阈值时,进行舆情预警。
进一步的,所述基于预先训练的自然语言处理模型分类并标记所述舆情数据,获得标记数据的步骤包括:
对每条所述舆情数据分别进行分词操作和清洗操作,分别获得多个舆情词语;
将所述多个舆情词语与预设语料库中的语料进行匹配,确认任意所述语料中是否同时存在所述多个舆情词语;
在所述语料中同时存在所述多个舆情词语时,将所述语料作为目标语料;
获取与所述目标语料相关联的分类标签,并将所述分类标签赋予所述多个舆情词语所对应的舆情数据,获得所述标记数据。
进一步的,所述确定所述舆情分析报告中的舆情信息是否超过舆情阈值,在所述舆情信息超过舆情阈值时,进行舆情预警的步骤包括:
判断所述舆情分析报告中的各舆情信息是否超过对应的指标阈值;
当超过对应的指标阈值的指标数量大于预设的数量阈值时,触发预警,生成预警信息;
判断当前时间是否属于沉默时间,在当前时间不属于沉默时间时,将所述预警信息发送至客户端。
进一步的,所述对所述目标网址进行信息爬取操作,获得舆情数据的步骤包括:
对所述目标网址中的信息进行多维度爬取操作,获得所述舆情数据。
进一步的,对所述目标网址中的信息进行多维度爬取操作,获得所述舆情数据的步骤包括:
识别所述目标网址是否属于关键网址,在所述目标网址属于关键网址时,通过爬虫技术对所述目标网址进行多层级爬取操作,其中,每个层级均进行所述多维度爬取操作,获得所述舆情数据。
进一步的,所述对所述目标网址进行信息爬取操作,获得舆情数据的步骤包括:
识别所述目标网址中是否存在同时属于预设的第一类别和第二类别的信息,在存在同时属于第一类别和第二类别的信息时,爬取所述目标网址中同时属于第一类别和第二类别的信息,获得所述舆情数据。
进一步的,所述舆情数据包括舆情生成时间,所述基于所述舆情数据生成舆情分析报告的步骤包括:
基于所述舆情生成时间对所述舆情数据进行多方向的排序和/或统计操作,生成多个所述舆情信息;
组装所述舆情信息,生成所述舆情分析报告。
为了解决上述技术问题,本申请实施例还提供一种基于自然语言处理模型的舆情监测装置,采用了如下所述的技术方案:
一种基于自然语言处理模型的舆情监测装置,包括:
获取模块,用于在接收到舆情数据采集指令时,获取所述舆情数据采集指令携带的目标网址,对所述目标网址进行信息爬取操作,获得舆情数据;
分类模块,用于基于预先训练的自然语言处理模型,对所述舆情数据进行分类并标记,获得标记后的舆情数据,其中,所述标记后的舆情数据携带有标签信息;
确定模块,用于确定所述标签信息是否属于指定领域,在属于指定领域时,基于所述舆情数据生成舆情分析报告,并确定所述舆情分析报告中的指标信息是否超过指标阈值,在所述指标信息超过指标阈值时,进行舆情预警。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的基于自然语言处理模型的舆情监测方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述的基于自然语言处理模型的舆情监测方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请通过爬虫自动采集舆情信息、自然语言处理模型识别进行舆情分类后,能自动将筛选出属于指定领域的舆情数据,大大节省了工作量,同时能够实现对指定领域的舆情信息的监管和筛查。通过对指定领域的舆情数据的分析生成舆情分析报告,能够基于舆情分析报告进行舆情预警,以便及时对舆情进行应对和调整。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的基于自然语言处理模型的舆情监测方法的一个实施例的流程图;
图3是根据本申请的基于自然语言处理模型的舆情监测装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:200、计算机设备;201、存储器;202、处理器;203、网络接口;300、基于自然语言处理模型的舆情监测装置;301、获取模块;302、分类模块;303、确定模块。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于自然语言处理模型的舆情监测方法一般由服务器/终端设备执行,相应地,基于自然语言处理模型的舆情监测装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的基于自然语言处理模型的舆情监测方法的一个实施例的流程图。所述的基于自然语言处理模型的舆情监测方法,包括以下步骤:
S1:接收舆情采集指令,并获取所述舆情采集指令携带的目标网址,对所述目标网址进行信息爬取操作,获得舆情数据。
在本实施例中,在接收到舆情数据采集指令时,从MySQL数据库中调取预先存储的爬虫脚本。运行该爬虫脚本对所述目标网址进行信息爬取操作,获得舆情数据。爬取站点(目标网址)包含:医疗行业网站、主流媒体、微博、微信、贴吧、论坛、博客、抖音、知乎等网址。
在本实施例中,基于自然语言处理模型的舆情监测方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收舆情数据采集指令。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
具体的,所述,对所述目标网址进行信息爬取操作,获得舆情数据的步骤包括:
基于预设的爬取频率,对所述目标网址进行增量爬取操作,获得所述舆情数据。
在本实施例中,爬取频率,针对不同网站爬取频率和时间可自行设置,以A网站为例,每日9点爬取,增量运行3/分钟/省/天。
此外,所述对所述目标网址进行信息爬取操作,获得舆情数据的步骤包括:
对所述目标网址中的信息进行多维度的爬取操作,获得所述舆情数据。
在本实施例中,所述维度至少包括正文内容、浏览量和回复量。对目标网址中的信息进行多维度的爬取操作,其中,多维度指爬取信息中的多个方面的标签,例如:对于爬取的目标网址为医疗行业网站时,爬取行业网站中包括新闻标题,新闻内容,发布时间,文章来源、浏览量、转发量、评论量等多维度的内容。对于爬取的目标网址为媒体的官方网站时,爬取媒体的官方网站中包括新闻标题、新闻内容,发布时间、文章来源、浏览量、转发量、评论量等多维度的内容。对于爬取的目标网址为微博时,爬取微博中的包括微博内容,发布时间、浏览量、评论量、转发量等多维度的内容。对于爬取的目标网址为贴吧时,爬取贴吧中的包括主帖标题,主贴及跟帖的内容,发布时间、浏览量、回复量等多维度的内容。对于爬取的目标网址为抖音的时,获取抖音中的各视频地址,根据视频地址爬取视频标题,热度、视频标签,视频内容(若无法对视频内容中的文字进行提取,则内容同视频标题一致)、发布来源、发布时间、浏览量、点赞量、评论量、转发量等多维度的内容。
其中,所述目标网址中的信息进行多维度爬取操作,获得所述舆情数据的步骤包括:
识别所述目标网址是否属于关键网址,在所述目标网址属于关键网址时,通过爬虫技术对所述目标网址进行多层级爬取操作,其中,每个层级均进行所述多维度爬取操作,获得所述舆情数据。
在本实施例中,有些目标网址属于关键网址,且关键网址中存在多层级的网络地址,为了能够充分的获得信息,需要进行多层级爬取操作。其中,识别所述网址是否属于关键网址的步骤包括:调取数据库中的关键网址信息表,其中,所述关键网址信息表中包括多个网址;确定所述关键网址信息表中的网址中是否存在所述目标网址,在存在时,确定所述目标网址属于关键网址。另外,所述识别所述网址是否属于关键网址的步骤还包括:清洗所述目标网址,获得目标字符串;确定所述目标字符串中是否包含任意至少一个预设的关键字,在包含时,确定所述目标网址属于关键网址。本申请中政府网址属于关键网址,通过爬虫技术对所述目标网址进行多层级爬取操作的步骤包括:基于预设一级爬虫爬取所述目标网址(政府网址)中的第一名称(省级名称)和所述第一名称对应的第一地址(省级网址);基于预设的二级爬虫爬取所述第一地址中的第二名称(市级名称)和所述第二名称对应的第二地址(市级网址);基于预设的三级爬虫爬取所述第二地址中的人员名称和所述人员名称对应的第三地址(留言板地址);基于预设的四级爬虫爬取所述第三地址中,与所述人员名称相关联的交流数据,作为所述舆情数据。对于留言板中的内容采用多维度爬取操作,即爬取留言板中的各个信息的标题、内容、状态、标签、答复信息等,作为舆情数据,将舆情数据保存至舆情信息库中。对于政府网站需要多层级爬虫。以A网站留言板为例,可通过一级爬虫爬取A网站中的各省级名称及对应网络地址,再通过二级爬虫,爬取各市级名称及对应网络地址,通过三级爬虫,爬取其中各符合预设职位等级要求的人员名称及对应该人员名称的留言板地址,再通过四级爬虫爬取该留言板地址中的留言板内容,记录其标题、内容、状态、标签、答复信息等,将信息保存至舆情信息库。
此外,所述对所述目标网址进行信息爬取操作,获得舆情数据的步骤包括:
识别所述目标网址中是否存在同时属于预设的第一类别和第二类别的信息,在存在同时属于第一类别和第二类别的信息时,爬取所述目标网址中同时属于第一类别和第二类别的信息,获得所述舆情数据。
在本实施例中,对各类新闻媒体、贴吧论坛、微博、微信等公开新闻数据进行爬取,爬取内容主要是包含医保、医疗信息新闻和文章。
需要说明的是:本申请中第一类别为新闻类,第二类别为医疗类,在实际应用中,可以根据实际需要,调整第一类别和第二类别所对应的实际类别内容。
S2:基于预先训练的自然语言处理模型分类并标记所述舆情数据,获得标记数据,其中,所述标记数据携带标签信息。
在本实施例中,NLP模型(Natural Language Processing,自然语言处理)主要应用于篇章理解、文本摘要、情感分析、知识图谱、文本翻译等领域。本申请通过NLP模型对舆情数据进行标记,便于后续对舆情数据所属领域的区分。
具体的,基于预先训练的自然语言处理模型分类并标记所述舆情数据,获得标记数据的步骤包括:
对每条所述舆情数据分别进行分词操作和清洗操作,分别获得多个舆情词语;
将所述多个舆情词语与预设语料库中的语料进行匹配,确认任意所述语料中是否同时存在所述多个舆情词语;
在所述语料中同时存在所述多个舆情词语时,将所述语料作为目标语料;
获取与所述目标语料相关联的分类标签,并将所述分类标签赋予所述多个舆情词语所对应的舆情数据,获得所述标记数据。
在本实施例中,本申请还可以计算每个语料与所述多个舆情词语的重合率,确定所述重合率是否高于重合阈值,在所述重合率高于重合阈值时,将对应的所述语料作为目标语料。在医保场景中,分类标签包括基本医保、大病保险、医疗救助待遇政府等分类。NLP首先是对文本进行分词,本申请使用jieba分词器对舆情数据进行分词操作。例如,对舆情数据的的清洗操作为:NLP模型会从留言板内容中找到相关关键字,具体根据预先配置的关键字查找表找到相关关键字,作为舆情词语,如:“费用;医疗保险;看病;困难;医疗”等词。最后再与语料库(例如医保语料库)中的语料(医保语料)进行对比,所以此条舆情就会被标注为与医疗相关,并打上医疗标签,从而获得标记数据。
S3:确定所述标签信息是否属于指定领域,将属于指定领域的标签信息对应的标记数据作为目标数据,基于所述目标数据生成舆情分析报告,并确定所述舆情分析报告中的舆情信息是否超过舆情阈值,在所述舆情信息超过舆情阈值时,进行舆情预警。
在本实施例中,在医保场景下,指定领域为医疗领域,确定标签信息是否属于医疗领域,在属于医疗领域时,基于所述标记后的舆情数据生成舆情分析报告。
具体的,所述舆情数据包括舆情生成时间,所述基于所述舆情数据生成舆情分析报告的步骤包括:
基于所述舆情生成时间对所述舆情数据进行多方向的排序和/或统计操作,生成多个所述舆情信息;
组装所述舆情信息,生成所述舆情分析报告。
在本实施例中,本申请对采集到的舆情信息,监测其时间发展的轨迹,形成分析报告,进行舆情预警提醒。以时间维度汇总统计舆情事件数据信息,监测舆情事件的发展趋势,对舆情数据进行不同方向的排序和/或统计操作,生成指标信息。将舆情趋势分析内容(即舆情信息)汇总为舆情报告,通过设置报告模板,可自行生成舆情报告。不同的方向的排序和/或统计操作包括对舆情数据中的舆情事件的数量的统计操作。舆情数据中每条舆情的转发量和评论量的总和,作为舆情影响力,将一个时间段内的舆情数据,根据舆情影响力对舆情数据进行排序等。舆情信息包含:舆情事件数量、舆情变动率、正负舆情对比、舆情事件榜单、影响力、事件数、正面情绪占比、负面情绪占比、中立情绪占比等。本申请的对舆情数据的爬取和统计周期默认为当日至过去的7日内(含当日)。
此外,所述确定所述舆情分析报告中的舆情信息是否超过舆情阈值,在所述舆情信息超过舆情阈值时,进行舆情预警的步骤包括:
判断所述舆情分析报告中的各舆情信息是否超过对应的指标阈值;
当超过对应的指标阈值的指标数量大于预设的数量阈值时,触发预警,生成预警信息;
判断当前时间是否属于沉默时间,在当前时间不属于沉默时间时,将所述预警信息发送至客户端。
在本实施例中,通过设置舆情预警规则,通过对舆情指标设置相关阈值,超出阈值范围视为触发预警条件,预警条件也可以将多个预警规则通过与、或、非组合为复合规则。预警方式可通过设置系统消息提醒、短信提醒等方式进行选择。预警提醒人,可设置接收人账号、手机等。为避免系统频繁提醒带来的困扰,本申请还设置有沉默时间。
此外,本申请还获取舆情数据中的舆情讨论地理位置和舆情类型;根据所述舆情类型和所述舆情讨论地理位置,爬取对应所述舆情讨论地理位置中属于所述舆情类型的政策信息;根据所述政策信息生成报销数据。本申请自动爬取舆情讨论地理位置(即与舆情相关的地方)的相关医保政策,供舆情的后续处理与分析,并提供相关政策待遇保障情况分析的详情。具体的,在医保场景中,根据政策生成报销数据。在舆情数据处理过程中,显示舆情数据的事件标题、数据来源、主体名称、关键词、事件内容。根据舆情类型(即医保类型)分别展示基本医保、大病保险、医疗救助等三类医保政策。具体的,分别展示医保政策中的基本医保报销比例、基本医保个人自付、大病保险报销比例、大病保险个人自付、医疗救助报销比例、医疗救助个人自付,以及各分类下个人自付费用分布,包含个人自付费用段、人数、报销比例等作为所述报销数据,以便于用户获得直观的信息。
需要强调的是,为进一步保证上述舆情数据的私密和安全性,上述舆情数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可应用于智慧政务领域或智慧医疗领域中,从而推动智慧城市的建设。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种基于自然语言处理模型的舆情监测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的基于自然语言处理模型的舆情监测装置300包括:获取模块301、分类模块302以及确定模块303。其中:获取模块301,用于接收舆情采集指令,并获取所述舆情采集指令携带的目标网址,对所述目标网址进行信息爬取操作,获得舆情数据;分类模块302,用于基于预先训练的自然语言处理模型,对所述舆情数据进行分类并标记,获得标记后的舆情数据,其中,所述标记后的舆情数据携带有标签信息;确定模块303,用于确定所述标签信息是否属于指定领域,在属于指定领域时,基于所述舆情数据生成舆情分析报告,并确定所述舆情分析报告中的指标信息是否超过指标阈值,在所述指标信息超过指标阈值时,进行舆情预警。
在本实施例中,本申请通过爬虫自动采集舆情信息、自然语言处理模型识别进行舆情分类后,能自动将筛选出属于指定领域的舆情数据,大大节省了工作量,同时能够实现对指定领域的舆情信息的监管和筛查。通过对指定领域的舆情数据的分析生成舆情分析报告,能够基于舆情分析报告进行舆情预警,以便及时对舆情进行应对和调整。
在本实施例的一些可选的实现方式中,上述获取模块301进一步用于:
基于预设的爬取频率,对所述目标网址进行增量爬取操作,获得所述舆情数据。
在本实施例的一些可选的实现方式中,上述获取模块301进一步用于:对所述目标网址中的信息进行多维度的爬取操作,获得所述舆情数据。
在本实施例的一些可选的实现方式中,上述获取模块301进一步用于:识别所述目标网址是否属于关键网址,在所述目标网址属于关键网址时,通过爬虫技术对所述目标网址进行多层级爬取操作,其中,每个层级均进行所述多维度爬取操作,获得所述舆情数据。
在本实施例的一些可选的实现方式中,上述获取模块301进一步用于:识别所述目标网址中是否存在同时属于预设的第一类别和第二类别的信息,在存在同时属于第一类别和第二类别的信息时,爬取所述目标网址中同时属于第一类别和第二类别的信息,获得所述舆情数据。
所述分类模块302包括清洗子模块、匹配子模块、确定子模块和赋予子模块,其中,清洗子模块用于对每条所述舆情数据分别进行分词操作和清洗操作,分别获得多个舆情词语;匹配子模块用于将所述多个舆情词语与预设语料库中的语料进行匹配,确认任意所述语料中是否同时存在所述多个舆情词语;确定子模块用于在所述语料中同时存在所述多个舆情词语时,将所述语料作为目标语料;赋予子模块用于获取与所述目标语料相关联的分类标签,并将所述分类标签赋予所述多个舆情词语所对应的舆情数据,获得所述标记数据。
所述舆情数据包括舆情生成时间,确定模块303包括生成子模块和组装子模块,其中,生成子模块用于基于所述舆情生成时间对所述舆情数据进行多方向的排序和/或统计操作,生成多个所述舆情信息;组装子模块用于组装所述舆情信息,生成所述舆情分析报告。
确定模块303还包括判断子模块、预警子模块和发送子模块,其中,判断子模块用于判断所述舆情分析报告中的各舆情信息是否超过对应的指标阈值;预警子模块用于当超过对应的指标阈值的指标数量大于预设的数量阈值时,触发预警,生成预警信息;发送子模块用于判断当前时间是否属于沉默时间,在当前时间不属于沉默时间时,将所述预警信息发送至客户端。
本申请通过爬虫自动采集舆情信息、自然语言处理模型识别进行舆情分类后,能自动将筛选出属于指定领域的舆情数据,大大节省了工作量,同时能够实现对指定领域的舆情信息的监管和筛查。通过对指定领域的舆情数据的分析生成舆情分析报告,能够基于舆情分析报告进行舆情预警,以便及时对舆情进行应对和调整。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是,图中仅示出了具有组件201-203的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器201至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器201可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器201也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如基于自然语言处理模型的舆情监测方法的计算机可读指令等。此外,所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据,例如运行所述基于自然语言处理模型的舆情监测方法的计算机可读指令。
所述网络接口203可包括无线网络接口或有线网络接口,该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
在本实施例中,本申请通过爬虫自动采集舆情信息、自然语言处理模型识别进行舆情分类后,能自动将筛选出属于指定领域的舆情数据,大大节省了工作量,同时能够实现对指定领域的舆情信息的监管和筛查。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于自然语言处理模型的舆情监测方法的步骤。
在本实施例中,本申请通过爬虫自动采集舆情信息、自然语言处理模型识别进行舆情分类后,能自动将筛选出属于指定领域的舆情数据,大大节省了工作量,同时能够实现对指定领域的舆情信息的监管和筛查。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于自然语言处理模型的舆情监测方法,其特征在于,包括下述步骤:
接收舆情采集指令,并获取所述舆情采集指令携带的目标网址,对所述目标网址进行信息爬取操作,获得舆情数据;
基于预先训练的自然语言处理模型分类并标记所述舆情数据,获得标记数据,其中,所述标记数据携带标签信息;
确定所述标签信息是否属于指定领域,将属于指定领域的标签信息对应的标记数据作为目标数据,基于所述目标数据生成舆情分析报告,并确定所述舆情分析报告中的舆情信息是否超过舆情阈值,在所述舆情信息超过舆情阈值时,进行舆情预警;
其中,所述基于自然语言处理模型的舆情监测方法还包括:
获取舆情数据中的舆情讨论地理位置和舆情类型;
根据所述舆情类型和所述舆情讨论地理位置,爬取对应所述舆情讨论地理位置中属于所述舆情类型的政策信息;
根据所述政策信息生成报销数据;
其中,所述舆情类型包括医保类型,所述报销数据包括医保政策中的基本医保报销比例、基本医保个人自付、大病保险报销比例、大病保险个人自付、医疗救助报销比例、医疗救助个人自付,以及各分类下个人自付费用分布。
2.根据权利要求1所述的基于自然语言处理模型的舆情监测方法,其特征在于,所述基于预先训练的自然语言处理模型分类并标记所述舆情数据,获得标记数据的步骤包括:
对每条所述舆情数据分别进行分词操作和清洗操作,分别获得多个舆情词语;
将所述多个舆情词语与预设语料库中的语料进行匹配,确认任意所述语料中是否同时存在所述多个舆情词语;
在所述语料中同时存在所述多个舆情词语时,将所述语料作为目标语料;
获取与所述目标语料相关联的分类标签,并将所述分类标签赋予所述多个舆情词语所对应的舆情数据,获得所述标记数据。
3.根据权利要求1所述的基于自然语言处理模型的舆情监测方法,其特征在于,所述确定所述舆情分析报告中的舆情信息是否超过舆情阈值,在所述舆情信息超过舆情阈值时,进行舆情预警的步骤包括:
判断所述舆情分析报告中的各舆情信息是否超过对应的指标阈值;
当超过对应的指标阈值的指标数量大于预设的数量阈值时,触发预警,生成预警信息;
判断当前时间是否属于沉默时间,在当前时间不属于沉默时间时,将所述预警信息发送至客户端。
4.根据权利要求1所述的基于自然语言处理模型的舆情监测方法,其特征在于,所述对所述目标网址进行信息爬取操作,获得舆情数据的步骤包括:
对所述目标网址中的信息进行多维度爬取操作,获得所述舆情数据。
5.根据权利要求4所述的基于自然语言处理模型的舆情监测方法,其特征在于,对所述目标网址中的信息进行多维度爬取操作,获得所述舆情数据的步骤包括:
识别所述目标网址是否属于关键网址,在所述目标网址属于关键网址时,通过爬虫技术对所述目标网址进行多层级爬取操作,其中,每个层级均进行所述多维度爬取操作,获得所述舆情数据。
6.根据权利要求1所述的基于自然语言处理模型的舆情监测方法,其特征在于,所述对所述目标网址进行信息爬取操作,获得舆情数据的步骤包括:
识别所述目标网址中是否存在同时属于预设的第一类别和第二类别的信息,在存在同时属于第一类别和第二类别的信息时,爬取所述目标网址中同时属于第一类别和第二类别的信息,获得所述舆情数据。
7.根据权利要求1所述的基于自然语言处理模型的舆情监测方法,其特征在于,所述舆情数据包括舆情生成时间,所述基于所述舆情数据生成舆情分析报告的步骤包括:
基于所述舆情生成时间对所述舆情数据进行多方向的排序和/或统计操作,生成多个所述舆情信息;
组装所述舆情信息,生成所述舆情分析报告。
8.一种基于自然语言处理模型的舆情监测装置,其特征在于,包括:
获取模块,用于接收舆情采集指令,并获取所述舆情采集指令携带的目标网址,对所述目标网址进行信息爬取操作,获得舆情数据;
分类模块,用于基于预先训练的自然语言处理模型分类并标记所述舆情数据,获得标记数据,其中,所述标记数据携带标签信息;
确定模块,用于确定所述标签信息是否属于指定领域,将属于指定领域的标签信息对应的标记数据作为目标数据,基于所述目标数据生成舆情分析报告,并确定所述舆情分析报告中的舆情信息是否超过舆情阈值,在所述舆情信息超过舆情阈值时,进行舆情预警;
其中,所述基于自然语言处理模型的舆情监测装置还包括:获取舆情数据中的舆情讨论地理位置和舆情类型;根据所述舆情类型和所述舆情讨论地理位置,爬取对应所述舆情讨论地理位置中属于所述舆情类型的政策信息;根据所述政策信息生成报销数据;
其中,所述舆情类型包括医保类型,所述报销数据包括医保政策中的基本医保报销比例、基本医保个人自付、大病保险报销比例、大病保险个人自付、医疗救助报销比例、医疗救助个人自付,以及各分类下个人自付费用分布。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于自然语言处理模型的舆情监测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于自然语言处理模型的舆情监测方法的步骤。
CN202111012980.3A 2021-08-31 2021-08-31 基于自然语言处理模型的舆情监测方法及其相关设备 Active CN113657547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111012980.3A CN113657547B (zh) 2021-08-31 2021-08-31 基于自然语言处理模型的舆情监测方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111012980.3A CN113657547B (zh) 2021-08-31 2021-08-31 基于自然语言处理模型的舆情监测方法及其相关设备

Publications (2)

Publication Number Publication Date
CN113657547A CN113657547A (zh) 2021-11-16
CN113657547B true CN113657547B (zh) 2024-05-14

Family

ID=78482543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111012980.3A Active CN113657547B (zh) 2021-08-31 2021-08-31 基于自然语言处理模型的舆情监测方法及其相关设备

Country Status (1)

Country Link
CN (1) CN113657547B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401339A (zh) * 2023-06-07 2023-07-07 北京百度网讯科技有限公司 数据处理方法、装置、电子设备、介质以及程序产品

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229735A (zh) * 2017-06-13 2017-10-03 成都布林特信息技术有限公司 基于自然语言处理的舆情信息分析预警方法
CN109165840A (zh) * 2018-08-20 2019-01-08 平安科技(深圳)有限公司 风险预测处理方法、装置、计算机设备和介质
CN109299258A (zh) * 2018-09-18 2019-02-01 平安科技(深圳)有限公司 一种舆情事件检测方法、装置及设备
CN109614550A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 舆情监控方法、装置、计算机设备及存储介质
CN110110156A (zh) * 2019-04-04 2019-08-09 平安科技(深圳)有限公司 行业舆情监控方法、装置、计算机设备及存储介质
CN110134845A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 项目舆情监控方法、装置、计算机设备及存储介质
CN110134849A (zh) * 2019-05-20 2019-08-16 瑞森网安(福建)信息科技有限公司 一种网络舆情监控方法及系统
CN110134844A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 细分领域舆情监控方法、装置、计算机设备及存储介质
CN110347898A (zh) * 2019-06-28 2019-10-18 北京牡丹电子集团有限责任公司宁安智慧工程中心 一种网络舆情监控的应答生成方法及系统
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN111221972A (zh) * 2020-01-08 2020-06-02 安徽霍迹寻踪供应链管理有限公司 一种网络舆情信息监控预警系统
CN112149409A (zh) * 2020-09-23 2020-12-29 平安国际智慧城市科技股份有限公司 医疗词云生成方法、装置、计算机设备及存储介质
CN112434226A (zh) * 2020-12-15 2021-03-02 易研信息科技有限公司 一种网络舆情监测预警方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229735A (zh) * 2017-06-13 2017-10-03 成都布林特信息技术有限公司 基于自然语言处理的舆情信息分析预警方法
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN109165840A (zh) * 2018-08-20 2019-01-08 平安科技(深圳)有限公司 风险预测处理方法、装置、计算机设备和介质
WO2020037942A1 (zh) * 2018-08-20 2020-02-27 平安科技(深圳)有限公司 风险预测处理方法、装置、计算机设备和介质
CN109299258A (zh) * 2018-09-18 2019-02-01 平安科技(深圳)有限公司 一种舆情事件检测方法、装置及设备
CN109614550A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 舆情监控方法、装置、计算机设备及存储介质
CN110134844A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 细分领域舆情监控方法、装置、计算机设备及存储介质
CN110134845A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 项目舆情监控方法、装置、计算机设备及存储介质
CN110110156A (zh) * 2019-04-04 2019-08-09 平安科技(深圳)有限公司 行业舆情监控方法、装置、计算机设备及存储介质
CN110134849A (zh) * 2019-05-20 2019-08-16 瑞森网安(福建)信息科技有限公司 一种网络舆情监控方法及系统
CN110347898A (zh) * 2019-06-28 2019-10-18 北京牡丹电子集团有限责任公司宁安智慧工程中心 一种网络舆情监控的应答生成方法及系统
CN111221972A (zh) * 2020-01-08 2020-06-02 安徽霍迹寻踪供应链管理有限公司 一种网络舆情信息监控预警系统
CN112149409A (zh) * 2020-09-23 2020-12-29 平安国际智慧城市科技股份有限公司 医疗词云生成方法、装置、计算机设备及存储介质
CN112434226A (zh) * 2020-12-15 2021-03-02 易研信息科技有限公司 一种网络舆情监测预警方法

Also Published As

Publication number Publication date
CN113657547A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
Al_Janabi Smart system to create an optimal higher education environment using IDA and IOTs
US8566262B2 (en) Techniques to filter media content based on entity reputation
Chen et al. A bibliometric analysis of event detection in social media
Rao et al. Political partisanship and antiscience attitudes in online discussions about COVID-19: Twitter content analysis
Kaplan et al. Organization of event reporting data for sense making and system improvement
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN113220734A (zh) 课程推荐方法、装置、计算机设备及存储介质
CN111506723A (zh) 问答响应方法、装置、设备及存储介质
WO2012115965A1 (en) Entity fingerprints
CN113657547B (zh) 基于自然语言处理模型的舆情监测方法及其相关设备
Tavra et al. Unpacking the role of volunteered geographic information in disaster management: focus on data quality
Liao et al. Tail behavior and limit distribution of maximum of logarithmic general error distribution
CN116843395A (zh) 一种业务系统的告警分级方法、装置、设备及存储介质
CN103955614A (zh) 一种心理危机预测方法及系统
CN111209403A (zh) 数据处理方法、装置、介质及电子设备
CN112085566B (zh) 基于智能决策的产品推荐方法、装置及计算机设备
CN113610427B (zh) 事件预警指标获得方法、装置、终端设备以及存储介质
CN111814030A (zh) 推送方法、装置、设备和介质
Mazumder et al. Spatio-temporal signal recovery from political tweets in indonesia
CN114817377B (zh) 基于用户画像的数据风险检测方法、装置、设备及介质
Yang et al. Internet rumor audience response prediction algorithm based on machine learning in big data environment
CN116796133A (zh) 数据分析方法、装置、计算机设备及存储介质
CN117291693A (zh) 基于人工智能的策略生成方法、装置、设备及存储介质
Ignjatović et al. Combining social media open source data with relevance analysis and expert knowledge to improve situational awareness in crisis and disaster management-concept
Wang Intelligent Governance of Network Popular Opinion Based on DM Technology in the New Media Age

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant