CN114896543A - 舆情分析方法、装置及存储介质 - Google Patents
舆情分析方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114896543A CN114896543A CN202210621457.9A CN202210621457A CN114896543A CN 114896543 A CN114896543 A CN 114896543A CN 202210621457 A CN202210621457 A CN 202210621457A CN 114896543 A CN114896543 A CN 114896543A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- data acquisition
- information
- analysis method
- positioning information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本公开实施例中提供舆情分析方法、装置及存储介质,舆情分析方法包括:获取数据采集参数,所述数据采集参数包括用户输入的关键词;基于数据采集参数构造资源定位信息,并根据资源定位信息形成数据采集请求;通过浏览器向信息交流服务器发送所述数据采集请求,以获得对应所述资源定位信息的网页元素;基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据;根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示。本公开方案实现自动化地根据构造的数据采集参数获取关键词相关的详细全面的舆情信息,以能对获得的舆情文本数据进行语义情感分析并呈现结果,效率高。
Description
技术领域
本公开涉及网络数据分析技术领域,尤其涉及舆情分析方法、装置及存储介质。
背景技术
随着近些年移动互联网技术的全面发展,每天都会有大量的舆情信息产生,过剩的数字信息对人们的生活产生了严重影响。如何合理高效地获取到人们关心的数据并且对这些数据进行精细化分析,成为数字化经济的重要课题。
由于近些年互联网技术的不断进步和相关技术的大量应用,关于舆情数据的网页元素的采集存在着各种各样的效率问题,如需要登录、网页数量限制等,都会对网页页面元素的采集效率产生重大的影响,极大的增加了数据获取的复杂度。
发明消息
鉴于以上相关技术的缺点,本公开的目的在于提供舆情分析方法、装置及存储介质,以解决相关技术中的问题。
本公开第一方面提供一种舆情分析方法,包括:获取数据采集参数,所述数据采集参数包括用户输入的关键词;基于数据采集参数构造资源定位信息,并根据资源定位信息形成数据采集请求;通过浏览器向信息交流服务器发送所述数据采集请求,以获得对应所述资源定位信息的网页元素;基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据;根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示。
在第一方面的实施例中,所述资源定位信息为统一资源定位符,所述统一资源定位符包含关键词的编码信息。
在第一方面的实施例中,所述的舆情分析方法还包括:获取当前网页的第一资源定位信息;基于资源定位信息生成规则,根据所述第一资源定位信息生成用于形成下一数据采集请求的第二资源定位信息。
在第一方面的实施例中,所述网页元素包括:用户发布信息;用户发布信息的评论;评论的追评。
在第一方面的实施例中,所述数据采集参数还包括以下至少一种:数据采集的时间范围;搜索区域;邻近网页之间的时间间隔。
在第一方面的实施例中,所述通过浏览器向信息交流服务器发送包含所述数据采集参数的数据采集请求,包括:通过所述浏览器发送携带历史登录信息的访问请求,以直接登录所述信息交流服务器。
在第一方面的实施例中,所述历史登录信息包括历史登录所述信息交流服务器的记录文本文件。
在第一方面的实施例中,所述基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据,包括:根据预设正则表达式从网页元素解析得到所述舆情文本数据。
在第一方面的实施例中,所述根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示,包括:通过文本语义情感分析模型执行所述语义情感分析;其中,所述文本语义情感分析模型基于屏蔽语言模型构建。
本公开第二方面提供一种舆情分析装置,包括:数据采集参数获取模块,用于获取数据采集参数,所述数据采集参数包括用户输入的关键词;数据采集请求模块,用于基于数据采集参数构造资源定位信息,并根据资源定位信息形成数据采集请求;发送模块,用于通过浏览器向信息交流服务器发送所述数据采集请求,以获得对应所述资源定位信息的网页元素;解析模块,用于基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据;语义情感打标模块,用于根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示。
本公开第三方面提供一种计算机装置,其特征在于,包括:存储单元及处理单元;所述存储单元存储有程序指令;所述处理单元用于运行所述程序指令以执行如第一方面中任一项所述的舆情分析方法。
本公开第四方面提供一种计算机可读存储介质,其特征在于,存储有程序指令,所述程序指令被运行以执行如第一方面中任一项所述的舆情分析方法。
如上所述,本公开实施例中提供舆情分析方法、装置及存储介质,舆情分析方法包括:获取数据采集参数,所述数据采集参数包括用户输入的关键词;基于数据采集参数构造资源定位信息,并根据资源定位信息形成数据采集请求;通过浏览器向信息交流服务器发送所述数据采集请求,以获得对应所述资源定位信息的网页元素;基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据;根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示。本公开方案实现自动化地根据构造的数据采集参数获取关键词相关的详细全面的舆情信息,以能对获得的舆情文本数据进行语义情感分析并呈现结果,效率高。
附图说明
图1展示本公开一实施例中舆情分析方法的流程示意图。
图2展示本公开一实施例中舆情分析方法的原理示意图。
图3展示本公开一实施例中舆情分析装置的模块示意图。
图4展示本公开一实施例中计算机装置的结构示意图。
具体实施方式
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本公开所揭露的消息轻易地了解本公开的其他优点与功效。本公开还可以通过另外不同的具体实施方式加以实施或应用系统,本公开中的各项细节也可以根据不同观点与应用系统,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本公开的实施例进行详细说明,以便本公开所属技术领域的技术人员能够容易地实施。本公开可以以多种不同形态体现,并不限定于此处说明的实施例。
在本公开的表示中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的表示意指结合该实施例或示例表示的具体特征、结构、材料或者特点包括于本公开的至少一个实施例或示例中。而且,表示的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本公开中表示的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于表示目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的表示中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了明确说明本公开,省略与说明无关的器件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某器件与另一器件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种器件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
虽然在一些实例中术语第一、第二等在本文中用来表示各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等表示。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操执行、元件、模块、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操执行、元件、模块、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操执行的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本公开。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、执行业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、执行业、要素及/或成份的存在或附加。
表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一器件相对于另一器件的关系而使用。这种术语是指,不仅是在附图中所指的意义,还包括使用中的装置的其它意义或执行业。例如,如果翻转附图中的装置,曾说明为在其它器件“下”的某器件则说明为在其它器件“上”。因此,所谓“下”的示例性术语,全部包括上与下方。装置可以旋转90°或其它角度,代表相对空间的术语也据此来解释。
虽然未不同地定义,但包括此处使用的技术术语及科学术语,所有术语均具有与本公开所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的消息相符的意义,只要未进行定义,不得过度解释为理想的或非常公式性的意义。
目前,舆情数据的分析已成为业界普遍的一项重要工作。常见的舆情数据,来自于信息交流网站,例如微博、论坛、电商网站等。为此,需要从这些网站的网页将所需的舆情数据采集下来。然而,例如网站需要登录、搜索所能显示的网页数量限制对采集效率有重大影响,复杂度提升。
鉴于此,本公开实施例中提供舆情分析方法,以逐一解决这些问题。
如图1所示,展示本公开实施例中舆情分析方法的流程示意图。
所述舆情分析方法可以实现于一计算机装置,所述计算机装置与信息交流服务器通信,计算机装置可以运行有数据采集程序以从信息交流服务器提供的网站的网页中获取到舆情数据,并进行分析。示例性地,所述信息交流服务器可以是例如微博服务器、论坛服务器等,其所提供的网页中可以包含如用户发布信息(如发帖)、用户发布信息评论(如发帖评论)、评论的追评等等,可以作为舆情分析的舆情数据。比如,进行舆情信息监测、舆情热点分析、负面舆情预警等。
在图1中,所述舆情分析方法包括:
步骤S101:获取数据采集参数,所述数据采集参数包括用户输入的关键词。
所述关键词用于在信息交流服务器搜索匹配的内容,比如微博发帖等。在具体示例中,用户在微博服务器进行关键词搜索后,会跳转一个网页并列出关键词相关的发帖列表,用户对每个发帖点击后会跳转对应网页。其中,每个网页拥有对应的统一资源定位符(URL),URL包含协议、域名、端口、路径、锚信息、文件名等。
举例来说,URL示例性地展示为例如:
https://blog.csdn.net/qq_41601567?spm=1010.2135.3001.5343。
其中,“协议”为如http、https、ftp等,通过//与后面内容分割。域名分为顶级域名与二级域名,顶级域名如baidu.com,而二级域名是顶级域名下面的细分,如xueshu.baidu.com/(百度学术),image.baidu.com/(百度图片),二级域名可以区分网页的类型,可以作为特征。“端口”用来定义主机的端口号http默认端口号为80,https的默认端口号是443,ftp的默认端口号是21。“路径”路径指定服务器上文件的所在位置,路径中的相邻文件夹需要使用斜线(/)隔开,问号后面一般是用户的查询信息,比如关键词。路径用来定义文件夹目录,“文件名”用来定义文档或资源的名称。
在网页的代码中会包含其对应的URL,通过观察并掌握URL的构成规则,在所述数据采集程序中可构造对应的URL生成函数,以用于生成符合该构成规则并带有关键词的URL。进而,登录信息交流服务器,通过构造的URL传递数据采集参数,如关键词,以模拟用户的关键词搜索行为;并通过分析搜索结果网页中的各网页元素,如微博的发帖、评论及追评等网页元素,进而从中获取所需的舆情数据。
由于信息交流服务器可能存在关键词搜索时所展示的网页数量限制,单纯根据关键词进行搜索可能只能搜索到部分数据,而不能得到全面数据。故而在一些实施例中,所述数据采集参数还包括以下至少一种:数据采集的时间范围;搜索区域;邻近网页之间的时间间隔。举例来说,所述信息交流服务器的搜索可以支持时间范围、搜索区域等,保障细化的时间范围和/或搜索区域内舆情数据能够全面显示。例如,通过在时间维度上按范围进行步进,如11月1日到11月3日微博涉及关键词“歌星”的舆情数据,11月4日到11月5日微博涉及关键词“歌星”的舆情数据等,以能尽可能全面地收集到舆情数据。
步骤S102:基于数据采集参数构造资源定位信息,并根据资源定位信息形成数据采集请求。
示例性地,所述资源定位信息即包括URL,URL包含关键词。在URL中,关键词通过编码形式存在,编码方式包括如gbk、utf-8等。
步骤S103:通过浏览器向信息交流服务器发送所述数据采集请求,以获得对应所述资源定位信息的网页元素。
示例性地,所述数据采集请求可以通过requests库的requests.get(URL)方法产生,向信息交流服务器请求根据URL定位到的网页元素,信息交流服务器通过Response回应来返回所述网页元素。
在一些实施例中,可以通过所述浏览器发送携带历史登录信息的访问请求,以直接登录所述信息交流服务器。在实际场景中,表现为数据采集程序可以利用历史登录信息直接登录到信息交流服务器,无需再进行用户名和密码的输入,从而提高数据采集效率。在具体实现示例中,所述历史登录信息包括历史登录所述信息交流服务器的记录文本文件(Cookie)。Cookie是为了辨别用户身份,进行会话(Session)跟踪而储存在用户本地终端上的数据(通常经过加密),由用户客户端计算机暂时或永久保存的信息。Cookie记录了包括登录状态在内的所有信息,这些信息由服务器生成和解释,服务器通过客户端携带的Cookie来识别用户。
在访问信息交流服务器时,在一个示例中,可以将Cookie插入访问请求的Headers请求头,代码例如以下所示:
在另一个示例中,可以将所述Cookies直接作为requests方法的参数,以登录到信息交流服务器。示例性的代码如下所示:
Cookie={"Cookie":xxx}
requests.get(URL,cookie=Cookie)
在通过关键词搜索后,搜索结果所展示的发帖列表中会包含多个发帖,每个发帖可以对应一个资源定位信息即URL。因此,为了逐一将每个资源定位信息所对应的网页中的舆情数据都采集到,故在一些实施例中,所述的舆情分析方法还包括:获取当前网页的第一资源定位信息;基于资源定位信息生成规则,根据所述第一资源定位信息生成用于形成下一数据采集请求的第二资源定位信息。即,通过每下一个URL,并通过数据采集请求,如requests.get()方法来逐一定位相应网页元素。
步骤S104:基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据。
在一些实施例中,可以是根据预设正则表达式从网页元素解析得到所述舆情文本数据。示例性地,在微博发帖的网络元素中,帖子内容是所需要的舆情文本数据,而其余的如点赞、转发等是不需要的,则通过正则表达式解析出文本部分,即舆情文本数据,并可以按预设格式存储。所述预设格式与存储需求或后续情感分析的模型输入格式需求相关。
步骤S105:根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示。
在第一些实施例中,可以通过文本语义情感分析模型执行所述语义情感分析;其中,所述文本语义情感分析模型基于屏蔽语言模型(Masked Language Modeling,MLM)构建,MLM模型实际上是基于BERT模型实现,通过遮掩掉部分输入以预测遮掩部分的内容。所述MLM模型经训练完成后,根据舆情文本内容预测舆情标签。所述舆情标签可以是正面情绪或负面情绪的,所述显示可以是通过例如词云的方式显示各个舆情标签并区别地(如不同颜色、灰度)展示正面情绪的舆情标签以及负面情绪的舆情标签。词云即将各个舆情标签通过预设的图案方式排列并显示,以利于用户直观感受关键词对应的舆情分析结果。
例如,根据关键词“A产品”搜索到的各个发帖、评论及追评中包含对产品质量问题,可能可以预测到舆情标签“质量问题”、“损坏”等标签。
在另一些实施例中,所述文本语义情感分析模型也可以由例如朴素贝叶斯(NaiveBayes,NB)、支持向量机(Maximum Entropy,ME)、或决策树等传统机器学习模型实现。
为更直观说明上述舆情分析方法的具体原理,如图2所示,展示本公开一实施例中舆情分析方法的原理示意图。
在数据采集程序通过观察目标网站的URL规律构造URL生成函数。向用户提供一个图形界面,以接收用户输入的关键词。根据时间范围、关键词和目标网站的域名动态构造各URL,通过request.get(URL)向利用Cookie直接登录的信息交流服务器获取根据关键词搜索到的网页中的各网页元素,比如根据关键词搜索到的发帖、评论和追评等。从各网页元素提取舆情文本数据并保存,输入到文本语义情感分析模型据以进行情感分析以打标,形成各个舆情标签。进一步地,在所述用户交互的图形界面中通过例如词云的方式显示各个舆情标签。
如图3所示,展示本公开实施例中舆情分析装置的模块示意图。
所述舆情分析装置300的具体实现可以参考之前流程实施例中的舆情分析方法,此处不再对技术细节作重复赘述。
所述舆情分析装置300,包括:
数据采集参数获取模块301,用于获取数据采集参数,所述数据采集参数包括用户输入的关键词。
数据采集请求模块302,用于基于数据采集参数构造资源定位信息,并根据资源定位信息形成数据采集请求。
发送模块303,用于通过浏览器向信息交流服务器发送所述数据采集请求,以获得对应所述资源定位信息的网页元素。
解析模块304,用于基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据。
语义情感打标模块305,用于根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示。
在一些实施例中,所述资源定位信息为统一资源定位符,所述统一资源定位符包含关键词的编码信息。
在一些实施例中,所述的舆情分析装置300还包括:采集模块,用于获取当前网页的第一资源定位信息;资源定位信息生成模块,用于基于资源定位信息生成规则,根据所述第一资源定位信息生成用于形成下一数据采集请求的第二资源定位信息。
在一些实施例中,所述网页元素包括:用户发布信息;用户发布信息的评论;评论的追评。
在一些实施例中,所述数据采集参数还包括以下至少一种:数据采集的时间范围;搜索区域;邻近网页之间的时间间隔。
在一些实施例中,所述通过浏览器向信息交流服务器发送包含所述数据采集参数的数据采集请求,包括:通过所述浏览器发送携带历史登录信息的访问请求,以直接登录所述信息交流服务器。
在一些实施例中,所述历史登录信息包括历史登录所述信息交流服务器的记录文本文件。
在一些实施例中,所述基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据,包括:根据预设正则表达式从网页元素解析得到所述舆情文本数据。
在一些实施例中,所述根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示,包括:通过文本语义情感分析模型执行所述语义情感分析;其中,所述文本语义情感分析模型基于屏蔽语言模型构建。
需特别说明的是,在图3实施例中的各个功能模块,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以程序指令产品的形式实现。程序指令产品包括一个或多个程序指令。在计算机上加载和执行程序指令指令时,全部或部分地产生按照本公开的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
并且,图3实施例所揭露的装置,可通过其它的模块划分方式实现。以上所表示的装置实施例仅仅是示意性的,例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或模块可以结合或者可以动态到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接于可以是通过一些接口,装置或模块的间接耦合或通信连接于,可以是电性或其它的形式。
另外,图3实施例中的各功能模块及子模块可以动态在一个处理部件中,也可以是各个模块单独物理存在,也可以两个或两个以上模块动态在一个部件中。上述动态的部件既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述动态的部件如果以软件功能模块的形式实现并执行为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
需特别说明的是,本公开上述实施例的流程图表示的流程或方法表示可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
例如,图1实施例中的各个步骤的顺序可能可以在具体场景中加以变化,并非以上述表示为限。
如图4所示,展示本公开一实施例中计算机装置的结构示意图。
在一些实施例中,所述计算机装置用于装载实现前述方法实施例(例如图1)的程序指令。
如图4所示,计算机装置400以通用计算设备的形式表现。计算机装置400的组件可以包括但不限于:上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元410执行,使得计算机装置用于实现本公开上述实施例(如图1)中所描述方法步骤。
在一些实施例中,存储单元420可以包括易失性存储单元,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。
在一些实施例中,存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操执行系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
在一些实施例中,总线430可以包括数据总线、地址总线和控制总线。
在一些实施例中,计算机装置400也可以与一个或多个外部设备500(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口450进行。可选的,计算机装置400还包括显示单元440,其连接到输入/输出(I/O)接口450,用于进行显示。并且,计算机装置400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器460通过总线430与计算机装置400的其它模块通信。应当明白,尽管图中未示出,可以结合计算机装置400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本公开的实施例中还可以提供计算机刻度存储介质,其可以包含程序代码,并可以在设备上运行,例如个人电脑上运行,以实现本公开上述方法实施例(如图1等)中的各个步骤及子步骤的执行。在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序代码可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本公开实施例中提供舆情分析方法、装置及存储介质,舆情分析方法包括:获取数据采集参数,所述数据采集参数包括用户输入的关键词;基于数据采集参数构造资源定位信息,并根据资源定位信息形成数据采集请求;通过浏览器向信息交流服务器发送所述数据采集请求,以获得对应所述资源定位信息的网页元素;基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据;根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示。本公开方案实现自动化地根据构造的数据采集参数获取关键词相关的详细全面的舆情信息,以能对获得的舆情文本数据进行语义情感分析并呈现结果,效率高。
上述实施例仅例示性说明本公开的原理及其功效,而非用于限制本公开。任何熟悉此技术的人士皆可在不违背本公开的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本公开所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本公开的权利要求所涵盖。
Claims (12)
1.一种舆情分析方法,其特征在于,包括:
获取数据采集参数,所述数据采集参数包括用户输入的关键词;
基于数据采集参数构造资源定位信息,并根据资源定位信息形成数据采集请求;
通过浏览器向信息交流服务器发送所述数据采集请求,以获得对应所述资源定位信息的网页元素;
基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据;
根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示。
2.根据权利要求1所述的舆情分析方法,其特征在于,所述资源定位信息为统一资源定位符,所述统一资源定位符包含关键词的编码信息。
3.根据权利要求1所述的舆情分析方法,其特征在于,还包括:
获取当前网页的第一资源定位信息;
基于资源定位信息生成规则,根据所述第一资源定位信息生成用于形成下一数据采集请求的第二资源定位信息。
4.根据权利要求1所述的舆情分析方法,其特征在于,所述网页元素包括:用户发布信息;用户发布信息的评论;评论的追评。
5.根据权利要求1所述的舆情分析方法,其特征在于,所述数据采集参数还包括以下至少一种:数据采集的时间范围;搜索区域;邻近网页之间的时间间隔。
6.根据权利要求1所述的舆情分析方法,其特征在于,所述通过浏览器向信息交流服务器发送包含所述数据采集参数的数据采集请求,包括:
通过所述浏览器发送携带历史登录信息的访问请求,以直接登录所述信息交流服务器。
7.根据权利要求6所述的舆情分析方法,其特征在于,所述历史登录信息包括历史登录所述信息交流服务器的记录文本文件。
8.根据权利要求1所述的舆情分析方法,其特征在于,所述基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据,包括:
根据预设正则表达式从网页元素解析得到所述舆情文本数据。
9.根据权利要求1所述的舆情分析方法,其特征在于,所述根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示,包括:
通过文本语义情感分析模型执行所述语义情感分析;其中,所述文本语义情感分析模型基于屏蔽语言模型构建。
10.一种舆情分析装置,其特征在于,包括:
数据采集参数获取模块,用于获取数据采集参数,所述数据采集参数包括用户输入的关键词;
数据采集请求模块,用于基于数据采集参数构造资源定位信息,并根据资源定位信息形成数据采集请求;
发送模块,用于通过浏览器向信息交流服务器发送所述数据采集请求,以获得对应所述资源定位信息的网页元素;
解析模块,用于基于所述网页元素解析得到符合语义情感分析条件的舆情文本数据;
语义情感打标模块,用于根据所述舆情文本数据进行语义情感分析以获得舆情标签并显示。
11.一种计算机装置,其特征在于,包括:存储单元及处理单元;所述存储单元存储有程序指令;所述处理单元用于运行所述程序指令以执行如权利要求1至9中任一项所述的舆情分析方法。
12.一种计算机可读存储介质,其特征在于,存储有程序指令,所述程序指令被运行以执行如权利要求1至9中任一项所述的舆情分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210621457.9A CN114896543A (zh) | 2022-06-02 | 2022-06-02 | 舆情分析方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210621457.9A CN114896543A (zh) | 2022-06-02 | 2022-06-02 | 舆情分析方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114896543A true CN114896543A (zh) | 2022-08-12 |
Family
ID=82725762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210621457.9A Pending CN114896543A (zh) | 2022-06-02 | 2022-06-02 | 舆情分析方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114896543A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861058A (zh) * | 2023-09-04 | 2023-10-10 | 浪潮软件股份有限公司 | 应用于政务领域的舆情监测系统及方法 |
-
2022
- 2022-06-02 CN CN202210621457.9A patent/CN114896543A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861058A (zh) * | 2023-09-04 | 2023-10-10 | 浪潮软件股份有限公司 | 应用于政务领域的舆情监测系统及方法 |
CN116861058B (zh) * | 2023-09-04 | 2024-04-12 | 浪潮软件股份有限公司 | 应用于政务领域的舆情监测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10467541B2 (en) | Method and system for improving content searching in a question and answer customer support system by using a crowd-machine learning hybrid predictive model | |
US20180081935A1 (en) | Data Visualization in a Dashboard Display Using Panel Templates | |
US11310327B2 (en) | Configuration of content site user interaction monitoring in data networks | |
US10878020B2 (en) | Automated extraction tools and their use in social content tagging systems | |
AU2014400621B2 (en) | System and method for providing contextual analytics data | |
Wang et al. | Website browsing aid: A navigation graph-based recommendation system | |
Jung | ContextGrid: A contextual mashup-based collaborative browsing system | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
Loecherbach et al. | 3bij3–Developing a framework for researching recommender systems and their effects | |
US20230161766A1 (en) | Data investigation and visualization system | |
Murthy et al. | Evaluation and development of data mining tools for social network analysis | |
Samek | Learning with explainable trees | |
US11151308B2 (en) | Electronic document processing system | |
CN114896543A (zh) | 舆情分析方法、装置及存储介质 | |
US11323526B2 (en) | Analysis and visualization of session paths | |
Casey et al. | Crowdsourcing forensics: Creating a curated catalog of digital forensic artifacts | |
US20220108359A1 (en) | System and method for continuous automated universal rating aggregation and generation | |
US11593451B2 (en) | System and method for comparing zones for different versions of a website based on performance metrics | |
US20130219265A1 (en) | Online Protocol Community | |
Gonçalves Evangelista et al. | Classification of web history tools through web analysis | |
Martyshkin et al. | R&D in Collection and Representation of Non-structured Open-Source Data for Use in Decision-Making Systems | |
CN105468749A (zh) | 一种数据处理方法及装置 | |
Bourne | The reaming of life: based on the 2010 Jim Gray eScience Award Lecture | |
Trajanov et al. | Using Google Bigquery for Data Analytics in Research and Education | |
Okabe et al. | A supporting system for cloud service integration based on user profiles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |