CN111488499A - 舆情数据的处理方法及装置 - Google Patents

舆情数据的处理方法及装置 Download PDF

Info

Publication number
CN111488499A
CN111488499A CN202010150820.4A CN202010150820A CN111488499A CN 111488499 A CN111488499 A CN 111488499A CN 202010150820 A CN202010150820 A CN 202010150820A CN 111488499 A CN111488499 A CN 111488499A
Authority
CN
China
Prior art keywords
public opinion
data
public
component
sentiment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010150820.4A
Other languages
English (en)
Inventor
陈雷
李明
闫志东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Absolute Health Ltd
Original Assignee
Beijing Absolute Health Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Absolute Health Ltd filed Critical Beijing Absolute Health Ltd
Priority to CN202010150820.4A priority Critical patent/CN111488499A/zh
Publication of CN111488499A publication Critical patent/CN111488499A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明公开了一种舆情数据的处理方法及装置,其中,该方法包括:定位舆情组件在客户端界面中的坐标位置,其中,所述舆情组件用于在所述客户端中触发展示目标对象的舆情信息;在所述坐标位置上驱动所述舆情组件,以触发所述目标对象的舆情展示请求,其中,所述舆情展示请求用于向服务器请求舆情数据;截取所述客户端的数据传输报文,其中,所述数据传输报文携带所述舆情数据;根据所述舆情数据对所述目标对象进行情感分析。通过本发明,解决了相关技术中采集舆情数据效率低的技术问题,提高了舆情数据的采集效率。

Description

舆情数据的处理方法及装置
技术领域
本发明涉及大数据领域,尤其是一种舆情数据的处理方法及装置。
背景技术
相关技术中,为用户提供更好的线上内容和产品,需要进行舆情分析,而舆情分析的数据来源包括用户的评论信息。
相关技术中的常见的人工采集评论数据(包含后台拉取数据)效率低、人工成本高,不能实现对用户市场需求的快速反映,严重影响了业务的推进。现有的数据采集技术大多是基于网络通用采集系统的开发和人工录入两种,后者效率太低,前者主要是依赖网络通信原理和http(s)请求响应原理,对网页中公开或自有数据进行采集,不能对app中,或者是网页中未直接展示的舆情数据中进行采集,导致相关技术中采集评论数据的效率低,渠道少,数据不完善。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
为解决相关技术中采集舆情数据效率低的技术问题,本发明实施例提供了一种舆情数据的处理方法及装置。
根据本发明的一个实施例,提供了一种舆情数据的处理方法,包括:定位舆情组件在客户端界面中的坐标位置,其中,所述舆情组件用于在所述客户端中触发展示目标对象的舆情信息;在所述坐标位置上驱动所述舆情组件,以触发所述目标对象的舆情展示请求,其中,所述舆情展示请求用于向服务器请求舆情数据;截取所述客户端的数据传输报文,其中,所述数据传输报文携带所述舆情数据;根据所述舆情数据对所述目标对象进行情感分析。
可选的,定位舆情组件在客户端界面中的坐标位置包括:获取客户端界面的第一像素元组,以及获取所述舆情组件的界面图像的第二像素元组;在所述第一像素元组中遍历查找与所述第二像素元组匹配的第三像素元组;将所述第三像素元组在所述客户端界面中的坐标位置确定为所述舆情组件在所述客户端界面中的坐标位置。
可选的,定位舆情组件在客户端界面中的坐标位置包括:提取所述舆情组件的标识符,其中,所述标识符包括以下至少之一:图像、文字、符号;在所述客户端界面的中查找包括所述标识符的操作组件;定位所述操作组件在所述客户端界面中的坐标位置。
可选的,在所述坐标位置上驱动所述舆情组件包括:通过web驱动在所述坐标位置上生成触控信号;响应所述触控信号,运行所述舆情组件。
可选的,截取所述客户端的数据传输报文包括:向所述服务器发送所述舆情展示请求;监测所述服务器响应所述舆情展示请求反馈的请求响应报文;若监测到所述请求响应报文,截取所述请求响应报文。
可选的,根据所述舆情数据对所述目标对象进行情感分析包括:从所述数据传输报文中提取数据包,对所述数据包进行清洗,得到所述舆情数据;将所述舆情数据存储在逗号分隔值CSV文件中;将所述CSV文件中舆情数据转换为python对象;基于所述python对象对所述目标对象进行情感分析。
可选的,根据所述舆情数据对所述目标对象进行情感分析包括:遍历所述舆情数据中的每一条评论,采用预设自然语言处理工具包NLTK计算每一条评论对应的情感值,基于所述情感值确定对应评论的情感倾向,其中,所述情感倾向包括以下之一:正向、负向、中性;以及采用分词工具切分所述舆情数据中的每一条评论,统计所述舆情数据中出现频率最高的至少一个高频分词;基于所述情感倾向和所述高频分词确定所述目标对象的情感属性。
根据本发明的另一个实施例,提供了一种舆情数据的处理装置,包括:定位模块,用于定位舆情组件在客户端界面中的坐标位置,其中,所述舆情组件用于在所述客户端中触发展示目标对象的舆情信息;驱动模块,用于在所述坐标位置上驱动所述舆情组件,以触发所述目标对象的舆情展示请求,其中,所述舆情展示请求用于向服务器请求舆情数据;截取模块,用于截取所述客户端的数据传输报文,其中,所述数据传输报文携带所述舆情数据;分析模块,用于根据所述舆情数据对所述目标对象进行情感分析。
可选的,所述定位模块,具体用于:获取客户端界面的第一像素元组,以及获取所述舆情组件的界面图像的第二像素元组;在所述第一像素元组中遍历查找与所述第二像素元组匹配的第三像素元组;将所述第三像素元组在所述客户端界面中的坐标位置确定为所述舆情组件在所述客户端界面中的坐标位置。
可选的,所述定位模块,具体用于:提取所述舆情组件的标识符,其中,所述标识符包括以下至少之一:图像、文字、符号;在所述客户端界面的中查找包括所述标识符的操作组件;定位所述操作组件在所述客户端界面中的坐标位置。
可选的,所述驱动模块,具体用于:通过web驱动在所述坐标位置上生成触控信号;响应所述触控信号,运行所述舆情组件。
可选的,所述截取模块,具体用于:向所述服务器发送所述舆情展示请求;监测所述服务器响应所述舆情展示请求反馈的请求响应报文;若监测到所述请求响应报文,截取所述请求响应报文。
可选的,所述分析模块,具体用于:从所述数据传输报文中提取数据包,对所述数据包进行清洗,得到所述舆情数据;将所述舆情数据存储在逗号分隔值CSV文件中;将所述CSV文件中舆情数据转换为python对象;基于所述python对象对所述目标对象进行情感分析。
可选的,所述分析模块,具体用于:遍历所述舆情数据中的每一条评论,采用预设自然语言处理工具包NLTK计算每一条评论对应的情感值,基于所述情感值确定对应评论的情感倾向,其中,所述情感倾向包括以下之一:正向、负向、中性;以及采用分词工具切分所述舆情数据中的每一条评论,统计所述舆情数据中出现频率最高的至少一个高频分词;基于所述情感倾向和所述高频分词确定所述目标对象的情感属性。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本实施例的方案,定位舆情组件在客户端界面中的坐标位置,然后在坐标位置上驱动舆情组件,以触发目标对象的舆情展示请求,截取客户端的数据传输报文,最后根据数据传输报文携带的舆情数据对目标对象进行情感分析,通过定位舆情组件,可以自动驱动和截取客户端加载的舆情数据,保证了舆情数据的实时性和真实性,解决了相关技术中采集舆情数据效率低的技术问题,提高了舆情数据的采集效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1是本发明实施例的一种舆情数据的处理计算机的硬件结构框图;
图2是根据本发明实施例的一种舆情数据的处理方法的流程图;
图3是本发明实施例的界面跳转示意图;
图4是本发明实施例的整体流程图;
图5是本发明一个实施方式中的舆情数据的处理装置的结构框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本申请实施例一所提供的方法实施例可以在移动终端、计算机、服务器或者类似的运算装置中执行。以运行在计算机上为例,图1是本发明实施例的一种舆情数据的处理计算机的硬件结构框图。如图1所示,计算机10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机的结构造成限定。例如,计算机10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的舆情数据的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种舆情数据的处理方法,图2是根据本发明实施例的一种舆情数据的处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,定位舆情组件在客户端界面中的坐标位置,其中,舆情组件用于在客户端中触发展示目标对象的舆情信息;
本实施例的舆情组件是客户端的评论按钮,产品评价按钮等,通过点击等操作,可以触发展示目标对象的舆情信息,目标对象可以是在平台(如内容分享平台、商品交易平台等)上的某个线上产品,多媒体内容,也可以是客户端软件,如浏览器,应用软件APP等。本实施例的舆情信息包括用户反馈的评论信息,点赞信息,打分信息等。
步骤S204,在坐标位置上驱动舆情组件,以触发目标对象的舆情展示请求,其中,舆情展示请求用于向服务器请求舆情数据;
在该坐标位置上通过软件驱动舆情组件,可以模拟真实用户的点击操作,触发舆情展示请求,客户端会跳转至舆情展示界面,展示舆情列表。
步骤S206,截取客户端的数据传输报文,其中,数据传输报文携带舆情数据;数据传输报文是当前客户端与服务器,或者是与其他客户端之间传输的数据报文。
步骤S208,根据舆情数据对目标对象进行情感分析。
本实施例通过分析舆情数据,提取和计算舆情数据中的情感指标,可以得到用户对目标对象的情感程度,如喜好程度、建议购买程度、推荐指数等。
通过上述步骤,定位舆情组件在客户端界面中的坐标位置,然后在该坐标位置上驱动舆情组件,以触发目标对象的舆情展示请求,截取客户端的数据传输报文,最后根据数据传输报文携带的舆情数据对目标对象进行情感分析,通过定位舆情组件,可以自动驱动和截取客户端加载的舆情数据,保证了舆情数据的实时性和真实性,解决了相关技术中采集舆情数据效率低的技术问题,提高了舆情数据的采集效率。
在本实施例的一个实施方式中,定位舆情组件在客户端界面中的坐标位置包括:
S11,获取客户端界面的第一像素元组,以及获取舆情组件的界面图像的第二像素元组;
在本实施例中,第一像素元组和第二像素元组可以是界面中像素所对应的RGB值的元组按像素顺序组成的数组。
S12,在第一像素元组中遍历查找与第二像素元组匹配的第三像素元组;
S13,将第三像素元组在客户端界面中的坐标位置确定为舆情组件在客户端界面中的坐标位置。
图3是本发明实施例的界面跳转示意图,其中,界面activity_2和界面activity_3,为舆情数据的展示界面,包括评论列表,而这两者的进入界面是activity_1,通过客户端的界面切换和跳转,通过点击舆情组件“评论”按钮,可以从界面activity_1进入界面activity_2和界面activity_3。所以首先我们应该获取界面activity_1中的评论的位置信息,并进行点击操作(进入界面activity_2),获取位置信息具体方法如下步骤:
S21.首先获取整个activity_1界面的像素值,并获取每个像素对对应的RGB值,将所有像素所对应的RGB值的元组按像素顺序组成一个大数组,记为数组a1。
S22.然后对“评论”进行截图,并获取截图中每个像素所对应的RGB值,将所有像素所对应的RGB值的元组按像素顺序组成一个数组,记为数组b1。
S23.因为图片“评论”和界面activity_1是包含关系(即“评论”图标一定在activity_1中),所以我们可以通过在数组a1中遍历查找数组b1来确定“评论”在界面activity_1中的位置。
S24.返回目标所在坐标值。
在本实施例的另一个实施方式中,定位舆情组件在客户端界面中的坐标位置包括:提取舆情组件的标识符,其中,标识符包括以下至少之一:图像、文字、符号;在客户端界面的中查找包括标识符的操作组件;定位操作组件在客户端界面中的坐标位置。
在一个示例中,标识符为文字“评论”,预定形状的图标,通过识别客户端界面中的全部文字和图形,可以得到与标识符匹配的区域,若该区域的UI界面中部署了操作组件,则定位该操作组件的位置。
在本实施例中,在坐标位置上驱动舆情组件包括:通过web驱动在坐标位置上生成触控信号;响应触控信号,运行舆情组件。在获取到舆情组件的位置后,再通过使用WebDriver的json wire协议,来驱动操作系统(如Android)的UI Automator框架,实现点击“评论”操作,进入展示舆情数据的界面,还可以滑动或者进一步加载展示舆情数据的界面,以截取更多的舆情数据。
在本实施例中,本实施例的网络构架包括客户端和服务器,以目标对象为线上平台(如应用商店、购物平台)展示的虚拟产品为例,虚拟产品在原始界面仅展示了宣传页,价格,成交量等信息,而用户的评价信息需要通过点击“评论”按钮,向服务器(服务器存储了改虚拟产品的舆情数据)请求,才能在客户端上展示。截取客户端的数据传输报文包括:向服务器发送舆情展示请求;监测服务器响应舆情展示请求反馈的请求响应报文;若监测到请求响应报文,截取请求响应报文。
请求响应报文携带舆情数据,通过自动截取报文,可以实现数据的自动采集,无需人工操作,提高了采集效率。
在本实施例中,根据舆情数据对目标对象进行情感分析包括:
S31.从数据传输报文中提取数据包,对数据包进行清洗,得到舆情数据;提取数据包中的有用数据,如清洗数据包中的包头包尾校验符等。
S32.将舆情数据存储在逗号分隔值CSV(Comma-Separated Values,CSV,也称为字符分隔值,因为分隔字符也可以不是逗号)文件中;
S33.将CSV文件中舆情数据转换为python对象;
将csv文件中的数据转化成程序可处理的python对象,而csv文件中这种多行多列的数据结构非常适合映射成pandas(python的一个数据分析包)的dataframe(Pandas库中的一种数据结构,是一种二维表)数据类型,提高了数据存储速率和存储效率。
S34.基于python对象对目标对象进行情感分析。
本实施例的情感分析包括多种实现方式,在此进行举例说明。根据舆情数据对目标对象进行情感分析包括:遍历舆情数据中的每一条评论,采用预设自然语言处理工具包(Natural Language Toolkit,NLTK)计算每一条评论对应的情感值,基于情感值确定对应评论的情感倾向,其中,情感倾向包括以下之一:正向、负向、中性;和/或,采用分词工具切分舆情数据中的每一条评论,统计舆情数据中出现频率最高的至少一个高频分词;基于情感倾向和/或高频分词确定目标对象的情感属性。
在一个示例中,目标对象为线上商城中的虚拟产品,为保险产品A,经过数据清洗和筛选,得到100条用户的评论数据,其中,75条为正向评论,20条为中性评论,5条为负向评论,可以统计得到好评度为75%,差评为5%,进一步的,还可以根据权值计算推荐指数等。在另一个示例中,保险产品A的100条评论数据中,提取5个出现评论最高的分词,分别为:“靠谱”、“范围广”、“方便”、“贵”,由此可以确定整体用户的通用情感。
图4是本发明实施例的整体流程图,结合具体的应用场景对本实施例的方案进行示意性解释和说明,包括评论数据采集、清洗、分析、挖掘等步骤,基于图像识别、自动化驱动、代理转发、数据分析、自然语言处理的自动化采集-分析评论数据系统。整体流程包括:使用图像识别(RGB值)技术来定位目标元素的坐标位置,进行驱动操作;驱动页面滚动并加载新的http(s)请求,并启动mitmproxy(中间人代理,man-in-the-middle proxy)服务,截获请求数据,使用数据采集清洗系统对请求的响应数据进行处理;对处理后的csv数据结果进行分词去噪,使用NLP技术对其进行舆情分析。
情感分析的内容包括:
(1)情感分类:对.csv文件中的评论数据,识别其中主观性文本的倾向是肯定还是否定的,或者说是正面还是负面的,是情感分析领域研究最多的,评论数据存在大量的主观性文本和客观性文本。客观性文本是对事物的客观性描述,不带有感情色彩和情感倾向,主观性文本则是作者对各种事物的看法或想法,带有作者的喜好厌恶等情感倾向,正是情感分类的对象,因此对评论数进行情感分类的前提是要进行文本的主客观分类。主客观分类主要通过情感词识别的,利用不同的文本特征表示方法和分类器进行识别分类,对评论数据事先进行主客观分类,能够提高情感分类的速度和准确度。
(2)情感检索:从.csv文件中的评论数据中查询到观点信息,根据主题相关度和观点倾向性对结果排序,返回同时满足主题相关和带有情感倾向或指定的情感倾向的评论。即情感检索两个任务如下:
a.检索和查询相关的文档或句子。
b.对检索的相关文档或句子案主题相关度进行排序。
(3)情感抽取:抽取.csv文件中评论数据中有价值的情感信息,判断一个单词或词组在情感表达中扮演的角色,包括情感表达者识别,评价对象识别,情感观点词识别等任务。
如图4所示,流程包括以下步骤:
(1),获取“评论”元素的位置信息
(2)获取到位置后,再通过使用WebDriver(驱动组件)的json wire协议,来驱动Android系统的UIAutomator(系统测试工具)框架,实现点击“评论”操作,进入界面activity_2。
(3)启动mitmproxy服务,通过代理方式实现对http(s)的请求进行拦截。
(4)驱动Android系统的UIAutomator框架;实现界面activity_2的滚动,进而不断加载并拦截新的http(s)的请求。如果遇到activity_2中的“点击加载更多”模块,继续点击完成新的http(s)请求的加载拦截。
(5)对接python数据采集清洗组件,对mitproxy拦截的http(s)请求所获取的数据进行提取和清洗。
(6)将清洗后的数据存成csv文件,进行数据分析,具体分析步骤如下:
a.存成pandas的dataframe对象:为方便进行数据分析,需要将.csv中的数据转化成程序可处理的python对象,而csv文件中这种多行多列的数据结构非常适合映射成pandas的dataframe数据类型。
b.字符去噪等:通过字符串的基本处理去除特殊字符(如:逗号、双引号、表情等)
c.遍历每一句打分:每一句是一条评论,使用NLTK工具库,对每一条评论进行评分。
d.情感倾向确定:根据业务需求,划分条件设定规则,例如,大于0.65正向0.65到0.35中性小于等于0.35负向:
e.jieba切词-精准模式:jieba切词支持三种分词模式。精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。由于评论数据的特殊性,这里采用精确模式。
f.调用中文分词包jieba,使用函数jieba.analyse.extract_tags统计高频词汇:高频词汇反映了评论用户的主体情感方向,提取高频词汇能够帮助我们更好的分析用户评论的情感趋势。
本实施例将图像识别、NLP处理、网络代理、数据分析等技术与自动化技术相结合,节省人工数据收集成本,提高数据采集效率,避免了app数据采集的技术瓶颈。既能保证数据的实时性,又能避开复杂的app数据采集限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种舆情数据的处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的舆情数据的处理装置的结构框图,如图5所示,该装置包括:定位模块50,驱动模块52,截取模块54,分析模块56,其中,
定位模块50,用于定位舆情组件在客户端界面中的坐标位置,其中,所述舆情组件用于在所述客户端中触发展示目标对象的舆情信息;
驱动模块52,用于在所述坐标位置上驱动所述舆情组件,以触发所述目标对象的舆情展示请求,其中,所述舆情展示请求用于向服务器请求舆情数据;
截取模块54,用于截取所述客户端的数据传输报文,其中,所述数据传输报文携带所述舆情数据;
分析模块56,用于根据所述舆情数据对所述目标对象进行情感分析。
可选的,所述定位模块,具体用于:获取客户端界面的第一像素元组,以及获取所述舆情组件的界面图像的第二像素元组;在所述第一像素元组中遍历查找与所述第二像素元组匹配的第三像素元组;将所述第三像素元组在所述客户端界面中的坐标位置确定为所述舆情组件在所述客户端界面中的坐标位置。
可选的,所述定位模块,具体用于:提取所述舆情组件的标识符,其中,所述标识符包括以下至少之一:图像、文字、符号;在所述客户端界面的中查找包括所述标识符的操作组件;定位所述操作组件在所述客户端界面中的坐标位置。
可选的,所述驱动模块,具体用于:通过web驱动在所述坐标位置上生成触控信号;响应所述触控信号,运行所述舆情组件。
可选的,所述截取模块,具体用于:向所述服务器发送所述舆情展示请求;监测所述服务器响应所述舆情展示请求反馈的请求响应报文;若监测到所述请求响应报文,截取所述请求响应报文。
可选的,所述分析模块,具体用于:从所述数据传输报文中提取数据包,对所述数据包进行清洗,得到所述舆情数据;将所述舆情数据存储在逗号分隔值CSV文件中;将所述CSV文件中舆情数据转换为python对象;基于所述python对象对所述目标对象进行情感分析。
可选的,所述分析模块,具体用于:遍历所述舆情数据中的每一条评论,采用预设自然语言处理工具包NLTK计算每一条评论对应的情感值,基于所述情感值确定对应评论的情感倾向,其中,所述情感倾向包括以下之一:正向、负向、中性;以及采用分词工具切分所述舆情数据中的每一条评论,统计所述舆情数据中出现频率最高的至少一个高频分词;基于所述情感倾向和所述高频分词确定所述目标对象的情感属性。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,定位舆情组件在客户端界面中的坐标位置,其中,所述舆情组件用于在所述客户端中触发展示目标对象的舆情信息;
S2,在所述坐标位置上驱动所述舆情组件,以触发所述目标对象的舆情展示请求,其中,所述舆情展示请求用于向服务器请求舆情数据;
S3,截取所述客户端的数据传输报文,其中,所述数据传输报文携带所述舆情数据;
S4,根据所述舆情数据对所述目标对象进行情感分析。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,定位舆情组件在客户端界面中的坐标位置,其中,所述舆情组件用于在所述客户端中触发展示目标对象的舆情信息;
S2,在所述坐标位置上驱动所述舆情组件,以触发所述目标对象的舆情展示请求,其中,所述舆情展示请求用于向服务器请求舆情数据;
S3,截取所述客户端的数据传输报文,其中,所述数据传输报文携带所述舆情数据;
S4,根据所述舆情数据对所述目标对象进行情感分析。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (12)

1.一种舆情数据的处理方法,其特征在于,包括:
定位舆情组件在客户端界面中的坐标位置,其中,所述舆情组件用于在所述客户端中触发展示目标对象的舆情信息;
在所述坐标位置上驱动所述舆情组件,以触发所述目标对象的舆情展示请求,其中,所述舆情展示请求用于向服务器请求舆情数据;
截取所述客户端的数据传输报文,其中,所述数据传输报文携带所述舆情数据;
根据所述舆情数据对所述目标对象进行情感分析。
2.根据权利要求1所述的方法,其特征在于,定位舆情组件在客户端界面中的坐标位置包括:
获取客户端界面的第一像素元组,以及获取所述舆情组件的界面图像的第二像素元组;
在所述第一像素元组中遍历查找与所述第二像素元组匹配的第三像素元组;
将所述第三像素元组在所述客户端界面中的坐标位置确定为所述舆情组件在所述客户端界面中的坐标位置。
3.根据权利要求1所述的方法,其特征在于,定位舆情组件在客户端界面中的坐标位置包括:
提取所述舆情组件的标识符,其中,所述标识符包括以下至少之一:图像、文字、符号;
在所述客户端界面的中查找包括所述标识符的操作组件;
定位所述操作组件在所述客户端界面中的坐标位置。
4.根据权利要求1所述的方法,其特征在于,在所述坐标位置上驱动所述舆情组件包括:
通过web驱动在所述坐标位置上生成触控信号;
响应所述触控信号,运行所述舆情组件。
5.根据权利要求1所述的方法,其特征在于,截取所述客户端的数据传输报文包括:
向所述服务器发送所述舆情展示请求;
监测所述服务器响应所述舆情展示请求反馈的请求响应报文;
若监测到所述请求响应报文,截取所述请求响应报文。
6.根据权利要求1所述的方法,其特征在于,根据所述舆情数据对所述目标对象进行情感分析包括:
从所述数据传输报文中提取数据包,对所述数据包进行清洗,得到所述舆情数据;
将所述舆情数据存储在逗号分隔值CSV文件中;
将所述CSV文件中舆情数据转换为python对象;
基于所述python对象对所述目标对象进行情感分析。
7.根据权利要求1所述的方法,其特征在于,根据所述舆情数据对所述目标对象进行情感分析包括:
遍历所述舆情数据中的每一条评论,采用预设自然语言处理工具包NLTK计算每一条评论对应的情感值,基于所述情感值确定对应评论的情感倾向,其中,所述情感倾向包括以下之一:正向、负向、中性;以及采用分词工具切分所述舆情数据中的每一条评论,统计所述舆情数据中出现频率最高的至少一个高频分词;
基于所述情感倾向和所述高频分词确定所述目标对象的情感属性。
8.一种舆情数据的处理装置,其特征在于,包括:
定位模块,用于定位舆情组件在客户端界面中的坐标位置,其中,所述舆情组件用于在所述客户端中触发展示目标对象的舆情信息;
驱动模块,用于在所述坐标位置上驱动所述舆情组件,以触发所述目标对象的舆情展示请求,其中,所述舆情展示请求用于向服务器请求舆情数据;
截取模块,用于截取所述客户端的数据传输报文,其中,所述数据传输报文携带所述舆情数据;
分析模块,用于根据所述舆情数据对所述目标对象进行情感分析。
9.根据权利要求8所述的装置,其特征在于,所述定位模块,具体用于:
获取客户端界面的第一像素元组,以及获取所述舆情组件的界面图像的第二像素元组;
在所述第一像素元组中遍历查找与所述第二像素元组匹配的第三像素元组;
将所述第三像素元组在所述客户端界面中的坐标位置确定为所述舆情组件在所述客户端界面中的坐标位置。
10.根据权利要求8所述的装置,其特征在于,所述定位模块,具体用于:
提取所述舆情组件的标识符,其中,所述标识符包括以下至少之一:图像、文字、符号;
在所述客户端界面的中查找包括所述标识符的操作组件;
定位所述操作组件在所述客户端界面中的坐标位置。
11.根据权利要求8所述的装置,其特征在于,所述驱动模块,具体用于:
通过web驱动在所述坐标位置上生成触控信号;
响应所述触控信号,运行所述舆情组件。
12.根据权利要求8所述的装置,其特征在于,所述截取模块,具体用于:
向所述服务器发送所述舆情展示请求;
监测所述服务器响应所述舆情展示请求反馈的请求响应报文;
若监测到所述请求响应报文,截取所述请求响应报文。
CN202010150820.4A 2020-03-06 2020-03-06 舆情数据的处理方法及装置 Pending CN111488499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010150820.4A CN111488499A (zh) 2020-03-06 2020-03-06 舆情数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010150820.4A CN111488499A (zh) 2020-03-06 2020-03-06 舆情数据的处理方法及装置

Publications (1)

Publication Number Publication Date
CN111488499A true CN111488499A (zh) 2020-08-04

Family

ID=71812416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010150820.4A Pending CN111488499A (zh) 2020-03-06 2020-03-06 舆情数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN111488499A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991218A (zh) * 2019-10-10 2020-04-10 北京邮电大学 一种基于图像的网络舆情预警系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102830958A (zh) * 2011-06-16 2012-12-19 奇智软件(北京)有限公司 一种获取界面控件信息的方法及系统
CN109145216A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN109271512A (zh) * 2018-08-29 2019-01-25 中国平安保险(集团)股份有限公司 舆情评论信息的情感分析方法、装置及存储介质
CN110188257A (zh) * 2019-04-16 2019-08-30 国家计算机网络与信息安全管理中心 一种移动应用数据采集方法及装置
CN110765015A (zh) * 2019-10-24 2020-02-07 北京云聚智慧科技有限公司 一种对被测应用进行测试的方法和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102830958A (zh) * 2011-06-16 2012-12-19 奇智软件(北京)有限公司 一种获取界面控件信息的方法及系统
CN109145216A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN109271512A (zh) * 2018-08-29 2019-01-25 中国平安保险(集团)股份有限公司 舆情评论信息的情感分析方法、装置及存储介质
CN110188257A (zh) * 2019-04-16 2019-08-30 国家计算机网络与信息安全管理中心 一种移动应用数据采集方法及装置
CN110765015A (zh) * 2019-10-24 2020-02-07 北京云聚智慧科技有限公司 一种对被测应用进行测试的方法和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991218A (zh) * 2019-10-10 2020-04-10 北京邮电大学 一种基于图像的网络舆情预警系统和方法
CN110991218B (zh) * 2019-10-10 2024-01-12 北京邮电大学 一种基于图像的网络舆情预警系统和方法

Similar Documents

Publication Publication Date Title
CN107862553B (zh) 广告实时推荐方法、装置、终端设备及存储介质
KR101361992B1 (ko) 발전된 탐색 결과 페이지 콘텐츠를 제공하는 시스템 및 방법
KR101727877B1 (ko) 발전된 탐색 결과 페이지 콘텐츠를 제공하는 시스템 및 방법
US9607010B1 (en) Techniques for shape-based search of content
US20120265610A1 (en) Techniques for Generating Business Leads
WO2016101777A1 (zh) 用户兴趣数据分析和收集系统及其方法
CN103886074A (zh) 基于社交媒体的商品推荐系统
TW201224972A (en) Sorting method and apparatus of query results
TW201327233A (zh) 個性化的資訊推送方法及裝置
CN107729336A (zh) 数据处理方法、设备及系统
TW201523302A (zh) 資料搜尋處理方法及系統
WO2015135110A1 (en) Systems and methods for keyword suggestion
US20160098416A1 (en) Auto complete search box based on the user's context to reduce user's input
CN110232586B (zh) 一种基于大数据的广告推送系统
KR101559719B1 (ko) 효과적인 마케팅을 도출하는 자동학습 시스템 및 방법
EP2577589A1 (en) Method of and system for determining contextually relevant advertisements to be provided to a web page
US9824149B2 (en) Opportunistically solving search use cases
JP2019057245A (ja) 情報処理装置及びプログラム
WO2022007798A1 (zh) 数据显示方法、装置、终端设备及存储介质
CN111488499A (zh) 舆情数据的处理方法及装置
EP3564833B1 (en) Method and device for identifying main picture in web page
CN111259274A (zh) 信息处理方法、装置、设备以及信息显示装置
CN111787042B (zh) 用于推送信息的方法和装置
US11256703B1 (en) Systems and methods for determining long term relevance with query chains
CN105323143B (zh) 基于即时通讯的网络信息推送方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100102 201 / F, block C, 2 lizezhong 2nd Road, Chaoyang District, Beijing

Applicant after: Beijing Shuidi Technology Group Co.,Ltd.

Address before: Room 4103, room 101, floor 1, building 2, No. 208, Lize Zhongyuan, Chaoyang District, Beijing 100102

Applicant before: Beijing Health Home Technology Co.,Ltd.