CN113449169A - 一种基于rpa的舆情数据获取方法及系统 - Google Patents

一种基于rpa的舆情数据获取方法及系统 Download PDF

Info

Publication number
CN113449169A
CN113449169A CN202111021190.1A CN202111021190A CN113449169A CN 113449169 A CN113449169 A CN 113449169A CN 202111021190 A CN202111021190 A CN 202111021190A CN 113449169 A CN113449169 A CN 113449169A
Authority
CN
China
Prior art keywords
public opinion
opinion data
rpa
data
store
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111021190.1A
Other languages
English (en)
Other versions
CN113449169B (zh
Inventor
梁嘉妍
陈磊
吕理强
冯明煜
李羡童
刘佳
侯美伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yuechuangzhishu Information Technology Co ltd
Original Assignee
Guangzhou Yuechuangzhishu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yuechuangzhishu Information Technology Co ltd filed Critical Guangzhou Yuechuangzhishu Information Technology Co ltd
Priority to CN202111021190.1A priority Critical patent/CN113449169B/zh
Publication of CN113449169A publication Critical patent/CN113449169A/zh
Application granted granted Critical
Publication of CN113449169B publication Critical patent/CN113449169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明为解决舆情数据采集准确率低、效率低的问题,提出一种基于RPA的舆情数据获取方法及系统,其中舆情数据获取方法中包括以下步骤:获取目标地址数据列表,遍历所述目标地址数据列表中的每一条数据,通过RPA进行网页访问,跳转至目标页面;根据预设的舆情数据子元素在所述目标页面内截取舆情数据图片;对所述舆情数据图片基于OCR技术进行文字识别,根据舆情数据的类别分别缓存在相应的表格中;当目标地址数据列表中的每一条数据完成遍历后,将所述表格写入数据库中进行保存。本发明结合RPA和OCR技术实现从搭载有CSS反爬机制的网站上获取舆情数据,有效提高舆情数据获取的工作效率及准确率。

Description

一种基于RPA的舆情数据获取方法及系统
技术领域
本发明涉及数据处理技术领域,更具体地,涉及一种基于RPA的舆情数据获取方法及系统。
背景技术
RPA(Robotic Process Automation,机器人流程自动化)技术用于帮助企业各部门有效地实现业务流程自动化,取代人力执行重复性高但有逻辑性的任务。如公开号为CN112256770A(公开日2021-01-22)提出的一种基于智能化数据采集与分析的智慧数据分析平台,提出通过RPA数据采集与分析模块模拟人工作业处理流程,进行标准化工作,采集系统内营销、用采和PMS2.0业务数据,再进行分析。
然而,由于目前大部分网站制定有严格的CSS反爬机制,当采用RPA技术进行舆情数据采集时,甚至存在舆情数据无法复制、出现乱码等情况,导致舆情数据采集的准确率低,显然目前RPA技术无法直接应用于舆情数据分析。对于搭载有CSS反爬机制的网站,目前主要通过人工对舆情数据进行收集,但存在收集效率低的问题。
发明内容
本发明为解决上述现有技术所述的舆情数据采集准确率低、效率低的问题,提供一种基于RPA的舆情数据获取方法,以及一种基于RPA的舆情数据获取系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于RPA的舆情数据获取方法,包括以下步骤:
S1、获取目标地址数据列表,遍历所述目标地址数据列表中的每一条数据,通过RPA进行网页访问,跳转至目标页面;
S2、根据预设的舆情数据子元素在所述目标页面内截取舆情数据图片;
S3、对所述舆情数据图片基于OCR技术进行文字识别,根据舆情数据的类别分别缓存在相应的表格中;当目标地址数据列表中的每一条数据完成遍历后,将所述表格写入数据库中进行保存。
作为优选方案,所述舆情数据子元素包括用户评论、用户评分、回复数和div标签的id。
作为优选方案,所述S2步骤中,根据预设的div标签的id在当前目标页面进行定位,控制鼠标精准定位到指定位置,并在当前目标页面内执行舆情数据图片截取。
作为优选方案,所述S2步骤中,还包括以下步骤:当RPA检测有弹窗事件发生时,RPA通过API消息发送接口向工作人员发送弹窗通知信息。
作为优选方案,所述S3步骤中,根据舆情数据的类别分别缓存的表格包括店铺id表、用户评论及评分表,以及用户评论和用户评分的时间表。
作为优选方案,所述S3步骤中,还包括以下步骤:
步骤A、根据日期和店铺id关联所述表格,通过键值关联建立舆情数据模型;其中,根据日期对所述时间表和用户评论及评分表进行关联,根据店铺id对所述店铺id表和用户评论及评分表进行关联,根据店铺类别对所述店铺id表和用户评论及评分表进行关联,分别建立基于日期的舆情数据模型、基于店铺id的舆情数据模型和基于店铺类别的舆情数据模型;
步骤B、通过DAX函数新建度量值,得到每个店铺id对应最新日期的总评分指标;其中,对于每个店铺id:
采用变量jd获取大于0的评分数据中的最新日期;
采用变量hs获取最新日期的数量;
返回最新日期的平均总评分作为当前店铺id最新日期的总评分指标;
步骤C、根据每个店铺id的总评分指标结合所述舆情数据模型,生成相应的可视化报表进行展示,并将所述可视化报表存储在数据库中。
作为优选方案,所述方法还包括以下步骤:
S4:对数据库中存储的可视化报表中的元素设置相应的属性标签,并对所有可视化报表中各元素相应的属性标签建立联动关系;
当输入查询指令时,对查询指令进行解析,从数据库中调取相应的可视化报表进行展示;
判断所述查询指令中是否包含属性标签的选择指令,若是,则根据对应属性标签的联动关系构建联动展示报表并进行显示。
进一步的,本发明还提出了一种基于RPA的舆情数据获取系统,应用于上述任一技术方案提出的基于RPA的舆情数据获取方法。其中包括:
RPA模块,用于遍历输入的目标地址数据列表执行网页访问,跳转至目标页面;
图片截取模块,用于根据预设的舆情数据子元素和属性在目标页面内截取舆情数据图片,并发送至OCR数据识别模块中;
OCR数据识别模块,用于对输入的舆情数据图片基于OCR技术进行文字识别,得到相应的舆情数据并发送至数据缓存模块中;
数据缓存模块,用于对接收的舆情数据按照其类别缓存在相应的表格中;当RPA模块对目标地址数据列表中的每一条数据完成遍历后,所述数据缓存模块将其缓存的表格写入所述数据库中;
数据库,用于存储完成目标地址数据列表遍历操作后生成的舆情数据表格。
作为优选方案,所述图片截取模块中包括鼠标点击控件和截图控件,所述鼠标点击控件根据预设的div标签的id对当前页面进行搜索及定位后,控制鼠标精准定位至指定位置;所述截图控件根据预设的舆情数据子元素在当前目标页面内的相应位置执行截图操作。
作为优选方案,所述系统还包括API消息发送接口,当所述RPA模块检测有弹窗事件发生时,所述RPA模块通过API消息发送接口向外接通信终端发送弹窗通知信息。
作为优选方案,所述系统还包括可视化报表生成模块和人机交互模块,其中:
所述可视化报表生成模块中包括舆情数据模型建立单元、总评分指标计算单元和可视化单元,所述舆情数据模型建立单元的输入端与所述数据库的输出端连接,所述舆情数据模型建立单元的输出端与所述可视化单元的输入端连接;所述总评分指标计算单元的输入端与所述数据库的输出端连接,总评分指标计算单元的输出端与所述可视化单元的输入端连接;
所述舆情数据模型建立单元从所述数据库中获取存储有舆情数据的表格,根据日期和店铺id关联所述表格,通过键值关联建立舆情数据模型,然后将所述舆情数据模型发送至所述可视化单元;
其中,根据日期对所述时间表和用户评论及评分表进行关联,根据店铺id对所述店铺id表和用户评论及评分表进行关联,根据店铺类别对所述店铺id表和用户评论及评分表进行关联,分别建立基于日期的舆情数据模型、基于店铺id的舆情数据模型和基于店铺类别的舆情数据模型;
所述总评分指标计算单元通过DAX函数新建度量值,得到每个店铺id对应最新日期的总评分指标,然后发送至所述可视化单元;其中,对于每个店铺id:采用变量jd获取大于0的评分数据中的最新日期;采用变量hs获取最新日期的数量;返回最新日期的平均总评分作为当前店铺id最新日期的总评分指标;
所述可视化单元根据接收的舆情数据模型和每个店铺id对应最新日期的总评分指标进行关联后,生成相应的可视化报表;
所述可视化单元将其生成发到可视化报表分别发送至所述人机交互模块中进行展示,以及发送至所述数据库中进行存储。
与现有技术相比,本发明技术方案的有益效果是:本发明通过RPA执行目标页面的搜索及跳转,从目标页面中截取含舆情数据的图片后,进一步结合OCR技术进行文字识别,实现从搭载有CSS反爬机制的网站上获取舆情数据,有效提高舆情数据获取的工作效率及准确率。
附图说明
图1为实施例1的基于RPA的舆情数据获取方法的流程图。
图2为实施例2的基于RPA的舆情数据获取系统的架构图。
图3为实施例2的零售项目舆情监控的可视化报表。
其中,1-RPA模块,2-图片截取模块,21-鼠标点击控件,22-截图控件,3-OCR数据识别模块,4-数据缓存模块,5-数据库,6-API消息发送接口,7-可视化报表生成模块,71-舆情数据模型建立单元,72-总评分指标计算单元,73-可视化单元,8-人机交互模块8。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于RPA的舆情数据获取方法,如图1所示,为本实施例的基于RPA的舆情数据获取方法的流程图。
本实施例提出的基于RPA的舆情数据获取方法中,包括以下步骤:
步骤1:获取目标地址数据列表,遍历所述目标地址数据列表中的每一条数据,通过RPA进行网页访问,跳转至目标页面。
本实施例中,所述目标地址数据列表由用户输入,或从数据库中读取获得,其中本实施例的目标地址数据列表中包括网页地址和店铺id。
步骤2:根据预设的舆情数据子元素在所述目标页面内截取舆情数据图片。
本实施例中的舆情数据子元素包括用户评论、用户评分、回复数和div标签的id。
本步骤实现在当前目标页面内截取包含用户评论、用户评分和回复数等舆情数据的图片。
考虑到在实际实施过程中,舆情数据可能在屏幕中的可视范围外,而配合使用的截图控件无法移动屏幕,此时无法获取相应的舆情数据。
对此,本实施例根据div标签的id在当前目标页面进行定位,控制鼠标精准定位到指定位置,实现屏幕可视范围的调整,并在当前目标页面内执行舆情数据图片截取,保证舆情数据的有效获取。
进一步的,考虑到在实际实施过程中目标页面可能出现广告弹窗、验证弹窗等弹窗事件,本实施例还包括以下步骤:当RPA检测有弹窗事件发生时,RPA通过API消息发送接口向工作人员发送弹窗通知信息。
本实施例采用钉钉API接口实施弹窗通知信息的发送。
每打开一个新页面时,通过RPA检测是否有弹窗事件发生:若有弹窗事件发生,则通过钉钉API接口发送钉钉消息提醒工作人员进行人工操作,实现人机协同。
步骤3:对所述舆情数据图片基于OCR技术进行文字识别,根据舆情数据的类别分别缓存在相应的表格中;当目标地址数据列表中的每一条数据完成遍历后,将所述表格写入数据库中进行保存。
本步骤中,根据舆情数据的类别分别缓存的表格包括店铺id表、用户评论及评分表,以及用户评论和用户评分的时间表。
在本实施例中,可采用百度API接口实施OCR文字识别,用于将舆情数据图片内的文字进行提取识别,获得目标店铺id的用户评论、用户评分、回复数等舆情数据,然后保存在表格中。本实施例采用OCR技术能够对目标页面的舆情数据实现较高精确度的识别还原。
进一步的,还包括以下步骤:
步骤A、根据日期和店铺id关联所述表格,通过键值关联建立舆情数据模型;其中,根据日期对所述时间表和用户评论及评分表进行关联,根据店铺id对所述店铺id表和用户评论及评分表进行关联,根据店铺类别对所述店铺id表和用户评论及评分表进行关联,然后建立基于日期的舆情数据模型、基于店铺id的舆情数据模型和基于店铺类别的舆情数据模型;
步骤B、通过DAX函数新建度量值,得到每个店铺id对应最新日期的总评分指标;其中,对于每个店铺id:
采用变量jd获取大于0的评分数据中的最新日期;
采用变量hs获取最新日期的数量;
返回最新日期的平均总评分作为当前店铺id最新日期的总评分指标;
步骤C、根据每个店铺id的总评分指标结合所述舆情数据模型,生成相应的可视化报表进行展示,并将所述可视化报表存储在数据库中。
上述操作旨在制作可视化报表,实现业务动态舆情监控,具体的,可采用POWER BI制作可视化报表,工作人员可从项目、业态、店铺、时间等多维度对舆情数据进行观察及分析,实现丰富的可视化效果。
其中,步骤B的部分代码表示如下:
var jd=CALCULATE(MAX('dim_Date'[Date]),FILTER('rpa_ShopScores','rpa_ShopScores'[TotalScore]>0))
var hs=CALCULATE(COUNTROWS('rpa_ShopScores'),'dim_Date'[Date]=jd)
return CALCULATE(DIVIDE(sum(rpa_ShopScores[TotalScore]),hs),'dim_Date'[Date]=jd)
本步骤中,对于每个店铺id采用变量jd和变量hs统计当前店铺id最新日期的总评分指标,能够防止重复获取记录导致的分数累计。
在具体实施过程中,目标地址数据列表、舆情数据子元素以及根据舆情数据的类别分别缓存的表格类别可根据实际需求进行调整。如下表1所示,为采用本实施例提出的基于RPA的舆情数据获取方法应用于大众点评网获取的舆情数据表格。
表1 从大众点评网获取的舆情数据表
Figure 322567DEST_PATH_IMAGE002
由表1可知,本实施例提出的基于RPA的舆情数据获取方法能够在制定有严格的CSS反爬机制的大众点评网上获取用户评论、用户评分、回复数等舆情数据,并根据店铺名称、所在商圈、店铺类别、评论类别等进行细分后生成可视化报表进行展示。
进一步的,本实施例还包括以下步骤:
步骤4:对数据库中存储的可视化报表中的元素设置相应的属性标签,并对所有可视化报表中各元素相应的属性标签建立联动关系;
当输入查询指令时,对查询指令进行解析,从数据库中调取相应的可视化报表进行展示;
判断所述查询指令中是否包含属性标签的选择指令,若是,则根据对应属性标签的联动关系构建联动展示报表并进行显示。
具体的,当输入查询指令包括对可视化报表元素对应的属性标签的选择,或对属性标签的联动关系的选择时,根据所选择的属性标签所属联动关系或所选择的联动关系本身,构建联动展示报表。所述联动展示报表包括但不仅限于相应联动关系的可视化报表、相应联动关系的属性标签对应的元素数据以及标签的名称。用户可通过输入查询指令对存在联动关系的可视化报表进行查看,或进一步筛选属性标签,获取期望读取的信息,可以进一步提高数据分析工作效率。
本实施例提出的基于RPA的舆情数据获取方法能够从搭载有CSS反爬机制的网站上通过RPA进行舆情数据获取,以及进一步的数据分析,可应用于舆情监控、竞品项目品牌监控、商圈热门品牌监控等领域。
实施例2
本实施例提出一种基于RPA的舆情数据获取系统,如图2所示,为本实施例的基于RPA的舆情数据获取系统的架构图。
本实施例提出的基于RPA的舆情数据获取系统中,包括RPA模块1、图片截取模块2、OCR数据识别模块3、数据缓存模块4和数据库5,其中:
RPA模块1用于遍历输入的目标地址数据列表执行网页访问,跳转至目标页面;
图片截取模块2用于根据预设的舆情数据子元素在目标页面内截取舆情数据图片,并发送至OCR数据识别模块3中;其中,预设的舆情数据子元素包括用户评论、用户评分、回复数和div标签的id;
OCR数据识别模块3用于对输入的舆情数据图片基于OCR技术进行文字识别,得到相应的舆情数据并发送至数据缓存模块4中;
数据缓存模块4用于对接收的舆情数据按照其类别缓存在相应的表格中;当RPA模块1对目标地址数据列表中的每一条数据完成遍历后,所述数据缓存模块4将其缓存的表格写入所述数据库5中;其中,表格包括店铺id表、用户评论及评分表,以及用户评论和用户评分的时间表;
数据库5用于存储完成目标地址数据列表遍历操作后生成的舆情数据表格。
其中,本实施例中的RPA模块1采用RPA机器人。
本实施例中,所述图片截取模块2中包括鼠标点击控件21和截图控件22。其中,所述鼠标点击控件21根据预设的div标签的id对当前页面进行搜索及定位后,控制鼠标精准定位至指定位置;所述截图控件22根据预设的舆情数据子元素在当前目标页面内的相应位置执行截图操作。
本实施例的系统还包括API消息发送接口6,当所述RPA模块1检测有弹窗事件发生时,所述RPA模块1通过API消息发送接口6向工作人员的通信终端发送弹窗通知信息。具体的,可采用钉钉API接口实施弹窗通知信息的发送。
进一步的,本实施例的系统还包括可视化报表生成模块7和人机交互模块8,其中:
所述可视化报表生成模块7中包括舆情数据模型建立单元71、总评分指标计算单元72和可视化单元73,其中所述舆情数据模型建立单元71的输入端与所述数据库5的输出端连接,所述舆情数据模型建立单元71的输出端与所述可视化单元73的输入端连接;所述总评分指标计算单元72的输入端与所述数据库5的输出端连接,总评分指标计算单元72的输出端与所述可视化单元73的输入端连接;
所述舆情数据模型建立单元71从所述数据库5中获取存储有舆情数据的表格,根据日期和店铺id关联所述表格,通过键值关联建立舆情数据模型,然后将所述舆情数据模型发送至所述可视化单元73;
其中,根据日期对所述时间表和用户评论及评分表进行关联,根据店铺id对所述店铺id表和用户评论及评分表进行关联,根据店铺类别对所述店铺id表和用户评论及评分表进行关联,分别建立基于日期的舆情数据模型、基于店铺id的舆情数据模型和基于店铺类别的舆情数据模型;
所述总评分指标计算单元72通过DAX函数新建度量值,得到每个店铺id对应最新日期的总评分指标,然后发送至所述可视化单元73;其中,对于每个店铺id:采用变量jd获取大于0的评分数据中的最新日期;采用变量hs获取最新日期的数量;返回最新日期的平均总评分作为当前店铺id最新日期的总评分指标;
所述可视化单元73根据接收的舆情数据模型和每个店铺id对应最新日期的总评分指标进行关联后,生成相应的可视化报表;
所述可视化单元73将其生成发到可视化报表分别发送至所述人机交互模块8中进行展示,以及发送至所述数据库5中进行存储。
在具体实施过程中,可视化报表生成模块7采用POWER BI技术进行数据模型的建立、数据的计算分析及报表的可视化,具体的,可形成零售项目舆情监控、零售项目舆情明细、项目竞品分析、店铺竞品分析、热门商圈分析等页签,并通过平台发布,实现自营项目店铺监控、竞品项目品牌监控以及热门商圈热门品牌监控。如图3所示,为本实施例的零售项目舆情监控可视化报表。
本实施例的系统还包括报表联动模块,用于对可视化报表中的元素设置相应的属性标签,并对所有可视化报表中各元素相应的属性标签建立联动关系,再存储在数据库5中。其中,报表联动模块与可视化单元73连接,且报表联动模块与人机交互模块8连接。
在使用过程中,根据人机交互模块8输入的查询指令从数据库5中调取相应的可视化报表,并判断查询指令中是否包含属性标签的选择指令,若是,则根据对应属性标签的联动关系构建联动展示报表并进行显示。
本实施例提出的基于RPA的舆情数据获取系统可用于实施例1提出的基于RPA的舆情数据获取方法,同样能够从搭载有CSS反爬机制的网站上通过RPA模块1进行舆情数据获取,以及进一步的数据分析。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于RPA的舆情数据获取方法,其特征在于,包括以下步骤:
S1、获取目标地址数据列表,遍历所述目标地址数据列表中的每一条数据,通过RPA进行网页访问,跳转至目标页面;
S2、根据预设的舆情数据子元素在所述目标页面内截取舆情数据图片;
S3、对所述舆情数据图片基于OCR技术进行文字识别,根据舆情数据的类别分别缓存在相应的表格中;当目标地址数据列表中的每一条数据完成遍历后,将所述表格写入数据库中进行保存。
2.根据权利要求1所述的基于RPA的舆情数据获取方法,其特征在于,所述舆情数据子元素包括用户评论、用户评分、回复数和div标签的id。
3.根据权利要求2所述的基于RPA的舆情数据获取方法,其特征在于,所述S2步骤中,根据预设的div标签的id在当前目标页面进行定位,控制鼠标精准定位到指定位置,并在当前目标页面内执行舆情数据图片截取。
4.根据权利要求1所述的基于RPA的舆情数据获取方法,其特征在于,所述S2步骤中,还包括以下步骤:当RPA检测有弹窗事件发生时,RPA通过API消息发送接口向工作人员发送弹窗通知信息。
5.根据权利要求1所述的基于RPA的舆情数据获取方法,其特征在于,所述S3步骤中,根据舆情数据的类别分别缓存的表格包括店铺id表、用户评论及评分表,以及用户评论和用户评分的时间表;所述S3步骤中还包括以下步骤:
步骤A、根据日期和店铺id关联所述表格,通过键值关联建立舆情数据模型;其中,根据日期对所述时间表和用户评论及评分表进行关联,根据店铺id对所述店铺id表和用户评论及评分表进行关联,根据店铺类别对所述店铺id表和用户评论及评分表进行关联,分别建立基于日期的舆情数据模型、基于店铺id的舆情数据模型和基于店铺类别的舆情数据模型;
步骤B、通过DAX函数新建度量值,得到每个店铺id对应最新日期的总评分指标;其中,对于每个店铺id:
采用变量jd获取大于0的评分数据中的最新日期;
采用变量hs获取最新日期的数量;
返回最新日期的平均总评分作为当前店铺id最新日期的总评分指标;
步骤C、根据每个店铺id的总评分指标结合所述舆情数据模型,生成相应的可视化报表进行展示,并将所述可视化报表存储在数据库中。
6.根据权利要求5所述的基于RPA的舆情数据获取方法,其特征在于,所述方法还包括以下步骤:
S4:对数据库中存储的可视化报表中的元素设置相应的属性标签,并对所有可视化报表中各元素相应的属性标签建立联动关系;
当输入查询指令时,对查询指令进行解析,从数据库中调取相应的可视化报表进行展示;
判断所述查询指令中是否包含属性标签的选择指令,若是,则根据对应属性标签的联动关系构建联动展示报表并进行显示。
7.一种基于RPA的舆情数据获取系统,其特征在于,包括:
RPA模块,用于遍历输入的目标地址数据列表执行网页访问,跳转至目标页面;
图片截取模块,用于根据预设的舆情数据子元素在目标页面内截取舆情数据图片,并发送至OCR数据识别模块中;
OCR数据识别模块,用于对输入的舆情数据图片基于OCR技术进行文字识别,得到相应的舆情数据并发送至数据缓存模块中;
数据缓存模块,用于对接收的舆情数据按照其类别缓存在相应的表格中;当RPA模块对目标地址数据列表中的每一条数据完成遍历后,所述数据缓存模块将其缓存的表格写入所述数据库中;
数据库,用于存储完成目标地址数据列表遍历操作后生成的舆情数据表格。
8.根据权利要求7所述的基于RPA的舆情数据获取系统,其特征在于,所述图片截取模块中包括鼠标点击控件和截图控件,所述鼠标点击控件根据预设的div标签的id对当前页面进行搜索及定位后,控制鼠标精准定位至指定位置;所述截图控件根据预设的舆情数据子元素在当前目标页面内的相应位置执行截图操作。
9.根据权利要求7所述的基于RPA的舆情数据获取系统,其特征在于,所述系统还包括API消息发送接口,当所述RPA模块检测有弹窗事件发生时,所述RPA模块通过API消息发送接口向外接通信终端发送弹窗通知信息。
10.根据权利要求7所述的基于RPA的舆情数据获取系统,其特征在于,所述系统还包括可视化报表生成模块和人机交互模块,其中:
所述可视化报表生成模块中包括舆情数据模型建立单元、总评分指标计算单元和可视化单元,所述舆情数据模型建立单元的输入端与所述数据库的输出端连接,所述舆情数据模型建立单元的输出端与所述可视化单元的输入端连接;所述总评分指标计算单元的输入端与所述数据库的输出端连接,总评分指标计算单元的输出端与所述可视化单元的输入端连接;
所述舆情数据模型建立单元从所述数据库中获取存储有舆情数据的表格,根据日期和店铺id关联所述表格,通过键值关联建立舆情数据模型,然后将所述舆情数据模型发送至所述可视化单元;
其中,根据日期对所述时间表和用户评论及评分表进行关联,根据店铺id对所述店铺id表和用户评论及评分表进行关联,根据店铺类别对所述店铺id表和用户评论及评分表进行关联,分别建立基于日期的舆情数据模型、基于店铺id的舆情数据模型和基于店铺类别的舆情数据模型;
所述总评分指标计算单元通过DAX函数新建度量值,得到每个店铺id对应最新日期的总评分指标,然后发送至所述可视化单元;其中,对于每个店铺id:采用变量jd获取大于0的评分数据中的最新日期;采用变量hs获取最新日期的数量;返回最新日期的平均总评分作为当前店铺id最新日期的总评分指标;
所述可视化单元根据接收的舆情数据模型和每个店铺id对应最新日期的总评分指标进行关联后,生成相应的可视化报表;
所述可视化单元将其生成发到可视化报表分别发送至所述人机交互模块中进行展示,以及发送至所述数据库中进行存储。
CN202111021190.1A 2021-09-01 2021-09-01 一种基于rpa的舆情数据获取方法及系统 Active CN113449169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111021190.1A CN113449169B (zh) 2021-09-01 2021-09-01 一种基于rpa的舆情数据获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111021190.1A CN113449169B (zh) 2021-09-01 2021-09-01 一种基于rpa的舆情数据获取方法及系统

Publications (2)

Publication Number Publication Date
CN113449169A true CN113449169A (zh) 2021-09-28
CN113449169B CN113449169B (zh) 2021-12-14

Family

ID=77819359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111021190.1A Active CN113449169B (zh) 2021-09-01 2021-09-01 一种基于rpa的舆情数据获取方法及系统

Country Status (1)

Country Link
CN (1) CN113449169B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035726A (zh) * 2021-10-19 2022-02-11 四川新网银行股份有限公司 一种机器人流程自动化页面要素识别过程的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160300023A1 (en) * 2015-04-10 2016-10-13 Aetna Inc. Provider rating system
CN106095918A (zh) * 2016-06-06 2016-11-09 山东科技大学 一种基于ocr技术的网络受保护指数数据的获取方法
CN108052586A (zh) * 2017-12-11 2018-05-18 上海壹账通金融科技有限公司 舆情分析方法、系统、计算机设备和存储介质
CN108985347A (zh) * 2018-06-25 2018-12-11 阿里巴巴集团控股有限公司 分类模型的训练方法、店铺分类的方法及装置
CN110263233A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 企业舆情库构建方法、装置、计算机设备及存储介质
WO2020061700A1 (en) * 2018-09-28 2020-04-02 Element Ai Inc. Robust user interface related robotic process automation
CN111523923A (zh) * 2020-04-06 2020-08-11 北京三快在线科技有限公司 商家评论管理系统、方法、服务器及存储介质
WO2020227429A1 (en) * 2019-05-06 2020-11-12 Strong Force Iot Portfolio 2016, Llc Platform for facilitating development of intelligence in an industrial internet of things system
CN113326375A (zh) * 2021-05-26 2021-08-31 北京沃东天骏信息技术有限公司 舆情处理的方法、装置、电子设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160300023A1 (en) * 2015-04-10 2016-10-13 Aetna Inc. Provider rating system
CN106095918A (zh) * 2016-06-06 2016-11-09 山东科技大学 一种基于ocr技术的网络受保护指数数据的获取方法
CN108052586A (zh) * 2017-12-11 2018-05-18 上海壹账通金融科技有限公司 舆情分析方法、系统、计算机设备和存储介质
CN108985347A (zh) * 2018-06-25 2018-12-11 阿里巴巴集团控股有限公司 分类模型的训练方法、店铺分类的方法及装置
WO2020061700A1 (en) * 2018-09-28 2020-04-02 Element Ai Inc. Robust user interface related robotic process automation
CN110263233A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 企业舆情库构建方法、装置、计算机设备及存储介质
WO2020227429A1 (en) * 2019-05-06 2020-11-12 Strong Force Iot Portfolio 2016, Llc Platform for facilitating development of intelligence in an industrial internet of things system
CN111523923A (zh) * 2020-04-06 2020-08-11 北京三快在线科技有限公司 商家评论管理系统、方法、服务器及存储介质
CN113326375A (zh) * 2021-05-26 2021-08-31 北京沃东天骏信息技术有限公司 舆情处理的方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035726A (zh) * 2021-10-19 2022-02-11 四川新网银行股份有限公司 一种机器人流程自动化页面要素识别过程的方法及系统
CN114035726B (zh) * 2021-10-19 2023-12-22 四川新网银行股份有限公司 一种机器人流程自动化页面要素识别过程的方法及系统

Also Published As

Publication number Publication date
CN113449169B (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
US20210056257A1 (en) Obtaining data from incomplete electronic forms
US9578118B2 (en) Detecting content and user response to content
US9990356B2 (en) Device and method for analyzing reputation for objects by data mining
CN101777080B (zh) 基于用户点击数据的网页分析方法
Heymann et al. Turkalytics: analytics for human computation
JP4093012B2 (ja) ハイパーテキスト検査装置および方法並びにプログラム
US20170221080A1 (en) Brand Analysis
US6882977B1 (en) Method and facility for displaying customer activity and value
US20110282860A1 (en) Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking
US20240152558A1 (en) Search activity prediction
CN111028087B (zh) 信息展示方法、装置和设备
JPWO2003048973A1 (ja) アクセスログ分析装置およびアクセスログ分析方法
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
US20170075896A1 (en) System and method for analyzing popularity of one or more user defined topics among the big data
CN112131459B (zh) 基于大数据的知识产权信息检索软件管理系统及方法
CN113449169B (zh) 一种基于rpa的舆情数据获取方法及系统
CN106775219B (zh) 一种光标联动方法和装置
US10719561B2 (en) System and method for analyzing popularity of one or more user defined topics among the big data
CN117093762B (zh) 一种舆情数据评估分析系统及方法
KR101850853B1 (ko) 빅데이터를 이용한 검색 방법 및 장치
WO2023231288A1 (zh) 搜索结果的排序方法、装置、电子设备和存储介质
EP3408797A1 (en) Image-based quality control
US20190108555A1 (en) Marketing to consumers using data obtained from abandoned gps searches
Cheng et al. Website analytics for government user behavior during COVID-19 pandemic
CN111026981B (zh) 热点话题的可视化展示方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant