CN112579852A - 一种互动式网页数据精确采集方法 - Google Patents

一种互动式网页数据精确采集方法 Download PDF

Info

Publication number
CN112579852A
CN112579852A CN201910940348.1A CN201910940348A CN112579852A CN 112579852 A CN112579852 A CN 112579852A CN 201910940348 A CN201910940348 A CN 201910940348A CN 112579852 A CN112579852 A CN 112579852A
Authority
CN
China
Prior art keywords
data
user
range
target
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910940348.1A
Other languages
English (en)
Other versions
CN112579852B (zh
Inventor
孙再连
吴谋荣
李颜媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Etom Software Technology Co ltd
Original Assignee
Xiamen Etom Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Etom Software Technology Co ltd filed Critical Xiamen Etom Software Technology Co ltd
Priority to CN201910940348.1A priority Critical patent/CN112579852B/zh
Priority to PCT/CN2020/086220 priority patent/WO2021062996A1/zh
Publication of CN112579852A publication Critical patent/CN112579852A/zh
Application granted granted Critical
Publication of CN112579852B publication Critical patent/CN112579852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种互动式网页数据精确采集方法,结合网页抓包技术与机器学习技术,步骤包括:S10:对目标数据的网站网页进行数据结构模型建立;S20:确定网页目标元素并进行模型分析;S30:智能评估有效数据范围并圈定展示;S40:判断采集范围内各元素存在事件,与用户进行互动确定,实现精确采集网页数据。本方法关注用户体验感,提供更多的用户互动场景,且互动方式简便,降低了用户的技术门槛,通过互动,实现精确采集网页数据;本方法采集不同用户对同一网页的操作,形成历史操作记录,历史操作记录能够用于给用户推送操作方案,也能够成为训练集,实现网页的数据结构模型的自我迭代。

Description

一种互动式网页数据精确采集方法
技术领域
本发明涉及一种互动式网页数据精确采集方法。
背景技术
信息化时代,随着人类对网络信息的依赖及技术的发展,各种爬虫工具孕育而生。目前市面上主流的数据爬取软件或工具,或基于网页页面元素的分析,或基于数据结构化转化的方法,均需配合人工操作完成数据采集的确认,虽不像传统的网络数据采集那样需要专业的技术人员才能实现数据爬取对象的设置,但在做一些高精度数据采集时仍需要操作人员拥有一定的技术基础才能很好的完成操作,实现数据的采集。
同时,现有的数据爬取软件或工具,多以采集数据为第一目标,进而忽略用户交互体验,在关于网页数据的精准采集实现上,用户的操作较为复杂,要求用户观察现象后进行网页问题点确定,再做相关配置处理,极大提高了使用的技术门槛。
综上,细数现有数据爬取软件或工具,其存在的问题如下:
1、对网络数据的结构化转化仅在同类元素下有效,若页面展示同一模块但采用分块分层的写法编辑时将无法采集其同一模块下的所有数据;
2、用户交互上较为简单,对于需要精准采集的实现需要有些专业化的配置,要求用户拥有一定的技术门槛;
3、不同用户间对同一网站的数据采集是孤立,软件对同网站精准采集中可能存在的问题无法进行分析判断和自我学习,需要大量的冗余操作,造成一定的资源浪费。
发明内容
本发明提供了一种互动式网页数据精确采集方法,结合网页抓包技术与机器学习技术,步骤包括:
S10:对目标数据的网站网页进行数据结构模型建立;
S20:确定网页目标元素并进行模型分析;
S30:智能评估有效数据范围并圈定展示;
S40:判断采集范围内各元素存在事件,与用户进行互动确定,实现精确采集网页数据。
进一步的,所述S30包括:
S31:智能分析目标数据所在节点所属模块,关联页内同类模块;
S32:标识单页内目标元素的采集范围。
进一步的,所述S10包括对网站网页进行结构分析,提取各元素标签的样式属性并进行多维度的组合分类,再对分类进行相似度评定。
具体的,所述S10包括对网站网页进行判断是否已经做数据结构模型构建,若未构建则进行网站网页数据抓包,获取渲染后的页面源码,分析页面源码后的各标签元素,并标注元素标签层级为A;再提取标签元素的样式属性,进行同样式属性的分类;再根据标注还原同样式属性所在层级,获取同层级同样式属性标签的父节点信息并标注为B,获取不同层级同样式属性标签的父节点信息并标注为C;
圈定标注为B的所有元素为第一目标范围;
对标注为C的所有元素进行相似度算法评估,计算并圈定最为相近的元素为第二目标范围;
所述S20为用户选取所述第一目标范围内的任一元素,系统分析用户选取的元素可能包含的功能项并分别记录;
所述S31包括系统以选取的元素的同类元素为目标元素,检索第一目标范围和第二目标范围,且追溯是否存在历史范围确定操作所圈定的第三目标范围;
所述S32为系统完成目标元素的分析和检索后便圈定并展示目标元素所在的第一目标范围及部分第三目标范围。
进一步的,所述S32包括:
S321:根据数据结构模型评定目标数据在第一目标范围内的所有同类元素,记为元素集X,并进行范围框选展示及首末数据的标签高亮展示,用户可通过拖拉标签进行数据范围的确定与修正;
S322:根据数据结构模型评定目标数据在第三目标范围内的所有同类元素,记为元素集 Y,并进行范围框选展示及首末数据的标签高亮展示,用户可通过拖拉标签进行数据范围的确定与修正;
S323:提示用户进行第一数据范围确定,并提示操作方法,包括合并S41和42确定的数据范围,形成第一数据范围;
S324:用户确定第一数据范围;
S325:判断第一数据范围是否确定完成;若完成,则记录用户的范围确定操作,生成或优化该元素的第三目标范围,进而优化数据结构模型;若未完成,则提示用户可执行操作或操作选择,当用户再次确定第一数据范围后,生成或优化该元素的第三目标范围,进而优化数据结构模型。
进一步的,所述S40包括S41:智能评判第一数据范围内所有元素包含的可能性功能项或各种可能性操作结果,再将其进行归类及最大共性提炼;
S42:通过交互对话框进行展示并引导用户进行功能项选择操作的确认。
进一步的,还包括S50:当未满足用户对数据爬取的需求,或数据结构模型内仍存在与目标元素关联但未进行用户确认的历史范围确定操作所圈定的第三目标范围内容时,系统通过交互对话框对用户进行相应的引导操作,包括:
1、对已经构建过数据结构模型的网页进行历史相同操作事件的检索,并进行相关元素的推荐;
2、系统判断第一数据范围是否与网页的高级配置项相同,若相同,则通过交互式对话框向用户推荐对应的高级配置项,并生成对应的采集规则;
3、在对网站进行多列表或列表与字段兼容的数据采集时,系统通过互动对话框引导用户逐一完成各个列表的采集配置,同时数据结构模型自动分析用户所需的列表是否为同结构列表,是否能够合并,并引导用户进行列表关联或列表合并操作。
进一步的,还包括S60:记录同一个网站的数据结构模型在面向每个用户时,用户的所有确定操作,形成历史操作记录,并将此汇成相应的训练集来实现该网站的数据结构模型的自我迭代;通过自我迭代以及交互式的用户确认实现网站数据结构模型的迭代与网站的迭代同步,减少网站内容稍微变更就无法抓取之前配置的数据内容的情况。
进一步的,所述S20包括S21:智能搜索数据结构模型中保存的对目标数据的历史操作记录,推送用户是否进行相同操作
由上述对本发明的描述可知,和现有技术相比,本发明提出的一种互动式网页数据精确采集方法具有如下优点:
1、本方法关注用户体验感,提供更多的用户互动场景,通过互动,实现精确采集网页数据;
2、本方法与用户互动方式简便,降低了用户的技术门槛;
3、本方法采集不同用户对同一网页的操作,形成历史操作记录,历史操作记录能够用于给用户推送操作方案,也能够成为训练集,实现网页的数据结构模型的自我迭代。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
其中:
图1是本发明一种互动式网页数据精确采集方法的整体流程图;
图2是本发明一种互动式网页数据精确采集方法的网站结构模型创建流程图;
图3本发明一种互动式网页数据精确采集方法中有效数据范围确定以及网站结构模型自我学习流程图;
图4本发明一种互动式网页数据精确采集方法中凤凰网网页前端源码示意图一;
图5本发明一种互动式网页数据精确采集方法中凤凰网网页前端源码示意图二;
图6本发明一种互动式网页数据精确采集方法中第一目标范围及第二目标范围圈定交互示意图;
图7本发明一种互动式网页数据精确采集方法中目标范围合并完成示意图;
图8本发明一种互动式网页数据精确采集方法中第三目标范围数据提示示意图;
图9本发明一种互动式网页数据精确采集方法中引导用户进行目标范围扩大操作示意图;
图10本发明一种互动式网页数据精确采集方法中用户操作效果及操作提示示意图;
图11本发明一种互动式网页数据精确采集方法中进行目标数据可操作功能项提示示意图;
图12本发明一种互动式网页数据精确采集方法中工商信息各目标采集范围标识图示意图;
图13本发明一种互动式网页数据精确采集方法中字段数据内容范围标识与table表格关联效果展示图示意图;
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一:
请参阅图1,一种互动式网页数据精确采集方法,结合网页抓包技术与机器学习技术,步骤包括:
S10:确定目标网站并进行网站结构模型判断;
具体的,请参阅图2,包括对网站网页进行判断是否已经做数据结构模型构建,若未构建则进行网站网页数据抓包,获取渲染后的页面源码,分析页面源码后的各标签元素,并标注元素标签层级为A;再提取标签元素的样式属性,进行同样式属性的分类;再根据标注还原同样式属性所在层级,获取同层级同样式属性标签的父节点信息并标注为B,获取不同层级同样式属性标签的父节点信息并标注为C;
圈定标注为B的所有元素为第一目标范围;
对标注为C的所有元素进行相似度算法评估,计算并圈定最为相近的元素为第二目标范围;
S20:确定网页目标元素并进行模型分析;
即用户选取所述第一目标范围内的任一元素,系统分析用户选取的元素可能包含的功能项或操作项并分别记录,其元素可能包含的功能项或操作项包括但不局限于:是否可进行点击事件、是否可进行文本输入、是否存在url链接、是否含有InterHtml、OuterHtml、是否存在元素Value、是否可进行循环遍历等,系统与用户进行结果样例式互动,并进行“用户可操作内容”的提示;
S21:智能搜索数据结构模型中保存的对目标数据的历史操作记录,推送用户是否进行相同操作;
S30:智能评估有效数据范围并圈定展示;
S31:智能分析目标数据所在节点所属模块,关联页内同类模块,具体为系统以选取的元素的同类元素为目标元素,检索第一目标范围和第二目标范围,且追溯是否存在历史范围确定操作所圈定的第三目标范围。
S32:标识单页内目标元素的采集范围,通过圈定并展示目标元素所在的第一目标范围及部分第三目标范围,具体步骤请参阅图3,包括:
S321:根据数据结构模型评定目标数据在第一目标范围内的所有同类元素,记为元素集 X,并进行范围框选展示及首末数据的标签高亮展示,用户可通过拖拉标签进行数据范围的确定与修正;
S322:根据数据结构模型评定目标数据在第三目标范围内的所有同类元素,记为元素集 Y,并进行范围框选展示及首末数据的标签高亮展示,用户可通过拖拉标签进行数据范围的确定与修正;
S323:提示用户进行第一数据范围确定,并提示操作方法,包括合并S41和S42确定的数据范围,形成第一数据范围;
S324:用户确定第一数据范围;
S325:判断第一数据范围是否确定完成;若完成,则记录用户的范围确定操作,生成或优化该元素的第三目标范围,进而优化数据结构模型;若未完成,则提示用户可执行操作或操作选择,当用户再次确定第一数据范围后,生成或优化该元素的第三目标范围,进而优化数据结构模型。
需注意的是:
(1)元素集X和Y的内包含的网页元素不可存在包含关系,且两元素集进行分开展示;
(2)用户需确定框选内容是否已完全覆盖所需的数据采集范围,由互动对话框辅助实现;
(3)提示用户可执行操作及操作选择包括:点击和拖拉边框,具体视实际需要而定,若为分开列表的单字段元素的范围添加则采用点击操作;若为同列表的字段元素范围扩增则点击或拖拉边框均可操作;
(4)每个元素都根据用户的实际操作生成与操作相关的第三目标范围(多个),并根据用户的实际操作不断的优化第三目标范围以及其与第一目标范围的关联关系。
S40:判断采集范围内各元素存在事件,与用户进行互动确定,实现精确采集网页数据,即基于S30,对调整范围后的目标数据进行所有元素功能项的归类及同类功能项提取与提示,包括:
S41:智能评判第一数据范围内所有元素包含的可能性功能项或各种可能性操作结果,再将其进行归类及最大共性提炼;
S42:通过交互对话框进行展示并引导用户进行功能项选择操作的确认。
S50:当未满足用户对数据爬取的需求,或数据结构模型内仍存在与目标元素关联但未进行用户确认的历史范围确定操作所圈定的第三目标范围内容时,根据用户操作判断用户可能存在的需求元素并引导用户操作:
S51:检索模型历史雷同操作事件,并进行相关元素的推荐:对于系统已存在数据结构模型的网站,一般存有之前本用户或其他用户的操作数据,系统将判断用户需要采集的目标元素数据以及需要的数据功能是否再此之前有过同样的操作或包含了与该元素操作等同效果的其他元素操作,若有响应的操作,系统将通过交互对话框进行相应的推荐,并在页面配合框选对应的元素(单元素字段或元素列表)供用户进行是否同步采集的确认。
S52:需高级配置项(如需用户采用Xpath配置等)的判断与可选操作引导:用户每次执行完网站页面需要采集元素的确定后,系统将自动判断其实际目标范围是否存在页面下翻等其他高级配置需求,并通过交互对话框将其所需的高级配置项与用户进行确定,生成对应的采集规则。
S53:需多列表采集任务的支持与操作引导:处于某些特殊需求,用户可能对一些结构复杂的网站需要进行多列表或列表与字段兼容的数据采集,系统可以通过互动对话框引导用户逐一完成各个列表的采集配置,同时模型自动分析用户所需的列表是否为同结构列表,是否可做列表合并,并引导用户进行列表关联或列表合并操作,在实现非结构化数据结构化的同时最大化的还原用户需要的数据采集信息。
部分网站较为特殊的可能存在无法识别或模型分析异常的情况,系统可以根据实际情况反馈分析结构,并由用户主动发起协助构建/维护网站结构模型,一般情况下,出现网站无法识别或模型分析异常主要原因有:
1、目标网站已删除,无法根据链接再次打开网页;
2、目标网站维护升级,临时性对外关闭网站;
3、网络通讯异常,导致抓包数据丢失等。
S60:用户行为操作跟踪记录,实现网站结构模型训练与优化:记录同一个网站的数据结构模型在面向每个用户时,用户的所有确定操作,形成历史操作记录,并将此汇成相应的训练集来实现该网站的数据结构模型的自我迭代;通过自我迭代以及交互式的用户确认实现网站数据结构模型的迭代与网站的迭代同步,减少网站内容稍微变更就无法抓取之前配置的数据内容的情况。
本申请中,关于“对话方式与用户进行人机互动及需求挖掘”,如以上步骤所涉及的“交互对话框”是本方法里用于用户需求确定的操作入口工具,其创新点在于:
(1)根据用户的实际操作过程,结合数据结构模型分析出的元素相关项,进行注意事项通知;
(2)根据用户的实际操作步骤,结合模型智能分析、判断输出目标元素内可能存在的用户操作分支并给予提示与操作选择;
(3)根据用户的实际操作结果,结合模型历史存在的同类操作结果所关联的执行内容,进行优选推送;
(4)根据用户的实际操作需要,用户可以主动唤醒新的执行流程,或直接输入关键词获取帮助信息,其将引导用户进行相关操作。
(5)分解模型分析结果,对用户采集目标数据配置进行执行结果反馈,并引导用户完成相关采集规则的配置操作。
(6)通过对话引导用户实现采集数据的确认,系统记录还原互动对话关注内容并绘制其数据采集流程。
需要注意的是,本方法在用户实际数据采集流程的实现过程中视实际目标网站的模型构建情况及用户采集需要决定,可能重复执行图1流程的多个步骤或打乱其顺序执行步骤,可不必严格按图1的流程顺序执行。
实施例二:
本实施例在实施例一的基础上,以凤凰网数据采集为例,如下:
网站特点:
1、采用列表的方式罗列各新闻事件标题,虽页面存在多个列表块,但其结构大致相同;
2、面对用户展示的统一栏目中,却存在多列表块的处理,请参阅图4,若采用传统的提取同层级同类元素的方法进行数据采集,必定出现数据丢失的情况。
需求假设:
用户需采集图4中的“要闻”模块数据。
实现方案:
创建凤凰网数据结构模型,通过标签分析页面各元素的层级结构,以及所属的第一目标范围和关联的第二目标范围,如图4和5,标注为“块1-1”,“块1-2”,“块1-3”内的各元素圈起的目标范围为第一目标范围;“块1”,“块2”内各元素之间圈起的目标范围为第二目标范围。
假设用户确认采集的数据元素为“团结一心开创富民兴陇新局面”。
此时系统自动判断该元素所在的第一目标范围(块1-1),及第二目标范围(块1)并给予效果展示,如图6所示,用户进行点击确定目标数据范围后,系统进行目标数据范围合并,如图7所示。
系统检索目标采集元素是否存在第三目标范围,若无第三目标范围则与用户确定是否完成范围圈定,如图7所示。若存在第三目标范围则展示第三目标范围与用户确定是否同步采集,如图8所示。
用户确定当前的范围目标无法满足需要并进行操作选择后,提示用户如何进行目标范围扩大操作,如图9所示。
用户完成目标范围的扩大操作后,系统记录用户操作内容,进行目标数据范围合并,并生成或优化第三目标范围数据,其界面效果如10所示。
重复以上3-5步操作直至用户完全确定采集范围内容,同时根据用户操作的所有确定项,生成训练数据进行网页结构模型的优化。
实施例三
实施例在实施例一的基础上,以企查查网数据采集为例,如下:
网页特点
1、网站首页以搜索为主,一般用户关注的数据信息必须进行关键词的键入后才会跳转到相应的页面进行数据查看;
2、目标信息查询页的网页结构较为复杂,为多列表组合,同时列表内容格式差异巨大;
3、网站单字段数据信息与列表混合元素较多,精确目标定位上存在的难度较大。
需求假设:
用户需采集京东相关企业的工商信息、股东信息、成员信息、对外投资信息、经营状况及知识产权情况。
实现方案:
1、创建企查查网站结构模型后,确认企查查首页各元素的第一目标范围、第二目标范围以及各元素的可操作功能项,提示用户可进行的操作;
2、识别用户页面操作的元素选择点击以及文本输入事件,绘制用户操作流程,并进行网络数据抓包;
3、如图11所示,完成用户目标范围确定,系统进行目标范围元素的可操作功能项归类,并提取范围元素内相同的功能项进行操作功能确定,有以下注意事项:
A、若用户选择对目标范围内的其他元素进行相同操作,则系统会根据实际情况自动生成操作流程,进行目标范围内所有元素循环进行选择的操作功能执行;
B、若用户选择不对目标范围内的其他元素进行相同操作,则系统仅对用户操作的单个元素进行选择的操作功能执行。
4、进行元素点击后的页面分析,并确定用户的目标元素a(如“工商信息”中的“法定代表人”),其根据模型以及用户操作后分析结果,如图12所示,以下详细说明:
A、图中红色区域(法定代表人)的字段为模型分析出来的第一目标范围,橙色区域的字段(“注册资本”、“实缴资本”)为模型分析出来的第二目标范围,绿色区域的字段(“经营状态”、“成立日期”等)为用户新增的第三目标范围,其为用户点击或拖拉边框所确定的单目标元素所在第一目标范围的所有元素;
B、该步操作仅完成了工商信息基础字段的采集,并未进行工商信息表中基础字段数据内容的采集。根据互动对话框进行该部分采集设置的保存,在此暂定保存采集列表的名字为:列表 1。
5、用户确定采集的目标元素b(如“工商信息”中的“开业”),系统根据模型以及用户操作后分析结果完成工商信息表中基础字段数据内容的采集确定,暂命名为:列表2。
系统根据网页结构模型可判定目标元素a所确定的目标数据范围与目标元素b所确定的目标数据范围在同一table标签下,且存在相同层级关系,系统提示用户是否进行元素关联合并,其相关操作展示效果如图13所示,系统记录用户的操作选择并生成对应的执行流程。
6、采用相同的办法完成本案例需求假设中的股东信息、成员信息、对外投资信息、经营状况及知识产权情况的数据字段采集,并根据网页层级结构判断完成各个列表间的数据关联。
7、以上4-6的全部操作可完成一个完整单元元素点击事件后的所有字段采集设置以及关联展示。若在操作3中选择对目标范围内的其他元素进行相同操作时,系统将自动提示是否复用定义的字段项并填充相关数据,选择为“是”时,系统将在各个字段下插入各元素的对应数据并完成关联。
8、以上所有的用户确定结果的操作项,系统将进行记录并生成训练集,用户网页结构模型训练,实现模型的自我学习及迭代。
由上述对本发明的描述可知,和现有技术相比,本发明提出的一种互动式网页数据精确采集方法具有如下优点:
1、本方法关注用户体验感,提供更多的用户互动场景,通过互动,实现精确采集网页数据;
2、本方法与用户互动方式简便,降低了用户的技术门槛;
3、本方法采集不同用户对同一网页的操作,形成历史操作记录,历史操作记录能够用于给用户推送操作方案,也能够成为训练集,实现网页的数据结构模型的自我迭代。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

Claims (9)

1.一种互动式网页数据精确采集方法,结合网页抓包技术与机器学习技术,其特征在于,
S10:对目标数据的网站网页进行数据结构模型建立;
S20:确定网页目标元素并进行模型分析;
S30:智能评估有效数据范围并圈定展示;
S40:判断采集范围内各元素存在事件,与用户进行互动确定。
2.根据权利要求1所述的一种互动式网页数据精确采集方法,其特征在于,所述S30包括:
S31:智能分析目标数据所在节点所属模块,关联页内同类模块;
S32:标识单页内目标元素的采集范围。
3.根据权利要求2所述的一种互动式网页数据精确采集方法,其特征在于,所述S10包括对网站网页进行结构分析,提取各元素标签的样式属性并进行多维度的组合分类,再对分类进行相似度评定。
4.根据权利要求3所述的一种互动式网页数据精确采集方法,其特征在于,所述S10具体包括对网站网页进行判断是否已经做数据结构模型构建,若未构建则进行网站网页数据抓包,获取渲染后的页面源码,分析页面源码后的各标签元素,并标注元素标签层级为A;再提取标签元素的样式属性,进行同样式属性的分类;再根据标注还原同样式属性所在层级,获取同层级同样式属性标签的父节点信息并标注为B,获取不同层级同样式属性标签的父节点信息并标注为C;
圈定标注为B的所有元素为第一目标范围;
对标注为C的所有元素进行相似度算法评估,计算并圈定最为相近的元素为第二目标范围;
所述S20为用户选取所述第一目标范围内的任一元素,系统分析用户选取的元素可能包含的功能项并分别记录;
所述S31为系统以选取的元素的同类元素为目标元素,检索第一目标范围和第二目标范围,且追溯是否存在历史范围确定操作所圈定的第三目标范围;
所述S32为系统完成目标元素的分析和检索后便圈定并展示目标元素所在的第一目标范围及部分第三目标范围。
5.根据权利要求4所述的一种互动式网页数据精确采集方法,其特征在于,所述S32包括:
S321:根据数据结构模型评定目标数据在第一目标范围内的所有同类元素,记为元素集X,并进行范围框选展示及首末数据的标签高亮展示,用户可通过拖拉标签进行数据范围的确定与修正;
S322:根据数据结构模型评定目标数据在第三目标范围内的所有同类元素,记为元素集Y,并进行范围框选展示及首末数据的标签高亮展示,用户可通过拖拉标签进行数据范围的确定与修正;
S323:提示用户进行第一数据范围确定,并提示操作方法;
S324:用户确定第一数据范围;
S325:判断第一数据范围是否确定完成;若完成,则记录用户的范围确定操作,生成或优化该元素的第三目标范围,进而优化数据结构模型;若未完成,则提示用户可执行操作或操作选择,当用户再次确定第一数据范围后,生成或优化该元素的第三目标范围,进而优化数据结构模型。
6.根据权利要求5所述的一种互动式网页数据精确采集方法,其特征在于,所述S40包括S41:智能评判第一数据范围内所有元素包含的可能性功能项或各种可能性操作结果,再将其进行归类及最大共性提炼;
S42:通过交互对话框进行展示并引导用户进行功能项选择操作的确认。
7.根据权利要求6所述的一种互动式网页数据精确采集方法,其特征在于,还包括S50:当未满足用户对数据爬取的需求,或数据结构模型内仍存在与目标元素关联但未进行用户确认的历史范围确定操作所圈定的第三目标范围内容时,系统通过交互对话框对用户进行相应的引导操作,包括:
对已经构建过数据结构模型的网页进行历史相同操作事件的检索,并进行相关元素的推荐;
系统判断第一数据范围是否与网页的高级配置项相同,若相同,则通过交互式对话框向用户推荐对应的高级配置项,并生成对应的采集规则;
在对网站进行多列表或列表与字段兼容的数据采集时,系统通过互动对话框引导用户逐一完成各个列表的采集配置,同时数据结构模型自动分析用户所需的列表是否为同结构列表,是否能够合并,并引导用户进行列表关联或列表合并操作。
8.根据权利要求1或7所述的一种互动式网页数据精确采集方法,其特征在于,还包括S60:记录同一个网站的数据结构模型在面向每个用户时,用户的所有确定操作,形成历史操作记录,并将此汇成相应的训练集来实现该网站的数据结构模型的自我迭代;通过自我迭代以及交互式的用户确认实现网站数据结构模型的迭代与网站的迭代同步,减少网站内容稍微变更就无法抓取之前配置的数据内容的情况。
9.根据权利要求8所述的一种互动式网页数据精确采集方法,其特征在于,所述S20包括S21:智能搜索数据结构模型中保存的对目标数据的历史操作记录,推送用户是否进行相同操作。
CN201910940348.1A 2019-09-30 2019-09-30 一种互动式网页数据精确采集方法 Active CN112579852B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910940348.1A CN112579852B (zh) 2019-09-30 2019-09-30 一种互动式网页数据精确采集方法
PCT/CN2020/086220 WO2021062996A1 (zh) 2019-09-30 2020-04-22 一种互动式网页数据精确采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910940348.1A CN112579852B (zh) 2019-09-30 2019-09-30 一种互动式网页数据精确采集方法

Publications (2)

Publication Number Publication Date
CN112579852A true CN112579852A (zh) 2021-03-30
CN112579852B CN112579852B (zh) 2023-01-10

Family

ID=75116214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910940348.1A Active CN112579852B (zh) 2019-09-30 2019-09-30 一种互动式网页数据精确采集方法

Country Status (2)

Country Link
CN (1) CN112579852B (zh)
WO (1) WO2021062996A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722640A (zh) * 2021-08-26 2021-11-30 长沙博为软件技术股份有限公司 一种基于rpa的网页可配置项的采集方法、装置及介质
CN113821757A (zh) * 2021-11-25 2021-12-21 山东捷瑞数字科技股份有限公司 一种基于cms的快速建站方法及建站系统
CN114168832A (zh) * 2021-11-17 2022-03-11 中国人民解放军国防科技大学 一种面向推荐平台的rpa数据采集方法
CN115062206A (zh) * 2022-05-30 2022-09-16 上海弘玑信息技术有限公司 一种网页元素的搜索方法和电子设备
CN116244161A (zh) * 2023-05-12 2023-06-09 山东齐鲁壹点传媒有限公司 一种基于深度模拟操作的数据采集方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114237460B (zh) * 2021-10-14 2024-01-30 北京淘友天下科技发展有限公司 标签显示方法、装置、终端、存储介质及计算机程序产品
CN114691265A (zh) * 2022-03-07 2022-07-01 达而观信息科技(上海)有限公司 一种软件界面结构化元素的批量抓取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090019372A1 (en) * 2007-07-10 2009-01-15 Danae Candace Chu Framework for persistent user interactions within web-pages
CN103020286A (zh) * 2012-12-27 2013-04-03 上海交通大学 基于排名网站的互联网排行榜抓取系统
CN106775611A (zh) * 2016-09-05 2017-05-31 中国人民财产保险股份有限公司 基于机器学习的自适应动态网页爬虫系统的实现方法
CN106874495A (zh) * 2017-02-23 2017-06-20 山东浪潮云服务信息科技有限公司 基于机器学习建模抽取网页结构的方法
CN107729475A (zh) * 2017-10-16 2018-02-23 深圳视界信息技术有限公司 网页元素采集方法、装置、终端与计算机可读存储介质
CN109829092A (zh) * 2018-12-26 2019-05-31 厦门邑通软件科技有限公司 一种对网页进行定向监测的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765236B2 (en) * 2007-08-31 2010-07-27 Microsoft Corporation Extracting data content items using template matching
CN102043862B (zh) * 2010-12-29 2012-10-17 重庆新媒农信科技有限公司 网页数据定向抓取方法
CN103279567A (zh) * 2013-06-18 2013-09-04 重庆邮电大学 一种基于AJAX的Web数据采集方法及系统
CN104699797B (zh) * 2015-03-18 2018-02-23 浪潮集团有限公司 一种网页数据结构化解析方法和装置
US10521497B2 (en) * 2017-10-10 2019-12-31 Adobe Inc. Maintaining semantic information in document conversion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090019372A1 (en) * 2007-07-10 2009-01-15 Danae Candace Chu Framework for persistent user interactions within web-pages
CN103020286A (zh) * 2012-12-27 2013-04-03 上海交通大学 基于排名网站的互联网排行榜抓取系统
CN106775611A (zh) * 2016-09-05 2017-05-31 中国人民财产保险股份有限公司 基于机器学习的自适应动态网页爬虫系统的实现方法
CN106874495A (zh) * 2017-02-23 2017-06-20 山东浪潮云服务信息科技有限公司 基于机器学习建模抽取网页结构的方法
CN107729475A (zh) * 2017-10-16 2018-02-23 深圳视界信息技术有限公司 网页元素采集方法、装置、终端与计算机可读存储介质
CN109829092A (zh) * 2018-12-26 2019-05-31 厦门邑通软件科技有限公司 一种对网页进行定向监测的方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722640A (zh) * 2021-08-26 2021-11-30 长沙博为软件技术股份有限公司 一种基于rpa的网页可配置项的采集方法、装置及介质
CN114168832A (zh) * 2021-11-17 2022-03-11 中国人民解放军国防科技大学 一种面向推荐平台的rpa数据采集方法
CN114168832B (zh) * 2021-11-17 2022-05-27 中国人民解放军国防科技大学 一种面向推荐平台的rpa数据采集方法
CN113821757A (zh) * 2021-11-25 2021-12-21 山东捷瑞数字科技股份有限公司 一种基于cms的快速建站方法及建站系统
CN113821757B (zh) * 2021-11-25 2022-02-22 山东捷瑞数字科技股份有限公司 一种基于cms的快速建站方法及建站系统
CN115062206A (zh) * 2022-05-30 2022-09-16 上海弘玑信息技术有限公司 一种网页元素的搜索方法和电子设备
CN115062206B (zh) * 2022-05-30 2023-04-07 上海弘玑信息技术有限公司 一种网页元素的搜索方法和电子设备
CN116244161A (zh) * 2023-05-12 2023-06-09 山东齐鲁壹点传媒有限公司 一种基于深度模拟操作的数据采集方法
CN116244161B (zh) * 2023-05-12 2023-08-11 山东齐鲁壹点传媒有限公司 一种基于深度模拟操作的数据采集方法

Also Published As

Publication number Publication date
WO2021062996A1 (zh) 2021-04-08
CN112579852B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
CN112579852B (zh) 一种互动式网页数据精确采集方法
Diba et al. Extraction, correlation, and abstraction of event data for process mining
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN111708774B (zh) 一种基于大数据的产业分析系统
US20150269138A1 (en) Publication Scope Visualization and Analysis
US8260772B2 (en) Apparatus and method for displaying documents relevant to the content of a website
CN105893574B (zh) 一种数据处理方法及电子设备
CN112445894A (zh) 基于人工智能的商务智能系统及其分析方法
CN111191429A (zh) 数据表格自动填充的系统和方法
CN111143370B (zh) 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质
US8615733B2 (en) Building a component to display documents relevant to the content of a website
CN109918626A (zh) 一种创业投融资服务系统
CN109636303B (zh) 一种半自动提取和结构化文档信息的存储方法及系统
US20140280150A1 (en) Multi-source contextual information item grouping for document analysis
CN114528477A (zh) 面向科研应用的自动机器学习实现方法、平台及装置
CN116484084B (zh) 基于应用信息挖掘的元数据血缘分析方法、介质及系统
US20120271789A1 (en) Apparatus and method for prediction development speed of technology
CN111859108A (zh) 一种舆情系统搜索词推荐系统
KR102586580B1 (ko) 자연어처리 인공지능 언어 모델을 이용한 뉴스 편집 업무 지원 시스템
CN108132940B (zh) 一种应用程序数据提取方法及装置
CN115438995A (zh) 一种基于知识图谱的服装定制企业的业务处理方法及设备
CN111459365B (zh) 自定义咨询帮助应用管理办法
CN101425061B (zh) 概念关联网络的数据标签建构方法与系统
US20130325531A1 (en) Business case development by dynamically reusing business case components
CN113342844A (zh) 工业智能搜索系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 361000 one of unit 702, No. 1, xishanwei Road, phase III Software Park, Xiamen Torch High tech Zone, Xiamen, Fujian Province

Applicant after: Xiamen Yitong Intelligent Technology Group Co.,Ltd.

Address before: 361000 no.0269, unit 109, 62 Chengyi North Street, phase III, software park, Xiamen City, Fujian Province

Applicant before: XIAMEN ETOM SOFTWARE TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An interactive method for precise data collection on web pages

Granted publication date: 20230110

Pledgee: Agricultural Bank of China Limited Xiamen Lianqian Branch

Pledgor: Xiamen Yitong Intelligent Technology Group Co.,Ltd.

Registration number: Y2024980004722

PE01 Entry into force of the registration of the contract for pledge of patent right