CN115344571B - 通用型数据采集解析方法、系统和存储介质 - Google Patents

通用型数据采集解析方法、系统和存储介质 Download PDF

Info

Publication number
CN115344571B
CN115344571B CN202210557250.XA CN202210557250A CN115344571B CN 115344571 B CN115344571 B CN 115344571B CN 202210557250 A CN202210557250 A CN 202210557250A CN 115344571 B CN115344571 B CN 115344571B
Authority
CN
China
Prior art keywords
acquisition
collection
data
template
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210557250.XA
Other languages
English (en)
Other versions
CN115344571A (zh
Inventor
马瑞礼
范红亮
尹东伟
张文强
马永乐
刘晓峰
杨勇
廖宛玲
李琪
丁红霞
李靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingwei Jingwei Information Technology Beijing Co ltd
Original Assignee
Jingwei Jingwei Information Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingwei Jingwei Information Technology Beijing Co ltd filed Critical Jingwei Jingwei Information Technology Beijing Co ltd
Priority to CN202210557250.XA priority Critical patent/CN115344571B/zh
Publication of CN115344571A publication Critical patent/CN115344571A/zh
Application granted granted Critical
Publication of CN115344571B publication Critical patent/CN115344571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种通用型数据采集解析方法、系统和存储介质。该方法包括:配置采集源表单,采集源表单中列有至少一个采集源;为采集源配置采集模板;配置标题模板;根据标题模板创建数据存储表,数据存储表中具有多个采集字段;根据标题模板对页面进行解析,并将获得的解析结果数据存入数据存储表;根据预设查询字段查询数据存储表中是否有与解析结果数据相同的数据,如果没有,则新建一条与解析结果数据对应的采集记录并将采集记录标记为最新版本,如果有,则生成解析结果数据对应的采集记录并比较采集记录与之前的采集记录是否一致,如果不一致,将之前的采集记录标记为历史版本,并新增一条采集记录,以及将新增的采集记录标记为最新版本。

Description

通用型数据采集解析方法、系统和存储介质
技术领域
本发明涉及网页数据采集技术,具体而言,涉及一种通用型数据采集解析方法、系统和存储介质。
背景技术
目前,对于网页中的数据采集,市面上已经有很多通用采集软件,其实现方法基本上都是加载页面,然后通过可视化选择需要解析的字段,然后设置采集规则以及分页规则等,生成采集模板,然后再开始进行采集和解析,最后直接存入数据库或者生成结构化文件(结构化文件的格式一般为excel/xml/json等)。
以上现有通用采集软件中,可视化选择需要解析的字段一般采用标签提取、xpath提取等方法。标签提取法是根据用户在可视化页面上选择的内容,取得该内容在网页上的标签,然后通过解析网页获得这个标签取得数据。xpath提取法是根据用户在可视化页面上选择的内容,取得该内容在网页上的xpath路径,然后通过解析网页获得这个xpath取得数据。
标签提取方法和xpath提取方法都需要为每个采集源配置一个模板。当采集源多时,会出现维护困难并且效率较低的明显弊端。
发明内容
本发明提供一种通用型数据采集解析方法、系统和存储介质,用于解决上述现有技术中存在的至少一个问题。
本发明提供了一种通用型数据采集解析方法,包括:
配置采集源表单,其中,所述采集源表单中列有至少一个采集源;
为所述采集源配置采集模板;
配置标题模板;
根据所述标题模板创建数据存储表,其中,所述数据存储表中具有多个采集字段;
根据所述标题模板对页面进行解析,并将获得的解析结果数据存入数据存储表;
根据预设查询字段查询数据存储表中是否有与所述解析结果数据相同的数据,如果没有,则新建一条与所述解析结果数据对应的采集记录并将所述采集记录标记为最新版本,如果有,则生成所述解析结果数据对应的采集记录并比较所述采集记录与之前的采集记录是否一致,如果不一致,将之前的采集记录标记为历史版本,并新增一条采集记录,以及将新增的采集记录标记为最新版本。
在本发明的一实施例中,每一采集源具有与所述采集源对应的网址以及请求方式,
所述采集模板包括至少以下一个参数:采集数据列表范围、分页规则、采集周期以及采集页数。
在本发明的一实施例中,通用型数据采集解析方法还包括采集日志生成步骤,所述采集日志生成步骤中,生成的采集日志至少包括以下一个参数:当前采集任务名称、批次号、采集开始时间、采集结束时间、进行状态、本次采集数据量、本次新增数据量以及本次修改数据量。
在本发明的一实施例中,通用型数据采集解析方法还包括解析状态通知步骤:实时采集解析状态信息并发送至预设的信息收集端。
在本发明的一实施例中,信息收集端为电子信息空间或电子信息端口,其中,所述电子信息空间为电子邮箱,所述电子信息端口为应用程序中的消息接收端口。
在本发明的一实施例中,所述标题模板至少包含以下一个字段:序号、标题、时间、发布人、正文、摘要字段、标题名称、标题别名、清洗规则以及加工规则,
所述多个采集字段至少包括以下之一:ID、标题、作者、发布时间、摘要,正文、url地址、数据新增时间、数据修改时间、MD5加密字段以及数据版本。
在本发明的一实施例中,选取其中至少一个采集字段作为查询字段,将选取的采集字段中的标题、作者、发布时间、摘要,正文、url地址进行拼接,以生成MD5加密字段,所述查询字段为url地址、标题、作者以及发布时间的组合。
在本发明的一实施例中,所述通用型数据采集解析方法由至少一服务器执行,所述至少一服务器由统一调度中心分发采集任务分包,所述至少一服务器为基于多线程的服务器并且为集群分布式部署。
本发明还提供一种通用型数据采集解析系统,其包括:
采集源表单配置模块,用于配置采集源表单,所述采集源表单至少列有一个采集源二
采集模板配置模块,用于为每一采集源配置一采集模板;
标题模板配置模块,用于配置标题模板;
采集字段预设模块,用于根据标题模板创建数据存储表,数据存储表中具有多个采集字段二
解析模块,用于根据标题模板对页面进行解析,并将获得的解析结果数据存入数据存储表;
采集记录生成模块,配置为执行以下操作:设定一查询字段,查询数据存储表中是否有与该解析结果数据相同的数据,如果没有,则新建一条与该解析结果数据对应的采集记录并将该采集记录标记为最新版本,如果有,则生成该解析结果数据对应的采集记录并比较该采集记录与之前的采集记录是否一致,如果不一致则将之前的采集记录标记为历史版本,并新增一条采集记录,以及将新增的采集记录标记为最新版本。
本发明又提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的通用型数据采集解析方法。
本发明提供的通用型数据采集解析方法、系统和存储介质通过简单的配置标题模板和采集源,即可实现目标数据的采集,大大降低了开发的成本。并且可以于标题模板中配置清洗和加工等规则,直接将数据转换为可用数据,极大的提高了效率。
附图说明
图1为本发明一实施例的通用型数据采集解析方法的流程图;
图2为采集源表单的示意图;
图3和图4为本申请可选实施例中的采集日志中各个参数的示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一实施例:
随着社会的发展和互联网的日益普及,大众获取外界信息的渠道也从传统的纸质媒体转为互联网媒体,互联网通过网页呈现图文信息,不仅呈现内容更丰富、生动、灵活,还具有时效性强、传播速度快的特点。舆情监督、行业信息跟踪等主要是通过对以互联网为传播媒介的信息进行提取而实现的,互联网每天通过网页呈现的信息数量是海量的,若通过人工的方式从海量的数据中提取用户关注的信息,不仅需要相当多的人力投入,而且极其容易造成遗漏,显然人工方式不可取。
现有技术虽然也能够通过非人工的方式从网页中提取用户关注的信息,例如已经被使用的标签提取方法和xpath提取方法,但是,标签提取方法和xpath提取方法都需要为每个采集源配置一个模板。当采集源多时,会出现维护困难并且效率较低的明显弊端。
本发明是用于对网页中的信息进行自动化采集,通过将预设的模板应用在可视化网页中,实现对网页中用户关心的信息的自动化采集,提高采集效率、采集准确性和采集全面性,同时降低人力成本投入。具体应用场景,例如可以用于采集网页中的用户关注的产业或领域中的时事新闻、政府官方发布的某些特定的政策等,抽取出网页中包含的标题、时间、来源或者发布人、摘要、正文等信息,以便用户做进一步的判断,于采集过程中生成日志,便于回溯采集的每一过程。
图1为本发明一实施例的通用型数据采集解析方法的流程图,该方法在执行时由统一的调度中心进行管理,如图1所示,本发明提供的一种通用型数据采集解析方法,包括:
10:配置采集源表单,采集源表单中列有至少一个采集源;
11:为采集源配置采集模板二
12:配置标题模板二
13:根据标题模板创建数据存储表,数据存储表中具有多个采集字段;
14:根据标题模板对页面进行解析,并将获得的解析结果数据存入数据存储表二
15:根据预设查询字段查询数据存储表中是否有与解析结果数据相同的数据,如果没有,则新建一条与解析结果数据对应的采集记录并将采集记录标记为最新版本,如果有,则生成解析结果数据对应的采集记录并比较采集记录与之前的采集记录是否一致,如果不一致,将之前的采集记录标记为历史版本,并新增一条采集记录,以及将新增的采集记录标记为最新版本。
图2为采集源表单的示意图,本实施例中,步骤10中提到采集源,因本发明的采集对象是网页,故采集源表单可以理解为至少包含网页对应的网址的列表,每一采集源具有与采集源对应的网址以及请求方式,网址即因特网上网页的地址,每一网页具有唯一的网址。实际实施时,用户根据自身行业经验和前期调研工作的总结,在采集源表单中列出关心的信息可能出现的网址,显然,此处列出的网址越多、越全面,则用户所采集到的信息也就越全面,遗漏有用信息的可能性就越低。出于采集时效性的考虑,优先将权威度高,信息发布及时的网址列入采集源表单中,对于某些权威度或可信度不高,信息发布滞后的网址,可以不将其列入采集源表单中。另外,用户可以根据工作中的实际状况和变化,随时于采集源表单中新增网址,当然,也可以随时从采集源表单中删除不需要或不重要的网址,以提高信息采集的质量,减少资源浪费。
本实施例中,步骤11中提到采集模板,每一网页均需配置一采集模板,采集模板包括至少以下一个参数:采集数据列表范围、分页规则、采集周期以及采集页数。采集模板与采集源对应,采集源即网页。以下以人民网食品板块这一网页(网址为http://shipin.people.com.cn/GB/395905/index.html)为例,说明采集模板中的每一参数的具体所指。
采集数据列表范围:使用元素浏览工具打开页面源码,获取页面源码中有效数据范围的xpath路径,得到页面中的采集数据列表范围。
分页规则:将″点击下一页″,或者″调用下一页对应的JavaScript函数″作为分页规则。
采集周期:默认为空。采集周期即为采集频率,根据用户对采集源的实际关注度进行调整。一般来说,用户关注度越高、时效性越强、更新频率越快的采集数据,则将采集周期设置的越短,例如将采集周期设置为10分钟或几个小时,亦或更短。如果用户对于采集数据的时效性要求不高、采集源更新频率较低或用户对采集源关注较低,则可以将采集周期设置的长一些,例如设置为一周或一个月甚至更长时间,以节省采集服务器资源。当然,用户在实践中可以根据实际需要调节采集周期的长短,甚至对于同一采集源,在不同的之间,可以设置不同的采集周期,以满足实际需要。
采集页数:默认为空,初次采集数据时,默认采集全量数据,即获取采集源中包含的所有的数据。对于大多数采集源来说,均是采集全量数据。由于本发明中采集数据最终的目的是收集数据,并运用恰当的分析方法从中提炼可用的信息,进而深入挖掘出数据隐藏的价值。因此,在最初的数据采集阶段,数据越多、越准确、数据的质量就越高,就越有利于挖掘出有用的价值。
采集程序设定为一直会自动寻找下一页,直到下一页不可点击为止,采集程序结束,此时完成全量数据采集工作。
在其他实施例中,如果采集源被设定为仅有前几页包含高质量数据或重要程度高的数据,而后续页中包含的数据质量较低或重要程度不高,则可以将采集页数设置为前几页而非全部页,以降低采集数据所耗费的成本。
在其他实施例中,全量采集完成后,增量采集时可以设定采集页数。因为无法预测采集源什么时候更新数据以及每次更新多少条数据。所以本发明根据全量数据的发布时间来预测和计算每个采集周期内会发布多少条数据。如采集频率为1天,采集源一页显示20条数据。如果采集源一天发布的数据为10条左右,这样一来,本发明在增量采集的时候,只采集一页就可以,即采集的是之前未采集的数据,已采集过的不再重复采集。如果采集源一天发布的数据为30条左右,本发明则只需要采集前两页,依次类推。极限情况下,采集源每日更新数据不固定,并且采集源的数据也不是按照发布时间进行排序展示,那就只能进行全量数据采集才能补充增量数据。
在其他实施例中,除了以上列出的参数以外,采集模板还可以包括其他自定义的参数,视具体采集需要而定,采集模板中由哪些参数组成,参数的顺序均可以调整,不以本实施例为限。
在其他实施例中,本发明提供的通用型数据采集解析方法还包括采集日志生成步骤,该步骤从数据采集开始直至数据采集任务全部结束,用于记录数据采集过程中的重要参数信息,以便于事后回溯数据采集的实际情况,采集日志生成步骤中,生成的采集日志至少包括以下一个参数:当前采集任务名称、批次号、采集开始时间、采集结束时间、进行状态、本次采集数据量、本次新增数据量以及本次修改数据量。以下说明本实施例中采集日志的各个参数的具体含义。
当前采集任务名称:自动提取页面title+时间戳为任务名称。如果没有title或者title为空时,则用url地址+时间戳作为任务名称。
批次号:调度中心生成批次,批次号具有保障全局唯一序列的特性。
采集开始时间:任务开始时,调度中心服务器时间。
采集结束时间:任务结束时,调度中心服务器时间。
进行状态:0:进行中;1:已完成;-1:异常。
本次采集数据量:本批次采集任务采集的数据总量。
本次新增数据量:本批次采集任务的数据中,根据查询字段新增的数据量(即该查询字段在数据中第一次出现)。
本次修改数据量:本批次采集任务的数据中,根据查询字段修改的数据量(即该查询字段在数据中第二次及以上出现)。
如图3和图4所示,提供了本申请可选实施例中的一种生成的采集日志的数据,包括:总量(本次采集数据量)、采集量、解析量、增量、修改量、离开量、异常量、开始时间、采集耗时、解析耗时、结果、文件传输状态、负责人等,其中包括了采集日志的参数信息,也包括采集日志中解析信息的参数。
本实施例中,步骤14根据标题模板对页面进行解析,并将获得的解析结果数据存入数据存储表的过程中,例如可以利用AI训练模型自动对页面进行解析。
在其他实施例中,本发明提供的通用型数据采集解析方法还包括解析状态通知步骤:实时采集解析状态信息并发送至预设的信息收集端,此处提及的信息收集端从广义上可以理解为电子信息空间或电子信息端口,具体实施时,电子信息空间例如可以为电子邮箱,电子信息端口可以为应用程序中的消息接收端口,例如微信、钉钉等常用个人APP的消息接收端口,解析状态信息通过微信、钉钉等实时接收,便于管理者实时掌控采集过程的运行状态,尤其是解析中遇到的问题可以及时发消息进行提醒和预警,任务完成时也便于通知。
本实施例中,标题模板至少包含以下一个字段:序号、标题、时间、发布人、正文、摘要字段、标题名称、标题别名、清洗规则以及加工规则,本实施例中,清洗规则和加工规则默认不开启,保留采集原始值。
其他实施例中,常见的清洗规则例如大小写转换、首字母大写、特殊符号处理、中间连续多个空格替换为一个空格等,常见的加工规则例如字段拆分,字段合并等。采集完成后,需要对数据进行初步加工,才能对数据进行分析。举个例子说明清洗规则:由于展示习惯或展示场景的差别,辉瑞公司(PFIZER INC)这一企业名称在不同的数据中,呈现方式不完全相同。例如,有的显示为PFIZER INC,有的显示为pfizer inc,有的显示为Pfizer Inc,有的显示为pfizer inc,也就是说,同一所指采用了不同的数据呈现方式,此时,如果直接用这种呈现方式不完全相同的数据进行分析,很明显数据不准确,从而及其容易导致分析结果有误。本发明通过简单的清洗规则可以将上述不同的呈现方式统一成Pfizer Inc。数据处理后,再进行分析会使结果变得更加准确。其他的清洗规则和加工规则也是基于同样的目的,由此可见,清洗规则和加工规则的作用是将数据初步标准化,降低后续处理过程中产生误差或错误的可能性。
本实施例中,多个采集字段至少包括以下之一:ID、标题、作者、发布时间、摘要,正文、url地址、数据新增时间、数据修改时间、MD5加密字段以及数据版本,业务主键为url地址、标题、作者以及发布时间的组合,其中,数据新增时间为系统当前时间,数据修改时间为系统当前时间。本实施例选取其中至少一个采集字段作为查询字段,查询字段例如为url地址、标题、作者以及发布时间的组合,将查询字段作为区分步骤15中是否有与该解析结果数据相同的数据的依据。一般情况而言,应选取采集字段中的几个主要能体现网页信息的字段,将其作为查询字段,在其他实施例中,可以视具体情况设置查询字段。
本实施例中,步骤15中,将选取的采集字段中的标题、作者、发布时间、摘要,正文、url地址进行拼接,以生成MD5加密字段。
本实施例中,步骤15中,″如果不一致则将之前的采集记录标记为历史版本″,此处,将之前的采集记录标记为历史版本是将之前的采集记录的版本修改为0,以标示该版本为历史版本。在其他实施例中,也可以通过其他方式标识原始版本,凡是能将版本区分开来的标识方式均可采用,不以本实施例为限。
本实施例的通用型数据采集解析方法由至少一服务器执行,至少一服务器由统一调度中心分发采集任务分包,以及,至少一服务器为基于多线程的服务器并且为集群分布式部署。
使用单一服务器部署运行的优点和缺点分别如下:
优点:
1.部署结构简单。
2.数据及系统容易维护。
缺点:
1.采集任务较多时,响应速度会变慢,对服务器配置要求较高。
2.网络带宽限制。每台服务器网络带宽是有限制的,达到上限即无法再提速。
3.IP限制。越来越多的网站在部署的时候会限制同一IP单位时间内访问的次数。如果超过该次数,则该IP会被列入黑名单,无法正常访问该网站。
本发明使用分布式部署的优点如下:
1.单台服务器的部署很容易达到上限。分布式部署时,相当于把一个任务分配给多个服务器同时去做采集。对服务器配置要求不高。服务器越多,采集速度越快,效率越高。相当于使用服务器资源换取时间。
2.扩展性好,采集任务多时,增加服务器;采集任务少时,释放服务器。
3.IP限制。减少每个IP单位时间内访问网站的次数,可以较大程度上避免该IP被列入黑名单。使用多台服务器(分别对应不同的IP)同时访问该网站,可以在单位时间内访问更多的次数,从而减少采集时间。
第二实施例:
本发明还提供了一种通用型数据采集解析系统,包括:
采集源表单配置模块,用于配置采集源表单,采集源表单至少列有一个采集源;
采集模板配置模块,用于为每一采集源配置一采集模板;
标题模板配置模块,用于配置标题模板;
采集字段预设模块,用于根据标题模板创建数据存储表,数据存储表中具有多个采集字段;
解析模块,用于根据标题模板对页面进行解析,并将获得的解析结果数据存入数据存储表;
采集记录生成模块,配置为执行以下操作:设定一查询字段,查询数据存储表中是否有与该解析结果数据相同的数据,如果没有,则新建一条与该解析结果数据对应的采集记录并将该采集记录标记为最新版本,如果有,则生成该解析结果数据对应的采集记录并比较该采集记录与之前的采集记录是否一致,如果不一致则将之前的采集记录标记为历史版本,并新增一条采集记录,以及将新增的采集记录标记为最新版本。
采集源表单生成模块生成的采集源表单至少列有一个采集源,每一采集源具有与其对应的网址以及请求方式。
常见的请求方式有两种:get请求和post请求。
最直观的区别就是get请求方式是把参数包含在url中,post请求方式是通过request body传递参数。这两种请求方式对于本领域技术人员而言均为常用技术手段,在此不予赘述。
采集模板配置模块为每一采集源配置的采集模板包括至少以下一个参数:采集数据列表范围、分页规则、采集周期以及采集页数。
标题模板配置模块配置的标题模板至少包含以下一个字段:序号、标题、时间、发布人、正文、摘要字段、标题名称、标题别名、清洗规则以及加工规则。
采集字段预设模块根据标题模板创建数据存储表,数据存储表中具有多个采集字段,多个采集字段至少包括以下之一:ID、标题、作者、发布时间、摘要,正文、url地址、数据新增时间、数据修改时间、MD5加密字段以及数据版本,其中,可以选取其中至少一个采集字段作为查询字段,例如可以设定查询字段为url地址、标题、作者以及发布时间的组合。以及,将采集字段中的标题、作者、发布时间、摘要,正文、url地址进行拼接,以生成MD5加密字段。
本实施例的通用型数据采集解析系统进一步包括至少一服务器,所述至少一服务器由统一调度中心分发采集任务分包,以及,所述至少一服务器例如为基于多线程的服务器并且为集群分布式部署。在其他实施例中,通用型数据采集解析系统还可以包括其他执行机构,其他执行机构不限于通过软件方式或硬件方式实现,部署方式也不限于以上集群分布式。
第三实施例:
本发明进一步提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一实施例中的通用型数据采集解析方法。
本发明提供的通用型数据采集解析方法、系统以及存储介质通过简单的配置标题模板和采集源,即可实现目标数据的采集,大大降低了开发的成本。并且可以于标题模板中配置清洗和加工等规则,直接将数据转换为可用数据,极大的提高了效率。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种通用型数据采集解析方法,其特征在于,包括:
配置采集源表单,其中,所述采集源表单中列有至少一个采集源;
为所述采集源配置采集模板;
其中,所述采集模板包括:采集数据列表范围、分页规则、采集周期以及采集页数,所述采集模板与所述采集源相对应;
配置标题模板;
根据所述标题模板创建数据存储表,其中,所述数据存储表中具有多个采集字段;
根据所述标题模板对页面进行解析,并将获得的解析结果数据存入数据存储表;
根据预设查询字段查询数据存储表中是否有与所述解析结果数据相同的数据,如果没有,则新建一条与所述解析结果数据对应的采集记录并将所述采集记录标记为最新版本,如果有,则生成所述解析结果数据对应的采集记录并比较所述采集记录与之前的采集记录是否一致,如果不一致,将之前的采集记录标记为历史版本,并新增一条采集记录,以及将新增的采集记录标记为最新版本;
对所述采集源进行基于高质量数据识别,得到高质量数据分布信息;
根据所述高质量分布信息确定所述采集模板中的采集页数;
数据采集包括:全量采集和增量采集,其中,全量采集,对采集源中包含的所有数据进行采集,采集程序设定为一直会自动寻找下一页,直到下一页不可点击为止,采集程序结束,此时完成全量数据采集工作;
增量采集,根据全量数据的发布时间确定增量采集的采集页数,根据增量采集的采集页数进行采集。
2.根据权利要求1所述的通用型数据采集解析方法,其特征在于,每一采集源具有与所述采集源对应的网址以及请求方式,
所述采集模板包括至少以下一个参数:采集数据列表范围、分页规则、采集周期以及采集页数。
3.根据权利要求1所述的通用型数据采集解析方法,其特征在于,还包括采集日志生成步骤,所述采集日志生成步骤中,生成的采集日志至少包括以下一个参数:当前采集任务名称、批次号、采集开始时间、采集结束时间、进行状态、本次采集数据量、本次新增数据量以及本次修改数据量。
4.根据权利要求1所述的通用型数据采集解析方法,其特征在于,还包括解析状态通知步骤:实时采集解析状态信息并发送至预设的信息收集端。
5.根据权利要求4所述的通用型数据采集解析方法,其特征在于,信息收集端为电子信息空间或电子信息端口,其中,所述电子信息空间为电子邮箱,所述电子信息端口为应用程序中的消息接收端口。
6.根据权利要求1所述的通用型数据采集解析方法,其特征在于,所述标题模板至少包含以下一个字段:序号、标题、时间、发布人、正文、摘要字段、标题名称、标题别名、清洗规则以及加工规则,
所述多个采集字段至少包括以下之一:ID、标题、作者、发布时间、摘要,正文、url地址、数据新增时间、数据修改时间、MD5加密字段以及数据版本。
7.根据权利要求6所述的通用型数据采集解析方法,其特征在于,选取其中至少一个采集字段作为查询字段,将选取的采集字段中的标题、作者、发布时间、摘要,正文、url地址进行拼接,以生成MD5加密字段,所述查询字段为url地址、标题、作者以及发布时间的组合。
8.根据权利要求1所述的通用型数据采集解析方法,其特征在于,所述通用型数据采集解析方法由至少一服务器执行,所述至少一服务器由统一调度中心分发采集任务分包,所述至少一服务器为基于多线程的服务器并且为集群分布式部署。
9.一种通用型数据采集解析系统,其特征在于,包括:
采集源表单配置模块,用于配置采集源表单,所述采集源表单至少列有一个采集源;
采集模板配置模块,用于为每一采集源配置一采集模板;
其中,所述采集模板包括:采集数据列表范围、分页规则、采集周期以及采集页数,所述采集模板与所述采集源相对应;
标题模板配置模块,用于配置标题模板;
采集字段预设模块,用于根据标题模板创建数据存储表,数据存储表中具有多个采集字段;
解析模块,用于根据标题模板对页面进行解析,并将获得的解析结果数据存入数据存储表;
采集记录生成模块,配置为执行以下操作:设定一查询字段,查询数据存储表中是否有与该解析结果数据相同的数据,如果没有,则新建一条与该解析结果数据对应的采集记录并将该采集记录标记为最新版本,如果有,则生成该解析结果数据对应的采集记录并比较该采集记录与之前的采集记录是否一致,如果不一致则将之前的采集记录标记为历史版本,并新增一条采集记录,以及将新增的采集记录标记为最新版本;
对所述采集源进行基于高质量数据识别,得到高质量数据分布信息;
根据所述高质量分布信息确定所述采集模板中的采集页数;
数据采集包括:全量采集和增量采集,其中,全量采集,对采集源中包含的所有数据进行采集,采集程序设定为一直会自动寻找下一页,直到下一页不可点击为止,采集程序结束,此时完成全量数据采集工作;
增量采集,根据全量数据的发布时间确定增量采集的采集页数,根据增量采集的采集页数进行采集。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-8中任一所述的通用型数据采集解析方法。
CN202210557250.XA 2022-05-20 2022-05-20 通用型数据采集解析方法、系统和存储介质 Active CN115344571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210557250.XA CN115344571B (zh) 2022-05-20 2022-05-20 通用型数据采集解析方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210557250.XA CN115344571B (zh) 2022-05-20 2022-05-20 通用型数据采集解析方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN115344571A CN115344571A (zh) 2022-11-15
CN115344571B true CN115344571B (zh) 2023-05-23

Family

ID=83948915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210557250.XA Active CN115344571B (zh) 2022-05-20 2022-05-20 通用型数据采集解析方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN115344571B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591931A (zh) * 2011-12-23 2012-07-18 浙江大学 基于树权值的网页数据记录识别和抽取方法
CN109190373A (zh) * 2018-07-11 2019-01-11 广州优视网络科技有限公司 应用检测方法、装置、计算机存储介质和计算机设备
CN110933225A (zh) * 2019-11-04 2020-03-27 Oppo(重庆)智能科技有限公司 通话信息获取方法、装置、存储介质及电子设备
CN112748866A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种增量索引数据的处理方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2952563A1 (en) * 2014-06-16 2015-12-23 Kinderguardian Inc. System and method for managing behavior
CN110457312B (zh) * 2019-07-05 2023-07-07 中国平安财产保险股份有限公司 多类型数据的采集方法、装置、设备及可读存储介质
CN111125213A (zh) * 2019-11-29 2020-05-08 北京数起科技有限公司 数据采集的方法、装置及其系统
CN111813849A (zh) * 2020-09-14 2020-10-23 杭州数梦工场科技有限公司 数据抽取方法、装置及设备、存储介质
CN114462972A (zh) * 2022-02-09 2022-05-10 携程商旅信息服务(上海)有限公司 商旅清算业务数据获取方法、装置、电子设备、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591931A (zh) * 2011-12-23 2012-07-18 浙江大学 基于树权值的网页数据记录识别和抽取方法
CN109190373A (zh) * 2018-07-11 2019-01-11 广州优视网络科技有限公司 应用检测方法、装置、计算机存储介质和计算机设备
CN112748866A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种增量索引数据的处理方法和装置
CN110933225A (zh) * 2019-11-04 2020-03-27 Oppo(重庆)智能科技有限公司 通话信息获取方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sonali Kochhar 等. The Brighton Collaboration standardized template for collection of key information for benefit-risk assessment of protein vaccines.《Vaccine》.2020,5734-5739. *
王怡兵 等.临床试验数据采集与报告文件设计制作的技术规程.《中国临床药理学与治疗学 》.2004,595-597. *

Also Published As

Publication number Publication date
CN115344571A (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN107273409B (zh) 一种网络数据采集、存储及处理方法及系统
CN107895009B (zh) 一种基于分布式的互联网数据采集方法及系统
US7181681B2 (en) Realtime web page scrapping and visual representation of associated clickthrough and impression data architecture
US7734586B2 (en) Replication and synchronization of syndication content at an email server
CN108985981B (zh) 数据处理系统及方法
CN111666490A (zh) 基于kafka的信息推送方法、装置、设备及存储介质
CN106021583B (zh) 页面流量数据的统计方法及其系统
CN105490854A (zh) 实时日志收集方法、系统和应用服务器集群
US20100287191A1 (en) Tracking and retrieval of keywords used to access user resources on a per-user basis
US7734587B2 (en) Syndication of content based upon email user groupings
WO2016007178A1 (en) System and method for providing contextual analytics data
KR20190131778A (ko) 은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템
CN110968571A (zh) 面向金融信息服务的大数据分析与处理平台
CN102510536A (zh) 一种互联网音视频下载方法
CN111953766A (zh) 一种网络数据采集的方法及其系统
CN109783330B (zh) 日志处理方法、显示方法和相关装置、系统
CN115344571B (zh) 通用型数据采集解析方法、系统和存储介质
US20020169792A1 (en) Method and system for archiving data within a predetermined time interval
CN101145936B (zh) 一种在Web页面中添加标签的方法及其系统
KR102402416B1 (ko) 이슈 기반 뉴스 정보 제공을 위한 서비스 제공 장치 및 방법
US20070233812A1 (en) Common communication framework for network objects
JP2006209598A (ja) サイト情報収集システム
JP6510452B2 (ja) 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム
US9372927B1 (en) Original authorship identification of electronic publications
Su et al. Research and design of website user behavior data acquisition based on customized event tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant