CN104915411A - 一种人工干预校准的自动化数据采集方法 - Google Patents
一种人工干预校准的自动化数据采集方法 Download PDFInfo
- Publication number
- CN104915411A CN104915411A CN201510302065.6A CN201510302065A CN104915411A CN 104915411 A CN104915411 A CN 104915411A CN 201510302065 A CN201510302065 A CN 201510302065A CN 104915411 A CN104915411 A CN 104915411A
- Authority
- CN
- China
- Prior art keywords
- data
- data acquisition
- model
- address
- calibration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Abstract
本发明提出了一种人工干预校准的自动化数据采集方法,包括以下步骤:提供简单直观的数据采集建模工具;根据数据使用人员提供的模型进行小规模数据预采集;对采集数据中的id和class进行人工校准;利用人工校准后的最终数据采集模型进行大规模数据抓取,本发明提供一种可供非技术人员直接操作的数据采集工具,用以解决现有技术中不能由数据使用人员设计采集模型和数据准确度无法实时进行校准的问题,本发明杜绝了过往数据采集颗粒度过高、无效信息参杂和提交规格不合理的问题。
Description
技术领域
本发明涉及网络数据采集技术领域,尤其涉及一种能够让非技术人员直接自定义数据采集及分类的方法及工具。
背景技术
数据采集是一种网络常见的数据搜集方法。用户通过对数据开放网站的站点分析,数据筛选,进行定向数据搜集,该数据搜集后能够进行整合加工,为其他领域所使用。
现有技术中,数据采集一般由技术人员进行机械性海量数据采集,在数据的精度、采集过程中的应变能力上都无法提供保证,大部分数据采集过来后还面临着大量的深度加工工作。大部分情况下由于技术采集人员对数据本身的需求和应用场合不了解,会造成包括但不限于如下的问题:无法保证数据与数据需求是一一匹配的;当数据源格式发生变化后无法进行及时的干预,最终输出是才发现数据问题,耽误采集时间;无法提供通用采集工具,小规模数据采集时成本过高;真正数据使用人员不能参与到模型设计及数据校验过程中去。
因此,针对上述现有技术中存在的技术问题,就亟需提出一种人工干预校准的自动化数据采集方法。
发明内容
本发明提供一种可供非技术人员直接操作的数据采集方法,用以解决现有技术中不能由数据使用人员设计采集模型和数据准确度无法实时进行校准的问题。本发明杜绝了过往数据采集颗粒度过高、无效信息参杂和提交规格不合理的问题。
本发明的技术方案是这样实现的:一种人工干预校准的自动化数据采集方法,包括以下步骤:
A、提供简单直观的数据采集建模工具;
B、根据数据使用人员提供的模型进行小规模数据预采集;
C、对采集数据中的id和class进行人工校准;
D、利用人工校准后的最终数据采集模型进行大规模数据抓取。
优选地,所述步骤A包括提供直观简洁的后台界面,以表格的方式向目标用户提供数据采集建模工具,用户能够根据示范,进行标的数据源地址的录入,采集数据规格描述以及分类数据库定义。
优选地,所述步骤B包括以下步骤:
1)根据数据采集人员提供的地址,分析标的网址类型,获取网页上的链接并根据链接地址的相似度进行归类;
2)数据采集人员根据归类地址进行数据采集建模,对归类地址进行定义,此时操作界面提供相对的分类名称,创建数据源地址和数据采集库类目的一一对应关系,创建数据采集第一原始模型;
3)本数据采集建模工具根据数据采集人员提供的原始数据采集模型,进行小规模数据预采集,本数据采集建模工具将随机抽取指定类目下的数据信息,由用户指定对应值到对应内容框中,由此创建数据采集第二原始模型。
优选地,所述步骤C包括以下步骤:
1)当小规模数据采集完成之后,根据用户填写的内容生成匹配算法,具体操作为:找到最靠近该地址的id或class,建立一一匹配规则;
2)对于具备id的数据源,由于id具备唯一对应的特征,所以能够完成数据源与数据库模型的直接对应关系,即时获得最终采集模型;
3)对于不具备class的数据源,可将该class涉及的所有数据均采集过来,此时进行人工校准,选取正确的数据地址与数据库模型进行匹配,通过该匹配算法进行对应页面的数据采集并输出结果,用户将对该数据进行最终的判断及确认,正式生成最终采集模型。
优选地,所述步骤D包括利用最终采集模型对数据源实现批量定向数据抓取,实现精准数据的大规模输出。
本发明具有以下有益效果:
(1)本发明为缺乏技术背景的人员提供一种简单有效但精度很高的数据采集方法,本发明仅需数据采集人员按照工具提供的格式和要求列明数据来源的地址及数据采集需求,在数据采集过程中进行直观的数据校验,主要是通过对多个采集结果进行勾选的方式实现数据的定位校准。该方法对数据采集人员的要求较低,数据反馈及时直观,避免了传统的文本或表格形式的数据返回模式,能够比较轻松的实现数据校验,尤其在图片类与文字类有匹配需求的应用场景中,交互简单体验良好。
(2)本发明数据采集成本相对较低,能够在小规模数据采集中发挥优势。本发明对技术人员的开发工作进行了拆分和限定,技术人员仅会在绝对需要技术参与的环节进行开发。在未采用本工具进行数据采集的情况下,技术人员往往会在一些简单的环节进行重复的开发,同时由于技术人员并非最终数据使用人员,往往在进行标的数据的理解上耗费不必要的精力和时间。而采用该工具,技术人员无需理解数据采集的具体内容即可模块化的展开工作,同时因为数据使用人员的人工干预,数据最终的有效性也得到了保障,因此可以说该工具的能够有效的提高技术人员的效率、降低数据采集成本
(3)本发明数据采集方法灵活,能够应用于各种不同规格的数据来源之下。当前垂直化网站数量庞大,站点规格千差万别,数据规格形式多样。本工具初步建模、小批量采集、校准、最终模型确定、大规模数据采集的流程,能够适应绝大部分特殊结构的数据来源,实现对多样性数据来源的有效采集
(4)本发明采取数据精度高,格式规范,能够直接投入到正式的数据研究中或者产品应用中取。本发明工具在建模的过程中就已经约定了最终规范化数据输出格式,用户能够根据自己最终输出的需要,进行数据建模,最终数据将按数据采集者前期约定的格式批量输出,能够快速投入到数据分析或商品应用中去。
(5)本发明在大数据分析及电子商务领域拥有广泛应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明操作原理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
参照图1,本实施例提供一种人工干预校准的自动化数据采集方法,其包括以下步骤:
A、提供简单直观的数据采集建模工具;
B、根据数据使用人员提供的模型进行小规模数据预采集;
C、对采集数据中的id和class进行人工校准;
D、利用人工校准后的最终数据采集模型进行大规模数据抓取。
其中,所述步骤A包括提供直观简洁的后台界面,以表格的方式向目标用户提供数据采集建模工具,用户能够根据示范,进行标的数据源地址的录入,采集数据规格描述以及分类数据库定义;
其中,所述步骤B包括以下步骤:
1)根据数据采集人员提供的地址,分析标的网址类型,获取网页上的链接并根据链接地址的相似度进行归类;
2)数据采集人员根据归类地址进行数据采集建模,对归类地址进行定义,此时操作界面提供相对的分类名称(如类目地址、商品详情地址等),创建数据源地址和数据采集库类目的一一对应关系,创建数据采集第一原始模型;
3)本数据采集建模工具根据数据采集人员提供的原始数据采集模型,进行小规模数据预采集,本数据采集建模工具将随机抽取指定类目下的数据信息,由用户指定对应值到对应内容框中,由此创建数据采集第二原始模型。
其中,所述步骤C包括以下步骤:
1)当小规模数据采集完成之后,根据用户填写的内容生成匹配算法,具体操作为:找到最靠近该地址的id或class,建立一一匹配规则;
2)对于具备id的数据源,由于id具备唯一对应的特征,所以能够完成数据源与数据库模型的直接对应关系,即时获得最终采集模型;
3)对于不具备class的数据源,可将该class涉及的所有数据均采集过来,此时进行人工校准,选取正确的数据地址与数据库模型进行匹配,通过该匹配算法进行对应页面的数据采集并输出结果,用户将对该数据进行最终的判断及确认,正式生成最终采集模型。
其中,所述步骤D包括利用最终采集模型对数据源实现批量定向数据抓取,实现精准数据的大规模输出。
对数据源采用动态分析方法,利用机器自学习技术手段,进行数据源的数据拆分分析及建模,对数据源关键性内容的定位、监控及提取,实现数据的更新实时扫描及下载,在采集工具内对所采集的数据进行分类管理,提供数据信息展示平台,在该平台对异常数据提出警示,经人工干预后进行数据修正,最终得到正确的数据内容,其中对数据源的关键性内容的定位包括利用计算机在积累的数据中建模,所述模型可适配不同类型的采集目标,在数据拆分的过程中,能够保留数据源相互间一一对应的关系,尤其表现在图片与文字的匹配上,能够实现数据源的精准识别及匹配,建模包括利用链接地址的相似度,进行数据源的预分类,在已有采集数据库的情况下,进行数据内容的比对和匹配,并通过人工随机抽取地址对数据匹配情况进行校准,在建模中,根据用户填写内容生成匹配算法,该算法通过找到最靠近该地址的id或class并进行数据预采集,该采集输出结果需由用户进行确认,以用于生成最终批量采集的模型。在查找数据源id或class数据中,由于id具备唯一性,因此可对配id的数据内容实现机器自动匹配,对于仅有class的地址,则需再次引入人工校准,对随机抽取数据与数据模型的匹配度进行一一校准。当数据模型经人工校准合格后,能够进行最终建模确认,确认后的模型将自动进行数据源的套接、采集及分类存储。采集工具在适用过程中都会形成自己的数据分析模型,关键性变量会随同使用的具体情况进行变更,形成独一无二的数据采集工具,该过程是一个人工干预下机器自学习的智能过程。
本发明提供一种可供非技术人员直接操作的数据采集工具,用以解决现有技术中不能由数据使用人员设计采集模型和数据准确度无法实时进行校准的问题。本发明杜绝了过往数据采集颗粒度过高、无效信息参杂和提交规格不合理的问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种人工干预校准的自动化数据采集方法,其特征在于,包括以下步骤:
A、提供简单直观的数据采集建模工具;
B、根据数据使用人员提供的模型进行小规模数据预采集;
C、对采集数据中的id和class进行人工校准;
D、利用人工校准后的最终数据采集模型进行大规模数据抓取。
2.根据权利要求1所述的一种人工干预校准的自动化数据采集方法,其特征在于:所述步骤A包括提供直观简洁的后台界面,以表格的方式向目标用户提供数据采集建模工具,用户能够根据示范,进行标的数据源地址的录入,采集数据规格描述以及分类数据库定义。
3.根据权利要求2所述的一种人工干预校准的自动化数据采集方法,其特征在于:所述步骤B包括以下步骤:
1)根据数据采集人员提供的地址,分析标的网址类型,获取网页上的链接并根据链接地址的相似度进行归类;
2)数据采集人员根据归类地址进行数据采集建模,对归类地址进行定义,此时操作界面提供相对的分类名称,创建数据源地址和数据采集库类目的一一对应关系,创建数据采集第一原始模型;
3)本数据采集建模工具根据数据采集人员提供的原始数据采集模型,进行小规模数据预采集,本数据采集建模工具将随机抽取指定类目下的数据信息,由用户指定对应值到对应内容框中,由此创建数据采集第二原始模型。
4.根据权利要求3所述的一种人工干预校准的自动化数据采集方法,其特征在于:所述步骤C包括以下步骤:
1)当小规模数据采集完成之后,根据用户填写的内容生成匹配算法,具体操作为:找到最靠近该地址的id或class,建立一一匹配规则;
2)对于具备id的数据源,由于id具备唯一对应的特征,所以能够完成数据源与数据库模型的直接对应关系,即时获得最终采集模型;
3)对于不具备class的数据源,可将该class涉及的所有数据均采集过来,此时进行人工校准,选取正确的数据地址与数据库模型进行匹配,通过该匹配算法进行对应页面的数据采集并输出结果,用户将对该数据进行最终的判断及确认,正式生成最终采集模型。
5.根据权利要求4所述的一种人工干预校准的自动化数据采集方法,其特征在于:所述步骤D包括利用最终采集模型对数据源实现批量定向数据抓取,实现精准数据的大规模输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510302065.6A CN104915411A (zh) | 2015-06-05 | 2015-06-05 | 一种人工干预校准的自动化数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510302065.6A CN104915411A (zh) | 2015-06-05 | 2015-06-05 | 一种人工干预校准的自动化数据采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104915411A true CN104915411A (zh) | 2015-09-16 |
Family
ID=54084474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510302065.6A Pending CN104915411A (zh) | 2015-06-05 | 2015-06-05 | 一种人工干预校准的自动化数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915411A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190755A (zh) * | 2021-05-11 | 2021-07-30 | 两比特(北京)科技有限公司 | 一种云合系统人物角色分析系统 |
CN114118961A (zh) * | 2021-11-24 | 2022-03-01 | 上海怀信智能科技有限公司 | 新能源锂电池性能检测自动化数据分析系统 |
CN114783585A (zh) * | 2022-06-17 | 2022-07-22 | 苏州景昱医疗器械有限公司 | 程控设备、程控系统、电子设备和计算机可读存储介质 |
-
2015
- 2015-06-05 CN CN201510302065.6A patent/CN104915411A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190755A (zh) * | 2021-05-11 | 2021-07-30 | 两比特(北京)科技有限公司 | 一种云合系统人物角色分析系统 |
CN114118961A (zh) * | 2021-11-24 | 2022-03-01 | 上海怀信智能科技有限公司 | 新能源锂电池性能检测自动化数据分析系统 |
CN114783585A (zh) * | 2022-06-17 | 2022-07-22 | 苏州景昱医疗器械有限公司 | 程控设备、程控系统、电子设备和计算机可读存储介质 |
WO2023241338A1 (zh) * | 2022-06-17 | 2023-12-21 | 苏州景昱医疗器械有限公司 | 程控设备、程控系统、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Construct food safety traceability system for people’s health under the internet of things and big data | |
CN102654937B (zh) | 电能质量监测终端的iec61850检测平台及其检测方法 | |
CN106662854B (zh) | 用于控制系统的装置的配置的方法和系统 | |
Li et al. | Fault diagnosis expert system of semiconductor manufacturing equipment using a Bayesian network | |
CN103425584B (zh) | 基于Java字节码的大型应用回归测试信息处理方法 | |
CN106570232A (zh) | 一种检验规程的自动生成方法 | |
CN106597947A (zh) | 变电站设备测试方法、服务器、测试仪及系统 | |
CN104407589A (zh) | 面向车间制造过程的实时生成性能主动感知与异常分析方法 | |
CN104021248B (zh) | 一种航空机载机械类产品fmeca分析方法 | |
CN1690684A (zh) | 监测和诊断机器的方法和系统 | |
CN103439114B (zh) | 一种汽轮机组热力性能试验系统及装置 | |
CN106528828A (zh) | 一种基于多维度校验规则的数据质量检测方法 | |
CN107133176A (zh) | 一种基于半监督聚类数据筛选的跨项目缺陷预测方法 | |
CN104915411A (zh) | 一种人工干预校准的自动化数据采集方法 | |
CN109375948A (zh) | 一种智能功能点识别的软件计价方法 | |
CN102546296B (zh) | 用于电力行业信息系统入网安评的自动检测方法及装置 | |
CN104461708A (zh) | 任务信息处理方法和系统 | |
Mendling et al. | A quantitative analysis of faulty EPCs in the SAP reference model | |
CN110196849B (zh) | 基于大数据治理技术实现用户画像构建处理的系统及其方法 | |
Feldkamp et al. | Knowledge discovery and robustness analysis in manufacturing simulations | |
Teran et al. | Performance measurement integrated information framework in e-Manufacturing | |
Pritoni et al. | Towards a scalable model for smart buildings | |
Ashley et al. | Aggregate attack surface management for network discovery of operational technology | |
CN107766943A (zh) | 一种cps环境下的知识构件自动化交互方法 | |
KR20220041600A (ko) | 스마트공장 데이터 품질평가 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150916 |
|
WD01 | Invention patent application deemed withdrawn after publication |