CN116501944A - 基于高质量模板资源库的数据主动抓取系统 - Google Patents
基于高质量模板资源库的数据主动抓取系统 Download PDFInfo
- Publication number
- CN116501944A CN116501944A CN202310551417.6A CN202310551417A CN116501944A CN 116501944 A CN116501944 A CN 116501944A CN 202310551417 A CN202310551417 A CN 202310551417A CN 116501944 A CN116501944 A CN 116501944A
- Authority
- CN
- China
- Prior art keywords
- data
- resource
- module
- unit
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000010276 construction Methods 0.000 claims abstract description 31
- 230000005540 biological transmission Effects 0.000 claims abstract description 4
- 230000002441 reversible effect Effects 0.000 claims abstract description 4
- 238000011156 evaluation Methods 0.000 claims description 23
- 238000007726 management method Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 23
- 238000012216 screening Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 230000008520 organization Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 101100126955 Arabidopsis thaliana KCS2 gene Proteins 0.000 claims description 5
- 241000132023 Bellis perennis Species 0.000 claims description 5
- 235000005633 Chrysanthemum balsamita Nutrition 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000000737 periodic effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000013481 data capture Methods 0.000 abstract description 6
- 238000005070 sampling Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据抓取领域,且公开了基于高质量模板资源库的数据主动抓取系统,包括:管理模块,作为各功能模块与单元的核心操控端,进行运行指令的编辑与发送;资源存储模块,作为获取数据与分析数据的的存储端,建立高质量模板资源库,进行本地存储,支持云端上传与导入;链接构建单元,用于获取可构建反向链接的资源地址,周期性抓取数据,更新并完成构建数据输送链路;本发明通过利用改进的模板匹配算法对所获取数据进行匹配,可降低所获取数据误差,能够有效的规避问题数据,降低问题数据的处理优先级,避免其影响后续数据的处理进度,设置问题数据的资源耗费阈值,构建以优质资源地址为主的稳定数据来源。
Description
技术领域
本发明涉及数据抓取技术领域,具体为基于高质量模板资源库的数据主动抓取系统。
背景技术
网络数据抓取主要的工作是根据特定的目标对指定网站所提供的文本、图片、音频、视频等数据进行获取和整理,数据抓取的原因在于很多希望得到的数据往往无法直接取得,因此需要采取一定的方式来构建符合自身需求的数据集,面对海量的互联网数据,网络数据抓取技术被视为一种行之有效的技术手段,通常在抓取后,这些数据往往会以一定的格式进行存储,基于整理好格式的数据可以根据分析目标执行各类数据挖掘和机器学习算法,如建模、分类、预测、统计各类关键指数等等;
但是,现有的数据主动抓取系统还存在一定的不足,例如:
1、数据在获取过程中,其模板匹配算法容易出现误差,较不精准,获取数据会出现冗余与错漏现象,缺乏对算法的改进,问题数据的处理较为占用资源处理能力,处理过程较为耗时,缺乏合理规避问题数据的措施;
2、缺乏对优质资源地址的筛选与评级,难以确定以优质资源地址为主的稳定数据来源,所获取数据质量层次不齐,影响数据整体质量;
3、采用的算法采样随机性较高,使得在模板资源库中获得正确模型的成功率较低,算法迭代次数过高。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了基于高质量模板资源库的数据主动抓取系统,能够有效地解决现有技术的数据主动抓取系统数据在获取过程中,其模板匹配算法容易出现误差,较不精准,获取数据会出现冗余与错漏现象,缺乏对算法的改进,问题数据的处理较为占用资源处理能力,处理过程较为耗时,缺乏合理规避问题数据的措施,缺乏对优质资源地址的筛选与评级,难以确定以优质资源地址为主的稳定数据来源,所获取数据质量层次不齐,影响数据整体质量,采用的算法采样随机性较高,使得在模板资源库中获得正确模型的成功率较低,算法迭代次数过高的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现,
本发明公开了基于高质量模板资源库的数据主动抓取系统,包括:
管理模块,作为各功能模块与单元的核心操控端,进行运行指令的编辑与发送;
资源存储模块,作为获取数据与分析数据的的存储端,建立高质量模板资源库,进行本地存储,支持云端上传与导入;
链接构建单元,用于获取可构建反向链接的资源地址,周期性抓取数据,更新并完成构建数据输送链路;
关联索引单元,用于获取链接构建单元所抓取的目标数据,生成对目标数据相对应的模板图像,采用改进SURF算法对模板图像进行处理和训练,构建出模板图像对应的模型,根据资源存储模块中已经构建出的模板模型确定出相似图像;
筛选模块,用于对针对所获资源地址进行筛查,去除冗余与过期地址;
评估模块,用于获取各资源地址的相似图像产出效率,进行周期性评级,优先级较高的资源地址在任务下发时优先排序;
检测单元,用于在数据运算与处理过程中,进行实时监控,对疑问数据与繁琐数据进行标记,降低其处理优先级;
阈值设定单元,用于设置问题数据的资源耗费阈值,在超出该阈值后,停止处理。
更进一步地,所述资源存储模块上搭载有下属子模块过滤模块,所述过滤模块与资源存储模块通过无线网络交互连接,所述过滤模块用于周期性剔除资源存储模块中的问题模块数据,并同步更新至云端。
更进一步地,所述阈值设定单元上搭载有下属子模块警示单元,所述阈值设定单元与警示单元通过无线网络交互连接,所述警示单元用于在出现超出阈值设定单元设定阈值范围的情况时,编辑报警信息上报管理模块。
更进一步地,所述管理模块通过关联索引单元获取数据时,以获取时间顺序逐个分析各来源的数据信息组织形式,其中包括:信息展示方式和信息返回方式,最终确定抓取字段,分析处理过程中时计算各来源信息组织的共性,在接入资源地址并抓取数据后,生成日志确定数据来源,根据需求确定所需信息的来源网站或平台。
更进一步地,所述关联索引单元中的改进SURF算法运转前,采用DAISY算法构建特征描述符替代原始SURF算法构建特征描述符,将原始图像的若干个方向图与数个尺度不一的高斯滤波函数进行卷积,分析结果。
更进一步地,所述关联索引单元在模板匹配的过程中采用PROSAC算法进行误匹配点删除,包括以下步骤:
Step401:获取样本集中的点,并将样本集中的点预先进行等级排名;
Step402:估计出正确模型的内点存在更高的等级,对估计模型起到阻碍作用的外点具有较低的等级;
Step403:选取具有等级较高的点集作为参照依据,对模型展开估计。
更进一步地,所述PROSAC算法进行误匹配点删除的过程中,进行噪声消除,其算法最大迭代次数的计算公式为:
式中,K代表最大迭代次数;P代表置信度,取0.996;R代表内点比例;D代表所取匹配点的对数,取4。
更进一步地,所述评估模块的运行逻辑包括以下步骤:
Step601:获取经由筛选后的数据,并依据来源地址生成对应专属标签;
Step602:建立识别机制,对通过模板匹配的数据进行专属标签识别,并将识别数据向管理端进行反馈;
Step603:获取识别数据,分析识别数据,获取该识别数据指向的来源地址,镜像复制至数据暂存区;
Step604:周期性提取暂存区内数据,对进行模拟评估,设定最低匹配阈值,低于此阈值的数据直接剔除,对剩余数据按照匹配度从高到低进行排序;
Step605:按照匹配度的高低决定任务排序的优先级。
更进一步地,所述评估模块中的周期性评级,其周期设定通过人工编辑与软件编辑相结合的方法进行设定。
更进一步地,所述管理模块与资源存储模块通过无线网络交互连接,所述管理模块与链接构建单元通过无线网络交互连接,所述链接构建单元与关联索引单元通过无线网络交互连接,所述关联索引单元与检测单元通过无线网络交互连接,所述检测单元与阈值设定单元通过无线网络交互连接,所述链接构建单元与筛选模块通过无线网络交互连接,所述筛选模块与评估模块通过无线网络交互连接,所述评估模块与资源存储模块通过无线网络交互连接。
(三)有益效果
采用本发明提供的技术方案,与已知的现有技术相比,具有如下有益效果,
1、本发明通过利用改进的模板匹配算法对所获取数据进行匹配,对所获取数据,可降低其误差,提升精准度,防止出现冗余和错漏现象,能够有效的规避问题数据,降低问题数据的处理优先级,避免其影响后续数据的处理进度,设置问题数据的资源耗费阈值,防止问题数据占用过多处理资源,采用DAISY算法构建特征描述符,进而提升处理时间,通过对各来源信息组织共性的统计,进而缩短后续分析数据时间,具有良好的市场前景与社会效益。
2、本发明通过对资源地址进行筛选与评级的措施,去除质量较差的资源地址,获取优质资源地址,并对资源地址按照质量高低进行排序,进而构建以优质资源地址为主的稳定数据来源,规避获取数据质量层次不齐的现象,避免影响数据整体质量,进一步提升抓取数据质量。
3、本发明通过采用PROSAC算法进行误匹配点删除,从而降低算法采样随机性,更加精准,使得在模板资源库中获得正确模型的成功率提升,命中率提高,进而降低算法迭代次数,提升效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于高质量模板资源库的数据主动抓取系统的框架示意图;
图2为本发明中采用PROSAC算法进行误匹配点删除的流程示意图;
图3为本发明中评估模块的运行逻辑的流程示意图;
图中的标号分别代表,1、管理模块;2、资源存储模块;3、链接构建单元;4、关联索引单元;5、筛选模块;6、评估模块;7、检测单元;8、阈值设定单元;9、警示单元;10、过滤模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例1
本实施例的基于高质量模板资源库的数据主动抓取系统,如图1-图3所示,包括:
管理模块1,作为各功能模块与单元的核心操控端,进行运行指令的编辑与发送;
资源存储模块2,作为获取数据与分析数据的的存储端,建立高质量模板资源库,进行本地存储,支持云端上传与导入;
链接构建单元3,用于获取可构建反向链接的资源地址,周期性抓取数据,更新并完成构建数据输送链路;
关联索引单元4,用于获取链接构建单元3所抓取的目标数据,生成对目标数据相对应的模板图像,采用改进SURF算法对模板图像进行处理和训练,构建出模板图像对应的模型,根据资源存储模块2中已经构建出的模板模型确定出相似图像;
筛选模块5,用于对针对所获资源地址进行筛查,去除冗余与过期地址;
评估模块6,用于获取各资源地址的相似图像产出效率,进行周期性评级,优先级较高的资源地址在任务下发时优先排序;
检测单元7,用于在数据运算与处理过程中,进行实时监控,对疑问数据与繁琐数据进行标记,降低其处理优先级;
阈值设定单元8,用于设置问题数据的资源耗费阈值,在超出该阈值后,停止处理。
如图1所示,所述资源存储模块2上搭载有下属子模块过滤模块10,所述过滤模块10与资源存储模块2通过无线网络交互连接,所述过滤模块10用于周期性剔除资源存储模块2中的问题模块数据,并同步更新至云端。
如图1所示,所述阈值设定单元8上搭载有下属子模块警示单元9,所述阈值设定单元8与警示单元9通过无线网络交互连接,所述警示单元9用于在出现超出阈值设定单元8设定阈值范围的情况时,编辑报警信息上报管理模块1。
如图1所示,所述管理模块1与资源存储模块2通过无线网络交互连接,所述管理模块1与链接构建单元3通过无线网络交互连接,所述链接构建单元3与关联索引单元4通过无线网络交互连接,所述关联索引单元4与检测单元7通过无线网络交互连接,所述检测单元7与阈值设定单元8通过无线网络交互连接,所述链接构建单元3与筛选模块5通过无线网络交互连接,所述筛选模块5与评估模块6通过无线网络交互连接,所述评估模块6与资源存储模块2通过无线网络交互连接。
所述管理模块1通过关联索引单元4获取数据时,以获取时间顺序逐个分析各来源的数据信息组织形式,其中包括:信息展示方式和信息返回方式,最终确定抓取字段,分析处理过程中时计算各来源信息组织的共性,在接入资源地址并抓取数据后,生成日志确定数据来源,根据需求确定所需信息的来源网站或平台。
所述关联索引单元4中的改进SURF算法运转前,采用DAISY算法构建特征描述符替代原始SURF算法构建特征描述符,将原始图像的若干个方向图与数个尺度不一的高斯滤波函数进行卷积,分析结果。
所述评估模块6中的周期性评级,其周期设定通过人工编辑与软件编辑相结合的方法进行设定。
本实施例在具体实施时,通过管理模块1总控全局功能模块的运行,通过资源存储模块2作为数据的存储端,通过链接构建单元3构建资源获取地址,通过关联索引单元4将所获取数据与在资源存储模块2中进行匹配,通过检测单元7对问题数据进行检测与隔离,通过阈值设定单元8设定问题数据的资源占用阈值,通过警示单元9在出现超标情况时进行报警,通过筛选模块5筛选优质的资源地址,通过评估模块6对各资源地址进行评估,并作为优先级较高的资源获取处,通过过滤模块10对资源存储模块2中的无用数据进行过滤,对所获取数据,可降低其误差,提升精准度,防止出现冗余和错漏现象,能够有效的规避问题数据,降低问题数据的处理优先级,避免其影响后续数据的处理进度,设置问题数据的资源耗费阈值,防止问题数据占用过多处理资源,采用DAISY算法构建特征描述符,进而提升处理时间,通过对各来源信息组织共性的统计,进而缩短后续分析数据时间。
实施例2
本实施例中,如图2所示,所述关联索引单元4在模板匹配的过程中采用PROSAC算法进行误匹配点删除,包括以下步骤:
Step401:获取样本集中的点,并将样本集中的点预先进行等级排名;
Step402:估计出正确模型的内点存在更高的等级,对估计模型起到阻碍作用的外点具有较低的等级;
Step403:选取具有等级较高的点集作为参照依据,对模型展开估计。
经由此设置,采用PROSAC算法进行误匹配点删除,降低算法采样随机性,更加精准,使得在模板资源库中获得正确模型的成功率提升,命中率提高,进而降低算法迭代次数。
实施例3
本实施例还提供一种评估模块6的运行逻辑,如图3所示,所述评估模块6的运行逻辑包括以下步骤:
Step601:获取经由筛选后的数据,并依据来源地址生成对应专属标签;
Step602:建立识别机制,对通过模板匹配的数据进行专属标签识别,并将识别数据向管理端进行反馈;
Step603:获取识别数据,分析识别数据,获取该识别数据指向的来源地址,镜像复制至数据暂存区;
Step604:周期性提取暂存区内数据,对进行模拟评估,设定最低匹配阈值,低于此阈值的数据直接剔除,对剩余数据按照匹配度从高到低进行排序;
Step605:按照匹配度的高低决定任务排序的优先级。
经由此设置,去除质量较差的资源地址,获取优质资源地址,并对资源地址按照质量高低进行排序,进而构建以优质资源地址为主的稳定数据来源,规避获取数据质量层次不齐的现象,避免影响数据整体质量。
实施例4
本实施例中,所述PROSAC算法进行误匹配点删除的过程中,进行噪声消除,首先根据两幅图像中提取的特征点生成匹配点对,从中随机选取4个匹配点对;利用4个匹配点对计算出这两幅图像的变换矩阵H;利用变换矩阵H对所有的特征点做变换,如果变换后的特征点与第二帧图像中对应的特征点距离小于一定阈值,则将其加入到满足一致集合C中,即内点集合;如果当前的一致集合元素个数大于最优的一致集合元素个数,更新当前最优一致集合,直至迭代终止,迭代终止条件为迭代次数达到最大迭代次数k,其算法最大迭代次数k的计算公式为:
式中,K代表最大迭代次数;P代表置信度,取0.996;R代表内点比例;D代表所取匹配点的对数,取4。
综上所述,本系统在搭载时,通过管理模块1总控全局功能模块的运行,通过资源存储模块2作为数据的存储端,通过链接构建单元3构建资源获取地址,通过关联索引单元4将所获取数据与在资源存储模块2中进行匹配,通过检测单元7对问题数据进行检测与隔离,通过阈值设定单元8设定问题数据的资源占用阈值,通过警示单元9在出现超标情况时进行报警,通过筛选模块5筛选优质的资源地址,通过评估模块6对各资源地址进行评估,并作为优先级较高的资源获取处,通过过滤模块10对资源存储模块2中的无用数据进行过滤,对所获取数据,可降低其误差,提升精准度,防止出现冗余和错漏现象,能够有效的规避问题数据,降低问题数据的处理优先级,避免其影响后续数据的处理进度,设置问题数据的资源耗费阈值,防止问题数据占用过多处理资源,采用DAISY算法构建特征描述符,进而提升处理时间,通过对各来源信息组织共性的统计,进而缩短后续分析数据时间;
采用PROSAC算法进行误匹配点删除,降低算法采样随机性,更加精准,使得在模板资源库中获得正确模型的成功率提升,命中率提高,进而降低算法迭代次数,去除质量较差的资源地址,获取优质资源地址,并对资源地址按照质量高低进行排序,进而构建以优质资源地址为主的稳定数据来源,规避获取数据质量层次不齐的现象,避免影响数据整体质量。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.基于高质量模板资源库的数据主动抓取系统,其特征在于,包括:
管理模块(1),作为各功能模块与单元的核心操控端,进行运行指令的编辑与发送;
资源存储模块(2),作为获取数据与分析数据的的存储端,建立高质量模板资源库,进行本地存储,支持云端上传与导入;
链接构建单元(3),用于获取可构建反向链接的资源地址,周期性抓取数据,更新并完成构建数据输送链路;
关联索引单元(4),用于获取链接构建单元(3)所抓取的目标数据,生成对目标数据相对应的模板图像,采用改进SURF算法对模板图像进行处理和训练,构建出模板图像对应的模型,根据资源存储模块(2)中已经构建出的模板模型确定出相似图像;
筛选模块(5),用于对针对所获资源地址进行筛查,去除冗余与过期地址;
评估模块(6),用于获取各资源地址的相似图像产出效率,进行周期性评级,优先级较高的资源地址在任务下发时优先排序;
检测单元(7),用于在数据运算与处理过程中,进行实时监控,对疑问数据与繁琐数据进行标记,降低其处理优先级;
阈值设定单元(8),用于设置问题数据的资源耗费阈值,在超出该阈值后,停止处理。
2.根据权利要求1所述的基于高质量模板资源库的数据主动抓取系统,其特征在于,所述资源存储模块(2)上搭载有下属子模块过滤模块(10),所述过滤模块(10)与资源存储模块(2)通过无线网络交互连接,所述过滤模块(10)用于周期性剔除资源存储模块(2)中的问题模块数据,并同步更新至云端。
3.根据权利要求1所述的基于高质量模板资源库的数据主动抓取系统,其特征在于,所述阈值设定单元(8)上搭载有下属子模块警示单元(9),所述阈值设定单元(8)与警示单元(9)通过无线网络交互连接,所述警示单元(9)用于在出现超出阈值设定单元(8)设定阈值范围的情况时,编辑报警信息上报管理模块(1)。
4.根据权利要求1所述的基于高质量模板资源库的数据主动抓取系统,其特征在于,所述管理模块(1)通过关联索引单元(4)获取数据时,以获取时间顺序逐个分析各来源的数据信息组织形式,其中包括:信息展示方式和信息返回方式,最终确定抓取字段,分析处理过程中时计算各来源信息组织的共性,在接入资源地址并抓取数据后,生成日志确定数据来源,根据需求确定所需信息的来源网站或平台。
5.根据权利要求1所述的基于高质量模板资源库的数据主动抓取系统,其特征在于,所述关联索引单元(4)中的改进SURF算法运转前,采用DAISY算法构建特征描述符替代原始SURF算法构建特征描述符,将原始图像的若干个方向图与数个尺度不一的高斯滤波函数进行卷积,分析结果。
6.根据权利要求1所述的基于高质量模板资源库的数据主动抓取系统,其特征在于,所述关联索引单元(4)在模板匹配的过程中采用PROSAC算法进行误匹配点删除,包括以下步骤:
Step401:获取样本集中的点,并将样本集中的点预先进行等级排名;
Step402:估计出正确模型的内点存在更高的等级,对估计模型起到阻碍作用的外点具有较低的等级;
Step403:选取具有等级较高的点集作为参照依据,对模型展开估计。
7.根据权利要求6所述的基于高质量模板资源库的数据主动抓取系统,其特征在于,所述PROSAC算法进行误匹配点删除的过程中,进行噪声消除,其算法最大迭代次数的计算公式为:
式中,K代表最大迭代次数;
P代表置信度,取0.996;
R代表内点比例;
D代表所取匹配点的对数,取4。
8.根据权利要求1所述的基于高质量模板资源库的数据主动抓取系统,其特征在于,所述评估模块(6)的运行逻辑包括以下步骤:
Step601:获取经由筛选后的数据,并依据来源地址生成对应专属标签;
Step602:建立识别机制,对通过模板匹配的数据进行专属标签识别,并将识别数据向管理端进行反馈;
Step603:获取识别数据,分析识别数据,获取该识别数据指向的来源地址,镜像复制至数据暂存区;
Step604:周期性提取暂存区内数据,对进行模拟评估,设定最低匹配阈值,低于此阈值的数据直接剔除,对剩余数据按照匹配度从高到低进行排序;
Step605:按照匹配度的高低决定任务排序的优先级。
9.根据权利要求1所述的基于高质量模板资源库的数据主动抓取系统,其特征在于,所述评估模块(6)中的周期性评级,其周期设定通过人工编辑与软件编辑相结合的方法进行设定。
10.根据权利要求1所述的基于高质量模板资源库的数据主动抓取系统,其特征在于,所述管理模块(1)与资源存储模块(2)通过无线网络交互连接,所述管理模块(1)与链接构建单元(3)通过无线网络交互连接,所述链接构建单元(3)与关联索引单元(4)通过无线网络交互连接,所述关联索引单元(4)与检测单元(7)通过无线网络交互连接,所述检测单元(7)与阈值设定单元(8)通过无线网络交互连接,所述链接构建单元(3)与筛选模块(5)通过无线网络交互连接,所述筛选模块(5)与评估模块(6)通过无线网络交互连接,所述评估模块(6)与资源存储模块(2)通过无线网络交互连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310551417.6A CN116501944A (zh) | 2023-05-16 | 2023-05-16 | 基于高质量模板资源库的数据主动抓取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310551417.6A CN116501944A (zh) | 2023-05-16 | 2023-05-16 | 基于高质量模板资源库的数据主动抓取系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116501944A true CN116501944A (zh) | 2023-07-28 |
Family
ID=87318200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310551417.6A Withdrawn CN116501944A (zh) | 2023-05-16 | 2023-05-16 | 基于高质量模板资源库的数据主动抓取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501944A (zh) |
-
2023
- 2023-05-16 CN CN202310551417.6A patent/CN116501944A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353413B (zh) | 一种输电设备低漏报率缺陷识别方法 | |
CN112613569B (zh) | 图像识别方法、图像分类模型的训练方法及装置 | |
CN111401418A (zh) | 一种基于改进Faster r-cnn的员工着装规范检测方法 | |
CN110471945B (zh) | 活跃数据的处理方法、系统、计算机设备和存储介质 | |
CN107341508B (zh) | 一种快速美食图片识别方法及系统 | |
CN114169381A (zh) | 图像标注方法、装置、终端设备及存储介质 | |
CN112084812B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111160432A (zh) | 一种面板生产制造缺陷的自动分类方法及系统 | |
CN111078512A (zh) | 告警记录生成方法、装置、告警设备及存储介质 | |
CN112199559A (zh) | 数据特征的筛选方法、装置及计算机设备 | |
CN116843955A (zh) | 一种基于计算机视觉的微生物分类识别方法和系统 | |
CN111882034A (zh) | 神经网络处理及人脸识别方法、装置、设备和存储介质 | |
CN113408630A (zh) | 一种变电站指示灯状态识别方法 | |
CN111309706A (zh) | 模型训练方法、装置、可读存储介质及电子设备 | |
CN116501944A (zh) | 基于高质量模板资源库的数据主动抓取系统 | |
CN112819527B (zh) | 一种用户分群处理方法及装置 | |
CN114359670A (zh) | 非结构化数据标注方法、装置、计算机设备及存储介质 | |
CN114898182A (zh) | 一种基于目标检测学习算法的图片数据筛选方法及系统 | |
CN114743048A (zh) | 检测异常秸秆图片的方法和检测装置 | |
CN112990350A (zh) | 目标检测网络训练方法及基于目标检测网络煤矸识别方法 | |
CN117131244B (zh) | 一种新型分布式大数据筛选过滤系统 | |
CN116188834B (zh) | 基于自适应训练模型的全切片图像分类方法及装置 | |
CN116450632B (zh) | 地理样本数据质量评估方法、设备及存储介质 | |
CN116735444B (zh) | 基于红外散射光谱的水体悬浮物浓度检测方法及装置 | |
CN111626409B (zh) | 一种图像质量检测的数据生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230728 |
|
WW01 | Invention patent application withdrawn after publication |