CN111597388B - 基于分布式系统的样本采集方法、装置、设备及介质 - Google Patents
基于分布式系统的样本采集方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111597388B CN111597388B CN202010728386.3A CN202010728386A CN111597388B CN 111597388 B CN111597388 B CN 111597388B CN 202010728386 A CN202010728386 A CN 202010728386A CN 111597388 B CN111597388 B CN 111597388B
- Authority
- CN
- China
- Prior art keywords
- acquisition
- equipment
- sample
- information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例公开了一种基于分布式系统的样本采集方法、装置、设备及介质,涉及数据采集技术领域。该方法包括:接收样本采集指令,设置定时采集任务;获取采集设备的设备信息并同步至本地存储的历史采集设备的设备信息中;触发定时采集任务;读取目标采集设备的设备信息,以获取设备标识符;识别出目标采集设备并建立通信连接,访问目标采集设备获取其视频流,从视频流中抓取若干份样本数据进行保存。本申请还涉及区块链技术,将样本数据存储至区块链网络。所述方法通过对真实场景中合理的时间段安排,和定时启动分布式任务抓拍场景样本数据,既实现了自动化的样本采集,减少了工作人员的操作量,又极大地提高了样本收集的速度及质量。
Description
技术领域
本申请涉及数据采集技术领域,特别是一种基于分布式系统的样本采集方法、装置、设备及介质。
背景技术
人工智能有三要素,它们分别是数据、算力和算法。因为人工智能的根基是训练,只有通过大量的训练,神经网络才能总结出规律,应用到新的样本上。具体到目标识别领域,数据则是图片样本。对于需要深度学习的目标识别来说,网络越大,层数越多,需要的训练样本量也越多。
传统收集样本的方法主要有以下几种:1、从公开数据集中获取;2、从网络上的图片库中获取,例如百度图片;3、从数据提供方中购买。
对于上述方式中的第1、2种,其能收集到的真实场景样本数量有限,而且,仅靠人工收集的速度太慢。此外,这两种方式获取到的样本的质量并不高,无论是图片的分辨率还是大小,与现实场景中的监控图片都有较大差别。而对于第3种方式,目前市场上也没有相关的数据提供方可以提供符合一些特定真实场景的样本,如后厨视频智能识别系统所需的样本,用于满足后厨违规场景识别模型的训练。
发明内容
本申请实施例所要解决的技术问题是,提供一种基于分布式系统的样本采集方法、装置、设备及存储介质,减少人工工作量,提高真实场景下样本收集的速度及质量。
为了解决上述技术问题,本申请实施例提供一种基于分布式系统的样本采集方法,采用了如下所述的技术方案:
一种基于分布式系统的样本采集方法,包括:
接收样本采集指令,并响应于所述样本采集指令设置定时采集任务,所述样本采集指令中指定有目标采集时间;
获取采集设备的设备信息并同步至本地存储的历史采集设备的设备信息中,所述设备信息包括每个活跃的采集设备的设备标识符;
实时监控系统时间,在所述系统时间到达所述目标采集时间时,触发所述定时采集任务;
基于所述定时采集任务读取目标采集设备的设备信息,以获取所述设备信息中的设备标识符;
根据设备标识符识别出与之匹配的目标采集设备并建立通信连接,访问所述目标采集设备的接口地址获取其视频流,从所述视频流中抓取若干份样本数据进行保存。
为了解决上述技术问题,本申请实施例还提供一种基于分布式系统的样本采集装置,采用了如下所述的技术方案:
一种基于分布式系统的样本采集装置,包括:
任务设置模块,用于接收样本采集指令,并响应于所述样本采集指令设置定时采集任务,所述样本采集指令中指定有目标采集时间;
信息同步模块,用于获取采集设备的设备信息并同步至本地存储的历史采集设备的设备信息中,所述设备信息包括每个活跃的采集设备的设备标识符;
任务触发模块,用于实时监控系统时间,在所述系统时间到达所述目标采集时间时,触发所述定时采集任务;
信息读取模块,用于基于所述定时采集任务读取目标采集设备的设备信息,以获取所述设备信息中的设备标识符;
数据抓取模块,用于根据设备标识符识别出与之匹配的目标采集设备并建立通信连接,访问所述目标采集设备的接口地址获取其视频流,从所述视频流中抓取若干份样本数据进行保存。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项技术方案所述的基于分布式系统的样本采集方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项技术方案所述的基于分布式系统的样本采集方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例公开了一种基于分布式系统的样本采集方法、装置、设备及存储介质,本申请实施例所述的基于分布式系统的样本采集方法,首先接收样本采集指令,并响应于样本采集指令设置定时采集任务;然后获取采集设备的设备信息并同步至本地存储的历史采集设备的设备信息中;通过实时监控系统时间,在系统时间到达目标采集时间时,触发定时采集任务;再基于定时采集任务读取目标采集设备的设备信息,以获取设备信息中的设备标识符;在根据设备标识符识别出与之匹配的目标采集设备并建立通信连接后,便访问目标采集设备的接口地址获取其视频流,从视频流中抓取若干份样本数据进行保存。所述方法通过样本采集系统结合视频服务提供商,使采集到的样本都是真实的场景数据,适用于场景识别模型的训练与测试,而通过对真实场景中合理的时间段安排,和定时启动分布式任务抓拍场景样本数据,既实现了自动化的样本采集,减少了工作人员的操作量,又极大地提高了样本收集的速度及质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例可以应用于其中的示例性系统架构图;
图2为本申请实施例中所述基于分布式系统的样本采集方法的一个实施例的流程图;
图3为本申请实施例中所述基于分布式系统的样本采集装置的一个实施例的结构示意图;
图4为本申请实施例中计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的相关附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102和第三终端设备103通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102和第三终端设备103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
第一终端设备101、第二终端设备102和第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对第一终端设备101、第一终端设备102和第三终端设备103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于分布式系统的样本采集方法一般由服务器/终端设备执行,相应地,基于分布式系统的样本采集装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了本申请实施例中所述基于分布式系统的样本采集方法的一个实施例的流程图。所述基于分布式系统的样本采集方法,包括以下步骤:
步骤201:接收样本采集指令,并响应于所述样本采集指令设置定时采集任务,所述样本采集指令中指定有目标采集时间。
样本采集主要是为了获取用于神经网络模型训练的数据,本申请中,采集的样本数据主要为图片样本。而在不同的采样场景下,不同时段下采集的样本的质量有时具有较大差别,因此根据实际的采样需求,需要预先确定特定真实场景下样本质量较高的采样时间,使采集得到的样本质量能得到保证。
例如在后厨违规场景下的样本采集,后厨在早中晚用餐高峰时期的活动相对其他时段较多,因此需要将采样的时间设定在相应的用餐高峰时段。本申请中,接收到样本采集指令后,通过预先设定一个定时任务,在定时任务中配置采集时间和相关采集要求,通过启动该定时任务执行样本采集指令。
在本申请实施例中,所述基于分布式系统的样本采集方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收样本采集指令。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤202:获取采集设备的设备信息并同步至本地存储的历史采集设备的设备信息中,所述设备信息包括每个活跃的采集设备的设备标识符。
本申请中,主要通过相应的采集设备进行真实场景下的现场样本采集,而由于设备的更新或轮替,有时会定期或不定期地增加新设备和注销设备,因此设定定时采集任务后,需要获取当前最新的采集设备的设备信息,并同步至本地进行存储,以完成对本地已存储的历史采集设备的设备信息进行更新。而获取的采集设备的设备信息中,必需的信息主要包括当前活跃的采集设备对应的设备标识符,设备标识符用于服务器识别特定的采集设备后依此进行访问。
具体地,更新设备信息时,可以以实时监控的方式进行更新,也可以在设定定时采集任务后,对设备信息进行一次更新即可。
在本申请的一些实施例中,所述步骤202包括:
确认目标设备提供方;
获取所述目标设备提供方处采集设备的第一设备信息;
将所述第一设备信息与本地存储的采集设备的第二设备信息进行同步,以实现对采集设备信息的更新。
由于本地服务器一般不方便连接数量较多的采集设备,如众多摄像头等采集设备往往会由专门的服务商管理和提供,因此同步采集设备的信息时,需要确认设备提供方后,从设备提供方处获取表示采集设备最新的设备信息的第一设备信息,再将获取到的设备信息同步至本地,实现对本地存储的表示历史设备信息的第二设备信息的更新。
进一步的,所述获取所述目标设备提供方处采集设备的第一设备信息的步骤包括:
解析所述样本采集指令获取其中的目标采集需求,并确定所述目标采集需求中指定的目标采集环境;
根据所述目标采集环境在所述目标设备提供方处进行匹配搜索,以找出在所述目标采集环境下的第一采集设备;
获取所述第一采集设备的设备信息记为所述第一设备信息。
样本采集时,往往对采集的环境(即采集场景)具有特定的要求,因此用户在编辑样本采集指令时,还需要同时配置相关的采集需求,并在采集需求中明确待实施样本采集的采集环境。
在一些具体实施方式中,获取采集设备的设备信息时,需要根据样本采集指令中配置的用户所需的采集环境,在设备提供方处匹配与之相符的采集设备,进而获取在所需的采集环境下作业的采集设备的设备信息。
步骤203:实时监控系统时间,在所述系统时间到达所述目标采集时间时,触发所述定时采集任务。
设定定时采集任务后,服务器通过实时监控当前的系统时间,对定时采集任务的触发条件进行监控,在到达所述目标采集时间时,便开始启动所述定时采集任务执行样本采集。
步骤204:基于所述定时采集任务读取目标采集设备的设备信息,以获取所述设备信息中的设备标识符。
开始执行所述定时采集任务时,通过读取服务器中更新过的采集设备的设备信息,获取访问定时采集任务中指定的用于采集样本的采集设备的必要信息,即其设备标识符,然后才能通过设备标识符与对应的采集设备建立通信连接进行样本采集。
在本申请上述实施例的一种具体实施方式中,在步骤204之前,所述基于分布式系统的样本采集方法还包括:
比较所述第二设备信息与所述目标设备提供方处的第一设备信息,以检验所述第二设备信息是否过期;
若过期,则基于所述第一设备信息对所述第二设备信息进行重新同步更新。
若设备提供商处的采集设备更新频率较快,在设定好定时采集任务和开始执行定时采集任务的这段时间,出现采集设备变动的可能性较大,在这种情况下便需要能及时对本地存储的采集设备的设备信息进行更新。
在本申请的一些具体实施方式中,在开始执行定时采集任务时对采集设备的设备信息再进行一次校验,判断本地的第二设备信息是否过期,若其表示的是最新的采集设备的设备信息,便开始执行定时采集任务,若过期,则需要对其进行重新同步更新后再继续执行定时采集任务。
在本申请的一些实施例中,在步骤202之后,所述基于分布式系统的样本采集方法还包括:
确定所述定时采集任务中预设的采集设备的目标数量;
随机读取与所述目标数量匹配的采集设备的设备信息存入数据缓存队列。
所述步骤204包括:依次读取所述数据缓存队列中存入的设备信息。
本申请的该部分实施例中,为了快速响应定时采集任务方便地执行采集操作,在设定好定时采集任务,并完成对采集设备进行设备信息的更新后,预先将待执行样本采集的采集设备的设备信息存入数据缓存队列,以此实现执行定时采集任务时对采集设备信息的快速读取。具体地,redis作为具有出色性能的内存中的数据存储结构,可以使用redis作为能快速响应数据读取的数据库,将预先读取的设备信息存入redis的队列中。
而将设备信息存入数据缓存队列时,需要首先确定定时采集任务中规定的采集设备的数量,再根据该数量随机读取活跃的采集设备的设备信息存入数据缓存队列中,之后执行定时采集任务时便直接从缓存队列中依次读取其中存放的设备信息即可。
在一些具体的实施方式中,将采集设备的设备信息存入数据缓存队列之前,需首先对设备信息进行同步更新,在完成更新后,再读取与目标数量匹配的采集设备的设备信息预存入缓存队列。
在一些具体实施方式中,还可以设定相对于定时采集任务的执行时间以时间提前量T为时间间隔将采集设备的设备信息预先存入数据缓存队列,即在系统时间到达所述目标采集时间的T时间之前,预先将采集设备的设备信息存入数据缓存队列。如此可以较有效地保证设备信息更新的实时性,并减少对系统服务器资源的浪费。
步骤205:根据设备标识符识别出与之匹配的目标采集设备并建立通信连接,访问所述目标采集设备的所述接口地址获取其视频流,从所述视频流中抓取若干份样本数据进行保存。
与读取的设备标识符匹配的目标采集设备建立通信连接后,便能通过访问采集设备的接口地址获取其视频流,采集样本时,便通过在视频流中截取出若干份图片数据作为样本数据。而通过根据不同的设备标识符同时访问不同的采集设备,可以实现对采集设备的分布式调度,可以更快速地抓取样本,提升样本采集效率。需要强调的是,为进一步保证上述样本数据的私密和安全性,上述样本数据还可以存储于一区块链的节点中。
具体地,在定时采集任务中会预先设定符合相应采样需求的采样参数,采样参数可以包括:样本抓取的时间间隔,所需抓取的样本的数量,样本图片的尺寸、分辨率及格式等。
在本申请的一些实施例中,需要为采集样本的过程设置日志监控,以记录抓取样本时产生的数据信息,方便在采样出错后能够及时定位到采样出错的流程步骤或出错的采样设备。
在本申请的一些实施例中,所述步骤205包括:
调用多媒体视频处理工具;
访问所述接口地址获取目标采集设备的视频流;
根据所述定时采集任务中预先配置的采样参数,通过所述多媒体视频处理工具从所述视频流中截取出所需的若干张样本图片作为样本数据进行保存。
该部分实施例中,通过运行本地服务器中的多媒体视频处理工具,如ffmpeg软件,响应于所述定时采集任务从采样设备的视频流中截取图片进行样本采样。如此可以较方便和高效地管理及执行符合采样需求的采样命令。
在本申请的一些实施例中,在步骤205之后,所述基于分布式系统的样本采集方法还包括:
与样本纠错系统建立通信连接;
向所述样本纠错系统发送已抓取的所述若干份样本数据,并发送对所述若干份样本数据的纠错指令;
接收由所述样本纠错系统反馈的样本结果数据。
样本采集的目的是为了向人工智能模型提供训练数据,而一些采集到的样本可能由于存在识别错误的问题,不适用于模型的训练,需要对其进行纠错。
本地服务器通过外接样本纠错系统,将采集到的样本数据发送给样本纠错系统进行纠错,由样本纠错系统反馈回的经纠错后的结果样本,便能作为质量更好的训练数据提供给人工智能神经网络模型,以优化模型训练后性能。
本申请实施例所述的基于分布式系统的样本采集方法,通过样本采集系统结合视频服务提供商,使采集到的样本都是真实的场景数据,适用于场景识别模型的训练与测试,而通过对真实场景中合理的时间段安排,和定时启动分布式任务抓拍场景样本数据,既实现了自动化的样本采集,减少了工作人员的操作量,又极大地提高了样本收集的速度及质量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,图3示出了为本申请实施例中所述基于分布式系统的样本采集装置的一个实施例的结构示意图。作为对上述图2所示方法的实现,本申请提供了一种基于分布式系统的样本采集装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的基于分布式系统的样本采集装置包括:
任务设置模块301;用于接收样本采集指令,并响应于所述样本采集指令设置定时采集任务,所述样本采集指令中指定有目标采集时间。
信息同步模块302;用于获取采集设备的设备信息并同步至本地存储的历史采集设备的设备信息中,所述设备信息包括每个活跃的采集设备的设备标识符。
任务触发模块303;用于实时监控系统时间,在所述系统时间到达所述目标采集时间时,触发所述定时采集任务。
信息读取模块304;用于基于所述定时采集任务读取目标采集设备的设备信息,以获取所述设备信息中的设备标识符。
数据抓取模块305;用于根据设备标识符识别出与之匹配的目标采集设备并建立通信连接,访问所述目标采集设备的所述接口地址获取其视频流,从所述视频流中抓取若干份样本数据进行保存。需要强调的是,为进一步保证上述样本数据的私密和安全性,上述样本数据还可以存储于一区块链的节点中。
在本申请的一些实施例中,所述信息同步模块302用于确认目标设备提供方;获取所述目标设备提供方处采集设备的第一设备信息;将所述第一设备信息与本地存储的采集设备的第二设备信息进行同步,以实现对采集设备信息的更新。
进一步的,所述信息同步模块302还包括:设备匹配子模块。所述设备匹配子模块用于解析所述样本采集指令获取其中的目标采集需求,并确定所述目标采集需求中指定的目标采集环境;根据所述目标采集环境在所述目标设备提供方处进行匹配搜索,以找出在所述目标采集环境下的第一采集设备;获取所述第一采集设备的设备信息记为所述第一设备信息。
在本申请上述实施例的一种具体实施方式中,所述基于分布式系统的样本采集装置还包括:信息检验模块。在所述信息读取模块304基于所述定时采集任务读取目标采集设备的设备信息之前,所述信息检验模块用于比较所述第二设备信息与所述目标设备提供方处的第一设备信息,以检验所述第二设备信息是否过期;若过期,则基于所述第一设备信息对所述第二设备信息进行重新同步更新。
在本申请的一些实施例中,所述基于分布式系统的样本采集装置还包括:信息缓存模块。所述信息缓存模块用于确定所述定时采集任务中预设的采集设备的目标数量;随机读取与所述目标数量匹配的采集设备的设备信息存入数据缓存队列。所述信息读取模块304则用于依次读取所述数据缓存队列中存入的设备信息。
在本申请的一些实施例中,所述数据抓取模块305用于调用多媒体视频处理工具;访问所述接口地址获取目标采集设备的视频流;根据所述定时采集任务中预先配置的采样参数,通过所述多媒体视频处理工具从所述视频流中截取出所需的若干张样本图片作为样本数据进行保存。
在本申请的一些实施例中,所述基于分布式系统的样本采集装置还包括:样本纠错模块。在所述数据抓取模块305从所述视频流中抓取若干份样本数据进行保存之后,所述样本纠错模块用于与样本纠错系统建立通信连接;向所述样本纠错系统发送已抓取的所述若干份样本数据,并发送对所述若干份样本数据的纠错指令;接收由所述样本纠错系统反馈的样本结果数据。
本申请实施例所述的基于分布式系统的样本采集装置,通过样本采集系统结合视频服务提供商,使采集到的样本都是真实的场景数据,适用于场景识别模型的训练与测试,而通过对真实场景中合理的时间段安排,和定时启动分布式任务抓拍场景样本数据,既实现了自动化的样本采集,减少了工作人员的操作量,又极大地提高了样本收集的速度及质量。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如基于分布式系统的样本采集方法的程序代码等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据,例如运行所述基于分布式系统的样本采集方法的程序代码。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请实施例所述的计算机设备,通过处理器执行存储器中存储的计算机程序进行数据推送的功能测试时,无需通过前端操作创建任务,能够实现对大批量基于分布式系统的样本采集要求,并减少测试时间的消耗,提升功能测试的效率,在进行数据推送测试的过程中还能方便地进行压力测试,在通过日志判断数据的推送结果时还能方便分析测试时出现的问题,以及对测试过程中出现的问题进行定位。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于分布式系统的样本采集程序,所述基于分布式系统的样本采集程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于分布式系统的样本采集方法的步骤。
需要强调的是,为进一步保证上述样本数据的私密和安全性,上述样本数据还可以存储于一区块链的节点中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
在本申请所提供的上述实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述模块或组件可以是或者也可以不是物理上分开的,作为模块或组件显示的部件可以是或者也可以不是物理模块,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块或组件来实现本实施例方案的目的。
本申请不限于上述实施方式,以上所述是本申请的优选实施方式,该实施例仅用于说明本申请而不用于限制本申请的范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,其依然可以对前述各具体实施方式所记载的技术方案进行若干改进和修饰,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理应视为包括在本申请的保护范围之内。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,以及凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
Claims (9)
1.一种基于分布式系统的样本采集方法,其特征在于,包括:
接收样本采集指令,并响应于所述样本采集指令设置定时采集任务,所述样本采集指令中指定有目标采集时间;
获取采集设备的设备信息并同步至本地存储的历史采集设备的设备信息中,所述设备信息包括每个活跃的采集设备的设备标识符;
实时监控系统时间,在所述系统时间到达所述目标采集时间时,触发所述定时采集任务;
基于所述定时采集任务读取预先存储在数据缓存队列中的目标采集设备的设备信息,以获取所述设备信息中的设备标识符;
根据设备标识符识别出与之匹配的目标采集设备并建立通信连接,访问所述目标采集设备的接口地址获取其视频流,从所述视频流中抓取若干份样本数据进行保存;
在所述获取采集设备的设备信息并同步至本地存储的历史采集设备的设备信息中的步骤之后,所述方法还包括:
获取所述定时采集任务的执行时间;
确定所述定时采集任务中预设的采集设备的目标数量;
随机读取与所述目标数量匹配的采集设备的设备信息存入数据缓存队列,其中,读取所述采集设备的设备信息的时间与所述目标采集时间之间的间隔为所述定时采集任务的执行时间。
2.根据权利要求1所述的基于分布式系统的样本采集方法,其特征在于,所述获取采集设备的设备信息并同步至本地存储的历史采集设备的设备信息中的步骤包括:
确认目标设备提供方;
获取所述目标设备提供方处采集设备的第一设备信息;
将所述第一设备信息与本地存储的采集设备的第二设备信息进行同步,以实现对采集设备信息的更新。
3.根据权利要求2所述的基于分布式系统的样本采集方法,其特征在于,所述获取所述目标设备提供方处采集设备的第一设备信息的步骤包括:
解析所述样本采集指令获取其中的目标采集需求,并确定所述目标采集需求中指定的目标采集环境;
根据所述目标采集环境在所述目标设备提供方处进行匹配搜索,以找出在所述目标采集环境下的第一采集设备;
获取所述第一采集设备的设备信息记为所述第一设备信息。
4.根据权利要求2所述的基于分布式系统的样本采集方法,其特征在于,在所述基于所述定时采集任务读取目标采集设备的设备信息的步骤之前,所述方法还包括:
比较所述第二设备信息与所述目标设备提供方处的第一设备信息,以检验所述第二设备信息是否过期;
若过期,则基于所述第一设备信息对所述第二设备信息进行重新同步更新。
5.根据权利要求1所述的基于分布式系统的样本采集方法,其特征在于,所述访问所述目标采集设备的接口地址获取其视频流,从所述视频流中抓取若干份样本数据进行保存的步骤包括:
调用多媒体视频处理工具;
访问所述接口地址获取目标采集设备的视频流;
根据所述定时采集任务中预先配置的采样参数,通过所述多媒体视频处理工具从所述视频流中截取出所需的若干张样本图片作为样本数据进行保存。
6.根据权利要求1所述的基于分布式系统的样本采集方法,其特征在于,在所述从所述视频流中抓取若干份样本数据进行保存的步骤之后,所述方法还包括:
与样本纠错系统建立通信连接;
向所述样本纠错系统发送已抓取的所述若干份样本数据,并发送对所述若干份样本数据的纠错指令;
接收由所述样本纠错系统反馈的样本结果数据。
7.一种基于分布式系统的样本采集装置,其特征在于,包括:
任务设置模块,用于接收样本采集指令,并响应于所述样本采集指令设置定时采集任务,所述样本采集指令中指定有目标采集时间;
信息同步模块,用于获取采集设备的设备信息并同步至本地存储的历史采集设备的设备信息中,所述设备信息包括每个活跃的采集设备的设备标识符;
任务触发模块,用于实时监控系统时间,在所述系统时间到达所述目标采集时间时,触发所述定时采集任务;
信息读取模块,用于基于所述定时采集任务读取预先存储在数据缓存队列中的目标采集设备的设备信息,以获取所述设备信息中的设备标识符;
数据抓取模块,用于根据设备标识符识别出与之匹配的目标采集设备并建立通信连接,访问所述目标采集设备的接口地址获取其视频流,从所述视频流中抓取若干份样本数据进行保存;
该基于分布式系统的样本采集装置还包括:
信息缓存模块,用于获取所述定时采集任务的执行时长,在当前的系统时间与所述目标采集时间之间的时间间隔等于所述定时采集任务的执行时长时,确定所述定时采集任务中预设的采集设备的目标数量,随机读取与所述目标数量匹配的采集设备的设备信息存入数据缓存队列。
8.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6中任意一项所述的基于分布式系统的样本采集方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任意一项所述的基于分布式系统的样本采集方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010728386.3A CN111597388B (zh) | 2020-07-27 | 2020-07-27 | 基于分布式系统的样本采集方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010728386.3A CN111597388B (zh) | 2020-07-27 | 2020-07-27 | 基于分布式系统的样本采集方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597388A CN111597388A (zh) | 2020-08-28 |
CN111597388B true CN111597388B (zh) | 2021-03-19 |
Family
ID=72186682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010728386.3A Active CN111597388B (zh) | 2020-07-27 | 2020-07-27 | 基于分布式系统的样本采集方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597388B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114430531A (zh) * | 2020-09-16 | 2022-05-03 | 中国石油化工股份有限公司 | Gps数据传输系统、方法、装置、计算机设备和存储介质 |
CN114430418A (zh) * | 2020-09-28 | 2022-05-03 | 中国石油化工股份有限公司 | 地震数据传输系统、方法、装置、计算机设备和存储介质 |
CN112307046A (zh) * | 2020-11-26 | 2021-02-02 | 北京金堤征信服务有限公司 | 数据采集方法和装置、计算机可读存储介质、电子设备 |
CN113282530A (zh) * | 2021-07-20 | 2021-08-20 | 统信软件技术有限公司 | 一种设备信息处理方法及系统 |
CN115098411A (zh) * | 2022-06-30 | 2022-09-23 | 上海弘玑信息技术有限公司 | 一种数据采集方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105610843A (zh) * | 2015-12-31 | 2016-05-25 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 远程摄像画面实时分享方法及其系统 |
CN105761150A (zh) * | 2016-01-29 | 2016-07-13 | 中国科学院遥感与数字地球研究所 | 农作物信息及样本的采集方法和系统 |
CN109685213A (zh) * | 2018-12-29 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 一种训练样本数据的获取方法、装置和终端设备 |
CN111277672A (zh) * | 2020-03-31 | 2020-06-12 | 上海积成能源科技有限公司 | 一种基于非阻塞输入输出模型的能源物联网数据采集方法和软件网关 |
CN111291659A (zh) * | 2020-01-21 | 2020-06-16 | 北京儒博科技有限公司 | 一种状态提示的方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023617A (zh) * | 2009-09-17 | 2011-04-20 | 上海可鲁系统软件有限公司 | 一种基于工业互联网的煤矿安全信息监控系统 |
US10677807B2 (en) * | 2015-10-09 | 2020-06-09 | Edward L Mamenta | System and method for sample collection, transport and analysis |
CN108259823A (zh) * | 2017-12-28 | 2018-07-06 | 天地融科技股份有限公司 | 一种利用安全设备进行安全控制的方法及系统 |
CN109451019B (zh) * | 2018-11-07 | 2021-07-13 | 北京天安智慧信息技术有限公司 | 用于工业实时数据的高并发采集方法 |
CN111338882A (zh) * | 2018-12-18 | 2020-06-26 | 北京京东尚科信息技术有限公司 | 数据监控方法、装置、介质及电子设备 |
CN109587264A (zh) * | 2018-12-20 | 2019-04-05 | 新华三技术有限公司 | 数据监控方法、装置及云平台服务器 |
-
2020
- 2020-07-27 CN CN202010728386.3A patent/CN111597388B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105610843A (zh) * | 2015-12-31 | 2016-05-25 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 远程摄像画面实时分享方法及其系统 |
CN105761150A (zh) * | 2016-01-29 | 2016-07-13 | 中国科学院遥感与数字地球研究所 | 农作物信息及样本的采集方法和系统 |
CN109685213A (zh) * | 2018-12-29 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 一种训练样本数据的获取方法、装置和终端设备 |
CN111291659A (zh) * | 2020-01-21 | 2020-06-16 | 北京儒博科技有限公司 | 一种状态提示的方法、装置、设备及存储介质 |
CN111277672A (zh) * | 2020-03-31 | 2020-06-12 | 上海积成能源科技有限公司 | 一种基于非阻塞输入输出模型的能源物联网数据采集方法和软件网关 |
Also Published As
Publication number | Publication date |
---|---|
CN111597388A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597388B (zh) | 基于分布式系统的样本采集方法、装置、设备及介质 | |
CN111414334A (zh) | 基于云技术的文件分片上传方法、装置、设备及存储介质 | |
CN112052111B (zh) | 服务器异常预警的处理方法、装置、设备及存储介质 | |
CN112527816B (zh) | 数据血缘关系解析方法、系统、计算机设备及存储介质 | |
CN111552633A (zh) | 接口的异常调用测试方法、装置、计算机设备及存储介质 | |
CN111813573B (zh) | 管理平台与机器人软件的通信方法及其相关设备 | |
CN111782492A (zh) | 页面首屏加载时长测试方法、装置、计算机设备及介质 | |
CN113282611B (zh) | 一种流数据同步的方法、装置、计算机设备及存储介质 | |
CN112380227A (zh) | 基于消息队列的数据同步方法、装置、设备及存储介质 | |
CN112468409A (zh) | 访问控制方法、装置、计算机设备及存储介质 | |
CN111475515A (zh) | 失败任务的补偿管理方法、装置、计算机设备及存储介质 | |
CN111666298A (zh) | 基于flink的用户服务类别检测方法、装置、计算机设备 | |
CN112860662A (zh) | 数据血缘关系建立方法、装置、计算机设备及存储介质 | |
CN113254320A (zh) | 记录用户网页操作行为的方法及装置 | |
CN112835808A (zh) | 接口测试方法、装置、计算机设备及存储介质 | |
CN110807050B (zh) | 性能分析方法、装置、计算机设备及存储介质 | |
CN111813418A (zh) | 分布式链路跟踪方法、装置、计算机设备及存储介质 | |
CN111475388A (zh) | 数据推送的测试方法、装置、计算机设备及存储介质 | |
CN113094248A (zh) | 用户行为数据分析方法、装置、电子设备及介质 | |
CN117251228A (zh) | 功能管理方法、装置、计算机设备及存储介质 | |
CN110727576A (zh) | 一种web页面测试方法、装置、设备及存储介质 | |
CN114637651A (zh) | 内存帧率检测方法、装置、计算机设备及存储介质 | |
CN115330396A (zh) | 支付状态获取方法、装置、计算机设备及存储介质 | |
CN115203304A (zh) | 一种基于定时轮询的批量数据导入方法及相关设备 | |
CN114615325A (zh) | 消息推送方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |