CN117155973A - 一种基于分布式计算的数据采集系统及方法 - Google Patents

一种基于分布式计算的数据采集系统及方法 Download PDF

Info

Publication number
CN117155973A
CN117155973A CN202311111697.5A CN202311111697A CN117155973A CN 117155973 A CN117155973 A CN 117155973A CN 202311111697 A CN202311111697 A CN 202311111697A CN 117155973 A CN117155973 A CN 117155973A
Authority
CN
China
Prior art keywords
acquisition
data
file
sub
identification code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311111697.5A
Other languages
English (en)
Inventor
李洪健
罗鑫凯
王新勇
高天鸣
单鑫
王佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Entertainment Technology Qingdao Co ltd
Original Assignee
Chinese Translation Entertainment Technology Qingdao Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Entertainment Technology Qingdao Co ltd filed Critical Chinese Translation Entertainment Technology Qingdao Co ltd
Priority to CN202311111697.5A priority Critical patent/CN117155973A/zh
Publication of CN117155973A publication Critical patent/CN117155973A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Cardiology (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及数据采集技术领域,具体为一种基于分布式计算的数据采集系统及方法,包括子采集点位,子采集点位包括子采集点位一、子采集点位二、子采集点位三直至子采集点位N,子采集点位通过数据通信与采集服务器连接,采集服务器通过数据通信与主采集点位连接。本发明通过多个子采集点位与采集服务器连接,采集服务器通过数据通信与主采集点位连接的方式设计,能够有效分担服务器负载,提升数据采集效率,快速且稳定的实现跨媒体的大规模数据采集效果。

Description

一种基于分布式计算的数据采集系统及方法
技术领域
本发明涉及数据采集技术领域,具体为一种基于分布式计算的数据采集系统及方法。
背景技术
分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都可能有DBMS的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。
数据采集,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析,处理。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口,数据采集技术广泛应用在各个领域,比如摄像头,麦克风,都是数据采集工具。
直播是目前比较新型的一种行业,其通过电脑或手机设备,可实现与观众的在线互动,直播的人也称为主播,可进行各类信息的发布,根据观众的打赏的实现收益。
直播平台是主播主要的直播环境,主要由直播客户端、直播网页端以及管理后台构成,众多用户将其用于在线研讨会、营销会议等网络活动场景,扩大市场活动,有效提高管理和运营效率,直接促进企业销售业绩提升,使企业竞争力得到极大提升。
随着互联网规模的快速增长,互联网数据的价值越来越受到重视。互联网数据具有数据量巨大、更新频率快、价值密度低等特点,需要进行大规模、分布式的数据采集。
数据采集、传输以及存储系统是指采用若干数据采集设备进行数据采集,再将数据采集设备采集的数据通过有线通讯或无线通讯的方式传输给数据存储装置进行储存的数据处理系统,而现有专利在数据采集的高效性、灵活性以及保证数据的唯一性方面存在明显不足。
发明内容
本发明的目的在于提供一种基于分布式计算的数据采集系统及方法,以解决随着大规模数据采集的需求增加,服务器的负载问题、采集效率问题、以及资源去重问题,已成为分布式数据采集的重点和难点,严重影响大规模数据采集现状的发展。
为实现上述目的,本发明提供如下技术方案:一种基于分布式计算的数据采集系统,包括子采集点位,所述子采集点位包括子采集点位一、子采集点位二、子采集点位三直至子采集点位N,所述子采集点位通过数据通信与采集服务器连接,所述采集服务器通过数据通信与主采集点位连接。
优选的,所述子采集点位为若干个客户端,所述主采集点位为客服终端。
优选的,所述客户端包括可用于数据上报的手机、平板电脑和台式机。
优选的,所述数据通信为网络端,包括网线通信、移动数据通信和无线局域网通信
优选的,所述采集服务器包括处理器和存储器,处理器包括数据接入、数据过滤、数据归纳以及数据分配。
优选的,所述设定子采集点项目启动时注册到采集服务器注册中心处,采用周期性心跳机制定时发送心跳链接,可保证子采集节点服务安全可用。
优选的,所述基于MD5算法对采集到的数据文件进行唯一性校验,具体包括以下步骤:
S1、获取采集到的多个文件;
S2、利用MD5信息摘要算法对上述多个文件进行序列化,对每个文件分配识别码;
S3、采集服务器查询新识别码是否存在于系统的文件识别码表中,以判断该文件是否已经保存在该采集服务器中;
S4、若存在,则过滤此文件;若不存在,则采集服务器允许系统上传并存储该识别码所对应的文件,同时将该文件的识别码记录到文件识别码表中,进行文件识别码表的同步更新。
在上S4中,当文件标识码表中存在标识码时,说明服务器中已经保存所对应的文件,此时采集服务器不再保存新文件,避免资源浪费,当不存在时,服务器保存所接收到文件,并将其标识码记录到文件识别码表中,文件识别码表与文件数据采集内容同步更新。
优选的,所述系统的每个资源模块各自具备独立的文件识别码表,用于数据资源的分类筛选存储,模块化的数据文件区别设计可增强数据采集的针对性,进一步提高系统采集效率,便于系统的数据资源管理。
优选的,所述采集端下载视频数据的同时,可同步进行MD5计算。
与现有技术相比,本发明的有益效果是:
1.本发明通过多个子采集点位与采集服务器连接,采集服务器通过数据通信与主采集点位连接的方式设计,能够有效分担服务器负载,提升数据采集效率,快速且稳定的实现跨媒体的大规模数据采集效果。
2.本发明通过通过利用MD5算法对文件进行序列化,获取每个文件的唯一识别码,并通过服务器进行识别码的唯一性校验,由此可有效确保数据采集存储的唯一性,避免资源浪费。
3.系统的采集端下载视频数据的同时,可同步进行MD5计算,进一步避免存储空间的浪费。
附图说明
图1为本发明的采集信息示意图;
图2为本发明的采集服务器基础示意图;
图3为本发明的数据处理信息示意图;
图4为本发明的客户端示意图;
图5为本发明的网络端示意图
图6为本发明的MD5算法示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例Ⅰ
请参阅图1-6,一种基于分布式计算的数据采集系统,包括子采集点位,其特征在于:子采集点位包括子采集点位一、子采集点位二、子采集点位三直至子采集点位N,子采集点位通过数据通信与采集服务器连接,采集服务器通过数据通信与主采集点位连接。
进一步的,子采集点位为若干个客户端,主采集点位为客服终端。
进一步的,客户端包括可用于数据上报的手机、平板电脑和台式机。
进一步的,数据通信为网络端,包括网线通信、移动数据通信和无线局域网通信
进一步的,采集服务器包括处理器和存储器,处理器包括数据接入、数据过滤、数据归纳以及数据分配。
具体的,在本申请实施例中,子采集点采用分布式集群方式部署,可实现系统的高可用,高负载,高并发。
本发明通过多个子采集点与采集服务器的数据通讯连接,能够有效分担服务器负载,提升数据采集效率,快速且稳定的实现跨媒体的大规模数据采集效果。
进一步的,本申请设定子采集点项目启动时注册到采集服务器注册中心处,采用周期性心跳机制定时发送心跳链接,可保证子采集节点服务安全可用。
进一步的,本申请基于MD5算法对采集到的数据文件进行唯一性校验,具体包括以下步骤:
S1、获取采集到的多个文件;
S2、利用MD5信息摘要算法对上述多个文件进行序列化,对每个文件分配识别码;
S3、采集服务器查询新识别码是否存在于系统的文件识别码表中,以判断该文件是否已经保存在该采集服务器中;
S4、若存在,则过滤此文件;若不存在,则采集服务器允许系统上传并存储该识别码所对应的文件,同时将该文件的识别码记录到文件识别码表中,进行文件识别码表的同步更新。
应当理解的是,利用MD5算法对文件分配的识别码具备唯一性,不同识别码代表不同文件内容;相同文件所分配到的识别码具备一致性,且不受文件数据获取平台的限制。即无论文件来自抖音、B站、快手或其他平台,只要文件内容相同则识别码相同,文件内容不同则识别码不同。
具体的,所述文件识别码表用于记录系统所采集到并通过唯一性检验的文件所对应的识别码,以便于对照查询新获取的识别码是否已存在,由此进行文件的唯一性检验。
在S4中,当文件标识码表中存在标识码时,说明服务器中已经保存所对应的文件,此时采集服务器不再保存新文件,避免资源浪费,当不存在时,服务器保存所接收到文件,并将其标识码记录到文件识别码表中,文件识别码表与文件数据采集内容同步更新。
在本申请的另一实施例中,数据采集系统采用模块化,服务化的设计思想,用户可根据不同业务需求自定义若干个资源模块,每个模块都对应于一个API调用地址,当用户调用某个服务时只需要向该API发送HTTP请求即可。
进一步的,系统的每个资源模块各自具备独立的文件识别码表,用于数据资源的分类筛选存储,模块化的数据文件区别设计可增强数据采集的针对性,进一步提高系统采集效率,便于系统的数据资源管理。
可理解的是,本发明实施例中MD5算法是指信息摘要算法(Message-DigestAlgorithm 5,MD5),本领域技术人员根据上文中MD5算法的功能选择合适的算法参数,在此不再赘述。
本发明通过利用MD5算法对文件进行序列化,获取每个文件的唯一识别码,并通过服务器进行识别码的唯一性校验,由此可有效确保数据采集存储的唯一性,避免资源浪费。
进一步的,由于视频文件通常数据较大,故本申请系统的采集端下载视频数据的同时,可同步进行MD5计算,例如,通过分割视频文件,设置视频数据下载到5兆时即开始进行MD5计算,提前进行视频文件的唯一性判断,以进一步避免存储空间的浪费。
此外,除MD5算法外,也可采用SHA1算法、CRC算法等方法进行进行文件数据的唯一性判断。
在本申请实施例中,所述子采集点位为若干个用户端,所述主采集点位为系统终端;所述用户端包括但不限定于可用于数据上报的手机、平板电脑和台式机。
在本申请实施例中,所述数据通信为网络端,包括网线通信、移动数据通信和无线局域网通信。
在本申请实施例中,所述采集服务器包括处理器和存储器,处理器包括数据接入、数据过滤、以及数据存储。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于分布式计算的数据采集系统,包括子采集点位,其特征在于:所述子采集点位包括子采集点位一、子采集点位二、子采集点位三直至子采集点位N,所述子采集点位通过数据通信与采集服务器连接,所述采集服务器通过数据通信与主采集点位连接。
2.根据权利要求1所述的一种基于分布式计算的数据采集系统,其特征在于:所述子采集点位为若干个客户端,所述主采集点位为客服终端。
3.根据权利要求1所述的一种基于分布式计算的数据采集系统,其特征在于:所述客户端包括可用于数据上报的手机、平板电脑和台式机。
4.根据权利要求1所述的一种基于分布式计算的数据采集系统,其特征在于:所述数据通信为网络端,包括网线通信、移动数据通信和无线局域网通信。
5.根据权利要求1所述的一种基于分布式计算的数据采集系统,其特征在于:所述采集服务器包括处理器和存储器,处理器包括数据接入、数据过滤、数据归纳以及数据分配。
6.根据权利要求1所述的一种基于分布式计算的数据采集系统及方法,其特征在于:所述设定子采集点项目启动时注册到采集服务器注册中心处,采用周期性心跳机制定时发送心跳链接,可保证子采集节点服务安全可用。
7.根据权利要求6所述的一种基于分布式计算的数据采集系统及方法,其特征在于:所述基于MD5算法对采集到的数据文件进行唯一性校验,具体包括以下步骤:
S1、获取采集到的多个文件;
S2、利用MD5信息摘要算法对上述多个文件进行序列化,对每个文件分配识别码;
S3、采集服务器查询新识别码是否存在于系统的文件识别码表中,以判断该文件是否已经保存在该采集服务器中;
S4、若存在,则过滤此文件;若不存在,则采集服务器允许系统上传并存储该识别码所对应的文件,同时将该文件的识别码记录到文件识别码表中,进行文件识别码表的同步更新。
8.根据权利要求6所述的一种基于分布式计算的数据采集系统及方法,其特征在于:所述系统的每个资源模块各自具备独立的文件识别码表,用于数据资源的分类筛选存储。
9.根据权利要求7所述的一种基于分布式计算的数据采集系统及方法,其特征在于:所述采集端下载视频数据的同时,可同步进行MD5计算。
CN202311111697.5A 2023-08-31 2023-08-31 一种基于分布式计算的数据采集系统及方法 Pending CN117155973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311111697.5A CN117155973A (zh) 2023-08-31 2023-08-31 一种基于分布式计算的数据采集系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311111697.5A CN117155973A (zh) 2023-08-31 2023-08-31 一种基于分布式计算的数据采集系统及方法

Publications (1)

Publication Number Publication Date
CN117155973A true CN117155973A (zh) 2023-12-01

Family

ID=88900173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311111697.5A Pending CN117155973A (zh) 2023-08-31 2023-08-31 一种基于分布式计算的数据采集系统及方法

Country Status (1)

Country Link
CN (1) CN117155973A (zh)

Similar Documents

Publication Publication Date Title
CN110737658A (zh) 数据分片存储方法、装置、终端及可读存储介质
CN110737726B (zh) 一种确定待测试接口的测试数据的方法和装置
CN104168335B (zh) 一种数据同步方法和装置
CN109783426A (zh) 采集数据的方法、装置、计算机设备及存储介质
CN106791889A (zh) 一种视频处理方法及系统、分布式对象存储系统
CN109218041B (zh) 用于服务器系统的请求处理方法和装置
CN107368407B (zh) 信息处理方法和装置
CN111813685A (zh) 自动化测试方法和装置
CN107729394A (zh) 基于Hadoop集群的数据集市管理系统及其使用方法
CN106294345A (zh) 应用程序的日志内容的处理方法和装置
CN111984723A (zh) 数据同步方法、装置及终端设备
CN104239423A (zh) 一种人脉关系距离获取方法及系统
CN112241357B (zh) 灰度测试的方法、装置、设备和计算机可读介质
CN117155973A (zh) 一种基于分布式计算的数据采集系统及方法
CN107679096B (zh) 数据集市间指标共享的方法和装置
CN111506646A (zh) 数据同步方法、装置、系统、存储介质及处理器
CN107690057B (zh) 会议视频数据交互方法及装置
CN107920100B (zh) 信息推送方法和装置
CN111047229A (zh) 一种订单配送信息的处理方法和系统
CN113127292A (zh) 一种适用于多云管理的运维、监控方法
CN111275368B (zh) 一种推送信息的方法和装置
CN113407339A (zh) 资源请求反馈方法、装置、可读存储介质及电子设备
CN112559001A (zh) 更新应用的方法和装置
CN112965844A (zh) 一种cpu飙升事故处理方法和装置
CN118200140B (zh) 数据处理方法、管理系统及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination