CN111479140B - 数据采集方法、设备、计算机设备和存储介质 - Google Patents

数据采集方法、设备、计算机设备和存储介质 Download PDF

Info

Publication number
CN111479140B
CN111479140B CN202010232041.9A CN202010232041A CN111479140B CN 111479140 B CN111479140 B CN 111479140B CN 202010232041 A CN202010232041 A CN 202010232041A CN 111479140 B CN111479140 B CN 111479140B
Authority
CN
China
Prior art keywords
server
intelligent terminal
servers
terminal data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010232041.9A
Other languages
English (en)
Other versions
CN111479140A (zh
Inventor
马全辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coocaa Network Technology Co Ltd
Original Assignee
Shenzhen Coocaa Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coocaa Network Technology Co Ltd filed Critical Shenzhen Coocaa Network Technology Co Ltd
Priority to CN202010232041.9A priority Critical patent/CN111479140B/zh
Publication of CN111479140A publication Critical patent/CN111479140A/zh
Application granted granted Critical
Publication of CN111479140B publication Critical patent/CN111479140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • H04N21/23103Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion using load balancing strategies, e.g. by placing or distributing content on different disks, different memories or different servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26291Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for providing content or additional data updates, e.g. updating software modules, stored at the client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/458Scheduling content for creating a personalised stream, e.g. by combining a locally stored advertisement with an incoming stream; Updating operations, e.g. for OS modules ; time-related management operations
    • H04N21/4586Content update operation triggered locally, e.g. by comparing the version of software modules in a DVB carousel to the version stored locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Abstract

本申请涉及一种数据采集方法、设备、计算机设备和存储介质,所述数据采集方法应用于服务器,所述方法包括:多个第一服务器根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器;所述第二服务器对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器;所述第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据。本申请实施例增加了数据采集时的吞吐量,可以满足实时采集数据的需求。

Description

数据采集方法、设备、计算机设备和存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种数据采集方法、设备、计算机设备和存储介质。
背景技术
智能电视,是基于Internet应用技术,具备开放式操作系统与芯片,拥有开放式应用平台,可实现双向人机交互功能,集影音、娱乐、数据等多种功能于一体,以满足用户多样化和个性化需求的电视产品。智能电视带给用户更便捷的体验,目前已经成为电视的潮流趋势。
用户观看智能电视时,相关的信息及用户操作电视的行为会记录并发送给服务器。服务器接收智能电视的数据并保存入库,以给用户提供更多、更贴心的服务。
现有技术中的智能电视的用户数据的采集方法,并不能满足高可靠性、高吞吐量和实时采集的需求。
发明内容
为了解决上述技术问题,本申请提供了一种数据采集方法,能提高数据采集的吞吐量,提高数据采集的可靠性。
一方面,本申请提供了一种数据采集方法,应用于服务器,所述方法包括:
多个第一服务器根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器;
所述第二服务器对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器;
所述第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据。
本申请实施例中,所述多个第一服务器根据预设负载均衡策略接收智能终端数据,包括:
根据域名与IP地址的对应关系,从当前域名对应的多个IP地址中选取一个IP地址作为目标IP地址,使所述目标IP地址对应的第一服务器接收所述智能终端数据;
所述第一服务器转发智能终端数据至多个第二服务器,包括:
根据第一服务器与多个第二服务器的对应关系及所述预设负载均衡策略,当前第一服务器将接收的智能终端数据转发至对应的多个第二服务器中的任意一个第二服务器;
其中,所述域名为所述多个第一服务器的域名,所述域名对应多个IP地址,所述一个IP地址对应一个第一服务器,一个第一服务器对应多个第二服务器。
本申请实施例中,所述第一服务器与多个第二服务器的对应关系为:
根据第二服务器的IP地址,将所述第二服务器分组,每一组中包括多个第二服务器;
每一组第二服务器对应一个第一服务器;
其中,一个第二服务器对应一个IP地址。
本申请实施例中,所述第二服务器对接收的智能终端数据进行清洗,包括:
当前第二服务器根据对应的清洗策略,对所述智能终端数据进行清洗;
其中,不同组的第二服务器对应不同的清洗策略,同一组的第二服务器对应相同的清洗策略。
本申请实施例中,所述第二服务器对接收的智能终端数据进行清洗,包括:
获取所述智能终端数据的格式;
根据预设过滤规则,过滤掉不满足预设格式的智能终端数据;
判断所述智能终端数据的格式是否规范;
若所述智能终端数据的格式不规范,则对缺失字段进行补充。
本申请实施例中,所述方法还包括:
对清洗后的智能终端数据增加时间戳字段,所述时间戳字段用于校验数据。
本申请实施例中,一个第三服务器对应多个主题,一个主题对应多个第三服务器,
所述根据不同的主题,第二服务器将清洗后的智能终端数据发送至第三服务器,包括:
获取所述智能终端数据的主题;
获取所述主题对应的多个第三服务器;
将所述智能终端数据发送至所述主题对应的多个第三服务器中的任意一个第三服务器。
本申请实施例中,所述第三服务器为Kafka服务器,
所述第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,包括:
所述Kafka服务器按照对应的主题,对清洗后的智能终端数据进行固化。
第二方面,本申请还提供了一种数据采集设备,包括:
多个第一服务器,用于根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器;
所述第二服务器,用于对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器;
所述第三服务器,用于按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据。
第三方面,本申请提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请提供了一种数据采集方法,应用于服务器,所述方法包括:多个第一服务器根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器;所述第二服务器对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器;所述第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据。本申请实施例增加了数据采集时的吞吐量,可以满足实时采集数据的需求。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1所示为本申请实施例中的数据采集方法的应用环境图;
图2所示为本申请实施例的数据采集方法的流程图;
图3所示为本申请实施例的数据采集方法的流程图;
图4所示为本申请实施例的数据采集设备的示意图;
图5所示为本申请实施例中计算机设备的内部结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为一个实施例中页面数据处理方法的应用环境图。参照图1,该异常报文分类方法应用于异常报文分类系统。该异常报文分类包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑、智能电视等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图2所示为本申请实施例的数据采集方法的流程图,如图2所示,在一个实施例中,提供了一种数据采集方法,可以应用于上述终端110和服务器120。
参考图2,本申请实施例的一种数据采集方法,应用于服务器120,所述方法包括:
步骤210,多个第一服务器根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器;
步骤220,所述第二服务器对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器;
步骤230,所述第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据。
本申请实施例中,所述智能终端数据可以包括但不限于以下信息:
用户行为数据;
智能终端的硬件信息;
智能终端的机芯;
智能终端的MAC地址。
本申请实施例的数据采集方法中,多个第一服务器在接收智能终端数据和转发智能终端数据时均根据预设负载均衡策略进行负载均衡,增加了数据采集时的吞吐量,还可以提高数据采集的可靠性,可以满足实时采集数据的需求。
本申请实施例中,步骤210中,所述多个第一服务器根据预设负载均衡策略接收智能终端数据,包括:
根据域名与IP地址的对应关系,从当前域名对应的多个IP地址中选取一个IP地址作为目标IP地址,使所述目标IP地址对应的第一服务器接收所述智能终端数据;
所述第一服务器转发智能终端数据至多个第二服务器,包括:
根据第一服务器与多个第二服务器的对应关系及预设负载均衡策略,当前第一服务器将接收的智能终端数据转发至对应的多个第二服务器中的任意一个第二服务器;
其中,所述域名为所述多个第一服务器的域名,所述域名对应多个IP地址,所述一个IP地址对应一个第一服务器,一个第一服务器对应多个第二服务器。
域名(Domain Name),又称网域,是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识(有时也指地理位置),本申请实施例中,域名为多个第一服务器的域名,域名例如www.aaa.com等。
本申请实施例的负载均衡策略,可以是根据每个第一服务器、每个第二服务器当前的负载量进行负载均衡;或可以是根据每个第一服务器、每个第二服务器在一个时间段内的负载量进行负载均衡;或可以是根据智能数据的类型、属性等进行负载均衡,例如相同类型、属性的智能终端数据分配至一个服务器;或可以根据不同服务器的处理速度来进行负载均衡;或可以根据不同服务器的稳定性等来进行负载均衡;或可以是根据以上多种负载均衡方法中的多个进行组合来进行负载均衡。
本申请实施例中,第一服务器可以为nginx服务器。
本申请实施例中,域名与第一服务器的IP地址相对应,在接收智能终端数据时,在多个第一个服务器之间根据负载均衡策略选取一个第一服务器,在第一服务器向第二服务器转发智能终端数据的时候,也根据负载均衡策略选取一个第二服务器,相当于进行了两次负载均衡,可以充分利用各个服务器的资源,避免在某个或某几个服务器上出现负载过多的现象,可以提高整个数据采集时的数据吞吐量,同时也可以避免单个服务器上因短时间内数据吞吐量过大而造成的不稳定或宕机,还可以避免因服务器不稳定等造成的数据的丢失等,从而提高数据采集的可靠性。此外,多次负载均衡可以将负载均衡至多个服务器,充分利用多个服务器的资源,从而可以提高整个系统的处理速度。
本申请实施例中,所述第一服务器与多个第二服务器的对应关系为:
根据第二服务器的IP地址,将所述第二服务器分组,每一组中包括多个第二服务器;
每一组第二服务器对应一个第一服务器。
在本申请其他实施例中,还可以根据其他方式对第二服务器分组,在此不再赘述。
本申请实施例中,步骤220中,所述第二服务器对接收的智能终端数据进行清洗,包括:
当前第二服务器根据对应的清洗策略,对所述智能终端数据进行清洗;
其中,不同组的第二服务器对应不同的清洗策略,同一组的第二服务器对应相同的清洗策略。
对于不同组的第二服务器,可以配置不同的清洗策略,以适应智能终端数据的类型、属性、数据量、地理位置等对清洗策略的不同需求。
本申请的另一个实施例中,步骤220中,所述第二服务器对接收的智能终端数据进行清洗,包括:
获取所述智能终端数据的格式;
根据预设过滤规则,过滤掉不满足预设格式的智能终端数据;
判断所述智能终端数据的格式是否规范;
若所述智能终端数据的格式不规范,则对缺失字段进行补充。
本申请实施例中,第二服务器可以为flume服务器。
Flume服务器可以预设过滤规则,例如预设httpsource,过滤掉对不满足json格式的智能终端数据。
Flume服务器还可以判断智能终端数据的格式是否规范,如果不规范,则对缺失字段进行补充。
本申请实施例中,所述方法还包括:
对清洗后的智能终端数据增加时间戳字段,所述时间戳字段用于校验数据。
时间戳字段可以体现从智能终端数据生成到数据采集的时间间隔,以了解整个流程的性能,可以用于校验数据。
在本申请的一个实施例中,第一组第二服务器对应的清洗策略可以是:对正确的数据进行json解析并增加时间戳字段,转换ip为省市字段。第二组第二器的清洗策略可以是:对正确的数据进行json解析并增加时间戳字段,从mysql库中读取mac与影视的对应关系,增加数据的视频源字段。
本申请实施例中,一个第一服务器可以对应多个第二服务器,一个第一服务器只能将智能终端数据发送至其对应的第二服务器,不会将智能终端数据发送至其他第一服务器对应的第二服务器,相当于本申请实施例中,在第一服务器接收智能终端数据的时候,实际相当于已经对智能终端数据进行了分类/分组。在第一服务器将智能终端数据发送到对应的一组第二服务器中的任意一个第二服务器,这一组第二服务器上设置有相同的清洗策略,即在同一类/同一个分组的智能终端数据可以对应相同的清洗策略。可见,本申请实施例的方法,实现了对智能终端数据的自动分组和分组清洗。
在本申请实施例中,一个第三服务器对应多个主题,一个主题对应多个第三服务器,
步骤220中,根据不同的主题,第二服务器将清洗后的智能终端数据发送至第三服务器,包括:
获取所述智能终端数据的主题;
获取所述主题对应的多个第三服务器;
将所述智能终端数据发送至所述主题对应的多个第三服务器中的任意一个第三服务器。
本发明实施例中,主题可以是多种多样的,例如可以根据地理位置来划分主题,不同的地理位置对应不同的主题;或可以根据数据来源的智能终端来确定主体,例如A厂商的智能终端数据可以是一个主题,B厂商的智能终端数据可以是另一个主题;或可以根据用户行为、智能终端的硬件信息、智能终端的机芯、智能终端的MAC地址段等来划分主题,在此不再赘述。
在本申请实施例中,所述第三服务器可以为Kafka服务器。
在本申请实施例中,步骤230中,所述第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,包括:
所述Kafka服务器按照对应的主题,对清洗后的智能终端数据进行固化。
本申请实施例中,按照不同的主题对智能终端数据进行固化,可以实现对智能终端数据的分布式、随机化的固化处理。
本申请实施例的方法中,多个第一服务器根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器;第二服务器对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器;第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据,可以实现对智能终端数据的自动负载均衡,增加了整个数据采集系统的吞吐量,可以满足实时采集数据的需求,此外,还可以实现对智能终端数据的自动分组,并对分组后的智能终端数据根据不同的清洗策略进行清洗,实现了自动分组和自动清洗。另外,本申请实施例中按照不同的主题对智能终端数据进行固化,可以实现对智能终端数据的分布式、随机化的固化处理。
本申请实施例还提供了一种数据采集方法,应用于如图1所示的智能终端110,所述方法包括:
采集智能终端数据;
在接收到所述关机指令后,将所述智能终端数据发送至服务器。
本申请实施例中,所述将智能终端数据发送至服务器,包括:
将智能终端数据以http协议的形式发送至服务器。
图2为一个实施例中异常报文分类方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图3所示为本申请实施例的数据采集方法流程图,如图3所示,智能终端采集智能终端数据,并将智能终端数据发送至服务器。
本发明实施例中,第一服务器为nginx服务器,第二服务器为Flume服务器,第三服务器为Kafka服务器。
nginx服务器根据预设负载均衡策略接收智能终端数据。
nginx服务器根据预设负载均衡策略将智能终端数据转发至对应的多个第二服务器中的任意一个Flume服务器320。
Flume服务器对接收的智能终端数据进行清洗,并根据不同的主体,将清洗后的智能终端数据发送至Kafka服务器330。
Kafka服务器按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据。
图3所示的实施例中,各服务器的数量仅为示意性的表示,不代表各服务器的实际数量和比例。箭头示意性表示数据的流向,不代表某一具体的智能终端数据的流向。
在本申请实施例中,存储服务器可以是基于hadoop系统的存储系统。
本申请实施例的数据采集方法,可以实现对智能终端数据的自动负载均衡,增加了数据采集时的吞吐量,提高了数据采集的可靠性,可以满足实时采集数据的需求,还可以实现对智能终端数据的自动分组,并对分组后的智能终端数据根据不同的清洗策略进行清洗,实现了自动分组和自动清洗,还可以实现对智能终端数据的分布式、随机化的固化处理。
和上述数据采集方法相对应,本申请实施例还提供了一种数据采集设备。
图4所示为本申请实施例数据采集设备的示意图,如图4所示,数据采集设备包括:
多个第一服务器410,用于根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器420;
所述第二服务器420,用于对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器430;
所述第三服务器430,用于按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据。
本申请实施例中,第一服务器410还用于:
根据域名与IP地址的对应关系,从当前域名对应的多个IP地址中选取一个IP地址作为目标IP地址,使所述目标IP地址对应的第一服务器接收所述智能终端数据。
第一服务器410还用于:
根据第一服务器与多个第二服务器的对应关系及所述预设负载均衡策略,当前第一服务器将接收的智能终端数据转发至对应的多个第二服务器中的任意一个第二服务器;
其中,所述域名为所述多个第一服务器的域名,所述域名对应多个IP地址,所述一个IP地址对应一个第一服务器,一个第一服务器对应多个第二服务器。
所述第一服务器与多个第二服务器的对应关系为:
根据第二服务器的IP地址,将所述第二服务器分组,每一组中包括多个第二服务器;
每一组第二服务器对应一个第一服务器。
本申请实施例中,第二服务器420还用于:
当前第二服务器根据对应的清洗策略,对所述智能终端数据进行清洗;
其中,不同组的第二服务器对应不同的清洗策略,同一组的第二服务器对应相同的清洗策略。
在本申请实施例中,第二服务器420还用于:
获取所述智能终端数据的格式;
根据预设过滤规则,过滤掉不满足预设格式的智能终端数据;
判断所述智能终端数据的格式是否规范;
若所述智能终端数据的格式不规范,则对缺失字段进行补充。
在本申请实施例中,第二服务器420还用于:
对清洗后的智能终端数据增加时间戳字段,所述时间戳字段用于校验数据。
在本申请实施例中,一个第三服务器对应多个主题,一个主题对应多个第三服务器,
第二服务器420还用于:
获取所述智能终端数据的主题;
获取所述主题对应的多个第三服务器;
将所述智能终端数据发送至所述主题对应的多个第三服务器中的任意一个第三服务器。
本申请实施例中,所述第三服务器430为Kafka服务器,
所述第三服务器430还用于:
按照对应的主题,对清洗后的智能终端数据进行固化。
本申请实施例的数据采集设备,可以实现对智能终端数据的自动负载均衡,增加了整个数据采集系统的吞吐量,可以满足实时采集数据的需求,还可以实现对智能终端数据的自动分组,并对分组后的智能终端数据根据不同的清洗策略进行清洗,实现了自动分组和自动清洗,还可以实现对智能终端数据的分布式、随机化的固化处理。
本申请实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法的步骤。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图5所示,该计算机设备通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现页面数据处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行页面数据处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的异常报文分类方法和装置可以实现为一种计算机程序的形式,计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储异常报文分类装置的各个程序模块,比如,图4所示的第一服务器410、第二服务器420、第三服务器430。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据采集方法中的步骤。
例如,图5所示的计算机设备可以通过如图4所示的数据采集设备中的多个第一服务器410根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器420;计算机设备可以通过第二服务器420接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器430;计算机设备可以通过第三服务器430按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:第一服务器根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器;所述第二服务器对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器;所述第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据域名与IP地址的对应关系,从当前域名对应的多个IP地址中选取一个IP地址作为目标IP地址,使所述目标IP地址对应的第一服务器接收所述智能终端数据;根据第一服务器与多个第二服务器的对应关系及所述预设负载均衡策略,当前第一服务器将接收的智能终端数据转发至对应的多个第二服务器中的任意一个第二服务器;其中,所述域名为所述多个第一服务器的域名,所述域名对应多个IP地址,所述一个IP地址对应一个第一服务器,一个第一服务器对应多个第二服务器。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据第二服务器的IP地址,将所述第二服务器分组,每一组中包括多个第二服务器;每一组第二服务器对应一个第一服务器。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当前第二服务器根据对应的清洗策略,对所述智能终端数据进行清洗;其中,不同组的第二服务器对应不同的清洗策略,同一组的第二服务器对应相同的清洗策略。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取所述智能终端数据的格式;根据预设过滤规则,过滤掉不满足预设格式的智能终端数据;判断所述智能终端数据的格式是否规范;若所述智能终端数据的格式不规范,则对缺失字段进行补充。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对清洗后的智能终端数据增加时间戳字段,所述时间戳字段用于校验数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取所述智能终端数据的主题;获取所述主题对应的多个第三服务器;将所述智能终端数据发送至所述主题对应的多个第三服务器中的任意一个第三服务器。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述Kafka服务器按照对应的主题,对清洗后的智能终端数据进行固化。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:第一服务器根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器;所述第二服务器对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器;所述第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据域名与IP地址的对应关系,从当前域名对应的多个IP地址中选取一个IP地址作为目标IP地址,使所述目标IP地址对应的第一服务器接收所述智能终端数据;根据第一服务器与多个第二服务器的对应关系及所述预设负载均衡策略,当前第一服务器将接收的智能终端数据转发至对应的多个第二服务器中的任意一个第二服务器;其中,所述域名为所述多个第一服务器的域名,所述域名对应多个IP地址,所述一个IP地址对应一个第一服务器,一个第一服务器对应多个第二服务器。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据第二服务器的IP地址,将所述第二服务器分组,每一组中包括多个第二服务器;每一组第二服务器对应一个第一服务器。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当前第二服务器根据对应的清洗策略,对所述智能终端数据进行清洗;其中,不同组的第二服务器对应不同的清洗策略,同一组的第二服务器对应相同的清洗策略。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述智能终端数据的格式;根据预设过滤规则,过滤掉不满足预设格式的智能终端数据;判断所述智能终端数据的格式是否规范;若所述智能终端数据的格式不规范,则对缺失字段进行补充。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对清洗后的智能终端数据增加时间戳字段,所述时间戳字段用于校验数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述智能终端数据的主题;获取所述主题对应的多个第三服务器;将所述智能终端数据发送至所述主题对应的多个第三服务器中的任意一个第三服务器。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:所述Kafka服务器按照对应的主题,对清洗后的智能终端数据进行固化。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据采集方法,其特征在于,应用于服务器,所述方法包括:
多个第一服务器根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器;
所述第二服务器对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器;
所述第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据;
所述第一服务器转发智能终端数据至多个第二服务器,包括:
根据第一服务器与多个第二服务器的对应关系及所述预设负载均衡策略,当前第一服务器将接收的所述智能终端数据转发至对应的多个第二服务器中的任意一个第二服务器;
所述第一服务器与多个第二服务器的对应关系为:
根据第二服务器的IP地址,将所述第二服务器分组,每一组中包括多个第二服务器;
每一组第二服务器对应一个第一服务器;
其中,一个第二服务器对应一个IP地址。
2.如权利要求1所述的方法,其特征在于,所述多个第一服务器根据预设负载均衡策略接收智能终端数据,包括:
根据域名与IP地址的对应关系,从当前域名对应的多个IP地址中选取一个IP地址作为目标IP地址,使所述目标IP地址对应的第一服务器接收所述智能终端数据;
其中,所述域名为所述多个第一服务器的域名,所述域名对应多个IP地址,所述一个IP地址对应一个第一服务器,一个第一服务器对应多个第二服务器。
3.如权利要求1所述的方法,其特征在于,所述第二服务器对接收的智能终端数据进行清洗,包括:
当前第二服务器根据对应的清洗策略,对所述智能终端数据进行清洗;
其中,不同组的第二服务器对应不同的清洗策略,同一组的第二服务器对应相同的清洗策略。
4.如权利要求1所述的方法,其特征在于,所述第二服务器对接收的智能终端数据进行清洗,包括:
获取所述智能终端数据的格式;
根据预设过滤规则,过滤掉不满足预设格式的智能终端数据;
判断所述智能终端数据的格式是否规范;
若所述智能终端数据的格式不规范,则对缺失字段进行补充。
5.如权利要求1或4所述的方法,其特征在于,所述方法还包括:
对清洗后的智能终端数据增加时间戳字段,所述时间戳字段用于校验数据。
6.如权利要求1所述的方法,其特征在于,一个第三服务器对应多个主题,一个主题对应多个第三服务器,
所述根据不同的主题,第二服务器将清洗后的智能终端数据发送至第三服务器,包括:
获取所述智能终端数据的主题;
获取所述主题对应的多个第三服务器;
将所述智能终端数据发送至所述主题对应的多个第三服务器中的任意一个第三服务器。
7.如权利要求1所述的方法,其特征在于,所述第三服务器为Kafka服务器,
所述第三服务器按照不同的主题,对清洗后的智能终端数据进行固化,包括:
所述Kafka服务器按照对应的主题,对清洗后的智能终端数据进行固化。
8.一种数据采集设备,其特征在于,包括:
多个第一服务器,用于根据预设负载均衡策略接收智能终端数据,并转发所述智能终端数据至多个第二服务器;
所述第二服务器,用于对接收的智能终端数据进行清洗,并根据不同的主题,将清洗后的智能终端数据发送至第三服务器;
所述第三服务器,用于按照不同的主题,对清洗后的智能终端数据进行固化,以使存储服务器存储固化后的智能终端数据;
第一服务器还用于:
根据第一服务器与多个第二服务器的对应关系及所述预设负载均衡策略,当前第一服务器将接收的智能终端数据转发至对应的多个第二服务器中的任意一个第二服务器;
所述第一服务器与多个第二服务器的对应关系为:
根据第二服务器的IP地址,将所述第二服务器分组,每一组中包括多个第二服务器;
每一组第二服务器对应一个第一服务器;
其中,一个第二服务器对应一个IP地址。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010232041.9A 2020-03-27 2020-03-27 数据采集方法、设备、计算机设备和存储介质 Active CN111479140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010232041.9A CN111479140B (zh) 2020-03-27 2020-03-27 数据采集方法、设备、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010232041.9A CN111479140B (zh) 2020-03-27 2020-03-27 数据采集方法、设备、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111479140A CN111479140A (zh) 2020-07-31
CN111479140B true CN111479140B (zh) 2022-07-05

Family

ID=71749292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010232041.9A Active CN111479140B (zh) 2020-03-27 2020-03-27 数据采集方法、设备、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111479140B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127448A (zh) * 2021-04-23 2021-07-16 深圳市酷开网络科技股份有限公司 一种地域维度表生成方法、装置、服务器及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067837A (zh) * 2018-07-03 2018-12-21 沈阳电电科技有限公司 配电设备物联与信息采集平台
CN109286661A (zh) * 2018-08-29 2019-01-29 广东恒电信息科技股份有限公司 一种企业级PaaS平台自动化部署的数据处理方法
CN109670676A (zh) * 2018-11-26 2019-04-23 安徽继远软件有限公司 基于支持向量数据描述的配网台区风险预警方法及系统
CN109709389A (zh) * 2018-11-30 2019-05-03 珠海派诺科技股份有限公司 针对电力仪表分布式大容量实时数据采样告警方法和系统
CN110730250A (zh) * 2019-09-06 2020-01-24 北京小米移动软件有限公司 信息处理方法及装置、服务系统、存储介质
CN110825801A (zh) * 2019-11-06 2020-02-21 卡斯柯信号(成都)有限公司 基于分布式架构的列车信号系统车载日志分析系统和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9288184B1 (en) * 2013-05-16 2016-03-15 Wizards Of The Coast Llc Distributed customer data management network handling personally identifiable information
CN104714946A (zh) * 2013-12-11 2015-06-17 田鹏 一种基于NoSQL的大规模Web日志分析系统
EP3207667B1 (en) * 2014-10-14 2021-09-29 Sony Semiconductor Solutions Corporation System and method for distributed flow state p2p setup in virtual networks
US10116521B2 (en) * 2015-10-15 2018-10-30 Citrix Systems, Inc. Systems and methods for determining network configurations using historical real-time network metrics data
CN109934402A (zh) * 2019-03-11 2019-06-25 北京天润新能投资有限公司西北分公司 一种风电场集控中心集中风功率预测系统及其设计方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067837A (zh) * 2018-07-03 2018-12-21 沈阳电电科技有限公司 配电设备物联与信息采集平台
CN109286661A (zh) * 2018-08-29 2019-01-29 广东恒电信息科技股份有限公司 一种企业级PaaS平台自动化部署的数据处理方法
CN109670676A (zh) * 2018-11-26 2019-04-23 安徽继远软件有限公司 基于支持向量数据描述的配网台区风险预警方法及系统
CN109709389A (zh) * 2018-11-30 2019-05-03 珠海派诺科技股份有限公司 针对电力仪表分布式大容量实时数据采样告警方法和系统
CN110730250A (zh) * 2019-09-06 2020-01-24 北京小米移动软件有限公司 信息处理方法及装置、服务系统、存储介质
CN110825801A (zh) * 2019-11-06 2020-02-21 卡斯柯信号(成都)有限公司 基于分布式架构的列车信号系统车载日志分析系统和方法

Also Published As

Publication number Publication date
CN111479140A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
TWI683251B (zh) 界面展示方法及裝置
US20090307602A1 (en) Systems and methods for creating and sharing a presentation
CN103686237A (zh) 推荐视频资源的方法及系统
CN107291449B (zh) 一种页面渲染方法、装置及设备
CN111163072B (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN107870989A (zh) 网页生成方法及终端设备
CN111163130A (zh) 一种网络服务系统及其数据传输方法
CN110807009B (zh) 文件处理方法及装置
CN111479140B (zh) 数据采集方法、设备、计算机设备和存储介质
CN111897978A (zh) 直播状态监测方法、装置、电子设备及存储介质
CN110806913A (zh) 网页截图方法、装置及设备
CN111078588B (zh) 垃圾回收方法、装置、设备及存储介质
CN112559642A (zh) 数据分类存储方法、装置及相关产品
CN116150513A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN105897934A (zh) 在服务器实现的业务请求处理方法及装置
CN108243229B (zh) 请求处理方法及装置
CN112860720B (zh) 一种存储容量的更新方法以及装置
CN111428128B (zh) 可插拔推荐系统的生成方法、服务推荐方法、装置及设备
CN113347461A (zh) 一种媒资内容提升方法及装置
CN107977418A (zh) 一种截屏图片管理方法、截屏图片管理装置及移动终端
CN102857524B (zh) 一种调用组件的方法及装置
CN111935204A (zh) 一种节目推荐方法、装置及电子设备
CN113485921A (zh) 文件系统的测试方法、装置、设备及存储介质
CN101872353A (zh) 用于保护数字内容著作权的分布式过滤装置及其方法
US9473556B1 (en) Content discovery using description sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 2306, east block, Skyworth semiconductor design building, 18 Gaoxin South 4th Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Applicant after: Shenzhen Kukai Network Technology Co.,Ltd.

Address before: 2306, east block, Skyworth semiconductor design building, 18 Gaoxin South 4th Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Applicant before: Shenzhen Coocaa Network Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant