CN117076748B - 数据采集方法、装置、计算机设备、存储介质 - Google Patents
数据采集方法、装置、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN117076748B CN117076748B CN202311061707.9A CN202311061707A CN117076748B CN 117076748 B CN117076748 B CN 117076748B CN 202311061707 A CN202311061707 A CN 202311061707A CN 117076748 B CN117076748 B CN 117076748B
- Authority
- CN
- China
- Prior art keywords
- data
- acquisition
- data source
- index
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 134
- 230000008569 process Effects 0.000 claims abstract description 73
- 238000004590 computer program Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 9
- 238000013139 quantization Methods 0.000 claims description 7
- 230000002085 persistent effect Effects 0.000 claims description 5
- 238000004321 preservation Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5044—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5055—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering software capabilities, i.e. software resources associated or available to the machine
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Stored Programmes (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本公开涉及一种数据采集方法、装置、计算机设备、存储介质。所述方法包括:与至少一个数据源连接,基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数;根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别;根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数;基于每个所述数据源对应的目标控制参数调整所述采集程序,以指示调整后的所述采集程序采集所述数据源中的数据。采用本方法能够提高数据采集效率。
Description
技术领域
本公开涉及数据处理技术领域,特别是涉及一种数据采集方法、装置、计算机设备、存储介质。
背景技术
随着互联网时代的发展,不仅为信息交流提供了越来越多的载体形式,而且也极大的缩短了交流的延迟,使得信息数据传播进入前所未有的低门槛时代。在此背景下,繁杂的信息传播过程构成了一个全新的生态网络,利用互联网进行数据采集,提取数据海洋中的有效信息,发掘数据潜在价值,将为人类生活、商业发展、科研教育等多方面领域带来不可估量的指导价值。因此,数据采集技术的成本、时效就是及时进行有效数据分析的门槛所在。
然而目前数据采集过程中,由于存在硬件压力等问题,不可避免的会出现资源不足、资源浪费的情况。若被采集数据源的服务器资源不足,采集方就易产生性能浪费,导致数据采集的效率较低;若采集方的硬件性能不足,又无法充分实现对被采集数据源的访问、采集、监控,也会导致数据采集的效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据采集效率的数据采集方法、装置、计算机设备、存储介质。
第一方面,本公开提供了一种数据采集方法。所述方法包括:
与至少一个数据源连接,基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数;
根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别;
根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数;
基于每个所述数据源对应的目标控制参数调整所述采集程序,以指示调整后的所述采集程序采集所述数据源中的数据。
在其中一个实施例中,所述基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数,包括:
利用预先设置的采集程序的控制参数和所述采集程序,采集每个所述数据源中的数据,获取在采集过程中的采集指标和所述采集程序采集到的目标数据,所述采集指标为每个数据源相对应的所述采集程序采集到的指标;所述控制参数包括:采集量、访问并发数量、访问延迟;所述采集指标包括:采集时间、采集数据的数据量;
根据所述采集到的目标数据,确定数据指标,所述数据指标包括:数据新增量、数据刷新量;
根据每个数据源的所述采集指标和数据指标,确定每个数据源的数据采集过程中的采集参数。
在其中一个实施例中,所述基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数,还包括:
在数据采集过程中,调整所述控制参数中访问频率和访问量,对每个所述数据源进行压力测试,确定每个所述数据源的压力指标;
根据每个数据源的所述采集指标、数据指标和压力指标,确定每个数据源的数据采集过程中的采集参数。
在其中一个实施例中,所述根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别,包括:
将每个数据源的每种采集指标进行量化定级,确定每个数据源在每种采集指标下的第一级别;
将每个数据源的每种数据指标进行量化定级,确定每个数据源在每种数据指标下的第二级别;
将每个数据源的压力指标进行量化定级,确定每个数据源的压力指标对应的第三级别;
根据所述第一级别、所述第二级别和所述第三级别,确定每个所述数据源的目标级别。
在其中一个实施例中,所述根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数,包括:
确定影响所述采集指标的第一控制参数,确定影响所述数据指标的第二控制参数,确定影响所述压力指标的第三控制参数;
响应于所述目标级别中第一级别未满足预设的第一阈值级别,调整所述第一控制参数,直至利用调整后的第一控制参数确定的目标级别中第一级别满足预设的第一阈值级别;
响应于所述目标级别中第二级别未满足预设的第二阈值级别,调整所述第二控制参数,直至利用调整后的第二控制参数确定的目标级别中第二级别满足预设的第一阈值级别;
响应于所述目标级别中第三级别未满足预设的第三阈值级别,调整所述第三控制参数,直至利用调整后的第三控制参数确定的目标级别中第三级别满足预设的第三阈值级别;
基于调整后的第一控制参数、调整后的第二控制参数、调整后的第三控制参数中的一种或几种,确定目标控制参数。
在其中一个实施例中,所述方法还包括:
将所述采集参数进行持久化的保存。
第二方面,本公开还提供了一种数据采集装置。所述装置包括:
采集参数获取模块,用于与至少一个数据源连接,基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数;
目标级别确定模块,用于根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别;
控制参数调整模块,用于根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数;
数据采集模块,用于基于每个所述数据源对应的目标控制参数调整所述采集程序,以指示所述采集程序采集所述数据源中的数据。
第三方面,本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法实施例中的步骤。
第四方面,本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
第五方面,本公开还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
上述各实施例中,于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数,能够准确的确定在数据采集过程中数据源所对应的各种采集参数。进而根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别,能够确定在数据采集过程数据源所属的分级,进而来利用目标级别来评价在数据采集过程中数据源各种指标。根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数;基于每个所述数据源对应的目标控制参数调整所述采集程序,以指示调整后的所述采集程序采集所述数据源中的数据。然后可以根据目标级别对控制参数进行调整,使得在数据采集过程中软件和/或硬件资源随目标级别得以动态分配。通过上述方式,能够按照目标级别针对性的对控制参数进行调整,能够提高数据采集效率。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中数据采集方法的应用环境示意图;
图2为一个实施例中数据采集方法的流程示意图;
图3为一个实施例中S202步骤一部分的流程示意图;
图4为一个实施例中S202步骤另一部分的流程示意图;
图5为一个实施例中S204步骤的流程示意图;
图6为一个实施例中S206步骤的流程示意图;
图7为另一个实施例中数据采集方法的流程示意图;
图8为一个实施例中数据采集装置的结构示意框图;
图9为一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
正如背景技术所述,传统技术中可以利用网络请求发送技术来采集数据,python语言中的request技术,为代码提供网络请求接口,可以实现多种形式的携带参数的网络请求,并能够对服务器响应的数据进行一定的处理,可以实现网络访问的自动化、批量化,但是采集数据的整体效率较低。还可以利用爬虫框架系统来采集数据,如scrapy等爬虫框架,通过对数据采集过程的详细拆解,从代码底层重新构建适用于批量操作、异步执行的框架系统,比单线程实现单个数据源采集的流程要更加高效,极大的提升了硬件资源的利用率。本质是以尽可能的高效率来批量完成数据采集过程中的请求、数据接收、数据处理等过程。但未考虑硬件实际情况与大规模数据采集时的潜在问题,即硬件资源的使用率,会造成硬件资源不足,导致采集效率降低。
因此,为解决上述问题,本公开实施例提供了一种数据采集方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与至少一个数据源104进行通信连接。终端102基于预先设置的采集程序的控制参数和采集程序采集每个数据源104中的数据。终端102获取数据采集过程中每个数据源104的采集参数。终端102根据每个数据源在数据采集过程中的采集参数,确定每个数据源104的目标级别。终端102根据每个数据源的目标级别,调整所述控制参数,得到每个所述数据源104对应的目标控制参数。终端102基于每个数据源104对应的目标控制参数调整所述采集程序,以指示所述采集程序采集所述数据源104中的数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。数据源104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据采集方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
S202,与至少一个数据源连接,基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数。
其中,数据源可以包括网站、数据库、文件系统等等。采集程序在本公开的一些实施例中通常可以是采集数据的程序,该程序可以使用python语言、java语言等编程语言进行编写得到。控制参数通常可以是控制采集程序在采集数据的过程的参数,例如采集时间、采集频率、并发数量、采集延迟等等。采集参数通常可以是在采集程序和采集到的数据的各种详细的信息,
具体地,当需要进行采集至少一个数据源中的数据时。首先与至少一个数据进行连接,连接的方式可以是无线连接,例如通过数据接口等连接,具体的连接方式在本公开的一些实施例中不进行绝对性的限制。可以在终端102中预先设置采集程序的控制参数。然后利用控制参数和采集程序来采集每个数据源中的数据。获取每个数据源在数据采集过程中的采集参数。
S204,根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别。
其中,目标级别在本公开的一些实施例中可以用来表征数据源在采集数据的级别。通常情况下,目标级别越高,可以确定在采集该数据源的数据时使用的资源较多,相应的分配资源或者调整控制参数过程中,将控制参数调整大一些,以此能够保证数据采集的速度。
具体地,由于采集参数包括了采集过程中的各种信息。以此可以根据采集参数来确定每个数据源的目标级别。
S206,根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数。
具体地,当确定了某个数据源的目标级别之后,由于目标级别是反映了在采集过程中级别。当目标级别高,相应的分配资源或者调整控制参数也会调整的比较大。当目标级别低,为了不占用过多的资源,可以将控制参数调低。因此可以根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数。
S208,基于每个所述数据源对应的目标控制参数调整所述采集程序,以指示调整后的所述采集程序采集所述数据源中的数据。
具体地,可以利用目标控制参数来调整采集程序,进而利用调整后的采集程序来采集数据源中的数据。
上述数据采集方法中,基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数,能够准确的确定在数据采集过程中数据源所对应的各种采集参数。进而根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别,能够确定在数据采集过程数据源所属的分级,进而来利用目标级别来评价在数据采集过程中数据源各种指标。根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数;基于每个所述数据源对应的目标控制参数调整所述采集程序,以指示调整后的所述采集程序采集所述数据源中的数据。然后可以根据目标级别对控制参数进行调整,使得在数据采集过程中软件和/或硬件资源随目标级别得以动态分配。通过上述方式,能够按照目标级别针对性的对控制参数进行调整,能够提高数据采集效率。
在一个实施例中,如图3所示,所述基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数,包括:
S302,利用预先设置的采集程序的控制参数和所述采集程序,采集每个所述数据源中的数据,获取在采集过程中的采集指标和所述采集程序采集到的目标数据。
S304,根据所述采集到的目标数据,确定数据指标,所述数据指标包括:数据新增量、数据刷新量。
S306,根据每个数据源的所述采集指标和数据指标,确定每个数据源的数据采集过程中的采集参数。
其中,所述采集指标为每个数据源相对应的所述采集程序采集到的指标,所述采集指标包括:采集时间、采集数据的数据量。例如采集程序的采集数据的时间,采集程序采集到的数据的数据量,采集程序在采集数据时的频率等等。所述控制参数可以包括:采集量、访问并发数量、访问延迟、访问使用代理等一系列可详细调控采集程序的参数。目标数据通常可以是数据源中的一部分或者一小部分数据。
具体地,通常情况下,可以使用不相同的采集程序来每个数据源中的数据。每个采集程序均设置用以控制采集量、访问并发数量、访问延迟、访问使用代理等一系列可详细调控采集程序的控制参数,并对每个采集程序的采集数据的过程进行监控与日志记录,进而得到包括采集耗时、获得数据量等数据的采集指标,以及得到目标数据。采集到目标数据之后,可以根据采集到的目标数据的时间和目标数据的数量来确定数据新增量、数据刷新量等数据指标。例如,在5min内采集到10w条数据,则数据新增量可以是10w。在采集数据完成后,需要对采集到的新数据进行刷新才可以使用。如果数据源中的数据很多,而每次采集到的数据之后,数据变化的很少,全部刷新的方法显然会耗时耗力。因此,数据刷新可以是增量刷新。数据刷新量可以是新数据进行刷新时的数据量。可以根据数据源在数据采集过程中的采集指标和数据指标,确定每个数据源的数据采集过程中的采集参数。
在本实施例中,通过采集指标和采集到的目标数据确定数据指标,进而根据采集指标和数据指标,来确定采集参数,能够综合多种层面,即数据层面的数据指标和采集程序自身的各种采集指标,能够准确的来确定采集参数,进而提高采集效率。
在一个实施例中,如图4所示,所述基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数,还包括:
S402,在数据采集过程中,调整所述控制参数中访问频率和访问量,对每个所述数据源进行压力测试,确定每个所述数据源的压力指标。
S404,根据每个数据源的所述采集指标、数据指标和压力指标,确定每个数据源的数据采集过程中的采集参数。
具体地,为了保证数据源确定目标级别的准确性。可以通过调整采集程序的控制参数,来实现对数据源服务器的压力测试。例如可以修改不同的访问频率与访问量,进而对每个数据源进行压力测试,确定每个数据源可承受的压力的大小,得到每个数据源的压力指标。然后根据每个数据源的采集指标、数据指标和压力指标,确定每个数据源所对应的采集参数。
本实施例中,通过对数据源的服务器的进行压力测试,修改不同的访问频率与访问量,测出数据源的承受能力大小,并将该指标加入采集参数中,能够丰富数据源的目标级别,进而提高后续调整控制参数的准确性,提高采集效率。
在一个实施例中,如图5所示,所述根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别,包括:
S502,将每个数据源的每种采集指标进行量化定级,确定每个数据源在每种采集指标下的第一级别。
S504,将每个数据源的每种数据指标进行量化定级,确定每个数据源在每种数据指标下的第二级别。
S506,将每个数据源的压力指标进行量化定级,确定每个数据源的压力指标对应的第三级别。
S508,根据所述第一级别、所述第二级别和所述第三级别,确定每个所述数据源的目标级别。
其中,量化定级在本公开的一些实施例中可以是将指标采集指标、数据指标或者压力指标变为某个固定的等级的方式。第一级别、第二级别、第三级别可以是数值形式,也可以为其他形式在本公开的一些实施例中不进行限制,只要能够根据级别确定采集指标、数据指标或者压力指标的大小即可。
具体地,可以将每个数据源的每种采集指标进行量化定级,得到每个数据源在每种采集指标下的第一级别。例如可以将采集时间进行量化定级,得到采集时间下的第一级别。还可以将每种数据指标进行量化定级,确定每个数据源在每种数据指标下的第二级别。哈可以将每种压力指标进行量化定级,确定每个数据源在每种压力指标下的第二级别。
在一些示例性的实施例中,在采集指标下,可以按数据总量规模对数据源进行的量化定级,还可以按数据刷新速度对数据源进行的量化定级;还可以按数据源服务器响应速度对数据源进行的量化定级;还可以按数据源采集所需软硬件资源程度对数据源进行的量化定级;还可以按数据源历史数据刷新情况对数据源进行的量化定级。例如,采集指标可以包括采集指标(采集时间)A1、采集指标(采集的数据量)A2。数据指标可以包括数据指标B、压力指标可以包括压力指标C,数据源S的采集指标A1为5分钟,采集指标A2为1000条,则可以对A1和A2进行量化定级,例如确定A1为低级别,A2为低级别。同理,还可以对数据指标B进行量化定级,例如确定B为高级别。对压力指标C进行量化定级,例如确定C为低级别,则最终的数据源S的目标级别可以包括:A1低级别、A2低级别、B高级别和C低级别。可以理解是,上述仅用于举例说明,本领域技术人员可以根据实际情况对不同的指标选择合适的方式进行量化定级,量化定级的具体操作在本公开的一些实施例中不进行具体的限制。
在本实施例中,通过量化定级能够将不同的指标进行分级、量化调整,进而将每个指标量化为不同的级别,统一每个指标,方便后续对指标进行调整。
在一个实施例中,如图6所示,所述根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数,包括:
S602,确定影响所述采集指标的第一控制参数,确定影响所述数据指标的第二控制参数,确定影响所述压力指标的第三控制参数。
具体地,由于是通过采集程序,以及采集程序的控制参数来采集数据的。因此,通过不同的控制参数,采集到的数据也是不同的。例如设置控制参数中的采集时间较长,则对应可以影响到采集指标中的采集时间和采集数据的数据量,数据指标中的数据新增量、数据刷新率等。又例如,设置控制参数中的访问频率和访问量,则相应的会影响压力指标。因此,可以确定影响采集指标的控制参数,该控制参数可以为第一控制参数。确定影响数据指标的第二控制参数,确定影响压力指标的第三控制参数。第一控制参数、第二控制参数、第三控制参数可以为一个或者多个。
S604,响应于所述目标级别中第一级别未满足预设的第一阈值级别,调整所述第一控制参数,直至利用调整后的第一控制参数确定的目标级别中第一级别满足预设的第一阈值级别。
其中,第一阈值级别可以根据实际应用场景来确定,在本公开的一些实施例中不对该第一阈值级别进行限制,例如第一阈值级别可以设置为最高级别,以此能够保证数据采集时的效率。
具体地,可以判断目标级别中的第一级别是否满足预设的第一阈值级别。若第一级别未满足预设的第一阈值级别,由于第一级别是每个采集指标下的第一级别。因此,可以调整第一控制参数,由于第一控制参数是影响采集指标的,因此,调整第一控制参数后,采集指标也会发生变化,相应的第一级别也会发生改变。因此,可以调整第一控制参数,可以判断调整后的第一级别是否满足预设的第一阈值级别,若不满足,则继续调整第一控制参数,直至调整后目标级别中的第一级别满足预设的第一阈值级别。
S606,响应于所述目标级别中第二级别未满足预设的第二阈值级别,调整所述第二控制参数,直至利用调整后的第二控制参数确定的目标级别中第二级别满足预设的第一阈值级别。
其中,第二阈值级别可以根据实际应用场景来确定,在本公开的一些实施例中不对该第二阈值级别进行限制。例如第二阈值级别可以设置为最高级别,以此能够保证数据采集时的效率
具体地,可以判断目标级别中的第二级别是否满足预设的第二阈值级别。若第二级别未满足预设的第二阈值级别,由于第二级别是每个采集指标下的第二级别。因此,可以调整第二控制参数,由于第二控制参数是影响数据指标的,因此,调整第二控制参数后,数据指标也会发生变化,相应的第二级别也会发生改变。因此,可以调整第二控制参数,可以判断调整后的第二级别是否满足预设的第二阈值级别,若不满足,则继续调整第二控制参数,直至调整后目标级别中的第二级别满足预设的第二阈值级别。
S608,响应于所述目标级别中第三级别未满足预设的第三阈值级别,调整所述第三控制参数,直至利用调整后的第三控制参数确定的目标级别中第三级别满足预设的第三阈值级别。
其中,第三阈值级别可以根据实际应用场景来确定,在本公开的一些实施例中不对该第三阈值级别进行限制。例如第三阈值级别可以设置为最高级别,以此能够保证数据采集时的效率。
具体地,可以判断目标级别中的第三级别是否满足预设的第二阈值级别。若第三级别未满足预设的第三阈值级别,由于第三级别是每个采集指标下的第三级别。因此,可以调整第二控制参数,由于第三控制参数是影响数据指标的,因此,调整第三控制参数后,数据指标也会发生变化,相应的第三级别也会发生改变。因此,可以调整第三控制参数,可以判断调整后的第三级别是否满足预设的第三阈值级别,若不满足,则继续调整第三控制参数,直至调整后目标级别中的第三级别满足预设的第三阈值级别。
S610,基于调整后的第一控制参数、调整后的第二控制参数、调整后的第三控制参数中的一种或几种,确定目标控制参数。
具体地,由于上述几种调整方式并不是全都满足的。因此,基于上述条件,可以得到调整后的第一控制参数、调整后的第二控制参数、调整后的第三控制参数中的一种或几种。可以基于调整后的第一控制参数、调整后的第二控制参数、调整后的第三控制参数中的一种或几种,以及未调整的其他的控制参数,来确定目标控制参数。
在本实施例中,通过将不同的级别和预设的阈值级别进行比较,当未满足时,可以确定在该层面并未达到要求,为了提高数据采集的速度,可以对控制参数进行调整,进而使得目标级别满足预设的级别阈值,保证数据采集的效率。
在一个实施例中,所述方法还包括:
将所述采集参数进行持久化的保存。
具体地,可以将采集参数保存在存储器中,进行持久化的保存。便于后续采集每个数据源的过程中,根据之前保存的该数据源的采集参数来按照上述实施例中提及的方式进行采集数据源中的数据,能够进一步提高数据采集的速度。
在一个实施例中,如图7所示,本公开实施例还提供了另一种数据采集方法,如图7所示,所述方法包括:
S702,与至少一个数据源连接。利用预先设置的采集程序的控制参数和所述采集程序,采集每个所述数据源中的数据,获取在采集过程中的采集指标和所述采集程序采集到的目标数据,所述采集指标为每个数据源相对应的所述采集程序采集到的指标;所述控制参数包括:采集量、访问并发数量、访问延迟;所述采集指标包括:采集时间、采集数据的数据量。
S704,根据所述采集到的目标数据,确定数据指标,所述数据指标包括:数据新增量、数据刷新量。
S706,根据每个数据源的所述采集指标和数据指标,确定每个数据源的数据采集过程中的采集参数。
S708,在数据采集过程中,调整所述控制参数中访问频率和访问量,对每个所述数据源进行压力测试,确定每个所述数据源的压力指标。
S710,根据每个数据源的所述采集指标、数据指标和压力指标,确定每个数据源的数据采集过程中的采集参数。
S712,将每个数据源的每种采集指标进行量化定级,确定每个数据源在每种采集指标下的第一级别。
S714,将每个数据源的每种数据指标进行量化定级,确定每个数据源在每种数据指标下的第二级别。
S716,将每个数据源的压力指标进行量化定级,确定每个数据源的压力指标对应的第三级别。
S718,根据所述第一级别、所述第二级别和所述第三级别,确定每个所述数据源的目标级别。
S720,确定影响所述采集指标的第一控制参数,确定影响所述数据指标的第二控制参数,确定影响所述压力指标的第三控制参数。
S722,响应于所述目标级别中第一级别未满足预设的第一阈值级别,调整所述第一控制参数,直至利用调整后的第一控制参数确定的目标级别中第一级别满足预设的第一阈值级别。
S724,响应于所述目标级别中第二级别未满足预设的第二阈值级别,调整所述第二控制参数,直至利用调整后的第二控制参数确定的目标级别中第二级别满足预设的第一阈值级别。
S726,响应于所述目标级别中第三级别未满足预设的第三阈值级别,调整所述第三控制参数,直至利用调整后的第三控制参数确定的目标级别中第三级别满足预设的第三阈值级别。
S728,基于调整后的第一控制参数、调整后的第二控制参数、调整后的第三控制参数中的一种或几种,确定目标控制参数。
S730,基于每个所述数据源对应的目标控制参数调整所述采集程序,以指示调整后的所述采集程序采集所述数据源中的数据。
关于本实施例中的具体实施方式和限定可参见上述实施例,在此不进行重复赘述。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的数据采集方法的数据采集装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据采集装置实施例中的具体限定可以参见上文中对于数据采集方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种数据采集装置800,包括:采集参数获取模块802、目标级别确定模块804、控制参数调整模块806和数据采集模块808,其中:
采集参数获取模块802,用于与至少一个数据源连接,基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数;
目标级别确定模块804,用于根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别;
控制参数调整模块806,用于根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数;
数据采集模块808,用于基于每个所述数据源对应的目标控制参数调整所述采集程序,以指示所述采集程序采集所述数据源中的数据。
在所述装置的一个实施例中,所述采集参数获取模块802,包括:
采集指标获取模块,用于利用预先设置的采集程序的控制参数和所述采集程序,采集每个所述数据源中的数据,获取在采集过程中的采集指标和所述采集程序采集到的目标数据,所述采集指标为每个数据源相对应的所述采集程序采集到的指标;所述控制参数包括:采集量、访问并发数量、访问延迟;所述采集指标包括:采集时间、采集数据的数据量。
数据指标确定模块,用于根据所述采集到的目标数据,确定数据指标,所述数据指标包括:数据新增量、数据刷新量。
采集参数确定模块,用于根据每个数据源的所述采集指标和数据指标,确定每个数据源的数据采集过程中的采集参数。
在所述装置的一个实施例中,所述采集参数获取模块802,还包括:压力指标确定模块,用于在数据采集过程中,调整所述控制参数中访问频率和访问量,对每个所述数据源进行压力测试,确定每个所述数据源的压力指标。
采集参数确定模块,还用于根据每个数据源的所述采集指标、数据指标和压力指标,确定每个数据源的数据采集过程中的采集参数。
在所述装置的一个实施例中,目标级别确定模块804,包括:
第一级别确定模块,用于将每个数据源的每种采集指标进行量化定级,确定每个数据源在每种采集指标下的第一级别。
第二级别确定模块,用于将每个数据源的每种数据指标进行量化定级,确定每个数据源在每种数据指标下的第二级别。
第三级别确定模块,用于将每个数据源的压力指标进行量化定级,确定每个数据源的压力指标对应的第三级别。
级别确定子模块,用于根据所述第一级别、所述第二级别和所述第三级别,确定每个所述数据源的目标级别。
在所述装置的一个实施例中,控制参数调整模块806,包括:
参数确定模块,用于确定影响所述采集指标的第一控制参数,确定影响所述数据指标的第二控制参数,确定影响所述压力指标的第三控制参数。
第一调整模块,用于响应于所述目标级别中第一级别未满足预设的第一阈值级别,调整所述第一控制参数,直至利用调整后的第一控制参数确定的目标级别中第一级别满足预设的第一阈值级别。
第二调整模块,用于响应于所述目标级别中第二级别未满足预设的第二阈值级别,调整所述第二控制参数,直至利用调整后的第二控制参数确定的目标级别中第二级别满足预设的第一阈值级别。
第三调整模块,用于响应于所述目标级别中第三级别未满足预设的第三阈值级别,调整所述第三控制参数,直至利用调整后的第三控制参数确定的目标级别中第三级别满足预设的第三阈值级别。
目标控制参数确定模块,用于基于调整后的第一控制参数、调整后的第二控制参数、调整后的第三控制参数中的一种或几种,确定目标控制参数。
在所述装置的一个实施例中,所述装置还包括:持久化模块,用于将所述采集参数进行持久化的保存。
上述数据采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储采集参数、控制参数、目标控制参数等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据采集方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任一方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
需要说明的是,本申请所涉及的采集参数、控制参数、目标控制参数等数据以及采集到的数据,均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开的保护范围应以所附权利要求为准。
Claims (7)
1.一种数据采集方法,其特征在于,所述方法包括:
与至少一个数据源连接,基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数;
所述基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数,包括:
利用预先设置的采集程序的控制参数和所述采集程序,采集每个所述数据源中的数据,获取在采集过程中的采集指标和所述采集程序采集到的目标数据,所述采集指标为每个数据源相对应的所述采集程序采集到的指标;所述控制参数包括:采集量、访问并发数量、访问延迟;所述采集指标包括:采集时间、采集数据的数据量;
根据采集到的目标数据的时间和目标数据的数量来确定数据指标,所述数据指标包括:数据新增量、数据刷新量;
在数据采集过程中,调整所述控制参数中访问频率和访问量,对每个所述数据源进行压力测试,确定每个所述数据源的压力指标;
根据每个数据源的所述采集指标、数据指标和压力指标,确定每个数据源的数据采集过程中的采集参数;
根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别;
所述根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别,包括:
将每个数据源的每种采集指标进行量化定级,确定每个数据源在每种采集指标下的第一级别;
将每个数据源的每种数据指标进行量化定级,确定每个数据源在每种数据指标下的第二级别;
将每个数据源的压力指标进行量化定级,确定每个数据源的压力指标对应的第三级别;
根据所述第一级别、所述第二级别和所述第三级别,确定每个所述数据源的目标级别;
根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数;
基于每个所述数据源对应的目标控制参数调整所述采集程序,以指示调整后的所述采集程序采集所述数据源中的数据。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数,包括:
确定影响所述采集指标的第一控制参数,确定影响所述数据指标的第二控制参数,确定影响所述压力指标的第三控制参数;
响应于所述目标级别中第一级别未满足预设的第一阈值级别,调整所述第一控制参数,直至利用调整后的第一控制参数确定的目标级别中第一级别满足预设的第一阈值级别;
响应于所述目标级别中第二级别未满足预设的第二阈值级别,调整所述第二控制参数,直至利用调整后的第二控制参数确定的目标级别中第二级别满足预设的第一阈值级别;
响应于所述目标级别中第三级别未满足预设的第三阈值级别,调整所述第三控制参数,直至利用调整后的第三控制参数确定的目标级别中第三级别满足预设的第三阈值级别;
基于调整后的第一控制参数、调整后的第二控制参数、调整后的第三控制参数中的一种或几种,确定目标控制参数。
3.根据权利要求1或2中任一项所述的方法,其特征在于,所述方法还包括:
将所述采集参数进行持久化的保存。
4.一种数据采集装置,其特征在于,所述装置包括:
采集参数获取模块,用于与至少一个数据源连接,基于预先设置的采集程序的控制参数和所述采集程序采集每个所述数据源中的数据,获取每个数据源在数据采集过程中的采集参数;
所述采集参数获取模块,包括:
采集指标获取模块,用于利用预先设置的采集程序的控制参数和所述采集程序,采集每个所述数据源中的数据,获取在采集过程中的采集指标和所述采集程序采集到的目标数据,所述采集指标为每个数据源相对应的所述采集程序采集到的指标;所述控制参数包括:采集量、访问并发数量、访问延迟;所述采集指标包括:采集时间、采集数据的数据量;
数据指标确定模块,用于根据所述采集到的目标数据,确定数据指标,所述数据指标包括:数据新增量、数据刷新量;
采集参数确定模块,用于根据每个数据源的所述采集指标和数据指标,确定每个数据源的数据采集过程中的采集参数;
压力指标确定模块,用于在数据采集过程中,调整所述控制参数中访问频率和访问量,对每个所述数据源进行压力测试,确定每个所述数据源的压力指标;
采集参数确定模块,还用于根据每个数据源的所述采集指标、数据指标和压力指标,确定每个数据源的数据采集过程中的采集参数;
目标级别确定模块,用于根据每个数据源在数据采集过程中的采集参数,确定每个所述数据源的目标级别;
目标级别确定模块,包括:
第一级别确定模块,用于将每个数据源的每种采集指标进行量化定级,确定每个数据源在每种采集指标下的第一级别;
第二级别确定模块,用于将每个数据源的每种数据指标进行量化定级,确定每个数据源在每种数据指标下的第二级别;
第三级别确定模块,用于将每个数据源的压力指标进行量化定级,确定每个数据源的压力指标对应的第三级别;
级别确定子模块,用于根据所述第一级别、所述第二级别和所述第三级别,确定每个所述数据源的目标级别;
控制参数调整模块,用于根据每个所述数据源的目标级别,调整所述控制参数,得到每个所述数据源对应的目标控制参数;
数据采集模块,用于基于每个所述数据源对应的目标控制参数调整所述采集程序,以指示所述采集程序采集所述数据源中的数据。
5.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述的方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
7.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061707.9A CN117076748B (zh) | 2023-08-22 | 2023-08-22 | 数据采集方法、装置、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061707.9A CN117076748B (zh) | 2023-08-22 | 2023-08-22 | 数据采集方法、装置、计算机设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076748A CN117076748A (zh) | 2023-11-17 |
CN117076748B true CN117076748B (zh) | 2024-05-14 |
Family
ID=88707602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311061707.9A Active CN117076748B (zh) | 2023-08-22 | 2023-08-22 | 数据采集方法、装置、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076748B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014143024A1 (en) * | 2013-03-15 | 2014-09-18 | Yahoo! Inc. | Almost online large scale collaborative filtering based recommendation system |
CN108241528A (zh) * | 2017-01-19 | 2018-07-03 | 上海直真君智科技有限公司 | 一种用户自定义海量网络安全数据动态采集方法 |
WO2021104387A1 (zh) * | 2019-11-27 | 2021-06-03 | 广州快决测信息科技有限公司 | 一种自动识别有效数据采集模块的方法和系统 |
CN113377848A (zh) * | 2020-02-25 | 2021-09-10 | 北京数聚鑫云信息技术有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN116310662A (zh) * | 2023-03-06 | 2023-06-23 | 联想(北京)有限公司 | 一种对象识别方法以及装置 |
CN116302383A (zh) * | 2022-12-02 | 2023-06-23 | 上海花宸月希信息科技有限公司 | 分布式异构数据采集方法、系统、计算机设备及存储介质 |
-
2023
- 2023-08-22 CN CN202311061707.9A patent/CN117076748B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014143024A1 (en) * | 2013-03-15 | 2014-09-18 | Yahoo! Inc. | Almost online large scale collaborative filtering based recommendation system |
CN108241528A (zh) * | 2017-01-19 | 2018-07-03 | 上海直真君智科技有限公司 | 一种用户自定义海量网络安全数据动态采集方法 |
WO2021104387A1 (zh) * | 2019-11-27 | 2021-06-03 | 广州快决测信息科技有限公司 | 一种自动识别有效数据采集模块的方法和系统 |
CN113377848A (zh) * | 2020-02-25 | 2021-09-10 | 北京数聚鑫云信息技术有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN116302383A (zh) * | 2022-12-02 | 2023-06-23 | 上海花宸月希信息科技有限公司 | 分布式异构数据采集方法、系统、计算机设备及存储介质 |
CN116310662A (zh) * | 2023-03-06 | 2023-06-23 | 联想(北京)有限公司 | 一种对象识别方法以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117076748A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI600305B (zh) | 用於壓縮經由網路所接收之資料的方法及設備 | |
US20190012344A1 (en) | Distributed data transformation system | |
US20160292608A1 (en) | Multi-cluster management method and device | |
CN114416512A (zh) | 测试方法、装置、电子设备和计算机存储介质 | |
CN112199559B (zh) | 数据特征的筛选方法、装置及计算机设备 | |
CN107016115B (zh) | 数据导出方法、装置、计算机可读存储介质及电子设备 | |
CN112000703A (zh) | 数据入库处理方法、装置、计算机设备和存储介质 | |
CN114359563A (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN118228069A (zh) | 用电负荷预测方法、装置、设备、介质和程序产品 | |
CN117076748B (zh) | 数据采集方法、装置、计算机设备、存储介质 | |
CN114969083B (zh) | 一种实时数据分析方法及系统 | |
CN116226250A (zh) | 针对发电领域海量时序数据管理的汇聚式管理方法及系统 | |
CN113849524B (zh) | 一种数据处理方法及装置 | |
CN106557469B (zh) | 一种处理数据仓库中数据的方法及装置 | |
CN115794806A (zh) | 金融数据的网格化处理系统及方法、装置、计算设备 | |
CN111260452A (zh) | 一种税务大数据模型的构建方法及系统 | |
CN117076093B (zh) | 一种基于机器学习的存储资源调度方法、装置及存储介质 | |
CN114238258B (zh) | 数据库数据处理方法、装置、计算机设备、存储介质 | |
CN118193173A (zh) | 作业资源调整方法、装置、计算机设备和存储介质 | |
CN115269539A (zh) | 数据存储方法及装置、电子设备、存储介质 | |
CN117455501A (zh) | 请求处理方法、装置、计算机设备和存储介质 | |
CN118132091A (zh) | 业务模型的处理方法、装置、计算机设备和存储介质 | |
CN118796638A (zh) | 一种基于交易时序图的客户端性能优化方法及装置 | |
CN118626329A (zh) | 模型优化方法、装置、计算机设备和存储介质 | |
CN117221250A (zh) | 资源利用率的确定方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |