CN116483881B - 基于拉丁超立方的数据抽样方法、装置、电子设备及介质 - Google Patents
基于拉丁超立方的数据抽样方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN116483881B CN116483881B CN202310462705.4A CN202310462705A CN116483881B CN 116483881 B CN116483881 B CN 116483881B CN 202310462705 A CN202310462705 A CN 202310462705A CN 116483881 B CN116483881 B CN 116483881B
- Authority
- CN
- China
- Prior art keywords
- cube
- text data
- data
- determining
- partition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000007781 pre-processing Methods 0.000 claims abstract description 106
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 238000005192 partition Methods 0.000 claims description 76
- 239000013598 vector Substances 0.000 claims description 70
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于拉丁超立方的数据抽样方法、装置、电子设备及介质,数据抽样方法包括:获取预先确定的预处理数据以及抽样数量;确定预处理数据的数据总数,利用数据总数确定每个预处理数据对应的立方体的位置标签;基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据,并在待抽取的预处理数据中按照所述抽样数量抽取对应的预处理数据作为拉丁超立方抽样数据。采用本申请提供的技术方案能够提高拉丁超立方抽样的抽样效率以及适用性。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种基于拉丁超立方的数据抽样方法、装置、电子设备及介质。
背景技术
拉丁超立方抽样是一种从多元参数分布中近似随机抽样的方法,属于分层抽样技术,在拉丁超立方抽样之前还需要基于计算引擎spark的kd-tree(k-dimensional树的简称)进行半径查找和密度计算,通过spark的DataFrame框架,实现数据点阵的长、宽、高的点位分割,在此基础上再计算每两个数据点之间的距离,从而完成拉丁超立方抽样。
目前,在构建kd-tree时需要花费大量的时间,当遇到百亿级别数据时,很难进行kd-tree的构建。此外,对kd-tree进行半径查找和密度计算,同样需要大量的时间,并且还需要计算每两个数据点之间的距离,这在面对百亿级别的数据量时,几乎无法实现拉丁超立方抽样。因此,如何进行拉丁超立方抽样,成为了亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种基于拉丁超立方的数据抽样方法、装置、电子设备及介质,能够通过预处理数据的数量确定立方体边长,基于立方体边长确定每个预处理数据对应的立方体的位置标签,从而对每个立方体进行切分,重新更新立方体的大小,并在最后一次拆分所更新的立方体中确定待抽取的预处理数据,在待抽取的预处理数据中进行抽样,无需创建kd-tree,也无需对kd-tree进行半径查找和密度计算,即可实现大量数据下的拉丁超立方抽样,提高了拉丁超立方抽样的抽样效率以及适用性。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供了一种基于拉丁超立方的数据抽样方法,所述数据抽样方法包括:
获取预先确定的预处理数据以及抽样数量;
确定所述预处理数据的数据总数,利用所述数据总数确定每个预处理数据对应的立方体的位置标签;
基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;
在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据,并在待抽取的预处理数据中按照所述抽样数量抽取对应的预处理数据作为拉丁超立方抽样数据。
进一步的,通过以下步骤确定预处理数据:
获取原始数据,将所述原始数据按照预设属性进行拆分,得到每个分区的原始数据;
针对每个分区,将该分区的原始数据进行向量转换,得到该分区的所述原始数据的第一向量;
将该分区的所述原始数据的第一向量进行降维,得到该分区的所述原始数据的第二向量;
将该分区的所述原始数据的第二向量进行归一化,得到该分区的所述原始数据的目标向量;
将每个分区的每个原始数据的目标向量的组合,确定为预处理数据。
进一步的,所述在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据的步骤,包括:
在每个预处理数据对应的目标立方体中,针对每个目标立方体,确定该目标立方体的中心点;
将距离该目标立方体的中心点最近的预处理数据确定为该目标立方体对应的待抽取的预处理数据。
进一步的,所述利用所述数据总数确定每个预处理数据对应的立方体的位置标签的步骤,包括:
利用所述数据总数,确定所有预处理数据对应的立方体边长;
基于所述立方体边长,确定每个预处理数据所在的立方体,并对每个预处理数据所在的立方体的每个维度按照预设顺序依次进行编号,得到每个预处理数据所在的立方体的每个维度的编号;
针对每个预处理数据所在的立方体,将该立方体的每个维度的编号依次进行拼接,得到该立方体的位置标签。
进一步的,所述基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体的步骤,包括:
针对每个预处理数据对应的立方体的位置标签,确定该位置标签对应的立方体中的预处理数据的数量以及在该位置标签对应的立方体中的预处理数据中的最大值和最小值;
利用该位置标签对应的立方体中的预处理数据的数量以及在该位置标签对应的立方体中的预处理数据中的最大值和最小值,确定该位置标签对应的立方体的更新边长;
基于该位置标签对应的立方体的更新边长,更新该位置标签对应的立方体中的每个预处理数据的位置;
基于更新后的该位置标签对应的立方体中的每个预处理数据的位置,对该位置标签对应的立方体进行切分,更新立方体,并将切分次数加一;
确定所述切分次数是否达到预设次数;
若未达到,则重新确定更新后的立方体的位置标签,基于更新后的立方体的位置标签继续对所述立方体进行切分,直至所述切分次数达到预设次数;
若达到,则将最后一次切分所更新的立方体确定为目标立方体。
进一步的,所述利用所述数据总数,确定所有预处理数据对应的立方体边长的步骤,包括:
利用所述数据总数,将所述数据总数的平方根确定为第一参数;
将预处理数据的维数的倒数,确定为第二参数;
将所述第一参数与所述第二参数的乘积,确定为第三参数;
在每个预处理数据表示的向量里,将数值最大的元素确定为最大值,将数值最小的元素确定为最小值,并将所述最大值与所述最小值的差值,确定为第四参数;
将所述第四参数与所述第三参数的比值,确定为所有预处理数据对应的立方体边长。
第二方面,本申请实施例还提供了一种基于拉丁超立方的数据抽样装置,所述数据抽样装置包括:
获取模块,用于获取预先确定的预处理数据以及抽样数量;
处理模块,用于确定所述预处理数据的数据总数,利用所述数据总数确定每个预处理数据对应的立方体的位置标签;
切分模块,用于基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;
抽取模块,用于在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据,并在待抽取的预处理数据中按照所述抽样数量抽取对应的预处理数据作为拉丁超立方抽样数据。
进一步的,所述数据抽样装置还包括预处理模块,所述预处理模块用于:
获取原始数据,将所述原始数据按照预设属性进行拆分,得到每个分区的原始数据;
针对每个分区,将该分区的原始数据进行向量转换,得到该分区的所述原始数据的第一向量;
将该分区的所述原始数据的第一向量进行降维,得到该分区的所述原始数据的第二向量;
将该分区的所述原始数据的第二向量进行归一化,得到该分区的所述原始数据的目标向量;
将每个分区的每个原始数据的目标向量的组合,确定为预处理数据。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的基于拉丁超立方的数据抽样方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述的基于拉丁超立方的数据抽样方法的步骤。
本申请实施例提供的一种基于拉丁超立方的数据抽样方法、装置、电子设备及介质,所述数据抽样方法包括:获取预先确定的预处理数据以及抽样数量;确定所述预处理数据的数据总数,利用所述数据总数确定每个预处理数据对应的立方体的位置标签;基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据,并在待抽取的预处理数据中按照所述抽样数量抽取对应的预处理数据作为拉丁超立方抽样数据。
这样,采用本申请提供的技术方案能够通过预处理数据的数量确定立方体边长,基于立方体边长确定每个预处理数据对应的立方体的位置标签,从而对每个立方体进行切分,重新更新立方体的大小,并在最后一次拆分所更新的立方体中确定待抽取的预处理数据,在待抽取的预处理数据中进行抽样,无需创建kd-tree,也无需对kd-tree进行半径查找和密度计算,即可实现大量数据下的拉丁超立方抽样,提高了拉丁超立方抽样的抽样效率以及适用性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种基于拉丁超立方的数据抽样方法的流程图;
图2示出了本申请实施例所提供的另一种基于拉丁超立方的数据抽样方法的流程图;
图3示出了本申请实施例所提供的一种抽样流程示意图;
图4示出了本申请实施例所提供的一种基于拉丁超立方的数据抽样装置的结构图之一;
图5示出了本申请实施例所提供的一种基于拉丁超立方的数据抽样装置的结构图之二;
图6示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“基于拉丁超立方的数据抽样”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要基于拉丁超立方的数据抽样的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的一种基于拉丁超立方的数据抽样方法、装置、电子设备及存储介质的方案均在本申请保护范围内。
值得注意的是,拉丁超立方抽样是一种从多元参数分布中近似随机抽样的方法,属于分层抽样技术,在拉丁超立方抽样之前还需要基于计算引擎spark的kd-tree(k-dimensional树的简称)进行半径查找和密度计算,通过spark的DataFrame框架,实现数据点阵的长、宽、高的点位分割,在此基础上再计算每两个数据点之间的距离,从而完成拉丁超立方抽样。
目前,在构建kd-tree时需要花费大量的时间,当遇到百亿级别数据时,很难进行kd-tree的构建。此外,对kd-tree进行半径查找和密度计算,同样需要大量的时间,并且还需要计算每两个数据点之间的距离,这在面对百亿级别的数据量时,几乎无法实现拉丁超立方抽样。因此,如何进行拉丁超立方抽样,成为了亟待解决的问题。
基于此,本申请提出了一种基于拉丁超立方的数据抽样方法、装置、电子设备及介质,所述数据抽样方法包括:获取预先确定的预处理数据以及抽样数量;确定所述预处理数据的数据总数,利用所述数据总数确定每个预处理数据对应的立方体的位置标签;基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据,并在待抽取的预处理数据中按照所述抽样数量抽取对应的预处理数据作为拉丁超立方抽样数据。
这样,采用本申请提供的技术方案能够通过预处理数据的数量确定立方体边长,基于立方体边长确定每个预处理数据对应的立方体的位置标签,从而对每个立方体进行切分,重新更新立方体的大小,并在最后一次拆分所更新的立方体中确定待抽取的预处理数据,在待抽取的预处理数据中进行抽样,无需创建kd-tree,也无需对kd-tree进行半径查找和密度计算,即可实现大量数据下的拉丁超立方抽样,提高了拉丁超立方抽样的抽样效率以及适用性。
为便于对本申请进行理解,下面将结合具体实施例对本申请提供的技术方案进行详细说明。
请参阅图1,图1为本申请实施例所提供的一种基于拉丁超立方的数据抽样方法的流程图,如图1中所示,所述数据抽样方法包括:
S101、获取预先确定的预处理数据以及抽样数量;
该步骤中,需要对原始数据进行预处理,得到预处理数据,预处理的目的是为了将原始数据转换为统一维度的向量,这里获取到的预处理数据就是n维向量。
需要说明的是,请参阅图2,图2为本申请实施例所提供另一种基于拉丁超立方的数据抽样方法的流程图,如图2中所示,是对原始数据的预处理过程,通过以下步骤确定预处理数据:
S201、获取原始数据,将所述原始数据按照预设属性进行拆分,得到每个分区的原始数据;
该步骤中,可以通过数据仓库工具Hive,查询数据库表中的总共能够获取的分区数量,这里的分区是指将原始数据按照预设属性进行分区,预设属性可以是时间(天)、地区、类别等等;例如,在海量数据查询中,可以将原始数据按天对数据进行分区,因此可以按照查询原始数据的天数,确定分区拆分数量,得到每个分区的原始数据。
S202、针对每个分区,将该分区的原始数据进行向量转换,得到该分区的所述原始数据的第一向量;
该步骤中,每个分区可以同时进行处理,针对每个分区,可以使用模型bert对该分区每个原始数据进行向量转换,例如转换为768维度,得到每个原始数据的第一向量。
S203、将该分区的所述原始数据的第一向量进行降维,得到该分区的所述原始数据的第二向量;
该步骤中,可以使用PCA对向量化的数据(第一向量)进行降维,例如,可以降低为三维,得到第二向量。
S204、将该分区的所述原始数据的第二向量进行归一化,得到该分区的所述原始数据的目标向量;
该步骤中,对第二向量进行归一化,例如分别将三维都归一到-1到1之间,得到目标向量。
S205、将每个分区的每个原始数据的目标向量的组合,确定为预处理数据。
该步骤中,将目标向量按照对应的分区进行存储,在获取预处理数据时,获取每个分区的所有目标向量。
S102、确定所述预处理数据的数据总数,利用所述数据总数确定每个预处理数据对应的立方体的位置标签;
需要说明的是,利用数据总数确定每个预处理数据对应的立方体的位置标签的步骤,包括:
S1021、利用所述数据总数,确定所有预处理数据对应的立方体边长;
需要说明的是,利用数据总数,确定所有预处理数据对应的立方体边长的步骤,包括:
1)、利用所述数据总数,将所述数据总数的平方根确定为第一参数;
2)、将预处理数据的维数的倒数,确定为第二参数;
3)、将所述第一参数与所述第二参数的乘积,确定为第三参数;
4)、在每个预处理数据表示的向量里,将数值最大的元素确定为最大值,将数值最小的元素确定为最小值,并将所述最大值与所述最小值的差值,确定为第四参数;
5)、将所述第四参数与所述第三参数的比值,确定为所有预处理数据对应的立方体边长。
在步骤1)至步骤5)中,当维数为3时,确定立方体边长的代码可以表示为:
a=(float(max_x)-float(min_x))/math.ceil(math.ceil(math.sqrt(num))**(1/3));
这里,a为立方体边长,max_x为预处理数据表示的向量里数值最大的元素,min_x为预处理数据表示的向量里数值最小的元素,num为数据总数;float表示数据为浮点类型,math.ceil表示向上取整,math.sqrt表示根号;上述代码用具体数学公式表示如下:
其中,a为立方体边长,xmax为预处理数据表示的向量里数值最大的元素,xmin为预处理数据表示的向量里数值最小的元素,N为数据总数。
S1022、基于所述立方体边长,确定每个预处理数据所在的立方体,并对每个预处理数据所在的立方体的每个维度按照预设顺序依次进行编号,得到每个预处理数据所在的立方体的每个维度的编号;
S1023、针对每个预处理数据所在的立方体,将该立方体的每个维度的编号依次进行拼接,得到该立方体的位置标签。
在步骤S1022至步骤S1023中,根据立方体边长,计算每个预处理数据(x,y,z)所在的立方体,并对立方体进行编号,并将最终的编号连接起来,从而作为立方体的位置标签(index_x+index_y+index_z),方便后面对数据进行统计;例如:立方体的最左上角的预处理数据,x:0,y:0;z:0,那么计算的该预处理数据所在的立方体的位置标签为:0_0_0。
S103、基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;
需要说明的是,基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体的步骤,包括:
S1031、针对每个预处理数据对应的立方体的位置标签,确定该位置标签对应的立方体中的预处理数据的数量以及在该位置标签对应的立方体中的预处理数据中的最大值和最小值;
S1032、利用该位置标签对应的立方体中的预处理数据的数量以及在该位置标签对应的立方体中的预处理数据中的最大值和最小值,确定该位置标签对应的立方体的更新边长;
S1033、基于该位置标签对应的立方体的更新边长,更新该位置标签对应的立方体中的每个预处理数据的位置;
S1034、基于更新后的该位置标签对应的立方体中的每个预处理数据的位置,对该位置标签对应的立方体进行切分,更新立方体,并将切分次数加一;
S1035、确定所述切分次数是否达到预设次数;
S1036、若未达到,则重新确定更新后的立方体的位置标签,基于更新后的立方体的位置标签继续对所述立方体进行切分,直至所述切分次数达到预设次数;
S1037、若达到,则将最后一次切分所更新的立方体确定为目标立方体。
在步骤S1031至步骤S1037中,是对立方体进行切分的过程,首先,将切分次数清零,按照所在立方体的位置标签,进行重新分区,也就是每个位置标签的立方体作为一个分区,针对每个立方体,计算该立方体内部的数据量,并根据预处理数据所在位置,计算所在位置的最大值,最小值,至此第一轮拆分完成,将切分次数加一。然后,针对每一分区的立方体,根据立方体内的数据量,求出能够进一步拆分的立方体边长;这里,可以先确定立方体内预处理数据的数量是否为1,当立方体内预处理数据的数量为1时,不进行拆分,当立方体内预处理数据的数量大于1时,可以确定切分次数是否达到预设次数,若未达到,则根据拆分后的立方体,重新计算切分后的每个立方体的位置标签,继续计算每个立方体内部的预处理数据的数据量,根据预处理数据所在位置,计算所在位置的最大值,最小值,至此第二轮拆分完成,将切分次数加一,依次类推,直至切分次数达到预设次数停止切分,将最后一次切分得到的立方体确定为目标立方体。
S104、在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据,并在待抽取的预处理数据中按照所述抽样数量抽取对应的预处理数据作为拉丁超立方抽样数据。
需要说明的是,在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据的步骤,包括:
S1041、在每个预处理数据对应的目标立方体中,针对每个目标立方体,确定该目标立方体的中心点;
S1042、将距离该目标立方体的中心点最近的预处理数据确定为该目标立方体对应的待抽取的预处理数据。
在步骤S1041至步骤S1042中,针对每个目标立方体,从该目标立方体中抽取离中心点最近的预处理数据作为待抽取的数据,将每个目标立方体中的待抽取的数据混淆顺序后,在这些待抽取的数据中,根据抽样数量获取抽样,完成抽样后的结果插入到结果表中进行存储。
示例性的,可以参阅图3,图3为本申请实施例所提供的一种抽样流程示意图,如图3所示,切分的预设次数为2时,第一轮切分时,在获取的预处理数据中计算总体数据量,根据数据量确定立方体的边长,基于立方体的边长,计算每个立方体内的数据量,从而重新计算每个立方体的大小,完成第一轮切分;第二轮切分过程与第一轮一样,即在第一次切分后的每个立方体中确定每个立方体的数据量,基于数据量确定立方体的边长,基于立方体的边长,计算每个立方体内的数据量,从而重新计算每个立方体的大小,完成第二轮切分;在第二轮切分后的每个立方体中,抽取距离中心点最近的数据,在每个立方体距离中心点最近的数据中,根据抽样的样本数量进行抽样,将抽样结果入库存储。通过本实施例,充分利用大数据技术的优势,实现在百亿级别以上的数据中,快速定位数据点的位置,使针对亿级别以上的数据拉丁超立方抽样成为可能。
本申请实施例提供的一种基于拉丁超立方的数据抽样方法,所述数据抽样方法包括:获取预先确定的预处理数据以及抽样数量;确定所述预处理数据的数据总数,利用所述数据总数确定每个预处理数据对应的立方体的位置标签;基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据,并在待抽取的预处理数据中按照所述抽样数量抽取对应的预处理数据作为拉丁超立方抽样数据。
这样,采用本申请提供的技术方案能够通过预处理数据的数量确定立方体边长,基于立方体边长确定每个预处理数据对应的立方体的位置标签,从而对每个立方体进行切分,重新更新立方体的大小,并在最后一次拆分所更新的立方体中确定待抽取的预处理数据,在待抽取的预处理数据中进行抽样,无需创建kd-tree,也无需对kd-tree进行半径查找和密度计算,即可实现大量数据下的拉丁超立方抽样,提高了拉丁超立方抽样的抽样效率以及适用性。
基于同一申请构思,本申请实施例中还提供了与上述实施例提供一种基于拉丁超立方的数据抽样方法对应的一种基于拉丁超立方的数据抽样装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例一种基于拉丁超立方的数据抽样方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图4、图5,图4为本申请实施例所提供的一种基于拉丁超立方的数据抽样装置的结构图之一,图5为本申请实施例所提供的一种基于拉丁超立方的数据抽样装置的结构图之二。如图4中所示,所述数据抽样装置410包括:
获取模块411,用于获取预先确定的预处理数据以及抽样数量;
处理模块412,用于确定所述预处理数据的数据总数,利用所述数据总数确定每个预处理数据对应的立方体的位置标签;
切分模块413,用于基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;
抽取模块414,用于在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据,并在待抽取的预处理数据中按照所述抽样数量抽取对应的预处理数据作为拉丁超立方抽样数据。
可选的,如图5所示,所述数据抽样装置410还包括预处理模块415,所述预处理模块415用于:
获取原始数据,将所述原始数据按照预设属性进行拆分,得到每个分区的原始数据;
针对每个分区,将该分区的原始数据进行向量转换,得到该分区的所述原始数据的第一向量;
将该分区的所述原始数据的第一向量进行降维,得到该分区的所述原始数据的第二向量;
将该分区的所述原始数据的第二向量进行归一化,得到该分区的所述原始数据的目标向量;
将每个分区的每个原始数据的目标向量的组合,确定为预处理数据。
可选的,所述抽取模块414在用于在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据时,所述抽取模块414具体用于:
在每个预处理数据对应的目标立方体中,针对每个目标立方体,确定该目标立方体的中心点;
将距离该目标立方体的中心点最近的预处理数据确定为该目标立方体对应的待抽取的预处理数据。
可选的,所述处理模块412在用于利用所述数据总数确定每个预处理数据对应的立方体的位置标签时,所述处理模块412具体用于:
利用所述数据总数,确定所有预处理数据对应的立方体边长;
基于所述立方体边长,确定每个预处理数据所在的立方体,并对每个预处理数据所在的立方体的每个维度按照预设顺序依次进行编号,得到每个预处理数据所在的立方体的每个维度的编号;
针对每个预处理数据所在的立方体,将该立方体的每个维度的编号依次进行拼接,得到该立方体的位置标签。
可选的,所述切分模块413具体用于:
针对每个预处理数据对应的立方体的位置标签,确定该位置标签对应的立方体中的预处理数据的数量以及在该位置标签对应的立方体中的预处理数据中的最大值和最小值;
利用该位置标签对应的立方体中的预处理数据的数量以及在该位置标签对应的立方体中的预处理数据中的最大值和最小值,确定该位置标签对应的立方体的更新边长;
基于该位置标签对应的立方体的更新边长,更新该位置标签对应的立方体中的每个预处理数据的位置;
基于更新后的该位置标签对应的立方体中的每个预处理数据的位置,对该位置标签对应的立方体进行切分,更新立方体,并将切分次数加一;
确定所述切分次数是否达到预设次数;
若未达到,则重新确定更新后的立方体的位置标签,基于更新后的立方体的位置标签继续对所述立方体进行切分,直至所述切分次数达到预设次数;
若达到,则将最后一次切分所更新的立方体确定为目标立方体。
可选的,所述处理模块412在用于利用所述数据总数,确定所有预处理数据对应的立方体边长时,所述处理模块412具体用于:
利用所述数据总数,将所述数据总数的平方根确定为第一参数;
将预处理数据的维数的倒数,确定为第二参数;
将所述第一参数与所述第二参数的乘积,确定为第三参数;
在每个预处理数据表示的向量里,将数值最大的元素确定为最大值,将数值最小的元素确定为最小值,并将所述最大值与所述最小值的差值,确定为第四参数;
将所述第四参数与所述第三参数的比值,确定为所有预处理数据对应的立方体边长。
本申请实施例提供的一种基于拉丁超立方的数据抽样装置,所述数据抽样装置包括:获取模块,用于获取预先确定的预处理数据以及抽样数量;处理模块,用于确定所述预处理数据的数据总数,利用所述数据总数确定每个预处理数据对应的立方体的位置标签;切分模块,用于基于每个预处理数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;抽取模块,用于在每个预处理数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理数据,并在待抽取的预处理数据中按照所述抽样数量抽取对应的预处理数据作为拉丁超立方抽样数据。
这样,采用本申请提供的技术方案能够通过预处理数据的数量确定立方体边长,基于立方体边长确定每个预处理数据对应的立方体的位置标签,从而对每个立方体进行切分,重新更新立方体的大小,并在最后一次拆分所更新的立方体中确定待抽取的预处理数据,在待抽取的预处理数据中进行抽样,无需创建kd-tree,也无需对kd-tree进行半径查找和密度计算,即可实现大量数据下的拉丁超立方抽样,提高了拉丁超立方抽样的抽样效率以及适用性。
请参阅图6,图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示,所述电子设备600包括处理器610、存储器620和总线630。
所述存储器620存储有所述处理器610可执行的机器可读指令,当电子设备600运行时,所述处理器610与所述存储器620之间通过总线630通信,所述机器可读指令被所述处理器610执行时,可以执行如上述图1以及图2所示方法实施例中的基于拉丁超立方的数据抽样方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的基于拉丁超立方的数据抽样方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种基于拉丁超立方的数据抽样方法,其特征在于,所述数据抽样方法包括:
获取预先确定的预处理文本数据以及抽样数量;
确定所述预处理文本数据的数据总数,利用所述数据总数确定每个预处理文本数据对应的立方体的位置标签;
基于每个预处理文本数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理文本数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;
在每个预处理文本数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理文本数据,并在待抽取的预处理文本数据中按照所述抽样数量抽取对应的预处理文本数据作为拉丁超立方抽样数据;
通过以下步骤确定预处理文本数据:
获取原始文本数据,将所述原始文本数据按照预设属性进行拆分,得到每个分区的原始文本数据;
针对每个分区,将该分区的原始文本数据进行向量转换,得到该分区的所述原始文本数据的第一向量;其中,针对每个分区,使用模型bert对该分区每个原始文本数据进行向量转换,得到每个原始文本数据的第一向量;
将该分区的所述原始文本数据的第一向量进行降维,得到该分区的所述原始文本数据的第二向量;
将该分区的所述原始文本数据的第二向量进行归一化,得到该分区的所述原始文本数据的目标向量;
将每个分区的每个原始文本数据的目标向量的组合,确定为预处理文本数据。
2.根据权利要求1所述的数据抽样方法,其特征在于,所述在每个预处理文本数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理文本数据的步骤,包括:
在每个预处理文本数据对应的目标立方体中,针对每个目标立方体,确定该目标立方体的中心点;
将距离该目标立方体的中心点最近的预处理文本数据确定为该目标立方体对应的待抽取的预处理文本数据。
3.根据权利要求1所述的数据抽样方法,其特征在于,所述利用所述数据总数确定每个预处理文本数据对应的立方体的位置标签的步骤,包括:
利用所述数据总数,确定所有预处理文本数据对应的立方体边长;
基于所述立方体边长,确定每个预处理文本数据所在的立方体,并对每个预处理文本数据所在的立方体的每个维度按照预设顺序依次进行编号,得到每个预处理文本数据所在的立方体的每个维度的编号;
针对每个预处理文本数据所在的立方体,将该立方体的每个维度的编号依次进行拼接,得到该立方体的位置标签。
4.根据权利要求1所述的数据抽样方法,其特征在于,所述基于每个预处理文本数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理文本数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体的步骤,包括:
针对每个预处理文本数据对应的立方体的位置标签,确定该位置标签对应的立方体中的预处理文本数据的数量以及在该位置标签对应的立方体中的预处理文本数据中的最大值和最小值;
利用该位置标签对应的立方体中的预处理文本数据的数量以及在该位置标签对应的立方体中的预处理文本数据中的最大值和最小值,确定该位置标签对应的立方体的更新边长;
基于该位置标签对应的立方体的更新边长,更新该位置标签对应的立方体中的每个预处理文本数据的位置;
基于更新后的该位置标签对应的立方体中的每个预处理文本数据的位置,对该位置标签对应的立方体进行切分,更新立方体,并将切分次数加一;
确定所述切分次数是否达到预设次数;
若未达到,则重新确定更新后的立方体的位置标签,基于更新后的立方体的位置标签继续对所述立方体进行切分,直至所述切分次数达到预设次数;
若达到,则将最后一次切分所更新的立方体确定为目标立方体。
5.根据权利要求3所述的数据抽样方法,其特征在于,所述利用所述数据总数,确定所有预处理文本数据对应的立方体边长的步骤,包括:
利用所述数据总数,将所述数据总数的平方根确定为第一参数;
将预处理文本数据的维数的倒数,确定为第二参数;
将所述第一参数与所述第二参数的乘积,确定为第三参数;
在每个预处理文本数据表示的向量里,将数值最大的元素确定为最大值,将数值最小的元素确定为最小值,并将所述最大值与所述最小值的差值,确定为第四参数;
将所述第四参数与所述第三参数的比值,确定为所有预处理文本数据对应的立方体边长。
6.一种基于拉丁超立方的数据抽样装置,其特征在于,所述数据抽样装置包括:
获取模块,用于获取预先确定的预处理文本数据以及抽样数量;
处理模块,用于确定所述预处理文本数据的数据总数,利用所述数据总数确定每个预处理文本数据对应的立方体的位置标签;
切分模块,用于基于每个预处理文本数据对应的立方体的位置标签,对每个立方体进行预设次数的切分,更新每个预处理文本数据对应的立方体,并将最后一次切分所更新的立方体确定为目标立方体;
抽取模块,用于在每个预处理文本数据对应的目标立方体中,确定出每个目标立方体对应的待抽取的预处理文本数据,并在待抽取的预处理文本数据中按照所述抽样数量抽取对应的预处理文本数据作为拉丁超立方抽样数据;
通过以下步骤确定预处理文本数据:
获取原始文本数据,将所述原始文本数据按照预设属性进行拆分,得到每个分区的原始文本数据;
针对每个分区,将该分区的原始文本数据进行向量转换,得到该分区的所述原始文本数据的第一向量;其中,针对每个分区,使用模型bert对该分区每个原始文本数据进行向量转换,得到每个原始文本数据的第一向量;
将该分区的所述原始文本数据的第一向量进行降维,得到该分区的所述原始文本数据的第二向量;
将该分区的所述原始文本数据的第二向量进行归一化,得到该分区的所述原始文本数据的目标向量;
将每个分区的每个原始文本数据的目标向量的组合,确定为预处理文本数据。
7.根据权利要求6所述的数据抽样装置,其特征在于,所述数据抽样装置还包括预处理模块,所述预处理模块用于:
获取原始文本数据,将所述原始文本数据按照预设属性进行拆分,得到每个分区的原始文本数据;
针对每个分区,将该分区的原始文本数据进行向量转换,得到该分区的所述原始文本数据的第一向量;
将该分区的所述原始文本数据的第一向量进行降维,得到该分区的所述原始文本数据的第二向量;
将该分区的所述原始文本数据的第二向量进行归一化,得到该分区的所述原始文本数据的目标向量;
将每个分区的每个原始文本数据的目标向量的组合,确定为预处理文本数据。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至5任一所述的基于拉丁超立方的数据抽样方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一所述的基于拉丁超立方的数据抽样方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310462705.4A CN116483881B (zh) | 2023-04-26 | 2023-04-26 | 基于拉丁超立方的数据抽样方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310462705.4A CN116483881B (zh) | 2023-04-26 | 2023-04-26 | 基于拉丁超立方的数据抽样方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116483881A CN116483881A (zh) | 2023-07-25 |
CN116483881B true CN116483881B (zh) | 2024-05-03 |
Family
ID=87224789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310462705.4A Active CN116483881B (zh) | 2023-04-26 | 2023-04-26 | 基于拉丁超立方的数据抽样方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116483881B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177538A (zh) * | 2019-12-13 | 2020-05-19 | 杭州顺网科技股份有限公司 | 一种基于无监督权值计算的用户兴趣标签构建方法 |
CN112463844A (zh) * | 2020-12-15 | 2021-03-09 | 北京百奥智汇科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
WO2021142916A1 (zh) * | 2020-01-15 | 2021-07-22 | 深圳大学 | 基于代理辅助进化算法的翼型优化方法及装置 |
CN114398473A (zh) * | 2022-01-19 | 2022-04-26 | 平安国际智慧城市科技股份有限公司 | 企业画像生成方法、装置、服务器及存储介质 |
CN114969641A (zh) * | 2022-07-28 | 2022-08-30 | 哈尔滨工程大学 | 核数据处理方法、电子设备和计算机可读存储介质 |
WO2023280229A1 (zh) * | 2021-07-07 | 2023-01-12 | 华为技术有限公司 | 图像处理方法、电子设备及存储介质 |
CN115938521A (zh) * | 2023-01-06 | 2023-04-07 | 华东理工大学 | 一种逆向设计共聚物微相结构的计算系统和计算方法 |
-
2023
- 2023-04-26 CN CN202310462705.4A patent/CN116483881B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177538A (zh) * | 2019-12-13 | 2020-05-19 | 杭州顺网科技股份有限公司 | 一种基于无监督权值计算的用户兴趣标签构建方法 |
WO2021142916A1 (zh) * | 2020-01-15 | 2021-07-22 | 深圳大学 | 基于代理辅助进化算法的翼型优化方法及装置 |
CN112463844A (zh) * | 2020-12-15 | 2021-03-09 | 北京百奥智汇科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
WO2023280229A1 (zh) * | 2021-07-07 | 2023-01-12 | 华为技术有限公司 | 图像处理方法、电子设备及存储介质 |
CN114398473A (zh) * | 2022-01-19 | 2022-04-26 | 平安国际智慧城市科技股份有限公司 | 企业画像生成方法、装置、服务器及存储介质 |
CN114969641A (zh) * | 2022-07-28 | 2022-08-30 | 哈尔滨工程大学 | 核数据处理方法、电子设备和计算机可读存储介质 |
CN115938521A (zh) * | 2023-01-06 | 2023-04-07 | 华东理工大学 | 一种逆向设计共聚物微相结构的计算系统和计算方法 |
Non-Patent Citations (2)
Title |
---|
6-RSS并联机构工作空间优化算法对比分析;李浩;张玉茹;王党校;;机械工程学报;20100705(第13期);全文 * |
基于有限元的液压支架关键部件可靠度计算策略及应用;刘付营;范储旭;杨文明;胡江玮;;矿山机械;20151110(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116483881A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874878B (zh) | 一种知识图谱的构建系统及方法 | |
US20190228024A1 (en) | Efficient spatial queries in large data tables | |
CN110609916A (zh) | 视频图像数据检索方法、装置、设备和存储介质 | |
CN105426426A (zh) | 一种基于改进的K-Medoids的KNN文本分类方法 | |
CN106503223B (zh) | 一种结合位置和关键词信息的在线房源搜索方法及装置 | |
WO2013028302A1 (en) | Fast matching of image features using multi-dimensional tree data structures | |
CN110032650B (zh) | 一种训练样本数据的生成方法、装置及电子设备 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN108549696B (zh) | 一种基于内存计算的时间序列数据相似性查询方法 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN112883165A (zh) | 一种基于语义理解的智能全文检索方法及系统 | |
CN109657060B (zh) | 安全生产事故案例推送方法及系统 | |
CN117854027A (zh) | 基于超图和多级特征融合的双卷积网络道路提取方法 | |
CN101599077B (zh) | 一种三维对象检索的方法 | |
CN116483881B (zh) | 基于拉丁超立方的数据抽样方法、装置、电子设备及介质 | |
CN115098717A (zh) | 三维模型检索方法、装置、电子设备及存储介质 | |
CN112417101B (zh) | 一种关键词提取的方法及相关装置 | |
CN111639496A (zh) | 一种基于智能加权分词技术的文本相似度计算方法和系统 | |
Al Aghbari et al. | Efficient KNN search by linear projection of image clusters | |
CN115859932A (zh) | 一种日志模板提取方法、装置、电子设备及存储介质 | |
CN115294578A (zh) | 基于人工智能的文本信息提取方法、装置、设备及介质 | |
CN113537349A (zh) | 大型主机硬件故障识别方法、装置、设备及存储介质 | |
CN115550062B (zh) | 一种恶意请求的检测方法、装置、电子设备及存储介质 | |
CN118535754A (zh) | 一种可视化三维设备数据库建立方法及系统 | |
CN118133970B (zh) | 一种基于关联图片的知识问答方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |