CN106951425A - 一种映射方法和设备 - Google Patents
一种映射方法和设备 Download PDFInfo
- Publication number
- CN106951425A CN106951425A CN201610009341.4A CN201610009341A CN106951425A CN 106951425 A CN106951425 A CN 106951425A CN 201610009341 A CN201610009341 A CN 201610009341A CN 106951425 A CN106951425 A CN 106951425A
- Authority
- CN
- China
- Prior art keywords
- subset
- discrete
- continuous integral
- integral number
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000005520 cutting process Methods 0.000 claims abstract description 26
- 238000009826 distribution Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 44
- 125000002015 acyclic group Chemical group 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 abstract description 13
- 230000015654 memory Effects 0.000 abstract description 10
- 238000006243 chemical reaction Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 51
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000000205 computational method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 229910006119 NiIn Inorganic materials 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/24569—Query processing with adaptation to specific hardware, e.g. adapted for using GPUs or SSDs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种映射方法,应用于集群系统中的主服务器,集群系统还包括各子服务器,包括:将所接收的离散集合切分为若干个离散子集合;将各离散子集合分布至对应的各子服务器,以使各子服务器根据预设偏移量计算公式以及最小完美哈希算法分别得出各离散子集合对应的偏移量值和连续整数子集后,通过将连续整数子集中各元素与偏移量值分别求和得到各离散子集合对应的映射连续整数子集;从各子服务器中获取对应的各映射连续整数子集,合并后得到连续整数映射集合。本方法不会受到单机内存和计算资源的限制,节省了硬件资源,可以对输入地离散集合做相应地线性扩展,提升了映射的转换效率以及机器学习算法的学习效果。
Description
技术领域
本发明涉及通信技术领域,特别涉及一种映射方法,本申请同时还涉及一种映射设备。
背景技术
随着网络技术的不断发展,互联网领域产生的数据量发生了爆炸式的增长,超大规模的互联网数据中凌乱地分布着诸多极具意义的数据信息,通常利用机器学习算法对行业所需的数据信息进行处理与挖掘。尤其是在基于搜索查询结果排序、互联网广告点击率预测、商品个性化推荐、语音识别和智能问答等涉及大规模数据处理的系统中,超大规模机器学习算法已成为最重要的技术支撑之一。
机器学习算法通常是对连续的数值矩阵和向量进行运算,这也就要求了输入数据必须是连续数值空间。然而互联网领域的大规模数据一般都是由用户的点击日志、搜索查询日志或者商品购买日志汇总而来,也就是说,绝大部分的互联网数据都是以离散集合的形式存在,比如:
一组用户ID的集合:{user_1,user_2,…,user_n};
一组商品ID的集合:{item_1,item_2,…,item_n};
一组搜索查询的集合:{“男装”,“高跟鞋”,…}。
因此在执行机器学习算法之前,先要通过连续数值化方法将离散集合转换为机器学习算法可以使用的连续数值空间,即需要有一种可以从离散集合到连续整数集合的映射:
f:S→N
其中,S是原始的离散集合,N是映射之后的自然数集合,范围为[0,n-1],n=|S|。
通过应用上述的映射关系,就可以将原始的离散集合映射为连续整数集合,即完成了从样本矩阵到数值矩阵的转换,然后将数值矩阵输入到机器学习算法中完成后续的计算过程。
在现有技术的连续数值化方法中,一般都是采用哈希表映射的方式。具体的,首先创建一个哈希表,然后通过查询哈希表判断输入集合中的每一个元素是否已经在哈希表中存在了对应表项。接着根据判断结果选择不同的执行方式,如果对应元素已经在哈希表中存在了对应表项,则忽略该元素;如果不存在的话,则为该元素分配一个整数值,这个整数值等于当前哈希表的总元素个数,并同时将这个元素和对应的分配整数值加入当前哈希表中。最终形成的哈希表就是一个映射关系,根据这个映射关系,就可以将原输入集合转换为整数值集合。
在实现本申请的过程中,发明人发现现有技术至少存在如下问题:
(1)只有将整个原始离散集合的元素存入同一个哈希表中,才能获得全局唯一的整数值,然而单一的哈希表所能够存储的数据容量会受到硬件条件的限制,同时也无法进行并发读写,因此会出现硬件性能无法满足处理要求的问题;
(2)待处理数据无法通过集群资源利用多个进程并行处理,造成处理效率较低,不适合处理现今互联网规模的大规模数据集合;
(3)哈希表中需要保存原始离散集合的内容作为映射键值,那么如果原始离散集合占据了较大的内存空间,映射键值也会相应地占据较大的内存空间,同时还需要在单机上加载全部的映射对,这些都会使得系统处理原始离散集合规模的上限受到单机内存的上限的限制,而无法进行线性扩展。
以上现有技术所存在的缺点均会不同程度地限制机器学习所需的数据和特征规模,从而会影响机器学习算法最终能取得的效果。
因此,现有技术在针对超大规模离散集合的连续数值化过程时,会受到单机内存和计算资源的限制,对输入集合无法做相应地线性扩展,进而会影响映射的转换效率以及机器学习算法的学习效果,同时也浪费了大量的硬件资源。
发明内容
有鉴于背景技术中的问题,本发明提供一种映射方法,通过对映射算法的优化以及将离散集合切分并行处理的方式,解决现有技术中受到单机内存和计算资源限制的问题,可以对输入的离散集合做相应地线性扩展,节省了硬件资源,同时提升了映射的转换效率以及机器学习算法的学习效果。
该方法应用于集群系统中的主服务器,所述集群系统还包括各子服务器,所述方法包括:
将所接收的离散集合切分为若干个按序排列的离散子集合;
将各所述离散子集合分布至对应的各所述子服务器中,以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后,通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集;
从各所述子服务器中获取对应的各所述映射连续整数子集,处理后得到映射连续整数集合。
优选地,将输入的离散集合切分为若干个离散子集合,具体为:
根据预设哈希函数映射出所述离散集合中各元素的哈希值;
将各所述哈希值对预设正整数取模得到各所述元素的哈希值所对应的模值;
将模值相等的元素分入同一个离散子集合,以形成预设正整数个所述离散子集合。
优选地,处理后得到映射连续整数集合,具体为:
计算出所有各所述映射连续整数子集的并集;
将并集后集合中所有的元素按照大小顺序排列后得到映射连续整数集合。
本发明还提供了一种应用于集群系统中的各子服务器的映射方法,所述集群系统还包括主服务器,该方法包括:
从所述主服务器接收对应的离散子集合;
根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后,将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集;
将所述映射连续整数子集转发至所述主服务器,以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。
优选地,根据预设偏移量算法得出所述离散子集合对应的偏移量值,具体为:
判断该离散子集合在所有离散子集合中的所处顺序是否为首位;
若是,则该离散子集合对应的偏移量值为0;
若否,则该离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。
优选地,根据最小完美哈希算法得出所述离散子集合对应的连续整数子集,具体为:
根据该离散子集合中元素的个数,构造出对应个数且带有编号的哈希函数,各所述哈希函数的编号形成了一个从0开始的连续正整数的数字序列;
根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号,并分别得出各所述元素对应的各所述哈希值;
将各所述哈希值进行排序,以得出所述离散子集合对应的连续整数子集。
优选地,根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号,具体为:
通过各所述元素基于各所述哈希函数的全部映射结果,确定该离散子集合对应的所有哈希值个数;
分别以所述元素个数和所述哈希值个数为边数和节点数,构造无环超图;
遍历所述无环超图的每一条边,根据预设节点计算公式得出各所述节点对应的计算结果,以形成基于计算结果的数组;
基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号。
优选地,基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号,具体为:
根据所述数组以及预设编号计算公式计算出元素对应的编号值;
判断所述编号值是否已被占用;
若否,则所述编号值为所述元素对应的所述哈希函数的编号。
优选地,将各所述哈希值进行排序,以得出所述离散子集合对应的连续整数子集,具体为:
根据所述哈希值对应的所述哈希函数的编号,确定在分配该编号之前分配出去的所有编号的个数,所述哈希值对应的整数为所述个数的大小;
将各所述哈希值对应的整数汇总后,得出所述离散子集合对应的连续整数子集。
相应地,本发明提供了一种服务器,所述服务器为应用于处理离散集群系统中的主服务器,所述集群系统还包括各子服务器,所述服务器包括:
切分模块,将所接收的离散集合切分为若干个按序排列的离散子集合;
分布模块,将各所述离散子集合分布至对应的各所述子服务器中,以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后,通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集;
第一处理模块,从各所述子服务器中获取对应的各所述映射连续整数子集,处理后得到映射连续整数集合。
优选地,所述切分模块具体用于:
根据预设哈希函数映射出所述离散集合中各元素的哈希值;
将各所述哈希值对预设正整数取模得到各所述元素的哈希值所对应的模值;
将模值相等的元素分入同一个离散子集合,以形成预设正整数个所述离散子集合。
优选地,所述第一处理模块具体用于:
计算出所有各所述映射连续整数子集的并集;
将并集后集合中所有的元素按照大小顺序排列后得到映射连续整数集合。
相应地,本发明还提供了一种服务器,所述服务器为应用于集群系统中的子服务器,所述集群系统还包括主服务器,所述服务器包括:
接收模块,从所述主服务器接收对应的离散子集合;
第二处理模块,根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后,将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集;
转发模块,将所述映射连续整数子集转发至所述主服务器,以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。
优选地,所述第二处理模块具体用于:
判断该离散子集合在所有离散子集合中的所处顺序是否为首位;
若是,则该离散子集合对应的偏移量值为0;
若否,则该离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。
优选地,所述第二处理模块还用于:
根据该离散子集合中元素的个数,构造出对应个数且带有编号的哈希函数,各所述哈希函数的编号形成了一个从0开始的连续正整数的数字序列;
根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号,并分别得出各所述元素对应的各所述哈希值;
将各所述哈希值进行排序,以得出所述离散子集合对应的连续整数子集。
优选地,所述第二处理模块还用于:
通过各所述元素基于各所述哈希函数的全部映射结果,确定该离散子集合对应的所有哈希值个数;
分别以所述元素个数和所述哈希值个数为边数和节点数,构造无环超图;
遍历所述无环超图的每一条边,根据预设节点计算公式得出各所述节点对应的计算结果,以形成基于计算结果的数组;
基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号。
优选地,所述第二处理模块还用于:
根据所述数组以及预设编号计算公式计算出元素对应的编号值;
判断所述编号值是否已被占用;
若否,则所述编号值为所述元素对应的所述哈希函数的编号。
优选地,其特征在于,所述第二处理模块还用于:
根据所述哈希值对应的所述哈希函数的编号,确定在分配该编号之前分配出去的所有编号的个数,所述哈希值对应的整数为所述个数的大小;
将各所述哈希值对应的整数汇总后,得出所述离散子集合对应的连续整数子集。
由此可见,通过应用本申请的技术方案,现有技术在针对超大规模离散集合的连续数值化过程时,通过对离散集合切分后利用集群系统中的多台服务器进行并行处理,且设计了最小完美哈希算法和偏移量的映射算法优化方式。以此可以对输入的离散集合做相应地线性扩展,同时提升了映射的转换效率以及机器学习算法的学习效果,并节省了大量的硬件资源。
附图说明
图1为本申请提出的一种映射方法的流程示意图;
图2为本申请提出的一种映射方法的流程示意图;
图3为本申请的具体实施例所提出的一种映射方法的流程示意图;
图4为本申请提出的一种服务器的结构示意图;
图5为本申请提出的一种服务器的结构示意图。
具体实施方式
有鉴于背景技术中的问题,本发明提供一种映射方法,通过对映射算法的优化以及将离散集合切分并行处理的方式,解决现有技术中受到单机内存和计算资源限制的问题,可以对输入的离散集合做相应地线性扩展,节省了硬件资源,同时提升了映射的转换效率以及机器学习算法的学习效果。
该方法应用于集群系统中的主服务器,所述集群系统还包括各子服务器。
如图1所示,为本申请提出的映射方法的流程示意图,包括以下步骤:
S101将输入的离散集合切分为若干个按序排列的离散子集合。
在本申请的实施方式中,采用如下步骤进行切分:
a)根据预设哈希函数映射出所述离散集合中各元素的哈希值;
b)将各所述哈希值对预设正整数取模得到各所述元素的哈希值所对应的模值;
c)将模值相等的元素分入同一个离散子集合,以形成预设正整数个所述离散子集合。
其中,在本申请的具体实施方式中,预设正整数一般选取一个较大的质数。
需要说明的是,本申请需要得到的是离散集合拆分后的离散子集合,本申请的保护范围并不限于集合切分的方法,也就是说,进行以上集合的切分方法仅为本申请优选实施例提出的示例,在此基础上还可以选择其他方式来进行切分,以使本申请适用于更多的应用领域,这些改进都属于本发明的保护范围。
S102将各所述离散子集合分布至对应的各所述子服务器中,以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后,通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集。
在本申请的实施方式中,采用多个子服务器来分配多个离散子集合,对各个离散子集合进行并行处理。
S103从各所述子服务器中获取对应的各所述映射连续整数子集,处理后得到映射连续整数集合。
在本申请的实施方式中,在获取全部子服务器输出的所有映射连续整数子集后,继续采用如下步骤进行处理:
a)计算出所有各所述映射连续整数子集的并集;
b)将并集后集合中所有的元素按照大小顺序排列后得到映射连续整数集合。
本发明还提供了一种应用于集群系统中的各子服务器的映射方法,所述集群系统还包括主服务器。
如图2所示,为本申请提出的映射方法的流程示意图,包括以下步骤:
S201从所述主服务器接收对应的离散子集合。
在本申请的实施方式中,在主服务器将输入的离散集合切分后,各子服务器分别接收各自对应的离散子集合,从而实现了对各个离散子集合进行并行处理这一目的。
S202根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后,将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集。
在本申请的实施方式中,每个连续整数子集中的元素需要分别与对应的偏移量进行求和。举例来说,离散子集合1、离散子集合2和离散子集合3分别对应于连续整数子集1为{1,2,3,4},连续整数子集2为{1,2,3,4},连续整数子集3为{1,2,3,4},如果主服务器直接将连续整数子集1、连续整数子集2和连续整数子集3进行合并后的映射连续整数集合为{1,2,3,4,1,2,3,4,1,2,3,4},很明显无法实现。故本申请引出了偏移量这一概念,离散子集和1的偏移量为0,离散子集和2的偏移量为4,离散子集和3的偏移量为8,每个连续整数子集中的元素分别通过与对应的偏移量进行求和后得到的对应的映射连续整数子集,则映射连续整数子集1为{1,2,3,4},映射连续整数子集2为{5,6,7,8},映射连续整数子集3为{9,10,11,12},如果主服务器将映射连续整数子集1、映射连续整数子集2和映射连续整数子集3进行合并后的映射连续整数集合为{1,2,3,4,5,6,7,8,9,10,11,12},从而实现了映射结果为连续整数集合这一技术效果。
故本申请具体实施方式中公开了以下偏移量值的计算步骤:
a)判断该离散子集合在所有离散子集合中的所处顺序是否为首位;
b)若是,则该离散子集合对应的偏移量值为0;
c)若否,则该离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。
需要说明的是,本申请需要实现各映射连续整数子集在合并后仍然为连续整数的集合,故提出一种偏移量的计算方法,本申请的保护范围并不限于上述计算方法,也就是说,进行以上偏移量的计算方法仅为本申请优选实施例提出的示例,在此基础上还可以选择其他方式来进行计算,以使本申请适用于更多的应用领域,这些改进都属于本发明的保护范围。
另外,最小完美哈希算法可以得到离散子集合的连续整数子集,离散子集合中的元素个数和连续整数子集的元素个数是相等的,同时是一一对应且不冲突的。举例来说,如果离散子集合中包含5个离散元素,通过最小完美哈希算法后则会形成类似{0,1,2,3,4}这种包含5个连续整数的连续整数子集,再通过与对应偏移量之间进行求和后得到离散子集合所对应的映射连续整数子集。
在本申请具体实施方式中,公开了以下最小完美哈希算法的计算步骤:
a)根据该离散子集合中元素的个数,构造出对应个数且带有编号的哈希函数,各所述哈希函数的编号形成了一个从0开始的连续正整数的数字序列。
具体的,通过举例来进行说明,如果离散子集合Si中有4个元素,分别为x1、x2、x3与x4,则构造出4个哈希函数{h0,h1,h2,h4}。
b)根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号,并分别得出各所述元素对应的各所述哈希值。
其中,其中编号是通过如下步骤进行确定的:
1)通过各所述元素基于各所述哈希函数的全部映射结果,确定该离散子集合对应的所有哈希值个数;
2)分别以所述元素个数和所述哈希值个数为边数和节点数,构造无环超图;
3)遍历所述无环超图的每一条边,根据预设节点计算公式得出各所述节点对应的计算结果,以形成基于计算结果的数组;
4)基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号。
具体的,基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号,包括如下步骤:
①根据所述数组以及预设编号计算公式计算出元素对应的编号值;
②判断所述编号值是否已被占用;
③若否,则所述编号值为所述元素对应的所述哈希函数的编号。
c)将各所述哈希值进行排序,以得出所述离散子集合对应的连续整数子集。
具体的,将各所述哈希值进行排序,包括如下步骤:
a)根据所述哈希值对应的所述哈希函数的编号,确定在分配该编号之前分配出去的所有编号的个数,所述哈希值对应的整数为所述个数的大小;
b)将各所述哈希值对应的整数汇总后,得出所述离散子集合对应的连续整数子集。
需要说明的是,本申请进行以上基于最小完美哈希算法得到离散子集合的连续整数子集的计算过程仅为本申请优选实施例提出的示例,在此基础上还可以选择其他方式来进行计算,以使本申请适用于更多的应用领域,这些改进都属于本发明的保护范围。
S203将所述映射连续整数子集转发至所述主服务器,以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。
由以上内容可知,通过应用本申请的技术方案,在针对现有技术在针对超大规模离散集合的连续数值化过程时,通过对离散集合切分后利用集群系统中的多台服务器进行并行处理,且设计了最小完美哈希算法和偏移量的映射算法优化方式。以此可以对输入的离散集合做相应地线性扩展,并使得在生成的映射关系中不需要保存原始离散集合的信息,显著降低了内存占用,同时提升了映射的转换效率以及机器学习算法的学习效果,并节省了大量的硬件资源。
为了进一步阐述本发明的技术思想,现结合图3所示的具体的应用场景,对本发明的技术方案进行说明。
在此具体的应用场景中,提出了一种映射方法。该方法包括如下步骤:
步骤1接收输入的离散集合,预先选定一个哈希函数h,通过该哈希函数映射出所述离散集合中各元素的哈希值,将各所述哈希值对正整数k取模得到各所述元素的哈希值所对应的模值,将模值相等的元素分入同一个离散子集合,以切分成k个离散子集合。
在本实施方式中,步骤1中的第i个离散子集合Si(1≤i≤k)可以表示为:
si={x,h(x)mod k=i}
其中,x为离散子集合中的元素,h(x)为元素x对应的哈希值,i的范围为[1,k]。
通过步骤1切分得到的各个离散子集合中没有重复元素,且各个离散子集合的规模也基本均等,然后通过将各离散子集合分布至集群系统中对应的各子服务器中,每台子服务器可以并行处理各自对应的离散子集合。
也就是说,步骤1是将离散集合中所有基于哈希值取模后模值为i的元素分入离散子集合Si中。
步骤2各子服务器对各自对应的离散子集合并行处理,计算出各离散子集合的偏移量值,偏移量(Offset)的递推定义如下:
在本实施方式中,Offseti为第i个离散子集合所对应的偏移量值,|Sj|(1≤j≤i-1)为第j个离散子集合中的元素个数。
具体的,第一个离散子集合的Offset1偏移量值为0,从第二个离散子集开始,各离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。
步骤3各子服务器对各自对应的离散子集合并行处理,对于每个离散子集合子集Si,均基于最小完美哈希算法(Minimal Perfect Hash)生成一个映射关系fi:
fi:Si→Ni,|Si|=ni,Ni={0,1,...,ni-1}
其中,这个映射关系fi将离散子集合Si映射到一个连续整数空间集合Ni中,Ni的范围是[0,ni-1],|Si|=ni表示第i个离散子集合中的元素个数为ni个。
在本实施方式中,步骤3中最小完美哈希映射关系的计算步骤如下:
a)映射步:根据离散子集合Si中元素的个数ni,从一组哈希函数H中随机选取并构造ni个哈希函数{h0,h1,…,hni-1},构造的哈希函数的个数是和离散子集合中的元素个数是相等的。选取已知哈希函数h’,分别为离散子集合Si中的任意元素x生成ni个哈希值h’0,h’1,…,h’ni-1,从而有:
h0=h′0modη
h1=h′1modη+η
h2=h′2modη+2η
…
以此类推,就得到了关于元素x的ni个哈希函数,离散子集合中的所有元素均通过上述规则进行处理。其中,η是一个预先设置的参数,通过上述方式选取出来的哈希函数的值域是[0,η×ni),也就是说,针对离散子集合Si中的ni个元素,这组哈希函数{h0,h1,…,hni-1}的输出值个数为η×ni个。
创建一个无环ni部超图(acyclicni-partite hypergraph),超图的每个独立子集边数和Si的元素个数ni相同,超图的每个节点对应一个由上面生成的ni个哈希函数对子集合中元素计算得到的输出值,输出值的范围是[0,m-1],这样的节点有m个,其中m=η·ni。
b)分配步:在前面创建的无环ni部超图中,离散子集合Si中的任意元素x是由ni个哈希函数输出值对应到ni个节点,可以表示为V={v0,v1,…,vni-1},每个节点上对应有一个整数值,离散子集合Si中的任意元素x分配整数值的步骤如下:
1)遍历所述无环超图的每一条边,在这条边上,找到在每条上第一个还没有被分配的节点u,令
根据上述节点计算公式得出各所述节点对应的计算结果,以形成基于计算结果的数组g={g0,g1,…,gm-1},其中0≤gi≤ni。数组g={g0,g1,…,gm-1}适用于离散子集合Si中的任意元素x的计算过程。
2)根据所述数组g={g0,g1,…,gm-1}以及预设编号计算公式计算出元素对应的编号值,进而确定离散子集合Si中的任意元素x对应到唯一的一个节点上所属的整数值。其中,编号计算公式如下:
i=(gh0(x)+gh1(x)+…+gh(ni-1)(x))mod ni
然后判断计算所得的编号值i是否已被使用,若否,则该编号值为元素x对应的所述哈希函数的编号,即哈希函数hi的对应计算结果为元素x对应的整数值,该整数值的取值范围是[0,m);若是,则顺延找到下一个编号i+1,判断编号值i+1是否已被使用,若否,则编号值i+1为所述元素对应的所述哈希函数的编号,即哈希函数hi+1的对应计算结果为元素x对应的整数值,该整数值的取值范围是[0,m),依此类推。
c)排序步:分配步已经为离散子集合中的每个元素分配了一个整数值,整数值的取值范围是[0,m),为了得到最小完美哈希函数,需要将整数值的取值范围是[0,m)缩小至[0,ni-1]。具体步骤如下:
生成一个序号表,其中序号表是一个长度为ni的一维数组,其中每个下标对应的值表示,在这个下标之前被之前分配步使用过的整数个数。具体可参考如下的排序公式:
其中,assigned[i]表示第i个数是否在分配步被使用。经过排序步,离散子集合中的元素就被一一映射到连续的整数空间子集合中,该整数空间集合取值范围是[0,ni-1]。最小完美哈希函数可以通过如下公式进行表示:
mphi(x)=rank[hi(x)]
其中,mphi(x)为第i个离散子集合Si中任意元素x对应的最小完美哈希函数的输出值,rank[hi(x)]为排序步的具体处理过程。
步骤4各子服务器并行处理,基于步骤3得出的连续的整数空间子集合,将每个子服务器的整数空间集合中各元素的哈希值分别加上步骤2计算出的对应的偏移量值,得到最终的映射连续整数子集合。
在本实施方式中,最终的映射连续整数子集合可以表示为:
fi(x)=mphi(x)+Offseti
其中,mphi(x)为第i个离散子集合Si中任意元素x对应的最小完美哈希函数的输出值,Offseti为第i个离散子集合所对应的偏移量值。
步骤5将各子服务器中生成的映射连续整数子集合汇总到一个集合,形成最终输出的映射连续整数集合。
需要说明的是,本具体实施方式所涉及的映射方法仅为本申请优选实施例提出的示例,在此基础上还可以选择其他类似的方式来进行计算以得到类似的结果,以使本申请适用于更多的应用领域,这些改进都属于本发明的保护范围。
由以上内容可知,本具体实施方式在针对现有技术在针对超大规模离散集合的连续数值化过程时,通过对离散集合切分后利用集群系统中的多台服务器进行并行处理,且设计了最小完美哈希算法和偏移量的映射算法优化方式。以此可以对输入的离散集合做相应地线性扩展,并使得在生成的映射关系中不需要保存原始离散集合的信息,显著降低了内存占用,同时提升了映射的转换效率以及机器学习算法的学习效果,并节省了大量的硬件资源。
为达到以上技术目的,相应地,本申请还提出了一种服务器,所述服务器为应用于处理离散集群系统中的主服务器,所述集群系统还包括各子服务器,如图4所示,所述服务器包括:
切分模块401,将所接收的离散集合切分为若干个按序排列的离散子集合;
分布模块402,将各所述离散子集合分布至对应的各所述子服务器中,以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后,通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集;
第一处理模块403,从各所述子服务器中获取对应的各所述映射连续整数子集,处理后得到映射连续整数集合。
在具体的应用场景中,所述切分模块具体用于:
根据预设哈希函数映射出所述离散集合中各元素的哈希值;
将各所述哈希值对预设正整数取模得到各所述元素的哈希值所对应的模值;
将模值相等的元素分入同一个离散子集合,以形成预设正整数个所述离散子集合。
在具体的应用场景中,所述第一处理模块具体用于:
计算出所有各所述映射连续整数子集的并集;
将并集后集合中所有的元素按照大小顺序排列后得到映射连续整数集合。
为达到以上技术目的,相应地,本申请还提出了一种服务器,所述服务器为应用于集群系统中的子服务器,所述集群系统还包括主服务器,如图5所示,所述服务器包括:
接收模块501,从所述主服务器接收对应的离散子集合;
第二处理模块502,根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后,将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集;
转发模块503,将所述映射连续整数子集转发至所述主服务器,以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。
在具体的应用场景中,所述第二处理模块具体用于:
判断该离散子集合在所有离散子集合中的所处顺序是否为首位;
若是,则该离散子集合对应的偏移量值为0;
若否,则该离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。
在具体的应用场景中,所述第二处理模块还用于:
根据该离散子集合中元素的个数,构造出对应个数且带有编号的哈希函数,各所述哈希函数的编号形成了一个从0开始的连续正整数的数字序列;
根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号,并分别得出各所述元素对应的各所述哈希值;
将各所述哈希值进行排序,以得出所述离散子集合对应的连续整数子集。
在具体的应用场景中,所述第二处理模块还用于:
通过各所述元素基于各所述哈希函数的全部映射结果,确定该离散子集合对应的所有哈希值个数;
分别以所述元素个数和所述哈希值个数为边数和节点数,构造无环超图;
遍历所述无环超图的每一条边,根据预设节点计算公式得出各所述节点对应的计算结果,以形成基于计算结果的数组;
基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号。
在具体的应用场景中,所述第二处理模块还用于:
根据所述数组以及预设编号计算公式计算出元素对应的编号值;
判断所述编号值是否已被占用;
若否,则所述编号值为所述元素对应的所述哈希函数的编号。
在具体的应用场景中,所述第二处理模块还用于:
根据所述哈希值对应的所述哈希函数的编号,确定在分配该编号之前分配出去的所有编号的个数,所述哈希值对应的整数为所述个数的大小;
将各所述哈希值对应的整数汇总后,得出所述离散子集合对应的连续整数子集。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (18)
1.一种映射方法,其特征在于,所述方法应用于集群系统中的主服务器,所述集群系统还包括各子服务器,所述方法包括:
将输入的离散集合切分为若干个按序排列的离散子集合;
将各所述离散子集合分布至对应的各所述子服务器中,以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后,通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集;
从各所述子服务器中获取对应的各所述映射连续整数子集,处理后得到映射连续整数集合。
2.如权利要求1所述的方法,其特征在于,将所接收的离散集合切分为若干个离散子集合,具体为:
根据预设哈希函数映射出所述离散集合中各元素的哈希值;
将各所述哈希值对预设正整数取模得到各所述元素的哈希值所对应的模值;
将模值相等的元素分入同一个离散子集合,以形成预设正整数个所述离散子集合。
3.如权利要求1所述的方法,其特征在于,处理后得到映射连续整数集合,具体为:
计算出所有各所述映射连续整数子集的并集;
将并集后集合中所有的元素按照大小顺序排列后得到映射连续整数集合。
4.一种映射方法,其特征在于,所述方法应用于集群系统中的各子服务器,所述集群系统还包括主服务器,所述方法包括:
从所述主服务器接收对应的离散子集合;
根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后,将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集;
将所述映射连续整数子集转发至所述主服务器,以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。
5.如权利要求4所述的方法,其特征在于,根据预设偏移量算法得出所述离散子集合对应的偏移量值,具体为:
判断该离散子集合在所有离散子集合中的所处顺序是否为首位;
若是,则该离散子集合对应的偏移量值为0;
若否,则该离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。
6.如权利要求4所述的方法,其特征在于,根据最小完美哈希算法得出所述离散子集合对应的连续整数子集,具体为:
根据该离散子集合中元素的个数,构造出对应个数且带有编号的哈希函数,各所述哈希函数的编号形成了一个从0开始的连续正整数的数字序列;
根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号,并分别得出各所述元素对应的各所述哈希值;
将各所述哈希值进行排序,以得出所述离散子集合对应的连续整数子集。
7.如权利要求6所述的方法,其特征在于,根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号,具体为:
通过各所述元素基于各所述哈希函数的全部映射结果,确定该离散子集合对应的所有哈希值个数;
分别以所述元素个数和所述哈希值个数为边数和节点数,构造无环超图;
遍历所述无环超图的每一条边,根据预设节点计算公式得出各所述节点对应的计算结果,以形成基于计算结果的数组;
基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号。
8.如权利要求7所述的方法,其特征在于,基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号,具体为:
根据所述数组以及预设编号计算公式计算出元素对应的编号值;
判断所述编号值是否已被占用;
若否,则所述编号值为所述元素对应的所述哈希函数的编号。
9.如权利要求6或8任一项所述的方法,其特征在于,将各所述哈希值进行排序,以得出所述离散子集合对应的连续整数子集,具体为:
根据所述哈希值对应的所述哈希函数的编号,确定在分配该编号之前分配出去的所有编号的个数,所述哈希值对应的整数为所述个数的大小;
将各所述哈希值对应的整数汇总后,得出所述离散子集合对应的连续整数子集。
10.一种服务器,其特征在于,所述服务器为应用于集群系统中的主服务器,所述集群系统还包括各子服务器,所述服务器包括:
切分模块,将输入的离散集合切分为若干个按序排列的离散子集合;
分布模块,将各所述离散子集合分布至对应的各所述子服务器中,以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后,通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集;
第一处理模块,从各所述子服务器中获取对应的各所述映射连续整数子集,处理后得到映射连续整数集合。
11.如权利要求10所述的服务器,其特征在于,所述切分模块具体用于:
根据预设哈希函数映射出所述离散集合中各元素的哈希值;
将各所述哈希值对预设正整数取模得到各所述元素的哈希值所对应的模值;
将模值相等的元素分入同一个离散子集合,以形成预设正整数个所述离散子集合。
12.如权利要求10所述的服务器,其特征在于,所述第一处理模块具体用于:
计算出所有各所述映射连续整数子集的并集;
将并集后集合中所有的元素按照大小顺序排列后得到映射连续整数集合。
13.一种服务器,其特征在于,所述服务器为应用于集群系统中的子服务器,所述集群系统还包括主服务器,所述服务器包括:
接收模块,从所述主服务器接收对应的离散子集合;
第二处理模块,根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后,将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集;
转发模块,将所述映射连续整数子集转发至所述主服务器,以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。
14.如权利要求13所述的服务器,其特征在于,所述第二处理模块具体用于:
判断该离散子集合在所有离散子集合中的所处顺序是否为首位;
若是,则该离散子集合对应的偏移量值为0;
若否,则该离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。
15.如权利要求13所述的服务器,其特征在于,所述第二处理模块还用于:
根据该离散子集合中元素的个数,构造出对应个数且带有编号的哈希函数,各所述哈希函数的编号形成了一个从0开始的连续正整数的数字序列;
根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号,并分别得出各所述元素对应的各所述哈希值;
将各所述哈希值进行排序,以得出所述离散子集合对应的连续整数子集。
16.如权利要求15所述的服务器,其特征在于,所述第二处理模块还用于:
通过各所述元素基于各所述哈希函数的全部映射结果,确定该离散子集合对应的所有哈希值个数;
分别以所述元素个数和所述哈希值个数为边数和节点数,构造无环超图;
遍历所述无环超图的每一条边,根据预设节点计算公式得出各所述节点对应的计算结果,以形成基于计算结果的数组;
基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号。
17.如权利要求16所述的服务器,其特征在于,所述第二处理模块还用于:
根据所述数组以及预设编号计算公式计算出元素对应的编号值;
判断所述编号值是否已被占用;
若否,则所述编号值为所述元素对应的所述哈希函数的编号。
18.如权利要求13或17任一项所述的服务器,其特征在于,所述第二处理模块还用于:
根据所述哈希值对应的所述哈希函数的编号,确定在分配该编号之前分配出去的所有编号的个数,所述哈希值对应的整数为所述个数的大小;
将各所述哈希值对应的整数汇总后,得出所述离散子集合对应的连续整数子集。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610009341.4A CN106951425A (zh) | 2016-01-07 | 2016-01-07 | 一种映射方法和设备 |
PCT/CN2016/112855 WO2017118335A1 (zh) | 2016-01-07 | 2016-12-29 | 一种映射方法和设备 |
US16/024,585 US20180307743A1 (en) | 2016-01-07 | 2018-06-29 | Mapping method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610009341.4A CN106951425A (zh) | 2016-01-07 | 2016-01-07 | 一种映射方法和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106951425A true CN106951425A (zh) | 2017-07-14 |
Family
ID=59273661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610009341.4A Pending CN106951425A (zh) | 2016-01-07 | 2016-01-07 | 一种映射方法和设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180307743A1 (zh) |
CN (1) | CN106951425A (zh) |
WO (1) | WO2017118335A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101621A (zh) * | 2018-08-09 | 2018-12-28 | 中国建设银行股份有限公司 | 一种数据的批量处理方法及系统 |
CN110839084A (zh) * | 2019-11-19 | 2020-02-25 | 中国建设银行股份有限公司 | 会话管理方法、装置、设备和介质 |
CN111447278A (zh) * | 2020-03-27 | 2020-07-24 | 第四范式(北京)技术有限公司 | 用于获取连续特征的分布式系统及其方法 |
CN112465105A (zh) * | 2019-09-09 | 2021-03-09 | 富士通株式会社 | 记录学习程序的计算机可读记录介质以及学习方法 |
CN114446407A (zh) * | 2022-03-03 | 2022-05-06 | 冰洲石生物科技(上海)有限公司 | 化学反应的反应模板提取方法、系统、介质及电子设备 |
CN117555903A (zh) * | 2024-01-05 | 2024-02-13 | 珠海星云智联科技有限公司 | 一种数据处理方法、计算机设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010104902A2 (en) * | 2009-03-11 | 2010-09-16 | Oracle International Corporation | Composite hash and list partitioning of database tables |
CN102298633A (zh) * | 2011-09-08 | 2011-12-28 | 厦门市美亚柏科信息股份有限公司 | 一种分布式海量数据排重方法及系统 |
US20120016845A1 (en) * | 2010-07-16 | 2012-01-19 | Twinstrata, Inc | System and method for data deduplication for disk storage subsystems |
US20130110766A1 (en) * | 2009-10-13 | 2013-05-02 | Open Text Software Gmbh | Method for performing transactions on data and a transactional database |
US20140280419A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Computing polychoric and polyserial correlations between random variables using norta |
CN104573050A (zh) * | 2015-01-20 | 2015-04-29 | 安徽科力信息产业有限责任公司 | 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100481086C (zh) * | 2007-04-13 | 2009-04-22 | 武汉大学 | 一种空间数据集群存储系统及其数据查询方法 |
EP2962218B1 (en) * | 2013-02-27 | 2021-04-07 | Hitachi Vantara LLC | Decoupled content and metadata in a distributed object storage ecosystem |
-
2016
- 2016-01-07 CN CN201610009341.4A patent/CN106951425A/zh active Pending
- 2016-12-29 WO PCT/CN2016/112855 patent/WO2017118335A1/zh active Application Filing
-
2018
- 2018-06-29 US US16/024,585 patent/US20180307743A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010104902A2 (en) * | 2009-03-11 | 2010-09-16 | Oracle International Corporation | Composite hash and list partitioning of database tables |
US20130110766A1 (en) * | 2009-10-13 | 2013-05-02 | Open Text Software Gmbh | Method for performing transactions on data and a transactional database |
US20120016845A1 (en) * | 2010-07-16 | 2012-01-19 | Twinstrata, Inc | System and method for data deduplication for disk storage subsystems |
CN102298633A (zh) * | 2011-09-08 | 2011-12-28 | 厦门市美亚柏科信息股份有限公司 | 一种分布式海量数据排重方法及系统 |
US20140280419A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Computing polychoric and polyserial correlations between random variables using norta |
CN104573050A (zh) * | 2015-01-20 | 2015-04-29 | 安徽科力信息产业有限责任公司 | 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101621A (zh) * | 2018-08-09 | 2018-12-28 | 中国建设银行股份有限公司 | 一种数据的批量处理方法及系统 |
CN112465105A (zh) * | 2019-09-09 | 2021-03-09 | 富士通株式会社 | 记录学习程序的计算机可读记录介质以及学习方法 |
CN110839084A (zh) * | 2019-11-19 | 2020-02-25 | 中国建设银行股份有限公司 | 会话管理方法、装置、设备和介质 |
CN110839084B (zh) * | 2019-11-19 | 2022-04-05 | 中国建设银行股份有限公司 | 会话管理方法、装置、设备和介质 |
CN111447278A (zh) * | 2020-03-27 | 2020-07-24 | 第四范式(北京)技术有限公司 | 用于获取连续特征的分布式系统及其方法 |
CN111447278B (zh) * | 2020-03-27 | 2021-06-08 | 第四范式(北京)技术有限公司 | 用于获取连续特征的分布式系统及其方法 |
CN114446407A (zh) * | 2022-03-03 | 2022-05-06 | 冰洲石生物科技(上海)有限公司 | 化学反应的反应模板提取方法、系统、介质及电子设备 |
CN117555903A (zh) * | 2024-01-05 | 2024-02-13 | 珠海星云智联科技有限公司 | 一种数据处理方法、计算机设备及介质 |
CN117555903B (zh) * | 2024-01-05 | 2024-04-09 | 珠海星云智联科技有限公司 | 一种数据处理方法、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2017118335A1 (zh) | 2017-07-13 |
US20180307743A1 (en) | 2018-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951425A (zh) | 一种映射方法和设备 | |
CN109785062B (zh) | 一种基于协同过滤模型的混合神经网络推荐系统 | |
Assunção et al. | Efficient regionalization techniques for socio‐economic geographical units using minimum spanning trees | |
CN103886048B (zh) | 一种基于聚类的增量数字图书推荐方法 | |
Austin | Inconsistencies between theory and methodology: a recurrent problem in ordination studies | |
JP2005327299A (ja) | オブジェクトの類似性を異種の関係に基づいて判定するための方法およびシステム | |
JP6819355B2 (ja) | レコメンデーション生成 | |
CN108399213B (zh) | 一种面向用户个人文件的聚类方法及系统 | |
CN105204920B (zh) | 一种基于映射聚合的分布式计算作业的实现方法及装置 | |
CN114359563B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
KR101970978B1 (ko) | 상품 카테고리별 추천 키워드 추출 방법 | |
CN106850750A (zh) | 一种实时推送信息的方法和装置 | |
CN107256241A (zh) | 基于网格与差异替换改进多目标遗传算法的电影推荐方法 | |
CN111143685B (zh) | 一种商品推荐方法及装置 | |
CN112434031A (zh) | 一种基于信息熵的不确定高效用模式挖掘方法 | |
Wijayanto et al. | Implementation of multi-criteria collaborative filtering on cluster using Apache Spark | |
CN102158533A (zh) | 基于QoS的分布式web服务选择方法 | |
EP1912170A1 (fr) | Dispositif informatique de corrélation propagative | |
CN110209863A (zh) | 用于相似图片检索的方法与设备 | |
CN113255094A (zh) | 优化设备、优化程序和优化方法 | |
CN111966916A (zh) | 一种推荐方法、装置、电子设备及计算机可读存储介质 | |
CN107077481A (zh) | 信息处理装置、信息处理方法和计算机可读存储介质 | |
CN115860099A (zh) | 神经网络模型的压缩方法、装置、计算机设备和存储介质 | |
CN108830680A (zh) | 基于离散分解机的个性化推荐方法、系统及存储介质 | |
CN108920501B (zh) | 一种关系表非键属性特征抽取与数据生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1239875 Country of ref document: HK |
|
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20210903 |
|
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1239875 Country of ref document: HK |