CN103389966A - 一种海量数据的处理、搜索、推荐方法及装置 - Google Patents
一种海量数据的处理、搜索、推荐方法及装置 Download PDFInfo
- Publication number
- CN103389966A CN103389966A CN2012101416180A CN201210141618A CN103389966A CN 103389966 A CN103389966 A CN 103389966A CN 2012101416180 A CN2012101416180 A CN 2012101416180A CN 201210141618 A CN201210141618 A CN 201210141618A CN 103389966 A CN103389966 A CN 103389966A
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- user
- original
- original matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种海量数据的处理方法及装置,以解决是原始数据稀疏性较大导致数据区分的效果不明显的问题。所述的方法包括:将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。本申请从根本上解决了原始数据稀疏性较大的问题,从而使得后续海量数据在处理中数据的区分性较好。
Description
技术领域
本申请涉及数据处理技术,特别是涉及一种海量数据的处理方法及装置,一种基于海量数据的搜索方法及装置,一种基于海量数据的推荐方法及装置。
背景技术
当今社会的信息技术高速发展,一个网络平台上每天处理的数据就可以达到了千万级,海量数据的处理问题也引起了越来越多的关注。
海量数据处理方法中的一类是,通过对海量数据进行处理以区分不同的数据,例如,对海量数据进行聚类。但有时海量数据的稀疏性比较大,会导致海量数据在处理后,数据之间的差异不明显,不能很好的区分出各个数据的不同。
例如,将海量数据处理应用到产品推荐领域,用户数量是海量的,但是产品标签确实有限的,若数据集是N行13列的矩阵,每一行表示一个用户,第一列是用户id,后面的12列是用户标签,比如奶粉同好——品牌、奶粉同好——营养、孕产妇同好——注重保养等,这些标签体现了用户的特性,取3个月的用户数据。
上述数据存在3个问题:1)各个用户标签下的数据量纲不同;2)各个数据的区间跨度不同;3)数据稀疏性比较大。因此,对上述数据集进行改进,原有的12个标签中每个标签值作为独立标签,如奶粉同好——品牌下有A、B等,那么新的标签就会有奶粉同好——品牌——A、奶粉同好——品牌——B等。如此就生成了59个用户标签,每个用户在每个用户标签下有购买行为则为1,反之则为0。
经过上述改进后各个用户标签下的数据量纲相同,并且各个数据的区间跨度也相同了,但由于改进使得用户标签更加细化,进而导致数据的稀疏性加大,因此在后续海量数据在处理中,数据的区分性更加不明显。
发明内容
本申请提供一种海量数据的处理方法及装置,以解决是原始数据稀疏性较大导致数据区分的效果不明显的问题。
相应的,本申请还提供了一种基于海量数据的搜索方法及装置,一种基于海量数据的推荐方法及装置。
为了解决上述问题,本申请公开了一种海量数据的处理方法,包括:
将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;
对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;
对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。
相应的,本申请还公开了一种基于海量数据的搜索方法,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理方法计算得到的,所述的搜索方法包括:
接收用户的搜索请求,其中所述搜索请求中包括请求参数;
在海量数据中查找与所述请求参数相对应的类别数据;
将所述类别数据添加到搜索结果中并返回。
相应的,本申请还公开了一种基于海量数据的推荐方法,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理方法计算得到的,所述的推荐方法包括:
对所述海量数据中各个类别数据的属性进行分析,得到至少一个属性;
针对所述类别数据对应的用户,根据所述属性对应的推荐数据,向所述用户推荐相应的信息。
相应的,本申请还公开了一种海量数据的处理装置,包括:
存储模块,用于将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;
分解模块,用于对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
重构模块,用于将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;
聚类区分模块,用于对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。
相应的,本申请还公开了一种基于海量数据的搜索装置,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理装置计算得到的,所述的搜索装置包括:
接收模块,用于接收用户的搜索请求,其中所述搜索请求中包括请求参数;
查找模块,用于在海量数据中查找与所述请求参数相对应的类别数据;
返回模块,用于将所述类别数据添加到搜索结果中并返回。
相应的,本申请还公开了一种基于海量数据的推荐装置,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理装置计算得到的,所述的推荐装置包括:
分析模块,用于对所述海量数据中各个类别数据的属性进行分析,得到至少一个属性;
推荐模块,用于针对所述类别数据对应的用户,根据所述属性对应的推荐数据,向所述用户推荐相应的信息。
与现有技术相比,本申请包括以下优点:
首先,由于原始数据的稀疏性较大,因此可以将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数。本申请采用分布式技术,将原始矩阵A中的原始数据分布到若干个处理节点上,并进行奇异值分解;将通过奇异值分解得到第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B。通过上述方法消除了原始矩阵A中被赋值为0的原始数据,从而降低了原始矩阵A的稀疏性,得到去稀疏性的重构矩阵B,然后在对所述重构矩阵B中的数据进行处理以区分出不同的类别数据。本申请从根本上解决了原始数据稀疏性较大的问题,从而使得后续海量数据在处理中数据的区分性较好。
其次,本申请采用分布式技术,将原始矩阵A以行或列为单位进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上。使得每个处理节点都能够处理一部分数据,加快了数据的处理速度和处理效率。
再次,现有技术中采用的Lanczos算法和QR迭代是近似算法,通过不断的迭代来解决大矩阵的分解问题。不同与现有技术,本申请可以在不损失精度的情况下,提供了一种超大规模矩阵的奇异值分解方法。
再次,本申请在海量数据处理方法中获得了类别数据,可以基于这种方法可以对所述海量数据中的类别数据进行搜索和推荐,可以快速的获取到对应的搜索结果和推荐结果。
附图说明
图1是本申请实施例所述一种海量数据的处理方法流程图;
图2是本申请实施例所述一种海量数据的处理方法中奇异值分解流程图;
图3是本申请实施例所述奇异值分解方法中第一部分示意图;
图4是本申请实施例所述奇异值分解方法中第二部分示意图;
图5是本申请实施例所述奇异值分解方法中第三部分示意图;
图6是本申请实施例所述一种基于海量数据的搜索方法流程图;
图7是本申请实施例所述一种基于海量数据的推荐方法流程图;
图8是本申请实施例所述一种海量数据的处理装置结构图;
图9是本申请实施例所述一种海量数据的处理装置中分解模块结构图;
图10是本申请实施例所述一种基于海量数据的搜索装置结构图;
图11是本申请实施例所述一种基于海量数据的推荐装置结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请提供了一种海量数据的处理方法,消除了原始矩阵A中被赋值为0的原始数据,从而降低了原始矩阵A的稀疏性,得到去稀疏性的重构矩阵B,然后在对所述重构矩阵B中的数据进行处理以区分出不同的数据。本申请从根本上解决了原始数据稀疏性较大的问题,从而使得后续海量数据在处理中数据的区分性较好。
参照图1,其给出了本申请实施例所述一种海量数据的处理方法流程图。
步骤11,将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数;
现今的网络平台要处理的数据是海量的,对海量数据的分析、挖掘是不可避免的,而数据挖掘归根到底是矩阵的问题。因此,可以将海量的原始数据存储到m×n阶原始矩阵A中,对原始矩阵A的分析处理就是对所述海量数据的处理,其中m和n均为正整数。
所述原始数据为针对每个用户的操作数据,可以包括用户id(IDentity,身份标识号码)和用户标签,其中,用户id用于唯一标识一个用户,每个用户标签下用户有操作行为即为1,否则为0。
例如,将海量数据应用到产品推荐领域,原始矩阵A中所存储的数据可以是每个用户在各个用户标签下是否对应有点击、收藏、购买等行为。
步骤12,对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
原始矩阵A的稀疏性比较大,因此,可以对原始矩阵A进行奇异值分解,奇异值分解时由于本申请采用分布式技术,在分布式处理系统中进行处理。因此,可以将原始矩阵A中的原始数据分布到若干个处理节点上进行处理。
其中,奇异值分解可以将矩阵映射到低维空间中去。矩阵的特征值(在SVD中用奇异值表征)按照重要性排列,降维的过程就是舍弃不重要的特征向量的过程,而剩下的特征向量张成空间为降维后的空间。
因此,通过对原始矩阵A进行奇异值分解,可以消除原始矩阵A中被赋值为0的原始数据,从而降低了原始矩阵A的稀疏性。
步骤13,将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;
上述对原始矩阵A进行奇异值分解,奇异值分解后得到第一酉矩阵U、第一对角矩阵S和第二酉矩阵V,此时,将所述第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应去稀疏性的重构矩阵B。
步骤14,对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。
对所述重构矩阵B中的数据进行聚类,通过聚类处理后可以区分出不同的类别数据。
例如,将海量数据处理应用到产品推荐领域时,可以采用k-means算法进行聚类,以每个用户标签为中心进行聚类,对最靠近他们的用户归类,以区分出不同的类别数据对应的用户,然后可以对用户进行筛选。
例如,可以筛选出某一类用户,根据该类用户的特性为其推荐适合的产品。
综上所述,由于原始数据的稀疏性较大,因此可以将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数。本申请采用分布式技术,将原始矩阵A中的原始数据分布到若干个处理节点上,并进行奇异值分解;将通过奇异值分解得到第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B。通过上述方法消除了原始矩阵A中被赋值为0的原始数据,从而降低了原始矩阵A的稀疏性,得到去稀疏性的重构矩阵B,然后在对所述重构矩阵B中的数据进行处理以区分出不同的类别数据。本申请从根本上解决了原始数据稀疏性较大的问题,从而使得后续海量数据在处理中数据的区分性较好。
下面以产品推荐应用领域的海量数据处理为例进行说明。该应用领域的用户数量是海量的,但是产品标签却是有限的。
例如,针对奶粉的推荐,去最近3个月的原始数据存入m×n阶原始矩阵A中,原始数据中包括用户id和59个用户标签,所述用户标签如,奶粉同好——品牌——A、奶粉同好——品牌——B和奶粉同好——营养等。
可以在m维度中保存用户,即每一行表示一个用户,此时,m维度的原始数据是海量的,则对应n=60。也可以在n维度中保存用户,即每一列表示一个用户,此时,n维度的原始数据是海量的,则对应m=60。
原始数据可能由于购买率比较低等原因导致数据稀疏性比较大,因此对原始矩阵A进行奇异值分解,下面具体分析如何对原始矩阵A进行奇异值分解。
设,原始矩阵
其中,a11、a12、......、amn均为原始矩阵A中原始数据的数据标识,所述数据标识由一个底数加两位下标构成,如amn中a为底数,mn为下标,其中m为首位下标,n为末位下标,代表原始矩阵A中第m行第n列的原始数据。
参照图2,其给出了本申请实施例所述一种海量数据的处理方法中奇异值分解流程图。
步骤121,计算原始矩阵A与原始矩阵的转置矩阵A'的相乘后构成的相加矩阵C;
步骤122,根据相加矩阵C,分解出第一对角矩阵S和第二酉矩阵V;
步骤123,根据原始矩阵A、第一对角矩阵S和第二酉矩阵V,分解出第一酉矩阵U。
首先,论述如何计算第一相加矩阵C。
参照图3,其给出了本申请实施例所述奇异值分解方法中第一部分示意图。
步骤201,判断原始矩阵A中每一行是否表示一个用户;
若是,则执行步骤202,若否,则说明原始矩阵A中每一列表示一个用户,执行步骤203。
判断原始矩阵A中每一行表示一个用户,还是每一列表示一个用户。若在m维度中保存用户,即每一行表示一个用户,则执行步骤202。若在n维度中保存用户,即每一列表示一个用户,则执行步骤203。
步骤202,以行为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
按行分割:若原始矩阵A中每一行表示一个用户,则对原始矩阵A进行横向切分,即以行为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理,后续执行步骤204。
例如,处理节点的个数为P=m/2,则每个处理节点中存储了两行数据,即:
处理节点1:a11,a12,......,a1n,a21,a22,......,a2n;
处理节点2:a31,a32,......,a3n,a41,a42,......,a4n;
......;
处理节点P:a(m-1)1,a(m-1)2,......,a(m-1)n,am1,am2,......,amn。
步骤203,以列为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
按列分割:若原始矩阵A中每一列表示一个用户,则对原始矩阵A进行纵向切分,即以列为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理,后续执行步骤205。
例如,处理节点的个数为P=n/2,则每个处理节点中存储了两列数据,即:
处理节点1:a11,a21,......,am1,a12,a22,......,am2;
处理节点2:a13,a23,......,am3,a141,a24,......,am4;
......;
处理节点P:a1(n-1),a2(n-1),......,am(n-1),a1n,a2n,......,amn。
步骤204,在每个处理节点上,将一行的每一个原始数据分别乘以该行中的所有原始数据,得到对应第一处理数据并将数据标识中的下标标记为所述原始数据的数据标识中的下标加上第二个原始数据的数据标识中的末位下标。
原始矩阵A中每一行表示一个用户,即按行分割时:如a111=a11×a11,a1n2=a1n×a12,a2nn=a2n×a2n,......。则第一处理数据对应数据标识的下标为三位,前两位为第一个原始数据对应数据标识的下标,第三位为第二个原始数据对应数据标识的末位下标。
处理节点的个数为P=m/2时,处理节点1上得到的第一处理数据为:a111,a112,a113,......,a11n,......,a2n1,a2n2,a2n3,......,a2nn;处理节点P上得到的第一处理数据为:a(m-1)11,a(m-1)12,a(m-1)13,......,a(m-1)1n,......,amn1,amn2,amn3,......,amnn。
后续执行步骤206。
步骤205,在每个处理节点上,将一列的每一个原始数据分别乘以该列中的所有原始数据,得到对应第一处理数据并将数据标识中的下标标记为所述原始数据的数据标识中的末位下标加上第二个原始数据的数据标识中的下标。
原始矩阵A中每一列表示一个用户,即按列分割时:如a111=a11×a11,a121=a11×a21,a1m1=a11×am1,a1m2=a12×am2,......。则第一处理数据对应数据标识的下标为三位,第一位为第一个原始数据对应数据标识的末位下标,后两位为第二个原始数据对应数据标识的下标。
处理节点的个数为P=n/2时,处理节点1上得到的第一处理数据为:a111,a121,a131,......,a1m1,......,a112,a1m2,a2m2,......,amm2;处理节点P上得到的第一处理数据为:a11(n-1),a12(n-1),a13(n-1),......,a1m(n-1),......,a1mn,a2mn,a3mn,......,ammn。
后续执行步骤207。
步骤206,将所述第一处理数据重新分发到所述处理节点上,其中,数据标识中的末两位下标相同的相乘数据分布到同一个处理节点上;
则各个处理节点上的第一处理数据为:
处理节点1:a111,a211,a311,......,am11;
处理节点2:a112,a212,a312,......,am12;
......;
处理节点n2:a1nn,a2nn,a3nn,......,amnn。
后续执行步骤208。
步骤207,将所述第一处理数据重新分发到所述处理节点上,其中,数据标识中的前两位下标相同的相乘数据分布到同一个处理节点上;
则各个处理节点上的第一处理数据为:
处理节点1:a111,a112,a113,......,a11n;
处理节点2:a121,a122,a123,......,a12n;
......;
处理节点m2:amm1,amm2,amm3,......,ammn。
后续执行步骤209。
步骤208,将数据标识中的末两位下标相同的第一处理数据相加,得到对应的第二处理数据并将对应数据标识中的下标标记为相乘数据的末两位下标;
假设第二处理数据对应数据标识中底数为c,则第二处理数据包括:
c11=a111+a211+a311+......+am11;
c12=a112+a212+a312+......+am12;
......;
cnn=a1nn+a2nn+a3nn+......+amnn。
步骤209,将数据标识中的前两位下标相同的第一处理数据相加,得到对应的第二处理数据并将对应数据标识中的下标标记为相乘数据的前两位下标;
假设第二处理数据对应数据标识中底数为c,则第二处理数据包括:
c11=a111+a112+a113+......+a11n;
c12=a121+a122+a123+......+a12n;
......;
cmm=amm1+amm2+amm3+......+ammn。
步骤210,将所述第二处理数据构成相加矩阵C。
上述得到相加矩阵C后,根据相加矩阵可以得到第一对角矩阵S和第二酉矩阵V,具体方法如下:
参照图4,其给出了本申请实施例所述奇异值分解方法中第二部分示意图。
步骤301,计算所述相加矩阵C的特征值λ,和特征向量x;
若所述相加矩阵C是按行分割后得到的,则相加矩阵C为n×n阶矩阵,此时可以计算的到其对应的n个特征值,假设分别为λ1,λ2,......,λn,其中,λ1>λ2>......>λn,并计算其对应的n个特征向量,假设分别为x1,x2,......,xn。
若所述相加矩阵C是按列分割后得到的,则相加矩阵C为m×m阶矩阵,此时可以计算的到其对应的m个特征值,假设分别为λ1,λ2,......,λm,其中λ1>λ2>......>λm,并计算其对应的m个特征向量,假设分别为x1,x2,......,xm。
步骤302,将所述特征值λ构成第一对角矩阵S;
若所述相加矩阵C是按行分割后得到的,则第一对角矩阵S=diag(λ1,λ2,......,λn)。
若所述相加矩阵C是按列分割后得到的,则第一对角矩阵S=diag(λ1,λ2,......,λm)。
步骤303,判断原始矩阵A中每一行是否表示一个用户;
若是,则执行步骤304,若否,则说明原始矩阵A中每一列表示一个用户,执行步骤305。
步骤304,将所述特征向量x分别进行归一化;
若原始矩阵A中每一行的原始数据表示一个用户,则将所述特征向量x分别进行归一化。
其中,所述归一化的方法为将每个特征向量xi除以其特征向量的模|xi|,假设归一化后的数据为yi,则
其中,所述相加矩阵C是按行分割后得到的,则i=0,1,......,n。
步骤305,原始矩阵A的转置矩阵AT乘以所述特征向量x;
若原始矩阵A中每一列表示一个用户,则将原始矩阵A的转置矩阵AT乘以所述特征向量xi,对应相乘后的结果为ATxi。
其中,所述相加矩阵C是按列分割后得到的,则i=0,1,......,m。
步骤306,将所述归一化后的特征向量作为第三处理数据,由所述第三处理数据构成第二酉矩阵V;
则第三处理数据为yi,其中i=0,1,......,n,对应第二酉矩阵V=(y1,y2,...,yn)。
步骤307,将对应相乘后的结果进行归一化,得到对应的第三处理数据;
其中,所述归一化的方法为将每个相乘后的结果ATxi除以其对应的模|ATxi|,假设归一化后的数据为yi,则则第三处理数据即为其中i=0,1,......,m。
步骤308,将所述第三处理数据构成第二酉矩阵V。
对应第二酉矩阵V=V=(y1,y2,...,ym)。
参照图5,其给出了本申请实施例所述奇异值分解方法中第三部分示意图。
步骤401,判断原始矩阵A是否包含非零特征根;
若否,则执行步骤402,若是,则执行步骤403。
计算原始矩阵A的秩rank(A),如果原始矩阵A满秩,则原始矩阵A不包含非零特征根,后续执行步骤402,否则执行步骤403。
步骤402,将第二酉矩阵V作为第三酉矩阵VV;
步骤403,将第二酉矩阵V中非零特征根对应的列作为第三酉矩阵VV;
其中,原始矩阵A中每一行表示一个用户时,VV的阶数为n×rank(A);原始矩阵A中每一列表示一个用户时,VV的阶数为m×rank(A)。
即
其中,第二对角矩阵∑的阶数为rank(A)×rank(A)
步骤406,判断原始矩阵A中每一行是否表示一个用户;
若是,则执行步骤407,若否,则说明原始矩阵A中每一列表示一个用户,执行步骤408。
步骤407,以行为单位对原始矩阵A进行分割,将矩阵中的原始数据分布到若干个处理节点上;
步骤408,以列为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上;
步骤409,在每个处理节点上计算第三酉矩阵VV乘以第二对角矩阵Σ的-1次方,得到对应的第一相乘结果;
则∑-1的阶为rank(A)×rank(A),并且同样是个对角阵,因此,Vv×∑-1中的第i列就是Vv中的第i列,乘以∑-1中相应的对角线上第i个值,∑-1中的值则是∑对角线上的值取倒数,其他均为0。
假设Vv*∑-1=T,原始矩阵A中每一行表示一个用户时,T的阶数为n×rank(A);原始矩阵A中每一列表示一个用户时,T的阶数为m×rank(A)。
步骤410,在每个处理节点上将所述原始数据分别乘以所述第一相乘结果,得到对应的第二相乘结果;
步骤411,将所述第二相乘结果构成第一酉矩阵U。
U=A×Vv×∑-1=A×(Vv×∑-1)=A×T。
此时将U补成正交方阵(不足的地方补0),构成第一酉矩阵U。
本申请可以应用于分布式环境(如,开源分布式平台Hadoop),在map/reduce分布式编程框架下进行实施。
现有技术中采用的Lanczos算法和QR迭代是近似算法,通过不断的迭代来解决大矩阵的分解问题。不同与现有技术,本申请可以在不损失精度的情况下,提供了一种超大规模矩阵的奇异值分解方法。
其中,所述QR迭代的基础是QR分解,所述QR分解中可以将一个矩阵分解为一个Q矩阵(正交矩阵)和一个R矩阵(非奇异上三角矩阵)。
综上所述,本申请在对原始矩阵进行奇异值分解时采用分布式技术,快速的实现数据在处理节点上的分布和汇总计算处理,进行奇异值分解时,可以将原始矩阵A以行或列为单位进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上。使得每个处理节点都能够处理一部分数据,加快了数据的处理速度和处理效率。
参照图6,其给出了本申请实施例所述一种基于海量数据的搜索方法流程图。
其中,所述海量数据中包括类别数据,所述类别数据是通过上述任一一种海量数据的处理方法计算得到的,所述的搜索方法包括:
步骤61,接收用户的搜索请求,其中所述搜索请求中包括请求参数;
步骤62,在海量数据中查找与所述请求参数相对应的类别数据;
步骤63,将所述类别数据添加到搜索结果中并返回。
在基于上述的海量数据进行搜索时,可以首先接收用户的搜索请求,搜索请求的请求参数中包含搜索的类别,例如,要搜索购买A品牌奶粉的用户,可以在所述海量数据中查找奶粉同好——品牌——A对应的类别数据,其中数据为1的用户为曾经购买A品牌奶粉的用户。然后可以将所述用户添加到搜索结果中并返回,例如,最终可以在搜索结果中获取到用户001、003和122曾经购买A品牌奶粉。
参照图7,其给出了本申请实施例所述一种基于海量数据的推荐方法流程图。
其中,所述海量数据中包括类别数据,所述类别数据是通过上述任一一种海量数据的处理方法计算得到的,所述的推荐方法包括:
步骤71,对所述海量数据中各个类别数据的属性进行分析,得到至少一个属性;
步骤72,针对所述类别数据对应的用户,根据所述属性对应的推荐数据,向所述用户推荐相应的信息。
例如,A品牌和B品牌的电脑属性是低端产品,C品牌和D品牌的电脑属性是高端产品。用户001购买了A品牌的电脑,用户123购买了B品牌的电脑,用户351购买了C品牌的电脑,用户002和用户137购买了D品牌的电脑。
因此可以向用户001和用户123推荐低端产品对应的信息,例如,其他属性是低端产品的电脑,比较平价的电脑外设产品等。可以向用户351、用户002和用户137推荐高端产品对应的信息,例如,其他属性是高端产品的电脑,比较高价位的电脑外设产品等。
综上所述,本申请在海量数据处理方法中获得了类别数据,可以基于这种方法可以对所述海量数据中的类别数据进行搜索和推荐,可以快速的获取到对应的搜索结果和推荐结果。
参照图8,其给出了本申请实施例所述一种海量数据的处理装置结构图。
相应的,本申请还提供了一种海量数据的处理装置,包括存储模块11、分解模块12、重构模块13和聚类区分模块14,其中
存储模块11,用于将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;
分解模块12,用于对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
重构模块13,用于将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;
聚类区分模块14,用于对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。
优选的,所述的系统还包括:
用户筛选模块15,用于根据区分出的类别数据,对用户进行筛选。
参照图9,其给出了本申请实施例所述一种海量数据的处理装置中分解模块结构图。
优选的,所述分解模块12,包括:
计算第一相加矩阵子模块121,用于计算原始矩阵A与原始矩阵的转置矩阵A′的相乘后构成的第一相加矩阵C。
第一分解子模块122,用于根据第一相加矩阵C,分解出第一对角矩阵S和第二酉矩阵V;
第二分解子模块123,用于根据原始矩阵A、第一对角矩阵S和第二酉矩阵V,分解出第一酉矩阵U。
所述计算第一相加矩阵子模块121,包括
按行分割单元1211,用于若原始矩阵A中每一行表示一个用户,则以行为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
按列分割单元1212,用于若原始矩阵A中每一列表示一个用户,则以列为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理。
第一计算单元1213,用于在每个处理节点上,将一行的每一个原始数据分别乘以该行中的所有原始数据,得到对应第一处理数据并将数据标识中的下标标记为所述原始数据的数据标识中的下标加上第二个原始数据的数据标识中的末位下标。
第二计算单元1214,在每个处理节点上,将一列的每一个原始数据分别乘以该列中的所有原始数据,得到对应第一处理数据并将数据标识中的下标标记为所述原始数据的数据标识中的末位下标加上第二个原始数据的数据标识中的下标。
第一重新分发单元1215,用于将所述第一处理数据重新分发到所述处理节点上,其中,数据标识中的末两位下标相同的相乘数据分布到同一个处理节点上;
第二重新分发单元1216,用于将所述第一处理数据重新分发到所述处理节点上,其中,数据标识中的前两位下标相同的相乘数据分布到同一个处理节点上;
第三计算单元1217,用于将数据标识中的末两位下标相同的第一处理数据相加,得到对应的第二处理数据并将对应数据标识中的下标标记为相乘数据的末两位下标;
第四计算单元1218,用于将数据标识中的前两位下标相同的第一处理数据相加,得到对应的第二处理数据并将对应数据标识中的下标标记为相乘数据的前两位下标;
相加矩阵构成单元1219,用于将所述第二处理数据构成相加矩阵C。
所述第一分解子模块122,包括:
计算单元1221,用于计算所述相加矩阵C的特征值λ,和特征向量x;
第一对角矩阵构成单元1222,用于将所述特征值λ构成第一对角矩阵S;
第一归一化单元1223,用于若原始矩阵A中每一行的原始数据表示一个用户,则将所述特征向量分别进行归一化;
相乘单元1224,用于若原始矩阵A中每一列的原始数据表示一个用户,则原始矩阵A的转置矩阵AT乘以所述特征向量x;
第一构成单元1225,用于将所述归一化后的特征向量作为第三处理数据,由所述第三处理数据构成第二酉矩阵V。
第二归一化单元1226,用于若将所述相乘后的结果进行归一化,得到对应的第三处理数据;
第二构成单元1227,用于将所述第三处理数据构成第二酉矩阵V。
所述第二分解子模块123,包括:
第一计算单元1231,用于若原始矩阵不包含非零特征根,则将第二酉矩阵V作为第三酉矩阵VV;
第三计算单元1233,用于若原始矩阵包含非零特征根,则将第二酉矩阵V中非零特征根对应的列作为第三酉矩阵VV;
按行分割单元1235,用于若原始矩阵A中每一行表示一个用户,则以行为单位对原始矩阵A进行分割,将矩阵中的原始数据分布到若干个处理节点上;
按列分割单元1236,用于若原始矩阵A中每一列表示一个用户,则以列为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上;
第一相乘结果计算单元1237,用于在每个处理节点上计算第三酉矩阵VV乘以第二对角矩阵Σ的-1次方,得到对应的第一相乘结果;
第二相乘结果计算单元1238,用于在每个处理节点上将所述原始数据分别乘以所述第一相乘结果,得到对应的第二相乘结果;
第一酉矩阵构成单元1239,用于将所述第二相乘结果构成第一酉矩阵U。
参照图10,其给出了本申请实施例所述一种基于海量数据的搜索装置结构图。
相应的,本申请还提供了一种基于海量数据的搜索装置,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理装置计算得到的,所述的搜索装置包括:
接收模块21,用于接收用户的搜索请求,其中所述搜索请求中包括请求参数;
查找模块22,用于在海量数据中查找与所述请求参数相对应的类别数据;
返回模块23,用于将所述类别数据添加到搜索结果中并返回。
参照图11,其给出了本申请实施例所述一种基于海量数据的推荐装置结构图。
相应的,本申请还提供了一种基于海量数据的推荐装置,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理装置计算得到的,所述的推荐装置包括:
分析模块31,用于对所述海量数据中各个类别数据的属性进行分析,得到至少一个属性;
推荐模块32,用于针对所述类别数据对应的用户,根据所述属性对应的推荐数据,向所述用户推荐相应的信息。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种海量数据的处理方法及装置,一种基于海量数据的搜索方法及装置,一种基于海量数据的推荐方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (18)
1.一种海量数据的处理方法,其特征在于,包括:
将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;
对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;
对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。
2.根据权利要求1所述的方法,其特征在于,所述将原始矩阵A中的原始数据分布到若干个处理节点上进行处理,包括:
若原始矩阵A中每一行表示一个用户,则以行为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
若原始矩阵A中每一列表示一个用户,则以列为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理。
3.根据权利要求2所述的方法,其特征在于,原始矩阵A中的原始数据的数据标识由一个底数加两位下标构成,
若原始矩阵A中每一行表示一个用户,所述奇异值分解的方法包括:
在每个处理节点上,将一行的每一个原始数据分别乘以该行中的所有原始数据,得到对应第一处理数据并将数据标识中的下标标记为所述原始数据的数据标识中的下标加上第二个原始数据的数据标识中的末位下标。
4.根据权利要求2所述的方法,其特征在于,原始矩阵A中的原始数据的数据标识由一个底数加两位下标构成,
若原始矩阵A中每一列表示一个用户,所述奇异值分解的方法包括:
在每个处理节点上,将一列的每一个原始数据分别乘以该列中的所有原始数据,得到对应第一处理数据并将数据标识中的下标标记为所述原始数据的数据标识中的末位下标加上第二个原始数据的数据标识中的下标。
5.根据权利要求3所述的方法,其特征在于,若原始矩阵A中每一行表示一个用户,所述奇异值分解的方法还包括:
将所述第一处理数据重新分发到所述处理节点上,其中,数据标识中的末两位下标相同的相乘数据分布到同一个处理节点上;
将数据标识中的末两位下标相同的第一处理数据相加,得到对应的第二处理数据并将对应数据标识中的下标标记为相乘数据的末两位下标;
将所述第二处理数据构成相加矩阵C。
6.根据权利要求4所述的方法,其特征在于,若原始矩阵A中每一列表示一个用户,所述奇异值分解的方法还包括:
将所述第一处理数据重新分发到所述处理节点上,其中,数据标识中的前两位下标相同的相乘数据分布到同一个处理节点上;
将数据标识中的前两位下标相同的第一处理数据相加,得到对应的第二处理数据并将对应数据标识中的下标标记为相乘数据的前两位下标;
将所述第二处理数据构成相加矩阵C。
7.根据权利要求5或6任一所述的方法,其特征在于,还包括:
计算所述相加矩阵C的特征值λ,和特征向量x。
8.根据权利要求7所述的方法,其特征在于,还包括:
将所述特征值λ构成第一对角矩阵S。
9.根据权利要求7所述的方法,其特征在于,还包括:
若原始矩阵A中每一行的原始数据表示一个用户,则将所述特征向量x分别进行归一化;
将所述归一化后的特征向量作为第三处理数据,由所述第三处理数据构成第二酉矩阵V;
10.根据权利要求7所述的方法,其特征在于,还包括:
若原始矩阵A中每一列的原始数据表示一个用户,则原始矩阵A的转置矩阵AT乘以所述特征向量x;
将对应相乘后的结果进行归一化,得到对应的第三处理数据;
将所述第三处理数据构成第二酉矩阵V。
12.根据权利要求11所述的方法,其特征在于,还包括:
若原始矩阵A中每一行表示一个用户,则以行为单位对原始矩阵A进行分割,将矩阵中的原始数据分布到若干个处理节点上;
若原始矩阵A中每一列表示一个用户,则以列为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上;
在每个处理节点上计算第三酉矩阵VV乘以第二对角矩阵Σ的-1次方,得到对应的第一相乘结果;
在每个处理节点上将所述原始数据分别乘以所述第一相乘结果,得到对应的第二相乘结果;
将所述第二相乘结果构成第一酉矩阵U。
13.根据权利要求1所述的方法,其特征在于,还包括:
根据区分出的类别数据,对用户进行筛选。
14.一种基于海量数据的搜索方法,其特征在于,所述海量数据中包括类别数据,所述类别数据是通过权利要求1至权利要求13任一所述的方法计算得到的,所述的搜索方法包括:
接收用户的搜索请求,其中所述搜索请求中包括请求参数;
在海量数据中查找与所述请求参数相对应的类别数据;
将所述类别数据添加到搜索结果中并返回。
15.一种基于海量数据的推荐方法,其特征在于,所述海量数据中包括类别数据,所述类别数据是通过权利要求1至权利要求13任一所述的方法计算得到的,所述的推荐方法包括:
对所述海量数据中各个类别数据的属性进行分析,得到至少一个属性;
针对所述类别数据对应的用户,根据所述属性对应的推荐数据,向所述用户推荐相应的信息。
16.一种海量数据的处理装置,其特征在于,包括:
存储模块,用于将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;
分解模块,用于对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
重构模块,用于将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;
聚类区分模块,用于对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。
17.一种基于海量数据的搜索装置,其特征在于,所述海量数据中包括类别数据,所述类别数据是通过权利要求16所述的装置计算得到的,所述的搜索装置包括:
接收模块,用于接收用户的搜索请求,其中所述搜索请求中包括请求参数;
查找模块,用于在海量数据中查找与所述请求参数相对应的类别数据;
返回模块,用于将所述类别数据添加到搜索结果中并返回。
18.一种基于海量数据的推荐装置,其特征在于,所述海量数据中包括类别数据,所述类别数据是通过权利要求16所述的装置计算得到的,所述的推荐装置包括:
分析模块,用于对所述海量数据中各个类别数据的属性进行分析,得到至少一个属性;
推荐模块,用于针对所述类别数据对应的用户,根据所述属性对应的推荐数据,向所述用户推荐相应的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101416180A CN103389966A (zh) | 2012-05-09 | 2012-05-09 | 一种海量数据的处理、搜索、推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101416180A CN103389966A (zh) | 2012-05-09 | 2012-05-09 | 一种海量数据的处理、搜索、推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103389966A true CN103389966A (zh) | 2013-11-13 |
Family
ID=49534242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101416180A Pending CN103389966A (zh) | 2012-05-09 | 2012-05-09 | 一种海量数据的处理、搜索、推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103389966A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615752A (zh) * | 2015-02-12 | 2015-05-13 | 北京嘀嘀无限科技发展有限公司 | 信息分类方法与系统 |
WO2015081915A1 (zh) * | 2013-12-05 | 2015-06-11 | 腾讯科技(深圳)有限公司 | 文件推荐方法和装置 |
CN104820905A (zh) * | 2015-05-19 | 2015-08-05 | 威海北洋电气集团股份有限公司 | 基于空间轨迹大数据分析的人员管控方法及系统 |
WO2016086802A1 (zh) * | 2014-12-04 | 2016-06-09 | 阿里巴巴集团控股有限公司 | 基于计算机系统的推荐方法及其装置 |
CN105808581A (zh) * | 2014-12-30 | 2016-07-27 | Tcl集团股份有限公司 | 一种数据聚类的方法、装置及Spark大数据平台 |
CN106339395A (zh) * | 2015-07-08 | 2017-01-18 | Tcl集团股份有限公司 | 一种视频推荐的方法、系统及电子设备 |
CN107180391A (zh) * | 2017-03-31 | 2017-09-19 | 中国电力科学研究院 | 一种风电数据跨度选取方法及装置 |
CN107424012A (zh) * | 2017-07-31 | 2017-12-01 | 京东方科技集团股份有限公司 | 一种智能导购方法、智能导购设备 |
CN107636639A (zh) * | 2015-09-24 | 2018-01-26 | 谷歌有限责任公司 | 快速的正交投影 |
CN110738246A (zh) * | 2019-09-29 | 2020-01-31 | 深圳和而泰家居在线网络科技有限公司 | 产品分类方法、装置、计算设备及计算机存储介质 |
CN110782985A (zh) * | 2019-10-25 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种特征处理方法和相关设备 |
CN110795705A (zh) * | 2019-10-22 | 2020-02-14 | 武汉极意网络科技有限公司 | 轨迹数据处理方法、装置、设备及存储介质 |
CN117788364A (zh) * | 2023-04-04 | 2024-03-29 | 联芯集成电路制造(厦门)有限公司 | 通过奇异值分解检测晶圆缺陷的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090216996A1 (en) * | 2008-02-22 | 2009-08-27 | Isis Innovation Limited | Parallel Processing |
US20110064221A1 (en) * | 2009-09-11 | 2011-03-17 | Microsoft Corporation | Differential privacy preserving recommendation |
CN102419779A (zh) * | 2012-01-13 | 2012-04-18 | 青岛理工大学 | 一种基于属性排序的商品个性化搜索方法及装置 |
-
2012
- 2012-05-09 CN CN2012101416180A patent/CN103389966A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090216996A1 (en) * | 2008-02-22 | 2009-08-27 | Isis Innovation Limited | Parallel Processing |
US20110064221A1 (en) * | 2009-09-11 | 2011-03-17 | Microsoft Corporation | Differential privacy preserving recommendation |
CN102419779A (zh) * | 2012-01-13 | 2012-04-18 | 青岛理工大学 | 一种基于属性排序的商品个性化搜索方法及装置 |
Non-Patent Citations (1)
Title |
---|
张帆,王金林,鲁力: "奇异值分解中两个酉矩阵的配置", 《高等数学研究》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9930419B2 (en) | 2013-12-05 | 2018-03-27 | Tencent Technology (Shenzhen) Company Limited | File recommendation method and device |
WO2015081915A1 (zh) * | 2013-12-05 | 2015-06-11 | 腾讯科技(深圳)有限公司 | 文件推荐方法和装置 |
WO2016086802A1 (zh) * | 2014-12-04 | 2016-06-09 | 阿里巴巴集团控股有限公司 | 基于计算机系统的推荐方法及其装置 |
CN105808581A (zh) * | 2014-12-30 | 2016-07-27 | Tcl集团股份有限公司 | 一种数据聚类的方法、装置及Spark大数据平台 |
CN105808581B (zh) * | 2014-12-30 | 2020-05-01 | Tcl集团股份有限公司 | 一种数据聚类的方法、装置及Spark大数据平台 |
CN104615752A (zh) * | 2015-02-12 | 2015-05-13 | 北京嘀嘀无限科技发展有限公司 | 信息分类方法与系统 |
CN104820905A (zh) * | 2015-05-19 | 2015-08-05 | 威海北洋电气集团股份有限公司 | 基于空间轨迹大数据分析的人员管控方法及系统 |
CN104820905B (zh) * | 2015-05-19 | 2018-11-20 | 威海北洋电气集团股份有限公司 | 基于空间轨迹大数据分析的人员管控方法及系统 |
CN106339395A (zh) * | 2015-07-08 | 2017-01-18 | Tcl集团股份有限公司 | 一种视频推荐的方法、系统及电子设备 |
CN107636639A (zh) * | 2015-09-24 | 2018-01-26 | 谷歌有限责任公司 | 快速的正交投影 |
CN107636639B (zh) * | 2015-09-24 | 2021-01-08 | 谷歌有限责任公司 | 快速的正交投影 |
CN107180391A (zh) * | 2017-03-31 | 2017-09-19 | 中国电力科学研究院 | 一种风电数据跨度选取方法及装置 |
CN107424012A (zh) * | 2017-07-31 | 2017-12-01 | 京东方科技集团股份有限公司 | 一种智能导购方法、智能导购设备 |
CN110738246A (zh) * | 2019-09-29 | 2020-01-31 | 深圳和而泰家居在线网络科技有限公司 | 产品分类方法、装置、计算设备及计算机存储介质 |
CN110738246B (zh) * | 2019-09-29 | 2024-01-19 | 广东中创智家科学研究有限公司 | 产品分类方法、装置、计算设备及计算机存储介质 |
CN110795705A (zh) * | 2019-10-22 | 2020-02-14 | 武汉极意网络科技有限公司 | 轨迹数据处理方法、装置、设备及存储介质 |
CN110782985A (zh) * | 2019-10-25 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种特征处理方法和相关设备 |
CN110782985B (zh) * | 2019-10-25 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 一种特征处理方法和相关设备 |
CN117788364A (zh) * | 2023-04-04 | 2024-03-29 | 联芯集成电路制造(厦门)有限公司 | 通过奇异值分解检测晶圆缺陷的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103389966A (zh) | 一种海量数据的处理、搜索、推荐方法及装置 | |
CN111199343B (zh) | 一种多模型融合的烟草市场监管异常数据挖掘方法 | |
Zhang et al. | Knowledge discovery in multiple databases | |
Hu et al. | Scalable bayesian non-negative tensor factorization for massive count data | |
Ailem et al. | Graph modularity maximization as an effective method for co-clustering text data | |
Muneer et al. | Predicting customers churning in banking industry: A machine learning approach | |
CN109410001B (zh) | 一种商品推荐方法、系统、电子设备和存储介质 | |
CN102326160A (zh) | 用于对产生于数据库的数据群集的方法和系统 | |
Sinha et al. | Sector influence aware stock trend prediction using 3D convolutional neural network | |
Fan et al. | Bayesian nonparametric space partitions: A survey | |
Perera et al. | A review of big data analytics for customer relationship management | |
Ruan et al. | Community discovery: Simple and scalable approaches | |
Fischer et al. | Differentiable pattern set mining | |
Chen et al. | DCAP: Deep cross attentional product network for user response prediction | |
Araujo et al. | Faststep: Scalable boolean matrix decomposition | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
Dubey | Association rule mining on distributed data | |
Du et al. | Astrologer: Exploiting graph neural Hawkes process for event propagation prediction with spatio-temporal characteristics | |
CN104572623A (zh) | 一种在线lda模型的高效数据总结分析方法 | |
Tejasree et al. | An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining | |
Zhang et al. | Locating tandem repeats in weighted sequences in proteins | |
Szwabe et al. | Tensor-based modeling of temporal features for big data CTR estimation | |
CN113052222A (zh) | 特征分箱方法、电子设备及存储介质 | |
Chen et al. | Application of a 3NN+ 1 based CBR system to segmentation of the notebook computers market | |
Amalya et al. | Implementation of Naive Bayes for classification and potentially MSMEs analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20131113 |
|
RJ01 | Rejection of invention patent application after publication |