CN110209758B - 一种基于张量分解的文本增量降维方法 - Google Patents

一种基于张量分解的文本增量降维方法 Download PDF

Info

Publication number
CN110209758B
CN110209758B CN201910314107.6A CN201910314107A CN110209758B CN 110209758 B CN110209758 B CN 110209758B CN 201910314107 A CN201910314107 A CN 201910314107A CN 110209758 B CN110209758 B CN 110209758B
Authority
CN
China
Prior art keywords
characteristic
text
tensor
order
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910314107.6A
Other languages
English (en)
Other versions
CN110209758A (zh
Inventor
向阳
丁玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201910314107.6A priority Critical patent/CN110209758B/zh
Publication of CN110209758A publication Critical patent/CN110209758A/zh
Application granted granted Critical
Publication of CN110209758B publication Critical patent/CN110209758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于张量分解的文本增量降维方法,通过将文本数据划分为多个子集并对每一个子集构建文本特征图簇,将其表示为二阶张量,然后将多个二阶张量加上特征维度组成三阶张量并对此三阶张量进行分解,根据分解后的关系矩阵可以得到降维后的文本特征是由哪些特征词及特征词关系组成,从而实现增量文本降维的目标。与现有技术相比,本发明具有高效降维、简单精确、适用于大量数据等优点。

Description

一种基于张量分解的文本增量降维方法
技术领域
本发明涉及机器学习与自然语言信息处理领域,尤其是涉及一种基于张量分解的文本增量降维方法。
背景技术
随着互联网、物联网、云计算等信息技术的发展,网络空间中的数据资源正以前所未有的速度不断地增长和积累,世界已经进入了网络化的大数据时代。大数据除在数据量上具有海量化特性以外,在数据属性上还具有离散化、多元化、非结构化等复杂特性,这导致数据“维度灾难”呈爆发趋势,其结果将严重影响数据分析和决策支持的准确性和效率。为了对数据进行更好的利用,需要对数据进行降维处理。数据降维是将数据从高维空间映射到低维空间,去除无关或冗余的数据,保留反映原数据本质的数据。利用降维后的数据进行数据搜索、数据处理、数据挖掘等任务,可以提高效率和准确率。
在互联网时代,文本数据是非常重要和广泛使用的一种数据形式之一,且具有维数高、数据量大、语义丰富等特点。现有的各种数据降维方法,如主成分分析法、线性判别分析、潜在语义分析等大都以统计理论为基础,在结构化数据降维方面效果颇佳,但是忽略了数据中蕴含的语义,往往导致降维结果偏差严重、准确率低下。不研究降维中语义保持问题,将导致语义丢失的降维结果,这对大数据应用将是致命的打击。因此,如何在拓展原有理论和方法的基础上,研究适用于大数据特征的新型数据降维理论与方法成为大数据时代的挑战。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于张量分解的文本增量降维方法。
本发明的目的可以通过以下技术方案来实现:
一种基于张量分解的文本增量降维方法,包括以下步骤:
1)将输入文本数据划分为多个子集,对每个子集进行文本特征图簇的构建,并将每个特征图簇表示为特征词-特征词的二阶张量形式;
2)在二阶张量的基础上增加一个特征维度,构成特征词-特征词-特征的三阶张量形式;
3)采用交替最小二乘法对三阶张量进行Tucker分解降维,获取用以表示各个维度上主成分之间关系的核心张量以及三个因子矩阵;
4)通过特征词维度、特征维度与降维后的关系矩阵获取降维后的文本特征,从而划分出文本特征中的特征词和特征词关系,实现文本增量降维。
所述的步骤1)中,将每个特征图簇表示为特征词-特征词的二阶张量形式具体为:
将文本特征图簇中的特征图按照特征图内的特征词之间的关系表示为|V|行|V|列的方阵形式,则将该|V|行|V|列的方阵作为一个二阶张量,其中,第一阶和第二阶均为唯一化后的特征词,二阶张量中的分量用以表示特征词之间的关系权值。
所述的步骤2)中,构成特征词-特征词-特征的三阶张量形式具体包括:
将多个时间点的文本特征图簇中的特征图形成的二阶张量一起合并为三阶张量;
或将新的文本特征图簇形成的三阶张量与上一个基于张量分解降维的文本特征图簇重构后得到的三阶张量合并为新的三阶张量。
所述的步骤3)中,三阶张量χ∈RI×J×K的Tucker分解为:
Figure BDA0002032512040000021
其中,Α∈RI×P、Β∈RJ×Q、C∈RK×S分别为张量χ∈RI×J×K在三个模上的主成分矩阵,即因子矩阵,P、Q、S为三个模上主成分的个数,
Figure BDA0002032512040000023
为核心张量,×n为模-n乘运算,
Figure BDA0002032512040000025
表示外积运算,gpqs为三阶张量
Figure BDA0002032512040000024
和矩阵A,B,C模-n乘运算中的系数,ap、bq、cs分别为矩阵A、B、C中相应位置的元素。
所述的步骤3)中,交替最小二乘法的求解目标为:
Figure BDA0002032512040000022
所述的步骤4)具体包括以下步骤:
41)根据因子矩阵中的特征词-主成分矩阵Β∈RM×Q和特征-主成分矩阵C∈RK×S对特征图簇进行重构;
42)根据每个特征词tm与各个主成分的关系权值,即矩阵B中的元素bmq的值,获取与之关系最大的主成分,并将属于同一主成分的特征词合并;
43)根据每个特征fn与各个主成分的关系权值,即矩阵C中的元素cns的值,获取与之关系最大的主成分,并将属于同一主成分的特征合并,实现文本特征的增量降维。
与现有技术相比,本发明具有以下优点:
1、高效降维:本发明创新性的提出利用Tucker分解的方法对数据量较大的文本数据或数据流进行增量文本降维方法,在保证数据进行高效降维的同时,还能维持数据中的语义信息。
2、简单精确:本发明将每一个文本特征图表示为二阶张量,将两个或多个文本集的所有文本特征图合并为三阶张量,通过张量Tucker分解得到新的特征与文本特征图中结点的关系,从而重构文本特征图簇,此方法简单高效,复杂度低,精确率高。
3、适用于大量数据:本发明提出的方法具有很好的扩展性,对大量和增量数据具有很好的效果。
附图说明
图1是基于张量分解的增量降维方法流程示意图。
图2是二阶张量合并三阶张量示意图。
图3是三阶张量的Tucker分解示意图。
图4是三阶张量的模-n展开示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1所示,本实施例提供了一种基于张量分解的文本增量降维方法,具体包含以下步骤:
S1:将输入文本数据划分为多个子集,对每一个子集进行文本特征图簇的构建;
S2:在得到多个文本特征图簇后,将每个特征图簇表示成“特征词-特征词”的二阶张量;
S3:随着代表特征的特征图的增多,将二阶张量增加一个特征维度,组成“特征词-特征词-特征”的三阶张量;
S4:采用交替最小二乘法对此三阶张量进行Tucker分解,得到一个较小的核心张量,表示了各个维度上的主成分之间的关系,同时得到三个维度与降维后的主成分的关系矩阵;
S5:通过特征词维度、特征维度与降维后的关系矩阵可以得到降维后的文本特征是由哪些特征词及特征词关系组成,从而实现文本增量降维。
具体的,步骤S1包括需要将输入文本数据划分为多个子集,对每一个子集进行文本特征图簇的构建:对于较大数量的文本数据集,可以将文本集按照固定的数量N进行分割,N个文本为一个子集;对于在线数据,可以按照时间片对文本数据集进行分割,一个固定时间段内的文本数据为一个子集。基于文本特征图簇的增量降维方法就是对每一个子集先进行文本特征图簇的构建,以文本特征图为特征单位,得到每个子集的文本特征。将文本特征用特征图簇的形式表示,特征图簇的构建过程可看作是一个文本降维的过程。把特征图当作是文本特征的单位,文本数据的特征集合就形成了特征图簇。但是文本特征图簇的原始数据来源于文本数据,我们需要首先对其进行关系抽取,才能形成特征图簇。
具体的,步骤S2包括需要将多个文本子集的文本特征图簇表示成“特征词-特征词”的二阶张量。此方法中的基于张量的增量降维方法是一种无监督的降维方法,将文本特征图簇中的特征图按照特征图内的特征词之间的关系表示成|V|行|V|列的方阵的形式。此时,|V|行|V|列的方阵可以看作是一个二阶张量。随着时间的推移,每一个时间点得到的文本特征图簇中的所有特征图都可以表示为二阶张量,其中第一阶和第二阶均为唯一化后的特征词,二阶张量中的分量就表示了特征词之间的关系权值。
具体的,步骤S3包括将二阶张量增加一个特征维度,组成“特征词-特征词-特征”的三阶张量。可以将多个时间点的文本特征图簇中的特征图形成的二阶张量一起合并为三阶张量,也可以将新的文本特征图簇形成的三阶张量与上一个基于张量分解降维的文本特征图簇重构后得到的三阶张量合并为新的三阶张量。
进一步的,合并好的三阶张量就表示了这些时间段内的文本特征图簇,其中,每一个二阶张量为合并好的三阶张量在特征方向上的正面切片。但是由于每个特征图唯一化后的特征词集合元素和个数一般是不相同的,也就是说此时每个二阶张量的行列数是不同的,所以需要对这些二阶张量进行扩展,使得合并后的三阶张量具有相同的特征词。在一个二阶张量对应的矩阵中,对于原本没有的特征词对应的行和列的元素值为0。这样,就将|Vk|行|Vk|列的K个二阶张量都扩展为|V|行|V|列的二阶张量,其中,k=1,2,…,K,K为特征图的个数,也就是要合并的文本特征图的个数。
需要说明的是,即使打乱特征图或者特征词的顺序,三阶张量内的元素值是不变的,只是位置有变,特征词与特征图、特征词之间的关系也并没有改变,因此不会影响降维效果。多个特征图的二阶张量合并为三阶张量的示意图见图2。
具体的,步骤S4包括采用交替最小二乘法对这个三阶张量进行Tucker分解。张量分解后,原张量被降维成一个比较小的核心张量,表示了各个维度上的主成分之间的关系。同时还会得到三个矩阵,分别是三个维度与降维后的主成分的关系矩阵。
进一步的,三阶张量χ∈RI×J×K的Tucker分解为:
Figure BDA0002032512040000051
其中,×n称为“模-n乘”,三阶张量
Figure BDA0002032512040000052
和矩阵Α∈RI×P,Β∈RJ×Q,C∈RK×S的模-n乘定义为:
Figure BDA0002032512040000053
Figure BDA0002032512040000054
Figure BDA0002032512040000055
其中,Α∈RI×P,Β∈RJ×Q,C∈RK×S可以看作是张量χ∈RI×J×K在三个模上的主成分,P、Q、S是三个模上主成分的个数。
Figure BDA0002032512040000056
为核心张量,表示了不同成分之间的关系,也就是说,三阶张量χ通过Tucker分解降维成了一个比较小的三阶张量
Figure BDA0002032512040000061
因此,一个三阶张量就表示成一个核心张量分别模乘三个因子矩阵A、B、C。
需要说明的是,
Figure BDA00020325120400000615
表示外积,即对于张量
Figure BDA00020325120400000616
有:
xijk=aibjck
模-n乘计算就是运用了向量的外积。因此,三阶张量χ的元素值可以表示为
Figure BDA0002032512040000062
其中,i=1,…,I,j=1,…,J,k=1,…,K。三阶张量的Tucker分解如图3所示。
进一步的,使用交替最小二乘法求解矩阵A、B、C之前,同样先要把三阶张量矩阵化,也就是三阶张量的模-n展开:
Figure BDA0002032512040000063
Figure BDA0002032512040000064
Figure BDA0002032512040000065
三阶张量的模-n展开示意图见图4。其中,
Figure BDA0002032512040000066
表示Kronecker积:
Figure BDA0002032512040000067
求解目标
Figure BDA0002032512040000068
等于max||χ×1 AT×2 BT×3 CT||,即
Figure BDA0002032512040000069
也就是最大化G(n)
Figure BDA00020325120400000610
Figure BDA00020325120400000611
Figure BDA00020325120400000612
当矩阵A、B、C分别为
Figure BDA00020325120400000613
Figure BDA00020325120400000614
的前P、Q和S个奇异向量时,便完成了目标的求解,P、Q和S为X(1)、X(2)、X(3)的列秩时,是最优分解,P、Q和S小于X(1)、X(2)、X(3)的列秩时,就不是最优分解,可以使用交替最小二乘法求解。因此,首先,矩阵A、B、C分别被初始化为X(1) TX(1)、X(2) TX(2)和X(3) TX(3)的前P、Q和S个特征向量。然后使用交替最小二乘法重新求解矩阵A、B、C,先求出Y(n)
Figure BDA0002032512040000071
Figure BDA0002032512040000072
Figure BDA0002032512040000073
然后求解新的矩阵A、B、C为Y(1) TY(1)、Y(2) TY(2)和Y(3) TY(3)的前P、Q和S个特征向量。重复以上过程,直到收敛。最终,张量被分解为
Figure BDA0002032512040000074
A,B,C,其中
Figure BDA0002032512040000075
Figure BDA0002032512040000076
具体地,步骤S5包括通过特征词维度、特征维度与降维后的关系矩阵可以得到降维后的文本特征是由哪些特征词及特征词关系组成,从而实现文本增量降维。
进一步的,对文本特征图簇形成的三阶张量χ∈R|V|×M×K做Tucker分解后得到的因子矩阵中,本发明利用“特征词-主成分”矩阵Β∈RM×Q和“特征-主成分”矩阵C∈RK×S来做特征图簇的重构,Q、S为张量在模-2、模-3上的主成分个数,即特征词和特征降维后的个数。根据每个特征词tm与各个主成分的关系权值,也就是矩阵B中的元素bmq的值,找到与之关系最大的主成分,将属于同一主成分的特征词合并,根据每个特征fn与各个主成分的关系权值,也就是矩阵C中的元素cns的值,找到与之关系最大的主成分,将属于同一主成分的特征合并,实现文本特征的增量降维。
具体过程如下:
Figure BDA0002032512040000077
Figure BDA0002032512040000081
本发明实施例提供的基于张量分解的文本增量降维方法,在按时间片或按固定数目定期增量得到多个文本特征图簇之后,将每一个特征图表示成“特征词-特征词”的二阶张量。当代表特征的特征图越来越多时,该方法增加一个特征维度,将两个或多个这样的二阶张量加上特征维度,组成“特征词-特征词-特征”的三阶张量,再对整个三阶张量进行分解从而实现降维。该方法具有精度高、效率高、对大数据集有效、简单方便等优点。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (1)

1.一种基于张量分解的文本增量降维方法,其特征在于,包括以下步骤:
1)将输入文本数据划分为多个子集,对每个子集进行文本特征图簇的构建,并将每个特征图簇表示为特征词-特征词的二阶张量形式,将每个特征图簇表示为特征词-特征词的二阶张量形式具体为:
将文本特征图簇中的特征图按照特征图内的特征词之间的关系表示为|V|行|V|列的方阵形式,则将该|V|行|V|列的方阵作为一个二阶张量,其中,第一阶和第二阶均为唯一化后的特征词,二阶张量中的分量用以表示特征词之间的关系权值;
2)在二阶张量的基础上增加一个特征维度,构成特征词-特征词-特征的三阶张量形式,构成特征词-特征词-特征的三阶张量形式具体包括:
将多个时间点的文本特征图簇中的特征图形成的二阶张量一起合并为三阶张量;
或将新的文本特征图簇形成的三阶张量与上一个基于张量分解降维的文本特征图簇重构后得到的三阶张量合并为新的三阶张量;
3)采用交替最小二乘法对三阶张量进行Tucker分解降维,获取用以表示各个维度上主成分之间关系的核心张量以及三个因子矩阵,三阶张量χ∈RI×J×K的Tucker分解为:
Figure FDA0003048985600000011
其中,Α∈RI×P、B∈RJ×Q、C∈RK×S分别为张量χ∈RI×J×K在三个模上的主成分矩阵,即因子矩阵,P、Q、S为三个模上主成分的个数,
Figure FDA0003048985600000012
为核心张量,×n为模-n乘运算,
Figure FDA0003048985600000013
表示外积运算,gpqs为三阶张量
Figure FDA0003048985600000014
和矩阵A,B,C模-n乘运算中的系数,ap、bq、cs分别为矩阵A、B、C中相应位置的元素;
交替最小二乘法的求解目标为:
Figure FDA0003048985600000015
4)通过特征词维度、特征维度与降维后的关系矩阵获取降维后的文本特征,从而划分出文本特征中的特征词和特征词关系,实现文本增量降维,具体包括以下步骤:
41)根据因子矩阵中的特征词-主成分矩阵B∈RM×Q和特征-主成分矩阵C∈RK×S对特征图簇进行重构;
42)根据每个特征词tm与各个主成分的关系权值,即矩阵B中的元素bmq的值,获取与之关系最大的主成分,并将属于同一主成分的特征词合并;
43)根据每个特征fn与各个主成分的关系权值,即矩阵C中的元素cns的值,获取与之关系最大的主成分,并将属于同一主成分的特征合并,实现文本特征的增量降维。
CN201910314107.6A 2019-04-18 2019-04-18 一种基于张量分解的文本增量降维方法 Active CN110209758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910314107.6A CN110209758B (zh) 2019-04-18 2019-04-18 一种基于张量分解的文本增量降维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910314107.6A CN110209758B (zh) 2019-04-18 2019-04-18 一种基于张量分解的文本增量降维方法

Publications (2)

Publication Number Publication Date
CN110209758A CN110209758A (zh) 2019-09-06
CN110209758B true CN110209758B (zh) 2021-09-03

Family

ID=67785468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910314107.6A Active CN110209758B (zh) 2019-04-18 2019-04-18 一种基于张量分解的文本增量降维方法

Country Status (1)

Country Link
CN (1) CN110209758B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062219A (zh) * 2019-12-20 2020-04-24 华中科技大学鄂州工业技术研究院 一种基于张量的潜在语义分析文本处理方法及装置
CN111308418B (zh) * 2020-03-10 2021-11-23 慧众行知科技(北京)有限公司 一种对高度未知的目标进行二维定位的稳健方法
CN111640298A (zh) * 2020-05-11 2020-09-08 同济大学 交通数据填充方法、系统、存储介质及终端
CN112925904B (zh) * 2021-01-27 2022-11-29 天津大学 一种基于Tucker分解的轻量级文本分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299241A (zh) * 2008-01-14 2008-11-05 浙江大学 基于张量表示的多模态视频语义概念检测方法
CN104751447A (zh) * 2015-01-10 2015-07-01 哈尔滨工业大学(威海) 一种锂电池单元缺陷检测方法
CN105787767A (zh) * 2016-03-03 2016-07-20 上海珍岛信息技术有限公司 一种广告点击率预估模型获取方法与系统
CN107368611A (zh) * 2017-08-11 2017-11-21 同济大学 一种短文本分类方法
CN107766583A (zh) * 2017-11-22 2018-03-06 中山大学 基于子图划分的知识图谱降维表达方法
CN108241610A (zh) * 2016-12-26 2018-07-03 上海神计信息系统工程有限公司 一种文本流的在线主题检测方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133048B2 (en) * 2004-06-30 2006-11-07 Mitsubishi Electric Research Laboratories, Inc. Variable multilinear models for facial synthesis
CN100534132C (zh) * 2007-12-07 2009-08-26 西安电子科技大学 基于判别光流张量和hmm的视频语义单元检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299241A (zh) * 2008-01-14 2008-11-05 浙江大学 基于张量表示的多模态视频语义概念检测方法
CN104751447A (zh) * 2015-01-10 2015-07-01 哈尔滨工业大学(威海) 一种锂电池单元缺陷检测方法
CN105787767A (zh) * 2016-03-03 2016-07-20 上海珍岛信息技术有限公司 一种广告点击率预估模型获取方法与系统
CN108241610A (zh) * 2016-12-26 2018-07-03 上海神计信息系统工程有限公司 一种文本流的在线主题检测方法和系统
CN107368611A (zh) * 2017-08-11 2017-11-21 同济大学 一种短文本分类方法
CN107766583A (zh) * 2017-11-22 2018-03-06 中山大学 基于子图划分的知识图谱降维表达方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"张量树学习算法";路梅等;《南京大学学报(自然科学)》;20150228;第390-404页 *

Also Published As

Publication number Publication date
CN110209758A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110209758B (zh) 一种基于张量分解的文本增量降维方法
US9864807B2 (en) Identifying influencers for topics in social media
Lin et al. Metafac: community discovery via relational hypergraph factorization
Cha et al. Social-network analysis using topic models
Zerhari et al. Big data clustering: Algorithms and challenges
CN107590218A (zh) 基于Spark的多特征结合中文文本高效聚类方法
US20190244146A1 (en) Elastic distribution queuing of mass data for the use in director driven company assessment
Acharya et al. Gamma process Poisson factorization for joint modeling of network and documents
Sun et al. An efficient hierarchical clustering method for large datasets with map-reduce
Hou et al. RoSANE: Robust and scalable attributed network embedding for sparse networks
Brigadir et al. Adaptive representations for tracking breaking news on twitter
Gujral et al. Spade: S treaming pa rafac2 de composition for large datasets
Shakhovska et al. Big Data Model" Entity and Features"
Al-Obeidat et al. Parallel tensor factorization for relational learning
Zhou et al. The survey of large-scale query classification
Suganya et al. Algorithms and challenges in big data clustering
Cai et al. A triangular personalized recommendation algorithm for improving diversity
Shen et al. An improved parallel Bayesian text classification algorithm
Riedy et al. Massive streaming data analytics: A graph-based approach
Hu Application of top-n rule-based optimal recommendation system for language education content based on parallel computing
Dass et al. Amelioration of Big Data analytics by employing Big Data tools and techniques
CN112214683A (zh) 基于异构信息网络的混合推荐模型处理方法、系统和介质
El Abdouli et al. A distributed approach for mining moroccan hashtags using Twitter platform
Ginde et al. Big Data Acquisition, Preparation, and Analysis Using Apache Software Foundation Tools
Luo et al. Distributed log information processing with Map-Reduce: A case study from raw data to final models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant