CN104778280B - 基于近邻传播的文本数据流聚类算法 - Google Patents

基于近邻传播的文本数据流聚类算法 Download PDF

Info

Publication number
CN104778280B
CN104778280B CN201510221327.6A CN201510221327A CN104778280B CN 104778280 B CN104778280 B CN 104778280B CN 201510221327 A CN201510221327 A CN 201510221327A CN 104778280 B CN104778280 B CN 104778280B
Authority
CN
China
Prior art keywords
mrow
text vector
mtd
index
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510221327.6A
Other languages
English (en)
Other versions
CN104778280A (zh
Inventor
倪丽萍
李鸣
李一鸣
倪志伟
伍章俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201510221327.6A priority Critical patent/CN104778280B/zh
Publication of CN104778280A publication Critical patent/CN104778280A/zh
Application granted granted Critical
Publication of CN104778280B publication Critical patent/CN104778280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于近邻传播的文本数据流聚类算法,其特征是按如下步骤进行:1对文本数据集进行降维处理,获得相应的文本向量集;2获得所有时刻的聚类中心,并完成聚类算法。本发明不需要预先指定聚类个数,就能提高算法的准确率和鲁棒性,从而满足解决实际问题的需要。

Description

基于近邻传播的文本数据流聚类算法
技术领域
本发明涉及一种基于近邻传播的文本数据流聚类算法。
背景技术
随着大数据时代的到来,网络上产生了大量非结构化数据。面对这些实时产生、数据量庞大、结构复杂的非结构化数据,人们迫切需要从中提取有价值的信息和知识。文本数据流聚类技术是分析这些非结构化数据的常用方法,它在新闻过滤、话题检测及跟踪(TDT)、用户特征推荐等方面取得了很好的应用效果,迅速成为当前的研究热点。由于文本数据具有高维稀疏特征,如何提高聚类算法的效率和准确率至关重要。2005年Shi Zhong提出OSKM算法,该算法是k-means算法的扩展,其将不断流入的数据流分成小份,每一份都可以在内存中高效地得到处理。随后,在这些数据上进行k-means迭代,得到聚类结果。
该算法还有以下缺点:每次聚类都需要预先确定聚类个数,不能随着类别的变化对聚类个数进行变化。当前有研究将语义平滑模型扩展到文本数据流中。但基于语义的方法要花费很多的人力建立语料库,算法的时间、空间复杂度较高。也有研究提出一种CluStream算法,该方法引入衰减函数,给予每篇文档权重,权重随时间进行衰减。算法对类球形簇能取得较好的聚类结果,但较难聚成任意形状的簇。还有研究提出一种HPStream算法,该算法采用高维投影技术选择子空间进行聚类,同时使用衰减函数表示演化信息,但先验参数——平均聚类维数难以确定。以上的改进研究在一定程度上适应了流式聚类等问题但在聚类结果的精确度和鲁棒性方面仍然未得到很好地解决,需要进一步的改进完善。
发明内容
本发明为了克服现有技术存在的不足之处,提出一种基于近邻传播的文本数据流聚类算法,以期不需要预先指定聚类个数,就能提高算法的准确率和鲁棒性,从而满足解决实际问题的需要。
本发明为解决技术问题采用如下技术方案:
本发明一种基于近邻传播的文本数据流聚类算法的特点是按如下步骤进行:
步骤1、对所述文本数据集进行降维处理,获得相应的文本向量集;
步骤1.1、利用TF-IDF法对所述文本数据集进行处理,获得所述文本数据集中的每个关键字和其频率的对应关系,记为<key,value>;
步骤1.2、对所述文本数据集按照字典顺序进行排序,并根据所述排序建立索引;
步骤1.3、将所述索引与所述关键字建立对应关系,从而使得每个关键字和其频率的对应关系<key,value>转换为每个索引与其频率的对应关系,记为文本向量集<index,value>;
步骤2、获得所有时刻的聚类中心:
步骤2.1定义时刻t、最大时刻tmax;并初始化t=0;
步骤2.2、在t时刻从文本向量集<index,value>中获取n文本向量,记为 表示t时刻的第i个文本向量;并有
步骤2.3、将所述t时刻的n个文本向量N(t)的权重记为 表示t时刻的第i个文本向量的权重;并初始化
步骤2.4、利用式(1)获得t时刻的第i个文本向量与第j个文本向量的归一化的余弦相似度cos(t)(i,j),1≤j≤n:
步骤2.5、利用式(2)获得t时刻的第i个文本向量与第j个文本向量的相似度矩阵S(t)(i,j):
式(2)中,s(t)为t时刻的参数,表示当i≠j时所获得的t时刻的所有相似度矩阵S(t)(i,j)的中值的一半;
步骤2.6、将所述t时刻的参数s(t)赋值给AP算法中第i个参考度Pi (t),采用AP算法对所述t时刻的n个文本向量N(t)进行聚类,获得t时刻的mt个聚类中心,记为 表示t时刻的第vt个聚类中心;并初始化γ表示吸引因子;γ∈[0,1];1≤vt≤mt<n;
步骤2.7、将t+1赋值给t;并判断t=tmax是否成立,若成立,则执行步骤2.11;否则从所述文本向量集<index,value>中获得t时刻的n文本向量
步骤2.8、将所述t-1时刻的mt-1个聚类中心C(t-1)加入到所述t时刻的n文本向量N(t)中,从而获得更新的n+mt-1个文本向量
步骤2.9、将所述更新的n+mt-1个文本向量N(t)′作为所述t时刻的文本向量N(t),并返回步骤2.3-步骤2.6顺序执行;从而获得t时刻的mt个聚类中心C(t)
步骤2.10;返回步2.7顺序执行;
步骤2.11;从而获得所有时刻的聚类中心;并完成所述聚类算法。
本发明所述的基于近邻传播的文本数据流聚类算法的特点也在于,所述步骤2.4是按如下过程获得t时刻的第i个文本向量与第j个文本向量的归一化的余弦相似度cos(t)(i,j):
步骤2.4.1、将t时刻的第i个文本向量的索引和其对应的频率分别存入数组中,将t时刻的第j个文本向量的索引和其对应的频率分别存入数组中;
步骤2.4.2、定义变量ia、jb和sum;并初始化ia=0;jb=0;sum=0
步骤2.4.3、判断是否成立,若成立,则执行步骤2.4.4;否则,执行步骤2.4.10;
步骤2.4.4、判断是否成立,若成立,则执行步骤2.4.5;否则执行步骤2.4.7;
步骤2.4.5、将的值赋值给sum;
步骤2.4.6、将ia+1赋值给ia;将jb+1赋值给jb;并返回步骤2.4.3执行;
步骤2.4.7、判断是否成立,若成立,则执行步骤2.4.8;否则执行步骤2.4.9;
步骤2.4.8、将jb+1赋值给jb;并返回步骤2.4.3执行;
步骤2.4.9、将ia+1赋值给ia;并返回步骤2.4.3执行;
步骤2.4.10、将sum赋值给cos(t)(i,j)。
与已有技术相比,本发明的有益效果体现在:
1、本发明采用滑动时间窗口思想:利用滑动时间窗口进行聚类的优势在于每个滑动时间窗口内的数据都可以保存在内存中,这样可以对该窗口内的数据点进行多次处理,在保证时间效率的同时提高聚类准确率;同时,根据可用的缓冲区大小或者实验需求等,还可以变换滑动时间窗口大小,使算法具有较好的伸缩性和可扩展性。
2、本发明构造加权相似度矩阵的优点体现在以下两个方面:
A)在计算文本相似度时,通过建立单词索引提高计算效率。本发明在方法上采用归一化的余弦相似度,通过把整个文档建立一个单词索引,然后将得到的<key,value>转换为<index,value>,由于所有文档的index都是从小到大进行排列的,在进行相似度计算时通过在两篇文档的向量中按顺序寻找index,如果两篇文档的index值相等那么将两篇文档相应index下的value相乘,这样累加直到计算出两篇文档之间的相似度,从而降低了计算的时间复杂度;
B)在权重的构造方面使权重的分配更加合理化。本发明通过引入吸引度因子,将选出的聚类中心在下一个时间窗口的聚类中赋予合理权重,避免了由于聚类中心权重赋予过大导致在相似度矩阵的构造方面不符合实际进而导致聚类效果降低的问题。
3、本发明基于AP算法,不需要像k-means聚类算法那样事先指定聚类个数,使得算法鲁棒性更好,并通过引入吸引度因子,使历史聚类中心更具吸引性,聚类结果较为稳定,同时,对滑动时间窗口中的数据进行动态处理,更适合流式状态,既能体现数据流的动态特征,又能反映数据流的分布特征,聚类结果较准确。
具体实施方式
本实施例中,一种基于近邻传播的文本数据流聚类算法——OWAP-s算法是按如下步骤进行:
步骤1、对文本数据集进行降维处理,获得相应的文本向量集;
为了应对文本数据高维稀疏的特点,采用如下降维方法:
首先通过把整个文档建立一个单词索引,然后将得到的<key,value>转换为<index,value>。其中index指的是单词的序号,value指的是数值。由于所有文档的index都是从小到大进行排列的,在进行相似度计算时我们通过在两篇文档的向量中按顺序寻找index,如果两篇文档的index值相等那么将两篇文档相应index下的value相乘,这样累加直到计算出两篇文档之间的相似度。具体地说:
步骤1.1、利用TF-IDF法对文本数据集进行处理,获得文本数据集中的每个关键字和其频率的对应关系,记为<key,value>;
步骤1.2、对文本数据集按照字典顺序进行排序,并根据排序建立索引;字典排序就是根据字典中的26个字母顺序进行排序;
步骤1.3、将索引与关键字建立对应关系,从而使得每个关键字和其频率的对应关系<key,value>转换为每个索引与其频率的对应关系,记为文本向量集<index,value>;
步骤2、获得所有时刻的聚类中心:其采用半连续处理过程,将整个文本数据流分成一个个滑动时间窗口(t=0,1,2...),对每个时间窗口中流入的数据N(t)和历史数据C(t-1)进行聚类并将聚类结果用到下一个时间窗口中的数据聚类上。具体地说:
步骤2.1定义时刻t、最大时刻tmax;并初始化t=0;
步骤2.2、在t时刻从文本向量集<index,value>中获取n文本向量,即滑动窗口的大为n,记为 表示t时刻的第i个文本向量;并有每篇文档都有其对应的index和value组成,1≤i≤n;
步骤2.3、将t时刻的n个文本向量N(t)的权重记为 表示t时刻的第i个文本向量的权重;并初始化即对于每个时间t的滑动窗口中的非聚类中心数据的权重赋值为1;
步骤2.4、利用式(1)获得t时刻的第i个文本向量与第j个文本向量的归一化的余弦相似度cos(t)(i,j),1≤j≤n:
即通过代表文本的index和value进行文本相似度的计算,具体地:
步骤2.4.1、将t时刻的第i个文本向量的索引和其对应的频率分别存入数组中,即将其拆分至两个数组中;将t时刻的第j个文本向量的索引和其对应的频率分别存入数组中;
步骤2.4.2、定义变量ia、jb和sum;并初始化ia=0;jb=0;sum=0
步骤2.4.3、判断是否成立,若成立,则执行步骤2.4.4;否则,执行步骤2.4.10;
步骤2.4.4、判断是否成立,若成立,则执行步骤2.4.5;否则执行步骤2.4.7;
步骤2.4.5、将的值赋值给sum;即将相同项对应的value值相加求和;
步骤2.4.6、将ia+1赋值给ia;将jb+1赋值给jb;并返回步骤2.4.3执行;
步骤2.4.7、判断是否成立,若成立,则执行步骤2.4.8;否则执行步骤2.4.9;
步骤2.4.8、将jb+1赋值给jb;并返回步骤2.4.3执行;
步骤2.4.9、将ia+1赋值给ia;并返回步骤2.4.3执行;
步骤2.4.10、将sum赋值给cos(t)(i,j),最后的sum值即为两篇文档之间的余弦相似度值;
步骤2.5、利用式(2)获得t时刻的第i个文本向量与第j个文本向量的相似度矩阵S(t)(i,j):
式(2)中,s(t)为t时刻的参数,表示当i≠j时所获得的t时刻的所有相似度矩阵S(t)(i,j)的中值的一半;这样做可以充分体现文档之间的非对称加权相似度,使得相似度计算过程更加合理;
步骤2.6、将t时刻的参数s(t)赋值给AP算法中第i个参考度Pi (t),采用AP算法对t时刻的n个文本向量N(t)进行聚类,获得t时刻的mt个聚类中心,记为 表示t时刻的第vt个聚类中心;并初始化γ表示吸引因子;γ∈[0,1];取值范围不同取得的结果也会不同;1≤vt≤mt<n;
步骤2.7、将t+1赋值给t;并判断t=tmax是否成立,若成立,则执行步骤2.11;否则从文本向量集<index,value>中获得t时刻的n文本向量
步骤2.8、将t-1时刻的mt-1个聚类中心C(t-1)加入到t时刻的n文本向量N(t)中,从而获得更新的n+mt-1个文本向量:
这样可以让t-1时刻的历史数据对当前t时刻数据的聚类产生一定的影响;
步骤2.9、将更新的n+mt-1个文本向量N(t)′作为t时刻的文本向量N(t),并返回步骤2.3-步骤2.6顺序执行;从而获得t时刻的mt个聚类中心C(t)
步骤2.10;返回步2.7顺序执行;
步骤2.11;从而获得所有时刻的聚类中心;并完成聚类算法。

Claims (2)

1.一种基于近邻传播的文本数据流聚类算法,其特征是按如下步骤进行:
步骤1、对文本数据集进行降维处理,获得相应的文本向量集;
步骤1.1、利用TF-IDF法对所述文本数据集进行处理,获得所述文本数据集中的每个关键字和其频率的对应关系,记为<key,value>;
步骤1.2、对所述文本数据集按照字典顺序进行排序,并根据所述排序建立索引;
步骤1.3、将所述索引与所述关键字建立对应关系,从而使得每个关键字和其频率的对应关系<key,value>转换为每个索引与其频率的对应关系,记为文本向量集<index,value>;
步骤2、获得所有时刻的聚类中心:
步骤2.1定义时刻t、最大时刻tmax;并初始化t=0;
步骤2.2、在t时刻从文本向量集<index,value>中获取n个文本向量,记为 表示t时刻的第i个文本向量;并有
步骤2.3、将所述t时刻的n个文本向量N(t)的权重记为 表示t时刻的第i个文本向量的权重;并初始化
步骤2.4、利用式(1)获得t时刻的第i个文本向量与第j个文本向量的归一化的余弦相似度cos(t)(i,j),1≤j≤n:
<mrow> <msup> <mi>cos</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>N</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>&amp;CenterDot;</mo> <msubsup> <mi>N</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
步骤2.5、利用式(2)获得t时刻的第i个文本向量与第j个文本向量的相似度矩阵S(t)(i,j):
<mrow> <msup> <mi>S</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mfrac> <mrow> <msubsup> <mi>WN</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow> <mrow> <msubsup> <mi>WN</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mfrac> <mn>1</mn> <mrow> <msup> <mi>cos</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>&amp;NotEqual;</mo> <mi>j</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <msubsup> <mi>WN</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> <mo>)</mo> <mo>&amp;CenterDot;</mo> <msup> <mi>s</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> </mrow> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mi>j</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
式(2)中,s(t)为t时刻的参数,表示当i≠j时所获得的t时刻的所有相似度矩阵S(t)(i,j)的中值的一半;
步骤2.6、将所述t时刻的参数s(t)赋值给AP算法中第i个参考度Pi (t),采用AP算法对所述t时刻的n个文本向量N(t)进行聚类,获得t时刻的mt个聚类中心,记为 表示t时刻的第vt个聚类中心;并初始化γ表示吸引因子;γ∈[0,1];1≤vt≤mt<n;
步骤2.7、将t+1赋值给t;并判断t=tmax是否成立,若成立,则执行步骤2.11;否则从所述文本向量集<index,value>中获得t时刻的n个文本向量
步骤2.8、将t-1时刻的mt-1个聚类中心C(t-1)加入到所述t时刻的n个文本向量N(t)中,从而获得更新的n+mt-1个文本向量
步骤2.9、将所述更新的n+mt-1个文本向量N(t)′作为所述t时刻的文本向量N(t),并返回步骤2.3-步骤2.6顺序执行;从而获得t时刻的mt个聚类中心C(t)
步骤2.10;返回步2.7顺序执行;
步骤2.11;从而获得所有时刻的聚类中心;并完成所述聚类算法。
2.根据权利要求1所述的基于近邻传播的文本数据流聚类算法,其特征是,所述步骤2.4是按如下过程获得t时刻的第i个文本向量与第j个文本向量的归一化的余弦相似度cos(t)(i,j):
步骤2.4.1、将t时刻的第i个文本向量的索引和其对应的频率分别存入数组中,将t时刻的第j个文本向量的索引和其对应的频率分别存入数组中;
步骤2.4.2、定义变量ia、jb和sum;并初始化ia=0;jb=0;sum=0
步骤2.4.3、判断是否成立,若成立,则执行步骤2.4.4;否则,执行步骤2.4.10;
步骤2.4.4、判断是否成立,若成立,则执行步骤2.4.5;否则执行步骤2.4.7;
步骤2.4.5、将的值赋值给sum;
步骤2.4.6、将ia+1赋值给ia;将jb+1赋值给jb;并返回步骤2.4.3执行;
步骤2.4.7、判断是否成立,若成立,则执行步骤2.4.8;否则执行步骤2.4.9;
步骤2.4.8、将jb+1赋值给jb;并返回步骤2.4.3执行;
步骤2.4.9、将ia+1赋值给ia;并返回步骤2.4.3执行;
步骤2.4.10、将sum赋值给cos(t)(i,j)。
CN201510221327.6A 2015-05-04 2015-05-04 基于近邻传播的文本数据流聚类算法 Active CN104778280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510221327.6A CN104778280B (zh) 2015-05-04 2015-05-04 基于近邻传播的文本数据流聚类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510221327.6A CN104778280B (zh) 2015-05-04 2015-05-04 基于近邻传播的文本数据流聚类算法

Publications (2)

Publication Number Publication Date
CN104778280A CN104778280A (zh) 2015-07-15
CN104778280B true CN104778280B (zh) 2018-02-02

Family

ID=53619744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510221327.6A Active CN104778280B (zh) 2015-05-04 2015-05-04 基于近邻传播的文本数据流聚类算法

Country Status (1)

Country Link
CN (1) CN104778280B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021298B (zh) * 2016-05-03 2019-05-28 广东工业大学 一种基于非对称加权相似度的协同过滤推荐方法及系统
CN106570050A (zh) * 2016-08-26 2017-04-19 浪潮集团有限公司 一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法
CN109783816B (zh) * 2019-01-11 2023-04-07 河北工程大学 短文本聚类方法及终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN103714171A (zh) * 2013-12-31 2014-04-09 深圳先进技术研究院 文本聚类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9092673B2 (en) * 2009-05-07 2015-07-28 Microsoft Technology Licensing, Llc Computing visual and textual summaries for tagged image collections
US20140089044A1 (en) * 2012-09-25 2014-03-27 Zilliant, Inc. System and method for identifying and presenting business-to-business sales opportunities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN103714171A (zh) * 2013-12-31 2014-04-09 深圳先进技术研究院 文本聚类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Clustering by Passing Messages Between Data Points;Brendan J. Frey 等;《Science》;20070216;第315卷(第5814期);972-976 *
Data Streaming with Affinity Propagation;Xiangliang Zhang 等;《Machine learning and knowledge discovery in database》;20081231;第5212卷;628-643 *
一种近邻传播的层次优化算法;倪志伟 等;《计算机科学》;20150315;第42卷(第3期);195-200 *
基于密度与近邻传播的数据流聚类算法;张建朋 等;《自动化学报》;20140215;第40卷(第2期);277-288 *

Also Published As

Publication number Publication date
CN104778280A (zh) 2015-07-15

Similar Documents

Publication Publication Date Title
CN105005589B (zh) 一种文本分类的方法和装置
CN104794489B (zh) 一种基于深度标签预测的诱导式图像分类方法及系统
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
Tan An improved KNN text classification algorithm based on K-medoids and rough set
CN102982165A (zh) 一种大规模人脸图像检索方法
CN106203483B (zh) 一种基于语义相关多模态映射方法的零样本图像分类方法
CN110321925A (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN109886406A (zh) 一种基于深度压缩的复数卷积神经网络压缩方法
WO2019192120A1 (zh) 轨迹查询方法、电子设备及存储介质
CN104778280B (zh) 基于近邻传播的文本数据流聚类算法
CN104239512A (zh) 一种文本推荐方法
CN110659378A (zh) 基于对比相似性损失函数的细粒度图像检索方法
CN107944485A (zh) 基于聚类群组发现的推荐系统及方法、个性化推荐系统
CN107656920B (zh) 一种基于专利的科技人才推荐方法
CN104809474B (zh) 基于自适应分组多层网络的大型数据集约减方法
CN109036454A (zh) 基于dnn的说话人无关单通道录音分离的方法和系统
CN111125469A (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
CN109522432A (zh) 一种融合自适应相似度和贝叶斯框架的图像检索方法
CN108984711A (zh) 一种基于分层嵌入的个性化app推荐方法
CN110147414B (zh) 一种知识图谱的实体表征方法及装置
CN104731811A (zh) 一种面向大规模动态短文本的聚类信息演化分析方法
CN104778205B (zh) 一种基于异构信息网络的移动应用排序和聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant