CN101059805A - 基于网络流和分层知识库的动态文本聚类方法 - Google Patents

基于网络流和分层知识库的动态文本聚类方法 Download PDF

Info

Publication number
CN101059805A
CN101059805A CN 200710038634 CN200710038634A CN101059805A CN 101059805 A CN101059805 A CN 101059805A CN 200710038634 CN200710038634 CN 200710038634 CN 200710038634 A CN200710038634 A CN 200710038634A CN 101059805 A CN101059805 A CN 101059805A
Authority
CN
China
Prior art keywords
classification
text
document
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710038634
Other languages
English (en)
Inventor
闵可锐
刘昕
刘百祥
闫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN 200710038634 priority Critical patent/CN101059805A/zh
Publication of CN101059805A publication Critical patent/CN101059805A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息处理和网络安全技术领域,具体为一种基于网络流和分层知识库的动态文本聚类方法。本发明首先假设存在分好的文档类别具有向量型的特征,对单篇分词后的文章通过TFIDF方式提取特征并归一化,用知识库中定义语义距离的方法来计算文章和类别的距离,并对新增加文档的类别不断调整更新关键词和权重;若当前文档不能与已知的任意类进行合并时,就需要建立新的类。算法的过程包括:动态特征向量提取、类别归并、距离求解、类别合并和建立新类等。本发明的特点是:根据分层知识库所提供的语义信息进行聚类而非关键词聚类;可以动态去除噪音数据;相似度采用网络流算法计算,以保证求得最优匹配。利用该方法,可以满足Web文本实时更新聚类的需求,而且是无监督型,无须预先指定类别集合。

Description

基于网络流和分层知识库的动态文本聚类方法
技术领域
本发明属于信息处理和网络内容安全技术领域,具体涉及一种基于网络流和分层知识库的动态文本聚类方法。
技术背景
今天生活在信息爆炸的时代,据有关资料显示,到2003年全世界互联网网页总数达到了131亿。有专家预测,中文将成为互联网上最大的语种之一。互联网也已经成为人们发布和获取信息的重要渠道。新闻、论坛和博客等网络媒体在中国已发展成为洞察社会舆论的重要窗口,网络舆论对公众思想和政府决策发挥着越来越大的影响。中国互联网覆盖范围不断扩大,中国网民言论之活跃已达前所未有的程度,互动式的网络评论以其快捷、尖锐的特点,已显示了其不可忽视的力量。网络舆论正在发挥其强大的威力。
在网络舆论蓬勃发展的同时,由于网络信息发布具有无地域性和匿名性等特点,各种信息难以进行有效的监督和管理。互联网上充斥着虚假广告信息和各种非法言论,对网络舆论导向造成了严重的影响。如何在互联网这个信息的“汪洋大海”中“大海捞针”,如何快捷准确地获取感兴趣的信息成为当前及今后相当一个时期急待解决的重要课题。由此引发的许多工作,特别是中文和汉语环境下的信息处理和自然语言处理应用的诸多技术难题等待着人们去解决。
本发明拟解决的问题是通过结合网络流和分层知识库的方法来实现网络动态文本聚类。网络文本聚类是数据对象划分的一个过程,也是寻找等价集合的一个过程。聚类是一个无指导的学习过程[1,2],目标是将随机分布的样本点划分到已经存在或还未存在的集合当中。一般而言,文本聚类方法可以分为:
1.划分方法:K-平均、K-中心等。
2.层次方法:CURE等。
3.基于密度的方法:DBSCAN、OPTICS等。
4.基于网格的方法:STING等。
5.基于模型的方法:神经网络等。
Web文档有着最明显的两个特点,第一是数量庞大,第二是更新迅速。因此,要求聚类算法的复杂度不能过高,一个时间复杂度高于0(n2)的聚类算法是很难在短时间完成上万个文档聚类的。同时,要求算法对于单文档的增加或删除所花费的代价不能太大。上述经典的聚类算法都难以同时满足这两点要求,许多算法对于一篇文章的增加必须将n篇文章全部重新计算,所花费的时间是难以承受的。
参考文献
[1]Jiawei Han,Kamber M数据挖掘概念与技术[M].北京:机械工业出版社.2005
[2]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:水利水电出版社.2003
[3]卜东波.聚类/分类理论研究及其在文本挖掘中的应用[D].北京:中国科学院.2000
[4]Gruber M,Neuner P,Puchinger J.Klassi-kation der Min Cost Flow Algorithmen[EB/OL].[2006-5-13]
http://www.ads.tuwien.ac.at/teaching/ws04/AlgoGraph/solutionU2A5.pdf
[5]WANG JM.Text Clustering II[EB/OL].[2006-5-13]
http://net.pku.edu.cn/~wbia/2004/public_html/slides/Week10-Text%20Clustering%20II.pdf
[6]鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000(6):8-13,20
[7]郑宗汉,郑晓明.算法设计与分析[M].北京:清华大学出版社.2005
[8]http://wordnet.princeton.edu/
符号表(在本发明的全部文档中所采用符号的含义):
Wi:文档中的单词(经过分词和过滤后余下)。
Sim(Wi,Wj):单词Wi与Wj的相似度。
TF:一个词在一篇文档中出现的频率。
t:文档集中的单词数量。
N:文档集中的文档数量。
DFi:文档集中包含单词i的文档数。
L:表征一篇文档的向量维度。
Lc:文档类别的向量维度。
f(Wi):关键词权重。
θ:预定义的相似度阈值,可人工调整以干预聚类的程度。
LCA(A,B):树中两个节点A,B的最近公共祖先,为从两个节点到根结点的路径中首次交汇的节点,
Dist(x,y):同义词词林中两个节点x,y之间的距离长度,
|LCA(A,B)|=Dist(LCA(A,B),A)+Dist(LCA(A,B),B):树中两个节点A,B的最短距离,TF·IDF:词频/反转文档频率公式,描述文档中单词权重。
发明内容
本发明的目的是提供一种无监督的基于网络流和分层知识库的动态文本聚类方法。
本发明提出的动态文本聚类方法,首先,提取文本动态特征向量:用词频/反转文档频率公式TF·IDF和归一化的方法提取文章的特征,包括从文本中提取关键词和计算权重,并建立类别特征向量和文本特征向量;然后把文档样本和类别映射成网络流图,这样就把类别归并的方法变成网络流的最大费用流的问题,并进行类别归并;在计算的过程中,通过定义5层词典结构的词群距离来计算文档和类别的相似度。然后进行类别合并:由于聚类(即类别合并)的过程是一个开放的,不断形成的过程,类别的关键字随着类别的变化并不能完美地反映类的特点。因此对新加入的文档,类别的关键词和权重需要进行调整更新。即根据TF、IDF公式计算新加入的文本特征和类别文本特征,进行加权调整,将不断地剔除掉那些权重小于一定阈值(预先设定)的关键字,保留语义合并后权重最高的特征,并作为该类新的表示向量,进而建立新的类别。
本发明的优点在于,首先根据分层知识库所提供的语义信息进行聚类而非关键词聚类;其次可以动态去除噪音数据;第三,相似度采用网络流算法计算,以保证求得最优匹配。利用该方法,可使满足Web文本实时更新聚类的需求,而且是无监督型,无须预先指定类别集合。另外,该方法极大降低过程中用户的参与度,应用系统无须像在ISODATA算法中那样有多达6个参数需要调整。
本发明不仅可以用于海量文本的语义分析与处理系统,也可以应用于信息处理和网络内容安全等其它领域。
下面对本发明的各个步骤作进一步说明。整个方法的包括如下几个步骤(算法流程图见说明书附图1):动态特征向量提取、类别归并、距离求解、类别合并和建立新类等。
1、动态特征向量提取
特征向量的提取是针对于单篇分词后文章的,使用经典的TF·IDF公式提取文章特征,并进行归一化处理:
TF · IDF ( W i ) = TF · log 2 ( N / DF i ) Σ j = 1 t TF · log 2 ( N / DF j ) - - - ( 1 )
TF·IDF公式的使用需要语料库的支持(需要一个参照词频),语料库可以利用现有的某些Web文档构成。去除停用词,并按照计算出的权重倒排序,选取一个维数较低的向量(设为L维)即可以代表整篇文章。该方法取得的向量忽略了一些不太重要的词汇,提高了算法对噪声的处理能力。完成单篇文章的处理以后,得到类别特征向量
Figure A20071003863400082
C i → = ∪ j = 1 L c { ( W j , f ( W j ) } - - - ( 2 )
文本特征向量 如下表示:
D i → = ∪ j = 1 L { ( W j , TF · IDF ( W j ) } - - - ( 3 )
度量文本特征向量和类别特征向量的相似度,可采用图论算法中的距离来度量。
2.把文档样本和类别映射成网络流图。
建立文章到类别的一个网络流(见附图2),包括一个源点和一个汇点,将任意文章单词到类别单词建立一条边,其容量为1,费用为Sim(Wi,Wj)×TF·IDF(Wi),并将源点和任意文章单词建立一条边,费用为0,容量为1。任意类别单词到汇点建立一条边,费用为0,容量为1。这样就把求类别是否归并的问题转化为求网络流的最大费用流的问题。
3.类别归并
设所求得的最大费用为γ,并记:
Total = Σ i = 1 L TF · IDF ( W i ) - - - ( 4 )
则文章属于该类别当且仅当 γ Total ≥ θ . 阈值θ根据实际情况选定。网络流的最大费用流问题是图论的经典问题,常见的算法为匈牙利算法,其时间复杂度为O(V3),对于稀疏图而言,也有一些相关的改进,并且由于容量为1,使复杂度可以达到O(V(E+Vlog2V))2
这里涉及到文本特征向量和类别特征向量相似度的度量,即计算单词Wi与Wj的相似度Sim(Wi,Wj),将中文词汇按照树状结构组织,把词汇分成大、中、小三类,大类有12个,中类有97个,小类有1,400个。根据其对于小类内部分标记,将小类进一步划分,进而得到一共五层的词典结构。
Sim(Wi,Wj)的计算可以根据|LCA(A,B)|来度量,具体的数值可以根据试验的效果选取,根据实验同义词可以取Sim(Wi,Wj)=1,近义词取Sim(Wi,Wj)=α。α可取0.6-0.9之间,例如可取α=0.8,具体根据实际情况判断决定。若同义词词林(加强版)没有包括Wi或Wj,那么再采用如下方法计算:
Figure A20071003863400093
4.合并类别
当满足条件 γ Total ≥ θ 时,将当前文档与匹配成功的类进行合并。合并所产生的另一个问题就是,该类以前的关键字并不总能完美地反映类的特点。也就是说,根据新加入的文档,类别的关键词和权重需要进行调整更新。在合并过程中不断地淘汰掉那些权重较小的关键字,这也能提高算法对噪声的适应能力。
调整的方法为:设目前该类中已经存在了N个文档,类别的向量
Figure A20071003863400095
维数为Lc 3。分两种情况讨论类别原关键词的更新,若新关键词到该类别原关键词存在近义词、同义词匹配时,用下式表示的f(Wi)替代原f(Wi):
f ( W i ) = N N + 1 f ( W i ) + 1 N + 1 TF · IDF ( W k ) - - - ( 6 )
否则将原关键词的权重下调,即:
f ( W i ) = N N + 1 f ( W i ) ; - - - ( 7 )
最后再结合该文档向量中的未匹配关键词与调整后的类别原关键词统一进行排序,选出最大的Lc个关键词,作为该类新的表示向量。
5.建立新类别
若当前文档不能与已知的任意类进行合并时,就需要建立新的类。建立过程很简单,就是将当前文档的特征向量作为该类的特征向量。
在实践过程中,该算法的时间复杂度与类的数量相关,假设类的数量为O(log2n),则该算法总时间复杂度为O(nlog2n),若类的数量为O(n/log2n)级别,算法的时间复杂度为O(n2/log2n),是一个比较高效的增量算法。
由于聚类算法不同于分类算法有一个已经标注的文档集进行指导学习,所以聚类的效果评测不是很容易(根据粒度选择的不同,会得到不同的等价集)。为了本算法聚类的效果具有说服力并便于评测,使用“多文档文摘语料”测试。该语料具有从各地采集的40个主题共197条新闻,同一个主题的一般具有3至7篇相关新闻,其中同主题任意两篇文档称为一个人工关联文档对。并定义如下的一些数据:
以θ作为调整阈值的试验结果如下表和附图4所示:
0.3 0.33  0.36 0.5
错误率 1.10% 0.70% 0.80% 1.00%
全面率 74.80% 75% 72.30% 50.20%
准确率 72.50% 88% 88.30% 98%
一般可取θ在0.3-0.5之间。
附图说明
图1:本方法采用的聚类流程。
图2:聚类网络流构成图例。
图3:五层同义词词林词典结构。
图4:测试结果图示。
具体实施方式
下面通过举例进一步描述本发明方法。
在本例子中,待处理的文档数量N=3,设相似度阈值θ=0.5,文档类别的向量维数Lc=4,其中文本向量分别为D1、D2、D3,向量中每个词语后面是文章通过TF·IDF计算而得的权重信息:
D1={(电脑,0.4),(游戏,0.3),(下载,0.3)}
D2={(最新,0.2),(软件,0.5),(下载,0.3)}
D3={(计算机,0.4),(游戏,0.3),(攻略,0.3)}
则开始聚类时,首先处理D1,因为没有其他类别可以比较,故将其本身建立为一个新的类别,为C1,其中C1={(电脑,0.4),(游戏,0.3),(下载,0.3)}。
然后处理D2,将D2与类别C1相比较,构建网络流图,并且仅有从D2中的“(下载,0.3)”到C1中的“(下载,0.3)”两个节点的边费用非零,因为Sim(下载,下载)=1,则该边的权值为0.3*1.0=0.3。对该图求其最大费用流(可以采用Ford算法每次求一条费用最大的路径增广),得到F*=0.3,因为Total=0.2+0.5+0.3=1,F*/Total=0.3<θ,则该文档不能归并入C1中。
由于检查了所有存在的类别都无法进行归并,则D2也将独立为一类,为C2,其中C2=D2={(最新,0.2),(软件,0.5),(下载0.3)}。
处理文档D3,首先比较D3与类别C1的相似情况:
由于“电脑”和“计算机”在分层知识库中属于同义词,则Sim(电脑,计算机)=0.8,并且Sim(游戏,游戏)=1,则构建的网络流图有这两条边费用非零,其权值分别为0.8*0.4=0.32和1.0*0.3=0.3。因为该两条边顶点相异。对于此图求最大费用流可以得到F*=0.32+03=0.62>θ,则D3可以归并于类别C1中。
归并的过程如下:
计算所有可能特征的权重。由于(计算机,电脑)特征匹配成功,故将其视为一个特征:
    特征   权重
  (计算机,电脑)   0.5*0.4+0.5*0.4=0.4
  (游戏,游戏)   0.5*0.3+0.5*0.3=0.3
    (下载)     0.5*0.3=0.15
    (攻略)     0.5*0.3=0.15
由于Lc=4,则上述特征项会被保留作为新的C1的特征和权重。这三篇文章最终形成了两个不同的类别。

Claims (6)

1.一种基于网络流和分层知识库的动态文本聚类方法,其特征在于:首先,提文本取动态特征向量:用词频/反转文档频率公式TF·IDF和归一化的方法提取文章的特征,包括从文本中提取关键词和计算权重,并建立类别特征向量和文本特征向量;然后把文档样本和类别映射成网络流图,把类别归并的方法变成网络流的最大费用流的问题,并进行类别归并;在计算的过程中,通过定义5层词典结构的词群距离来计算文本和类别特征向量的相似度;然后进行类别合并,对新加入的文档,根据TF、IDF公式计算新加入的文本特征和类别文本特征,调整类别的关键词和权重,不断地剔除掉那些权重小于一定阈值的关键字,保留语义合并后权重最高的特征,并作为该类新的表示向量,进而建立新的类别。
2.根据权利要求1所述的动态文本聚类方法,其特征在于所述提取文本动态特征向量步骤如下:针对单篇分词后的文章,使用TF·IDF公式提取文章特征,并进一步归一化处理:
TF · IDF ( W i ) = TF · log 2 ( N / DF i ) Σ j = 1 t TF · log 2 ( N / DF j ) - - - ( 1 )
得到类别特征向量
Figure A2007100386340002C2
如下:
C → i = ∪ j = 1 L c { ( W j , f ( W j ) } - - - ( 2 )
文本特征向量
Figure A2007100386340002C4
如下表示:
D → i = ∪ j = 1 L { ( W j , TF · IDF ( W j ) } - - - ( 3 )
并用图论算法中距离来度量文本特征向量和类别特征向量的相似度;其中,Wj为文档中的单词,N为文档集中文档的数量,TF为一个词在一篇文档中的频率,DFi为文档集中包含单词i的文档数,L为一篇文档的向量维度,Lc为文档类别的向量維度,f(Wj)为关键词权重。
3.根据权利要求1所述的动态文本聚类方法,其特征在于所述把文档样本和类别映射成网络流图的步骤如下:建立文章到类别的一个网络流,包括一个源点和一个汇点,将任意文章单词到类别单词建立一条边,其容量为1,费用为Sim(Wi,Wj)×TF·IDF(Wi),并将源点和任意文章单词建立一条边,费用为0,容量为1;任意类别单词到汇点建立一条边,费用为0,容量为1,这样就把求类别是否归并的问题转化为求网络流的最大费用流的问题;这里Sim(Wi、Wj)为单词Wi和Wj的相似度。
4.根据权利要求1所述的动态文本聚类方法,其特征在于所述类别归并,是设所求得的最大费用为γ,并记:
Total = Σ i = 1 L TF · IDF ( W i ) - - - ( 4 )
则文章属于该类别当且仅当 γ Total ≥ θ , θ根据实际情况选定。
5.根据权利要求3所述的动态文本聚类方法,其特征在于所述文本特征向量和类别特征向量相似度的度量,即计算单词Wi与Wj的相似度Sim(Wi,Wj),先将中文词汇按照树状结构组织,把词汇分成大、中、小三类,大类有12个,中类有97个,小类有1,400个;根据其对于小类内部分标记,将小类进一步划分,进而得到一共五层的词典结构;这样相似度Sim(Wi,Wj)的计算就根据|LCA(A,B)|来度量,具体的数值可以根据试验的效果选取:根据实验同义词取Sim(Wi,Wj)=1,近义词取Sim(Wi,Wj)=α,α取0.6-0.9之间,若同义词词林没有包括Wi或Wj,那么再采用如下方法计算:
Figure A2007100386340003C3
这里LCA(A,B):树中两个节点A,B的最近公共祖先,为从两个节点到根结点的路径中首次交汇的节点;
Dist(x,y):同义词词林中两个节点x,y之间的距离长度;
|LCA(A,B)|=Dist(LCA(A,B),A)+Dist(LCA(A,B),B):树中两个节点A,B的最短距离。
6.根据权利要求5所述的动态文本聚类方法,其特征在于所述合并类别中,关键词和权重的调整方法如下:设目前该类中已经存在了N个文档,类别的向量
Figure A2007100386340004C1
维数为Lc 3,分两种情况讨论类别原关键词的更新,若新关键词到该类别原关键词存在近义词、同义词匹配时,用下式表示的f(Wi)替代原f(Wi):
f ( W i ) = N N + 1 f ( W i ) + 1 N + 1 TF · IDF ( W k ) - - - ( 6 )
否则将原关键词的权重下调:
f ( W i ) = N N + 1 f ( W i ) ; - - - ( 7 )
最后再结合该文档向量中的未匹配关键词与调整后的类别原关键词统一进行排序,选出最大的Lc个关键词,作为该类新的表示向量。
CN 200710038634 2007-03-29 2007-03-29 基于网络流和分层知识库的动态文本聚类方法 Pending CN101059805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710038634 CN101059805A (zh) 2007-03-29 2007-03-29 基于网络流和分层知识库的动态文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710038634 CN101059805A (zh) 2007-03-29 2007-03-29 基于网络流和分层知识库的动态文本聚类方法

Publications (1)

Publication Number Publication Date
CN101059805A true CN101059805A (zh) 2007-10-24

Family

ID=38865911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710038634 Pending CN101059805A (zh) 2007-03-29 2007-03-29 基于网络流和分层知识库的动态文本聚类方法

Country Status (1)

Country Link
CN (1) CN101059805A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063485A (zh) * 2010-12-29 2011-05-18 深圳市永达电子股份有限公司 一种在线分析网络流中短文本信息聚类的方法
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102411592A (zh) * 2010-09-21 2012-04-11 阿里巴巴集团控股有限公司 一种文本分类方法和装置
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN102622378A (zh) * 2011-01-30 2012-08-01 北京千橡网景科技发展有限公司 从文本流检测事件的方法和设备
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
CN102955772A (zh) * 2011-08-17 2013-03-06 北京百度网讯科技有限公司 一种基于语义的相似度计算方法和装置
CN103150336A (zh) * 2013-02-04 2013-06-12 浙江大学 一种基于用户聚类的sky line在线计算方法
WO2013097597A1 (zh) * 2011-12-30 2013-07-04 华为技术有限公司 内容过滤的方法、装置及系统
CN103294820A (zh) * 2013-06-14 2013-09-11 广东电网公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN103377239A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 计算文本间相似度的方法和装置
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类系统及方法
CN104715049A (zh) * 2015-03-26 2015-06-17 无锡中科泛在信息技术研发中心有限公司 基于本体词库的商品评论属性词抽取方法
CN105893551A (zh) * 2016-03-31 2016-08-24 上海智臻智能网络科技股份有限公司 数据的处理方法及装置、知识图谱
CN106897380A (zh) * 2017-01-20 2017-06-27 浙江大学 一种面向设计知识动态推送的自适应需求模型构建方法
CN107016556A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 数据处理方法及装置
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及系统
CN107122420A (zh) * 2017-04-01 2017-09-01 上海诺悦智能科技有限公司 一种旅游热点事件检测方法及系统
CN107832425A (zh) * 2017-11-13 2018-03-23 北京神州泰岳软件股份有限公司 一种多轮迭代的语料标注方法、装置及系统
CN108363784A (zh) * 2018-01-20 2018-08-03 西北工业大学 一种基于文本机器学习的舆情走向预测方法
CN108460017A (zh) * 2018-02-28 2018-08-28 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
CN109345391A (zh) * 2018-10-17 2019-02-15 山东儒名投资集团有限公司 基于大数据分析的风险控制方法及系统
CN103902597B (zh) * 2012-12-27 2019-03-08 百度在线网络技术(北京)有限公司 确定目标关键词所对应的搜索相关性类别的方法和设备
CN109783616A (zh) * 2018-12-03 2019-05-21 广东蔚海数问大数据科技有限公司 一种文本主题提取方法、系统和存储介质
CN110196907A (zh) * 2019-04-15 2019-09-03 中国石油大学(华东) 一种多层次文本聚类方法和装置
WO2021135919A1 (zh) * 2020-05-27 2021-07-08 平安科技(深圳)有限公司 基于机器学习的sql语句安全检测方法、装置、设备及介质

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102411583B (zh) * 2010-09-20 2013-09-18 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102411592B (zh) * 2010-09-21 2013-08-07 阿里巴巴集团控股有限公司 一种文本分类方法和装置
CN102411592A (zh) * 2010-09-21 2012-04-11 阿里巴巴集团控股有限公司 一种文本分类方法和装置
CN102063485A (zh) * 2010-12-29 2011-05-18 深圳市永达电子股份有限公司 一种在线分析网络流中短文本信息聚类的方法
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN102622378A (zh) * 2011-01-30 2012-08-01 北京千橡网景科技发展有限公司 从文本流检测事件的方法和设备
CN102955772A (zh) * 2011-08-17 2013-03-06 北京百度网讯科技有限公司 一种基于语义的相似度计算方法和装置
CN102955772B (zh) * 2011-08-17 2015-11-25 北京百度网讯科技有限公司 一种基于语义的相似度计算方法和装置
WO2013097597A1 (zh) * 2011-12-30 2013-07-04 华为技术有限公司 内容过滤的方法、装置及系统
CN103377239A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 计算文本间相似度的方法和装置
CN103377239B (zh) * 2012-04-26 2020-08-07 深圳市世纪光速信息技术有限公司 计算文本间相似度的方法和装置
CN102693279B (zh) * 2012-04-28 2014-09-03 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
CN103902597B (zh) * 2012-12-27 2019-03-08 百度在线网络技术(北京)有限公司 确定目标关键词所对应的搜索相关性类别的方法和设备
CN103150336A (zh) * 2013-02-04 2013-06-12 浙江大学 一种基于用户聚类的sky line在线计算方法
CN103150336B (zh) * 2013-02-04 2016-01-20 浙江大学 一种基于用户聚类的skyline在线计算方法
CN103294820A (zh) * 2013-06-14 2013-09-11 广东电网公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN103294820B (zh) * 2013-06-14 2017-11-10 广东电网有限责任公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类系统及方法
CN104715049A (zh) * 2015-03-26 2015-06-17 无锡中科泛在信息技术研发中心有限公司 基于本体词库的商品评论属性词抽取方法
CN104715049B (zh) * 2015-03-26 2017-11-28 无锡中科泛在信息技术研发中心有限公司 基于本体词库的商品评论属性词抽取方法
CN107016556A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 数据处理方法及装置
CN107016556B (zh) * 2016-01-27 2021-02-05 创新先进技术有限公司 数据处理方法及装置
CN105893551A (zh) * 2016-03-31 2016-08-24 上海智臻智能网络科技股份有限公司 数据的处理方法及装置、知识图谱
CN105893551B (zh) * 2016-03-31 2019-03-05 上海智臻智能网络科技股份有限公司 数据的处理方法及装置、知识图谱
CN106897380A (zh) * 2017-01-20 2017-06-27 浙江大学 一种面向设计知识动态推送的自适应需求模型构建方法
CN106897380B (zh) * 2017-01-20 2020-01-14 浙江大学 一种面向设计知识动态推送的自适应需求模型构建方法
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及系统
CN107122420A (zh) * 2017-04-01 2017-09-01 上海诺悦智能科技有限公司 一种旅游热点事件检测方法及系统
CN107832425B (zh) * 2017-11-13 2020-03-06 中科鼎富(北京)科技发展有限公司 一种多轮迭代的语料标注方法、装置及系统
CN107832425A (zh) * 2017-11-13 2018-03-23 北京神州泰岳软件股份有限公司 一种多轮迭代的语料标注方法、装置及系统
CN108363784A (zh) * 2018-01-20 2018-08-03 西北工业大学 一种基于文本机器学习的舆情走向预测方法
CN108460017A (zh) * 2018-02-28 2018-08-28 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
CN108460017B (zh) * 2018-02-28 2019-07-30 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
CN109345391A (zh) * 2018-10-17 2019-02-15 山东儒名投资集团有限公司 基于大数据分析的风险控制方法及系统
CN109783616A (zh) * 2018-12-03 2019-05-21 广东蔚海数问大数据科技有限公司 一种文本主题提取方法、系统和存储介质
CN110196907A (zh) * 2019-04-15 2019-09-03 中国石油大学(华东) 一种多层次文本聚类方法和装置
WO2021135919A1 (zh) * 2020-05-27 2021-07-08 平安科技(深圳)有限公司 基于机器学习的sql语句安全检测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN101059805A (zh) 基于网络流和分层知识库的动态文本聚类方法
CN110209808B (zh) 一种基于文本信息的事件生成方法以及相关装置
CN103577462B (zh) 一种文档分类方法及装置
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
Haboush et al. Arabic text summarization model using clustering techniques
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN108388914A (zh) 一种基于语义计算的分类器构建方法、分类器
CN1158460A (zh) 一种跨语种语料自动分类与检索方法
Xu et al. Named entity mining from click-through data using weakly supervised latent dirichlet allocation
CN109885675A (zh) 基于改进lda的文本子话题发现方法
CN109597995A (zh) 一种基于bm25加权结合词向量的文本表示方法
Qian et al. BERT-based text keyword extraction
CN112905800A (zh) 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法
CN106599072A (zh) 一种文本聚类方法及装置
Zhao et al. Keyword extraction for social media short text
Foong et al. Text summarization using latent semantic analysis model in mobile android platform
Campbell et al. Content+ context networks for user classification in twitter
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN1916904A (zh) 一种基于文档扩展的单文档摘要方法
Thilagavathi et al. Document clustering in forensic investigation by hybrid approach
Kannan et al. Text document clustering using statistical integrated graph based sentence sensitivity ranking algorithm
Guo et al. Web-based chinese term extraction in the field of study
Keyan et al. Multi-document and multi-lingual summarization using neural networks
Li Text Classification Retrieval Based on Complex Network and ICA Algorithm.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication