CN110888978A - 文章聚类方法、装置、电子设备、存储介质 - Google Patents

文章聚类方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN110888978A
CN110888978A CN201811040361.3A CN201811040361A CN110888978A CN 110888978 A CN110888978 A CN 110888978A CN 201811040361 A CN201811040361 A CN 201811040361A CN 110888978 A CN110888978 A CN 110888978A
Authority
CN
China
Prior art keywords
clustered
subclass
article
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811040361.3A
Other languages
English (en)
Inventor
刘子丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Financial Technology Holding Co Ltd
Original Assignee
Beijing Jingdong Financial Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Financial Technology Holding Co Ltd filed Critical Beijing Jingdong Financial Technology Holding Co Ltd
Priority to CN201811040361.3A priority Critical patent/CN110888978A/zh
Publication of CN110888978A publication Critical patent/CN110888978A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文章聚类方法、装置、电子设备、存储介质,文章聚类方法,包括:向量化一待聚类文章获得待聚类文章的待聚类特征向量;计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;若所述相似度小于预设相似度阈值,则将所述待聚类特征向量所指示的待聚类文章归入该子类;以及更新归入所述待聚类文章的子类中心向量。本发明提供的方法及装置具有在线性、历史可追溯性和效率性。

Description

文章聚类方法、装置、电子设备、存储介质
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种文章聚类方法、装置、电子设备、存储介质。
背景技术
文本聚类技术可应用于舆情分析与监控系统:舆情系统每日通过网络爬虫可收集来自各个领域的海量新闻数据,利用算法有效的将这些文章进行归纳分类,可以帮助用户快速了解当前的热点事件,并高效的进行进一步的分析处理。
传统文本聚类技术主要分为分割式(Partitional Clustering)和层次式(Hierarchical Clustering)。分割式如K-means算法,可以将输入的多篇文本分割为预先设定好的K个分类;而层次式则不需要固定输出分类的个数,只需设定文本相似度阈值,并依此将输入的多篇文本聚类。在舆情系统的文本聚类场景下,通常无法预先判断新闻的分类个数,因此采用层次式聚类方法会更加合适。
现有层次式聚类主要是基于批处理(batch)方法,即聚类算法的输入为基于一批多篇文本所提取的文本特征向量,且输出的文本聚类仅针对这一批数据;如果再有新增的文本需要聚类,则需要将新增文本与历史文本整理成一批数据重新输入,对于新增的词汇重新进行文本特征向量的构建。再利用聚类算法输出新的聚类结果,而之前一批的结果与新的结果不存在相关性。在舆情系统的文本聚类场景下,每日存在大量的新增文本。一个有效处理新增文本的聚类方法,需要同时具备高效性、可实时更新性与历史新闻事件的可追溯性三个性质。
Canhui Wang等人在论文Automatic Online News Issue Construction in WebEnvironment中提出一种构建新增词汇的文本特征向量的方法:即弃用传统上必须考虑全部历史文档的反文档词频(IDF)特征,改为构建只考虑新增文档的反词频(IWF)特征。应用这种文本特征构建方法,进行三步聚类:(1)单独聚类新增的多篇文档;(2)根据新增文本特征更新历史文档的特征向量;(3)比较新增文档聚类和历史文档聚类的结果,进行分类的融合或新增。
R.
Figure BDA0001791622800000021
和H.OLIVEIRA在论文OHDOCLUS–Online and HierarchicalDocument Clustering中提出一种针对文本的在线层次聚类的方法,大体思路为:每新增一篇文档,根据文本相似度更新层次聚类的结构树图;同时在树图中保留全部的历史文档信息,定期回溯更新文本特征向量和历史树图节点分支。
应用于舆情系统的文本聚类方法,需要能够满足以下3点重要需求:
(1)在线性:即支持新增文档的单独聚类与更新。传统的批处理聚类方法无法满足这个需求,虽然上述两篇论文都提出了不同的解决方法,但是Automatic Online NewsIssue Construction in Web Environment中提到的方法仅可看作一种批处理方法的变体,在初始阶段仍旧需要对批量新增文本进行聚类,并不能真正处理单篇新增文本。
(2)历史可追溯性:舆情系统的文本聚类功能要求历史文档的聚类结果可追溯,并且聚类完成后不能更改,以方便统计某一类的新闻事件在一段时间内的数量变化。OHDOCLUS–Online and Hierarchical Document Clustering中,存储在历史树图节点的历史文档需要进行定期融合和分叉,每次更新后文档的分类结果会略有差别。虽然这个更新操作可以综合提升最终聚类精度,但并不适用于一个不断新增新闻、并关注聚类历史变动的舆情系统。
(3)效率性:考虑到舆情系统中每日新增新闻数量多,同时需要保留的历史信息更是海量级别,文本聚类算法的运算效率和存储效率都十分重要。上述两篇论文提出的方法都需要保存全部历史文档信息,这种做法极大影响了存储效率;同时,当新增文本进行特征更新时,历史文档信息保存的越多,运算效率越低。因此上述两篇论文所述方法,仅适用于学术领域的小量数据集,在实际场景应用中存在效率风险。
舆情分析与监控系统中的文本聚类算法,需要处理每日大量新增新闻,并保留海量历史新闻事件的聚类信息;在满足上述两点功能同时,还要兼顾运算效率和存储效率。
发明内容
本发明为了克服上述相关技术存在的缺陷,提供一种文章聚类方法、装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本发明的一个方面,提供一种文章聚类方法,包括:
向量化一待聚类文章获得待聚类文章的待聚类特征向量;
计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;
若所述相似度小于预设相似度阈值,则将所述待聚类特征向量所指示的待聚类文章归入该子类;以及
更新归入所述待聚类文章的子类中心向量。
可选地,若所述相似度小于预设相似度阈值,则将所述待聚类特征向量所指示的待聚类文章归入该子类包括:
将所述待聚类特征向量所指示的待聚类文章归入相似度最小,且相似度小于预设相似度阈值的子类。
可选地,若所述待聚类特征向量与各子类中心向量的最小相似度大于等于所述预设相似度阈值,则建立一新的子类,且该新的子类的子类中心向量为所述待聚类特征向量。
可选地,还包括:
基于遗忘机制去除用于与待聚类特征向量计算相似度的子类中心向量关联的子类。
可选地,所述基于遗忘机制去除用于与待聚类特征向量计算相似度的子类中心向量关联的子类包括:
去除最新更新时间距离当前时间大于等于预设时间阈值的子类中心向量关联的子类。
可选地,所述基于遗忘机制去除用于与待聚类特征向量计算相似度的子类中心向量关联的子类包括:
去除热度小于等于预设热度阈值的子类,其中,子类的热度P=子类中文章的数量/(子类累积的时间的r次方),r为大于等于1.5小于等于2.0的常数。
可选地,所述预设相似度阈值基于聚类的召回率和准确率调整。
可选地,所述待聚类特征向量与子类中心向量的相似度为余弦相似度。
可选地,所述向量化一待聚类文章获得待聚类文章的待聚类特征向量包括:
利用特征哈希算法向量化一待聚类文章,所述待聚类特征向量为N维向量,N为大于0的正整数。
可选地,所述子类中心向量也为N维向量,且所述子类中心向量每一维为该子类中已聚类特征向量对应维的平均值。
根据本发明的又一方面,还提供一种文章聚类装置,包括:
向量化模块,用于向量化一待聚类文章获得待聚类文章的待聚类特征向量;
相似度计算模块,用于计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;
分类模块,若所述相似度小于预设相似度阈值,则用于将所述待聚类特征向量所指示的待聚类文章归入该子类;以及
更新模块,用于更新归入所述待聚类文章的子类中心向量。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明的优势在于:
一方面,可以对新增的待聚类文章进行聚类,具有在线性;另一方面,每次聚类后,不再对已聚类文章进行归类的更改,具有历史可追溯性;再一方面,通过子类中心向量的设置,减少所有已聚类文章及其特征向量的储存容量,减少储存容量,且待聚类文章仅需与子类中心向量进行相似度匹配,增加计算速度,从而具有效率性。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的文章聚类方法的流程图。
图2示出了根据本发明具体实施例的文章聚类方法的流程图。
图3示出了根据本发明实施例的文章聚类装置的模块图。
图4示意性示出本发明示例性实施例中一种计算机可读存储介质示意图。
图5示意性示出本发明示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
图1示出了根据本发明实施例的文章聚类方法的流程图。参考图1,所述文章聚类方法包括如下步骤:
步骤S110:向量化一待聚类文章获得待聚类文章的待聚类特征向量;
步骤S120:计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;
步骤S130:判断所述相似度是否小于预设相似度阈值;
若是则执行步骤S140:将所述待聚类特征向量所指示的待聚类文章归入该子类;
步骤S150:更新归入所述待聚类文章的子类中心向量。
在本发明的示例性实施方式的文章聚类方法中,一方面,可以对新增的待聚类文章进行聚类,具有在线性;另一方面,每次聚类后,不再对已聚类文章进行归类的更改,具有历史可追溯性;再一方面,通过子类中心向量的设置,减少所有已聚类文章及其特征向量的储存容量,减少储存容量,且待聚类文章仅需与子类中心向量进行相似度匹配,增加计算速度,从而具有效率性。
具体而言,下面将结合图2所示的具体实施例描述本发明提供的文章聚类方法:
首先是步骤S210:对待聚类文章进行预处理。
具体而言,待聚类文章可以是通过网络爬虫的抓取的新闻,也可以是其它文章,本发明并非以此为限。
待聚类文章通常包含很多无关语义的信息。在步骤S210中可以去除文章中的html标签和标点符号。之后,进行对待聚类文章进行分词,以去除停用词(助词、介词等无具体语义的词语)。
在一些实施例中,步骤S210中可以利用TextRank算法进一步选择出每篇待聚类文章中的最能表达文章含义的多个关键词作为文本特征。
具体而言,基于TextRank提取关键词的主要步骤包括:
1)将待聚类文章按照完整句子进行分割;
2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词等。这些词形成候选关键词;
3)构建候选关键词图G=(V,E),其中V为节点集,由步骤2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,E为两点之间边的集合,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现;
4)根据PageRank原理计算各节点的Rank值并作为各节点的初始化权重,然后迭代计算各节点的权重,直至收敛;
5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词;
6)由步骤5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。例如,文本中有句子“Matlab code for plotting ambiguityfunction”,如果“Matlab”和“code”均属于候选关键词,则组合成“Matlab code”加入关键词序列。
由此,通过TextRank的方式,可以有效的降低文本特征的个数,提高运算效率,并保证聚类精度。
步骤S220:对预处理后的待聚类文章进行向量化。
在本实施例中,可以利用特征哈希(Feature Hashing)算法对预处理后的待聚类文章向量化。
可以理解,传统文本聚类算法无法高效进行在线聚类的一个主要原因,就是对于新增文章中出现的新词,需要重新调整文本特征向量的维度及权重。而在本实施例中,可以通过采用特征哈希算法来解决这一问题。
具体而言,步骤S220中通过定义哈希方程(如MurmurHash1、MurmurHash2、MurmurHash3),可以将不同词汇编码成N个整数中的某一个。对于一篇经过预处理的文本,对其中每个词汇进行哈希编码,通过统计每一哈希编码的词频(term frequency),可以将文章编码成为一个N维的向量。在一些实施例中,可能存在两个不同词汇被编码为同一个整数从而导致潜在冲突(Collision)的情况。步骤S220还可以通过加入正负符号进行向量归一化处理,来缓解潜在冲突。
步骤S220采用特征哈希算法还可以有效的节省存储空间。在本发在线聚类场景下,采用此算法可以固定文本特征向量维度,省去特征维度的更新这一耗时步骤,仅需对权重进行更新来有效解决新增词汇的方法。在一些新闻文本聚类的场景实现中,一个N=500维的特征哈希向量器,就可以在聚类精度上接近一个传统的2000多维的TF-IDF(词频-反文档词频)向量器。
步骤S230:计算所述待聚类特征向量与子类中心向量的相似度。
具体而言,本发明为了保留已聚类文章的信息并节省存储空间,提供了可以表示各已聚类文章的信息的子类中心向量,由此,系统中无需存储具体每一篇已聚类文章的信息,而是将每一子类的全部文章统一存储为一个子类中心向量。子类中心向量也为N维向量,子类中心向量的每一维为该子类的全部文章的特征哈希向量在该维上的平均数。
步骤S230中的聚类的相似度可以用余弦距离(cosine distance)来衡量,对一篇待聚类文章的待聚类特征向量vd,计算它与每一个子类中心向量vci的余弦距离:
di=1-(vd*vci)/(|vd|*|vci|)
余弦距离di的值在0到1之间,越小说明待聚类文章与子类中心越相似。找到与待聚类文章最相似的一个子类中心向量的相似度dmin。预设相似度阈值的调整会改变聚类的稀疏度,预设相似度阈值越小,各个文章越会被算法分割成不同的聚类事件,聚类的准确率(Precision)越高;反之,各个文章越倾向于聚合为同一事件,聚类的召回率(Recall)越高。本发明可以结合业务场景对于准确率或召回率的实际需求,可调整阈值以聚合有效的文章热点事件。
具体而言,聚类结果的准确率(precision)表示算法预测的属于一类的文章中,人工打标结果同样属于一类的占比;召回率(recall)表示人工打标为一类的文章中,算法预测为属于一类的占比。
recall(i,j)=nij/ni
precision(i,j)=nij/nj
其中,nij表示在算法预测的第j类中被人工打标为i类的文章个数,nj表示算法预测的第j类的文章个数,ni表示人工打标的第i类的文章个数。
综合全部算法预测类与人工打标类,整体聚类的准确率(Precision)和召回率(Recall)为:
Recall=∑Ri*ni/n;
Precision=∑Pj*nj/n;
其中,n表示文章总数,Ri表示人工打标为i类的文章的召回率,Pj表示算法预测的第j类的文章的准确率。
下面执行步骤S240,判断计算所得的最小相似度是否小于预设相似度阈值。
具体而言,当相似度dmin小于预设相似度阈值时,则执行步骤S250将待聚类文章归入该子类,加入待聚类特征向量vd并重新计算该子类中心向量vc';当相似度dmin大于等于预设相似度阈值时,则认为没有子类与待聚类文章相似,执行步骤S260以待聚类文章立一个新的子类,其初始子类中心向量即为待聚类文章的待聚类特征向量vd
在本实施例中,在上述步骤S250和步骤S260之后,还包括步骤S270:去除最新更新时间距离当前时间大于等于预设时间阈值的子类中心向量关联的子类。
具体而言,尽管采用子类中心向量进行相似度计算的设计省去了存储全部已聚类文章信息的空间,但在舆情系统的实际场景中,一个爬虫任务每天收集到的待聚类文章仍会产生上万个新增子类,随着新增子类的累积递增,计算一篇待聚类文章相似度的复杂度将逐步增大。为了保证运算效率,在一个具体实施例中,当一个子类中心向量的最新更新时间超过M天(M为大于等于1的正整数),则认为这一子类已经过时,并将其子类中心向量排除出之后的用于计算相似度的子类中心向量集合。在另一个具体实施例中,当子类的热度小于等于预设热度阈值,则将其子类中心向量排除出之后的用于计算相似度的子类中心向量集合。子类的热度P=子类中文章的数量/(子类累积的时间的r次方),r为大于等于1.5小于等于2.0的常数,子类累积的时间可以是子类自成立起至今的天数。
以上仅仅是示意性地描述本发明的具体实现方式,上述各步骤可以单独执行或组合执行,在不违背本发明构思的前提下,皆在本发明的保护范围之内。
下面结合图3描述本发明提供的文章聚类装置。图3示出了根据本发明实施例的文章聚类装置的模块图。文章聚类装置300包括向量化模块310、相似度计算模块320、分类模块330及更新模块340。
向量化模块310用于向量化一待聚类文章获得待聚类文章的待聚类特征向量;
相似度计算模块320用于计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;
若所述相似度小于预设相似度阈值,则分类模块330用于将所述待聚类特征向量所指示的待聚类文章归入该子类;以及
更新模块340用于更新归入所述待聚类文章的子类中心向量。
在本发明的示例性实施方式的文章聚类装置中,一方面,可以对新增的待聚类文章进行聚类,具有在线性;另一方面,每次聚类后,不再对已聚类文章进行归类的更改,具有历史可追溯性;再一方面,通过子类中心向量的设置,减少所有已聚类文章及其特征向量的储存容量,减少储存容量,且待聚类文章仅需与子类中心向量进行相似度匹配,增加计算速度,从而具有效率性。
图3仅仅是示意性的示出本发明提供的文章聚类装置300,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述电子处方流转处理方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图4所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本发明的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述电子处方流转处理方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器560可以通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述电子处方流转处理方法。
相比现有技术,本发明的优势在于:
一方面,可以对新增的待聚类文章进行聚类,具有在线性;另一方面,每次聚类后,不再对已聚类文章进行归类的更改,具有历史可追溯性;再一方面,通过子类中心向量的设置,减少所有已聚类文章及其特征向量的储存容量,减少储存容量,且待聚类文章仅需与子类中心向量进行相似度匹配,增加计算速度,从而具有效率性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

Claims (13)

1.一种文章聚类方法,其特征在于,包括:
向量化一待聚类文章获得待聚类文章的待聚类特征向量;
计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;
若所述相似度小于预设相似度阈值,则将所述待聚类特征向量所指示的待聚类文章归入该子类;以及
更新归入所述待聚类文章的子类中心向量。
2.如权利要求1所述的文章聚类方法,其特征在于,若所述相似度小于预设相似度阈值,则将所述待聚类特征向量所指示的待聚类文章归入该子类包括:
将所述待聚类特征向量所指示的待聚类文章归入相似度最小,且相似度小于预设相似度阈值的子类。
3.如权利要求2所述的文章聚类方法,其特征在于,若所述待聚类特征向量与各子类中心向量的最小相似度大于等于所述预设相似度阈值,则建立一新的子类,且该新的子类的子类中心向量为所述待聚类特征向量。
4.如权利要求1所述的文章聚类方法,其特征在于,还包括:
基于遗忘机制去除用于与待聚类特征向量计算相似度的子类中心向量关联的子类。
5.如权利要求4所述的文章聚类方法,其特征在于,所述基于遗忘机制去除用于与待聚类特征向量计算相似度的子类中心向量关联的子类包括:
去除最新更新时间距离当前时间大于等于预设时间阈值的子类中心向量关联的子类。
6.如权利要求4所述的文章聚类方法,其特征在于,所述基于遗忘机制去除用于与待聚类特征向量计算相似度的子类中心向量关联的子类包括:
去除热度小于等于预设热度阈值的子类,其中,子类的热度P=子类中文章的数量/(子类累积的时间的r次方),r为大于等于1.5小于等于2.0的常数。
7.如权利要求1至6任一项所述的文章聚类方法,其特征在于,所述预设相似度阈值基于聚类的召回率和准确率调整。
8.如权利要求1至6任一项所述的文章聚类方法,其特征在于,所述待聚类特征向量与子类中心向量的相似度为余弦相似度。
9.如权利要求1至6任一项所述的文章聚类方法,其特征在于,所述向量化一待聚类文章获得待聚类文章的待聚类特征向量包括:
利用特征哈希算法向量化一待聚类文章,所述待聚类特征向量为N维向量,N为大于0的正整数。
10.如权利要求9所述的文章聚类方法,其特征在于,所述子类中心向量也为N维向量,且所述子类中心向量每一维为该子类中已聚类特征向量对应维的平均值。
11.一种文章聚类装置,其特征在于,包括:
向量化模块,用于向量化一待聚类文章获得待聚类文章的待聚类特征向量;
相似度计算模块,用于计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;
分类模块,若所述相似度小于预设相似度阈值,则用于将所述待聚类特征向量所指示的待聚类文章归入该子类;以及
更新模块,用于更新归入所述待聚类文章的子类中心向量。
12.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至10任一项所述的步骤。
13.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至10任一项所述的步骤。
CN201811040361.3A 2018-09-06 2018-09-06 文章聚类方法、装置、电子设备、存储介质 Pending CN110888978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811040361.3A CN110888978A (zh) 2018-09-06 2018-09-06 文章聚类方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811040361.3A CN110888978A (zh) 2018-09-06 2018-09-06 文章聚类方法、装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN110888978A true CN110888978A (zh) 2020-03-17

Family

ID=69744347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811040361.3A Pending CN110888978A (zh) 2018-09-06 2018-09-06 文章聚类方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN110888978A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100986A (zh) * 2020-11-10 2020-12-18 北京捷通华声科技股份有限公司 语音文本聚类方法和装置
CN113220840A (zh) * 2021-05-17 2021-08-06 北京百度网讯科技有限公司 文本处理方法、装置、设备以及存储介质
CN113761196A (zh) * 2021-07-28 2021-12-07 北京中科模识科技有限公司 文本聚类方法及系统、电子设备和存储介质
CN114064895A (zh) * 2021-11-16 2022-02-18 深圳视界信息技术有限公司 一种用户新建议实时发现方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
US20160004764A1 (en) * 2014-07-03 2016-01-07 Palantir Technologies Inc. System and method for news events detection and visualization
CN105488092A (zh) * 2015-07-13 2016-04-13 中国科学院信息工程研究所 一种时间敏感和自适应的子话题在线检测方法及系统
CN106339495A (zh) * 2016-08-31 2017-01-18 广州智索信息科技有限公司 一种基于层次增量聚类的话题检测方法及系统
CN106599181A (zh) * 2016-12-13 2017-04-26 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法
US20170193074A1 (en) * 2015-12-30 2017-07-06 Yahoo! Inc. Finding Related Articles for a Content Stream Using Iterative Merge-Split Clusters
CN107609102A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种短文本在线聚类方法
CN107832467A (zh) * 2017-11-29 2018-03-23 北京工业大学 一种基于改进的Single‑pass聚类算法的微博话题检测方法
CN108334610A (zh) * 2018-02-06 2018-07-27 北京神州泰岳软件股份有限公司 一种新闻文本分类方法、装置及服务器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
US20160004764A1 (en) * 2014-07-03 2016-01-07 Palantir Technologies Inc. System and method for news events detection and visualization
CN105488092A (zh) * 2015-07-13 2016-04-13 中国科学院信息工程研究所 一种时间敏感和自适应的子话题在线检测方法及系统
US20170193074A1 (en) * 2015-12-30 2017-07-06 Yahoo! Inc. Finding Related Articles for a Content Stream Using Iterative Merge-Split Clusters
CN106339495A (zh) * 2016-08-31 2017-01-18 广州智索信息科技有限公司 一种基于层次增量聚类的话题检测方法及系统
CN106599181A (zh) * 2016-12-13 2017-04-26 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法
CN107609102A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种短文本在线聚类方法
CN107832467A (zh) * 2017-11-29 2018-03-23 北京工业大学 一种基于改进的Single‑pass聚类算法的微博话题检测方法
CN108334610A (zh) * 2018-02-06 2018-07-27 北京神州泰岳软件股份有限公司 一种新闻文本分类方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁津生等: "搜索引擎与信息检索教程", 中国水利水电出版社, pages: 173 - 174 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100986A (zh) * 2020-11-10 2020-12-18 北京捷通华声科技股份有限公司 语音文本聚类方法和装置
CN113220840A (zh) * 2021-05-17 2021-08-06 北京百度网讯科技有限公司 文本处理方法、装置、设备以及存储介质
CN113220840B (zh) * 2021-05-17 2023-08-01 北京百度网讯科技有限公司 文本处理方法、装置、设备以及存储介质
CN113761196A (zh) * 2021-07-28 2021-12-07 北京中科模识科技有限公司 文本聚类方法及系统、电子设备和存储介质
CN113761196B (zh) * 2021-07-28 2024-02-20 北京中科模识科技有限公司 文本聚类方法及系统、电子设备和存储介质
CN114064895A (zh) * 2021-11-16 2022-02-18 深圳视界信息技术有限公司 一种用户新建议实时发现方法、装置、设备及介质
CN114064895B (zh) * 2021-11-16 2023-12-19 深圳数阔信息技术有限公司 一种用户新建议实时发现方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11243993B2 (en) Document relationship analysis system
US10762439B2 (en) Event clustering and classification with document embedding
CN110888978A (zh) 文章聚类方法、装置、电子设备、存储介质
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN111611807B (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN107808011A (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN111753048B (zh) 文档检索方法、装置、设备及存储介质
CN105224682A (zh) 新词发现方法及装置
CN110990532A (zh) 一种处理文本的方法和装置
KR20210119041A (ko) 군집 기반 중복문서 제거 장치 및 제거 방법
WO2019085332A1 (zh) 金融数据分析方法、应用服务器及计算机可读存储介质
CN114330335B (zh) 关键词抽取方法、装置、设备及存储介质
CN110874532A (zh) 提取反馈信息的关键词的方法和装置
CN110674635A (zh) 一种用于文本段落划分的方法和装置
Vidyashree et al. An improvised sentiment analysis model on twitter data using stochastic gradient descent (SGD) optimization algorithm in stochastic gate neural network (SGNN)
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
CN111191011B (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
CN111930949A (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN114936282B (zh) 金融风险线索确定方法、装置、设备和介质
Mostafa Enhanced Sentiment Analysis Algorithms for Multi-Weight Polarity Selection on Twitter Dataset.
CN116227473A (zh) 同义词的生成方法、装置、设备和计算机可读存储介质
CN117151089A (zh) 新词发现方法、装置、设备和介质
Triapitsyn et al. Designing of a classifier for the unstructured text formalization model based on word embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd.