CN110990566B - 一种基于社区检测的增量聚类算法 - Google Patents

一种基于社区检测的增量聚类算法 Download PDF

Info

Publication number
CN110990566B
CN110990566B CN201911147405.7A CN201911147405A CN110990566B CN 110990566 B CN110990566 B CN 110990566B CN 201911147405 A CN201911147405 A CN 201911147405A CN 110990566 B CN110990566 B CN 110990566B
Authority
CN
China
Prior art keywords
community
document
vector
similarity
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911147405.7A
Other languages
English (en)
Other versions
CN110990566A (zh
Inventor
杨佳乐
程大伟
罗轶凤
钱卫宁
周傲英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Guandian Technology Co ltd
East China Normal University
Original Assignee
Shanghai Guandian Technology Co ltd
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Guandian Technology Co ltd, East China Normal University filed Critical Shanghai Guandian Technology Co ltd
Priority to CN201911147405.7A priority Critical patent/CN110990566B/zh
Publication of CN110990566A publication Critical patent/CN110990566A/zh
Application granted granted Critical
Publication of CN110990566B publication Critical patent/CN110990566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社区检测的增量聚类算法,其特点是采用Community社区概念和Online‑Offline两阶段框架并引入IMC概念,由文档表征词向量、文档的表征关键词与文档的命名实体识别预测词共同经相似度计算方法得到目标语料的相似度图,最后对相似度图先使用Louvain算法得到初始化社区结果,并在初始化社区结果的基础上使用增量聚类算法得到最终的聚类结果。本发明与现有技术相比具有在同等硬件条件下降低计算时间开销,快速生成聚类结果,以便更好地服务于应用场景的上下游业务,做到及时响应,实现了区分热点事件与持续报道事件的功能,从而对新闻事件做了有效的聚类与事件级别的过滤。

Description

一种基于社区检测的增量聚类算法
技术领域
本发明涉及文本聚类技术领域,尤其是一种基于社区检测的增量聚类算法。
背景技术
新闻是一种重要的信息来源,一篇新闻报道往往包含了一些特定的信息,例如对于特定企业或者人物的报道。因此,许多技术类公司或者研究员致力于从相关新闻报道中挖掘有价值的信息,从而服务于商业类信息分析或者数据挖掘。聚类是一种有效的将相关信息聚集成话题簇的手段,随着信息的爆炸式增长,传统的聚类方法在面对大规模的数据时会遭遇严重的性能瓶颈,并且随着新数据的到来,会将历史的数据进行重聚类,引起了不必要的性能开销。相较传统的聚类方法而言,增量聚类更适合这种新数据不断到来的聚类场景。
目前,增量聚类研究主要分为三个方面:1)基于密度的增量研究方法,以DenStream、C-DenStream、PreDeConStream为主要代表;2)基于层次的增量研究算法,以COBWEB、CluStream、HPStream为主要代表;3)基于划分的增量研究算法,以STREAM为主要代表。其中,基于层次的增量研究算法与基于划分的增量研究算法存在对大规模数据集适应性不够,计算开销比较大等问题而不适用于大规模数据的增量式聚类,而基于密度的增量研究方法具有处理大规模数据的能力。现有的增量聚类的研究方法仍然存在以下几点问题。
1、增量聚类算法的时间复杂度依然比较大
DenStream采用了Online-Offline两阶段聚类的框架,在Merging与Pruning阶段存在较高的计算复杂度,带来了巨大的时间开销;C-DenStream在DenStream的基础上引入了事件级别的Must-Link与Cannot-Link限制改善了聚类结果,但是依然存在DenStream计算复杂度较大的问题;PreDeConStream提升了在Offline阶段的性能,但是依然存在在搜索最近相邻类时存在巨大的时间复杂度开销。
2、缺少将热点事件与持续报道事件区分开的能力
DenStream在Pruning阶段直接把Outlier-Micro Cluster内数据删除,意味着将低频热点事件与低频持续报道一并删除,引起了信息丢失的风险;C-DenStream用半监督的方式对事件级别的新闻做类别限制,但是依然无法区分同一事件类别中热点新闻与持续报道新闻,仍会无法区分这两种事件;PreDeConStream没有对这种情况做处理,所以也缺少相应的事件区分能力。
综上所述,现有技术的增量聚类算法依然存在计算时间复杂度开销较大,缺少区分热点事件与持续报道事件的能力,相应的增量式文本聚类算法还未见有报道。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于社区检测的增量聚类算法,采用Community社区概念和Online-Offline两阶段框架并引入IMC概念,可以有效地对目标语料进行增量式聚类,能够为某一领域但不局限于金融领域对数据进行分析挖掘,为后续的决策推断提供支撑,实现了区分热点事件与持续报道事件的功能,从而对新闻事件做了有效的聚类与事件级别的过滤,有效降低增量式聚类的计算时间复杂度,并具有区分热点事件与持续性报道事件的能力。
本发明的目的是这样实现的:一种基于社区检测的增量聚类算法,其特点该算法包括以下步骤:
S1:对全量的中文金融文本语料进行词向量预训练,生成词向量模型。
S2:对全量的中文金融文本语料使用布隆过滤器技术,进行文本去重筛选,并经过文本预处理后得到目标金融语料。
S3:对目标金融语料使用TF-IDF技术得到每篇语料文档的Top-k个关键词并构建关键词列表,对目标金融语料使用命名实体识别技术得到每篇语料文档的命名实体识别预测词,并构建命名实体识别预测词列表,同时对目标金融语料使用基于S1步骤中预训练的词向量模型生成文档的表征词向量。
S4:对文档的表征词向量计算相似度得到目标语料的表征词向量相似度矩阵,分别对文档的Top-k个关键词和文档的命名实体识别预测词使用局部敏感哈希技术,得到对应的Shingles向量,并分别计算相似度得到关键词相似度矩阵和命名实体识别预测词相似度矩阵。
S5:将S4步骤中得到的三个相似度矩阵进行加权拼接,并根据自定义条件筛选,最终得到所有文档的相似度图表示。
S6:将S5步骤中得到的相似度图,使用Louvain算法得到初始化社区结果。
S7:将S6步骤中得到的初始化社区结果,使用自定义增量聚类算法进行增量式聚类。
上述S1步骤中所述全量中文金融文本语料由对各大金融门户网站的定时爬虫爬取构成;所述词向量模型由全量中文金融文本语料预训练而成,其训练方式为fasttext。
上述S2步骤中所述文本去重使用的技术采用BloomFilter,所述文本预处理包括去掉停用词与thualc分词。
上述S3步骤中所述Top-k个关键词由每篇文档经TF-IDF技术对文档分词结果所选取出词频-逆文档频率最高的k个词构成;所述关键词列表为所有文档的关键词的set集合;所述命名实体识别技术为Bi-LSTM+CRF;所述命名实体识别预测词为对文档中上市公司(ORG-A)、非上市公司(ORG-O)、人名(PER)、地点(LOC)、时间(TIME)、金钱(MONEY)和产品(PROD)等词的预测;所述命名实体识别预测词列表为所有文档的命名实体识别预测词的set集合;所述词向量采用的表征方法为fasttext。
上述S4步骤中所述表征词向量相似度矩阵的相似度计算方法为cosine距离;所述Top-k个关键词的Shingles向量为关键词列表的bit-vector映射;所述关键词相似度矩阵为关键词列表的bit-vector拼接成的矩阵;所述命名实体识别预测词的Shingles向量为命名实体识别预测词列表的bit-vector映射;所述命名实体识别预测词相似度矩阵为命名实体识别预测词列表的bit-vector拼接成的矩阵;所述bit-vector向量采用局部敏感哈希算法中的Shingling方法。
上述S5步骤中所述自定义条件筛选为保留相似度大于等于某一阈值的文档对,剔除相似度小于某一阈值的文档对;所述文档的相似度图为将文档视为节点,文档对的相似度视为节点对的权重值边,由这些节点与边构成相似度图。
上述S6步骤中所述初始化社区结果为社区检测算法Louvain中第一阶段中止的结果。
上述S7步骤中所述自定义增量聚类算法为基于社区检测的增量聚类算法;所述增量式聚类为在初始化社区结果上将依次到达的数据流,依据当前文档的特征与已有社区的相似性匹配度大小,直接分配到最匹配的社区或者创建一个新的社区,最终所有的社区被视为不同的类,从而实现增量式的聚类,其中自定义增量聚类算法主要步骤如下:
a、用Louvain算法对相似度图做初始化社区检测,在Louvain算法的第一阶段终止,得到初始化社区结果。
b、对初始化社区结果做分析,计算每个社区的一阶特征向量
Figure BDA0002282582370000051
Figure BDA0002282582370000052
二阶向量特征
Figure BDA0002282582370000053
以及权重
Figure BDA0002282582370000054
其中:xi为每个社区中文档的fasttext向量;ti为每篇文档的时间戳timestamp;f(t)=2-λt为窗口衰减函数。
c、将满足w≥βμ,0<β≤1且r≤∈的社区簇定义为PMC(Potential-MicroCluster);将满足w<βμ,0<β≤1且r>∈的社区簇定义为OMC(Outlier-Micro Cluster);将满足w≥βμ,r>∈或w<βμ,r≤∈的社区簇定义为IMC(Inactive-Micro Cluster);
d、对于增量式到达的数据p,使用LSH(Local Sensitive Hash)在PMC簇中寻找最相似的社区簇,如果该社区簇加入p后新的半径r小于预设阈值∈,将点p加入该社区簇;否则在OMC簇中寻找最相似的社区簇,如果该社区簇加入p后新的权重w大于等于预设阈值βμ,则将点p加入该社区簇;否则创建一个新的OMC并加入p点。
e、待所有新到达的增量数据按d步骤处理完后,遍历所有在窗口衰减函数的作用下新的PMC簇,如果w<βμ或者r>∈,使用LSH在IMC簇中寻找最相似的社区簇,若找到,则将该PMC加入IMC簇;若未找到,则创建一个新的IMC来保存PMC中的数据点。
f、待e步骤中所有的PMC簇遍历完成后,当聚类请求到达时,遍历所有的IMC簇,如果该IMC的权重大于等于预设阈值βμ,保留该IMC;否则,删除该IMC。
g、待f步骤处理完成后,计算所有PMC簇与IMC簇的模块度
Figure BDA0002282582370000061
Figure BDA0002282582370000062
其中:m表示权重总和;wi表示第i个community的边权重;Ci代表第i个community。
如果模块度降低则按模块度增益
Figure BDA0002282582370000063
Figure BDA0002282582370000064
最大的方式划分簇,输出划分后的所有簇作为聚类结果。
本发明与现有技术相比具有在同等硬件条件下降低计算时间开销,从而能够更加快速的生成聚类结果,以便更好地服务于应用场景的上下游业务,做到及时响应,实现了区分热点事件与持续报道事件的功能,从而对新闻事件做了有效的聚类与事件级别的过滤。
附图说明
图1为本发明流程图;
图2为聚类簇生成过程示意图。
具体实施方式
本发明采用词向量技术对全量中文金融文本语料进行词向量训练得到文档表征词向量,然后使用布隆过滤器对中文金融文本语料进行筛选得到目标金融语料,对目标金融语料使用TF-IDF技术得到文档的表征关键词,同时对目标金融语料使用命名实体识别技术得到文档的命名实体识别预测词,由文档表征词向量、文档的表征关键词与文档的命名实体识别预测词共同经相似度计算方法得到目标语料的相似度图,最后对相似度图先使用Louvain算法得到初始化社区结果,并在初始化社区结果的基础上使用增量聚类算法得到最终的聚类结果。
通过以下具体实施例对本发明作进一步的详细说明。
实施例1
参阅附图1,按下述步骤进行基于社区检测的增量聚类算法:
S1:对全量的中文金融文本语料进行词向量预训练,生成词向量模型。所述全量中文金融文本语料由对各大金融门户网站的定时爬虫爬取构成;所述词向量模型由全量中文金融文本语料预训练而成,其训练方式为fasttext。
S2:对全量的中文金融文本语料使用布隆过滤器技术,进行文本去重筛选,并经过文本预处理后得到目标金融语料。所述文本去重使用的技术采用BloomFilter,所述文本预处理包括去掉停用词与thualc分词。
S3:对目标金融语料使用TF-IDF技术得到每篇语料文档的Top-k个关键词并构建关键词列表,对目标金融语料使用命名实体识别技术得到每篇语料文档的命名实体识别预测词并构建命名实体识别预测词列表,同时对目标金融语料使用基于步骤S1预训练的词向量模型生成文档的表征词向量。所述Top-k个关键词由每篇文档经TF-IDF技术对文档分词结果所选取出词频-逆文档频率最高的k个词构成;所述关键词列表为所有文档的关键词的set集合;所述命名实体识别技术为Bi-LSTM+CRF;命名实体识别预测词为对文档中上市公司(ORG-A)、非上市公司(ORG-O)、人名(PER)、地点(LOC)、时间(TIME)、金钱(MONEY)或产品(PROD)等词的预测;所述命名实体识别预测词列表为所有文档的命名实体识别预测词的set集合;所述词向量采用的表征方法为fasttext。
S4:对文档的表征词向量计算相似度得到目标语料的表征词向量相似度矩阵,分别对文档的Top-k个关键词与文档的命名实体识别预测词使用局部敏感哈希技术得到对应的Shingles向量并分别计算相似度得到关键词相似度矩阵与命名实体识别预测词相似度矩阵。所述表征词向量相似度矩阵的相似度计算方法为cosine距离;Top-k个关键词的Shingles向量为关键词列表的bit-vector映射;所述关键词相似度矩阵为关键词列表的bit-vector拼接成的矩阵;所述命名实体识别预测词的Shingles向量为命名实体识别预测词列表的bit-vector映射;所述命名实体识别预测词相似度矩阵为命名实体识别预测词列表的bit-vector拼接成的矩阵;所述bit-vector向量采用局部敏感哈希算法中的Shingling方法。
S5:对基于步骤S4得到的三个相似度矩阵进行加权拼接,并根据自定义条件筛选,最终得到所有文档的相似度图表示。所述自定义条件筛选为保留相似度大于等于某一阈值的文档对,剔除相似度小于某一阈值的文档对;所述文档的相似度图为将文档视为节点,文档对的相似度视为节点对的权重值边,由这些节点与边构成相似度图。
S6:参阅附图2,基于步骤S5得到的相似度图,使用Louvain算法得到类1~类5的初始化社区结果,该初始化社区结果为社区检测算法Louvain中第一阶段中止的结果。
S7:基于步骤S6得到的初始化社区结果,使用自定义增量聚类算法进行增量式聚类,所述自定义增量聚类算法为基于社区检测的增量聚类算法,增量式聚类为在初始化社区结果上将依次到达的数据流,依据当前文档的特征与已有社区的相似性匹配度大小,直接分配到最匹配的社区或者创建一个新的社区,最终所有的社区被视为不同的类,从而实现增量式的聚类,其中自定义增量聚类算法主要步骤如下:
a、用Louvain算法对相似度图做初始化社区检测,在Louvain算法的第一阶段终止,得到初始化社区结果;
b、对初始化社区结果做分析,计算每个社区的一阶特征向量
Figure BDA0002282582370000091
Figure BDA0002282582370000092
二阶向量特征
Figure BDA0002282582370000093
以及权重
Figure BDA0002282582370000094
其中:xi为每个社区中文档的fasttext向量;ti为每篇文档的时间戳timestamp;f(t)=2-λt为窗口衰减函数;
c、将满足w≥βμ,0<β≤1且r≤∈的社区簇定义为PMC(Potential-MicroCluster);将满足w<βμ,0<β≤1且r>∈的社区簇定义为OMC(Outlier-Micro Cluster);将满足w≥βμ,r>∈或w<βμ,r≤∈的社区簇定义为IMC(Inactive-Micro Cluster);
d、对于增量式到达的数据p,使用LSH(Local Sensitive Hash)在PMC簇中寻找最相似的社区簇,如果该社区簇加入p后新的半径r小于预设阈值∈,将点p加入该社区簇;否则在OMC簇中寻找最相似的社区簇,如果该社区簇加入p后新的权重w大于等于预设阈值βμ,则将点p加入该社区簇;否则创建一个新的OMC,加入点p;
e、待所有新到达的增量数据按d步骤处理完后,遍历所有在窗口衰减函数的作用下新的PMC簇,如果w<βμ或者r>∈,使用LSH在IMC簇中寻找最相似的社区簇,若找到,则将该PMC加入IMC簇;若未找到,则创建一个新的IMC来保存PMC中的数据点;
f、待e步骤中所有的PMC簇遍历完成后,当聚类请求到达时,遍历所有的IMC簇,如果该IMC的权重大于等于预设阈值βμ,保留该IMC;否则,删除该IMC;
g、待f步骤处理完成后,计算所有PMC簇与IMC簇的模块度
Figure BDA0002282582370000101
Figure BDA0002282582370000102
其中:m表示权重总和;wi表示第i个community的边权重;Ci代表第i个community;
如果模块度降低则按模块度增益
Figure BDA0002282582370000103
Figure BDA0002282582370000104
最大的方式划分簇,输出划分后的所有簇作为最佳划分聚类结果。
综上所述,本发明采用Community概念、Online-Offline两阶段框架、fasttext技术、LSH技术、BloomFilter技术和thulac分词等技术手段,提出了一种基于社区检测的增量聚类算法的框架,实现了文本的增量式聚类,可以在同等硬件条件下降低计算时间开销,从而能够更加快速的生成聚类结果,以便更好地服务于应用场景的上下游业务,做到及时响应,实现了区分热点事件与持续报道事件的功能,从而对新闻事件做了有效的聚类与事件级别的过滤。
以上仅是本发明的优选实施方式,本发明的保护范围并不局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进,应视为本发明的保护范围。

Claims (9)

1.一种基于社区检测的增量聚类方法,其特征在于该方法包括以下步骤:
S1:对全量中文金融文本语料进行词向量预训练,生成词向量模型;
S2:采用布隆过滤器技术对全量的中文金融文本语料进行文本去重筛选,经文本预处理后得到目标金融语料;
S3:对目标金融语料使用TF-IDF技术得到每篇语料文档的Top-k个关键词并构建关键词列表;对目标金融语料使用命名实体识别技术得到每篇语料文档的命名实体识别预测词并构建命名实体识别预测词列表;对目标金融语料使用基于步骤S1预训练的词向量模型生成文档的表征词向量;
S4:对文档的表征词向量进行相似度计算,得到目标语料的表征词向量相似度矩阵;对文档的Top-k个关键词和命名实体识别预测词使用局部敏感哈希技术,得到对应的Shingles向量并进行相似度计算,分别得到关键词相似度矩阵和命名实体识别预测词相似度矩阵;
S5:将目标语料的表征词向量相似度矩阵、关键词相似度矩阵和命名实体识别预测词相似度矩阵进行加权拼接,并根据自定义条件筛选,得到所有文档的相似度图;
S6:对所有文档的相似度图,使用Louvain算法得到初始化社区结果;
S7:对初始化社区结果,使用自定义增量聚类算法得到最终的聚类结果;
所述自定义增量聚类算法的步骤如下:
a、用Louvain算法对相似度图做初始化社区检测,在Louvain算法的第一阶段终止,得到初始化社区结果;
b、对初始化社区结果做分析,计算每个社区的一阶特征向量
Figure FDA0004157973890000011
Figure FDA0004157973890000012
二阶向量特征
Figure FDA0004157973890000013
以及权重
Figure FDA0004157973890000014
其中:x为每个社区中文档的fasttext向量;t为每篇文档的时间戳timestamp;f(t)=2-λt为窗口衰减函数;
c、将满足w≥βμ,0<β≤1且r≤∈的社区簇定义为PMC(Potential-Micro Cluster);将满足w<βμ,0<β≤1且r>的社区簇定义为OMC(Outlier-Micro Cluster);将满足w≥βμ,r>或w<βμ,r≤∈的社区簇定义为IMC(Inactive-Micro Cluster);
d、对于增量式到达的数据p,使用LSH(Local Sensitive Hash)在PMC簇中寻找最相似的社区簇,如果该社区簇加入p后新的半径r小于预设阈值∈,将点p加入该社区簇;否则在OMC簇中寻找最相似的社区簇,如果该社区簇加入p后新的权重w大于等于预设阈值βμ,则将点p加入该社区簇;否则创建一个新的OMC,加入点p;
e、待所有新到达的增量数据按d步骤处理后,遍历所有在窗口衰减函数的作用下新的PMC簇,如果w<βμ或者r>∈,使用LSH在IMC簇中寻找最相似的社区簇,若找到,则将该PMC加入IMC簇;若未找到,则创建一个新的IMC来保存PMC中的数据点;
f、待e步骤中所有的PMC簇遍历后,当聚类请求到达时,遍历所有的IMC簇,如果该IMC的权重大于等于预设阈值βμ,保留该IMC;否则,删除该IMC;
g、待f步骤处理后,计算所有PMC簇与IMC簇的模块度
Figure FDA0004157973890000021
Figure FDA0004157973890000022
其中:m表示权重总和;w表示第i个community的边权重;C代表第i个community;
如果模块度降低则按模块度增益
Figure FDA0004157973890000031
Figure FDA0004157973890000032
最大的方式划分簇,输出划分后的所有簇作为聚类结果。
2.根据权利要求1所述基于社区检测的增量聚类方法,其特征在于S1步骤中所述全量的中文金融文本语料由各大金融门户网站的定时爬虫爬取构成;所述词向量模型由全量中文金融文本语料预训练而成,其训练方式为fasttext。
3.根据权利要求1所述基于社区检测的增量聚类方法,其特征在于S2步骤中所述文本去重筛选采用BloomFilter;所述文本预处理包括去掉停用词和thualc分词。
4.根据权利要求1所述基于社区检测的增量聚类方法,其特征在于S3步骤中所述Top-k个关键词由每篇文档经TF-IDF技术对文档分词结果所选取出词频-逆文档频率最高的k个词构成;所述关键词列表为所有文档的关键词的set集合;所述命名实体识别技术为Bi-LSTM+CRF;所述命名实体识别预测词为对文档中的上市公司、非上市公司、人名、地点、时间、金钱和产品的预测;所述命名实体识别预测词列表为所有文档的命名实体识别预测词的set集合;所述表征词向量采用fasttext方法对词向量进行的表征。
5.根据权利要求1所述基于社区检测的增量聚类方法,其特征在于S4步骤中所述表征词向量相似度矩阵采用cosine距离的相似度计算方法;所述Top-k个关键词的Shingles向量为关键词列表的bit-vector向量映射;所述关键词相似度矩阵为关键词列表的bit-vector向量拼接成的矩阵;所述命名实体识别预测词的Shingles向量为命名实体识别预测词列表的bit-vector向量映射;所述命名实体识别预测词相似度矩阵为命名实体识别预测词列表的bit-vector向量拼接成的矩阵。
6.根据权利要求1所述基于社区检测的增量聚类方法,其特征在于S5步骤中所述自定义条件筛选为保留相似度大于等于某一阈值的文档对,剔除相似度小于某一阈值的文档对;所述文档的相似度图为将文档视为节点,文档对的相似度视为节点对的权重值边,并由这些节点与边构成相似度图。
7.根据权利要求1所述基于社区检测的增量聚类方法,其特征在于S6步骤中所述初始化社区结果为社区检测算法Louvain中第一阶段中止的结果。
8.根据权利要求1所述基于社区检测的增量聚类方法,其特征在于S7步骤中所述自定义增量聚类算法为基于社区检测的增量式聚类;所述增量式聚类为在初始化社区结果上将依次到达的数据流,依据当前文档的特征与已有社区的相似性匹配度大小,直接分配到最匹配的社区或者创建一个新的社区,最终所有的社区被视为不同的类,从而实现增量式的聚类。
9.根据权利要求5所述基于社区检测的增量聚类方法,其特征在于所述bit-vector向量采用局部敏感哈希算法中的Shingling方法。
CN201911147405.7A 2019-11-21 2019-11-21 一种基于社区检测的增量聚类算法 Active CN110990566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911147405.7A CN110990566B (zh) 2019-11-21 2019-11-21 一种基于社区检测的增量聚类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911147405.7A CN110990566B (zh) 2019-11-21 2019-11-21 一种基于社区检测的增量聚类算法

Publications (2)

Publication Number Publication Date
CN110990566A CN110990566A (zh) 2020-04-10
CN110990566B true CN110990566B (zh) 2023-05-12

Family

ID=70085513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911147405.7A Active CN110990566B (zh) 2019-11-21 2019-11-21 一种基于社区检测的增量聚类算法

Country Status (1)

Country Link
CN (1) CN110990566B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708879A (zh) * 2020-05-11 2020-09-25 北京明略软件系统有限公司 针对事件的文本聚合方法、装置及计算机可读存储介质
CN112650852A (zh) * 2021-01-06 2021-04-13 广东泰迪智能科技股份有限公司 一种基于命名实体和ap聚类的事件归并方法
CN113076742A (zh) * 2021-04-27 2021-07-06 东南大学 一种基于电网监控领域本体特征词表的实体消歧方法
CN116881463B (zh) * 2023-09-05 2024-01-26 南京艺术学院 基于数据的艺术多模态语料库构建系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067612A (zh) * 2018-07-13 2018-12-21 哈尔滨工程大学 一种基于增量聚类算法的在线流量识别方法
CN110110736A (zh) * 2018-04-18 2019-08-09 爱动超越人工智能科技(北京)有限责任公司 增量聚类方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10824660B2 (en) * 2015-11-24 2020-11-03 Adobe Inc. Segmenting topical discussion themes from user-generated posts

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110736A (zh) * 2018-04-18 2019-08-09 爱动超越人工智能科技(北京)有限责任公司 增量聚类方法和装置
CN109067612A (zh) * 2018-07-13 2018-12-21 哈尔滨工程大学 一种基于增量聚类算法的在线流量识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张新猛 ; 蒋盛益 ; .基于核心图增量聚类的复杂网络划分算法.自动化学报.2013,(07),187-195. *

Also Published As

Publication number Publication date
CN110990566A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110990566B (zh) 一种基于社区检测的增量聚类算法
PhridviRaj et al. Data mining–past, present and future–a typical survey on data streams
Kiani et al. Analysis and prediction of crimes by clustering and classification
CN105955951B (zh) 一种消息过滤的方法及装置
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN111694958A (zh) 基于词向量与single-pass融合的微博话题聚类方法
CN109657058A (zh) 一种公告信息的抽取方法
Agarwal et al. Comparison of machine learning approaches in the prediction of terrorist attacks
WO2022037446A1 (zh) 头版新闻预测分类方法
Bifet et al. Ubiquitous artificial intelligence and dynamic data streams
Čavojský et al. Comparative Analysis of Feed-Forward and RNN Models for Intrusion Detection in Data Network Security with UNSW-NB15 Dataset
Zhang et al. A hot spot clustering method based on improved kmeans algorithm
Al-Khamees et al. Survey: Clustering techniques of data stream
Wang et al. Hierarchical multimodal fusion network with dynamic multi-task learning
CN110750963B (zh) 一种新闻文档去重的方法、装置及存储介质
Sun et al. An improved frequent pattern growth based approach to intrusion detection system alert aggregation
Jiang et al. EPF: a general framework for supporting continuous top-k queries over streaming data
Wang et al. Study on an extreme classification of cost-Sensitive classification algorithm
CN114070621B (zh) 面向网络数据流分类的在线稀疏学习方法及系统
Agrawal et al. A comprehensive survey on aspect based word embedding models and sentiment analysis classification approaches
CN116976339B (zh) 一种针对高速公路的特情分析方法、设备及介质
CN104281573B (zh) Xml文件分类方法及系统
Zhang et al. Semi-random forest based on representative patterns for noisy and non-stationary data stream
Jayasree et al. Enhanced Video Classification System with Convolutional Neural Networks Using Representative Frames as Input Data
CN112612873A (zh) 一种基于nlp技术的集中性事件挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant