CN111538839A - 一种基于杰卡德距离的实时文本聚类方法 - Google Patents
一种基于杰卡德距离的实时文本聚类方法 Download PDFInfo
- Publication number
- CN111538839A CN111538839A CN202010451072.3A CN202010451072A CN111538839A CN 111538839 A CN111538839 A CN 111538839A CN 202010451072 A CN202010451072 A CN 202010451072A CN 111538839 A CN111538839 A CN 111538839A
- Authority
- CN
- China
- Prior art keywords
- data
- distance
- text
- class
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000009499 grossing Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000010223 real-time analysis Methods 0.000 abstract 1
- 230000003203 everyday effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于杰卡德距离的实时文本聚类方法,具体包括以下步骤:S1:文本相似度计算:从待聚类数据中选取两个文本,分别从两个文本中抽取关键词,再计算不同文本对应关键词之间的交集、并集,进一步得到杰卡德距离;S2:设定层次聚类阈值;S3:构建聚类模型,依次读取新加载数据,计算每条数据和每个类之间的平均距离,并与阈值比较,确定是否聚到该类还是单独划分一类,不断迭代更新;S4:将S3的聚类结果以更新聚类标识的形式写入Hbase和ES数据库,ES数据库中具有相同聚类标识的数据被聚为一类。本申请的文本聚类方法可以实现海量文本数据的实时分析,类似文本聚类,有效去重,提升用户体验,同时还能改善文本分类结果。
Description
技术领域
本发明涉及自然语言处理与大数据技术领域,特别是涉及一种基于杰卡德距离的实时文本聚类方法。
背景技术
在现今信息爆炸的社会,每日都有海量的数据信息出现,对于每一个话题都会在不同的平台或者被多人同时提及,因此人类在读取信息的同时会遇到很多重复或者类似的数据,这对于我们进行高效的获取数据信息是一个很大的障碍,会浪费很多时间。因此,针对海量网络文本数据利用文本聚类方法进行去重处理,将相近的数据整合到一起,形成一类,可以进行分类阅读处理,从而极大的提高了工作效率,节约了时间。
目前主要基于词袋模型、TF-IDF、以及WORD2VEC等表达方式计算的文本相似度距离作为文本聚类分析的基础。但是在海量文本数据实时聚类的时候存在准确性不高、处理速度较慢等问题。
发明内容
为了克服现有技术的上述不足,本发明提出了一种基于杰卡德距离的实时文本聚类方法,解决现有海量文本数据实时聚类准确性不高、处理速度慢的技术问题。
本发明是通过以下技术方案实现的:
一种基于杰卡德距离的实时文本聚类方法,具体包括以下步骤:
S1:文本相似度计算:从待聚类数据中选取文本a和文本b,计算文本a、文本b的杰卡德距离;分别从文本a和文本b中抽取关键词Sa和Sb,关键词数量视数据长短而定,再计算两个文本对应关键词的杰卡德距离即为两个文本之间的距离;
S2:根据经验验证再结合文本相似度,设定层次聚类阈值;
S3:层次聚类:构建聚类模型,依次读取新加载数据,计算每条数据和每个类之间的平均距离,并与阈值比较,确定是否聚到该类还是单独划分一类,不断迭代更新;
S4:将S3的聚类结果以更新聚类标识的形式写入Hbase和ES数据库,ES数据库中具有相同聚类标识的数据被聚为一类。
进一步的,S3中聚类模型的具体构建步骤包括:抽取待聚类账号下面的24小时的数据内容,将初始时每条文本数据视为单独的类,计算每两个类之间的杰卡德距离,距离小于设定阈值的聚为一类,迭代计算直至类的个数不再变化,将聚类结果作为聚类模型。
进一步的,S3中每条数据和每个类之间的平均距离=每条数据和每个类中的数据距离÷类里面的数据总数,若某条数据到某一类的平均距离最小且小于阈值,就将这一条数据聚到该类;若某条数据到所有类的平均距离均大于阈值,则单独划分一类。
进一步的,S3在不断迭代更新聚类的过程中,聚类个数不大于500,每个类最少包含20条数据,最多存放1200条数据;当聚类个数或者类里面的数据条数超过限制,选取长时间没有更新的类,删除这个类或者类里面的数据。
进一步的,待聚类数据包括新闻数据、微信公众号数据、微博数据以及贴吧数据;抽取的关键词数量为35。
进一步的,S2中设定的层次聚类阈值为0.88。
与现有技术相比,本发明的有益效果在于:
本发明提出的一种基于杰卡德距离的实时文本聚类方法,针对每日爬取的来自于新闻、微博、微信、论坛等不同数据源,约1500万条海量文本数据进行实时分析、聚类处理,类似的文本被聚类在一起,有效的达到了去重目的,使得大数据分析产品的运营效率和用户体验得到有效提升,用户迅速准确定位到所需要的信息;另外还可以用来改善文本分类的结果。
说明书附图
图1为本发明实施例所述一种基于杰卡德距离的实时文本聚类方法的流程图。
具体实施方式
展示一下实例来具体说明本发明的某些实施例,且不应解释为限制本发明的范围。对本发明公开的内容可以同时从材料、方法和反应条件进行改进,所有这些改进,均应落入本发明的精神和范围之内。
如图1所示,一种基于杰卡德距离的实时文本聚类方法,具体包括以下步骤:
S1:文本相似度计算:从待聚类数据(新闻数据、微信公众号数据、微博数据以及贴吧数据)中选取文本a和文本b,计算文本a、文本b的杰卡德距离;分别从文本a和文本b中抽取关键词Sa和Sb,关键词数量为35,再计算两个文本对应关键词之间的交集|A|=Sa∩Sb,并集|B|=Sa∪Sb,其杰卡德距离(0.01为平滑系数),即为两个文本之间的距离;
S2:根据经验验证,在文本相似度大于0.88时,聚成一类的可能性较大,设定层次聚类阈值为0.88;
S3:层次聚类:
S31:构建聚类模型:抽取待聚类账号下面的24小时的数据内容,将初始时每条文本数据视为单独的类,计算每两个类之间的杰卡德距离,距离小于设定阈值的聚为一类,迭代计算直至类的个数不再变化,将聚类结果作为聚类模型;
S32:依次读取新加载数据,计算每条数据和每个类之间的平均距离(每条数据和每个类之间的平均距离=每条数据和每个类中的数据距离÷类里面的数据总数),并与阈值比较,若某条数据到某一类的平均距离最小且小于阈值,就将这一条数据聚到该类;若某条数据到所有类的平均距离均大于阈值,则单独划分一类,不断迭代更新,在不断迭代更新聚类的过程中,聚类个数不大于500,每个类最少包含20条数据,最多存放1200条数据;当聚类个数或者类里面的数据条数超过限制,选取长时间没有更新的类,删除这个类或者类里面的数据(聚类时所有的聚类结果都是直接在内存里面运行,为了保障程序的顺畅运行删除一些不经常使用的类或者数据可以有效的减轻计算服务器的压力);
S4:将S3的聚类结果以更新聚类标识的形式写入Hbase和ES数据库,相同聚类标识的数据被聚为一类,用户通过查询ES数据库里面的聚类标识,可快速定位到所需要的信息。
综上,本申请的文本聚类方法,通过基于关键词的杰卡德距离计算文本相似度,然后根据经验设定阈值采用层次聚类的方式进行聚类,及最后的聚类标识,不仅实现了对海量文档数据的聚类去重,使用户准确快速的获取想要的数据信息,而且还改善了文本分类的结果。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于杰卡德距离的实时文本聚类方法,其特征在于,具体包括以下步骤:
S1:文本相似度计算:从待聚类数据中选取文本a和文本b,计算文本a、文本b的杰卡德距离;分别从文本a和文本b中抽取关键词Sa和Sb,再计算两个文本对应关键词的杰卡德距离即为两个文本之间的距离;
S2:根据经验验证再结合文本相似度,设定层次聚类阈值;
S3:层次聚类:构建聚类模型,依次读取新加载数据,计算每条数据和每个类之间的平均距离,并与阈值比较,确定是否聚到该类还是单独划分一类,不断迭代更新;
S4:将S3的聚类结果以更新聚类标识的形式写入Hbase和ES数据库,ES数据库中具有相同聚类标识的数据被聚为一类。
3.根据权利要求1所述的一种基于杰卡德距离的实时文本聚类方法,其特征在于,S3中聚类模型的具体构建步骤包括:抽取待聚类账号下面的24小时的数据内容,将初始时每条文本数据视为单独的类,计算每两个类之间的杰卡德距离,距离小于设定阈值的聚为一类,迭代计算直至类的个数不再变化,将聚类结果作为聚类模型。
4.根据权利要求3所述的一种基于杰卡德距离的实时文本聚类方法,其特征在于,S3中每条数据和每个类之间的平均距离=每条数据和每个类中的数据距离÷类里面的数据总数,若某条数据到某一类的平均距离最小且小于阈值,就将这一条数据聚到该类;若某条数据到所有类的平均距离均大于阈值,则单独划分一类。
5.根据权利要求1所述的一种基于杰卡德距离的实时文本聚类方法,其特征在于,S3在不断迭代更新聚类的过程中,聚类个数不大于500,每个类最少包含20条数据,最多存放1200条数据;当聚类个数或者类里面的数据条数超过限制,选取长时间没有更新的类,删除这个类或者类里面的数据。
6.根据权利要求1-5任意一项所述的一种基于杰卡德距离的实时文本聚类方法,其特征在于,待聚类数据包括新闻数据、微信公众号数据、微博数据以及贴吧数据;抽取的关键词数量为35。
7.根据权利要求6所述的一种基于杰卡德距离的实时文本聚类方法,其特征在于,S2中设定的层次聚类阈值为0.88。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010451072.3A CN111538839A (zh) | 2020-05-25 | 2020-05-25 | 一种基于杰卡德距离的实时文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010451072.3A CN111538839A (zh) | 2020-05-25 | 2020-05-25 | 一种基于杰卡德距离的实时文本聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111538839A true CN111538839A (zh) | 2020-08-14 |
Family
ID=71978091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010451072.3A Pending CN111538839A (zh) | 2020-05-25 | 2020-05-25 | 一种基于杰卡德距离的实时文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538839A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417893A (zh) * | 2020-12-16 | 2021-02-26 | 江苏徐工工程机械研究院有限公司 | 一种基于语义层次聚类的软件功能需求分类方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682128A (zh) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | 多领域词典自动构建方法 |
CN107145568A (zh) * | 2017-05-04 | 2017-09-08 | 成都华栖云科技有限公司 | 一种快速的新闻事件聚类系统及方法 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN109145605A (zh) * | 2018-08-23 | 2019-01-04 | 北京理工大学 | 一种基于SinglePass算法的Android恶意软件家族聚类方法 |
CN110134787A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种新闻话题检测方法 |
-
2020
- 2020-05-25 CN CN202010451072.3A patent/CN111538839A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682128A (zh) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | 多领域词典自动构建方法 |
CN107145568A (zh) * | 2017-05-04 | 2017-09-08 | 成都华栖云科技有限公司 | 一种快速的新闻事件聚类系统及方法 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN109145605A (zh) * | 2018-08-23 | 2019-01-04 | 北京理工大学 | 一种基于SinglePass算法的Android恶意软件家族聚类方法 |
CN110134787A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种新闻话题检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417893A (zh) * | 2020-12-16 | 2021-02-26 | 江苏徐工工程机械研究院有限公司 | 一种基于语义层次聚类的软件功能需求分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN107862070B (zh) | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 | |
US7797265B2 (en) | Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN111832289B (zh) | 一种基于聚类和高斯lda的服务发现方法 | |
WO2021051517A1 (zh) | 基于卷积神经网络的信息检索方法、及其相关设备 | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN108932311B (zh) | 突发事件检测与预测的方法 | |
Hariharakrishnan et al. | Survey of pre-processing techniques for mining big data | |
CN108197144B (zh) | 一种基于BTM和Single-pass的热点话题发现方法 | |
CN110457672A (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN112527948B (zh) | 基于句子级索引的数据实时去重方法及系统 | |
WO2023065642A1 (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN109871379B (zh) | 一种基于数据块学习的在线哈希最近邻查询方法 | |
CN106557777A (zh) | 一种基于SimHash改进的Kmeans聚类方法 | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Negara et al. | Topic modeling using latent dirichlet allocation (LDA) on twitter data with Indonesia keyword | |
CN108334573B (zh) | 基于聚类信息的高相关微博检索方法 | |
US9547701B2 (en) | Method of discovering and exploring feature knowledge | |
CN111538839A (zh) | 一种基于杰卡德距离的实时文本聚类方法 | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
Kamruzzaman et al. | Text classification using association rule with a hybrid concept of naive Bayes classifier and genetic algorithm | |
US20160085760A1 (en) | Method for in-loop human validation of disambiguated features | |
CN112287102A (zh) | 数据挖掘方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |