CN113704465B - 文本聚类方法及装置、电子设备、存储介质 - Google Patents
文本聚类方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN113704465B CN113704465B CN202110823737.3A CN202110823737A CN113704465B CN 113704465 B CN113704465 B CN 113704465B CN 202110823737 A CN202110823737 A CN 202110823737A CN 113704465 B CN113704465 B CN 113704465B
- Authority
- CN
- China
- Prior art keywords
- text
- hash
- corpus
- feature vector
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 103
- 230000011218 segmentation Effects 0.000 claims description 28
- 238000012216 screening Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 11
- 241000220317 Rosa Species 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 235000013616 tea Nutrition 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本聚类方法及装置、电子设备、存储介质,该方法包括:为语料库中的各文本生成对应的哈希签名;基于所述哈希签名查找所述语料库中的多组相似文本对;构建所述多组相似文本对之间的关联关系,其中,所述关联关系中任意相连的两个文本为一组相似文本对;利用所述关联关系和各所述文本对应的文本标识码对所述语料库中的文本进行聚类,得到所述语料库对应的一个或多个类别簇。通过本发明,解决了传统的文本聚类方法存在计算复杂、效率低等技术问题。
Description
技术领域
本发明涉及大数据领域,具体而言,涉及一种文本聚类方法及装置、电子设备、存储介质。
背景技术
在互联网络上信息量剧增的今天,出现越来越多的大规模的集群计算资源,其中,文本数据作为互联网数据中重要的载体之一,其上承载的信息也是极为丰富,而如何从大规模的集群计算资源中提取出最有价值的文本也成为了当今社会的一个重点问题。常用的操作方式有文本聚类,通过搜索引擎去掉这些文本中相似度高的重复文本,提取并展现一个多样性的文本;另外,文本聚类在诸如垃圾邮件检测和推荐系统等场景下也有广泛的应用。
然而,在大规模的集群计算资源应用中,传统的文本聚类算法因受限于相似度的比较,导致该过程大大增加了集群的计算复杂度,并且在集群电脑上也无法做到很好的并行运算效果,降低了集群处理效率。
针对上述相关技术中存在的技术问题,目前没有提出有效的解决方案。
发明内容
鉴于上述问题,本发明提出了一种文本聚类方法及装置、电子设备、存储介质,以至少解决传统的文本聚类方法存在计算复杂、效率低等技术问题。
第一方面,本发明提供了一种文本聚类方法,包括:为语料库中的各文本生成对应的哈希签名;基于所述哈希签名查找所述语料库中的多组相似文本对;构建所述多组相似文本对之间的关联关系,其中,所述关联关系中任意相连的两个文本为一组相似文本对;利用所述关联关系和各所述文本对应的文本标识码对所述语料库中的文本进行聚类,得到所述语料库对应的一个或多个类别簇。
可选的,所述为语料库中的各文本生成对应的哈希签名包括:选定所述语料库中的任一文本为第一文本,通过遍历预设字典树对所述第一文本进行分词,得到分词结果;其中,所述预设字典树是由与所述第一文本的场景信息关联的文本数据构建;若分词结果对应的集合的长度为N,从所述集合中依次选取连续预设值K长度的子文本,并组成所述第一文本对应的文本特征向量;其中,K为大于等于2的自然数,N为大于K的自然数,所述文本特征向量为(N-K+1)*K;为所述文本特征向量生成对应的哈希签名,作为所述第一文本对应的哈希签名。
可选的,所述为所述文本特征向量生成对应的哈希签名包括:利用M个随机哈希方程计算所述文本特征向量中各元素对应的哈希值,并组成第一哈希特征向量;其中,M为大于1的自然数,所述第一哈希特征向量为(N-K+1)*M;基于预设筛选条件从所述第一哈希特征向量的每一列向量中筛选出一个哈希值,得到M个哈希值,并将所述M个哈希值组成固定长度为M的第二哈希特征向量;其中,所述预设筛选条件包括以下之一:每一列向量中的最小哈希值,每一列向量中的最大哈希值,每一列向量中哈希值的中位数;利用B个随机哈希方程对所述第二哈希特征向量进行降维操作,得到所述文本特征向量对应的固定长度为B的哈希签名;其中,B为大于1且小于M的自然数。
可选的,所述基于所述哈希签名查找所述语料库中的多组相似文本对包括:将所述语料库中查找哈希签名之间存在至少H个相同哈希特征值对应的两个文本作为一组相似文本对,以得到所述语料库中的多组相似文本对,其中,H为大于或等于1的自然数。
可选的,所述构建所述多组相似文本对之间的关联关系包括:若第二文本与第三文本为一组相似文本对,且所述第三文本与第四文本为一组相似文本对,则确定所述第二文本与所述第四文本为一组相似文本对,其中,所述第二文本、所述第三文本和所述第四文本均为所述语料库中的任一不同的文本;分别在所述第二文本与所述第三文本、所述第三文本与所述第四文本之间建立连接,得到所述第二文本、所述第三文本和所述第四文本之间的关联关系。
可选的,所述利用所述关联关系和各所述文本对应的文本标识码对所述语料库中的文本进行聚类包括:步骤A,选定所述语料库对应的多个关联关系中任一关联关系为目标关联关系,且所述目标关联关系中任一文本为第五文本,将所述第五文本对应的第一文本标识码传播给相邻的第六文本;步骤B,比较所述第一文本标识码和所述第六文本对应的第二文本标识码的大小;步骤C,若所述第一文本标识码小于所述第二文本标识码,则将所述第二文本标识码替换成所述第一文本标识码;否则,对所述第六文本的第二文本标识码不做任何处理;顺序循环执行上述步骤A、步骤B及步骤C,直到对所述目标关联关系中各个文本对应的文本标识码不做任何处理,得到所述目标关联关系对应的类别簇。
可选的,在得到所述目标关联关系对应的类别簇之后,所述方法还包括:将所述目标关联关系中的文本更新后的文本标识码作为所述类别簇的类别标识码;输出所述语料库中多个类别簇对应的多个类别标识码以及各所述文本对应的文本标识码。
第二方面,本发明还提供了一种文本聚类装置,包括:生成模块,用于为语料库中的各文本生成对应的哈希签名;查找模块,用于基于所述哈希签名查找所述语料库中的多组相似文本对;构建模块,用于构建所述多组相似文本对之间的关联关系,其中,所述关联关系中任意相连的两个文本为一组相似文本对;聚类模块,用于利用所述关联关系和各所述文本对应的文本标识码对所述语料库中的文本进行聚类,得到所述语料库对应的一个或多个类别簇。
可选的,所述生成模块包括:分词单元,用于选定所述语料库中的任一文本为第一文本,通过遍历预设字典树对所述第一文本进行分词,得到分词结果;其中,所述预设字典树是由与所述第一文本的场景信息关联的文本数据构建;第一生成单元,用于若分词结果对应的集合的长度为N,从所述集合中依次选取连续预设值K长度的子文本,并组成所述第一文本对应的文本特征向量;其中,K为大于等于2的自然数,N为大于K的自然数,所述文本特征向量为(N-K+1)*K;第二生成单元,用于为所述文本特征向量生成对应的哈希签名,作为所述第一文本对应的哈希签名。
可选的,所述第二生成单元包括:计算子单元,用于利用M个随机哈希方程计算所述文本特征向量中各元素对应的哈希值,并组成第一哈希特征向量;其中,M为大于1的自然数,所述第一哈希特征向量为(N-K+1)*M;筛选子单元,用于基于预设筛选条件从所述第一哈希特征向量的每一列向量中筛选出一个哈希值,得到M个哈希值,并将所述M个哈希值组成固定长度为M的第二哈希特征向量;其中,所述预设筛选条件包括以下之一:每一列向量中的最小哈希值,每一列向量中的最大哈希值,每一列向量中哈希值的中位数;生成子单元,用于利用B个随机哈希方程对所述第二哈希特征向量进行降维操作,得到所述文本特征向量对应的固定长度为B的哈希签名;其中,B为大于1且小于M的自然数。
可选的,所述查找模块包括:查找单元,用于将所述语料库中查找哈希签名之间存在至少H个相同哈希特征值对应的两个文本作为一组相似文本对,以得到所述语料库中的多组相似文本对,其中,H为大于或等于1的自然数。
可选的,所述构建模块包括:确定单元,用于当第二文本与第三文本为一组相似文本对,且所述第三文本与第四文本为一组相似文本对时,确定所述第二文本与所述第四文本为一组相似文本对,其中,所述第二文本、所述第三文本和所述第四文本均为所述语料库中的任一不同的文本;建立单元,用于分别在所述第二文本与所述第三文本、所述三文本与所述第四文本之间建立连接,得到所述第二文本、所述第三文本和所述第四文本之间的关联关系。
可选的,所述聚类模块包括:传播单元,用于选定所述语料库对应的多个关联关系中任一关联关系为目标关联关系,且所述目标关联关系中任一文本为第五文本,将所述第五文本对应的第一文本标识码传播给相邻的第六文本;比较单元,用于比较所述第一文本标识码和所述第六文本对应的第二文本标识码的大小;替换单元,用于当所述第一文本标识码小于所述第二文本标识码时,将所述第二文本标识码替换成所述第一文本标识码;否则,对所述第六文本的第二文本标识码不做任何处理;执行单元,用于顺序循环执行所述传播单元、所述比较单元及所述替换单元对应的操作,直到对所述目标关联关系中各个文本对应的文本标识码不做任何处理,得到所述目标关联关系对应的类别簇。
可选的,所述装置还包括:确定模块,用于在得到所述目标关联关系对应的类别簇之后,将所述目标关联关系中的文本更新后的文本标识码作为所述类别簇的类别标识码;输出模块,用于输出所述语料库中多个类别簇对应的多个类别标识码以及各所述文本对应的文本标识码。
第三方面,本发明还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
第四方面,本发明还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项装置实施例中的步骤。
本发明实施例提供的文本聚类方法,利用语料库中各文本对应的哈希签名在语料库中查找相似文本,在传统局部敏感哈希算法的基础上去掉了对近似文本“入桶”及通过相似度指标来评价文本见相似性的计算,大大减小了计算成本;然后利用多组相似文本对之间的关联关系以及各文本对应的文本标识码利用元件连通图划分的思想生成语料库对应的类别簇,操作简单,高效地、准确地实现了语料库中的文本聚类,并且能够在集群电脑上达到很好的并行运算效果。通过本发明,解决了传统的文本聚类方法存在计算复杂、效率低等技术问题,进而能够利用集群的分布式计算以及分布式存储的能力对大规模的文本数据进行高效聚类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种文本聚类方法应用于计算机终端的硬件结构框图;
图2是根据本发明实施例提供的一种文本聚类方法的流程图;
图3是根据本发明实施例提供的字典树的一示例图;
图4是根据本发明一具体实施例提供的一种连通元件图的示意图;
图5a-5c是根据本发明一具体实施例提供的对连通元件图进行迭代操作的3幅示意图;
图6是根据本发明实施例提供的一种文本聚类装置的结构框图;
图7是根据本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。
为了解决相关技术存在的技术问题,在本实施例中提供了一种文本聚类方法。下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
本发明实施例所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例提供的一种文本聚类方法应用于计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的文本聚类方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器,也可以包括易失性存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
图2是根据本发明实施例提供的一种文本聚类方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,为语料库中的各文本生成对应的哈希签名;
本实施例中的语料库可以是一个文本数据库;哈希签名,即Hash签名,是最主要的数字签名方法,也称之为数字摘要法或数字指纹法,其中,数字摘要就是采用单项Hash函数将需要加密的明文“摘要”成一串固定长度(例如128位)的密文,这一串密文又称为数字指纹,它有固定的长度,而且不同的明文摘要成密文,其结果总是不同的,而同样的明文其摘要必定一致。
在本实施例中,为语料库中的每个文本生成对应的哈希签名,即为语料库中的每个文本加密成一串固定长度的密文,该固定长度的密文作为相应文本的文本特征。
步骤S204,基于哈希签名查找语料库中的多组相似文本对;
在本实施例中,两个文本的哈希签名之间若存在交集,则认为两个文本是一组相似文本对,通过这样的筛选条件,在语料库中筛选并过滤出多组相似文本对。本实施例基于Hash算法进行的改进,去掉了传统的局部敏感哈希对近似文本“入桶”及用精确的距离衡量指标来评价相似度的操作,取而代之的是根据筛选条件过滤出所有需要计算的相似文本对,大大减少了相似度的计算量。
步骤S206,构建多组相似文本对之间的关联关系,其中,关联关系中任意相连的两个文本为一组相似文本对;
优选地,关联关系可以为连通元件图,即对多组相似文本对之间建立连接,然后使用图形方式展示,直观地呈现了多组相似文本对之间的关联关系。
步骤S208,利用关联关系和各文本对应的文本标识码对语料库中的文本进行聚类,得到语料库对应的一个或多个类别簇。
在本实施例中,通过关联关系和各文本对应的文本ID(即文本标识码)对语料库中的文本进行分类,从而实现了高效聚类的操作。
本发明实施例提供的文本聚类方法,利用语料库中各文本对应的哈希签名在语料库中查找相似文本,在传统局部敏感哈希算法的基础上去掉了对近似文本“入桶”及通过相似度指标来评价文本见相似性的计算,大大减小了计算成本;然后利用多组相似文本对之间的关联关系以及各文本对应的文本标识码利用元件连通图划分的思想生成语料库对应的类别簇,操作简单,高效地、准确地实现了语料库中的文本聚类,并且能够在集群电脑上达到很好的并行运算效果。通过本发明,解决了传统的文本聚类方法存在计算复杂、效率低等技术问题,进而能够利用集群的分布式计算以及分布式存储的能力对大规模的文本数据进行高效聚类。
本发明实施例中提供了一种可能的实现方式,为语料库中的各文本生成对应的哈希签名包括:选定语料库中的任一文本为第一文本,通过遍历预设字典树对第一文本进行分词,得到分词结果;其中,预设字典树是由与第一文本的场景信息关联的文本数据构建;若分词结果对应的集合的长度为N,从集合中依次选取连续预设值K长度的子文本,并组成第一文本对应的文本特征向量;其中,K为大于等于2的自然数,N为大于K的自然数,文本特征向量为(N-K+1)*K;为文本特征向量生成对应的哈希签名,作为第一文本对应的哈希签名。在本实施例中,文本特征向量是数量为N-K+1、长度为K的子文本的集合。
在本实施例中,分词操作包括对文本进行清洗,以清洗掉文本数据中的噪声或错误信息等,比如错别字、语法错误、停用词等,是为了从文本中提取有效地文本信息,方便后续字典树的遍历,有利于提取出准确的文本特征向量。
预设字典树即自定义字典树,是为了满足在不同场景下的不同需求。比如,第一文本为新闻类的文本信息,对于新闻类文本的词语会相对正式些,需要使用标准的字典,若使用添加了新闻类词的标准词典的字典树对第一文本进行分词。再比如,第一文本为医疗领域的文本,为了更好地捕捉一些医疗专业名词和术语,使用添加了专业医疗相关的词典的字典树对第一文本进行分词,从而以得到更加准确的分词结果。
在本实施例的一个示例中,通过遍历预设字典树对第一文本进行分词包括以下操作步骤:
步骤S301,根据已有的自定义的权重词典构建前缀树;
其中,trie又称前缀树或字典树,前缀树包含的是字符串的集合,前缀树的每一条边对应一个字符,比如字母abc……,十进制0-9,二进制0和1等等;每一个终结点对应一个字符串。
步骤S302,基于事先构建的前缀树(即上述预设字典树),对第一文本构建带权重边的有向无环图;
步骤S303,利用viterbi算法(全称为Viterbi Algorithm,即维特比算法,一种动态规划算法)计算出最佳的分词路径,作为第一文本的最佳分词方式。
图3是根据本发明实施例提供的字典树的一示例图,如图3所示,黑色圈代表终结点,则图中字典树包含的字符串有:in(2),inn(3),int(4);tea(7),ten(8),to(9)。
假设第一文本为“intea”,对于“intea”的每一个字符,“i”出现在词典Trie中的根结点,添加“i”的节点到DAG(全称为Directed acyclic graph,即有向无环图)中;“n”没有出现在根节点而是在“i”的后面,则添加“n”节点到DAG中;由于“n”是终结点,则把“n”节点下的权重值(比如是1)添加到“i”和“n”连接的边上;“t”出现在了“n”后面,同时也出现在根节点后,则连通“n”和“t”,并把“t”所在的终结点4的权重值(比如是4)添加到这条边上;“e”和“a”都不在Trie树的根节点下,但是在“t”的子节点下组成了“tea”,于是把“e”、“a”和“t”连通起来,并把“a”所在的终结点7对应的权重(比如是3)添加到tea边上;于是得到两种路径:「in(1),tea(3)」以及「int(3),e(0),a(0)」;接着利用动态规划算法找到最佳的分词路径。
优选地,本实施例中的权重值可采用TF(全称为Term Frequency,即词频指数),一般取对数作为词语的权重值。
现有的Trie树分词是需要被分词的文本,然后尽量去匹配最长的词来进行分词的,通过本实施例提供的Trie树构建词典及用有向无环图进行分词,可以有效地根据语料库中文本的分布情况,用动态规划的方式查找到最合适的分词路径,会更加地精确。
进一步地,第一文本为“a rose is a rose is a rose”为例,分词后的结果对应的集合为{a,rose,is,a,rose,is,a,rose},该分词结果对应的集合长度N=8(长度是按照原文本的最小基本单位划分的);然后采用K-Shingling操作方式,设定预设值K=4,则分词结果对应的文本特征向量为{(a,rose,is,a),(rose,is,a,rose),(is,a,rose,is),(a,rose,is,a),(rose,is,a,rose)}。
可选地,为文本特征向量生成对应的哈希签名包括:利用M个随机哈希方程计算文本特征向量中各元素对应的哈希值,并组成第一哈希特征向量;其中,M为大于1的自然数,第一哈希特征向量为(N-K+1)*M;基于预设筛选条件从第一哈希特征向量的每一列向量中筛选出一个哈希值,得到M个哈希值,并将所述M个哈希值组成固定长度为M的第二哈希特征向量;其中,预设筛选条件包括以下之一:每一列向量中的最小哈希值,每一列向量中的最大哈希值,每一列向量中哈希值的中位数;利用B个随机哈希方程对第二哈希特征向量进行降维操作,得到文本特征向量对应的固定长度为B的哈希签名;其中,B为大于1且小于M的自然数。在本实施例中,第一哈希特征向量是维度为(N-K+1,M)的哈希值向量;第二哈希特征向量是固定长度为M的由哈希值组成的特征向量;另外,利用B个随机哈希方程对第二哈希特征向量进行降维操作,得到固定长度为B的哈希签名;其中,B为大于1小于M的自然数,且每一个随机哈希方程都只对M/B数量的第二哈希特征向量的连续哈希值进行再哈希操作,得到文本特征向量对应的哈希签名。
在本实施例的一个示例中,生成第一文本对应的哈希签名包括以下步骤:
步骤S401,生成一组数量固定(即上述M)的随机哈希方程,例如32个随机哈希方程;
步骤S402,将第一文本的每一个Shingle特征(即上述文本特征向量)通过该组随机哈希方程,得到一组哈希值,然后对每一个哈希方程都对应的一个固定的随机值,与刚刚得到的这个值做一个二进制位的异或操作,假如shingle特征的数量为40(即上述N-K+1),那将会得到一个40*32(即上述(N-K+1)*M)数量的哈希值(即上述第一哈希特征向量);
步骤S403,对于每一个哈希方程在第一哈希特征向量中计算出的(N-K+1)个哈希值中选择最小的那一个作为第一文本的新特征,即将40个Shingle特征转化为定长的32个哈希值特征(即上述第二哈希特征向量);
步骤S404,再对上一步得到的结果进行banding操作(即上述降维),压缩生成最终的Minhash签名(即上述哈希签名),以方便后续的比较。
在本案的一个可选的实施例中,基于哈希签名查找语料库中的多组相似文本对包括:将语料库中查找哈希签名之间存在至少H个相同哈希特征值对应的两个文本作为一组相似文本对,以得到语料库中的多组相似文本对,其中,H为大于或等于1的自然数。根据上述实施例,利用B个哈希随机方程对第二哈希特征向量进行降维,得到固定长度为B的哈希签名,则H为大于或等于1、且小于或等于B的自然数
本实施例对语料库中的所有文本都生成对应的Hash签名,然后按照一定的筛选条件找到相似的文本对。其中,设定一个筛选条件的阈值,假设该阈值为2(即上述H),文本A的签名信息是[1,2,3,4],文本B的签名信息是[5,6,3,1],则文本A和文本B的签名信息含有交集1和3,则文本A和文本B为一组相似文本对。
在本案的一个可选的实施例中,构建多组相似文本对之间的关联关系包括:若第二文本与第三文本为一组相似文本对,且第三文本与第四文本为一组相似文本对,则确定第二文本与第四文本为一组相似文本对,其中,第二文本、第三文本和第四文本均为语料库中的任一不同的文本;分别在第二文本与第三文本、第三文本与第四文本之间建立连接,得到第二文本、第三文本和第四文本之间的关联关系。
优选地,将语料库中所有的相似文本对建立连接,构建连通元件图。例如,表1,在表1中列举了10个文本,以及对应的文本ID和签名信息。
表1:
文本标识码 | 签名信息 |
1 | [11,12] |
2 | [3,2] |
3 | [2,4] |
4 | [5,5] |
5 | [7,8] |
6 | [7,9] |
7 | [6,4] |
8 | [10,3] |
9 | [10,12] |
10 | [13,9] |
假设筛选相似文本对的阈值为1,则从表1中的文本选择交集为1及以上的相似文本对,如表2所示。
表2:
文本标识码,文本标识码 |
2,3 |
3,7 |
2,8 |
8,9 |
9,1 |
5,6 |
6,10 |
接着,对表2中的相似文本对构建连通元件图(即上述关联关系),如图4所示,图4是根据本发明一具体实施例提供的一种连通元件图的示意图。
本发明实施例中提供了一种可能的实现方式,利用关联关系和各文本对应的文本标识码对语料库中的文本进行聚类包括:步骤A,选定语料库对应的多个关联关系中任一关联关系为目标关联关系,且目标关联关系中任一文本为第五文本,将第五文本对应的第一文本标识码传播给相邻的第六文本;步骤B,比较第一文本标识码和第六文本对应的第二文本标识码的大小;步骤C,若第一文本标识码小于第二文本标识码,则将第二文本标识码替换成第一文本标识码;否则,对第六文本的第二文本标识码不做任何处理;顺序循环执行上述步骤A、步骤B及步骤C,直到对目标关联关系中各个文本对应的文本标识码不做任何处理,得到目标关联关系对应的类别簇。在本实施例中,将第五文本对应的第一文本标识码传播给相邻的第六文本,直到关联关系中每一对关联关系对应的文本都将其对应的文本标识码广播给了其在关联关系中相邻的文本,为一轮迭代。
在本实施例中,采用的是在文本相似传播(比如,文本a与文本b相似,文本b与文本c相似,则文本a与文本c相似)的假定下,将所有的相似文本对进行相连,构建出连通元件图;再对连通元件图进行类别簇的划分。
具体地,包括以下步骤:
步骤A,每一个连通元件图的顶点,都向它相连的顶点广播自己的ID(即文本标识码),相连的顶点也做同样的操作。
步骤B,然后判断两个文本的文本标识码的大小。
步骤C,如果一个顶点A接收到顶点B的ID,但B的ID比A的ID要小,则打开广播并在下一轮广播该B的ID,否则就保持沉默(即不做任何处理,且关闭广播);沉默的点在下一轮如果没有接收到比自己还小ID则继续保持沉默否则唤醒。
参见图4所示的连通元件图,由于文本2接收到的ID是文本3和文本8的,3和8均大于2,则文本2沉默,同理文本5接收到文本6,则文本5沉默,文本1接收到文本9,则文本1沉默。第一轮迭代结束后,如下图5a所示,图5中的黑点表示为沉默的点。
接着进行第二轮的迭代,没有沉默的点继续传播现有的ID,原本9位置(现在传播的ID是1)接收到的ID是2于是沉默,原本是3的点(现在传播的ID是2)接收到的ID是3于是沉默,原本是6的点(现在传播5)接收到的ID是6于是沉默,得到图5b。
以此类推,经过一定次数的迭代后,图4所示的连通元件图中的顶点全部沉默,即每个顶点对应的ID都不再被广播,即迭代结束得到图5c。
优选地,在得到目标关联关系对应的类别簇之后,还包括:将目标关联关系中的文本更新后的文本标识码作为类别簇的类别标识码;输出语料库中多个类别簇对应的多个类别标识码以及各文本对应的文本标识码。
在本实施例中,每个类别簇都以该类别簇中文本标识码最小的文本ID作为整个簇的ID(即上述类别标识码);然后输出语料库中所有簇的ID以及各文本的文本ID。以上述图5c为例,最后输出文本ID为1,2,3,7,8,9相似的cluster(簇)1和文本ID为5,6,10相似的cluster2,其中,cluster1的类别标识码为1,cluster2的类别标识码为5。
通过本发明实施例达到的有益效果如下:
1)文本的特征提取,采用了Shingling的操作,保留了原本语句中词序的特征;
2)取消了传统的局部敏感哈希需要通过“入桶”来筛选出相似文本及需要对每一个相似候选文本计算出精确的距离(相似度),通过采用文本相似传播的假定,把符合条件的Minhash签名对应的文本对筛选出来,作为相似的文本对;
3)利用连通元件图去进行类别簇的划分,可以将聚类的算法进行并行化。
基于上文各个实施例提供的文本聚类方法,基于同一发明构思,在本实施例中还提供了一种文本聚类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本发明实施例提供的一种文本聚类装置的结构框图,如图6所示,该装置包括:生成模块60,用于为语料库中的各文本生成对应的哈希签名;查找模块62,连接至上述生成模块60,用于基于哈希签名查找语料库中的多组相似文本对;构建模块64,连接至上述查找模块62,用于构建多组相似文本对之间的关联关系,其中,关联关系中任意相连的两个文本为一组相似文本对;聚类模块66,连接至上述构建模块64,用于利用关联关系和各文本对应的文本标识码对语料库中的文本进行聚类,得到语料库对应的一个或多个类别簇。
可选的,生成模块60包括:分词单元,用于选定语料库中的任一文本为第一文本,通过遍历预设字典树对第一文本进行分词,得到分词结果;其中,预设字典树是由与第一文本的场景信息关联的文本数据构建;第一生成单元,用于若分词结果对应的集合的长度为N,从集合中依次选取连续预设值K长度的子文本,并组成第一文本对应的文本特征向量;其中,K为大于等于2的自然数,N为大于K的自然数,文本特征向量为(N-K+1)*K;第二生成单元,用于为文本特征向量生成对应的哈希签名,作为第一文本对应的哈希签名。
可选的,第二生成单元包括:计算子单元,用于利用M个随机哈希方程计算文本特征向量中各元素对应的哈希值,并组成第一哈希特征向量;其中,M为大于1的自然数,第一哈希特征向量为(N-K+1)*M;筛选子单元,用于基于预设筛选条件从第一哈希特征向量的每一列向量中筛选出一个哈希值,得到M个哈希值,并将所述M个哈希值组成固定长度为M的第二哈希特征向量;其中,预设筛选条件包括以下之一:每一列向量中的最小哈希值,每一列向量中的最大哈希值,每一列向量中哈希值的中位数;生成子单元,用于利用B个随机哈希方程对第二哈希特征向量进行降维操作,得到文本特征向量对应的固定长度为B的哈希签名;其中,B为大于1且小于M的自然数。
可选的,查找模块62包括:查找单元,用于将语料库中查找哈希签名之间存在至少H个相同哈希特征值对应的两个文本作为一组相似文本对,以得到语料库中的多组相似文本对,其中,H为大于或等于1的自然数。
可选的,构建模块64包括:确定单元,用于当第二文本与第三文本为一组相似文本对,且第三文本与第四文本为一组相似文本对时,确定第二文本与第四文本为一组相似文本对,其中,第二文本、第三文本和第四文本均为语料库中的任一不同的文本;建立单元,用于分别在第二文本与第三文本、三文本与第四文本之间建立连接,得到第二文本、第三文本和第四文本之间的关联关系。
可选的,聚类模块66包括:传播单元,用于选定语料库对应的多个关联关系中任一关联关系为目标关联关系,且目标关联关系中任一文本为第五文本,将第五文本对应的第一文本标识码传播给相邻的第六文本;比较单元,用于比较第一文本标识码和第六文本对应的第二文本标识码的大小;替换单元,用于当第一文本标识码小于第二文本标识码时,将第二文本标识码替换成第一文本标识码;否则,对第六文本的第二文本标识码不做任何处理;执行单元,用于顺序循环执行传播单元、比较单元及替换单元对应的操作,直到对目标关联关系中各个文本对应的文本标识码不做任何处理,得到目标关联关系对应的类别簇。
可选的,上述装置还包括:确定模块,用于在得到目标关联关系对应的类别簇之后,将目标关联关系中的文本更新后的文本标识码作为类别簇的类别标识码;输出模块,用于输出语料库中多个类别簇对应的多个类别标识码以及各文本对应的文本标识码。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
基于上文各个实施例提供的文本聚类方法,基于同一发明构思,在本实施例中还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,为语料库中的各文本生成对应的哈希签名;
S2,基于所述哈希签名查找所述语料库中的多组相似文本对;
S3,构建所述多组相似文本对之间的关联关系,其中,所述关联关系中任意相连的两个文本为一组相似文本对;
S4,利用所述关联关系和各所述文本对应的文本标识码对所述语料库中的文本进行聚类,得到所述语料库对应的一个或多个类别簇。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
基于上述图2所示方法和图6所示装置的实施例,为了实现上述目的,本发明实施例还提供了一种电子设备,如图7所示,包括存储器72和处理器71,其中存储器72和处理器71均设置在总线73上存储器72存储有计算机程序,处理器71执行计算机程序时实现图2所示的文本聚类方法。
基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个存储器(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
可选地,该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种电子设备的结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种文本聚类方法,其特征在于,包括:
为语料库中的各文本生成对应的哈希签名;所述为语料库中的各文本生成对应的哈希签名包括:
选定所述语料库中的任一文本为第一文本,通过遍历预设字典树对所述第一文本进行分词,得到分词结果;其中,所述预设字典树是由与所述第一文本的场景信息关联的文本数据构建;
若分词结果对应的集合的长度为N,从所述集合中依次选取连续预设值K长度的子文本,并组成所述第一文本对应的文本特征向量;其中,K为大于等于2的自然数,N为大于K的自然数,所述文本特征向量为(N-K+1)*K;
为所述文本特征向量生成对应的哈希签名,作为所述第一文本对应的哈希签名;
所述为所述文本特征向量生成对应的哈希签名包括:
利用M个随机哈希方程计算所述文本特征向量中各元素对应的哈希值,并组成第一哈希特征向量;其中,M为大于1的自然数,所述第一哈希特征向量为(N-K+1)*M;
基于预设筛选条件从所述第一哈希特征向量的每一列向量中筛选出一个哈希值,得到M个哈希值,并将所述M个哈希值组成固定长度为M的第二哈希特征向量;其中,所述预设筛选条件包括以下之一:每一列向量中的最小哈希值,每一列向量中的最大哈希值,每一列向量中哈希值的中位数;
利用B个随机哈希方程对所述第二哈希特征向量进行降维操作,得到所述文本特征向量对应的固定长度为B的哈希签名;其中,B为大于1且小于M的自然数;
基于所述哈希签名查找所述语料库中的多组相似文本对;
构建所述多组相似文本对之间的关联关系,其中,所述关联关系中任意相连的两个文本为一组相似文本对;
利用所述关联关系和各所述文本对应的文本标识码对所述语料库中的文本进行聚类,得到所述语料库对应的一个或多个类别簇。
2.根据权利要求1所述的方法,其特征在于,所述基于所述哈希签名查找所述语料库中的多组相似文本对包括:
将所述语料库中查找哈希签名之间存在至少H个相同哈希特征值对应的两个文本作为一组相似文本对,以得到所述语料库中的多组相似文本对,其中,H为大于或等于1的自然数。
3.根据权利要求1所述的方法,其特征在于,所述构建所述多组相似文本对之间的关联关系包括:
若第二文本与第三文本为一组相似文本对,且所述第三文本与第四文本为一组相似文本对,则确定所述第二文本与所述第四文本为一组相似文本对,其中,所述第二文本、所述第三文本和所述第四文本均为所述语料库中的任一不同的文本;
分别在所述第二文本与所述第三文本、所述三文本与所述第四文本之间建立连接,得到所述第二文本、所述第三文本和所述第四文本之间的关联关系。
4.根据权利要求1所述的方法,其特征在于,所述利用所述关联关系和各所述文本对应的文本标识码对所述语料库中的文本进行聚类包括:
步骤A,选定所述语料库对应的多个关联关系中任一关联关系为目标关联关系,且所述目标关联关系中任一文本为第五文本,将所述第五文本对应的第一文本标识码传播给相邻的第六文本;
步骤B,比较所述第一文本标识码和所述第六文本对应的第二文本标识码的大小;
步骤C,若所述第一文本标识码小于所述第二文本标识码,则将所述第二文本标识码替换成所述第一文本标识码;否则,对所述第六文本的第二文本标识码不做任何处理;
顺序循环执行上述步骤A、步骤B及步骤C,直到对所述目标关联关系中各个文本对应的文本标识码不做任何处理,得到所述目标关联关系对应的类别簇。
5.根据权利要求4所述的方法,其特征在于,在得到所述目标关联关系对应的类别簇之后,所述方法还包括:
将所述目标关联关系中的文本更新后的文本标识码作为所述类别簇的类别标识码;
输出所述语料库中多个类别簇对应的多个类别标识码以及各所述文本对应的文本标识码。
6.一种文本聚类装置,其特征在于,包括:
生成模块,用于为语料库中的各文本生成对应的哈希签名;所述为语料库中的各文本生成对应的哈希签名包括:
选定所述语料库中的任一文本为第一文本,通过遍历预设字典树对所述第一文本进行分词,得到分词结果;其中,所述预设字典树是由与所述第一文本的场景信息关联的文本数据构建;
若分词结果对应的集合的长度为N,从所述集合中依次选取连续预设值K长度的子文本,并组成所述第一文本对应的文本特征向量;其中,K为大于等于2的自然数,N为大于K的自然数,所述文本特征向量为(N-K+1)*K;
为所述文本特征向量生成对应的哈希签名,作为所述第一文本对应的哈希签名;
所述为所述文本特征向量生成对应的哈希签名包括:
利用M个随机哈希方程计算所述文本特征向量中各元素对应的哈希值,并组成第一哈希特征向量;其中,M为大于1的自然数,所述第一哈希特征向量为(N-K+1)*M;
基于预设筛选条件从所述第一哈希特征向量的每一列向量中筛选出一个哈希值,得到M个哈希值,并将所述M个哈希值组成固定长度为M的第二哈希特征向量;其中,所述预设筛选条件包括以下之一:每一列向量中的最小哈希值,每一列向量中的最大哈希值,每一列向量中哈希值的中位数;
利用B个随机哈希方程对所述第二哈希特征向量进行降维操作,得到所述文本特征向量对应的固定长度为B的哈希签名;其中,B为大于1且小于M的自然数;
查找模块,用于基于所述哈希签名查找所述语料库中的多组相似文本对;
构建模块,用于构建所述多组相似文本对之间的关联关系,其中,所述关联关系中任意相连的两个文本为一组相似文本对;
聚类模块,用于利用所述关联关系和各所述文本对应的文本标识码对所述语料库中的文本进行聚类,得到所述语料库对应的一个或多个类别簇。
7.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110823737.3A CN113704465B (zh) | 2021-07-21 | 2021-07-21 | 文本聚类方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110823737.3A CN113704465B (zh) | 2021-07-21 | 2021-07-21 | 文本聚类方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113704465A CN113704465A (zh) | 2021-11-26 |
CN113704465B true CN113704465B (zh) | 2024-07-12 |
Family
ID=78650142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110823737.3A Active CN113704465B (zh) | 2021-07-21 | 2021-07-21 | 文本聚类方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704465B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339495A (zh) * | 2016-08-31 | 2017-01-18 | 广州智索信息科技有限公司 | 一种基于层次增量聚类的话题检测方法及系统 |
CN110162634A (zh) * | 2019-05-21 | 2019-08-23 | 北京鸿联九五信息产业有限公司 | 一种基于机器学习的文本处理方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294350B (zh) * | 2015-05-13 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 一种文本聚合方法及装置 |
US10956677B2 (en) * | 2018-02-05 | 2021-03-23 | International Business Machines Corporation | Statistical preparation of data using semantic clustering |
CN111291177B (zh) * | 2018-12-06 | 2024-08-02 | 中兴通讯股份有限公司 | 一种信息处理方法、装置和计算机存储介质 |
CN110413787B (zh) * | 2019-07-26 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 文本聚类方法、装置、终端和存储介质 |
CN112036176B (zh) * | 2020-07-22 | 2024-05-24 | 大箴(杭州)科技有限公司 | 文本聚类方法及装置 |
CN112231471B (zh) * | 2020-09-04 | 2022-06-07 | 大箴(杭州)科技有限公司 | 文本处理方法及装置、计算机设备、存储介质 |
CN112711648B (zh) * | 2020-12-23 | 2024-07-02 | 航天信息股份有限公司 | 一种数据库字符串密文存储方法、电子设备和介质 |
CN112860898B (zh) * | 2021-03-16 | 2022-05-27 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
-
2021
- 2021-07-21 CN CN202110823737.3A patent/CN113704465B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339495A (zh) * | 2016-08-31 | 2017-01-18 | 广州智索信息科技有限公司 | 一种基于层次增量聚类的话题检测方法及系统 |
CN110162634A (zh) * | 2019-05-21 | 2019-08-23 | 北京鸿联九五信息产业有限公司 | 一种基于机器学习的文本处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113704465A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10846052B2 (en) | Community discovery method, device, server and computer storage medium | |
US9589046B2 (en) | Anomaly, association and clustering detection | |
Choi et al. | Compression of graphical structures: Fundamental limits, algorithms, and experiments | |
CN109684290B (zh) | 日志存储方法、装置、设备及计算机可读存储介质 | |
US9916314B2 (en) | File extraction method, computer product, file extracting apparatus, and file extracting system | |
CN110209809B (zh) | 文本聚类方法和装置、存储介质及电子装置 | |
CN107885716B (zh) | 文本识别方法及装置 | |
CN112003625A (zh) | 一种霍夫曼编码方法、系统及设备 | |
CN103955539B (zh) | 一种获取二进制协议数据中控制字段划分点的方法及装置 | |
CN112148767A (zh) | 团伙挖掘方法、异常团伙的识别方法、装置及电子设备 | |
EP3955256A1 (en) | Non-redundant gene clustering method and system, and electronic device | |
CN112737596A (zh) | 一种基于排序网络的动态霍夫曼编码方法、装置及设备 | |
CN115293919A (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
CN112115313A (zh) | 正则表达式的生成、数据提取方法、装置、设备及介质 | |
CN105447004A (zh) | 查询推荐词的挖掘、相关查询方法及装置 | |
Yang et al. | Discrete embedding for latent networks | |
CN113704465B (zh) | 文本聚类方法及装置、电子设备、存储介质 | |
CN107329946B (zh) | 相似度的计算方法和装置 | |
KR101771352B1 (ko) | 동적 환경에서의 그래프 요약 방법 및 장치 | |
KR102497634B1 (ko) | 문자 빈도 기반 서열 재정렬을 통한 fastq 데이터 압축 방법 및 장치 | |
CN115480756A (zh) | 模板数据的压缩方法、装置、设备及存储介质 | |
CN110309235B (zh) | 一种数据处理方法、装置、设备及介质 | |
CN113076450A (zh) | 一种目标推荐列表的确定方法和装置 | |
Bienvenu et al. | The Moran forest | |
CN114938402B (zh) | 基于字典树的未知协议帧结构识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |