CN116150355A - 类别划分方法、文本分类方法及装置、电子设备、介质 - Google Patents
类别划分方法、文本分类方法及装置、电子设备、介质 Download PDFInfo
- Publication number
- CN116150355A CN116150355A CN202211533755.9A CN202211533755A CN116150355A CN 116150355 A CN116150355 A CN 116150355A CN 202211533755 A CN202211533755 A CN 202211533755A CN 116150355 A CN116150355 A CN 116150355A
- Authority
- CN
- China
- Prior art keywords
- clustered
- text
- category
- texts
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 238000003860 storage Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000003416 augmentation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 7
- 230000003321 amplification Effects 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 238000004064 recycling Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种类别划分方法、文本分类方法及装置、电子设备、介质,该类别划分方法包括:获取第一待聚类文本的类别集合和第二待聚类文本的类别集合;确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量;基于第一待聚类文本和第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定第一待聚类文本和第二待聚类文本的相似度;基于第一待聚类文本和第二待聚类文本的相似度和预设的相似度阈值确定第一待聚类文本和第二待聚类文本的类别划分结果。本申请可以提高类别划分结果的准确性以及文本分类的可靠性。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种类别划分方法、文本分类方法及装置、电子设备、介质。
背景技术
聚类是按照某种特定的规则,将数据集划分成不同的簇,使得相同簇中的个体相似性尽可能大,不同簇之间相似性尽可能小。聚类结果在数据中的表现是,具有相似特征的个体聚在一起的可能性大,反之可能性小。聚类可被用于许多领域,如:在生物学上,用于推导植物和动物的分类,对基因进行分类,获得对种群固有结构的认识;在地理信息方面,在地球观测数据库中相似区域的确定、汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对城市中房屋的分组上可以发挥作用。而且,随着聚类应用领域的扩展,聚类也被用于对文本进行分类。
发明内容
本申请提供一种类别划分方法、文本分类方法及装置、电子设备、介质,可以提升文本分类结果的准确性。
第一方面,本申请提供了一种类别划分方法,包括:
获取第一待聚类文本的类别集合和第二待聚类文本的类别集合;其中,所述第一待聚类文本和所述第二待聚类文本是初始待聚类文本集合中任意两个待聚类文本;所述第一待聚类文本的类别集合和所述第二待聚类文本的类别集合均包括多个候选类别,所述多个候选类别是在不同的类别数下对待聚类文本进行聚类处理后得到的类别;
确定所述第一待聚类文本和所述第二待聚类文本被归属于相同的候选类别的数量;
基于所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定所述第一待聚类文本和所述第二待聚类文本的相似度;
基于所述第一待聚类文本和所述第二待聚类文本的相似度和预设的相似度阈值确定所述第一待聚类文本和所述第二待聚类文本的类别划分结果。
第二方面,本申请提供了一种文本分类方法,该文本分类方法包括:
获取初始待聚类文本集合;
基于类别划分方法对所述初始待聚类文本集合中的待聚类文本进行聚类,获得各个所述待聚类文本的分类结果;其中,所述类别划分方法采用第一方面提供的任意一项所述的类别划分方法。
第三方面,本申请提供了一种类别划分装置,包括:
获取模块,用于获取第一待聚类文本的类别集合和第二待聚类文本的类别集合;其中,所述第一待聚类文本和所述第二待聚类文本是初始待聚类文本集合中任意两个待聚类文本;所述第一待聚类文本的类别集合和所述第二待聚类文本的类别集合均包括多个候选类别,所述多个候选类别是在不同的类别数下对待聚类文本进行聚类处理后得到的类别;
第一确定模块,用于确定所述第一待聚类文本和所述第二待聚类文本被归属于相同的候选类别的数量;
第二确定模块,用于基于所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定所述第一待聚类文本和所述第二待聚类文本的相似度;
第三确定模块,用于基于所述第一待聚类文本和所述第二待聚类文本的相似度和预设的相似度阈值确定所述第一待聚类文本和所述第二待聚类文本的类别划分结果。
第四方面,本申请提供了一种文本分类装置,该文本分类装置包括:
信息获取模块,用于获取初始待聚类文本集合;
文本聚类模块,用于基于类别划分方法对所述初始待聚类文本集合中的待聚类文本进行聚类,获得各个所述待聚类文本的分类结果;其中,所述类别划分方法采用第一方面提供的任意一项所述的类别划分方法。
第五方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面提供的类别划分方法或第二方面提供的文本分类方法。
第六方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的第一方面提供的类别划分方法或第二方面提供的文本分类方法。
本申请所提供的类别划分方法,根据初始待聚类文本集合中的任意两个待聚类文本进行比较来确定待聚类文本的类别划分结果,即确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量(第一次判断);再基于所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定所述第一待聚类文本和第二待聚类文本的相似度(第二次判断),由于相似度是通过候选类别的总数量以及被归属于相同的候选类别的数量来判定,而候选类别是基于类别集合得出,因此待聚类文本是否属于同一类别是通过双重类别判断后得出的,即使待聚类文本的类别集合因噪声存在偏差,也可以通过后续的相似度判断纠偏,使得的类别划分结果更准确。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本申请实施例提供的一种类别划分方法的流程图;
图2为本申请实施例提供的一种文本分类方法的流程图;
图3为本申请实施例提供的一种类别划分装置的框图;
图4为本申请实施例提供的一种文本分类装置的框图;
图5为本申请实施例提供的一种电子设备的框图。
具体实施方式
为使本领域的技术人员更好地理解本申请的技术方案,以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
在相关技术的文本分类方法中,从待聚类文本数据集中随机选取一个待聚类文本点作为第一个初始聚类中心;计算每个待聚类文本与当前已有聚类中心之间的最短距离,然后计算每个待聚类文本点被选为下一个聚类中心的概率,并选择最大概率对应的待聚类文本点作为下一个聚类中心。与当前聚类中心越远的待聚类文本点,越可能被选为下一个聚类中心;重复上述步骤,得到多个聚类中心,每个聚类中心对应一个类别;当数据集中的待聚类文本分布不均衡时,初始聚类中心的选择对文本分类的结果影响较大,尤其是存在噪声的情况下,若初始聚类中心选择噪声待聚类文本,分类结果容易被噪声待聚类文本带偏,严重影响文本分类的准确性。
根据本申请实施例的文本分类方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,服务器可以为独立的物理服务器、由多个物理服务器组成的服务器集群、或者能够进行云计算的云服务器。该方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。
图1为本申请实施例提供的一个类别划分方法的流程图。类别划分方法是将初始待聚类文本集合中任意两个待聚类文本进行比较,判断是否属于同一类别,其它待聚类文本逐一与已经确定类别的待聚类文本进行比较,遍历初始待聚类文本集合中的全部待聚类文本。如图1所示,类别划分方法包括:
在步骤S101中,获取第一待聚类文本的类别集合和第二待聚类文本的类别集合;其中,第一待聚类文本和第二待聚类文本是初始待聚类文本集合中的待聚类文本;第一待聚类文本的类别集合和第二待聚类文本的类别集合包括数量相同的多个候选类别,各个候选类别是在不同的类别数下确定的;其中,类别数用于表征对待聚类文本进行聚类时的聚类中心的数量。
在一些实施例中,第一待聚类文本的类别集合和第二待聚类文本的类别集合是通过待聚类文本的类别集合生成步骤获得的。
在一些实施例中,待聚类文本的类别集合的生成步骤包括:基于待聚类文本的类别基值确定类别数;其中,类别基值是待聚类文本被分类的类别数;在每个类别数下,对初始待聚类文本集合中的待聚类文本进行聚类,得到每个待聚类文本在各个类别数下的候选类别;其中每个待聚类文本在一个类别数下对应有一个候选类别;基于待聚类文本在各个类别数下对应的候选类别生成待聚类文本对应的类别集合。
根据本申请的实施例,每个待聚类文本在各个类别数下的聚类,得到每个待聚类文本在各个类别数下的类别。第一待聚类文本的类别集合中包含有多个候选类别,第一待聚类文本的类别集合中包含的多个候选类别是在多个类别数下确定的。第二待聚类文本的类别集合中包含有多个候选类别,第二待聚类文本的类别集合中包含的多个候选类别,候选类别都是在多个类别数下确定的。
在本申请实施例中,类别数(也可以称为聚类中心数)利用k值表征。k值可以确定为25、30、35、40、45、50、55等。k值可以为25时,初始待聚类文本集合中的待聚类文本是在25个聚类中心下进行分类,每个待聚类文本可以归属于25个类别中的一个类别。k值为30时,将初始待聚类文本集合中的待聚类文本分为30个类别,每个待聚类文本归属于30个类别中的一个类别。
在本申请实施例中,假设初始待聚类文本集合中包括N个待聚类文本,即text_1~text_N,每个聚类文本在不同的类别数下进行分类,获得每个类别数下对应的候选类别。例如,在25个类别数下进行分类时,待聚类文本text_1可以的分类结果是2,待聚类文本text_2可以的分类结果是6。在30个类别数下进行聚类时,待聚类文本text_1可以的分类结果是31,待聚类文本text_2可以的分类结果是31。
如表1所示,第一待聚类文本text_1在类别数K为25、30、35、40、45、50、55下的候选类别,K为25时第一待聚类文本text_1的候选类别2,K为30时第一待聚类文本text_1的候选类别31、K为35时第一待聚类文本text_1的候选类别58、K为40时第一待聚类文本text_1的候选类别122、K为45时第一待聚类文本text_1的候选类别158、K为50时第一待聚类文本text_1的候选类别200、K为55时第一待聚类文本text_1候选类别268。
表1 k值及对应的类别分布表
K值 | K=25 | K=30 | K=35 | K=40 | K=45 | K=50 | K=55 |
类别 | 1-25 | 26-55 | 56-90 | 91-130 | 131-175 | 176-225 | 226-280 |
text_1 | 2 | 31 | 58 | 122 | 158 | 200 | 268 |
text_2 | 6 | 31 | 58 | 105 | 158 | 200 | 268 |
… | … | … | … | … | … | … | … |
text_N | 6 | 32 | 58 | 122 | 170 | 200 | 280 |
在一些实施例中,基于待聚类文本的类别基值确定类别数,包括:确定待聚类文本的类别基值;基于待聚类文本的类别基值对聚类中心数进行扩增,得到多个不同的类别扩增值,其中,类别数包含类别基值和多个不同的类别扩增值。
在一些实施例中,类别基值可以依据数据的先验知识确定,如用户根据不同场景为话术,利用经验知识确定基础话术的分类,基于该分类确定待聚类文本的类别基值,如类别基值可以确定为n,其中,n为大于1的整数。
示例地,从初始待聚类文本集合中随机无放回的抽取部分待聚类文本作为待聚类文本,人工进行分类,如有n个类别,则类别基值为n。然后对类别基值n进行扩增,即对聚类中心数扩增,获得类别扩增值,确定类别数k。其中,类别数k包含类别基值和类别扩增值。
例如,假设类别基值n为40,对聚类中心数扩增后得到类别扩增值为25、30、35、45、50、55等。因此,类别数包括25、30、35、40、45、50、55。
在一些实施例中,基于待聚类文本的类别基值对聚类中心数进行扩增,得到多个不同的类别扩增值,包括:基于待聚类文本的类别基值以预定步长进行递增和/或递减,得到多个不同的类别扩增值。
根据本申请的实施例,假设类别基值为n,则类别数K的取值集合为:
Knum=2*i+1
其中,Knum表示K值的总个数;d表示不同K值的步长,步长取值区间为[2,5];i表示最大K值和最小K值相差步长的个数,取值区间为[3,5];假设n=40,d=5,i=3,则K的取值集合为[25,30,35,40,45,50,55]。类别基值为40,25,30,35为按照步长5递减获得的类别扩增值,45,50,55为按照步长5递增获得的类别扩增值。如此解决了k值确定困难的问题,可得到大量有效的类别数,进而可进行多个不同类别数下的待聚类文本分类,为最终根据相似度进行的待聚类文本分类做数据准备。
在步骤S102中,确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量。
如表1所示,当k=30时,第一待聚类文本text_1和第二待聚类文本text_2被归属于的类别为31,当k=35时,第一待聚类文本text_1和第二待聚类文本text_2被归属于的类别为58,当k=45时,第一待聚类文本text_1和第二待聚类文本text_2被归属于的类别为158,当k=50时,第一待聚类文本text_1和第二待聚类文本text_2被归属于的类别为200,当k=55时,第一待聚类文本text_1和第二待聚类文本text_2被归属于的类别为268,因此,在类别数k等于30、35、45、50、55时,第一待聚类文本text_1和第二待聚类文本text_2被归属于为同一候选类别,因此,第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量为5。
在一些实施例中,确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量,包括:确定第一待聚类文本对应的类别集合和第二待聚类文本对应的类别集合中在同一类别数下分别对应的候选类别,判断第一待聚类文本对应的类别集合和第二待聚类文本对应的类别集合在各类别数下候选类别是否相同,得到确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量。
如表1所示,对于待聚类文本text_1和待聚类文本text_2,在K=30、45、50、55时,候选类别相同。
在步骤S103中,基于第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量、以及第一待聚类文本的类别集合中类别的总数量,确定第一待聚类文本和第二待聚类文本的相似度。
根据本申请的实施例,第一待聚类文本和第二待聚类文本的相似度确定为:第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量,与第一待聚类文本和第二待聚类文本对应的候选类别的总数量的比值。例如,第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量为m,第一待聚类文本和第二待聚类文本对应的候选类别的总数量为M,则第一待聚类文本和第二待聚类文本的相似度为m/M。其中m/M的值越大,说明第一待聚类文本和第二待聚类文本的相似度越高,其更倾向于聚类为同一数据类型。
在步骤S104中,基于第一待聚类文本和第二待聚类文本的相似度和预设的相似度阈值确定第一待聚类文本和第二待聚类文本的类别划分结果。
其中,类别划分结果可以是第一待聚类文本和第二待聚类文本是否属于同一类别。
基于第一待聚类文本和第二待聚类文本的相似度和预设的相似度阈值确定第一待聚类文本和第二待聚类文本是否属于同一类别,包括:
若第一待聚类文本和第二待聚类文本的相似度大于预设的相似度阈值,则确定第一待聚类文本和第二待聚类文本属于同一类别;当确定第一待聚类文本和第二待聚类文本的相似度小于或等于预设的相似度阈值,则第一待聚类文本和第二待聚类文本不属于同一类别。
其中,第一待聚类文本和第二待聚类文本的相似度可以通过m/M计算,其中,m表示第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量,M表示第一待聚类文本和第二待聚类文本的候选类别的总数量。相似度阈值可以取[0.6,0.8]之间的值。
例如,如表1所示,若类别数k值取值为25、30、35、40、45、50、55,即第一待聚类文本和第二待聚类文本的候选类别的总数量为7,因此,M等于7。比较第一待聚类文本text_1和第二待聚类文本text_2,当k=30时,第一待聚类文本text_1和第二待聚类文本text_2被归属于的类别为31,当k=35时,第一待聚类文本text_1和第二待聚类文本text_2被归属于的类别为58,当k=45时,第一待聚类文本text_1和第二待聚类文本text_2被归属于的类别为158,当k=50时,第一待聚类文本text_1和第二待聚类文本text_2被归属于的类别为200,当k=55时,第一待聚类文本text_1和第二待聚类文本text_2被归属于的类别为268,因此,在类别数k等于30、35、45、50、55时,第一待聚类文本text_1和第二待聚类文本text_2被归属于为同一候选类别,因此,m等于5。第一待聚类文本text_1和第二待聚类文本text_2的相似度m/M等于5/7,若相似度阈值0.6,则确定第一待聚类文本text_1和第二待聚类文本text_2属于同一类别。
在判断第一待聚类文本text_1和第二待聚类文本text_2是否属于同一类别后,将第一待聚类文本text_1与初始待聚类文本集合中的其它待聚类文本依次进行判断,直至第一待聚类文本text_1与第N待聚类文本text_N判断结束。
第一待聚类文本text_1和第N待聚类文本text_N,在k等于25、35、50时,第一待聚类文本text_1和第N待聚类文本text_N归属为同一候选类别,因此,m等于3。因此,第一待聚类文本text_1和第N待聚类文本的相似度m/M等于3/7,小于相似度阈值0.6,则确定第一待聚类文本text_1和第N待聚类文本text_N不属于同一类别。
本申请所提供的文本分类方法,根据初始待聚类文本集合中的任意两个待聚类文本进行比较来确定待聚类文本的类别划分结果,即确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量(第一次判断);再基于第一待聚类文本和第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定第一待聚类文本和第二待聚类文本的相似度(第二次判断),由于相似度是通过候选类别的总数量以及被归属于相同的候选类别的数量来判定,而候选类别是基于类别集合得出,因此待聚类文本是否属于同一类别是通过双重类别判断后得出的,即使待聚类文本的类别集合因噪声存在偏差,也可以通过后续的相似度判断纠偏,使得的类别划分结果更准确。
第二方面,本申请实施例提供的一种文本分类方法。
图2为本申请实施例提供的一种文本分类方法的流程图。参照图2,该方法包括:
在步骤S21中,获取初始待聚类文本集合;
其中,初始待聚类文本集合是待聚类文本构成的集合。
根据本申请的实施例,初始待聚类文本可以包括多个不同业务场景下的语义文本,也可以单一业务场景下不同主题内容的语义文本。例如,多个不同业务场景包括金融电话销售场景、金融贷款回收场景等等。金融电话销售场景下产生的语义文本与金融贷款回收场景下产生的语义文本混合在一起构成初始待聚类文本集合;或,金融电话销售场景下以“拒绝销售”为主题的拒绝销售借口类内容相关的语义,与以“接收销售”为主题的接收销售原因类内容相关的语义混合在一起构成初始待聚类文本集合;或,金融贷款回收场景下以“还款状况”为主题的“不还款类”、“部分还款类”“全部还款类”的语义内容等构成的初始待聚类文本集合。本申请的文本分类方法可应用于上述各种情况下的初始待聚类文本集合,对上述初始待聚类文本集合的语义文本根据语义内容进行不同的主题类别聚类。例如,将全部还款的分为第一类,将部分还款的分为第二类,将不还款的分为第三等等。
在步骤S22中,基于类别划分方法对初始待聚类文本集合中的待聚类文本进行聚类,获得待聚类文本集合中各待聚类文本对应的分类结果。
其中,类别划分方法可以采用本申请实施例提供的第一方面类别划分方法,为节约篇幅,在此不再赘述。
在一些实施例中,基于类别划分方法对初始待聚类文本集合中的待聚类文本进行聚类,获得待聚类文本集合中各待聚类文本对应的分类结果,包括:
基于类别划分方法,依次遍历第i轮待聚类文本集合中的各个待聚类文本,确定归属于第i类别的待聚类文本;其中,在i为1时,第1轮待聚类文本集合为初始待聚类文本集合;在i>1时,第i轮待聚类文本集合是将第i-1轮确定的属于第i-1类别的待聚类文本去除后剩余的待聚类文本组成的集合;经过n轮聚类,初始待聚类文本集合中的待聚类文本均被分类,依据每个类别中待聚类文本的数量对n个类别进行排序;依据排序结果确定初始待聚类文本集合中各待聚类文本对应的分类结果。
其中,每轮遍历可以确定一个类别的待聚类文本,第i-1轮可以确定第i-1类别的待聚类文本,第i轮遍历时,将第i-1类别的待聚类文本去除,将剩余的待聚类文本组成第i轮待聚类文本集合。
根据本申请的实施例,可依据每个类别中待聚类文本的数量从高到低对n个类别进行排序,输出排序中前h个候选类别对应的待聚类文本。只输出前h个候选类别对应的待聚类文本,后续步骤中前h个候选类别对应的待聚类文本进行处理,可以节约对分类结果审核或使用的人力成本。其中,h为正整数且小于n。
在一些实施例中,基于类别划分方法,依次遍历第i轮待聚类文本集合中的各个待聚类文本,确定归属于第i类别的待聚类文本。当i=1时,第一轮遍历,得到归属于第1类别的待聚类文本。其中,第1类别可以是第一待聚类文本的类别。然后在初始待聚类文本集合去除第一轮遍历出的归属第1候选类别的待聚类文本,得到需要进行第二轮遍历的待聚类文本。即在第一轮遍历后剩余的待聚类文本中进行第二次遍历,得到第2轮遍历出的第2候选类别的待聚类文本。然后在第一轮遍历后剩余的待聚类文本中去除第2轮遍历出的第2候选类别的待聚类文本,得到需要进行第三轮遍历的待聚类文本。以此类推,直到初始待聚类文本集合中的待聚类文本全部完成分类,即每个待聚类文本均被分类。
在一些实施例中,基于类别划分方法,依次遍历第i轮待聚类文本集合中的各个待聚类文本,确定归属于第i类别的待聚类文本,包括:
基于类别划分方法,判断第j个待聚类文本是否与已确定为第i类别的待聚类文本属于相同的类别;在第j个待聚类文本与已确定为相同类别的待聚类文本不属于相同类别的情况下,判断第j+1个待聚类文本是否与已确定为相同类别的待聚类文本属于相同类别;在第j个待聚类文本与已确定为相同类别的待聚类文本属于相同类别的情况下,将第j个待聚类文本归属于第i类别。
其中,j为大于2且小于Ni的任意整数,Ni为第i轮待聚类文本集合中待聚类文本的数量;在j=2时,已确定为相同类别的待聚类文本为第i轮待聚类文本集合中任意一个待聚类文本。
示例地,参考表1,当第一待聚类文本text_1和第二待聚类文本text_2被确定为属于第31类别,在判断第三待聚类文本的类别时,若第三待聚类文本text_3属于第31类别,则将第三待聚类文本text_3归属于第31类别;若第三待聚类文本text_3不属于第31类别,则在第i+1轮再进行类别判断。如果第i+1轮仍然无法确定第三待聚类文本text_3的类别,则在第i+2轮再进行类别判断,依次类推,直至将所有待聚类文本分类。
在一些实施例中,基于类别划分方法,判断第j个待聚类文本是否与已确定为第i类别的待聚类文本属于相同的类别,包括:
基于类别划分方法,将已确定为第i类别的各个待聚类文本分别与第j个待聚类文本进行类别判断;在第j个待聚类文本与已确定为第i类别的各个待聚类文本均属于相同的类别的情况下,将第j个待聚类文本归属于第i类别。
根据本申请的实施例,在确定第j个待聚类文本是否与已确定为第i类别的待聚类文本属于相同的类别时,需要基于类别划分方法,将已确定为第i类别的各个待聚类文本分别与第j个待聚类文本进行类别判断,如果第j个待聚类文本与已确定为第i类别的各个待聚类文本均属于相同的类别,则第j个待聚类文本归属于第i类别。只有第j个待聚类文本与第i类别的待聚类文本中的任一个不属于相同的类别,则第j个待聚类文本不归属于第i类别。
示例地,若第一待聚类文本text_1和第二待聚类文本text_2已经被确定为第31类别,现在对第三待聚类文本text_3进行分类,需要基于类别划分方法对第三待聚类文本text_3与第一待聚类文本text_1进行比较,还需要基于类别划分方法对第三待聚类文本text_3与第二待聚类文本text_2进行比较,若比较结果是第三待聚类文本text_3与第一待聚类文本text_1和第二待聚类文本text_2均属于同一类别,则确定第三待聚类文本text_3也属于第31类别。
本申请所提供的文本分类方法,基于类别划分方法对初始待聚类文本集合中的待聚类文本进行聚类,以获得各个待聚类文本的分类结果,其中,类别划分方法是根据初始待聚类文本集合中的任意两个待聚类文本进行比较来确定待聚类文本的类别划分结果,即确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量(第一次判断);再基于第一待聚类文本和第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定第一待聚类文本和第二待聚类文本的相似度(第二次判断),由于相似度是通过候选类别的总数量以及被归属于相同的候选类别的数量来判定,而候选类别是基于类别集合得出,因此待聚类文本是否属于同一类别是通过双重类别判断后得出的,即使待聚类文本的类别集合因噪声存在偏差,也可以通过后续的相似度判断纠偏,使得的类别划分结果更准确。
可以理解,本申请提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本申请不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本申请还提供了类别划分装置可用来实现本申请提供的任一种类别划分方法,文本分类装置可用来实现本申请提供的任一种文本分类方法,电子设备和计算机可读存储介质,上述均可用来实现本申请提供的任一种类别划分方法,文本分类方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
第三方面,本申请实施例提供一种类别划分装置。
图3为本申请实施例提供的一种类别划分装置的框图。参照图3,本申请实施例提供了一种类别划分装置,该类别划分装置包括:
获取模块301,用于获取第一待聚类文本的类别集合和第二待聚类文本的类别集合;其中,第一待聚类文本和第二待聚类文本是初始待聚类文本集合中任意两个待聚类文本;第一待聚类文本的类别集合和第二待聚类文本的类别集合均包括多个候选类别,多个候选类别是在不同的类别数下对待聚类文本进行聚类处理后得到的类别。
第一确定模块302,用于确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量。
第二确定模块303,用于基于第一待聚类文本和第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定第一待聚类文本和第二待聚类文本的相似度。
第三确定模块304,用于基于第一待聚类文本和第二待聚类文本的相似度和预设的相似度阈值确定第一待聚类文本和第二待聚类文本的类别划分结果。
在一些实施例中,类别集合通过以下步骤获得:基于类别基值确定类别数;类别基值是初始待聚类文本集合中的待聚类文本被分类的数量;在每个类别数下,对初始待聚类文本集合中的待聚类文本进行聚类,得到每个待聚类文本在各个类别数下的候选类别;其中,每个待聚类文本在一个类别数下对应有一个候选类别;基于待聚类文本在各个类别数下对应的候选类别生成待聚类文本对应的类别集合。
在一些实施例中,类别数通过以下步骤确定:确定初始待聚类文本的类别基值;基于类别基值以预定步长进行递增和/或递减,得到多个不同的类别扩增值;基于类别基值和多个不同的类别扩增值确定类别数。
在一些实施例中,第二确定模块303,还用于确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量,与第一待聚类文本和第二待聚类文本的候选类别的总数量相比,获得第一待聚类文本和第二待聚类文本的相似度。
本申请实施例提供的类别划分装置,获取模块获取第一待聚类文本的类别集合和第二待聚类文本的类别集合,第一确定模块确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量(第一次判断);第二确定模块基于第一待聚类文本和第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定第一待聚类文本和第二待聚类文本的相似度(第二次判断),由于相似度是通过候选类别的总数量以及被归属于相同的候选类别的数量来判定,而候选类别是基于类别集合得出,第三确定模块是是通过双重类别判断后得出的,即使待聚类文本的类别集合因噪声存在偏差,也可以通过后续的相似度判断纠偏,使得的类别划分结果更准确。
图4为本申请实施例提供的一种文本分类装置的框图。
参照图4,本申请实施例提供了一种文本分类装置,该文本分类装置包括:
信息获取模块41,用于获取初始待聚类文本集合。
文本聚类模块42,用于基于类别划分方法对初始待聚类文本集合中的待聚类文本进行聚类,获得各个待聚类文本的分类结果。
其中,类别划分方法是基于初始待聚类文本集合中的任意两个待聚类文本依次进行比较确定待聚类文本的分类结果。
在本申请实施例中,类别划分方法包括:
获取第一待聚类文本的类别集合和第二待聚类文本的类别集合;其中,第一待聚类文本和第二待聚类文本是初始待聚类文本集合中不同的两个待聚类文本;第一待聚类文本的类别集合和第二待聚类文本的类别集合包括相同数量的多个候选类别,多个候选类别是在不同的类别数下确定的;其中,类别数是待聚类文本集合中的待聚类文本被分类的数量;
确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量;基于第一待聚类文本和第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定第一待聚类文本和第二待聚类文本的相似度;基于第一待聚类文本和第二待聚类文本的相似度和预设的相似度阈值确定第一待聚类文本和第二待聚类文本是否属于同一类别。
文本聚类模块42,用于基于类别划分方法对初始待聚类文本集合中的待聚类文本进行聚类,获得待聚类文本集合中各待聚类文本对应的分类结果,包括:
基于类别划分方法,依次遍历第i轮待聚类文本集合中的各个待聚类文本,确定归属于第i类别的待聚类文本;其中,在i为1时,第1轮待聚类文本集合为初始待聚类文本集合;在i>1时,第i轮待聚类文本集合是将第i-1轮确定的属于第i-1类别的待聚类文本去除后剩余的待聚类文本组成的集合;
经过n轮聚类,初始待聚类文本集合中的待聚类文本均被分类,依据每个类别中待聚类文本的数量对n个类别进行排序;
依据排序结果确定初始待聚类文本集合中各待聚类文本对应的分类结果。
文本聚类模块42,用于基于类别划分方法,依次遍历第i轮待聚类文本集合中的各个待聚类文本,确定归属于第i类别的待聚类文本,包括:
基于类别划分方法,判断第j个待聚类文本是否与已确定为第i类别的待聚类文本属于相同的类别;
在第j个待聚类文本与已确定为相同类别的待聚类文本不属于相同类别的情况下,判断第j+1个待聚类文本是否与已确定为相同类别的待聚类文本属于相同类别;
在第j个待聚类文本与已确定为相同类别的待聚类文本属于相同类别的情况下,将第j个待聚类文本归属于第i类别;
其中,j为大于2且小于Ni的任意整数,Ni为第i轮待聚类文本集合中待聚类文本的数量;在j=2时,已确定为相同类别的待聚类文本为第i轮待聚类文本集合中任意一个待聚类文本。
文本聚类模块42,用于基于类别划分方法,判断第j个待聚类文本是否与已确定为第i类别的待聚类文本属于相同的类别,包括:
基于类别划分方法,将已确定为第i类别的各个待聚类文本分别与第j个待聚类文本进行类别判断;
在第j个待聚类文本与已确定为第i类别的各个待聚类文本均属于相同的类别的情况下,将第j个待聚类文本归属于第i类别。
文本聚类模块42,用于执行第一待聚类文本的类别集合和第二待聚类文本的类别集合的生成步骤,包括:基于待聚类文本的类别基值确定类别数;在每个类别数下,对初始待聚类文本集合中的待聚类文本进行的聚类,得到每个待聚类文本在各个类别数下的候选类别;其中,一个待聚类文本在一个类别数下对应有一个候选类别;基于待聚类文本在各个类别数下对应的候选类别生成待聚类文本对应的类别集合。
文本聚类模块42,用于基于待聚类文本的类别基值确定类别数,包括:确定待聚类文本的类别基值;基于待聚类文本的类别基值对聚类中心数进行扩增,得到多个不同的类别扩增值,其中,类别数包含类别基值和多个不同的类别扩增值。
文本聚类模块42,用于基于待聚类文本的类别基值对聚类中心数进行扩增,得到多个不同的类别扩增值,包括:基于待聚类文本的类别基值以预定步长进行递增和/或递减,得到多个不同的类别扩增值。
上述各实施例的文本分类装置,可应用于多个不同的业务场景下针对文本内容进行的文本分类;多个不同的业务场景至少包括:金融电话销售场景、贷款回收场景;
文本分类方法应用于金融电话销售场景下时,待聚类文本的文本类别至少包括:拒绝销售借口类;接收销售类;
文本分类方法应用于贷款回收场景下时,待聚类文本的文本类别至少包括:不还款类;部分还款类;全部还款类。
本申请中通过文本分类装置对初始待聚类文本集合中的待聚类文本进行聚类,可根据第一待聚类文本的类别集合和第二待聚类文本的类别集合中包括的相同候选类别的数量与第一待聚类文本的类别集合中类别的总数量,来确定第一待聚类文本和第二待聚类文本的相似度,再通过相似度与预设的相似度阈值比较确定第一待聚类文本和第二待聚类文本是否属于同一类别,其中,当相似度大于预设的相似度阈值时,可确定第一待聚类文本和第二待聚类文本属于同一类别,通过相似度的引入有助于更为准确的判断第一待聚类文本和第二待聚类文本在语义上的相似程度,当相似度大于预设的相似度阈值时也更能够更为准确的判断第一待聚类文本和第二待聚类文本属于同一类别。
图5为本申请实施例提供的一种电子设备的框图。
参照图5,本申请实施例提供了一种电子设备,该电子设备包括:至少一个处理器501;至少一个存储器502,以及一个或多个I/O接口503,连接在处理器501与存储器502之间;其中,存储器502存储有可被至少一个处理器501执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器501执行,以使至少一个处理器501能够执行上述的文本分类方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序在被处理器/处理核执行时实现上述的文本类别划分方法、文本分类方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本申请实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当计算机可读代码在电子设备的处理器中运行时,电子设备中的处理器执行上述文本类别划分方法、文本分类方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程文本分类装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程文本分类装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程文本分类装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程文本分类装置、或其它设备上,使得在计算机、其它可编程文本分类装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程文本分类装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本申请的范围的情况下,可进行各种形式和细节上的改变。
Claims (12)
1.一种类别划分方法,其特征在于,包括:
获取第一待聚类文本的类别集合和第二待聚类文本的类别集合;其中,所述第一待聚类文本和所述第二待聚类文本是初始待聚类文本集合中任意两个待聚类文本;所述第一待聚类文本的类别集合和所述第二待聚类文本的类别集合均包括多个候选类别,所述多个候选类别是在不同的类别数下对待聚类文本进行聚类处理后得到的类别;
确定所述第一待聚类文本和所述第二待聚类文本被归属于相同的候选类别的数量;
基于所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定所述第一待聚类文本和所述第二待聚类文本的相似度;
基于所述第一待聚类文本和所述第二待聚类文本的相似度和预设的相似度阈值确定所述第一待聚类文本和所述第二待聚类文本的类别划分结果。
2.根据权利要求1所述的方法,其特征在于,所述类别集合的获取步骤包括:
基于类别基值确定所述类别数;所述类别基值是所述初始待聚类文本集合中的待聚类文本被分类的数量;
在每个类别数下,对所述初始待聚类文本集合中的待聚类文本进行聚类,得到每个待聚类文本在各个类别数下的候选类别;其中,每个所述待聚类文本在一个所述类别数下对应有一个所述候选类别;
基于所述待聚类文本在各个类别数下对应的候选类别生成所述待聚类文本对应的类别集合。
3.根据权利要求2所述的方法,其特征在于,所述类别数的确定步骤包括:
确定所述初始待聚类文本的类别基值;
基于所述类别基值以预定步长进行递增和/或递减,得到所述多个不同的类别扩增值;
基于所述类别基值和所述多个不同的类别扩增值确定所述类别数。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定所述第一待聚类文本和所述第二待聚类文本的相似度,包括:
确定所述第一待聚类文本和所述第二待聚类文本被归属于相同的候选类别的数量,与所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量相比,获得所述第一待聚类文本和所述第二待聚类文本的相似度。
5.一种文本分类方法,其特征在于,包括:
获取初始待聚类文本集合;
基于类别划分方法对所述初始待聚类文本集合中的待聚类文本进行聚类,获得各个所述待聚类文本的分类结果;其中,所述类别划分方法采用权利要求1至4任意一项所述的类别划分方法。
6.根据权利要求5所述的方法,其特征在于,所述基于类别划分方法对所述初始待聚类文本集合中的待聚类文本进行聚类,获得各个所述待聚类文本的分类结果,包括:
基于所述类别划分方法,依次遍历第i轮待聚类文本集合中的各个待聚类文本,确定归属于所述第i类别的待聚类文本;其中,在i为1时,第1轮待聚类文本集合为所述初始待聚类文本集合;在i>1时,所述第i轮待聚类文本集合是将第i-1轮确定的属于第i-1类别的待聚类文本去除后剩余的待聚类文本组成的集合;
经过n轮聚类,所述初始待聚类文本集合中的所述待聚类文本均被分类,依据每个类别中所述待聚类文本的数量对n个类别进行排序;
依据排序结果确定所述初始待聚类文本集合中各个所述待聚类文本的分类结果。
7.根据权利要求6所述的方法,其特征在于,所述基于所述类别划分方法,依次遍历第i轮待聚类文本集合中的各个待聚类文本,确定归属于所述第i类别的待聚类文本,包括:
基于所述类别划分方法,判断第j个待聚类文本是否与已确定为第i类别的待聚类文本属于相同的类别;
在所述第j个待聚类文本与已确定为相同类别的待聚类文本不属于相同类别的情况下,判断第j+1个待聚类文本是否与已确定为相同类别的待聚类文本属于相同类别;
在所述第j个待聚类文本与已确定为相同类别的待聚类文本属于相同类别的情况下,将所述第j个待聚类文本归属于所述第i类别;
其中,所述j为大于2且小于Ni的任意整数,Ni为第i轮待聚类文本集合中所述待聚类文本的数量;在j=2时,已确定为相同类别的待聚类文本为所述第i轮待聚类文本集合中任意一个待聚类文本。
8.根据权利要求7所述的方法,其特征在于,所述基于所述类别划分方法,判断所述第j个待聚类文本是否与已确定为第i类别的待聚类文本属于相同的类别,包括:
基于所述类别划分方法,将已确定为第i类别的各个所述待聚类文本分别与所述第j个待聚类文本进行类别判断;
在所述第j个待聚类文本与已确定为第i类别的各个所述待聚类文本属于相同的类别的情况下,将所述第j个待聚类文本归属于所述第i类别。
9.一种类别划分装置,其特征在于,包括:
获取模块,用于获取第一待聚类文本的类别集合和第二待聚类文本的类别集合;其中,所述第一待聚类文本和所述第二待聚类文本是初始待聚类文本集合中任意两个待聚类文本;所述第一待聚类文本的类别集合和所述第二待聚类文本的类别集合均包括多个候选类别,所述多个候选类别是在不同的类别数下对待聚类文本进行聚类处理后得到的类别;
第一确定模块,用于确定所述第一待聚类文本和所述第二待聚类文本被归属于相同的候选类别的数量;
第二确定模块,用于基于所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定所述第一待聚类文本和所述第二待聚类文本的相似度;
第三确定模块,用于基于所述第一待聚类文本和所述第二待聚类文本的相似度和预设的相似度阈值确定所述第一待聚类文本和所述第二待聚类文本的类别划分结果。
10.一种文本分类装置,其特征在于,包括:
信息获取模块,用于获取初始待聚类文本集合;
文本聚类模块,用于基于类别划分方法对所述初始待聚类文本集合中的待聚类文本进行聚类,获得各个所述待聚类文本的分类结果;其中,所述类别划分方法采用权利要求1至4任意一项所述的类别划分方法。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-4中任一项所述的类别划分方法或如权利要求5-8中任一项所述的文本分类方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-4中任一项所述的类别划分方法或如权利要求5-8中任一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211533755.9A CN116150355A (zh) | 2022-12-01 | 2022-12-01 | 类别划分方法、文本分类方法及装置、电子设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211533755.9A CN116150355A (zh) | 2022-12-01 | 2022-12-01 | 类别划分方法、文本分类方法及装置、电子设备、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116150355A true CN116150355A (zh) | 2023-05-23 |
Family
ID=86339789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211533755.9A Pending CN116150355A (zh) | 2022-12-01 | 2022-12-01 | 类别划分方法、文本分类方法及装置、电子设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116150355A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573875A (zh) * | 2023-12-05 | 2024-02-20 | 安芯网盾(北京)科技有限公司 | 一种同名文件聚类算法优化方法及装置 |
-
2022
- 2022-12-01 CN CN202211533755.9A patent/CN116150355A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573875A (zh) * | 2023-12-05 | 2024-02-20 | 安芯网盾(北京)科技有限公司 | 一种同名文件聚类算法优化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657137B (zh) | 舆情新闻分类模型构建方法、装置、计算机设备和存储介质 | |
CN111339436A (zh) | 一种数据识别方法、装置、设备以及可读存储介质 | |
US11226972B2 (en) | Ranking collections of document passages associated with an entity name by relevance to a query | |
CN111444363A (zh) | 一种图片检索方法、装置、终端设备及存储介质 | |
CN116150355A (zh) | 类别划分方法、文本分类方法及装置、电子设备、介质 | |
CN109657060B (zh) | 安全生产事故案例推送方法及系统 | |
CN112241458A (zh) | 文本的知识结构化处理方法、装置、设备和可读存储介质 | |
CN110083677B (zh) | 联系人的搜索方法、装置、设备及存储介质 | |
CN112016321B (zh) | 用于邮件处理的方法、电子设备和存储介质 | |
CN114398315A (zh) | 一种数据存储方法、系统、存储介质及电子设备 | |
CN110852620B (zh) | 物流订单的处理方法及装置、电子设备、存储介质 | |
US9235639B2 (en) | Filter regular expression | |
CN111882421B (zh) | 一种信息处理方法、风控方法、装置、设备及存储介质 | |
CN116151267A (zh) | 文本生成方法及装置、电子设备、计算机可读存储介质 | |
CN115878864A (zh) | 一种数据检索方法、装置、设备及可读存储介质 | |
CN115374793A (zh) | 基于服务场景识别的语音数据处理方法及相关装置 | |
CN113284027A (zh) | 团伙识别模型的训练方法、异常团伙识别方法及装置 | |
CN112101390A (zh) | 属性信息确定方法、属性信息确定装置及电子设备 | |
CN116089063B (zh) | 基于利用鲸鱼优化算法指导猎物生成的北方苍鹰优化wngo算法和相似整数编码的服务组合优化方法 | |
CN118094177B (zh) | 数据处理方法、数据处理装置、设备、介质及产品 | |
US20240168725A1 (en) | Method and system for identifying microservices in a monolith application | |
US20230266940A1 (en) | Semantic based ordinal sorting | |
CN115828111A (zh) | 一种污染源的数据管理方法、数据管理系统以及电子设备 | |
CN116244434A (zh) | 文本分类方法、装置、电子设备和计算机可读存储介质 | |
CN116128584A (zh) | 通信业务类型的确定方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |