CN111737461B

CN111737461B - 文本的处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111737461B
Application number: CN202010496796.XA
Authority: CN
Inventors: 李丹; 赵立永; 吴新丽; 韩勇; 刘启明; 代继涛
Original assignee: Xinhuanet Co ltd
Current assignee: Xinhuanet Co ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2023-11-07
Anticipated expiration: 2040-06-03
Also published as: CN111737461A

Abstract

本申请提供了一种文本的处理方法、装置、电子设备及计算机可读存储介质，涉及信息处理领域。该方法包括：确定出待检测的短文本数据的文本数量，并基于文本数量确定出类簇数量和聚类算法；基于聚类算法对各个待检测的短文本数据按照类簇数量进行聚类，得到各个类簇；确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句，当检测到任意两个类簇满足预设的合并条件时，将任意两个类簇进行合并，得到合并后的类簇；基于任意两个类簇的类簇主题句确定出合并后的类簇的类簇主题句。本申请保证了聚类的准确性，减少了聚类的时间复杂度，从而减少了聚类的耗时，进而提高了文本处理的整体效率。

Description

文本的处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及信息处理技术领域，具体而言，本申请涉及一种文本的处理方法、装置、电子设备及计算机可读存储介质。

背景技术

当前网络信息的复杂化、多样化、自由化，给网络信息的监控及处理带来了很多技术难题。微博等短文本的信息在全网信息中占的比重也越来越多，对于短文本的聚合已经很广泛地被应用，而从大量数据中快速提取热点主题句也成为重要的技术问题。

首先，现有的文本聚合技术主要采用聚类算法，但聚类属于非监督学习，速度远不及监督学习，即使是在诸多聚类算法中最高效的算法，效率也是很低的。特别是在面对海量的数据时，性能更是不尽人意。现今，文本聚类主要算法是对文本向量空间(VSM)的聚类，且目前主流的聚类算法有很多，大致分为基于层次、划分、密度、网格、模型、模糊等。基于层次、密度、模型的聚类算法，时间复杂度高，效率很低，这对于海量文本数据的聚类来说是致命的缺点；基于网格和密度的聚类对参数很敏感，无法处理不规则分布的数据、维数灾难等；在文本热点聚类中，文本向量空间维度是巨大的，基于网格的聚类算法是无法适用的；基于模糊的聚类算法，由于其算法的原理是在目标函数收敛到极小值时，算法迭代结束，然而本算法的缺点就是不能确保收敛于一个最优解

其次，在海量数据的场景中，为了提高聚类速度，主要采用KMeans系列的算法，但该算法的缺点是需要提前设定K值，并且K值的选取直接影响聚类的效果。而现有的K值选取有两种，一种是基于经验的固定取值：一种是肘方法。前者过于片面，不同的数据特征，不同应用场景，最佳K值也会有很大的差别，不能一概而论；后者是绘制簇类方差关于K的曲线，然后遍历找到第一个拐点为最佳K值，这个过程很容易进入局部最优，并且时间复杂度太高，对于大数据量的聚类，严重影响其性能。

再次，为了提高聚类算法的准备度，有些技术采用聚类融合的思想，聚类融合就是对一组对象采用不同的算法或者不同参数下的同一算法进行划分得到多个不同结果，然后将结果进行合并得到最终的聚类结果。从性能上看，前一部分划分多个结果就是几倍几十倍，再加上结果合并的时间，完整过程是非常耗时的。

最后，关于文本主题句提取的问题，现有技术有如下几种解决的技术路线。其一，基于检索的，但前提是有已标记的观点词性规则库、观点相应的字典，或者罗列的观点列表；其二，基于关键词或实体词的提取，用关键词和实体词进行检索或者聚类，但若在同一事件中，关键词实体词等重复信息量大，严重影响准确度。再者，现有技术大多是基于观点某一特定的属性的，例如分析观点的情感属性，但不能适用在观点主题句句提取的场景中。

总之，结合以上对现有技术的总结分析可知，亟需一种解决海量短文本热点主题句提取时准确度低、计算量大、耗时久、效率低的方法。

发明内容

申请提供了一种文本的处理方法、装置、电子设备及计算机可读存储介质，可以解决海量短文本热点主题句提取时准确度低、计算量大、耗时久、效率低的问题。所述技术方案如下：

第一方面，提供了一种文本的处理方法，该方法包括：

确定出待检测的短文本数据的文本数量，并基于所述文本数量确定出类簇数量和聚类算法；其中，类簇为包含至少两条待检测的短文本数据，且所述至少两条待检测的短文本数据属于同一类的簇；

基于所述聚类算法对所述待检测的短文本数据按照所述类簇数量进行聚类，得到待检测短文本数据对应的各个类簇；

确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句；

展示所述每个类簇的类簇主题句。

优选地，还包括：

当检测到任意两个类簇满足预设的合并条件时，将所述任意两个类簇进行合并，得到合并后的类簇；

基于预设的规则确定出所述合并后的类簇的类簇主题句。

优选地，基于所述文本数量确定出类簇数量，包括：

采用确定出类簇数量；其中，K为类簇数量，num_topHot为最热主题句的数量，n为文本数量，当n不小于第一数量阈值时，r为预设值，当n小于所述第一数量阈值时，/>

优选地，基于所述文本数量确定出聚类算法，包括：

当所述文本数量小于第二数量阈值时，将第一算法作为最终的聚类算法；

当所述文本数量不小于所述第二数量阈值且小于第三数量阈值时，将第二算法作为最终的聚类算法，并将所述第二算法中的预设参数设置为P，P为以为2为底的幂正整数；

当所述文本数量不小于所述第三数量阈值时，将第二算法作为最终的聚类算法，并将所述预设参数设置为Q，Q为小于P的以为2为底的幂正整数。

优选地，所述确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句，包括：

提取出任一类簇中每个短文本数据的T条文本主题句，并按照每条文本主题句的评分对各条文本主题句进行排序，得到所述任一类簇的文本主题句集合；其中，T为正整数；

从所述文本主题句集合中提取出未被提取的、评分最高的文本主题句，判断已提取的文本主题句的总字数是否超过字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值；

若是，则将已提取的文本主题句作为所述类簇主题句；

若否，则从剩余的文本主题句中提取出未被提取的、评分最高的文本主题句，重复执行判断已提取的文本主题句的总字数是否超过字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值，若否，则从剩余的文本主题句中提取出未被提取的、评分最高的文本主题句的步骤，直至已提取的文本主题句的总字数超过所述字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值时，将已提取的文本主题句进行合并，得到所述类簇主题句。

优选地，检测到任意两个类簇满足预设的合并条件，包括：

基于各个类簇中短文本数据的数量对各个类簇进行降序排序；

从排序最小的类簇对各个类簇进行双层遍历，并计算出各个类簇的类簇主题句的海明值；

当任意两个类簇对应的海明值的相似度小于相似度阈值时，判定所述任意两个类簇满足预设的合并条件。

优选地，基于预设的规则确定出所述合并后的类簇的类簇主题句，包括：

在所述任意两个类簇中，确定出短文本数据数量较大的类簇作为目标类簇；

将所述目标类簇的主题句作为所述合并后的类簇的类簇主题句；

或，

针对所述合并后的类簇，重复执行基于各个文本主题句确定出每个类簇的类簇主题句的步骤，直至确定出所述合并后的类簇的类簇主题句。

第二方面，提供了一种文本的处理装置，该装置包括：

第一处理模块，用于确定出待检测的短文本数据的文本数量，并基于所述文本数量确定出类簇数量和聚类算法；其中，类簇为包含至少两条待检测的短文本数据，且所述至少两条待检测的短文本数据属于同一类的簇；

聚类模块，用于基于所述聚类算法对各个待检测的短文本数据按照所述类簇数量进行聚类，得到待检测短文本数据对应的各个类簇；

第二处理模块，用于确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句；

展示模块，用于展示所述每个类簇的类簇主题句。

优选地，还包括：

检测模块，用于当检测到任意两个类簇满足预设的合并条件时，将所述任意两个类簇进行合并，得到合并后的类簇；

第三处理模块，用于基于预设的规则确定出所述合并后的类簇的类簇主题句。

优选地，所述第一处理模块具体用于：

当所述文本数量不小于所述第二数量阈值且小于第三数量阈值时，将第二算法作为最终的聚类算法，并将所述第二算法中的预设参数设置为P，P为以2为底的幂正整数；

当所述文本数量不小于所述第三数量阈值时，将所述第二算法作为最终的聚类算法，并将所述预设参数设置为Q，Q为小于P的以为2底的幂正整数。

优选地，所述第二处理模块，包括：

第一提取子模块，用于提取出任一类簇中每个短文本数据的T条文本主题句，并按照每条文本主题句的评分对各条文本主题句进行排序，得到所述任一类簇的文本主题句集合；其中，T为正整数；

第二提取子模块，用于从所述文本主题句集合中提取出未被提取的、评分最高的文本主题句；

判断子模块，用于判断已提取的文本主题句的总字数是否超过字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值；

确定子模块，用于将已提取的文本主题句作为所述类簇主题句；

第三提取子模块，用于从剩余的文本主题句中提取出未被提取的、评分最高的文本主题句，重复调用判断子模块、第三提取子模块，直至已提取的文本主题句的总字数超过所述字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值时，调用合并子模块，用于将已提取的文本主题句进行合并，得到所述类簇主题句。

优选地，所述检测模块，包括：

排序子模块，用于基于各个类簇中短文本数据的数量对各个类簇进行降序排序；

遍历子模块，用于从排序最小的类簇对各个类簇进行双层遍历，并计算出各个类簇的类簇主题句的海明值；

判定子模块，用于当任意两个类簇对应的海明值的相似度小于相似度阈值时，判定所述任意两个类簇满足预设的合并条件。

优选地，所述第三处理模块具体用于：

将所述目标类簇的主题句作为所述合并后的类簇的类簇主题句；或，

针对所述合并后的类簇，重复调用第二处理模块，直至确定出所述合并后的类簇的类簇主题句。

第三方面，提供了一种电子设备，该电子设备包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，可执行指令使处理器执行如本申请的第一方面所示的文本的处理方法对应的操作。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的文本的处理方法。

本申请提供的技术方案带来的有益效果是：

针对待检测的短文本，确定出短文本数据的文本数量，并基于所述文本数量确定出类簇数量和聚类算法，其中，类簇为包含至少两条待检测的短文本数据，且所述至少两条待检测的短文本数据属于同一类的簇；再基于所述聚类算法对各个待检测的短文本数据按照所述类簇数量进行聚类，得到待检测短文本数据对应的各个类簇，然后确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句，以及展示所述每个类簇的类簇主题句。这样，基于待检测的短文本的数量动态确定出聚类的方式以及聚类后类簇的数量，再采用该聚类的方式进行聚类得到多个类簇，即可确定出各个类簇的主题句，相较于直接对所有待检测的短文本进行聚类，不仅保证了聚类的准确性，还大大减少了聚类的时间复杂度，从而减少了聚类的耗时，进而提高了文本处理的整体效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请一个实施例提供的一种文本的处理方法的流程示意图；

图2为本申请另一实施例提供的一种文本的处理方法的流程示意图；

图3为本申请中类簇主题句的提取流程示意图；

图4为本申请中类簇的合并流程示意图示意图；

图5为本申请又一实施例提供的一种文本的处理装置的结构示意图；

图6为本申请又一实施例提供的一种处理文本的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供的文本的处理方法、装置、电子设备和计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

在一个实施例中提供了一种文本的处理方法，如图1所示，该方法包括：

步骤S101，确定出待检测的短文本数据的文本数量，并基于文本数量确定出类簇数量和聚类算法；其中，类簇为包含至少两条待检测的短文本数据，且至少两条待检测的短文本数据属于同一类的簇；

其中，短文本也可以称为短小文本，包括论坛/BBS、留言及回复、咨询、建议及意见反馈、手机短信/网络小纸条、即时聊天记录(比如MSN/QQ/POPO等)等形式的文本。由于文本短小内容较少，短的只有几十字，多的也就是一百字左右，所以短文本的特征不明显。进一步，类簇为包含至少两条待检测的短文本数据，且至少两条待检测的短文本数据属于同一类的簇。

在本发明实施例中，待检测的短文本可以上述任意形式的短文本，可以通过网络爬虫、网络蜘蛛等工具来获取，当然，其它获取短文本的形式也是适用于本发明实施例，本发明实施例对此不作限制。

进一步，在对所有的待检测的短文本进行聚类时，会根据不同数量的短文本采用不同的聚类算法，以及确定出聚类后类簇的数量，所以，在获取到了待检测的短文本之后，需要先确定出待检测的短文本的数量，再基于该数量确定出类簇的数量和聚类算法。

步骤S102，基于聚类算法对待检测的短文本数据按照类簇数量进行聚类，得到待检测短文本数据对应的各个类簇；

确定了聚类算法和聚类后的类簇数量后，就可以采用该聚类算法对所有待检测的短文本进行聚类，从而得到待检测短文本数据对应的各个类簇了。

步骤S103，确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句。

聚类得到各个类簇后，每个类簇都具有属性信息，包括但不限于：类簇的索引号topicId、类簇中包含的短文本的数量quantity、类簇的主题句title、类簇中所有短文本的主题句的集合titleSet、类簇的摘要abstract、类簇包含的短文本的信息列表docChildren；docChildren又包括短文本的主题句headline、短文本对应的短文本向量与类簇中心对应的类簇中心向量的距离+(比如+0.01，防止分母为0)的倒数weight、短文本的名称assetId，以及短文本的内容content。

步骤S104，展示每个类簇的类簇主题句。

确定出每个类簇的类簇主题句之后，可以将各个类簇主题句展示给用户。其中，展示的形式可以按照每个类簇主题句对应的类簇中短文本的数量quantity的大小进行降序排列，也可以根据需求输出TopN的热点排序；展示的信息内容可以包含但不限于：各个类簇的类簇主题句、各类簇包含的短文本的信息列表。当然，通过其它形式展示类簇主题句还可以是其它形式，展示的信息内容也可以包括其它信息内容，在实际应用中可以根据实际需求进行设置，本发明实施例对此均不作限制。

在本发明实施例中，针对待检测的短文本，确定出短文本数据的文本数量，并基于文本数量确定出类簇数量和聚类算法，其中，类簇为包含至少两条待检测的短文本数据，且至少两条待检测的短文本数据属于同一类的簇；再基于聚类算法对各个待检测的短文本数据按照类簇数量进行聚类，得到待检测短文本数据对应的各个类簇，然后确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句，以及展示每个类簇的类簇主题句。这样，基于待检测的短文本的数量动态确定出聚类的方式以及聚类后类簇的数量，再采用该聚类的方式进行聚类得到多个类簇，即可确定出各个类簇的主题句，相较于直接对所有待检测的短文本进行聚类，不仅保证了聚类的准确性，还大大减少了聚类的时间复杂度，从而减少了聚类的耗时，进而提高了文本处理的整体效率。

在另一个实施例中提供了一种文本的处理方法，如图2所示，该方法包括：

步骤S201，确定出待检测的短文本数据的文本数量，并基于文本数量确定出类簇数量和聚类算法；其中，类簇为包含至少两条待检测的短文本数据，且至少两条待检测的短文本数据属于同一类的簇；

其中，短文本也可以称为短小文本，包括论坛/BBS、留言及回复、咨询、建议及意见反馈、手机短信/网络小纸条、即时聊天记录(比如MSN/QQ/POPO等)等形式的文本。由于文本短小内容较少，短的只有几十字，多的也就是一百字左右，所以短文本的特征不明显。进一步，类簇为包含至少两条待检测的短文本数据，且至少两条待检测的短文本数据属于同一类的簇。比如，短文本数据A、B、C、D，A和B属于同一类，C和D属于同一类，那么A和B属于一个类簇，C和D属于一个类簇。

在本发明实施例中，待检测的短文本可以上述任意形式的短文本，可以通过网络爬虫、网络蜘蛛等工具来获取，当然，其它获取短文本的形式也是适用于本发明实施例的，本发明实施例对此不作限制。

在本发明一种优选实施例中，基于文本数量确定出类簇数量，包括：

采用确定出类簇数量；其中，K为类簇数量，num_topHot为最热主题句的数量，n为文本数量，当n不小于第一数量阈值时，r为预设值，当n小于第一数量阈值时，/>

具体而言，现有的KMeans聚类算法有速度快的强大优势，但缺点是需要预先设定类簇的数量K值，通常设定为这样就会出现以下问题：如果/>的值太小，聚类的准确度会大幅降低，如果/>的值太大，严重影响聚类本身时间及后续类簇合并的时间。

针对上述问题，本发明实施例设置了K值动态取值的公式：

其中，K为类簇数量，为最热主题句的数量，比如，从n条短文本中选出条最热的主题句，n为文本数量，当n不小于第一数量阈值时，r为预设值，比如为0.01，当n小于第一数量阈值时，比如，第一数量阈值设定为100万，当待检测的短文本的数量小于100万时，/>当待检测的短文本的数量不小于100万时，r为0.01。

在本发明一种优选实施例中，基于文本数量确定出聚类算法，包括：

当文本数量小于第二数量阈值时，将第一算法作为最终的聚类算法；

当文本数量不小于第二数量阈值且小于第三数量阈值时，将第二算法作为最终的聚类算法，并将第二算法中的预设参数设置为P，P为以2为底的幂正整数；

当文本数量不小于第三数量阈值时，将第二算法作为最终的聚类算法，并将预设参数设置为Q，Q为小于P的以2为底的幂正整数。

其中，第一算法可以为KMeans算法，第二算法可以为mini-batch KMeans算法，预设参数可以为batch_size。

具体而言，当待检测的短文本的数量小于第二数量阈值时，比如5000条，那么就直接采用KMeans算法对所有待检测的短文本进行聚类即可。

当待检测的短文本的数量不小于第二数量阈值，且小于第三数量阈值时，比如5000≤n≤20000，那么就采用mini-batch KMeans算法对所有待检测的短文本进行聚类，此时，batch_size为P，P为正整数，比如，batch_size＝1024；而当待检测的短文本的数量不小于第三数量阈值时，也会继续采用mini-batch KMeans算法对所有待检测的短文本进行聚类，但是，batch_size为Q，Q为小于P的正整数，比如，batch_size＝512。

其中，KMeans算法也称k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

mini-batch KMeans算法是一种能尽量保持聚类准确性下但能大幅度降低计算时间的聚类模型，采用小批量的数据子集减少计算时间，同时仍试图优化目标函数，这里所谓的mini-batch是指每次训练算法时随机抽取的数据子集，采用这些随机选取的数据进行训练，大大的减少了计算的时间，减少的KMeans算法的收敛时间。其中，batch_size就是一次训练所选取的样本数，batch_size＝512也就是每次选取512个样本进行训练。应用于本发明实施例，就是每次选取512个短文本进行聚类。

需要说明的是，在获取到待检测的短文本之后，可以先对所有的短文本进行过滤，将短文本中的符号、非文本等字符删除，这样就可以去掉非文本的干扰。

步骤S202，基于聚类算法对各个待检测的短文本数据按照类簇数量进行聚类，得到待检测短文本数据对应的各个类簇；

步骤S203，确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句；

聚类得到各个类簇后，每个类簇都具有属性信息，包括但不限于：类簇的索引号topicId、类簇中包含的短文本的数量quantity、类簇的主题句title、类簇中所有短文本的主题句的集合titleSet、类簇的摘要abstract、类簇包含的短文本的信息列表docChildren；docChildren又包括短文本的主题句headline、短文本与title距离+(比如+0.01，防止分母为0)的倒数weight、短文本的名称assetId，以及短文本的内容content。

在本发明一种优选实施例中，确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句，包括：

提取出任一类簇中每个短文本数据的T条文本主题句，并按照每条文本主题句的评分对各条文本主题句进行排序，得到任一类簇的文本主题句集合；其中，T为正整数；

从文本主题句集合中提取出未被提取的、评分最高的文本主题句，判断已提取的文本主题句的总字数是否超过字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值；

若是，则将已提取的文本主题句作为类簇主题句；

若否，则从剩余的文本主题句中提取出未被提取的、评分最高的文本主题句，重复执行判断已提取的文本主题句的总字数是否超过字数阈值，若否，则从剩余的文本主题句中提取出未被提取的、评分最高的文本主题句的步骤，直至已提取的文本主题句的总字数超过字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值时，将已提取的文本主题句进行合并，得到类簇主题句。

具体而言，针对任一类簇，可以采用HanLP的摘要提取方法extractSummary提取出每个短文本的T条文本主题句，而且，HanLP在提取时会计算出每条文本主题句的评分，所以，提取完成后可以按照每条文本主题句的评分对各条文本主题句进行排序，这样就得到该类簇中所有短文本的文本主题句集合，比如，某个类簇包含100个短文本，每个短文本提取3条文本主题句，那么就得到了一个包含300条文本主题句的集合(即titleSet)，每条主题句都有一个评分。当然，除了HanLP之外，其它的提取方法也适用于本发明实施例，在实际应用可以根据实际需求进行设置，本发明实施例对此不作限制。

然后，从集合中提取出未被提取的、评分最高的文本主题句，判断已提取的文本主题句的总字数是否超过字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值；若是，则将已提取的文本主题句作为类簇主题句；若否，则从剩余的文本主题句中提取出未被提取的、评分最高的文本主题句，重复执行判断已提取的文本主题句的总字数是否超过字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值，若否，则从剩余的文本主题句中提取出未被提取的、评分最高的文本主题句的步骤，直至已提取的文本主题句的总字数超过字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值时，将已提取的文本主题句进行合并，得到类簇主题句，具体流程如图3所示。

比如，假设字数阈值为15，主题句数量阈值为3，当从集合中提取出未被提取的、评分最高的5个字的文本主题句时，判断已提取的文本主题句的字数是否超过字数阈值，或者文本主题句的数量是否超过主题句数量阈值，由于均未超过，所以继续从剩下的集合中再提取出未被提取的、评分最高的4个字的文本主题句，然后重复进行上述判断，由于仍然均未超过，所以仍然继续从剩下的集合中再提取出5个字的文本主题句，然后重复进行上述判断，由于已提取了3条文本主题句，等于主题句数量阈值，所以此时将已提取的3条文本主题句进行合并，得到14个字的主题句，作为该类簇的类簇主题句。

步骤S204，展示每个类簇的类簇主题句；

步骤S205，当检测到任意两个类簇满足预设的合并条件时，将任意两个类簇进行合并，得到合并后的类簇；

聚类后得到的多个类簇中，可能会出现相似度较高的类簇，针对这种情况，可以将相似度较高的类簇进行合并，得到合并后的类簇。

在本发明一种优选实施例中，检测到任意两个类簇满足预设的合并条件，包括：

当任意两个类簇对应的海明值的相似度小于相似度阈值时，判定任意两个类簇满足预设的合并条件。

具体而言，可以先将所有的类簇按照权重(即类簇中短文本数据的数量quantity)降序排序，然后，从排序最小的类簇进行双层遍历，其中，K为类簇的数量，亦是排序最小的类簇的索引号。如图4所示，第i个类簇和第j个类簇，分别从(K到2)和(i-1到1)进行双层遍历，判断两个类簇是否满足合并条件。当满足合并条件时，把合并后的类簇存放在索引号靠前的那一个位置，索引号靠后的置空。全部类簇遍历完成后，将置空的索引位置的类簇过滤掉。

其中，相似度计算方法为：计算各个类簇主题句的海明值，再将两值之间的距离(海明距离)作为相似度依据。当海明距离小于或等于距离阈值时，两个类簇将合并为一个类簇，大于这个阈值时不合并。

步骤S206，基于预设的规则确定出合并后的类簇的类簇主题句。

两个类簇合并后，进一步根据预设的规则确定出合并后的类簇的类簇主题句。

在本发明一种优选实施例中，基于预设的规则确定出合并后的类簇的类簇主题句，包括：

在任意两个类簇中，确定出短文本数据数量较大的类簇作为目标类簇；

将目标类簇的主题句作为合并后的类簇的类簇主题句；

或，

具体而言，可以先确定出短文本数据数量(即权重)较大的那个类簇，然后将该类簇的类簇主题句作为合并后的类簇的类簇主题句。

或者，先将两个类簇进行合并，得到合并后的类簇，合并后的类簇中包括两个类簇的所有短文本数据的主题句，以及每个主题句都有对应的评分，然后将评分最高的主题句作为合并后的类簇的类簇主题句即可。具体方式可参考步骤S203，在此就不赘述了。

进一步，除了更新类簇主题句之外，还可以更新其它信息，比如：quantity为2个类簇的quantity之和、abstract为权重较大的类簇的摘要、docChildren为2个类簇短文本列表的集合等等。

进一步，通过合并得到合并后的各个类簇，并确定合并后的每个类簇的类簇主题句之后，可以对合并后的各个类簇的类簇主题句进行展示。其中，展示的形式可以按照每个类簇主题句对应的类簇中短文本的数量quantity的大小进行降序排列，也可以根据需求输出TopN的热点排序；展示的信息内容可以包含但不限于：各个类簇的类簇主题句、各类簇包含的短文本的信息列表。当然，通过其它形式展示类簇主题句还可以是其它形式，展示的信息内容也可以包括其它信息内容，在实际应用中可以根据实际需求进行设置，本发明实施例对此均不作限制。

进一步，针对聚类后得到的各个类簇，还可以计算各个类簇之间的相似度，这样就可以将相似度较高的类簇进行合并，得到合并后的类簇的主题句，解决了现有技术中需要先对一组对象采用不同的算法或者不同参数下的同一算法进行划分得到多个不同结果，然后将结果进行合并得到最终的聚类结果，导致聚类整合耗费大量时间的问题，进一步减少聚类的耗时，进一步提高了文本处理的整体效率。

图5为本申请又一实施例提供的一种文本的处理装置的结构示意图，如图5所示，本实施例的装置可以包括：

第一处理模块501，用于确定出待检测的短文本数据的文本数量，并基于文本数量确定出类簇数量和聚类算法；其中，类簇为包含至少两条待检测的短文本数据，且至少两条待检测的短文本数据属于同一类的簇；

聚类模块502，用于基于聚类算法对各个待检测的短文本数据按照类簇数量进行聚类，得到待检测短文本数据对应的各个类簇；

第二处理模块503，用于确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句；

展示模块504，用于展示每个类簇的类簇主题句。

在本发明一种优选实施例中，还包括：

检测模块，用于当检测到任意两个类簇满足预设的合并条件时，将任意两个类簇进行合并，得到合并后的类簇；

第三处理模块，用于基于预设的规则确定出合并后的类簇的类簇主题句。

在本发明一种优选实施例中，第一处理模块具体用于：

当文本数量不小于第二数量阈值且小于第三数量阈值时，将第二算法作为最终的聚类算法，并将第二算法中的预设参数设置为P，P为以为2底的幂正整数；

在本发明一种优选实施例中，第二处理模块，包括：

第一提取子模块，用于提取出任一类簇中每个短文本数据的T条文本主题句，并按照每条文本主题句的评分对各条文本主题句进行排序，得到任一类簇的文本主题句集合；其中，T为正整数；

第二提取子模块，用于从文本主题句集合中提取出未被提取的、评分最高的文本主题句；

确定子模块，用于将已提取的文本主题句作为类簇主题句；

第三提取子模块，用于从剩余的文本主题句中提取出未被提取的、评分最高的文本主题句，重复调用判断子模块、第三提取子模块，直至已提取的文本主题句的总字数超过字数阈值，或，已提取的文本主题句的数量超过主题句数量阈值时，调用合并子模块，用于将已提取的文本主题句进行合并，得到类簇主题句。

在本发明一种优选实施例中，检测模块，包括：

判定子模块，用于当任意两个类簇对应的海明值的相似度小于相似度阈值时，判定任意两个类簇满足预设的合并条件。

在本发明一种优选实施例中，第三处理模块具体用于：

将目标类簇的主题句作为合并后的类簇的类簇主题句；或，

针对合并后的类簇，重复调用第二处理模块，直至确定出合并后的类簇的类簇主题句。

本实施例的文本的处理装置可执行本申请第一个实施例、第二个实施例所示的文本的处理方法，其实现原理相类似，此处不再赘述。

本申请的又一实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：针对待检测的短文本，确定出短文本数据的文本数量，并基于文本数量确定出类簇数量和聚类算法，其中，类簇为包含至少两条待检测的短文本数据，且至少两条待检测的短文本数据属于同一类的簇；再基于聚类算法对各个待检测的短文本数据按照类簇数量进行聚类，得到待检测短文本数据对应的各个类簇，然后确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句，以及展示每个类簇的类簇主题句。这样，基于待检测的短文本的数量动态确定出聚类的方式以及聚类后类簇的数量，再采用该聚类的方式进行聚类得到多个类簇，即可确定出各个类簇的主题句，相较于直接对所有待检测的短文本进行聚类，不仅保证了聚类的准确性，还大大减少了聚类的时间复杂度，从而减少了聚类的耗时，进而提高了文本处理的整体效率。

在一个可选实施例中提供了一种电子设备，如图6所示，图6所示的电子设备6000包括：处理器6001和存储器6003。其中，处理器6001和存储器6003相连，如通过总线6002相连。可选地，电子设备6000还可以包括收发器6004。需要说明的是，实际应用中收发器6004不限于一个，该电子设备6000的结构并不构成对本申请实施例的限定。

处理器6001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器6001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线6002可包括一通路，在上述组件之间传送信息。总线6002可以是PCI总线或EISA总线等。总线6002可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器6003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器6003用于存储执行本申请方案的应用程序代码，并由处理器6001来控制执行。处理器6001用于执行存储器6003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

本申请的又一实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，针对待检测的短文本，确定出短文本数据的文本数量，并基于文本数量确定出类簇数量和聚类算法，其中，类簇为包含至少两条待检测的短文本数据，且至少两条待检测的短文本数据属于同一类的簇；再基于聚类算法对各个待检测的短文本数据按照类簇数量进行聚类，得到待检测短文本数据对应的各个类簇，然后确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句，以及展示每个类簇的类簇主题句。这样，基于待检测的短文本的数量动态确定出聚类的方式以及聚类后类簇的数量，再采用该聚类的方式进行聚类得到多个类簇，即可确定出各个类簇的主题句，相较于直接对所有待检测的短文本进行聚类，不仅保证了聚类的准确性，还大大减少了聚类的时间复杂度，从而减少了聚类的耗时，进而提高了文本处理的整体效率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本的处理方法，其特征在于，包括：

确定出待检测的短文本数据的文本数量，并基于所述文本数量确定出类簇数量和聚类算法；其中，类簇为包含至少两条待检测的短文本数据，且所述至少两条待检测的短文本数据属于同一类的簇；所述聚类算法为KMeans算法或mini-batch KMeans算法；

展示所述每个类簇的类簇主题句；

所述基于所述文本数量确定出类簇数量，包括：

2.根据权利要求1所述的文本的处理方法，其特征在于，还包括：

基于预设的规则确定出所述合并后的类簇的类簇主题句。

3.根据权利要求1所述的文本的处理方法，其特征在于，基于所述文本数量确定出聚类算法，包括：

当所述文本数量不小于所述第二数量阈值且小于第三数量阈值时，将第二算法作为最终的聚类算法，并将所述第二算法中的预设参数设置为P，P为以为2底的幂正整数；

当所述文本数量不小于所述第三数量阈值时，将所述第二算法作为最终的聚类算法，并将所述预设参数设置为Q，Q为小于P的以为2为底的幂正整数；

其中，所述第一算法为所述KMeans算法，所述第二算法为所述mini-batch KMeans算法。

4.根据权利要求1所述的文本的处理方法，其特征在于，所述确定出每个类簇中每个短文本数据的文本主题句，并基于各个文本主题句确定出每个类簇的类簇主题句，包括：

若是，则将已提取的文本主题句作为所述类簇主题句；

5.根据权利要求2所述的文本的处理方法，其特征在于，检测到任意两个类簇满足预设的合并条件，包括：

6.根据权利要求2所述的文本的处理方法，其特征在于，基于预设的规则确定出所述合并后的类簇的类簇主题句，包括：

或，

7.一种文本的处理装置，其特征在于，包括：

第一处理模块，用于确定出待检测的短文本数据的文本数量，并基于所述文本数量确定出类簇数量和聚类算法；其中，类簇为包含至少两条待检测的短文本数据，且所述至少两条待检测的短文本数据属于同一类的簇；所述聚类算法为KMeans算法或mini-batchKMeans算法；

聚类模块，用于基于所述聚类算法对所述待检测的短文本数据按照所述类簇数量进行聚类，得到待检测短文本数据对应的各个类簇；

展示模块，用于展示所述每个类簇的类簇主题句；

所述基于所述文本数量确定出类簇数量，包括：

采用确定出类簇数量；其中，K为类簇数量，num_topHot为最热主题句的数量，n为文本数量，当n不小于第一数量阈值时，r为预设值，当n小于所述第一数量阈值时，

8.根据权利要求7所述的文本的处理装置，其特征在于，还包括：

9.根据权利要求7所述的文本的处理装置，其特征在于，所述第一处理模块具体用于：

10.根据权利要求7所述的文本的处理装置，其特征在于，所述第二处理模块，包括：

11.一种电子设备，其特征在于，其包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行上述权利要求1-6中任一项所述的文本的处理方法。

12.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1-6中任一项所述的文本的处理方法。