CN110413787A

CN110413787A - 文本聚类方法、装置、终端和存储介质

Info

Publication number: CN110413787A
Application number: CN201910687147.5A
Authority: CN
Inventors: 何赛克; 王海亮; 郑晓龙; 张立业; 张柱; 王姣姣; 曾大军
Original assignee: Institute of Automation of Chinese Academy of Science; Tencent Cyber Tianjin Co Ltd
Current assignee: Institute of Automation of Chinese Academy of Science; Tencent Cyber Tianjin Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-05
Anticipated expiration: 2039-07-26
Also published as: CN110413787B

Abstract

本发明实施例公开了一种文本聚类方法、装置、终端和存储介质，其中，方法包括，获取媒体中的文本数据，并对文本数据进行标签分析处理，得到N个标签，根据N个标签中各个标签之间的相似度对N个标签进行聚类处理，得到M个标签集合，在检测到可视化事件时，显示M个标签集合中每一个标签集合对应的显示标识信息，通过实施上述方法，可以基于文本中标签的相似度对文本进行聚类，提升了对文本的聚类效率。

Description

文本聚类方法、装置、终端和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本聚类方法、装置、终端和存储介质。

背景技术

随着互联网技术的发展，互联网中出现了大量的文本(如新闻、短文、评论等)，上述文本描述了各种各样的内容，并包括了不同用户当前感兴趣的内容，有效的对上述文本进行分类，可以有助于了解当前的流行趋势，以更好的对用户的兴趣进行分析。

现有的文本聚类技术主要为针对全部文本直接聚类，如基于结构化文本进行聚类方法、K-Means法、层次聚类法和自组织映射聚类等。但上述算法的复杂度较高，导致对文本的聚类效率较低。

发明内容

本发明实施例提供了一种文本聚类方法、装置、终端和存储介质，可以基于文本中标签的相似度对文本进行聚类，提升了对文本聚类的处理效率。

第一方面，本发明实施例提供了一种文本聚类方法，所述方法包括：

获取媒体中的文本数据，并对所述文本数据进行标签分析处理，得到N个标签，所述N为正整数；

根据所述N个标签中各个标签之间的相似度对所述N个标签进行聚类处理，得到M个标签集合，所述M个标签集合中每个标签集合包括了属于同一类别的标签，所述同一类别的标签之间的相似度满足相似度条件，所述M为正整数；

在检测到可视化事件时，显示所述M个标签集合中每一个标签集合对应的显示标识信息，其中，所述显示标识信息是根据所述M个标签集合中每一个标签集合对应的文本数据和/或所述M个标签集合中每一个标签集合对应的标签得到的。

第二方面，本发明实施例提供了一种文本聚类装置，所述装置包括：

获取模块，用于获取媒体中的文本数据，并对所述文本数据进行标签分析处理，得到N个标签，所述N为正整数；

处理模块，用于根据所述N个标签中各个标签之间的相似度对所述N个标签进行聚类处理，得到M个标签集合，所述M个标签集合中每个标签集合包括了属于同一类别的标签，所述同一类别的标签之间的相似度满足相似度条件，所述M为正整数；

显示模块，用于在检测到可视化事件时，显示所述M个标签集合中每一个标签集合对应的显示标识信息，其中，所述显示标识信息是根据所述M个标签集合中每一个标签集合对应的文本数据和/或所述M个标签集合中每一个标签集合对应的标签得到的。

第三方面，本发明实施例提供了一种终端，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行第一方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。

本发明实施例中，终端获取媒体中的文本数据，并对文本数据进行标签分析处理，得到N个标签，终端根据N个标签中各个标签之间的相似度对N个标签进行聚类处理，得到M个标签集合，并在检测到可视化事件时，显示M个标签集合中每一个标签集合对应的显示标识信息，通过实施上述方法，可以基于文本中标签的相似度对文本进行聚类，提升了对文本的聚类效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本聚类方法的流程示意图；

图2是本发明实施例提供的一种指纹向量获取方法的流程示意图；

图3是本发明实施例提供的另一种文本聚类方法的流程示意图；

图4是本发明实施例提供的一种标签聚类结果示意图；

图5是本发明实施例提供的一种标签的展示界面示意图；

图6是本发明实施例提供的一种标签的出现频数的示意图；

图7是本发明实施例提供的一种阶段划分的流程示意图；

图8是本发明实施例提供的另一种标签的展示界面示意图；

图9是本发明实施例提供的一种文本聚类装置的结构示意图；

图10是本发明实施例提供的一种终端的结构示意图。

具体实施方式

随着互联网技术的发展，互联网中出现了大量的文本，上述文本展示了用户当前感兴趣的内容，有效的对上述文本进行分类，可以有助于了解当前的流行趋势，以更好的对用户的兴趣进行分析。有鉴于此，本发明实施例提供一种文本聚类方法，该方法包括三个核心方面：文本中标签的提取、标签的聚类以及标签的追踪与可视化。本发明有助于提升文本聚类的效率，并对用户的兴趣进行追踪。

针对标签的提取方面，传统标签的提取技术主要分为两类：基于关键词和基于话题。基于关键词的提取技术，通常只能对已知标签进行监测和统计分析，而无法自动检测网络空间中新出现的未知标签。基于话题的分析技术聚焦在主题相关关键词间的简单聚合，而不强调标签之间的相似度和继承关系。因此，为主动探测网络空间中不断涌现的未知用户标签，本发明实例将首先解决面向海量文本的标签提取方法，该方法设计能量函数来融合字符串独立性和字串符长度，以保证提取的标签具有足够高的语义完整度和准确性。

针对标签的聚类方面，传统基于层次聚类和密度聚类的方法算法复杂度较高，难以保证标签聚类的实时性和频繁更新需求。为此，本发明实例设计一种基于标签相似度传递性的聚类方法，来大幅压缩标签搜索空间，并设计基于指纹向量的快速比对技术，来进一步提升聚类速度和更新效率。

针对标签的追踪与可视化方面，传统技术主要采用峰值检测和毛刺聚类相结合的策略。这种方法的效果严重依赖峰值的阈值设置，并且聚类算法的效果验证依赖于演化序列的形状，切分效果不够理想。为解决这些问题，本发明实例提出了基于演化序列包络提取的快速切分策略，避免了复杂的聚类过程，且对阈值设置具有高度鲁棒性，切分效率远高于传统方法，非常适合实时切分和复杂的标签演化场景。

基于上述描述，本发明实施例提供了一种文本聚类方法。该方法具有领域普适、语言无关以及高效鲁棒的特点，适合于海量文本数据中高实时、高精度地提取文本中的标签，并基于提取得到的标签对文本进行聚类，提升了对文本聚类的处理效率，并可以对用户感兴趣的内容进行追踪。

请参见图1，为本发明实施例提供一种文本聚类方法的流程示意图，该文本聚类过程可包括以下步骤S101-S103：

S101、终端获取媒体中的文本数据，并对文本数据进行标签分析处理，得到N个标签。

本发明实施例中，媒体中的文本数据具体可以为书面文本(遣词造句规范的文本，一般由官方机构对外发布)，如：新闻报道，或者，自由文本(语种、语法混搭、不规范的文本，一般由自媒体或其它非官方渠道发布)，如：社交平台数据、用户评论数据等。文本数据具体可以为多篇报道、多段评论、多篇软文集合等，媒体可以为互联网中的社交平台、软文推送平台、论坛等。

终端获取到媒体中的文本数据之后，将对文本数据进行标签分析处理，得到N个标签，具体的，终端基于预设切分规则对文本数据进行切分，得到K个子字符串，其中，N和K均为正整数，预设的切分规则可以为对文本数据中每个短句进行等长切分，切分长度可以为2至文本数据中子字符串所在短句的长度。

具体实现中，可以将文本数据I确定为短句T的集合，即I＝{T，L}，其中，T为短句的集合T＝{T₁,T₂,…,T_N}，T_i表示文本数据中任意一个短句，L为短句的长度，短句具体可以由文本数据中的标点符号进行划分，即将两个标点之间的字符串确定为文本数据中的短句。对于每一个短句T_i，终端可以基于预设的切分规则提取T_i中所有的子字符串。例如，预设的切分规则为对文本数据中每个短句进行等长切分，短句T_i为“手机很好用”，则切分长度为2时，可以得到子字符串s₁为“手机”、s₂为“机很”、s₃为“很好”、s₄为“好用”，切分长度为3时，可以得到子字符串s₅为“手机很”、s₆为“机很好”、s₇为“很好用”，切分长度为4时，可以得到子字符串s₈为“手机很好”、s₉为“机很好用”，切分长度为5时，可以得到子字符串“手机很好用”，则终端基于预设的切分规则提取T_i中所有的子字符串得到集合{s₁,s₂,s₃…,s₈,s₉,s₁₀}。通过上述方式，终端可以对文本数据中每个短句的子字符串进行提取，得到K个子字符串。

进一步的，终端提取出K个子字符串之后，将计算K个子字符串中每个子字符串的独立性和长度，在一种实现方式中，独立性由每个子字符串在文本数据中的出现频数所确定，具体可以为由预设的频数与独立性的对应关系确定，如出现频数为10次，则对应的独立性为5，出现频数20，则对应的独立性为10。在一种实现方式中，独立性的具体计算方式也可以为，针对K个子字符串中任意一个子字符串s，定义pre(s)为s所在的短句中与s不同的前缀字符数量，suf(s)为s所在的短句中与s不同的后缀字符数量，子字符串s的独立性d(s)为：d(s)＝min{pre(s)，suf(s)}。即将前后缀不同字符数的最小值作为子字符串s的独立性度量标准，终端获取子字符串s中包含的所有字符个数并记为C(s)。

进一步的，终端根据子字符串的独立性和长度确定K个子字符串中每个子字符串的能量函数值。定义字符串s的能量函数E(s)为：E(s)＝f(d(s)，C(s))，其中，f为定义在d(s)和C(s)上的复合作用函数，从而对具有高独立性和语义丰富的字符串赋予高的能量值。据此，f可以设置为基于d(s)和C(s)两变量的单调递增函数。如表1所示，为一种可选的能量函数集，表1中，a和b为是参数，且当a>b|a,b∈[1,10]时，基于能量函数提取出的标签效果较佳。

表1

终端确定K个子字符串中每个子字符串的能量函数值之后，可以将K个子字符串中能量函数值大于预设阈值的子字符串确定为文本数据的标签，其中，标签的数量为N。具体实现中，预设阈值可以为K个子字符串的能量函数值中最大的能量函数值和最小的能量函数值的平均值，也可以由研发人员预先设定。

S102、终端根据N个标签中各个标签之间的相似度对N个标签进行聚类处理，得到M个标签集合。

本发明实施例中，M个标签集合中每个标签集合包括了属于同一类别的标签，同一类别的标签之间的相似度满足相似度条件，相似度条件具体可以为相似度大于预设相似度，或者，相似度介于某个区间之内，具体可以由用户预先设置，M为正整数。

具体的，终端从N个标签中选取一个标签作为第一标签，并计算第二标签与第一标签之间的相似度，第二标签为N个标签中的任意一个标签，若第二标签与第一标签之间的相似度大于预设相似度，则终端将第二标签和第一标签归于同一类型，并将第二标签和第一标签加入至同一标签集合中。通过上述方式，终端可以对N个标签中每个标签完成分类，得到M个标签集合。

其中，第一标签与第二标签之间的相似度的具体计算方式可以为，终端获取第一标签对应的第一指纹向量和第二标签对应的第二指纹向量，其中，指纹向量由标签中词组的哈希码所确定。下面以目标标签的指纹向量获取方式为例来对N个标签中每个标签的指纹向量获取方式进行说明，目标标签为N个标签中的任意一个标签。图2描述了目标标签s的指纹向量的具体获取过程，具体包括步骤s201-s205。

s201、终端对目标标签s进行分词处理，得到I个词组W＝[w₁,w₂,…,w_i]，其中，w_i对应目标标签中第i个词组，分词处理的具体方式可以为基于字符匹配的方式，或者，通过字与字相邻共现的频率或概率的方式，或者，基于大量已经分词的文本，利用统计机器学习模型学习词语切分的规律来实现分词的方式等，在此不做限定。

s202、终端对I个词组进行哈希映射，得到I个词组对应的哈希码组，哈希码组中包括I个词组中每个词组对应的哈希码。具体实现中，终端对W中每个词语w_i进行哈希映射，得到W对应的哈希码组H＝[h₁,h₂,…,h_i]，其中，h_i为w_i的哈希码。哈希映射函数可根据实际应用场景选择，典型的哈希映射函数包括MD4、MD5、SHA1等，哈希码中码字长度根据可以由研发人员预先设定。

s203、终端对哈希码组中每个哈希码进行极化处理，得到极化哈希码组，极化哈希码组中包括I个词组中每个词组对应的极化哈希码，其中，针对I个词组中每个词组的哈希码的具体的极化方式可以为，将哈希码中字符0更改为-1，字符1保持不变，具体如下所示：

其中，表示第i个词组对应的哈希码中第j个元素的值，每个元素的值为0或1，终端可以计算得到I个词组中每个词组对应的极化哈希码

s204、终端将极化哈希码组中每个词组对应的极化哈希码按位数值进行求和处理，得到目标标签s的融合码值c，例如，目标标签s分词处理后得到词组1、词组2和词组3，词组1对应的极化哈希码为[1，-1，1，-1，1]，词组2对应的极化哈希码为[-1，1，-1，-1，1]，词组3对应的极化哈希码为[-1，-1，1，-1，1]，则终端对极化哈希码按位数值进行求和处理得到的融合码值c为[-1，-1，1，-3，3]。

s205、终端对目标标签s的融合码值c进行离散化处理，得到目标标签s的指纹向量。其中，离散化处理的具体规则融合码值中大于1的数离散化为1，将融合码值中小于1的数离散化为0，具体如下：

其中，c_i表示融合码值c中的第i个元素，采用上述方式，终端可以得到目标标签s的指纹向量其中，为融合码值c中的第i的元素的离散化值。该向量计算过程简洁高效，可保证后续相似标签融合算法的执行效率。若目标标签s的融合码值c为[-1，-1，1，-3，3]，则采用上述规则进行计算得到目标标签s的指纹向量为[0，0，1，0，1]。

基于步骤s201-s205所述的方式，终端可以获取到N个标签中每个标签的指纹向量，并根据每个标签的指纹向量确定标签之间的相似度，以进一步对标签进行聚类处理。具体实现中，终端对第一指纹向量和第二指纹向量进行异或运算，得到异或运算值；并根据异或运算值与相似度的对应关系确定第一标签与第二标签之间的相似度。其中，异或运算值与相似度的对应关系可以为异或运算值越大，则相似度越大，如异或运算值为10，则对应的相似度可以为80％，异或运算值为20，则对应的相似度可以为90％。即当第一指纹向量和第二指纹向量之间的异或运算值大于预设异或运算值时，确定第一标签与第二标签之间的相似度大于预设相似度，终端将第二标签和第一标签归于同一类型，并将第二标签和第一标签加入至同一标签集合中。

通过实施上述方法，终端可以找到N个标签中与第一标签之间的相似度大于预设相似度的所有第二标签，并将第一标签和第二标签归于同一标签集合中，得到一个标签集合V₁，以及与第一标签之间的相似度低于预设相似度的所有标签构成的集合U，然后对集合U中的标签执行步骤s201-s205，可以得到另一个标签集合V₂，以此类推，终端可以将N个标签进行聚类得到M个标签集合例如，如图4所示，为一种标签聚类结果示意图，终端从文本数据中提取得到5个标签，分别为a、b、c、d、e，终端首先选取标签a作为第一标签，基于终端基于步骤s201-s205得到与标签a之间的相似度大于预设相似度第二标签，分别为标签b和标签c，终端将标签a、标签b和标签c加入同一标签集合中，并从对剩余标签d和标签e进行继续聚类，终端将标签e作为第一标签，并基于步骤s201-s205得到与标签e之间的相似度大于预设相似度第二标签，为标签d，终端将标签d和标签e加入同一标签集合中。剩余标签为空集，结束本流程。

S103、终端在检测到可视化事件时，显示M个标签集合中每一个标签集合对应的显示标识信息。

本发明实施例中，显示标识信息是根据M个标签集合中每一个标签集合对应的文本数据，或者M个标签集合中每一个标签集合对应的标签得到的。

具体实现中，显示标识信息为标签集合中代表标签的名称。终端计算目标标签集合中代表标签与目标标签集合中其他各个标签之间的相似度，得到至少一个相似度值，并对计算至少一个相似度值进行求和处理，得到代表标签对应的相似度和值；若代表标签对应的相似度和值为目标标签集合中各个标签对应的相似度和值中最大的相似度和值，则将代表标签的名称确定为目标标签集合的名称，其中，目标标签集合为M个标签集合中任意一个标签集合，代表标签为目标标签集合中任意一个标签。例如，目标标签集合中包括标签a、标签b和标签c，标签a与标签b之间的相似度为80％，标签a与标签c之间的相似度为70％，标签b与标签c之间的相似度为60％，则标签a对应的相似度和值为80％+70％＝150％，标签b对应的相似度和值为80％+60％＝140％，标签c对应的相似度和值为70％+60％＝130％。则可以确定标签a对应的相似度和值最高，终端将标签a的名称确定为目标标签集合的显示标识信息。进一步的，终端可以对每个标签集合中标签的出现时间、数量、来源、类别等进行统计，并输出显示，以展示不同时间段用户感兴趣的内容。

如图5所示，为本发明实施例提供的一种标签的展示界面示意图，如图5中展示界面具体分为以下模块，标签体系分类模块501、标签筛选模块502、标签智能聚合模块503、标签导航模块504、标签来源展示模块505、标签上下文详情展示模块506，其中，标签体系分类模块501用于确定标签的类型，标签筛选模块502用于根据用户输入的信息对标签进行筛选，标签智能聚合模块503用于显示聚合后的标签集合，标签导航模块504用于对显示的当前用户感兴趣的标签集合，具体可以根据标签集合的热度进行排序显示、标签来源展示模块405用于展示标签集合中出现的标签的来源、标签上下文详情展示模块506用于对标签集合中标签的详细信息进行展示，如名称、发布时间、插入时间、来源等。

本发明实施例中，终端获取媒体中的文本数据，并对文本数据进行标签分析处理，得到N个标签，并根据N个标签中各个标签之间的相似度对N个标签进行聚类处理，得到M个标签集合，终端在检测到可视化事件时，显示M个标签集合中每一个标签集合对应的显示标识信息，通过实施上述方法，可以基于文本中标签的相似度对文本进行聚类，提升了对文本聚类的处理效率，进一步的，通过对聚类后的文本进行分析，可以得到不同时间段用户感兴趣的内容，实现对用户的兴趣分析。

请参见图3，为本发明实施例提供另一种文本聚类方法的流程示意图，该文本聚类过程可包括以下步骤S301-S305：

S301、终端获取媒体中的文本数据，并对文本数据进行标签分析处理，得到N个标签。

本发明实施例中，终端基于预设切分规则对文本数据进行切分，得到K个子字符串，并计算K个子字符串中每个子字符串的独立性和长度，独立性由每个子字符串在文本数据中的出现频数所确定；终端根据子字符串的独立性和长度确定K个子字符串中每个子字符串所述子字符串的能量函数值；并将K个子字符串中能量函数值大于预设阈值的子字符串确定为文本数据的标签，标签的数量为N。

S302、终端根据N个标签中各个标签之间的相似度对N个标签进行聚类处理，得到M个标签集合。

本发明实施例中，M个标签集合中每个标签集合包括了属于同一类别的标签，同一类别的标签之间的相似度满足相似度条件，相似度条件具体可以为相似度大于预设相似度，或者，相似度介于某个区间之内，具体可以由用户预先设置。

S303、终端获取M个标签集合中每个标签集合包括的标签的时间戳信息，并根据时间戳信息对每个标签集合包括的标签进行映射，得到每个标签集合在媒体中的时间演化曲线。

本发明实施例中，时间戳信息具体可以包括标签对应的文本数据的出现时间，时间演化曲线用于表示所述每个标签集合的在预设时间段内的出现频数变化；终端对媒体中的文本数据进行解析得到M个标签集合之后，将获取M个标签集合中每个标签集合包括的标签的时间戳信息，并根据时间戳信息对每个标签集合包括的标签进行映射。

举例说明，目标标签集合中包括标签a、标签b、标签c和标签d，标签a在2018年1月的出现频数为2，标签b在2018年1月的出现频数为3，标签c在2018年1月的出现频数为4，标签d在2018年1月的出现频数为1，则可以确定目标标签集合在2018年1月的出现频数为10，同样的，可以确定目标标签集合在2018年2月、3月、4月的出现频数为15、13、20，则终端可以依据上述数据绘制直方图，如图6所示，通过上述直方图，可以了解到用户感兴趣的内容的热度的变化趋势。

进一步的，终端也可以按照时间顺序对每个集合的在不同时间段的出现频数进行统计，得到统计样本，并根据统计样本绘制曲线图，得到每个标签集合对应的时间演化曲线，用于表示每个标签集合的在预设时间段内的出现频数变化，其中，统计样本为每个集合的在不同时间段的出现频数构成的序列。在一种实现方式中，为了减少时间演化曲线中的毛刺现象，使得到的演化曲线更为平滑，可以对得到的时间演化曲线进行采样处理，终端根据预设窗口长度，选取时间演化曲线中的样本点重新绘图，从而构建新的时间演化曲线。

S304、终端根据时间演化曲线中的极值点对时间演化曲线进行阶段切分，得到阶段切分结果。

本发明实施例中，终端得到每个标签集合在媒体中的时间演化曲线之后，可以根据时间演化曲线中的极值点对时间演化曲线进行阶段切分，得到阶段切分结果。具体的，终端从构成时间演化曲线的样本点集合E＝{e_i}中确定出极值点，其中，e_i表示构成时间演化曲线的样本点(即出现频数)，极值点包括极大值点和极小值点，极值点的具体判断条件可以为：

其中，maxV表示e_i为极大值，minV表示e_i为极小值；maxE为样本点中的最大值，minE为样本点中的最小值，终端采用上述方式得到样本点中的所有极大值点和极小值点。进一步的，终端可以依据得到的极值点对时间演化曲线进行阶段划分，例如，阶段分为发展阶段和回落阶段，则终端可以将极小值与极大值之间的上升区间确定为发展阶段，将极大值与极小值之间的下降区间确定为回落阶段。或者，阶段的分类以及具体的划分方式也可以由研发人员预先设定。如图7所示，为一种阶段划分的流程示意图，终端按照时间顺序对每个集合的在不同时间段的出现频数进行统计，得到统计样本，并根据统计样本绘制曲线图，得到每个标签集合对应的时间演化曲线。进一步的，终端根据预设窗口长度W＝[w1,w2,…w9,w10]，选取时间演化曲线中的样本点重新绘图，从而构建新的时间演化曲线。然后，终端从构成时间演化曲线的样本点集合E＝{e_i}中确定出极值点，并依据极值点进行阶段划分，极值点的确定过程。最后，终端根据时间演化曲线中的极值点对时间演化曲线进行阶段切分，得到阶段切分结果，其中，阶段包括：发生、发展、高潮、回落、二次发展、二次高潮、二次回落、消亡，阶段切分结果。

S305、终端在检测到可视化事件时，显示M个标签集合中每一个标签集合对应的显示标识信息或阶段切分结果。

本发明实施例中，终端在检测到可视化事件时，显示M个标签集合中每一个标签集合对应的显示标识信息或阶段切分结果，显示标识信息是根据M个标签集合中每一个标签集合对应的文本数据，或者M个标签集合中每一个标签集合对应的标签得到的，如图8所示，为本发明实施例提供的一种标签的展示界面示意图，如图8中展示界面具体分为以下模块，包括：标签溯源模块801、标签相关信息展示模块802、标签阶段划分模块803、以及关键节点信息展示模块804。其中，标签溯源模块801用于展示标签出现的起始点、转折点、终止点等，标签相关信息展示模块802用于展示与标签相关的信息，标签阶段划分模块803用于展示标签的不同发展阶段，并支持对任意选定时间范围的详细发展趋势查询，关键节点信息展示模块804用于展示标签发展过程中的重要节点的信息以及对于发展阶段转折点上重要事件的自动定位。

本发明实施例中，终端获取媒体中的文本数据，并对文本数据进行标签分析处理，得到N个标签，并根据N个标签中各个标签之间的相似度对N个标签进行聚类处理，得到M个标签集合，终端在检测到可视化事件时，显示M个标签集合中每一个标签集合对应的显示标识信息，通过实施上述方法，可以高实时、高精度地提取海量文本数据中的标签，并基于提取得到的标签对文本进行聚类，提升了对文本聚类的处理效率，并可以对用户感兴趣的内容进行追踪。

下面将结合附图9对本发明实施例提供的文本聚类装置进行详细介绍。需要说明的是，附图9所示的文本聚类装置，用于执行本发明图1-3所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，经参照本发明图1-3所示的实施例。

请参见图9，为本发明提供的一种文本聚类装置的结构示意图，该文本聚类装置90可包括：获取模块901、处理模块902、显示模块903。

获取模块901，用于获取媒体中的文本数据，并对所述文本数据进行标签分析处理，得到N个标签，所述N为正整数；

处理模块902，用于根据所述N个标签中各个标签之间的相似度对所述N个标签进行聚类处理，得到M个标签集合，所述M个标签集合中每个标签集合包括了属于同一类别的标签，所述同一类别的标签之间的相似度满足相似度条件，所述M为正整数；

显示模块903，用于在检测到可视化事件时，显示所述M个标签集合中每一个标签集合对应的显示标识信息，其中，所述显示标识信息是根据所述M个标签集合中每一个标签集合对应的文本数据和/或所述M个标签集合中每一个标签集合对应的标签得到的。

在一种实现方式中，处理模块902具体用于：

基于预设切分规则对所述文本数据进行切分，得到K个子字符串，所述K为正整数；

计算所述K个子字符串中每个子字符串的独立性和长度，所述独立性由所述每个子字符串在所述文本数据中的出现频数所确定；

根据所述子字符串的独立性和长度确定所述K个子字符串中每个子字符串的能量函数值；

将所述K个子字符串中能量函数值大于预设阈值的子字符串确定为所述文本数据的标签，所述标签的数量为N。

在一种实现方式中，所述相似度条件包括相似度大于预设相似度，处理模块902具体用于：

从所述N个标签中选取一个标签作为第一标签；

计算第二标签与所述第一标签之间的相似度，所述第二标签为所述N个标签中的任意一个标签；

若所述第二标签与所述第一标签之间的相似度大于预设相似度，则将所述第二标签和所述第一标签归于同一类型，并将所述第二标签和所述第一标签加入至同一标签集合中。

在一种实现方式中，处理模块902具体用于：

获取所述第一标签对应的第一指纹向量和所述第二标签对应的第二指纹向量，其中，指纹向量由标签中词组的哈希码所确定；

对所述第一指纹向量和所述第二指纹向量进行异或运算，得到异或运算值；

根据异或运算值与相似度的对应关系确定所述第一标签与所述第二标签之间的相似度。

在一种实现方式中，处理模块902还用于：

对目标标签进行分词处理，得到I个词组，所述目标标签为所述N个标签中的任意一个标签，所述I为正整数；

对所述I个词组进行哈希映射，得到所述I个词组对应的哈希码组，所述哈希码组中包括所述I个词组中每个词组对应的哈希码；

对所述哈希码组中每个哈希码进行极化处理，得到极化哈希码组，所述极化哈希码组中包括所述I个词组中每个词组对应的极化哈希码；

将所述极化哈希码组中每个词组对应的极化哈希码按位数值进行求和处理，得到所述目标标签的融合码值；

对所述目标标签的融合码值进行离散化处理，得到所述目标标签的指纹向量。

在一种实现方式中，处理模块902还用于：

计算目标标签集合中代表标签与所述目标标签集合中其他各个标签之间的相似度，得到至少一个相似度值，所述目标标签集合为所述M个标签集合中任意一个标签集合，所述代表标签为所述目标标签集合中任意一个标签；

对所述至少一个相似度值进行求和处理，得到所述代表标签对应的相似度和值；

若所述代表标签对应的相似度和值为所述目标标签集合中各个标签对应的相似度和值中最大的相似度和值，则将所述代表标签的名称确定为所述目标标签集合的名称。

在一种实现方式中，处理模块902还用于：

获取所述M个标签集合中每个标签集合包括的标签的时间戳信息，并根据所述时间戳信息对所述每个标签集合包括的标签进行映射，得到所述每个标签集合在所述媒体中的时间演化曲线，所述时间演化曲线用于表示所述每个标签集合的在预设时间段内的出现频数变化；

根据所述时间演化曲线中的极值点对所述时间演化曲线进行阶段切分，得到阶段切分结果。

本发明实施例中，获取模块901获取媒体中的文本数据，并对文本数据进行标签分析处理，得到N个标签，处理模块902根据N个标签中各个标签之间的相似度对N个标签进行聚类处理，得到M个标签集合终端在检测到可视化事件时，显示模块903显示M个标签集合中每一个标签集合对应的显示标识信息，通过实施上述方法，可以基于文本中标签的相似度对文本进行聚类，提升了对文本聚类的处理效率，进一步的，通过对聚类后的文本进行分析，可以得到不同时间段用户感兴趣的内容，实现对用户的兴趣分析。

请参见图10，为本发明实施例提供了一种终端的结构示意图。如图10所示，该终端包括：至少一个处理器1001，输入设备1003，输出设备1004，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，输入设备1003可以是控制面板或者麦克风等，输出设备1004可以是显示屏等。其中，存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。其中处理器1001可以结合图9所描述的装置，存储器1005中存储一组程序代码，且处理器1001，输入设备1003，输出设备1004调用存储器1005中存储的程序代码，用于执行以下操作：

输入设备1003，用于获取媒体中的文本数据，并对所述文本数据进行标签分析处理，得到N个标签，所述N为正整数；

处理器1001，用于根据所述N个标签中各个标签之间的相似度对所述N个标签进行聚类处理，得到M个标签集合，所述M个标签集合中每个标签集合包括了属于同一类别的标签，所述同一类别的标签之间的相似度满足相似度条件，所述M为正整数；

处理器1001，用于在检测到可视化事件时，显示所述M个标签集合中每一个标签集合对应的显示标识信息，其中，所述显示标识信息是根据所述M个标签集合中每一个标签集合对应的文本数据和/或所述M个标签集合中每一个标签集合对应的标签得到的。

在一种实现方式中，处理器1001具体用于：

在一种实现方式中，所述相似度条件包括相似度大于预设相似度，处理器1001具体用于：

从所述N个标签中选取一个标签作为第一标签；

在一种实现方式中，处理器1001具体用于：

在一种实现方式中，处理器1001还用于：

本发明实施例中，输入设备1003获取媒体中的文本数据，并对文本数据进行标签分析处理，得到N个标签，处理器1001根据N个标签中各个标签之间的相似度对N个标签进行聚类处理，得到M个标签集合终端在检测到可视化事件时，处理器1001显示M个标签集合中每一个标签集合对应的显示标识信息，通过实施上述方法，可以基于文本中标签的相似度对文本进行聚类，提升了对文本聚类的处理效率，进一步的，通过对聚类后的文本进行分析，可以得到不同时间段用户感兴趣的内容，实现对用户的兴趣分析。

本发明实施例中所述模块，可以通过通用集成电路，例如CPU(CentralProcessing Unit，中央处理器)，或通过ASIC(Application Specific IntegratedCircuit，专用集成电路)来实现。

应当理解，在本发明实施例中，所称处理器1001可以是中央处理模块(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

总线1002可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互联(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等，该总线1002可以分为地址总线、数据总线、控制总线等，为便于表示，图10仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种文本聚类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行标签分析处理，得到N个标签，包括：

3.根据权利要求1所述的方法，其特征在于，所述相似度条件包括相似度大于预设相似度，所述根据所述N个标签中各个标签之间的相似度对所述N个标签进行聚类处理，包括：

从所述N个标签中选取一个标签作为第一标签；

4.根据权利要求3所述的方法，其特征在于，所述计算第二标签与所述第一标签之间的相似度，包括：

5.根据权利要求3所述的方法，其特征在于，所述获取所述第一标签对应的第一指纹向量和所述第二标签对应的第二指纹向量之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述N个标签中各个标签之间的相似度对所述N个标签进行聚类处理，得到M个标签集合之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述N个标签中各个标签之间的相似度对所述N个标签进行聚类处理之后，所述方法还包括：

8.一种文本聚类装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。