CN115329078B

CN115329078B - 文本数据处理方法、装置、设备以及存储介质

Info

Publication number: CN115329078B
Application number: CN202210963916.1A
Authority: CN
Inventors: 宋永浩; 熊蜀光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2024-03-12
Anticipated expiration: 2042-08-11
Also published as: CN115329078A

Abstract

本公开提供了一种文本数据处理方法、装置、设备以及存储介质。涉及人工智能技术领域，具体涉及机器学习、社交网络分析、自然语言处理和大数据分析等技术领域。具体实现方案为：获取社交文本的原始数据，该社交文本的长度小于预设长度阈值；基于社交文本的原始数据，提取社交文本的多维度特征；基于社交文本的多维度特征，确定社交文本所属的第一类簇；将社交文本加入第一类簇；基于第一类簇包括的目标社交文本，确定第一类簇对应的信息集合，该目标社交文本包括该社交文本。根据本公开的技术方案，能实现对海量的长度较短的社交文本数据的信息挖掘，提高信息挖掘的准确率。

Description

文本数据处理方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及机器学习、社交网络分析、自然语言处理和大数据分析等技术领域。

背景技术

随着社交网络以及互联网技术的快速发展和深入普及，用户逐渐主导信息的产生并依赖社交网络进行广泛的传播，此种信息交互模式带来数据量巨大、信息类型多样化和信息传播不受控等诸多方面的挑战。相关技术中，针对长度较短的社交文本数据的信息挖掘，准确率较低。

发明内容

本公开提供了一种文本数据处理方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种文本数据处理方法，包括：

获取社交文本的原始数据，社交文本的长度小于预设长度阈值；

基于社交文本的原始数据，提取社交文本的多维度特征；

基于社交文本的多维度特征，确定社交文本所属的第一类簇；

将社交文本加入第一类簇；

基于第一类簇包括的目标社交文本，确定第一类簇对应的信息集合，该目标社交文本包括该社交文本。

根据本公开的第二方面，提供了一种文本数据处理装置，包括：

获取模块，用于获取社交文本的原始数据，社交文本的长度小于预设长度阈值；

第一提取模块，用于基于社交文本的原始数据，提取社交文本的多维度特征；

确定模块，用于基于社交文本的多维度特征，确定社交文本所属的第一类簇；

加入模块，用于将社交文本加入第一类簇；

处理模块，用于基于第一类簇包括的目标社交文本，确定第一类簇对应的信息集合，该目标社交文本包括该社交文本。

根据本公开的第三方面，提供了一种电子设备，包括：

处理器；以及

与该处理器通信连接的存储器；其中，

该存储器存储有可被该处理器执行的指令，该指令被该处理器执行，以使该处理器能够执行上述第一方面所提供的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行上述第一方面所提供的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述第一方面所提供的方法。

本公开实施例的技术方案，能实现对海量的长度较短的社交文本数据的信息挖掘，提高信息挖掘的准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的文本数据处理方法的流程示意图；

图2是根据本公开实施例的多维度特征体系的示意图；

图3是根据本公开实施例的针对海量社交文本的事件话题聚类的架构图；

图4是根据本公开实施例的多维度特征提取的流程图；

图5是根据本公开实施例的事件话题聚类的流程图；

图6是根据本公开实施例的文本数据处理装置的组成示意图；

图7是根据本公开实施例的文本数据处理场景的示意图；

图8是用来实现本公开实施例的文本数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语"第一"、"第二"和"第三"等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语"包括"和"具有"以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

海量信息的快速传播蕴含着巨大的能量和信息价值，使得基于社交网络和社交文本的事件分析和传播分析得到广泛应用，例如，新闻热点发现、商业价值挖掘、企业舆情监管等。特别的，针对社交网络中某些特殊事件的事件特征分析和传播特征分析，具有重要的网络安全意义和经济价值。因此，如何在海量的社交文本数据中挖掘出特定的事件话题信息，并基于事件总体信息集合筛选出能够表达事件核心内容的元素变得尤为重要。

在对本公开实施例的技术方案进行介绍之前，先对本公开可能使用到的技术术语做进一步说明：

(1)文本表示方法：文本表示方法是自然语言处理领域中的基础任务，是将人类能够认知的自然语言表示为机器能够计算的数值模式。主流的文本表示方法包括向量空间模型和分布式词向量模型。

(2)聚类方法：聚类方法是机器学习领域的一项基础任务，目标是针对离散的元素集合，基于元素间的相似程度，将相似的元素尽量聚合为一个簇，将不相似的元素尽量划分开。

(3)文本主题提取任务：文本主题提取任务是文本聚类的一类方法，目标是将全体文本集合中表达一类主题的文本聚集为一类，并且能够提取出文本集合的主题或者话题，以及表达该类话题的关键词集合。

(4)相似文本是指社交文本所表达的内容一致。

(5)相关文本是指社交文本从内容上看并不相似，但是具备上下文的内容关联性，例如，“我们周末一起去郊区游玩吧。”和“那去哪里呢？”，此两条社交文本并不相似，但是内容上具备一定的关联性，可以划分为同一个事件主题。

相关技术中，针对文本数据中信息的提取，主要有文本聚类、文本主题提取和社交发现三种方案。

其中，文本聚类是用于将相似文本聚合至同一类簇，将差异性较大的文本排除在类簇外的一类方法。目标是协助人类从大量文本中快速发现哪些文本属于同一主题，并且是需要关注或有价值的。通常先将文本内容进行特征选择或文本表示，进而利用不同的聚类策略进行文本聚类。该方案适用于将大量文本中相似的文本聚合为同一类簇的场景，但是并不能实现对主题或事件的抽取。总体上，该方案至少存在以下缺点：(1)只关注文本间的相似性，无法捕获文本间的相关性；(2)只考虑文本内容层面的特征信息，无法利用文本数据传输过程及用户行为层面的特征；(3)仅是将相似文本聚合为一类，无法抽取文本类簇的主题或事件信息。

其中，文本主题提取有两类主流的方法：文本排序算法(如textRank算法)和线性判别分析(Linear Discriminant Analysis，LDA)模型。textRank算法是一种基于图的用于关键词抽取和文本摘要的排序算法，将文本看作一个词网络，网络中的顶点为词项，边为词间的语义关系，通过文本内部词项间的共现信息实现关键词抽取，并能够通过抽取式的自动摘要方法抽取文本关键句。LDA模型构建了一种能够模拟词项、主题和文本之间相互分布的模型，基于文本语料数据，利用概率的手段实现主题与关键词项的概率关联，从而能够抽取文本的主题信息。该方案能够实现相似文本的聚类，并能够抽取文本类簇的主题信息。但是，该方案至少存在以下缺点：(1)只适用于长文本场景，对短文本的主题的提取效果很差；(2)只关注文本间的相似性，无法捕获文本间的相关性；(3)只考虑文本内容层面的特征信息，无法利用文本数据传输过程及用户行为层面的特征。

其中，社交发现方案的核心是通过图模型对社交网络的用户与用户之间的关系进行建模。社区发现方案的目标是从社交网络中找到一种子图结构，称之为社区，社区内部节点之间的连接比较紧密，而社区与社区之间的连接相对稀疏。主流的社区发现算法有图分割方法、图聚类方法和基于分裂的社区检测方法等。图分割方法依托网络中连接边的强弱关系，按照特定策略将网络划分为两个子网络，然后不断迭代直到满足一定约束条件。图聚类方法基本思想是将图进行表示，然后利用聚类方法实现社区发现。该方案能从社交网络的角度，通过社区发现方法实现对关系紧密用户的聚类。但是该方案至少存在以下不足：(1)仅仅考虑网络结构信息，而没有考虑用户之间传输的文本内容信息；(2)没有考虑网络节点用户的行为特征。

本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，由于社交短文本具有海量性、实时性、多样化和复杂性等特点，针对海量社交短文本数据，发明人给出了实现多维度的事件话题聚类方案，将文本内容相似和相关的社交短文本聚合为一类，既考虑文本内容的相似性和相关性聚类，又考虑传播网络中强关联群体的发现，并能提取出事件包含的典型样本、典型关键字、关键用户等信息。如此，能有效解决在海量低价值密度的社交短文本数据中抽取有价值的事件或话题，能实现对海量的社交文本数据的有效信息挖掘，提高信息挖掘的准确率。

本公开实施例提供了一种文本数据处理方法，该文本数据处理方法可以应用于文本数据处理装置，该文本数据处理装置可位于电子设备上，该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于车载终端、导航设备、手机、平板电脑等。在一些可能的实现方式中，该文本数据处理方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该文本数据处理方法包括：

S101：获取社交文本的原始数据，该社交文本的长度小于预设长度阈值；

S102：基于该社交文本的原始数据，提取该社交文本的多维度特征；

S103：基于该社交文本的多维度特征，确定该社交文本所属的第一类簇；

S104：将该社交文本加入该第一类簇；

S105：基于该第一类簇包括的目标社交文本，确定该第一类簇对应的信息集合，该目标社交文本包括该社交文本。

本公开实施例中，社交文本是用户在社交网络上发布的文本。比如，社交文本可以是用户在资讯类应用程序(Application，简称APP)上发表的言论。又比如，社交文本可以是用户在百度社交APP发布的消息。再比如，社交文本可以是微博、微信等平台上发表的消息。以上仅为示例性说明，不作为对社交文本全部可能的类型的限定，只是这里不做穷举。

本公开实施例中，可将文本长度小于预设长度阈值的社交文本称之为社交短文本。预设长度阈值可根据用户需求进行设定或调整。示例性地，预设长度阈值＝140字符，将140个中文字符以内的社交文本，称为社交短文本。

本公开实施例中，原始数据包括但不限于：文本内容数据；传播网络数据。

其中，文本内容数据是表征社交文本的文本内容的数据。比如，文本内容数据包括文字、标点符合、表情符号等。从文本内容数据中可提取文本内容维度的特征和事件维度的特征。

其中，传播网络数据是传播社交文本的网络的数据。比如，传播网络数据包括发送方、接收方、发送时间、传播网络类型等数据。传播网络数据可用关系图表示。比如，关系图中的节点表示文本发送和接收地址，该地址代表了参与用户的唯一标识；网络中的关系是有向边，表示社交文本的数据流向，关系可包含发送次数和发送时间两个属性。从传播网络数据中可提取涉及人员维度的特征和传播维度的特征。

本公开实施例中，多维度特征包括但不限于文本内容特征、涉及人员特征、传播特征和事件特征。其中，文本内容特征可以是在事件主题包含的所有样本集合中，从文本内容的维度所提取的特征。涉及人员特征可以是在事件话题所有文本传播过程中，从参与的全体人员的维度所提取的特征。传播特征可以是从社交文本的传播网络地址或传播路径所提取的特征；事件特征可以是从社交文本包括的事件中提取的表征事件元素的特征。

图2示出了多维度特征体系的示意图，如图2所示，文本内容特征包括高频词、主题词和全文本内容；涉及人员特征包括全体参与人员特征；传播特征包括关键传播地址、关键传播路径和首发地址；事件特征包括由事件话题文本集合中抽取的事件时间、事件地点和事件人物。需要说明的是，文本内容特征、涉及人员特征、传播特征和事件特征分别包括的特征数量和特征种类，均可根据需求进行设定或调整。

应理解，图2所示的示意图仅仅是示意性而非限制性的，本领域技术人员可以基于图2的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例中，第一类簇可以理解为文本簇。第一类簇的数量可根据聚类结果的类簇数进行自适应增加，也可根据需求进行合并或删减。

本公开实施例中，信息集合是基于同一类簇中的目标社交文本提取出的一类或多类信息的集合。实际应用中，目标社交文本可以是同一类簇中的所有社交文本。

本公开实施例中，信息集合包括但不限于事件信息集合。示例性地，类簇1中包括x个社交文本，根据x个社交文本提取出k个事件，信息集合可以是关于该k个事件的相关信息的集合，其中，x和k均为大于等于1的整数。

本公开实施例所述的技术方案，获取长度小于预设长度阈值的这类社交文本的原始数据；基于社交文本的原始数据，提取社交文本的多维度特征；基于社交文本的多维度特征，确定社交文本所属的第一类簇；将社交文本加入该第一类簇；基于该第一类簇包括的目标社交文本，确定该第一类簇对应的信息集合，能实现对海量的社交文本的信息挖掘。相对于单纯利用文本维度对社交文本进行聚类的聚类方式而言，利用多维度特征对社交文本进行聚类，提高聚类的准确率，进而提高信息挖掘的准确率。

在一些实施例中，原始数据包括文本内容数据；多维度特征包括基于文本内容数据提取的文本内容特征和事件特征。S102可包括：基于社交文本的文本内容数据，提取社交文本的文本内容特征和事件特征。

这里，文本内容特征可以是事件主题包含的所有样本集合中，从文本内容维度提取的特征。文本内容特征包括但不限于高频词、主题词和全文本内容。

这里，事件维度特征包括但不限于由事件话题文本集合中抽取的事件时间、事件地点和事件人物。

如此，既能基于文本内容数据提取出文本内容特征，有助于将文本内容相似的社交文本聚合为一类；又能基于文本内容数据提取出事件特征，有助于将文本内容相关的社交文本聚合为一类，从而能将文本内容相似和相关的社交文本聚合为一类，能提高聚类的准确率，进而提高信息挖掘的准确率。

在一些实施例中，原始数据包括传播网络数据；多维度特征可包括涉及人员特征和传播特征。S102可包括：基于社交文本的传播网络数据，提取社交文本的涉及人员特征和传播特征。

这里，涉及人员特征包括社交文本传播过程中的全体参与人员的特征。

这里，传播特征可包括以下至少之一：关键传播地址特征、关键传播路径特征和首发地址特征。

如此，既能基于传播网络数据提取出涉及人员特征，有助于将文本内容相似的社交文本聚合为一类；又能基于传播网络数据提取出传播特征，有助于将文本内容相关的社交文本聚合为一类，从而能将文本内容相似和相关的社交文本聚合为一类，能提高聚类的准确率，进而提高信息挖掘的准确率。

在一些实施例中，S103可包括：

S103a：基于社交文本的多维度特征和已有的第二类簇的多维度特征，分别确定各维度特征下社交文本与已有的第二类簇的相似度；

S103b：根据各维度特征下社交文本与已有的第二类簇的相似度，确定社交文本与已有的第二类簇的整体相似度；

S103c：响应于存在大于预设相似度阈值的整体相似度，将与社交文本的整体相似度大于预设相似度阈值的已有的第二类簇，确定为社交文本所属的第一类簇。

在一些实施方式中，根据各维度特征下社交文本与已有的第二类簇的相似度，确定社交文本与已有的第二类簇的整体相似度，包括：确定各维度特征的权重；根据各维度特征的权重，以及各维度特征下社交文本与已有的第二类簇的相似度，确定社交文本与已有的第二类簇的整体相似度。示例性地，第一社交文本与已有的第二类簇的整体相似度＝文本内容特征的权重×第一社交文本与已有的第二类簇的文本内容特征的相似度+事件特征的权重×第一社交文本与已有的第二类簇的事件特征的相似度+涉及人员特征的权重×第一社交文本与已有的第二类簇的涉及人员特征的相似度+传播特征的权重×社交文本与已有的第二类簇的传播特征的相似度。如此，能够增加整体相似度的可信度和准确性。

这里，不同维度特征的权重，可以根据先验知识进行设定，也可根据需求进行设定或调整。

在一些实施方式中，根据各维度特征下社交文本与已有的第二类簇的相似度，确定社交文本与已有的第二类簇的整体相似度，包括：将各维度特征下社交文本与已有的第二类簇的相似度相乘，得到社交文本与已有的第二类簇的整体相似度。示例性地，第一社交文本与已有的第二类簇的整体相似度＝第一社交文本与已有的第二类簇的文本内容特征的相似度×第一社交文本与已有的第二类簇的事件特征的相似度×第一社交文本与已有的第二类簇的涉及人员特征的相似度×第一社交文本与已有的第二类簇的传播特征的相似度。如此，能够提高整体相似度的计算速度。

如此，在社交文本与当前任一已有的第二类簇的整体相似度满足大于预设相似度阈值的条件时，将社交文本归入与社交文本的整体相似度大于预设相似度阈值的已有的第二类簇，有助于提高类簇划分的准确性，进而有助于提升信息提取的准确性。

在一些实施例中，S103还可包括：

S103d：响应于不存在大于预设相似度阈值的整体相似度，为社交文本创建新的第三类簇；将该新的第三类簇确定为社交文本所属的第一类簇。

需要说明的是，S103c和S103d不是先后关系，而是并列关系。在S103b执行完毕之后，具体执行S103c还是S103d，取决于是否存在大于预设相似度阈值的整体相似度。

举例来说，数据库中有10个类簇，分别记为类簇1、类簇2、…、类簇10；若当前社交文本与这10个类簇的整体相似度均不满足大于预设相似度阈值的条件，则创建一个新的第三类簇，记为类簇11，并将当前社交文本加入该类簇11。

如此，在社交文本与当前已有的第二类簇的整体相似度均不满足大于预设相似度阈值的条件时，通过为社交文本创建新的第三类簇，有助于提高类簇划分的准确性。

在一些实施例中，S103a可包括下述至少之一：

S103a1：确定社交文本与已有的第二类簇的文本内容特征的相似度；

S103a2：确定社交文本与已有的第二类簇的涉及人员特征的相似度；

S103a3：确定社交文本与已有的第二类簇的传播特征的相似度；

S103a4：确定社交文本与已有的第二类簇的事件特征的相似度。

需要说明的是，S103a1、S103a2、S103a3和S103a4不是先后关系，而是并列关系。

可以理解，多维度特征并不限于上述文本内容特征、涉及人员特征、传播特征和事件特征，可根据需求进行设定或调整。

如此，先确定出各维度特征下社交文本与已有的第二类簇的相似度，有助于为确定社交文本与已有的第二类簇的整体相似度提供数据依据，提高整体相似度的准确度。

在一些实施例中，S103a1，包括下述至少之一：

确定社交文本与已有的第二类簇的全文本的相似度；

确定社交文本与已有的第二类簇的高频词的相似度，高频词是出现次数大于预设次数阈值的词；

确定社交文本与已有的第二类簇的主题词的相似度。

这里，预设次数阈值可根据需求进行设定或调整。

在一些实施方式中，社交文本与已有的第二类簇的全文本的相似度，包括：在社交文本的长度大于第一长度阈值的情况下，采用预设哈希算法确定社交文本之间的全文本的相似度；在社交文本的长度小于或等于第一长度阈值的情况下，采用编辑距离算法确定社交文本之间的全文本的相似度。

这里，预设哈希算法可以是Simhash算法。

在一些实施方式中，确定社交文本与已有的第二类簇的高频词的相似度，包括：获取第一高频词集合和第二高频词集合；第二高频词集合为同一类簇的社交文本的高频词集合；采用第一预设相似度算法，计算第一高频词集合和第二高词集合的相似度。这里，第一预设相似度算法可以是非均衡性杰卡德距离(Jaccard)算法。

在一些实施方式中，确定社交文本与已有的第二类簇的主题词的相似度，包括：获取第一主题词集合和第二主题词集合；采用第二预设相似度算法，计算第一主题词集合和第二主题词集合的相似度。

这里，第二主题词集合为同一类簇的社交文本的主题词集合。

这里，第二预设相似度算法可以是均衡性Jaccard算法。

在一些实施方式中，将社交文本与已有的第二类簇的全文本的相似度，作为社交文本与已有的第二类簇的文本内容特征的相似度。

在一些实施方式中，将社交文本与已有的第二类簇的高频词的相似度，作为社交文本与已有的第二类簇的文本内容特征的相似度。

在一些实施方式中，将社交文本与已有的第二类簇的主题词的相似度，作为社交文本与已有的第二类簇的文本内容特征的相似度。

在一些实施方式中，根据全文本的相似度，高频词的相似度、主题词的相似度中至少两种相似度，确定社交文本与已有的第二类簇的文本内容特征的相似度。具体地，可为全文本特征、高频词特征和主题词特征分配相应的权重，结合权重确定社交文本与已有的第二类簇的文本内容特征的相似度。

如此，可基于全文本特征、高频词特征和主题词特征至少之一的相似度确定文本内容特征的相似度，丰富了文本内容特征的表示种类，从而有助于提高信息挖掘的可选性和多样性。

在一些实施例中，S103a2可包括：确定社交文本的第一参与人员集合与已有的第二类簇的第二参与人员集合；确定第一参与人员集合与第二参与人员集合的相似度；将第一参与人员集合与第二参与人员集合的相似度，确定为社交文本与已有的第二类簇的涉及人员特征的相似度。

这里，第二参与人员集合为同一类簇的社交文本的参与人员的集合。

在一些实施方式中，采用第一预设相似度算法确定第一参与人员集合与第二参与人员集合的相似度。

这里，第一预设相似度算法可以是非均衡性Jaccard算法。

如此，能够快速确定出社交文本与已有的第二类簇的涉及人员特征的相似度，从而有助于提高信息挖掘的速度。

在一些实施例中，S103a3包括下述至少之一：

确定社交文本的第一传播特征集合与已有的第二类簇的第二传播特征集合的关键传播地址的相似度；

确定第一传播特征集合与第二传播特征集合的关键传播路径的相似度；

确定第一传播特征集合与第二传播特征集合的首发地址的相似度。

这里，第二传播特征集合为同一类簇的社交文本的传播特征的集合。

在一些实施方式中，将社交文本的第一传播特征集合与已有的第二类簇的第二传播特征集合的关键传播地址的相似度，确定为社交文本与已有的第二类簇的传播特征的相似度。

在一些实施方式中，将社交文本的第一传播特征集合与已有的第二类簇的第二传播特征集合的关键传播路径的相似度，确定为社交文本与已有的第二类簇的传播特征的相似度。

在一些实施方式中，将社交文本的第一传播特征集合与已有的第二类簇的第二传播特征集合的首发地址特征的相似度，确定为社交文本与已有的第二类簇的传播特征的相似度。

在一些实施方式中，根据关键传播地址的相似度、关键传播路径的相似度、首发地址特征的相似度中至少两种相似度，确定社交文本与已有的第二类簇的传播特征的相似度。具体地，可为关键传播地址、关键传播路径和首发地址特征分配相应的权重，结合权重确定社交文本与已有的第二类簇的传播特征的相似度。

如此，可基于关键传播地址特征、关键传播路径特征和首发地址特征中至少之一特征确定传播特征的相似度，丰富了传播特征的表示种类，从而有助于提高信息挖掘的可选性和多样性。

在一些实施例中，S103a4包括下述至少之一：

确定社交文本的第一事件特征集合与已有的第二类簇的第二事件特征集合的事件时间的相似度；

确定第一事件特征集合与第二事件特征集合的事件地点的相似度；

确定第一事件特征集合与第二事件特征集合的事件人物的相似度。

这里，第二事件特征集合为同一类簇的社交文本的事件特征的集合。

在一些实施方式中，将社交文本与已有的第二类簇的事件时间的相似度，确定为社交文本与已有的第二类簇的事件特征的相似度。

在一些实施方式中，将社交文本与已有的第二类簇的事件地点的相似度，确定为社交文本与已有的第二类簇的事件特征的相似度。

在一些实施方式中，将社交文本与已有的第二类簇的事件人物的相似度，确定为社交文本与已有的第二类簇的事件特征的相似度。

在一些实施方式中，基于事件时间的相似度，事件地点的相似度，事件人物的相似度中至少两种相似度，确定社交文本与已有的第二类簇的事件特征的相似度。具体地，可为事件时间、事件地点和事件人物分配相应的权重，结合权重确定社交文本与已有的第二类簇的事件特征的相似度。

如此，可基于事件时间特征、事件地点特征和事件人物特征至少之一特征确定事件特征的相似度，丰富了事件特征的表示种类，从而有助于提高信息挖掘的可选性和多样性。

在一些实施例中，将社交文本加入类簇之后，还可包括：

S106：基于社交文本对第一类簇的多维度特征进行更新，得到第一类簇的更新后的多维度特征。

如此，通过及时更新第一类簇的多维度特征，有助于对新获取的社交文本进行快速归类，从而有助于提高挖掘过程中所参考的多维度特征的准确性。

在一些实施例中，S105可包括：基于第一类簇的更新后的多维度特征，确定第一类簇对应的信息集合。

如此，能够不断丰富信息集合的内容，提高信息集合中信息的准确性。

在一些实施例中，该文本数据处理方法，还可包括：

S107：基于第一类簇对应的信息集合，提取第一类簇包括的事件话题的数据特征。

其中，数据特征包括下述至少之一：

样本；关键字；主题词；总参与人数；总传播次数；关键传播节点；关键传播路径。

这里，样本可以是典型样本，具体指能够表达一类事件主题典型含义的若干社交文本样本；

这里，关键字可以是典型关键字，具体是指代表事件主题的典型词语。数据特征还可包括下述内容：关键传播用户、关键传播路径、事件内容的高频词、参与人数、传播次数以及事件包含的时间、地点和人物信息。

如此，能够对海量的社交文本进行事件话题聚类，提高提取的事件话题的数据特征的准确性，也能提升事件话题的数据特征的可信度。

图3示出了一种针对海量社交文本的事件话题聚类的架构图，如图3所示，该架构包括：社交文本多维度特征体系设计、社交文本多维度特征提取、社交文本多维度特征相似度计算、社交文本多维度特征权重确定、社交文本多维度特征聚类、类簇中信息集合的数据特征提取六大部分。

A，社交文本多维度特征体系设计。

由于长度小于预设长度阈值的社交文本具有文本短、数据量大、多样性强的特点，单纯利用文本维度的特征很难实现将“相似”和“相关”的社交文本聚合为一类。

发明人考虑到社交文本记录数据通常具备文本以外的重要特征，例如，发送方、接收方、发送时间、传播网络等。

针对社交文本数据记录综合考虑多个维度的特征，包括：文本内容特征、涉及人员特征、传播特征和事件特征，来实现将社交文本数据中“相似”和“相关”的文本内容聚为一类。社交文本多维度特征体系可参考图2，在此不再赘述。

B，社交文本多维度特征提取。

社交文本多维度特征提取过程包括B1～B5。

B1：输入社交文本及其传播网络。

事件话题聚类涉及的原始数据，包括文本内容和相应的传播网络。传播网络中的节点表示文本发送和接收地址，该地址代表了参与用户的唯一标识；网络中的关系是有向边，表示短文本的数据流向，并且关系包含发送次数和发送时间两个属性。由文本内容中提取文本内容维度和事件维度的特征，由传播网络中提取涉及人员维度和文本传播维度的特征。社交短文本数据记录可作为多维度特征提取算法的输入，为后续步骤提供数据基础。

B2：提取文本内容维度特征。

文本内容维度的特征可包括文本高频词、内容主题词和全文本分词。全文本分词特征是将社交短文本进行中文分词，并过滤掉无意义的词，形成分词列表；文本高频词通过对文本分词列表中的词项进行统计，选取出现频数较高的词项作为该文本的高频词；文本主题词可以是利用textRank算法提取能够代表文本主题的关键词。

B3：提取涉及人员维度特征。

利用输入的社交文本传播网络，获取传播网络中的所有节点，即为该社交文本参与传播过程的所有人员唯一标识集合。

B4：提取文本传播维度特征。

利用输入的社交文本传播网络，提取其关键传播地址集合、关键传播路径集合和首发地址集合。其中，关键传播地址的提取可采用度中心性算法、加权度中心性算法和介数中心度算法等算法实现，提取在文本传播过程中起到关键作用的传播地址。传播网络中出现关键传播节点数量最多的传播路径作为文本的关键传播路径。遍历网络关系中的时间属性，找到发送时间最小的发送节点，即为文本传播过程中的首发地址。

B5：提取事件维度特征。

从文本内容中提取事件相关特征，包括事件时间、事件地点和事件人物。

需要说明的是，B2～B5为并列关系。

C：社交文本多维度特征相似度计算。

因为特征项之间具有各自的特点，所以需要针对具体的特征项采用特定的相似度计算方法。

(1)文本内容维度的相似度计算方法。

全文本特征相似度计算。社交文本的字符长度区间在1-140个中文字符间变化，长文本相似度计算方法并不适用，本公开采用Simhash算法和编辑距离算法组合实现针对社交文本的相似度计算。Simhash是一种局部哈希算法，将文本表示为64位0/1向量，采用余弦相似度计算向量之间的相似度，即为两个社交文本间的相似度；当文本字符长度低于20个字符，基于Simhash的文本相似度计算方法效果下降明显，采用编辑距离算法计算社交文本间的相似度。

高频词特征相似度计算。事件话题聚类过程中是类簇与单条社交文本计算相似度值，通常类簇与单条社交文本的高频词数据量相差较大，为了更准确地评估两个高频词集合的相似度，采用非均衡性Jaccard距离计算两个高频词集合的相似度，非均衡性Jaccard距离是指两个集合交集元素数量除以两个集合元素数量的最小值。

主题词特征相似度计算。类簇与单条社交文本提取的主题词数量可限定在10个，因此主题词集合属于均衡性词元素集合，可采用均衡性Jaccard距离计算两个主题词集合的相似度，即两个集合交集的元素数量除以两个集合并集的元素数量。

(2)涉及人员维度的特征相似度计算方法。

全体参与人员相似度计算。类簇传播过程中涉及大量的参与人员，而单条社交文本传播过程中涉及的人员相对较少，如果单条社交文本的参与人员集合很大比例包含在类簇传播参与人员集合中，则说明该条社交文本与已有的事件话题具有很强的“相似”或者“相关”性。因此，采用非均衡性Jaccard距离计算事件话题传播参与人员集合与新出现社交文本传播参与人员集合间的相似度。

(3)传播维度的特征相似度计算方法。

传播维度的特征包括关键传播地址、关键传播路径和首发地址特征。由于事件话题中包含的社交文本数量较大，通常一个事件话题会包含几百至几千个社交文本样本，因此事件话题的各个传播特征集合中包含的元素数量也会较大，而单条新社交文本的传播特征集合中包含的元素数量较小。因此，采用非均衡性Jaccard距离计算事件话题的关键传播地址、关键传播路径和首发地址特征分别与新出现社交文本对应特征之间的相似度。

(4)事件维度的特征相似度计算方法。

事件维度特征包括事件时间、地点和人物。事件话题包含的事件维度特征集合与新产生的单条社交的社交文本的事件维度特征集合，同样存在非均衡性，因此，采用非均衡性Jaccard距离计算事件话题与新产生社交文本在事件维度特征的相似度。

社交文本各个维度的特征项提取完成后，持久化到关系型数据库中。

D、社交文本多维度特征权重确定方法。

通过事件话题与新产生社交文本各个维度相似度计算，得到特征相似度向量，向量中每个相似度值属于[0,1]，需要计算事件话题与新社交文本的最终整体相似度值，各个特征项对最终相似度值的影响程度不同，即不同的特征项分配的权重值不同。可采用如下三种方法确定不同特征项的权重。

(1)根据事件话题聚类效果人工调整权重值

首先，针对业务数据进行分析，基于业务经验知识初设特征项指标权重；然后，根据实际聚类效果调整各特征项指标权重。

(2)构造判断矩阵，计算特征权重

建立图2所示的特征体系后，从层次结构的第2层开始，对同一层因素之间的重要性进行两两比较，直到最下层。在建立了递阶层次模型基础上构造判断矩阵，通过判断矩阵表述每一层各要素相对其上层某要素的相对重要程度。计算判断矩阵的最大特征根对应的特征向量即为各特征项对应的权重值。

(3)针对聚类结果标注，拟合特征权重

基于D中方法(1)完成初步事件话题聚类，人工对聚类结果进行标注，利用修正的聚类结果采用线性逻辑回归方法，拟合最优的特征项权重。

E、社交文本多维度特征聚类

在实现社交文本多维度特征提取和各特征项权重确定的基础上，实现社交文本的多维度特征聚类算法。聚类具体步骤如下。

(1)由数据库批量加载新社交文本的多维度特征。

(2)由数据库批量加载已有的第二类簇的多维度特征。

(3)计算新社交文本与已有的第二类簇在各个维度的相似度。

(4)基于各维度特征的相似度，计算新社交文本与已有的第二类簇的整体相似度值，产生<新社交文本ID，已有的第二类簇ID，相似度值>三元组。

(5)如果相似度大于预设相似度阈值，则将新社交文本与已有的第二类簇合并，否则产生新的第三类簇。

(6)更新加入该新社交文本的第一类簇的多维度特征。

(7)将文本聚类结果持久化到数据库中。

F、提取类簇中信息集合的数据特征。

在完成社交文本聚类的基础上，提取类簇中信息集合的事件话题数据特征，包括：事件话题的典型样本、典型关键字(主题词)、总体参与人数、总体传播次数、事件话题的关键传播节点以及关键传播路径等。

上述多维度特征提取及聚类过程可采用Spark分布式内存计算框架完成，存储社交文本传播网络的图数据库可采用HugeGraph图数据库，存储结构化分析结果的关系型数据库可采用MySQL，算法开发语言可采用Python。

下面，对社交文本多维度特征提取的具体实施例进行介绍。

社交文本多维度特征提取的流程图如图4所示。

步骤S410，输入社交文本数据记录及其传播网络。

该步骤主要将待特征提取的社交文本数据记录加载到内存，并将构建完成的对应社交文本传播网络加载到内存，采用分布式内容计算框架Spark来完成，主要执行以下操作：

编写由MySQL数据库中批量加载社交文本数据记录程序；

根据批量加载的社交文本数据的唯一标识，由HugeGraph图数据库中查询并返回社交文本传播网络。

步骤S420，提取社交文本内容维度特征。

该步骤目标是提取社交文本内容维度的特征项，包括社交文本全文本、高频词和主题词。各特征项的提取具体描述为步骤S430-S432。

步骤S430，提取社交文本内容高频词。首先，将社交文本进行分词，并基于停用词典过滤文本中高频无意义词项，形成社交文本分词列表；采用Spark批量统计分词列表中的词项，在社交文本中出现的频数；选取频数超过设定阈值的词项作为社交文本高频词。

步骤S431，提取社交文本内容主题词。采用textRank算法计算社交文本内容主题词，如果textRank算法返回的主题词集合为空，则将该社交文本高频词作为其主题词。

步骤S432，提取社交文本全文本内容。将输入的社交文本作为社交文本全文本内容特征。

步骤S421，提取社交文本传播涉及人员维度特征。

根据步骤S410得到的社交文本传播网络，获取网络中的所有节点，该节点集合中的元素即为社交文本传播过程中涉及人员的唯一标识。此过程表示为步骤S433。

步骤S422，提取社交文本传播维度特征。

社交文本传播维度特征是指关键传播节点、关键传播路径和首发地址特征。各特征项的提取过程表示为步骤S434-S436。

步骤S434，提取社交文本关键传播节点。采用度中心性算法、加权度中性算法和介数中心度算法相结合的方式提取关键传播节点，此三种中心性算法都是评价节点在网络中的重要程度，但侧重点有所不同。首先通过介数中心度算法获取社交文本传播网络的关键节点，如果介数中心度算法无法返回关键节点(网络规模较小时，介数中心度算法无法得到关键节点)，则采用加权中心性算法得到出入度之和较大的节点作为关键传播节点。

步骤S435，提取社交文本关键传播路径。将出现关键传播节点数量最多的路径定义为信息关键传播路径，经过证明传播网络中最长路径即为上述关键传播路径。基于步骤S410得到的社交文本传播网络，计算网络最长路径，并返回路径中包含的节点和关系。

步骤S436，提取社交文本首发地址特征。同一条社交文本内容可能会存在多个首发地址，即存在不同的人员编辑并发送了该社交文本(而不是转发社交文本)，通常可以认为一个人员使用多个手机号码或者存在线下群体共同编辑社交文本。此类场景涉及的人员往往关注同一类事件话题。根据步骤S410中获取的社交文本传播网络，遍历网络中的节点，并计算每个节点的入度值，入度为0的节点即为首发地址，从而得到社交文本的首发地址特征。

步骤S423，提取社交文本内容包含的事件维度特征。

事件维度特征是指社交文本内容中包含的时间、地点和人物信息。根据步骤S410得到的社交文本内容数据，对文本内容进行分词和词性标注，遍历分词列表，将词性标注为'nh'的词项集合作为事件时间特征，将词性标注为'ns'的词项集合作为事件地点特征，将词性标注为'nt'的词项集合作为事件人物特征。上述过程分别表示为步骤S437-S439。

步骤S440，特征集合持久化。

将步骤S420-S423提取到的社交文本多维度特征集合，持久化到关系型数据库如MySQL中。

应理解，图4所示的流程图仅仅是示意性而非限制性的，本领域技术人员可以基于图4的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

下面，对多维度特征事件话题聚类的具体实施例进行介绍。

利用多维度特征集合，将内容相似或者存在上下文相关关系的社交文本聚合到一起，作为一个事件话题。由于社交文本的数据量巨大，本实施例采用Spark分布式内存计算框架实现该聚类算法，实施流程如图5所示，具体步骤如下。

步骤S510，批量加载新社交文本的多维度特征数据。

利用SparkSQL编程接口批量加载数据库中新社交文本的多维度特征记录，本实施例设置每次加载10000条社交文本特征数据记录，并将加载的社交文本特征数据转换为Spark RDD数据结构，便于后续算法的进一步处理。

步骤S520，批量加载已有的第二类簇的多维度特征数据。

利用SparkSQL编程接口批量加载数据库中已有的第二类簇(上一次执行社交文本事件话题聚类的结果)的多维度特征数据，为防止已经结束的历史事件话题仍加入到聚类过程中，消耗计算资源，本实施例只将指定时间段内更新的社交文本事件话题加载到内存中，并将类簇的特征数据，转换为与步骤S510一致的Spark弹性分布式数据集(ResilientDistributed Datasets，RDD)数据结构。

步骤S530，计算新社交文本与已有的第二类簇各特征项的相似度。

对步骤S520和步骤S530产生的RDD，做笛卡尔全连接操作，产生连接后的RDD数据。针对每个特征项采用相应的相似度计算方法。新社交文本与已有的第二类簇的主题词采用均衡性Jaccard距离计算两者的相似度；文本内容通过Simhash与编辑距离组合的方式计算两者的相似度；文本高频词、参与人员、关键传播地址、关键传播路径以及事件维度特征采用非均衡性Jaccard距离计算对应的相似度。

步骤S540，计算新社交文本与已有的第二类簇的整体相似度。

基于步骤S530得到的新社交文本与已有的第二类簇各个维度特征相似度值，计算两者之间的整体相似度。本实施例中各特征项的权重根据厉害经验设定，<高频词，主题词，全文本，全体参与人员，关键传播地址，关键传播路径，首发地址特征，事件时间，事件地址，事件人物>设定的权重为<0.15，0.15，0.08，0.02，0.15，0.1，0.1，0.05，0.1，0.1>。通过Spark的批量计算，得到每条新社交文本与每个已有的第二类簇的相似度，针对每条社交文本保留与其相似度值最大的已有的第二类簇连接，形成<新社交文本ID，已有的第二类簇ID，相似度值>三元组。

步骤S550，如果相似度大于预设相似度阈值，则将新社交文本与已有的第二类簇合并，否则生成新的第三类簇；

步骤S560，更新加入该新社交文本的第一类簇的多维度特征。

遍历步骤S540产生的<新社交文本ID，已有的第二类簇ID，相似度值>三元组，如果相似度大于预设相似度阈值，则将新社交文本与已有的第二类簇中的社交文本合并，并更新该已有的第二类簇的多维度特征项；否则说明新社交文本不属于已有的第二类簇，可将该新社交文本独自作为新的第三类簇。

步骤S570，聚类结果持久化。

将新社交文本与已有的第二类簇的聚类结果持久化到MySQL数据库中。

由于社交文本数据是不间断产生的，因此聚类过程需要设定为自动化程序执行，循环执行步骤S510-步骤S570。

下面，对提取类簇中信息集合的数据特征的具体实施例进行介绍。

在完成针对事件话题聚类的基础上，提取类簇中信息集合的事件话题数据特征，包括：事件话题的典型样本、典型关键字(主题词)、总体参与人数、总体传播次数、事件话题的关键传播节点以及关键传播路径等。

其中，典型样本选择能够代表类簇的5条典型社交文本，通过计算类簇中每条社交文本与类簇整体主题词的相似度，选择Top-5最相似的社交文本样本作为该类簇的典型样本。将类簇中的所有社交文本内容串联为一体，通过textRank算法计算类簇的典型关键字。累加类簇中每条社交文本的参与人数即为总体参与人数，同样的方法计算社交文本类簇总体传播次数。构建类簇中所有社交文本样本的传播网络，构成类簇的传播网络，完成关键传播节点和关键传播路径特征的提取。

应理解，图5所示的流程图仅仅是示意性而非限制性的，本领域技术人员可以基于图5的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开提供的技术方案，能有效解决在海量低价值密度的短文本数据中抽取有价值的事件或话题所面临的数据量大、稀疏性高的问题。实现了基于文本内容维度、涉及人员维度、传播维度和事件维度的多维度特征事件聚类，并针对演化事件进行周期性典型样本、典型关键字和关键用户信息的抽取；将社交事件聚类及关键信息抽取流程固化为软件，数据分析人员能够周期性跟踪事件进展，对有价值事件增加关注和无价值事件取消聚类操作。在真实海量短文本数据中，采用本公开提供的方案执行测试，针对选定的若干事件发现准确率为92.3％，召回率为91.6％。

本公开的文本数据处理方法，可应用于大数据离线分析、大数据在线实时分析，进而应用于事件话题聚类、资源推荐、产品推送等领域。

本公开实施例公开了一种文本数据处理装置，如图6所示，该文本数据处理装置可以包括：获取模块601，用于获取社交文本的原始数据，社交文本的长度小于预设长度阈值；第一提取模块602，用于基于社交文本的原始数据，提取社交文本的多维度特征；确定模块603，用于基于社交文本的多维度特征，确定社交文本所属的第一类簇；加入模块604，用于将社交文本加入类簇；处理模块605，用于基于类簇包括的目标社交文本，确定类簇对应的信息集合，该目标社交文本包括该社交文本。

在一些实施例中，原始数据包括文本内容数据；该第一提取模块602，包括：第一提取子模块，用于基于社交文本的文本内容数据，提取社交文本的文本内容特征和事件特征，多维度特征包括文本内容特征和事件特征。

在一些实施例中，原始数据包括传播网络数据；该第一提取模块602，包括：第二提取子模块，用于基于社交文本的传播网络数据，提取社交文本的涉及人员特征和传播特征，多维度特征包括涉及人员特征和传播特征。

在一些实施例中，该确定模块603包括：第一确定子模块，用于确定各维度特征下社交文本与已有的第二类簇的相似度；第二确定子模块，用于根据各维度特征下社交文本与已有的第二类簇的相似度，确定社交文本与已有的第二类簇的整体相似度；第三确定子模块，用于响应于存在大于预设相似度阈值的整体相似度，将与社交文本的整体相似度大于预设相似度阈值的已有的第二类簇，确定为社交文本所属的第一类簇。

在一些实施例中，该确定模块603还包括：创建子模块，用于响应于不存在大于预设相似度阈值的整体相似度，为社交文本创建新的第三类簇；第四确定子模块，用于将新的第三类簇确定为社交文本所属的第一类簇。

在一些实施例中，第一确定子模块，用于：确定社交文本与已有的第二类簇的文本内容特征的相似度；确定社交文本与已有的第二类簇的涉及人员特征的相似度；确定社交文本与已有的第二类簇的传播特征的相似度；确定社交文本与已有的第二类簇的事件特征的相似度。

在一些实施例中，第一确定子模块确定社交文本与已有的第二类簇的文本内容特征的相似度，包括下述至少之一：确定社交文本与已有的第二类簇的全文本的相似度；确定社交文本与已有的第二类簇的高频词的相似度，高频词是出现次数大于预设次数阈值的词语；确定社交文本与已有的第二类簇的主题词的相似度。

在一些实施例中，第一确定子模块确定社交文本与已有的第二类簇的涉及人员特征的相似度，包括：确定社交文本的第一参与人员集合与已有的第二类簇的第二参与人员集合；确定第一参与人员集合和第二参与人员集合的相似度；将第一参与人员集合和第二参与人员集合的相似度，确定为社交文本与已有的第二类簇的涉及人员特征的相似度。

在一些实施例中，第一确定子模块确定社交文本与已有的第二类簇的传播特征的相似度，包括下述至少之一：确定社交文本的第一传播特征集合和已有的第二类簇的第二传播特征集合的关键传播地址的相似度；确定第一传播特征集合和第二传播特征集合的关键传播路径的相似度；确定第一传播特征集合和第二传播特征集合的首发地址的相似度。

在一些实施例中，第一确定子模块确定社交文本与已有的第二类簇的事件特征的相似度，包括下述至少之一：确定社交文本的第一事件特征集合和已有的第二类簇的第二事件特征集合的事件时间的相似度；确定第一事件特征集合和第二事件特征集合的事件地点的相似度；确定第一事件特征集合和第二事件特征集合的事件人物的相似度。

在一些实施例中，该文本数据处理装置还包括：更新模块606(图中未示出)，用于在加入模块将社交文本加入类簇之后，基于社交文本对类簇的多维度特征进行更新，得到类簇的更新后的多维度特征。

在一些实施例中，该处理模块605包括：第四确定子模块，用于基于类簇的更新后的多维度特征，确定类簇对应的信息集合。

在一些实施例中，该文本数据处理装置还包括：第二提取模块607(图中未示出)，用于基于类簇对应的信息集合，提取类簇包括的事件话题的数据特征。其中，数据特征包括下述至少之一：样本；关键字；主题词；总参与人数；总传播次数；关键传播节点；关键传播路径。

本领域技术人员应当理解，本公开实施例的文本数据处理装置中各处理模块的功能，可参照前述的文本数据处理方法的相关描述而理解，本公开实施例的文本数据处理装置中各处理模块，可通过实现本公开实施例所述的功能的模拟电路而实现，也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。

本公开实施例的文本数据处理装置，能实现对海量的长度较短的社交文本数据的信息挖掘，提高信息挖掘的准确率。

图7示出了文本数据处理的场景示意图，从图7可以看出，电子设备如云服务器接收来自各终端输入的海量社交文本的原始数据，社交文本的长度小于预设长度阈值；电子设备基于社交文本的原始数据，提取社交文本的多维度特征；基于社交文本的多维度特征，确定社交文本所属的第一类簇；将社交文本加入第一类簇；基于第一类簇包括的所有社交文本，确定第一类簇对应的信息集合，该信息集合包括事件信息集合。电子设备向各终端返回针对海量社交文本的原始数据确定出的事件信息集合。

本公开不对终端、电子设备的个数进行限定，实际应用中可包括多个终端、多个电子设备。

应理解，图7所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图7的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(Read-OnlyMemory，ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RandomAccess Memory，RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output，I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如文本数据处理方法。例如，在一些实施例中，文本数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的文本数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本数据处理方法，包括：

获取社交文本的原始数据，所述社交文本的长度小于预设长度阈值，所述原始数据包括文本内容数据和传播网络数据；

基于所述社交文本的所述原始数据，提取所述社交文本的多维度特征；

基于所述社交文本的所述多维度特征，确定所述社交文本所属的第一类簇；

将所述社交文本加入所述第一类簇；

基于所述第一类簇包括的目标社交文本，确定所述第一类簇对应的信息集合，所述目标社交文本包括所述社交文本；

其中，所述提取所述社交文本的多维度特征包括：

基于所述社交文本的所述文本内容数据，提取所述社交文本的文本内容特征和事件特征，所述多维度特征包括所述文本内容特征和所述事件特征；

基于所述社交文本的所述传播网络数据，提取所述社交文本的涉及人员特征和传播特征，所述多维度特征包括所述涉及人员特征和所述传播特征；

其中，将所述社交文本加入所述第一类簇包括：

基于所述社交文本对所述第一类簇的多维度特征进行更新，得到第一类簇的更新后的多维度特征；

所述基于所述社交文本的所述多维度特征，确定所述社交文本所属的第一类簇，包括：

基于所述社交文本的所述多维度特征和已有的第二类簇的多维度特征，分别确定各维度特征下所述社交文本与所述已有的第二类簇的相似度；

根据各维度特征下所述社交文本与所述已有的第二类簇的相似度，确定所述社交文本与所述已有的第二类簇的整体相似度；

响应于存在大于预设相似度阈值的整体相似度，将与所述社交文本的整体相似度大于所述预设相似度阈值的已有的第二类簇，确定为所述社交文本所属的第一类簇；

所述分别确定各维度特征下所述社交文本与所述已有的第二类簇的相似度，包括：

确定所述社交文本与所述已有的第二类簇的文本内容特征的相似度；

确定所述社交文本与所述已有的第二类簇的涉及人员特征的相似度；

确定所述社交文本与所述已有的第二类簇的传播特征的相似度；

确定所述社交文本与所述已有的第二类簇的事件特征的相似度。

2.根据权利要求1所述的方法，其中，所述基于所述社交文本的所述多维度特征，确定所述社交文本所属的第一类簇，还包括：

响应于不存在大于所述预设相似度阈值的整体相似度，为所述社交文本创建新的第三类簇；

将所述新的第三类簇确定为所述社交文本所属的第一类簇。

3.根据权利要求1所述的方法，其中，所述确定所述社交文本与所述已有的第二类簇的文本内容特征的相似度，包括下述至少之一：

确定所述社交文本与所述已有的第二类簇的全文本的相似度；

确定所述社交文本与所述已有的第二类簇的高频词的相似度，所述高频词是出现次数大于预设次数阈值的词；

确定所述社交文本与所述已有的第二类簇的主题词的相似度。

4.根据权利要求1所述的方法，其中，所述确定所述社交文本与所述已有的第二类簇的涉及人员特征的相似度，包括：

确定所述社交文本的第一参与人员集合与所述已有的第二类簇的第二参与人员集合；

确定所述第一参与人员集合与所述第二参与人员集合的相似度；

将所述第一参与人员集合与所述第二参与人员集合的相似度，确定为所述社交文本与所述已有的第二类簇的涉及人员特征的相似度。

5.根据权利要求1所述的方法，其中，所述确定所述社交文本与所述已有的第二类簇的传播特征的相似度，包括下述至少之一：

确定所述社交文本的第一传播特征集合与所述已有的第二类簇的第二传播特征集合的关键传播地址的相似度；

确定所述第一传播特征集合与所述第二传播特征集合的关键传播路径的相似度；

确定所述第一传播特征集合与所述第二传播特征集合的首发地址的相似度。

6.根据权利要求1所述的方法，其中，所述确定所述社交文本与所述已有的第二类簇的事件特征的相似度，包括下述至少之一：

确定所述社交文本的第一事件特征集合与所述已有的第二类簇的第二事件特征集合的事件时间的相似度；

确定所述第一事件特征集合与所述第二事件特征集合的事件地点的相似度；

确定所述第一事件特征集合与所述第二事件特征集合的事件人物的相似度。

7.根据权利要求1所述的方法，其中，所述基于所述第一类簇包括的目标社交文本，确定所述第一类簇对应的信息集合，包括：

基于所述第一类簇的所述更新后的多维度特征，确定所述第一类簇对应的信息集合。

8.根据权利要求1所述的方法，还包括：

基于所述第一类簇对应的所述信息集合，提取所述第一类簇包括的事件话题的数据特征；

其中，所述数据特征包括下述至少之一：

9.一种文本数据处理装置，包括：

获取模块，用于获取社交文本的原始数据，所述社交文本的长度小于预设长度阈值，所述原始数据包括文本内容数据和传播网络数据；

第一提取模块，用于基于所述社交文本的所述原始数据，提取所述社交文本的多维度特征；

确定模块，用于基于所述社交文本的所述多维度特征，确定所述社交文本所属的第一类簇；

加入模块，用于将所述社交文本加入所述第一类簇；

处理模块，用于基于所述第一类簇包括的目标社交文本，确定所述第一类簇对应的信息集合，所述目标社交文本包括所述社交文本；

其中，所述第一提取模块包括：

第一提取子模块，用于基于所述社交文本的所述文本内容数据，提取所述社交文本的文本内容特征和事件特征，所述多维度特征包括所述文本内容特征和所述事件特征；

第二提取子模块，用于基于所述社交文本的所述传播网络数据，提取所述社交文本的涉及人员特征和传播特征，所述多维度特征包括所述涉及人员特征和所述传播特征；

其中，所述加入模块包括：

更新子模块，用于基于所述社交文本对所述第一类簇的多维度特征进行更新，得到第一类簇的更新后的多维度特征；

所述确定模块，包括：

第一确定子模块，用于基于所述社交文本的所述多维度特征和已有的第二类簇的多维度特征，分别确定各维度特征下所述社交文本与所述已有的第二类簇的相似度；

第二确定子模块，用于根据各维度特征下所述社交文本与所述已有的第二类簇的相似度，确定所述社交文本与所述已有的第二类簇的整体相似度；

第三确定子模块，用于响应于存在大于预设相似度阈值的整体相似度，将与所述社交文本的整体相似度大于所述预设相似度阈值的已有的第二类簇，确定为所述社交文本所属的第一类簇；

所述第一确定子模块，用于：

10.根据权利要求9所述的装置，其中，所述确定模块，还包括：

创建子模块，用于响应于不存在大于所述预设相似度阈值的整体相似度，为所述社交文本创建新的第三类簇；

第四确定子模块，用于将所述新的第三类簇确定为所述社交文本所属的第一类簇。

11.根据权利要求9所述的装置，其中，所述第一确定子模块确定所述社交文本与所述已有的第二类簇的文本内容特征的相似度，包括下述至少之一：

确定所述社交文本与所述已有的第二类簇的高频词的相似度，所述高频词是出现次数大于预设次数阈值的词语；

12.根据权利要求9所述的装置，其中，所述第一确定子模块确定所述社交文本与所述已有的第二类簇的涉及人员特征的相似度，包括：

确定所述第一参与人员集合和所述第二参与人员集合的相似度；

将所述第一参与人员集合和所述第二参与人员集合的相似度，确定为所述社交文本与所述已有的第二类簇的涉及人员特征的相似度。

13.根据权利要求9所述的装置，其中，所述第一确定子模块确定所述社交文本与所述已有的第二类簇的传播特征的相似度，包括下述至少之一：

确定所述社交文本的第一传播特征集合和所述已有的第二类簇的第二传播特征集合的关键传播地址的相似度；

确定所述第一传播特征集合和所述第二传播特征集合的关键传播路径的相似度；

确定所述第一传播特征集合和所述第二传播特征集合的首发地址的相似度。

14.根据权利要求9所述的装置，其中，所述第一确定子模块确定所述社交文本与所述已有的第二类簇的事件特征的相似度，包括下述至少之一：

确定所述社交文本的第一事件特征集合和所述已有的第二类簇的第二事件特征集合的事件时间的相似度；

确定所述第一事件特征集合和所述第二事件特征集合的事件地点的相似度；

确定所述第一事件特征集合和所述第二事件特征集合的事件人物的相似度。

15.根据权利要求9所述的装置，其中，所述处理模块，包括：

第四确定子模块，用于基于所述第一类簇的所述更新后的多维度特征，确定所述第一类簇对应的信息集合。

16.根据权利要求9所述的装置，还包括：

第二提取模块，用于基于所述第一类簇对应的所述信息集合，提取所述第一类簇包括的事件话题的数据特征；

其中，所述数据特征包括下述至少之一：

17.一种电子设备，包括：

处理器；以及

与所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令被所述处理器执行，以使所述处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。