CN108536868B

CN108536868B - 社交网络上短文本数据的数据处理方法及装置

Info

Publication number: CN108536868B
Application number: CN201810372364.0A
Authority: CN
Inventors: 杨鹏
Original assignee: Beijing Huiwen Technology Group Co ltd
Current assignee: Beijing Huiwen Technology Group Co ltd
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2022-04-15
Anticipated expiration: 2038-04-24
Also published as: CN108536868A

Abstract

社交网络上短文本数据的数据处理方法、数据处理装置和电子设备。该数据处理方法包括：获取社交网络上用户的短文本数据；结合短文本数据以形成长文档；获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息；将与主题相关的关键词和用户真实意图信息输入LDA主题模型，以获得第一文档‑主题分布和第一主题‑关键词分布；将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得第二文档‑主题分布和第二主题‑关键词分布；以及，基于所述第一文档‑主题分布与所述第二文档‑主题分布之间的判定，确定所述长文档的主题。这样，可以通过处理短文本数据获得与用户相关的主题信息，准确地确定用户兴趣。

Description

社交网络上短文本数据的数据处理方法及装置

技术领域

本申请总的来说地涉及数据处理领域，且更为具体地，涉及一种用于社交网络上短文本数据的数据处理方法、数据处理装置和电子设备。

背景技术

随着社交媒体的发展，越来越多的用户开始通过社交平台(例如，推特、微博)向他人传递信息、分享自己的想法和发布自己感兴趣的内容等。在此过程中，产生大量与用户密切相关的文本信息。如何对这些文本信息进行文本数据挖掘以挖掘出有用的知识成为重要的任务，例如，通过对文本信息处理挖掘出文本信息中包含了哪些主题、用户对哪些主题感兴趣等。

由于这类文本信息的独特特性，其文本较短通常少于140个字，导致在利用现有的主题模型对该类短文本信息进行数据挖掘的过程中遇到诸多问题。

因此，需要适用于该类短文本信息数据挖掘的数据挖掘方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种用于社交网络上短文本数据的数据处理方法，其通过基于LDA主题模型和IBTM主题模型处理短文本数据而获得与用户相关的主题信息，可以准确地确定用户兴趣。

根据本申请的一方面，提供了一种用于数据处理方法，包括：获取用户的短文本数据；结合预设数量的所述短文本数据以形成长文档；对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息；将所述与主题相关的关键词和所述用户真实意图信息输入LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布；将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布；以及，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的主题。

在上述数据处理方法中，对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息的步骤，包括：对所述长文档中的内容进行去重和去标点；对去重和去标点之后的所述长文档进行分词，并对每一分词进行词性标记；统计各分词的词频；选择词频超过预设阈值的分词为所述与主题相关的关键词，其中，设定同时出现的所述与主题相关的关键词为所述与主题相关的关键词对；以及，按照预设规则进行分词组合以获得所述用户真实意图信息。

在上述数据处理方法中，将所述与主题相关的关键词和所述真实意图信息输入LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布的步骤，包括：将狄利克雷先验和预设主题数量输入所述LDA主题模型；和，基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词进行增量式吉布斯采样，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布。

在上述数据处理方法中，将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布的步骤，包括：将狄利克雷先验和预设主题数量输入所述IBTM主题模型；和，基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词对进行增量式吉布斯采样，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。

在上述数据处理方法中，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的主题的步骤，包括：选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布；选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布；确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于预设阈值；响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于预设阈值的判定，确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题；以及，响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于预设阈值的判定，确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。

在上述数据处理方法中，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的主题，包括：选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布；选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布；确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值；响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值的判定，确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题；以及，响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于预设阈值的判定，确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。

在上述数据处理方法中，选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布的步骤，包括：对通过所述LDA主题模型得到的所述第一文档-主题分布中各文档-主题概率进行归一化处理；以降序的方式排序经过归一化处理之后的所述第一文档-主题分布的各主题；以及，筛选出头部预设数量的主题作为所述最佳主题数量的第一文档-主题分布。

在上述数据处理方法中，选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布的步骤，包括：对通过所述IBTM主题模型得到的所述第二文档-主题分布中各文档-主题概率进行归一化处理；以降序的方式排序经过归一化处理之后的所述第二文档-主题分布的各主题；以及，筛选出头部预设数量的主题作为所述最佳主题数量的第二文档-主题分布。

在上述数据处理方法中，所述数据处理方法，还包括：基于所述长文档的各所述主题对应的主题-关键词分布，确定与所述主题对应的主题标签。

在上述数据处理方法中，基于所述长文档的各所述主题对应的主题-关键词分布，确定与所述主题对应的主题标签的步骤，包括：对所述长文档的各所述主题对应的主题-关键词分布分别进行归一化处理；以降序的方式分别排序经过归一化处理之后的各相同主题下的主题-关键词分布；以及，筛选出头部预设数量的各相同主题下的主题-关键词分布中的关键词作为所述与所述主题对应的主题标签。

在上述数据处理方法中，所述短文本数据为微博数据，所述主题为用户兴趣，以及，所述与主题对应的主题标签为兴趣标签。

在上述数据处理方法中，在获取用户的短文本数据的步骤中，所述用户的短文本数据为该用户最近一段时间内更新的微博数据。

根据本申请的另一方面，还提供一种数据处理装置，包括：文本获取单元，用于获取用户的短文本数据；文档形成单元，用于结合预设数量的所述短文本数据以形成长文档；预处理单元，用于对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息；模型运算单元，用于将所述与主题相关的关键词和所述用户真实意图信息输入LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布，以及，将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布；以及，主题确定单元，用于基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的主题。

在上述数据处理装置中，所述预处理单元用于：对所述长文档中的内容进行去重和去标点；对去重和去标点之后的所述长文档进行分词，并对每一分词进行词性标记；统计各分词的词频；选择词频超过预设阈值的分词为所述与主题相关的关键词，其中，设定同时出现的所述与主题相关的关键词为所述与主题相关的关键词对；以及，按照预设规则进行分词组合以获得所述用户真实意图信息。

在上述数据处理装置中，所述模型运算单元用于：将狄利克雷先验和预设主题数量输入所述LDA主题模型；和，基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词进行增量式吉布斯采样，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布。

在上述数据处理装置中，所述模型运算单元用于：将狄利克雷先验和预设主题数量输入所述IBTM主题模型；和，基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词对进行增量式吉布斯采样，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。

在上述数据处理装置中，所述主题确定单元用于：选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布；选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布；确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于预设阈值；响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于预设阈值的判定，确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题；以及，响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于预设阈值的判定，确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。

在上述数据处理装置中，所述主题确定单元用于：选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布；选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布；确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值；响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值的判定，确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题；以及，响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值的判定，确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。

在上述数据处理装置中，所述主题确定单元选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布，包括：对通过所述LDA主题模型得到的所述第一文档-主题分布中各文档-主题概率进行归一化处理；以降序的方式排序经过归一化处理之后的所述第一文档-主题分布的各主题；以及，筛选出头部预设数量的主题作为所述最佳主题数量的第一文档-主题分布。

在上述数据处理装置中，所述主题确定单元选择选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布，包括：对通过所述IBTM主题模型得到的所述第二文档-主题分布中各文档-主题概率进行归一化处理；以降序的方式排序经过归一化处理之后的所述第二文档-主题分布的各主题；以及，筛选出头部预设数量的主题作为所述最佳主题数量的第二文档-主题分布。

在上述数据处理装置中，进一步包括：标签确定单元，用于基于所述长文档的各所述主题对应的主题-关键词分布，确定与所述主题对应的主题标签。

在上述数据处理装置中，所述标签确定单元用于：对所述长文档的各所述主题对应的主题-关键词分布分别进行归一化处理；以降序的方式分别排序经过归一化处理之后的各相同主题下的主题-关键词分布；以及，筛选出头部预设数量的各相同主题下的主题-关键词分布中的关键词作为所述与所述主题对应的主题标签。

在上述数据处理装置中，所述短文本数据为微博数据，所述主题为用户兴趣，以及，所述与主题对应的主题标签为兴趣标签。

在上述数据处理装置中，所述文本获取单元用于获取所述用户最近一段时间内更新的微博数据。

根据本申请的又一方面，提供了一种电子设备，包括：处理器；以及存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的数据处理方法。

本申请提供的数据处理方法、数据处理装置和电子设备，可以通过基于LDA主题模型和IBTM主题模型处理短文本数据获得与用户相关的主题信息，从而准确地确定用户兴趣。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1图示了根据本申请实施例的数据处理方法的流程图；

图2图示了根据本申请实施例的数据处理方法中对所述长文档进行预处理的流程图；

图3图示了根据本申请实施例的数据处理方法中的LDA主题模型的示意图；

图4图示了根据本申请实施例的数据处理方法中的IBTM主题模型的示意图；

图5图示了根据本申请实施例的数据处理方法中确定所述长文档的主题的一实例的流程图；

图6图示了根据本申请实施例的数据处理方法中确定所述长文档的主题的另一实例的流程图；

图7图示了将根据本申请实施例的数据处理方法应用于提取用户微博数据的兴趣主题和兴趣标签的过程示意图；

图8图示了根据本申请实施例的数据处理装置的框图；

图9图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，随着社交媒体的发展，越来越多的用户开始通过社交平台(例如，推特、微博)向他人传递信息、分享自己的想法和发布自己感兴趣的内容等。在此过程中，产生大量与用户密切相关的文本信息。这类文本信息最大的特点为文本较短，通常少于140个字，即该类文本信息为短文本数据。在利用现有的主题模型对该类短文本数据进行数据挖掘的过程中，遇到了诸多问题。

具体地，由于该类文本信息的文本长度较短，现有的主题模型在推测用户主题信息的过程中，面临着数据稀疏的问题。其次，这类短文本信息存在着多种语言表达形式，例如英文表达形式或者中文表达形式，这导致在利用现有的主题模型进行数据挖掘的过程中，抓取该短文本信息中与主题相关的关键词遇到很大难题。并且，现有的主题模型在数据挖掘过程中，数据挖掘的对象往往是离线的短文本数据，而忽略线上数据的实时更新性及与用户相关的主题信息将随着时间的改变而改变的基本事实。这样，导致在利用现有的主题模型进行推测与用户相关的主题信息时，准确度不高且无法体现用户的主题信息的实时变化。

针对上述技术问题，本申请的基本构思是收集用户的短文本数据(包括用户最近一端时间内更新的短文本数据)并将所述短文本数据结合形成长文档；进而，基于LDA(隐形狄利克雷分配：Latent Dirichlet Allocation)主题模型和IBTM(增强双项主题模型：Incremental Biterm Topic Model)主题模型对所述长文档进行处理以更为准确地获得长文档中所包含的与用户相关的主题信息。

基于此，本申请提供了一种数据处理方法、数据处理装置和电子设备，其首先结合预设数量的所述短文本数据以形成长文档，再对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息，继而将所述与主题相关的关键词和所述用户真实意图信息输入LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布，以及，将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布，最后基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的主题。这样，通过基于LDA主题模型和IBTM主题模型对短文本数据进行处理，可更为准确地挖掘出短文本信息中所包含的主题信息，从而准确地确定用户兴趣。

需要说明的是，本申请的上述基本构思可以应用于各种类型的用户的短文本数据，而不限于用户的微博数据、微信数据、短消息数据等。也就是说，本申请可以应用于各种短文本数据的处理。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示意性方法

图1图示了根据本申请实施例的数据处理方法的流程图。如图1所示，根据本申请实施例的数据处理方法，包括：S110，获取用户的短文本数据；S120，结合预设数量的所述短文本数据以形成长文档；S130，对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息；S140，将所述与主题相关的关键词和所述用户真实意图信息输入LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布；S150，将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布；以及S160，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的主题。

在步骤S110，获取用户的短文本数据。例如，如上所述，所述用户的短文本数据为用户微博数据。用户微博数据为短文本数据，其文本长度被设置小于140个，因此，在下文中通过所述用户的短文本数据为用户微博数据为示例说明根据本申请实施例的数据处理方法。当然，本领域的技术人员可以理解，在本申请实施例中，所述用户的短文本数据可为其他类型(例如，短信息文本数据)，其文本长度也可为小于其他阈值，例如130个字等，对此本申请实施例并不意在进行任何限制。

在实际实现方面，可基于应用程度编程接口(Application ProgrammingInterface，API)通过网络爬虫实时从微博中爬取用户微博数据。如上所述，现有的主题模型在数据挖掘过程中，数据挖掘的对象往往是离线的短文本数据，而忽略线上数据的实时更新性及与用户相关的主题信息将随着时间的改变而可能发生改变的事实。特别地，在根据本申请实施例的数据处理方法中，在通过网络爬虫获取用户的微博数据之后，进一步对所爬取的用户微博数据进行筛选，以提取出用户在最近一段时间内的微博数据作为所述用户的短文本数据。通过这样的方式，从数据源头确保待处理的用户短文本数据能够捕捉到与用户主题信息的变化，以提高所述数据处理方法对主题信息推测的准确性。

在步骤S120，结合预设数量的所述短文本数据以形成长文档。也就是说，在根据本申请实施例的数据处理方法中，结合预设数量的用户微博数据以形成长文档，例如，通过滑动窗口。如上所述，由于短文本信息的文本长度较短，如果选择直接以主题模型处理短文本信息，将面临着数据稀疏的问题。相应地，在根据本申请实施例的数据处理方法中，选择将短文本数据汇集起来以形成长文档，从而，在后续利用主题模型进行主题挖掘的过程中，主题模型所处理的数据对象本质上为长文本数据，以有效地解决数据稀疏的问题。

值得一提的是，在具体将预设数量的用户微博数据整合为长文档的过程中，可进一步地对用户微博数据进行处理，例如筛选出用户微博数据中该用户转发的微博数据、筛选出用户微博数据中被点赞次数超过预设阈值的微博数据等。

在步骤S130，对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息。例如，在本申请实施例中，所述数据处理方法的目的可被设置为挖掘用户微博数据中的用户兴趣信息。相应地，这里，所述与主题相关的关键词为兴趣关键词，所述与主题相关的关键词对为兴趣关键词对，所述用户真实意图信息为体现用户兴趣的真实意图信息。当然，本领域技术人员可以理解，在本申请实施例中，所述数据处理方法还可应用于挖掘其他类型的主题信息，例如用户情感信息等，对此，本申请实施例不进行任何限制。

更具体地说，在本申请实施例中，对所述长文档进行预处理的过程，包括：首先，对所述长文档中每一条用户微博数据进行去重和去标点，即，删除所述长文档中每一条用户微博数据中的重复字或词，并去除所有标点符号；进而，对去重和去标点之后的所述长文档进行分词，并对每一分词进行词性标记；进一步，统计各分词的词频，并选择词频超过预设阈值的分词为所述兴趣关键词，其中，设定同时出现的所述兴趣关键词为所述兴趣关键词对。换句话说，在本申请实施例中，根据所述长文档中各分词之间的词频关系筛选出所述兴趣关键词和所述兴趣关键词对。

进一步地，对所述长文档进行预处理的过程，还包括，按照预设规则进行分词组合以获得所述用户真实意图信息。其中，在本申请实施例中，该预设规则为根据分词在长文档中的位置进行组合。例如，在所述长文档中的一条用户微博数据中包括文本信息：“红酒木瓜汤效果如何？”，通过上述预处理过程可得到分词：“红酒”、“木瓜”、“汤”，和“效果”，进一步地，按照该预设规则对分词进行组合之后可得到“红酒”、“木瓜”、“汤”、“效果”、“红酒木瓜”“木瓜汤”、“效果”、和“红酒木瓜汤”。进一步地，如果用户在其所发布的微博数据中多次提到关于食物的信息，则可以得到用户的真实意图是指“红酒木瓜汤”。

图2图示了根据本申请实施例的数据处理方法中对所述长文档进行预处理的流程图。如图2所示，在根据本申请实施例的数据处理方法中，对所述长文档进行预处理的过程，包括：S210，对所述长文档中的内容进行去重和去标点；S220，对去重和去标点之后的所述长文档进行分词，并对每一分词进行词性标记；S230，统计各分词的词频；S240，选择词频超过预设阈值的分词为所述与主题相关的关键词，其中，同时出现的所述与主题相关的关键词为所述与主题相关的关键词对；以及S250，按照预设规则进行分词组合以获得所述用户真实意图信息，其中，在本申请实施例中，所述与主题相关的关键词为兴趣关键词，所述与主题相关的关键词对为兴趣关键词对，所述用户真实意图信息为体现用户兴趣的真实意图信息。

进一步地，在步骤S140和步骤S150，将所述与主题相关的关键词和所述用户真实意图信息输入LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布；以及，将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。具体地，在本申请实施例中，将所述兴趣关键词和所述用户真实意图信息输入LDA主题模型，例如，在线LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布；以及，将所述兴趣关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。

在具体执行步骤S140的过程中，除了将所述兴趣关键词和所述用户真实意图信息输入至LDA主题模型之外，还将狄利克雷先验和预设主题数量(设定为N，其中N为正整数)输入所述LDA主题模型以结合所述狄利克雷先验和预设主题数量，以及所述用户真实意图信息和所述兴趣关键词，获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布。本领域技术人员可以理解，LDA主题模型(参照附图3)属于无监督式学习算法，根据约束聚类方法的性质，在主题模型中加入先验知识，可以更加有效地提升聚类效果，使聚类效果更加符合预期。对应到本申请实施例中，在所述LDA主题模型中加入所述狄利克雷先验和预设主题数量的目的正是如此。

更具体地说，在本申请实施例中，所述LDA主题模型集成了狄利克雷先验，并利用增量式吉布斯采样方法取代现有LDA主题模型的吉布斯采样方法对所述用户真实意图信息和所述兴趣关键词进行采样，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布。其中，所述增量式吉布斯采样方法可表示为：

其中，z_di表示文档d中每个词w_di所分布的主题，-di表示不计算z_di和w_di，w是w_di的缩写，α和β分别是文档-主题概率分布θ和词-主题概率分布φ的狄利克雷参数，n_k,d表示将文档d中每一个词分配给主题k的次数，n_w,k表示词w分配给主题k的次数，n_k表示分配到主题k的所有词的个数，V表示语料库中所有字典。

从上述增量式吉布斯采样公式可看到，采样公式利用狄利克雷先验来模拟原语料和新语料中的主题分布，进而通过对这些语料中的数据进行部分抽取并重新采样，更新模型，从而使文档-主题的后验分布结果更加接近真实值。换句话说，在本申请实施例中，所述LDA主题模型通过整合用户微博数据中的兴趣关键词、用户真实意图信息、狄利克雷先验和预设用户主题数量，并且通过增量式吉布斯采样公式将这些信息融合并更新所述LDA主题模型。

值得一提的是，通过增量式吉布斯采样方法取代常用的吉布斯采用方法，能够将新采集的数据与语料库中的数据进行结合，并利用语料库中的回环数据进行重新采样，通过这样的方式，更新所述LDA主题模型并推测新数据中的用户的主题分布，以优化所述LDA主题模型的性能。

在利用增量式吉布斯采样方法针对LDA主题模型进行采样之后，进一步地依据如下公式

获得所述LDA主题模型的主题-关键词分布，其中，n_w|k表示词w分配到主题k的次数，n_·|k表示分配到主题k的所有词的数量，V表示语料库中字典的大小，β表示词-主题概率分布φ的狄利克雷参数。

在执行步骤S150的过程中，除了所述兴趣关键词对和所述用户真实意图信息之后，还需将狄利克雷先验和预设主题数量(设定为N，其中N为正整数)输入所述IBTM主题模型，以基于所述狄利克雷先验和预设主题数量以及所述用户真实意图信息和所述兴趣关键词对，获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。相类似地，本领域技术人员应知晓，IBTM主题模型(参照附图4)属于无监督式学习算法，根据约束聚类方法的性质，在主题模型中加入先验知识，可以更加有效地提升聚类效果，使聚类效果更加符合预期。对应到本申请实施例中，在所述IBTM主题模型中加入所述狄利克雷先验和预设主题数量的目的正是如此。

更具体地说，在本申请实施例中，所述IBTM主题模型集成了狄利克雷先验，并利用增量式吉布斯采样方法取代现有IBTM主题模型的吉布斯采样方法对所述用户真实意图信息和所述兴趣关键词对进行采样，通过这样的方式，获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。其中，所述增量式吉布斯采样方法可表示为：

其中，z_-i表示对除了词对b_i外所有词对B_i的主题分布，n_-i,k表示除了词对b_i外分配给主题k的词对个数，α和β分别是文档-主题概率分布θ和词-主题概率分布φ的狄利克雷参数，n_-i,w|k表示除了词对b_i外，词w分配给主题k的次数，n_-i,·|k表示除了词对b_i外，分配到主题k的所有词w的数量，V表示语料库中的字典长度。

从上述采样公式可看到，在采用过程中，利用狄利克雷先验来模拟原语料和新语料中的主题分布，进而通过对这些语料中的数据进行部分抽取并重新采样，更新模型，从而使文档-主题的后验分布结果更加接近真实值。换句话说，在本申请实施例中，所述IBTM主题模型通过整合用户微博数据中的兴趣关键词对、用户真实意图信息、狄利克雷先验和预设用户主题数量，并且通过增量式吉布斯采样公式将这些信息融合并更新所述IBTM主题模型，从而使文档-主题的后验分布结果更加接近真实值。

值得一提的是，增量式吉布斯采样方法能够将新采集的数据与语料库中的数据进行结合，并利用语料库中的回环数据进行重新采样，通过这样的方式，更新所述IBTM主题模型并推测新数据中的用户的主题分布，以优化所述IBTM主题模型的性能。

在利用增量式吉布斯采样方法针对IBTM主题模型进行采样之后，进一步地依据如下公式

获得所述IBTM主题模型的主题-关键词分布，其中，n_w|k表示词w分配到主题k的次数，n_·|k表示分配到主题k的所有词的数量，V表示语料库中字典的大小，β表示词-主题概率分布φ的狄利克雷参数。

进一步地，在藉由所述LDA主题模型获得所述第一文档-主题分布和所述主题-关键词分布，以及，藉由所述IBTM主题模型获得所述第二文档-主题分布和所述主题-关键词分布之后，执行步骤S160，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的主题。也就是说，在本申请实施例中，基于所述第一文档-主题分布和所述第二文档-主题分布之间的判定，确定所述长文档中的用户兴趣主题信息。

更具体地说，在本申请实施例中，所述基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定过程，用公式可表示为：

其中，Δθ表示主题模型中设定具有最佳主题数量的所述文档-主题中文档-主题概率最大值与最小值的差值，Δθ_OLDA表示具有最佳主题数量的所述第一文档-主题分布中文档-主题概率最大值与最小值的差值，Δθ_IBTM表示具有最佳主题数量的所述第二文档-主题中文档-主题概率最大值与最小值的差值，θ表示该文档中主题的概率分布，δ表示对两个主题模型的选择结果，θ_OLDA表示通过所述LDA主题模型得到的文档-主题分布，θ_IBTM表示通过IBTM主题模型得到的文档-主题分布，τ表示阈值。

从上述判定公式可以看出，在判定过程中需首先获得通过所述LDA主题模型所获得所述第一文档-主题分布中具有最佳主题数量的所述第一文档-主题分布，以及通过所述IBTM主题模型所获得所述第二文档-主题分布中具有最佳主题数量的所述第二文档-主题分布。

这里，在本申请实施例中，具有最佳主题数量的所述文档-主题分布(包括具有最佳主题数量的所述第一文档-主题分布或具有最佳主题数量的所述第二文档-主题分布)表示用户最感兴趣的几个主题领域(设定为K，其中，K为正整数且K≤N)，其可通过如下方式获取。对应于具有最佳主题数量的所述第一文档-主题分布而言，首先，对通过所述LDA主题模型得到的所述第一文档-主题分布中各文档-主题概率进行归一化处理，继而，以降序的方式排序经过归一化处理之后的所述第一文档-主题分布的各主题，进一步地，筛选出头部预设数量的主题作为所述最佳主题数量的第一文档-主题分布。对应于具有最佳主题数量的所述第二文档-主题分布而言，首先，对通过所述IBTM主题模型得到的所述第二文档-主题分布中各文档-主题概率进行归一化处理；继而，以降序的方式排序经过归一化处理之后的所述第二文档-主题分布的各主题；进一步地，筛选出头部预设数量的主题作为所述最佳主题数量的第二文档-主题分布。

根据上述判定公式可以看出，进一步地，通过主题模型中设定具有最佳主题数量的所述文档-主题中文档-主题概率最大值与最小值的差值与预设阈值τ之间的比较，确定选择通过所述LDA主题模型所获得的所述第一文档-主题分布或通过所述IBTM主题模型所获得的所述第二文档-主题分布表征用户真实的兴趣分布。换句话说，在本申请实施例中，通过IBTM主题模型和LDA主题模型提供两种不同的兴趣分布主题模型选择，并最终通过判定的方式选择出两者中较优的主题模型表征用户的兴趣分布，其中判定的目的在于分析哪个主题模型更接近用户的真实兴趣分布结果。这里，通过提供两个主题模型，并通过判定最终确定两者之中哪个更为合适，通过这样的方式，根据本申请实施例的数据处理方法能针对具体不同类型的短文本数据适配不同的主题模型，以有效地扩展其应用范围。

相应地，根据上述判定公式可知，当所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于预设阈值时，确定所述最佳主题数量的第一文档-主题分布表征用户真实的兴趣分布。此时，所述最佳主题数量的第一文档-主题分布中的主题即为所述长文档的兴趣主题。当所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于预设阈值的判定，确定所述最佳主题数量的第二文档-主题分布表征用户真实的兴趣分布。此时，所述最佳主题数量的第二文档-主题分布中的主题即为所述长文档的兴趣主题

值得一提的是，在本申请实施例中，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定过程，还可以通过其他方式进行判定，用公式表示为：

其中，Δθ表示主题模型中设定具有最佳主题数量的所述文档-主题中文档-主题概率最大值与最小值的差值，Δθ_OLDA表示具有最佳主题数量的所述第一文档-主题分布中文档-主题概率最大值与最小值的差值，Δθ_IBTM表示具有最佳主题数量的所述第二文档-主题中文档-主题概率最大值与最小值的差值，θ表示该文档中主题的概率分布，δ表示对两个主题模型的选择结果，θ_OLDA表示通过所述LDA主题模型得到的文档-主题分布，θ_IBTM表示通过IBTM主题模型得到的文档-主题分布。根据上述判定公式可以看出，在本申请的该实施例中，判定的基准为：所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值。

图5图示了根据本申请实施例的数据处理方法中确定所述长文档的主题的一实例的流程图。如图5所示，在根据本申请实施例的数据处理方法中，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的主题的过程，包括：S310,选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布；S320,选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布；S330，确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于预设阈值；S340,响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于预设阈值的判定，确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题；以及S350,响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于预设阈值的判定，确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。

图6图示了根据本申请实施例的数据处理方法中确定所述长文档的主题的另一实例的流程图。如图6所示，在根据本申请实施例的数据处理方法中，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的主题的过程，包括：S310A,选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布；S320A,选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布；S330A,确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值；S340A,响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值的判定，确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题；以及S350A，响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值的判定，确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。

在确定所述长文档的兴趣主题之后，为了能进一步获得用户在不同兴趣领域感兴趣的内容标签，需进一步地基于所述长文档的各所述主题对应的主题-关键词分布，确定与所述主题对应的主题标签。即，根据所述长文档的各兴趣主题对应的主题-关键词分布确定所述用户的兴趣标签。也就是说，根据本申请实施例的数据处理方法，还包括：基于所述长文档的各所述主题对应的主题-关键词分布，确定与所述主题对应的主题标签。

更具体地说，在本申请的该实施例中，确定所述用户的兴趣标签的过程按照如下方式进行：首先，对所述长文档的各所述兴趣主题对应的主题-关键词分布分别进行归一化处理，其中，归一化处理的过程用公式可表示为：

其中，φ_w,k表示主题模型的主题-关键词分布，θ表示主题模型的文档-主题分布，δ表示上述步骤中对两个主题模型的选择结果。继而，以降序的方式分别排序经过归一化处理之后的各相同主题下的主题-关键词分布；进一步地，筛选出头部预设数量的各相同主题下的主题-关键词分布中的兴趣关键词作为所述用户的兴趣标签。

综上所述并参考附图7，说明根据本申请实施例的用于短文本数据的数据处理系统应用于提取用户微博数据中的兴趣主题和兴趣标签的情况。如图7所示，首先，获取用于在最近一段时间内的用户微博数据并将预设数量的用户微博数据整合为长文档，进而，对所述长文档进行预处理以获得所述长文档中兴趣关键词、兴趣关键词对和用户真实意图信息，继而，将所述长文档中的所述兴趣关键词和所述用户真实意图信息集成至在线LDA主题模型中以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布。同时，将所述兴趣关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。最终，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的所述兴趣主题和所述兴趣标签。

这里，通过LDA主题模型和IBTM主题模型获得相应文档-主题分布和主题-关键词分布的过程中，将狄利克雷先验和预设主题数量(N，N为正整数)分别集成于不同主题模型(在线LDA主题模型和IBTM主题模型)，以使得文档-主题和主题-关键词的后验分布结果更加接近真实值。并且，兴趣主题分布的采样过程为迭代增量式采样过程，这样的采样方式能够将新采集的数据与语料库中的数据进行结合，并利用语料库中的回环数据进行重新采样，通过这样的方式，更新所述IBTM主题模型并推测新数据中的用户的主题分布，以优化所述IBTM主题模型的性能。此外，由于在本申请实施例中提供两个主题模型，从而可以利用不同主题模型对用户兴趣进行实时挖掘，进而通过判定最终确定两者之中哪个更为合适，通过这样的方式，提高主题兴趣挖掘的准确性。

在具体实施过程中，首先对在线LDA和IBTM主题模型预定义N个主题，然后通过不同的输入信息对用户兴趣进行实施挖掘。如上所述，在LDA主题模型中，除了加入狄利克雷先验和预设主题数量之外，其输入信息还包括用户兴趣关键词和用户的真实意图信息。进一步地，利用增量式吉布斯采样实时获得所述LDA主题模型的用户的第一后验兴趣分布。与LDA主题模型中不同的是在IBTM主题模型中，是以用户兴趣词对信息及真实用户意图作为输入信息。这样，利用增量式吉布斯采样对整个文档的兴趣关键词词对进行迭代采样，获得用户的第二后验兴趣分布。

进一步地，为了能够获得用户在不同兴趣主题下的详细标签，首先，根据所述LDA和所述IBTM主题模型对用户兴趣分布通过归一化计算并基于排序和筛选，得到用户例如前K(K＜＜N)个最感兴趣的领域。例如，设置K为5，则，根据采样并归一化后的文档-主题分布概率，通过倒排，获得前5个最佳兴趣主题。进一步地，通过设定阈值τ判断这两个主题模型哪一个更接近用户真实兴趣分布。换言之，通过对模型中获得的主题概率中最大值与最小值进行差值计算，并基于该差值与阈值τ之间比较结果，确定在每一条用户微博最接近用户真实兴趣分布的主题模型。为了能进一步获得用户在不同兴趣领域感兴趣的内容标签，通过对不同主题K下的不同内容标签利用主题分布比例获得用户最佳兴趣内容标签，实现对微博用户的兴趣领域的进一步挖掘。

这里，虽然在上文中，以短文本数据为用户微博数据为例进行了说明。但是，本领域技术人员可以理解，根据本申请实施例的用于短文本数据的数据处理方法可以应用于各种其他形式的短文本数据，例如短消息等。本申请并不意对此进行任何限制。

示意性装置

图8图示了根据本申请实施例的数据处理装置的示意性框图。

如图8所示，根据本申请实施例的数据处理装置400，包括：文本获取单元410，用于获取用户的短文本数据；文档形成单元420，用于结合所述文本获取单元410获取的预设数量的所述短文本数据以形成长文档；预处理单元430，用于对所述文档形成单元420所形成的长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息；模型运算单元440，用于将所述预处理单元430所获得的与主题相关的关键词和所述用户真实意图信息输入LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布，以及，将所述预处理单元430所获得的与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布；以及，主题确定单元450，用于基于所述模型运算单元440所获得的所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定，确定所述长文档的主题。

在一个示例中，在上述数据处理装置400中，所述预处理单元430用于：对所述长文档中的内容进行去重和去标点；对去重和去标点之后的所述长文档进行分词，并对每一分词进行词性标记；统计各分词的词频；选择词频超过预设阈值的分词为所述与主题相关的关键词，其中，设定同时出现的所述与主题相关的关键词为所述与主题相关的关键词对；以及，按照预设规则进行分词组合以获得所述用户真实意图信息。

在一个示例中，在上述数据处理装置400中，所述模型运算单元440用于：将狄利克雷先验和预设主题数量输入所述LDA主题模型；和，基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词进行增量式吉布斯采样，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布。

在一个示例中，在上述数据处理装置400中，所述模型运算单元440用于：将狄利克雷先验和预设主题数量输入所述IBTM主题模型；和，基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词对进行增量式吉布斯采样，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。

在一个示例中，在上述数据处理装置400中，所述主题确定单元450用于：选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布；选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布；确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于预设阈值；响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于预设阈值的判定，确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题；以及，响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于预设阈值的判定，确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。

在一个示例中，在上述数据处理装置400中，所述主题确定单元450用于：选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布；选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布；确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值；响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值的判定，确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题；以及，响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值的判定，确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。

在一个示例中，在上述数据处理装置400中，所述主题确定单元450选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布，包括：对通过所述LDA主题模型得到的所述第一文档-主题分布中各文档-主题概率进行归一化处理；以降序的方式排序经过归一化处理之后的所述第一文档-主题分布的各主题；以及，筛选出头部预设数量的主题作为所述最佳主题数量的第一文档-主题分布。

在一个示例中，在上述数据处理装置400中，所述主题确定单元450选择选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布，包括：对通过所述IBTM主题模型得到的所述第二文档-主题分布中各文档-主题概率进行归一化处理；以降序的方式排序经过归一化处理之后的所述第二文档-主题分布的各主题；以及，筛选出头部预设数量的主题作为所述最佳主题数量的第二文档-主题分布。

在一个示例中，在上述数据处理装置400中，进一步包括：标签确定单元，用于基于所述长文档的各所述主题对应的主题-关键词分布，确定与所述主题对应的主题标签。

在一个示例中，在上述数据处理装置400中，所述标签确定单元用于：对所述长文档的各所述主题对应的主题-关键词分布分别进行归一化处理；以降序的方式分别排序经过归一化处理之后的各相同主题下的主题-关键词分布；以及，筛选出头部预设数量的各相同主题下的主题-关键词分布中的关键词作为所述与所述主题对应的主题标签。

在一个示例中，在上述数据处理装置400中，所述短文本数据为微博数据，所述主题为用户兴趣，以及，所述与主题对应的主题标签为兴趣标签。

在一个示例中，在上述数据处理装置400中，所述文本获取单元410用于获取所述用户最近一段时间内更新的微博数据。

这里，本领域技术人员可以理解，上述数据处理装置中的各个单元和模块的具体功能和操作已经在上面参考图1到图6描述的数据处理方法中详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的数据处理装置实现在各种终端设备中，例如各种用于短文本数据挖掘的服务器。在一个示例中，根据本申请实施例的数据处理装置作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如，该数据处理装置可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该数据处理装置同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该数据处理装置与该终端设备也可以是分立的设备，并且该数据处理装置可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

值得一提的是，根据本申请实施例的数据处理装置可在Windows下用java、Python和JSP语言开发实现。基于上述开发平台，该数据处理装置的部署运行需要如下几个层次运行环境的支撑。首先在操作系统层，该数据处理装置需要在Windows XP或其兼容的操作系统平台之上运行，同时还需要程序运行支撑环境，也就是java和Python运行支撑环境。当具备了上述支撑环境时，该数据处理装置即可正常运行。而用户只需要通过网页浏览器访问系统就能浏览自己感兴趣的产品的评论的分析结果。

示意性电子设备

下面，参考图9描述根据本申请实施例的电子设备。

图9示了根据本申请实施例的电子设备的框图。

如图9示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的数据处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如所述用户微博数据等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括用户微博兴趣信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示意性计算机程序产品

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的数据处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的数据处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种社交网络上短文本数据的数据处理方法，包括：

获取社交网络上用户的短文本数据；

结合预设数量的所述短文本数据以形成长文档；

对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息；

将所述与主题相关的关键词和所述用户真实意图信息输入LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布；

将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布；以及

选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布；

选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布；

基于所述LDA主题模型的所述最佳主题数量的所述第一文档-主题分布与所述IBTM主题模型的所述最佳主题数量的所述第二文档-主题分布的文档-主题概率最大值和最小值之间的差值的判定，确定所述长文档的主题。

2.根据权利要求1所述的数据处理方法，其中，对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息，包括：

对所述长文档中的内容进行去重和去标点；

对去重和去标点之后的所述长文档进行分词，并对每一分词进行词性标记；

统计各分词的词频；

选择词频超过预设阈值的分词为所述与主题相关的关键词，其中，设定同时出现的所述与主题相关的关键词为所述与主题相关的关键词对；以及

按照预设规则进行分词组合以获得所述用户真实意图信息。

3.根据权利要求2所述的数据处理方法，其中，将所述与主题相关的关键词和所述真实意图信息输入LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布，包括：

将狄利克雷先验和预设主题数量输入所述LDA主题模型；和

基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词进行增量式吉布斯采样，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布。

4.根据权利要求3所述的数据处理方法，其中，将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布的步骤，包括：

将狄利克雷先验和预设主题数量输入所述IBTM主题模型；和

基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词对进行增量式吉布斯采样，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。

5.根据权利要求4所述的数据处理方法，其中，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布的文档-主题概率最大值和最小值之间的差值的判定，确定所述长文档的主题，包括：

响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于预设阈值的判定，确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题；以及

响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于预设阈值的判定，确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。

6.根据权利要求4所述的数据处理方法，其中，基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布的文档-主题概率最大值和最小值之间的差值的判定，确定所述长文档的主题，包括：

响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值的判定，确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题；以及

响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值的判定，确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。

7.根据权利要求1所述的数据处理方法，其中，选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布，包括：

对通过所述LDA主题模型得到的所述第一文档-主题分布中各文档-主题概率进行归一化处理；

以降序的方式排序经过归一化处理之后的所述第一文档-主题分布的各主题；以及

筛选出头部预设数量的主题作为所述最佳主题数量的第一文档-主题分布。

8.根据权利要求1所述的数据处理方法，其中，选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布，包括：

对通过所述IBTM主题模型得到的所述第二文档-主题分布中各文档-主题概率进行归一化处理；

以降序的方式排序经过归一化处理之后的所述第二文档-主题分布的各主题；以及

筛选出头部预设数量的主题作为所述最佳主题数量的第二文档-主题分布。

9.根据权利要求1所述的数据处理方法，还包括：

基于所述长文档的各所述主题对应的主题-关键词分布，确定与所述主题对应的主题标签。

10.根据权利要求9所述的数据处理方法，其中，基于所述长文档的各所述主题对应的主题-关键词分布，确定与所述主题对应的主题标签，包括：

对所述长文档的各所述主题对应的主题-关键词分布分别进行归一化处理；

以降序的方式分别排序经过归一化处理之后的各相同主题下的主题-关键词分布；以及

筛选出头部预设数量的各相同主题下的主题-关键词分布中的关键词作为所述与所述主题对应的主题标签。

11.根据权利要求1至10任一所述的数据处理方法，其中，所述短文本数据为微博数据，所述主题为用户兴趣，以及，所述与主题对应的主题标签为兴趣标签。

12.根据权利要求11所述的数据处理方法，其中，所述用户的短文本数据为该用户最近一段时间内更新的微博数据。

13.一种社交媒体上短文本数据的数据处理装置，包括：

文本获取单元，用于获取社交媒体上用户的短文本数据；

文档形成单元，用于结合预设数量的所述短文本数据以形成长文档；

预处理单元，用于对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息；

模型运算单元，用于将所述与主题相关的关键词和所述用户真实意图信息输入LDA主题模型，以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布，以及，将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型，以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布；以及

主题确定单元，用于选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布；选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布；基于所述LDA主题模型的所述最佳主题数量的所述第一文档-主题分布与所述IBTM主题模型的所述最佳主题数量的所述第二文档-主题分布的文档-主题概率最大值和最小值之间的差值的判定，确定所述长文档的主题。

14.根据权利要求13所述的数据处理装置，其中，所述预处理单元用于：

对所述长文档中的内容进行去重和去标点；

统计各分词的词频；

按照预设规则进行分词组合以获得所述用户真实意图信息。

15.根据权利要求13所述的数据处理装置，进一步包括：

标签确定单元，用于基于所述长文档的各所述主题对应的主题-关键词分布，确定与所述主题对应的主题标签。

16.根据权利要求15所述的数据处理装置，其中，所述标签确定单元用于：

17.根据权利要求13至16任一所述的数据处理装置，其中，所述短文本数据为微博数据，所述主题为用户兴趣，以及，所述与主题对应的主题标签为兴趣标签。

18.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1至12中任一项所述的数据处理方法。

19.一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器运行时执行如权利要求1至12中任一项所述的数据处理方法。