CN103810170A

CN103810170A - 交流平台文本分类方法及装置

Info

Publication number: CN103810170A
Application number: CN201210438476.4A
Authority: CN
Inventors: 温泉; 姚从磊; 翟俊杰; 王亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-11-06
Filing date: 2012-11-06
Publication date: 2014-05-21
Anticipated expiration: 2032-11-06
Also published as: CN103810170B

Abstract

本发明公开一种交流平台文本分类方法及装置，其方法包括采用预设的分类模型对交流平台主文本进行区分；当根据区分结果判定主文本为提问文本时，通过预设的相关性算法，计算获取主文本的回复文本与主文本的相关性分值；根据相关性分值区分主文本为有答案提问文本或无答案提问文本。本发明实现了对交流平台文本的有效分类，获取交流平台的文本是否为提问贴；对于判定为提问贴的文本，获取到回复文本对主文本提问需求的解答贡献，从而有效解决了区分文本是否有真实提问需求，以及提问需求是否被有效满足的问题，同时，为后台对问题文本的排序展示及用户查询提供了依据，便于论坛资源分享与管理。

Description

交流平台文本分类方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种交流平台文本分类方法及装置。

背景技术

在互联网中，论坛一般用来发布信息，为用户提供一个在线交流讨论的平台。通常论坛中发布的信息包括主贴和回帖，其中，主贴是指论坛话题发起的第一条记录，一般包括话题的标题和话题的正文；回帖是指与主题相关，按照发帖时间的先后顺序，排列在主贴后的内容，一般包括对话题的讨论、评论、话题讨论者之间的交流和分享等。

为了判断一篇帖子提出的问题，是否被回帖回答，或者被回帖有效讨论，需要对论坛中的文章进行分类，并以此获取论坛话题讨论效果或获取论坛综合评价，便于后台对论坛资源进行有效管理。

传统的文本分类方法，通常是根据预先标注好的语料，进行特征选取，然后利用这些特征在训练语料上训练出一个模型，并利用这个模型对新的文本进行分类预测。

但是，论坛中的文章，由于与传统文本分类具有很大差异，使得传统的文本分类方法并不完全适用于论坛文章的分类，其主要体现在以下几点：

1、传统文本的结构比较简单。比如，网页中的一篇文章，一般包括标题和正文两段文本。但是论坛中的文章，是一种类似对话形式的组织结构，比如，一篇帖子，一般包括主贴的标题和正文，除此之外，还有很多篇回帖，回帖通常按照时间顺序依次跟在主贴的后面。因此，论坛中的文章相比传统网页文本结构更复杂；

2、传统的文本分类方法，无法判断一篇帖子提出的问题是否被回帖回答，或者被回帖有效讨论。

因此，传统的文本分类方法无法实现对论坛文章的有效分类，进而无法统计论坛话题的讨论效果。

发明内容

本发明的主要目的在于提供一种交流平台文本分类方法及装置，旨在实现对交流平台文本进行有效分类，解决网络论坛话题是否被有效回答的问题。

为了达到上述目的，本发明提出一种交流平台文本分类方法，包括：

采用预设的分类模型对交流平台主文本进行区分；

当根据区分结果判定所述主文本为提问文本时，通过预设的相关性算法，计算获取所述主文本的回复文本与所述主文本的相关性分值；

根据所述相关性分值区分所述主文本为有答案提问文本或无答案提问文本。

优选地，所述采用预设的分类模型对交流平台主文本进行区分的步骤包括：

根据所述主文本的标题和正文构建特征向量；

将所述特征向量输入预设的分类模型，通过所述分类模型进行分析区分后输出所述主文本的分类类型；所述主文本的分类类型包括提问文本和非提问文本。

优选地，所述通过预设的相关性算法，计算获取所述主文本的回复文本与所述主文本的相关性分值的步骤包括：

通过预设的相关性算法，计算获取所述主文本的每一回复文本与所述主文本的相关性分值；或者，计算获取所述主文本的前M篇回复文本与所述主文本的相关性分值，其中，0<M<N，N为所述主文本的所有回复文本。

优选地，所述根据相关性分值区分所述主文本为有答案提问文本或无答案提问文本的步骤包括：

获取计算所得相关性分值最大的回复文本；

判断所述相关性分值最大的回复文本的相关性分值是否大于或等于预设的阈值；若是，则

判定所述主文本为有答案提问文本；否则，

判定所述主文本为无答案提问文本。

优选地，所述采用预设的分类模型对交流平台主文本进行区分的步骤之前还包括：

对预先收集的学习语料进行标注，并从中提取问题特征；

对所述问题特征进行空间向量构造，获得特征向量；

对所述特征向量进行学习，生成分类模型。

本发明还提出一种交流平台文本分类装置，包括：

第一分类模块，用于采用预设的分类模型对交流平台主文本进行区分；

计算获取模块，用于当根据区分结果判定所述主文本为提问文本时，通过预设的相关性算法，计算获取所述主文本的回复文本与所述主文本的相关性分值；

第二分类模块，用于根据所述相关性分值区分所述主文本为有答案提问文本或无答案提问文本。

优选地，所述第一分类模块包括：

构建单元，用于根据所述主文本的标题和正文构建特征向量；

第一分类单元，用于将所述特征向量输入预设的分类模型，通过所述分类模型进行分析区分后输出所述主文本的分类类型；所述主文本的分类类型包括提问文本和非提问文本。

优选地，所述计算获取模块还用于通过预设的相关性算法，计算获取所述主文本的每一回复文本与所述主文本的相关性分值；或者，计算获取所述主文本的前M篇回复文本与所述主文本的相关性分值，其中，0<M<N，N为所述主文本的所有回复文本。

优选地，所述第二分类模块包括：

获取单元，用于获取计算所得相关性分值最大的回复文本；

判断单元，用于判断所述相关性分值最大的回复文本的相关性分值是否大于或等于预设的阈值；若是，则判定所述主文本为有答案提问文本；否则，判定所述主文本为无答案提问文本。

优选地，该装置还包括：

特征提取模块，用于对预先收集的学习语料进行标注，并从中提取问题特征；

向量构造模块，用于对所述问题特征进行空间向量构造，获得特征向量；

模型生成模块，用于对所述特征向量进行学习，生成分类模型。

本发明提出的一种交流平台文本分类方法及装置，针对论坛等交流平台的文本包括提问文本与回答文本的组织结构特点，通过预设的分类模型对交流平台主文本进行提问文本与非提问文本的区分，并通过预设的相关性算法计算主文本的回复文本与所述主文本的相关性分值，根据该相关性分值将主文本区分为有答案提问文本和无答案提问文本，从而实现了对交流平台文本的有效分类，获取交流平台的文本是否为提问贴；对于判定为提问贴的文本，获取到回复文本对主文本提问需求的解答贡献，从而有效解决了区分文本是否有真实提问需求，以及提问需求是否被有效满足的问题，同时，为后台对问题文本的排序展示及用户查询提供了依据，便于论坛资源分享与管理。

附图说明

图1是本发明交流平台文本分类方法第一实施例的流程示意图；

图2是本发明交流平台文本分类方法第一实施例中根据所述相关性分值区分所述主文本为有答案提问文本或无答案提问文本的流程示意图；

图3是本发明交流平台文本分类方法第二实施例的流程示意图；

图4是本发明交流平台文本分类装置第一实施例的结构示意图；

图5是本发明交流平台文本分类装置第一实施例中第一分类模块的结构示意图；

图6是本发明交流平台文本分类装置第一实施例中第二分类模块的结构示意图；

图7是本发明交流平台文本分类装置第二实施例的结构示意图。

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述。

具体实施方式

本发明实施例的解决方案主要是：通过预设的分类模型对交流平台主文本进行提问文本与非提问文本的区分，并通过预设的相关性算法计算主文本的回复文本与所述主文本的相关性分值，根据该相关性分值将主文本区分为有答案提问文本和无答案提问文本，以实现对交流平台文本的有效分类，解决提问贴是否被有效回答的问题。

本发明中交流平台是指提供给用户进行话题评论和讨论的平台，比如论坛等。

以论坛为例，经过对讨论类站点论坛进行统计分析得出，论坛中的大多数帖子，均为用户交流贴，而在用户交流贴中，又以提问贴为主，其比例一般可达到70%。而在非提问贴中，一般以发布消息、分享体验和共享资源为主。

将论坛文章区分为提问贴，有答案提问贴和没有答案提问贴，具有区分性强、不同评测者之间认同度高等特点。一般论坛中话题的发表，主要目的是提出问题或者分享资源，因此，有必要把论坛文章分为提问贴和非提问贴；对于提问贴，也有必要把有答案的帖子提取出来，并计算回帖对于主贴提问需求的解答贡献。

具体地，如图1所示，本发明第一实施例提出一种交流平台文本分类方法，包括：

步骤S101，采用预设的分类模型对交流平台主文本进行区分；

本实施例根据交流平台文本的组织结构特点，以预设的分类模型对交流平台主文本进行区分，区分交流平台主文本是提问文本还是非提问文本。

在具体区分时，首先根据所述主文本的标题和正文构建特征向量；将所述特征向量输入预设的分类模型，通过所述分类模型进行分析区分后输出所述主文本的分类类型。

以论坛帖子为例，交流平台中的主文本是相当于论坛中的主帖，是指论坛话题发起的第一条记录，一般包括话题的标题和话题的正文；主帖之后按照发帖时间的先后顺序排列有若干回帖，作为主帖的回复文本，回帖一般包括对话题的讨论、评论、话题讨论者之间的交流和分享等。

为解决论坛帖子的分类问题，首先，使用预设的分类模型对主帖进行提问帖与非提问帖的区分。

上述分类模型预先根据收集的学习语料，依次通过语料标注、问题特征提取、特征向量空间构造和模型学习训练而生成。

步骤S102，当根据区分结果判定所述主文本为提问文本时，通过预设的相关性算法，计算获取所述主文本的回复文本与所述主文本的相关性分值；

步骤S103，根据所述相关性分值区分所述主文本为有答案提问文本或无答案提问文本。

其中，相关性算法可以采用传统的相关性计算方法，比如可以采用tf-idf、bm25、文本相似度等方法，计算获取所述主文本的回复文本与该主文本的相关性分值。

在计算时，可以通过预设的相关性算法，计算获取所述主文本的每一回复文本与该主文本的相关性分值；或者，计算获取所述主文本的前M篇回复文本与该主文本的相关性分值，其中，0<M<N，N为所述主文本的所有回复文本。

之后可以根据上述获取的回复文本的相关性分值及预设的阈值来区分判断主文本是有答案提问文本还是无答案提问文本。

具体地，如图2所示，上述步骤S103包括：

步骤S1031，获取计算所得相关性分值最大的回复文本；

步骤S1032，判断所述相关性分值最大的回复文本的相关性分值是否大于或等于预设的阈值；若是，则进入步骤S1033；否则，进入步骤S1034；

步骤S1033，判定所述主文本为有答案提问文本；

步骤S1034，判定所述主文本为无答案提问文本。

以论坛帖子为例，当区分出论坛的主帖为问题贴时，抽取前10篇回帖（如果回帖数为m篇，且0<m<10，则抽取前m篇回帖），以预设的相关性算法计算每篇回帖与主贴正文的相关性，得出每篇回帖的相关性分值。

然后，从中获取所有得分大于0的回帖中，相关性分值的最大值，如果该相关性分值的最大值大于或等于预先设定的阈值，则将该对应的主帖分为有答案的提问贴；如果相关性分值的最大值小于预先设定的阈值，则将该主帖分为没有答案的提问贴。

其中，预先设定的阈值可以根据实际经验来设定。

比如，一篇主贴包含10篇回帖，回帖与主贴的相关性分值为[10,0,0,0,20,30,0,0,0,0]，则回帖与主贴的相关性分值的最大值为30，若预先设定的阈值根据经验设定为80。由于回帖与主贴的相关性分值的最大值小于设定的阈值，因此该主帖被分类为没有答案的提问贴。

在区分出主帖是否为提问贴，对于提问贴区分其是否有答案或者被有效讨论后，搜索系统的后台即可根据分类结果对主帖按照一定规则进行排序，比如将有答案问题贴按照一定的相似性排列展示在论坛搜索结果的前面，而将无答案问题贴和非提问贴排列展示在论坛搜索结果的后面，以便于用户在搜寻相关问题时，可快速获取相应的查询结果。

本实施例通过上述方案，实现了对交流平台文本的有效分类，获取交流平台的文本是否为提问贴；对于判定为提问贴的文本，获取到回复文本对主文本提问需求的解答贡献，从而有效解决了区分文本是否有真实提问需求，以及提问需求是否被有效满足的问题，同时，为后台对问题文本的排序展示及用户查询提供了依据，便于论坛资源分享与管理。

需要说明的是，本实施例的上述方案中，判断论坛主帖是否为有答案提问贴，采取的是召回相关性分值最大的回帖，并判断该相关性分值是否高于预先设定的阈值的方法，该方法忽略了其他回帖对于主贴提问需求的贡献，因此，作为该方案的进一步扩展，可以采取类似机器学习的方法，通过训练语料的标注，进行模型训练学习，综合所有回帖的相关性得分，以此来计算带有若干篇回帖的文章是否为有答案提问贴。

如图3所示，本发明第二实施例提出一种交流平台文本分类方法，在上述步骤S101之前还包括：

步骤S80，对预先收集的学习语料进行标注，并从中提取问题特征；

步骤S90，对所述问题特征进行空间向量构造，获得特征向量；

步骤S100，对所述特征向量进行学习，生成分类模型。

本实施例与上述第一实施例的区别在于，本实施例还包括生成分类模型的方案。

具体地，在生成分类模型时，根据预先收集的学习语料，依次通过语料标注、问题特征提取、特征向量空间构造和模型学习训练生成分类模型。

以论坛帖子为例，学习语料的标注可以按照以下标准来判断一个主贴是否为提问贴。

首先，一个提问贴，通常在标题或者正文中，包含问题的提出，问题的描述，而且应该是真实的提问需求。

比如，一篇主贴的标题为“discuz空间怎样注册？”，正文为“刚刚下载了discuz2.5，请教大家怎么注册discuz空间?”，在这篇主贴中，以一个问句作为主贴的标题，并在正文中包含问题的描述。

在实际的论坛中，提问贴的主贴标题，往往不是以一个提问句开头，而是以陈述句的句式提出或者描述一个问题，比如，一篇主贴的标题为“服务器环境已经配置好了，但是访问不了”。虽然这不是一个问句，但是包含了真实的提问需求，因此也应该被列为提问贴。

另外，还有一些论坛文章，是以自问自答句作为主贴标题，或者在主贴标题中提问，在主贴正文中解答。比如，主贴标题为“还在犹豫吗？赶紧注册discuz2.5吧”，或者，主贴标题为“discuz百度搜索插件无法安装”，正文为“解决这个问题，需要下载最新版discuz2.5”。前者的标题为自问自答句，后者在主贴标题中提问，同时在主贴正文中解答。

对于上述例子，虽然主帖中有问句，但是主贴作者在标题或者正文中，已给出了问题的解决办法，因此没有真实的提问需求，而不应该被列为提问贴。

为了判断真实的提问需求，本实施例设计了以下特征来区分一篇论坛文章的主贴是否为提问贴。具体的特征设置如下表1所示：

表1：主贴分类模型所涉及的特征

其中，常用的疑问词共222个，为一般疑问句中经常出现的词，比如“为什么”、“怎样”、“好不好”、“求教”、“谁知道”、“什么时间”等。非提问贴中常用的词，选取了一些分享贴、推荐贴中经常出现的词，比如“推荐”、“分享”、“教程”、“网站”、“下载”、“附件”等。

对于提问的标点符号，一般为表达发帖者强烈情感或者希望引起注意的一些标点符号的组合，比如感叹号“！”和问号“？”的组合：“!?”、“?!”、“!!!!”、“???”等。

对于网址，可以采用不完整的网址链接或者统一资源定位URI（uniform resource identifier），比如“taobao.com”，“/file/php.html”等。

之后，可以采用传统的自动分类的方法，根据事先标记好的学习语料，学习生成分类模型。

当生成分类模型后，对于未知分类的论坛文章，则可根据主贴的标题和正文构建特征向量，输入到分类模型，由分类模型进行区分后，输出分类的类别。

对于带有分类概率输出的分类模型，在输出的信息中，不仅可以包括分类的类别，还可以包括属于该类别的概率。比如，对于标题为“discus插件安装的问题”，正文为“刚下载了discuz2.5，求教怎么安装百度搜索插件？”，通过分类模型区分后，输出的信息为：“分类结果：提问贴，分类概率：0.8465”。

此外，如果主贴中包含更详细的信息，比如作者类型、站点类型等非文本信息，还可以添加到分类模型特征向量空间内，则可以进一步提高分类的准确性能。

本实施例上述方案，根据预先收集的学习语料，依次通过语料标注、问题特征提取、特征向量空间构造和模型学习训练生成分类模型，利用生成的分类模型对交流平台主文本进行提问文本与非提问文本的区分，并通过预设的相关性算法计算主文本的回复文本与所述主文本的相关性分值，根据该相关性分值将主文本区分为有答案提问文本和无答案提问文本，从而实现了对交流平台文本的有效分类，获取到回复文本对主文本提问需求的解答贡献，进而有效解决了提问贴是否被有效回答的问题，同时，为后台对问题文本的排序展示及用户查询提供了依据，便于论坛资源分享与管理。

如图4所示，本发明第一实施例提出一种交流平台文本分类装置，包括：第一分类模块401、计算获取模块402以及第二分类模块403，其中：

第一分类模块401，用于采用预设的分类模型对交流平台主文本进行区分；

计算获取模块402，用于当根据区分结果判定所述主文本为提问文本时，通过预设的相关性算法，计算获取所述主文本的回复文本与所述主文本的相关性分值；

第二分类模块403，用于根据所述相关性分值区分所述主文本为有答案提问文本或无答案提问文本。

在具体区分时，首先由第一分类模块401根据所述主文本的标题和正文构建特征向量；将所述特征向量输入预设的分类模型，通过所述分类模型进行分析区分后输出所述主文本的分类类型。

之后，计算获取模块402通过预设的相关性算法，计算获取所述主文本的每一回复文本与该主文本的相关性分值；或者，计算获取所述主文本的前M篇回复文本与该主文本的相关性分值，其中，0<M<N，N为所述主文本的所有回复文本。

之后由第二分类模块403根据上述获取的回复文本的相关性分值及预设的阈值来区分判断主文本是有答案提问文本还是无答案提问文本。

具体地，如图5所示，所述第一分类模块401可以包括：构建单元4011以及第一分类单元4012，其中：

构建单元4011，用于根据所述主文本的标题和正文构建特征向量；

第一分类单元4012，用于将所述特征向量输入预设的分类模型，通过所述分类模型进行分析区分后输出所述主文本的分类类型；所述主文本的分类类型包括提问文本和非提问文本。

如图6所示，所述第二分类模块403可以包括：获取单元4031及判断单元4032，其中：

获取单元4031，用于获取计算所得相关性分值最大的回复文本；

判断单元4032，用于判断所述相关性分值最大的回复文本的相关性分值是否大于或等于预设的阈值；若是，则判定所述主文本为有答案提问文本；否则，判定所述主文本为无答案提问文本。

其中，预先设定的阈值可以根据实际经验来设定。

如图7所示，本发明第二实施例提出一种交流平台文本分类装置，在上述第一实施例的基础上，还包括：

特征提取模块404，用于对预先收集的学习语料进行标注，并从中提取问题特征；

向量构造模块405，用于对所述问题特征进行空间向量构造，获得特征向量；

模型生成模块406，用于对所述特征向量进行学习，生成分类模型。。

具体地，在生成分类模型时，由特征提取模块404根据预先收集的学习语料，依次进行语料标注和问题特征提取，然后由向量构造模块405进行特征向量空间构造，最后由模型生成模块406进行模型学习训练生成分类模型。

为了判断真实的提问需求，本实施例设计了以下特征来区分一篇论坛文章的主贴是否为提问贴。具体的特征设置如上表1所示：

对于网址，可以采用不完整的网址链接或者统一资源定位URI（uniformresource identifier），比如“taobao.com”，“/file/php.html”等。

本实施例上述方案，根据预先收集的学习语料，依次通过语料标注、问题特征提取、特征向量空间构造和模型学习训练生成分类模型，利用生成的分类模型对交流平台主文本进行提问文本与非提问文本的区分，并通过预设的相关性算法计算主文本的回复文本与所述主文本的相关性分值，根据该相关性分值将主文本区分为有答案提问文本和无答案提问文本，从而实现了对交流平台文本的有效分类，获取交流平台的文本是否为提问贴；对于判定为提问贴的文本，获取到回复文本对主文本提问需求的解答贡献，从而有效解决了区分文本是否有真实提问需求，以及提问需求是否被有效满足的问题，同时，为后台对问题文本的排序展示及用户查询提供了依据，便于论坛资源分享与管理。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种交流平台文本分类方法，其特征在于，包括：

采用预设的分类模型对交流平台主文本进行区分；

2.根据权利要求1所述的方法，其特征在于，所述采用预设的分类模型对交流平台主文本进行区分的步骤包括：

根据所述主文本的标题和正文构建特征向量；

3.根据权利要求1所述的方法，其特征在于，所述通过预设的相关性算法，计算获取所述主文本的回复文本与所述主文本的相关性分值的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述根据相关性分值区分所述主文本为有答案提问文本或无答案提问文本的步骤包括：

获取计算所得相关性分值最大的回复文本；

判定所述主文本为有答案提问文本；否则，

判定所述主文本为无答案提问文本。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述采用预设的分类模型对交流平台主文本进行区分的步骤之前还包括：

对预先收集的学习语料进行标注，并从中提取问题特征；

对所述问题特征进行空间向量构造，获得特征向量；

对所述特征向量进行学习，生成分类模型。

6.一种交流平台文本分类装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第一分类模块包括：

8.根据权利要求6所述的装置，其特征在于，所述计算获取模块还用于通过预设的相关性算法，计算获取所述主文本的每一回复文本与所述主文本的相关性分值；或者，计算获取所述主文本的前M篇回复文本与所述主文本的相关性分值，其中，0<M<N，N为所述主文本的所有回复文本。

9.根据权利要求8所述的装置，其特征在于，所述第二分类模块包括：

获取单元，用于获取计算所得相关性分值最大的回复文本；

10.根据权利要求6-9中任一项所述的装置，其特征在于，还包括：