CN104657466A

CN104657466A - 一种基于论坛帖子特征的用户兴趣识别方法及装置

Info

Publication number: CN104657466A
Application number: CN201510071873.6A
Authority: CN
Inventors: 陈方毅; 高家栋; 苏利祥
Original assignee: Xiamen Mei You Information Technology Co Ltd
Current assignee: Xiamen Meishao Co., Ltd.
Priority date: 2015-02-11
Filing date: 2015-02-11
Publication date: 2015-05-27
Anticipated expiration: 2035-02-11
Also published as: CN104657466B

Abstract

本发明公开了一种基于论坛帖子特征的用户兴趣识别方法及装置，该方法包括：服务器获取用户操作过的帖子的标题和内容；对每个帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为帖子的特征词；计算每个特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为帖子的标签；其中，标签库预先保存多个用于表征帖子特征的标签词；合并相同的标签词，并统计每个标签词的数量；以及计算每个标签词与全部标签词的相关度，并根据数量利用图论算法得到用户的兴趣标签词组。利用本发明，能够在海量帖子中对每个用户的兴趣进行特征识别，并且具有较高的准确率。

Description

一种基于论坛帖子特征的用户兴趣识别方法及装置

技术领域

本发明涉及网络信息分析与数据挖掘技术领域，特别是涉及一种基于论坛帖子特征的用户兴趣识别方法及装置。

背景技术

随着计算机网络的不断发展，网络信息成为日常生活中的重要组成部分，互联网以及成为人们获取信息、交流沟通的重要场所。大量实时信息充斥互联网之上，在这些海量的Web信息资源中，蕴含着巨大的潜在价值。

面对指数增长的信息信息，如何有效掌握海量数据，提取其中的热点话题，或者获取自己想要的信息，成为长期困扰网络用户的难题。当前对帖子内容识别主要是基于TF-IDF(Term Frequency-InverseDocument Frequency)算法，计算词汇的TF值和IDF值，然后基于K-means做聚类分析，再人工对聚类结果提取特定的标签词。这种算法只适用于对少量帖子进行识别的情况，并不适用于对大数据量的帖子进行识别。在基于K-means聚类分析时，中间产出的稀疏矩阵是包括分布式集群在内都很难承受的量级。并且，聚类效果有限，之后的分类提取耗费的人力也很大。即使已经有分类标签集，使用IDF对新词或少见词进行聚类识别也具有有很差的鲁棒性，帖子特征向量的提取会受到很大的影响。

进一步地，现有的用户兴趣分类算法一般是基于人工整理用户兴趣大类，然后机器对帖子做大类映射，该映射关系会缺失帖子细节信息。并且，现有分类无论是基于贝叶斯还是TF-IDF等算法，都有一定的偏差率，基于有偏差的映射结果来分析用户的兴趣，不能降低偏差的影响。

发明内容

本发明主要解决的技术问题是提供一种基于论坛帖子特征的用户兴趣识别方法及装置，能够在海量帖子中对每个用户的兴趣进行特征识别，并且具有较高的准确率。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于论坛帖子特征的用户兴趣识别方法，所述方法包括：服务器获取用户操作过的帖子的标题和内容；对每个所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数；计算每个所述特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为所述帖子的标签；其中，所述标签库预先保存多个用于表征帖子特征的标签词；合并相同的所述标签词，并统计每个所述标签词的数量；以及计算每个所述标签词与全部标签词的相关度，并根据所述数量利用图论算法得到所述用户的兴趣标签词组。

其中，所述计算每个所述标签词与全部标签词的相关度，并根据所述数量利用图论算法得到所述用户的兴趣标签词组的步骤具体为：计算每个标签词与全部标签词的相关度，并相应地记录计算得到的相关度与阈值的比较结果，以相应地形成第一邻接矩阵；统计每个标签词的度以确定最大度；以及确定所述最大度对应的标签词，以形成用户的兴趣标签词组。

其中，所述方法还包括：获取所述用户的兴趣标签词组中每个标签词在所述第一邻接矩阵的位置，并将所述位置的比较结果初始化；统计每个标签词的度并判断统计得到的度是否不全为0；若是，则确定最大度，并执行所述确定所述最大度对应的标签词，以形成用户的兴趣标签词组的步骤；否则，完成用户兴趣标签词组的形成。

其中，所述计算所述特征词与标签库内的标签词的关联系数的步骤具体为：将所述特征词映射到词向量空间；其中，所述词向量空间是基于word2vec并根据所述标签词的共现频率预先构造的；依次计算所述词向量空间中的向量与所述标签库内的标签词的关联系数。

其中，所述对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词的步骤之后，所述方法还包括：判断所述特征词的数量是否低于预定值；若是，则将所述帖子过滤而不做特征识别；否则，执行所述计算所述特征词与标签库内的标签词的关联系数，并确定最大关联系数的步骤。

其中，当所述特征词的数量不低于所述预定值时，所述计算所述特征词与标签库内的标签词的关联系数，并确定最大关联系数的步骤之后，所述方法还包括：计算所述特征词与所述标签库中的各标签词的关联系数的平均值和方差；判断所述最大关联系数与所述平均值和所述方差的关系是否满足如下条件一；d_max<NINE_DB*mean或者d_max<SIX_DB*(mean+std)；其中，d_max为所述最大关联系数，mean为所述平均值，std为所述方差，NINE_DB和SIX_DB为已知的设定值；若是，则执行所述将所述最大关联系数对应的标签词作为所述帖子的标签的步骤；否则，确定所述帖子中心分散，并过滤所述帖子而不做特征识别。

其中，当所述最大关联系数满足所述条件一时，所述方法还包括：确定第二大关联系数；判断所述最大关联系数、所述第二大关联系数与所述平均值和所述方差的关系是否满足如下条件二；(d_max+d_second)<SIX_DB*(mean+std)；若是，则执行所述将所述最大关联系数对应的标签词作为所述帖子的标签的步骤；否则，确定所述帖子中心分散，并过滤所述帖子而不做类别识别。

其中，所述对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频的步骤具体为：将所述帖子的标题和内容进行合并，基于mmseg分词算法对合并后的所述帖子的标题和内容进行分词以计算分词得到的各词语的词频。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种基于论坛帖子特征的用户兴趣识别装置，所述装置包括：获取模块，用于获取用户操作过的帖子的标题和内容；特征词确定模块，用于对所述获取模块获取的每个所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数；标签识别模块，用于计算所述特征词确定模块确定的每个所述特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为帖子的标签；其中，所述标签库预先保存多个用于表征帖子特征的标签词；统计模块，用于合并相同的所述标签词，并统计每个所述标签词的数量；以及聚类模块，用于计算每个所述标签词与全部标签词的相关度，并根据所述数量利用图论算法得到所述用户的兴趣标签词组。

其中，所述聚类模块包括：相关度计算子模块，用于计算每个标签词与全部标签词的相关度，并相应地记录计算得到的相关度与阈值的比较结果，以相应地形成第一邻接矩阵；度统计子模块，用于根据记录的结果统计每个标签词的度以确定最大度；以及标签词组形成子模块，用于确定所述最大度对应的标签词，以形成用户的兴趣标签词组。

本发明的有益效果是：本发明通过对用户操作过的帖子的标题和内容进行分词以确定特征词，并根据特征词与标签库内的标签词的关联系数确定最大关联系数对应的标签词为帖子的标签，从而识别该用户操作过的每个帖子的特征，并进一步对这些帖子的标签词进行统计以及相关度的计算，利用图论算法得到用户的兴趣标签词组，从而能够在海量帖子中对每个用户的兴趣进行较高准确率的特征识别。

附图说明

图1是本发明一种基于论坛帖子特征的用户兴趣识别方法的第一实施方式的流程图；

图2是本发明一种基于论坛帖子特征的用户兴趣识别方法中确定最大关联系数方法的流程图；

图3是本发明一种基于论坛帖子特征的用户兴趣识别方法中确定用户的兴趣标签词组方法的流程图；

图4是本发明一种基于论坛帖子特征的用户兴趣识别方法的第二实施方式的流程图；

图5是本发明一种基于论坛帖子特征的用户兴趣识别方法的第三实施方式的流程图；

图6是本发明一种基于论坛帖子特征的用户兴趣识别方法的第四实施方式的流程图；

图7是本发明一种基于论坛帖子特征的用户兴趣识别装置的第一实施方式的结构示意图；

图8是本发明一种基于论坛帖子特征的用户兴趣识别装置中聚类模块的第一实施方式的结构示意图；

图9是本发明一种基于论坛帖子特征的用户兴趣识别装置中聚类模块的第二实施方式的结构示意图；

图10是本发明一种基于论坛帖子特征的用户兴趣识别装置的第二实施方式的结构示意图。

具体实施方式

下面结合附图和实施方式对本发明进行详细说明。

图论(Graph Theory)是数学的一个分支，以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形，这种图形通常用来描述某些事物之间的某种特定关系，用点代表事物，用连接两点的线表示相应两个事物间具有这种关系。其中，图论具有以下特点：

1.如果点前环上有n个点，则每个节点的度为n(计算包括自身到自身的度)；

2.根据两两相邻的特定，环中每个点的度都不小于环中点个数。

图论算法就是基于上述的图论表示事物之前关系而对问题进行一种系统的建模方式，并对其加以解决。

本发明实施方式就提供一种基于图论实现的快速合并用户兴趣标签的方法和装置，具体原理请参见下文。

请参阅图1，为本发明一种基于论坛帖子特征的用户兴趣识别方法的第一实施方式的流程图，该方法包括：

步骤S10：服务器获取用户操作过的帖子的标题和内容。

用户登录服务器运行的论坛等信息发布平台发布帖子，发布的帖子通常包括标题和内容。并且，发布的帖子还包含发布者的身份信息ID，例如，用户名、用户的网络地址等。用户操作过的帖子包括用户发表、浏览、收藏或回复的帖子，还可以包括与服务器记录下的该用户操作记录关联的其他任何网络信息。服务器可以根据上述网络信息中的用户名、网络地址等识别该用户操作的帖子。

进一步地，服务器获取的帖子可以是该用户操作过的一个或者多个帖子，即，服务器能够获取与该用户操作相关的海量帖子。

步骤S11，对每个帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为该帖子的特征词，N为大于0的自然数。

具体地，将该帖子的标题和内容进行合并，基于mmseg分词算法对合并后的帖子的标题和内容进行分词以计算分词得到的各词语的词频。

使用基于mmseg分词算法进行分词，能够对帖子内容中无意义的词语做停词过滤。例如，该帖子的标题和内容经过合并后得到“如果你想知道他值不值得爱，你们能不能结婚，你们能不能共度一生，那么就先和他谈一场异地恋吧。异地恋，是对爱情最好的考验。”利用mmseg分词算法得到的分词结果为：想知道、值、不值、爱、结婚、共度、一生、谈、一场、异地恋、异地恋、爱情、最好、考验。

进一步地，该基于mmseg分词算法扩展实现的中分分词器还保留了词典扩展接口，可以不断扩展词典记录的新词语，从而提高帖子内容的识别准确率。

对帖子做标题和内容的合并后，使用上述的中文分词器对帖子进行分词，并计算分词得到的每个词语的词频，例如，分词结果为：“想知道”、“值”、“不值”、“爱”、“结婚”、“共度”、“一生”、“谈”、“一场”、“异地恋”、“异地恋”、“爱情”、“最好”、“考验”，则每个词语的词频分别为：“想知道”1、“值”1、“不值”1、“爱”1、“结婚”1、“共度”1、“一生”1、“谈”1、“一场”1、“异地恋”2、“爱情”1、“最好”1、“考验”1。将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为该帖子的特征词，在本实施方式中，N＝20。

步骤S12，计算每个特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为帖子的标签。

其中，该标签库预先保存多个用于表征帖子特征的标签词。在本实施方式中，针对每个特征词都进行如下计算：计算其与标签库内的每个标签词的关联系数，并从最终的计算结果中选取最大关联系数，即，最终确定该帖子具有一个最大关联系数(或多个值相同的最大关联系数)。在其他实施方式中，针对每个特征词都进行如下计算：计算其与标签库内的每个标签词的关联系数，并从这个特征词的计算结果中选取最大关联系数，即，最终确定该帖子针对每个特征词都选取一个最大关联系数，进一步地，同时保留这些最大关联系数，或者将这些最大关联系数按照从大到小的顺序排列后选取前M个，例如，选择前两个最大关联系数。

具体地，该标签库采用人工整理基本的细分标签库，标签库以完备为原则，尽量覆盖论坛内部话题。例如，使用到的标签词有“黑头”、“瘦腿”、“处女座”、“美白”、“小说”、“演员”、“恋爱”等。

例如，根据步骤S11得到的特征词为“异地恋”、“爱情”，则计算特征词“异地恋”分别与标签库中保存的标签词“黑头”、“瘦腿”、“处女座”、“美白”、“小说”、“演员”、“恋爱”的关联系数，以及计算特征词“爱情”分别与标签库中保存的标签词“黑头”、“瘦腿”、“处女座”、“美白”、“小说”、“演员”、“恋爱”的关联系数，并从上面的计算结果中选取最大关联系数。

进一步地，根据计算得到的最大关联系数确定其对应的标签词，例如特征词“异地恋”与标签词“恋爱”的关联系数是计算得到的多个关联系数中的最大值，则将标签词“恋爱”作为该帖子的标签，即，该帖子的特征为与恋爱相关的帖子。

请同时参阅图2，步骤S12，即，计算该特征词与标签库内的标签词的关联系数，并确定最大关联系数的步骤，具体通过如下步骤实现：

步骤S120，将特征词映射到词向量空间。

其中，该词向量空间是基于word2vec并根据标签词的共现频率预先构造的。

步骤S121，依次计算该词向量空间中的向量与该标签库内的标签词的关联系数。

步骤S13，合并相同标签词，并统计每个标签词的数量。

服务器获取该用户的海量帖子并进行如步骤S10至步骤S12的识别后，针对每个帖子都确定了一个(或多个)标签词。步骤S13中，针对全部的标签词进行分析，识别相同的标签词并合并，然后统计这些不同的标签词中每个标签词的数量，即，包含这些标签词的帖子的数量。

例如，针对某用户操作过的帖子进行如上分析后，得到如下的标签词及其数量：

{黑头，2}，{祛斑，3}，{避孕，4}，{痘痘，3}，{粉刺，1}，{白头，5}。

步骤S14，计算每个标签词与其他标签词的相关度，并根据每个标签词的数量利用图论算法得到用户的兴趣标签词组。

请参阅图3，步骤S14，即，计算每个标签词与其他标签词的相关度，并根据每个标签词的数量利用图论算法得到用户的兴趣标签词组的步骤具体通过如下步骤实现：

步骤S140，计算每个标签词与全部标签词的相关度，并相应地记录计算得到的相关度与阈值的比较结果，以相应地形成第一邻接矩阵。

具体地，当计算得到的相关度大于阈值时，确定对应的两个标签词相邻，并设定返回值为1；当计算得到的相关度小于阈值时，确定对应的两个标签词不相邻，并设定返回值为0。

在本实施方式中，该阈值设定为0.8。

进一步地，此步骤针对每个标签词与获得的全部标签词进行相关度计算，其中包含自身标签词以及其它标签词。

步骤S141，统计每个标签词的度以确定最大度。

即，计算环内节点数为max_degree的词集合W，记为:

if(degree[i]＝max_degree)

W.add(word[i])

其中，max_degree为该最大度。

具体地，根据设定的返回值相应的形成第一邻接矩阵，并统计每个标签词在该第一邻接矩阵中所在行的返回值的总和以得到相应的度。

例如，针对如步骤S140所述得到的标签词进行两两标签词相关度的计算，得到如下结果：

	黑头	祛斑	避孕	痘痘	粉刺	白头
							黑头	1	0	0	0	1	1
祛斑	0	1	0	1	0	0
							避孕	0	0	1	0	0	0
痘痘	0	1	0	1	0	0
							粉刺	1	0	0	0	1	1
白头	1	0	0	0	1	1

表1

根据表1构建相应的第一邻接矩阵，每个标签词与其他标签词的相关度的返回值在该第一邻接矩阵中具有相应的位置，例如，{黑头，粉刺}的相关度返回值1在该第一邻接矩阵的位置表示为a₁₅＝1。

如表1所示，针对每个标签词统计其所在行的返回值的总和，从而得到每个标签词的度，得到如下结果：

	度	序号
			黑头	3	1
祛斑	2	2
			避孕	1	3
痘痘	2	4
			粉刺	3	5
白头	3	6

表2

如表2所示，根据统计结果可知，最大度为3。

步骤S142，确定该最大度对应的标签词，以形成用户的兴趣标签词组。

即，统计所有度不小于max_degree的节点，根据上述的图论特点2可知，如果满足节点的度不小于最大度，节点i可能在该环内，该环记为集合A，记为：

if(degree[i]≥max_degree)

A.add(word[i])

根据上述的图论特点1，构建A集合内词的邻接矩阵，计算每个点在A内的度a_degree[i]，如果某节点的度小于max_degree，则剔除该节点，记为：

if(a_degree[i]<max_degree)

A.delete(word[i])

其中，该用户的兴趣标签词组包含了最大度对应的标签词以及这些标签词的数量总和。

由表2可知，最大度为3的标签词分别为“黑头”、“粉刺”和“白头”。进一步地，在确定该最大度对应的标签词时还需要确定该标签词的序号，即，该标签词在该第一邻接矩阵中的行数。

例如，获取最大度为3的标签词及其序号，得到如下结果：

	度	序号
			黑头	3	1
粉刺	3	5
			白头	3	6

表3

根据表3的结果得到用户的兴趣标签词组为{黑头，粉刺，白头}。

进一步地，根据如上所述确定的标签词以及数量{黑头，2}，{祛斑，3}，{避孕，4}，{痘痘，3}，{粉刺，1}，{白头，5}，得到该用户的兴趣标签词组为{黑头，粉刺，白头，8}。

步骤S143，获取用户的兴趣标签词组中每个标签词在第一邻接矩阵的位置，并将位于这些位置的比较结果初始化。

具体地，获取确定的标签词组在该第一邻接矩阵的位置，并将位于这些位置的返回值设置为0，以相应地形成第二邻接矩阵。

例如，获取标签词组{黑头，粉刺，白头}在第一邻接矩阵的位置，即，该些标签词在该第一邻接矩阵中的行数，并将其对应的返回值设置为0，得到如下结果：

\{\begin{matrix} a_{1 j} = 0, a_{i 1} = 0 \\ a_{5 j} = 0, a_{i 5} = 0 \\ a_{6 j} = 0, a_{i 6} = 0 \end{matrix};

相应地，形成的第二邻接矩阵为：

	黑头	祛斑	避孕	痘痘	粉刺	白头
							黑头	0	0	0	0	0	0
祛斑	0	1	0	1	0	0
							避孕	0	0	1	0	0	0
痘痘	0	1	0	1	0	0
							粉刺	0	0	0	0	0	0
白头	0	0	0	0	0	0

表4

步骤S144，统计每个标签词的度并判断统计得到的度是否不全为0；若是，则返回步骤S141；否则，流程结束。

例如，根据如表4所示的对应第二邻接矩阵统计每个标签词的度，得到如下结果：

	度	序号
			黑头	0	1
祛斑	2	2
			避孕	1	3
痘痘	2	4
			粉刺	0	5
白头	0	6

表5

根据表5可知，最大度为2，对应的标签词和序号为：

	度	序号
			祛斑	2	2
痘痘	2	4

表6

因此，可以取得用户兴趣标签词组2为{祛斑，痘痘}。

进一步地，根据如上所述确定的标签词以及数量{黑头，2}，{祛斑，3}，{避孕，4}，{痘痘，3}，{粉刺，1}，{白头，5}，得到该用户的兴趣标签词组2为{祛斑，痘痘，6}。

然后，获取标签词组{祛斑，痘痘}在第二邻接矩阵的位置，即，该些标签词在该第二邻接矩阵中的行数，并将其对应的返回值设置为0，得到如下结果：

\{\begin{matrix} a_{2 j} = 0, a_{i 2} = 0 \\ a_{4 j} = 0, a_{i 4} = 0 \end{matrix}

则相应的第三邻接矩阵为：

	黑头	祛斑	避孕	痘痘	粉刺	白头
							黑头	0	0	0	0	0	0
祛斑	0	0	0	0	0	0
							避孕	0	0	1	0	0	0
痘痘	0	0	0	0	0	0
							粉刺	0	0	0	0	0	0
白头	0	0	0	0	0	0

表7

根据如上所述的规则，得到用户兴趣标签词组3{避孕}。进一步地，根据如上所述确定的标签词以及数量{黑头，2}，{祛斑，3}，{避孕，4}，{痘痘，3}，{粉刺，1}，{白头，5}，得到该用户的兴趣标签词组3为{避孕，4}。

当再次执行步骤S144时，统计每个标签词的度并判断统计得到的度均为0，则不再执行步骤S142，进行用户的兴趣标签词组的生成。

因此，根据如上所述的分析，最终的聚类结果为：{黑头，粉刺，白头，8}，{祛斑，痘痘，6}，{避孕，4}。

利用本发明实施方式，通过对用户操作过的帖子的标题和内容进行分词以确定特征词，并根据特征词与标签库内的标签词的关联系数确定最大关联系数对应的标签词为帖子的标签，从而识别该用户操作过的每个帖子的特征，并进一步对这些帖子的标签词进行统计以及相关度的计算，利用图论算法得到用户的兴趣标签词组，从而能够在海量帖子中对每个用户的兴趣进行较高准确率的特征识别。

请参阅图4，为本发明一种基于论坛帖子特征的用户兴趣识别方法的第二实施方式的流程图，该方法包括：

步骤S20，服务器获取用户操作过的帖子的标题和内容。

其中，用户操作过的帖子包括用户发表、浏览、收藏或回复的帖子，还可以包括与服务器记录下的该用户操作记录关联的其他任何网络信息。服务器可以根据上述网络信息中的用户名、网络地址等识别该用户操作的帖子。

步骤S21，对每个帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为该帖子的特征词，N为大于0的自然数。

步骤S22，判断特征词的数量是否低于预定值。若是，则执行步骤S23，否则，执行步骤S24。

步骤S23，将该帖子过滤而不做特征识别。然后，流程结束。

为了满足帖子特征识别的准确率要求，需要对特征词数量过少的帖子做过滤。

在本实施方式中，该预定值为8。例如，如步骤S21得到的帖子的特征词数量少于8个，则认为该帖子有效词数量太少，很难有效识别，故过滤掉该帖子。

步骤S24，计算每个特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为该帖子的标签。

其中，该标签库预先保存多个用于表征帖子特征的标签词。

在本实施方式中，针对每个特征词都进行如下计算：计算其与标签库内的每个标签词的关联系数，并从最终的计算结果中选取最大关联系数，即，最终确定该帖子具有一个最大关联系数(或多个值相同的最大关联系数)。在其他实施方式中，针对每个特征词都进行如下计算：计算其与标签库内的每个标签词的关联系数，并从这个特征词的计算结果中选取最大关联系数，即，最终确定该帖子针对每个特征词都选取一个最大关联系数，进一步地，同时保留这些最大关联系数，或者将这些最大关联系数按照从大到小的顺序排列后选取前M个，例如，选择前两个最大关联系数。

步骤S25，合并相同标签词，并统计每个标签词的数量。

步骤S26，计算每个标签词与其他标签词的相关度，并根据每个标签词的数量利用图论算法得到用户的兴趣标签词组。

请参阅图5，当特征词的数量不低于预定值时，该方法还包括：

步骤S33，计算每个特征词与标签库内的标签词的关联系数，并确定最大关联系数。

步骤S34，计算特征词与标签库中的各标签词的关联系数的平均值和方差。

步骤S35，判断最大关联系数与平均值和方差的关系是否满足如下条件一。若是，则进入步骤S36，否则，进入步骤S37。

条件一：d_max<NINE_DB*mean或者d_max<SIX_DB*(mean+std)；其中，d_max为最大关联系数，mean为平均值，std为方差，NINE_DB和SIX_DB为已知的设定值。

具体地，通过平均值和方差评估帖子是否中心分散，并结合声学中的噪声过滤原理进行评估：通常有效信号要强于噪声信号(3DB)两倍量级(6DB，即SIX_DB)以上，并且需要保证准确率的情况下设置阈值为噪声信号的2√2倍(9DB，即NINE_DB)。

步骤S36，将最大关联系数对应的标签词作为该帖子的标签。然后，进入步骤S38。

步骤S37，确定该帖子中心分散，并过滤该帖子而不做特征识别。然后，流程结束。

图5中的其它步骤请参见图4以及相应的文字说明。

为了满足帖子特征识别的准确率要求，还需要进一步地对中心分散的帖子做过滤。中心分散的帖子表现为：如上所述确定帖子的标签后，这些标签的相关度很低，而帖子的内容分散在这些相关度很低的标签词上。当确定帖子为为中心分散的，则认为如上所述确定的该帖子的标签是模糊而不准确的，故过滤掉该帖子。

请参阅图6，当该最大关联系数满足条件一时，步骤S37之前，即，将最大关联系数对应的标签词作为帖子的标签的步骤之前，该方法还包括：

步骤S406，确定第二大关联系数。

步骤S407，判断该最大关联系数、第二大关联系数与平均值和方差的关系是否满足如下条件二。若是，则进入步骤S408，否则，进入步骤S409。

条件二：(d_max+d_second)<SIX_DB*(mean+std)；

具体地，为了修正噪声强度比较大，但是信号依然可以辨析的情况，进一步地考虑二阶信号与一阶信号的相关度。如果二阶信号与一阶信号比较靠近，根据人耳听觉掩蔽效应，可以认为二阶信号是对一阶信号的增强，从而认为一阶信号仍然有效。根据数据统计，将-6DB作为阈值(即SIX_DB)。

如果不满足上述条件，即一阶信号和二阶信号相关度低，且二者之间强度相当，说明该帖子内容中心分散在两个相关度很低的标签词上，则帖子中心也是发散的。

步骤S408，将该最大关联系数对应的标签词作为帖子的标签。然后，进入步骤S410。

步骤S409，确定帖子中心分散，并过滤该帖子而不做类别识别。然后，流程结束。

图6中的其它步骤请参见图5以及相应的文字说明。

请参阅图7，为本发明一种基于论坛帖子特征的用户兴趣识别装置的第一实施方式的结构示意图，该装置50包括：获取模块51、特征词确定模块52、标签识别模块53、统计模块54以及聚类模块55。

该获取模块51用于获取用户操作过的帖子的标题和内容。其中，用户操作过的帖子包括用户发表、浏览、收藏或回复的帖子，还可以包括与服务器记录下的该用户操作记录关联的其他任何网络信息。该获取模块51可以根据上述网络信息中的用户名、网络地址等识别该用户操作的帖子。

进一步地，该获取模块51获取的帖子可以是该用户操作过的一个或者多个帖子，即，该获取模块51能够获取与该用户操作相关的海量帖子。

该特征词确定模块52用于对该获取模块51获取的每个帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数。

具体地，该特征词确定模块52将该帖子的标题和内容进行合并，基于mmseg分词算法对合并后的帖子的标题和内容进行分词以计算分词得到的各词语的词频。

对帖子做标题和内容的合并后，使用上述的中文分词器对帖子进行分词，并计算分词得到的每个词语的词频，例如，分词结果为：“想知道”、“值”、“不值”、“爱”、“结婚”、“共度”、“一生”、“谈”、“一场”、“异地恋”、“异地恋”、“爱情”、“最好”、“考验”，则每个词语的词频分别为：“想知道”1、“值”1、“不值”1、“爱”1、“结婚”1、“共度”1、“一生”1、“谈”1、“一场”1、“异地恋”2、“爱情”1、“最好”1、“考验”1。该特征词确定模块52将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为该帖子的特征词，在本实施方式中，N＝20。

该标签识别模块53用于计算该特征词确定模块52确定的每个特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为帖子的标签。其中，该标签库预先保存多个用于表征帖子特征的标签词。在本实施方式中，该标签识别模块53针对每个特征词都进行如下计算：计算其与标签库内的每个标签词的关联系数，并从最终的计算结果中选取最大关联系数，即，最终确定该帖子具有一个最大关联系数(或多个值相同的最大关联系数)。在其他实施方式中，该标签识别模块53针对每个特征词都进行如下计算：计算其与标签库内的每个标签词的关联系数，并从这个特征词的计算结果中选取最大关联系数，即，最终确定该帖子针对每个特征词都选取一个最大关联系数，进一步地，该标签识别模块53同时保留这些最大关联系数，或者将这些最大关联系数按照从大到小的顺序排列后选取前M个，例如，选择前两个最大关联系数。

例如，该特征词确定模块52得到的特征词为“异地恋”、“爱情”，该标签识别模块53计算特征词“异地恋”分别与标签库中保存的标签词“黑头”、“瘦腿”、“处女座”、“美白”、“小说”、“演员”、“恋爱”的关联系数，并确定最大关联系数，以及计算特征词“爱情”分别与标签库中保存的标签词“黑头”、“瘦腿”、“处女座”、“美白”、“小说”、“演员”、“恋爱”的关联系数，并从上面的计算结果中选取最大关联系数。

其中，该标签识别模块53具体用于将特征词映射到词向量空间，依次计算该词向量空间中的向量与该标签库内的标签词的关联系数。该词向量空间是基于word2vec并根据标签词的共现频率预先构造的。

该统计模块54用于合并相同标签词，并统计每个标签词的数量。具体地，当获取的该用户的海量帖子并进行如上所述的识别后，针对每个帖子都确定了一个(或多个)标签词。该统计模块54针对全部的标签词进行分析，识别相同的标签词并合并，然后统计这些不同的标签词中每个标签词的数量，即，包含这些标签词的帖子的数量。

该聚类模块55用于计算每个标签词与全部标签词的相关度，并根据每个标签词的数量利用图论算法得到用户的兴趣标签词组。

请同时参阅图8，该聚类模块60包括相关度计算子模块61、度统计子模块62以及标签词组形成子模块63。

该相关度计算子模块61用于计算每个标签词与全部标签词的相关度，并相应地记录计算得到的相关度与阈值的比较结果，以相应地形成第一邻接矩阵。具体地，当计算得到的相关度大于阈值时，确定对应的两个标签词相邻，并设定返回值为1；当计算得到的相关度小于阈值时，确定对应的两个标签词不相邻，并设定返回值为0。在本实施方式中，该阈值设定为0.8。

进一步地，该相关度计算子模块61针对每个标签词与获得的全部标签词进行相关度计算，其中包含自身标签词以及其它标签词。

该度统计子模块62用于根据记录的结果并统计每个标签词的度以确定最大度。具体地，该度统计子模块62根据设定的返回值相应的形成第一邻接矩阵，并统计每个标签词在该第一邻接矩阵中所在行的返回值的总和以得到相应的度。

该标签词组形成子模块63用于确定该最大度对应的标签词，以形成用户的兴趣标签词组。

请参阅图9，该聚类模块70还包括初始化子模块74和判断子模块75。

该初始化子模块74用于获取用户的兴趣标签词组中每个标签词在第一邻接矩阵的位置，并将位于这些位置的比较结果初始化。具体地，获取确定的标签词组在该第一邻接矩阵的位置，并将位于这些位置的返回值设置为0，以相应地形成第二邻接矩阵。

该判断子模块75用于统计每个标签词的度并判断统计得到的度是否不全为0；若是，则由该度统计子模块72根据第二邻接矩阵统计每个标签词的度以确定最大度，以及由该标签词组形成子模块73确定该最大度对应的标签词，以形成用户的兴趣标签词组。若不是，则用户的兴趣标签词组生成结束。

图9中的其它模块请参见图8以及相应的文字说明。

请参阅图10，该装置还包括过滤模块86，用于判断该特征词确定模块82确定的特征词的数量是否低于预定值。若是，该过滤模块86将该帖子过滤。否则，该标签识别模块83计算该特征词确定模块82确定的特征词与标签库内的标签词的关联系数，并确定最大关联系数。

为了满足帖子特征识别的准确率要求，需要对特征词数量过少的帖子做过滤。在本实施方式中，该预定值为8。例如，该特征词确定模块82得到的帖子的特征词数量少于8个，则认为该帖子有效词数量太少，很难有效识别，故过滤掉该帖子。

进一步地，当特征词的数量不低于预定值时，该过滤模块86还用于计算特征词与标签库中的各标签词的关联系数的平均值和方差，并判断最大关联系数与平均值和方差的关系是否满足如下条件一。

若是，该标签识别模块83将最大关联系数对应的标签词作为帖子的标签。否则，该过滤模块86将该帖子过滤。

当该最大关联系数满足条件一时，该标签识别模块83还确定最大关联系数和第二大关联系数，该过滤模块86判断该最大关联系数、第二大关联系数与平均值和方差的关系是否满足如下条件二。

条件二：(d_max+d_second)<SIX_DB*(mean+std)；

图10中的其它模块请参见图7以及相应的文字说明。

本发明提供的一种基于论坛帖子特征的用户兴趣识别方法及装置，通过对用户操作过的帖子的标题和内容进行分词以确定特征词，并根据特征词与标签库内的标签词的关联系数确定最大关联系数对应的标签词为帖子的标签，从而识别该用户操作过的每个帖子的特征，并进一步对这些帖子的标签词进行统计以及相关度的计算，利用图论算法得到用户的兴趣标签词组，从而能够在海量帖子中对每个用户的兴趣进行较高准确率的特征识别。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于论坛帖子特征的用户兴趣识别方法，其特征在于，所述方法包括：

服务器获取用户操作过的帖子的标题和内容；

对每个所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数；

计算每个所述特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为所述帖子的标签；其中，所述标签库预先保存多个用于表征帖子特征的标签词；

合并相同的所述标签词，并统计每个所述标签词的数量；以及

计算每个所述标签词与全部标签词的相关度，并根据所述数量利用图论算法得到所述用户的兴趣标签词组。

2.根据权利要求1所述的基于论坛帖子特征的用户兴趣识别方法，其特征在于，所述计算每个所述标签词与全部标签词的相关度，并根据所述数量利用图论算法得到所述用户的兴趣标签词组的步骤具体为：

计算每个标签词与全部标签词的相关度，并相应地记录计算得到的相关度与阈值的比较结果，以相应地形成第一邻接矩阵；

统计每个标签词的度以确定最大度；以及

确定所述最大度对应的标签词，以形成用户的兴趣标签词组。

3.根据权利要求2所述的基于论坛帖子特征的用户兴趣识别方法，其特征在于，所述方法还包括：

获取所述用户的兴趣标签词组中每个标签词在所述第一邻接矩阵的位置，并将所述位置的比较结果初始化；

统计每个标签词的度并判断统计得到的度是否不全为0；若是，则确定最大度，并执行所述确定所述最大度对应的标签词，以形成用户的兴趣标签词组的步骤；否则，完成用户兴趣标签词组的形成。

4.根据权利要求1所述的基于论坛帖子特征的用户兴趣识别方法，其特征在于，所述计算所述特征词与标签库内的标签词的关联系数的步骤具体为：

将所述特征词映射到词向量空间；其中，所述词向量空间是基于word2vec并根据所述标签词的共现频率预先构造的；

依次计算所述词向量空间中的向量与所述标签库内的标签词的关联系数。

5.根据权利要求1所述的基于论坛帖子特征的用户兴趣识别方法，其特征在于，所述对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词的步骤之后，所述方法还包括：

判断所述特征词的数量是否低于预定值；若是，则将所述帖子过滤而不做特征识别；否则，执行所述计算所述特征词与标签库内的标签词的关联系数，并确定最大关联系数的步骤。

6.根据权利要求5所述的基于论坛帖子特征的用户兴趣识别方法，其特征在于，当所述特征词的数量不低于所述预定值时，所述计算所述特征词与标签库内的标签词的关联系数，并确定最大关联系数的步骤之后，所述方法还包括：

计算所述特征词与所述标签库中的各标签词的关联系数的平均值和方差；

判断所述最大关联系数与所述平均值和所述方差的关系是否满足如下条件一；

d_max<NINE_DB*mean或者d_max<SIX_DB*(mean+std)；其中，d_max为所述最大关联系数，mean为所述平均值，std为所述方差，NINE_DB和SIX_DB为已知的设定值；

若是，则执行所述将所述最大关联系数对应的标签词作为所述帖子的标签的步骤；否则，确定所述帖子中心分散，并过滤所述帖子而不做特征识别。

7.根据权利要求6所述的基于论坛帖子特征的用户兴趣识别方法，其特征在于，当所述最大关联系数满足所述条件一时，所述方法还包括：

确定第二大关联系数；

判断所述最大关联系数、所述第二大关联系数与所述平均值和所述方差的关系是否满足如下条件二；

(d_max+d_second)<SIX_DB*(mean+std)；

若是，则执行所述将所述最大关联系数对应的标签词作为所述帖子的标签的步骤；否则，确定所述帖子中心分散，并过滤所述帖子而不做类别识别。

8.根据权利要求1所述的基于论坛帖子特征的用户兴趣识别方法，其特征在于，所述对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频的步骤具体为：

将所述帖子的标题和内容进行合并，基于mmseg分词算法对合并后的所述帖子的标题和内容进行分词以计算分词得到的各词语的词频。

9.一种基于论坛帖子特征的用户兴趣识别装置，其特征在于，所述装置包括：

获取模块，用于获取用户操作过的帖子的标题和内容；

特征词确定模块，用于对所述获取模块获取的每个所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数；

标签识别模块，用于计算所述特征词确定模块确定的每个所述特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为帖子的标签；其中，所述标签库预先保存多个用于表征帖子特征的标签词；

统计模块，用于合并相同的所述标签词，并统计每个所述标签词的数量；以及

聚类模块，用于计算每个所述标签词与全部标签词的相关度，并根据所述数量利用图论算法得到所述用户的兴趣标签词组。

10.根据权利要求9所述的基于论坛帖子特征的用户兴趣识别装置，其特征在于，所述聚类模块包括：

相关度计算子模块，用于计算每个标签词与全部标签词的相关度，并相应地记录计算得到的相关度与阈值的比较结果，以相应地形成第一邻接矩阵；

度统计子模块，用于根据记录的结果统计每个标签词的度以确定最大度；以及

标签词组形成子模块，用于确定所述最大度对应的标签词，以形成用户的兴趣标签词组。