CN104657349B

CN104657349B - 一种论坛帖子特征识别方法及装置

Info

Publication number: CN104657349B
Application number: CN201510072017.2A
Authority: CN
Inventors: 陈方毅; 高家栋; 苏利祥
Original assignee: Xiamen Mei You Information Technology Co Ltd
Current assignee: Xiamen Meishao Co., Ltd.
Priority date: 2015-02-11
Filing date: 2015-02-11
Publication date: 2018-07-31
Anticipated expiration: 2035-02-11
Also published as: CN104657349A

Abstract

本发明公开了一种论坛帖子特征识别方法和装置，该方法包括：服务器获取帖子的标题和内容；对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数；计算所述特征词与标签库内的标签词的关联系数，并确定最大关联系数；其中，所述标签库预先保存多个用于表征帖子特征的标签词；以及将所述最大关联系数对应的标签词作为所述帖子的标签。利用本发明，能够识别帖子的特征，并且能够在海量帖子中实现较高准确率的特征识别。

Description

一种论坛帖子特征识别方法及装置

技术领域

本发明涉及网络信息分析与数据挖掘技术领域，特别是涉及一种论坛帖子特征识别方法及装置。

背景技术

随着计算机网络的不断发展，网络信息成为日常生活中的重要组成部分，互联网以及成为人们获取信息、交流沟通的重要场所。大量实时信息充斥互联网之上，在这些海量的Web信息资源中，蕴含着巨大的潜在价值。

面对指数增长的信息信息，如何有效掌握海量数据，提取其中的热点话题，或者获取自己想要的信息，成为长期困扰网络用户的难题。当前对帖子内容识别主要是基于TF-IDF(Term Frequency-Inverse Document Frequency)算法，计算词汇的TF值和IDF值，然后基于K-means做聚类分析，再人工对聚类结果提取特定的标签词。这种算法只适用于对少量帖子进行识别的情况，并不适用于对大数据量的帖子进行识别。在基于K-means聚类分析时，中间产出的稀疏矩阵是包括分布式集群在内都很难承受的量级。并且，聚类效果有限，之后的分类提取耗费的人力也很大。即使已经有分类标签集，使用IDF对新词或少见词进行聚类识别也具有有很差的鲁棒性，帖子特征向量的提取会受到很大的影响。

发明内容

本发明主要解决的技术问题是提供一种论坛帖子特征识别方法及装置，能够对海量帖子进行内容特征的识别，并且具有较高的准确率。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种论坛帖子特征识别方法，所述方法包括：服务器获取帖子的标题和内容；对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数；计算所述特征词与标签库内的标签词的关联系数，并确定最大关联系数；其中，所述标签库预先保存多个用于表征帖子特征的标签词；以及将所述最大关联系数对应的标签词作为所述帖子的标签。

其中，所述计算所述特征词与标签库内的标签词的关联系数的步骤具体为：将所述特征词映射到词向量空间；其中，所述词向量空间是基于word2vec并根据所述标签词的共现频率预先构造的；依次计算所述词向量空间中的向量与所述标签库内的标签词的关联系数。

其中，所述对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词的步骤之后，所述方法还包括：判断所述特征词的数量是否低于预定值；若是，则将所述帖子过滤而不做特征识别；否则，执行所述计算所述特征词与标签库内的标签词的关联系数，并确定最大关联系数的步骤。

其中，当所述特征词的数量不低于所述预定值时，所述计算所述特征词与标签库内的标签词的关联系数，并确定最大关联系数的步骤之后，所述方法还包括：计算所述特征词与所述标签库中的各标签词的关联系数的平均值和方差；判断所述最大关联系数与所述平均值和所述方差的关系是否满足如下条件一；d_max<NINE_DB*mean或者d_max<SIX_DB*(mean+std)；其中，d_max为所述最大关联系数，mean为所述平均值，std为所述方差，NINE_DB和SIX_DB为已知的设定值；若是，则执行所述将所述最大关联系数对应的标签词作为所述帖子的标签的步骤；否则，确定所述帖子中心分散，并过滤所述帖子而不做特征识别。

其中，当所述最大关联系数满足所述条件一时，所述方法还包括：确定第二大关联系数；判断所述最大关联系数、所述第二大关联系数与所述平均值和所述方差的关系是否满足如下条件二；(d_max+d_second)<SIX_DB*(mean+std)；若是，则执行所述将所述最大关联系数对应的标签词作为所述帖子的标签的步骤；否则，确定所述帖子中心分散，并过滤所述帖子而不做类别识别。

其中，所述对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频的步骤具体为：将所述帖子的标题和内容进行合并，基于mmseg分词算法对合并后的所述帖子的标题和内容进行分词以计算分词得到的各词语的词频。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种论坛帖子特征识别装置，所述装置包括：获取模块，用于获取帖子的标题和内容；特征词确定模块，用于对所述获取模块获取的所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数；关联系数计算模块，用于计算所述特征词确定模块确定的所述特征词与标签库内的标签词的关联系数，并确定最大关联系数；其中，所述标签库预先保存多个用于表征帖子特征的标签词；以及特征识别模块，用于将所述关联系数计算模块确定的所述最大关联系数对应的标签词作为所述帖子的标签。

其中，所述关联系数计算模块具体用于将所述特征词映射到词向量空间，并依次计算所述词向量空间中的向量与所述标签库内的标签词的关联系数；其中，所述词向量空间是基于word2vec并根据所述标签词的共现频率预先构造的。

其中，所述装置还包括：过滤模块，用于判断所述特征词确定模块确定的所述特征词的数量是否低于预定值；若是，所述过滤模块将所述帖子过滤，否则，所述关联系数计算模块计算所述特征词确定模块确定的所述特征词与所述标签库内的标签词的关联系数，并确定最大关联系数。

其中，当所述特征词的数量不低于所述预定值时，所述过滤模块还用于计算所述特征词与所述标签库中的各标签词的关联系数的平均值和方差，并判断所述最大关联系数与所述平均值和所述方差的关系是否满足如下条件一；d_max<NINE_DB*mean或者d_max<SIX_DB*(mean+std)；其中，d_max为所述最大关联系数，mean为所述平均值，std为所述方差，NINE_DB和SIX_DB为已知的设定值；若是，所述特征识别模块将所述最大关联系数对应的标签词作为所述帖子的标签，否则，所述过滤模块将所述帖子过滤。

本发明的有益效果是：本发明通过对帖子的标题和内容进行分词并计算分词得到的词语的词频，将词频从大到小位于前N个位置的词频对应的词语作为该帖子的特征词；计算特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为帖子的标签，从而识别帖子的特征，并且能够在海量帖子中实现较高准确率的特征识别。

附图说明

图1是本发明一种论坛帖子特征识别方法的第一实施方式的流程图；

图2是本发明一种论坛帖子特征识别方法中你关联系数方法的流程图；

图3是本发明一种论坛帖子特征识别方法的第二实施方式的流程图；

图4是本发明一种论坛帖子特征识别方法的第三实施方式的流程图；

图5是本发明一种论坛帖子特征识别方法的第四实施方式的结构示意图；

图6是本发明一种论坛帖子特征识别装置的第一实施方式的结构示意图；

图7是本发明一种论坛帖子特征识别装置的第二实施方式的结构示意图。

具体实施方式

下面结合附图和实施方式对本发明进行详细说明。

请参阅图1，为本发明一种论坛帖子特征识别方法的第一实施方式的流程图，该方法包括：

步骤S10：服务器获取帖子的标题和内容。

用户登录服务器运行的论坛等信息发布平台发布帖子，发布的帖子通常包括标题和内容。并且，发布的帖子还包含发布者的身份信息ID，例如，用户名、用户的网络地址等。

进一步地，服务器获取的帖子可以是一个用户发布的多个帖子，或者多个用户发布的帖子，即，服务器能够获取海量帖子。

步骤S11，对该帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为该帖子的特征词，N为大于0的自然数。

具体地，将该帖子的标题和内容进行合并，基于mmseg分词算法对合并后的帖子的标题和内容进行分词以计算分词得到的各词语的词频。

使用基于mmseg分词算法进行分词，能够对帖子内容中无意义的词语做停词过滤。例如，该帖子的标题和内容经过合并后得到“如果你想知道他值不值得爱，你们能不能结婚，你们能不能共度一生，那么就先和他谈一场异地恋吧。异地恋，是对爱情最好的考验。”利用mmseg分词算法得到的分词结果为：想知道、值、不值、爱、结婚、共度、一生、谈、一场、异地恋、异地恋、爱情、最好、考验。

进一步地，该基于mmseg分词算法扩展实现的中分分词器还保留了词典扩展接口，可以不断扩展词典记录的新词语，从而提高帖子内容的识别准确率。

对帖子做标题和内容的合并后，使用上述的中文分词器对帖子进行分词，并计算分词得到的每个词语的词频，例如，分词结果为：“想知道”、“值”、“不值”、“爱”、“结婚”、“共度”、“一生”、“谈”、“一场”、“异地恋”、“异地恋”、“爱情”、“最好”、“考验”，则每个词语的词频分别为：“想知道”1、“值”1、“不值”1、“爱”1、“结婚”1、“共度”1、“一生”1、“谈”1、“一场”1、“异地恋”2、“爱情”1、“最好”1、“考验”1。将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为该帖子的特征词，在本实施方式中，N＝20。

步骤S12，计算该特征词与标签库内的标签词的关联系数，并确定最大关联系数。

其中，该标签库预先保存多个用于表征帖子特征的标签词。

具体地，该标签库采用人工整理基本的细分标签库，标签库以完备为原则，尽量覆盖论坛内部话题。例如，使用到的标签词有“黑头”、“瘦腿”、“处女座”、“美白”、“小说”、“演员”、“恋爱”等。

例如，根据步骤S11得到的特征词为“异地恋”，则计算特征词“异地恋”分别与标签库中保存的标签词“黑头”、“瘦腿”、“处女座”、“美白”、“小说”、“演员”、“恋爱”的关联系数，并确定最大关联系数。

请同时参阅图2，步骤S12，即，计算该特征词与标签库内的标签词的关联系数，并确定最大关联系数的步骤，具体通过如下步骤实现：

步骤S120，将该特征词映射到词向量空间。

其中，该词向量空间是基于word2vec并根据该标签词的共现频率预先构造的。

步骤S121，依次计算该词向量空间中的向量与该标签库内的标签词的关联系数。

步骤S13，将最大关联系数对应的标签词作为该帖子的标签。

根据步骤S12计算得到的最大关联系数，确定其对应的标签词，例如特征词“异地恋”与标签词“恋爱”的关联系数是计算得到的多个关联系数中的最大值，则将标签词“恋爱”作为该帖子的标签，即，该帖子的特征为与恋爱相关的帖子。

利用本发明实施方式，通过对帖子的标题和内容进行分词并计算分词得到的词语的词频，将词频从大到小位于前N个位置的词频对应的词语作为该帖子的特征词；计算特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为帖子的标签，从而识别帖子的特征，并且能够在海量帖子中实现较高准确率的特征识别。

请参阅图3，为本发明一种论坛帖子特征识别方法的第二实施方式的流程图，该方法包括：

步骤S20，服务器获取帖子的标题和内容。

其中，服务器获取的帖子可以是一个用户发布的多个帖子，或者多个用户发布的帖子，即，服务器能够获取海量帖子。。

步骤S21：对该帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为该帖子的特征词，N为大于0的自然数。

步骤S22，判断特征词的数量是否低于预定值。若是，则执行步骤S23，否则，执行步骤S24。

步骤S23，将该帖子过滤而不做特征识别。然后，流程结束。

为了满足帖子特征识别的准确率要求，需要对特征词数量过少的帖子做过滤。

在本实施方式中，该预定值为8。例如，如步骤S21得到的帖子的特征词数量少于8个，则认为该帖子有效词数量太少，很难有效识别，故过滤掉该帖子。

步骤S24，计算该特征词与标签库内的标签词的关联系数，并确定最大关联系数。

其中，该标签库预先保存多个用于表征帖子特征的标签词。

步骤S25，将该最大关联系数对应的标签词作为该帖子的标签。然后，流程结束。

请参阅图4，当特征词的数量不低于预定值时，步骤S24之后，即，计算特征词与标签库内的标签词的关联系数，并确定最大关联系数的步骤之后，该方法还包括：

步骤S34，计算特征词与标签库中的各标签词的关联系数的平均值和方差。

步骤S35，判断最大关联系数与平均值和方差的关系是否满足如下条件一。若是，则进入步骤S36，否则，进入步骤S37。

条件一：d_max<NINE_DB*mean或者d_max<SIX_DB*(mean+std)；其中，d_max为最大关联系数，mean为平均值，std为方差，NINE_DB和SIX_DB为已知的设定值。

具体地，通过平均值和方差评估帖子是否中心分散，并结合声学中的噪声过滤原理进行评估：通常有效信号要强于噪声信号(3DB)两倍量级(6DB，即SIX_DB)以上，并且需要保证准确率的情况下设置阈值为噪声信号的2√2倍(9DB，即NINE_DB)。

步骤S36，将最大关联系数对应的标签词作为该帖子的标签。然后，流程结束。

步骤S37，确定该帖子中心分散，并过滤该帖子而不做特征识别。然后，流程结束。

图4中的其它步骤请参见图3以及相应的文字说明。

为了满足帖子特征识别的准确率要求，还需要进一步地对中心分散的帖子做过滤。中心分散的帖子表现为：如上所述确定帖子的标签后，这些标签的相关度很低，而帖子的内容分散在这些相关度很低的标签词上。当确定帖子为为中心分散的，则认为如上所述确定的该帖子的标签是模糊而不准确的，故过滤掉该帖子。

请参阅图5，当该最大关联系数满足条件一时，步骤S36之前，即，将最大关联系数对应的标签词作为帖子的标签的步骤之前，该方法还包括：

步骤S46，确定第二大关联系数。

步骤S47，判断该最大关联系数、第二大关联系数与平均值和方差的关系是否满足如下条件二。若是，则进入步骤S48，否则，进入步骤S49。

条件二：(d_max+d_second)<SIX_DB*(mean+std)；

具体地，为了修正噪声强度比较大，但是信号依然可以辨析的情况，进一步地考虑二阶信号与一阶信号的相关度。如果二阶信号与一阶信号比较靠近，根据人耳听觉掩蔽效应，可以认为二阶信号是对一阶信号的增强，从而认为一阶信号仍然有效。根据数据统计，将-6DB作为阈值(即SIX_DB)。

如果不满足上述条件，即一阶信号和二阶信号相关度低，且二者之间强度相当，说明该帖子内容中心分散在两个相关度很低的标签词上，则帖子中心也是发散的。

步骤S48，将该最大关联系数对应的标签词作为帖子的标签。然后，流程结束。

步骤S49，确定帖子中心分散，并过滤该帖子而不做类别识别。然后，流程结束。

图5中的其它步骤请参见图4以及相应的文字说明。

请参阅图6，为本发明一种论坛帖子特征识别装置的第一实施方式的结构示意图，该装置50包括：获取模块51、特征词确定模块52、关联系数计算模块53以及特征识别模块54。

该获取模块51用于获取帖子的标题和内容。其中，获取的帖子可以是一个用户发布的多个帖子，或者多个用户发布的帖子，即，服务器能够获取海量帖子。

该特征词确定模块52用于对该获取模块51获取的帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数。

具体地，该特征词确定模块52将该帖子的标题和内容进行合并，基于mmseg分词算法对合并后的帖子的标题和内容进行分词以计算分词得到的各词语的词频。

对帖子做标题和内容的合并后，使用上述的中文分词器对帖子进行分词，并计算分词得到的每个词语的词频，例如，分词结果为：“想知道”、“值”、“不值”、“爱”、“结婚”、“共度”、“一生”、“谈”、“一场”、“异地恋”、“异地恋”、“爱情”、“最好”、“考验”，则每个词语的词频分别为：“想知道”1、“值”1、“不值”1、“爱”1、“结婚”1、“共度”1、“一生”1、“谈”1、“一场”1、“异地恋”2、“爱情”1、“最好”1、“考验”1。该特征词确定模块52将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为该帖子的特征词，在本实施方式中，N＝20。

该关联系数计算模块53用于计算该特征词确定模块52确定的特征词与标签库内的标签词的关联系数，并确定最大关联系数。其中，该标签库预先保存多个用于表征帖子特征的标签词。

例如，该特征词确定模块52得到的特征词为“异地恋”，该关联系数计算模块53计算特征词“异地恋”分别与标签库中保存的标签词“黑头”、“瘦腿”、“处女座”、“美白”、“小说”、“演员”、“恋爱”的关联系数，并确定最大关联系数。

进一步地，该关联系数计算模块53将该特征词映射到词向量空间，依次计算该词向量空间中的向量与该标签库内的标签词的关联系数。其中，该词向量空间是基于word2vec并根据该标签词的共现频率预先构造的。

该特征识别模块54用于将该关联系数计算模块53确定的最大关联系数对应的标签词作为该帖子的标签。

例如，该关联系数计算模块53计算特征词“异地恋”与标签词“恋爱”的关联系数是计算得到的多个关联系数中的最大值，该特征识别模块54则将标签词“恋爱”作为该帖子的标签，即，该帖子的特征为与恋爱相关的帖子。

请参阅图7，该装置还包括过滤模块65，用于判断该特征词确定模块62确定的特征词的数量是否低于预定值。若是，该过滤模块65将该帖子过滤。否则，该关联系数计算模块63计算该特征词确定模块62确定的特征词与标签库内的标签词的关联系数，并确定最大关联系数。

为了满足帖子特征识别的准确率要求，需要对特征词数量过少的帖子做过滤。在本实施方式中，该预定值为8。例如，该特征词确定模块62得到的帖子的特征词数量少于8个，则认为该帖子有效词数量太少，很难有效识别，故过滤掉该帖子。

进一步地，当特征词的数量不低于预定值时，该过滤模块65还用于计算特征词与标签库中的各标签词的关联系数的平均值和方差，并判断最大关联系数与平均值和方差的关系是否满足如下条件一。

若是，该特征识别模块64将最大关联系数对应的标签词作为帖子的标签。否则，该过滤模块65将该帖子过滤。

当该最大关联系数满足条件一时，该关联系数计算模块63确定最大关联系数和第二大关联系数，该过滤模块65判断该最大关联系数、第二大关联系数与平均值和方差的关系是否满足如下条件二。

条件二：(d_max+d_second)<SIX_DB*(mean+std)；

图7中的其它模块请参见图6以及相应的文字说明。

本发明提供的一种论坛帖子特征识别方法及装置，通过对帖子的标题和内容进行分词并计算分词得到的词语的词频，将词频从大到小位于前N个位置的词频对应的词语作为该帖子的特征词；计算特征词与标签库内的标签词的关联系数，并将最大关联系数对应的标签词作为帖子的标签，从而识别帖子的特征，并且能够在海量帖子中实现较高准确率的特征识别。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种论坛帖子特征识别方法，其特征在于，所述方法包括：

服务器获取帖子的标题和内容；

对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数；

判断所述特征词的数量是否低于预定值；若是，则将所述帖子过滤而不做特征识别；否则，计算所述特征词与标签库内的标签词的关联系数，并确定最大关联系数；具体地，将所述特征词映射到词向量空间，并依次计算所述词向量空间中的向量与所述标签库内的标签词的关联系数；其中，所述标签库预先保存多个用于表征帖子特征的标签词；所述词向量空间是基于word2vec并根据所述标签词的共现频率预先构造的；

计算所述特征词与所述标签库中的各标签词的关联系数的平均值和方差；

判断所述最大关联系数与所述平均值和所述方差的关系是否满足如下条件一；

d_max<NINE_DB*mean或者d_max<SIX_DB*(mean+std)；其中，d_max为所述最大关联系数，mean为所述平均值，std为所述方差，NINE_DB和SIX_DB为已知的设定值；

若是，则将所述最大关联系数对应的标签词作为所述帖子的标签；否则，确定所述帖子中心分散，并过滤所述帖子而不做特征识别。

2.根据权利要求1所述的论坛帖子特征识别方法，其特征在于，当所述最大关联系数满足所述条件一时，所述方法还包括：

确定第二大关联系数；

判断所述最大关联系数、所述第二大关联系数与所述平均值和所述方差的关系是否满足如下条件二；

(d_max+d_second)<SIX_DB*(mean+std)；其中，d_second为所述第二大关联系数；

若是，则执行所述将所述最大关联系数对应的标签词作为所述帖子的标签的步骤；否则，确定所述帖子中心分散，并过滤所述帖子而不做类别识别。

3.根据权利要求1所述的论坛帖子特征识别方法，其特征在于，所述对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频的步骤具体为：

将所述帖子的标题和内容进行合并，基于mmseg分词算法对合并后的所述帖子的标题和内容进行分词以计算分词得到的各词语的词频。

4.一种论坛帖子特征识别装置，其特征在于，所述装置包括：

获取模块，用于获取帖子的标题和内容；

特征词确定模块，用于对所述获取模块获取的所述帖子的标题和内容进行分词以计算分词得到的各词语的词频，将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词，N为大于0的自然数；

过滤模块，用于判断所述特征词确定模块确定的所述特征词的数量是否低于预定值；若是，所述过滤模块将所述帖子过滤而不做特征识别；

关联系数计算模块，用于当所述过滤模块确定所述特征词的数量不低于预定值时计算所述特征词确定模块确定的所述特征词与标签库内的标签词的关联系数，并确定最大关联系数；具体地，将所述特征词映射到词向量空间，并依次计算所述词向量空间中的向量与所述标签库内的标签词的关联系数；其中，所述标签库预先保存多个用于表征帖子特征的标签词；所述词向量空间是基于word2vec并根据所述标签词的共现频率预先构造的；

所述过滤模块还用于当所述特征词的数量不低于所述预定值时，计算所述特征词与所述标签库中的各标签词的关联系数的平均值和方差，并判断所述最大关联系数与所述平均值和所述方差的关系是否满足如下条件一；

d_max<NINE_DB*mean或者d_max<SIX_DB*(mean+std)；其中，d_max为所述最大关联系数，mean为所述平均值，std为所述方差，NINE_DB和SIX_DB为已知的设定值；若否，则所述过滤模块还用于将所述帖子过滤而不做特征识别；

以及

特征识别模块，用于当所述过滤模块确定所述最大关联系数与所述平均值和所述方差的关系满足所述条件一时将所述关联系数计算模块确定的所述最大关联系数对应的标签词作为所述帖子的标签。