CN103699521B

CN103699521B - 文本分析方法及装置

Info

Publication number: CN103699521B
Application number: CN201210374329.5A
Authority: CN
Inventors: 翟俊杰; 姚从磊; 王亮; 温泉; 李亚楠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-09-27
Filing date: 2012-09-27
Publication date: 2017-11-14
Anticipated expiration: 2032-09-27
Also published as: CN103699521A

Abstract

本发明公开了一种文本分析方法及装置，属于信息检索领域。所述方法包括：获得目标文本的一种或者多种特征信息；对所述目标文本的每种特征信息分别计算量化得分；对所述目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得所述目标文本的总得分。本发明通过对目标文本的各种特征信息分别计算量化得分，以及根据各自对应的权重来累计各个量化得分以得到最终得分，并且可在应用场景下自适应修正特征权重及特征项自适应扩展的效果，解决了现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题，达到了可以对论坛帖子类文本的文本质量进行准确分析的效果。

Description

文本分析方法及装置

技术领域

本发明涉及信息检索领域，特别涉及一种文本分析方法及装置。

背景技术

文本分析广泛应用于信息检索、数据挖掘、机器学习和统计以及计算语言学等领域。

现有的文本分析方法主要包括有语言概率模型分析方法、PageRank(页面等级)分析方法和分类分析方法等。其中，语言概率模型分析方法主要利用基于语料库的语言模型来分析文本中的句子是否为自然生成，而非人为的篡改，比如人为的堆砌关键词来恶意获得较高排名；PageRank分析方法主要利用网页的入链和出链信息来计算页面的有效性，从而实现对网页的排名以作为检索结果等用途；分类分析方法则用于对文本内容进行分类标记，主要用来做文本类别方面的相关推荐或计算。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：网络论坛中的帖子作为一类型特殊的文本，采用上述几种分析方法无法取得较好的质量分析效果。具体地讲，首先，论坛中的帖子都是版主维护，大部分都是行文流畅的自然语言，采用语言概率模型分析方法来分析行文的流畅基本毫无意义；其次，论坛中的帖子更新快，时新性强，入链出链信息都没有，无法采用PageRank类分析方法来获得帖子的特征；再者，论坛中通常原生划分有各个不同主题的版本，也无需专门进行分类。

发明内容

为了解决现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题，本发明实施例提供了一种文本分析方法及装置。所述技术方案如下：

一个方面，提供了一种文本分析方法，所述方法包括：

获得目标文本的一种或者多种特征信息；所述特征信息包括标题字数、标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、标题中是否包含广告词、正文字数、正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵、正文独立词性数、正文词性信息熵、正文段落数、正文图文混排性、帖子时新性、帖子回复数、帖子回复趋势、帖子浏览数、正文是否为主贴、帖子精华等级、帖子作者等级和帖子版块等级中的一种或者几种；

对所述目标文本的每种特征信息分别计算量化得分；

对所述目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得所述目标文本的总得分；

其中，所述对所述目标文本的每种特征信息分别计算量化得分，具体包括：

若所述特征信息包括所述正文中标点数与正文字数的比例、所述正文中连接词数与句子数的比例、所述正文词汇信息熵和所述正文词性信息熵中的一种或者几种，则通过第一类型函数对所述正文中标点数与正文字数的比例、所述正文中连接词数与句子数的比例、所述正文词汇信息熵或所述正文词性信息熵各自计算量化得分，所述第一类型函数为两端衰减的函数；

和/或，若所述特征信息包括所述标题中关键词字数与标题字数的比例、所述标题中类别兴趣词汇的数量、所述标题中热点词汇的数量、所述帖子回复数、所述帖子回复趋势、所述帖子浏览数、所述帖子作者等级和所述帖子版块等级中的一种或者几种，则通过第二类型函数对所述标题中关键词字数与标题字数的比例、所述标题中类别兴趣词汇的数量、所述标题中热点词汇的数量、所述帖子回复数、所述帖子回复趋势、所述帖子浏览数、所述帖子作者等级或所述帖子版块等级各自计算量化得分，所述第二类型函数为单向递增的函数；

和/或，若所述特征信息包括所述标题字数、所述标题中是否包含广告词、所述正文字数、所述正文独立词性数、所述正文段落数和所述正文是否为主贴中的一种或者几种，则计算所述标题字数、所述标题中是否包含广告词、所述正文字数、所述正文独立词性数、所述正文段落数或所述正文是否为主贴的量化得分为两值量化中的第一预定值或者第二预定值；

和/或，若所述特征信息包括所述正文图文混排性，则计算所述正文图文混排性的量化得分为图片与正文的间隔序列方差与图片数的乘积；

和/或，若所述特征信息包括所述帖子时新性，则根据第三类型函数对帖子存在时间进行计算来得到所述帖子时新性的量化得分，所述第三类型函数为单向递减的函数；

和/或，若所述特征信息包括所述帖子精华等级，则根据精华等级与权重之间的预定对应关系，计算当前精华等级与对应的权重的乘积为所述帖子精华等级的量化得分。

另一方面，提供了一种文本分析装置，所述装置包括：

信息获取模块，用于获得目标文本的一种或者多种特征信息；所述信息获取模块获取到的特征信息，包括标题字数、标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、标题中是否包含广告词、正文字数、正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵、正文独立词性数、正文词性信息熵、正文段落数、正文图文混排性、帖子时新性、帖子回复数、帖子回复趋势、帖子浏览数、正文是否为主贴、帖子精华等级、帖子作者等级和帖子版块等级中的一种或者几种；

得分计算模块，用于对所述目标文本的每种特征信息分别计算量化得分；

权重累计模块，用于对所述目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得所述目标文本的总得分；

其中，所述得分计算模块，具体包括：第一计算单元、第二计算单元、第三计算单元、第四计算单元、第五计算单元和第六计算单元中的至少一个；

所述第一计算单元，用于若所述特征信息包括所述正文中标点数与正文字数的比例、所述正文中连接词数与句子数的比例、所述正文词汇信息熵和所述正文词性信息熵中的一种或者几种，则通过第一类型函数对所述正文中标点数与正文字数的比例、所述正文中连接词数与句子数的比例、所述正文词汇信息熵或所述正文词性信息熵各自计算量化得分，所述第一类型函数为两端衰减的函数；

所述第二计算单元，用于若所述特征信息包括所述标题中关键词字数与标题字数的比例、所述标题中类别兴趣词汇的数量、所述标题中热点词汇的数量、所述帖子回复数、所述帖子回复趋势、所述帖子浏览数、所述帖子作者等级和所述帖子版块等级中的一种或者几种，则通过第二类型函数对所述标题中关键词字数与标题字数的比例、所述标题中类别兴趣词汇的数量、所述标题中热点词汇的数量、所述帖子回复数、所述帖子回复趋势、所述帖子浏览数、所述帖子作者等级或所述帖子版块等级各自计算量化得分，所述第二类型函数为单向递增的函数；

所述第三计算单元，用于若所述特征信息包括所述标题字数、所述标题中是否包含广告词、所述正文字数、所述正文独立词性数、所述正文段落数和所述正文是否为主贴中的一种或者几种，则计算所述标题字数、所述标题中是否包含广告词、所述正文字数、所述正文独立词性数、所述正文段落数或所述正文是否为主贴的量化得分为两值量化中的第一预定值或者第二预定值；

所述第四计算单元，用于若所述特征信息包括所述正文图文混排性，则计算所述正文图文混排性的量化得分为图片与正文的间隔序列方差与图片数的乘积；

所述第五计算单元，用于若所述特征信息包括所述帖子时新性，则根据第三类型函数对帖子存在时间进行计算来得到所述帖子时新性的量化得分，所述第三类型函数为单向递减的函数；

所述第六计算单元，用于若所述特征信息包括所述帖子精华等级，则根据精华等级与权重之间的预定对应关系，计算当前精华等级与对应的权重的乘积为所述帖子精华等级的量化得分。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有程序，所述程序用于执行如一方面所述的方法。

本发明实施例提供的技术方案带来的有益效果是：

通过对目标文本的各种特征信息分别计算量化得分，以及根据各自对应的权重来累计各个量化得分以得到最终得分，解决了现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题，达到了可以对论坛帖子类文本的文本质量进行准确分析的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的文本分析方法的方法流程图；

图2是本发明实施例二提供的文本分析方法的方法流程图；

图3是本发明实施例三提供的文本分析装置的结构示意图；

图4是本发明实施例四提供的文本分析装置的结构示意图；

图5是本发明实施例四提供的得分计算模块的结构方框图；

图6是本发明实施例四提供的权重修正模块的结构方框图；

图7是本发明实施例四提供的期望输出计算单元的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

请参考图1，其示出了本发明实施例一提供的文本分析方法的方法流程图。本实施例主要以该文本分析方法应用于对论坛中的帖子进行质量分析来举例说明。该文本分析方法，包括：

步骤101，获得目标文本的一种或者多种特征信息；

目标文本可以是论坛中的帖子，目标文本的特征信息包括标题字数、标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、标题中是否包含广告词、正文字数、正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵、正文独立词性数、正文词性信息熵、正文段落数、正文图文混排性、帖子时新性、帖子回复数、帖子回复趋势、帖子浏览数、正文是否为主贴、帖子精华等级、帖子作者等级和帖子版块等级中的一种或者几种；

步骤102，对目标文本的每种特征信息分别计算量化得分；

步骤103，对目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得目标文本的总得分。

综上所述，本实施例提供的文本分析方法，通过对目标文本的各种特征信息分别计算量化得分，以及根据各自对应的权重来累计各个量化得分以得到最终得分，解决了现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题，达到了可以对论坛帖子类文本的文本质量进行准确分析的效果。

实施例二

请参考图2，其示出了本发明实施例二提供的文本分析方法的方法流程图。本实施例主要以该文本分析方法应用于对论坛中的帖子进行质量分析来举例说明。该文本分析方法，包括：

步骤201，获得目标文本的一种或者多种特征信息；

当目标文本是一个论坛中的帖子时，目标文本的特征信息可以包括标题字数、标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、标题中是否包含广告词、正文字数、正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵、正文独立词性数、正文词性信息熵、正文段落数、正文图文混排性、帖子时新性、帖子回复数、帖子回复趋势、帖子浏览数、正文是否为主贴、帖子精华等级、帖子作者等级和帖子版块等级中的一种或者几种。

需要说明的是，目标文本的特征信息通常都包括上述21种特征信息中的几种，包括的特征信息越多，质量分析的结果越准确。为此，可以获取目标文本的至少5种、8种、10种特征信息来进行质量分析，以保证分析质量，优选可以包括上述全部21种特征信息。当然，目标文本的特征信息也可以不局限于上述21种特征信息，还可以包括其它第22种特征信息，第23种特征信息等。

步骤202，对目标文本的每种特征信息分别计算量化得分；

由于目标文本中的每种特征信息都不相同，在计算每个特征信息的量化得分时也可以采用不同的方式。具体地讲，可以采用下述几种方式的一种或者几种的组合：

第一，若特征信息包括正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵和正文词性信息熵中的一种或者几种，则通过第一类型函数对正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵或正文词性信息熵各自计算量化得分，第一类型函数为两端衰减的函数。因为这一类特征信息，数值过大或者过小均为不合适，只有中间部分的取值符合优秀帖子的特征。

第二，若特征信息包括标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、帖子回复数、帖子回复趋势、帖子浏览数、帖子作者等级和帖子版块等级中的一种或者几种，则通过第二类型函数对标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、帖子回复数、帖子回复趋势、帖子浏览数、帖子作者等级或帖子版块等级各自计算量化得分，第二类型函数为单向递增的函数。因为这一类特征信息，数值越大越好，数值越大越有可能是优秀帖子。

第三，若特征信息包括标题字数、标题中是否包含广告词、正文字数、正文独立词性数、正文段落数和正文是否为主贴中的一种或者几种，则计算标题字数、标题中是否包含广告词、正文字数、正文独立词性数、正文段落数或正文是否为主贴的量化得分为两值量化中的第一预定值或者第二预定值。这一类特征信息的具体数值无法很直观地代表特征，所以采用二值量化方法，其中第一预定值通常为1，第二预定值通常为0。第一预定值为1时，更符合优秀帖子的特征。

第四，若特征信息包括正文图文混排性，则计算正文图文混排性的量化得分为图片与正文的间隔序列方差与图片数的乘积。此时，图片与正文的间隔越均匀，图片数越多，正文图文混排性的量化得分越高，越符合优秀帖子的特征。

第五，若特征信息包括帖子时新性，则根据第三类型函数对帖子存在时间进行计算来得到所述帖子时新性的量化得分，第三类型函数为单向递减的函数。也即，帖子的存在时间越长，越不符合优秀帖子的特征。

第六，若特征信息包括帖子精华等级，则根据精华等级与权重之间的预定对应关系，计算当前精华等级与对应的权重的乘积为帖子精华等级的量化得分。通常，精华等级与权重之间的预定对应关系为正相关关系，也即精华等级越高，越符合优秀帖子的特征，计算得到的量化得分也越高。

为了更好地描述上述第一至第六方式，下述以一种具体的实现方式来详细阐述。在该具体的实现方式中，设第一类型函数为：

f(x)＝exp(-d*(x-μ)²)；

其中，μ控制横移特性，d控制两端衰减特性且d不等于0；

第二类型函数为：

其中，a调整衰减特性且a不等于0，k调整横移特性，b调整纵移特性；

第三类型函数为：

f(x)＝e^-ax；

其中，a调整衰减特征且a不等于0。

具体细节如下：

若特征信息包括正文中标点数与正文字数的比例，则将正文中标点数与正文字数的比例作为第一类型函数的输入，得到对应的量化得分。其中，第一类型函数中的参数μ和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括正文中连接词数与句子数的比例，则将正文中连接词数与句子数的比例作为第一类型函数的输入，得到对应的量化得分。其中，第一类型函数中的参数μ和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括正文词汇信息熵，则将正文词汇信息熵作为第一类型函数的输入，得到对应的量化得分。其中，正文词汇信息熵的计算方式为本领域技术人员所熟知的常识，不再赘述；第一类型函数中的参数μ和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括正文词性信息熵，则将正文词性信息熵作为第一类型函数的输入，得到对应的量化得分。其中，正文词性信息熵的计算方式为本领域技术人员所熟知的常识，不再赘述；第一类型函数中的参数μ和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括标题中关键词字数与标题字数的比例，则将标题中关键词字数与标题字数的比例作为第二类型函数的输入，得到对应的量化得分。其中，关键词库可以预先通过对帖子语料库进行分析、抽取得出；第二类型函数中的参数a、参数k和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括标题中类别兴趣词汇的数量，则将标题中类别兴趣词汇的数量作为第二类型函数的输入，得到对应的量化得分。其中，类别兴趣词汇可以认为是在当前帖子所属类别的关键词，比如当前帖子是《驴友骑行自助游攻略》，则类别兴趣词汇可以是旅游类别中的关键词。类别兴趣词汇库可以预先通过对各个类别的帖子语料库进行分析、抽取得出；第二类型函数中的参数a、参数k和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括标题中热点词汇的数量，则将标题中热点词汇的数量作为第二类型函数的输入，得到对应的量化得分。其中，热点词汇可以认为是在当前时间段的关键词，比如当前时间段是2012年7月，则热点词汇可以包括“伦敦奥运会”。热点词汇可以预先通过对当前时间段的帖子语料库进行分析、抽取得出；第二类型函数中的参数a、参数k和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括帖子回复数，则将帖子回复数作为第二类型函数的输入，得到对应的量化得分。其中，第二类型函数中的参数a、参数k和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括帖子回复趋势，则将帖子回复趋势作为第二类型函数的输入，得到对应的量化得分。其中，帖子回复趋势可以是由最近7天中每日回复变化率所组成的序列的加权积分。也即将包含7个变化率的序列按照232的分割方式分为3段，第一段与权重0.8相乘、第二段与权重1相乘、第三段与权重1.2相乘后积分获得，以强调中后期的变化趋势。当然，帖子回复趋势也可能采用其它方式来表征，本文不做具体限定；第二类型函数中的参数a、参数k和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括帖子浏览数，则将帖子浏览数作为第二类型函数的输入，得到对应的量化得分。其中，第二类型函数中的参数a、参数k和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括帖子作者等级，则将帖子作者等级作为第二类型函数的输入，得到对应的量化得分。其中，帖子作者等级可以按照帖子作者的点击帖子数和精华贴数来加权计算，比如，点击帖子数的权重为1，精华帖子数的权重为4，则帖子作者的等级为(点击帖子数*1+精华帖子数*4)，当然，帖子作者等级也可能采用其它方式来表征，本文不做具体限定，第二类型函数中的参数a、参数k和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括帖子版块等级，则将帖子版块等级作为第二类型函数的输入，得到对应的量化得分。其中，帖子版块等级可以按照该板块内的点击帖子数和精华贴数来加权计算，比如，点击帖子数的权重为1，精华帖子数的权重为4，则帖子版块的等级为(点击帖子数*1+精华帖子数*4)，当然，帖子版块等级也可能采用其它方式来表征，本文不做具体限定，第二类型函数中的参数a、参数k和参数d的取值可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同；

若特征信息包括标题字数，则在标题字数属于预定区间(5，50)时，计算标题字数的量化得分为1；在标题字数不属于预定区间(5，50)时，计算标题字数的量化得分为0；

若特征信息包括标题中是否包含广告词，则在标题中不包含广告词时，计算标题中是否包含广告词的量化得分为1；则在标题中包含广告词时，计算标题中是否包含广告词的量化得分为0；

若特征信息包括正文字数，则在正文字数属于预定区间(20，2000)时，计算正文字数的量化得分为1；在正文字数不属于预定区间(20，2000)时，计算正文字数的量化得分为0；

若特征信息包括正文独立词性数，则在正文独立词性数大于等于16时，计算正文字数的量化得分为1；在正文独立词性数小于16时，计算正文独立词性数的量化得分为0；

若特征信息包括正文段落数，则在正文独立词性数大于等于4时，计算正文字数的量化得分为1；在正文独立词性数小于4时，计算正文独立词性数的量化得分为0；

若特征信息包括正文是否为主贴，则在正文为主贴时，计算正文是否为主贴的量化得分为1；则在正文不为主贴时，计算正文是否为主贴的量化得分为0；

若特征信息包括正文图文混排性，则计算正文图文混排性的量化得分为图片与正文的间隔序列方差与图片数的乘积。具体的计算方法可以是：将正文中的每个图片设为2，两个图片之间的连续文本设为0，得到图片与正文的间隔序列，然后将计算该间隔序列的方差，并与图片数相乘获得量化得分，该量化得分在图片与正文间隔越均匀且图片数越多时，得分越高。比如，正文依次包含一段文本和一张图片，则图片与正文的间隔序列为02，计算量化得分为((0-1)²+(2-1)²)/2*1＝1。

若特征信息包括帖子时新性，则将帖子存在时间作为第三类型函数的输入，计算得到帖子时新性的量化得分。其中，第三类型函数中的参数a可以根据要求设置，比如希望超过60天的帖子的量化等分衰减到0.2，则可以根据这一指标逆向求导参数a的数值。

若特征信息包括帖子精华等级，则根据精华等级与权重之间的预定对应关系，计算当前精华等级与对应的权重的乘积为帖子精华等级的量化得分。该预定对应关系可以为精华等级为1时，权重为0.8；精华等级为2时，权重为0.9；精华等级为3时，权重为1.0；精华等级为1时，权重为1.1。

也即，根据上述过程，可以计算出每种特征信息的量化得分。

步骤203，对目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得目标文本的总得分；

在目标文本的每种特征信息的量化得分均计算出之后，可以将每种特征信息的量化得分与各种对应的权重相乘，然后进行累加来获得目标文本的总得分。每种特征信息的初始权重可以通过优秀帖子语料库进行统计得出，根据语料库的不同，取值可以不同。以突出其中较为重要的特征信息对总得分的影响，削弱其中较为不重要的特征信息对总得分的影响为准则。

步骤204，根据每个目标文本的总得分生成推荐列表；

根据步骤201至步骤203的分析过程，可以对多个论坛中的帖子进行质量分析，从而获得多个目标文本的总得分。然后根据总得分由高到低的顺序，可以对该多个论坛中的帖子进行排序，并在排序结果中抽取前n个帖子来生成推荐列表，n可以为20、50或者100等。该推荐列表可以作为呈现给用户的阅读列表。同时，在用户使用该推荐列表进行阅读的过程中，可以生成该推荐列表的用户点击日志。

步骤205，根据推荐列表的用户点击日志对目标文本的每种特征信息各自对应的权重进行修正。

由于步骤204中根据初始权重生成的推荐列表，可能与用户真实需要的推荐列表还有不符合，所以可以根据该推荐列表的用户点击日志来对目标文本的各种特征信息各自对应的权重进行修正。具体地讲：

对于一个目标文本j：

首先，根据推荐列表的用户点击日志来计算目标文本j的期待输出d_j；

以文本是论坛帖子为例，根据推荐列表的用户点击日志来计算目标文本j的期待输出d_j，具体包括：

第一，根据用户点击日志将推荐列表中最后被点击的第r个帖子以及之前的所有帖子设为训练集D，其中，训练集D中被点击的帖子作为点击训练集D_r，训练集中未被点击的帖子作为未点击训练集D_nr；

也即，假设推荐列表包括100个帖子，其中，被点击过的帖子有46个，未被点击过的帖子有54个，最后被点击的是第80个贴子，此时，选择推荐列表中的第1至80个帖子作为训练集D，其中，将该80个帖子中被点击过的46个帖子作为点击训练集D_r，训练集中未被点击的54个帖子作为未点击训练集D_nr。

第二，获得训练集D中原始帖子顺序与总得分之间的第一对应关系；

由于推荐列表都是通过步骤204中的总得分排序对帖子排序而来，所以可以获得训练集D中原始帖子顺序与总得分之间的第一对应关系。由于篇幅有限，以训练集D包括5个帖子，其中第3个帖子和第5个帖子是被点击过的帖子，此时的第一对应关系举例如下：

原始帖子顺序	帖子得分
		第1个帖子T1	3.0
第2个帖子T2	2.8
		第3个帖子T3	2.1
第4个帖子T4	1.8
		第5个帖子T5	1.5

第三，保持第一对应关系中的总得分顺序不变，将原始帖子顺序按照排序规则重新排序，获得重新排序后的帖子顺序与帖子得分之间的第二对应关系，排序规则包括将所有被点击的帖子排序在所有未被点击的帖子之前，所有被点击的帖子之间的前后顺序保持不变，所有未被点击的帖子之间的前后顺序保持不变；

此时，第二对应关系举例如下：

其中，第3个帖子和第5个帖子是被点击过的帖子，排序在第1、2和4个帖子之前。被点击过的第3个帖子和第5个帖子的前后顺序不变，未被点击过的第1、2和4个帖子的前后顺序不变。

第四，设目标文本j为点击训练集D_r中的一个帖子j，根据第二对应关系可知，帖子j对应的总得分为s_i，0<i<r，且点击训练集Dr中的最小总得分为smin，则帖子j的期望输出为：

其中,p_j为帖子j的被点击数，p_total为点击训练集Dr中所有帖子的被点击总数，S为点击训练集D_r中各个总得分与最小总得分之间的差分总和。

继续以上图为例，目标文本j为第3个帖子，且第3个帖子的被点击数为20，第5个帖子的被点击数为60，则根据第二对应关系可知，第3个帖子的总得分为3，点击训练集D_r中的最小总得分为2.8，则第3个帖子的期望输出为：

其次，设目标文本j的特征向量为x_j＝(x_j,1,x_j,2,…,x_j,n)；对应的特征权重为：w＝(w₁,w₂,…,w_n)，其中，n表示第n项特征信息，在本例中包含21项特征信息，所以n可以为21，当然n也可以为22、23等其它数值，前21个特征可以称之为基础特征，超过21的特征可以称之为扩展特征；对应地，每个特征信息均对应一个特征权重；

然后，设当前输出为y_j(t)，t为迭代次数，迭代计算下述两个步骤：

y_j(t)＝f[w_i(t)·x_j,i]＝f(w₁(t)x_j,1+w₂(t)x_j,2+…+w_n(t)x_j,n)；

w_i(t+1)＝w_i(t)+a(y_j(t)-d_j)x_j,i；

直至|y_j(t)-d_j|小于第三预定值，或者迭代次数t达到第四预定值，则将初始特征权重修正为当前特征权重。其中，参数a为属于区间(0，1)的设定值，用于调节修正幅度。

综上所述，本实施例提供的文本分析方法，通过对目标文本的各种特征信息分别计算量化得分，以及根据各自对应的权重来累计各个量化得分以得到最终得分，解决了现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题，达到了可以对论坛帖子类文本的文本质量进行准确分析的效果。另外，通过根据推荐列表的用户点击日志来修正目标文本的每种特征信息各自对应的权重，使得后续计算的目标文本的总得分更符合用户的需求，也即达到了对论坛帖子类文本的文本质量进行更准确分析的效果。

实施例三

请参考图3，其示出了本发明实施例三提供的文本分析装置的结构方框图。该文本分析装置可以实现成为论坛服务器或者论坛服务器中的一个单元。该文本分析装置包括信息获取模块320、得分计算模块340和权重累计模块360。

信息获取模块320，用于获得目标文本的一种或者多种特征信息。

得分计算模块340，用于对所述信息获取模块320获取的目标文本的每种特征信息分别计算量化得分。

权重累计模块360，用于对所述得分计算模块340计算得到的目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得所述目标文本的总得分。

综上所述，本实施例提供的文本分析装置，通过对目标文本的各种特征信息分别计算量化得分，以及根据各自对应的权重来累计各个量化得分以得到最终得分，解决了现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题，达到了可以对论坛帖子类文本的文本质量进行准确分析的效果。

实施例四

请参考图4，其示出了本发明实施例四提供的文本分析装置的结构方框图。该文本分析装置可以实现成为论坛服务器或者论坛服务器中的一个单元。与实施例三相比，该文本分析装置不仅包括信息获取模块320、得分计算模块340和权重累计模块360，还包括列表生成模块380和权重修正模块382。

信息获取模块320，用于获得目标文本的一种或者多种特征信息，所述特征信息可以包括标题字数、标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、标题中是否包含广告词、正文字数、正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵、正文独立词性数、正文词性信息熵、正文段落数、正文图文混排性、帖子时新性、帖子回复数、帖子回复趋势、帖子浏览数、正文是否为主贴、帖子精华等级、帖子作者等级和帖子版块等级中的一种或者几种的组合。

列表生成模块380，用于根据所述权重累计模块360累计的每个目标文本的总得分生成推荐列表；

权重修正模块382，用于根据所述列表生成模块380生成的推荐列表的用户点击日志对每种特征信息各自对应的权重进行修正。

具体地讲，所述得分计算模块340，具体可以包括：第一计算单元341、第二计算单元342、第三计算单元343、第四计算单元344、第五计算单元345和第六计算单元345中的至少一个，如图5所示；

所述第一计算单元341，用于若所述信息获取模块320获取的特征信息包括所述正文中标点数与正文字数的比例、所述正文中连接词数与句子数的比例、所述正文词汇信息熵和所述正文词性信息熵中的一种或者几种，则通过第一类型函数对所述正文中标点数与正文字数的比例、所述正文中连接词数与句子数的比例、所述正文词汇信息熵或所述正文词性信息熵各自计算量化得分，所述第一类型函数为两端衰减的函数；

所述第二计算单元342，用于若所述信息获取模块320获取的特征信息包括所述标题中关键词字数与标题字数的比例、所述标题中类别兴趣词汇的数量、所述标题中热点词汇的数量、所述帖子回复数、所述帖子回复趋势、所述帖子浏览数、所述帖子作者等级和所述帖子版块等级中的一种或者几种，则通过第二类型函数对所述标题中关键词字数与标题字数的比例、所述标题中类别兴趣词汇的数量、所述标题中热点词汇的数量、所述帖子回复数、所述帖子回复趋势、所述帖子浏览数、所述帖子作者等级或所述帖子版块等级各自计算量化得分，所述第二类型函数为单向递增的函数；

所述第三计算单元343，用于若所述信息获取模块320获取的特征信息包括所述标题字数、所述标题中是否包含广告词、所述正文字数、所述正文独立词性数、所述正文段落数和所述正文是否为主贴中的一种或者几种，则计算所述标题字数、所述标题中是否包含广告词、所述正文字数、所述正文独立词性数、所述正文段落数或所述正文是否为主贴的量化得分为两值量化中的第一预定值或者第二预定值；

所述第四计算单元344，用于若所述信息获取模块320获取的特征信息包括所述正文图文混排性，则计算所述正文图文混排性的量化得分为所述图片与正文的间隔序列方差与图片数的乘积；

所述第五计算单元345，用于若所述信息获取模块320获取的特征信息包括所述帖子时新性，则根据第三类型函数对帖子存在时间进行计算来得到所述帖子时新性的量化得分，所述第三类型函数为单向递减的函数；

所述第六计算单元346，用于若所述信息获取模块320获取的特征信息包括所述帖子精华等级，则根据精华等级与权重之间的预定对应关系，计算当前精华等级与对应的权重的乘积为所述帖子精华等级的量化得分。

在一种具体实现方式中，所述第一类型函数为：

f(x)＝exp(-d*(x-μ)²)；

其中，μ控制横移特性，d控制两端衰减特性且d不等于0；

所述第二类型函数为：

所述第三类型函数为：

f(x)＝e^-ax；

其中，a调整衰减特征且a不等于0。

另一方面，具体地讲，所述权重修正模块382，具体包括：期待输出计算单元382a和权重修正单元382b，如图6所示。

所述期待输出计算单元382a，用于根据所述推荐列表的用户点击日志来计算目标文本j的期待输出d_j；

所述权重修正单元382b，用于设目标文本j的特征向量为x_j＝(x_j,1,x_j,2,…,x_j,n)；对应的特征权重为：w＝(w₁,w₂,…,w_n)，其中，n表示第n项特征信息；

设当前输出为y_j(t)，t为迭代次数，迭代计算下述两个步骤：

y_j(t)＝f[w_i(t)·x_j,i]＝f(w₁(t)x_j,1+w₂(t)x_j,2+…+w_n(t)x_j,n)；

w_i(t+1)＝w_i(t)+a(y_j(t)-d_j)x_j,i；

直至所述|y_j(t)-d_j|小于第三预定值，或者所述迭代次数t达到第四预定值，则将初始特征权重修正为当前特征权重。

进一步地，所述期待输出计算单元382a，具体包括：训练集抽取子单元702、第一生成子单元704、第二生成子单元706和期望输出子单元708，如图7所示。

所述训练集抽取子单元702，用于根据所述用户点击日志将所述推荐列表中最后被点击的第r个文本以及之前的所有文本设为训练集D，其中，所述训练集D中被点击的文本作为点击训练集D_r，所述训练集中未被点击的文本作为未点击训练集D_nr；

所述第一生成子单元704，用于获得所述训练集中原始文本顺序与所述总得分之间的第一对应关系；

所述第二生成子单元706，用于保持所述第一对应关系中的总得分顺序不变，将所述原始文本顺序按照排序规则重新排序，获得重新排序后的文本顺序与所述总得分之间的第二对应关系，所述排序规则包括将所有被点击的文本排序在所有未被点击的文本之前，所有被点击的文本之间的前后顺序保持不变，所有未被点击的文本之间的前后顺序保持不变；

所述期望输出子单元708，用于设所述目标文本j为点击训练集D_r中的一个文本，根据第二对应关系可知，所述目标文本j对应的总得分为s_i，0<i<r，且点击训练集D_r中的最小总得分为s_min，则所述目标文本j的期望输出为：

其中,p_j为所述目标文本j的被点击数，p_total为点击训练集D_r中所有文本的被点击总数，S为点击训练集D_r中各个总得分与最小总得分之间的差分总和。

所述权重累计模块360，还用于根据所述权重修正模块382修正后的特征权重对目标文本的各种特征信息的量化得分进行累计以获得目标文本的总得分。

综上所述，本实施例提供的文本分析装置，通过对目标文本的各种特征信息分别计算量化得分，以及根据各自对应的权重来累计各个量化得分以得到最终得分，解决了现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题，达到了可以对论坛帖子类文本的文本质量进行准确分析的效果。另外，通过根据推荐列表的用户点击日志来修正目标文本的每种特征信息各自对应的权重，使得后续计算的目标文本的总得分更符合用户的需求，也即达到了对论坛帖子类文本的文本质量进行更准确分析的效果。

需要说明的是：上述实施例提供的文本分析装置在分析文本时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本分析装置与文本分析方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本分析方法，其特征在于，所述方法包括：

获得目标文本的一种或多种特征信息；所述特征信息包括标题字数、标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、标题中是否包含广告词、正文字数、正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵、正文独立词性数、正文词性信息熵、正文段落数、正文图文混排性、帖子时新性、帖子回复数、帖子回复趋势、帖子浏览数、正文是否为主贴、帖子精华等级、帖子作者等级和帖子版块等级中的一种或者几种；

对所述目标文本的每种特征信息分别计算量化得分；

根据每个目标文本的总得分生成推荐列表；

根据所述推荐列表的用户点击日志对目标文本的每种特征信息各自对应的权重进行修正；

2.根据权利要求1所述的文本分析方法，其特征在于，所述第一类型函数为：

f(x)＝exp(-d*(x-μ)²)；

其中，μ控制横移特性，d控制两端衰减特性且d不等于0；

所述第二类型函数为：

所述第三类型函数为：

f(x)＝e^-ax；

其中，a调整衰减特征且a不等于0。

3.根据权利要求1或2所述的文本分析方法，其特征在于，所述根据所述推荐列表的用户点击日志对目标文本的每种特征信息各自对应的权重进行修正，具体包括：

根据所述推荐列表的用户点击日志来计算目标文本j的期待输出d_j；

设目标文本j的特征向量为x_j＝(x_j,1,x_j,2,…,x_j,n)；对应的特征权重为：w＝(w₁,w₂,…,w_n)，其中，n表示第n项特征信息；

设当前输出为y_j(t)，t为迭代次数，迭代计算下述两个步骤：

y_j(t)＝f[w_i(t)·x_j,i]＝f(w₁(t)x_j,1+w₂(t)x_j,2+…+w_n(t)x_j,n)；

w_i(t+1)＝w_i(t)+a(y_j(t)-d_j)x_j,i，a是属于区间(0，1)的设定值；

直至|y_j(t)-d_j|小于第三预定值，或者所述迭代次数t达到第四预定值，则将初始特征权重修正为当前特征权重。

4.根据权利要求3所述的文本分析方法，其特征在于，所述根据所述推荐列表的用户点击日志来计算目标文本j的期待输出d_j，具体包括：

根据所述用户点击日志将所述推荐列表中最后被点击的第r个文本以及之前的所有文本设为训练集D，其中，所述训练集D中被点击的文本作为点击训练集D_r，所述训练集中未被点击的文本作为未点击训练集D_nr；

获得所述训练集中原始文本顺序与所述总得分之间的第一对应关系；

保持所述第一对应关系中的总得分顺序不变，将所述原始文本顺序按照排序规则重新排序，获得重新排序后的文本顺序与所述总得分之间的第二对应关系，所述排序规则包括将所有被点击的文本排序在所有未被点击的文本之前，所有被点击的文本之间的前后顺序保持不变，所有未被点击的文本之间的前后顺序保持不变；

设所述目标文本j为所述点击训练集D_r中的一个文本，根据第二对应关系可知，所述目标文本j对应的总得分为s_i，0<i<r，且所述点击训练集D_r中的最小总得分为s_min，则所述目标文本j的期望输出为：

<mrow> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <mi>s</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>+</mo> <mi>S</mi> <mfrac> <msub> <mi>p</mi> <mi>j</mi> </msub> <msub> <mi>p</mi> <mrow> <mi>t</mi> <mi>o</mi> <mi>t</mi> <mi>a</mi> <mi>l</mi> </mrow> </msub> </mfrac> <mo>=</mo> <msub> <mi>s</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mn>1</mn> <mrow> <mi>D</mi> <mi>r</mi> </mrow> </munderover> <mo>&lsqb;</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>s</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>&rsqb;</mo> <mo>)</mo> </mrow> <mfrac> <msub> <mi>p</mi> <mi>j</mi> </msub> <msub> <mi>p</mi> <mrow> <mi>t</mi> <mi>o</mi> <mi>t</mi> <mi>a</mi> <mi>l</mi> </mrow> </msub> </mfrac> <mo>;</mo> </mrow>

其中,p_j为所述目标文本j的被点击数，p_total为点击训练集D_r中所有文本的被点击总数，S为所述点击训练集D_r中各个总得分与最小总得分之间的差分总和。

5.一种文本分析装置，其特征在于，所述装置包括：

列表生成模块，用于根据每个目标文本的总得分生成推荐列表；

权重修正模块，用于根据所述推荐列表的用户点击日志对每种特征信息各自对应的权重进行修正；

6.根据权利要求5所述的文本分析装置，其特征在于，所述第一类型函数为：

f(x)＝exp(-d*(x-μ)²)；

其中，μ控制横移特性，d控制两端衰减特性且d不等于0；

所述第二类型函数为：

所述第三类型函数为：

f(x)＝e^-ax；

其中，a调整衰减特征且a不等于0。

7.根据权利要求5或6所述的文本分析装置，其特征在于，所述权重修正模块，具体包括：

期待输出计算单元和权重修正单元；

所述期待输出计算单元，用于根据所述推荐列表的用户点击日志来计算目标文本j的期待输出d_j；

所述权重修正单元，用于设目标文本j的特征向量为x_j＝(x_j,1,x_j,2,…,x_j,n)；对应的特征权重为：w＝(w₁,w₂,…,w_n)，其中，n表示第n项特征信息；

设当前输出为y_j(t)，t为迭代次数，迭代计算下述两个步骤：

y_j(t)＝f[w_i(t)·x_j,i]＝f(w₁(t)x_j,1+w₂(t)x_j,2+…+w_n(t)x_j,n)；

w_i(t+1)＝w_i(t)+a(y_j(t)-d_j)x_j,i，a是属于区间(0，1)的设定值；

8.根据权利要求7所述的文本分析装置，其特征在于，所述期待输出计算单元，具体包括：

训练集抽取子单元、第一生成子单元、第二生成子单元和期望输出子单元；

所述训练集抽取子单元，用于根据所述用户点击日志将所述推荐列表中最后被点击的第r个文本以及之前的所有文本设为训练集D，其中，所述训练集D中被点击的文本作为点击训练集D_r，所述训练集中未被点击的文本作为未点击训练集D_nr；

所述第一生成子单元，用于获得所述训练集中原始文本顺序与所述总得分之间的第一对应关系；

所述第二生成子单元，用于保持所述第一对应关系中的总得分顺序不变，将所述原始文本顺序按照排序规则重新排序，获得重新排序后的文本顺序与所述总得分之间的第二对应关系，所述排序规则包括将所有被点击的文本排序在所有未被点击的文本之前，所有被点击的文本之间的前后顺序保持不变，所有未被点击的文本之间的前后顺序保持不变；

所述期望输出子单元，用于设所述目标文本j为点击训练集D_r中的一个文本，根据第二对应关系可知，所述目标文本j对应的总得分为s_i，0<i<r，且点击训练集D_r中的最小总得分为s_min，则所述目标文本j的期望输出为：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序，所述程序用于执行如权利要求1至4任一项所述的方法。