CN112434126A

CN112434126A - 一种信息处理方法、装置、设备和存储介质

Info

Publication number: CN112434126A
Application number: CN201910731275.5A
Authority: CN
Inventors: 蔡衡; 兰建明; 司马洋洋; 杨希
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2021-03-02
Anticipated expiration: 2039-08-08
Also published as: CN112434126B

Abstract

本发明实施例公开了一种信息处理方法、装置、设备和存储介质，该方法包括：抽取待分析语段中的至少两个候选热词；基于贝叶斯平均法计算各个所述候选热词的第一热度；基于牛顿冷却定律计算各个所述候选热词的第二热度；将同一候选热词的第一热度和第二热度进行加权计算，得到对应候选热词的综合热度；根据各个候选热词的综合热度，对所述待分析语段中的至少两个候选热词进行排序，根据设定的排序次序从所述排序结果中确定所述待分析语段中的热词。本发明实施例通过对网络信息进行分析，准确地计算各词条的热度，以挖掘热词。

Description

一种信息处理方法、装置、设备和存储介质

技术领域

本发明涉及信息处理，尤其涉及一种信息处理方法、装置、设备和存储介质。

背景技术

社交网站比如：微博、腾讯、今日头条等每天都会发布海量的内容，为了方便用户从海量的内容中了解当前比较热门的内容，各网站会对海量的内容进行分析，确定各词条的热度，从而提取出一些热门的词条作为热词。

相关技术中，确定词条的热度的方案包括：贝叶斯平均法、牛顿冷却定律等热度分析方法。其中，根据贝叶斯平均法得到的热词排名较为合理，但该方法计算出的热度区分度不大，并且某些热度并不合理。根据牛顿冷却定律计算出的冷却系数变化幅度较大，其热度变化比较清晰，但对于今天和昨天词频比较大的词估计过高，因此，这些方案都无法准确地计算各词条的热度。

发明内容

为解决上述技术问题，本发明实施例提供一种信息处理方法、装置、设备和存储介质。

本发明的技术方案是这样实现的：

本发明实施例提供了一种信息处理方法，所述方法包括：

抽取待分析语段中的至少两个候选热词；

基于贝叶斯平均法计算各个所述候选热词的第一热度；

基于牛顿冷却定律计算各个所述候选热词的第二热度；

将同一候选热词的第一热度和第二热度进行加权计算，得到对应候选热词的综合热度；

根据各个候选热词的综合热度，对所述待分析语段中的至少两个候选热词进行排序，根据设定的排序次序从所述排序结果中确定所述待分析语段中的热词。

本发明实施例提供一种信息处理装置，所述装置包括：抽取模块、第一计算模块、第二计算模块、第三计算模块和确定模块；其中，

所述抽取模块，用于抽取待分析语段中的至少两个候选热词；

所述第一计算模块，用于基于贝叶斯平均法计算各个所述候选热词的第一热度；

所述第二计算模块，用于基于牛顿冷却定律计算各个所述候选热词的第二热度；

所述第三计算模块，用于将同一候选热词的第一热度和第二热度进行加权计算，得到对应候选热词的综合热度；

所述确定模块，用于根据各个候选热词的综合热度，对所述待分析语段中的至少两个候选热词进行排序，根据设定的排序次序从所述排序结果中确定所述待分析语段中的热词。

本发明实施例提供一种信息处理设备，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，所述处理器用于运行所述计算机程序时，执行上述信息处理方法中的步骤。

本发明实施例提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述信息处理方法中的步骤。

本发明实施例中提出一种信息处理方法，将贝叶斯平均法计算出的热度与牛顿冷却定律计算出的热度进行综合考虑，得到区分度合理的热度。

附图说明

图1为本发明实施例信息处理方法的实现流程示意图一；

图2为本发明实施例信息处理方法的实现流程示意图二；

图3为本发明实施例信息处理方法的实现流程示意图三；

图4为本发明实施例信息处理的系统架构示意图；

图5为本发明实施例信息处理的数据分析示意图；

图6为本发明实施例信息处理的功能架构示意图；

图7为本发明实施例信息处理装置的结构示意图；

图8为本发明实施例信息处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明各实施例中，抽取待分析语段中的至少两个候选热词；基于贝叶斯平均法计算各个所述候选热词的第一热度；基于牛顿冷却定律计算各个所述候选热词的第二热度；将同一候选热词的第一热度和第二热度进行加权计算，得到对应候选热词的综合热度；根据各个候选热词的综合热度，对所述待分析语段中的至少两个候选热词进行排序，根据设定的排序次序从所述排序结果中确定所述待分析语段中的热词。

本发明实施例提供一种信息处理方法，图1为本发明实施例信息处理方法的实现流程示意图一，应用于终端或服务器等信息处理设备，如图1所述，所述方法包括以下步骤：

步骤S11：抽取待分析语段中的至少两个候选热词。

信息处理设备利用爬虫技术采集网页信息，将采集的网页信息，对所爬取的网页信息进行分析，得到网页信息中的待分析语段，其中，待分析语段可为设定网页例如社交网站中的内容：比如：微博的不同用户发布的不同内容、微信朋友圈中不同用户所发布的内容等。这里，在抽取候选热词时，将同一社交网站的内容作为待分析语段。待分析语段中包括同一社交网站的至少两个语段，即至少两条用户发布的内容。

在确定待分析语段后，将待分析语段中各语段的候选热词，其中，可通过词典匹配法、匹配模型等抽取方式抽取各语段中的候选热词。

这里，在对抽取待分析语段中的热词之前，可确定各语段的专题，分别抽取同一专题下的语段的候选热词，作为该专题对应的候选热词。

在一实施例中，所述抽取待分析语段中的至少两个候选热词，包括：

对所述待分析语段所包括的分词进行统计，确定各分词在第一词库中的第一词频和在第二词库中的第二词频；所述第一词库为第一时间段所统计的分词构成的词库，所述第二词库为第二时间段所统计的分词构成的词库；所述第一时间段和所述第二时间段不同；将所述第一词频和所述第二词频满足选取条件的热词作为所述候选热词。

这里，第一时间段和第二时间段可为时长相同且相邻的两个时间段，且第一时间段的时间晚于第二时间段。比如：第一时间段为当天，第二时间段可为前一天。又比如：当前时间为12号，第一时间段为10号至12号，第二时间段为8号至10号。

这里，识别各语段所包括的分词，其中，一个语段所包括的分词构成该语段。比如，语段为“小明是个小学生”，则该语段的分词包括：小明、是、个、小学生。

对于各分词，当分词在第一词库中或第二词库中的词频满足以下条件至一时，可认为该分词满足选取条件，该分词为候选热词：

1)该分词存在于第一词库和第二词库中，并且该分词在第一词库中的的第一词频和在第二词库中的第二词频均大于设定的第一词频阈值。

2)该分词存在于第一词库中，但不存在于第二词库中，并且该分词在第一词库中的第一词频大于第二词频阈值。

其中，第一词频阈值小于第二词频阈值，比如：第一词频阈值可为5，第二词频为10。

这里，当一个分词不存在于第二词库中时，该分词的第二词频记为0。

步骤S12：基于贝叶斯平均法计算各个所述候选热词的第一热度。

这里，可根据公式(1)所示的贝叶斯平均法计算候选热词的第一热度：

其中，w：表示一个候选热词。H_bayesian(w)：表示根据贝叶斯平均法计算得到的候选热词的热度。f_today：表示该候选热词今天的词频。f_yesterday(w)：表示该候选热词昨天的词频。f_{sum_average}：表示抽取的热词昨天和今天的词频之和的平均。R_average：词频系数，通过先对每个候选热词求出今天与两天(今天和昨天)词频之和的比值，然后对所有候选热词的比值之和求平均得到。

步骤S13：基于牛顿冷却定律计算各个所述候选热词的第二热度。

这里，可根据公式(2)所示的牛顿冷却系数，并根据公式(3)计算候选热词的第二热度：

表示牛顿冷却系数，代表候选热词的冷却度。

H_Newton(w)：表示根据牛顿冷却定律计算得到的候选热词的热度。

步骤S14：将同一候选热词的第一热度和第二热度进行加权计算，得到对应候选热词的综合热度。

根据候选热词的第一热度和第二热度对应权值对第一热度和第二热度进行加权计算，得到候选热词的综合热度，计算公式可为公式(4)：

H(w)＝α×H_Bayesian(w)+β×H_Newton(w) (4)；

其中，α为第一热度对应的权值，β为第一热度对应的权值，α和β的和为1，比如：α＝0.8，β＝0.2。

步骤S15：根据各个候选热词的综合热度，对所述待分析语段中的至少两个候选热词进行排序，根据设定的排序次序从所述排序结果中确定所述待分析语段中的热词。

这里，根据综合热度的高低对各候选热词进行排序，选取综合热度排名靠前的候选热词作为待分析语段中热词。

比如：选取综合热度排名前20的候选热词作为热词。

在实际应用中，可对确定的热词的含义进行分析，当确定该热词为回联方式、敏感词时，将这些热词添加到不良词库中。

其中，可根据候选热词的综合热度，基于第一时间段的第一词库来分别第一时间段的热词，并通过第二词库中的候选热词对确定的热词进行更新。比如：取出第一词库中综合热度排名前20的分词构成词库1，同时取出步骤S11中词频排名前5的分词构成词库2，若词库2中的某些词(词集合3)不在词库1中，则把词库1中排名靠后的词替换为词集合3。将最终的20个分词按热度排序，即为所求的20个热词和相应的热度排名。

在本发明实施例中，将贝叶斯平均法计算出的热度与牛顿冷却定律计算出的热度进行综合考虑，得到区分度合理的热度，使得确定的热词更加准确，有助于运营商及时发现变种或是新形式的不良内容，对公安等其它机构和组织也有价值，提前预警、及时防范。

在一些实施例中，在步骤S11之前，所述方法还包括以下步骤：

步骤S21：将各语段中的分词与不同专题对应的专题业务词库分别进行匹配。

为了提高爬取和存储效率，可以将网页信息进行去重，设置所有专题业务词，组成专题业务词库。

在执行步骤S21时，将不含任何专题业务词库中业专题业务词的语段直接舍弃，或者利用这些专题业务词在相应网站中搜索语段，进一步提高爬取效率。

将采集的语段与设置的专题业务词库进行匹配，匹配规则可为：对于某个专题任意级别的专题业务词，该条语段均包含一个或多个该级专题业务词，则认为该条语段与该专题匹配，否则不匹配。

专题的划分可根据实际需求来划分。比如，专题包括以下三类：商业广告、违法类、自定义。商业广告包括的行业有：教育，金融，医疗和房地产等。违法类关键词类型包括：手机诈骗，诈骗电话，手机恶意软件，手机病毒。自定义话题即用户通过关键词自定义专题。

步骤S22：将包括所述语段的分词的专题业务词库对应的专题作为对应语段的专题。

将与语段所匹配的专题作为该语段的专题。

步骤S23：将专题相同的语段聚合为一个语段集合。

此时，S11中，可根据语段集合的划分，抽取各专题对应的语段集合的语段中的至少两个候选热词，从而根据步骤S12至步骤S14得到各话题下的热词。

在一实施例中，对于各专题对应的语段集合，可确定各专题的热度，包括：

对于各专题对应的语段集合分别执行以下处理，得到所述专题的热度：

确定所述专题对应的语段集合内当天创建的第一语段，并获取所述专题对应的语段集合内在当天更新且未在当天创建的第二语段；

确定所述第二语段在当天的热度和在前一天的历史热度的热度差值；

对所述第一语段在当天的热度和所述第二语段的热度差值进行加权计算，得到所述专题在当天的热度。

第一语段为一个语段集合内创建时间为当天的语段，第二语段为该语段集合内更新时间为当天的语段。这里，更新时间为最近的更新时间。比如：一个语段集合包含语段A、语段B、语段C、语段D和语段E，如果当天时间为2019年5月15日，语段A创建时间为2019年3月15日，更新时间为2019年5月15日；语段B创建时间为2019年5月15日；语段C创建时间为2019年3月15日，更新时间是2019年4月15日；语段D的创建时间为2019年4月26日，更新时间为2019年5月15日；语段E的创建时间为2019年5月15日。那么，第二语段包括：语段A和语段D，第一语段包括：语段B和语段E。

下面，以微博中的语段为例，对本发明实施例提供的专题的热度计算方法进行说明。

这里，该专题的热度H(topic,day)可基于公式(5)计算。语段的热度差值H²(wb)由公式(6)表示。

H²(wb)＝H¹(wb)-H¹(wb)_past (6)；

其中，C：属于专题topic且创建时间在当天(day)的所有微博的第一语段的集合。U：属于专题topic且更新时间在当天(day)的第二语段的集合，创建时间不在该天的所有微博的语段。wb表示语段。H¹(wb)为一个语段当前的热度，H¹(wb)_past表示语段的前一天的热度。

在一实施例中，对于同一专题下的语段，可执行以下处理以计算各语段在当天的热度：

获取所述专题对应的语段集合各语段在当天的以下至少一个维度的评价指标：关注度指标和影响力指标；将各语段的评价指标量化为热度因子，并对所述热度因子进行加权计算，得到各语段在当天的热度。

其中，语段的关注度指标包括：转发数c’_cmments、评论数c’_reports和点赞数c’_attitude。H¹(wb)可通过公式(7)计算：

H¹(wb)＝(w₁*c′_comments+w₂*c′_reposts+w₃*c′_attitudes)*t₁+userInfluence*t₂+10(7)；

w₁：转发数的权重，可为8.79060。w₂：评论数的权重，可为4.55241。w₃：点赞数的权重，可为1.41454。t₁：关注度的权重，可为7。t₂：影响力的权重，可为1。

这里，对于H¹(wb)_past：可通过语段的前一天的关注度指标和影响力指标，基于公式(7)计算得出。

在实际应用中，可基于专题一天的热度得到专题一周的热度H(topic,week)，可通过公式(8)计算得到：

D：过去7天。

同理，可通过公式(9)计算专题一月的热度H(topic,month)：

M：过去30天。

在一实施例中，对于各专题对应的语段集合，还可执行以下步骤：

获取各专题对应的语段集合中各语段的设定数量的字符的特征向量序列；将所述各特征向量序列输入神经网络模型中，得到各特征向量序列对应的字符为回联方式的概率，将概率大于设定概率阈值的字符确定为对应语段的回联方式。

回联方式主要指：手机号码、固话号码、电子邮箱、QQ号、微信号等。对能匹配到专题的信息，利用基于神经网络的序列标注算法提取其中的回联方式。

本发明实施例中，对于神经网络模型的模型结构不进行任何的限定。可通过样本语段和样本语段中所标注的回联方式对神经网络模型进行训练，通过训练完成的神经网络模型识别语段中所包括的回联方式。

每次输入神经网络模型的特征向量序列为设定数量的字符对应的特征向量构成的序列。设定数量为3、5等。根据输入的特征向量构成的序列为各字符打分。这里，可将设定数量中的字符中的某一个字符(例如：中间的字符)作为目标字符，神经网路模型的输出为对目标字符的为回联方式的字符的概率。

比如：设定数量为5时，设语段为：ABCDEFGHI，则在语段之补0，得到00ABCDEFGHI00，分别将00ABC、0ABCD、ABCDE直到GHI00输入神经网络模型，分别得到A、B、直到I为回联方式的字符的概率。

神经网络模型输出语段中各字符为回联方式中的字符的概率，当输出的概率大于设定概率阈值时，则认为该字符为回联方式中的字符的概率，并将语段中多个连续的字符确定为该语段所包括的回联方式。

这里，可为概率高于设定概率的字符打标签，将概率高于设定概率的字符的标签设为1，将概率低于设定概率的字符的标签设为0，则将标签序列中连续多个为1的字符确定为该语段包括的回联方式。

在确定同一专题下各语段的回联方式后，可基于回联方式将语段集合划分为子集合，其中，获取各专题对应语段的回联方式，将各专题对应的语段集合中回联方式相同的语段聚合为各回联方式对应的语段子集合；对于各回联方式专题对应的语段子集合分别执行以下处理，得到所述回联方式的热度；确定所述回联方式对应的语段集合内在当天创建的第三语段，并获取所述回联方式对应的语段集合内在当天更新且未在当天创建的第四语段；确定所述第四语段在当天的热度和在前一天的历史热度的热度差值；对所述第三语段在当天的热度和所述第四语段的热度差值进行加权计算，得到所述回联方式在当天的热度。

专题和回联方式的热度的计算方法可相同，具体计算细节可参考专题的热度计算。

在一实施例中，对于同一专题下的语段，可执行以下处理以计算各语段的热度：

获取各语段的以下维度的评价指标：时效度指标、关注度指标和影响力指标；根据各语段的时效度指标确定各语段的时效度；根据各语段的关注度指标和影响力指标确定各语段在当天的热度；将各语段在当天的热度和时效度的乘积作为个语段的热度。

可根据公式(10)计算各语段的热度H(wb)：

H(wb)＝F₁*H¹(wb) (10)；

F₁＝5*[31-(t_{current_date}-t_{create_at})]+1*[11-(t_{current_date}-t_{update_at})] (11)；其中，语段的时效度指标为该语段当前的时间t_current-date、创建的时间t_create-at和更新的时间t_update-at，语段的时效度指标确定语段时效度为F₁，语段的关注度指标包括：语段转发数c’_cmments、语段评论数c’_reports和语段的点赞数c’_attitudes，语段的影响力指标为userInfluence，即语段的博主是否为微博达人、认证名人或认证机构，语段的关注度指标和影响力指标确定语段在当天的热度H¹(wb)，语段时效度F₁和当天的热度H¹(wb)的乘积作为语段的热度H(wb)，当天的热度H¹(wb)的计算公式与公式(6)中的相同。

热度的计算的评价要素和评价指标，如表1所示。

表1热度评价要素和评价指标

在本发明实施例中，提出了基于神经网络的序列标注算法从不良内容中抽取回联方式，无须制定一个个的抽取规则，只需训练一个神经网络模型即可，智能调优模型分类器，自主选择最优数据字段组合，最优模型参数，实现模型自主优化。且结合微博时效度、用户关注度、博主影响力等要素对专题下的语段、专题、回联方式的热度进行计算和分析，将获得的不良的回联方式、热度较高的专题下的语段和专题补充到现有不良信息特征库，便于及时监控和拦截不良信息，拓展策略制定的思路，为不良信息治理策略制定提供针对方向，更全面监控疑似不良信息。

下面，以社交网站微博为具体的应用场景对本发明实施例提供的信息处理方法进行进一步描述。

随着网络技术的发展，微博作为一个新兴媒体已经成为人们获取信息的最重要平台，许多的营销人员和不法分子在上面发布商业广告和违法信息，这些不良信息通过热度高的微博、专题、热词迅速扩散，或者在包含不良内容的微博上留下回联方式引导受害者主动联系。

目前常见的监控手段分为两类，一类是内容特征，如短信文本内容，一类是根据行为特征，如呼叫频次、时间、位置等。无论是根据短信内容的识别还是根据时间、频次、位置等特征的识别都存在一定的局限性：

1、事后性。传统方法要等到不良信息的行为发生之后，或者发生的时候才能识别它，偏向于事后分析与处置，无法提前获取相关不良信息的特征，从源头遏制和预警。2、不全面性。传统方法都是基于不良号码主动对外联系时的特征来识别，无法覆盖受害者被引导主动联系不良号码的情景。3、滞后性。一旦产生新型不良手段(违法内容的变种或新的违法内容)，不能及时监测并预警，具有一定的滞后性。4、依赖性。基于规则的回联方式抽取算法需要事先定义抽取规则，否则很难抽到联系人。5、不合理性。根据贝叶斯平均法得到的热词排名较为合理，但该方法计算出的热度区分度不大，并且某些热度并不合理；根据牛顿冷却定律计算出的冷却系数变化幅度较大，其热度变化比较清晰，但对于今天和昨天词频比较大的词估计过高。

本发明实施例提供一种信息处理方法，避免了上述技术缺陷，图3为本发明实施例信息处理方法的实现流程示意图三，如图3所述，所述方法包括以下步骤：

步骤31：爬取专题信息。

从网页信息中爬取专题信息，比如微博平台上，首先要设置专题，专题分为三类：商业广告、违法类、自定义。通过爬取商业广告，提取回联方式配入现网，形成联动。商业广告包括的行业有：教育，金融，医疗和房地产等。爬取违法类内容在于发现新型诈骗手段。违法类内容关键词类型包括：手机诈骗，诈骗电话，手机恶意软件，手机病毒。自定义话题即用户通过关键词自定义专题。

利用爬虫技术采集新浪微博上的公开信息。为了提高爬取和存储效率，可以根据所设置所有业务词进行去重，然后组成集合，爬取时将不含任何集合中业务词的信息直接舍弃，或者利用这些业务词去相应网站搜索，进一步提高爬取效率。

将采集的互联网信息与设置的专题业务词进行匹配，匹配规则为：对于某个专题任意级别的业务词，该条信息均包含一个或多个该级业务词，则认为该条信息与该专题匹配，爬取该信息，否则不匹配。若采集到多个符合匹配规则的信息，将所述多个信息组成专题信息，比如：有多条微博都包含一个或多个该级业务词，该多条微博组成了专题信息。

步骤32：从专题信息中提取回联方式。

从步骤31爬取的专题信息中基于神经网络的序列标注算法提取其中的回联方式。回联方式主要指：手机号码、固话号码、电子邮箱、QQ号、微信号等。

步骤33：计算专题信息/子专题信息的热度。

专题信息中，将同一专题信息下含有相同的回联方式的信息聚合组成子专题信息。结合微博时效度、用户关注度、博主影响力等要素对信息(微博)、专题、子专题的热度进行计算和分析。

步骤34：计算专题信息/子专题信息热词的热度。

专题信息/子专题信息的热词定义为在某一时间段内起点低、增长迅速，热度随着时间的流逝而改变的词。

步骤35：生成预警信息。

生成专题信息某时间段内的回联方式、文本和图片、热度最高的N条微博、热词等内容。

在一实施例中，步骤32对回联方式的提取采用基于神经网络的序列标注算法。算法所使用的模型为基本神经网络模型，共三层，其中，输入层250个神经元，隐含层100个神经元，输出层1个神经元。隐含层激活函数为tanh函数，输出层激活函数为sigmoid函数。模型的输入为文本中相邻连续5个字符的特征向量所构成的特征向量序列，每个字符的特征向量为50维，共250维，对应输入层的250个神经元，模型的输出为，中间字符属于回联方式的概率。算法分为模型训练和回联方式提取两个部分，它们各自的流程如下：

步骤321：模型训练。

模型训练包括6小步：利用word2vec训练字符的向量表示；准备回联方式提取语料，对语料进行预处理；对预处理之后的语料中的字符打标签，打标签的方式为，如果该字符属于回联方式，打“1”标签，否则打“0”标签；用符合正态分布Normal(0,0.01²)的随机值初始化神经网络模型参数；采用批量梯度下降(gradient descent，简称GD)和反向传播(Backpropagation，简称BP)算法调整模型的参数直至损失函数收敛；保存模型参数，用于后续回联方式提取。

步骤322：提取回联方式。

提取回联方式包括4小步：加载步骤1中训练好的模型参数；对每条待提取的文本进行预处理，前后各补充两个空字符；对从第N个字符到倒数第N个字符的每个字符，将该字符及其前后各N-1个字符的特征向量(空字符的特征向量为零向量)拼接起来作为模型输入，如果模型输出值大于0.5，给该字符打1标签，否则打0标签；根据上一步所打标签序列，辅以一定的筛选校正，得到最终的回联方式。

在一实施例中，步骤33的计算专题信息/子专题信息的热度，包括：

网页信息和某个专题进行匹配，一个专题可以包含一个以上的专题业务词，多个信息与该专题若都匹配上，将该多个信息聚合成对应专题的专题信息，从该专题下的信息中提取回联方式，将同一专题下回联方式相同的信息聚合成该专题的子专题信息，专题信息和子专题信息的热度的计算方法相同。

步骤331：计算专题/子专题信息的热度。

由微博时效度、用户关注度和博主影响力得到专题的热度，对所述第一语段在当天的热度和所述第二语段的热度差值进行加权计算，得到所述专题一天的热度计算公式(5)。

这里，第一语段在当天的热度由公式(7)表示，所述第二语段的热度差值由公式(6)表示。

H²(wb)＝H¹(wb)-H¹(wb)_past (6)；

其中，C：属于专题topic且创建时间在当天(day)的所有微博的语段。U：属于专题topic且更新时间在当天(day)，创建时间不在该天的所有微博的语段。

w₁：语段转发数的权重，设为8.79060。w₂：语段评论数的权重，设为4.55241。w₃：语段点赞数的权重，设为1.41454。t₁：用户关注度的权重，设为7。t₂：博主影响力的权重，设为1。c’_cmments：语段转发数。c’_reports：语段评论数。c’_attitudes：语段点赞数。H¹(wb)_past：该微博语段(wb)前一天用公式(7)计算出的值。

基于专题一天的热度计算公式(5)，可得到专题一周的热度计算公式(8)：

D：过去7天。

同理，得到专题一月的热度计算公式(9)：

M：过去30天。

子专题计算方法如下，确定所述回联方式对应的语段集合内在当天创建的第三语段，并获取所述回联方式对应的语段集合内在当天更新且未在当天创建的第四语段；确定所述第四语段在当天的热度和在前一天的历史热度的热度差值；对所述第三语段在当天的热度和所述第四语段的热度差值进行加权计算，得到所述回联方式在当天的热度。

专题和子专题的热度的计算方法相同，子专题为专题下回联方式相同的语段(微博)，可以理解为，子专题的热度就是回联方式的热度。

步骤332：计算专题信息中一条信息的热度。

获取所述专题对应的语段集合各语段的以下维度的评价指标：时效度指标、关注度指标和影响力指标；根据各语段的时效度指标确定各语段的时效度；根据各语段的关注度指标和影响力指标确定各语段在当天的热度；将各语段在当天的热度和时效度的乘积作为个语段的热度。

各语段热度计算公式(10)：

H(wb)＝F₁*H¹(wb) (10)；

F₁＝5*[31-(t_{current_date}-t_{create_at})]+1*[11-(t_{current_date}-t_{update_at})] (11)；其中，语段的时效度指标为该语段当前的时间t_current-date、创建的时间t_create-at和更新的时间t_update-at，语段的时效度指标确定语段时效度为F₁，语段的关注度指标为语段转发数c’_cmments、语段评论数c’_reports和语段的点赞数c’_attitudes，语段的影响力指标为userInfluence，即语段的博主是否为微博达人、认证名人或认证机构，语段的关注度指标和影响力指标确定语段在当天的热度H¹(wb)，语段时效度F₁和当天的热度H¹(wb)的乘积作为语段的热度H(wb)，当天的热度H¹(wb)的计算公式与公式(6)中的相同。

热度的计算的评价要素和评价指标，如表1所示。

表1热度评价要素和评价指标

在一实施例中，步骤34计算专题信息/子专题信息的热词的热度，包括：

步骤341：抽取候选热词。

这里，分别对创建和更新时间均为今天以及创建和更新时间均为昨天的同一个专题下的所有博文进行分词。采用停用词库分别对今天和昨天的分词进行过滤，并过滤掉单个字。

步骤342：候选热词的热度计算。

现有的两种热度算法：贝叶斯平均法和牛顿冷却定律。根据贝叶斯平均法得到的热词排名较为合理，但该方法计算出的热度区分度不大，并且某些热度并不合理；又根据牛顿冷却定律计算出的冷却系数变化幅度较大，其热度变化比较清晰，但对于今天和昨天词频比值较大的词估计过高。所以通过对贝叶斯平均法和牛顿冷却定律计算得到的热度加权得到一个综合的热度作为候选热词的热度。其中，包括三个步骤：

步骤S3421：基于贝叶斯平均法计算各个所述候选热词的第一热度。

步骤S3422：基于牛顿冷却定律计算各个所述候选热词的第二热度。

表示牛顿冷却系数，代表候选热词的冷却度。

步骤S3423：将同一候选热词的第一热度和第二热度进行加权计算，得到对应候选热词的综合热度。

H(w)＝α×H_Bayesian(w)+β×H_Newton(w) (4)；

步骤343：将候选热词的热度排序，确定热词。

本发明实施例中，从多样化的微博文本挖掘不良信息，如回联方式、热词和专题信息，有助于运营商及时发现变种或是新形式的不良内容，补充不良信息特征库的号码和关键词，对公安等其它机构和组织也有价值，提前预警。

本发明实施例提供一种信息处理的系统架构，如图4所示为该系统架构示意图，包括：展示层、数据处理层、存储层和数据获取层。

数据获取层用于网络爬虫爬取微博信息；爬虫会查询存储层的Redis数据库中是否存在某url来判断该条数据是否已爬取过，已避免重复爬取，同时会把已爬过的url存入Redis中。爬虫也会从Mysql数据库中获取专题关键词、账号信息等用于爬取辅助。

存储层用于各数据库存放数据，其中，数据库包括Redis、Mysql和图片服务器。Redis数据库的主要用存储已爬取的URL。Mysql数据库存储用户信息、专题信息、专题匹配信息等。图片服务器存储爬取的微博图片。HBase存储全量数据信息，主要是爬取的微博信息，数据处理层处理的结果。

数据处理层主要是各种数据分析处理，分为分布式计算模型(MapReduce，MR)和数据服务器，MR和Redis、Mysql和HBase中的数据进行分析处理，数据分析处理包括：回联方式导出、专题/子专题内容展示、子专题热度排行榜、专题情感分析、专题热词展示、专题热词趋势和专题时空态势分析等，这里，专题时空态势分析展示专题参与人群的地理分布情况随时间变化的趋势，形成地理分布热力图，参与人群的地理位置根据微博用户的所在地标签来确定。

其中，MR的数据处理可如图5所示，MR从Mysql中根据时间戳获取url，由于Mysql中有专题关键词，也一并到达MR，因而Redis从MR中根据关键字获取需要处理的url，并从需要处理的url中删除Redis数据库已爬取过的url，就得到真正要处理的url，此时MR从HBase全量数据库中根据url获取需要处理的数据，此数据为处理前的数据，如点赞数、评论数和转发数等，由于通过MR计算模型处理，处理后的新增数据如回联方式等会存储在HBase，MR需要再从HBase获取到处理后的需要的数据，这些数据包括：热度值、热词、专题情感、专题热度、专题位置信息和子专题属性以及热度。再将这些数据分别写入Mysql中不同的表中，比如专题情感、热度值、热词写入专题表中，子专题属性以及热度写入子专题表，专题位置信息写入专题热度表等。数据服务器的作用是为展示层提供接口，处理一些业务逻辑，实现展示层与数据库的交互。

展示层，是一些Web页面，主要有话题展示、话题分析、报告导出等页面。比如自动化报表生成。按天、周、月或者自定义时间范围自动生成报表，导出专题某时间段内的回联方式、文本和图片、热度最高的N条微博、热词等内容。

如图6所示为与系统架构示意图4相对应的功能架构图，包括：应用平台和微博不良信息预警系统。应用平台对应系统架构示意图中的展示层，微博不良信息预警系统又包括：采集层、存储层和数据分析，其中，采集层对应系统架构示意图中的数据获取层，存储层对应系统架构示意图中的存储层，数据分析对应系统架构示意图中的数据处理层。

采集层，用于网络爬虫从微博中爬取语段。

存储层，包括原始数据文件数据库、专题/子专题信息数据库、图片数据库。

数据分析层的功能包括：专题热度计算、专题热度排序、子专题抽取、子专题热度计算、子专题热度排序、情感分析、时空态势分析、热度趋势分析、热词提取等分析计算功能。

应用平台位于PC端，设置有：专题首页、专题内容展示、专题导出、子专题首页、子专题内容展示、子专题导出、专题分析、报告导出、专题设置等页面，实现数据的展示。

在本发明实施例中，通过多样化的微博文本挖掘不良信息，从中提取回联方式、热词，通过可视化页面展示、报表导出等提供给审核团队进行二次审核，最终得到可用于补充运营商不良信息特征库的号码和关键词，提前预警，及时监控和拦截不良信息。

本发明实施例提供一种信息处理装置700，如图7所示为装置700示意图，装置700包括：抽取模块701，第一计算模块702、第二计算模块703、第三计算模块704和确定模块705，其中：

抽取模块701，用于抽取待分析语段中的至少两个候选热词；

第一计算模块702，用于基于贝叶斯平均法计算各个所述候选热词的第一热度；

第二计算模块703，用于基于牛顿冷却定律计算各个所述候选热词的第二热度；

第三计算模块704，用于将同一候选热词的第一热度和第二热度进行加权计算，得到对应候选热词的综合热度；

确定模块705，用于根据各个候选热词的综合热度，对所述待分析语段中的至少两个候选热词进行排序，根据设定的排序次序从所述排序结果中确定所述待分析语段中的热词。

其中，在一实施例中，抽取模块701，还用于：

对所述待分析语段所包括的分词进行统计，确定各分词在第一词库中的第一词频和在第二词库中的第二词频；所述第一词库为第一时间段所统计的分词构成的词库，所述第二词库为第二时间段所统计的分词构成的词库；所述第一时间段和所述第二时间段不同；

将所述第一词频和所述第二词频满足选取条件的热词作为所述候选热词。

在一些实施例中，信息处理装置700还包括：

第一聚合模块，用于将各语段中的分词与不同专题对应的专题业务词库分别进行匹配；将包括所述语段的分词的专题业务词库对应的专题作为对应语段的专题；将专题相同的语段聚合为一个语段集合；

相应地，抽取模块701还用于抽取各专题对应的语段集合的语段中的至少两个候选热词。

在一些实施例中，信息处理装置700还包括：专题热度计算模块，用于：

在一些实施例中，信息处理装置700还包括：提取模块，用于：

在一些实施例中，信息处理装置700还包括：子专题模块，用于：

将各专题对应的语段集合中回联方式相同的语段聚合为各回联方式对应的语段子集合；对于各回联方式专题对应的语段子集合分别执行以下处理，得到所述回联方式的热度：确定所述回联方式对应的语段集合内在当天创建的第三语段，并获取所述回联方式对应的语段集合内在当天更新且未在当天创建的第四语段；确定所述第四语段在当天的热度和在前一天的历史热度的热度差值；对所述第三语段在当天的热度和所述第四语段的热度差值进行加权计算，得到所述回联方式在当天的热度。

在一些实施例中，信息处理装置700还包括：第一语段热度计算模块，用于：获取所述专题对应的语段集合各语段在当天的以下至少一个维度的评价指标：关注度指标和影响力指标；将各语段的评价指标量化为热度因子，并对所述热度因子进行加权计算，得到各语段在当天的热度。

在一些实施例中，信息处理装置700还包括：第二语段热度计算模块，用于：

获取各语段的以下维度的评价指标：时效度指标、关注度指标和影响力指标；

根据各语段的时效度指标确定各语段的时效度；

根据各语段的关注度指标和影响力指标确定各语段在当天的热度；

将各语段在当天的热度和时效度的乘积作为各语段的热度。

这里需要指出的是：上述实施例提供的信息处理装置700与信息处理方法实施例属于同一构思，其具体实现过程详见方法实施例，具有同方法实施例相同的有益效果，对于本发明实施例终端实施例中未披露的技术细节，本领域的技术人员请参照本发明实施例方法实施例的描述而理解，为节约篇幅，这里不再赘述。

需要说明的是，图8为本发明实施例信息处理设备的一种硬件实体示意图，如图8所示，信息处理设备800包括：一个处理器801、至少一个通信总线802、用户接口803、至少一个外部通信接口804和存储器805。其中，通信总线802配置为实现这些组件之间的连接通信。其中，外部通信接口804可以包括标准的有线接口和无线接口。

其中，存储器805存储有能够在处理器801上运行的计算机程序；其中，所述处理器801用于运行所述计算机程序时，以实现上述实施例中提供的信息处理方法中的步骤。

上述本发明实施例揭示的方法可以应用于所述处理器801中，或者由所述处理器801实现。所述处理器801可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过所述处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器801可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器801可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器805，所述处理器801读取存储器805中的信息，结合其硬件完成前述方法的步骤。

这里需要指出的是：以上设备实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明实施例终端实施例中未披露的技术细节，本领域的技术人员请参照本发明实施例方法实施例的描述而理解，为节约篇幅，这里不再赘述。

在示例性实施例中，本发明实施例还提供了一种存储介质即计算机可读存储介质，例如包括存储计算机程序的存储器805，上述计算机程序可由处理器801处理，以完成前述信息处理方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

这里需要指出的是：以上计算机介质实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明实施例终端实施例中未披露的技术细节，本领域的技术人员请参照本发明实施例方法实施例的描述而理解，为节约篇幅，这里不再赘述。

可以理解，本发明实施例的存储器(存储器805)可以是易失性存储器或者非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-OnlyMemory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

抽取待分析语段中的至少两个候选热词；

基于贝叶斯平均法计算各个所述候选热词的第一热度；

基于牛顿冷却定律计算各个所述候选热词的第二热度；

2.根据权利要求1所述的方法，其特征在于，所述抽取待分析语段中的至少两个候选热词，包括：

3.根据权利要求1所述的方法，其特征在于，所述待分析语段包括至少两个语段，所述方法还包括：

将各语段中的分词与不同专题对应的专题业务词库分别进行匹配；

将包括所述语段的分词的专题业务词库对应的专题作为对应语段的专题；

将专题相同的语段聚合为一个语段集合；

所述抽取待分析语段中的至少两个候选热词，包括：

抽取各专题对应的语段集合的语段中的至少两个候选热词。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取各专题对应的语段集合中各语段的设定数量的字符的特征向量序列；

将所述各特征向量序列输入神经网络模型中，得到各特征向量序列对应的字符为回联方式的概率，将概率大于设定概率阈值的字符确定为对应语段的回联方式。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

将各专题对应的语段集合中回联方式相同的语段聚合为各回联方式对应的语段子集合；

对于各回联方式专题对应的语段子集合分别执行以下处理，得到所述回联方式的热度；确定所述回联方式对应的语段集合内在当天创建的第三语段，并获取所述回联方式对应的语段集合内在当天更新且未在当天创建的第四语段；

确定所述第四语段在当天的热度和在前一天的历史热度的热度差值；

对所述第三语段在当天的热度和所述第四语段的热度差值进行加权计算，得到所述回联方式在当天的热度。

7.根据权利要求4或6所述的方法，其特征在于，所述方法还包括：

获取所述专题对应的语段集合各语段在当天的以下至少一个维度的评价指标：关注度指标和影响力指标；

将各语段的评价指标量化为热度因子，并对所述热度因子进行加权计算，得到各语段在当天的热度。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

根据各语段的时效度指标确定各语段的时效度；

将各语段在当天的热度和时效度的乘积作为各语段的热度。

9.一种信息处理装置，其特征在于，所述装置包括：抽取模块、第一计算模块、第二计算模块、第三计算模块和确定模块，其中：

10.一种信息处理设备，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，所述处理器用于运行所述计算机程序时，执行权利要求1至8任一项所述信息处理方法中的步骤。

11.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8任一项所述信息处理方法中的步骤。