CN106886579A

CN106886579A - 实时流式文本分级监控方法和装置

Info

Publication number: CN106886579A
Application number: CN201710058647.3A
Authority: CN
Inventors: 张日崇; 李晨; 兰天; 李建欣; 彭浩
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2017-06-23
Anticipated expiration: 2037-01-23
Also published as: CN106886579B

Abstract

本发明实施例提供一种实时流式文本分级监控方法和装置，包括：实时获取流式的短文本；对所述短文本进行数据清洗、数据补齐和数据过滤处理，生成结构化数据；对所述结构化数据进行文本分词处理，获得K个词；所述K为大于0的整数；根据敏感词数据库，对所述K个词进行敏感分析，获得所述短文本的敏感值；根据情感词数据库，对所述K个词进行情感分析，获得所述短文本的情感值；根据所述敏感值与所述情感值，获得所述短文本所属的用户的监控等级。本实施例获得的用户的监控等级更精确也更迅速。

Description

实时流式文本分级监控方法和装置

技术领域

本发明实施例涉及社交网络技术领域，尤其涉及一种实时流式文本分级监控方法和装置。

背景技术

近年来，伴随着信息技术的蓬勃发展，互联网的使用大范围迅速普及，大量不同领域、不同地域、不同时域的信息在产生伊始便经由互联网广泛传播，这一方面有利于人们及时了解实时信息，把握新鲜资讯；但大量冗余、重复乃至错误的“暗信息”不仅会增加广大用户浏览有效信息的难度，甚至会误导用户对信息或事态产生错误的理解或判断。以新浪微博、腾讯微博为代表的一系列实时用户在线分享交流社区自出现以来很快便被广大互联网用户接受并使用，其原因主要包含以下几点：

注册方便，仅通过邮箱或电话号码即可快速拥有账户；

自由便捷，用户可以根据自身需要及心情变化随时随地分享自己的想法或状态；

实时快速，用户能够通过消息推送、主动搜索、订阅关注等多种方式及时获取想要的多种信息；

用户广泛，用户不仅能够获取自身亲友圈的信息与状态，还能与喜欢的明星发生互动；

增强社交，可以方便陌生人相互熟悉，创建新的社交模式。

微博等新颖的社交模式拥有众多出众的优点，因此产品受众范围十分广泛，自推出时起便快速积攒大量活跃用户。快速发展的社交网络及用户群一方面有利于用户的交流、信息的传播，但也更加剧了文首说明情况的发生，此类微博信息的发布很少或根本未经过人工审核，这就导致很多包含过激情绪或不当言论微博大量的出现在社交网络中，造成一系列连锁反应；且微博未实名用户也同样可以自由的发表博客，这就会使得信息的产生十分随意，极易被不法分子或水军利用，传播垃圾或反动言论，迷惑群众。

上述情况的出现对社会危害十分巨大，由于微博类流式短文本所涉及的用户遍布社会各个阶层，且微博类应用用户基数达到亿级，快速传播的信息将会携带文本中的信息与情绪通过社交网络爆发式扩散，造成难以挽回的影响。因此及时在海量信息中发现此类文本并实施预警，进行舆情管控是一项十分必要的工作。

发明内容

本发明实施例提供一种实时流式文本分级监控方法和装置，用于使得用户的监控等级更精确。

第一方面，本发明实施例提供一种实时流式文本分级监控方法，包括：

实时获取流式的短文本；

对所述短文本进行数据清洗、数据补齐和数据过滤处理，生成结构化数据；

对所述结构化数据进行文本分词处理，获得K个词；所述K为大于0的整数；

根据敏感词数据库，对所述K个词进行敏感分析，获得所述短文本的敏感值；

根据情感词数据库，对所述K个词进行情感分析，获得所述短文本的情感值；

根据所述敏感值与所述情感值，获得所述短文本所属的用户的监控等级。

第二方面，本发明实施例提供一种实时流式文本分级监控装置，包括：

第一获取模块，用于实时获取流式的短文本；

生成模块，用于对所述短文本进行数据清洗、数据补齐和数据过滤处理，生成结构化数据；

分词模块，用于对所述结构化数据进行文本分词处理，获得K个词；所述K为大于0的整数；

敏感分析模块，用于根据敏感词数据库，对所述K个词进行敏感分析，获得所述短文本的敏感值；

情感分析模块，用于根据情感词数据库，对所述K个词进行情感分析，获得所述短文本的情感值；

第二获取模块，用于根据所述敏感值与所述情感值，获得所述短文本所属的用户的监控等级。

综上所述，本发明实施例获得的用户的监控等级更精确也更迅速，因此可以快速精确地锁定监控等级高的用户。例如可以应用于社交网络中的言论监控，以实施预警措施，从而避免了社交网络被不法分子或水军利用，传播垃圾或反动言论，迷惑群众，而造成难以挽回的影响。例如可以应用于广告精准投放中，根据广告商的需求，投放给监控等级高的用户。例如可以应用于用户推荐系统中，以推荐监控等级高的用户。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的实时流式文本分级监控方法的流程图；

图2为本发明实施例一提供的实时流式文本分级监控装置的结构示意图；

图3为本发明实施例二提供的实时流式文本分级监控装置的结构示意图；

图4为本发明实施例三提供的实时流式文本分级监控装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一提供的实时流式文本分级监控方法的流程图，如图1所示，本实施例的方法可以包括：

S101、实时获取流式的短文本。

本实施例中，该流式短文本可以是微博中用户发布的短文本，或者朋友圈中用户发布的短文本，本实施例并不限于此。当用户发布该短文本时，本实施例可以实时获取到该短文本，需要说明的是，本实施例不仅获取该用户发布的短文本，还实时获取其它各用户发布的短文本。下面以一个用户为对像进行解释说明，其它用户也类似，此处不再赘述。

S102、对所述短文本进行数据清洗、数据补齐和数据过滤处理，生成结构化数据。

本实施例中，在获取短文本后，对该短文本进行数据清洗、数据补充和数据过滤处理，可以将无意义短文本、纯表情文本等无价值数据进行剔除，节省计算性能，然后生成结构化数据。以短文本中微博中的信息为例，生成的结构化数据至少包括如下信息：微博ID、发布时间、用户ID、文本内容。

S103、对所述结构化数据进行文本分词处理，获得K个词；所述K为大于0的整数。

本实施例中，对生成的结构化数据进行文本分词处理，获得K个词，例如采用NLPIR方式，K为大于或等于1的整数。例如短文本为：川普赢得美国大选。分词处理后可以获得4个词，分别为：川普、赢得、美国、大选。

S104、根据敏感词数据库，对所述K个词进行敏感分析，获得所述短文本的敏感值。

本实施例中，根据敏感词数据库，对上述K个词进行敏感分析，获得该短文本的敏感值。可选地，所述敏感词数据库包括以下至少一种：网络统计的敏感词、预设的敏感词。网络统计的敏感词例如可以是微博中统计获得的敏感词，预设的敏感词可以是客户根据实际需要设定的词。

S105、根据情感词数据库，对所述K个词进行情感分析，获得所述短文本的情感值。

本实施例中，根据敏感词数据库，对上述K个词进行敏感分析，获得该短文本的情感值，例如情感值为-1，表示为负情感或负面情绪。例如情感值为0，表示为中性情感。例如情感值为1，表示为正情感或正面情绪。可选地，所述情感词数据库包括以下至少一种：网络统计的情感词、预设的情感词。网络统计的情感词例如可以是微博中统计获得的情感词，预设的情感词可以是客户根据实际需要设定的词。

S106、根据所述敏感值与所述情感值，获得所述短文本所属的用户的监控等级。

本实施例中，在获取短文本的敏感值和短文本的情感值后，根据该短文本的敏感值和短文本的情感值，获得该短文本所属的用户的监控等级。

综上所述，本实施例获得的用户的监控等级更精确也更迅速，困此可以快速精确地锁定监控等级高的用户。例如可以应用于社交网络中的言论监控，以实施预警措施，从而避免了社交网络被不法分子或水军利用，传播垃圾或反动言论，迷惑群众，而造成难以挽回的影响。例如可以应用于广告精准投放中，根据广告商的需求，投放给监控等级高的用户。例如可以应用于用户推荐系统中，以推荐监控等级高的用户。本实施例不限于上述应用场景。

可选地，上述S106的一种可行的实现方式中包括S1061-S1063。

S1061、根据所述敏感值和所述情感值，获得所述用户的初始监控等级。

本实施例中，根据获得的短文本的敏感值和短文本的情感值，获得该用户的初始监控等级。

可选地，采用下述公式获得用户的初始监控等级。

L1＝[level_-num×δ(log(SS×|SE|))]，其中，L1表示初始监控等级，level表示取整函数，δ表示激活函数，δ＝(1+e^-x)^-1，其中x＝log(SS×|SE|)，SS表示敏感值，SE表示情感值，|SE|表示情感值的绝对值。

S1062、根据所述用户的历史短文本，获得所述用户的历史监控等级。

本实施例中，在获取到用户的初始监控等级后，还获取用户的历史短文本，采用如S101-S105的方式获得用户的历史短文本的敏感值和情感值，然后根据敏感值和情感值，获得用户的历史监控等级。

可选地，采用下述公式获得用户的历史监控等级。

其中，用户的历史短文本可以是至少一个，SS_i表示第i个历史短文本的敏感值，SE_i表示第i个历史短文本的情感值，L2表示用户的历史监控等级。

S1063、根据所述用户的初始监控等级和所述历史监控等级，获得所述用户的监控等级。

本实施例中，根据用户的初始监控等级和历史监控等级，获得用户的监控等级，例如用户的监控等级等于(L1+L2)/2。

可选地，在执行S1062之前，确定所述用户的初始监控等级大于第一预设监控等级。具体地，在获得用户的初始监控等级之后，判断该用户的初始监控等级是否大于第一预设监控等级，当该用户的初始监控等级大于第一预设监控等级时，再执行S1062。当该用户的初始监控等级小于或等于第一预设监控等级时，则确定该用户的初始监控等级为用户的监控等级。

可选地，本实施例在执行S104和S105之前，还包括：S107和S108。

S107、标注所述K个词的词性。

本实施例中，获得短文本中的K个词之后，标注该K个词的词性，例如：川普(名词)、赢得(动词)、美国(名词)、大选(名词)。

S108、根据所述K个词的词性，对所述K个词进行语义分析。

本实施例中，在该K个词标注词性后，根据该K个词的词性，对该K个词进行语义分析，例如采用Word2vec算法。

相应地，S104的一种可行的实现方式为：根据敏感词数据库，对语义分析后的所述K个词进行敏感分析，获得所述短文本的敏感值。

相应地，S105的一种可行的实现方式为：根据情感词数据库，对语义分析后的所述K个词进行情感分析，获得所述短文本的情感值。

基于语义分析，获得的敏感值和情感值的准确性更高。

可选地，本实施例的方法还可以包括：

S109、当所述用户的监控等级大于第二预设监控等级时，获取所述短文本的M个关键词；所述M为大于0的整数。

S110、将所述M个关键词分别添加至所述敏感词数据库和所述情感词数据库中。

本实施例中，在获得用户的监控等级之后，判断该用户的监控等级是否大于第二预设监控等级，当该用户的监控等级大于第二预设监控等级时，获取该短文本的M个关键词，例如通过TF-IDF方法获取关键词，M为大于或等于1的整数。然后将M个关键词分别添加至敏感词数据库和情感词数据库中，实现了在线学习敏感词和情感词的方案。

可选地，获取短文本的敏感值的一种方式为：通过以下公式获得。

其中，SS表示敏感值，相似度_j表示第j个词与敏感词数据库中词的语义相似度，取值为[0，1]，当第j个词与敏感词数据库的中某个词相同时，相似度_j等于1。其中。K个词中的关键词的权重高于普通词的权重。

敏感词数据库和情感词数据库包括预先设置以及在线学习结果反馈，能够有效适应实时发生变化的文本环境，确保不会因为数据问题导致大量敏感短文本被忽视。敏感词匹配算法基于语义分析算法，将分词并词性标注后的文本流式多线程的与敏感词数据库中的敏感词进行相似度评估，筛选出文本中的疑似敏感词，该操作能够从语义层次分析一篇短文本的敏感程度，并在当前时间片环境下分析出目标文本的敏感程度，与此同时，通过大量流式数据的多线程统计，可以根据敏感词的共现关系寻找新的疑似敏感词根据阈值判断是否添加到敏感词词库中；情感分析在筛选出的疑似敏感微博中进行情绪判断，情绪判断的标准主要依赖于情感词数据库，在本发明中，情感词数据库同样包括：预先设置以及在线学习结果反馈后动态更新，保证能够为准确发现极端情感提供辅助作用。最终结合上述两大步骤，可以得出具有分析研究价值的需要监控的短文本列表。

本发明提供了一种处理流式文本数据的方案，为了加快数据处理速度，不造成数据丢失现象的发生，提升监控程序运行稳定程度。本发明将监控程序从多个层次采取并行化处理，充分利用计算机、分布式数据库、分布式索引的吞吐率，是的计算性能得以提高，监控延时由原来的约30分钟所见到约为5分钟以内。

另外，本发明还能够提供实时的监控的界面，但实时界面因为页面、加载时间等条件限制无法显示过多信息，因此可根据用户设置的时间段生成固定信息项的监控报告，方便用户详细分析获取信息。

综上所述，本发明实施例还具有如下优势：

1.应用自然语言处理相关技术，从语义角度统计分析流式数据，动态设置敏感词数据库，有针对性。

2.采用并行及流水线技术，充分利用计算性能。

3.多属性判定，准确性高，稳定性好。

4.算法多参数可调，可根据需求设置，算法内部耦合性低，可移植性好。

图2为本发明实施例一提供的实时流式文本分级监控装置的结构示意图，如图2所示，本实施例的装置可以包括：第一获取模块210、生成模块220、分词模块230、敏感分析模块240、情感分析模块250和第二获取模块260。

第一获取模块210，用于实时获取流式的短文本；

生成模块220，用于对所述短文本进行数据清洗、数据补齐和数据过滤处理，生成结构化数据；

分词模块230，用于对所述结构化数据进行文本分词处理，获得K个词；所述K为大于0的整数；

敏感分析模块240，用于根据敏感词数据库，对所述K个词进行敏感分析，获得所述短文本的敏感值；

情感分析模块250，用于根据情感词数据库，对所述K个词进行情感分析，获得所述短文本的情感值；

第二获取模块260，用于根据所述敏感值与所述情感值，获得所述短文本所属的用户的监控等级。

本实施例的装置，可以用于执行本发明上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图3为本发明实施例二提供的实时流式文本分级监控装置的结构示意图，如图3所示，本实施例的装置在图2所示装置结构的基础上，进一步地，所述第二获取模块260，包括：第一获取子模块261、第二获取子模块262和第三获取子模块263。

第一获取子模块261，用于根据所述敏感值和所述情感值，获得所述用户的初始监控等级；

第二获取子模块262，用于根据所述用户的历史短文本，获得所述用户的历史监控等级；

第三获取子模块263，用于根据所述用户的初始监控等级和所述历史监控等级，获得所述用户的监控等级。

可选地，所述第二获取模块260，还包括：确定子模块264。

确定子模块264，用于在所述第二获取子模块262根据所述用户的历史短文本，获得所述用户的历史监控等级之前，确定所述用户的初始监控等级大于第一预设监控等级。

可选地，本实施例的装置还包括：标注模块270和语义分析模块280。

所述标注模块270，用于标注所述K个词的词性；

所述语义分析模块280，用于根据所述K个词的词性，对所述K个词进行语义分析；

所述敏感分析模块240，具体用于根据敏感词数据库，对语义分析后的所述K个词进行敏感分析，获得所述短文本的敏感值；

所述情感分析模块250，具体用于根据情感词数据库，对语义分析后的所述K个词进行情感分析，获得所述短文本的情感值。

可选地，所述敏感词数据库包括以下至少一种：网络统计的敏感词、预设的敏感词；

所述情感词数据库包括以下至少一种：网络统计的情感词、预设的情感词。

可选地，本实施例的装置还包括：第三获取模块和添加模块，图中未示出。

第三获取模块，用于当所述用户的监控等级大于第二预设监控等级时，获取所述短文本的M个关键词；所述M为大于0的整数；

添加模块，用于将所述M个关键词分别添加至所述敏感词数据库和所述情感词数据库中。

图4为本发明实施例三提供的实时流式文本分级监控装置的结构示意图，如图4所示，本实施例的装置可以包括：处理器310和存储器320，处理器310与存储器320通信连接，所述存储器320用于存储执行实时流式文本分级监控方法的代码，处理器310用于调用所述存储器320存储的所述代码执行：

实时获取流式的短文本；

可选地，处理器310在根据所述敏感值与所述情感值，获得所述短文本对应的用户的监控等级时，具体用于：

根据所述敏感值和所述情感值，获得所述用户的初始监控等级；

根据所述用户的历史短文本，获得所述用户的历史监控等级；

根据所述用户的初始监控等级和所述历史监控等级，获得所述用户的监控等级。

可选地，处理器310在根据所述用户的历史短文本，获得所述用户的历史监控等级之前，还用于确定所述用户的初始监控等级大于第一预设监控等级。

可选地，处理器310还用于：标注所述K个词的词性；以及根据所述K个词的词性，对所述K个词进行语义分析；

处理器310在根据敏感词数据库，对所述K个词进行敏感分析，获得所述短文本的敏感值时，具体用于：根据敏感词数据库，对语义分析后的所述K个词进行敏感分析，获得所述短文本的敏感值；

处理器310在根据情感词数据库，对所述K个词进行情感分析，获得所述短文本的情感值时，具体用于：根据情感词数据库，对语义分析后的所述K个词进行情感分析，获得所述短文本的情感值。

可选地，处理器310还用于：

当所述用户的监控等级大于第二预设监控等级时，获取所述短文本的M个关键词；所述M为大于0的整数；

将所述M个关键词分别添加至所述敏感词数据库和所述情感词数据库中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：只读内存(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种实时流式文本分级监控方法，其特征在于，包括：

实时获取流式的短文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述敏感值与所述情感值，获得所述短文本对应的用户的监控等级，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述用户的历史短文本，获得所述用户的历史监控等级之前，还包括：

确定所述用户的初始监控等级大于第一预设监控等级。

4.根据权利要求1所述的方法，其特征在于，还包括：

标注所述K个词的词性；

根据所述K个词的词性，对所述K个词进行语义分析；

所述根据敏感词数据库，对所述K个词进行敏感分析，获得所述短文本的敏感值，包括：根据敏感词数据库，对语义分析后的所述K个词进行敏感分析，获得所述短文本的敏感值；

所述根据情感词数据库，对所述K个词进行情感分析，获得所述短文本的情感值，包括：根据情感词数据库，对语义分析后的所述K个词进行情感分析，获得所述短文本的情感值。

5.根据权利要求1所述的方法，其特征在于，所述敏感词数据库包括以下至少一种：网络统计的敏感词、预设的敏感词；

6.根据权利要求5所述的方法，其特征在于，还包括：

7.一种实时流式文本分级监控装置，其特征在于，包括：

第一获取模块，用于实时获取流式的短文本；

8.根据权利要求7所述的装置，其特征在于，所述第二获取模块，包括：

第一获取子模块，用于根据所述敏感值和所述情感值，获得所述用户的初始监控等级；

第二获取子模块，用于根据所述用户的历史短文本，获得所述用户的历史监控等级；

第三获取子模块，用于根据所述用户的初始监控等级和所述历史监控等级，获得所述用户的监控等级。

9.根据权利要求8所述的装置，其特征在于，所述第二获取模块，还包括：

确定子模块，用于在所述第二获取子模块根据所述用户的历史短文本，获得所述用户的历史监控等级之前，确定所述用户的初始监控等级大于第一预设监控等级。

10.根据权利要求7所述的装置，其特征在于，还包括：标注模块和语义分析模块；

所述标注模块，用于标注所述K个词的词性；

所述语义分析模块，用于根据所述K个词的词性，对所述K个词进行语义分析；

所述敏感分析模块，具体用于根据敏感词数据库，对语义分析后的所述K个词进行敏感分析，获得所述短文本的敏感值；

所述情感分析模块，具体用于根据情感词数据库，对语义分析后的所述K个词进行情感分析，获得所述短文本的情感值。