CN104765733B - 一种社交网络事件分析的方法和装置 - Google Patents

一种社交网络事件分析的方法和装置 Download PDF

Info

Publication number
CN104765733B
CN104765733B CN201410002161.4A CN201410002161A CN104765733B CN 104765733 B CN104765733 B CN 104765733B CN 201410002161 A CN201410002161 A CN 201410002161A CN 104765733 B CN104765733 B CN 104765733B
Authority
CN
China
Prior art keywords
social networks
event
text message
social
opinion classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410002161.4A
Other languages
English (en)
Other versions
CN104765733A (zh
Inventor
杨强
宋阳秋
江焯林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410002161.4A priority Critical patent/CN104765733B/zh
Publication of CN104765733A publication Critical patent/CN104765733A/zh
Application granted granted Critical
Publication of CN104765733B publication Critical patent/CN104765733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种社交网络事件分析的方法和装置,其中,所述方法包括:抓取社交网络事件以及与所述社交网络事件相关的文本信息;将所述社交网络事件与历史事件知识库中的数据进行匹配,判断是否为新事件;在所述社交网络事件为新事件时,将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类;使用机器学习方法对所述社交网络事件、所述文本信息以及所述观点分类进行学习。通过上述方式,本申请能够自动识别社会网络新事件的观点分类。

Description

一种社交网络事件分析的方法和装置
技术领域
本申请涉及社交网络技术领域,特别是涉及一种社交网络事件分析的方法和装置。
背景技术
在社交网络中,往往需要对社交网络中出现的新事件进行检测并对该事件的网络舆情进行监控,以避免在社交网络中出现一些危害国家安全或者有碍社会道德的事件。而鉴于目前的社交网络具有信息量大且庞杂、数据高吞吐量以及经常出现新词的特点,通常采用机器对社交网络事件进行自动分析。
现有技术提供一种基于社交群体的情感和观点的识别方法:通过识别关于社交网络事件的评论中的关键词,再对不同的关键词加以不同的权重,最后通过综合统计群体的分数来判断情感和观点。这类方法主要基础是构建一个关键词和情感词的知识库。当出现新的词汇时,需要人工更新该知识库。
从上可知,由于社交网络中每天都会出现很多新词,现有技术提供的方法需要耗费大量的人力去更新该知识库,导致工作效率较低。
发明内容
本申请主要解决的技术问题是提供一种社交网络事件分析的方法和装置,能够自动识别社会网络新事件的观点分类。
为解决上述技术问题,本申请第一方面提供一种社交网络事件分析的方法,包括以下步骤:抓取社交网络事件以及与所述社交网络事件相关的文本信息;将所述社交网络事件与历史事件知识库中的数据进行匹配,判断是否为新事件;在所述社交网络事件为新事件时,将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类;使用机器学习方法对所述社交网络事件、所述文本信息以及所述观点分类进行学习。
结合第一方面,本申请第一方面第一种实施方式为:所述使用机器学习方法对所述社交网络事件、所述文本信息以及所述观点分类进行学习包括:使用机器学习方法将所述社交网络事件更新到所述历史事件知识库中,并将所述文本信息以及所述观点分类更新到所述情感观点分类模型数据库中。
结合第一方面或第一方面的第一种实施方式,本申请第一方面第二种实施方式为:所述将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类的步骤之前包括:确定抓取所述文本信息所在的社交群体,所述社交群体是指具有相同兴趣的人群;对所述社交群体进行分析,获取所述社交群体的情感方向,所述情感方向是指对所述社交网络事件的态度;所述将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类的步骤包括:将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,根据所述匹配的结果和所述情感方向获取描述所述社交网络事件的观点分类。
结合第一方面或第一方面的第一种实施方式或第一方面的第二种实现方式,本申请第一方面第三种实施方式为:所述将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类包括:从所述情感观点分类模型数据库中检索与所述文本信息匹配的分类器;若从所述情感观点分类模型数据库中检索不出与所述文本信息匹配的分类器,则采用迁移学习方法将所述情感观点分类模型数据库中与所述文本信息内容相关的分类器迁移作为与所述文本信息匹配的分类器;根据检索出的与所述文本信息匹配的分类器或者迁移出的分类器,采用第一机器学习方法对所述文本信息进行观点分类,以得到描述所述社交网络事件的观点分类。
结合第一方面的第三种实施方式,本申请第一方面第四种实施方式为:所述第一机器学习方法为贝叶斯模型、支持向量机或逻辑回归方法;所述迁移方法为方差迁移学习方法、基于多任务的学习方法或样本学习方法。
结合第一方面或第一方面的第一至第四任一种实施方式,本申请第一方面第五种实施方式为:所述抓取社交网络事件以及网民就所述社交网络事件所发出的文本信息的步骤包括:抓取社交网络数据,其中,所述社交网络数据包括网民就不同社交网络事件所发出的不同文本信息;采用第二机器学习方法对所述社交网络数据中的每条文本信息按照所描述的社交网络事件进行聚类,获得聚类结果;根据所述聚类结果,抓取所述社交网络事件以及社交网络数据中描述所述社交网络事件的文本信息。
结合第一方面的第五种实施方式,本申请第一方面第六种实施方式为:所述第二机器学习方法为狄利克雷过程、话题检测与追踪、进化聚类或进化话题模型方法。
为了解决上述技术问题,本申请第二方面提供一种社交网络事件分析装置,所述社交网络事件分析装置包括抓取模块、判断模块、分类模块和学习模块,所述抓取模块,用于抓取社交网络事件以及与所述社交网络事件相关的文本信息;所述判断模块,用于将所述抓取模块抓取的社交网络事件与历史事件知识库中的数据进行匹配,判断是否为新事件;所述分类模块,用于在所述判断模块判断所述社交网络事件为新事件时,将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类;所述学习模块,用于使用机器学习方法对所述抓取模块抓取的社交网络事件、所述文本信息以及所述分类模块获取的观点分类进行学习。
结合第二方面,本申请第二方面第一种实施方式为:所述学习模块,具体用于使用机器学习方法将所述抓取模块抓取的社交网络事件更新到所述历史事件知识库中,并将所述抓取模块抓取的文本信息以及所述分类模块获取的观点分类更新到所述情感观点分类模型数据库中。
结合第二方面或第二方面的第一种实施方式,本申请第二方面第二种实施方式为:还包括分析模块,所述分析模块,用于确定所述抓取模块抓取的文本信息所在的社交群体,对所述社交群体进行分析,获取所述社交群体的情感方向,其中,所述社交群体是指具有相同兴趣的人群,所述情感方向是指对所述社交网络事件的态度;所述分类模块,进一步用于在所述判断模块判断所述社交网络事件为新事件时,将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,根据所述匹配的结果和所述分析模块获取的情感方向获取描述所述社交网络事件的观点分类。
结合第二方面或第二方面的第一种实施方式或第二方面的第二种实施方式,本申请第二方面第三种实施方式为:所述分类模块包括检索单元、迁移单元和分类单元,所述检索单元,用于在所述判断模块判断所述社交网络事件为新事件时,从所述情感观点分类模型数据库中检索与所述文本信息匹配的分类器;所述迁移单元,用于在所述检索单元从所述情感观点分类模型数据库中检索不出与所述文本信息匹配的分类器时,采用迁移学习方法将所述情感观点分类模型数据库中与所述文本信息内容相关的新分类器迁移作为与所述文本信息匹配的分类器;所述分类单元,用于根据所述检索单元检索出的与所述文本信息匹配的分类器或者所述迁移单元迁移出的分类器,采用第一机器学习方法对所述文本信息进行观点分类,以得到描述所述社交网络事件的观点分类。
结合第二方面的第三种实施方式,本申请第二方面第四种实施方式为:所述第一机器学习方法为贝叶斯模型、支持向量机或逻辑回归方法;所述迁移方法为方差迁移学习方法、基于多任务的学习方法或样本学习方法。
结合第二方面或第二方面的第一至四任一种实施方式,本申请第二方面第五种实施方式为:所述抓取模块包括抓取单元、聚类单元和获取单元,所述抓取单元,用于抓取社交网络数据,其中,所述社交网络数据包括网民就不同事件所发出的不同文本信息;所述聚类单元,用于采用第二机器学习方法对所述抓取单元抓取的社交网络数据中的每条文本信息按照所描述的事件进行聚类,获得聚类结果;所述获取单元用于根据所述聚类单元的聚类结果,获取所述社交网络事件以及社交网络数据中描述所述社交网络事件的文本信息。
结合第二方面的第五种实施方式,本申请第二方面第六种实施方式为:所述第二机器学习方法为狄利克雷过程、话题检测与追踪、进化聚类或进化话题模型方法
区别与现有技术,本申请能够对作为新事件的社交网络事件进行观点分类,实现自动识别描述新事件的观点,另外,对社交网络事件、及其文本信息、观点分类进行学习,进行知识的不断积累,现随着时间或事件和分类任务的增加,分类效果也会越来越好。
附图说明
图1是本申请社交网络事件分析的方法一实施方式的流程图;
图2是本申请社交网络事件分析的方法另一实施方式的流程图;
图3是本申请社交网络事件分析装置一实施方式的结构示意图;
图4是本申请社交网络事件分析装置另一实施方式的结构示意图;
图5是本申请社交网络事件分析装置再一实施方式的结构示意图。
具体实施方式
下面结合附图和具体的实施方式进行说明。
请参阅图1,图1是本申请社交网络事件分析的方法一实施方式的流程图。本实施方式中,所述方法采用终生机器学习方法对社交网络事件的情感或观点进行分析,其中,终生机器学习是一种能够充分利用历史知识、将知识或模型进行有效迁移的学习方法。它通过对多个任务的关系的判断来找到对新任务有用的旧任务所积累的知识。通过对新任务的快速适应,实现“学习起点更高”,“学习速度更快”和“学习准确度更高”的学习结果。
具体,该社交网络事件分析的方法包括以下步骤:
步骤S101:社交网络事件分析装置抓取社交网络事件与该社交网络事件相关的文本信息。
本实施方式中,社交网络事件分析装置采用并行数据抓取方法和通过各种社交媒体的应用程序编程接口(Application Programming Interface,简称API)抓取社交网络事件与该社交网络事件相关的文本信息。例如,在“青岛爆炸事件”发生后,社交网络事件分析装置抓取网民在微博中对“青岛爆炸事件”所发表或者评论的文字。
步骤S102:社交网络事件分析装置将该社交网络事件与历史事件知识库中的数据进行匹配,判断是否为新事件。
社交网络事件分析装置本地设置有历史事件知识库,或能够调用非本地存储的历史事件知识库,历史事件知识库中包括历史上发生的事件、事件随时间变化的关系、新词检测结果、历史事件的观点分类等数据。
社交网络事件分析装置将抓取的文本信息跟历史事件知识库中的数据进行比对,以检测出文本信息所描述的社交网络事件是否为新事件。例如,该社交网络事件分析装置对抓取的每条文本信息分别进行建模,通过词袋模型(bag-of-word)分别把每条文本信息表示成一组词汇的集合(一般本申请所述词汇为除副词、助词如这、是等之外的对文本信息有贡献的关键词汇),其中,一条文本信息中的每个词汇的频率作为该文本信息中的该词汇的权重,进而把每个文本信息分别表示成以词汇的权重为分量的N维词频向量(N为该文本信息的词汇数),该社交网络事件分析装置将每个词频向量与历史事件知识库中存储的历史事件数据进行比较,获得所述词频向量与历史事件知识库中的历史事件的相似度。具体如,一个文本信息包括四个词汇,其中每个词汇的权重分别为w1、w2、w3、w4,即该文本信息可表示为四维词频向量D(w1,w2,w3,w4)。社交网络事件分析装置从历史事件知识库存储的与历史事件相关的词汇中查找出所述文本信息包括的词汇及所述词汇在描述所述历史事件中的权重,得到每个历史事件形成的四维词频向量H(w5,w6,w7,w8),通过分别计算文本信息形成的四维词频向量D与每个历史事件形成的四维词频向量H之间夹角的余弦值,分别得到该文本信息与每个历史事件的相似度,即所述文本信息与每个历史事件的相关度。若词频向量与历史事件知识库中的某个历史事件相似度大于预设阈值,则所述文本信息所描述的社交网络事件与该某个历史事件匹配,确定所述词频向量对应的文本信息描述的事件为历史事件,如果词频向量与历史事件知识库中的所有历史事件的相似度都小于预设阈值,则所述文本信息所描述的社交网络事件与所有历史事件不匹配,确定所述词频向量对应的文本信息描述的事件为新事件,其中,所述新事件可以为历史上完全没有发生过的事件,或者为历史事件的新任务,如2013年的世俱杯。
步骤S103:社交网络事件分析装置在该社交网络事件为新事件时,将该文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述该社交网络事件的观点分类。
本实施方式中,情感观点分类模型数据库记录着历史上所有的情感和观点分类模型。在社交网络事件不为新事件时,社交网络事件分析装置可直接从情感观点分类模型数据库中检索出最匹配的分类器,实现对事件进行观点分类,该事件包括社交网络事件。
在社交网络事件为新事件时,社交网络事件分析装置根据文本信息的词汇,从情感观点分类模型数据库中获取与所述文本信息匹配的分类器,并根据所述文本信息匹配的分类器得到对所述文本信息的观点分类。例如,社交网络事件分析装置采用终生机器学习方法分别对文本信息和情感观点分类模型数据库中数据建模,通过两个模型“相似度”检索出所述数据库中与所述文本信息匹配的分类器,并根据所述文本信息匹配的分类器得到对所述文本信息的观点分类。
社交网络事件分析装置在得到文本信息的观点分类后,根据所述得到的观点分类即可得到描述所述社交网络事件的观点分类。具体如,社交网络事件分析装置对描述社交网络事件的不同文本信息的观点分类进行综合加权,得到对所述社交网络事件的观点分类。
步骤S104:社交网络事件分析装置使用机器学习方法对该社交网络事件、该文本信息以及该观点分类进行学习。
在完成对社交网络事件的观点分类后,社交网络事件分析装置使用机器学习方法对该社交网络事件、该文本信息以及该观点分类进行学习,如使用终生机器学习方法将社交网络事件更新到历史事件知识库,将该社交网络事件对应的文本信息以及观点分类更新到情感观点分类模型数据库中,以通过知识的不断积累、更新和纠错形成永不停止的终生学习,实现随着时间或事件和分类任务的增加,分类效果也越来越好。
本实施方式采用终生机器学习方法对作为新事件的社交网络事件进行观点分类,由于终生机器学习方法能够充分利用历史知识和将知识进行有效迁移得到新知识的特点,使得本申请能够准确识别描述新事件的观点,另外,本实施方式对社交网络事件、及其文本信息、观点分类进行学习,通过知识的不断积累、更新和纠错,现随着时间或事件和分类任务的增加,分类效果也越来越好。
请参阅图2,图2是本申请社交网络事件分析的方法另一实施方式的流程图。本实施方式中,所述方法包括以下步骤:
步骤S201:社交网络事件分析装置抓取社交网络数据,其中,社交网络数据包括网民就不同事件所发出的不同文本信息。
本实施方式中,社交网络事件分析装置采用并行数据抓取方法和各种社交媒体的API对社交网络数据进行抓取。其中,社交网络数据包括网民就不同事件所发表、转发、评论的不同文本信息,进一步的,本实施方式社交网络数据还包括发出所述文本信息的网民间的关系图。
可选地,在完成社交网络数据的抓取后,社交网络事件分析装置对社交网络数据进行存储并建立索引,以便于后续快速获取所述社交网络事件。例如,社交网络事件分析装置将抓取的数据保存在数据库中,并且判断所述数据的数据类型,如果判断数据类型包括文本数据,则对文本数据部分使用lucene进行索引,如果判断数据类型包括社交关系图数据,则对社交关系图数据部分使用neo4j或mongodb等nonsql数据库索引,如果判断数据类型包括元数据,则对元数据部分使用mysql等传统关系数据库进行索引。
步骤S202:社交网络事件分析装置采用第二机器学习方法对社交网络数据中的每条文本信息按照所描述的社交网络事件进行聚类,获得聚类结果。
社交网络事件分析装置根据历史事件知识库中的数据,对抓取的社交网络数据中的每条文本信息进行自动聚类,而且对于与历史事件知识库中的所有历史事件不相关的文本信息(即属于新类)同样能够根据文本信息的词汇进行新类聚类,其中,所述聚类的不同类别以所描述的社交网络事件作为区分,以实现对每条文本信息按照所描述的社交网络事件进行聚类。具体地,社交网络事件分析装置采用第二机器学习方法实现自动聚类,并发现新类,其中,所述第二机器学习方法包括但不限为狄利克雷过程(Dirichlet Process)、话题检测与追踪(Topic Detection And Tracking,简称TDT)、进化聚类(EvolutionaryClustering)或进化话题模型(Evolutionary Topic Modeling)方法。
例如,社交网络事件分析装置采用Dirichlet Process方法对词频组成的向量进行建模,先得到社交网络数据中每条文本信息的词频向量,社交网络事件分析装置根据历史事件知识库中的知识对每条文本信息的词频向量进行概率建模,把确定聚类的个数的问题转化成调整Dirichlet Process的参数问题,从而确定出每条文本信息所描述的事件,并按照所描述的事件进行聚类。当然,社交网络事件分析装置也可采用Dirichlet Process方法对词的分布进行建模,以实现聚类。进一步地,所述社交网络事件分析装置还可采用图切割的方法实现聚类,即把样本和样本间建立相似度,使用图切割的方法把权重较低的边去掉,得到一个个的子图,形成聚类。
步骤S203:社交网络事件分析装置根据该聚类结果,抓取该社交网络事件以及该社交网络数据中描述该社交网络事件的文本信息。
在对抓取的社交网络数据中的每条文本信息进行聚类后,在不同文本信息所属的不同聚类中,抓取一个聚类,以得到社交网络中的一个事件以及描述所述事件的所有文本信息,作为该社交网络事件及与该社交网络事件有关的文本信息。
步骤S204:社交网络事件分析装置将该社交网络事件与历史事件知识库中的数据进行匹配,判断是否为新事件。
社交网络事件分析装置对抓取的每条文本信息分别进行建模,得到每条文本信息中的词频向量,将每个词频向量与历史事件知识库中存储的历史事件数据进行比较,获得所述向量与历史事件知识库中的历史事件的相似度。若词频向量与历史事件知识库中的历史事件相似度大于预设阈值,则该文本信息所描述的社交网络事件与所述历史事件匹配,确定所述词频向量对应的文本信息描述的事件为历史事件,如果词频向量与历史事件知识库中的所有历史事件的相似度都小于预设阈值,则所述文本信息所描述的社交网络事件与所有历史事件不匹配,确定所述词频向量对应的文本信息描述的事件为新事件。
需要说明的是,本申请对是否为新事件的具体判定方法并不限定为上述例子,在其他实施方式中,社交网络事件分析装置可通过与历史事件知识库中的词汇表比对,如果确定文本信息中出现的新词汇,则确定所述文本信息描述的事件为新事件或历史事件的新任务,故在此不作限定。
步骤S205:社交网络事件分析装置在该社交网络事件为新事件时,确定抓取文本信息所在的社交群体,该社交群体是指具有相同兴趣的人群。
本实施方式中,在抓取关于该社交网络事件的相关文本信息的同时,还抓取了发出该文本信息的网民间的关系图,社交网络事件分析装置根据该关系图对抓取的文本信息进行社区分析,确定文本信息所在的社交群体。社区分析则是通过对发出文本信息的社交网络用户的链接、兴趣(hashtag)、发表内容进行分析,定义一系列相似度,然后对社交网络的图进行切割,形成一系列可以有重叠的子图,这些子图即可用来描述不同社交群体(也可称为不同社区),根据这些子图即可确定文本信息所在的社交群体。例如,社交网络事件分析装置根据所述关系图对发表抓取的文本信息的用户进行聚类,通过用户之间的转载、评论,刻画出用户间的距离,通过图的切割得到子图,其中每个子图则形成一个社交群体。
由于,社交群体即是描述具有相同兴趣的人群,他们使用的词是有一定共性的,故可利用所在社交群体来帮助消歧。例如,在某个社交群体中NIPS代表了一个著名的国际会议(Neural Information Processing Systems),而在另外的社交群体可能代表了一个网络入侵保护系统(Network Intrusion-Prevention System)。
步骤S206:社交网络事件分析装置对所述社交群体进行分析,获取所述社交群体的情感方向,所述情感方向是指对所述社交网络事件的态度。
社交网络事件分析装置确定文本信息所在的社交群体后,对社交群体发表的信息及相关链接等进行分析,得到社交群体的情感方向。例如,社交网络事件分析装置确定文本信息所在社交群体后,根据对该社交群体中的用户就该社交网络事件发表的内容进行统计分析:所述社交群体中有80%的用户对该社交网络事件表示出支持态度,10%的用户对该社交网络事件表示出中立,10%的用户对该社交网络事件表示出反对,则得到该社交群体就社交网络事件的情感方向为正面支持的。
进一步地,在其他更优化实施方式中,可在本实施方式的基础上,在步骤S203之前执行步骤S204、S205,在执行步骤S203时,结合文本信息所在社交群体判断是否为新事件,当描述该社交网络事件的文本信息所在的社交群体均为新社区,且文本信息的词频向量与历史事件知识库中的所有历史事件的相似度都小于预设阈值,则确定所述文本信息描述的事件为新事件。
步骤S207:社交网络事件分析装置从情感观点分类模型数据库中检索与文本信息匹配的分类器。
具体地,在判断该社交网络事件为新事件时,社交网络事件分析装置首先通过人手工标注少量样本,然后通过自然语言处理技术对描述同一事件的每个文本信息进行分词,进而把文本表示成词频的向量、或关键词词频-逆向文本频率(Term Frequency-Inverse Document Frequency,简称TF-IDF)向量。由于历史事件已经被存储和索引在情感观点分类模型数据库中,社交网络事件分析装置可以有效地检索和对比当前任务和历史任务的相关性或相似度(如分类文本内容、分类边界、所在社区相似性等),将相关性或相似度大于预设阈值的分类器检索出来,则检索出与文本信息匹配的分类器。
步骤S208:若从情感观点分类模型数据库中检索不出与文本信息匹配的分类器,则社交网络事件分析装置采用迁移学习方法将情感观点分类模型数据库中与文本信息内容相关的分类器迁移作为与所述文本信息匹配的分类器。
如果从情感观点分类模型数据库中检测不到与文本信息匹配的分类器,即当前任务与历史任务的相关性较低,社交网络事件分析装置则将检索出的分类器通过和当前任务进行集成学习或者迁移学习(Fransfer Learning),让当前任务找到有用的历史知识,将相关的历史分类器迁移到新的样本上进行分类,从而可以提高新的分类器的初始学习结果和最终分类准确度,使当前学习任务学习起点更高,收敛速度更快,学习结果更优。具体如,一个文本信息包括四个词汇D(漏油、爆炸、污染、伤亡),其中每个词汇的权重分别为w1、w2、w3、w4,即该文本信息可表示为四维词频向量D(w1,w2,w3,w4)。社交网络事件分析装置从历史事件知识库存储的与历史事件相关的词汇中分别查找出与D中至少一个词相同的向量H,且相同的词的权重相差较小(例如D中的该相同词的权重为25,那么H中的该相同词的权重可在20至30之间),然后进行聚类,例如相同词汇为爆炸,那么聚类获取的的情感观点可能就是悲伤,将获取的多个向量H进行组合,获取可以表达D的四维向量,从而实现迁移学习。其中,集成学习方法即对历史事件进行加权投票。迁移学习方法包括但不限为方差迁移(Covariance Shift)学习方法、基于多任务的学习方法或样本(Tradaboost)学习方法。
步骤S209:社交网络事件分析装置根据所述社交群体的情感方向和检索出的与文本信息匹配的分类器或者迁移出的分类器,采用第一机器学习方法对文本信息进行观点分类,以得到描述社交网络事件的观点分类。
如果步骤S207中检索出相关性或相似度大于预设阈值的分类器,则根据所述分类器和步骤S206所获得的社交群体的情感方向分析出描述该社交网络事件的每个文本信息的观点分类,进行得到描述该社交网络事件的观点分类。
如果步骤S207中检索不出相关性大于预设阈值的分类器,则根据步骤S208迁移得到的分类器和步骤S206所获得的社交群体的情感方向分析出描述社交网络事件的每个文本信息的观点分类,进行得到描述社交网络事件的观点分类。
具体,社交网络事件分析装置根据采用第一机器学习方法对描述社交网络事件的每个文本信息的进行观点分类。其中,第一机器学习方法为但不限为贝叶斯模型(BayesianModel),支持向量机(Support Vector Machine),逻辑回归(Logistic Regression)。例如,社交网络事件分析装置确定每个文本信息匹配的分类器后,从相应的分类器中得到每个文本信息的标注,其中不同的标注表示不同的分类,社交网络事件分析装置根据每个文本信息的标注和所在社交群体的情感方向采用第一机器学习方法确定每个文本信息的观点得分,以实现分类,具体如社交网络事件分析装置获得文本信息的标注为支持性的标注,且所述文本信息所在的社交群体的情感方向也是支持的,则采用第一机器学习方法确定该文本信息的观点得分为较高的支持性得分。当然,在其他实施方式中,可不执行步骤S205和S206,社交网络事件分析装置直接根据分类器,采用第一机器学习方法确定每个文本信息的观点分类情况。
社交网络事件分析装置在对描述该社交网络事件的不同文本信息的观点分类情况进行综合加权,得到对所述事件的综合评价。例如,社交网络事件分析装置对抓取到一个社交网络中的多条评论,执行步骤S202-S203抓取出三条评论描述的是“青岛爆炸事件”相关事件,执行步骤S204-209实现对三天评论的观点分类为:第一评论的得分是-0.8,第二评论的得分是-0.6,第三评论预测为-0.9,使用根据预设加权算法,对三条评论的观点类别分别进行加权,得到社交网络中对所述社交网络事件的综合情感观点得分,即得到社交网络对该社交网络事件的综合观点评价。本实施方式中,对当前社交网络事件的评估可以通过事后标注的交叉检验结果与在线算法的准确率来评价。
步骤S210:社交网络事件分析装置使用机器学习方法将所述社交网络事件更新到历史事件知识库中,并将文本信息以及观点分类更新到情感观点分类模型数据库中。
本实施方式中,社交网络事件分析装置使用机器学习方法将所述社交网络事件更新到所述历史事件知识库中,具体,如果社交网络事件是新事件,则在历史事件知识库中添加该事件,所述事件包括描述该事件的文本信息和观点标注如描述该事件的关键词词频、关键词情感倾向权重事件数据中。进一步地,如果社交网络事件分析装置检测到文本信息中出现新词(例如采用Dirichlet Process方法检测到新词)时,则将检测到的新词更新到历史事件知识库的新词检测结果中。
社交网络事件分析装置还将抓取的文本信息以及所述观点分类更新到情感观点分类模型数据库中的对应分类器数据中,具体如文本信息中每个词汇在不同事件中的频率、该文本信息及每个词汇的情感倾向分析结果等,若文本信息匹配的为新分类器,则在情感观点分类模型数据库中添加所述新分类器模型,再将抓取的文本信息以及观点分类更新到所述情感观点分类模型数据库中所述新分类器数据中。
进一步地,如果社交网络事件为历史事件,社交网络事件分析装置则将描述该社交网络事件的文本信息和观点标注如描述该事件的关键词词频、关键词情感倾向权重等更新到对应的历史事件数据中,并将抓取的文本信息中每个词汇在不同事件中的频率、该文本信息及每个词汇的情感倾向分析结果更新到情感观点分类模型数据库的分类器数据中。通过对历史事件的更新,以增强对该历史事件的学习。本实施方式中,对历史事件的分类模型更新,可以使用交叉检验的方法来评估分类模型是否有效。
本实施方式每作一次社交网络事件分析,则对历史事件知识库和情感观点分类模型数据库进行更新,实现随着时间或事件和分类任务的增加,事件检测越来越准确,且分类效果也越来越好。
本实施方式中,所述方法采用终生机器学习方法主要实现三大功能:(1)通过自动聚类,发现新类的方法,将文本信息进行按照描述的事件进行聚类,且通过与历史事件比对得到新事件。对于新分类任务,它使用集成学习或者迁移学习的方法将历史上的分类器迁移到新的样本上得到与文本信息匹配的新分类器。(2)更新历史事件知识库。所述社交网络事件分析装置还不停积累对互联网社交媒体和社交网络中词汇特别是新词的应用,对文本信息中的词汇进行词聚类并发现新类,其中,可以对新词进行标注,如使用共现词作为标签。另外还可以对文本信息中的词汇进行的情感倾向分析,从而将描述所述事件的词汇、词汇的情感倾向权重的事件数据更新到历史事件知识库。(3)更新情感观点分类模型数据库。在对新的分类器进行学习以后,在数据库中添加新分类器模型,还可以更新历史上的分类器模型,实现所有分类模型都越来越好的效果。更新可以使用在线学习的方法,或者迁移学习的方法,对模型的参数进行调整。需要说明的是,本申请方法并不限定为使用终生机器学习方法仅实现对新模型的迁移、对历史模型的更新、对新词的发现,还可使用终生机器学习方法实现其他功能。
本实施方式采用终生机器学习方法,将每个事件看成一个新的任务,对不同的任务引入全局学习模型和个性化任务配置。终生学习对应一套学习系统,不仅仅是一个学习算法,它通过协调多个学习模型,通过筛选、配置、组合、优化等一系列手段为新的学习任务提供最大的便利,能够准确识别社交网络事件的情感或观点分类。另外,它还可以根据新学习到的知识更新老的模型,从而实现每个模型都在不停更新、优化,永不停止的学习,使得社交网络事件的检测和分类随着时间和事件检测的数量越来越准确。而且,本实施方式只需在开始时手工标注少量样本,通过终生机器学习方法不断的学习,实现对新词的情感或观点的自动分类标注,进而实现了无需手动标注太多标注,对社交网络数据的自动或半自动。
为更好说明本申请,具体举例说明,关于微博上对青岛爆炸事件的舆情监控:
1、社交网络事件分析装置抓取微博中“青岛爆炸事件”及其文本信息:
微博1:“【青岛爆炸事件最不可原谅的环节】为什么没有考虑到漏油可能引起爆炸?而是立马修理油漏,而没有采取措施,防止爆炸发生?本次事件,是因为3时到10时的7个小时间隔,没有人考虑到漏油漏气而产生的油气混合物,会引起激烈的爆炸。如果有人和部门启动安全应急机制,本次爆炸有可能不会发生。”
微博2:“青岛爆炸事件其实很简单;如果先疏散了,又没爆炸,屁民都没事,那领盗不是狠没面子吗?你说,是代表了五千年古国的领盗的面子重要,还是几十条贱命重要?[弱]”
微博3:“个人认为:安全意识低下是造成青岛爆炸事件的主观意因素,多部门没有统一的沟通和监管也是很大的诟病”
2、社交网络事件分析装置在相关微博的发表者中的用户进行聚类,通过用户之间的转载、评论在刻画用户之间的距离,通过图的切割得到子图,形成社区。
3、社交网络事件分析装置对微博数据进行自动聚类并发现新类,通过与历史事件知识库中的数据比对,检测是否有新关键词的出现,并通过是否有新关键词的出现和以及新社区的形成(新的用户组织成的子图)来判断是否有新事件出现,如果检测到有新关键词和新社区,则确定该微博数据描述为新事件。
4、社交网络事件分析装置首先查询历史事件知识库中的历史事件,例如“爆炸”相关的事件、“漏油”相关的事件,找到相应的含有情感类别的关键词,如“诟病”、“不可原谅”等等。使用情感观点分类模型数据库中相关分类器得到所述关键词的情感观点标注,来对新事件中相对较为确定的微博进行标注,例如微博3标注为-0.8。
而对于新事件中不确定的微博(即情感观点分类模型数据库中的分类器无法得到关键词的情感观点标注),如微博1和微博2,则使用监督、半监督、和自学习等学习方法得到新分类,进而进行标注。在情感观点分类模型数据库中,可通过选择与该微博相关的历史事件,并继承最相关的历史事件的情感观点分类模型或用多个较相关的历史事件的情感观点分类模型投票的方法进行增强,例如:使用集成学习的方法对历史事件进行加权投票;使用迁移学习来对新事件的模型进行建模,以获得新事件中该微博的情感观点分类,即得到新事件中该微博的标注。
5、对微博1、2、3的标注进行综合加权,实现对新事件进行综合评估。
6、使用终生机器学习模块更新历史事件知识库:使用终生学习选择新事件中的关键词、关键情感词,如历史事件的进行比对,增加数据库的知识和统计数字,例如“屁民”和“领盗”等。
7.使用终生机器学习模块更新情感观点分类模型数据库:对历史事件和任务的模型进行更新,通过新事件的反馈结果来更新历史事件,可以使用在线学习的更新方法。
请参阅图3,图3是本申请社交网络事件分析装置一实施方式的结构示意图。本实施方式中,所述社交网络事件分析装置包括抓取模块310、判断模块320、分类模块330和学习模块340。进一步具体地,所述社交网络事件分析装置本地还包括历史事件知识库350和情感观点分类模型数据库360,所述社交网络事件分析装置采用终生机器学习方法对社交网络事件的观点进行分析。
抓取模块310用于抓取社交网络事件与所述社交网络事件相关的文本信息。
本实施方式中,抓取模块310采用并行数据抓取方法和各种社交媒体的应用程序编程接口(Application Programming Interface,简称API)抓取社交网络事件与所述社交网络事件相关的文本信息。例如,在“青岛爆炸事件”发生后,抓取模块310抓取网民在微博中对“青岛爆炸事件”所发表或者评论的文字。
判断模块320用于将所述抓取模块310抓取的社交网络事件与历史事件知识库350中的数据进行匹配,判断是否为新事件。
本实施方式中,所述历史事件知识库350中包括历史上发生的事件、事件随时间变化的关系、新词检测结果、历史事件的观点分类等数据。
判断模块320将抓取的文本信息跟历史事件知识库350中的数据进行比对,以检测出文本信息所描述的所述社交网络事件是否为新事件。例如,判断模块320对抓取的每条文本信息分别进行建模,通过词袋模型(bag-of-word)分别把每条文本信息表示成一组词汇的集合,其中,一条文本信息中的每个词汇的频率作为该文本信息中的该词汇的权重,进而把每个文本信息分别表示成以词汇的权重为分量的N维词频向量(N为该文本信息的词汇数),判断模块320将每个词频向量与历史事件知识库350中存储的历史事件数据进行比较,获得所述词频向量与历史事件知识库350中的历史事件的相似度。具体如,一个文本信息包括四个词汇,其中每个词汇的权重分别为w1、w2、w3、w4,即该文本信息可表示为四维词频向量D(w1,w2,w3,w4)。判断模块320从历史事件知识库350存储的与历史事件相关的词汇中查找出所述文本信息包括的词汇及所述词汇在描述所述历史事件中的权重,得到每个历史事件形成的四维词频向量H(w5,w6,w7,w8),通过分别计算文本信息形成的四维词频向量D与每个历史事件形成的四维词频向量H之间夹角的余弦值,分别得到该文本信息与每个历史事件的相似度,即所述文本信息与每个历史事件的相关度。若词频向量与历史事件知识库350中的某个历史事件相似度大于预设阈值,则所述文本信息所描述的社交网络事件与所述历史事件匹配,确定所述词频向量对应的文本信息描述的事件为历史事件,如果词频向量与历史事件知识库350中的所有历史事件的相似度都小于预设阈值,则所述文本信息所描述的社交网络事件与所有历史事件不匹配,确定所述词频向量对应的文本信息描述的事件为新事件,其中,所述新事件可以为历史上完全没有发生过的事件,或者为历史事件的新任务,如2013年的世俱杯。
分类模块330用于在判断模块320判断社交网络事件为新事件时,将文本信息中的词汇与情感观点分类模型数据库360中的数据进行匹配,获取描述社交网络事件的观点分类。
本实施方式中,情感观点分类模型数据库360记录着历史上所有的情感和观点分类模型。在社交网络事件不为新事件时,分类模块330可直接从情感观点分类模型数据库360中检索出最匹配的分类器,实现对事件进行观点分类。
在社交网络事件为新事件时,分类模块330根据文本信息的词汇,从情感观点分类模型数据库360中匹配出与文本信息匹配的分类器,并根据文本信息匹配的分类器得到对文本信息的观点分类。例如,分类模块330采用终生机器学习方法分别对文本信息和情感观点分类模型数据库360中数据建模,通过两个模型“相似度”检索出情感观点分类模型数据库360中与所述文本信息匹配的分类器,并根据所述文本信息匹配的分类器得到对所述文本信息的观点分类。
分类模块330在得到文本信息的观点分类后,根据得到的观点分类情况即可得到描述社交网络事件的观点分类。具体如,分类模块330对描述社交网络事件的不同文本信息的观点分类进行综合加权,得到对所述社交网络事件的观点分类。
学习模块340用于使用机器学习方法对抓取模块310抓取的社交网络事件、文本信息以及分类模块330获取的观点分类进行学习。
在完成对社交网络事件的观点分类后,学习模块340使用机器学习方法对社交网络事件、文本信息以及观点分类进行学习,如使用终生机器学习方法将社交网络事件、文本信息以及观点分类更新到历史事件知识库350和情感观点分类模型数据库360中,以通过知识的不断积累、更新和纠错形成永不停止的终生学习,实现随着时间或事件和分类任务的增加,分类效果也越来越好。
本实施方式采用终生机器学习方法对作为新事件的社交网络事件进行观点分类,由于终生机器学习方法能够充分利用历史知识和将知识进行有效迁移得到新知识的特点,使得本申请能够准确识别描述新事件的观点,另外,本实施方式对社交网络事件、及其文本信息、观点分类进行学习,通过知识的不断积累、更新和纠错,现随着时间或事件和分类任务的增加,分类效果也越来越好。
请参阅图4,图4是本申请社交网络事件分析装置另一实施方式的结构示意图。本实施方式中,方法采用终生机器学习方法对社交网络对事件的观点进行分析,社交网络事件分析装置包括抓取模块410、判断模块420、分类模块430、学习模块440和分析模块470,其中,抓取模块410包括抓取单元411、聚类单元412和获取单元413,分类模块430包括检索单元431、迁移单元432和分类单元433。同理于,装置本地还包括历史事件知识库450和情感观点分类模型数据库460。
抓取单元411用于抓取社交网络数据,其中,社交网络数据包括网民就不同社交网络事件所发出的不同文本信息。本实施方式中,抓取单元411采用并行数据抓取方法和各种社交媒体的API对社交网络数据进行抓取。其中,社交网络数据包括网民就不同事件所发表、转发、评论的不同文本信息,进一步的,本实施方式社交网络数据还包括发出文本信息的网民间的关系图。
可选地,在完成社交网络数据的抓取后,抓取单元411对社交网络数据进行存储并建立索引,以便于后续快速获取社交网络事件。例如,装置将抓取的数据保存在数据库中,并且判断数据的数据类型,如果判断数据类型包括文本数据,则对文本数据部分使用lucene进行索引,如果判断数据类型包括社交关系图数据,则对社交关系图数据部分使用neo4j或mongodb等nonsql数据库索引,如果断数据类型包括元数据,则对元数据部分使用mysql等传统关系数据库进行索引。
聚类单元412用于采用第二机器学习方法对抓取单元411抓取的社交网络数据中的每条文本信息按照所描述的社交网络事件进行聚类,获得聚类结果。
聚类单元412根据历史事件知识库450中的知识,对抓取的社交网络数据中的每条文本信息进行自动聚类,而且对于与所述历史事件知识库中的所有历史事件不相关的文本信息(即属于新类)同样能够根据文本信息的词汇进行新类聚类,其中,所述聚类的不同类别以所描述的社交网络事件作为区分,以实现对每条文本信息按照所描述的社交网络事件进行聚类。具体地,聚类单元412采用第二机器学习方法实现自动聚类,并发现新类,其中,第二机器学习方法为但不限为狄利克雷过程(Dirichlet Process)、话题检测与追踪(Topic Detection And Tracking,简称TDT)、进化聚类(Evolutionary Clustering)或进化话题模型(Evolutionary Topic Modeling)方法。
例如,聚类单元412采用Dirichlet Process方法对词频组成的向量进行建模,先得到社交网络数据中每条文本信息的词频向量,聚类单元412根据历史事件知识库450中的知识对每条文本信息的词频向量进行概率建模,把确定聚类的个数的问题转化成调整Dirichlet Process的参数问题,从而确定出每条文本信息所描述的事件,并按照所描述的事件进行聚类。当然,聚类单元412也可采用Dirichlet Process方法对词的分布进行建模,以实现聚类。进一步地,聚类单元412还可采用图切割的方法实现聚类,即把样本和样本间建立相似度,使用图切割的方法把权重较低的边去掉,得到一个个的子图,形成聚类。
获取单元413用于根据聚类单元412的聚类结果,抓取所述社交网络事件以及社交网络数据中描述社交网络事件的文本信息。
在聚类单元412对抓取的社交网络数据中的每条文本信息进行聚类后,获取单元413在不同文本信息所属的不同聚类中,抓取一个聚类,以得到社交网络中的一个事件以及描述所述事件的所有文本信息,作为所述社交网络事件和与所述社交网络事件有关的文本信息。
判断模块420用于将获取单元413获取的社交网络事件与历史事件知识库450中的数据进行匹配,判断是否为新事件。
判断模块420对抓取的每条文本信息分别进行建模,得到每条文本信息中的词频向量,将每个词频向量与历史事件知识库450中存储的历史事件数据进行比较,获得所述向量与历史事件知识库450中的历史事件的相似度。在词频向量与历史事件知识库450中的历史事件相似度大于预设阈值时,文本信息所描述的社交网络事件与历史事件匹配,确定词频向量对应的文本信息描述的事件为历史事件,在词频向量与历史事件知识库450中的所有历史事件的相似度都小于预设阈值时,文本信息所描述的社交网络事件与所有历史事件不匹配,确定词频向量对应的文本信息描述的事件为新事件。
需要说明的是,本申请对是否为新事件的具体判定方法并不限定为上述例子,在其他实施方式中,判断模块可通过与历史事件知识库中的词汇表比对,如果确定文本信息中出现的新关键词,则确定文本信息描述的事件为新事件或历史事件的新任务,故在此不作限定。
分析模块470用于确定获取单元413抓取的文本信息所在的社交群体,对社交群体进行分析,获取社交群体的情感方向,其中,所述社交群体是指具有相同兴趣的人群,情感方向是指对所述社交网络事件的态度。
本实施方式中,抓取单元411抓取的社交网络数据还包括发出文本信息的网民间的关系图,分析模块470根据关系图对获取单元413抓取的文本信息进行社区分析,确定文本信息所在的社交群体。社区分析则是通过对发出文本信息的社交网络用户的链接、兴趣(hashtag)、发表内容进行分析,定义一系列相似度,然后对社交网络的图进行切割,形成一系列可以有重叠的子图,这些子图即可用来描述不同社交群体(也可称为不同社区),根据这些子图即可确定文本信息所在的社交群体。例如,分析模块470根据关系图对发表抓取的文本信息的用户进行聚类,通过用户之间的转载、评论,刻画出用户间的距离,通过图的切割得到子图,其中每个子图则形成一个社交群体。
由于,社交群体即是描述具有相同兴趣的人群,他们使用的词是有一定共性的,故可利用所在社交群体来帮助消歧。例如,在某个社交群体中NIPS代表了一个著名的国际会议(Neural Information Processing Systems),而在另外的社交群体可能代表了一个网络入侵保护系统(Network Intrusion-Prevention System)。
分析模块470确定文本信息所在的社交群体后,对社交群体发表的信息及相关链接等进行分析,得到社交群体的情感方向。例如,分析模块470通过社区分析确定文本信息所在社交群体后,根据对该社交群体中的用户就该社交网络事件发表的内容进行统计分析:所述社交群体中有80%的用户对该社交网络事件表示出支持态度,10%的用户对该社交网络事件表示出中立,10%的用户对该社交网络事件表示出反对,则得到该社交群体就社交网络事件的情感方向为正面支持的。
进一步地,在其他更优化实施方式中,可在本实施方式的基础上,判断模块进一步用于结合文本信息所在社交群体判断是否为新事件,当描述该社交网络事件的文本信息所在的社区均为新社交群体,且文本信息的词频向量与历史事件知识库450中的所有历史事件的相似度都小于预设阈值时,判断模块确定文本信息描述的事件为新事件。
检索单元431用于在判断模块420判断社交网络事件为新事件时,从情感观点分类模型数据库460中检索与获取单元413获取的文本信息匹配的分类器。
具体地,在判断模块420判断社交网络事件为新事件时,检索单元431首先通过人手工标注少量样本,然后在抓取文本信息后,通过自然语言处理技术对描述同一事件的每个文本信息进行分词,进而把文本表示成词频的向量、或关键词词频-逆向文本频率(TermFrequency-Inverse Document Frequency,简称TF-IDF)向量。由于历史事件已经被存储和索引在情感观点分类模型数据库460中,检索单元431可以有效地检索和对比当前任务和历史任务的相关性(如分类文本内容、分类边界、所在社区相似性等),将相关性大于预设阈值的分类器检索出来,则检索出与文本信息匹配的分类器。
迁移单元432用于在检索单元431从所述情感观点分类模型数据库中检索不出与文本信息匹配的分类器时,采用迁移学习方法将情感观点分类模型数据库460中与文本信息内容相关的分类器迁移作为与文本信息匹配的分类器。
在检索单元431从所述情感观点分类模型数据库中检测不到与文本信息匹配的分类器,即当前任务与历史任务的相关性较低时,迁移单元432将检索出的分类器通过和当前任务进行集成学习或者迁移学习(Fransfer Learning),让当前任务找到有用的历史知识,将相关的历史分类器迁移到新的样本上进行分类,从而可以提高新的分类器的初始学习结果和最终分类准确度,使当前学习任务学习起点更高,收敛速度更快,学习结果更优。
其中,集成学习方法即对历史事件进行加权投票。迁移学习方法为但不限为方差迁移(Covariance Shift)学习方法、基于多任务的学习方法或样本(Tradaboost)学习方法。
分类单元433用于根据分析模块470获取的社交群体的情感方向和检索单元431检索出的与文本信息匹配的分类器或者迁移单元432迁移出的分类器,采用第一机器学习方法对文本信息进行观点分类,以得到描述社交网络事件的观点分类。
在检索单元431检索出相关性大于预设阈值的分类器时,分类单元433根据分类器和分析模块470所获得的社交群体的情感方向分析出描述社交网络事件的每个文本信息的观点分类,进行得到描述社交网络事件的观点分类。
在检索单元431检索不出相关性大于预设阈值的分类器,分类单元433根据迁移单元432迁移得到的分类器和分析模块470所获得的社交群体的情感方向分析出描述社交网络事件的每个文本信息的观点分类,进行得到描述社交网络事件的观点分类。
具体,分类单元433根据采用第一机器学习方法对描述社交网络事件的每个文本信息的进行观点分类。其中,第一机器学习方法为但不限为贝叶斯模型(Bayesian Model),支持向量机(Support Vector Machine),逻辑回归(Logistic Regression)。例如,分类单元433确定每个文本信息匹配的分类器后,从相应的分类器中得到每个文本信息的标注,其中不同的标注表示不同的分类,装置根据每个文本信息的标注和所在社交群体的情感方向采用第一机器学习方法确定每个文本信息的观点得分,以实现分类。当然,在其他实施方式中,装置也可不包括社区分析模块,分类单元直接根据分类器,采用第一机器学习方法确定每个文本信息的观点分类情况。
分类单元433在对描述事件的不同文本信息的观点分类情况进行综合加权,得到群体对事件的综合评价。例如,装置对抓取到一个社交网络中的多条评论,在抓取出三条评论描述的是“青岛爆炸事件”相关事件,并实现对三天评论的观点分类为:第一评论的得分是-0.8,第二评论的得分是-0.6,第三评论预测为-0.9后,分类单元433使用根据预设加权算法,对三条评论的观点类别分别进行加权,得到社交网络对所述社交网络事件的综合情感观点得分,即得到社交网络对所述社交网络事件的综合观点评价。本实施方式中,对当前社交网络事件的评估可以通过事后标注的交叉检验结果与在线算法的准确率来评价。
学习模块440用于使用机器学习方法将抓取单元411抓取的社交网络事件更新到历史事件知识库450中,并将抓取单元411抓取的文本信息以及分类单元433获取的观点分类更新到情感观点分类模型数据库460中。
本实施方式中,学习模块440使用机器学习方法将社交网络事件更新到历史事件知识库450中,具体,在社交网络事件是新事件时,学习模块440在历史事件知识库450中添加该事件,事件包括描述该事件的文本信息和观点标注如描述该事件的关键词词频、关键词情感倾向权重事件件数据中。进一步地,在装置检测到文本信息中出现新词(例如采用Dirichlet Process方法检测到新词)时,学习模块440将检测到的新词更新到历史事件知识库450的新词检测结果中。
学习模块440还将抓取的文本信息以及观点分类更新到情感观点分类模型数据库460中的对应分类器数据中,具体如文本信息中每个词汇在不同事件中的频率、该文本信息及每个词汇的情感倾向分析结果等,若文本信息匹配的为新分类器,则在情感观点分类模型数据库460中添加新分类器模型,再将抓取的文本信息以及观点分类更新到情感观点分类模型数据库460中新分类器数据中。
进一步地,在社交网络事件为历史事件时,学习模块440将描述该事件的文本信息和观点标注如描述该事件的关键词词频、关键词情感倾向权重等更新到对应的历史事件数据中,并将抓取的文本信息中每个词汇在不同事件中的频率、该文本信息及每个词汇的情感倾向分析结果更新到情感观点分类模型数据库460的分类器数据中。通过对历史事件的更新,以增强对该历史事件的学习。本实施方式中,对历史事件的分类模型更新,可以使用交叉检验的方法来评估分类模型是否有效。
本实施方式每作一次社交网络事件分析,则对历史事件知识库和情感观点分类模型数据库进行更新,实现随着时间或事件和分类任务的增加,事件检测越来越准确,且分类效果也越来越好。
本实施方式中,装置采用终生机器学习方法主要实现三大功能:(1)通过自动聚类,发现新类的方法,将文本信息进行按照描述的事件进行聚类,且通过与历史事件比对得到新事件。对于新分类任务,它使用集成学习或者迁移学习的方法将历史上的分类器迁移到新的样本上得到与文本信息匹配的新分类器。(2)更新历史事件知识库。装置还不停积累对互联网社交媒体和社交网络中词汇特别是新词的应用,对文本信息中的词汇进行词聚类并发现新类,其中,可以对新词进行标注,如使用共现词作为标签。另外还可以对文本信息中的词汇进行的情感倾向分析,从而将描述事件的词汇、词汇的情感倾向权重的事件数据更新到历史事件知识库。(3)更新情感观点分类模型数据库。在对新的分类器进行学习以后,在数据库中添加新分类器模型,还可以更新历史上的分类器模型,实现所有分类模型都越来越好的效果。更新可以使用在线学习的方法,或者迁移学习的方法,对模型的参数进行调整。
本实施方式采用终生机器学习方法,将每个事件看成一个新的任务,对不同的任务引入全局学习模型和个性化任务配置。终生学习对应一套学习系统,不仅仅是一个学习算法,它通过协调多个学习模型,通过筛选、配置、组合、优化等一系列手段为新的学习任务提供最大的便利,能够准确识别社交网络事件的情感或观点分类。另外,它还可以根据新学习到的知识更新老的模型,从而实现每个模型都在不停更新、优化,永不停止的学习,使得社交网络事件的检测和分类随着时间和事件检测的数量越来越准确。而且,本实施方式只需在开始时手工标注少量样本,通过终生机器学习方法不断的学习,实现对新词的情感或观点的自动分类标注,进而实现了对社交网络数据的自动或半自动。
请参阅图5,图5是社交网络事件分析装置再一实施方式的结构示意图。本实施方式中,社交网络事件分析装置包括处理器510及存储介质520,其中,处理器510与存储介质520通过总线530连接。
存储介质520用于存储处理器510执行的计算机指令以及包括历史事件知识库521和情感观点分类模型数据库522。历史事件知识库521包括历史上发生的事件、事件随时间变化的关系、新词检测结果、历史事件的观点分类等数据。情感观点分类模型数据库522记录着历史上所有的情感和观点分类模型。
处理器510执行存储介质520存储的计算机指令,用于抓取社交网络事件与所述社交网络事件相关的文本信息,将抓取的社交网络事件与历史事件知识库中的数据进行匹配,判断是否为新事件,在判断社交网络事件为新事件时,将文本信息中的词汇与情感观点分类模型数据库522中的数据进行匹配,获取描述社交网络事件的观点分类,使用机器学习方法对抓取的社交网络事件、文本信息以及获取的观点分类进行学习。
具体地,处理器510抓取社交网络数据,其中,社交网络数据包括网民就不同社交网络事件所发出的不同文本信息。本实施方式中,处理器510采用并行数据抓取方法和各种社交媒体的API对社交网络数据进行抓取。其中,社交网络数据包括网民就不同社交网络事件所发表、转发、评论的不同文本信息,进一步的,本实施方式社交网络数据还包括发出文本信息的网民间的关系图。
可选地,在完成社交网络数据的抓取后,处理器510对社交网络数据进行存储并建立索引,以便于后续快速获取社交网络事件。例如,装置将抓取的数据保存在数据库中,并且判断数据的数据类型,如果判断数据类型包括文本数据,则对文本数据部分使用lucene进行索引,如果判断数据类型包括社交关系图数据,则对社交关系图数据部分使用neo4j或mongodb等nonsql数据库索引,如果断数据类型包括元数据,则对元数据部分使用mysql等传统关系数据库进行索引。
处理器510采用第二机器学习方法对抓取的社交网络数据中的每条文本信息按照所描述的社交网络事件进行聚类,获得聚类结果。处理器510根据历史事件知识库521中的知识,对抓取的社交网络数据中的每条文本信息进行自动聚类,而且对于与所述历史事件知识库中的所有历史事件不相关的文本信息(即属于新类)同样能够根据文本信息的词汇进行新类聚类,其中,所述聚类的不同类别以所描述的社交网络事件作为区分,以实现对每条文本信息按照所描述的社交网络事件进行聚类。具体地,聚处理器510采用第二机器学习方法实现自动聚类,并发现新类,其中,第二机器学习方法为但不限为狄利克雷过程(Dirichlet Process)、话题检测与追踪(Topic Detection And Tracking,简称TDT)、进化聚类(Evolutionary Clustering)或进化话题模型(Evolutionary Topic Modeling)方法。
例如,处理器510采用Dirichlet Process方法对词频组成的向量进行建模,先得到社交网络数据中每条文本信息的词频向量,处理器510根据历史事件知识库521中的知识对每条文本信息的词频向量进行概率建模,把确定聚类的个数的问题转化成调整Dirichlet Process的参数问题,从而确定出每条文本信息所描述的事件,并按照所描述的事件进行聚类。当然,处理器510也可采用Dirichlet Process方法对词的分布进行建模,以实现聚类。进一步地,处理器510还可采用图切割的方法实现聚类,即把样本和样本间建立相似度,使用图切割的方法把权重较低的边去掉,得到一个个的子图,形成聚类。
在对抓取的社交网络数据中的每条文本信息进行聚类后,处理器510在不同文本信息所属的不同聚类中,抓取一个聚类,以得到社交网络中的一个事件以及描述所述事件的所有文本信息,作为所述社交网络事件和与所述社交网络事件有关的文本信息。
处理器510将获取的社交网络事件与历史事件知识库521中的数据进行匹配,判断是否为新事件。具体,处理器510对抓取的每条文本信息分别进行建模,得到每条文本信息中的词频向量,将每个词频向量与历史事件知识库521中存储的历史事件数据进行比较,获得所述向量与历史事件知识库521中的历史事件的相似度。在词频向量与历史事件知识库521中的历史事件相似度大于预设阈值时,文本信息所描述的社交网络事件与历史事件匹配,确定词频向量对应的文本信息描述的事件为历史事件,在词频向量与历史事件知识库521中的所有历史事件的相似度都小于预设阈值时,文本信息所描述的社交网络事件与所有历史事件不匹配,确定词频向量对应的文本信息描述的事件为新事件。
需要说明的是,本申请对是否为新事件的具体判定方法并不限定为上述例子,在其他实施方式中,处理器可通过与历史事件知识库中的词汇表比对,如果确定文本信息中出现的新关键词,则确定文本信息描述的事件为新事件或历史事件的新任务,故在此不作限定。
进一步地,处理器510还用于确定抓取的文本信息所在的社交群体,对社交群体进行分析,获取社交群体的情感方向,其中,所述社交群体是指具有相同兴趣的人群,情感方向是指对社交网络事件的态度。
本实施方式中,处理器510抓取的社交网络数据还包括发出文本信息的网民间的关系图,处理器510根据关系图对抓取的文本信息进行社区分析,确定文本信息所在的社交群体。社区分析则是通过对发出文本信息的社交网络用户的链接、兴趣(hashtag)、发表内容进行分析,定义一系列相似度,然后对社交网络的图进行切割,形成一系列可以有重叠的子图,这些子图即可用来描述不同社交群体(也可称为不同社区),根据这些子图即可确定文本信息所在的社交群体。例如,处理器510根据关系图对发表抓取的文本信息的用户进行聚类,通过用户之间的转载、评论,刻画出用户间的距离,通过图的切割得到子图,其中每个子图则形成一个社交群体。
由于,社交群体即是描述具有相同兴趣的人群,他们使用的词是有一定共性的,故可利用所在社交群体来帮助消歧。例如,在某个社交群体中NIPS代表了一个著名的国际会议(Neural Information Processing Systems),而在另外的社交群体可能代表了一个网络入侵保护系统(Network Intrusion-Prevention System)。
处理器510确定文本信息所在的社交群体后,对社交群体发表的信息及相关链接等进行分析,得到社交群体的情感方向。例如,处理器510通过社区分析确定文本信息所在社交群体后,根据对该社交群体中的用户就该社交网络事件发表的内容进行统计分析:所述社交群体中有80%的用户对该社交网络事件表示出支持态度,10%的用户对该社交网络事件表示出中立,10%的用户对该社交网络事件表示出反对,则得到该社交群体就社交网络事件的情感方向为正面支持的。
进一步地,在其他更优化实施方式中,可在本实施方式的基础上,判断模块进一步用于结合文本信息所在社交群体判断是否为新事件,当描述该社交网络事件的文本信息所在的社区均为新社交群体,且文本信息的词频向量与历史事件知识库521中的所有历史事件的相似度都小于预设阈值时,判断模块确定文本信息描述的事件为新事件。
处理器510在判断社交网络事件为新事件时,从情感观点分类模型数据库522中检索与获取单元获取的文本信息匹配的分类器。具体地,在判断社交网络事件为新事件时,处理器510首先通过人手工标注少量样本,然后在抓取文本信息后,通过自然语言处理技术对描述同一事件的每个文本信息进行分词,进而把文本表示成词频的向量(或TF-IDF向量)。由于历史事件已经被存储和索引在情感观点分类模型数据库522中,处理器510可以有效地检索和对比当前任务和历史任务的相关性(如分类文本内容、分类边界、所在社区相似性等),将相关性大于预设阈值的分类器检索出来,则检索出与文本信息匹配的分类器。
处理器510在从所述情感观点分类模型数据库中检索不出与文本信息匹配的分类器时,采用迁移学习方法将情感观点分类模型数据库522中与文本信息内容相关的分类器迁移作为与文本信息匹配的分类器。
具体,在从所述情感观点分类模型数据库中检测不到与文本信息匹配的分类器,即当前任务与历史任务的相关性较低时,处理器510将检索出的分类器通过和当前任务进行集成学习或者迁移学习(Fransfer Learning),让当前任务找到有用的历史知识,将相关的历史分类器迁移到新的样本上进行分类,从而可以提高新的分类器的初始学习结果和最终分类准确度,使当前学习任务学习起点更高,收敛速度更快,学习结果更优。
其中,集成学习方法即对历史事件进行加权投票。迁移学习方法为但不限为方差迁移(Covariance Shift)学习方法、基于多任务的学习方法或样本(Tradaboost)学习方法。
处理器510根据获取的社交群体的情感方向和检索出的与文本信息匹配的分类器或者迁移出的分类器,采用第一机器学习方法对文本信息进行观点分类,以得到描述社交网络事件的观点分类。
具体,在检索出相关性大于预设阈值的分类器时,处理器510根据分类器和所获得的社交群体的情感方向分析出描述社交网络事件的每个文本信息的观点分类,进行得到描述社交网络事件的观点分类。
在检索不出相关性大于预设阈值的分类器,处理器510根据迁移得到的分类器和所获得的社交群体的情感方向分析出描述社交网络事件的每个文本信息的观点分类,进行得到描述社交网络事件的观点分类。
具体,处理器510根据采用第一机器学习方法对描述社交网络事件的每个文本信息的进行观点分类。其中,第一机器学习方法为但不限为贝叶斯模型(Bayesian Model),支持向量机(Support Vector Machine),逻辑回归(Logistic Regression)。例如,分类单元433确定每个文本信息匹配的分类器后,从相应的分类器中得到每个文本信息的标注,其中不同的标注表示不同的分类,装置根据每个文本信息的标注和所在社交群体的情感方向采用第一机器学习方法确定每个文本信息的观点得分,以实现分类。当然,在其他实施方式中,装置也可不包括社区分析模块,分类单元直接根据分类器,采用第一机器学习方法确定每个文本信息的观点分类情况。
处理器510在对描述事件的不同文本信息的观点分类情况进行综合加权,得到群体对事件的综合评价。例如,装置对抓取到一个社交网络中的多条评论,在抓取出三条评论描述的是“青岛爆炸事件”相关事件,并实现对三天评论的观点分类为:第一评论的得分是-0.8,第二评论的得分是-0.6,第三评论预测为-0.9后,处理器510使用根据预设加权算法,对三条评论的观点类别分别进行加权,得到社交网络对所述社交网络事件的综合情感观点得分,即得到社交网络对所述社交网络事件的综合观点评价。本实施方式中,对当前社交网络事件的评估可以通过事后标注的交叉检验结果与在线算法的准确率来评价。
处理器510使用机器学习方法将抓取的社交网络事件更新到历史事件知识库521中,并将抓取的文本信息以及获取的观点分类更新到情感观点分类模型数据库522中。
本实施方式中,处理器510使用机器学习方法将社交网络事件更新到历史事件知识库521中,具体,在社交网络事件是新事件时,处理器510在历史事件知识库521中添加该事件,事件包括描述该事件的文本信息和观点标注如描述该事件的关键词词频、关键词情感倾向权重事件件数据中。进一步地,在装置检测到文本信息中出现新词(例如采用Dirichlet Process方法检测到新词)时,处理器510将检测到的新词更新到历史事件知识库521的新词检测结果中。
处理器510还将抓取的文本信息以及观点分类更新到情感观点分类模型数据库522中的对应分类器数据中,具体如文本信息中每个词汇在不同事件中的频率、该文本信息及每个词汇的情感倾向分析结果等,若文本信息匹配的为新分类器,则在情感观点分类模型数据库522中添加新分类器模型,再将抓取的文本信息以及观点分类更新到情感观点分类模型数据库522中新分类器数据中。
进一步地,在社交网络事件为历史事件时,处理器510将描述该事件的文本信息和观点标注如描述该事件的关键词词频、关键词情感倾向权重等更新到对应的历史事件数据中,并将抓取的文本信息中每个词汇在不同事件中的频率、该文本信息及每个词汇的情感倾向分析结果更新到情感观点分类模型数据库522的分类器数据中。通过对历史事件的更新,以增强对该历史事件的学习。本实施方式中,对历史事件的分类模型更新,可以使用交叉检验的方法来评估分类模型是否有效。
本实施方式每作一次社交网络事件分析,则对历史事件知识库和情感观点分类模型数据库进行更新,实现随着时间或事件和分类任务的增加,事件检测越来越准确,且分类效果也越来越好。
本实施方式采用终生机器学习方法,将每个事件看成一个新的任务,对不同的任务引入全局学习模型和个性化任务配置。终生学习对应一套学习系统,不仅仅是一个学习算法,它通过协调多个学习模型,通过筛选、配置、组合、优化等一系列手段为新的学习任务提供最大的便利,能够准确识别社交网络事件的情感或观点分类。另外,它还可以根据新学习到的知识更新老的模型,从而实现每个模型都在不停更新、优化,永不停止的学习,使得社交网络事件的检测和分类随着时间和事件检测的数量越来越准确。而且,本实施方式只需在开始时手工标注少量样本,通过终生机器学习方法不断的学习,实现对新词的情感或观点的自动分类标注,进而实现了对社交网络数据的自动或半自动。
另外,本申请所提出的技术方案可用于舆情监控,帮助舆情监控系统更好的完成对社区和群体行为的分析和预测,具有极大的商业价值。
通过上述方案,本申请能够对作为新事件的社交网络事件进行观点分类,实现自动识别描述新事件的观点,另外,对社交网络事件、及其文本信息、观点分类进行学习,通过知识的不断积累、更新和纠错,现随着时间或事件和分类任务的增加,分类效果也越来越好。
在本申请所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (12)

1.一种社交网络事件分析的方法,其特征在于,所述方法包括:
抓取社交网络事件以及与所述社交网络事件相关的文本信息;
将所述社交网络事件与历史事件知识库中的数据进行匹配,判断是否为新事件;
在所述社交网络事件为新事件时,将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类;
使用机器学习方法对所述社交网络事件、所述文本信息以及所述观点分类进行学习;
所述将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类包括:
从所述情感观点分类模型数据库中检索与所述文本信息匹配的分类器;
若从所述情感观点分类模型数据库中检索不出与所述文本信息匹配的分类器,则采用迁移学习方法将所述情感观点分类模型数据库中与所述文本信息内容相关的分类器迁移作为与所述文本信息匹配的分类器;
根据检索出的与所述文本信息匹配的分类器或者迁移出的分类器,采用第一机器学习方法对所述文本信息进行观点分类,以得到描述所述社交网络事件的观点分类。
2.如权利要求1所述的方法,其特征在于,所述使用机器学习方法对所述社交网络事件、所述文本信息以及所述观点分类进行学习包括:
使用机器学习方法将所述社交网络事件更新到所述历史事件知识库中,并将所述文本信息以及所述观点分类更新到所述情感观点分类模型数据库中。
3.如权利要求1或2所述的方法,其特征在于,所述将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类的步骤之前包括:
确定抓取所述文本信息所在的社交群体,所述社交群体是指具有相同兴趣的人群;
对所述社交群体进行分析,获取所述社交群体的情感方向,所述情感方向是指所述社交群体对所述社交网络事件的态度;
所述将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类的步骤包括:
将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,根据所述匹配的结果和所述情感方向获取描述所述社交网络事件的观点分类。
4.如权利要求1所述的方法,其特征在于,所述第一机器学习方法为贝叶斯模型、支持向量机或逻辑回归方法;
所述迁移方法为方差迁移学习方法、基于多任务的学习方法或样本学习方法。
5.如权利要求1所述的方法,其特征在于,所述抓取社交网络事件以及网民就所述社交网络事件所发出的文本信息的步骤包括:
抓取社交网络数据,其中,所述社交网络数据包括网民就不同事件所发出的不同文本信息;
采用第二机器学习方法对所述社交网络数据中的每条文本信息按照所描述的事件进行聚类,获得聚类结果;
根据所述聚类结果,抓取所述社交网络事件以及社交网络数据中描述所述社交网络事件的文本信息。
6.如权利要求5所述的方法,其特征在于,所述第二机器学习方法为狄利克雷过程、话题检测与追踪、进化聚类或进化话题模型方法。
7.一种社交网络事件分析装置,其特征在于,所述社交网络事件分析装置包括抓取模块、判断模块、分类模块和学习模块,
所述抓取模块,用于抓取社交网络事件以及与所述社交网络事件相关的文本信息;
所述判断模块,用于将所述抓取模块抓取的社交网络事件与历史事件知识库中的数据进行匹配,判断是否为新事件;
所述分类模块,用于在所述判断模块判断所述社交网络事件为新事件时,将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,获取描述所述社交网络事件的观点分类;
所述学习模块,用于使用机器学习方法对所述抓取模块抓取的社交网络事件、所述文本信息以及所述分类模块获取的观点分类进行学习;
所述分类模块包括检索单元、迁移单元和分类单元,
所述检索单元,用于在所述判断模块判断所述社交网络事件为新事件时,从所述情感观点分类模型数据库中检索与所述文本信息匹配的分类器;
所述迁移单元,用于在所述检索单元从所述情感观点分类模型数据库中检索不出与所述文本信息匹配的分类器时,采用迁移学习方法将所述情感观点分类模型数据库中与所述文本信息内容相关的新分类器迁移作为与所述文本信息匹配的分类器;
所述分类单元,用于根据所述检索单元检索出的与所述文本信息匹配的分类器或者所述迁移单元迁移出的分类器,采用第一机器学习方法对所述文本信息进行观点分类,以得到描述所述社交网络事件的观点分类。
8.如权利要求7所述的装置,其特征在于,所述学习模块,具体用于使用机器学习方法将所述抓取模块抓取的社交网络事件更新到所述历史事件知识库中,并将所述抓取模块抓取的文本信息以及所述分类模块获取的观点分类更新到所述情感观点分类模型数据库中。
9.如权利要求7或8所述的装置,其特征在于,还包括分析模块,
所述分析模块,用于确定所述抓取模块抓取的文本信息所在的社交群体,对所述社交群体进行分析,获取所述社交群体的情感方向,其中,所述社交群体是指具有相同兴趣的人群,所述情感方向是指所述社交群体对所述社交网络事件的态度;
所述分类模块,进一步用于在所述判断模块判断所述社交网络事件为新事件时,将所述文本信息中的词汇与情感观点分类模型数据库中的数据进行匹配,根据所述匹配的结果和所述分析模块获取的情感方向获取描述所述社交网络事件的观点分类。
10.如权利要求7所述的装置,其特征在于,所述第一机器学习方法为贝叶斯模型、支持向量机或逻辑回归方法;
所述迁移方法为方差迁移学习方法、基于多任务的学习方法或样本学习方法。
11.如权利要求7所述的装置,其特征在于,所述抓取模块包括抓取单元、聚类单元和获取单元,
所述抓取单元,用于抓取社交网络数据,其中,所述社交网络数据包括网民就不同事件所发出的不同文本信息;
所述聚类单元,用于采用第二机器学习方法对所述抓取单元抓取的社交网络数据中的每条文本信息按照所描述的事件进行聚类,获得聚类结果;
所述获取单元用于根据所述聚类单元的聚类结果,获取所述社交网络事件以及社交网络数据中描述所述社交网络事件的文本信息。
12.如权利要求11所述的装置,其特征在于,所述第二机器学习方法为狄利克雷过程、话题检测与追踪、进化聚类或进化话题模型方法。
CN201410002161.4A 2014-01-02 2014-01-02 一种社交网络事件分析的方法和装置 Active CN104765733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410002161.4A CN104765733B (zh) 2014-01-02 2014-01-02 一种社交网络事件分析的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410002161.4A CN104765733B (zh) 2014-01-02 2014-01-02 一种社交网络事件分析的方法和装置

Publications (2)

Publication Number Publication Date
CN104765733A CN104765733A (zh) 2015-07-08
CN104765733B true CN104765733B (zh) 2018-06-15

Family

ID=53647568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410002161.4A Active CN104765733B (zh) 2014-01-02 2014-01-02 一种社交网络事件分析的方法和装置

Country Status (1)

Country Link
CN (1) CN104765733B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951434B (zh) * 2015-07-10 2018-10-23 沃民高新科技(北京)股份有限公司 品牌情绪的确定方法和装置
CN104951807B (zh) * 2015-07-10 2018-09-25 沃民高新科技(北京)股份有限公司 股市情绪的确定方法和装置
CN105095415B (zh) * 2015-07-10 2018-12-21 沃民高新科技(北京)股份有限公司 网络情绪的确定方法和装置
CN105389354B (zh) * 2015-11-02 2018-08-21 东南大学 面向社交媒体文本的无监督的事件抽取和分类方法
CN105654132A (zh) * 2015-12-30 2016-06-08 南京理工大学 社区检测方法与装置
CN105930359A (zh) * 2016-04-11 2016-09-07 百度在线网络技术(北京)有限公司 倾向性监控方法及装置
CN105930361B (zh) * 2016-04-12 2019-05-03 北京恒冠网络数据处理有限公司 一种关系型数据库向Neo4j模型转换和数据迁移方法
CN106776566B (zh) * 2016-12-22 2019-12-24 东软集团股份有限公司 情感词汇的识别方法及装置
CN108269112A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 广告创意的更新方法及装置
CN108536695B (zh) * 2017-03-02 2021-06-04 北京嘀嘀无限科技发展有限公司 一种地理位置信息点的聚合方法以及装置
CN107679154B (zh) * 2017-09-27 2020-04-21 哈尔滨工业大学深圳研究生院 一种基于时间轴的历史题解题方法、系统及介质
CN107729414A (zh) * 2017-09-27 2018-02-23 哈尔滨工业大学深圳研究生院 一种展示历史时间轴的知识服务方法、系统及介质
CN108021660B (zh) * 2017-12-04 2020-05-22 中国人民解放军国防科技大学 一种基于迁移学习的话题自适应的微博情感分析方法
CN108093466B (zh) * 2017-12-14 2021-12-24 维沃移动通信有限公司 一种控制网络开关的方法、移动终端及服务器
CN108182639B (zh) * 2017-12-29 2021-04-09 中国人民解放军火箭军工程大学 一种网络论坛小群体确定方法及系统
CN108876018A (zh) * 2018-05-30 2018-11-23 深圳投时科技有限公司 一种基于群体情绪的预测方法、装置、系统、服务器及终端
CN110634088A (zh) * 2018-06-25 2019-12-31 阿里巴巴集团控股有限公司 案件裁判方法、装置和系统
CN109344326B (zh) * 2018-09-11 2021-09-24 创新先进技术有限公司 一种社交圈的挖掘方法和装置
CN109284384B (zh) * 2018-10-10 2021-01-01 拉扎斯网络科技(上海)有限公司 文本分析方法、装置、电子设备及可读存储介质
CN110020214B (zh) * 2019-04-08 2021-05-18 北京航空航天大学 一种融合知识的社交网络流式事件检测系统
CN110705304B (zh) * 2019-08-09 2020-11-06 华南师范大学 一种属性词提取方法
CN110705597B (zh) * 2019-09-04 2022-11-11 中国科学院计算技术研究所 基于事件因果关系抽取的网络苗头事件检测方法及系统
CN111782907B (zh) * 2020-07-01 2024-03-01 北京知因智慧科技有限公司 新闻分类方法、装置及电子设备
CN111984931B (zh) * 2020-08-20 2022-06-03 上海大学 一种社会事件网络文本的舆情计算与推演方法及系统
CN114444696A (zh) * 2020-11-03 2022-05-06 华为云计算技术有限公司 一种任务学习系统、方法及相关设备
CN112650853A (zh) * 2021-01-13 2021-04-13 拉卡拉支付股份有限公司 短文本聚类方法、装置、电子设备、存储介质及程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统

Also Published As

Publication number Publication date
CN104765733A (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN104765733B (zh) 一种社交网络事件分析的方法和装置
Dieber et al. Why model why? Assessing the strengths and limitations of LIME
Cao et al. Automatic rumor detection on microblogs: A survey
Wu et al. Gleaning wisdom from the past: Early detection of emerging rumors in social media
US9278255B2 (en) System and method for activity recognition
Jain et al. A comparative study of machine learning and deep learning techniques for sentiment analysis
CN108021660B (zh) 一种基于迁移学习的话题自适应的微博情感分析方法
CN107004212A (zh) 根据社交媒体和其它数字轨迹对动作、结果和目标实现进行建模
CN106537387B (zh) 检索/存储与事件相关联的图像
US20210374681A1 (en) System and method for providing job recommendations based on users' latent skills
CN108320798A (zh) 病症结果生成方法与装置
CN108733791A (zh) 网络事件检测方法
Baier Fuentes et al. A bibliometric overview of the international journal of interactive multimedia and artificial intelligence
CN103778206A (zh) 一种网络服务资源的提供方法
Claypo et al. Opinion mining for Thai restaurant reviews using neural networks and mRMR feature selection
CN111966888A (zh) 融合外部数据的基于方面类别的可解释性推荐方法及系统
Aljedaani et al. Automatic classification of accessibility user reviews in android apps
CN110716957B (zh) 类案可疑对象智能挖掘分析方法
Singh et al. Application of machine learning in the classification of data over social media platform
Dehghan et al. An improvement in the quality of expert finding in community question answering networks
Sheeba et al. A fuzzy logic based on sentiment classification
Saha et al. The Corporeality of Infotainment on Fans Feedback Towards Sports Comment Employing Convolutional Long-Short Term Neural Network
Bi et al. Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction
CN109254993B (zh) 一种基于文本的性格数据分析方法及系统
Negaresh et al. Gender identification of mobile phone users based on internet usage pattern

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant