CN108228612A - 一种提取网络事件关键词以及情绪倾向的方法及装置 - Google Patents
一种提取网络事件关键词以及情绪倾向的方法及装置 Download PDFInfo
- Publication number
- CN108228612A CN108228612A CN201611155167.0A CN201611155167A CN108228612A CN 108228612 A CN108228612 A CN 108228612A CN 201611155167 A CN201611155167 A CN 201611155167A CN 108228612 A CN108228612 A CN 108228612A
- Authority
- CN
- China
- Prior art keywords
- text
- text data
- mood
- event
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种提取网络事件关键词以及情绪倾向的方法及装置,涉及数据分析技术领域,主要目的在于通过对网络热门事件的文本数据进行处理,得到能够准确反映热门事件的关键词以及通过关键词所表达的情绪倾向。本发明主要的技术方案为:利用爬虫技术爬取文本数据;分析所述文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系;获取事件的查询条件;利用所述查询条件检索到的文本数据计算所述事件的核心关键词;在检索到的文本数据中提取含有所述核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向。本发明主要用于网络事件的关键词以及情绪倾向的计算。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种提取网络事件关键词以及情绪倾向的方法及装置。
背景技术
随着科技的发展,互联网已经成为生活中不可获取的一部分,大量的信息通过互联网进行传播,相对于传统的新闻媒体而言,互联网媒体不仅具有传统新闻媒体发表新闻事件的功能,同时互联网媒体也给了广大通过互联网获取新闻信息的网民一个表达自身对于新闻事件的看法和评论的渠道。而通过网民对于新闻事件的看法和评论的收集、整理就能够分析出网民对于新闻时间的关注程度以及对应的情绪倾向等数据,从而为更好的发挥新闻媒体舆论导向能力提供数据支持。
但是,目前这些网民反馈的信息以及新闻事件因为不同新闻媒体报道的渠道不同,会分散在各个新闻媒体网站中,同时,对于热门事件,网民的观点表达会较为丰富,信息数据量较大,通过传统的人工对评论数据进行筛选和归纳总结很难全面的反映对于一个新闻事件网民真实的整体的情绪倾向和观点表达。因此,目前对于热门事件的相关数据分析一般所采用的分析方法为:通过网络爬虫从主流媒体爬取新闻报道数据和网民在新闻报道下的评论数据,针对热门事件,通过使用事件相关的关键词进行筛选得到和热门事件相关的议论文本,再对议论文本进行分词,将分词结果进行词频统计得到高频词,将高频词作为事件的归纳关键词。然而利用这种方法所计算得到的关键词往往会将很多的常见词提取出来使得这些关键词不能很好的表达文本的核心观点,而更为重要的是其不能通过所得到的关键词得到文本对热门事件的情绪倾向。
发明内容
有鉴于此,本发明提供一种提取网络事件关键词以及情绪倾向的方法及装置,主要目的在于通过对网络热门事件的文本数据进行处理,得到能够准确反映热门事件的关键词以及通过关键词所表达的情绪倾向。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供了一种提取网络事件关键词以及情绪倾向的方法,该方法包括:
利用爬虫技术爬取文本数据,所述文本数据包括网络媒体发布的文本数据;
分析所述文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系;
获取事件的查询条件,所述查询条件用于检索与所述事件相关的文本数据;
利用所述查询条件检索到的文本数据计算所述事件的核心关键词;
在检索到的文本数据中提取含有所述核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向。
优选的,所述分析所述文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系包括:
利用TF-IDF算法分别提取每篇文本数据的文本关键词;
利用NLP技术分析每篇文本数据的文本情绪倾向;
分别建立文本数据与对应的文本关键词以及文本数据与对应的文本情绪倾向的关联关系;
将含有所述关联关系的文本数据保存在全文搜索引擎中。
优选的,所述利用所述查询条件检索到的文本数据计算所述事件的核心关键词包括:
在所述全文搜索引擎中检索符合所述查询条件的文本数据,所述文本数据中存储有文本关键词以及文本情绪倾向的关联关系;
提取与所述文本数据相关联的文本关键词;
统计所述文本关键词在所述文本数据中的词频,将词频大于阈值的文本关键词确定为所述事件的核心关键词。
优选的,所述在检索到的文本数据中提取含有所述核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向包括:
将符合所述查询条件的文本数据按照所述核心关键词分类;
利用文本数据与文本情绪倾向的关联关系,提取所有同类文本数据的文本情绪倾向;
统计所述文本情绪倾向得到所述事件的情绪倾。
优选的,所述在检索到的文本数据中提取含有所述核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向包括:
根据所述核心关键词在文本数据中的词频确定所述文本数据的权重值;
提取与所述文本数据对应的文本情绪倾向;
利用所述权重值和所述文本情绪倾向计算所述事件的情绪倾向。
另一方面,本发明还提供了一种提取网络事件关键词以及情绪倾向的装置,该装置包括:
第一获取单元,用于利用爬虫技术爬取文本数据,所述文本数据包括网络媒体发布的文本数据;
分析单元,用于分析所述第一获取单元获取的文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系;
第二获取单元,用于获取事件的查询条件,所述查询条件用于检索与所述事件相关的文本数据;
第一计算单元,用于利用所述第二获取单元获取的查询条件检索到的文本数据计算所述事件的核心关键词;
第二计算单元,用于在检索到的文本数据中提取含有所述第一计算单元计算出的核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向。
优选的,所述分析单元包括:
第一分析模块,用于利用TF-IDF算法分别提取每篇文本数据的文本关键词;
第二分析模块,用于利用NLP技术分析每篇文本数据的文本情绪倾向;
关联模块,用于分别建立文本数据与所述第一分析模块提取的对应的文本关键词以及文本数据与所述第二分析模块分析的对应的文本情绪倾向的关联关系;
存储模块,用于将含有所述关联模块得到的关联关系的文本数据保存在全文搜索引擎中。
优选的,所述第一计算单元包括:
查询模块,用于在所述全文搜索引擎中检索符合所述查询条件的文本数据,所述文本数据中存储有文本关键词以及文本情绪倾向的关联关系;
提取模块,用于提取与所述查询模块检索出的文本数据相关联的文本关键词;
计算模块,用于统计所述提取模块提取的文本关键词在所述文本数据中的词频,将词频大于阈值的文本关键词确定为所述事件的核心关键词。
优选的,所述第二计算单元包括:
分类模块,用于将符合所述查询条件的文本数据按照所述核心关键词分类;
第一提取模块,用于利用文本数据与文本情绪倾向的关联关系,提取所述分类模块所划分的所有同类文本数据的文本情绪倾向;
第一计算模块,用于统计所述第一提取模块提取的文本情绪倾向得到所述事件的情绪倾向。
优选的,所述第二计算单元还包括:
确定模块,用于根据所述核心关键词在文本数据中的词频确定所述文本数据的权重值;
第二提取模块,用于提取与所述文本数据对应的文本情绪倾向;
第二计算模块,用于利用所述确定模块确定的权重值和所述第二提取模块提取的文本情绪倾向计算所述事件的情绪倾向。
依据上述本发明所提出的一种提取网络事件关键词以及情绪倾向的方法及装置,是通过将所获取的文本数据进行分析处理后,建立一个文本数据与关键词、文本数据与文本情绪倾向的关联关系,这样,就可以在检索到文本数据的时候根据该文本数据查找到其对应的文本关键词和文本情绪倾向。基于对文本数据的分析处理,在用户查询网络热门事件时,根据所检索出的文本,提取文本对应的文本关键词和文本情绪倾向,通过统计文本关键词计算关于该热门事件的核心关键词,再有核心关键词所对应的文本确定该热门事件的整体情绪倾向。相对于现有的热门事件的分析方法,本发明所采用的计算方式在数据预处理的步骤上加入了情绪倾向的计算,以及关联关系的建立,使得在后续的计算过程中能够更快速的得到文本对应的关键词以及情绪倾向数据,同时,热门事件的情绪倾向的计算是基于该热门事件的核心关键词得到的,因此,该热门事件情绪倾向的计算准确性更高。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提出的一种提取网络事件关键词以及情绪倾向的方法的流程图;
图2示出了本发明实施例提出的另一种提取网络事件关键词以及情绪倾向的方法的流程图;
图3示出了本发明实施例提出的一种提取网络事件关键词以及情绪倾向的装置的组成框图;
图4示出了本发明实施例提出的另一种提取网络事件关键词以及情绪倾向的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种提取网络事件关键词以及情绪倾向的方法,如图1所示,该方法主要用于针对检索的网络热门事件提取对应的关键词以及情绪倾向。具体步骤包括:
101、利用爬虫技术爬取文本数据。
网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。网络爬虫是通过网页的链接地址来寻找网页,其工作流程是从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。通过网络爬虫抓取下来网页包括各种格式,比如,html、图片、doc、pdf、多媒体、动态网页及其它格式等等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来,就得到本发明实施例所需要的文本数据。
其中,由于网络热门事件的兴起一般会伴随有大量的新闻报道,因此,本发明实施例中的文本数据在应用于网络热门事件时,所爬取的文本数据为新闻媒体的新闻报道文本以及这些文本对应的新闻评论文本。
本步骤中对于网络爬虫的具体爬取策略不做限定,由于现有的网络爬虫技术已被广泛应用于大数据分析的领域当中,因此对于爬取文本数据的具体方式也不做展开说明。
102、分析文本数据对应的文本关键词以及文本情绪倾向,得到该文本数据与文本关键词以及文本情绪倾向的关联关系。
根据步骤101爬取的文本数据,在本步骤中进行具体的数据处理,包括提取该文本数据的文本关键词,以及计算该文本数据的文本情绪倾向。
其中,文本关键词的提取方式主要包括三类:基于统计信息的关键词自动提取、基于机器学习的关键词自动提取以及基于语义分析的关键词自动提取。基于统计信息的关键词提取方法通过文本的词汇特征信息或文本中的词汇来构建网络,然后根据词汇的出现频率、分布位置等信息进行统计计算,通过一定的算法来获取文本的关键词,比如基于词频、复杂网络特征等。基于机器学习的关键词提取方法是将关键词提取问题视为二元分类问题,在训练阶段根据提取关键词的特征构建关键词分类模型,然后在分类阶段基于模型从文档中抽取词并判断该词是否为关键词,比如,基于朴素贝叶斯(naiveBayes,NB)的方法,基于支持向量机(supportvectormachine,SVM)的方法等。基于语义分析的关键词提取方法主要运用语义词典或者词汇链方法来获取词汇间额语义知识提取文本关键词,该方法从更深层次的语义层面分析文本内容,借助语义知识库来获取词汇间的语义知识,该方法更加符合人们的感知逻辑思维,获取的关键词也更加准确,但该方法需要对语义词典进行不断地更新完善。上述的三类关键词提取方法可针对不同的应用场景进行选择,本发明实施例中对于具体的提取关键词的算法不做限定。
对于文本情绪倾向的计算,目前主流的文本倾向性分析方法分为基于简单统计的方法、基于机器学习的方法和基于相关性分析的方法。第1种是基于简单统计的倾向分类,对所有情感项进行简单的倾向性统计,统计方法有求和法和向量空间模型法,根据最终得分与事先设定阈值比较得出倾向评价。第2种基于机器学习的倾向分类方式,是通过对大量标注语料的训练生成倾向分类器,用来对测试文本进行分类。目前主流的分类方法有支持向量机(supportvectormachine,SVM)、朴素贝叶斯(naiveBayes,NB)和最大熵(maximumentropy,ME)等。第3种是基于相关性的倾向分类,相对于前2种粗粒度的倾向分析,该方法属于细粒度分析,它利用情感项和特征项的共现信息,或通过对情感项和特征项的句法依存分析,或通过语义角色标注,充分考虑情感项和特征项的相关性,从而实现基于特征级别的倾向分析。对于以上三种计算情绪倾向的计算方式,本发明实施例也不做具体限定,可根据实际情况适用不同的计算方法。
通过对文本数据的分析,将得到的结果与文本数据建立关联关系,使得在检索到该文本数据时,就可以对应的得到文本关键词或者是文本情绪倾向。需要说明的是,本发明实施例中所建立的关联关键都是基于文本数据建立的,即文本数据与文本关键词相对应,文本数据与文本情绪倾向相对应,而文本关键词与文本情绪倾向并不存在对应关系。
以上两个步骤是对网络爬虫爬取的文本数据进行的处理分析,需要说明的是,这些处理分析不包括对文本内容的分类,也就是说,这些文本数据不会按照事件内容分类。基于以上处理过的数据,下面将对用户查询热门事件时,针对所查询的条件输出相应事件的关键词以及情绪倾向。
103、获取事件的查询条件。
本步骤中的查询条件是用于检索网络热门事件的相关信息。其中,查询条件可以是词语,也可以是一段文字,可以是单一条件查询,也可以是复合条件查询,比如,通过“和”、“或”等关系将查询条件进行复合。通过这些相关信息匹配对应的文本数据,具体的匹配过程与现有的检索引擎所使用的检索方式相类似,本发明实施例对此不做详细介绍。
104、利用查询条件检索到的文本数据计算该事件的核心关键词。
在处理过的文本数据达到一定数量的基础上,在与查询条件进行匹配时一般都会匹配出多个文本数据,并且每个文本数据中都会对应有至少一个的关键词,因此,当文本数据的数量越大时,对应的关键词的数量也就越大。由于不同的文本数据与查询条件所对应的事件的相关性存在差异,所以,不同文本数据所关联的关键词并不一定是该事件的关键词。本步骤中所计算的事件的核心关键词,就是从这些文本数据所关联的关键词中筛选出与事件相关性大的关键词作为事件的核心关键词。需要说明的是,核心关键词并不限定为一个,也可以是多个符合筛选条件的关键词。
具体的计算方式可以根据关键词在文本数据中的词频,或者是结合文本数据与事件或查询条件的相关性进行确定,不同的筛选方式在不同的应用场景中其计算的准确性会有所差异,因此,需要根据不同的应用场景确定具体的计算方式,本实施例中不做限定。
105、在检索到的文本数据中提取含有核心关键词的文本数据所对应的文本情绪倾向,计算该事件的情绪倾向。
在计算出事件的核心关键词后,基于该核心关键词,提取与该核心关键词相关联的文本数据,再提取所得到的文本数据相关联的文本情绪倾向,根据这些文本情绪倾向综合计算出该事件的情绪倾向。
对于具体的计算方式,由于文本情绪倾向一般分为正向、负向或中性三种,因此,简单的计算就是判断哪一类情绪倾向的文本数量多,将多数文本的情绪倾向作为该事件的情绪倾向,还可以是根据文本数据与事件的相关性为文本数据赋予相应的权值,根据该权值再结合文本数据相关联的情绪倾向计算事件的情绪倾向。
通过以上的步骤可以看出,本发明实施例在具体应用的过程中,通过用户输入事件的相关查询条件,经过匹配计算,所输出的是对应于该事件的关键词以及对应的情绪倾向。
结合上述的实现方式可以看出,本发明实施例所采用的提取网络事件关键词以及情绪倾向的方法,是通过将所获取的文本数据进行分析处理后,建立一个文本数据与关键词、文本数据与文本情绪倾向的关联关系,这样,就可以在检索到文本数据的时候根据该文本数据查找到其对应的文本关键词和文本情绪倾向。基于对文本数据的分析处理,在用户查询网络热门事件时,根据所检索出的文本,提取文本对应的文本关键词和文本情绪倾向,通过统计文本关键词计算关于该热门事件的核心关键词,再有核心关键词所对应的文本确定该热门事件的整体情绪倾向。相对于现有的热门事件的分析方法,本发明实施例所采用的计算方式在数据预处理的步骤上加入了情绪倾向的计算,以及关联关系的建立,使得在后续的计算过程中能够更快速的得到文本对应的关键词以及情绪倾向数据,同时,热门事件的情绪倾向的计算是基于该热门事件的核心关键词得到的,因此,该热门事件情绪倾向的计算准确性更高。
为了更加详细地说明本发明提出的一种提取网络事件关键词以及情绪倾向的方法,尤其是对文本数据中的相关关联关系的确立,以及查询事件的核心关键词和情绪倾向的具体计算方式,本发明实施例还提出了一种提取网络事件关键词以及情绪倾向的方法,该方法具体步骤如图2所示,包括:
201、利用爬虫技术爬取文本数据。
本步骤的具体实现与上述实施例中的步骤101相同,因此,具体内容可参考步骤101中的说明,此处不再赘述。
202、确定文本关键词并建立文本数据与对应的文本关键词的关联关系。
本发明实施例中计算文本关键词采用的是TF-IDF算法,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF*IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。
基于TF-IDF算法,首先需要对文本数据进行分词处理,然后将每个分词利用TF-IDF算法计算该分词相对于文本数据的重要程度,再根据所有的分词的重要程度进行排序,最后选出该文本数据对应的文本关键词。其中,文本关键词的数量可以通过预置的筛选条件设定,比如选择最重要程度最大的分词为关键词,此时就是选择一个文本关键词,或者是设置一个重要程度阈值,将达到或超过该阈值的分词确定为文本关键词。
在确定出文本关键词后,将其与文本数据建立关联关系,在本发明实施例中,是将该关键词以标识的形式记录在文本数据的关联属性当中。
203、确定文本情绪倾向并建立文本数据与对应的文本情绪倾向的关联关系。
本步骤与步骤202同步进行,计算文本数据的文本情绪倾向,在本发明实施例中,采用的计算方法是利用NLP技术来判断一篇文本数据的情绪倾向。NLP(Natural LanguageProcessing)是人工智能(AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。文本情感分析的分析粒度可以是词语、句子也可以是段落或篇章。段落篇章级情感分析主要是针对某个主题或事件进行倾向性判断,一般需要构建对应事件的情感词典,如电影评论的分析,需要构建电影行业自己的情感词典的效果会比通用情感词典效果更好;也可以通过人工标注大量电影评论来构建分类器。句子级的情感分析大多事通过计算句子里包含的所有情感词的平均值来得到。篇章级的情感分析,也可以通过聚合篇章中所有的句子的情感倾向来计算得出。因此,针对句子级的情感倾向分析,既能解决较短文本的情感分析,同时也可以是篇章级文本情感分析的基础。
本发明实施例采用的算法主要由三部分组成:文本切割转换、情感定位、情感聚合,最终得到文本数据的情感倾向(正向、负向或中立)。具体的计算需要结合具体的文本数据以及采用的情感词典进行说明,由于该技术的应用较为广泛,因此不再进行具体说明。
在计算出文本情绪倾向后,同样地,将其与文本数据建立关联关系,将该情绪倾向以标识的形式记录在文本数据的关联属性当中。
204、在存储文本数据与文本关键词以及文本情绪倾向的关联关系后,获取事件的查询条件。
在上述步骤处理完成后,将带有关联关系属性的文本数据存储在全文搜索引擎的存储设备中,以便后续步骤中的检索匹配。其中,全文搜索引擎是目前广泛应用的主流搜索引擎,其工作原理是计算机索引程序通过扫描文本中的每一个词,对每一个词建立一个索引,指明该词在文本中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。此外,在另一个可行的实施例中,也可以将处理后的文本数据存储于传统关系型数据库中,通过检索的匹配对应的文本数据。
将所获取的事件的查询条件录入全文搜索引擎,通过全文搜索引擎为查询条件匹配出对应的文本数据。
205、计算事件的核心关键词。
根据全文搜索引擎匹配得到的文本数据,提取每一篇文本数据所关联的文本关键词,将这些关键词进行去重后,计算每一个关键词在所得到的所有文本数据中出现的次数,即词频,根据词频的大小进行排序,最终确定事件的核心关键词。其中,所确定的核心关键词可以一个,即词频最大的一个关键词,也可以是多个,具体的确定方式可以通过设定阈值,将词频大于该阈值的关键词确定为核心关键词,或者是设定关键词个数,根据词频由大到小的排序选择预设个数的关键词作为事件的核心关键词。
206、计算事件的情绪倾向。
在确定出核心关键词后,对匹配出的文本数据进行分类,分类的原则是根据核心关键词划分,将与核心关键词相关联的文本数据划分为同类文本,其中,当一篇文本数据关联由多个核心关键词时,则该文本数据将被分在不同核心关键词类别中进行计算。针对每一个核心关键词所属的文本数据,提取文本数据中所关联的文本情绪倾向,聚合文本情绪倾向得到描述该核心关键词的情绪倾向。其中,聚合的方式可以是累加,或者是按照文本数据的权值进行加权求和,而这种方式的前提是要确定每一个文本数据的权值,本实施例中可根据核心关键词在文本数据中的词频加以确定。
在得到核心关键词的情绪倾向后,如果核心关键词的数量为一个时,就将该核心关键词的情绪倾向确定为事件的情绪倾向。而如果核心关键词的数量为多个时,此时,不同的核心关键词会得到各自对应的情绪倾向,它们可能相同,也可能不同,当所有核心关键词的情绪倾向都相同时,则可以将该情绪倾向确定为事件的情绪倾向,而当核心关键词的情绪倾向不相同时,则需要计算确定事件的情绪倾向。具体的,可以根据数量确定,即将具有相同情绪倾向的核心关键词的数量多的情绪倾向确定为事件的情绪倾向,或者是为核心关键词设定权值,通过加权求和计算出事件的情绪倾向,该权值的确定在本发明实施例中不限定为根据核心关键词所属的文本数据的数量确定。
最终,将步骤205得到的核心关键词与步骤206得到的情绪倾向加以输出,作为查询条件的响应结果。
进一步的,作为对上述方法的实现,本发明实施例还提供了一种提取网络事件关键词以及情绪倾向的装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示,具体包括:
第一获取单元31,用于利用爬虫技术爬取文本数据,所述文本数据包括网络媒体发布的文本数据;
分析单元32,用于分析所述第一获取单元31获取的文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系;
第二获取单元33,用于获取事件的查询条件,所述查询条件用于检索与所述事件相关的文本数据;
第一计算单元34,用于利用所述第二获取单元33获取的查询条件检索到的文本数据计算所述事件的核心关键词;
第二计算单元35,用于在检索到的文本数据中提取含有所述第一计算单元34计算出的核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向。
进一步的,如图4所示,所述分析单元32包括:
第一分析模块321,用于利用TF-IDF算法分别提取每篇文本数据的文本关键词;
第二分析模块322,用于利用NLP技术分析每篇文本数据的文本情绪倾向;
关联模块323,用于分别建立文本数据与所述第一分析模块321提取的对应的文本关键词以及文本数据与所述第二分析模块322分析的对应的文本情绪倾向的关联关系;
存储模块324,用于将含有所述关联模块323得到的关联关系的文本数据保存在全文搜索引擎中。
进一步的,如图4所示,所述第一计算单元34包括:
查询模块341,用于在所述全文搜索引擎中检索符合所述查询条件的文本数据,所述文本数据中存储有文本关键词以及文本情绪倾向的关联关系;
提取模块342,用于提取与所述查询模块341检索出的文本数据相关联的文本关键词;
计算模块343,用于统计所述提取模块342提取的文本关键词在所述文本数据中的词频,将词频大于阈值的文本关键词确定为所述事件的核心关键词。
进一步的,如图4所示,所述第二计算单元35包括:
分类模块351,用于将符合所述查询条件的文本数据按照所述核心关键词分类;
第一提取模块352,用于利用文本数据与文本情绪倾向的关联关系,提取所述分类模块351所划分的所有同类文本数据的文本情绪倾向;
第一计算模块353,用于统计所述第一提取模块352提取的文本情绪倾向得到所述事件的情绪倾向。
进一步的,如图4所示,所述第二计算单元35还包括:
确定模块354,用于根据所述核心关键词在文本数据中的词频确定所述文本数据的权重值;
第二提取模块355,用于提取与所述文本数据对应的文本情绪倾向;
第二计算模块356,用于利用所述确定模块354确定的权重值和所述第二提取模块355提取的文本情绪倾向计算所述事件的情绪倾向。
综上所述,本发明实施例所采用的提取网络事件关键词以及情绪倾向的方法及装置,是通过将所获取的文本数据进行分析处理后,建立一个文本数据与关键词、文本数据与文本情绪倾向的关联关系,这样,就可以在检索到文本数据的时候根据该文本数据查找到其对应的文本关键词和文本情绪倾向。基于对文本数据的分析处理,在用户查询网络热门事件时,根据所检索出的文本,提取文本对应的文本关键词和文本情绪倾向,通过统计文本关键词计算关于该热门事件的核心关键词,再有核心关键词所对应的文本确定该热门事件的整体情绪倾向。相对于现有的热门事件的分析方法,本发明实施例所采用的计算方式在数据预处理的步骤上加入了情绪倾向的计算,以及关联关系的建立,使得在后续的计算过程中能够更快速的得到文本对应的关键词以及情绪倾向数据,同时,热门事件的情绪倾向的计算是基于该热门事件的核心关键词得到的,因此,该热门事件情绪倾向的计算准确性更高。
所述提取网络事件关键词以及情绪倾向的装置包括处理器和存储器,上述第一获取单元、分析单元、第二获取单元、第一计算单元和第二计算单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现对文本数据进行预处理,并基于处理后的文本数据对网络热门事件输出对应的关键词以及事件的整体情绪倾向。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:利用爬虫技术爬取文本数据,所述文本数据包括网络媒体发布的文本数据;分析所述文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系;获取事件的查询条件,所述查询条件用于检索与所述事件相关的文本数据;利用所述查询条件检索到的文本数据计算所述事件的核心关键词;在检索到的文本数据中提取含有所述核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种提取网络事件关键词以及情绪倾向的方法,其特征在于,所述方法包括:
利用爬虫技术爬取文本数据,所述文本数据包括网络媒体发布的文本数据;
分析所述文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系;
获取事件的查询条件,所述查询条件用于检索与所述事件相关的文本数据;
利用所述查询条件检索到的文本数据计算所述事件的核心关键词;
在检索到的文本数据中提取含有所述核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向。
2.根据权利要求1所述的方法,其特征在于,所述分析所述文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系包括:
利用TF-IDF算法分别提取每篇文本数据的文本关键词;
利用NLP技术分析每篇文本数据的文本情绪倾向;
分别建立文本数据与对应的文本关键词以及文本数据与对应的文本情绪倾向的关联关系;
将含有所述关联关系的文本数据保存在全文搜索引擎中。
3.根据权利要求2所述的方法,其特征在于,所述利用所述查询条件检索到的文本数据计算所述事件的核心关键词包括:
在所述全文搜索引擎中检索符合所述查询条件的文本数据,所述文本数据中存储有文本关键词以及文本情绪倾向的关联关系;
提取与所述文本数据相关联的文本关键词;
统计所述文本关键词在所述文本数据中的词频,将词频大于阈值的文本关键词确定为所述事件的核心关键词。
4.根据权利要求3所述的方法,其特征在于,所述在检索到的文本数据中提取含有所述核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向包括:
将符合所述查询条件的文本数据按照所述核心关键词分类;
利用文本数据与文本情绪倾向的关联关系,提取所有同类文本数据的文本情绪倾向;
统计所述文本情绪倾向得到所述事件的情绪倾向。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述在检索到的文本数据中提取含有所述核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向包括:
根据所述核心关键词在文本数据中的词频确定所述文本数据的权重值;
提取与所述文本数据对应的文本情绪倾向;
利用所述权重值和所述文本情绪倾向计算所述事件的情绪倾向。
6.一种提取网络事件关键词以及情绪倾向的装置,其特征在于,所述装置包括:
第一获取单元,用于利用爬虫技术爬取文本数据,所述文本数据包括网络媒体发布的文本数据;
分析单元,用于分析所述第一获取单元获取的文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系;
第二获取单元,用于获取事件的查询条件,所述查询条件用于检索与所述事件相关的文本数据;
第一计算单元,用于利用所述第二获取单元获取的查询条件检索到的文本数据计算所述事件的核心关键词;
第二计算单元,用于在检索到的文本数据中提取含有所述第一计算单元计算出的核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向。
7.根据权利要求6所述的装置,其特征在于,所述分析单元包括:
第一分析模块,用于利用TF-IDF算法分别提取每篇文本数据的文本关键词;
第二分析模块,用于利用NLP技术分析每篇文本数据的文本情绪倾向;
关联模块,用于分别建立文本数据与所述第一分析模块提取的对应的文本关键词以及文本数据与所述第二分析模块分析的对应的文本情绪倾向的关联关系;
存储模块,用于将含有所述关联模块得到的关联关系的文本数据保存在全文搜索引擎中。
8.根据权利要求7所述的装置,其特征在于,所述第一计算单元包括:
查询模块,用于在所述全文搜索引擎中检索符合所述查询条件的文本数据,所述文本数据中存储有文本关键词以及文本情绪倾向的关联关系;
提取模块,用于提取与所述查询模块检索出的文本数据相关联的文本关键词;
计算模块,用于统计所述提取模块提取的文本关键词在所述文本数据中的词频,将词频大于阈值的文本关键词确定为所述事件的核心关键词。
9.根据权利要求8所述的装置,其特征在于,所述第二计算单元包括:
分类模块,用于将符合所述查询条件的文本数据按照所述核心关键词分类;
第一提取模块,用于利用文本数据与文本情绪倾向的关联关系,提取所述分类模块所划分的所有同类文本数据的文本情绪倾向;
第一计算模块,用于统计所述第一提取模块提取的文本情绪倾向得到所述事件的情绪倾向。
10.根据权利要求6-9中任一项所述的装置,其特征在于,所述第二计算单元还包括:
确定模块,用于根据所述核心关键词在文本数据中的词频确定所述文本数据的权重值;
第二提取模块,用于提取与所述文本数据对应的文本情绪倾向;
第二计算模块,用于利用所述确定模块确定的权重值和所述第二提取模块提取的文本情绪倾向计算所述事件的情绪倾向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611155167.0A CN108228612B (zh) | 2016-12-14 | 2016-12-14 | 一种提取网络事件关键词以及情绪倾向的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611155167.0A CN108228612B (zh) | 2016-12-14 | 2016-12-14 | 一种提取网络事件关键词以及情绪倾向的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108228612A true CN108228612A (zh) | 2018-06-29 |
CN108228612B CN108228612B (zh) | 2022-03-18 |
Family
ID=62651201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611155167.0A Active CN108228612B (zh) | 2016-12-14 | 2016-12-14 | 一种提取网络事件关键词以及情绪倾向的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228612B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558587A (zh) * | 2018-11-08 | 2019-04-02 | 武汉大学 | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 |
CN109857933A (zh) * | 2019-01-21 | 2019-06-07 | 深圳市祥云万维科技有限公司 | 一种关键词分析系统与方法 |
CN111046182A (zh) * | 2019-12-11 | 2020-04-21 | 电子科技大学 | 一种构建互联网短文本情绪标注语料库的方法 |
CN111400437A (zh) * | 2020-02-19 | 2020-07-10 | 北京三快在线科技有限公司 | 互联网信息响应方法、装置、电子设备和计算机可读介质 |
CN112291614A (zh) * | 2019-07-25 | 2021-01-29 | 北京搜狗科技发展有限公司 | 一种视频生成方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080010275A1 (en) * | 2006-07-04 | 2008-01-10 | Samsung Electronics Co., Ltd | Method, system, and medium for retrieving photo using multimodal information |
CN103246644A (zh) * | 2013-04-02 | 2013-08-14 | 亿赞普(北京)科技有限公司 | 一种网络舆情信息处理方法和装置 |
CN103744953A (zh) * | 2014-01-02 | 2014-04-23 | 中国科学院计算机网络信息中心 | 一种基于中文文本情感识别的网络热点挖掘方法 |
CN104572877A (zh) * | 2014-12-22 | 2015-04-29 | 网易(杭州)网络有限公司 | 游戏舆情的检测方法及系统 |
CN105095415A (zh) * | 2015-07-10 | 2015-11-25 | 沃民高新科技(北京)股份有限公司 | 网络情绪的确定方法和装置 |
-
2016
- 2016-12-14 CN CN201611155167.0A patent/CN108228612B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080010275A1 (en) * | 2006-07-04 | 2008-01-10 | Samsung Electronics Co., Ltd | Method, system, and medium for retrieving photo using multimodal information |
CN103246644A (zh) * | 2013-04-02 | 2013-08-14 | 亿赞普(北京)科技有限公司 | 一种网络舆情信息处理方法和装置 |
CN103744953A (zh) * | 2014-01-02 | 2014-04-23 | 中国科学院计算机网络信息中心 | 一种基于中文文本情感识别的网络热点挖掘方法 |
CN104572877A (zh) * | 2014-12-22 | 2015-04-29 | 网易(杭州)网络有限公司 | 游戏舆情的检测方法及系统 |
CN105095415A (zh) * | 2015-07-10 | 2015-11-25 | 沃民高新科技(北京)股份有限公司 | 网络情绪的确定方法和装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558587A (zh) * | 2018-11-08 | 2019-04-02 | 武汉大学 | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 |
CN109558587B (zh) * | 2018-11-08 | 2021-04-16 | 武汉大学 | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 |
CN109857933A (zh) * | 2019-01-21 | 2019-06-07 | 深圳市祥云万维科技有限公司 | 一种关键词分析系统与方法 |
CN112291614A (zh) * | 2019-07-25 | 2021-01-29 | 北京搜狗科技发展有限公司 | 一种视频生成方法及装置 |
CN111046182A (zh) * | 2019-12-11 | 2020-04-21 | 电子科技大学 | 一种构建互联网短文本情绪标注语料库的方法 |
CN111400437A (zh) * | 2020-02-19 | 2020-07-10 | 北京三快在线科技有限公司 | 互联网信息响应方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108228612B (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yau et al. | Clustering scientific documents with topic modeling | |
Jalal et al. | Text documents clustering using data mining techniques. | |
Mohammed et al. | Lsa & lda topic modeling classification: Comparison study on e-books | |
Inzalkar et al. | A survey on text mining-techniques and application | |
KR20180011254A (ko) | 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기 | |
CN108228612A (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN104392006B (zh) | 一种事件查询处理方法及装置 | |
Lydia et al. | Correlative study and analysis for hidden patterns in text analytics unstructured data using supervised and unsupervised learning techniques | |
CN107180075A (zh) | 文本分类集成层次聚类分析的标签自动生成方法 | |
Karmaker Santu et al. | Generative feature language models for mining implicit features from customer reviews | |
Barua et al. | Multi-class sports news categorization using machine learning techniques: resource creation and evaluation | |
Rashid et al. | Analysis of streaming data using big data and hybrid machine learning approach | |
Jeong et al. | i-TagRanker: an efficient tag ranking system for image sharing and retrieval using the semantic relationships between tags | |
Jedrzejowicz et al. | Text classification using LDA-W2V hybrid algorithm | |
Krishnan et al. | A supervised approach for extractive text summarization using minimal robust features | |
Aliakbary et al. | Web page classification using social tags | |
Shah et al. | An automatic text summarization on Naive Bayes classifier using latent semantic analysis | |
Wawrzinek et al. | Semantic facettation in pharmaceutical collections using deep learning for active substance contextualization | |
Sinha et al. | A comparative analysis of machine learning based sentiment analysis | |
Hamdi et al. | BERT and word embedding for interest mining of instagram users | |
Özyirmidokuz | Mining unstructured Turkish economy news articles | |
Kumar et al. | Aspect-Based Sentiment Analysis of Tweets Using Independent Component Analysis (ICA) and Probabilistic Latent Semantic Analysis (pLSA) | |
CN108062319A (zh) | 一种新主题的实时检测方法及装置 | |
Dai et al. | Approach for text classification based on the similarity measurement between normal cloud models | |
Shinde et al. | Pattern discovery techniques for the text mining and its applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |