CN105589941A - 网络文本的情感信息检测方法和装置 - Google Patents

网络文本的情感信息检测方法和装置 Download PDF

Info

Publication number
CN105589941A
CN105589941A CN201510938187.4A CN201510938187A CN105589941A CN 105589941 A CN105589941 A CN 105589941A CN 201510938187 A CN201510938187 A CN 201510938187A CN 105589941 A CN105589941 A CN 105589941A
Authority
CN
China
Prior art keywords
network text
characteristic vector
centerdot
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510938187.4A
Other languages
English (en)
Inventor
杜晓梦
刘钰
骆永健
党拓
张扬
吴昊
谭树国
张建枝
李红梅
谢靖鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baifendian Information Science & Technology Co Ltd
Original Assignee
Beijing Baifendian Information Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baifendian Information Science & Technology Co Ltd filed Critical Beijing Baifendian Information Science & Technology Co Ltd
Priority to CN201510938187.4A priority Critical patent/CN105589941A/zh
Publication of CN105589941A publication Critical patent/CN105589941A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络文本的情感信息检测方法和装置。其中,所述方法包括对获取的网络文本进行分词处理得到多个词;获取所述多个词的特征向量,得到所述网络文本的特征向量;利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息。解决了现有技术对网络文本信息的情感分析的准确性较差的技术问题。

Description

网络文本的情感信息检测方法和装置
技术领域
本发明属于互联网数据分析技术领域,具体地说,涉及一种网络文本的情感信息检测方法和装置。
背景技术
随着网络与Web2.0的不断发展,社交媒体已经成为了人们日常生活中不可或缺的获得信息和发布信息的重要渠道。移动设备的不断推新,人们可以通过移动设备关注周围发生的事情,并且可以迅速上传到社交媒体中;在社交媒体上,用户可以记录自己的生活,也可以对当下热点发表自己的看法,表达自己的意见,而这一类社交媒体往往含有发布者的情感。如果没有合理进行监测,可能会出现非法信息,错误引导公众的判断,导致舆论走向错误的方向。
例如,网民对产品、服务、重大事件的评价和对热点事件的评论,这些评论表达了用户在某领域的主观倾向性观点,这些带有情感倾向性的文本在新闻、电子商务、政务等方面具有巨大的挖掘潜力。因此,通过对用户在网络上发布的文本信息进行情感分析,从而推断出用户的情感,以实现从社交媒体上挖掘社会群体对于某些热点事件的情感状况。
现有技术对网络上的情感分析主要依赖于关键词,如“愤怒”、“高兴”等词,也包括了一些重大事件的感情词、关键词等,但这些词在一定程度上并没有反映到整个文章、网站、通信信息的感情,因此,现有技术对网络文本信息的情感分析的准确性较差。
发明内容
有鉴于此,本申请提供了一种网络文本的情感信息检测方法和装置,以解决现有技术对网络文本信息的情感分析的准确性较差的技术问题。
为了解决上述技术问题,本申请公开了一种网络文本的情感信息检测方法,包括:
对获取的网络文本进行分词处理得到多个词;
获取所述多个词的特征向量,得到所述网络文本的特征向量;
利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息。
可选地,所述对获取的网络文本进行分词处理得到多个词之前,包括:
对所述获取的网络文本进行情感极性的确定;
若确定所述获取的网络文本的情感极性为正面极性或负面极性,则对所述网络文本进行无用信息去除处理。
可选地,所述对获取的网络文本进行分词处理得到多个词之后,包括:
获取所述多个词中每个词的特征值。
可选地,获取所述多个词的特征向量,得到所述网络文本的特征向量,包括:
根据所述多个词中每个词的特征值,构建所述多个词的特征向量,得到所述网络文本的特征向量。
可选地,获取所述多个词的特征向量,得到所述网络文本的特征向量,包括:
所述网络文本的特征向量表达式为:
1 : Σ i = 1 n t i · d 1 200 , 2 : Σ i = 1 n t i · d 2 200 , ... , 200 : Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值。
可选地,获取所述多个词的特征向量,得到所述网络文本的特征向量,包括:
所述网络文本的特征向量表达式为:
1 : ( t i · I D F ) * Σ i = 1 n t i · d 1 200 , 2 : ( t i · I D F ) * Σ i = 1 n t i · d 2 200 , ... , 200 : ( t i · I D F ) * Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值,ti·IDF表示第i个词条ti的特征值,作为特征向量的权重。
可选地,所述调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的网络文本进行情感分类处理基础上得到的调优参数,用于表示根据所述调优参数生成的情感分类器的准确率为最优。
可选地,所述情感分类器包括情感句识别分类器和情感极性分类器;
当所述调优参数中的c参数为8、gamma参数为0.03125时,根据所述调优参数生成的情感句识别分类器的准确率为88.6163%;
当所述调优参数中的c参数为2、gamma参数为0.125时,根据所述调优参数生成的情感极性分类器的准确率为92.2894%。
本发明还提供一种网络文本的情感信息检测装置,包括:
分词模块,用于对获取的网络文本进行分词处理得到多个词;
获取特征向量模块,用于获取所述多个词的特征向量,得到所述网络文本的特征向量;
情感分类模块,用于利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息。
可选地,所述的装置还包括:
情感极性确定模块,用于对所述获取的网络文本进行情感极性的确定;
去噪模块,用于若确定所述获取的网络文本的情感极性为正面极性或负面极性,则对所述网络文本进行无用信息去除处理。
可选地,所述的装置还包括:
获取特征值模块,用于获取所述多个词中每个词的特征值。
可选地,所述获取特征向量模块:用于根据所述获取特征值模块获取的多个词中每个词的特征值,构建所述多个词的特征向量,得到所述网络文本的特征向量。
可选地,所述获取特征向量模块具体用于:根据所述网络文本的特征向量表达式计算所述网络文本的特征向量;
所述网络文本的特征向量表达式为:
1 : Σ i = 1 n t i · d 1 200 , 2 : Σ i = 1 n t i · d 2 200 , ... , 200 : Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值。
可选地,所述获取特征向量模块具体用于:根据所述网络文本的特征向量表达式计算所述网络文本的特征向量;
所述网络文本的特征向量表达式为:
1 : ( t i · I D F ) * Σ i = 1 n t i · d 1 200 , 2 : ( t i · I D F ) * Σ i = 1 n t i · d 2 200 , ... , 200 : ( t i · I D F ) * Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值,ti·IDF表示第i个词条ti的特征值,作为特征向量的权重。
可选地,所述调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的网络文本进行情感分类处理基础上得到的调优参数,用于表示根据所述调优参数生成的情感分类器的准确率为最优。
可选地,所述情感分类器包括情感句识别分类器和情感极性分类器;
当所述调优参数中的c参数为8、gamma参数为0.03125时,根据所述调优参数生成的情感句识别分类器的准确率为88.6163%;
当所述调优参数中的c参数为2、gamma参数为0.125时,根据所述调优参数生成的情感极性分类器的准确率为92.2894%。
本发明实施例对获取的网络文本进行分词处理得到多个词;获取所述多个词的特征向量,得到所述网络文本的特征向量;利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息。由于本发明实施例采用的调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的网络文本进行情感分类处理基础上得到的,用于表示根据所述调优参数生成的情感分类器的准确率为最优,因此,利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息的准确率也是最高的,可以解决现有技术对网络文本信息的情感分析的准确性较差的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的提供的一种网络文本的情感信息检测方法的流程示意图;
图2为本发明实施例应用的特征值搜索引擎示意图;
图3为本发明实施例应用的情感分类器的测试结果示意图;
图4为本发明实施例应用的情感识别分类器的情感识别交叉验证结果示意图;
图5为本发明实施例应用的情感极性分类器的情感极性交叉验证结果示意图;
图6是本申请实施例的一种网络文本的情感信息检测装置的结构示意图。
具体实施方式
以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素
现有技术中,对网络文本的情感分析技术大多基于情感词词典,例如该词典包含航空、旅行社、酒店、电子产品等领域,每个领域都有其对应的情感词及情感分类,如二分类情感(正倾向情感、负倾向情感)、四分类情感(喜欢、羡慕、讨厌、憎恶)等,每一类情感都对应其特定的情感词库,根据网络文本中包含的情感词判断该网络文本的情感倾向,但这些情感词在一定程度上并没有反映到整个文章、网站、通信信息的感情,进一步地,由于网络文本所涉及领域、所处地域、表达习惯、结构风格等的差异,纯粹的基于情感词典技术判断网络文本的情感倾向会存在准确率较低的问题。
因为感情是推动一个事情、事件发展的重大因素,从感情的强弱,能够分析出事件和事情发展的状况等,这些事件和事情的发展,一定程度上影响着网络舆情和网络信息的安全。情感分析对舆情的发展和控制舆情起到重要的作用,因此,需要一种准确率较高的网络文本的情感信息检测方法用于判断网络文本的情感倾向。
为此,本发明提供一种网络文本的情感信息检测方法,由于本发明实施例采用的调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的网络文本进行情感分类处理基础上得到的,用于表示根据所述调优参数生成的情感分类器的准确率为最优,因此,利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息的准确率也是最高的。具体实现时包括,对获取的网络文本进行分词处理得到多个词;获取所述多个词的特征向量,得到所述网络文本的特征向量;利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息。
图1是本申请实施例的提供的一种网络文本的情感信息检测方法的流程示意图;如图1所示,包括:
101、对获取的网络文本进行分词处理得到多个词;
在本发明的一个可选的实施方式中,本发明实施例可以从互联网上获取不同种类的互联网文本(又称语料),以微博文本(语料的一种)为例,主要基于微博的API(ApplicationProgrammingInterface,应用程序编程接口)通过网络爬虫从微博上爬取,并保存到相应数据库。
众所周知,每天在互联网社交媒体上产生上亿的网络文本信息,假设对每个网络文本都进行检测的话,需要花很多的时间,为此,在本发明的一个可选的实施方式中,为了提高对网络文本的情感信息的检测效率,需要对获取的网络文本进行用户等级的过滤,例如,用户之间存在的社会关系和用户的影响力大小等,网络中用户影响力的大小对网络文本采集有着关键的影响。本发明实施例中,结合用户等级,对获取的网络文本进行过滤。其中,用户等级的计算可以是基于用户影响力评价模型,与用户的活跃度、用户的关注者数、用户发布的频率、发表的数量等有关,在此不再赘述。例如,计算用户等级值,对计算结果排序,过滤掉等级低于预设值的用户发布的网络文本。
在本发明的一个可选的实施方式中,在步骤101对获取的网络文本进行分词处理得到多个词之前,包括:
对所述获取的网络文本进行情感极性的确定;若确定所述获取的网络文本的情感极性为正面极性或负面极性,则对所述网络文本进行无用信息去除处理。
本发明的一个可选的实施方式中,可以采用情感词词典技术,通常,情感词词典中包含各种不同领域(如航空、旅行社、酒店、电子产品等)的情感词以及情感极性,每一类情感极性都对应其特定的情感词库,根据网络文本中包含的情感词判断该网络文本的情感极性。具体实现时,可以对每个获取的网络文本(以句子为例)标注唯一的标识(SentenceID);Text为文本信息;Polarity表示文本的情感极性,其中,Polarity=0表示文本不是情感句,Polarity=1表示文本是情感句并且是正面信息,Polarity=-1表示文本是情感句并且是负面信息。如表1所示的一种情感极性表:
SentenceID Text Polarity
1 我们国家越来越强盛啦! 1
2 究竟还要忍多久! 0
3 我们的军队是摆设吗? -1
进一步的,对网络文本进行无用信息的去除处理,例如,去除“用户名”格式的信息,过滤掉开头含有标志位格式的信息。无用信息的去除后,对网络文本做进行分词处理,分成多个词。在本发明实施例的一个可选实施方式中,例如可以使用中科院ICTCLAS分词系统对网络文本进行分词并去除停用词(即没有意义的词)。表2为对网络文本的分词处理前后的对照表:
原微博文本 #平凡的世界#挺喜欢王雷演的这个孙少安
去噪后的微博文本 挺喜欢王雷演的这个孙少安
分词后的微博文本 /挺/喜欢/王雷/演/的/这个/孙少安/
去除停用词的微博文本 /挺/喜欢/王雷/演/孙少安/
102、获取所述多个词的特征向量,得到所述网络文本的特征向量;
当网络文本为句子时,句子的特征向量是由句子中每个词的特征值或者特征向量组成。
在本发明实施例一种可选的实施方式中,使用词的特征值(TFIDF)构成句子的特征向量,其中,TFIDF是一种用于资讯检索与资讯探勘的常用加权技术,不再赘述,步骤102具体实现时包括:
获取所述多个词中每个词的特征值,根据所述多个词中每个词的特征值,构建所述多个词的特征向量,得到所述网络文本的特征向量。
本发明实施例中预先设置每个词对应的特征值,保存到特征值库中,因此,可以在特征值库中查询到每个词对应的特征值,图2为本发明实施例应用的特征值搜索引擎示意图,如2所示,在输入框中输入喜欢,即可得到喜欢这个词对应的特征值。
在介绍特征向量之前,我们先了解一下特征,特征是一个键值对index:value,index表示维度,即在一个维度上的值为value。每个词由一个特征值构成,或者一个特征向量构成,句子的特征向量是由句子中每个词的特征项或者特征向量组成。
本发明实施例中,预先以200维度作为词的特征向量(Word2vec)训练的参数,挖掘词与词间的语义关系。特征向量(Word2vec)处理结果例如可以保存在bin文件中,使用的时候可以查询bin文件获取词的特征向量,其中,Word2vec是词向量模型训练的一种开源实现。比如在bin文件中查询“喜欢”这个词的特征向量,表3为喜欢的特征向量:
特征维度 特征值
1 0.038188275
2 -0.032744862
3 -0.041994255
4 -0.07671583
... ...
... ...
199 -0.03206084
200 -0.049005065
在本发明实施例一种可选的实施方式中,步骤102具体实现时包括:
在保存特征向量的文件中查到每个词的特征向量,每个词都是一个200维度的向量,表示所述网络文本的特征向量表达式为:
1 : Σ i = 1 n t i · d 1 200 , 2 : Σ i = 1 n t i · d 2 200 , ... , 200 : Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值。
在本发明实施例一种可选的实施方式中,步骤102具体实现时包括:
在特征值表中查找词的特征值、在特征向量文件中查到词的特征向量,所述网络文本的特征向量表达式为:
1 : ( t i · I D F ) * Σ i = 1 n t i · d 1 200 , 2 : ( t i · I D F ) * Σ i = 1 n t i · d 2 200 , ... , 200 : ( t i · I D F ) * Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值,ti·IDF表示第i个词条ti的特征值,作为特征向量的权重。
由此可以看出,每个句子的特征向量同样也是200维度,其实,句子跟词的性质是一样的,只不过句子是一个比较长的词。
103、利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息。
实验中使用到两个数据语料库:基本语料库和情感语料库。基础语料库是数据支持,研究的基础。从基础语料库中发掘词的含义和特征表达。情感语料库同样是我们研究的基础,它提供了情感句和非情感句,情感句中又包含正面情感文本和负面情感文本。对基本语料库进行数据清洗后,采用Skip-Gram语言模型,利用word2vec进行词向量训练,用以表示词在上下文中的语义,表4是本次训练的参数。从处理结果中进一步对词处理和统计,可以提取出TFIDF特征和word2vec特征向量。使用TFIDF*word2vec构造微博文本特征向量。从情感语料库中,选取情感句、非情感句作为训练语料,把生成的文本特征向量提交给libsvm进行构造情感分类器,从情感语料库选取正向情感句、负向情感句作为训练语料,把生成的文本特征向量提交给libsvm进行构造情感极性分类器。其中libsvm中有两个非常重要的参数c、g,对分类器预测结果的准确度有很重要的影响,libsvm借助于python脚本进行5倍交叉验证,其原理是将数据文件平均分成n等份,其中n-i份数据作为训练数据,i份数据作为预测数据,选取一定的阈值进行交叉验证,以得到最高的准确率作为最佳c、g参数的依据。表5和表6对应是对应的交叉验证
表4训练参数
表5情感分类交叉验证结果集
表6情感极性分类交叉验证结果集
本发明实施例所述的调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的网络文本进行情感分类处理基础上得到的调优参数,用于表示根据所述调优参数生成的情感分类器的准确率为最优。
在步骤102获取的网络文本的特征向量的基础上,将网络文本的特征向量提交给libsvm构造的情感分类器进行情感分类处理,得到所述网络文本的情感信息。
其中,LIBSVM是一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,SVM(SupportVectorMachine,支持向量机)是一种机器学习算法,用来处理线性可分的数据,当数据线性不可分时,SVM会将数据映射到高维空间中使其线性可分。
情感分类器是数据挖掘中对样本(本实施例中的样本为网络文本的特征向量)进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
其中,LIBSVM中有两个非常重要的参数c、g,对情感分类器预测结果的准确度有很重要的关系,本发明实施例在对大量的网络文本进行情感分类处理的实验基础上,使用python脚本来得出c、g的最优值。
在统计学中经常使用召回率、准确率和F1来评估一个分类器的性能。召回率也叫查全率,准确率也叫查准率。但是在很多情况下准确率和召回率是相互影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率就高,当然如果两者都低说明分类器性能太差了。F值是综合召回率和准确率对分类器整体性能的一个评估。
图3为本发明实施例应用的情感分类器的一种测试结果示意图,如图3所示:
A——分类器预测正确的情感句
B——分类器预测错误的情感句
C——是情感句,且分类器没有预测出来
D——不是情感句,且分类器没有预测数来
召回率R:用分类器预测正确的文本数量作为分子,测试数据中所有的情感句数量作为分母,即
准确率P:用分类器预测正确的文本数量作为分子,分类器预测出来的情感句数量作为分母,即
F值:是一种折中的统计方法,评估分类器的整体性能,
本发明实施例中,当使用使用TFIDF*word2vec构造网络文本的特征向量时,libsvm处理网络文本特征向量时,使用调优参数c、g调优处理,生成情感句识别分类器.
图4为本发明实施例应用的情感识别分类器的情感识别交叉验证结果示意图,如图4所示,当c=8、gamma=0.03125时,结果准确率最高为88.6163%。因此,在使用情感句识别分类器的时候可以设置参数c=8,g=0.03125。
图5为本发明实施例应用的情感极性分类器的情感极性交叉验证结果示意图,如图5所示,当c=2、gamma=0.125时,结果准确率最高为92.2894%。所以在使用libsvm训练情感极性分类器的时候添加参数c=2、g=0.125。
本发明实施例对获取的网络文本进行分词处理得到多个词;获取所述多个词的特征向量,得到所述网络文本的特征向量;利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息。由于本发明实施例采用的调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的网络文本进行情感分类处理基础上得到的,用于表示根据所述调优参数生成的情感分类器的准确率为最优,因此,利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息的准确率也是最高的,因此,可以解决现有技术对网络文本信息的情感分析的准确性较差的技术问题。
进一步地,本发明实施例对网络文本的情感分类检测和分析不需要人工分析,节省时间成本,提高了检测和分析效率;同时,本发明实施例对网络文本的情感分类检测和分析可以由单个用户自己使用,也可以由公司、企业以及政府机关部门使用,应用范围广。
图6是本申请实施例的一种网络文本的情感信息检测装置的结构示意图,如图6所示,包括:
分词模块61,用于对获取的网络文本进行分词处理得到多个词;
获取特征向量模块62,用于获取所述多个词的特征向量,得到所述网络文本的特征向量;
情感分类模块63,用于利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息。
可选地,本发明所述装置还包括:
情感极性确定模块64,用于对所述获取的网络文本进行情感极性的确定;
去噪模块65,用于若确定所述获取的网络文本的情感极性为正面极性或负面极性,则对所述网络文本进行无用信息去除处理。
可选地,所述的装置,还包括:
获取特征值模块66,用于获取所述多个词中每个词的特征值。
可选地,所述获取特征向量模块62:用于根据所述获取特征值模块获取的多个词中每个词的特征值,构建所述多个词的特征向量,得到所述网络文本的特征向量。
可选地,所述获取特征向量模块62具体用于:根据所述网络文本的特征向量表达式计算所述网络文本的特征向量;
所述网络文本的特征向量表达式为:
1 : Σ i = 1 n t i · d 1 200 , 2 : Σ i = 1 n t i · d 2 200 , ... , 200 : Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值。
可选地,所述获取特征向量模块62具体用于:根据所述网络文本的特征向量表达式计算所述网络文本的特征向量;
所述网络文本的特征向量表达式为:
1 : ( t i · I D F ) * Σ i = 1 n t i · d 1 200 , 2 : ( t i · I D F ) * Σ i = 1 n t i · d 2 200 , ... , 200 : ( t i · I D F ) * Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值,ti·IDF表示第i个词条ti的特征值,作为特征向量的权重。
其中,所述调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的网络文本进行情感分类处理基础上得到的调优参数,用于表示根据所述调优参数生成的情感分类器的准确率为最优。
其中,所述情感分类器包括情感句识别分类器和情感极性分类器;
当所述调优参数中的c参数为8、gamma参数为0.03125时,根据所述调优参数生成的情感句识别分类器的准确率为88.6163%;
当所述调优参数中的c参数为2、gamma参数为0.125时,根据所述调优参数生成的情感极性分类器的准确率为92.2894%。
图6所示装置可以执行图1所示实施例所述的方法,其实现原理和技术效果不再赘述。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (16)

1.一种网络文本的情感信息检测方法,其特征在于,包括:
对获取的网络文本进行分词处理得到多个词;
获取所述多个词的特征向量,得到所述网络文本的特征向量;
利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息。
2.如权利要求1所述的方法,其特征在于,所述对获取的网络文本进行分词处理得到多个词之前,包括:
对所述获取的网络文本进行情感极性的确定;
若确定所述获取的网络文本的情感极性为正面极性或负面极性,则对所述网络文本进行无用信息去除处理。
3.如权利要求1所述的方法,其特征在于,所述对获取的网络文本进行分词处理得到多个词之后,包括:
获取所述多个词中每个词的特征值。
4.如权利要求1或3所述的方法,其特征在于,获取所述多个词的特征向量,得到所述网络文本的特征向量,包括:
根据所述多个词中每个词的特征值,构建所述多个词的特征向量,得到所述网络文本的特征向量。
5.如权利要求1所述的方法,其特征在于,获取所述多个词的特征向量,得到所述网络文本的特征向量,包括:
所述网络文本的特征向量表达式为:
1 : Σ i = 1 n t i · d 1 200 ; 2 : Σ i = 1 n t i · d 2 200 , ... , 200 : Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值。
6.如权利要求1或3所述的方法,其特征在于,获取所述多个词的特征向量,得到所述网络文本的特征向量,包括:
所述网络文本的特征向量表达式为:
1 : ( t i · I D F ) * Σ i = 1 n t i · d 1 200 ; 2 : ( t i · I D F ) * Σ i = 1 n t i · d 2 200 , ... , 200 : ( t i · I D F ) * Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值,ti·IDF表示第i个词条ti的特征值,作为特征向量的权重。
7.如权利要求1所述的方法,其特征在于,所述调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的网络文本进行情感分类处理基础上得到的调优参数,用于表示根据所述调优参数生成的情感分类器的准确率为最优。
8.如权利要求7所述的方法,其特征在于,所述情感分类器包括情感句识别分类器和情感极性分类器;
当所述调优参数中的c参数为8、gamma参数为0.03125时,根据所述调优参数生成的情感句识别分类器的准确率为88.6163%;
当所述调优参数中的c参数为2、gamma参数为0.125时,根据所述调优参数生成的情感极性分类器的准确率为92.2894%。
9.一种网络文本的情感信息检测装置,其特征在于,包括:
分词模块,用于对获取的网络文本进行分词处理得到多个词;
获取特征向量模块,用于获取所述多个词的特征向量,得到所述网络文本的特征向量;
情感分类模块,用于利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息。
10.如权利要求9所述的装置,其特征在于,还包括:
情感极性确定模块,用于对所述获取的网络文本进行情感极性的确定;
去噪模块,用于若确定所述获取的网络文本的情感极性为正面极性或负面极性,则对所述网络文本进行无用信息去除处理。
11.如权利要求9所述的装置,其特征在于,还包括:
获取特征值模块,用于获取所述多个词中每个词的特征值。
12.如权利要求9或11所述的装置,其特征在于,所述获取特征向量模块:用于根据所述获取特征值模块获取的多个词中每个词的特征值,构建所述多个词的特征向量,得到所述网络文本的特征向量。
13.如权利要求9所述的装置,其特征在于,所述获取特征向量模块具体用于:根据所述网络文本的特征向量表达式计算所述网络文本的特征向量;
所述网络文本的特征向量表达式为:
1 : Σ i = 1 n t i · d 1 200 ; 2 : Σ i = 1 n t i · d 2 200 , ... , 200 : Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值。
14.如权利要求9或11所述的装置,其特征在于,所述获取特征向量模块具体用于:根据所述网络文本的特征向量表达式计算所述网络文本的特征向量;
所述网络文本的特征向量表达式为:
1 : ( t i · I D F ) * Σ i = 1 n t i · d 1 200 ; 2 : ( t i · I D F ) * Σ i = 1 n t i · d 2 200 , ... , 200 : ( t i · I D F ) * Σ i = 1 n t i · d 200 200
其中,i表示网络文本中第i个词,ti表示网络文本中第i个词条,d1表示第i个词条在特征向量中第一维度的值,ti·d1表示第i个词条ti第一维度的值,ti·IDF表示第i个词条ti的特征值,作为特征向量的权重。
15.如权利要求9所述的装置,其特征在于,所述调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的网络文本进行情感分类处理基础上得到的调优参数,用于表示根据所述调优参数生成的情感分类器的准确率为最优。
16.如权利要求15所述的装置,其特征在于,所述情感分类器包括情感句识别分类器和情感极性分类器;
当所述调优参数中的c参数为8、gamma参数为0.03125时,根据所述调优参数生成的情感句识别分类器的准确率为88.6163%;
当所述调优参数中的c参数为2、gamma参数为0.125时,根据所述调优参数生成的情感极性分类器的准确率为92.2894%。
CN201510938187.4A 2015-12-15 2015-12-15 网络文本的情感信息检测方法和装置 Pending CN105589941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510938187.4A CN105589941A (zh) 2015-12-15 2015-12-15 网络文本的情感信息检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510938187.4A CN105589941A (zh) 2015-12-15 2015-12-15 网络文本的情感信息检测方法和装置

Publications (1)

Publication Number Publication Date
CN105589941A true CN105589941A (zh) 2016-05-18

Family

ID=55929520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510938187.4A Pending CN105589941A (zh) 2015-12-15 2015-12-15 网络文本的情感信息检测方法和装置

Country Status (1)

Country Link
CN (1) CN105589941A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055673A (zh) * 2016-06-06 2016-10-26 中国人民解放军国防科学技术大学 一种基于文本特征嵌入的中文短文本情感分类方法
CN106227054A (zh) * 2016-08-30 2016-12-14 广东美的制冷设备有限公司 一种基于用户情感的温度控制方法、系统和家电
CN106303675A (zh) * 2016-08-24 2017-01-04 北京奇艺世纪科技有限公司 一种视频片段提取方法和装置
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN106933993A (zh) * 2017-02-27 2017-07-07 北京邮电大学 一种资讯处理方法及装置
CN107315797A (zh) * 2017-06-19 2017-11-03 江西洪都航空工业集团有限责任公司 一种网络新闻获取及文本情感预测系统
CN107391545A (zh) * 2017-05-25 2017-11-24 阿里巴巴集团控股有限公司 一种对用户进行分类的方法、输入方法及装置
CN107679135A (zh) * 2017-09-22 2018-02-09 深圳市易图资讯股份有限公司 面向网络文本大数据的话题检测与跟踪方法、装置
CN108287860A (zh) * 2017-09-05 2018-07-17 腾讯科技(深圳)有限公司 模型生成方法、垃圾文件识别方法及装置
WO2018184518A1 (zh) * 2017-04-07 2018-10-11 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN108733675A (zh) * 2017-04-14 2018-11-02 北大方正集团有限公司 基于大量样本数据的情感评价方法及装置
CN111061870A (zh) * 2019-11-25 2020-04-24 三角兽(北京)科技有限公司 文章的质量评价方法及装置
WO2020119533A1 (zh) * 2018-12-14 2020-06-18 深圳壹账通智能科技有限公司 基于循环神经网络算法的舆情预警方法、装置、终端及介质
CN111343508A (zh) * 2020-02-28 2020-06-26 网易(杭州)网络有限公司 信息显示控制方法及装置、电子设备、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103678320A (zh) * 2012-09-03 2014-03-26 腾讯科技(深圳)有限公司 网络信息的挖掘方法和装置
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
US9075796B2 (en) * 2012-05-24 2015-07-07 International Business Machines Corporation Text mining for large medical text datasets and corresponding medical text classification using informative feature selection
CN104794241A (zh) * 2015-05-11 2015-07-22 苏州大学 一种基于情绪倾向性的新闻分类方法及系统
CN104951548A (zh) * 2015-06-24 2015-09-30 烟台中科网络技术研究所 一种负面舆情指数的计算方法及系统
CN104965822A (zh) * 2015-07-29 2015-10-07 中南大学 一种基于计算机信息处理技术的中文文本情感分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9075796B2 (en) * 2012-05-24 2015-07-07 International Business Machines Corporation Text mining for large medical text datasets and corresponding medical text classification using informative feature selection
CN103678320A (zh) * 2012-09-03 2014-03-26 腾讯科技(深圳)有限公司 网络信息的挖掘方法和装置
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN104794241A (zh) * 2015-05-11 2015-07-22 苏州大学 一种基于情绪倾向性的新闻分类方法及系统
CN104951548A (zh) * 2015-06-24 2015-09-30 烟台中科网络技术研究所 一种负面舆情指数的计算方法及系统
CN104965822A (zh) * 2015-07-29 2015-10-07 中南大学 一种基于计算机信息处理技术的中文文本情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚志勇: "《SAS编程与数据挖掘商业案例》", 1 May 2010, 机械工业出版社 *
李书全: "《精益建设技术采纳行为与决策模型》", 1 April 2015, 清华大学出版社 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055673B (zh) * 2016-06-06 2019-09-13 中国人民解放军国防科学技术大学 一种基于文本特征嵌入的中文短文本情感分类方法
CN106055673A (zh) * 2016-06-06 2016-10-26 中国人民解放军国防科学技术大学 一种基于文本特征嵌入的中文短文本情感分类方法
CN106303675A (zh) * 2016-08-24 2017-01-04 北京奇艺世纪科技有限公司 一种视频片段提取方法和装置
CN106303675B (zh) * 2016-08-24 2019-11-15 北京奇艺世纪科技有限公司 一种视频片段提取方法和装置
CN106227054A (zh) * 2016-08-30 2016-12-14 广东美的制冷设备有限公司 一种基于用户情感的温度控制方法、系统和家电
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN106933993A (zh) * 2017-02-27 2017-07-07 北京邮电大学 一种资讯处理方法及装置
CN106933993B (zh) * 2017-02-27 2019-12-24 北京邮电大学 一种资讯处理方法及装置
WO2018184518A1 (zh) * 2017-04-07 2018-10-11 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN108733675A (zh) * 2017-04-14 2018-11-02 北大方正集团有限公司 基于大量样本数据的情感评价方法及装置
CN107391545A (zh) * 2017-05-25 2017-11-24 阿里巴巴集团控股有限公司 一种对用户进行分类的方法、输入方法及装置
CN107391545B (zh) * 2017-05-25 2020-09-18 阿里巴巴集团控股有限公司 一种对用户进行分类的方法、输入方法及装置
CN107315797A (zh) * 2017-06-19 2017-11-03 江西洪都航空工业集团有限责任公司 一种网络新闻获取及文本情感预测系统
CN108287860A (zh) * 2017-09-05 2018-07-17 腾讯科技(深圳)有限公司 模型生成方法、垃圾文件识别方法及装置
CN107679135A (zh) * 2017-09-22 2018-02-09 深圳市易图资讯股份有限公司 面向网络文本大数据的话题检测与跟踪方法、装置
WO2020119533A1 (zh) * 2018-12-14 2020-06-18 深圳壹账通智能科技有限公司 基于循环神经网络算法的舆情预警方法、装置、终端及介质
CN111061870A (zh) * 2019-11-25 2020-04-24 三角兽(北京)科技有限公司 文章的质量评价方法及装置
CN111343508A (zh) * 2020-02-28 2020-06-26 网易(杭州)网络有限公司 信息显示控制方法及装置、电子设备、存储介质
WO2021169092A1 (zh) * 2020-02-28 2021-09-02 网易(杭州)网络有限公司 信息显示控制方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN105589941A (zh) 网络文本的情感信息检测方法和装置
Joshi et al. A survey on feature level sentiment analysis
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
Fei et al. Social media text classification under negative covariate shift
Nguyen et al. Real-time event detection using recurrent neural network in social sensors
Gupta et al. A novel hybrid text summarization system for Punjabi text
Indriani et al. Comparison of Naive Bayes smoothing methods for Twitter sentiment analysis
Hamoud et al. Classifying political tweets using Naïve Bayes and support vector machines
Sheshasaayee et al. Comparison of classification algorithms in text mining
Arif et al. A machine learning based approach for opinion mining on social network data
Khan et al. Lifelong aspect extraction from big data: knowledge engineering
Arif et al. Sentiment analysis of roman urdu/hindi using supervised methods
Khan et al. Aspect-based sentiment analysis on a large-scale data: Topic models are the preferred solution
Yang et al. Microblog sentiment analysis algorithm research and implementation based on classification
Mishra et al. Evaluating Performance of Machine Leaming Techniques used in Opinion Mining
CN115062135B (zh) 一种专利筛选方法与电子设备
Zheng et al. Comparing multiple categories of feature selection methods for text classification
Sonawane et al. Extracting sentiments from reviews: A lexicon-based approach
Iyer et al. Identifying policy agenda sub-topics in political tweets based on community detection
US10387472B2 (en) Expert stance classification using computerized text analytics
US11341188B2 (en) Expert stance classification using computerized text analytics
Rao et al. Sarcasm Detection for Sentiment Analysis: A RNN-Based Approach Using Machine Learning
Karpagalingam et al. Optimal Feature Subset Selection Based on Combining Document Frequency and Term Frequency for Text Classification.
Sayeedunnisa et al. Feature Selection by Associativity for Sentiment Analysis
Kalaivani et al. Classification of sentiment reviews using POS based machine learning approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160518