CN106897439B - 文本的情感识别方法、装置、服务器以及存储介质 - Google Patents

文本的情感识别方法、装置、服务器以及存储介质 Download PDF

Info

Publication number
CN106897439B
CN106897439B CN201710113148.XA CN201710113148A CN106897439B CN 106897439 B CN106897439 B CN 106897439B CN 201710113148 A CN201710113148 A CN 201710113148A CN 106897439 B CN106897439 B CN 106897439B
Authority
CN
China
Prior art keywords
text
classified
rule
recognition
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710113148.XA
Other languages
English (en)
Other versions
CN106897439A (zh
Inventor
刘坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710113148.XA priority Critical patent/CN106897439B/zh
Publication of CN106897439A publication Critical patent/CN106897439A/zh
Application granted granted Critical
Publication of CN106897439B publication Critical patent/CN106897439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本的情感识别方法、装置、服务器以及存储介质,其中,该情感识别方法包括:获取待分类文本;基于设定的识别规则对所述待分类文本进行识别;如果所述待分类文本满足设定的识别规则,则将与所述识别规则对应的情感分类作为所述待分类文本的情感识别结果;如果所述待分类文本不满足设定的识别规则,则利用贝叶斯分类器对所述待分类文本进行识别,以确定所述待分类文本的情感识别结果。采用上述方法可以实现准确的对文本进行情感识别和分类。

Description

文本的情感识别方法、装置、服务器以及存储介质
技术领域
本发明实施例涉及信息技术,尤其涉及一种文本的情感识别方法、装置、服务器以及存储介质。
背景技术
随着互联网的迅猛发展,各类互联网产品的用户数量急剧增加,越来越多的用户习惯在网上分享关于互联网产品的使用体验,比如用户在使用互联网产品过程中的使用体验,又如对互联网产品提供服务的使用体验。一般而言,这类使用体验中通常带有用户的主观情感信息,互联网产品的运营者通常会搜集这些主观情感信息,以便根据这些主观情感信息对互联网产品进行改进。因此,用户的使用体验已经成为产品设计和运营服务的核心准则。
由于互联网产品的用户群的数量非常的庞大,若运营者逐一对每条使用体验手动进行情感信息的分类,则会耗费大量的人力。因此,现有技术中,通常预先对一些可以表示用户情感信息分类的关键词进行提取,并根据这些关键词的情感值确定用户评价的情感分类。
然而,对于某些特定的句式结构,仅根据关键词识别并不能得到准确的情感分类结果。比如“产品不是不好”,采用现有技术进行识别时,可以识别出“不是”和“不好”两个关键词,且由于两个关键词都属于负面情感词,因此,最后得到的情感分类结果为负面评价,但是,该评价实际上属于正面评价,所以,采用现有技术便得到了错误的情感分类结果。另外,对于某些新出现的词语,由于无法随时更新关键词词库,因此也会导致得到错误的情感分类结果。
发明内容
本发明实施例提供一种文本的情感识别方法、装置、服务器以及存储介质,以实现准确的对文本进行情感识别和分类。
第一方面,本发明实施例提供了一种文本的情感识别方法,包括:
获取待分类文本;
基于设定的识别规则对所述待分类文本进行识别;
如果所述待分类文本满足设定的识别规则,则将与所述识别规则对应的情感分类作为所述待分类文本的情感识别结果;
如果所述待分类文本不满足设定的识别规则,则利用贝叶斯分类器对所述待分类文本进行识别,以确定所述待分类文本的情感识别结果。
第二方面,本发明实施例还提供了一种文本的情感识别装置,包括:
获取模块,用于获取待分类文本;
识别模块,用于基于设定的识别规则对所述待分类文本进行识别;
第一结果模块,用于如果所述待分类文本满足设定的识别规则,则将与所述识别规则对应的情感分类作为所述待分类文本的情感识别结果;
第二结果模块,用于如果所述待分类文本不满足设定的识别规则,则利用贝叶斯分类器对所述待分类文本进行识别,以确定所述待分类文本的情感识别结果。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中所述的文本的情感识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中所述的文本的情感识别方法。
本发明实施例提供的文本的情感识别方法、装置、服务器以及存储介质,通过基于设定的识别规则对获取的待分类文本进行识别,如果待分类文本满足设定的识别规则,则根据设定的识别规则确定待分类文本的情感识别结果,如果待分类文本不满足设定的识别规则,则可以利用贝叶斯分类器确定待分类文本的情感识别结果的技术手段,灵活地运用了识别规则和贝叶斯分类方式的特点,提高了对待分类文本进行情感识别时的准确性,一方面可以更好地根据待分类文本对产品设计和运营方面进行流程和服务规范的改进,另一方面可以对产生负面评价的用户进行很好的安抚,以避免影响扩大,同时减小了对待分类文本进行情感识别时的工作量。
附图说明
图1a为本发明实施例一提供的文本的情感识别方法的流程图;
图1b为本发明实施例一提供的文本的情感识别方法的流程图;
图2为本发明实施例二提供的文本的情感识别方法的流程图;
图3为本发明实施例三提供的文本的情感识别方法的流程图;
图4为本发明实施例四提供的文本的情感识别装置的结构示意图;
图5为本发明实施例五提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1a为本发明实施例一提供的文本的情感识别方法的流程图,本实施例可适用于对用户输入的文本,如用户评价,进行情感识别的情况,该方法可以由文本的情感识别装置来执行,该情感识别装置可以通过软件和/或硬件的方式实现,并集成在服务器中。参考图1a,本实施例提供的情感识别方法具体包括:
S110、获取待分类文本。
其中,待分类文本是用户输入的,带有情感信息的短文本。比如,用户针对某一个产品的使用评价,又如,用户输入的心情日记等。
获取待分类文本时,可以是通过网络获取全部用户在设定时间间隔内输入的文本;还可以是通过网络获取某一类用户在设定时间间隔内输入的文本,其中,某一类用户可以是使用某一类产品的用户,或者体验某一项功能的用户,比如,获取近一个月内使用地图出行服务用户的用户评价;也可以是对通过上述两类方式获取的文本进行抽样,抽样后得到的文本为获取的待分类文本。
S120、基于设定的识别规则对所述待分类文本进行识别。
其中,设定的识别规则为预先设定的包含特定关键词、特定句式结构和/或多个关键词之间语法信息的规则。其具体的设定规则,本实施例不作限定。例如,可以获取一段时间内的文本以及与该文本对应的情感识别结果,并通过分析组成这类文本的关键词以及各关键词之间的语法信息或者句式结构,确定可以得到情感识别结果的多个识别规则。可选的,每个设定的识别规则可以对同一类内容的待分类文本进行识别,比如,一个设定的识别规则为:(服务|态度).*([^不]好|热情),根据该识别规则可以识别包括“服务”或者“态度”以及包括“好”或者“热情”,且在“好”或者“热情”之前没有出现与“不”相关词汇的待分类文本,即根据该设定的识别规则可以对“服务很好”这类文本进行识别。
具体的,在对待分类文本进行识别时,可以先拆分待分类文本得到至少一个关键词、各关键词间的语法信息以及句式结构,并将拆分得到的数据与设定的识别规则进行匹配,得到匹配结果。可选的,某些待分类文本中可能仅包含一个关键词,比如“好评”或者“666”,此时,无需对待分类文本继续拆分,仅需将该待分类文本与预设的识别规则进行识别即可。
S130、如果所述待分类文本满足设定的识别规则,则将与所述识别规则对应的情感分类作为所述待分类文本的情感识别结果。
其中,情感分类包括:正面评价和负面评价,即情感识别结果包括:正面评价和负面评价。每个设定的识别规则都有一个对应的情感分类。例如,一个设定的识别规则为:(服务|态度).*([^不]好|热情),其表明服务或者态度很好,即其情感分类为正面评价。又如,一个设定的识别规则为“666”,其表明很好,即其情感分类为正面评价。
当待分类文本满足设定的识别规则时,便可以将该识别规则对应的情感分类作为待分类文本的情感识别结果。比如,某个待分类文本为:司机态度非常好,其满足(服务|态度).*([^不]好|热情),因此,该待分类文本的情感识别结果为正面评价。
S140、如果所述待分类文本不满足设定的识别规则,则利用贝叶斯分类器对所述待分类文本进行识别,以确定所述待分类文本的情感识别结果。
在解释本操作之前,先对贝叶斯分类器进行简单的说明。贝叶斯分类器为情感分类器,其是对全部历史用户评价数据利用朴素贝叶斯方法进行训练而确定的。
下面示例性的描述确定贝叶斯分类器的具体方式:
首先,对全网文本进行采样,得到全部历史文本数据。其中,具体的采样规则本实施例不作限定。
其次,逐个对历史文本数据进行语义分析,以在每条历史文本数据中得到以描述对象为单位的至少一个语料。即每个语料对应一个描述对象。例如,某个历史文本数据为:非常好用,但是产品改版升级太快。通过对该历史文本数据进行语义分析可知“非常好用”的描述对象为产品的易用性,“产品改版升级太快”的描述对象为产品升级,据此,可以将该历史文本数据分为两个对应不同描述对象的语料。得到全部历史文本数据的语料后,对各语料进行情感分类,得到表示正面评价的正面语料集合和表示负面评价的负面语料集合。其中,由于历史文本数据中正面评价比较多,且重复率很高,比如“好评”在历史文本数据中的重复率很高。据此,在确定正面语料集合时,可以将正面语料进行筛选去重处理,以得到重复率较低、可用率较高的正面语料集合。由于历史文本数据中负面评价比较少,且重复率不高,因此,可以直接将负面语料归集为负面语料集合。
确定正面语料集合和负面语料集合后,统计上述两个集合中的语料数量,确定语料数量差值。如果得到的差值大于设定的阈值,则对语料数量较小的集合进行重采样,以保证平衡正面语料集合和负面语料集合的语料数量,进而保证后续处理的准确性。例如,得到正面语料集合的语料数量为200个,负面语料集合的语料数量为400个,则对应的数量差值为200,其大于设定的阈值50。产生这类情况的原因可能是由于对正面语料筛选去重处理,导致正面语料数量过少。此时,可以对正面语料进行重采样处理,进而保证重采样后的正面语料集合中的语料个数与负面语料集合中的语料个数的差值等于或者小于设定的阈值。
再次,对正面语料集合和负面语料集合中的各语料进行分词处理。在进行分词处理时可以采用:全模式,即找出语料中所有可能成词的词语,该方式处理效果很快,但是结果可能存在歧义;精确模式,即试图最精准地对语料进行分词,其适用于文本分析;搜索引擎模式,其以精确模式为基础,针对结果中较长词语再次切分,该方式处理可以提高召回率,更适合搜索引擎分词。在本实施例中优选采用适用于文本分析的精确模式。对各语料进行精确分词时,利用词典树结构,将所有可能分词情况构成有向无环图,并采用动态规划找到最大概率路径,即得到基于词频的最大切分组合。然而,某些语料中可能包含词典树中无法识别的词,即未登录词,此时对于这些未登录词可以采用隐马尔可夫模型(HiddenMarkov Model,HMM)对其进行识别。
对各语料进行分词后,除去各分词中的英文字母、数字以及中文停用词等,并将保留的分词组成一个词库,并在词库中关联保存每个分词的基本信息。其中,基本信息包括:包含该分词的语料数和/或在全部语料中该分词出现的词频数。将该词库中每个分词作为利用朴素贝叶斯方法进行训练时的特征属性,以及确定待分类文本时的特征属性。
根据词库中的分词,对历史文本数据构建对应的语句向量。例如,词库中共有10个分词,某个历史文本数据中出现其中第2个分词和第4个分词,则对应的向量为“0101000000”,又如,某个历史文本数据中未出现词库中的分词,则对应的向量为“0000000000”。
进一步的,对上述操作过程得到的语句向量利用朴树贝叶斯方法进行训练得到情感分类器,即贝叶斯分类器。其具体实现方式如下:
假设某一个历史文本数据对应的语句向量为s=(w1,w2,…wN),其中,wn表示词库中第n个分词是否出现在该历史文本数据中,1≤n≤N。c∈{0,1}表示情感极性变量,其中,0表示负面评价,1表示正面评价。对语句向量s所在的历史文本数据的情感分类计算方法为:
Figure BDA0001234920430000081
其中,logp(c)=log|Sc|-log|S|,Sc表示全部历史文本数据中情感极性为c的文本集合,|*|表示集合*中元素的个数。S表示全部历史文本数据集合。进一步的,根据朴素贝叶斯方法的独立假设得到
Figure BDA0001234920430000082
其中,p(wj|c)表示在给定类别c情况下第j个特征取值为wj的概率,例如,词库中100万个词,其中,第j个特征即为词库中第j个词,c=0,表示负面评价,wj=1表示历史文本数据中出现了第j个词,p(0|1)可以表示在负面评价时,第j个词取值为1的概率。
进一步的,
Figure BDA0001234920430000083
其中,count(wj|c)表示wj对应的分词在情感分类为c的所有历史文本数据(即训练语料)中出现的频次,
Figure BDA0001234920430000091
表示在所有历史文本数据中出现过的分词在情感分类为c的频次之和。
假设待分类文本中某一个词a,其在情感分类为c的所有历史文本数据中均没有出现,那么得到p(w'|c)=0,进而可以确定p(s|c)=0,,此时,无论待分类文本中其他词属于c的概率有多高,都会确定待分类文本属于c的概率为0,即得到了错误的结果。为了防止上述假设的发生,本实施例中采用拉普拉斯平滑的方法,此时
Figure BDA0001234920430000092
其中,|V'|表示词典中总分词数(包括未在历史文本数据中出现的分词数)。
采用上述方法便可以计算出logp(wj|c)和logp(c),并将计算结果存储至模型参数中,以得到贝叶斯分类器。在后续获取任意待分类文本时,就可以根据上述模型参数确定该待分类文本的情感识别结果。
需要说明的是,上述仅为对贝叶斯分类器确定过程的示例性说明,其他的确定方式本实例中同样适用。
具体的,如果待分类文本不满足设定的规则,则可以利用贝叶斯分类器对待分类文本进行识别,并根据识别结果确定待分类文本的情感识别结果。
需要说明的是,贝叶斯分类器对于某些特定的待分类文本,比如“666”这类包含数字文本,或者“很攒”这类新出现的词,由于其训练数据中没有出现,因此无法对其进行识别。此外,对于不符合贝叶斯独立假设的文本,比如“不是不好”或者“并不影响”等具有双重否定含义的文本,采用贝叶斯分类器也无法对其进行准确的情感分类。针对上述情况,本实施例中提出了利用设定的识别规则对待分类文本进行识别。也可以理解为设定的识别规则不仅可以包括常见的文本规则,还可以包括贝叶斯分类器无法准确识别的文本规则。
需要说明的是,S130和S140为S120下的两个并列分支,即对于任意一个待分类文本,如果其不满足设定的识别规则,那么该待分类文本便能够通过贝叶斯分类器得到情感识别结果。在实际使用过程中,如果待分类文本满足设定的识别规则,那么无需利用贝叶斯分类器,这样做的好处是可以减小情感识别时的工作量。
一般而言,贝叶斯分类器进行更新训练时,需要对大量的数据进行训练,该过程需要很大的工作量,而识别规则的设定,无需很大的工作量,仅需对新出现的文本数据进行分析并制定识别规则即可,该工作量远小于贝叶斯分类器更新训练时的工作量。因此,设定的识别规则的更新频率小于贝叶斯分类器的更新训练频率。
本实施例提供的技术方案,通过基于设定的识别规则对获取的待分类文本进行识别,如果待分类文本满足设定的识别规则,则根据设定的识别规则确定待分类文本的情感识别结果,如果待分类文本不满足设定的识别规则,则可以利用贝叶斯分类器确定待分类文本的情感识别结果的技术手段,提高了对待分类文本进行情感识别时的准确性,一方面可以更好地根据待分类文本对产品设计和运营方面进行流程和服务规范的改进,另一方面可以对产生负面评价的用户进行很好的安抚,以避免影响扩大,同时减小了对待分类文本进行情感识别时的工作量。
在上述技术方案的基础上,参考图1b,该情感识别方法还可以包括:
S150、获取设定的识别规则中针对新兴词汇设定的子识别规则。
其中,新兴词汇为网络中新出现的,在贝叶斯分类器的词库中不存在的词汇。
在设定识别规则时,可以关联保存识别规则的类型。其中,识别规则的类型可以包括:针对特殊语法信息的规则,比如双重否定语法;针对新兴词汇的规则,比如“点攒”;针对网络热词的规则,比如“666”、“2333”等;常规规则,其中,对于某类出现频率很高的文本,对其进行分析得到的识别规则即为常规规则,比如对于预装软件少这类文本,对应的识别规则为“(内置|初装|预装).*(软件|程序).*([^不]少|不多)”,根据该识别规则便可以对大量的针对预装软件少的文本进行识别。
进一步的,获取上述类型中针对新兴词汇的识别规则记为设定的子识别规则。
S160、对所述贝叶斯分类器进行更新训练时,将所述子识别规则补入至所述贝叶斯分类器的训练数据中。
将子识别规则补入至贝叶斯分类器的训练数据中包括:将新兴词汇补入至词库中以更新词库,并将新兴词汇所在的文本补入至历史文本数据中以更新历史文本数据。
根据更新后的词库和历史文本数据对贝叶斯分类器进行更新训练,以得到更新后的贝叶斯分类器。
S170、在所述设定的识别规则中,删除所述子识别规则。
具体的,删除新兴词汇对应的子识别规则后,服务器可以继续设定新的针对新兴词汇的子识别规则,并定期将该子识别规则补充至贝叶斯分类器的训练数据中。这样不仅可以保证对包含新兴词汇的待分类文本进行准确的情感识别,还可以避免由于新兴词汇增多,导致识别规则增多,进而增加了基于设定的识别规则对待分类文本进行识别时的工作量的情况。
实施例二
图2为本发明实施例二提供的文本的情感识别方法的流程图。本实施例是在上述实施例的基础上进行具体化,参考图2,本实施例提供的情感识别方法具体包括:
S210、获取预设时间段内贝叶斯分类器在对历史待分类文本进行识别时得到的错误情感识别结果。
具体的,服务器的工作人员可以定时的对贝叶斯分类器得到的历史待分类文本的情感识别结果进行抽样查看,以查找到情感识别结果中错误情感识别结果,并进行标记,以便服务器在获取错误情感识别结果时,仅需查找对应的标记即可。
S220、分析与所述错误情感识别结果对应的历史待分类文本,以得到文本特征规则,将所述文本特征规则作为设定的识别规则。
具体的,获取错误情感识别结果对应的历史待分类文本,并对历史待分类文本进行分析,得到历史待分类文本的分词、语义特征、语法信息以及句式结构等。
进一步的,根据分词、语义特征、语法信息以及句式结构确定历史待分类文本的文本特征规则,并将该文本特征规则作为设定的识别规则。作为一种可选方式,可以将得到的分词、语义特征、语法信息以及句式结构展示给服务器的工作人员,以便服务器的工作人员根据上述参数人工设定识别规则,并将设定的识别规则输入至服务器中。
进一步的,确定文本特征规则后,将该文本特征规则补充入设定的识别规则中。
S230、获取待分类文本。
S240、基于设定的识别规则对所述待分类文本进行识别。
S250、如果所述待分类文本满足设定的识别规则,则将与所述识别规则对应的情感分类作为所述待分类文本的情感识别结果。
S260、如果所述待分类文本不满足设定的识别规则,则利用贝叶斯分类器对所述待分类文本进行识别,以确定所述待分类文本的情感识别结果。
本实施例提供的技术方案,通过获取贝叶斯分类器得到的错误情感识别结果,并分析该错误情感识别结果对应的历史待分类文本,以得到与历史待分类文本对应的文本特征规则,并将该文本特征规则作为设定的识别规则,进而利用该设定的识别规则对获取的待分类文本进行情感识别的技术手段,使得识别规则与贝叶斯分类器相辅相成,更好的保证了待分类文本情感识别时的准确性。
实施例三
图3为本发明实施例三提供的文本的情感识别方法的流程图,本实施例是在上述实施例的基础上进行具体化,参考图3,本实施例提供的情感识别方法具体包括:
S310、获取预设时间段内贝叶斯分类器在对历史待分类文本进行识别时得到的错误情感识别结果。
其中,预设时间段可以根据实际情况进行设定,比如,每三天或每星期等。
S320、在与所述错误情感识别结果对应的历史待分类文本中识别出关键信息。
具体的,关键信息包括:句式结构、关键词和/或高频错误分词以及所述高频错误分词所属的语法位置。高频错误分词可以根据该分词在错误情感识别结果对应的全部历史待分类文本中的出现频次确定。例如,某个历史待分类文本为“产品升级后并不影响运行速度”,则对应的关键信息包括:产品、升级、并不影响、运行速度以及双重否定结构。同时,通过对其他历史待分类文本进行分析后,确定“并不影响”为高频错误分词。
S330、获取基于所述关键信息确定的文本特征规则。
其中,文本特征规则中包括待识别的关键词以及各所述待识别的关键词间的逻辑关系。待识别的关键词可以包括关键信息中的关键词和/或高频错误分词。逻辑关系可以包括:与、或以及不包含等至少一种。
例如,文本特征规则“(内置|初装|预装).*(软件|程序).*([^不]少|不多)”中,待识别的关键词包括:内置、初装、预装、软件、程序、不、少、不多。各待识别的关键词的逻辑关系分别为:“|”表示或,“.*”表示与,“[^]”表示不包含。
S340、将所述文本特征规则作为设定的识别规则。
可选的,将该文本特征规则作为设定的识别规则,并补充至现有的识别规则中。
S350、获取待分类文本。
S360、识别待分类文本的关键词。
其中,对待分类文本进行关键词识别时,采用的方式和对与错误情感识别结果对应的历史待分类文本进行分析时,识别关键词的方式相同。比如,都可以采用精确分词的方式。
S370、确认所述关键词以及各所述关键词间的逻辑关系是否与设定的识别规则中待识别的关键词以及各所述待识别的关键词间的逻辑关系相匹配,并根据匹配结果确定所述待分类文本是否满足设定的识别规则。如果所述待分类文本满足设定的识别规则,则执行S380,如果所述待分类文本不满足设定的识别规则,则执行S390。
在进行匹配时,待分类文本不仅需要与待识别的关键词相匹配,还需要与待识别的关键词间的逻辑关系相匹配。以“(内置|初装|预装).*(软件|程序).*([^不]少|不多)”为例,待分类文本中必须满足:包括(内置、初装、预装)中的一项、包括(软件、程序)中的一项、包括(少、不多)中的一项以及在(少、不多)之前的文本中不包含“不”,才可以确定该待分类文本与设定的识别规则相匹配。
S380、将与所述识别规则对应的情感分类作为所述待分类文本的情感识别结果。
S390、利用贝叶斯分类器对所述待分类文本进行识别,以确定所述待分类文本的情感识别结果。
本实施例提供的技术方案,通过对贝叶斯分类器在预设时间段内对历史待分类文本进行情感识别时得到的错误情感识别结果进行分析,以得到文本特征规则,并将该文本特征规则作为设定的识别规则的技术手段,使得识别规则与贝叶斯分类器相辅相成,更好的保证了待分类文本情感识别时的准确性。
实施例四
图4为本发明实施例四提供的文本的情感识别装置的结构示意图。参考图4,该装置具体包括:获取模块401、识别模块402、第一结果模块403和第二结果模块404。
其中,获取模块401,用于获取待分类文本;识别模块402,用于基于设定的识别规则对所述待分类文本进行识别;第一结果模块403,用于如果所述待分类文本满足设定的识别规则,则将与所述识别规则对应的情感分类作为所述待分类文本的情感识别结果;第二结果模块404,用于如果所述待分类文本不满足设定的识别规则,则利用贝叶斯分类器对所述待分类文本进行识别,以确定所述待分类文本的情感识别结果。
本实施例提供的技术方案,通过基于设定的识别规则对获取的待分类文本进行识别,如果待分类文本满足设定的识别规则,则根据设定的识别规则确定待分类文本的情感识别结果,如果待分类文本不满足设定的识别规则,则可以利用贝叶斯分类器确定待分类文本的情感识别结果的技术手段,提高了对待分类文本进行情感识别时的准确性,一方面可以更好地根据待分类文本对产品设计和运营方面进行流程和服务规范的改进,另一方面可以对产生负面评价的用户进行很好的安抚,以避免影响扩大,同时减小了对待分类文本进行情感识别时的工作量。
在上述实施例的基础上,还包括:错误情感结果识别模块,用于在获取待分类文本之前,获取预设时间段内贝叶斯分类器在对历史待分类文本进行识别时得到的错误情感识别结果;识别规则设定模块,用于分析与所述错误情感识别结果对应的历史待分类文本,以得到文本特征规则,将所述文本特征规则作为设定的识别规则。
在上述实施例的基础上,所述识别规则设定模块包括:关键信息识别单元,用于在与所述错误情感识别结果对应的历史待分类文本中识别出关键信息,所述关键信息包括:句式结构、关键词和/或高频错误分词以及所述高频错误分词所属的语法位置;文本特征规则获取单元,用于获取基于所述关键信息确定的文本特征规则,所述文本特征规则中包括待识别的关键词以及各所述待识别的关键词间的逻辑关系;设定单元,用于将所述文本特征规则作为设定的识别规则。
在上述实施例的基础上,所述识别模块包括:关键词识别单元,用于识别待分类文本的关键词;匹配单元,用于确认所述关键词以及各所述关键词间的逻辑关系是否与设定的识别规则中待识别的关键词以及各所述待识别的关键词间的逻辑关系相匹配,并根据匹配结果确定所述待分类文本是否满足设定的识别规则。
在上述实施例的基础上,所述设定的识别规则的更新频率小于所述贝叶斯分类器的更新训练频率。
在上述实施例的基础上,还包括:子识别规则获取模块,用于获取设定的识别规则中针对新兴词汇设定的子识别规则;更新模块,用于对所述贝叶斯分类器进行更新训练时,将所述子识别规则补入至所述贝叶斯分类器的训练数据中;删除模块,用于在所述设定的识别规则中,删除所述子识别规则。
本发明实施例所提供的文本的情感识别装置可执行本发明任意实施例所提供的文本的情感识别方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器12的框图。图5显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的文本的情感识别方法。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例所述的文本的情感识别方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种文本的情感识别方法,其特征在于,包括:
获取待分类文本;
基于设定的识别规则对所述待分类文本进行识别;所述设定的识别规则的类型包括:双重否定语法的规则、新兴词汇的规则和网络热词的规则;
如果所述待分类文本满足设定的识别规则,则将与所述识别规则对应的情感分类作为所述待分类文本的情感识别结果;
如果所述待分类文本不满足设定的识别规则,则利用贝叶斯分类器对所述待分类文本进行识别,以确定所述待分类文本的情感识别结果。
2.根据权利要求1所述的情感识别方法,其特征在于,获取待分类文本之前,还包括:
获取预设时间段内贝叶斯分类器在对历史待分类文本进行识别时得到的错误情感识别结果;
分析与所述错误情感识别结果对应的历史待分类文本,以得到文本特征规则,将所述文本特征规则作为设定的识别规则。
3.根据权利要求2所述的情感识别方法,其特征在于,分析与所述错误情感识别结果对应的历史待分类文本,以得到文本特征规则包括:
在与所述错误情感识别结果对应的历史待分类文本中识别出关键信息,所述关键信息包括:句式结构、关键词和/或高频错误分词以及所述高频错误分词所属的语法位置;
获取基于所述关键信息确定的文本特征规则,所述文本特征规则中包括待识别的关键词以及各所述待识别的关键词间的逻辑关系。
4.根据权利要求3所述的情感识别方法,其特征在于,基于设定的识别规则对所述待分类文本进行识别包括:
识别待分类文本的关键词;
确认所述关键词以及各所述关键词间的逻辑关系是否与设定的识别规则中待识别的关键词以及各所述待识别的关键词间的逻辑关系相匹配,并根据匹配结果确定所述待分类文本是否满足设定的识别规则。
5.根据权利要求2所述的情感识别方法,其特征在于,所述设定的识别规则的更新频率小于所述贝叶斯分类器的更新训练频率。
6.根据权利要求5所述的情感识别方法,其特征在于,还包括:
获取设定的识别规则中针对新兴词汇设定的子识别规则;
对所述贝叶斯分类器进行更新训练时,将所述子识别规则补入至所述贝叶斯分类器的训练数据中;
在所述设定的识别规则中,删除所述子识别规则。
7.一种文本的情感识别装置,其特征在于,包括:
获取模块,用于获取待分类文本;
识别模块,用于基于设定的识别规则对所述待分类文本进行识别;所述设定的识别规则的类型包括:双重否定语法的规则、新兴词汇的规则和网络热词的规则;
第一结果模块,用于如果所述待分类文本满足设定的识别规则,则将与所述识别规则对应的情感分类作为所述待分类文本的情感识别结果;
第二结果模块,用于如果所述待分类文本不满足设定的识别规则,则利用贝叶斯分类器对所述待分类文本进行识别,以确定所述待分类文本的情感识别结果。
8.根据权利要求7所述的情感识别装置,其特征在于,还包括:
错误情感结果识别模块,用于在获取待分类文本之前,获取预设时间段内贝叶斯分类器在对历史待分类文本进行识别时得到的错误情感识别结果;
识别规则设定模块,用于分析与所述错误情感识别结果对应的历史待分类文本,以得到文本特征规则,将所述文本特征规则作为设定的识别规则。
9.根据权利要求8所述的情感识别装置,其特征在于,所述识别规则设定模块包括:
关键信息识别单元,用于在与所述错误情感识别结果对应的历史待分类文本中识别出关键信息,所述关键信息包括:句式结构、关键词和/或高频错误分词以及所述高频错误分词所属的语法位置;
文本特征规则获取单元,用于获取基于所述关键信息确定的文本特征规则,所述文本特征规则中包括待识别的关键词以及各所述待识别的关键词间的逻辑关系;
设定单元,用于将所述文本特征规则作为设定的识别规则。
10.根据权利要求9所述的情感识别装置,其特征在于,所述识别模块包括:
关键词识别单元,用于识别待分类文本的关键词;
匹配单元,用于确认所述关键词以及各所述关键词间的逻辑关系是否与设定的识别规则中待识别的关键词以及各所述待识别的关键词间的逻辑关系相匹配,并根据匹配结果确定所述待分类文本是否满足设定的识别规则。
11.根据权利要求8所述的情感识别装置,其特征在于,所述设定的识别规则的更新频率小于所述贝叶斯分类器的更新训练频率。
12.根据权利要求11所述的情感识别装置,其特征在于,还包括:
子识别规则获取模块,用于获取设定的识别规则中针对新兴词汇设定的子识别规则;
更新模块,用于对所述贝叶斯分类器进行更新训练时,将所述子识别规则补入至所述贝叶斯分类器的训练数据中;
删除模块,用于在所述设定的识别规则中,删除所述子识别规则。
13.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的文本的情感识别方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的文本的情感识别方法。
CN201710113148.XA 2017-02-28 2017-02-28 文本的情感识别方法、装置、服务器以及存储介质 Active CN106897439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710113148.XA CN106897439B (zh) 2017-02-28 2017-02-28 文本的情感识别方法、装置、服务器以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710113148.XA CN106897439B (zh) 2017-02-28 2017-02-28 文本的情感识别方法、装置、服务器以及存储介质

Publications (2)

Publication Number Publication Date
CN106897439A CN106897439A (zh) 2017-06-27
CN106897439B true CN106897439B (zh) 2020-04-14

Family

ID=59184871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710113148.XA Active CN106897439B (zh) 2017-02-28 2017-02-28 文本的情感识别方法、装置、服务器以及存储介质

Country Status (1)

Country Link
CN (1) CN106897439B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688651B (zh) * 2017-08-31 2021-11-16 平安科技(深圳)有限公司 新闻情感方向判断方法、电子设备及计算机可读存储介质
CN107515858B (zh) * 2017-09-01 2020-10-20 鼎富智能科技有限公司 一种文本分类后处理方法、装置及系统
CN110069623B (zh) * 2017-12-06 2022-09-23 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN108364632B (zh) * 2017-12-22 2021-09-10 东南大学 一种具备情感的中文文本人声合成方法
CN108170685B (zh) * 2018-01-29 2021-10-29 浙江省公众信息产业有限公司 文本情感分析方法、装置和计算机可读存储介质
CN108461111A (zh) * 2018-03-16 2018-08-28 重庆医科大学 中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质
CN108416052A (zh) * 2018-03-20 2018-08-17 杭州声讯网络科技有限公司 一种针对语义分析行业数据分类方法
CN108549633B (zh) * 2018-04-04 2021-09-21 郑州大学 基于概率推理与情感认知的文本细粒度情感生成方法
CN111291180A (zh) * 2018-12-07 2020-06-16 中移在线服务有限公司 一种工单数据分类方法、终端及存储介质
CN110334202A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 基于新闻应用软件的用户兴趣标签构建方法及相关设备
CN110427625B (zh) * 2019-07-31 2022-12-27 腾讯科技(深圳)有限公司 语句补全方法、装置、介质及对话处理系统
CN112445907A (zh) * 2019-09-02 2021-03-05 顺丰科技有限公司 文本情感分类方法、装置、设备、及存储介质
CN111144127B (zh) * 2019-12-25 2023-07-25 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置
CN111177392A (zh) * 2019-12-31 2020-05-19 腾讯云计算(北京)有限责任公司 一种数据处理方法及装置
CN111767403B (zh) * 2020-07-07 2023-10-31 腾讯科技(深圳)有限公司 一种文本分类方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN103631961A (zh) * 2013-12-17 2014-03-12 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN106339418A (zh) * 2016-08-15 2017-01-18 乐视控股(北京)有限公司 一种分类纠错方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310862A1 (en) * 2014-04-24 2015-10-29 Microsoft Corporation Deep learning for semantic parsing including semantic utterance classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN103631961A (zh) * 2013-12-17 2014-03-12 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN106339418A (zh) * 2016-08-15 2017-01-18 乐视控股(北京)有限公司 一种分类纠错方法及装置

Also Published As

Publication number Publication date
CN106897439A (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
CN106897439B (zh) 文本的情感识别方法、装置、服务器以及存储介质
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN107291828B (zh) 基于人工智能的口语查询解析方法、装置及存储介质
CN107193973B (zh) 语义解析信息的领域识别方法及装置、设备及可读介质
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US10025778B2 (en) Training markov random field-based translation models using gradient ascent
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN113495900B (zh) 基于自然语言的结构化查询语言语句获取方法及装置
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US20180025121A1 (en) Systems and methods for finer-grained medical entity extraction
CN109684634B (zh) 情感分析方法、装置、设备及存储介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
CN112541070B (zh) 槽位更新语料的挖掘方法、装置、电子设备和存储介质
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
US20180165275A1 (en) Identification and Translation of Idioms
CN111177375A (zh) 一种电子文档分类方法及装置
CN115359799A (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN111062208B (zh) 一种文件审核的方法、装置、设备及存储介质
US20180165277A1 (en) Dynamic Translation of Idioms
CN113096687A (zh) 音视频处理方法、装置、计算机设备及存储介质
CN114490986B (zh) 计算机实施的数据挖掘方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant