CN112527963B - 基于词典的多标签情感分类方法及装置、设备、存储介质 - Google Patents
基于词典的多标签情感分类方法及装置、设备、存储介质 Download PDFInfo
- Publication number
- CN112527963B CN112527963B CN202011502618.XA CN202011502618A CN112527963B CN 112527963 B CN112527963 B CN 112527963B CN 202011502618 A CN202011502618 A CN 202011502618A CN 112527963 B CN112527963 B CN 112527963B
- Authority
- CN
- China
- Prior art keywords
- label
- viewpoint
- mapping
- keyword
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000013507 mapping Methods 0.000 claims abstract description 210
- 230000015654 memory Effects 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 230000007935 neutral effect Effects 0.000 claims description 8
- 230000000518 effect on emotion Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 52
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 238000013461 design Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 13
- 230000011218 segmentation Effects 0.000 description 11
- 238000007635 classification algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种基于词典的多标签情感分类方法,包括:确定待分析文本对应的至少一个观点;根据所述待分析文本所属领域的特定词典,确定每一所述观点中每一关键词的映射标签;其中,所述特定词典中至少包括所述领域的特征词汇和每一所述特征词汇的映射标签;根据每一所述观点中每一关键词的映射标签,确定每一所述观点的映射标签。本申请实施例还同时提供了一种基于词典的多标签情感分类装置、设备及存储介质。
Description
技术领域
本申请涉及设备技术领域,涉及但不限定于基于词典的多标签情感分类方法及装置、设备、存储介质。
背景技术
细粒度情感分析可以看成多标签问题,而多标签分类算法可以分成两大类解决思路:一种是问题转换、一种是算法改造,前者将多标签分类转换成多个单标签分类,最后将多个单标签分类结果合并,后者则将单标签算法改造成适应多标签问题。上述转化成多标签分类算法的方案无法抽取出对应观点,即情感必须连同标签形成新的标签,否则只能判断整句话的情感,而无法分析细粒度层次的情感,而这样带来的问题则是标签个数会加倍。
发明内容
本申请实施例提供一种基于词典的多标签情感分类方法及装置、设备、存储介质,以解决多标签分类算法无法抽取观点,需要通过增加标签个数才能判断文本中细粒度层次的情感分析的问题。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种基于词典的多标签情感分类方法,所述方法包括:
确定待分析文本对应的至少一个观点;
根据所述待分析文本所属领域的特定词典,确定每一所述观点中每一关键词的映射标签;其中,所述特定词典中至少包括所述领域的特征词汇和每一所述特征词汇的映射标签;
根据每一所述观点中每一关键词的映射标签,确定每一所述观点的映射标签。
第二方面,本申请实施例提供一种基于词典的多标签情感分类装置,包括观点抽取模块、标签确定模块和观点映射模块,其中:
所述观点抽取模块,用于确定待分析文本对应的至少一个观点;
所述标签确定模块,用于根据所述待分析文本所属领域的特定词典,确定每一所述观点中每一关键词的映射标签;其中,所述特定词典中至少包括所述领域的特征词汇和每一所述特征词汇的映射标签;
所述观点映射模块,用于根据每一所述观点中每一关键词的映射标签,确定每一所述观点的映射标签。
第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,首先,对待分析文本进行观点挖掘,抽取待分析文本中的至少一个观点;然后,在所述待分析文本所属的特定词典中查找每一观点中每一关键词的映射标签,其中;最后,再根据每一观点中每一关键词的映射标签确定每一观点的映射标签;如此,利用标注有映射标签的特定词典确定每一观点中关键词的映射标签并进一步确定待分析文本中每一观点的映射标签,实现了对待分析文本抽取观点的同时将观点映射到标签,不需要增加标签个数也能判断文本中细粒度层次的情感分析,提高了文本情感分析的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本申请实施例提供的一种基于词典的多标签情感分类方法的流程示意图;
图2为本申请实施例提供的另一种基于词典的多标签情感分类方法的流程示意图;
图3为本申请实施例提供的又一种基于词典的多标签情感分类方法的流程示意图;
图4为本申请实施例提供的再一种基于词典的多标签情感分类方法的流程示意图;
图5A为本申请实施例提供的多标签情感分类算法的示例说明图;
图5B为本申请实施例提供的多标签情感分类算法的整体框架图;
图5C为本申请实施例提供的二级标签映射过程的示意图;
图5D为本申请实施例提供的三级标签映射过程的示意图;
图5E为本申请实施例提供的多标签映射表的示意图;
图6为本申请实施例提供的一种基于词典的多标签情感分类装置的组成结构示意图;
图7为本申请实施例提供的一种电子设备的硬件实体示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。以下实施例用于说明本申请,但不用来限制本申请的范围。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
需要指出,本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请实施例所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
目前,文本情感分析作为自然语言处理(Natural Language Processing,NLP)领域中热门的研究方向,引发了学者的广泛研究分析。情感分析,又可称为意见挖掘、意见倾向性分析等,是一门结合自然语言处理、数据挖掘、心理学、语言学等的交叉学科,对带有主观情感极性的信息进行判别和挖掘。
情感分析按照粒度可以分为粗粒度及细粒度两大类。其中,粗粒度一般包含文档级和句子级。文档级别的情感分析是将文档作为一个整体的研究对象,分析其整体表现的情感极性,属于正向的、负向的还是中性的。句子级的情感分析比文档级的要更具体、细致,句子级情感分析在判别一个句子的情感极性之前,首先要判断该句子是属于主观句还是客观句。主观句是用户情感表达的直接句子,而客观句是陈述客观对象的句子,不含有情感极性,故其不应作为情感分析的句子。
粗粒度的情感分析虽然能够快速挖掘正负类观点,但在粗粒度范畴下忽略了对更具体方面、属性的考虑,导致情感极性判定不准确情况,也无法知道用户发表观点的主因。细粒度就是为了研究客体更具体化属性的情感分析而提出来的。
细粒度的情感分析,又称属性级情感分析,属于文本情感分析的一个类别,该分析一般是针对评论文本中属性特征进行情感判断。相较于篇章级或句子级的情感分析,细粒度的情感分析能够更加具体明确地针对产品的相关属性特征来进行情感识别,所得的分析结果提供了更加详细的评价信息,因此更有参考意义和价值。细粒度的情感分析能深入地挖掘评论者对评论对象不同属性的态度,能够表现出更具体、更多的信息,这种细粒度的评价对象也可能成为属性。
细粒度的情感分析固然有重要意义,但其数据集的获取和算法上更加棘手,体现在需要对每一条评论不同的属性进行合理的打标签以及对于属性的提取即特征词汇的抽取。特征词汇抽取是从海量用户产品评价中获取消费者关心的产品属性。
在对评论文本进行情感倾向性分析方面,国内外研究采用的技术主要分为以下两大类:一是基于机器学习的方法,二是基于词典或者语义知识的方法。其中,使用词典的方法是通过借助情感词典查找并统计待分类评论文本中正面情感词和负面情感词用来作为情感判别的主要依据,即根据情感词来决策待分类评论文本的情感倾向性,若所得值为正则判定为正面情感,反之为负即为负面情感,若所得值等于零则视为中性情感。
基于词典的情感分析方法在自然语言分析中具有重要的应用,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。基于词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果。
相关技术中一种方案将细粒度情感分析问题可以看成多标签问题,而多标签分类算法可以分成两大类解决思路,一种是问题转换、一种是算法改造,前者将多标签分类转换成多个单标签分类,最后将多个单标签分类结果合并,后者则将单标签算法改造成适应多标签问题。另一种方案也可直接将细粒度情感分析问题用序列标注方案解决,即将特征词汇的抽取作为序列标注问题,通过BIO(Begin-Inside-Outside,开始/内部/外部)+词性(pos/neg)的标注方法,利用大量序列标注数据,结合深度学习如Bi-LSTM(Bi-Long-ShortTerm Memory Network,双向长短时记忆网络)或Bert(Bidirectional EncoderRepresentation from Transformers,基于变换器的双向编码器表示技术)+CRF(Conditional Random Fields,条件随机场)进行序列标注预测。
上述采用多标签分类算法的方案无法抽取出对应观点,这也意味着情感必须连同标签形成新的标签,否则只能判断整句话的情感,而无法分析细粒度层次的情感,而这样带来的问题则是标签个数会加倍。同时相关技术中的两种解决方案都需要大量人工标注数据,标签个数越多需要的标注数据量越多,并且会面临类严重不平衡和冷启动问题。在实际工业应用中,标签体系会随着业务需求和产品周期的变化而有所改动,而每一次改动都可能意味着旧的标注数据无法使用,需要重新标注新样本,时间、人力等成本昂高。
本申请实施例提供一种基于词典的多标签情感分类方法,应用于电子设备。所述电子设备包括但不限于手机、笔记本电脑、平板电脑和掌上上网设备、多媒体设备、流媒体设备、移动互联网设备、可穿戴设备或其他类型的设备。该方法所实现的功能可以通过设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该电子设备至少包括处理器和存储介质。处理器可以用于进行情感分析的过程的处理,存储器可以用于存储进行情感分析的过程中需要的数据以及产生的数据。
图1为本申请实施例提供的一种基于词典的多标签情感分类方法的流程示意图,如图1所示,所述方法至少包括以下步骤:
步骤S110,确定待分析文本对应的至少一个观点。
这里,所述待分析文本可以为用户对商品的体验或评论文本,是用户和商品提供商之间的交流方式。这里的商品是广义商品概念,除了有形的产品外,还可以是无形的软件和服务。待分析文本的获取形式可以采用爬虫方式从互联网上的点评网站爬取电商评论、新闻评论和淘宝评论等得到,或者对一些问卷主观题回收答案得到。本申请实施例不限定获取待分析文本的方式。
这里,确定待分析文本的观点也就是从待分析文本中获取关于某个特征词的观点词语,其中特征词在句子结构中通常为主语或者宾语,从词性上看一般为名词或者形容词。电子设备可以通过分词工具,例如,结巴分词,提取待分析文本中关于某个特征词的词汇。分词算法包括但不限于基于词典的分词算法、基于统计的分词算法、基于规则的分词算法和结巴分词算法。实际应用中,可以根据需要选择一种实施。
可以理解的是,通常待分析文本由至少一个句子组成,大多数情况下一个分句可以包括一个观点。一种可能的实施方式,可以先获取到待分析文本,然后对待分析文本根据标点符号或空格进行文本断句,得到至少一个分句;再去掉每一分句中的无关字符和停用词等,得到分词后的分句;再对每一分句中的各个词语添加词性标签;针对每一个句子,按照名词加形容词或其他可能的结构形式与特定词典进行关键词匹配,可以抽取出一个观点。本领域技术人员可以理解,本实施方式仅为一种举例说明,在实施中还可以采用其他有效的方式。
步骤S120,根据所述待分析文本所属领域的特定词典,确定每一所述观点中每一关键词的映射标签。
这里,所述特定词典中至少包括所述领域的特征词汇和每一所述特征词汇的映射标签。
可以通过以下方式生成特定词典:从所述领域的语料中提取每一所述特征词汇;根据所述领域的标签体系,为每一所述特征词汇标注映射标签。
特定词典记录了每个特征词汇的词性、情感极性以及每个特征词汇映射的一二三级标签。其中,词性如名词、形容词、动词、否定词、副词等与观点抽取有较大关系,需要利用词性进行规则判断;情感极性包括正向、负向和中立;针对特定领域特定产品设定的标签体系标注每个特征词汇映射的一二三级标签,且标签体系为根据需求进行梳理的,并且会随着产品迭代更新、组织架构变动、业务需求等因素进行增添或修改。
在实施中,可以通过遍历的方式逐一在特定词典中查找每一观点中的每一关键词对应的映射标签。这里,关键词对应的映射标签可以是一级标签、二级标签或三级标签中的至少一种。
步骤S130,根据每一所述观点中每一关键词的映射标签,确定每一所述观点的映射标签。
这里,通过观点中关键词的映射标签确定观点的映射标签。其中,所述映射标签包括一级标签、二级标签和三级标签。
一种可能的实施方式是,根据不同关键词的权重不同,将权重大的关键词对应的映射标签作为所在观点的映射标签,其中映射标签可以为一级标签、二级标签或三级标签,从而实现确定每一所述观点的映射标签;另一种可能的实施方式是,将每一观点中每一关键词的映射标签按照语义逻辑进行组合,再按照特定的规则映射到观点上。
在本申请实施例中,首先,对待分析文本进行观点挖掘,抽取待分析文本中的至少一个观点;然后,在所述待分析文本所属的特定词典中查找每一观点中每一关键词的映射标签,其中;最后,再根据每一观点中每一关键词的映射标签确定每一观点的映射标签;如此,利用标注有映射标签的特定词典确定每一观点中关键词的映射标签并进一步确定待分析文本中每一观点的映射标签,实现了对待分析文本抽取观点的同时将观点映射到标签,不需要增加标签个数也能判断文本中细粒度层次的情感分析,提高了文本情感分析的准确率。
图2为本申请实施例提供的另一种基于词典的多标签情感分类方法的流程示意图,如图2所示,上述步骤S110“确定待分析文本对应的至少一个观点”至少包括以下步骤:
步骤S210,根据语义理解,按照不同词性的词汇之间的关系,生成特定的语法结构。
这里,所述不同词性的词汇之间的关系即名词、动词、形容词、否定词、副词之间相互融合或排斥的关系。
在一种可能的实施方式中,所述特定的语法结构至少包括名词、动词、形容词、否定词和副词中的两种的结构。例如名词+形容词、否定词+名词、名词+动词、否定词+形容词等。应注意,形容词后不能接否定词,不含“的”的形容词不接名词,如“好看手机”与“好看的手机”中后者才能抽取为观点。
步骤S220,按照所述特定的语法结构,将所述待分析文本与所述特定词典进行关键词匹配,得到所述至少一个观点。
这里,通过遍历的方式,对待分析文本中的词汇与特定词典进行关键词匹配,将按照特定的语法结构匹配出的词汇组合确定为一个观点。例如,在“手机漂亮好看就是没有无线充电”中,遍历匹配得到“手机漂亮好看”(名词+形容词结构)后继续匹配到“没有”(否定词)。由于中文语法中,很少有“形容词+否定词”的句式,因此停止抽取,最后得到“手机漂亮好看”与“没有无线充电”两个观点。
在本申请实施例中,首先通过引进动词和副词,再搭配语义分析,定义特定的语法结构;然后对待分析文本中的词汇与特定词典进行关键词匹配,将按照特定的语法结构匹配出的词汇组合确定为一个观点。本申请实施例定义特定的语法结构作为新的抽取形式,解决以往观点抽取形式多为名词+形容词,难以召回描述性观点的问题,能够有效提高召回率和情感分析准确率。
图3为本申请实施例提供的另一种基于词典的多标签情感分类方法的流程示意图,如图3所示,所述方法至少包括以下步骤:
步骤S310,确定待分析文本对应的至少一个观点。
步骤S320,将每一所述观点中每一关键词与所述特定词典进行关键词匹配,确定所述特定词典中与每一所述关键词对应的特定词汇。
这里,所述特定词典中包括每一特征词汇的映射标签,该映射标签可以为一级标签、二级标签或三级标签中的至少一种。在实施中,在特定词典中遍历查找与观点中每一关键词匹配的特定词汇的映射标签。
步骤S330,将与每一所述关键词对应的特定词汇的映射标签作为对应的关键词的映射标签。
这里,遍历观点中每一关键词,确定所有关键词分别对应的映射标签。
步骤S340,根据每一所述观点中每一关键词的二级标签,确定每一所述观点映射的二级标签。
这里,对每一所述观点中所有关键词的二级标签进行判断,选择能代表观点核心思想的关键词对应的二级标签作为该观点映射的二级标签;或者,对观点中的有搭配关系的关键词进行组合,将组合后的二级标签作为观点映射的二级标签。
需要说明的是,由于一级标签个数少,且区分度高,因此直接将观点映射到二级标签,观点的一级标签根据二级标签可直接得到。
在一些可能的实施方式中,所述特定词典还包括与所述每一特征词汇的二级标签关联的第一权重,所述步骤S340还可以通过以下过程实现:按照所述特定词典,将每一所述观点中每一关键词的二级标签关联的第一权重最大的关键词作为每一所述观点中的第一关键词;将每一所述观点中的第一关键词对应的二级标签,作为每一所述观点映射的二级标签。
这里,每一关键词的二级标签关联的第一权重表征该关键词在所在观点中的比重或者优先级。第一关键词的二级标签关联的第一权值最大,说明第一关键词的优先级大于该观点中其他关键词的优先级,可以将观点的二级标签映射到第一关键词的二级标签上。
示例的,“手机(其他,0)拍照(拍照,2)好看(外观,1)”即关键词“拍照”对应的二级标签为“拍照”,关联的第一权重是2,比关键词“手机”和“好看”的优先级高,因此该观点会映射到关键词“拍照”对应的标签上,即该观点映射的二级标签为“拍照”。
在一些可能的实施方式中,所述特定词典还包括二元词典,在所述二元词典中针对特定的商品,将包含两个相关维度的关键词的组合结构映射为统一的二级标签,所述步骤S340还可以通过以下过程实现:按照所述二元词典,确定每一所述观点中是否存在包含两个相关维度的关键词之间的特定组合结构;在每一所述观点中存在所述特定组合结构的情况下,将所述特定组合结构映射的二级标签作为所述观点对应的二级标签。
这里,所述特定组合结构中至少包括两括两个相关维度的关键词,也就是说该观点中至少两个相关维度的关键词搭配出现,可以称为该观点存在二元搭配关系。
示例的,对于观点“不能一边充电一边插耳机”,事实上描述的是充电与耳机共用一个口,属于硬件标签。但如果单看每个关键词,“充电”属于充电/续航标签,“耳机”属于手机配件标签,因此在特定词典中设计二元词典,将“充电”+“耳机”这一特定组合结构映射到硬件配置标签。在实施中,对于观点“不能一边充电一边插耳机”,先遍历看到“充电”,再看观点里是否有与“充电”搭配的词,最后确定观点的二级标签为硬件配置标签。
步骤S350,确定每一所述观点中每一关键词在所在观点映射的二级标签下的三级标签。
这里,每一关键词在不同的二级标签下对于的三级标签不同。在确定观点映射的二级标签后进一步确定该观点中每一关键词在观点的二级标签下的三级标签。
步骤S360,根据每一所述观点中每一关键词的三级标签,确定每一所述观点映射的三级标签。
这里,确定观点中所有关键词的三级标签后可以进一步确定观点映射的三级标签。实现过程类似根据关键词的二级标签确定观点映射的二级标签的过程,即选择观点中具有代表性或权值最高的关键词的三级标签,作为观点映射的三级标签。
在一些实施方式中,所述特定词典还包括表征特定的二级标签与三级标签之间的层次关系的三级标签映射表。可以通过以下过程实现上述步骤S360:按照所述三级标签映射表,确定每一所述观点中每一关键词在所在观点映射的二级标签下的三级标签和关联的第二权重;将每一所述观点中每一关键词的三级标签关联的第二权重最大的关键词作为每一所述观点中的第二关键词;将每一所述观点中的第二关键词的三级标签,作为每一所述观点映射的三级标签。
这里,观点中的每一关键词都有三级标签和关联的第二权值,第二权值与第一权值的数值可以相同,也可以不相同,但第二权值的意义与第一权值类似。本实施方式选出第二权值最大的关键词作为该观点中的第二关键词,并将该观点映射到该第二关键词的三级标签。
在本申请实施例中,首先,通过将待分析文本中的每一观点与特定词典进行关键词匹配,确定每一观点中每一关键词的映射标签;然后根据观点中每一关键词的二级标签确定该观点的二级标签;再确定每一观点中每一关键词在所在观点的二级标签下的三级标签;最后根据每一观点中每一关键词的三级标签,确定对应观点的三级标签。从而实现了将从待分析文本中抽取的至少一个观点映射到标签,以便后续根据待分析文本中观点的标签对待分析文本进行细粒度的情感分析。
在一些其他实施例中,针对部分观点需要同时映射到多组标签的需求,所述特定词典还包括多标签关系表,在确定每一所述观点的一组映射标签之后,所述方法还包括:根据所述多标签映射表,将与每一所述观点映射的第一组映射标签关联的其他组映射标签同时映射到每一所述观点上。
这里,所述多标签映射表表征同一观点与至少两组映射标签之间的映射关系,其中,每一组映射标签至少包括一级标签和二级标签。这样在确定每一观点的第一组映射标签后,可以根据特定词典中预设的多标签映射表,确定与观点的第一组映射标签关联的其他组映射标签并同时映射到对应观点上。
一种可能的实施方式是相互关联的不同组映射标签中的一级标签、二级标签和三级标签都已确定,则在每一观点映射到其中第一组映射标签时,可以直接将该观点同时映射到与第一组映射标签关联的其他组映射标签。也就是说,当一个观点被映射到多标签映射表中的一组映射标签时,硬性赋予该观点关联的另一组映射标签。
示例的,第一组映射标签为“产品体验,流畅性,游戏流畅性”,在多标签映射表中存在与之关联的第二组映射标签“产品体验,游戏体验,游戏体验-流畅性”。当一个观点被映射到第一组映射标签时,可以同时映射到第二组映射标签。
另一种可能的实施方式是相互关联的不同组映射标签中的一级标签、二级标签都已确定但存在第二组映射标签中的三级标签未确定,则将观点同时映射到第二组映射标签后,需要进一步根据上述步骤S350和步骤S360确定第二组映射标签中的三级标签。
示例的,第一组映射标签为“产品体验,游戏体验,游戏体验-声音效果”,其中包括一级标签、二级标签和三级标签;第二组映射标签为“产品体验,声音效果”,其中只包括一级标签和二级标签。在已将观点“打游戏时耳机里的声音不清晰”映射到第一组映射标签的情况下,先赋予该观点第二组映射标签中的二级标签“声音效果”,再根据上述步骤S350和步骤S360的实施过程确定观点在“声音效果”标签下的三级标签“耳机音质”即可。
还有一种可能的实施方式是在确定观点映射到第一组映射标签的情况下,结合该观点中关键词判断是否可以同时将该观点映射到与第一组映射标签关联的第二组映射标签。可以通过以下方式实现:在确定第一观点映射的第一组映射标签后,根据所述多标签映射表,确定与所述第一组映射标签和关联的第二组映射标签;确定所述第二组映射标签映射的第二观点;其中,所述第二观点与所述第一观点不同;在所述第一观点和所述第二观点中的关键词匹配的情况下,将所述第一观点同时映射到所述第二组映射标签。
示例的,针对第一观点“铃声声音小”与第二观点“不能自设铃声”,第一观点需要同时计入第一组映射标签“产品体验,自带基础应用和功能,手机自带功能”和第二组映射标签“产品体验,声音效果,外放”,但第二观点只能映射到第一组映射标签“产品体验,自带基础应用和功能,手机自带功能”。两个观点的差异在于关键词“声音”,因此,该情况可根据一些关键词如例子中的“声音”,“好听”,“音质”等判断是否要同时映射到与第一组映射标签关联的其他组映射标签。
图4为本申请实施例提供的再一种基于词典的多标签情感分类方法的流程示意图,如图4所示,所述方法还包括以下步骤:
步骤S410,根据所述特定词典,确定每一所述观点中每一关键词的情感极性。
这里,所述情感极性为正向、负向和中立中的一种。通过在特定词典中查找,确定观点中所有关键词的情感极性。
步骤S420,根据每一所述观点中每一关键词的情感极性,确定每一所述观点对应的情感极性。
这里,通过观点中的情感词、否定词、副词,以及是否需要反转等对观点进行情感判断;其中,副词和否定词也有反转作用。
一种可能的实施方式中,可以根据每一所述观点中每一关键词对应的情感极性,确定每一所述观点中正向情感的个数和负向情感的个数;通过比较每一所述观点中正向情感的个数和所述负向情感的个数,确定每一所述观点对应的情感极性。
另一种可能的实施方式中,还可以确定每一所述观点中每一关键词的反转性;在每一所述观点中存在具有反转性的第三关键词的情况下,调整每一所述观点的情感极性。
又一种可能的实施方式中,如果每一所述观点中每一关键词的情感极性均为中立但所在观点中存在否定词,则对应观点的情感极性为负向。
步骤S430,根据每一所述观点对应的情感极性,按照特定的规则,过滤所述待分析文本中的无效观点。
这里,所述无效观点为对情感判断没有作用的观点。可以根据一些规则过滤无效观点,例如不含有积极或消极的情感;或是不可独立存在的关键词如“高”,“全面”等由于不知道主体,不具备可独立形成观点的充分性;或是表假设虚拟之意如“希望能够越来越好”等观点为无效观点。
步骤S440,针对过滤后的所述待分析文本中的观点,确定每一所述观点中每一关键词在所在观点映射的二级标签下的三级标签。
这里,通过观点过滤,只筛选出有情感判断价值的观点进行三级标签的映射,可以提高细粒度情感分析的准确度和效率。
步骤S450,根据所述评论文本中每一所述观点映射的映射标签和每一所述观点对应的情感极性,确定所述评论文本中特定标签的好差评情况,以对所述特定商品进行改进。
这里,所述特定标签可以为对商家有用的标签,情感极性为正向的特定标签即为对商品的好评情况,情感极性为负向的特定标签即为对商品的差评情况。
示例的,对于餐厅点评,用户可以对餐厅的服务态度、菜品、上菜速度等多种属性进行评论,商家可以从评论的具体属性中发现用户对商家各方面的评价,从中可以发现自己的优势以及缺点,为进一步的推广、宣传以及提升自身竞争力提供有说服力的数据。
在本申请实施例中,首先根据观点中关键词的情感极性确定观点的情感极性,然后根据观点的情感极性过滤掉无效观点,将过滤后的观点映射到三级标签,从而提高细粒度情感分析的准确度和效率。此外,本申请实施例不仅将评论文本中的观点映射到标签,而且判断观点的情感极性,可以进一步分析评论文本中特定标签的情感如好差评情况,以便后续根据分析结果进行改善。
下面结合一个具体实施例对上述方法进行说明,然而值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
本申请实施例对一些问卷主观题回收答案进行观点挖掘,并将观点匹配到相关标签,以此归纳分析某些标签的好差评情况,以便后续的改善。如图5A所示,针对某一款手机,在“手机真的很好看,就是太快没电了,希望越来越好”这一评论中,其中一个观点51a“手机真的很好看”涉及产品体验、外观/ID设计、整体外观设计等标签,并且分析这些标签的得分为好评;另一个观点52a“就是太快没电了”涉及产品体验、充电/续航、续航/耗电等标签,并且分析这些标签的得分为差评;还有个观点53a“希望越来越好”为表虚拟的情感,可以视为无效观点过滤掉,从而最终对该评论进行分析得到标签54a“产品体验,外观/ID设计,整体外观设计,好评”和标签55a“产品体验、充电/续航、续航/耗电,差评”。
相关项目的标签体系分为三个层级,其中一级标签有6个,二级标签有45个,三级标签159个。该标签体系是业务方根据需求进行梳理的,并且会随着产品迭代更新、组织架构变动、业务需求等因素进行增添或修改。例如提出部分观点需要同时映射到多个标签的需求,例如:“玩游戏卡顿”需要同时映射到(产品体验,流畅性,游戏流畅性)和(产品体验,游戏体验,游戏体验-流畅性)两组标签。
由于项目初期只提供了1000多条标注数据,数据量少,且标注样例没有采用序列标注,后期业务方又大幅度改动了标签体系,因此,现有技术并不适用,必须设计一套全新的技术方案。
图5B为本申请实施例提供的多标签情感分析算法的整体框架图,如图5B所示,该算法包括以下过程:
步骤S501,词典设计:前期计算机没有任何经验知识,需要人工从未标注语料或专业领域中提取关键词,并设计词典,最后将词典输出给计算机,以作为先验储备知识。
词典包含名词、形容词、动词、否定词、副词、二元词典、三级标签映射表、多标签关系表等。词典里每个词会设置相关的特性(情感:积极/消极/中立、独立性、反转性等)、对应的一/二/三级标签、权重(即优先级,代表词的重要度,便于后续进行标签映射)。不同的词性(名词、形容词、动词等)与观点抽取有较大关系,需要利用词性进行规则判断。二元词典、三级标签映射表则跟标签映射相关。针对一个观点需同时映射到多个标签的需求,则设计了多标签关系表。
步骤S502,分句分词:设计并存储好词典后,下一步则是对文本进行挖掘。由于中文与英文单词不同,不以空格分开单词,因此需要进行分词。另外,一段话往往包含多个观点,大多数情况下,一个分句往往只包含一个观点,因此根据标点符号或空格进行文本断句即分句,以便后续抽取观点。
步骤S503,观点抽取:对经过步骤S502中分句分词后得到的文本,通过遍历方式与设计的词典中的关键词进行精准匹配,并通过中文语法句式理解分析,按照特定的结构进行观点抽取。
这里,按照名词、动词、形容词、否定词、副词相互融合或排斥的方式,组成了多种结构(如名词+形容词,否定词+名词,名词+动词,否定词+形容词等)。应注意,形容词后不能接否定词,不含“的”的形容词不接名词,如“好看手机”与“好看的手机”中的后者才能抽取为观点。
例如,在“手机漂亮好看就是没有无线充电”中,按照遍历匹配得到“手机漂亮好看”(名词+形容词)后继续匹配到“没有”(否定词)。由于中文语法中,很少有“形容词+否定词”的句式,因此停止抽取,最后得到“手机漂亮好看”与“没有无线充电”两个观点。
步骤S504,二级标签映射:通过观点的二元搭配关系设计二元词典并映射对应的二级标签。
需要说明的是,一级标签个数少,且区分度高,因此直接映射到二级标签,一级标签根据二级标签可直接得到。
例如观点“不能一边充电一边插耳机”,事实上描述的是充电与耳机共用一个口,属于硬件标签。但如果单看每个词,“充电”属于充电/续航标签,“耳机”属于手机配件标签。因此设计二元词典,将“充电”+“耳机”搭配映射到硬件配置标签。
如果观点中没有二元搭配关系,则根据观点中每个关键词的映射标签和权重赋予观点相对应的二级标签。如图5C所示,观点“手机拍照好看”中关键词51c“手机”的映射标签54c为“其他”,对应的权重57c为0;关键词52c“拍照”的映射标签55c为“拍照”,对应的权重58c为2;关键词53c“好看”的映射标签56c为“外观”,对应的权重59c为1。由于“拍照”比“手机”和“好看”的权重大即优先级高,因此该观点会映射到“拍照”对应的标签55c“拍照”上,即赋予该观点对应的二级标签为“拍照”。
步骤S505,情感分析:通过观点中的情感词(如“好”,“不错”,“差劲”等)、否定词、副词,以及是否需要反转(如耗电”+“快”)等进行情感判断;其中,副词和否定词也有反转作用(如“太”+“大”,“有些”+“轻”等)。
步骤S506,观点过滤:根据一些规则过滤无效观点,例如不含有积极或消极的情感,或是不可独立存在的关键词如“高”,“全面”等,由于不知道主体,不具备可独立形成观点的充分性;或是表假设虚拟之意如“希望能够越来越好”等。
步骤S507,三级标签映射:利用标签的层次关系,在二级标签的基础上,再次遍历观点的关键词,按照每个关键词在特定二级标签下的三级标签映射关系和优先级,层次地映射三级标签。
如图5D所示,对于观点“微信拍照好看”,存在关键词51d“微信”,对应二级标签54d“三方”和权重57d“0”;关键词52d“拍照”对应二级标签55d“拍照”和权重58d“2”;关键词53d“好看”,对应二级标签56d“外观”和权重59d“1”。根据步骤S502至步骤S506可得到观点对应的一级标签、二级标签及情感为“产品体验,拍照,好评”;接着,在“拍照”这个二级标签的基础上,继续寻找观点中每个关键词在该二级标签下对应的三级标签和权重,即关键词51d“微信”在拍照标签下对应的三级标签60d“三方调用”和权重为62d“1”,关键词52d“拍照”在拍照标签下对应的三级标签61d“其他/不明确/像素”和权重63d“0”,根据优先级,最终可确认观点映射的三级标签为“三方调用”,即该观点的输出结果为“产品体验,拍照,三方调用,好评”。也就是说,每个关键词的三级标签是不固定的,需要根据二级标签做选择。
在特定二级标签下,每一关键词都有对应的三级标签和权重。可以在步骤S508词典设计中设计三级标签映射表,如图5E所示,二级标签51e“外观/ID设计”下关键词511e中的“按键、前摄像头、升降摄像头、镜头、显示屏”分别一一对应三级标签512e中的“接口/按键设计、摄像头设计、摄像头设计、摄像头设计、屏幕设计”,且分别对应权重513e中的数值。如二级标签52e“屏幕”下关键词521e中的“按键、前摄像头、升降摄像头、镜头、显示屏”分别一一对应三级标签522e中的“屏幕操作、屏幕操作、屏幕操作、屏幕操作、屏幕操作”,且分别对应权重523e中的数值。本邻域技术人员可以理解,图5E仅是本申请实施例示例的一种三级标签映射表,在实施过程中可以为其他可能的表现形式,并不限定于这一种。
步骤S508,标签共享观点:即相同观点需要同时映射到多个标签的需求,根据上述步骤S501中词典设计中的多标签关系表,考虑三种情况。
第一种情况,在观点的三级标签确定的情况下,如果一个观点映射到一组标签,则将该观点同步映射到多标签关系表中与这组标签关联的其他组标签。例如,多标签关系表中将第一组标签“产品体验(一级标签),流畅性(二级标签),游戏流畅性(三级标签)”和第二组标签“产品体验(一级标签),游戏体验(二级标签),游戏体验-流畅性(三级标签)”关联,说明这两组标签可以共享观点。在第一种情况下,当一个观点被映射到其中一组标签时,硬性赋予该观点另一组标签。
第二种情况,在观点的三级标签未确定的情况下,如果一个观点映射到一组标签,则将该观点同步映射到多标签关系表中与这组标签关联的其他组标签。此时,可以根据上述步骤S507进一步确定该观点的三级标签。例如,多标签关系表中将第三组标签“产品体验(一级标签),游戏体验(二级标签),游戏体验-声音效果”与第四组标签“产品体验(一级标签),声音效果(二级标签)”关联,其中第四组标签的三级标签未确定。对于观点“打游戏时耳机里的声音不清晰”,在已将观点映射到第三组标签的情况下,赋予该观点第四组标签中的二级标签“声音效果”,再继续寻找观点在这个二级标签下的三级标签“耳机音质”即可。
第三种情况,对于观点“铃声声音小”与观点“不能自设铃声”,前者需要同时映射到第五组标签“产品体验,自带基础应用和功能,手机自带功能”和第六组标签“产品体验,声音效果,外放”,但后一个观点只能映射到其中第五组标签,这两个观点的差异在于关键词“声音”。因此,该情况下可根据观点中的一些关键词如例子中的“声音”,“好听”,“音质”等判断是否要同时映射到另一组标签。
本申请实施例提供细粒度层次多标签分类算法主要包括以下几个方面:架构设计方面,利用哈希存储多个关键词的属性值(包括标签、情感、优先级、反转性、独立性等),整个算法流程简单高效;通过抽取出的观点能够快速定位分类错误原因,便于优化;通过词典标签映射关系,能够扩展到上百个标签,而无需考虑缺少样本、类不平衡等问题;整个架构灵活性极高,后期需求变动或标签体系删改,都只需投入少量精力迭代更新即可,无需重新标注数据和重新训练。
词典设计方面:通过将副词、否定词与形容词、动词交叉组合,避免由于分词等原因需要人工反复添加关键词如“好”、“很好”、“非常好”、“太好”、“不好”等。通过该方式,在词典中只需包含“好”,不需要再添加剩余词汇,提高词典整理效率;通过二元词典,解决部分上下文语义搭配歧义问题。
语义分析方面:以往观点抽取形式多为名词+形容词,难以召回描述性观点,通过引进动词和副词,再搭配语义分析,定义新的抽取形式,能够有效提高召回率(可达80%+)和情感分析准确率。
本申请实施例提供的多标签情感分类算法不需要任何标注数据,也不用担心不平衡及冷启动问题;可抽取观点,快速定位标签错误问题,能够直接通过词典优化典型错误;并且随着标签体系标准的改动,算法只需要在改动词典的基础上进行部分优化改造即可;且根据不同的需求(如后面的标签共享需求),可灵活性地增添规则。这都大大减少时间、人力、数据等成本限制。45个二级标签整体准确率达到90%+,159个三级标签整体准确率87%+,全部45个二级标签准确率均高于75%,其中重点二级标签21个的准确率均高于85%。
基于前述的实施例,本申请实施例再提供一种基于词典的多标签情感分类装置,所述装置包括所包括的各模块、以及各模块所包括的子模块及单元,可以通过设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processing Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field ProgrammableGate Array,FPGA)等。
图6为本申请实施例提供的一种基于词典的多标签情感分类装置的组成结构示意图,如图6所示,所述装置600包括观点抽取模块610、标签确定模块620和观点映射模块630,其中:
所述观点抽取模块610,用于确定待分析文本对应的至少一个观点;
所述标签确定模块620,用于根据所述待分析文本所属领域的特定词典,确定每一所述观点中每一关键词的映射标签;其中,所述特定词典中至少包括所述领域的特征词汇和每一所述特征词汇的映射标签;
所述观点映射模块630,用于根据每一所述观点中每一关键词的映射标签,确定每一所述观点的映射标签。
在一些可能的实施例中,所述装置600还包括词汇提取模块和标签标注模块,其中:所述词汇提取模块,用于从所述领域的语料中提取每一所述特征词汇;所述标签标注模块,用于根据所述领域的标签体系,为每一所述特征词汇标注映射标签。
在一些可能的实施例中,所述观点抽取模块610包括生成子模块和关键词匹配子模块,其中:所述生成子模块,用于根据语义理解,按照不同词性的词汇之间的关系,生成特定的语法结构;所述关键词匹配子模块,用于按照所述特定的语法结构,将所述待分析文本与所述特定词典进行关键词匹配,得到所述至少一个观点。
在一些可能的实施例中,所述特定的语法结构为至少包括名词、动词、形容词、否定词和副词中的两种的结构。
在一些可能的实施例中,所述特定词典中包括每一特征词汇的映射标签;所述标签确定模块620包括关键词匹配子模块和标签确定子模块,其中:所述关键词匹配模块,用于将每一所述观点中每一关键词与所述特定词典进行关键词匹配,确定所述特定词典中与每一所述关键词对应的特定词汇;所述标签确定子模块,用于将与每一所述关键词对应的特定词汇的映射标签作为对应的关键词的映射标签。
在一些可能的实施例中,所述每一特征词汇的映射标签为二级标签,所述映射标签至少包括二级标签和三级标签;所述观点映射模块630包括第一确定子模块、第二确定子模块和第三确定子模块,其中:所述第一确定子模块,用于根据每一所述观点中每一关键词的二级标签,确定每一所述观点映射的二级标签;所述第二确定子模块,用于确定每一所述观点中每一关键词在所在观点映射的二级标签下的三级标签;所述第三确定子模块,用于根据每一所述观点中每一关键词的三级标签,确定每一所述观点映射的三级标签。
在一些可能的实施例中,所述特定词典还包括与所述每一特征词汇的二级标签关联的第一权重;所述第一确定子模块包括第一确定单元和第二确定单元,其中:所述第一确定单元,用于按照所述特定词典,将每一所述观点中每一关键词的二级标签关联的第一权重最大的关键词作为每一所述观点中的第一关键词;所述第二确定单元,用于将每一所述观点中的第一关键词对应的二级标签,作为每一所述观点映射的二级标签。
在一些可能的实施例中,所述特定词典还包括二元词典,所述二元词典中针对特定的商品,将包含两个相关维度的关键词的组合结构映射为统一的二级标签,所述第一确定子模块包括第三确定单元和第四确定单元,其中:所述第三确定单元,按照所述二元词典,确定每一所述观点中是否存在包含两个相关维度的关键词之间的特定组合结构;所述第四确定单元,用于在每一所述观点中存在所述特定组合结构的情况下,将所述特定组合结构映射的二级标签作为所述观点对应的二级标签。
在一些可能的实施例中,所述特定词典还包括三级标签映射表,所述三级标签映射表表征特定的二级标签与三级标签之间的层次关系;所述第三确定子模块包括第五确定单元、第六确定单元和第七确定单元,其中:所述第五确定单元,用于按照所述三级标签映射表,确定每一所述观点中每一关键词在所在观点映射的二级标签下的三级标签和关联的第二权重;所述第六确定单元,用于将每一所述观点中每一关键词的三级标签关联的第二权重最大的关键词作为每一所述观点中的第二关键词;所述第七确定单元,用于将每一所述观点中的第二关键词的三级标签,作为每一所述观点映射的三级标签。
在一些可能的实施例中,所述特定词典还包括多标签关系表;其中,所述多标签映射表表征同一观点与至少两组映射标签之间的映射关系,所述每一组映射标签至少包括一级标签和二级标签,在确定每一所述观点的一组映射标签之后,所述装置600还包括标签共享模块,用于根据所述多标签映射表,将与每一所述观点映射的第一组映射标签关联的其他组映射标签同时映射到每一所述观点上。
在一些可能的实施例中,所述标签共享模块包括第四确定子模块、第五确定子模块和标签共享子模块,其中:所述第四确定子模块,用于在确定第一观点映射的第一组映射标签后,根据所述多标签映射表,确定与所述第一组映射标签和关联的第二组映射标签;所述第五确定子模块,用于确定所述第二组映射标签映射的第二观点;其中,所述第二观点与所述第一观点不同;所述标签共享子模块,用于在所述第一观点和所述第二观点中的关键词匹配的情况下,将所述第一观点同时映射到所述第二组映射标签。
在一些可能的实施例中,所述装置600还包括第一情感确定模块、第二情感确定模块和观点过滤模块,其中:所述第一情感确定模块,用于根据所述特定词典,确定每一所述观点中每一关键词的情感极性;其中,所述情感极性为正向、负向和中立中的一种;根据每一所述观点中每一关键词的情感极性,确定每一所述观点对应的情感极性;根据每一所述观点对应的情感极性,按照特定的规则,过滤所述待分析文本中的无效观点;其中,所述无效观点为对情感判断无作用的观点;相应地,所述第三确定子模块,还用于针对过滤后的所述待分析文本中的观点,确定每一所述观点中每一关键词在所在观点映射的二级标签下的三级标签。
在一些可能的实施例中,所述待分析文本为针对特定商品的评论文本,所述装置还包括分析评论模块,用于根据所述评论文本中每一所述观点映射的映射标签和每一所述观点对应的情感极性,确定所述评论文本中特定标签的好差评情况,以对所述特定商品进行改进。
这里需要指出的是:以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得设备(可以是具有摄像头的智能手机、平板电脑等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例提供的方法中的步骤。
对应地,本申请实施例中,还提供了一种芯片,所述芯片包括可编程逻辑电路和/或程序指令,当所述芯片运行时,用于实现上述任一实施例提供的方法中的步骤。
对应地,本申请实施例中,还提供了一种计算机程序产品,当该计算机程序产品被设备的处理器执行时,其用于实现上述任一实施例提供的方法中的步骤。
基于同一技术构思,本申请实施例提供一种电子设备,用于实施上述方法实施例记载的方法。图7为本申请实施例提供的一种电子设备的硬件实体示意图,如图7所示,所述电子设备700包括存储器710和处理器720,所述存储器710存储有可在处理器720上运行的计算机程序,所述处理器720执行所述程序时实现本申请实施例任一所述方法中的步骤。
存储器710配置为存储由处理器720可执行的指令和应用,还可以缓存待处理器720以及设备中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
处理器720执行程序时实现上述任一项的方法的步骤。处理器720通常控制设备700的总体操作。
上述处理器可以为特定用途集成电路(Application Specific IntegratedCircuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable LogicDevice,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
上述计算机存储介质/存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得设备自动测试线执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种基于词典的多标签情感分类方法,其特征在于,所述方法包括:
确定待分析文本对应的至少一个观点;
根据所述待分析文本所属领域的特定词典,确定每一所述观点中每一关键词的映射标签;其中,所述特定词典中至少包括所述领域的特征词汇和每一所述特征词汇的映射标签;
根据每一所述观点中每一关键词的映射标签,确定每一所述观点的映射标签;
其中,所述特定词典中包括每一特征词汇的映射标签;所述根据所述待分析文本所属领域的特定词典,确定每一所述观点中每一关键词的映射标签,包括:
将每一所述观点中每一关键词与所述特定词典进行关键词匹配,确定所述特定词典中与每一所述关键词对应的特定词汇;
将与每一所述关键词对应的特定词汇的映射标签作为对应的关键词的映射标签;
其中,所述映射标签至少包括二级标签和三级标签;所述根据每一所述观点中每一关键词的映射标签,确定每一所述观点的映射标签,包括:
根据每一所述观点中每一关键词的二级标签,确定每一所述观点映射的二级标签;
确定每一所述观点中每一关键词在所在观点映射的二级标签下的三级标签;
根据每一所述观点中每一关键词的三级标签,确定每一所述观点映射的三级标签;
其中,所述特定词典还包括多标签映射表;其中,所述多标签映射表表征同一观点与至少两组映射标签之间的映射关系,所述每一组映射标签至少包括一级标签和二级标签,在确定每一所述观点的一组映射标签之后,所述方法还包括:
根据所述多标签映射表,将与每一所述观点映射的第一组映射标签关联的其他组映射标签同时映射到每一所述观点上。
2.如权利要求1所述的方法,其特征在于,所述特定词典是通过以下方法生成的:
从所述领域的语料中提取每一所述特征词汇;
根据所述领域的标签体系,为每一所述特征词汇标注映射标签。
3.如权利要求1所述的方法,其特征在于,所述确定待分析文本对应的至少一个观点,包括:
根据语义理解,按照不同词性的词汇之间的关系,生成特定的语法结构;
按照所述特定的语法结构,将所述待分析文本与所述特定词典进行关键词匹配,得到所述至少一个观点。
4.如权利要求3所述的方法,其特征在于,所述特定的语法结构为至少包括名词、动词、形容词、否定词和副词中的两种的结构。
5.如权利要求1所述的方法,其特征在于,所述特定词典还包括与所述每一特征词汇的二级标签关联的第一权重;
所述根据每一所述观点中每一关键词的二级标签,确定每一所述观点映射的二级标签,包括:
按照所述特定词典,将每一所述观点中每一关键词的二级标签关联的第一权重最大的关键词作为每一所述观点中的第一关键词;
将每一所述观点中的第一关键词对应的二级标签,作为每一所述观点映射的二级标签。
6.如权利要求1所述的方法,其特征在于,所述特定词典还包括二元词典,在所述二元词典中,针对特定的商品,将包含两个相关维度的关键词的组合结构映射为统一的二级标签;
所述根据每一所述观点中每一关键词的二级标签,确定每一所述观点映射的二级标签,包括:
按照所述二元词典,确定每一所述观点中是否存在包含两个相关维度的关键词之间的特定组合结构;
在每一所述观点中存在所述特定组合结构的情况下,将所述特定组合结构映射的二级标签作为所述观点对应的二级标签。
7.如权利要求1所述的方法,其特征在于,所述特定词典还包括三级标签映射表,所述三级标签映射表表征特定的二级标签与三级标签之间的层次关系;
所述根据每一所述观点中每一关键词的三级标签,确定每一所述观点映射的三级标签,包括:
按照所述三级标签映射表,确定每一所述观点中每一关键词在所在观点映射的二级标签下的三级标签和关联的第二权重;
将每一所述观点中每一关键词的三级标签关联的第二权重最大的关键词作为每一所述观点中的第二关键词;
将每一所述观点中的第二关键词的三级标签,作为每一所述观点映射的三级标签。
8.如权利要求1所述的方法,其特征在于,所述根据所述多标签映射表,将与每一所述观点映射的第一组映射标签关联的其他组映射标签同时映射到每一所述观点上,包括:
在确定第一观点映射的第一组映射标签后,根据所述多标签映射表,确定与所述第一组映射标签和关联的第二组映射标签;
确定所述第二组映射标签映射的第二观点;其中,所述第二观点与所述第一观点不同;
在所述第一观点和所述第二观点中的关键词匹配的情况下,将所述第一观点同时映射到所述第二组映射标签。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述特定词典,确定每一所述观点中每一关键词的情感极性;其中,所述情感极性为正向、负向和中立中的一种;
根据每一所述观点中每一关键词的情感极性,确定每一所述观点对应的情感极性;
根据每一所述观点对应的情感极性,按照特定的规则,过滤所述待分析文本中的无效观点;其中,所述无效观点为对情感判断无作用的观点;
相应地,针对过滤后的所述待分析文本中的观点,确定每一所述观点中每一关键词在所在观点的二级标签下的三级标签。
10.如权利要求9所述的方法,其特征在于,所述待分析文本为针对特定商品的评论文本,所述方法还包括:
根据所述评论文本中每一所述观点的映射标签和每一所述观点对应的情感极性,确定所述评论文本中特定标签的好差评情况,以对所述特定商品进行改进。
11.一种基于词典的多标签情感分类装置,其特征在于,所述装置包括观点抽取模块、标签确定模块和观点映射模块,其中:
所述观点抽取模块,用于确定待分析文本对应的至少一个观点;
所述标签确定模块,用于根据所述待分析文本所属领域的特定词典,确定每一所述观点中每一关键词的映射标签;其中,所述特定词典中至少包括所述领域的特征词汇和每一所述特征词汇的映射标签;
所述观点映射模块,用于根据每一所述观点中每一关键词的映射标签,确定每一所述观点的映射标签;
其中,所述特定词典中包括每一特征词汇的映射标签;所述标签确定模块包括关键词匹配子模块和标签确定子模块,其中:
所述关键词匹配子模块,用于将每一所述观点中每一关键词与所述特定词典进行关键词匹配,确定所述特定词典中与每一所述关键词对应的特定词汇;
所述标签确定子模块,用于将与每一所述关键词对应的特定词汇的映射标签作为对应的关键词的映射标签;
其中,所述映射标签至少包括二级标签和三级标签;所述观点映射模块包括第一确定子模块、第二确定子模块和第三确定子模块,其中:
所述第一确定子模块,用于根据每一所述观点中每一关键词的二级标签,确定每一所述观点映射的二级标签;
所述第二确定子模块,用于确定每一所述观点中每一关键词在所在观点映射的二级标签下的三级标签;
所述第三确定子模块,用于根据每一所述观点中每一关键词的三级标签,确定每一所述观点映射的三级标签;
其中,所述特定词典还包括多标签映射表;其中,所述多标签映射表表征同一观点与至少两组映射标签之间的映射关系,所述每一组映射标签至少包括一级标签和二级标签,在确定每一所述观点的一组映射标签之后,所述装置还包括标签共享模块;
所述标签共享模块,用于根据所述多标签映射表,将与每一所述观点映射的第一组映射标签关联的其他组映射标签同时映射到每一所述观点上。
12.一种设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至10任一项所述方法中的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10中任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502618.XA CN112527963B (zh) | 2020-12-17 | 2020-12-17 | 基于词典的多标签情感分类方法及装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502618.XA CN112527963B (zh) | 2020-12-17 | 2020-12-17 | 基于词典的多标签情感分类方法及装置、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112527963A CN112527963A (zh) | 2021-03-19 |
CN112527963B true CN112527963B (zh) | 2024-05-03 |
Family
ID=75001401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011502618.XA Active CN112527963B (zh) | 2020-12-17 | 2020-12-17 | 基于词典的多标签情感分类方法及装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112527963B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297848B (zh) * | 2021-05-14 | 2024-03-05 | 中国农业银行股份有限公司 | 信息处理方法、装置、设备和存储介质 |
CN114090761A (zh) * | 2022-01-20 | 2022-02-25 | 北京零点远景网络科技有限公司 | 基于信息识别的预警触发方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363725A (zh) * | 2018-01-08 | 2018-08-03 | 浙江大学 | 一种用户评论观点提取和观点标签生成的方法 |
CN109190121A (zh) * | 2018-09-03 | 2019-01-11 | 重庆工商大学 | 基于汽车本体和词性规则的汽车评论情感分析方法 |
CN110287319A (zh) * | 2019-06-13 | 2019-09-27 | 南京航空航天大学 | 基于情感分析技术的学生评教文本分析方法 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN110825876A (zh) * | 2019-11-07 | 2020-02-21 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140067370A1 (en) * | 2012-08-31 | 2014-03-06 | Xerox Corporation | Learning opinion-related patterns for contextual and domain-dependent opinion detection |
-
2020
- 2020-12-17 CN CN202011502618.XA patent/CN112527963B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363725A (zh) * | 2018-01-08 | 2018-08-03 | 浙江大学 | 一种用户评论观点提取和观点标签生成的方法 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN109190121A (zh) * | 2018-09-03 | 2019-01-11 | 重庆工商大学 | 基于汽车本体和词性规则的汽车评论情感分析方法 |
CN110287319A (zh) * | 2019-06-13 | 2019-09-27 | 南京航空航天大学 | 基于情感分析技术的学生评教文本分析方法 |
CN110825876A (zh) * | 2019-11-07 | 2020-02-21 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112527963A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Sentiment analysis of multimodal twitter data | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
Jin et al. | OpinionMiner: a novel machine learning system for web opinion mining and extraction | |
RU2686000C1 (ru) | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки | |
US20120271788A1 (en) | Incorporating lexicon knowledge into svm learning to improve sentiment classification | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
Banik et al. | Evaluation of naïve bayes and support vector machines on bangla textual movie reviews | |
Reganti et al. | Modeling satire in English text for automatic detection | |
CN112527963B (zh) | 基于词典的多标签情感分类方法及装置、设备、存储介质 | |
Ramina et al. | Topic level summary generation using BERT induced Abstractive Summarization Model | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
JP6729095B2 (ja) | 情報処理装置及びプログラム | |
CN111460158B (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
CN111611393A (zh) | 一种文本分类方法、装置及设备 | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
KR20140049680A (ko) | 규칙기반 다중 에이전트를 이용한 감성 분류 시스템 및 그 방법 | |
KR101543680B1 (ko) | 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법 | |
Kumar et al. | Hybrid deep learning model for sarcasm detection in Indian indigenous language using word-emoji embeddings | |
CN110196910A (zh) | 一种语料分类的方法及装置 | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
Mondal et al. | Improved algorithms for keyword extraction and headline generation from unstructured text | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Liao et al. | Status, identity, and language: A study of issue discussions in GitHub |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |