CN115659961A - 用于提取文本观点的方法、装置以及计算机存储介质 - Google Patents
用于提取文本观点的方法、装置以及计算机存储介质 Download PDFInfo
- Publication number
- CN115659961A CN115659961A CN202211358625.6A CN202211358625A CN115659961A CN 115659961 A CN115659961 A CN 115659961A CN 202211358625 A CN202211358625 A CN 202211358625A CN 115659961 A CN115659961 A CN 115659961A
- Authority
- CN
- China
- Prior art keywords
- emotion
- feature
- characteristic
- dictionary
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种用于提取文本观点的方法、装置及计算机存储介质。该方法包括:获取文本;执行词典初始化;提取与特征情感连续表达词典中的词条匹配的特征情感连续表达作为第一类特征情感组合;响应于未成功提取与特征情感连续表达词典中的词条匹配的特征情感连续表达,提取与特征词典中的词条匹配的特征词以及与情感词典中的词条匹配的情感词,将特征词和情感词组合为第二类特征情感组合;确定与第一类特征情感组合或第二类特征情感组合对应的情感极性;以及基于第一类特征情感组合或第二类特征情感组合对应的特征和情感极性生成观点。本申请组合基于特征情感连续表达词典和基于规则的提取这两种观点提取方式,提高了文本观点提取的准确性。
Description
技术领域
本申请涉及自然语言处理的技术领域,尤其涉及一种用于提取文本观点的方法、装置以及计算机存储介质。
背景技术
随着技术和基础设施的进步,依托于电商平台的购物活动越来越频繁。在购物活动后,顾客往往在电商平台上对商品进行评价,由此产生的大量评价文本对于电商平台、网店和商品生产商都具有很大的价值。电商平台、网店和商品生产商可从这些评价文本掌握商品情况,发掘用户潜在的痛点和需求,定位问题点,提升产品的质量和口碑,辅助新产品的研发等。例如,这些评价可帮助商品生产商采集用户需求和产品质量信息反馈,以改进其产品以更好地满足市场需求。这些评价也可帮助商家维护其口碑信誉,预测顾客的需求变化,控制存货,提高销售率等。另外,这些评价还可帮助平台获取用户的购物体验以及指导网站改进其服务。
每天在电商平台上产生的评价文本数量极其庞大,如何高效、准确地从大量的电商评价文本中提取有用的信息尤为重要。
发明内容
本申请提供一种用于提取文本观点的方法和装置以及计算机存储介质,以解决现有技术中评价文本观点提取精度不高的问题。
为解决上述问题,本申请所采用的一个技术方案是提供一种用于提取文本观点的方法。该方法包括获取文本;执行词典初始化,词典包括特征情感连续表达词典、特征词典和情感词典;提取与特征情感连续表达词典中的词条匹配的特征情感连续表达作为第一类特征情感组合;响应于未成功提取与特征情感连续表达词典中的词条匹配的特征情感连续表达,提取与特征词典中的词条匹配的特征词以及与情感词典中的词条匹配的情感词,将特征词和情感词组合作为第二类特征情感组合;确定第一类特征情感组合或第二类特征情感组合对应的情感极性;以及基于第一类特征情感组合或第二类特征情感组合对应的特征和情感极性生成观点。
为解决上述问题,本申请所采用的另一个技术方案是提供一种用于提取文本观点的装置。该装置包括文本获取模块、词典初始化模块、第一特征情感组合提取模块、第二特征情感组合提取模块、情感极性确定模块以及观点生成模块。文本获取模块配置成获取文本。词典初始化模块配置成执行词典初始化,词典包括特征情感连续表达词典、特征词典和情感词典。第一特征情感组合提取模块,配置成提取与特征情感连续表达词典中的词条匹配的特征情感连续表达作为第一类特征情感组合。第二特征情感组合提取模块配置成响应于未成功提取与特征情感连续表达词典中的词条匹配的特征情感连续表达,提取与特征词典中的词条匹配的特征词以及与情感词典中的词条匹配的情感词,将特征词和情感词组合作为第二类特征情感组合。情感极性确定模块配置成确定特征情感组合对应的情感极性。观点生成模块配置成基于第一类特征情感组合或第二类特征情感组合对应的特征和情感极性生成观点。
为解决上述问题,本申请所采用的另一个技术方案是提供一种用于提取文本观点的装置。该装置包括处理器和存储器。存储器中存储有计算机程序。处理器配置成执行计算机程序以实现上述用于提取文本观点的方法。
为解决上述问题,本申请所采用的又一个技术方案是提供一种计算机存储介质。该计算机存储介质存储有计算机程序。计算机程序被处理器执行时实现上述用于提取文本观点的方法的步骤。
区别于现有技术,本申请通过组合基于特征情感连续表达词典和基于规则的提取这两种观点提取方式,提高了文本观点提取的准确性。
附图说明
为更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本申请一实施例用于提取文本观点的方法的流程图。
图2示出图1中的方法的步骤S14的流程图。
图3示出根据本申请又一实施例用于提取文本观点的方法的流程图。
图4示出根据本申请一实施例用于歧义过滤的方法的流程图。
图5示出根据本申请一实施例的文本观点提取装置的结构示意图。
图6示出根据本申请一实施例的文本观点提取装置的结构示意图。
图7示出根据本申请一实施例的计算机可读存储装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请的发明人在长期的研究中发现,现有电商评价文本观点提取方法,所提取的结果出错的几率较高。尤其是英文电商评价文本观点提取方法,一般是基于通用领域的分析。针对细分领域的细粒度观点提取对标注数据和结果的准确性要求较高,且容易出现有歧义的提取结果,即歧义结果。而一般的电商网站,尤其是综合性的电商网站,所涉及的产品和服务商品品类复杂,所产生的语料文本数据量大,现有的电商评价文本难以应对。
对此,本申请的发明人提出了一种用于提取文本中的观点的方法和装置以及计算机可读存储介质。本申请的技术方案可例如用于提取英文电商文本中的细粒度观点。本领域技术人员应当理解,本申请的技术方案也可用于提取以其他语言表示的文本观点,本申请对此不作限制。
具体请参阅图1,图1示出根据本申请一实施例用于提取文本观点的方法的流程图。本实施例用于提取文本观点的方法包括如下步骤S11-S16。
步骤S11:获取文本。
具体的,此处所述的文本为从网站,尤其是从电商平台网站上抓取的用户评价或评论。这些用户评价可以为由各种语言呈现的用户评价。所述获取文本的步骤还包括利用语言种类识别工具对文本进行语言种类识别并标记。
所获取的文本可以为从电商平台获取的英文评价文本。每一个英文评价文本包括同一个用户在同一时间对同一商品所发布的评价文本。每一个评价文本可例如包括多个句子。本申请不限制每个评价文本中的句子数目。
在一些实施例中,可对所获得的文本进行过滤操作和/或预处理操作。
具体的,过滤操作可包括,从所获取的文本中过滤掉水军评价、无关性评价等。在一些电商平台的商品评价中,往往存在大量由某一方发布的大量无关评价或水军评价,为了提取真实有效的顾客评价信息,电商平台或商家自己可基于发布评价的IP地址等过滤掉这些无关评价或水军评价。
在一些实施例中,可利用水军过滤模型进行水军评价过滤。该水军过滤模型可例如为基于聚类的模型。该模型可基于诸如K-means聚类的方法,通过“肘部方法”自动估算聚类簇群个数,找到水军簇群且对水军用户进行识别,从而达到评论去水军的目的。该水军过滤模型无需训练语料即可自动发现水军簇群,可有效减少数据标注成本。
具体的,预处理操作还包括对文本进行分句和/或分词(tokenization)操作。通过分句操作,每个评价文本被分成一个个独立的句子。本申请例如可采用自然语言处理包Spacy对评价文本进行分句操作。具体的,在分句操作中,还可以清除文本中的标点符号。
具体的,经过分词操作,每个句子被分割成一个个独立的词元。本申请可以利用诸如字节对编码(BPE,BytePair Encoding)算法、WordPiece模型、SentencePiece模型等对每个句子进行分词操作。可选的,分词操作还包括为每个独立的词元标注词性。经过分词后的句子被分成一个个的词元。
具体的,对于所得到的词元,还可以进行词形还原操作。在许多语言中,每个单词可存在对应不同时态、单复数等的变形。词形还原可以将每个词元还原成其原型形态。本申请可随后对经过词形还原后的词元,依据该词元在原始文本中的位置进行拼接,以得到由经过词形还原后的词元组成的句子。
具体的,本申请可以对拼接后的句子中的每个词元进行序列标注,以便于计算任意两个词元之间的距离。两个词元之间的距离可以指两个词元之间所间隔的词元数。例如,两个词元之间没有其他词元,则这两个词元之间的距离为0。两个词元之间间隔n个词元,则这两个词元之间的距离为n。词元之间的距离也可以以其他方式表示,本申请对此不做限制。
具体的,预处理操作可包括无用符号过滤和/或停用词过滤等。通过该操作,可从评价文本中移除无用的符号和/或停用词。本申请可通过查询专门的无用符号词典、停用词词典等确定评价文本中的无用符号和/或停用词,进而从这些文本中移除这些无用符号和/或停用词。
在一些实施例中,预处理操作还包括过滤空文本、与评论无关的文本或问句等。例如,对于出现“why not”等疑问词的评论文本进行整句过滤。
在文本为英文文本的实施例中,预处理操作还可包括:大小写转换,例如将英文字母全部或部分转为小写字母;或非英文文本过滤,例如将中文文本过滤掉或转换成英文文本。
步骤S12:执行词典初始化。
具体的,词典初始化包括加载词典。加载词典的步骤还例如包括根据用户输入的指令或根据用户输入的产品或服务品类等选择加载合适的词典。
词典(dictionary)也称字典、辞典等。词典也可以表示为数据库的形式。具体的,词典表示为数据项或词条的集合。这些数据项或词条可按照一定顺序排列。
在一些实施例中,词典包括特征情感连续表达词典、特征词典和情感词典。
参考下文的表1,表1示出特征情感连续表达词典的一部分的例子。
表1
具体的,如表1所示,特征情感连续表达词典可包括至少一个特征情感连续表达。每个特征情感连续表达作为特征情感连续表达词典中的一个词条。特征情感连续表达可以为包括连续的特征词和情感词的短语,其在评论文本中表现为连续的文本表达。例如,在“我给包装打五星(I will give 5stars for packaging)”这个句子中,“给包装打五星(give 5stars for packaging)”这个连续的文本表达可以视为一个特征情感连续表达。用户可以在特征情感连续表达词典中增加或者删除词条,和/或确定每个词条对应的品类和指标。
特征情感连续表达是一段连续的文本,且可以显性或隐性的表示特征和情感。在一些实施例中,特征情感连续表达除了包括特征词和情感词之外,还可包括其他词。例如,特征情感连续表达“可怕的声音”除了包括特征词“声音”和情感词“可怕”以外,还包括连词“的”。特征情感连续表达“价格过高”除了包括特征词“价格”和情感词“高”以外,还包括程度副词“过”。
在一些实施例中,特征情感连续表达可不包括明显的特征词和/或情感词,但是可隐性地表示特征和情感。例如,从情感词可隐含地推导或确定所对应的特征。以表1中的例子“有点儿吵”为例,从该特征情感连续表达可清楚地知道所对应的对象为音量、噪声等。在一些实施例中,上述特征情感连续表达词典可记载每个特征情感连续表达所对应的特征。
如表1所示,特征情感连续表达词典还包括特征情感连续表达的情感极性和商品分类指标。情感极性可包括正面的情感极性或负面的情感极性。其中,正面的情感极性也可称为积极的情感极性,其表示顾客或评价者的评价是正面的。负面的情感极性也可称为消极的情感极性,其表示顾客或评价者的评价是负面的。例如,在上述例子中,特征情感连续表达“给包装打五星”可对应正面的情感极性,表示评价者对包装满意,给予包装正面的评价。在一些实施例中,特征情感连续表达“价格过高”可对应负面的情感极性,表示评价者对价格不满意,给予价格负面的评价。
具体的,特征词典可包括至少一个特征词,情感词典可包括至少一个情感词。每个特征词作为特征词典中的一个词条。每个情感词作为情感词典中的一个词条。一般而言,一个具体的观点可由特征词和情感词组成。特征词用于表示被评价的对象,而情感词用于表示对该对象的评价。特征词一般具有名词或代词等词性。情感词可例如为形容词,也可以为一些用于评价且具有情感极性的短语,如上述例子中的“打五星”。
在一些实施例中,词典还包括商品分类指标词典。商品分类指标词典也可以称为商品分类指标体系文件,其包括商品分类指标。具体的,商品分类指标可包括商品品类和依次级联的多级指标。
具体的,品类即商品的分类或商品种类。例如,一个品类是指在顾客眼中一组相关联和/或可相互替代的商品和服务。在本申请中,品类还可以指具体的商品名称或商品型号,例如,冰箱、餐具、清洁服务等。
在商品分类指标中,每个商品品类可包括依次级联的多个不同级别的指标。本申请以三级指标为例进行说明,本领域技术人员应当理解,指标的层级也可以不是三级,而例如是二级,四级或更多级等,本申请对此不作限制。
以下参考表2,以三级指标为例进行说明。表2示出包括三级指标的商品分类指标词典的一部分。
表2
以冰箱为例,第一级指标可包括:产品体验、购买体验、服务体验等。第一级指标中的产品体验指标可例如包括产品外观(appearance)、产品质量(quality)、功能(function)、噪音/音量(noise/sound volume)等第二级指标。第一级指标中的购买体验指标可例如包括价格(price)、口碑(wom)、购买目的(purchase purpose)等第二级指标。第一级指标中的服务体验指标可例如包括顾客服务(customer service)、物流服务(logisticsservice)等。举例而言,第二级指标中的产品外观指标可例如包括包装(package)以及设计(design)、材料(material)等其他第三级指标。
上述第一级指标、第二级指标以及第三级指标是级联的。具体的,一个第一级指标下面包括至少一个第二级指标,一个第二级指标下面包括至少一个第三级指标。
表2中还示出与每一组三级指标对应的特征词,例如,特征词“分贝”对应“冰箱-产品体验-音量-噪声”这一组指标。
在本申请中,通过确定与商品品类对应的至少三级指标,可以对商品的评价文本中的观点进行细分,从而获得细粒度的商品评价观点。粒度是指数据统计的粗细程度。数据统计的细化程度越高,粒度就越细或越小。反之,数据统计的细化程度越低,粒度就越大或越粗。在本申请中,通过构建和匹配三级指标体系,可以实现细粒度的电商评论观点提取。
在本申请中,如表1所示,特征情感连续表达词典可包括与至少一个特征情感连续表达对应的品类和指标。特征词典也可包括与至少一个特征词对应的品类和指标。
本领域技术人员应当理解,上述词典中的任意两个或多个可以组合或集成为一个词典。上文中对不同词典的划分可仅仅是一种形式或功能上的划分。例如,上述不同词典可分别是一个数据库的一部分。
本领域技术人员应当理解,本申请不限制步骤S11和步骤S12的执行顺序。例如,步骤S11可以先于步骤S12执行,步骤S11也可以在步骤S12之后执行,步骤S11也可以与步骤S12并行执行。
在一些实施例中,用户也可以根据自身需求加载与商品的特定品类和/或指标对应的词典,以实现精准的细粒度观点提取。
步骤S13:提取与特征情感连续表达词典中的词条匹配的特征情感连续表达作为第一类特征情感组合。
在一些实施例中,可利用最大后向匹配方法对特征情感连续表达词典中的词条与评价文本进行匹配,以提取与特征情感连续表达词典中的词条匹配的特征情感连续表达作为第一类特征情感组合。
具体的,在该步骤中用于匹配的评价文本可没有经过过滤停用词的预处理,以确保所匹配到的结果为原始评价文本中的连续文本。以上文中的评价文本“我给包装打五星”为例,可提取出与特征情感连续表达词典中的词条“给包装打五星”对应的特征情感连续表达“给包装打五星”作为第一类特征情感组合。
具体的,在该步骤中用于匹配的评价文本可以为经过或未经过词形还原的预处理。
步骤S14:响应于未成功提取与特征情感连续表达词典中的词条匹配的特征情感连续表达,提取与特征词典中的词条匹配的特征词以及与情感词典中的词条匹配的情感词,将特征词和情感词组合为第二类特征情感组合。具体的,特征词表示所要评价的对象,例如价格、颜色、外观等。情感词为具有正面或负面情感倾向的词,例如高、低、漂亮等。
在一些实施例中,可以将上述特征词和情感词组合为特征词和情感词对,即特征-情感对。上述特征词和情感词在评价文本中可以是连续的或者不连续的表达。
若无明确说明,则上述第一类特征情感组合和第二类特征情感组合可在本文中统称为特征情感组合。
参考图2,图2示出步骤S14的流程图。如图2所示,所述提取与特征词典中的词条匹配的特征词以及与情感词典中的词条匹配的情感词,将特征词和情感词组合为第二类特征情感组合的步骤可包括如下步骤。
步骤S21:提取与特征词典中的词条匹配的特征词。
举例而言,对于文本“我觉得外观很漂亮”可以提取特征词“外观”。特征词“外观”可以为与特征词典中的词条“外观”相匹配的特征词。
步骤S22:提取与情感词典中的词条匹配的情感词。
举例而言,对于文本“我觉得外观很漂亮”可以提取情感词“漂亮”。情感词“漂亮”可以为与情感词典中的词条“漂亮”相匹配的特征词。
在一些实施例中,对于未能成功提取与情感词典中的词条匹配的情感词的情形,可以在特征词前后提取用于修饰特征词的情感词。该情感词可例如为形容词、副词或其他表示情感的短语等。此时,可提醒用户判断该情感词是否合适。若该形容词合适,可将该特征词-情感词对作为新词添加到情感词典中。
步骤S23:将特征词和情感词组合为第二类特征情感组合。
在一些实施例中,基于特征词和情感词之间的距离对特征词和情感词进行匹配。
举例而言,对于上述文本“我觉得外观很漂亮”,可以将距离小于距离阈值M的特征词“外观”和情感词“漂亮”组合为特征情感组合“外观-漂亮”。距离阈值M可以为大于或等于0的整数,本申请对此不作限制。
在一些实施例中,可在过滤停用词之前计算特征词和情感词之间的距离,从而避免因过滤的停用词而拉近本身距离较远的特征词和情感词,提升匹配结果准确性。
本申请可在特征词前后,采用最大后向匹配的方法来匹配特征词和情感词。
在一些实施例中,可在一个分句中同时提取到多个特征词或情感词。此时,可基于特征词和情感词之间的距离对特征词和情感词进行匹配。例如,可优先匹配距离小于或等于1、2或其他值的特征词和情感词。例如,可基于情感词和特征词之间的前后关系对情感词和特征词进行匹配。
在一些实施例中,可以用最大后向匹配算法来提取所有特征词和情感词,并对每个特征,查找对应情感词。具体的,对于每个特征词,选择距离特征词最近、在特征词前面的情感词为最佳匹配情感词。在一些实施例中,当同一情感词对应多个特征词时,可按照距离最小和情感词在特征词前方优先的原则对情感词进行筛选,得到最终的特征词-情感词组合或特征词-情感词对。
步骤S15:基于特征情感组合的上下文确定特征情感组合对应的情感极性。
具体的,情感极性例如为正面的或积极的情感极性,也可以为负面的或消极的情感极性。
在一些实施例中,可以在词典中对特征词或特征情感组合进行极性匹配。例如,对于与特征情感连续表达词典中的词条匹配的第一类特征情感组合,可直接从特征情感连续表达词典的对应词条获得该特征情感组合的情感极性。在一些实施例中,对于与情感词典中的词条匹配的情感词,可直接从情感词典获取该情感词的情感极性。
当没有匹配到情感极性或同时匹配到正面情感和负面情感时,可将情感极性设为空值。此种情况下,可以利用机器学习模型识别该特征情感组合的情感极性。
在一些实施例中,可以计算该特征词-情感词对或特征情感组合在评论文本中出现的频数,记录相关的短句。可将这些短句输入到机器学习模型中,以识别该特征情感组合自身在该评价文本中的情感极性。
在一些实施例中,由于句子本身是否定从句,或者由于句子中存在否定词等,该特征情感组合自身的情感极性可发生极性反转,例如,由正面变为负面,或由负面变为正面。
在一些实施例中,包括第一类特征情感组合和第二类特征情感组合的该特征情感组合的情感极性可经过否定从句处理、否定词拼接以及词性判断过滤等处理,以进一步确定该特征情感组合在该分句中对应的情感极性。
在一些实施例中,可基于模板进行否定从句处理,以判断是否需要进行极性反转。具体的,模板可以为句子结构模板,其包括句子中的分词以及各分词之间的关系。如果否定从句处理确定该从句为否定从句,则进行极性反转。
在一些实施例中,可基于距离对特征情感组合进行否定拼接。具体的,对于提取出来的特征-情感对,否定拼接基于否定词、特征词和情感词三者的位置关系,进行了分情况的讨论和拼接。在第一种情况中,三者的顺序为:否定词-特征词-情感词,在过滤停用词之前计算否定词与特征词之间的距离,当该距离在距离阈值内则实现拼接,并进行极性反转。在第二种情况中,三者的顺序为:否定词-情感词-特征词,在过滤停用词之前计算否定词与情感词之间的距离。当该距离在距离阈值内时则实现拼接,并进行极性反转。在第三种情况中,三者的顺序为:特征词-否定词-情感词,在过滤停用词之前计算否定词与情感词之间的距离。当该距离在距离阈值内则实现拼接,并进行极性反转。在一些实施例中,当为特征情感组合匹配到奇数个否定词时,才进行极性反转。而当为特征情感组合匹配到偶数个否定词时,则不进行极性反转。在上述第一种情况、第二种情况和第三种情况中,距离阈值可相同或不同,本申请对此不作限制。
在一些实施例中,可以从商品分类指标词典中获取特征情感组合所对应的商品分类指标。也可以在步骤S15之前获取该商品分类指标。
在一些实施例中,在商品分类指标词典中与该特征情感组合对应的商品分类指标可只有一组,例如“冰箱-产品体验-音量-噪声”这一组品类-三级指标。
在一些实施例中,在商品分类指标词典中与该特征情感组合对应的商品分类指标可多于一组。具体的,响应于特征情感组合所对应的商品分类指标为至少两组,基于文本,确定每一组商品分类指标的可靠性。从可靠性高于第一阈值的商品分类指标中选择可靠性最高的商品分类指标作为该特征情感组合的商品分类指标。
例如,该可靠性可由训练好的机器学习模型(例如,神经网络模型)进行计算。具体的,可将文本、特征情感组合和商品分类指标输入该机器学习模型中,以计算该可靠性。该可靠性例如为在0和1之间的值。第一阈值例如为0.8等,本申请对此不作限制。将可靠性大于第一阈值且可靠性最高的商品分类指标作为特征情感组合在该文本中的商品分类指标。
在一些实施例中,可为某一商品分类指标与文本进行相似度计算,将所得到的相似度作为该商品分类指标的可靠性。
若每一组商品分类指标的可靠性都低于第一阈值,则利用机器学习模型从文本中提取特征情感组合的商品分类指标。该机器学习模型为训练好的模型。可将文本和特征情感组合输入到该机器学习模型中,以获得对应商品分类指标。可将所获得的商品分类指标和/或商品分类指标与特征情感特征组合之间的对应关系添加到商品分类指标词典中。在一些实施例中,可对所获得的商品分类指标进行人工审核和调整。
若未成功从商品分类指标词典中获取特征情感组合所对应的商品分类指标,利用上述机器学习模型从文本中提取与特征词和情感词两者对应的商品分类指标。可将文本和特征情感组合输入到该机器学习模型中,以获得对应商品分类指标。可将所获得的商品分类指标和/或商品分类指标与特征情感特征组合之间的对应关系添加到商品分类指标词典中。在一些实施例中,可对所获得的商品分类指标进行人工审核和调整。
步骤S16:基于特征情感组合对应的特征和情感极性生成观点。
该观点例如具有“特征词-情感极性”的形式,例如“噪声-积极”。
在一些实施例中,可基于特征与商品分类指标的匹配结果和情感极性生成观点。具体的,获取特征在商品品类下的最低级别指标中的对应主特征词,将主特征词和情感极性组合为观点。其中,特征与商品分类指标的匹配结果可以为所述主特征词。
例如,特征情感组合“quick shipping(运输快)”和“due arrive(按时到达)”都表示物流很快的意思。可以通过聚类算法或人工纠正的方法对这些特征情感组合进行近义词合并,得到主特征词“logistic(产品物流)”。对于特征情感组合“运输快”,可以匹配到对应的主特征词“物流”。可将该主特征词和情感极性组合为观点“物流-积极”。该例子仅作为示例,并不限定本申请的具体实施方式。在本申请中,通过提取主特征词,可减少词义相近的词的重复展示,方便用户快速抓住核心观点。
参考图3,图3示出根据本申请另一实施例用于提取文本观点的方法的流程图。本实施例用于提取文本观点的方法包括如下步骤S31-S37。
步骤S31:获取文本。
该步骤S31与上文中描述的步骤S11大致相同,在此不再赘述。
步骤S32:执行词典初始化,词典包括特征情感连续表达词典、特征词典和情感词典。
该步骤S32与上文中描述的步骤S12大致相同,在此不再赘述。
步骤S33:提取与特征情感连续表达词典中的词条匹配的特征情感连续表达作为第一类特征情感组合。
该步骤S33与上文中描述的步骤S13大致相同,在此不再赘述。
步骤S34:响应于未成功提取与特征情感连续表达词典中的词条匹配的特征情感连续表达,提取与特征词典中的词条匹配的特征词以及与情感词典中的词条匹配的情感词,将特征词和情感词组合为第二类特征情感组合。
该步骤S34与上文中描述的步骤S14大致相同,在此不再赘述。
步骤S35:基于特征情感组合的上下文确定特征情感组合对应的情感极性。
该步骤S35与上文中描述的步骤S15大致相同,在此不再赘述。
步骤S36:对特征情感组合和情感极性进行歧义过滤。
具体的,特征情感组合包括第一类特征情感组合和第二类特征情感组合。
参考图4,图4示出对特征情感组合和对应的情感极性进行歧义过滤的流程图。
如图4所示,歧义过滤的步骤可包括如下中的至少一种:
步骤S41:删除包括来自特定短语的情感词的特征情感组合。该特定短语也可称为歧义包含短语。
具体的,包含在歧义包含短语中的情感词不应该被提取为情感词。例如,kind(好)一般作为情感词。但是在短语“a kind of”中的“kind”表示“种类”,不应当被提取为情感词。此处“a kind of”就是一个歧义包含短语。
步骤S42:删除有歧义的特征情感组合。
例如,英文文本的特征情感组合space-big可表示空间大,对应情感极性为正面,也可以表示占地面积大,对应情感极性为负面。本申请可直接删除该特征情感组合。这些有歧义的特征情感组合可例如从对应的词典获取。
在一些实施例中,在删除有歧义的特征情感组合时,需要考虑对应的品类指标。例如,如果上述特征情感组合space-big在品类“微波炉”中对应的情感极性一般是确定的,例如为正面,则在品类指标为“微波炉”时,不删除该通常有歧义的特征情感组合。
步骤S43:响应于文本中存在搭配错误的情感-否定词对,纠正情感极性,即,进行否定纠正。
上文中,进行否定词拼接时会对当前文本中的所有否定词都进行拼接。而在实际的否定词搭配过程中,经常会出现情感词和否定词不搭配或搭配错误的情况。具体的,有些否定词不能用于修饰特定的情感词。例如,在英文中,否定词barely(几乎不)不能用于修饰形容词kind(好)。上述否定词拼接过程往往会错误地认为否定词barely可修饰形容词kind,并对形容词kind进行极性反转。此时,可对上述否定拼接的结果进行否定纠正,即,对情感极性进行极性反转。
步骤S44:响应于文本中存在搭配错误的情感-否定词对,删除包括情感词的特征情感组合。具体的,当情感词和否定词对不合理时,把当前的情感词也直接过滤掉。以上文中否定词barely和情感词kind的错误搭配为例,可直接将包含该情感词kind的特征情感组合删除。
本领域技术人员应当理解,用户可执行上述步骤S41-S44中的一个或多个。本申请也不限制上述步骤S41-S44中各步骤的先后顺序。
步骤S37:基于特征情感组合对应的特征和情感极性生成观点。
该步骤S37与上文中描述的步骤S16大致相同,在此不再赘述。
如图5所示,本申请还提供一种用于提取文本观点的装置,也称文本观点提取装置600。该文本观点提取装置600可包括文本获取模块601、词典初始化模块602、第一特征情感组合提取模块603、第二特征情感组合提取模块604、情感极性确定模块605以及观点生成模块606。
具体的,文本获取模块601配置成获取文本。
具体的,词典初始化模块602配置成执行词典初始化,词典包括特征情感连续表达词典、特征词典和情感词典等。
具体的,第一特征情感组合提取模块603配置成提取与特征情感连续表达词典中的词条匹配的特征情感连续表达作为特征情感组合。
具体的,第二特征情感组合提取模块604配置成响应于未成功提取与特征情感连续表达词典中的词条匹配的特征情感连续表达,提取与特征词典中的词条匹配的特征词以及与情感词典中的词条匹配的情感词,将特征词和情感词组合为特征情感组合。
具体的,情感极性确定模块605配置成基于特征情感组合的上下文确定特征情感组合对应的情感极性。
具体的,观点生成模块606配置成基于特征情感组合中的特征和情感极性生成观点。
在一些实施例中,文本观点提取装置600还包括新词提取模块607。新词提取模块607可用于扩充词典。具体的,新词提取模块607可基于少量词典,采用新词提取算法从大量文本中提取新的特征情感连续表达,并确定对应的商品分类指标以及情感极性。新词提取模块607还可配置成基于少量词典,采用新词提取算法从大量文本中提取新的特征词和情感词,并确定对应的商品分类指标以及情感极性。
上述用于提取文本观点的方法一般由一种用于提取文本观点的方法的装置实现,因而本发明还提出一种文本观点提取装置700。请参阅图6,图6是本发明文本观点提取装置700一实施例的结构示意图。本实施例中的文本观点提取装置700包括处理器71和存储器72。存储器72中存储有计算机程序。处理器71用于执行计算机程序以实现如上述用于提取文本观点的方法的步骤。
本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。当作为独立的软件产品销售或使用时,上述计算机软件产品可存储在计算机存储介质中,因而本发明提出一种计算机存储介质。请参阅图7,图7是本发明计算机存储介质一实施例的结构示意图。本实施例计算机存储介质800中存储有计算机程序81。该计算机程序81当被处理器执行时实现上述文本观点提取的方法。
该计算机存储介质800具体可以为U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory,)、磁碟或者光盘等可以存储计算机程序的介质,或者也可以为存储有该计算机程序的服务器,该服务器可将存储的计算机程序发送给其他设备运行,或者也可以自运行该存储的计算机程序。该计算机存储介质800从物理实体上来看,可以为多个实体的组合,例如多个服务器、服务器加存储器、或存储器加移动硬盘等多种组合方式。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围。
综上所述,本申请公开了一种文本观点提取的方法、装置以及计算机存储介质。该文本观点提取的方法包括:获取文本;执行词典初始化,词典包括特征情感连续表达词典、特征词典和情感词典;提取与特征情感连续表达词典中的词条匹配的特征情感连续表达作为第一类特征情感组合;响应于未成功提取与特征情感连续表达词典中的词条匹配的特征情感连续表达,提取与特征词典中的词条匹配的特征词以及与情感词典中的词条匹配的情感词,将特征词和情感词组合为第二类特征情感组合;确定特征情感组合对应的情感极性;以及基于特征情感组合对应的特征和情感极性生成观点。本申请中基于特征情感连续表达词典和基于规则的提取这两种观点提取方式相结合来进行观点提取,从而有效解决了现有技术中观点提取错误度高的问题。进一步,本申请的文本观点提取方法还包括获取特征情感组合所对应的商品分类指标,以实现按照细粒度的指标维度对评论进行观点分类,运行效率高,可快速响应用户的个性化调整。
本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (11)
1.一种用于提取文本观点的方法,其特征在于,包括:
获取所述文本;
执行词典初始化,所述词典包括特征情感连续表达词典、特征词典和情感词典;
提取与所述特征情感连续表达词典中的词条匹配的特征情感连续表达作为第一类特征情感组合;
响应于未成功提取与所述特征情感连续表达词典中的词条匹配的特征情感连续表达,提取与所述特征词典中的词条匹配的特征词以及与所述情感词典中的词条匹配的情感词,将所述特征词和所述情感词组合作为第二类特征情感组合;
确定所述第一类特征情感组合或所述第二类特征情感组合对应的情感极性;以及
基于所述第一类特征情感组合或所述第二类特征情感组合对应的特征和所述情感极性生成所述观点。
2.根据权利要求1所述的方法,其特征在于,
所述词典还包括商品分类指标词典,
所述基于所述第一类特征情感组合或所述第二类特征情感组合对应的特征和所述情感极性生成所述观点之前,进一步包括:
从所述商品分类指标词典中获取所述第一类特征情感组合或所述第二类特征情感组合所对应的商品分类指标;
所述基于所述第一类特征情感组合或所述第二类情感特征组合对应的特征和所述情感极性生成所述观点的步骤包括:
基于所述特征与所述商品分类指标的匹配结果和所述情感极性生成所述观点。
3.根据权利要求2所述的方法,其特征在于,
所述方法还包括:
响应于所述特征情感组合所对应的商品分类指标为至少两组,基于所述文本,确定每一组商品分类指标的可靠性;以及
从可靠性高于第一阈值的商品分类指标中选择可靠性最高的商品分类指标作为所述特征情感组合的商品分类指标。
4.根据权利要求3所述的方法,其特征在于,
响应于每一组商品分类指标的可靠性都低于所述第一阈值,利用机器学习模型从所述文本中提取所述特征情感组合的商品分类指标。
5.根据权利要求2所述的方法,其特征在于,
所述商品分类指标包括商品品类和依次级联的至少三级指标。
6.根据权利要求2所述的方法,其特征在于,
所述方法还包括:
响应未成功从所述商品分类指标词典中获取所述第一类特征情感组合或所述第二类特征情感组合所对应的商品分类指标,利用机器学习模型从所述文本中提取与所述特征词和情感词两者对应的商品分类指标;以及
将所述商品分类指标添加到所述商品分类指标词典中。
7.根据权利要求5所述的方法,其特征在于,
所述基于所述特征与所述商品分类指标的匹配结果和所述情感极性生成所述观点的步骤还包括:
获取所述特征在所述商品品类下的最低级别指标中的对应主特征词;以及
将所述主特征词和所述情感极性组合为所述观点。
8.根据权利要求1所述的方法,其特征在于,
所述基于所述第一类特征情感组合或所述第二类特征情感组合对应的特征和所述情感极性生成所述观点的步骤之前,还包括如下步骤中的至少一者:
删除包括来自特定短语的情感词的第一类特征情感组合或第二类特征情感组合;
删除有歧义的第一类特征情感组合或第二类特征情感组合;
响应于所述文本中存在搭配错误的情感-否定词对,纠正所述情感极性;或
响应于所述文本中存在搭配错误的情感-否定词对,删除包括所述情感词的第一类特征情感组合或第二类特征情感组合。
9.一种用于提取文本观点的装置,其特征在于,所述装置包括:
文本获取模块,配置成获取所述文本;
词典初始化模块,配置成执行词典初始化,所述词典包括特征情感连续表达词典、特征词典和情感词典;
第一特征情感组合提取模块,配置成提取与所述特征情感连续表达词典中的词条匹配的特征情感连续表达作为第一类特征情感组合;
第二特征情感组合提取模块,配置成响应于未成功提取与所述特征情感连续表达词典中的词条匹配的特征情感连续表达,提取与所述特征词典中的词条匹配的特征词以及与所述情感词典中的词条匹配的情感词,将所述特征词和所述情感词组合作为第二类特征情感组合;
情感极性确定模块,配置成确定所述特征情感组合对应的情感极性;以及
观点生成模块,配置成基于所述第一类特征情感组合或所述第二类特征情感组合对应的特征和所述情感极性生成所述观点。
10.一种用于提取文本观点的装置,其特征在于,所述装置包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器配置成执行所述计算机程序以实现如权利要求1-8中任一项所述方法的步骤。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211358625.6A CN115659961B (zh) | 2022-11-01 | 2022-11-01 | 用于提取文本观点的方法、装置以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211358625.6A CN115659961B (zh) | 2022-11-01 | 2022-11-01 | 用于提取文本观点的方法、装置以及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115659961A true CN115659961A (zh) | 2023-01-31 |
CN115659961B CN115659961B (zh) | 2023-08-04 |
Family
ID=84994426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211358625.6A Active CN115659961B (zh) | 2022-11-01 | 2022-11-01 | 用于提取文本观点的方法、装置以及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659961B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115794988A (zh) * | 2022-09-13 | 2023-03-14 | 广东美云智数科技有限公司 | 用于提取文本的观点的方法、装置以及计算机存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782898A (zh) * | 2010-03-25 | 2010-07-21 | 中国科学院计算技术研究所 | 一种情感词倾向性的分析方法 |
US20120271788A1 (en) * | 2011-04-21 | 2012-10-25 | Palo Alto Research Center Incorporated | Incorporating lexicon knowledge into svm learning to improve sentiment classification |
CN105354183A (zh) * | 2015-10-19 | 2016-02-24 | Tcl集团股份有限公司 | 一种家电产品互联网评论的分析方法、装置及系统 |
CN106610990A (zh) * | 2015-10-22 | 2017-05-03 | 北京国双科技有限公司 | 情感倾向性分析的方法及装置 |
CN109190121A (zh) * | 2018-09-03 | 2019-01-11 | 重庆工商大学 | 基于汽车本体和词性规则的汽车评论情感分析方法 |
-
2022
- 2022-11-01 CN CN202211358625.6A patent/CN115659961B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782898A (zh) * | 2010-03-25 | 2010-07-21 | 中国科学院计算技术研究所 | 一种情感词倾向性的分析方法 |
US20120271788A1 (en) * | 2011-04-21 | 2012-10-25 | Palo Alto Research Center Incorporated | Incorporating lexicon knowledge into svm learning to improve sentiment classification |
CN105354183A (zh) * | 2015-10-19 | 2016-02-24 | Tcl集团股份有限公司 | 一种家电产品互联网评论的分析方法、装置及系统 |
CN106610990A (zh) * | 2015-10-22 | 2017-05-03 | 北京国双科技有限公司 | 情感倾向性分析的方法及装置 |
CN109190121A (zh) * | 2018-09-03 | 2019-01-11 | 重庆工商大学 | 基于汽车本体和词性规则的汽车评论情感分析方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115794988A (zh) * | 2022-09-13 | 2023-03-14 | 广东美云智数科技有限公司 | 用于提取文本的观点的方法、装置以及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115659961B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491377B (zh) | 一种基于多维度信息融合的电商产品综合评分方法 | |
Alsubari et al. | Data analytics for the identification of fake reviews using supervised learning | |
Haque et al. | Sentiment analysis on large scale Amazon product reviews | |
US8676730B2 (en) | Sentiment classifiers based on feature extraction | |
CN108388660B (zh) | 一种改进的电商产品痛点分析方法 | |
CN107862087B (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
CN111260437A (zh) | 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 | |
Homoceanu et al. | Will I like it? Providing product overviews based on opinion excerpts | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN102789449A (zh) | 对评论文本进行评价的方法和装置 | |
Mozafari et al. | Emotion detection by using similarity techniques | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
CN108269169A (zh) | 一种导购方法及系统 | |
CN113282704A (zh) | 一种对评论有用性进行判断和筛选的方法与装置 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
Reddy et al. | Prediction of star ratings from online reviews | |
CN115659961B (zh) | 用于提取文本观点的方法、装置以及计算机存储介质 | |
Soliman et al. | Utilizing support vector machines in mining online customer reviews | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
Hoiriyah et al. | Lexicon-Based and Naive Bayes Sentiment Analysis for Recommending the Best Marketplace Selection as a Marketing Strategy for MSMEs | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Ben et al. | Detecting sentiment polarities with comparative analysis of machine learning and deep learning algorithms | |
Mangngalle et al. | Sentiment Analysis of Lazada App Review Using Word2Vec and Support Vector Machine | |
Shuvo et al. | Sentiment Analysis of Restaurant Reviews from Bangladeshi Food Delivery Apps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 528311 3rd Floor, Building 5, Midea Global Innovation Center, Industrial Avenue, Beijiao Town, Shunde District, Foshan City, Guangdong Province Applicant after: Meiyun Zhishu Technology Co.,Ltd. Address before: 528311 3rd Floor, Building 5, Midea Global Innovation Center, Industrial Avenue, Beijiao Town, Shunde District, Foshan City, Guangdong Province Applicant before: Guangdong Meiyun Zhishu Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |