CN109461037A - 评论观点聚类方法、装置和终端 - Google Patents
评论观点聚类方法、装置和终端 Download PDFInfo
- Publication number
- CN109461037A CN109461037A CN201811544896.4A CN201811544896A CN109461037A CN 109461037 A CN109461037 A CN 109461037A CN 201811544896 A CN201811544896 A CN 201811544896A CN 109461037 A CN109461037 A CN 109461037A
- Authority
- CN
- China
- Prior art keywords
- comment
- viewpoint
- comment viewpoint
- semantic similarity
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种评论观点聚类方法、装置和终端,所述方法包括:提取用户评论文本中的多条评论观点;将多条评论观点输入至情感分类模型中,输出多个情感类评论观点集合;计算每个情感类评论观点集合中的各评论观点之间的语义相似度;根据语义相似度对各评论观点进行聚类,生成评论观点聚类集合。通过对特定产品的评论进行观点提取,并对提取到的评论观点进行聚类展示,可以帮助开发者了解该产品在用户中的口碑,通过对比同一类型不同商品或商家的评论观点信息,可以辅助用户进行消费决策。商家对自己产品的评论观点极性分析监控,可以及时发现用户对产品的评价和舆情信息。具备更好的泛化能力,可以得到更高的准确率和召回率。
Description
技术领域
本发明涉及互联网舆情分析技术领域,具体涉及一种评论观点聚类方法、装置和终端。
背景技术
情感评论观点挖掘旨在提取用户评论中的情感观点信息,基于情感评论观点挖掘可以帮助商家进行产品分析,辅助用户进行消费决策。具体的,对于给定的产品(如商品或服务)的用户评论文本,通过对评论关注维度(如酒店的服务、房间、交通)和评论观点(如不错、简陋、便利)进行自动分析,输出评论观点标签(服务不错,房间简陋、交通方便)以及评论观点极性(好评或差评)。
用户评论文本作为一种特殊的文本形式,其情感观点的展现也具备很多特殊性。首先,不同垂类下评论观点多种多样,例如『美食』垂类中用户的评论观点包括“味道不错”、“菜品很好”、“烤鸭好吃”、“鱼汤好喝”、“服务好”、“服务不错”、“前台服务员态度好”等。在“教育”垂类中用户评论常包含“教学质量不错”、“教学质量好”、“教学质量一般”、“老师水平很高”、“孩子成绩提高快”等。其次,特定领域下各个评论观点之间存在语义归一关系,例如“味道不错”、“菜品很好”、“烤鸭好吃”、“鱼汤好喝”都可以归一为观点“味道不错”,“教学质量不错”、“教学质量好”、“孩子成绩提高快”可以归一为“教学质量好”。
然而,现有的评论观点聚类的方法,例如,针对固定垂类人工构建评论观点聚类的方法,虽然可以获得较高的准确率,但是需要消耗大量的人工成本。并且人工总结的评论观点聚合关系比较有限,需要标注人员具备较深的领域知识,否则无法实现各个领域之间快速的适应和迁移。例如,基于无监督的聚类方法,不仅依赖人工构建特征,而且最终模型的效果强依赖于特征设计的有效性,最终效果无法很好的满足用户需求。这些方法依赖大量的人工参与以及人工构造特征的有效性。
发明内容
本发明实施例提供一种评论观点聚类方法、装置和终端,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种评论观点聚类方法,包括:
提取用户评论文本中的多条评论观点;
将多条评论观点输入至情感分类模型中,输出多个情感类评论观点集合;
计算每个所述情感类评论观点集合中的各评论观点之间的语义相似度;
根据所述语义相似度对各评论观点进行聚类,生成评论观点聚类集合。
在一种实施方式中,将多条评论观点输入至情感分类模型中,输出多个情感类评论观点集合,包括:
对每条所述评论观点进行情感类型判断,使得每条所述评论观点具有对应的情感类型标签,所述情感类型标签包括积极情感标签和消极情感标签;
根据所述情感类型标签对各评论观点进行分类,生成积极情感评论观点集合和消极情感评论观点集合。
在一种实施方式中,计算每个所述情感类评论观点集合中的各评论观点之间的语义相似度,包括:
利用查询评论文本、所述情感类评论观点集合中的相关评论观点以及不相关评论观点训练得到语义相似度模型,所述相关评论观点与所述查询评论文本语义相关,所述不相关评论观点与所述查询评论文本语义不相关;
将所述情感类评论观点集合中的各评论观点输入至所述语义相似度模型中,得到评论观点之间的语义相似度。
在一种实施方式中,利用查询评论文本、所述情感类评论观点集合中的相关评论观点以及不相关评论观点训练得到语义相似度模型,包括:
获取用户输入的所述查询评论文本;
在所述情感类评论观点集合中,对所述查询评论文本进行深度语义学习,并根据学习结果构造所述相关评论观点以及所述不相关评论观点;
计算所述查询评论文本和所述相关评论观点之间的第一余弦相似度,以及所述查询评论文本和所述不相关评论观点之间的第二余弦相似度;
将所述第一余弦相似度和所述第二余弦相似度输入至排序模型中,生成所述语义相似度模型。
在一种实施方式中,根据所述语义相似度对所述评论观点进行聚类,生成评论观点聚类集合,包括:
将所述语义相似度输入至无监督学习聚类模型中,生成评论观点聚类集合。
第二方面,本发明提供了一种评论观点聚类装置,包括:
评论观点提取模块,用于提取用户评论文本中的多条评论观点;
情感分类模块,用于将多条评论观点输入至情感分类模型中,输出多个情感类评论观点集合;
语义相似度计算模块,用于计算每个所述情感类评论观点集合中的各评论观点之间的语义相似度;
聚类模块,用于根据所述语义相似度对各评论观点进行聚类,生成评论观点聚类集合。
在一种实施方式中,所述情感分类模块包括:
情感类型判断单元,用于对每条所述评论观点进行情感类型判断,使得每条所述评论观点具有对应的情感类型标签,所述情感类型标签包括积极情感标签和消极情感标签;
情感类型分类单元,用于根据所述情感类型标签对各评论观点进行分类,生成积极情感评论观点集合和消极情感评论观点集合。
在一种实施方式中,所述语义相似度计算模块包括:
语义相似度模型训练单元,用于利用查询评论文本、所述情感类评论观点集合中的相关评论观点以及不相关评论观点训练得到语义相似度模型,所述相关评论观点与所述查询评论文本语义相关,所述不相关评论观点与所述查询评论文本语义不相关;
语义相似度预测单元,用于将所述情感类评论观点集合中的各评论观点输入至所述语义相似度模型中,得到评论观点之间的语义相似度。
第三方面,本发明实施例提供了一种评论观点聚类终端,所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,评论观点聚类终端的结构中包括处理器和存储器,所述存储器用于存储支持评论观点聚类终端执行上述第一方面中评论观点聚类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述评论观点聚类终端还可以包括通信接口,用于评论观点聚类终端与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储评论观点聚类装置所用的计算机软件指令,其包括用于执行上述第一方面中评论观点聚类方法为评论观点聚类装置所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:利用情感分类模型将评论观点初步分成多情感类评论观点集合,在每个情感类评论观点集合内,计算评论观点之间的语义相似度,利用语义相关性进行进一步聚类。通过对特定产品的评论进行观点提取,并对提取到的评论观点进行聚类展示,可以帮助开发者了解该产品在用户中的口碑,通过对比同一类型不同商品或商家的评论观点信息,可以辅助用户进行消费决策。商家对自己产品的评论观点极性分析监控,可以及时发现用户对产品的评价和舆情信息。具备更好的泛化能力,可以得到更高的准确率和召回率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例提供的一种评论观点聚类方法流程图;
图2为本发明实施例提供的一种评论观点聚类方法示意图;
图3为本发明实施例提供的另一种评论观点聚类方法流程图;
图4为本发明实施例提供的一种情感分类方法示意图;
图5为本发明实施例提供的一种语义相似度模型训练方法流程图;
图6为本发明实施例提供的一种评论观点聚类装置框图;
图7为本发明实施例提供的另一种评论观点聚类装置框图;
图8为本发明实施例提供的一种评论观点聚类终端示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
实施例一
在一种具体实施方式中,如图1所示,提供的一种评论观点聚类方法流程图,所述方法包括:
步骤S10:提取用户评论文本中的多条评论观点。
步骤S20:将多条评论观点输入至情感分类模型中,输出多个情感类评论观点集合。
步骤S30:计算每个情感类评论观点集合中的各评论观点之间的语义相似度。
步骤S40:根据语义相似度对各评论观点进行聚类,生成评论观点聚类集合。
在一种示例中,如图2所示,获取用户输入的用户评论文本,从用户评论文本中提取待聚类的多条评论观点,构成评论观点集合。例如,评论观点集合可以包括“味道不错”、“菜品很好”、“烤鸭好吃”、“鱼汤一般”、“服务好”、“服务很差”、“前台服务员态度好”等。提取评论观点集合的方式可以是将用户评论文本输入评论观点提取装置中,得到评论观点集合。需要指出的是,上述观点提取方法仅是一种示例,还可以采用其他方法提取评论观点集合,例如基于无监督模板加语义匹配的方法。
将提取的评论观点集合输入至评论观点聚类装置中,得到聚类的结果。评论观点聚类装置中主要可以包含三个子模块:情感分类模块,语义相似度计算模块,聚类模块。首先可以通过情感分类模型进行初步分类。分类后,可以先训练语义相似度计算模型,在情感类评论观点集合中利用语义相似度计算模型可以计算同一个各评论观点之间的语义相似度。之后可以采用基于无监督聚类方法,例如K-means算法进行聚类,输出聚类结果。可以根据语义相似度对评论观点进行进一步的无监督聚类。例如,最终的观点聚类结果可以为“味道不错”->{“味道不错”、“菜品很好”、“烤鸭好吃”};“味道一般”->{“鱼汤一般”};“服务不错”->{“服务好”、“前台服务员态度好”}、“服务一般”->{“服务很差”}。
在一种实施方式中,如图3所示,步骤S20包括:
步骤S21:对每条评论观点进行情感类型判断,使得每条评论观点具有对应的情感类型标签,情感类型标签包括积极情感标签和消极情感标签;
步骤S22:根据情感类型标签对各评论观点进行分类,生成积极情感评论观点集合和消极情感评论观点集合。
可以采用基于双向长短期记忆(LSTM,Long Short-Term Memory)网络模型对每个评论观点进行情感类型判断。具体的,首先将评论观点按照一定的分词粒度分割成多个分词,输入为多种分词粒度的分词结果。如图4所示,以评论观点“餐厅环境比较整洁”为例。将该评论观点分割成“餐厅”、“环境”、“比较”、“整洁”作为分词结果。或者将该评论观点分割成“餐厅”、“环境”、“比较”、“整洁”作为分词结果。之后用双向长短期记忆网络模型分别学习每条评论观点的语义表示,将评论观点集合根据按照其情感极性(例如:积极、消极)进行分类,获取对应情感类型标签。例如,学习“餐厅环境比较整洁”的语义表示,得到的是积极情感类型标签。需要指出的是,分类模型包括但不局限于双向长短期记忆网络模型,也可以采用卷积神经网络(CNN,Convolutional Neural Network)模型、特征提取模型例如词袋(BOW,Bag of Word)模型、循环神经网络(RNN,Recurrent Neural Network)模型等常用文本分类模型。
在一种实施方式中,如图3所示,步骤S30包括:
步骤S31:利用查询评论文本、情感类评论观点集合中的相关评论观点以及不相关评论观点训练得到语义相似度模型,相关评论观点与查询评论文本语义相关,不相关评论观点与查询评论文本语义不相关;
步骤S32:将情感类评论观点集合中的各评论观点输入至语义相似度模型中,得到评论观点之间的语义相似度。
在一种示例中,计算上述挖掘到的情感类评论观点集合中每两个评论观点的语义相似度。首先,训练语义相似度模型。在训练时,需要利用查询评论文本构建相关评论观点以及不相关评论观点。构建之后利用查询评论文本、情感类评论观点集合中的相关评论观点以及不相关评论观点训练得到语义相似度模型。在预测时,只需要将查询评论文本和评论观点输入到语义相似度模型,计算出余弦相似度即可。
在一种实施方式中,如图5所示,步骤S31包括:
步骤S311:获取用户输入的查询评论文本;
步骤S312:在情感类评论观点集合中,对查询评论文本进行深度语义学习,并根据学习结果构造相关评论观点以及不相关评论观点;
步骤S313:计算查询评论文本和相关评论观点之间的第一余弦相似度,以及查询评论文本和不相关评论观点之间的第二余弦相似度;
步骤S314:将第一余弦相似度和第二余弦相似度输入至排序模型中,生成语义相似度模型。
在训练模型时,在计算评论观点之间的语义相似度时,可以采用学习排序算法例如Pairwise-Rank的方法训练有监督的神经网络语义匹配SimNet模型。具体的,首先,基于深度神经网模型DNN分别学习查询评论文本、情感类评论观点集合中的相关评论观点以及不相关评论观点的深度语义表示。需要指出的是,还可以基于特征提取(BOW)模型、卷积神经网络模型CNN、循环神经网络模型RNN、长短期记忆(LSTM)网络模型等进行深度语义表示。然后根据学习所得语义向量,分别计算查询评论文本和相关评论观点之间的第一余弦相似度,以及查询评论文本和不相关评论观点之间的第二余弦相似度。最后可以采用pairwise-loss函数作为优化目标。
在一种实施方式中,步骤S40包括:
将语义相似度输入至无监督学习聚类模型中,生成评论观点聚类集合。
可以利用计算所得评论观点之间的语义相似度,作为K-means算法的输入,得到聚类结果。需要指出的是,聚类的算法包括但不限制使用特定的聚类算法,如K-means算法,也可以使用层次聚类等算法进行聚类。
通过对特定产品的评论进行观点提取,并对提取到的评论观点进行聚类展示,可以帮助开发者了解该产品在用户中的口碑。通过对比同一类型不同商品或商家的评论观点信息,可以辅助用户进行消费决策。商家对自己产品的评论观点极性分析监控,可以及时发现用户对产品的评价和舆情信息。
实施例二
在一种具体实施方式中,如图6所示,提供了一种评论观点聚类装置,包括:
评论观点提取模块10,用于提取用户评论文本中的多条评论观点;
情感分类模块20,用于将多条评论观点输入至情感分类模型中,输出多个情感类评论观点集合;
语义相似度计算模块30,用于计算每个情感类评论观点集合中的各评论观点之间的语义相似度;
聚类模块40,用于根据语义相似度对各评论观点进行聚类,生成评论观点聚类集合。
在一种实施方式中,如图7所示,情感分类模块20包括:
情感类型判断单元201,用于对每条所述评论观点进行情感类型判断,使得每条所述评论观点具有对应的情感类型标签,所述情感类型标签包括积极情感标签和消极情感标签;
情感类型分类单元202,用于根据所述情感类型标签对各评论观点进行分类,生成积极情感评论观点集合和消极情感评论观点集合。
在一种实施方式中,如图7所示,语义相似度计算模块30包括:
语义相似度模型训练单元301,用于利用查询评论文本、所述情感类评论观点集合中的相关评论观点以及不相关评论观点训练得到语义相似度模型,所述相关评论观点与所述查询评论文本语义相关,所述不相关评论观点与所述查询评论文本语义不相关;
语义相似度预测单元302,用于将所述情感类评论观点集合中的各评论观点输入至所述语义相似度模型中,得到评论观点之间的语义相似度。
实施例三
本发明实施例提供了一种评论观点聚类终端,如图8所示,包括:
存储器400和处理器500,存储器400内存储有可在处理器500上运行的计算机程序。处理器500执行所述计算机程序时实现上述实施例中的评论观点聚类方法。存储器400和处理器500的数量可以为一个或多个。
通信接口600,用于存储器400和处理器500与外部进行通信。
存储器400可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器400、处理器500以及通信接口600独立实现,则存储器400、处理器500以及通信接口600可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器400、处理器500以及通信接口600集成在一块芯片上,则存储器400、处理器500及通信接口600可以通过内部接口完成相互间的通信。
实施例四
一种计算机可读存储介质,其存储有计算机程序,所述程序被处理器执行时实现如实施例一包括的任一所述的评论观点聚类方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种评论观点聚类方法,其特征在于,包括:
提取用户评论文本中的多条评论观点;
将多条评论观点输入至情感分类模型中,输出多个情感类评论观点集合;
计算每个所述情感类评论观点集合中的各评论观点之间的语义相似度;
根据所述语义相似度对各评论观点进行聚类,生成评论观点聚类集合。
2.如权利要求1所述的方法,其特征在于,将多条评论观点输入至情感分类模型中,输出多个情感类评论观点集合,包括:
对每条所述评论观点进行情感类型判断,使得每条所述评论观点具有对应的情感类型标签,所述情感类型标签包括积极情感标签和消极情感标签;
根据所述情感类型标签对各评论观点进行分类,生成积极情感评论观点集合和消极情感评论观点集合。
3.如权利要求1所述的方法,其特征在于,计算每个所述情感类评论观点集合中的各评论观点之间的语义相似度,包括:
利用查询评论文本、所述情感类评论观点集合中的相关评论观点以及不相关评论观点训练得到语义相似度模型,所述相关评论观点与所述查询评论文本语义相关,所述不相关评论观点与所述查询评论文本语义不相关;
将所述情感类评论观点集合中的各评论观点输入至所述语义相似度模型中,得到评论观点之间的语义相似度。
4.如权利要求3所述的方法,其特征在于,利用查询评论文本、所述情感类评论观点集合中的相关评论观点以及不相关评论观点训练得到语义相似度模型,包括:
获取用户输入的所述查询评论文本;
在所述情感类评论观点集合中,对所述查询评论文本进行深度语义学习,并根据学习结果构造所述相关评论观点以及所述不相关评论观点;
计算所述查询评论文本和所述相关评论观点之间的第一余弦相似度,以及所述查询评论文本和所述不相关评论观点之间的第二余弦相似度;
将所述第一余弦相似度和所述第二余弦相似度输入至排序模型中,生成所述语义相似度模型。
5.如权利要求1所述的方法,其特征在于,根据所述语义相似度对所述评论观点进行聚类,生成评论观点聚类集合,包括:
将所述语义相似度输入至无监督学习聚类模型中,生成评论观点聚类集合。
6.一种评论观点聚类装置,其特征在于,包括:
评论观点提取模块,用于提取用户评论文本中的多条评论观点;
情感分类模块,用于将多条评论观点输入至情感分类模型中,输出多个情感类评论观点集合;
语义相似度计算模块,用于计算每个所述情感类评论观点集合中的各评论观点之间的语义相似度;
聚类模块,用于根据所述语义相似度对各评论观点进行聚类,生成评论观点聚类集合。
7.如权利要求6所述的装置,其特征在于,所述情感分类模块包括:
情感类型判断单元,用于对每条所述评论观点进行情感类型判断,使得每条所述评论观点具有对应的情感类型标签,所述情感类型标签包括积极情感标签和消极情感标签;
情感类型分类单元,用于根据所述情感类型标签对各评论观点进行分类,生成积极情感评论观点集合和消极情感评论观点集合。
8.如权利要求6所述的装置,其特征在于,所述语义相似度计算模块包括:
语义相似度模型训练单元,用于利用查询评论文本、所述情感类评论观点集合中的相关评论观点以及不相关评论观点训练得到语义相似度模型,所述相关评论观点与所述查询评论文本语义相关,所述不相关评论观点与所述查询评论文本语义不相关;
语义相似度预测单元,用于将所述情感类评论观点集合中的各评论观点输入至所述语义相似度模型中,得到评论观点之间的语义相似度。
9.一种评论观点聚类终端,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811544896.4A CN109461037B (zh) | 2018-12-17 | 2018-12-17 | 评论观点聚类方法、装置和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811544896.4A CN109461037B (zh) | 2018-12-17 | 2018-12-17 | 评论观点聚类方法、装置和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109461037A true CN109461037A (zh) | 2019-03-12 |
CN109461037B CN109461037B (zh) | 2022-10-28 |
Family
ID=65613576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811544896.4A Active CN109461037B (zh) | 2018-12-17 | 2018-12-17 | 评论观点聚类方法、装置和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109461037B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977414A (zh) * | 2019-04-01 | 2019-07-05 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN110442718A (zh) * | 2019-08-08 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 语句处理方法、装置及服务器和存储介质 |
CN110837551A (zh) * | 2019-11-27 | 2020-02-25 | 广州快决测信息科技有限公司 | 一种在线数据采集的方法及系统 |
CN111339295A (zh) * | 2020-02-19 | 2020-06-26 | 北京字节跳动网络技术有限公司 | 用于展示信息的方法、装置、电子设备和计算机可读介质 |
CN111666410A (zh) * | 2020-05-29 | 2020-09-15 | 中国人民解放军军事科学院国防科技创新研究院 | 商品用户评论文本的情感分类方法及系统 |
CN112148947A (zh) * | 2020-09-28 | 2020-12-29 | 微梦创科网络科技(中国)有限公司 | 一种批量挖掘刷评用户的方法及系统 |
CN112184323A (zh) * | 2020-10-13 | 2021-01-05 | 上海风秩科技有限公司 | 评价标签生成方法和装置、存储介质及电子设备 |
JP2021033651A (ja) * | 2019-08-23 | 2021-03-01 | ヤフー株式会社 | 提供装置、提供方法及び提供プログラム |
CN112528136A (zh) * | 2020-11-30 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 一种观点标签的生成方法、装置、电子设备和存储介质 |
CN112800233A (zh) * | 2021-04-13 | 2021-05-14 | 成都数联铭品科技有限公司 | 一种文本立场检测方法 |
CN112836027A (zh) * | 2019-11-25 | 2021-05-25 | 京东方科技集团股份有限公司 | 用于确定文本相似度的方法、问答方法及问答系统 |
CN113377960A (zh) * | 2021-07-20 | 2021-09-10 | 汇智数字科技控股(深圳)有限公司 | 用于平台商品评论的分析方法、处理器及装置 |
CN113987168A (zh) * | 2021-10-12 | 2022-01-28 | 江苏科技大学 | 基于机器学习的商家评论分析系统及方法 |
CN115080741A (zh) * | 2022-06-24 | 2022-09-20 | 平安银行股份有限公司 | 一种问卷调查分析方法、装置、存储介质及设备 |
CN115481609A (zh) * | 2022-10-25 | 2022-12-16 | 中国科学院软件研究所 | 网络论坛的用户发文说服力预测方法、装置、设备和介质 |
CN116882414A (zh) * | 2023-09-05 | 2023-10-13 | 深圳爱马奇科技有限公司 | 基于大规模语言模型的评语自动生成方法及相关装置 |
CN117435752A (zh) * | 2023-11-03 | 2024-01-23 | 瑞达可信安全技术(广州)有限公司 | 一种基于大数据的信息收集分析方法和系统 |
CN118154281A (zh) * | 2024-05-08 | 2024-06-07 | 山东理工职业学院 | 一种基于人工智能的电子商务评论分析方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
CN104199846A (zh) * | 2014-08-08 | 2014-12-10 | 杭州电子科技大学 | 基于维基百科的评论主题词聚类方法 |
CN104462363A (zh) * | 2014-12-08 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 评论点的展现方法和装置 |
CN104778256A (zh) * | 2015-04-20 | 2015-07-15 | 江苏科技大学 | 一种领域问答系统咨询的快速可增量聚类方法 |
US20160027452A1 (en) * | 2014-07-28 | 2016-01-28 | Sone Computer Entertainment Inc. | Emotional speech processing |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN106528528A (zh) * | 2016-10-18 | 2017-03-22 | 哈尔滨工业大学深圳研究生院 | 文本情感分析的方法及装置 |
CN107153642A (zh) * | 2017-05-16 | 2017-09-12 | 华北电力大学 | 一种基于神经网络识别文本评论情感倾向的分析方法 |
CN107330023A (zh) * | 2017-06-21 | 2017-11-07 | 北京百度网讯科技有限公司 | 基于关注点的文本内容推荐方法和装置 |
CN107704558A (zh) * | 2017-09-28 | 2018-02-16 | 北京车慧互动广告有限公司 | 一种用户意见抽取方法及系统 |
CN108038725A (zh) * | 2017-12-04 | 2018-05-15 | 中国计量大学 | 一种基于机器学习的电商产品客户满意度分析方法 |
CN108153856A (zh) * | 2017-12-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN108388544A (zh) * | 2018-02-10 | 2018-08-10 | 桂林电子科技大学 | 一种基于深度学习的图文融合微博情感分析方法 |
CN108388608A (zh) * | 2018-02-06 | 2018-08-10 | 金蝶软件(中国)有限公司 | 基于文本感知的情感反馈方法、装置、计算机设备和存储介质 |
CN108446813A (zh) * | 2017-12-19 | 2018-08-24 | 清华大学 | 一种电商服务质量综合评价的方法 |
CN108763384A (zh) * | 2018-05-18 | 2018-11-06 | 北京慧闻科技发展有限公司 | 用于文本分类的数据处理方法、数据处理装置和电子设备 |
-
2018
- 2018-12-17 CN CN201811544896.4A patent/CN109461037B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
US20160027452A1 (en) * | 2014-07-28 | 2016-01-28 | Sone Computer Entertainment Inc. | Emotional speech processing |
CN104199846A (zh) * | 2014-08-08 | 2014-12-10 | 杭州电子科技大学 | 基于维基百科的评论主题词聚类方法 |
CN104462363A (zh) * | 2014-12-08 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 评论点的展现方法和装置 |
CN104778256A (zh) * | 2015-04-20 | 2015-07-15 | 江苏科技大学 | 一种领域问答系统咨询的快速可增量聚类方法 |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN106528528A (zh) * | 2016-10-18 | 2017-03-22 | 哈尔滨工业大学深圳研究生院 | 文本情感分析的方法及装置 |
CN107153642A (zh) * | 2017-05-16 | 2017-09-12 | 华北电力大学 | 一种基于神经网络识别文本评论情感倾向的分析方法 |
CN107330023A (zh) * | 2017-06-21 | 2017-11-07 | 北京百度网讯科技有限公司 | 基于关注点的文本内容推荐方法和装置 |
CN107704558A (zh) * | 2017-09-28 | 2018-02-16 | 北京车慧互动广告有限公司 | 一种用户意见抽取方法及系统 |
CN108038725A (zh) * | 2017-12-04 | 2018-05-15 | 中国计量大学 | 一种基于机器学习的电商产品客户满意度分析方法 |
CN108446813A (zh) * | 2017-12-19 | 2018-08-24 | 清华大学 | 一种电商服务质量综合评价的方法 |
CN108153856A (zh) * | 2017-12-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN108388608A (zh) * | 2018-02-06 | 2018-08-10 | 金蝶软件(中国)有限公司 | 基于文本感知的情感反馈方法、装置、计算机设备和存储介质 |
CN108388544A (zh) * | 2018-02-10 | 2018-08-10 | 桂林电子科技大学 | 一种基于深度学习的图文融合微博情感分析方法 |
CN108763384A (zh) * | 2018-05-18 | 2018-11-06 | 北京慧闻科技发展有限公司 | 用于文本分类的数据处理方法、数据处理装置和电子设备 |
Non-Patent Citations (9)
Title |
---|
PO-SEN HUANG等: "Learning Deep Structured Semantic Models for Web Search using Clickthrough Data", 《PROCEEDINGS OF THE 22ND ACM》 * |
YAJIE HU 等: "Identifying Accuracy of Social Tags by Using Clustering Representations of Song Lyrics", 《2012 11TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS》 * |
刘林浩: "网络热点新闻事件挖掘和跟踪分析方法的研究与实现", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
刘菲菲: "面向用户在线评论的情感倾向分析", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
机器之心: "百度NLP|神经网络语义匹配技术", 《HTTPS://WWW.JIQIZHIXIN.COM/ARTICLES/2017-06-15-5》 * |
李法运等: "基于向量语义相似度的改进K-Means算法", 《情报科学》 * |
陈晓美: "网络评论观点知识发现研究", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 * |
陈珊珊: "自动作文评分模型及方法研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
麦林: "虚拟社区热点话题意见挖掘模型研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977414B (zh) * | 2019-04-01 | 2023-03-14 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN109977414A (zh) * | 2019-04-01 | 2019-07-05 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN110442718A (zh) * | 2019-08-08 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 语句处理方法、装置及服务器和存储介质 |
CN110442718B (zh) * | 2019-08-08 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 语句处理方法、装置及服务器和存储介质 |
JP2021033651A (ja) * | 2019-08-23 | 2021-03-01 | ヤフー株式会社 | 提供装置、提供方法及び提供プログラム |
JP7106500B2 (ja) | 2019-08-23 | 2022-07-26 | ヤフー株式会社 | 提供装置、提供方法及び提供プログラム |
CN112836027A (zh) * | 2019-11-25 | 2021-05-25 | 京东方科技集团股份有限公司 | 用于确定文本相似度的方法、问答方法及问答系统 |
CN110837551B (zh) * | 2019-11-27 | 2022-06-28 | 广州快决测信息科技有限公司 | 一种在线数据采集的方法及系统 |
TWI799760B (zh) * | 2019-11-27 | 2023-04-21 | 大陸商廣州快決測信息科技有限公司 | 在線資料採集的方法、裝置、電腦可讀儲存媒介及系統 |
US11886479B2 (en) | 2019-11-27 | 2024-01-30 | Guangzhou Quick Decision Information Technology Co., Ltd. | Online data acquisition method and system |
CN110837551A (zh) * | 2019-11-27 | 2020-02-25 | 广州快决测信息科技有限公司 | 一种在线数据采集的方法及系统 |
CN111339295A (zh) * | 2020-02-19 | 2020-06-26 | 北京字节跳动网络技术有限公司 | 用于展示信息的方法、装置、电子设备和计算机可读介质 |
CN111666410A (zh) * | 2020-05-29 | 2020-09-15 | 中国人民解放军军事科学院国防科技创新研究院 | 商品用户评论文本的情感分类方法及系统 |
CN112148947A (zh) * | 2020-09-28 | 2020-12-29 | 微梦创科网络科技(中国)有限公司 | 一种批量挖掘刷评用户的方法及系统 |
CN112148947B (zh) * | 2020-09-28 | 2024-03-22 | 微梦创科网络科技(中国)有限公司 | 一种批量挖掘刷评用户的方法及系统 |
CN112184323A (zh) * | 2020-10-13 | 2021-01-05 | 上海风秩科技有限公司 | 评价标签生成方法和装置、存储介质及电子设备 |
CN112528136A (zh) * | 2020-11-30 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 一种观点标签的生成方法、装置、电子设备和存储介质 |
CN112800233B (zh) * | 2021-04-13 | 2021-06-18 | 成都数联铭品科技有限公司 | 一种文本立场检测方法 |
CN112800233A (zh) * | 2021-04-13 | 2021-05-14 | 成都数联铭品科技有限公司 | 一种文本立场检测方法 |
CN113377960A (zh) * | 2021-07-20 | 2021-09-10 | 汇智数字科技控股(深圳)有限公司 | 用于平台商品评论的分析方法、处理器及装置 |
CN113987168A (zh) * | 2021-10-12 | 2022-01-28 | 江苏科技大学 | 基于机器学习的商家评论分析系统及方法 |
CN115080741A (zh) * | 2022-06-24 | 2022-09-20 | 平安银行股份有限公司 | 一种问卷调查分析方法、装置、存储介质及设备 |
CN115481609B (zh) * | 2022-10-25 | 2023-10-03 | 中国科学院软件研究所 | 网络论坛的用户发文说服力预测方法、装置、设备和介质 |
CN115481609A (zh) * | 2022-10-25 | 2022-12-16 | 中国科学院软件研究所 | 网络论坛的用户发文说服力预测方法、装置、设备和介质 |
CN116882414B (zh) * | 2023-09-05 | 2023-11-07 | 深圳爱马奇科技有限公司 | 基于大规模语言模型的评语自动生成方法及相关装置 |
CN116882414A (zh) * | 2023-09-05 | 2023-10-13 | 深圳爱马奇科技有限公司 | 基于大规模语言模型的评语自动生成方法及相关装置 |
CN117435752A (zh) * | 2023-11-03 | 2024-01-23 | 瑞达可信安全技术(广州)有限公司 | 一种基于大数据的信息收集分析方法和系统 |
CN117435752B (zh) * | 2023-11-03 | 2024-04-26 | 广州施比受科技有限公司 | 一种基于大数据的信息收集分析方法和系统 |
CN118154281A (zh) * | 2024-05-08 | 2024-06-07 | 山东理工职业学院 | 一种基于人工智能的电子商务评论分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109461037B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109461037A (zh) | 评论观点聚类方法、装置和终端 | |
Huai et al. | Which environmental features contribute to positive and negative perceptions of urban parks? A cross-cultural comparison using online reviews and Natural Language Processing methods | |
CN110674410B (zh) | 用户画像构建、内容推荐方法、装置及设备 | |
Reckwitz | Toward a theory of social practices: A development in culturalist theorizing | |
US10936906B2 (en) | Training data acquisition method and device, server and storage medium | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN110134765A (zh) | 一种基于情感分析的餐厅用户评论分析系统及方法 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN110362833A (zh) | 一种基于文本的情感分析方法及相关装置 | |
KR101319413B1 (ko) | 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법 | |
CN110377727A (zh) | 一种基于多任务学习的多标签文本分类方法和装置 | |
Baier Fuentes et al. | A bibliometric overview of the international journal of interactive multimedia and artificial intelligence | |
CN108564429A (zh) | 一种基于深度学习的美食门店推荐方法 | |
Vasantkumar | From world cities to world sites: Strategic ruralism and the case for an anthropology of actually existing connectivity | |
Kordumova et al. | Pooling objects for recognizing scenes without examples | |
CN109766000A (zh) | 一种基于虚拟现实的智慧教育系统及方法 | |
CN109189919A (zh) | 文本多视角情感分类的方法、系统、终端及存储介质 | |
Ali et al. | Learning evolution: A survey | |
Hossny et al. | Enhancing keyword correlation for event detection in social networks using SVD and k-means: Twitter case study | |
CN105701230B (zh) | 一种基于图像内容的用户兴趣细分方法及系统 | |
Khan et al. | Fake news detection of South African COVID-19 related tweets using machine learning | |
Calderón-Fajardo et al. | Understanding destination brand experience through data mining and machine learning | |
Cucurull et al. | Deep inference of personality traits by integrating image and word use in social networks | |
Onaciu et al. | Ensemble of artificial neural networks for aspect based sentiment analysis | |
Berg et al. | Do you see what I see? Measuring the semantic differences in image‐recognition services' outputs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |