CN111737978A - 一种购物评价情感分析的方法、装置及电子设备 - Google Patents
一种购物评价情感分析的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111737978A CN111737978A CN202010627070.5A CN202010627070A CN111737978A CN 111737978 A CN111737978 A CN 111737978A CN 202010627070 A CN202010627070 A CN 202010627070A CN 111737978 A CN111737978 A CN 111737978A
- Authority
- CN
- China
- Prior art keywords
- shopping
- evaluation sample
- shopping evaluation
- emotion
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Probability & Statistics with Applications (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种购物评价情感分析的方法、装置及电子设备,其中,该方法包括:获取包括多个购物评价样本文本的训练集;确定购物评价样本文本中关键词的重要程度和词向量;根据购物评价样本文本的所有关键词的重要程度和词向量生成与购物评价样本文本所对应的情感训练样本,并对逻辑回归模型进行迭代训练,生成情感分析模型;获取待处理的购物评价数据,根据情感分析模型确定购物评价数据的情感分析结果。通过本发明实施例提供的购物评价情感分析的方法、装置及电子设备,可以采用机器学习的方式实现情感倾向性分析,不需要人工标注;且采用迭代训练的方式能够对模型进行多次修正,使得最后得到的情感分析模型更加准确。
Description
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种购物评价情感分析的方法、装置、电子设备及计算机可读存储介质。
背景技术
随着网络购物的兴起,逐渐产生越来越多的购物评价。目前,对购物评价等评论文本进行情感倾向性分析的技术主要分为两大类:一是基于情感字典或者语意知识的方法,二是基于机器学习方法。
在实现本发明的过程中,发明人发现现有的方案中至少存在如下问题:
使用情感词典的文本情感分析方法,其准确性主要依据词典构建的质量,无法分析词典中没有含有的词语,对一条评论整体所表达的情感倾向分析准确性较差;而面对海量的购物评价数据,通过人工或简单的统计分析方法,费时费力,且会浪费高质量的购物评价数据。基于机器学习的方法一般基于词性、句法等特征进行情感分类,目前大多依靠人工标注样本,费时费力,而且对文本信息的挖掘与利用并不彻底。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种购物评价情感分析的方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明实施例提供了一种购物评价情感分析的方法,包括:
获取训练集,所述训练集包括多个购物评价样本文本;
对所述购物评价样本文本进行切词处理,确定所述购物评价样本文本的一个或多个关键词,并确定所述关键词的重要程度和词向量;
根据所述购物评价样本文本的所有所述关键词的重要程度和词向量生成与所述购物评价样本文本所对应的情感训练样本,并根据所有的所述情感训练样本对逻辑回归模型进行迭代训练,生成情感分析模型;
获取待处理的购物评价数据,根据所述情感分析模型确定所述购物评价数据的情感分析结果。
第二方面,本发明实施例还提供了一种购物评价情感分析的装置,包括:
获取模块,用于获取训练集,所述训练集包括多个购物评价样本文本;
处理模块,用于对所述购物评价样本文本进行切词处理,确定所述购物评价样本文本的一个或多个关键词,并确定所述关键词的重要程度和词向量;
训练模块,用于根据所述购物评价样本文本的所有所述关键词的重要程度和词向量生成与所述购物评价样本文本所对应的情感训练样本,并根据所有的所述情感训练样本对逻辑回归模型进行迭代训练,生成情感分析模型;
情感分析模块,用于获取待处理的购物评价数据,根据所述情感分析模型确定所述购物评价数据的情感分析结果。
第三方面,本发明实施例提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任意一项所述的购物评价情感分析的方法中的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的购物评价情感分析的方法中的步骤。
本发明实施例提供的购物评价情感分析的方法、装置、电子设备及计算机可读存储介质,基于关键词的重要程度和词向量对逻辑回归模型进行训练,可以采用机器学习的方式实现情感倾向性分析,不需要人工标注;且采用迭代训练的方式能够对模型进行多次修正,使得最后得到的情感分析模型更加准确。此外,可以基于情感字典选取关键词,实现情感字典与机器学习的结合,情感分析效果更好。以词云图的方式展示情感分析结果,方便可以标签化购物网站或店铺,便于消费者进行选择。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1示出了本发明实施例所提供的一种购物评价情感分析的方法的流程图;
图2示出了本发明实施例所提供的一种购物评价情感分析的装置的结构示意图;
图3示出了本发明实施例所提供的一种用于执行购物评价情感分析的方法的电子设备的结构示意图。
具体实施方式
在本发明实施例的描述中,所属技术领域的技术人员应当知道,本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此,本发明实施例可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。
上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。
上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输,包括:无线、电线、光缆、射频(Radio Frequency,RF)或者以上任意合适的组合。
可以以汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,例如:Java、Smalltalk、C++,还包括常规的过程式程序设计语言,例如:C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括:局域网(LAN)或广域网(WAN),可以连接到用户计算机,也可以连接到外部计算机。
本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
下面结合本发明实施例中的附图对本发明实施例进行描述。
图1示出了本发明实施例所提供的一种购物评价情感分析的方法的流程图。如图1所示,该方法包括:
步骤101:获取训练集,该训练集包括多个购物评价样本文本。
本发明实施例中,基于预先确定的训练集对预设的模型进行训练,从而可以生成所需的情感分析模型。具体的,本实施例中基于多个购物评价样本文本生成训练集,即该训练集包含多个购物评价样本文本。其中,该购物评价样本文本可以是语料库中与购物评价相关的文本数据,也可以是从网络上爬取得到的与购物评价相关的文本数据,如用户对某种商品的评价等。
步骤102:对购物评价样本文本进行切词处理,确定购物评价样本文本的一个或多个关键词,并确定关键词的重要程度和词向量。
本发明实施例中,在训练阶段,对购物评价样本文本进行切词处理,从而可以将购物评价文本切分为多个分词,进而可以从分词中选取一个或多个关键词。可以基于分词的词频等参数来选取关键词,且可以将所有的分词均作为关键词,也可以将一部分分词作为关键词,本实施例对此不做限定。具体的,可以基于情感字典等将属于情感字典的分词作为关键词,即将具有情感色彩的词语作为关键词;或者,也可以确定所有分词的重要程度,将具有最高重要程度的多个分词作为关键词。
同时,本实施例中还确定每个关键词的重要程度和词向量;其中,该重要程度用于表示该关键词在该购物评价文本或整个训练集中的重要程度,该词向量为具有语义特性的词向量,具体可基于训练好的word2vec词向量模型确定每个关键词的词向量,word2vec可以自动从大规模无标注的文本中学习到句法和语义信息,实现对文本中关键词的表征,方便后续确定关键词的情感趋势。
步骤103:根据购物评价样本文本的所有关键词的重要程度和词向量生成与购物评价样本文本所对应的情感训练样本,并根据所有的情感训练样本对逻辑回归模型进行迭代训练,生成情感分析模型。
本发明实施中,对于每一条购物评价样本文本,基于其所包含的所有关键词的重要程度和相应的词向量可以生成用于训练的样本,即情感训练样本。在确定训练集中所有购物评价样本文本的情感训练样本之后,即可基于所有的情感训练样本对预设的模型进行训练。本实施例中基于逻辑回归模型进行训练,且采用迭代训练的方式,每一轮的训练过程可以对逻辑回归模型进行修正,使得最终生成的情感分析模型的参数更加准确。
其中,上述步骤“根据购物评价样本文本的所有关键词的重要程度和词向量生成与购物评价样本文本所对应的情感训练样本”包括:
步骤A1:根据购物评价样本文本的所有关键词的词向量生成购物评价样本文本的文本向量xi。
步骤A2:根据购物评价样本文本的所有关键词的重要程度生成购物评价样本文本的权重向量yi;结合文本向量和权重向量生成与购物评价样本文本所对应的情感训练样本(xi,yi);其中, 表示第i个购物评价样本文本中第j个关键词的词向量,表示第i个购物评价样本文本中第j个关键词的重要程度,n为第i个购物评价样本文本的中关键词的出现次数。
本发明实施例中,对于训练集中第i个购物评价样本文本,其包含一个或多个关键词,且关键词的出现次数为n。按照关键词在该购物评价样本文本中的出现顺序,可以确定每个关键词的词向量和重要程度,该第i个购物评价样本文本中第j个关键词的词向量和重要程度分别是和之后基于所有关键词的词向量和重要程度即可确定相应的文本向量xi和权重向量yi,即 相应的,整个训练集可以生成包含多个情感训练样本(xi,yi)的情感训练样本集T,即T={(x1,y1),(x2,y2),…,(xN,yN)},N为该训练集中所包含的购物评价样本文本的数量。
步骤104:获取待处理的购物评价数据,根据情感分析模型确定购物评价数据的情感分析结果。
本发明实施例中,在确定训练好的情感分析模型之后,即可对需要处理的购物评价数据进行情感分析。其中,该购物评价数据可以是通过爬取的方式所确定的与购物评价相关的数据,之后即可基于该情感分析模型对该购物评价数据进行情感分析,进而生成相应的情感分析结构。具体的,对于该购物评价数据,也可以采用上述步骤102和步骤103中对购物评价样本文本的相似处理方式,确定该购物评价数据的文本向量和权重向量,进而基于该情感分析模型确定相应的情感分析结果。其中,该情感分析结果可以包含该购物评价数据的整体情感趋势分析结果,如该购物评价数据为好评、中评或差评;同时,该情感分析结果也可以包含购物评价数据中关键词的情感趋势。其中,该购物评价数据的关键词可以是高频情感词,在上述步骤“根据情感分析模型确定购物评价数据的情感分析结果”之后,可选的,该方法还包括:根据情感分析结果确定购物评价数据中的高频情感词和高频情感词的情感趋势,并根据高频情感词和相应的情感趋势生成词云图。本发明实施例中,可以将基于高频情感词的情感趋势等确定每个高频情感词的显示方式,如确定显示颜色、显示大小、显示位置等,如以红色、大号字体、在中间位置显示该高频情感词,进而基于多个高频情感词生成相应的词云图。其中,可以将一个店铺中的所有评价作为待处理的购物评价数据,之后基于所有购物评价数据的情感分析结果生成该店铺的词云图,可以标签化购物网站或店铺,方便消费者直观地了解该店铺的评价状况,便于消费者选择。
本发明实施例提供的一种购物评价情感分析的方法,基于关键词的重要程度和词向量对逻辑回归模型进行训练,可以采用机器学习的方式实现情感倾向性分析,不需要人工标注;且采用迭代训练的方式能够对模型进行多次修正,使得最后得到的情感分析模型更加准确。此外,可以基于情感字典选取关键词,实现情感字典与机器学习的结合,情感分析效果更好。以词云图的方式展示情感分析结果,方便可以标签化购物网站或店铺,便于消费者进行选择。
在上述实施例的基础上,本实施例中基于关键词的词频和逆向文档频率确定关键词的重要程度,该过程具体可以包括:
步骤B1:确定关键词的词频和逆向文档频率,根据词频和逆向文档频率生成关键词的重要程度,且第j个购物评价样本文本中第i个关键词的重要程度tfidfi,j为:
tfidfi,j=tfi,j×idfj;
其中,dj表示第j个购物评价样本文本,ni,j表示第i个关键词在dj中的出现次数,∑kni,j表示dj中所有关键词的出现次数之和,|D|表示购物评价样本文本的总数,|{j:ti∈dj}|表示包含第i个关键词ti的所有购物评价样本文本的数量,a为调整系数,一般情况下,a=1。
本发明实施例中,词频tfi,j表示第i个关键词在第j个购物评价样本文本中的出现频率,词频越高,说明该关键词出现的次数越多,其越重要。逆向文档频率idfj表示含有该第i个关键词的购物评价样本文本与总数量|D|的关系,该逆向文档频率idfj越大,说明该关键词在其他购物评价样本文本中出现的次数较少,即对于该第j个购物评价样本文本,该第i个关键词是比较重要的。
在上述实施例的基础上,上述步骤103“根据所有的情感训练样本对逻辑回归模型进行迭代训练,生成情感分析模型”包括:
步骤C1:在第m轮训练过程中,根据所有的情感训练样本对上一轮的逻辑回归模型Gm-1(x)进行修正训练,确定当前轮训练后的逻辑回归模型Gm(x),并根据逻辑回归模型Gm(x)的误差率em确定相应的权重am,权重am与误差率em之间为负相关关系。
本发明实施例中,该迭代训练会进行多轮训练,即进行M轮训练,该训练轮数具体可基于实际情况而定,例如,若当前轮训练后的模型误差率小于预设阈值,则可以训练结束;或者,该轮数M也可以预先确定,如预设M=1000等,本实施例对此不做限定。本发明实施例中,预先确定初始的逻辑回归模型G0(x),之后在每一轮训练过程,基于上一轮训练后的逻辑回归模型进行修正训练,每一轮可以生成一个训练好的逻辑回归模型,进而基于所有的逻辑回归模型可以生成所需的情感分析模型
具体的,如上述步骤C1-步骤C2所示,以第m轮为例说明,对第m-1轮的逻辑回归模型Gm-1(x)进行修正训练,从而可以确定当前轮训练后的逻辑回归模型Gm(x)。且对于第m轮,可以确定相应的误差率em和该轮模型的权重am。其中,权重am与误差率em之间为负相关关系,即误差率em越小,说明第m轮的模型Gm(x)越精确,其权重am越大。例如,该误差率和权重具体可以是:
可选的,上述步骤101“获取训练集”包括:
步骤D1:获取多个购物评价样本数值和与购物评价样本数值相匹配的购物评价样本文本。
步骤D2:对购物评价样本数值进行预处理,并根据与预处理后的购物评价样本数值相匹配的购物评价样本文本生成训练集;预处理包括填补处理、平滑极值处理、离散化处理中的一项或多项;其中,填补处理为基于平均值对购物评价样本数值中的缺省值进行填补;平滑极值处理为基于预设的边界值对具有极值的购物评价样本数值进行剔除处理;离散化处理为以离散提取的方式提取出多个购物评价样本数值。
本发明实施例中,用户对店铺进行评价时,会包含文本形式的评价和数值形式的评价,相应的,对于训练模型时所用的数据,其包含用户评价包含购物评价样本文本和购物评价样本数值,该购物评价样本数值具体可以是用户对店铺的评价等级,如一星、五星等。本实施例中可以基于该购物评价样本数值进行预处理,从而实现对数据进行清洗。
本实施例中可以对该购物评价样本数值进行填补处理、平滑极值处理、离散化处理等预处理,以实现数据清洗;其中,可以基于Python对该购物评价样本数值进行预处理。具体的,若相应的评价中的数值型数据为系统自动生成的缺省值(如系统自动好评等),则可以基于平均值对购物评价样本数值中的缺省值进行填补。此外,若在极值处存在突变等,可以基于预设的边界值对具有极值的购物评价样本数值进行剔除处理,从而可以剔除极值附近的孤立点。若数据较多,也可以基于该购物评价样本数值进行排序,并对排序后的购物评价样本数值进行离散化处理,从而中离散提取出部分购物评价样本数值,进而可以离散提取出部分购物评价文本已进行训练,避免训练量过大。
本发明实施例提供的一种购物评价情感分析的方法,基于关键词的重要程度和词向量对逻辑回归模型进行训练,可以采用机器学习的方式实现情感倾向性分析,不需要大量的人工标注;且采用迭代训练的方式能够对模型进行多次修正,使得最后得到的情感分析模型更加准确。此外,可以基于情感字典选取关键词,实现情感字典与机器学习的结合,情感分析效果更好。以词云图的方式展示情感分析结果,方便可以标签化购物网站或店铺,便于消费者进行选择。基于每轮训练的误差率确定相应模型的权重,使得误差率小的模型具有更高的权重,进而使得最终确定的情感分析模型能够更加准确地进行情感趋势分析,使得情感分析结果更加准确。
上文详细描述了本发明实施例提供的购物评价情感分析的方法,该方法也可以通过相应的装置实现,下面详细描述本发明实施例提供的购物评价情感分析的装置。
图2示出了本发明实施例所提供的一种购物评价情感分析的装置的结构示意图。如图2所示,该购物评价情感分析的装置包括:
获取模块21,用于获取训练集,所述训练集包括多个购物评价样本文本;
处理模块22,用于对所述购物评价样本文本进行切词处理,确定所述购物评价样本文本的一个或多个关键词,并确定所述关键词的重要程度和词向量;
训练模块23,用于根据所述购物评价样本文本的所有所述关键词的重要程度和词向量生成与所述购物评价样本文本所对应的情感训练样本,并根据所有的所述情感训练样本对逻辑回归模型进行迭代训练,生成情感分析模型;
情感分析模块24,用于获取待处理的购物评价数据,根据所述情感分析模型确定所述购物评价数据的情感分析结果。
在上述实施例的基础上,所述处理模块22确定所述关键词的重要程度包括:
确定所述关键词的词频和逆向文档频率,根据所述词频和所述逆向文档频率生成所述关键词的重要程度,且第j个购物评价样本文本中第i个关键词的重要程度tfidfi,j为:
tfidfi,j=tfi,j×idfj;
其中,dj表示第j个购物评价样本文本,ni,j表示第i个关键词在dj中的出现次数,∑kni,j表示dj中所有关键词的出现次数之和,|D|表示购物评价样本文本的总数,|{j:ti∈dj}|表示包含第i个关键词ti的所有购物评价样本文本的数量,a为调整系数。
在上述实施例的基础上,所述训练模块23根据所述购物评价样本文本的所有所述关键词的重要程度和词向量生成与所述购物评价样本文本所对应的情感训练样本,包括:
根据所述购物评价样本文本的所有所述关键词的词向量生成所述购物评价样本文本的文本向量xi;
根据所述购物评价样本文本的所有所述关键词的重要程度生成所述购物评价样本文本的权重向量yi;结合所述文本向量和所述权重向量生成与所述购物评价样本文本所对应的情感训练样本(xi,yi);
在上述实施例的基础上,所述训练模块23根据所有的所述情感训练样本对逻辑回归模型进行迭代训练,生成情感分析模型,包括:
在第m轮训练过程中,根据所有的所述情感训练样本对上一轮的逻辑回归模型Gm-1(x)进行修正训练,确定当前轮训练后的逻辑回归模型Gm(x),并根据所述逻辑回归模型Gm(x)的误差率em确定相应的权重am,所述权重am与所述误差率em之间为负相关关系;
在上述实施例的基础上,该装置还包括词云模块;
在所述情感分析模块24根据所述情感分析模型确定所述购物评价数据的情感分析结果之后,所述词云模块用于:根据所述情感分析结果确定所述购物评价数据中的高频情感词和所述高频情感词的情感趋势,并根据所述高频情感词和相应的情感趋势生成词云图。
在上述实施例的基础上,所述获取模块21获取训练集包括:
获取多个购物评价样本数值和与所述购物评价样本数值相匹配的购物评价样本文本;
对所述购物评价样本数值进行预处理,并根据与预处理后的购物评价样本数值相匹配的所述购物评价样本文本生成训练集;所述预处理包括填补处理、平滑极值处理、离散化处理中的一项或多项;
其中,所述填补处理为基于平均值对所述购物评价样本数值中的缺省值进行填补;所述平滑极值处理为基于预设的边界值对具有极值的购物评价样本数值进行剔除处理;所述离散化处理为以离散提取的方式提取出多个购物评价样本数值。
本发明实施例提供的一种购物评价情感分析的装置,基于关键词的重要程度和词向量对逻辑回归模型进行训练,可以采用机器学习的方式实现情感倾向性分析,不需要大量的人工标注;且采用迭代训练的方式能够对模型进行多次修正,使得最后得到的情感分析模型更加准确。此外,可以基于情感字典选取关键词,实现情感字典与机器学习的结合,情感分析效果更好。以词云图的方式展示情感分析结果,方便可以标签化购物网站或店铺,便于消费者进行选择。基于每轮训练的误差率确定相应模型的权重,使得误差率小的模型具有更高的权重,进而使得最终确定的情感分析模型能够更加准确地进行情感趋势分析,使得情感分析结果更加准确。
此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述购物评价情感分析的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图3所示,本发明实施例还提供了一种电子设备,该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。
在本发明实施例中,该电子设备还包括:存储在存储器1150上并可在处理器1120上运行的计算机程序,计算机程序被处理器1120执行时实现上述购物评价情感分析的方法实施例的各个过程。
收发器1130,用于在处理器1120的控制下接收和发送数据。
本发明实施例中,总线架构(用总线1110来代表),总线1110可以包括任意数量互联的总线和桥,总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。
总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。
处理器1120可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。
处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
总线1110还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口1140在总线1110和收发器1130之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。
收发器1130可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器1130从其他设备接收外部数据,收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口1160,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
应理解,在本发明实施例中,存储器1150可进一步包括相对于处理器1120远程设置的存储器,这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hocnetwork)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如,蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance MobileBroadband,eMBB)系统、海量机器类通信(massive Machine Type ofCommunication,mMTC)系统、超可靠低时延通信(UltraReliable LowLatency Communications,uRLLC)系统等。
应理解,本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器,或可包括易失性存储器和非易失性存储器两者。其中,非易失性存储器包括:只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存(Flash Memory)。
易失性存储器包括:随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如:静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。
在本发明实施例中,存储器1150存储了操作系统1151和应用程序1152的如下元素:可执行模块、数据结构,或者其子集,或者其扩展集。
具体而言,操作系统1151包含各种系统程序,例如:框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序,例如:媒体播放器(Media Player)、浏览器(Browser),用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括:小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述购物评价情感分析的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读存储介质包括:永久性和非永久性、可移动和非可移动媒体,是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括:电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定,计算机可读存储介质不包括暂时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。
在本申请所提供的几个实施例中,应该理解到,所披露的装置、电子设备和方法,可以通过其他的方式实现。例如,以上描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的、机械的或其他的形式连接。
所述作为分离部件说明的单元可以是或也可以不是物理上分开的,作为单元显示的部件可以是或也可以不是物理单元,既可以位于一个位置,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(包括:个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。
以上所述,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种购物评价情感分析的方法,其特征在于,包括:
获取训练集,所述训练集包括多个购物评价样本文本;
对所述购物评价样本文本进行切词处理,确定所述购物评价样本文本的一个或多个关键词,并确定所述关键词的重要程度和词向量;
根据所述购物评价样本文本的所有所述关键词的重要程度和词向量生成与所述购物评价样本文本所对应的情感训练样本,并根据所有的所述情感训练样本对逻辑回归模型进行迭代训练,生成情感分析模型;
获取待处理的购物评价数据,根据所述情感分析模型确定所述购物评价数据的情感分析结果。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述情感分析模型确定所述购物评价数据的情感分析结果之后,还包括:
根据所述情感分析结果确定所述购物评价数据中的高频情感词和所述高频情感词的情感趋势,并根据所述高频情感词和相应的情感趋势生成词云图。
6.根据权利要求1所述的方法,其特征在于,所述获取训练集包括:
获取多个购物评价样本数值和与所述购物评价样本数值相匹配的购物评价样本文本;
对所述购物评价样本数值进行预处理,并根据与预处理后的购物评价样本数值相匹配的所述购物评价样本文本生成训练集;所述预处理包括填补处理、平滑极值处理、离散化处理中的一项或多项;
其中,所述填补处理为基于平均值对所述购物评价样本数值中的缺省值进行填补;所述平滑极值处理为基于预设的边界值对具有极值的购物评价样本数值进行剔除处理;所述离散化处理为以离散提取的方式提取出多个购物评价样本数值。
7.一种购物评价情感分析的装置,其特征在于,包括:
获取模块,用于获取训练集,所述训练集包括多个购物评价样本文本;
处理模块,用于对所述购物评价样本文本进行切词处理,确定所述购物评价样本文本的一个或多个关键词,并确定所述关键词的重要程度和词向量;
训练模块,用于根据所述购物评价样本文本的所有所述关键词的重要程度和词向量生成与所述购物评价样本文本所对应的情感训练样本,并根据所有的所述情感训练样本对逻辑回归模型进行迭代训练,生成情感分析模型;
情感分析模块,用于获取待处理的购物评价数据,根据所述情感分析模型确定所述购物评价数据的情感分析结果。
9.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的购物评价情感分析的方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的购物评价情感分析的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010627070.5A CN111737978A (zh) | 2020-07-02 | 2020-07-02 | 一种购物评价情感分析的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010627070.5A CN111737978A (zh) | 2020-07-02 | 2020-07-02 | 一种购物评价情感分析的方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737978A true CN111737978A (zh) | 2020-10-02 |
Family
ID=72652519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010627070.5A Pending CN111737978A (zh) | 2020-07-02 | 2020-07-02 | 一种购物评价情感分析的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737978A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860894A (zh) * | 2021-02-10 | 2021-05-28 | 北京百度网讯科技有限公司 | 情感分析模型的训练方法、情感分析方法、装置和设备 |
CN112989207A (zh) * | 2021-04-27 | 2021-06-18 | 武汉卓尔数字传媒科技有限公司 | 一种信息推荐方法及装置、电子设备、存储介质 |
CN113220964A (zh) * | 2021-04-01 | 2021-08-06 | 国家计算机网络与信息安全管理中心 | 一种基于网信领域短文本的观点挖掘方法 |
CN114722723A (zh) * | 2022-04-29 | 2022-07-08 | 湖北工业大学 | 基于核极限学习机优化的情感倾向预测方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
CN108491302A (zh) * | 2018-02-12 | 2018-09-04 | 中国科学院计算技术研究所 | 一种检测spark集群节点状态的方法 |
CN108959482A (zh) * | 2018-06-21 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于深度学习的单轮对话数据分类方法、装置和电子设备 |
CN109034893A (zh) * | 2018-07-20 | 2018-12-18 | 成都中科大旗软件有限公司 | 一种旅游网络评论情感分析及服务质量评价方法 |
CN109635931A (zh) * | 2018-12-14 | 2019-04-16 | 吉林大学 | 一种基于深度信念网的设备运行状态评价方法 |
CN111191438A (zh) * | 2019-12-30 | 2020-05-22 | 北京百分点信息科技有限公司 | 一种情感分析方法、装置和电子设备 |
-
2020
- 2020-07-02 CN CN202010627070.5A patent/CN111737978A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
CN108491302A (zh) * | 2018-02-12 | 2018-09-04 | 中国科学院计算技术研究所 | 一种检测spark集群节点状态的方法 |
CN108959482A (zh) * | 2018-06-21 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于深度学习的单轮对话数据分类方法、装置和电子设备 |
CN109034893A (zh) * | 2018-07-20 | 2018-12-18 | 成都中科大旗软件有限公司 | 一种旅游网络评论情感分析及服务质量评价方法 |
CN109635931A (zh) * | 2018-12-14 | 2019-04-16 | 吉林大学 | 一种基于深度信念网的设备运行状态评价方法 |
CN111191438A (zh) * | 2019-12-30 | 2020-05-22 | 北京百分点信息科技有限公司 | 一种情感分析方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
蒋志强: "基于点评餐饮评论数据的情感分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 1 - 9 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860894A (zh) * | 2021-02-10 | 2021-05-28 | 北京百度网讯科技有限公司 | 情感分析模型的训练方法、情感分析方法、装置和设备 |
CN112860894B (zh) * | 2021-02-10 | 2023-06-27 | 北京百度网讯科技有限公司 | 情感分析模型的训练方法、情感分析方法、装置和设备 |
CN113220964A (zh) * | 2021-04-01 | 2021-08-06 | 国家计算机网络与信息安全管理中心 | 一种基于网信领域短文本的观点挖掘方法 |
CN113220964B (zh) * | 2021-04-01 | 2024-03-22 | 国家计算机网络与信息安全管理中心 | 一种基于网信领域短文本的观点挖掘方法 |
CN112989207A (zh) * | 2021-04-27 | 2021-06-18 | 武汉卓尔数字传媒科技有限公司 | 一种信息推荐方法及装置、电子设备、存储介质 |
CN114722723A (zh) * | 2022-04-29 | 2022-07-08 | 湖北工业大学 | 基于核极限学习机优化的情感倾向预测方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102401942B1 (ko) | 번역품질 평가 방법 및 장치 | |
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN111737978A (zh) | 一种购物评价情感分析的方法、装置及电子设备 | |
US11886480B2 (en) | Detecting affective characteristics of text with gated convolutional encoder-decoder framework | |
CN110717325B (zh) | 文本的情感分析方法、装置、电子设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
US11817081B2 (en) | Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program | |
US10929915B2 (en) | Method and system for multi-modal input based platform for intent based product recommendations | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
CN110991165A (zh) | 文本中人物关系提取方法及装置、计算机设备和存储介质 | |
CN113240115B (zh) | 一种生成人脸变化图像模型的训练方法及相关装置 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN111339789A (zh) | 一种翻译模型训练方法、装置、电子设备及存储介质 | |
CN110275953B (zh) | 人格分类方法及装置 | |
CN110895659B (zh) | 模型训练方法、识别方法、装置及计算设备 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN115952854B (zh) | 文本脱敏模型的训练方法、文本脱敏方法及应用 | |
CN116956953A (zh) | 翻译模型的训练方法、装置、设备、介质及程序产品 | |
CN113627155A (zh) | 一种数据筛选方法、装置、设备及存储介质 | |
CN110728137B (zh) | 用于分词的方法和装置 | |
CN114091449A (zh) | 一种医学领域的中文分词方法及中文分词器 | |
CN111708946A (zh) | 一种个性化电影的推荐方法、装置及电子设备 | |
CN112199469A (zh) | 一种情感识别的方法、装置及电子设备 | |
CN111309875B (zh) | 问题应答的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |