CN108536784B - 评论信息情感分析方法、装置、计算机存储介质和服务器 - Google Patents
评论信息情感分析方法、装置、计算机存储介质和服务器 Download PDFInfo
- Publication number
- CN108536784B CN108536784B CN201810272482.4A CN201810272482A CN108536784B CN 108536784 B CN108536784 B CN 108536784B CN 201810272482 A CN201810272482 A CN 201810272482A CN 108536784 B CN108536784 B CN 108536784B
- Authority
- CN
- China
- Prior art keywords
- comment information
- participle
- vector
- value
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种评论信息情感分析方法、装置、计算机存储介质和服务器,以解决现有技术中存在的缺乏自动化对评论信息进行情感分析方法的问题。所述的方法包括步骤:获取第一评论信息中每个分段的分词集合;确定每个分段的分词集合中属于预设的分词特征库的若干个分词,基于每个分段的若干个分词生成每个分段的向量;基于每个分段的向量生成所述第一评论信息的向量;将所述第一评论信息的向量输入预先生成的情感分析模型中,得到所述第一评论信息的预测值;将所述第一评论信息的预测值与预设阈值进行比较,根据比较结果得到所述第一评论信息的情感分析结果。本发明实施例实现了对评论信息的自动化情感分析。
Description
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种评论信息情感分析方法、装置、存储介质和服务器。
背景技术
在产品的运营过程中,需要对产品的质量进行评价,以确定优质产品推荐给用户。传统的方法是人工评价法,由编辑、运营人员体验产品给产品打分进行质量评价。这种做法一方面消耗大量的人力物力,另一方面受评测人员的主观因素影响,无法保证对所有产品给出客观且准确的产品质量评价。
本发明的发明人经研究发现,通过用户评论信息自动评价产品质量可以有效解决上述问题。而通过用户评论信息给产品质量评分的方法核心工作在于如何对一条评论信息进行自动化的情感分析,自动判别一条评论信息是褒义还是贬义。然而现有技术中缺乏自动化对评论信息进行情感分析的方法。
发明内容
本发明针对现有方式的缺点,提出一种评论信息情感分析方法、装置、存储介质和服务器,用以解决现有技术中存在的缺乏自动化对评论信息进行情感分析方法的问题,以实现对评论信息的自动化情感分析。
本发明的实施例根据第一个方面,提供了一种评论信息情感分析方法,包括步骤:
获取第一评论信息中每个分段的分词集合;
确定每个分段的分词集合中属于预设的分词特征库的若干个分词,基于每个分段的若干个分词生成每个分段的向量;
基于每个分段的向量生成所述第一评论信息的向量;
将所述第一评论信息的向量输入预先生成的情感分析模型中,得到所述第一评论信息的预测值,其中,所述情感分析模型用于表征向量与预测值之间的关联关系;
将所述第一评论信息的预测值与预设阈值进行比较,根据比较结果得到所述第一评论信息的情感分析结果。
在一个实施例中,所述情感分析模型通过以下步骤生成:
获取训练样本包含的各个第二评论信息中每个分段的分词集合,以及用户对各个第二评论信息分类的类别;
确定每个分段的分词集合中属于所述分词特征库的若干个分词,基于每个分段的若干个分词生成每个分段的向量;
基于每个分段的向量生成各个第二评论信息的向量;
将各个第二评论信息的向量和各自的类别输入循环神经网络中进行训练,生成情感分析模型。
在一个实施例中,所述分词特征库用于描述其包含的各个分词的价值大小顺序;所述基于每个分段的若干个分词生成每个分段的向量,包括:
基于所述分词特征库,按照价值从大到小的顺序对每个分段的若干个分词进行排序,生成每个分段的预设维度的原始输入特征;
对每个分段的原始输入特征中每个元素进行哈希运算,并对哈希运算得到的哈希值进行取模,生成每个分段的向量。
在一个实施例中,所述基于每个分段的向量生成各个第二评论信息的向量,包括:
按照各个第二评论信息中每个分段的先后顺序,由各个分段的向量生成各个第二评论信息的向量。
在一个实施例中,所述将各个第二评论信息的向量和各自的类别输入循环神经网络中进行训练,生成情感分析模型,包括:
通过预设算法求解预先构建的损失函数最小时所述循环神经网络的模型参数,基于求解的所述循环神经网络的模型参数得到情感分析模型,其中,所述损失函数为与各个第二评论信息的预测值和类别有关的函数,各个第二评论信息的预测值为与所述循环神经网络的模型参数和各个第二评论信息的向量有关的变量。
在一个实施例中,所述分词特征库通过以下步骤得到:
根据用户对输入的各个第二评论信息分类的类别,从各个第二评论信息中筛选出训练样本,其中,所述训练样本包括正样本和负样本;
获取所述训练样本的分词集合,其中,所述训练样本的分词集合包括正样本的分词集合和负样本的分词集合;
统计所述训练样本的分词集合中每个分词在所述正样本的分词集合中出现的第一次数和在所述负样本的分词集合中出现的第二次数;
根据所述训练样本的分词集合中每个分词的第一次数和第二次数,确定所述训练样本的分词集合中每个分词的价值;
按照价值从大到小的顺序,从所述训练样本的分词集合中选取预设数目的分词,由所述预设数目的分词构成分词特征库。
在一个实施例中,所述根据所述训练样本的分词集合中每个分词的第一次数和第二次数,确定所述训练样本的分词集合中每个分词的价值,包括:
依次从所述训练样本的分词集合中选取一个分词;
若该分词的总次数大于等于预设值,确定该分词的价值为设定值与该分词在正样本占比和负样本占比乘积的差,其中,该分词在正样本占比为该分词的第一次数与总次数的比值,该分词在负样本占比为该分词的第二次数与总次数的比值,总次数为第一次数和第二次数之和;
若该分词的总次数小于预设值,确定该分词的价值为零。
本发明的实施例根据第二个方面,还提供了一种评论信息情感分析装置,包括:
分词集合获取模块,用于获取第一评论信息中每个分段的分词集合;
分段向量生成模块,用于确定每个分段的分词集合中属于预设的分词特征库的若干个分词,基于每个分段的若干个分词生成每个分段的向量;
评论信息向量生成模块,用于基于每个分段的向量生成所述第一评论信息的向量;
预测值获得模块,用于将所述第一评论信息的向量输入预先生成的情感分析模型中,得到所述第一评论信息的预测值,其中,所述情感分析模型用于表征向量与预测值之间的关联关系;
情感分析结果获得模块,用于将所述第一评论信息的预测值与预设阈值进行比较,根据比较结果得到所述第一评论信息的情感分析结果。
本发明的实施例根据第三个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述的评论信息情感分析方法。
本发明的实施例根据第四个方面,还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一项所述的评论信息情感分析方法。
上述实施例提供的评论信息情感分析方法、装置、计算机存储介质和服务器,自动生成评论信息的向量,将该评论信息的向量输入情感分析模型中得到该评论信息的预测值,进而根据该预测值与预设阈值的比较结果实现对该评论信息的自动化情感分析。通过机器学习的方法对评论信息进行自动化的情感分析,可以大大节省人力物力成本,对用户评价信息给出客观且准确的分类判断。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的分词特征库生成方法的流程示意图;
图2为本发明一个实施例的分词的价值确定方法的流程示意图;
图3为本发明一个实施例的情感分析模型生成方法的流程示意图;
图4为本发明一个实施例的分段的向量生成方法的流程示意图;
图5为本发明一个具体实施例的循环神经网络的结构示意图;
图6为本发明一个实施例的评论信息情感分析方法的流程示意图;
图7为本发明一个实施例的评论信息情感分析装置的结构示意图;
图8为本发明一个实施例的服务器的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式,这里使用的“第一”、“第二”仅用于区别同一技术特征,并不对该技术特征的顺序和数量等加以限定。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的服务器其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,远端网络设备、终端设备与服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP(3rdGeneration Partnership Project,第三代合作伙伴计划)、LTE(Long Term Evolution,长期演进)、WIMAX(Worldwide Interoperability for Microwave Access,全球微波互联接入)的移动通信、基于TCP/IP(Transmission Control Protocol/Internet Protocol,传输控制协议/因特网互联协议)、UDP(User Datagram Protocol,用户数据报协议)的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
有必要先对本发明的应用场景及其原理进行如下的先导性说明。
本发明实施例提供的方案可以应用在应用商店或者其他需要对应用进行质量评价的场景中,实现对应用评价信息的情感分析。本发明实施例提供的方案也可以应用在多媒体文件质量评价的场景中,例如对一个电影、一个音乐的质量进行评价等,实现对多媒体文件评价信息的情感分析。本发明实施例提供的方案还可以应用在其它需要对文本内容进行情感分析的场景中,本发明并不对此做出限定。
本发明实施例通过情感分析模型实现对评论信息的自动化情感分析,因此本发明实施例提供的技术方案分两部分构成:第一部分利用构建的分词特征库和人工标注的历史样本进行RNN(Recurrent neural networks,循环神经网络)模型训练,生成情感分析模型;第二部分利用训练好的情感分析模型对待分析的评论信息进行分类,自动地将评论信息划分为“好评”、“差评”等。
下面按照情感分析模型生成、情感分析模型对评论信息情感分析的顺序对本发明实施例进行详细介绍。
第一部分:情感分析模型生成
在生成情感分析模型时需要利用到分词特征库,因此首先对分词特征库的生成过程进行介绍。
如图1所示,在一个实施例中,所述分词特征库通过以下步骤得到:
S110、根据用户对输入的各个第二评论信息分类的类别,从各个第二评论信息中筛选出训练样本,其中,所述训练样本包括正样本和负样本。
第二评论信息为历史评论信息,获取各个第二评论信息的方式有多种,例如,可以从待分析产品的历史评论信息中随机筛选出一批评论信息作为各个第二评论信息,也可以从待分析产品的历史评论信息中按照一定规则筛选出一批评论信息作为各个第二评论信息。
获取到各个第二评论信息后,由人工对这批第二评论信息进行分类。例如,将这批第二评论信息分为三类,分别为“好评”、“差评”、“中性”。根据人工对各个第二评论信息分类的类别,从各个第二评论信息中筛选出正样本和负样本作为训练样本。例如,去除“中性”评论,得到训练样本,其中,“好评”的评论信息作为正样本,“差评”的评论信息作为负样本。另外,为了保证分词数据库的准确性以及情感分析模型生成的准确性,训练样本的数量尽量比较多,例如,训练样本的数量大于等于1万。
应当理解,本发明并不对评论信息分类的类别、训练样本的获取方式以及训练样本的数量进行限定。
S120、获取所述训练样本的分词集合,其中,所述训练样本的分词集合包括正样本的分词集合和负样本的分词集合。
训练样本包含多条评论信息,对每一条评论信息进行分词,得到每一条评论信息的分词结果,训练样本包含的所有评论信息的分词结果构成训练样本的分词集合,正样本包含的所有评论信息的分词结果构成正样本的分词集合,负样本包含的所有评论信息的分词结果构成负样本的分词集合。其中,对评论信息进行分词的方式可以采用现有技术中已有的方式实现。
具体的,设某一个评论信息i,对评论信息i的内容进行分词,分词结果用集合ti表示ti={w1,w2,w3,...}。例如:“这个应用好好玩,点赞”评论信息的分词结果为ti={这个,应用,好好玩,点赞}。然后基于每一个评论信息的集合ti就可以得到训练样本的分词集合、正样本的分词集合和负样本的分词集合。
S130、统计所述训练样本的分词集合中每个分词在所述正样本的分词集合中出现的第一次数和在所述负样本的分词集合中出现的第二次数。
针对每一个分词,分别统计该分词在正样本的分词集合中出现的次数和该分词在负样本的分词集合中出现的次数。具体的,假设n表示样本数量,yi表示样本的类别,例如1表示正样本,0表示负样本,postiveNums(w)表示分词w在所有正样本的分词集合T1i中出现的次数,negtiveNums(w)表示分词w在所有负样本的分词集合T2i中出现的次数,那么:
S140、根据所述训练样本的分词集合中每个分词的第一次数和第二次数,确定所述训练样本的分词集合中每个分词的价值。
分词的价值用于表征该分词的区分度,如果一个分词能够很好描述情感是褒义还是贬义,则该分词的价值较高,否则该分词的价值较低。针对训练样本的分词集合中的每一个分词,均需要根据该分词在正样本中出现的次数和负样本中出现的次数确定该分词的价值。
在一个实施例中,如图2所示,所述根据所述训练样本的分词集合中每个分词的第一次数和第二次数,确定所述训练样本的分词集合中每个分词的价值,包括:
S1401、依次从所述训练样本的分词集合中选取一个分词;
S1402、若该分词的总次数大于等于预设值,确定该分词的价值为设定值与该分词在正样本占比和负样本占比乘积的差,其中,该分词在正样本占比为该分词的第一次数与总次数的比值,该分词在负样本占比为该分词的第二次数与总次数的比值,总次数为第一次数和第二次数之和;
S1403、若该分词的总次数小于预设值,确定该分词的价值为零。
假设vw表示分词w的价值,那么:
该式中,表示分词在正样本占比,表示分词在负样本占比,设定值和预设值均可以根据实际需要进行设定,例如,设定值为1,预设值为100等。如果分词w很平均地分布在正样本和负样本中间,说明该分词的区分度越差,这两个值都很接近0.5,两个值相乘越大,vw越小。此外该公式将在总体样本出现次数少于预设值的价值设置为0,例如100的分词的价值为0,通过该种方式去掉剔除生僻的分词。
S150、按照价值从大到小的顺序,从所述训练样本的分词集合中选取预设数目的分词,由所述预设数目的分词构成分词特征库。
根据vw计算所有评论信息中所有分词的价值,按照分词的价值从大到小的顺序从所有的分词中选取预设数目的分词构成分词特征库。预设数目可以根据实际需要进行设定,例如,预设数目为1万,则取前1万个分词作为分词特征库U。
下面介绍情感分析模型生成的过程。
在一个实施例中,如图3所示,所述情感分析模型通过以下步骤生成:
S210、获取训练样本包含的各个第二评论信息中每个分段的分词集合,以及用户对各个第二评论信息分类的类别。
该步骤中的训练样本可以是构建分词特征库中所获得的训练样本,也可以是重新获得的训练样本。对于训练样本中的每一个第二评论信息,首先对评论信息进行分段,可以以(。.?!...")等常见的语句结束符号作为分段,然后对每个分段进行分词,获取每个分段的分词集合。另外,还需要获取用户对这批第二评论信息分类的类别,例如,“好评”、“差评”。
例如:评论信息“游戏非常好玩!5星好评”,这是一款人工标注为好评的评论信息,包括两段(游戏非常好玩)、(5星好评),两段的分词集合依次为(游戏,非常,好玩)、(5星,好评)。
S220、确定每个分段的分词集合中属于所述分词特征库的若干个分词,基于每个分段的若干个分词生成每个分段的向量。
所述分词特征库用于描述其包含的各个分词的价值大小顺序。针对每一个分段的分词集合,确定该分词集合中属于分词特征库中的分词。例如,一个分段的分词集合为(5星,好评),分词特征库中包含5星和好评两个分词,则该分段的若干个分词为(5星,好评)。
针对每个分段的若干个分词,生成对应的每个分段的向量。在一个实施例中,如图4所示,所述基于每个分段的若干个分词生成每个分段的向量,包括:
S2201、基于所述分词特征库,按照价值从大到小的顺序对每个分段的若干个分词进行排序,生成每个分段的预设维度的原始输入特征。
分词特征库描述有各个分词的价值的大小顺序,由该分词特征库可以确定每个分段的若干个分词的价值大小顺序,基于每个分段的若干个分词的价值大小顺序,对每个分段的若干个分词从大到小进行排序。预设维度可以由循环神经网络输入层的维度确定,例如循环神经网络输入层为50维的向量,则预设维度为50。
如果一个分段的若干个分词的数量超过预设维度,则按照价值从大到小的顺序保留前预设维度的分词作为该分段的原始输入特征。如果一个分段的若干个分词的数量小于预设维度,则将该若干个分词按照价值从大到小进行排序,剩余的元素用0代替。
例如:一个分段为“这个应用好好玩,点赞”,那么分词后为′这个′,′应用′,′好好玩′,′点赞′,′好好玩、′点赞′为属于分词特征库中的分词,并且按照分词价值排序为′点赞′、′好好玩',那么该分段的原始输入特征为:
S2202、对每个分段的原始输入特征中每个元素进行哈希运算,并对哈希运算得到的哈希值进行取模,生成每个分段的向量。
采用哈希函数对每个分段的原始输入特征中每个元素进行哈希运算,然后对每一个哈希值进行取模,实现每个分段的实数向量化。
其中,上式中hashcode(l)是取字符串的哈希值。
S230、基于每个分段的向量生成各个第二评论信息的向量。
基于上述方式得到每一个分段的向量。针对某一个第二评论信息,该评论信息被划分为至少一个分段,得到每一个分段的向量后,根据该个第二评论信息所包含的所有分段的向量就可以生成该个第二评论信息的向量,依次类推,即可以得到训练样本中所有评论信息的向量。
在一个实施例中,所述基于每个分段的向量生成各个第二评论信息的向量,包括:按照各个第二评论信息中每个分段的先后顺序,由各个分段的向量生成各个第二评论信息的向量。
例如:评论信息“游戏非常好玩!5星好评”,这是一款人工标注为好评的评论信息,首先将评论信息分为两段(游戏,非常,好玩)、(5星,好评),然后通过上述方法分别生成X1、X2,然后得到评论信息进行实数向量(X1,X2)。
S240、将各个第二评论信息的向量和各自的类别输入循环神经网络中进行训练,生成情感分析模型。
首先结合一个具体实施对循环神经网络的定义进行介绍,应当理解,本发明并不限制于该循环神经网络,还可以是其他类别的循环神经网络。
如图5所示,该循环神经网络包括1个输入层、2个隐藏层和1个输出层,其中输入层、隐藏层都是50维的向量,输出层为1维的向量。模型参数的定义:
wi是50*50的矩阵,表示每个隐藏层的与上一个隐藏(输入层)连接的权重系数,模型总共2个隐藏层所以i=1,2;
w是50*1的矩阵,表示最后一个隐藏层到输出值Y的连接权重;
bi是1*50的矩阵,表示每个隐藏层的偏置系数;
b是一个实数变量,表示输出值Y的偏置系数;
si是50*50的矩阵,表示每个隐藏层的与上一个输入序列连接的权重系数,模型总共2个隐藏层所以i=1,2;
f(L)表示隐藏层的输出函数,其中L是1*50的向量,该函数会把L中每个元素带入逻辑斯蒂函数进行变换,最终逻辑斯蒂变换后的1*50向量。
Y是一个预测值,例如对于应用来说,Y是用于预测用户安装的值。
各层关系如下:
下面介绍基于循环神经网络具体生成情感分析模型的过程。
在一个实施例中,所述将各个第二评论信息的向量和各自的类别输入循环神经网络中进行训练,生成情感分析模型,包括:
通过预设算法求解预先构建的损失函数最小时所述循环神经网络的模型参数,基于求解的所述循环神经网络的模型参数得到情感分析模型,其中,所述损失函数为与各个第二评论信息的预测值和类别有关的函数,各个第二评论信息的预测值为与所述循环神经网络的模型参数和各个第二评论信息的向量有关的变量。
假设n表示收集训练样本的数量,表示通过上述方法提取的第i个样本(第i个评价信息)的向量及样本类别,Yi表示第i个样本的预测值,通过上面公式可知Yi是关于w1,w2,w,b1,b2,b,s1,s2的变量,那么损失函数为:
把所有Yi按照上面的计算表达式展开,通过预设算法求解损失函数los最小时对应解w1,w2,w,b1,b2,b,s1,s2即为我们要求解的模型参数。
预设算法可以根据实际需要进行选取,例如,预设算法为梯度下降法,那么根据梯度下降法求解损失函数los的具体过程为:
第1步:把模型所有参数统一记到一个集合,不妨记为θ={θi},随机给定一组在0-1之间,设为θ(0),初始化迭代步数k=0;
第2步:迭代计算
其中ρ用于控制收敛速度,取0.01
第3步:判断是否收敛
至此就生成情感分析模型,以应用于后续的评论信息的情感分析。
第二部分:利用情感分析模型对评论信息情感分析
如图6所示,在一个实施例中,一种评论信息情感分析方法,包括步骤:
S310、获取第一评论信息中每个分段的分词集合。
第一评论信息为待情感分析的评论信息,例如一个应用的评论信息,一个电影文件的评论信息等。获取到该第一评论信息后,首先对评论信息进行分段,可以以(。.?!...")等常见的语句结束符号作为分段,然后对每个分段进行分词,获取每个分段的分词集合。
S320、确定每个分段的分词集合中属于预设的分词特征库的若干个分词,基于每个分段的若干个分词生成每个分段的向量。
所述分词特征库用于描述其包含的各个分词的价值大小顺序,通过上面描述的方法生成,在此不予赘述。针对每一个分段的分词集合,确定该分词集合中属于分词特征库中的分词。针对每个分段的若干个分词,生成对应的每个分段的向量。具体生成第一评论信息各个分段的向量的方式与生成各个第二评论信息各段的向量的方式相同,在此不予赘述。
S330、基于每个分段的向量生成所述第一评论信息的向量。
基于上述方式得到每一个分段的向量,然后根据所有分段的向量就可以生成第一评论信息的向量。在一个实施例中,所述基于每个分段的向量生成第一评论信息的向量,包括:按照第一评论信息中每个分段的先后顺序,由各个分段的向量生成第一评论信息的向量。
S340、将所述第一评论信息的向量输入预先生成的情感分析模型中,得到所述第一评论信息的预测值,其中,所述情感分析模型用于表征向量与预测值之间的关联关系。
将第一评论信息的向量输入情感分析模型中,该情感分析模型就可以输出该第一评论信息的预测值。例如,用户最近评论的一条评论信息为C,按照上述介绍方法生成评论信息C的向量,即RNN模型输入参数(X1,X2,...,Xn)。然后将(X1,X2,...,Xn)输入训练好的RNN模型得到预测值Y。
S350、将所述第一评论信息的预测值与预设阈值进行比较,根据比较结果得到所述第一评论信息的情感分析结果。
在一个实施例中,所述将所述第一评论信息的预测值与预设阈值进行比较,根据比较结果得到所述第一评论信息的情感分析结果,包括:若第一评论信息的预测值大于预设阈值,则确定该第一评论信息为“好评”信息;若第一评论信息的预测值小于预设阈值,则确定该第一评论信息为“差评”信息。如果训练样本中已经删除了“中评”的样本,则不存在等于的情况,如果训练样本中包含“中评”的样本,则在第一评论信息的预测值等于预设阈值时,确定第一评论信息为“中评”信息。
可选的,预设阈值设置为0.5。那么如果Y大于0.5则为“好评”信息,如果小于0.5则为“差评”信息。
基于同一发明构思,本发明还提供一种评论信息情感分析装置,下面结合附图对本发明装置的具体实施方式进行详细介绍。
如图7所示,在一个实施例中,一种评论信息情感分析装置,包括:
分词集合获取模块310,用于获取第一评论信息中每个分段的分词集合;
分段向量生成模块320,用于确定每个分段的分词集合中属于预设的分词特征库的若干个分词,基于每个分段的若干个分词生成每个分段的向量;
评论信息向量生成模块330,用于基于每个分段的向量生成所述第一评论信息的向量;
预测值获得模块340,用于将所述第一评论信息的向量输入预先生成的情感分析模型中,得到所述第一评论信息的预测值,其中,所述情感分析模型用于表征向量与预测值之间的关联关系;
情感分析结果获得模块350,用于将所述第一评论信息的预测值与预设阈值进行比较,根据比较结果得到所述第一评论信息的情感分析结果。
在一个实施例中,所述情感分析模型通过以下步骤生成:
获取训练样本包含的各个第二评论信息中每个分段的分词集合,以及用户对各个第二评论信息分类的类别;
确定每个分段的分词集合中属于所述分词特征库的若干个分词,基于每个分段的若干个分词生成每个分段的向量;
基于每个分段的向量生成各个第二评论信息的向量;
将各个第二评论信息的向量和各自的类别输入循环神经网络中进行训练,生成情感分析模型。
在一个实施例中,所述分词特征库用于描述其包含的各个分词的价值大小顺序;所述基于每个分段的若干个分词生成每个分段的向量,包括:
基于所述分词特征库,按照价值从大到小的顺序对每个分段的若干个分词进行排序,生成每个分段的预设维度的原始输入特征;
对每个分段的原始输入特征中每个元素进行哈希运算,并对哈希运算得到的哈希值进行取模,生成每个分段的向量。
在一个实施例中,所述基于每个分段的向量生成各个第二评论信息的向量,包括:
按照各个第二评论信息中每个分段的先后顺序,由各个分段的向量生成各个第二评论信息的向量。
在一个实施例中,所述将各个第二评论信息的向量和各自的类别输入循环神经网络中进行训练,生成情感分析模型,包括:
通过预设算法求解预先构建的损失函数最小时所述循环神经网络的模型参数,基于求解的所述循环神经网络的模型参数得到情感分析模型,其中,所述损失函数为与各个第二评论信息的预测值和类别有关的函数,各个第二评论信息的预测值为与所述循环神经网络的模型参数和各个第二评论信息的向量有关的变量。
在一个实施例中,所述分词特征库通过以下步骤得到:
根据用户对输入的各个第二评论信息分类的类别,从各个第二评论信息中筛选出训练样本,其中,所述训练样本包括正样本和负样本;
获取所述训练样本的分词集合,其中,所述训练样本的分词集合包括正样本的分词集合和负样本的分词集合;
统计所述训练样本的分词集合中每个分词在所述正样本的分词集合中出现的第一次数和在所述负样本的分词集合中出现的第二次数;
根据所述训练样本的分词集合中每个分词的第一次数和第二次数,确定所述训练样本的分词集合中每个分词的价值;
按照价值从大到小的顺序,从所述训练样本的分词集合中选取预设数目的分词,由所述预设数目的分词构成分词特征库。
在一个实施例中,所述根据所述训练样本的分词集合中每个分词的第一次数和第二次数,确定所述训练样本的分词集合中每个分词的价值,包括:
依次从所述训练样本的分词集合中选取一个分词;
若该分词的总次数大于等于预设值,确定该分词的价值为设定值与该分词在正样本占比和负样本占比乘积的差,其中,该分词在正样本占比为该分词的第一次数与总次数的比值,该分词在负样本占比为该分词的第二次数与总次数的比值,总次数为第一次数和第二次数之和;
若该分词的总次数小于预设值,确定该分词的价值为零。
上述评论信息情感分析装置的其它技术特征与上述评论信息情感分析方法的技术特征相同,在此不予赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述的评论信息情感分析方法。其中,所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-OnlyMemory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSableProgrammable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(ElectricallyEraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
本发明实施例还提供一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一项所述的评论信息情感分析方法。
图8为本发明服务器的结构示意图,包括处理器420、存储装置430、输入单元440以及显示单元450等器件。本领域技术人员可以理解,图8示出的结构器件并不构成对所有服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储装置430可用于存储应用程序410以及各功能模块,处理器420运行存储在存储装置430的应用程序410,从而执行设备的各种功能应用以及数据处理。存储装置430可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储装置包括但不限于这些类型的存储装置。本发明所公开的存储装置430只作为例子而非作为限定。
输入单元440用于接收信号的输入,以及接收用户输入的评论信息。输入单元440可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元450可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元450可采用液晶显示器、有机发光二极管等形式。处理器420是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储装置430内的软件程序和/或模块,以及调用存储在存储装置内的数据,执行各种功能和处理数据。
在一实施方式中,服务器包括一个或多个处理器420,以及一个或多个存储装置430,一个或多个应用程序410,其中所述一个或多个应用程序410被存储在存储装置430中并被配置为由所述一个或多个处理器420执行,所述一个或多个应用程序410配置用于执行以上实施例所述的评论信息情感分析方法。
上述的评论信息情感分析方法、装置、计算机存储介质和服务器,与现有技术相互比较时,具备以下优点:
1、通过机器学习的方法对评论信息进行自动化的情感分析,可以大大节省人力成本;
2、通过情感分析模型的方法对评论信息进行情感分类,与传统的分类算法相比,该算法可以结合用户评论信息的给出更加准确的分类判断。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应该理解的是,在本发明各实施例中的各功能单元可集成在一个处理模块中,也可以各个单元单独物理存在,也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种评论信息情感分析方法,其特征在于,包括步骤:
获取第一评论信息中每个分段的分词集合;
确定每个分段的分词集合中属于预设的分词特征库的若干个分词,其中,所述分词特征库用于描述其包含的各个分词的价值大小顺序,分词的价值的大小基于分词对情感褒贬的区分度的高低进行确定,分词对情感褒贬的区分度越高,分词的价值越大;
基于所述分词特征库,按照价值从大到小的顺序对每个分段的若干个分词进行排序,生成每个分段的预设维度的原始输入特征;
对每个分段的原始输入特征中每个元素进行哈希运算,并对哈希运算得到的哈希值进行取模,生成每个分段的向量;
基于每个分段的向量生成所述第一评论信息的向量;
将所述第一评论信息的向量输入预先生成的情感分析模型中,得到所述第一评论信息的预测值,其中,所述情感分析模型用于表征向量与预测值之间的关联关系;
将所述第一评论信息的预测值与预设阈值进行比较,根据比较结果得到所述第一评论信息的情感分析结果。
2.根据权利要求1所述的评论信息情感分析方法,其特征在于,所述情感分析模型通过以下步骤生成:
获取训练样本包含的各个第二评论信息中每个分段的分词集合,以及用户对各个第二评论信息分类的类别;
确定每个分段的分词集合中属于所述分词特征库的若干个分词,基于每个分段的若干个分词生成每个分段的向量;
基于每个分段的向量生成各个第二评论信息的向量;
将各个第二评论信息的向量和各自的类别输入循环神经网络中进行训练,生成情感分析模型。
3.根据权利要求2所述的评论信息情感分析方法,其特征在于,所述基于每个分段的向量生成各个第二评论信息的向量,包括:
按照各个第二评论信息中每个分段的先后顺序,由各个分段的向量生成各个第二评论信息的向量。
4.根据权利要求2所述的评论信息情感分析方法,其特征在于,所述将各个第二评论信息的向量和各自的类别输入循环神经网络中进行训练,生成情感分析模型,包括:
通过预设算法求解预先构建的损失函数最小时所述循环神经网络的模型参数,基于求解的所述循环神经网络的模型参数得到情感分析模型,其中,所述损失函数为与各个第二评论信息的预测值和类别有关的函数,各个第二评论信息的预测值为与所述循环神经网络的模型参数和各个第二评论信息的向量有关的变量。
5.根据权利要求1至4任意一项所述的评论信息情感分析方法,其特征在于,所述分词特征库通过以下步骤得到:
根据用户对输入的各个第二评论信息分类的类别,从各个第二评论信息中筛选出训练样本,其中,所述训练样本包括正样本和负样本;
获取所述训练样本的分词集合,其中,所述训练样本的分词集合包括正样本的分词集合和负样本的分词集合;
统计所述训练样本的分词集合中每个分词在所述正样本的分词集合中出现的第一次数和在所述负样本的分词集合中出现的第二次数;
根据所述训练样本的分词集合中每个分词的第一次数和第二次数,确定所述训练样本的分词集合中每个分词的价值;
按照价值从大到小的顺序,从所述训练样本的分词集合中选取预设数目的分词,由所述预设数目的分词构成分词特征库。
6.根据权利要求5所述的评论信息情感分析方法,其特征在于,所述根据所述训练样本的分词集合中每个分词的第一次数和第二次数,确定所述训练样本的分词集合中每个分词的价值,包括:
依次从所述训练样本的分词集合中选取一个分词;
若该分词的总次数大于等于预设值,确定该分词的价值为设定值与该分词在正样本占比和负样本占比乘积的差,其中,该分词在正样本占比为该分词的第一次数与总次数的比值,该分词在负样本占比为该分词的第二次数与总次数的比值,总次数为第一次数和第二次数之和;
若该分词的总次数小于预设值,确定该分词的价值为零。
7.一种评论信息情感分析装置,其特征在于,包括:
分词集合获取模块,用于获取第一评论信息中每个分段的分词集合;
分段向量生成模块,用于确定每个分段的分词集合中属于预设的分词特征库的若干个分词,其中,所述分词特征库用于描述其包含的各个分词的价值大小顺序,分词的价值的大小基于分词对情感褒贬的区分度的高低进行确定,分词对情感褒贬的区分度越高,分词的价值越大;基于所述分词特征库,按照价值从大到小的顺序对每个分段的若干个分词进行排序,生成每个分段的预设维度的原始输入特征;对每个分段的原始输入特征中每个元素进行哈希运算,并对哈希运算得到的哈希值进行取模,生成每个分段的向量;
评论信息向量生成模块,用于基于每个分段的向量生成所述第一评论信息的向量;
预测值获得模块,用于将所述第一评论信息的向量输入预先生成的情感分析模型中,得到所述第一评论信息的预测值,其中,所述情感分析模型用于表征向量与预测值之间的关联关系;
情感分析结果获得模块,用于将所述第一评论信息的预测值与预设阈值进行比较,根据比较结果得到所述第一评论信息的情感分析结果。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任意一项所述的评论信息情感分析方法。
9.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6中任意一项所述的评论信息情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810272482.4A CN108536784B (zh) | 2018-03-29 | 2018-03-29 | 评论信息情感分析方法、装置、计算机存储介质和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810272482.4A CN108536784B (zh) | 2018-03-29 | 2018-03-29 | 评论信息情感分析方法、装置、计算机存储介质和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108536784A CN108536784A (zh) | 2018-09-14 |
CN108536784B true CN108536784B (zh) | 2021-08-24 |
Family
ID=63481549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810272482.4A Active CN108536784B (zh) | 2018-03-29 | 2018-03-29 | 评论信息情感分析方法、装置、计算机存储介质和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108536784B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615080B (zh) | 2018-09-20 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 无监督模型评估方法、装置、服务器及可读存储介质 |
CN109597916B (zh) * | 2018-11-07 | 2021-01-22 | 北京达佳互联信息技术有限公司 | 视频风险分类方法、装置、电子设备及储存介质 |
CN109976826B (zh) * | 2019-02-26 | 2020-07-17 | 合肥智圣新创信息技术有限公司 | 一种应用软件处理方法、移动终端及云服务器 |
CN110866800A (zh) * | 2019-09-23 | 2020-03-06 | 车智互联(北京)科技有限公司 | 评论生成方法及计算设备 |
CN110688832B (zh) * | 2019-10-10 | 2023-06-09 | 河北省讯飞人工智能研究院 | 一种评论生成方法、装置、设备及存储介质 |
CN110826323B (zh) * | 2019-10-24 | 2023-04-25 | 新华三信息安全技术有限公司 | 评论信息有效性检测方法及装置 |
CN115994217B (zh) * | 2022-11-29 | 2024-01-23 | 南京审计大学 | 一种财务报告舞弊检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291689A (zh) * | 2017-05-31 | 2017-10-24 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据中文网络评论语句主题语义倾向的分析方法 |
CN107544957A (zh) * | 2017-07-05 | 2018-01-05 | 华北电力大学 | 一种面向商品目标词的情感倾向分析方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012134180A2 (ko) * | 2011-03-28 | 2012-10-04 | 가톨릭대학교 산학협력단 | 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 |
CN103679462B (zh) * | 2012-08-31 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
US20170109448A1 (en) * | 2015-10-18 | 2017-04-20 | James Joseph Adamy | System and method for enhanced user matching based on multiple data sources |
CN106815192B (zh) * | 2015-11-27 | 2020-04-21 | 北京国双科技有限公司 | 模型训练方法及装置和语句情感识别方法及装置 |
CN105630767B (zh) * | 2015-12-22 | 2018-06-15 | 北京奇虎科技有限公司 | 一种文本相似性的比较方法以及装置 |
CN106156004B (zh) * | 2016-07-04 | 2019-03-26 | 中国传媒大学 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
CN107025284B (zh) * | 2017-04-06 | 2020-10-27 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
CN107168945B (zh) * | 2017-04-13 | 2020-07-14 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107066449B (zh) * | 2017-05-09 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
-
2018
- 2018-03-29 CN CN201810272482.4A patent/CN108536784B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291689A (zh) * | 2017-05-31 | 2017-10-24 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据中文网络评论语句主题语义倾向的分析方法 |
CN107544957A (zh) * | 2017-07-05 | 2018-01-05 | 华北电力大学 | 一种面向商品目标词的情感倾向分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108536784A (zh) | 2018-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536784B (zh) | 评论信息情感分析方法、装置、计算机存储介质和服务器 | |
CN108334605B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN109299237B (zh) | 基于行动者评论家强化学习算法的循环网络人机对话方法 | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
CN111079601A (zh) | 基于多模态注意力机制的视频内容描述方法、系统、装置 | |
CN111797321A (zh) | 一种面向不同场景的个性化知识推荐方法及系统 | |
CN108345587B (zh) | 一种评论的真实性检测方法与系统 | |
CN111144127B (zh) | 文本语义识别方法及其模型的获取方法及相关装置 | |
CN110245285B (zh) | 一种基于异构信息网络的个性化推荐方法 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN114238577B (zh) | 融合多头注意力机制的多任务学习情感分类方法 | |
CN114780831A (zh) | 基于Transformer的序列推荐方法及系统 | |
CN114298851A (zh) | 基于图表征学习的网络用户社交行为分析方法、装置及存储介质 | |
CN111538841B (zh) | 基于知识互蒸馏的评论情感分析方法、装置及系统 | |
CN111340233B (zh) | 机器学习模型的训练方法及装置、样本处理方法及装置 | |
CN110717090A (zh) | 一种旅游景点网络口碑评价方法、系统及电子设备 | |
CN113128671A (zh) | 一种基于多模态机器学习的服务需求动态预测方法及系统 | |
CN112529071A (zh) | 一种文本分类方法、系统、计算机设备和存储介质 | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN110245310B (zh) | 一种对象的行为分析方法、装置及存储介质 | |
CN110795410A (zh) | 一种多领域文本分类方法 | |
CN111782805A (zh) | 一种文本标签分类方法及系统 | |
CN110705889A (zh) | 一种企业筛选方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200420 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba (China) Co.,Ltd. Address before: 510640 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 15 layer self unit 02 Applicant before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |