CN107544959B - 一种评价对象的提取方法和装置 - Google Patents
一种评价对象的提取方法和装置 Download PDFInfo
- Publication number
- CN107544959B CN107544959B CN201710751576.5A CN201710751576A CN107544959B CN 107544959 B CN107544959 B CN 107544959B CN 201710751576 A CN201710751576 A CN 201710751576A CN 107544959 B CN107544959 B CN 107544959B
- Authority
- CN
- China
- Prior art keywords
- evaluation
- dependency relationship
- evaluation object
- word
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种评价对象的提取方法和装置,提取方法包括:遍历语料,获取所述语料中的名词和形容词;依据获取得到的名词和形容词,生成依存关系矩阵;依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述填充后的依存关系的名词为提取的评价对象。该方案中,考虑了语料中的依存关系信息,提出了依存矩阵的概念和构造方法,基于因子分解的方法使得提取过程具有一定的推理能力,提高了从语料中提取相关产品的评价对象的准确度。
Description
技术领域
本发明涉及数据分析领域,更具体的说,是涉及一种评价对象的提取方法和装置。
背景技术
随着社交网络、移动互联网的不断普及,人们发布信息的成本越来越低,越来越多的用户乐于在互联网上分享自己的观点以及对于人物、事件、产品的评论。这些评论反映了人们对于事物的观点和情感倾向,对于舆情分析以及基于大数据的预测有着重要的意义。因此,情感分析技术应运而生,情感分析也被称为观点挖掘、观点分析,情感分析的目的是从文本中挖掘用户表达的观点,通常用情感极性(例如,正向、负向、中性等)来表示。
传统的情感分析主要关注一条评论整体的情感极性,然而整体的情感极性往往粒度较粗,用户无法依据整体的情感极性来判断当前产品在自己关注的某个属性上是否具有良好的口碑。一个整体口碑较好的产品不一定在每个属性上都具有良好的口碑,而不同的用户对同类别的产品关注的属性往往也存在一定的差异性。因此,如何对产品进行细粒度的情感分析成为亟待解决的问题。
而如何准确地提取产品的属性是解决细粒度情感分析的基础。例如,考虑如下针对某部电影的评论:“剧情不错,特效很炫,就是票价太贵了。”这里“剧情”“特效”“票价”都是电影属性,一般把属性称为“评价对象”,用来描述评价对象的词(“不错”“很炫”“太贵”)被称为“评价词”。
关于评价对象的提取,传统的方法主要可以归为两类:人工构建和关联规则挖掘,人工构建的缺点在于需要大量人力,且可移植性较差;关联规则挖掘的缺点在于没有充分考虑短语评价对象的结构特征以及评价对象的领域相关性。
发明内容
有鉴于此,本发明提供了一种评价对象的提取方法,解决如何从语料中准确地提取相关产品的评价对象,以便进行后续的细粒度情感分析,充分挖掘评论信息的价值的问题。
为实现上述目的,本发明提供如下技术方案:
一种评价对象的提取方法,包括:
遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;
依据获取得到的名词和形容词,生成依存关系矩阵;
依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;
依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。
上述的方法,优选的,所述遍历语料,获取所述语料中的名词和形容词之后,所述依据获取得到的名词和形容词,生成依存关系矩阵之前,还包括:
接收用户的输入信息;
基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合。
上述的方法,优选的,所述依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,包括:
在所述评价词种子集合中选定任一评价词种子;
依据预设的计算规则,在所述依存关系矩阵中选择N个形容词作为对所述评价词种子的推荐结果,所述N个形容词与所述评价词种子之间的向量内积是所述依存关系矩阵中每个形容词与所述评价词种子之间的向量内积最大的N个,所述N为大于1的整数;
将所述评价词种子集合中的每一个评价词种子的推荐结果与所述评价对象种子集合合并,得到扩展后的评价对象集合;
在所述扩展后的评价对象集合中选择任一评价对象作为候选评价对象;
依据预设的计算规则,在所述依存关系矩阵中选择M个名词作为对所述候选评价对象的推荐结果,所述M个名词与所述候选评价对象之间的向量内积是所述评价对象集合中每个名词与所述候选评价对象之间的向量内积最大的M个,所述M为大于1的整数;
将所述评价对象集合中的每一个评价对象的推荐结果与所述评价词种子集合合并,得到扩展后的评价词种子集合;
返回执行所述在所述评价词种子集合中选定任一评价词种子步骤,选择另一评价词种子,直至所述评价对象集合中不再扩展有新的评价对象为止,对所述依存关系矩阵填充完成,填充完成后的依存关系矩阵中的名词集合即为评价对象最终提取结果。
上述的方法,优选的,所述依据预设的计算规则,在所述依存关系矩阵中选择N个形容词作为对所述评价词种子的推荐结果,包括:
依据所述预设的计算规则,按照形容词与所述评价词种子计算得到的向量内积的大小依次为所述评价词种子集合中的每个评价词种子推荐评价对象;
从推荐的评价对象中选择向量内积排序在前的N个形容词作为第一扩展候选词;
分别计算所述第一扩展候选词与所述评价对象集合中所有的评价对象种子之间的相似度;
如果第一扩展候选词与所述评价对象集合中所有的评价对象种子之间相似度的最小值小于预设阈值,则将所述第一扩展候选词作为所述评价词种子的推荐结果。
上述的方法,优选的,所述依据预设的计算规则,在所述依存关系矩阵中选择M个名词作为对所述候选评价对象的推荐结果,包括:
依据预设的计算规则,按照名词与所述候选评价对象计算得到的向量内积大小依次为所述评价对象集合中的每个评价对象推荐评价词;
从推荐的评价词中选择向量内积排序在前的M个名词作为第二扩展候选词;
分别计算所述第二扩展候选词与所述评价词种子集合中所有的评价词种子之间的相似度;
如果第二扩展候选词与所述评价词种子集合中所有的评价词种子之间相似度的最小值小于预设阈值,将所述第二扩展候选词作为所述评价对象的推荐结果。
上述的方法,优选的,所述依据获取得到的名词和形容词,生成依存关系矩阵,包括:
依据预设的句法依存分析规则,统计所述名词和所述形容词之间的依存关系;
根据统计的结果,构建名词-形容词依存关系矩阵。
上述的方法,优选的,所述依据获取得到的名词和形容词,生成依存关系矩阵之前,还包括:
剔除出现次数小于预设数值的名词和形容词。
一种评价对象的提取装置,包括:
获取单元,用于遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;
矩阵单元,用于依据获取得到的名词和形容词,生成依存关系矩阵;
计算单元,用于依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;
扩充单元,用于依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。
上述的装置,优选的,还包括:
输入单元,用于接收用户的输入信息;
选择单元,用于基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合。
上述的装置,优选的,所述矩阵单元,具体用于:
依据预设的句法依存分析规则,统计所述名词和所述形容词之间的依存关系;
根据统计的结果,构建名词-形容词依存关系矩阵。
经由上述的技术方案可知,本发明提供了一种评价对的提取方法,包括:遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;依据获取得到的名词和形容词,生成依存关系矩阵;依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述填充后的依存关系的名词为提取的评价对象。该方案中,考虑了语料中的依存关系信息,提出了依存矩阵的概念和构造方法,基于因子分解的方法使得提取过程具有一定的推理能力,提高了从语料中提取相关产品的评价对象的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1所示的为本发明提供的一种评价对象的提取方法实施例1的流程图;
图2所示的为本发明提供的一种评价对象的提取方法实施例2的流程图;
图3所示的为本发明提供的一种评价对象的提取方法实施例3的流程图;
图4所示的为本发明提供的一种评价对象的提取方法实施例3中步骤S306的具体流程图;
图5所示的为本申请提供的一种评价对象的提取装置实施例1的结构示意图;
图6所示的为本申请提供的一种评价对象的提取装置实施例2的结构示意图;
图7所示的为本发明提供的一种评价对象的提取方法的具体使用场景示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示的为本发明提供的一种评价对象的提取方法实施例1的流程图,该方法可以应用于一电子设备。
该方法具体可通过以下步骤实现:
步骤S101:遍历语料,获取所述语料中的名词和形容词;
其中,该语料包含有预置语料库中的全部评论信息。例如,可以为影评,如海量的影评,具体可以为多个用户对多部电影的上万条评论。
具体的,对该语料进行句法分析,按照现有技术中的句法分析,将每个句子按照结构进行拆分,并得到其中的名称和形容词。
步骤S102:依据获取得到的名词和形容词,生成依存关系矩阵;
需要说明的是,评价对象与评价词通常分别以名词和形容词出现,它们之间的依存关系通常表现为形容词短语(amod)和名词主语(nsubj)。例如,在“虽然演员很帅,但是狗血的剧情让我不忍直视”这句影评中,演员和剧情属于评价对象,“帅”和“狗血”是两个评价词,“演员很帅”属于nsubj,“狗血的剧情”属于amod。
具体的,该矩阵的行对应一个名词,列对应一个形容词,矩阵中每个元素的值表示对应的<名词,形容词>二元组在整个语料中出现在amod依存关系和nsubj依存关系中的记数的和。
如下表1所示的为一依存关系矩阵,其中,该矩阵中行对应名词,列对应形容词。
好看 | …… | 酷 | …… | |
…… | 4 | |||
…… | 1 | |||
画面 | 10 | 8 | ||
男主 | 8 | 7 |
表1
步骤S103:依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;
具体实施中,采用使用word2vec训练词向量,为依存关系矩阵中的每个词生成一个固定维度的向量。
其中,该word2vec是一个基于神经网络的模型,基于该模型能够用一个向量来表示一个词,使得近义词的向量比较接近。例如,电影和影片这两个词,它们对应的向量的距离就会很近。
具体实施中,也可以先采用该word2vec为语料中的每个词生成一个固定维度的向量,而在获取语料中的形容词和名词时,同步获取该形容词和名词的向量即可。但是,采用该方法,需要计算的向量较多,所以,优选该仅对依存关系矩阵中的形容词和名词计算向量。
步骤S104:依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。
具体的,由于依存矩阵中的大部分值是未知的,采用向量相乘的方法还原缺失的值,即对该依存关系矩阵进行扩充,得到较完整的内容。
具体的,依据该形容词的向量以及该名词的向量,进行向量相乘,来还原缺失的值。
需要说明的是,依存关系矩阵可以体现词与词之间在依存关系这一层面的相似性。例如,“画面”和“男主”这两个名词和“好看”和“酷”这两个形容词出现在同一个依存关系中的次数都比较高,那么“画面”和“男主”属于同一类词的概率也就比较高,那么假设已知“画面”属于评价对象,那么“男主”很有可能属于评价对象。同样评价词之间的相似依存关系也能在该矩阵中得以体现,即经常修饰相同的名词的形容词可能会比较相似。后续实施例中会针对该内容做详细解释,本实施例中不做详述。
综上,本实施例提供的一种评价对的提取方法,包括:遍历语料,获取所述语料中的名词和形容词;依据获取得到的名词和形容词,生成依存关系矩阵;依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。该方案中,考虑了语料中的依存关系信息,提出了依存矩阵的概念和构造方法,基于因子分解的方法使得提取过程具有一定的推理能力,提高了从语料中提取相关产品的评价对象的准确度。
如图2所示的为本发明提供的一种评价对象的提取方法实施例2的流程图,该方法具体可通过以下步骤实现:
步骤S201:遍历语料,获取所述语料中的名词和形容词;
其中,步骤S201与实施例1中的步骤S101一致,本实施例中不做赘述。
步骤S202:依据预设的句法依存分析规则,统计所述名词和所述形容词之间的依存关系;
需要说明的是,评价对象经常具有依存关系。
具体的,该依存关系能够由句法依存分析获得,句法依存分析将句子解析成一棵依存句法树,描述出各个词语之间的依存关系,即指出了词语之间在句法上的搭配关系,一般来讲,这种搭配关系是和语义相关联的。
具体实施中,在分析该依存关系之前,还可以对获取的名词和形容词进行筛选,剔除出现次数小于预设数值的名词和形容词,以减少数据处理量。其中,该预设数值可以为较小的数值,如5。
需要说明的是,该依存关系包括形容词短语(amod)和名词主语(nsubj)两种。
步骤S203:根据统计的结果,构建名词-形容词依存关系矩阵;
其中,该统计的结果可以包括形容词短语和名词主语对应的内容。
例如,出现3次“画面好看”、4次“好看的画面”就将该计数相加,得到<画面,优美>的取值为7次,并在该矩阵中体现该数值。
步骤S204:依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;
步骤S205:依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。
其中,步骤S204-205与实施例1中的步骤S103-104一致,本实施例中不做赘述。
综上,本实施例提供的一种评价对的提取方法中,该依据获取得到的名词和形容词,生成依存关系矩阵,包括:依据预设的句法依存分析规则,统计所述名词和所述形容词之间的依存关系;根据统计的结果,构建名词-形容词依存关系矩阵。该方案中,是基于预设的句法依存分析规则对语料进行分析,得到该依存关系建立依存关系矩阵,分析过程简单易行。
如图3所示的为本发明提供的一种评价对象的提取方法实施例3的流程图,该方法具体可通过以下步骤实现:
步骤S301:遍历语料,获取所述语料中的名词和形容词;
其中,步骤S301与实施例1中的步骤S101一致,本实施例中不做赘述。
步骤S302:接收用户的输入信息;
其中,用户通过电子设备的输入装置输入信息,该输入信息可以为对电子设备的显示装置中显示的语料中的词语进行选择,也可以为用户根据自身需要输入的词,当然,该输入的词为语料中包含的词。
当然,该用户的输入信息可以是语料中涉及的名词和/或形容词,以使得能够实现后续步骤中基于该输入信息对语料中的名词和形容词中相应进行评价对象种子以及评价词种子的选择。
步骤S303:基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合;
其中,基于该输入信息,在该语料中的名词中选择至少一个词作为评价对象种子,在该语料中的形容词中选择至少一个词作为评价词种子。
其中,该多个评价对象种子组合得到评价对象种子集合,该多个评价词种子组成评价词种子集合。
其中,用户确定评价对象种子和评价词种子,其目标是发现语料中的所有评价词和评价对象,首先需要人工确定少量的种子词(评价词种子和评价对象种子)。
后续实施例中会结合该种子词实现对依存关系矩阵的扩充,本实施例中不做详述。
具体实施中,该人工确定的种子词一般为语料中涉及词总量的2%左右。
步骤S304:依据获取得到的名词和形容词,生成依存关系矩阵;
步骤S305:依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;
步骤S306:依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。
其中,步骤S304-306与实施例1中的步骤S102-104一致,本实施例中不做赘述。
综上,本实施例提供的一种评价对的提取方法,还包括:接收用户的输入信息;基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合。采用该方法,能够人工确定少量的种子词。
如图4所示的为本发明提供的一种评价对象的提取方法实施例3中该步骤S306的具体流程图,该方法具体可通过以下步骤实现:
另,由于评价对象的近义词通常也是评价词,例如“剧情”和“情节”属于近义词,那么已知“剧情”属于评价对象,则“情节”也会有很大的概率属于评价对象。基于评价对象之间存在的这种语义上的相似性,可以采用基于内容的推荐策略来对种子评价对象进行扩展。
具体的,可以基于各个评价对象的向量值进行计算。
步骤S401:在所述评价词种子集合中选定任一评价词种子;
其中,该评价词种子集合中包含多个评价词种子,从中任选一个,作为待推荐的评价词种子。
步骤S402:依据预设的计算规则,在所述依存关系矩阵中选择N个形容词作为对所述评价词种子的推荐结果;
其中,所述N个形容词与所述评价词种子之间的向量内积是所述依存关系矩阵中每个形容词与所述评价词种子之间的向量内积最大的N个,所述N为大于1的整数。
具体的,该步骤包括以下步骤:
步骤S501:依据所述预设的计算规则,按照形容词与所述评价词种子计算得到的向量内积的大小依次为所述评价词种子集合中的每个评价词种子推荐评价对象;
具体的,该预设的计算规则可以采用隐语义模型。
步骤S502:从推荐的评价对象中选择向量内积排序在前的N个形容词作为第一扩展候选词;
步骤S503:分别计算所述第一扩展候选词与所述评价对象集合中所有的评价对象种子之间的相似度;
步骤S504:如果所述第一扩展候选词与所述评价对象集合中所有的评价对象种子之间相似度的最小值小于预设阈值,则将所述第一扩展候选词作为所述评价词种子的推荐结果。
具体实施中,该第一扩展候选词与依次与该评价对象集合中的每个评价对象种子进行计算相似度,并比对计算得到的相似度值,得到一最小相似度,而该最小相似度也小于该预设阈值时,则表征该第一扩展候选词与该评价对象集合中的每个评价对象种子均不相似,其可以作为新的评价对象加入该评价对象集合中,即实现对该评价对象集合扩展。
该预设阈值可以根据实际情况进行设置,如0.5、0.6等,本申请不对该预设阈值的取值做限制。
具体实施中,还可以采用词嵌入(word-embedding)技术实现简化依存关系矩阵的维度。
其中,该词嵌入技术是用于将单个词表示为固定长度的低维实数向量,不仅解决了one-hot representation(布尔向量表示法)的维数灾难问题,而且考虑了词的语义信息,使得语义相近的词在向量空间中距离更接近。比较著名的词嵌入方法有C&W,Glove,word2vec等。
本实施例中使用word2vec来训练词向量,语料中的每个词都被表示为一个固定维数的实数向量。
具体的,本实施例中使用word2vec来训练词向量,语料中的每个词都被表示为一个固定维数的实数向量。
设当前评价对象种子S对应的向量为V(S),如下式(1)利用余弦相似度来计算任意其他名词T与S的语义相似度:
基于相似度将候选名词降序排列即可得到面向S的推荐结果列表。
进一步的,基于该相似度情况,可以将推荐结果列表中与该评价对象种子S的相似度较高的名词合并至该评价对象种子S中。
其中,依据预设的计算规则,在该依存关系矩阵中选择与该待推荐的评价词种子向量内积最大的几个名词作为该评价词种子的推荐结果。
步骤S403:将所述评价词种子集合中的每一个评价词种子的推荐结果与所述评价对象种子集合合并,得到扩展后的评价对象集合;
本实施例中提供了一种基于隐语义模型(Latent Factor Model,又称因子分解模型)的协同过滤方法,以及该向量,预测依存关系矩阵中缺失的值。
需要说明的是,隐语义模型核心思想是对矩阵分解的过程进行“模拟”,通过隐含特征(latent factor)来联系用户和物品。
如下所示的式子(2),其中,R表示依存关系矩阵,其表示为P和Q两个矩阵的乘积的形式,其中,R为M行N列,M表示评价对象,N表示评价词,Q为P为M行K列,Q为N行K列,K是一个远小于M和N的整数。如果由于P和Q的行向量分别对应评价对象和评价词,列向量可以被理解为一组隐含的特征。
例如,如果已知P和Q两个矩阵,那么就可以通过PTQ还原出原来的依存关系矩阵,有了完整的依存关系矩阵即可为相应的用户进行推荐。由于依存关系矩阵R包含了大量的缺失值,因此无法通过直接分解R来获取P和Q。在效用矩阵R中,评价对象u与评价词i的关系通过评分rui来体现,而rui可以表达成下面公式(3)表示:
其中,pu,k用于度量评价对象u和第k个隐含特征之间的关系,qi,k用于度量评价词i和第k个隐含特征之间的关系。如果能求出pu,k和qi,k的具体值,就可以预测R中的缺失值。
具体的,将R中已知的值作为训练集,将预测值与已知的值之间的平方误差作为目标函数(公式4),就可以通过最优化方法求出pu,k和qi,k。
其中RS表示效用矩阵R中已知评分的评价对象-评价词二元组。
由于矩阵R可能很稀疏,所以添加正则项λ||pu||2+λ||qi||2以避免出现过拟合的情况。λ是一个常数,一般通过实验获得。为了使公式3获得最小值,通常采用随机梯度下降的方法来迭代求解pu和qi。
基于语料中的依存句法关系,构造了名词与形容词的依存关系矩阵R。类比公式4,对依存关系矩阵使用隐语义模型可以求出每个名词和形容词对应的向量pn和qa(公式4),利用向量的内积可以对依存关系矩阵进行填充。
将评价词种子集合中的每一个评价词的推荐结果与种子评价对象集合合并,即可获得一个扩展后的评价对象集合。
其中,与评价对象语义上相近的词通常也属于评价对象。例如,在评价一个箱子时,已知“规格”属于评价对象,那么与规格意思相近的“大小”“容量”“体积”等同样属于箱子的评价对象。
评价对象的近义词通常也是评价词,例如“剧情”和“情节”属于近义词,那么已知“剧情”属于评价对象,则“情节”也会有很大的概率属于评价对象。基于评价对象之间存在的这种语义上的相似性,可以采用基于内容的推荐策略来对种子评价对象进行扩展。
步骤S404:在所述扩展后的评价对象集合中选择任一评价对象作为候选评价对象;
步骤S405:依据预设的计算规则,在所述依存关系矩阵中选择M个名词作为对所述候选评价对象的推荐结果;
其中,所述M个名词与所述候选评价对象之间的向量内积是所述评价对象集合中每个名词与所述候选评价对象之间的向量内积最大的M个,所述M为大于1的整数。
具体的,该步骤S405包括以下步骤:
步骤S601:依据预设的计算规则,按照名词与所述候选评价对象计算得到的向量内积大小依次为所述评价对象集合中的每个评价对象推荐评价词;
具体的,该预设的计算规则可以采用隐语义模型。
步骤S602:从推荐的评价词中选择向量内积排序在前的M个名词作为第二扩展候选词;
步骤S603:分别计算所述第二扩展候选词与所述评价词种子集合中所有的评价词种子之间的相似度;
步骤S604:如果第二扩展候选词与所述评价词种子集合中所有的评价词种子之间相似度的最小值小于预设阈值,将所述第二扩展候选词作为所述评价对象的推荐结果。
具体实施中,该第二扩展候选词与依次与该评价词种子集合中的每个评价词种子进行计算相似度,并比对计算得到的相似度值,得到一最小相似度,而该最小相似度也小于该预设阈值时,则表征该第二扩展候选词与该评价词种子集合中的每个评价词种子均不相似,其可以作为新的评价词加入该评价词种子集合中,即实现对该评价词种子集合扩展。
该预设阈值可以根据实际情况进行设置,如0.5、0.6等,本申请不对该预设阈值的取值做限制。
步骤S406:将所述评价对象集合中的每一个评价对象的推荐结果与所述评价词种子集合合并,得到扩展后的评价词种子集合;
类似是,使用扩展后的评价对象集合,为其中每一个候选评价对象基于推荐评价词,同样选取前几个形容词中加入评价词种子集合中。重复该推荐过程,直到评价对象集合中无法再加入新的评价对象为止,此时的评价对象集合即为最终的提取结果。
步骤S406后,返回执行该步骤S401,在得到推荐结果后,执行步骤S403后,执行步骤S407。
步骤S407:判断该评价对象集合中是否有扩展有新的评价对象,如果没有,结束;否则,执行步骤S404。
需要说明的是,具体实施中,首次执行该推荐过程时,按照从步骤S403后执行步骤S404的顺序,进入循环后,则是按照步骤S403后执行步骤S407,再执行步骤S404的顺序。
其中,该评价对象集合中不再扩展有新的评价对象时,对所述依存关系矩阵填充完成,填充完成后的依存关系矩阵中的名称集合即为评价对象最终提取结果。
综上,本实施例提供的一种评价对象的提取方法中,为每个评价词对应推荐名词,且将该推荐的名词与评价对象集合中的每个评价对象进行比对,实现对该评价对象集合的初步扩展,然后基于评价对象和评价词之间的依存关系,为每个评价对象推荐形容词,且将该形容词与评价词种子进行比对,实现对该评价词种子集合的扩展,并且,基于扩展后的评价词种子集合中的评价词种子进一步扩展该评价对象集合,基于隐语义模型的抽取方法,使用规则较少,识别过程具有一定的推理能力,该方案将评价对象抽取问题视为一个推荐问题,提出了结合基于协同过滤推荐和基于内容推荐思想的识别方法。
上述本发明提供的实施例中详细描述了一种评价对象的提取方法,对于本发明的评价对象的提取方法可采用多种形式的电子设备实现,因此本发明还提供了一种应用该评价对象的提取方法的装置,下面给出具体的实施例进行详细说明。
如图5所示的为本申请提供的一种评价对象的提取装置实施例1的结构示意图,该装置包括:获取单元501、矩阵单元502、计算单元503和扩充单元504;
其中,该获取单元501,用于遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;
其中,该矩阵单元502,用于依据获取得到的名词和形容词,生成依存关系矩阵;
其中,该计算单元503,用于依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;
其中,该扩充单元504,用于依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。
其中,该矩阵单元502,具体用于:依据预设的句法依存分析规则,统计所述名词和所述形容词之间的依存关系;根据统计的结果,构建名词-形容词依存关系矩阵。
优选的,该获取单元还可以用于剔除出现次数小于预设数值的名词和形容词。
综上,本实施例提供的一种评价对的提取装置,考虑了语料中的依存关系信息,提出了依存矩阵的概念和构造方法,基于因子分解的方法使得提取过程具有一定的推理能力,提高了从语料中提取相关产品的评价对象的准确度。
如图6所示的为本申请提供的一种评价对象的提取装置实施例2的结构示意图,该装置包括:获取单元601、矩阵单元602、计算单元603、扩充单元604、输入单元605和选择单元606;
其中,该获取单元601、矩阵单元602、计算单元603和扩充单元604的结构功能与实施例1中的相应结构一致,本实施例中不做赘述。
其中,该输入单元605,用于接收用户的输入信息;
其中,该选择单元606,用于基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合。
则,优选的,所述矩阵单元具体用于:
在所述评价词种子集合中选定任一评价词种子;
依据预设的计算规则,在所述依存关系矩阵中选择N个形容词作为对所述评价词种子的推荐结果,所述N个形容词与所述评价词种子之间的向量内积是所述依存关系矩阵中每个形容词与所述评价词种子之间的向量内积最大的N个,所述N为大于1的整数;
将所述评价词种子集合中的每一个评价词种子的推荐结果与所述评价对象种子集合合并,得到扩展后的评价对象集合;
在所述扩展后的评价对象集合中选择任一评价对象作为候选评价对象;
依据预设的计算规则,在所述依存关系矩阵中选择M个名词作为对所述候选评价对象的推荐结果,所述M个名词与所述候选评价对象之间的向量内积是所述评价对象集合中每个名词与所述候选评价对象之间的向量内积最大的M个,所述M为大于1的整数;
将所述评价对象集合中的每一个评价对象的推荐结果与所述评价词种子集合合并,得到扩展后的评价词种子集合;
返回执行所述在所述评价词种子集合中选定任一评价词种子步骤,选择另一评价词种子,直至所述评价对象集合中不再扩展有新的评价对象为止,对所述依存关系矩阵填充完成,填充完成后的依存关系矩阵中的名词集合即为评价对象最终提取结果。
优选的,所述依据预设的计算规则,在所述依存关系矩阵中选择N个形容词作为对所述评价词种子的推荐结果,包括:
依据所述预设的计算规则,按照形容词与所述评价词种子计算得到的向量内积的大小依次为所述评价词种子集合中的每个评价词种子推荐评价对象;
从推荐的评价对象中选择向量内积排序在前的N个形容词作为第一扩展候选词;
分别计算所述第一扩展候选词与所述评价对象集合中所有的评价对象种子之间的相似度;
如果第一扩展候选词与所述评价对象集合中所有的评价对象种子之间相似度的最小值小于预设阈值,则将所述第一扩展候选词作为所述评价词种子的推荐结果。
优选的,所述依据预设的计算规则,在所述依存关系矩阵中选择M个名词作为对所述候选评价对象的推荐结果,包括:
依据预设的计算规则,按照名词与所述候选评价对象计算得到的向量内积大小依次为所述评价对象集合中的每个评价对象推荐评价词;
从推荐的评价词中选择向量内积排序在前的M个名词作为第二扩展候选词;
分别计算所述第二扩展候选词与所述评价词种子集合中所有的评价词种子之间的相似度;
如果第二扩展候选词与所述评价词种子集合中所有的评价词种子之间相似度的最小值小于预设阈值,将所述第二扩展候选词作为所述评价对象的推荐结果。
综上,本实施例提供的一种评价对象的提取装置中,为每个评价词对应推荐名词,且将该推荐的名词与评价对象集合中的每个评价对象进行比对,实现对该评价对象集合的初步扩展,然后基于评价对象和评价词之间的依存关系,为每个评价对象推荐形容词,且将该形容词与评价词种子进行比对,实现对该评价词种子集合的扩展,并且,基于扩展后的评价词种子集合中的评价词种子进一步扩展该评价对象集合,基于隐语义模型的抽取方法,使用规则较少,识别过程具有一定的推理能力,该方案将评价对象抽取问题视为一个推荐问题,提出了结合基于协同过滤推荐和基于内容推荐思想的识别方法。
上述本发明提供的实施例中详细描述了一种评价对象的提取方法对应的,因此本发明还提供了一种应用该评价对象的提取方法的场景。
如下图7所示的,为具体使用场景示意图,其中,评价对象集合为S1,评价词集合为S2。对语料进行遍历得到依存关系矩阵701。基于该S2该隐语义模型702,生成推荐评价对象,依据词向量对该推荐评价对象进行过滤,并判断是否生成新的评价对象,如果否,将该S1返回作为结果;否则,对S1进行扩展:基于该S1以及该隐语义模型702,生成推荐评价词,并判断是否生成新评价词,如果否,将该S1返回结果作为;否则,循环对S2进行扩展。
其中,该词向量采用word2vec来训练。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种评价对象的提取方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种评价对象的提取方法,其特征在于,包括:
遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;
依据获取得到的名词和形容词,生成依存关系矩阵,所述依存关系矩阵的行对应名词、列对应形容词,每个元素的值表示对应的名词形容词的二元组在整个语料中出现在形容词短语依存关系和名词主语依存关系中的记数的和,所述依存关系矩阵中部分元素的值缺失;
依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;
依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,以使得还原所述依存关系矩阵中缺失的值,所述扩充后的依存关系矩阵中的名词为提取的评价对象。
2.根据权利要求1所述的方法,其特征在于,所述遍历语料,获取所述语料中的名词和形容词之后,所述依据获取得到的名词和形容词,生成依存关系矩阵之前,还包括:
接收用户的输入信息;
基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合。
3.根据权利要求2所述的方法,其特征在于,所述依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,包括:
在所述评价词种子集合中选定任一评价词种子;
依据预设的计算规则,在所述依存关系矩阵中选择N个名词作为对所述评价词种子的推荐结果,所述N个名词与所述评价词种子之间的向量内积是所述依存关系矩阵中每个名词与所述评价词种子之间的向量内积最大的N个,所述N为大于1的整数;
将所述评价词种子集合中的每一个评价词种子的推荐结果与所述评价对象种子集合合并,得到扩展后的评价对象集合;
在所述扩展后的评价对象集合中选择任一评价对象作为候选评价对象;
依据预设的计算规则,在所述依存关系矩阵中选择M个形容词作为对所述候选评价对象的推荐结果,所述M个形容词与所述候选评价对象之间的向量内积是所述评价对象集合中每个形容词与所述候选评价对象之间的向量内积最大的M个,所述M为大于1的整数;
将所述评价对象集合中的每一个评价对象的推荐结果与所述评价词种子集合合并,得到扩展后的评价词种子集合;
返回执行所述在所述评价词种子集合中选定任一评价词种子步骤,选择另一评价词种子,直至所述评价对象集合中不再扩展有新的评价对象为止,对所述依存关系矩阵填充完成,填充完成后的依存关系矩阵中的名词集合即为评价对象最终提取结果。
4.根据权利要求3所述的方法,其特征在于,所述依据预设的计算规则,在所述依存关系矩阵中选择N个名词作为对所述评价词种子的推荐结果,包括:
依据所述预设的计算规则,按照名词与所述评价词种子计算得到的向量内积的大小依次为所述评价词种子集合中的每个评价词种子推荐评价对象;
从推荐的评价对象中选择向量内积排序在前的N个名词作为第一扩展候选词;
分别计算所述第一扩展候选词与所述评价对象集合中所有的评价对象种子之间的相似度;
如果第一扩展候选词与所述评价对象集合中所有的评价对象种子之间相似度的最小值小于预设阈值,则将所述第一扩展候选词作为所述评价词种子的推荐结果。
5.根据权利要求3所述的方法,其特征在于,所述依据预设的计算规则,在所述依存关系矩阵中选择M个形容词作为对所述候选评价对象的推荐结果,包括:
依据预设的计算规则,按照形容词与所述候选评价对象计算得到的向量内积大小依次为所述评价对象集合中的每个评价对象推荐评价词;
从推荐的评价词中选择向量内积排序在前的M个形容词作为第二扩展候选词;
分别计算所述第二扩展候选词与所述评价词种子集合中所有的评价词种子之间的相似度;
如果第二扩展候选词与所述评价词种子集合中所有的评价词种子之间相似度的最小值小于预设阈值,将所述第二扩展候选词作为所述评价对象的推荐结果。
6.根据权利要求1所述的方法,其特征在于,所述依据获取得到的名词和形容词,生成依存关系矩阵,包括:
依据预设的句法依存分析规则,统计所述名词和所述形容词之间的依存关系;
根据统计的结果,构建名词-形容词依存关系矩阵。
7.根据权利要求1所述的方法,其特征在于,所述依据获取得到的名词和形容词,生成依存关系矩阵之前,还包括:
剔除出现次数小于预设数值的名词和形容词。
8.一种评价对象的提取装置,其特征在于,包括:
获取单元,用于遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;
矩阵单元,用于依据获取得到的名词和形容词,生成依存关系矩阵,所述依存关系矩阵的行对应名词、列对应形容词,每个元素的值表示对应的名词形容词的二元组在整个语料中出现在形容词短语依存关系和名词主语依存关系中的记数的和,所述依存关系矩阵中部分元素的值缺失;
计算单元,用于依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;
扩充单元,用于依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,以使得还原所述依存关系矩阵中缺失的值,所述扩充后的依存关系矩阵中的名词为提取的评价对象。
9.根据权利要求8所述的装置,其特征在于,还包括:
输入单元,用于接收用户的输入信息;
选择单元,用于基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合。
10.根据权利要求8所述的装置,其特征在于,所述矩阵单元,具体用于:
依据预设的句法依存分析规则,统计所述名词和所述形容词之间的依存关系;
根据统计的结果,构建名词-形容词依存关系矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710751576.5A CN107544959B (zh) | 2017-08-28 | 2017-08-28 | 一种评价对象的提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710751576.5A CN107544959B (zh) | 2017-08-28 | 2017-08-28 | 一种评价对象的提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107544959A CN107544959A (zh) | 2018-01-05 |
CN107544959B true CN107544959B (zh) | 2021-01-22 |
Family
ID=60957966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710751576.5A Active CN107544959B (zh) | 2017-08-28 | 2017-08-28 | 一种评价对象的提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107544959B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363725B (zh) * | 2018-01-08 | 2020-10-30 | 浙江大学 | 一种用户评论观点提取和观点标签生成的方法 |
CN108319586B (zh) * | 2018-01-31 | 2021-09-24 | 天闻数媒科技(北京)有限公司 | 一种信息提取规则的生成和语义解析方法及装置 |
CN110738056B (zh) * | 2018-07-03 | 2023-12-19 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109299457B (zh) * | 2018-09-06 | 2023-04-28 | 北京奇艺世纪科技有限公司 | 一种观点挖掘方法、装置及设备 |
CN111787409A (zh) * | 2019-04-04 | 2020-10-16 | 杭州晨熹多媒体科技有限公司 | 影视评论数据处理方法及装置 |
CN110472040A (zh) * | 2019-06-26 | 2019-11-19 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9244908B2 (en) * | 2012-03-27 | 2016-01-26 | Accenture Global Services Limited | Generation of a semantic model from textual listings |
CN103092956B (zh) * | 2013-01-17 | 2016-02-10 | 上海交通大学 | 社交网络平台上话题关键词自适应扩充的方法及系统 |
CN104268160B (zh) * | 2014-09-05 | 2017-06-06 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
CN105117428B (zh) * | 2015-08-04 | 2018-12-04 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
CN106844327B (zh) * | 2015-12-07 | 2020-11-17 | 科大讯飞股份有限公司 | 文本编码方法及系统 |
-
2017
- 2017-08-28 CN CN201710751576.5A patent/CN107544959B/zh active Active
Non-Patent Citations (2)
Title |
---|
基于多层关系图模型的中文评价对象与评价词抽取方法;廖祥文 等;《自动化学报》;20170315;第43卷(第3期);全文 * |
基于短语句法结构和依存句法分析的情感评价单元抽取;王娟 等;《情报理论与实践》;20170313;第40卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107544959A (zh) | 2018-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107544959B (zh) | 一种评价对象的提取方法和装置 | |
Gurini et al. | Temporal people-to-people recommendation on social networks with sentiment-based matrix factorization | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN110968782B (zh) | 一种面向学者的用户画像构建及应用方法 | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
Li et al. | A hybrid recommendation system for Q&A documents | |
CN110569496A (zh) | 实体链接方法、装置及存储介质 | |
CN110704626A (zh) | 一种用于短文本的分类方法及装置 | |
CN110188349A (zh) | 一种基于抽取式多文档摘要方法的自动化写作方法 | |
US20160140220A1 (en) | Method for automatic thematic classification of a digital text file | |
AlMousa et al. | A novel word sense disambiguation approach using WordNet knowledge graph | |
Yao et al. | Temporal event knowledge acquisition via identifying narratives | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
Kim et al. | Effective fake news detection using graph and summarization techniques | |
Grivolla et al. | A hybrid recommender combining user, item and interaction data | |
US20140012853A1 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
Lande et al. | Deep learning for COVID-19 topic modelling via Twitter: Alpha, Delta and Omicron | |
Shikalgar et al. | JIBCA: Jaccard index based clustering algorithm for mining online review | |
Srisuan et al. | The ensemble of Naïve Bayes classifiers for hotel searching | |
KR101708440B1 (ko) | 분산 환경에서 lda 및 능동 학습 기법을 융합한 적응형 아이템 추천 방법 | |
Sivaramakrishnan et al. | Validating effective resume based on employer’s interest with recommendation system | |
Lahlou et al. | Textual context aware factorization machines: Improving recommendation by leveraging users' reviews | |
JP6676698B2 (ja) | 予約語及び属性言語間の関連度を用いた情報検索方法及び装置 | |
KR101402339B1 (ko) | 문서 관리 시스템 및 문서 관리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |