CN109726384A

CN109726384A - 评价关系的生成方法及相关装置

Info

Publication number: CN109726384A
Application number: CN201711046157.8A
Authority: CN
Inventors: 韩旭红
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2019-05-07
Anticipated expiration: 2037-10-31
Also published as: CN109726384B

Abstract

本发明公开了一种评价关系的生成方法及相关装置，该评价关系的生成方法，包括：将评价文本中的评价信息标注上对应的标签，得到标签序列；对于标签序列中每一个被标注为第一标签的评价信息，判断该评价信息在第一词序列中被标记为评价对象的概率是否大于阈值；其中，第一标签用于表明评价信息为无含义的词语；第一词序列包括：被标注为第一标签的评价信息、以及被标注为第一标签的评价信息在标签序列中的前后n个评价信息，n为自然数；若是，则调整相应评价信息对应的标签为第二标签；其中，第二标签用于表明评价信息为评价对象；依据标签间的搭配关系，建立调整标签后的标签序列中评价信息间的评价关系。

Description

评价关系的生成方法及相关装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种评价关系的生成方法及相关装置。

背景技术

随着互联网的快速发展，越来越多的人会在网上发表自身对人、事或者物的评价。网络上会出现大量含有个人观点的评价文本。因此，如何解析评价文件，构建出评价文件中评价信息间的评价关系，是信息处理领域的一个研究热点。

目前，在得到评价关系的过程中，需要先抽取评价文本中的评价信息，并对其进行标注。主要采用序列标注算法，例如：HMM(隐马尔可夫模型，英文：Hidden Markov Model)、CRF(条件随机场算法，英文：conditional randomfield algorithm)、RNN(多层反馈网络，英文：Recurrent Neural Network)等。

但是，受评价信息所使用的自然语言的语言表达的复杂性、序列标注算法中所采用的标注模型的训练数据标注质量问题以及训练特征不均衡等的影响，会导致评价文本中的属于评价对象的评价信息无法被完全抽取，影响评价关系的完整构建。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的评价关系的生成方法及相关装置。

一种评价关系的生成方法，包括：

将评价文本中的评价信息标注上对应的标签，得到标签序列；

对于所述标签序列中每一个被标注为第一标签的评价信息，判断该评价信息在第一词序列中被标记为评价对象的概率是否大于阈值；其中，所述第一标签用于表明评价信息为无含义的词语；所述第一词序列包括：所述被标注为第一标签的评价信息、以及所述被标注为第一标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数；

若是，则调整相应评价信息对应的标签为第二标签；其中，所述第二标签用于表明评价信息为评价对象；

依据标签间的搭配关系，建立调整标签后的所述标签序列中评价信息间的评价关系。

可选地，所述将评价文本中的评价信息标注上对应的标签，得到标签序列，包括：

对所述评价文本进行分词处理，得到所述评价文本包括的评价信息；

识别所述评价信息的属性特征，确定所述评价信息的属性特征对应的标签；

为所述评价文本包括的评价信息分别添加其属性特征对应的标签，得到所述标签序列。

可选地，所述评价关系的生成方法还包括：

对于所述标签序列中每一个被标注为所述第二标签的评价信息，判断该评价信息的第二词序列中是否存在概率大于阈值的情感词；其中，所述第二词序列包括：所述被标注为第二标签的评价信息、以及所述被标注为第二标签在所述标签序列中的前后n个评价信息，n为自然数；

若是，则调整所述情感词对应标签为第三标签；其中，所述第三标签用于表明评价信息属于评价对象的情感词。

可选地，所述评价关系的生成方法还包括：

对于所述标签序列中每一个被标注为第四标签的评价信息，判断该评价信息的第三词序列中，是否存在概率大于阈值的属性词；其中，所述第四标签用于表明评价信息为情感词；所述第三词序列包括：所述被标注为第四标签的评价信息、以及所述被标注为第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数；

若是，则调整所述属性词对应的标签为所述第二标签，且调整所述第三词序列中被标注为所述第四标签的评价信息对应的标签为所述第三标签。

可选地，所述评价关系的生成方法还包括：

对于所述标签序列中的每一个被标注为所述第三标签或者所述第四标签评价信息，判断该评价信息的第四词序列中，是否存在概率大于阈值的修饰词语；其中，所述第四词序列包括所述被标注为所述第三标签或者所述第四标签的评价信息、以及所述被标注为所述第三标签或者所述第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数；

若是，则调整所述修饰词语对应的标签为第五标签；其中，所述第五标签用于表明评价信息属于情感词的修饰词语。

一种评价关系的生成装置，包括：

生成单元，用于将评价文本中的评价信息标注对应的标签，得到标签序列；

第一判断单元，用于对于所述标签序列中每一个被标注为第一标签的评价信息，判断该评价信息在第一词序列中被标记为评价对象的概率是否大于阈值；其中，所述第一标签用于表明评价信息为无含义的词语；所述第一词序列包括：所述被标注为第一标签的评价信息、以及所述被标注为第一标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数；

第一调整单元，用于所述第一判断单元所述评价信息在所述第一词序列中被标记为评价对象的概率大于阈值，调整所述评价信息对应的标签为第二标签；其中，所述第二标签用于表明评价信息为评价对象；

建立单元，用于依据标签间的搭配关系，建立调整标签后的所述标签序列中评价信息间的评价关系。

可选地，所述评价关系的生成装置还包括：

第二判断单元，用于对于所述标签序列中每一个被标注为所述第二标签的评价信息，判断该评价信息的第二词序列中是否存在概率大于阈值的情感词；其中，所述第二词序列包括：所述被标注为第二标签的评价信息、以及所述被标注为第二标签在所述标签序列中的前后n个评价信息，n为自然数；

第二调整单元，用于所述第二判断单元判断出所述第二词序列中存在概率大于阈值的情感词，调整所述情感词对应标签为第三标签；其中，所述第三标签用于表明评价信息属于评价对象的情感词。

可选地，所述评价关系的生成装置还包括：

第三判断单元，用于对于所述标签序列中每一个被标注为第四标签的评价信息，判断该评价信息的第三词序列中是否存在概率大于阈值的属性词；其中，所述第四标签用于表明评价信息为情感词；所述第三词序列包括：所述被标注为第四标签的评价信息、以及所述被标注为第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数；

第三调整单元，用于所述第三判断单元判断出所述第三词序列中存在概率大于阈值的属性词，调整所述属性词对应的标签为所述第一标签，且调整所述第三词序列中被标注为所述第四标签的评价信息对应的标签为所述第三标签。

一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如上述任意一项所述的评价关系的生成方法。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的评价关系的生成方法。

借由上述技术方案，本发明提供的评价关系的生成方法及相关装置中，对评价文本中的评价信息进行标注形成标签序列后，采用计算被标注为被标注为第一标签的评价信息，在第一词序列中被标记为评价对象的概率是否大于阈值的方式，进一步确定所述标签序列中标注为无含义的评价信息是否为评价对象，实现了对标签序列中的无含义的评价信息的二次筛选，抽取出所述评价文本中属于评价对象但在未被标注出来的评价信息，保证了评价关系的完整构建。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例公开的评价关系的生成方法的流程图；

图2示出了本发明实施例公开的评价关系的生成方法中步骤S101的具体实施方案的流程图；

图3示出了本发明另一实施例公开的评价关系的生成方法的流程图；

图4示出了本发明另一实施例公开的评价关系的生成方法的流程图；

图5示出了本发明另一实施例公开的评价关系的生成方法的流程图；

图6示出了本发明实施例公开的家庭成员的分析装置的结构示意图；

图7示出了本发明另一实施例公开的评价关系的生成装置的结构示意图；

图8示出了本发明另一实施例公开的评价关系的生成装置的结构示意图；

图9示出了本发明另一实施例公开的评价关系的生成装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例公开的评价关系的生成方法，参见图1，包括步骤：

S101、将评价文本中的评价信息标注对应的标签，得到标签序列。

评价文本是用户针对人、事或者物而发表的评价内容，包括多个评价信息。并且，根据属性特征的区别，评价信息包括：评价词语、情感词和修饰词语；其中，所述评价词语为情感词评价的对象，也可以称之为评价对象；所述情感词包含情感的词语；所述修饰词语为对情感词进行修饰的词语，可以包括修饰副词、否定词等对情感强度有增强、减弱、或反转情感等作用的词语。

其中，本步骤中，采用序列标注算法对评价文本中的评价信息进行抽取和标注，得到标签序列。其中，所述序列标注算法可以采用LSTM(时间递归神经网络，英文：LongShort-Term Memory)和CRF的组合算法。当然还可以采用其他序列标注算法，例如CRF、HMM等。

所述序列标注算法均设置有标注模型，用于抽取并标注评价文本中的评价信息，得到标签序列。并且，需要提前训练标注数据得到标注模型。具体的，根据下表一所述的格式标注训练数据，得到标注数据。再将训练数据中每一词语对应的词性、依存句法信息、上下文信息(即前后词语之间的关系)结合包括词语的标注数据一同输入到标注初始模型进行训练，得到可用于标注评价信息的标注模型。

表一

标签名称	意义说明
		F	评价对象
PO	情感词位于评价对象前，构成情感词-评价对象结构
		BO	情感词位于评价对象后，构成评价对象-情感词结构
O	情感词，不同评价对象构成搭配关系或缺失评价对象
		W	标点符号
PM	修饰词语位于情感词前，构成修饰词语-情感词结构
		BM	修饰词语位于情感词后，构成情感词-修饰词语结构
N	其它无特殊含义的词语

还需要说明的是，表一中，各个标签名称不限于上表给出的字母，还可以设置为其他字母。

可选地，采用序列标注算法抽取并标注评价文本中的评价信息的一种具体实施方式，可参见图2，包括步骤：

S1011、对所述评价文本进行分词处理，得到所述评价文本包括的评价信息。

其中，评价文本一般会包括多个评价信息，需要对评价文本进行分词处理，进而得到评价文本所包括的所有评价信息。并且，评价文本的分词处理过程可采用现有的分词处理方式，此处不做具体说明。

例如：用户针对汽车品牌-吉利帝豪发表的评价文本为：吉利帝豪外观很大气。对该评价文本进行分词处理后，得到的评价信息分别包括：“吉利”、“帝豪”、“外观”、“很”、“大气”和“。”。

S1012、识别所述评价信息的属性特征，确定所述评价信息的属性特征对应的标签。

其中，所述评价信息的属性特征属于评价信息的本身特性，用于反映评价信息在语言文学上的归属属性。一般可分包括：评价词语、情感词和修饰词语。并且，在评价文本中包括的评价信息的属性特征可能是不相同的，因此需要识别出分词出的每个评价信息的属性特征。

在上述实例中，对分词处理后的评价信息识别属性特征后，确定出“吉利”为无特殊含义的词，其对应的标签为N；“帝豪”为无特殊含义的词，其对应的标签为N；“外观”为评价词语，其对应的标签为F，“很”为修饰词，根据与修饰词“很”的关系确定其对应的标签为PM；“大气”为情感词，根据与评价对象“外观”的关系确定出其对应的标签为BO；“。”为标点符号，其对应的标签为W。

S1013、为所述评价文本包括的评价信息分别添加其属性特征对应的标签，得到所述标签序列。

其中，在所述评价文本包括的评价信息添加标签，一般可以将标签设置于评价信息的后一位，由评价文本包括的评价信息以及其对应的标签，共同形成标签序列。

在上述实例中，形成的标签序列为：吉利/N帝豪/N外观/F很/PM大气/BO。/W

S102、针对所述标签序列中每一个被标注为第一标签的评价信息，判断该评价信息在第一词序列中被标记为评价对象的概率是否大于阈值。

其中，所述第一标签用于表明评价信息为无含义的词语；所述第一词序列包括：所述被标注为第一标签的评价信息、以及所述被标注为第一标签的评价信息在所述标签序列中前后n个评价信息，n为自然数。

遍历所述标签序列中的每一个评价信息，识别每一个评价信息对应的标签。若识别出为某一个评价信息被标注为第一标签，则从所述标签序列中抽取出该被标注为第一标签的评价信息前n个评价信息，还抽取出该被标注为第一标签的评价信息后n个评价信息。将所述被标注为第一标签的评价信息的前n个评价信息、所述被标注为第一标签的评价信息、以及所述被标注为第一标签的评价信息的后n个评价信息组成第一词序列。计算所述被标注为第一标签的评价信息在所述第一词序列中被标记为评价对象的概率，并判断计算得到的概率是否大于阈值。

若识别出所述标签序列中的一个评价信息的标签不是第一标签，则继续遍历所述标签序列，判断下一个评价信息的标签是否为第一标签，直至所述标签序列中的所有评价信息均识别完毕。

所述第一词序列中包括的被标注为第一标签的评价信息之前的评价信息的数量，以及被标注为第一标签的评价信息之后的评价信息的数量，具体可根据实际的情况进行设定。并且，若在所述标签序列中，所述被标注为第一标签的评价信息和所述标签序列的开头位置之间的评价信息的数量少于设定的数量n，或者所述被标注为第一标签的评价信息和所述标签序列的结尾位置之间的评价信息的数量少于设定的数量n，则仅抽取所述被标注为第一标签的评价信息和所述标签序列的开头位置之间的评价信息，或者进抽取所述被标注为第一标签的评价信息和所述标签序列的结尾位置之间的评价信息，用于组合所述第一词序列。

计算所述被标注为第一标签的评价信息，在所述第一词序列中被标注为评价对象的概率，可以采用前向后向算法。具体的，计算出所述被标注为第一标签的评价信息在第一词序列中为标注为几种属性特征的概率，如：计算出所述被标注为第一标签的评价信息在第一词序列中被标注为评价对象的概率、被标注为情感词的概率以及被标注为修饰词的概率。在判断计算出的被标注为评价对象的概率为计算出的几种概率中的最大一个的情况下，再计算该概率是否大于阈值。

可选地，为了提高针对所述标签序列中被标注为第一标签的评价信息，在其对应的第一词序列中被标记为评价对象的概率的处理效率，还可以在识别出所述标签序列中的某一个评价信息为第一标签时，判断该评价信息是否属于属性词词典，若属于所述属性词词典，再执行步骤S102，否则则识别所述标签序列的下一个评价信息。

其中，所述属性词词典保存某一个或领域的属性词，还可以区别保存不同领域的属性词。该属性词一般为一个领域中的基础技术词语。例如：在汽车领域中，属性词词典包括构成一个汽车的基本零部件的名称，还可以包括反应汽车性能的参数等。

S103、在判断出所述标签序列中的被标注为第一标签的评价信息，在第一词序列中被标记为评价对象的概率大于阈值的情况下，调整其对应的标签为第二标签。

其中，所述第二标签用于表明评价信息为评价对象。

若所述标签序列中的某个被标注为第一标签的评价信息，在其对应的第一词序列中被标记为评价对象的概率大于阈值，则说明该评价信息在步骤S101中的标注为抽取标注，属于评价文本中未被标注出的评价词语，因此，需要调整该评价信息的标注为第二标签。

S104、依据标签间的搭配关系，建立调整标签后的所述标签序列中评价信息间的评价关系。

其中，识别所述调整标签后的标签序列中的每一个评价信息的对应的标签，结合标签间的搭配关系，进行评价关系的构建。

所述标签间的搭配关系，包括：第二标签和第三标签为搭配关系，第三标签和第五标签为搭配关系。并且，在一个评价文本中，每一个被标注为所述第二标签的评价信息可能会搭配有几个被标注为所述第三标签的评价信息。同样，每一个被标注为所述第三标签的评价信息，也可能会搭配有几个被标注为所述第五标签的评价信息。

具体的，在调整标签后的标签序列中，查找到标签为“F”的评价信息，再查找“F”前最近的标签为“BO”的评价信息，作为其搭配的评价信息；查找“F”后直至下一个“F”标记前最近的“PO”作为其搭配的评价信息。

若向后查找搭配的评价信息时，若查找到最近的标签为“BO”的评价信息，则在遇到标点符号为停止，若在遇到标点符号前还没有查找到标签为“BO”的评价信息，则可以继续跨越标点符号继续查找，但一般最多跨越两个标点符号。

对于上述已经搭配好的评价信息，查找标签为“BO”的评价信息之前或者之后最近的标签为“BM”的评价词语作为搭配的修饰词。

还需要说明的是，在确定出所述调整标签后的标签序列中的评价信息间的搭配后，可以用设定唯一标识的方式来明确其评价关系，或者采用存储地址的标志来进行明确，此处均不受限制。

本实施例公开的评价关系的生成方法中，对评价文本中的评价信息进行标注形成标签序列后，采用计算被标注为被标注为第一标签的评价信息，在第一词序列中被标记为评价对象的概率是否大于阈值的方式，进一步确定所述标签序列中标注为无含义的评价信息是否为评价对象，实现了对标签序列中的无含义的评价信息的二次筛选，抽取出所述评价文本中属于评价对象但在未被标注出来的评价信息，保证了评价关系的完整构建。

可选地，本申请的另一实施例中，参见图3，所述评价关系的生成方法中除包括步骤S301～S303以外，还包括步骤：

S304、针对所述标签序列中每一个被标注为所述第二标签的评价信息，判断该评价信息的第二词序列中，是否存在概率大于阈值的情感词。

其中，所述第二词序列包括：所述被标注为第二标签的评价信息、以及所述被标注为第二标签在所述标签序列中的前后n个评价信息，n为自然数。

步骤S301得到标签序列后，遍历所述标签序列中的每一个评价信息，且识别每一个评价信息被标注的标签的类型，若识别一个评价信息的标签为第一标签，则执行步骤S302～S303，若识别一个评价信息的标签为第二标签，则生成该评价信息的词序列，称为第二词序列。并且，所述第二词序列包括：被标注为第二标签的评价信息、被标注为第二标签的评价信息之前的n个评价信息、以及被标注为第二标签的评价信息之后的n个评价信息。

本步骤中，第二词序列中的n也可以根据实际的情况进行设定。并且，与第一词序列中的n可以设置为同一数值，也可以设置为不同的数值。生成第二词序列的具体过程可参见上述实施例中步骤S102的内容，此处不赘述。

在生成第二词序列后，计算所述第二词序列中是否存在概率大于阈值的情感词的方式为：查找所述第二词序列中的被标注为第一标签的评价信息，计算查找得到的每一个所述被标注为第一标签的评价信息被标注为几种属性特征的概率。分别判断每一个被标注为第一标签的评价信息被标注为情感词的概率是否大于阈值，若大于阈值，则说明所述标签序列中存在情感词。

可选地，在计算得到每一个被标注为第一标签的评价信息被标注为几种属性特征的概率后，还可以先进行筛选，得到被标注为第一标签的评价信息中被标注为几种属性特征的概率中，被标注为情感词这种属性特征的概率最大的，再将其概率与阈值进行比较。这样，可以较少和阈值比较的评价信息的数量，提高效率。

还需要说明的是，在第二词序列中，仅对被标注为第一标签的评价信息计算概率并进行阈值比较的过程，是因为在所述第二词序列中，仅有被标记为第一标签的评价信息才是没有明确含义的评价信息，存在被标注为情感词的可能。

S305、在判断出所述标签序列中的被标注为第二标签的评价信息的第二序列中，存在概率大于阈值的情感词的情况下，调整所述情感词对应标签为第三标签。

其中，所述第三标签用于表明评价信息属于评价对象的情感词。

若所述标签序列中的某个被标注为第二标签的评价信息的第二序列中，存在被标注为情感词的概率大于阈值的评价信息，说明所述第二序列中存在情感词，将其标签调整为第三标签。实现了对所述标签序列中情感词的二次筛查，进一步保证了评价文本中的评价信息的准确性标注。

本实施例中，对所述标签序列均执行完步骤S303～S305后，才形成调整标签后的标签序列，对调整标签后的标签序列在执行步骤S306。

还需要说明的是，除了对执行完S301后形成的标签序列后执行步骤S304～S305外，还可以对执行完S302～S303之后的标签系列再进一步执行S304～S305。即步骤S302中，所述标签序列中被标注为第二标签的评价信息，包括：所述标签序列中被标注的标签在初始状态为第二标签的评价信息、以及被标注的标签由第一标签调整成第二标签的评价信息。

可选地，本申请的另一实施例中，参见图4，所述评价关系的生成方法中除包括步骤S401～S403以外，还包括步骤：

S404、针对所述标签序列中每一个被标注为第四标签的评价信息，判断该评价信息的第三词序列中，是否存在概率大于阈值的属性词。

其中，所述第四标签用于表明评价信息为情感词；所述第三词序列包括：所述被标注为第四标签的评价信息、以及所述被标注为第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数。

步骤S401得到标签序列后，遍历所述标签序列中的每一个评价信息，且识别每一个评价信息被标注的标签的类型，若识别一个评价信息的标签为第一标签，则执行步骤S402～S403。若识别一个评价信息的标签为第四标签，则生成该评价信息的词序列，称为第三词序列。并且，所述第三词序列包括：被标注为第四标签的评价信息、被标注为第四标签的评价信息之前的n个评价信息、以及被标注为第四标签的评价信息之后的n个评价信息。

计算所述第三词序列中是否存在被标注为属性词的概率大于阈值的评价信息的具体实现方式可参见上述实施例中步骤S304的内容，此处不再赘述。并且，所述属性词的定义可参见上述实施例的内容，此处也不赘述。

S405、在判断出所述标签序列中的被标注为第四标签的评价信息的第三词序列中，存在概率大于阈值的属性词的情况下，调整所述属性词对应的标签为所述第二标签，且调整所述第三词序列中被标注为第四标签的评价信息对应的标签为所述第三标签。

其中，在判断出所述标签序列中的某一个或者多个被标注为第四标签的评价信息的第三词序列中，存在被标注为属性词的概率大于阈值的评价信息，则说明在所述标签序列中，存在属性词，因此，需要将其标注为第二标签。这样，实现了对所述标签序列中属性词的二次筛查，进一步保证了评价文本中的评价信息的准确性标注。

并且，结合所述第三词序列中的属性词和被标注为第四标签的评价信息之间的位置关系，调整所述被标注第四标签的评价信息为第三标签。并且，所述第三标签用于表明评价信息属于评价对象的情感词，根据情感词与评价对象的位置关系，所述第三标签可以包括两个，分别标注情感词位于评价对象之前和情感词位于评价对象之后两种位置下的情感词。

还需要说明的是，本实施例中的步骤S404～S405可以在步骤S401中生成所述标签序列之后执行，还可以是执行完步骤S402～S403之后执行。

可选地，本申请的另一实施例中，参见图5，所述评价关系的生成方法中除包括步骤S501～S503以外，还包括步骤：

S504、针对所述标签序列中的每一个标注为所述第三标签或者所述第四标签的评价信息，判断该评价信息的第四词序列中，是否存在概率大于阈值的修饰词语。

其中，所述第四词序列包括所述被标注为所述第三标签或者所述第四标签的评价信息、以及所述被标注为所述第三标签或者所述第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数。

步骤S501得到标签序列后，识别所述标签序列中的每一个评价信息，若识别出所述标签序列中的某一个评价信息被标注为第三标签，或者被标注为第四标签，则生成该评价信息的第四词序列。所述第四词序列包括：被标注为第三标签的评价信息、被标注为第三标签的评价信息的前n个评价信息、以及被标注为第三标签的评价信息的后n个评价信息。或者，所述第四词序列包括：被标注为第四标签的评价信息、被标注为第四标签的评价信息的前n个评价信息、以及被标注为第四标签的评价信息的后n个评价信息。

计算所述第四词序列中是否存在被标注为修饰词语的概率是否大于阈值的评价信息的过程，可以参见对应上述实施例中步骤S304的内容，此处不再赘述。

S505、在判断出所述标签序列中的被标注为所述第三标签或者所述第四标签的第四词序列中，存在概率大于阈值的修饰词语的情况下，调整所述修饰词语对应的标签为第五标签。

其中，所述第五标签用于表明评价信息属于情感词的修饰词语。

在判断出所述标签序列中的某一个或者多个被标注为所述第三标签或者所述第四标签的评价信息的第四词序列中，存在被标注为修饰词语的概率大于阈值的评价信息，则说明在所述标签序列中，存在修饰词语，因此，需要将其标注为第五标签。这样，实现了对所述标签序列中修饰词语的二次筛查，进一步保证了评价文本中的评价信息的准确性标注。

并且，结合所述第四词序列中的属性词和被标注为所述第三标签或者所述第四标签的评价信息之间的位置关系，调整所所述修饰词语对应的标签为第五标签。并且，根据情感词与修饰词语的位置关系，所述第五标签也可以包括两个，分别标注修饰词语位于情感词之前和修饰词语位于情感词之后两种位置下的修饰词语。

还需要说明的是，本实施例中的步骤S504～S505可以在步骤S501中生成所述标签序列之后执行，还可以是执行完步骤S502～S503之后执行。并且，在执行步骤S502～S503的同时，之前或者之后，均还可以执行上述实施例中公开的步骤S404～S405的内容，也还可以执行上述实施例中公开的步骤S304～S305的内容。在此种情况下，步骤S504中，所述标签序列中被标注为第三标签的评价信息包括：所述标签序列中被标注的标签在初始状态为第三标签的评价信息、以及被标注的标签调整成第三标签的评价信息。

本发明另一实施例还公开了一种评价关系的生成装置，如图6所示，包括：

生成单元601，用于将评价文本中的评价信息标注对应的标签，得到标签序列。

第一判断单元602，用于对于所述标签序列中每一个被标注为第一标签的评价信息，判断该评价信息在第一词序列中被标记为评价对象的概率是否大于阈值；其中，所述第一标签用于表明评价信息为无含义的词语；所述第一词序列包括：所述被标注为第一标签的评价信息、以及所述被标注为第一标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数。

第一调整单元603，用于在第一判断单元602判断出所述标签序列中的被标注为第一标签的评价信息，在第一词序列中被标记为评价对象的概率大于阈值的情况下，调整其对应的标签为第二标签；其中，所述第二标签用于表明评价信息为评价对象。

建立单元604，用于依据标签间的搭配关系，建立调整标签后的所述标签序列中评价信息间的评价关系。

其中，本实施例公开的各个单元的具体工作过程，可参见对应图1的方法实施例，此处不再赘述。

可选地，生成单元601，包括：

分词单元，用于对所述评价文本进行分词处理，得到所述评价文本包括的评价信息。

确定单元，用于识别所述评价信息的属性特征，确定所述评价信息的属性特征对应的标签。

添加单元，用于为所述评价文本包括的评价信息分别添加其属性特征对应的标签，得到所述标签序列。

其中，本实施例公开的各个单元的具体工作过程，可参见对应图2的方法实施例，此处不再赘述。

可选地，本申请的另一实施例中，如图7所示，所述评价关系的生成装置除包括生成单元701、第一判断单元702、第一调整单元703和建立单元706外，还包括：

第二判断单元704，用于对于所述标签序列中每一个被标注为所述第二标签的评价信息，判断该评价信息的第二词序列中是否存在概率大于阈值的评价词语；其中，所述第二词序列包括：所述被标注为第二标签的评价信息、以及所述被标注为第二标签在所述标签序列中的前后n个评价信息，n为自然数。

第二调整单元705，用于第二判断单元704判断出所述标签序列中的被标注为第二标签的评价信息的第二词序列中，存在概率大于阈值的评价词语的情况下，调整所述评价词语对应标签为第三标签；其中，所述第三标签用于表明评价信息属于评价对象的情感词。

其中，本实施例公开的各个单元的具体工作过程，可参见对应图3的方法实施例，此处不再赘述。

可选地，本申请的另一实施例中，如图8所示，所述评价关系的生成装置除包括生成单元801、第一判断单元802、第一调整单元803和建立单元806外，还包括：

第三判断单元804，用于对于所述标签序列中每一个被标注为第四标签的评价信息，判断该评价信息的第三词序列中是否存在概率大于阈值的属性词语；其中，所述第四标签用于表明评价信息为情感词；所述第三词序列包括：所述被标注为第四标签的评价信息、以及所述被标注为第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数。

第三调整单元805，用于在第三判断单元804判断出所述标签序列中的被标注为第四标签的评价信息的第三词序列中，存在概率大于阈值的属性词语的情况下，调整所述属性词语对应的标签为所述第一标签，且调整所述第三序列中被标注为所述第四标签的评价信息对应的标签为所述第三标签。

其中，本实施例公开的各个单元的具体工作过程，可参见对应图4的方法实施例，此处不再赘述。

可选地，本申请的另一实施例中，如图9所示，所述评价关系的生成装置除包括生成单元901、第一判断单元902、第一调整单元903和建立单元906外，还包括：

第四判断单元904，用于对于所述标签序列中的每一个标注为所述第三标签或者所述第四标签的评价信息，判断该评价信息的第四词序列中是否存在概率大于阈值的修饰词语；其中，所述第四词序列包括所述被标注为所述第三标签或者所述第四标签的评价信息、以及所述被标注为所述第三标签或者所述第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数。

第四调整单元905，用于在第四判断单元904判断出所述标签序列中的被标注为所述第三标签或者所述第四标签的第四词序列中，存在概率大于阈值的修饰词语的情况下，调整所述修饰词语对应的标签为第五标签；其中，所述第五标签用于表明评价信息属于情感词的修饰词语。

其中，本实施例公开的各个单元的具体工作过程，可参见对应图5的方法实施例，此处不再赘述。

所述评价关系的生成装置包括处理器和存储器，上述生成单元、第一判断单元、第一调整单元和建立单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现评价关系的建立过程，解决现有技术中由于评价文本中的属于评价对象的评价信息无法被完全抽取，影响评价关系的完整构建的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述评价关系的生成方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述评价关系的生成方法。

本发明实施例提供了一种设备，本文中的设备可以是服务器、PC、PAD、手机等。设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

在判断出所述标签序列中的被标注为第一标签的评价信息，在所述第一词序列中被标记为评价对象的概率大于阈值的情况下，调整其对应的标签为第二标签；其中，所述第二标签用于表明评价信息为评价对象；

可选地，还包括：

对于所述标签序列中每一个被标注为所述第二标签的评价信息，判断该评价信息的第二词序列中，是否存在概率大于阈值的情感词；其中，所述第二词序列包括：所述被标注为第二标签的评价信息、以及所述被标注为第二标签在所述标签序列中的前后n个评价信息，n为自然数；

在判断出所述标签序列中的被标注为第二标签的评价信息的第二词序列中，存在概率大于阈值的情感词的情况下，调整所述情感词对应标签为第三标签；其中，所述第三标签用于表明评价信息属于评价对象的情感词。

可选地，还包括：

对于所述标签序列中每一个被标注为第四标签的评价信息，判断该评价信息的第三词序列中是否存在概率大于阈值的属性词；其中，所述第四标签用于表明评价信息为情感词；所述第三词序列包括：所述被标注为第四标签的评价信息、以及所述被标注为第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数：

在判断出所述标签序列中的被标注为第四标签的评价信息的第三词序列中，存在概率大于阈值的属性词的情况下，调整所述属性词对应的标签为所述第二标签，且调整所述被标注为第四标签的评价信息的第三词序列中被标注为所述第四标签的评价信息对应的标签为所述第三标签。

可选地，还包括：

对于所述标签序列中的每一个标注为所述第三标签或者所述第四标签评价信息，判断该评价信息的第四词序列中是否存在概率大于阈值的修饰词语；其中，所述第四词序列包括所述被标注为所述第三标签或者所述第四标签的评价信息、以及所述被标注为所述第三标签或者所述第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数：

在判断出所述标签序列中的被标注为所述第三标签或者所述第四标签的第四词序列中，存在概率大于阈值的修饰词语的情况下，调整所述修饰词语对应的标签为第五标签；其中，所述第五标签用于表明评价信息属于情感词的修饰词语。

本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

对于所述标签序列中每一个被标注为第一标签的评价信息，判断该评价信息在第一词序列中被标记为评价对象的概率是否大于阈值；其中，所述第一标签用于表明评价信息为无含义的词语；所述第一词序列包括：所述被标注为第一标签的评价信息、以及所述被标注为第一标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数。

可选地，还包括：

对于所述标签序列中每一个被标注为所述第二标签的评价信息，判断该评价信息的第二词序列中是否存在概率大于阈值的情感词；其中，所述第二词序列包括：所述被标注为第二标签的评价信息、以及所述被标注为第二标签在所述标签序列中的前后n个评价信息，n为自然数。

可选地，还包括：

对于所述标签序列中每一个被标注为第四标签的评价信息，判断该评价信息的第三词序列中是否存在概率大于阈值的属性词；其中，所述第四标签用于表明评价信息为情感词；所述第三词序列包括：所述被标注为第四标签的评价信息、以及所述被标注为第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数。

可选地，还包括：

对于所述标签序列中的每一个标注为所述第三标签或者所述第四标签评价信息，判断该评价信息的第四词序列中是否存在概率大于阈值的修饰词语；其中，所述第四词序列包括所述被标注为所述第三标签或者所述第四标签的评价信息、以及所述被标注为所述第三标签或者所述第四标签的评价信息在所述标签序列中的前后n个评价信息，n为自然数。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种评价关系的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将评价文本中的评价信息标注上对应的标签，得到标签序列，包括：

3.根据权利要求1或2所述的方法，其特征在于，还包括：

4.根据权利要求1或2所述的方法，其特征在于，还包括：

5.根据权利要求1或2所述的方法，其特征在于，还包括：

6.一种评价关系的生成装置，其特征在于，包括：

第一调整单元，用于在所述第一判断单元所述评价信息在所述第一词序列中被标记为评价对象的概率大于阈值的情况下，调整所述评价信息对应的标签为第二标签；其中，所述第二标签用于表明评价信息为评价对象；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6所述的装置，其特征在于，还包括：

第三调整单元，用于在所述第三判断单元判断出所述第三词序列中存在概率大于阈值的属性词，调整所述属性词对应的标签为所述第一标签，且调整所述第三词序列中被标注为所述第四标签的评价信息对应的标签为所述第三标签。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一项所述的评价关系的生成方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行如权利要求1-5中任一项所述的评价关系的生成方法。