发明内容
有鉴于此,本发明的目的是提出一种基于依存关系模板抽取观点评价对象的Bootstrapping算法,避免了直接采用词汇上下文抽取评价对象方法所带来的噪音,提高了观点评价对象抽取性能。
本发明采用以下方案实现:一种基于依存关系模板抽取观点评价对象的Bootstrapping算法,具体包括以下步骤:
步骤S1:以情感词为中心寻找与初始依存关系模板匹配的词,并对该词进行过滤处理,获得候选观点评价对象词;
步骤S2:用下式计算候选观点评价对象词j的分数:
将依存关系模板与候选观点评价对象词之间的匹配关系用二维矩阵表示:W=(wij),i={1,2,...,u},j={1,2,...,v},其中,u表示模板个数,v表示候选观点评价对象词候选个数;当第i个依存关系模块与第j个候选观点评价对象词存在匹配关系时,wij=wij+1;
步骤S3:按候选观点评价对象词的分数排序,挑选分数最高的5个词进入观点评价对象种子集;
步骤S4:从观点评价对象种子集出发寻找观点评价对象词与情感词之间的依存关系,如果存在依存关系则构造候选依存关系模板;
步骤S5:用下式计算候选依存关系模板分数:
将一个观点评价对象词与候选依存关系模板的关系用二维矩阵表示:P=(pij),i={1,2,...,m},j={1,2,...,n},其中,m表示观点评价对象个数,n表示候选依存关系模板个数;当第i个观点评价对象词与第j个候选依存关系模板存在匹配关系时,pij=pij+1;
步骤S6:按候选依存关系模板的分数排序,挑选分数大于阈值θ的依存关系模板进入模板集;
步骤S7:重复步骤S1至步骤S6,直至没有新的候选观点评价对象词产生;
步骤S8:利用依存分析和语义角色标注技术的规则,对得到的候选观点评价对象进行边界识别。
进一步地,步骤S1中所述对该词进行过滤处理具体包括词性过滤与停用词过滤;所述词性过滤为将名词短语作为候选观点评价对象;所述停用词包括通用停用词与领域停用词。
进一步地,步骤S8中,所述依存分析和语义角色标注技术的规则具体包括:
合并规则:如果当前词是观点评价对象词,该词的前一个词或后一个词出现在候选观点评价对象集中,则前一个词或后一个词扩展为观点评价对象词;
ATT规则:如果当前词是观点评价对象,前一个词或后一个词与该词具有ATT或QUN或DE句法依存关系,则前一个词或后一个词扩展为观点评价对象词;
LAD规则:如果当前词与当前词的父亲词依存关系是LAD且前一个词是观点评价对象词,则当前词的父亲词是观点评价对象词;
COO规则:如果当前词与当前词的儿子词依存关系是COO,且当前词是观点评价对象词,则当前词的儿子词是观点评价对象词;
SRL规则:如果当前词与某些词的语义关系是施事关系同时又与另外一些词的语义关系存在受事关系且受事者中包含情感词则施事者是观点评价对象词。
观点评价对象抽取与传统的信息抽取任务不同,抽取的信息必须是与情感词存在修饰关系的词语,而非客观描述的对象,所以在抽取时要考虑情感词对观点评价对象抽取的影响。观点评价对象词与情感词的依存关系存在以下5种形式,如图3-7所示。其中T代表观点评价对象词,O代表情感词,M代表中间词。图3表示“父亲关系”,即观点评价对象词是情感词的父亲节点;图4表示“儿子关系”,即观点评价对象词是情感词的儿子节点;图5表示“祖父关系”,即观点评价对象词是情感词的父亲的父亲节点;图6表示“孙子关系”,即观点评价对象词是情感词的儿子的儿子节点,图7表示“兄弟关系”,即观点评价对象词与情感词有同一个祖先词。我们将这5种关系形式分为两组,一组称为直接依存关系,包括“父亲关系”和“儿子关系”,另一组称为间接依存关系,包括“祖父关系”、“孙子关系”、“兄弟关系”。
针对以上依存关系形式,本发明提出观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板。直接依存关系模板表示为(dp,target,relate,opinion)。其中:dp表示观点评价对象词与情感词之间的依存关系类型;target指观点评价对象词,opinion指情感词;relate表示观点评价对象词与情感词之间的依存关系形式,(-1)表示观点评价对象词是情感词的父亲节点;(+1)表示上观点评价对象词是情感词的儿子节点。间接依存关系模板表示为(dp1,target,relate1,middle)+(dp2,middle,relate2,opinion),其中dp1表示观点评价对象词与中间词的依存关系类型;relate1表示观点评价对象词与中间词的依存关系形式,(-1)表示观点评价对象词是中间词的父亲节点;(+1)表示观点评价对象词是中间词的儿子节点;dp2表示情感词与中间词的依存关系类型;middle指中间词;relate2表示情感词与中间词的依存关系形式,(-1)表示中间词是情感词的父亲节点;(+1)表示中间词是情感词的儿子节点。以例句1为例,观点评价对象词“性价比”与情感词“高”之间的依存关系类型是SBV关系,用直接依存关系模板表示为:(SBV,性价比,+1,高)。
与现有技术相比,本发明有以下有益效果:本发明采用一种以种子词与情感词之间的依存关系构造模板,并采用Bootstrapping方法实现观点评价对象的抽取。通过在COAE2011电子数据集上的实验结果表明本发明提出的方法能有效利用情感词与观点评价对象词之间的语法、语义信息,避免了直接采用词汇上下文抽取评价对象方法所带来的噪音,提高了观点评价对象抽取性能。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本实施例提供了一种基于依存关系模板抽取观点评价对象的Bootstrapping算法,具体包括以下步骤:
步骤S1:以情感词为中心寻找与初始依存关系模板匹配的词,并对该词进行过滤处理,获得候选观点评价对象词;
步骤S2:用下式计算候选观点评价对象词j的分数:
将依存关系模板与候选观点评价对象词之间的匹配关系用二维矩阵表示:W=(wij),i={1,2,...,u},j={1,2,...,v},其中,u表示模板个数,v表示候选观点评价对象词候选个数;当第i个依存关系模块与第j个候选观点评价对象词存在匹配关系时,wij=wij+1;
在本实施例中,设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},我们取X×Y的一个子集R构造一个从X到Y的匹配关系。即若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj。若即称xi与yj没有匹配关系,记作
步骤S3:按候选观点评价对象词的分数排序,挑选分数最高的5个词进入观点评价对象种子集;
步骤S4:从观点评价对象种子集出发寻找观点评价对象词与情感词之间的依存关系,如果存在依存关系则构造候选依存关系模板;
步骤S5:用下式计算候选依存关系模板分数:
将一个观点评价对象词与候选依存关系模板的关系用二维矩阵表示:P=(pij),i={1,2,...,m},j={1,2,...,n},其中,m表示观点评价对象个数,n表示候选依存关系模板个数;当第i个观点评价对象词与第j个候选依存关系模板存在匹配关系时,pij=pij+1;
步骤S6:按候选依存关系模板的分数排序,挑选分数大于阈值θ的依存关系模板进入模板集;
步骤S7:重复步骤S1至步骤S6,直至没有新的候选观点评价对象词产生;
步骤S8:利用依存分析和语义角色标注技术的规则,对得到的候选观点评价对象进行边界识别。
在本实施例中,步骤S1中所述对该词进行过滤处理具体包括词性过滤与停用词过滤;所述词性过滤为将名词短语作为候选观点评价对象;所述停用词包括通用停用词与领域停用词。
在本实施例中,步骤S8中,所述依存分析和语义角色标注技术的规则具体包括:
合并规则:如果当前词是观点评价对象词,该词的前一个词或后一个词出现在候选观点评价对象集中,则前一个词或后一个词扩展为观点评价对象词;
ATT规则:如果当前词是观点评价对象,前一个词或后一个词与该词具有ATT或QUN或DE句法依存关系,则前一个词或后一个词扩展为观点评价对象词;
LAD规则:如果当前词与当前词的父亲词依存关系是LAD且前一个词是观点评价对象词,则当前词的父亲词是观点评价对象词;
COO规则:如果当前词与当前词的儿子词依存关系是COO,且当前词是观点评价对象词,则当前词的儿子词是观点评价对象词;
SRL规则:如果当前词与某些词的语义关系是施事关系同时又与另外一些词的语义关系存在受事关系且受事者中包含情感词则施事者是观点评价对象词。
在本实施例中,观点评价对象抽取与传统的信息抽取任务不同,抽取的信息必须是与情感词存在修饰关系的词语,而非客观描述的对象,所以在抽取时要考虑情感词对观点评价对象抽取的影响。观点评价对象词与情感词的依存关系存在以下5种形式,如图3-7所示。其中T代表观点评价对象词,O代表情感词,M代表中间词。图3表示“父亲关系”,即观点评价对象词是情感词的父亲节点;图4表示“儿子关系”,即观点评价对象词是情感词的儿子节点;图5表示“祖父关系”,即观点评价对象词是情感词的父亲的父亲节点;图6表示“孙子关系”,即观点评价对象词是情感词的儿子的儿子节点,图7表示“兄弟关系”,即观点评价对象词与情感词有同一个祖先词。我们将这5种关系形式分为两组,一组称为直接依存关系,包括“父亲关系”和“儿子关系”,另一组称为间接依存关系,包括“祖父关系”、“孙子关系”、“兄弟关系”。
针对以上依存关系形式,本发明提出观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板。直接依存关系模板表示为(dp,target,relate,opinion)。其中:dp表示观点评价对象词与情感词之间的依存关系类型;target指观点评价对象词,opinion指情感词;relate表示观点评价对象词与情感词之间的依存关系形式,(-1)表示观点评价对象词是情感词的父亲节点;(+1)表示上观点评价对象词是情感词的儿子节点。间接依存关系模板表示为(dp1,target,relate1,middle)+(dp2,middle,relate2,opinion),其中dp1表示观点评价对象词与中间词的依存关系类型;relate1表示观点评价对象词与中间词的依存关系形式,(-1)表示观点评价对象词是中间词的父亲节点;(+1)表示观点评价对象词是中间词的儿子节点;dp2表示情感词与中间词的依存关系类型;middle指中间词;relate2表示情感词与中间词的依存关系形式,(-1)表示中间词是情感词的父亲节点;(+1)表示中间词是情感词的儿子节点。以例句1为例,观点评价对象词“性价比”与情感词“高”之间的依存关系类型是SBV关系,用直接依存关系模板表示为:(SBV,性价比,+1,高)。
通过对数据集的分析,本实施例将出现频率较高的6个观点评价对象作为初始种子词,分别为“外观”、“性能”、“设计”、“配置”、“功能”、“价格”;选4个出现频率较高的依存关系模板作为初始种子模板,其中直接关系模板3个分别是“SBV,target,-1,opinion”、“SBV,target,+1,opinion”、“ATT,target,+1,opinion”和一个间接关系模板“ATT,target,-1,middle”+“VOB,middle,+1,opinion”。
在本实施例中,为了提高算法的精确率,对候选观点评价对象词进行打分之前对其进行如下过滤处理。具体包括词性过滤与停用词过滤。词性过滤:我们将名词或名词短语作为候选观点评价对象。虽然其他词性的词语也可能是候选观点评价对象,但这些词性的引入会带来较大噪声。停用词过滤:这里的停用词包括通用停用词和领域停用词,如“上”,“的”,“时”等。
在本实施例中,还对比了现有技术与本申请的实验结果,其中,实验数据来自COAE2011电子领域评论语料大约150篇。语料中每个句子用哈尔滨工业大学的语言技术平台(Language Technology Platform,LTP)进行分句、分词、词性分析、依存分析、语义角色标注等预处理工作。评价短语、候选观点评价对象的答案由人工标注。以准确率、召回率和调和评价值作为评价标准,公式如下所示。评价方法采用精确评价和覆盖评价两种方法。精确评价是指系统抽取结果与答案完全匹配,覆盖评价是指系统抽取结果与答案有重叠就算正确。
其中,准确率的计算如下:
召回率的计算如下:
调和评价值得计算如下:
在本实施例中,实验结果与分析如下:
实验一:阈值设定对结论的影响。
为了说明阈值θ的设定对结论的影响,本文对阈值θ取不同值进行实验,实验结果如图8所示。通过实验验证阈值θ取0.10时得到的观点评价对象结果达到最优。
实验二:初始种子集、初始模板集、过滤处理、边界识别规则对结论的影响。
为了验证初始种子集、初始模板集、过滤处理、边界识别规则对观点评价对象抽取的影响,我们采用如下五种方法进行实验,实验结果见表1。
方法一:以初始观点评价对象种子集出发进行观点评价对象的自动抽取,并对候选观点评价对象进行过滤处理、边界识别。
方法二:以初始依存关系模板集出发进行观点评价对象的自动抽取,并对候选观点评价对象经过过滤处理、边界识别。
方法三:以初始依存关系模板集及初始观点评价对象种子集出发抽取候选观点评价对象,未对候选观点评价对象进行过滤处理,对候选观点评价对象的边界进行识别。
方法四:以初始依存关系模板集及初始观点评价对象种子集出发抽取候选观点评价对象,对候选观点评价对象进行过滤处理,未对观点评价对象使用边界识别规则。
本发明用初始依存模板集及初始观点评价对象种子集进行观点评价对象的自动抽取并对候选观点评价对象进行过滤处理,对观点评价对象的边界进行识别。
表1观点评价对象自动抽取结果
本发明方法与方法一、方法二对比,说明同时使用初始观点评价对象种子集和初始依存关系模板集抽取观点评价对象相对于单一使用初始观点评价对象种子集或初始依存关系模板集性能有一定提升。
本发明方法与方法三对比说明词性过滤处理和停用词过滤处理对观点评价对象抽取结果影响较大,在一定程度上可以减少噪声(即非观点评价对象)的产生。
本发明方法与方法四对比说明增加边界识别规则能使观点评价对象抽取性能有一定提升。如例句3:“索尼NWZ-A826外形设计简约大气。”的依存分析结果如图9所示。已知“设计”是观点评价对象种子词,而“外形”是候选观点评价对象,根据合并规则将“外形设计”作为观点评价对象。再依据依存分析“索尼”与“外形”、“NWZ-A826”与“外形”的依存关系分别是“ATT”、“ATT”,根据ATT规则得到“索尼NWZ-A826外形设计”这个信息完整的观点评价对象。
如例句4:“E60的扬声器音量和穿透力很强。”的依存分析结果如图10所示。这个句子中,“音量”是观点评价对象词,“音量”与其儿子词“穿透力”的依存关系是“COO”,根据COO规则,“穿透力”也是观点评价对象词。
如例句2:“明系列是摩托罗拉手机的一个顶峰。”的依存分析结果如图11所示。该句中“是”是谓词,“明系列”是谓词“是”的施事者,“摩托罗拉手机的一个顶峰”是谓词“是”的受事者。根据SRL规则谓词“是”的受事者中包含情感词“顶峰”,因此施事者“明系列”是观点评价对象。
实验三:与词性、词形模板进行对比。
为了验证本发明提出的基于依存关系模板的Bootstrapping方法抽取观点评价对象有效性,使用王昌厚等基于词形模板的Bootstrapping算法和宋晓雷等基于词性、词形模板的Bootstrapping算法作为对比模型。本发明和王昌厚等、宋晓雷等方法采用相同的数据集、过滤处理方法、初始观点评价对象种子集、相同的计算观点评价对象词、模板的公式以及采用相同的边界识别规则和自举算法。宋晓雷等方法的初始词性模板4个分别为:“#,word,a”,“a,word,c”,“u,word,d”,“u,word,v”。王昌厚等、宋晓雷等方法的初始词形模板选4个分别为:“在,word,方面”,“在,word,上”,“的,word,是”,“#,word,还是”。其中“#”代表句子的开始。实验结果如表2所示。
表2本文方法与词性、词形模板对比
由实验结果可知:采用依存关系构造模板相对词性、词形模板的方法,在精确评价、覆盖评价都有很大提高。主要原因是词性、词形模板方法只利用词的信息而忽略了情感词与观点评价对象词之间的语法、语义信息。如例句1“这款产品最大的特点是性价比非常高。”,该句子情感词“高”与儿子词“性价比”之间的依存关系类型是SBV,采用本发明方法能与模板库中已存在的依存关系模板SBV匹配,因此能获得“性价比”这个观点评价对象,而词性、词形模板方法只利用词性、词形信息忽略了情感词的作用只能抽取得到“特点”作为观点评价对象,因此观点评价对象抽取性能较低。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。