CN102609424A - 评价信息抽取方法和设备 - Google Patents
评价信息抽取方法和设备 Download PDFInfo
- Publication number
- CN102609424A CN102609424A CN2011100350181A CN201110035018A CN102609424A CN 102609424 A CN102609424 A CN 102609424A CN 2011100350181 A CN2011100350181 A CN 2011100350181A CN 201110035018 A CN201110035018 A CN 201110035018A CN 102609424 A CN102609424 A CN 102609424A
- Authority
- CN
- China
- Prior art keywords
- mark
- viewpoint
- objects
- words
- adjusted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种评价信息抽取方法和设备,该方法包括:从语料库中获取观点词语集合和对象特征集合;基于观点词语集合与对象特征集合之间的关联性、观点词语集合成员相似性以及对象特征集合成员相似性,优化观点词语集合和对象特征集合;以及根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
Description
技术领域
本发明涉及数据挖掘领域,特别涉及用于抽取评价信息的方法与设备。
背景技术
随着因特网的发展,越来越多的人已不再满足简单被动地接受互联网信息,而是在网络上发表自己的观点、发布个性化信息。这些评论和看法通常会发布在购物网站、论坛、个人博客和微博等多种网络媒介上。其中不乏用户的产品评论和读者对事件、政策看法等。通过观点挖掘(Opinion Mining)技术,分析和挖掘这些评论性文本内容,可以帮助个人和机构了解大众对于产品、事件、政策等所持的普遍意见和态度,辅助决策,以便做出有针对性的优化、引导、改善或补救等措施。可见,观点挖掘技术具有非常巨大的应用价值。
观点挖掘主要是针对具有主观性的文本(例如词语、短语、句子、篇章等情感文本),自动获取有用的评价信息和相关知识。观点挖掘的主要目标是识别出文本中的评价信息,进而实现倾向性分析。目前主要有三种得到评价信息的方法。
第一种方法是,基于同现模板的半自动的评价信息抽取方法。该方法定义评价信息为三元组(Subject,Attribute,Value),将评价信息的每个元素作为同现模板的槽值,通过同现模板从待分析的情感文本中匹配评价信息的三个元素。例如一个同现模板:<Attribute>of<Subject>is<Value>,待分析的情感文本为“The pictureof this camera is great.”,对该句子使用同现模板进行匹配来抽取三元组,分别为<this camera>、<the picture>、<great>。该方法需要构建Subject、Attribute以及Value三个词典,为每个词典手工挑选种子词语进行初始化以及挑选了多个出现频率较高的同现模板。首先,生成Attribute和Value;其次,通过人工筛选生成的Attribute和Value,将筛选过后的正确的Attribute和Value放入到各自的词典中。该方法存在的问题是,同现模板种类较为单一,涵盖面较窄,从而导致召回率低,选择过程需要进行人工筛选。
第二种方法是,基于搭配词典的评价信息抽取方法。通过研究评价信息二元组(观点词语,对象特征)来获取评价信息。该方法首先需要建立三个词典,第一个词典是观点词语词典,第二个词典是通过手工搜集得到的对象特征词典,第三个词典是通过手工创建的链接说明词典,其中,链接说明词典主要是句法关系的描述。该方法通过使用观点词语词典和对象特征词典,在情感文本中标注其所含有的观点词语和对象特征,使用链接说明词典,根据每一对观点词语和对象特征的句法关系来判断他们是否是正确的搭配对,从而获取评价信息。该方法存在的问题是,容易遗漏一些类型的句法关系,从而导致召回率低,构建词典需要手工完成,并且词典的可移植性差。
第三种方法是,基于语法路径词典的评价信息抽取方法(参见申请号为200910082342.1、发明名称为“获取评价单元、建立句法路径词典的方法、装置及系统”的中国发明专利申请)。该方法是利用句法路径描述产品特征与观点词之间的关系。它首先需要构建句法路径词典,在识别情感文本语料库所有产品特征词和观点词语,创建所有产品特征与观点词语之间的句法路径,并对这些句法路径泛化,计算泛化后的句法路径的出现频次,达到一定阈值的句法路径作为标准句法路径,插入句法路径词典。在获得句法路径词典后,识别输入情感文本的产品特征和观点词,然后对其进行句法分析,并建立相应的句法树。根据句法路径词典,查询该句法树能够与标准句法路径匹配的路径,那么这条路径所连接的产品特征与观点词语可以作为评价单元或评价信息。该方法存在的问题是,所依赖的词典和句法分析器等资源多,系统复杂度较高,由于所产生的句法路径词典容易遗漏一些句法关系,从而导致召回率低,必然导致扩展性降低。
发明内容
针对以上问题,本发明提供了一种具有低复杂度、低词典依赖性并且高效的评价信息抽取方案。
根据本发明的第一方面,提供了一种评价信息抽取方法,包括步骤:从语料库中获取观点词语集合和对象特征集合;基于观点词语集合与对象特征集合之间的关联性、观点词语集合成员相似性以及对象特征集合成员相似性,优化观点词语集合和对象特征集合;以及根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
根据本发明的第二方面,提供了一种评价信息抽取设备,包括:获取装置,用于从语料库中获取观点词语集合和对象特征集合;优化装置,用于基于观点词语集合与对象特征集合之间的关联性、观点词语集合成员相似性以及对象特征集合成员相似性,优化观点词语集合和对象特征集合;以及抽取装置,用于根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
通过以下对说明本发明原理的优选实施方式的描述,并结合附图,本发明的其他特征以及优点将会是显而易见的。
附图说明
通过以下结合附图的说明,并且随着对本发明的更全面了解,本发明的其他目的和效果将变得更加清楚和易于理解,其中:
图1是按照本发明的一个实施例的评价信息抽取方法的流程图;
图2是按照本发明的另一个实施例的评价信息抽取方法的流程图;
图3是按照本发明的另一个实施例的评价信息抽取方法的流程图;
图4是按照本发明的另一个实施例的评价信息抽取方法的流程图;
图5是按照本发明的一个实施例的评价信息抽取设备的方框图。
在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。
具体实施方式
以下结合附图对本发明进行更详细的解释和说明。应当理解,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
为了清楚起见,首先对本发明中所使用的术语作以解释。
1.语料库
在本发明中,语料库可以包括若干文本文件,根据预先设定的处理粒度,可以对各文本文件进行预处理,从而得到若干文本单元。文本单元是对象特征和观点词语共现的最小语言单位。文本单元可以是自由文本,例如可以是词语、短语、句子、段落、整篇文章等及其任意组合。
2.评价信息
在本发明中,评价信息可以包含对象特征和观点词语。
观点词语,是文本单元中用于表达观点的评价词语或短语,例如,观点词语可以是“好”、“高”、“美丽”、“优雅”、“便宜”等。
对象特征,是文本单元中的被观点词语所修饰的评价对象,包括产品、服务等。例如,对象特征可以是“油耗”、“外观”、“价格”、“安全性”、“操控性”等。
评价信息,是文本单元中所包含的观点词语与相应的对象特征所构成的配对,它具有明确的观点极性(褒义、贬义、中性)。评价信息可以是包含对象特征和观点词语的二元组,即,【对象特征,观点词语】。例如,对于3个文本单元“大排量汽车的油耗很高”、“这款手机的价格高”、“该品牌车的操控性很好”,可以得到评价信息【油耗,高】、【价格,高】、【操控性,好】。
3.观点词语集合和对象特征集合之间的关联性
如果可以从同一个文本单元中找到观点词语和对象特征,则认为该观点词语和对象特征具有关联性。根据从语料库中得到的大量文本单元,可以通过查找观点词语、对象特征以及二者的关联性来得到观点词语的出现频次、对象特征的出现频次以及二者具有关联性的频次。
在本发明中,将观点词语集合中包含的各个观点词语以及对象特征集合中包含的各个对象特征之间的关联性及其频次,称为观点词语集合和对象特征集合之间的关联性。
例如,假设存在4个文本单元“大排量汽车的油耗很高”、“这款手机的价格高”、“该品牌车的操控性很好”、“购买的打印机价格过高”,其中观点词语集合中包含2个观点词语“好”、“高”,其中“好”的出现频次为1,“高”的出现频次为3。对象特征集合中包含3个对象特征“油耗”、“价格”、“操控性”,其中“油耗”的出现频次为1,“价格”出现频次为2,“操控性”的出现频次为1。由于观点词语“好”与对象特征“油耗”没有在同一个文本单元出现(简称“同现”)过,因此二者没有关联性,将二者的关联性的频次记为“0”。相应地可以得到,观点词语“好”与对象特征“价格”以及“操控性”都具有关联性,其对应频次分别可以记为“1”。类似地,对于观点词语“高”,同样可以得到其与对象特征“油耗”、“价格”、“操控性”分别是否具有关联性以及该关联性的频次。以下示例性地示出包含2个观点词语“好”、“高”的观点词语集合(以“O”表示)以及包含3个对象特征“油耗”、“价格”、“操控性”的对象特征集合(以“F”表示)之间的关联性:
表1观点词语集合与对象特征集合之间的关联性
O(“好”) | O(“高”) |
F“油耗” | 0 | 1 |
F“价格” | 0 | 2 |
F“操控性” | 1 | 0 |
在本发明中,关联性可以表示为矩阵形式,以便进行计算。
根据观点词语集合和对象特征集合之间的关联性,可以得到从观点词语集合到对象特征集合的转移关系(记为“TO-F”)。由于观点词语集合中“好”的出现频次为1,“高”的出现频次为3,因此转移关系TO-F可以表示如下:
表2转移关系TO-F
O(“好”) | O(“高”) | |
F“油耗” | 0/1 | 1/3 |
F“价格” | 0/1 | 2/3 |
F“操控性” | 1/1 | 0/3 |
以上“/”表示比例关系。例如,在O(“高”)所在的列中,“1/3”表示观点词语“高”与对象特征“油耗”同现的频次是“高”在所有文本单元出现频次的三分之一;“2/3”表示观点词语“高”与对象特征“价格”同现的频次是“高”在所有文本单元出现频次的三分之二;“0/3”表示虽然观点词语“高”在所有文本单元出现频次为3,但是观点词语“高”与对象特征“操控性”没有同现过。
此外,根据观点词语集合和对象特征集合之间的关联性,可以从对象特征集合到观点词语集合的转移关系(记为TF-O)。由于对象特征集合中“油耗”的出现频次为1,“价格”的出现频次为2,“操控性”的出现频次为1,因此转移关系TF-O可以表示如下:
表3转移关系TF-O
F“油耗” | F“价格” | F“操控性” | |
O(“好”) | 0/1 | 0/2 | 1/1 |
O(“高”) | 1/1 | 2/2 | 0/1 |
以上“/”表示比例关系。例如,在F“价格”所在的列中,“0/2”表示当对象特征“价格”在所有文本单元中出现2次时,对象特征“价格”与观点词语“好”未有同现,也即虽然对象特征“价格”在所有文本单元出现频次为2,但是对象特征“价格”与观点词语“好”没有同现过。“2/2”表示当对象特征“价格”在所有文本单元中出现2次时,对象特征“价格”与观点词语“高”同现频次也为2次。以上反映了在文本单元中出现对象特征“价格”的情况下,观点词语“高”出现的可能性较大,而观点词语“好”出现的可能性较小。
在本发明中,转移关系TO-F和转移关系TF-O都可以表示为矩阵形式,以便进行计算。
4.对象特征集合成员相似性和观点词语集合成员相似性
对象特征集合成员相似性是指对象特征集合所包含的各个对象特征彼此之间的相似度集。例如,假设对象特征集合包括3个对象特征“油耗”、“价格”、“操控性”,并且假设通过相似度计算之后可以得到“油耗”与“价格”的相似度为0.3,“油耗”与“操控性”的相似度为0.2,“价格”与“操控性”的相似度为0.01,则该对象特征集合成员相似性如下:
表4对象特征集合成员相似性
F“油耗” | F“价格” | F“操控性” | |
F“油耗” | 1 | 0.3 | 0.2 |
F“价格” | 0.3 | 1 | 0.01 |
F“操控性” | 0.2 | 0.01 | 1 |
类似地,可以按照以上方式得到观点词语集合成员相似性如下:
表5观点词语集合成员相似性
O(“好”) | O(“高”) | |
O(“好”) | 1 | 0.3 |
O(“高”) | 0.3 | 1 |
在本发明中,以上集合成员相似性都可以表示为矩阵形式,以便进行计算。
集合中的每两个成员之间的相似度可以基于现有的多种方法来计算。例如,可以使用基于语义词典的方法,利用同义词林、HowNet等外部词典,寻找两个词在语义结构树上的路径长度,计算集合中的每两个成员之间的相似度。也可以使用基于机器学习的方法,基于主成分分析、潜在语义分析、上下文向量相似度等算法,计算集合中的每两个成员之间的相似度。
本发明涉及一种评价信息抽取方法。该方法可以包括:从语料库中获取观点词语集合和对象特征集合;基于观点词语集合与对象特征集合之间的关联性、观点词语集合成员相似性以及对象特征集合成员相似性,优化观点词语集合和对象特征集合;根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
本发明基于“同类对象之间的关联性和相似性存在信息传递”的原理,调整对象特征集合和观点词语集合的排列顺序,通过不断迭代逐渐优化对象特征集合和观点词语集合,从最终所得的优化排序结果中抽取排序靠前的对象特征和观点词语,并利用对象特征和观点词语关联性构建包含对象特征与观点词语的评价信息。
与现有的方法相比,本发明提供了一个低成本的无监督的机器学习的方法。本方法不需要像现有技术那样使用多个词典,相反,本发明可以在不使用词典的情况下完成或者本发明可以仅使用一个程度副词词典来实现。此外,本发明能够动态筛选和扩展对象特征集合和观点词语集合,并能够动态构建对象特征和观点词语的修饰关系,从而快速高效地从语料库中抽取评价信息。
图1是按照本发明的一个实施例的评价信息抽取方法的流程图。
在步骤S101,从语料库中获取观点词语集合和对象特征集合。
在此步骤中,首先可以对语料库进行预处理以得到文本单元,然后可以基于得到的文本单元,根据观点词语抽取规则得到观点词语集合并根据对象特征抽取规则得到对象特征集合。
对语料库的预处理例如可以包括对语料库中的文本文件进行分句、分词、词性标注、繁简转化等处理。在一个实施例中,假设句子是文本单元,也即句子是对象特征和观点词语共现的最小语言单位。例如,可以通过对文本语料库中的句号“。”、逗号“,”、分号“;”、叹号“!”、问号“?”和顿号“、”这七种标点用换行进行符替换,从而将文本文件分割为句子。然后,可以按照需要对所得到的句子进行分词、词性标注、繁简转化等处理,以便基于这些经过预处理的句子(也即文本单元),根据观点词语抽取规则得到观点词语集合并根据对象特征抽取规则得到对象特征集合。
观点词语抽取规则例如可以规定:从文本单元中抽取以下中的一项或多项作为观点词语:紧随程度副词之后的序列片段、形容词、内部不含虚词的片段、长度小于等于最大观点词语长度的片段、频率大于最小观点词语发生频率的片段。
在一个实施例中,可以遍历从语料库得到的每一个文本单元,根据观点词语抽取规则搜索所有可能的观点词语。例如,假设存在一个文本单元为“大排量汽车的油耗很高”,如果观点词语抽取规则为:从文本单元中抽取紧随程度副词之后的序列片段作为观点词语,则由于该文本单元仅存在一个程度副词“很”,因此可以抽取紧随程度副词“很”之后的“高”作为观点词语。如此类推,对于从语料库得到的每一个文本单元进行上述处理之后,可以得到一个观点词语候选集合。
对象特征抽取规则例如可以规定:从文本单元中抽取以下中的一项或多项作为对象特征:基本名词短语、基本名词短语的组合、基本名词短语与名词/动名词的组合、基本名词短语与限定性定语、限定性定语与名词/动名词的组合、内部不含虚词的片段、长度小于等于最大对象特征长度的片段、频率大于最小对象特征发生频率的片段。
在一个实施例中,可以遍历从语料库得到的每一个文本单元,根据观点词语抽取规则搜索所有可能的观点词语,然后在搜索到的观点词语所在的文本单元中根据对象特征抽取规则从上下文找出对象特征。如果找到的是新的对象特征,则加入对象特征集合。在这一过程中,可以对对象特征和观点词语成对出现的频次进行统计,得到观点词语集合中的哪一/哪些观点词语与对象特征集合中的哪一/哪些观点词语曾经在同一文本单元中出现以及出现的频次,从而可以得到观点词语集合与对象特征集合之间的关联性。
应该注意的是,本领域的技术人员可以根据现有技术中的任何适当的方法来设置观点词语抽取规则和对象特征抽取规则,而不仅仅限于此处公开的方式。
在步骤S102,基于观点词语集合与对象特征集合之间的关联性、观点词语集合成员相似性以及对象特征集合成员相似性,优化观点词语集合和对象特征集合。
在一个实施例中,可以通过以下方式实现步骤S102。首先,可以基于关联性,根据观点词语集合和对象特征集合中的第一集合的分数计算观点词语集合和对象特征集合中的第二集合的分数;利用第二集合成员相似性调整第二集合的分数;然后,基于关联性,根据调整后的第二集合的分数计算第一集合的分数;利用第一集合成员相似性调整第一集合的分数,以便基于关联性根据调整后的第一集合的分数计算第二集合的分数;并且,当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时,按照调整后的第一集合的分数对第一集合中的成员进行排序、并且按照调整后的第二集合的分数对第二集合中的成员进行排序。以下将结合图2对该实施例进行详细描述。
在另一个实施例中,可以通过以下方式实现步骤S102。首先,可以利用观点词语集合和对象特征集合中的第一集合成员相似性调整第一集合的分数;然后,基于关联性,根据调整后的第一集合的分数计算观点词语集合和对象特征集合中的第二集合的分数;利用第二集合成员相似性调整第二集合的分数,以便基于关联性根据调整后的第二集合的分数计算第一集合的分数;并且,当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时,按照调整后的第一集合的分数对第一集合中的成员进行排序、并且按照调整后的第二集合的分数对第二集合中的成员进行排序。以下将结合图3对该实施例进行详细描述。
应该注意的是,在本发明中,为了描述方便,将观点词语集合和对象特征集合之一称为第一集合,将不同于该集合的另一个集合称为第二集合。第一集合既可以是观点词语集合也可以是对象特征集合,第二集合既可以是观点词语集合也可以是对象特征集合,但是第一集合与第二集合不能相同。也即,当第一集合是观点词语集合时,第二集合是对象特征集合;当第一集合是对象特征集合时,第二集合是观点词语集合。
在步骤S103,根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
在一个实施例中,可以通过以下方式完成步骤S103。
首先,根据预定观点词语阈值从优化的观点词语集合中抽取排序在先的观点词语,并根据预定对象特征阈值从优化的对象特征集合中抽取排序在先的对象特征。然后,基于观点词语集合与对象特征集合之间的关联性,从排序在先的观点词语和排序在先的对象特征得到评价信息。
可以通过多种方式得到预定观点词语阈值和/或预定对象特征阈值。例如,观点词语阈值和/或预定对象特征阈值可以根据经验值预先指定、根据目前技术得到、根据数学模型计算、或者是本领域的技术人员可以实现的适当预先设定值。
在该实施例中,可以通过将观点词语集合中排序在某个预设的序列阈值之前的观点词语作为排序在先的观点词语进行抽取。例如,当观点词语集合中包含10000个观点词语时,设定5000为序列阈值,则将排序在前5000位的观点词语进行抽取。类似地,可以通过上述方式抽取对象特征集合中排序在某个预设的序列阈值(例如4000)之前的对象特征。
由于可以根据语料库中的文本单元得到观点词语集合与对象特征集合之间的关联性,因此可以根据这种关联性将排序在前5000位的观点词语和排序在前4000位的对象特征进行配对,从而将在同一文本单元中相关联的观点词语和对象特征配对成一个二元组,由此得到评价信息。
应该注意的是,本领域的技术人员可以根据现有技术中的任何适当的方法来根据优化的观点词语集合和优化的对象特征集合抽取评价信息,而不仅仅限于此处公开的方式。
然后,图1的流程结束。
图2是按照本发明的另一个实施例的评价信息抽取方法的流程图。
在步骤S201,从语料库中获取观点词语集合和对象特征集合。
该步骤与步骤S101类似,在此不再赘述。
在步骤S202,基于观点词语集合和对象特征集合之间的关联性,根据观点词语集合和对象特征集合中的第一集合的分数计算观点词语集合和对象特征集合中的第二集合的分数。
第一集合的分数的初始化值可以根据多种方式得到。在一个实施例中,可以首先统计第一集合内的每个成员在语料库中的频次信息,然后基于预定义策略得到第一集合的分数。例如,可以直接将第一集合内的每个成员在语料库中的频次信息作为第一集合的分数;可以利用预先设定的加权系数对该频次信息加权来作为第一集合的分数。特别是,当第一集合是观点词语集合时,可以通过判断观点词语是否与程度副词词典中的程度副词连用以及连用的频次,来修订第一集合内的每个成员在语料库中的频次信息,从而得到第一集合的分数。
如上,根据观点词语集合和对象特征集合之间的关联性,可以得到从观点词语集合到对象特征集合的转移关系TO-F和从对象特征集合到观点词语集合的转移关系TF-O。
当第一集合是观点词语集合时,则利用转移关系TO-F,可以根据观点词语集合的分数计算对象特征集合的分数。当第一集合是对象特征集合时,则利用转移关系TF-O,可以根据对象特征集合的分数计算观点词语集合的分数。这两个计算过程是对称的,都可以通过直接进行向量矩阵相乘、利用加权因子完成加权后进行向量矩阵相乘、或者本领域技术人员可以实现的任何其他适当方法来完成。
在步骤S203,利用第二集合成员相似性调整第二集合的分数。
在一个实施例中,可以通过以下方式利用第二集合成员相似性调整第二集合的分数:基于第二集合成员相似性和先验可信度,对第二集合的分数进行调整,得到调整分数;当调整分数与第二集合的分数之间的差异达到预定要求时,将调整分数作为调整后的第二集合的分数并且停止调整第二集合的分数;以及当调整分数与第二集合的分数之间的差异未达到预定要求时,利用调整分数更新第二集合的分数。
在步骤S204,基于观点词语集合和对象特征集合之间的关联性,根据调整后的第二集合的分数计算第一集合的分数。
如上,根据观点词语集合和对象特征集合之间的关联性,可以得到从观点词语集合到对象特征集合的转移关系TO-F和从对象特征集合到观点词语集合的转移关系TF-O。
当第二集合是观点词语集合时,则利用转移关系TO-F,可以根据观点词语集合的分数计算对象特征集合的分数。当第二集合是对象特征集合时,则利用转移关系TF-O,可以根据对象特征集合的分数计算观点词语集合的分数。这两个计算过程是对称的,都可以通过直接进行向量矩阵相乘、利用加权因子完成加权后进行向量矩阵相乘、或者本领域技术人员可以实现的任何其他适当方法来完成。
在步骤S205,利用第一集合成员相似性调整第一集合的分数。
在一个实施例中,可以通过以下方式利用第一集合成员相似性调整第一集合的分数:基于第一集合成员相似性和先验可信度,对第一集合的分数进行调整,得到调整分数;当调整分数与第一集合的分数之间的差异达到预定要求时,将调整分数作为调整后的第一集合的分数并且停止调整第一集合的分数;并且当调整分数与第一集合的分数之间的差异未达到预定要求时,利用调整分数更新第一集合的分数。
该实施例中的对于调整分数与第一集合的分数之间的差异是否达到预定要求的判断可以通过多种方式完成。例如,可以对进行的调整次数进行计数,当计数结果超过预先设定的迭代次数时,认为调整分数与第一集合的分数之间的差异达到预定要求。又例如,可以对调整分数与第一集合的分数求差,当该差值比预定阈值小时,认为二者之间的差异达到预定要求。再例如,可以计算调整分数与第一集合的夹角余弦值,当该夹角余弦值比预定阈值小时,认为二者之间的差异达到预定要求。此外,本领域的技术人员可以根据现有技术中的任何适当的方法来完成这一判断,而不仅仅限于此处公开的方式。
在步骤S206,判断调整后的第一集合的分数与调整前的第一集合的分数之间的差异是否达到预定要求。
步骤S206可以通过多种方式完成。例如,可以对第一集合的分数被调整的次数进行计数,当计数结果超过预先设定的迭代次数时,认为调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求。又例如,可以对调整后的第一集合的分数与调整前的第一集合的分数求差,当该差值比预定阈值小时,认为二者之间的差异达到预定要求。再例如,可以计算调整后的第一集合的分数与调整前的第一集合的分数之间的夹角余弦值,当该夹角余弦值比预定阈值小时,认为二者的差异达到预定要求。此外,本领域的技术人员可以根据现有技术中的任何适当的方法来完成这一判断,而不仅仅限于此处公开的方式。
在本发明的一个备选实施例中,可以将步骤S206的步骤替换为判断调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求。
如果在步骤S206判断调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求,则继续进行到步骤S207;如果判断该差异没有达到预定要求,则返回步骤S202。
在步骤S207,按照调整后的第一集合的分数对第一集合中的成员进行排序,并按照调整后的第二集合的分数对第二集合中的成员进行排序。
调整后的第一集合的分数以及调整后的第二集合的分数都是从步骤S202-S206的多次迭代过程中得到的。
调整后的第一集合的分数是一个向量,该向量中的每个分数值与第一集合中的每个成员一一对应。因此,根据调整后的第一集合的分数,可以对第一集合中的成员的顺序进行重排,从而使第一集合中的各个成员按照各自对应分数值的大小顺序排列。这样得到的第一集合就是优化的第一集合。
类似地,调整后的第二集合的分数是一个向量,该向量中的每个分数值与第二集合中的每个成员一一对应。因此,根据调整后的第二集合的分数,可以对第二集合中的成员的顺序进行重排,从而使第二集合中的各个成员按照各自对应分数值的大小顺序排列。这样得到的第二集合就是优化的第二集合。
在步骤S208,根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
该步骤与步骤S103类似,在此不再赘述。
然后,图2的流程结束。
应该注意的是,在本发明的一个实施例中,图2的实施例还可以包括以下步骤:基于第一集合内的每个成员在语料库中的频次信息,根据预定义策略对第一集合的分数进行初始化。可以通过以下多种方式实现根据预定义策略的初始化:可以直接用第一集合内的每个成员在语料库中的频次信息来初始化第一集合的分数;可以利用预先设定的加权系数对该频次信息加权来初始化第一集合的分数。特别是,当第一集合是观点词语集合时,可以通过判断观点词语是否与程度副词词典中的程度副词连用以及连用的频次,来修订第一集合内的每个成员在语料库中的频次信息,从而用修订后的频次信息来初始化第一集合的分数。
在本发明中,如上,第一集合既可以是观点词语集合也可以是对象特征集合,第二集合既可以是观点词语集合也可以是对象特征集合,但是第一集合与第二集合不能相同。
在本发明的一个实现步骤S201-S208的实施例中,第一集合是对象特征集合,第二集合是观点词语集合。在步骤S201从语料库中获取观点词语集合和对象特征集合之后,可以在步骤S202基于观点词语集合和对象特征集合之间的关联性,根据对象特征集合的分数计算观点词语集合的分数。然后,可以在步骤S203利用观点词语集合成员相似性调整从步骤S202得到的观点词语集合的分数。之后,可以在步骤S204基于观点词语集合和对象特征集合之间的关联性,根据在步骤S203调整后的观点词语集合的分数来计算对象特征集合的分数。接着,可以在步骤S205利用对象特征集合成员相似性调整对象特征集合的分数。随后,可以在步骤S206判断经步骤S205调整后的对象特征集合的分数与调整前的分数之间的差异是否达到预定要求:如果未达到预定要求则返回步骤S202;如果达到预定要求则继续进行步骤S207,按照经步骤S205调整后的对象特征集合的分数对对象特征集合中的成员进行排序,从而得到优化的对象特征集合,并按照经步骤S203调整后的观点词语集合的分数对观点词语集合中的成员进行排序,从而得到优化的观点词语集合。最后,可以在步骤S208根据优化的观点词语集合和优化的对象特征集合来抽取评价信息。
在本发明的另一个实现步骤S201-S208的实施例中,第一集合是观点词语集合,第二集合是对象特征集合。在步骤S201从语料库中获取观点词语集合和对象特征集合之后,可以在步骤S202基于观点词语集合和对象特征集合之间的关联性,根据观点词语集合的分数计算对象特征集合的分数。然后,可以在步骤S203利用对象特征集合成员相似性调整从步骤S202得到的对象特征集合的分数。之后,可以在步骤S204基于观点词语集合和对象特征集合之间的关联性,根据在步骤S203调整后的对象特征集合的分数来计算观点词语集合的分数。接着,可以在步骤S205利用观点词语集合成员相似性调整观点词语集合的分数。随后,可以在步骤S206判断经步骤S205调整后的观点词语集合的分数与调整前的分数之间的差异是否达到预定要求:如果未达到预定要求则返回步骤S202;如果达到预定要求则继续进行步骤S207,按照经步骤S205调整后的观点词语集合的分数对观点词语集合中的成员进行排序,从而得到优化的观点词语集合,并按照经步骤S203调整后的对象特征集合的分数对对象特征集合中的成员进行排序,从而得到优化的对象特征集合。最后,可以在步骤S208根据优化的观点词语集合和优化的对象特征集合来抽取评价信息。以下将结合图4进一步介绍本实施例。
图3是按照本发明的另一个实施例的评价信息抽取方法的流程图。
在步骤S301,从语料库中获取观点词语集合和对象特征集合。
该步骤与步骤S101类似,在此不再赘述。
在步骤S302,利用观点词语集合和对象特征集合中的第一集合成员相似性调整第一集合的分数。
第一集合的分数的初始化值可以根据多种方式得到。在一个实施例中,可以首先统计第一集合内的每个成员在语料库中的频次信息,然后基于预定义策略得到第一集合的分数。例如,可以直接将第一集合内的每个成员在语料库中的频次信息作为第一集合的分数;可以利用预先设定的加权系数对该频次信息加权来作为第一集合的分数。特别是,当第一集合是观点词语集合时,可以通过判断观点词语是否与程度副词词典中的程度副词连用以及连用的频次,来修订第一集合内的每个成员在语料库中的频次信息,从而得到第一集合的分数。
该步骤其他方面与步骤S205类似,在此不再赘述。
在步骤S303,基于观点词语集合和对象特征集合之间的关联性,根据调整后的第一集合的分数计算观点词语集合和对象特征集合中的第二集合的分数。该步骤与步骤S202类似。
在步骤S304,利用第二集合成员相似性调整第二集合的分数。该步骤与步骤S203类似。
在步骤S305,判断调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求。该步骤与步骤S206类似。
在本发明的一个备选实施例中,可以将步骤S305的步骤替换为判断调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求。
如果在步骤S305判断结果为“是”,则继续进行到步骤S306;如果判断结果为“否”,则返回步骤S302。
在步骤S306,按照调整后的第一集合的分数对第一集合中的成员进行排序,并按照调整后的第二集合的分数对第二集合中的成员进行排序。该步骤与步骤S207类似。
在步骤S307,根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
该步骤与步骤S103类似,在此不再赘述。
然后,图3的流程结束。
应该注意的是,在本发明的一个实施例中,图3的实施例还可以包括以下步骤:基于第一集合内的每个成员在语料库中的频次信息,根据预定义策略对第一集合的分数进行初始化。可以通过以下多种方式实现根据预定义策略的初始化:可以直接用第一集合内的每个成员在语料库中的频次信息来初始化第一集合的分数;可以利用预先设定的加权系数对该频次信息加权来初始化第一集合的分数。特别是,当第一集合是观点词语集合时,可以通过判断观点词语是否与程度副词词典中的程度副词连用以及连用的频次,来修订第一集合内的每个成员在语料库中的频次信息,从而用修订后的频次信息来初始化第一集合的分数。
在本发明中,如上,第一集合既可以是观点词语集合也可以是对象特征集合,第二集合既可以是观点词语集合也可以是对象特征集合,但是第一集合与第二集合不能相同。
在本发明的一个实现步骤S301-S307的实施例中,第一集合是对象特征集合,第二集合是观点词语集合。在本发明的另一个实现步骤S301-S307的实施例中,第一集合是观点词语集合,第二集合是对象特征集合。
图4是按照本发明的另一个实施例的评价信息抽取方法的流程图。图4所示的实施例针对是图2所示实施例中第一集合是观点词语集合而第二集合是对象特征集合的情况。
在步骤S401,从语料库中获取观点词语集合和对象特征集合。
在本实施例中,假设对语料库进行预处理后得到4个文本单元“大排量汽车的油耗很高”、“这款手机的价格高”、“该品牌车的操控性很好”、“购买的打印机价格过高”。
根据观点词语抽取规则得到观点词语集合并根据对象特征抽取规则得到对象特征集合
基于语料库中的上述4个文本单元,可以根据观点词语抽取规则得到包含2个观点词语“好”、“高”的观点词语集合,并可确定“好”的出现频次为1,“高”的出现频次为3。
基于语料库中的上述4个文本单元,可以根据对象特征抽取规则确定对象特征集合中包含3个对象特征“油耗”、“价格”、“操控性”,并可确定“油耗”的出现频次为1,“价格”出现频次为2,“操控性”的出现频次为1。
在步骤S402,基于观点词语集合和对象特征集合之间的关联性,根据观点词语集合的分数计算对象特征集合的分数。
根据步骤S401得到的观点词语集合和对象特征集合,可得到此二集合之间的关联性,如表1所示。可以将该关联性(记为“C”)表示为以下矩阵形式:
如步骤S202,观点词语的分数的初始化值可以根据多种方式得到。例如在本步骤S402的一个实施例中,可以使用一个预定义的程度副词词典,当一个观点词语与程度副词词典中的程度副词连用一次时,将该观点词语的分数加1(可以将观点词语的分数起始值设为0)。这样,通过统计一个观点词语与程度副词的连用频次,即可得到该观点词语的分数。针对观点词语集合中的每一个观点词语都如此执行,则可以得到各个观点词语的分数,本发明中将观点词语集合中包含的各个观点词语的分数总称为观点词语集合的分数。
程度副词词典可以包括一个或多个程度副词,例如“很(very)、最(most)、极(extremely)、太(too)、非常(highly)、十分(quite)、更(much)、更加(much more)、越、过、越发、极其、格外、分外、有点儿、偏、稍、稍微、几乎、略微、过于、尤其”等描述程度的副词。
在从语料库得到的文本单元中,观点词语“好”的出现频次为1,“高”的出现频次为3。由于“很”和“过”都是程度副词词典所规定的程度副词,所以可以得到观点词语“好”在程度副词之后的出现频次为1,观点词语“高”在程度副词之后的出现频次为2。这样,观点词语集合的分数(记为“Oscore”)为:
Oscore=(1 2) (2)
在本发明中,观点词语集合中哪个观点词语的分数越大,表明该观点词语在语料中使用频次越高,该观点词语对于抽取评价信息而言的可用性就越高。同样,对象特征集合中哪个对象特征的分数越大,表明该对象特征在语料中使用频次越高,该对象特征对于抽取评价信息而言的可用性就越高。
在后续步骤S412中,如果满足一定条件则进入步骤S413,从而利用调整后的观点词语集合的分数更新观点词语集合的分数。此后,流程从步骤S413回到步骤S402,此时步骤S402可以使用步骤S411得到的调整后的观点词语集合的分数,而不是使用通过在语料库中统计观点词语的频次信息所得到的观点词语集合的分数。
基于观点词语集合和对象特征集合之间的关联性C,可以通过多种方法根据观点词语集合的分数Oscore计算对象特征集合的分数(记为“Fscore”)。
例如,从观点词语集合和对象特征集合之间的关联性C可以得到观点词语集合到对象特征集合的转移关系TO-F,如表2所示。可以将该转移关系TO-F表示为以下矩阵形式:
在一个例子中,可以将该转移关系TO-F与观点词语集合的分数Oscore的乘积作为对象特征集合的分数Fscore:
在另一个例子中,也可利用加权因子(可以是数值、向量或矩阵)对式(4)的结果进行加权,并将加权结果作为对象特征集合的分数Fscore。
在步骤S403,基于对象特征集合成员相似性和先验可信度,对对象特征集合的分数进行调整,得到调整分数。
对象特征集合成员相似性如表4所示,可以将其表示为以下形式,记为SF:
可以根据步骤203中的多种方法实现步骤S403。例如,可以基于对象特征集合成员相似性SF和先验可信度(记为α),对对象特征集合的分数进行调整,得到调整分数X:
在式(6)中,表示对象特征集合的分数的初始值,例如首次在步骤S402中根据观点词语集合的分数得到的对象特征集合的分数。先验可信度α可以根据经验值预先指定、根据目前技术得到、根据数学模型计算、或者是本领域的技术人员可以实现的适当预先设定值。
在步骤S404,判断调整分数与对象特征集合的分数的差异达到预定要求。
如步骤203,对于调整分数与对象特征集合的分数之间的差异是否达到预定要求的判断可以通过多种方式完成。例如,可以通过对迭代次数计数、对调整分数与对象特征集合的分数之差进行阈值比较、对调整分数与对象特征集合的分数的角余弦值进行判断等判断调整分数与对象特征集合的分数的差异达到预定要求。另外,本领域的技术人员可以根据现有技术中的任何适当的方法来完成这一判断,而不仅仅限于此处公开的方式。
如果在步骤S404确定调整分数与对象特征集合的分数的差异达到预定要求,则继续进行到步骤S406;如果判断该差异没有达到预定要求,则进行到步骤S405。
在步骤S405,利用调整分数更新对象特征集合的分数。
通过将调整分数替换为对象特征集合的分数,可以使得步骤S403中调整的对象特征集合的分数是该调整分数而不是原来的对象特征集合的分数,从而便于对迭代过程进行修正。
在步骤S406,将调整分数作为调整后的对象特征集合的分数。
在本实施例中,假设调整后的对象特征集合的分数为
在步骤S407,基于观点词语集合和对象特征集合之间的关联性,根据调整后的对象特征集合的分数计算观点词语集合的分数。
基于观点词语集合和对象特征集合之间的关联性C,可以通过多种方法根据对象特征集合的分数Fscore计算对象特征集合的分数Oscore。
例如,从关联性C可以得到对象特征集合到观点词语集合的转移关系TF-O,如表3所示。可以将该转移关系TF-O表示为以下矩阵形式
在一个例子中,可以将该转移关系TO-F与从步骤S406得到的对象特征集合的分数Fscore的乘积作为观点词语集合的分数Oscore:
在另一个例子中,也可利用加权因子(可以是数值、向量或矩阵)对式(8)的结果进行加权,并将加权结果作为观点词语集合的分数。
在步骤S408,基于观点词语集合成员相似性和先验可信度,对观点词语集合的分数进行调整,得到调整分数。
观点词语集合成员相似性如表5所示,可以将其表示为以下形式,记为SO:
可以根据步骤205中的多种方法实现步骤S408。例如,可以基于观点词语集合成员相似性SO和先验可信度(记为β),对观点词语的分数进行调整,得到调整分数Y:
在式(11)中,表示观点词语集合的分数的初始值;先验可信度α可以根据经验值预先指定、根据目前技术得到、根据数学模型计算、或者是本领域的技术人员可以实现的适当预先设定值。
在步骤S409,判断调整分数与观点词语集合的分数的差异达到预定要求。
如步骤205,对于调整分数与观点词语集合的分数之间的差异是否达到预定要求的判断可以通过多种方式完成。例如,可以对进行的调整次数进行计数,当计数结果超过预先设定的迭代次数时,认为调整分数与观点词语集合的分数之间的差异达到预定要求。又例如,可以对调整分数与观点词语集合的分数求差,当该差值比预定阈值小时,认为二者之间的差异达到预定要求。再例如,可以计算调整分数与观点词语集合的夹角余弦值,当该夹角余弦值比预定阈值小时,认为二者之间的差异达到预定要求。此外,本领域的技术人员可以根据现有技术中的任何适当的方法来完成这一判断,而不仅仅限于此处公开的方式。
如果在步骤S409确定调整分数与对象特征集合的分数的差异达到预定要求,则继续进行到步骤S411;如果判断该差异没有达到预定要求,则进行到步骤S410。
在步骤S410,利用调整分数更新观点词语集合的分数。
在步骤S411,将调整分数作为调整后的观点词语集合的分数。
在步骤S412,判断调整后的观点词语集合的分数与调整前的观点词语集合的分数之间的差异达到预定要求。
例如,可以对观点词语集合的分数被调整的次数进行计数,当计数结果超过预先设定的迭代次数时,认为调整后的观点词语集合的分数与调整前的观点词语集合的分数之间的差异达到预定要求。又例如,可以对调整后的观点词语集合的分数与调整前的观点词语集合的分数求差,当该差值比预定阈值小时,认为二者之间的差异达到预定要求。再例如,可以计算调整后的观点词语集合的分数与调整前的观点词语集合的分数之间的夹角余弦值,当该夹角余弦值比预定阈值小时,认为二者的差异达到预定要求。此外,本领域的技术人员可以根据现有技术中的任何适当的方法来完成这一判断,而不仅仅限于此处公开的方式。
在本发明的一个备选实施例中,可以将步骤S412的步骤替换为判断调整后的对象特征集合的分数与调整前的对象特征集合的分数之间的差异达到预定要求。此时,同样能够实现本发明,达到本发明的效果。
如果在步骤S412判断调整后的观点词语集合的分数与调整前的观点词语集合的分数之间的差异达到预定要求,则继续进行到步骤S414;如果判断该差异没有达到预定要求,则进行到步骤S413。
在步骤S413,利用调整后的观点词语集合的分数更新观点词语集合的分数。
在步骤S414,按照调整后的观点词语集合的分数对观点词语集合中的成员进行排序,并按照调整后的对象特征集合的分数对对象特征集合中的成员进行排序。
假设在本实施例中,从步骤S412得到的最新的观点词语集合的分数是
Oscore=(2 4),
则可以在包含观点词语“好”、“高”的观点词语集合中,将“高”排序在“好”之前,也即按照从“高”到“好”的先后顺序排序。此时,得到的排序后的观点词语集合可以称为优化的观点词语集合。
假设调整后的对象特征集合的分数为
则可以在包含3个对象特征“油耗”、“价格”、“操控性”的对象特征集合中,按照从“价格”到“油耗”再到“操控性”的先后顺序排序。此时,得到的排序后的对象特征集合可以称为优化的对象特征集合。
在步骤S415,根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
该步骤类似于步骤103。
在本实施例中,假设预定观点词语阈值为2,则抽取观点词语集合中排序在第2位之前的观点词语,即“高”。
假设预定对象特征阈值为3,则抽取对象特征集合中排序在第3位之前的对象特征,即“价格”和“油耗”。
此后,根据观点词语集合与对象特征集合之间的关联性,可以得到所抽取的观点词语“高”与所抽取的对象特征“价格”、“油耗”之间是否相关,例如是否曾经在同一文本单元中共现过。在本实施例中,可以将曾经在同一文本单元中共现过的所抽取的观点词语与所抽取的对象特征构成一个评价信息。由于在本实施例中的4个文本单元中出现过“…价格…高”和“…油耗…高”,因此可以得到的评价信息为【油耗,高】和【价格,高】。
然后,图4的流程结束。
图5是按照本发明的一个实施例的评价信息抽取设备500的方框图。该评价信息抽取设备500可以包括获取装置501、优化装置502和抽取装置503。
获取装置501可以从语料库中获取观点词语集合和对象特征集合。优化装置502可以基于观点词语集合与对象特征集合之间的关联性、观点词语集合成员相似性以及对象特征集合成员相似性,优化观点词语集合和对象特征集合。抽取装置503可以根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
在一个实施例中,获取装置501可以包括:用于对语料库进行预处理以得到文本单元的装置;用于基于得到的文本单元,根据观点词语抽取规则得到观点词语集合的装置;以及用于基于得到的文本单元,根据对象特征抽取规则得到对象特征集合的装置。
在一个实施例中,观点词语抽取规则可以包括:从文本单元中抽取以下中的一项或多项作为观点词语:紧随程度副词之后的序列片段、形容词、内部不含虚词的片段、长度小于等于最大观点词语长度的片段、大于最小观点词语发生频率的片段。
在一个实施例中,对象特征抽取规则可以包括:从文本单元中抽取以下中的一项或多项作为对象特征:基本名词短语、基本名词短语的组合、基本名词短语与名词/动名词的组合、基本名词短语与限定性定语、限定性定语与名词/动名词的组合、内部不含虚词的片段、长度小于等于最大对象特征长度的片段、频率大于最小对象特征发生频率的片段。
在一个实施例中,优化装置502可以包括:第一转移计算装置,用于基于关联性,根据观点词语集合和对象特征集合中的第一集合的分数计算观点词语集合和对象特征集合中的第二集合的分数;第二调整装置,用于利用第二集合成员相似性调整第二集合的分数;第二转移计算装置,用于基于关联性,根据调整后的第二集合的分数计算第一集合的分数;第一调整装置,用于利用第一集合成员相似性调整第一集合的分数,以便基于关联性根据调整后的第一集合的分数计算第二集合的分数;以及排序装置,用于当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时,按照调整后的第一集合的分数对第一集合中的成员进行排序、并且按照调整后的第二集合的分数对第二集合中的成员进行排序。在一个例子中,优化装置502还可以包括:用于基于第一集合内的每个成员在语料库中的频次信息,根据预定义策略对第一集合的分数进行初始化的装置。在另一个例子中,优化装置502中的第一调整装置可以包括:用于基于第一集合成员相似性和先验可信度,对第一集合的分数进行调整,得到调整分数的装置;用于当调整分数与第一集合的分数之间的差异达到预定要求时,将调整分数作为调整后的第一集合的分数并且停止调整第一集合的分数的装置;用于当调整分数与第一集合的分数之间的差异未达到预定要求时,利用调整分数更新第一集合的分数的装置。在另一个例子中,优化装置502中的第二调整装置可以包括:用于基于第二集合成员相似性和先验可信度,对第二集合的分数进行调整,得到调整分数的装置;用于当调整分数与第二集合的分数之间的差异达到预定要求时,将调整分数作为调整后的第二集合的分数并且停止调整第二集合的分数的装置;用于当调整分数与第二集合的分数之间的差异未达到预定要求时,利用调整分数更新第二集合的分数的装置。
在一个实施例中,优化装置502可以包括:第一调整装置,用于利用观点词语集合和对象特征集合中的第一集合成员相似性调整第一集合的分数;转移计算装置,用于基于关联性,根据调整后的第一集合的分数计算观点词语集合和对象特征集合中的第二集合的分数;第二调整装置,用于利用第二集合成员相似性调整第二集合的分数,以便基于关联性根据调整后的第二集合的分数计算第一集合的分数;以及排序装置,用于当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时,按照调整后的第一集合的分数对第一集合中的成员进行排序、并且按照调整后的第二集合的分数对第二集合中的成员进行排序。在一个例子中,优化装置502还可以包括:用于基于第一集合内的每个成员在语料库中的频次信息,根据预定义策略对第一集合的分数进行初始化的装置。在另一个例子中,优化装置502中的第一调整装置可以包括:用于基于第一集合成员相似性和先验可信度,对第一集合的分数进行调整,得到调整分数的装置;用于当调整分数与第一集合的分数之间的差异达到预定要求时,将调整分数作为调整后的第一集合的分数并且停止调整第一集合的分数的装置;用于当调整分数与第一集合的分数之间的差异未达到预定要求时,利用调整分数更新第一集合的分数的装置。在另一个例子中,优化装置502中的第二调整装置可以包括:用于基于第二集合成员相似性和先验可信度,对第二集合的分数进行调整,得到调整分数的装置;用于当调整分数与第二集合的分数之间的差异达到预定要求时,将调整分数作为调整后的第二集合的分数并且停止调整第二集合的分数的装置;用于当调整分数与第二集合的分数之间的差异未达到预定要求时,利用调整分数更新第二集合的分数的装置。
在一个实施例中,抽取装置503可以包括:用于根据预定观点词语阈值从优化的观点词语集合中抽取排序在先的观点词语的装置;用于根据预定对象特征阈值从优化的对象特征集合中抽取排序在先的对象特征的装置;以及用于基于观点词语集合与对象特征集合之间的关联性,从排序在先的观点词语和排序在先的对象特征得到评价信息的装置。
应该注意的是,本发明不限于仅处理中文,而是可以针对英文、法文、德文等多种语言文字进行处理。
本发明所公开的方法可以在软件、硬件、或软件和硬件的结合中实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器、个人计算机(PC)或大型机来执行。
应当注意,为了使本发明更容易理解,上面的描述省略了对于本领域的技术人员来说是公知的、并且对于本发明的实现可能是必需的更具体的一些技术细节。
提供本发明的说明书的目的是为了说明和描述,而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言,许多修改和变更都是显而易见的。
因此,选择并描述实施方式是为了更好地解释本发明的原理及其实际应用,并使本领域普通技术人员明白,在不脱离本发明实质的前提下,所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。
Claims (18)
1.一种评价信息抽取方法,包括:
从语料库中获取观点词语集合和对象特征集合;
基于所述观点词语集合与所述对象特征集合之间的关联性、所述观点词语集合成员相似性以及所述对象特征集合成员相似性,优化所述观点词语集合和所述对象特征集合;以及
根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
2.根据权利要求1的方法,其中从语料库中获取观点词语集合和对象特征集合包括:
对语料库进行预处理以得到文本单元;
基于得到的文本单元,根据观点词语抽取规则得到观点词语集合;以及
基于得到的文本单元,根据对象特征抽取规则得到对象特征集合。
3.根据权利要求2的方法,其中所述观点词语抽取规则包括:从文本单元中抽取以下中的一项或多项作为观点词语:
紧随程度副词之后的序列片段、形容词、内部不含虚词的片段、长度小于等于最大观点词语长度的片段、频率大于最小观点词语发生频率的片段。
4.根据权利要求2的方法,其中所述对象特征抽取规则包括:从文本单元中抽取以下中的一项或多项作为对象特征:
基本名词短语、基本名词短语的组合、基本名词短语与名词/动名词的组合、基本名词短语与限定性定语、限定性定语与名词/动名词的组合、内部不含虚词的片段、长度小于等于最大对象特征长度的片段、频率大于最小对象特征发生频率的片段。
5.根据权利要求1的方法,其中基于所述观点词语集合与所述对象特征集合之间的关联性、所述观点词语集合成员相似性以及所述对象特征集合成员相似性,优化所述观点词语集合和所述对象特征集合包括:
基于所述关联性,根据所述观点词语集合和所述对象特征集合中的第一集合的分数计算所述观点词语集合和所述对象特征集合中的第二集合的分数;
利用第二集合成员相似性调整第二集合的分数;
基于所述关联性,根据调整后的第二集合的分数计算第一集合的分数;
利用第一集合成员相似性调整第一集合的分数,以便基于所述关联性根据调整后的第一集合的分数计算第二集合的分数;以及
当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时,按照调整后的第一集合的分数对所述第一集合中的成员进行排序、并且按照调整后的第二集合的分数对所述第二集合中的成员进行排序。
6.根据权利要求1的方法,其中基于所述观点词语集合与所述对象特征集合之间的关联性、所述观点词语集合成员相似性以及所述对象特征集合成员相似性,优化所述观点词语集合和所述对象特征集合包括:
利用所述观点词语集合和所述对象特征集合中的第一集合成员相似性调整第一集合的分数;
基于所述关联性,根据调整后的第一集合的分数计算所述观点词语集合和所述对象特征集合中的第二集合的分数;
利用第二集合成员相似性调整第二集合的分数,以便基于所述关联性根据调整后的第二集合的分数计算第一集合的分数;以及
当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时,按照调整后的第一集合的分数对所述第一集合中的成员进行排序、并且按照调整后的第二集合的分数对所述第二集合中的成员进行排序。
7.根据权利要求5或6的方法,还包括:
基于第一集合内的每个成员在所述语料库中的频次信息,根据预定义策略对所述第一集合的分数进行初始化。
8.根据权利要求5或6的方法,其中利用第一集合成员相似性调整第一集合的分数包括:
基于所述第一集合成员相似性和先验可信度,对所述第一集合的分数进行调整,得到调整分数,
当调整分数与所述第一集合的分数之间的差异达到预定要求时,将所述调整分数作为调整后的第一集合的分数并且停止调整所述第一集合的分数,以及
当调整分数与所述第一集合的分数之间的差异未达到预定要求时,利用所述调整分数更新所述第一集合的分数;
其中利用第二集合成员相似性调整第二集合的分数包括:
基于所述第二集合成员相似性和先验可信度,对所述第二集合的分数进行调整,得到调整分数,
当调整分数与所述第二集合的分数之间的差异达到预定要求时,将所述调整分数作为调整后的第二集合的分数并且停止调整所述第二集合的分数,以及
当调整分数与所述第二集合的分数之间的差异未达到预定要求时,利用所述调整分数更新所述第二集合的分数。
9.根据权利要求1的方法,其中根据优化的观点词语集合和优化的对象特征集合抽取评价信息包括:
根据预定观点词语阈值从优化的观点词语集合中抽取排序在先的观点词语;
根据预定对象特征阈值从优化的对象特征集合中抽取排序在先的对象特征;以及
基于所述观点词语集合与所述对象特征集合之间的关联性,从所述排序在先的观点词语和所述排序在先的对象特征得到评价信息。
10.一种评价信息抽取设备,包括:
获取装置,用于从语料库中获取观点词语集合和对象特征集合;
优化装置,用于基于所述观点词语集合与所述对象特征集合之间的关联性、所述观点词语集合成员相似性以及所述对象特征集合成员相似性,优化所述观点词语集合和所述对象特征集合;以及
抽取装置,用于根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
11.根据权利要求10的设备,其中所述获取装置包括:
用于对语料库进行预处理以得到文本单元的装置;
用于基于得到的文本单元,根据观点词语抽取规则得到观点词语集合的装置;以及
用于基于得到的文本单元,根据对象特征抽取规则得到对象特征集合的装置。
12.根据权利要求11的设备,其中所述观点词语抽取规则包括:从文本单元中抽取以下中的一项或多项作为观点词语:
紧随程度副词之后的序列片段、形容词、内部不含虚词的片段、长度小于等于最大观点词语长度的片段、大于最小观点词语发生频率的片段。
13.根据权利要求11的设备,其中所述对象特征抽取规则包括:从文本单元中抽取以下中的一项或多项作为对象特征:
基本名词短语、基本名词短语的组合、基本名词短语与名词/动名词的组合、基本名词短语与限定性定语、限定性定语与名词/动名词的组合、内部不含虚词的片段、长度小于等于最大对象特征长度的片段、频率大于最小对象特征发生频率的片段。
14.根据权利要求10的设备,其中所述优化装置包括:
第一转移计算装置,用于基于所述关联性,根据所述观点词语集合和所述对象特征集合中的第一集合的分数计算所述观点词语集合和所述对象特征集合中的第二集合的分数;
第二调整装置,用于利用第二集合成员相似性调整第二集合的分数;
第二转移计算装置,用于基于所述关联性,根据调整后的第二集合的分数计算第一集合的分数;
第一调整装置,用于利用第一集合成员相似性调整第一集合的分数,以便基于所述关联性根据调整后的第一集合的分数计算第二集合的分数;以及
排序装置,用于当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时,按照调整后的第一集合的分数对所述第一集合中的成员进行排序、并且按照调整后的第二集合的分数对所述第二集合中的成员进行排序。
15.根据权利要求10的设备,其中所述优化装置包括:
第一调整装置,用于利用所述观点词语集合和所述对象特征集合中的第一集合成员相似性调整第一集合的分数;
转移计算装置,用于基于所述关联性,根据调整后的第一集合的分数计算所述观点词语集合和所述对象特征集合中的第二集合的分数;
第二调整装置,用于利用第二集合成员相似性调整第二集合的分数,以便基于所述关联性根据调整后的第二集合的分数计算第一集合的分数;以及
排序装置,用于当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时,按照调整后的第一集合的分数对所述第一集合中的成员进行排序、并且按照调整后的第二集合的分数对所述第二集合中的成员进行排序。
16.根据权利要求14或15的设备,其中所述优化装置还包括:
用于基于第一集合内的每个成员在所述语料库中的频次信息,根据预定义策略对所述第一集合的分数进行初始化的装置。
17.根据权利要求14或15的设备,其中所述第一调整装置包括:
用于基于所述第一集合成员相似性和先验可信度,对所述第一集合的分数进行调整,得到调整分数的装置,
用于当调整分数与所述第一集合的分数之间的差异达到预定要求时,将所述调整分数作为调整后的第一集合的分数并且停止调整所述第一集合的分数的装置,以及
用于当调整分数与所述第一集合的分数之间的差异未达到预定要求时,利用所述调整分数更新所述第一集合的分数的装置;
其中所述第二调整装置包括:
用于基于所述第二集合成员相似性和先验可信度,对所述第二集合的分数进行调整,得到调整分数的装置,
用于当调整分数与所述第二集合的分数之间的差异达到预定要求时,将所述调整分数作为调整后的第二集合的分数并且停止调整所述第二集合的分数的装置,以及
用于当调整分数与所述第二集合的分数之间的差异未达到预定要求时,利用所述调整分数更新所述第二集合的分数的装置。
18.根据权利要求10的设备,其中所述抽取装置包括:
用于根据预定观点词语阈值从优化的观点词语集合中抽取排序在先的观点词语的装置;
用于根据预定对象特征阈值从优化的对象特征集合中抽取排序在先的对象特征的装置;以及
用于基于所述观点词语集合与所述对象特征集合之间的关联性,从所述排序在先的观点词语和所述排序在先的对象特征得到评价信息的装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110035018.1A CN102609424B (zh) | 2011-01-21 | 2011-01-21 | 评价信息抽取方法和设备 |
JP2011230054A JP5452563B2 (ja) | 2011-01-21 | 2011-10-19 | 評価情報抽出のための方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110035018.1A CN102609424B (zh) | 2011-01-21 | 2011-01-21 | 评价信息抽取方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102609424A true CN102609424A (zh) | 2012-07-25 |
CN102609424B CN102609424B (zh) | 2014-10-08 |
Family
ID=46526806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110035018.1A Active CN102609424B (zh) | 2011-01-21 | 2011-01-21 | 评价信息抽取方法和设备 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5452563B2 (zh) |
CN (1) | CN102609424B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365997A (zh) * | 2013-07-12 | 2013-10-23 | 华东师范大学 | 一种基于集成学习的观点挖掘方法 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN106326259A (zh) * | 2015-06-26 | 2017-01-11 | 苏宁云商集团股份有限公司 | 搜索引擎中商品标签的构建方法、系统及搜索方法和系统 |
CN106910512A (zh) * | 2015-12-18 | 2017-06-30 | 株式会社理光 | 语音文件的分析方法、装置及系统 |
CN106952122A (zh) * | 2017-04-11 | 2017-07-14 | 张晓亮 | 一种车辆评价方法及系统 |
CN107526721A (zh) * | 2017-06-21 | 2017-12-29 | 深圳美云智数科技有限公司 | 一种对电商产品评论词汇的歧义消除方法及装置 |
CN109117470A (zh) * | 2017-06-22 | 2019-01-01 | 北京国双科技有限公司 | 一种评价文本信息的评价关系提取方法及装置 |
CN110222654A (zh) * | 2019-06-10 | 2019-09-10 | 北京百度网讯科技有限公司 | 文本分割方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916889A (zh) * | 2005-08-19 | 2007-02-21 | 株式会社日立制作所 | 语料库制作装置及其方法 |
US20070198530A1 (en) * | 2006-02-17 | 2007-08-23 | Fujitsu Limited | Reputation information processing program, method, and apparatus |
CN101515269A (zh) * | 2008-02-20 | 2009-08-26 | 中国科学院自动化研究所 | 实现观点搜索引擎排序的方法 |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010146171A (ja) * | 2008-12-17 | 2010-07-01 | Nippon Hoso Kyokai <Nhk> | 表現補完装置およびコンピュータプログラム |
-
2011
- 2011-01-21 CN CN201110035018.1A patent/CN102609424B/zh active Active
- 2011-10-19 JP JP2011230054A patent/JP5452563B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916889A (zh) * | 2005-08-19 | 2007-02-21 | 株式会社日立制作所 | 语料库制作装置及其方法 |
US20070198530A1 (en) * | 2006-02-17 | 2007-08-23 | Fujitsu Limited | Reputation information processing program, method, and apparatus |
CN101515269A (zh) * | 2008-02-20 | 2009-08-26 | 中国科学院自动化研究所 | 实现观点搜索引擎排序的方法 |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365997A (zh) * | 2013-07-12 | 2013-10-23 | 华东师范大学 | 一种基于集成学习的观点挖掘方法 |
CN103365997B (zh) * | 2013-07-12 | 2016-12-28 | 华东师范大学 | 一种基于集成学习的观点挖掘方法 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN106326259A (zh) * | 2015-06-26 | 2017-01-11 | 苏宁云商集团股份有限公司 | 搜索引擎中商品标签的构建方法、系统及搜索方法和系统 |
CN106910512A (zh) * | 2015-12-18 | 2017-06-30 | 株式会社理光 | 语音文件的分析方法、装置及系统 |
CN106952122A (zh) * | 2017-04-11 | 2017-07-14 | 张晓亮 | 一种车辆评价方法及系统 |
CN107526721A (zh) * | 2017-06-21 | 2017-12-29 | 深圳美云智数科技有限公司 | 一种对电商产品评论词汇的歧义消除方法及装置 |
CN107526721B (zh) * | 2017-06-21 | 2020-07-10 | 深圳美云智数科技有限公司 | 一种对电商产品评论词汇的歧义消除方法及装置 |
CN109117470A (zh) * | 2017-06-22 | 2019-01-01 | 北京国双科技有限公司 | 一种评价文本信息的评价关系提取方法及装置 |
CN110222654A (zh) * | 2019-06-10 | 2019-09-10 | 北京百度网讯科技有限公司 | 文本分割方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102609424B (zh) | 2014-10-08 |
JP2012155699A (ja) | 2012-08-16 |
JP5452563B2 (ja) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fabbri et al. | Summeval: Re-evaluating summarization evaluation | |
CN102609424B (zh) | 评价信息抽取方法和设备 | |
Gu et al. | " what parts of your apps are loved by users?"(T) | |
Gupta et al. | Study of Twitter sentiment analysis using machine learning algorithms on Python | |
US10713432B2 (en) | Classifying and ranking changes between document versions | |
Hai et al. | Identifying features in opinion mining via intrinsic and extrinsic domain relevance | |
US9245015B2 (en) | Entity disambiguation in natural language text | |
CN108388660B (zh) | 一种改进的电商产品痛点分析方法 | |
CN104978314B (zh) | 媒体内容推荐方法及装置 | |
Wang et al. | Customer-driven product design selection using web based user-generated content | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
Gao et al. | Text classification research based on improved Word2vec and CNN | |
Sarkar | Sentiment polarity detection in Bengali tweets using deep convolutional neural networks | |
US20160140234A1 (en) | Method and Computer Server System for Receiving and Presenting Information to a User in a Computer Network | |
CN110321561A (zh) | 一种关键词提取方法和装置 | |
Patel et al. | Extractive Based Automatic Text Summarization. | |
Carrion et al. | A taxonomy generation tool for semantic visual analysis of large corpus of documents | |
Khemani et al. | A review on reddit news headlines with nltk tool | |
Shah et al. | An automatic text summarization on Naive Bayes classifier using latent semantic analysis | |
Khatoon et al. | Domain independent automatic labeling system for large-scale social data using Lexicon and web-based augmentation | |
Voronov et al. | Forecasting popularity of news article by title analyzing with BN-LSTM network | |
Kumar et al. | Aspect-Based Sentiment Analysis of Tweets Using Independent Component Analysis (ICA) and Probabilistic Latent Semantic Analysis (pLSA) | |
Singh et al. | Natural language processing, understanding, and generation | |
Kasmuri et al. | Building a Malay-English code-switching subjectivity corpus for sentiment analysis | |
CN112148988A (zh) | 用于生成信息的方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20171211 Address after: 100190 Zhongguancun street, Haidian District, Beijing, No. 18, block B, block 18 Patentee after: Data Hall (Beijing) Polytron Technologies Inc Address before: 100191 Haidian District, Xueyuan Road, No. 35, the world building, the second floor of the building on the ground floor, No. 20 Patentee before: NEC (China) Co., Ltd. |
|
TR01 | Transfer of patent right |