具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,针对种子集合中的每个种子,查找该种子在文本集合中的所有出现,生成情感倾向性模板集合,采用最长公共字串方法将情感倾向性模板集合中的所有情感倾向性模板进行两两对比,即可生成可靠的情感倾向性模板集合,通过生成的情感倾向性模板集合即可准确、高效的对任何领域的网页或者文本进行情感倾向性分析。
实施例一:
图1示出了本发明第一实施例提供的情感倾向性模板的生成方法的实现流程,详述如下:
在步骤S101中,针对种子集合中的每个种子,查找该种子在文本集合中的所有出现,并根据种子在文本集合中的所有出现生成第一情感倾向性模板集合。
在本发明实施例中,可以预先设置初始种子集合,针对初始种子集合中的每个种子,查找该种子在文本集合中的所有出现。
其中种子是指包括实体词和情感词的词对。举例说明如下:
<情感词,实体词>或者<实体词,情感词>
其中文本集合是指预先设置的用于训练的文本集合,为了得到更加可靠的情感倾向性模板,在本发明实施例中,需要设置大量的用于训练的文本集合。
其中种子在文本集合中的出现可以根据情感倾向性分析的粒度不同而不同,当情感倾向性分析的粒度为短语级别时,种子在文本集合中的出现是指种子包括的实体词和情感词同时出现的短语;当情感倾向性分析的粒度为句子级别时,种子在文本集合中的出现是指种子包括的实体词和情感词同时出现的句子。当然,还可以根据对情感倾向性分析的粒度的不同需求,得到不同的种子在文本集合中的出现的定义。在本发明后续的说明中,以种子在文本集合中的出现是指实体词和情感词同时出现的句子为例进行说明。
其中情感倾向性模板是一种包括情感倾向指示信息(SO)、左边字符串(PREFIX)、中间字符串(MIDDLE)、右边字符串(SUFFIX)、实体词和情感词位置信息(order)以及置信度信息(confidence)的六元组。举例说明如下:
<SO、PREFIX、MIDDLE、SUFFIX、order、confidence>
其中情感倾向指示信息是指该情感倾向性模板指示的情感倾向,如是“褒扬”还是“批评”等。
左边字符串是指同时出现种子包括的实体词和情感词的句子中从开始字符到情感词或者实体词之间的字符串。当句子的情感词在实体词的前面,则左边字符串是指句子中从开始字符到情感词之间的字符串;当句子中的实体词在情感词的前面,则左边字符串是指句子中从开始字符到实体词之间的字符串。
中间字符串是指同时出现种子包括的实体词和情感词的句子中情感词和实体词之间的字符串。
右边字符串是指同时出现种子包括的实体词和情感词的句子中从情感词或者实体词到结束字符之间的字符串。当句子的情感词在实体词的前面,则右边字符串是指句子中从情感词到结束字符之间的字符串;当句子中的实体词在情感词的前面,则右边字符串是指句子中从实体词到结束字符之间的字符串。
实体词和情感词位置信息是指同时出现种子包括的实体词和情感词的句子中实体词在情感词前面还是实体词在情感词后面。在本发明实施例中,该实体词和情感词位置信息是一种布尔值,并设置当同时出现种子包括的实体词和情感词的句子中实体词在情感词前面时,order为1;当同时出现种子包括的实体词和情感词的句子中实体词在情感词后面时,order为-1。
置信度信息是指该情感倾向性模板的可靠性信息。
其中根据种子在文本集合中的所有出现生成情感倾向性模板集合的步骤具体如下:
针对种子在文本集合中的每个出现,将同时出现种子包括的实体词和情感词的句子切分成左边字符串、中间字符串和右边字符串,并将切分得到的左边字符串、中间字符串和右边字符串分别作为第一情感倾向性模板中的左边字符串、中间字符串和右边字符串;
根据种子包括的情感词和实体词之间的前后关系,得到第一情感倾向性模板中的实体词和情感词位置信息;
根据同时出现种子包括的实体词和情感词的句子得到第一情感倾向性模板中的情感倾向指示信息。
至于第一情感倾向性模板中的置信度信息可以直接设置为默认值。
举例说明如下:
假设种子是<手机外形,完美>,种子在文本集合中的一个出现是“这款手机外形刚中有柔,很完美”,则将同时出现种子包括的实体词和情感词的句子切分成左边字符串“这款”、中间字符串“刚中有柔,很”和右边字符串“。”,这样可以得到以下形式的第一情感倾向性模板:
<SO、“这款”、“刚中有柔,很”、“。”、order、confidence>
再根据种子包括的情感词和实体词之间的前后关系,可以得到情感倾向性模板中的实体词和情感词位置信息为实体词在情感词前面,即order的值为1,从而可以得到以下形式的第一情感倾向性模板:
<SO、“这款”、“刚中有柔,很”、“。”、1、confidence>
再根据同时出现种子包括的实体词和情感词的句子,就可以得到情感倾向性模板中的情感倾向指示信息为“褒扬”,从而可以得到以下形式的第一情感倾向性模板:
<“褒扬”、“这款”、“刚中有柔,很”、“。”、1、confidence>
至于第一情感倾向性模板中的置信度可以直接设置为默认值或者缺省。
在步骤S102中,采用最长公共字串方法将第一情感倾向性模板集合中具有相同情感倾向的情感倾向性模板进行两两对比,生成第二情感倾向性模板集合。
其中最长公共字串方法是指从两个字串中抽取最长的公共字串部分。其具体过程如下:
将第一情感倾向性模板集合中具有相同情感倾向的每两个情感倾向性模板中的左边字符串采用最长公共字串方法,得到情感倾向性模板中的左边字符串;
将第一情感倾向性模板集合中该两个情感倾向性模板中的右边字符串采用最长公共字串方法,得到情感倾向性模板中的右边字符串;
将第一情感倾向性模板集合中该两个情感倾向性模板中的中间字符串采用最长公共字串方法,得到情感倾向性模板中的中间字符串。
当进行比对的两个情感倾向性模板中的order不一致时,由于不影响采用该情感倾向性模板对网页内容进行情感倾向性分析,因此,可以将第一情感倾向性模板集合中该两个情感倾向性模板中的任意一个情感倾向性模板的order作为得到的情感倾向性模板中的order的值。
当进行比对的两个情感倾向性模板中的confidence不相同时,则可以将第一情感倾向性模板集合中该两个情感倾向性模板中最小或者最大的confidence值作为得到的情感倾向性模板中confidence值,也可以将第一情感倾向性模板集合中该两个情感倾向性模板中的confidence值的平均值或者均方值作为得到的情感倾向性模板中confidence值。
举例说明如下:
假设第一情感倾向性模板集合中包括三个情感倾向性模板分别如下:
(1)<“褒扬”、“今年的这款”、“刚中有柔,很”、“,非常喜欢。”、1、confidence>
(2)<“褒扬”、“这款”、“非常漂亮,很”、“,非常可爱。”、1、confidence>
(3)<“批评”、“去年的这款”、“设计的很”、“,很可爱。”、1、confidence>
则采用最长公共字串方法将情感倾向性模板中的(1)和(2)进行对比,可以得到如下情感倾向性模板:
<“褒扬”、“这款”、“很”、“,非常”、1、confidence>
而由于情感倾向性模板中的(1)和(3),以及(2)和(3)的情感倾向不一致,因此,无法得到新的情感倾向性模板。
从上述举例说明可以得到,当第一情感倾向性模板集合中包括N个情感倾向性模板时,则生成的第二情感倾向性模板集合最多包括组合数CN 2个情感倾向性模板。
在本发明实施例中,针对种子集合中的每个种子,查找该种子在文本集合中的所有出现,生成第一情感倾向性模板集合,采用最长公共字串方法将第一情感倾向性模板集合中的所有情感倾向性模板进行两两对比,即可生成可靠的、准确的、覆盖率高的情感倾向性模板集合。由于在词串的基础上生成情感倾向性模板,从而比较接近人的语言表达习惯,提高了情感倾向性模板的可理解性。
实施例二:
图2示出了本发明第二实施例提供的情感倾向性模板的生成方法的实现流程,图2所示的方法中的步骤S201、S202与图1所示的步骤S101、S102相同,在此不再赘述,其区别仅在于,还包括以下步骤:
在步骤S203中,采用预设的有效性规则对第二情感倾向性模板集合中的情感倾向性模板进行筛选,得到第三情感倾向性模板集合。
其中预设的有效性规则可以根据用户的需要自行设置。如预设的有效性规则包括但不限于:第二情感倾向性模板集合中的情感倾向性模板中的PREFIX和SUFFIX不能只泛化为任意串;PREFIX最右表示符和SUFFIX最左表示符不能为任意串;PREFIX、MIDDLE或SUFFIX中不包含句末标点符号等。以下以计算机伪代码来说明上述方法的具体流程;
createpatterns(Seeds)
{
for each seed s in Seeds
{
Cx=createcontexts(s);
for each ci in Cx
{
for(j=i;j<=|Cx|;j++)
{
Pij=LCS(ci,cj);
if Pij satisfies Rules1,Rule2 and Rule3
Patterns←Pij;
}
}
}
return Patterns
}
上述计算机伪代码表示的逻辑为:针对种子集合(Seeds)中的每个种子s,都先在文本集合中找到包含该种子s的句子(即s的出现),生成其所有句子级别的第一情感倾向性模板集合Cx,对Cx中的每两个第一情感倾向性模板采用最长公共字串算法(LCS())生成第二情感倾向性模板,得到第二情感倾向性模板集合,再用预先设置的有效性规则(Rules1、Rules2、Rules3)从第二情感倾向性模板集合进行筛选,得到第三情感倾向性模板集合(Patterns)。
在本发明实施例中,通过采用预设的有效性规则对第二情感倾向性模板集合中的情感倾向性模板进行筛选,从而可以过滤掉质量较低的情感倾向性模板,确保情感倾向性模板不会被过度泛化,进一步提高生成的情感倾向性模板的可靠性和准确性。
实施例三:
图3示出了本发明第三实施例提供的情感倾向性模板的生成方法的实现流程,图3所示的方法在图1或者图2所示的方法的基础上增加了如下步骤,以在图2所示的方法的基础上增加步骤为例,进行说明,其中步骤S301至S303分别与图2所示的步骤S201至S203相同,在此不再赘述:
在步骤S304中,重新扫描文本集合,根据第三情感倾向性模板集合中的情感倾向性模板抽取新的种子。其具体步骤如下:
重新扫描文本集合,从文本集合中提取第三情感倾向性模板集合中的每个第三情感倾向性模板能匹配上的句子;
在匹配上的句子中查找并记录第三情感倾向性模板在句子中的边界位置;
根据第三情感倾向性模板在句子中的边界位置提取新的种子。举例说明如下:
假设第三情感倾向性模板集合中的情感倾向性模板包括:<“褒扬”、“这款”、“很”、“,非常”、1、confidence>,文本集合中包括句子:“这款手机很时尚非常好用。”,则基于字符串匹配,在文本集合的句子“这款手机很时尚非常好用。”中分别能匹配上情感倾向性模板的三个部分“这款”、“很”、“非常”,由这三个匹配上的部分“卡”出了“手机”和“时尚”,从而根据该情感倾向性模板可以生成新的种子<手机、时尚>。
在本发明实施例中,在得到新的种子后,可以根据新的种子得到新的情感倾向性模板,从而可以提高情感倾向性模板的覆盖率。
在步骤S305中,判断种子集合中是否包括该新的种子,如果是,则直接删除该新的种子,否将新的种子增加到种子集合中,并返回步骤S301。
当然在本发明实施例中,也可以重新扫描文本集合,根据第二情感倾向性模板集合中的第二情感倾向性模板得到新的种子,并在种子集合中已包括该新的种子时,直接丢弃该新的种子,在种子集合中未包括该新的种子时,将新的种子增加到种子集合中,并返回步骤S301。
在本发明实施中,通过循环执行上述步骤,直到没有新的种子产生、或者直到循环次数达到预设的阈值、或者直到得到的情感倾向性模板的质量达不到要求时,停止循环。这样不仅可以生成可靠、准确的情感倾向性模板,而且可以提高情感倾向性模板的覆盖率。
实施例四:
图4示出了本发明第四实施例提供的情感倾向性模板的生成方法的实现流程,图4所示的方法的步骤S401至S404分别与图3所示的步骤S301至S304相同,在此不再赘述,其区别仅在于,还包括以下步骤:
在步骤S405中,计算第三情感倾向性模板集合中每个情感倾向性模板的置信度,并将该情感倾向性模板中的置信度更新为计算得到的置信度。
在本发明实施例中,可以通过如下几种方式中的任意一种方式来计算情感倾向性模板的置信度,当然,也可以采用现有技术提供的其他方法计算情感倾向性模板的置信度:
其中一种置信度的计算方式是:
其中,Conf(P)为情感倾向性模板P的置信度。Pc是情感倾向性模板P生成的正例种子数。Pe是情感倾向性模板P生成的反例种子数。其中正例种子是指根据情感倾向性模板抽取出来的种子在当前完整句子中表现出来的情感倾向和该情感倾向性模板指示的情感倾向一致的种子。反例种子是指根据情感倾向性模板抽取出来的种子在当前完整句子中表现出来的情感倾向和该情感倾向性模板指示的情感倾向相反的种子。
在本发明实施例中,通过上述方式计算得到的情感倾向模板的置信度可以反映该情感倾向性模板生成的种子的正确性。
另一种置信度的计算方式是:
ConfRlogF(P)=Conf(P)×log2(Pc+1)
其中ConfRlogF(P)是情感倾向性模板P的置信度。Conf(P)为采用得到的情感倾向性模板P的置信度。
在本发明实施例中,通过上述方式计算得到的情感倾向模板的置信度充分考虑了生成的情感倾向性模板的覆盖能力。
再一种置信度的计算方式是:
ConfRlogF(P)=Conf(P)×(log2(Pnew+1))γ
其中Conf
RlogF(P)是情感倾向性模板P的置信度。Conf(P)为采用
得到的情感倾向性模板P的置信度。P
new是该情感倾向性模板P生成的新的种子数。r是该情感倾向性模板P生成的种子中正例种子所占的比例。
为了使计算得到的情感倾向性模板的置信度不会有太显著的波动,在本发明实施例中,将计算得到的每个情感倾向性模板的置信度除以所有情感倾向性模板的置信度的最高值,使计算得到的情感倾向性模板的置信度在0到1之间取值。
在本发明实施例中,通过计算每个情感倾向性模板的置信度可以获知生成的每个情感倾向性模板的可靠程度和有效性。
在本发明另一实施中,该方法还包括下述步骤:
删除第三情感倾向性模板集合中置信度小于预设阈值的情感倾向性模板。
在本发明实施例中,通过删除第三情感倾向性模板集合中置信度小于预设阈值的第三情感倾向性模板,从而进一步提高了生成的情感倾向性模板的可靠性、准确性。
当然,也可以直接计算第二情感倾向性模板集合中每个情感倾向性模板的置信度,并删除第二情感倾向性模板集合中置信度小于预设阈值的情感倾向性模板。
实施例五:
图5示出了本发明第四实施例提供的情感倾向性模板的生成方法的实现流程,图5所示的方法的步骤S501至S505分别与图4所示的步骤S401至S405相同,在此不再赘述,其区别仅在于,还包括以下步骤:
在步骤S506中,根据生成新的种子的情感倾向性模板的置信度计算新的种子的置信度。其具体过程如下:
其中Conf(s)是种子s的置信度,Conf(Pi)是生成种子s的情感倾向性模板Pi的置信度,PSet是文本集合中能够生成种子s的情感倾向性模板的集合,即PSet={Pi}。
在本发明实施例中,通过计算情感倾向性模板的生成的种子的置信度,从而可以获知根据情感倾向性模板的抽取的种子的质量。
在本发明另一实施例中,该方法还包括下述步骤:
将根据情感倾向性模板抽取的种子中置信度大于或者等于预设阈值的种子增加至种子集合中。
在本发明实施例中,只将根据情感倾向性模板抽取的种子中置信度大于或者等于预设阈值的种子增加至种子集合中,从而提高了种子的质量。
实施例六:
图6示出了本发明第六实施例提供的情感倾向性模板的应用方法,其中情感倾向性模板是利用本发明实施例提供的情感倾向性模板生成方法生成的,详述如下:
在步骤S601中,将情感倾向性模板与搜索引擎返回的文本中的预设粒度的文本进行匹配。
其中预设粒度的文本包括但不限于句子、短语、句子子集等。因此,可以将情感倾向性模板与搜索引擎返回的文本中的句子进行匹配,从而得到句子级别的情感倾向性。当然也可以将情感倾向性模板与搜索引擎返回的文本中的短语进行匹配,从而得到短语级别的情感倾向性。当然,如果还需要其他更粗或者更细的粒度,也可以与搜索引擎返回的其他粒度的文本进行匹配,从而得到相应粒度级别的情感倾向性。其中搜索引擎返回的文本可以是搜索引擎返回的网页、文章等。
在步骤S602中,按照情感倾向性模板的置信度为与该情感倾向性模板匹配上的预设粒度的文本打分,得到该预设粒度的文本的情感倾向和情感得分。
在本发明实施例中,可以直接将情感倾向性模板的置信度的值作为与该情感倾向性模板匹配上的句子的情感得分,也可以对情感倾向性模板的置信度的值进行某种运算后,作为与该情感倾向性模板匹配上的句子的情感得分。
在本发明实施例中,当搜索引擎返回的文本中预设粒度的文本与多个情感倾向性模板匹配时,则以置信度最高的情感倾向性模板为准。
在本发明实施例中,由于情感倾向性模板中的分量SO指示了该情感倾向性模板的情感倾向为褒扬还是批评,当情感倾向性模板与预设粒度的文本匹配成功时,则可以根据该情感倾向性模板得到该预设粒度的文本的情感倾向是褒扬还是批评,而且根据该情感倾向性模板的置信度可以得到该预设粒度的文本的情感得分,从而可以得到该预设粒度的文本的情感倾向为褒扬或者批评的可信度。举例说明如下:
假设文本中句子1分别与情感倾向性模板A、B、C匹配成功,且情感倾向性模板A、B、C的置信度分别为30%、50%、70%、,则该句子1的情感得分以情感倾向性模板A、B、C中的置信度最高(即情感倾向性模板C)的情感倾向性模板为准,即句子1的情感得分为70%。如果情感倾向性模板C的参量SO指示的是褒扬,则表明句子1的情感倾向为褒扬的可信度为70%,如果情感倾向性模板C的参量SO指示的是批评,则表明句子1的情感倾向为批评的可信度为70%。
在本发明实施例中,通过情感倾向性模板可以得到与搜索引擎返回的文本中的预设粒度的文本的情感得分,从而可以准确、高效的对任何领域的网页或者文本进行情感倾向性分析。
实施例七:
图7示出了本发明第七实施例提供的情感倾向性模板的应用方法,其中步骤S701和S702分别与图6所示的步骤S601、S602相同,在此不再赘述,其区别在于,还包括下述步骤:
在步骤S703中,根据搜索引擎返回的文本中的预设粒度的文本指示的情感倾向,将搜索引擎返回的文本中的预设粒度的文本的情感得分进行加权平均,得到搜索引擎返回的文本指示的情感倾向和该文本的情感得分。
在本发明实施例中,由于文本由许多预设粒度的文本组成,如网页内容由许多句子组成,由于每个句子均有其情感倾向和该情感倾向的情感得分,从而在将搜索引擎返回的文本中的预设粒度的文本的情感得分进行加权平均时,需要将指示相同情感倾向的预设粒度的文本的情感得分进行加权平均,如将指示为褒扬的句子的情感得分进行加权平均,将指示批评的句子的情感得分进行加权平均,如果指示为褒扬的句子的情感得分大于指示批评的句子的情感得分,则搜索引擎返回的文本指示的情感倾向为褒扬,且该文本的情感得分为指示为褒扬的句子的情感得分的加权平均值;如果指示为褒扬的句子的情感得分小于或者等于指示批评的句子的情感得分,则搜索引擎返回的文本指示的情感倾向为批评,且该文本的情感得分为指示为批评的句子的情感得分的加权平均值。
其中各句子的权值是预先设置的,可以根据经验或者用语习惯为文本中各句子设置权值。
在本发明实施例中,根据搜索引擎返回的文本中的预设粒度的文本指示的情感倾向,将搜索引擎返回的文本中的预设粒度的文本的情感得分进行加权平均,得到搜索引擎返回的文本指示的情感倾向和该文本的情感得分,从而可以准确、高效的对任何领域的网页或者文本进行情感倾向性分析,为用户提供有用的数据。
实施例八:
图8示出了本发明第八实施例提供的情感倾向性模板生成系统的结构,为了便于说明仅示出了与本发明实施例相关的部分。
该装置可以用于任何需要对文本进行情感倾向性分析的系统,例如搜索引擎系统等,可以是运行于这些设备内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些设备中或者运行于这些设备的应用系统中,其中:
存储单元1存储种子集合、文本集合以及情感倾向性模板。在本发明实施例中,在第一次生成模板时,预先设置初始种子集合,并将初始种子集合存储在存储单元1中。其中种子是指包括实体词和情感词的词对。
模板生成单元2针对存储单元1中存储的种子集合中的每个种子,查找该种子在文本集合中的所有出现,并根据种子在文本集合中的所有出现生成第一情感倾向性模板集合。
其中情感倾向性模板是一种包括情感倾向指示信息(SO)、左边字符串(PREFIX)、中间字符串(MIDDLE)、右边字符串(SUFFIX)、实体词和情感词位置信息(order)以及置信度信息(confidence)的六元组。
模板比对生成单元3采用最长公共字串方法将模板生成单元2生成的第一情感倾向性模板集合中具有相同情感倾向的情感倾向性模板进行两两对比,生成第二情感倾向性模板集合。
在本发明另一实施中,该装置还包括模板筛选单元4。该模板筛选单元4采用预设的有效性规则对模板比对生成单元3生成的第二情感倾向性模板集合中的情感倾向性模板进行筛选,得到第三情感倾向性模板集合。
其中预设的有效性规则可以根据用户的需要自行设置。如预设的有效性规则包括但不限于:第二情感倾向性模板中的PREFIX和SUFFIX不能只泛化为任意串;PREFIX最右表示符和SUFFIX最左表示符不能为任意串;PREFIX、MIDDLE或SUFFIX中不包含句末标点符号等。
在本发明另一实施例中,该装置还包括新种子抽取单元5和种子筛选单元6。其中:
新种子抽取单元5重新扫描文本集合,根据模板筛选单元4生成的第三情感倾向性模板集合中的情感倾向性模板或者模板比对生成单元3生成的第二情感倾向性模板集合中的情感倾向性模板抽取新的种子。其具体步骤如下:
重新扫描文本集合,从文本集合中提取第三情感倾向性模板集合中的每个第三情感倾向性模板能匹配上的句子;
在匹配上的句子中查找并记录第三情感倾向性模板在句子中的边界位置;
根据第三情感倾向性模板在句子中的边界位置提取新的种子。
种子筛选单元6判断种子集合中是否包括新种子抽取单元5抽取的新的种子,如果是,则直接丢弃该新的种子,否将新的种子增加到种子集合中。
在本发明另一实施例中,该装置还包括模板置信度计算单元7。该模板置信度计算单元7计算模板筛选单元4生成的第三情感倾向性模板集合中的情感倾向性模板或者模板比对生成单元3生成的第二情感倾向性模板集合中的情感倾向性模板的置信度,并将该情感倾向性模板中的置信度更新为计算得到的置信度。
其中,Conf(P)为情感倾向性模板P的置信度。Pc是情感倾向性模板P生成的正例种子数。Pe是情感倾向性模板P生成的反例种子数。其中正例种子是指根据情感倾向性模板抽取出来的种子在当前完整句子中表现出来的情感倾向和该情感倾向性模板指示的情感倾向一致的种子。反例种子是指根据情感倾向性模板抽取出来的种子在当前完整句子中表现出来的情感倾向和该情感倾向性模板指示的情感倾向相反的种子。
在本发明实施例中,通过上述方式计算得到的情感倾向模板的置信度可以反映该情感倾向性模板生成的种子的正确性。
另一种置信度的计算方式是:
ConfRlogF(P)=Conf(P)×log2(Pc+1)
其中Conf
RlogF(P)是情感倾向性模板P的置信度。Conf(P)为采用
得到的情感倾向性模板P的置信度。
在本发明实施例中,通过上述方式计算得到的情感倾向模板的置信度充分考虑了生成的情感倾向性模板的覆盖能力。
再一种置信度的计算方式是:
ConfRlogF(P)=Conf(P)×(log2(Pnew+1))γ
其中Conf
RlogF(P)是情感倾向性模板P的置信度。Conf(P)为采用
得到的情感倾向性模板P的置信度。P
new是该情感倾向性模板P生成的新的种子数。r是该情感倾向性模板P生成的种子中正例种子所占的比例。
为了使计算得到的情感倾向性模板的置信度不会有太显著的波动,在本发明实施例中,将计算得到的每个情感倾向性模板的置信度除以所有情感倾向性模板的置信度的最高值,使计算得到的情感倾向性模板的置信度在0到1之间取值。
在本发明另一实施例中,该装置还包括模板删除单元8。该模板删除单元8删除模板筛选单元4生成的第三情感倾向性模板集合中置信度小于预设阈值的情感倾向性模板,或者删除模板比对生成单元3生成的第二情感倾向性模板集合中置信度小于预设阈值的情感倾向性模板。从而进一步提高了生成的情感倾向性模板的可靠性、准确性。
在本发明另一实施例中,该装置还包括种子置信度计算单元9。该种子置信度计算单元9根据生成新的种子的情感倾向性模板的置信度计算新的种子的置信度。其具体过程如下:
其中Conf(s)是种子s的置信度,Conf(Pi)是生成种子s的情感倾向性模板Pi的置信度,PSet是文本集合中能够生成种子s的情感倾向性模板的集合,即PSet={Pi}。
在本发明另一实施例中,该装置还包括种子删除单元10。该种子删除单元10将根据情感倾向性模板抽取的种子中置信度小于预设阈值的种子删除,并将根据情感倾向性模板抽取的种子中置信度大于或者等于预设阈值的种子增加至种子集合中。
实施例九:
图9示出了本发明第九实施例提供的情感倾向性模板的应用装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
模板匹配单元101将情感倾向性模板与搜索引擎返回的文本中的预设粒度的文本进行匹配。其中预设粒度的文本包括但不限于句子、短语、句子子集等。搜索引擎返回的文本可以是搜索引擎返回的网页、文章等。
情感得分确定单元102按照情感倾向性模板的置信度为与该情感倾向性模板匹配上的预设粒度的文本打分,得到该预设粒度的文本的情感倾向和情感得分。
在本发明实施例中,可以直接将情感倾向性模板的置信度的值作为与该情感倾向性模板匹配上的句子的情感得分,也可以对情感倾向性模板的置信度的值进行某种运算后,作为与该情感倾向性模板匹配上的句子的情感得分。
在本发明实施例中,当搜索引擎返回的文本中预设粒度的文本与多个情感倾向性模板匹配时,则以置信度最高的情感倾向性模板为准。
在本发明另一实施例中,该装置还包括文本情感倾向确定单元103。该文本情感倾向确定单元103根据搜索引擎返回的文本中的预设粒度的文本指示的情感倾向,将搜索引擎返回的文本中的预设粒度的文本的情感得分进行加权平均,得到搜索引擎返回的文本指示的情感倾向和该文本的情感得分。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
在本发明实施例中,针对种子集合中的每个种子,查找该种子在文本集合中的所有出现,生成第一情感倾向性模板集合,采用最长公共字串方法将第一情感倾向性模板集合中具有相同情感倾向的情感倾向性模板进行两两对比,即可生成可靠的、准确的、覆盖率高的情感倾向性模板集合。通过采用预设的有效性规则对第二情感倾向性模板集合中的情感倾向性模板进行筛选,从而可以过滤掉质量较低的情感倾向性模板,确保情感倾向性模板不会被过度泛化,进一步提高生成的情感倾向性模板的可靠性和准确性。通过根据情感倾向性模板抽取新的种子,根据新的种子生成新的情感倾向性模板,从而提高了情感倾向性模板的覆盖率。通过计算每个情感倾向性模板的置信度,从而可以获知生成的每个情感倾向性模板的可靠程度和有效性。通过删除生成的情感倾向性模板集合中置信度小于预设阈值的情感倾向性模板,从而进一步提高了生成的情感倾向性模板的可靠性、准确性。通过计算情感倾向性模板的生成的种子的置信度,从而可以获知根据情感倾向性模板的抽取的种子的质量。通过将抽取的种子中置信度大于或者等于预设阈值的种子增加至种子集合中,从而提高了种子的质量。通过根据生成的情感倾向性模板可以获得搜索引擎返回的文本中的预设粒度的文本的情感倾向和情感得分、以及搜索引擎返回的文本的情感倾向和情感得分,从而可以准确、高效的对任何领域的网页或者文本进行情感倾向性分析。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。