CN104391984B

CN104391984B - 一种中英文混合的网络用户评论的推荐度评分方法

Info

Publication number: CN104391984B
Application number: CN201410755046.4A
Authority: CN
Inventors: 许超; 顾庆; 蒋智威; 王晓亮; 陈道蓄
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2017-10-03
Anticipated expiration: 2034-12-11
Also published as: CN104391984A

Abstract

本发明公开了一种中英文混合的网络用户评论的推荐度评分方法，主要分为三个步骤：1) 获取中英文混合的网络用户评论，完成预处理；2) 以句子为单位，基于语法树计算每个句子的情感评分；3) 针对待评分的目标用户评论，根据单个句子的情感得分和所在位置，采用加权法完成用户评论的推荐度评分。本方法采用无监督方式，不需要对网络用户评论的人工标注，计算简单高效，同人工评价相比较具有较高的准确性；本方法具有扩展性和适应性，可以推广到其他类型语言；适用于网络用户评论数量大、更新快的情形；有效解决网络用户评论推荐度评价的问题。

Description

一种中英文混合的网络用户评论的推荐度评分方法

技术领域

本发明涉及一种中英文混合的网络用户评论的推荐度评分方法，具体是给定中英文混合评论，转换成单一语言评论，再应用机器学习和自然语言处理等领域技术，不需要人工标注，采用无监督的方式自动完成对中英文混合评论的推荐度评价。

背景技术

随着科技的进步，越来越多的人们开始使用互联网。互联网上（如论坛、博客、微博、微信）产生了大量的对于新闻、事件、人物、产品、影视等的用户评论，这些评论信息表达了网络用户的看法和观点，通过分析这些网络用户评论的推荐度和倾向，有助于了解网络用户态度、言论导向、产品接受度等信息，从而辅助媒体广告、产品推荐和信息检索等应用。

互联网上的网络用户评论来自不同地域、不同文化背景和知识层次的用户，特点是形式多样且不规范。其中一个常见的问题是评论中夹杂着多种语言文本混合的情况，在国内最常见的是中英文混合，给这些评论的处理和评价带来了障碍。目前关于中英文混合评论推荐度评价的研究工作和成果尚较少。

发明内容

本发明所要解决的技术问题是提供一种对中英文混合的网络用户评论提供自动和高效的推荐度评分方法；该方法完全替代人工，计算简单高效，具有扩展性和实用性。

为实现上述目的，本发明采用如下的步骤：

1) 获取中英文混合的网络用户评论，完成混合评论的预处理，该预处理包括中英文纠错、语言选择、中英文翻译三个步骤；

2) 以句子为单位，构建语法树，基于已制备并公开的情感词库，计算句子的情感评分；

3) 针对待评分的目标用户评论，根据单个句子的情感得分，结合句子在评论中的位置，采用加权法完成目标评论的推荐度评分。

上述步骤1) 中对中英文混合的网络用户评论进行预处理的处理流程是：给定中英文混合用户评论R，分三个步骤处理：其一中英文纠错，首先将用户评论拆分成中文部分和英文部分，然后应用现有的中英文纠错技术，分别对中文部分和英文部分纠错；其二语言选择，针对评论的中文部分和英文部分，分别统计其中汉字和英文单词的数量，选择数量多的语言为目标语言；其三中英文翻译，如果选出的目标语言是中文，则将评论中的英文部分翻译为中文，反之将中文部分翻译为英文，获得单一语言组成的用户评论。

上述步骤2) 以句子为单位计算每个句子的情感评分的处理流程是：给定评论R，首先将R分割为句子序列，即：R = <S1, S2, …, Sm>，其中S代表一个句子，m表示R中包含的句子总数；然后针对每一个句子S，第一步基于语法分析技术构建S的上下文无关语法树：如果评论选定为中文，则构建中文语法树，如果是英文则构建英文语法树；第二步对语法树的树叶节点（即单词）进行分类；第三步根据词的类别，按照语法树结构自底向上逐层计算句子S的情感评分。

上述步骤2) 中句子的上下文无关语法树包含以下基本结构：

1. 简单从句，由逗号、分号、叹号或句号等分割的从句；

2. 名词短语，由名词和/或形容词构成的短语，通常为主语或宾语；

3. 动词短语，由动词和/或副词构成的短语，通常为谓语或连接词；

上述基本结构按树型逐层组织：通常以根节点代表整个“句子”，其下是“从句”作为树枝节点；“从句”可以进一步分解为“（子）从句”、“名词短语”和“动词短语”，作为下一个层次的树枝节点，最后分解为单词（名词、动词、形容词、副词、连接词等），作为树叶节点。

上述步骤2) 中语法树的树叶节点（即单词）划分成以下五个类别：

1. 情感词，参考已制备并公开的情感词库，查询单词w是否为情感词，并确定w的情感极性；情感极性包含两种可能性：正面词或负面词；

2. 否定词，具有否定含义的副词；

3. 时态词，具有时态含义的副词；

4. 转折词，具有转折含义的连接词；

5. 普通词，不属于上述4种类型的其他单词；

其中否定词、时态词和转折词可以参见已公布的最新版本的词典确定，例如中文的《现代汉语词典》，英文的《牛津高阶英语词典》。

上述步骤2) 中按照语法树结构自底向上逐层计算句子情感评分的处理流程是：首先为情感词评分：正面情感词的评分为1，负面情感词的评分为-1；然后从语法树底层的树叶节点开始，自底向上计算树枝节点的情感评分：给定句子S = <w1, w2, ..., wn>，其中单词w组成树叶节点，n为单词总数；遍历每一个w，分以下5种情况处理：

1. 单词w是普通词，忽略w；

2. 单词w是情感词，采用累加的方式汇总到上层的“名词短语”或“动词短语”对应的树枝节点A，公式如下：

其中v()表示对节点A或w的情感评分；

3. 单词w是否定词，上溯到上层的“名词短语”或“动词短语”对应的树枝节点A，代表A的情感倾向反转，公式如下：

；

4. 单词w是时态词，上溯到上层的“简单从句”对应的树枝节点C，从句C的评分由所包含的“名词短语”和“动词短语”的评分累加获得，公式如下：

；

时态词代表从句C的情感倾向减弱，公式如下：

；

5. 单词w是转折词，上溯到上层的“简单从句”对应的树枝节点C；转折词代表转折结构，需要确定w转折了所在从句的情感倾向，或者是关联从句的情感倾向；确定方法参照已公布的最新版本的词典；令w转折了从句C的情感倾向，则C的情感倾向减弱并反转，公式如下：

；

最后，整个句子S的情感评分为所包含的“简单从句”的情感评分累加获得，公式如下：

。

上述步骤3) 中根据单个句子的情感评分采用加权法完成目标用户评论的推荐度评分的处理流程是：给定目标评论R = {S1, S2, ..., Sm}，其中S为句子，m为评论R中的句子总数；句子S_i的权重 l(S_i)的计算公式如下：

其中i代表句子S_i在评论R中的位置，即第i个句子；a, b, c是参数，其中a的取值空间为[0.2~0.8]，建议取值0.4，c的取值空间为[-3~1]，建议取值1.6；参数b的计算公式如下：

；

其中m代表评论R中的句子总数；根据句子的权重和情感评分，汇总计算评论R的推荐度评分v(R)，公式如下：

其中v(S_i)是句子S_i的情感评分；v(R)大于0表示评论者持肯定和推荐态度；等于0表示评论者持中立态度；小于0表示评论者持否定和反对态度。

本发明方法采用无监督的方式，有效解决现有中英文混合评论的推荐度评分问题。运用已制备并公开的中英文情感词库、中英文纠错和翻译技术、语法分析技术等，以句子为单位，构建上下文无关语法树，充分挖掘句子中单词与单词之间的相互作用关系，完成句子的情感评分；再基于句子所处的位置计算权重，采用加权法汇总计算用户评论的推荐度评分。本发明方法采用自动方式，不需要人工标记和干预，适用于网络用户评论数量庞大且更新快速的特点，具有扩展性和实用性。实验数据表明本发明方法能够快速完成中英文混合评论的推荐度评分，与人工评价结果相比较，具有较高的准确性：推荐极性（即推荐、中立、反对）判断的一致性超过75%，能够满足鉴别网络用户评论的要求。

附图说明

图1是中英文混合的网络用户评论推荐度评分方法的总体框架；

图2是实现网络用户评论预处理的流程图；

图3是计算用户评论中句子情感评分的流程图；

图4是单个句子上下文无关语法树的示例图，其中图4（a）是单个句子序列，图4(b)是根据图4(a)生成的语法树。

具体实施方式

图1所示为中英文混合的网络用户评论的推荐度评分方法的总体框架。方法的输入是互联网上的中英文混合用户评论；方法的输出是对用户评论的推荐度评分。框架分3个步骤：1) 获取中英文混合的网络用户评论，完成混合评论的预处理；2) 以句子为单位，构建语法树，基于已制备并公开的情感词库，计算句子的情感评分；3) 针对待评分的目标用户评论，根据2) 计算的单个句子的情感得分，结合句子在评论中的位置，采用加权法完成目标评论的推荐度评分。

步骤1) 中英文混合的网络用户评论进行预处理的处理流程如图2所示。给定中英文混合用户评论R，分三个步骤进行预处理：中英文纠错、语言选择和中英文翻译。

对于中英文纠错，首先将用户评论拆分成中文部分和英文部分，然后应用现有的中英文纠错技术，分别对中文部分和英文部分纠错。

对于语言选择，针对评论的中文部分和英文部分，分别统计其中汉字和英文单词的数量，选择数量多的语言为目标语言。

对于中英文翻译，如果选出的目标语言是中文，则将评论中的英文部分翻译为中文；反之，将中文部分翻译为英文；获得单一语言组成的用户评论。

例如对以下一个中英文混合的网络用户评论：

“我非常喜欢watch这部国外的电影。大体feel很nise，但是故事情结实在不满意。终之还过得去，这部电影还是不错的choise。”

首先是中英文纠错，将中文部分的“情结”、“终之”纠正为“情节”、“总之”；将英文部分的“nise”、“choise”纠正为“nice”、“choice”；然后是语言选择，由于中文汉字数量多于英文单词的数量，目标语言定为中文；最后是中英文翻译，将英文部分翻译成中文，得到预处理后的用户评论：

“我非常喜欢看这部国外的电影。大体感觉很不错，但是故事情节实在不满意。总之还过得去，这部电影还是不错的选择。”

步骤2) 子为单位，计算每个句子的情感评分，处理流程如图3所示，给定评论R，首先将R分割为句子序列，即：R = <S1, S2, …, Sm>，其中S代表一个句子，m表示R中包含的句子总数。以上述例子为例，可分成三个句子：

S1 “我非常喜欢看这部国外的电影。”

S2 “大体感觉很不错，但是故事情节实在不满意。”

S3 “总之还过得去，这部电影还是不错的选择。”

然后针对每一个句子S，第一步基于语法分析技术构建S的上下文无关语法树；如果评论选定为中文，则构建中文语法树，如果是英文则构建英文语法树；无论是哪一种语法树，都包含以下基本结构：

1. 简单从句，由逗号、分号、叹号或句号等分割的从句；

3. 动词短语，由动词和/或副词构成的短语，通常为谓语或连接词。

在语法树中，上述基本结构按树型逐层组织：通常以根节点代表整个“句子”，其下是“从句”作为树枝节点；“从句”可以进一步分解为“（子）从句”、“名词短语”和“动词短语”，作为下一个层次的树枝节点，最后分解为单词（名词、动词、形容词、副词、连接词等），作为树叶节点。图4是上下文无关语法树的一个示例，对应上述例子中的句子S3，由StanfordParser语法分析器生成。

在图4中，IP表示简单从句，NP表示名词短语，VP表示动词短语；ADVP表示副词加动词构成的动词短语；NN、VA、AD分别表示名词、动词和副词（包括连接词）。图4(b)是根据图4(a)生成的语法树，其树叶节点是中文单词，逐层向上，组成完整的句子。英文语法树的结构类似。其他类型的语法分析器也会生成相同的语法树，区别只在于对句子基本结构标记（如NP、VP等）的差异。

第二步对语法树的树叶节点（即单词）进行分类，按照树叶节点，句子S解析成单词序列，即：S = <w1, w2, ..., wn>，其中w为单词，n为句子中包含的单词总数；句子中单词被划分成以下五个类别：

1. 情感词，参考已制备并公开的情感词库，查询单词w是否为情感词，并确定w的情感极性；情感极性包含两种可能性：正面词或负面词；如表1所示：

表1

2. 否定词，具有否定含义的副词，例如：“我不喜欢这个产品”，其中“不”为否定词；

3. 时态词，具有时态含义的副词，例如：“我曾经以为这个产品质量很好”，其中“曾经”为时态词；

4. 转折词，具有转折含义的连接词，例如：“这部电影宣传很好，但是剧情不能接受”，其中“但是”为转折词；

5. 普通词，不属于上述4种类型的其他单词。

其中否定词、时态词和转折词可以参见已公布的最新版本的词典确定，例如中文的《现代汉语词典》，英文的《牛津高阶英语词典》；表2给出中文的一个示例：

表2

第三步是根据词的类别，按照语法树结构自底向上逐层计算情感评分。首先为情感词评分：正面情感词的评分为1，负面情感词的评分为-1。

然后从语法树底层的树叶节点开始，自底向上计算树枝节点的情感评分。给定句子S = <w1, w2, ..., wn>，其中单词w组成树叶节点，n为单词总数；遍历每一个w，分以下5种情况处理：

1. 单词w是普通词，忽略w；

（1）

其中v()表示对节点A或w的情感评分；

（2）

（3）

时态词代表从句C的情感倾向减弱，公式如下：

（4）

（5）

（6）

以上述例子中的句子S3为例，计算S3的情感评分：其中第一个出现的非普通词是情感词“不错”，评分为1，一直上溯到上层的简单从句C1，于是C1的情感评分v(C1) = 1；接下来是转折词“但是”，转折了关联从句C1的情感倾向，于是v(C1) = -0.5 ´ 1 = -0.5；再向后遍历，出现的非普通词是否定词“不”，紧接其后的是情感词“满意”，汇总到上层的动词短语，再上溯到简单从句C2，于是C2的情感评分v(C2) = -1 ´ 1 = -1；S3包含C1和C2两个简单从句，于是S3的情感评分v(S3) = v(C1) + v(C2) = -1.5。

步骤3) 单个句子的情感评分，结合句子在评论中的位置，采用加权法完成目标用户评论的推荐度评分。为合理确定句子的权重，给定一个评论R，通常R的开始句和结束句最能表达评论者的推荐倾向，因此开始句和结束句的权重最大，中间的句子权重逐渐减少。

给定目标评论R = {S1, S2, ..., Sm}，其中S为句子，m为评论R中的句子总数；句子S_i的权重 l(S_i)的计算公式如下：

（7）

（8）

其中m代表评论R中的句子总数。采用公式（7）和（8）计算句子的权重，其结果是开始句和结束句的权重最高，越靠近中间位置的句子权重越低。

根据句子的权重和情感评分，汇总计算评论R的推荐度评分v(R)，公式如下：

（9）

其中v(S_i)是步骤2计算的句子S_i的情感评分；v(R)大于0表示评论者持肯定和推荐态度；等于0表示评论者持中立态度；小于0表示评论者持否定和反对态度。

本发明方应用了中英文纠错技术、中英文翻译技术、情感词库和语法分析技术。目前已制备并公开了多种语言的情感词库，例如针对中文有中国知网提供的HowNet情感词库，针对英文有公开的Riloff情感词库等。针对中英文语法分析也有公开的分析工具，例如Stanford Parser语法分析器。

本发明的具体实施方式和途径很多，以上所述仅是本发明的优选实施方式；应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种中英文混合的网络用户评论的推荐度评分方法，其特征在于包括以下步骤：

1)获取中英文混合的网络用户评论，完成混合评论的预处理，该预处理包括中英文纠错、语言选择、中英文翻译三个步骤；具体流程是：给定中英文混合用户评论R，分三个步骤处理：其一中英文纠错，首先将用户评论拆分成中文部分和英文部分，然后应用现有的中英文纠错技术，分别对中文部分和英文部分纠错；其二语言选择，针对评论的中文部分和英文部分，分别统计其中汉字和英文单词的数量，选择数量多的语言为目标语言；其三中英文翻译，如果选出的目标语言是中文，则将评论中的英文部分翻译为中文，反之将中文部分翻译为英文，获得单一语言组成的用户评论；

2)以句子为单位，构建语法树，基于已制备并公开的情感词库，计算句子的情感评分；具体处理流程是：对于步骤1)处理后获得的单一语言组成的用户评论R，首先将R分割为句子序列，即：R＝<S1,S2,…,Sm>，其中S代表一个句子，m表示R中包含的句子总数；然后针对每一个句子S，第一步基于语法分析技术构建S的上下文无关语法树：如果评论选定为中文，则构建中文语法树，如果是英文则构建英文语法树；第二步对语法树的树叶节点，即单词，进行分类；第三步根据词的类别，按照语法树结构自底向上逐层计算句子S的情感评分；

上述的上下文无关语法树包含以下基本结构：

1.简单从句，由逗号、分号、叹号或句号等分割的从句；

2.名词短语，由名词和/或形容词构成的短语，通常为主语或宾语；

3.动词短语，由动词和/或副词构成的短语，通常为谓语或连接词；

上述基本结构按树型逐层组织：通常以根节点代表整个“句子”，其下是“从句”作为树枝节点；“从句”进一步分解为“子从句”、“名词短语”和“动词短语”，作为下一个层次的树枝节点，最后分解为单词，包括名词、动词、形容词、副词、连接词，作为树叶节点；

3)针对待评分的目标用户评论，根据单个句子的情感得分，结合句子在评论中的位置，采用加权法完成目标评论的推荐度评分。

2.根据权利要求1所述的中英文混合的网络用户评论的推荐度评分方法，其特征在于，上述步骤2)中语法树的树叶节点划分成以下五个类别：

1.情感词，参考已制备并公开的情感词库，查询单词w是否为情感词，并确定w的情感极性；情感极性包含两种可能性：正面词或负面词；

2.否定词，具有否定含义的副词；

3.时态词，具有时态含义的副词；

4.转折词，具有转折含义的连接词；

5.普通词，不属于上述4种类型的其他单词。

3.根据权利要求1或2所述的中英文混合的网络用户评论的推荐度评分方法，其特征在于，上述步骤2)中按照语法树结构自底向上逐层计算句子情感评分的处理流程是：首先为情感词评分：正面情感词的评分为1，负面情感词的评分为-1；然后从语法树底层的树叶节点开始，自底向上计算树枝节点的情感评分：给定句子S＝<w1,w2,...,wn>，其中单词w组成树叶节点，n为单词总数；遍历每一个w，分以下5种情况处理：

1.单词w是普通词，忽略w；

2.单词w是情感词，采用累加的方式汇总到上层的“名词短语”或“动词短语”对应的树枝节点A，公式如下：

v(A)＝∑v(w)

其中v()表示对节点A或w的情感评分；

3.单词w是否定词，上溯到上层的“名词短语”或“动词短语”对应的树枝节点A，代表A的情感倾向反转，公式如下：

v(A)＝-1×v(A)；

4.单词w是时态词，上溯到上层的“简单从句”对应的树枝节点C，从句C的评分由所包含的“名词短语”和“动词短语”的评分累加获得，公式如下：

v(C)＝∑v(A)；

时态词代表从句C的情感倾向减弱，公式如下：

v(C)＝0.5×v(C)；

5.单词w是转折词，上溯到上层的“简单从句”对应的树枝节点C；转折词代表转折结构，需要确定w转折了所在从句的情感倾向，或者是关联从句的情感倾向；确定方法参照已公布的最新版本的词典；令w转折了从句C的情感倾向，则C的情感倾向减弱并反转，公式如下：

v(C)＝-0.5×v(C)；

v(S)＝∑v(C)。

4.根据权利要求3所述的中英文混合的网络用户评论的推荐度评分方法，其特征在于，上述步骤3)中根据单个句子的情感评分采用加权法完成目标用户评论的推荐度评分的处理流程是：给定目标评论R＝{S1,S2,...,Sm}，其中S为句子，m为评论R中的句子总数；句子Si的权重λ(Si)的计算公式如下：

λ(S_i)＝a×i²+b×i+c

其中i代表句子Si在评论R中的位置，即第i个句子；a,b,c是参数，其中a的取值空间为[0.2～0.8]，建议取值0.4，c的取值空间为[-3～1]，建议取值1.6；参数b的计算公式如下：

b＝-a×m；

<mrow> <mi>v</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>&lambda;</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>v</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中v(Si)是句子Si的情感评分；v(R)大于0表示评论者持肯定和推荐态度；等于0表示评论者持中立态度；小于0表示评论者持否定和反对态度。