CN102968408A

CN102968408A - 识别用户评论的实体特征方法

Info

Publication number: CN102968408A
Application number: CN2012104806747A
Authority: CN
Inventors: 黄健斌; 康剑梅; 慕鹏; 赵贝贝; 耿霄; 孙鹤立
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2012-11-23
Filing date: 2012-11-23
Publication date: 2013-03-13

Abstract

本发明公开一种识别用户评论的实体特征方法，主要解决现有实体特征自动提取技术在中文用户评论上正确率不高的问题。其实现步骤是：抽取适量的评论作为训练集，对训练集进行二级词性标注；基于关联规则分类方法CBA挖掘出频繁项集；对频繁项集中的实体特征的按照依存关系进行修正形成候选实体特征集合，然后实施可靠性判断，去除不可靠的实体特征，最后通过词汇语义相似度计算，合并近义的实体特征，形成实体特征邻接集合，从实体特征邻接集合筛选出有价值的用户评论，避免用户阅读大量的无价值信息，实现用户对某实体特征的针对性查找阅读。本发明适用于中文网络评论实体特征识别，准确度较高，具有可移植性，结构简单便于实现。

Description

识别用户评论的实体特征方法

技术领域

本发明属于计算机技术领域，涉及数据挖掘和自然语言处理，可用于对用户评论的主要实体特征进行识别。

背景技术

随着信息技术的飞速发展，Internet作为数字化的第四类媒体已成了当今全球最大的传播媒体。人们利用网络进行远程学习，使用网络了解社会时事，同样也通过网络在某个专题中就某个观点发表不同的看法，例如反馈对网络教学的建议或时事的看法。

越来越多的网络舆论热点显示，互联网已经成为中国网民社会参与的重要渠道。中国互联网络信息中心日前发布的数据显示，有56%的网民经常在网上发表评论，对于一件热门的实体，评论的数目可能是成千上万，所以仅以容量而言，即使版面最多的报纸在Internet面前也有河流入海之感。这些评论中包含用户对实体的性能或功能等方面特征持有肯定还是否定的态度，例如某位使用者针对某款手机：手机电池后盖很不合身，有明显的一条缝，操作键不灵敏，手机电池没得也太快了，额外买的电池换着用都感觉有点少，但是手机外观很漂亮。这使得有购买意愿的顾客通过阅读产品评论来决定是否购买变得非常困难。产品评论挖掘需要了解用户对产品的哪些功能、性能进行了评价，因此需要从评论语句中提取表达了用户评价的对象，即实体特征。实体特征识别是数据挖掘领域的重要任务之一，直接影响着主题挖掘的性能，因此如何从大量评论数据中发现有意义的实体特征是一个具有挑战性的问题，具有重要的理论意义和实用价值。

目前典型的实体特征识别分为人工定义和自动识别两类。人工定义实体特征的方法需要每一个领域的实体都有该领域的专家参与，因此不具有移植性。同时，人工定义实体特征不具备随产品新功能的添加而进行实时更新的功能。自动识别主要使用词性标注、句法分析、文本模式等自然语言技术对实体评论中的语句进行分析，从中自动发现实体特征，有较好的通用性和可移植性，但缺点是正确率不高，且当前的绝大部分自动提取技术都是针对英文用户评论展开的研究，对于识别中文网络评论实体特征的方法还很缺乏。

发明内容

本发明的目的在于针对上述已有技术的不足，提出了一种识别用户评论的实体特征方法和系统，以提高识别实体特征的准确性，使实体特征识别系统更便利和人性化，满足需要识别中文网络评论实体特征的系统用户的现实要求。

实现本发明的技术思路是：选取适量的用户评论作为训练集，通过基于关联规则分类方法CBA识别出频繁项作为实体特征候选集合，利用依存关系和可靠性判断来调整候选实体特征集合，实现用户评论实体特征的识别，具体步骤包括如下：

（1）选取评论数据作为训练集运用中国科学院计算机所软件室的中文分词工具ICTCLAS进行中文分词,即将一条评论数据切分成一个一个单独的词，然后对分词后的数据进行二级词性标注作为评论语料，二级词性标注包括形容词、动词、专有名词和情感词；

（2）基于关联规则分类方法CBA提取频繁项集：

2a）利用步骤（1）阶段的评论语料创建实体文件，即将一条评论中的名词或者基本名词短语作为一个实体单位，并定义为项集t_i，用所有训练集中的项集t_i构成一个事务文件T；

2b）利用关联规则CBA算法，找出实体文件中出现频繁的项集，即将最小支持度s大于1%的项集作为频繁项集,标记为F₁；

2b₁)通过关联规则CBA算法确定找出实体文件T所有形如X→Y的蕴含表达式集合M，其中X、Y均为项集t_i的子集，且X、Y互不相交；

2b₂）计算集合M中X→Y蕴含表达式的支持度s(X→Y)：

s (X &RightArrow; Y) = \frac{σ (X \cup Y)}{N}

其中

X∪Y是X和Y的并集，

表示项集t_i包含X和Y的并集，符号

表示集合中元素的个数，N为实体文件中项集的总个数；

2b₃）抽取满足s(X→Y)≥0.01条件的所有X、Y集合,X∪Y的并集构成频繁项集F1。

（3）调整频繁项集：

3a）对频繁项集F₁，按照依存关系对实体特征进行修正，形成候选实体特征集合F₂；

3b）对候选实体特征集合F₂结合情感词进行可靠性判断，若没有任何一个情感词在用户评论中与F₂中的实体特征相匹配，则此实体特征就是不可靠的实体特征，将其去除后形成实体特征集合F₃；

3c）计算实体特征集合F₃中的任意两个实体特征的词汇语义相似度sim(A，B)：

sim (A, B) = \frac{\log p (common (A, B))}{\log p (description (A, B))},

其中A和B表示F₂中的任意两个实体特征，common(A，B)表示两个实体特征A和B的共性，logp(common(A，B))表示两个实体特征A、B共性所需要的信息量大小，logp(description(A，B))表示完整的描述A、B所需要的信息量大小；

3d）合并近义的实体特征：

将实体特征集合F₃中的词汇语义相似度sim(A，B)与实体特征间相似度阈值m进行比较，判断两个实体特征是否合并，若sim(A，B)≥m，则把这两个实体特征合并，反之不进行合并，得到最终的实体特征邻接集合F₄，m值设定为0.5；

（4）当用户评论的数量每增加n条时，将新增加的评论作为训练集，重复步骤（1）到（3），添加新的实体特征到实体特征邻接集合F₄中，n值设定为1000；

（5）从实体特征邻接集合F₄中筛选出有价值的用户评论，避免用户阅读大量的无价值信息，实现用户对实体某特征的针对性查找阅读，所述的有价值的用户评论是指该用户评论包含实体特征的数目Value≥3的用户评论。

本发明与现有技术相比，具有如下优点：

1)本发明采用实体特征识别对用户评论数据进行处理，而这类数据广泛存在于手机、飞信、社交网络等网络通信系统上，因此与现有技术相比，本发明有着广泛的应用范围。

2)现有提出的许多算法都是针对英文评价，而中文语法结构较英文更为复杂多变，传统的实体特征识别方法通常只采用关联规则算法CBA处理，其所处理得到的实体特征正确性不高，而本发明在关联规则算法CBA处理的基础上，进一步利用依存关系和可靠性判断来调整实体特征集合，因此与现有技术相比，本发明具有较高的准确率。

附图说明

图1是本发明的实体特征识别的总流程图；

图2是本发明中调整频繁项集的子流程图。

具体实施方式

下面结合附图和具体实施实例对本发明做进一步说明：

一．术语说明

本发明中所涉及的术语包括实体特征、二级词性标注、实体文件、关联规则算法CBA、依存关系、可靠性判断和词汇语义相似度，其中：

实体特征，指的是用户评论的实体自身构造所形成的特色，即指实体的外形、质量、功能和包装，它能反映对用户的吸引力。

二级词性标注，是指在一级词性标注下的进一步细化，标注出形容词、动词、专有名词和情感词，主要差别在于：一级词性标注只标注出评论中的名词，动词；二级词性标注对词性情况的划分更为详细，如一级词性标注的名词在二级中标注为：具有名词功能的形容词或专有名词。

实体文件，是指利用二级词性标注后的评论语料创建的文件。首先需要对于评论预料建立事务数据库，并将事务数据库以文本文件的形式存储，本发明提取事务数据库中单独一条评论中的所有名词或基本名词短语作为一个实体单位，并定义为项集，所有项集构成一个事务文件。

关联规则算法CBA，是根据用户给定的最小支持度，找到实体文件中的支持度大于用户给定值的关联规则。该关联规则是形如X→Y的蕴涵式，X、Y均为项集的子集，X→Y蕴含表达式表示X、Y之间存在联系，即在一条用户评论中，由于X的出现导致了Y的出现，规则X→Y在集合中的支持度是实体文件中包含X和Y的句子或语块数与所有句子或语块数之比。在本发明中将词性标注后的句子中的名词和名词短语抽取出来，将最小支持度设为1%，通过基于关联规则算法CBA得到频繁特征集。

依存关系，指若某实体特征与邻接的词形成特定的依存关系，则这个词语就可以与实体特征合并，修正成新的候选实体特征。本发明针对三种依存关系进行处理：修饰关系ATT，并列关系COO，动宾关系VOB。

可靠性判断，指依靠情感关键词出现与否，本发明认为实体特征和情感词之间的搭配关系可以帮助辨别真实的属性。如果一个候选特征与一个情感词在文句中存在搭配关系，这个候选特征就更有可能是一个真实特征。

词汇语义相似度，是指通过计算词语语义相似度判断特征词之间是否相似，它是中文信息处理中的一个关键问题。本发明任何两个实体的相似度取决于他们的共性和个性，从信息理论的角度给出任意两个实体相似度的通用公式：

sim (A, B) = \frac{\log p (common (A, B))}{\log p (description (A, B))}

二．实施实例

本发明的方法在手机和平板电脑两种用户评论数据中实现，具体如下所述：

实施例1：利用本发明中的识别用户评论的实体特征方法，对真实的某手机网论数据进行了测试。

参照图1，本实例的实现步骤如下：

步骤1，选取当当网和卓越网从2011年9月到2012年9月的某热销手机的15000条用户评论数据作为训练集，运用中文分词工具ICTCLAS进行中文分词,即将15000条用户评论每一条评论数据切分成一个一个单独的词，然后对分词后的数据进行二级词性标注作为评论语料，二级词性标注的词语包括形容词、动词、专有名词和情感词。

步骤2，基于关联规则分类方法CBA从上述的评论语料中提取频繁项集。

（2a）利用步骤1阶段的评论语料创建实体文件，即将15,000条评论中每一条评论中的名词或者基本名词短语作为一个实体单位，并定义为项集t_i，用得到的15000个项集构成一个事务文件T；

（2b）利用关联规则CBA算法，找出实体文件中出现频繁的项集，即将最小支持度s大于1%的项集作为频繁项集,标记为F₁，具体计算步骤如下:

（2b₁)对于步骤（2a）得到的实体文件T，将其作为CBA算法的输入文件，通过关联规则CBA算法确定找出实体文件T所有形如X→Y的蕴含表达式集合M，其中X、Y均为项集t_i的子集,且X、Y互不相交；

（2b₂）计算集合M中X→Y蕴含表达式的支持度s(X→Y)：

s (X &RightArrow; Y) = \frac{σ (X \cup Y)}{N}

其中X∪Y是X和Y的并集，

表示项集t_i包含X和Y的并集，符号

表示集合中元素的个数，N为实体文件中项集的总个数；

（2b₃）抽取满足s(X→Y)≥0.01条件的所有X、Y集合,X∪Y的并集构成频繁项集F1。

找出所有的特征频繁集F1，这些项集出现的频繁性至少和预定义的最小支持度一样，本发明采用的最小支持度为1%；

步骤3，调整频繁项集：

参照图2，本步骤的实现步骤如下：

（3a）对频繁项集F₁，按照依存关系对实体特征进行修正，形成候选实体特征集合F₂；

针对频繁项集F₁，运用修饰关系ATT、并列关系COO、动宾关系VOB这三种依存关系进行修正，即若实体特征与邻接的词形成上诉三种依存关系中的一种，则这个词就可以与此实体特征进行连接，将此实体特征修正成新的实体特征。

此次修正中将修饰语“反应”和频繁项集F₁中的实体特征“速度”进行修正得到实体特征“反应速度”，同样方法得到“运行速度”、“屏幕分辨率”、“待机时间”等，修正后得到候选实体特征集合F₂；

（3b）对候选实体特征集合F₂结合情感词进行可靠性判断，若没有任何一个情感词在用户评论中与F₂中的实体特征相匹配，则此实体特征就是不可靠的实体特征，将其去除后形成实体特征集合F₃；

以特征集合F₂中的实体特征f₁为例，若f₁出现在全部的用户评论中，其出现位置的前后没有任何一个情感词与之相连，此情感词指分词工具ICTCLAS成功的划分出并进行了标注的情感词，则实体特征f₁就是不可靠的实体特征，将其去除后形成实体特征集合F₃；

（3c）计算实体特征集合F₃中的任意两个实体特征的词汇语义相似度sim(A，B)：

sim (A, B) = \frac{\log p (common (A, B))}{\log p (description (A, B))},

（3d）合并近义的实体特征：

在手机用户评论的实体特征集合F₃中，实体特征“价格”和“价钱”通过词汇语义相似度sim(A，B)的计算发现其互为近义词，则将其合并为实体特征“价格”，又如将实体特征“反应速度”和“灵敏度”合并为“反应速度”，这样将实体特征集合F₃中的所有近义的实体特征进行合并形成实体特征邻接集合F₄。

步骤4，当用户评论的数量每增加n条时，将新增加的评论作为训练集，重复步骤1到步骤3，添加新的实体特征到实体特征邻接集合F₄中，n值设定为1000；对于新抽取1000条评论，预处理后为1000条项集，执行步骤1到步骤3，添加新的实体特征到实体特征邻接集合F₄中。

通过以上步骤就完成了某热销手机用户评论数据的实体特征识别，结果见表1。

表1手机实体特征邻接集合F₄

步骤5，从实体特征邻接集合F₄中筛选出有价值的用户评论，避免用户阅读大量的无价值信息，实现用户对实体某特征的针对性查找阅读。

所述的有价值的用户评论是指该用户评论包含实体特征的数目Value≥3的用户评论，部分有价值的手机评论筛选结果见表2，

针对手机屏幕实体特征的部分查找结果见表3。

表2手机评论中有价值的用户评论

从表2中第一个评论“大小合适，客服解答问题耐心，只是铃声小了一点，FM天线是内置的就更好了，总之，物超所值，家人很喜欢。”，下划线标记的词语为实体特征（对应表1中的实体特征），该评论针对手机的大小、铃声和天线3个方面进行了描述，即Value＝3，用户可以了解到手机的这三个实体特征。因此通过阅读多个实体特征的评论，用户可以快速的了解该实体的主要特点，方便用户做出决策。

表3针对手机屏幕实体特征的部分查找结果

表3是针对某款手机的屏幕功能进行评论筛选后的结果，加黑字体为特征“屏幕”及其的不同描述。从结果中可以看出，本发明查找出了描述特征“屏幕”的评论。在该结果中，还能发现评论者对“屏幕”可能会使用不同的描述，例如“显示屏”、“显示器”等，本发明都成功将其识别出来，通过阅读关于某个实体特征的评论，用户可以了解这个实体特征的相关描述。

实施例2：利用本发明中的识别用户评论的实体特征方法，对真实的某平板电脑网论数据进行了测试。

参照图1，本实例的实现步骤如下：

步骤一，选取当当网和卓越网从2011年9月到2012年9月的某热销平板电脑的20000条用户评论数据作为训练集，运用中文分词工具ICTCLAS进行中文分词,即将20000条用户评论每一条评论数据切分成一个一个单独的词，然后对分词后的数据进行二级词性标注作为评论语料，二级词性标注的词语包括形容词、动词、专有名词和情感词。

步骤二，基于关联规则分类方法CBA从上述的评论语料中提取频繁项集。

2a）利用步骤一阶段的评论语料创建实体文件，即将20000条评论中每一条评论中的名词或者基本名词短语作为一个实体单位，并定义为项集t_i，用得到的20000个项集构成一个事务文件T；

2b）利用关联规则CBA算法，找出实体文件中出现频繁的项集，即将最小支持度s大于1%的项集作为频繁项集,标记为F₁，具体计算步骤如下:

2b₁）对于步骤2a得到的事务文件T，将其作为CBA算法的输入文件，通过关联规则CBA算法确定找出实体文件T所有形如X→Y的蕴含表达式集合M，其中X、Y均为项集t_i的子集,且X、Y互不相交；

2b₂）计算集合M中X→Y蕴含表达式的支持度s(X→Y)：

s (X &RightArrow; Y) = \frac{σ (X \cup Y)}{N}

其中

t_i∈T}|，X∪Y是X和Y的并集，

表示项集t_i包含X和Y的并集，符号

表示集合中元素的个数，N为实体文件中项集的总个数；

步骤三，调整频繁项集：

参照图2，本步骤的实现步骤如下：

此次修正中将修饰语“开机”与平板电脑频繁项集F₁中的实体特征“速度”进行修正得到实体特征为“开机速度”，同样方法得到实体特征为“屏幕分辨率”、“系统界面”等，修正后得到候选实体特征集合F₂；

以特征集合F₂中的实体特征n为例，若n出现在全部的用户评论中，其出现位置的前后没有任何一个情感词与之相连，此情感词指分词工具ICTCLAS成功的划分出并进行了标注的情感词，则实体特征f₁就是不可靠的实体特征，将其去除后形成实体特征集合F₃；

sim (A, B) = \frac{\log p (common (A, B))}{\log p (description (A, B))},

3d）合并近义的实体特征：

在平板电脑用户评论的实体特征集合F₃中，实体特征“散热”和“发热量”通过词汇语义相似度sim(A，B)的计算发现其互为近义词，则将其合并为实体特征“散热”，又如将实体特征“待机时间”和“续航时间”合并为“待机时间”，这样将实体特征集合F₃中的所有近义的实体特征进行合并形成实体特征邻接集合F₄。

步骤四，当用户评论的数量每增加n条时，将新增加的评论作为训练集，重复步骤一到步骤三，添加新的实体特征到实体特征邻接集合F₄中，n值设定为1000；对于新抽取1000条评论，预处理后为1000条项集，执行步骤一到步骤三，添加新的实体特征到实体特征邻接集合F₄中。

通过以上步骤就完成了平板电脑评论数据的实体特征识别，结果见表4。

表4平板电脑实体特征邻接集合F₄

步骤五，从实体特征邻接集合F₄中筛选出有价值的用户评论，避免用户阅读大量的无价值信息，实现用户对实体某特征的针对性查找阅读。

所述的有价值的用户评论是指该用户评论包含实体特征的数目Value≥3的用户评论，部分有价值的平板电脑评论筛选结果见表5，

针对平板电脑的电池这个实体特征的用户评论的部分查找结果见表6。

表5平板电脑评论中有价值的用户评论

表5中下划线标记的词语是对应表4中的实体特征，以评论1为例：“就应该是这种尺寸，拿着非常轻，字体非常清晰，比全尺寸的ipad好得太多，就是价格波动太大付款后到拿到货的工夫降价200....这。。。各位谨慎赞”，该评论针对平板电脑的尺寸、字体等多个实体特征方面进行描述，使用户能获得平板电脑更多有意义的信息。

表6针对电池实体特征的部分查找结果

表6是针对某款平板电脑的电池功能进行评论筛选后的结果，加黑字体为特征“屏幕”及其的不同描述。用户如果想要购买待机时间长的电脑，可以通过阅读不同用户对该电脑的“电池”、“耗电量”等方面的描述进行了解。

Claims

1.一种识别用户评论的实体特征方法，包括如下步骤：

（1）选取评论数据作为训练集运用中国科学院计算机所软件室的中文分词工具ICTCLAS进行中文分词,即将一条评论数据切分成一个一个单独的词，然后对分词后的数据进行二级词性标注作为评论语料，二级词性标注包括形容词、动词、专有名词，和情感词；

（2）基于关联规则分类方法CBA提取频繁项集：

2a）利用步骤（1）阶段的评论语料创建实体文件，即将一条评论中的名词或者基本名词短语作为一个实体单位，并定义为项集t_i，用所有训练集中的项集t_i构成一个实体文件T；

2b）利用关联规则CBA算法，找出文件T中出现频繁的项集，即将最小支持度s大于1%的项集作为频繁项集,标记为F₁；

（3）调整频繁项集：

sim (A, B) = \frac{\log p (common (A, B))}{\log p (description (A, B))},

其中A和B表示F₂中的任意两个实体特征，common(A，B)表示两个实体特征A和B的共性，log p(common(A，B))表示两个实体特征A、B共性所需要的信息量大小，log p(description(A，B))表示完整的描述A、B所需要的信息量大小；

3d）合并近义的实体特征：

2.根据权利要求1所述的方法，其中步骤2b）所述的利用关联规则CBA算法，找出实体文件中出现的频繁项集，按如下步骤进行：

2a）通过关联规则CBA算法确定找出实体文件T所有形如X→Y的蕴含表达式集合M，其中X、Y均为项集t_i的子集,且X、Y互不相交；

2b）计算集合M中X→Y蕴含表达式的支持度s(X→Y)：

s (X &RightArrow; Y) = \frac{σ (X \cup Y)}{N}

其中

σ (X \cup Y) = | {t_{i} | (X \cup Y) &SubsetEqual; t_{i}, t_{i} &Element; T} |,

X∪Y是X和Y的并集，

(X \cup Y) &SubsetEqual; t_{i}

表示项集t_i包含X和Y的并集，符号

表示集合中元素的个数，N为实体文件中项集的总个数；

2c）将s(X→Y)≥0.01的所有X、Y集合的实体特征进行合并，构成频繁项集F1。

3.根据权利要求1所述的方法，其中步骤3a）所述的按照依存关系对实体特征进行修正，是指按照修饰、并列、动宾这三种依存关系对实体特征进行细化。

若实体特征与邻接的词形成上诉三种依存关系中的一种，则这个词就可以与此实体特征进行连接，将此实体特征修正成新的实体特征。

4.根据权利要求1所述的方法，其中步骤（5）所述的用户对实体某特征的针对性查找阅读，是指用户指定某个实体特征，阅读该实体特征相关的评论，如用户可在待机时间、续航时间、续航、续航能力、待机、电池、电容、耗电量、电量和用电量这些实体特征中，通过对任意一个实体特征的筛选，阅读此实体特征对应的用户评论，从而查找出待机时间长的手机。