CN102968408A - 识别用户评论的实体特征方法 - Google Patents

识别用户评论的实体特征方法 Download PDF

Info

Publication number
CN102968408A
CN102968408A CN2012104806747A CN201210480674A CN102968408A CN 102968408 A CN102968408 A CN 102968408A CN 2012104806747 A CN2012104806747 A CN 2012104806747A CN 201210480674 A CN201210480674 A CN 201210480674A CN 102968408 A CN102968408 A CN 102968408A
Authority
CN
China
Prior art keywords
substance
substance feature
feature
comment
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104806747A
Other languages
English (en)
Inventor
黄健斌
康剑梅
慕鹏
赵贝贝
耿霄
孙鹤立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN2012104806747A priority Critical patent/CN102968408A/zh
Publication of CN102968408A publication Critical patent/CN102968408A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种识别用户评论的实体特征方法,主要解决现有实体特征自动提取技术在中文用户评论上正确率不高的问题。其实现步骤是:抽取适量的评论作为训练集,对训练集进行二级词性标注;基于关联规则分类方法CBA挖掘出频繁项集;对频繁项集中的实体特征的按照依存关系进行修正形成候选实体特征集合,然后实施可靠性判断,去除不可靠的实体特征,最后通过词汇语义相似度计算,合并近义的实体特征,形成实体特征邻接集合,从实体特征邻接集合筛选出有价值的用户评论,避免用户阅读大量的无价值信息,实现用户对某实体特征的针对性查找阅读。本发明适用于中文网络评论实体特征识别,准确度较高,具有可移植性,结构简单便于实现。

Description

识别用户评论的实体特征方法
技术领域
本发明属于计算机技术领域,涉及数据挖掘和自然语言处理,可用于对用户评论的主要实体特征进行识别。
背景技术
随着信息技术的飞速发展,Internet作为数字化的第四类媒体已成了当今全球最大的传播媒体。人们利用网络进行远程学习,使用网络了解社会时事,同样也通过网络在某个专题中就某个观点发表不同的看法,例如反馈对网络教学的建议或时事的看法。
越来越多的网络舆论热点显示,互联网已经成为中国网民社会参与的重要渠道。中国互联网络信息中心日前发布的数据显示,有56%的网民经常在网上发表评论,对于一件热门的实体,评论的数目可能是成千上万,所以仅以容量而言,即使版面最多的报纸在Internet面前也有河流入海之感。这些评论中包含用户对实体的性能或功能等方面特征持有肯定还是否定的态度,例如某位使用者针对某款手机:手机电池后盖很不合身,有明显的一条缝,操作键不灵敏,手机电池没得也太快了,额外买的电池换着用都感觉有点少,但是手机外观很漂亮。这使得有购买意愿的顾客通过阅读产品评论来决定是否购买变得非常困难。产品评论挖掘需要了解用户对产品的哪些功能、性能进行了评价,因此需要从评论语句中提取表达了用户评价的对象,即实体特征。实体特征识别是数据挖掘领域的重要任务之一,直接影响着主题挖掘的性能,因此如何从大量评论数据中发现有意义的实体特征是一个具有挑战性的问题,具有重要的理论意义和实用价值。
目前典型的实体特征识别分为人工定义和自动识别两类。人工定义实体特征的方法需要每一个领域的实体都有该领域的专家参与,因此不具有移植性。同时,人工定义实体特征不具备随产品新功能的添加而进行实时更新的功能。自动识别主要使用词性标注、句法分析、文本模式等自然语言技术对实体评论中的语句进行分析,从中自动发现实体特征,有较好的通用性和可移植性,但缺点是正确率不高,且当前的绝大部分自动提取技术都是针对英文用户评论展开的研究,对于识别中文网络评论实体特征的方法还很缺乏。
发明内容
本发明的目的在于针对上述已有技术的不足,提出了一种识别用户评论的实体特征方法和系统,以提高识别实体特征的准确性,使实体特征识别系统更便利和人性化,满足需要识别中文网络评论实体特征的系统用户的现实要求。
实现本发明的技术思路是:选取适量的用户评论作为训练集,通过基于关联规则分类方法CBA识别出频繁项作为实体特征候选集合,利用依存关系和可靠性判断来调整候选实体特征集合,实现用户评论实体特征的识别,具体步骤包括如下:
(1)选取评论数据作为训练集运用中国科学院计算机所软件室的中文分词工具ICTCLAS进行中文分词,即将一条评论数据切分成一个一个单独的词,然后对分词后的数据进行二级词性标注作为评论语料,二级词性标注包括形容词、动词、专有名词和情感词;
(2)基于关联规则分类方法CBA提取频繁项集:
2a)利用步骤(1)阶段的评论语料创建实体文件,即将一条评论中的名词或者基本名词短语作为一个实体单位,并定义为项集ti,用所有训练集中的项集ti构成一个事务文件T;
2b)利用关联规则CBA算法,找出实体文件中出现频繁的项集,即将最小支持度s大于1%的项集作为频繁项集,标记为F1
2b1)通过关联规则CBA算法确定找出实体文件T所有形如X→Y的蕴含表达式集合M,其中X、Y均为项集ti的子集,且X、Y互不相交;
2b2)计算集合M中X→Y蕴含表达式的支持度s(X→Y):
s ( X → Y ) = σ ( X ∪ Y ) N
其中
Figure BDA00002452287400022
X∪Y是X和Y的并集,
Figure BDA00002452287400023
表示项集ti包含X和Y的并集,符号
Figure BDA00002452287400024
表示集合中元素的个数,N为实体文件中项集的总个数;
2b3)抽取满足s(X→Y)≥0.01条件的所有X、Y集合,X∪Y的并集构成频繁项集F1。
(3)调整频繁项集:
3a)对频繁项集F1,按照依存关系对实体特征进行修正,形成候选实体特征集合F2
3b)对候选实体特征集合F2结合情感词进行可靠性判断,若没有任何一个情感词在用户评论中与F2中的实体特征相匹配,则此实体特征就是不可靠的实体特征,将其去除后形成实体特征集合F3
3c)计算实体特征集合F3中的任意两个实体特征的词汇语义相似度sim(A,B):
sim ( A , B ) = log p ( common ( A , B ) ) log p ( description ( A , B ) ) ,
其中A和B表示F2中的任意两个实体特征,common(A,B)表示两个实体特征A和B的共性,logp(common(A,B))表示两个实体特征A、B共性所需要的信息量大小,logp(description(A,B))表示完整的描述A、B所需要的信息量大小;
3d)合并近义的实体特征:
将实体特征集合F3中的词汇语义相似度sim(A,B)与实体特征间相似度阈值m进行比较,判断两个实体特征是否合并,若sim(A,B)≥m,则把这两个实体特征合并,反之不进行合并,得到最终的实体特征邻接集合F4,m值设定为0.5;
(4)当用户评论的数量每增加n条时,将新增加的评论作为训练集,重复步骤(1)到(3),添加新的实体特征到实体特征邻接集合F4中,n值设定为1000;
(5)从实体特征邻接集合F4中筛选出有价值的用户评论,避免用户阅读大量的无价值信息,实现用户对实体某特征的针对性查找阅读,所述的有价值的用户评论是指该用户评论包含实体特征的数目Value≥3的用户评论。
本发明与现有技术相比,具有如下优点:
1)本发明采用实体特征识别对用户评论数据进行处理,而这类数据广泛存在于手机、飞信、社交网络等网络通信系统上,因此与现有技术相比,本发明有着广泛的应用范围。
2)现有提出的许多算法都是针对英文评价,而中文语法结构较英文更为复杂多变,传统的实体特征识别方法通常只采用关联规则算法CBA处理,其所处理得到的实体特征正确性不高,而本发明在关联规则算法CBA处理的基础上,进一步利用依存关系和可靠性判断来调整实体特征集合,因此与现有技术相比,本发明具有较高的准确率。
附图说明
图1是本发明的实体特征识别的总流程图;
图2是本发明中调整频繁项集的子流程图。
具体实施方式
下面结合附图和具体实施实例对本发明做进一步说明:
一.术语说明
本发明中所涉及的术语包括实体特征、二级词性标注、实体文件、关联规则算法CBA、依存关系、可靠性判断和词汇语义相似度,其中:
实体特征,指的是用户评论的实体自身构造所形成的特色,即指实体的外形、质量、功能和包装,它能反映对用户的吸引力。
二级词性标注,是指在一级词性标注下的进一步细化,标注出形容词、动词、专有名词和情感词,主要差别在于:一级词性标注只标注出评论中的名词,动词;二级词性标注对词性情况的划分更为详细,如一级词性标注的名词在二级中标注为:具有名词功能的形容词或专有名词。
实体文件,是指利用二级词性标注后的评论语料创建的文件。首先需要对于评论预料建立事务数据库,并将事务数据库以文本文件的形式存储,本发明提取事务数据库中单独一条评论中的所有名词或基本名词短语作为一个实体单位,并定义为项集,所有项集构成一个事务文件。
关联规则算法CBA,是根据用户给定的最小支持度,找到实体文件中的支持度大于用户给定值的关联规则。该关联规则是形如X→Y的蕴涵式,X、Y均为项集的子集,X→Y蕴含表达式表示X、Y之间存在联系,即在一条用户评论中,由于X的出现导致了Y的出现,规则X→Y在集合中的支持度是实体文件中包含X和Y的句子或语块数与所有句子或语块数之比。在本发明中将词性标注后的句子中的名词和名词短语抽取出来,将最小支持度设为1%,通过基于关联规则算法CBA得到频繁特征集。
依存关系,指若某实体特征与邻接的词形成特定的依存关系,则这个词语就可以与实体特征合并,修正成新的候选实体特征。本发明针对三种依存关系进行处理:修饰关系ATT,并列关系COO,动宾关系VOB。
可靠性判断,指依靠情感关键词出现与否,本发明认为实体特征和情感词之间的搭配关系可以帮助辨别真实的属性。如果一个候选特征与一个情感词在文句中存在搭配关系,这个候选特征就更有可能是一个真实特征。
词汇语义相似度,是指通过计算词语语义相似度判断特征词之间是否相似,它是中文信息处理中的一个关键问题。本发明任何两个实体的相似度取决于他们的共性和个性,从信息理论的角度给出任意两个实体相似度的通用公式:
sim ( A , B ) = log p ( common ( A , B ) ) log p ( description ( A , B ) )
其中A和B表示F2中的任意两个实体特征,common(A,B)表示两个实体特征A和B的共性,logp(common(A,B))表示两个实体特征A、B共性所需要的信息量大小,logp(description(A,B))表示完整的描述A、B所需要的信息量大小;
二.实施实例
本发明的方法在手机和平板电脑两种用户评论数据中实现,具体如下所述:
实施例1:利用本发明中的识别用户评论的实体特征方法,对真实的某手机网论数据进行了测试。
参照图1,本实例的实现步骤如下:
步骤1,选取当当网和卓越网从2011年9月到2012年9月的某热销手机的15000条用户评论数据作为训练集,运用中文分词工具ICTCLAS进行中文分词,即将15000条用户评论每一条评论数据切分成一个一个单独的词,然后对分词后的数据进行二级词性标注作为评论语料,二级词性标注的词语包括形容词、动词、专有名词和情感词。
步骤2,基于关联规则分类方法CBA从上述的评论语料中提取频繁项集。
(2a)利用步骤1阶段的评论语料创建实体文件,即将15,000条评论中每一条评论中的名词或者基本名词短语作为一个实体单位,并定义为项集ti,用得到的15000个项集构成一个事务文件T;
(2b)利用关联规则CBA算法,找出实体文件中出现频繁的项集,即将最小支持度s大于1%的项集作为频繁项集,标记为F1,具体计算步骤如下:
(2b1)对于步骤(2a)得到的实体文件T,将其作为CBA算法的输入文件,通过关联规则CBA算法确定找出实体文件T所有形如X→Y的蕴含表达式集合M,其中X、Y均为项集ti的子集,且X、Y互不相交;
(2b2)计算集合M中X→Y蕴含表达式的支持度s(X→Y):
s ( X → Y ) = σ ( X ∪ Y ) N
其中X∪Y是X和Y的并集,
Figure BDA00002452287400063
表示项集ti包含X和Y的并集,符号
Figure BDA00002452287400064
表示集合中元素的个数,N为实体文件中项集的总个数;
(2b3)抽取满足s(X→Y)≥0.01条件的所有X、Y集合,X∪Y的并集构成频繁项集F1。
找出所有的特征频繁集F1,这些项集出现的频繁性至少和预定义的最小支持度一样,本发明采用的最小支持度为1%;
步骤3,调整频繁项集:
参照图2,本步骤的实现步骤如下:
(3a)对频繁项集F1,按照依存关系对实体特征进行修正,形成候选实体特征集合F2
针对频繁项集F1,运用修饰关系ATT、并列关系COO、动宾关系VOB这三种依存关系进行修正,即若实体特征与邻接的词形成上诉三种依存关系中的一种,则这个词就可以与此实体特征进行连接,将此实体特征修正成新的实体特征。
此次修正中将修饰语“反应”和频繁项集F1中的实体特征“速度”进行修正得到实体特征“反应速度”,同样方法得到“运行速度”、“屏幕分辨率”、“待机时间”等,修正后得到候选实体特征集合F2
(3b)对候选实体特征集合F2结合情感词进行可靠性判断,若没有任何一个情感词在用户评论中与F2中的实体特征相匹配,则此实体特征就是不可靠的实体特征,将其去除后形成实体特征集合F3
以特征集合F2中的实体特征f1为例,若f1出现在全部的用户评论中,其出现位置的前后没有任何一个情感词与之相连,此情感词指分词工具ICTCLAS成功的划分出并进行了标注的情感词,则实体特征f1就是不可靠的实体特征,将其去除后形成实体特征集合F3
(3c)计算实体特征集合F3中的任意两个实体特征的词汇语义相似度sim(A,B):
sim ( A , B ) = log p ( common ( A , B ) ) log p ( description ( A , B ) ) ,
其中A和B表示F2中的任意两个实体特征,common(A,B)表示两个实体特征A和B的共性,logp(common(A,B))表示两个实体特征A、B共性所需要的信息量大小,logp(description(A,B))表示完整的描述A、B所需要的信息量大小;
(3d)合并近义的实体特征:
将实体特征集合F3中的词汇语义相似度sim(A,B)与实体特征间相似度阈值m进行比较,判断两个实体特征是否合并,若sim(A,B)≥m,则把这两个实体特征合并,反之不进行合并,得到最终的实体特征邻接集合F4,m值设定为0.5;
在手机用户评论的实体特征集合F3中,实体特征“价格”和“价钱”通过词汇语义相似度sim(A,B)的计算发现其互为近义词,则将其合并为实体特征“价格”,又如将实体特征“反应速度”和“灵敏度”合并为“反应速度”,这样将实体特征集合F3中的所有近义的实体特征进行合并形成实体特征邻接集合F4
步骤4,当用户评论的数量每增加n条时,将新增加的评论作为训练集,重复步骤1到步骤3,添加新的实体特征到实体特征邻接集合F4中,n值设定为1000;对于新抽取1000条评论,预处理后为1000条项集,执行步骤1到步骤3,添加新的实体特征到实体特征邻接集合F4中。
通过以上步骤就完成了某热销手机用户评论数据的实体特征识别,结果见表1。
表1手机实体特征邻接集合F4
Figure BDA00002452287400072
Figure BDA00002452287400081
Figure BDA00002452287400091
步骤5,从实体特征邻接集合F4中筛选出有价值的用户评论,避免用户阅读大量的无价值信息,实现用户对实体某特征的针对性查找阅读。
所述的有价值的用户评论是指该用户评论包含实体特征的数目Value≥3的用户评论,部分有价值的手机评论筛选结果见表2,
针对手机屏幕实体特征的部分查找结果见表3。
表2手机评论中有价值的用户评论
Figure BDA00002452287400101
从表2中第一个评论“大小合适,客服解答问题耐心,只是铃声小了一点,FM天线是内置的就更好了,总之,物超所值,家人很喜欢。”,下划线标记的词语为实体特征(对应表1中的实体特征),该评论针对手机的大小、铃声和天线3个方面进行了描述,即Value=3,用户可以了解到手机的这三个实体特征。因此通过阅读多个实体特征的评论,用户可以快速的了解该实体的主要特点,方便用户做出决策。
表3针对手机屏幕实体特征的部分查找结果
Figure BDA00002452287400102
表3是针对某款手机的屏幕功能进行评论筛选后的结果,加黑字体为特征“屏幕”及其的不同描述。从结果中可以看出,本发明查找出了描述特征“屏幕”的评论。在该结果中,还能发现评论者对“屏幕”可能会使用不同的描述,例如“显示屏”、“显示器”等,本发明都成功将其识别出来,通过阅读关于某个实体特征的评论,用户可以了解这个实体特征的相关描述。
实施例2:利用本发明中的识别用户评论的实体特征方法,对真实的某平板电脑网论数据进行了测试。
参照图1,本实例的实现步骤如下:
步骤一,选取当当网和卓越网从2011年9月到2012年9月的某热销平板电脑的20000条用户评论数据作为训练集,运用中文分词工具ICTCLAS进行中文分词,即将20000条用户评论每一条评论数据切分成一个一个单独的词,然后对分词后的数据进行二级词性标注作为评论语料,二级词性标注的词语包括形容词、动词、专有名词和情感词。
步骤二,基于关联规则分类方法CBA从上述的评论语料中提取频繁项集。
2a)利用步骤一阶段的评论语料创建实体文件,即将20000条评论中每一条评论中的名词或者基本名词短语作为一个实体单位,并定义为项集ti,用得到的20000个项集构成一个事务文件T;
2b)利用关联规则CBA算法,找出实体文件中出现频繁的项集,即将最小支持度s大于1%的项集作为频繁项集,标记为F1,具体计算步骤如下:
2b1)对于步骤2a得到的事务文件T,将其作为CBA算法的输入文件,通过关联规则CBA算法确定找出实体文件T所有形如X→Y的蕴含表达式集合M,其中X、Y均为项集ti的子集,且X、Y互不相交;
2b2)计算集合M中X→Y蕴含表达式的支持度s(X→Y):
s ( X → Y ) = σ ( X ∪ Y ) N
其中
Figure BDA00002452287400112
ti∈T}|,X∪Y是X和Y的并集,
Figure BDA00002452287400113
表示项集ti包含X和Y的并集,符号
Figure BDA00002452287400114
表示集合中元素的个数,N为实体文件中项集的总个数;
2b3)抽取满足s(X→Y)≥0.01条件的所有X、Y集合,X∪Y的并集构成频繁项集F1。
找出所有的特征频繁集F1,这些项集出现的频繁性至少和预定义的最小支持度一样,本发明采用的最小支持度为1%;
步骤三,调整频繁项集:
参照图2,本步骤的实现步骤如下:
3a)对频繁项集F1,按照依存关系对实体特征进行修正,形成候选实体特征集合F2
针对频繁项集F1,运用修饰关系ATT、并列关系COO、动宾关系VOB这三种依存关系进行修正,即若实体特征与邻接的词形成上诉三种依存关系中的一种,则这个词就可以与此实体特征进行连接,将此实体特征修正成新的实体特征。
此次修正中将修饰语“开机”与平板电脑频繁项集F1中的实体特征“速度”进行修正得到实体特征为“开机速度”,同样方法得到实体特征为“屏幕分辨率”、“系统界面”等,修正后得到候选实体特征集合F2
3b)对候选实体特征集合F2结合情感词进行可靠性判断,若没有任何一个情感词在用户评论中与F2中的实体特征相匹配,则此实体特征就是不可靠的实体特征,将其去除后形成实体特征集合F3
以特征集合F2中的实体特征n为例,若n出现在全部的用户评论中,其出现位置的前后没有任何一个情感词与之相连,此情感词指分词工具ICTCLAS成功的划分出并进行了标注的情感词,则实体特征f1就是不可靠的实体特征,将其去除后形成实体特征集合F3
3c)计算实体特征集合F3中的任意两个实体特征的词汇语义相似度sim(A,B):
sim ( A , B ) = log p ( common ( A , B ) ) log p ( description ( A , B ) ) ,
其中A和B表示F2中的任意两个实体特征,common(A,B)表示两个实体特征A和B的共性,logp(common(A,B))表示两个实体特征A、B共性所需要的信息量大小,logp(description(A,B))表示完整的描述A、B所需要的信息量大小;
3d)合并近义的实体特征:
将实体特征集合F3中的词汇语义相似度sim(A,B)与实体特征间相似度阈值m进行比较,判断两个实体特征是否合并,若sim(A,B)≥m,则把这两个实体特征合并,反之不进行合并,得到最终的实体特征邻接集合F4,m值设定为0.5;
在平板电脑用户评论的实体特征集合F3中,实体特征“散热”和“发热量”通过词汇语义相似度sim(A,B)的计算发现其互为近义词,则将其合并为实体特征“散热”,又如将实体特征“待机时间”和“续航时间”合并为“待机时间”,这样将实体特征集合F3中的所有近义的实体特征进行合并形成实体特征邻接集合F4
步骤四,当用户评论的数量每增加n条时,将新增加的评论作为训练集,重复步骤一到步骤三,添加新的实体特征到实体特征邻接集合F4中,n值设定为1000;对于新抽取1000条评论,预处理后为1000条项集,执行步骤一到步骤三,添加新的实体特征到实体特征邻接集合F4中。
通过以上步骤就完成了平板电脑评论数据的实体特征识别,结果见表4。
表4平板电脑实体特征邻接集合F4
Figure BDA00002452287400131
Figure BDA00002452287400141
步骤五,从实体特征邻接集合F4中筛选出有价值的用户评论,避免用户阅读大量的无价值信息,实现用户对实体某特征的针对性查找阅读。
所述的有价值的用户评论是指该用户评论包含实体特征的数目Value≥3的用户评论,部分有价值的平板电脑评论筛选结果见表5,
针对平板电脑的电池这个实体特征的用户评论的部分查找结果见表6。
表5平板电脑评论中有价值的用户评论
Figure BDA00002452287400142
表5中下划线标记的词语是对应表4中的实体特征,以评论1为例:“就应该是这种尺寸,拿着非常轻,字体非常清晰,比全尺寸的ipad好得太多,就是价格波动太大付款后到拿到货的工夫降200....这。。。各位谨慎赞”,该评论针对平板电脑的尺寸、字体等多个实体特征方面进行描述,使用户能获得平板电脑更多有意义的信息。
表6针对电池实体特征的部分查找结果
Figure BDA00002452287400152
Figure BDA00002452287400161
表6是针对某款平板电脑的电池功能进行评论筛选后的结果,加黑字体为特征“屏幕”及其的不同描述。用户如果想要购买待机时间长的电脑,可以通过阅读不同用户对该电脑的“电池”、“耗电量”等方面的描述进行了解。

Claims (4)

1.一种识别用户评论的实体特征方法,包括如下步骤:
(1)选取评论数据作为训练集运用中国科学院计算机所软件室的中文分词工具ICTCLAS进行中文分词,即将一条评论数据切分成一个一个单独的词,然后对分词后的数据进行二级词性标注作为评论语料,二级词性标注包括形容词、动词、专有名词,和情感词;
(2)基于关联规则分类方法CBA提取频繁项集:
2a)利用步骤(1)阶段的评论语料创建实体文件,即将一条评论中的名词或者基本名词短语作为一个实体单位,并定义为项集ti,用所有训练集中的项集ti构成一个实体文件T;
2b)利用关联规则CBA算法,找出文件T中出现频繁的项集,即将最小支持度s大于1%的项集作为频繁项集,标记为F1
(3)调整频繁项集:
3a)对频繁项集F1,按照依存关系对实体特征进行修正,形成候选实体特征集合F2
3b)对候选实体特征集合F2结合情感词进行可靠性判断,若没有任何一个情感词在用户评论中与F2中的实体特征相匹配,则此实体特征就是不可靠的实体特征,将其去除后形成实体特征集合F3
3c)计算实体特征集合F3中的任意两个实体特征的词汇语义相似度sim(A,B):
sim ( A , B ) = log p ( common ( A , B ) ) log p ( description ( A , B ) ) ,
其中A和B表示F2中的任意两个实体特征,common(A,B)表示两个实体特征A和B的共性,log p(common(A,B))表示两个实体特征A、B共性所需要的信息量大小,log p(description(A,B))表示完整的描述A、B所需要的信息量大小;
3d)合并近义的实体特征:
将实体特征集合F3中的词汇语义相似度sim(A,B)与实体特征间相似度阈值m进行比较,判断两个实体特征是否合并,若sim(A,B)≥m,则把这两个实体特征合并,反之不进行合并,得到最终的实体特征邻接集合F4,m值设定为0.5;
(4)当用户评论的数量每增加n条时,将新增加的评论作为训练集,重复步骤(1)到(3),添加新的实体特征到实体特征邻接集合F4中,n值设定为1000;
(5)从实体特征邻接集合F4中筛选出有价值的用户评论,避免用户阅读大量的无价值信息,实现用户对实体某特征的针对性查找阅读,所述的有价值的用户评论是指该用户评论包含实体特征的数目Value≥3的用户评论。
2.根据权利要求1所述的方法,其中步骤2b)所述的利用关联规则CBA算法,找出实体文件中出现的频繁项集,按如下步骤进行:
2a)通过关联规则CBA算法确定找出实体文件T所有形如X→Y的蕴含表达式集合M,其中X、Y均为项集ti的子集,且X、Y互不相交;
2b)计算集合M中X→Y蕴含表达式的支持度s(X→Y):
s ( X → Y ) = σ ( X ∪ Y ) N
其中 σ ( X ∪ Y ) = | { t i | ( X ∪ Y ) ⊆ t i , t i ∈ T } | , X∪Y是X和Y的并集, ( X ∪ Y ) ⊆ t i 表示项集ti包含X和Y的并集,符号
Figure FDA00002452287300024
表示集合中元素的个数,N为实体文件中项集的总个数;
2c)将s(X→Y)≥0.01的所有X、Y集合的实体特征进行合并,构成频繁项集F1。
3.根据权利要求1所述的方法,其中步骤3a)所述的按照依存关系对实体特征进行修正,是指按照修饰、并列、动宾这三种依存关系对实体特征进行细化。
若实体特征与邻接的词形成上诉三种依存关系中的一种,则这个词就可以与此实体特征进行连接,将此实体特征修正成新的实体特征。
4.根据权利要求1所述的方法,其中步骤(5)所述的用户对实体某特征的针对性查找阅读,是指用户指定某个实体特征,阅读该实体特征相关的评论,如用户可在待机时间、续航时间、续航、续航能力、待机、电池、电容、耗电量、电量和用电量这些实体特征中,通过对任意一个实体特征的筛选,阅读此实体特征对应的用户评论,从而查找出待机时间长的手机。
CN2012104806747A 2012-11-23 2012-11-23 识别用户评论的实体特征方法 Pending CN102968408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104806747A CN102968408A (zh) 2012-11-23 2012-11-23 识别用户评论的实体特征方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104806747A CN102968408A (zh) 2012-11-23 2012-11-23 识别用户评论的实体特征方法

Publications (1)

Publication Number Publication Date
CN102968408A true CN102968408A (zh) 2013-03-13

Family

ID=47798556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104806747A Pending CN102968408A (zh) 2012-11-23 2012-11-23 识别用户评论的实体特征方法

Country Status (1)

Country Link
CN (1) CN102968408A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279460A (zh) * 2013-05-24 2013-09-04 北京尚友通达信息技术有限公司 网购评论的分析处理方法
CN103886051A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于实体及特征的评论分析方法
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
CN104281665A (zh) * 2014-09-25 2015-01-14 北京百度网讯科技有限公司 一种用于确定评论的有效性的方法与装置
CN104462132A (zh) * 2013-09-23 2015-03-25 华为技术有限公司 评论信息的显示方法及装置
CN105022842A (zh) * 2015-08-24 2015-11-04 北京网田科技发展有限公司 一种笔记推送方法及系统
CN105095209A (zh) * 2014-04-21 2015-11-25 北京金山网络科技有限公司 文档聚类方法及装置、网络设备
CN105939282A (zh) * 2016-02-04 2016-09-14 杭州迪普科技有限公司 分组大小的调整方法及装置
CN106021232A (zh) * 2016-05-24 2016-10-12 北京工商大学 一种基于依存句法关系的微博马甲账号识别方法
WO2018045910A1 (zh) * 2016-09-09 2018-03-15 阿里巴巴集团控股有限公司 情感倾向的识别方法、对象分类方法及数据处理系统
CN107943787A (zh) * 2017-11-16 2018-04-20 北京百度网讯科技有限公司 收集用户反馈的方法、装置、设备及计算机可读介质
CN108132947A (zh) * 2016-12-01 2018-06-08 百度在线网络技术(北京)有限公司 实体挖掘系统和方法
CN109670187A (zh) * 2018-12-28 2019-04-23 河南大学 基于互联网文本描述数据的软件共性特征提取方法
CN110633351A (zh) * 2018-05-30 2019-12-31 北京百度网讯科技有限公司 用于处理评论的方法、装置、设备和计算机可读存储介质
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及系统
CN113420122A (zh) * 2021-06-24 2021-09-21 平安科技(深圳)有限公司 分析文本的方法、装置、设备及存储介质
US11188968B2 (en) 2020-02-28 2021-11-30 International Business Machines Corporation Component based review system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN102737013A (zh) * 2011-04-02 2012-10-17 三星电子(中国)研发中心 基于依存关系来识别语句情感的设备和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN102737013A (zh) * 2011-04-02 2012-10-17 三星电子(中国)研发中心 基于依存关系来识别语句情感的设备和方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279460B (zh) * 2013-05-24 2017-02-08 北京尚友通达信息技术有限公司 网购评论的分析处理方法
CN103279460A (zh) * 2013-05-24 2013-09-04 北京尚友通达信息技术有限公司 网购评论的分析处理方法
CN104462132A (zh) * 2013-09-23 2015-03-25 华为技术有限公司 评论信息的显示方法及装置
CN103886051A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于实体及特征的评论分析方法
CN105095209A (zh) * 2014-04-21 2015-11-25 北京金山网络科技有限公司 文档聚类方法及装置、网络设备
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
CN104156352B (zh) * 2014-08-15 2017-04-19 苏州大学 一种中文事件的处理方法及系统
CN104281665A (zh) * 2014-09-25 2015-01-14 北京百度网讯科技有限公司 一种用于确定评论的有效性的方法与装置
CN104281665B (zh) * 2014-09-25 2018-05-25 北京百度网讯科技有限公司 一种用于确定评论的有效性的方法与装置
CN105022842A (zh) * 2015-08-24 2015-11-04 北京网田科技发展有限公司 一种笔记推送方法及系统
CN105939282A (zh) * 2016-02-04 2016-09-14 杭州迪普科技有限公司 分组大小的调整方法及装置
CN105939282B (zh) * 2016-02-04 2019-09-06 杭州迪普科技股份有限公司 分组大小的调整方法及装置
CN106021232A (zh) * 2016-05-24 2016-10-12 北京工商大学 一种基于依存句法关系的微博马甲账号识别方法
CN106021232B (zh) * 2016-05-24 2019-06-28 北京工商大学 一种基于依存句法关系的微博马甲账号识别方法
WO2018045910A1 (zh) * 2016-09-09 2018-03-15 阿里巴巴集团控股有限公司 情感倾向的识别方法、对象分类方法及数据处理系统
CN108132947A (zh) * 2016-12-01 2018-06-08 百度在线网络技术(北京)有限公司 实体挖掘系统和方法
CN108132947B (zh) * 2016-12-01 2022-06-03 百度在线网络技术(北京)有限公司 实体挖掘系统和方法
CN107943787A (zh) * 2017-11-16 2018-04-20 北京百度网讯科技有限公司 收集用户反馈的方法、装置、设备及计算机可读介质
CN110633351A (zh) * 2018-05-30 2019-12-31 北京百度网讯科技有限公司 用于处理评论的方法、装置、设备和计算机可读存储介质
CN109670187A (zh) * 2018-12-28 2019-04-23 河南大学 基于互联网文本描述数据的软件共性特征提取方法
US11188968B2 (en) 2020-02-28 2021-11-30 International Business Machines Corporation Component based review system
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及系统
CN113420122A (zh) * 2021-06-24 2021-09-21 平安科技(深圳)有限公司 分析文本的方法、装置、设备及存储介质
CN113420122B (zh) * 2021-06-24 2024-06-04 平安科技(深圳)有限公司 分析文本的方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN102968408A (zh) 识别用户评论的实体特征方法
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN103870000B (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN106547875B (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN105205699A (zh) 基于酒店点评的用户标签和酒店标签匹配方法及装置
CN104915446A (zh) 基于新闻的事件演化关系自动提取方法及其系统
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN105139211B (zh) 产品简介生成方法及系统
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN104915443B (zh) 一种中文微博评价对象的抽取方法
CN103488724A (zh) 一种面向图书的阅读领域知识图谱构建方法
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN110309114B (zh) 媒体信息的处理方法、装置、存储介质和电子装置
CN104598535A (zh) 一种基于最大熵的事件抽取方法
CN105988990A (zh) 用于汉语中的零指代消解的装置和方法以及模型训练方法
Lee Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN104462327B (zh) 语句相似度的计算、搜索处理方法及装置
CN106372208A (zh) 一种基于语句相似度的话题观点聚类方法
CN105760474A (zh) 一种基于位置信息的文档集的特征词提取方法及系统
CN103150667B (zh) 一种基于本体结构的个性化推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130313