CN104915443B - 一种中文微博评价对象的抽取方法 - Google Patents
一种中文微博评价对象的抽取方法 Download PDFInfo
- Publication number
- CN104915443B CN104915443B CN201510366805.2A CN201510366805A CN104915443B CN 104915443 B CN104915443 B CN 104915443B CN 201510366805 A CN201510366805 A CN 201510366805A CN 104915443 B CN104915443 B CN 104915443B
- Authority
- CN
- China
- Prior art keywords
- evaluation object
- microblogging
- candidate
- chinese
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 211
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims description 22
- 230000008451 emotion Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 12
- 239000003795 chemical substances by application Substances 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 208000017843 C syndrome Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013456 study Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种中文微博评价对象的抽取方法,包括步骤:对中文微博的文本进行预处理,所述预处理包括删除冗余信息、分词;构建中文微博的评价对象的候选库;以及利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取。本发明的中文微博评价对象的抽取方法具有较高的准确率和较好的召回率。
Description
技术领域
本发明涉及语言信息处理领域,特别是一种中文微博评价对象的抽取方法。
背景技术
随着互联网的广泛普及,网络已经成为人们获取信息、共享信息的主要途径。微博作为一种新兴的互动交流平台,也逐渐走进人们的生活。据中国互联网信息中心(CNNIC)发布《第33次中国互联网络发展状况统计报告》显示,截至2013年12月,我国微博用户规模为2.81亿。越来越多的人开始关注微博,通过微博分享自己的心情、见解,或者获取最新的资讯、讨论时下流行话题。微博的数据量大、时效性强,从中可挖掘出大量有意义的信息,因此吸引了大批学者开展相关研究,而有关微博的情感分析正是其中热门研究方向之一。情感分析,又称意见挖掘,是指对文本进行主观性分析、归纳以及情感极性判别。根据情感分析任务的层次递进关系,可以将情感分析任务分为:情感信息的抽取、情感信息的分类以及情感信息的检索与归纳三大类[。其中情感信息的抽取是情感分析任务中的基础任务,旨在从无结构的情感文本中抽取出结构化的信息,包括评价对象、评价词、评价倾向以及观点持有者等。该任务作为情感分析的基础任务,不但可以服务于上层情感分析研究,例如情感信息分类等,同时还可以直接将其结果应用于电子商务、信息安全等领域,例如在商品评论统计中,如果能明确消费者是对商品的哪一个方面做出了评价,那么就可以令其他消费者更加清晰的了解该商品各方面的优缺点,也可以令商家针对这些优缺点改善营销策略或者完善商品的性能。
而目前的以上研究工作大多采用商品评论数据,其语料多为评论语料,面向中文微博的评价对象抽取研究还处在起步阶段。在2013年第二届自然语言处理与中文计算会议举办的评测任务中,任务一为中文微博评价对象抽取及极性判断,所有参赛队伍在严格标准下采用宏平均计算方法的平均准确率为0.195,平均召回率为0.137,平均F值为0.143,实验效果并不理想。这主要是由于微博文本语言表达随意,大多数微博文本的句法结构都是不完整的,且具有大量的冗余信息和网络词汇。
综上,如何设计一种准确率高且召回率好的中文微博评价对象的抽取方法是业界亟需解决的课题。
发明内容
为了解决上述现有的技术问题,本发明提供一种中文微博评价对象的抽取方法,将评价对象抽取任务分为三个步骤,根据不同步骤的任务特点,逐个提升方法效果,构建候选评价对象时采用句法分析的方法,筛选候选评价对象时利用SVM模型、加权模型分别实现多特征融合方法以提高准确率和召回率。
本发明提供一种中文微博评价对象的抽取方法,包括步骤:
对中文微博的文本进行预处理,所述预处理包括删除冗余信息、分词;
构建中文微博的评价对象的候选库;
利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取。
优选地,所述对中文微博的文本进行预处理,所述删除冗余信息具体包括:
删除中文微博中的超级链接及冗余字符;
删除中文微博中的来源信息。
优选地,对中文微博的文本进行预处理,所述分词具体包括:
根据中文微博中出现的话题,从权威中文词库中抽取出与该话题相关的专有名词制成用于分词的词表。
优选地,所述构建中文微博的评价对象的候选库的步骤包括:
抽取微博中显性标注的话题,将其作为候选评价对象,构成话题集合;
对除去话题的微博文本预处理,得到微博文本的分词结果;
利用句法分析获取名词短语作为候选评价对象,构成名词短语集合;去除分词结果中包含的名词短语,将剩余的名词作为候选评价对象构
成评价对象的候选库.
优选地,所述利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取的步骤包括:
对候选库中的词根据语义角色特征、最小距离特征以及词频特征进行选取;
利用支持向量机模型和加权模型对经上述处理的候选库进行筛选以实现中文微博评价对象的抽取。
相较于现有技术,本发明的中文微博评价对象的抽取方法将抽取评价对象这个任务划分为三个步骤,微博预处理、获取评价对象候选集和筛选候选评价对象,根据各个步骤评价对象的特性提出相应的解决方法,更具有针对性,具有较高的准确率和较好的召回率。
附图说明
图1为本发明优选实施例的中文微博评价对象的抽取方法方框图;
图2为本发明优选实施例的评价对象候选集的构建方法流程示意图;
图3为本发明优选实施例的微博句法分析示例1的示意图;
图4为本发明优选实施例的微博句法分析示例2的示意图;
图5为本发明优选实施例的哈工大语言技术平台语义角色标注举例示意图;
图6为本发明优选实施例的SVM模型训练数据样例示意图;
图7为本发明优选实施例的最小距离与正确评价对象个数的关系示意图;
图8为本发明优选实施例的最小距离特征分布示意图;
图9为本发明优选实施例的词频与正确评价对象个数的关系示意图;
图10为本发明优选实施例的词频特征分布示意图;
图11为本发明优选实施例的OTCScore采用不同阈值的实验结果折线示意图;
图12为为本发明优选实施例的本文提出的方法1、2与文献【3】所示方法的各指标平均值示意图。
具体实施方式
下面结合附图说明及具体实施方式对本发明进进一步说明。
请参阅图1,其是本发明优选实施例的中文微博评价对象的抽取方法的方框图。
本发明实施例的中文微博评价对象的抽取方法包括步骤:
S1:对中文微博的文本进行预处理,所述预处理包括删除冗余信息、分词;
S2:构建中文微博的评价对象的候选库;
S3:利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取。
在步骤S1中,进一步的,所述对中文微博的文本进行预处理,所述删除冗余信息具体包括:删除中文微博中的超级链接及冗余字符;删除中文微博中的来源信息。
具体地,第一,删除微博中的超级链接地址,例如“http://t.cn/zThM9N”。经实验统计分析,若该超级链接地址为某条微博所谈论话题的详细信息链接,在链接前方多添加“详情”两个字。因“详情”在微博主要内容中不具有实际意义,且会影响微博的句法分析结果,所以在删除超级链接地址时,同样删除链接地址前面的冗余字符串“详情”。第二,删除微博中的“出处”,例如“(分享自@优酷网)”、“(来自@手机新浪网)”。这些内容不但在微博主要内容中不具有实际意义,且会影响微博的句法分析结果,所以应该删除。
进一步的,对中文微博的文本进行预处理,所述分词具体包括:根据中文微博中出现的话题,从权威中文词库中抽取出与该话题相关的专有名词制成用于分词的词表。本步骤中引入自定义词表分词。虽然中文分词在常规文本中表现良好,但由于微博内容的口语化、网络词汇使用频繁,使得微博文本的分词效果并不好。其次,由于各个领域的术语或者专有名词各不相同,分词工具包往往不能很好区别这些词汇,以及相同词的上下文不同也可能导致分词错误。本发明通过在分词过程中引入自定义词表,以提升分词效果。该自定义词表由人工制定完成,根据微博中出现的话题,从权威中文词库如百度百科中抽取出与该话题相关的专有名词制成词表。比如将百度百科词条“笑傲江湖”中演员人名、角色名称、江湖门派等专有名词引入词表后,可以将“东方不败”正确的切分,否则“东方不败”会被切成“东方/s不/d败/vi”,影响评价对象抽取的效果。
进一步地,在步骤S2中,所述构建中文微博的评价对象的候选库的步骤包括:
抽取微博中显性标注的话题,将其作为候选评价对象,构成话题集合;
对除去话题的微博文本预处理,得到微博文本的分词结果;
利用句法分析获取名词短语作为候选评价对象,构成名词短语集合;
去除分词结果中包含的名词短语,将剩余的名词作为候选评价对象构成评价对象的候选库。
具体地,根据统计分析发现,评价对象一般为名词或名词短语,例如,“暴风雨不够猛烈!”的评价对象为名词“暴风雨”;“咱们国家一直是存款实名制吧,那弄清楚某某有多少钱了么?”的评价对象为名词短语“存款实名制”。在微博文本中,以“#”来显性标注微博话题,且话题多为名词短语,往往以整体形式被当作评价对象。例如,微博“#不动产登记条例#总体来说是好的。”,其评价对象就是微博中显性标注的话题“不动产登记条例”。
因此,本发明的评价对象候选集是由微博中的名词、名词短语、微博话题构成的,其构建流程图如图2所示。首先抽取微博中采用“#”显性标注的话题,将其作为候选评价对象,构成话题集合OTCT;其次对除去话题的微博文本预处理,得到微博文本的分词结果,预处理方法采用第上文所述方法,再利用句法分析获取名词短语作为候选评价对象,构成名词短语集合OTCP;最后去除分词结果中包含的名词短语,将剩余的名词作为候选评价对象,构成名词集合OTCS。设评价对象候选库为OTC,且将OTC定义为:
OTC={otc|otc∈(OTCP∪OTCS∪OTCT)} (1)
也就是说,评价对象候选库由话题集合、名词短语集合、名词集合构成。
值得注意的是,评价对象可能是名词短语,本发明采用句法分析的方法获取名词短语。在句法分析得到的句法树中,名词短语采用NP表示,节点NP的所有叶子节点连接起来即为一个名词短语。经实验证实,当NP节点的叶子数小于等于4时,则该节点对应的名词短语更符合评价对象的特征,该名词短语将被加入到评价对象候选集合中。若被选入候选对象集合的名词短语所对应的NP结构之间存在嵌套关系,则仅将叶子数最接近4的NP节点所对应的名词短语作为候选评价对象。图3为微博“新《笑傲江湖》力挺东方不败。”的句法分析树,该句法树中“新《笑傲江湖》”和“《笑傲江湖》”两个NP节点为嵌套关系,前者的叶子数为4,后者的叶子数为3,则仅将前者作为候选评价对象。
同时,由于微博中含有大量的冗余信息,因而需要对采用句法分析获取的名词短语进行后处理,从而得到更精准的候选评价对象集。例如,图4所示的句法树中“税制改革~”的末尾一个字符“~”,不具有任何实际意义,应该将该字符删除。本发明提出的所述后处理操作包括去除停用词、去除标点符号、去除情感词、去除程度副词、去除名词短语首末位的无意义标点符号(成对出现的引号、书名号除外)、去除名词短语末位的无意义字符“的”。
上述的步骤在完成构建中文微博的评价对象的候选库后,通过步骤S3实现利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取。
所述利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取的步骤包括:
对候选库中的词根据语义角色特征、最小距离特征以及词频特征进行选取;
利用支持向量机模型和加权模型对经上述处理的候选库进行筛选以实现中文微博评价对象的抽取。
具体地,一条微博可能含有多个候选评价对象,但是并不能确定每个候选评价对象都是该微博的评价对象。例如微博“#不动产登记条例#对中国很好!”的候选评价对象有“不动产登记条例”和“中国”,该微博的评价对象是“不动产登记条例”,而不是“中国”。本发明采用多特征融合的方法对候选评价对象进行筛选,从而得到正确的评价对象。
语义角色特征的选取:
语义角色标注信息在评价对象抽取中具有一定的指导作用,主要表现在通过语义角色标注得到的施事、受事为句子中的名词或名词短语,这符合评价对象一般为名词或名词短语的认知。例如微博“ROM无美感”,经过语义角色分析可以得到“无”是句子中的谓词,而“ROM”是施事,“美感”是受事,其中“ROM”是名词,也是该微博的评价对象,“美感”是该微博的评价词语。由此可见,施事或受事有可能是句子的评价对象。
本发明采用哈工大社会计算与信息检索研究中心研制的语言技术平台(LTP)进行语义角色标注,根据识别出的谓词找到其所对应的施事和受事。例如,图5所示为微博“故事情节简单不用思考。。。”的语义角色标注结果,其中“简单”的语义角色属性值为A0,即说明谓词“简单”具有施事,其施事是由词号0到词号1的词组合形成的词串构成,也就是“简单”的施事为“故事情节”。这样即可将候选评价对象“故事情节”的语义角色特征标注为施事。
最小距离特征的选取:
最小距离是指距离评价对象最近的情感词与评价对象之间的词个数。本文认为距离评价对象最近的情感词极有可能是修饰该评价对象的,而具有情感词修饰的候选评价对象极有可能是该句子的评价对象。例如,微博“看过《魔境仙踪》:特效超棒,但是情节超烂。”,其中“棒”和“烂”都是情感词,距离“棒”和“烂”最近的名词分别为“特效”和“情节”,“棒”修饰“特效”,“烂”修饰“情节”。因此可以通过找情感词,再利用最小距离筛选评价对象。
词频特征的选取:
在同一个话题下的若干条微博中,若某个名词或名词短语出现的次数很高,则说明该名词或名词短语是文本主要描述的对象,也就是说其很有可能是评价对象。例如参与讨论话题“笑傲江湖”的微博中,名词“东方不败”出现的频次较高,说明“东方不败”极有可能作为微博用户谈论的对象。因此引入词频特征作为筛选评价对象候选集的特征之一。本发明提出两种候选评价对象筛选方法,得到每个微博句子的评价对象,两种方法分别为基于SVM的评价对象筛选方法、基于加权方法的评价对象筛选方法。
具体地,基于SVM的候选评价对象筛选方法的过程如下:对评价对象候选集中的评价对象进行筛选,也就是判断一个候选评价对象是否为该微博的评价对象。本文认为对候选评价对象进行筛选的这一过程相当于一个二分类的过程,即判断候选评价对象是否为微博的评价对象。本过程中基于SVM模型对候选评价对象进行筛选。融合上文所述语义角色特征、最小距离特征以及词频特征,将微博中的候选评价对象模型化,利用获得的模型预测测试数据。候选评价对象的特征集样例如表1所示。采用表1所示的特征表示方法,将每个候选评价对象的类别和特征向量化,构成训练模型数据,如图6所示。每一行数据都表示一个候选评价对象的类别和特征参数,其中类别采用布尔型参数表示,1表示该候选评价对象为正确评价对象,0表示该候选评价对象不是正确评价对象。
表1 基于SVM模型的候选评价对象特征及特征值
编号 | 特征 | 特征值 |
1 | 语义角色 | 施事:0,受事:1,其他:-1 |
2 | 最小距离 | -1,1,2,3... |
3 | 词频 | 0,1,2,3... |
所述的基于加权的候选评价对象筛选方法的过程如下:
融合语义角色特征、最小距离特征以及词频特征的三个特征,采用积分制的方法对候选评价对象进行筛选。积分制具体采用1、0.5和0三个分数来计分,通过计算多个特征的总分,发现特征之间的相互制约关系,从而筛选候选评价对象。
设根据语义角色特征计算得到的候选评价对象分数为OTCSrlScore,计算公式如下:
设根据最小距离特征计算得到的候选评价对象分数为OTCDisScore,候选评价对象与情感词之间的最小距离为minDis,则OTCDisScore的计算公式如下:
对实验语料的最小距离特征和正确评价对象个数之间的关系统计结果如图7所示。当minDis小于等于4时,其所对应的正确评价对象个数均大于50,当minDis大于4且小于等于9时,对应的正确评价对象个数在20-35之间,当minDis大于9时,对应的正确评价对象个数明显下降,皆在15以下,并随着最小距离的增加,正确评价对象个数趋于0。因此,设定阈值4和9对最小距离的区间进行划分。如图9所示为实验语料的最小距离特征的统计结果。当minDis小于等于4时,该区间正确评价对象占该区间候选评价对象的18%,占全部正确评价对象的57%,应设定较高权值;当minDis大于4且小于等于9时,该区间正确评价对象占该区间候选评价对象的9.5%,占全部正确评价对象的21.4%;当minDis大于9时,正确评价对象占所有候选评价对象的8%,占全部正确评价对象的20%。同时经统计发现,微博句子平均长度约为19个词,最小平均距离是6.3个词,根据人们日常语言习惯,若情感词与评价对象之间距离较远时,该情感词与评价对象之间往往不是修饰关系。因此,将小于等于4、大于4且小于等于9和大于9三个区间的权重分别设为1、0.5和0。
设根据词频特征计算得到的候选评价对象分数为OTCTfScore,候选评价对象的词频为tf,则OTCTfScore的计算公式如下:
对实验语料的词频特征和正确评价对象个数之间的关系统计结果如图8所示。当tf等于1时,该区间包含307个正确评价对象,当tf等于2时,正确评价对象个数下降到77,当tf大于等于7时,正确评价对象个数呈整体下降,其中个别词频对应正确评价对象个数增加明显。因此,设定阈值2和7对词频的区间进行划分。如图10所示为实验语料的词频特征的统计结果。当tf小于2时,该区间正确评价对象占该区间候选评价对象的8%,占全部正确评价对象的35%;当tf大于等于2且小于7时,该区间正确评价对象占该区间候选评价对象的12%,占全部正确评价对象的23%;当tf大于等于7时,该区间正确评价对象占该区间候选评价对象的22%,占全部正确评价对象的41%。该结果说明tf小于2时,虽包含的正确评价对象较多,但包含的错误评价对象也非常多。因此,将小于2、大于等于2且小于7和大于等于7三个区间的权重分别设为0、0.5和1。
设候选评价对象的分数为OTCScore,OTCScore是根据上述三个特征计算得到分数的总分,计算公式如下:
OTCScore=OTCSrlScore+OTCDisScore+OTCTfScore (5)
若某个候选评价对象的分数OTCScore超过某个阈值,则认为该候选评价对象为对应句子的评价对象。
实验结果及分析过程如下:
实验数据的获取:本文实验所采用的数据来自第二届自然语言处理与中文计算会议(NLP&CC2013)举办的评测比赛中所提供的标注语料。该语料共包含十个热门话题的相关中文微博,总共有1361句观点句,这些观点句中共有1911个评价对象。实验数据以xml格式给出,图11所示为数据样例。采用实验工具及语义资源如:实验工具:斯坦福句法分析器、NLPIR汉语分词系统2014版、哈工大社会计算与信息检索研究中心研制的语技术平台(LTP)、台湾大学LIBSVM。语义资源:中文停用词表、标点符号词表、情感词表、程度副词词表、根据不同话题整理的相关专有名词词表。
构建评价对象候选集的实验结果及分析如下:采用本文提出的评价对象候选库构建方法得到候选库OTC,若微博一句话所对应的评价对象候选库中含有至少一个正确的评价对象,则认为该候选集是正确的。具体正确率P的公式如下:
若准确率P值越大,则说明候选集中包含标准评价对象越多,该评价对象候选集越有价值。采用上述评价指标,得到评价对象候选集的构建方法实验结果如表2所示。其中average代表10个话题的平均准确率P,值为0.5216,说明超过一半的标准评价对象被挖掘出来。
表2评价对象候选集的构建方法实验结果:
筛选候选评价对象的实验结果及分析过程如下:
抽取具有正确评价对象候选集的微博句子,构成微博数据集MBS。
其中s代表微博的一句话,otc代表从微博句子s中抽取出的评价对象候选集,otr代表微博句子s包含的正确的评价对象集合。
采用微博数据集MBS衡量评价对象候选集筛选算法的有效性。数据集MBS不包含错误的评价对象候选集,可以更直观的衡量筛选算法的有效性。
基于SVM的候选评价对象筛选方法实验结果及分析过程如下:采用K折交叉验证方法,测量基于SVM的评价对象筛选方法的实验结果。将微博数据集MBS随机分为5份,其中4份数据对SVM进行训练,剩余1份数据进行测试,共训练测试SVM模型5次,再求得5次结果的平均值作为采用SVM模型所得的实验结果。实验中采用台湾大学的开源工具包LIBSVM,默认参数。采用精准评价方式对结果进行衡量,即要求抽取出的评价对象与标准答案的评价对象词形完全一致。具体采用准确率、召回率作为评价标准。
请参见表3,表3 SVM模型筛选评价对象候选集实验结果。
表3 SVM模型筛选评价对象候选集实验结果
基于SVM的候选评价对象筛选方法的实验结果如表3所示。其中每一个话题的准确率和召回率都是进行5折交叉验证后各指标的平均值,average是所有话题上各评价指标的平均值。由表3可以看出,采用SVM筛选评价对象的各个话题的平均准确率可以达到0.6623,但是平均召回率并不是特别的高,这可能是由于采用语料的大小所限制,以及训练模型的数据在两个分类的分布不均匀所引起的。同时由于每个话题的评价对象在微博中的语言特点并不相同,所以基于SVM的候选评价对象筛选方法在各个话题的表现也不同,例如“查韦斯”这个话题中,SVM模型筛选候选评价对象的准确率高达0.9846,召回率高达0.6589。
基于加权的候选评价对象筛选方法实验结果及分析过程如下:采用精准评价方式对结果进行衡量,具体采用准确率、召回率和F值作为评价标准。
语料中含有10个话题,以每个话题为一个评价单元,计算系统在该话题中的评价指标,最后计算所有话题上各指标的平均值。请参阅图12,OTCScore采用不同的阈值所得到的实验结果如图12所示。当阈值为1时,召回率最高,但是正确率较低;当阈值为1.5时,牺牲了一定的召回率,提高了准确率,同时F值也有所提高。因为F值综合准确率与召回率的这两项评价指标,可以综合反映系统整体的性能,所以采用获得最高F值的阈值为加权方法所使用的阈值,即阈值确定为1.5。采用阈值1.5时,基于加权的评价对象筛选方法的实验结果如表4所示实验结果,表4如下:
表4 本文提出的方法1、2与文献[3]方法的实验结果
综合实验结果及分析如下:
采用上文数据集MBS所述的评价指标,将本发明提出的两个方法与文献[3]([3]HUM,LIU B.Mining opinion features in customer reviews[C].AmericanAssociationforArtificial Intelligence.AAAI Press,2004:755-760.)提出的获取评价对象的方法进行对比试验,实验结果如表4所示。其中方法1代表基于SVM的评价对象筛选方法,方法2代表基于加权方法的评价对象筛选方法。方法1的实验结果与表3中所示的结果稍有差异,主要表现在召回率R的值有所下降。这是由于数据集MBS虽然可以保证微博的一句话中至少包含一个评价对象存在候选集中,但是仍存在未出现在候选集中的评价对象,在计算表4所示召回率R时,考虑了未出现在候选集中的评价对象,而在计算表3所示召回率R时仅仅考虑出现在候选集中的评价对象,以更准确的分析SVM模型的实验效果。如表4中所示,本发明提出的方法1、2明显优于文献[3]的方法,这主要有两点原因:一是文献[3]采用的方法并不适合微博语料,对于微博语言表达的随意性等特点并没有做出相应的处理,也就是没有对微博语料进行预处理;二是本发明将抽取评价对象这个任务划分为三个步骤,微博预处理、获取评价对象候选集和筛选候选评价对象,根据各个步骤评价对象的特性提出相应的解决方法,更具有针对性,从而取得较好的实验结果。图12所示为本发明提出的方法1、2与文献[3]方法在各个话题的平均指标对比结果。可以看出,方法1、2明显优于文献[3]所采用的方法。其中方法1的准确率明显优于其他两种方法,F值与方法2的F值相差0.0486,召回率较方法2逊色很多,这说明有较多的评价对象方法1没有识别出还有很大的提升空间。
相较于现有技术,本发明的中文微博评价对象的抽取方法将抽取评价对象这个任务划分为三个步骤,微博预处理、获取评价对象候选集和筛选候选评价对象,根据各个步骤评价对象的特性提出相应的解决方法,更具有针对性,具有较好的召回率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (3)
1.一种中文微博评价对象的抽取方法,其特征在于,包括步骤:
对中文微博的文本进行预处理,所述预处理包括删除冗余信息、分词;构建中文微博的评价对象的候选库;
利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取,该步骤包括:步骤包括:对候选库中的词根据语义角色特征、最小距离特征以及词频特征进行选取;利用支持向量机模型和加权模型对经上述处理的候选库进行筛选以实现中文微博评价对象的抽取;
基于加权的候选评价对象筛选方法的过程如下:
融合语义角色特征、最小距离特征以及词频特征的三个特征,采用积分制的方法对候选评价对象进行筛选;积分制具体采用1、0.5和0三个分数来计分,通过计算多个特征的总分,发现特征之间的相互制约关系,从而筛选候选评价对象;
设根据语义角色特征计算得到的候选评价对象分数为OTCSrlScore,计算公式如下:
设根据最小距离特征计算得到的候选评价对象分数为OTCDisScore,候选评价对象与情感词之间的最小距离为minDis,则OTCDisScore的计算公式如下:
2.根据权利要求1所述的中文微博评价对象的抽取方法,其特征在于,所述对中文微博的文本进行预处理,所述删除冗余信息具体包括:
删除中文微博中的超级链接及冗余字符;
删除中文微博中的来源信息。
3.根据权利要求1所述的中文微博评价对象的抽取方法,其特征在于,对中文微博的文本进行预处理,所述分词具体包括:
根据中文微博中出现的话题,从权威中文词库中抽取出与该话题相关的专有名词制成用于分词的词表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510366805.2A CN104915443B (zh) | 2015-06-29 | 2015-06-29 | 一种中文微博评价对象的抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510366805.2A CN104915443B (zh) | 2015-06-29 | 2015-06-29 | 一种中文微博评价对象的抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104915443A CN104915443A (zh) | 2015-09-16 |
CN104915443B true CN104915443B (zh) | 2018-11-23 |
Family
ID=54084506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510366805.2A Expired - Fee Related CN104915443B (zh) | 2015-06-29 | 2015-06-29 | 一种中文微博评价对象的抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915443B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574175A (zh) * | 2015-12-21 | 2016-05-11 | 北京奇虎科技有限公司 | 优化搜索结果标题的处理方法及装置 |
CN105912522A (zh) * | 2016-03-31 | 2016-08-31 | 长安大学 | 基于成分分析的英语语料自动提取方法和提取器 |
CN107153641B (zh) * | 2017-05-08 | 2021-01-12 | 北京百度网讯科技有限公司 | 评论信息确定方法、装置、服务器及存储介质 |
CN108563625A (zh) * | 2018-01-04 | 2018-09-21 | 福建中金在线信息科技有限公司 | 文本分析方法、装置、电子设备和计算机存储介质 |
CN108984585A (zh) * | 2018-05-23 | 2018-12-11 | 华中师范大学 | 一种基于局部用户-发帖关系图的微博帖权威性分析方法 |
CN109684468B (zh) * | 2018-12-13 | 2023-05-09 | 四川大学 | 针对循证医学的文献筛选标注系统 |
TWI772709B (zh) * | 2019-11-14 | 2022-08-01 | 雲拓科技有限公司 | 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備 |
CN111581474B (zh) * | 2020-04-02 | 2022-07-29 | 昆明理工大学 | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN104268160A (zh) * | 2014-09-05 | 2015-01-07 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7523085B2 (en) * | 2004-09-30 | 2009-04-21 | Buzzmetrics, Ltd An Israel Corporation | Topical sentiments in electronically stored communications |
-
2015
- 2015-06-29 CN CN201510366805.2A patent/CN104915443B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN104268160A (zh) * | 2014-09-05 | 2015-01-07 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
Non-Patent Citations (1)
Title |
---|
评价对象抽取关键技术研究;王荣洋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20121215(第12期);第33、40页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104915443A (zh) | 2015-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915443B (zh) | 一种中文微博评价对象的抽取方法 | |
Gräbner et al. | Classification of customer reviews based on sentiment analysis | |
CN106407236B (zh) | 一种面向点评数据的情感倾向性检测方法 | |
US9336192B1 (en) | Methods for analyzing text | |
CN102866989B (zh) | 基于词语依存关系的观点抽取方法 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
US20170364503A1 (en) | Multi-stage recognition of named entities in natural language text based on morphological and semantic features | |
Bhargava et al. | Atssi: Abstractive text summarization using sentiment infusion | |
Tayal et al. | Polarity detection of sarcastic political tweets | |
CN106096664A (zh) | 一种基于社交网络数据的情感分析方法 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN109101551B (zh) | 一种问答知识库的构建方法及装置 | |
Sun et al. | A novel context-based implicit feature extracting method | |
Zhou et al. | Fake news early detection: An interdisciplinary study | |
CN109978020A (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
US20180181559A1 (en) | Utilizing user-verified data for training confidence level models | |
CN110287314A (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN105786971B (zh) | 一种面向国际汉语教学的语法点识别方法 | |
Sims et al. | Measuring information propagation in literary social networks | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 | |
CN103617245A (zh) | 一种双语情感分类方法及装置 | |
Ruskanda et al. | Comparative study on language rule based methods for aspect extraction in sentiment analysis | |
Brönnimann | Multilanguage sentiment-analysis of Twitter data on the example of Swiss politicians | |
CN114139528A (zh) | 一种结合依存句法分析和规则的中英文评论观点挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181123 Termination date: 20200629 |
|
CF01 | Termination of patent right due to non-payment of annual fee |