CN107861946A - 一种细粒度的评价信息挖掘方法及系统 - Google Patents

一种细粒度的评价信息挖掘方法及系统 Download PDF

Info

Publication number
CN107861946A
CN107861946A CN201711070053.0A CN201711070053A CN107861946A CN 107861946 A CN107861946 A CN 107861946A CN 201711070053 A CN201711070053 A CN 201711070053A CN 107861946 A CN107861946 A CN 107861946A
Authority
CN
China
Prior art keywords
word
evaluation
subset
initial
candidate evaluations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711070053.0A
Other languages
English (en)
Inventor
谢忠玉
鲍新平
丁希晨
沈一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201711070053.0A priority Critical patent/CN107861946A/zh
Publication of CN107861946A publication Critical patent/CN107861946A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种细粒度的评价信息挖掘方法,该方法以初始评对象种子集和初始评价词种子集为基础,利用半监督迭代法提取候选评价对象集和候选评价词集的关联结构,并分别对候选评价对象集挖掘出与候选评价词关联最紧密的评价对象作为新评价对象;同理,对候选评价词集挖据出与候选评价对象关联最紧密的评价词作为新评价词,将挖掘的新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集中,迭代交替挖掘出潜在的评价信息,最后提取出评价信息对应的评价对象和评价词;另外,需要对评价语句对应的评价信息进行可视化显示,方便用户的直观查看。本发明还公开了一种细粒度的评价信息挖掘系统。

Description

一种细粒度的评价信息挖掘方法及系统
技术领域
本发明涉及网络数据处理技术领域,特别是涉及一种细粒度的评价信息挖掘方法及系统。
背景技术
随着社交网络、移动互联网的不断普及,人们发布信息的成本越来越低,越来越多的用户乐于在互联网上分享自己的观点以及对于人物、事件、产品的评论,而互联网公司也越发希望能通过自动化工具及技术来获取或挖掘这些评论语句所包含的观点信息。挖掘用户观点信息是指从文本中发现带有作者主观情感的内容,用户观点通常包括评价对象、评价词、评价情感、评价所有者、发表时间等信息,其中,评价词五花八门,并且更新迅速。
挖掘用户观点信息主要包含文档倾向性分类和信息抽取两大方面,其中:文档倾向性分类主要侧重对文档进行情感分类研究,如褒义、贬义或中性;而信息抽取则关注于挖掘出用户观点的各组成部分,如评价所有者、评价对象、评价词等。基于信息抽取的数据挖掘首先是确定评价对象,从而准确的确定网络客户评论的主题,随后的评价词提取则是更具体、更具有针对性评价,则称挖掘评价对象与评价词构成的评价词对为细粒度的意见挖掘。
目前,Bing Liu等研究者主要是先对评论语句进行分词标注,然后再使用关联规则挖掘频繁项作为候选评价对象,并对其进行了剪枝处理,但是该方法候选评价对象没有进行有效地筛选,需要对提取出来的所有候选评价对象进行进一步处理,其处理结果无法保证对评论信息的识别精确度。因此,对于海量的评论信息,如何准确的实现评价对象和评价词的信息抽取是本领域技术人员亟待解决的技术问题。
发明内容
本发明的目的在于提出一种细粒度的评价信息挖掘方法及系统,以确定评价语句的信息挖掘,保证对评价语句对应的评价信息识别的精确度。
为达到上述目的,本发明提供了以下技术方案:
一种细粒度的评价信息挖掘方法,包括:
获取初始评价对象种子集和初始评价词种子集;
以所述初始评价对象种子集和所述初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词;
将所述新评价对象和所述新评价词添加到所述初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;
从所述目标评价对象种子集和所述目标评价词种子集提取所述评价语句对应的评价信息,所述评论信息包括:评价对象和评价词,所述评价词为对所述评价对象进行评价的观点信息。
优选的,所述以所述初始评价对象种子集和所述初始评价词种子集作为基础,从所述评价语句中确定新评价对象和新评价词,包括:
以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词。
优选的,所述以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词,包括:
根据依存句法分析法对所述评价语句提取句法依存结构;
以所述初始评价对象种子集和所述初始评价词种子集作为基础,获取所述初始评价对象种子集中初始评价对象的平均出现频次以及所述初始评价词种子集中初始评价词的平均出现频次;
选取所述初始评价对象种子集中出现频次大于所述初始评价对象的平均出现频次的名词作为候选评价对象集中的候选评价对象;
选取所述初始评价词种子集中出现频次大于所述初始评价词的平均出现频次的形容词作为候选评价词集中的候选评价词;
以所述候选评价词集为基础,利用所述候选评价词集中的候选评价词确定新评价词;
以所述候选评价对象集为基础,利用所述候选评价对象集中的候选评价对象确定新评价对象。
优选的,所述利用所述候选评价词集中的候选评价词确定新评价词,包括:
构建所述候选评价词集中的候选评价词与所述初始评价对象种子集的每个初始评价对象的关系矩阵,生成评价词无向加权图;
对所述初始评价对象种子集的每个初始评价对象进行初始权重值加权;
在所述评价词无向加权图中进行迭代传播,确定所述候选评价词集中每个候选评价词的权重值;
根据所述候选评价词的权重值进行排序,确定排序在预设值之前的候选评价词作为新评价词。
优选的,所述利用所述候选评价对象集中的候选评价对象确定新评价对象,包括:
构建所述候选评价对象集中的候选评价对象与所述初始评价词种子集的每个初始评价词的关系矩阵,生成评价对象无向加权图;
对所述初始评价词种子集的每个初始评价词进行初始权重值加权;
在所述评价对象无向加权图中进行迭代传播,确定所述候选评价对象集中每个候选评价对象的权重值;
根据所述候选评价对象的权重值进行排序,确定排序在预设值之前的候选评价对象作为新评价对象。
优选的,所述根据半监督迭代法从所述评价语句中确定新评价对象和新评价词之后,还包括:
根据所述新评价对象与所述初始评价对象种子集中的评价对象的共现频率指定所述新评价对象的类别。
优选的,还包括:
对所述评价语句对应的评价信息中的所述评价对象和所述评价词进行关联扩展。
优选的,还包括:
对所述评价语句对应的评价信息进行可视化显示。
一种细粒度的评价信息挖掘系统,包括:
获取模块,用于获取初始评价对象种子集和初始评价词种子集;
确定模块,用于以所述初始评价对象种子集和所述初始评价词种子集作为基础,从所述评价语句中确定新评价对象和新评价词;
添加模块,用于将所述新评价对象和所述新评价词添加到所述初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;
提取模块,用于从所述目标评价对象种子集和所述目标评价词种子集提取所述评价语句对应的评价信息,所述评论信息包括:评价对象和评价词,所述评价词用于对所述评价对象进行评价的观点信息。
优选的,所述确定模块具体用于以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词。
优选的,所述确定模块包括:
提取单元,用于根据依存句法分析法对所述评价语句提取句法依存结构;
获取单元,用于以所述初始评价对象种子集和所述初始评价词种子集作为基础,获取所述初始评价对象种子集中初始评价对象的平均出现频次以及所述初始评价词种子集中初始评价词的平均出现频次;
第一选取单元,用于选取所述初始评价对象种子集中出现频次大于所述初始评价对象的平均出现频次的名词作为候选评价对象集中的候选评价对象;
第二选取单元,用于选取所述初始评价词种子集中出现频次大于所述初始评价词的平均出现频次的形容词作为候选评价词集中的候选评价词;
第一确定单元,用于以所述候选评价词集为基础,利用所述候选评价词集中的候选评价词确定新评价词;
第二确定单元,用于以所述候选评价对象集为基础,利用所述候选评价对象集中的候选评价对象确定新评价对象。
优选的,所述第一确定单元包括:
第一构建单元,用于构建所述候选评价词集中的候选评价词与所述初始评价对象种子集的每个初始评价对象的关系矩阵,生成评价词无向加权图;
第一加权单元,用于对所述初始评价对象种子集的每个初始评价对象进行初始权重值加权;
第一迭代单元,用于在所述评价词无向加权图中进行迭代传播,确定所述候选评价词集中每个候选评价词的权重值;
第一确定子单元,用于根据所述候选评价词的权重值进行排序,确定排序在预设值之前的候选评价词作为新评价词。
优选的,所述第二确定单元包括:
第二构建单元,用于构建所述候选评价对象集中的候选评价对象与所述初始评价词种子集的每个初始评价词的关系矩阵,生成评价对象无向加权图;
第二加权单元,用于对所述初始评价词种子集的每个初始评价词进行初始权重值加权;
第二迭代单元,用于在所述评价对象无向加权图中进行迭代传播,确定所述候选评价对象集中每个候选评价对象的权重值;
第二确定子单元,用于根据所述候选评价对象的权重值进行排序,确定排序在预设值之前的所述候选评价对象作为新评价对象。
优选的,还包括:
类别指定模块,用于根据所述新评价对象与所述初始评价对象种子集中的评价对象的共现频率指定所述新评价对象的类别。
优选的,还包括:
关联扩展模块,用于对所述评价语句对应的评价对象和评价词对中的所述评价对象和所述评价词进行关联扩展。
优选的,还包括:
显示模块,用于对所述评价语句对应的评价信息进行可视化显示。
经由上述的技术方案可知,与现有技术相比,本发明公开了一种细粒度的评价信息挖掘方法,该方法以初始评对象种子集和初始评价词种子集为基础,利用半监督迭代法提取候选评价对象集和候选评价词集的关联结构,并分别对候选评价对象集挖掘出与候选评价词关联最紧密的评价对象作为新评价对象;同理,对候选评价词集挖据出与候选评价对象关联最紧密的评价词作为新评价词,将挖掘的新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集中,迭代交替挖掘出潜在的评价信息,最后提取出评价信息对应的评价对象和评价词;另外,需要对评价语句对应的评价信息进行可视化显示,方便用户的直观查看。本发明还公开了一种细粒度的评价信息挖掘系统。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一提供的一种细粒度的评价信息挖掘方法流程示意图;
图2为本发明实施例一提供的步骤S103的具体流程示意图;
图3为本发明实施例二提供的一种细粒度的评价信息挖掘方法流程示意图;
图4为本发明实施例提供的评价对象和评价词对的可视化效果图;
图5为本发明实施例三提供的一种细粒度的评价信息挖掘系统结构示意图;
图6为本发明实施例三提供的确定模块503的具体结构示意图;
图7为本发明实施例四提供的一种细粒度的评价信息挖掘系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于信息抽取的数据挖掘首先确定评级对象,从而准确的确定网络客户评论的主题,而随后的评价词提取则是更具体、更具有针对性评价,则称挖掘评价对象与评价词构成的评价词对挖掘为细粒度的评价信息挖掘。
实施例一
请参阅附图1,图1为本发明实施例一提供的一种细粒度的评价信息挖掘方法流程示意图。如图1所示,本实施例提供了一种细粒度的评价信息挖掘方法,该方法具体包括如下步骤:
在本实施例中,需要说明的是,首先接收用户输入的评价语句或从评价语句库中获取评价语句,该评价语句可以为评论语料,例如:对于某个电影中的人物进行评论的相关内容,如:演技不错,李易峰帅;李易峰男神;喜欢赵丽颖;不喜欢李易峰等等。
S101、获取初始评价对象种子集和初始评价词种子集。
在本实施例中,需要说明的是,初始评价对象种子集和初始评价词种子集是通过相关领域的一些典型评价对象和评价词为基础,通过word2vector选取这些典型评价对象和评价词,然后再进行一遍人工筛选,由人工根据具体的相关领域进行分词标注挑选及确定出来的。比如:预先筛选出1000条评论语句,人工对这1000条评论语句进行分词标注挑选及确定出评价对象和评价词,将挑选出来的这些评价对象和评价词构成初始评价对象种子集和初始评价词种子集。
S102、以初始评价对象种子集和初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词。
在本实施例中,需要说明的是,该步骤以初始评价对象种子集和初始评价词种子集作为基础,根据半监督迭代法从评价语句中确定新评价对象和新评价词。
本实施例中对于新评价对象和新评价词的确定具体可以由通过半监督迭代的方法进行新评价对象发现和新评价词发现,具体做法是根据依存句法分析提取一些有意义的句法结构,比如:主谓结构,主系表结构,谓宾结构等等,并且当此句法结构中的二元组中的两个元素分别符合作为评价对象候选集和评价词候选集条件时,此句法结构作为图的一条边,句法结构的两个元素作为图的顶点,相同句法结构二元组出现的次数作为图中该边的权重,从而构成无向加权图。
通过PageRank的迭代扩散方法将少数已标注结点的类别信息在整个图中进行传播,在传播达到平衡的时候获得图中顶点即所有实体对的紧密联系程度,进而通过排序发现评价对象候选集中有价值的评价对象和有价值的评价词。
具体的,请参阅附图2,图2为本发明实施例一提供的步骤S102的具体流程示意图。如图2所示,以初始评价对象种子集和初始评价词种子集作为基础,根据半监督迭代法从评价语句中确定新评价对象和新评价词,具体包括如下步骤:
S201、根据依存句法分析法对评价语句提取句法依存结构。
本实施例中,上述句法依存结构包括:主谓结构、主系表结构以及谓宾结构;
S202、以初始评价对象种子集和初始评价词种子集作为基础,获取初始评价对象种子集中初始评价对象的平均出现频次以及初始评价词种子集中初始评价词的平均出现频次;
S203、选取初始评价对象种子集中出现频次大于初始评价对象的平均出现频次的名词作为候选评价对象集中的候选评价对象;
S204、选取初始评价词种子集中出现频次大于初始评价词的平均出现频次的形容词作为候选评价词集中的候选评价词;
需要说明的是,在本实施例中,例如:对于某个电影中的人物进行评论的相关内容,如:演技不错,李易峰帅;李易峰男神;喜欢赵丽颖;不喜欢李易峰等等。
S205、以候选评价词集为基础,利用候选评价词集中的候选评价词确定新评价词;
具体的,该步骤具体可以包括:
构建候选评价词集中的候选评价词与初始评价对象种子集的每个初始评价对象的关系矩阵,生成评价词无向加权图;
对初始评价对象种子集的每个初始评价对象进行初始权重值加权;
在评价词无向加权图中进行迭代传播,确定候选评价词集中每个候选评价词的权重值;
根据候选评价词的权重值进行排序,确定排序在预设值之前的候选评价词作为新评价词。
本实施例中,需要说明的是,通过现有的句法结构评价对象和评价词关系构建候选评价词集中的候选评价词与候选评价对象种子集的关系矩阵,构成了一个无向加权图,然后对候选评价对象种子集的每个元素赋予较高的初始权重值,再在这个图中进行迭代传播,当迭代收敛之后,候选评价词集中候选评价词获得权重值。需要说明的是,该候选评价词的权重值在一定程度上表征了每个候选评价词与评价对象种子集中所有评价对象的关系紧密度。需要将候选评价词集中所包含的初始评价词种子集中的评价词剔除,在此基础上对候选评价词集中的候选评价词所获得的权重值进行降序排列,取前1%的候选评价词作为新评价词。
S206、以候选评价对象集为基础,利用候选评价对象集中的候选评价对象确定新评价对象。
具体的,该步骤具体可以包括:
构建候选评价对象集中的候选评价对象与初始评价词种子集的每个初始评价词的关系矩阵,生成评价对象无向加权图;
对初始评价词种子集的每个初始评价词进行初始权重值加权;
通过PageRank算法在评价对象无向加权图中进行迭代传播,确定候选评价对象集中每个候选评价对象的权重值;
根据候选评价对象的权重值进行排序,确定排序在预设值之前的候选评价对象作为新评价对象。
本实施例中,需要说明的是,通过现有的句法结构评价对象和评价词关系构建候选评价对象集中的候选评价对象与候选评价词种子集的关系矩阵,构成了一个无向加权图,然后对评价词种子集的每个元素赋予较高的初始权重值,再在这个图中进行迭代传播,当迭代收敛之后,候选评价对象集中候选评价对象获得权重值。需要说明的是,该候选评价对象的权重值在一定程度上表征了每个候选评价对象与评价词种子集中所有评价词的关系紧密度。需要将候选评价对象集中所包含的初始评价对象种子集中的评价对象剔除,在此基础上对候选评价对象集中的候选评价对象所获得的权重值进行降序排列,取前1%的候选评价对象作为新评价对象。
S103、将新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集,得到目标评价对象种子集和目标评价词种子集。
S104、从目标评价对象种子集和目标评价词种子集提取评价语句对应的评价信息,该评价信息包括:评价对象和评价词,所述评价词为对所述评价对象进行评价的观点信息。
将这些新评价对象和新评价词补充得到的两个集合作为目标评价对象种子集和目标评价词种子集;然后根据依存句法分析提取一些有意义的句法结构,当此句法结构中的评价对象和评价词分别在目标评价对象集和目标评价词集中时,该句法结构的评价对象和评价词作为评价对象和评价词对被提取出来作为评价信息挖掘结果。
本实施例提供了一种细粒度的评价信息挖掘方法,该方法包括:获取初始评价对象种子集和初始评价词种子集;以初始评价对象种子集和初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词;将新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;从目标评价对象种子集和目标评价词种子集提取评价语句对应的评价信息。该方法以初始评对象种子集和初始评价词种子集为基础,利用半监督迭代法提取候选评价对象集和候选评价词集的关联结构,并分别对候选评价对象集挖掘出与候选评价词关联最紧密的评价对象作为新评价对象;同理,对候选评价词集挖据出与候选评价对象关联最紧密的评价词作为新评价词,将挖掘的新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集中,迭代交替挖掘出潜在的评价信息,最后提取出评价信息对应的评价对象和评价词。
实施例二
请参阅附图3,图3为本发明实施例一提供的一种细粒度的评价信息挖掘方法流程示意图。如图3所示,本实施例提供了一种细粒度的评价信息挖掘方法,该方法具体包括如下步骤:
在本实施例中,需要说明的是,首先接收用户输入的评价语句或从评价语句库中获取评价语句,该评价语句可以为评论语料,例如:对于某个电影中的人物进行评论的相关内容,如:演技不错,李易峰帅;李易峰男神;喜欢赵丽颖;不喜欢李易峰等等。
S301、获取初始评价对象种子集和初始评价词种子集。
在本实施例中,需要说明的是,初始评价对象种子集和初始评价词种子集是通过相关领域的一些典型评价对象和评价词为基础,通过word2vector选取这些典型评价对象和评价词,然后再进行一遍人工筛选,由人工根据具体的相关领域进行分词标注挑选及确定出来的。比如:预先筛选出1000条评论语句,人工对这1000条评论语句进行分词标注挑选及确定出评价对象和评价词,将挑选出来的这些评价对象和评价词构成初始评价对象种子集和初始评价词种子集。
S302、以初始评价对象种子集和初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词。
在本实施例中,需要说明的是,该步骤以初始评价对象种子集和初始评价词种子集作为基础,根据半监督迭代法从评价语句中确定新评价对象和新评价词。
本实施例中对于新评价对象和新评价词的确定具体可以由通过半监督迭代的方法进行新评价对象发现和新评价词发现,具体做法是根据依存句法分析提取一些有意义的句法结构,比如:主谓结构,主系表结构,谓宾结构等等,并且当此句法结构中的二元组中的两个元素分别符合作为评价对象候选集和评价词候选集条件时,此句法结构作为图的一条边,句法结构的两个元素作为图的顶点,相同句法结构二元组出现的次数作为图中该边的权重,从而构成无向加权图。
通过PageRank的迭代扩散方法将少数已标注结点的类别信息在整个图中进行传播,在传播达到平衡的时候获得图中顶点即所有实体对的紧密联系程度,进而通过排序发现评价对象候选集中有价值的评价对象和有价值的评价词。
S303、根据新评价对象与初始评价对象种子集中的评价对象的共现频率指定新评价对象的类别。
在本实施例中,需要说明的是,本发明会根据新评价对象的与其他评价对象的共现频率,来决定入选的评价对象属于哪个类别,具体方法是先找最大共现频率的共现类C1,然后找出其次共现频率的共现类C2,具体可判断阈值是否大于0.5,若是则选用该评价对象,否则不选用。比如:预先设定3个类别,新评价对象与A类的共现频率是C1=10,与B类是C2=5,与C类是C3=2,最大共现频率类别与次最大共现频率类别的对数比值:则新评价对象属于A类。
S304、将新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集,得到目标评价对象种子集和目标评价词种子集。
S305、从目标评价对象种子集和目标评价词种子集提取评价语句对应的评价信息,该评价信息包括:评价对象和评价词,所述评价词为对所述评价对象进行评价的观点信息。
将这些新评价对象和新评价词补充得到的两个集合作为目标评价对象种子集和目标评价词种子集;然后根据依存句法分析提取一些有意义的句法结构,当此句法结构中的评价对象和评价词分别在目标评价对象集和目标评价词集中时,该句法结构的评价对象和评价词作为评价对象和评价词对被提取出来作为评价信息挖掘结果。
S306、对评价语句对应的评价信息中的评价对象和评价词进行关联扩展。
在本实施例,需要说明的是,对于评价对象的扩展可以根据计算依赖结构中实体距离,在给定评价对象的前提下,可选取评价对象附近的实体作为关联评价对象。本实施例中,距离的阈值为小于等于2,例如:可以合并如下情况:李易峰演技棒→(李易峰演技,棒),则将李易峰演技作为评价对象,棒作为评价词组成评价对象和评价词对。
具体的,关联扩展就是对评价对象和评价词进行相近词的扩展,评价对象扩展,如:李易峰,演技可以扩展为“李易峰演技”;评价词扩展,如帅可以扩展为好看、漂亮等。
另外,关于评价语句中的否定词的合并,主要是指否定词的关联。具体实现是,我们先利用斯坦福的句法分析包,发现否定词,然后根据否定词之间的距离确定是否进行否定词的合并。
S308、对评价语句对应的评价信息进行可视化显示。
在本实施例中,需要说明的是,可以通过如图4中显示的可视化进行评价对象和评价词对的显示。
本发明公开了一种细粒度的评价信息挖掘方法,该方法以初始评对象种子集和初始评价词种子集为基础,利用半监督迭代法提取候选评价对象集和候选评价词集的关联结构,并分别对候选评价对象集挖掘出与候选评价词关联最紧密的评价对象作为新评价对象;同理,对候选评价词集挖据出与候选评价对象关联最紧密的评价词作为新评价词,将挖掘的新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集中,迭代交替挖掘出潜在的评价信息,最后提取出评价信息对应的评价对象和评价词;另外,需要对评价语句对应的评价信息进行可视化显示,方便用户的直观查看。
本发明在上述公开的方法的基础上,还公开了对应的系统。
下面对本发明实施例提供的一种细粒度的评价信息挖掘系统进行介绍,需要说明的是,有关该细粒度的评价信息挖掘系统的说明可参照上文提供的细粒度的评价信息挖掘方法,以下并不做赘述。
实施例三
请参阅附图5,图5为本发明实施例三提供的一种细粒度的评价信息挖掘系统结构示意图。如图5所示,本实施例提供了一种细粒度的评价信息挖掘系统,该系统具体结构包括如下:
获取模块501,用于获取初始评价对象种子集和初始评价词种子集;
确定模块502,用于以初始评价对象种子集和初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词;
添加模块503,用于将新评价对象和新评价词添加到初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;
提取模块504,用于从目标评价对象种子集和目标评价词种子集提取评价语句对应的评价信息,该评价信息包括:评价对象和评价词,所述评价词为对所述评价对象进行评价的观点信息。
具体的,请参阅附图6,图6为本发明实施例三提供的确定模块502的具体结构示意图。如图6所示,所述确定模块502具体结构包括如下:
提取单元601,用于根据依存句法分析法对评价语句提取句法依存结构;
获取单元602,用于以初始评价对象种子集和初始评价词种子集作为基础,获取初始评价对象种子集中初始评价对象的平均出现频次以及初始评价词种子集中初始评价词的平均出现频次;
第一选取单元603,用于选取初始评价对象种子集中出现频次大于初始评价对象的平均出现频次的名词作为候选评价对象集中的候选评价对象;
第二选取单元604,用于选取初始评价词种子集中出现频次大于初始评价词的平均出现频次的形容词作为候选评价词集中的候选评价词;
第一确定单元605,用于以候选评价词集为基础,利用候选评价词集中的候选评价词确定新评价词;
第二确定单元606,用于以候选评价对象集为基础,利用候选评价对象集中的候选评价对象确定新评价对象。
具体的,所述第一确定单元605包括:
第一构建单元,用于构建候选评价词集中的候选评价词与述初始评价对象种子集的每个初始评价对象的关系矩阵,生成评价词无向加权图;
第一加权单元,用于对初始评价对象种子集的每个初始评价对象进行初始权重值加权;
第一迭代单元,用于在评价词无向加权图中进行迭代传播,确定候选评价词集中每个候选评价词的权重值;
第一确定子单元,用于根据候选评价词的权重值进行排序,确定排序在预设值之前的候选评价词作为新评价词。
具体的,所述第二确定单元606包括:
第二构建单元,用于构建候选评价对象集中的候选评价对象与初始评价词种子集的每个初始评价词的关系矩阵,生成评价对象无向加权图;
第二加权单元,用于对初始评价词种子集的每个初始评价词进行初始权重值加权;
第二迭代单元,用于在评价对象无向加权图中进行迭代传播,确定候选评价对象集中每个候选评价对象的权重值;
第二确定子单元,用于根据候选评价对象的权重值进行排序,确定排序在预设值之前的候选评价对象作为新评价对象。
本实施例提供了一种细粒度的评价信息挖掘系统,该方法包括:获取初始评价对象种子集和初始评价词种子集;以初始评价对象种子集和初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词;将新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;从目标评价对象种子集和目标评价词种子集提取评价语句对应的评价信息。该方法以初始评对象种子集和初始评价词种子集为基础,利用半监督迭代法提取候选评价对象集和候选评价词集的关联结构,并分别对候选评价对象集挖掘出与候选评价词关联最紧密的评价对象作为新评价对象;同理,对候选评价词集挖据出与候选评价对象关联最紧密的评价词作为新评价词,将挖掘的新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集中,迭代交替挖掘出潜在的评价信息,最后提取出评价信息对应的评价对象和评价词。
实施例四
请参阅附图7,图7为本发明实施例四提供的一种细粒度的评价信息挖掘系统结构示意图。如图7所示,本实施例提供了一种细粒度的评价信息挖掘系统,该系统具体结构包括如下:
获取模块701,用于获取初始评价对象种子集和初始评价词种子集;
确定模块702,用于以初始评价对象种子集和初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词;
类别指定模块703,用于根据新评价对象与初始评价对象种子集中的评价对象的共现频率指定新评价对象的类别。
添加模块704,用于将新评价对象和新评价词添加到初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;
提取模块705,用于从目标评价对象种子集和目标评价词种子集提取评价语句对应的评价信息,该评价信息包括:评价对象和评价词,所述评价词为对所述评价对象进行评价的观点信息。
关联扩展模块706,用于对评价语句对应的评价信息中的评价对象和评价词进行关联扩展。
显示模块707,用于对评价语句对应的评价信息进行可视化显示。
本实施例公开了一种细粒度的评价信息挖掘系统,该系统以初始评对象种子集和初始评价词种子集为基础,利用半监督迭代法提取候选评价对象集和候选评价词集的关联结构,并分别对候选评价对象集挖掘出与候选评价词关联最紧密的评价对象作为新评价对象;同理,对候选评价词集挖据出与候选评价对象关联最紧密的评价词作为新评价词,将挖掘的新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集中,迭代交替挖掘出潜在的评价信息,最后提取出评价信息对应的评价对象和评价词;另外,需要对评价语句对应的评价信息进行可视化显示,方便用户的直观查看。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种细粒度的评价信息挖掘方法,其特征在于,包括:
获取初始评价对象种子集和初始评价词种子集;
以所述初始评价对象种子集和所述初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词;
将所述新评价对象和所述新评价词添加到所述初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;
从所述目标评价对象种子集和所述目标评价词种子集提取所述评价语句对应的评价信息,所述评论信息包括:评价对象和评价词,所述评价词为对所述评价对象进行评价的观点信息。
2.根据权利要求1所述的细粒度的评价信息挖掘方法,其特征在于,所述以所述初始评价对象种子集和所述初始评价词种子集作为基础,从所述评价语句中确定新评价对象和新评价词,包括:
以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词。
3.根据权利要求2所述的细粒度的评价信息挖掘方法,其特征在于,所述以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词,包括:
根据依存句法分析法对所述评价语句提取句法依存结构;
以所述初始评价对象种子集和所述初始评价词种子集作为基础,获取所述初始评价对象种子集中初始评价对象的平均出现频次以及所述初始评价词种子集中初始评价词的平均出现频次;
选取所述初始评价对象种子集中出现频次大于所述初始评价对象的平均出现频次的名词作为候选评价对象集中的候选评价对象;
选取所述初始评价词种子集中出现频次大于所述初始评价词的平均出现频次的形容词作为候选评价词集中的候选评价词;
以所述候选评价词集为基础,利用所述候选评价词集中的候选评价词确定新评价词;
以所述候选评价对象集为基础,利用所述候选评价对象集中的候选评价对象确定新评价对象。
4.根据权利要求3所述的细粒度的评价信息挖掘方法,其特征在于,所述利用所述候选评价词集中的候选评价词确定新评价词,包括:
构建所述候选评价词集中的候选评价词与所述初始评价对象种子集的每个初始评价对象的关系矩阵,生成评价词无向加权图;
对所述初始评价对象种子集的每个初始评价对象进行初始权重值加权;
在所述评价词无向加权图中进行迭代传播,确定所述候选评价词集中每个候选评价词的权重值;
根据所述候选评价词的权重值进行排序,确定排序在预设值之前的候选评价词作为新评价词。
5.根据权利要求3所述的细粒度的评价信息挖掘方法,其特征在于,所述利用所述候选评价对象集中的候选评价对象确定新评价对象,包括:
构建所述候选评价对象集中的候选评价对象与所述初始评价词种子集的每个初始评价词的关系矩阵,生成评价对象无向加权图;
对所述初始评价词种子集的每个初始评价词进行初始权重值加权;
在所述评价对象无向加权图中进行迭代传播,确定所述候选评价对象集中每个候选评价对象的权重值;
根据所述候选评价对象的权重值进行排序,确定排序在预设值之前的候选评价对象作为新评价对象。
6.根据权利要求1所述的细粒度的评价信息挖掘方法,其特征在于,所述根据半监督迭代法从所述评价语句中确定新评价对象和新评价词之后,还包括:
根据所述新评价对象与所述初始评价对象种子集中的评价对象的共现频率指定所述新评价对象的类别。
7.根据权利要求1所述的细粒度的评价信息挖掘方法,其特征在于,还包括:
对所述评价语句对应的评价信息中的所述评价对象和所述评价词进行关联扩展。
8.根据权利要求1所述的细粒度的评价信息挖掘方法,其特征在于,还包括:
对所述评价语句对应的评价信息进行可视化显示。
9.一种细粒度的评价信息挖掘系统,其特征在于,包括:
获取模块,用于获取初始评价对象种子集和初始评价词种子集;
确定模块,用于以所述初始评价对象种子集和所述初始评价词种子集作为基础,从所述评价语句中确定新评价对象和新评价词;
添加模块,用于将所述新评价对象和所述新评价词添加到所述初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;
提取模块,用于从所述目标评价对象种子集和所述目标评价词种子集提取所述评价语句对应的评价信息,所述评论信息包括:评价对象和评价词,所述评价词用于对所述评价对象进行评价的观点信息。
10.根据权利要求9所述的细粒度的评价信息挖掘系统,其特征在于,所述确定模块具体用于以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词。
11.根据权利要求10所述的细粒度的评价信息挖掘系统,其特征在于,所述确定模块包括:
提取单元,用于根据依存句法分析法对所述评价语句提取句法依存结构;
获取单元,用于以所述初始评价对象种子集和所述初始评价词种子集作为基础,获取所述初始评价对象种子集中初始评价对象的平均出现频次以及所述初始评价词种子集中初始评价词的平均出现频次;
第一选取单元,用于选取所述初始评价对象种子集中出现频次大于所述初始评价对象的平均出现频次的名词作为候选评价对象集中的候选评价对象;
第二选取单元,用于选取所述初始评价词种子集中出现频次大于所述初始评价词的平均出现频次的形容词作为候选评价词集中的候选评价词;
第一确定单元,用于以所述候选评价词集为基础,利用所述候选评价词集中的候选评价词确定新评价词;
第二确定单元,用于以所述候选评价对象集为基础,利用所述候选评价对象集中的候选评价对象确定新评价对象。
12.根据权利要求11所述的细粒度的评价信息挖掘系统,其特征在于,所述第一确定单元包括:
第一构建单元,用于构建所述候选评价词集中的候选评价词与所述初始评价对象种子集的每个初始评价对象的关系矩阵,生成评价词无向加权图;
第一加权单元,用于对所述初始评价对象种子集的每个初始评价对象进行初始权重值加权;
第一迭代单元,用于在所述评价词无向加权图中进行迭代传播,确定所述候选评价词集中每个候选评价词的权重值;
第一确定子单元,用于根据所述候选评价词的权重值进行排序,确定排序在预设值之前的候选评价词作为新评价词。
13.根据权利要求11所述的细粒度的评价信息挖掘系统,其特征在于,所述第二确定单元包括:
第二构建单元,用于构建所述候选评价对象集中的候选评价对象与所述初始评价词种子集的每个初始评价词的关系矩阵,生成评价对象无向加权图;
第二加权单元,用于对所述初始评价词种子集的每个初始评价词进行初始权重值加权;
第二迭代单元,用于在所述评价对象无向加权图中进行迭代传播,确定所述候选评价对象集中每个候选评价对象的权重值;
第二确定子单元,用于根据所述候选评价对象的权重值进行排序,确定排序在预设值之前的所述候选评价对象作为新评价对象。
14.根据权利要求9所述的细粒度的评价信息挖掘系统,其特征在于,还包括:
类别指定模块,用于根据所述新评价对象与所述初始评价对象种子集中的评价对象的共现频率指定所述新评价对象的类别。
15.根据权利要求9所述的细粒度的评价信息挖掘系统,其特征在于,还包括:
关联扩展模块,用于对所述评价语句对应的评价对象和评价词对中的所述评价对象和所述评价词进行关联扩展。
16.根据权利要求9所述的细粒度的评价信息挖掘系统,其特征在于,还包括:
显示模块,用于对所述评价语句对应的评价信息进行可视化显示。
CN201711070053.0A 2017-11-03 2017-11-03 一种细粒度的评价信息挖掘方法及系统 Pending CN107861946A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711070053.0A CN107861946A (zh) 2017-11-03 2017-11-03 一种细粒度的评价信息挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711070053.0A CN107861946A (zh) 2017-11-03 2017-11-03 一种细粒度的评价信息挖掘方法及系统

Publications (1)

Publication Number Publication Date
CN107861946A true CN107861946A (zh) 2018-03-30

Family

ID=61700586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711070053.0A Pending CN107861946A (zh) 2017-11-03 2017-11-03 一种细粒度的评价信息挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN107861946A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN110738056A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073653A (zh) * 2009-11-20 2011-05-25 富士通株式会社 信息抽取方法和装置
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
US20150347387A1 (en) * 2014-06-03 2015-12-03 International Business Machines Corporation Adjusting ranges of directed graph ontologies across multiple dimensions
CN106021433A (zh) * 2016-05-16 2016-10-12 北京百分点信息科技有限公司 一种商品评论数据的口碑分析方法和装置
CN106257455A (zh) * 2016-07-08 2016-12-28 闽江学院 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073653A (zh) * 2009-11-20 2011-05-25 富士通株式会社 信息抽取方法和装置
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
US20150347387A1 (en) * 2014-06-03 2015-12-03 International Business Machines Corporation Adjusting ranges of directed graph ontologies across multiple dimensions
CN106021433A (zh) * 2016-05-16 2016-10-12 北京百分点信息科技有限公司 一种商品评论数据的口碑分析方法和装置
CN106257455A (zh) * 2016-07-08 2016-12-28 闽江学院 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738056A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110738056B (zh) * 2018-07-03 2023-12-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质

Similar Documents

Publication Publication Date Title
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN103729402B (zh) 一种基于图书目录的知识图谱的构建方法
Nastase Topic-driven multi-document summarization with encyclopedic knowledge and spreading activation
CN105912656B (zh) 一种商品知识图谱的构建方法
CN106570144A (zh) 推荐信息的方法和装置
CN103927398B (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN103617280B (zh) 一种中文事件信息挖掘方法和系统
CN105843795A (zh) 基于主题模型的文档关键词抽取方法及其系统
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN106570191A (zh) 基于维基百科的中英文跨语言实体匹配方法
CN104504024B (zh) 基于微博内容的关键词挖掘方法及系统
CN105893350A (zh) 一种电子商务中文本评论质量的评价方法与系统
CN104657463A (zh) 应用于自动问答系统的问句分类方法及装置
CN105654144B (zh) 一种基于机器学习的社交网络本体构建方法
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN102436480B (zh) 一种面向文本的知识单元关联关系挖掘方法
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN107239512A (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN106294845A (zh) 基于权重学习和多特征抽取的多情绪分类方法及装置
CN105721279A (zh) 一种电信网络用户的交往圈挖掘方法及系统
CN103631862B (zh) 基于微博的事件特征演化挖掘方法及系统
CN105224520A (zh) 一种中文专利文献术语自动识别方法
CN104915443A (zh) 一种中文微博评价对象的抽取方法
CN107861946A (zh) 一种细粒度的评价信息挖掘方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180330