CN106021413A - 基于主题模型的自展式特征选择方法及系统 - Google Patents

基于主题模型的自展式特征选择方法及系统 Download PDF

Info

Publication number
CN106021413A
CN106021413A CN201610318849.2A CN201610318849A CN106021413A CN 106021413 A CN106021413 A CN 106021413A CN 201610318849 A CN201610318849 A CN 201610318849A CN 106021413 A CN106021413 A CN 106021413A
Authority
CN
China
Prior art keywords
word
feature
viewpoint
comment data
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610318849.2A
Other languages
English (en)
Other versions
CN106021413B (zh
Inventor
徐华
张帆
孙晓民
邓俊辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610318849.2A priority Critical patent/CN106021413B/zh
Publication of CN106021413A publication Critical patent/CN106021413A/zh
Application granted granted Critical
Publication of CN106021413B publication Critical patent/CN106021413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明提出一种基于主题模型的自展式特征选择方法及系统,该方法包括以下步骤:获取原始评论数据;选取主题模型,并根据主题模型对原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据显式特征词和观点词生成语义关联规则;根据语义关联规则进行显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。本发明的方法能有效地抽取相关特征,摒弃无关特征和观点词,极大地减少人工工作量及人工误差。

Description

基于主题模型的自展式特征选择方法及系统
技术领域
本发明涉及计算机应用技术领域,特别涉及一种基于主题模型的自展式特征选择方法及系统。
背景技术
随着互联网的快速兴起,在线购物为人们带来了便利的购物方式,同时广大电商网站允许已购买产品的顾客对产品进行评论以供后来的潜在消费者参考,此类信息在网站上迅速膨胀,构成了海量数据。这些评论信息,尤其是某些热销产品的评论信息,对业界和科研人员来说都是极其宝贵的参考材料,在观点挖掘、产品预测等方面都有着极大的参考价值。生产企业可以通过顾客的产品评论改进自己的产品;营销团队通过对产品评论进行分析比较能够得到该产品的销售趋势或根据不同产品间的比较得到热点产品;科研人员可以通过产品评论进行顾客的情感分析等。然而这些工作全都离不开观点挖掘。观点挖掘,也称为情绪分析,是对于人们关于某一实体的特征、组件、属性等所产生的观点、态度和情绪进行挖掘和分析的一种技术,是自然语言处理学科中重要的一个领域,得到了学术界和业界的重视。
结合产品评论,观点挖掘能十分有效地反应用户的对于某具体事物的具体观点,具有实时性、话题敏感性和多变性的特点。观点挖掘作为自然语言处理的重要组成部分,也是机器学习中的一个重要研究领域。同时,由于电商平台数据的多变性和数据规模的庞大,基于在线数据的观点挖掘一直是研究的热点和难点。网络用语、话题的快速流行和消亡往往要求在线观点挖掘模型具有良好的应激性及对于新用语的敏感性和适应性,这在机器学习领域尚是个研究热点。特征抽取是观点挖掘中的重要环节,提取结果的好坏将直接影响观点挖掘的结果好坏。大多数模型往往对产品评论利用监督学习或半监督学习来进行特征提取,这往往是因为产品评论的领域局限性造成的:同样的一个特征词在不同的专业领域的权重大多不相等,例如“动力”一词在汽车等交通工具的产品评论中占有重要的地位,然而在手机等数码产品的评论中则是无用的“噪音”评论。以往的工作中,对于特征的抽取往往需要人工标定,往往就是由领域局限性造成的。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出一种基于主题模型的自展式特征选择方法,该方法能有效地抽取相关特征,摒弃无关特征和观点词,极大地减少人工工作量及人工误差。
本发明的另一个目的在于提出一种基于主题模型的自展式特征选择系统。
为了实现上述目的,本发明第一方面的实施例公开了一种基于主题模型的自展式特征选择方法,包括以下步骤:S1:获取原始评论数据;S2:选取主题模型,并根据所述主题模型对所述原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据所述显式特征词和观点词生成语义关联规则;以及S3:根据所述语义关联规则进行所述显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。
另外,根据本发明上述实施例的基于主题模型的自展式特征选择方法还可以具有如下附加的技术特征:
在一些示例中,还包括:获取隐式特征评论,并根据所述显示特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联三者之间的传导性,将隐式特征评论中的观点词根据所述语义关联规则得到相匹配的特征词。
在一些示例中,所述主题模型为潜在的狄利克雷分布LDA。
在一些示例中,所述S2进一步包括:S21:将所述原始评论数据的初始特征空间设置为空;S22:从所述原始评论数据中挑选一个特征,并计算在所述特征下每个单词的条件概率;S23:设置一个阈值,以保留条件概率大于所述阈值的单词,并滤除条件概率小于所述阈值的词汇;S24:重复执行所述步骤S22至步骤S23,直至得到足够维度的特征。
在一些示例中,所述原始评论数据中每个单词都具有其唯一的主题,则原始评论数据中每个词的优化目标如下式:
Pr o ( z , w , θ | α , β ) = Pr o ( θ | α ) Π n = 1 N [ Pr o ( z n | θ ) Pr o ( w n | z n , β ) ] ,
其中z表示原始评论数据中每个单词都对应的主题,w表示原始评论数据中的单词,θ表示满足以α为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。
根据本发明实施例的基于主题模型的自展式特征选择方法,采用LDA这种概率生成模型来刻画数据的语义关联进而进行特征降维和抽取,符合文本语义特点,由文本自身的特性出发得到挖掘结果,该方法能有效地抽取相关特征,摒弃无关特征和观点词,极大减少了人工工作量和人工误差。另外,通过挖掘隐式特征能进一步完善观点挖掘的样本,提高观点挖掘效果。
本发明第二方面的实施例公开了一种基于主题模型的自展式特征选择系统,包括:获取模块,所述获取模块用于获取原始评论数据;处理模块,所述处理模块用于选取主题模型,并根据所述主题模型对所述原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据所述显式特征词和观点词生成语义关联规则;匹配模块,所述匹配模块用于根据所述语义关联规则进行所述显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。
另外,根据本发明上述实施例的基于主题模型的自展式特征选择系统还可以具有如下附加的技术特征:
在一些示例中,所述匹配模块还用于:获取隐式特征评论,并根据所述显示特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联三者之间的传导性,将隐式特征评论中的观点词根据所述语义关联规则得到相匹配的特征词。
在一些示例中,所述主题模型为潜在的狄利克雷分布LDA。
在一些示例中,所述处理模块用于:将所述原始评论数据的初始特征空间设置为空,并从所述原始评论数据中挑选一个特征,并计算在所述特征下每个单词的条件概率,并设置一个阈值,以保留条件概率大于所述阈值的单词,并滤除条件概率小于所述阈值的词汇,并重复执行上述过程,直至得到足够维度的特征。
在一些示例中,所述原始评论数据中每个词都具有其唯一的主题,则原始评论数据中每个单词的优化目标如下式:
Pr o ( z , w , θ | α , β ) = Pr o ( θ | α ) Π n = 1 N [ Pr o ( z n | θ ) Pr o ( w n | z n , β ) ] ,
其中z表示原始评论数据中每个单词都对应的主题,w表示原始评论数据中的单词,θ表示满足以α为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。
根据本发明实施例的基于主题模型的自展式特征选择系统,采用LDA这种概率生成模型来刻画数据的语义关联进而进行特征降维和抽取,符合文本语义特点,由文本自身的特性出发得到挖掘结果,该系统能有效地抽取相关特征,摒弃无关特征和观点词,极大减少了人工工作量和人工误差。另外,通过挖掘隐式特征能进一步完善观点挖掘的样本,提高观点挖掘效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的基于主题模型的自展式特征选择方法的流程图;
图2是根据本发明一个实施例的主题模型特征降维概率图模型示意图;
图3是根据本发明一个实施例的语义关联关系挖掘示例图;以及
图4是根据本发明一个实施例的基于主题模型的自展式特征选择系统的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以下结合附图描述根据本发明实施例的基于主题模型的自展式特征选择方法及系统。
图1是根据本发明一个实施例的基于主题模型的自展式特征选择方法的流程图。如图1所示,根据本发明实施例的基于主题模型的自展式特征选择方法,包括以下步骤:
步骤S1:获取原始评论数据。
步骤S2:选取主题模型,并根据主题模型对原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据显式特征词和观点词生成语义关联规则。
具体地说,对于原始的产品评论(原始评论数据),语句中常常包含大量的无关噪声和重复数据(如许多相互重复的信息以及和预测目标无关的无用信息),而这些信息会造成最后模型参数的激增,使得模型训练变得更加困难。另一方面,产品评论(原始评论数据)是一个糅合了多种语言形式的文本,例如网络流行语、网络用语缩写、网页链接和表情符号等。有些数据类型明显与产品本身无关,因此需要对数据进行清洗和筛选,即在特征用于学习之前,往往需要进行从高维特征空间到低维特征空间的映射,保留有用信息,从而降低模型训练的复杂度,诸如网页链接、话题标签、位置信息以及重复的子句将被删除,网络流行语及网络缩写在遍历了用语词典后仍找不到的提醒人工标准,表情符号以文字代替。
在本发明的一个实施例中,主题模型例如为LDA(Latent Dirichlet Allocation,潜在的狄利克雷分布)。LDA作为一个统计生成模型,自2003年提出以来,逐步成为具有多种应用场景的机器学习方法。其将文本中词语进行统计映射到向量空间的方法十分符合高维特征空间到低维特征空间的转换,同时该方法的统计特性也保证了其在离散数据(如文本)上的良好分析能力。同时,LDA能够将词与词之间的语义关联以概率的形式表现出来,十分符合无监督观点挖掘对于文本语义体现的需求,因此本发明的实施例选择LDA来进行数据处理和特征抽取。
潜在的狄利克雷分布LDA是目前常见的特征降维方法,是一种层次的贝叶斯模型。其主要思想是将计算出文本中每个词在预先设定好的主题下的概率,并通过阈值限定筛选出有用的特征及过滤掉无用的噪声数据。基于此,结合图2所示,步骤S2进一步包括:
S21:将原始评论数据的初始特征空间设置为空。
S22:从原始评论数据中挑选一个特征,并计算在特征下每个单词的条件概率。
S23:设置一个阈值,以保留条件概率大于阈值的单词,并滤除条件概率小于阈值的词汇。
S24:重复执行步骤S22至步骤S23,直至得到足够维度的特征。
其中,例如,设定原始评论数据中每个单词w都具有其唯一的主题z,则原始评论数据中每个词的优化目标如下式:
Pr o ( z , w , θ | α , β ) = Pr o ( θ | α ) Π n = 1 N [ Pr o ( z n | θ ) Pr o ( w n | z n , β ) ] ,
其中z表示原始评论数据中每个词都对应的主题,w表示原始评论数据中的单词,θ表示满足以α为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。也就是说,求解有用的特征词的概率问题就转换成了求解文档~主题的分布和主题~词汇的分布的问题,而这两个问题在给定文本集的前提下是可统计计算的,并在每个主题下将文本词汇按条件概率排序。由此可以知道,本发明的实施例通过设定不同的阈值适当保留前若干个高概率词汇,从而完成特征筛取和降维。
在上述示例中,主题模型LDA之所以能够完成特征降维、特征抽取以及生成关联规则这三个子任务的原因在于:这三个子任务都用到了单词的概率表现。这样,通过设定阈值,可以将每个主题下出现概率低的词筛取掉,完成特征降维任务。同时,根据高概率的单词抽取出特征词、观点词并以此进行关联得到语义关联股则。
步骤S3:根据语义关联规则进行显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。
具体地说,从上文描述中可知,主题模型(如LDA)能够以统计概率的模式表现出词与词之间的关联性。这一特性能够十分良好的挖掘出特征词和观点词。结合图3所示,具体介绍如下:
中文文本在进行词性标注之后,可根据词性选出候选特征词和观点词。特征词的词性往往是名词或名词词组,如“屏幕”、“质量”等;观点词则往往是动词或形容词以及副词,如“灵活”、“好看”、“适合妹子用”等。当将正确的产品特征和相关的观点词匹配好之后,就完成了对该产品的观点挖掘。
在本主题模型中,使用语义关联规则来实现产品特征和观点词的匹配。而语义关联规则的挖掘则依赖于主题模型。当得到每个主题下单词的概率时,概率大的词表示该词与主题语义关联紧密,概率低表示该词与该主题语义关联稀疏。由于主题模型的特性,我们可以人工定义主题词作为特征种子词,再利用主题模型对文本语义的概率描述得到词与词之间的语义关联。从特征种子词出发,结合特征词、观点词的特有词性及设定不同的阈值,进行特征抽取和观点词筛选和匹配,从而完成观点挖掘。由于不同的语义文本在主题模型的描述下关联性自然不同,这是由文本自身的特性形成的,即主题模型展现了文本内部自身的关联性,通过极少的几个种子词作为起点,挖掘出特征词和相应的观点词。因此,这种方法称为自展式的观点挖掘,即通过模型自身特性进行挖掘,而不需过多借助人工标定。
进一步地,该方法还包括:获取隐式特征评论,并根据显示特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联三者之间的传导性,将隐式特征评论中的观点词根据所述语义关联规则得到相匹配的特征词。具体地说,特征词不直接出现在评论中的句子称为隐式评论,如:“媳妇挺喜欢用的,就是不容易放进口袋”,在这句关于手机的评论中,关于手机特性的特征词“大小”或“手机尺寸”并没有出现,然而人们都可以看出这句评论是对手机大小进行了描述。被隐式特征描述的特征就称为隐式特征。观点挖掘的质量很大一部分依赖于特征挖掘的优劣。在以往的工作中,观点挖掘的研究者们往往关注显示特征评论,即特征直接出现在句子中的评论,的选取,而忽略了隐式特征的评论。然而隐式特征平均占整体特征的20%-30%,对观点挖掘结果有着不可忽视的影响。因此隐式特征评论的挖掘工作十分必要。通过自展式特征抽取,我们已经得到了显式特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联。则根据这三种关联的传导性,将隐式特征评论中的观点词根据关联规则得到相匹配的特征词,则可完善观点挖掘的样本,提高观点挖掘效果。
综上,根据本发明实施例的基于主题模型的自展式特征选择方法,采用LDA这种概率生成模型来刻画数据的语义关联进而进行特征降维和抽取,符合文本语义特点,由文本自身的特性出发得到挖掘结果,该方法能有效地抽取相关特征,摒弃无关特征和观点词,极大减少了人工工作量和人工误差。另外,通过挖掘隐式特征能进一步完善观点挖掘的样本,提高观点挖掘效果。
本发明的进一步实施例还提供了一种基于主题模型的自展式特征选择系统。
图4是根据本发明实施例的基于主题模型的自展式特征选择系统的结构框图。如图4所示,根据本发明实施例的基于主题模型的自展式特征选择系统100,包括:获取模块110、处理模块120和匹配模块130。
其中,获取模块110用于获取原始评论数据。
处理模块120用于选取主题模型,并根据主题模型对原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据显式特征词和观点词生成语义关联规则。
具体地说,对于原始的产品评论(原始评论数据),语句中常常包含大量的无关噪声和重复数据(如许多相互重复的信息以及和预测目标无关的无用信息),而这些信息会造成最后模型参数的激增,使得模型训练变得更加困难。另一方面,产品评论(原始评论数据)是一个糅合了多种语言形式的文本,例如网络流行语、网络用语缩写、网页链接和表情符号等。有些数据类型明显与产品本身无关,因此需要对数据进行清洗和筛选,即在特征用于学习之前,往往需要进行从高维特征空间到低维特征空间的映射,保留有用信息,从而降低模型训练的复杂度,诸如网页链接、话题标签、位置信息以及重复的子句将被删除,网络流行语及网络缩写在遍历了用语词典后仍找不到的提醒人工标准,表情符号以文字代替。
在本发明的一个实施例中,主题模型例如为潜在的狄利克雷分布LDA。LDA作为一个统计生成模型,自2003年提出以来,逐步成为具有多种应用场景的机器学习方法。其将文本中词语进行统计映射到向量空间的方法十分符合高维特征空间到低维特征空间的转换,同时该方法的统计特性也保证了其在离散数据(如文本)上的良好分析能力。同时,LDA能够将词与词之间的语义关联以概率的形式表现出来,十分符合无监督观点挖掘对于文本语义体现的需求,因此本发明的实施例选择LDA来进行数据处理和特征抽取。
潜在的狄利克雷分布LDA是目前常见的特征降维方法,是一种层次的贝叶斯模型。其主要思想是将计算出文本中每个词在预先设定好的主题下的概率,并通过阈值限定筛选出有用的特征及过滤掉无用的噪声数据。
基于此,处理模块120用于将原始评论数据的初始特征空间设置为空,并从原始评论数据中挑选一个特征,并计算在特征下每个单词的条件概率,并设置一个阈值,以保留条件概率大于阈值的单词,并滤除条件概率小于阈值的词汇,并重复执行上述过程,直至得到足够维度的特征。
其中,例如,设定原始评论数据中每个单词w都具有其唯一的主题z,则原始评论数据中每个词的优化目标如下式:
Pr o ( z , w , θ | α , β ) = Pr o ( θ | α ) Π n = 1 N [ Pr o ( z n | θ ) Pr o ( w n | z n , β ) ] ,
其中z表示原始评论数据中每个词都对应的主题,w表示原始评论数据中的单词,θ表示满足以α为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。也就是说,求解有用的特征词的概率问题就转换成了求解文档~主题的分布和主题~词汇的分布的问题,而这两个问题在给定文本集的前提下是可统计计算的,并在每个主题下将文本词汇按条件概率排序。由此可以知道,本发明的实施例通过设定不同的阈值适当保留前若干个高概率词汇,从而完成特征筛取和降维。
在上述示例中,主题模型LDA之所以能够完成特征降维、特征抽取以及生成关联规则这三个子任务的原因在于:这三个子任务都用到了单词的概率表现。这样,通过设定阈值,可以将每个主题下出现概率低的词筛取掉,完成特征降维任务。同时,根据高概率的单词抽取出特征词、观点词并以此进行关联得到语义关联规则。
匹配模块130用于根据语义关联规则进行显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。
具体地说,从上文描述中可知,主题模型(如LDA)能够以统计概率的模式表现出词与词之间的关联性。这一特性能够十分良好的挖掘出特征词和观点词。具体介绍如下:
中文文本在进行词性标注之后,可根据词性选出候选特征词和观点词。特征词的词性往往是名词或名词词组,如“屏幕”、“质量”等;观点词则往往是动词或形容词以及副词,如“灵活”、“好看”、“适合妹子用”等。当将正确的产品特征和相关的观点词匹配好之后,就完成了对该产品的观点挖掘。
在本主题模型中,使用语义关联规则来实现产品特征和观点词的匹配。而语义关联规则的挖掘则依赖于主题模型。当得到每个主题下单词的概率时,概率大的词表示该词与主题语义关联紧密,概率低表示该词与该主题语义关联稀疏。由于主题模型的特性,我们可以人工定义主题词作为特征种子词,再利用主题模型对文本语义的概率描述得到词与词之间的语义关联。从特征种子词出发,结合特征词、观点词的特有词性及设定不同的阈值,进行特征抽取和观点词筛选和匹配,从而完成观点挖掘。由于不同的语义文本在主题模型的描述下关联性自然不同,这是由文本自身的特性形成的,即主题模型展现了文本内部自身的关联性,通过极少的几个种子词作为起点,挖掘出特征词和相应的观点词。因此,这种方法称为自展式的观点挖掘,即通过模型自身特性进行挖掘,而不需过多借助人工标定。
进一步地,在本发明的一个实施例中,匹配模块130还用于获取隐式特征评论,并根据显示特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联三者之间的传导性,将隐式特征评论中的观点词根据语义关联规则得到相匹配的特征词。具体地说,特征词不直接出现在评论中的句子称为隐式评论,如:“媳妇挺喜欢用的,就是不容易放进口袋”,在这句关于手机的评论中,关于手机特性的特征词“大小”或“手机尺寸”并没有出现,然而人们都可以看出这句评论是对手机大小进行了描述。被隐式特征描述的特征就称为隐式特征。观点挖掘的质量很大一部分依赖于特征挖掘的优劣。在以往的工作中,观点挖掘的研究者们往往关注显示特征评论,即特征直接出现在句子中的评论,的选取,而忽略了隐式特征的评论。然而隐式特征平均占整体特征的20%-30%,对观点挖掘结果有着不可忽视的影响。因此隐式特征评论的挖掘工作十分必要。通过自展式特征抽取,我们已经得到了显式特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联。则根据这三种关联的传导性,将隐式特征评论中的观点词根据关联规则得到相匹配的特征词,则可完善观点挖掘的样本,提高观点挖掘效果。
综上,根据本发明实施例的基于主题模型的自展式特征选择系统,采用LDA这种概率生成模型来刻画数据的语义关联进而进行特征降维和抽取,符合文本语义特点,由文本自身的特性出发得到挖掘结果,该系统能有效地抽取相关特征,摒弃无关特征和观点词,极大减少了人工工作量和人工误差。另外,通过挖掘隐式特征能进一步完善观点挖掘的样本,提高观点挖掘效果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。

Claims (10)

1.一种基于主题模型的自展式特征选择方法,其特征在于,包括以下步骤:
S1:获取原始评论数据;
S2:选取主题模型,并根据所述主题模型对所述原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据所述显式特征词和观点词生成语义关联规则;以及
S3:根据所述语义关联规则进行所述显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。
2.根据权利要求1所述的基于主题模型的自展式特征选择方法,其特征在于,还包括:
获取隐式特征评论,并根据所述显示特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联三者之间的传导性,将隐式特征评论中的观点词根据所述语义关联规则得到相匹配的特征词。
3.根据权利要求1所述的基于主题模型的自展式特征选择方法,其特征在于,所述主题模型为潜在的狄利克雷分布LDA。
4.根据权利要求3所述的基于主题模型的自展式特征选择方法,其特征在于,所述S2进一步包括:
S21:将所述原始评论数据的初始特征空间设置为空;
S22:从所述原始评论数据中挑选一个特征,并计算在所述特征下每个单词的条件概率;
S23:设置一个阈值,以保留条件概率大于所述阈值的单词,并滤除条件概率小于所述阈值的词汇;
S24:重复执行所述步骤S22至步骤S23,直至得到足够维度的特征。
5.根据权利要求4所述的基于主题模型的自展式特征选择方法,其特征在于,所述原始评论数据中每个单词都具有其唯一的主题,则原始评论数据中每个词的优化目标如下式:
Pr o ( z , w , θ | α , β ) = Pr o ( θ | α ) Π n = 1 N [ Pr o ( z n | θ ) Pr o ( w n | z n , β ) ] ,
其中z表示原始评论数据中每个单词都对应的主题,w表示原始评论数据中的单词,θ表示满足以α为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。
6.一种基于主题模型的自展式特征选择系统,其特征在于,包括:
获取模块,所述获取模块用于获取原始评论数据;
处理模块,所述处理模块用于选取主题模型,并根据所述主题模型对所述原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据所述显式特征词和观点词生成语义关联规则;
匹配模块,所述匹配模块用于根据所述语义关联规则进行所述显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。
7.根据权利要求6所述的基于主题模型的自展式特征选择系统,其特征在于,所述匹配模块还用于:
获取隐式特征评论,并根据所述显示特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联三者之间的传导性,将隐式特征评论中的观点词根据所述语义关联规则得到相匹配的特征词。
8.根据权利要求6所述的基于主题模型的自展式特征选择系统,其特征在于,所述主题模型为潜在的狄利克雷分布LDA。
9.根据权利要求8所述的基于主题模型的自展式特征选择系统,其特征在于,所述处理模块用于:将所述原始评论数据的初始特征空间设置为空,并从所述原始评论数据中挑选一个特征,并计算在所述特征下每个单词的条件概率,并设置一个阈值,以保留条件概率大于所述阈值的单词,并滤除条件概率小于所述阈值的词汇,并重复执行上述过程,直至得到足够维度的特征。
10.根据权利要求9所述的基于主题模型的自展式特征选择系统,其特征在于,所述原始评论数据中每个单词都具有其唯一的主题,则原始评论数据中每个词的优化目标如下式:
Pr o ( z , w , θ | α , β ) = Pr o ( θ | α ) Π n = 1 N [ Pr o ( z n | θ ) Pr o ( w n | z n , β ) ] ,
其中z表示原始评论数据中每个单词都对应的主题,w表示原始评论数据中的单词,θ表示满足以α为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。
CN201610318849.2A 2016-05-13 2016-05-13 基于主题模型的自展式特征选择方法及系统 Active CN106021413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610318849.2A CN106021413B (zh) 2016-05-13 2016-05-13 基于主题模型的自展式特征选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610318849.2A CN106021413B (zh) 2016-05-13 2016-05-13 基于主题模型的自展式特征选择方法及系统

Publications (2)

Publication Number Publication Date
CN106021413A true CN106021413A (zh) 2016-10-12
CN106021413B CN106021413B (zh) 2019-07-02

Family

ID=57100112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610318849.2A Active CN106021413B (zh) 2016-05-13 2016-05-13 基于主题模型的自展式特征选择方法及系统

Country Status (1)

Country Link
CN (1) CN106021413B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402984A (zh) * 2017-07-11 2017-11-28 北京金堤科技有限公司 一种基于主题的分类方法及装置
CN108132947A (zh) * 2016-12-01 2018-06-08 百度在线网络技术(北京)有限公司 实体挖掘系统和方法
CN109426661A (zh) * 2017-08-24 2019-03-05 阿里巴巴集团控股有限公司 语料分析方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945268A (zh) * 2012-10-25 2013-02-27 北京腾逸科技发展有限公司 产品特征评论挖掘方法及系统
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN105573983A (zh) * 2015-12-17 2016-05-11 清华大学 基于主题模型的微博用户情绪层次化分类方法和分类系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945268A (zh) * 2012-10-25 2013-02-27 北京腾逸科技发展有限公司 产品特征评论挖掘方法及系统
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN105573983A (zh) * 2015-12-17 2016-05-11 清华大学 基于主题模型的微博用户情绪层次化分类方法和分类系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132947A (zh) * 2016-12-01 2018-06-08 百度在线网络技术(北京)有限公司 实体挖掘系统和方法
CN108132947B (zh) * 2016-12-01 2022-06-03 百度在线网络技术(北京)有限公司 实体挖掘系统和方法
CN107402984A (zh) * 2017-07-11 2017-11-28 北京金堤科技有限公司 一种基于主题的分类方法及装置
CN109426661A (zh) * 2017-08-24 2019-03-05 阿里巴巴集团控股有限公司 语料分析方法及相关装置
CN109426661B (zh) * 2017-08-24 2023-08-18 阿里巴巴(中国)网络技术有限公司 语料分析方法及相关装置

Also Published As

Publication number Publication date
CN106021413B (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
Gao et al. Retrieval-augmented generation for large language models: A survey
CN104268197B (zh) 一种行业评论数据细粒度情感分析方法
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102866989B (zh) 基于词语依存关系的观点抽取方法
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN109582764A (zh) 基于依存句法的交互注意力情感分析方法
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN110175325A (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN101710343A (zh) 一种基于文本挖掘的本体自动构建系统及方法
CN104699766A (zh) 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN109871955A (zh) 一种航空安全事故因果关系抽取方法
CN111581954B (zh) 一种基于语法依存信息的文本事件抽取方法及装置
CN109960756A (zh) 新闻事件信息归纳方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN104036010A (zh) 一种基于半监督cbow的用户搜索词主题分类的方法
CN106326307A (zh) 一种语言交互方法
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN106021413A (zh) 基于主题模型的自展式特征选择方法及系统
Menezes et al. Building a massive corpus for named entity recognition using free open data sources
Hong et al. Comprehensive technology function product matrix for intelligent chatbot patent mining
CN105718441A (zh) 一种查找不同平台间功能相似ui组件的方法和装置
CN103019924A (zh) 输入法智能性评测系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant