CN102682074A - 一种基于流形学习的产品隐式属性识别方法 - Google Patents
一种基于流形学习的产品隐式属性识别方法 Download PDFInfo
- Publication number
- CN102682074A CN102682074A CN2012100619703A CN201210061970A CN102682074A CN 102682074 A CN102682074 A CN 102682074A CN 2012100619703 A CN2012100619703 A CN 2012100619703A CN 201210061970 A CN201210061970 A CN 201210061970A CN 102682074 A CN102682074 A CN 102682074A
- Authority
- CN
- China
- Prior art keywords
- speech
- product
- suggestion
- product attribute
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
基于流形学习的产品评论隐式属性识别方法,从互联网上抓取产品评论数据后,针对每条评论语句作如下操作:首先进行词性标注和语法标注,利用语法关系提取出显式属性和意见词;再根据产品属性和意见词间的共现和语义关系构建图,利用流形学习的方法构造新的空间重构该关系图,最后根据新图进行隐式属性推断,从而实现将产品评论按照属性进行分类,提供产品属性粒度的性能总结和详细评论呈现。本方法的优点在于:对于未提及产品属性的产品评论,能利用意见词推导出隐式属性,进而可对该类产品评论数据按属性进行分类。可以帮助用户按产品属性浏览产品评论,能让用户专注于感兴趣的产品属性,提高了用户的体验度。
Description
技术领域
本发明涉及意见挖掘的产品属性识别,无障碍网页浏览方法的技术领域,特别是基于流形学习的隐式属性识别方法。
背景技术
随着web2.0的发展,论坛得到了用户的极大关注,许多用户在电子产品的论坛上讨论产品的使用体验。另外网上购物也进入繁荣时期。网站向在线购物用户提供产品评论功能来增加体验。互联网上因此产生了大量的产品评论数据。用户通过这些数据可以了解一个产品的性能。但是对于某一用户而言,这些海量的评论数据,一方面存在大量无用信息,因为用户只对产品的某一些属性而非全部感兴趣,另一方面用户没有时间和精力逐条阅读,但是如果有选择性地阅读又容易形成意见偏差。尤其是对于视力障碍人士而言,阅读这样的评论数据更是非常困难。世界目前有3000万盲人,在科技迅猛发展,人人尽享信息高速公路带来便利的今天,应该让残疾人也充分享受信息技术的成果,提高这一部分人群的用户体验。因此有必要提供海量评论数据的无障碍浏览方法。
目前已有对产品评论按属性进行总结的技术,但是现存技术只能简单根据评论中显式提及的产品属性名称进行分类,对于通过意见词隐式地阐述产品属性的评论则无法分类。而用户评论中存在大量的未提及产品属性名称的评论,如果不能对其进行正确分类则会严重影响评论总结的性能。
流形学习被广泛应用在模式识别中,有成熟的算法。将观测到的产品属性和意见词及其关系,转化为图,通过流形学习的方法,在新的空间捕捉到节点间的本质关系,进而实现从意见词到产品属性的推断。
发明内容
为了克服现有网站的产品评论系统无法根据意见词自动识别评论中的产品隐式属性,从而导致对海量评论数据的分类总结不够准确的缺点,提供一种能够帮助用户快速从海量在线产品评论中了解产品某一属性的性能,以提高浏览产品评论的体验度,本发明提出了一种基于流形学习的产品评论隐式属性识别方法,该方法包括以下步骤:
1、从网络上抓取产品评论数据后,对评论数据进行如下操作:
1)利用词性标注和语法标注工具,对每一条评论数据中的每一个语句进行词性标注和语法标注,利用公共的标准意见词种子集、词性和语法关系提取出产品属性和意见词,加入对应词表中;
2)扩展产品属性词表和意见词词表;
3)构建产品属性和意见词的关系图;
4)利用流形学习的方法寻找新的同一空间表示产品属性和意见词;
5)对评论数据中的每一个未显式提及产品属性的语句,根据意见词表提取语句中的意见词,利用新空间中的几何位置关系,实现利用意见词推断隐式属性。
2、步骤2)中所述的词表扩展使用从产品评论数据提取出的产 品属性词表作为种子词表,将种子词表同义词加入到种子词表中,再对更新后的词表重复扩展操作,通过限制扩展次数或者等待词表收敛终止扩展。
3、步骤3)中所述的关系图构建:
1)产品属性词和意见词为图中节点{vi},词间关系为图中的边{ei,j}表示,关系权值以边的权重{wi,j}表示;
2)若产品属性和意见词在同一评论语句中出现,则认为产品属性和意见词存在共现关系,产品属性i和意见词j的共现权重为二者的PMI值,即 其中,fi为产品属性词i在新空间的坐标,oj为意见词j在新空间的坐标, occ(t)为词t在文档中出现的频率,occ(fi,oj)为产品属性i和意见词j的共现频率, 为评论数据中所有词的频率之和;
3)若产品属性i出现在意见词j的词典解释中,则认为意见词对产品属性有语义指向关系,指向关系权重SRIi,j为1,否则为0;
4)产品属性i和意见词j的总权重为 其中μ为可调参数;
4、步骤4)中所述的利用流形学习方法在新空间对产品属性和意 见词的表示:
1)生成最小化的目标函数,设fi为产品属性词i在新空间的坐标,oj为意见词j在新空间的坐标,那么正则化带权距离和函数
α+β+γ=1, 其中,∑为求和函数,|F|为产品属性词的个数,|O|为意见词的个数,xT表示向量的转置,xTx为向量x与其自身的点积,因此, 为产品属性词与意见词间的带权距离和, 为产品属性词间的带权距离和, 为意见词间的带权距离和, 表示产品属性词间的距离和, 表示意见词间的距离和,α、β和γ为可调的关系权重参数,F=[f1f2…f|F|]T,O=[o1o2…o|O|]T;
2)求解使得目标函数Q(F,O)最小的F和O,设新空间维度为k, (1≤d≤k)为所有产品属性词在新空间第d维上的坐标组成的列向量, (1≤d≤k)为所有意见词在新空间第d维上的坐标组成的列向量,hi=[(fi)T(oi)T]T,H=[h1h2…hk]=[FTOT]T。Wfo为产品属性词和意见词间的关系矩阵,Wff为产品属性词之间的关系矩阵,Woo为意见词之间的关系矩阵,Df为对角矩阵,其对角线上元素 为Wfo第i行元素之和,其余元素为0,Do为对角矩阵,其对角线上元素 为Wfo第i列元素之和,其余元素为0,Lf=Df-Wff, Lf=Df-Wff, 目标函数Q(F,O)可以表示为 其中 为求和函数, 表示 所得矩阵的对角线元素之和,tr(HTH)表示HTH所得矩阵的对角线元素之和;根据Rayleigh-Ritz定理, 的次小特征值对应的前k个特征向量组成的矩阵即为使得Q(F,O)最小化的H,依次取出H的每一行则可得隐式属性坐标和意见词坐标。
5、步骤5)中所述的对隐式属性的推断:
1)获取该语句中的意见词j,从O=[o1o2…o|O|]T中得到该意见词在新空间中的坐标oj;
本发明提出了基于流形学习的产品评论隐式属性识别方法,其优点在于:对于未提及产品属性的产品评论,能利用意见词推导出隐式属性,进而可对该类产品评论数据按属性进行分类。可以帮助用户按产品属性浏览产品评论,能让用户专注于感兴趣的产品属性,提高了用户的体验度。
附图说明
图1是本发明的方法流程图。
具体实施方式
参照附图,进一步说明本发明:
1、从网络上抓取产品评论数据后,对评论数据进行如下操作:
1)利用词性标注和语法标注工具,对每一条评论数据中的每一个语句进行词性标注和语法标注,利用公共的标准意见词种子集、词性和语法关系提取出产品属性和意见词,加入对应词表中;
2)扩展产品属性词表和意见词词表;
3)构建产品属性和意见词的关系图;
4)利用流形学习的方法寻找新的同一空间表示产品属性和意见词;
5)对评论数据中的每一个未显式提及产品属性的语句,根据意见词表提取语句中的意见词,利用新空间中的几何位置关系,实现利用意见词推断隐式属性。
2、步骤2)中所述的词表扩展使用从产品评论数据提取出的产品属性词表作为种子词表,将种子词表同义词加入到种子词表中,再对更新后的词表重复扩展操作,通过限制扩展次数或者等待词表收敛终止扩展。
3、步骤3)中所述的关系图构建:
1)产品属性词和意见词为图中节点{vi},词间关系为图中的边{ei,j}表示,关系权值以边的权重{wi,j}表示;
2)若产品属性和意见词在同一评论语句中出现,则认为产品属性和意见词存在共现关系,产品属性i和意见词j的共现权重为二者的PMI值,即 其中,fi为产品属性词i在新 空间的坐标,oj为意见词j在新空间的坐标, occ(t)为词t在文档中出现的频率,occ(fi,oj)为产品属性i和意见词j的共现频率, 为评论数据中所有词的频率之和;
3)若产品属性i出现在意见词j的词典解释中,则认为意见词对产品属性有语义指向关系,指向关系权重SRIi,j为1,否则为0;
4)产品属性i和意见词j的总权重为 其中μ为可调参数;
4、步骤4)中所述的利用流形学习方法在新空间对产品属性和意见词的表示,其具体操作流程如下:
3)生成最小化的目标函数。设fi为产品属性词i在新空间的坐标,oj为意见词j在新空间的坐标,那么正则化带权距离和函数
α+β+γ=1, 其中,∑为求和函数,|F|为产品属性词的个数,|O|为意见词的个数,xT表示向量的转置,xTx为向量x与其自身的点积,因此, 为产品属性词与意见词间 的带权距离和, 为产品属性词间的带权距离和, 为意见词间的带权距离和, 表示产品属性词间的距离和, 表示意见词间的距离和,α、β和γ为可调的关系权重参数,F=[f1f2…f|F|]T,O=[o1o2…o|O|]T;
4)求解使得目标函数Q(F,O)最小的F和O,设新空间维度为k, (1≤d≤k)为所有产品属性词在新空间第d维上的坐标组成的列向量, (1≤d≤k)为所有意见词在新空间第d维上的坐标组成的列向量,hi=[(fi)T(oi)T]T,H=[h1h2…hk]=[FTOT]T;Wfo为产品属性词和意见词间的关系矩阵,Wff为产品属性词之间的关系矩阵,Woo为意见词之间的关系矩阵,Df为对角矩阵,其对角线上元素 为Wfo第i行元素之和,其余元素为0,Do为对角矩阵,其对角线上元素 为Wfo第i列元素之和,其余元素为0,Lf=Df-Wff,Lf=Df-Wff, 目标函数Q(F,O)可以表示为 其中 为求和函数, 表示 所得矩阵的对角线元素之和,tr(HTH)表示HTH所得矩阵的对角线元素之和;根据Rayleigh-Ritz定理, 的次小特征值对应的前k个特征向量组成的矩阵即为使得Q(F,O)最小化的H,依次取出H的每一行则可得隐式属性坐标和意见词坐标。
5、步骤5)中所述的对隐式属性的推断,其具体操作流程如下:
1)获取该语句中的意见词j,从O=[o1o2…o|O|]T中得到该意见词在新空间中的坐标oj;
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (5)
1.一种基于流形学习的产品评论隐式属性识别方法,其特征在于从网络上抓取产品评论数据后,对产品评论数据进行如下操作:
1)利用词性标注和语法标注工具,对每一条评论数据中的每一个语句进行词性标注和语法标注,利用公共的标准意见词种子集、词性和语法关系提取出产品属性和意见词,加入对应词表中;
2)扩展产品属性词表和意见词词表;
3)构建产品属性和意见词的关系图;
4)利用流形学习的方法寻找新的同一空间表示产品属性和意见词;
5)对评论数据中的每一个未显式提及产品属性的语句,根据意见词表提取语句中的意见词,利用新空间中的几何位置关系,实现利用意见词推断隐式属性。
2.如权利要求1所述的基于流形学习的产品评论隐式属性识别方法,其特征在于:所述的步骤2)中所述的词表扩展使用从产品评论数据提取出的产品属性词表作为种子词表,将种子词表同义词加入到种子词表中,再对更新后的词表重复扩展操作。通过限制扩展次数或者等待词表收敛终止扩展。
3.如权利要求1或2所述的基于流形学习的产品评论隐式属性识别方法,其特征在于:所述的步骤3)中所述的关系图构建:
1)产品属性词和意见词为图中节点{vi},词间关系为图中的边{ei,j}表示,关系权值以边的权重{wi,j}表示;
2)若产品属性和意见词在同一评论语句中出现,则认为产品属性和意见词存在共现关系,产品属性i和意见词j的共现权重为二者的PMI值,即 其中,fi为产品属性词i在新空间的坐标,oj为意见词j在新空间的坐标, occ(t)为词t在文档中出现的频率,occ(fi,oj)为产品属性i和意见词j的共现频率,为评论数据中所有词的频率和;
3)若产品属性i出现在意见词j的词典解释中,则认为意见词对产品属性有语义指向关系,指向关系权重SRIi,j为1,否则为0;
4)产品属性i和意见词j的总权重为 其中μ为可调参数;
4.如权利要求3所述的基于流形学习的产品评论隐式属性识别方法,其特征在于:所述的步骤4)中所述的利用流形学习方法在新空间对产品属性和意见词的表示:
1)生成最小化目标函数。设fi为产品属性词i在新空间的坐标,oj为意见词j在新空间的坐标,那么正则化带权距离和函数
α+β+γ=1,其中,∑为求和函数,|F|为产品属性词的个数,|O|为意见词的个数,xT表示向量的转置,xTx为向量x与其自身的点积,因此,为产品属性词与意见词间的带权距离和,为产品属性词间的带权距离和,为意见词间的带权距离和,表示产品属性词间的距离和,表示意见词间的距离和,α、β和γ为可调的关系权重参数,F=[f1f2…f|F|]T,O=[o1o2…o|O|]T;
2)求解使得目标函数Q(F,O)最小的F和O,设新空间维度为k,(1≤d≤k)为所有产品属性词在新空间第d维上的坐标组成的列向量,(1≤d≤k)为所有意见词在新空间第d维上的坐标组成的列向量,hi=[(fi)T(oi)T]T,H=[h1h2…hk]=[FTOT]T,Wfo为产品属性词和意见词间的关系矩阵,Wff为产品属性词之间的关系矩阵,Woo为意见词之间的关系矩阵,Df为对角矩阵,其对角线上元素为Wfo第i行元素之和,其余元素为0,Do为对角矩阵,其对角线上元素为Wfo第i列元素之和,其余元素为0,Lf=Df-Wff,Lf=Df-Wff,目标函数Q(F,O)可以表示为其中为求和函数,表示所得矩阵的对角线元素之和,tr(HTH)表示HTH所得矩阵的对角线元素之和;根据Rayleigh-Ritz定理,的次小特征值对应的前k个特征向量组成的矩阵即为使得Q(F,O)最小化的H;依次取出H的每一行则可得隐式属性坐标和意见词坐标。
5.如权利要求4所述的基于流形学习的产品评论隐式属性识别方法,其特征在于:所述的步骤5)中所述的对隐式属性的推断:
1)获取该语句中的意见词j,从O=[o1o2…o|O|]T中得到该意见词在新空间中的坐标oj;
2)计算oj与所有产品属性词对应fi的距离di,求出与其距离最小的产品属性词将产品属性t作为推断出的隐式属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100619703A CN102682074A (zh) | 2012-03-09 | 2012-03-09 | 一种基于流形学习的产品隐式属性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100619703A CN102682074A (zh) | 2012-03-09 | 2012-03-09 | 一种基于流形学习的产品隐式属性识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102682074A true CN102682074A (zh) | 2012-09-19 |
Family
ID=46814002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100619703A Pending CN102682074A (zh) | 2012-03-09 | 2012-03-09 | 一种基于流形学习的产品隐式属性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102682074A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103042436A (zh) * | 2013-01-21 | 2013-04-17 | 北京信息科技大学 | 一种基于轴心轨迹流形学习的主轴回转误差溯源方法 |
CN103678564A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
CN104679769A (zh) * | 2013-11-29 | 2015-06-03 | 国际商业机器公司 | 对产品的使用场景进行分类的方法及装置 |
CN104699766A (zh) * | 2015-02-15 | 2015-06-10 | 浙江理工大学 | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 |
CN104731923A (zh) * | 2015-03-26 | 2015-06-24 | 无锡中科泛在信息技术研发中心有限公司 | 互联网商品评论挖掘本体词库的构建方法 |
CN109885644A (zh) * | 2019-04-08 | 2019-06-14 | 浙江大学城市学院 | 一种用于物联网物品信息搜索排序的重要性评估方法 |
CN110457676A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN112560464A (zh) * | 2020-12-16 | 2021-03-26 | 中国联合网络通信集团有限公司 | 商品隐式属性识别方法、装置、计算机设备及存储介质 |
-
2012
- 2012-03-09 CN CN2012100619703A patent/CN102682074A/zh active Pending
Non-Patent Citations (4)
Title |
---|
LEI ZHANG等: "《Extracting and Ranking Product Features in Opinion Documents》", 《COLING 2010: POSTER VOLUME》 * |
仇光 等: "《基于传播的产品属性抽取》", 《浙江大学学报(工学版)》 * |
仇光 等: "《基于正则化主题建模的隐式产品属性抽取》", 《浙江大学学报(工学版)》 * |
刘杏芳 等: "《基于流形学习的地震属性特征提取方法及应用》", 《岩性油气藏》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103042436A (zh) * | 2013-01-21 | 2013-04-17 | 北京信息科技大学 | 一种基于轴心轨迹流形学习的主轴回转误差溯源方法 |
CN103042436B (zh) * | 2013-01-21 | 2014-12-24 | 北京信息科技大学 | 一种基于轴心轨迹流形学习的主轴回转误差溯源方法 |
CN104679769B (zh) * | 2013-11-29 | 2018-04-06 | 国际商业机器公司 | 对产品的使用场景进行分类的方法及装置 |
CN104679769A (zh) * | 2013-11-29 | 2015-06-03 | 国际商业机器公司 | 对产品的使用场景进行分类的方法及装置 |
CN103678564B (zh) * | 2013-12-09 | 2017-02-15 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
CN103678564A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
CN104699766A (zh) * | 2015-02-15 | 2015-06-10 | 浙江理工大学 | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 |
CN104699766B (zh) * | 2015-02-15 | 2018-01-02 | 浙江理工大学 | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 |
CN104731923A (zh) * | 2015-03-26 | 2015-06-24 | 无锡中科泛在信息技术研发中心有限公司 | 互联网商品评论挖掘本体词库的构建方法 |
CN109885644A (zh) * | 2019-04-08 | 2019-06-14 | 浙江大学城市学院 | 一种用于物联网物品信息搜索排序的重要性评估方法 |
CN109885644B (zh) * | 2019-04-08 | 2021-04-06 | 浙江大学城市学院 | 一种用于物联网物品信息搜索排序的重要性评估方法 |
CN110457676A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN110457676B (zh) * | 2019-06-26 | 2022-06-21 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN112560464A (zh) * | 2020-12-16 | 2021-03-26 | 中国联合网络通信集团有限公司 | 商品隐式属性识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11775760B2 (en) | Man-machine conversation method, electronic device, and computer-readable medium | |
CN102682074A (zh) | 一种基于流形学习的产品隐式属性识别方法 | |
Qaisar | Sentiment analysis of IMDb movie reviews using long short-term memory | |
Hai et al. | Identifying features in opinion mining via intrinsic and extrinsic domain relevance | |
Li et al. | Comparison of word embeddings and sentence encodings as generalized representations for crisis tweet classification tasks | |
Daelemans | Explanation in computational stylometry | |
Boltužić et al. | Fill the gap! analyzing implicit premises between claims from online debates | |
Wadud et al. | How can we manage offensive text in social media-a text classification approach using LSTM-BOOST | |
CN104933027A (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
Chen et al. | Websrc: A dataset for web-based structural reading comprehension | |
US20160357854A1 (en) | Scenario generating apparatus and computer program therefor | |
US10095685B2 (en) | Phrase pair collecting apparatus and computer program therefor | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
CN104268200A (zh) | 一种基于深度学习的非监督命名实体语义消歧方法 | |
Chatzakou et al. | Detecting variation of emotions in online activities | |
Arshad et al. | Corpus for emotion detection on roman urdu | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
US10430717B2 (en) | Complex predicate template collecting apparatus and computer program therefor | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN102254038A (zh) | 一种分析网络评论相关度的系统及其分析方法 | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
Waikhom et al. | Fake news detection using machine learning | |
Wu et al. | Community answer generation based on knowledge graph | |
CN109299865A (zh) | 基于语义分析的心理测评系统及方法、信息数据处理终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120919 |