CN105912656A - 一种商品知识图谱的构建方法 - Google Patents

一种商品知识图谱的构建方法 Download PDF

Info

Publication number
CN105912656A
CN105912656A CN201610220247.3A CN201610220247A CN105912656A CN 105912656 A CN105912656 A CN 105912656A CN 201610220247 A CN201610220247 A CN 201610220247A CN 105912656 A CN105912656 A CN 105912656A
Authority
CN
China
Prior art keywords
knowledge
viewpoint
concept
commodity
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610220247.3A
Other languages
English (en)
Other versions
CN105912656B (zh
Inventor
林煜明
蒋向香
杨溢
李优
张敬伟
张会兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201610220247.3A priority Critical patent/CN105912656B/zh
Publication of CN105912656A publication Critical patent/CN105912656A/zh
Application granted granted Critical
Publication of CN105912656B publication Critical patent/CN105912656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种商品知识图谱的构建方法,包括商品知识图谱的客观性商品分类知识的构建和主观性用户观点知识的构建。主观性知识的构建包含采用基于多分类器集成的方法从用户评论中挖掘观点目标和观点词的过程和直接从网站上获取观点持有者、观点发表时间和/或观点的URL信息的过程。客观性知识的构建包含采用基于多源异构分类层次融合的方法获取兼顾深度和广度的商品分类层次的过程和直接从网站上获取商品实例的过程。本发明针对商品所构建的结构化的知识图谱涵盖了客观性商品分类和主观性用户观点两类知识,不仅能够为上层服务提供商品实体的准确解释,而且还能够了解众多用户对商品及其属性的观点描述,从而为用户提供更快速、更精准、更全面的商品知识服务。

Description

一种商品知识图谱的构建方法
技术领域
本发明属于数据库技术领域,具体涉及一种商品知识图谱的构建方法。
背景技术
随着网络技术飞速发展和普及,Web已经成为事实上最大的知识库之一。然而,Web上知识以无结构或半结构化的形式存在,极大程度上制约了它们的自动化和智能化运用。对Web上包含的知识重新组织,使其转变成结构化的信息近年来已受到多方面的重视。例如,Google整合了多个开源知识库(如Freebase和维基百科)及其搜索数据等构建知识图谱,微软发布的Satori,这两者都致力通过将网页中的知识结构化,以实现字符串的语义匹配,提高搜索的质量。在学术界中,德国MPII(Max-Planck Institute for Informatics)的Weikum领导研发的Yago和亚研院的Probase等;国内针对中文知识图谱有百度的知心,搜狗的知立方,清华大学知识工程研究室的跨语言知识图谱XLore等。这些系统中的语义数据可通过人工协作式地创建或者自动抽取的过程从Web上获取,说明了系统化地组织和运用Web上的知识受到了越来越多的关注,具有重要的研究意义和应用价值。但是,它们主要关注的是常识性的客观知识(例如奥巴马是美国总统),目前还缺乏比较完整的商品知识图谱,现有的知识图谱构建技术中更未涉及到主观性用户观点知识获取和组织。
而在电子商务环境中用户观点知识对于商品具有重要的意义。由于人们常常通过社交媒体平台上发布评论与其他用户共享他们的体验,这些用户生成的内容富含用户观点,是商品在网络上口碑形成的主要依据,对商家和其他顾客具有重大的参考价值。2011年美国Cone公司的一项调查指出,87%的用户阅读了关于某商品的肯定评论后决定购买该商品,80%的用户阅读否定评论后放弃了购买意向。由此可见,海量评论中的用户观点是其他潜在顾客和企业决策制定时的重要依据,具有重大的应用价值。目前,评论数据中的用户观点信息在应用时面临两个主要的问题:(1)海量的评论数据带来的信息过载问题;该问题使得用户难以准确和全面地获取他们期望得到的用户观点信息;(2)用户观点隐藏在无结构文本中,严重地阻碍了用户观点信息的自动化和智能化运用。
发明内容
本发明所要解决的技术问题是Web上包含的商品分类知识和海量用户观点都隐藏在无结构的文本中,难以实现自动化和智能化应用的问题,提供一种商品知识图谱的构建方法。
为解决上述问题,本发明是通过以下技术方案实现的:
一种商品知识图谱的构建方法,包括商品知识图谱的客观性商品分类知识的构建和主观性用户观点知识的构建。
上述主观性用户观点知识的构建包含采用基于多分类器集成的方法从用户评论中挖掘观点目标和观点词的过程,即:
步骤(1)将评论集中评论的单词数小于设定阈值τ的评论过滤掉,将评论集中剩下的每个评论切分成句子,构成一个评论语句集S;
步骤(2)对评论语句集S中的每个句子进行组块识别;
步骤(3)对评论语句集S中的每个句子所出现的组块两两构建成观点目标和观点词的候选对,并保证每个候选对中的两个组块的次序与它们在句子中出现的顺序一致;
步骤(4)将每个候选对作为一个样本,根据预先确定的特征对样本进行向量化表示,构成样本集SL;
步骤(5)将样本集SL划分成大小不等的两个集合SL1和SL2,其中|SL1|>|SL2|;
步骤(6)在集合SL1上采用不同的分类方法训练出不同的分类器;
步骤(7)对集合SL2中的每个样本分别用训练好的分类器进行分类,得到的分类结果与样本的标签构成一个新的样本,由此可以得到|SL2|个新样本;
步骤(8)用所得的新样本去训练出一个集成分类器,并用该集成分类器将所有分类器的预测结果进行整合,由此完成商品知识图谱的主观性用户观点知识中的观点目标和观点词的协同抽取。
所述步骤(4)中,对样本进行向量化的特征包括候选对所处句子的句子类型、候选对中第一个组块在句子中的位置、候选对中两个组块词性组合的类型、候选对中两个组块间间隔的单词数、候选对中两个组块间是否包含有标点、候选对中两个组块是否包含有表情符号、候选对中两个组块是否落在不同的从句中和/或候选对中两个组块间是否包含介词。
上述主观性用户评论知识的构建还进一步包含直接从网站上获取观点持有者、观点发表时间和/或观点的URL信息的过程。
上述客观性商品分类知识的构建包含采用基于多源异构分类层次融合的方法从网站上获取商品分类层次的过程,即:
步骤1)从不同的网站上获取不同的分类层次,并选定其中一个分类层次作为目标分类层次Tt
步骤2)消除源分类层次TS中与目标分类层次Tt冲突的分类知识,即:
首先,找出源分类层次TS与目标分类层次Tt中所有同义的分类概念对,构成同义分类概念对集合M;
然后,对于同义分类概念对集合M中的每个分类概念对(ci,cj),如果存在满足以下条件之一的分类概念对(v,v′)时,即
(a)概念v是概念ci的前驱节点并且概念v′是概念cj的后继节点;
(b)概念v是概念ci的后继节点并且概念v′是概念cj的前驱节点;
则在源分类层次TS中概念ci,概念ci的孩子节点变为概念ci的父节点的孩子节点,得到新的源分类层次Ts′;
步骤3)将新的源分类层次Ts′直接融合进目标分类层次Tt中,即:
从新的源分类层次Ts′的根节点开始融合,对根节点的每个孩子节点w递归执行如下操作:
①如果不存在(w,w′)∈M,则将孩子节点w添加为目标分类层次Tt的根节点p′的孩子节点;
②如果存在(w,w′)∈M,则再判断节点w′是否为目标分类层次Tt根节点p′的子孙;若节点w′不是目标分类层次Tt根节点p′的子孙,则在目标分类层次Tt增加边(p′,w′);若节点w′是目标分类层次Tt根节点p′的子孙,则重复①和②的递归过程融合节点w的孩子节点。
所述步骤1)中,根据下式在分类层次集合T={t1,t2,...,tm}中选择分类层次作为融合的目标分类层次Tt
T t = arg min t i ∈ T 2 S p a n ( t i ) × D e p t h ( t i ) S p a n ( t i ) + D e p t h ( t i )
式中,Span(ti)为分类层次ti的跨度;Depth(ti)为分类层次ti的深度。
上述客观性知识的构建还进一步包含直接从网站上获取商品实例和商品属性的过程。
与现有技术相比,本发明针对商品所构建的结构化的知识图谱涵盖了客观性商品分类和主观性用户观点两类知识,不仅能够为上层服务提供商品实体的准确解释,而且还能够了解众多用户对商品及其属性的观点描述,从而为用户提供更快速、更精准、更全面的商品知识服务。
附图说明
图1为结构化的商品知识图谱。
图2为分类层次融合的结果示意图。
具体实施方式
一种商品知识图谱的构建方法,包括商品知识图谱的客观性知识的构建和主观性知识的构建。主观性用户观点知识的构建包含(I)采用基于多分类器集成的方法从评论中挖掘出观点目标和观点词的过程和(II)直接从网站上获取观点持有者、观点发表时间和/或观点的URL信息的过程。客观性商品分类知识的构建包含(I)采用基于多源异构分类层次融合的方法获取兼顾深度和广度的商品分类层次的过程和(II)直接从网站上获取商品实例的过程。
上述采用基于多分类器集成的方法从用户评论中挖掘观点目标和观点词的过程具体包括如下步骤:
步骤(1)将评论集中评论的单词数小于设定阈值τ的评论过滤掉,将评 论集中剩下的每个评论切分成句子,构成一个评论语句集S;
步骤(2)对评论语句集S中的每个句子进行组块识别;
步骤(3)对评论语句集S中的每个句子所出现的组块两两构建成观点目标和观点词的候选对,并保证每个候选对中的两个组块的次序与它们在句子中出现的顺序一致;
步骤(4)将每个候选对作为一个样本,并根据预先确定的特征对样本进行向量化后,构成样本集SL;对样本进行向量化的特征包括候选对所处句子的句子类型、候选对中第一个组块在句子中的位置、候选对中两个组块词性组合的类型、候选对中两个组块间间隔的单词数、候选对中两个组块间是否包含有标点、候选对中两个组块是否包含有表情符号、候选对中两个组块是否落在不同的从句中和/或候选对中两个组块间是否包含介词;
步骤(5)将样本集SL划分成大小不等的两个集合SL1和SL2,其中|SL1|>|SL2|;
步骤(6)在集合SL1上采用不同的分类方法训练出不同的分类器;
步骤(7)对集合SL2中的每个样本分别用训练好的分类器进行分类,得到的分类结果与样本的标签构成一个新的样本,由此可以得到|SL2|个新样本;
步骤(8)用所得的新样本去训练出一个集成分类器,并用该集成分类器将所有分类器的预测结果进行整合,由此完成商品知识图谱的主观性用户观点知识中的观点目标和观点词的协同抽取。
上述采用基于多源异构分类层次融合的方法获取获取兼顾深度和广度的商品分类层次的过程具体包括如下步骤:
步骤1)从不同的网站上获取不同的商品分类层次,并选定其中一个分类层次作为目标分类层次Tt
可以任意选定一个分类层次作为目标分类层次,也可以根据下式在分类层次集合T={t1,t2,...,tm}中选择分类层次作为融合的目标分类层次Tt
T t = arg max t i ∈ T 2 S p a n ( t i ) × D e p t h ( t i ) S p a n ( t i ) + D e p t h ( t i )
式中,Span(ti)为分类层次ti的跨度;Depth(ti)为分类层次ti的深度;
步骤2)消除源分类层次TS中与目标分类层次Tt冲突的分类知识,即:
首先,找出源分类层次TS与目标分类层次Tt中所有同义的分类概念对,构成同义分类概念对集合M;
然后,对于同义分类概念对集合M中的每个分类概念对(ci,cj),如果存在满足以下条件之一的分类概念对(v,v′)时,即
(a)概念v是概念ci的前驱节点并且概念v′是概念cj的后继节点;
(b)概念v是概念ci的后继节点并且概念v′是概念cj的前驱节点;
则在源分类层次TS中概念ci,概念ci的孩子节点变为概念ci的父节点的孩子节点,得到新的源分类层次Ts′;
步骤3)将新的源分类层次Ts′直接融合进目标分类层次Tt中,即:
从新的源分类层次Ts′的根节点开始融合,对根节点的每个孩子节点w递归执行如下操作:
①如果不存在(w,w′)∈M,则将节点w添加为目标分类层次Tt的根节点p′的孩子节点;
②如果存在(w,w′)∈M,则再判断节点w′是否为目标分类层次Tt根节点p′的子孙;若节点w′不是目标分类层次Tt根节点p′的子孙,则在目标分类层次Tt增加边(p′,w′);若节点w′是目标分类层次Tt根节点p′的子孙,则重复①和②的递归过程融合节点w的孩子节点。
本发明提出的面向商品知识图谱如图1所示。商品分类层用于描述商品分类知识,位于越高的层次则该概念就越具抽象性,概念与概念之间是子类的关系。商品实例层由众多具体的商品构成,每个商品实例至少关联一个商品概念。商品属性层的每种商品属性关联到唯一的一个商品实例。商品分类层、商品实例层和商品属性层为一个有向无环图,构成商品知识图谱中的客观性知识。用户层由用户及用户间的关系构成,用户间的关系可以根据实际的应用确定,例如社交网络中的朋友关系;用户观点层主要是描述用户对商品实例或其属性所持的观点词,为了能够便于运用用户的观点信息,我们还保存了观点的发表时间以及包含该观点的评论的URL值,以便进一步挖掘与该商品相关的有价值的信息,从而提高商品观点知识的运用灵活性。用户层和用户观点层构成了商品知识图谱中的主观性知识。
为了使商品知识图谱中的知识具有结构化的特点,我们采用基于RDF(ResourceDescription Framework)的形式进行组织,相关的符号定义如下:
ci为商品分类概念,商品分类概念集C={c1,c2,c3,…,cn1},例如电子产品、计算机、手机等是商品分类概念。
ii为商品实例,商品实例集I={i1,i2,i3,…,in2},例如iphone 6s、KindlePaperwhite等是商品实例。
ai为商品属性,商品属性集A={a1,a2,a3,…,an3},例如屏幕、噪音、续航时间等是商品属性。
ri为评论的发布者,评论用户集R={r1,r2,r3,…,rn4}。
oi为观点词,观点词集O={o1,o2,o3,…,on5},例如很好、漂亮等是观点词。
ti为时间戳,时间戳集T={t1,t2,t3,…,tn6},例如2015年6月23日。
ui为URL值,URL集U={u1,u2,u3,…,un6}。
实体集E=C∪I∪A∪R∪O∪T∪U∪F,其中F={f1,f2,f3,…,fn5}为事实集合,事实fi=<x,pj,y>,其中x∈E,y∈E,谓词pj定义如表1:
表1商品知识图谱中的谓词描述
双射函数H:F→Sid为每个事实fi赋予一个唯一的标识符,其中Sid={#1,#2,#3,…,#n}。
商品知识图谱中的知识由大量的事实构成的。例如,“张三觉得iphone 6s的屏幕太小”根据上面定义的符号在商品知识图谱中可用三个事实表示为:
#1-<屏幕,AttributeOf,iphone 6s>
#2-<张三,OpinionOn,#1>
#3-<#2,OpinionDes,太小>。
商品分类知识的构建部分
不同的电子商务网站都根据自身的需求创建自己的商品分类层次,这些商品的分类层次在深度或者广度上具有局限性。本发明设计了一个基于多源异构分类层次融合的方法来构建一个全面的商品分类层次。
设ti是一个商品分类层次,T={t1,t2,…,tm}是分类层次集合,是分类层次ti中所有节点的集合,是分类层次ti中所有叶子节点的集合,H(ti)为分类层次ti包含的层次数,pre(vj)表示节点vj的前驱节点集,succ(vj)表示分类层次ti中节点vj的后继节点集。
分类层次ti的跨度定义为树中所有层包含的节点平均数Ni为第i层包含的节点数;
分类层次ti的深度定义为Len(vi)为节点vi到根节点的距离;
设分类层次集合T={t1,t2,…,tm},首先根据下式在分类层次集合T中选择在跨度和深度两个维度都较大的分类层次作为融合的目标分类层次Tt
T t = arg max t i &Element; T 2 S p a n ( t i ) &CenterDot; D e p t h ( t i ) S p a n ( t i ) + D e p t h ( t i )
T-{Tt}中的每棵分类层次执行如下操作将其融合到目标分类层次中:
1、消除源分类层次TS中与目标分类层次Tt冲突的分类知识:
找出两棵分类层次中所有同义的分类概念对(ci,cj),并构建同义分类概念对集合ci与cj同义};
对M中的每个元素(ci,cj),如果M中存在同义的分类概念对(v,v′),其中v和 v′满足以下条件之一:(a)v是ci的前驱节点并且v′是cj的后继节点,(b)v是ci的后继节点并且v′是cj的前驱节点,则在Ts中删除ci,ci的孩子节点变为ci的父节点的孩子节点,得到新的源分类层次Ts′;
2、将与目标分类层次Tt无冲突的源分类层次Ts′融合进Tt中;
从源分类层次Ts′中根节点p开始融合,对p的每个孩子w递归执行如下操作:
①若不存在(w,w′)∈M,则将w添加为目标分类层次的根节点p′的孩子节点;
②若存在(w,w′)∈M,则
<1>若w′不是p′的子孙,则在Tt增加边(p′,w′);
<2>若w′是p′的子孙,则重复①-②过程融合w的孩子节点;
假设两个分类层次的同义分类概念对集合M={(p,p′),(a,a′),(b,b′),(h,h′),(e,e′),(j,j′),(d,d′)},融合后的结果示例如图2所示。
商品观点知识的挖掘部分
观点知识中主要包含观点目标、观点词、观点持有者、观点发表时间和包含该观点的评论URL。在本发明中观点持有者为评论的发布者,观点发表时间即为评论时间,这两者和评论的URL信息可在评论网站上直接获取。下面主要阐述观点目标和观点词的自动获取和整合方法。
本发明将观点目标和观点词的协同抽取看作一个二分类问题,如果一个候选的观点目标和观点词对是正确的,则分为类型1,否则为类型0。考虑到不同的分类方法在不同商品领域分类性能各不相同,因此本发明设计了一个基于多分类器集成的方法来进行观点目标和观点词的协同抽取。
首先对评论集采用如下步骤的预处理:
1、将评论集中单词数小于阈值τ(如τ=3)的评论过滤掉,将剩下的每个评论切分成句子,构成一个评论语句集S={s1,s2,…,sn};
2、对S中的每个句子进行组块识别;
3、对每个si∈S中出现的组块两两构建成观点目标和观点词候选对,并保证每个候选对中的两个组块的次序与它们在句子中的次序一致;
4、将每个候选对作为一个样本根据下列特征进行向量化:(1)两个组块词性组合的类型,(2)候选对中两个组块间间隔的单词数,(3)候选对中第一个组块在句子中的位置,(4)句子的类型,(5)两个组块间是否包含有标点,(6)两个组块是否包含有表情符号,(7)两个组块是否落在不同的从句中,(8)两个组块间是否包含介词。
然后,在标注好的样本集SL上进行如下操作:
1、将SL划分成大小不等(如70%vs 30%)的两个集合SL1和SL2,假设|SL1|>|SL2|,即集合SL1中的样本数大于集合SL2中的样本数;
2、在SL1上针对m种分类方法训练m个分类器C1,C2,……,Cm
按照以下标准从m个分类器中选择其中k个分类器构成的分类器集合SC:
arg max S C &lambda; &Sigma; C i &Element; S C A ( C i ) | S C | + ( 1 - &lambda; ) D ( S C )
此处λ为两部分的权重参数,A(Ci)表示分类器Ci的准确度,D(SC)表示分类器集合SC中分类器的差异度,本发明中采用Fleiss’Kappa值来度量:
D ( S C ) = P &OverBar; - P &OverBar; e 1 - P &OverBar; e
其中为将第i个样本分成第j类的分类器数量;
4、对SL2中的每个样本分别用训练好的k个分类器进行分类,得到的k个分类结果与样本的标签构成一个新的样本,由此可以得到|SL2|个新样本;
5、用这些新样本训练一个集成分类器用来将k个分类器的预测结果进行整合。

Claims (6)

1.一种商品知识图谱的构建方法,包括商品知识图谱的客观性商品分类知识的构建和主观性用户观点知识的构建,其特征是,上述主观性用户观点知识的构建包含采用基于多分类器集成的方法从用户评论中挖掘观点目标和观点词的过程,即:
步骤(1)将评论集中评论的单词数小于设定阈值τ的评论过滤掉,将评论集中剩下的每个评论切分成句子,构成一个评论语句集S;
步骤(2)对评论语句集S中的每个句子进行组块识别;
步骤(3)对评论语句集S中的每个句子所出现的组块两两构建成观点目标和观点词的候选对,并保证每个候选对中的两个组块的次序与它们在句子中出现的顺序一致;
步骤(4)将每个候选对作为一个样本,并根据预先确定的特征对样本进行向量化后,构成样本集SL;
步骤(5)将样本集SL划分成大小不等的两个集合SL1和SL2,其中|SL1|>|SL2|;
步骤(6)在集合SL1上采用不同的分类方法训练出不同的分类器;
步骤(7)对集合SL2中的每个样本分别用训练好的分类器进行分类,得到的分类结果与样本的标签构成一个新的样本,由此可以得到|SL2|个新样本;
步骤(8)用所得的新样本去训练出一个集成分类器,并用该集成分类器将所有分类器的预测结果进行整合,由此完成商品知识图谱的主观性用户观点知识中的观点目标和观点词的协同抽取。
2.根据权利要求1所述的一种商品知识图谱的构建方法,其特征是,步骤(4)中,对样本进行向量化的特征包括候选对所处句子的句子类型、候选对中第一个组块在句子中的位置、候选对中两个组块词性组合的类型、候选对中两个组块间间隔的单词数、候选对中两个组块间是否包含有标点、候选对中两个组块是否包含有表情符号、候选对中两个组块是否落在不同的从句中和/或候选对中两个组块间是否包含介词。
3.根据权利要求1所述的一种商品知识图谱的构建方法,其特征是,上述主观性用户观点知识的构建还进一步包含直接从网站上获取观点持有者、观点发表时间和/或观点的URL信息的过程。
4.根据权利要求1所述的一种商品知识图谱的构建方法,其特征是,上述客观性商品分类知识的构建包含采用基于多源异构分类层次融合的方法获取兼顾深度和广度的商品分类层次的过程,即:
步骤1)从不同的网站上获取不同的商品分类层次,并选定其中一个分类层次作为目标分类层次Tt
步骤2)消除源分类层次TS中与目标分类层次Tt冲突的分类知识,即:
首先,找出源分类层次TS与目标分类层次Tt中所有同义的分类概念对,构成同义分类概念对集合M;
然后,对于同义分类概念对集合M中的每个分类概念对(c)i,cj,如果存在满足以下条件之一的分类概念对(v),v′时,即
(a)概念v是概念ci的前驱节点并且概念v′是概念cj的后继节点;
(b)概念v是概念ci的后继节点并且概念v′是概念cj的前驱节点;
则在源分类层次TS中概念ci,概念ci的孩子节点变为概念ci的父节点的孩子节点,得到新的源分类层次Ts′;
步骤3)将新的源分类层次Ts′直接融合进目标分类层次Tt中,即:
从新的源分类层次Ts′的根节点p开始融合,对根节点p的每个孩子节点w递归执行如下操作:
①如果不存在(w),w′∈M,则将节点w添加为目标分类层次Tt的根节点p′的孩子节点;
②如果存在(w),w′∈M,则再判断节点w′是否为目标分类层次Tt根节点p′的子孙;若节点w′不是目标分类层次Tt根节点p′的子孙,则在目标分类层次Tt增加边(p)′,w′;若节点w′是目标分类层次Tt根节点p′的子孙,则重复①和②的递归过程融合节点w的孩子节点。
5.根据权利要求4所述的一种商品知识图谱的构建方法,其特征是,步骤1)中,根据下式在分类层次集合T={t1,t2,…,tm}中选择分类层次作为融合的目标分类层次Tt
T t = arg max t i &Element; T 2 S p a n ( t i ) &times; D e p t h ( t i ) S p a n ( t i ) + D e p t h ( t i )
式中,Span(ti)为分类层次ti的跨度;Depth(ti)为分类层次ti的深度。
6.根据权利要求4所述的一种商品知识图谱的构建方法,其特征是,上述客观性商品分类知识的构建还进一步包含直接从网站上获取商品实例的过程。
CN201610220247.3A 2016-04-07 2016-04-07 一种商品知识图谱的构建方法 Active CN105912656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610220247.3A CN105912656B (zh) 2016-04-07 2016-04-07 一种商品知识图谱的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610220247.3A CN105912656B (zh) 2016-04-07 2016-04-07 一种商品知识图谱的构建方法

Publications (2)

Publication Number Publication Date
CN105912656A true CN105912656A (zh) 2016-08-31
CN105912656B CN105912656B (zh) 2020-03-17

Family

ID=56744893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610220247.3A Active CN105912656B (zh) 2016-04-07 2016-04-07 一种商品知识图谱的构建方法

Country Status (1)

Country Link
CN (1) CN105912656B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016072A (zh) * 2017-03-23 2017-08-04 成都市公安科学技术研究所 基于社交网络知识图谱的知识推理系统及方法
CN107679110A (zh) * 2017-09-15 2018-02-09 广州唯品会研究院有限公司 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN107748754A (zh) * 2017-09-15 2018-03-02 广州唯品会研究院有限公司 一种知识图谱完善方法和装置
CN107885760A (zh) * 2016-12-21 2018-04-06 桂林电子科技大学 一种基于多种语义的知识图谱表示学习方法
CN108009867A (zh) * 2016-10-28 2018-05-08 百度在线网络技术(北京)有限公司 信息输出方法及装置
CN109299287A (zh) * 2018-10-24 2019-02-01 深圳素问智能信息技术有限公司 一种酒类信息的查询方法和装置
CN109582799A (zh) * 2018-06-29 2019-04-05 北京百度网讯科技有限公司 知识样本数据集的确定方法、装置及电子设备
CN110334939A (zh) * 2019-07-01 2019-10-15 济南大学 门窗定制物料信息快速配置方法、系统、设备及介质
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110580291A (zh) * 2019-07-29 2019-12-17 用友网络科技股份有限公司 基于erp客户服务知识图谱的智能搜索方法及计算机设备
CN112396479A (zh) * 2021-01-20 2021-02-23 成都晓多科技有限公司 一种基于知识图谱的服饰搭配推荐方法及系统
CN113065928A (zh) * 2021-04-22 2021-07-02 上海日羲科技有限公司 一种基于大数据的电商交易方法
US11403328B2 (en) 2019-03-08 2022-08-02 International Business Machines Corporation Linking and processing different knowledge graphs

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637165A (zh) * 2012-02-17 2012-08-15 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN103885936A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于句法分析的特征观点词对的提取方法
CN103886046A (zh) * 2014-03-11 2014-06-25 中国信息安全测评中心 一种面向Web数据交换的自动语义抽取的方法
CN104008301A (zh) * 2014-06-09 2014-08-27 华东师范大学 一种领域概念层次结构自动构建方法
CN104239660A (zh) * 2013-06-08 2014-12-24 北京航空航天大学 云制造模式下基于动态本体的知识融合方法
WO2015019364A3 (en) * 2013-08-08 2015-11-26 Subramanian JAYAKUMAR Graph based ontology modeling system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637165A (zh) * 2012-02-17 2012-08-15 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法
CN104239660A (zh) * 2013-06-08 2014-12-24 北京航空航天大学 云制造模式下基于动态本体的知识融合方法
WO2015019364A3 (en) * 2013-08-08 2015-11-26 Subramanian JAYAKUMAR Graph based ontology modeling system
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN103886046A (zh) * 2014-03-11 2014-06-25 中国信息安全测评中心 一种面向Web数据交换的自动语义抽取的方法
CN103885936A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于句法分析的特征观点词对的提取方法
CN104008301A (zh) * 2014-06-09 2014-08-27 华东师范大学 一种领域概念层次结构自动构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚天昉等: "一个用于汉语汽车评论的意见挖掘系统", 《中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集》 *
李寿山等: "基于Stacking组合分类方法的中文情感分类研究", 《中文信息学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009867A (zh) * 2016-10-28 2018-05-08 百度在线网络技术(北京)有限公司 信息输出方法及装置
CN108009867B (zh) * 2016-10-28 2021-04-30 上海优扬新媒信息技术有限公司 信息输出方法及装置
CN107885760A (zh) * 2016-12-21 2018-04-06 桂林电子科技大学 一种基于多种语义的知识图谱表示学习方法
CN107885760B (zh) * 2016-12-21 2021-06-08 桂林电子科技大学 一种基于多种语义的知识图谱表示学习方法
CN107016072A (zh) * 2017-03-23 2017-08-04 成都市公安科学技术研究所 基于社交网络知识图谱的知识推理系统及方法
CN107016072B (zh) * 2017-03-23 2020-05-15 成都市公安科学技术研究所 基于社交网络知识图谱的知识推理系统及方法
CN107679110A (zh) * 2017-09-15 2018-02-09 广州唯品会研究院有限公司 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN107748754A (zh) * 2017-09-15 2018-03-02 广州唯品会研究院有限公司 一种知识图谱完善方法和装置
CN109582799B (zh) * 2018-06-29 2020-09-22 北京百度网讯科技有限公司 知识样本数据集的确定方法、装置及电子设备
CN109582799A (zh) * 2018-06-29 2019-04-05 北京百度网讯科技有限公司 知识样本数据集的确定方法、装置及电子设备
US11151179B2 (en) 2018-06-29 2021-10-19 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus and electronic device for determining knowledge sample data set
CN109299287A (zh) * 2018-10-24 2019-02-01 深圳素问智能信息技术有限公司 一种酒类信息的查询方法和装置
US11403328B2 (en) 2019-03-08 2022-08-02 International Business Machines Corporation Linking and processing different knowledge graphs
CN110334939A (zh) * 2019-07-01 2019-10-15 济南大学 门窗定制物料信息快速配置方法、系统、设备及介质
CN110334939B (zh) * 2019-07-01 2022-03-15 济南大学 门窗定制物料信息快速配置方法、系统、设备及介质
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110489395B (zh) * 2019-07-27 2022-07-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110580291A (zh) * 2019-07-29 2019-12-17 用友网络科技股份有限公司 基于erp客户服务知识图谱的智能搜索方法及计算机设备
CN112396479A (zh) * 2021-01-20 2021-02-23 成都晓多科技有限公司 一种基于知识图谱的服饰搭配推荐方法及系统
CN113065928A (zh) * 2021-04-22 2021-07-02 上海日羲科技有限公司 一种基于大数据的电商交易方法

Also Published As

Publication number Publication date
CN105912656B (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN105912656A (zh) 一种商品知识图谱的构建方法
US9990368B2 (en) System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
Foley et al. Learning to extract local events from the web
CN103425763B (zh) 基于sns的用户推荐方法及装置
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
Chawla et al. Product opinion mining using sentiment analysis on smartphone reviews
CN103793489A (zh) 一种在线社交网络中社群话题的发现方法
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN103631862B (zh) 基于微博的事件特征演化挖掘方法及系统
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN104965931A (zh) 一种基于大数据的舆情分析方法
CN107239512A (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
Kim et al. Co‐Authorship Network Analysis in Industrial Ecology Research Community
De Filippo et al. From academia to citizenry. Study of the flow of scientific information from projects to scientific journals and social media in the field of “Energy saving”
CN105138577A (zh) 一种基于大数据的事件演化分析方法
CN104915443A (zh) 一种中文微博评价对象的抽取方法
CN106126605A (zh) 一种基于用户画像的短文本分类方法
CN103246728A (zh) 一种基于文档词汇特征变化的突发事件检测方法
Mittal et al. Pinned it! A large scale study of the Pinterest network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160831

Assignee: Guilin Zhongchen Information Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000215

Denomination of invention: A method of constructing commodity knowledge map

Granted publication date: 20200317

License type: Common License

Record date: 20221206