CN108537240A - 基于领域本体的商品图像语义标注方法 - Google Patents
基于领域本体的商品图像语义标注方法 Download PDFInfo
- Publication number
- CN108537240A CN108537240A CN201710117722.9A CN201710117722A CN108537240A CN 108537240 A CN108537240 A CN 108537240A CN 201710117722 A CN201710117722 A CN 201710117722A CN 108537240 A CN108537240 A CN 108537240A
- Authority
- CN
- China
- Prior art keywords
- commodity
- text
- commodity image
- image
- domain body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于领域本体的商品图像语义标注方法,其中包括采用多个领域本体概念分别作为关键词抓取商品数据;基于各个所述领域本体概念对所对应的图像描述文本进行分类,根据所述图像描述文本的类别对所对应的商品图像进行类别标注;对所对应的商品图像进行属性标注。本发明提供了一种对商品图像进行正确快速语义标注的技术方案,解决了商品图像与其描述文本不匹配的问题,能够根据领域本体的概念和概念属性得到商品图像在预定领域内的部分语义信息,实现对商品图像的语义层次标注,获得正确的语义标注数据集;能够利用众包技术得到正确的图像标注数据,并且采取迭代处理的方式能够利用最少的成本最合理利用众包平台,得到较优的标注效果。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种对商品图像进行正确快速语义标注的基于领域本体的商品图像语义标注方法。
背景技术
近年来,随着多媒体技术和互联网的迅速发展,电子图像的数量迅速增长。互联网也已经成为了人们购物的重要手段,因此电商领域的商品图像的分类管理也就显得尤为重要。如果没有很好的分类管理,会造成用户在搜索相关商品时很大的困扰。因此,如何实现电商领域商品图像的快速而有效的管理,成为如今研究的热点。
在过去的几十年里,有大量的研究基于内容的图像管理,却受于语义的限制,不能完全满足用户的需求。现有技术中的商品图像语义标注主要存在如下问题:
(1)商品图像质量良莠不齐,可能会出现图像模糊不清、图文不符的情况,直接抽取图像的语义信息较为困难;
(2)和图像相关的其他描述性文本信息不完整,例如商品的名称,商品的描述都很可能出现语序混乱、语义信息较弱等问题,直接抽取文本的语义信息较为困难;
(3)电商领域目前仍存在一些没有标注的图像数据,图像数量十分大,如果完全采用人工标注,则十分费时费力。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种基于领域本体的商品图像语义标注方法,对商品图像进行正确快速语义标注,解决商品图像缺少标注以及商品图像和图像描述文本难以直接抽取语义信息的技术问题。
本发明实施例提供一种基于领域本体的商品图像语义标注方法,包括如下步骤:
采用多个领域本体概念分别作为关键词抓取商品数据,所述商品数据包括商品图像和图像描述文本;
基于各个所述领域本体概念对所对应的图像描述文本进行分类,根据所述图像描述文本的类别对所对应的商品图像进行类别标注;
基于各个所述领域本体概念所对应的属性,对所对应的商品图像进行属性标注。
可选地,对所述图像描述文本进行分类之前,还包括如下步骤:
采用众包平台获取商品图像的标注数据集;
根据所述标注数据集修正各个所述商品图像所对应的领域本体概念。
可选地,采用众包平台获取商品图像的标注数据集,包括如下步骤:
将所述商品数据作为待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行人工检验;
从所述众包平台回收标注结果数据,形成所述标注数据集。
可选地,所述众包任务包括多条待标注题目,各个所述待标注题目包括题干和选项;各个所述题干包括一商品的商品图像、图像描述文本和该商品图像所对应的领域本体概念,各个所述选项包括所述商品图像和所对应的领域本体概念匹配以及所述商品图像和所对应的领域本体概念不匹配。
可选地,所述回收标注结果数据,包括如下步骤:
选择各个所述商品图像所对应的选择人数最多的选项,作为该商品图像的标注结果数据。
可选地,采用众包平台获取商品图像的标注数据集,包括如下步骤:
将所述商品数据作为待标注数据,并将待标注数据分为多个迭代部分;
选取第一部分待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行人工检验;
从所述众包平台回收标注结果数据,且在每次回收标注结果数据后,判断全部待标注数据中标注准确率是否小于预设准确率阈值;
如果全部待标注数据中标注准确率小于预设准确率阈值,则选取下一部分待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行迭代人工检验;
如果全部待标注数据中标注准确率大于或等于预设准确率阈值,则停止迭代人工检验并形成商品图像的标注数据集。
可选地,当全部待标注数据中标注准确率小于预设准确率阈值时,判断当前人工检验的迭代次数是否小于预设迭代次数阈值;
如果当前人工检验的迭代次数小于预设迭代次数阈值,则选取下一部分待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行迭代人工检验;
如果当前人工检验的迭代次数大于等于预设迭代次数阈值,则停止迭代人工检验并形成商品图像的标注数据集。
可选地,所述商品描述文本包括所述商品图像所对应的商品序号、商品标题、商品属性以及商品属性值。
可选地,采用所述领域本体概念对所述图像描述文本进行分类,包括如下步骤:
将所述图像描述文本采用Word2Vector方法训练得到各个词的词向量;
采用TextRank算法从所述图像描述文本中的商品标题、商品属性以及商品属性值中分别提取top-K关键词;
抽取每个关键词的TF-IDF特征和词向量;
将所述TF-IDF特征作为每个关键词的权重,对所有关键词集合的词向量以加权平均的方式合并,得到所述图像描述文本的特征向量矩阵,所述图像描述文本的特征向量矩阵满足如下公式:
Xn={X1,X2,......,XN};
其中,Xn为所述图像描述文本的特征向量矩阵,Xi,i∈(1,N)为各个所述图像描述文本的特征向量,N为所述图像描述文本的数量;
采用最近邻算法训练分类器,所述分类器的特征向量满足如下公式:
T_train=(X1,y1),(X2,y2),......,(XN,yN);
其中,T_train为所述分类器的特征向量,yi,i∈(1,N)为分类标签;
从所述特征向量矩阵Xn中抽取一商品描述文本的特征向量Xi,将所述分类器中与特征向量Xi最近邻的类别作为所对应的商品描述文本的类别。
可选地,训练得到各个词的词向量之前,还包括如下步骤:
对所述图像描述文本进行文本格式预处理,所述文本格式预处理包括统一文本大小写格式和去除文本中标点符号。
可选地,将所述分类器中与特征向量Xi最近邻的类别作为所对应的商品描述文本的类别,包括如下步骤:
计算特征向量Xi与所述分类器的特征向量之间的欧氏距离;
选择所述分类器中与所述特征向量Xi的欧氏距离最小的多个样本;
将所述多个样本中出现次数最多的分类标签作为所对应的商品描述文本的类别。
可选地,对所对应的商品图像进行属性标注,包括如下步骤:
对所述图像描述文本的特征向量矩阵采用K-means聚类算法对商品属性以及商品属性值进行聚合,选取相似度最接近的top-K商品图像作为一个簇,隶属于同一簇的商品图像共享所有的商品属性以及商品属性值;
计算各个商品图像描述文本聚合后的属性和属性值与所对应的领域本体概念的概念属性之间的编辑距离,将与所述概念属性编辑距离最小的属性的属性值映射到所述概念属性,作为所述概念属性的属性值。
本发明所提供的基于领域本体的商品图像语义标注方法具有下列优点:
本发明提供了一种对商品图像进行正确快速语义标注的技术方案,解决了商品图像与其图像描述文本不匹配的问题,能够根据领域本体的概念和概念属性得到商品图像在预定领域内的部分语义信息,实现对商品图像的语义层次标注,获得正确的语义标注数据集;能够利用众包技术得到正确的图像标注数据,并且采取迭代处理的方式能够利用最少的成本最合理利用众包平台,得到较优的标注效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的基于领域本体的商品图像语义标注方法的流程图;
图2是本发明一实施例的采用众包平台进行迭代人工校验的流程图;
图3是本发明另一实施例的采用众包平台进行迭代人工校验的流程图;
图4是本发明一实施例的领域本体概念的属性结构的示意图;
图5是本发明一实施例的基于领域本体概念对商品图像进行类别标注的流程图;
图6是本发明一实施例的基于领域本体概念对商品图像进行属性标注的流程图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
如图1所示,为了解决商品图像以及其图像描述文本包含的语义信息较弱的问题,本发明实施例提供一种基于领域本体的商品图像语义标注方法,基于领域本体的概念以及领域本体概念属性对商品图像进行语义标注,具体所述方法包括如下步骤:
S100:采用领域本体概念C分别作为关键词抓取商品数据,所述商品数据Itemn包括商品图像IMGn和图像描述文本Tn;所述图像描述文本Tn可选包括:商品IDn、商品标题titlen、商品属性和商品属性值attributesn={key1:value1,......,keyN,valueN};
其中,IMGn={IMG1,IMG2,......,IMGN},N为商品图像的数量,IMGi,i∈(1,N)为各个所述商品图像。
Tn={T1,T2,......,TN},N为商品图像描述文本的数量,所述商品图像描述文本与所述商品图像一一对应,Ti,i∈(1,N)为各个所述图像描述文本。
S300:基于所述领域本体概念C对所对应的图像描述文本进行分类,根据所述图像描述文本的类别对所对应的商品图像进行类别标注;
S400:基于所述领域本体概念C所对应的属性,对所对应的商品图像进行属性标注。
本发明涉及的技术领域可以有网页信息爬取、文本预处理、关键词提取、文本特征表示、相似度计算、分类算法、聚类算法等,其中文本预处理包括分词、词性标注等。总的来说,本发明是语义标注领域中一种对媒体语义标注的方法,利用领域本体和众包技术实现对媒体的语义标注。基于领域本体的语义标注是指将现实应用中的实体映射到本体概念并标记为本体概念的实例,在此基础上为实体进行语义标注。从本体角度出发,语义标注可以看做添加实例,丰富本体的过程;从语义角度出发,语义标注是根据本体内容,为实体添加语义元素的过程。
领域本体作为一种能在语义和知识层面对信息和数据进行描述的概念模型,为解决内容标注问题提供了一种良好的途径。领域本体能够较好地表达出领域知识的语义层次,因此,基于领域本体通过内容标注可以将普通的信息资源转化为具有知识层次的形式化信息,使庞大的信息资源以语义关联的规范化形式存在。基于电商领域本体的商品图像标注能够得到图像在预定领域内的部分语义信息。
为了解决商品图像与其商品描述性文本不匹配的问题,获得正确的标注数据集,本发明进一步还可以包括利用众包平台对抓取数据的类别进行人工校验的方法。
可选地,对所述图像描述文本进行分类之前,还包括如下步骤:
S200:采用众包平台获取商品图像的标注数据集,根据所述标注数据集修正各个所述商品图像所对应的领域本体概念。
可选地,采用众包平台获取商品图像的标注数据集,包括如下步骤:
将所述商品数据作为待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行人工检验;
从所述众包平台回收标注结果数据,形成所述标注数据集。
可选地,所述众包任务包括多条待标注题目,各个所述待标注题目包括题干和选项;各个所述题干包括一商品的商品图像IMGn、图像描述文本Tn和该商品图像IMGn所对应的领域本体概念C,各个所述选项包括所述商品图像IMGn和所对应的领域本体概念C匹配以及所述商品图像IMGn和所对应的领域本体概念C不匹配。
即要求众包平台用户根据每个商品的商品图像IMGn和图像描述文本Tn来判断该商品图像IMGn所述的领域本体概念C是否正确。如果商品图像IMGn与领域本体概念C相匹配则为正确,如果不匹配或无法判断则为错误。为了保证众包标注质量以及有效提高标注准确性,规定每道题目需要同时由多个用户完成,根据多数原则回收正确答案,同时每个用户必须通过测试模式,并且准确率大于设定阈值时才能继续做题,否则任务立即终止。
本发明通过利用众包技术对数据进行标注的方法,具有成本低,速度快的特点,因此得到了广泛的关注和应用。众包将原来由企业专职雇员负责处理的工作,化整为零分配给了广大互联网用户,不仅大大减少了企业的成本,其可扩展的特点也使得大数据时代的海量数据标注成为了可能。但是由于数据量过多,意味着需要越来越多的人力物力对这些数据进行标注。因此,如何利用最少的成本达到最优的标注效果是最近研究的热点。
针对商品图像相关的数据量大以及质量参差不齐的情况,如果全部按照上述的利用众包平台标注商品图像数据集方法进行标注,时间和金钱成本将会非常高。本发明可以进一步通过随机抽取待标注数据进行迭代,实现以最少的成本最大化合理利用众包平台,在原有数据集的基础上不断增加新的数据集,扩大训练集。具体步骤为:对一批待标注数据通过现有标注算法得到的商品类别,将这批商品放入众包系统中进行人工检验,将正确结果添加到现在训练集,重新训练分类器,依次类推,直至分类的准确率达到设定阈值或者迭代累计金额超过预期时停止迭代。
如图2所示,采用众包平台获取商品图像的标注数据集,可以包括如下步骤:
(S200-1)将所述商品数据作为待标注数据,并将待标注数据分为多个迭代部分;
(S200-2)选取第一部分待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行人工检验;
(S200-3)从所述众包平台回收标注结果数据,且在每次回收标注结果数据后,判断全部待标注数据中标注准确率是否小于预设准确率阈值;
如果全部待标注数据中标注准确率小于预设准确率阈值,则选取下一部分待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行迭代人工检验;
如果全部待标注数据中标注准确率大于或等于预设准确率阈值,则停止迭代人工检验并形成商品图像的标注数据集。
进一步地,如图3所示,还可以采用迭代次数来控制迭代过程,即当全部待标注数据中标注准确率小于预设准确率阈值时,判断当前人工检验的迭代次数是否小于预设迭代次数阈值;
如果当前人工检验的迭代次数小于预设迭代次数阈值,则选取下一部分待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行迭代人工检验;
如果当前人工检验的迭代次数大于等于预设迭代次数阈值,则停止迭代人工检验并形成商品图像的标注数据集。
此处控制迭代次数超过预设迭代次数阈值时,停止迭代,即上述所述的迭代累计金额超过预期时停止迭代。可以对迭代金额进行更有效的控制。
下面以一个具体实施例来进一步介绍采用众包平台对抓取数据的类别进行人工校验的方法。在本实施例中利用电商领域本体概念BB霜作为抓取关键词抓取电商网站商品数据。本体概念BB霜,进一步具有以下属性:适合肤质、规格类型、功效、单品、是否为特殊用途化妆品、妆效等。商品数据例如{"id":"549013","title":"【京东超市】温碧泉(WETHERM)水漾娇颜凝采BB霜50g(轻薄水润遮瑕隔离细腻肌肤)","img":["http://img13.360buyimg.com/n1/jfs/t1906/93/1027058655/49470/190395da/563c4ebdN69d1671c.GIF","http://img13.360buyimg.com/n1/jfs/t2182/48/960729366/108851/5ad5a12b/563c4ec1N5e55af55.GIF","http://img13.360buyimg.com/n1/jfs/t2260/282/1089972302/53521/a196d094/563c4ec5N192fdcf6.GIF","http://img13.360buyimg.com/n1/jfs/t2464/53/1031770413/68464/fb96673e/563c4ec9Ne3a8b47d.GIF","http://img13.360buyimg.com/n1/jfs/t2341/74/1033656754/147187/8f1adc71/563c4ecdN1ed34dc7.GIF"],"attributes":["商品名称:温碧泉水漾娇颜凝采BB霜","商品编号:549013","商品毛重:80.00g","商品产地:广东省广州市","适合肤质:混合性","性别:女","功效:其它","产品产地:中国大陆"]}。
在本实施例中利用众包平台对抓取数据的类别进行人工校验,获得标注商品图像数据集。将抓取的商品数据作为待标注数据发布到众包平台,每个众包任务有若干道待标注题目组成,每道题目由题干和选项组成,题干由Itemn的IMGn、IDn、titlen以及所属本体概念C组成,选项为正确和错误。标注题目例如:
商品图像(此处未示出);
ID:1138973573
Title:韩国直邮LANEIGE兰芝气垫BB霜粉底粉凝霜13号亮肤色送替换装
类别:BB霜
请判断类别是否正确:(A)正确;(B)错误
要求众包平台用户根据Itemn的IMGn、titlen来判断该商品图像所属的本体概念C是否正确,如果Itemn的IMGn、titlen与本体概念C相对应则为正确,如果不对应或者无法判断则为错误。为了保证众包标注质量以及有效提高标注准确性,规定每道题目需要同时由3个用户完成,根据多数原则回收正确答案,同时每个用户必须通过测试模式,并且准确率大于70%才能继续做题,否则任务立即终止。通过该标注方法回收BB霜类的商品数据。
上面列出的仅是一种较佳的实施方式。在实际应用中,如果商品数据本身可靠性较强,其中商品标注准确性较高,也可以不采用此处步骤S200,而直接基于领域本体概念进行类别标注和属性标注,均属于本发明的保护范围之内。另外,在不考虑迭代时间和迭代金额的情况时,也可以直接采用全部待标注数据发布到众包平台的方法,即不采用如图2和图3所示的迭代方式,也是可以的,而不以此处的优选实施方式为限。
如图4所示,本发明采用领域本体概念对商品图像进行类别标注,将底层的领域本体概念视为已知的类别集合C={C1,C2,......,CN},例如上面所述的本体概念BB霜,进一步具有以下属性:适合肤质、规格类型、功效、单品、是否为特殊用途化妆品、妆效等。将待标注的商品图像描述文本Tn视为待分类的数据,从而将商品图像的类别标注转化成分类问题,根据商品图形描述文本Tn的特征,划分到类别集合C中。
如图5所示,采用所述领域本体概念对所述图像描述文本进行分类,包括如下步骤:
(S300-1)将所述图像描述文本采用Word2Vector方法训练得到各个词的词向量;具体可以利用100万商品图像描述文本,包括titlen、商品属性和商品属性值attributesn作为训练语料,通过Google的Word2Vector工具训练得到每个词的Word2vector词向量;
(S300-2)采用TextRank算法从所述图像描述文本中的titlen、商品属性和商品属性值attributesn={key1:value1,......,keyN,valueN}中分别提取top-K关键词t_keyword={t1,t2,......,tk}和a_keyword={a1,a2,......,ak};
此处采用的TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。TextRank不需要事先对多篇文档进行学习训练,因其简洁有效而得到广泛应用。此处top-K关键词指的是通过排序得到前k个关键词。
(S300-3)根据得到的top-K关键词t_keyword和a_keyword抽取每个关键词的TF-IDF特征和Word2vector词向量;由此所述图像描述文本表示为每个关键词的TF-IDF特征和词向量;
其中,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。Word2Vector是一种依据上下文关系的词语语义(词义)特征提取方法,最先由Mikolov等于2013年初在谷歌公司的开源项目中提出。当文档作为信息检索的样本时,针对在不同文档中的每个词语,Word2Vector可以依据其上下文关系有效地提取其语义(即词义特征),并以词向量的形式给出。
(S300-4)将所述TF-IDF特征作为每个关键词的权重,对所有关键词集合的Word2vector词向量以加权平均的方式合并,得到所述图像描述文本的特征向量矩阵,所述图像描述文本的特征向量矩阵满足如下公式:
Xn={X1,X2,......,XN};
其中,Xn为所述图像描述文本的特征向量矩阵,Xi,i∈(1,N)为各个所述图像描述文本的特征向量,N为所述图像描述文本的数量;
采用最近邻算法训练分类器,所述分类器的特征向量满足如下公式:
T_train=(X1,y1),(X2,y2),......,(XN,yN);
其中,T_train为所述分类器的特征向量,yi,i∈(1,N)为分类标签;
最近邻算法即为KNN算法,kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
(S300-5)从所述特征向量矩阵Xn中抽取一商品描述文本的特征向量Xi,将所述分类器中与特征向量Xi最近邻的类别作为所对应的商品描述文本的类别。
可选地,训练得到各个词的词向量之前,还包括如下步骤:
对所述图像描述文本进行文本格式预处理,所述文本格式预处理包括统一文本大小写格式和去除文本中标点符号等。
可选地,将所述分类器中与特征向量Xi最近邻的类别作为所对应的商品描述文本的类别,包括如下步骤:
(S300-5.1)计算特征向量Xi与所述分类器的特征向量T_train之间的欧氏距离;
(S300-5.2)选择所述分类器中与所述特征向量Xi的欧氏距离最小的k个样本;欧几里得度量(euclidean metric),也称欧氏距离,是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。此处k个样本的数量可以根据需要进行选择,例如100个样本等。
(S300-5.3)将所述多个样本中出现次数最多的分类标签作为所对应的商品描述文本的类别。
通过以上方法即实现了商品图像的类别标注。
如图4所示,在领域本体概念C={C1,C2,......,CN}中,各个领域本体分别概念Ci具有属性Ai={A1,A2,......,AN}。例如,当领域本体概念C包含箱包C1、上衣C2、裤子C3、裙子C4和鞋靴C5时,各个领域本体概念C1~C5分别具有属性A1、A2、A3。因此,可以基于领域本体概念的属性对商品图像进行属性标注。
如图6所示,对所对应的商品图像进行属性标注,包括如下步骤:
(S400-1)针对商品图像文本attributesn缺失或者为空的情况,对所述图像描述文本的特征向量矩阵Xn采用K-means聚类算法对商品属性以及商品属性值进行聚合,选取相似度最接近的top-K商品图像作为一个簇,隶属于同一簇的商品图像共享所有的商品属性以及商品属性值attributes;
此处K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。
(S400-2)计算各个商品图像描述文本聚合后的属性和属性值与所对应的领域本体概念的概念属性之间的编辑距离,将与所述概念属性编辑距离最小的属性的属性值映射到所述概念属性,作为所述概念属性的属性值,从而完成商品图像的属性标注。
具体地,在各个商品图像描述文本聚合后,得到其领域本体概念C以及候选属性和属性值集合,由C={a1:value1,a2:value2,...,an:valuen},i∈(1,n)表示,其中ai表示候选属性,valuei为所述候选属性对应的属性值。根据领域本体概念C可以得到本体概念C所对应的概念属性集合,由C={A1,A2,...,An}表示,Ai为本体概念C所对应的概念属性。分别计算Ai与a1,a2,...,an的编辑距离,将编辑距离最小的属性ak的属性值value映射到Ai,作为Ai的属性值,从而完成本体概念属性的标注。
此处编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
如图6中所示,商品图像描述文本T1和T2分别具有属性和属性值key1:value1,key2:value2。通过聚类得到属性和属性值key1:(value1-1,value2-1),key2:value2,key3:value3;将其与领域本体C1计算相似度,确定属性A1,A2,A3。
采用此种方法,即实现了商品图像的属性标注。
通过采用上述商品图像的语义标注方法,能够根据领域本体的概念和概念属性得到商品图像在预定领域内的部分语义信息,实现对商品图像的语义层次标注;能够利用最少的成本最合理利用众包平台,得到较优的标注效果。在该实施例中,以电商领域的商品图像标注为例进行了介绍,例如从京东、淘宝、天猫、一号店等电商平台的网站抓取的电商商品图像。然而,本发明不仅限于对电商商品图像的语义标注,还可以应用于其他类别的商品图像标注,例如人工录入的实体销售商品图像等等,均属于本发明的保护范围之内。
本发明所提供的基于领域本体的商品图像语义标注方法具有下列优点:
本发明提供了一种对商品图像进行正确快速语义标注的技术方案,解决了商品图像与其图像描述文本不匹配的问题,能够根据领域本体的概念和概念属性得到商品图像在预定领域内的部分语义信息,实现对商品图像的语义层次标注,获得正确的语义标注数据集;能够利用众包技术得到正确的图像标注数据,并且采取迭代处理的方式能够利用最少的成本最合理利用众包平台,得到较优的标注效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (12)
1.一种基于领域本体的商品图像语义标注方法,其特征在于,包括如下步骤:
采用多个领域本体概念分别作为关键词抓取商品数据,所述商品数据包括商品图像和图像描述文本;
基于各个所述领域本体概念对所对应的图像描述文本进行分类,根据所述图像描述文本的类别对所对应的商品图像进行类别标注;
基于各个所述领域本体概念所对应的属性,对所对应的商品图像进行属性标注。
2.根据权利要求1所述的基于领域本体的商品图像语义标注方法,其特征在于,对所述图像描述文本进行分类之前,还包括如下步骤:
采用众包平台获取商品图像的标注数据集;
根据所述标注数据集修正各个所述商品图像所对应的领域本体概念。
3.根据权利要求2所述的基于领域本体的商品图像语义标注方法,其特征在于,采用众包平台获取商品图像的标注数据集,包括如下步骤:
将所述商品数据作为待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行人工检验;
从所述众包平台回收标注结果数据,形成所述标注数据集。
4.根据权利要求3所述的基于领域本体的商品图像语义标注方法,其特征在于,所述众包任务包括多条待标注题目,各个所述待标注题目包括题干和选项;各个所述题干包括一商品的商品图像、图像描述文本和该商品图像所对应的领域本体概念,各个所述选项包括所述商品图像和所对应的领域本体概念匹配以及所述商品图像和所对应的领域本体概念不匹配。
5.根据权利要求4所述的基于领域本体的商品图像语义标注方法,其特征在于,所述回收标注结果数据,包括如下步骤:
选择各个所述商品图像所对应的选择人数最多的选项,作为该商品图像的标注结果数据。
6.根据权利要求2所述的基于领域本体的商品图像语义标注方法,其特征在于,采用众包平台获取商品图像的标注数据集,包括如下步骤:
将所述商品数据作为待标注数据,并将待标注数据分为多个迭代部分;
选取第一部分待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行人工检验;
从所述众包平台回收标注结果数据,且在每次回收标注结果数据后,判断全部待标注数据中标注准确率是否小于预设准确率阈值;
如果全部待标注数据中标注准确率小于预设准确率阈值,则选取下一部分待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行迭代人工检验;
如果全部待标注数据中标注准确率大于或等于预设准确率阈值,则停止迭代人工检验并形成商品图像的标注数据集。
7.根据权利要求6所述的基于领域本体的商品图像语义标注方法,其特征在于,当全部待标注数据中标注准确率小于预设准确率阈值时,判断当前人工检验的迭代次数是否小于预设迭代次数阈值;
如果当前人工检验的迭代次数小于预设迭代次数阈值,则选取下一部分待标注数据加入到众包任务,并将所述众包任务发布到众包平台进行迭代人工检验;
如果当前人工检验的迭代次数大于等于预设迭代次数阈值,则停止迭代人工检验并形成商品图像的标注数据集。
8.根据权利要求1所述的基于领域本体的商品图像语义标注方法,其特征在于,所述商品描述文本包括所述商品图像所对应的商品序号、商品标题、商品属性以及商品属性值。
9.根据权利要求8所述的基于领域本体的商品图像语义标注方法,其特征在于,采用所述领域本体概念对所述图像描述文本进行分类,包括如下步骤:
将所述图像描述文本采用Word2Vector方法训练得到各个词的词向量;
采用TextRank算法从所述图像描述文本中的商品标题、商品属性以及商品属性值中分别提取top-K关键词;
抽取每个关键词的TF-IDF特征和词向量;
将所述TF-IDF特征作为每个关键词的权重,对所有关键词集合的词向量以加权平均的方式合并,得到所述图像描述文本的特征向量矩阵,所述图像描述文本的特征向量矩阵满足如下公式:
Xn={X1,X2,......,XN};
其中,Xn为所述图像描述文本的特征向量矩阵,Xi,i∈(1,N)为各个所述图像描述文本的特征向量,N为所述图像描述文本的数量;
采用最近邻算法训练分类器,所述分类器的特征向量满足如下公式:
T_train=(X1,y1),(X2,y2),......,(XN,yN);
其中,T_train为所述分类器的特征向量,yi,i∈(1,N)为分类标签;
从所述特征向量矩阵Xn中抽取一商品描述文本的特征向量Xi,将所述分类器中与特征向量Xi最近邻的类别作为所对应的商品描述文本的类别。
10.根据权利要求9所述的基于领域本体的商品图像语义标注方法,其特征在于,训练得到各个词的词向量之前,还包括如下步骤:
对所述图像描述文本进行文本格式预处理,所述文本格式预处理包括统一文本大小写格式和去除文本中标点符号。
11.根据权利要求9所述的基于领域本体的商品图像语义标注方法,其特征在于,将所述分类器中与特征向量Xi最近邻的类别作为所对应的商品描述文本的类别,包括如下步骤:
计算特征向量Xi与所述分类器的特征向量之间的欧氏距离;
选择所述分类器中与所述特征向量Xi的欧氏距离最小的多个样本;
将所述多个样本中出现次数最多的分类标签作为所对应的商品描述文本的类别。
12.根据权利要求9所述的基于领域本体的商品图像语义标注方法,其特征在于,对所对应的商品图像进行属性标注,包括如下步骤:
对所述图像描述文本的特征向量矩阵采用K-means聚类算法对商品属性以及商品属性值进行聚合,选取相似度最接近的top-K商品图像作为一个簇,隶属于同一簇的商品图像共享所有的商品属性以及商品属性值;
计算各个商品图像描述文本聚合后的属性和属性值与所对应的领域本体概念的概念属性之间的编辑距离,将与所述概念属性编辑距离最小的属性的属性值映射到所述概念属性,作为所述概念属性的属性值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710117722.9A CN108537240A (zh) | 2017-03-01 | 2017-03-01 | 基于领域本体的商品图像语义标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710117722.9A CN108537240A (zh) | 2017-03-01 | 2017-03-01 | 基于领域本体的商品图像语义标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108537240A true CN108537240A (zh) | 2018-09-14 |
Family
ID=63488507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710117722.9A Pending CN108537240A (zh) | 2017-03-01 | 2017-03-01 | 基于领域本体的商品图像语义标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108537240A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657710A (zh) * | 2018-12-06 | 2019-04-19 | 北京达佳互联信息技术有限公司 | 数据筛选方法、装置、服务器及存储介质 |
CN109670727A (zh) * | 2018-12-30 | 2019-04-23 | 湖南网数科技有限公司 | 一种基于众包的分词标注质量评估系统及评估方法 |
CN109800320A (zh) * | 2019-01-04 | 2019-05-24 | 平安科技(深圳)有限公司 | 一种图像处理方法、设备及计算机可读存储介质 |
CN110058756A (zh) * | 2019-04-19 | 2019-07-26 | 北京朗镜科技有限责任公司 | 一种图像样本的标注方法及装置 |
CN110188197A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110245234A (zh) * | 2019-03-27 | 2019-09-17 | 中国海洋大学 | 一种基于本体和语义相似度的多源数据样本关联方法 |
CN110727864A (zh) * | 2019-09-27 | 2020-01-24 | 浙江大学 | 一种基于手机App安装列表的用户画像方法 |
CN111079376A (zh) * | 2019-11-14 | 2020-04-28 | 贝壳技术有限公司 | 数据标注方法、装置、介质以及电子设备 |
CN111179271A (zh) * | 2019-11-22 | 2020-05-19 | 浙江众合科技股份有限公司 | 一种基于检索匹配的物体角度信息标注方法及电子设备 |
CN111178999A (zh) * | 2018-11-09 | 2020-05-19 | 商派软件有限公司 | 一种基于已知商品获得商品信息的共享方法 |
CN111225009A (zh) * | 2018-11-27 | 2020-06-02 | 北京沃东天骏信息技术有限公司 | 用于生成信息的方法和装置 |
CN111291376A (zh) * | 2018-12-08 | 2020-06-16 | 南京慕测信息科技有限公司 | 一种基于众包和机器学习的web漏洞验证方法 |
CN111339068A (zh) * | 2018-12-18 | 2020-06-26 | 北京奇虎科技有限公司 | 众包质量控制方法、装置、计算机存储介质和计算设备 |
CN111339338A (zh) * | 2020-02-29 | 2020-06-26 | 西安理工大学 | 基于深度学习的文本图片匹配推荐方法 |
CN111581510A (zh) * | 2020-05-07 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 分享内容处理方法、装置、计算机设备和存储介质 |
CN111667152A (zh) * | 2020-05-19 | 2020-09-15 | 深圳莫比嗨客数据智能科技有限公司 | 一种基于众包的文本类数据标定任务的自动审核方法 |
CN113706663A (zh) * | 2021-08-27 | 2021-11-26 | 脸萌有限公司 | 图像生成方法、装置、设备及存储介质 |
CN113722377A (zh) * | 2021-08-30 | 2021-11-30 | 武汉海云健康科技股份有限公司 | 一种药品标准库的搭建方法及系统 |
US11222166B2 (en) | 2019-11-19 | 2022-01-11 | International Business Machines Corporation | Iteratively expanding concepts |
CN114528417A (zh) * | 2022-04-12 | 2022-05-24 | 北京中科闻歌科技股份有限公司 | 知识图谱本体构建方法、装置、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404896A (zh) * | 2015-11-03 | 2016-03-16 | 北京旷视科技有限公司 | 标注数据处理方法和标注数据处理系统 |
CN105528422A (zh) * | 2015-12-07 | 2016-04-27 | 中国建设银行股份有限公司 | 一种主题爬虫处理方法及装置 |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
-
2017
- 2017-03-01 CN CN201710117722.9A patent/CN108537240A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
CN105404896A (zh) * | 2015-11-03 | 2016-03-16 | 北京旷视科技有限公司 | 标注数据处理方法和标注数据处理系统 |
CN105528422A (zh) * | 2015-12-07 | 2016-04-27 | 中国建设银行股份有限公司 | 一种主题爬虫处理方法及装置 |
Non-Patent Citations (2)
Title |
---|
张志武: ""基于本体的Web图像语义标注与检索模型"", 《情报科学》 * |
洪高峰: ""面向专业属性标注的众包平台研发及应用"", 《中国优秀硕士论文全文数据库 信息科技辑》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178999A (zh) * | 2018-11-09 | 2020-05-19 | 商派软件有限公司 | 一种基于已知商品获得商品信息的共享方法 |
CN111225009A (zh) * | 2018-11-27 | 2020-06-02 | 北京沃东天骏信息技术有限公司 | 用于生成信息的方法和装置 |
CN109657710A (zh) * | 2018-12-06 | 2019-04-19 | 北京达佳互联信息技术有限公司 | 数据筛选方法、装置、服务器及存储介质 |
CN111291376A (zh) * | 2018-12-08 | 2020-06-16 | 南京慕测信息科技有限公司 | 一种基于众包和机器学习的web漏洞验证方法 |
CN111339068B (zh) * | 2018-12-18 | 2024-04-19 | 北京奇虎科技有限公司 | 众包质量控制方法、装置、计算机存储介质和计算设备 |
CN111339068A (zh) * | 2018-12-18 | 2020-06-26 | 北京奇虎科技有限公司 | 众包质量控制方法、装置、计算机存储介质和计算设备 |
CN109670727B (zh) * | 2018-12-30 | 2023-06-23 | 湖南网数科技有限公司 | 一种基于众包的分词标注质量评估系统及评估方法 |
CN109670727A (zh) * | 2018-12-30 | 2019-04-23 | 湖南网数科技有限公司 | 一种基于众包的分词标注质量评估系统及评估方法 |
CN109800320B (zh) * | 2019-01-04 | 2023-08-18 | 平安科技(深圳)有限公司 | 一种图像处理方法、设备及计算机可读存储介质 |
CN109800320A (zh) * | 2019-01-04 | 2019-05-24 | 平安科技(深圳)有限公司 | 一种图像处理方法、设备及计算机可读存储介质 |
CN110245234A (zh) * | 2019-03-27 | 2019-09-17 | 中国海洋大学 | 一种基于本体和语义相似度的多源数据样本关联方法 |
CN110058756A (zh) * | 2019-04-19 | 2019-07-26 | 北京朗镜科技有限责任公司 | 一种图像样本的标注方法及装置 |
CN110188197B (zh) * | 2019-05-13 | 2021-09-28 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110188197A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110727864B (zh) * | 2019-09-27 | 2022-12-13 | 浙江大学 | 一种基于手机App安装列表的用户画像方法 |
CN110727864A (zh) * | 2019-09-27 | 2020-01-24 | 浙江大学 | 一种基于手机App安装列表的用户画像方法 |
CN111079376B (zh) * | 2019-11-14 | 2021-04-16 | 北京房江湖科技有限公司 | 数据标注方法、装置、介质以及电子设备 |
CN111079376A (zh) * | 2019-11-14 | 2020-04-28 | 贝壳技术有限公司 | 数据标注方法、装置、介质以及电子设备 |
US11222166B2 (en) | 2019-11-19 | 2022-01-11 | International Business Machines Corporation | Iteratively expanding concepts |
CN111179271A (zh) * | 2019-11-22 | 2020-05-19 | 浙江众合科技股份有限公司 | 一种基于检索匹配的物体角度信息标注方法及电子设备 |
CN111339338A (zh) * | 2020-02-29 | 2020-06-26 | 西安理工大学 | 基于深度学习的文本图片匹配推荐方法 |
CN111339338B (zh) * | 2020-02-29 | 2023-03-07 | 西安理工大学 | 基于深度学习的文本图片匹配推荐方法 |
CN111581510A (zh) * | 2020-05-07 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 分享内容处理方法、装置、计算机设备和存储介质 |
CN111581510B (zh) * | 2020-05-07 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 分享内容处理方法、装置、计算机设备和存储介质 |
CN111667152A (zh) * | 2020-05-19 | 2020-09-15 | 深圳莫比嗨客数据智能科技有限公司 | 一种基于众包的文本类数据标定任务的自动审核方法 |
CN113706663A (zh) * | 2021-08-27 | 2021-11-26 | 脸萌有限公司 | 图像生成方法、装置、设备及存储介质 |
CN113706663B (zh) * | 2021-08-27 | 2024-02-02 | 脸萌有限公司 | 图像生成方法、装置、设备及存储介质 |
CN113722377A (zh) * | 2021-08-30 | 2021-11-30 | 武汉海云健康科技股份有限公司 | 一种药品标准库的搭建方法及系统 |
CN114528417A (zh) * | 2022-04-12 | 2022-05-24 | 北京中科闻歌科技股份有限公司 | 知识图谱本体构建方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108537240A (zh) | 基于领域本体的商品图像语义标注方法 | |
Jing et al. | Visual search at pinterest | |
Wang et al. | A three-layered graph-based learning approach for remote sensing image retrieval | |
Lin et al. | Rapid clothing retrieval via deep learning of binary codes and hierarchical search | |
CN106126581A (zh) | 基于深度学习的手绘草图图像检索方法 | |
CN103186538A (zh) | 一种图像分类方法和装置、图像检索方法和装置 | |
Noce et al. | Embedded textual content for document image classification with convolutional neural networks | |
Niu et al. | Knowledge-based topic model for unsupervised object discovery and localization | |
Gandhi et al. | Scalable detection of offensive and non-compliant content/logo in product images | |
Tian et al. | Image classification based on the combination of text features and visual features | |
Martinet et al. | A relational vector space model using an advanced weighting scheme for image retrieval | |
CN116595246A (zh) | 一种基于知识图谱与读者画像的图书推荐检索系统 | |
Rubio et al. | Multi-modal joint embedding for fashion product retrieval | |
Wang et al. | Visual tag dictionary: interpreting tags with visual words | |
CN110245234A (zh) | 一种基于本体和语义相似度的多源数据样本关联方法 | |
Gandhi et al. | Image matters: Detecting offensive and non-compliant content/logo in product images | |
Zhou et al. | A text recognition and retrieval system for e-business image management | |
Zhou et al. | Demand-adaptive clothing image retrieval using hybrid topic model | |
Zhao et al. | Query expansion for object retrieval with active learning using BoW and CNN feature | |
CN110298228A (zh) | 一种多目标图像检索方法 | |
Barnard et al. | Recognition as translating images into text | |
CN114925198A (zh) | 一种融合字符信息的知识驱动文本分类方法 | |
Park et al. | Estimating comic content from the book cover information using fine-tuned VGG model for comic search | |
Lu et al. | Automatic image annotation based-on model space | |
Showkatramani et al. | Trademark image similarity search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180914 |
|
WD01 | Invention patent application deemed withdrawn after publication |