CN108537240A

CN108537240A - 基于领域本体的商品图像语义标注方法

Info

Publication number: CN108537240A
Application number: CN201710117722.9A
Authority: CN
Inventors: 杨静; 朱寒婷
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2018-09-14

Abstract

本发明提供了一种基于领域本体的商品图像语义标注方法，其中包括采用多个领域本体概念分别作为关键词抓取商品数据；基于各个所述领域本体概念对所对应的图像描述文本进行分类，根据所述图像描述文本的类别对所对应的商品图像进行类别标注；对所对应的商品图像进行属性标注。本发明提供了一种对商品图像进行正确快速语义标注的技术方案，解决了商品图像与其描述文本不匹配的问题，能够根据领域本体的概念和概念属性得到商品图像在预定领域内的部分语义信息，实现对商品图像的语义层次标注，获得正确的语义标注数据集；能够利用众包技术得到正确的图像标注数据，并且采取迭代处理的方式能够利用最少的成本最合理利用众包平台，得到较优的标注效果。

Description

基于领域本体的商品图像语义标注方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种对商品图像进行正确快速语义标注的基于领域本体的商品图像语义标注方法。

背景技术

近年来，随着多媒体技术和互联网的迅速发展，电子图像的数量迅速增长。互联网也已经成为了人们购物的重要手段，因此电商领域的商品图像的分类管理也就显得尤为重要。如果没有很好的分类管理，会造成用户在搜索相关商品时很大的困扰。因此，如何实现电商领域商品图像的快速而有效的管理，成为如今研究的热点。

在过去的几十年里，有大量的研究基于内容的图像管理，却受于语义的限制，不能完全满足用户的需求。现有技术中的商品图像语义标注主要存在如下问题：

(1)商品图像质量良莠不齐，可能会出现图像模糊不清、图文不符的情况，直接抽取图像的语义信息较为困难；

(2)和图像相关的其他描述性文本信息不完整，例如商品的名称，商品的描述都很可能出现语序混乱、语义信息较弱等问题，直接抽取文本的语义信息较为困难；

(3)电商领域目前仍存在一些没有标注的图像数据，图像数量十分大，如果完全采用人工标注，则十分费时费力。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种基于领域本体的商品图像语义标注方法，对商品图像进行正确快速语义标注，解决商品图像缺少标注以及商品图像和图像描述文本难以直接抽取语义信息的技术问题。

本发明实施例提供一种基于领域本体的商品图像语义标注方法，包括如下步骤：

采用多个领域本体概念分别作为关键词抓取商品数据，所述商品数据包括商品图像和图像描述文本；

基于各个所述领域本体概念对所对应的图像描述文本进行分类，根据所述图像描述文本的类别对所对应的商品图像进行类别标注；

基于各个所述领域本体概念所对应的属性，对所对应的商品图像进行属性标注。

可选地，对所述图像描述文本进行分类之前，还包括如下步骤：

采用众包平台获取商品图像的标注数据集；

根据所述标注数据集修正各个所述商品图像所对应的领域本体概念。

可选地，采用众包平台获取商品图像的标注数据集，包括如下步骤：

将所述商品数据作为待标注数据加入到众包任务，并将所述众包任务发布到众包平台进行人工检验；

从所述众包平台回收标注结果数据，形成所述标注数据集。

可选地，所述众包任务包括多条待标注题目，各个所述待标注题目包括题干和选项；各个所述题干包括一商品的商品图像、图像描述文本和该商品图像所对应的领域本体概念，各个所述选项包括所述商品图像和所对应的领域本体概念匹配以及所述商品图像和所对应的领域本体概念不匹配。

可选地，所述回收标注结果数据，包括如下步骤：

选择各个所述商品图像所对应的选择人数最多的选项，作为该商品图像的标注结果数据。

将所述商品数据作为待标注数据，并将待标注数据分为多个迭代部分；

选取第一部分待标注数据加入到众包任务，并将所述众包任务发布到众包平台进行人工检验；

从所述众包平台回收标注结果数据，且在每次回收标注结果数据后，判断全部待标注数据中标注准确率是否小于预设准确率阈值；

如果全部待标注数据中标注准确率小于预设准确率阈值，则选取下一部分待标注数据加入到众包任务，并将所述众包任务发布到众包平台进行迭代人工检验；

如果全部待标注数据中标注准确率大于或等于预设准确率阈值，则停止迭代人工检验并形成商品图像的标注数据集。

可选地，当全部待标注数据中标注准确率小于预设准确率阈值时，判断当前人工检验的迭代次数是否小于预设迭代次数阈值；

如果当前人工检验的迭代次数小于预设迭代次数阈值，则选取下一部分待标注数据加入到众包任务，并将所述众包任务发布到众包平台进行迭代人工检验；

如果当前人工检验的迭代次数大于等于预设迭代次数阈值，则停止迭代人工检验并形成商品图像的标注数据集。

可选地，所述商品描述文本包括所述商品图像所对应的商品序号、商品标题、商品属性以及商品属性值。

可选地，采用所述领域本体概念对所述图像描述文本进行分类，包括如下步骤：

将所述图像描述文本采用Word2Vector方法训练得到各个词的词向量；

采用TextRank算法从所述图像描述文本中的商品标题、商品属性以及商品属性值中分别提取top-K关键词；

抽取每个关键词的TF-IDF特征和词向量；

将所述TF-IDF特征作为每个关键词的权重，对所有关键词集合的词向量以加权平均的方式合并，得到所述图像描述文本的特征向量矩阵，所述图像描述文本的特征向量矩阵满足如下公式：

X_n＝{X₁,X₂,......,X_N}；

其中，X_n为所述图像描述文本的特征向量矩阵，X_i,i∈(1,N)为各个所述图像描述文本的特征向量，N为所述图像描述文本的数量；

采用最近邻算法训练分类器，所述分类器的特征向量满足如下公式：

T_train＝(X₁,y₁),(X₂,y₂),......,(X_N,y_N)；

其中，T_train为所述分类器的特征向量，y_i,i∈(1,N)为分类标签；

从所述特征向量矩阵X_n中抽取一商品描述文本的特征向量X_i，将所述分类器中与特征向量X_i最近邻的类别作为所对应的商品描述文本的类别。

可选地，训练得到各个词的词向量之前，还包括如下步骤：

对所述图像描述文本进行文本格式预处理，所述文本格式预处理包括统一文本大小写格式和去除文本中标点符号。

可选地，将所述分类器中与特征向量X_i最近邻的类别作为所对应的商品描述文本的类别，包括如下步骤：

计算特征向量X_i与所述分类器的特征向量之间的欧氏距离；

选择所述分类器中与所述特征向量X_i的欧氏距离最小的多个样本；

将所述多个样本中出现次数最多的分类标签作为所对应的商品描述文本的类别。

可选地，对所对应的商品图像进行属性标注，包括如下步骤：

对所述图像描述文本的特征向量矩阵采用K-means聚类算法对商品属性以及商品属性值进行聚合，选取相似度最接近的top-K商品图像作为一个簇，隶属于同一簇的商品图像共享所有的商品属性以及商品属性值；

计算各个商品图像描述文本聚合后的属性和属性值与所对应的领域本体概念的概念属性之间的编辑距离，将与所述概念属性编辑距离最小的属性的属性值映射到所述概念属性，作为所述概念属性的属性值。

本发明所提供的基于领域本体的商品图像语义标注方法具有下列优点：

本发明提供了一种对商品图像进行正确快速语义标注的技术方案，解决了商品图像与其图像描述文本不匹配的问题，能够根据领域本体的概念和概念属性得到商品图像在预定领域内的部分语义信息，实现对商品图像的语义层次标注，获得正确的语义标注数据集；能够利用众包技术得到正确的图像标注数据，并且采取迭代处理的方式能够利用最少的成本最合理利用众包平台，得到较优的标注效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的基于领域本体的商品图像语义标注方法的流程图；

图2是本发明一实施例的采用众包平台进行迭代人工校验的流程图；

图3是本发明另一实施例的采用众包平台进行迭代人工校验的流程图；

图4是本发明一实施例的领域本体概念的属性结构的示意图；

图5是本发明一实施例的基于领域本体概念对商品图像进行类别标注的流程图；

图6是本发明一实施例的基于领域本体概念对商品图像进行属性标注的流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

如图1所示，为了解决商品图像以及其图像描述文本包含的语义信息较弱的问题，本发明实施例提供一种基于领域本体的商品图像语义标注方法，基于领域本体的概念以及领域本体概念属性对商品图像进行语义标注，具体所述方法包括如下步骤：

S100：采用领域本体概念C分别作为关键词抓取商品数据，所述商品数据Item_n包括商品图像IMG_n和图像描述文本T_n；所述图像描述文本T_n可选包括：商品ID_n、商品标题title_n、商品属性和商品属性值attributes_n＝{key₁:value₁,......,key_N,value_N}；

其中，IMG_n＝{IMG₁,IMG₂,......,IMG_N}，N为商品图像的数量，IMG_i,i∈(1,N)为各个所述商品图像。

T_n＝{T₁,T₂,......,T_N}，N为商品图像描述文本的数量，所述商品图像描述文本与所述商品图像一一对应，T_i,i∈(1,N)为各个所述图像描述文本。

S300：基于所述领域本体概念C对所对应的图像描述文本进行分类，根据所述图像描述文本的类别对所对应的商品图像进行类别标注；

S400：基于所述领域本体概念C所对应的属性，对所对应的商品图像进行属性标注。

本发明涉及的技术领域可以有网页信息爬取、文本预处理、关键词提取、文本特征表示、相似度计算、分类算法、聚类算法等，其中文本预处理包括分词、词性标注等。总的来说，本发明是语义标注领域中一种对媒体语义标注的方法，利用领域本体和众包技术实现对媒体的语义标注。基于领域本体的语义标注是指将现实应用中的实体映射到本体概念并标记为本体概念的实例，在此基础上为实体进行语义标注。从本体角度出发，语义标注可以看做添加实例，丰富本体的过程；从语义角度出发，语义标注是根据本体内容，为实体添加语义元素的过程。

领域本体作为一种能在语义和知识层面对信息和数据进行描述的概念模型，为解决内容标注问题提供了一种良好的途径。领域本体能够较好地表达出领域知识的语义层次，因此，基于领域本体通过内容标注可以将普通的信息资源转化为具有知识层次的形式化信息，使庞大的信息资源以语义关联的规范化形式存在。基于电商领域本体的商品图像标注能够得到图像在预定领域内的部分语义信息。

为了解决商品图像与其商品描述性文本不匹配的问题，获得正确的标注数据集，本发明进一步还可以包括利用众包平台对抓取数据的类别进行人工校验的方法。

S200：采用众包平台获取商品图像的标注数据集，根据所述标注数据集修正各个所述商品图像所对应的领域本体概念。

从所述众包平台回收标注结果数据，形成所述标注数据集。

可选地，所述众包任务包括多条待标注题目，各个所述待标注题目包括题干和选项；各个所述题干包括一商品的商品图像IMG_n、图像描述文本T_n和该商品图像IMG_n所对应的领域本体概念C，各个所述选项包括所述商品图像IMG_n和所对应的领域本体概念C匹配以及所述商品图像IMG_n和所对应的领域本体概念C不匹配。

即要求众包平台用户根据每个商品的商品图像IMG_n和图像描述文本T_n来判断该商品图像IMG_n所述的领域本体概念C是否正确。如果商品图像IMG_n与领域本体概念C相匹配则为正确，如果不匹配或无法判断则为错误。为了保证众包标注质量以及有效提高标注准确性，规定每道题目需要同时由多个用户完成，根据多数原则回收正确答案，同时每个用户必须通过测试模式，并且准确率大于设定阈值时才能继续做题，否则任务立即终止。

本发明通过利用众包技术对数据进行标注的方法，具有成本低，速度快的特点，因此得到了广泛的关注和应用。众包将原来由企业专职雇员负责处理的工作，化整为零分配给了广大互联网用户，不仅大大减少了企业的成本，其可扩展的特点也使得大数据时代的海量数据标注成为了可能。但是由于数据量过多，意味着需要越来越多的人力物力对这些数据进行标注。因此，如何利用最少的成本达到最优的标注效果是最近研究的热点。

针对商品图像相关的数据量大以及质量参差不齐的情况，如果全部按照上述的利用众包平台标注商品图像数据集方法进行标注，时间和金钱成本将会非常高。本发明可以进一步通过随机抽取待标注数据进行迭代，实现以最少的成本最大化合理利用众包平台，在原有数据集的基础上不断增加新的数据集，扩大训练集。具体步骤为：对一批待标注数据通过现有标注算法得到的商品类别，将这批商品放入众包系统中进行人工检验，将正确结果添加到现在训练集，重新训练分类器，依次类推，直至分类的准确率达到设定阈值或者迭代累计金额超过预期时停止迭代。

如图2所示，采用众包平台获取商品图像的标注数据集，可以包括如下步骤：

(S200-1)将所述商品数据作为待标注数据，并将待标注数据分为多个迭代部分；

(S200-2)选取第一部分待标注数据加入到众包任务，并将所述众包任务发布到众包平台进行人工检验；

(S200-3)从所述众包平台回收标注结果数据，且在每次回收标注结果数据后，判断全部待标注数据中标注准确率是否小于预设准确率阈值；

进一步地，如图3所示，还可以采用迭代次数来控制迭代过程，即当全部待标注数据中标注准确率小于预设准确率阈值时，判断当前人工检验的迭代次数是否小于预设迭代次数阈值；

此处控制迭代次数超过预设迭代次数阈值时，停止迭代，即上述所述的迭代累计金额超过预期时停止迭代。可以对迭代金额进行更有效的控制。

下面以一个具体实施例来进一步介绍采用众包平台对抓取数据的类别进行人工校验的方法。在本实施例中利用电商领域本体概念BB霜作为抓取关键词抓取电商网站商品数据。本体概念BB霜，进一步具有以下属性：适合肤质、规格类型、功效、单品、是否为特殊用途化妆品、妆效等。商品数据例如{"id":"549013","title":"【京东超市】温碧泉(WETHERM)水漾娇颜凝采BB霜50g(轻薄水润遮瑕隔离细腻肌肤)","img":["http://img13.360buyimg.com/n1/jfs/t1906/93/1027058655/49470/190395da/563c4ebdN69d1671c.GIF","http://img13.360buyimg.com/n1/jfs/t2182/48/960729366/108851/5ad5a12b/563c4ec1N5e55af55.GIF","http://img13.360buyimg.com/n1/jfs/t2260/282/1089972302/53521/a196d094/563c4ec5N192fdcf6.GIF","http://img13.360buyimg.com/n1/jfs/t2464/53/1031770413/68464/fb96673e/563c4ec9Ne3a8b47d.GIF","http://img13.360buyimg.com/n1/jfs/t2341/74/1033656754/147187/8f1adc71/563c4ecdN1ed34dc7.GIF"],"attributes":["商品名称：温碧泉水漾娇颜凝采BB霜","商品编号：549013","商品毛重：80.00g","商品产地：广东省广州市","适合肤质：混合性","性别：女","功效：其它","产品产地：中国大陆"]}。

在本实施例中利用众包平台对抓取数据的类别进行人工校验，获得标注商品图像数据集。将抓取的商品数据作为待标注数据发布到众包平台，每个众包任务有若干道待标注题目组成，每道题目由题干和选项组成，题干由Item_n的IMG_n、ID_n、title_n以及所属本体概念C组成，选项为正确和错误。标注题目例如：

商品图像(此处未示出)；

ID：1138973573

Title：韩国直邮LANEIGE兰芝气垫BB霜粉底粉凝霜13号亮肤色送替换装

类别：BB霜

请判断类别是否正确：(A)正确；(B)错误

要求众包平台用户根据Item_n的IMG_n、title_n来判断该商品图像所属的本体概念C是否正确，如果Item_n的IMG_n、title_n与本体概念C相对应则为正确，如果不对应或者无法判断则为错误。为了保证众包标注质量以及有效提高标注准确性，规定每道题目需要同时由3个用户完成，根据多数原则回收正确答案，同时每个用户必须通过测试模式，并且准确率大于70％才能继续做题，否则任务立即终止。通过该标注方法回收BB霜类的商品数据。

上面列出的仅是一种较佳的实施方式。在实际应用中，如果商品数据本身可靠性较强，其中商品标注准确性较高，也可以不采用此处步骤S200，而直接基于领域本体概念进行类别标注和属性标注，均属于本发明的保护范围之内。另外，在不考虑迭代时间和迭代金额的情况时，也可以直接采用全部待标注数据发布到众包平台的方法，即不采用如图2和图3所示的迭代方式，也是可以的，而不以此处的优选实施方式为限。

如图4所示，本发明采用领域本体概念对商品图像进行类别标注，将底层的领域本体概念视为已知的类别集合C＝{C₁,C₂,......,C_N}，例如上面所述的本体概念BB霜，进一步具有以下属性：适合肤质、规格类型、功效、单品、是否为特殊用途化妆品、妆效等。将待标注的商品图像描述文本T_n视为待分类的数据，从而将商品图像的类别标注转化成分类问题，根据商品图形描述文本T_n的特征，划分到类别集合C中。

如图5所示，采用所述领域本体概念对所述图像描述文本进行分类，包括如下步骤：

(S300-1)将所述图像描述文本采用Word2Vector方法训练得到各个词的词向量；具体可以利用100万商品图像描述文本，包括title_n、商品属性和商品属性值attributes_n作为训练语料，通过Google的Word2Vector工具训练得到每个词的Word2vector词向量；

(S300-2)采用TextRank算法从所述图像描述文本中的title_n、商品属性和商品属性值attributes_n＝{key₁:value₁,......,key_N,value_N}中分别提取top-K关键词t_keyword＝{t₁,t₂,......,t_k}和a_keyword＝{a₁,a₂,......,a_k}；

此处采用的TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法，通过把文本分割成若干组成单元(单词、句子)并建立图模型，利用投票机制对文本中的重要成分进行排序，仅利用单篇文档本身的信息即可实现关键词提取、文摘。TextRank不需要事先对多篇文档进行学习训练,因其简洁有效而得到广泛应用。此处top-K关键词指的是通过排序得到前k个关键词。

(S300-3)根据得到的top-K关键词t_keyword和a_keyword抽取每个关键词的TF-IDF特征和Word2vector词向量；由此所述图像描述文本表示为每个关键词的TF-IDF特征和词向量；

其中，TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。Word2Vector是一种依据上下文关系的词语语义(词义)特征提取方法，最先由Mikolov等于2013年初在谷歌公司的开源项目中提出。当文档作为信息检索的样本时，针对在不同文档中的每个词语，Word2Vector可以依据其上下文关系有效地提取其语义(即词义特征)，并以词向量的形式给出。

(S300-4)将所述TF-IDF特征作为每个关键词的权重，对所有关键词集合的Word2vector词向量以加权平均的方式合并，得到所述图像描述文本的特征向量矩阵，所述图像描述文本的特征向量矩阵满足如下公式：

X_n＝{X₁,X₂,......,X_N}；

T_train＝(X₁,y₁),(X₂,y₂),......,(X_N,y_N)；

最近邻算法即为KNN算法，kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

(S300-5)从所述特征向量矩阵X_n中抽取一商品描述文本的特征向量X_i，将所述分类器中与特征向量X_i最近邻的类别作为所对应的商品描述文本的类别。

可选地，训练得到各个词的词向量之前，还包括如下步骤：

对所述图像描述文本进行文本格式预处理，所述文本格式预处理包括统一文本大小写格式和去除文本中标点符号等。

(S300-5.1)计算特征向量X_i与所述分类器的特征向量T_train之间的欧氏距离；

(S300-5.2)选择所述分类器中与所述特征向量X_i的欧氏距离最小的k个样本；欧几里得度量(euclidean metric)，也称欧氏距离，是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。此处k个样本的数量可以根据需要进行选择，例如100个样本等。

(S300-5.3)将所述多个样本中出现次数最多的分类标签作为所对应的商品描述文本的类别。

通过以上方法即实现了商品图像的类别标注。

如图4所示，在领域本体概念C＝{C₁,C₂,......,C_N}中，各个领域本体分别概念C_i具有属性A_i＝{A₁,A₂,......,A_N}。例如，当领域本体概念C包含箱包C₁、上衣C₂、裤子C₃、裙子C₄和鞋靴C₅时，各个领域本体概念C₁～C₅分别具有属性A₁、A₂、A₃。因此，可以基于领域本体概念的属性对商品图像进行属性标注。

如图6所示，对所对应的商品图像进行属性标注，包括如下步骤：

(S400-1)针对商品图像文本attributes_n缺失或者为空的情况，对所述图像描述文本的特征向量矩阵X_n采用K-means聚类算法对商品属性以及商品属性值进行聚合，选取相似度最接近的top-K商品图像作为一个簇，隶属于同一簇的商品图像共享所有的商品属性以及商品属性值attributes；

此处K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。

(S400-2)计算各个商品图像描述文本聚合后的属性和属性值与所对应的领域本体概念的概念属性之间的编辑距离，将与所述概念属性编辑距离最小的属性的属性值映射到所述概念属性，作为所述概念属性的属性值，从而完成商品图像的属性标注。

具体地，在各个商品图像描述文本聚合后，得到其领域本体概念C以及候选属性和属性值集合，由C＝{a₁:value₁,a₂:value₂,...,a_n:value_n},i∈(1,n)表示，其中a_i表示候选属性，value_i为所述候选属性对应的属性值。根据领域本体概念C可以得到本体概念C所对应的概念属性集合，由C＝{A₁,A₂,...,A_n}表示，A_i为本体概念C所对应的概念属性。分别计算A_i与a₁,a₂,...,a_n的编辑距离，将编辑距离最小的属性a_k的属性值value映射到A_i，作为A_i的属性值，从而完成本体概念属性的标注。

此处编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

如图6中所示，商品图像描述文本T₁和T₂分别具有属性和属性值key₁:value₁,key₂:value₂。通过聚类得到属性和属性值key₁:(value_1-1,value_2-1),key₂:value₂,key₃:value₃；将其与领域本体C1计算相似度，确定属性A₁,A₂,A₃。

采用此种方法，即实现了商品图像的属性标注。

通过采用上述商品图像的语义标注方法，能够根据领域本体的概念和概念属性得到商品图像在预定领域内的部分语义信息，实现对商品图像的语义层次标注；能够利用最少的成本最合理利用众包平台，得到较优的标注效果。在该实施例中，以电商领域的商品图像标注为例进行了介绍，例如从京东、淘宝、天猫、一号店等电商平台的网站抓取的电商商品图像。然而，本发明不仅限于对电商商品图像的语义标注，还可以应用于其他类别的商品图像标注，例如人工录入的实体销售商品图像等等，均属于本发明的保护范围之内。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于领域本体的商品图像语义标注方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于领域本体的商品图像语义标注方法，其特征在于，对所述图像描述文本进行分类之前，还包括如下步骤：

采用众包平台获取商品图像的标注数据集；

3.根据权利要求2所述的基于领域本体的商品图像语义标注方法，其特征在于，采用众包平台获取商品图像的标注数据集，包括如下步骤：

从所述众包平台回收标注结果数据，形成所述标注数据集。

4.根据权利要求3所述的基于领域本体的商品图像语义标注方法，其特征在于，所述众包任务包括多条待标注题目，各个所述待标注题目包括题干和选项；各个所述题干包括一商品的商品图像、图像描述文本和该商品图像所对应的领域本体概念，各个所述选项包括所述商品图像和所对应的领域本体概念匹配以及所述商品图像和所对应的领域本体概念不匹配。

5.根据权利要求4所述的基于领域本体的商品图像语义标注方法，其特征在于，所述回收标注结果数据，包括如下步骤：

6.根据权利要求2所述的基于领域本体的商品图像语义标注方法，其特征在于，采用众包平台获取商品图像的标注数据集，包括如下步骤：

7.根据权利要求6所述的基于领域本体的商品图像语义标注方法，其特征在于，当全部待标注数据中标注准确率小于预设准确率阈值时，判断当前人工检验的迭代次数是否小于预设迭代次数阈值；

8.根据权利要求1所述的基于领域本体的商品图像语义标注方法，其特征在于，所述商品描述文本包括所述商品图像所对应的商品序号、商品标题、商品属性以及商品属性值。

9.根据权利要求8所述的基于领域本体的商品图像语义标注方法，其特征在于，采用所述领域本体概念对所述图像描述文本进行分类，包括如下步骤：

抽取每个关键词的TF-IDF特征和词向量；

X_n＝{X₁,X₂,......,X_N}；

T_train＝(X₁,y₁),(X₂,y₂),......,(X_N,y_N)；

10.根据权利要求9所述的基于领域本体的商品图像语义标注方法，其特征在于，训练得到各个词的词向量之前，还包括如下步骤：

11.根据权利要求9所述的基于领域本体的商品图像语义标注方法，其特征在于，将所述分类器中与特征向量X_i最近邻的类别作为所对应的商品描述文本的类别，包括如下步骤：

计算特征向量X_i与所述分类器的特征向量之间的欧氏距离；

12.根据权利要求9所述的基于领域本体的商品图像语义标注方法，其特征在于，对所对应的商品图像进行属性标注，包括如下步骤：