CN112507150A - 一种标签扩充方法、装置、电子设备及存储介质 - Google Patents

一种标签扩充方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112507150A
CN112507150A CN202011461974.1A CN202011461974A CN112507150A CN 112507150 A CN112507150 A CN 112507150A CN 202011461974 A CN202011461974 A CN 202011461974A CN 112507150 A CN112507150 A CN 112507150A
Authority
CN
China
Prior art keywords
image
text
features
description
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011461974.1A
Other languages
English (en)
Inventor
艾姗姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN202011461974.1A priority Critical patent/CN112507150A/zh
Publication of CN112507150A publication Critical patent/CN112507150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种标签扩充方法、装置、电子设备及存储介质,该方法包括:获得待扩充标签的商品对应的描述图像,并获取描述图像对应的描述文本;提取描述图像的图像特征和描述文本的文本特征;将图像特征和文本特征进行融合,获得融合特征;根据多个类别标签中的每个类别标签与融合特征的相似程度,扩充商品的类别标签。在上述的实现过程中,通过将图像特征和文本特征进行跨模态融合获得的融合特征,来扩充商品的类别标签,提高了确定商品图像的类别标签的正确率,从而避免了人工地对商品的类别标签进行扩充导致容易出错的情况,有效地提高了对商品的类别标签进行扩充的效率。

Description

一种标签扩充方法、装置、电子设备及存储介质
技术领域
本申请涉及机器学习和数据处理的技术领域,具体而言,涉及一种标签扩充方法、装置、电子设备及存储介质。
背景技术
目前的电子商务平台大都采用“大类和小类”的两层类别体系,在同一级类别中,一件商品通常只属于一个类别;具体例如:大类为裤装,则小类可以为牛仔裤或者西裤。然而,大多数的商品往往可以从属于多个类别;具体例如:在电子商务网站上,“婴儿床”商品只出现在“婴儿用品”的类别,用户在查找婴儿床时,若点击浏览的是“家具”类别,则无法找到该“婴儿床”商品。
在目前的行业中,通常解决上述的问题均是通过电子商务网站的工作人员在评论数据或者投诉数据中找到相应的类别信息,并将“婴儿床”商品加入“家具”类别。在具体实践过程中发现,通常有大量的商品均可以从属于多个类别,通过人工地对商品的类别标签进行扩充的效率低下且容易出错。
发明内容
本申请实施例的目的在于提供一种标签扩充方法、装置、电子设备及存储介质,用于改善对商品的类别标签进行扩充的效率低下且容易出错的问题。
本申请实施例提供了一种标签扩充方法,包括:获得待扩充标签的商品对应的描述图像,并获取描述图像对应的描述文本;提取描述图像的图像特征和描述文本的文本特征;将图像特征和文本特征进行融合,获得融合特征;根据多个类别标签中的每个类别标签与融合特征的相似程度,扩充商品的类别标签。在上述的实现过程中,先将商品对应描述图像的图像特征和该描述图像对应描述文本的文本特征进行融合,获得融合特征;再根据多个类别标签中的每个类别标签与融合特征的相似程度来扩充商品图像的类别标签;也就是说,通过将图像特征和文本特征进行跨模态融合获得的融合特征,来扩充商品的类别标签,提高了确定商品图像的类别标签的正确率,从而避免了人工地对商品的类别标签进行扩充导致容易出错的情况,有效地提高了对商品的类别标签进行扩充的效率。
可选地,在本申请实施例中,提取描述图像的图像特征和描述文本的文本特征,包括:使用卷积网络模型提取描述图像的图像特征,并使用卷积网络模型提取描述文本的文本特征;或者,使用卷积网络模型提取描述图像的图像特征,并使用长短期记忆网络模型提取描述文本的文本特征。在上述的实现过程中,通过使用卷积网络模型提取描述图像的图像特征,并使用卷积网络模型或者长短期记忆网络模型提取描述文本的文本特征;从而能够提取描述图像和描述文本中的特征信息,再根据特征信息进行标签扩充,有效地提高了标签扩充的正确率。
可选地,在本申请实施例中,将图像特征和文本特征进行融合,包括:使用融合网络模型中的第一卷积层提取图像特征对应的图像映射特征,并使用融合网络模型中的第二卷积层提取文本特征对应的文本映射特征,映射特征是映射至共同特征空间的特征向量;使用融合网络模型中的全连接层对图像映射特征和文本映射特征进行融合。在上述的实现过程中,通过使用融合网络模型中的卷积层提取图像特征对应的图像映射特征和文本特征对应的文本映射特征,并使用融合网络模型中的全连接层对图像映射特征和文本映射特征进行融合;从而有效地让图像特征和文本特征映射至同一个公共特征空间中,实现了特征的映射与融合。
可选地,在本申请实施例中,根据多个类别标签中的每个类别标签与融合特征的相似程度,扩充商品的类别标签,包括:判断每个类别标签与融合特征的相似程度是否大于预设相似度阈值;若是,则将相似程度对应的类别标签加入商品的类别标签。在上述的实现过程中,在类别标签与融合特征的相似程度大于阈值的情况下,将类别标签加入商品的类别标签,从而增加了商品的类别标签数量,降低了根据类别标签查找商品的困难,提高了根据类别标签查找商品的效率。
可选地,在本申请实施例中,在判断每个类别标签与融合特征的相似程度是否大于预设相似度阈值之后,还包括:若类别标签与融合特征的相似程度不大于预设相似度阈值,则将描述图像和类别标签加入待确认列表。在上述的实现过程中,通过若类别标签与融合特征的相似程度不大于预设相似度阈值,则将描述图像和类别标签加入待确认列表;从而让人工来确认待确认列表中的类别标签是否需要加入融合特征对应的商品类别标签,有效地保证了类别标签扩充的正确率。
可选地,在本申请实施例中,还包括:使用神经网络模型预测描述图像对应的多个属性标签的概率值;将多个属性标签中满足预设条件的属性标签加入商品的属性标签,获得商品的至少一个属性标签,预设条件为属性标签的概率值大于预设阈值。在上述的实现过程中,通过使用神经网络模型预测描述图像对应的多个属性标签的概率值,并将多个属性标签中的概率值大于预设阈值的属性标签加入商品的属性标签;从而有效地扩充了商品的属性标签。
可选地,在本申请实施例中,获取描述图像对应的描述文本,包括:将商品的至少一个属性标签确定为描述图像对应的描述文本。在上述的实现过程中,通过将商品的至少一个属性标签确定为描述图像对应的描述文本,并根据属性标签确定的描述文本扩充商品的类别标签;从而提高描述文本与商品类别标签的相关性,有效地提高了扩充商品的类别标签的准确率。
本申请实施例还提供了一种标签扩充装置,包括:图像文本获得模块,用于获得待扩充标签的商品对应的描述图像,并获取描述图像对应的描述文本;描述特征提取模块,用于提取描述图像的图像特征和描述文本的文本特征;融合特征获得模块,用于将图像特征和文本特征进行融合,获得融合特征;类别标签扩充模块,用于根据多个类别标签中的每个类别标签与融合特征的相似程度,扩充商品的类别标签。
可选地,在本申请实施例中,描述特征提取模块,具体用于:使用卷积网络模型提取描述图像的图像特征,并使用卷积网络模型提取描述文本的文本特征;或者,使用卷积网络模型提取描述图像的图像特征,并使用长短期记忆网络模型提取描述文本的文本特征。
可选地,在本申请实施例中,融合特征获得模块,包括:映射特征提取模块,用于使用融合网络模型中的第一卷积层提取图像特征对应的图像映射特征,并使用融合网络模型中的第二卷积层提取文本特征对应的文本映射特征,映射特征是映射至共同特征空间的特征向量;映射特征融合模块,用于使用融合网络模型中的全连接层对图像映射特征和文本映射特征进行融合。
可选地,在本申请实施例中,类别标签扩充模块,包括:相似程度判断模块,用于判断每个类别标签与融合特征的相似程度是否大于预设相似度阈值;类别标签加入模块,用于若每个类别标签与融合特征的相似程度大于预设相似度阈值,则将相似程度对应的类别标签加入商品的类别标签。
可选地,在本申请实施例中,类别标签扩充模块,还包括:确认列表加入模块,用于若类别标签与融合特征的相似程度不大于预设相似度阈值,则将描述图像和类别标签加入待确认列表。
可选地,在本申请实施例中,标签扩充装置,还包括:网络模型预测模块,用于使用神经网络模型预测描述图像对应的多个属性标签的概率值;属性标签扩充模块,用于将多个属性标签中满足预设条件的属性标签加入商品的属性标签,获得商品的至少一个属性标签,预设条件为属性标签的概率值大于预设阈值。
可选地,在本申请实施例中,图像文本获得模块,具体用于将商品的至少一个属性标签确定为描述图像对应的描述文本。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的标签扩充方法的流程示意图;
图2示出的本申请实施例提供的对图像特征和文本特征进行融合的示意图;
图3示出的本申请实施例提供的扩充商品的属性标签和类别标签的示意图;
图4示出的本申请实施例提供的标签扩充装置的结构示意图;
图5示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例提供的标签扩充方法之前,先介绍本申请实施例中所涉及的一些概念:
标签(label),是指对商品进行标记或者标注的信息,本申请实施例中标签可以包括类别标签和属性标签。其中,类别标签是指商品的分类信息标签,具体例如:婴儿床的类别是婴儿用品,则可以将婴儿床的类别标签设置为婴儿用品,但同时婴儿床也是家具类,因此,婴儿床的类别标签可以包括:婴儿用品和家具;属性标签是指商品的某个属性信息的标签,具体例如:衣服作为一件商品,衣服的品牌、材质、袖长和形状等等信息都可以作为衣服的属性标签;当商品的标签不充分时,用户可能通过某些类别找不到该商品,因此为了便于用户通过更多的类别标签或属性标签找到商品下单,需要对商品的类别标签和属性标签进行扩充。
卷积神经网络(Convolutional Neural Networks,CNN),又被简称为卷积网络,是一种人工神经网络,人工神经网络的人工神经元可以响应周围单元,可以进行大型图像处理;卷积神经网络可以包括卷积层和池化层。
长短期记忆(Long Short-Term Memory,LSTM)网络,是一种时间递归神经网络,也是一种循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要特征。
双向长短记忆(Bidirectional Long Short-Term Memor,Bi-LSTM)网络,是指一种与LSTM类似的神经网络结构,这里的Bi-LSTM模型相比与LSTM模型来说,区别在于不同于LSTM模型隐藏层的单向传播,Bi-LSTM模型包含两个相互独立的隐藏层,这里的两个相互独立的隐藏层就是前向LSTM网络和后向LSTM网络,前向LSTM网络传播方向和后向LSTM网络的传播方向是相反的。
需要说明的是,本申请实施例提供的标签扩充方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器等等电子设备,设备终端例如:智能手机、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personaldigital assistant,PDA)、移动上网设备(mobile Internet device,MID)、网络交换机或网络路由器等。
在介绍本申请实施例提供的标签扩充方法之前,先介绍该标签扩充方法适用的应用场景,这里的应用场景包括但不限于:电子商务领域和智能超市等等领域,使用该标签扩充方法对电子商务平台中商品的类别标签进行扩充,或者使用该标签扩充方法增加用户对商品搜索的准确度,以提高商品搜索效果和根据类别浏览商品的效果等。
请参见图1示出的本申请实施例提供的标签扩充方法的流程示意图;该标签扩充方法的主要思路是,先将商品对应描述图像的图像特征和该描述图像对应描述文本的文本特征进行融合,获得融合特征;再根据多个类别标签中的每个类别标签与融合特征的相似程度来扩充商品图像的类别标签;也就是说,通过将图像特征和文本特征进行跨模态融合获得的融合特征,来扩充商品的类别标签,提高了确定商品图像的类别标签的正确率,从而避免了人工地对商品的类别标签进行扩充导致容易出错的情况,有效地提高了对商品的类别标签进行扩充的效率;上述的标签扩充方法可以包括:
步骤S110:获得待扩充标签的商品对应的描述图像,并获取描述图像对应的描述文本。
描述图像,是指描述商品信息的图像,商品信息具体例如:功能、材质、尺寸、外观形状、使用方法和注意事项等等;其中,一个商品可以有多个描述图像,一个描述图像可以有一个或者多个描述文本,描述文本用于解释描述图像中的商品信息。
上述步骤S110中描述图像的获得方式有很多种,包括但不限于这几种:第一种获得方式,使用摄像机、录像机或彩色照相机等终端设备对目标商品进行拍摄,获得描述图像;然后该终端设备向电子设备发送描述图像,然后电子设备接收终端设备发送的描述图像,电子设备可以将描述图像存储至文件系统、数据库或移动存储设备中;第二种获得方式,获取预先存储的描述图像,具体例如:从文件系统中获取描述图像,或者从数据库中获取描述图像,或者从移动存储设备中获取描述图像;第三种获得方式,使用浏览器等软件获取互联网上的描述图像,或者使用其它应用程序访问互联网获得描述图像。
上述步骤S110中的获取描述图像对应的描述文本的实施方式包括:第一种实施方式,从数据库、文件系统或者列式数据库中获取描述图像与描述文本的映射关系,根据该映射关系获取描述图像对应的一个或者多个描述文本。第二种实施方式,使用神经网络模型识别描述图像的商品、广告或者事件等文本信息,将这些文本信息确定为描述文本;此处可以使用的神经网络模型包括但不限于:深度神经网络(Deep Neural Networks,DNN),可以使用的深度神经网络包括:VGG网络、Resnet网络、Wide Resnet网络和Inception网络等等。第三种实施方式,使用神经网络模型对描述图像对应商品的属性标签进行预测,获得商品的属性标签,然后将商品的属性标签确认为描述文本,该实施方式由于涉及到扩充属性标签,因此将在下面的步骤S140之后,详细地描述该实施方式。
在步骤S110之后,执行步骤S120:提取描述图像的图像特征和描述文本的文本特征。
请参见图2示出的本申请实施例提供的对图像特征和文本特征进行融合的示意图;上述的步骤S120有很多种实施方式,包括但不限于如下几种:
第一种实施方式,使用相同的神经网络模型提取描述图像中的特征和描述文本中的特征,该实施方式可以包括:
步骤S121:使用卷积网络模型提取描述图像的图像特征,并使用卷积网络模型提取描述文本的文本特征。
上述步骤S121的实施方式例如:使用卷积网络(CNN)模型提取描述图像的图像特征,并继续使用该卷积网络(CNN)模型提取描述文本的文本特征;其中,可以使用的卷积神经网络例如:LeNet网络模型、AlexNet网络模型、VGG网络模型、GoogLeNet网络模型和ResNet网络模型等等。
第二种实施方式,使用不相同的神经网络模型分别提取描述图像中的特征和描述文本中的特征,该实施方式可以包括:
步骤S122:使用卷积网络模型提取描述图像的图像特征,并使用长短期记忆网络模型或者双向长短记忆网络模型提取描述文本的文本特征。
上述步骤S122的实施方式例如:使用卷积网络(CNN)模型提取描述图像的图像特征,并使用长短期记忆(LSTM)网络模型、文本卷积网络层(Text-CNN)模型或者双向长短记忆(Bi-LSTM)网络模型提取描述文本的文本特征;其中,由于CNN能够更好地提取出描述图像中的颜色、纹理、形状和空间关系等等图像特征,因此,使用CNN提取的图像特征来扩充商品的类别标签,能够让类别标签体现出图像中的语义信息,从而提高对商品的类别标签进行扩充的正确率。上述的文本卷积网络层(Text-CNN)是一种利用卷积神经网络对文本进行分类的算法,是由Yoon Kim在《卷积神经网络在句子分类中的应用》文章中提出的算法;由于Text-CNN更擅长提取文本数据中的特征,因此,使用Text-CNN提取出描述文本的文本特征来扩充商品的类别标签,能够让类别标签体现出描述文本中的语义信息,从而提高对商品的类别标签进行扩充的正确率。
第三种实施方式,使用传统的图像特征提取算法提取描述图像中的特征,并使用神经网络模型提取描述文本中的特征,该传统的图像特征提取算法可以包括:降噪、二值化、锐化、提取边缘和寻找直线等算法,此处的神经网络模型包括但不限于:CNN模型、LSTM模型和Bi-LSTM模型等。
在步骤S120之后,执行步骤S130:将图像特征和文本特征进行融合,获得融合特征。
上述步骤S130中的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,使用融合网络模型中的卷积层和全连接层对特征进行映射和融合处理,该实施方式包括:
步骤S131:使用融合网络模型中的第一卷积层提取图像特征对应的图像映射特征,并使用融合网络模型中的第二卷积层提取文本特征对应的文本映射特征。
映射特征,是指映射至共同特征空间的特征向量,映射特征获得过程具体例如:将图片特征和文本特征映射到一个共同特征空间中,从而在映射后,获得在一个共同特征空间的特征向量,使用融合网络模型中的第一卷积层从共同特征空间中提取图像特征对应的图像映射特征,并使用融合网络模型中的第二卷积层从共同特征空间中提取文本特征对应的文本映射特征;因此,上述的图像映射特征就是映射在共同特征空间中的图像特征,上述的文本映射特征就是映射在共同特征空间中的文本特征。
上述步骤S131的实施方式例如:使用融合网络模型中的第一卷积层提取图像特征对应的图像映射特征,并使用融合网络模型中的第二卷积层提取文本特征对应的文本映射特征;其中,第一卷积层也可以理解为图像映射层,主要用于将图像特征映射至上述的共同特征空间中,从而获得图像映射特征;第二卷积层也可以理解为文本映射层,主要用于将文本特征映射至上述的共同特征空间中,从而获得文本映射特征。
步骤S132:使用融合网络模型中的全连接层对图像映射特征和文本映射特征进行融合,获得融合特征。
上述步骤S132的实施方式例如:使用融合网络模型中的全连接层对图像映射特征和文本映射特征进行多模态映射融合,从而获得融合特征,其中,此处的多模态包括:描述图像中表征视觉信息的图像特征和描述文本中表征语义信息的文本特征;上述的融合网络模型也可以看作多模态映射的端到端深度卷积神经网络模型,该网络模型的主要作用是将图像中提取出的图像特征和文本中提取出的文本特征进行跨模态融合,从而获得可以用于分类的融合特征。
第二种实施方式,可以采用均值融合或者加权平均融合的方式将图像特征和文本特征进行融合,获得融合特征;具体例如:如果图像特征和文本特征的尺寸不一致,可以使用插值算法对图像特征或者文本特征中尺寸较小的特征进行计算,从而使得图像特征和文本特征的尺寸一致,然后采用均值融合或者加权平均融合的方式将图像特征和文本特征进行融合;其中,可以采用的插值算法包括:最近邻插值算法、双线性插值算法和双三次插值算法等。
在步骤S130之后,执行步骤S140:根据多个类别标签中的每个类别标签与融合特征的相似程度,扩充商品的类别标签。
上述步骤S140中的实施方式可以包括如下步骤:
步骤S141:判断多个类别标签中的每个类别标签与融合特征的相似程度是否大于预设相似度阈值。
上述步骤S141的实施方式例如:先根据量化相似度指标来计算多个类别标签中的每个类别标签与融合特征的相似程度,然后再判断该相似程度是否大于预设相似度阈值;其中,预设相似度阈值可以根据具体情况设置,具体例如:可以将预设相似度阈值设置为70%、80%或者90%;上述的量化相似度指标例如:余弦距离、欧氏距离(EuclideanDistance)、汉明距离(Hamming Distance)或信息熵(Information Entropy)等等;当然,在实践过程中,也可以选择多种组合加权参数等复杂模式来计算相似度。
步骤S142:若类别标签与融合特征的相似程度不大于预设相似度阈值,则将描述图像和类别标签加入待确认列表。
上述步骤S142的实施方式例如:同理地,也需要对衣服类别做上述的计算相似度,并根据相似度确定是否加入商品的类别标签的操作,具体例如:假设所有类别标签只有两个类别标签:家具和衣服,且预设相似度为80%;如果衣服与婴儿车的融合特征的相似度为40%,那么可以确定衣服与婴儿车的融合特征的相似程度40%是不大于预设相似度阈值80%的,因此,可以将相似程度40%对应的类别标签“衣服”加入待确认列表,从而让网站工作人员根据待确认列表中的数据自行判断和确认是否将加商品的类别标签中。
在上述的实现过程中,通过若类别标签与融合特征的相似程度不大于预设相似度阈值,则将描述图像和类别标签加入待确认列表;从而让人工来确认待确认列表中的类别标签是否需要加入融合特征对应的商品类别标签,有效地保证了类别标签扩充的正确率。
步骤S143:若类别标签与融合特征的相似程度大于预设相似度阈值,则将相似程度对应的类别标签加入商品的类别标签。
上述步骤S143的实施方式例如:假设所有类别标签只有两个类别标签:家具和衣服,且预设相似度为80%;如果家具与婴儿车的融合特征的相似度为90%,且衣服与婴儿车的融合特征的相似度为40%,那么可以确定家具与婴儿车的融合特征的相似程度90%是大于预设相似度阈值80%的,因此,可以将相似程度90%对应的类别标签“家具”加入“婴儿车”的类别标签。
在上述的实现过程中,先将商品对应描述图像的图像特征和该描述图像对应描述文本的文本特征进行融合,获得融合特征;再根据多个类别标签中的每个类别标签与融合特征的相似程度来扩充商品图像的类别标签;也就是说,通过将图像特征和文本特征进行跨模态融合获得的融合特征,来扩充商品的类别标签,提高了类别标签与融合特征的匹配率,同时提高了确定商品图像的类别标签的正确率,从而避免了人工地对商品的类别标签进行扩充导致容易出错的情况,有效地提高了对商品的类别标签进行扩充的效率。
请参见图3示出的本申请实施例提供的扩充商品的属性标签和类别标签的示意图;可选地,在本申请实施例中,还可以对商品的属性标签进行扩充,对商品的属性标签进行扩充的具体过程可以包括:
步骤S210:使用神经网络模型预测描述图像对应的多个属性标签的概率值。
上述步骤S210的实施方式例如:使用神经网络模型预测描述图像对应的多个属性标签的概率值,其中,神经网络模型包括:特征提取网络和分类网络,特征提取网络可以采用卷积神经网络(CNN),分类网络可以采用全连接层和归一化指数函数(Softmax)层等。
步骤S220:将多个属性标签中满足预设条件的属性标签加入商品的属性标签,获得商品的至少一个属性标签,预设条件为属性标签的概率值大于预设阈值。
上述步骤S220的实施方式例如:假设商品是衣服,预设阈值为80%,衣服对应的多个属性标签包括:长袖、短袖、衬衣和西服等;长袖对应的概率值为85%,且短袖对应的概率值为15%,衬衣对应的概率值为90%,西服对应的概率值是60%;那么可以得知,上面长袖和衬衣对应的概率值是超过预设阈值80%的,因此可以将长袖和衬衣这两个属性标签加入商品的属性标签中,从而获得商品需要扩充的两个属性标签。
在上述的实现过程中,通过使用神经网络模型预测描述图像对应的多个属性标签的概率值,并将多个属性标签中的概率值大于预设阈值的属性标签加入商品的属性标签;从而有效地扩充了商品的属性标签。
可选地,在本申请实施例中,还可以将上述商品的属性标签作为描述图像对应的描述文本,从而更好地扩充商品的类别标签,即属性标签作为描述文本来扩充商品类别标签的过程可以包括如下步骤:
步骤S230:获得待扩充标签的商品对应的描述图像,并获取描述图像的属性标签,然后将商品的属性标签确定为描述图像对应的描述文本。
上述步骤S230中的获得待扩充标签的商品对应的描述图像的实施方式与步骤S110的实施原理和实施方式是类似的,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对步骤S110的描述。
上述步骤S230中的获取描述图像的属性标签,然后将商品的属性标签确定为描述图像对应的描述文本的实施方式可以包括:
步骤S231:使用神经网络模型预测描述图像对应的多个属性标签的概率值。
步骤S232:将多个属性标签中满足预设条件的属性标签加入商品的属性标签,获得商品的至少一个属性标签。
其中,上述步骤S231至步骤S232的实施原理和实施方式与步骤S210至步骤S220的实施原理和实施方式是类似的,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对步骤S210至步骤S220的描述。
步骤S233:将商品的至少一个属性标签确定为描述图像对应的描述文本。
步骤S240:提取描述图像的图像特征和描述文本的文本特征。
步骤S250:将图像特征和文本特征进行融合,获得融合特征。
步骤S260:根据多个类别标签中的每个类别标签与融合特征的相似程度,扩充商品的类别标签。
其中,上述步骤S240至步骤S260的实施原理和实施方式与步骤S120至步骤S140的实施原理和实施方式是类似的,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对步骤S120至步骤S140的描述。
在上述的实现过程中,通过将商品的至少一个属性标签确定为描述图像对应的描述文本,并根据属性标签确定的描述文本扩充商品的类别标签;从而提高描述文本与商品类别标签的相关性,有效地提高了扩充商品的类别标签的准确率。
可以理解的是,在第一次使用上述神经网络模型之前,还需要对上面提到的神经网络模型进行训练,神经网络模型可以包括:融合网络模型和提取图像特征的卷积网络模型,以及提取文本特征的卷积神经网络模型、长短期记忆网络模型或者双向长短记忆网络模型;其中,融合网络模型可以与提取图像特征的模型和提取文本特征的模型一起训练,也可以分开训练,下面以一起训练为例进行说明。
上述的提取图像特征的模型可以是卷积神经网络模型,上述的提取文本特征的模型可以是卷积神经网络模型、长短期记忆网络模型或者双向长短记忆网络模型;其中,提取图像特征的模型的训练数据可以从电商平台对应的图像库中获取训练图像作为训练数据;提取文本特征的模型可以从电商平台对应的标签数据库中获取训练文本作为训练数据,此处的训练文本可以包括商品对应的属性标签,具体例如:将商品对应的描述信息和属性标签共同作为训练文本。当然,在具体的实践过程中,上述的训练图像可以从电商平台的服务器上获取,也可以使用爬虫工具在电商平台网站上抓取商品图像和商品图像对应的属性标签和分类标签等信息。
在获得模型的训练数据后,可以将训练图像中提取的图像特征和训练文本中提取的文本特征作为融合网络模型的训练数据,并将商品的类别标签作为训练标签,对融合网络模型、提取图像特征的模型和提取文本特征的模型一起训练;其中,使用融合网络模型、提取图像特征的模型和提取文本特征的模型对训练图像和训练文本进行预测,获得预测标签,并根据预设损失函数计算预测标签和类别标签的损失值,从而根据该损失值更新融合网络模型、提取图像特征的模型和提取文本特征的模型的权重参数,直到权重参数逐渐收敛的状态时,即可获得训练后的融合网络模型、提取图像特征的模型和提取文本特征的模型。
在上述模型的具体训练过程中,还可以对模型进行微调,具体例如:在整理商品的属性标签时常常发现,同一件商品的多个属性标签之间可能存在互斥关系或者约束关系,具体例如:一件上衣含有袖长的属性,确定不可能存在裤长属性标签。如果将上面获得的训练数据中的属性标签作为训练文本,那么可以在属性标签之间添加互斥关系或者约束关系,具体的操作例如:在上述计算损失值的过程中,将约束函数加入神经网络,或者在神经网络中设置抑制函数等;也就是说,按照概率值选择可能性比较大的属性,与此属性同属于一个类别范畴的属性对应计算损失值(loss)时赋予较大的权重,相反地,具有排斥关系的类别或者属性损失权重降低;从而使得加入互斥关系或者约束关系后的神经网络能够更好地扩充属性标签,提高扩充属性标签的准确率。
请参见图4示出的本申请实施例提供的标签扩充装置的结构示意图;本申请实施例提供了一种标签扩充装置300,包括:
图像文本获得模块310,用于获得待扩充标签的商品对应的描述图像,并获取描述图像对应的描述文本。
描述特征提取模块320,用于提取描述图像的图像特征和描述文本的文本特征。
融合特征获得模块330,用于将图像特征和文本特征进行融合,获得融合特征。
类别标签扩充模块340,用于根据多个类别标签中的每个类别标签与融合特征的相似程度,扩充商品的类别标签。
可选地,在本申请实施例中,描述特征提取模块,具体可以用于:使用卷积网络模型提取描述图像的图像特征,并使用卷积网络模型提取描述文本的文本特征;或者,使用卷积网络模型提取描述图像的图像特征,并使用长短期记忆网络模型提取描述文本的文本特征。
可选地,在本申请实施例中,融合特征获得模块,包括:
映射特征提取模块,用于使用融合网络模型中的第一卷积层提取图像特征对应的图像映射特征,并使用融合网络模型中的第二卷积层提取文本特征对应的文本映射特征,映射特征是映射至共同特征空间的特征向量。
映射特征融合模块,用于使用融合网络模型中的全连接层对图像映射特征和文本映射特征进行融合。
可选地,在本申请实施例中,类别标签扩充模块,包括:
相似程度判断模块,用于判断每个类别标签与融合特征的相似程度是否大于预设相似度阈值。
类别标签加入模块,用于若每个类别标签与融合特征的相似程度大于预设相似度阈值,则将相似程度对应的类别标签加入商品的类别标签。
可选地,在本申请实施例中,类别标签扩充模块,还包括:
确认列表加入模块,用于若类别标签与融合特征的相似程度不大于预设相似度阈值,则将描述图像和类别标签加入待确认列表。
可选地,在本申请实施例中,标签扩充装置,还包括:
网络模型预测模块,用于使用神经网络模型预测描述图像对应的多个属性标签的概率值。
属性标签扩充模块,用于将多个属性标签中满足预设条件的属性标签加入商品的属性标签,获得商品的至少一个属性标签,预设条件为属性标签的概率值大于预设阈值。
可选地,在本申请实施例中,图像文本获得模块,具体可以用于将商品的至少一个属性标签确定为描述图像对应的描述文本。
应理解的是,该装置与上述的标签扩充方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种存储介质430,该存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。
其中,存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以使用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (10)

1.一种标签扩充方法,其特征在于,包括:
获得待扩充标签的商品对应的描述图像,并获取所述描述图像对应的描述文本;
提取所述描述图像的图像特征和所述描述文本的文本特征;
将所述图像特征和所述文本特征进行融合,获得融合特征;
根据多个类别标签中的每个类别标签与所述融合特征的相似程度,扩充所述商品的类别标签。
2.根据权利要求1所述的方法,其特征在于,所述提取所述描述图像的图像特征和所述描述文本的文本特征,包括:
使用卷积网络模型提取所述描述图像的图像特征,并使用所述卷积网络模型提取所述描述文本的文本特征;
或者,使用卷积网络模型提取所述描述图像的图像特征,并使用长短期记忆网络模型提取所述描述文本的文本特征。
3.根据权利要求1所述的方法,其特征在于,所述将所述图像特征和所述文本特征进行融合,包括:
使用融合网络模型中的第一卷积层提取所述图像特征对应的图像映射特征,并使用所述融合网络模型中的第二卷积层提取所述文本特征对应的文本映射特征,所述映射特征是映射至共同特征空间的特征向量;
使用所述融合网络模型中的全连接层对所述图像映射特征和所述文本映射特征进行融合。
4.根据权利要求1所述的方法,其特征在于,所述根据多个类别标签中的每个类别标签与所述融合特征的相似程度,扩充所述商品的类别标签,包括:
判断所述每个类别标签与所述融合特征的相似程度是否大于预设相似度阈值;
若是,则将所述相似程度对应的类别标签加入所述商品的类别标签。
5.根据权利要求4所述的方法,其特征在于,在所述判断所述每个类别标签与所述融合特征的相似程度是否大于预设相似度阈值之后,还包括:
若所述类别标签与所述融合特征的相似程度不大于所述预设相似度阈值,则将所述描述图像和所述类别标签加入待确认列表。
6.根据权利要求1-5任一所述的方法,其特征在于,还包括:
使用神经网络模型预测所述描述图像对应的多个属性标签的概率值;
将所述多个属性标签中满足预设条件的属性标签加入所述商品的属性标签,获得所述商品的至少一个属性标签,所述预设条件为所述属性标签的概率值大于预设阈值。
7.根据权利要求6所述的方法,其特征在于,所述获取所述描述图像对应的描述文本,包括:
将所述商品的至少一个属性标签确定为所述描述图像对应的描述文本。
8.一种标签扩充装置,其特征在于,包括:
图像文本获得模块,用于获得待扩充标签的商品对应的描述图像,并获取所述描述图像对应的描述文本;
描述特征提取模块,用于提取所述描述图像的图像特征和所述描述文本的文本特征;
融合特征获得模块,用于将所述图像特征和所述文本特征进行融合,获得融合特征;
类别标签扩充模块,用于根据多个类别标签中的每个类别标签与所述融合特征的相似程度,扩充所述商品的类别标签。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
CN202011461974.1A 2020-12-09 2020-12-09 一种标签扩充方法、装置、电子设备及存储介质 Pending CN112507150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011461974.1A CN112507150A (zh) 2020-12-09 2020-12-09 一种标签扩充方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011461974.1A CN112507150A (zh) 2020-12-09 2020-12-09 一种标签扩充方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112507150A true CN112507150A (zh) 2021-03-16

Family

ID=74973866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011461974.1A Pending CN112507150A (zh) 2020-12-09 2020-12-09 一种标签扩充方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112507150A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076755A (zh) * 2021-04-14 2021-07-06 京东数字科技控股股份有限公司 关键词提取方法、装置、设备和存储介质
CN116152817A (zh) * 2022-12-30 2023-05-23 北京百度网讯科技有限公司 信息处理方法、装置、设备、介质和程序产品
CN116563573A (zh) * 2023-01-12 2023-08-08 北京爱咔咔信息技术有限公司 一种商品与价签的匹配方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180032845A1 (en) * 2016-07-26 2018-02-01 Viisights Solutions Ltd. Video content contextual classification
CN107784372A (zh) * 2016-08-24 2018-03-09 阿里巴巴集团控股有限公司 目标对象属性的预测方法、装置和系统
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN111126514A (zh) * 2020-03-30 2020-05-08 同盾控股有限公司 图像多标签分类方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180032845A1 (en) * 2016-07-26 2018-02-01 Viisights Solutions Ltd. Video content contextual classification
CN107784372A (zh) * 2016-08-24 2018-03-09 阿里巴巴集团控股有限公司 目标对象属性的预测方法、装置和系统
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN111126514A (zh) * 2020-03-30 2020-05-08 同盾控股有限公司 图像多标签分类方法、装置、设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076755A (zh) * 2021-04-14 2021-07-06 京东数字科技控股股份有限公司 关键词提取方法、装置、设备和存储介质
CN113076755B (zh) * 2021-04-14 2024-04-09 京东科技控股股份有限公司 关键词提取方法、装置、设备和存储介质
CN116152817A (zh) * 2022-12-30 2023-05-23 北京百度网讯科技有限公司 信息处理方法、装置、设备、介质和程序产品
CN116152817B (zh) * 2022-12-30 2024-01-02 北京百度网讯科技有限公司 信息处理方法、装置、设备、介质和程序产品
CN116563573A (zh) * 2023-01-12 2023-08-08 北京爱咔咔信息技术有限公司 一种商品与价签的匹配方法、装置、设备及存储介质
CN116563573B (zh) * 2023-01-12 2023-10-13 北京爱咔咔信息技术有限公司 一种商品与价签的匹配方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11978106B2 (en) Method and non-transitory, computer-readable storage medium for deep learning model based product matching using multi modal data
EP3267362B1 (en) Machine learning image processing
CN112507150A (zh) 一种标签扩充方法、装置、电子设备及存储介质
US11568315B2 (en) Systems and methods for learning user representations for open vocabulary data sets
US20190080207A1 (en) Deep neural network visual product recognition system
Liu et al. Fashion landmark detection in the wild
WO2018040944A1 (zh) 恶意地址/恶意订单的识别系统、方法及装置
CN111488475A (zh) 图像检索方法、装置、电子设备及计算机可读存储介质
CN111681059A (zh) 行为预测模型的训练方法及装置
Alam et al. Unified learning approach for egocentric hand gesture recognition and fingertip detection
CN109492576B (zh) 图像识别方法、装置及电子设备
CN113761219A (zh) 基于知识图谱的检索方法、装置、电子设备及存储介质
CN115982463A (zh) 资源推荐方法、装置、设备及存储介质
CN108389113B (zh) 一种协同过滤推荐方法和系统
CN115641179A (zh) 信息推送方法、装置及电子设备
Lodkaew et al. Fashion finder: A system for locating online stores on instagram from product images
CN112395398A (zh) 问答处理方法、装置、设备
CN116129523A (zh) 动作识别方法、装置、终端及计算机可读存储介质
CN114329016B (zh) 图片标签生成方法和文字配图方法
WO2020185226A1 (en) Deep neural network visual and contextual image labeling system
CN116129179A (zh) 跨模态模型的训练方法及装置、电子设备、存储介质
Kim et al. Object tracking and recognition based on reliability assessment of learning in mobile environments
US20230044463A1 (en) System and method for locating products
Kalra et al. Computer vision based personalized clothing assistance system: A proposed model
CN116051132B (zh) 一种违规商品识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination