CN109522424A - 数据的处理方法、装置、电子设备及存储介质 - Google Patents

数据的处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109522424A
CN109522424A CN201811204512.4A CN201811204512A CN109522424A CN 109522424 A CN109522424 A CN 109522424A CN 201811204512 A CN201811204512 A CN 201811204512A CN 109522424 A CN109522424 A CN 109522424A
Authority
CN
China
Prior art keywords
label
sample
description information
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811204512.4A
Other languages
English (en)
Other versions
CN109522424B (zh
Inventor
张志伟
李铅
郑仲奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201811204512.4A priority Critical patent/CN109522424B/zh
Publication of CN109522424A publication Critical patent/CN109522424A/zh
Application granted granted Critical
Publication of CN109522424B publication Critical patent/CN109522424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据的处理方法、装置、电子设备及存储介质,包括:通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集,获取第二样本集中的未标注已有标签的目标样本;获取针对目标样本设置的描述信息;将描述信息与标签库包括的标签进行相似度计算,确定与描述信息的相似度最高的标签为新标签;通过新标签对第二样本集中的目标样本进行标注,得到包括目标样本以及目标样本对应的新标签的第三样本集。本申请通过将未标注已有标签的目标样本对应的描述信息与标签库包括的标签进行相似度计算,确定相似度最高的新标签对目标样本进行二次标注,完善了标签分类体系,提高了对多媒体样本的分类精度。

Description

数据的处理方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种数据的处理方法、装置、电子设备及存储介质。
背景技术
近来,随着深度学习技术在多媒体样本分类处理等相关领域的广泛应用,使得移动终端的应用开发出来很多的多媒体视频样本分类功能,具体为对多媒体样本分配对应的标签,达到样本的分类效果,优化了应用的信息展示、推荐等功能,提高了用户体验度。
相关技术中,在通过包括多媒体样本的数据集训练标签分类模型时,只能给出多媒体样本基于标签分类模型中已有的标签的概率,进行已有标签的标注,例如,使用一个只包括“猫”和“狗”的数据集训练的标签分类模型,当对一个“猴”的图像进行预测时,只能给出图像属于“猫”或者“狗”的概率。在一种实现方式中,对于未分配到标签的多媒体样本,则可以统一打上“其他”标签,将其划分到其他分类。
但是,目前方案中,随着时间的推进,数据集会不断的添加用户上传的各种多媒体样本,而某些新增的样本可能不匹配标签分类模型中已有的标签,单纯的对这些样本添加“其他”标签或不添加标签,会造成多媒体样本分类精度下降的问题。
发明内容
本申请实施例提供一种数据的处理方法、装置、电子设备及存储介质,以解决相关技术中造成多媒体样本分类精度下降的问题。
第一方面,本申请实施例提供了一种数据的处理方法,该方法包括:
通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集;
获取所述第二样本集中的未标注所述已有标签的目标样本,其中,所述第二样本集中包括标注有所述已有标签的样本和未标注有所述已有标签的样本;
获取针对所述目标样本设置的描述信息;
将所述描述信息与标签库包括的标签进行相似度计算,确定与所述描述信息的相似度最高的标签为新标签;
通过所述新标签对所述第二样本集中的目标样本进行标注,得到包括所述目标样本以及所述目标样本对应的新标签的第三样本集。
可选的,所述标签库包括:词库中的单词和/或所述已有标签,所述词库包括多个用于与所述描述信息进行相似度计算的单词。
可选的,所述将所述描述信息与标签库包括的标签进行相似度计算,确定与所述描述信息的相似度最高的标签为新标签,包括:
将所述描述信息与词库包括的单词进行相似度计算,和/或将所述描述信息与所述已有标签进行相似度计算,确定与所述描述信息的相似度最高的单词或已有标签为新标签。
可选的,所述将所述描述信息与词库包括的单词进行相似度计算,和将所述描述信息与所述已有标签进行相似度计算,确定与所述描述信息的相似度最高的单词或已有标签为新标签,包括:
获取所述描述信息对应的分词集合;
去除所述词库中与所述已有标签匹配的单词;
通过词向量模型获取所述分词集合包括的分词对应的平均词向量,所述词库中单词对应的单词向量,以及所述已有标签对应的标签向量;
计算所述平均词向量与每个所述单词向量之间的向量距离,以及所述平均词向量与每个所述标签向量之间的向量距离;
确定与所述平均词向量的向量距离最小的单词向量为目标单词向量,将所述目标单词向量对应的单词为新标签;
确定与所述平均词向量的向量距离最小的标签向量为目标标签向量,将所述目标标签向量对应的已有标签为新标签。
可选的,所述描述信息包括:描述语句;所述获取所述描述信息对应的分词集合,包括:
通过分词工具对所述描述语句进行分词处理,得到多个分词;
去除所述多个分词中的停用词,得到所述分词集合。
可选的,所述描述信息包括:多个描述词;所述获取所述描述信息对应的分词集合,包括:
去除所述多个描述词中的停用词,得到所述分词集合。
可选的,所述向量距离为夹角余弦距离。
第二方面,本申请实施例提供了一种数据的处理装置,该装置包括:
第一标注模块,用于通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集;
第一获取模块,获取所述第二样本集中的未标注所述已有标签的目标样本,其中,所述第二样本集中包括标注有所述已有标签的样本和未标注有所述已有标签的样本
第二获取模块,用于获取针对所述目标样本设置的描述信息;
确定模块,用于将所述描述信息与标签库包括的标签进行相似度计算,确定与所述描述信息的相似度最高的标签为新标签;
第二标注模块,用于通过所述新标签对所述第二样本集中的目标样本进行标注,得到包括所述目标样本以及所述目标样本对应的新标签的第三样本集。
可选的,所述标签库包括:词库中的单词和/或所述已有标签,所述词库包括多个用于与所述描述信息进行相似度计算的单词。
可选的,所述确定模块包括:
确定子模块,用于将所述描述信息与词库包括的单词进行相似度计算,和/或将所述描述信息与所述已有标签进行相似度计算,确定与所述描述信息的相似度最高的单词或已有标签为新标签。
可选的,所述确定子模块包括:
第一获取单元,用于获取所述描述信息对应的分词集合;
筛选单元,用于去除所述词库中与所述已有标签匹配的单词;
第二获取单元,用于通过词向量模型获取所述分词集合包括的分词对应的平均词向量,所述词库中单词对应的单词向量,以及所述已有标签对应的标签向量;
计算单元,用于分别计算所述平均词向量与每个所述单词向量之间的向量距离,以及所述平均词向量与每个所述标签向量之间的向量距离;
第一确定单元,用于确定与所述平均词向量的向量距离最小的单词向量为目标单词向量,将所述目标单词向量对应的单词为新标签;
第二确定单元,用于确定与所述平均词向量的向量距离最小的标签向量为目标标签向量,将所述目标标签向量对应的已有标签为新标签。
可选的,所述描述信息包括:描述语句;所述第一获取单元,包括:
分词子单元,用于通过分词工具对所述描述语句进行分词处理,得到多个分词;
第一筛选子单元,用于去除所述多个分词中的停用词,得到所述分词集合。
可选的,所述描述信息包括:多个描述词;所述第一获取单元,包括:
第二筛选子单元,用于去除所述多个描述词中的停用词,得到所述分词集合。
可选的,所述向量距离为夹角余弦距离。
第三方面,本申请实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如本申请提供的数据的处理方法的步骤。
第四方面,本申请实施例还提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本申请提供的数据的处理方法的步骤。
第五方面,本申请实施例还提供了一种应用程序,所述应用程序由电子设备的处理器执行时,实现如本申请提供的数据的处理方法的步骤。
在本申请实施例中,可以通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集,获取第二样本集中的未标注已有标签的目标样本;获取针对目标样本设置的描述信息;将描述信息与标签库包括的标签进行相似度计算,确定与描述信息的相似度最高的标签为新标签;通过新标签对第二样本集中的目标样本进行标注,得到包括目标样本以及目标样本对应的新标签的第三样本集。本申请通过将未标注已有标签的目标样本对应的描述信息与标签库包括的标签进行相似度计算,确定相似度最高的新标签对目标样本进行二次标注,完善了标签分类体系,提高了对多媒体样本的分类精度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本申请实施例提供的一种数据的处理方法的步骤流程图;
图2是本申请实施例提供的另一种数据的处理方法的步骤流程图;
图3是本申请实施例提供的一种数据的处理装置的框图;
图4是本申请另一个实施例的电子设备的逻辑框图;
图5是本申请另一个实施例的电子设备的逻辑框图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
图1是本申请实施例提供的一种数据的处理方法的步骤流程图,如图1所示,该方法可以包括:
步骤101,通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集。
多媒体样本是指用户由本地上传至移动终端应用服务器的包含了多媒体信息的样本,移动终端的应用可以对多媒体样本进行处理,将其中的多媒体信息进行展示、发布等处理,多媒体样本可以包括视频样本、图像样本、文本样本、音频样本等多种类型。
在本申请实施例中,多媒体样本可以组成样本集,并通过标签分类模型对该样本集中的样本进行标签标注,以达到分类的目的,在标签分类模型中,可以存在一个标签集合,该集合包括了已有标签,已有标签是通过相应的训练样本对标签分类模型训练得到的,例如,使用一个包括“猫”和“狗”的图像样本集训练的标签分类模型,可以得到输入图像属于“猫”或者“狗”的概率,并在概率大于预设值时,为图像添加“猫”或者“狗”的标签。
步骤102,获取所述第二样本集中的未标注所述已有标签的目标样本,其中,所述第二样本集中包括标注有所述已有标签的样本和未标注有所述已有标签的样本。
但是,随着时间的推移以及移动终端应用的不断更新,样本集中的样本数量会不断增加,而针对标签分类模型种的已有标签集合,将会无法满足不断增加的样本的需求,使得初次标注后的第二样本集中的一些新增样本会未标注已有标签,此时可以将这些样本确定为目标样本,以便进行后续的二次标注。
例如,在一个包括“猫”和“狗”的图像样本集训练的标签分类模型中,若用户新上传了一个“兔”的图像样本,此时基于已有标签分类模型,无法给出该“兔”的图像样本关于“兔”的概率,只能给出其属于“猫”或者“狗”的概率,或者为“兔”的图像样本打上“其他”的标签,造成了分类精度下降,此时可以将“兔”的图像样本确定为目标样本,进一步进行二次标注,为其添加“兔”的标签,并将“兔”的标签添加进标签分类模型中的已有标签集合。
步骤103、获取针对所述目标样本设置的描述信息。
在该步骤中,在确定了未标注已有标签的目标样本后,可以进一步获取针对目标样本设置的描述信息,该描述信息可以为针对目标样本的一段描述语句或至少一个描述词,描述信息的获取可以通过将目标样本导入注意力机制模型,通过注意力机制模型对目标样本的特征的分析,输出对应的描述信息,也可以通过网络数据库,模糊查询与目标样本相似的样本,并将该相似样本的关联信息确定为目标样本的描述信息,如通过浏览器的图像识别功能,查找与图像目标样本相似的图像,并将该图像的标题、摘要等信息确定为图像目标样本的描述信息。
进一步的,也可以由标注人员写一句话对样本进行描述或者提供多个词语对样本进行描述信息的添加,例如,当存在未标注已有标签的目标样本时,可以将该目标样本发送给客户端,由客户端提示用户进行描述信息的添加,并在用户添加后,将描述信息反馈给应用服务器。
例如,针对样本集中新增的“兔”的图像样本,可以对应设置相应的描述信息为“这是一只小兔子”,或“安哥拉兔”、“长毛兔”等。
步骤104、将所述描述信息与标签库包括的标签进行相似度计算,确定与所述描述信息的相似度最高的标签为新标签。
可选的,标签库包括:词库中的单词和/或所述已有标签,所述词库包括多个用于与所述描述信息进行相似度计算的单词。
在本申请实施例中,词库是词语资料的集合,存贮于数据库中以备特定的程序检索调用,在计算机技术领域中,通过电子词典库存储词语资料,并通过相应的接口对外开放,通过调用电子词典库的接口,可以获取词库中包括的单词和/或已有标签作为标签库中的标签,本申请实施例对词库的语言种类不作限定。
需要说明的是,在一些实现方式中,标签库还可以包括其他来源的多媒体信息作为其中用于与描述信息进行相似度计算的标签,如,标签库可以包括其他样本集中的标签,或包括互联网中搜索和关联到的一些标签等。
可选的,步骤104还可以包括:
步骤1041、将所述描述信息与词库包括的单词进行相似度计算,和/或将所述描述信息与所述已有标签进行相似度计算,确定与所述描述信息的相似度最高的单词或已有标签为新标签。
具体的,描述信息和已有标签都可以为文本信息,因此可以通过将描述信息与词库包括的单词进行相似度计算,确定与描述信息的相似度最高的单词为新标签,和/或将描述信息与已有标签进行相似度计算,确定与描述信息的相似度最高的已有标签为新标签。
优选的,本发明实施例可以将描述信息与词库包括的单词进行相似度计算,和将所述描述信息与已有标签进行相似度计算,以提高新标签匹配过程的精度,在一些其他场景中,本发明实施例也可以仅将描述信息与词库包括的单词进行相似度计算,确定与描述信息的相似度最高的单词为新标签。同理,本发明实施例也可以将描述信息与已有标签进行相似度计算,确定与描述信息的相似度最高的已有标签为新标签。本发明实施例对此不作限定。
在优选方案中,当同时计算描述信息与词库包括的单词和已有标签的相似度时,则先确定相似度最高的是否为已有标签,若是,则将该已有标签作为新标签对目标样本进行标注,若不是,则将相似度最高的单词作为新标签对目标样本进行标注。
相似度是两个对象之间关联性的一种描述,相似度越高,说明两个对象之间的关系越紧密,在本申请实施例中,可以通过计算两个对象之间的向量距离,来确定相似度,向量距离越小,说明两个对象之间的相似度越高,因此,可以提取描述信息、已有标签、单词的向量特征,并通过计算向量特征之间的向量距离,从而确定描述信息与词库包括的单词和/或已有标签的相似度。需要说明的是,也可以仅将描述信息与词库包括的单词进行相似度计算,确定与描述信息的相似度最高的单词,或仅将描述信息与已有标签进行相似度计算,确定与描述信息的相似度最高的已有标签,本申请实施例对此不作限定。
例如,针对样本集中新增的“兔”的图像样本,对应设置了“安哥拉兔”、“长毛兔”的描述信息,通过将“安哥拉兔”、“长毛兔”分别与已有标签以及词库中的单词进行相似度计算,发现“长毛兔”与词库中“兔子”的单词相似度最高,因此可以将“兔子”作为“兔”的图像样本的新标签进行标注。
步骤105、通过所述新标签对所述第二样本集中的目标样本进行标注,得到包括所述目标样本以及所述目标样本对应的新标签的第三样本集。
在确定了目标样本,以及目标样本对应的新标签后,则可以进行二次标注,通过新标签对目标样本进行标注,得到包括目标样本以及目标样本对应的新标签的第三样本集。
此时,第三样本集中对于未分配已有标签的目标样本,也对应设置了准确对较高的新标签,提高了样本分类的精度。同时,新标签也可以添加进标签分类模型中的标签体系,从而进一步完善标签分类模型。
综上所述,本申请实施例提供的一种数据的处理方法,可以通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集,获取第二样本集中的未标注已有标签的目标样本;获取针对目标样本设置的描述信息;将描述信息与标签库包括的标签进行相似度计算,确定与描述信息的相似度最高的标签为新标签;通过新标签对第二样本集中的目标样本进行标注,得到包括目标样本以及目标样本对应的新标签的第三样本集。本申请通过将未标注已有标签的目标样本对应的描述信息与标签库包括的标签进行相似度计算,确定相似度最高的新标签对目标样本进行二次标注,完善了标签分类体系,提高了对多媒体样本的分类精度。
图2是本申请实施例提供的另一种数据的处理方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集。
本步骤的实现方式与上述步骤101的实现过程类似,本申请实施例在此不再详述。
步骤202、获取所述第二样本集中的未标注所述已有标签的目标样本,其中,所述第二样本集中包括标注有所述已有标签的样本和未标注有所述已有标签的样本。
本步骤的实现方式与上述步骤102的实现过程类似,本申请实施例在此不再详述。
步骤203、获取针对所述目标样本设置的描述信息。
本步骤的实现方式与上述步骤103的实现过程类似,本申请实施例在此不再详述。
步骤204、获取所述描述信息对应的分词集合。
在本申请实施例中,若计算描述信息与其他对象之间的相似度,首先先要提取描述信息的分词集合,并进一步提取分词的文本特征,利用该文本特征进行与其他对象的文本特征的向量距离计算,以确定对应的相似度。
可选的,在本申请实施例的一种实现方式中,当描述信息包括:描述语句时,步骤204还可以包括:
步骤2041、通过分词工具对所述描述语句进行分词处理,得到多个分词。
在该实现方式中,若描述信息为描述语句,则可以通过中文分词工具进行对描述语句的分词处理,得到多个分词。
步骤2042、去除所述多个分词中的停用词,得到所述分词集合。
进一步的,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,因此去除多个分词中的停用词,可以提升分词集合的精度,降低无用信息的干扰。
例如,用户在上传一张海边照片时,附加了一段文本:“今天去了海边游泳”,分词后得到“今天”、“去了”、“海边”、“游泳”,可以通过业务规则,确定“今天”、“去了”为停用词,将其进行去除,使得后续进行海边照片分类时,将其划分到“旅游”、“风景”的分类中,提升了分类效率。
可选的,在本申请实施例的另一种实现方式中,当描述信息包括:多个描述词时,步骤204还可以包括:
步骤2043、去除所述多个描述词中的停用词,得到所述分词集合。
在该实现方式中,若描述信息为多个描述词,则可以直接将多个描述词中的停用词进行去除,以提升后续处理的效率。
步骤205、去除所述词库中与所述已有标签匹配的单词。
在该步骤中,词库中通常包括有与已有标签匹配的单词,因此,为了提升词库的使用精度,避免在计算相似度时词库与已有标签发生冲突,可以将词库中与已有标签匹配的单词进行去除,达到实现描述信息与词库、描述信息与已有标签并行处理的目的。
步骤206、通过词向量模型获取所述分词集合包括的分词对应的平均词向量,所述词库中单词对应的单词向量,以及所述已有标签对应的标签向量。
在该步骤中,提取文本信息的特征向量具体可以通过嵌入式神经网络模型实现,嵌入式神经网络模型通常可以包括输入层、嵌入层、隐藏层和输出层。
输入层用于将文本信息分词处理后,输入各个分词后得到的词向量。
嵌入层用于对词向量进行词嵌入处理,具体为,首先初始化一个投影矩阵C(用稠密向量表示)。这个投影矩阵的行数是“维度”,维度假设为500,列数是输入的词向量的大小,假设为4000,矩阵中的权值w是可以事先人为初始化。将输入的词向量都分别乘以投影矩阵C,此时词向量变成了一个500*1的向量。也就是说整一个词嵌入层有500*1*40000维。
隐藏层用于将词嵌入输出的向量输入隐藏层,如果隐藏层有100个神经元,那么权重θ的个数就是500*40000*100,在进行线性转换后输入激励函数tanh,激励函数的输出为隐藏层的输出。
输出层用于输出提取的文本特征,其中,输出层的个数与输入的词的个数相同为40000。从隐藏层输出的向量进过softmax函数转换,就会有40000个输出结果,每个结果是一个向量,对应一个词,向量里是这个词属于每个词的概率。
因此,将文本信息导入嵌入式神经网络模型,可以输出文本信息对应的特征向量。需要说明的是,对于文本信息的特征向量的提取还可以利用其他方式进行,本申请实施例对此不作限定。
以获取分词集合包括的分词对应的平均词向量Vector为例,可以通过以下公式实现:
其中,d为词向量对应的维度,可以根据实际需求设置d的数值,Embeding为嵌入式神经网络模型,#Word_i为分词的个数,i为样本的序号,j为分词的序号。
步骤207、计算所述平均词向量与每个所述单词向量之间的向量距离,以及所述平均词向量与每个所述标签向量之间的向量距离。
可选的,向量距离为夹角余弦距离。
在该步骤中,根据计算得到的分词集合包括的分词对应的平均词向量Vector,词库中单词对应的单词向量Word_Vector以及已有标签对应的标签向量Label_Vector,分别计算Vector与的Word_Vector的向量夹角余弦距离,以及Vector与的Label_Vector的向量夹角余弦距离。
具体的,几何中夹角余弦可用来衡量两个向量方向的差异,而在机器学习中可以借用夹角余弦距离这一概念来衡量样本向量之间的差异。
例如,求两个n维样本点A(x11,x12…x1n)和B(x21,x22…x2n)的夹角余弦,可以使用A与B的夹角余弦来衡量A与B之间的相似程度。
求A与B的夹角余弦可以采用下述公式实现:
其中,夹角余弦cos(θ)的取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,说明两个向量A和B的向量距离越小,A和B的相似度也越高,夹角余弦越小表示两向量的夹角越大,说明两个向量A和B的向量距离越大,A和B相似度也越低。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。
步骤208、确定与所述平均词向量的向量距离最小的单词向量为目标单词向量,将所述目标单词向量对应的单词为新标签。
在该步骤中,若平均词向量与目标单词向量之间的向量距离最小,则确定目标单词向量对应的单词与目标样本的关联程度最高,可以将目标单词向量对应的单词确定为新标签。
步骤209、确定与所述平均词向量的向量距离最小的标签向量为目标标签向量,将所述目标标签向量对应的已有标签为新标签。
在该步骤中,若平均词向量与目标标签向量之间的向量距离最小,则确定目标标签向量对应的已有标签与目标样本的关联程度最高,可以将该已有标签确定为新标签。
步骤210、通过所述新标签对所述第二样本集中的目标样本进行标注,得到包括所述目标样本以及所述目标样本对应的新标签的第三样本集。
本步骤的实现方式与上述步骤105的实现过程类似,本申请实施例在此不再详述。
综上所述,本申请实施例提供的另一种数据的处理方法,可以通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集,获取第二样本集中的未标注已有标签的目标样本;获取针对目标样本设置的描述信息;将描述信息与标签库包括的标签进行相似度计算,确定与描述信息的相似度最高的标签为新标签;通过新标签对第二样本集中的目标样本进行标注,得到包括目标样本以及目标样本对应的新标签的第三样本集。本申请通过将未标注已有标签的目标样本对应的描述信息与标签库包括的标签进行相似度计算,确定相似度最高的新标签对目标样本进行二次标注,完善了标签分类体系,提高了对多媒体样本的分类精度。
图3是本申请实施例提供的一种数据的处理装置的框图,如图3所示,包括:
第一标注模块301,用于通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集;
第一获取模块302,用于获取所述第二样本集中的未标注所述已有标签的目标样本,其中,所述第二样本集中包括标注有所述已有标签的样本和未标注有所述已有标签的样本。
第二获取模块303,用于获取针对所述目标样本设置的描述信息;
确定模块304,用于将所述描述信息与标签库包括的标签进行相似度计算,确定与所述描述信息的相似度最高的标签为新标签;
可选的,所述标签库包括:词库中的单词和/或所述已有标签,所述词库包括多个用于与所述描述信息进行相似度计算的单词。
可选的,确定模块304包括:
确定子模块,用于将所述描述信息与词库包括的单词进行相似度计算,和/或将所述描述信息与所述已有标签进行相似度计算,确定与所述描述信息的相似度最高的单词或已有标签为新标签。
可选的,确定子模块包括:
第一获取单元,用于获取所述描述信息对应的分词集合;
可选的,所述描述信息包括:描述语句;第一获取单元,包括:
分词子单元,用于通过分词工具对所述描述语句进行分词处理,得到多个分词;
第一筛选子单元,用于去除所述多个分词中的停用词,得到所述分词集合。
可选的,所述描述信息包括:多个描述词;第一获取单元,包括:
第二筛选子单元,用于去除所述多个描述词中的停用词,得到所述分词集合。
筛选单元,用于去除所述词库中与所述已有标签匹配的单词;
第二获取单元,用于通过词向量模型获取所述分词集合包括的分词对应的平均词向量,所述词库中单词对应的单词向量,以及所述已有标签对应的标签向量;
计算单元,用于分别计算所述平均词向量与每个所述单词向量之间的向量距离,以及所述平均词向量与每个所述标签向量之间的向量距离;
第一确定单元,用于确定与所述平均词向量的向量距离最小的单词向量为目标单词向量,将所述目标单词向量对应的单词为新标签;
第二确定单元,用于确定与所述平均词向量的向量距离最小的标签向量为目标标签向量,将所述目标标签向量对应的已有标签为新标签。
可选的,所述向量距离为夹角余弦距离。
第二标注模块305,用于通过所述新标签对所述第二样本集中的目标样本进行标注,得到包括所述目标样本以及所述目标样本对应的新标签的第三样本集。
综上所述,本申请实施例提供的一种数据的处理装置,通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集,获取第二样本集中的未标注已有标签的目标样本;获取针对目标样本设置的描述信息;将描述信息与标签库包括的标签进行相似度计算,确定与描述信息的相似度最高的标签为新标签;通过新标签对第二样本集中的目标样本进行标注,得到包括目标样本以及目标样本对应的新标签的第三样本集。本申请通过将未标注已有标签的目标样本对应的描述信息与标签库包括的标签进行相似度计算,确定相似度最高的新标签对目标样本进行二次标注,完善了标签分类体系,提高了对多媒体样本的分类精度。
图4是根据一示例性实施例示出的一种电子设备600的框图。例如,电子设备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,电子设备600可以包括以下一个或多个组件:处理组件602,存储器604,电力组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制电子设备600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为电子设备600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当电子设备600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为电子设备600提供各个方面的状态评估。例如,传感器组件614可以检测到电子设备600的打开/关闭状态,组件的相对定位,例如所述组件为电子设备600的显示器和小键盘,传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变,用户与电子设备600接触的存在或不存在,电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集,获取第二样本集中的未标注已有标签的目标样本;获取针对目标样本设置的描述信息;将描述信息与标签库包括的标签进行相似度计算,确定与描述信息的相似度最高的标签为新标签;通过新标签对第二样本集中的目标样本进行标注,得到包括目标样本以及目标样本对应的新标签的第三样本集。
在示例性实施例中,还提供了一种包括指令的非临时性存储介质,例如包括指令的存储器604,上述指令可由电子设备600的处理器620执行以完成上述方法。例如,所述非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是根据一示例性实施例示出的一种电子设备700的框图。例如,电子设备700可以被提供为一服务器。参照图5,电子设备700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集,获取第二样本集中的未标注已有标签的目标样本;获取针对目标样本设置的描述信息;将描述信息与标签库包括的标签进行相似度计算,确定与描述信息的相似度最高的标签为新标签;通过新标签对第二样本集中的目标样本进行标注,得到包括目标样本以及目标样本对应的新标签的第三样本集。
电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理,一个有线或无线网络接口750被配置为将电子设备700连接到网络,和一个输入输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本申请实施例还提供一种应用程序,所述应用程序由电子设备的处理器执行时,实现如本申请提供的通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集,获取第二样本集中的未标注已有标签的目标样本;获取针对目标样本设置的描述信息;将描述信息与标签库包括的标签进行相似度计算,确定与描述信息的相似度最高的标签为新标签;通过新标签对第二样本集中的目标样本进行标注,得到包括目标样本以及目标样本对应的新标签的第三样本集的步骤。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据的处理方法,其特征在于,所述方法包括:
通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集;
获取所述第二样本集中的未标注所述已有标签的目标样本,其中,所述第二样本集中包括标注有所述已有标签的样本和未标注有所述已有标签的样本;
获取针对所述目标样本设置的描述信息;
将所述描述信息与标签库包括的标签进行相似度计算,确定与所述描述信息的相似度最高的标签为新标签;
通过所述新标签对所述第二样本集中的目标样本进行标注,得到包括所述目标样本以及所述目标样本对应的新标签的第三样本集。
2.根据权利要求1所述的方法,其特征在于,所述标签库包括:词库中的单词和/或所述已有标签,所述词库包括多个用于与所述描述信息进行相似度计算的单词。
3.根据权利要求2所述的方法,其特征在于,所述将所述描述信息与标签库包括的标签进行相似度计算,确定与所述描述信息的相似度最高的标签为新标签,包括:
将所述描述信息与词库包括的单词进行相似度计算,和/或将所述描述信息与所述已有标签进行相似度计算,确定与所述描述信息的相似度最高的单词或已有标签为新标签。
4.根据权利要求3所述的方法,其特征在于,所述将所述描述信息与词库包括的单词进行相似度计算,和将所述描述信息与所述已有标签进行相似度计算,确定与所述描述信息的相似度最高的单词或已有标签为新标签,包括:
获取所述描述信息对应的分词集合;
去除所述词库中与所述已有标签匹配的单词;
通过词向量模型获取所述分词集合包括的分词对应的平均词向量,所述词库中单词对应的单词向量,以及所述已有标签对应的标签向量;
计算所述平均词向量与每个所述单词向量之间的向量距离,以及所述平均词向量与每个所述标签向量之间的向量距离;
确定与所述平均词向量的向量距离最小的单词向量为目标单词向量,将所述目标单词向量对应的单词为新标签;
确定与所述平均词向量的向量距离最小的标签向量为目标标签向量,将所述目标标签向量对应的已有标签为新标签。
5.根据权利要求4所述的方法,其特征在于,所述描述信息包括:描述语句;所述获取所述描述信息对应的分词集合,包括:
通过分词工具对所述描述语句进行分词处理,得到多个分词;
去除所述多个分词中的停用词,得到所述分词集合。
6.根据权利要求4所述的方法,其特征在于,所述描述信息包括:多个描述词;所述获取所述描述信息对应的分词集合,包括:
去除所述多个描述词中的停用词,得到所述分词集合。
7.根据权利要求4所述的方法,其特征在于,所述向量距离为夹角余弦距离。
8.一种数据的处理装置,其特征在于,所述装置包括:
第一标注模块,用于通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集;
第一获取模块,用于获取所述第二样本集中的未标注所述已有标签的目标样本,其中,所述第二样本集中包括标注有所述已有标签的样本和未标注有所述已有标签的样本;
第二获取模块,用于获取针对所述目标样本设置的描述信息;
确定模块,用于将所述描述信息与标签库包括的标签进行相似度计算,确定与所述描述信息的相似度最高的标签为新标签;
第二标注模块,用于通过所述新标签对所述第二样本集中的目标样本进行标注,得到包括所述目标样本以及所述目标样本对应的新标签的第三样本集。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据的处理方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据的处理方法的步骤。
CN201811204512.4A 2018-10-16 2018-10-16 数据的处理方法、装置、电子设备及存储介质 Active CN109522424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811204512.4A CN109522424B (zh) 2018-10-16 2018-10-16 数据的处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811204512.4A CN109522424B (zh) 2018-10-16 2018-10-16 数据的处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109522424A true CN109522424A (zh) 2019-03-26
CN109522424B CN109522424B (zh) 2020-04-24

Family

ID=65770889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811204512.4A Active CN109522424B (zh) 2018-10-16 2018-10-16 数据的处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109522424B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232403A (zh) * 2019-05-15 2019-09-13 腾讯科技(深圳)有限公司 一种标签预测方法、装置、电子设备及介质
CN110399984A (zh) * 2019-07-24 2019-11-01 阿里巴巴集团控股有限公司 一种信息的预测方法、系统以及电子设备
CN110427487A (zh) * 2019-07-30 2019-11-08 中国工商银行股份有限公司 一种数据标注方法、装置及存储介质
CN110569329A (zh) * 2019-10-28 2019-12-13 深圳市商汤科技有限公司 数据处理方法及装置、电子设备和存储介质
CN110928981A (zh) * 2019-11-18 2020-03-27 佰聆数据股份有限公司 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN111339250A (zh) * 2020-02-20 2020-06-26 北京百度网讯科技有限公司 新类别标签的挖掘方法及电子设备、计算机可读介质
CN111382281A (zh) * 2020-03-04 2020-07-07 腾讯科技(深圳)有限公司 基于媒体对象的内容的推荐方法、装置、设备和存储介质
CN111522854A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN111986744A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 医疗机构的患者界面生成方法、装置、电子设备及介质
CN112036166A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN112085120A (zh) * 2020-09-17 2020-12-15 腾讯科技(深圳)有限公司 多媒体数据的处理方法、装置、电子设备及存储介质
CN112328746A (zh) * 2020-11-06 2021-02-05 广东智源机器人科技有限公司 菜品标签入库方法、装置、计算机设备和存储介质
CN112329838A (zh) * 2020-11-02 2021-02-05 上海明略人工智能(集团)有限公司 一种目标集合类别标签的确定方法和装置
CN113159133A (zh) * 2021-03-29 2021-07-23 Oppo广东移动通信有限公司 数据标注方法及装置、电子设备、存储介质
CN113204660A (zh) * 2021-03-31 2021-08-03 北京达佳互联信息技术有限公司 多媒体数据处理方法、标签识别方法、装置及电子设备
CN113360693A (zh) * 2021-05-31 2021-09-07 北京百度网讯科技有限公司 确定图像标签的方法及其装置、电子设备以及存储介质
WO2021179544A1 (zh) * 2020-03-12 2021-09-16 平安科技(深圳)有限公司 样本分类方法、装置、计算机设备及存储介质
CN113204660B (zh) * 2021-03-31 2024-05-17 北京达佳互联信息技术有限公司 多媒体数据处理方法、标签识别方法、装置及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258188A1 (en) * 2010-04-16 2011-10-20 Abdalmageed Wael Semantic Segmentation and Tagging Engine
CN102982076A (zh) * 2012-10-30 2013-03-20 新华通讯社 基于语义标签库的多维度内容标注方法
CN105354202A (zh) * 2014-08-20 2016-02-24 阿里巴巴集团控股有限公司 数据推送方法及装置
CN106202380A (zh) * 2016-07-08 2016-12-07 中国科学院上海高等研究院 一种分类语料库的构建方法、系统及具有该系统的服务器
CN106874279A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN106951571A (zh) * 2017-04-10 2017-07-14 广州优视网络科技有限公司 一种给应用标注标签的方法和装置
CN107480200A (zh) * 2017-07-17 2017-12-15 深圳先进技术研究院 基于词标签的词语标注方法、装置、服务器及存储介质
CN108256549A (zh) * 2017-12-13 2018-07-06 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
CN108647705A (zh) * 2018-04-23 2018-10-12 北京交通大学 基于图像和文本语义相似度的图像语义消歧方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258188A1 (en) * 2010-04-16 2011-10-20 Abdalmageed Wael Semantic Segmentation and Tagging Engine
CN102982076A (zh) * 2012-10-30 2013-03-20 新华通讯社 基于语义标签库的多维度内容标注方法
CN105354202A (zh) * 2014-08-20 2016-02-24 阿里巴巴集团控股有限公司 数据推送方法及装置
CN106874279A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN106202380A (zh) * 2016-07-08 2016-12-07 中国科学院上海高等研究院 一种分类语料库的构建方法、系统及具有该系统的服务器
CN106951571A (zh) * 2017-04-10 2017-07-14 广州优视网络科技有限公司 一种给应用标注标签的方法和装置
CN107480200A (zh) * 2017-07-17 2017-12-15 深圳先进技术研究院 基于词标签的词语标注方法、装置、服务器及存储介质
CN108256549A (zh) * 2017-12-13 2018-07-06 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
CN108647705A (zh) * 2018-04-23 2018-10-12 北京交通大学 基于图像和文本语义相似度的图像语义消歧方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆泉: "《图像语义信息可视化交互研究》", 31 December 2015 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232403A (zh) * 2019-05-15 2019-09-13 腾讯科技(深圳)有限公司 一种标签预测方法、装置、电子设备及介质
CN110399984A (zh) * 2019-07-24 2019-11-01 阿里巴巴集团控股有限公司 一种信息的预测方法、系统以及电子设备
CN110399984B (zh) * 2019-07-24 2022-12-27 创新先进技术有限公司 一种信息的预测方法、系统以及电子设备
CN110427487B (zh) * 2019-07-30 2022-05-17 中国工商银行股份有限公司 一种数据标注方法、装置及存储介质
CN110427487A (zh) * 2019-07-30 2019-11-08 中国工商银行股份有限公司 一种数据标注方法、装置及存储介质
CN110569329A (zh) * 2019-10-28 2019-12-13 深圳市商汤科技有限公司 数据处理方法及装置、电子设备和存储介质
CN110569329B (zh) * 2019-10-28 2022-08-02 深圳市商汤科技有限公司 数据处理方法及装置、电子设备和存储介质
CN110928981A (zh) * 2019-11-18 2020-03-27 佰聆数据股份有限公司 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN111339250A (zh) * 2020-02-20 2020-06-26 北京百度网讯科技有限公司 新类别标签的挖掘方法及电子设备、计算机可读介质
US11755654B2 (en) 2020-02-20 2023-09-12 Beijing Baidu Netcom Science Technology Co., Ltd. Category tag mining method, electronic device and non-transitory computer-readable storage medium
CN111339250B (zh) * 2020-02-20 2023-08-18 北京百度网讯科技有限公司 新类别标签的挖掘方法及电子设备、计算机可读介质
CN111382281A (zh) * 2020-03-04 2020-07-07 腾讯科技(深圳)有限公司 基于媒体对象的内容的推荐方法、装置、设备和存储介质
CN111382281B (zh) * 2020-03-04 2023-05-02 腾讯科技(深圳)有限公司 基于媒体对象的内容的推荐方法、装置、设备和存储介质
WO2021179544A1 (zh) * 2020-03-12 2021-09-16 平安科技(深圳)有限公司 样本分类方法、装置、计算机设备及存储介质
CN111522854A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN112036166A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN111986744B (zh) * 2020-09-03 2023-10-24 深圳赛安特技术服务有限公司 医疗机构的患者界面生成方法、装置、电子设备及介质
CN111986744A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 医疗机构的患者界面生成方法、装置、电子设备及介质
CN112085120A (zh) * 2020-09-17 2020-12-15 腾讯科技(深圳)有限公司 多媒体数据的处理方法、装置、电子设备及存储介质
CN112085120B (zh) * 2020-09-17 2024-01-02 腾讯科技(深圳)有限公司 多媒体数据的处理方法、装置、电子设备及存储介质
CN112329838A (zh) * 2020-11-02 2021-02-05 上海明略人工智能(集团)有限公司 一种目标集合类别标签的确定方法和装置
CN112329838B (zh) * 2020-11-02 2024-02-02 上海明略人工智能(集团)有限公司 一种目标集合类别标签的确定方法和装置
CN112328746A (zh) * 2020-11-06 2021-02-05 广东智源机器人科技有限公司 菜品标签入库方法、装置、计算机设备和存储介质
CN113159133A (zh) * 2021-03-29 2021-07-23 Oppo广东移动通信有限公司 数据标注方法及装置、电子设备、存储介质
CN113204660A (zh) * 2021-03-31 2021-08-03 北京达佳互联信息技术有限公司 多媒体数据处理方法、标签识别方法、装置及电子设备
CN113204660B (zh) * 2021-03-31 2024-05-17 北京达佳互联信息技术有限公司 多媒体数据处理方法、标签识别方法、装置及电子设备
CN113360693A (zh) * 2021-05-31 2021-09-07 北京百度网讯科技有限公司 确定图像标签的方法及其装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN109522424B (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN109522424A (zh) 数据的处理方法、装置、电子设备及存储介质
EP2457183B1 (en) System and method for tagging multiple digital images
CN109859096A (zh) 图像风格迁移方法、装置、电子设备及存储介质
CN109543714A (zh) 数据特征的获取方法、装置、电子设备及存储介质
US11475219B2 (en) Method for processing information, and storage medium
CN109543066A (zh) 视频推荐方法、装置和计算机可读存储介质
CN110852100A (zh) 关键词提取方法、装置、电子设备及介质
CN109189879A (zh) 电子书籍显示方法及装置
CN112347795A (zh) 机器翻译质量评估方法、装置、设备及介质
US20210150214A1 (en) Method for Displaying Service Information on Preview Interface and Electronic Device
CN111339737B (zh) 实体链接方法、装置、设备及存储介质
CN113515942A (zh) 文本处理方法、装置、计算机设备及存储介质
CN105550336B (zh) 单一实体实例的挖掘方法和装置
CN109670077A (zh) 视频推荐方法、装置和计算机可读存储介质
CN109615006A (zh) 文字识别方法及装置、电子设备和存储介质
CN109389220A (zh) 神经网络模型的处理方法、装置、电子设备以及存储介质
CN112364829B (zh) 一种人脸识别方法、装置、设备及存储介质
CN111259967A (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
CN112926310B (zh) 一种关键词提取方法及装置
CN104850592B (zh) 生成模型文件的方法和装置
CN113505256B (zh) 特征提取网络训练方法、图像处理方法及装置
CN111046927A (zh) 标注数据的处理方法、装置、电子设备及存储介质
CN107135494A (zh) 垃圾短信识别方法及装置
CN112287070A (zh) 词语的上下位关系确定方法、装置、计算机设备及介质
CN111274389A (zh) 一种信息处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant