CN111611429A - 数据标注方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据标注方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111611429A
CN111611429A CN201910138887.3A CN201910138887A CN111611429A CN 111611429 A CN111611429 A CN 111611429A CN 201910138887 A CN201910138887 A CN 201910138887A CN 111611429 A CN111611429 A CN 111611429A
Authority
CN
China
Prior art keywords
information
determining
target
objects
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910138887.3A
Other languages
English (en)
Other versions
CN111611429B (zh
Inventor
徐晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201910138887.3A priority Critical patent/CN111611429B/zh
Publication of CN111611429A publication Critical patent/CN111611429A/zh
Application granted granted Critical
Publication of CN111611429B publication Critical patent/CN111611429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据标注方法、装置、电子设备及计算机可读存储介质,其中,该方法包括:获取至少一个列表信息,每个列表信息中包括至少一个对象,且至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;基于列表信息确定与各个第一对象相关联的第二对象,第一对象为至少一个列表信息中未标注标签信息的对象;基于第二对象的标签信息确定各个第一对象的标签信息。本申请通过列表信息中已标注标签信息的对象,对列表信息中未标注标签信息的对象进行标注的方式,能够更加准确的确定出列表信息中各个对象的标签信息,进而,通过该标签信息就能够对列表信息中的各个对象进行相应的学习分类。

Description

数据标注方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及数据处理的技术领域,具体而言,涉及一种数据标注方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,针对列表数据,在现有的数据标注方法中,可以通过对列表数据进行标注,从而实现对列表数据中的每个列表项进行标注,通常情况下,列表数据中的列表项没有完整的属性信息或标签信息,例如,歌单。用户在创建歌单时,可以标注歌单的风格类型信息。但是针对该歌单中的歌曲缺少风格标注信息。如果歌曲(即,上述列表项)缺少相对应的风格标注信息,则将无法对该歌曲(即,列表项)进行相应的学习分类。
发明内容
有鉴于此,本申请实施例的目的在于提供一种数据标注方法、装置、电子设备及计算机可读存储介质,本申请通过列表信息中已标注标签信息的对象,对列表信息中未标注标签信息的对象进行标注的方式,能够更加准确的确定出列表信息中各个对象的标签信息,进而通过该标签信息就能够对列表信息中的各个对象进行相应的学习分类。
根据本申请的一个方面,提供一种电子设备,可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,以执行一个或多个以下操作:
获取至少一个列表信息,每个列表信息中包括至少一个对象,且所述至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;基于所述列表信息确定与各个第一对象相关联的第二对象,其中,所述第一对象为所述至少一个列表信息中未标注标签信息的对象,所述第二对象的数量为一个或多个,且所述第二对象中包含已标注标签信息的对象;基于所述第二对象的标签信息确定各个所述第一对象的标签信息。
在本申请较佳的实施例中,基于所述列表信息确定与第一对象相关联的第二对象包括:基于所述列表信息确定主题分布信息,其中,所述主题分布信息比表示所述列表信息中的每个对象在所述一个或多个隐含主题中的分布信息,所述隐含主题为所述至少一个列表信息中包含的隐含主题;基于所述主题分布信息确定与所述第一对象相关联的第二对象。
在本申请较佳的实施例中,基于所述列表信息确定主题分布信息包括:将所述列表信息输入到文本主题模型中进行处理;将处理结果作为所述主题分布信息。
在本申请较佳的实施例中,所述主题分布信息为目标向量组,所述目标向量组中包括至少一个目标向量,且所述列表信息中的一个对象对应一个目标向量,所述目标向量中的每个向量表示对象所属于每个隐含主题的概率值。
在本申请较佳的实施例中,基于所述主题分布信息确定与所述第一对象相关联的第二对象包括:在所述目标向量组中确定所述第一对象所对应的第一目标向量;计算所述第一目标向量和第二目标向量之间的相似度,其中,所述第二目标向量为所述目标向量中除所述第一目标向量之外的其他目标向量;根据所述相似度确定与所述第一对象相关联的第二对象。
在本申请较佳的实施例中,所述相似度为多个,根据所述相似度确定与所述第一对象相关联的第二对象包括:确定多个所述相似度中目标相似度所对应的第二目标向量,其中,所述目标相似度为多个所述相似度中大于预设相似度的相似度;将所述目标相似度所对应的第二目标向量所属的对象确定为所述第二对象。
在本申请较佳的实施例中,基于所述第二对象的标签信息确定各个所述第一对象的标签信息包括:反复执行以下步骤,直至标注所述列表信息中的每个对象的标签信息:在与第一对象Ai相关联的第二对象中确定已标注对象,其中,所述已标注对象为已标注标签信息的对象,i依次取1至I,I为所述列表信息中第一对象的数量;利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
在本申请较佳的实施例中,利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息包括:判断所述第二对象中已标注对象的数量是否超过预设数量值;若是,则利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
在本申请较佳的实施例中,所述已标注对象为多个,利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息包括:基于相似度,并按照预设排序顺序对所述已标注对象进行排序,得到排序结果;基于所述排序结果计算所述已标注对象的权重;将所述权重确定为所述已标注对象所对应的标签信息的权重;计算多个所述已标注对象所对应的标签信息中相同类型的标签信息的权重和,得到各类标签信息的权重值;基于所述各类标签信息的权重值确定所述第一对象Ai的标签信息。
在本申请较佳的实施例中,基于所述各类标签信息的权重值确定所述第一对象Ai的标签信息包括:将所述各类标签信息的权重值中目标权重值所对应的标签信息确定为所述第一对象Ai的标签信息,其中,所述目标权重值为所述各类标签信息的权重值中大于预设权重值的数值。
在本申请较佳的实施例中,基于所述排序结果计算所述已标注对象的权重包括:利用公式W=1/(logR+1)计算所述已标注对象的权重,其中,W为所述权重,R为所述已标注对象在所述排序结果中的排序值。
在本申请较佳的实施例中,在获取至少一个列表信息之后,所述方法还包括:在所述至少一个列表信息中确定包含对象Bj的目标列表信息,其中,i依次取1至J,J为所述至少一个列表信息中对象的数量;基于所述目标列表信息的主题信息对所述对象Bj进行标注,并将标注标签信息的对象作为已标注对象。
在本申请较佳的实施例中,在所述至少一个列表信息中确定包含对象Bj的目标列表信息包括:在所述至少一个列表信息中确定携带主题信息的列表信息;在所述携带主题信息的列表信息中确定包含对象Bj的目标列表信息。
在本申请较佳的实施例中,基于所述目标列表信息的主题信息对所述对象Bj进行标注包括:统计所述目标列表信息所携带的各个主题信息在所述目标列表信息中的出现次数;基于所述出现次数对所述对象Bj进行标注。
在本申请较佳的实施例中,基于所述出现次数对所述对象Bj进行标注包括:若所述出现次数中包含目标出现次数,则将所述目标出现次数所对应的主题信息确定为所述对象Bj的标签信息,并将所述对象Bj确定为已标注对象,其中,所述目标出现次数为所述出现次数中大于或者等于预设阈值的出现次数。
根据本申请的另一个方面,还提供了一种数据标注装置,包括:获取单元,用于获取至少一个列表信息,每个列表信息中包括至少一个对象,且所述至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;第一确定单元,用于基于所述列表信息确定与各个第一对象相关联的第二对象,其中,所述第一对象为所述至少一个列表信息中未标注标签信息的对象,所述第二对象的数量为一个或多个,且所述第二对象中包含已标注标签信息的对象;第二确定单元,用于基于所述第二对象的标签信息确定各个所述第一对象的标签信息。
在本申请较佳的实施例中,所述第一确定单元包括:第一确定模块,用于基于所述列表信息确定主题分布信息,其中,所述主题分布信息比表示所述列表信息中的每个对象在所述一个或多个隐含主题中的分布信息,所述隐含主题为所述至少一个列表信息中包含的隐含主题;第二确定模块,用于基于所述主题分布信息确定与所述第一对象相关联的第二对象。
在本申请较佳的实施例中,所述第一确定模块,用于:将所述列表信息输入到文本主题模型中进行处理;将处理结果作为所述主题分布信息。
在本申请较佳的实施例中,所述主题分布信息为目标向量组,所述目标向量组中包括至少一个目标向量,且所述列表信息中的一个对象对应一个目标向量,所述目标向量中的每个向量表示对象所属于每个隐含主题的概率值。
在本申请较佳的实施例中,所述第二确定模块,用于:在所述目标向量组中确定所述第一对象所对应的第一目标向量;计算所述第一目标向量和第二目标向量之间的相似度,其中,所述第二目标向量为所述目标向量中除所述第一目标向量之外的其他目标向量;根据所述相似度确定与所述第一对象相关联的第二对象。
在本申请较佳的实施例中,所述相似度为多个,所述第二确定模块,还用于:确定多个所述相似度中目标相似度所对应的第二目标向量,其中,所述目标相似度为多个所述相似度中大于预设相似度的相似度;将所述目标相似度所对应的第二目标向量所属的对象确定为所述第二对象。
在本申请较佳的实施例中,所述第二确定单元包括:利用第三确定模块和第四确定模块反复执行以下步骤,直至标注所述列表信息中的每个对象的标签信息:所述第三确定模块,用于在与第一对象Ai相关联的第二对象中确定已标注对象,其中,所述已标注对象为已标注标签信息的对象,i依次取1至I,I为所述列表信息中第一对象的数量;所述第四确定模块,用于利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
在本申请较佳的实施例中,所述第四确定模块,还用于:判断所述第二对象中已标注对象的数量是否超过预设数量值;若是,则利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
在本申请较佳的实施例中,所述已标注对象为多个,所述第四确定模块,还用于:基于相似度,并按照预设排序顺序对所述已标注对象进行排序,得到排序结果;基于所述排序结果计算所述已标注对象的权重;将所述权重确定为所述已标注对象所对应的标签信息的权重;计算多个所述已标注对象所对应的标签信息中相同类型的标签信息的权重和,得到各类标签信息的权重值;基于所述各类标签信息的权重值确定所述第一对象Ai的标签信息。
在本申请较佳的实施例中,所述第四确定模块,还用于:将所述各类标签信息的权重值中目标权重值所对应的标签信息确定为所述第一对象Ai的标签信息,其中,所述目标权重值为所述各类标签信息的权重值中大于预设权重值的数值。
在本申请较佳的实施例中,所述第四确定模块,还用于:利用公式W=1/(logR+1)计算所述已标注对象的权重,其中,W为所述权重,R为所述已标注对象在所述排序结果中的排序值。
在本申请较佳的实施例中,在获取至少一个列表信息之后,所述装置还包括:第三确定单元,用于在所述至少一个列表信息中确定包含对象Bj的目标列表信息,其中,i依次取1至J,J为所述至少一个列表信息中对象的数量;标注单元,用于基于所述目标列表信息的主题信息对所述对象Bj进行标注,并将标注标签信息的对象作为已标注对象。
在本申请较佳的实施例中,所述第三确定单元,用于:在所述至少一个列表信息中确定携带主题信息的列表信息;在所述携带主题信息的列表信息中确定包含对象Bj的目标列表信息。
在本申请较佳的实施例中,所述标注单元,用于:统计所述目标列表信息所携带的各个主题信息在所述目标列表信息中的出现次数;基于所述出现次数对所述对象Bj进行标注。
在本申请较佳的实施例中,所述标注单元,还用于:若所述出现次数中包含目标出现次数,则将所述目标出现次数所对应的主题信息确定为所述对象Bj的标签信息,并将所述对象Bj确定为已标注对象,其中,所述目标出现次数为所述出现次数中大于或者等于预设阈值的出现次数。
根据本申请的另一个方面,还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行上述任一所述的数据标注的方法的步骤。
根据本申请的另一个方面,还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一所述的数据标注的方法的步骤。
在本实施例中,首先获取至少一个列表信息,其中,每个列表信息中包括至少一个对象,且至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;之后,可以基于列表信息确定与各个第一对象相关联的第二对象;最后,基于第二对象的标签信息确定各个所述第一对象的标签信息。通过上述描述可知,本申请通过列表信息中已标注标签信息的对象,对列表信息中未标注标签信息的对象进行标注的方式,能够更加准确的确定出列表信息中各个对象的标签信息,进而,通过该标签信息就能够对列表信息中的各个对象进行相应的学习分类。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种电子设别的示意图;
图2示出了本申请实施例所提供的一种数据标注方法的流程图;
图3示出了本申请实施例所提供的第一种可选地数据标注方法的流程图;
图4示出了本申请实施例所提供的第二种可选地数据标注方法的流程图;
图5示出了本申请实施例所提供的第三种可选地数据标注方法的流程图;
图6示出了本申请实施例所提供的第四种可选地数据标注方法的流程图;
图7示出了本申请实施例所提供的第五种可选地数据标注方法的流程图;
图8示出了本申请实施例所提供的一种数据标注装置的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
本申请中的术语“服务”和“订单”可互换使用,以指代由乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合发起的服务请求。接受该“服务”或“订单”的可以是乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合。服务可以是收费的或免费的。
图1示出根据本申请的一些实施例的可以实现本申请提供的数据标注方法的电子设备100的示例性硬件和软件组件的示意图。
电子设备100可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的数据标注方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口150。
上述存储介质140存储有处理器120可执行的机器可读指令,当电子设备运行时,处理器120与存储介质140之间通过总线通信,处理器执行机器可读指令,以执行时执行下述数据标注方法的步骤。另外,存储介质也可以称为计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行下述数据标注方法的步骤。
为了便于说明,在电子设备100中仅描述了一个处理器。然而,应当注意,本申请中的电子设备100还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备100的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
参见图2所示的一种数据标注方法的流程图。
图2所示的数据标注方法以应用在服务器端为例进行说明,该方法包括如下步骤:
步骤S202,获取至少一个列表信息,每个列表信息中包括至少一个对象,且所述至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;
在本实施例中,该列表信息可以为歌单列表,可以为菜单列表等列表信息,本实施例对列表信息的内容不做具体限定。
若该列表信息为歌单列表,那么该歌单列表中包含至少一首歌曲;若该列表信息为菜单列表,那么该菜单列表中包含至少一个菜品名称。
在本实施例中,当上述至少一个列表信息为多个时,多个列表信息中的部分列表或者全部列表携带一个或多个主题信息。其中,该主题信息用于确定各个列表信息的风格信息。
例如,若该列表信息为歌单列表,那么该歌单列表所对应的主题信息可以为“运动”和“摇滚”;若该列表信息为菜单列表,那么该菜单列表所对应的主题信息可以为“川味”和“麻辣”等。
步骤S204,基于所述列表信息确定与各个第一对象相关联的第二对象,其中,所述第一对象为所述至少一个列表信息中未标注标签信息的对象,所述第二对象的数量为一个或多个,且所述第二对象中包含已标注标签信息的对象;
需要说明的是,在本实施例中,列表信息中包含未标注标签信息的对象(即,第一对象),以及包含与第一对象相关联的对象(即,第二对象)。
例如,若该列表信息为歌单列表,且该歌单列表中包含歌曲《体面》和《凉凉》,其中,《凉凉》为未标注标签信息的对象(即,第一对象),《体面》为与第一对象《凉凉》相关联的对象。在本实施例中,相关联是指第一对象和第二对象之间的相似程度较高,例如,《凉凉》和《体面》均为伤感的情歌。
步骤S206,基于所述第二对象的标签信息确定各个所述第一对象的标签信息。
需要说明的是,在本实施例中,第二对象中包含已标注标签信息的对象,第二对象中还可能包含未标注标签信息的对象,此时,可以基于第二对象中已标注标签信息的对象确定各个第一对象的标签信息。
在本实施例中,首先获取至少一个列表信息,其中,每个列表信息中包括至少一个对象,且至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;之后,可以基于列表信息确定与各个第一对象相关联的第二对象;最后,基于第二对象的标签信息确定各个所述第一对象的标签信息。通过上述描述可知,本申请通过列表信息中已标注标签信息的对象,对列表信息中未标注标签信息的对象进行标注的方式,能够更加准确的确定出列表信息中各个对象的标签信息,进而,通过该标签信息就能够对列表信息中的各个对象进行相应的学习分类。
在一个可选的实施方式中,如图3所示,步骤S204,基于所述列表信息确定与第一对象相关联的第二对象包括如下步骤:
步骤S301,基于所述列表信息确定主题分布信息,其中,所述主题分布信息比表示所述列表信息中的每个对象在所述一个或多个隐含主题中的分布信息,所述隐含主题为所述至少一个列表信息中包含的隐含主题;
步骤S302,基于所述主题分布信息确定与所述第一对象相关联的第二对象。
通过上述描述可知,在本实施例中,首先获取至少一个列表信息,然后,基于列表信息确定列表信息中的每个对象在一个或多个隐含主题中的分布信息。之后,就可以基于该主题分布信息确定第一对象相关联的第二对象。
假设,该列表信息为歌单列表,且该歌单列表中包含至少一个歌曲(即,对象),至少一个歌曲中包含已标注标签信息的歌曲,以及包含未标注标签信息的歌曲。基于此,在本实施例中,可以基于歌单列表确定各个歌曲在歌单列表一个或多个隐含主题中的主题分布信息,此时,该一个或多个隐含主题为该歌单列表中包含的隐含主题。之后,就可以基于该主题分布信息确定与未标注标签信息的歌曲相关联的歌曲。最后,就可以根据相关联的歌曲中已标注标签信息的歌曲对未标注标签信息的歌曲进行标签信息的标注。
在本实施例中,上述主题分布信息能够表征每个对象所属于每个隐含主题的概率值。基于该主题分布信息来确定与第一对象相关联的第二对象的方式,能够得到更加准确的第二对象。在得到更加准确的第二对象之后,在利用第二对象对第一对象进行标注时,就能够得到更加准确的标注结果。
可选地,在本实施例中,步骤S301,基于所述列表信息确定主题分布信息包括如下步骤:
首先,将所述列表信息输入到文本主题模型中进行处理;
然后,将处理结果作为所述主题分布信息。
在本实施例中,首先获取至少一个列表信息,然后,基于列表信息确定列表信息中的每个对象在一个或多个隐含主题中的主题分布信息。在确定主题分布信息时,可以将列表信息输入到文本主题模型LDA(Latent Dirichlet Allocation)中进行处理,并将处理结果作为主题分布信息。
在本实施例中,可选地,该主题分布信息可以为目标向量组,所述目标向量组中包括至少一个目标向量,且所述列表信息中的一个对象对应一个目标向量,所述目标向量中的每个向量表示对象所属于每个隐含主题的概率值。
假设,该列表信息为歌单列表,歌单列表可以看成一篇文章,包含着潜在的主题信息,每首歌曲看成是一个单词,这样一个歌单列表就可以看成是先确定了文章的主题信息,然后在主题信息中抽样出单词,然后生成文章的过程。因此,本实施例中,使用文本主题模型LDA,将全量的歌单数据(即,至少一个歌单列表),包括有标注和没有标注风格的歌单送入到文本主题模型LDA中,训练出每首歌曲的主题分布信息,例如,设置的隐含主题为200。在本实施例中,并不限定隐含主题一定为200,除此之外,还可以选择其他的数值,本实施例中不做具体限定。
在本实施例中,上述至少一个歌单列表可以表示为:
Playlist 1:song1,song2,song3,song4……songN;
Playlist 2:song1,song2,song3,song4……songM。
其中,Playlist 1表示为歌单列表1,Playlist 2表示为歌单列表2。歌单列表1中包含N首歌曲,分别是“song1,song2,song3,song4……songN”;歌单列表1中包含M首歌曲,分别是“song1,song2,song3,song4……songM”。
上述至少一个歌单列表中每个歌曲在200个隐含主题上的向量表示(即,目标向量组)如下,此处仅以两个歌曲的目标向量为例来进行介绍。
Song1:[num1,num2,……,num200]
Song2:[num1,num2,……,num200]
具体地,在本实施例中,通过上述描述可知,主题分布信息可以为目标向量组,该目标向量组中包含至少一个目标向量,且列表信息中每一个对象对应一个目标向量,该目标向量中的每个向量表示对象所属于每个隐含主题的概率值。
那么Song1:[num1,num2,……,num200]为歌曲1(即,Song1)的目标向量,Song2:[num1,num2,……,num200]为歌曲2(即,Song2)的目标向量。在目标向量Song1:[num1,num2,……,num200]中,num1表示歌曲1所属于隐含主题1的概率值,以此类推,num200表示歌曲1所属于隐含主题200的概率值。在目标向量Song2:[num1,num2,……,num200]中,num1表示歌曲2所属于隐含主题1的概率值,以此类推,num200表示歌曲2所属于隐含主题200的概率值。
可选地,在本实施例中,上述步骤S302,基于所述主题分布信息确定与所述第一对象相关联的第二对象包括如下步骤:
首先,在所述目标向量组中确定所述第一对象所对应的第一目标向量;
其次,计算所述第一目标向量和第二目标向量之间的相似度,其中,所述第二目标向量为所述目标向量中除所述第一目标向量之外的其他目标向量;
最后,根据所述相似度确定与所述第一对象相关联的第二对象。
具体地,在本实施例中,可以在目标向量组中确定第一对象所对应的第一目标向量,然后,将目标向量组中除了第一目标向量之外的其他目标向量作为第二目标向量。
之后,可以计算第一目标向量和第二目标向量之间的相似度。其中,该相似度可以为余弦相似度,余弦相似度的计算公式为:
Figure BDA0001977893740000151
其中,A和B分别表示第一目标向量和第二目标向量。
在计算得到第一目标向量和第二目标向量之间的相似度之后,就可以根据该相似度确定与第一对象相关联的第二对象。
如图4所示,若相似度为多个,那么根据所述相似度确定与所述第一对象相关联的第二对象的步骤包括如下步骤:
步骤S401,确定多个所述相似度中目标相似度所对应的第二目标向量,其中,所述目标相似度为多个所述相似度中大于预设相似度的相似度;
步骤S402,将所述目标相似度所对应的第二目标向量所属的对象确定为所述第二对象。
具体地,如果第二目标向量为多个,那么在计算第一目标向量和第二目标向量之间的相似度时,将得到多个相似度值。例如,第一目标向量记为A1,第二目标向量记为B1、B2和B3,那么可以计算第一目标向量A1和第二目标向量B1之间的相似度,得到相似度C1,以及计算第一目标向量A1和第二目标向量B2之间的相似度,得到相似度C2;以及计算第一目标向量A1和第二目标向量B3之间的相似度,得到相似度C3。
在计算得到的上述三个相似度中,确定大于预设相似度的相似度(即,目标相似度),假设,确定出相似度C1大于预设相似度,那么相似度C1即为目标相似度。
此时,就可以将相似度C1所对应的第二目标向量B1所属的对象确定为第二对象。
通过上述描述可知,在本实施例中,由于目标向量中的每个向量表示对象所属于每个隐含主题的概率值,因此,在利用目标向量组来计算第一目标向量和第二目标向量之间的相似度时,能够基于各个对象的所对应的隐含主题的分布情况来确定与第一对象相关联或相似的第二对象,此时的相关联或相似是指第一对象和第二对象所对应的标签信息相关联或者相似。
在本实施例中,在按照上述所描述的方法确定出与第一对象相关联的第二对象之后,就可以基于第二对象的标签信息确定各个所述第一对象的标签信息。
在一个可选的实施方式中,如图5所示,步骤S206,在基于所述第二对象的标签信息确定各个所述第一对象的标签信息时,反复执行以下步骤,直至标注所述列表信息中的每个对象的标签信息:
步骤S501,在与第一对象Ai相关联的第二对象中确定已标注对象,其中,所述已标注对象为已标注标签信息的对象,i依次取1至I,I为所述列表信息中第一对象的数量;
步骤S502,利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
在本实施例中,循环执行上述步骤S501和步骤S502,直至标注列表信息中的每个对象的标签信息。在每一次循环过程中,遍历列表信息中每个第一对象,并对每个第一对象执行上述步骤S501和步骤S502。
在一个可选的实施方式中,如图6所示,步骤S502,利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息包括如下步骤:
步骤S601,判断所述第二对象中已标注对象的数量是否超过预设数量值;若是,则执行步骤S602,否则执行步骤S603;
步骤S602,利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息;
步骤S603,判断列表信息中是否还包含未标注的对象;若是,则返回执行步骤S501,否则,结束本次循环流程。
也就是说,上述步骤S501和步骤S502具体的操作流程是个大的外层循环,每次循环结束后。未标注标签信息的对象中会有一部分被打上标签信息;如此循环,直到某次循环中,不再有新的标注对象歌曲,整个过程结束,下面举例说明上述过程。
假设,在第G次大循环的过程中,首先,在与第一对象A1相关联的第二对象中确定已标注对象。然后,判断第二对象中已标注对象的数量是否超过预设数量值。若判断出是,则利用第二对象中已标注对象的标签信息确定第一对象A1的标签信息。若判断出否,则判断列表信息中是否包含未被标注的对象,如果包含,则返回执行步骤S501,即获取下一个第一对象A2;如果判断出不包含,在第G次大循环结束。
在对第一对象A2进行标注时,执行过程与上述相同。即在与第一对象A2相关联的第二对象中确定已标注对象。然后,判断第二对象中已标注对象的数量是否超过预设数量值。若判断出是,则利用第二对象中已标注对象的标签信息确定第一对象A2的标签信息。若判断出否,则判断列表信息中是否包含未被标注的对象,如果包含,则返回执行步骤S501,即获取下一个第一对象A3;如果判断出不包含,在第G次大循环结束。
在对第一对象A3进行标注时,执行过程与上述相同,此处不再详细赘述。需要说明的是,在本实施例中,在第G次大循环的过程中,在对第一对象A1结束之后,在对第一对象A2或第一对象A3进行标注时,第一对象A1仍然作为未被标注的对象使用。
通过上述描述可知,采用上述所描述的方式,能够对大量的对象实现快速的标注,同时能够更加准确的对各个列表信息中各个对象进行标注,避免出现对象漏标的问题。
可选地,在本实施例中,如果已标注对象为多个,那么步骤S602,利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息包括如下步骤:
步骤S1,基于相似度,并按照预设排序顺序对所述已标注对象进行排序,得到排序结果。
步骤S2,基于所述排序结果计算所述已标注对象的权重。
可选地,步骤S2,基于所述排序结果计算所述已标注对象的权重包括:利用公式W=1/(logR+1)计算所述已标注对象的权重,其中,W为所述权重,R为所述已标注对象在所述排序结果中的排序值。
步骤S3,将所述权重确定为所述已标注对象所对应的标签信息的权重。
步骤S4,计算多个所述已标注对象所对应的标签信息中相同类型的标签信息的权重和,得到各类标签信息的权重值。
步骤S5,基于所述各类标签信息的权重值确定所述第一对象Ai的标签信息。
可选地,步骤S5,基于所述各类标签信息的权重值确定所述第一对象Ai的标签信息包括:将所述各类标签信息的权重值中目标权重值所对应的标签信息确定为所述第一对象Ai的标签信息,其中,所述目标权重值为所述各类标签信息的权重值中大于预设权重值的数值。
具体地,通过上述描述可知,在本实施例中,在确定出与第一对象Ai相关联的第二对象之后,在该第二对象中确定已标注标签信息的对象。然后,通过第一对象Ai和已标注标签信息的对象之间的相似度,并按照由高到低的顺序对已标注标签信息进行排序,每个已标注标签信息对应一个排序结果,例如,排序编号。
之后,就可以基于排序结果计算已标注对象的权重。具体地,可以通过公式W=1/(logR+1)计算该权重,从而得到每个已标注对象的权重。在得到每个已标注对象的权之后,就可以计算多个已标注对象所对应的标签信息中相同类型的标签信息的权重和,得到各类标签信息的权重值。
例如,多个已标注对象包括:已标注对象D1、已标注对象D2和已标注对象D3,其中,已标注对象D1对应的标签信息为E1和E2,已标注对象D2对应的标签信息为E2和E3,已标注对象D3对应的标签信息为E1和E3,且已标注对象D1的权重为W1,已标注对象D2的权重为W2,已标注对象D3的权重为W3。
此时,可以计算标签信息为E1的权重和,例如,计算权重W1和权重W3的和,即为N1;可以计算标签信息为E2的权重和,例如,计算权重W1和权重W2的和,即为N2;可以计算标签信息为E3的权重和,例如,计算权重W2和权重W3的和,即为N3。此时,需要对N1、N2和N3进行归一化处理。归一化处理过程为:分别计算N1/(N1+N2+N3)、N2/(N1+N2+N3),以及N3/(N1+N2+N3)的值,并将归一化处理之后的结果作为上述各类标签信息的权重值,即标签信息E1、标签信息E2和标签信息E3的权重值。
最后,就可以基于该权重值确定第一对象Ai的标签信息。若上述权重值中,N1/(N1+N2+N3)和N2/(N1+N2+N3)大于或者等于预设权重值,那么将N1/(N1+N2+N3)和N2/(N1+N2+N3)所对应的标签信息(标签信息E1、标签信息E2)作为第一对象Ai的标签信息。
需要说明的是,在本实施例中,针对每个第一对象,均采用上述所描述的方式对各个第一对象进行,此处不再一一赘述。通过上述描述可知,本申请通过列表信息中已标注标签信息的对象,对列表信息中未标注标签信息的对象进行标注的方式,能够更加准确的确定出列表信息中各个对象的标签信息,进而,通过该标签信息就能够对列表信息中的各个对象进行相应的学习分类。
需要说明的是,在本实施例中,如图7所示,在步骤S202之后,还包括如下步骤:
步骤S701,在所述至少一个列表信息中确定包含对象Bj的目标列表信息,其中,i依次取1至J,J为所述至少一个列表信息中对象的数量;
可选地,步骤S701,在所述至少一个列表信息中确定包含对象Bj的目标列表信息包括:在所述至少一个列表信息中确定携带主题信息的列表信息;以及,在所述携带主题信息的列表信息中确定包含对象Bj的目标列表信息。
步骤S702,基于所述目标列表信息的主题信息对所述对象Bj进行标注,并将标注标签信息的对象作为已标注对象。
在确定种子对象(即,已标注对象)时,是基于至少一个列表信息的主题信息来实现的。通过上述描述可知,上述至少一个列表信息中的部分或者全部列表信息携带一个或多个主题信息。为了提高数据处理的效率,可以从至少一个列表信息中确定携带主题信息的列表信息。之后,就可以根据携带主题信息的列表信息来对列表信息中的对象进行标注。在对列表信息中的对象进行标注之后,标注成功的对象称为已标注对象(或者种子对象)。
在确定出携带主题信息的列表信息之后,可以在携带主题信息的列表信息中确定包含对象Bj的目标列表信息,进而,根据该目标列表信息的主题信息对所述对象Bj进行标注,并将标注标签信息的对象作为已标注对象。
在根据目标列表信息的主题信息对所述对象Bj进行标注时,可以统计目标列表信息中各个主题信息在目标列表信息中的出现次数。
若所述出现次数中包含目标出现次数,则将所述目标出现次数所对应的主题信息确定为所述对象Bj的标签信息,并将所述对象Bj确定为已标注对象,其中,所述目标出现次数为所述出现次数中大于或者等于预设阈值的出现次数。
下面举例说明上述确定过程。假设该列表信息为歌单列表,歌单列表中包含J个歌曲。针对歌曲Bj,在本实施例中,首先在歌单列表中确定携带主题信息的歌单列表,然后,在携带主题信息的歌单列表中确定包含歌曲Bj的目标歌单列表。之后,统计目标歌单列表所携带各个主题信息在目标歌单列表中的出现次数。
例如,歌曲Bj在100个有标注的歌单中出现,这100个有标注的歌单即为上述目标歌单列表。将每个目标歌单列表的主题信息做计数累加,得到歌曲Bj:运动90,摇滚98,驾车60等等。其中,运动,摇滚和驾车即为上述主题信息,运动90表示运动在100个有标注的歌单中出现次数,摇滚98表示摇滚在100个有标注的歌单中出现次数,驾车60表示驾车在100个有标注的歌单中出现次数。
在本实施例中,如果上述出现次数中包含目标出现次数(即,大于预设阈值的出现次数),则将该目标出现次数所对应的主题信息确定为歌曲Bj的标签信息。在本实施例中,预设阈值可以为预先设定的数值,假设该预设阈值为预设比例值*目标歌单列表的数量,其中,预设比例值可以选择为0.6,除此之外,还可以选择为其他的比例值,本实施例中不做具体限定。基于此,歌曲Bj的标签信息就为:运动、摇滚、驾车。
图8是示出本申请的一些实施例的数据标注装置的框图,该数据标注装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件,如图所示,数据标注装置可以包括获取单元810、第一确定单元820和第二确定单元830。
获取单元810,用于获取至少一个列表信息,每个列表信息中包括至少一个对象,且所述至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;
第一确定单元820,用于基于所述列表信息确定与各个第一对象相关联的第二对象,其中,所述第一对象为所述至少一个列表信息中未标注标签信息的对象,所述第二对象的数量为一个或多个,且所述第二对象中包含已标注标签信息的对象;
第二确定单元830,用于基于所述第二对象的标签信息确定各个所述第一对象的标签信息。
在本实施例中,首先获取至少一个列表信息,其中,每个列表信息中包括至少一个对象,且至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;之后,可以基于列表信息确定与各个第一对象相关联的第二对象;最后,基于第二对象的标签信息确定各个所述第一对象的标签信息。通过上述描述可知,本申请通过列表信息中已标注标签信息的对象,对列表信息中未标注标签信息的对象进行标注的方式,能够更加准确的确定出列表信息中各个对象的标签信息,进而,通过该标签信息就能够对列表信息中的各个对象进行相应的学习分类。
可选地,所述第一确定单元包括:第一确定模块,用于基于所述列表信息确定主题分布信息,其中,所述主题分布信息比表示所述列表信息中的每个对象在所述一个或多个隐含主题中的分布信息,所述隐含主题为所述至少一个列表信息中包含的隐含主题;第二确定模块,用于基于所述主题分布信息确定与所述第一对象相关联的第二对象。
可选地,所述第一确定模块,用于:将所述列表信息输入到文本主题模型中进行处理;将处理结果作为所述主题分布信息。
可选地,所述主题分布信息为目标向量组,所述目标向量组中包括至少一个目标向量,且所述列表信息中的一个对象对应一个目标向量,所述目标向量中的每个向量表示对象所属于每个隐含主题的概率值。
可选地,所述第二确定模块,用于:在所述目标向量组中确定所述第一对象所对应的第一目标向量;计算所述第一目标向量和第二目标向量之间的相似度,其中,所述第二目标向量为所述目标向量中除所述第一目标向量之外的其他目标向量;根据所述相似度确定与所述第一对象相关联的第二对象。
可选地,所述相似度为多个,所述第二确定模块,还用于:确定多个所述相似度中目标相似度所对应的第二目标向量,其中,所述目标相似度为多个所述相似度中大于预设相似度的相似度;将所述目标相似度所对应的第二目标向量所属的对象确定为所述第二对象。
可选地,所述第二确定单元包括:利用第三确定模块和第四确定模块反复执行以下步骤,直至标注所述列表信息中的每个对象的标签信息:所述第三确定模块,用于在与第一对象Ai相关联的第二对象中确定已标注对象,其中,所述已标注对象为已标注标签信息的对象,i依次取1至I,I为所述列表信息中第一对象的数量;所述第四确定模块,用于利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
可选地,所述第四确定模块,还用于:判断所述第二对象中已标注对象的数量是否超过预设数量值;若是,则利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
可选地,所述已标注对象为多个,所述第四确定模块,还用于:基于相似度,并按照预设排序顺序对所述已标注对象进行排序,得到排序结果;基于所述排序结果计算所述已标注对象的权重;将所述权重确定为所述已标注对象所对应的标签信息的权重;计算多个所述已标注对象所对应的标签信息中相同类型的标签信息的权重和,得到各类标签信息的权重值;基于所述各类标签信息的权重值确定所述第一对象Ai的标签信息。
可选地,所述第四确定模块,还用于:将所述各类标签信息的权重值中目标权重值所对应的标签信息确定为所述第一对象Ai的标签信息,其中,所述目标权重值为所述各类标签信息的权重值中大于预设权重值的数值。
可选地,所述第四确定模块,还用于:利用公式W=1/(logR+1)计算所述已标注对象的权重,其中,W为所述权重,R为所述已标注对象在所述排序结果中的排序值。
可选地,在获取至少一个列表信息之后,所述装置还包括:第三确定单元,用于在所述至少一个列表信息中确定包含对象Bj的目标列表信息,其中,i依次取1至J,J为所述至少一个列表信息中对象的数量;标注单元,用于基于所述目标列表信息的主题信息对所述对象Bj进行标注,并将标注标签信息的对象作为已标注对象。
可选地,所述第三确定单元,用于:在所述至少一个列表信息中确定携带主题信息的列表信息;在所述携带主题信息的列表信息中确定包含对象Bj的目标列表信息。
可选地,所述标注单元,用于:统计所述目标列表信息所携带的各个主题信息在所述目标列表信息中的出现次数;基于所述出现次数对所述对象Bj进行标注。
可选地,所述标注单元,还用于:若所述出现次数中包含目标出现次数,则将所述目标出现次数所对应的主题信息确定为所述对象Bj的标签信息,并将所述对象Bj确定为已标注对象,其中,所述目标出现次数为所述出现次数中大于或者等于预设阈值的出现次数。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
在本申请中,还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一所述的数据标注的方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (32)

1.一种数据标注方法,其特征在于,包括:
获取至少一个列表信息,每个列表信息中包括至少一个对象,且所述至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;
基于所述列表信息确定与各个第一对象相关联的第二对象,其中,所述第一对象为所述至少一个列表信息中未标注标签信息的对象,所述第二对象的数量为一个或多个,且所述第二对象中包含已标注标签信息的对象;
基于所述第二对象的标签信息确定各个所述第一对象的标签信息。
2.根据权利要求1所述的方法,其特征在于,基于所述列表信息确定与第一对象相关联的第二对象包括:
基于所述列表信息确定主题分布信息,其中,所述主题分布信息比表示所述列表信息中的每个对象在所述一个或多个隐含主题中的分布信息,所述隐含主题为所述至少一个列表信息中包含的隐含主题;
基于所述主题分布信息确定与所述第一对象相关联的第二对象。
3.根据权利要求2所述的方法,其特征在于,基于所述列表信息确定主题分布信息包括:
将所述列表信息输入到文本主题模型中进行处理;
将处理结果作为所述主题分布信息。
4.根据权利要求2所述的方法,其特征在于,所述主题分布信息为目标向量组,所述目标向量组中包括至少一个目标向量,且所述列表信息中的一个对象对应一个目标向量,所述目标向量中的每个向量表示对象所属于每个隐含主题的概率值。
5.根据权利要求4所述的方法,其特征在于,基于所述主题分布信息确定与所述第一对象相关联的第二对象包括:
在所述目标向量组中确定所述第一对象所对应的第一目标向量;
计算所述第一目标向量和第二目标向量之间的相似度,其中,所述第二目标向量为所述目标向量中除所述第一目标向量之外的其他目标向量;
根据所述相似度确定与所述第一对象相关联的第二对象。
6.根据权利要求5所述的方法,其特征在于,所述相似度为多个,根据所述相似度确定与所述第一对象相关联的第二对象包括:
确定多个所述相似度中目标相似度所对应的第二目标向量,其中,所述目标相似度为多个所述相似度中大于预设相似度的相似度;
将所述目标相似度所对应的第二目标向量所属的对象确定为所述第二对象。
7.根据权利要求1所述的方法,其特征在于,基于所述第二对象的标签信息确定各个所述第一对象的标签信息包括:
反复执行以下步骤,直至标注所述列表信息中每个对象的标签信息:
在与第一对象Ai相关联的第二对象中确定已标注对象,其中,所述已标注对象为已标注标签信息的对象,i依次取1至I,I为所述列表信息中第一对象的数量;
利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
8.根据权利要求7所述的方法,其特征在于,利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息包括:
判断所述第二对象中已标注对象的数量是否超过预设数量值;
若是,则利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
9.根据权利要求7或8所述的方法,其特征在于,所述已标注对象为多个,利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息包括:
基于相似度,并按照预设排序顺序对所述已标注对象进行排序,得到排序结果;
基于所述排序结果计算所述已标注对象的权重;
将所述权重确定为所述已标注对象所对应的标签信息的权重;
计算多个所述已标注对象所对应的标签信息中相同类型的标签信息的权重和,得到各类标签信息的权重值;
基于所述各类标签信息的权重值确定所述第一对象Ai的标签信息。
10.根据权利要求9所述的方法,其特征在于,基于所述各类标签信息的权重值确定所述第一对象Ai的标签信息包括:
将所述各类标签信息的权重值中目标权重值所对应的标签信息确定为所述第一对象Ai的标签信息,其中,所述目标权重值为所述各类标签信息的权重值中大于预设权重值的数值。
11.根据权利要求9所述的方法,其特征在于,基于所述排序结果计算所述已标注对象的权重包括:
利用公式W=1/(logR+1)计算所述已标注对象的权重,其中,W为所述权重,R为所述已标注对象在所述排序结果中的排序值。
12.根据权利要求1所述的方法,其特征在于,在获取至少一个列表信息之后,所述方法还包括:
在所述至少一个列表信息中确定包含对象Bj的目标列表信息,其中,i依次取1至J,J为所述至少一个列表信息中对象的数量;
基于所述目标列表信息的主题信息对所述对象Bj进行标注,并将标注标签信息的对象作为已标注对象。
13.根据权利要求12所述的方法,其特征在于,在所述至少一个列表信息中确定包含对象Bj的目标列表信息包括:
在所述至少一个列表信息中确定携带主题信息的列表信息;
在所述携带主题信息的列表信息中确定包含对象Bj的目标列表信息。
14.根据权利要求13所述的方法,其特征在于,基于所述目标列表信息的主题信息对所述对象Bj进行标注包括:
统计所述目标列表信息所携带的各个主题信息在所述目标列表信息中的出现次数;
基于所述出现次数对所述对象Bj进行标注。
15.根据权利要求14所述的方法,其特征在于,基于所述出现次数对所述对象Bj进行标注包括:
若所述出现次数中包含目标出现次数,则将所述目标出现次数所对应的主题信息确定为所述对象Bj的标签信息,并将所述对象Bj确定为已标注对象,其中,所述目标出现次数为所述出现次数中大于或者等于预设阈值的出现次数。
16.一种数据标注装置,其特征在于,包括:
获取单元,用于获取至少一个列表信息,每个列表信息中包括至少一个对象,且所述至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;
第一确定单元,用于基于所述列表信息确定与各个第一对象相关联的第二对象,其中,所述第一对象为所述至少一个列表信息中未标注标签信息的对象,所述第二对象的数量为一个或多个,且所述第二对象中包含已标注标签信息的对象;
第二确定单元,用于基于所述第二对象的标签信息确定各个所述第一对象的标签信息。
17.根据权利要求16所述的装置,其特征在于,所述第一确定单元包括:
第一确定模块,用于基于所述列表信息确定主题分布信息,其中,所述主题分布信息比表示所述列表信息中的每个对象在所述一个或多个隐含主题中的分布信息,所述隐含主题为所述至少一个列表信息中包含的隐含主题;
第二确定模块,用于基于所述主题分布信息确定与所述第一对象相关联的第二对象。
18.根据权利要求17所述的装置,其特征在于,所述第一确定模块,用于:
将所述列表信息输入到文本主题模型中进行处理;
将处理结果作为所述主题分布信息。
19.根据权利要求17所述的装置,其特征在于,所述主题分布信息为目标向量组,所述目标向量组中包括至少一个目标向量,且所述列表信息中的一个对象对应一个目标向量,所述目标向量中的每个向量表示对象所属于每个隐含主题的概率值。
20.根据权利要求19所述的装置,其特征在于,所述第二确定模块,用于:
在所述目标向量组中确定所述第一对象所对应的第一目标向量;
计算所述第一目标向量和第二目标向量之间的相似度,其中,所述第二目标向量为所述目标向量中除所述第一目标向量之外的其他目标向量;
根据所述相似度确定与所述第一对象相关联的第二对象。
21.根据权利要求20所述的装置,其特征在于,所述相似度为多个,所述第二确定模块,还用于:
确定多个所述相似度中目标相似度所对应的第二目标向量,其中,所述目标相似度为多个所述相似度中大于预设相似度的相似度;
将所述目标相似度所对应的第二目标向量所属的对象确定为所述第二对象。
22.根据权利要求16所述的装置,其特征在于,所述第二确定单元包括:
利用第三确定模块和第四确定模块反复执行以下步骤,直至标注所述列表信息中的每个对象的标签信息:
所述第三确定模块,用于在与第一对象Ai相关联的第二对象中确定已标注对象,其中,所述已标注对象为已标注标签信息的对象,i依次取1至I,I为所述列表信息中第一对象的数量;
所述第四确定模块,用于利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
23.根据权利要求22所述的装置,其特征在于,所述第四确定模块,还用于:
判断所述第二对象中已标注对象的数量是否超过预设数量值;
若是,则利用所述已标注对象的标签信息确定所述第一对象Ai的标签信息。
24.根据权利要求22或23所述的装置,其特征在于,所述已标注对象为多个,所述第四确定模块,还用于:
基于相似度,并按照预设排序顺序对所述已标注对象进行排序,得到排序结果;
基于所述排序结果计算所述已标注对象的权重;
将所述权重确定为所述已标注对象所对应的标签信息的权重;
计算多个所述已标注对象所对应的标签信息中相同类型的标签信息的权重和,得到各类标签信息的权重值;
基于所述各类标签信息的权重值确定所述第一对象Ai的标签信息。
25.根据权利要求24所述的装置,其特征在于,所述第四确定模块,还用于:
将所述各类标签信息的权重值中目标权重值所对应的标签信息确定为所述第一对象Ai的标签信息,其中,所述目标权重值为所述各类标签信息的权重值中大于预设权重值的数值。
26.根据权利要求24所述的装置,其特征在于,所述第四确定模块,还用于:
利用公式W=1/(logR+1)计算所述已标注对象的权重,其中,W为所述权重,R为所述已标注对象在所述排序结果中的排序值。
27.根据权利要求16所述的装置,其特征在于,在获取至少一个列表信息之后,所述装置还包括:
第三确定单元,用于在所述至少一个列表信息中确定包含对象Bj的目标列表信息,其中,i依次取1至J,J为所述至少一个列表信息中对象的数量;
标注单元,用于基于所述目标列表信息的主题信息对所述对象Bj进行标注,并将标注标签信息的对象作为已标注对象。
28.根据权利要求27所述的装置,其特征在于,所述第三确定单元,用于:
在所述至少一个列表信息中确定携带主题信息的列表信息;
在所述携带主题信息的列表信息中确定包含对象Bj的目标列表信息。
29.根据权利要求28所述的装置,其特征在于,所述标注单元,用于:
统计所述目标列表信息所携带的各个主题信息在所述目标列表信息中的出现次数;
基于所述出现次数对所述对象Bj进行标注。
30.根据权利要求29所述的装置,其特征在于,所述标注单元,还用于:
若所述出现次数中包含目标出现次数,则将所述目标出现次数所对应的主题信息确定为所述对象Bj的标签信息,并将所述对象Bj确定为已标注对象,其中,所述目标出现次数为所述出现次数中大于或者等于预设阈值的出现次数。
31.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至15中任一所述的数据标注方法的步骤。
32.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至15中任一所述的数据标注方法的步骤。
CN201910138887.3A 2019-02-25 2019-02-25 数据标注方法、装置、电子设备及计算机可读存储介质 Active CN111611429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910138887.3A CN111611429B (zh) 2019-02-25 2019-02-25 数据标注方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910138887.3A CN111611429B (zh) 2019-02-25 2019-02-25 数据标注方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111611429A true CN111611429A (zh) 2020-09-01
CN111611429B CN111611429B (zh) 2023-05-12

Family

ID=72197962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910138887.3A Active CN111611429B (zh) 2019-02-25 2019-02-25 数据标注方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111611429B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178383A1 (en) * 2013-12-20 2015-06-25 Google Inc. Classifying Data Objects
CN105718575A (zh) * 2016-01-22 2016-06-29 华南理工大学 基于爬虫的贴音乐标签方法及系统
CN108268544A (zh) * 2016-12-30 2018-07-10 北京酷我科技有限公司 一种歌曲的标注方法及系统
CN108334601A (zh) * 2018-01-31 2018-07-27 腾讯音乐娱乐科技(深圳)有限公司 基于标签主题模型的歌曲推荐方法、装置及存储介质
CN108629358A (zh) * 2017-03-23 2018-10-09 北京嘀嘀无限科技发展有限公司 对象类别的预测方法及装置
CN108829800A (zh) * 2018-05-29 2018-11-16 努比亚技术有限公司 一种搜索数据处理方法、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178383A1 (en) * 2013-12-20 2015-06-25 Google Inc. Classifying Data Objects
CN105718575A (zh) * 2016-01-22 2016-06-29 华南理工大学 基于爬虫的贴音乐标签方法及系统
CN108268544A (zh) * 2016-12-30 2018-07-10 北京酷我科技有限公司 一种歌曲的标注方法及系统
CN108629358A (zh) * 2017-03-23 2018-10-09 北京嘀嘀无限科技发展有限公司 对象类别的预测方法及装置
CN108334601A (zh) * 2018-01-31 2018-07-27 腾讯音乐娱乐科技(深圳)有限公司 基于标签主题模型的歌曲推荐方法、装置及存储介质
CN108829800A (zh) * 2018-05-29 2018-11-16 努比亚技术有限公司 一种搜索数据处理方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111611429B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
JP6629678B2 (ja) 機械学習装置
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
CN103324620B (zh) 一种对标注结果进行纠偏的方法和装置
US20080208840A1 (en) Diverse Topic Phrase Extraction
CN108845988B (zh) 一种实体识别方法、装置、设备及计算机可读存储介质
JP2015518220A (ja) オンライン商品検索方法およびシステム
JP2010541092A5 (zh)
CN107545038A (zh) 一种文本分类方法与设备
CN108932648A (zh) 一种预测商品属性数据及训练其模型的方法和装置
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
CN112307239A (zh) 一种图像检索方法、装置、介质和设备
CN105069129A (zh) 自适应多标签预测方法
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN105912575A (zh) 文字信息推送方法和装置
Angelovska et al. Siamese neural networks for detecting complementary products
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
CN117708157A (zh) 一种sql语句生成方法和装置
CN109146606B (zh) 一种品牌推荐方法、电子设备、存储介质及系统
Tkachenko et al. Comparative relation generative model
CN111611353B (zh) 筛选方法、装置、电子设备及计算机可读存储介质
CN111611429B (zh) 数据标注方法、装置、电子设备及计算机可读存储介质
Langfelder et al. Package ‘WGCNA’
US20110113006A1 (en) Business process control apparatus, businesses process control method and business process control program
CN112069322B (zh) 文本多标签分析方法、装置、电子设备及存储介质
CN115617978A (zh) 指标名称检索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant