CN110543862B - 数据获取方法、装置及存储介质 - Google Patents

数据获取方法、装置及存储介质 Download PDF

Info

Publication number
CN110543862B
CN110543862B CN201910839264.9A CN201910839264A CN110543862B CN 110543862 B CN110543862 B CN 110543862B CN 201910839264 A CN201910839264 A CN 201910839264A CN 110543862 B CN110543862 B CN 110543862B
Authority
CN
China
Prior art keywords
user
original data
identifier
data
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910839264.9A
Other languages
English (en)
Other versions
CN110543862A (zh
Inventor
张志伟
王希爱
郑仲奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201910839264.9A priority Critical patent/CN110543862B/zh
Publication of CN110543862A publication Critical patent/CN110543862A/zh
Application granted granted Critical
Publication of CN110543862B publication Critical patent/CN110543862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Abstract

本公开是关于一种数据获取方法、装置及存储介质,属于计算机技术领域。该方法包括:根据网络模型的识别对象,获取多个第一用户标识;对多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识;对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重;从多个第一用户标识中选取至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据。第二用户标识对应的原始数据中不属于识别对象的目标数据较少,提高了待标注的目标数据的纯度,提高了技术人员筛选目标数据的速度,进而提高了标注效率。

Description

数据获取方法、装置及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据获取方法、装置及存储介质。
背景技术
随着计算机技术的快速发展以及人工智能技术的逐渐成熟,基于人工智能技术训练的网络模型广泛应用于人脸识别、物体识别等多种领域。在训练网络模型之前,通常先获取待标注的目标数据,对目标数据进行标注后,基于标注得到的样本数据训练网络模型。因此,如何获取待标注的目标数据成为亟待解决的问题。
相关技术中,需要训练的网络模型具有识别对象,该网络模型的作用在于获取属于该识别对象的数据。例如,人脸识别模型的识别对象为人脸图像中的人脸区域,物体识别模型的识别对象为图像中的某一特定类型的物体。因此,技术人员根据网络模型的识别对象,人工查找与该识别对象匹配的多个数据,作为待标注的目标数据,之后,技术人员从该多个目标数据中筛选出属于识别对象的目标数据,将筛选出的目标数据标注为正样本数据,再基于标注好的多个正样本数据训练网络模型。
但是,待标注的多个目标数据的纯度较低,可能存在较多不属于该识别对象的目标数据,导致技术人员筛选出属于识别对象的目标数据的速度较慢,标注效率较低。
发明内容
本公开提供了一种数据获取方法、装置及存储介质,可以克服相关技术中目标数据的纯度低,技术人员标注效率低的问题。
根据本公开实施例的第一方面,提供一种数据获取方法,所述方法包括:
根据网络模型的识别对象,获取多个第一用户标识,所述第一用户标识对应的至少一个原始数据与所述识别对象匹配;
对所述多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识;
对于每个第一用户标识,根据所述第一用户标识对应的每个原始数据的聚类标识,确定所述第一用户标识的权重,所述权重用于表示所述第一用户标识对应的原始数据的离散程度;
从所述多个第一用户标识中选取至少一个第二用户标识,获取所述至少一个第二用户标识对应的原始数据,作为待标注的目标数据,所述至少一个第二用户标识的权重小于所述多个第一用户标识中的其他第一用户标识的权重。
在一种可能实现方式中,所述根据网络模型的识别对象,获取多个第一用户标识,包括:
基于所述识别对象在数据库中进行检索,得到与所述识别对象匹配的多个原始数据,所述数据库用于存储任一用户标识发布的原始数据;
获取所述多个原始数据中的每个原始数据的发布用户标识,得到多个第一用户标识。
在另一种可能实现方式中,所述根据网络模型的识别对象,获取多个第一用户标识,包括:
基于所述识别对象在数据库中进行检索,得到与所述识别对象匹配的多个原始数据,所述数据库用于存储任一用户标识发布的原始数据;
获取所述多个原始数据中的每个原始数据的发布用户标识,得到多个第三用户标识;
获取所述多个第三用户标识中每个用户标识的关注用户数量;
从所述多个第三用户标识中选取多个第一用户标识,所述多个第一用户标识的关注用户数量大于所述多个第三用户标识中的其他用户标识的关注用户数量。
在另一种可能实现方式中,所述根据网络模型的识别对象,获取多个第一用户标识之后,所述方法还包括:
对于所述每个第一用户标识,获取所述第一用户标识对应的多个原始数据;
根据所述多个原始数据的优先级,对所述多个原始数据进行过滤处理,以使过滤后剩余的原始数据的优先级大于被过滤的原始数据的优先级。
在另一种可能实现方式中,所述根据所述第一用户标识对应的至少一个原始数据的聚类标识,确定所述第一用户标识的权重,包括:
根据所述第一用户标识对应的至少一个原始数据的数量以及所述至少一个原始数据的聚类标识,获取所述第一用户标识对应的每个聚类标识的出现比例;
基于所述每个聚类标识的出现比例,确定所述第一用户标识的权重。
在另一种可能实现方式中,所述基于所述每个聚类标识的出现比例,确定所述第一用户标识的权重,包括:
基于所述每个聚类标识的出现比例,采用以下公式,确定所述第一用户标识的权重:
Figure BDA0002193166290000031
其中,Hx表示所述第一用户标识的权重,i表示第i个聚类标识,Pi表示第i个聚类标识的出现比例,n表示所述第一用户标识对应的聚类标识的数量。
在另一种可能实现方式中,所述对所述多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识,包括:
基于特征提取模型,提取所述每个原始数据的数据特征;
对提取的多个数据特征进行聚类,得到每个数据特征的聚类标识,分别作为所述每个数据特征所属原始数据的聚类标识。
在另一种可能实现方式中,所述获取所述至少一个第二用户标识对应的原始数据,作为待标注的目标数据,包括:
对于每个第二用户标识,获取所述第二用户标识对应的多个原始数据;
从所述多个原始数据中获取待标注的目标数据,所述目标数据的优先级大于所述多个原始数据中的其他原始数据的优先级。
在另一种可能实现方式中,所述网络模型为人脸识别模型、物体识别模型或者图像分类模型。
根据本公开实施例的第二方面,提供一种数据获取装置,所述装置包括:
标识获取模块,用于根据网络模型的识别对象,获取多个第一用户标识,所述第一用户标识对应的至少一个原始数据与所述识别对象匹配;
聚类模块,用于对所述多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识;
确定模块,用于对于每个第一用户标识,根据所述第一用户标识对应的每个原始数据的聚类标识,确定所述第一用户标识的权重,所述权重用于表示所述第一用户标识对应的原始数据的离散程度;
第一数据获取模块,用于从所述多个第一用户标识中选取至少一个第二用户标识,获取所述至少一个第二用户标识对应的原始数据,作为待标注的目标数据,所述至少一个第二用户标识的权重小于所述多个第一用户标识中的其他第一用户标识的权重。
在一种可能实现方式中,所述标识获取模块,包括:
检索单元,用于基于所述识别对象在数据库中进行检索,得到与所述识别对象匹配的多个原始数据,所述数据库用于存储任一用户标识发布的原始数据;
标识获取单元,用于获取所述多个原始数据中的每个原始数据的发布用户标识,得到多个第一用户标识。
在另一种可能实现方式中,所述标识获取模块,包括:
检索单元,用于基于所述识别对象在数据库中进行检索,得到与所述识别对象匹配的多个原始数据,所述数据库用于存储任一用户标识发布的原始数据;
标识获取单元,用于获取所述多个原始数据中的每个原始数据的发布用户标识,得到多个第三用户标识;
数量获取单元,用于获取所述多个第三用户标识中每个用户标识的关注用户数量;
选取单元,用于从所述多个第三用户标识中选取多个第一用户标识,所述多个第一用户标识的关注用户数量大于所述多个第三用户标识中的其他用户标识的关注用户数量。
在另一种可能实现方式中,所述装置还包括:
第二数据获取模块,用于对于所述每个第一用户标识,获取所述第一用户标识对应的多个原始数据;
过滤模块,用于根据所述多个原始数据的优先级,对所述多个原始数据进行过滤处理,以使过滤后剩余的原始数据的优先级大于被过滤的原始数据的优先级。
在另一种可能实现方式中,所述确定模块,包括:
比例获取单元,用于根据所述第一用户标识对应的至少一个原始数据的数量以及所述至少一个原始数据的聚类标识,获取所述第一用户标识对应的每个聚类标识的出现比例;
确定单元,用于基于所述每个聚类标识的出现比例,确定所述第一用户标识的权重。
在另一种可能实现方式中,所述确定单元,还用于:
基于所述每个聚类标识的出现比例,采用以下公式,确定所述第一用户标识的权重:
Figure BDA0002193166290000041
其中,Hx表示所述第一用户标识的权重,i表示第i个聚类标识,Pi表示第i个聚类标识的出现比例,n表示所述第一用户标识对应的聚类标识的数量。
在另一种可能实现方式中,所述聚类模块,包括:
特征提取单元,用于基于特征提取模型,提取所述每个原始数据的数据特征;
聚类单元,用于对提取的多个数据特征进行聚类,得到每个数据特征的聚类标识,分别作为所述每个数据特征所属原始数据的聚类标识。
在另一种可能实现方式中,所述第一数据获取模块,包括:
第一数据获取单元,用于对于每个第二用户标识,获取所述第二用户标识对应的多个原始数据;
第二数据获取单元,用于从所述多个原始数据中获取待标注的目标数据,所述目标数据的优先级大于所述多个原始数据中的其他原始数据的优先级。
在另一种可能实现方式中,所述网络模型为人脸识别模型、物体识别模型或者图像分类模型。
根据本公开实施例提供的第三方面,提供一种电子设备,所述电子设备包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行命令的易失性或非易失性存储器;
其中,所述一个或多个处理器被配置为执行如第一方面所述的数据获取方法。
根据本公开实施例提供的第四方面,提供一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的数据获取方法。
根据本公开实施例提供的第五方面,提供一种计算机程序产品,当所述计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的数据获取方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
根据网络模型的识别对象,获取多个第一用户标识,对第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识,对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重,从多个第一用户标识中选取权重较小的至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据。由于第二用户标识的权重较小,代表第二用户标识对应的原始数据的离散程度较小,即第二用户标识对应的原始数据的种类较为稳定,第二用户标识对应的原始数据中不属于识别对象的目标数据较少,提高了待标注的目标数据的纯度,提高了技术人员筛选目标数据的速度,进而提高了标注效率。
并且,按照第一用户标识的用户关注数量筛选出热门程度较高的第一用户标识,可以认为第一用户标识发布的原始数据的种类较稳定,因此根据筛选出来的第一用户标识获取该第一用户标识对应的原始数据,这些原始数据中不属于识别对象的数据较少,可以提高目标数据的纯度,进而提高技术人员筛选出属于识别对象的目标数据的速度,提高标注效率。
并且,如果某一用户标识仅对应一个与识别对象匹配的原始数据,采用上述方式会确定该用户标识对应的原始数据的离散程度很低,将该用户标识误确定为第一用户标识。但是后续过程中该第一用户标识发布的原始数据如果与识别对象不匹配,会导致获取的目标数据的纯度降低。为了避免上述情况,本公开实施例获取用户关注数量较大的第一用户标识,也即是获取热门程度较高的第一用户标识,可以将热门程度较低的用户标识排除。
并且,通过从数据库中筛选与识别对象匹配的原始数据,可以初步获取与识别对象相关的原始数据,将与识别对象无关的原始数据过滤,以提高获取的原始数据的纯度。获取每个原始数据的发布用户标识,排除获取转发原始数据的用户标识的情况,保证获取到的用户标识均为对原始数据喜好程度较高的用户,提高后续获取的目标数据的纯度。
并且,通过获取优先级较高的原始数据,将优先级较低的原始数据滤除,由于过滤后得到的原始数据的优先级较高,因此后续过程中即可根据这些原始数据获取待标注的目标数据,提高了确定目标数据的准确性。
并且,获取第二用户标识对应的多个原始数据后,继续筛选出优先级较高的原始数据作为待标注的目标数据,获取的目标数据为第二用户标识发布的具有代表性的数据,因此,目标数据属于识别对象的可能性越大,实现了对原始数据的清洗和蒸馏,以提高获取的目标数据的纯度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种实施环境的结构示意图。
图2是根据一示例性实施例示出的一种数据获取方法的流程图。
图3是根据一示例性实施例示出的一种数据获取方法的流程图。
图4是根据一示例性实施例示出的一种数据获取装置的结构示意图。
图5是根据一示例性实施例示出的另一种数据获取装置的结构示意图。
图6是根据一示例性实施例示出的一种终端的框图。
图7是根据一示例性实施例示出的一种服务器的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例提供的方法,可以应用于服务器中,通过服务器收集用户标识发布的原始数据,该服务器从收集的原始数据中获取与网络模型的识别对象匹配的原始数据,获取该原始数据对应的多个第一用户标识,从多个第一用户标识中选取权重较小的第二用户标识,将第二用户标识对应的原始数据作为待标注的目标数据。
其中,该服务器可以为一台服务器,或者由若干服务器组成的服务器集群,或者是一个云计算服务中心。
或者,本公开实施例提供的方法,可以应用于终端中,如图1所示,终端101与服务器102通过通信网络连接。服务器102收集用户标识发布的原始数据,终端101向服务器102发送数据获取请求,服务器102基于数据获取请求将收集的原始数据发送给终端101,终端101即可从接收的原始数据中获取与网络模型的识别对象匹配的原始数据,获取该原始数据对应的多个第一用户标识,从多个第一用户标识中选取权重较小的第二用户标识,将第二用户标识对应的原始数据作为待标注的目标数据。
其中,该终端可以为手机、平板电脑、计算机等。
本公开实施例提供的方法,可以应用于训练网络模型的场景中,在训练模型之前,采用本公开实施例提供的方法,即可获取多个待标注的目标数据,技术人员对多个目标数据进行标注后,即可获取标注后的多个样本数据,基于多个样本数据对模型进行训练。
图2是根据一示例性实施例示出的一种数据获取方法的流程图。参见图2,该方法包括:
在步骤201中,根据网络模型的识别对象,获取多个第一用户标识,第一用户标识对应的至少一个原始数据与识别对象匹配。
在步骤202中,对多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识。
在步骤203中,对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重,权重用于表示第一用户标识对应的原始数据的离散程度。
在步骤204中,从多个第一用户标识中选取至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据,至少一个第二用户标识的权重小于多个第一用户标识中的其他第一用户标识的权重。
本公开实施例提供的方法,根据网络模型的识别对象,获取多个第一用户标识,对第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识,对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重,从多个第一用户标识中选取权重较小的至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据。由于第二用户标识的权重较小,代表第二用户标识对应的原始数据的离散程度较小,即第二用户标识对应的原始数据的种类较为稳定,第二用户标识对应的原始数据中不属于识别对象的目标数据较少,提高了待标注的目标数据的纯度,提高了技术人员筛选目标数据的速度,进而提高了标注效率。
在一种可能实现方式中,根据网络模型的识别对象,获取多个第一用户标识,包括:
基于识别对象在数据库中进行检索,得到与识别对象匹配的多个原始数据,数据库用于存储任一用户标识发布的原始数据;
获取多个原始数据中的每个原始数据的发布用户标识,得到多个第一用户标识。
在另一种可能实现方式中,根据网络模型的识别对象,获取多个第一用户标识,包括:
基于识别对象在数据库中进行检索,得到与识别对象匹配的多个原始数据,数据库用于存储任一用户标识发布的原始数据;
获取多个原始数据中的每个原始数据的发布用户标识,得到多个第三用户标识;
获取多个第三用户标识中每个用户标识的关注用户数量;
从多个第三用户标识中选取多个第一用户标识,多个第一用户标识的关注用户数量大于多个第三用户标识中的其他用户标识的关注用户数量。
在另一种可能实现方式中,根据网络模型的识别对象,获取多个第一用户标识之后,方法还包括:
对于每个第一用户标识,获取第一用户标识对应的多个原始数据;
根据多个原始数据的优先级,对多个原始数据进行过滤处理,以使过滤后剩余的原始数据的优先级大于被过滤的原始数据的优先级。
在另一种可能实现方式中,根据第一用户标识对应的至少一个原始数据的聚类标识,确定第一用户标识的权重,包括:
根据第一用户标识对应的至少一个原始数据的数量以及至少一个原始数据的聚类标识,获取第一用户标识对应的每个聚类标识的出现比例;
基于每个聚类标识的出现比例,确定第一用户标识的权重。
在另一种可能实现方式中,基于每个聚类标识的出现比例,确定第一用户标识的权重,包括:
基于每个聚类标识的出现比例,采用以下公式,确定第一用户标识的权重:
Figure BDA0002193166290000091
其中,Hx表示第一用户标识的权重,i表示第i个聚类标识,Pi表示第i个聚类标识的出现比例,n表示第一用户标识对应的聚类标识的数量。
在另一种可能实现方式中,对多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识,包括:
基于特征提取模型,提取每个原始数据的数据特征;
对提取的多个数据特征进行聚类,得到每个数据特征的聚类标识,分别作为每个数据特征所属原始数据的聚类标识。
在另一种可能实现方式中,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据,包括:
对于每个第二用户标识,获取第二用户标识对应的多个原始数据;
从多个原始数据中获取待标注的目标数据,目标数据的优先级大于多个原始数据中的其他原始数据的优先级。
在另一种可能实现方式中,网络模型为人脸识别模型、物体识别模型或者图像分类模型。
图3是根据一示例性实施例示出的一种数据获取方法的流程图。参见图3,应用于服务器中,该方法包括:
在步骤301中,基于网络模型的识别对象在数据库中进行检索,得到与识别对象匹配的多个原始数据。
本公开实施例应用于训练网络模型的场景,所需训练的网络模型具有识别对象,该识别对象是指应用该网络模型识别的对象。该网络模型可以为人脸识别模型、物体识别模型、图像分类模型或者其他类型的模型。例如网络模型为人脸识别模型时,该识别对象可以为人脸图像中的人脸区域。当网络模型为物体识别模型时,该识别对象可以为图像中的某一特定类型的物体,例如可以为汽车、动物、房子或者其他物体。
训练网络模型所用的样本数据可能包括属于识别对象的正样本数据以及不属于识别对象的负样本数据,对网络模型进行训练时,需要基于正样本数据实现,而将负样本数据滤除。因此,需要获取待标注的多个数据,分别对每个数据进行标注,以筛选出正样本数据。其中,待标注的数据中正样本数据越多,表示待标注数据的纯度越高,而待标注的数据中正样本数据越少,表示待标注数据的纯度越低。
本公开实施例采用多个用户标识对应的原始数据来选取待标注的目标数据。其中,数据库用于存储多个用户标识对应的原始数据。该用户标识用于唯一表示对应的用户,例如可以为用户账号、用户昵称、手机号等。该用户标识对应的原始数据包括该用户标识发布的数据、该用户标识上传的数据或者该用户标识通过其他方式提供的数据。该原始数据可以包括视频、音频、图片等。
例如,当用户标识通过视频播放应用发布视频时,与该视频播放应用对应的服务器即可将用户标识发布的视频存储在数据库中,也即是数据库中的原始数据为视频。或者,当用户标识通过图片分享应用发布图片时,与该图片分享应用对应的服务器即可将用户标识发布的图片存储在数据库中,也即是数据库中的原始数据为图片。
通过从数据库中筛选与识别对象匹配的原始数据,可以初步获取与识别对象相关的原始数据,将与识别对象无关的原始数据过滤,以提高获取的原始数据的纯度。
在步骤302中,获取多个原始数据中的每个原始数据的发布用户标识,得到多个第三用户标识。
数据库中的原始数据均为用户标识发布的数据,也即是每个原始数据对应一个发布用户标识,因此可以获取多个原始数据中每个原始数据的发布用户标识,得到多个第三用户标识。
本公开实施例获取每个原始数据的发布用户标识,排除获取转发原始数据的用户标识的情况,保证获取到的用户标识均为对原始数据喜好程度较高的用户,提高后续获取的目标数据的纯度。
需要说明的是,本公开实施例提供的步骤301-302为可选步骤。在另一实施例中,还可以不执行步骤301-302,可以直接根据网络模型的识别对象,获取与识别对象匹配的至少一个原始数据,再获取每个原始数据的发布用户标识。
在步骤303中,获取多个第三用户标识中每个用户标识的关注用户数量。
任一用户标识可以关注另一个用户标识,从而能够快速查看对方用户的动态信息,或者与对方用户进行即时通信。则对于任一个用户标识,关注该用户标识的其他用户标识的数量即为该用户标识的关注用户数量。相应的,多个第三用户标识中的每个第三用户标识具有关注用户数量,第三用户标识对应的关注用户数量用于表示该第三用户标识的热门程度,也即是第三用户标识对应的关注用户数量越大,表示该第三用户标识的热门程度越高,而第三用户标识对应的关注用户数量越小,表示该第三用户标识的热门程度越低。
在步骤304中,从多个第三用户标识中选取多个第一用户标识,多个第一用户标识的关注用户数量大于多个第三用户标识中的其他用户标识的关注用户数量。
从获取的多个第三用户标识中选取多个第一用户标识,且该多个第一用户标识的关注用户数量大于多个第三用户标识中的其他用户标识的关注用户数量。也即是,从获取的多个第三用户标识中获取了热门程度较高的第一用户标识。
在一种可能实现方式中,按照关注用户数量由大到小的顺序对多个第三用户标识进行排序,选取前第一预设数量的用户标识作为第一用户标识。或者,按照关注用户数量由小到大的顺序对多个第三用户标识进行排序,选取后第一预设数量的用户标识作为第一用户标识。
其中,该第一预设数量由服务器设置,或者由技术人员设置。该第一预设数量可以为5、10、20或者其他数值。
在另一种可能实现方式中,从多个第三用户标识中选取用户关注数量大于预设关注数量的用户标识作为第一用户标识。
其中,该预设关注数量由服务器设置,或者由技术人员设置。该预设关注数量可以为1000、5000、10000或者其他数值。
本公开实施例从多个第三用户标识中选取用户关注数量较大的第一用户标识,也即是选取了热门程度较高的用户标识,且可以认为这些热门程度较高的第三用户标识对应的原始数据的种类较为稳定。
例如,对于短视频应用来说,任一用户标识可以通过该短视频应用发布短视频。当第一用户标识通过短视频应用发布美妆短视频时,其他用户标识可能对该第一用户标识发布的美妆短视频感兴趣,那么其他用户标识可以关注该第一用户标识,后续当该第一用户标识继续发布新的美妆短视频时,其他用户标识可以及时观看该第一用户标识发布的新的美妆短视频,也即是可以认为该第一用户标识的关注用户数量越多,表示该第一用户标识发布的短视频的种类越统一,发布的短视频的种类越稳定。
而当第一用户标识在短视频应用中发布的短视频的种类很多时,也即是该第一用户标识可以发布美妆短视频、体育短视频、游戏短视频等,那么其他用户标识很难确定该第一用户标识发布的短视频的种类,即使其他用户标识可能对某些短视频感兴趣,但由于第一用户标识发布的短视频的种类较多,这些其他用户标识有很大的可能性不会关注该第一用户标识,也即是可以认为该第一用户标识的关注用户数量越少,表示该第一用户标识发布的短视频的种类越多,发布的短视频越不稳定。
由于可以认为选取的热门程度较高的用户标识对应的原始数据的种类较为稳定,获取该用户标识对应的原始数据,后续可以提高获取的目标数据的准确性。
需要说明的是,本公开实施例提供的步骤303-304仅为可选步骤。在另一实施例中,还可以不执行步骤303-304,直接将步骤302获取的发布用户标识作为第一用户标识即可。
在步骤305中,对多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识。
获取到多个第一用户标识后,即可获取每个第一用户标识发布的原始数据,将该多个第一用户标识中每个第一用户标识发布的原始数据构成原始数据集合,也即是该原始数据集合中包括多个第一用户标识发送的原始数据。
对该原始数据集合中包括的多个原始数据进行聚类,从而将多个原始数据划分为至少一个聚类,得到每个原始数据的聚类标识。进行聚类时,可以采用Kmeans(基于均值聚类)算法、DBScan(基于密度聚类)算法或者其他聚类算法。
在一种可能实现方式中,在对多个原始数据进行聚类的过程中,基于特征提取模型,分别将每个原始数据输入至特征提取模型中,提取每个原始数据的数据特征,对提取的多个数据特征进行聚类,属于同一聚类的数据特征具有相同的聚类标识,因此可以得到每个数据特征的聚类标识,分别作为每个数据特征所属原始数据的聚类标识。
其中,该特征提取模型由训练装置训练,训练装置将训练好的特征提取模型发送给服务器,由服务器存储。或者,该特征提取模型由服务器训练,将训练得到的特征提取模型存储。
可选地,对于每个第一用户标识,获取第一用户标识对应的多个原始数据,根据多个原始数据的优先级,对多个原始数据进行过滤处理,以使过滤后剩余的原始数据的优先级大于被过滤的原始数据的优先级。
其中,原始数据的优先级可以为发布时间、播放次数或者为其他类型的数据。
当原始数据的优先级由发布时间表示时,原始数据的发布时间越早,该原始数据的优先级越低,而该原始数据的发布时间越晚,该原始数据的优先级越高。或者,当原始数据的优先级由播放次数表示时,原始数据的播放次数越大,该原始数据的优先级越高,而该原始数据的播放次数越小,该原始数据的优先级越低。
在一种可能实现方式中,按照优先级由高到低的顺序将多个原始数据进行排序,将后第二预设数量的原始数据过滤。或者,按照优先级由低到高的顺序将多个原始数据进行排序,将前第二预设数量的原始数据过滤。
其中,该第二预设数量由服务器设置,或者由技术人员设置。该第二预设数量可以为5、10、20或者其他数值。
在另一种可能实现方式中,将多个原始数据中优先级小于第一预设优先级的原始数据过滤。
其中,该第一预设优先级由服务器设置,或者由技术人员设置。
本公开实施例通过获取优先级较高的原始数据,将优先级较低的原始数据滤除,由于过滤后得到的原始数据的优先级较高,因此后续过程中即可根据这些原始数据获取待标注的目标数据,提高了确定目标数据的准确性。
在步骤306中,对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重。
每个第一用户标识对应多个原始数据,且该多个原始数据中的每个原始数据对应有聚类标识,因此,根据每个原始数据的聚类标识,即可确定第一用户标识的权重。
其中,第一用户标识的权重用于表示第一用户标识对应的原始数据的离散程度,从而能够表示第一用户标识对应的原始数据的种类稳定性。
也即是第一用户标识的权重越大,表示该第一用户标识对应的原始数据的离散程度越大,第一用户标识对应的多个原始数据的种类越多,即第一用户标识对应的原始数据的种类越不稳定。而第一用户标识的权重越小,表示该第一用户标识对应的原始数据的离散程度越小,第一用户标识对应的多个原始数据的种类越少,即第一用户标识对应的原始数据的种类越稳定。
在一种可能实现方式中,该第一用户标识的权重可以为第一用户标识的信息熵,或者还可以为其他类型用于表示原始数据的离散程度的数据。
在一种可能实现方式中,根据第一用户标识对应的至少一个原始数据的数量以及至少一个原始数据的聚类标识,获取第一用户标识对应的每个聚类标识的出现比例,基于每个聚类标识的出现比例,确定第一用户标识的权重。
获取第一用户标识对应的至少一个原始数据的数量,作为第一数量,对于第一用户标识对应的每个聚类标识,获取该第一数量的原始数据中,该聚类标识对应的原始数据的数量,作为第二数量,计算第二数量与第一数量的比例,作为该聚类标识的出现比例,基于获取的第一用户标识对应的每个聚类标识的出现比例,即可确定第一用户标识的权重。
例如,第一用户标识对应的原始数据包括数据A、数据B、数据C、数据D和数据E,采用聚类标识“1”、“2”和“3”对该第一用户标识对应的多个原始数据进行聚类,则多个原始数据对应的聚类标识分别为[“1”、“2”、“3”、“1”、“3”],则第一用户标识的原始数据的数量为5,聚类标识1对应的原始数据的数量为2,聚类标识2对应的原始数据的数量为1,聚类标识3对应的原始数据的数量为2,聚类标识1的出现比例为0.4,聚类标识2的出现比例为0.2,聚类标识3的出现比例为0.4,那么第一用户标识对应的出现比例构成的向量为[0.4、0.2、0.4],根据向量中的的出现比例,即可确定第一用户标识的权重。
在一种可能实现方式中,基于每个聚类标识的出现比例,采用以下公式,确定第一用户标识的权重:
Figure BDA0002193166290000141
其中,Hx表示第一用户标识的权重,i表示第i个聚类标识,Pi表示第i个聚类标识的出现比例,n表示第一用户标识对应的聚类标识的数量。
在步骤307中,从多个第一用户标识中选取至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据,至少一个第二用户标识的权重小于多个第一用户标识中的其他第一用户标识的权重。
第一用户标识的权重用于表示第一用户标识对应的原始数据的离散程度,获取的第二用户标识的权重较小,也即是第二用户标识对应的原始数据的离散程度较小,因此,将至少一个第二用户标识对应的原始数据作为待标注的目标数据,获取的目标数据属于识别对象的可能性越大,提高了获取的目标数据的纯度。
在获取至少一个第二用户标识对应的原始数据时,获取原始数据的方式包括:从数据库中获取已存储的第二用户标识对应的原始数据。另外,后续过程中,当更新数据库中的原始数据时,获取第二用户标识对应的更新后的原始数据,也即是将该第二用户标识作为优质用户标识,持续地获取第二用户标识对应的原始数据。
在一种可能实现方式中,按照权重由大到小的顺序对多个第一用户标识进行排序,选取前第三预设数量的用户标识作为第二用户标识。或者,按照权重由小到大的顺序对多个第一用户标识进行排序,选取后第一预设数量的用户标识作为第二用户标识。
其中,该第三预设数量由服务器设置,或者由技术人员设置。该第三预设数量可以为5、10、20或者其他数值。
在另一种可能实现方式中,从多个第三用户标识中选取权重小于预设权重的用户标识作为第二用户标识。
其中,该预设权重由服务器设置,或者由技术人员设置。该预设权重可以为0.3、0.2、0.1或者其他数值。
可选地,对于每个第二用户标识,获取第二用户标识对应的多个原始数据,从多个原始数据中获取待标注的目标数据,目标数据的优先级大于多个原始数据中的其他原始数据的优先级。
在一种可能实现方式中,按照优先级由高到低的顺序将多个原始数据进行排序,获取前第四预设数量的原始数据作为待标注的目标数据。或者,按照优先级由低到高的顺序将多个原始数据进行排序,获取后第四预设数量的原始数据作为待标注的目标数据。
其中,该第四预设数量由服务器设置,或者由技术人员设置。该第二预设数量可以为10、20、50或者其他数值。
在另一种可能实现方式中,获取优先级大于第二预设优先级的原始数据,作为待标注的目标数据。
其中,该第二预设优先级由服务器设置,或者由技术人员设置。
本公开实施例获取第二用户标识对应的多个原始数据后,继续筛选出优先级较高的原始数据作为待标注的目标数据,获取的目标数据为第二用户标识发布的具有代表性的数据,因此,目标数据属于识别对象的可能性越大,实现了对原始数据的清洗和蒸馏,以提高获取的目标数据的纯度。
通过上述步骤获取待标注的目标数据后,技术人员即可分别对待标注的目标数据进行标注,得到标注完成的正样本数据。
由于第二用户标识的权重小,该第二用户标识发布的原始数据的离散程度也小,因此将第二用户标识对应的原始数据作为待标注的目标数据,且目标数据属于识别对象的可能性大,也即是技术人员在对目标数据进行标注时,可以得到较多的属于识别对象的目标数据,提高了技术人员筛选出属于识别对象的目标数据的速度,提高了标注效率。
本公开实施例通过上述步骤301-307确定第二用户标识后,后续过程中可以继续基于确定的第二用户标识,继续获取第二用户标识对应的更新后的原始数据,作为待标注的目标数据,从而扩展原始数据的数量,后续过程中技术人员持续地对第二用户标识对应的更新后的原始数据继续进行标注。
并且,由于第二用户标识对应的原始数据的种类稳定,技术人员在标注一段时间后,如果发现第二用户标识对应的原始数据均为正样本数据后,可以直接将第二用户标识对应的原始数据作为正样本数据,无需再对第二用户对应的原始数据进行标注。
需要说明的是,本公开实施例提供的方法仅是以应用于服务器中为例进行说明。在另一实施例中,本公开实施例提供的方法还可以应用于终端中,在终端中执行的步骤与在服务器中执行的步骤类似,在此不再赘述。
本公开实施例提供的方法,根据网络模型的识别对象,获取多个第一用户标识,对第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识,对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重,从多个第一用户标识中选取权重较小的至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据。由于第二用户标识的权重较小,代表第二用户标识对应的原始数据的离散程度较小,即第二用户标识对应的原始数据的种类较为稳定,第二用户标识对应的原始数据中不属于识别对象的目标数据较少,提高了待标注的目标数据的纯度,提高了技术人员筛选目标数据的速度,进而提高了标注效率。
并且,按照第一用户标识的用户关注数量筛选出热门程度较高的第一用户标识,可以认为第一用户标识发布的原始数据的种类较稳定,因此根据筛选出来的第一用户标识获取该第一用户标识对应的原始数据,这些原始数据中不属于识别对象的数据较少,可以提高目标数据的纯度,进而提高技术人员筛选出属于识别对象的目标数据的速度,提高标注效率。
并且,如果某一用户标识仅对应一个与识别对象匹配的原始数据,采用上述方式会确定该用户标识对应的原始数据的离散程度很低,将该用户标识误确定为第一用户标识。但是后续过程中该第一用户标识发布的原始数据如果与识别对象不匹配,会导致获取的目标数据的纯度降低。为了避免上述情况,本公开实施例获取用户关注数量较大的第一用户标识,也即是获取热门程度较高的第一用户标识,可以将热门程度较低的用户标识排除。
并且,通过从数据库中筛选与识别对象匹配的原始数据,可以初步获取与识别对象相关的原始数据,将与识别对象无关的原始数据过滤,以提高获取的原始数据的纯度。获取每个原始数据的发布用户标识,排除获取转发原始数据的用户标识的情况,保证获取到的用户标识均为对原始数据喜好程度较高的用户,提高后续获取的目标数据的纯度。
并且,通过获取优先级较高的原始数据,将优先级较低的原始数据滤除,由于过滤后得到的原始数据的优先级较高,因此后续过程中即可根据这些原始数据获取待标注的目标数据,提高了确定目标数据的准确性。
并且,获取第二用户标识对应的多个原始数据后,继续筛选出优先级较高的原始数据作为待标注的目标数据,获取的目标数据为第二用户标识发布的具有代表性的数据,因此,目标数据属于识别对象的可能性越大,实现了对原始数据的清洗和蒸馏,以提高获取的目标数据的纯度。
图4是根据一示例性实施例示出的一种数据获取装置的结构示意图。参见图4,该装置包括:
标识获取模块401,用于根据网络模型的识别对象,获取多个第一用户标识,第一用户标识对应的至少一个原始数据与识别对象匹配;
聚类模块402,用于对多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识;
确定模块403,用于对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重,权重用于表示第一用户标识对应的原始数据的离散程度;
第一数据获取模块404,用于从多个第一用户标识中选取至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据,至少一个第二用户标识的权重小于多个第一用户标识中的其他第一用户标识的权重。
本公开实施例提供的装置,根据网络模型的识别对象,获取多个第一用户标识,对第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识,对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重,从多个第一用户标识中选取权重较小的至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据。由于第二用户标识的权重较小,代表第二用户标识对应的原始数据的离散程度较小,即第二用户标识对应的原始数据的种类较为稳定,第二用户标识对应的原始数据中不属于识别对象的目标数据较少,提高了待标注的目标数据的纯度,提高了技术人员筛选目标数据的速度,进而提高了标注效率。
在一种可能实现方式中,参见图5,标识获取模块401,包括:
检索单元4011,用于基于识别对象在数据库中进行检索,得到与识别对象匹配的多个原始数据,数据库用于存储任一用户标识发布的原始数据;
标识获取单元4012,用于获取多个原始数据中的每个原始数据的发布用户标识,得到多个第一用户标识。
在另一种可能实现方式中,参见图5,标识获取模块401,包括:
检索单元4011,用于基于识别对象在数据库中进行检索,得到与识别对象匹配的多个原始数据,数据库用于存储任一用户标识发布的原始数据;
标识获取单元4012,用于获取多个原始数据中的每个原始数据的发布用户标识,得到多个第三用户标识;
数量获取单元4013,用于获取多个第三用户标识中每个用户标识的关注用户数量;
选取单元4014,用于从多个第三用户标识中选取多个第一用户标识,多个第一用户标识的关注用户数量大于多个第三用户标识中的其他用户标识的关注用户数量。
在另一种可能实现方式中,参见图5,装置还包括:
第二数据获取模块405,用于对于每个第一用户标识,获取第一用户标识对应的多个原始数据;
过滤模块406,用于根据多个原始数据的优先级,对多个原始数据进行过滤处理,以使过滤后剩余的原始数据的优先级大于被过滤的原始数据的优先级。
在另一种可能实现方式中,参见图5,确定模块403,包括:
比例获取单元4031,用于根据第一用户标识对应的至少一个原始数据的数量以及至少一个原始数据的聚类标识,获取第一用户标识对应的每个聚类标识的出现比例;
确定单元4032,用于基于每个聚类标识的出现比例,确定第一用户标识的权重。
在另一种可能实现方式中,确定单元403,还用于:
基于每个聚类标识的出现比例,采用以下公式,确定第一用户标识的权重:
Figure BDA0002193166290000181
其中,Hx表示第一用户标识的权重,i表示第i个聚类标识,Pi表示第i个聚类标识的出现比例,n表示第一用户标识对应的聚类标识的数量。
在另一种可能实现方式中,参见图5,聚类模块402,包括:
特征提取单元4021,用于基于特征提取模型,提取每个原始数据的数据特征;
聚类单元4022,用于对提取的多个数据特征进行聚类,得到每个数据特征的聚类标识,分别作为每个数据特征所属原始数据的聚类标识。
在另一种可能实现方式中,参见图5,第一数据获取模块404,包括:
第一数据获取单元4041,用于对于每个第二用户标识,获取第二用户标识对应的多个原始数据;
第二数据获取单元4042,用于从多个原始数据中获取待标注的目标数据,目标数据的优先级大于多个原始数据中的其他原始数据的优先级。
在另一种可能实现方式中,网络模型为人脸识别模型、物体识别模型或者图像分类模型。
图6是根据一示例性实施例示出的一种终端的框图。该终端600可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端600包括有:一个或多个处理器601和一个或多个存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括易失性存储器或非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所具有以实现本申请中方法实施例提供的数据获取方法。
在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、触摸显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及13G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位终端600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时,由处理器601根据用户对触摸显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户具有相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商标志集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制触摸显示屏605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏605的显示亮度;当环境光强度较低时,调低触摸显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7是根据一示例性实施例示出的一种服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)701和一个或一个以上的存储器702,其中,所述存储器702中存储有至少一条指令,所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器700可以用于执行上述数据获取方法中服务器所执行的步骤。
在示例性实施例中,还提供了一种非临时性计算机可读存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述数据获取方法中电子设备所执行的步骤。
在示例性实施例中,还提供了一种计算机程序产品,当计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行上述数据获取方法中电子设备所执行的步骤。
本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (20)

1.一种数据获取方法,其特征在于,所述方法包括:
根据网络模型的识别对象,获取多个第一用户标识,所述第一用户标识对应的至少一个原始数据与所述识别对象匹配,所述原始数据包括用户标识发布的数据、用户标识上传的数据以及用户标识通过其他方式提供的数据;
对所述多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识;
对于每个第一用户标识,根据所述第一用户标识对应的每个原始数据的聚类标识,确定所述第一用户标识的权重,所述权重用于表示所述第一用户标识对应的原始数据的离散程度;
从所述多个第一用户标识中选取至少一个第二用户标识,获取所述至少一个第二用户标识对应的原始数据,作为待标注的目标数据,所述至少一个第二用户标识的权重小于所述多个第一用户标识中的其他第一用户标识的权重。
2.根据权利要求1所述的方法,其特征在于,所述根据网络模型的识别对象,获取多个第一用户标识,包括:
基于所述识别对象在数据库中进行检索,得到与所述识别对象匹配的多个原始数据,所述数据库用于存储任一用户标识发布的原始数据;
获取所述多个原始数据中的每个原始数据的发布用户标识,得到多个第一用户标识。
3.根据权利要求1所述的方法,其特征在于,所述根据网络模型的识别对象,获取多个第一用户标识,包括:
基于所述识别对象在数据库中进行检索,得到与所述识别对象匹配的多个原始数据,所述数据库用于存储任一用户标识发布的原始数据;
获取所述多个原始数据中的每个原始数据的发布用户标识,得到多个第三用户标识;
获取所述多个第三用户标识中每个用户标识的关注用户数量;
从所述多个第三用户标识中选取多个第一用户标识,所述多个第一用户标识的关注用户数量大于所述多个第三用户标识中的其他用户标识的关注用户数量。
4.根据权利要求1所述的方法,其特征在于,所述根据网络模型的识别对象,获取多个第一用户标识之后,所述方法还包括:
对于所述每个第一用户标识,获取所述第一用户标识对应的多个原始数据;
根据所述多个原始数据的优先级,对所述多个原始数据进行过滤处理,以使过滤后剩余的原始数据的优先级大于被过滤的原始数据的优先级。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一用户标识对应的至少一个原始数据的聚类标识,确定所述第一用户标识的权重,包括:
根据所述第一用户标识对应的至少一个原始数据的数量以及所述至少一个原始数据的聚类标识,获取所述第一用户标识对应的每个聚类标识的出现比例;
基于所述每个聚类标识的出现比例,确定所述第一用户标识的权重。
6.根据权利要求5所述的方法,其特征在于,所述基于所述每个聚类标识的出现比例,确定所述第一用户标识的权重,包括:
基于所述每个聚类标识的出现比例,采用以下公式,确定所述第一用户标识的权重:
Figure FDA0003467113230000021
其中,Hx表示所述第一用户标识的权重,i表示第i个聚类标识,Pi表示第i个聚类标识的出现比例,n表示所述第一用户标识对应的聚类标识的数量。
7.根据权利要求1所述的方法,其特征在于,所述对所述多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识,包括:
基于特征提取模型,提取所述每个原始数据的数据特征;
对提取的多个数据特征进行聚类,得到每个数据特征的聚类标识,分别作为所述每个数据特征所属原始数据的聚类标识。
8.根据权利要求1所述的方法,其特征在于,所述获取所述至少一个第二用户标识对应的原始数据,作为待标注的目标数据,包括:
对于每个第二用户标识,获取所述第二用户标识对应的多个原始数据;
从所述多个原始数据中获取待标注的目标数据,所述目标数据的优先级大于所述多个原始数据中的其他原始数据的优先级。
9.根据权利要求1所述的方法,其特征在于,所述网络模型为人脸识别模型、物体识别模型或者图像分类模型。
10.一种数据获取装置,其特征在于,所述装置包括:
标识获取模块,用于根据网络模型的识别对象,获取多个第一用户标识,所述第一用户标识对应的至少一个原始数据与所述识别对象匹配,所述原始数据包括用户标识发布的数据、用户标识上传的数据以及用户标识通过其他方式提供的数据;
聚类模块,用于对所述多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识;
确定模块,用于对于每个第一用户标识,根据所述第一用户标识对应的每个原始数据的聚类标识,确定所述第一用户标识的权重,所述权重用于表示所述第一用户标识对应的原始数据的离散程度;
第一数据获取模块,用于从所述多个第一用户标识中选取至少一个第二用户标识,获取所述至少一个第二用户标识对应的原始数据,作为待标注的目标数据,所述至少一个第二用户标识的权重小于所述多个第一用户标识中的其他第一用户标识的权重。
11.根据权利要求10所述的装置,其特征在于,所述标识获取模块,包括:
检索单元,用于基于所述识别对象在数据库中进行检索,得到与所述识别对象匹配的多个原始数据,所述数据库用于存储任一用户标识发布的原始数据;
标识获取单元,用于获取所述多个原始数据中的每个原始数据的发布用户标识,得到多个第一用户标识。
12.根据权利要求10所述的装置,其特征在于,所述标识获取模块,包括:
检索单元,用于基于所述识别对象在数据库中进行检索,得到与所述识别对象匹配的多个原始数据,所述数据库用于存储任一用户标识发布的原始数据;
标识获取单元,用于获取所述多个原始数据中的每个原始数据的发布用户标识,得到多个第三用户标识;
数量获取单元,用于获取所述多个第三用户标识中每个用户标识的关注用户数量;
选取单元,用于从所述多个第三用户标识中选取多个第一用户标识,所述多个第一用户标识的关注用户数量大于所述多个第三用户标识中的其他用户标识的关注用户数量。
13.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二数据获取模块,用于对于所述每个第一用户标识,获取所述第一用户标识对应的多个原始数据;
过滤模块,用于根据所述多个原始数据的优先级,对所述多个原始数据进行过滤处理,以使过滤后剩余的原始数据的优先级大于被过滤的原始数据的优先级。
14.根据权利要求10所述的装置,其特征在于,所述确定模块,包括:
比例获取单元,用于根据所述第一用户标识对应的至少一个原始数据的数量以及所述至少一个原始数据的聚类标识,获取所述第一用户标识对应的每个聚类标识的出现比例;
确定单元,用于基于所述每个聚类标识的出现比例,确定所述第一用户标识的权重。
15.根据权利要求14所述的装置,其特征在于,所述确定单元,还用于:
基于所述每个聚类标识的出现比例,采用以下公式,确定所述第一用户标识的权重:
Figure FDA0003467113230000041
其中,Hx表示所述第一用户标识的权重,i表示第i个聚类标识,Pi表示第i个聚类标识的出现比例,n表示所述第一用户标识对应的聚类标识的数量。
16.根据权利要求10所述的装置,其特征在于,所述聚类模块,包括:
特征提取单元,用于基于特征提取模型,提取所述每个原始数据的数据特征;
聚类单元,用于对提取的多个数据特征进行聚类,得到每个数据特征的聚类标识,分别作为所述每个数据特征所属原始数据的聚类标识。
17.根据权利要求10所述的装置,其特征在于,所述第一数据获取模块,包括:
第一数据获取单元,用于对于每个第二用户标识,获取所述第二用户标识对应的多个原始数据;
第二数据获取单元,用于从所述多个原始数据中获取待标注的目标数据,所述目标数据的优先级大于所述多个原始数据中的其他原始数据的优先级。
18.根据权利要求10所述的装置,其特征在于,所述网络模型为人脸识别模型、物体识别模型或者图像分类模型。
19.一种电子设备,其特征在于,所述电子设备,包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行命令的易失性或非易失性存储器;
其中,所述一个或多个处理器被配置为执行如权利要求1-9任一项权利要求所述的数据获取方法。
20.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-9任一项权利要求所述的数据获取方法。
CN201910839264.9A 2019-09-05 2019-09-05 数据获取方法、装置及存储介质 Active CN110543862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910839264.9A CN110543862B (zh) 2019-09-05 2019-09-05 数据获取方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910839264.9A CN110543862B (zh) 2019-09-05 2019-09-05 数据获取方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110543862A CN110543862A (zh) 2019-12-06
CN110543862B true CN110543862B (zh) 2022-04-22

Family

ID=68712576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910839264.9A Active CN110543862B (zh) 2019-09-05 2019-09-05 数据获取方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110543862B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6999963B1 (en) * 2000-05-03 2006-02-14 Microsoft Corporation Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN103942328A (zh) * 2014-04-30 2014-07-23 海信集团有限公司 一种视频检索方法及视频装置
CN104537028A (zh) * 2014-12-19 2015-04-22 百度在线网络技术(北京)有限公司 一种网页信息处理方法及装置
CN105808639A (zh) * 2016-02-24 2016-07-27 平安科技(深圳)有限公司 网络访问行为识别方法和装置
CN109598307A (zh) * 2018-12-06 2019-04-09 北京达佳互联信息技术有限公司 数据筛选方法、装置、服务器及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060010029A1 (en) * 2004-04-29 2006-01-12 Gross John N System & method for online advertising

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6999963B1 (en) * 2000-05-03 2006-02-14 Microsoft Corporation Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN103942328A (zh) * 2014-04-30 2014-07-23 海信集团有限公司 一种视频检索方法及视频装置
CN104537028A (zh) * 2014-12-19 2015-04-22 百度在线网络技术(北京)有限公司 一种网页信息处理方法及装置
CN105808639A (zh) * 2016-02-24 2016-07-27 平安科技(深圳)有限公司 网络访问行为识别方法和装置
CN109598307A (zh) * 2018-12-06 2019-04-09 北京达佳互联信息技术有限公司 数据筛选方法、装置、服务器及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Face Annotation Framework with Partial Clustering and Interactive Labeling;Yuandong Tian etc.;《2007 IEEE Conference on Computer Vision and Pattern Recognition》;20070716;第1-8页 *
Topic model-based micro-blog user interest analysis;Xinchen Hu etc.;《2014 International Conference on Audio, Language and Image Processing》;20150115;第443-448页 *
基于标签权重评分的推荐模型及算法研究;孔欣欣 等;《计算机学报》;20150715;第40卷(第6期);第1440-1452页 *
标注内容与用户属性结合的标签聚类研究;顾晓雪 等;《现代图书情报技术》;20151025(第10期);第30-39页 *

Also Published As

Publication number Publication date
CN110543862A (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
CN110572711B (zh) 视频封面生成方法、装置、计算机设备及存储介质
CN110650379B (zh) 视频摘要生成方法、装置、电子设备及存储介质
CN110865754B (zh) 信息展示方法、装置及终端
CN110163066B (zh) 多媒体数据推荐方法、装置及存储介质
CN110248236B (zh) 视频播放方法、装置、终端及存储介质
CN110139143B (zh) 虚拟物品显示方法、装置、计算机设备以及存储介质
CN110933468A (zh) 播放方法、装置、电子设备及介质
CN111753784A (zh) 视频的特效处理方法、装置、终端及存储介质
WO2022048398A1 (zh) 多媒体数据拍摄方法及终端
CN111127509A (zh) 目标跟踪方法、装置和计算机可读存储介质
CN111897996A (zh) 话题标签推荐方法、装置、设备及存储介质
CN111836069A (zh) 虚拟礼物赠送方法、装置、终端、服务器及存储介质
CN111031391A (zh) 视频配乐方法、装置、服务器、终端及存储介质
CN110827195A (zh) 虚拟物品添加方法、装置、电子设备及存储介质
CN113032587A (zh) 多媒体信息推荐方法、系统、装置、终端和服务器
CN111402844A (zh) 歌曲合唱的方法、装置及系统
CN110909184A (zh) 多媒体资源显示方法、装置、设备及介质
CN112559795A (zh) 歌曲播放方法、歌曲推荐方法、装置及系统
CN110853124A (zh) 生成gif动态图的方法、装置、电子设备及介质
CN113613028B (zh) 直播数据处理方法、装置、终端、服务器及存储介质
CN111641853B (zh) 多媒体资源加载方法、装置、计算机设备及存储介质
CN111522483B (zh) 多媒体数据分享方法、装置、电子设备及存储介质
CN110543862B (zh) 数据获取方法、装置及存储介质
CN114385854A (zh) 资源推荐方法、装置、电子设备及存储介质
CN113609387A (zh) 播放内容推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant