CN113032621A - 数据采样方法、装置、计算机设备和存储介质 - Google Patents

数据采样方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113032621A
CN113032621A CN202110262852.8A CN202110262852A CN113032621A CN 113032621 A CN113032621 A CN 113032621A CN 202110262852 A CN202110262852 A CN 202110262852A CN 113032621 A CN113032621 A CN 113032621A
Authority
CN
China
Prior art keywords
key
target
data
database
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110262852.8A
Other languages
English (en)
Other versions
CN113032621B (zh
Inventor
许壮
汤善敏
朱晓龙
纪晓龙
季兴
李赐兴
张正生
刘永升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Super Parameter Technology Shenzhen Co ltd
Original Assignee
Super Parameter Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Super Parameter Technology Shenzhen Co ltd filed Critical Super Parameter Technology Shenzhen Co ltd
Priority to CN202110262852.8A priority Critical patent/CN113032621B/zh
Publication of CN113032621A publication Critical patent/CN113032621A/zh
Application granted granted Critical
Publication of CN113032621B publication Critical patent/CN113032621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种数据采样方法、装置、计算机设备和存储介质。所述方法包括:基于预先建立的数据库获取多个键,得到候选键集合;所述数据库中,源数据对应的标识信息存储为键,所述源数据对应的特征数据存储为对应的值;基于所述候选键集合进行采样,得到至少一个目标键;基于所述至少一个目标键从所述数据库中查询对应的值,得到目标特征数据;所述目标特征数据用于作为训练样本训练目标机器学习模型。采用本方法能够大大减少采样耗时。

Description

数据采样方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据采样方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了人工智能技术,在人工智能领域经常要进行模型训练,在模型训练过程中,需要采样训练数据来进行模型训练。
现有技术中,通常是将所有可用于训练的待采样数据直接存储到数据库中,每次采样时,需要从数据库中读取所有数据并且输出采样结果到数据库中,数据的读取和写入代价较大,采样耗时较高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够减少采样耗时的数据采样方法、装置、计算机设备和存储介质。
一种数据采样方法,所述方法包括:
基于预先建立的数据库获取多个键,得到候选键集合;
所述数据库中,源数据对应的标识信息存储为键,所述源数据对应的特征数据存储为对应的值;
基于所述候选键集合进行采样,得到至少一个目标键;
基于所述至少一个目标键从所述数据库中查询对应的值,得到目标特征数据;所述目标特征数据用于作为训练样本训练目标机器学习模型。
在一些实施例中,所述源数据为游戏视频中的视频帧;所述数据库的建立步骤包括:
对于游戏视频帧的每一帧视频帧,提取所述视频帧的特征,得到对应的特征数据;
获取游戏视频的视频标识信息及所述视频帧的视频帧序号,根据所述视频标识信息及所述视频帧的视频帧序号得到所述视频帧的标识信息;
将所述视频帧的标识信息存储为键,将所述视频帧对应的特征数据存储为对应的值,以建立所述数据库。
在一些实施例中,所述提取所述视频帧的特征,得到对应的特征数据,包括:
获取目标字段信息;
基于所述目标字段信息解析所述视频帧,得到第一子特征数据;
基于所述目标字段信息及所述第一子特征数据进行计算,得到第二子特征数据;
将所述第一子特征数据和第二子特征数据组成形成所述特征数据。
在一些实施例中,所述基于所述候选键集合进行采样,得到至少一个目标键包括:
获取历史键;所述历史键为历史目标特征数据对应的键;
基于所述历史健对应的视频标识信息和视频帧序号从所述候选键集合确定所述历史键对应的关联键,对所述关联键进行采样,得到至少一个目标键。
在一些实施例中,所述基于所述至少一个目标键从所述数据库中查询对应的值,得到目标特征数据,包括:
从所述至少一个目标键中随机确定一个目标键作为训练样本键;
从所述数据库中查询所述训练样本键对应的值,得到所述目标特征数据。
在一些实施例中,在所述基于预先建立的数据库获取多个键,得到候选键集合之前,所述方法还包括:
获取预先配置的采样条件;
所述基于预先建立的数据库获取多个键,得到候选键集合包括:
基于所述采样条件及预先建立的数据库获取多个键,得到候选键集合。
在一些实施例中,在所述基于预先建立的数据库获取多个键,得到候选键集合之前,所述方法还包括:
获取目标采样条件;
所述基于预先建立的数据库获取多个键,得到候选键集合包括:
基于所述目标采样条件从所述数据库中查询匹配的特征数据,得到候选特征数据;
将所述候选特征数据对应的键进行备份并存储至数据表中;
从所述数据表中获取多个键,得到候选键集合。
一种数据采样装置,所述装置包括:
键获取模块,用于基于预先建立的数据库获取多个键,得到候选键集合;所述数据库中,源数据对应的标识信息存储为键,所述源数据对应的特征数据存储为对应的值;
采样模块,用于基于所述候选键集合进行采样,得到至少一个目标键;
查询模块,用于基于所述至少一个目标键从所述数据库中查询对应的值,得到目标特征数据;所述目标特征数据用于作为训练样本训练目标机器学习模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
基于预先建立的数据库获取多个键,得到候选键集合;
所述数据库中,源数据对应的标识信息存储为键,所述源数据对应的特征数据存储为对应的值;
基于所述候选键集合进行采样,得到至少一个目标键;
基于所述至少一个目标键从所述数据库中查询对应的值,得到目标特征数据;所述目标特征数据用于作为训练样本训练目标机器学习模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
基于预先建立的数据库获取多个键,得到候选键集合;
所述数据库中,源数据对应的标识信息存储为键,所述源数据对应的特征数据存储为对应的值;
基于所述候选键集合进行采样,得到至少一个目标键;
基于所述至少一个目标键从所述数据库中查询对应的值,得到目标特征数据;所述目标特征数据用于作为训练样本训练目标机器学习模型。
上述数据采样方法、装置、计算机设备和存储介质,首先基于预先建立的数据库获取多个健,得到候选键集合,数据库中,源数据对应的标识信息存储为键,所述源数据对应的特征数据存储为对应的值,服务器进一步基于所述候选键集合进行采样,得到至少一个目标键,最后基于所述至少一个目标键从所述数据库中查询对应的值,得到目标特征数据,所述目标特征数据用于作为训练样本训练目标机器学习模型,本申请中,由于将源数据存储为健值对的形式,在进行采样时,基于健进行采样,基于采样结果来获取到训练样本,相较于传统技术中直接采样训练样本数据,耗时明显减少。
附图说明
图1为一个实施例中数据采样方法的应用环境图;
图2为一个实施例中数据采样方法的流程示意图;
图3为一个实施例中数据库的建立步骤的流程示意图;
图4为一个实施例中提取视频帧的特征的流程示意图;
图5为一个实施例中数据采样方法的整体示意图;
图6为一个实施例中数据采样装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据采样方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器基于预先建立的数据库获取多个键,得到候选键集合,数据库中,源数据对应的标识信息存储为键,源数据对应的特征数据存储为对应的值,基于候选键集合进行采样,得到至少一个目标键,基于至少一个目标键从数据库中查询对应的值,得到目标特征数据,服务器可以将目标特征数据发送至终端,终端将目标特征数据作为训练样本训练目标机器学习模型。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一些实施例中,如图2所示,提供了一种数据采样方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,基于预先建立的数据库获取多个键,得到候选键集合;数据库中,源数据对应的标识信息存储为键,源数据对应的特征数据存储为对应的值。
其中,源数据指的是用于训练机器学习模型的训练样本的原始数据。例如,源数据可以是图像数据、语音数据、文本数据等等。源数据对应的标识信息用于对源数据进行标识。源数据对应的特征数据为对源数据的特征信息进行描述的数据。
具体地,本实施例中,预先获取源数据,基于源数据建立数据库,将源数据对应的标识信息存储为键(key),将源数据对应的特征数据存储为对应的值(value)。在进行数据采样时,服务器首先基于预先建立的数据库获取多个键,得到候选键集合。这里的多个指的是至少两个。
在一些实施例中,服务器可以获取数据库中所有的键,得到候选键集合,由于候选键集合中包括了数据库中的所有的键,后续采样中可以基于数据库中所有的键进行采样,可以保证采样得到的样本的广泛性。
在一些实施例中,其中的数据库可以是分布式数据库,由于机器学习模型在进行训练时,所需的训练样本体量往往非常巨大,单机无法装载,通常会采用分布式训练系统,利用分布式训练系统来加载更多的数据,训练更加复杂的模型。在分布式训练系统中,一种常用的方式就是将训练数据并行。
数据并行:是目前深度学习模型最常见的分布式训练策略,数据并行的主要原因是因为训练量很大导致的训练费时;数据并行是在不同的GPU(Graphics ProcessingUnit,图形处理器)设备有同一模型的多个副本,将数据分片并分配到每个GPU上,然后将所有GPU的计算结果按照某种方式合并,进而可以增加训练数据的批大小(Batch Size)。数据并行的分布式训练时,将数据存储于分布式文件系统中,所有的设备通过接口从文件系统中读取数据采用同步或者异步的方式来训练模型。
步骤204,基于候选键集合进行采样,得到至少一个目标键。
步骤206,基于至少一个目标键从数据库中查询对应的值,得到目标特征数据;目标特征数据用于作为训练样本训练目标机器学习模型。
其中,目标键指的是采样得到的键。目标特征数据为目标键对应的值。
具体地,服务器基于候选键集合进行采样,得到至少一个目标键,服务器进一步基于至少一个目标健从数据库中查询对应的值,得到目标特征数据。
在一些实施例中,服务器在进行采样时,采样得到多个目标键,服务器进一步可以根据多个目标键生成键列表(key list),后续在进行机器学习模型训练时,服务器可以基于该key list从数据库查询对应的值,得到目标特征数据以作为机器学习模型的训练样本。
在一些实施例中,服务器可以从候选键集合中随机采样预设数量的键,得到目标键。在另一些实施例中,服务器在进行采样之前,可以预先自定义的配置采样条件,那么服务器在进行采样时,可以基于该采样条件,从候选键集合中采样预设数量的键,得到目标键。例如,在游戏领域,采样条件可以是队友人数大于3,则在进行采样时,服务器采样队友人数大于3的特征数据对应的健。
上述数据采样方法中,首先基于预先建立的数据库获取多个健,得到候选键集合,数据库中,源数据对应的标识信息存储为键,源数据对应的特征数据存储为对应的值,服务器进一步基于候选键集合进行采样,得到至少一个目标键,最后基于至少一个目标键从数据库中查询对应的值,得到目标特征数据,目标特征数据用于作为训练样本训练目标机器学习模型,本申请中,由于将源数据存储为健值对的形式,在进行采样时,基于健进行采样,基于采样结果来获取到训练样本,相较于传统技术中直接采样训练样本数据,耗时明显减少。
进一步,由于本申请的基于key的采样,key的长度远小于原始的待采样数据,所以相对传统技术来说,本申请在读取数据的过程中I/O量会小很多,从而提高了采样效率。
在一些实施例中,如图3所示,数据库的建立步骤包括:
步骤302,对于游戏视频帧的每一帧视频帧,提取视频帧的特征,得到对应的特征数据。
其中,视频的特征指的是对视频的内容信息进行描述的数据。例如,每帧自己的位置,队友的位置,敌方的位置,自己的血量,队友血量,敌方血量等。
具体地,对于游戏视频帧的每一帧视频帧,服务器通过解析、计算等方式提取视频帧的特征,得到对应的特征数据。
步骤304,获取游戏视频的视频标识信息及视频帧的视频帧序号,根据视频标识信息及视频帧的视频帧序号得到视频帧的标识信息。
其中,视频标识信息指的是对该游戏视频进行标识的信息。视频帧序号用于表示该视频帧在该游戏视频中的排序。
具体地,服务器在获取到游戏视频的视频标识信息及视频帧的视频帧序号,将视频帧标识信息及视频帧的视频帧序号进行组合等得到该视频帧的标识信息。该标识信息用于唯一标识该视频帧。举例说明,假设视频标识信息为AH0012,视频帧序号为25,则该视频帧的标识信息可以为AH0012025。
步骤306,将视频帧的标识信息存储为键,将视频帧对应的特征数据存储为对应的值,以建立数据库。
具体地,该数据库中,将源数据以键值对的形式进行存储,即将视频帧的标识信息存储为键,将该视频帧对应的特征数据存储为该健对应的值,从而建立数据库。
在一些实施例中,如图4所示,提取视频帧的特征,得到对应的特征数据,包括:
步骤402,获取目标字段信息。
其中,目标字段信息指的是采样条件中设置的字段信息。服务器可以从一个或者多个采样条件中获取到目标字段信息。
步骤404,基于目标字段信息解析视频帧,得到第一子特征数据。
具体地,服务器对视频帧进行解析,得到视频帧对应的基础字段信息,将基础字段信息与目标字段信息进行匹配,以获取到与目标字段信息对应的字段信息,得到视频帧对应的第一子特征数据。例如,服务器可以解析游戏视频帧,得到每帧自己的位置,队友的位置,敌方的位置,自己的血量,队友血量,敌方血量等基础字段信息。
步骤406,基于目标字段信息及第一子特征数据进行计算,得到第二子特征数据。
具体地,服务器在将目标字段信息与基础字段信息进行匹配的过程中,对于匹配失败的目标字段信息,服务器可以基于解析得到的基础字段信息(即第一子特征数据)进行计算,计算得到的中间结果作为第二子特征数据。例如,在游戏中,计算队友人数,敌方人数,敌方总经济,己方总经济等作为中间结果。
步骤408,将第一子特征数据和第二子特征数据组成形成特征数据。
具体地,对于一帧视频帧,服务器将该视频帧对应的第一子特征数据和第二子特征数据一起组成形成对应的特征数据。
上述实施例中,通过获取目标字段信息,基于目标字段信息解析视频帧,得到第一子特征数据,基于目标字段信息及第一子特征数据进行计算,得到第二子特征数据,由于将第一子特征数据和第二子特征数据组成形成特征数据,可以尽可能完整的提取视频帧的特征,提高特征数据的准确性和完备性。
在一些实施例中,基于候选键集合进行采样,得到至少一个目标键包括:获取历史键;历史键为历史目标特征数据对应的键;基于历史健对应的视频标识信息和视频帧序号从候选键集合确定历史键对应的关联键,对关联键进行采样,得到至少一个目标键。
可以理解,游戏视频中存在一些固定的连招,比如FPS类游戏中的跳跃射击,MOBA游戏中的闪现大招等,所以需要保证样本间存在一定的关联。本申请通过游戏视频的视频标识信息和视频帧序号可以找到某视频帧前后相关的数据以保证特定的连续帧必定会被采样采到。
其中,历史健指的是历史目标特征数据对应的键,历史目标特殊数据指的是历史视频帧的特征数据。在一些具体的实施例中,历史视频帧指的是上一次采样的目标特征数据对应的视频帧。
具体地,服务器获取历史目标特征数据对应的键作为目标健,然后从候选键集合中确定与历史键的视频标识信息相同,且视频帧序号与历史键对应的视频帧序号相邻的健作为关联健,采样该关键健,得到至少一个目标键值。
在一些实施例中,服务器可以从候选键集合中确定与历史键的视频标识信息相同,且视频帧序号与历史键对应的视频帧序号在前连续的键作为关联键。例如,历史键对应的视频帧序号为20,则关联键对应的视频帧序号可以为19。
在一些实施例中,服务器可以从候选键集合中确定与历史键的视频标识信息相同,且视频帧序号与历史键对应的视频帧序号在后连续的键作为关联键。例如,历史键对应的视频帧序号为20,则关联键对应的视频帧序号可以为21。
上述实施例中,通过采样关联键,可以建立训练样本之间的关系,方便数据联合。
在一些实施例中,基于至少一个目标键从数据库中查询对应的值,得到目标特征数据,包括:从至少一个目标键中随机确定一个目标键作为训练样本键;从数据库中查询训练样本键对应的值,得到目标特征数据。
其中,训练样本键指的是训练样本数据对应的健。本实施例中,训练样本数据为数据库中的特征数据。服务器在需要获取训练样本数据时,可以从从至少一个目标键中随机确定一个目标键作为训练样本键,从数据库中查询训练样本键对应的值,得到目标特征数据,将该目标特征数据作为训练样本数据,训练机器学习模型。
在一些实施例中,在基于预先建立的数据库获取多个键,得到候选键集合之前,方法还包括:获取预先配置的采样条件;基于预先建立的数据库获取多个键,得到候选键集合包括:基于采样条件及预先建立的数据库获取多个键,得到候选键集合。
具体地,服务器可以获取预先配置的采样条件,基于该采样条件从预先建立的数据库中获取多个键,得到候选键集合。
举个例子,采样条件为队友人数大于3,则服务器可以遍历数据库中的值,获取队友人数大于3的值对应的多个键,得到候选键集合。
本实施例中,通过获取预先配置的采样条件,基于采样条件及预先建立的数据库获取多个键,得到候选键集合,可实现自定义采样。
在一些实施例中,在基于预先建立的数据库获取多个键,得到候选键集合之前,方法还包括:获取目标采样条件;基于预先建立的数据库获取多个键,得到候选键集合包括:基于目标采样条件从数据库中查询匹配的特征数据,得到候选特征数据;将候选特征数据对应的键进行备份并存储至数据表中;从数据表中获取多个键,得到候选键集合。
通常情况下,服务器进行采样时,为了提高模型的泛化性能,通过需要从数据库中获取到所有的键来组成候选键集合进行后续的采样,本实施例中,考虑到服务器在进行采样时,并不是要对数据库中的所有数据进行采样,那么服务器可以在获取到目标采样条件后,先从数据库中查询匹配该目标条件的特征数据,得到候选特征数据,将这些候选特征数据对应的键进行备份并存储至数据表中,这样,服务器可以从该数据表中读取所有键,得到候选键集合。由于从数据表中数据量相较于数据库少了很多,可读取更少量的数据进行采样,从而进一步减少采样成本,提高了采样效率。
在一个具体的实施例中,该数据采样方法的整体示意图如图5所示,下面结合图5,对本实施例的数据采样方法进行说明,参考图5,本实施例中,数据库为分布式KV存储系统,该分布式KV存储系统时通过将源数据对应的标识信息存储为键,源数据对应的特征数据存储为对应的值建立得到的,本实施例中可以自定义采样方法(即采样条件),服务器可以对该采样条件进行配置化调用,进而基于该采样条件进行采样,具体如下:
1、服务器从数据库中查询匹配该采样条件的特征数据,得到候选特征数据,服务器将候选特征数据对应的键进行备份并存储至数据表中。
2、服务器从数据表读取所有的键,得到候选键集合。
3、服务器基于从该候选键集合中进行采样,得到目标键。
4、在进行模型训练时,服务器基于该目标键从数据库中获取到对应的值,得到目标特征数据,将该目标特征数据作为训练样本进行模型训练。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一些实施例中,如图6所示,提供了一种数据采样装置600,包括:
键获取模块602,用于基于预先建立的数据库获取多个键,得到候选键集合;数据库中,源数据对应的标识信息存储为键,源数据对应的特征数据存储为对应的值;
采样模块604,用于基于候选键集合进行采样,得到至少一个目标键;
查询模块606,用于基于至少一个目标键从数据库中查询对应的值,得到目标特征数据;目标特征数据用于作为训练样本训练目标机器学习模型。
上述数据采样装置,首先基于预先建立的数据库获取多个健,得到候选键集合,数据库中,源数据对应的标识信息存储为键,源数据对应的特征数据存储为对应的值,服务器进一步基于候选键集合进行采样,得到至少一个目标键,最后基于至少一个目标键从数据库中查询对应的值,得到目标特征数据,目标特征数据用于作为训练样本训练目标机器学习模型,本申请中,由于将源数据存储为健值对的形式,在进行采样时,基于健进行采样,基于采样结果来获取到训练样本,相较于传统技术中直接采样训练样本数据,耗时明显减少。
在一些实施例中,源数据为游戏视频中的视频帧;上述装置还包括:数据库建立模块,用于对于游戏视频帧的每一帧视频帧,提取视频帧的特征,得到对应的特征数据;获取游戏视频的视频标识信息及视频帧的视频帧序号,根据视频标识信息及视频帧的视频帧序号得到视频帧的标识信息;将视频帧的标识信息存储为键,将视频帧对应的特征数据存储为对应的值,以建立数据库。
在一些实施例中,数据库建立模块,还用于获取目标字段信息;基于目标字段信息解析视频帧,得到第一子特征数据;基于目标字段信息及第一子特征数据进行计算,得到第二子特征数据;将第一子特征数据和第二子特征数据组成形成特征数据。
在一些实施例中,采样模块还用于获取历史键;历史键为历史目标特征数据对应的键;基于历史健对应的视频标识信息和视频帧序号从候选键集合确定历史键对应的关联键,对关联键进行采样,得到至少一个目标键。
在一些实施例中,查询模块还用于从至少一个目标键中随机确定一个目标键作为训练样本键;从数据库中查询训练样本键对应的值,得到目标特征数据。
在一些实施例中,键获取模块,还用于获取预先配置的采样条件;基于采样条件及预先建立的数据库获取多个键,得到候选键集合。
在一些实施例中,键获取模块,还用于获取目标采样条件;基于目标采样条件从数据库中查询匹配的特征数据,得到候选特征数据;将候选特征数据对应的键进行备份并存储至数据表中;从数据表中获取多个键,得到候选键集合。
关于数据采样装置的具体限定可以参见上文中对于数据采样方法的限定,在此不再赘述。上述数据采样装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据采样方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:基于预先建立的数据库获取多个键,得到候选键集合;数据库中,源数据对应的标识信息存储为键,源数据对应的特征数据存储为对应的值;基于候选键集合进行采样,得到至少一个目标键;基于至少一个目标键从数据库中查询对应的值,得到目标特征数据;目标特征数据用于作为训练样本训练目标机器学习模型。
在一些实施例中,源数据为游戏视频中的视频帧;处理器执行计算机程序时还实现以下步骤:对于游戏视频帧的每一帧视频帧,提取视频帧的特征,得到对应的特征数据;获取游戏视频的视频标识信息及视频帧的视频帧序号,根据视频标识信息及视频帧的视频帧序号得到视频帧的标识信息;将视频帧的标识信息存储为键,将视频帧对应的特征数据存储为对应的值,以建立数据库。
在一些实施例中,处理器执行计算机程序时还实现以下步骤:获取目标字段信息;基于目标字段信息解析视频帧,得到第一子特征数据;基于目标字段信息及第一子特征数据进行计算,得到第二子特征数据;将第一子特征数据和第二子特征数据组成形成特征数据。
在一些实施例中,处理器执行计算机程序时还实现以下步骤:获取历史键;历史键为历史目标特征数据对应的键;基于历史健对应的视频标识信息和视频帧序号从候选键集合确定历史键对应的关联键,对关联键进行采样,得到至少一个目标键。
在一些实施例中,处理器执行计算机程序时还实现以下步骤:从至少一个目标键中随机确定一个目标键作为训练样本键;从数据库中查询训练样本键对应的值,得到目标特征数据。
在一些实施例中,处理器执行计算机程序时还实现以下步骤:获取预先配置的采样条件;基于预先建立的数据库获取多个键,得到候选键集合包括:基于采样条件及预先建立的数据库获取多个键,得到候选键集合。
在一些实施例中,处理器执行计算机程序时还实现以下步骤:获取目标采样条件;基于预先建立的数据库获取多个键,得到候选键集合包括:基于目标采样条件从数据库中查询匹配的特征数据,得到候选特征数据;将候选特征数据对应的键进行备份并存储至数据表中;从数据表中获取多个键,得到候选键集合。
在一些实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:基于预先建立的数据库获取多个键,得到候选键集合;数据库中,源数据对应的标识信息存储为键,源数据对应的特征数据存储为对应的值;基于候选键集合进行采样,得到至少一个目标键;基于至少一个目标键从数据库中查询对应的值,得到目标特征数据;目标特征数据用于作为训练样本训练目标机器学习模型。
在一些实施例中,源数据为游戏视频中的视频帧;计算机程序被处理器执行时还实现以下步骤:对于游戏视频帧的每一帧视频帧,提取视频帧的特征,得到对应的特征数据;获取游戏视频的视频标识信息及视频帧的视频帧序号,根据视频标识信息及视频帧的视频帧序号得到视频帧的标识信息;将视频帧的标识信息存储为键,将视频帧对应的特征数据存储为对应的值,以建立数据库。
在一些实施例中,计算机程序被处理器执行时还实现以下步骤:获取目标字段信息;基于目标字段信息解析视频帧,得到第一子特征数据;基于目标字段信息及第一子特征数据进行计算,得到第二子特征数据;将第一子特征数据和第二子特征数据组成形成特征数据。
在一些实施例中,计算机程序被处理器执行时还实现以下步骤:获取历史键;历史键为历史目标特征数据对应的键;基于历史健对应的视频标识信息和视频帧序号从候选键集合确定历史键对应的关联键,对关联键进行采样,得到至少一个目标键。
在一些实施例中,计算机程序被处理器执行时还实现以下步骤:从至少一个目标键中随机确定一个目标键作为训练样本键;从数据库中查询训练样本键对应的值,得到目标特征数据。
在一些实施例中,计算机程序被处理器执行时还实现以下步骤:获取预先配置的采样条件;基于预先建立的数据库获取多个键,得到候选键集合包括:基于采样条件及预先建立的数据库获取多个键,得到候选键集合。
在一些实施例中,计算机程序被处理器执行时还实现以下步骤:获取目标采样条件;基于预先建立的数据库获取多个键,得到候选键集合包括:基于目标采样条件从数据库中查询匹配的特征数据,得到候选特征数据;将候选特征数据对应的键进行备份并存储至数据表中;从数据表中获取多个键,得到候选键集合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据采样方法,其特征在于,所述方法包括:
基于预先建立的数据库获取多个键,得到候选键集合;
所述数据库中,源数据对应的标识信息存储为键,所述源数据对应的特征数据存储为对应的值;
基于所述候选键集合进行采样,得到至少一个目标键;
基于所述至少一个目标键从所述数据库中查询对应的值,得到目标特征数据;所述目标特征数据用于作为训练样本训练目标机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述源数据为游戏视频中的视频帧;所述数据库的建立步骤包括:
对于游戏视频帧的每一帧视频帧,提取所述视频帧的特征,得到对应的特征数据;
获取游戏视频的视频标识信息及所述视频帧的视频帧序号,根据所述视频标识信息及所述视频帧的视频帧序号得到所述视频帧的标识信息;
将所述视频帧的标识信息存储为键,将所述视频帧对应的特征数据存储为对应的值,以建立所述数据库。
3.根据权利要求2所述的方法,其特征在于,所述提取所述视频帧的特征,得到对应的特征数据,包括:
获取目标字段信息;
基于所述目标字段信息解析所述视频帧,得到第一子特征数据;
基于所述目标字段信息及所述第一子特征数据进行计算,得到第二子特征数据;
将所述第一子特征数据和第二子特征数据组成形成所述特征数据。
4.根据权利要求2所述的方法,其特征在于,所述基于所述候选键集合进行采样,得到至少一个目标键包括:
获取历史键;所述历史键为历史目标特征数据对应的键;
基于所述历史健对应的视频标识信息和视频帧序号从所述候选键集合确定所述历史键对应的关联键,对所述关联键进行采样,得到至少一个目标键。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述基于所述至少一个目标键从所述数据库中查询对应的值,得到目标特征数据,包括:
从所述至少一个目标键中随机确定一个目标键作为训练样本键;
从所述数据库中查询所述训练样本键对应的值,得到所述目标特征数据。
6.根据权利要求1至4任意一项所述的方法,其特征在于,在所述基于预先建立的数据库获取多个键,得到候选键集合之前,所述方法还包括:
获取预先配置的采样条件;
所述基于预先建立的数据库获取多个键,得到候选键集合包括:
基于所述采样条件及预先建立的数据库获取多个键,得到候选键集合。
7.根据权利要求1至4任意一项所述的方法,其特征在于,在所述基于预先建立的数据库获取多个键,得到候选键集合之前,所述方法还包括:
获取目标采样条件;
所述基于预先建立的数据库获取多个键,得到候选键集合包括:
基于所述目标采样条件从所述数据库中查询匹配的特征数据,得到候选特征数据;
将所述候选特征数据对应的键进行备份并存储至数据表中;
从所述数据表中获取多个键,得到候选键集合。
8.一种数据采样装置,其特征在于,所述装置包括:
键获取模块,用于基于预先建立的数据库获取多个键,得到候选键集合;所述数据库中,源数据对应的标识信息存储为键,所述源数据对应的特征数据存储为对应的值;
采样模块,用于基于所述候选键集合进行采样,得到至少一个目标键;
查询模块,用于基于所述至少一个目标键从所述数据库中查询对应的值,得到目标特征数据;所述目标特征数据用于作为训练样本训练目标机器学习模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110262852.8A 2021-03-11 2021-03-11 数据采样方法、装置、计算机设备和存储介质 Active CN113032621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110262852.8A CN113032621B (zh) 2021-03-11 2021-03-11 数据采样方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110262852.8A CN113032621B (zh) 2021-03-11 2021-03-11 数据采样方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113032621A true CN113032621A (zh) 2021-06-25
CN113032621B CN113032621B (zh) 2024-06-28

Family

ID=76469620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110262852.8A Active CN113032621B (zh) 2021-03-11 2021-03-11 数据采样方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113032621B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114647765A (zh) * 2022-05-19 2022-06-21 支付宝(杭州)信息技术有限公司 一种图数据采样方法和系统
CN114995580A (zh) * 2022-06-27 2022-09-02 长江师范学院 一种光伏系统最大功率点追踪方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105229597A (zh) * 2013-05-22 2016-01-06 国际商业机器公司 分布式特征收集与关联引擎
CN107833145A (zh) * 2017-09-19 2018-03-23 翔创科技(北京)有限公司 牲畜的数据库建立方法和溯源方法、存储介质和电子设备
CN109726315A (zh) * 2018-10-24 2019-05-07 阿里巴巴集团控股有限公司 数据查询方法、装置、计算设备及存储介质
CN111111220A (zh) * 2020-03-26 2020-05-08 腾讯科技(深圳)有限公司 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN111368133A (zh) * 2020-04-16 2020-07-03 腾讯科技(深圳)有限公司 一种视频库的索引表建立方法、装置、服务器及存储介质
US20210004700A1 (en) * 2019-07-02 2021-01-07 Insurance Services Office, Inc. Machine Learning Systems and Methods for Evaluating Sampling Bias in Deep Active Classification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105229597A (zh) * 2013-05-22 2016-01-06 国际商业机器公司 分布式特征收集与关联引擎
CN107833145A (zh) * 2017-09-19 2018-03-23 翔创科技(北京)有限公司 牲畜的数据库建立方法和溯源方法、存储介质和电子设备
CN109726315A (zh) * 2018-10-24 2019-05-07 阿里巴巴集团控股有限公司 数据查询方法、装置、计算设备及存储介质
US20210004700A1 (en) * 2019-07-02 2021-01-07 Insurance Services Office, Inc. Machine Learning Systems and Methods for Evaluating Sampling Bias in Deep Active Classification
CN111111220A (zh) * 2020-03-26 2020-05-08 腾讯科技(深圳)有限公司 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN111368133A (zh) * 2020-04-16 2020-07-03 腾讯科技(深圳)有限公司 一种视频库的索引表建立方法、装置、服务器及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114647765A (zh) * 2022-05-19 2022-06-21 支付宝(杭州)信息技术有限公司 一种图数据采样方法和系统
CN114995580A (zh) * 2022-06-27 2022-09-02 长江师范学院 一种光伏系统最大功率点追踪方法及系统

Also Published As

Publication number Publication date
CN113032621B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN110889433B (zh) 人脸聚类方法、装置、计算机设备及存储介质
CN111340237B (zh) 数据处理和模型运行方法、装置和计算机设备
US11450027B2 (en) Method and electronic device for processing videos
CN108733819A (zh) 一种人员档案建立方法和装置
US11714921B2 (en) Image processing method with ash code on local feature vectors, image processing device and storage medium
CN109710402A (zh) 处理资源获取请求的方法、装置、计算机设备和存储介质
CN113032621A (zh) 数据采样方法、装置、计算机设备和存储介质
CN111125408B (zh) 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN110457361B (zh) 特征数据获取方法、装置、计算机设备和存储介质
US20110179013A1 (en) Search Log Online Analytic Processing
CN111860313A (zh) 基于人脸识别的信息查询方法、装置、计算机设备和介质
CN110555165B (zh) 信息识别方法、装置、计算机设备和存储介质
CN113111078B (zh) 资源数据处理方法、装置、计算机设备和存储介质
CN111783786B (zh) 图片的识别方法、系统、电子设备及存储介质
CN116912881A (zh) 一种动物物种识别方法、计算机设备以及识别系统
CN116665278A (zh) 微表情识别方法、装置、计算机设备及存储介质
CN114780368B (zh) 表数据同步方法与装置
CN110991473A (zh) 图像样本的特征选择方法、装置、计算机设备及存储介质
CN109471717A (zh) 样本库拆分方法、装置、计算机设备及存储介质
CN115082999A (zh) 合影图像人物分析方法、装置、计算机设备和存储介质
Sulzbachner et al. An optimized silicon retina stereo matching algorithm using time-space correlation
CN115185998A (zh) 目标字段查找方法及装置、服务器、计算机可读存储介质
CN110134664B (zh) 数据迁移路径的获取方法、装置和计算机设备
CN113535349A (zh) 数据批量处理方法、装置和存储介质
CN111143626A (zh) 团伙识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant