CN105005588B - 一种训练数据的处理方法及装置 - Google Patents

一种训练数据的处理方法及装置 Download PDF

Info

Publication number
CN105005588B
CN105005588B CN201510362416.2A CN201510362416A CN105005588B CN 105005588 B CN105005588 B CN 105005588B CN 201510362416 A CN201510362416 A CN 201510362416A CN 105005588 B CN105005588 B CN 105005588B
Authority
CN
China
Prior art keywords
training data
space
actual
characteristic
original feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510362416.2A
Other languages
English (en)
Other versions
CN105005588A (zh
Inventor
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201510362416.2A priority Critical patent/CN105005588B/zh
Publication of CN105005588A publication Critical patent/CN105005588A/zh
Application granted granted Critical
Publication of CN105005588B publication Critical patent/CN105005588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1737Details of further file system functions for reducing power consumption or coping with limited storage space, e.g. in mobile devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种训练数据的处理方法及装置,其中该方法包括:获取训练数据,并确定训练数据的原始特征空间,原始特征空间为训练数据原始的特征数据存储结构;对原始特征空间进行扫描统计,并根据统计结果建立全局索引;根据全局索引将训练数据映射到实际特征空间,实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;利用实际特征空间的训练数据进行模型训练。本发明实施例通过全局索引将训练数据做一次映射,将稀疏的存储结构转换为稠密的存储结构,不仅大大的减少了存储空间的消耗,还提升了模型的网络传输速度和模型训练更新的速度。

Description

一种训练数据的处理方法及装置
技术领域
本发明属于计算技术领域,尤其涉及一种训练数据的处理方法及装置。
背景技术
在用户浏览页面时,广告平台根据用户的网络浏览或搜索行为,以及页面的内容,预估所有备选广告的点击率,选择点击率预估值较高的广告进行优先投放,因此在线广告的点击率预估在广告投放过程中起着重要的作用。
目前业界主要使用简单线性模型如逻辑回归(LR,Logistic Regression)等进行广告点击率建模,模型求解过程简洁且较为迅速,可以在一定程度上防止对数据的过度拟合等。由于在训练数据训练以及广告点击率预估过程中,模型所使用到的特征数量繁多,名义空间范围大(通常可达到百亿级以上)且通常不是连续值,故LR模型一般使用哈希表的稀疏结构来进行存储。
通过哈希表来保存LR模型可以较方便地进行模型的训练与预测,但是由于哈希表是采用稀疏结构来存储,因此存储空间相对消耗较大,从而降低了模型的网络传输速度和模型训练更新的速度。
发明内容
本发明的目的在于提供一种训练数据的处理方法及装置,旨在减少了存储空间的消耗,提升模型的网络传输速度和模型训练更新的速度。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种训练数据的处理方法,其中包括:
获取训练数据,并确定所述训练数据的原始特征空间,所述原始特征空间为训练数据原始的特征数据存储结构;
对所述原始特征空间进行扫描统计,并根据统计结果建立全局索引;
根据所述全局索引将所述训练数据映射到实际特征空间,所述实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;
利用实际特征空间的训练数据进行模型训练。
为解决上述技术问题,本发明实施例还提供以下技术方案:
一种训练数据的处理装置,其中包括:
获取单元,用于获取训练数据,并确定所述训练数据的原始特征空间,所述原始特征空间为训练数据原始的特征数据存储结构;
索引建立单元,用于对所述原始特征空间进行扫描统计,并根据统计结果建立全局索引;
映射单元,用于根据所述全局索引将所述训练数据映射到实际特征空间,所述实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;
训练单元,用于利用实际特征空间的训练数据进行模型训练。
相对于现有技术,本实施例,通过全局索引,将原始特征空间的训练数据,映射到实际特征空间,其中实际特征空间是根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构,其后利用实际特征空间的训练数据进行模型训练;本发明实施例,通过全局索引将训练数据做一次映射,将稀疏的存储结构转换为稠密的存储结构,不仅大大的减少了存储空间的消耗,还提升了模型的网络传输速度和模型训练更新的速度。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1a是本发明提供的训练数据的处理方法的场景示意图;
图1b是本发明第一实施例提供的训练数据的处理方法的流程示意图;
图2a为本发明第二实施例提供的训练数据的处理方法的流程示意图;
图2b为本发明第二实施例提供的训练数据的处理方法中的训练数据与模型的示意图;
图2c为本发明第二实施例提供的训练数据的处理方法中的全局索引映射示意图;
图3为本发明第三实施例提供的训练数据的处理装置的结构示意图;
图4为本发明第四实施例提供的服务器的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明实施例提供一种训练数据的处理方法以及装置。
参见图1a,该图为该训练数据的处理方法应用于训练数据的处理系统的场景示意图,该系统可应用于广告领域,可以包括训练数据的处理装置,主要用于获取训练数据,并确定训练数据的原始特征空间(即训练数据原始的特征数据存储结构);然后对原始特征空间进行扫描统计,并根据统计结果建立全局索引,根据所述全局索引将训练数据映射到实际特征空间,该实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构,并利用实际特征空间的训练数据进行模型训练,比如对逻辑回归LR等线性模型进行广告点击率建模,以基于训练得到的模型进行广告的点击率预估,等等。
此外,该训练数据的处理系统还可以包括多个广告业务服务器,主要用于根据点击流数据如用户年龄、用户性别、广告ID(身份标识号码)等生成训练数据;当然,该训练数据的处理系统还可以包括在线存储服务器以及广告投放装置等,其中在线存储服务器主要用于对训练数据、广告发布记录等进行存储,广告投放装置主要用于基于广告的投放等等。
以下将分别进行详细说明。
第一实施例
在本实施例中,将从训练数据的处理装置的角度进行描述,该处理装置具体可以集成在服务器或网关等网络设备中。
一种训练数据的处理方法,包括:获取训练数据,并确定训练数据的原始特征空间,该原始特征空间为训练数据原始的特征数据存储结构;对原始特征空间进行扫描统计,并根据统计结果建立全局索引;根据全局索引将训练数据映射到实际特征空间,该实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;利用实际特征空间的训练数据进行模型训练。
请参阅图1b,图1b是本发明第一实施例提供的训练数据的处理方法的流程示意图。所述方法包括:
在步骤S101中,获取训练数据,并确定所述训练数据的原始特征空间,原始特征空间为训练数据原始的特征数据存储结构。
比如,训练数据可以具体是一些历史数据,其体现方式可以为一个矩阵,其每一行是一条历史数据,包括自变量X(如用户特征与广告特征)和因变量y(如用户是否点击广告)等特征数据;根据这些训练数据,对逻辑回归LR等线性模型进行广告点击率建模以及迭代训练。
其中,原始特征空间是指训练数据原始的特征数据存储结构,由于在训练数据训练以及广告点击率预估过程中,模型所使用到的特征数量繁多,名义空间范围大(通常可达到百亿级以上)且通常不是连续值,故LR模型一般使用哈希表的稀疏结构来进行存储;由于训练数据与LR模型的数据结构相对应,因此原始特征空间也是稀疏结构。
在步骤S102中,对该原始特征空间进行扫描统计,并根据统计结果建立全局索引。
在某些实施方式中,该步骤可以具体包括:
(一)对该原始特征空间进行扫描统计;
以确定在原始特征空间内实际存储有特征数据的位置;
(二)根据所述位置构建实际特征空间;
比如:在确定出原始特征空间内实际存储有特征数据的位置后,根据这些位置构成实际特征空间,即将原始特征空间进行压缩,只保留实际存储有特征数据的位置,去除没有存储特征数据的位置,以减少训练数据的存储空间。
其中,构建实际特征空间的步骤可具体如下:
(1)统计上述位置的数量,并根据该数量确定实际特征空间的长度;
比如,若原始特征空间的长度是M,其内部内实际存储有特征数据的位置有N个,则可以确定实际特征空间的长度为N,其中,M、N为正整数,且M>>N。
(2)根据实际特征空间的长度设定实际特征空间的特征序号;
又比如,确定出实际特征空间的长度为N后,为便于查询,可根据长度N设定实际特征空间的特征序号依次为1至N的正整数,同理,原始特征空间的特征序号可以依次为1至M的正整数。
可以理解的是,原始特征空间的特征序号可以在对该原始特征空间进行扫描统计时,实际特征空间构建前进行预先设定。
(三)建立原始特征空间与实际特征空间的映射关系,得到全局索引。
可具体的,“建立原始特征空间与实际特征空间的映射关系,得到全局索引”的步骤可包括:
(a)获取原始特征空间中预设的特征序号;
(b)建立原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系,得到全局索引。
比如,原始特征空间的长度M等于10,其内部实际存储有训练数据的位置有“1,3,4,8,10”,则可以确定实际特征空间的长度N为5,则对应的,建立原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系,得到的全局索引为“1→1,3→2,4→3,8→4,10→5”。
在步骤S103中,根据全局索引将训练数据映射到实际特征空间,实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构。
其中,根据全局索引将训练数据映射到实际特征空间也就是对训练数据的存储结构进行转换,将稀疏结构的原始特征空间转换为稠密结构的实际特征空间。
在步骤S104中,利用实际特征空间的训练数据进行模型训练。
可以理解的是,在广告界内由于线性模型求解较为迅速,可以在一定程度上防止对数据的过度拟合等,因此通常使用逻辑回归LR模型进行广告点击率建模。
比如,在训练过程中,首先需要根据上述全局索引,将预置的稀疏逻辑回归模型转换为稠密逻辑回归模型;其后,基于所述稠密逻辑回归模型,利用实际特征空间的训练数据进行模型迭代训练,得到迭代后的稠密逻辑回归模型。
需要说明的是,该过程中不但大大了减少了训练数据以及模型(逻辑回归模型)存储空间的消耗,而且,由于现有技术中,模型采用哈希表的存储结构进行存储,本发明实施例中,将稀疏模型转换为稠密模型,相对应的,模型的存储结构可以由现有的哈希表存储结构转换为数组结构,因此稠密模型的读取、更新效率都比稀疏模型高,尤其对于频繁读取、更新模型的算法,如随机梯度下降(SGD,Stochastic Gradient Descent)等,模型的网络传输速度和模型训练更新的速度也随之提升。
由上述可知,本实施例提供的训练数据的处理方法,通过全局索引,将原始特征空间的训练数据,映射到实际特征空间,其中实际特征空间是根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构,其后利用实际特征空间的训练数据进行模型训练;本发明实施例,通过全局索引将训练数据做一次映射,将稀疏的存储结构转换为稠密的存储结构,不仅大大的减少了存储空间的消耗,还提升了模型的网络传输速度和模型训练更新的速度。
第二实施例
根据第一实施例所描述的方法,以下将举例作进一步详细说明。
请参阅图2a,图2a为本发明第二实施例提供的训练数据的处理方法的流程示意图。所述方法包括:
在步骤S201中,获取训练数据。
在步骤S202中,对原始特征空间进行扫描统计,以确定在原始特征空间内实际存储有特征数据的位置。
其中,所述步骤S201和步骤S202可具体为:
比如,训练数据可以具体是一些历史数据,其体现方式可以为一个矩阵,其每一行是一条历史数据,包括自变量X(如用户特征与广告特征)和因变量y(如用户是否点击广告)等特征数据。
其中,原始特征空间是指训练数据原始的特征数据存储结构,由于在训练数据训练以及广告点击率预估过程中,模型所使用到的特征数量繁多,名义空间范围大(通常可达到百亿级以上)且通常不是连续值,故LR模型(可简写为W)一般使用哈希表的稀疏结构来进行存储;由于训练数据与模型W的数据结构相对应,因此原始特征空间也是稀疏结构。
进一步的,可如图2b所示,为原始特征空间中训练数据与模型W的形式示意,其中,每条训练数据中阴影背景的位置代表该训练数据中有值的特征,白色背景代表该位置无特征数据;比如,第一列特征表示性别为男,这样,训练数据1、2、5表示男性,训练数据3、4、6表示女性。
并且,原始的稀疏数据结构(即原始特征空间)会存在有无效的列,如第5、6列,所有训练数据中在该位置都没有值;同时,在训练数据中不存在特征数据的列,如第5、6列,在模型W中对应的位置也是没有值,因此原始的模型W的数据结构也是为稀疏结构。
在步骤S203中,统计该位置的数量,并根据所述数量确定实际特征空间的长度。
在步骤S204中,根据所述实际特征空间的长度设定实际特征空间的特征序号。
其中,所述步骤S203和步骤S204可具体为:根据原始特征空间内实际存储有特征数据的位置构建实际特征空间。
比如:在确定出原始特征空间内实际存储有特征数据的位置后,根据这些位置构成实际特征空间,将原始特征空间进行压缩,只保留实际存储有特征数据的位置,去除没有存储特征数据的位置,以减少训练数据的存储空间。
又比如,若原始特征空间的长度是M,其内部内实际存储有特征数据的位置有N个,则可以确定实际特征空间的长度为N,其中,M、N为正整数,且M>>N。
进一步的,确定出实际特征空间的长度为N后,为便于查询,可根据长度N设定实际特征空间的特征序号依次为1至N的正整数,同理,原始特征空间的特征序号可以依次为1至M的正整数。
在步骤S205中,获取原始特征空间中预设的特征序号,建立所述原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系,得到全局索引。
比如,如图2c,为全局索引建立的示意简图,假设训练数据的原始特征空间的长度M等于10,其内部实际存储有训练数据的位置有“1,3,4,8,10”,则可以确定实际特征空间的长度N为5,则对应的,建立原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系,得到的全局索引I为“1→1,3→2,4→3,8→4,10→5”。
在步骤S206中,根据所述全局索引将所述训练数据映射到实际特征空间。
其中,根据全局索引I将训练数据映射到实际特征空间也就是对训练数据的存储结构进行转换,将稀疏结构的原始特征空间转换为稠密结构的实际特征空间。
比如,在步骤S205全局索引I建立后,根据全局索引I将训练数据中原始特征空间中的特征序号进行映射,如图2c所示,即将训练数据映射到实际特征空间,这样,训练数据中的特征序号都落入1~N之间。
在步骤S207中,根据该全局索引,将预置的稀疏逻辑回归模型转换为稠密逻辑回归模型。
在步骤S208中,基于上述稠密逻辑回归模型,利用实际特征空间的训练数据进行模型迭代训练,得到迭代后的稠密逻辑回归模型。
其中,所述步骤S207和步骤S208可具体为:将训练数据映射到实际特征空间后,利用实际特征空间的训练数据进行模型训练的过程。
可以理解的是,由于在广告界内线性模型求解较为迅速,可以在一定程度上防止对数据的过度拟合等,因此通常使用逻辑回归LR模型进行广告点击率建模;
为便于更好理解方案的实施,以下对逻辑回归模型进行简单分析:
逻辑回归LR模型在线性回归的基础上,套用了一个逻辑函数Logistic函数(或称为Sigmoid函数),以使得逻辑回归模型在计算广告学上应用十分广泛。
可具体的,逻辑回归模型主要用于两分类问题(即输出只有两种,分别代表两个类别,如用户是否点击某个广告)。逻辑回归相当于y=f(X)(f表示一种函数映射关系),表明自变量x与因变量y的关系。广告学上,常见的分类问题,比如预测一个用户u看到一个广告a后是否点击,其中的广告位置x1、广告类目x2、用户年龄x3等即是自变量X(此处“X”是一个向量,记录了广告位置x1、广告类目x2、用户年龄x3的值),即特征数据,预测用户是否点击就相当于获取因变量y,即预测分类。
在逻辑回归中,y=f(X)的形式为:
其中,W和X都是向量(LR模型就是指这个向量W)。由于逻辑回归的模型结构是固定的,因此模型求解/训练的过程就是求解向量W的过程。而这个向量W是需要从给定的历史数据集(即上述训练数据)中学习/训练得出。当模型训练好后,当新的数据(向量X)到来时,可以根据这个函数预测结果。
训练数据是一个矩阵,其每一行是一条历史数据,包括自变量X(如用户特征与广告特征)和因变量y(如用户是否点击广告)的特征数据。由于逻辑回归模型的求解没有解析解,因此模型求解的过程一般都是通过随机梯度下降(SGD,Stochastic GradientDescent)、L-BFGS(Broyden Fletcher Goldfarb Shanno,一种拟牛顿优化方法)等最优化的求解算法迭代求解,其中每一次完整地读取全部训练数据并更新模型为一次迭代。
比如,先根据全局索引I,将预置的稀疏逻辑回归模型转换为稠密逻辑回归模型,然后根据上述的训练过程,利用实际特征空间的训练数据进行模型迭代训练,得到迭代后的稠密逻辑回归模型。
需要说明的是,该过程中不但大大了减少了训练数据以及模型(逻辑回归模型)存储空间的消耗,而且,由于现有技术中,模型采用哈希表的存储结构进行存储,本发明实施例中,将稀疏模型转换为稠密模型,相对应的,模型的存储结构可以由现有的哈希表存储结构转换为数组结构,因此稠密模型的读取、更新效率都比稀疏模型高,尤其对于频繁读取、更新模型的算法,如SGD等,模型的网络传输速度和模型训练更新的速度也随之提升。
在步骤S209中,根据所述全局索引,将所述迭代后的稠密逻辑回归模型转换为对应的迭代后的稀疏逻辑回归模型。
在步骤S210中,基于所述迭代后的稀疏逻辑回归模型对推广信息的点击率进行预估。
其中,所述步骤S209和步骤S210可具体为:利用逻辑回归模型对广告点击率进行预估的过程。
比如,当用户需要对广告点击率进行预估,则需要根据全局索引I,将稠密结构的逻辑回归模型转换为稀疏结构的逻辑回归模型,便可利用该稀疏结构的逻辑回归模型用于在线预测,如对广告点击率进行预估等。
可以理解的是,利用逻辑回归模型广告点击率的预估可参照现有的方式进行实现,此处不作具体限定。
由上述可知,本实施例提供的训练数据的处理方法,通过全局索引,将原始特征空间的训练数据,映射到实际特征空间,其中实际特征空间是根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构,其后利用实际特征空间的训练数据进行模型训练;本发明实施例,通过全局索引将训练数据做一次映射,将稀疏的存储结构转换为稠密的存储结构,不仅大大的减少了存储空间的消耗,还提升了模型的网络传输速度和模型训练更新的速度;进一步的,根据全局索引还可以将稠密的存储结构恢复为稀疏的存储结构,以便于基于该稀疏存储结构的LR模型对广告点击率进行预估。
第三实施例
为便于更好的实施本发明实施例提供的训练数据的处理方法,本发明实施例还提供一种基于上述训练数据的处理方法的装置。其中名词的含义与上述训练数据的处理的方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3,图3为本发明实施例提供的训练数据的处理装置的结构示意图,该训练数据的处理装置包括获取单元301,索引建立单元302、映射单元303以及训练单元304,如下:
其中,该获取单元301,用于获取训练数据,并确定所述训练数据的原始特征空间,所述原始特征空间为训练数据原始的特征数据存储结构。
比如,训练数据可以具体是一些历史数据,其体现方式可以为一个矩阵,其每一行是一条历史数据,包括自变量X(如用户特征与广告特征)和因变量y(如用户是否点击广告)等特征数据;根据这些训练数据,对逻辑回归LR等线性模型进行广告点击率建模以及迭代训练。
其中,原始特征空间是指训练数据原始的特征数据存储结构,由于在训练数据训练以及广告点击率预估过程中,模型所使用到的特征数量繁多,名义空间范围大(通常可达到百亿级以上)且通常不是连续值,故LR模型一般使用哈希表的稀疏结构来进行存储;由于训练数据与LR模型的数据结构相对应,因此原始特征空间也是稀疏结构。
该索引建立单元302,用于对所述原始特征空间进行扫描统计,并根据统计结果建立全局索引。
在某些实施方式中,该索引建立单元302可以具体包括:
(一)确定子单元,用于对所述原始特征空间进行扫描统计,以确定在原始特征空间内实际存储有特征数据的位置;
(二)构建子单元,用于根据所述位置构建实际特征空间;
比如:在确定出原始特征空间内实际存储有特征数据的位置后,根据这些位置构成实际特征空间,即将原始特征空间进行压缩,只保留实际存储有特征数据的位置,去除没有存储特征数据的位置,以减少训练数据的存储空间。
其中,该构建子单元可具体用于:
(1)统计所述位置的数量,并根据所述数量确定实际特征空间的长度;
比如,若原始特征空间的长度是M,其内部内实际存储有特征数据的位置有N个,则可以确定实际特征空间的长度为N,其中,M、N为正整数,且M>>N。
(2)根据所述实际特征空间的长度设定实际特征空间的特征序号。
又比如,确定出实际特征空间的长度为N后,为便于查询,可根据长度N设定实际特征空间的特征序号依次为1至N的正整数,同理,原始特征空间的特征序号可以依次为1至M的正整数。
可以理解的是,原始特征空间的特征序号可以在对该原始特征空间进行扫描统计时,实际特征空间构建前进行预先设定。
(三)建立子单元,用于建立所述原始特征空间与所述实际特征空间的映射关系,得到全局索引。
可具体的,该建立子单元,可具体用于:
(a)获取原始特征空间中预设的特征序号;
(b)建立所述原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系,得到全局索引。
比如,原始特征空间的长度M等于10,其内部实际存储有训练数据的位置有“1,3,4,8,10”,则可以确定实际特征空间的长度N为5,则对应的,建立原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系,得到的全局索引为“1→1,3→2,4→3,8→4,10→5”。
该映射单元303,用于根据所述全局索引将所述训练数据映射到实际特征空间,所述实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构。
其中,根据全局索引将训练数据映射到实际特征空间也就是对训练数据的存储结构进行转换,将稀疏结构的原始特征空间转换为稠密结构的实际特征空间。
该训练单元304,用于利用实际特征空间的训练数据进行模型训练。
比如,该训练单元304可包括转换子单元、模型训练子单元,如下:
该转换子单元,用于根据所述全局索引,将预置的稀疏逻辑回归模型转换为稠密逻辑回归模型;模型训练子单元,用于基于所述稠密逻辑回归模型,利用实际特征空间的训练数据进行模型迭代训练,得到迭代后的稠密逻辑回归模型。
需要说明的是,该过程中不但大大了减少了训练数据以及模型(逻辑回归模型)存储空间的消耗,而且,由于现有技术中,模型采用哈希表的存储结构进行存储,本发明实施例中,将稀疏模型转换为稠密模型,相对应的,模型的存储结构可以由现有的哈希表存储结构转换为数组结构,因此稠密模型的读取、更新效率都比稀疏模型高,尤其对于频繁读取、更新模型的算法,如SGD等,模型的网络传输速度和模型训练更新的速度也随之提升。
进一步优化的,该装置还可以包括转换单元以及点击率预估单元,用于利用逻辑回归模型对广告点击率进行预估,如下:
该转换单元用于根据所述全局索引,将所述迭代后的稠密逻辑回归模型转换为对应的迭代后的稀疏逻辑回归模型;点击率预估单元,用于基于所述迭代后的稀疏逻辑回归模型对推广信息的点击率进行预估。
比如,当用户需要对广告点击率进行预估,则需要根据全局索引,将稠密结构的逻辑回归模型转换为稀疏结构的逻辑回归模型,便可利用该稀疏结构的逻辑回归模型用于在线预测,如对广告点击率进行预估等。
可以理解的是,利用逻辑回归模型广告点击率的预估可参照现有的方式进行实现,此处不作具体限定。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
该训练数据的处理装置具体可以集成在服务器或网关等网络设备中。
由上述可知,本实施例提供的训练数据的处理装置,通过全局索引,将原始特征空间的训练数据,映射到实际特征空间,其中实际特征空间是根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构,其后利用实际特征空间的训练数据进行模型训练;本发明实施例,通过全局索引将训练数据做一次映射,将稀疏的存储结构转换为稠密的存储结构,不仅大大的减少了存储空间的消耗,还提升了模型的网络传输速度和模型训练更新的速度。
第四实施例
本发明实施例还提供一种服务器,其中可以集成本发明实施例的训练数据的处理装置,所述服务器可基于一接收终端服务器上运行,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency,RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
RF电路403可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器401处理;另外,将涉及上行的数据发送给基站。通常,RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路403还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobilecommunication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
服务器还包括给各个部件供电的电源404(比如电池),优选的,电源可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元408可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。
具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取训练数据,并确定训练数据的原始特征空间,原始特征空间为训练数据原始的特征数据存储结构;对原始特征空间进行扫描统计,并根据统计结果建立全局索引;根据全局索引将所述训练数据映射到实际特征空间,实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;利用实际特征空间的训练数据进行模型训练。
优选的,所述处理器401还可以用于:对原始特征空间进行扫描统计,以确定在原始特征空间内实际存储有特征数据的位置;根据该位置构建实际特征空间;建立原始特征空间与实际特征空间的映射关系,得到全局索引。
优选的,所述处理器401还可以用于,统计上述位置的数量,并根据数量确定实际特征空间的长度;根据实际特征空间的长度设定实际特征空间的特征序号;获取原始特征空间中预设的特征序号,建立所述原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系,得到全局索引。
优选的,所述处理器401还可以用于,根据全局索引,将预置的稀疏逻辑回归模型转换为稠密逻辑回归模型;基于稠密逻辑回归模型,利用实际特征空间的训练数据进行模型迭代训练,得到迭代后的稠密逻辑回归模型。
优选的,所述处理器401还可以用于,根据全局索引,将迭代后的稠密逻辑回归模型转换为对应的迭代后的稀疏逻辑回归模型;基于迭代后的稀疏逻辑回归模型对推广信息的点击率进行预估。
由上述可知,本实施例提供的服务器中,通过全局索引,将原始特征空间的训练数据,映射到实际特征空间,其中实际特征空间是根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构,其后利用实际特征空间的训练数据进行模型训练;本发明实施例,通过全局索引将训练数据做一次映射,将稀疏的存储结构转换为稠密的存储结构,不仅大大的减少了存储空间的消耗,还提升了模型的网络传输速度和模型训练更新的速度。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对训练数据的处理方法的详细描述,此处不再赘述。
本发明实施例提供的所述训练数据的处理装置,譬如为计算机、平板电脑、具有触摸功能的手机等等,所述训练数据的处理装置与上文实施例中的训练数据的处理方法属于同一构思,在所述训练数据的处理装置上可以运行所述训练数据的处理方法实施例中提供的任一方法,其具体实现过程详见所述训练数据的处理方法实施例,此处不再赘述。
需要说明的是,对本发明所述训练数据的处理方法而言,本领域普通测试人员可以理解实现本发明实施例所述训练数据的处理方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在终端的存储器中,并被该终端内的至少一个处理器执行,在执行过程中可包括如所述训练数据的处理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本发明实施例的所述训练数据的处理装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本发明实施例所提供的一种训练数据的处理方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种训练数据的处理方法,其特征在于,包括:
获取训练数据,并确定所述训练数据的原始特征空间,所述原始特征空间为训练数据原始的特征数据存储结构;
对所述原始特征空间进行扫描统计,以确定在原始特征空间内实际存储有特征数据的位置;
统计所述位置的数量,并根据所述数量确定实际特征空间的长度;
根据所述实际特征空间的长度设定实际特征空间的特征序号;
获取原始特征空间中预设的特征序号,建立所述原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系,得到全局索引;
根据所述全局索引将所述训练数据映射到实际特征空间,所述实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;
根据所述全局索引,将预置的稀疏逻辑回归模型转换为稠密逻辑回归模型;
基于所述稠密逻辑回归模型,利用实际特征空间的训练数据进行模型迭代训练,得到迭代后的稠密逻辑回归模型。
2.根据权利要求1所述的训练数据的处理方法,其特征在于,所述基于所述稠密逻辑回归模型,利用实际特征空间的训练数据进行模型迭代训练,得到迭代后的稠密逻辑回归模型之后,还包括:
根据所述全局索引,将所述迭代后的稠密逻辑回归模型转换为对应的迭代后的稀疏逻辑回归模型;
基于所述迭代后的稀疏逻辑回归模型对推广信息的点击率进行预估。
3.一种训练数据的处理装置,其特征在于,包括:
获取单元,用于获取训练数据,并确定所述训练数据的原始特征空间,所述原始特征空间为训练数据原始的特征数据存储结构;
索引建立单元,包括确定子单元、构建子单元以及建立子单元,其中,所述确定子单元,用于对所述原始特征空间进行扫描统计,以确定在原始特征空间内实际存储有特征数据的位置;
所述构建子单元,用于统计所述位置的数量,并根据所述数量确定实际特征空间的长度,根据所述实际特征空间的长度设定实际特征空间的特征序号;
所述建立子单元,用于获取原始特征空间中预设的特征序号,建立所述原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系,得到全局索引;
映射单元,用于根据所述全局索引将所述训练数据映射到实际特征空间,所述实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;
训练单元,用于根据所述全局索引,将预置的稀疏逻辑回归模型转换为稠密逻辑回归模型;基于所述稠密逻辑回归模型,利用实际特征空间的训练数据进行模型迭代训练,得到迭代后的稠密逻辑回归模型。
4.根据权利要求3所述的训练数据的处理装置,其特征在于,所述装置还包括:
转换单元,用于根据所述全局索引,将所述迭代后的稠密逻辑回归模型转换为对应的迭代后的稀疏逻辑回归模型;
点击率预估单元,用于基于所述迭代后的稀疏逻辑回归模型对推广信息的点击率进行预估。
CN201510362416.2A 2015-06-26 2015-06-26 一种训练数据的处理方法及装置 Active CN105005588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510362416.2A CN105005588B (zh) 2015-06-26 2015-06-26 一种训练数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510362416.2A CN105005588B (zh) 2015-06-26 2015-06-26 一种训练数据的处理方法及装置

Publications (2)

Publication Number Publication Date
CN105005588A CN105005588A (zh) 2015-10-28
CN105005588B true CN105005588B (zh) 2018-04-20

Family

ID=54378264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510362416.2A Active CN105005588B (zh) 2015-06-26 2015-06-26 一种训练数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN105005588B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI553494B (zh) * 2015-11-04 2016-10-11 創意引晴股份有限公司 基於多模態融合之智能高容錯視頻識別系統及其識別方法
CN105701191B (zh) * 2016-01-08 2020-12-29 腾讯科技(深圳)有限公司 一种推送信息点击率估计方法和装置
CN110154822A (zh) * 2019-05-14 2019-08-23 中科院合肥技术创新工程院 一种应用于电动汽车智能电池管理系统的充放电控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411637A (zh) * 2011-12-30 2012-04-11 创新科软件技术(深圳)有限公司 分布式文件系统的元数据管理方法
CN103544300A (zh) * 2013-10-31 2014-01-29 云南大学 一种云环境下可扩展存储索引结构的实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9003110B2 (en) * 2010-01-13 2015-04-07 International Business Machines Corporation Dividing incoming data into multiple data streams and transforming the data for storage in a logical data object

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411637A (zh) * 2011-12-30 2012-04-11 创新科软件技术(深圳)有限公司 分布式文件系统的元数据管理方法
CN103544300A (zh) * 2013-10-31 2014-01-29 云南大学 一种云环境下可扩展存储索引结构的实现方法

Also Published As

Publication number Publication date
CN105005588A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
CN105045819B (zh) 一种训练数据的模型训练方法及装置
CN107102941B (zh) 一种测试用例的生成方法及装置
CN108280115B (zh) 识别用户关系的方法及装置
CN110209450A (zh) 页面生成方法、装置、存储介质及服务器
CN107742221A (zh) 一种推广信息的处理方法、装置和系统
CN108470253A (zh) 一种用户识别方法、装置及存储设备
CN104239535A (zh) 一种为文字配图的方法、服务器、终端及系统
CN108197224A (zh) 用户群分类方法、存储介质以及终端
CN109948633A (zh) 用户性别预测方法、装置、存储介质及电子设备
CN104679969A (zh) 防止用户流失的方法及装置
CN108701149A (zh) 一种智能推荐方法和终端
CN108984064A (zh) 分屏显示方法、装置、存储介质和电子设备
CN105763431A (zh) 一种信息推送方法、装置及系统
CN110309405A (zh) 一种项目推荐方法、装置及存储介质
CN107678800A (zh) 后台应用清理方法、装置、存储介质及电子设备
CN102118711B (zh) 信息推送方法和信息推送装置
CN107545451A (zh) 一种广告推送方法及装置
CN109992367A (zh) 应用处理方法和装置、电子设备、计算机可读存储介质
CN106786962A (zh) 充电控制方法、装置及终端
CN107437189A (zh) 一种推广信息的投放方法、装置及系统
CN109062468A (zh) 分屏显示方法、装置、存储介质和电子设备
CN107766139B (zh) 应用管理方法及装置
CN105005588B (zh) 一种训练数据的处理方法及装置
CN108932310A (zh) 空间服务提供方法、装置、服务器及存储设备
CN106201890A (zh) 一种应用的性能优化方法及服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant