具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了提高处理序列化数据以获取序列化数据中包含的有用信息的效率,本说明书实施例提供一种数据处理方法及装置。
下面结合附图1至图3对本说明书实施例提供的一种数据处理方法进行详细的说明。
如图1所示,本说明书实施例提供的一种数据处理方法,可以包括如下步骤:
步骤102、获取待处理数据中的多个变量和所述多个变量对应的值构成的数据集。
待处理数据,可以是预先采集任何包含序列化数据的数据。待处理数据中的多个变量可以预先人工提取也可以自动预处理得到,预处理的说明详见下文中的另一实施例,此处暂不赘述。
举例来说,如果以用户在电商平台中购物产生的订单数据作为待处理数据,那么多个变量可以包括用户ID(User ID)、产品ID(Product ID)、订单ID(Order ID)等变量。相应的,基于步骤102确定出的待处理数据的数据集可以如下面的表1所示。
表1
Order ID |
Product ID |
User ID |
1 |
2 |
1 |
1 |
2 |
1 |
1 |
2 |
1 |
1 |
3 |
1 |
2 |
4 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
可选地,在该数据集中,可以将多个变量中不同变量的值的对应关系也体现出来。例如,在上表1中,可以按照一个变量的值与另一个变量值的对应关系列出步骤102中的多个变量的值,具体的,在表1中,位于同一行的不同变量的值代表存在对应关系的变量的值。以表1中的第一个数据行为例,表示用户ID为1的用户下了订单ID为1的订单,且该订单中包含产品ID为2的产品。
可选地,步骤102中获取的待处理数据,可以包含模型(利用待处理数据中的文本特征向量构建的模型)最后一次迭代更新时间至当前时间内新产生的数据。例如,在风控场景中,如果待处理数据是风险数据,模型最后一次迭代更新是3个月前,那么新产生的数据可以是这个3个月产生的新风险数据。当然,本说明书实施例提供的数据处理方法的应用场景并不局限于风控场景,还可以是其他场景。
步骤104、从所述数据集中确定出至少一条序列化数据,所述序列化数据中包含被预设分隔符分隔开的多个序列化元素,所述多个序列化元素是多个第一变量的值,且所述多个第一变量均与第二变量的同一值相对应,所述第一变量和所述第二变量属于所述多个变量中的变量。
序列化数据是指包含多个有序或无序的序列化元素的数据,且这多个序列化元素中相邻的两个序列化元素之间被预设分隔符分隔开。其中,预设分隔符可以是自然语言中的标点符号,例如逗号、顿号、句号等;序列化元素可以是预设变量的值。作为一个例子,序列化数据可以是形如“预设变量的值1,预设变量的值2,预设变量的值3,···”这样的数据。
在本说明书实施例中,一条序列化数据中包含的多个序列化元素是多个第一变量的值,且这多个第一变量的值均与第二变量的同一值相对应,也即,一条序列化数据中的多个序列化元素是第二变量下的多个第一变量的值。例如,同一订单下的多个产品的ID值,其中,订单就是第二变量,多个产品的ID就是多个第一变量,多个产品的ID值就是多个第一变量的值。再如,同一个用户下的多个订单的ID值,其中,用户就是第二变量,多个订单的ID就是多个第一变量,多个订单的ID值就是多个第一变量的值;又如,同一手机中安装的多个应用(Application,APP)的ID值,其中,手机就是第二变量,多个APP的ID就是多个第一变量,多个APP的ID值就是多个第一变量的值,等等。
以数据集为表1所示的数据集为例来说,经过步骤104,可以从表1中确定出如表2所示的2条序列化数据。其中,一条是均与值为1的订单ID对应的多个产品ID的值“2,2,2,3”;另一条是均与值为2的订单ID对应的多个产品ID的值“4,2,2,2,2”。在这两条序列化数据中变量的值即为序列化元素,且相邻的序列化元素之间通过逗号隔开。
表2
Order ID |
Product ID |
1 |
2,2,2,3 |
2 |
4,2,2,2,2 |
可以理解,通过步骤104确定出的序列化数据“2,2,2,3”和“4,2,2,2,2”,类似于自然语言中包含多个单词(序列化元素)的一个句子(序列化数据),因此可以在后续步骤中把它当做自然语言来处理,从而从中得到建模用的有用信息。
在一种具体实施方式中,步骤104可以直接通过统计的方式确定出所述数据集中的至少一条序列化数据。具体的,可以先统计得到所述多个变量中的每一变量的每一值对应的另一变量的值,然后从统计结果中筛选得到符合序列化数据的定义(包含被预设分隔符分隔开的多个序列化元素)的序列化数据。
更进一步地,在另一种具体实施方式中,步骤104可以基于所述数据集中所述多个变量对应的值,绘制所述多个变量中的一个变量的值相对于另一个变量的值的直方图,得到至少一个直方图;基于所述至少一个直方图,确定所述数据集中与所述第二变量的同一值相对应的所述多个第一变量的值;将所述多个第一变量的值用所述预设分隔符分开,形成一条序列化数据。
例如,通过点选或拖拽表1所示的数据集中的两个不同变量分别作为图2所示的第一变量和第二变量,绘制得到如图2所示的直方图,具体可以得到用户ID-订单ID、订单ID-产品ID对应的直方图。不难理解,通过直方图,可以直观地确定出包含多个序列化元素的序列化数据,例如从图2中可以直观地确定出值分别为2、3、4的第二变量的对应的多条序列化数据。
当然,在上述两种具体实施方式的基础上,本领域技术人员还可以拓展出更多的从所述数据集中确定出至少一条序列化数据的方式,本说明书实施例对此不做限定。
步骤106、基于预设自然语言处理模型分别对所述至少一条序列化数据进行处理,得到所述至少一条序列化数据对应的第一文本特征向量。
具体可以将上述至少一条序列化数据输入预设自然语言处理模型中,得到所述至少一条序列化数据对应的第一文本特征向量,也即将步骤104处理得到的特殊的“句子”输入预设自然语言处理模型中,得到所述至少一条序列化数据对应的第一文本特征向量。可以理解,不同的“句子”对应得到不同的第一文本特征向量。
例如,假如步骤104确定出的一条序列化数据为“4,2,2,2,2”,将该条序列化数据输入预设自然语言处理模型之后,可以得到{-0.181014,,0371822,-0.591336,0.145712,···,0.310294}这样一个N维的行向量,这个N维的行向量就是该条序列化数据对应的第一文本特征向量。
其中,预设自然语言处理模型包括Word2vec、词频逆文本频率指数(TermFrequency–Inverse Document Frequency,TF-IDF)、GRU(Gated Recurrent Unit)、文本卷积神经网络(Text Convolutional Neural Networks,Text-CNN)和长短期记忆网络(LongShort-Term Memory,LSTM)等模型中的任一种。
本说明书实施例提供的一种数据处理方法,由于能够利用自然语言处理模型对确定出的至少一条序列化数据进行处理,得到包含有用信息的至少一条序列化数据对应的文本特征向量以供建模使用,因此可以提升所建模型的效果,例如提升所建模型的准确率和覆盖率。
此外,本说明书实施例提供的数据处理方法,能够自动地从待处理数据中确定出序列化数据,并自动地利用预设自然语言处理模型对序列化数据进行处理,得到反映有用信息的文本特征向量,因此数据处理效率也相对较高。
总之,本说明书实施例提供的数据处理方法,巧妙地将包含序列化数据的待处理数据的处理,转化为自然语言处理问题,不仅可以得到供建模用的文本特征向量,提高所建模型的效果,还可以使得对包含序列化数据的待处理数据的处理自动化,从而可以提高待处理数据的处理效率。
可选地,在另一实施例中,如图3所示,本说明书实施例提供的一种数据处理方法,还可以包括:
步骤108、基于预设降维模型对所述第一文本特征向量进行降维处理,得到第二文本特征向量。
具体可以将第一文本特征向量输入预设降维模型中进行降维处理,并将预设降维模型的输出作为第二文本特征向量。
其中,预设降维模型可以是主成分分析(Principal Component Analysis,PCA)、lightgbm和信息价值指标(Information Value,IV)值计算模型等模型中的任一种。
在一个例子中,如果所述预设降维模型为lightgbm模型,则步骤108可以包括:基于lightgbm模型确定所述第一文本特征向量中的文本特征的重要程度,将所述第一文本特征向量中所述重要程度小于或等于第二阈值的文本特征删除,得到所述第二文本特征向量。
且在该例子中,可以先确定lightgbm的轮数的初始值;然后不断地调整轮数的取值,并利用多折验证(N-fold validation)找到损失值最小时的最优轮数;再利用最优轮数的lightgbm计算每一个特征的重要程度;最后,将重要程度小于或等于第二阈值的文本特征删除。.
在另一个例子中,如果所述预设降维模型为IV值计算模型,则步骤108可以包括:基于IV值计算模型确定所述第一文本特征向量中的文本特征的IV值,将所述第一文本特征向量中IV值小于或等于第三阈值的文本特征删除,得到所述第二文本特征向量。其中,第三阈值可以人为设定,例如第三阈值可以等于0.3。
在第三个例子中,如果所述预设降维模型为PCA,其中,则步骤108可以包括:基于PCA对所述第一文本特征向量进行降维处理,得到第二文本特征向量。
沿用上文中所举的例子,假设步骤106中得到的第一文本特征向量是{-0.181014,,0371822,-0.591336,0.145712,···,0.310294}这样一个N(N大于4)维的行向量,那么经过步骤108的降维处理后,得到的第二文本特征向量可以是{0.0295273,0.0966635,-0.0955068,0.0128451}这样一个4维的行向量。
可以理解,本说明书实施例提供的一种数据处理方法,由于对步骤106中得到的第一文本特征向量进一步进行降维处理得到第二文本特征向量,这使得建模时采用的来自序列化数据的文本特征向量的数据量减少,从而可以节约建模时所用的计算资源,并且可以提高建模速度。
可选地,在又一实施例中,如图3所示,本说明书实施例提供的一种数据处理方法,还可以包括:
步骤110、将所述第二文本特征向量与第三文本特征向量进行归并,得到第四文本特征向量,所述第三文本特征向量是基于预设算法对所述待处理数据进行处理后生成的文本特征向量,所述预设算法为与所述自然语言处理模型不同的算法。
举例来说,预设算法可以包括但不限于各种统计算法,例如,最小值(min)、最大值(max)、平均值(mean)、中位数(media)、标准差(std)、不对称度(skew)、峰度系数(Kurtosis)、first和last等统计算法中的一个或多个。
基于预设算法对待处理数据处理得到的第三文本特征向量可以包括但不限于各种统计算法得到的特征构成的特征向量,等等。
作为一个例子,步骤110具体可以包括:将所述第二文本特征向量与所述第三文本特征向量进行合并;对合并后的文本特征向量进行归一化处理;删除归一化处理后的文本特征向量中共线性大于第一阈值的文本特征,得到所述第四文本特征向量。其中,第一阈值可以人为设定,例如第一阈值为95%。其中,第二文本特征向量与所述第三文本特征向量的合并,可以是第二文本特征向量与所述第三文本特征向量的拼接,例如,假设第二文本特征向量为{0.0295273,0.0966635,-0.0955068,0.0128451},第三文本特征向量为{0,1,2,3},则合并得到的特征向量为{0.0295273,0.0966635,-0.0955068,0.0128451,0,1,2,3}。
在上述例子中,归一化处理并删除共线性大于第一阈值的文本特征的目的是,去除合并后的文本特征向量中的重复文本特征。
第四文本特征向量是将步骤108降维处理得到的第二文本特征向量与基于预设算法生成的第三文本特征向量进行归并后得到的文本特征向量,由于是二者的归并,因此第四文本特征向量可以反映更多的有用信息,进而在利用第四文本特征向量建模时,可以进一步提高所建模型的效果。
也就是说,在本说明书实施例提供的一种数据处理方法中,将步骤108得到的第二文本特征向量与基于预设算法得到的第三文本特征向量归并的目的是,全面的挖掘出待处理数据中序列化数据反映的有用信息,以在建模时充分地利用这些有用信息,从而进一步提高所建模型的效果。
可选地,在另一实施例中,如图3所示,本说明书实施例提供的一种数据处理方法,还可以包括:
步骤112、判断利用第二文本特征向量或第四文本特征向量建立的预设模型的预设评价指标是否满足预设条件;若满足,执行步骤114;否则,执行步骤116。
其中,第四文本特征向量,是对上文中述及的第二文本特征向量和第三文本特征向量归并后得到的,能够更全面的反映待处理数据中的序列化数据中包含的有用信息的特征向量,具体说明请参见上一实施例,此处不再赘述。
该步骤112的目的在于判断利用本说明书实施例提供的数据处理方法得到的文本特征向量(第二文本特征向量或第四文本特征向量)构建的模型效果,是否比单纯地依据人工处理得到的第三文本特征向量构建的模型效果更为显著,或者二者是否相当;如果是,说明本说明书实施例提供的数据处理方法处理得到的文本特征项量满足建模要求,可以应用于建立预设模型;否则,说明本说明书实施例提供的数据处理方法处理得到的文本特征项量达不到建立预设模型的要求,需要重新确定。
作为一个例子,预设评价指标例如可以是受试者工作特征(Receiver OperatingCharacteristic,ROC)曲线下的面积(Area Under Curve,AUC),相应的,预设条件例如可以是AUC值大于预设阈值。这也说明,AUC值越大,利用第二文本特征向量或第四文本特征向量建立的预设模型的效果越显著。
步骤114、将所述数据集的描述参数和所述预设自然语言处理模型的模型参数的对应关系进行存储。
其中,数据集的描述参数可以包括但不限于数据集中变量的类型、数据集中变量的数量、数据集中每一变量的值的数量,以及数据集的规模,等等。
存储该对应关系的目的在于,在执行步骤106时,先基于所述对应关系和所述数据集的描述参数,确定目标模型参数;然后基于模型参数为所述目标模型参数的所述预设自然语言处理模型,对所述至少一条序列化数据进行处理,得到所述至少一条序列化数据对应的第一文本特征向量。这样做的好处在于在执行步骤106时,可以直接利用预存的(或者预先沉淀的)与数据集的描述参数匹配的模型参数的自然语言处理模型,对至少一条序列化数据进行处理,而不需要重复训练确定模型参数,因此,可以进一步提升处理序列化数据以获取序列化数据中包含的有用信息的效率。
步骤116、基于预设方式增大步骤108中的降维比例后,重新执行步骤108。
作为一个例子,如果所述预设降维模型为lightgbm模型,且步骤108包括:基于lightgbm模型确定所述第一文本特征向量中的文本特征的重要程度,将所述第一文本特征向量中所述重要程度小于或等于第二阈值的文本特征删除,得到所述第二文本特征向量;则,步骤116中的基于预设方式增大降维比例,可以包括:通过增大所述第二阈值,增大降维比例。
作为另一个例子,如果所述预设降维模型为IV值计算模型,且步骤108包括:基于IV值计算模型确定所述第一文本特征向量中的文本特征的IV值,将所述第一文本特征向量中IV值小于或等于第三阈值的文本特征删除,得到所述第二文本特征向量;则,步骤116中的基于预设方式增大降维比例,可以包括:通过增大所述第三阈值,增大降维比例。
作为第三个例子,如果所述预设降维模型为PCA,则步骤116中的所述基于预设方式增大降维比例,可以包括:通过减少主成分的数量,增大降维比例。
通过步骤116增大步骤108中的降维比例的目的在于,进一步删除第一文本特征向量中不满足要求的特征,使得得到的第二文本特征向量,或者后续得到的第四文本特征向量反映的有用信息更有助于建立预设模型,达到利用本说明书实施例提供的数据处理方法自动处理得到的文本特征向量能够被用于建立预设模型的目的。
可选地,在上述任一实施例的基础上,在上述步骤104之前,本说明书实施例提供的一种数据处理方法,还可以包括:对步骤102中获取的数据集进行预处理,预处理包括但不限于填补缺失值、转换数据类型、去除重复数据和筛选得到所述多个变量,等等。
其中,转换数据类型,例如可以是将string类型的数据转换为double类型的。其中,筛选得到所述多个变量的一种方式,可以是将与预设标签更相关的一些变量作为所述多个变量,预设标签可以是一个指定变量;筛选得到所述多个变量的另一种方式,可以是利用预设弱分类器从数据集的变量中筛选得到所述多个变量。
不难理解,通过预处理可以使步骤102得到的数据集中的数据更完整、更规范,这有助于确定出更多的序列化数据,进而得到更多的可以反映序列化数据中的有用信息的第一文本特征向量。以及,通过预处理可以自动确定出步骤102中的所述多个变量,这可以进一步提升处理待处理数据得到第一文本特征向量的效率。
以上是对本说明书提供一种数据处理方法的说明,下面对本说明书提供的电子设备进行介绍。
图4是本说明书的一个实施例提供的电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取待处理数据中的多个变量和所述多个变量对应的值构成的数据集;
从所述数据集中确定出至少一条序列化数据,所述序列化数据中包含被预设分隔符分隔开的多个序列化元素,所述多个序列化元素是多个第一变量的值,且所述多个第一变量的值均与第二变量的同一值相对应,所述第一变量和所述第二变量属于所述多个变量中的变量;
基于预设自然语言处理模型分别对所述至少一条序列化数据进行处理,得到所述至少一条序列化数据对应的第一文本特征向量。
上述如本说明书图1或图3所示实施例揭示的数据处理方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1或图3的数据处理方法,本说明书在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
获取待处理数据中的多个变量和所述多个变量对应的值构成的数据集;
从所述数据集中确定出至少一条序列化数据,所述序列化数据中包含被预设分隔符分隔开的多个序列化元素,所述多个序列化元素是多个第一变量的值,且所述多个第一变量的值均与第二变量的同一值相对应,所述第一变量和所述第二变量属于所述多个变量中的变量;
基于预设自然语言处理模型分别对所述至少一条序列化数据进行处理,得到所述至少一条序列化数据对应的第一文本特征向量。
图5是本说明书提供的数据处理装置500的结构示意图。请参考图5,在一种软件实施方式中,数据处理装置500可包括:第一获取模块501、第一确定模块502和第一处理模块503。
第一获取模块501,用于获取待处理数据中的多个变量和所述多个变量对应的值构成的数据集。
待处理数据,可以是预先采集任何包含序列化数据的数据。待处理数据中的多个变量可以预先人工提取也可以自动预处理得到。
第一确定模块502,用于从所述数据集中确定出至少一条序列化数据,所述序列化数据中包含被预设分隔符分隔开的多个序列化元素,所述多个序列化元素是多个第一变量的值,且所述多个第一变量的值均与第二变量的同一值相对应,所述第一变量和所述第二变量属于所述多个变量中的变量。
其中,序列化数据是指包含多个有序或无序的序列化元素的数据,预设分隔符可以是自然语言中的标点符号,例如逗号、顿号、句号等。作为一个例子,序列化数据可以是形如“序列化元素1,序列化元素2,序列化元素3,···”这样的数据。
在一种具体实施方式中,第一确定模块502可以直接通过统计的方式确定出所述数据集中的至少一条序列化数据。具体的,可以先统计得到所述多个变量中的每一变量的每一值对应的另一变量的值,然后从统计结果中筛选得到符合序列化数据的定义(包含被预设分隔符分隔开的多个序列化元素)的序列化数据。
更进一步地,在另一种具体实施方式中,第一确定模块502
可以基于所述数据集中所述多个变量对应的值,绘制所述多个变量中的一个变量的值相对于另一个变量的值的直方图,得到至少一个直方图;基于所述至少一个直方图,确定所述数据集中与所述第二变量的同一值相对应的所述多个第一变量的值;将所述多个第一变量的值用所述预设分隔符分开,形成一条序列化数据。
当然,在上述两种具体实施方式的基础上,本领域技术人员还可以拓展出更多的从所述数据集中确定出至少一条序列化数据的方式,本说明书实施例对此不做限定。
第一处理模块503,用于基于预设自然语言处理模型分别对所述至少一条序列化数据进行处理,得到所述至少一条序列化数据对应的第一文本特征向量。
具体的,第一处理模块503可以将上述至少一条序列化数据输入预设自然语言处理模型中,得到所述至少一条序列化数据对应的第一文本特征向量。
本说明书实施例提供的一种数据处理装置500,由于能够利用自然语言处理模型对确定出的至少一条序列化数据进行处理,得到包含有用信息的至少一条序列化数据对应的文本特征向量以供建模使用,因此可以提升所建模型的效果,例如提升所建模型的准确率和覆盖率。
此外,本说明书实施例提供的数据处理装置500,能够自动地从待处理数据中确定出序列化数据,并自动地利用预设自然语言处理模型对序列化数据进行处理,得到反映有用信息的文本特征向量,因此数据处理效率也相对较高。
总之,本说明书实施例提供的数据处理装置500,巧妙地将包含序列化数据的待处理数据的处理,转化为自然语言处理问题,不仅可以得到供建模用的文本特征向量,提高所建模型的效果,还可以使得对包含序列化数据的待处理数据的处理自动化,从而提高待处理数据的处理效率。
可选地,在另一实施例中,如图6所示,本说明书实施例提供的一种数据处理装置500,还可以包括:第二处理模块504。
第二处理模块504,用于基于预设降维模型对所述第一文本特征向量进行降维处理,得到第二文本特征向量。
具体的,第二处理模块504可以将第一文本特征向量输入预设降维模型中进行降维处理,并将预设降维模型的输出作为第二文本特征向量。
其中,预设降维模型可以是PCA、lightgbm和IV值计算模型等模型中的任一种。
在一个例子中,如果所述预设降维模型为lightgbm模型,则第二处理模块504可以用于:基于lightgbm模型确定所述第一文本特征向量中的文本特征的重要程度,将所述第一文本特征向量中所述重要程度小于或等于第二阈值的文本特征删除,得到所述第二文本特征向量。
且在该例子中,可以先确定lightgbm的轮数的初始值;然后不断地调整轮数的取值,并利用多折验证(N-fold validation)找到损失值最小时的最优轮数;再利用最优轮数的lightgbm计算每一个特征的重要程度;最后,将重要程度小于或等于第二阈值的文本特征删除。.
在另一个例子中,如果所述预设降维模型为IV值计算模型,则第二处理模块504可以用于:基于IV值计算模型确定所述第一文本特征向量中的文本特征的IV值,将所述第一文本特征向量中IV值小于或等于第三阈值的文本特征删除,得到所述第二文本特征向量。
在第三个例子中,如果所述预设降维模型为PCA,其中,则则第二处理模块504可以用于:基于PCA对所述第一文本特征向量进行降维处理,得到第二文本特征向量。
可以理解,本说明书实施例提供的一种数据处理装置500,由于对第一处理模块503中得到的第一文本特征向量进一步进行降维处理得到第二文本特征向量,这使得建模时采用的来自序列化数据的文本特征向量的数据量减少,从而可以节约建模时所用的计算资源,并且可以提高建模速度。
可选地,在另一实施例中,如图6所示,本说明书实施例提供的一种数据处理装置500,还可以包括:第三处理模块505。
第三处理模块505,用于将所述第二文本特征向量与第三文本特征向量进行归并,得到第四文本特征向量,所述第三文本特征向量是基于预设算法对所述待处理数据进行处理后生成的文本特征向量。
作为一个例子,第三处理模块505可以用于:将所述第二文本特征向量与所述第三文本特征向量进行合并;对合并后的文本特征向量进行归一化处理;删除归一化处理后的文本特征向量中共线性大于第一阈值的文本特征,得到所述第四文本特征向量。
在上述例子中,归一化处理并删除共线性大于第一阈值的文本特征的目的是,去除合并后的文本特征向量中的重复文本特征。
在本说明书实施例提供的一种数据处理装置500中,将第二处理模块504处理得到的第二文本特征向量与基于预设算法确定的第三文本特征向量归并的目的是,全面的挖掘出待处理数据中序列化数据反映的有用信息,以在建模时充分地利用这些有用信息,从而进一步提高所建模型的效果。
可选地,在另一实施例中,如图6所示,本说明书实施例提供的一种数据处理装置500,还可以包括:判断模块506、存储模块507和调整模块508。
判断模块506,用于判断利用第二文本特征向量或第四文本特征向量建立的预设模型的预设评价指标是否满足预设条件。
存储模块507,用于在判断模块506得到的结果为是时,将所述数据集的描述参数和所述预设自然语言处理模型的模型参数的对应关系进行存储。
存储该对应关系的目的在于,在运行第一处理模块503时,先基于所述对应关系和所述数据集的描述参数,确定目标模型参数;然后基于模型参数为所述目标模型参数的所述预设自然语言处理模型,对所述至少一条序列化数据进行处理,得到所述至少一条序列化数据对应的第一文本特征向量。这样做的好处在于在运行第一处理模块503时,可以直接利用预存的(或者预先沉淀的)与数据集的描述参数匹配的模型参数的自然语言处理模型,对至少一条序列化数据进行处理,而不需要训练确定模型参数,因此,可以进一步提升处理序列化数据以获取序列化数据中包含的有用信息的效率。
调整模块508,用于在判断模块506得到的结果为否时,基于预设方式增大第二处理模块504中的降维比例后,重新触发第二处理模块504。
作为一个例子,如果所述预设降维模型为lightgbm模型,且第二处理模块504用于基于lightgbm模型确定所述第一文本特征向量中的文本特征的重要程度,将所述第一文本特征向量中所述重要程度小于或等于第二阈值的文本特征删除,得到所述第二文本特征向量;则调整模块508中可以通过增大所述第二阈值,增大降维比例。
作为另一个例子,如果所述预设降维模型为IV值计算模型,且第二处理模块504用于基于IV值计算模型确定所述第一文本特征向量中的文本特征的IV值,将所述第一文本特征向量中IV值小于或等于第三阈值的文本特征删除,得到所述第二文本特征向量;则调整模块508中可以通过增大所述第三阈值,增大降维比例。
作为第三个例子,如果所述预设降维模型为PCA,则调整模块508中可以通过减少主成分的数量,增大降维比例。
通过调整模块508增大第二处理模块504中的降维比例的目的在于,进一步删除第一文本特征向量中不满足要求的特征,使得得到的第二文本特征向量,或者后续得到的第四文本特征向量反映的有用信息更有助于建立预设模型,达到利用本说明书实施例提供的数据处理方法自动处理得到的文本特征向量能够被用于建立预设模型的目的。
可选地,在另一实施例中,如图6所示,本说明书实施例提供的一种数据处理装置500,还可以包括:预处理模块。
预处理模块,用于在从数据集中确定出至少一条序列化数据之前,对数据集进行预处理,预处理包括但不限于填补缺失值、转换数据类型、去除重复数据和筛选得到所述多个变量,等等。
不难理解,通过预处理可以使数据集中的数据更完整、更规范,这有助于确定出更多的序列化数据,进而得到更多的可以反映序列化数据中的有用信息的第一文本特征向量。以及,通过预处理可以自动确定出所述多个变量,这可以进一步提升处理待处理数据得到第一文本特征向量的效率。
以上是对本说明书实施例提供的数据处理装置500的介绍,需要说明的是,数据处理装置500能够实现图1或图3的方法实施例的方法,相关之处可参考图1或图3所示实施例的数据处理方法,此处不再赘述。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。