CN112364923A - 样本数据的处理方法及装置、系统、存储介质、电子设备 - Google Patents
样本数据的处理方法及装置、系统、存储介质、电子设备 Download PDFInfo
- Publication number
- CN112364923A CN112364923A CN202011272587.3A CN202011272587A CN112364923A CN 112364923 A CN112364923 A CN 112364923A CN 202011272587 A CN202011272587 A CN 202011272587A CN 112364923 A CN112364923 A CN 112364923A
- Authority
- CN
- China
- Prior art keywords
- characteristic information
- data
- information
- sample data
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 88
- 230000006399 behavior Effects 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种样本数据的处理方法及装置、系统、存储介质、电子设备,属于人工智能领域。其中,该方法包括:获取样本数据的数据特征信息,以及获取所述样本数据的标签信息,其中,所述样本数据包括多个属性类别的数据;根据所述数据特征信息和标签信息生成所述样本数据的融合特征信息;拼接所述数据特征信息和所述融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,其中,所述分类输出层的预测结果包括所述多个属性类别的分类标签。通过本发明,解决了相关技术训练多任务模型出现标签冲突的技术问题,提高了多任务学习标签预测结果的一致性和准确性。
Description
技术领域
本发明涉及人工智能领域,具体而言,涉及一种样本数据的处理方法及装置、系统、存储介质、电子设备。
背景技术
相关技术属性指的是人口、商品等的固有的性质或特点,以人口属性为例,如人口属性主要涵盖的范围有空间、年龄、性别、文化程度、职业、收入等指标。人口属性的具体实例取值就是对该属性进行了唯一性的确定,也即是给属性打上标签,标签的作用是精准营销和用户精细化运营的基石,精准的人群标签能够带来精准的投放,准确的标签,可以减少无效或者低效的信息推送。
相关技术中,人口属性的多任务学习指的就是对于一个设备id背后的浏览点击行为特征数据去预测其所属的标签类别,这其中的关键技术就涉及到特征工程的任务,即如何去定义特征,如何去挑选有效的特征信息,以便于能够更加准确的对人口属性的标签进行确定;同时还需要考虑输出的人口属性的多个任务学习到的标签之间的冲突情况,例如,同一个id在预测年龄和教育程度这两个标签时,预测到年龄标签在0-13岁的区间,但是同时预测其教育程度标签是在本专科的学历,这种预测结果明显错误的,也即是多任务学习时产生的标签冲突问题,并且难以分析是哪一类别的属性预测的标签出现错误。因此,人口属性中多任务学习的不同标签预测结果之间的相互冲突问题也是亟需解决的技术问题。
人口属性多任务学习的标签预测本质上是一个分类问题,对于同一个id背后所产生的浏览数据,根据自己人口属性的类别,把一个问题拆分为多个分类任务,例如,现在需要给年龄和教育程度这两个人口属性打标签,假如年龄标签有四类,教育程度有四类,那么对这两个人口属性打标签就是分别单独去预测年龄属于哪一类,教育程度属于哪一类,这两个分类预测任务是独立不相关的。因此,现有的技术对人口属性多任务学习的标签预测工作主要分为以下几个步骤:1)针对每一个人口属性类别收集该类别下的训练样本数据,然后对训练数据进行预处理,即属于特征工程的工作,主要需要分析如何挑选有效的特征信息,得到自己需要的样本特征以及其对应的标签;2)分别对多个人口属性任务,相互独立选择一个算法模型,使用该模型对各自训练样本进行训练,不断的进行参数调优选择,最终分别得到一个训练好的模型;然后使用训练好的模型对未知的数据来进行预测各自的人口属性标签,最后再根据各个人口属性的标签结果进行合并得到整个人口属性最终的标签结果。
相关技术中的解决方案将人口属性的多任务学习的标签预测分解为多个单独的任务,这样做的原因是由于每个人口属性的标签取值不同,多个任务的人口属性同时预测标签就会出现标签的类别太多而难以准确分类,例如,人口属性中,性别的标签有男女两类,那么就是一个二分类问题,同时,如果年龄的标签有四类,就是一个四分类问题,受教育程度的标签有四类,也是一个四分类的问题,如果整个人口属性一次输出标签结果,那么就是一个32分类的问题,以此类推,如果人口属性类别增加,那么这样的多分类问题,模型就比较难以分类从而准确进行标签结果确定。并且,例如在性别的标签中,如果从单任务来看的话,只有男女两个分类,从概率的角度来看,有50%的可能性会正确分类,但是把不同的单个任务合到一起来进行预测分类,如上文中,正确预测性别标签的概率就变成了1/32了,大大降低了预测的准确率。相关技术中为了避免这种问题,采用多个独立的单个任务进行标签预测,但是这种方法具有明显的不足,因为该方法将一个大的人口属性标签预测问题拆解为多个独立的单个小任务进行,但是很多任务并非都可以进行拆解为小任务单独来进行预测,同时拆解的小任务之间,也有一定的关联和约束情况,但相关技术并不能考虑不同任务之间的关联关系情况,例如,年龄标签和受教育程度标签,如果出现0-13岁的年龄标签,那么他的教育程度标签就不可能是本科以上学历的标签,但往往将一个大任务拆解为多个独立的小任务之后,就会出现这样的标签之间冲突的情况,这也是相关技术最大的不足,在整体预测任务上,相关技术为了提高单个任务的准确率,但是多任务学习的标签预测冲突问题较为显著,缺乏整体人口属性标签预测输出的一致性。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种样本数据的处理方法及装置、系统、存储介质、电子设备。
根据本申请实施例的一个方面,提供了一种样本数据的处理方法,包括:获取样本数据的数据特征信息,以及获取所述样本数据的标签信息,其中,所述样本数据包括多个属性类别的数据;根据所述数据特征信息和标签信息生成所述样本数据的融合特征信息;拼接所述数据特征信息和所述融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,其中,所述分类输出层的预测结果包括所述多个属性类别的分类标签。
进一步,获取样本数据的数据特征信息包括:从日志数据中获取样本实体的行为特征信息;抽取所述行为特征信息的词向量;采用第一神经网络和第二神经网络并行提取所述词向量的第一特征向量和第二特征向量;拼接所述第一特征向量和所述第二特征向量,得到所述数据特征信息。
进一步,采用第一神经网络和第二神经网络并行提取所述词向量的第一特征向量和第二特征向量包括:将所述词向量并行输入至空洞卷积神经网络DCNN和长短时记忆LSTM网络中,分别输出所述第一特征向量和第二特征向量;其中,所述DCNN用于提取所述词向量的全局特征,所述LSTM网络用于提取所述词向量的局部特征。
进一步,抽取所述行为特征信息的词向量包括:将所述行为特征信息输入基于变换器的双向编码器表征量BERT模型进行预训练,输出所述行为特征信息的词向量;其中,所述BERT模型用于基于语义信息提取所述行为特征信息的词向量。
进一步,从日志数据中获取样本实体的行为特征信息包括:基于所述样本实体的通用标识符UUID在日志库中获取日志数据;在所述训练模型的输入层聚合提取所述日志数据中的指定字段内容;根据所述指定字段内容解析所述样本实体的行为特征信息。
进一步,根据所述数据特征信息和标签信息生成所述样本数据的融合特征信息包括:以所述标签信息为先验特征,在变换器网络模型的编码层中输入所述数据特征信息和标签信息进行特征,输出所述样本数据的融合特征信息;其中,所述变换器网络模型用于将所述标签信息作为约束条件融合到所述数据特征信息的向量中。
进一步,所述样本数据的属性类别包括以下两个或者两个以上:性别,年龄,教育程度,个人月收入,家庭月收入,人均月收入。
根据本申请实施例的另一个方面,还提供了一种样本数据的处理装置,包括:获取模块,用于获取样本数据的数据特征信息,以及获取所述样本数据的标签信息,其中,所述样本数据包括多个属性类别的数据;生成模块,用于根据所述数据特征信息和标签信息生成所述样本数据的融合特征信息;输入模块,用于拼接所述数据特征信息和所述融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,其中,所述分类输出层的预测结果包括所述多个属性类别的分类标签。
进一步,所述获取模块包括:获取单元,用于从日志数据中获取样本实体的行为特征信息;抽取单元,用于抽取所述行为特征信息的词向量;提取单元,用于采用第一神经网络和第二神经网络并行提取所述词向量的第一特征向量和第二特征向量;拼接单元,用于拼接所述第一特征向量和所述第二特征向量,得到所述数据特征信息。
进一步,所述提取单元包括:输入子单元,用于将所述词向量并行输入至空洞卷积神经网络DCNN和长短时记忆LSTM网络中,分别输出所述第一特征向量和第二特征向量;其中,所述DCNN用于提取所述词向量的全局特征,所述LSTM网络用于提取所述词向量的局部特征。
进一步,所述抽取单元包括:输入子单元,用于将所述行为特征信息输入基于变换器的双向编码器表征量BERT模型进行预训练,输出所述行为特征信息的词向量;其中,所述BERT模型用于基于语义信息提取所述行为特征信息的词向量。
进一步,所述获取单元包括:获取子单元,用于基于所述样本实体的通用标识符UUID在日志库中获取日志数据;提取子单元,用于在所述训练模型的输入层聚合提取所述日志数据中的指定字段内容;解析子单元,用于根据所述指定字段内容解析所述样本实体的行为特征信息。
进一步,所述生成模块包括:输入单元,用于以所述标签信息为先验特征,在变换器网络模型的编码层中输入所述数据特征信息和标签信息进行特征,输出所述样本数据的融合特征信息;其中,所述变换器网络模型用于将所述标签信息作为约束条件融合到所述数据特征信息的向量中。
进一步,所述样本数据的属性类别包括以下两个或者两个以上:性别,年龄,教育程度,个人月收入,家庭月收入,人均月收入。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
通过本发明,获取包括多个属性类别的样本数据的数据特征信息,以及获取样本数据的标签信息,根据数据特征信息和标签信息生成样本数据的融合特征信息,拼接数据特征信息和融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,通过采用标签信息融合数据特征信息,可以对样本数据中每个属性类别的特征信息约束,进而约束每个训练任务的输出结果,解决了相关技术训练多任务模型出现标签冲突的技术问题,提高了多任务学习标签预测结果的一致性和准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种服务器的硬件结构框图;
图2是根据本发明实施例的一种样本数据的处理方法的流程图;
图3是本发明实施例中训练模型的网络结构图;
图4是根据本发明实施例的一种样本数据的处理装置的结构框图;
图5是实施本发明实施例的一种电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例一所提供的方法实施例可以在服务器、计算机、或者类似的运算装置中执行。以运行在服务器上为例,图1是本发明实施例的一种服务器的硬件结构框图。如图1所示,服务器10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储服务器程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种样本数据的处理方法对应的服务器程序,处理器102通过运行存储在存储器104内的服务器程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种样本数据的处理方法,图2是根据本发明实施例的一种样本数据的处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取样本数据的数据特征信息,以及获取样本数据的标签信息,其中,样本数据包括多个属性类别的数据;
可选的,样本数据的属性类别包括以下两个或者两个以上:性别,年龄,教育程度,个人月收入,家庭月收入,人均月收入。
在一个实例中,样本实体为人口,包括5个属性类别的数据,如表1所示。
表1
步骤S204,根据数据特征信息和标签信息生成样本数据的融合特征信息;
基于数据特征信息结构,融合标签信息,添加了数据特征信息的约束条件,可以增加样本数据的丰富度,同时对数据特征信息进行约束。
步骤S206,拼接数据特征信息和融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,其中,分类输出层的预测结果包括多个属性类别的分类标签。
本实施例的训练模型是一个多任务学习的预测模型,可以输出多个属性类别的标签数据,可选的,在训练模型训练完成后,可以输入预测对象的相关信息,进而输出预测对象在多个属性类别的分类标签。
通过上述步骤,获取包括多个属性类别的样本数据的数据特征信息,以及获取样本数据的标签信息,根据数据特征信息和标签信息生成样本数据的融合特征信息,拼接数据特征信息和融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,通过采用标签信息融合数据特征信息,可以对样本数据中每个属性类别的特征信息约束,进而约束每个训练任务的输出结果,解决了相关技术训练多任务模型出现标签冲突的技术问题,提高了多任务学习标签预测结果的一致性和准确性。
本实施例的方案可以应用在用户属性(人口属性)、车辆属性等分类预测模型的样本数据中,进而使训练得到的分类预测模型可以预测出更准确的多属性标签。
在本实施例的一个实施场景中,获取样本数据的数据特征信息包括:
S11,从日志数据中获取样本实体的行为特征信息;
在本实施例的一个实施方式中,从日志数据中获取样本实体的行为特征信息包括:基于样本实体的通用标识符UUID在日志库中获取日志数据;在训练模型的输入层聚合提取日志数据中的指定字段内容;根据指定字段内容解析样本实体的行为特征信息。
在一个示例中,样本数据为向目标用户点击的广告数据,通过监测到的日志数据,聚合提取日志中可用的字段,通过id获取到需要的一些行为等特征信息,可获取的主键信息如表2所示,主键,依据此id,进行后续的特征匹配聚合。
表2
uuid | device_id |
uuid_type | id类型 |
通过uuid可以连接和获取到该用户安装使用或者浏览过的app数据等公开数据,如表3所示。
表3
app_stid | app名称 |
app_l1_stid | app大类 |
app_l2_stid | app小类 |
进一步,根据app数据,获取app日志,监测日志中可用的字段信息,如表4所示。
表4
date | id出现的时间 |
region_id | 地域id |
spots_id | 广告点位id |
通过spots_id连接和获取babel数据,解析获得对应的广告信息,如表5所示。
表5
advertiser_stid | 广告主 |
brand_stid | 品牌 |
goods_stid | 商品 |
industry_l1_stid | 行业大类 |
industry_l2_stid | 行业中类 |
industry_l3_stid | 行业小类 |
media_stid | 媒体 |
通过样本实体的id,可以通过以上的表信息聚合得到多个不同的特征信息,同时还有其对应的标签(标签信息),以此数据作为基础训练数据(用于获得数据特征信息),训练数据的特征工程部分已经完成,接下来就进入到模型搭建训练及预测流程。
图3是本发明实施例中训练模型的网络结构图,该模型结构包括输入层、预训练层、并行特征提取层、特征融合层和输出层组成。接下来结合本实施场景的步骤,分别对其进行说明。
S12,抽取行为特征信息的词向量;
在本实施例的一个实施方式中,抽取行为特征信息的词向量包括:将行为特征信息输入基于变换器的双向编码器表征量(Bidirectional Encoder Representations fromTransformers,BERT)模型进行预训练,输出行为特征信息的词向量;其中,BERT模型用于基于语义信息提取行为特征信息的词向量。
模型的输入层特征采集的结果,即用户id对应的浏览点击记录的特征信息(Xt-1,Xt,Xt+1),然后将该输入经过BERT得到输入数据的特征向量表示,采用BERT预训练词向量(Et-1,Et,Et+1),可以借助BERT模型进行映射(Embedding),可以较完整地保存文本语义信息,提升了上下文双向特征抽取能力,提高样本数据的准确性。
S13,采用第一神经网络和第二神经网络并行提取词向量的第一特征向量和第二特征向量;
在本实施例的一个实施方式中,采用第一神经网络和第二神经网络并行提取词向量的第一特征向量和第二特征向量包括:将词向量并行输入至空洞卷积神经网络(dilatedConvolution network,DCNN)和长短时记忆(Long Short Term Memory,LSTM)网络中,分别输出第一特征向量和第二特征向量;其中,DCNN用于提取词向量的全局特征,LSTM网络用于提取词向量的局部特征。
在一个示例中,第一神经网络和第二神经网络分别是DCNN和LSTM网络,当然,也可以是其他类型的卷积神经网和时间循环神经网络。
在得到输入的词向量表示之后,将基于预训练获得的输入文本的向量化表示并行输入到DCNN和LSTM网络中,分别并行对输入向量进行特征提取,并将学习到的两个特征向量进行拼接,形成既包含全局特征又包含局部特征的拼接向量。其中,采用DCNN-LSTM并行编码文本特征,考虑到其既能通过LSTM兼顾全局特征提取,又能通过DCNN兼顾局部特征的提取。DCNN使接受域可快速覆盖到全部的输入数据(DCNN模型在膨胀的宽度随着层数的增加呈现为指数增加,但参数的数量是线性增加的),加快了模型训练的速度,并且DCNN使得接受域扩大的同时解决了利用循环神经网络在提取特征时存在的不能很好的兼顾到局部特征的问题。
S14,拼接第一特征向量和第二特征向量,得到数据特征信息。
在本实施例的一个实施方式中,根据数据特征信息和标签信息生成样本数据的融合特征信息包括:以标签信息为先验特征,在变换器(Transformer)网络模型的编码层(Encoder)中输入数据特征信息和标签信息进行特征,输出样本数据的融合特征信息;其中,变换器网络模型用于将标签信息作为约束条件融合到数据特征信息的向量中。
本实施例使用Transformer的编码层进行特征融合,其中,Encoder由N=6个相同的layer组成,每个Layer由两个sub-layer组成,分别是multi-head self-attentionmechanism和fully connected feed-forward network。
在DCNN-LSTM阶段是采用并行的方式,提取了输入数据的一系列特征信息,本实施例考虑到不同标签的输出存在冲突的情况,因此提出将用户id对应的性别年龄以及教育程度等属性类别的标签信息和在DCNN-LSTM并行提取的特征进行融合操作,进一步进行特征的提取,特征融合采用的是一个Transformer网络模型,此处将标签信息加入到模型提取的特征信息之中,相当于加入了一个先验条件,可以进一步约束模型,使得提取的特征更加准确。然后将融合之后的特征信息和DCNN-LSTM模块提取的特征信息进行拼接,此时,整个模型特征提取以及模型约束的工作就完成了。
在特征提取之后,就到了模型的分类输出模块,以性别、年龄和教育程度标签举例来说,假如:教育程度是个四分类,年龄也是四分类,性别则是二分类,那么整个模型的分类输出层的输出为一个32分类问题,其他以此类推。
本实施例采用不同于现有属性多任务学习的标签预测所采用的简单拆解为多个独立的小任务标签预测方案,本实施例的方案将根据输入的样本特征,整体进行多任务的标签预测输出。在输入端采用BERT预训练语言模型,可以较完整地保存文本语义信息,提升了上下文双向特征抽取能力。在特征提取上,本实施例采用DCNN-LSTM并行的进行特征提取,既能通过LSTM兼顾全局特征提取,又能通过DCNN兼顾局部特征的提取,使得提取的特征在更加丰富的同时也加快了模型的训练时间。由于多任务学习的标签预测输出存在的冲突问题,在并行提取特征的基础上,还加入了预测的标签对应信息,并且和提取的特征进行融合,选用了特征提取能力较好的Transformer模型,相当于加入了先验知识,有助于对模型预测标签的输出进行了约束,解决了多任务学习的标签预测输出的冲突问题。
通过本实施例提出的多任务学习的标签预测冲突解决方案,解决了多任务标签预测出现冲突的情况,提高了多任务学习标签预测出的一致性和准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种样本数据的处理装置、系统,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的一种样本数据的处理装置的结构框图,如图4所示,该装置包括:获取模块40,生成模块42,输入模块44,其中,
获取模块40,用于获取样本数据的数据特征信息,以及获取所述样本数据的标签信息,其中,所述样本数据包括多个属性类别的数据;
生成模块42,用于根据所述数据特征信息和标签信息生成所述样本数据的融合特征信息;
输入模块44,用于拼接所述数据特征信息和所述融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,其中,所述分类输出层的预测结果包括所述多个属性类别的分类标签。
进一步,所述获取模块包括:获取单元,用于从日志数据中获取样本实体的行为特征信息;抽取单元,用于抽取所述行为特征信息的词向量;提取单元,用于采用第一神经网络和第二神经网络并行提取所述词向量的第一特征向量和第二特征向量;拼接单元,用于拼接所述第一特征向量和所述第二特征向量,得到所述数据特征信息。
进一步,所述提取单元包括:输入子单元,用于将所述词向量并行输入至空洞卷积神经网络DCNN和长短时记忆LSTM网络中,分别输出所述第一特征向量和第二特征向量;其中,所述DCNN用于提取所述词向量的全局特征,所述LSTM网络用于提取所述词向量的局部特征。
进一步,所述抽取单元包括:输入子单元,用于将所述行为特征信息输入基于变换器的双向编码器表征量BERT模型进行预训练,输出所述行为特征信息的词向量;其中,所述BERT模型用于基于语义信息提取所述行为特征信息的词向量。
进一步,所述获取单元包括:获取子单元,用于基于所述样本实体的通用标识符UUID在日志库中获取日志数据;提取子单元,用于在所述训练模型的输入层聚合提取所述日志数据中的指定字段内容;解析子单元,用于根据所述指定字段内容解析所述样本实体的行为特征信息。
进一步,所述生成模块包括:输入单元,用于以所述标签信息为先验特征,在变换器网络模型的编码层中输入所述数据特征信息和标签信息进行特征,输出所述样本数据的融合特征信息;其中,所述变换器网络模型用于将所述标签信息作为约束条件融合到所述数据特征信息的向量中。
进一步,所述样本数据的属性类别包括以下两个或者两个以上:性别,年龄,教育程度,个人月收入,家庭月收入,人均月收入。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取样本数据的数据特征信息,以及获取所述样本数据的标签信息,其中,所述样本数据包括多个属性类别的数据;
S2,根据所述数据特征信息和标签信息生成所述样本数据的融合特征信息;
S3,拼接所述数据特征信息和所述融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,其中,所述分类输出层的预测结果包括所述多个属性类别的分类标签。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取样本数据的数据特征信息,以及获取所述样本数据的标签信息,其中,所述样本数据包括多个属性类别的数据;
S2,根据所述数据特征信息和标签信息生成所述样本数据的融合特征信息;
S3,拼接所述数据特征信息和所述融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,其中,所述分类输出层的预测结果包括所述多个属性类别的分类标签。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
图5是本发明实施例的一种电子设备的结构图,如图5所示,包括处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,存储器53,用于存放计算机程序;处理器51,用于执行存储器53上所存放的程序。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种样本数据的处理方法,其特征在于,包括:
获取样本数据的数据特征信息,以及获取所述样本数据的标签信息,其中,所述样本数据包括多个属性类别的数据;
根据所述数据特征信息和标签信息生成所述样本数据的融合特征信息;
拼接所述数据特征信息和所述融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,其中,所述分类输出层的预测结果包括所述多个属性类别的分类标签。
2.根据权利要求1所述的方法,其特征在于,获取样本数据的数据特征信息包括:
从日志数据中获取样本实体的行为特征信息;
抽取所述行为特征信息的词向量;
采用第一神经网络和第二神经网络并行提取所述词向量的第一特征向量和第二特征向量;
拼接所述第一特征向量和所述第二特征向量,得到所述数据特征信息。
3.根据权利要求2所述的方法,其特征在于,采用第一神经网络和第二神经网络并行提取所述词向量的第一特征向量和第二特征向量包括:
将所述词向量并行输入至空洞卷积神经网络DCNN和长短时记忆LSTM网络中,分别输出所述第一特征向量和第二特征向量;
其中,所述DCNN用于提取所述词向量的全局特征,所述LSTM网络用于提取所述词向量的局部特征。
4.根据权利要求2所述的方法,其特征在于,抽取所述行为特征信息的词向量包括:
将所述行为特征信息输入基于变换器的双向编码器表征量BERT模型进行预训练,输出所述行为特征信息的词向量;
其中,所述BERT模型用于基于语义信息提取所述行为特征信息的词向量。
5.根据权利要求2所述的方法,其特征在于,从日志数据中获取样本实体的行为特征信息包括:
基于所述样本实体的通用标识符UUID在日志库中获取日志数据;
在所述训练模型的输入层聚合提取所述日志数据中的指定字段内容;
根据所述指定字段内容解析所述样本实体的行为特征信息。
6.根据权利要求1所述的方法,其特征在于,根据所述数据特征信息和标签信息生成所述样本数据的融合特征信息包括:
以所述标签信息为先验特征,在变换器网络模型的编码层中输入所述数据特征信息和标签信息进行特征,输出所述样本数据的融合特征信息;
其中,所述变换器网络模型用于将所述标签信息作为约束条件融合到所述数据特征信息的向量中。
7.根据权利要求1所述的方法,其特征在于,所述样本数据的属性类别包括以下两个或者两个以上:性别,年龄,教育程度,个人月收入,家庭月收入,人均月收入。
8.一种样本数据的处理装置,其特征在于,包括:
获取模块,用于获取样本数据的数据特征信息,以及获取所述样本数据的标签信息,其中,所述样本数据包括多个属性类别的数据;
生成模块,用于根据所述数据特征信息和标签信息生成所述样本数据的融合特征信息;
输入模块,用于拼接所述数据特征信息和所述融合特征信息,并将拼接得到的拼接特征信息输入训练模型的分类输出层,其中,所述分类输出层的预测结果包括所述多个属性类别的分类标签。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法步骤。
10.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011272587.3A CN112364923A (zh) | 2020-11-13 | 2020-11-13 | 样本数据的处理方法及装置、系统、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011272587.3A CN112364923A (zh) | 2020-11-13 | 2020-11-13 | 样本数据的处理方法及装置、系统、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364923A true CN112364923A (zh) | 2021-02-12 |
Family
ID=74514947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011272587.3A Pending CN112364923A (zh) | 2020-11-13 | 2020-11-13 | 样本数据的处理方法及装置、系统、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364923A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159209A (zh) * | 2021-04-29 | 2021-07-23 | 深圳市商汤科技有限公司 | 目标检测方法、装置、设备和计算机可读存储介质 |
CN113688036A (zh) * | 2021-08-13 | 2021-11-23 | 北京灵汐科技有限公司 | 一种数据处理方法、装置、设备以及存储介质 |
CN113902098A (zh) * | 2021-09-30 | 2022-01-07 | 云天弈(广州)智能科技有限公司 | 多类型数据并行学习方法、装置、计算机设备及介质 |
CN114372564A (zh) * | 2022-01-12 | 2022-04-19 | 腾讯科技(深圳)有限公司 | 用于对象分级的模型训练方法、对象分级方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090607A (zh) * | 2017-12-13 | 2018-05-29 | 中山大学 | 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法 |
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
-
2020
- 2020-11-13 CN CN202011272587.3A patent/CN112364923A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090607A (zh) * | 2017-12-13 | 2018-05-29 | 中山大学 | 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法 |
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
鱼遇雨欲语与余: "2020腾讯广告算法大赛方案分享(冠军)", pages 1, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/166710532> * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159209A (zh) * | 2021-04-29 | 2021-07-23 | 深圳市商汤科技有限公司 | 目标检测方法、装置、设备和计算机可读存储介质 |
CN113688036A (zh) * | 2021-08-13 | 2021-11-23 | 北京灵汐科技有限公司 | 一种数据处理方法、装置、设备以及存储介质 |
CN113902098A (zh) * | 2021-09-30 | 2022-01-07 | 云天弈(广州)智能科技有限公司 | 多类型数据并行学习方法、装置、计算机设备及介质 |
CN114372564A (zh) * | 2022-01-12 | 2022-04-19 | 腾讯科技(深圳)有限公司 | 用于对象分级的模型训练方法、对象分级方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364923A (zh) | 样本数据的处理方法及装置、系统、存储介质、电子设备 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN110263265A (zh) | 用户标签生成方法、装置、存储介质和计算机设备 | |
US20210049458A1 (en) | Processing sequential interaction data | |
CN110321291A (zh) | 测试案例智能提取系统及方法 | |
CN109086814B (zh) | 一种数据处理方法、装置及网络设备 | |
CN113806550A (zh) | 个性化知识图谱的生成方法、装置及计算机设备 | |
CN112508609A (zh) | 人群扩量的预测方法、装置、设备及存储介质 | |
CN111427974A (zh) | 数据质量评估管理方法和装置 | |
CN113011191A (zh) | 一种知识联合抽取模型训练方法 | |
CN113592605B (zh) | 基于相似产品的产品推荐方法、装置、设备及存储介质 | |
Burhanuddin et al. | Analysis of mobile service providers performance using naive bayes data mining technique | |
CN112307337B (zh) | 基于标签知识图谱的关联推荐方法、装置及计算机设备 | |
CN111639700A (zh) | 目标相似度识别方法、装置、计算机设备及可读存储介质 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN111859091B (zh) | 一种基于人工智能的搜索结果的聚合方法及装置 | |
CN116501979A (zh) | 信息推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN112685618A (zh) | 用户特征识别方法、装置、计算设备及计算机存储介质 | |
CN115859973A (zh) | 文本特征提取方法、装置、非易失性存储介质及电子设备 | |
CN115080824A (zh) | 目标词的挖掘方法、装置、电子设备及存储介质 | |
CN113220947A (zh) | 对事件特征进行编码的方法和装置 | |
CN113326461A (zh) | 跨平台内容分发方法、装置、设备以及存储介质 | |
CN112541357A (zh) | 实体识别方法、装置及智能设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |