CN113220947A - 对事件特征进行编码的方法和装置 - Google Patents
对事件特征进行编码的方法和装置 Download PDFInfo
- Publication number
- CN113220947A CN113220947A CN202110587005.9A CN202110587005A CN113220947A CN 113220947 A CN113220947 A CN 113220947A CN 202110587005 A CN202110587005 A CN 202110587005A CN 113220947 A CN113220947 A CN 113220947A
- Authority
- CN
- China
- Prior art keywords
- value
- feature
- event
- item
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims description 37
- 238000013507 mapping Methods 0.000 claims description 15
- 230000002123 temporal effect Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9017—Indexing; Data structures therefor; Storage structures using directory or table look-up
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种对事件特征进行编码的方法和装置。根据该方法,对于事件中多种不同类型、不同数据结构的特征项,采用不同的方式进行编码。特别是对于类别型特征项,当确定当前目标事件针对该特征项的特征值属于针对该特征项确定的低频取值集合时,根据用于指示该低频取值集合的预定值,对该特征项编码。如此,可以将该特征项下的不同低频取值合并为一个统一的预定值,从而缩减编码维度,优化编码效果。
Description
技术领域
本说明书一个或多个实施例涉及人工智能和机器学习领域,尤其涉及对事件特征进行编码的方法和装置。
背景技术
在互联网环境中,事件可以作为对用户的活动或行为的细粒度的记录和表征,构成互联网中的基本组成元素之一。例如,用户浏览页面时对一内容区块进行了点击,可以视为用户发生了对页面内容区块的点击事件,电商中的购买行为可以视为用户对商品的购买事件,社交工具中用户之间的互动可以认为用户账户间的交互事件,等等。一系列的事件中蕴含了用户的细粒度习惯偏好等特点,以及交互对象的特点,是机器学习模型的重要特征来源。因此,在许多场景下,希望通过机器学习模型对事件进行分析,基于事件分析得出的用户特点或事件特点进行业务相关预测,例如,个性推荐,风险控制,等等。
通过机器学习进行事件分析依赖于对事件的编码和表征。由此,希望能有改进的方案,更为有效地对事件特征进行编码表征,从而便于下游的模型学习和分析。
发明内容
本说明书一个或多个实施例描述了对事件特征进行编码的方法和装置,可以更加有效地对事件特征进行编码和表征。
根据第一方面,提供了一种对事件特征进行编码的方法,包括:
获取待分析的目标事件,所述目标事件包括类别型的第一特征项,所述目标事件针对第一特征项的取值为第一特征值;
确定所述第一特征值是否属于针对所述第一特征项预先设定的低频取值集合;
若属于,则根据用于指示所述低频取值集合的预定值,采用第一编码方式对所述目标事件的第一特征项进行编码。
在一种实施方式中,所述目标事件为用户操作事件,所述第一特征项为以下之一:城市,设备型号,支付渠道,职业,信用等级,数值区间。
在不同实施例中,上述第一编码方式包括以下之一:独热编码,二元编码,可训练的嵌入向量编码。
在一个实施例中,上述方法还包括:获取包含多个事件的样本集合;统计所述样本集合中各个事件针对第一特征项的特征值分布;根据所述特征值分布,确定所述低频取值集合。
进一步的,在一个示例中,特征值分布包括,各个备选取值的出现频次;确定所述低频取值集合,具体包括:将出现频次低于一定阈值的备选取值,归入所述低频取值集合。
根据一种实施方式,所述目标事件包括时间特征信息,所述时间特征信息包括第一字段和第二字段,所述第一字段具有离散字段值,所述第二字段具有连续数值型字段值;所述方法还包括:采用所述第一编码方式对第一字段进行编码;根据预先统计的第二字段的最大取值和最小取值,将第二字段的字段值映射到预定区间,基于所述预定区间中的映射值进行编码。
进一步的,在具体实施例中,第一字段可以包括以下中的一项或多项:月份、季度、星期、小时;所述第二字段包括,相邻事件间的时间间隔,所述目标事件距离最新事件之间的时间间隔。
根据一种实施方式,目标事件还包括第二特征项,所述第二特征项的特征值为文本段;所述方法还包括:将所述文本段输入自然语言处理模型,得到该文本段的嵌入向量,作为所述第二特征项的编码向量。
在一种实施方式中,目标事件还包括用于指示id标识的第三特征项,所述目标事件针对第三特征项的取值为第一id标识;所述方法还包括:根据预先统计的所述第三特征项的可能取值的第一数量,确定所述第一id标识在所述第一数量中的索引;将所述索引编码为二元比特串,作为所述第三特征项的编码向量。
在一个实施例中,目标事件还包括数值型的第四特征项,所述目标事件针对第四特征项的取值为第一数值;所述方法还包括:根据预先统计的所述第四特征项的最大取值和最小取值,将所述第一数值映射为预定区间中的第二数值,基于所述第二数值进行编码。
根据第二方面,提供了一种对事件特征进行编码的装置,包括:
事件获取单元,配置为获取待分析的目标事件,所述目标事件包括类别型的第一特征项,所述目标事件针对第一特征项的取值为第一特征值;
确定单元,配置为确定所述第一特征值是否属于针对所述第一特征项预先设定的低频取值集合;
第一编码单元,配置为在所述第一特征值属于所述低频取值集合的情况下,根据用于指示所述低频取值集合的预定值,采用第一编码方式对所述目标事件的第一特征项进行编码。
根据第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面所述的方法。
根据本说明书实施例提供的方法和装置,对于事件中多种不同类型、不同数据结构的特征项,采用不同的方式进行编码。特别是对于类别型特征项,可以将该特征项下的不同低频取值合并为一个统一的预定值,基于合并后的特征值进行编码。由于针对数据类型进行了针对性设计,通过实施例中编码方式得到的编码向量维度更小,对存储占用更少,且不损失信息量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示意性示出约束自适应的决策模型的确定过程;
图2示出根据一个实施例训练用于业务对象分类的决策模型的方法流程图;
图3示出在一个实施例中针对当前节点进行分裂的步骤流程;
图4示出决策树的一个示意图;
图5示出根据一个实施例的训练装置示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
如前所述,通过机器学习进行事件分析依赖于对事件的编码和表征。然而,由于一个事件往往包含多种类型的特征项,不同类型的特征项具有不同的数据结构,这为事件特征的编码带来了许多困难。
例如,对于用户通过电子支付App为购买商品而进行的一次支付事件而言,该事件包含的特征项可能包括:用户id,支付时间,当前位置(城市),支付金额,支付渠道,商品名称,店铺名称,(支付所用的)终端设备的设备型号,是否为注册会员,等等。这些特征项中,有些为数值型(例如支付金额),有些是非数值型的,例如商品名称,用户id,城市,等等。对于非数值型的特征项来说,对其进行有效编码面临一定的挑战。常规技术中常常对非数值型特征项直接进行独热(one-hot)编码,然而,这往往造成编码得到的向量维度很高且过于稀疏,对这样的向量进行处理时,需要耗费较大的计算资源和存储资源,不利于下游神经网络模型的训练和学习。
为此,本说明书实施例提出了一种事件特征的编码方式,将非数值型特征项进一步划分为多种不同类型,针对各种不同类型的特征项进行针对性的编码。
图1示意性示出一个事件的不同类型的特征项。该事件可以是登录事件、支付事件、点击事件、购买事件等各种事件。下文结合上述支付事件的例子进行描述。根据本说明书实施例的方案,根据特征项的取值特点,将事件的特征项划分为以下几种类型。
一种为类别型(categorical)特征项,这样的特征项具有预定数目的备选取值,每个备选取值对应一个类别。在支付事件的例子中,用户所在城市、支付渠道、设备型号均为类别型特征项。这类特征项在采集时,一般是从预定数目的备选取值中选择与当前事件匹配的取值,作为当前事件的特征值。例如,对于特征项“城市”来说,预定数目的备选取值可以是,一定地理范围内所有城市的列表。对于特征项“设备型号”来说,预定数目的备选取值可以是,预先统计的目前市面上流通的智能终端的型号列表。当发生当前支付事件时,从上述城市列表中选择检测到的用户位置匹配的城市,例如,A市,作为“城市”这一特征项的特征值,从上述型号列表中选择本次支付所采用的具体设备型号,例如H品牌P80,作为“设备型号”这一特征项的特征值。
在其他例子中,类别型特征项的例子还可以包括,例如,用户职业,收入/消费/借贷额等数值所属的数值区间,信用等级,等等。
另一种特征项为布尔型特征项。布尔型特征项用0和1指示一个论断是否为真。在支付事件的例子中,用户是否为注册会员可体现为布尔型特征项。
事件中还可能包含文本型特征项,其取值一般为文本段。例如,商品名称,店铺名称,这样的特征项,一般体现为文本。
此外,事件特征中会包含时间信息,例如,支付事件例子中的支付时间。
特别的,根据图1的实施例,还将用于指示id标识的id特征项单独划分出来,后续单独进行处理。这样的特征项可以包括,用户id,设备id,商品id,店铺id,等等。
一般的,事件中包含的非数值型特征项都可以划归到以上的多种类型的特征项之一。一个事件可以包含以上多种类型的特征项中的一部分或全部。
当然,事件中一般还会包含数值型特征项,其取值为连续性数值。例如,支付金额,存款金额等特征项,即为典型的数值型特征项。
下面描述基于以上划分的类型,对事件中的不同类型的特征项进行编码的方法。
图2示出根据一个实施例的对事件特征进行编码的方法流程图。可以理解,可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。下面结合具体实施例,对如图2所示的编码方法中的各个步骤进行描述。
首先,在步骤21,获取待分析的目标事件,所述目标事件包括类别型的第一特征项,该目标事件针对第一特征项的取值为第一特征值。
在不同实施例中,上述目标事件可以是互联网环境中的各种用户操作事件,例如登录事件、点击事件、支付事件、交易事件、购买事件等。如前所述,一个事件中往往包含多个不同类型的特征项。假定第一特征项是当前事件中任意一个类别型的特征项。例如,在不同实施例中,第一特征项可以是以下之一:城市,设备型号,支付渠道,职业,信用等级,数值区间。
如前所述,类别型的特征项是非数值型特征项,具有预定数目的备选类别作为备选取值。因此,目标事件针对第一特征项的取值,即第一取值,是从前述预定数目的备选类别中选择的一个类别。例如,当第一特征项为“城市”,第一特征值即为,从预先定义的城市列表中选择的目标事件匹配的城市。比如在一个例子中,预先定义的城市列表中有300个城市,第一特征值为其中的“A市”。
可选的,还执行步骤22,获取针对第一特征项设定的低频取值集合。
如前所述,第一特征项作为类别型特征项,具有预定数目的备选取值。这些备选取值中有些取值出现频次较高,有些较少出现。因此,可以对上述预定数目的备选取值进行划分,确定出一个低频取值集合。
在一个实施例中,上述低频取值集合可以根据专家经验,以超参数的形式设置。以第一特征项为城市为例,可以根据专家经验,从城市列表包含的300个城市中,挑选出偏远地区,和/或,业务还没有覆盖到的地区,和/或,人口少于一定数量的地区中的100个城市,归入到低频取值集合。
在另一实施例中,还可以基于对样本集的数据统计,确定出上述低频取值集合。具体的,根据一种实现方式,可以预先获取包含多个事件的样本集合。该样本集合可以包含大量事件样本,例如1万个。然后,统计该样本集合中各个事件针对第一特征项的特征值分布;根据该特征值分布,确定上述低频取值集合。
具体的,在一个实施例中,上述特征值分布包括,各个备选取值的出现频次。相应的,可以根据各个备选取值的出现频次,确定低频取值集合。例如,可以将出现频次低于一定阈值的备选取值,归入低频取值集合。在另一例子中,也可以按照出现频次对各个备选取值排序,取出现频次较低的预定数量/预定比例的备选取值,归入低频取值集合。
仍以第一特征项是城市为例进行说明。假定获取了包含1万个样本的事件样本集,对各个事件发生的城市进行统计,得到城市分布。在一个例子中,可以将城市分布中出现频次小于10次的城市(例如假定有100个),归入到低频城市集合。
以上通过各种方式,确定出针对第一特征项的低频取值集合。
需要理解,以上确定该低频取值集合的步骤,可以在步骤21之前,在预备阶段预先执行,从而在步骤22,读取预先确定出来的低频取值集合。或者,也可以在开始执行步骤21的同时或之后,通过步骤22现场确定上述低频取值集合。
基于此,在步骤23,确定上述第一特征值是否属于针对第一特征项设定的低频取值集合。例如,判断前述的“A市”是否属于之前确定的包含100个低频城市的低频取值集合。
若属于,则在步骤24,根据用于指示所述低频取值集合的预定值,采用第一编码方式对目标事件的第一特征项进行编码。
在具体例子中,可以预先设置用于指示低频取值集合的预定值,只要该预定值不与第一特征项的可能取值重合,从而可以通过该预定值指示出真实特征值落入该低频取值集合即可。例如,该预定值可以是“lowfreq”,或者“freq-low”,或者“RARE”,或者其他字符串、指示符等。于是,可以基于该预定值,而非原始的第一特征值,对第一特征项进行编码。在一个实施例中,可以首先将原始的第一特征值修改为上述预定值,然后通过第一编码方式进行编码。
在一个例子中,假定前述“A市”属于低频城市集合,则针对目标事件,将其“城市”这一特征项的取值从“A市”修改为“l owfreq”。然后,将“lowfreq”作为该特征项的取值进行编码。
另一方面,如果步骤23的判断结果是,第一特征值没有落入低频取值集合,则在步骤25,根据该原始的第一特征值,采用上述第一编码方式对目标事件的第一特征项进行编码。
在不同实施例中,上述第一编码方式可以是各种适于非数值型编码的编码方式。典型的,第一编码方式为独热编码。在其他例子中,也可以采用二元编码,或者利用可学习可训练的嵌入向量编码,也就是通过可训练的转换参数,将第一特征项的特征值编码为嵌入向量。
需要特别说明的是,步骤24中的预定值是针对低频取值集合设置的一个统一值。也就是说,不同事件中针对该第一特征项的不同特征值,只要属于前述低频取值集合,就会被对应到该统一的预定值。这相当于,将所有低频取值代表的类别合并为该预定值代表的一个类别,从而极大简化该特征项的编码。
图3示出对类别型特征项进行编码的一个示例。该示例延续之前的例子,结合特征项“城市”进行说明。如图3所示,假定依次以事件1至事件8作为目标事件进行分析。事件1对于“城市”这一特征项的特征值为“杭州”,事件2中对应特征值为“北京”,都不属于低频取值集合。则可以直接基于其原始特征值进行编码。事件3中,“城市”的取值为“A市”,事件4中“城市”的取值为“B市”,事件5中“城市”的取值为“C市”。假定A市,B市和C市均属于低频取值集合,那么,在编码时,可以首先将特征值“A市”,“B市”,“C市”均修改为或对应到预定值“lowfreq”。这相当于将这几个低频城市,合并为一个专属类别“lowfreq”,从而大大降低了该特征项的备选类别的数目,进而简化了编码。
具体的,假定针对“城市”这一特征项的原始备选城市列表中有300个城市。如果直接按照经典的独热编码方式对该特征项进行编码,则需要编码为300维的向量。假定按照图2的方案,通过统计分析或专家设定,将100个城市归入到低频取值集合。在编码时,将所有落入低频取值集合的城市统一归为“lowfreq”,则修改后该特征项的备选类别为200个原有真实城市类别加上“lowfreq”这一专属类别。在同样采用独热编码方式的情况下,则可以将该特征项的编码向量缩减到201维。
编码向量维度的缩减,使得下游模型处理过程中,可以使用更少的参数,更少的存储空间,提高计算效率和模型性能。并且,通过图2的方式对类别型特征项进行编码,在缩减向量维度的同时,几乎不损失信息量,并且还更加有利于构建稳定的模型。这是因为,多数模型需要基于大量数据,才能训练出有意义的稳定的算法。对于出现频次较低的取值来说,由于其数据量太少,很难帮助模型学习到稳定的算法。另外,在采集训练用的事件样本时,有些样本在有些特征项会有缺失(none或者null)。低频取值和缺失值实际上代表着完全不同的信息,但是,常规技术中往往很难将其区分开。通过如上文实施例所述的将所有低频取值修改为同一预定值,例如“lowfreq”,一方面可以将低频取值和缺失值显著区分开,另一方面,多种低频取值合并为“lowfreq”后,使得该预定值“lowfreq”成为一个高频取值,从而有较多数据归属于该高频取值的类别,基于归属于该高频取值的较多数据,模型更容易学习到稳定的算法。
以上描述了针对类别型特征项的编码过程。
如图1所示,在一些实施例中,目标事件还包括时间特征信息。时间特征信息是事件分析中非常重要的特征信息。例如,在交易事件场景下,欺诈者往往会在夜晚很晚的时间进行交易,或者在短时间内频繁进行多笔交易。因此,时间特征信息的提取和编码,对于事件分析非常重要。
为了更有效更全面对时间特征信息进行编码,根据一个实施例,将时间特征信息划分为两部分,即第一字段和第二字段,其中第一字段具有离散字段值,第二字段具有连续数值型字段值,从而分别对其进行编码。
具体地,第一字段可以由时间戳直接得到,具体可以包括以下中的一项或多项:月份、季度、星期、小时、分钟,等等。可以看到,以上这些时间信息均为离散值。对于第一字段的字段值,可以采用适用于非数值型编码的第一编码方式进行编码,例如独热编码。
第二字段的取值则可以是连续型的数值,例如,第二字段可以包括,相邻事件间的时间间隔,目标事件距离最新事件之间的时间间隔,等等。由于是数值型特征,在一个例子中,可以直接将该第二字段的字段值作为编码值。在另一例子中,可以预先统计第二字段的最大取值max和最小取值min,并确定一个用于映射的预定区间。对于当前待分析的目标事件中的第二字段的字段值,可以根据上述最大取值最小取值,将该字段值映射到上述预定区间中,基于其在预定区间中的映射值进行编码。例如,上述预定区间常常取[0,1],此时,对字段值的映射等同于归一化处理。如此,将字段值限定到一定区间中,可以更好地反映字段值在统计分布上的相对大小信息。
此外,如图1所示,目标事件中还可以包括文本型的第二特征项,也就是说,其特征值为文本段。例如,第二特征项可以包括,商品名称,店铺名称,评价内容,备注信息,等等。对于这样的特征项,根据一个实施例,可以将文本段输入自然语言处理模型,得到该文本段的嵌入向量,作为该第二特征项的编码向量。已经存在多种自然语言处理模型,例如,Transformer,BERT,等等,这些自然语言处理模型经过预训练,具有很好的文本表征能力。可以利用这些模型,将文本段编码为嵌入向量。
在一个实施例中,如图1所示,目标事件还包括用于指示id标识的特征项,在此称为第三特征项。具体的,第三特征项可以是用户id,设备id,商品id,店铺id,等等。Id标识是一种非数值型特征,常规技术中往往采用独热编码或嵌入向量来对id标识进行编码。采用独热编码的情况下,有多少个不同id,就需要多少维的向量,存储和计算代价非常大,特别是千万级甚至几亿的用户id来说,直接进行独热编码可行性很低。因此替代地,在有些方案中,采用可训练的嵌入向量编码方式对id标识进行编码。然而,当id数量很大时,需要存储的转换参数,或称为查找表(lookup table),体积仍然很大。
为此,在本说明书的实施例中,提出更为高效的id编码方式。具体的,可以预先获取上述第三特征项的可能取值的列表,即id列表,确定其中不同id的数量,记为第一数量。对于当前有待分析的目标事件来说,假定目标事件针对该第三特征项的取值为第一id标识,那么可以确定该第一id标识在前述列表中的编号,或者说在第一数量中的索引。然后,将该索引编码为二元比特串,作为第三特征项的编码向量。如此,可以大大缩减编码向量的大小,而不损失信息量。
例如,在采用嵌入向量对id标识进行编码的方案中,如果采用16维向量来表征N=1010个不同id,则需要16*1010的元素存储嵌入向量查找表。而如果按照以上对索引进行二元编码的方式,则仅仅需要维度为[log2N]的向量,就足以表征N个不同id。
此外,一般而言,目标事件中还会包括数值型的特征项,在此记为第四特征项。在支付事件的场景中,第四特征项例如可以包括,支付金额,产品价格,优惠价格,购买数量,等等。对于数值型的特征项,在一个例子中,可以直接将其取值作为编码后的编码值。在另一例子中,可以预先统计第四特征项的最大取值和最小取值,并确定映射区间。假定目标事件针对第四特征项的取值为第一数值,那么在编码时,可以首先根据前述最大取值和最小取值,将该第一数值映射为预定映射区间中的第二数值,基于映射后的第二数值进行编码。当映射区间取[0,1]时,相当于对第四特征项的特征值进行了归一化。
在一个实施例中,目标事件还可以包括布尔型特征项,例如,用户是否为注册会员。布尔型特征项可以认为是一种特殊的类别型特征项,只具有0和1两个类别。实践中,由于常常有数据缺失或者无法确定的情况,也可以认为布尔型特征项具有(0,1,none)3个类别取值。可以采用独热编码对布尔型特征项进行编码。
图4示出根据一个具体例子对事件特征编码的整体效果图。如图4所示,对于事件中的类别型特征项,可以获取该特征项的取值分布统计信息,其中示出低频取值;然后基于该低频取值进行预处理(例如将低频取值修改为“lowfreq”),接着进行编码,得到的结果属于稀疏(sparse)张量。
对于事件中的布尔型特征项,可以采用独热编码方式进行编码,得到的结果属于稀疏张量。
对于事件中的时间信息,可以划分为离散字段和连续数值字段。对于离散字段,可以采用独热编码方式进行编码,得到稀疏张量。对于连续数值字段,例如时间间隔,可以基于统计得到的最大最小取值范围,进行归一化,进而得到编码值,该编码值属于稠密(dense)张量。
对于事件中的数值型特征,可以类似地基于统计得到的取值范围进行归一化,进而得到编码值,其属于稠密张量。
对于事件中的文本型特征项,可以先对其进行预处理,例如分词、去除停用词、标点等,然后采用语言模型对其进行嵌入处理,得到的嵌入向量属于稠密张量。
对于事件中的id特征项,可以对其索引进行二元编码,得到二元张量。最终得到的编码结果包括稀疏张量、稠密张量和二元张量多种性质的张量。
需要理解,图4是一种典型场景的示例。实际应用中,事件可能并不包含图4所示的所有类型的特征项,或者还可以包含更多其他类型的特征项。本领域技术人员在阅读本说明书的情况下,能够针对具体的事件,选择应用以上实施例中提供的适用的编码方式。
回顾以上过程,在本说明书实施例中,对于事件中多种不同类型、不同数据结构的特征项,采用不同的方式进行编码。特别是对于类别型特征项,可以将该特征项下的不同低频取值合并为一个统一的预定值,基于合并后的特征值进行编码。由于针对数据类型进行了针对性设计,通过实施例中编码方式得到的编码向量维度更小,对存储占用更少,且不损失信息量。
根据另一方面的实施例,还提供了一种对事件特征进行编码的装置,上述装置可以部署在任何具有计算、处理能力的设备或平台上。图5示出根据一个实施例的编码装置的示意图。如图5所示,该编码装置500包括:
事件获取单元51,配置为获取待分析的目标事件,所述目标事件包括类别型的第一特征项,所述目标事件针对第一特征项的取值为第一特征值;
确定单元52,配置为确定所述第一特征值是否属于针对所述第一特征项预先设定的低频取值集合;
第一编码单元53,配置为在所述第一特征值属于所述低频取值集合的情况下,根据用于指示所述低频取值集合的预定值,采用第一编码方式对所述目标事件的第一特征项进行编码。
在一种实施方式中,所述目标事件为用户操作事件,所述第一特征项为以下之一:城市,设备型号,支付渠道,职业,信用等级,数值区间。
在不同实施例中,上述第一编码方式包括以下之一:独热编码,二元编码,可训练的嵌入向量编码。
在一个实施例中,所述装置还包括低频集合确定单元(未示出),配置为:获取包含多个事件的样本集合;统计所述样本集合中各个事件针对第一特征项的特征值分布;根据所述特征值分布,确定所述低频取值集合。
进一步的,在一个示例中,特征值分布包括,各个备选取值的出现频次;在这样的情况下,确定所述低频取值集合,具体包括:将出现频次低于一定阈值的备选取值,归入所述低频取值集合。
根据一种实施方式,所述目标事件包括时间特征信息,所述时间特征信息包括第一字段和第二字段,所述第一字段具有离散字段值,所述第二字段具有连续数值型字段值;所述装置500还包括时间特征编码单元(未示出),配置为:采用所述第一编码方式对第一字段进行编码;根据预先统计的第二字段的最大取值和最小取值,将第二字段的字段值映射到预定区间,基于所述预定区间中的映射值进行编码。
进一步的,在具体实施例中,第一字段可以包括以下中的一项或多项:月份、季度、星期、小时;所述第二字段包括,相邻事件间的时间间隔,所述目标事件距离最新事件之间的时间间隔。
根据一种实施方式,目标事件还包括第二特征项,所述第二特征项的特征值为文本段;所述装置500还包括第二编码单元(未示出),配置为:将所述文本段输入自然语言处理模型,得到该文本段的嵌入向量,作为所述第二特征项的编码向量。
在一种实施方式中,目标事件还包括用于指示id标识的第三特征项,所述目标事件针对第三特征项的取值为第一id标识;所述装置还包括第三编码单元(未示出),配置为:根据预先统计的所述第三特征项的可能取值的第一数量,确定所述第一id标识在所述第一数量中的索引;将所述索引编码为二元比特串,作为所述第三特征项的编码向量。
在一个实施例中,目标事件还包括数值型的第四特征项,所述目标事件针对第四特征项的取值为第一数值;所述装置还包括第四编码单元(未示出),配置为:根据预先统计的所述第四特征项的最大取值和最小取值,将所述第一数值映射为预定区间中的第二数值,基于所述第二数值进行编码。
通过以上装置,可以针对事件中不同类型的特征项,执行对应的编码方式,更有效地为事件特征进行编码。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (13)
1.一种对事件特征进行编码的方法,包括:
获取待分析的目标事件,所述目标事件包括类别型的第一特征项,所述目标事件针对第一特征项的取值为第一特征值;
确定所述第一特征值是否属于针对所述第一特征项预先设定的低频取值集合;
若属于,则根据用于指示所述低频取值集合的预定值,采用第一编码方式对所述目标事件的第一特征项进行编码。
2.根据权利要求1所述的方法,其中,所述目标事件为用户操作事件,所述第一特征项为以下之一:城市,设备型号,支付渠道,职业,信用等级,数值区间。
3.根据权利要求1所述的方法,其中所述第一编码方式包括以下之一:独热编码,二元编码,可训练的嵌入向量编码。
4.根据权利要求1所述的方法,还包括:
获取包含多个事件的样本集合;
统计所述样本集合中各个事件针对第一特征项的特征值分布;
根据所述特征值分布,确定所述低频取值集合。
5.根据权利要求3所述的方法,其中,所述特征值分布包括,各个备选取值的出现频次;确定所述低频取值集合,具体包括:
将出现频次低于一定阈值的备选取值,归入所述低频取值集合。
6.根据权利要求1所述的方法,其中,所述目标事件包括时间特征信息,所述时间特征信息包括第一字段和第二字段,所述第一字段具有离散字段值,所述第二字段具有连续数值型字段值;所述方法还包括:
采用所述第一编码方式对第一字段进行编码;
根据预先统计的第二字段的最大取值和最小取值,将第二字段的字段值映射到预定区间,基于所述预定区间中的映射值进行编码。
7.根据权利要求5所述的方法,其中,所述第一字段包括以下中的一项或多项:月份、季度、星期、小时;所述第二字段包括,相邻事件间的时间间隔,所述目标事件距离最新事件之间的时间间隔。
8.根据权利要求1所述的方法,其中,所述目标事件还包括第二特征项,所述第二特征项的特征值为文本段;所述方法还包括:
将所述文本段输入自然语言处理模型,得到该文本段的嵌入向量,作为所述第二特征项的编码向量。
9.根据权利要求1所述的方法,其中,所述目标事件还包括用于指示id标识的第三特征项,所述目标事件针对第三特征项的取值为第一id标识;所述方法还包括:
根据预先统计的所述第三特征项的可能取值的第一数量,确定所述第一id标识在所述第一数量中的索引;
将所述索引编码为二元比特串,作为所述第三特征项的编码向量。
10.根据权利要求1所述的方法,其中,所述目标事件还包括数值型的第四特征项,所述目标事件针对第四特征项的取值为第一数值;所述方法还包括:
根据预先统计的所述第四特征项的最大取值和最小取值,将所述第一数值映射为预定区间中的第二数值,基于所述第二数值进行编码。
11.一种对事件特征进行编码的装置,包括:
事件获取单元,配置为获取待分析的目标事件,所述目标事件包括类别型的第一特征项,所述目标事件针对第一特征项的取值为第一特征值;
确定单元,配置为确定所述第一特征值是否属于针对所述第一特征项预先设定的低频取值集合;
修改单元,配置为在所述第一特征值属于所述低频取值集合的情况下,将所述第一特征值修改为预定值,所述预定值用于指示所述低频取值集合;
第一编码单元,配置为根据所述预定值,采用第一编码方式对所述目标事件的第一特征项进行编码。
12.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项的所述的方法。
13.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587005.9A CN113220947A (zh) | 2021-05-27 | 2021-05-27 | 对事件特征进行编码的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587005.9A CN113220947A (zh) | 2021-05-27 | 2021-05-27 | 对事件特征进行编码的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113220947A true CN113220947A (zh) | 2021-08-06 |
Family
ID=77098860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110587005.9A Pending CN113220947A (zh) | 2021-05-27 | 2021-05-27 | 对事件特征进行编码的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220947A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547482A (zh) * | 2022-03-03 | 2022-05-27 | 智慧足迹数据科技有限公司 | 业务特征生成方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366750A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
US20180211041A1 (en) * | 2017-01-24 | 2018-07-26 | Cylance Inc. | Detection of Malware Using Feature Hashing |
CN109146083A (zh) * | 2018-08-06 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 特征编码方法和装置 |
WO2020132852A1 (en) * | 2018-12-25 | 2020-07-02 | Microsoft Technology Licensing, Llc | Coding information extractor |
CN111582325A (zh) * | 2020-04-20 | 2020-08-25 | 华南理工大学 | 一种基于自动特征编码的多阶特征组合方法 |
-
2021
- 2021-05-27 CN CN202110587005.9A patent/CN113220947A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366750A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
US20180211041A1 (en) * | 2017-01-24 | 2018-07-26 | Cylance Inc. | Detection of Malware Using Feature Hashing |
CN109146083A (zh) * | 2018-08-06 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 特征编码方法和装置 |
WO2020132852A1 (en) * | 2018-12-25 | 2020-07-02 | Microsoft Technology Licensing, Llc | Coding information extractor |
CN111582325A (zh) * | 2020-04-20 | 2020-08-25 | 华南理工大学 | 一种基于自动特征编码的多阶特征组合方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547482A (zh) * | 2022-03-03 | 2022-05-27 | 智慧足迹数据科技有限公司 | 业务特征生成方法、装置、电子设备及存储介质 |
CN114547482B (zh) * | 2022-03-03 | 2023-01-20 | 智慧足迹数据科技有限公司 | 业务特征生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163647B (zh) | 一种数据处理方法及装置 | |
US11636341B2 (en) | Processing sequential interaction data | |
CN112347367B (zh) | 信息服务提供方法、装置、电子设备和存储介质 | |
CN110909165A (zh) | 数据处理方法、装置、介质及电子设备 | |
CN105225135B (zh) | 潜力客户识别方法以及装置 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN112329816A (zh) | 数据分类方法、装置、电子设备和可读存储介质 | |
CN111210335A (zh) | 用户风险识别方法、装置及电子设备 | |
CN111210336A (zh) | 用户风险模型生成方法、装置及电子设备 | |
CN113449753B (zh) | 业务风险预测方法、装置和系统 | |
CN113190702A (zh) | 用于生成信息的方法和装置 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN115935185A (zh) | 一种推荐模型的训练方法及装置 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN111639700A (zh) | 目标相似度识别方法、装置、计算机设备及可读存储介质 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN113220947A (zh) | 对事件特征进行编码的方法和装置 | |
CN111445139A (zh) | 业务流程模拟方法及装置、存储介质、电子设备 | |
CN114282119B (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
CN109697224B (zh) | 一种账单消息处理方法、装置和存储介质 | |
CN114595323B (zh) | 画像构建、推荐、模型训练方法、装置、设备及存储介质 | |
CN113051911B (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
CN115080824A (zh) | 目标词的挖掘方法、装置、电子设备及存储介质 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN113420789A (zh) | 一种预测风险账号的方法、装置、存储介质和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40056525 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210806 |
|
RJ01 | Rejection of invention patent application after publication |