事件检测方法和装置、计算设备及存储介质
技术领域
本说明书涉及风控技术领域,特别涉及一种事件检测方法和装置、计算设备及存储介质。
背景技术
在风险控制中,数据一般分为连续性数据和Category(类别)数据。连续性数据例如金额,是可以比较大小直接进行算术运算的数据类型;Category数据一般在风控中占据了95%以上,是描述风控事件信息的主要数据类型,这类数据不可以直接进行算术运算,也无法直接量化两个Category之间的关系,导致根据风控数据本身很难对风控事件的类型进行有效检测。
说明书内容
有鉴于此,本说明书实施例提供了一种事件检测方法和装置、计算设备及存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种事件检测方法,包括:
获取事件文本,从所述事件文本中提取至少两个类别字段;
构建所述事件文本的类别字段关系图,所述类别字段关系图的每个节点表征所述事件文本的一个类别字段;
基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;
对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征;
根据预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征对应的事件类别标签。
根据本说明书实施例的第二方面,提供了一种事件检测装置,包括:
第一获取器,被配置为获取事件文本,从所述事件文本中提取至少两个类别字段;
第一构建器,被配置为构建所述事件文本的类别字段关系图,所述类别字段关系图的每个节点表征所述事件文本的一个类别字段;
第一嵌入器,被配置为基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;
第一交叉器,被配置为对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征;
检测器,被配置为根据预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征对应的事件类别标签。
根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的事件检测方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述的事件检测方法的步骤。
本说明书实施例将事件文本中的类别字段映射到稠密的低维空间,从而可以直接量化两个类别字段之间的距离关系特征,克服了现有技术中无法直接量化两个字段类别之间的关系的问题,进而根据类别字段之间的距离关系特征通过预先训练好的事件检测模型确定事件文本对应的事件类型标签。
附图说明
图1是示出了根据本说明书一实施例的事件检测系统的结构框图;
图2是示出了根据本说明书一实施例的事件检测方法的示意性流程图;
图3是示出了根据本说明书一实施例的类别字段关系图;
图4是示出了根据本说明书另一实施例的事件检测方法的示意性流程图;
图5是示出了根据本说明书一实施例的事件检测装置的模块图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
针对当前事件检测现状,在本说明书中,提供了一种事件检测方法和装置、计算设备及存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的事件检测系统的结构框图。该事件检测系统中的计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存用户数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本说明书一实施例的事件检测方法的示意性流程图,包括步骤202、步骤204、步骤206、步骤208和步骤210。
步骤202:获取事件文本,从所述事件文本中提取至少两个类别字段。
一种实施方式中,所述事件文本是支付类风控事件文本。在实际应用中,如在欺诈领域,欺诈手法迭代更新快,风控策略需要实时的欺诈特征,特征开发人工经验无法做到和最新的欺诈手段同步,以往的人工特征工程方式比较难得出最新的欺诈模式,本说明书实施例可以根据数据本身特点,自动挖掘出对业务有指导意义的特征。
一种实施方式中,所述从所述事件文本中提取至少两个类别字段包括:根据预设关键词表中的每个关键词对所述事件文本进行检索,判断所述事件文本中是否包含有对应的关键词;将所述事件文本中包含的关键词作为所述事件文本的类别字段。
在具体实现时,在所述根据预设关键词表中的每个关键词对所述事件文本进行检索之前还可以包括:将从历史事件文本中提取的类别字段作为关键词构建预设关键词表。通过预先构建预设关键词表从而可以从所述事件文本中快速提取类别字段。
步骤204:构建所述事件文本的类别字段关系图,所述类别字段关系图的每个节点表征所述事件文本的一个类别字段。
图3是示出了根据本说明书一实施例的类别字段关系图,如图3所示,以电商平台上的交易支付为例,该类风控业务事件中所提取的类别字段包括:买家标识301、卖家标识302、买家的手机号303、买家的设备指纹304、买家的邮箱305、买家的IP地址306、买家的设备MAC标识307、买家的设备GPS定位308、货物309、卖家的邮箱310和卖家的手机号311,将买家标识301、卖家标识302、买家的手机号303、买家的设备指纹304、买家的邮箱305、买家的IP地址306、买家的设备MAC标识307、买家的设备GPS定位308、货物309、卖家的邮箱310和卖家的手机号311分别作为类别字段关系图的节点,根据各类别字段之间的关联关系形成节点之间的边连接,得到该业务事件对应的类别字段关系图。
步骤206:基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量。
一种实施方式中,所述基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入(Embedding)得到每个节点对应的特征向量包括:采用随机游走算法对所述类别字段关系图中每个节点的结构信息进行序列采样,生成节点序列;根据预设的嵌入学习模型将所述节点序列中的每个节点的结构信息嵌入映射为向量化形式,得到每个节点的向量特征。本实施例采用随机游走算法获取每个节点的结构信息,操作简单并且不易陷入局部极小值。本实施例通过嵌入映射将高维稀疏空间中的值映射到低维稠密空间,同时该映射保持特定几何性质不变,使得两个类别字段之间的关系可以直接量化。
在具体实现时,所述采用随机游走算法对所述类别字段关系图中每个节点的结构信息进行序列采样,生成节点序列可以包括:采用随机游走算法根据设定的随机游走的序列长度和每个节点的游走次数,获取所述类别字段关系图中每个节点的结构信息;根据每个节点的结构信息生成节点序列。
一种实施方式中,所述嵌入学习模型可以通过以下步骤获得:获取第一训练样本集,所述第一训练样本集包括由历史事件文本的类别字段构成的词表;基于所述第一训练样本集进行word2vet训练得到嵌入学习模型。
一种实施方式中,还可以根据单个或批量事件文本的类别字段对所述第一训练样本集进行定期或不定期地更新。在训练样本集的更新方式上,可以采用针对逐条事件的更新方式,也可以采用batch(批量)事件更新的方式。
步骤208:对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征。
步骤210:根据预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征对应的事件类别标签。
其中在风控应用场景中,所述事件类型标签包括风险事件标签和非风险事件标签。
一种实施方式中,在所述对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征步骤之后还包括:通过预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征的重要程度。通过确定所述至少两个类别字段的距离关系特征的重要程度,这些关系在业务场景具有可解释性,作为特征输入到树模型,可以得到关系路径,反馈到业务,从而自动挖掘实体之间的显示组合关系,实现业务事件特征的自动挖掘。
一种实施方式中,所述事件检测模型可以通过以下方式得到:获取第二训练样本集,所述第二训练样本集包括多个历史事件文本以及每个所述历史事件文本对应的事件类型标签;从每个所述历史事件文本中提取至少两个类别字段;构建每个所述历史事件文本的类别字段关系图,所述类别字段关系图的每个节点表征一个所述类别字段;基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;对所述每个节点对应的特征向量进行两两交叉得到每个所述历史事件文本中至少两个类别字段的距离关系特征;基于树类模型训练所述事件检测模型,所述事件检测费模型使得每个所述历史事件文本对应的事件类型标签与该历史事件文本中至少两个类别字段的距离关系特征相关联。
一种实施方式中,在所述基于树类模型训练事件检测模型,所述事件检测模型使得每个所述历史事件文本对应的事件类型标签与该历史事件文本中至少两个类别字段的距离关系特征相关联步骤之后还可以包括:通过所述事件检测模型得到每个所述历史事件文本中至少两个类别字段的距离关系特征的重要程度。
实际应用中,可以结合给出的重要程度高的距离关系特征对具体应用场景中的事件给出推荐结果或者风险提示。
一种实施方式中,所述树类模型是Xgboost树类模型。
本说明书实施例将事件文本中的类别字段映射到稠密的低维空间,从而可以直接量化两个类别字段之间的距离关系特征,克服了现有技术中无法直接量化两个字段类别之间的关系的问题,进而根据类别字段之间的距离关系特征通过预先训练好的事件检测模型确定事件文本对应的事件类型标签。
同时,本说明书实施例通过树类模型可以快速地将业务知识转化为较好的特征,而不需要对业务知识有深入理解,在实际应用中,如在欺诈领域,欺诈手法迭代更新快,风控策略需要实时的欺诈特征,特征开发人工经验无法做到和最新的欺诈手段同步,以往的人工特征工程方式比较难得出最新的欺诈模式,本说明书实施例在特征衍生的过程中完全标准化,不需要人工干预,可以根据数据本身特点,自动挖掘出对业务有指导意义的特征,满足实际业务的需要。
在一种实现方式中,将训练得到的事件检测模型存储在磁盘中,以供后续的事件检测使用。
图4是示出了本说明书另一实施例的事件检测方法的流程图。该实施例完成了一条事件被编码,词表更新,映射到嵌入空间,自动特征生成,自动特征筛选等步骤,具体包括:
步骤402:建立词表,完成初始化。
该实施例先扫描关系数据集合,初始化词表,建立category数据的索引。
步骤404:通过神经网络模型如word2vet模型对词表进行训练,形成嵌入空间(Manifold space),并在后续的应用过程中迭代更新词表。
步骤406:对新来的事件,列出相关的字段。
步骤408:类别字段关系量化。
将构建的类别字段关系图上节点之间的结构信息嵌入到manifold space,保证嵌入的向量概率分布和原图上节点之间的结构关系同构,具体实施步骤如下:1:采集图上节点的结构信息,选用random walk(随机游走)算子,设定随机游走的序列长度和每个点的游走次数,获得图上每个节点的结构信息;2:对步骤1得到的序列,进行manifold space嵌入,从概率角度,由此得到类别字段关系图节点在manifold空间的embedding表示,完成节点category类别字段的向量化表示,得到类别字段的向量特征。
步骤410:类别字段的向量特征两两对进行交叉,从而量化category类别字段的关系。
量化category类别字段的关系也就是量化图上节点之间的关系远近,一般来说,如果用户经常使用某一设备消费,那么用户和设备的关系就比较近,反应到category的manifold(流形)的表示上,那就是这两个点的距离很近。本申请一实施例中,可以通过如下流程实现:
1、对新来的事件的相关字段,在manifold space中找到对应的点,如无则缺省处理;
2、在manifold space中计算各个字段两两之间的相似度,得到事件属性在manifold space上的距离特征,将该特征作为输出。
步骤412:ML(机器学习)模型选择特征。
通过采用wrapper(包裹式)方式完成特征选择,利用机器学习模型选出对任务有帮助的特征。本申请一实施例中,可以通过如下流程实现该过程:
1、准备测试数据集,对测试数据集根据category数据交叉的方法,将事件中各相关类别的关系,转换为manifold space中的对应点的距离关系并抽取为特征;
2、根据步骤1得到的特征和对应的标签,采用树类模型,例如xgboost来ranking(分级)各特征的重要程度,由此自动挖掘出与任务相关的特征。
与前述事件检测方法相对应,本说明书还提供了事件检测装置实施例,所述装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,本说明书生成事件检测模型的装置所在设备的一种硬件结构可以包括处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常根据该事件检测的实际功能,还可以包括其他硬件,对此不再赘述。
参见图5,为本说明书一实施例提供的事件检测装置的模块图。事件检测装置500对应了图2所示实施例,图5图中存储装置600可以用于存储训练好的嵌入学习模型和事件检测模型。所述装置500包括:
第一获取器510,被配置为获取事件文本,从所述事件文本中提取至少两个类别字段;
第一构建器520,被配置为构建所述事件文本的类别字段关系图,所述类别字段关系图的每个节点表征所述事件文本的一个类别字段;
第一嵌入器530,被配置为基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;
第一交叉器540,被配置为对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征;
检测器550,被配置为根据预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征对应的事件类别标签。
一个可选的实施例中,所述装置500还包括:
第一特征区分器,被配置为通过预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征的重要程度。
一个可选的实施例中,所述装置500还包括:
第二获取器,被配置为获取第一训练样本集,所述第一训练样本集包括由历史事件文本的类别字段构成的词表;
第一训练器,被配置为基于所述第一训练样本集进行word2vet训练得到嵌入学习模型。
一个可选的实施例中,所述装置500还包括:
更新器,被配置为根据单个或批量事件文本的类别字段对所述第一训练样本集进行定期或不定期地更新。
一个可选的实施例中,所述第一获取器包括:
检索模块,被配置为根据预设关键词表中的每个关键词对所述事件文本进行检索,判断所述事件文本中是否包含有对应的关键词;
类别字段确定模块,被配置为将所述事件文本中包含的关键词作为所述事件文本的类别字段。
一个可选的实施例中,所述第一获取器还包括:
词表构建模块,被配置为将从历史事件文本中提取的类别字段作为关键词构建预设关键词表。
一个可选的实施例中,所述第一嵌入器包括:
序列生成模块,被配置为采用随机游走算法对所述类别字段关系图中每个节点的结构信息进行序列采样,生成节点序列;
向量转化模块,被配置为根据预设的嵌入学习模型将所述节点序列中的每个节点的结构信息嵌入映射为向量化形式,得到每个节点的向量特征。
一个可选的实施例中,其中所述序列生成模块包括:
结构信息单元,被配置为采用随机游走算法根据设定的随机游走的序列长度和每个节点的游走次数,获取所述类别字段关系图中每个节点的结构信息;
序列生成单元,被配置为根据每个节点的结构信息生成节点序列。
一个可选的实施例中,所述装置500还包括:
第三获取器,被配置为获取第二训练样本集,所述第二训练样本集包括多个历史事件文本以及每个所述历史事件文本对应的事件类型标签;
提取器,被配置为从每个所述历史事件文本中提取至少两个类别字段;
第二构建器,被配置为构建每个所述历史事件文本的类别字段关系图,所述类别字段关系图的每个节点表征一个所述类别字段;
第二嵌入器,被配置为基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;
第二交叉器,被配置为对所述每个节点对应的特征向量进行两两交叉得到每个所述历史事件文本中至少两个类别字段的距离关系特征;
第二训练器,被配置为基于树类模型训练所述事件检测模型,所述事件检测费模型使得每个所述历史事件文本对应的事件类型标签与该历史事件文本中至少两个类别字段的距离关系特征相关联。
一个可选的实施例中,所述装置500其中还包括:
第二特征区分器,被配置为通过所述事件检测模型得到每个所述历史事件文本中至少两个类别字段的距离关系特征的重要程度。
上述实施例阐明的装置、模块或单元,具体可以由计算机芯片或实体实现,
或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的事件检测方法的步骤。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述的事件检测方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的自动化测试方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述事件检测方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该说明书仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。