CN107679985A

CN107679985A - 风险特征筛选、描述报文生成方法、装置以及电子设备

Info

Publication number: CN107679985A
Application number: CN201710818502.9A
Authority: CN
Inventors: 张鹏; 印晓华; 张向阳; 薛峰; 顾曦; 郭倩婷; 屠剑威
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2018-02-09
Anticipated expiration: 2037-09-12
Also published as: TW201913522A; WO2019055382A1; TWI745589B; SG11202002167QA; EP3665636A1; CN107679985B; US20190080327A1

Abstract

本说明书实施例公开了风险特征筛选、描述报文生成方法、装置以及电子设备，所述方法包括：根据多个风险特征的特征权重，以及用于约束根据风险特征所生成报文的长度的预定条件，筛选风险特征，进而，可以利用筛选出的风险特征为待描述事件生成描述报文。

Description

风险特征筛选、描述报文生成方法、装置以及电子设备

技术领域

本说明书涉及计算机技术领域，尤其涉及风险特征筛选、描述报文生成方法、装置以及电子设备。

背景技术

随着互联网金融的快速发展，互联网金融交易的数量在快速增长。在大量的互联网金融交易中，可能存在一些不法人员进行洗钱等非法交易。因此，需要工作人员从大量交易记录中查找到可疑交易，并生成对应的可疑交易描述报文，反馈到有关管理部门，这些可疑交易也可以称为风险事件。

在现有技术中，接收到可疑交易数据后，通常通过工作人员根据这些数据，按照预定义的报文模板以人工方式编写描述可疑交易的报文，其中，报文长度是受到限制的。

基于现有技术，需要能够基于报文长度约束条件，针对可疑交易生成更有参考性的描述报文的方案。

发明内容

本说明书实施例提供风险特征筛选、描述报文生成方法、装置以及电子设备，用于解决以下技术问题：需要能够基于报文长度约束条件，针对可疑交易生成更有参考性的描述报文的方案。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供一种风险特征筛选方法，包括：

获取多个风险特征分别的特征权重，所述特征权重根据利用样本事件训练得到的分类模型得到或者预定义得到，所述分类模型用于判定风险事件；

根据所述特征权重和预定条件，筛选出至少部分风险特征，所述预定条件用于约束根据风险特征所生成报文的长度。

本说明书实施例提供的一种描述报文生成方法，包括：

获取待描述事件；

确定筛选出的各风险特征；

根据所述筛选出的各风险特征，为所述待描述事件生成描述报文；

其中，所述筛选出各风险特征包括：获取多个风险特征分别的特征权重，根据所述特征权重和预定条件，筛选出所述各风险特征，所述特征权重根据利用样本事件训练得到的分类模型得到或者预定义得到，所述分类模型用于判定风险事件，所述预定条件用于约束根据风险特征所生成报文的长度。

本说明书实施例提供的一种风险特征筛选装置，包括：

获取模块，获取多个风险特征分别的特征权重，所述特征权重根据利用样本事件训练得到的分类模型得到或者预定义得到，所述分类模型用于判定风险事件；

筛选模块，根据所述特征权重和预定条件，筛选出至少部分风险特征，所述预定条件用于约束根据风险特征所生成报文的长度。

本说明书实施例提供的一种描述报文生成装置，包括：

获取模块，获取待描述事件；

确定模块，确定筛选出的各风险特征；

生成模块，根据所述筛选出的各风险特征，为所述待描述事件生成描述报文；

本说明书实施例提供的一种风险特征筛选电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

本说明书实施例提供的一种描述报文生成电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待描述事件；

确定筛选出的各风险特征；

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：可以利用训练得到的分类模型，确定各风险特征分别的特征权重，根据特征权重，以及用于约束根据风险特征所生成报文的长度的预定条件，为待描述事件生成描述报文，从而生成的描述报文更有参考性；其中，待描述事件比如可以是疑似洗钱交易等可疑交易。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图；

图2为本说明书实施例提供的一种风险特征筛选方法的流程示意图；

图3为本说明书实施例提供的一种描述报文生成方法的流程示意图；

图4为本说明书实施例提供的描述报文的部分截图的示意图；

图5为本说明书实施例提供的一种自动报文算法的示意图；

图6为本说明书实施例提供的一种实际应用场景下的可疑交易甄别流程示意图；

图7为本说明书实施例提供的对应于图2的一种风险特征筛选装置的结构示意图；

图8为本说明书实施例提供的对应于图3的一种描述报文生成装置的结构示意图。

具体实施方式

本说明书实施例提供风险特征筛选、描述报文生成方法、装置以及电子设备。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了便于理解，对本说明书的方案的思路进行分析。

在没有报文长度约束条件的情况下，可以使描述报文覆盖可疑交易的全部信息点，其中，每个信息点分别反映可疑交易的其中一个风险特征的数据，比如，信息点是根据风险特征生成的子报文。将由全部风险特征构成的集合记作S。

而在有报文长度约束条件的情况下，描述报文通常只能覆盖可疑交易的一部分风险特征数据而不是全部，否则报文长度将会超限。那么，为了使生成的描述报文参考性尽量高，需要对风险特征进行筛选，以筛选出参考价值最高的风险特征子集合，风险特征子集合记作假定利用分类模型的受试者工作特征曲线线下面积(Area Under roc Curve，AUC)来度量S'的参考价值。一种理想的目标是：筛选得到对应的AUC最大的S'。

该理想的目标属于组合优化问题，在风险特征数量较多时，计算量很大不利于实用，基于此，本说明书的方案利用贪心搜索策略，对该组合优化问题进行近似求解，求得局部最优解即可，如此可以减少计算量，效率较高。

本说明书的方案可以用于：在一个待筛选风险特征集合中，筛选参考价值相对高的风险特征；进一步地可以用于利用筛选出的风险特征，为诸如可疑交易等风险事件生成描述报文。

图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图。该整体架构包括至少一个设备，设备工作流程主要包括：确定待筛选的多个风险特征，以及筛选出至少部分风险特征；以及输入待描述事件到用于生成描述报文的设备，该设备根据待描述事件以及筛选出的风险特征，生成描述报文，其中，上述至少一个设备中可以包括用于判定风险事件的分类模型。

基于上述思路和整体架构，下面对本说明书的方案进行详细说明。

本说明书实施例提供了一种风险特征筛选方法，如图2所示，该方法的流程可以包括以下步骤：

S202：获取多个风险特征分别的特征权重，所述特征权重根据利用样本事件训练得到的分类模型得到或者预定义得到，所述分类模型用于判定风险事件。

在本说明书实施例中，样本事件有多个。对于同一风险特征，不同样本事件的特征取值可以不同。一般可以预先利用样本事件训练得到分类模型，进而利用分类模型确定各风险特征对应的特征权重。

例如，特征权重具体可以通过计算风险特征对应于分类模型的分类准确性度量指标得到，其中，分类准确性度量指标比如是AUC、信息熵、或者分类精确率等。

当然，也可以不依赖于分类模型，而预定义得到特征权重。

特征权重反映风险特征的重要程度，一般地，对于特征权重越高的风险特征，可以优先选择以用于描述事件。进一步地，由于存在报文长度约束，也即上述的预定条件，则特征权重未必是筛选风险特征的唯一依据，比如，还可以结合风险特征对应的子报文长度等因素进行筛选。

风险事件可以是可疑交易，比如，疑似洗钱交易、或疑似盗取账户者冒充账户主人进行的交易等。风险事件也是可以是交易以外的可疑的业务操作事件，比如，非法登录事件等。

S204：根据所述特征权重和预定条件，筛选出至少部分风险特征，所述预定条件用于约束根据风险特征所生成报文的长度。

通过图2的方法，可以筛选出更有参考价值的风险特征。基于图2的方法，本说明书实施例还提供了该方法的一些具体实施方案，以及扩展方案，下面进行说明。

在本说明书实施例中，预定义特征权重比较容易理解，一般根据运营人员的经验进行即可。以下主要对另一种得到特征权重的方式进行说明。

对于步骤S202，利用样本事件训练得到的分类模型得到所述特征权重，具体可以包括：利用样本事件训练得到分类模型；分别针对所述多个风险特征执行：获取所述样本事件中对应于该风险特征的数据；根据所述对应于该风险特征的数据，计算该风险特征对应于所述分类模型的分类准确性度量指标；根据该分类准确性度量指标，得到该风险特征的特征权重。

在本说明书实施例中，风险特征对应的对应于分类模型的分类准确性度量指标具体可以表示：单独采用样本事件对应于该风险特征的数据作为分类模型输入，对样本事件进行分类的准确程度。以分类准确性度量指标是AUC为例，AUC越高，则分类的准确程度越高。

所述分类模型可以是随机森林模型或者逻辑回归模型等。以随机森林模型为例，假如训练样本D＝(x,y)，其中x∈R^n*d是模型输入数据；y∈Rn*1是样本标签，样本标签比如表示样本事件是否涉及洗钱，也即，是否为疑似洗钱交易；进而，根据训练样本数据x和样本标签y和，构建决策树，根据构建的多个决策树训练得到随机森林模型。

在本说明书实施例中，根据风险特征数据，可以生成对应的子报文。所述多个风险特征分别有对应的子报文字数，可以预先确定或者预估子报文字数。

在这种情况下，对于步骤S204，所述根据所述特征权重和预定条件，筛选出至少部分所述风险特征，具体可以包括：根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序；根据所述第一排序结果、所述子报文字数，以及预定条件，筛选出至少部分风险特征。

以子报文字数是预先为风险特征定义的子报文模板的预定字数为例。子报文模板可以包含风险特征和对应的描述语句，可以是预先建立各风险特征与描述语句之间的对应关系；比如，<特征1，描述语句1>，<特征2，描述语句2>，<特征3，描述语句3>，一般将风险特征具体的取值代入描述语句，即可以得到子报文。则描述语句的默认字数即为上述的预定字数。

进一步地，所述根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序，具体可以包括：确定所述多个风险特征按照所述特征权重大小，进行第二排序得到的第二排序结果；根据所述第二排序结果，选取所述多个风险特征中的至少部分风险特征；根据所述特征权重及对应的所述子报文字数，对所述选取的风险特征进行第一排序。

在实际应用中，当风险特征较多时，可以先对风险特征进行排序和/或预筛选等处理，再正式地进行筛选，如此有利于减少筛选所耗费的处理资源。

例如，假定按照特征权重由大到小的顺序，对风险特征进行第二排序，可以将第二排序结果中比较靠后的风险特征剔除，保留靠前的风险特征。

需要说明的是，预筛选(基于上述的第二排序进行)并非一个必须的步骤，可以根据实际需求决定是否执行。

在本说明书实施例中，所述根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序，具体可以包括：根据所述风险特征对应的所述特征权重和所述子报文字数，计算所述风险特征对应的单位字数权重；按照所述单位字数权重，对所述多个风险特征进行第一排序。

单位字数权重可以表示：子报文中每个字对其对应的特征权重的平均贡献。更直观地，比如，单位字数权重可以等于特征权重除以对应的子报文字数。

当然，也可以基于单位字数权重以外的其他指标对风险特征进行排序以及筛选，比如，单位字数信息量等。

前面在说明方案思路时提到，利用贪心搜索策略进行近似求解。下面先示出近似求解过程，再进行分析。

在本说明书实施例中，所述根据所述第一排序结果、所述子报文字数，以及预定条件，筛选出至少部分风险特征，具体可以包括：

根据所述第一排序结果，针对所述第一排序结果包含的各风险特征，按照单位字数权重从大到小的顺序，进行遍历，针对当前风险特征执行：

将当前风险特征加入设定集合，判断所述设定集合中包含的风险特征对应的子报文字数之和是否符合预定条件；若是，遍历至下一个风险特征；否则，将当前风险特征从所述设定集合中剔除，结束遍历过程，将所述设定集合中包含的风险特征作为筛选出的至少部分风险特征；其中，所述设定集合初始时为空集。

在实际应用中，在上述判断过程中，若判断结果为否，也未必要结束遍历操作，比如，可以继续按顺序尝试选择后面的风险特征加入设定集合，再看是否满足约束条件。

在本说明书实施例中，对于步骤S206，所述遍历至下一个风险特征，具体可以包括：

确定所述设定集合对应于所述分类模型的分类准确性度量指标；

判断该分类准确性度量指标是否不大于加入当前风险特征前的所述设定集合对应于所述分类模型的分类准确性度量指标；若是，将当前风险特征从所述设定集合中剔除，遍历至下一个风险特征；否则，遍历至下一个风险特征。

为了避免混淆，举例对所述加入当前风险特征前的所述设定集合进行说明。例如，设定集合中已加入了9个风险特征(假定将此时的设定集合称为：当前集合)，接下来要加入第10个风险特征(也即，当前风险特征)，则所述加入当前风险特征前的所述设定集合指：该当前集合。

上面示出了利用贪心搜索策略进行近似求解的过程，下面进行分析。

若要获得上述的理想的目标，则需要对风险特征子集合S'进行穷举，以求得在满足报文长度约束条件的情况下对应的AUC(分类准确性度量指标的一种示例)最大的S'。

而贪心搜索策略则避免了穷举，其基于第一排序结果，依次对风险特征进行优选，每次选入剩余各风险特征中最优(在上例中，最优指单位字数权重最大)的风险特征，直至达到报文长度约束条件的限制。并且，近似地认为每次加入风险特征后对应的AUC都会变大，从而避免每次都计算AUC，可以节省处理资源，以及提高筛选效率。

当然，更精确地，也可以每次都计算AUC。原因在于：新加入的风险特征也有可能使得AUC降低；在这种情况下，可以将该风险特征剔除。

例如，存在一个风险特征S⁽ⁱ⁾与已获得的设定集合S'相关性强，或者S(i)包含的噪声明显，该风险特征S(i)会导致分类模型的分类能力下降或不变(也即，分类准确性度量指标下降或不变)，则可以把S⁽ⁱ⁾剔除出S'。

在本说明书实施例中，基于筛选风险特征，可以进一步地为诸如疑似洗钱交易等待描述的风险事件生成描述报文，其中，是否是风险事件可以由上述的分类模型进行判定，或者基于人工经验判定等。

例如，获取待描述事件，分别针对筛选出至少部分风险特征，生成对应于待描述事件的子报文，对各子报文进行拼装，得到待描述事件的描述报文。另外，为了提高效率，可以利用预定义的子报文模板，生成子报文。

基于同样的思路，本说明书实施例还提供了一种描述报文生成方法的流程示意图，如图3所示。

图3中的流程可以包括以下步骤：

S302：获取待描述事件。

S304：确定筛选出的各风险特征。

在本说明书实施例中，风险特征可以在该流程执行前预先筛选，也可以在获取待描述事件后再筛选。

S306：根据所述筛选出的各风险特征，为所述待描述事件生成描述报文；

在实际应用中，可以一边筛选风险特征，一边生成对应的子报文，也可以在全部风险特征筛选完毕后，再生成子报文。进而，可以得到由子报文构成的描述报文。

通过图3的方法，有利于为待描述事件生成更有参考性的描述报文。

更直观地，本说明书实施例还提供了为可疑交易生成的描述报文的一种内容构成示例，描述报文比如包括六部分内容，每部分对应于一个或多个风险特征：

第一，概述可疑交易情况；

第二，表述发现可疑交易的过程，例如，时间、地点等信息；

第三，可疑账户开户情况，例如，开户资料的基本情况等；

第四，可疑交易的总体情况，例如，交易的时间段、涉及交易次数和金额、资金的来源和去向、交易流程等；

第五，可疑点分析，逐条列举可疑点，例如，开销户信息和交易过程中的其他可疑信息等；

第六，对报文进行判断，结合所有的数据分析和主观判断，对交易给出最终标签，例如，疑似洗钱交易。

图4为本说明书实施例提供的描述报文的部分截图的示意图，图4中示出了上述六部分中的部分内容。基于本说明书实施例生成的描述报文，可以突出重点，而且不会超过报文长度限制。

在一种实际应用场景下，针对疑似洗钱交易可以生成的描述报文有两类。一类是上面各实施例所述的描述报文，称为确定性报文，这部分报文通常是直接根据客观数据得到的，不掺杂主观分析数据；另一类称为不确定性报文，这部分报文可以掺杂主观分析数据。在这种情况下，上述的报文长度约束条件是针对确定性报文的。

本说明书实施例提供一种基于疑似洗钱交易自动生成描述报文模型的建模方案，该方案可以包括以下步骤：

给定一个带标签的训练样本集合D(X,Y)，其中，X∈R^n*d是样本模型输入数据，Y∈R^n*1是样本标签，样本标签可以表示样本事件是否为洗钱交易。

把训练样本的多个风险特征构成的集合记为S，|S|＝d，给定D的分类模型f(D)，希望通过该分类模型找到至少部分风险特征构成的集合对应的确定性报文记为M(S')，使得M(S')的长度不大于给定的阈值λ-θ，也即：|M(S')|≤λ-θ，其中，λ为确定性报文与不确定性报文总的约束长度，θ为不确定性报文的约束长度，则λ-θ为确定性报文的约束长度(也即，上述的预定的报文长度约束条件)。各约束长度通常根据实际情况(比如，审理人员不同、环境不同等)预先设定。

理想的目标是筛选出一个最优的特征集合使得S^*对应的数据集在分类器f(D(S*))下的AUC结果AUC(D^,S',f)最大，也就是求解如下的组合优化问题：

S^*＝argmax_|S'|AUC(D,S',f)；

s.t.:|M(S')|≤λ-θ；

其中，目标函数AUC(D,S',f)表示每次按某种方案选取特征子集S'后，D在分类器f(X)下的下的AUC。

当然，根据前面的分析可知，要达到这种理想的目标成本较高，因此，退而求其次，利用贪心搜索策略近似求解。图5为本说明书实施例中提供的一种自动报文算法的示意图，即反映了该近似求解过程。

在图5中，特征权重倒排表即为上述的第二排序结果，S'即为上述的设定集合，步骤3即为上述的遍历筛选风险特征的过程。需要说明的是，图5中是一边筛选风险特征，一边生成子报文的，风险特征筛选完毕时，即已经得到构成确定性报文的各子报文。

进一步地，本说明书实施例还提供了一种实际应用场景下的可疑交易甄别流程示意图，如图6所示。

图6中的流程主要包括：基于可疑规则生成描述报文生成任务，其中，该任务是针对疑似洗钱交易的；进一步地，可以利用本说明书的方案自动执行该任务(也即，为疑似洗钱交易生成描述报文)；再针对该描述报文进行人工初审以及人工复审。

基于同样的思路，本说明书实施例还提供了对应的装置，如图7、图8所示。

图7为本说明书实施例提供的对应于图2的一种风险特征筛选装置的结构示意图，包括：

获取模块701，获取多个风险特征分别的特征权重，所述特征权重根据利用样本事件训练得到的分类模型得到或者预定义得到，所述分类模型用于判定风险事件；

筛选模块702，根据所述特征权重和预定条件，筛选出至少部分风险特征，所述预定条件用于约束根据风险特征所生成报文的长度。

可选地，所述装置还包括权重确定模块703；

所述权重确定模块703根据利用样本事件训练得到的分类模型得到所述特征权重，具体包括：

所述权重确定模块703利用样本事件训练得到分类模型；

分别针对所述多个风险特征执行：

获取所述样本事件中对应于该风险特征的数据；

根据所述对应于该风险特征的数据，计算该风险特征对应于所述分类

模型的分类准确性度量指标；

根据该分类准确性度量指标，得到该风险特征的特征权重。

可选地，所述多个风险特征分别有对应的子报文字数；所述筛选模块702根据所述特征权重和预定条件，筛选出至少部分风险特征，具体包括：

所述筛选模块702根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序；

根据所述第一排序结果、所述子报文字数，以及预定条件，筛选出至少部分风险特征。

可选地，所述筛选模块702根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序，具体包括：

所述筛选模块702确定所述多个风险特征按照所述特征权重大小，进行第二排序得到的第二排序结果；

根据所述第二排序结果，选取所述多个风险特征中的至少部分风险特征；

根据所述特征权重及对应的所述子报文字数，对所述选取的风险特征进行第一排序。

所述筛选模块702根据所述风险特征对应的所述特征权重和所述子报文字数，计算所述风险特征对应的单位字数权重；

按照所述单位字数权重，对所述多个风险特征进行第一排序。

可选地，所述筛选模块702根据所述第一排序结果、所述子报文字数，以及预定条件，筛选出至少部分风险特征，具体包括：

所述筛选模块702根据所述第一排序结果，针对所述第一排序结果包含的各风险特征，按照单位字数权重从大到小的顺序，进行遍历，针对当前风险特征执行：

可选地，所述筛选模块702遍历至下一个风险特征，具体包括：

所述筛选模块702确定所述设定集合对应于所述分类模型的分类准确性度量指标；

可选地，所述分类准确性度量指标包括受试者工作特征曲线线下面积AUC。

可选地，所述装置还包括：

报文生成模块704，获取待描述事件；

分别针对筛选出至少部分风险特征，生成对应于所述待描述事件的子报文，

根据各所述子报文，为所述待描述事件生成描述报文。

可选地，所述待描述事件被所述分类模型判定为风险事件，所述风险事件为疑似洗钱交易。

图8为本说明书实施例提供的对应于图3的一种描述报文生成装置的结构示意图，包括：

获取模块801，获取待描述事件；

确定模块802，确定筛选出的各风险特征；

生成模块803，根据所述筛选出的各风险特征，为所述待描述事件生成描述报文；

基于同样的思路，本说明书实施例还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

基于同样的思路，本说明书实施例还提供了另一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待描述事件；

确定筛选出的各风险特征；

基于同样的思路，本说明书实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

基于同样的思路，本说明书实施例还提供了另一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取待描述事件；

确定筛选出的各风险特征；

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、电子设备、非易失性计算机存储介质与方法是对应的，因此，装置、电子设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、电子设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种风险特征筛选方法，包括：

2.如权利要求1所述的方法，根据利用样本事件训练得到的分类模型得到所述特征权重，具体包括：

利用样本事件训练得到分类模型；

分别针对所述多个风险特征执行：

获取所述样本事件中对应于该风险特征的数据；

根据所述对应于该风险特征的数据，计算该风险特征对应于所述分类模型的分类准确性度量指标；

根据该分类准确性度量指标，得到该风险特征的特征权重。

3.如权利要求1所述的方法，所述多个风险特征分别有对应的子报文字数；所述根据所述特征权重和预定条件，筛选出至少部分风险特征，具体包括：

根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序；

4.如权利要求3所述的方法，所述根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序，具体包括：

确定所述多个风险特征按照所述特征权重大小，进行第二排序得到的第二排序结果；

5.如权利要求3所述的方法，所述根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序，具体包括：

根据所述风险特征对应的所述特征权重和所述子报文字数，计算所述风险特征对应的单位字数权重；

6.如权利要求3所述的方法，所述根据所述第一排序结果、所述子报文字数，以及预定条件，筛选出至少部分风险特征，具体包括：

7.如权利要求6所述的方法，所述遍历至下一个风险特征，具体包括：

8.如权利要求2或7所述的方法，所述分类准确性度量指标包括受试者工作特征曲线线下面积AUC。

9.如权利要求1～7任一项所述的方法，所述方法还包括：

获取待描述事件；

根据各所述子报文，为所述待描述事件生成描述报文。

10.如权利要求9所述的方法，所述待描述事件被所述分类模型判定为风险事件，所述风险事件为疑似洗钱交易。

11.一种描述报文生成方法，包括：

获取待描述事件；

确定筛选出的各风险特征；

12.一种风险特征筛选装置，包括：

13.如权利要求12所述的装置，所述装置还包括权重确定模块；

所述权重确定模块根据利用样本事件训练得到的分类模型得到所述特征权重，具体包括：

所述权重确定模块利用样本事件训练得到分类模型；

分别针对所述多个风险特征执行：

获取所述样本事件中对应于该风险特征的数据；

根据该分类准确性度量指标，得到该风险特征的特征权重。

14.如权利要求12所述的装置，所述多个风险特征分别有对应的子报文字数；所述筛选模块根据所述特征权重和预定条件，筛选出至少部分风险特征，具体包括：

所述筛选模块根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序；

15.如权利要求14所述的装置，所述筛选模块根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序，具体包括：

所述筛选模块确定所述多个风险特征按照所述特征权重大小，进行第二排序得到的第二排序结果；

16.如权利要求14所述的装置，所述筛选模块根据所述特征权重及对应的所述子报文字数，对所述多个风险特征进行第一排序，具体包括：

所述筛选模块根据所述风险特征对应的所述特征权重和所述子报文字数，计算所述风险特征对应的单位字数权重；

17.如权利要求14所述的装置，所述筛选模块根据所述第一排序结果、所述子报文字数，以及预定条件，筛选出至少部分风险特征，具体包括：

所述筛选模块根据所述第一排序结果，针对所述第一排序结果包含的各风险特征，按照单位字数权重从大到小的顺序，进行遍历，针对当前风险特征执行：

18.如权利要求17所述的装置，所述筛选模块遍历至下一个风险特征，具体包括：

所述筛选模块确定所述设定集合对应于所述分类模型的分类准确性度量指标；

19.如权利要求13或18所述的装置，所述分类准确性度量指标包括受试者工作特征曲线线下面积AUC。

20.如权利要求12～18任一项所述的装置，所述装置还包括：

报文生成模块，获取待描述事件；

根据各所述子报文，为所述待描述事件生成描述报文。

21.如权利要求20所述的装置，所述待描述事件被所述分类模型判定为风险事件，所述风险事件为疑似洗钱交易。

22.一种描述报文生成装置，包括：

获取模块，获取待描述事件；

确定模块，确定筛选出的各风险特征；

23.一种风险特征筛选电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

24.一种描述报文生成电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待描述事件；

确定筛选出的各风险特征；