具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
相关技术中,在对电子支付业务的合法性进行校验时,可以提取电子支付业务的业务数据,比如:付款方用户的信息、收款方用户的信息等,然后可以判断所述业务数据是否命中黑名单,以确认电子支付业务的合法性。以提取电子支付业务的付款用户名为例,在判断付款用户是否命中黑名单时,通常将姓名作为一个整体,采用文本相似度算法计算付款用户名和黑名单中各用户名的相似度,当该相似度大于预设阈值时,可以确定付款用户命中黑名单。然而,目前的相似度算法仅关注字符本身的差异,无法顾及到姓名等业务数据的自身结构信息,可能会将非法的电子支付业务误判为合法等,导致合法性的判断结果的准确度较低。
针对上述问题,本申请提供一种电子支付业务合法性的校验方法,请参考图1,所述校验方法可以应用在服务提供商部署的服务器或者服务器集群中,包括有以下步骤:
步骤101,获取电子支付业务的历史校验数据,所述历史校验数据包括历史业务数据、与所述历史业务数据对应的基准业务数据以及所述历史业务数据的校验结果。
步骤102,对所述历史业务数据和所述基准业务数据进行词对齐操作。
步骤103,根据词对齐结果对所述历史校验数据进行特征值提取,得到所述历史校验数据的特征矩阵。
步骤104,根据所述特征矩阵和所述校验结果训练校验模型。
步骤105,在接收到电子支付请求时,根据所述电子支付请求的真实业务数据和所述校验模型校验所述电子支付请求的合法性。
由以上描述可以看出,本申请可以对业务数据进行词对齐操作,并可以根据词对齐结果提取历史校验数据的特征矩阵以进行校验模型的训练。在校验模型训练的整个过程中,通过词对齐操作实现对业务数据结构的考量,提高校验模型的灵活性和准确度,从而提高电子业务合法性校验的准确度。
下面结合校验模型的训练、电子支付业务合法性的校验两个方面来介绍本申请的具体实现过程。
一、校验模型的训练
图2是本申请一示例性实施例示出的一种校验模型训练方法的流程示意图。
请参考图2,所述校验模型训练方法可以包括以下步骤:
步骤201,获取电子支付业务的历史校验数据,所述历史校验数据包括历史业务数据、与所述历史业务数据对应的基准业务数据以及所述历史业务数据的校验结果。
在本实施例中,所述电子支付业务可以为转账、购买理财产品等业务。所述电子支付业务的合法性包括:电子支付业务是否涉嫌洗钱,电子支付业务是否涉嫌欺诈等。所述历史校验数据为历史上对所述电子支付业务的合法性进行校验时所采用的数据以及校验结果,其中,所采用的数据通常可包括历史电子支付业务的真实业务数据、进行校验时的基准业务数据等,所述基准业务数据可为黑名单等。
在本实施例中,后续以所述电子支付业务的合法性为电子支付业务是否涉嫌洗钱为例进行介绍。在本步骤中,所述历史校验数据中的历史业务数据可以为历史电子支付业务的付款方用户名、与所述历史业务数据对应的基准业务数据可以为涉嫌洗钱的黑名单中与所述付款方用户名进行比对的人名、所述历史业务数据的校验结果为匹配(对应电子支付业务涉嫌洗钱)或不匹配(对应电子支付业务不涉嫌洗钱)。当然,在实际应用中,所述历史业务数据也可以是历史电子支付业务的收款方用户名,除用户名之外,也可以采用地址等其他数据作为所述历史业务数据,本申请对此不作特殊限制。
值得注意的是,本申请实施例中描述的用户名通常为业务对象在执行电子支付业务时留的名字,可以是真实姓名,也可以是假冒的名字。举例来说,以线上购物业务为例,所述历史业务数据可以为收货人的姓名;以申请信用卡业务为例,所述历史业务数据可以为申请人的姓名等。
表1
请参考表1,表1示例性的示出了两条历史校验数据。需要说明的是,表1仅为示例性的说明,在实际应用中也可以不组织这样的表格。
步骤202,对所述历史业务数据和所述基准业务数据进行词对齐操作。
基于前述步骤201,在获取到历史校验数据后,针对每条历史校验数据,可以对该历史校验数据中的历史业务数据和基准业务数据进行词对齐操作,即对电子支付业务付款方用户名(后续简称为付款方用户名)和黑名单中的人名(后续简称为洗钱人名)进行词对齐操作。
在本实施例中,在进行词对齐操作时,可以先对付款方用户名和洗钱人名进行分词操作,然后可根据编辑距离算法对付款方用户名和洗钱人名进行词对齐操作。以英文名为例,一个完整的英文名通常包括三个部分:first name、middle name以及last name,因此可以根据英文名的空格、逗号对英文名进行分词操作。当然,如果英文名中不包括空格或逗号时,也可以基于常用的词库采用其他的分词方案进行分词,本申请对此不作特殊限制。
|
first name |
middle name |
last name |
Sadam Hussein Tikriti |
Sadam |
Hussein |
Tikriti |
Saddam Hussein Al Tikriti |
Saddam |
Hussein |
Al Tikriti |
表2
在本实施例中,以表1中第一条历史校验数据为例,分词的结果可以参考表2。基于该分词结果,可以根据编辑距离(Edit Distance)算法对付款方用户名和洗钱人名进行词对齐操作。具体地,编辑距离算法可用于计算将一个字符串转换为另一个字符串所需的最少编辑操作次数。可以理解的是,两个字符串之间的编辑距离越小,说明这两个字符串之间的相似度越高。在本例中,可以基于编辑距离算法计算付款方用户名中任一个词与洗钱人名中任一个词的编辑距离,可以将编辑距离最小的两个词对齐。换言之,可以将编辑距离最小的两个词划分为一组。仍以表2为例,可以参考表3所示的对齐结果。
Sadam Hussein Tikriti |
Sadam |
Hussein |
|
Tikriti |
Saddam Hussein Al Tikriti |
Saddam |
Hussein |
Al |
Tikriti |
表3
当然,在实际应用中,也可以采取其他的文本相似度算法进行词对齐操作,比如:Q-Gram算法等,本申请对此不作特殊限制。
步骤203,根据词对齐结果对所述历史校验数据进行特征值提取,得到所述历史校验数据的特征矩阵。
步骤204,根据所述特征矩阵和所述校验结果训练校验模型。
在本实施例中,可以根据预设的特征对所述历史校验数据进行特征值提取,所述预设的特征可以由开发人员进行设置,通常可以包括全局特征和局部特征。在提取到所述历史校验数据的特征矩阵后,可以基于对应的模型进行训练,进而得到校验模型。
下面分别介绍基于全局特征矩阵和局部特征矩阵进行校验模型训练的流程。
请参考图3,基于全局特征矩阵进行校验模型训练可以包括以下步骤:
步骤301,根据词对齐结果和预设的全局特征对所述历史校验数据进行全局特征值提取,得到所述历史校验数据的全局特征矩阵,所述全局特征矩阵为一维矩阵,所述全局特征矩阵的任一元素为对应全局特征的取值。
在本实施例中,所述全局特征可以由开发人员进行设置。在一个例子中,所述预设的全局特征可以包括:所述历史业务数据的词数、所述基准业务数据的词数、所述历史业务数据的词数和所述基准业务数据的词数比例、对齐词数、对齐词数比例等。
全局特征 |
全局特征值 |
历史业务数据的词数 |
3 |
基准业务数据的词数 |
4 |
历史业务数据的词数和基准业务数据的词数比例 |
3/4 |
对齐词数 |
3 |
对齐词数比例 |
3/4 |
表4
基于表3的示例,在本步骤中可以提取到表4所示的全局特征值,所述全局特征值可以组成一维全局特征矩阵M,M={3,4,3/4,3,3/4},该矩阵的任一元素为对应全局特征的取值。
步骤302,将所述全局特征矩阵和历史业务数据的校验结果输入分类模型进行训练,得到校验模型。
基于前述步骤301,在生成历史校验数据的全局特征矩阵后,可以将所述全局特征矩阵和对应的校验结果输入分类模型进行训练。仍以表4为例,可以将全局特征矩阵M和校验结果(匹配)输入分类模型进行训练,从而得到校验模型。其中,所述分类模型可以为SVM(Support Vector Machine,支持向量机)模型、LR(Logistic Regression,Logistic回归)模型等有监督的学习模型。
需要说明的是,针对校验结果,在输入分类模型时,可以输入对应的量化数值,比如:可以输入字符1用来表示匹配,输入字符0用来表示不匹配等。
请参考图4,基于局部特征矩阵进行校验模型训练可以包括以下步骤:
步骤401,根据预设的局部特征分别对所述历史校验数据的每组对齐的词进行局部特征值提取,得到所述历史校验数据的局部特征矩阵,所述局部特征矩阵的每一行元素表示对齐的一组词的各个局部特征的取值,每一列元素表示各组对齐的词在对应局部特征上的取值。
在本实施例中,所述局部特征也可以由开发人员进行设置。在一个例子中,所述局部特征可以包括:对齐的一组词中属于历史业务数据的词的长度、属于基准业务数据的词的长度、词长比例、对齐的一组词之间的最短编辑距离等。
局部特征 |
局部特征值 |
属于历史业务数据的词的长度 |
5 |
属于基准业务数据的词的长度 |
6 |
词长比例 |
5/6 |
最短编辑距离 |
1 |
表5
以表3中对齐的词“Sadam”与“Saddam”为例,在本步骤中可以提取到表5所示的局部特征值。针对每一组对齐的词进行上述局部特征值的提取,可以得到所述历史校验数据的局部特征矩阵,所述局部特征矩阵的行表示对齐的一组词,列表示局部特征,所述局部特征矩阵的任一元素为对应对齐的一组词所对应的局部特征的取值。
仍以表3为例,在本步骤中,可以得到局部特征矩阵N。其中,局部特征矩阵N的第一行为对齐的词“Sadam”与“Saddam”的各局部特征值(可以参考表5),局部特征矩阵N的第二行为对齐的词“Hussein”与“Hussein”的各局部特征值,局部特征矩阵N的第三行为对齐的词“”(空)与“Al”的各局部特征值,局部特征矩阵N的第四行为对齐的词“Tikriti”与“Tikriti”的各局部特征值。
步骤402,将所述局部特征矩阵和所述历史业务数据的校验结果输入序列模型进行训练,得到校验模型。
基于前述步骤301,在生成历史校验数据的局部特征矩阵后,可以将所述局部特征矩阵和对应的校验结果输入序列模型进行训练,比如:可以将局部特征矩阵N和校验结果(匹配)输入序列模型进行训练,从而得到校验模型。其中,所述序列模型可以为CRF(Conditional Random Field,条件随机场)模型、RNN(Recurrent neural Network、循环神经网络)模型等。
在实际应用中,开发人员可以根据业务需要采用图3或者图4所示的实施例进行校验模型的训练。在另一例子中,还可以将图3和图4训练得到的两个校验模型进行结合以得到最终的校验模型,本申请对此不作特殊限制。
二、电子支付业务合法性的校验
在本实施例中,在接收到电子支付请求时,可以根据所述电子支付请求的真实业务数据和训练出的校验模型校验所述电子支付请求的合法性。比如:在接收到转账、购买理财产品等电子支付业务的请求时,可以提取付款方用户名和/或收款方用户名,并将所述付款方用户名和/或收款方用户名输入所述校验模型以确定本次电子支付业务是否涉嫌洗钱。
在实际应用中,有些不法分子在通过电子支付业务进行洗钱时,故意将名字的顺序打扰,比如:调换first name和middle name,采用相关技术中的相似度算法,无法识别该洗钱行为。而采用基于词对齐操作后的历史校验数据训练得到校验模型对上述电子支付业务进行校验,可以有效识别出洗钱嫌疑,进而提高洗钱嫌疑校验的准确率。
与前述电子支付业务合法性的校验方法的实施例相对应,本申请还提供了电子支付业务合法性的校验装置的实施例。
本申请电子支付业务合法性的校验装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本申请电子支付业务合法性的校验装置所在服务器的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图6是本申请一示例性实施例示出的一种电子支付业务合法性的校验装置的框图。
请参考图6,所述电子支付业务合法性的校验装置500可以应用在前述图5所示的服务器上,包括有:数据获取单元501、词对齐单元502、特征提取单元503、模型训练单元504以及业务校验单元505。
其中,数据获取单元501,获取电子支付业务的历史校验数据,所述历史校验数据包括历史业务数据、与所述历史业务数据对应的基准业务数据以及所述历史业务数据的校验结果;
词对齐单元502,对所述历史业务数据和所述基准业务数据进行词对齐操作;
特征提取单元503,根据词对齐结果对所述历史校验数据进行特征值提取,得到所述历史校验数据的特征矩阵;
模型训练单元504,根据所述特征矩阵和所述校验结果训练校验模型;
业务校验单元505,在接收到电子支付请求时,根据所述电子支付请求的真实业务数据和所述校验模型校验所述电子支付请求的合法性。
可选的,所述词对齐单元502,对所述历史业务数据和其对应的基准业务数据进行分词操作,并根据编辑距离算法对所述历史业务数据和其对应的基准业务数据进行词对齐操作。
可选的,所述特征提取单元503,具体根据词对齐结果和预设的全局特征对所述历史校验数据进行全局特征值提取,得到所述历史校验数据的全局特征矩阵,所述全局特征矩阵为一维矩阵,所述全局特征矩阵的任一元素为对应全局特征的取值。
可选的,所述预设的全局特征包括:所述历史业务数据的词数、所述基准业务数据的词数、所述历史业务数据的词数和所述基准业务数据的词数比例、对齐词数、对齐词数比例。
可选的,所述模型训练单元504,具体将所述全局特征矩阵和所述历史业务数据的校验结果输入分类模型进行训练,得到校验模型。
可选的,所述特征提取单元503,具体根据预设的局部特征分别对所述历史校验数据的每组对齐的词进行局部特征值提取,得到所述历史校验数据的局部特征矩阵,所述局部特征矩阵的每一行元素表示对齐的一组词的各个局部特征的取值,每一列元素表示各组对齐的词在对应局部特征上的取值。
可选的,所述预设的局部特征包括:对齐的一组词中属于历史业务数据的词的长度、属于基准业务数据的词的长度、词长比例、对齐的一组词之间的最短编辑距离。
可选的,所述模型训练单元504,具体将所述局部特征矩阵和所述历史业务数据的校验结果输入序列模型进行训练,得到校验模型。
可选的,所述电子支付业务合法性为电子支付业务是否涉嫌洗钱;
所述历史业务数据为电子支付业务的付款方用户名和/或收款方用户名,所述基准业务数据为洗钱黑名单用户,所述校验结果为涉嫌洗钱或不涉嫌洗钱。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。