CN110213239A - 可疑交易报文生成方法、装置及服务器 - Google Patents

可疑交易报文生成方法、装置及服务器 Download PDF

Info

Publication number
CN110213239A
CN110213239A CN201910381142.XA CN201910381142A CN110213239A CN 110213239 A CN110213239 A CN 110213239A CN 201910381142 A CN201910381142 A CN 201910381142A CN 110213239 A CN110213239 A CN 110213239A
Authority
CN
China
Prior art keywords
feature
coding
sample
client
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910381142.XA
Other languages
English (en)
Other versions
CN110213239B (zh
Inventor
潘健民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910381142.XA priority Critical patent/CN110213239B/zh
Publication of CN110213239A publication Critical patent/CN110213239A/zh
Application granted granted Critical
Publication of CN110213239B publication Critical patent/CN110213239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/06Notations for structuring of protocol data, e.g. abstract syntax notation one [ASN.1]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Development Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本说明书实施例提供一种可疑交易报文生成方法、装置及服务器,包括:对特征明细中各维客户特征进行编码,形成特征明细对应的特征编码序列;将特征编码序列输入可疑交易报文生成模型,基于可疑交易报文生成模型产出包含特征编码序列的编码形式报文;通过将特征明细的特征值回填至编码形式报文中对应的编码位置,生成针对目标客户的可疑交易报文,从而避免了报文拼接带来的报文衔接,报文顺序以及报文筛选中大量规则维护,降低了生成可疑交易报文的复杂度,进而更省时高效。

Description

可疑交易报文生成方法、装置及服务器
技术领域
本说明书实施例涉及计算机技术领域,尤其涉及一种可疑交易报文生成方法、装置及服务器。
背景技术
反洗钱审理人员在审理某个可疑交易任务时,会根据这个任务对应客户的各种特征进行综合判断,如果确认存在某些合理理由,就需要撰写一段报文,描述该客户存在的可疑行为特征,最后将这段报文上报给国家金融情报中心。目前,可疑行为描述编码信息需要审理人员手工写,整个过程耗时耗力且容易发生漏写,错写,需要自动生成可以交易报文来上报给国家金融情报中心。
发明内容
本说明书实施例提供一种可疑交易报文生成方法、装置及服务器。
第一方面,本说明书实施例提供一种可疑交易报文生成方法,包括:获取目标客户的特征明细,所述特征明细中包含多维携带有特征值的客户特征,所述多维携带有特征值的客户特征中包含所述目标客户的交易行为特征;对所述特征明细中各维客户特征进行编码,形成所述特征明细对应的特征编码序列;将所述特征编码序列输入可疑交易报文生成模型,基于所述可疑交易报文生成模型产出包含所述特征编码序列的编码形式报文;将所述特征明细中各维客户特征的特征值回填至所述编码形式报文中对应的编码位置,针对所述目标客户生成包含所述交易行为特征的可疑交易报文。
第二方面,本说明书实施例提供一种可疑交易报文生成装置,包括:特征获取单元,用于获取目标客户的特征明细,所述特征明细中包含多维携带有特征值的客户特征,所述多维携带有特征值的客户特征中包含所述目标客户的交易行为特征;特征预处理单元,用于对所述特征明细中各维客户特征进行编码,形成所述特征明细对应的特征编码序列;报文生成单元,用于将所述特征编码序列输入可疑交易报文生成模型,基于所述可疑交易报文生成模型产出包含所述特征编码序列的编码形式报文;特征值回填单元,用于将所述特征明细中各维客户特征的特征值回填至所述编码形式报文中对应的编码位置,针对所述目标客户生成包含所述交易行为特征的可疑交易报文。
第三方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行上述任一项所述方法的步骤。
第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
本说明书实施例有益效果如下:
本说明书实施例提供的可疑交易报文生成方法,将包含目标客户的多维携带有特征值的客户特征的特征明细处理为特征编码序列,将特征编码序列输入至可疑交易报文生成模型,由可疑交易报文生成模型产出包含特征编码序列的编码形式报文;再将各维客户特征的特征值回填至编码形式报文中对应的编码位置,形成针对目标客户的可疑交易报文。从而,即使目标客户存在多个客户特征也能一次性形成可疑交易报文,避免了一个特征生成一段报文的方式下需要进行的多个报文的拼接,进而避免了报文拼接带来的报文衔接、报文顺序以及报文筛选中大量规则维护,降低了生成可疑交易报文的复杂度,进而更省时高效。
附图说明
图1为本说明书实施例中可疑交易报文生成方法的应用场景示意图;
图2为本说明书实施例第一方面提供的可疑交易报文生成方法的流程图;
图3为本说明书实施例第一方面提供的可疑交易报文生成模型的训练过程示意图;
图4为本说明书实施例第一方面提供的可疑交易报文生成方法中所用的目标神经网络模型的示意图;
图5为本说明书实施例第二方面提供的可疑交易报文生成装置的结构示意图;
图6为本说明书实施例第三方面提供的用于生成可疑交易报文的服务器结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
请参见图1,为本说明书实施例的可疑交易报文生成方法的场景示意图。线上交易平台100。比如,第三方支付平台、网购平台。可疑交易报文生成系统101,用于基于客户的特征明细生成可疑交易报文。可疑交易报文生成系统101可以在线上交易平台100上,也可以是在与线上交易平台100不同的其他服务器上,可疑交易报文生成系统101从线上交易平台100上收集用户的特征明细。可疑交易报文生成系统101将生成的可疑交易报文上报至目标服务器200,由目标服务器200中的可疑交易审理系统,基于接收到的可疑交易报文判断客户是否存在可疑交易行为,或者上报至金融情报中心数据库进行保存,公后续对该客户是否存在可疑交易的判断。
第一方面,本说明书实施例提供一种可疑交易报文生成方法,请参考图2,包括步骤S201-S203。
S201:获取目标客户的特征明细,特征明细中包含多维携带有特征值的客户特征,多维携带有特征值的客户特征中包含目标客户的交易行为特征。
具体的,目标客户的特征明细包含多维客户特征,具体的,包括客户类别特征和交易行为特征,各维客户特征分别携带有特征值。其中,客户类别特征包括性别特征。当然,在具体实施过程中,还可以包括其他的客户类别特征,比如:客户地域、客户职业中的一种或者多种。
在具体实施过程中,可以在预设历史时间段内收集目标客户的交易行为特征,具体可以从线上交易平台收集,其中,交易行为特征包括:交易附言、预设历史时长内的交易金额等等这些类型。而根据这些交易行为特征中的交易金额不同、附言内容不同,确定是否为交易行为特征。
具体的,以预设额度为界,预设历史时长内的交易金额超过预设额度,则是可疑交易行为,否则,不是可疑交易行为。比如:预设额度为100万,则“客户最近90天流入金额:500万”为可疑交易行为特征。“客户最近90天流入金额:2万”则不是可疑交易行为特征。
具体的,预设历史时长内的交易金额,可以是如下任一种:预设历史时长内的流入金额、预设历史时长内的流出金额、预设历史时长内的流入流出金额的总和。
交易附言包含非法交易黑词如“上分”、“下分”,则是可疑交易行为特征。交易附言不包含任何非法交易黑词,则不是可疑交易行为特征。
在具体实施过程中,特征明细中的各个客户特征以键值对表示,并且,对特征明细中的各个特征进行顺序编号。比如,总共有M个特征,则:特征顺序号从第1号到第M号。
以目标客户的特征明细包括:客户性别、最近90天流入金额、交易附言这三种客户特征为例,则以键值对表示目标客户的特征明细进行举例如下:客户性别:女,客户最近90天流入金额:2万,交易附言包含非法交易黑词:“上分”、“下分”。则各个客户特征的特征顺序号举例如下:“客户性别:女”为第1号特征,“客户最近90天流入金额:2万”为第2号特征,“交易附言包含非法交易黑词:‘上分’、‘下分’”为第3号特征。
S202:对特征明细中各维客户特征进行编码,形成特征明细对应的特征编码序列。
在具体实施过程中,对特征明细的预处理具体为:通过对特征明细中的每个客户类别特征和交易行为特征做编码处理,形成特征编码序列。具体来讲,在一可选的实施方式中,具体通过如下过程形成特征编码序列:
步骤1、从特征明细的各维客户特征中区分类别型特征和数值型特征。
在本说明书实施例中,类别型特征有:客户性别、交易附言。同一类别型特征的特征值为有限个。具体而言,同一类别型特征的特征值为两种或者两种以上特征值。举例来讲,对于客户性别,客户性别的特征值有两种:男性属于一种,特征值可以设为1;女性属于另一种,特征值可以设为2。交易附言这一客户特征也可以是类别型特征,交易附言包含非法交易黑词是一类,特征值设为1,交易附言没包含非法交易黑词是另一类,特征值设为2。
在本说明书实施例中,数值型特征有:预设历史时长内的流入金额,数值型特征包含数值内容。比如,最近90天的流入金额:500万元,包含数值“500”。
步骤2、对特征明细中的类别型特征进行直接编码。
具体而言,可以基于类别型特征的特征顺序号和特征值进行直接编码,形成同时包含特征顺序号和特征值的特征编码。
举例而言,对于客户性别这一客户特征,特征顺序号是第1号,客户性别的特征值有两类:男性属于一类,特征值设为1;女性属于另一类,特征值设为2。若目标客户为男性客户,则对客户性别这一特征进行直接编码为:FEATURE_1_1,FEATURE_1_1中的第一个1是指特征顺序号,第二个1是指特征值。
举例而言,对于交易附言这一客户特征,特征顺序号是第3号,特征值有两类:交易附言包含非法交易黑词是一类,特征值设为1,交易附言没包含非法交易黑词是另一类,特征值设为2。若目标客户的交易附言中涉及了“上分”、“下分”等关键词,则对客户性别这一特征进行直接编码为:FEATURE_3_1,FEATURE3_1中的3是指特征顺序号,1是指特征值。
步骤3、将特征明细中的数值型特征作离散化处理之后的离散化结果进行编码。
对数值型特征的离散化处理,具体过程为:
从预设的有限个数值区间中,确定数值型特征中的数值内容的所属数值区间,每个数值区间对应设置有类别编号。将所属数值区间对应的类别编号作为该数值型特征的离散化处理结果。
例如,客户最近90天流入金额这一特征,划分有小于等于100万,100万到1000万,1000万以上这三个数值区间,小于等于100万这一数值区间内特征值的类别编号为1号,100万到1000万这一数值区间内特征值的类别编号为2号,1000万以上这一数值区间内特征值的类别编号为3号。基于此举例前提下,如果一个客户最近90天流入金额是500万,特征顺序号是2号,那么这个客户的特征编码是FEATURE_2_2,第一个2是指特征顺序号,第二个2是特征值的类别编号。
步骤2、3可以独立执行,在本说明书实施例中不具体限制步骤2、3的执行顺序。
在步骤2、3之后,执行步骤4:基于直接编码的编码结果和对离散化结果的编码结果共同形成特征编码序列。
具体而言,在步骤4中,基于特征明细中全部特征的编码结果按照顺序排列形成特征编码序列。
进一步的,在对目标客户的特征明细中每个客户特征进行预处理后,生成各个客户特征的特征顺序号与特征值的对应表,供后续特征值回填时使用。在具体实施过程中,对应表中保存有是每个客户特征的特征顺序号与特征值之间的一一对应关系。例如男性客户表示为FEATURE_1 1,这里的FEATURE_1是特征顺序号,1是特征值,客户90天流入金额500万表示为FEATURE_2 500,这里的FEATURE_3是特征顺序号,500是特征值。
S203:将特征编码序列输入可疑交易报文生成模型,基于可疑交易报文生成模型产出包含特征编码序列的编码形式报文。
在说明书实施例中,参考图3所示,可疑交易报文生成模型通过如下步骤训练得到:
步骤S301:获取多个客户特征样本以及与客户特征样本一一对应的多个客户报文样本,其中,每个客户特征样本中包含多维客户特征,多维客户特征中包括可疑交易行为特征,与该客户特征样本对应的客户报文样本的报文内容中包含该客户特征样本的各维客户特征。
在具体实施过程中,每个客户特征样本中的各维客户特征进行顺序编号。比如,某个客户特征样本总共有N个客户特征,则:客户特征的顺序号从第1号到第N号。以客户特征样本中包括:“客户性别:男、最近90天流入金额:100万、交易附言包含非法交易黑词:‘上分’、‘下分’”为例,特征顺序号举例如下:“客户性别:男”为第1号特征,“客户最近90天流入金额:500万”为第2号特征,“交易附言包含非法交易黑词:‘上分’、‘下分’”为第3号特征。
具体的,以键值对表示同一客户特征样本的各维客户特征。具体的,每个客户特征样本中至少包括可疑交易行为特征,也可以包括其他客户特征,比如,包括客户类别特征、不可疑交易行为特征。其中,客户类别特征可以有性别特征、客户地域、客户职业中的一种或者多种。可疑交易行为特征表征该客户特征样本对应的客户存在可疑交易行为。
可疑交易行为特征包括:交易附言包含非法交易黑词、预设历史时长内的交易金额超过预设额度。同一客户特征样本中存在交易附言包含非法交易黑词、预设历史时长内的交易金额超过预设额度这两个可疑交易行为特征中的一个或者两个同时有。交易金额可以是如下任一种:流入金额、流出金额、流入流出金额的总和。
在步骤S301之后,接着执行步骤S302:对每个客户特征样本中各维客户特征进行编码,形成与该客户特征样本对应的特征编码序列样本,以及预处理对应的客户报文样本为真实词向量。
具体而言,用于训练可疑交易报文生成模型的每个客户特征样本,分别通过如下方式形成与该客户特征样本对应的特征编码序列样本:
从客户特征样本的各维客户特征中区分类别型特征和数值型特征;对客户特征样本中的类别型特征进行直接编码,将客户特征样本中数值型特征作离散化处理之后的对离散化结果进行编码;基于直接编码结果和对离散化结果的编码结果共同形成对该客户特征样本的特征编码序列样本。需要说明的是,对客户特征样本中的类别型特征、数值型特征的编码过程均与前文对特征明细中特征的编码过程相同或相似,因此,为了说明书的简洁,在此不再赘述。
在本说明书实施例中,客户报文样本可以是收集的审理人员人工写的历史报文。例如客户报文样本如下:“客户张xx,性别男性,最近90天流入金额500万,数额较大,且交易附言包含“上分”,“下分”等关键词,据此该客户可能存在赌博嫌疑”。
在本说明书实施例中,通过如下方式预处理每个客户报文样本为对应的真实词向量:
步骤3021、通过将客户报文样本中的非共性文本变更为对应的编码文本,客户报文样本中的共性文本保持不变,从而生成与客户报文样本对应的编码式报文样本。在本说明书实施例中,非共性文本是体现每个客户报文样本不同的独特性内容。共性文本为各个客户报文样本中相同的文本内容。
具体而言,非共性文本包括如下:客户的姓名,如:“张小明”、“李晓光”等等;客户性别,如:“男性”、“女性”、“男”、“女”、“女士”、“男士”;流入金额的具体数值,如:“2万”、“200万”、“10000¥”、“30000$”等等。交易附言的具体内容,如:“上分”、“下分”等等;审核结果的具体内容,如“赌博”、“洗钱”、“赌球”等等。
在具体实施过程中,通过人工标注或者正则表达式信息抽取等方式,将客户报文样本中的非共性文本变更为对应的编码文本。具体的,编码文本为对应客户特征的顺序号编码。以“客户张xx,性别男性,最近90天流入金额500万,数额较大,且交易附言包含‘上分’,‘下分’等关键词,据此该客户可能存在赌博嫌疑”这一客户报文样本为例,通过将其中的非共性文本经过变更处理,转化成编码式报文样本为:“客户FEATURE_10,性别FEATURE_1,最近90天流入金额FEATURE_2,数额较大,且交易附言包含FEATURE_3等关键词,据此该客户可能存在FEATURE_11嫌疑”。
步骤3022、对编码式报文样本进行分词处理后,再对基于分词处理得到的每个词处理为真实词向量。
在具体实施过程中,可以通过开源软件包(例如jieba)分词模块对编码式报文样本进行分词处理。通过Wordvec算法计算每个词的真实词向量。
步骤S303:基于特征编码序列样本和对应的真实词向量对目标神经网络模型进行训练,训练出可疑交易报文生成模型。
在一可选的实施方式中,目标神经网络模型可以是attention(注意力)模型与基于GRU的seq2seq模型进行结合的结合模型。
在本说明书实施例中,attention模型与基于GRU的seq2seq模型进行结合得到的结合模型参考图4所示:包括Encoder(编码)模块和Decoder(解码)模块。其中,编码模块由embedding层(嵌入层)和双向GRU模型构成,embedding层的输入是从k1到km共m个客户特征的one hot向量(单项属性特征向量)。经过一个embedding层,每个客户特征转化为d维的低维向量。然后这m个d维的低维向量导入至对应的双向GRU单元,生成对应的m个编码向量h1…hm。解码模块也是双向GRU模型,解码模块的每一个双向GRU单元的输入除了上一时间步的单元状态(state cell)外,还包含一个表征客户特征中信息的注意力向量。
基于attention(注意力)模型与基于GRU的seq2seq模型进行结合的结合模型,通过其中的attention机制,能够自动选择特征描述的顺序,特征的筛选,以及特征文本描述和特征文本描述之间的衔接。
具体的,注意力向量的具体计算方式如下:假设前一时间步是:解码模块的GRU单元产出的state cell是st-1,对第j个客户特征产出编码向量hj,则按如下方式计算本时间步所需的注意力向量:
βtj=vTtanh(Wst-1+Uhj),j=1…..m
其中,v、W、U是该结合模型需要学习的参数,具体的,W为st-1的权重、U为hj的权重,v为权重矩阵,tanh是所用激活函数,这个zt就是得到的本时间步所需的注意力向量,用来表征目前需要用到的客户特征中的部分信息。第t个输出向量xt是由st-1和zt导入对应的双向GRU单元得到。输出的xt再接一个全连接层,通过全连接层转成一个n维的向量,再接一个softmax层,得到的结果是表征属于某个词的概率。
在另一可选的实施方式中,目标神经网络模型可以是常规的基于GRU(gaterecurrent unit,门循环单元)的seq2seq(Sequence to Sequence)神经网络模型。需要说明的是,基于GRU的seq2seq是一种编码-解码模型。与结合模型不同的是,解码模块的每一个双向GRU单元的输为上一时间步的单元状态(state cell)。
在具体实施过程中,基于前文所述的结合模型训练得到可疑交易报文生成模型的训练过程进行描述:
步骤1、将同一特征编码序列样本中M维编码特征的one hot向量输入至编码模块,通过编码模块生成与M维编码特征对应的M个编码向量,M为特征编码序列样本中的客户特征数量,M为正整数。
具体的,对每个特征编码序列样本中M维编码特征进行One hot向量处理,得到M维编码特征的One hot向量。One hot是单项属性的特征向量,也就是同一时间只有一个激活点(不为0),这个向量只有一个特征是不为0的,其他都是0。One hot向量的长度表示为其中,m是一个特征编码序列样本的客户特征个数,ri是该特征编码序列样本中第i个客户特征可以编码的类型数,其中,分类型特征的特征值个数就是可以编码的类型数,数值型特征的离散处理之后的离散值个数就是可以编码的类型数。以客户性别这一客户特征为例,仅有男性、女性这两种情况对应的两种特征值,则可以编码的类型数为2,对应的ri的值是2。
步骤2、依次针对M个编码向量执行如下步骤,直至产出最后一个编码向量对应的解码向量:基于当前编码向量和上一时间步输出的单元状态(state cell)计算出当前注意力向量,再将当前编码向量和当前注意力向量导入至解码模块的当前GRU单元,从当前GRU单元产出当前编码向量对应的解码向量和当前时间步的单元状态(state cell)。
步骤3、基于各个解码向量产出该特征编码序列样本的预测词向量。
各个解码向量均通过全连接层,每个解码向量分别通过全连接层转成n维向量,再接一个softmax层,输出结果用来表征属于某个词的概率。
步骤3、基于每个特征编码序列样本的预测词向量以及与该特征编码序列样本对应的真实词向量进行训练,直至总交叉熵代价(cross entropy)损失函数的函数值最小时结束训练,以形成可疑交易报文生成模型。
需要说明的是,在说明书实施例中所用的总cross entropy损失函数,是将与该特征编码序列样本对应的客户报文样本中每个词的cross entropy损失函数相加得到的总cross entropy损失函数。
S204:将特征明细中各维客户特征的特征值回填至编码形式报文中对应的编码位置,针对目标客户生成包含交易行为特征的可疑交易报文。
具体来讲,从对应表中查找到每个特征顺序号对应的特征值,将查找到的特征值对应的文本信息回填至编码形式报文中对应的编码位置,用以替换编码形式报文中的特征编码,从而形成用户可读的可疑交易报文。例如,对应表中特征顺序号与特征值的对应关系如下:
FEATURE_10XX;FEATURE_1 1;FEATURE_2 500;FEATURE_3 1;FEATURE_10 XX中的FEATURE_10是特征顺序号,XX是客户姓名。FEATURE_1 1中的FEATURE_1是特征顺序号,第二个1是特征值,客户90天流入金额500万,表示为FEATURE_2 500,这里的FEATURE_2是特征顺序号,500是特征值。
则针对“客户FEATURE_10,性别FEATURE_1,最近90天流入金额FEATURE_2,数额较大,且交易附言包含FEATURE_3黑词,据此该客户可能存在FEATURE_11嫌疑”的编码形式报文,基于对应表中特征顺序号与特征值的对应关系,将特征值回填以形成的可疑交易报文如下:“客户XX,性别男,最近90天流入金额500,数额较大,且交易附言包含非法交易黑词,据此该客户可能存在非法交易嫌疑。”需要说明的是,FEATURE_11的特征值可以根据FEATURE_3 1的特征值确定。
第二方面,基于同一发明构思,本说明书实施例提供一种可疑交易报文生成装置,参考图5所示,该可疑交易报文生成装置包括:
特征获取单元501,用于获取目标客户的特征明细,所述特征明细中包含多维携带有特征值的客户特征,所述多维携带有特征值的客户特征中包含所述目标客户的交易行为特征;
特征预处理单元502,用于对所述特征明细中各维客户特征进行编码,形成所述特征明细对应的特征编码序列;
报文生成单元503,用于将所述特征编码序列输入可疑交易报文生成模型,基于所述可疑交易报文生成模型产出包含所述特征编码序列的编码形式报文;
特征值回填单元504,用于将所述特征明细中各维客户特征的特征值回填至所述编码形式报文中对应的编码位置,针对所述目标客户生成包含所述交易行为特征的可疑交易报文。
在一可选的实现方式中,还包括模型训练单元505,所述模型训练单元505包括:
样本获取子单元5051,用于获取多个客户特征样本以及与所述客户特征样本一一对应的多个客户报文样本,其中,每个所述客户特征样本中包含多维客户特征,所述多维客户特征中包括可疑交易行为特征,与该客户特征样本对应的客户报文样本的报文内容中包含该客户特征样本的各维客户特征;
样本预处理子单元5052,用于对每个客户特征样本中各维客户特征进行编码,形成与该客户特征样本对应的特征编码序列样本,以及预处理对应的客户报文样本为真实词向量;
训练子单元5053,用于基于所述特征编码序列样本和对应的真实词向量对目标神经网络模型进行训练,训练出所述可疑交易报文生成模型。
在一可选的实现方式中,所述训练子单元5053,具体用于:
利用所述特征编码序列样本和对应的真实词向量对基于GRU神经网络的编码-解码模型进行训练,训练出所述可疑交易报文生成模型。
在一可选的实现方式中,所述样本预处理子单元5052,具体用于对每个客户特征样本执行如下处理:
从所述客户特征样本的各维客户特征中区分类别型特征和数值型特征;
对所述客户特征样本中类别型特征进行直接编码,以及将所述客户特征样本中数值型特征作离散化处理的离散化结果进行编码,基于直接编码的编码结果和对离散化结果的编码结果共同形成所述特征编码序列样本。
在一可选的实现方式中,所述样本预处理子单元5052,具体用于:通过如下步骤预处理每个客户报文样本为真实词向量:
通过将所述客户报文样本中的非共性文本变更为对应的编码文本,形成与所述客户报文样本对应的编码式报文样本;
对所述编码式报文样本进行分词处理后,将基于分词处理得到的词处理为真实词向量。
所述目标神经网络模型包括编码模块和解码模块;所述训练子单元5053,具体用于:
将同一特征编码序列样本中M维编码特征的单项属性特征向量输入至所述编码模块,通过所述编码模块生成对应的M个编码向量,M为特征编码序列样本中的客户特征数量,M为正整数;
依次针对所述M个编码向量执行如下步骤,直至产出最后一个编码向量对应的解码向量:基于当前编码向量和上一时间步的单元状态计算出当前注意力向量之后,将所述当前编码向量和所述当前注意力向量导入至所述解码模块的当前GRU单元,从而产出当前编码向量对应的解码向量和当前时间步的单元状态;
基于各个解码向量产出该特征编码序列样本的预测词向量;
基于每个特征编码序列样本的预测词向量以及与该特征编码序列样本对应的真实词向量进行训练,直至总交叉熵代价损失函数的函数值最小时结束训练,以形成所述可疑交易报文生成模型。
在一可选的实现方式中,所述特征预处理单元502,具体用于:
从所述特征明细的各维客户特征中区分类别型特征和数值型特征;
对所述特征明细中的类别型特征进行直接编码,以及将所述特征明细中的数值型特征作离散化处理之后的离散化结果进行编码,基于直接编码的编码结果和对离散化结果的编码结果共同形成所述特征编码序列。
在一可选的实现方式中,所述装置还包括:上报单元,用于向目标服务器上报所述可疑交易报文。
第三方面,基于与前述实施例中可疑交易报文生成方法实施例同样的发明构思,本说明书实施例还提供一种服务器,如图6所示,包括存储器604、处理器602及存储在存储器604上并可在处理器602上运行的计算机程序,所述处理器602执行所述程序时实现前文所述可疑交易报文生成方法的任一方法的步骤。
其中,在图6中,总线架构(用总线600来代表),总线600可以包括任意数量的互联的总线和桥,总线600将包括由处理器602代表的一个或多个处理器和存储器604代表的存储器的各种电路链接在一起。总线600还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口606在总线600和接收器601和发送器603之间提供接口。接收器601和发送器603可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器602负责管理总线600和通常的处理,而存储器604可以被用于存储处理器602在执行操作时所使用的数据。
第四方面,基于与前述实施例中可疑交易报文生成方法同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述可疑交易报文生成方法的任一实施例所述的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (18)

1.一种可疑交易报文生成方法,包括:
获取目标客户的特征明细,所述特征明细中包含多维携带有特征值的客户特征,所述多维携带有特征值的客户特征中包含所述目标客户的交易行为特征;
对所述特征明细中各维客户特征进行编码,形成所述特征明细对应的特征编码序列;
将所述特征编码序列输入可疑交易报文生成模型,基于所述可疑交易报文生成模型产出包含所述特征编码序列的编码形式报文;
将所述特征明细中各维客户特征的特征值回填至所述编码形式报文中对应的编码位置,针对所述目标客户生成包含所述交易行为特征的可疑交易报文。
2.如权利要求1所述的可疑交易报文生成方法,所述可疑交易报文生成模型通过如下步骤训练得到:
获取多个客户特征样本以及与所述客户特征样本一一对应的多个客户报文样本,其中,每个所述客户特征样本中包含多维客户特征,所述多维客户特征中包括可疑交易行为特征,与该客户特征样本对应的客户报文样本的报文内容中包含该客户特征样本的各维客户特征;
对每个客户特征样本中各维客户特征进行编码,形成与该客户特征样本对应的特征编码序列样本,以及预处理对应的客户报文样本为真实词向量;
基于所述特征编码序列样本和对应的真实词向量对目标神经网络模型进行训练,训练出所述可疑交易报文生成模型。
3.如权利要求2所述的可疑交易报文生成方法,基于所述特征编码序列样本和对应的真实词向量对目标神经网络模型进行训练,训练出可疑交易报文生成模型,包括:
利用所述特征编码序列样本和对应的真实词向量对基于门循环单元GRU神经网络的编码-解码模型进行训练,训练出所述可疑交易报文生成模型。
4.如权利要求3所述的可疑交易报文生成方法,用于训练所述可疑交易报文生成模型的每个客户特征样本,分别通过如下步骤形成对应的特征编码序列样本:
从所述客户特征样本的各维客户特征中区分类别型特征和数值型特征;
对所述客户特征样本中类别型特征进行直接编码,以及将所述客户特征样本中数值型特征作离散化处理的离散化结果进行编码,基于直接编码的编码结果和对离散化结果的编码结果共同形成所述特征编码序列样本。
5.如权利要求3所述的可疑交易报文生成方法,通过如下步骤预处理每个客户报文样本为真实词向量:
通过将所述客户报文样本中的非共性文本变更为对应的编码文本,形成与所述客户报文样本对应的编码式报文样本;
对所述编码式报文样本进行分词处理后,将基于分词处理得到的词处理为真实词向量。
6.如权利要求3所述的可疑交易报文生成方法,所述目标神经网络模型包括编码模块和解码模块;
所述基于所述特征编码序列样本和对应的真实词向量对目标神经网络模型进行训练,训练出所述可疑交易报文生成模型,包括:
将同一特征编码序列样本中M维编码特征的单项属性特征向量输入至所述编码模块,通过所述编码模块生成对应的M个编码向量,M为特征编码序列样本中的客户特征数量,M为正整数;
依次针对所述M个编码向量执行如下步骤,直至产出最后一个编码向量对应的解码向量:基于当前编码向量和上一时间步的单元状态计算出当前注意力向量之后,将所述当前编码向量和所述当前注意力向量导入至所述解码模块的当前GRU单元,从而产出当前编码向量对应的解码向量和当前时间步的单元状态;
基于各个解码向量产出该特征编码序列样本的预测词向量;
基于每个特征编码序列样本的预测词向量以及与该特征编码序列样本对应的真实词向量进行训练,直至总交叉熵代价损失函数的函数值最小时结束训练,以形成所述可疑交易报文生成模型。
7.如权利要求1所述的可疑交易报文生成方法,所述对所述特征明细中各维客户特征进行编码,形成所述特征明细对应的特征编码序列,包括:
从所述特征明细的各维客户特征中区分类别型特征和数值型特征;
对所述特征明细中的类别型特征进行直接编码,以及将所述特征明细中的数值型特征作离散化处理之后的离散化结果进行编码,基于直接编码的编码结果和对离散化结果的编码结果共同形成所述特征编码序列。
8.如权利要求1-7中任一所述的可疑交易报文生成方法,在所述针对所述目标客户生成包含所述交易行为特征的可疑交易报文之后,还包括:向目标服务器上报所述可疑交易报文。
9.一种可疑交易报文生成装置,包括:
特征获取单元,用于获取目标客户的特征明细,所述特征明细中包含多维携带有特征值的客户特征,所述多维携带有特征值的客户特征中包含所述目标客户的交易行为特征;
特征预处理单元,用于对所述特征明细中各维客户特征进行编码,形成所述特征明细对应的特征编码序列;
报文生成单元,用于将所述特征编码序列输入可疑交易报文生成模型,基于所述可疑交易报文生成模型产出包含所述特征编码序列的编码形式报文;
特征值回填单元,用于将所述特征明细中各维客户特征的特征值回填至所述编码形式报文中对应的编码位置,针对所述目标客户生成包含所述交易行为特征的可疑交易报文。
10.如权利要求9所述的可疑交易报文生成装置,还包括模型训练单元,所述模型训练单元包括:
样本获取子单元,用于获取多个客户特征样本以及与所述客户特征样本一一对应的多个客户报文样本,其中,每个所述客户特征样本中包含多维客户特征,所述多维客户特征中包括可疑交易行为特征,与该客户特征样本对应的客户报文样本的报文内容中包含该客户特征样本的各维客户特征;
样本预处理子单元,用于对每个客户特征样本中各维客户特征进行编码,形成与该客户特征样本对应的特征编码序列样本,以及预处理对应的客户报文样本为真实词向量;
训练子单元,用于基于所述特征编码序列样本和对应的真实词向量对目标神经网络模型进行训练,训练出所述可疑交易报文生成模型。
11.如权利要求10所述的可疑交易报文生成装置,所述训练子单元,具体用于:
利用所述特征编码序列样本和对应的真实词向量对基于GRU神经网络的编码-解码模型进行训练,训练出所述可疑交易报文生成模型。
12.如权利要求10所述的可疑交易报文生成装置,所述样本预处理子单元,具体用于对每个客户特征样本执行如下处理:
从所述客户特征样本的各维客户特征中区分类别型特征和数值型特征;
对所述客户特征样本中类别型特征进行直接编码,以及将所述客户特征样本中数值型特征作离散化处理的离散化结果进行编码,基于直接编码的编码结果和对离散化结果的编码结果共同形成所述特征编码序列样本。
13.如权利要求10所述的可疑交易报文生成装置,所述样本预处理子单元,具体用于:通过如下步骤预处理每个客户报文样本为真实词向量:
通过将所述客户报文样本中的非共性文本变更为对应的编码文本,形成与所述客户报文样本对应的编码式报文样本;
对所述编码式报文样本进行分词处理后,将基于分词处理得到的词处理为真实词向量。
14.如权利要求10所述的可疑交易报文生成装置,所述目标神经网络模型包括编码模块和解码模块;所述训练子单元,具体用于:
将同一特征编码序列样本中M维编码特征的单项属性特征向量输入至所述编码模块,通过所述编码模块生成对应的M个编码向量,M为特征编码序列样本中的客户特征数量,M为正整数;
依次针对所述M个编码向量执行如下步骤,直至产出最后一个编码向量对应的解码向量:基于当前编码向量和上一时间步的单元状态计算出当前注意力向量之后,将所述当前编码向量和所述当前注意力向量导入至所述解码模块的当前GRU单元,从而产出当前编码向量对应的解码向量和当前时间步的单元状态;
基于各个解码向量产出该特征编码序列样本的预测词向量;
基于每个特征编码序列样本的预测词向量以及与该特征编码序列样本对应的真实词向量进行训练,直至总交叉熵代价损失函数的函数值最小时结束训练,以形成所述可疑交易报文生成模型。
15.如权利要求9所述的可疑交易报文生成装置,所述特征预处理单元,具体用于:
从所述特征明细的各维客户特征中区分类别型特征和数值型特征;
对所述特征明细中的类别型特征进行直接编码,以及将所述特征明细中的数值型特征作离散化处理之后的离散化结果进行编码,基于直接编码的编码结果和对离散化结果的编码结果共同形成所述特征编码序列。
16.如权利要求9-15中任一所述的可疑交易报文生成装置,还包括:上报单元,用于向目标服务器上报所述可疑交易报文。
17.一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行如权利要求1-8中任一所述方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述权利要求1-8中任一所述方法的步骤。
CN201910381142.XA 2019-05-08 2019-05-08 可疑交易报文生成方法、装置及服务器 Active CN110213239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910381142.XA CN110213239B (zh) 2019-05-08 2019-05-08 可疑交易报文生成方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910381142.XA CN110213239B (zh) 2019-05-08 2019-05-08 可疑交易报文生成方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN110213239A true CN110213239A (zh) 2019-09-06
CN110213239B CN110213239B (zh) 2021-06-01

Family

ID=67785704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910381142.XA Active CN110213239B (zh) 2019-05-08 2019-05-08 可疑交易报文生成方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN110213239B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402038A (zh) * 2020-04-17 2020-07-10 支付宝(杭州)信息技术有限公司 一种交易报文生成方法、装置及电子设备
CN111507726A (zh) * 2020-04-07 2020-08-07 支付宝(杭州)信息技术有限公司 一种报文生成方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100257006A1 (en) * 2009-04-07 2010-10-07 The Boeing Company Associate memory learning for analyzing financial transactions
CN107943911A (zh) * 2017-11-20 2018-04-20 北京大学深圳研究院 数据抽取方法、装置、计算机设备及可读存储介质
CN108038207A (zh) * 2017-12-15 2018-05-15 暴风集团股份有限公司 一种日志数据处理系统、方法和服务器
US20180330438A1 (en) * 2017-05-11 2018-11-15 Vipul Divyanshu Trading System with Natural Strategy Processing, Validation, Deployment, and Order Management in Financial Markets
CN108960833A (zh) * 2018-08-10 2018-12-07 哈尔滨工业大学(威海) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
CN109300028A (zh) * 2018-09-11 2019-02-01 上海天旦网络科技发展有限公司 基于网络数据的实时反欺诈方法和系统及存储介质
CN109492103A (zh) * 2018-11-09 2019-03-19 北京三快在线科技有限公司 标签信息获取方法、装置、电子设备及计算机可读介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100257006A1 (en) * 2009-04-07 2010-10-07 The Boeing Company Associate memory learning for analyzing financial transactions
US20180330438A1 (en) * 2017-05-11 2018-11-15 Vipul Divyanshu Trading System with Natural Strategy Processing, Validation, Deployment, and Order Management in Financial Markets
CN107943911A (zh) * 2017-11-20 2018-04-20 北京大学深圳研究院 数据抽取方法、装置、计算机设备及可读存储介质
CN108038207A (zh) * 2017-12-15 2018-05-15 暴风集团股份有限公司 一种日志数据处理系统、方法和服务器
CN108960833A (zh) * 2018-08-10 2018-12-07 哈尔滨工业大学(威海) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
CN109300028A (zh) * 2018-09-11 2019-02-01 上海天旦网络科技发展有限公司 基于网络数据的实时反欺诈方法和系统及存储介质
CN109492103A (zh) * 2018-11-09 2019-03-19 北京三快在线科技有限公司 标签信息获取方法、装置、电子设备及计算机可读介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507726A (zh) * 2020-04-07 2020-08-07 支付宝(杭州)信息技术有限公司 一种报文生成方法、装置及设备
CN111402038A (zh) * 2020-04-17 2020-07-10 支付宝(杭州)信息技术有限公司 一种交易报文生成方法、装置及电子设备
CN111402038B (zh) * 2020-04-17 2022-06-03 支付宝(杭州)信息技术有限公司 一种交易报文生成方法、装置及电子设备

Also Published As

Publication number Publication date
CN110213239B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN110309840A (zh) 风险交易识别方法、装置、服务器及存储介质
CN108985583A (zh) 基于人工智能的金融数据风险控制方法及装置
CN110473083A (zh) 树状风险账户识别方法、装置、服务器及存储介质
CN109376864A (zh) 一种基于堆叠神经网络的知识图谱关系推理算法
CN110399533A (zh) 资金流向查询方法及装置
CN107833603A (zh) 电子病历文档分类方法、装置、电子设备及存储介质
CN109635946A (zh) 一种联合深度神经网络和成对约束的聚类方法
CN111352965A (zh) 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN109460821A (zh) 一种神经网络压缩方法、装置、电子设备及存储介质
CN113626606B (zh) 信息分类方法、装置、电子设备及可读存储介质
CN112015901A (zh) 文本分类方法及装置、警情分析系统
CN110213239A (zh) 可疑交易报文生成方法、装置及服务器
CN110502895A (zh) 接口异常调用确定方法及装置
CN111709790B (zh) 一种日前市场异常电价辨识方法、装置、设备和存储介质
CN112036483B (zh) 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
CN113362852A (zh) 一种用户属性识别方法和装置
CN110209729A (zh) 数据转移对象识别的方法及装置
CN114418189A (zh) 水质等级预测方法、系统、终端设备及存储介质
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
CN116340793A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN111984842B (zh) 银行客户数据处理方法及装置
Li et al. Beyond tides and time: Machine learning’s triumph in water quality forecasting
CN113781247A (zh) 协议数据推荐方法、装置、计算机设备及存储介质
CN113704407A (zh) 基于类别分析的投诉量分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200930

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200930

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant