CN112529708A - 一种客户识别方法及装置、电子设备 - Google Patents

一种客户识别方法及装置、电子设备 Download PDF

Info

Publication number
CN112529708A
CN112529708A CN202011563912.1A CN202011563912A CN112529708A CN 112529708 A CN112529708 A CN 112529708A CN 202011563912 A CN202011563912 A CN 202011563912A CN 112529708 A CN112529708 A CN 112529708A
Authority
CN
China
Prior art keywords
transaction data
dynamic time
transaction
warping
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011563912.1A
Other languages
English (en)
Other versions
CN112529708B (zh
Inventor
李元
肖和兵
黄翔丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011563912.1A priority Critical patent/CN112529708B/zh
Publication of CN112529708A publication Critical patent/CN112529708A/zh
Application granted granted Critical
Publication of CN112529708B publication Critical patent/CN112529708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请公开了一种客户识别方法及装置、电子设备,所述方法包括:获取针对第一客户的全部交易数据中第一时间区间的第一交易数据;确定所述第一交易数据是否具备周期性属性;基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户。如此,能够根据第一客户自身的交易数据精准地识别第一客户是否为非法交易客户。

Description

一种客户识别方法及装置、电子设备
技术领域
本申请涉及金融技术领域,尤其涉及一种客户识别方法及装置、电子设备。
背景技术
银行网点中客户的交易数据是基于时间序列的数据,在识别客户是否为非法客户时,如根据客户的交易数据是否为以洗钱为目的识别用客户是否为非法客户时,通常先判断客户的交易数据是否与样本时间序列数据匹配,再对客户的交易数据进行行为分类或聚类,根据分类或聚类结果判断客户是否为非法客户。
但是,一方面,在判断客户的交易数据是否与样本时间序列数据匹配时,依赖于预先处理好的样本数据,不仅数据处理量大,而且依赖标定的已知可疑客户的样本时间序列数据也将会增加标定工作量。另一方面,在对样本时间序列数据标定时,需要先通过聚类不同的样本时间序列数据,对样本时间序列数据聚类分类;再进一步处理聚类后的样本时间序列集合的规律,然后对聚类后的样本时间序列集合进行处理得到样本时间序列集合的特征性,将该样本时间序列集合的特征值与直接对样本时间序列数据处理得到的样本时间序列数据相比,若样本时间序列集合的特征性不明显,可能存在无法准确得到或无法突出样本时间序列集合的特点问题。第三方面,对样本时间序列数据以及样本时间序列数据集合处理时,需要经过多次迭代计算,不仅计算量大,而且计算难度大。
申请内容
为解决上述技术问题,本申请实施例提供了一种客户识别方法及装置、计算机程序产品、存储介质、电子设备。
本申请实施例提供的一种客户识别方法,包括:
获取针对第一客户的全部交易数据中第一时间区间的第一交易数据;
确定所述第一交易数据是否具备周期性属性;
基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户。
本申请一可选实施方式中,所述基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户包括:
若所述第一交易数据不具备周期性,则识别所述第一客户为合法交易客户;
若所述第一交易数据具备周期性,则以所述第一交易数据为机器学习模型的输入,识别所述第一客户是否为非法交易客户。
本申请一可选实施方式中,所述确定所述第一交易数据是否具备周期性属性包括:
预设至少一个时间间隔,分别计算每个时间间隔下所述第一交易数据的动态时间归整平均值;
计算全量客户的动态时间规整阈值;
基于所述第一交易数据的动态时间规整平均值和所述动态时间规整阈值,确定所述第一交易数据是否具备周期性属性。
本申请一可选实施方式中,所述分别计算每个时间间隔下所述第一交易数据的动态时间规整平均值包括:
基于所述时间间隔将所述第一交易数据划分为N份第一子交易数据;
分别计算相邻的两份第一子交易数据之间的动态时间规整距离,得到N-1个动态时间规整距离;
计算所述N-1个动态时间规整距离的平均值,得到所述第一交易数据的动态时间规整平均值。
本申请一可选实施方式中,所述计算全量客户的动态时间规整阈值包括:
计算全量客户的动态时间规整平均值;
将所述全量客户的动态时间规整平均值排序;
确定位于第一排序位置的值为所述动态时间规整阈值。
本申请一可选实施方式中,所述基于所述第一交易数据的动态时间规整平均值和所述动态时间规整阈值,确定所述第一交易数据是否具备周期性属性包括:
判断所述第一交易数据的动态时间规整平均值与所述动态时间规整阈值的大小;
若所述第一交易数据的动态时间规整平均值小于所述动态时间规整阈值,则确定所述第一交易数据具备周期性;
若所述第一交易数据的动态时间规整平均值大于或等于所述动态时间规整阈值,则确定所述第一交易数据不具备周期性。
本申请一可选实施方式中,所述确定所述第一交易数据是否具备周期性属性之前,所述方法还包括:
针对每个特征维度对所述第一交易数据进行归一化处理;
对归一化后的第一交易数据进行平滑处理和异常值检测,得到第一候选交易数据;
对所述第一候选交易数据进行降维处理,得到包括一个特征维度的第一交易数据。
本申请实施例提供一种客户识别装置,所述装置包括:
获取单元,用于获取针对第一客户的全部交易数据中第一时间区间的第一交易数据;
确定单元,用于确定所述第一交易数据是否具备周期性属性;
识别单元,用于基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户。
本申请一可选实施方式中,所述识别单元,用于若所述第一交易数据不具备周期性,则识别所述第一客户为合法交易客户;
若所述第一交易数据具备周期性,则以所述第一交易数据为机器学习模型的输入,识别所述第一客户是否为非法交易客户。
本申请一可选实施方式中,所述确定单元,用于预设至少一个时间间隔,分别计算每个时间间隔下所述第一交易数据的动态时间归整平均值;
计算全量客户的动态时间规整阈值;
基于所述第一交易数据的动态时间规整平均值和所述动态时间规整阈值,确定所述第一交易数据是否具备周期性属性。
本申请一可选实施方式中,所述确定单元,用于基于所述时间间隔将所述第一交易数据划分为N份第一子交易数据;
分别计算相邻的两份第一子交易数据之间的动态时间规整距离,得到N-1个动态时间规整距离;
计算所述N-1个动态时间规整距离的平均值,得到所述第一交易数据的动态时间规整平均值。
本申请一可选实施方式中,所述确定单元,用于计算全量客户的动态时间规整平均值;
将所述全量客户的动态时间规整平均值排序;
确定位于第一排序位置的值为所述动态时间规整阈值。
本申请一可选实施方式中,所述确定单元,用于判断所述第一交易数据的动态时间规整平均值与所述动态时间规整阈值的大小;
若所述第一交易数据的动态时间规整平均值小于所述动态时间规整阈值,则确定所述第一交易数据具备周期性;
若所述第一交易数据的动态时间规整平均值大于或等于所述动态时间规整阈值,则确定所述第一交易数据不具备周期性。
本申请一可选实施方式中,所述装置还包括:
处理单元,用于针对每个特征维度对所述第一交易数据进行归一化处理;
对归一化后的第一交易数据进行平滑处理和异常值检测,得到第一候选交易数据;
对所述第一候选交易数据进行降维处理,得到包括一个特征维度的第一交易数据。
本申请实施例提供的计算机程序产品包括计算机可执行指令,该计算机可执行指令被执行后,能够实现上述的客户识别方法。
本申请实施例提供的存储介质上存储有可执行指令,该可执行指令被处理器执行时实现上述的客户识别方法。
本申请实施例提供的电子设备,所述电子设备包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时可实现上述的客户识别方法。
本申请实施例提供的客户识别方法,获取针对第一客户的全部交易数据中第一时间区间的第一交易数据;确定所述第一交易数据是否具备周期性属性;基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户。如此,可以根据第一客户自身的数据,精准地识别第一客户是否为非法客户;由于本申请实施例提供的客户识别方法仅需要对第一客户自身的数据进行处理,因此,避免了根据标定的已知客户的样本时间序列数据识别新客户是否为非法客户所导致的数据处理量大和计算难度大的问题,降低了识别成本;此外,该过程无需针对样本数据进行聚类,也不用处理出样本时间序列集合的规律,避免了样本时间序列集合的特征性不明显导致的后续客户识别不准确的问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附附图,作详细说明如下。
附图说明
图1为本申请实施例提供的客户识别方法的一种可选处理流程示意图;
图2为本申请实施例提供的客户识别装置对第一时间区间的第一交易数据进行处理的示意图;
图3为本申请实施例提供的客户识别装置计算每个时间间隔下第一交易数据的动态时间规整平均值的处理流程示意图;
图4为本申请实施例提供的第四特征维度的第一交易数据的示意图;
图5为本申请实施例提供的水平型客户的交易数据示意图;
图6为本申请实施例提供的客户识别方法的一种详细可选处理流程示意图,
图7为本申请实施例提供的客户识别装置的结构组成示意图;
图8为本申请实施例的电子设备的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点和技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
本申请实施例中,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
下面对本申请实施例所涉及的一种客户识别方法进行详细介绍,本申请实施例所提供的客户识别方法的执行主体可以为任何具有数据处理能力的装置或设备,本申请实施例中不作限定。
本申请实施例所提供的客户识别方法的应用场景可以是包括两条或两条以上区块链的区块链网络;区块链网络中的至少两条区块链的智能合约共同持有同一个变量。本申请实施例所提供的客户识别方法的一种可选处理流程示意图,如图1所示,至少可以包括以下几个步骤:
步骤S101,获取针对第一客户的全部交易数据中第一时间区间的第一交易数据。
在一些实施例中,客户识别装置(以下简称装置)获取针对第一客户的全部交易数据中第一时间区间的第一交易数据。其中,第一客户可以是银行网点中的任意一个客户。第一时间区间可以根据实际情况灵活选择或设置为半年、九个月或一年等。第一交易数据可以包括每日的交易金额、交易笔数以及现金支付金额等不同特征维度的数据;若第一客户在某一天无交易数据,则交易数据的每个维度的值可以均为零,比如,交易金额为零,交易笔数为零,现金支付金额为零。
在一些实施例中,第一交易数据可以仅包括一个影响力最高的维度的数据;具体的,可以通过计算每个特征维度的交易数据的信息熵(Information Value,IV)确定影响力最高的维度的数据,其中,某个特征维度的IV值,能够表示该特征维度对分类结果的区分能力。本申请实施例中,IV值越大,表征该特征维度的数据对客户识别的准确度影响大。举例来说,若第一交易数据包括交易金额、交易笔数以及现金支付金额三个特征维度的数据,交易金额的信息熵最大,则在客户识别时,使用仅包括交易金额的交易数据,不使用包括交易笔数和现金支付金额的交易数据。
在具体实施时,可以利用证据权重(Weight of Evidence,WOE)值衡量某个特征对样本的区分能力;
WOEi=ln((gi/g)(bi/b)) (1)
其中,gi表示某变量的第i个属性对应的正样本(可疑客户)个数,bi表示某变量的第i个属性对应的负样本(非可疑客户)个数,g表示样本中总的正样本(可疑客户)个数,b表示样本中总的负样本(非可疑客户)个数。
信息熵IV值可通过下述公式计算得到:
Figure BDA0002861100260000071
在一些实施例中,第一交易数据是基于时间序列的数据;其中,时间序列可以指将同一统计指标的数值按照发生的时间的先后顺序排列形成的数列。
步骤S102,确定所述第一交易数据是否具备周期性属性。
在一些实施例中,客户识别装置确定所述第一交易数据是否具备周期性属性。其中,所述周期性属性可以是指所述第一交易数据是否为周期性数据,即第一交易数据是按照周期固定的发生交易的数据。举例来说,若第一交易数据表征客户每隔一周产生一次存钱交易,则认为第一数据为周期性数据;或者,若第一交易数据表征客户以一周、两周、一周、两周为间隔产生存钱交易,则认为第一数据为周期性数据。
在一些实施例中,客户识别装置确定所述第一交易数据是否具备周期性属性之前,客户识别装置可以对步骤S101中获取的第一数据进行处理;在一些实施例中,客户识别装置对第一时间区间的第一交易数据进行处理的示意图,可以如图2所示,至少包括以下步骤:
步骤S2a,预设至少一个时间间隔,分别计算每个时间间隔下所述第一交易数据的动态时间规整平均值。
在一些实施例中,客户识别装置可以预设至少一个时间间隔,即预设一个或多个时间间隔;如预设三个时间间隔,分别是一周、两周和一个月。则针对时间间隔为一周、两周和一个月,分别计算第一交易数据的动态时间规整平均值。其中,动态时间规整是一种衡量两个长度不同的时间序列的相似度的方法
在一些实施例中,客户识别装置计算每个时间间隔下第一交易数据的动态时间规整平均值的处理流程,可以如图3所示,至少包括一下步骤:
步骤S2a1,基于时间间隔将第一交易数据划分为N份第一子交易数据。
在一些实施例中,以时间间隔为一个月为例,若第一交易数据是第一客户一年的数据,则将第一时间间隔划分为12份第一子交易数据,即N=12。
步骤S2a2,分别计算相邻的两份第一子交易数据之间的动态时间规整距离,得到N-1个动态时间规整距离。
在一些实施例中,计算第1份子交易数据和第2份子交易数据之间的动态时间规整距离,第2份子交易数据和第3份子交易数据之间的动态时间规整距离,第3份子交易数据和第4份子交易数据之间的动态时间规整距离,直至计算第11份子交易数据和第12份子交易数据之间的动态时间规整距离。
在具体实施时,以相邻的两份子交易数据为Xi和Xi+1为例,Xi和Xi+1可以是多维度的向量数据点,首先计算Xi和Xi+1之间的欧氏距离,构建一个N×N矩阵,该矩阵用P表示。例如,Xi序列中的第s个点,与Xi+1序列中的第t个点的在矩阵中的值记为P(s,t).;其中,
Figure BDA0002861100260000091
再计算矩阵P中起点元素P0,0到终点元素PN,N之间的路径中,具有最小矩阵元素之和的路径,该路径中的矩阵元素值之和即为Xi和Xi+1之间的动态时间规整距离。D(s,t)表示从P0,0到Ps,t之的最短路径距离,P0,0到Ps,t之间的最短路径中的元素之和即为Xi和Xi+1之间的动态时间规整距离。D(s,t)的计算公式如下所示:
D(s,t)=p(s,t)+min[D(s-1,t),D(s,t-1),D(s-1,t-1)] (4)
步骤S2a3,计算所述N-1个动态时间规整距离的平均值,得到所述第一交易数据的动态时间规整平均值。
在步骤S2a2中,客户识别装置计算了N-1个动态时间规整距离之后,再对计算得到的N-1个动态时间规整距离求平均值,得到动态时间规整平均值。
步骤S2b,计算全量客户的动态时间规整阈值。
在一些实施例中,客户识别装置按照上述步骤S2a3中的方法,计算全量客户的动态时间规整平均值,将所述全量客户的动态时间规整平均值排序;确定位于第一排序位置的值为所述动态时间规整阈值。其中,将所述全量客户的动态时间规整平均值排序时,可以按照升序的顺序对全量客户的动态时间规整平均值排序,也可以按照降序的顺序对全量客户的动态时间规整平均值排序。第一排序位置可以是从动态时间规整平均值的最小值开始按序统计,占全量客户第一比例的客户中的最大动态时间规整平均值。举例来说,若第一比例为1%,全量客户数量为1000,则选取动态时间规整平均值中,按照动态时间规整平均值升序的顺序,从最小的动态时间规整平均值开始的第10个动态时间规整平均值为动态时间规整阈值。其中,10根据1000*1%计算得到。
其中,全量客户可以是待识别的全部客户,也可以是银行网点内的全部客户,或者基于业务类型划分得到的客户等。
步骤S2c,基于所述第一交易数据的动态时间规整平均值和所述动态时间规整阈值,确定所述第一交易数据是否具备周期性属性。
在一些实施例中,客户识别装置基于所述第一交易数据的动态时间规整平均值和所述动态时间规整阈值,确定所述第一交易数据是否具备周期性属性。
在具体实施时,客户识别装置判断所述第一交易数据的动态时间规整平均值与所述动态时间规整阈值的大小;若所述第一交易数据的动态时间规整平均值小于所述动态时间规整阈值,则确定所述第一交易数据具备周期性;若所述第一交易数据的动态时间规整平均值大于或等于所述动态时间规整阈值,则确定所述第一交易数据不具备周期性。若所述第一交易数据具备周期性,则认为所述第一交易数据对应的第一客户按照周期进行数据交易,为非法用户。
步骤S103,基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户。
在一些实施例中,客户识别装置基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户。在具体实施时,若所述第一交易数据不具备周期性,则能够直接识别所述第一客户为合法交易客户。若所述第一交易数据具备周期性,可以识别所述第一客户为非法交易客户,或者以所述第一交易数据为机器学习模型的输入,识别所述第一客户是否为非法交易客户;即所述机器学习模型为根据样本交易数据训练得到的、具备根据输入的交易数据识别交易客户是否为非法交易客户的性能的模型。
由于步骤S102中,客户识别装置针对每个时间间隔分别确定第一交易数据是否具备周期性属性,因此,在步骤S103中,客户识别装置也是针对每个时间间隔分别识别所述第一客户是否为非法交易客户。在一些实施例中,存在第一客户在第一时间间隔和第二时间间隔为合法交易客户,而在第三时间间隔为非法交易客户的情况;因此,对于时间间隔划分的颗粒度越小、时间间隔的数量越多,识别客户是否为非法交易客户的准确性越高。
在一些实施例中,在执行步骤S102之前,所述方法还可以包括:
步骤S100,针对每个特征维度对所述第一交易数据进行归一化处理;对归一化后的第一交易数据进行平滑处理和异常值检测,得到第一候选交易数据;对所述第一候选交易数据进行降维处理,得到包括一个特征维度的第一交易数据。
在一些实施例中,所述客户识别装置分别针对第一交易数据的每个维度进行归一化处理,得到无量纲的数据,以消除不同维度量纲的影响,更好地反映第一交易数据的波动情况。
在一些实施例中,可通过对数运算实现对第一交易数据的归一化处理。举例来说,第一交易数据包括A、B和C三个特征维度,查找第一交易数据在每个维度特征中的最大值,得到Amax、Bmax和Cmax。举例来说,若特征维度A为交易为交易金额,则Amax为第一交易数据中每日交易金额的最大值,若B为交易次数,则Bmax为每日交易次数的最大值。
将A、B和C三个特征维度的第一交易数据均做归一化处理可采用如下公式:
Figure BDA0002861100260000111
Figure BDA0002861100260000112
Figure BDA0002861100260000113
在一些实施例中,对归一化后的第一交易数据进行平滑处理,可以是对第一交易数据进行差分处理;在具体实施时,可以对第一交易数据进行一阶差分处理,也可以对第一交易数据进行二阶差分处理;经过差分处理的数据能够很好的反映数据的变化情况,且不会消除数据的周期性。
以对特征维度A的第一交易数据进行平滑处理为例,对特征维度为A的相邻的两个第一交易数据做差,用得到的差值替换相邻的两个第一交易数据中较大的第一交易数据;举例来说,将特征维度A的第一交易数据按升序的顺序排列,第一个交易数据最小,最后一个交易数据最大;在进行平滑处理时,利用第二个交易数据减去第一个交易数据,得到的值作为新的第二个交易数据;再利用第三个交易数据减去新的第二个交易数据,得到的值作为新的第三个交易数据;以此类推,直至得到新的最后一个交易数据;具体的,可通过如下公式计算得到:
Ai+1=Ai+1-Ai (8)
在一些实施例中,客户识别装置对平滑处理后的交易数据进行异常值检测。在具体实施时,客户识别装置可以利用G-ESD算法对每个特征维度的平滑处理后的交易数据进行异常值检测。其中,G-ESD算法是基于(Extreme Studentized Deviate,ESD)改进的、识别K个离群点的算法;而ESD是用于从正态分布的单变量数据集中检测一个离群点的算法。在G-ESD算法中,设定离群比例为预设值B%,如B%为5%,则根据G-ESD算法确定每个特征维度中离群比例超过5%的数据为异常值;对于每个异常值,将该异常值替换为与所述异常值相邻的两个数值的平均值,得到第一候选交易数据。举例来说,若第5个交易数据为异常值,第4个交易数据和第6个交易数据为正常值,则计算第4个交易数据和第6个交易数据的平均值,利用该平均值替换第5个交易数据的值。如此,得到的第一候选交易数据为一个平稳的时间序列数据。
在一些实施例中,客户识别装置还可以基于Seasonal Hybrid ESD算法进行异常值检测。本申请实施例对异常值检测所使用的算法不做限定。
上述对三个特征维度的第一交易数据分别进行归一化处理、平滑处理和异常值检测,得到第一候选交易数据;下面对三个维度的第一候选交易数据进行处理,得到包括一个特征维度的第一交易数据。
具体的,若包括一个特征维度的第一交易数据是第四特征维度的第一交易数据,则第四特征维度的第一交易数据的平方等于每个特征维度的第一交易数据的平方之和;因此,第四特征维度的第一交易数据可以通过下述公式计算得到:
Figure BDA0002861100260000121
其中,V为第四特征维度的第一交易数据;第四特征维度的第一交易数据的示意图,如图4所示。
需要说明的是,由于第一交易数据经过归一化处理后为数值在0至1之间的无量纲数据,因此,在第一交易数据包括多个特征维度的情况下,通过对第一交易数据中每个特征维度的平方之和,再对和值开平方,从而得到的第一交易数据的第四维度,可降低某些特征维度的波动影响,进而均衡各个特征维度的影响。
若包括一个特征维度的第一交易数据是第四特征维度的第一交易数据,也可以通过下述公式计算得到:
Figure BDA0002861100260000131
其中,p为非零自然数,Xi为某一特征维度数据,X为第四特征维度数据。
即,由于第一交易数据经过归一化处理后为数值在0至1之间的无量纲数据,因此,在第一交易数据包括多个特征维度的情况下,需要说明的是,由于第一交易数据经过归一化处理后为数值在0至1之间的无量纲数据,因此,在第一交易数据包括多个特征维度的情况下,通过对第一交易数据中每个特征维度的p次方求和,再对和值开p次方,从而得到第一交易数据的第四维度,可降低某些特征维度的波动影响,进而均衡各个特征维度的影响。使用公式(10)计算得到第四特征维度的交易数据使得交易数据更稳定,从而提高客户识别的准确性。
在一些实施例中,可以基于公式(9)或公式(10)计算得到的第一交易数据执行步骤S102。
在另一些实施例中,也可以对基于公式(9)或公式(10)计算得到的第一交易数据进一步进行处理,剔除水平型客户。水平型客户是指客户的交易数据波动小,不适用于检测周期性客户;水平型客户的交易数据示意图,如图5所示,随着日期的变化,客户的交易数据值波动小。在具体实施时,可以计较第一交易数据中0.25分位点的数据和0.75分位点的数据,若0.25分位点的数据和0.75分位点的数据大小相同,则确定为水平型客户,该客户的交易行为为水平型交易行为,剔除该客户;即不对该客户的数据进行周期性判断。
其中,剔除的客户的交易数据曲线,本申请实施例提供的客户识别方法可以应用于银行等金融系统,用于识别客户是否为执行非法交易(如洗钱)的客户。本申请实施可以仅仅对一个客户的交易数据进行时间序列建模,基于预设的时间间隔对一个客户的交易数据进行处理,能够识别该客户的交易行为是否符合周期性交易;若符合周期性交易,则识别该客户为非法客户。本申请实施例无需大量的样本数据,也无需对大量的样本数据进行处理和分析,不需要大规模的多次数据迭代,只需对一个客户的交易数据进行处理,便能够识别该客户是否为非法客户,提高了客户识别的精准度,极大地降低了数据处理量。
通过本申请实施例提供的客户识别方法对识别客户之后,可以为客户打布尔标签,如客户是否符合交易周期为一周的布尔标签,或者客户是否符合交易周期是两周的布尔标签等。在对客户打布尔标签之后,该客户的交易数据以及对应的布尔标签可以进一步提供给机器学习模型或规则引擎,用于判断客户的交易是否符合周期交易;若符合周期交易,再继续进行客户合法性的判断。如此,通过增加了对客户交易周期性的筛选,使得机器学习模型或规则引擎能够更准确的判断客户的合法性;通过增加了对客户交易周期性的筛选,也为业务人员对客户的合法性分析增加依据。
下面以银行中某一个客户的日交易数据为例,对本申请实施例提供的客户识别方法进行说明。本申请实施例提供的客户识别方法的一种详细可选处理流程示意图,如图6所示,可以包括一下步骤:
步骤S201,获取所有客户最近三个月内每日的交易数据。
在一些实施例中,交易数据可以是交易金额、交易笔数和现金支付金额。标记交易数据的交易金额、交易笔数和现金支付金额是A、B和C三个维度。如果该客户当日无交易,则用“0”补充该数据;举例来说,若客户当日无交易,则交易金额、交易笔数和现金支付金额均为0。
步骤S202,按照时间对每个客户的交易数据排序,得到多维度的向量数据时间序列。
步骤S203,对每个客户的每个维度的向量数据均执行归一化处理。
在一些实施例中,可采用上述公式(5)至公式(7)对数据执行归一化处理。
步骤S204,对归一化处理后的数据进行平滑处理。
在一些实施例中,可采用上述公式(8)对归一化处理后的数据执行平滑处理。
步骤S205,对平滑处理后的数据进行异常值检测。
在一些实施例中,可以基于步骤S100中所述的G-ESD算法或Seasonal Hybrid ESD算法对平滑处理后的数据进行异常值检测。
步骤S206,将异常值检测后的多维交易数据压缩为一维交易数据。
在一些实施例中,可采用上述公式(9)或公式(10)将异常值检测后的多维交易数据压缩为一维交易数据。
步骤S207,剔除水平型客户。
在一些实施例中,水平型客户是指客户的交易数据波动小,不适用于检测周期性客户;在具体实施时,可以计较第一交易数据中0.25分位点的数据和0.75分位点的数据,若0.25分位点的数据和0.75分位点的数据大小相同,则确定为水平型客户,该客户的交易行为为水平型交易行为,剔除该客户;即不对该客户的数据进行周期性判断。
步骤S208,判断客户的交易数据是否为周期序列数据。
在一些实施例中,首先选择7天,15天和1个月三种时间间隔,针对三种时间间隔判断客户的交易数据是否为周期序列数据的过程,可以通过步骤S209至步骤S212实现。
步骤S209,针对每种时间间隔切割交易数据,得到N子交易数据。
步骤S210,针对每种时间间隔下的子交易数据,分别计算平均动态时间规整距离。
在一些实施例中,计算平均动态时间规整距离的过程可以与上述步骤S2a相同,这里不再赘述。
步骤S211,对全量客户的动态时间规整平均距离排序,得到动态时间规整阈值。
在一些实施例中,计算动态时间规整阈值的过程可以与上述步骤S2b相同,这里不再赘述。
步骤S212,比较客户的动态时间规整值与动态时间规整阈值,判断客户是否为周期客户;若客户为周期客户,则识别该客户为非法客户。
本申请实施例中,可以在判断客户为周期客户时,直接识别该客户为非法客户,也可以进一步通过已经训练好的机器学习模型识别该周期客户是否为非法客户。
需要说明的是,本申请实施例中所涉及的客户识别装置均可以通过云计算技术获取足够的计算能力和存储空间,进而执行本申请实施例所提供的客户识别方法。本申请实施例中所涉及客户识别装置可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云服务、云数据库、云计算、云存储、云通信以及大数据等基础云计算服务的云服务器;也可以是智能手机、平板电脑、笔记本电脑、台式计算机等具备计算能力的设备;当然,客户识别装置的形态并不限定于上述。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为实现本申请实施例提供的上述客户识别方法,本申请实施例还提供一种客户识别装置,图7为本申请实施例提供的客户识别装置500的结构组成示意图,所述客户识别装置500包括:
获取单元501,用于获取针对第一客户的全部交易数据中第一时间区间的第一交易数据;
确定单元502,用于确定所述第一交易数据是否具备周期性属性;
识别单元503,用于基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户。
在一些可选实施方式中,所述识别单元503,用于若所述第一交易数据不具备周期性,则识别所述第一客户为合法交易客户;
若所述第一交易数据具备周期性,则以所述第一交易数据为机器学习模型的输入,识别所述第一客户是否为非法交易客户。
在一些可选实施方式中,所述确定单元502,用于预设至少一个时间间隔,分别计算每个时间间隔下所述第一交易数据的动态时间规整平均值;
计算全量客户的动态时间规整阈值;
基于所述第一交易数据的动态时间规整平均值和所述动态时间规整阈值,确定所述第一交易数据是否具备周期性属性。
在一些可选实施方式中,所述确定单元502,用于基于所述时间间隔将所述第一交易数据划分为N份第一子交易数据;
分别计算相邻的两份第一子交易数据之间的动态时间规整距离,得到N-1个动态时间规整距离;
计算所述N-1个动态时间规整距离的平均值,得到所述第一交易数据的动态时间规整平均值。
在一些可选实施方式中,所述确定单元502,用于计算全量客户的动态时间规整平均值;
将所述全量客户的动态时间规整平均值排序;
确定位于第一排序位置的值为所述动态时间规整阈值。
在一些可选实施方式中,所述确定单元502,用于判断所述第一交易数据的动态时间规整平均值与所述动态时间规整阈值的大小;
若所述第一交易数据的动态时间规整平均值小于所述动态时间规整阈值,则确定所述第一交易数据具备周期性;
若所述第一交易数据的动态时间规整平均值大于或等于所述动态时间规整阈值,则确定所述第一交易数据不具备周期性。
在一些可选实施方式中,所述客户识别装置500还包括:
处理单元504,用于针对每个特征维度对所述第一交易数据进行归一化处理;
对归一化后的第一交易数据进行平滑处理和异常值检测,得到第一候选交易数据;
对所述第一候选交易数据进行降维处理,得到包括一个特征维度的第一交易数据。
本申请实施例上述的客户识别装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施例还提供一种计算机程序产品,其中存储有计算机可执行指令,该计算机可执行指令被执行时能够实现本申请实施例的上述客户识别方法。
相应地,本申请实施例还提供一种存储介质,所述存储介质上存储有可执行指令,该可执行指令被处理器执行本申请实施例的上述客户识别方法实现的步骤。
为实现本申请实施例提供的上述客户识别方法,本申请实施例还提供一种电子设备,图8为本申请实施例的电子设备的结构组成示意图,如图8所示,电子设备70可以包括一个或多个(图中仅示出一个)处理器702(处理器702可以包括但不限于微处理器(MCU,MicroController Unit)或可编程逻辑器件(FPGA,Field Programmable Gate Array)等的处理装置)、用于存储数据的存储器704、以及用于通信功能的传输装置706。本领域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,电子设备70还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
存储器704可用于存储应用软件的软件程序以及模块,如本申请实施例中的方法对应的程序指令/模块,处理器702通过运行存储在存储器704内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器704可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器704可进一步包括相对于处理器702远程设置的存储器,这些远程存储器可以通过网络连接至电子设备70。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备70的通信供应商提供的无线网络。在一个实例中,传输装置706包括一个网络适配器(NIC,Network Interface Controller),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置706可以为射频(RF,Radio Frequency)模块,其用于通过无线方式与互联网进行通讯。
本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (11)

1.一种客户识别方法,其特征在于,所述方法包括:
获取针对第一客户的全部交易数据中第一时间区间的第一交易数据;
确定所述第一交易数据是否具备周期性属性;
基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一交易数据是否具备周期性属性包括:
预设至少一个时间间隔,分别计算每个时间间隔下所述第一交易数据的动态时间归整平均值;
计算全量客户的动态时间规整阈值;
基于所述第一交易数据的动态时间规整平均值和所述动态时间规整阈值,确定所述第一交易数据是否具备周期性属性。
3.根据权利要求2所述的方法,其特征在于,所述分别计算每个时间间隔下所述第一交易数据的动态时间规整平均值包括:
基于所述时间间隔将所述第一交易数据划分为N份第一子交易数据;
分别计算相邻的两份第一子交易数据之间的动态时间规整距离,得到N-1个动态时间规整距离;
计算所述N-1个动态时间规整距离的平均值,得到所述第一交易数据的动态时间规整平均值。
4.根据权利要求2所述的方法,其特征在于,所述计算全量客户的动态时间规整阈值包括:
计算全量客户的动态时间规整平均值;
将所述全量客户的动态时间规整平均值排序;
确定位于第一排序位置的值为所述动态时间规整阈值。
5.根据权利要求2所述的方法,其特征在于,所述基于所述第一交易数据的动态时间规整平均值和所述动态时间规整阈值,确定所述第一交易数据是否具备周期性属性包括:
判断所述第一交易数据的动态时间规整平均值与所述动态时间规整阈值的大小;
若所述第一交易数据的动态时间规整平均值小于所述动态时间规整阈值,则确定所述第一交易数据具备周期性;
若所述第一交易数据的动态时间规整平均值大于或等于所述动态时间规整阈值,则确定所述第一交易数据不具备周期性。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户包括:
若所述第一交易数据不具备周期性,则识别所述第一客户为合法交易客户;
若所述第一交易数据具备周期性,则识别所述第一客户为非法交易客户。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述确定所述第一交易数据是否具备周期性属性之前,所述方法还包括:
针对每个特征维度对所述第一交易数据进行归一化处理;
对归一化后的第一交易数据进行平滑处理和异常值检测,得到第一候选交易数据;
对所述第一候选交易数据进行降维处理,得到包括一个特征维度的第一交易数据。
8.一种客户识别装置,其特征在于,所述装置包括:
获取单元,用于获取针对第一客户的全部交易数据中第一时间区间的第一交易数据;
确定单元,用于确定所述第一交易数据是否具备周期性属性;
识别单元,用于基于所述第一交易数据是否具备周期性属性,识别所述第一客户是否为非法交易客户。
9.一种存储介质,其特征在于,所述存储介质上存储有可执行指令,该可执行指令被处理器执行时实现权利要求1至7任一项所述的方法步骤。
10.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至7任一项所述的方法步骤。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机可执行指令,该计算机可执行指令被执行后,能够实现权利要求1至7任一项所述的方法步骤。
CN202011563912.1A 2020-12-25 2020-12-25 一种客户识别方法及装置、电子设备 Active CN112529708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011563912.1A CN112529708B (zh) 2020-12-25 2020-12-25 一种客户识别方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011563912.1A CN112529708B (zh) 2020-12-25 2020-12-25 一种客户识别方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN112529708A true CN112529708A (zh) 2021-03-19
CN112529708B CN112529708B (zh) 2024-06-04

Family

ID=74976454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011563912.1A Active CN112529708B (zh) 2020-12-25 2020-12-25 一种客户识别方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN112529708B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125658A1 (en) * 2009-11-25 2011-05-26 Verisign, Inc. Method and System for Performing Fraud Detection for Users with Infrequent Activity
DE202018102306U1 (de) * 2018-04-04 2018-08-28 Black Gold Coin, Inc. Systeme zur persönlichen Identifizierung und Verifizierung
CN110400565A (zh) * 2019-08-20 2019-11-01 广州国音智能科技有限公司 说话人识别方法、系统及计算机可读存储介质
CN110533526A (zh) * 2019-08-13 2019-12-03 深圳追一科技有限公司 一种黑标客户的识别方法、装置、计算机设备和存储介质
CN111104438A (zh) * 2019-11-21 2020-05-05 新浪网技术(中国)有限公司 时间序列的周期性确定方法、装置及电子设备
CN111160617A (zh) * 2019-12-06 2020-05-15 北京国电通网络技术有限公司 一种电力日负荷预测方法及装置
CN111818050A (zh) * 2020-07-08 2020-10-23 腾讯科技(深圳)有限公司 目标访问行为检测方法、系统、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125658A1 (en) * 2009-11-25 2011-05-26 Verisign, Inc. Method and System for Performing Fraud Detection for Users with Infrequent Activity
DE202018102306U1 (de) * 2018-04-04 2018-08-28 Black Gold Coin, Inc. Systeme zur persönlichen Identifizierung und Verifizierung
CN110533526A (zh) * 2019-08-13 2019-12-03 深圳追一科技有限公司 一种黑标客户的识别方法、装置、计算机设备和存储介质
CN110400565A (zh) * 2019-08-20 2019-11-01 广州国音智能科技有限公司 说话人识别方法、系统及计算机可读存储介质
CN111104438A (zh) * 2019-11-21 2020-05-05 新浪网技术(中国)有限公司 时间序列的周期性确定方法、装置及电子设备
CN111160617A (zh) * 2019-12-06 2020-05-15 北京国电通网络技术有限公司 一种电力日负荷预测方法及装置
CN111818050A (zh) * 2020-07-08 2020-10-23 腾讯科技(深圳)有限公司 目标访问行为检测方法、系统、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡敏等: ""结合滑动窗口动态时间规整和CNN 的视频人脸表情识别"", 《中国图象图形学报》, vol. 23, no. 8, pages 1147 *

Also Published As

Publication number Publication date
CN112529708B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
US20230004891A1 (en) Multivariate risk assessment via poisson shelves
CN111612499B (zh) 信息的推送方法及装置、存储介质、终端
CN111861486B (zh) 异常账户识别方法、装置、设备及介质
CN113095927A (zh) 一种反洗钱可疑交易识别方法及设备
CN111612038A (zh) 异常用户检测方法及装置、存储介质、电子设备
Akyildirim et al. Applications of signature methods to market anomaly detection
CN113435900A (zh) 交易风险确定方法、装置和服务器
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN113095604B (zh) 产品数据的融合方法、装置、设备及存储介质
Pristyanto et al. The effect of feature selection on classification algorithms in credit approval
CN114372681A (zh) 基于流水数据的企业分类方法、装置、设备、介质和产品
CN114139725A (zh) 业务对象的预测方法、设备及存储介质
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN109462635A (zh) 一种信息推送方法、计算机可读存储介质及服务器
CN111784403A (zh) 基于网上商城的用户类别分析方法、装置和计算机设备
CN112529708B (zh) 一种客户识别方法及装置、电子设备
US20200311472A1 (en) Comprehensive Data Science Solution for Segmentation Analysis
CN111245815A (zh) 数据处理方法、装置、存储介质及电子设备
CN115965468A (zh) 基于交易数据的异常行为检测方法、装置、设备及介质
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN114565452A (zh) 转账风险识别方法、装置、计算机设备和存储介质
CN110570301A (zh) 风险识别方法、装置、设备及介质
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质
CN117312397B (zh) 基于大数据的人才供应链管理方法和系统
CN115169460A (zh) 一种用户分类的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant