CN117670359A - 异常交易数据的识别方法、装置、存储介质及电子设备 - Google Patents

异常交易数据的识别方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117670359A
CN117670359A CN202311570304.7A CN202311570304A CN117670359A CN 117670359 A CN117670359 A CN 117670359A CN 202311570304 A CN202311570304 A CN 202311570304A CN 117670359 A CN117670359 A CN 117670359A
Authority
CN
China
Prior art keywords
data
transaction data
abnormal
target
vector representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311570304.7A
Other languages
English (en)
Inventor
郑希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202311570304.7A priority Critical patent/CN117670359A/zh
Publication of CN117670359A publication Critical patent/CN117670359A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种异常交易数据的识别方法、装置、存储介质及电子设备,涉及金融科技领域或其他相关领域。该方法包括:获取待对账的目标交易数据,目标交易数据为多模态数据,多模态数据中至少包括文本数据、音频数据、图像数据以及数值数据;对目标交易数据进行多模态特征提取,得到多模态特征集合;通过目标模型对多模态特征集合进行聚类分析,得到分析结果,并依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别,目标模型是通过样本数据集对改进K均值聚类算法训练得到的。本发明解决了现有技术中在商户对账过程中,通过人工标记异常交易数据,存在识别异常交易数据的准确率较低的技术问题。

Description

异常交易数据的识别方法、装置、存储介质及电子设备
技术领域
本发明涉及金融科技领域或其他相关领域,具体而言,涉及一种异常交易数据的识别方法、装置、存储介质及电子设备。
背景技术
银行商户收单业务中,商户对账是确保金融交易准确性的关键步骤。商户对账是指商户与银行之间对比和核对交易数据的过程,以确保两者之间的交易记录一致。目前,现有技术中主要通过人工标记异常交易数据,需要耗费大量时间和精力,对账效率较低,并且,人工标记异常数据的主观判断容易导致误判,可能会错过一些真正的异常情况或将正常情况误判为异常,识别异常交易数据的准确率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种异常交易数据的识别方法、装置、存储介质及电子设备,以至少解决现有技术中在商户对账过程中,通过人工标记异常交易数据,存在识别异常交易数据的准确率较低的技术问题。
根据本发明实施例的一个方面,提供了一种异常交易数据的识别方法,包括:获取待对账的目标交易数据,其中,目标交易数据为多模态数据,多模态数据中至少包括文本数据、音频数据、图像数据以及数值数据;对目标交易数据进行多模态特征提取,得到多模态特征集合;通过目标模型对多模态特征集合进行聚类分析,得到分析结果,并依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别,其中,目标模型是通过样本数据集对改进K均值聚类算法训练得到的。
进一步地,获取待对账的目标交易数据,包括:获取待对账的交易数据,其中,待对账的交易数据包括多模态数据;对待对账的交易数据进行数据清洗,得到清洗后的多模态数据;对清洗后的多模态数据进行特征提取,得到多模态数据的数据特征向量表示,其中,数据特征向量表示包括文本数据特征向量表示、音频数据特征向量表示、图像数据特征向量表示以及数值数据特征向量表示;依据多模态数据的数据特征向量表示,生成待对账的目标交易数据。
进一步地,通过目标模型对多模态特征集合进行聚类分析,得到分析结果,包括:通过目标模型计算多模态特征集合中的每个数据特征向量表示与多个聚类中心之间的加权距离,得到每个数据特征向量表示对应的多个距离值,其中,距离值用于表征数据特征向量表示与聚类中心之间的相似度;将每个数据特征向量表示对应的多个距离值作为分析结果。
进一步地,依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别,包括:对于每个数据特征向量表示,将最大距离值对应的聚类中心作为目标聚类中心;依据目标聚类中心对应的类别,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别。
进一步地,通过以下步骤生成目标模型:获取样本数据集,并将样本数据集分为训练集和测试集,其中,样本数据集包含真实标签,真实标签用于标识真实数据类别;依据训练集和测试集对改进K均值聚类算法进行训练和优化,得到目标模型。
进一步地,依据训练集和测试集对改进K均值聚类算法进行训练和优化,得到目标模型,包括:确定聚类中心的数量为K,并从训练集中随机选择K个样本作为初始聚类中心,其中,K为正整数;确定训练集中每个样本的初始权重,并依据每个样本的初始权重,确定每个样本对应的初始聚类中心,得到多个初始数据簇;依据多个初始数据簇、真实标签以及测试集对改进K均值聚类算法进行训练和优化,直至改进K均值聚类算法符合预设收敛条件,得到目标模型。
进一步地,在从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别之后,该方法还包括:依据异常交易数据和异常交易数据对应的异常类别,生成每个异常类别对应的异常数据报告;将每个异常类别对应的异常数据报告发送至目标对象。
根据本发明实施例的另一方面,还提供了一种异常交易数据的识别装置,包括:获取模块,用于获取待对账的目标交易数据,其中,目标交易数据为多模态数据,多模态数据中至少包括文本数据、音频数据、图像数据以及数值数据;处理模块,用于对目标交易数据进行多模态特征提取,得到多模态特征集合;确定模块,用于通过目标模型对多模态特征集合进行聚类分析,得到分析结果,并依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别,其中,目标模型是通过样本数据集对改进K均值聚类算法训练得到的。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的异常交易数据的识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的异常交易数据的识别方法。
在本发明实施例中,采用通过多模态算法综合考虑不同类型的数据特征,通过改进K均值聚类算法自动将数据进行分类的方式,首先获取待对账的目标交易数据,然后对目标交易数据进行多模态特征提取,得到多模态特征集合,然后通过目标模型对多模态特征集合进行聚类分析,得到分析结果,并依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别。其中,目标交易数据为多模态数据,多模态数据中至少包括文本数据、音频数据、图像数据以及数值数据,目标模型是通过样本数据集对改进K均值聚类算法训练得到的。
在上述过程中,引入多模态算法,将来自不同类型的数据特征综合考虑,打破了单一数据源的局限,提供了更丰富的信息,提高了异常数据识别的准确性;引入改进K均值聚类算法能够自动将数据进行分类,节省了时间成本和人力成本,显著降低了误判率,提高了识别异常交易数据的准确率,从而提升对账过程的准确性和效率。
由此可见,通过本发明的技术方案,达到了实现商户对账中异常数据自动检测的目的,从而实现了提高识别异常交易数据的准确率和效率的技术效果,进而解决了现有技术中在商户对账过程中,通过人工标记异常交易数据,存在识别异常交易数据的准确率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的异常交易数据的识别方法的流程图;
图2是根据本发明实施例的一种可选的异常交易数据的识别系统的流程示意图;
图3是根据本发明实施例的一种可选的识别异常交易数据的示意图;
图4是根据本发明实施例的一种可选的Weight-Kmeans算法训练的流程示意图;
图5是根据本发明实施例的一种可选的异常交易数据的识别装置的示意图;
图6是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本发明所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
实施例1
根据本发明实施例,提供了一种异常交易数据的识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的异常交易数据的识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取待对账的目标交易数据,其中,目标交易数据为多模态数据,多模态数据中至少包括文本数据、音频数据、图像数据以及数值数据。
在上述步骤中,可以通过应用系统、处理器、电子设备等装置获取待对账的目标交易数据,可选地,通过异常交易数据的识别系统获取待对账的目标交易数据,目标交易数据为预处理后的数据。
步骤S102,对目标交易数据进行多模态特征提取,得到多模态特征集合。
可选地,对目标交易数据进行多模态特征提取,多模态特征提取就是从每个数据源中提取出有意义的特征,这些特征将构成多模态数据集,即得到多模态特征集合。可选地,针对不同数据类型,使用适当的特征提取方法。例如,如果是交易延迟造成的异常,可能是由于网络问题或支付系统故障,导致交易出现延迟,此时需要提取的特征是网络异常数据、支付异常数据;如果是数据录入错误造成的异常,可能是由于商户在记录订单数据时会出现录入错误,例如输入错误的订单号或金额,导致对账时出现差异,此时需要提取的特征是错误的订单号数据或者错误的金额数据;如果是对账周期不一致造成的异常,可能是由于商户和支付机构使用不同的对账周期,例如商户每日对账,而支付机构每周对账,这可能导致对账时出现差异,此时需要提取的特征是周期不一致造成的异常数据等等。
需要说明的是,采用多模态算法将不同类型的数据特征综合考虑,充分利用了数据的多样性,使系统能够更全面地分析和理解数据。通过结合来自不同来源的数据,提高异常数据的识别准确性。
步骤S103,通过目标模型对多模态特征集合进行聚类分析,得到分析结果,并依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别,其中,目标模型是通过样本数据集对改进K均值聚类算法训练得到的。
可选地,目标模型为训练好的Weight-Kmeans模型(即改进K均值聚类算法),通过目标模型可以自动识别和标记异常交易数据,从而及时发现潜在的问题并采取必要的措施。例如,系统运行部署后的Weight-Kmeans模型,将新到达的交易数据进行自动分类。通过计算加权距离,结合事先为不同特征类型分配的权重,系统可以精确评估不同样本之间的相似度和差异度,即计算出多个距离值(即得到分析结果),然后从目标交易数据中确定出异常交易数据和异常交易数据对应的异常类别,例如,最大距离值对应的类别作为当前交易数据对应的类别。可选地,异常类别可以是金额异常、周期异常、网络异常等。
需要说明的是,采用Weight-Kmeans算法能够根据数据特征自动识别不同的数据簇,实现数据的自动分类,有效地减轻了人工干预的工作负担,提高了识别异常交易数据的准确率和效率。
基于上述步骤S101至步骤S103所限定的方案,可以获知,在本发明实施例中,采用通过多模态算法综合考虑不同类型的数据特征,通过改进K均值聚类算法自动将数据进行分类的方式,首先获取待对账的目标交易数据,然后对目标交易数据进行多模态特征提取,得到多模态特征集合,然后通过目标模型对多模态特征集合进行聚类分析,得到分析结果,并依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别。其中,目标交易数据为多模态数据,多模态数据中至少包括文本数据、音频数据、图像数据以及数值数据,目标模型是通过样本数据集对改进K均值聚类算法训练得到的。
容易注意到的是,在上述过程中,引入多模态算法,将来自不同类型的数据特征综合考虑,打破了单一数据源的局限,提供了更丰富的信息,提高了异常数据识别的准确性;引入改进K均值聚类算法能够自动将数据进行分类,节省了时间成本和人力成本,显著降低了误判率,提高了识别异常交易数据的准确率,从而提升对账过程的准确性和效率。
由此可见,通过本发明的技术方案,达到了实现商户对账中异常数据自动检测的目的,从而实现了提高识别异常交易数据的准确率和效率的技术效果,进而解决了现有技术中在商户对账过程中,通过人工标记异常交易数据,存在识别异常交易数据的准确率较低的技术问题。
图2是根据本发明实施例的一种可选的异常交易数据的识别系统的流程示意图,如图2所示,包括如下步骤:
步骤S1:数据收集与预处理。
可选地,从银行金融领域获取大量历史商户对账数据,包括正常交易和可能的异常情况,数据涵盖不同类型的交易、金额范围、时间跨度等,以充分反映真实场景。然后对数据进行清洗,处理缺失值、异常值和重复数据,确保数据的一致性和完整性。然后进行特征提取,将原始数据转化为模型可理解的特征向量表示,包括从交易描述中提取关键词、计算统计指标(例如,平均交易金额和频率)以及应用领域专业知识提取有意义的特征。同时,考虑到数据的多模态性,如文本、数值、图像等,将不同模态的数据进行合理整合和编码。最终,创建一个可供训练和测试使用的数据集,确保样本的平衡性,以免模型出现偏差。
步骤S2:多模态特征提取。
可选地,在收集到了大量的数据之后,针对不同数据类型,使用适当的特征提取方法。例如,如果是交易延迟造成的异常,可能是由于网络问题或支付系统故障,导致交易出现延迟,此时需要提取的特征是网络异常数据、支付异常数据;如果是数据录入错误造成的异常,可能是由于商户在记录订单数据时会出现录入错误,例如输入错误的订单号或金额,导致对账时出现差异,此时需要提取的特征是错误的订单号数据或者错误的金额数据;如果是对账周期不一致造成的异常,可能是由于商户和支付机构使用不同的对账周期,例如商户每日对账,而支付机构每周对账,这可能导致对账时出现差异,此时需要提取的特征是周期不一致造成的异常数据等等。多模态特征提取就是从每个数据源中提取出有意义的特征,这些特征将构成多模态数据集。
步骤S3:Weight-Kmeans算法训练。
可选地,使用加权距离计算的结果,应用Weight-Kmeans算法进行自动分类。通过迭代更新样本的类别分配,使得同一类别内的样本距离较近,不同类别之间的样本距离较远,从而实现异常数据和正常数据的有效分离。
步骤S4:模型部署。
可选地,将训练好的模型进行部署环境,如服务器、云平台、移动设备或嵌入式系统,并根据环境选择合适的部署方式,如通过Web API、移动应用或边缘计算。在导出和优化模型后,需要编写相应的代码将模型加载到部署环境中。通过这些步骤,可以确保模型在实际应用中高效、准确地运行,并随时进行调整和维护。
步骤S5:异常数据识别和报警。
可选地,在实际操作中,系统运行部署后的Weight-Kmeans模型,将新到达的交易数据进行自动分类。通过计算加权距离,结合事先为不同特征类型分配的权重,系统可以精确评估不同样本之间的相似度和差异度。然后,基于Weight-Kmeans自动分类算法,将交易数据划分为正常类和详细的异常类。对于被分类为异常类的交易数据,系统会生成相应的警告或报告。
步骤S6:自主学习。
可选地,自主学习能力的核心在于系统能够从大量历史数据中获取信息,识别模式、规律和趋势,并以此为基础进行自我更新和改进。系统会分析交易数据的特点,监测模型的表现,以及不同规则的效果,然后自动调整模型参数、规则和算法,以适应不断变化的业务环境。通过自主学习能力,系统能够不断适应新的异常数据模式,识别未知的风险,甚至在面对未经训练的情况下做出准确的判断,使得系统具备强大的自适应性和泛化能力,能够有效应对不同类型的异常情况,提高金融机构的风险识别和管理水平。
图3是根据本发明实施例的一种可选的识别异常交易数据的示意图,如图3所示,收集样本商户对账数据并进行多模态提取后,训练得到Weight-Kmeans模型,实现异常数据分类,即分为金额异常数据、周期异常数据、网络异常数据。在实际操作中,系统运行部署后的Weight-Kmeans模型,将新到达的交易数据(即未知数据)进行自动分类,即分为金额异常数据、周期异常数据、网络异常数据。
在一种可选的实施例中,获取待对账的目标交易数据,包括:获取待对账的交易数据,其中,待对账的交易数据包括多模态数据;对待对账的交易数据进行数据清洗,得到清洗后的多模态数据;对清洗后的多模态数据进行特征提取,得到多模态数据的数据特征向量表示,其中,数据特征向量表示包括文本数据特征向量表示、音频数据特征向量表示、图像数据特征向量表示以及数值数据特征向量表示;依据多模态数据的数据特征向量表示,生成待对账的目标交易数据。
可选地,在获取待对账的目标交易数据的过程中,首先获取待对账的交易数据,即新到达的交易数据,然后进行数据预处理,即对待对账的交易数据进行数据清洗,得到清洗后的多模态数据,并对清洗后的多模态数据进行特征提取,将数据转化为模型可理解的特征向量表示,即得到多模态数据的数据特征向量表示。同时,考虑到数据的多模态性,如文本数据特征向量表示、音频数据特征向量表示、图像数据特征向量表示以及数值数据特征向量表示等,将不同模态的数据进行合理整合和编码,生成待对账的目标交易数据。
在一种可选的实施例中,通过目标模型对多模态特征集合进行聚类分析,得到分析结果,包括:通过目标模型计算多模态特征集合中的每个数据特征向量表示与多个聚类中心之间的加权距离,得到每个数据特征向量表示对应的多个距离值,其中,距离值用于表征数据特征向量表示与聚类中心之间的相似度;将每个数据特征向量表示对应的多个距离值作为分析结果。
在一种可选的实施例中,依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别,包括:对于每个数据特征向量表示,将最大距离值对应的聚类中心作为目标聚类中心;依据目标聚类中心对应的类别,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别。
可选地,在通过目标模型对多模态特征集合进行聚类分析,得到分析结果的过程中,通过计算加权距离,结合事先为不同特征类型分配的权重,系统可以精确评估不同样本之间的相似度和差异度,例如,通过目标模型计算多模态特征集合中的每个数据特征向量表示与多个聚类中心之间的加权距离,可以得到每个数据特征向量表示对应的多个距离值,并将每个数据特征向量表示对应的多个距离值作为分析结果。
可选地,在依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别的过程中,对于每个数据特征向量表示,可以将最大距离值对应的聚类中心作为目标聚类中心,然后依据目标聚类中心对应的类别,可以从目标交易数据中确定出异常交易数据和异常交易数据对应的异常类别,即得到每个数据特征向量表示对应的多个距离值之后,可以将最大距离值对应的聚类中心所对应的类别作为该特征向量表示的类别。例如,特征1的目标聚类中心为A,A的类别为网络异常,则实现了从目标交易数据中确定出特征1为异常数据,其对应的异常类别为网络异常。
需要说明的是,通过上述过程,实现了数据的自动分类,有效地减轻了人工干预的工作负担,提高了识别异常交易数据的准确率和效率。
在一种可选的实施例中,通过以下步骤生成目标模型:获取样本数据集,并将样本数据集分为训练集和测试集,其中,样本数据集包含真实标签,真实标签用于标识真实数据类别;依据训练集和测试集对改进K均值聚类算法进行训练和优化,得到目标模型。
在一种可选的实施例中,依据训练集和测试集对改进K均值聚类算法进行训练和优化,得到目标模型,包括:确定聚类中心的数量为K,并从训练集中随机选择K个样本作为初始聚类中心,其中,K为正整数;确定训练集中每个样本的初始权重,并依据每个样本的初始权重,确定每个样本对应的初始聚类中心,得到多个初始数据簇;依据多个初始数据簇、真实标签以及测试集对改进K均值聚类算法进行训练和优化,直至改进K均值聚类算法符合预设收敛条件,得到目标模型。
可选地,在生成目标模型的过程中,首先获取样本数据集,并将样本数据集分为训练集和测试集,然后依据训练集和测试集对改进K均值聚类算法进行训练和优化,得到目标模型。
可选地,在依据训练集和测试集对改进K均值聚类算法进行训练和优化,得到目标模型的过程中,首先确定聚类中心的数量为K,并从训练集中随机选择K个样本作为初始聚类中心,然后确定训练集中每个样本的初始权重,并依据每个样本的初始权重,确定每个样本对应的初始聚类中心,即计算得到每个样本与初始聚类中心之间的距离,将每个样本分配到距离其最近的聚类中心,得到多个初始数据簇,然后依据多个初始数据簇、真实标签以及测试集对改进K均值聚类算法进行训练和优化,直至改进K均值聚类算法符合预设收敛条件,可以得到目标模型。例如,预设收敛条件可以是样本的分类不再变化或者迭代次数达到预设的次数。
图4是根据本发明实施例的一种可选的Weight-Kmeans算法训练的流程示意图,如图4所示,包括如下步骤:
步骤A1:初始化。
可选地,在Weight-Kmeans算法中,初始化是算法的首要步骤,旨在为后续的数据处理和聚类迭代提供初始状态。初始化的目标是确定聚类的数量(K值),选择初始的聚类中心,并为每个样本分配初始权重,以便在聚类过程中引入样本的重要性和权重信息。确定K值是初始化的关键,它决定了聚类中心的数量,直接影响聚类结果的精确性和稳定性。合理的K值应基于先验知识或试验分析,以确保不过分细分或合并。其中,K值的确定具体公式如下:
K=K1+α
其中,Ci是第i个簇,x是Ci中的样本点,μi是Ci的质心(Ci中所有样本的均值),通过对k求二阶导数,来确定K值数量,K1表示原始中心数量,α表示系数,防止中心数值为0,如果K1计算数值大于1,α就等于0,如果K1计算数值等于0,α就等于1。通过计算二阶导数,降低了人为观察的误差,可以更加精确的确定出K值数量用于计算。
可选地,从数据集中随机选择K个样本作为初始聚类中心。这些样本将充当每个聚类的代表,指导后续的样本分类和聚类过程。然后为每个样本分配初始权重,以反映它们对于聚类中心的重要性。可选地,权重可以根据数据的特点、业务需求或其他因素进行设定。
步骤A2:加权距离。
可选地,在Weight-Kmeans算法中,加权距离计算是实现数据聚类的关键步骤。这一阶段旨在将每个样本分配到距离其最近的聚类中心,并结合样本的权重计算加权距离,从而实现对多模态数据的自动分类。其中,加权距离公式如下:
其中,d(x,y)表示样本x和y之间的加权距离,wi表示第i个特征的权重,xi和yi分别表示样本x和y在第i个特征上的取值。具体地,每个特征的差值的绝对值乘以对应的权重,然后求和得到最终的距离值。可选地,通过设置不同的权重,可以调整不同特征对距离的贡献程度。
步骤A3:更新聚类中心。
可选地,在Weight-Kmeans算法中,更新聚类中心是算法的关键步骤之一,旨在根据样本的加权分类,计算每个聚类的新中心位置。确保聚类中心更好地代表每个类别,使得分类更加准确。对于每个聚类,将所有在该类别中的样本的特征进行加权平均。权重越大的样本在计算平均时具有更大的贡献。这种加权平均确保了样本的权重和距离在聚类中心更新中都得到了充分考虑。更新聚类中心不仅考虑了样本的特征,还考虑了其权重,因此更加精确地反映了每个聚类的中心位置。使得聚类中心能够更好地代表每个类别的分布特征,从而为后续的迭代提供了更准确的基础。
可选地,聚类中心的更新需要计算损失函数,具体表示如下:
其中,表示预测值,y表示真实值,β表示超参数,当预测值和真实值的差距超过某个阈值,那么β就会自动增大,使得他们之间的差异更明显,如果真实值和预测值之间的差距小于某个阈值,那么β就会减小,使得数据更易于区分。
步骤A4:更新权重。
可选地,根据样本的加权距离和分类结果,调整每个样本的权重,以反映其在聚类过程中的贡献度。根据样本的加权距离,权重更新过程中,距离较远的样本权重减小,而距离较近的样本权重增加。使得模型在计算距离时更关注与聚类中心距离较近的样本,从而更准确地分类数据。确保了每个样本在聚类过程中的影响力与其实际贡献相符。在每次迭代中,权重的调整将使得模型更好地适应数据分布和聚类需求,从而提高算法的准确性和稳定性。通过反复迭代,Weight-Kmeans算法能够逐步优化样本的权重,进而影响整体的自动分类和异常数据识别能力。
步骤A5:收敛判断。
可选地,确定算法是否已经达到稳定状态,不再发生明显的变化。可选地,收敛判断基于两个条件:一是检查样本的分类是否在迭代中发生了变化;二是检查迭代次数是否达到了预设的阈值。当样本的分类不再变化或者迭代次数达到预设的次数时,算法被认为已经收敛。通过不断迭代,Weight-Kmeans算法会逐渐趋于稳定状态,从而获得最终的聚类结果和异常数据的识别能力。
步骤A6:输出结果。
可选地,Weight-Kmeans算法的输出结果包括更新后的聚类中心和每个样本所属的聚类类别。这些结果反映了数据的自动分类和聚类,能够为异常交易数据的识别系统提供准确的识别和分类信息。
需要说明的是,在上述过程中,实现了通过样本数据集对改进K均值聚类算法训练得到目标模型,从而能够通过目标模型自动将数据进行分类,节省时间成本和人力成本,显著降低误判率,提高了识别异常交易数据的准确率,从而提升对账过程的准确性和效率。
在一种可选的实施例中,在从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别之后,依据异常交易数据和异常交易数据对应的异常类别,生成每个异常类别对应的异常数据报告;将每个异常类别对应的异常数据报告发送至目标对象。
可选地,在从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别之后,可以依据异常交易数据和异常交易数据对应的异常类别,生成每个异常类别对应的异常数据报告,将每个异常类别对应的异常数据报告发送至目标对象(例如,对账人员)。可选地,对于被分类为异常类的交易数据,系统生成相应的警告或报告,以通知工作人员,以便他们能够及时采取进一步的调查和处理措施。系统能够及时检测到潜在的异常情况,防止异常交易对金融系统造成潜在风险。
需要说明的是,本发明实施例针对银行商户收单业务,解决了商户对账中异常数据识别的问题。通过多模态数据的特征提取、加权分类和加权距离计算,以及Weight-Kmeans算法的自动分类,本系统能够自主学习不同数据特征,实现精确的异常数据识别和报警,从而提升对账过程的准确性和效率。
由此可见,通过本发明的技术方案,达到了实现商户对账中异常数据自动检测的目的,从而实现了提高识别异常交易数据的准确率和效率的技术效果,进而解决了现有技术中在商户对账过程中,通过人工标记异常交易数据,存在识别异常交易数据的准确率较低的技术问题。
实施例2
根据本发明实施例,提供了一种异常交易数据的识别装置的实施例,其中,图5是根据本发明实施例的一种可选的异常交易数据的识别装置的示意图,如图5所示,该装置包括:获取模块501,用于获取待对账的目标交易数据,其中,目标交易数据为多模态数据,多模态数据中至少包括文本数据、音频数据、图像数据以及数值数据;处理模块502,用于对目标交易数据进行多模态特征提取,得到多模态特征集合;确定模块503,用于通过目标模型对多模态特征集合进行聚类分析,得到分析结果,并依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别,其中,目标模型是通过样本数据集对改进K均值聚类算法训练得到的。
需要说明的是,上述的获取模块501、处理模块502以及确定模块503对应于上述实施例中的步骤S101至步骤S103,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选地,获取模块包括:第一获取模块,用于获取待对账的交易数据,其中,待对账的交易数据包括多模态数据;第一处理模块,用于对待对账的交易数据进行数据清洗,得到清洗后的多模态数据;第二处理模块,用于对清洗后的多模态数据进行特征提取,得到多模态数据的数据特征向量表示,其中,数据特征向量表示包括文本数据特征向量表示、音频数据特征向量表示、图像数据特征向量表示以及数值数据特征向量表示;第一生成模块,用于依据多模态数据的数据特征向量表示,生成待对账的目标交易数据。
可选地,确定模块包括:计算模块,用于通过目标模型计算多模态特征集合中的每个数据特征向量表示与多个聚类中心之间的加权距离,得到每个数据特征向量表示对应的多个距离值,其中,距离值用于表征数据特征向量表示与聚类中心之间的相似度;第一确定模块,用于将每个数据特征向量表示对应的多个距离值作为分析结果。
可选地,确定模块还包括:第二确定模块,用于对于每个数据特征向量表示,将最大距离值对应的聚类中心作为目标聚类中心;第三确定模块,用于依据目标聚类中心对应的类别,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别。
可选地,异常交易数据的识别装置还包括以下模块,用于通过以下步骤生成目标模型:第二获取模块,用于获取样本数据集,并将样本数据集分为训练集和测试集,其中,样本数据集包含真实标签,真实标签用于标识真实数据类别;训练模块,用于依据训练集和测试集对改进K均值聚类算法进行训练和优化,得到目标模型。
可选地,训练模块包括:第四确定模块,用于确定聚类中心的数量为K,并从训练集中随机选择K个样本作为初始聚类中心,其中,K为正整数;第五确定模块,用于确定训练集中每个样本的初始权重,并依据每个样本的初始权重,确定每个样本对应的初始聚类中心,得到多个初始数据簇;第三处理模块,用于依据多个初始数据簇、真实标签以及测试集对改进K均值聚类算法进行训练和优化,直至改进K均值聚类算法符合预设收敛条件,得到目标模型。
可选地,异常交易数据的识别装置还包括:第二生成模块,用于在从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别之后,依据异常交易数据和异常交易数据对应的异常类别,生成每个异常类别对应的异常数据报告;发送模块,用于将每个异常类别对应的异常数据报告发送至目标对象。
实施例3
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的异常交易数据的识别方法。
实施例4
根据本发明实施例的另一方面,还提供了一种电子设备,其中,图6是根据本发明实施例的一种可选的电子设备的示意图,如图6所示,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的异常交易数据的识别方法。处理器执行程序时实现以下步骤:获取待对账的目标交易数据,其中,目标交易数据为多模态数据,多模态数据中至少包括文本数据、音频数据、图像数据以及数值数据;对目标交易数据进行多模态特征提取,得到多模态特征集合;通过目标模型对多模态特征集合进行聚类分析,得到分析结果,并依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别,其中,目标模型是通过样本数据集对改进K均值聚类算法训练得到的。
可选地,处理器执行程序时还实现以下步骤:获取待对账的目标交易数据,包括:获取待对账的交易数据,其中,待对账的交易数据包括多模态数据;对待对账的交易数据进行数据清洗,得到清洗后的多模态数据;对清洗后的多模态数据进行特征提取,得到多模态数据的数据特征向量表示,其中,数据特征向量表示包括文本数据特征向量表示、音频数据特征向量表示、图像数据特征向量表示以及数值数据特征向量表示;依据多模态数据的数据特征向量表示,生成待对账的目标交易数据。
可选地,处理器执行程序时还实现以下步骤:通过目标模型对多模态特征集合进行聚类分析,得到分析结果,包括:通过目标模型计算多模态特征集合中的每个数据特征向量表示与多个聚类中心之间的加权距离,得到每个数据特征向量表示对应的多个距离值,其中,距离值用于表征数据特征向量表示与聚类中心之间的相似度;将每个数据特征向量表示对应的多个距离值作为分析结果。
可选地,处理器执行程序时还实现以下步骤:依据分析结果,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别,包括:对于每个数据特征向量表示,将最大距离值对应的聚类中心作为目标聚类中心;依据目标聚类中心对应的类别,从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别。
可选地,处理器执行程序时还实现以下步骤:通过以下步骤生成目标模型:获取样本数据集,并将样本数据集分为训练集和测试集,其中,样本数据集包含真实标签,真实标签用于标识真实数据类别;依据训练集和测试集对改进K均值聚类算法进行训练和优化,得到目标模型。
可选地,处理器执行程序时还实现以下步骤:依据训练集和测试集对改进K均值聚类算法进行训练和优化,得到目标模型,包括:确定聚类中心的数量为K,并从训练集中随机选择K个样本作为初始聚类中心,其中,K为正整数;确定训练集中每个样本的初始权重,并依据每个样本的初始权重,确定每个样本对应的初始聚类中心,得到多个初始数据簇;依据多个初始数据簇、真实标签以及测试集对改进K均值聚类算法进行训练和优化,直至改进K均值聚类算法符合预设收敛条件,得到目标模型。
可选地,处理器执行程序时还实现以下步骤:在从目标交易数据中确定异常交易数据和异常交易数据对应的异常类别之后,依据异常交易数据和异常交易数据对应的异常类别,生成每个异常类别对应的异常数据报告;将每个异常类别对应的异常数据报告发送至目标对象。
本文中的设备可以是服务器、PC、PAD、手机等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种异常交易数据的识别方法,其特征在于,包括:
获取待对账的目标交易数据,其中,所述目标交易数据为多模态数据,所述多模态数据中至少包括文本数据、音频数据、图像数据以及数值数据;
对所述目标交易数据进行多模态特征提取,得到多模态特征集合;
通过目标模型对所述多模态特征集合进行聚类分析,得到分析结果,并依据所述分析结果,从所述目标交易数据中确定异常交易数据和所述异常交易数据对应的异常类别,其中,所述目标模型是通过样本数据集对改进K均值聚类算法训练得到的。
2.根据权利要求1所述的方法,其特征在于,获取待对账的目标交易数据,包括:
获取待对账的交易数据,其中,所述待对账的交易数据包括所述多模态数据;
对所述待对账的交易数据进行数据清洗,得到清洗后的多模态数据;
对所述清洗后的多模态数据进行特征提取,得到所述多模态数据的数据特征向量表示,其中,所述数据特征向量表示包括文本数据特征向量表示、音频数据特征向量表示、图像数据特征向量表示以及数值数据特征向量表示;
依据所述多模态数据的数据特征向量表示,生成所述待对账的目标交易数据。
3.根据权利要求2所述的方法,其特征在于,通过目标模型对所述多模态特征集合进行聚类分析,得到分析结果,包括:
通过所述目标模型计算所述多模态特征集合中的每个数据特征向量表示与多个聚类中心之间的加权距离,得到所述每个数据特征向量表示对应的多个距离值,其中,所述距离值用于表征数据特征向量表示与聚类中心之间的相似度;
将所述每个数据特征向量表示对应的多个距离值作为所述分析结果。
4.根据权利要求3所述的方法,其特征在于,依据所述分析结果,从所述目标交易数据中确定异常交易数据和所述异常交易数据对应的异常类别,包括:
对于所述每个数据特征向量表示,将最大距离值对应的聚类中心作为目标聚类中心;
依据所述目标聚类中心对应的类别,从所述目标交易数据中确定所述异常交易数据和所述异常交易数据对应的异常类别。
5.根据权利要求1所述的方法,其特征在于,通过以下步骤生成所述目标模型:
获取所述样本数据集,并将所述样本数据集分为训练集和测试集,其中,所述样本数据集包含真实标签,所述真实标签用于标识真实数据类别;
依据所述训练集和所述测试集对所述改进K均值聚类算法进行训练和优化,得到所述目标模型。
6.根据权利要求5所述的方法,其特征在于,依据所述训练集和所述测试集对所述改进K均值聚类算法进行训练和优化,得到所述目标模型,包括:
确定聚类中心的数量为K,并从所述训练集中随机选择K个样本作为初始聚类中心,其中,K为正整数;
确定所述训练集中每个样本的初始权重,并依据所述每个样本的初始权重,确定所述每个样本对应的初始聚类中心,得到多个初始数据簇;
依据所述多个初始数据簇、所述真实标签以及所述测试集对所述改进K均值聚类算法进行训练和优化,直至所述改进K均值聚类算法符合预设收敛条件,得到所述目标模型。
7.根据权利要求1所述的方法,其特征在于,在从所述目标交易数据中确定异常交易数据和所述异常交易数据对应的异常类别之后,所述方法还包括:
依据所述异常交易数据和所述异常交易数据对应的异常类别,生成每个异常类别对应的异常数据报告;
将所述每个异常类别对应的异常数据报告发送至目标对象。
8.一种异常交易数据的识别装置,其特征在于,包括:
获取模块,用于获取待对账的目标交易数据,其中,所述目标交易数据为多模态数据,所述多模态数据中至少包括文本数据、音频数据、图像数据以及数值数据;
处理模块,用于对所述目标交易数据进行多模态特征提取,得到多模态特征集合;
确定模块,用于通过目标模型对所述多模态特征集合进行聚类分析,得到分析结果,并依据所述分析结果,从所述目标交易数据中确定异常交易数据和所述异常交易数据对应的异常类别,其中,所述目标模型是通过样本数据集对改进K均值聚类算法训练得到的。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的异常交易数据的识别方法。
10.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至7任一项中所述的异常交易数据的识别方法。
CN202311570304.7A 2023-11-22 2023-11-22 异常交易数据的识别方法、装置、存储介质及电子设备 Pending CN117670359A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311570304.7A CN117670359A (zh) 2023-11-22 2023-11-22 异常交易数据的识别方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311570304.7A CN117670359A (zh) 2023-11-22 2023-11-22 异常交易数据的识别方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117670359A true CN117670359A (zh) 2024-03-08

Family

ID=90085590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311570304.7A Pending CN117670359A (zh) 2023-11-22 2023-11-22 异常交易数据的识别方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117670359A (zh)

Similar Documents

Publication Publication Date Title
US20190180379A1 (en) Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof
US20090043715A1 (en) Method to Continuously Diagnose and Model Changes of Real-Valued Streaming Variables
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
CN111127178A (zh) 数据处理方法与装置、存储介质、电子设备
US20230419402A1 (en) Systems and methods of optimizing machine learning models for automated anomaly detection
CN112990294B (zh) 行为判别模型的训练方法、装置、电子设备及存储介质
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN114186626A (zh) 一种异常检测方法、装置、电子设备及计算机可读介质
CN112561320A (zh) 机构风险预测模型的训练方法、机构风险预测方法和装置
CN109102396A (zh) 一种用户信用评级方法、计算机设备及可读介质
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN111815435A (zh) 一种群体风险特征的可视化方法、装置、设备及存储介质
CN112329862A (zh) 基于决策树的反洗钱方法及系统
CN116664306A (zh) 风控规则的智能推荐方法、装置、电子设备及介质
JP2021018466A (ja) ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム
CN115619539A (zh) 贷前风险评价方法以及装置
CN115482084A (zh) 用于生成风控规则集的方法及装置
CN117670359A (zh) 异常交易数据的识别方法、装置、存储介质及电子设备
CN115439928A (zh) 一种操作行为识别方法及装置
Yang et al. An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity
CN114612239A (zh) 基于算法、大数据、人工智能的股票舆情监测和风控系统
Lee et al. Application of machine learning in credit risk scorecard
CN114092230A (zh) 一种数据处理方法、装置、电子设备及计算机可读介质
CN113240513A (zh) 一种用户授信额度的确定方法和相关装置
CN112634048A (zh) 一种反洗钱模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination