CN117057941B - 基于多维度数据分析的异常消费检测方法 - Google Patents
基于多维度数据分析的异常消费检测方法 Download PDFInfo
- Publication number
- CN117057941B CN117057941B CN202311189247.8A CN202311189247A CN117057941B CN 117057941 B CN117057941 B CN 117057941B CN 202311189247 A CN202311189247 A CN 202311189247A CN 117057941 B CN117057941 B CN 117057941B
- Authority
- CN
- China
- Prior art keywords
- payment
- abnormal consumption
- consumption detection
- data
- reimbursement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 78
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000007405 data analysis Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000012795 verification Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 15
- 238000013515 script Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 21
- 238000007726 management method Methods 0.000 description 11
- 230000006399 behavior Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 102100037651 AP-2 complex subunit sigma Human genes 0.000 description 1
- 101000806914 Homo sapiens AP-2 complex subunit sigma Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供了基于多维度数据分析的异常消费检测方法,包括以下步骤;自动获取关联报销系统中的报销费用信息以构成数据库,所述数据库中至少包括报销费用信息中的支付时间、支付方式以及供应商;以时间为纵轴,分别构建设定时间段内同一供应商、同一支付时间以及不同支付方式的变化趋势,以形成特征工程;将所述特征工程输入到高斯核函数中,高斯核函数将特征工程的特性映射到高位空间中,得到非线性关系,以构成初步检测模型;划分为训练集测试集,并通过k折交叉验证进行异常消费检测模型的验证,验证优化后得到异常消费检测模型;利用异常消费检测模型检测,输出支付时间、支付方式以及供应商是否异常的检测结果。
Description
技术领域
本发明涉及财务管理中的差旅费用管理检测技术领域,尤其涉及基于多维度数据分析的异常消费检测方法。
背景技术
在企业管理中,员工的异常消费行为可能会给企业带来潜在的风险和损失。然而,目前的异常消费识别方法存在一些缺陷。传统的异常消费识别方法主要基于单一的指标,如费用金额的阈值等,容易导致误判或漏判。另外,现有方法往往无法考虑到时间和频率的因素,无法识别出在特定时间段内发生频繁的费用,以及频繁出现在相同商家的消费行为。同时,在企业的日常经营活动中,员工的消费行为可能存在异常情况,例如超出预算、频繁消费等。传统的异常消费检测方法主要依赖于人工审核和规则设置,存在以下缺陷:
人工审核效率低下:由于费用数据庞大且复杂,传统的人工审核方法需要耗费大量的时间和人力资源。
审核结果容易出现漏检和误检:人工审核容易受主观因素影响,可能会漏检一些异常消费行为,或者误判一些正常消费行为。
规则设置不够灵活:传统的异常消费检测方法主要依赖于预先设置的规则,无法适应不同企业的特殊需求和变化。
发明内容
本发明实现了差旅等报销费用的异常检测,主要是通过基于多维度数据分析的异常消费检测方法,筛选剔除同一时间内出现多次报销导致超出预算以及频繁消费的问题,提高了财务的管理效率。
为实现上述目的,本发明通过以下技术方案予以实现。
基于多维度数据分析的异常消费检测方法,包括以下步骤;
自动获取关联报销系统中的报销费用信息以构成数据库,所述数据库中至少包括报销费用信息中的支付时间、支付方式以及供应商;
以时间为纵轴,分别构建设定时间段内同一供应商、同一支付时间以及不同支付方式的变化趋势,以形成特征工程;
选用PCA方法对所述特征工程分别进行降维后,将所述特征工程输入到高斯核函数中,高斯核函数将特征工程的特性映射到高位空间中,得到非线性关系,以构成初步检测模型;
将数据库中的支付时间、支付方式以及供应商,分别划分为训练集测试集,并通过k折交叉验证进行异常消费检测模型的验证;
根据交叉验证结果,优化初步检测模型中,得到异常消费检测模型;
获取员工设定时间段内的报销费用信息作为异常消费检测模型的输入值,并利用异常消费检测模型检测,输出支付时间、支付方式以及供应商是否异常的检测结果。
作为本发明的进一步改进,所述自动获取中,还包括加密获取传输,具体为利用随机数生成算法随机生成自动获取密钥,并选择TLS作为SSL协议版本,以AES一GCM算法进行自动获取中的加密传输。
作为本发明的进一步改进,所述自动获取具体为:利用自动化脚本方式,通过秘钥查询并提取设定时间段内,同一员工或相关员工的报销费用信息。
作为本发明的进一步改进,所述支付时间包括工作日支付和非工作日支付,所述支付方式包括线上支付和线下支付,所述数据库中还包括支付用途、支付金额、支付地点。
作为本发明的进一步改进,还包括分别构建工作日支付变化趋势、非工作日支付变化趋势以及同一支付用途的变化趋势。
作为本发明的进一步改进,所述异常消费检测模型对所述变化趋势进行分析,并设定阈值,且所述非工作日支付变化趋势的阈值小于工作日支付变化趋势的阈值。
作为本发明的进一步改进,所述初步检测模型中,还包括同一设定时间段内,不同支付方式的变化趋势的叠加,以判断是否在同一时间段内存在重复支付。
作为本发明的进一步改进,所述报销费用信息中还包括员工岗位、岗位等级以及该岗位等级对应的报销额度。
作为本发明的进一步改进,还包括对特征工程使用MinMaxScaler或StandardScaler进行特征缩放。
作为本发明的进一步改进,还包括利用鲁棒PCA方法或增量PCA方法进行特征工程的降维。
本发明的有益效果如下:
本发明中,通过对不同的供应商等进行分析,避免了财务数据报销时,同一供应商反复多次报销异常,统一支付时间多次支付以及选用不同方式多次支付等造成的报销异常无法识别的问题,提高了财务工作的效率。
本发明中,利用机器学习算法对多维度数据进行分析,提高异常消费的检测准确性和效率。
附图说明
图1为本发明提供的基于多维度数据分析的异常消费检测方法的流程图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
步骤1:收集员工的费用数据
本实施例中,为提高效率,引入自动化方式,具体是选用编写获取财管报销数据的脚本,与报销系统关联,进而设定每月为一个周期,利用秘钥,自动化查询并提取相关的报销费用信息。当然,还可以设置采集时间和采集频率,以便于获得输入财务管理系统软件中的费用数据。
1.1数据自动获取中的安全措施和设置
通过无线网络等,连接财务数据软件,然后通过设定的密钥生成以及传输协议等,确保获取得到安全的数据,当然,还可以设定,比如每月获取一次数据等频率参数,以便于财务人员及时进行财务数据的检测。
为了保护财务管理系统软件中的数据,本实施例中,钥生成的安全性提升:使用安全的随机数生成算法,如Fortuna算法,生成秘钥。将生成的秘钥存储在硬件安全模块(HSM)中,确保秘钥的安全性。
实际应用中,选择TLS1.3作为SSL协议版本,该版本具有更高的安全性和性能。同时,根据实际情况进行兼容性测试,确保系统能够正常运行。
为了加密传输性能优化,选择AES-GCM算法,通过硬件加速技术提高加密传输的效率。同时,进行性能测试和优化,确保数据传输的延迟在可接受范围内。
在人员操作中,可以通过访问控制和权限管理,对数据收集和处理系统进行访问控制和权限管理,确保只有授权的人员才能进行数据操作。例如,可以采用身份认证和授权机制,限制非授权人员的访问和操作权限。
为了避免存储中的丢失等,本实施例中,采用冗余存储技术,如RAID5,确保加密存储的数据不会丢失。同时,定期进行数据备份,并建立恢复机制,以应对数据损坏或丢失的情况。还可以对数据进行格式检查、范围检查和逻辑检查等,排除异常数据的影响。
本实施例中,通过生成秘钥,并利用SSL协议进行加密传输和加密存储的优化方案。通过对问题的分析和改进方案的提出,可以提高系统的安全性、性能和可靠性,确保数据的保密性和完整性。
1.2数据自动获取
本实施例中,以Python语言和MySQL数据库为例,介绍脚本的自动获取过程:
确定ERP系统接口:首先,确定ERP系统是否提供了API或其他接口来访问和获取财务报销数据。如果有,可以使用该接口来进行数据提取。
确定API访问权限:如果ERP系统提供了API接口,确保你具有访问该接口的权限。通常需要获取API密钥或访问令牌,并确保具有足够的权限来访问财务报销数据。
导入所需的库:根据所选择的编程语言,导入相应的库或模块,以便进行API调用和数据处理。例如,在Python中,可以使用requests库进行API调用。
编写API调用脚本:使用所选的编程语言编写脚本,以调用ERP系统的API接口,并获取财务报销数据。根据ERP系统的API文档,构建正确的API请求和参数。例如,在Python中,可以使用requests.get()方法发送GET请求,并传递所需的API参数。
处理API响应:一旦收到API的响应,可以使用脚本处理和解析返回的数据。根据API返回的数据格式(例如JSON或XML),使用适当的方法进行数据解析和提取。可以根据财务报销数据的结构和需求,提取所需的字段和信息。
数据处理和存储:根据需求,对获取的财务报销数据进行处理、清洗和转换。可以将数据存储到文件、数据库或其他数据存储介质中,以便后续的数据分析和报告生成。
定期运行脚本:如果需要定期获取财务报销数据,可以设置脚本的定时任务或自动化工作流程,以便自动执行脚本并更新数据。
需要注意的是,ERP系统的API和数据访问方式可能因供应商和版本而异。因此,在编写脚本之前,建议详细阅读ERP系统的API文档,并确保了解和遵守供应商的API使用规范和限制。
总之,利用自动化脚本获取ERP系统中的财务报销数据可以提高效率和准确性。具体脚本代码等信息如下:
安装所需的库:在Python环境中安装所需的库,例如mysql-connectot-python用于连接MySQL数据库。
导入库:在脚本中导入所需的库,例如:
import mysql.connector
建立数据库连接:使用数据库的连接参数,建立与MySQL数据库的连接。例如:
创建游标:使用连接对象创建游标,用于执行SQL查询语句。例如:
cursor=cnx.cursor()
编写SQL查询语句:根据财管报销数据的表结构和查询需求,编写SQL查询语句。例如:
query=″SELECT*FROM expense_reports WHERE status=’approved’″
执行查询:使用游标执行SQL查询语句,获取报销数据。例如:
cursor.execute(query)
处理查询结果:使用游标获取查询结果,并进行处理。例如,可以使用fetchal1()方法获取所有查询结果的元组列表:
results=cursor.fetchall()
for row in results:
#处理每行数据
print(row)
关闭游标和连接:在完成数据获取和处理后,关闭游标和数据库连接,释放资源。例如:
cursor.close()
cnx.close()
以上是一个简单的示例,根据具体的数据源和需求,可能需要进行更多的操作和处理。此外,还可以根据需要添加异常处理、数据清洗和转换等步骤。
1.3报销费用信息分类
本实施例中,通过设定相关定义和特征,获取的报销费用信息至少包括员工信息、员工等级、员工在职状态、报销费用用途、报销费用的支付方式、报销费用的支付时间、报销费用的支付地点以及报销费用的供应商,利用这些信息,后期对于不同等级的员工,其报销限额不同,进而也要核对支付金额;而费用异常方面,可能存在于同一时间出现不同的支付方式以及频繁出现同一供应商等,故需要对应的数据。同时通过时间,判断是否在工作日还是非工作日,为后续的时间分类做好基础准备。
步骤2:对收集到的费用数据进行预处理
2.1对费用数据进行清洗
在进行数据分析之前,需要对费用数据进行清洗,去除不符合要求的数据。例如,可以去除价格为负数的数据、日期不在有效范围内的数据等。
2.2去除重复数据
为了避免重复计算和对模型产生冗余影响,需要对费用数据进行去重操作。可以根据费用发生时间、地点、金额等多个维度进行去重。
具体过程为:先按时间去重,然后按地点去重,最后按金额去重。对数据进行排序:根据去重优先级顺序,对数据进行排序。确保数据按照时间、地点和金额的顺序进行排序。遍历数据并去重:按照排序后的顺序,遍历数据并进行去重操作。对于每条数据,与之前的数据进行比较,如果时间、地点和金额都与之前的数据完全相同,则将其视为重复数据,进行去重处理。保留唯一数据:在遍历过程中,保留第一次出现的数据,将重复的数据从数据集中移除或进行适当的处理。可以选择删除重复数据、将其标记为重复,或保留其中一条数据。完成多维度去重:遍历完所有数据后,得到的数据集将是根据时间、地点和金额进行多维度去重后的结果。
比如员工甲,在2022年6月-7月的报销费用信息中,其显示得到的财务报销费用信息如下:
按照时间精确到分、地点和金额进行多维度去重,先按照时间排序:对数据按照时间进行排序,得到如下排序后的数据:
按照地点和金额去重:在时间排序的基础上,对地点和金额进行去重。对于相同地点和金额的数据,保留第一次出现的数据,删除后续重复的数据。得到如下去重后的数据:
通过按照时间精确到分、地点和金额的顺序进行多维度去重,我们得到了一个没有重复数据的财务报销数据集。这样可以确保每个时间点精确到分、地点和金额的组合只出现一次,避免了重复数据的存在。
2.3处理缺失值
在费用数据中,可能存在一些缺失值。为了保证后续的数据分析和模型训练的准确性,需要对缺失值进行处理。可以采用填充、删除等方式处理缺失的数据。比如,某一个报销费用信息中,只有月日,则可以补充年。
步骤3:利用机器学习算法进行训练,构建异常消费模型
3.1确定适合的机器学习算法
根据实际需求和数据特点,可以选择适合的机器学习算法。常用的算法包括支持向量机(SVM)、决策树等。
以时间为纵轴,分别构建设定时间段内同一供应商、同一支付时间以及不同支付方式的变化趋势,以形成特征工程;
本实施例中,所述支付时间包括工作日支付和非工作日支付,所述支付方式包括线上支付和线下支付,所述数据库中还包括支付用途、支付金额、支付地点。通过对上述的不同分类以及多个特征工程的限定,避免了同一时间选用不同的支付方式,使得财务人员无法及时识别,使得报销存在诸多漏洞。
而为了分析非工作日等的变化,还包括分别构建工作日支付变化趋势、非工作日支付变化趋势以及同一支付用途的变化趋势,这些变化趋势,为后续是否数据重叠等,做好了基础的判断标准。
为了及时识别出非工作日的异常,所述异常消费检测模型对所述变化趋势进行分析,并设定阈值,且所述非工作日支付变化趋势的阈值小于工作日支付变化趋势的阈值。非工作日的时间等,必然少于工作日,故此时的阈值必然比工作日少。
为了及时判断是否通过不同支付方式进行重叠支付等,还包括同一设定时间段内,不同支付方式的变化趋势的叠加,以判断是否在同一时间段内存在重复支付。
本实施例中,还针对统一供应商进行分析,其目的是避免供应商与员工之间有关联等。
为了区分不同岗位和等级等的报销,故需要再报销费用信息中体现员工岗位、岗位等级以及该岗位等级对应的报销额度,避免对不同岗位等级选用统一额度等进行分析判断。
选用PCA方法对所述特征工程分别进行降维后,将所述特征工程输入到高斯核函数中,高斯核函数将特征工程的特性映射到高位空间中,得到非线性关系,以构成初步检测模型;
本热编码或者使用特征嵌入方法将其转换为数值特征。
地点特征:对地点实施例中,在进行特征工程时,具体比如:从时间戳中提取年、月、日、小时等时间信息,可以计算时间间隔、工作日/非工作日等特征。
而金额特征:对金额进行标准化、离散化或对数变换等处理,使其符合高斯分布的假设。
供应商特征:对供应商进行独进行独热编码或者使用地理信息处理方法,如将地点映射到经纬度等。
实际使用中,高斯核函数是一种常用的核函数,可以将特征映射到高维空间,用于捕捉异常消费的模式。高斯核函数的形式为K(x,y)=exp(-||x-y||^2/(2*sigma^2)),其中x和y是特征向量,sigma是高斯核函数的带宽参数。
为了确保特征的有效,还包括使用MinMaxScaler或StandardScaler对特征进行处理的步骤如下:
导入所需的库:首先,导入需要使用的库,例如scikit-learn中的preprocessing模块。
准备数据:将需要处理的特征数据准备好,可以是一个特征向量或特征矩阵。
创建特征缩放器对象:根据需要选择MinMaxScaler或StandardScaler。MinMaxScaler将特征缩放到指定的最小值和最大值之间,而StandardScaler将特征缩放为均值为0,标准差为1的正态分布。
拟合特征缩放器:使用fit方法将特征缩放器拟合到数据上,以计算所需的缩放参数(例如最小值、最大值、均值、标准差等)。
转换特征数据:使用transform方法将特征数据进行缩放转换,得到缩放后的特征数据。
可选:反向转换(逆缩放):如果需要将缩放后的特征数据转换回原始数据的范围,可以使用inverse_transform方法进行逆缩放。
下面是一个使用MinMaxScaler对特征进行处理的示例代码:
from sklearn.preprocessing import MinMaxScaler
#准备特征数据(示例)
features=[[10],[5],[3],[2]]
#创建MinMaxScaler对象
scaler=MinMaxScaler()
#拟合特征缩放器
scaler.fit(features)
#转换特征数据
scaled_features=scaler.transform(features)
#输出缩放后的特征数据
print(scaled_features)
特征缩放后,还包括特征降维,具体如下:
鲁棒PCA方法:鲁棒PCA方法主要用于处理具有异常值的数据。当数据集中存在异常值时,传统的PCA方法可能会受到异常值的影响,导致主成分分析结果不准确。鲁棒PCA通过使用鲁棒的协方差矩阵估计方法,能够降低异常值的影响,从而得到更准确的主成分分析结果。因此,鲁棒PCA方法适用于数据中存在异常值的情况,例如金融领域的异常检测、图像处理中的去噪等。本实施例中可以处理支付时间、支付方式以及供应商、支付用途等特征工程。
.增量PCA方法:增量PCA方法主要用于处理大规模数据集。传统的PCA方法需要将整个数据集加载到内存中进行计算,对于大规模数据集来说可能是困难的。增量PCA通过将数据集分成多个小批次,并逐步处理每个小批次数据,无需将整个数据集一次性加载到内存中。增量PCA使用递推公式来更新协方差矩阵的估计,从而实现主成分分析的增量计算。因此,增量PCA方法适用于处理大规模数据集,可以实现高效和可扩展的主成分分析,例如在图像处理、信号处理、自然语言处理等领域。本实施例中,可以处理支付金额上。
将数据库中的支付时间、支付方式以及供应商,分别划分为训练集测试集,并通过k折交叉验证进行异常消费检测模型的验证;
本实施例中,在进行验证时,可以选择适当的异常检测算法,如基于高斯核函数的单类支持向量机(One-Class SVM)等。在每一折交叉验证中,使用训练集进行模型训练,然后使用验证集进行异常检测性能评估,如计算精确度、召回率、F1分数等指标。
所述k折交叉验证中还包括,将支付时间、支付方式以及供应商,划分为k个互斥的子集,依次将每个子集作为验证集,其余的k-1个子集作为训练集。
根据交叉验证的结果,可以调整模型的超参数,如高斯核函数的带宽参数sigma、One-Class SVM的惩罚参数等,以优化模型的性能。
本实施例中,对于异常消费检测模型,可以使用StratifiedKFold方法进行k折交叉验证,并选择准确率和召回率作为评估指标。
根据交叉验证结果,优化初步检测模型中,得到异常消费检测模型;
获取员工设定时间段内的报销费用信息作为异常消费检测模型的输入值,并利用异常消费检测模型检测,输出支付时间、支付方式以及供应商是否异常的检测结果。
3.2进行模型的训练和优化
将预处理后的费用数据作为训练集,利用选定的机器学习算法进行模型的训练和优化。通过不断调整算法参数和模型结构,提高模型的准确性和效率。
3.3进行特征选择和提取
根据机器学习算法的要求,对数据进行特征选择、特征提取等操作。通过选择最具有区分度和意义的特征,提高模型的性能。
步骤4:使用构建好的异常消费模型对新的费用数据进行分析
4.1将新的费用数据输入到构建好的异常消费模型中
将新的费用数据输入到构建好的异常消费模型中进行分析。可以批量处理多条费用数据,或者实时处理单条费用数据。
4.2利用模型对费用数据进行分析和计算
利用异常消费模型对费用数据进行分析和计算,得出异常消费的判断结果。根据模型的输出,可以判断费用数据是否属于异常消费行为。
4.3设定异常消费的阈值
根据异常程度的不同,可以设定异常消费的阈值。例如,可以根据金额大小、频率等指标来判断异常消费的程度。
步骤5:根据识别出的异常消费行为进行处理和管理
5.1设定异常消费的处理规则和流程
根据实际需求,可以设定异常消费的处理规则和流程。例如,可以通知相关部门、要求员工说明消费原因等。
5.2设定异常消费的管理措施
为了防止企业因异常消费造成的财务风险,可以设定异常消费的管理措施。例如,可以对异常消费进行限额、审批等管理方式。
本发明提出了一种基于多维度数据分析的异常消费检测方法,通过收集员工的费用数据,对其进行预处理和机器学习算法的训练,构建了异常消费模型。通过将新的费用数据输入模型,可以识别出异常消费行为,并进行相应的处理和管理,防止财务风险的发生。
本发明中的基于多维度数据分析的异常消费检测方法,其主要步骤是通过对员工的费用数据进行多维度的分析,包括费用发生时间、地点、金额等方面,利用机器学习算法进行异常消费的检测。解决的问题:通过多维度的分析,更全面地发现员工的异常消费行为,防止企业因异常消费造成的财务风险。创新点:利用机器学习算法对多维度数据进行分析,提高异常消费的检测准确性和效率。
在针对某一公司的财务报销进行异常识别时,本发明的方案如下:
首先,收集该公司过去一段时间的报销费用数据,包括时间、金额、供应商、地点、消费类别和消费方式等特征。
然后,按照本发明中提到的特征选择和补充不同支付方式、支付用途等方法,对报销费用数据进行处理。比如,将报销费用按照消费类别进行分类,并将消费方式作为额外的特征进行考虑。
接下来,采用PCA方法将特征进行降维,并将其映射到高位空间。通过降维,可以减少特征的维度,提高模型的计算效率。
最后,采用阈值法和异常检测算法对报销费用数据进行异常消费的检测。通过设置合适的阈值或者使用异常检测算法,进而准确地捕捉到异常消费的模式。
本发明中,可以通过检测方法,通过支付金额等,可以识别出高额消费以及频繁消费等,减少财务工作。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
1.基于多维度数据分析的异常消费检测方法,其特征在于,包括以下步骤;
自动获取关联报销系统中的报销费用信息以构成数据库,所述数据库中至少包括报销费用信息中的支付时间、支付方式以及供应商;
以时间为纵轴,分别构建设定时间段内同一供应商、同一支付时间以及不同支付方式的变化趋势,以形成特征工程;
选用PCA方法对所述特征工程分别进行降维后,将所述特征工程输入到高斯核函数中,高斯核函数将特征工程的特性映射到高维空间中,得到非线性关系,以构成初步检测模型;
将数据库中的支付时间、支付方式以及供应商,分别划分为训练集测试集,并通过k折交叉验证进行异常消费检测模型的验证;
根据交叉验证结果,优化初步检测模型中,得到异常消费检测模型;
获取员工设定时间段内的报销费用信息作为异常消费检测模型的输入值,并利用异常消费检测模型检测,输出支付时间、支付方式以及供应商是否异常的检测结果。
2.根据权利要求1所述的基于多维度数据分析的异常消费检测方法,其特征在于,所述自动获取中,还包括加密获取传输,具体为利用随机数生成算法随机生成自动获取密钥,并选择TLS作为SSL协议版本,以AES-GCM算法进行自动获取中的加密传输。
3.根据权利要求2所述的基于多维度数据分析的异常消费检测方法,其特征在于,所述自动获取具体为:利用自动化脚本方式,通过秘钥查询并提取设定时间段内,同一员工或相关员工的报销费用信息。
4.根据权利要求1所述的基于多维度数据分析的异常消费检测方法,其特征在于,所述支付时间包括工作日支付和非工作日支付,所述支付方式包括线上支付和线下支付,所述数据库中还包括支付用途、支付金额、支付地点。
5.根据权利要求4所述的基于多维度数据分析的异常消费检测方法,其特征在于,还包括分别构建工作日支付变化趋势、非工作日支付变化趋势以及同一支付用途的变化趋势。
6.根据权利要求5所述的基于多维度数据分析的异常消费检测方法,其特征在于,所述异常消费检测模型对所述变化趋势进行分析,并设定阈值,且所述非工作日支付变化趋势的阈值小于工作日支付变化趋势的阈值。
7.根据权利要求1所述的基于多维度数据分析的异常消费检测方法,其特征在于,所述初步检测模型中,还包括同一设定时间段内,不同支付方式的变化趋势的叠加,以判断是否在同一时间段内存在重复支付。
8.根据权利要求1所述的基于多维度数据分析的异常消费检测方法,其特征在于,所述报销费用信息中还包括员工岗位、岗位等级以及该岗位等级对应的报销额度。
9.根据权利要求1所述的基于多维度数据分析的异常消费检测方法,其特征在于,还包括对特征工程使用MinMaxScaler或StandardScaler进行特征缩放。
10.根据权利要求1所述的基于多维度数据分析的异常消费检测方法,其特征在于,还包括利用鲁棒PCA方法或增量PCA方法进行特征工程的降维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311189247.8A CN117057941B (zh) | 2023-09-14 | 2023-09-14 | 基于多维度数据分析的异常消费检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311189247.8A CN117057941B (zh) | 2023-09-14 | 2023-09-14 | 基于多维度数据分析的异常消费检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117057941A CN117057941A (zh) | 2023-11-14 |
CN117057941B true CN117057941B (zh) | 2024-03-26 |
Family
ID=88669392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311189247.8A Active CN117057941B (zh) | 2023-09-14 | 2023-09-14 | 基于多维度数据分析的异常消费检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117057941B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921710A (zh) * | 2018-06-08 | 2018-11-30 | 东莞迪赛软件技术有限公司 | 医保异常检测的方法及系统 |
US10296832B1 (en) * | 2015-12-05 | 2019-05-21 | ThetaRay Ltd. | System and method for detecting an undesirable event |
WO2020006852A1 (zh) * | 2018-07-03 | 2020-01-09 | 平安科技(深圳)有限公司 | 差旅费自助核销处理方法、装置、设备和计算机存储介质 |
CN110929799A (zh) * | 2019-11-29 | 2020-03-27 | 上海盛付通电子支付服务有限公司 | 用于检测异常用户的方法、电子设备和计算机可读介质 |
CN112053219A (zh) * | 2020-08-06 | 2020-12-08 | 百维金科(上海)信息科技有限公司 | 一种基于ocsvm的消费金融欺诈行为检测方法 |
CN114693906A (zh) * | 2020-12-29 | 2022-07-01 | 中国科学院计算机网络信息中心 | 基于时空规则的差旅报销异常行为检测方法和系统 |
CN115438239A (zh) * | 2021-06-04 | 2022-12-06 | 国家计算机网络与信息安全管理中心 | 一种自动化异常样本筛选的异常检测方法及装置 |
CN116385187A (zh) * | 2022-12-30 | 2023-07-04 | 北京合思信息技术有限公司 | 无需报销等级评估系统、方法及存储介质 |
-
2023
- 2023-09-14 CN CN202311189247.8A patent/CN117057941B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10296832B1 (en) * | 2015-12-05 | 2019-05-21 | ThetaRay Ltd. | System and method for detecting an undesirable event |
CN108921710A (zh) * | 2018-06-08 | 2018-11-30 | 东莞迪赛软件技术有限公司 | 医保异常检测的方法及系统 |
WO2020006852A1 (zh) * | 2018-07-03 | 2020-01-09 | 平安科技(深圳)有限公司 | 差旅费自助核销处理方法、装置、设备和计算机存储介质 |
CN110929799A (zh) * | 2019-11-29 | 2020-03-27 | 上海盛付通电子支付服务有限公司 | 用于检测异常用户的方法、电子设备和计算机可读介质 |
CN112053219A (zh) * | 2020-08-06 | 2020-12-08 | 百维金科(上海)信息科技有限公司 | 一种基于ocsvm的消费金融欺诈行为检测方法 |
CN114693906A (zh) * | 2020-12-29 | 2022-07-01 | 中国科学院计算机网络信息中心 | 基于时空规则的差旅报销异常行为检测方法和系统 |
CN115438239A (zh) * | 2021-06-04 | 2022-12-06 | 国家计算机网络与信息安全管理中心 | 一种自动化异常样本筛选的异常检测方法及装置 |
CN116385187A (zh) * | 2022-12-30 | 2023-07-04 | 北京合思信息技术有限公司 | 无需报销等级评估系统、方法及存储介质 |
Non-Patent Citations (2)
Title |
---|
Multi-dimensional Outliers Detection Method Based on RBF Neural Network Model;Guo, Yudong等;ProQuest;20161031;第21-33页 * |
应用多层神经网络模型的信用卡欺诈算法;刘中华;;福建电脑;20200425(第04期);第71-73页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117057941A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11429614B2 (en) | Systems and methods for data quality monitoring | |
JP5586373B2 (ja) | 支払請求を処理するコンポーネントの機能をコンピュータシステムに実現させるプログラムが記録されているコンピュータ読み取り可能な記憶媒体、およびコンピュータシステムに支払請求を処理させるコンピュータシステムの動作方法 | |
CN110457294B (zh) | 一种数据处理方法和装置 | |
CN107810500A (zh) | 数据质量分析 | |
CN109934268B (zh) | 异常交易检测方法及系统 | |
CN112000656A (zh) | 基于元数据的智能化数据清洗方法及装置 | |
CN112631889B (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
CN117473048B (zh) | 基于数据挖掘的财务异常数据监测分析系统及方法 | |
US12105687B2 (en) | Systems and methods for automated data quality semantic constraint identification using rich data type inferences | |
WO2023115050A1 (en) | Systems and methods for detection and correction of anomalies | |
Ciprian-Costel | Arguments on using computer-assisted audit techniques (Caat) and business intelligence to improve the work of the financial auditor | |
CN118552331B (zh) | 一种基于多模态大模型的票据数据分析方法及系统 | |
CN117057941B (zh) | 基于多维度数据分析的异常消费检测方法 | |
CN114154712A (zh) | 数据管理方法、数据管理装置、设备及存储介质 | |
CN118537141A (zh) | 一种基于关联网络分析技术的保险违规行为识别与应对系统 | |
CN112465397A (zh) | 一种审计数据的分析方法和装置 | |
CN111242779A (zh) | 金融数据特征选择和预测方法、装置、设备及存储介质 | |
CN117575595A (zh) | 支付风险识别方法、装置、计算机设备及存储介质 | |
Lawrencia et al. | Fraud detection decision support system for Indonesian financial institution | |
CN117195130B (zh) | 一种智能一卡通管理系统及方法 | |
Yao | RPA Technology Enables Highly Automated Development of Corporate Financial Accounting Processes | |
CN111626586B (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN118820325A (zh) | 一种基于Microsoft 365的账期数据处理方法、系统、设备及介质 | |
CN118967344A (zh) | 一种用于企业数据自动对账系统及其实现方法 | |
Ferraboli et al. | Making Sense of Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |