CN114049184A - 通过数据挖掘技术的识别发票拆分报销系统 - Google Patents
通过数据挖掘技术的识别发票拆分报销系统 Download PDFInfo
- Publication number
- CN114049184A CN114049184A CN202111193375.0A CN202111193375A CN114049184A CN 114049184 A CN114049184 A CN 114049184A CN 202111193375 A CN202111193375 A CN 202111193375A CN 114049184 A CN114049184 A CN 114049184A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- reimbursement
- certificate
- mining technology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于数据挖掘技术的识别发票拆分报销系统,包括外接模块、预选模块、特征模块及优化模块;外接模块,用于实时接入并汇总外部数据源,并在数据接入后,经过数据清洗转换,分别存入数据仓库的凭证主题与画像主题;预选模块,用于利用凭证主题的凭证数据,经过疑似拆分报销规则的筛选,输出预警数据;特征模块,用于利用所述画像主题与所述预选模块的凭证数据通过负责人工号、企业名称关联出模型训练数据,对训练数据采用自动化数据预处理方法,并对是否为拆分报销进行标注。该系统很好地解决了现有方法工作量大,且效率低下的问题。
Description
技术领域
本发明具体涉及一种通过数据挖掘技术的识别发票拆分报销系统。
背景技术
在高校经济活动中存在着拆分报销的现象,拆分报销又分为规避合同和虚列支出两个问题。其中规避合同是报账人为了规避学校监管,将金额较大的同一笔交易化整为零,拆分为多个金额小于监管金额的小额合同;其中虚列支出即虚构本不存在的交易或事项,骗取本单位付款,然后与同谋者私分、自己直接领取或设法冒领。主要包括:虚构合同支出,如虚构服务合同、工程发包合同、采购合同、投资协议;伪造发票报销虚构的费用,如业务费、管理费等。
目前市场上没有针对发票的拆分报销的监控手段,或者只有通过线下财务系统的人员通过翻财务凭证来对比发票票号是否连续来判别,这种方法效率很低,因此提出利用数据挖掘技术的一种识别发票拆分报销的系统以解决上述问题。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于数据挖掘技术的识别发票拆分报销系统,该基于数据挖掘技术的识别发票拆分报销系统可以很好地解决上述问题。
为达到上述要求,本发明采取的技术方案是:提供一种基于数据挖掘技术的识别发票拆分报销系统,该基于数据挖掘技术的识别发票拆分报销系统包括外接模块、预选模块、特征模块及优化模块;外接模块,用于实时接入并汇总外部数据源,并在数据接入后,经过数据清洗转换,分别存入数据仓库的凭证主题与画像主题;预选模块,用于利用凭证主题的凭证数据,经过疑似拆分报销规则的筛选,输出预警数据;特征模块,用于利用所述画像主题与所述预选模块的凭证数据通过负责人工号、企业名称关联出模型训练数据,对训练数据采用自动化数据预处理方法,并对是否为拆分报销进行标注;优化模块,用于接入所述特征模块生成的离线特征数据并输入到模型库,根据模型的拟合结果选择最优模型,并部署到线上进行实时计算预测,对收集到的新的预测数据用于模型优化。
该基于数据挖掘技术的识别发票拆分报销系统具有的优点如下:
该系统很好地解决了现有方法工作量大,且效率低下的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示意性地示出了根据本申请一个实施例的基于数据挖掘技术的识别发票拆分报销系统的框架示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。
为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。
根据本申请的一个实施例,提供一种基于数据挖掘技术的识别发票拆分报销系统,包括外接模块、预选模块、特征模块及优化模块。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的外接模块,用于实时接入并汇总外部数据源,并在数据接入后,经过数据清洗转换,分别存入数据仓库的凭证主题与画像主题。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的预选模块,用于利用凭证主题的凭证数据,经过疑似拆分报销规则的筛选,输出预警数据。其中拆分报销规则包括规避合同的规则:30天内,同一负责人下向同一家单位因某种费用(如印刷费、专用材料费等)累积支付50000元以上,且笔数大于等于2笔,则触发预警。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的特征模块,用于利用所述画像主题与所述预选模块的凭证数据通过负责人工号、企业名称关联出模型训练数据,对训练数据采用自动化数据预处理方法,并对是否为拆分报销进行标注。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的优化模块,用于接入所述特征模块生成的离线特征数据并输入到模型库,根据模型的拟合结果选择最优模型,并部署到线上进行实时计算预测,对收集到的新的预测数据用于模型优化。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的外部数据源包括:
接入的有涉及财务凭证信息的第三方财务系统数据、涉及学校人事组织信息的数据、涉及企业基本信息与信用信息的天眼查数据及涉及因企业违法采购被处罚的政府采购网的数据。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的拆分报销规则包括规避合同的规则,预警数据的预警对象包括凭证号与凭证涉及的项目负责人,凭证单数据包括凭证单号、分录号、借方金额、贷方金额、摘要、项目名称、项目编号、企业名称字段。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的模型库中包括随机森林分类器、梯度提升树分类器、逻辑回归分类器。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的拟合结果包括如精准率、召回率、F1值。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的画像主题包括项目负责人画像与企业画像。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的项目负责人画像包括项目负责人姓名数据、工号数据、所在学院数据、职务数据、工作年限数据、负责项目数据。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的企业画像包括企业名称数据、企业规模数据、企业成立年限数据、信用等级数据。
根据本申请的一个实施例,该基于数据挖掘技术的识别发票拆分报销系统的自动化数据预处理方法包括独热编码数据预处理方法、归一化数据预处理方法、规范化数据预处理方法。
以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。
Claims (9)
1.一种基于数据挖掘技术的识别发票拆分报销系统,其特征在于,包括外接模块、预选模块、特征模块及优化模块;
所述外接模块,用于实时接入并汇总外部数据源,并在数据接入后,经过数据清洗转换,分别存入数据仓库的凭证主题与画像主题;
所述预选模块,用于利用凭证主题的凭证数据,经过疑似拆分报销规则的筛选,输出预警数据;
所述特征模块,用于利用所述画像主题与所述预选模块的凭证数据通过负责人工号、企业名称关联出模型训练数据,对训练数据采用自动化数据预处理方法,并对是否为拆分报销进行标注;
所述优化模块,用于接入所述特征模块生成的离线特征数据并输入到模型库,根据模型的拟合结果选择最优模型,并部署到线上进行实时计算预测,对收集到的新的预测数据用于模型优化。
2.根据权利要求1所述的基于数据挖掘技术的识别发票拆分报销系统,其特征在于,所述外部数据源包括:
接入的有涉及财务凭证信息的第三方财务系统数据、涉及学校人事组织信息的数据、涉及企业基本信息与信用信息的天眼查数据及涉及因企业违法采购被处罚的政府采购网的数据。
3.根据权利要求1所述的基于数据挖掘技术的识别发票拆分报销系统,其特征在于:所述拆分报销规则包括规避合同的规则,预警数据的预警对象包括凭证号与凭证涉及的项目负责人,凭证单数据包括凭证单号、分录号、借方金额、贷方金额、摘要、项目名称、项目编号、企业名称字段。
4.根据权利要求1所述的基于数据挖掘技术的识别发票拆分报销系统,其特征在于:所述模型库中包括随机森林分类器、梯度提升树分类器、逻辑回归分类器。
5.根据权利要求1所述的基于数据挖掘技术的识别发票拆分报销系统,其特征在于:所述拟合结果包括如精准率、召回率、F1值。
6.根据权利要求1所述的基于数据挖掘技术的识别发票拆分报销系统,其特征在于:所述画像主题包括项目负责人画像与企业画像。
7.根据权利要求1所述的基于数据挖掘技术的识别发票拆分报销系统,其特征在于:所述项目负责人画像包括项目负责人姓名数据、工号数据、所在学院数据、职务数据、工作年限数据、负责项目数据。
8.根据权利要求1所述的基于数据挖掘技术的识别发票拆分报销系统,其特征在于:所述企业画像包括企业名称数据、企业规模数据、企业成立年限数据、信用等级数据。
9.根据权利要求1所述的基于数据挖掘技术的识别发票拆分报销系统,其特征在于:所述自动化数据预处理方法包括独热编码数据预处理方法、归一化数据预处理方法、规范化数据预处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111193375.0A CN114049184A (zh) | 2021-10-13 | 2021-10-13 | 通过数据挖掘技术的识别发票拆分报销系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111193375.0A CN114049184A (zh) | 2021-10-13 | 2021-10-13 | 通过数据挖掘技术的识别发票拆分报销系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049184A true CN114049184A (zh) | 2022-02-15 |
Family
ID=80204682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111193375.0A Pending CN114049184A (zh) | 2021-10-13 | 2021-10-13 | 通过数据挖掘技术的识别发票拆分报销系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049184A (zh) |
-
2021
- 2021-10-13 CN CN202111193375.0A patent/CN114049184A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN203165006U (zh) | 一种工程项目管理系统 | |
KR102289935B1 (ko) | 인공지능 기반의 법률 문서 분석 시스템 및 방법 | |
CN112241924A (zh) | 一种智慧燃气系统 | |
CN110990474A (zh) | 一种区域性产业画像分析的方法及装置 | |
CN110019324B (zh) | 一种生成纳税人资金回路的方法及系统 | |
CN113011959A (zh) | 一种“七项费用”智慧审计系统及其使用方法 | |
CN112487105A (zh) | 一种企业画像的构建方法 | |
CN105225051A (zh) | 工程管理系统 | |
CN111489254A (zh) | 基于历史信用大数据的信贷风险评估智能引擎系统 | |
CN112037039A (zh) | 一种贷款评估方法及装置 | |
CN111815430A (zh) | 一种用于不良贷款处置的资产管理系统 | |
CN114240333A (zh) | 电子会计档案全息应用中心系统 | |
CN101308564A (zh) | 一种按揭贷款信息监控方法及系统 | |
CN113377742A (zh) | 一种基于法人综合数据资源库的企业空间数据应用方法 | |
Al Alawi et al. | Financial performance analysis of firms: a focus on oil and gas industry sustainable practices in Oman | |
CN110750302A (zh) | 一种会计用流水线做账方法 | |
CN114049184A (zh) | 通过数据挖掘技术的识别发票拆分报销系统 | |
CN110941652A (zh) | 银行流水数据的分析方法 | |
CN113822764B (zh) | 资产数据处理方法及装置 | |
TWM568448U (zh) | 智能查帳系統 | |
Dziawgo | Supervisory technology as a new tool for banking sector supervision | |
CN114693424A (zh) | 建筑行业资产大数据归集及应用 | |
TWM591191U (zh) | 負面新聞監控分析系統 | |
Orwig et al. | Capturing Process Knowledge and Measuring Systems' Cost Savings Through Business Activity Modeling and Activity‐Based Costing | |
Vezenkoska et al. | Internal audit of financial operations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |