CN117893306A - 金融数据需求处理方法及装置 - Google Patents

金融数据需求处理方法及装置 Download PDF

Info

Publication number
CN117893306A
CN117893306A CN202410038337.5A CN202410038337A CN117893306A CN 117893306 A CN117893306 A CN 117893306A CN 202410038337 A CN202410038337 A CN 202410038337A CN 117893306 A CN117893306 A CN 117893306A
Authority
CN
China
Prior art keywords
financial data
data demand
demand
associated channel
financial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410038337.5A
Other languages
English (en)
Inventor
毛思敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202410038337.5A priority Critical patent/CN117893306A/zh
Publication of CN117893306A publication Critical patent/CN117893306A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Optimization (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种金融数据需求处理方法及装置,其中该方法包括:采集金融数据需求和对应的金融数据需求关联渠道的历史数据;基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。本发明用以自动化实现金融数据需求处理,提升金融数据需求处理的处理效率和准确性。

Description

金融数据需求处理方法及装置
技术领域
本发明涉及机器学习分析技术领域,尤其涉及金融数据需求处理方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着信息技术的发展,众多金融基础业务、核心流程、行业间往来等事务和活动均已运行在信息化支撑载体上,金融业机构生产运行过程中产生的信息也逐步以不同形式转化为数字资产,在不同信息网络与系统之间流转,数据的重要性日益凸显。为满足监管和审计需要、业务统计分析和数据质量监测分析、内部审计、合规检查、客户营销等业务管理的需要、以及解决运行问题等信息科技活动需要,数据提取和相对应的需求分析工作应运而生。当出现突发或特定需要,或交付时间急迫,但无法通过前端界面直接获取的数据时,通过数据服务平台将从生产系统获取的数据通过安全组件反馈需求方,实现对外提供服务。
目前数据需求多以业务语言描述,实际需求的数据字段易被淹没在大段文本信息当中,为制定准确有效的数据方案(找准需求关联方),需要耗费较长时间明确需求和规则。
同时,服务平台对以往处理过的数据需求分析、操作等未进行交互,需求分析过程和结果未被复用,数据提取的经验无法被学习,导致需求分析只能依靠人工,而人工筛选又存在主观性、滞后性和误差性等问题。
发明内容
本发明实施例提供一种金融数据需求处理方法,用以自动化实现金融数据需求处理,提升金融数据需求处理的处理效率和准确性,该方法包括:
采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;
基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;
接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;
接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;
将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
本发明实施例还提供一种金融数据需求处理装置,用以自动化实现金融数据需求处理,提升金融数据需求处理的处理效率和准确性,该装置包括:
数据采集模块,用于采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;
分类训练模块,用于基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;
目标金融数据需求输入模块,用于接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;
后验概率接收模块,用于接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;
目标金融数据需求关联渠道确定模块,用于将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述金融数据需求处理方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述金融数据需求处理方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述金融数据需求处理方法。
本发明实施例中,采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道,与现有技术中仅能通过人工进行金融数据需求分析的技术方案相比,通过利用机器学习算法,建立金融数据需求关联渠道分类器,实现数据需求的部分自动化关联分析,实现了利用贝叶斯算法对实时新增需求进行预测分析的目的,可有效识别金融数据需求对应的金融数据需求关联渠道,不再仅依赖人工分析,提高需求分析的及时性,提升服务效率,提升了金融数据需求处理的处理效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中一种金融数据需求处理方法的流程示意图;
图2为本发明实施例中一种金融数据需求处理方法的具体示例图;
图3为本发明实施例中一种金融数据需求处理方法的具体示例图;
图4为本发明实施例中一种金融数据需求处理装置的结构示意图;
图5为本发明实施例中用于金融数据需求处理的计算机设备示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
本发明实施例涉及下列名词,如下进行解释:
临时性数据服务需求:指为满足突发或特定需要,交付时间急迫,非定期提供的数据需求,主要基于内外部数据、已发布数据产品进行加工、提取,以指标、报表和明细数据等形式交付。
数据需求分析:对数据源、数据量、数据安全、需求实现目标、实施复杂程度、时效性满足度等因素进行初步分析。
金融数据:金融业机构开展金融业务、提供金融服务以及日常经营管理所需或产生的各类数据。
假设随机试验Ei的样本空间为S,有事件A1,A2,…,An构成S的一个完备事件组,且有P(Ai)>0,i=1,2,…,n。Ai发生后某事件B发生,有:
先验概率:P(Ai)表示在B事件发生前发生事件Ai的概率,代表先验信息。
后验概率:P(Ai|B),表示事件B发生后对事件Ai的再认识。记为“在B发生的条件下Ai发生的概率”。与先验概率的不同之处主要在于事件B的发生,用样本对先验信息进行了修正。
全概率公式:事件B发生的概率是在不同事件Ai发生的条件下事件B发生的条件概率与事件Ai发生的概率的乘积之和。
贝叶斯公式:
文本特征项:在保证原文含义的基础上,代表文本内容,多选用特征词。具备特性:1)可标识文本内容。2)可将目标文本和其他文本区分开来。3)特征性个数不能太多。4)比拟容易实现。
特征抽取:在不损伤文本核心信息的基础上,减少需要处理的特征词,降低向量的空间维数,简化计算,提升文本处理效率。
随着信息技术的发展,众多金融基础业务、核心流程、行业间往来等事务和活动均已运行在信息化支撑载体上,金融业机构生产运行过程中产生的信息也逐步以不同形式转化为数字资产,在不同信息网络与系统之间流转,数据的重要性日益凸显。为满足有权机关、监管和审计需要、业务统计分析和数据质量监测分析、内部审计、合规检查、客户营销等业务管理需要,及解决运行问题等信息科技活动需要,数据提取和相对应的需求分析工作应运而生。当出现突发或特定需要,或交付时间急迫,但无法通过前端界面直接获取的数据时,通过数据服务平台将从生产系统获取的数据通过安全组件反馈需求方,实现对外提供服务。
目前数据需求多以业务语言描述,实际需求的数据字段易被淹没在大段文本信息当中,为制定准确有效的数据方案(找准需求关联方),需要耗费较长时间明确需求和规则。同时,服务平台对以往处理过的数据需求分析、操作等未进行交互,需求分析过程和结果未被复用,数据提取的经验无法被学习,导致需求分析只能依靠人工,而人工筛选又存在主观性、滞后性、误差性等问题。因此,如何建立一种高效、精准的需求关联方分析模型,共享平台提供的数据能力,规范生产数据应用服务流程,提升服务效率,一直是一个亟待解决的问题。
当前方案存在如下缺点:
需求分析处理能力不足。需求分析仅依赖人工,且历史的数据需求分析结果未被复用,数据提取的历史经验无法被有效学习,导致相似需求耗费时间分析。整体需求分析时间延长,数据提供服务的及时性降低。
数据管理能力不足。数据需求多以业务语言描述,缺少统一的数据标准,实际需求的数据字段无法较好地从文本信息中提取,缺少对数据全生命周期和质量的管控,数据管理能力不足。
针对以上现有技术的缺点,本发明的目的是通过建立一种基于机器学习的需求关联方分析模型,提高数据需求分析的准确率、时效性,提升服务效率。
本发明实施例提供的一种金融数据需求处理方法,用以自动化实现金融数据需求处理,提升金融数据需求处理的处理效率和准确性,参见图1,该方法可以包括:
步骤101:采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;
步骤102:基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;
步骤103:接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;
步骤104:接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;
步骤105:将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
本发明实施例中,采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道,与现有技术中仅能通过人工进行金融数据需求分析的技术方案相比,通过利用机器学习算法,建立金融数据需求关联渠道分类器,实现数据需求的部分自动化关联分析,实现了利用贝叶斯算法对实时新增需求进行预测分析的目的,可有效识别金融数据需求对应的金融数据需求关联渠道,不再仅依赖人工分析,提高需求分析的及时性,提升服务效率,提升了金融数据需求处理的处理效率和准确性。
在步骤101中,采集的金融数据需求和历史数据将为后续的分类训练提供重要依据。这些数据来源于金融市场的各种交易和业务活动,包括但不限于股票、债券、期货、外汇等金融产品的价格、成交量、持仓量等指标。在步骤102中,利用机器学习算法对这些数据进行深度挖掘,通过朴素贝叶斯模型进行分类训练,从而构建出一个高效的金融数据需求关联渠道分类器。
在步骤103中,当接收到新的目标金融数据需求时,将其输入到已训练好的金融数据需求关联渠道分类器中。该分类器将根据输入的金融数据需求,结合历史数据进行分析和判断,从而得出目标金融数据需求所属的金融数据需求关联渠道。
在步骤104中,金融数据需求关联渠道分类器会输出目标金融数据需求归属于每个金融数据需求关联渠道的后验概率。这些后验概率反映了目标金融数据需求与各个金融数据需求关联渠道之间的关联程度,为后续的金融数据需求匹配提供了重要参考。
最后,在步骤105中,根据后验概率的最大值,确定与目标金融数据需求对应的最佳金融数据需求关联渠道。这一步骤实现了金融数据的高效匹配,为金融市场的参与者提供了精准的数据服务。
整个金融数据需求关联渠道分类器的训练和应用过程,形成了金融数据从需求提出到解决方案生成的完整闭环。通过不断迭代和优化算法,金融数据需求关联渠道分类器的准确率和效率将不断提高,进一步满足金融市场对高质量、个性化数据服务的需求。
具体实施时,首先采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据。
在一个实施例中,首先采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据。在一个实施例中,采集金融数据需求的历史数据可以包括以下几个步骤:
1.确定金融数据需求的类型:根据业务需求,将金融数据需求分为不同的类型,如行情数据、财务数据、交易数据等。
2.收集历史数据:从金融数据提供方获取各类金融数据,包括股票行情、债券行情、汇率等。
3.数据预处理:对收集到的原始数据进行清洗、整理和转换,使其符合后续分析的要求。
4.数据存储:将处理后的金融数据存储到数据库或数据仓库中,以便后续进行数据分析和挖掘。
5.数据需求关联渠道的历史数据:收集与金融数据需求关联的渠道的历史数据,如金融数据终端用户、金融数据API调用、金融数据需求方标识等。
具体实施时,在采集金融数据需求和对应的金融数据需求关联渠道的历史数据后,基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果。
实施例中,金融数据需求关联渠道分类器可以进一步应用于实际金融数据的分类和预测。在实际应用中,首先需要对金融数据进行预处理,包括数据清洗、特征提取和特征选择等步骤。清洗后的金融数据可以用于训练和测试已得到的金融数据需求关联渠道分类器。
训练好的金融数据需求关联渠道分类器可以实现对金融数据需求的自动分类,从而为金融机构提供有针对性的数据服务。金融机构可以根据分类结果,对不同类别的金融数据进行深入挖掘和分析,以提高数据价值的挖掘效率。同时,金融机构还可以根据金融数据需求关联渠道分类器的预测结果,调整数据采集和分析策略,以优化数据资源的配置。
在金融数据需求关联渠道分类器的实际应用中,还需要对分类器的性能进行监控和评估。这可以通过不断地更新训练数据、调整模型参数等方式来实现。此外,还可以采用交叉验证、网格搜索等方法来优化模型选择,以提高分类器的预测准确性。
另外,金融数据需求关联渠道分类器还可以与其他机器学习模型相结合,例如决策树、支持向量机等,实现多模型融合,进一步提高分类预测的准确性。同时,可以通过集成学习方法,如Bagging和Boosting等,来提高金融数据需求关联渠道分类器的鲁棒性和泛化能力。
总之,通过金融数据需求关联渠道分类器的应用,金融机构可以更有效地挖掘和利用金融数据的价值,为金融业务的开展提供有力支持。
在实际应用过程中,还需要关注金融数据安全与合规性问题。金融机构应加强对金融数据的保护,确保数据在采集、存储、处理和分析等环节的安全。此外,还需遵循相关法律法规,尊重用户隐私,确保金融数据合规使用。通过完善数据安全与合规体系,为金融数据需求关联渠道分类器的应用提供坚实保障。
在一个实施例中,基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器,包括:
对所述历史数据进行文本预处理;
对进行文本预处理后的历史数据进行分词处理,得到对应历史数据的多个特征词;
根据所述对应历史数据的多个特征词,计算历史数据中每一类金融数据需求关联渠道的条件概率和先验概率;
根据历史数据中每一类金融数据需求关联渠道的条件概率和先验概率,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器。
在上述实施例中,
所述的文本预处理包括对历史数据进行去除停用词、词干提取、词形还原等操作,以减少噪声和提高分类器的准确性。分词处理采用中文分词技术,如分词算法、词性标注等,以便更好地提取特征词。
得到训练好的金融数据需求关联渠道分类器后,可以应用于实际金融数据的分类。
具体包括以下步骤:
1.对实际金融数据进行文本预处理,与历史数据的预处理步骤相同。
2.对预处理后的实际金融数据进行分词处理,得到对应实际金融数据的多个特征词。
3.根据对应实际金融数据的多个特征词,计算实际金融数据中每一类金融数据需求关联渠道的条件概率和先验概率。
4.将计算得到的实际金融数据中每一类金融数据需求关联渠道的条件概率和先验概率输入到训练好的金融数据需求关联渠道分类器中,得到实际金融数据所属的金融数据需求关联渠道类别。
5.根据实际金融数据所属的金融数据需求关联渠道类别,进行相应的分析和处理,如风险评估、信贷审批等。
此外,还可以根据实际需求对所述方法进行优化和改进。例如,可以采用深度学习技术,如循环神经网络(RNN)、长短时记忆网络(LSTM)等,来替代朴素贝叶斯模型,以提高分类的准确性和效率。同时,可以考虑引入迁移学习技术,将已经在其他领域训练好的模型应用于金融数据需求关联渠道的分类,以减少训练时间和提高分类效果。
在实际应用中,金融数据需求关联渠道分类器可以根据不同场景和需求进行定制,以满足特定领域的分类需求。例如,在信贷审批场景中,可以关注与信用风险相关的特征词,如“逾期”、“欠款”等,以便更准确地识别潜在风险客户。在风险评估场景中,可以关注与金融犯罪相关的特征词,以提高风险评估的准确性。
在一个实施例中,还包括:
将历史数据作为验证集,对训练好的金融数据需求关联渠道分类器进行验证,得到验证好的金融数据需求关联渠道分类器;
将接收的目标金融数据需求输入至金融数据需求关联渠道分类器,包括:
将接收的目标金融数据需求输入至验证好的金融数据需求关联渠道分类器。
在上述实施例中,金融数据需求关联渠道分类器对目标金融数据需求进行分类,得出关联渠道类别;接着,将关联渠道类别与历史数据进行对比,分析目标金融数据需求的潜在需求关联渠道。
在接下来的步骤中,给出了如何利用验证好的金融数据需求关联渠道分类器来预测新的金融数据需求关联渠道的具体操作步骤:
首先,将接收的目标金融数据需求输入至验证好的金融数据需求关联渠道分类器中。这一步的目标是利用已经训练好的分类器,对新的金融数据需求进行关联渠道的分类。分类器会根据历史数据中学习到的特征和规律,对新的金融数据需求进行分析和判断。
接下来,分类器会将输入的金融数据需求分配到一个或多个关联渠道。这一步的关键是根据分类器的预测结果,找到与目标金融数据需求最为匹配的关联渠道。这个过程可能会涉及到对金融数据需求的细分和归类,以便更好地匹配关联渠道。
然后,根据关联渠道的分类结果,可以为金融数据需求提供相应的服务或解决方案。这一步的目标是根据金融数据需求的性质和关联渠道的特点,为用户提供有针对性的服务。这可能包括提供金融产品、制定投资策略、给出风险预警等。
最后,不断地对金融数据需求关联渠道分类器进行优化和更新。这一步的目标是提高分类器的预测准确性和适应性,以便更好地应对金融市场的发展和变化。这可以通过定期对历史数据进行重新训练、调整分类器的参数等方式来实现。
综上所述,通过利用金融数据需求关联渠道分类器,我们可以有效地预测新的金融数据需求,并为用户提供有针对性的服务。这有助于金融机构提高业务效率,降低风险,最终实现业务的持续发展。在实际应用中,还需要根据具体情况进行调整和优化,以满足不同场景下的需求。
在一个实施例中,还包括:
基于训练好的金融数据需求关联渠道分类器,生成金融数据需求关联渠道分类规则库;所述金融数据需求关联渠道分类规则库携带有不同金融数据需求和对应不同金融数据需求的金融数据需求关联渠道。
在上述实施例中,金融数据需求关联渠道分类器通过对金融数据进行分析和挖掘,能够准确地将不同的金融数据需求与对应的关联渠道进行匹配。这样,金融机构可以更高效地满足客户的需求,同时提高金融服务的质量和满意度。
具体实施时,在基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器后,接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器。
实施例中,金融数据需求关联渠道分类器对目标金融数据需求进行分类处理,得到关联渠道分类结果。
在一个实施例中,根据关联渠道分类结果,可为金融数据需求提供相应的服务。
服务包括但不限于以下几种:
1.针对关联渠道分类结果为投资需求的金融数据,提供投资相关服务,如投资建议、风险评估等;
2.针对关联渠道分类结果为消费需求的金融数据,提供消费相关服务,如消费信贷、信用卡服务等;
3.针对关联渠道分类结果为理财需求的金融数据,提供理财相关服务,如理财产品推荐、理财规划等;
4.针对关联渠道分类结果为保险需求的金融数据,提供保险相关服务,如保险产品推荐、保险规划等;
5.针对关联渠道分类结果为其他金融需求的金融数据,提供其他相关服务,如金融知识普及、金融服务咨询等。
在提供服务的过程中,金融数据需求关联渠道分类器会不断接收用户的反馈信息,将这些反馈信息作为新的训练数据,对分类器进行实时更新和优化。这样,金融数据需求关联渠道分类器的分类准确性会不断提高,从而为用户提供更精准、更个性化的金融服务。
此外,金融数据需求关联渠道分类器还可以根据金融市场的变化和用户需求的动态调整,自动调整分类器的参数,以保持较高的分类准确性。例如,在金融市场出现波动时,分类器可以自动调整投资建议的权重,以提高投资建议的准确性;在用户需求发生变化时,分类器可以自动调整关联渠道分类结果,以满足用户的新需求。
具体实施时,在接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器后,接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率。
在一个实施例中,还包括:
计算目标金融数据需求归属于每一金融数据需求关联渠道的分类错误率;
将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道,包括:
在后验概率最大的金融数据需求关联渠道的所述分类错误率最小时,将所述后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
在实施金融数据需求关联渠道分类器之后,我们需要对分类结果进行评估,以确定分类器的效果。为此,采取了以下步骤:
1.计算每个金融数据需求关联渠道的分类错误率。这一步骤的目的是了解每个金融数据需求关联渠道的分类准确性,从而为后续的金融数据需求分类提供依据。
2.根据后验概率选择最优的金融数据需求关联渠道。后验概率最大的金融数据需求关联渠道意味着该关联渠道是最有可能与目标金融数据需求相关的。通过这一步骤,我们可以确保金融数据需求的分类准确性。
3.在后验概率最大的金融数据需求关联渠道的分类错误率最小时,将其作为与目标金融数据需求对应的目标金融数据需求关联渠道。这一步骤的目的是在保证分类准确性的同时,降低金融数据需求的分类错误率。
4.对其他金融数据需求进行相同的处理。在完成上述步骤后,将针对其他金融数据需求重复相同的流程,以确保整个金融数据需求的分类准确性。
5.反馈分类结果。将分类后的金融数据需求关联渠道反馈给用户或相关系统,以便根据这些信息进行后续的处理和分析。
6.持续优化和调整金融数据需求关联渠道分类器。为了提高分类器的性能,需要不断地收集金融数据需求分类的实时数据,并根据这些数据对分类器进行优化和调整。
7.监控和评估分类器的性能。在实际应用中,需要对金融数据需求关联渠道分类器的性能进行持续监控和评估,以确保其能够满足不断变化的金融数据需求。
举一实例,可按如下步骤实现:
1.接收目标金融数据需求:在具体实施过程中,首先需要接收来自用户或其他来源的目标金融数据需求。这些需求可能包括股票数据、债券数据、汇率数据等各类金融数据。
2.数据预处理:对接收到的金融数据进行预处理,如数据清洗、缺失值处理、异常值处理等,以确保后续分析的准确性。
3.金融数据需求关联渠道分类:将预处理后的金融数据输入金融数据需求关联渠道分类器,该分类器会根据金融数据的特征将其归属到不同的金融数据需求关联渠道。在这个过程中,分类器会给出每个金融数据需求关联渠道的后验概率。
4.计算分类错误率:针对每个金融数据需求关联渠道,计算其分类错误率,以评估分类结果的准确性。
5.确定目标金融数据需求关联渠道:根据后验概率和分类错误率,选取后验概率最大且分类错误率最小的金融数据需求关联渠道作为目标金融数据需求关联渠道。
6.输出结果:将目标金融数据需求关联渠道及其对应的金融数据输出,以满足用户或其他来源的需求。
在一个实施例中,金融数据需求关联渠道分类器采用基于深度学习的算法,如卷积神经网络(CNN)或循环神经网络(RNN)等。通过训练和优化模型,实现对金融数据的高效分类和关联渠道的准确确定。
在其他实施例中,可以根据实际需求和场景调整或优化上述步骤,以实现更高效、准确的金融数据处理和分析。例如,可以采用不同的分类算法、调整分类错误率的阈值、增加或减少金融数据需求关联渠道等。
具体实施时,在接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率后,将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
实施例中,所述金融数据需求关联渠道分类器可以是各种形式的分类器,例如决策树、支持向量机、神经网络等。在训练阶段,分类器会根据金融数据的需求特征和关联渠道特征,学习到每一金融数据需求关联渠道的后验概率。
在具体实施过程中,首先,接收用户提交的金融数据需求。然后,根据金融数据需求关联渠道分类器,计算出目标金融数据需求归属于每一金融数据需求关联渠道的后验概率。接下来,找出后验概率最大的金融数据需求关联渠道,这个关联渠道即为与目标金融数据需求对应的目标金融数据需求关联渠道。
例如,假设有一个金融数据需求,通过金融数据需求关联渠道分类器计算,发现该需求最可能归属于银行渠道。那么,就可以将这个金融数据需求推送给银行渠道,以满足用户的需求。
此外,还可以根据金融数据需求关联渠道的后验概率,对金融数据需求进行排序,优先处理后验概率较大的需求。这样可以提高处理金融数据需求的效率,更好地满足用户需求。
在实施过程中,还可以根据实际情况调整金融数据需求关联渠道分类器的参数,以提高分类器的准确性和效率。同时,也可以不断地更新和优化金融数据需求关联渠道的特征,以便更准确地预测金融数据需求的归属渠道。
在一个实施例中,还包括:
发出携带有目标金融数据需求关联渠道和目标金融数据需求的通知信息;
接收基于所述通知信息反馈的所述目标金融数据需求关联渠道是否准确的指令;
在所述指令标识所述目标金融数据需求关联渠道准确时,基于所述目标金融数据需求关联渠道和目标金融数据需求,对所述金融数据需求关联渠道分类器进行更新优化。
在一个实施例中,对训练好的金融数据需求关联渠道分类器进行实时更新,以适应金融数据需求的不断变化。具体包括:
定期收集新的金融数据需求和对应的金融数据需求关联渠道的历史数据;
将新的历史数据与现有历史数据进行整合,形成新的训练数据集;
基于机器学习算法,以新的训练数据集作为训练集,对金融数据需求关联渠道分类器进行重新训练;
更新金融数据需求关联渠道分类规则库,以包含新的金融数据需求和对应的金融数据需求关联渠道。
在上述实施例中,所述的金融数据需求关联渠道分类器可以是一个基于机器学习算法的分类模型,例如决策树、支持向量机、神经网络等。该分类器通过训练样本学习金融数据需求关联渠道的特征,从而对金融数据需求进行分类。在更新优化过程中,可以根据反馈的关联渠道准确性指令,调整分类器的参数,提高分类准确性。
本发明实施例中,采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道,与现有技术中仅能通过人工进行金融数据需求分析的技术方案相比,通过利用机器学习算法,建立金融数据需求关联渠道分类器,实现数据需求的部分自动化关联分析,实现了利用贝叶斯算法对实时新增需求进行预测分析的目的,可有效识别金融数据需求对应的金融数据需求关联渠道,不再仅依赖人工分析,提高需求分析的及时性,提升服务效率,提升了金融数据需求处理的处理效率和准确性。
下面给出一个具体实施例,来说明本发明的方法的具体应用,该实施例针对数据需求分析耗费人力时间长、准确率不高等缺点,建立了简单的数据需求分析模型。通过机器学习算法训练样本集,并建立规则库,按照已建立的需求关联规则对新需求进行关联,提供新需求的关联方结果。
该实施例如图2和图3所示,可以包括如下步骤:
步骤1、数据采集。通过批量或实时方式采集数据。可通过API实时查询(源系统开发查询接口字段)、批量文件传输(与源文件约定文件格式、生成频次、获取方式等)、网络爬虫获取页面内容等方式采集所需的数据需求样本集。同时启用定时采集程序,定期启动以获取数据。并提供人工导数方式作为补充手段。
步骤2、数据分析。首先根据数据质量的规则,对原始文本信息进行预处理(清洗、加工、整合操作),生成具有统一标准的高质量数据。利用机器学习算法对数据进行特征选取、分析计算,建立数据需求的规则库(需求或数据需求字段与关联方建立映射关系,形成映射表)。
1)文本预处理:对原始需求内容进行信息预处理。
2)自动分词:将完整内容进行切片分词。
3)特征选取:对每个特征词计算统计度量值,设定阈值后,将度量值小于该阈值的特征过滤,剩下的被认定为有效特征。
4)分类器:对特征进行特征权重计算,训练分类器。用以建立需求内容和需求关联方之间的映射关系,形成分类规则库。
步骤3、数据应用。根据已建立的规则库,利用贝叶斯算法对新的数据分析需求进行预测分析,提供分析结果,由分析人员进行确认后更新模型规则,并对最终分析结果进行确认。确认后将需求派发至关联系统。
将采集到的原始数据清洗加工整合后,划分训练集和测试集,利用贝叶斯算法进行分类器训练,再利用分类器(分类准则)对新数据进行预测分析。
在步骤1中,实现了数据采集的自动化和智能化,通过实时和批量的方式,涵盖了API查询、文件传输、网络爬虫等多种数据采集手段,满足了数据需求的多样性。同时,定时采集程序的设置,保证了数据的及时性和准确性。人工导数的补充,更是增强了数据采集的灵活性和可靠性。
在步骤2中,通过预处理、自动分词、特征选取和分类器的建立,实现了数据的深度分析和挖掘。预处理去除了原始数据中的噪声和无用信息,自动分词和特征选取使数据更具代表性,分类器的建立则赋予了数据关联性和预测性。这一步骤中,数据被转化为高质量、高价值的信息,为后续的数据应用奠定了基础。
在步骤3中,利用贝叶斯算法对新的数据分析需求进行预测分析,进一步提升了数据的价值。分析结果的提供、分析人员的确认、模型规则的更新,以及需求派发至关联系统,形成了一个完整的数据分析闭环。这个过程不仅实现了数据的实时应用,也使数据的价值得到了最大化的发挥。
本发明基于机器学习算法,将历史数据需求分析进行统计建模,其统计特性通过所建立的模型得到数学化描述。然后在对新需求进行处理时,利用统计指标来预测分析其类别,定位需求关联方,实现金融数据提取需求的分析等功能:
假设,共有c个类别数的各类别状态为:wi,i=1,2,…,c;各类别的先验概率为P(wi),同时类别状态为wi时特征值x的概率密度为p(x|wi),由贝叶斯公式可以计算出在特征值已知的条件下属于类别wi的后验概率为:
有了后验概率再依据分类错误率最小做出预测分析,即将x归类至后验概率最大的那个类别。
步骤4、模型优化与更新。为了确保数据需求分析模型的准确性和有效性,需要定期对模型进行优化和更新。优化和更新的方法包括:调整模型参数、引入新的特征、更新训练数据等。此外,还可以通过集成学习、迁移学习等方法提高模型的预测能力。
步骤5、模型评估与调整:根据预测结果的准确性和稳定性,对模型进行评估和调整。评估指标可以包括准确率、召回率、F1值等。根据评估结果,调整模型的参数或特征,以提高模型性能。
步骤6、模型更新:定期更新训练数据,以适应不断变化的数据需求场景。可以通过增量学习或在线学习方法,使模型能够适应新数据的分布。同时,可以根据实际情况调整数据预处理和特征工程策略,以提高模型的泛化能力。
步骤7、异常检测与处理。在数据需求分析过程中,可能会遇到异常数据,如噪声、错误、缺失值等。为了解决这个问题,可以通过以下方法进行异常检测和处理:
1)异常检测:采用统计方法、机器学习方法或深度学习方法等,对数据中的异常值进行检测。检测出的异常值可以进行删除、填充或标注等处理。
2)异常处理:针对检测出的异常值,采用插值、平滑、分类等方法进行处理。处理后的数据可以重新用于模型训练和预测,以提高分析结果的准确性。
步骤8、系统实现与应用。为了便于实际应用,可以将上述数据需求分析方法实现为一个完整的系统。该系统可以包括以下模块:
1)数据采集与预处理模块:负责采集原始数据,并进行预处理,生成高质量的数据。
2)特征工程与模型训练模块:对预处理后的数据进行特征工程处理,提取有效特征;利用机器学习算法训练模型,建立需求关联规则。
3)新需求预测与分析模块:根据训练好的模型,对新的数据需求进行预测分析,提供关联方结果。
4)模型优化与更新模块:定期对模型进行优化和更新,提高分析准确性。
5)异常检测与处理模块:检测和处理数据中的异常值,保证分析结果的准确性。
6)结果展示与交互模块:将分析结果以可视化或报表形式展示给用户,提供交互功能,便于用户对分析结果进行确认和调整。
通过以上模块的协同工作,实现数据需求分析的高效、准确和智能化。本发明不仅可以应用于金融数据提取需求分析,还可以拓展到其他领域,如市场营销、客户服务、供应链管理等,具有广泛的应用前景。
具体的,上述计算过程可概括为如下步骤:
1.确定类别数和各类别状态。例如,假设有3个类别,分别为A、B、C,其状态分别为1、2、3。
2.确定各类别的先验概率。假设P(A)=0.3,P(B)=0.5,P(C)=0.2。
3.确定特征值。假设特征值为x,其概率密度函数为f(x|A),f(x|B),f(x|C)。
4.计算后验概率。根据贝叶斯公式,对于每个类别,计算在特征值已知的条件下属于该类别的后验概率。例如,对于类别A,后验概率为P(A|x)=P(x|A)×P(A)/P(x)。
5.计算分类错误率。根据后验概率,计算将特征值x归类至各个类别的错误率。错误率最小的类别即为预测结果。
6.进行预测分析。将特征值x归类至后验概率最大的那个类别。
以下是一个简单的示例:
类别A的状态为1,先验概率为0.3;类别B的状态为2,先验概率为0.5;类别C的状态为3,先验概率为0.2。
特征值x的概率密度函数为:
f(x|A)=0.9,f(x|B)=0.8,f(x|C)=0.7。
根据贝叶斯公式,计算后验概率:
P(A|x)=0.9×0.3/(0.9×0.3+0.8×0.5+0.7×0.2)=0.27
P(B|x)=0.8×0.5/(0.9×0.3+0.8×0.5+0.7×0.2)=0.36
P(C|x)=0.7×0.2/(0.9×0.3+0.8×0.5+0.7×0.2)=0.37
计算分类错误率:
错误率A=|0.27-0.3|=0.03
错误率B=|0.36-0.5|=0.14
错误率C=|0.37-0.2|=0.17
将特征值x归类至后验概率最大的类别B。
通过以上步骤,可以根据特征值和各类别的先验概率、概率密度函数,利用贝叶斯公式计算后验概率,进而进行分类预测。在实际应用中,该方法可以帮助我们准确地识别物体、判断事件等。
当新需求有了预测分析结果,并经过分析人员确认后,同时把“修正后的信息”作为下一次的先验分布,再次进行试验加以修正,用后验信息不断更新先验知识。当前的后验信息综合了先验知识和当前的样本信息;在引入新的样本(需求分析)后,之前样本的后验知识又变为了待测样本的先验信息;按照此模式不断地进行修正,结果更加准确。
具体可以包括:
1.预测分析结果的运用:在实际应用中,预测分析结果起到了关键作用。这些结果可以为决策者提供有关未来趋势和可能发生的事件的有用信息。通过对预测分析结果的合理利用,企业可以更好地规划资源、优化生产流程、提高市场竞争力。
2.先验分布的修正:在每次试验后,先验分布都会根据试验结果进行修正。这种修正过程有助于提高预测分析的准确性,因为先验分布是根据历史数据和专家意见形成的,而这些数据和意见可能随着时间的推移而发生变化。
3.后验信息的更新:随着新的样本信息的出现,后验信息会不断更新,从而为下一次预测提供更为精确的先验知识。这种更新过程有助于克服传统预测方法中先验信息过时的问题,提高预测分析的可靠性。
4.迭代过程的优势:通过不断地修正先验信息和更新后验信息,预测分析模型可以逐渐提高预测结果的准确性。这种迭代过程在很大程度上依赖于数据质量和分析人员的经验。同时,引入新的样本信息可以使模型更好地适应不断变化的环境。
本发明可提高数据需求分析的处理能力。利用机器学习算法,建立数据需求的规则库,实现数据需求的部分自动化关联分析。利用贝叶斯算法对实时新增需求进行预测分析,有效识别数据对应的提供方,不再仅依赖人工分析,提高需求分析的及时性,提升服务效率。此外,本发明还可以建立统一的数据标准。通过对原始数据进行清洗、加工,统一数据需求的标准,为后续数据计算与分析提供高质量的数据基础。
本发明在提高数据需求分析处理能力的同时,还能降低人工干预的依赖程度。通过运用机器学习算法和贝叶斯算法,实现了数据需求的自动化关联分析和预测分析。这不仅提高了需求分析的及时性和服务效率,还降低了因人工分析导致的错误率和遗漏率。
在此基础上,本发明进一步提出了建立统一数据标准的方法。通过对原始数据进行清洗、加工,确保数据需求的标准化,为后续的数据计算和分析提供了高质量的数据基础。这一举措有助于提高数据分析和应用的准确性,为企业决策提供更有力的支持。
另外,本发明还具有灵活的扩展性。随着业务的发展和需求的变化,可以不断调整和优化算法模型,以适应不断变化的数据环境。这使得本发明具有较高的实用价值和广泛的应用前景。
综上所述,本发明通过引入机器学习算法和贝叶斯算法,实现了数据需求分析的自动化和智能化,提高了数据处理的效率和质量。同时,建立统一的数据标准,为后续的数据分析和应用提供了高质量的数据支持。此外,本发明还具备灵活的扩展性,能够适应不断变化的业务需求。
当然,可以理解的是,上述详细流程还可以有其他变化例,相关变化例均应落入本发明的保护范围。
本发明实施例中,采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道,与现有技术中仅能通过人工进行金融数据需求分析的技术方案相比,通过利用机器学习算法,建立金融数据需求关联渠道分类器,实现数据需求的部分自动化关联分析,实现了利用贝叶斯算法对实时新增需求进行预测分析的目的,可有效识别金融数据需求对应的金融数据需求关联渠道,不再仅依赖人工分析,提高需求分析的及时性,提升服务效率,提升了金融数据需求处理的处理效率和准确性。
如上述,目前对数据需求的分析和处理仅仅依靠人工,人力时间成本较高、效率低下,本发明基于机器学习算法,通过对数据采集的自动化分析预测,提升找到需求关联方的准确性和及时性,提高服务效率。此外,现阶段内的数据需求多是文本形式,有效的数据字段容易淹没在“噪音”信息中,且缺少统一的数据标准,同一数据字段在不同需求中的表述不尽相同。本发明可对数据进行清洗、加工,统一数据标准,为后续数据分析提供高质量的数据基础。
本发明实施例中还提供了一种金融数据需求处理装置,如下面的实施例所表述的。由于该装置解决问题的原理与金融数据需求处理方法相似,因此该装置的实施可以参见金融数据需求处理方法的实施,重复之处不再赘述。
本发明实施例还提供一种金融数据需求处理装置,用以自动化实现金融数据需求处理,提升金融数据需求处理的处理效率和准确性,如图4所示,该装置包括:
数据采集模块401,用于采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;
分类训练模块402,用于基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;
目标金融数据需求输入模块403,用于接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;
后验概率接收模块404,用于接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;
目标金融数据需求关联渠道确定模块405,用于将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
在一个实施例中,分类训练模块,具体用于:
对所述历史数据进行文本预处理;
对进行文本预处理后的历史数据进行分词处理,得到对应历史数据的多个特征词;
根据所述对应历史数据的多个特征词,计算历史数据中每一类金融数据需求关联渠道的条件概率和先验概率;
根据历史数据中每一类金融数据需求关联渠道的条件概率和先验概率,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器。
在一个实施例中,还包括:
分类器验证模块,用于:
将历史数据作为验证集,对训练好的金融数据需求关联渠道分类器进行验证,得到验证好的金融数据需求关联渠道分类器;
目标金融数据需求输入模块,具体用于:
将接收的目标金融数据需求输入至验证好的金融数据需求关联渠道分类器。
在一个实施例中,还包括:
发出携带有目标金融数据需求关联渠道和目标金融数据需求的通知信息;
接收基于所述通知信息反馈的所述目标金融数据需求关联渠道是否准确的指令;
在所述指令标识所述目标金融数据需求关联渠道准确时,基于所述目标金融数据需求关联渠道和目标金融数据需求,对所述金融数据需求关联渠道分类器进行更新优化。
在一个实施例中,还包括:
基于训练好的金融数据需求关联渠道分类器,生成金融数据需求关联渠道分类规则库;所述金融数据需求关联渠道分类规则库携带有不同金融数据需求和对应不同金融数据需求的金融数据需求关联渠道。
在一个实施例中,还包括:
计算目标金融数据需求归属于每一金融数据需求关联渠道的分类错误率;
将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道,包括:
在后验概率最大的金融数据需求关联渠道的所述分类错误率最小时,将所述后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
本发明实施例提供一种用于实现上述金融数据需求处理方法中的全部或部分内容的计算机设备的实施例所述计算机设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现相关设备之间的信息传输;该计算机设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该计算机设备可以参照实施例用于实现金融数据需求处理方法的实施例及用于实现金融数据需求处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图5为本申请实施例的计算机设备1000的系统构成的示意框图。如图5所示,该计算机设备1000可以包括中央处理器1001和存储器1002;存储器1002耦合到中央处理器1001。值得注意的是,该图5是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,金融数据需求处理功能可以被集成到中央处理器1001中。其中,中央处理器1001可以被配置为进行如下控制:
采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;
基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;
接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;
接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;
将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
在另一个实施方式中,金融数据需求处理装置可以与中央处理器1001分开配置,例如可以将金融数据需求处理装置配置为与中央处理器1001连接的芯片,通过中央处理器的控制来实现金融数据需求处理功能。
如图5所示,该计算机设备1000还可以包括:通信模块1003、输入单元1004、音频处理器1005、显示器1006、电源1007。值得注意的是,计算机设备1000也并不是必须要包括图5中所示的所有部件;此外,计算机设备1000还可以包括图5中没有示出的部件,可以参考现有技术。
如图5所示,中央处理器1001有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器1001接收输入并控制计算机设备1000的各个部件的操作。
其中,存储器1002,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器1001可执行该存储器1002存储的该程序,以实现信息存储或处理等。
输入单元1004向中央处理器1001提供输入。该输入单元1004例如为按键或触摸输入装置。电源1007用于向计算机设备1000提供电力。显示器1006用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器1002可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器1002还可以是某种其它类型的装置。存储器1002包括缓冲存储器1021(有时被称为缓冲器)。存储器1002可以包括应用/功能存储部1022,该应用/功能存储部1022用于存储应用程序和功能程序或用于通过中央处理器1001执行计算机设备1000的操作的流程。
存储器1002还可以包括数据存储部1023,该数据存储部1023用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由计算机设备使用的数据。存储器1002的驱动程序存储部1024可以包括计算机设备的用于通信功能和/或用于执行计算机设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块1003即为经由天线1008发送和接收信号的发送机/接收机1003。通信模块(发送机/接收机)1003耦合到中央处理器1001,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一计算机设备中,可以设置有多个通信模块1003,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)1003还经由音频处理器1005耦合到扬声器1009和麦克风1010,以经由扬声器1009提供音频输出,并接收来自麦克风1010的音频输入,从而实现通常的电信功能。音频处理器1005可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器1005还耦合到中央处理器1001,从而使得可以通过麦克风1010能够在本机上录音,且使得可以通过扬声器1009来播放本机上存储的声音。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述金融数据需求处理方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述金融数据需求处理方法。
本发明实施例中,采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道,与现有技术中仅能通过人工进行金融数据需求分析的技术方案相比,通过利用机器学习算法,建立金融数据需求关联渠道分类器,实现数据需求的部分自动化关联分析,实现了利用贝叶斯算法对实时新增需求进行预测分析的目的,可有效识别金融数据需求对应的金融数据需求关联渠道,不再仅依赖人工分析,提高需求分析的及时性,提升服务效率,提升了金融数据需求处理的处理效率和准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种金融数据需求处理方法,其特征在于,包括:
采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;
基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;
接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;
接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;
将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
2.如权利要求1所述的方法,其特征在于,基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器,包括:
对所述历史数据进行文本预处理;
对进行文本预处理后的历史数据进行分词处理,得到对应历史数据的多个特征词;
根据所述对应历史数据的多个特征词,计算历史数据中每一类金融数据需求关联渠道的条件概率和先验概率;
根据历史数据中每一类金融数据需求关联渠道的条件概率和先验概率,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器。
3.如权利要求1所述的方法,其特征在于,还包括:
将历史数据作为验证集,对训练好的金融数据需求关联渠道分类器进行验证,得到验证好的金融数据需求关联渠道分类器;
将接收的目标金融数据需求输入至金融数据需求关联渠道分类器,包括:
将接收的目标金融数据需求输入至验证好的金融数据需求关联渠道分类器。
4.如权利要求1所述的方法,其特征在于,还包括:
发出携带有目标金融数据需求关联渠道和目标金融数据需求的通知信息;
接收基于所述通知信息反馈的所述目标金融数据需求关联渠道是否准确的指令;
在所述指令标识所述目标金融数据需求关联渠道准确时,基于所述目标金融数据需求关联渠道和目标金融数据需求,对所述金融数据需求关联渠道分类器进行更新优化。
5.如权利要求1所述的方法,其特征在于,还包括:
基于训练好的金融数据需求关联渠道分类器,生成金融数据需求关联渠道分类规则库;所述金融数据需求关联渠道分类规则库携带有不同金融数据需求和对应不同金融数据需求的金融数据需求关联渠道。
6.如权利要求1所述的方法,其特征在于,还包括:
计算目标金融数据需求归属于每一金融数据需求关联渠道的分类错误率;
将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道,包括:
在后验概率最大的金融数据需求关联渠道的所述分类错误率最小时,将所述后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
7.一种金融数据需求处理装置,其特征在于,包括:
数据采集模块,用于采集金融数据需求和对应的金融数据需求关联渠道的历史数据;所述金融数据需求用于表征以业务语言描述的由数据提供方提供给金融数据需求关联渠道的金融相关数据;
分类训练模块,用于基于机器学习算法,以所述历史数据作为训练集,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器;所述金融数据需求关联渠道分类器以金融数据需求为输入数据,以金融数据需求对应的金融数据需求关联渠道为分类结果;
目标金融数据需求输入模块,用于接收目标金融数据需求;将接收的目标金融数据需求输入至金融数据需求关联渠道分类器;
后验概率接收模块,用于接收所述金融数据需求关联渠道分类器反馈的:所述目标金融数据需求归属于每一金融数据需求关联渠道的后验概率;
目标金融数据需求关联渠道确定模块,用于将后验概率最大的金融数据需求关联渠道,作为与目标金融数据需求对应的目标金融数据需求关联渠道。
8.如权利要求7所述的装置,其特征在于,分类训练模块,具体用于:
对所述历史数据进行文本预处理;
对进行文本预处理后的历史数据进行分词处理,得到对应历史数据的多个特征词;
根据所述对应历史数据的多个特征词,计算历史数据中每一类金融数据需求关联渠道的条件概率和先验概率;
根据历史数据中每一类金融数据需求关联渠道的条件概率和先验概率,对朴素贝叶斯模型来进行分类训练,得到训练好的金融数据需求关联渠道分类器。
9.如权利要求7所述的装置,其特征在于,还包括:
分类器验证模块,用于:
将历史数据作为验证集,对训练好的金融数据需求关联渠道分类器进行验证,得到验证好的金融数据需求关联渠道分类器;
目标金融数据需求输入模块,具体用于:
将接收的目标金融数据需求输入至验证好的金融数据需求关联渠道分类器。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
CN202410038337.5A 2024-01-10 2024-01-10 金融数据需求处理方法及装置 Pending CN117893306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410038337.5A CN117893306A (zh) 2024-01-10 2024-01-10 金融数据需求处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410038337.5A CN117893306A (zh) 2024-01-10 2024-01-10 金融数据需求处理方法及装置

Publications (1)

Publication Number Publication Date
CN117893306A true CN117893306A (zh) 2024-04-16

Family

ID=90640921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410038337.5A Pending CN117893306A (zh) 2024-01-10 2024-01-10 金融数据需求处理方法及装置

Country Status (1)

Country Link
CN (1) CN117893306A (zh)

Similar Documents

Publication Publication Date Title
US8533537B2 (en) Technology infrastructure failure probability predictor
US8230268B2 (en) Technology infrastructure failure predictor
US11562372B2 (en) Probabilistic feature engineering technique for anomaly detection
US8359284B2 (en) Organization-segment-based risk analysis model
CN110738564A (zh) 贷后风险评估方法及装置、存储介质
CN113627566B (zh) 一种网络诈骗的预警方法、装置和计算机设备
CN111275546A (zh) 金融客户欺诈风险识别方法及装置
CN117455417B (zh) 一种智能风控审批策略自动迭代优化方法及系统
CN117709446A (zh) 基于规则引擎的动态金融信用风险模型的构建方法
KR102499181B1 (ko) 인공지능을 이용한 대출 상시감사지원시스템
CN112734352A (zh) 一种基于数据维度的单据审核方法和装置
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN113220447B (zh) 基于边缘计算的金融风控系统及方法
KR102499182B1 (ko) 인공지능을 이용한 가계대출 사기/부실 상시감사지원시스템
CN113205409A (zh) 贷款业务处理方法及装置
CN117635153A (zh) 客户金融交易风险报告生成方法及装置
CN112418893A (zh) 一种基于机器学习的供应链调整方法、装置及电子设备
CN117893306A (zh) 金融数据需求处理方法及装置
CN117876018A (zh) 潜在客户识别和预测的方法、装置、电子设备及存储介质
CN117196630A (zh) 交易风险预测方法、装置、终端设备以及存储介质
CN110442799B (zh) 基于数据管理平台的方案推送方法、装置及设备
CN113449923A (zh) 一种多模型标的物行情预测方法和装置
CN113159606A (zh) 操作风险识别方法及装置
CN117114858B (zh) 基于aviator表达式的计算检查公式的配置化实现方法
CN118797449B (zh) 一种基于人工智能数字口岸智慧关务方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination