发明内容
本发明提供一种金融数据处理方法、装置、电子设备、介质及产品,用以解决现有技术中如何让用户更便捷的从海量数据中获取其想要数据。
本发明提供一种金融数据处理方法,包括:
从至少一个金融数据源获取金融数据集;
对所述金融数据集进行数据加工和自然语言处理,得到金融基础数据集;
基于所述金融基础数据集和预设金融业务场景信息,确定每个所述预设金融业务场景信息对应的应用程序接口;
其中,所述应用程序接口用于金融数据查询。
根据本发明提供的一种金融数据处理方法,所述对所述金融数据集进行数据加工和自然语言处理,得到金融基础数据集,包括:
基于所述金融数据进行目标数据要素抽取,得到第一金融数据集;
对所述第一金融数据集进行转换处理和加载处理,得到第二金融数据集;
将所述第二金融数据集进行自然语言处理,得到金融基础数据。
根据本发明提供的一种金融数据处理方法,所述将所述第二金融数据集进行自然语言处理,得到金融基础数据,包括:
将所述第二金融数据集输入预设机器阅读理解模型,得到各个金融事件信息和每个所述金融事件信息对应的各个金融要素信息;
基于所述金融要素信息和所述金融事件信息,得到所述金融基础数据。
根据本发明提供的一种金融数据处理方法,所述基于所述金融基础数据集和预设金融业务场景信息,确定每个所述预设金融业务场景信息对应的应用程序接口,包括:
获取各个所述预设金融业务场景信息对应的业务逻辑公式;
基于所述金融基础数据集和各个所述业务逻辑公式,计算得到多个衍生数据表;
将各个所述衍生数据表,封装为每个所述预设金融业务场景信息对应的应用程序接口。
根据本发明提供的一种金融数据处理方法,在所述确定每个所述金融业务场景信息对应的应用程序接口之后,还包括:
接收用户终端的查询请求信息,并确定所述查询请求信息对应的目标金融业务场景信息;
在所述目标金融业务场景信息关联多个应用程序接口的情况下,将所述多个应用程序接口封装为一个目标应用程序接口。
本发明还提供一种金融数据处理装置,包括:
获取模块,用于从至少一个金融数据源获取金融数据集;
处理模块,用于对所述金融数据集进行数据加工和自然语言处理,得到金融基础数据集;
确定模块,用于基于所述金融基础数据集和预设金融业务场景信息,确定每个所述金融业务场景信息对应的应用程序接口。
根据本发明提供的一种金融数据处理装置,所述处理模块具体用于:
基于所述金融数据进行目标数据要素抽取,得到第一金融数据集;
对所述第一金融数据集进行转换处理和加载处理,得到第二金融数据集;
将所述第二金融数据集进行自然语言处理,得到金融基础数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述金融数据处理方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述金融数据处理方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述金融数据处理方法。
本发明提供的一种金融数据处理方法、装置、电子设备、介质及产品,通过对金融数据集进行数据分析,抽取数据中的关键要素,得到有效的金融基础数据集后,进一步结合预设金融业务场景信息,将各类数据结合业务场景,封装为每个预设金融业务场景信息对应的应用程序接口,方便用户在查询相关数据时能够快速进行调用。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本申请实施例提供的金融数据处理方法流程示意图,如图1所示,包括:
步骤110,从至少一个金融数据源获取金融数据集;
具体地,本申请实施例中所描述的各类型金融相关数据源具体可以是覆盖各个公司、各个行业、各个上市公司的数据源,进一步还可以包括债券、基金等领域的数据源。
本申请实施例中所描述的金融相关数据源除了包括常用的资讯数据源外,还可以包括冷门的数据源,例如小道消息等。
本申请实施例中具体可以是从特定的历史数据中来获取相关金融数据集,也可以是通过爬虫技术搜索,从互联网数据中爬取的金融相关数据。
本申请实施例中所描述的金融数据集具体可以是各种与金融相关的资讯数据所组成的集合。
步骤120,对所述金融数据集进行数据加工和自然语言处理,得到金融基础数据集;
具体地,在得到金融数据集后,由于金融数据集中可能包含很多干扰数据,因此本申请实施例中需要对该金融数据集进行进一步处理。
具体地,本申请实施例中可以对该金融数据集进行数据抽取处理、数据转换处理和数据加载处理,从而实现对于金融数据集中关键要素的抽取,然后对于抽取后的数据进行自然语言处理,对抽取后的数据进行去重、语义理解、命名实体识别及事件抽取处理,得到各个金融要素及金融事件后,将得到的要素和事件存储到基础库MySQL中,得到金融基础数据集。
本申请实施例中所描述的事件具体是指发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或多个动作组成的事情或者状态的改变。
本申请实施例中所描述的金融基础数据集中包含了各类金融事件信息,及其对应金融要素信息。
步骤130,基于所述金融基础数据集和预设金融业务场景信息,确定每个所述预设金融业务场景信息对应的应用程序接口;
其中,所述应用程序接口用于金融数据查询。
具体地,本申请实施例中所描述的预设金融业务场景信息可以是根据金融业务需求,而预设限定的场景信息,例如,在金融业务场景中,涉及到金融投研业务场景、金融风控预警业务场景、金融营销情报业务场景及金融小道消息业务场景等。
本申请实施例中在确定预设金融业务场景信息后,可以根据金融基础数据集中的数据,进一步挖掘预设金融业务场景信息对应的衍生数据,从而使得可以分开获取基础数据集和衍生数据,有利于数据的分类存储。
更具体的,本申请实施例中在得到衍生数据后,会根据不同的预设金融业务场景信息,将其封装成为各种应用程序接口(Application Programming Interface;API),从而可以便于后续快速调用,具体地,可以基于多个API沉淀金融数据字典。
在本申请实施例中,通过对金融数据集进行数据分析,抽取数据中的关键要素,得到有效的金融基础数据集后,进一步结合预设金融业务场景信息,将各类数据结合业务场景,封装为每个预设金融业务场景信息对应的应用程序接口,方便用户在查询相关数据时能够快速进行调用。
可选地,对所述金融数据集进行数据加工和自然语言处理,得到金融基础数据集,包括:
基于所述金融数据进行目标数据要素抽取,得到第一金融数据集;
对所述第一金融数据集进行转换处理和加载处理,得到第二金融数据集;
将所述第二金融数据集进行自然语言处理,得到金融基础数据。
具体地,本申请实施例中所描述的目标数据要素,具体可以是金融数据集中的特定数据要素,例如公司名、地域等等,该目标数据要素的提取方式可以是通过自然语言处理技术来实现的,通过目标数据要素的提取,得到第一金融数据集,能够有效过滤金融数据集中的干扰因素,从而减少后续分析的数据量,加快分析速度。
本申请实施例中在得到第一金融数据集后还会进一步对其进行转换和加载处理,从而得到将分散、凌乱、标准不统一的第一金融数据集整合到一起,即将第一数据集中的数据转换为金融业务所对应的专业名称,通过加载存储在数据库中,得到第二金融数据集。
在得到第二金融数据集后,还需要对其进行自然语言处理,从而得到能够直接利用的金融基础数据。
在本申请实施例中,通过对金融数据集进行目标数据要素抽取后,在进行转换处理和加载处理,能够直接利用金融基础数据集,有利于后续数据的处理。
可选地,所述将所述第二金融数据集进行自然语言处理,得到金融基础数据集包括:
将所述第二金融数据集输入预设机器阅读理解模型,得到各个金融事件信息和每个所述金融事件信息对应的各个金融要素信息;
基于所述金融要素信息和所述金融事件信息,得到所述金融基础数据集。
具体地,本申请实施例中所描述的预设机器阅读理解模型可以是预先选取数据训练样本进行训练得到的,其具体可以明确是分类任务还是要素抽取任务,然后针对不同的任务,选取不同的模型样本进行标注,再分为训练样本、验证样本及测试样本,训练完模型后,即可用模型去做相应的预测。
可选地,本申请实施例中所描述的训练样本的标注可以是通过无监督自标注的方式来进行,也可以是通过人工标注的方式实现的。
在将第二金融数据集输入预设机器阅读理解模型,可以对资讯进行去重、语义理解、命名实体识别及事件抽取,得到各个金融事件信息和每个所述金融事件信息对应的各个金融要素信息,然后将得到的要素和事件存储到基础库MySQL中。
在本申请实施例中,通过对数据进行去重、语义理解、命名实体识别及事件抽取,能够有效确定金融基础数据集,有利于后续步骤的进行。
可选地,基于所述金融基础数据集和预设金融业务场景信息,确定每个所述预设金融业务场景信息对应的应用程序接口,包括:
获取各个所述预设金融业务场景信息对应的业务逻辑公式;
基于所述金融基础数据集和各个所述业务逻辑公式,计算得到多个衍生数据表;
将各个所述衍生数据表,封装为每个所述预设金融业务场景信息对应的应用程序接口。
具体地,本申请实施例中所描述的业务逻辑公式可以是预先设定的公式内容,其主要是根据业务逻辑映射得到的公式,即在本申请实施例中可以基于每个金融业务场景信息对应业务逻辑,预先得到其对应的业务逻辑公式,并将业务逻辑公式与其对应的预设金融业务场景信息之间建立关联关系。
相应地,可以根据预设金融业务场景信息获取其对应的业务逻辑公式。
本申请实施案例中在确定业务逻辑公式后,会将金融基础数据集那个的字段要素带入到计算公式中,例如:
需要计算近一周整体收益率:
近一周整体收益率=(当前日期收盘价-前5个工作日收盘价)/前5个工作日收盘价
基金公司今年以来各类型基金平均涨跌幅=基金公司不同类型的基金今年以来的所有收益/(基金公司每类基金的去年年底基金规模求和)
其中,基金公司不同类型基金今年以来收益=sum(当前基金规模*今年以来回报)
在本申请实施例中,根据各类业务逻辑公式,可以计算得到多个衍生要素,并根据计算得到的衍生要素构建多个衍生数据表。
在得到多个衍生数据表后,会进一步根据业务场景封装成各种API,方便后续可以快速调用。
在本申请实施例中,通过各个预设金融业务场景对应的业务逻辑公式,充分发掘衍生数据,并对应将衍生数据对应的衍生数据表封装为应用程序接口,方便后续使用。
可选地,图2为本申请实施例提供的数据框架示意图,如图2所示,该框架设计包含持续集成、数据源、数据层、组建层、业务层、网关层及接入层。其中数据源及业务层就是数据处理及存储,是本框架的重点,本申请实施例中采用了各种集成方式,比如容器和集成工具。容器部署较方便、较安全、隔离性好、能够快速回滚、成本低且管理成本更低。集成工具jenkins可跨平台,支持所有的平台,支持分布式的build,安装配置超级简单。数据存储方式多样化,包含但不限于Mysql、ES、Redis等。数据不仅是实时数据,还包含离线数据。技术框架拥有丰富的组建层,包含链路追踪、重试机制、资源隔离等。在组建层的上层,有着丰富的业务应用层,可自动配置,整个框架加入了网关层及后台管理层,便于整个数据的管理及应用。在整个技术框架中,添加了监控机制及日志管理,便于数据的实时监控及告警。
可选地,在所述确定每个所述预设金融业务场景信息对应的应用程序接口之后,还包括:
接收用户终端的查询请求信息,并确定所述查询请求信息对应的目标金融业务场景信息;
在所述目标金融业务场景信息关联多个应用程序接口的情况下,将所述多个应用程序接口封装为一个目标应用程序接口。
具体地,在本申请实施例中所描述的查询请求信息具体可以是指用户希望查询的特定字段,也可以是指用户希望查询的金融业务场景信息。
在收到用户终端的查询请求信息后,会进一步确定所述查询请求信息对应的目标金融业务场景信息,若根据目标金融业务场景信息,一个最小单元的API不能满足该目标金融业务场景信息所需求的字段输出时,则说明该目标金融业务场景信息可能关联有多个API,此时可以将多个API封装为一个目标API。
若根据目标金融业务场景信息,一个最小单元的API能够满足目标金融业务场景信息,则认为该目标金融业务场景信息关联一个API。
在接受用户终端的查询请求信息之后,基于为用户终端授予的特定信息来确定其是否具备访问api的权限,例如用户终端的id及用户终端的密码,生成可以获取api的token(前提是token与ip白名单绑定),再加上post请求和安全校验,即可获得访问api的权限。
在本申请实施例中,采用了丰富的数据源,包含离线数据及实时数据,稳定的数据存储方式、监控系统,具有时效性、稳定性,便于快速部署及跨平台,支持所有平台的部署,具有轻量级,方便调用等特点。
下面对本发明提供的金融数据处理装置进行描述,下文描述的金融数据处理装置与上文描述的金融数据处理方法可相互对应参照。
图3是本发明提供的金融数据处理装置的结构示意图,如图3所示,包括:获取模块310、处理模块320和确定模块330;其中,获取模块310用于从至少一个金融数据源获取金融数据集;其中,处理模块320用于对所述金融数据集进行数据加工和自然语言处理,得到金融基础数据集;其中,确定模块330用于基于所述金融基础数据集和预设金融业务场景信息,确定每个所述预设金融业务场景信息对应的应用程序接口。
可选地,所述处理模块具体用于:
基于所述金融数据进行目标数据要素抽取,得到第一金融数据集;
对所述第一金融数据集进行转换处理和加载处理,得到第二金融数据集;
将所述第二金融数据集进行自然语言处理,得到金融基础数据。
可选地,所述处理模块具体用于:
将所述第二金融数据集输入预设机器阅读理解模型,得到各个金融事件信息和每个所述金融事件信息对应的各个金融要素信息;
基于所述金融要素信息和所述金融事件信息,得到所述金融基础数据集。
可选地,所述确定模块,具体应用于:
获取各个所述预设金融业务场景信息对应的业务逻辑公式;
基于所述金融基础数据集和各个所述业务逻辑公式,计算得到多个衍生数据表;
将各个所述衍生数据表,封装为每个所述预设金融业务场景信息对应的应用程序接口。
可选地,所述装置还用于:
接收用户终端的查询请求信息,并确定所述查询请求信息对应的目标金融业务场景信息;
在所述目标金融业务场景信息关联多个应用程序接口的情况下,将所述多个应用程序接口封装为一个目标应用程序接口。
在本申请实施例中,通过对金融数据集进行数据分析,抽取数据中的关键要素,得到有效的金融基础数据集后,进一步结合预设金融业务场景信息,将各类数据结合业务场景,封装为每个预设金融业务场景信息对应的应用程序接口,方便用户在查询相关数据时能够快速进行调用。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行金融数据处理方法,该方法包括:从至少一个金融数据源获取金融数据集;对所述金融数据集进行数据加工和自然语言处理,得到金融基础数据集;基于所述金融基础数据集和预设金融业务场景信息,确定每个所述预设金融业务场景信息对应的应用程序接口。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的金融数据处理方法,该方法包括:从至少一个金融数据源获取金融数据集;对所述金融数据集进行数据加工和自然语言处理,得到金融基础数据集;基于所述金融基础数据集和预设金融业务场景信息,确定每个所述预设金融业务场景信息对应的应用程序接口。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的金融数据处理方法,该方法包括:从至少一个金融数据源获取金融数据集;对所述金融数据集进行数据加工和自然语言处理,得到金融基础数据集;基于所述金融基础数据集和预设金融业务场景信息,确定每个所述预设金融业务场景信息对应的应用程序接口。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。