CN111489744A

CN111489744A - 一种智慧银行管理系统

Info

Publication number: CN111489744A
Application number: CN202010257653.3A
Authority: CN
Inventors: 吴爽; 李洪海; 陈金朋; 刘丽娇; 关颖祺; 谢少勇; 林锡溪; 王磊; 叶隆鑫
Original assignee: China Datacom Corp ltd
Current assignee: China Datacom Corp ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2020-08-04

Abstract

一种智慧银行产品系统架构包括：数据平台、外部系统对接、智慧应用系统和移动管理门户四个部分，基于电信运营商数据，整合银行、工商、互联网数据资源，采用通信技术，结合大数据分析、大数据建模、安全组网和移动化集成等技术，提供一体化的解决方案。

Description

一种智慧银行管理系统

技术领域

本发明涉及金融领域，尤其涉及一种银行系统、企业系统、资金管理系统和方法。

背景技术

智慧银行是在银行完成渠道电子化建设后的进阶，是利用智慧化手段，结合新的思维模式来满足客户的体验和功能需求，并利用服务创新、运营及业务创新，降本增效，达到增加存量客户、挖掘潜力用户、提升营销的靶向性、提高客户的粘合度等目的，智慧银行建设项目的智慧化程度是项目是否成功的衡量标准，也是有别于传统的金融网点电子化改造的关键点。兙俥

从2014年起，国内银行业开始了智慧化转型的，以中国工商银行、中国农业银行、中国银行和中国建设银行为代表的智慧银行建设先行机构，积极加快推进金融科技创新，运用人工智能、大数据分析、深度学习等技术重新设计金融服务，打造集成金融科技场景应用的交互性智能银行。智慧化是商业银行竞争和发展的必然选择。

在智慧化进程中，中国农业银行广东分行不断加大新型电子化技术手段和智能设备的运用，率先践行银行网点终端“机器解放人”的部署规划，取得一定成就，但在精准营销、营销人员绩效考核和风险内控及移动办公领域的智慧化仍然缺失，主要体现在：

(1)客户行为大数据挖掘及基于可视化的用户画像模型缺失，有待开发应用以提升营销靶向性和精准性。项目组在调研后了解到，中国农业银行广东分行传统对于产品与客户的标签信息的利用通常是将标签信息作为客户偏好模型的偏向性指导，只对评分矩阵进行小范围调整。面对日趋剧烈的竞争环境，银行日益增长的结构化、非结构化、半结构化等杂乱无序的海量数据，传统的数据仓库与架构已无法支撑，也不适应大数据应用场景的需要。如果银行没有使用大数据分类、筛选、清洗和归类，不能掌握客户真正需求和动机，实施的营销效果并不理想，获客、留客、活客难题突出。

(2)营销人员绩效考核智能化及行为风险监控系统缺失，有待开发建设以提升银行智慧考核和内控能力。项目团队在调研后了解到，广东农行经营风险的成因主要是在于其传统管理思维与科学风险管理显著差距、现有风险管理系统的不完善性、现有评估风险能力的时代局限性、未形成风险管理文化。广东农行主要存在营销人员绩效考核流程和形式固化且主观性过强，以人工统计为主，现有风险防控手段单一、风险信息间的联系不大，运营风险防控形势严峻；内部风险防控信息维度有限、线索指向宽泛、预警不够精确等问题，不能及时预警员工的异常行为。

(3)移动智能化办公系统缺失，有待开发建设以实现银行作业系统快速移动化，提供安全可控的移动化办公和应用管理、终端管理、单点登录、安全管理、组织架构管理等功能，整合适配原PC版办公系统和其他应用，提供安全、可控、可扩展的移动应用，轻松实现移动化办公。调查了解到广东农行移动化办公基础薄弱，外勤出差时常常无兼顾需要及时处理的案头工作，导致错失营销时机和业务积压等。

发明内容

本发明的目的在于提供一种智慧银行管理系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种智慧银行管理系统，包括：数据平台、外部系统对接、智慧应用系统和移动管理门户四个部分，所述数据平台：汇聚运营商、银行、政府、工商和互联网数据，建立分布式、可靠、高可用的云存储环境，实现海量数据的实时采集，并提供数据清洗、数据分类、数据结构标准化处理能力，以及流数据的实时分析和离线分析能力；所述外部系统对接采用开放式系统互联标准和协议，建立具有安全性、支持实时和定时数据交换方式的标准化数据接口，与银行内部各作业系统对接；所述智慧应用系统将底层的基础能力进行集成，封装为可用的工具及组件服务，可快速响应应用及业务需求，智慧应用系统主要包括智能内控、智慧考核、智慧营销三大应用能力模块，提供终端行为分析、机构业绩分析、个人业绩分析、对公业务营销，以及个人业务营销功能；所述移动管理门户：采用智能感知渲染引擎及应用层沙箱技术，实现银行作业系统快速移动化，提供安全可控的移动化办公和应用管理、终端管理、单点登录、安全管理、组织架构管理功能，并可无限扩展，整合第三方应用，达到统一门户入口的目的。

优选地，所述数据平台的数据存储及处理全过程基于uts任务调度平台，数据平台以hadoop+hive+spark为基础框架构建分布式集群，支撑PB级应用，数据的存储应用标准spark SQL语句和hive操作从不同的数据源中获取结构化数据，然后使用Sqool工具将HDFS上的数据导入mysql关系型数据库及redis缓存中，数据的实时处理主要采用SparkStreaming，通过Spark Streaming丰富的API和基于内存的高速计算引擎结合流式处理，批处理和交互查询应用；离线处理使用了Mapreduce、Spark SQL、MLlib技术，Spark SQL配合HIVE构建数据仓库做离线分析。

优选地，所述外部系统对接接入智能语音识别技术，通过语法识别引擎、自由说识别引擎、关键词检索引擎、语音质检分析引擎实现语音转写、话者分离和关键词检出等应用功能。

优选地，所述智能语音识别技术由三个重要部分组成：模型训练、前端语音处理、后端识别处理，语音识别系统的模型由声学模型和语言模型两部分组成，分别对应于从语音信号中抽取的特征到音节概率的计算和音节到字概率的计算，声学模型的建模方法采用DNN(深度神经网络)+HMM(隐马尔可夫模型)的方法，而在语言模型方面，采用了统计语言模型的建模方法；前端语音处理利用了信号处理的方法对说话人语音进行检测、降噪等预处理，以便得到最适合识别引擎处理的语音；后端识别处理是利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别，从而得到文字信息，声学模型的主要目的是对应于语音特征到音节或者音素概率的计算，语言模型的主要目的是对应于音节到文字的概率的计算，而其中最主要的解码器部分采用基于有限状态机(WFST)的解码网络，该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络，大大提高了解码的速度，也能够将解码过程和知识源分离，并在此基础上得到最优的词模式序列的路径，此路径上对应的文本就是最终识别结果。

优选地，前端语音处理主要功能包括：端点检测：端点检测是对输入的音频流进行分析，将语音信号中的语音和非语音信号时段区分开来，准确地确定出语音信号的起始点，经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用，噪音消除和特征提取，目前常用的特征包括MFCC,PLP。

优选地，所述系统涉及大量非结构化数据的处理和分析，对于这些非结构化数据的信息加工主要借助统计分析—自然语言处理技术，自然语言处理技术的层次为：①语音分析：从语音流中区分出一个个声音单元—音素②语法分析：从句子中切分出单词、找出词汇的各个词素，确定单词的词性、词义③句法分析：对句子和短语的结构进行分析，找出词、短语等的相互关系及在句子中的作用；④语义分析：识别一句话所表达的实际意义；⑤语用分析：研究语言所在的外界环境对语言使用所产生的影响；通过使用Python程序设计语言和自然语言工具包的开源函数库可以实现自然语言处理。

优选地，所述Python自然语言处理的步骤为①获得文本语料库和词汇资源；②加工原料文本；③编写结构化程序；④分类和标注词汇；⑤学习分类文本；⑥从文本提取信息；⑦分析句子结构；⑧建立基于特征的文法；⑨分析句子的意思；从最简单的通过计数词出现的频率来比较不同的写作风格到最复杂的完全“理解”人所说的话能实现文本数据的分析与挖掘。

与现有技术与现有技术相比，本申请做出了创新性的技术突破。

数据采集上应用了自主研发的处理功能，实现准实时(分钟级)以及定期(日/月)数据采集处理。数据存储处理上使用了Sqool、Spark Streaming、Mapreduce、Spark SQL、MLlib、HIVE等技术，进行缓存、交互查询、离线分析等处理。数据分析挖掘上基于云计算能力搭建大数据分析平台，综合应用机器学习，语音识别、文本挖掘，分类聚类等大数据分析和挖掘算法实时进行大数据分析和挖掘。应用服务上使用宽表提供更多纬度指标分析，使用高速缓存集群以及关系型数据库集群，以保证海量结构与非结构化数据存储以及提供快速检索能力。数据可视化上综合使用了echarts，百度地图API等展示技术，为各种统计指标提供丰富多彩统计图表，更加直观、易用，实现个性化数据的地图功能展示。

基于DNN(深层神经网络)技术进行语音识别，大大提高了识别率和抗噪性能。对比传统基于GMM+HMM(混合高斯模型+隐马尔科夫模型)的识别技术，DNN识别技术无论在16K采样率的互联网语音数据或在8K采样率的电话语音数据样本上，错误率基本上都能够降低30％左右。

对流式识别模式进行技术优化，提升语音分段输入性能。优化后，引擎在获得分段的输入语音的同时，就可以同步地对这段数据进行特征提取和解码工作，而不用等到所有数据都获得后再开始工作。因此这样就可以在最后一段语音结束后，仅延迟很短的时间(也即等待处理最后一段语音数据以及获取最终结果的时间)即可返回最终识别结果。这种流式输入方式能缩短整体上获得最终结果的时间，极大地提升用户体验。

在总体技术架构的设计上，采用应用插件化设计，提升软件插拔性，可无限扩展其他各类应用。同时将服务组件化，标准的服务化规范，通过定义BC(业务组件)+DC(数据组件)，提升软件对业务的快速和动态支撑能力。

在软件设计上，采用面向对象的程序设计方法进行软件设计。通过特定语法形式，将数据(属性)和用以操作数据的算法(方法)捆绑在一起，完成封装。通过封装，将数据和操作数据的算法紧密联系起来，并将对象的一部分属性和方法隐藏起来，留下另一些属性和方法对外可见，作为对对象进行操作的接口。从而达成合理安排数据的可访问范围，减少程序不同部分之间的耦合度的目的，进一步提高代码扩充、代码修改、代码重用的效率。

在网络架构设计上，针对银行数据安全问题，设计内网与公网双通道模式。通过VPDN构建与公众互联网隔离的虚拟专用网络，手机通过VPDN接入CN2网，通过下发证书的，运用IPSEC VPN技术拔号到新建的防火墙，由防火墙进行安全的控制及分流上网流量、及金融机构内网流量，并通过上网行为管理服务器审计上网用户的行为。。

附图说明

图1为本发明语音识别技术示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例,基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：

所述数据平台的数据存储及处理全过程基于uts任务调度平台，数据平台以hadoop+hive+spark为基础框架构建分布式集群，支撑PB级应用，数据的存储应用标准spark SQL语句和hive操作从不同的数据源中获取结构化数据，然后使用Sqool工具将HDFS上的数据导入mysql关系型数据库及redis缓存中，数据的实时处理主要采用SparkStreaming，通过Spark Streaming丰富的API和基于内存的高速计算引擎结合流式处理，批处理和交互查询应用；离线处理使用了Mapreduce、Spark SQL、MLlib技术，Spark SQL配合HIVE构建数据仓库做离线分析。

所述外部系统对接接入智能语音识别技术，通过语法识别引擎、自由说识别引擎、关键词检索引擎、语音质检分析引擎实现语音转写、话者分离和关键词检出等应用功能。

所述智能语音识别技术由三个重要部分组成：模型训练、前端语音处理、后端识别处理，语音识别系统的模型由声学模型和语言模型两部分组成，分别对应于从语音信号中抽取的特征到音节概率的计算和音节到字概率的计算，声学模型的建模方法采用DNN(深度神经网络)+HMM(隐马尔可夫模型)的方法，而在语言模型方面，采用了统计语言模型的建模方法；前端语音处理利用了信号处理的方法对说话人语音进行检测、降噪等预处理，以便得到最适合识别引擎处理的语音；后端识别处理是利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别，从而得到文字信息，声学模型的主要目的是对应于语音特征到音节或者音素概率的计算，语言模型的主要目的是对应于音节到文字的概率的计算，而其中最主要的解码器部分采用基于有限状态机(WFST)的解码网络，该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络，大大提高了解码的速度，也能够将解码过程和知识源分离，并在此基础上得到最优的词模式序列的路径，此路径上对应的文本就是最终识别结果。

前端语音处理主要功能包括：端点检测：端点检测是对输入的音频流进行分析，将语音信号中的语音和非语音信号时段区分开来，准确地确定出语音信号的起始点，经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用，噪音消除和特征提取，目前常用的特征包括MFCC,PLP。

所述系统涉及大量非结构化数据的处理和分析，对于这些非结构化数据的信息加工主要借助统计分析—自然语言处理技术，自然语言处理技术的层次为：①语音分析：从语音流中区分出一个个声音单元—音素②语法分析：从句子中切分出单词、找出词汇的各个词素，确定单词的词性、词义③句法分析：对句子和短语的结构进行分析，找出词、短语等的相互关系及在句子中的作用；④语义分析：识别一句话所表达的实际意义；⑤语用分析：研究语言所在的外界环境对语言使用所产生的影响；通过使用Python程序设计语言和自然语言工具包的开源函数库可以实现自然语言处理。

所述Python自然语言处理的步骤为①获得文本语料库和词汇资源；②加工原料文本；③编写结构化程序；④分类和标注词汇；⑤学习分类文本；⑥从文本提取信息；⑦分析句子结构；⑧建立基于特征的文法；⑨分析句子的意思；从最简单的通过计数词出现的频率来比较不同的写作风格到最复杂的完全“理解”人所说的话能实现文本数据的分析与挖掘。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种智慧银行管理系统，包括：数据平台、外部系统对接、智慧应用系统和移动管理门户四个部分，所述数据平台：汇聚运营商、银行、政府、工商和互联网数据，建立分布式、可靠、高可用的云存储环境，实现海量数据的实时采集，并提供数据清洗、数据分类、数据结构标准化处理能力，以及流数据的实时分析和离线分析能力；所述外部系统对接采用开放式系统互联标准和协议，建立具有安全性、支持实时和定时数据交换方式的标准化数据接口，与银行内部各作业系统对接；所述智慧应用系统将底层的基础能力进行集成，封装为可用的工具及组件服务，可快速响应应用及业务需求，智慧应用系统主要包括智能内控、智慧考核、智慧营销三大应用能力模块，提供终端行为分析、机构业绩分析、个人业绩分析、对公业务营销，以及个人业务营销功能；所述移动管理门户：采用智能感知渲染引擎及应用层沙箱技术，实现银行作业系统快速移动化，提供安全可控的移动化办公和应用管理、终端管理、单点登录、安全管理、组织架构管理功能，并可无限扩展，整合第三方应用，达到统一门户入口的目的。

2.根据权利要求1所述的系统，其特征在于，所述数据平台的数据存储及处理全过程基于uts任务调度平台，数据平台以hadoop+hive+spark为基础框架构建分布式集群，支撑PB级应用，数据的存储应用标准spark SQL语句和hive操作从不同的数据源中获取结构化数据，然后使用Sqool工具将HDFS上的数据导入mysql关系型数据库及redis缓存中，数据的实时处理主要采用Spark Streaming，通过Spark Streaming丰富的API和基于内存的高速计算引擎结合流式处理，批处理和交互查询应用；离线处理使用了Mapreduce、Spark SQL、MLlib技术，Spark SQL配合HIVE构建数据仓库做离线分析。

3.根据权利要求1所述的系统，其特征在于，所述外部系统对接接入智能语音识别技术，通过语法识别引擎、自由说识别引擎、关键词检索引擎、语音质检分析引擎实现语音转写、话者分离和关键词检出等应用功能。

4.根据权利要求3所述的系统，其特征在于，所述智能语音识别技术由三个重要部分组成：模型训练、前端语音处理、后端识别处理，语音识别系统的模型由声学模型和语言模型两部分组成，分别对应于从语音信号中抽取的特征到音节概率的计算和音节到字概率的计算，声学模型的建模方法采用DNN(深度神经网络)+HMM(隐马尔可夫模型)的方法，而在语言模型方面，采用了统计语言模型的建模方法；前端语音处理利用了信号处理的方法对说话人语音进行检测、降噪等预处理，以便得到最适合识别引擎处理的语音；后端识别处理是利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别，从而得到文字信息，声学模型的主要目的是对应于语音特征到音节或者音素概率的计算，语言模型的主要目的是对应于音节到文字的概率的计算，而其中最主要的解码器部分采用基于有限状态机(WFST)的解码网络，该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络，大大提高了解码的速度，也能够将解码过程和知识源分离，并在此基础上得到最优的词模式序列的路径，此路径上对应的文本就是最终识别结果。

5.根据权利要求4所述的系统，其特征在于，前端语音处理主要功能包括：端点检测：端点检测是对输入的音频流进行分析，将语音信号中的语音和非语音信号时段区分开来，准确地确定出语音信号的起始点，经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用，噪音消除和特征提取，目前常用的特征包括MFCC,PLP。

6.根据权利要求1所述的系统，其特征在于，所述系统涉及大量非结构化数据的处理和分析，对于这些非结构化数据的信息加工主要借助统计分析—自然语言处理技术，自然语言处理技术的层次为：①语音分析：从语音流中区分出一个个声音单元—音素②语法分析：从句子中切分出单词、找出词汇的各个词素，确定单词的词性、词义③句法分析：对句子和短语的结构进行分析，找出词、短语等的相互关系及在句子中的作用；④语义分析：识别一句话所表达的实际意义；⑤语用分析：研究语言所在的外界环境对语言使用所产生的影响；通过使用Python程序设计语言和自然语言工具包的开源函数库可以实现自然语言处理。

7.根据权利要求6所述的系统，其特征在于，所述Python自然语言处理的步骤为①获得文本语料库和词汇资源；②加工原料文本；③编写结构化程序；④分类和标注词汇；⑤学习分类文本；⑥从文本提取信息；⑦分析句子结构；⑧建立基于特征的文法；⑨分析句子的意思；从最简单的通过计数词出现的频率来比较不同的写作风格到最复杂的完全“理解”人所说的话能实现文本数据的分析与挖掘。