CN110968571A - 面向金融信息服务的大数据分析与处理平台 - Google Patents

面向金融信息服务的大数据分析与处理平台 Download PDF

Info

Publication number
CN110968571A
CN110968571A CN201811129149.4A CN201811129149A CN110968571A CN 110968571 A CN110968571 A CN 110968571A CN 201811129149 A CN201811129149 A CN 201811129149A CN 110968571 A CN110968571 A CN 110968571A
Authority
CN
China
Prior art keywords
data
data analysis
layer
processing
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811129149.4A
Other languages
English (en)
Inventor
刘婷
钟舞霞
李伟标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Weia Technology Co ltd
Original Assignee
Guangzhou Weia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Weia Technology Co ltd filed Critical Guangzhou Weia Technology Co ltd
Priority to CN201811129149.4A priority Critical patent/CN110968571A/zh
Publication of CN110968571A publication Critical patent/CN110968571A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Abstract

本发明公开了一种面向金融信息服务的大数据分析与处理平台,该平台包括:数据获取层、数据分析层以及数据应用层;其中,所述数据获取层负责多源异构数据的快速获取、清洗、存储,并把经过预处理的数据传给所述数据分析层;所述数据分析层包含大数据分析部分和复杂事件处理部分,主要负责海量数据批处理及实时流数据分析;采用多通道采集、浅层语义处理、用面向金融领域特征的网络观点分析,实现多源数据的采集、抽取与清洗、数据分析,有效解决为证券投资者、投资顾问及机构等三类用户提供及时、精准、个性化的金融信息服务。

Description

面向金融信息服务的大数据分析与处理平台
技术领域
本发明属于数据分析技术领域,涉及一种面向金融信息服务的大数据分析与处理平台。
背景技术
大数据时代的金融信息呈现海量、异构等特点,广大投资者或金融信息的使用人员无所适从。因此,对金融信息服务在及时性、精准性、差异性等方面提出了更高的要求。如:
①金融信息的发布具有时间不确定、渠道多样化、数量巨大等特点,投资研究人员花费大量的时间在海量数据整理中,无法专注于核心工作,效率低下,希望有更高效的工具可以及时、系统地为其提供所关注方面的信息;
②互联网已经成为机构、上市公司以及投资者信息发布与获取的重要渠道,政策法规、公司公告、热门事件、投资心得、自媒体等海量异构数据以及各种噪声信息使得传统的人工模式已很难从中精确地获取最有价值的信息;市场的一体化使得信息与事件不再孤立,而传统金融信息服务只是向客户提供客观资讯或事件,缺乏关联性的分析,造成价值丢失。对于广大的投资者来说,数据的分析与处理专业性强、条件复杂、门槛高、成本大;
③互联网的开放性与随意性使得金融信息更趋向同质化。而投资者更关心的是与自身投资相关的金融信息、账户信息、资产变动等相对个性化的信息服务;证券公司等机构为了防止恶意及虚假的信息影响公司品牌形象,防范舆论风险、市场风险,需要更实时更全面发现对机构本身会产生影响的互联网信息风险点。
发明内容
本发明目的在于克服现有技术的不足,提供一种面向金融信息服务的大数据分析与处理平台,采用多通道采集、浅层语义处理、用面向金融领域特征的网络观点分析,实现多源数据的采集、抽取与清洗、数据分析,有效解决为证券投资者、投资顾问及机构等三类用户提供及时、精准、个性化的金融信息服务。
为解决上述技术问题,本发明采用如下的技术方案:一种面向金融信息服务的大数据分析与处理平台,该平台包括:数据获取层、数据分析层以及数据应用层;其中,所述数据获取层负责多源异构数据的快速获取、清洗、存储,并把经过预处理的数据传给所述数据分析层;所述数据分析层包含大数据分析部分和复杂事件处理部分,主要负责海量数据批处理及实时流数据分析;所述数据应用层接收所述数据分析层的大数据处理结果以及实时数据流更新结果信息,通过企业服务总线(ESB)集成客户信息、员工信息及统一消息服务,为客户及员工提供全面及时的信息服务。
进一步地,所述数据获取层通过“基于多通道技术”实现互联网数据的分布式统一采集,通过“基于浅层语义的网页抽取技术”实现海量混杂数据的统一抽取与清洗,利用MySQL数据库及HDFS分布式文件系统实现结构化、非结构化海量数据的存储,利用SolrCloud实现高效全文索引。
进一步地,所述数据分析层中包含大数据分析部分和复杂事件处理部分,所述大数据分析部分首先对要进行情感量化的文档进行预处理,然后基于证券倾向性文档以及证券情感词构建二分连接图,计算证券情感词的倾向性权重,最后利用文档的相关性得分以及倾向性得分根据概率模型计算文档的情感得分;所述复杂事件处理主要负责实时事件流的处理及不同事件实时关联分析。主要步骤为:事件输入、事件处理及事件响应。
本发明与现有技术相比具有以下的有益效果:
本方法方案采用多通道采集、浅层语义处理、用面向金融领域特征的网络观点分析,实现多源数据的采集、抽取与清洗、数据分析,有效解决为证券投资者、投资顾问及机构等三类用户提供及时、精准、个性化的金融信息服务。
附图说明
图1是面向金融信息服务的大数据分析与处理平台的框架图。
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明的一种基于大数据分和复杂事件处理的金融信息服务平台,该平台包括:数据获取层、数据分析层以及数据应用层;其中,所述数据获取层负责多源异构数据的快速获取、清洗、存储,并把经过预处理的数据传给所述数据分析层;所述数据分析层包含大数据分析部分和复杂事件处理部分,主要负责海量数据批处理及实时流数据分析;所述数据应用层接收所述数据分析层的大数据处理结果以及实时数据流更新结果信息,通过企业服务总线(ESB)集成客户信息、员工信息及统一消息服务,为客户及员工提供全面及时的信息服务;其中:
1、数据获取层
数据获取层负责多源异构数据的快速获取、清洗、存储,通过“基于多通道技术”实现互联网数据的分布式统一采集;通过“基于浅层语义的网页抽取技术”实现海量混杂数据的统一抽取与清洗;利用MySQL数据库及HDFS分布式文件系统实现结构化、非结构化海量数据的存储;利用SolrCloud实现高效全文索引。数据获取包含传统数据源和互联网数据源的获取。数据获取是否正确直接影响后续的数据分析及应用。因而,针对传统数据源,主要为内部数据,在采集过程中通过内部数据校验机制对采集的数据结果进行验证审核;针对互联网数据源,主要为外部数据,通过定时监控结合人工审核的机制对获取到的数据进行验证,从而保证了内外部数据获取的准确性。
传统数据获取针对传统数据源,主要是金融资讯中心和客户数据中心的内部结构化数据,采用传统ETL工具,从源端将数据采集到目标数据库中。
互联网数据获取针对互联网数据源,采用如下三个模块实现数据获取:
1)互联网采集模块利用网页采集工具,针对指定的页面和主题进行采集,并以网页的形式下载到本地。信息采集模块是系统的基础模块,所采集的网页是后续模块的输入数据。采集模块应包括微博采集、门户采集、公告采集,实现对微博数据、重要门户网站数据以及公告新闻数据的采集。
2)数据抽取模块对采集模块得到的网页进行清洗预处理,去除页面结构错误。通过算法定位到抽取内容的标签节点,抽取出标题、正文、时间等所需的信息,将其存入数据库并生成XML文件。
3)索引模块对抽取得到的XML文件,根据自定义的索引规则,将XML文件信息进行关键字提取,设置标签,然后将文件加入到索引库中,以供后续检索与分析功能使用。索引建立的过程,类似于将数据进行关键字提取,设置标签,在后续工作中,可以通过这个标签进行内容过滤获取期望数据的操作。
基于多通道的主动采集技术分为非常规采集和常规采集,非常规采集共分为四个部分:任务分发器、Cookie生成器、主题与种子URL定制、非常规采集器任务分发器负责将需要采集的页面及其相关信息整合,并根据优先策略分发给微博采集器。Cookie生成器为后续的页面下载模块提供登录Cookie,是页面下载模块的基础。为了简化使用的复杂性,该模块主要应用在系统部署时。主题与种子URL定制模块提供用户设置采集目标的界面,采集目标包括关键词和用户主页的URL。用户可以通过Web用户界面,设置关键词,从而采集相关的内容,也可以设置URL采集目标用户发布的内容。关键词与URL均存放于后台数据库中。非常规采集器提供页面下载功能。可供设置的内容包括采集间隔时间与每次采集并发线程数,根据不同媒介、以及贷款设置相对合适的采集间隔时间与并发线程数。主要面向系统部署人员,以参数的形式输入给程序。程序将以在系统后台运行。在终端运行程序时输入参数,包括:输出目录、采集间隔时间、并发线程数。输出目录产生与关键词和目标用户主页的页面文件。
常规采集主要是指静态网页数据采集,主要由网页采集模块、链接抽取模块和链接判重模块三部分组成。静态网页数据采集是从一个初始链接对应的网页开始采集该网页的源代码,并且在保存网页源代码的同时,不断地从中抽取出新的链接。程序重复上述过程,直到满足采集深度达到事先设定的值或者链接集合为空。
网页采集模块实现获取链接对应网页源代码,并将网页源代码保存到文件中。链接抽取模块抽取网页源代码中的链接和对应的锚文本,并保存链接和对应的锚文本信息在指定文件中。链接判重模块可以初始化一个集合,可以往集合中添加链接元素,并判断某个链接是否在集合中。
2、数据分析层
数据获取完毕后进行数据分析工作,数据分析层包含大数据分析部分和复杂事件处理部分,主要负责海量数据批处理及实时流数据分析。
在大数据分析方面,采用“融合用户观点和用户行为的证券应用技术”、“面向证券领域特征的网络观点分析技术”、“分/聚类技术”等主题分析、情绪分析以及投资者分析工作。
在数据分析中,证券领域的情感量化是情绪分析的关键点。采用基于异构图模型的证券情感量化技术用以解决情感量化问题。
首先对要进行情感量化的文档进行预处理,然后基于证券倾向性文档以及证券情感词构建二分连接图,计算证券情感词的倾向性权重,最后利用文档的相关性得分以及倾向性得分根据概率模型计算文档的情感得分。该方法的核心关键是计算证券情感词的权重,为了获取证券领域的情感倾向,在利用该方法进行帖子的情感量化时,所基于的倾向性文档集采用了证券领域带有倾向性的文档。
证券情感量化具体过程按如下步骤进行:
1)预处理
对证券倾向性文档进行预处理,包括去除标点符号、网页链接、表情符号、特殊符号等噪声,分词,去除停用词。
2)基于异构图的证券情感词赋权
为了获取证券领域特定情感词的权重,在如下构建的二分连接图中,其倾向性文档均采用带有证券倾向性情感的文档集合,使用如下方法计算证券情感词权重。
复杂事件处理主要负责实时事件流的处理及不同事件实时关联分析。主要步骤为:事件输入、事件处理及事件响应。
事件输入来源包含大数据分析结果及实时数据流,数据覆盖全面实时;在事件处理部分,研发可视化规则定义和基于EPL的事件模型定义,可以方便用户自主定制事件模型及业务规则,并利用热切换技术实现模型在线发布;在此基础上,根据业务需求研发针对客户应用及员工应用的复杂事件处理模型集;事件响应部分负责将事件处理的结果通过输出适配器应用于客户及员工系统。
复杂事件处理的基础就是事件间的关系。其中,事件之间的偏序由因果关系、时间关系决定,而一个事件对一个事件集合的总结、代表或指示关系则是组合关系。本平台通过实时复杂事件引擎的搭建和多输入多输出个性化服务模型的构建实现复杂事件处理:
1)实时复杂事件引擎的搭建:①实现以事件驱动为核心的服务模式,采用内存处理技术,并通过索引化流事件查询规则,实现对实时流事件的高效分析;②结合企业服务总线实时事件发布(ADB)与复杂事件处理实现基于可变滑动窗口的静态数据与实时事件关联技术构建海量静态数据的实时维护解决方案,提升了海量静态数据处理的实时性;③通过自定义标准化底层事件处理协定,实现了事件的过滤、判重与取消,降低了事件流的复杂度,提升了核心处理模块的处理效率。
2)多输入多输出个性化服务模型的构建:①多源异构事件构成的复杂事件处理引擎的“多输入”。平台通过事件适配层(IAF)对接EMS消息队列接口,订阅不同来源实时发布的事件,包含公司数据中心,资讯中心,以及大数据分析系统等。目前系统定义的“多输入”事件包含:客户特征数据(客户关键时点事件、客户风险偏好、客户满意度、客户贡献度等);客户行为数据(买卖流水、银证转账流水、终端访问日志);市场数据(实时行情特征数据、资讯数据等);大数据分析结果(个股特征数据、市场热点,市场情绪分析等等数据)。这些“多输入”事件在复杂事件引擎中被定义为一个元事件及其流监听;②基于事件流关联的复杂事件处理模型构建。在上述“多输入”的元事件基础上,可根据客户订单,业务分析等方式,定义出有特定意义的复合事件监听模型。
3、数据应用层
在数据应用层,通过企业服务总线(ESB)集成客户信息、员工信息及统一消息服务,为客户及员工提供全面及时的信息服务。
秉承SOA理念与企业的整体IT规划,遵循统一标准,通过企业服务总线与各信息系统进行松耦合整合。各系统包括大数据挖掘分析产生的事件通过企业服务总线进入复杂事件引擎,经事件处理模型产生的结果事件也是通过ESB提供给各应用终端送达用户。平台提供的数据应用按照用户角度分为两类:1)客户类:包括PC终端、移动终端、中台、网上商城、短信、邮件平台等与客户服务相关的终端系统,直接为终端客户提供个性化的实时证券信息服务;2)员工类:包括投资顾问平台、机构CRM平台、研究平台等与员工工作平台相关的终端系统,为员工进行产品研究、市场分析、客户服务等提供全面、及时、便捷的证券信息服务。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.面向金融信息服务的大数据分析与处理平台,其特征在于,所述平台包括:数据获取层、数据分析层以及数据应用层;其中,所述数据获取层负责多源异构数据的快速获取、清洗、存储,并把经过预处理的数据传给所述数据分析层;所述数据分析层包含大数据分析部分和复杂事件处理部分,主要负责海量数据批处理及实时流数据分析;所述数据应用层接收所述数据分析层的大数据处理结果以及实时数据流更新结果信息,通过企业服务总线(ESB)集成客户信息、员工信息及统一消息服务,为客户及员工提供全面及时的信息服务。
2.根据权利要求1所述的面向金融信息服务的大数据分析与处理平台,其特征在于,所述数据获取层通过“基于多通道技术”实现互联网数据的分布式统一采集,通过“基于浅层语义的网页抽取技术”实现海量混杂数据的统一抽取与清洗,利用MySQL数据库及HDFS分布式文件系统实现结构化、非结构化海量数据的存储,利用SolrCloud实现高效全文索引。
3.根据权利要求1所述的面向金融信息服务的大数据分析与处理平台,其特征在于,所述数据分析层中包含大数据分析部分和复杂事件处理部分;其中,所述大数据分析部分首先对要进行情感量化的文档进行预处理,然后基于证券倾向性文档以及证券情感词构建二分连接图,计算证券情感词的倾向性权重,最后利用文档的相关性得分以及倾向性得分根据概率模型计算文档的情感得分;所述复杂事件处理主要负责实时事件流的处理及不同事件实时关联分析,主要步骤为:事件输入、事件处理及事件响应。
CN201811129149.4A 2018-09-28 2018-09-28 面向金融信息服务的大数据分析与处理平台 Pending CN110968571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811129149.4A CN110968571A (zh) 2018-09-28 2018-09-28 面向金融信息服务的大数据分析与处理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811129149.4A CN110968571A (zh) 2018-09-28 2018-09-28 面向金融信息服务的大数据分析与处理平台

Publications (1)

Publication Number Publication Date
CN110968571A true CN110968571A (zh) 2020-04-07

Family

ID=70026446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811129149.4A Pending CN110968571A (zh) 2018-09-28 2018-09-28 面向金融信息服务的大数据分析与处理平台

Country Status (1)

Country Link
CN (1) CN110968571A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522662A (zh) * 2020-04-23 2020-08-11 柴懿晖 一种用于金融分析的节点系统及其实现方法
CN112231434A (zh) * 2020-10-21 2021-01-15 上海蜜度信息技术有限公司 一种信息自动分发方法及系统、存储介质及终端
CN112651829A (zh) * 2021-01-06 2021-04-13 贵州易万与科技有限公司 一种应用大数据技术及中台架构对银行数据融合治理系统
CN113268760A (zh) * 2021-07-19 2021-08-17 浙江数秦科技有限公司 一种基于区块链的分布式数据融合平台
CN114417817A (zh) * 2021-12-30 2022-04-29 中国电信股份有限公司 一种会话信息切割方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522662A (zh) * 2020-04-23 2020-08-11 柴懿晖 一种用于金融分析的节点系统及其实现方法
CN111522662B (zh) * 2020-04-23 2020-11-27 柴懿晖 一种用于金融分析的节点系统及其实现方法
CN112231434A (zh) * 2020-10-21 2021-01-15 上海蜜度信息技术有限公司 一种信息自动分发方法及系统、存储介质及终端
CN112651829A (zh) * 2021-01-06 2021-04-13 贵州易万与科技有限公司 一种应用大数据技术及中台架构对银行数据融合治理系统
CN113268760A (zh) * 2021-07-19 2021-08-17 浙江数秦科技有限公司 一种基于区块链的分布式数据融合平台
CN114417817A (zh) * 2021-12-30 2022-04-29 中国电信股份有限公司 一种会话信息切割方法和装置

Similar Documents

Publication Publication Date Title
CN106096056B (zh) 一种基于分布式的舆情数据实时采集方法和系统
CN110968571A (zh) 面向金融信息服务的大数据分析与处理平台
CN110765337A (zh) 一种基于互联网大数据的服务提供方法
Korobchinsky et al. Peculiarities of content forming and analysis in internet newspaper covering music news
CN111882367B (zh) 一种通过用户上网行为分析进行在线广告监测跟踪的方法
CN104838413A (zh) 基于用户提交来调整内容递送
Meadow et al. Search query quality and web-scale discovery: A qualitative and quantitative analysis
CN111708774B (zh) 一种基于大数据的产业分析系统
US8484217B1 (en) Knowledge discovery appliance
US20180089193A1 (en) Category-based data analysis system for processing stored data-units and calculating their relevance to a subject domain with exemplary precision, and a computer-implemented method for identifying from a broad range of data sources, social entities that perform the function of Social Influencers
CN114021001A (zh) 一种基于大数据的企业措施匹配方法、设备及介质
CN114637903A (zh) 一种针对定向目标数据拓展的舆情数据采集系统
CN112347243A (zh) 一种基于大数据收集、处理和个性化展示推送的企业破产信息服务方法
Dong Exploration on web usage mining and its application
Lytvyn et al. Content analysis of Text-based information in E-commerce systems
CN111882368B (zh) 一种在线广告dpi加密埋点及透传跟踪的方法
TW201947492A (zh) 運營資料匯流系統與方法
CN108280790A (zh) 基于大数据分析的政策信息服务系统
CN112395513A (zh) 一种舆情传播力分析方法
CN103631779A (zh) 一种基于社交化词典的单词推荐系统
Lu et al. The research on micro-blog public opinion index and the application of prototype system
Grant et al. Contextualized semantic analysis of web services
KR20090049507A (ko) 통신망을 통한 여론 분석 방법 및 시스템과 이를 위한기록매체
Suguna et al. Association rule mining for web recommendation
Arnoux et al. Automatic clustering for the web usage mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200407

WD01 Invention patent application deemed withdrawn after publication