发明内容
本发明的目的在于解决上述问题,提供了一种财经媒体业务数据中心系统,实现了财经板块内不同媒体平台之间数据的有效共享,提高了板块内信息联动的效率。
本发明的技术方案为:本发明揭示了一种财经媒体业务数据中心系统,包括:
数据录入模块,采集财经数据源,通过通用数据接口抽取录入采集到的财经数据;
数据存储模块,连接数据录入模块,对抽取录入的财经数据进行ETL过程的转换和加载,建立基础数据层,根据财经媒体业务主题进行管理、分类和存储,同时按照财经媒体业务需求建立符合财经媒体规则的面向主题的、非易失的、时变的数据集合;
数据提取模块,连接数据存储模块和数据接口模块,接收来自前端业务系统的数据应用请求,提取数据应用请求所需的数据资源,根据前端业务系统的接口要求进行数据封装,完成封装后的数据通过数据接口模块传送到前端业务系统;
数据接口模块,连接前端业务系统。
上述的财经媒体业务数据中心系统,其中,数据录入模块进一步包括以下三个单元的任意一种组合:
第一抽取单元,一方面接收DBF格式的数据文件,解析数据文件的内容,转换格式后录入到数据存储模块,另一方面通过第三方提供的数据接口接收第三方的数据并抽取到数据存储模块;
第二抽取单元,通过ETL中的抽取过程将文字信息及纯数据信息以及异构数据库中的数据信息抽取到数据存储模块;
第三抽取单元,从网站上抓取所需的资源,抽取目标网页到数据存储模块。
上述的财经媒体业务数据中心系统,其中,第一抽取单元是Java程序实现的抽取单元通过第三方提供的数据接口API专用函数实现的数据接入。
上述的财经媒体业务数据中心系统,其中,第三抽取单元是搜索抓取引擎实现对网站资源的抓取的,抓取的规则根据业务规则预先在搜索抓取引擎中配置抓取策略。
上述的财经媒体业务数据中心系统,其中,数据提取模块中预存预先编译好的存储过程,用于提取数据资源。
上述的财经媒体业务数据中心系统,其中,数据录入模块还包括:
图片资源上传单元,将图片资源上传到数据存储模块,分为用户图片库单元和专家库单元,其中用户图片库单元用于存放财经报刊所采集的图片,专家库单元财经电视频道专用图片。
上述的财经媒体业务数据中心系统,其中,数据存储模块在数据仓库存储结构上实现元数据级的数据管理,元数据分为技术元数据、业务元数据和内联映射元数据。
上述的财经媒体业务数据中心系统,其中,数据存储模块实现操作数据存储,操作数据存储用于集成来自不同数据库数据的环境,形成统一完整的应用视图。
本发明对比现有技术有如下的有益效果:本发明的技术方案实现数据资源的实时存储、提取、调用和财经传媒内各个媒体平台的信息共享,为财经媒体从单一的、区域性的、传统性的运作模式,向跨空间、跨地区、现代化的专业化财经类媒体运作模式的转变提供数据支持。同时本发明的财经媒体业务数据中心满足了历史数据积累的需要,实现数据的深度分析和挖掘。为财经类电视、日报、广播、周刊、网站以及研究院实现了统一的数据存储与数据支持服务。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1示出了本发明的财经媒体业务数据中心系统的实施例的原理。请参见图1,本实施例的财经媒体业务数据中心系统包括数据录入模块1、数据存储模块2、数据提取模块3、数据接口模块4。
数据录入模块1用于采集财经数据源,通过通用数据接口抽取录入采集到的财经数据。数据录入模块1进一步包括以下三个单元的任意一种组合:Java程序抽取单元11(亦即第一抽取单元)、ETL(Etraction-Transformation-Loading,抽取-转换-装载)过程抽取单元12(亦即第二抽取单元)、搜索抓取引擎外网抓取抽取单元13(亦即第三抽取单元)。
Java程序抽取单元11一方面接收DBF格式的数据文件,解析数据文件的内容,转换格式后抽取录入数据存储模块2,另一方面通过第三方提供的数据接口接收第三方的数据并抽取到数据存储模块2。其中DBF格式的数据文件一般有来自证券交易所(例如上证、深证、港股)提供的当前股市行情数据的DBF文件,或者是来自路透社的DBF文件。第三方通常有新华社、道琼斯等,第三方提供的数据接口是指由第三方制作的用于读取它们自己数据的数据接口工具。在本实施例中,抽取单元11是通过Java程序来实现的,而第三方提供的数据接口通常是API专用函数实现的数据接口。
Java程序抽取单元11处理的实时行情数据通过卫星等方式接收落地,在本地形成临时数据文件,由数据中间层直接通过数据视图映射临时数据文件格式,转换成SQL的访问接口,由制播系统直接调用数据。数据在中间层不落地。
具体的DBF文件格式转换及内容如下:
对于整体行情的记录格式:
字段名 |
字段说明 |
类型 |
格式 |
长度 |
小数位数 |
备注 |
S1 |
证券代码 |
Char |
|
6 |
|
为000000 |
S2 |
当前时间 |
Char |
HHMMSS |
6 |
|
|
S3 |
最新A股指数 |
Num |
|
8 |
3 |
|
S4 |
最新B股指数 |
Num |
|
8 |
3 |
|
S6 |
日期 |
Num |
YYYYMMDD |
8 |
|
|
S11 |
结束标志 |
Num |
|
10 |
|
|
S13 |
最新上证指数 |
Num |
|
8 |
3 |
|
除上述字段外,其他字段为空。记录示例为:2002年9月11日下午15时05分13秒时,表中的第一条记录如图2所示。
分类指数的第2-15条记录如下:
字段名 |
字段说明 |
类型 |
单位 |
长度 |
小数位数 |
S1 |
指数代码 |
Char |
|
6 |
|
S2 |
指数名称 |
Char |
|
8 |
|
S3 |
前收盘指数 |
Num |
|
8 |
3 |
S4 |
今开盘指数 |
Num |
|
8 |
3 |
S5 |
参与计算相应指数的成交金额 |
Num |
人民币元 |
12 |
|
S6 |
最高指数 |
Num |
|
8 |
3 |
S7 |
最低指数 |
Num |
|
8 |
3 |
S8 |
最新指数 |
Num |
|
8 |
3 |
S11 |
参与计算相应指数的交易数量 |
Num |
|
10 |
|
说明如下:分类指数包括:上证指数、A股指数、B股指数、工业指数、商业指数、地产指数、公用指数、综合指数、上证180、基金指数、国债指数和测试数据。参与计算相应指数的交易数量(S11)的单位和参与计算的证券类型相关。证券类型是股票的指数交易数量是100股,基金指数的交易数量单位是100份,债券指数的交易数量单位是手。除上述字段外,其他字段内容为空。
对于ETL过程抽取单元12,通过ETL中的抽取过程,在ETL工具平台上实现将文稿以及异构数据库中的文字信息抽取到数据存储模块2。ETL就是数据抽取、转换和加载,这是数据仓库实现过程中,数据由数据源向数据仓库加载的方法。其中的数据抽取过程是指采用统一的接口,从数据库抽取数据或者从文件抽取。对于不同数据平台,源数据形式、性能要求的业务系统,以及不同数据量的源数据,可能采用的接口方式不同,为保证抽取效率,减少对生产运营的影响,对于大数据量的抽取,采用“数据分割、缩短抽取周期”的原则,对于直接的数据库抽取,采取写上接口表的方式,保障生产系统数据库的安全。
ETL过程抽取单元12使用ETL工具采集来自于标准格式的数据库、文本文件和客户端转换后的临时数据文件,ETL过程在ETL工具平台上实现,数据经ETL后加载到数据库。
对于搜索抓取引擎外网抓取抽取单元13,是从网站上抓取所需的资源,并抽取到数据存储模块2。抓取哪些资源是由用户在抓取之前在搜索抓取引擎中预先设置的。搜索抓取引擎提供了一个搜索中间件的体系架构,该架构提供多种爬行器(crawler)能够快速访问企业的各类业务信息,爬行器返回的信息通过分词处理实现按自然语言的分词,然后对分词后的信息建立专用索引,基于此索引在前端提供强大的搜索引擎,实现对各类信息的高质量快速搜索,并提供相应的API函数与用户的各类应用集成。通常,搜索抓取引擎的体系架构中设计了三个主要组件:爬行器、索引器(Indexer)和搜索服务器(Search)。其中爬行器定期或24小时循环的从各类数据资源中搜集数据,了解数据源之间的区别,能提取所有相关信息,包括元数据。索引服务器按照自然语言规则分析文档并构建索引。搜索服务器负责处理搜索请求,基于索引信息,搜索抓取引擎将提供一个多个搜索引擎,在索引中查找最相关文档并以次秒级响应时间返回结果,实现对所有资源的全文检索,最后将检索的结果返回用户。
搜索抓取引擎使用爬行器进行数据的采集,可以对如下的非结构化数据源进行采集:通过配置策略来支持数据源(例如WEB数据源、内容管理软件、邮件系统、文件系统),对于个别特殊的数据源,搜索抓取引擎提供了客户化开发的接口。搜索抓取引擎对数据的采集是通过爬行器完成的,通过在搜索抓取引擎的管理控制台上进行简易的配置就可以完成对数据的搜寻。搜索抓取引擎能够非常好地自动发现各类数据源和元数据。管理员还可以通过图形管理界面配置爬行器的以下几个内容:要爬哪些类型数据源、不要爬哪些数据、何时爬、重新爬或增量爬的频率。对于本系统的非结构化数据源来说,主要集中在Web类上,下面以Web类数据的爬取为例来阐述搜索抓取引擎对非结构化数据的采集。首先在软件界面上选择爬行器的种类为Web,然后填入爬行器的各项参数(例如爬行器名称、爬行器描述、用于接收关于爬行器的意见的电子邮件地址、用户代理、爬行器插件等),之后指定要爬取的网站。通过上述的三步,Web爬行器的基本配置就完成了。
搜索抓取引擎在采集Web资源方面的选项为:(1)域规则,其用途是规定搜索抓取引擎是否爬取指定的DNS域名中的Web资源。(2)前缀规则,控制搜索抓取引擎是否爬取指定的以指定字符串开头的URL中的Web资源。前缀规则能够搜寻整个Web站点或Web站点的一部分,可以指定目录路径或模式,然后允许或禁止目录树中从该点开始的所有内容。(3)地址规则,能够将IP地址和网络掩码指定为目标来控制整个主机或网络的搜寻。例如包括指定要用于SSL连接的密钥库,选择要包括的文档类型,指定要排除的文件扩展名,指定URL路径深度,编辑文档级安全性,搜寻由HTTP基本认证提供密码保护的Web站点,搜寻由基于表单的认证提供密码保护的Web站点,搜寻由HTTP代理服务器提供服务的Web站点,配置处理软错误页面的规则。值得注意的是,搜索抓取引擎外网抓取抽取单元13可以被其他实现相同功能的单元取代,只要其能够实现对外网数据的抓取即可。
在数据录入模块1中还可以设置图片资源上传单元(未图示),可以将图片资源上传到数据存储模块2。图片资源上传单元具体分为用户图片库单元和专家库单元,其中用户图片库单元用于存放财经报刊所采集的图片,专家库单元财经电视频道专用图片。
数据存储模块2连接数据录入模块1,对抽取录入的财经数据进行ETL过程的转换和加载,建立基础数据层,根据财经媒体业务主题进行管理、分类和存储,同时按照财经媒体业务需求建立符合媒体规则的面向主题的、非易失的、时变的数据集合。本模块是按照财经媒体业务需求来对数据资源进行分类和应用以及进行多维度的数据管理,按照各个应用需求在基础数据层上生成不同的业务应用模型,来进行数据分析、数据挖掘,提供数据服务。数据存储模块2通过独立的第三方数据库产品实现,例如DB2数据库。
ETL过程的数据转换是指对抽取的源数据根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等,保证来自不同系统、不同格式的数据和信息模型具有一致性和完整性,并按要求装入数据仓库。ETL过程中的数据加载是指将转换后的数据加载到数据仓库中,可以采用数据加载工具,也可以采用API编程进行数据加载。
数据存储模块2在数据仓库存储结构上实现元数据(Metadata)级的数据管理。其中元数据是关于数据、操纵数据的进程,以及应用程序的结构、意义的描述信息,其主要目标是提供数据资源的全面指南。元数据是描述数据仓库内数据结构和建立方法的数据,可按其用途分为两类:技术元数据(Technical Metadata)、业务元数据(Business Metadata)和内联映射元数据(Inter-Mapping Metadata)。技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库的数据,主要包括数据仓库结构的描述(各个主题的定义、星型模式或雪花型模式的描述定义等)、ODS(操作数据存储)层的企业数据模型描述(以描述关系表及其关联关系为形式)、对数据集合规则的定义、数据集市定义描述与装载描述。另外,安全认证数据也作为元数据的一个重要部分进行管理。业务元数据从业务角度描述了数据仓库中的数据,提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够理解数据仓库中的数据。业务元数据包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名:访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息。内联映射元数据实现技术元数据与业务元数据的层间映射,使得信息系统的概念模型与物理模型相互独立,使企业的概念、业务模型重组,以及物理模型的变化相互透明。内联映射数据从技术上为业务需求驱动、企业数据驱动的双驱动建设模型提供了重要保证,使信息系统的建设具有更高的灵活性与适应性。
数据存储模块2也实现了操作数据存储ODS(Operation Data Storage),操作数据存储是一个集成了来自不同数据库数据的环境,其目的是为终端用户提供一致的企业数据集成视图。它可以帮助用户轻松应对跨多个商业功能的操作挑战,是面向主题的、集成的、近实时的数据存储。设计ODS层的目的是在于改善对关键操作数据库的存取,如形成统一完整的客户资料视图,有利于更好地通观全局。
数据提取模块3通过数据接口模块4连接前端业务系统5,数据接口模块4是Web Service实现的接口。数据提取模块3接收来自前端业务系统5的数据应用请求,提取数据应用请求所需的数据资源,根据前端业务系5统的接口要求进行数据封装,完成封装后的数据通过数据接口模块4传送到前端业务系统5。数据提取模块3按照前端业务系统5的应用需求,将数据存储模块2中的数据分类提取,组成临时数据集合,并传送到前端业务系统5的数据接口。
较佳地,在数据提取模块3中预存预先编译好的存储过程,用于提取数据资源,这样可使得提取速度加快。
上述实施例是提供给本领域普通技术人员来实现或使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。