CN105159971A

CN105159971A - 一种云平台数据检索方法

Info

Publication number: CN105159971A
Application number: CN201510530769.9A
Authority: CN
Inventors: 张鹏
Original assignee: BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Current assignee: Shanghai Angel imprint Mdt InfoTech Ltd
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2015-12-16
Anticipated expiration: 2035-08-26
Also published as: CN105159971B

Abstract

本发明提供了一种云平台数据检索方法，该方法包括：在云计算环境下数据库并行查询过程中，将模糊因子代入到查询优化计算中获取模糊特征；基于查询时间序列和所述模糊特征，通过计算事务优先级矩阵中每个数据的输出与输入关系，建立并行查询的事务组，进行事务的并行查询。本发明提出了一种云平台金融数据检索方法，防止数据库负载过大的出现，完成了在云计算环境下的金融数据库的并行查询，提高了数据查询的效率。

Description

一种云平台数据检索方法

技术领域

本发明涉及金融数据处理，特别涉及一种云平台数据检索方法。

背景技术

金融数据是投资者进行投资决策、券商投研部门进行研究的重要依据，为公司客户和投研部门提供及时、准确、易用的金融数据一直是相关部门所面临的一项长期而艰巨的挑战。随着网络富信息化和大数据时代的到来，目前金融数据中已包含大量的结构化和非结构化信息，且增量巨大。在云计算网络科技技术水平飞跃发展的同时，为了避免有用的数据信息流失，就需要建立相应的数据库作为载体来存储这些数据。但由于数据库时间与空间的复杂性过高，使数据查询产生了困难，除了要考虑网络传播时的安全性外，还要考虑数据的查询延时，导致检索和查询效率较低。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种云平台数据检索方法，在基于云计算的金融数据检索系统中进行数据检索和查询，其特征在于，包括：

在云计算环境下数据库并行查询过程中，将模糊因子代入到查询优化计算中获取模糊特征；

基于查询时间序列和所述模糊特征，通过计算事务优先级矩阵中每个数据的输出与输入关系，建立并行查询的事务组，进行事务的并行查询。

优选地，所述在云计算环境下数据库并行查询过程中，将模糊因子代入到查询优化计算中获取模糊特征，进一步包括：

待分配的事务以并行方式收集负载信息，将模糊因子代入到查询优化计算中获取模糊特征，利用模糊特征的均匀遍历特性和差分特性进行运算；

并且所述基于查询时间序列和所述模糊特征，通过计算事务优先级矩阵中每个数据的输出与输入关系，建立并行查询的事务组，进行事务的并行查询，进一步包括：

根据事务间具有的相互依赖关系，组建事务优先级矩阵；按照顺序将各事务组映射到每个查询事务上，建立并行查询的事务组，比较每个事务组的执行开销，进行事务的动态组合。

优选地，所述获取模糊特征进一步包括：

1)以采集的数据库查询时间序列为基础，组成可调节稳定控制集合w_i*，公式表达为w_i*＝w_i+Q_i-w_i+Σ(w_j-q_j)；

其中，w_i表示节点i的事务数量，Q_i-w_i表示节点i与其父节点之间的交换事务的数量，Σ(w_j-q_j)表示节点i与其子节点之间的交换事务的数量；

判断节点处于一般负载，轻量负载或过载的情况之一；

2)将模糊因子与并行技术相融合，代入到查询优化计算中，求取模糊的多样性特征，定义查询时间序列适应值的方差m，具体的表达公式如下：

m = \frac{1}{N P} Σ_{i = 1}^{N P} {(f (x_{i}) - \overset{&OverBar;}{f (x)})}^{2}

其中，NP表示时间序列规模，f(x_i)代表第i个查询时间序列的适应值，表示平均适应度的值；

3)将数据库模糊特征的表达式为x_n+1＝ν_xn(1-x_n)

其中，n＝1，2，3，....x∈[0，1]，ν∈[0，4]；

并且，其中所述进行事务的并行查询进一步包括：

1)遍历每个节点，编号表示0，1，2，…，n-1，N₀，整个系统的节点总数为Σ＝W_I-w_i；

其中，w_i表示节点i的事务数，W₀是整个系统的事务总数，每个节点保存一个W_I，具体公式如下表述：

Σ_{i = 0}^{N - 1} (W_{\arg} - m i n (W_{\arg}, W_{i}))

2)选择一部分节点，建立最优查询顺序，且将数据库服务器的开销降到最小化，使模糊数据查询时间为最短；

3)通过方程z_i+1＝νz_i(1-z)_i进行多次迭代，得到模糊序列是将上述方程逆映射回原解空间，产生模糊变量可解序列，计算经历模糊处理的可行解的适应值，然后保留最优解对应的矢量p。

优选地，所述金融数据检索系统包括业务服务器、应用服务器、数据服务器、整合服务器及各数据库；其中，业务服务器通过调用应用服务器进行信息检索，使用数据信息进行推送服务；应用服务器对数据进行统一的索引与维护；整合服务器对结构化、非结构化数据进行整合，采用查重机制及数据推送技术实现数据的分类汇总和规整，并通过协议接口和前端页面展示为用户及业务服务器提供信息服务；

整合服务器整合分散在各数据库系统、文件系统以及互联网的金融数据，对数据进行采集和清洗，并通过基于业务主体域的数据整合策略将不同来源主体的数据整合形成数据服务器；数据整合服务的主要过程包括：首先将查询请求以XMLSchema形式传递到数据抽取模块，数据抽取模块将XML转换成SQL查询语句，然后根据查询结果进行数据抽取，最后把抽取出来的结果集转换成XML的格式传递给集成处理模块，非结构化数据也需转化成XML格式，再由集成处理模块对XML文档做集成处理并最终生成统一的数据服务器；运用全文检索来解决对非结构化信息的处理，基于开源的Lucene开发框架，通过对Lucene核心层与相关接口的定制开发来构建全文检索系统，从功能上分为索引、搜索与维护三部分；索引部分对数据库存储的数据进行处理，建立索引结构；搜索部分接收前端系统递交的检索请求，对索引进行查找；维护部分则对索引进行增加、修改、删除工作。

本发明相比现有技术，具有以下优点：

本发明提出了一种云平台金融数据检索方法，防止数据库负载过大的出现，完成了在云计算环境下的金融数据库的并行查询，提高了数据查询的效率。

附图说明

图1是根据本发明实施例的云平台数据检索方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

图1是根据本发明实施例的云平台数据检索方法流程图。本发明基于云计算的金融数据检索系统主要包括以下部分：业务服务器、应用服务器、数据服务器、整合服务器及各数据库。其中，业务服务器通过调用应用服务器进行信息检索，使用数据信息进行推送服务。应用服务器具有检索与索引能力，负责对数据进行统一的索引与维护。整合服务器具备对结构化、非结构化数据进行整合的能力，采用查重机制及数据推送技术实现数据的分类汇总和规整，并通过协议接口和前端页面展示为用户及业务服务器提供信息服务。

其中，整合服务器整合分散在各数据库系统、文件系统以及互联网的金融数据，对数据进行采集和清洗，并通过基于业务主体域的数据整合策略将不同来源主体的数据整合形成数据服务器。数据整合服务的主要过程包括：首先将查询请求以XMLSchema形式传递到数据抽取模块，数据抽取模块将XML转换成SQL查询语句，然后根据查询结果进行数据抽取，最后把抽取出来的结果集转换成XML的格式传递给集成处理模块，同样，非结构化数据也需转化成XML格式，再由集成处理模块对XML文档做集成处理并最终生成统一的数据服务器。

金融行业系统数据量很大，对数据的安全性要求也很高。Hadoop框架使用分布式文件系统(HDFS)作为低层存储支持，HDFS提供了一种高容错性和高吞吐量的海量数据存储解决方案，其不停机动态扩容、数据自动检测和复制等特性为平台的大数据存取和数据的高安全性提供了解决途径。HDFS的文件分块存储特性使得在进行系统容量扩充时可依靠系统的分布算法自动实现数据块的迁移和容量的升级，无需系统宕机或人工维护。HDFS所具有的数据自定义复制策略和数据一致性自动监测机制满足了数据的高安全性要求。HDFS资源最优分配和多副本访问机制大幅度提高了系统的数据读取速率，HDFS对于单数据块的访问性能是传统存储方案的数倍。

该平台的HDFS数据存储模式从上到下依次分为Daas、PaaS、SaaS三层。(1)DaaS(数据即服务层)主要负责数据存储和检索，利用HDFS的灵活性、低延迟、分布性等特点将数据服务器的数据经过规整后对外提供数据服务。(2)PaaS(平台即服务层)主要负责数据和文件的访问及支持二次开发，统一认证由LDAP服务器完成，平台采用JDBC数据访问接口为业务服务器屏蔽了异构DBMS的差异。(3)SaaS(软件即服务层)采用用户层虚拟化技术实现了集中交易日志存储和分析系统以及历史行情数据管理和查询平台等对外提供多租户、可扩展的软件服务。

检索系统整合后的金融数据量很大，而且有许多数据是由不同的信息披露主体、研究主体和行业媒体从不同角度对同一数据所进行的加工和处理，因而平台面临着检索效率低、检索结果中存在大量的重复冗余信息的挑战。为了提高信息使用的效率和便利性，提高用户的体验度，运用大数据处理的技术，通过全文检索、数据查重等手段为用户提供全面、精确的信息检索服务。

目前，金融数据中非结构化信息占信息总量的80％以上，而传统关系型数据库的字段检索技术对处理非结构化信息有先天不足，尤其是在对于海量非结构化信息的处理方面。运用全文检索技术来解决对非结构化信息的处理，基于开源的Lucene开发框架，通过对Lucene核心层与相关接口的定制开发来构建全文检索系统。

检索系统以Lucene全文搜索引擎为核心，从功能上可分为索引、搜索与维护三部分。索引部分负责对数据库存储的数据进行处理，建立索引结构；搜索部分接收前端系统递交的检索请求，对索引进行查找；维护部分则负责对索引进行增加、修改、删除等维护工作。整个检索系统的实现过程包括：对文档进行预处理；进行分词并创建文档索引。对于中文分词，Lucene采用的是二元分词法；提供搜索功能，即利用Lucene建立的索引进行搜索。

系统所采用的Lucene开发框架包括Lucene核心功能模块与定制开发模块两部分。Lucene核心功能模块包括索引/检索器层、存储层以及倒排索引文件层，其中，倒排索引用来存储在全文搜索下某个词在一个文档或者一组文档中的存储位置的映射，是Lucene实现快速查询的核心技术。基于核心层之上的定制开发模块，包括词法分析层、文本解析层以及应用层。其中，文本解析层主要通过各种文档解析器对不同格式的文档进行解析，从而得到便于操作的文本文件；词法分析层则主要是将文本划分成词并选择合适的词来建立索引，用于中文检索时需要使用相应的中文分析器。

为了获得更好的检索效果，系统还需要对每日入库的各类金融数据进行查重处理。由于提高信息查重的效率对于提升检索系统的性能以及用户的使用体验意义重大，本发明采用了新的查重框架，提出了一种基于段落主题的文本查重机制，使用文本数据的主题信息来比较其相似度，实现对于相同主题和雷同内容的金融数据的归类，以进一步提高查重效果。充分考虑了文本的结构以及特性的分布情况，由文本中的每个段落产生一个特征值，因而一个文本可以表达为基于段落主题的特征值集合。对于同一个文本而言，基于段落主题的特征值集合比单一特征值包含更多的信息，这些信息在计算特征值集合的海明距离时可以把文本间的差异性放大，从而提高对文本相似度判断的准确率。该查重方法的整体步骤包括：根据文本的段落主题提取每个段落的段落特征值，然后通过比较两个文本的段落特征值来计算两个文本的相似度，最后相似度超过设定阈值时则认为是重复文本，进行查重操作。

该数据查重框架的整体结构包括：查重组件、查重配置管理、查重结果分析三部分。其中，查重组件通过语义解析引擎负责对数据内容进行分词处理，特征值生成器根据分词结果生成数据的特征值特征。64位的特征值则是按相同规则被均分4组进行索引存储。在特征值比对过程中，首先要根据抽屉原理进行数据计算的降维，并计算数据特征值特征与特征值库的数据特征值海明距离大于或等于3的比对结果。查重配置管理负责对数据查重的结果进行日志记录，并可以检查数据查重的结果。

为了进一步提升用户体验，本发明检索系统还建设了数据推送系统，采用基于用户行为聚类的推送算法来实现个性化的数据推送服务。这种个性化推送是通过建立用户和数据之间相互对应的二元关系，利用用户行为的相似性关系来挖掘每个用户潜在感兴趣的对象，进而进行个性化的推送，其本质也是一种信息过滤。

数据推送系统由用户信息的行为日志记录模块、用户偏好的模型分析模块和推送算法模块三部分组成。其中行为日志记录模块负责在各业务接触点记录用户的各种行为信息，包括页面的停留时间、点击序列、内容浏览记录以及用户的个人信息和交易历史(来源于集中交易系统)、行情浏览历史(来源行情系统)等，这些信息是后续分析和数据推送的数据基础；用户偏好的模型分析模块负责对用户行为日志的分析，

对用户多角度的属性加以测算和评分，为每一个用户建立各自的多属性描述，并运用业务知识和数据挖掘工具对用户的众多属性评分进行聚类，也就是将具有相似行为模式的用户聚集在一起，该系统已按照用户的风险偏好、资产状况、持仓分布、交易活跃度、盈利能力、投资品种偏好、生命周期、数据使用偏好、数据使用历史等多个属性建立起了相应的分类分级用户数据使用模型，该模型的有效建立是整个推送系统的难点；推送算法模块则是利用组合算法从数据服务器中根据分类分级用户模型为用户实时计算出各数据的客户兴趣度，并返回其中前N条给业务前台进行集中展示，推送算法模块是整个推送系统的核心环节。

基于上述检索系统，本发明提出的数据库并行查询方法。将模糊因子与并行技术相融合，代入到查询优化计算中，利用得到的模糊特征，提高全局搜索能力，以查询时间序列为基础，完成高精度的并行查询负载控制。

在云计算环境下数据库并行查询过程中，根据事务间具有的相互依赖关系，组建事务优先级矩阵。通过计算矩阵中每个数据的输出与输入关系，建立并行查询的事务组。按照顺序将各事务组映射到每个查询事务上，比较每个事务组的执行开销，进行事务的动态组合，从中选取最优的优先级，完成事务的并行查询。

云计算环境下的数据库并行查询可以解释为，选出待分配的两个或多个事务以并行方式收集负载信息。并行查询不仅具有静态查询与动态查询的优越性，还能弥补二者的不足。将并行技术与模糊因子相融合，代入到查询优化计算中，获取模糊特征。数据库并行查询时间序列带有明显的模糊性特征，利用模糊特征的均匀遍历特性和差分特性进行运算，使算法具有了高效的搜索能力，为完成数据库并行查询奠定了基础。具体的内容如下详述：

1)以采集的数据库查询时间序列为基础，组成可调节稳定控制集合。公式表达为w_i*＝w_i+Q_i-w_i+Σ(w_j-q_j)

其中，w_i表示节点i的事务数量，Q_i-w_i表示节点i与其父节点之间的交换事务的数量，Σ(w_j-q_j)表示节点i与其子节点之间的交换事务的数量。

在获取模糊特征的过程中，节点可以被判断为一般负载，轻量负载与过载三种情况。

如果节点被判断为一般负载时，将转入用户阶段。判断为轻量负载的节点，得到了等待的负载后也将转入用户阶段。判断为过载的节点，将过载的事务迁移出去后，同样转入用户阶段。

2)将模糊因子与并行技术相融合，代入到查询优化计算中，求取模糊的多样性特征，定义查询时间序列适应值的方差m，具体的表达公式如下

m = \frac{1}{N P} Σ_{i = 1}^{N P} {(f (x_{i}) - \overset{&OverBar;}{f (x)})}^{2}

在上式中，NP表示时间序列规模，f(x_i)代表第i个查询时间序列的适应值，可以表示平均适应度的值。

3)根据模糊与并行技术相融合的原则，数据库模糊特征的表达式为x_n+1＝ν_xn(1-x_n)

其中，n＝1，2，3，....x∈[0，1]，ν∈[0，4]。

利用模糊特征算法进行云计算环境下的数据库并行查询中模糊特征的提取，为完成云计算环境下的数据库并行查询奠定了有效的基础。

算法的具体过程为：

1)遍历每个节点，编号表示0，1，2，…，n-1，N₀，整个系统的节点总数为Σ＝W_I-w_i

其中，w_i表示节点i的事务数，W₀是整个系统的事务总数，每个节点保存一个W_I，具体公式如下表述

Σ_{i = 0}^{N - 1} (W_{\arg} - m i n (W_{\arg}, W_{i}))

2)选择一部分节点，建立最优查询顺序，且将数据库服务器的开销降到最小化，使模糊数据查询时间为最短。

综上所述，本发明提出了一种云平台金融数据检索方法，防止数据库负载过大的出现，完成了在云计算环境下的金融数据库的并行查询，提高了数据查询的效率。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种云平台数据检索方法，用于在基于云计算的金融数据检索系统中进行数据检索和查询，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述在云计算环境下数据库并行查询过程中，将模糊因子代入到查询优化计算中获取模糊特征，进一步包括：

3.根据权利要求2所述的方法，其特征在于，所述获取模糊特征进一步包括：

判断节点处于一般负载，轻量负载或过载的情况之一；

m = \frac{1}{N P} Σ_{i = 1}^{N P} {(f (x_{i}) - \overset{&OverBar;}{f (x)})}^{2}

3)将数据库模糊特征的表达式为x_n+1＝ν_xn(1-x_n)

其中，n＝1，2，3，....x∈[0，1]，ν∈[0，4]；

并且，其中所述进行事务的并行查询进一步包括：

Σ_{i = 0}^{N - 1} (W_{\arg} - m i n (W_{\arg}, W_{i}))

4.根据权利要求3所述的方法，其特征在于，所述金融数据检索系统包括业务服务器、应用服务器、数据服务器、整合服务器及各数据库；其中，业务服务器通过调用应用服务器进行信息检索，使用数据信息进行推送服务；应用服务器对数据进行统一的索引与维护；整合服务器对结构化、非结构化数据进行整合，采用查重机制及数据推送技术实现数据的分类汇总和规整，并通过协议接口和前端页面展示为用户及业务服务器提供信息服务；