CN112035485B

CN112035485B - 基于分布式架构实现信用信息数据高效查询方法及其系统

Info

Publication number: CN112035485B
Application number: CN202010913931.6A
Authority: CN
Inventors: 李陈孝; 张城炜; 江浩
Original assignee: Jiangsu Xindie Digital Technology Co ltd
Current assignee: Jiangsu Xindie Digital Technology Co ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2023-09-26
Anticipated expiration: 2040-09-03
Also published as: CN112035485A

Abstract

本发明公开了一种基于分布式架构实现信用信息数据高效查询的方法及其系统，所述系统采用分布式部署架构，通过设置应用服务器、缓存服务器、数据写库服务器和数据读库服务器，对数据进行了垂直拆分和水平拆分，利用缓存服务器存储被访问或被写入的数据，无需每次都从数据读库服务器中读取数据，最终形成一种高可用、稳定性好的底层架构，可适用于信用信息查询场景的数据查询，能够实现信用信息的高效率查询；而且可在今后的运用中根据需要不断改进。

Description

基于分布式架构实现信用信息数据高效查询方法及其系统

技术领域

本发明涉及一种基于分布式架构实现信用信息数据高效查询的方法，属于数据查询技术领域。

背景技术

在基于信用信息为基础的数据应用中，公共信用数据分散在多个区域和不同的业务部门中，由于各区域和名部门之间存在网络的异构、系统平台的异构以及数据结构的异构等原因，导致数据及业务系统彼此相对独立，为信用信息共享带来了困难，高效查询更无从谈起。

目前，信用信息的查询方式主要有如下几种：1、基于接口服务获取用户信用信息，一般有RESTful webService和web service方法；2、直接交互到第三方的页面显示用户信用信息，通过URL跳转和原生加H5兼容模式；3、信用信息本地化导入做数据计算处理后再次查询等。

上述几种方式都有以下几个关键点：互联网数据传输的数据安全性、事务处理、数据同步、数据库压力的缓解、搜索算法的应用、查询效率。

然而基于信用信息为基础的数据应用，目前基本为集中式系统，虽然部署简单，无需多节点部署，只依赖于底层性能卓越的大型主机，但在实际使用过程中，存在如下问题：

1、集中式架构对业务支撑能力的不足，高可用性差：集中式系统无法满足在互联网下的高流量、高并发的数据应用，一旦有数据流量大和大表查询效率要求高的情况，单节点集中式系统无法支撑；另外，一旦集中式的中央服务器宕机，所有服务都无法正常使用；

2、大表与大事务导致的长时间锁表与长时间执行：由于互联网数据传输的数据安全性包括数据加密传输和数字证书认证两种方式，在当前的应用中也广泛使用，在传输过程中基本可以防止数据不被窃取；但不能保证传输前的数据安全，譬如数据的写入与变更操作。在集中式系统中，事务处理不可分布，若有某个事务一直没有处理完成，下个事务一直处于等待或死锁状态；单实例数据库无法在频繁执行命令的情况下，保证不了查询的高效，以至于前端访问无法及时响应问题等弊端；

3、数据库查询性能不稳定，查询效率低：影响数据库查询性能的问题在集中式系统中尤为突出，包括：sql查询速率不稳定、网络流量不稳、服务器硬件制约、IO端口限制，只要其中一个因素严重影响性能，那么整个数据库性能就会相对的严重受阻；

4、没有考虑实际情况运用查询算法。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于分布式架构实现信用信息数据高效查询的方法，其是一种高可用、稳定性好的底层架构和适用于信用信息查询场景的数据查询方法，能够实现信用信息的高效率查询；而且可在今后的运用中根据需要不断改进。

为了实现上述目的，本发明采用如下技术方案：一种基于分布式架构实现信用信息数据高效查询的方法，包括：

步骤S1、接收数据处理请求；

步骤S2、若所述数据处理请求为数据访问请求，则进入步骤S3；若所述数据处理请求为数据写入请求，则进入步骤S6；

步骤S3、根据所述数据访问请求生成对缓存服务器或数据库服务器中数据读库服务器进行读取的数据读取指令；所述数据读库服务器用于存储供读取的数据；所述缓存服务器用于存储被访问过的数据；

步骤S4、根据所述数据读取指令读取缓存服务器中的相应数据，若无，则根据所述数据读取指令读取数据读库服务器中的相应数据；

步骤S5、将所述相应数据返回给接收所述数据访问请求的一端；

步骤S6、接收待写入数据，并根据所述数据写入请求生成对缓存服务器和数据写库服务器进行写入的数据写入指令；所述数据写库服务器用于提供存储空间供存储所述写入数据；

步骤S7、根据所述数据写入指令在所述缓存服务器和数据写库服务器中写入待写入数据，

步骤S8、更新所述数据读库服务器的数据，使其与所述数据写库服务器的数据同步。

基于分布式架构实现数据高效查询的方法中，在所述步骤S3之前，还包括：将所述数据访问请求根据各个应用服务器的负载进行分配，用于平衡各个应用服务器的负载。

基于分布式架构实现数据高效查询的方法中，在负载均衡之后，所述步骤S3之前，还包括：

根据所述数据访问请求生成对搜索引擎服务器进行搜索的分词搜索指令；所述搜索引擎服务器中预先存储有分词策略；

若搜索引擎服务器中有与所述分词搜索指令相匹配的分词策略，则直接从搜索引擎服务器中读取匹配分词策略对应的数据，并直接将所述读取数据返回给接收所述数据访问请求的一端；若无，则进入下一步。

所述搜索引擎服务器、缓存服务器和数据库服务器均采用Hash查询算法，Hash实现高效查询具体实现步骤如下：

第一步：对各个城市各个地址大量的信用服务信息在数据库创建索引；

第二步：将经常查询的数据进行字符串格式处理成ASCII格式；

第三步：建立关键字集合与地址集合，通过代码构造哈希函数，将其转换成与其存储位置的下标；

第四步：在代码实现建立hash表；

第五步：查找数据时，根据字符串本身，以相同的哈希函数映射方式迅速定位到其位置；

第六步：将Hash常用查询结果根据主从机所配置的缓存策略来放入缓存服务器备用。

一种基于分布式架构实现信用信息数据高效查询的系统，包括：

应用服务器，用于接收数据处理请求，若所述数据处理请求为数据访问请求，则根据所述数据访问请求生成对缓存服务器或数据读库服务器进行读取的数据读取指令；若所述数据处理请求为数据写入请求，则接收待写入数据，并根据所述数据写入请求生成对缓存服务器和数据写库服务器进行写入的数据写入指令；

缓存服务器，用于存储数据读库服务器中被访问或数据写库服务器中被写入的数据；

数据库服务器，包括数据写库服务器和数据读库服务器，所述数据写库服务器用于提供存储空间供存储所述写入数据，所述数据读库服务器用于存储供读取的数据；所述数据写库服务器和数据读库服务器中的数据同步；

所述应用服务器、缓存服务器、数据写库服务器以及数据读库服务器均采用分布式部署架构。

基于分布式架构实现信用信息数据高效查询的系统中，还包括：

搜索引擎服务器，用于存储预设的分词策略，为用户提供分词搜索服务，并将搜索后的相关数据展示给用户；

所述应用服务器根据所述数据访问请求生成对搜索引擎服务器进行搜索的分词搜索指令；

搜索引擎服务器根据所述分词搜索指令搜索与其相匹配的分词策略，若有，则直接从搜索引擎服务器中读取与所述匹配分词策略对应的数据，并直接将所述读取数据返回给接收所述数据访问请求的一端；

第四步：在代码实现建立hash表；

与现有的技术相比，本发明通过将应用服务器和数据库服务器拆分开来，提高了应用层的性能，从而提高了单机的负载能力，也提高了整个系统的容灾能力；通过将数据库读写分离，并保证读写同步，在保证数据库数据统一的基础上提高了数据库层的性能。考虑大数据读写同步后，数据库常常对模糊查找效率不是很高，譬如查询信用信息，搜索是非常核心的功能，即使是做了读写分离，这个问题也不能得到有效解决，因此引入搜索引擎并集群控制，使用搜索引擎服务器能够大大提升我们系统的查询速度。考虑到有一些查询场景会出现许多用户访问同一信用信息的情况，那么对于这些热点数据，没必要每次都从数据库重读取，故采用了缓存服务器进行存储。考虑到随着数据库的压力持续增加，数据库的瓶颈将是个最大的问题。因此对数据进行了垂直拆分和水平拆分，先把数据库中不同业务数据（用户，服务）拆分到不同的数据库，然后把同一个表中的数据（用户表，服务表，核消表）拆分到多个数据库中，水平拆分的原因是某些业务数据量预期会达到单个数据库的瓶颈。最终，形成了一种高可用、稳定性好的底层架构和适用于信用信息查询场景的数据查询方法，能够实现信用信息的高效率查询；而且可在今后的运用中根据需要不断改进。

附图说明

图1为本发明的总体架构示意图；

图2为本发明对应的数据处理流程图；

图3为本发明事务处理流程图；

图4为采用除余法构造散列函数的存储情况；

图5为采用链表法后的存储结果；

图6为Hash性能测试流程图。

具体实施方式

下面结合附图对本发明实施中的技术方案进行清楚，完整的描述，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，本发明提供的一种基于分布式架构实现信用信息数据高效查询的方法，包括：

步骤S1、接收数据处理请求；

基于分布式架构实现数据高效查询的方法中，在负载均衡之后，所述步骤S3之前，还包括：将所述数据访问请求根据各个应用服务器的负载进行分配，用于平衡各个应用服务器的负载。

基于分布式架构实现数据高效查询的方法中，在所述步骤S3之前，还包括：

如图1和图2所示，一种基于分布式架构实现信用信息数据高效查询的系统，包括：

搜索引擎服务器根据所述分词搜索指令搜索与其相匹配的分词策略，若有，则直接从搜索引擎服务器中读取与所述匹配分词策略对应的数据，并直接将所述读取数据返回给接收所述数据访问请求的一端。

本发明通过将应用服务器和数据库服务器拆分开来，提高了应用层的性能，从而提高了单机的负载能力，也提高了整个系统的容灾能力；通过将数据库读写分离，并保证读写同步，在保证数据库数据统一的基础上提高了数据库层的性能。考虑大数据读写同步后，数据库常常对模糊查找效率不是很高，譬如查询信用信息，搜索是非常核心的功能，即使是做了读写分离，这个问题也不能得到有效解决，因此引入搜索引擎并集群控制，使用搜索引擎能够大大提升我们系统的查询速度。

考虑到有一些查询场景会出现许多用户访问同一信用信息的情况，那么对于这些热点数据，没必要每次都从数据库重读取，故采用了缓存服务器进行存储。

考虑到随着数据库的压力持续增加，数据库的瓶颈将是个最大的问题。因此我们对数据进行了垂直拆分和水平拆分，先把数据库中不同业务数据（用户，服务）拆分到不同的数据库，然后把同一个表中的数据（用户表，服务表，核消表）拆分到多个数据库中，水平拆分的原因是某些业务数据量预期会达到单个数据库的瓶颈。

本发明采用DTS（Distributed Transaction分布式事务服务）分布式事务框架来保障分布式环境下高可用性、高可靠性的同时兼顾数据一致性的要求，其最大的特点是保证数据最终一致。一个完整的业务活动由一个主业务服务与若干从业务服务组成，其具体事务处理流程如图3所示。当成员查询服务发起后，主业务服务负责发起并完成整个业务活动，从业务服务提供 TCC（Try-Confirm-Cancel）型业务操作。业务活动管理器控制业务活动的一致性，登记业务活动中的操作，若成员确认核稍，业务活动管理器会确认所有的两阶段事务的 confirm 操作，在业务活动取消时调用所有两阶段事务的 cancel 操作。

第一步：我们对系统里各个城市各个地址大量的信用服务信息在数据库创建索引，譬如用户基础信息（User_Base）、信用信息以及（User_Bredit）、服务信息（Service_Info）；

第二步：将经常查询的数据（用户、服务、操作日志）进行字符串格式处理成ASCII格式；

第四步：在代码实现建立hash表；

第五步：查找数据时，根据字符串本身，以相同的哈希函数(哈希表链地址法)映射方式迅速定位到其位置；

以上步骤中，哈希函数的构造为核心，系统采用“除留余数法”来查询到哈希地址，实现原理如下：

先取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址（p为素数），通过H（key）=key MOD p，p<=m （最简单，最常用）p的选取很重要，一般情况，p可以选取为质数或者不包含小于20的质因数的合数（合数指自然数中除了能被1和本身整除外，还能被其他数（0除外）整除的数）。系统的H值为1024。

另外，考虑到使用Hash函数会出现数据存储碰撞现象，故通过采用“链表法”来解决，具体实现如下：

把散列到同一槽中的所有元素（冲突的元素）都放在一个链表中。譬如若选定的散列表长度为m，则可将散列表定义为一个由m个头指针组成的指针数组T[0..m-1]。凡是散列地址为i的结点，均插入到以T[i]为头指针的单链表中。T中各分量的初值均应为空指针。在拉链法中，装填因子α可以大于1，但一般均取α≤1。以下举例说明：

假设有一组关键字为(26，36，41，38，44，15，68，12，6，51)，用除余法构造散列函数，一开始为图4所示存储情况，使用链表法后的存储结果为图5所示。

最后，将集中式架构顺序式查询方法与分布式架构链式查询方法之间的比较。其优势如下几点：

两种架构的效率、稳定与安全性按业务支撑、可用/一致/可靠性以及运维复杂度与故障恢复能力三方面对比如下：

另外，在数据操作方面使用Hash查询。在大空间满足的情况下，查找与读写速度都快，时间复杂度为O（1）~ O（1.5），性能测试流程如图6所示。

最终，形成了一种高可用、稳定性好的底层架构和适用于信用信息查询场景的数据查询方法，能够实现信用信息的高效率查询；而且可在今后的运用中根据需要不断改进。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于分布式架构实现信用信息数据高效查询的方法，其特征在于，包括：

步骤S1、接收数据处理请求；

步骤S8、更新所述数据读库服务器的数据，使其与所述数据写库服务器的数据同步；

在所述步骤S3之前，还包括：将所述数据访问请求根据各个应用服务器的负载进行分配，用于平衡各个应用服务器的负载；

在负载均衡之后，所述步骤S3之前，还包括：

若搜索引擎服务器中有与所述分词搜索指令相匹配的分词策略，则直接从搜索引擎服务器中读取匹配分词策略对应的数据，并直接将所述读取数据返回给接收所述数据访问请求的一端；若无，则进入下一步；

第四步：在代码实现建立hash表；

2.一种基于分布式架构实现信用信息数据高效查询的系统，其特征在于，包括：

所述应用服务器、缓存服务器、数据写库服务器以及数据读库服务器均采用分布式部署架构；

还包括：

所述搜索引擎服务器、缓存服务器和数据库服务器均采用Hash查询算法，Hash实现高效查询具体实现步骤如下：第一步：对各个城市各个地址大量的信用服务信息在数据库创建索引；

第四步：在代码实现建立hash表；