CN112035531B - 敏感数据处理方法、装置、设备及介质 - Google Patents

敏感数据处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN112035531B
CN112035531B CN202010910798.9A CN202010910798A CN112035531B CN 112035531 B CN112035531 B CN 112035531B CN 202010910798 A CN202010910798 A CN 202010910798A CN 112035531 B CN112035531 B CN 112035531B
Authority
CN
China
Prior art keywords
data
message
query
sensitive
storage node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010910798.9A
Other languages
English (en)
Other versions
CN112035531A (zh
Inventor
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010910798.9A priority Critical patent/CN112035531B/zh
Publication of CN112035531A publication Critical patent/CN112035531A/zh
Application granted granted Critical
Publication of CN112035531B publication Critical patent/CN112035531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种分布式存储技术,公开一种敏感数据处理方法、装置、设备及介质,该敏感数据处理方法包括获取各分组平台推送的携带分组标识的敏感数据;对敏感数据进行格式转换,生成消息数据并推送至消息队列;对消息队列的消息数据进行数据清洗,获取清洗后的消息数据;基于用户的定制化需求,对消息数据进行碰撞分析,获取定制计算结果;将清洗后的消息数据以及定制计算结果输出至存储节点中。本发明还涉及区块链技术,敏感数据可存储于区块链中。本发明可整合各分组平台推送的敏感信息数据,打破各系统之间关于敏感数据松耦合的概念,实现定制化统计。

Description

敏感数据处理方法、装置、设备及介质
技术领域
本发明涉及敏感数据处理技术领域,尤其涉及一种敏感数据处理方法、装置、设备及介质。
背景技术
在数据安全的大环境下,企业各分组系统采用松耦合架构的方式实现,以降低整体复杂性和依赖性,但同时因业务需求的扩充或变更,则需要统计该业务需求所涉及的影响范围,即统计哪些分组需要用到该业务需求。
当前在统计业务需求所涉及的影响范围,是由分组经理邮件发送相关敏感信息的统计要求,例如统计使用客户信息数据、LBS库保费明细、保单交易、物化视图的这些数据的分组以及其使用的字段,再由各分组负责人排查自己业务内是否涉及统计的相关敏感信息,再通过邮件汇总的方式进行反馈,不能直观的认知到各系统使用数据的详细情况;对于诸如此类似的统计需求,每次都需单独分配人力进行重复性排查工作,效率低且存在统计出错的风险,同时也无法实现定制化统计。
发明内容
本发明实施例提供一种敏感数据处理方法、装置、设备及介质,以解决目前统计业务需求只能通过线下人工统计,效率低且无法实现定制化统计的问题。
一种敏感数据处理方法,包括:
获取各分组平台推送的携带分组标识的敏感数据;
对所述敏感数据进行格式转换,生成消息数据并推送至消息队列;
对所述消息队列的消息数据进行数据清洗,获取清洗后的消息数据;
基于用户的定制化需求,对消息数据进行碰撞分析,获取定制计算结果;
将所述清洗后的消息数据以及所述定制计算结果输出至存储节点中。
一种敏感数据处理装置,包括:
数据获取模块,用于获取各分组平台推送的携带分组标识的敏感数据;
消息推送模块,用于对所述敏感数据进行格式转换,生成消息数据并推送至消息队列;
数据清洗模块,用于对所述消息队列的消息数据进行数据清洗,获取清洗后的消息数据;
定制计算结果获取模块,用于基于用户的定制化需求,对消息数据进行碰撞分析,获取定制计算结果;
数据输出模块,用于将所述清洗后的消息数据以及所述定制计算结果输出至存储节点中。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述敏感数据处理方法的步骤。
一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述敏感数据处理方法的步骤。
上述敏感数据处理方法、装置、设备及介质中,通过整合各个分组平台推送的敏感信息数据,打破各系统之间关于敏感数据松耦合的概念,可通过具体的查询条件自动匹配,有效提升响应速度,并且可根据各个分组平台推送的敏感信息数据,按照定制的化模型进行碰撞分析计算,以实现定制化统计,直观体现各分组数据的使用情况,无需人工重复排查,降低时间成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中敏感数据处理方法的一应用环境示意图;
图2是本发明一实施例中敏感数据处理方法的一流程图;
图3是图2中步骤S205的一具体流程图;
图4是本发明一实施例中敏感数据处理方法的一系统架构图;
图5是本发明一实施例中敏感数据处理方法的一流程图;
图6是本发明一实施例中敏感数据处理方法的一流程图;
图7是本发明一实施例中敏感数据处理方法的一流程图;
图8是本发明一实施例中敏感数据处理方法的一流程图;
图9是本发明一实施例中敏感数据处理装置的一示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的敏感数据处理方法可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。
在一实施例中,如图2所示,提供一种敏感数据处理方法,具体包括如下步骤:
S201:获取各分组平台推送的携带分组标识的敏感数据。
其中,敏感数据可指某项业务需求变更时所涉及到的业务数据或者一些敏感数据,例如客户信息数据、保费明细、保单交易等。
本方法可应用于分布式搜索系统中,该分布式搜索系统系统包括数据实时收集接入服务、大数据分析服务、定时离线计算服务以及缓存服务。其中,数据实时收集接入服务,用于实时收集并存储各分组平台推送的敏感数据。大数据分析服务即指大数据Spark-Streaming程序碰撞计算服务。定时离线计算服务即指通过web/timer定时服务调用的涉及大数据量计算的服务,例如客户关系模型分析。需要强调的是,为进一步保证上述敏感数据的私密和安全性,上述敏感数据还可以存储于一区块链的节点中。
本实施例中,数据实时收集接入服务通过将各分组推送的敏感数据通过预设的入库程序进行格式转换,以生成消息数据并推送至消息队列(即消息中间件),大数据Spark-Streaming程序实时监听消息队列中的数据并进行消费,即通过消费消息队列中的数据进行ETl数据清洗处理和实时计算,再将处理后的数据和查询结果输出至不同的存储节点中。
S202:对敏感数据进行格式转换,生成消息数据并推送至消息队列。
其中,可预先设定一入库程序,用于统一入库数据的数据格式,例如json格式。具体地,通过对携带分组标识的敏感数据进行格式转换,以生成消息数据并推送至消息队列(即消息中间件,如kafka)。
本实施例中,该分布式搜索系统可通过生产-消费的架构实现,即通过生产者生产数据推送至消息队列,以使消费端消费该消息队列中的数据,可实现多线程并发。
S203:对消息队列的消息数据进行数据清洗,获取清洗后的消息数据。
体地,该数据清洗可借助SparkStreaming程序实现对消息数据进行ETL清洗处理,将分散、零乱、标准不统一的数据整合到一起,方便后续入库存储。
其中,ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。ETL的清晰过程包括数据抽取、数据的清洗转换以及数据的加载。
S204:基于用户的定制化需求,对消息数据进行碰撞分析,获取定制计算结果;
其中,用户的定制化需求指根据用户需求进行设定的定制化的统计任务,例如统计各分组数据的使用情况。具体地,根据用户的定制化需求,可通过Spark-Streaming程序进行碰撞计算,获取对应的定制计算结果,并存储至不同的存储节点中,以便后续可直接根据存储节点中所存储的计算结果进行查询显示。
S205:将清洗后的消息数据以及定制计算结果输出至存储节点中。
本实施例中,通过整合各个分组平台推送的敏感信息数据,打破各系统之间关于敏感数据松耦合的概念,可通过具体的查询条件自动匹配,有效提升响应速度,并且可根据各个分组平台推送的敏感信息数据,按照用户的定制化需求进行碰撞分析计算,以实现定制化统计,直观体现各分组数据的使用情况,无需人工重复排查,降低时间成本。
在一实施例中,存储节点包括分布式文件系统、敏感数据库系统、分布式索引系统以及缓存系统中的至少一个。
其中,分布式文件系统即指HDFS系统,该系统可存储各分组推送的源数据,以便后续用户可基于该分布式文件系统查询源数据。可以理解地,该分布式文件系统按照分组标识将各分组推送的数据进行存储。敏感数据库系统即指Hbase系统,该敏感数据库系统可存储一些涉及海量数据实时查询的数据,例如客户数据。分布式索引系统即指ES系统,该ES系统可对数据建立索引实现对数据的全文搜索和关键字匹配等,站内式搜索速度快,可以理解地,该ES系统可存储部分数据或全量数据,本实施例中,为保证数据查询速度会将部分需要实时查询反馈的数据存储至ES系统中,以便基于索引进行快速查询。缓存系统(即redis)可用于缓存查询结果(查询结果、计算结果),以快速响应查询请求。
在一实施例中,消息数据包括符合大数据查询场景的第一消息数据、待建立索引的第二消息数据;如图3所示,步骤205中,即将清洗后的消息数据以及定制计算结果输出至存储节点中,具体包括如下步骤:
S301:将清洗后的消息数据全量输出至分布式文件系统中;其中,分布文件系统的上层搭建一查询接口。
具体地,如图4所示的系统架构图,本实施例中采用flume组件实时收集各分组平台推送的源数据(敏感数据),当有新的数据产生时,Flume监控到有新增的文件后,将新增的文件传输到HDFS系统中进行存储。通过采用flume组件实时采集数据并保存到HDFS系统中,以减轻本地的存储压力,同时也可将数据集中保存到HDFS系统,在分布文件系统的上层搭建一查询接口(即hive/impala组件),以使用户可通过hive/impala组件查询各分组推送过来的源数据。
其中,hive/impala组件是提供对HDFS数据进行SQL查询的工具,可针对不同的应用场景调用不同的系统进行查询,例如,Hive组件适合于长时间的批处理查询分析(即不需要实时反馈的分析任务,例如模型训练、历史数据查询等),而impala组件适合于实时交互式SQL查询。
可以理解地,通过flume组件缓存数据文件即清洗后的消息数据全量输出至HDFS系统中,供用户可通过hive/impala组件查询各分组推送过来的源数据。此外,还可对消息数据进行分表并建立分区索引落地到hive组件中,通过该分区索引主键,可以准确命中数据所属的数据存储单元,查询到表中所需的数据,例如将不同的分组数据,按照分组标识进行分区存储,使用户通过hive/impala组件根据分组标识直接查询到该分组的数据使用情况,无需进行全表扫描,提高查询效率。
S302:将第一消息数据输出至敏感数据库系统中。
其中,第一消息数据为符合大数据查询场景的第一消息数据。本实施例中的Hbase作为扩展系统,基于Hbase系统的Big Table的特点,将涉及大数据查询场景的数据(例如客户信息数据)存储到Hbase系统中,以通过该Hbase系统针对性处理大数据查询请求,提升查询响应速度。该Hbase系统可存储大数据,可实现动态添加多个列,可扩展性强。
可以理解地,由于Hbase系统为面向列的存储结构,通过主键rowkey即可快速查询整张表的数据,例如将客户信息数据中的身份证号,用户标识以及手机号作为rowkey,后续可根据该rowkey快速查询到该客户的画像信息。
S303:将第二消息数据输出至分布式索引系统,以使分布式索引系统对消息数据建立数据索引并存储。
其中,待建立索引的第二消息数据即指符合全文搜索和关键字匹配的数据。具体地,将待建立索引的第二消息数据推送至消息队列中,以使外部ES系统消费该消息队列中的消息数据,即通过该ES系统(es搜索引擎)对第二消息数据建立索引,以实现全文搜索和关键字匹配功能,使用户可直接根据该es搜索引擎进行站内式搜索,以快速查询并显示对应的查询结果,例如可以将分组标识作为key,统计哪些分组应用到A基础数据表中的B字段。
需要说明是的,该分布式索引系统可存储索引以及索引对应的部分数据量,也可只存储索引,在后续进行查询时可通过依赖于分布式文件系统中的源数据实现全文搜索和关键字匹配功能以减轻搜索引擎的存储压力。
S304:将定制计算结果输出至缓存系统中。
具体地,通过将定制计算结果输出至缓存系统(即redis)中,以便用户在下次查询相同数据时,可直接读取缓存系统所存储的查询结果,无需多次访问数据库,降低数据库的访问压力,且可有效提升用户请求的访问压力。
本实施例中,通过集成了HDFS系统、Hbase系统、es搜索引擎以及缓存系统,以充分发挥各存储系统的优势,使每一存储系统有针对性地处理对应的查询场景,提高用户查询请求得响应速度,且可提供实时、离线、可级联、可拓展、可多维度的查询。
在一实施例中,如图5所示,步骤S205之后,该敏感数据处理方法具体包括如下步骤:
S501:获取数据查询请求。
S502:根据数据查询请求查询缓存系统,返回缓存系统存储的查询结果。
S503:若查询结果为空,则根据数据查询请求的类型,匹配对应的目标存储节点。
S504:基于目标存储节点中存储的数据,执行查询语句,输出查询结果。
本实施例中,用户可再系统中通过前端界面输入查询条件,以使服务器获取查询请求,在获取到数据查询请求后,会先从缓存系统中查询是否有对应的结果数据,若有,则直接返回该结果数据作为查询结果,加快响应速度;若无,则需要根据该数据查询请求的类型,匹配对应的目标存储节点,以确定查询目标源,再对该查询目标源执行查询语句,输出对应的查询结果,保证查询效率。该查询目标源即目标存储节点对应的存储系统,如HDFS系统、Hbase系统、或者ES系统。
进一步地,该查询结果可存储至缓存系统,以便后续进行一键式调起,加快响应速度。
进一步地,当该查询结果为查询历史时间的保单交易额,则可将该查询结果以图表形式展示给用户,以使用户直观查看某一段时间区间内的保单交易情况。
进一步地,本实施例中,还加入对用户的访问权限进行限制的机制,即通过不同的用户角色限制其访问数据的范围,例如各分组只可访问本组内数据的使用情况,限制其访问其他分组的数据使用情况,防止数据泄露。
在一实施例中,如图6所示,步骤S503中,即根据数据查询请求的类型,匹配对应的目标存储节点,具体包括如下步骤:
S601:若数据查询请求为实时数据查询,则将分布式索引系统或敏感数据库系统作为对应的存储节点。
S602:若数据查询请求为离线分析任务,则将分布式文件系统作为对应的存储节点。
具体地,该数据查询请求包括如下类型:实时数据查询请求和离线分析查询请求,而该实时数据查询请求包含海量数据查询请求、多字段检索和匹配查询请求;其中,该海量数据查询请求可通过Hbase系统处理。该多字段和关键字匹配查询请求可通过es搜索引擎(即ES系统)实现。离线分析查询请求则可通过hive/impala-HDFS处理。
本实施例中,当该数据查询请求为实时数据查询请求时,可先基于ES系统进行索引查询,若命中,则直接返回查询结果,若未命中,则可基于Hbase系统,执行查询语句,返回查询结果,以保证查询效率。当数据查询请求为离线分析任务,则可将HDFS系统作为对应的存储节点。
在一实施例中,如图7所示,步骤S205之后,该敏感数据处理方法还包括如下步骤:
S701:响应定时任务触发的数据分析请求,加载数据分析请求对应的存储节点中的待分析数据。
S702:对待分析数据进行离线分析计算,得到离线分析计算结果。
S703:将离线分析计算结果存储至存储节点中。
具体地,该定时任务作为独立的计算引擎,可根据用户需求进行设定,例如加载客户信息数据分析客户价值,则需要加载Hbase系统中存储的客户信息数据作为待分析数据,进行离线分析计算,分析客户价值,将该客户价值分析结果存储至任一存储节点中,以便后续查询直接从该存储节点中获取,减轻数据库的压力,提升用户请求的响应速度。
本实施例中,用户可通过该定时任务自定义新的用户的定制化需求,以通过该定时任务进行离线计算,得到对应的计算结果,并存储至存储节点中,便于后续进行一键式调用,大大提高响应速度。
在一实施例中,如图8所示,步骤S503之后,该敏感数据处理方法还包括如下步骤:
S801:将查询结果存储至缓存系统中。
具体地,将查询结果存储至缓存系统中,可利于后续用户在查询相同条件的数据是,可直接读取缓存系统中的数据,加快响应速度,且可有效降低数据库的访问压力。
S801:记录查询结果的调用频次。
S802:当查询结果的调用频次超过预设缓存阈值时,则清除缓存系统中存储的调用频次超过预设缓存阈值的查询结果。
其中,缓存系统会设有一预设缓存阈值,该预设缓存阈值可以根据经验设定,此处不做限定。具体地,当缓存系统中所缓存的数据量超过该预设缓存阈值时,对缓存系统中所缓存的查询结果进行删除,该删除方法可以根据查询结果的存储时间的先后顺序或调用频次实现。
示例性地,将时间相对靠前的查询结果进行删除,也可根据查询结果的调用频次即将调用频次最少的数据进行删除,同时也可以结合存储时间和查询数据的次数,将存储时间长且调用频次少的查询结果进行删除,以释放内存资源。可以理解地,该删除方法可根据实际需要进行设定,此处不做限定。
本实施例中,可记录查询结果对应的调用次数和存储时间,该调用次数越大证明该查询结果被再次调用的概率越大,调用次数越多证明该查询结果被再次调用的概率越小,通过该调用次数可反映出每一查询结果被再次调用的概率,从而有目的地删除不经常访问的查询结果。
具体地,用户在使用该分布式搜索系统进行查询时,当缓存系统中所存储的查询结果被调用一次,则对查询结果的调用频次进行累加处理,以实时统计每一查询结果对应的调用频次,为后续的缓存清理,提供技术支持。
本实施例中,通过将对缓存服务器缓存的查询结果进行按需删除,以实现动态缓存,节省存储空间。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种敏感数据处理装置,该敏感数据处理装置与上述实施例中敏感数据处理方法一一对应。如图9所示,该敏感数据处理装置包括数据获取模块10、消息推送模块20、数据清洗模块30、定制计算结果获取模块40和数据输出模块50。各功能模块详细说明如下:
数据获取模块10,用于获取各分组平台推送的携带分组标识的敏感数据。
消息推送模块20,用于对敏感数据进行格式转换,生成消息数据并推送至消息队列。
数据清洗模块30,用于对消息队列的消息数据进行数据清洗,获取清洗后的消息数据。
定制计算结果获取模块40,用于基于用户的定制化需求,对消息数据进行碰撞分析,获取定制计算结果;
数据输出模块50,用于将清洗后的消息数据以及定制计算结果输出至存储节点中。
具体地,该存储节点包括分布式文件系统、敏感数据库系统、分布式索引系统以及缓存系统中的至少一个。
具体地,数据输出模块包括第一输出单元、第二输出单元、第三输出单元和第四输出单元。
第一输出单元,用于将清洗后的消息数据全量输出至分布式文件系统中;其中,分布文件系统的上层搭建一查询接口。
第二输出单元,用于将第一消息数据输出至敏感数据库系统中。
第三输出单元,用于将第二消息数据输出至分布式索引系统,以使分布式索引系统对消息数据建立数据索引并存储。
第四输出单元,用于将定制计算结果输出至缓存系统中。
具体地,该敏感数据处理装置还包括查询请获取模块、查询结果获取模块、存储节点匹配模块和查询结果输出模块。
查询请获取模块,用于获取数据查询请求。
查询结果获取模块,用于根据数据查询请求查询缓存系统,返回缓存系统存储的查询结果。
存储节点匹配模块,用于若查询结果为空,则根据数据查询请求的类型,匹配对应的目标存储节点。
查询结果输出模块,用于基于目标存储节点中存储的数据,执行查询语句,输出查询结果。
具体地,存储节点匹配模块包括第一匹配单元和第二匹配单元。
第一匹配单元,用于若数据查询请求为实时数据查询,则将分布式索引系统或敏感数据库系统作为对应的存储节点。
第二匹配单元,用于若数据查询请求为离线分析任务,则将分布式文件系统作为对应的存储节点。
具体地,该敏感数据处理装置还包括定时任务响应模块、离线分析模块和存储模块。
定时任务响应模块,用于响应定时任务触发的数据分析请求,加载数据分析请求对应的存储节点中的待分析数据。
离线分析模块,用于对待分析数据进行离线分析计算,得到离线分析计算结果。
存储模块,用于将离线分析计算结果存储至存储节点中。
具体地,该敏感数据处理装置还包括调用频次记录模块和缓存清理模块。
调用频次记录模块,用于记录缓存系统中存储的查询结果的调用频次。
缓存清理模块,用于当查询结果的调用频次超过预设缓存阈值时,则清除缓存系统中存储的调用频次超过预设缓存阈值的查询结果。
关于敏感数据处理装置的具体限定可以参见上文中对于敏感数据处理方法的限定,在此不再赘述。上述敏感数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行敏感数据处理方法过程中生成或获取的数据,如待训练图像。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种敏感数据处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的敏感数据处理方法的步骤,例如图2所示的步骤S202-S205。或者,处理器执行计算机程序时实现敏感数据处理装置这一实施例中的各模块/单元的功能,例如图9所示的各模块/单元的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中用户帐号解锁方法的步骤,例如图2所示的步骤S202-S205,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述敏感数据处理装置这一实施例中的各模块/单元的功能,例如图9所示的各模块/单元的功能,为避免重复,这里不再赘述。
本发明所指区块链是敏感数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (6)

1.一种敏感数据处理方法,其特征在于,包括:
获取各分组平台推送的携带分组标识的敏感数据;
对所述敏感数据进行格式转换,生成消息数据并推送至消息队列;
对所述消息队列的消息数据进行数据清洗,获取清洗后的消息数据;
基于用户的定制化需求,对消息数据进行碰撞分析,获取定制计算结果;
将所述清洗后的消息数据以及所述定制计算结果输出至存储节点中;
在所述将所述清洗后的消息数据以及所述定制计算结果输出至存储节点中之后,所述敏感数据处理方法还包括:
获取数据查询请求;
根据所述数据查询请求查询缓存系统,返回所述缓存系统存储的查询结果;
若所述查询结果为空,则根据所述数据查询请求的类型,匹配对应的目标存储节点;
基于所述目标存储节点中存储的数据,执行查询语句,输出查询结果;
所述根据所述数据查询请求的类型,匹配对应的存储节点,包括:
若所述数据查询请求为实时数据查询,则将分布式索引系统或敏感数据库系统作为对应的存储节点;
若所述数据查询请求为离线分析任务,则将分布式文件系统作为对应的存储节点;
所述存储节点包括分布式文件系统、敏感数据库系统、分布式索引系统以及缓存系统中的至少一个;
所述分布式文件系统用于存储各分组推送的源数据;
所述敏感数据库系统用于存储涉及海量数据实时查询的数据;
所述分布式索引系统用于对数据建立索引;
所述缓存系统用于缓存查询结果;
所述消息数据包括符合大数据查询场景的第一消息数据、待建立索引的第二消息数据;
所述将所述清洗后的消息数据以及所述定制计算结果输出至存储节点中,包括:
将所述清洗后的消息数据全量输出至所述分布式文件系统中;其中,所述分布式文件系统的上层搭建一查询接口;
将所述第一消息数据输出至所述敏感数据库系统中;
将所述第二消息数据输出至所述分布式索引系统,以使所述分布式索引系统对所述第二消息数据建立数据索引并存储;
将所述定制计算结果输出至所述缓存系统中。
2.如权利要求1所述敏感数据处理方法,其特征在于,在所述将所述清洗后的消息数据以及所述定制计算结果输出至存储节点中之后,所述敏感数据处理方法还包括:
响应定时任务触发的数据分析请求,加载所述数据分析请求对应的存储节点中的待分析数据;
对所述待分析数据进行离线分析计算,得到离线分析计算结果;
将所述离线分析计算结果存储至所述存储节点中。
3.如权利要求1所述敏感数据处理方法,其特征在于,在所述输出所述查询结果之后,所述敏感数据处理方法还包括:
将所述查询结果存储至所述缓存系统中;
记录所述查询结果的调用频次;
当所述查询结果的调用频次超过预设缓存阈值时,则清除所述缓存系统中存储的调用频次超过预设缓存阈值的查询结果。
4.一种敏感数据处理装置,所述装置用于实现如权利要求1至3任一项所述的敏感数据处理方法,其特征在于,包括:
数据获取模块,用于获取各分组平台推送的携带分组标识的敏感数据;
消息推送模块,用于对所述敏感数据进行格式转换,生成消息数据并推送至消息队列;
数据清洗模块,用于对所述消息队列的消息数据进行数据清洗,获取清洗后的消息数据;
定制计算结果获取模块,用于基于用户的定制化需求,对消息数据进行碰撞分析,获取定制计算结果;
数据输出模块,用于将所述清洗后的消息数据以及所述定制计算结果输出至存储节点中。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述敏感数据处理方法的步骤。
6.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述敏感数据处理方法的步骤。
CN202010910798.9A 2020-09-02 2020-09-02 敏感数据处理方法、装置、设备及介质 Active CN112035531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010910798.9A CN112035531B (zh) 2020-09-02 2020-09-02 敏感数据处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010910798.9A CN112035531B (zh) 2020-09-02 2020-09-02 敏感数据处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112035531A CN112035531A (zh) 2020-12-04
CN112035531B true CN112035531B (zh) 2023-11-28

Family

ID=73592282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010910798.9A Active CN112035531B (zh) 2020-09-02 2020-09-02 敏感数据处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112035531B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112671849A (zh) * 2020-12-08 2021-04-16 北京健康之家科技有限公司 基于实时流量分析的敏感数据处理方法及装置
CN112817834B (zh) * 2021-01-22 2022-11-01 上海哔哩哔哩科技有限公司 数据表评估方法及装置
CN115914360A (zh) * 2022-09-15 2023-04-04 成都飞机工业(集团)有限责任公司 一种时序数据存储方法、装置、设备及存储介质
CN117131036B (zh) * 2023-10-26 2023-12-22 环球数科集团有限公司 一种基于大数据和人工智能的数据维护系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753531A (zh) * 2018-12-26 2019-05-14 深圳市麦谷科技有限公司 一种大数据统计方法、系统、计算机设备及存储介质
CN109977158A (zh) * 2019-02-28 2019-07-05 武汉烽火众智智慧之星科技有限公司 公安大数据分析处理系统及方法
CN110750562A (zh) * 2018-07-20 2020-02-04 武汉烽火众智智慧之星科技有限公司 基于Storm的实时数据比对预警方法及系统
CN111367953A (zh) * 2020-03-30 2020-07-03 中国建设银行股份有限公司 一种资讯数据的流式处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019297B2 (en) * 2013-04-03 2018-07-10 Salesforce.Com, Inc. Systems and methods for implementing bulk handling in asynchronous processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750562A (zh) * 2018-07-20 2020-02-04 武汉烽火众智智慧之星科技有限公司 基于Storm的实时数据比对预警方法及系统
CN109753531A (zh) * 2018-12-26 2019-05-14 深圳市麦谷科技有限公司 一种大数据统计方法、系统、计算机设备及存储介质
CN109977158A (zh) * 2019-02-28 2019-07-05 武汉烽火众智智慧之星科技有限公司 公安大数据分析处理系统及方法
CN111367953A (zh) * 2020-03-30 2020-07-03 中国建设银行股份有限公司 一种资讯数据的流式处理方法及装置

Also Published As

Publication number Publication date
CN112035531A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN112035531B (zh) 敏感数据处理方法、装置、设备及介质
CN109344172B (zh) 一种高并发数据处理方法、装置及客户端服务器
CN109800222B (zh) 一种HBase二级索引自适应优化方法和系统
CN111311326B (zh) 用户行为实时多维度分析方法、装置及存储介质
US20180212758A1 (en) Secure Probabilistic Analytics Using an Encrypted Analytics Matrix
CN111597257A (zh) 数据库的同步方法、装置、存储介质及终端
KR20200003164A (ko) 데이터베이스 동기화
CN107133309B (zh) 流程实例的存储、查询方法及装置、存储介质及电子设备
CN103838867A (zh) 日志处理方法和装置
CN112434039A (zh) 数据的存储方法、装置、存储介质以及电子装置
US9135630B2 (en) Systems and methods for large-scale link analysis
CN109167840B (zh) 一种任务推送方法、节点自治服务器及边缘缓存服务器
CN111163159A (zh) 消息订阅方法、装置、服务器及计算机可读存储介质
CN111190727B (zh) 内存的异步析构方法、装置、计算机设备及存储介质
CN112613271A (zh) 数据分页方法、装置、计算机设备及存储介质
CN110727727A (zh) 一种数据库的统计方法及装置
CN111859127A (zh) 消费数据的订阅方法、装置及存储介质
CN112328658A (zh) 用户档案数据处理方法、装置、设备及存储介质
CN114398520A (zh) 数据检索方法、系统、装置、电子设备及存储介质
CN111400578A (zh) 货物数据查询方法、装置、计算机设备和存储介质
Homem et al. Finding top-k elements in a time-sliding window
CN114218471A (zh) 数据查询方法、装置、系统、电子设备及存储介质
CN113515541A (zh) 数据库的数据查询方法、装置和系统
CN115391605A (zh) 数据查询方法、装置、设备、计算机可读介质和程序产品
CN111078736A (zh) 一种数据聚合处理方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant