CN109558417A - 一种数据处理方法和平台 - Google Patents
一种数据处理方法和平台 Download PDFInfo
- Publication number
- CN109558417A CN109558417A CN201811448773.0A CN201811448773A CN109558417A CN 109558417 A CN109558417 A CN 109558417A CN 201811448773 A CN201811448773 A CN 201811448773A CN 109558417 A CN109558417 A CN 109558417A
- Authority
- CN
- China
- Prior art keywords
- data
- transaction
- treated
- transaction journal
- real time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法和平台,通过获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列,获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列,获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据,将所述事务流实时数据同步存储于搜索引擎和第三方平台。因此,通过本发明公开的数据处理方法进行处理后,海量的物联网卡数据系统间的同步效率和实时性均得到提升。
Description
技术领域
本发明涉及物联网技术领域,具体为一种数据处理方法和平台。
背景技术
物联网是一个基于互联网、传统电信网等信息承载体,让所有能够被独立寻址的普通物理对象实现互联互通的网络。它具有普通对象设备化、自治终端互联化和服务智能化三个重要特征。
现有的物联网技术框架中,海量的物联网卡数据存储于关系型数据库中。涉及到多个平台或模块数据同步时,很多都通过文件接口同步,且对物联网卡数据的批量检索是通过关系型数据库sql语句完成。
但是,在现有的技术框架中,海量的物联网卡数据系统间的同步,是通过文件接口完成同步,而文件接口存在传输速度限制,以至于其同步过程效率低下,且实时性很低,以及对大量的物联网卡数据检索时,由于关系型数据库通过sql语句完成,存在数据库的局限性,以至于检索效率十分低下。
发明内容
有鉴于此,本发明实施例提供了一种数据处理方法和平台,通过数据处理方法对数据的处理,实现海量的物联网卡数据系统间的同步和提高对大量的物联网卡数据检索效率的目的。
为实现上述目的,本发明实施例提供如下技术方案:
本发明第一方面公开了一种数据处理方法,包括:
获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列;
获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列;
获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据;
将所述事务流实时数据同步存储于搜索引擎和第三方平台。
优选的,还包括:
基于物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,确定对应所述检索请求的检索数据。
优选的,若所述关系型数据库为mysql关系型数据库,所述获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列,包括:
获取所述关系型数据库中的事务日志;
解析所述事务日志,并在所述事务日志中补充特定信息;
封装处理补充特定信息后的事务日志,得到处理后的事务日志;
将所述处理后的事务日志发送至所述消息队列。
优选的,若所述关系型数据库为oracle关系型数据库,所述获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列,包括:
获取所述关系型数据库中的事务日志;
将所述事务日志按照预先设定的消息格式封装处理,得到处理后的事务日志;
将所述处理后的事务日志发送至所述消息队列。
优选的,所述将所述事务流实时数据同步存储于搜索引擎,包括:
将所述事务流实时数据进行片式处理,得到片式处理后的事务流实时数据;
将所述片式处理后的事务流实时数据进行存储。
优选的,所述基于物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,确定对应所述检索请求的检索数据,包括:
接收物联网卡平台发出的检索请求;
将所述检索请求对应的字段进行分词处理,得到分词;
对所述分词进行倒排处理,得到所述分词在所述字段中的位置信息和频率信息;
基于所述分词、所述位置信息和所述频率信息对存储在搜索引擎中的所述事务流实时数据进行定位,确定对应所述检索请求的检索数据。
本发明第一方面公开了一种数据处理平台,包括:
数据初始化引擎,用于获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列;
日志处理引擎,用于获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列;
流处理模块,用于获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据;
数据同步模块,用于将所述事务流实时数据同步存储于搜索引擎和第三方平台。
优选的,还包括:
所述搜索引擎,用于基于物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,确定对应所述检索请求的检索数据。
优选的,所述数据同步模块,包括:
数据处理单元,用于将所述事务流实时数据进行片式处理,得到片式处理后的事务流实时数据;
存储单元,用于将所述片式处理后的事务流实时数据进行存储。
优选的,所述搜索引擎,包括:
接收子单元,用于接收物联网卡平台发出的检索请求;
分词子单元,用于将所述检索请求对应的字段进行分词处理,得到分词;
倒排索引子单元,用于对所述分词进行倒排处理,得到所述分词在所述字段中的位置信息和频率信息,基于所述分词、所述位置信息和所述频率信息对存储在所述搜索引擎中的所述事务流实时数据进行定位,确定对应所述检索请求的检索数据。
由上述公开的一种数据处理方法及系统,通过获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列,获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列,获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据,将所述事务流实时数据同步存储于搜索引擎和第三方平台,再基于物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,确定对应所述检索请求的检索数据。通过本发明公开的数据处理方法进行处理后,海量的物联网卡数据系统间的同步效率和实时性均得到提升,以及实现对大量的物联网卡数据检索。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法流程图;
图2为本发明实施例提供的另一种数据处理方法流程图;
图3为本发明实施例提供的另一种数据处理方法流程图;
图4为本发明实施例提供的另一种数据处理方法流程图;
图5为本发明实施例提供的另一种数据处理方法流程图;
图6为本发明实施例提供的另一种数据处理方法流程图;
图7为本发明实施例提供的一种数据处理平台的结构示意图;
图8为本发明实施例提供的另一种数据处理平台的结构示意图;
图9为本发明实施例提供的另一种数据处理平台的结构示意图;
图10为本发明实施例提供的另一种数据处理平台的结构示意图;
图11为本发明实施例提供的另一种数据处理平台的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供一种数据处理方法,参见图1,上述方法至少包括如下步骤:
步骤S101:获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列。
需要说明的是,关系型数据库是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。关系型数据库的标准查询语言为SQL,可以使用SQL标准语言执行对关系数据库中数据的检索和操作。
在步骤S101中,初始化所述数据是指初始化数据库中的数据,将数据库中表的变量数据恢复至初始值。
对于步骤S101中的消息队列,它是在数据的传输过程中保存数据的容器,在这里可以理解为将初始化数据暂时存放在消息队列中。
步骤S102:获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列。
需要说明的是,事务日志是记录数据库更新情况的文件,可以记录针对数据库的任何操作,对于每一次数据库更新的过程,事务日志文件都有非常全面的记录,数据库根据这些事务日志的记录可以恢复数据库更新前的状态。
对于步骤S102中的消息队列的作用,是用于暂时存放处理后的事务日志。
需要说明的是,上述步骤S101和步骤S102并不限定先后顺序。也可同时执行。
步骤S103:获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据。
需要说明的是,由于事务日志文件记录每一天关系型数据库更新过程,因此,基于事务日志对所述初始化数据进行实时处理后,获得的事务流实时数据与关系型数据库存储的数据一致。
步骤S104:将所述事务流实时数据同步存储于搜索引擎和第三方平台。
在步骤S104中,将所述事务流实时数据同步存储于搜索引擎和第三方平台中的同步,是指同一份事务流实时数据进行复制,得到两份一样的事务流实时数据,然后将两份一样的事务流实时数据分别存储在搜索引擎和第三方平台。
需要说明的是,此处的搜索引擎是指根据一定的策略、运用特定的计算机程序搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统。基于上述步骤,该搜索引擎中存储有事务流实时数据。第三方平台具体可以为其他数据库或者可拓展平台。
在执行步骤S104中的将所述事务流实时数据同步存储于搜索引擎时,如图2所示,具体执行步骤包括:
步骤S201:将所述事务流实时数据进行片式处理,得到片式处理后的事务流实时数据。
需要说明的是,在本发明实施例中搜索引擎支持数据分片存储,允许进行分布式和并行的存储操作。该搜索引擎通过分布式和并行的存储操作能有效提高存储和读取的效率。在本发明实施例中搜索引擎需要对事务流实时数据进行片式处理,以便于在搜索引擎中分片存储。
对于搜索引擎,它可以存储超出单个结点硬件限制的大量数据。比如,一个具有10亿文档的搜索引擎占据1TB的磁盘空间,该搜索引擎采用分片存储的方式存储数据。每个分片本身也是一个功能完善并且独立的搜索引擎。
步骤S202:将所述片式处理后的事务流实时数据进行存储。
需要说明的是,片式处理后的事务流数据可以在搜索引擎中进行分片存储,能有效提高存储效率。
优选的,在执行图1中的步骤S102时,若所述关系型数据库为mysql关系型数据库,如图3所示,包括以下步骤:
步骤S301:获取所述关系型数据库中的事务日志。
需要说明的是,这里获取事务日志是通过模拟mysql slave交互协议获取的,其过程如下:
Connection向log Position获取上一次解析成功的位置,若第一次启动,则获取初始指定的位置或者是当前数据库的binlog位点,然后Connection与mysql数据库建立链接,向mysql数据库发送BINLOG_DUMP指令,当Mysql数据库收到dump请求,便开始向Connection推送事务日志,Connection会将接收到事务日志发送至事务解析器。
步骤S302:解析所述事务日志,并在所述事务日志中补充特定信息。
需要说明的是,因为获取事务日志是通过模拟mysql slave交互协议获取到的,因此需要对事务日志进行协议解析。
在步骤S302中,由于获取事务日志是通过模拟mysql slave交互协议获取到的,无法直接使用获得的事务日志对初始化的数据进行实时处理,因此需要对解析后的事务日志中补充特定信息,其特定信息包括:补充字段名字、字段类型、主键信息。
步骤S303:封装处理补充特定信息后的事务日志,得到处理后的事务日志。
需要说明的是,事务日志有自己的特定格式,因此需要对补充特定信息后的事务日志按预先设定的消息格式进行封装。
步骤S304:将所述处理后的事务日志发送至所述消息队列。
需要说明的是,将所述处理后的事务日志发送至所述消息队列,直到存储成功为止。
优选的,在执行图1中的步骤S102时,若所述关系型数据库为Oracle关系型数据库,如图4所示,包括以下步骤:
步骤S401:获取所述关系型数据库中的事务日志。
需要说明的是,这里获取所述关系型数据库中的事务日志是通过OracleGoldenGate获取Oracle的事务日志。
Oracle GoldenGate一种基于日志的结构化数据复制备份软件,它通过解析源数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到目标数据库,从而实现源数据库与目标数据库同步。
步骤S402:将所述事务日志按照预先设定的消息格式封装处理,得到处理后的事务日志。
需要说明的是,后期需要基于事务日志对初始化的数据进行是实时处理,以满足需求的事务日志格式,需要按预先设定的消息格式封装处理。
步骤S403:将所述处理后的事务日志发送至所述消息队列。
需要说明的是,将所述处理后的事务日志发送至所述消息队列,直到存储成功为止。
本发明实施例通过获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列,获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列,获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据,将所述事务流实时数据同步存储于搜索引擎和第三方平台。因此,通过本发明公开的数据处理方法进行处理后,海量的物联网卡数据系统间的同步效率得到提升,实时性得到提升。
参考图5,示出了本申请实施例提供的另一种数据处理方法的流程图,
步骤S501:获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列。
步骤S502:获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列。
步骤S503:获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据。
步骤S504:将所述事务流实时数据同步存储于搜索引擎和第三方平台。
需要说明的是,步骤S501至步骤S504的执行原理与上述实施例中步骤S101至步骤S104的执行原理相同,这里就不再进行赘述。
步骤S505:基于物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,确定对应所述检索请求的检索数据。
在执行步骤S505的过程中,用户使用浏览器物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,以及获取对应检测请求的检索数据的过程,具体如图6所示,包括如下步骤:
步骤S601:接收物联网卡平台发出的检索请求。
需要说明的是,物联网卡发出的检索请求是指用户通过浏览器在物联网卡平台发出的检索请求,检索请求中包括要检索的数据字段。
步骤S602:将所述检索请求对应的字段进行分词处理,得到分词。
需要说明的是,由于在本发明实施例中搜索引擎支持数据分片存储,允许进行分布式的和并行的存储操作。该搜索引擎通过分布式的和并行的存储操作能有效提高存储和读取的效率,搜索引擎根据字段在内部搜索数据时,是根据字段中的词所在的位置信息和频率信息,对存储在搜索引擎中对应的片式数据的位置信息和频率信息确定。因此,本步骤中需要将检索请求中携带对应的字段进行分词处理,分词处理是将字段中的词分离,获取字段中的关键词。
步骤S603:对所述分词进行倒排处理,得到所述分词在所述字段中的位置信息和频率信息。
需要说明的是,倒排处理是将获取到的分词按倒序排列,可以得到每个分词出现的次数以及每个分词出现在字段中的位置,便可以得到分词在字段中的位置信息,而通过分词出现在字段中的次数就可以得出分词的频率信息。
步骤S604:基于所述分词、所述位置信息和所述频率信息对存储在搜索引擎中的所述事务流实时数据进行定位,确定对应所述检索请求的检索数据。
需要说明的是,由于搜索引擎在存储数据时,Lucene就将分词、位置信息和频率信息分别作为词典文件、频率文件、位置文件保存。其中词典文件不仅保存有每个关键词,还保留了指向频率文件和位置文件的指针,通过指针可以在存储于搜索引擎中的数据找到该关键字的频率信息和位置信息。因此,在基于得到的分词、位置信息和频率信息就可以定位搜索引擎中的所述事务流实时数据,从而确定对应所述检索请求的检索数据。
本申请实施例通过获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列,获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列,获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据,将所述事务流实时数据同步存储于搜索引擎和第三方平台,再基于物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,确定对应所述检索请求的检索数据。通过本发明公开的数据处理方法进行处理后,海量的物联网卡数据系统间的同步效率得到了提升,实时性也得到了提升,以及在对大量的物联网卡数据检索时提升检索效率。
与上述本申请实施例提供的数据处理方法相对应,本申请实施例还提供了相应的数据处理平台,如图7所示,为本申请实施例公开的一种数据处理平台,该数据处理平台包括:
数据初始化引擎701,用于获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列。
日志处理引擎702,用于获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列。
流处理模块703,用于获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据。
数据同步模块704,用于将所述事务流实时数据同步存储于搜索引擎和第三方平台。
可选的,还包括:
所述搜索引擎,用于基于物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,确定对应所述检索请求的检索数据。
可选的,所述数据同步模块704,如图8所示,包括:
数据处理单元801,用于将所述事务流实时数据进行片式处理,得到片式处理后的事务流实时数据。
存储单元802,用于将所述片式处理后的事务流实时数据进行存储。
可选的,所述搜索引擎,如图9所示,包括:
接收子单元901,用于接收物联网卡平台发出的检索请求。
分词子单元902,用于将所述检索请求对应的字段进行分词处理,得到分词。
倒排索引子单元903,用于对所述分词进行倒排处理,得到所述分词在所述字段中的位置信息和频率信息,基于所述分词、所述位置信息和所述频率信息对存储在所述搜索引擎中的所述事务流实时数据进行定位,确定对应所述检索请求的检索数据。
可选的,若所述关系型数据库为mysql关系型数据库,所述日志处理引擎702,如图10所示,包括:
日志获取单元1001,用于获取关系型数据库中的事务日志。
解析单元1002,用于解析所述事务日志,为所述事务日志补充特定信息。
日志处理单元1003,用于封装处理所述事务日志,得到处理后的事务日志。
数据发送单元1004,用于将所述处理后的事务日志发送至所述消息队列。
可选的,若所述关系型数据库为oracle关系型数据库,所述日志处理引擎702,如图11所示,包括:
日志获取单元1101,用于获取关系型数据库中的事务日志。
日志处理单元1102,用于将所述事务日志按照预先设定的消息格式封装处理,得到处理后的事务日志。
数据发送单元1103,用于将所述处理后的事务日志发送至所述消息队列。
上述本发明实施例公开的数据处理平台的各个单元和模块具体的原理和执行过程,与上述本发明实施例公开的数据处理方法相同,可参见上述本发明实施例公开的数据处理方法的部分,这里不再进行赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列;
获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列;
获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据;
将所述事务流实时数据同步存储于搜索引擎和第三方平台。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,确定对应所述检索请求的检索数据。
3.根据权利要求1所述的方法,其特征在于,若所述关系型数据库为mysql关系型数据库,所述获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列,包括:
获取所述关系型数据库中的事务日志;
解析所述事务日志,并在所述事务日志中补充特定信息;
封装处理补充特定信息后的事务日志,得到处理后的事务日志;
将所述处理后的事务日志发送至所述消息队列。
4.根据权利要求1所述的方法,其特征在于,若所述关系型数据库为oracle关系型数据库,所述获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列,包括:
获取所述关系型数据库中的事务日志;
将所述事务日志按照预先设定的消息格式封装处理,得到处理后的事务日志;
将所述处理后的事务日志发送至所述消息队列。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述将所述事务流实时数据同步存储于搜索引擎,包括:
将所述事务流实时数据进行片式处理,得到片式处理后的事务流实时数据;
将所述片式处理后的事务流实时数据进行存储。
6.根据权利要求2所述的方法,其特征在于,所述基于物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,确定对应所述检索请求的检索数据,包括:
接收物联网卡平台发出的检索请求;
将所述检索请求对应的字段进行分词处理,得到分词;
对所述分词进行倒排处理,得到所述分词在所述字段中的位置信息和频率信息;
基于所述分词、所述位置信息和所述频率信息对存储在搜索引擎中的所述事务流实时数据进行定位,确定对应所述检索请求的检索数据。
7.一种数据处理平台,其特征在于,包括:
数据初始化引擎,用于获取关系型数据库中的数据,初始化所述数据得到初始化数据,并将所述初始化数据发送至消息队列;
日志处理引擎,用于获取所述关系型数据库中的事务日志,处理并得到处理后的事务日志,将所述处理后的事务日志发送至所述消息队列;
流处理模块,用于获取所述消息队列中的所述处理后的事务日志和所述初始化数据,基于所述处理后的事务日志对所述初始化数据进行实时处理,获得事务流实时数据;
数据同步模块,用于将所述事务流实时数据同步存储于搜索引擎和第三方平台。
8.根据权利要求7所述的平台,其特征在于,还包括:
所述搜索引擎,用于基于物联网卡平台发出的检索请求,对存储在搜索引擎中的所述事务流实时数据进行检索,确定对应所述检索请求的检索数据。
9.根据权利要求7-8中任一项所述的平台,其特征在于,所述数据同步模块,包括:
数据处理单元,用于将所述事务流实时数据进行片式处理,得到片式处理后的事务流实时数据;
存储单元,用于将所述片式处理后的事务流实时数据进行存储。
10.根据权利要求8所述的平台,其特征在于,所述搜索引擎,包括:
接收子单元,用于接收物联网卡平台发出的检索请求;
分词子单元,用于将所述检索请求对应的字段进行分词处理,得到分词;
倒排索引子单元,用于对所述分词进行倒排处理,得到所述分词在所述字段中的位置信息和频率信息,基于所述分词、所述位置信息和所述频率信息对存储在所述搜索引擎中的所述事务流实时数据进行定位,确定对应所述检索请求的检索数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811448773.0A CN109558417B (zh) | 2018-11-28 | 2018-11-28 | 一种数据处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811448773.0A CN109558417B (zh) | 2018-11-28 | 2018-11-28 | 一种数据处理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109558417A true CN109558417A (zh) | 2019-04-02 |
CN109558417B CN109558417B (zh) | 2023-08-08 |
Family
ID=65868057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811448773.0A Active CN109558417B (zh) | 2018-11-28 | 2018-11-28 | 一种数据处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558417B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111367692A (zh) * | 2020-03-09 | 2020-07-03 | 政采云有限公司 | 一种搜索引擎数据处理方法、装置、电子设备及介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373474A (zh) * | 2008-09-02 | 2009-02-25 | 北京开拓天际信息技术有限公司 | 海量数据实时处理架构及用于该架构的实时随需处理平台 |
CN101770484A (zh) * | 2008-12-31 | 2010-07-07 | 北大方正集团有限公司 | 一种网站更新实时发布的方法及系统 |
WO2011026313A1 (zh) * | 2009-09-02 | 2011-03-10 | 中国银联股份有限公司 | 一种用于异构数据库之间数据复制的系统及方法 |
CN102654879A (zh) * | 2011-03-04 | 2012-09-05 | 中兴通讯股份有限公司 | 搜索方法及装置 |
CN104506496A (zh) * | 2014-12-10 | 2015-04-08 | 山大地纬软件股份有限公司 | 基于Oracle Streams技术的准实时数据增量分发中间件及方法 |
CN104809202A (zh) * | 2015-04-24 | 2015-07-29 | 联动优势科技有限公司 | 一种数据库同步的方法和装置 |
CN105095364A (zh) * | 2015-06-26 | 2015-11-25 | 车智互联(北京)科技有限公司 | 一种数据同步系统和方法 |
CN106708996A (zh) * | 2016-12-19 | 2017-05-24 | 北京天广汇通科技有限公司 | 用于对关系数据库进行全文搜索的方法及系统 |
CN106850759A (zh) * | 2016-12-31 | 2017-06-13 | 广州勤加缘科技实业有限公司 | MySQL数据库集群处理方法及其处理系统 |
CN107038162A (zh) * | 2016-02-03 | 2017-08-11 | 滴滴(中国)科技有限公司 | 基于数据库日志的实时数据查询方法和系统 |
CN107133273A (zh) * | 2017-04-07 | 2017-09-05 | 青岛海信网络科技股份有限公司 | 一种基于大数据的交通线网数据处理方法和服务器集群 |
CN107180116A (zh) * | 2017-06-28 | 2017-09-19 | 努比亚技术有限公司 | 一种数据同步处理方法、移动终端以及计算机可读存储介质 |
CN107402963A (zh) * | 2017-06-20 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 搜索数据的构建方法、增量数据的推送方法及装置和设备 |
CN107943979A (zh) * | 2017-11-29 | 2018-04-20 | 山东鲁能软件技术有限公司 | 一种数据库之间数据的准实时同步方法及装置 |
-
2018
- 2018-11-28 CN CN201811448773.0A patent/CN109558417B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373474A (zh) * | 2008-09-02 | 2009-02-25 | 北京开拓天际信息技术有限公司 | 海量数据实时处理架构及用于该架构的实时随需处理平台 |
CN101770484A (zh) * | 2008-12-31 | 2010-07-07 | 北大方正集团有限公司 | 一种网站更新实时发布的方法及系统 |
WO2011026313A1 (zh) * | 2009-09-02 | 2011-03-10 | 中国银联股份有限公司 | 一种用于异构数据库之间数据复制的系统及方法 |
CN102654879A (zh) * | 2011-03-04 | 2012-09-05 | 中兴通讯股份有限公司 | 搜索方法及装置 |
CN104506496A (zh) * | 2014-12-10 | 2015-04-08 | 山大地纬软件股份有限公司 | 基于Oracle Streams技术的准实时数据增量分发中间件及方法 |
CN104809202A (zh) * | 2015-04-24 | 2015-07-29 | 联动优势科技有限公司 | 一种数据库同步的方法和装置 |
CN105095364A (zh) * | 2015-06-26 | 2015-11-25 | 车智互联(北京)科技有限公司 | 一种数据同步系统和方法 |
CN107038162A (zh) * | 2016-02-03 | 2017-08-11 | 滴滴(中国)科技有限公司 | 基于数据库日志的实时数据查询方法和系统 |
CN106708996A (zh) * | 2016-12-19 | 2017-05-24 | 北京天广汇通科技有限公司 | 用于对关系数据库进行全文搜索的方法及系统 |
CN106850759A (zh) * | 2016-12-31 | 2017-06-13 | 广州勤加缘科技实业有限公司 | MySQL数据库集群处理方法及其处理系统 |
CN107133273A (zh) * | 2017-04-07 | 2017-09-05 | 青岛海信网络科技股份有限公司 | 一种基于大数据的交通线网数据处理方法和服务器集群 |
CN107402963A (zh) * | 2017-06-20 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 搜索数据的构建方法、增量数据的推送方法及装置和设备 |
CN107180116A (zh) * | 2017-06-28 | 2017-09-19 | 努比亚技术有限公司 | 一种数据同步处理方法、移动终端以及计算机可读存储介质 |
CN107943979A (zh) * | 2017-11-29 | 2018-04-20 | 山东鲁能软件技术有限公司 | 一种数据库之间数据的准实时同步方法及装置 |
Non-Patent Citations (3)
Title |
---|
ATSUSHI SHIMADA 等: "Real-Time Learning Analytics of e-Book Operation Logs for On-site Lecture Support", 《2017 IEEE 17TH INTERNATIONAL CONFERENCE ON ADVANCED LEARNING TECHNOLOGIES (ICALT)》, pages 274 - 275 * |
薛雁丹 等: "Oracle数据库任意距离零数据丢失保护的解决方案", 《电子世界》, pages 88 - 90 * |
高静 等: "电力GIS的缓冲数据同步及相关问题研究", 《水电能源科学》, pages 218 - 220 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111367692A (zh) * | 2020-03-09 | 2020-07-03 | 政采云有限公司 | 一种搜索引擎数据处理方法、装置、电子设备及介质 |
CN111367692B (zh) * | 2020-03-09 | 2023-08-22 | 政采云有限公司 | 一种搜索引擎数据处理方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109558417B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095319B (zh) | 基于时间序列化的文档的标识、关联、搜索及展现的系统 | |
CN104854583B (zh) | 搜索结果排名和呈现 | |
CN106469158B (zh) | 数据同步方法和装置 | |
CN103649946B (zh) | 一种使文件系统变化同步的方法及其系统 | |
CN105630847B (zh) | 数据存储方法、数据查询方法、装置及系统 | |
CN107402963A (zh) | 搜索数据的构建方法、增量数据的推送方法及装置和设备 | |
CN110321387A (zh) | 数据同步方法、设备及终端设备 | |
CN109710703A (zh) | 一种血缘关系网络的生成方法及装置 | |
CN105373541B (zh) | 数据库的数据操作请求的处理方法和系统 | |
CN102047252B (zh) | 对分层数据分页 | |
CN105787058B (zh) | 一种用户标签系统及基于用户标签系统的数据推送系统 | |
CN105808653B (zh) | 一种基于用户标签系统的数据处理方法及装置 | |
CN107766575A (zh) | 读写分离的数据库访问方法及装置 | |
CN103970833A (zh) | 一种基于日志的异构数据库同步系统中双向同步数据循环的解决方法 | |
CN103827852B (zh) | 在搜索引擎结果页面上聚集web页面 | |
CN106469097B (zh) | 一种基于人工智能的召回纠错候选的方法和装置 | |
CN109656999A (zh) | 大数据量的数据同步方法、设备、存储介质及装置 | |
CN109684290A (zh) | 日志存储方法、装置、设备及计算机可读存储介质 | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN102567423B (zh) | 一种诗词关联搜索方法和系统 | |
CN107506383A (zh) | 一种审计数据处理方法和计算机设备 | |
CN106709851A (zh) | 大数据检索方法及装置 | |
CN109558417A (zh) | 一种数据处理方法和平台 | |
CN107704620A (zh) | 一种档案管理的方法、装置、设备和存储介质 | |
US11106739B2 (en) | Document structures for searching within and across messages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |