CN113934768A - 目标标识数据查询方法、装置、设备及存储介质 - Google Patents

目标标识数据查询方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113934768A
CN113934768A CN202111266500.6A CN202111266500A CN113934768A CN 113934768 A CN113934768 A CN 113934768A CN 202111266500 A CN202111266500 A CN 202111266500A CN 113934768 A CN113934768 A CN 113934768A
Authority
CN
China
Prior art keywords
data
target identification
message queue
target
repository
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111266500.6A
Other languages
English (en)
Inventor
闫振雪
毛勇岗
张俊杰
程强
冯宇波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202111266500.6A priority Critical patent/CN113934768A/zh
Publication of CN113934768A publication Critical patent/CN113934768A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种目标标识数据查询方法、装置、设备及存储介质。其中,该方法包括:将获取的原始数据存储至预设的数据计算存储库和消息队列中;根据预设的目标标识任务,基于数据引擎,从所述数据计算存储库中得到目标标识数据;将所述目标标识数据写入所述消息队列中,得到所述消息队列中的待检索数据;将所述待检索数据存储至预设的数据检索存储库中,以通过所述数据检索存储库查询所述目标标识数据。本申请实施例实现了对目标标识数据的自动化获取,提高了目标标识数据的查询效率。

Description

目标标识数据查询方法、装置、设备及存储介质
技术领域
本申请实施例涉及大数据处理技术领域,尤其涉及一种目标标识数据查询方法、装置、设备及存储介质。
背景技术
随着互联网技术的不断发展,基于海量数据的应用需求日益增多,针对不同的业务需求或用户个人需求,对海量数据进行实时的精准检索的需求愈加强烈。
在现有技术中,基于海量大数据进行实时检索时,通常采用联表查询的方式,查询的原数据量较大,且基于数据库基本运算的计算能力较薄弱,计算过程较为复杂,可能会导致数据查询失败或者超时。并且,每一次进行检索时都需要重新获取原始数据并进行联表计算,自动化程度较低,计算量大。在数据量较大时,需要人工进行筛选,耗费时间和人力,自动化程度较低。
发明内容
本申请提供一种目标标识数据查询方法、装置、设备及存储介质,以提高目标标识数据的查询效率。
第一方面,本申请实施例提供了一种目标标识数据查询方法,该方法包括:
将获取的原始数据存储至预设的数据计算存储库和消息队列中;
根据预设的目标标识任务,基于数据引擎,从所述数据计算存储库中得到目标标识数据;
将所述目标标识数据写入所述消息队列中,得到所述消息队列中的待检索数据;
将所述待检索数据存储至预设的数据检索存储库中,以通过所述数据检索存储库查询所述目标标识数据。
第二方面,本申请实施例还提供了一种目标标识数据查询装置,该装置包括:
原始数据存储模块,用于将获取的原始数据存储至预设的数据计算存储库和消息队列中;
目标标识数据获取模块,用于根据预设的目标标识任务,基于数据引擎,从所述数据计算存储库中得到目标标识数据;
待检索数据获取模块,用于将所述目标标识数据写入所述消息队列中,得到所述消息队列中的待检索数据;
目标标识数据查询模块,用于将所述待检索数据存储至预设的数据检索存储库中,以通过所述数据检索存储库查询所述目标标识数据。
第三方面,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如本发明实施例中任一所述的目标标识数据查询方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如本发明实施例中任一所述的目标标识数据查询方法。
本申请实施例方案通过根据预设的目标标识任务,基于数据引擎,从数据计算存储库中得到目标标识数据,实现了数据的自动标识,减小了人力资源的投入,基于数据引擎确定目标标识数据,提高了目标标识数据的确定效率;将目标标识数据写入消息队列中,得到消息队列中的待检索数据,将待检索数据存储至预设的数据检索存储库中,便于用户能够根据实际需求或业务需求,通过预设的标识从数据检索存储库查询到与需求相对应的目标标识数据,避免从大量数据中查找目标数据造成遗漏,提高了数据查询的效率和精度。
附图说明
图1是本申请实施例一中的一种目标标识数据查询方法的流程示意图;
图2是本申请实施例二中的一种目标标识数据查询方法的流程示意图;
图3是本申请实施例三中的一种目标标识数据查询方法的实现示意图;
图4是本申请实施例四中的一种目标标识数据查询装置的结构框图;
图5是本申请实施例五中的一种目标标识数据查询设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种目标标识数据查询方法的流程示意图,本实施例可适用于对添加标识后的目标标识数据进行查询的情况,该方法可以由目标标识数据查询装置来执行,该装置可采用软件和/或硬件的方式实现。如图1所示,该方法具体包括如下步骤:
S110、将获取的原始数据存储至预设的数据计算存储库和消息队列中。
其中,原始数据可以是根据实际需求通过互联网资源获取的文本数据,例如,原始数据可以通过网络爬虫技术获取。数据计算存储库和消息队列可以由相关技术人员进行提前预设。
数据计算存储库可以是离线数据库或在线数据库等。可选的,可以采用离线数据库作为数据计算存储库,例如,离线数据库可以是Hive,Hive是一种数据仓库工具。消息队列可以采用Rabbit MQ(Rabbit Message Queue,Rabbit消息队列)、Active MQ(ActiveMessage Queue,Active消息队列)或Kafka(分布式发布订阅消息系统)等。由于原始数据的数据量较大,本实施例的消息队列可以优先选用具有高吞吐量、低延迟和高持久性等特点的Kafka。具体可以根据实际需求选择相应的数据计算存储库和消息队列,本实施例对此不进行限制。
可以根据数据提取程序对原始数据进行提取,并将提取得到的数据存储至数据计算存储库,同时写入消息队列中。其中,数据提取程序可以是由相关技术人员预先编写的程序。还可以通过ETL(Extract-Transform-Load,萃取-转置-加载)工具对原始数据进行提取并清洗,例如,ETL工具可以是Oracle仓库生成器(Oracle Warehouse Builder,OWB),还可以是SQLServer2000的数据转换服务(Data Transformation Services,DTS)。
S120、根据预设的目标标识任务,基于数据引擎,从数据计算存储库中得到目标标识数据。
其中,目标标识任务可以是为生成目标标识数据所预先设定的任务,目标标识任务中可以指定需要添加标识的数据和需要添加的标识等,需要添加标识的数据为待标识数据,需要添加的标识为待添加标识。通过数据引擎,基于目标标识任务,为原始数据中的待标识数据进行标识,得到目标标识数据。也可以由相关技术人员,根据实际需求预先构建与目标标识任务相关联的数据标识规则,数据标识规则可以存储在预先构建的数据标识管理数据库中,并且可以根据实际需求对数据标识规则进行新建、删除或编辑,可以将需要添加标识的数据的位置信息、需要添加标识的数据内容和需要添加的标识存储在数据标识规则中。目标标识数据可以是根据实际需求生成的带有标识的数据。
数据引擎可以是用于处理大规模数据的计算引擎,可以由相关技术人员根据实际需求选择相应的数据引擎。例如,可以优先选用Apache Spark(以下简称Spark)计算引擎,本实施例所涉及的数据量较大,而Spark在处理大规模数据时,其运行速度较快,使用方式简单轻便,Spark内含多种框架,能够完成各类运算,从而能够减小其他引擎的引入。
生成的目标标识任务可以预先放入任务调度队列中,根据任务调度队列中各目标标识任务的排列顺序,依次执行相应的目标标识任务。若数据引擎的集群规模较大,则可以并行处理多个目标标识任务,从而提高目标标识任务的处理效率。
相关技术人员可以根据实际需求,在数据标识管理数据库中选择相应的数据标识规则,并根据选择的数据标识规则构建目标标识任务;也可以根据实际需求,在数据标识管理数据库中新建数据标识规则,并根据新建的数据标识规则构建目标标识任务;还可以在数据标识管理数据库中选择相应的数据标识规则,并根据实际需求对选择的数据标识规则进行编辑并修改,根据修改后的数据标识规则构建目标标识任务。
数据标识规则中可以包括候选原始数据表的位置信息、待标识数据内容和待添加标签等。原始数据可以以原始数据表的形式进行存储或写入,候选原始数据表为待标识数据所在的原始数据表,即,可以从候选原始数据表中获取到待标识数据。示例性的,数据引擎可以根据数据标识规则中候选原始数据表的位置信息,确定候选原始数据表所在的数据计算存储库中的存储位置,并根据候选原始数据表的存储位置获取候选原始数据表。例如,位置信息可以表明候选原始数据表位于C盘的一个文件夹中。数据引擎根据待标识数据内容,以及候选原始数据表,确定候选原始数据表中的待标识数据,并为待标识数据添加标签,得到目标标识数据。
S130、将目标标识数据写入消息队列中,得到消息队列中的待检索数据。
其中,待检索数据可以是供用户进行检索的数据。示例性的,将目标标识数据写入消息队列中,得到消息队列中的待检索数据,待检索数据可以包括不带标识的原始数据和带有标识的目标标识数据。
需要说明的是,为减小内存的占用,提高数据传输的效率,可以采用目标标识数据替换原始数据中的部分数据,减小数据的存储量,从而减小内容的占用。
在一个可选实施例中,将目标标识数据写入消息队列中,得到消息队列中的待检索数据,包括:根据目标标识数据,确定消息队列的原始数据中与目标标识数据对应的目标原始数据;采用目标标识数据替换目标原始数据,将消息队列中的目标标识数据和其他原始数据数据确定为待检索数据;其中,其他原始数据为目标原始数据之外的原始数据。
其中,目标原始数据可以是原始数据中,与目标标识数据相对应的不带有标识的原始数据。例如,目标标识数据是A市人口进出数据,标识是A市简称。则目标原始数据是消息队列中的A市人口进出数据,将带有A市简称的A市人口进出数据替换消息队列中的A市人口进出数据。采用目标标识数据替换目标原始数据,并将消息队列中的目标标识数据,以及目标原始数据之外的原始数据确定为待检索数据。即,将消息队列中当前存在的所有数据作为待检索数据。本可选实施例通过采用目标标识数据替换目标原始数据,并将消息队列中的目标标识数据和其他原始数据数据确定为待检索数据,减小了待检索数据的数据量,从而减小了内存的占用,进而提高了数据传输效率。
S140、将待检索数据存储至预设的数据检索存储库中,以通过数据检索存储库查询目标标识数据。
其中,数据检索存储库用于存储待检索数据,并供用户进行查询。数据检索存储库可以由相关技术人员进行提前预设,例如,数据检索库可以是Elastic Search(ES)数据库。
示例性的,可以通过数据入库程序,将消息队列中的待检索数据写入数据检索存储库中。其中,数据入库程序可以由相关技术人员进行提前编写,或者选择现有的计算框架,实现将消息队列中的数据写入数据检索存储库。例如,可以选择流式计算框架SparkStreaming。用户可以根据实际需求,通过数据检索存储库,查询目标标识数据。
在一个可选实施方式中,在原始数据写入消息队列之后,目标标识数据写入消息队列之前,数据入库程序可以先将消息队列中的原始数据写入数据检索库中,当数据引擎将目标标识数据写入消息队列之后,数据入库程序再将目标标识数据写入数据检索存储库中。
在另一个可选实施例中,当原始数据和目标标识数据均已写入消息队列之后,数据入库程序将原始数据和目标标识数据同时写入数据检索存储库中。
本申请实施例方案通过根据预设的目标标识任务,基于数据引擎,从数据计算存储库中得到目标标识数据,实现了数据的自动标识,减小了人力资源的投入,基于数据引擎确定目标标识数据,提高了目标标识数据的确定效率;将目标标识数据写入消息队列中,得到消息队列中的待检索数据,将待检索数据存储至预设的数据检索存储库中,便于用户能够根据实际需求或业务需求,通过预设的标识从数据检索存储库查询到与需求相对应的目标标识数据,避免从大量数据中查找目标数据造成遗漏,提高了数据查询的效率和精度。
实施例二
图2为本发明实施例二提供的一种目标标识数据查询方法的流程示意图,本实施例在上述各技术方案的基础上,进行了优化改进。
进一步的,将“根据预设的目标标识任务,基于数据引擎,从数据计算存储库中得到目标标识数据”,细化为“根据预设的目标标识任务中的待标识数据内容,基于数据引擎,从数据计算存储库的原始数据中查找待标识数据;根据待添加标识,对待标识数据进行标识添加,得到目标标识数据。”以完善对目标标识数据的确定方式。
如图2所示,该方法包括以下具体步骤:
S210、将获取的原始数据存储至预设的数据计算存储库和消息队列中。
在一个可选实施例中,在将获取的原始数据存储至预设的数据计算存储库和消息队列中之后,还包括:获取预设的目标标识任务,对目标标识任务的标识过程进行实时监控,得到目标标识任务监控日志。
任务监控日志可以包括任务监控状态和任务监控结果等。任务监控状态可以是当前的目标标识任务执行所在阶段,例如可以包括数据读取阶段、任务运行阶段和任务结束阶段等中的至少一种。其中,任务运行阶段可以是数据引擎根据待标识数据内容得到待标识数据,并进行标识添加生成目标标识数据的阶段。任务监控结果可以包括任务成功和任务失败。例如,若生成的目标标识数据未添加标识,则可以认为任务失败;若生成的目标标识数据添加了标识,则根据待标识数据内容与生成的目标标识数据进行比对;若待标识数据内容与目标标识数据的内容不一致,则可以认为任务失败。若任务监控结果为任务失败,则任务监控日志还可以包括任务失败原因,用户可以根据任务失败原因,重新构建目标标识任务。
本可选实施例通过获取预设的目标标识任务,对目标标识任务的标识过程进行实时监控,得到目标标识任务监控日志,实现了对目标标识任务的实时监控,从而能够根据生成的监控日志,获取目标标识任务的任务状态和任务结果,进而能够根据任务结果,更好的解决目标标识任务在执行过程中可能遇到的问题。
S220、根据预设的目标标识任务中的待标识数据内容,基于数据引擎,从数据计算存储库的原始数据中查找待标识数据。
目标标识任务可以包括待标识数据内容和待添加标识。其中,待添加标识可以是文本标识、数字标识或字符标识等。数据引擎可以根据目标标识任务中的待标识数据内容,从数据计算存储库的原始数据中,查找与待标识数据内容相关的候选原始数据表;数据引擎根据待标识数据内容和候选原始数据表,得到待标识数据。
示例性的,待标识数据内容可以是“10月份乘高铁前往A市的B市籍贯人员”,则通过数据引擎,根据待标识数据内容确定的与待标识数据内容相应的候选原始数据表可以包括“10月份前往A市的人员”数据表、“10月份乘高铁的人员”数据表和“10月份出行的B市籍贯人员”数据表。数据引擎根据待标识数据内容,通过计算候选原始数据表的交集可以得到待标识数据,即,10月份乘高铁前往A市的B市籍贯人员的数据。
可选的,目标标识任务还可以包括候选原始数据表的位置信息。数据引擎可以根据目标标识任务中的候选原始数据表的位置信息,从数据计算存储库的原始数据中获取候选原始数据表;数据引擎可以根据待标识内容,确定候选原始数据表中的待标识数据。
示例性的,候选原始数据表的位置信息可以是候选原始数据表在数据计算存储库的存储路径信息。延续前例,数据引擎可以根据候选原始数据表的存储路径信息,从数据计算库中获取到候选原始数据表,包括“10月份前往A市的人员”数据表、“10月份乘高铁的人员”数据表和“10月份出行的B市籍贯人员”数据表;数据引擎根据获取到的候选原始数据表和规定的待标识数据内容“10月份乘高铁前往A市的B市籍贯人员”,可以确定出待标识数据。
S230、根据待添加标识,对待标识数据进行标识添加,得到目标标识数据。
示例性的,待添加标识可以是文本标识,若待添加标识数据内容为“10月份前往A市的B市籍贯人员”,则待添加标识可以是文本标识“10月份前往A市的B市籍贯人员”,还可以是文本标识“10月A市-B市人员”,具体可以由相关技术人员根据实际需求进行设定,且可以为待标识数据设置至少一个待添加的文本标识,并将添加标识后的数据作为目标标识数据。
可选的,待添加标签还可以是字符串组成的编号,例如,待添加标识数据内容为“10月份前往A市的B市籍贯人员”,则对应的待添加标识可以是A1;若待添加标识数据内容为“10月份前往C市的B市籍贯人员”,则对应的待添加标识可以是B1;若待添加标识数据内容为“2021年前往A市的C市籍贯人员”,则对应的待添加标识可以是C1。
可选的,待添加标签可以既包含文本标识,又包含字符串组成的编号。例如,待添加标识数据内容为“10月份前往A市的B市籍贯人员”,则对应的待添加标识可以包括文本标识“10月份前往A市的B市籍贯人员”和字符串组成的编号A1;若待添加标识数据内容为“10月份前往C市的B市籍贯人员”,则对应的待添加标识可以包括文本标识“10月份前往C市的B市籍贯人员”和字符串组成的编号B1;若待添加标识数据内容为“2021年前往A市的C市籍贯人员”,则对应的待添加标识可以包括文本标识“2021年前往A市的C市籍贯人员”和字符串组成的编号C1。
S240、将目标标识数据写入消息队列中,得到消息队列中的待检索数据。
S250、将待检索数据存储至预设的数据检索存储库中,以通过数据检索存储库查询目标标识数据。
在一个可选实施例中,在将待检索数据存储至预设的数据检索存储库中之后,包括:根据待添加标识,对数据检索存储库中的待检索数据进行查询,得到目标标识数据。
用户可以通过数据检索存储库,对待检索数据进行查询,其中,待检索数据可以包括带标识数据和不带标识数据。用户可以根据实际需求,通过输入数据属性信息实现对数据检索存储库中的所有数据的查询,其中,数据属性信息可以是待检索数据的关键词信息和/或待检索数据所属领域信息。例如,待检索数据为“2021年A市的人口数量”则待检索数据的关键词信息可以是“2021”、“人口数量”和“A市”等,待检索数据所属领域信息可以是人口普查相关的大数据领域。
示例性的,用户还可以通过输入文本标识和/或编号,在数据检索存储库中查询带标识的待检索数据。例如,用户输入文本标识“2021年前往A市的B市籍贯人员”,则可以查询得到2021年前往A市的B市籍贯人员的数据,或者,用户输入与文本标识“2021年前往A市的B市籍贯人员”相对应的编号C1,则也可以查询得到2021年前往A市的B市籍贯人员的数据。
可选的,若用户未能够根据文本标识查询得到相应的目标标识数据,则可以发起目标标识任务创建提醒,以供相关工作人员根据创建提醒,生成相应的目标标识任务,便于后续根据标识进行数据检索。
本可选实施例通过根据待添加标识,对数据检索存储库中的待检索数据进行查询,实现了用户根据自身实际需求或业务需求对目标标识数据的查询,提高了目标标识数据查询的便利性。在为原始数据添加标识后,后续都可以根据标识进行查找,不需要每次查找时都进行联表查询,减少每次查询的计算量。用户还可以根据数据属性信息实现对不带标识数据的查询,实现了待检索数据查询的多样性。
本实施例方案通过根据预设的目标标识任务中的待标识数据内容,基于数据引擎,确定待标识数据;根据待添加标识,对待标识数据进行标识添加,得到目标标识数据,实现了数据的自动标识,提高了目标标识数据确定的准确度,进而提高了后续用户根据数据检索存储库对目标标识数据进行查询的准确性。基于数据引擎确定目标标识数据,提高了目标标识数据的确定效率;将目标标识数据写入消息队列中,得到消息队列中的待检索数据,将待检索数据存储至预设的数据检索存储库中,便于用户能够根据实际需求或业务需求,通过预设的标识从数据检索存储库查询到与需求相对应的目标标识数据,避免从大量数据中查找目标数据造成遗漏,减少每次查询时的计算量,提高了数据查询的效率和精度。
实施例三
图3是本申请实施例三提供的一种目标标识数据查询方法的实现示意图,本申请实施例在上述各实施例的技术方案的基础上,提供了一种优选实施方式。
通过ETL工具提取原始数据,并对提取后的原始数据进行数据清洗;将进行数据清洗后的原始数据分别写入数据计算存储库Hive中和消息队列Kafka中。根据数据引擎Spark从目标标识任务管理模块中调度目标标识任务,并启动任务监控,对目标标识任务进行实时监控。其中,可以通过目标标识任务管理模块创建任务,并将创建的任务放入调度队列中,以供数据引擎Spark对调度队列中的目标标识任务进行调度;还可以通过目标标识任务管理模块对任务进行实时监控,从而使得相关技术人员能够根据监控日志获取任务的动态和结果。
数据引擎Spark根据与目标标识任务相关联的数据标识规则中的数据位置信息,从数据计算存储库Hive的原始数据中获取与目标标识任务相关联的候选原始数据表,数据引擎Spark根据目标标识规则中的待标识数据内容和候选原始数据表,确定待标识数据;数据引擎Spark根据目标标识规则中的待添加标签,为待标识数据添加标签,生成目标标识数据。其中,数据标识规则可以通过数据标识管理模块进行新建、编辑或删除。
数据引擎Spark将生成的目标标识数据写入消息队列Kafka中,根据目标标识数据,确定消息队列Kafka的原始数据中与目标标识数据对应的目标原始数据;采用目标标识数据替换目标原始数据,将消息队列Kafka中的目标标识数据和其他原始数据数据确定为待检索数据;其中,其他原始数据为目标原始数据之外的原始数据。
采用Spark Streaming数据计算框架将消息队列Kafka中的待检索数据写入ES数据检索存储库中,以供用户根据ES数据检索存储库查询数据。其中,ES数据检索库可以包括“普通搜”和“高级搜”两种查询方式。普通搜为用户根据数据属性进行数据查询的方式,高级搜为用户根据标识进行数据查询的方式。用户可以根据实际需求或业务需求选择相应的数据查询方式。
实施例四
图4为本申请实施例四提供的一种目标标识数据查询装置的结构示意图。本申请实施例所提供的一种目标标识数据查询装置,该装置可适用于对添加标识后的目标标识数据进行查询的情况,该装置可采用软件和/或硬件的方式实现。如图4所示,该装置具体包括:原始数据存储模块401、目标标识数据获取模块402、待检索数据获取模块403和目标标识数据查询模块404。其中,
原始数据存储模块401,用于将获取的原始数据存储至预设的数据计算存储库和消息队列中;
目标标识数据获取模块402,用于根据预设的目标标识任务,基于数据引擎,从所述数据计算存储库中得到目标标识数据;
待检索数据获取模块403,用于将所述目标标识数据写入所述消息队列中,得到所述消息队列中的待检索数据;
目标标识数据查询模块404,用于将所述待检索数据存储至预设的数据检索存储库中,以通过所述数据检索存储库查询所述目标标识数据。
本申请实施例方案通过根据预设的目标标识任务,基于数据引擎,从数据计算存储库中得到目标标识数据,实现了数据的自动标识,减小了人力资源的投入,基于数据引擎确定目标标识数据,提高了目标标识数据的确定效率;将目标标识数据写入消息队列中,得到消息队列中的待检索数据,将待检索数据存储至预设的数据检索存储库中,便于用户能够根据实际需求或业务需求,通过预设的标识从数据检索存储库查询到与需求相对应的目标标识数据,避免从大量数据中查找目标数据造成遗漏,提高了数据查询的效率和精度。
可选的,所述目标标识任务包括待标识数据内容和待添加标识。
可选的,目标标识数据获取模块402,包括:
待标识数据查找单元,用于根据预设的目标标识任务中的待标识数据内容,基于数据引擎,从所述数据计算存储库的原始数据中查找待标识数据;
目标标识数据获取单元,用于根据所述待添加标识,对所述待标识数据进行标识添加,得到目标标识数据。
可选的,该装置还包括:
监控日志获取模块,用于在将获取的原始数据存储至预设的数据计算存储库和消息队列中之后,获取预设的目标标识任务,对所述目标标识任务的标识过程进行实时监控,得到目标标识任务监控日志。
可选的,待检索数据获取模块403,包括:
目标原始数据确定单元,用于根据所述目标标识数据,确定所述消息队列的原始数据中与所述目标标识数据对应的目标原始数据;
待检索数据确定单元,用于采用所述目标标识数据替换所述目标原始数据,将所述消息队列中的目标标识数据和其他原始数据数据确定为待检索数据;其中,所述其他原始数据为目标原始数据之外的原始数据。
可选的,该装置包括:
目标标识模块确定模块,用于在将所述待检索数据存储至预设的数据检索存储库中之后,根据所述待添加标识,对所述数据检索存储库中的所述待检索数据进行查询,得到目标标识数据。
上述目标标识数据查询装置可执行本申请任意实施例所提供的目标标识数据查询方法,具备执行各目标标识数据查询方法相应的功能模块和有益效果。
实施例五
图5是本发明实施例五提供的一种目标标识数据查询设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性电子设备500的框图。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:一个或者多个处理器或者处理单元501,系统存储器502,连接不同系统组件(包括系统存储器502和处理单元501)的总线503。
总线503表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备500典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备500访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器502可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)504和/或高速缓存存储器505。电子设备500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统506可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线503相连。存储器502可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块507的程序/实用工具508,可以存储在例如存储器502中,这样的程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。
电子设备500也可以与一个或多个外部设备509(例如键盘、指向设备、显示器510等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口511进行。并且,电子设备500还可以通过网络适配器512与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器512通过总线503与电子设备500的其它模块通信。应当明白,尽管图5中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元501通过运行存储在系统存储器502中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种目标标识数据查询的方法。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的目标标识数据查询方法,包括:将获取的原始数据存储至预设的数据计算存储库和消息队列中;根据预设的目标标识任务,基于数据引擎,从所述数据计算存储库中得到目标标识数据;将所述目标标识数据写入所述消息队列中,得到所述消息队列中的待检索数据;将所述待检索数据存储至预设的数据检索存储库中,以通过所述数据检索存储库查询所述目标标识数据。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

1.一种目标标识数据查询方法,其特征在于,包括:
将获取的原始数据存储至预设的数据计算存储库和消息队列中;
根据预设的目标标识任务,基于数据引擎,从所述数据计算存储库中得到目标标识数据;
将所述目标标识数据写入所述消息队列中,得到所述消息队列中的待检索数据;
将所述待检索数据存储至预设的数据检索存储库中,以通过所述数据检索存储库查询所述目标标识数据。
2.根据权利要求1所述的方法,其特征在于,所述目标标识任务包括待标识数据内容和待添加标识。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的目标标识任务,基于数据引擎,从所述数据计算存储库中得到目标标识数据,包括:
根据预设的目标标识任务中的待标识数据内容,基于所述数据引擎,从所述数据计算存储库的所述原始数据中查找待标识数据;
根据所述待添加标识,对所述待标识数据进行标识添加,得到所述目标标识数据。
4.根据权利要求1所述的方法,其特征在于,在将获取的原始数据存储至预设的数据计算存储库和消息队列中之后,还包括:
获取预设的目标标识任务,对所述目标标识任务的标识过程进行实时监控,得到目标标识任务监控日志。
5.根据权利要求1所述的方法,其特征在于,将所述目标标识数据写入所述消息队列中,得到所述消息队列中的待检索数据,包括:
根据所述目标标识数据,确定所述消息队列的所述原始数据中与所述目标标识数据对应的目标原始数据;
采用所述目标标识数据替换所述目标原始数据,将所述消息队列中的所述目标标识数据和其他原始数据数据确定为待检索数据;其中,所述其他原始数据为所述目标原始数据之外的原始数据。
6.根据权利要求2所述的方法,其特征在于,在将所述待检索数据存储至预设的数据检索存储库中之后,包括:
根据所述待添加标识,对所述数据检索存储库中的所述待检索数据进行查询,得到所述目标标识数据。
7.一种目标标识数据查询装置,其特征在于,包括:
原始数据存储模块,用于将获取的原始数据存储至预设的数据计算存储库和消息队列中;
目标标识数据获取模块,用于根据预设的目标标识任务,基于数据引擎,从所述数据计算存储库中得到目标标识数据;
待检索数据获取模块,用于将所述目标标识数据写入所述消息队列中,得到所述消息队列中的待检索数据;
目标标识数据查询模块,用于将所述待检索数据存储至预设的数据检索存储库中,以通过所述数据检索存储库查询所述目标标识数据。
8.根据权利要求7所述的装置,其特征在于,所述目标标识数据获取模块,包括:
待标识数据查找单元,用于根据预设的目标标识任务中的待标识数据内容,基于数据引擎,从所述数据计算存储库的原始数据中查找待标识数据;
目标标识数据获取单元,用于根据所述待添加标识,对所述待标识数据进行标识添加,得到所述目标标识数据。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的目标标识数据查询方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的目标标识数据查询方法。
CN202111266500.6A 2021-10-28 2021-10-28 目标标识数据查询方法、装置、设备及存储介质 Pending CN113934768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111266500.6A CN113934768A (zh) 2021-10-28 2021-10-28 目标标识数据查询方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111266500.6A CN113934768A (zh) 2021-10-28 2021-10-28 目标标识数据查询方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113934768A true CN113934768A (zh) 2022-01-14

Family

ID=79284869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111266500.6A Pending CN113934768A (zh) 2021-10-28 2021-10-28 目标标识数据查询方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113934768A (zh)

Similar Documents

Publication Publication Date Title
CN109684352B (zh) 数据分析系统、方法、存储介质及电子设备
CN107391653B (zh) 一种分布式NewSQL数据库系统及图片数据储存方法
CN111709527A (zh) 运维知识图谱库的建立方法、装置、设备及存储介质
CN109947791B (zh) 一种数据库语句优化方法、装置、设备及存储介质
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN109471851B (zh) 数据处理方法、装置、服务器和存储介质
CN110688544A (zh) 一种查询数据库的方法、设备及存储介质
JP2012113706A (ja) データベース・クエリ最適化のためのコンピュータで実装される方法、コンピュータ・プログラム、およびデータ処理システム
CN110688434B (zh) 一种兴趣点处理方法、装置、设备和介质
CN112463800A (zh) 数据读取方法、装置、服务器及存储介质
CN112084224A (zh) 一种数据管理方法、系统、设备及介质
CN110990445A (zh) 一种数据处理方法、装置、设备和介质
CN110975293A (zh) 建立资源引用关系表的方法、装置、服务器及介质
CN111930731A (zh) 数据转储方法、装置、设备及存储介质
CN113360521A (zh) 日志查询方法、装置、设备及存储介质
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN114168616A (zh) 数据采集方法、装置、电子设备及存储介质
CN112487025A (zh) 数据查询方法、装置、电子设备及存储介质
CN111198917A (zh) 数据处理方法、装置、设备及存储介质
CN113220530B (zh) 数据质量监控方法及平台
CN113934768A (zh) 目标标识数据查询方法、装置、设备及存储介质
CN106802922B (zh) 一种基于对象的溯源存储系统及方法
CN113806556A (zh) 基于电网数据的知识图谱的构建方法、装置、设备及介质
CN113127574A (zh) 基于知识图谱的业务数据展示方法、系统、设备及介质
CN110750569A (zh) 数据提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination