CN113806611A - 一种存储搜索引擎结果的方法及设备 - Google Patents

一种存储搜索引擎结果的方法及设备 Download PDF

Info

Publication number
CN113806611A
CN113806611A CN202010555544.XA CN202010555544A CN113806611A CN 113806611 A CN113806611 A CN 113806611A CN 202010555544 A CN202010555544 A CN 202010555544A CN 113806611 A CN113806611 A CN 113806611A
Authority
CN
China
Prior art keywords
data
pipeline
storage
search
data pipeline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010555544.XA
Other languages
English (en)
Inventor
周行
孙希展
张娅婷
陈维强
孙永良
于涛
王玮
孙镜涛
王中伟
陈屹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Hisense Co Ltd
Original Assignee
Hisense Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Co Ltd filed Critical Hisense Co Ltd
Priority to CN202010555544.XA priority Critical patent/CN113806611A/zh
Publication of CN113806611A publication Critical patent/CN113806611A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种存储搜索引擎结果的方法及设备,该方法包括:响应于管线配置指令,获取配置的至少一个搜索任务分别关联的数据管线,及各数据管线对应的存储位置,其中预先定义对应不同存储类型的数据管线;响应于搜索引擎指令进行数据搜索,对各搜索任务获取到的数据,利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置。本发明提供的存储搜索引擎结果的方法及设备,解决了现有爬虫结果的存储方法存在的爬虫结果存储类型少,及存储的数据需要后期更改存储类型和介质的问题。

Description

一种存储搜索引擎结果的方法及设备
技术领域
本发明涉及互联网数据处理领域,特别涉及一种存储搜索引擎结果的方法及设备。
背景技术
随着互联网技术的飞速发展,网络中的数据呈指数形式增长,数据量变得越来越大,数据形式变得越来越多。在如今的信息时代中,从大量、复杂的网络数据中高效准确地导出并存储有价值的信息显得尤为重要。
目前通常采用网络爬虫方法从海量网络数据中获取需要的数据。网络爬虫是一种自动提取网页的搜索引擎程序,能够按照一定规则,自动地抓取网络中的数据。虽然使用网络爬虫能够快速获取网络数据,但是随之而来的是这些数据的导出和存储工作。目前绝大多数网络爬虫方法中仅支持将爬虫结果即获取的数据存储为Excel表格类型,有少部分网络爬虫方法能够提供两到三种数据导出及存储类型,并不足以满足目前对网络数据存储类型的需求,导致根据目前的爬虫结果存储方法存储的数据,其存储类型可能不是所需要的类型,则需要单独调整数据的存储类型和存储介质等,数据存储效率较低。
因此,目前爬虫结果的存储方法,存在爬虫结果存储类型少,及存储的数据需要后期更改存储类型和介质的问题,爬虫结果存储过程复杂,存储效率低。
发明内容
本发明提供了一种存储搜索引擎结果的方法及设备,用以解决现有爬虫结果的存储方法存在的爬虫结果存储类型少,及存储的数据需要后期更改存储类型和介质的问题。
根据本发明实施例的第一方面,提供一种存储搜索引擎结果的方法,该方法包括:
响应于管线配置指令,获取配置的至少一个搜索任务分别关联的数据管线,及各数据管线对应的存储位置,其中预先定义对应不同存储类型的数据管线;
响应于搜索引擎指令进行数据搜索,对各搜索任务获取到的数据,利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置。
在某些实施例中,所述对应不同存储类型的数据管线包括如下至少一种:
至少一种数据库格式数据分别对应的数据库类型数据管线;
至少一种文件格式数据分别对应的文件类型数据管线;
至少一种传输文件传输协议FTP格式数据分别对应的FTP类型数据管线。
在某些实施例中,响应于搜索引擎指令进行数据搜索之前,还包括:
利用配置的各数据管线,建立该数据管线关联的搜索任务间的数据接口,及建立与该数据管线对应的存储位置的连接。
在某些实施例中,还包括:
响应于搜索任务完成指令,确定将转换后的数据全部存储到与该数据管线对应的存储位置时,断开与该数据管线对应的存储位置的连接。
在某些实施例中,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置,包括:
利用搜索任务对应的数据管线,从存放所述搜索任务获取的数据的临时存储介质读取数据,并转换为与该数据管线对应的存储类型,将转换后的数据存储到与该数据管线对应的永久性存储介质对应的存储位置。
在某些实施例中,利用配置的各数据管线,建立与该数据管线对应的存储位置的连接,包括执行如下至少一个步骤:
利用配置的数据库类型数据管线,采用Java数据库连接JDBC方式,建立与该数据管线对应的数据库的连接;
利用配置的文件类型数据管线,通过数据流的形式,建立与该数据管线对应的磁盘文件的连接;
利用配置的FTP类型数据管线,通过FTP协议建立与该数据管线对应的服务器的连接。
在某些实施例中,所述利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,包括如下至少一个步骤:
利用数据库类型数据管线,将所述获取的数据转换为SQL数据库语言格式;
利用文件类型数据管线,将所述获取的数据转换为工作簿对象或二进制流格式;
利用FTP类型数据管线,将所述获取的数据转换为二进制流格式。
根据本发明实施例的第二方面,提供一种存储搜索引擎结果的设备,包括:
管线配置模块,用于响应于管线配置指令,获取配置的至少一个搜索任务分别关联的数据管线,及各数据管线对应的存储位置,其中预先定义对应不同存储类型的数据管线;
数据存储模块,用于响应于搜索引擎指令进行数据搜索,对各搜索任务获取到的数据,利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置。
在某些实施例中,所述对应不同存储类型的数据管线包括如下至少一种:
至少一种数据库格式数据分别对应的数据库类型数据管线;
至少一种文件格式数据分别对应的文件类型数据管线;
至少一种传输文件传输协议FTP格式数据分别对应的FTP类型数据管线。
在某些实施例中,所述数据存储模块响应于搜索引擎指令进行数据搜索之前,还包括:
利用配置的各数据管线,建立该数据管线关联的搜索任务间的数据接口,及建立与该数据管线对应的存储位置的连接。
在某些实施例中,所述数据存储模块还用于:
响应于搜索任务完成指令,确定将转换后的数据全部存储到与该数据管线对应的存储位置时,断开与该数据管线对应的存储位置的连接。
在某些实施例中,所述数据存储模块将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置,包括:
利用搜索任务对应的数据管线,从存放所述搜索任务获取的数据的临时存储介质读取数据,并转换为与该数据管线对应的存储类型,将转换后的数据存储到与该数据管线对应的永久性存储介质对应的存储位置。
在某些实施例中,所述数据存储模块利用配置的各数据管线,建立与该数据管线对应的存储位置的连接,包括执行如下至少一个步骤:
利用配置的数据库类型数据管线,采用Java数据库连接JDBC方式,建立与该数据管线对应的数据库的连接;
利用配置的文件类型数据管线,通过数据流的形式,建立与该数据管线对应的磁盘文件的连接;
利用配置的FTP类型数据管线,通过FTP协议建立与该数据管线对应的服务器的连接。
在某些实施例中,所述数据存储模块利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,包括如下至少一个步骤:
利用数据库类型数据管线,将所述获取的数据转换为SQL数据库语言格式;
利用文件类型数据管线,将所述获取的数据转换为工作簿对象或二进制流格式;
利用FTP类型数据管线,将所述获取的数据转换为二进制流格式。
根据本发明实施例的第三方面,提供一种存储搜索引擎结果的设备,包括:
响应于管线配置指令,获取配置的至少一个搜索任务分别关联的数据管线,及各数据管线对应的存储位置,其中预先定义对应不同存储类型的数据管线;
响应于搜索引擎指令进行数据搜索,对各搜索任务获取到的数据,利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置。
在某些实施例中,所述对应不同存储类型的数据管线包括如下至少一种:
至少一种数据库格式数据分别对应的数据库类型数据管线;
至少一种文件格式数据分别对应的文件类型数据管线;
至少一种传输文件传输协议FTP格式数据分别对应的FTP类型数据管线。
在某些实施例中,所述处理器响应于搜索引擎指令进行数据搜索之前,还包括:
利用配置的各数据管线,建立该数据管线关联的搜索任务间的数据接口,及建立与该数据管线对应的存储位置的连接。
在某些实施例中,所述处理器还用于:
响应于搜索任务完成指令,确定将转换后的数据全部存储到与该数据管线对应的存储位置时,断开与该数据管线对应的存储位置的连接。
在某些实施例中,所述处理器将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置,包括:
利用搜索任务对应的数据管线,从存放所述搜索任务获取的数据的临时存储介质读取数据,并转换为与该数据管线对应的存储类型,将转换后的数据存储到与该数据管线对应的永久性存储介质对应的存储位置。
在某些实施例中,所述处理器利用配置的各数据管线,建立与该数据管线对应的存储位置的连接,包括执行如下至少一个步骤:
利用配置的数据库类型数据管线,采用Java数据库连接JDBC方式,建立与该数据管线对应的数据库的连接;
利用配置的文件类型数据管线,通过数据流的形式,建立与该数据管线对应的磁盘文件的连接;
利用配置的FTP类型数据管线,通过FTP协议建立与该数据管线对应的服务器的连接。
在某些实施例中,所述处理器利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,包括如下至少一个步骤:
利用数据库类型数据管线,将所述获取的数据转换为SQL数据库语言格式;
利用文件类型数据管线,将所述获取的数据转换为工作簿对象或二进制流格式;
利用FTP类型数据管线,将所述获取的数据转换为二进制流格式。
根据本发明实施例的第四方面,提供一种芯片,所述芯片与用户设备中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现本申请实施例上述各个方面以及各个方面涉及的任一可能设计的方法。
根据本发明实施例的第五方面,提供一种计算机可读存储介质,该计算机存储介质存储有程序指令,当其在终端设备上运行时,使得终端设备执行本发明实施例上述各个方面以及各个方面涉及的任一可能设计的方法。
根据本发明实施例的第六方面,提供一种计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行实现本申请实施例上述各个方面以及各个方面涉及的任一可能设计的方法。
利用本发明提供的存储搜索引擎结果的方法及设备,具有以下有益效果:
本发明提供的存储搜索引擎结果的方法及设备,通过预先定义对应不同存储类型的数据管线,在利用建立的搜索任务搜索数据时,将搜索任务与所需类型的数据管线进行关联,利用该搜索任务对应的数据管线,将该搜索任务搜索到的数据转换为该数据管线对应的存储类型后,存储到对应的存储介质中。能够将搜索任务搜索到的数据转换为所需的存储格式后进行存储,解决了现有爬虫结果的存储方法存在的爬虫结果存储类型少,及存储的数据需要后期更改存储类型和介质的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的一种存储搜索引擎结果的方法示意图;
图2为本发明实施例中提供的一种管线选择提示及管线选择指令接收的页面示意图;
图3为本发明实施例中提供的一种管线配置提示及管线配置指令接收的页面示意图;
图4为本发明实施例中提供的一种利用数据管线存储搜索的结果数据的示例图;
图5为本发明实施例中提供的一种一次搜索任务中利用数据管线存储数据的流程示意图;
图6为本发明实施例中提供的一种利用数据管线存储数据的流程示意图;
图7为本发明实施例中提供的一种存储搜索引擎结果的设备示意图;
图8为本发明实施例中提供的一种存储搜索引擎结果的设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了方便理解,下面对本发明实施例中涉及的名词进行解释:
1)网络爬虫:是一种自动获取网页内容的程序,为搜索引擎从网络中下载网页数据,是搜索引擎的重要组成部分,传统网络爬虫从一个或若干初始网页的统一资源定位符URL开始,获得初始网页上的URL,在抓取网页数据的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件时,停止数据抓取。
实施例1
本发明实施例提供一种存储搜索引擎结果的方法,在搜索引擎的基础上提供多种数据导出类型,将数据导出类型与存储介质封装为数据管线,存储搜索引擎结果时,根据需要选择对应的数据管线,对搜索的结果数据进行存储。
鉴于目前通常采用网络爬虫方法从网络中抓取数据,因此,本发明实施例中搜索引擎的具体实施方式可以为网络爬虫,搜索引擎结果为对应的爬虫结果。
参照图1,为本发明实施例提供的一种存储搜索引擎结果的方法,如图所示,该方法包括:
步骤S101,响应于管线配置指令,获取配置的至少一个搜索任务分别关联的数据管线,及各数据管线对应的存储位置,其中预先定义对应不同存储类型的数据管线;
本发明实施例中,预先定义对应不同存储类型的数据管线,在利用搜索引擎进行数据搜索时,从预先定义的不同存储类型的数据管线中选择所需类型的数据管线并进行相应配置,从而利用该数据管线进行数据类型转换及存储,其中,搜索任务可以为利用网络爬虫建立的爬虫任务;数据管线用于将指定数据从一个存储位置搬移到另一个存储位置进行存储。
参照图2,为本发明实施例提供的一种管线选择提示及管线选择指令接收的页面示意图。
作为一种可选的实施方式,本发明实施例中,在建立搜索任务以搜索数据时,输出如图2中所示的是否调用数据管线的提示信息,及预先定义的不同存储类型对应的数据管线,并接收输入的管线选择指令,根据该指令确定是否调用数据管线,及确定调用时调用的数据管线。
确定调用数据管线后,通过响应于搜索任务建立指令,在建立搜索任务以搜索数据时,输出进行数据管线配置的管线配置提示信息,并接收输入的管线配置指令,根据管线配置指令获取配置的至少一个搜索任务分别关联的数据管线;或者,响应于输入的管线配置指令,根据管线配置指令获取配置的至少一个搜索任务分别关联的数据管线。
其中,管线配置指令包括管线类型、存储介质信息等主要配置信息,例如数据管线名称、数据管线类型、永久性存储介质对应的IP地址及端口、连接永久性存储介质的用户名及密码、数据库名、表名、文件存储路径等配置信息。
参照图3,为本发明实施例提供的一种管线配置提示及管线配置指令接收的页面示意图。如图所示,在输出进行数据管线配置的管线配置提示信息时,输出显示对数据管线进行配置的各配置项,包括上述各配置信息,并接收输入的对各配置项进行的配置指令。
本发明实施例中,对应不同存储类型的数据管线包括如下至少一种:
1)至少一种数据库格式数据分别对应的数据库类型数据管线;
其中,数据库格式数据包括MySQL例如依托于MySQL存储JSON(Java ScriptObject Notation,JS对象简谱)格式数据、MySQL_FIELD格式数据、MPP(MassivelyParallel Processing,大规模并行处理)格式数据、HBase(Hadoop Database)数据库格式数据、Mongo(分布式文档存储数据库)格式数据等类型的数据。
获取配置的至少一个搜索任务分别关联的数据管线为数据库类型数据管线时,上述管线配置指令中包括数据连接信息,例如管线名称、数据库IP地址及端口号、用户名、密码、数据库名、表名等配置信息,根据该配置信息对数据管线进行相应配置。
2)至少一种文件格式数据分别对应的文件类型数据管线;
其中,文件格式数据包括Excel格式数据、File(文件)格式数据等类型的数据。
获取配置的至少一个搜索任务分别关联的数据管线为文件类型数据管线时,上述管线配置指令中包括文件存储路径信息以及名称信息等,例如管线名称、存储路径等配置信息,根据该配置信息对数据管线进行相应配置。
3)至少一种传输文件传输协议FTP格式数据分别对应的FTP类型数据管线。
获取配置的至少一个搜索任务分别关联的数据管线为文件类型数据管线时,上述管线配置指令中包括服务器连接及存储信息等,例如管线名称、服务器连接路径等配置信息,根据该配置信息对数据管线进行相应配置。
本发明实施例中,在响应于管线配置指令,获取配置的至少一个搜索任务分别关联的数据管线时,所述至少一个搜索任务可以关联到同一数据管线,各搜索任务可以关联到多个不同类型的数据管线。
具体的,可以同时执行多个搜索任务进行数据搜索,各搜索任务可以通过分别关联不同类型的数据管线,并利用关联的各数据管线,将其搜索到的数据存储为各数据管线对应的存储类型的数据。其中,每个数据管线可以关联多个搜索任务,在关联多个搜索任务时,数据管线能够将与其关联的且进行数据搜索的搜索任务,搜索到的数据,存储为该数据管线对应的存储类型。
本发明实施例中,利用搜索任务进行数据搜索时,对多个搜索任务关联的同一个数据管线,仅根据管线配置指令进行一次配置,在响应于管线配置指令,获取配置的该数据管线后,利用该数据管线将多个搜索任务获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置。
步骤S102,响应于搜索引擎指令进行数据搜索,对各搜索任务获取到的数据,利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置。
上述获取配置的至少一个搜索任务分别关联的数据管线,及各数据管线对应的存储位置后,利用搜索任务对应的数据管线,从存放所述搜索任务获取的数据的临时存储介质读取数据,并转换为与该数据管线对应的存储类型,将转换后的数据存储到与该数据管线对应的永久性存储介质对应的存储位置。
参照图4,为本发明实施例提供的一种利用数据管线存储搜索的结果数据的示例图。如图所示,假设一个搜索任务关联的数管线包括数据管线1、数据管线2、数据管线3共三种类型的数据管线,搜索任务启动后,搜索任务进行数据搜索并将搜索到的数据存储到临时存储介质中,再由其关联的数据管线1-3分别从临时存储介质中读取搜索任务获取的数据,并分别对该数据进行数据格式转换后,存储到对应的永久性存储介质中,至搜索任务结束,且搜索任务获取的数据全部存储到永久性存储介质中时,关闭数据管线,完成数据存储。
本发明实施例中,在进行数据搜索之前,先利用数据管线建立与对应的存储介质的连接。具体的,利用配置的各数据管线,建立该数据管线关联的搜索任务间的数据接口,及建立与该数据管线对应的存储位置的连接。
上述数据管线通过建立的与关联的搜索任务间的数据接口,获取搜索任务存储在临时存储介质中的数据,通过建立与该数据管线对应的存储位置的连接,将数据存储到对应的存储位置。在搜索任务完成后,响应于接收到的搜索任务完成指令,确定将转换后的数据全部存储到与该数据管线对应的存储位置时,断开与该数据管线对应的存储位置的连接。
本发明实施例中,在利用配置的各数据管线,建立与该数据管线对应的存储位置的连接,以及将关联的搜索任务获取的数据,转换为与该数据管线对应的存储类型,并存储到对应的存储介质中时,不同种类的数据管线对应的具体实施方式不同。
具体的,在利用配置的各数据管线,建立与该数据管线对应的存储位置的连接时,包括如下至少一个介质连接步骤:
1)利用配置的数据库类型数据管线,采用Java数据库连接JDBC方式,建立与该数据管线对应的数据库的连接;
2)利用配置的文件类型数据管线,通过数据流的形式,建立与该数据管线对应的磁盘文件的连接;
3)利用配置的FTP类型数据管线,通过FTP协议建立与该数据管线对应的服务器的连接。
在将关联的搜索任务获取的数据,转换为与该数据管线对应的存储类型时,包括如下至少一个数据转换步骤:
1)利用数据库类型数据管线,将所述获取的数据转换为SQL数据库语言格式;
2)利用文件类型数据管线,将所述获取的数据转换为工作簿对象或二进制流格式;
3)利用FTP类型数据管线,将所述获取的数据转换为二进制流格式。
参照图5,为本发明实施例提供的一种一次搜索任务中利用数据管线存储数据的流程示意图。
参照图6,为本发明实施例提供的一种利用数据管线存储数据的流程示意图。
如图5所示,在建立搜索任务并关联存储介质后,根据管线配置指令,配置数据管线,然后根据数据管线类型,执行上述对应的介质连接步骤,将数据管线连接到对应的存储介质,再对搜索任务获取的数据,执行上述的数据转换步骤后,存储到对应的存储介质。在搜索任务完成,且获取的数据均存储到对应的存储介质后,关闭数据管线与存储介质的连接,并关闭数据管线,完成本次搜索任务对应结果数据的存储。
其中,如图6所示,针对不同类型的数据管线,具体包括三种不同的实施方式。对数据库类型数据管线,采用数据库连接方式即上述介质连接步骤1),建立数据管线与对应的数据库的连接,然后将搜索任务获取的原始数据转化为SQL数据库语言格式后,存储到对应的数据库;对文件类型数据管线,采用文件流连接方式即上述介质连接步骤2),建立数据管线与对应的磁盘文件的连接,然后将搜索任务获取的原始数据转化为工作簿对象或二进制流格式后,存储到对应的磁盘文件位置;对FTP类型数据管线,采用FTP协议连接方式即上述介质连接步骤3),建立数据管线与对应的服务器的连接,然后将搜索任务获取的原始数据转化为二进制流格式后,存储到对应的FTP存储位置(服务器)。
本发明实施例提供的上述存储搜索引擎结果的方法,通过预先定义对应不同存储类型的数据管线,在利用建立的搜索任务搜索数据时,将搜索任务与所需类型的数据管线进行关联,利用该搜索任务对应的数据管线,将该搜索任务搜索到的数据转换为该数据管线对应的存储类型后,存储到对应的存储介质中。丰富了数据导出存储的类型,简化了搜索引擎搜索数据及数据处理的流程,并且提高了数据存储的效率,本发明实施例提供的方法,可以应用到爬虫结果存储场景中,解决了现有爬虫结果的存储方法存在的爬虫结果存储类型少,及存储的数据需要后期更改存储类型和介质的问题。
实施例2
基于相同的发明构思,本发明实施例还提供了一种存储搜索引擎结果的设备,由于该设备即是本发明实施例中的方法中的设备,并且该设备解决问题的原理与该方法相似,因此该设备的实施可以参见方法的实施,重复之处不再赘述。
请参阅图7,本发明实施例提供一种存储搜索引擎结果的设备,包括:
管线配置模块701,用于响应于管线配置指令,获取配置的至少一个搜索任务分别关联的数据管线,及各数据管线对应的存储位置,其中预先定义对应不同存储类型的数据管线;
数据存储模块702,用于响应于搜索引擎指令进行数据搜索,对各搜索任务获取到的数据,利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置。
在某些实施例中,所述对应不同存储类型的数据管线包括如下至少一种:
至少一种数据库格式数据分别对应的数据库类型数据管线;
至少一种文件格式数据分别对应的文件类型数据管线;
至少一种传输文件传输协议FTP格式数据分别对应的FTP类型数据管线。
在某些实施例中,所述数据存储模块响应于搜索引擎指令进行数据搜索之前,还包括:
利用配置的各数据管线,建立该数据管线关联的搜索任务间的数据接口,及建立与该数据管线对应的存储位置的连接。
在某些实施例中,所述数据存储模块还用于:
响应于搜索任务完成指令,确定将转换后的数据全部存储到与该数据管线对应的存储位置时,断开与该数据管线对应的存储位置的连接。
在某些实施例中,所述数据存储模块将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置,包括:
利用搜索任务对应的数据管线,从存放所述搜索任务获取的数据的临时存储介质读取数据,并转换为与该数据管线对应的存储类型,将转换后的数据存储到与该数据管线对应的永久性存储介质对应的存储位置。
在某些实施例中,所述数据存储模块利用配置的各数据管线,建立与该数据管线对应的存储位置的连接,包括执行如下至少一个步骤:
利用配置的数据库类型数据管线,采用Java数据库连接JDBC方式,建立与该数据管线对应的数据库的连接;
利用配置的文件类型数据管线,通过数据流的形式,建立与该数据管线对应的磁盘文件的连接;
利用配置的FTP类型数据管线,通过FTP协议建立与该数据管线对应的服务器的连接。
在某些实施例中,所述数据存储模块利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,包括如下至少一个步骤:
利用数据库类型数据管线,将所述获取的数据转换为SQL数据库语言格式;
利用文件类型数据管线,将所述获取的数据转换为工作簿对象或二进制流格式;
利用FTP类型数据管线,将所述获取的数据转换为二进制流格式。
实施例3
基于相同的发明构思,本发明实施例还提供了一种存储搜索引擎结果的设备,由于该设备即是本发明实施例中的方法中的设备,并且该设备解决问题的原理与该方法相似,因此该设备的实施可以参见方法的实施,重复之处不再赘述。
参阅图8,为本发明实施例提供一种存储搜索引擎结果的设备的结构示意图。
如图8所示,该设备800包括:通信接口810、存储器820和处理器830。通信接口810、存储器820和处理器830可以通过总线840连接。本领域技术人员可以理解,图8中示出的设备800结构并不构成对设备800的限定,图8所示的设备800仅是一个范例,并且设备800可以具有比图8中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。下面结合图8对设备800的各个构成部件进行具体的介绍:
通信接口810可用于与语音识别设备、云端服务器进行通信,例如,接收语音识别设备或云端服务器发送的电梯控制指令等。
存储器820可用于存储设备运行时所使用的数据、程序和/或模块,如本申请实施例中的开关控制器的控制方法对应的程序指令和/或模块,处理器830通过运行存储在存储器820的程序和/或模块,从而执行设备800的各种功能应用以及数据处理,如本申请实施例提供的电梯控制系统的相关控制方法。存储器820可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个应用的应用程序等;存储数据区可存储根据设备800的使用所创建的数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器830是设备800的控制中心,利用各种接口和线路连接整个设备800的各个部分,通过运行或执行存储在存储器820内的软件程序和/或模块,以及调用存储在存储器820内的数据,执行设备800的各种功能和处理数据,从而对设备800进行整体监控。在一些实施例中,处理器830可包括一个或多个处理单元。本申请实施例中的处理器830可以运行操作系统、应用程序、执行服务器发送的操作指令以及本发明实施例的相关控制方法等。
本发明实施例中不限定上述存储器820、处理器830和通信接口810之间的具体连接介质。本发明实施例在图8中,存储器820、处理器830和通信接口810之间通过总线840连接,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线840可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本实施例中,上述处理器具体用于:
响应于管线配置指令,获取配置的至少一个搜索任务分别关联的数据管线,及各数据管线对应的存储位置,其中预先定义对应不同存储类型的数据管线;
响应于搜索引擎指令进行数据搜索,对各搜索任务获取到的数据,利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置。
在某些实施例中,所述对应不同存储类型的数据管线包括如下至少一种:
至少一种数据库格式数据分别对应的数据库类型数据管线;
至少一种文件格式数据分别对应的文件类型数据管线;
至少一种传输文件传输协议FTP格式数据分别对应的FTP类型数据管线。
在某些实施例中,所述处理器响应于搜索引擎指令进行数据搜索之前,还包括:
利用配置的各数据管线,建立该数据管线关联的搜索任务间的数据接口,及建立与该数据管线对应的存储位置的连接。
在某些实施例中,所述处理器还用于:
响应于搜索任务完成指令,确定将转换后的数据全部存储到与该数据管线对应的存储位置时,断开与该数据管线对应的存储位置的连接。
在某些实施例中,所述处理器将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置,包括:
利用搜索任务对应的数据管线,从存放所述搜索任务获取的数据的临时存储介质读取数据,并转换为与该数据管线对应的存储类型,将转换后的数据存储到与该数据管线对应的永久性存储介质对应的存储位置。
在某些实施例中,所述处理器利用配置的各数据管线,建立与该数据管线对应的存储位置的连接,包括执行如下至少一个步骤:
利用配置的数据库类型数据管线,采用Java数据库连接JDBC方式,建立与该数据管线对应的数据库的连接;
利用配置的文件类型数据管线,通过数据流的形式,建立与该数据管线对应的磁盘文件的连接;
利用配置的FTP类型数据管线,通过FTP协议建立与该数据管线对应的服务器的连接。
在某些实施例中,所述处理器利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,包括如下至少一个步骤:
利用数据库类型数据管线,将所述获取的数据转换为SQL数据库语言格式;
利用文件类型数据管线,将所述获取的数据转换为工作簿对象或二进制流格式;
利用FTP类型数据管线,将所述获取的数据转换为二进制流格式。
应当理解的是,本申请实施例所限定的技术方案仅是对存储搜索引擎结果的设备或控制方法的示例性说明而非任何限定,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
本发明实施例还提供一种计算机可读存储介质,包括指令,当其在终端设备上运行时,使得终端设备执行上述实施例提供的存储搜索引擎结果的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
以上对本申请所提供的技术方案进行了详细介绍,本申请中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种存储搜索引擎结果的方法,其特征在于,包括:
响应于管线配置指令,获取配置的至少一个搜索任务分别关联的数据管线,及各数据管线对应的存储位置,其中预先定义对应不同存储类型的数据管线;
响应于搜索引擎指令进行数据搜索,对各搜索任务获取到的数据,利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置。
2.根据权利要求1所述的方法,其特征在于,所述对应不同存储类型的数据管线包括如下至少一种:
至少一种数据库格式数据分别对应的数据库类型数据管线;
至少一种文件格式数据分别对应的文件类型数据管线;
至少一种传输文件传输协议FTP格式数据分别对应的FTP类型数据管线。
3.根据权利要求1或2所述的方法,其特征在于,响应于搜索引擎指令进行数据搜索之前,还包括:
利用配置的各数据管线,建立该数据管线关联的搜索任务间的数据接口,及建立与该数据管线对应的存储位置的连接。
4.根据权利要求3所述的方法,其特征在于,还包括:
响应于搜索任务完成指令,确定将转换后的数据全部存储到与该数据管线对应的存储位置时,断开与该数据管线对应的存储位置的连接。
5.根据权利要求1或2所述的方法,其特征在于,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置,包括:
利用搜索任务对应的数据管线,从存放所述搜索任务获取的数据的临时存储介质读取数据,并转换为与该数据管线对应的存储类型,将转换后的数据存储到与该数据管线对应的永久性存储介质对应的存储位置。
6.根据权利要求3所述的方法,其特征在于,利用配置的各数据管线,建立与该数据管线对应的存储位置的连接,包括执行如下至少一个步骤:
利用配置的数据库类型数据管线,采用Java数据库连接JDBC方式,建立与该数据管线对应的数据库的连接;
利用配置的文件类型数据管线,通过数据流的形式,建立与该数据管线对应的磁盘文件的连接;
利用配置的FTP类型数据管线,通过FTP协议建立与该数据管线对应的服务器的连接。
7.根据权利要求2所述的方法,其特征在于,所述利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,包括如下至少一个步骤:
利用数据库类型数据管线,将所述获取的数据转换为SQL数据库语言格式;
利用文件类型数据管线,将所述获取的数据转换为工作簿对象或二进制流格式;
利用FTP类型数据管线,将所述获取的数据转换为二进制流格式。
8.一种存储搜索引擎结果的设备,其特征在于,包括:
管线配置模块,用于响应于管线配置指令,获取配置的至少一个搜索任务分别关联的数据管线,及各数据管线对应的存储位置,其中预先定义对应不同存储类型的数据管线;
数据存储模块,用于响应于搜索引擎指令进行数据搜索,对各搜索任务获取到的数据,利用该搜索任务对应的数据管线,将获取的数据转换为与该数据管线对应的存储类型,并将转换后的数据存储到与该数据管线对应的存储位置。
9.一种存储搜索引擎结果的设备,其特征在于,包括:存储器和处理器;其中:
所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,实现如权利要求1~7任一所述方法的步骤。
10.一种计算机程序介质,其特征在于,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7任一所述方法的步骤。
CN202010555544.XA 2020-06-17 2020-06-17 一种存储搜索引擎结果的方法及设备 Pending CN113806611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010555544.XA CN113806611A (zh) 2020-06-17 2020-06-17 一种存储搜索引擎结果的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010555544.XA CN113806611A (zh) 2020-06-17 2020-06-17 一种存储搜索引擎结果的方法及设备

Publications (1)

Publication Number Publication Date
CN113806611A true CN113806611A (zh) 2021-12-17

Family

ID=78943434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010555544.XA Pending CN113806611A (zh) 2020-06-17 2020-06-17 一种存储搜索引擎结果的方法及设备

Country Status (1)

Country Link
CN (1) CN113806611A (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224566A1 (en) * 2005-03-31 2006-10-05 Flowers John S Natural language based search engine and methods of use therefor
CN1867902A (zh) * 2003-08-05 2006-11-22 赛帕顿有限公司 仿真存储系统
CN101622595A (zh) * 2006-12-06 2010-01-06 弗森多系统公司(dba弗森-艾奥) 用于服务器内的存储区域网络的装置、系统和方法
CN101784996A (zh) * 2007-06-29 2010-07-21 赛帕顿有限公司 仿效存储系统
CN102135985A (zh) * 2011-01-28 2011-07-27 百度在线网络技术(北京)有限公司 调用第三方搜索引擎搜索结果的搜索方法和搜索系统
US20130006973A1 (en) * 2011-06-28 2013-01-03 Microsoft Corporation Summarization of Conversation Threads
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN105122727A (zh) * 2013-01-11 2015-12-02 Db网络公司 用于检测并减轻对结构化数据存储系统的威胁的系统和方法
US20160028761A1 (en) * 2014-07-22 2016-01-28 Nuix Pty Ltd Systems and Methods for Parallelized Custom Data-Processing and Search
CN106156328A (zh) * 2016-07-06 2016-11-23 中国银行股份有限公司 一种银行运行日志数据监控方法及系统
CN106227899A (zh) * 2016-08-31 2016-12-14 北京京航计算通讯研究所 一种面向物联网大数据的存储和查询方法
CN106407302A (zh) * 2016-08-30 2017-02-15 东华大学 支持通过简单sql调用中间件数据库特有功能的方法
CN106446153A (zh) * 2016-09-21 2017-02-22 广州特道信息科技有限公司 一种分布式newSQL数据库系统及方法
CN108874924A (zh) * 2018-05-31 2018-11-23 康键信息技术(深圳)有限公司 搜索服务的创建方法、装置及计算机可读存储介质
CN109086380A (zh) * 2018-07-25 2018-12-25 光大环境科技(中国)有限公司 对历史数据进行压缩存储的方法及系统
CN109101627A (zh) * 2018-08-14 2018-12-28 交通银行股份有限公司 异构数据库同步方法及装置
CN109815261A (zh) * 2018-12-11 2019-05-28 北京荣之联科技股份有限公司 全局搜索功能实现及数据实时同步方法、装置及电子设备
CN109902070A (zh) * 2019-01-22 2019-06-18 华中师范大学 一种面向WiFi日志数据的解析存储搜索方法
CN110674101A (zh) * 2019-09-27 2020-01-10 北京金山云网络技术有限公司 文件系统的数据处理方法、装置和云服务器
CN110704486A (zh) * 2019-09-27 2020-01-17 支付宝(杭州)信息技术有限公司 数据处理方法、装置、系统、存储介质和服务器

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1867902A (zh) * 2003-08-05 2006-11-22 赛帕顿有限公司 仿真存储系统
US20060224566A1 (en) * 2005-03-31 2006-10-05 Flowers John S Natural language based search engine and methods of use therefor
CN101622595A (zh) * 2006-12-06 2010-01-06 弗森多系统公司(dba弗森-艾奥) 用于服务器内的存储区域网络的装置、系统和方法
CN101784996A (zh) * 2007-06-29 2010-07-21 赛帕顿有限公司 仿效存储系统
CN102135985A (zh) * 2011-01-28 2011-07-27 百度在线网络技术(北京)有限公司 调用第三方搜索引擎搜索结果的搜索方法和搜索系统
US20130006973A1 (en) * 2011-06-28 2013-01-03 Microsoft Corporation Summarization of Conversation Threads
CN103620539A (zh) * 2011-06-28 2014-03-05 微软公司 对话线程的概述
CN105122727A (zh) * 2013-01-11 2015-12-02 Db网络公司 用于检测并减轻对结构化数据存储系统的威胁的系统和方法
US20160028761A1 (en) * 2014-07-22 2016-01-28 Nuix Pty Ltd Systems and Methods for Parallelized Custom Data-Processing and Search
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN106156328A (zh) * 2016-07-06 2016-11-23 中国银行股份有限公司 一种银行运行日志数据监控方法及系统
CN106407302A (zh) * 2016-08-30 2017-02-15 东华大学 支持通过简单sql调用中间件数据库特有功能的方法
CN106227899A (zh) * 2016-08-31 2016-12-14 北京京航计算通讯研究所 一种面向物联网大数据的存储和查询方法
CN106446153A (zh) * 2016-09-21 2017-02-22 广州特道信息科技有限公司 一种分布式newSQL数据库系统及方法
CN108874924A (zh) * 2018-05-31 2018-11-23 康键信息技术(深圳)有限公司 搜索服务的创建方法、装置及计算机可读存储介质
CN109086380A (zh) * 2018-07-25 2018-12-25 光大环境科技(中国)有限公司 对历史数据进行压缩存储的方法及系统
CN109101627A (zh) * 2018-08-14 2018-12-28 交通银行股份有限公司 异构数据库同步方法及装置
CN109815261A (zh) * 2018-12-11 2019-05-28 北京荣之联科技股份有限公司 全局搜索功能实现及数据实时同步方法、装置及电子设备
CN109902070A (zh) * 2019-01-22 2019-06-18 华中师范大学 一种面向WiFi日志数据的解析存储搜索方法
CN110674101A (zh) * 2019-09-27 2020-01-10 北京金山云网络技术有限公司 文件系统的数据处理方法、装置和云服务器
CN110704486A (zh) * 2019-09-27 2020-01-17 支付宝(杭州)信息技术有限公司 数据处理方法、装置、系统、存储介质和服务器

Similar Documents

Publication Publication Date Title
US20210240784A1 (en) Method, apparatus and storage medium for searching blockchain data
US20210357461A1 (en) Method, apparatus and storage medium for searching blockchain data
CN107872437B (zh) 一种用于业务请求的方法、装置及服务器
US20200004464A1 (en) Method and apparatus for storing data
US20200204688A1 (en) Picture book sharing method and apparatus and system using the same
CN113377653B (zh) 生成测试用例的方法和装置
WO2021203918A1 (zh) 用于处理模型参数的方法和装置
CN110598135A (zh) 网络请求处理方法、装置、计算机可读介质及电子设备
CN113010332A (zh) 一种远程服务调用方法、装置、设备及存储介质
CN109753424B (zh) Ab测试的方法和装置
CN111352951A (zh) 一种数据导出方法、装置及系统
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN110580212B (zh) 应用程序的数据导出方法、装置、电子设备及存储介质
CN116932147A (zh) 流式作业处理方法、装置、电子设备及介质
CN113806611A (zh) 一种存储搜索引擎结果的方法及设备
CN110704099A (zh) 联盟链的构建方法、装置和电子设备
CN115065945B (zh) 短信链接生成方法、装置、电子设备及存储介质
CN113590447B (zh) 埋点处理方法和装置
CN112579472B (zh) 测试用例的自动生成方法及装置
CN114282895A (zh) 数据处理方法、装置、电子设备及存储介质
CN114064429A (zh) 审计日志的采集方法、装置、存储介质和服务器
CN115878949A (zh) 信号处理方法以及相关设备
CN112765022A (zh) 一种基于数据流的Webshell静态检测方法及电子设备
CN111813407A (zh) 游戏开发方法、游戏运行方法、装置和电子设备
CN117454817B (zh) 一种基于fpga的工程处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination