CN111198980A

CN111198980A - 开放数据的检索方法及装置、存储介质、服务器

Info

Publication number: CN111198980A
Application number: CN201911327755.1A
Authority: CN
Inventors: 汤奇峰; 柳汉林; 朱颖; 汤明嘉
Original assignee: Shanghai Data Exchange Corp
Current assignee: Shanghai Data Exchange Corp
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-26

Abstract

一种开放数据的检索方法及装置、存储介质、服务器，所述方法包括：接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方；在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据，以得到所述检索请求对应的检索结果；其中，所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取，并经过数据去重和数据清洗后得到的。本发明提供的技术方案可以基于构建的开放数据平台进行数据检索，使用户可以从该开放数据平台直接查询各个已收录的开放数据资源，提高用户获取数据集的效率和体验。

Description

开放数据的检索方法及装置、存储介质、服务器

技术领域

本发明涉及大数据技术领域，具体地涉及一种开放数据的检索方法及装置、存储介质、服务器。

背景技术

大数据已经被广泛认为是一种战略性的新型资源。人们用大数据定义当今时代产生的海量数据以及相关的技术发展与服务创新。数据流通是大数据产生社会价值和商业价值的基础，也是大数据技术研发、应用创新和产业发展的基础。

当前大量数据沉睡在各个机构和企业的服务器中，形成了数据割裂，大数据应用普遍面临着“数据孤岛”问题，制约了大数据价值的获取和效益的产生。

2012年始，我国北京、上海、广州、武汉、杭州等地先后建立了政府数据开放服务网。从全球范围来看，建立统一的政府开放数据门户，集中开放可加工的数据集已是各国数据门户网站的普遍做法。

然而，现如今大规模数据样本集的采集、融合、试验在国内尚未见到，该平台的理念和建设有助于建立面向真实场景的巨量数据交换、共享、融合和分析，支撑数据驱动的智慧城市、社会治理等的建设。因此，构建开放式的数据平台，并基于开放式的数据平台为用户提供全面、快速的检索结果值得进一步分析和研究。

发明内容

本发明解决的技术问题是如何检索开放数据，以提高用户获取开放数据的效率和体验。

为解决上述技术问题，本发明实施例提供一种开放数据的检索方法，包括：接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方；在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据，以得到所述检索请求对应的检索结果；其中，所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取，并经过数据去重和数据清洗后得到的。

可选的，在开放数据平台中搜索所述数据来源方和所述数据领域中的数据之前，所述检索方法还包括：接收所述用户指定的文件格式；所述在开放数据平台中全文搜索所述数据来源方和所述数据领域中的数据包括：从所述开放数据平台中全文检索匹配所述文件格式、符合所述数据来源方和所述数据领域的数据，以得到所述检索请求对应的检索结果。

可选的，所述数据包括以下一项或多项：行业数据集名称、政务数据集名称。

可选的，所述检索方法还包括：输出所述检索结果，所述检索结果包括以下一项或多项：元数据、数据集。

可选的，所述开放数据平台还定时获取所述预设政务公开数据开放网站和行业数据集网站中的更新数据。

可选的，在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据之前，所述检索方法还包括：按照分词算法对清洗后的数据进行分词，以得到分词数据；根据分词词义确定所述分词数据所属的预设数据领域；整合属于同一所述预设数据领域的分词数据；为所述分词数据建立索引，以全文检索所述开放数据平台中的数据。

可选的，所述按照分词算法对清洗后的数据进行分词包括：响应于语言类别指示，确定所述清洗后的数据所属的语言类别；根据所述语言类别关联的预设分词算法，对所述清洗后的数据进行分词。

为解决上述技术问题，本发明实施例还提供一种开放数据的检索装置，包括：第一接收模块，用于接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方；检索模块，用于在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据，以得到所述检索请求对应的检索结果；其中，所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取，并经过数据去重和数据清洗后得到的。

为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述方法的步骤。

为解决上述技术问题，本发明实施例还提供一种服务器，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种开放数据的检索方法，包括：接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方；在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据，以得到所述检索请求对应的检索结果；其中，所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取，并经过数据去重和数据清洗后得到的。本发明实施例通过对预设政务公开数据网站和预设行业数据集网站获取数据，并进行去重、清洗，从而构建了政务数据和行业数据的开放数据平台，为用户提供了针对政府开放数据和行业开放数据集的统一入口。之后，在用户选取的数据领域和数据来源方中检索，可以快速排除用户不需要的冗余信息，使得用户可以从该开放数据平台直接查询到各个已收录的开放数据资源，极大地提高了用户获取数据集的效率和体验。

进一步，还包括：定时获取所述政务公开数据开放网站和行业数据集网站中的更新数据；按照所述预设数据领域对所述更新数据进行拆分，以得到多个拆分后更新数据；将属于同一所述预设数据领域的拆分后更新数据与所述合并后数据进行整合、并将整合结果存储至所述数据库中。本发明实施例通过定时更新数据，可以保证所述开放数据集平台的数据质量的时效性和准确性。

进一步，在开放数据平台中搜索所述数据来源方和所述数据领域中的数据之前，所述检索方法还包括：接收所述用户指定的文件格式；所述在开放数据平台中全文搜索所述数据来源方和所述数据领域中的数据包括：从所述开放数据平台中全文检索匹配所述文件格式、符合所述数据来源方和所述数据领域的数据，以得到所述检索请求对应的检索结果。本发明实施例可以支持用户指定的文件格式的检索，可以进一步加快数据搜索结果。

进一步，所述按照分词算法对清洗后的数据进行分词包括：响应于语言类别指示，确定所述清洗后的数据所属的语言类别；根据所述语言类别关联的预设分词算法，对所述清洗后的数据进行分词，以得到所述分词数据。本发明实施例对不同类别语言采用不同分词算法，可以更加精准地完成分词，进一步有利于为后续检索提供准确度更高的检索结果。

附图说明

图1是本发明实施例的一种开放数据的检索方法的流程示意图；

图2是本发明实施例的一种开放数据网站前端的架构示意图；

图3是本发明实施例的一种开放数据的数据来源与数据流转示意图；

图4是本发明实施例的一种开放数据的检索装置的结构示意图。

具体实施方式

如背景技术所言，数据孤岛制约了大数据价值的获取和效益的产生，而开放式数据平台有利于获取大数据价值，为用户带来更加全面、准确度更高的检索结果。

本发明实施例提供一种开放数据的检索方法，包括：接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方；在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据，以得到所述检索请求对应的检索结果；其中，所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取，并经过数据去重和数据清洗后得到的。

本发明实施例通过对预设政务公开数据网站和预设行业数据集网站获取数据，并进行去重、清洗，从而构建了政务数据和行业数据的开放数据平台，为用户提供了针对政府开放数据和行业开放数据集的统一入口。之后，在用户选取的数据领域和数据来源方中检索，可以快速排除用户不需要的冗余信息，使得用户可以从该开放数据平台直接查询到各个已收录的开放数据资源，极大地提高了用户获取数据集的效率和体验。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

本文中的元数据库管理提供开放数据定义、转换规则、业务信息、结构、安全等关键信息。面向公众的元数据查询服务帮助用户了解开放数据的业务、结构、定义等各方面的信息。

本文中的搜索引擎(Lucene)是阿帕奇(Apache)软件基金会开放源代码的全文检索引擎工具包，是全文检索引擎的架构，提供了完整的查询引擎和索引引擎，但并不是完整的全文检索引擎。

本文中的搜索引擎(ElasticSearch)是基于Lucene的搜索服务器，利用表述性状态转移页面(Representational State Transfer，简称RESTful web)接口形式，提供分布式多用户能力的全文搜索引擎。ElasticSearch采用Java语言开发，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。

本文中的行业数据集主要是面向计算机视觉，自然语言处理，语音和医疗方向的开放数据资源。

本文中的政务数据集来自于全国各省市政务开放平台的开放数据资源，现阶段主要包含14个省市。

本文中的应用场景为展示企业或个人利用开放数据资源做出的应用程序和产品。

图1是本发明实施例的一种开放数据的检索方法的流程示意图。所述检索方法可以由服务器执行。所述服务器通常为多个服务器形成的服务器集群。

具体而言，参考图1，所述检索方法可以包括以下步骤：

步骤S101，接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方；

步骤S102，在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据，以得到所述检索请求对应的检索结果。

其中，所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取，并经过数据去重和数据清洗后得到的。

更具体而言，在检索之前，还需要构建开放数据平台。具体实施中，可以按照以下步骤构建所述开放数据平台。

首先，从预设政务公开数据开放网站和预设行业数据集网站中获取数据。具体实施时，服务器可以网页抓取预设政务公开数据开放网站和预设行业数据集网站，以获取数据。网页抓取还可以利用网页中的超链接，连续地抓取政务公共数据开放网和行业数据集相关网页。

在具体实施中，由于各个网站的格式并不统一，因而需要针对每个网站进行定制化网页爬取脚本，以按照指定的深度和广度来进行网页爬取。

具体而言，可以针对每一网站的属性确定定制化网页爬取脚本，并利用该定制化网页脚本从所述网站中抓取所述政务公开数据开放网站和行业数据集网站中的数据。通常而言，所述属性可以包括：网站数据所属的数据领域、所述网站数据的发布部门、所述网站数据的更新时间。

在具体实施中，可以预先确定开放式数据平台需要展示出的数据信息，例如数据领域，发布部门，更新时间等。一旦确定想要爬取的内容，就可以针对每个网站开发所述定制化网页爬取脚本。

在具体实施中，除了爬取网页上的资源，还可以爬取网页相关的数据集资源文件，例如文件格式分别为csv、excel和/或pdf等的数据集。

之后，所述服务器可以利用爬虫程序对获取到的数据进行去重，以得到去重后数据。在具体实施中，在爬取页面的过程中，爬虫程序可以对数据进行初步的重复性检测，以初步过滤掉重复的、缺少必要属性的网页资源，从而可以得到去重后数据。

此时，所述去重后数据仅是经过初步过滤的，还未经过数据清洗的数据，不具备数据的有效性和完整性。

进一步，所述服务器可以对所述去重后数据进行数据清洗。之后，可以按照数据领域，对清洗后的数据进行拆分、合并，以得到合并后数据。其中，所述数据领域可以包括但不限于：经济、金融、信用、文旅、交通、安全、健康、教育科技、环境、建设、公共服务、社会及其它数据领域。

具体而言，数据清洗阶段可以将爬虫获取到的数据进行各种清洗操作，以减小低质量数据，提升有效数据量。通常情况下，所述清洗操作可以包括但不限于：提取文字、特定语种分词，如中文分词、消除噪音，如消除导航条和广告等以及处理特殊文件。

作为一个非限制性的例子，所述清洗后的数据为文本数据。之后，可以对所述清洗后的数据进行分词，以得到分词数据。

具体而言，所述服务器可以接收用户指示的语言类别，并响应于语言类别指示，确定所述清洗后的数据所属的语言类别。其中，所述语言类别包括汉语、英语等。

进一步，可以根据所述语言类别关联的预设分词算法，对所述清洗后的数据进行分词，以得到所述分词数据。在得到分词数据之后，所述服务器可以根据分词词义确定所述分词数据所属的数据领域，并将属于同一所述数据领域的分词数据进行整合。

在具体实施中，所述服务器可以按照数据资源属性，对所述清洗后的数据进行分类、归档。为满足政企数据共享和开放的要求，所述数据资源属性可以包括：普遍共享、按需共享、不共享。例如，政务开放数据的数据资源属性为普遍共享，即用户不注册登录也可以访问；行业数据集的数据属性为按需共享，需要用户注册登录，才可以访问。

进一步，所述服务器可以将所述合并后数据存储至数据库中。在具体实施中，在所述服务器得到所述清洗后数据之后，可以通过索引器根据指定的索引构建方式构建索引，进而建立全文索引。

进一步，在将数据存储至所述数据库时，对于行业资讯和应用场景里出现的关键字或者数据集，可以自动关联，提供与之相关的数据资源。其中，所述行业资讯可以是集中展示大数据行业相关的最新行业资讯。

进一步，所述服务器还将对获取到的数据进行持续更新，以尽量保证开放式平台提供的数据的时效性和准确性。具体而言，所述服务器可以定时获取所述政务公开数据开放网站和行业数据集网站中的更新数据。

之后，可以针对所述更新数据，按照所述数据领域对所述更新数据进行拆分，以得到多个拆分后更新数据。

进一步，可以将属于同一所述数据领域的拆分后更新数据与所述合并后数据进行整合、并将整合结果存储至所述数据库中。至此，开放式数据平台的数据准备构建完成。

在一个非限制性的例子中，所述开放式数据平台可以提供数据管理、本地或外部数据存储事件信息流跟踪以及服务信息邮件订阅推送等行业数据集服务。进一步，所述开放式平台可以提供搜索引擎、互联网数据抓取数据更新、爬虫及数据抓取以及政府开放数据指数设计等政务数据搜索服务。

在步骤S101中，所述服务器可以接收用户输入的检索请求，以及所述用户选取的数据领域以及数据来源方。其中，所述来源方包括但不限于各个省市的开放数据资源和各个行业数据集资源，例如，人工智能行业。

在步骤S102中，可以从所述数据库中搜索所述数据领域中，来源于数据来源方的数据，从而得到所述检索请求对应的检索结果。

在具体实施中，当接收到用户输入的关键词进行检索时，搜索引擎可以从所述开放数据平台的数据库中找到匹配该关键词的网页。为了用户便于判断，除了网页标题和URL外，还可以提供来自网页的摘要以及其他信息。其中，所述搜索引擎提供表现层状态转移(REpresentational State Transfer Application Program Interface，简称RESTAPI)给前端调用已满足不同的搜索条件。

在一个非限制性的例子中，所述服务器可以一并接收用户输入的检索请求、所述用户选取的数据领域、数据来源方和所述用户指定的文件格式。之后在所述数据库中检索匹配所述文件格式、并匹配所述用户选取的数据领域、数据来源方的政务数据集和行业数据集，从而得到所述检索请求对应的检索结果。

本领域技术人员理解，在检索时，可以按照数据集名称进行检索，换言之，在检索到与检索请求一致的数据名称时，会将该数据名称关联的数据作为检索结果显示出来，例如，用户的输入检索请求为搜索行业数据集或政务数据集，此时用户可以在搜索框中输入行业数据集名称或政务数据集名称，检索后，将会显示与所述行业数据集名称或政务数据集名称关联的数据。

进一步，可以输出所述检索结果。所述检索结果可以包括以下一项或多项：元数据、数据集。

在具体实施时，按照文件格式搜索时，所述文件格式搜索可以包含csv、excel、API、html、pdf、word、zip、rar等多种文件格式。

在具体实施中，还可以支持关键词模糊搜索，例如，支持多条件“与”、“或”逻辑等多关键词搜索。搜索时，可以根据搜索请求进行全文检索，还可以实现中文关联性搜索。例如，在用户输入中文关键词搜索条件下，搜索引擎根据输入中文的语义相关度搜索结果，并且按相关度从高到低排序显示。此外，还可以支持条件范围进行搜索，如根据搜索请求中的数据描述、地域、领域、文件内容等进行搜索。

在一个非限制性的例子中，搜索所述开放式平台时，可以搜索到的数据资源主要分为2类：政务数据集和行业数据集，主要数据资源信息如表1所示。

表1

图2是本发明实施例的一种开放数据网站前端的架构示意图。参考图2，所述网站前端2可以使用代理服务器Nginx 202做反向代理，采用开放源代码的网页(Web)Django应用框架203搭建开放门户。用户201输入的数据和数据集(图未示)使用数据库MySQL 205。对于诸如爬取的网页等爬取数据207利用大数据海杜普(Hadoop)平台206来进行数据预处理并，采用搜索引擎204，例如ElasticSearch创建索引。

所述网站前端2利用图1所示方法技术方案，可以支持海量多源异构数据进行实时的、异步的上传和导出，并且需要对数据进行数据资源管理、存储和检索。

进一步，所述网站前端2采用分布式文件存储技术，基于非结构化数据存储技术，建立列式数据库、结构化数据库、非关系性(Not Only Structured Query Language，简称NoSQL)数据库、内存数据库等不同种类数据库的混合存储体系完成数据存储。

进一步，所述网站前端2可以查询日志管理包括面向部门的登记处理日志和面向公众的服务处理日志，有助于管理员了解登记管理系统的使用情况，方便维护和评估系统效果。

进一步，所述网站前端2还可以向公众提供数据指数服务，分为开放指数和访问指数。所述开放指数可以采用饼状图的形式展示数据开放指数。所述访问指数可以通过数据列表分别展示月访问量前十名、下载量前十名等数据指数。

此外，考虑到互动交流作为连接用户与数据开放系统的纽带，在搜集用户的意见与建议方面起到至关重要的作用，所述网站前端2还可以支持互动交流，互动交流可以分为建议数据、咨询提问、问卷调查及常见问题等。

图3是本发明实施例的一种开放数据的数据来源与数据流转示意图。图1所示方法技术方案可以为用户提供搜索服务。所述搜索服务可以采用图3所示的搜索引擎302。具体而言，所述搜索引擎302的数据可以来源于政务公开网站和行业数据集网站301。所述数据可以由管理侧后台303进行存储，并为数据建立索引，从而得到索引数据3021。当用户侧前台304接收到用户的搜索请求时，所述搜索引擎302可以启动搜索服务3022，从索引数据3021中搜索到与所述用户的搜索请求关联的搜索结果，并在用户侧前台304输出。

综上所述，本发明实施例提供的技术方案可以构建政务开放数据和行业数据集的开放式平台，该开放式平台主要涉及海量开放数据集的爬取、分类归档、搜索等功能。该开放式平台整合了政务开放数据和行业数据集等相关领域的大数据资源，提供了针对政府开放数据和行业开放数据集的统一入口，使得用户可以从该开放式平台直接查询到所有已收录的开放数据资源，能够提高用户获取数据集的效率和体验。

图4是本发明实施例的一种开放数据的检索装置的结构示意图。所述开放数据的检索装置4可以实施图1所示方法技术方案。

具体而言，所述开放数据的检索装置4可以包括：

第一接收模块41，用于接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方；

检索模块42，用于在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据，以得到所述检索请求对应的检索结果；

进一步，所述检索装置4还可以包括：第二接收模块43，用于在开放数据平台中搜索所述数据来源方和所述数据领域中的数据之前，接收所述用户指定的文件格式；所述检索模块42包括：检索子模块421，用于从所述开放数据平台中全文检索匹配所述文件格式、符合所述数据来源方和所述数据领域的数据，以得到所述检索请求对应的检索结果。

关于所述检索装置4的工作原理、工作方式的更多内容，可以参照上述图1中的相关描述，这里不再赘述。

本发明实施例还提供了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述图1所示方法的步骤。所述存储介质可以是计算机可读存储介质，例如可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。

本发明实施例还提供了一种服务器，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述图1所示方法的步骤。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种开放数据的检索方法，其特征在于，包括：

接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方；

在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据，以得到所述检索请求对应的检索结果；

2.根据权利要求1所述的检索方法，其特征在于，在开放数据平台中搜索所述数据来源方和所述数据领域中的数据之前，所述检索方法还包括：

接收所述用户指定的文件格式；

所述在开放数据平台中全文搜索所述数据来源方和所述数据领域中的数据包括：

从所述开放数据平台中全文检索匹配所述文件格式、符合所述数据来源方和所述数据领域的数据，以得到所述检索请求对应的检索结果。

3.根据权利要求2所述的检索方法，其特征在于，所述数据包括以下一项或多项：行业数据集名称、政务数据集名称。

4.根据权利要求1或2所述的检索方法，其特征在于，还包括：

输出所述检索结果，所述检索结果包括以下一项或多项：元数据、数据集。

5.根据权利要求1所述的检索方法，其特征在于，所述开放数据平台还定时获取所述预设政务公开数据开放网站和行业数据集网站中的更新数据。

6.根据权利要求1所述的检索方法，其特征在于，在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据之前，所述检索方法还包括：

按照分词算法对清洗后的数据进行分词，以得到分词数据；

根据分词词义确定所述分词数据所属的预设数据领域；

整合属于同一所述预设数据领域的分词数据；

为所述分词数据建立索引，以全文检索所述开放数据平台中的数据。

7.根据权利要求6所述的检索方法，其特征在于，所述按照分词算法对清洗后的数据进行分词包括：

响应于语言类别指示，确定所述清洗后的数据所属的语言类别；

根据所述语言类别关联的预设分词算法，对所述清洗后的数据进行分词。

8.一种开放数据的检索装置，其特征在于，包括：

第一接收模块，用于接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方；

检索模块，用于在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据，以得到所述检索请求对应的检索结果；

9.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至7任一项所述的方法的步骤。

10.一种服务器，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至7任一项所述的方法的步骤。