CN109145011A - 数据检索方法及装置、终端 - Google Patents

数据检索方法及装置、终端 Download PDF

Info

Publication number
CN109145011A
CN109145011A CN201811296512.1A CN201811296512A CN109145011A CN 109145011 A CN109145011 A CN 109145011A CN 201811296512 A CN201811296512 A CN 201811296512A CN 109145011 A CN109145011 A CN 109145011A
Authority
CN
China
Prior art keywords
data
buffer storage
supplier
inquiry
demander
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811296512.1A
Other languages
English (en)
Other versions
CN109145011B (zh
Inventor
汤奇峰
梁偲
王也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Data Trading Center Ltd
Original Assignee
Shanghai Data Trading Center Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Data Trading Center Ltd filed Critical Shanghai Data Trading Center Ltd
Priority to CN201811296512.1A priority Critical patent/CN109145011B/zh
Publication of CN109145011A publication Critical patent/CN109145011A/zh
Application granted granted Critical
Publication of CN109145011B publication Critical patent/CN109145011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据检索方法及装置、终端;所述数据检索方法在不同的数据供方处建立数据缓存库,更多的数据缓存库使得可以供数据需方进行检索的缓存数据量增多,进一步的可以拉低数据的价格,打破数据垄断。数据需方可以根据自身对数据质量的要求和数据价格要求选出符合数据质量约束或符合数据价格约束的数据缓存库的范围,并在选出的数据缓存库的范围内进行数据检索,可以使数据需方得到符合自身需求的数据,避免了数据缓存后质量下降,缓存数据质量不符合数据需方要求的问题。进一步的,采用x‑ID加密技术对缓存数据进行加密配送,可以避免数据缓存后可能存在的法律风险。

Description

数据检索方法及装置、终端
技术领域
本发明涉及数据流通技术领域,尤其是涉及一种数据检索方法及装置、终端。
背景技术
在商业数据流通领域,数据的定价是一个难以解决的问题,其中一个重要原因是某些数据的价值随采集时间增长而骤减,通俗的讲就是数据的保质期短,一条数据从数据源取得的第一天可能值10块钱,一周后由于信息变更造成的数据质量衰减可能使它只值5元,一个月后可能一文不值。加上有更新能力的数据源往往比较单一,多为大型企业或政府部门,最终可能形成垄断。数据垄断导致有更新能力的数据源数据在市场上价格奇高,其他数据源只能通过向从有更新能力的数据源请求通过API的传输,价格只能在其之上叠加,而且,每发送一次API请求都会产生费用。
过高的数据价格往往造成数据不能很好被利用,现有技术中,通常通过建立缓存库来减少对数据源的请求,也就是每向数据源发送一次请求,即将请求返回的数据存入到缓存库中,以后再次需要相同信息时,便可以直接从缓存库中获取数据,而不再需要向数据源发送请求来获取数据。
但现有技术中使用缓存库存在以下问题:
1.数据缓存的量过小,难以大幅拉低数据价格;
2.数据缓存后质量直线下降达不到业界应用标准;
3.数据缓存后可能存在法律风险,即容易被他人窃取。
发明内容
本发明的目的在于提供一种数据检索方法及装置、终端,以解决在现有技术中使用缓存库存仍存在数据价格过高、数据质量下降以及数据安全性不足的的问题。
为了达到上述目的,本发明提供了一种数据检索方法,包括:
在不同的数据供方处建立数据缓存库;
获取数据需方输入的检索约束,所述检索约束包括数据质量约束和数据价格约束;
根据所述数据质量约束和各所述数据供方中所述数据缓存库中提供的数据或所述数据价格约束和各所述数据供方中所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;
接收所述数据需方发送的查询请求,所述查询请求包括查询数据标识;
根据所述查询请求在选出的所述数据缓存库的范围内进行检索,以获得与所述查询数据标识相匹配的数据;以及
若在所述数据缓存库的范围内未检索到与所述查询数据标识相匹配的数据,则向数据源进行检索,以获得与所述查询数据标识相匹配的数据。
可选的,所述根据数据质量约束和各所述数据供方中所述数据缓存库中提供的数据选出供所述数据需方查询的所述数据缓存库的范围的步骤包括:
所述数据需方设定容忍的数据质量的最小值;设所述最小值为A0,则所述数据供方供所述数据需方查询的缓存数据的准确率和所述缓存数据占总查询的比例满足公式:A0≤Ai0*(1-aij)+Aij*aij,其中,A0为数据需方能容忍的数据质量的最小值,Ai0为数据供方i无缓存时的数据准确率,Aij为数据供方i的数据缓存库中第j天缓存数据的准确率,aij为数据供方i的数据缓存库中第j天缓存数据占总查询的比例;
对数据供方1~i的1~j天的缓存数据按质量进行排序;数据供方i第j天的缓存数据质量用Aij表示,数据供方i第j天的缓存数据所占总查询的比例用aij表示;
设对数据供方1~i的1~j天的缓存数据按质量从高到低进行排序对应的排列序号为A1,A2......AK,所述排列序号对应的比例为a1,a2.......aK,其中,K=i*j;寻找一个m使得其中,m=i*q且q<j,i,j,q均为非零自然数;则供所述数据需方查询的所述数据缓存库的范围为所述数据缓存库中缓存数据的质量大于等于Am的部分。
可选的,所述数据需方在设定所述数据质量的最小值的同时设定期望的数据价格区间,根据公式计算数据供方1~i的选择最小的数据供方作为所述数据需方查询的主通路;其中,为使用数据供方i作为查询的主通路的平均数据价格,Pi0为数据供方i的无缓存数据的数据价格,p为数据供方i的缓存数据的数据价格。
可选的,所述根据数据价格约束和各所述数据供方中所述数据缓存库中提供的数据选出供所述数据需方查询的所述数据缓存库的范围的步骤包括:
所述数据需方根据自身的业务需求设定可接受的数据价格的最大值;设所述最大值为P0,则所述数据供方供所述数据需方查询的缓存数据占总查询的比例满足公式(1)和(2):
其中,P0为数据需方接受的数据价格的最大值,Pi0为数据供方i的无缓存数据的数据价格,p为数据供方i的缓存数据的数据价格,aij为数据供方i的数据缓存库中第j天缓存数据占总查询的比例;
对数据供方1~i的1~j天的缓存数据按质量进行排序;数据供方i第j天的缓存数据质量用Aij表示,数据供方i第j天的缓存数据所占总查询的比例用aij表示;
设对数据供方1~i的1~j天的缓存数据按质量从高到低进行排序对应的排列序号为A1,A2......AK,所述排列序号对应的比例为a1,a2.......aK,其中,K=i*j;寻找一个m使得其中,m=i*q且q<j,i,j,q均为非零自然数;则供所述数据需方查询的所述数据缓存库的范围为所述数据缓存库中缓存数据的质量小于等于Am的部分。
可选的,供所述数据需方查询的所述数据缓存库的范围中缓存数据的总体质量小于等于 其中,为使用数据供方i作为查询的主通路的平均数据价格,Ai0为数据供方i的无缓存数据的数据质量,Am为数据数据供方i中满足的缓存数据的数据质量,aij为数据供方i的数据缓存库中第j天缓存数据占总查询的比例。
可选的,所述数据需方在设定所述数据价格的最大值的同时设定期望的数据质量区间。根据公式计算数据供方1~i的选择最大的数据供方作为所述数据需方查询的主通路。
可选的,所述数据缓存库包括基于x-ID加密的分布式动态数据缓存库。
可选的,若在所述数据缓存库的范围中可以由多个数据供方向所述数据需方提供查询结果,则按缓存数据质量优先选择质量高的缓存数据。
可选的,所述在不同的数据供方处建立数据缓存库的步骤后还包括:每个数据缓存库中接入对应的缓存数据并对每日的所述缓存数据的质量进行测评。
可选的,所述数据供方定时对所述缓存数据的准确率进行更新以及根据需求对所述数据缓存库中存储时间超过设定时间的缓存数据进行清理。
可选的,所述数据源中的数据和所述数据缓存库中的数据具有数据标识;若在所述数据缓存库的范围内检索到与所述查询数据标识相匹配的数据标识,则将所述数据标识相对应的数据结果返回给数据需方;否则,则向所述数据源进行检索;以获得与所述查询数据标识相匹配的数据标识。
可选的,若在所述数据源中没有检索到与所述述查询数据标识相匹配的数据标识,则该次查询失败,并结束查询。
本发明还提供了一种数据检索装置,采用如上所述的数据检索方法,包括:
数据存储模块,包括数据源和多个数据供方的数据缓存库;用于向数据需方提供可检索的数据;
策略控制模块,用于接收数据需方输入的检索约束;所述检索约束包括数据质量约束和数据价格约束;
选择模块,用于根据所述数据质量约束和各数据供方的数据缓存库中提供的数据或所述数据价格约束和各所述数据供方的所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;
查询请求接收模块,用于接收数据需方发送的查询请求;所述查询请求包括查询数据标识;
检索模块,用于根据所述查询请求在所述选出的供所述数据需方查询的数据缓存库的范围内进行检索,以获得与所述查询数据标识相匹配的数据;若在所述数据缓存库的范围内未检索到与所述查询数据标识相匹配的数据,则向所述数据源进行检索,以获得与所述查询数据标识相匹配的数据。
可选的,所述策略控制模块包括:质量控制单元,用于接收所述数据需方输入的数据质量约束;价格控制单元,用于接收所述数据需方输入的数据价格约束。
可选的,所述选择模块包括质量选择单元,用于根据所述数据质量约束和各数据供方的数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;价格选择单元,用于根据所述数据价格约束和各所述数据供方的所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围。
可选的,所述数据源中的数据和所述数据缓存库中的数据具有数据标识;所述检索模块根据所述查询请求将所述数据缓存库的范围内或数据源中的数据的数据标识与所述查询数据标识进行匹配,并返回与所述查询数据标识相匹配的数据标识对应的数据。
本发明还提供了一种终端,所述终端包括如上所述的数据检索装置。
综上所述,在本发明提供的数据检索方法及装置、终端中,所述数据检索方法包括:在不同的数据供方处建立数据缓存库;获取所述数据需方输入的检索约束,所述检索约束包括数据质量约束和数据价格约束;根据所述数据质量约束和各所述数据供方中所述数据缓存库中提供的数据或所述数据价格约束和各所述数据供方中所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;接收数据需方发送的查询请求,所述查询请求包括查询数据标识;根据所述查询请求在选出的所述数据缓存库的范围内进行检索,以获得与所述查询数据标识相匹配的数据;以及若在所述数据缓存库的范围内未检索到与所述查询数据标识相匹配的数据,则向数据源进行检索,以获得与所述查询数据标识相匹配的数据。本发明所提供的数据检索方法在不同的数据供方处建立数据缓存库,更多的数据缓存库使得可以供数据需方进行检索的缓存数据量增多,进一步的可以拉低数据的价格,打破数据垄断。数据需方可以根据自身对数据质量的要求和数据价格要求选出符合数据质量约束或符合数据价格约束的数据缓存库的范围,并在选出的数据缓存库的范围内进行数据检索,可以使数据需方得到符合自身需求的数据,避免了数据缓存后质量下降,缓存数据质量不符合数据需方要求的问题。
进一步的,采用x-ID加密技术对缓存数据进行加密配送,可以避免数据缓存后可能存在的法律风险。
附图说明
图1为本发明实施例提供的数据检索方法的流程示意图;
图2为本发明实施例提供的数据检索装置的结构示意图;
其中,10-数据检索装置,101-数据存储模块,102-策略控制模块,103-选择模块,104-查询请求接收模块,105-检索模块。
具体实施方式
下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
如背景技术中所述的,商业数据流通领域,数据垄断导致有更新能力的数据源数据在市场上价格奇高,过高的数据价格往往造成数据不能很好被利用,现有技术中,通常通过建立缓存库来减少对数据源的请求,但现有技术中使用缓存库存在:数据缓存的量过小,难以大幅拉低数据价格;数据缓存后质量直线下降达不到业界应用标准;以及数据缓存后可能存在法律风险,即容易被他人窃取的问题。
因此,在数据流通技术领域,为了解决现有技术中存在的问题,本发明提供了一种数据检索方法。
参阅图1,其为本发明实施例提供的所述数据检索方法的流程示意图,如图1所示,所述数据检索方法可以包括以下步骤:
步骤S1:在不同的数据供方处建立数据缓存库;
步骤S2:获取数据需方输入的检索约束,所述检索约束包括数据质量约束和数据价格约束;
步骤S3:根据所述数据质量约束和各所述数据供方中所述数据缓存库中提供的数据或所述数据价格约束和各所述数据供方中所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;
步骤S4:接收所述数据需方发送的查询请求,所述查询请求包括查询数据标识;
步骤S5:在所述数据缓存库的范围内进行检索,以获得与所述查询数据标识相匹配的数据;以及
步骤S6:若在所述数据缓存库的范围内未检索到与所述查询数据标识相匹配的数据,则向数据源进行检索,以获得与所述查询数据标识相匹配的数据。
下面将结合图1对步骤S1至步骤S6进行详细说明。
具体实施例中,在步骤S1中,所述数据缓存库包括基于x-ID加密的分布式动态数据缓存库。具体的,在每个数据供方对应的数据缓存库可以建立在所述数据供方的前置机上,数据查询时可以采用前置机的方式传输。最初前置机上无缓存数据,数据每次从外部非缓存数据源调用一次,提供给数据需方的同时就在前置机上留取一次缓存备份(即缓存数据),使用x-ID加密技术对缓存数据加密,使之达到《网络安全法》不可识别的要求。对每一条进入缓存库的缓存数据会打上以日为单位的时间戳。测算每日缓存数据库中缓存数据占全部请求数据的比例,设每日缓存数据库中缓存数据占全部请求数据的比例用aij表示,其中i为数据供方的编号,j表示天数;则对于数据供方i,第一日的缓存数据占全部请求数据的比例为ai1,第二日缓存数据占全部请求数据的比例为ai2……第j日缓存数据占全部请求数据的比例aij
进一步的,在步骤S1之后,进行步骤S2之前还包括:对数据缓存库中的数据质量进行测评和维护。具体的,当数据供方接入的时候对数据供方中无缓存的数据进行质量测评,测试其无缓存的情况下准确率最高情况下的数据准确率。当缓存数据接入时,对每日的数据质量进行精准数据对比测评,准确率用Aij表示,其中i为供方名称,j为缓存天数。
其中,N为抽样数据量,Aij为数据供方i第j天的准确性,Xn为抽样的第n个数据的精准数据答案,xn为抽样的第n个数据供方给出数据答案。
优选的,数据供方可以定时对所述缓存数据的准确率进行更新以及根据需求对所述数据缓存库中存储时间超过设定时间的缓存数据进行清理。
进一步的,数据供方需制定数据缓存库中缓存数据的价格,设数据供方i提供的非缓存数据的价格为Pi0,数据供方i提供的缓存数据为p,则通常缓存数据的价格p小于非缓存数据的价格Pi0
之后,进行步骤S2,具体的,所述数据需方可以根据自身的业务需求输入进行数据检索时的检索约束。所述检索约束包括质量约束和价格约束,所述质量约束可以包括质量低限约束(可接受的最低质量),所述价格约束可以包括价格高限约束(可接受的最高价格)。
所述数据需方输入所述检索约束,各数据供方获取所述检索约束之后,进行步骤S3。具体的,在步骤S3中,所述根据数据质量约束和各所述数据供方的所述数据缓存库中提供的数据选出供所述数据需方查询的所述数据缓存库的范围的步骤包括:
所述数据需方根据自身的业务需求设定容忍的数据质量的最小值;设所述最小值为A0,则所述数据供方供所述数据需方查询的缓存数据的准确率和所述缓存数据占总查询的比例满足公式:A0≤Ai0*(1-aij)+Aij*aij,其中,A0为数据需方能容忍的数据质量的最小值,Ai0为数据供方i无缓存时的数据准确率,Aij为数据供方i的数据缓存库中第j天缓存数据的准确率,aij为数据供方i的数据缓存库中第j天缓存数据占总查询的比例;
对数据供方1~i的1~j天的缓存数据按质量进行排序;数据供方i第j天的缓存数据质量用Aij表示,数据供方i第j天的缓存数据所占总查询的比例用aij表示;
设对数据供方1~i的1~j天的缓存数据按质量从高到低进行排序对应的排列序号为A1,A2......AK,所述排列序号对应的比例为a1,a2.......aK,其中,K=i*j;寻找一个m使得其中,m=i*q且q<j,i,j,q均为非零自然数;则供所述数据需方查询的所述数据缓存库的范围为所述数据缓存库中缓存数据质量大于等于Am的部分。
进一步的,所述数据需方在设定所述数据质量的最小值的同时设定期望的数据价格区间,根据公式计算数据供方1~i的在满足质量约束的条件下,选择最小的数据供方作为所述数据需方查询的主通路;其中,为使用数据供方i作为查询的主通路的平均数据价格,Pi0为数据供方i的无缓存数据的数据价格,p为数据供方i的缓存数据的数据价格。
具体的,在步骤S3中,所述根据数据价格约束和各所述数据供方的所述数据缓存库中提供的数据选出供所述数据需方查询的所述数据缓存库的范围的步骤包括:
所述数据需方根据自身的业务需求设定可接受的数据价格的最大值;设所述最大值为P0,则所述数据供方供所述数据需方查询的缓存数据占总查询的比例满足公式(1)和(2):
其中,P0为数据需方接受的数据价格的最大值,Pi0为数据供方i的无缓存数据的数据价格,p为数据供方i的缓存数据的数据价格,aij为数据供方i的数据缓存库中第j天缓存数据占总查询的比例;
对数据供方1~i的1~j天的缓存数据按质量进行排序;数据供方i第j天的缓存数据质量用Aij表示,数据供方i第j天的缓存数据所占总查询的比例用aij表示;
设对数据供方1~i的1~j天的缓存数据按质量从高到低进行排序对应的排列序号为A1,A2......AK,所述排列序号对应的比例为a1,a2.......aK,其中,K=i*j;寻找一个m使得(此处的aij满足公式(1)和(2)),其中,m=i*q且q<j,i,j,q均为非零自然数;则供所述数据需方查询的所述数据缓存库的范围为各所述数据缓存库中缓存数据质量小于等于Am的部分。
进一步的,供所述数据需方查询的所述数据缓存库的范围中缓存数据的总体质量小于等于 其中,为使用数据供方i作为查询的主通路的平均数据价格,Ai0为数据供方i的无缓存数据的数据质量,Am为数据数据供方i中满足的缓存数据的数据质量,aij为数据供方i的数据缓存库中第j天缓存数据占总查询的比例。
进一步的,所述数据需方在设定所述数据价格的最大值的同时设定期望的数据质量区间。在满足价格约束的条件下,根据公式计算数据供方1~i的其中,优选的,可以选择最大的数据供方作为所述数据需方查询的主通路。
进一步的,若在所述数据缓存库的范围中可以由多个数据供方向所述数据需方提供查询结果,则按缓存数据质量优先选择质量高的缓存数据。
具体的,在步骤S3之后进行步骤S4,数据供方接收数据需方发出的查询请求,所述查询请求包括查询数据标识,所述数据需方可以在查询请求中指示需求数据的数据标识。
具体的,可供所述数据需方进行检索的包括步骤S3中选出的所述数据缓存库的范围以及数据源,其中所述数据源中的数据为非缓存数据。所述数据源可以由前述具有缓存库的数据供方提供,也可以由新的数据供方提供。在所述数据缓存库中的缓存数据以及所述数据源中的非缓存数据都具有唯一的数据标识。
步骤S4之后进行步骤S5,根据接收到的数据需方的查询请求在选出的所述数据缓存库的范围内进行数据检索,以获得与所述查询数据标识相匹配的数据标识;具体的,所述相匹配是指所述查询数据标识和所述数据标识相同或相应。若在所述数据缓存库的范围内检索到与所述查询数据标识相匹配的数据标识,则将所述数据标识相对应的数据结果返回给数据需方。若在所述数据缓存库的范围内没有检索到与所述查询数据标识相匹配的数据标识,则进行步骤S6,根据接收到的数据需方的查询请求向数据源进行检索,以获得与所述查询数据标识相匹配的数据标识,若在所述数据源中获得与所述查询数据标识相匹配的数据标识,则将所述数据标识对应的数据信息返回给数据需方并将所述数据信息录入数据缓存库;若在所述数据源中没有获得与所述查询数据标识相匹配的数据标识,则该次查询失败,结束数据查询。
本发明实施例还提供了一种数据检索装置,所述数据检索装置采用上述数据检索方法进行数据检索,参阅图2,所述数据检索装置10包括:
数据存储模块101,用于向数据需方提供数据源或各数据供方的数据缓存库;
策略控制模块102,用于接收数据需方输入的检索约束;所述检索约束包括数据质量约束和数据价格约束;
选择模块103,用于根据所述数据质量约束和各数据供方的数据缓存库中提供的数据或所述数据价格约束和各所述数据供方的所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;
查询请求接收模块104,用于接收数据需方发送的查询请求;所述查询请求包括查询数据标识;
检索模块105,用于在所述选出的供所述数据需方查询的数据缓存库的范围内进行检索,以获得与所述查询数据标识相匹配的数据;若在所述数据缓存库的范围内未检索到与所述查询数据标识相匹配的数据,则向所述数据源进行检索,以获得与所述查询数据标识相匹配的数据。
进一步的,参阅图2,所述策略控制模块102可以包括:质量控制单元,用于接收所述数据需方输入的数据质量约束;价格控制单元,用于接收所述数据需方输入的数据价格约束。
进一步的,所述选择模块103可以包括:质量选择单元,用于根据所述数据质量约束和各数据供方的数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;价格选择单元,用于根据所述数据价格约束和各所述数据供方的所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围。
进一步的,所述数据源中的数据和所述数据缓存库中的数据具有数据标识;所述检索模块根据所述查询请求将所述数据缓存库的范围内或数据源中的数据的数据标识与所述查询数据标识进行匹配,并返回与所述查询数据标识相匹配的数据标识对应的数据。具体的,所述相匹配是指所述查询数据标识和所述数据标识相同或相应。若在所述数据缓存库的范围内检索到与所述查询数据标识相匹配的数据标识,则将所述数据标识相对应的数据结果返回给数据需方;否则,则向所述数据源进行检索,以获得与所述查询数据标识相匹配的数据标识。具体的,若在所述数据源中获得与所述查询数据标识相匹配的数据标识,则将所述数据标识对应的数据信息返回给数据需方的同时进行备份,并将所述数据信息录入数据缓存库;若在所述数据源中没有获得与所述查询数据标识相匹配的数据标识,则该次查询失败,结束数据查询。
本发明实施例还提供了一种终端,所述终端包括如上所述的数据检索装置。所述终端可以包括但不限于服务器,计算机,手机,平板电脑等终端设备。
综上所述,在本发明提供的数据检索方法及装置、终端中,所述数据检索方法包括:在不同的数据供方处建立数据缓存库;获取所述数据需方输入的检索约束,所述检索约束包括数据质量约束和数据价格约束;根据所述数据质量约束和各所述数据供方中所述数据缓存库中提供的数据或所述数据价格约束和各所述数据供方中所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;接收数据需方发送的查询请求,所述查询请求包括查询数据标识;根据所述查询请求在选出的所述数据缓存库的范围内进行检索,以获得与所述查询数据标识相匹配的数据;以及若在所述数据缓存库的范围内未检索到与所述查询数据标识相匹配的数据,则向数据源进行检索,以获得与所述查询数据标识相匹配的数据。本发明所提供的数据检索方法在不同的数据供方处建立数据缓存库,更多的数据缓存库使得可以供数据需方进行检索的缓存数据量增多,进一步的可以拉低数据的价格,打破数据垄断。数据需方可以根据自身对数据质量的要求和数据价格要求选出符合数据质量约束或符合数据价格约束的数据缓存库的范围,并在选出的数据缓存库的范围内进行数据检索,可以使数据需方得到符合自身需求的数据,避免了数据缓存后质量下降,缓存数据质量不符合数据需方要求的问题。
进一步的,采用x-ID加密技术对缓存数据进行加密配送,可以避免数据缓存后可能存在的法律风险。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

Claims (17)

1.一种数据检索方法,其特征在于,包括:
在不同的数据供方处建立数据缓存库;
获取数据需方输入的检索约束,所述检索约束包括数据质量约束和数据价格约束;
根据所述数据质量约束和各所述数据供方中所述数据缓存库中提供的数据或所述数据价格约束和各所述数据供方中所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;
接收所述数据需方发送的查询请求,所述查询请求包括查询数据标识;
根据所述查询请求在选出的所述数据缓存库的范围内进行检索,以获得与所述查询数据标识相匹配的数据;以及
若在所述数据缓存库的范围内未检索到与所述查询数据标识相匹配的数据,则向数据源进行检索,以获得与所述查询数据标识相匹配的数据。
2.如权利要求1所述的数据检索方法,其特征在于,所述根据数据质量约束和各所述数据供方中所述数据缓存库中提供的数据选出供所述数据需方查询的所述数据缓存库的范围的步骤包括:
所述数据需方设定容忍的数据质量的最小值;设所述最小值为A0,则所述数据供方供所述数据需方查询的缓存数据的准确率和所述缓存数据占总查询的比例满足公式:A0≤Ai0*(1-aij)+Aij*aij,其中,A0为数据需方能容忍的数据质量的最小值,Ai0为数据供方i无缓存时的数据准确率,Aij为数据供方i的数据缓存库中第j天缓存数据的准确率,aij为数据供方i的数据缓存库中第j天缓存数据占总查询的比例;
对数据供方1~i的1~j天的缓存数据按质量进行排序;数据供方i第j天的缓存数据质量用Aij表示,数据供方i第j天的缓存数据所占总查询的比例用aij表示;
设对数据供方1~i的1~j天的缓存数据按质量从高到低进行排序对应的排列序号为A1,A2......AK,所述排列序号对应的比例为a1,a2.......aK,其中,K=i*j;寻找一个m使得其中,m=i*q且q<j,i,j,q均为非零自然数;则供所述数据需方查询的所述数据缓存库的范围为所述数据缓存库中缓存数据的质量大于等于Am的部分。
3.如权利要求2所述的数据检索方法,其特征在于,所述数据需方在设定所述数据质量的最小值的同时设定期望的数据价格区间,根据公式计算数据供方1~i的选择最小的数据供方作为所述数据需方查询的主通路;其中,为使用数据供方i作为查询的主通路的平均数据价格,Pi0为数据供方i的无缓存数据的数据价格,p为数据供方i的缓存数据的数据价格。
4.如权利要求1所述的数据检索方法,其特征在于,所述根据数据价格约束和各所述数据供方中所述数据缓存库中提供的数据选出供所述数据需方查询的所述数据缓存库的范围的步骤包括:
所述数据需方根据自身的业务需求设定可接受的数据价格的最大值;设所述最大值为P0,则所述数据供方供所述数据需方查询的缓存数据占总查询的比例满足公式(1)和(2):
P0≥Pi0*(1-aij)+p*aij........(1),
其中,P0为数据需方接受的数据价格的最大值,Pi0为数据供方i的无缓存数据的数据价格,p为数据供方i的缓存数据的数据价格,aij为数据供方i的数据缓存库中第j天缓存数据占总查询的比例;
对数据供方1~i的1~j天的缓存数据按质量进行排序;数据供方i第j天的缓存数据质量用Aij表示,数据供方i第j天的缓存数据所占总查询的比例用aij表示;
设对数据供方1~i的1~j天的缓存数据按质量从高到低进行排序对应的排列序号为A1,A2......AK,所述排列序号对应的比例为a1,a2.......aK,其中,K=i*j;寻找一个m使得其中,m=i*q且q<j,i,j,q均为非零自然数;则供所述数据需方查询的所述数据缓存库的范围为所述数据缓存库中缓存数据的质量小于等于Am的部分。
5.如权利要求4所述的数据检索方法,其特征在于,供所述数据需方查询的所述数据缓存库的范围中缓存数据的总体质量小于等于 其中,为使用数据供方i作为查询的主通路的平均数据价格,Ai0为数据供方i的无缓存数据的数据质量,Am为数据数据供方i中满足的缓存数据的数据质量,aij为数据供方i的数据缓存库中第j天缓存数据占总查询的比例。
6.如权利要求4所述的数据检索方法,其特征在于,所述数据需方在设定所述数据价格的最大值的同时设定期望的数据质量区间。根据公式计算数据供方1~i的选择最大的数据供方作为所述数据需方查询的主通路。
7.如权利要求1所述的数据检索方法,其特征在于,所述数据缓存库包括基于x-ID加密的分布式动态数据缓存库。
8.如权利要求1所述的数据检索方法,其特征在于,若在所述数据缓存库的范围中可以由多个数据供方向所述数据需方提供查询结果,则按缓存数据质量优先选择质量高的缓存数据。
9.如权利要求1所述的数据检索方法,其特征在于,所述在不同的数据供方处建立数据缓存库的步骤后还包括:每个数据缓存库中接入对应的缓存数据并对每日的所述缓存数据的质量进行测评。
10.如权利要求9所述的数据检索方法,其特征在于,所述数据供方定时对所述缓存数据的准确率进行更新以及根据需求对所述数据缓存库中存储时间超过设定时间的缓存数据进行清理。
11.如权利要求1所述的数据检索方法,其特征在于,所述数据源中的数据和所述数据缓存库中的数据具有数据标识;若在所述数据缓存库的范围内检索到与所述查询数据标识相匹配的数据标识,则将所述数据标识相对应的数据结果返回给数据需方;否则,则向所述数据源进行检索;以获得与所述查询数据标识相匹配的数据标识。
12.如权利要求1所述的数据检索方法,其特征在于,若在所述数据源中没有检索到与所述述查询数据标识相匹配的数据标识,则该次查询失败,并结束查询。
13.一种数据检索装置,包括如权利要求1至12中任意一项所述的数据检索方法,其特征在于,包括:
数据存储模块,包括数据源和多个数据供方的数据缓存库;用于向数据需方提供可检索的数据;
策略控制模块,用于接收数据需方输入的检索约束;所述检索约束包括数据质量约束和数据价格约束;
选择模块,用于根据所述数据质量约束和各数据供方的数据缓存库中提供的数据或所述数据价格约束和各所述数据供方的所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;
查询请求接收模块,用于接收数据需方发送的查询请求;所述查询请求包括查询数据标识;
检索模块,用于根据所述查询请求在所述选出的供所述数据需方查询的数据缓存库的范围内进行检索,以获得与所述查询数据标识相匹配的数据;若在所述数据缓存库的范围内未检索到与所述查询数据标识相匹配的数据,则向所述数据源进行检索,以获得与所述查询数据标识相匹配的数据。
14.如权利要求13所述的数据检索装置,其特征在于,所述策略控制模块包括:质量控制单元,用于接收所述数据需方输入的数据质量约束;价格控制单元,用于接收所述数据需方输入的数据价格约束。
15.如权利要求13所述的数据检索装置,其特征在于,所述选择模块包括质量选择单元,用于根据所述数据质量约束和各数据供方的数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围;价格选择单元,用于根据所述数据价格约束和各所述数据供方的所述数据缓存库中提供的数据选出供所述数据需方查询的数据缓存库的范围。
16.如权利要求13所述的数据检索装置,其特征在于,所述数据源中的数据和所述数据缓存库中的数据具有数据标识;所述检索模块根据所述查询请求将所述数据缓存库的范围内或数据源中的数据的数据标识与所述查询数据标识进行匹配,并返回与所述查询数据标识相匹配的数据标识对应的数据。
17.一种终端,其特征在于,包括如权利要求13至16中任意一项所述的数据检索装置。
CN201811296512.1A 2018-11-01 2018-11-01 数据检索方法及装置、终端 Active CN109145011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811296512.1A CN109145011B (zh) 2018-11-01 2018-11-01 数据检索方法及装置、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811296512.1A CN109145011B (zh) 2018-11-01 2018-11-01 数据检索方法及装置、终端

Publications (2)

Publication Number Publication Date
CN109145011A true CN109145011A (zh) 2019-01-04
CN109145011B CN109145011B (zh) 2023-07-18

Family

ID=64807126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811296512.1A Active CN109145011B (zh) 2018-11-01 2018-11-01 数据检索方法及装置、终端

Country Status (1)

Country Link
CN (1) CN109145011B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071321A1 (en) * 2003-09-29 2005-03-31 International Business Machines Corporation System and method for monitoring events against continual range queries
CN105512129A (zh) * 2014-09-24 2016-04-20 中国移动通信集团江苏有限公司 一种海量数据检索方法及装置、海量数据存储方法及系统
CN107562803A (zh) * 2017-08-08 2018-01-09 上海数据交易中心有限公司 数据供应系统及方法、终端
CN107729460A (zh) * 2017-09-30 2018-02-23 上海数据交易中心有限公司 数据查询方法及装置、存储介质、终端
CN107748792A (zh) * 2017-11-01 2018-03-02 上海数据交易中心有限公司 数据检索方法及装置、终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071321A1 (en) * 2003-09-29 2005-03-31 International Business Machines Corporation System and method for monitoring events against continual range queries
CN105512129A (zh) * 2014-09-24 2016-04-20 中国移动通信集团江苏有限公司 一种海量数据检索方法及装置、海量数据存储方法及系统
CN107562803A (zh) * 2017-08-08 2018-01-09 上海数据交易中心有限公司 数据供应系统及方法、终端
CN107729460A (zh) * 2017-09-30 2018-02-23 上海数据交易中心有限公司 数据查询方法及装置、存储介质、终端
CN107748792A (zh) * 2017-11-01 2018-03-02 上海数据交易中心有限公司 数据检索方法及装置、终端

Also Published As

Publication number Publication date
CN109145011B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
US20070192374A1 (en) Virtual repository management to provide functionality
CN103714096B (zh) 基于Lucene的倒排索引系统构建、数据处理方法及装置
US20130232045A1 (en) Automatic Detection Of Fraud And Error Using A Vector-Cluster Model
CN109189782A (zh) 一种区块链商品交易查询中的索引方法
US20140122413A1 (en) Bulk read and write between multi-dimensional data structures
US8280917B1 (en) Batching content management operations to facilitate efficient database interactions
CN101557427A (zh) 提供分流信息、实现客户端分流的方法、系统及服务器
CN110335009A (zh) 报表生成方法、装置、计算机设备及存储介质
CN110427438A (zh) 数据处理方法及其装置、电子设备和介质
US20090164486A1 (en) Business intelligence data extraction on demand
CN106708996A (zh) 用于对关系数据库进行全文搜索的方法及系统
US20090076867A1 (en) Balanced scorecard and reporting tool
CN107229718A (zh) 处理报表数据的方法和装置
US20040243511A1 (en) Method and apparatus to create and execute time-bound constraints
CN109657914A (zh) 信息推送方法、装置、计算机设备及存储介质
CN104956340B (zh) 可扩展数据重复删除
CN109947729A (zh) 一种实时数据分析方法及装置
CN109255587A (zh) 一种工作数据的协同处理方法及装置
CN109767274A (zh) 一种对海量发票数据进行关联存储的方法及系统
CN110009796A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN112561708A (zh) 处理数据的方法、装置、设备和计算机可读介质
CN110399397A (zh) 一种数据查询方法和系统
CN109947736A (zh) 实时计算的方法和系统
US8819048B1 (en) Virtual repository management to provide retention management services
CN109145011A (zh) 数据检索方法及装置、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20220913

AD01 Patent right deemed abandoned
GR01 Patent grant
GR01 Patent grant