CN114385620A - 数据处理方法、装置、设备及可读存储介质 - Google Patents

数据处理方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114385620A
CN114385620A CN202011119603.5A CN202011119603A CN114385620A CN 114385620 A CN114385620 A CN 114385620A CN 202011119603 A CN202011119603 A CN 202011119603A CN 114385620 A CN114385620 A CN 114385620A
Authority
CN
China
Prior art keywords
data
index
metadata
target data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011119603.5A
Other languages
English (en)
Inventor
陈宏佳
曾令英
蔡纪烜
崔萌
曾武雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011119603.5A priority Critical patent/CN114385620A/zh
Priority to PCT/CN2021/121724 priority patent/WO2022083436A1/zh
Publication of CN114385620A publication Critical patent/CN114385620A/zh
Priority to US17/947,216 priority patent/US20230013086A1/en
Priority to US17/952,829 priority patent/US20230024345A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备及可读存储介质,涉及数据处理领域。该方法包括:获取目标数据表,目标数据表中包括与目标对象对应的至少两种索引关键字;对目标数据表对应的元数据信息进行合并,得到元数据管理表;根据元数据管理表对目标数据表中的数据进行特征映射,得到目标数据表中与索引关键字对应的数据特征,生成数据特征表;对数据特征表进行合并,得到索引表。通过将目标数据表的元数据信息构建元数据管理表,并根据元数据管理表生成与目标数据表对应的索引表,从而通过索引表实现对数据的倒排索引,提高了对不同类型的数据进行交叉查询的效率,减少了对数据进行索引查询所需要的耗时时长。

Description

数据处理方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及数据处理领域,特别涉及一种数据处理方法、装置、设备及可读存储介质。
背景技术
在数据处理领域,以用户画像数据的索引过程为例进行说明,通常用户画像数据通常对应有多个不同的数据表,如:用户历史阅览数据表、用户兴趣画像数据表、用户基础信息表等,而在对用户画像数据进行索引时,当包括至少两个索引时应用的关键字时,则存在交叉查询的情况。
相关技术中,将原始的表数据存储于数据仓库工具中,再通过执行相关的分析的查询语句,如:结构化查询语言(Structured Query Language,SQL)语句对目标画像字段进行查询,从而查询得到对应的用户画像数据。
然而,多维度交叉往往涉及复杂的SQL逻辑表达书写,同时会涉及大量数据表查询,导致查询速度耗时较长,数据索引效率较低。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备及可读存储介质,能够提高数据索引的效率。所述技术方案如下:
一方面,提供了一种数据处理方法,所述方法包括:
获取目标数据表,所述目标数据表中包括与目标对象对应的至少两种索引关键字;
对所述目标数据表对应的元数据信息进行合并,得到元数据管理表;
根据所述元数据管理表对所述目标数据表中的数据进行特征映射,得到所述目标数据表中与所述索引关键字对应的数据特征,生成数据特征表;
对所述数据特征表进行合并,得到索引表,所述索引表用于将所述目标对象和所述目标对象对应的所述数据特征对应存储。
另一方面,提供了一种数据处理装置,所述装置包括:
获取模块,用于获取目标数据表,所述目标数据表中包括与目标对象对应的至少两种索引关键字;
合并模块,用于对所述目标数据表对应的元数据信息进行合并,得到元数据管理表;
映射模块,用于根据所述元数据管理表对所述目标数据表中的数据进行特征映射,得到所述目标数据表中与所述索引关键字对应的数据特征,生成数据特征表;
所述合并模块,还用于对所述数据特征表进行合并,得到索引表,所述索引表用于将所述目标对象和所述目标对象对应的所述数据特征对应存储。
在一个可选的实施例中,所述合并模块,包括:
确定单元,用于根据所述索引关键字确定所述目标数据表中的基础元数据,得到基础字段信息表;
生成单元,用于以所述基础字段信息表为核心,根据所述目标数据表中的索引关键字生成其他元数据信息表,得到所述元数据管理表。
在一个可选的实施例中,所述生成单元,还用于以所述基础字段信息表为核心生成数据主题表;将所述基础字段信息表中的主题字段外键链接至所述数据主题表,所述数据主题表用于指示数据对应的主题关系;
所述生成单元,还用于以所述基础字段信息表为核心生成元数据信息表;将所述基础字段信息表中的表字段外键链接至所述元数据信息表,所述元数据信息表用于指示所述目标数据表中的元数据信息;
所述生成单元,还用于以所述基础字段信息表为核心生成元数据信息管理表;将所述基础字段信息表中的数据类型字段外键链接所述元数据信息管理表,所述元数据信息管理表用于指示数据类型和值域;
所述确定单元,还用于根据所述基础字段信息表和其他元数据信息表之间的外键链接关系,确定所述元数据管理表。
在一个可选的实施例中,所述目标数据表中包括索引关键字对应的分类数据;
所述映射模块,还用于根据所述元数据管理表将所述目标数据表中的所述分类数据映射至与分类类型对应的值域内,得到所述分类数据对应的特征数值作为所述数据特征。
在一个可选的实施例中,所述目标数据表中包括索引关键字对应的位置服务数据;
所述映射模块,还用于根据所述元数据管理表将预先设定的地图数据划分为n个网格,n为正整数;将n个网格通过网格标识进行标注;将所述位置服务数据映射至网格中,得到所述位置服务数据的网格标识作为所述数据特征。
在一个可选的实施例中,所述合并模块,还用于响应于所述数据特征表中包括宽表特征,将所述宽表特征横向拼接,得到宽表;响应于所述数据特征表中包括纵表特征,将所述纵表特征中的值域字段在值域字段存储单元中依次写入,将所述纵表特征中的字段设定值在字段存储单元中依次写入,得到纵表;
所述合并模块,还用于将所述宽表和所述纵表合并,得到所述索引表。
在一个可选的实施例中,所述合并模块,还用于将所述宽表和所述纵表以特征的形式横向拼接,得到所述索引表。
在一个可选的实施例中,所述装置还包括:
接收模块,用于接收索引请求,所述索引请求中包括至少两个索引关键字对应的关键字要求;
所述获取模块,还用于从所述索引表中获取所述数据特征符合所述关键字要求的所述目标对象作为索引结果;
发送模块,用于返回所述索引结果。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述数据处理方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的数据处理方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的数据处理方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过将目标数据表的元数据信息构建元数据管理表,并根据元数据管理表生成与目标数据表对应的索引表,从而通过索引表实现对数据的倒排索引,提高了对不同类型的数据进行交叉查询的效率,减少了对数据进行索引查询所需要的耗时时长。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的倒排索引检索系统的框架示意图;
图3是本申请一个示例性实施例提供的数据处理方法的流程图;
图4是基于图3示出的实施例提供的元数据管理表的结构示意图;
图5是基于图3示出的实施例提供的元数据信息聚合得到画像元数据表的流程图;
图6是本申请另一个示例性实施例提供的数据处理方法的流程图;
图7是基于图6示出的实施例提供的位置服务数据的映射过程示意图;
图8是本申请另一个示例性实施例提供的数据处理方法的流程图;
图9是基于图8示出的实施例提供的索引界面的界面示意图;
图10是本申请一个示例性实施例提供的整体技术框架示意图;
图11是本申请一个示例性实施例提供的数据处理装置的结构框图;
图12是本申请另一个示例性实施例提供的数据处理装置的结构框图;
图13是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍:
数据索引:是指在数据表中对索引关键字对应的数据进行索引,其中分为正排索引和倒排索引(inverted index)。本申请实施例中,主要针对倒排索引进行介绍,倒排索引是指根据属性的值来查找记录的索引方式。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。
值得注意的是,上述数据可以存储于物理服务器中,也可以存储至云服务器中。
相关技术中,通常通过如下方式构建画像系统:
1、将原始的表数据存储于数据仓库工具中,再通过执行相关的查询语句对目标画像字段进行查询,此类系统能支持类SQL等简单方式查询,但是其查询交叉维度仅仅能支持数维度交叉,多维度交叉往往涉及复杂的SQL逻辑表达书写,同时会涉及大量表查询,导致查询速度耗时较长;
2、先离线对数据进行处理,处理成符合键值对(Key-Value,KV)系统的输入格式,将数据输入到KV系统中。然而,KV系统对于经纬度数据,文本数据以及数值数据难以进行较好的交叉查询。
本申请实施例中,提出了一种基于倒排索引的检索系统,构建出能支持多模态交叉查询的画像系统,能同时处理经纬度数据、文本数据、数值数据等不同类型数据的交叉查询。
云技术(Cloud technology):是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。技术网络系统的后台服务需要大量的计算、存储资源,示意性的,双录视频的质检过程中,需要对双录视频进行存储、对双录视频中的不同关键视频片段进行人工智能(Artificial Intelligence,AI)计算。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云存储(Cloud Storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
图1是本申请一个示例性实施例提供的实施环境示意图,如图1所示,该实施环境中包括终端110、服务器120,以及通信网络130。
终端110中显示有数据查询界面,其中包括多个索引关键字,用户通过终端110对多个索引关键字中的至少两个索引关键字进行要求设置后,通过通信网络130向服务器120发送索引请求,索引请求中包括至少两个关键字所设置的索引要求。
服务器120中包括数据表对应的倒排索引检索系统121,其中,该倒排索引检索系统121中包括根据多个数据表的元数据对数据表进行重新整合后得到的索引表。服务器120在索引系统中对符合索引要求的对象进行查询后,将查询结果通过通信网络130返回至终端110进行显示。
其中,终端110包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备等终端中的至少一种,服务器120可以是物理服务器,也可以是提供云计算服务的云服务器,且服务器可以实现为一台服务器,也可以是多个服务器构成的服务器集群或分布式系统。终端110和服务器120可以通过有线或无线通信方式进行直接或间接连接,本申请实施例对此不加以限定。
结合上述说明,对本申请实施例的应用场景进行举例说明:
在信息推广的应用场景中,后台服务器需要查询到符合推荐要求的用户进行信息的推送,首先,管理员在管理员终端中设置针对性的用户信息,如:性别为女,学历为硕士,工作地点在第一地区范围内的用户,根据上述用户信息生成索引条件,并向后台服务器发送索引请求,索引请求中包括上述索引条件,后台服务器根据索引条件索引得到符合条件的用户,并向管理员终端反馈符合索引条件的用户信息,从而管理员终端向用户信息对应的用户帐号推送推广消息。
值得注意的是,上述举例中,以信息推广场景为例进行说明,在一些实施例中,本申请实施例提供的数据处理方法还可以应用于其他需要进行数据交叉查询的场景中,本申请实施例对具体的应用场景不加以限定。
示意性的,图2是本申请一个示例性实施例提供的倒排索引检索系统的框架示意图,如图2所示,以该系统应用于用户画像数据处理为例进行说明,该倒排索引检索系200中包括:应用层220、业务逻辑层230、数据存储层240、数据聚合层250以及用户画像层260。
其中,应用层220主要用于实现用户定向,是指根据用户的历史行为表现和基础数据对用户进行定向内容投放;相似人群扩展(LookAlike),是基于种子用户,通过一定的算法评估模型,找到更多拥有潜在关联性的相似人群的技术;用户洞察和特征管理等交互。
业务逻辑层230主要负责鉴权,也即进行业务权限验证;将应用层确定的特征筛选逻辑转换为特地的查询语句;管理用户上传、导出文件;以及监控不同索引任务的状态等。
数据存储层240主要用于存储用户画像数据、用户上传数据、用户定向数据、LookAlike数据和任务相关信息。
数据聚合层250主要辅助则将存储于不同库表的特征收拢聚合为一张库表,并对聚合后的库表入库进行存储。
用户画像层260主要用于保存用户的画像信息,不同的画像虚拟存放在不同的库表中,且更新的粒度不同。
结合上述介绍,对本申请实施例中提供的数据处理方法进行介绍,图3是本申请一个示例性实施例提供的数据处理方法的流程图,以该方法应用于服务器中为例进行说明,如图3所示,该方法包括:
步骤301,获取目标数据表,目标数据表中包括与目标对象对应的至少两种索引关键字。
获取目标数据表的方式包括:从服务器的数据库中获取与当前系统相关的数据表作为目标数据表;或,接收其他服务器发送的与当前系统相关的数据表作为目标数据表。
示意性的,以用户画像系统为例进行说明,服务器的数据库中本身存储有与用户相关的用户画像数据表,且服务器的数据库中存储有用户画像数据相关的多个数据表,则获取与用户画像数据相关的数据表作为目标数据表,如:用户基础信息表、用户行为数据表、用户兴趣画像数据表等。
在一些实施例中,上述数据表存储于不同的服务器中,则,服务器接收各个服务器发送的目标数据表。
在一些实施例中,服务器获取至少两个目标数据表,从而对至少两个目标数据表进行整合。
目标数据表中包括与目标对象对应的至少两种关键字,示意性的,以目标对象为用户为例,与用户对应的关键字包括:姓名、性别、年龄、地理位置、历史行为数据、兴趣标签等。
步骤302,对目标数据表对应的元数据信息进行合并,得到元数据管理表。
可选地,目标数据表还对应有元数据(Metadata)信息。其中,元数据,又称中介数据、中继数据,为用于描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
可选地,在对元数据信息进行合并时,首先根据索引关键字确定该目标数据表中的基础元数据,得到基础字段信息表;从而以基础字段信息表为核心,根据目标数据表中的索引关键字生成其他元数据信息表,得到元数据管理表。
也即,针对目标数据表,以特征字段信息为核心,衍生出相关的其他元数据信息管理表。
在一些实施例中,以基础字段信息表为核心生成数据主题表,将基础字段信息表中的主题字段外键链接至数据主题表,该数据主题表用于指示数据对应的主题关系;以基础字段信息表为和核心生成元数据信息表,将基础字段信息表中的表字段外键链接至元数据信息表,元数据信息表用于指示目标数据表中的元数据信息;以基础字段信息表为核心生成元数据信息管理表,将基础字段信息表中的数据类型字段外键链接至元数据信息管理表,元数据信息管理表用于指示数据类型和值域。根据基础字段信息表和其他元数据信息表之间的外键链接关系,确定元数据管理表。
示意性的,目标数据表的基础信息包括如下信息:
标签标识(identity,id),全局唯一(tag_id);标签字段名称(tag_field);标签中文名称(field_name);标签物理存储类型(field_physic_type),如:bigint或string存储类型;责任人(responser),用于表示负责该元数据信息的责任人。
以上述基础信息为基础,扩散得到衍生属性,包括:
主题id(theme_id):该特征字段对应的主题,通过外键链接至主题表;
表id(table_id):该特征字段对应的表信息,通过外键链接至元数据信息管理表;
标签逻辑类型(logic_type):用于指示该特征字段是分类标签还是连续标签,在一些实施例中,如果属于分类标签,则通过外键链接至分类值域元数据信息管理表。
示意性的,请参考图4,其示出了本申请一个示例性实施例提供的元数据管理表的结构示意图,如图4所示,该元数据管理表中包括画像字段信息表410(即对应上述基础字段信息表),以基础字段信息表中的特征字段信息为核心,衍生出相关的其他元数据信息管理表。如图4示出的用户画像分类标识含义映射表420、画像数据表430、画像任务信息表440、画像主题信息表450,以及由画像主题信息表450衍生得到的画像主题视图460。
其中,画像字段信息表410中包括如下字段:标签id、标签字段名、标签名称、存储类型、逻辑类型、主题id、计算说明、画像负责人、使用说明、在准确率、有效期、覆盖用户数、所在表id、标签类型、备注、有效状态、原始字段等。
衍生得到的用户画像分类标识含义映射表420中包括如下字段:标签id、字段、表名、数据库名、有效状态、覆盖用户数、标签值、标签翻译。
衍生得到的画像数据表430中包括如下字段:表id、表名称、周期类型、数据库、任务id、时间分区字段、时间分区格式、主键、存储类型、起始数据时间、终止数据时间等。
衍生得到的画像任务信息表440包括如下字段:任务id、任务计算平台类型、任务链接、时间周期类型、负责人、更新时间、任务启动时间-日、任务启动时间-小时、任务启动时间-分钟、任务启动时间-星期、状态。
衍生得到的画像主题信息表450包括如下字段:主题id、父主题id、主题名称、主题等级、状态等。
由画像主题信息表450衍生得到的画像主题视图460中包括如下结构:大类id、大类名称、一级主题id、一级主题名称、二级主题id、二级主题名称、三级主题id、三级主题名称、四级主题id、四级主题名称等。
对上述元数据信息聚合后,最终得到画像元数据表。并将画像元数据表应用于后续的应用层、业务逻辑层和数据聚合层。
示意性的,请参考图5,将画像字段信息表510、用户画像分类标识含义映射表520、画像数据表530、画像任务信息表540、画像主题信息表550,以及画像修正表560聚合,得到画像元数据表570,将画像元数据表570应用于应用层581、业务逻辑层582和数据聚合层583。
步骤303,根据元数据管理表对目标数据表中的数据进行特征映射,得到目标数据表中与索引关键字对应的数据特征,生成数据特征表。
可选地,根据目标数据表中的数据类型不同,所进行的特征映射方式也不同。示意性的,针对分类数据,则以分类值域的方式进行映射。
步骤304,对数据特征表进行合并,得到索引表。
在一些实施例中,数据特征表中包括宽表特征和纵表特征,则将宽表特征和纵表特征分别进行合并,并将得到的宽表和纵表合并后,得到索引表。
其中,索引表用于将目标对象和目标对象对应的数据特征对应存储。
综上所述,本申请实施例提供的数据处理方法,通过将目标数据表的元数据信息构建元数据管理表,并根据元数据管理表生成与目标数据表对应的索引表,从而通过索引表实现对数据的倒排索引,提高了对不同类型的数据进行交叉查询的效率,减少了对数据进行索引查询所需要的耗时时长。
在一个可选的实施例中,针对不同类型的数据所进行的特征映射不同,图6是本申请另一个示例性实施例提供的数据处理方法的流程图,以该方法应用于服务器中为例进行说明,如图6所示,该方法包括:
步骤601,获取目标数据表,目标数据表中包括与目标对象对应的至少两种索引关键字。
获取目标数据表的方式包括:从服务器的数据库中获取与当前系统相关的数据表作为目标数据表;或,接收其他服务器发送的与当前系统相关的数据表作为目标数据表。
目标数据表中包括与目标对象对应的至少两种关键字,示意性的,以目标对象为用户为例,与用户对应的关键字包括:姓名、性别、年龄、地理位置、历史行为数据、兴趣标签等。
步骤602,对目标数据表对应的元数据信息进行合并,得到元数据管理表。
可选地,在对元数据信息进行合并时,首先根据索引关键字确定该目标数据表中的基础元数据,得到基础字段信息表;从而以基础字段信息表为核心,根据目标数据表中的索引关键字生成其他元数据信息表,得到元数据管理表。
也即,针对目标数据表,以特征字段信息为核心,衍生出相关的其他元数据信息管理表。
在一些实施例中,以基础字段信息表为核心生成数据主题表,将基础字段信息表中的主题字段外键链接至数据主题表,该数据主题表用于指示数据对应的主题关系;以基础字段信息表为和核心生成元数据信息表,将基础字段信息表中的表字段外键链接至元数据信息表,元数据信息表用于指示目标数据表中的元数据信息;以基础字段信息表为核心生成元数据信息管理表,将基础字段信息表中的数据类型字段外键链接至元数据信息管理表,元数据信息管理表用于指示数据类型和值域。根据基础字段信息表和其他元数据信息表之间的外键链接关系,确定元数据管理表。
步骤603,根据元数据管理表对目标数据表中的数据进行特征映射,得到目标数据表中与索引关键字对应的数据特征,生成数据特征表。
可选地,根据目标数据表中的数据类型不同,所进行的特征映射方式也不同。
在一些实施例中,目标数据表中包括索引关键字对应的分类数据,则根据元数据管理表将目标数据表中的分类数据映射至与分类类型对应的值域内,得到分类数据对应的特征数值作为数据特征。
示意性的,tag_id为10000的特征为用户学历,对应的分类值域为小学,初中,高中,本科,研究生,博士6个值域,此时会将其映射到0-5六个数字(记为sort_id),通过以下方式生成唯一加密特征hex_id:
hex_id=concat('h',lower(hex(concat(tag_id,'000',sort_id))))
在一些实施例中,目标数据表中包括索引关键字对应的位置服务数据,即基于位置的服务(Location Based Services,LBS)数据,则根据元数据管理表将预先设定的地图数据划分为n个网格,n为正整数,将n个网格通过网格标识进行标注,将位置服务数据映射至网格中,得到位置服务数据的网格标识作为数据特征。
请参考图7,其示出了本申请一个示例性实施例提供的位置服务数据的映射过程,如图7所示,首先获取表特征经纬度数据710,将经纬度数据进行网络映射,得到网格数据720,其中包括网格id,将网格数据聚合后,最终得到位置服务数据对应的数据特征730。
示意性的,首先将地图用2亿个100m×100m的网格切分,每个网格用唯一的id标识,100m×100m的网格划分方法:
gridy=ceil(经度×1000),gridx=ceil(纬度×1000)
其中,gridy表示网格的y轴坐标,gridx表示网格的x轴坐标,ceil表示计算函数。可选地,坐标系为针对地图划分的网格设置的直角坐标系。
网格id的计算方法:
网格id=gridx-(73×1000)+(136-73)×1000×(gridy-3×1000)
将用户的经纬度信息映射至一个网格,对于每个用户,将其所有的经纬度信息聚合为网格id的字符串grid_id_list,并将grid_id_list以文本(text)形式存储,位置检索使用网格id字符串检索的方式检索,在一些实施例中,1万个网格(100平方公里)检索速度小于3s。
在一些实施例中,上述数据类型中包括文本数据、LBS数据以及数值数据。
1、文本数据常用来存储类型信息,如:用户的爱好,兴趣标签等。针对文本数据,以空格作为分隔进行拼接,并作为一个特征以text形式存储。
2、LBS数据的映射方式请参考上述位置服务数据的映射过程,此处不再赘述。
3、数值数据常用来存储连续特征,比如年龄、次数等;或者存储数值化的类别特征,比如学历,性别等;对于此类特征,直接以数值的形式存储。
步骤604,响应于数据特征表中包括宽表特征,将宽表特征横向拼接,得到宽表。
在一些实施例中,首先判断表类型,对于宽表特征,同一张宽表进行拼接,拼接方式“key1:value1,key2:value2,…,keyN:valueN”,也即,将键值对以及横向拼接衔接。
步骤605,响应于数据特征表中包括纵表特征,将纵表特征中的值域字段在值域字段存储单元中依次写入,将纵表特征中的字段设定值在字段存储单元中依次写入,得到纵表。
在一些实施例中,首先判断表类型,对于纵表特征,拼接为“key:value”,其中,key中对应依次写入了值域字段,value中对应依次写入了字段设定值。
步骤606,将宽表和纵表合并,得到索引表。
可选地,将宽表和纵表以特征的形式横向拼接,得到索引表。
综上所述,本申请实施例提供的数据处理方法,通过将目标数据表的元数据信息构建元数据管理表,并根据元数据管理表生成与目标数据表对应的索引表,从而通过索引表实现对数据的倒排索引,提高了对不同类型的数据进行交叉查询的效率,减少了对数据进行索引查询所需要的耗时时长。
本实施例提供的方法,能同时处理经纬度数据,文本数据,数值数据等不同类型数据的交叉查询,提高了数据查询过程中的反馈效率和反馈速度。
本实施例提供的方法,实现了对宽表以及纵表进行自动数据聚合,自动入库的画像系统设计方法,提高了数据处理效率。
在一些实施例中,创建完毕索引表后,在对数据进行索引时,根据索引表中的标识和映射值进行索引,并完成对应结果的返回。图8是本申请另一个示例性实施例提供的数据处理方法的流程图,以该方法应用于服务器中为例进行说明,如图8所示,该方法包括:
步骤801,获取目标数据表,目标数据表中包括与目标对象对应的至少两种索引关键字。
获取目标数据表的方式包括:从服务器的数据库中获取与当前系统相关的数据表作为目标数据表;或,接收其他服务器发送的与当前系统相关的数据表作为目标数据表。
步骤802,对目标数据表对应的元数据信息进行合并,得到元数据管理表。
可选地,在对元数据信息进行合并时,首先根据索引关键字确定该目标数据表中的基础元数据,得到基础字段信息表;从而以基础字段信息表为核心,根据目标数据表中的索引关键字生成其他元数据信息表,得到元数据管理表。
也即,针对目标数据表,以特征字段信息为核心,衍生出相关的其他元数据信息管理表。
在一些实施例中,以基础字段信息表为核心生成数据主题表,将基础字段信息表中的主题字段外键链接至数据主题表,该数据主题表用于指示数据对应的主题关系;以基础字段信息表为和核心生成元数据信息表,将基础字段信息表中的表字段外键链接至元数据信息表,元数据信息表用于指示目标数据表中的元数据信息;以基础字段信息表为核心生成元数据信息管理表,将基础字段信息表中的数据类型字段外键链接至元数据信息管理表,元数据信息管理表用于指示数据类型和值域。根据基础字段信息表和其他元数据信息表之间的外键链接关系,确定元数据管理表。
步骤803,根据元数据管理表对目标数据表中的数据进行特征映射,得到目标数据表中与索引关键字对应的数据特征,生成数据特征表。
可选地,根据目标数据表中的数据类型不同,所进行的特征映射方式也不同。示意性的,针对分类数据,则以分类值域的方式进行映射。
步骤804,对数据特征表进行合并,得到索引表。
在一些实施例中,数据特征表中包括宽表特征和纵表特征,则将宽表特征和纵表特征分别进行合并,并将得到的宽表和纵表合并后,得到索引表。
其中,索引表用于将目标对象和目标对象对应的数据特征对应存储。
步骤805,接收索引请求,该索引请求中包括至少两个索引关键字对应的关键字要求。
可选地,索引请求为终端发送至服务器的,也即,用户在终端中对索引条件进行设定后,向服务器发送索引请求,其中,索引请求中的关键字要求与用户设定的索引条件对应。
示意性的,请参考图9,在终端显示屏中显示有索引界面900,其中显示有用户设定的索引条件910,其中包括索引条件911、索引条件912和索引条件913,索引条件911用于表示工作地点位于时代广场,索引条件912用于表示性别为女,索引条件913用于表示过滤掉学历为硕士的用户。
终端根据索引条件911、索引条件912和索引条件913向服务器发送索引请求,索引请求中包括用于指示上述索引条件的关键字要求。
步骤806,从索引表中获取数据特征符合关键字要求的目标对象作为索引结果。
示意性的,查询在某个办公地为某个大厦且用户年龄大于18的用户,假设hex_id=h1111为办公地特征,hex_id=h2222为年龄特征,只需要查询h1111带有该大厦的经纬度,同时h2222大于18即可实现经纬度与年龄的交叉查询;至此,数据从原始数据表到倒排索引系统构建完成,我们只需要通过页面简单的点击,即可实现多种数据类型的交叉查询。
步骤807,返回索引结果。
综上所述,本申请实施例提供的数据处理方法,通过将目标数据表的元数据信息构建元数据管理表,并根据元数据管理表生成与目标数据表对应的索引表,从而通过索引表实现对数据的倒排索引,提高了对不同类型的数据进行交叉查询的效率,减少了对数据进行索引查询所需要的耗时时长。
本实施例提供的方法,提出了一种基于倒排索引的快速检索引擎,构建出能支持多模态交叉查询的画像系统,能同时处理经纬度数据,文本数据,数值数据等不同类型数据的交叉查询,达到亿级别画像查询在秒级间返回结果。
本实施例提供的方法,能够对宽表以及纵表做到自动数据聚合,自动入库的画像系统设计方法。
本实施例提供的方法,解决了大数据数据分析领域难以对不同类型数据进行交叉查询,难以对十亿级别数据进行快速下转分析秒级返回的困难。
图10是本申请一个示例性实施例提供的整体技术框架示意图,如图10所示,以该技术框架应用于用户画像数据的索引文件生成过程中为例,首先获取画像数据1010,并确定画像数据1010的画像元数据1020。根据画像元数据1020生成定义文件1031,以及根据画像数据1010和画像元数据1020自动生成画像数据表1032。结合定义文件1031和画像数据表1032生成索引文件1040,并部署索引文件至索引系统1050中。
图11是本申请一个示例性实施例提供的数据处理装置的结构框图,如图11所示,该装置包括:
获取模块1110,用于获取目标数据表,所述目标数据表中包括与目标对象对应的至少两种索引关键字;
合并模块1120,用于对所述目标数据表对应的元数据信息进行合并,得到元数据管理表;
映射模块1130,用于根据所述元数据管理表对所述目标数据表中的数据进行特征映射,得到所述目标数据表中与所述索引关键字对应的数据特征,生成数据特征表;
所述合并模块1120,还用于对所述数据特征表进行合并,得到索引表,所述索引表用于将所述目标对象和所述目标对象对应的所述数据特征对应存储。
在一个可选的实施例中,如图12所示,所述合并模块1120,包括:
确定单元1121,用于根据所述索引关键字确定所述目标数据表中的基础元数据,得到基础字段信息表;
生成单元1122,用于以所述基础字段信息表为核心,根据所述目标数据表中的索引关键字生成其他元数据信息表,得到所述元数据管理表。
在一个可选的实施例中,所述生成单元1122,还用于以所述基础字段信息表为核心生成数据主题表;将所述基础字段信息表中的主题字段外键链接至所述数据主题表,所述数据主题表用于指示数据对应的主题关系;
所述生成单元1122,还用于以所述基础字段信息表为核心生成元数据信息表;将所述基础字段信息表中的表字段外键链接至所述元数据信息表,所述元数据信息表用于指示所述目标数据表中的元数据信息;
所述生成单元1122,还用于以所述基础字段信息表为核心生成元数据信息管理表;将所述基础字段信息表中的数据类型字段外键链接所述元数据信息管理表,所述元数据信息管理表用于指示数据类型和值域;
所述确定单元1122,还用于根据所述基础字段信息表和其他元数据信息表之间的外键链接关系,确定所述元数据管理表。
在一个可选的实施例中,所述目标数据表中包括索引关键字对应的分类数据;
所述映射模块1130,还用于根据所述元数据管理表将所述目标数据表中的所述分类数据映射至与分类类型对应的值域内,得到所述分类数据对应的特征数值作为所述数据特征。
在一个可选的实施例中,所述目标数据表中包括索引关键字对应的位置服务数据;
所述映射模块1130,还用于根据所述元数据管理表将预先设定的地图数据划分为n个网格,n为正整数;将n个网格通过网格标识进行标注;将所述位置服务数据映射至网格中,得到所述位置服务数据的网格标识作为所述数据特征。
在一个可选的实施例中,所述合并模块1120,还用于响应于所述数据特征表中包括宽表特征,将所述宽表特征横向拼接,得到宽表;响应于所述数据特征表中包括纵表特征,将所述纵表特征中的值域字段在值域字段存储单元中依次写入,将所述纵表特征中的字段设定值在字段存储单元中依次写入,得到纵表;
所述合并模块1120,还用于将所述宽表和所述纵表合并,得到所述索引表。
在一个可选的实施例中,所述合并模块1120,还用于将所述宽表和所述纵表以特征的形式横向拼接,得到所述索引表。
在一个可选的实施例中,所述装置还包括:
接收模块1140,用于接收索引请求,所述索引请求中包括至少两个索引关键字对应的关键字要求;
所述获取模块1110,还用于从所述索引表中获取所述数据特征符合所述关键字要求的所述目标对象作为索引结果;
发送模块1150,用于返回所述索引结果。
综上所述,本申请实施例提供的数据处理装置,通过将目标数据表的元数据信息构建元数据管理表,并根据元数据管理表生成与目标数据表对应的索引表,从而通过索引表实现对数据的倒排索引,提高了对不同类型的数据进行交叉查询的效率,减少了对数据进行索引查询所需要的耗时时长。
需要说明的是:上述实施例提供的数据处理装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图13示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:
服务器1300包括中央处理单元(Central Processing Unit,CPU)1301、包括随机存取存储器(Random Access Memory,RAM)1302和只读存储器(Read Only Memory,ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。服务器1300还包括用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1306。
大容量存储设备1306通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。大容量存储设备1306及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说,大容量存储设备1306可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1306可以统称为存储器。
根据本申请的各种实施例,服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的数据处理方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的数据处理方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的数据处理方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种数据处理方法,其特征在于,所述方法包括:
获取目标数据表,所述目标数据表中包括与目标对象对应的至少两种索引关键字;
对所述目标数据表对应的元数据信息进行合并,得到元数据管理表;
根据所述元数据管理表对所述目标数据表中的数据进行特征映射,得到所述目标数据表中与所述索引关键字对应的数据特征,生成数据特征表;
对所述数据特征表进行合并,得到索引表,所述索引表用于将所述目标对象和所述目标对象对应的所述数据特征对应存储。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标数据表对应的元数据信息进行合并,得到元数据管理表,包括:
根据所述索引关键字确定所述目标数据表中的基础元数据,得到基础字段信息表;
以所述基础字段信息表为核心,根据所述目标数据表中的索引关键字生成其他元数据信息表,得到所述元数据管理表。
3.根据权利要求2所述的方法,其特征在于,所述以所述基础字段信息表为核心,根据所述目标数据表中的索引关键字生成其他元数据信息表,得到所述元数据管理表,包括:
以所述基础字段信息表为核心生成数据主题表;将所述基础字段信息表中的主题字段外键链接至所述数据主题表,所述数据主题表用于指示数据对应的主题关系;
以所述基础字段信息表为核心生成元数据信息表;将所述基础字段信息表中的表字段外键链接至所述元数据信息表,所述元数据信息表用于指示所述目标数据表中的元数据信息;
以所述基础字段信息表为核心生成元数据信息管理表;将所述基础字段信息表中的数据类型字段外键链接所述元数据信息管理表,所述元数据信息管理表用于指示数据类型和值域;
根据所述基础字段信息表和其他元数据信息表之间的外键链接关系,确定所述元数据管理表。
4.根据权利要求1至3任一所述的方法,其特征在于,所述目标数据表中包括索引关键字对应的分类数据;
所述根据所述元数据管理表对所述目标数据表中的数据进行特征映射,得到所述目标数据表中与所述索引关键字对应的数据特征,包括:
根据所述元数据管理表将所述目标数据表中的所述分类数据映射至与分类类型对应的值域内,得到所述分类数据对应的特征数值作为所述数据特征。
5.根据权利要求1至3任一所述的方法,其特征在于,所述目标数据表中包括索引关键字对应的位置服务数据;
所述根据所述元数据管理表对所述目标数据表中的数据进行特征映射,得到所述目标数据表中与所述索引关键字对应的数据特征,包括:
根据所述元数据管理表将预先设定的地图数据划分为n个网格,n为正整数;
将n个网格通过网格标识进行标注;
将所述位置服务数据映射至网格中,得到所述位置服务数据的网格标识作为所述数据特征。
6.根据权利要求1至3任一所述的方法,其特征在于,所述对所述数据特征表进行合并,得到索引表,包括:
响应于所述数据特征表中包括宽表特征,将所述宽表特征横向拼接,得到宽表;
响应于所述数据特征表中包括纵表特征,将所述纵表特征中的值域字段在值域字段存储单元中依次写入,将所述纵表特征中的字段设定值在字段存储单元中依次写入,得到纵表;
将所述宽表和所述纵表合并,得到所述索引表。
7.根据权利要求6所述的方法,其特征在于,所述将所述宽表和所述纵表合并,得到所述索引表,包括:
将所述宽表和所述纵表以特征的形式横向拼接,得到所述索引表。
8.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
接收索引请求,所述索引请求中包括至少两个索引关键字对应的关键字要求;
从所述索引表中获取所述数据特征符合所述关键字要求的所述目标对象作为索引结果;
返回所述索引结果。
9.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标数据表,所述目标数据表中包括与目标对象对应的至少两种索引关键字;
合并模块,用于对所述目标数据表对应的元数据信息进行合并,得到元数据管理表;
映射模块,用于根据所述元数据管理表对所述目标数据表中的数据进行特征映射,得到所述目标数据表中与所述索引关键字对应的数据特征,生成数据特征表;
所述合并模块,还用于对所述数据特征表进行合并,得到索引表,所述索引表用于将所述目标对象和所述目标对象对应的所述数据特征对应存储。
10.根据权利要求9所述的装置,其特征在于,所述合并模块,包括:
确定单元,用于根据所述索引关键字确定所述目标数据表中的基础元数据,得到基础字段信息表;
生成单元,用于以所述基础字段信息表为核心,根据所述目标数据表中的索引关键字生成其他元数据信息表,得到所述元数据管理表。
11.根据权利要求10所述的装置,其特征在于,所述生成单元,还用于以所述基础字段信息表为核心生成数据主题表;将所述基础字段信息表中的主题字段外键链接至所述数据主题表,所述数据主题表用于指示数据对应的主题关系;
所述生成单元,还用于以所述基础字段信息表为核心生成元数据信息表;将所述基础字段信息表中的表字段外键链接至所述元数据信息表,所述元数据信息表用于指示所述目标数据表中的元数据信息;
所述生成单元,还用于以所述基础字段信息表为核心生成元数据信息管理表;将所述基础字段信息表中的数据类型字段外键链接所述元数据信息管理表,所述元数据信息管理表用于指示数据类型和值域;
所述确定单元,还用于根据所述基础字段信息表和其他元数据信息表之间的外键链接关系,确定所述元数据管理表。
12.根据权利要求9至11任一所述的装置,其特征在于,所述目标数据表中包括索引关键字对应的分类数据;
所述映射模块,还用于根据所述元数据管理表将所述目标数据表中的所述分类数据映射至与分类类型对应的值域内,得到所述分类数据对应的特征数值作为所述数据特征。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的数据处理方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的数据处理方法。
CN202011119603.5A 2020-10-19 2020-10-19 数据处理方法、装置、设备及可读存储介质 Pending CN114385620A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202011119603.5A CN114385620A (zh) 2020-10-19 2020-10-19 数据处理方法、装置、设备及可读存储介质
PCT/CN2021/121724 WO2022083436A1 (zh) 2020-10-19 2021-09-29 数据处理方法、装置、设备及可读存储介质
US17/947,216 US20230013086A1 (en) 2020-10-19 2022-09-19 Systems and Methods for Using Machine Learning Models to Automatically Identify and Compensate for Recurring Charges
US17/952,829 US20230024345A1 (en) 2020-10-19 2022-09-26 Data processing method and apparatus, device, and readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011119603.5A CN114385620A (zh) 2020-10-19 2020-10-19 数据处理方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114385620A true CN114385620A (zh) 2022-04-22

Family

ID=81194300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011119603.5A Pending CN114385620A (zh) 2020-10-19 2020-10-19 数据处理方法、装置、设备及可读存储介质

Country Status (3)

Country Link
US (2) US20230013086A1 (zh)
CN (1) CN114385620A (zh)
WO (1) WO2022083436A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579584A (zh) * 2022-05-06 2022-06-03 腾讯科技(深圳)有限公司 数据表处理方法、装置、计算机设备和存储介质
CN117149100A (zh) * 2023-11-01 2023-12-01 恒生电子股份有限公司 数据存储方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11823201B2 (en) * 2021-02-04 2023-11-21 Visa International Service Association Intelligent recurring transaction processing and fraud detection
CN114820989B (zh) * 2022-06-24 2022-10-18 中国空气动力研究与发展中心计算空气动力研究所 基于倒排索引的非结构网格共面关系快速建立方法
US20240193612A1 (en) * 2022-12-08 2024-06-13 Truist Bank Actionable insights for resource transfers

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140200930A1 (en) * 2001-11-28 2014-07-17 Deloitte Development Llc Methods and Systems for Determining the Importance of Individual Variables in Statistical Models
US7895191B2 (en) * 2003-04-09 2011-02-22 International Business Machines Corporation Improving performance of database queries
US20090210389A1 (en) * 2008-02-20 2009-08-20 Microsoft Corporation System to support structured search over metadata on a web index
US8352474B2 (en) * 2010-06-16 2013-01-08 Fuji Xerox Co., Ltd. System and method for retrieving information using a query based index
US20130246334A1 (en) * 2011-12-27 2013-09-19 Mcafee, Inc. System and method for providing data protection workflows in a network environment
US10459904B2 (en) * 2012-03-29 2019-10-29 Spotify Ab Real time mapping of user models to an inverted data index for retrieval, filtering and recommendation
US10417649B2 (en) * 2012-09-28 2019-09-17 Oracle International Corporation Business process global searching
WO2015001452A1 (en) * 2013-07-03 2015-01-08 Visa Cape Town (Pty) Ltd System and method for authorizing direct debit transactions
US9390452B1 (en) * 2015-01-28 2016-07-12 Allstate Insurance Company Risk unit based policies
US20170193041A1 (en) * 2016-01-05 2017-07-06 Sqrrl Data, Inc. Document-partitioned secondary indexes in a sorted, distributed key/value data store
CN107402942B (zh) * 2016-07-28 2020-03-03 北京都在哪网讯科技有限公司 索引方法及装置
CN108427736B (zh) * 2018-02-28 2020-01-17 华为技术有限公司 一种用于查询数据的方法
CN111488340B (zh) * 2019-01-29 2023-09-12 菜鸟智能物流控股有限公司 数据处理方法、装置及电子设备
US20210125274A1 (en) * 2019-10-24 2021-04-29 Keybank National Association System and method for automatic savings and debt paydown
US11861529B2 (en) * 2019-10-29 2024-01-02 Inspirato, Llc Subscription services awards
CN111782663B (zh) * 2020-05-21 2023-09-01 浙江邦盛科技股份有限公司 一种提升聚合查询效率的聚合索引结构及聚合索引方法
US11544716B2 (en) * 2020-06-11 2023-01-03 Fidelity Information Services, Llc Systems and methods for processing transaction disputes and processing transactions associated with compromised accounts
US11233396B1 (en) * 2020-08-12 2022-01-25 Capital One Services, Llc Methods and systems for providing an estimated utility expenditure
US20220229980A1 (en) * 2020-10-16 2022-07-21 Plaid Inc. Systems and methods for data parsing
US20220188943A1 (en) * 2020-12-15 2022-06-16 Sap Se Simulation and prediction platform services in integrated system environment

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579584A (zh) * 2022-05-06 2022-06-03 腾讯科技(深圳)有限公司 数据表处理方法、装置、计算机设备和存储介质
CN117149100A (zh) * 2023-11-01 2023-12-01 恒生电子股份有限公司 数据存储方法及装置
CN117149100B (zh) * 2023-11-01 2024-04-23 恒生电子股份有限公司 数据存储方法及装置

Also Published As

Publication number Publication date
US20230024345A1 (en) 2023-01-26
WO2022083436A1 (zh) 2022-04-28
US20230013086A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
CN114385620A (zh) 数据处理方法、装置、设备及可读存储介质
US20190272478A1 (en) Generating feature vectors from rdf graphs
CN111191125A (zh) 一种基于标签化的数据分析方法
US20170212930A1 (en) Hybrid architecture for processing graph-based queries
CN112182045B (zh) 元数据管理方法、装置、计算机设备及存储介质
US11734241B2 (en) Efficient spatial indexing
CN109783484A (zh) 基于知识图谱的数据服务平台的构建方法及系统
CN110659283A (zh) 数据标签处理方法、装置、计算机设备及存储介质
CN111652658A (zh) 画像融合方法、装置、电子设备及计算机可读存储介质
CN114090760B (zh) 表格问答的数据处理方法、电子设备及可读存储介质
JPWO2003060764A1 (ja) 情報検索システム
CN114238085A (zh) 接口测试方法、装置、计算机设备、存储介质
CN116127047B (zh) 企业信息库的建立方法与装置
US20180150543A1 (en) Unified multiversioned processing of derived data
CN116737753A (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN111931034A (zh) 数据搜索方法、装置、设备及存储介质
CN111859042A (zh) 一种检索方法、装置及电子设备
CN111949649A (zh) 一种动态本体存储系统、存储方法、数据查询方法
CN111008198A (zh) 业务数据获取方法、装置、存储介质、电子设备
US9230011B1 (en) Index-based querying of archived data sets
CN112765197B (zh) 数据查询方法、装置、计算机设备和存储介质
CN114880308A (zh) 一种基于大数据的元数据处理方法、装置、介质
CN114328965A (zh) 知识图谱更新方法、装置及计算机设备
CN115617774A (zh) 基于配置管理系统的数据处理方法、装置和计算机设备
CN112418260A (zh) 模型训练方法、信息提示方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40068125

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination