CN114490673B - 数据信息处理方法、装置、电子设备及存储介质 - Google Patents

数据信息处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114490673B
CN114490673B CN202210364879.2A CN202210364879A CN114490673B CN 114490673 B CN114490673 B CN 114490673B CN 202210364879 A CN202210364879 A CN 202210364879A CN 114490673 B CN114490673 B CN 114490673B
Authority
CN
China
Prior art keywords
feature
source
data
information
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210364879.2A
Other languages
English (en)
Other versions
CN114490673A (zh
Inventor
钟子宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210364879.2A priority Critical patent/CN114490673B/zh
Publication of CN114490673A publication Critical patent/CN114490673A/zh
Application granted granted Critical
Publication of CN114490673B publication Critical patent/CN114490673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • G06F16/24566Recursive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据信息处理的方法、装置、电子设备及计算机可读存储介质;方法包括:基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个特征源表信息的参数序列;基于参数序列对数据源进行匹配处理,得到特征源表信息对应的特征字段;对特征字段进行拼接处理,生成多个数据源对应的特征字典;对特征字典中的特征字段进行聚合处理,得到特征源表信息对应的数据源特征表;其中,数据源特征表包括特征字段和关联字段,关联字段用于表示多个数据源之间的关联关系;基于关联字段对每个数据源特征表进行递归拼接处理,得到与信息构建领域相适配的特征宽表。通过本申请,能够提高数据信息处理的效率。

Description

数据信息处理方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种数据信息处理方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,在构建模型对具体的应用场景进行预测之前,首先需要通过对海量数据进行收集和整合,并将数据的特征进行归类进而在模型训练和预测中进行使用,例如身份信息识别技术以及广告推荐技术等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
相关技术中,通过关联规则匹配的方法无法降低宽表匹配时候的计算复杂性,从而耗费大量计算资源。
发明内容
本申请实施例提供一种数据信息处理方法、装置、电子设备及计算机可读存储介质,能够基于数据源中的特征源表信息生成特征宽表,提高数据信息处理的效率,节约计算资源。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种数据信息处理方法,包括:
基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个所述特征源表信息的参数序列;
基于所述参数序列对所述数据源进行匹配处理,得到所述特征源表信息对应的特征字段;
对所述特征字段进行拼接处理,生成所述多个数据源对应的特征字典;
对所述特征字典中的特征字段进行聚合处理,得到所述特征源表信息对应的数据源特征表;其中,所述数据源特征表包括所述特征字段和关联字段,所述关联字段用于表示所述多个数据源之间的关联关系;
基于所述关联字段对每个所述数据源特征表进行递归拼接处理,得到与所述信息构建领域相适配的特征宽表。
本申请实施例提供一种数据信息的处理方法,包括:
基于目标领域的多个数据源分别对应的特征源表信息,生成用于表征多个所述特征源表信息的参数序列;
基于所述参数序列对所述数据源进行匹配处理,得到所述特征源表信息对应的特征字段;
对所述特征字段进行拼接处理,生成所述多个数据源对应的特征字典;
对所述特征字典中的特征字段进行聚合处理,得到所述特征源表信息对应的数据源特征表;其中,所述数据源特征表包括所述特征字段和关联字段,所述关联字段用于表示所述多个数据源之间的关联关系;
基于所述关联字段对每个所述数据源特征表进行递归拼接处理,得到与所述目标领域相适配的特征宽表。
本申请实施例提供一种数据信息处理装置,包括:
参数序列生成模块,用于基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个所述特征源表信息的参数序列;
特征字段生成模块,用于基于所述参数序列对所述数据源进行匹配处理,得到所述特征源表信息对应的特征字段;
拼接模块,用于对所述特征字段进行拼接处理,生成所述多个数据源对应的特征字典;
聚合模块,用于对所述特征字典中的特征字段进行聚合处理,得到所述特征源表信息对应的数据源特征表;其中,所述数据源特征表包括所述特征字段和关联字段,所述关联字段用于表示所述多个数据源之间的关联关系;
特征宽表生成模块,用于基于所述关联字段对每个所述数据源特征表进行递归拼接处理,得到与所述信息构建领域相适配的特征宽表。
上述技术方案中,获取模块用于获取所述多个数据源的地址;
基于所述地址,从所述多个数据源中分别提取对应的所述特征源表信息。
上述技术方案中,获取模块还用于显示数据源地址界面,其中,所述数据源地址界面包括多个候选数据源的地址;
响应于针对所述候选数据源的地址选择操作,将选中的地址作为所述数据源的地址。
上述技术方案中,当所述特征源表信息通过所述特征源库名和特征源表名标识时,特征字段生成模块还用于针对所述参数序列中的任意一个所述参数执行以下处理:将所述参数包括的特征源库名、与所述多个数据源的特征源库名进行匹配,得到匹配的特征源库名;
将所述参数包括的所述特征源表名、与所述匹配的特征源库名对应的特征源表名进行匹配,得到匹配的特征源表名;
从所述匹配的特征源表名对应的特征源表中获取对应的特征字段;
所述参数序列中的参数通过所述特征源表信息表征,所述特征源表信息包括特征源库名和特征源表名。
上述技术方案中,当所述特征源表信息通过标识信息标识,所述标识信息为所述特征源库名或特征源表名时,特征字段生成模块还用于针对所述参数序列中的任意一个所述参数执行以下处理:将所述参数包括的标识信息、与所述多个数据源的标识信息进行匹配,得到匹配的标识信息;
从所述匹配的标识信息对应的特征源表中获取对应的特征字段;
所述参数序列中的参数通过所述特征源表信息表征,所述特征源表信息包括特征源库名和特征源表名。
上述技术方案中,拼接模块还用于针对任意一个所述数据源中对应的特征字段执行以下处理:将所述特征字段对应的特征源表信息作为前缀,与所述特征字段进行拼接,得到所述数据源对应的单一特征字典;
将多个所述单一特征字典进行拼接,得到所述多个数据源对应的特征字典。
上述技术方案中,聚合模块还用于在所述对所述特征字段进行拼接处理,生成所述多个数据源对应的特征字典之后,基于所述参数序列,获取所述数据源对应的行数;
将所述行数添加到所述特征字典中的库表尺寸字段;
按照所述库表尺寸字段,对所述特征字典中包括的单一特征字典进行降序排序,得到排序后的所述特征字典。
上述技术方案中,聚合模块还用于基于所述多个数据源对应的特征字典中的库表尺寸字段,确定每个所述数据源特征表的拼接顺序;
按照所述数据源特征表的拼接顺序、以及所述关联字段对应的相同关联字段的值,对所述数据源特征表进行拼接,得到与所述信息构建领域相适配的特征宽表。
上述技术方案中,聚合模块还用于基于所述参数序列,构建用于循环获取行数的指令语句;
执行所述指令语句,得到所述数据源对应的行数。
上述技术方案中,特征宽表生成模块还用于针对所述特征字典中的任一所述数据源对应的特征字段执行以下处理:基于所述特征字段在所述特征字典中的顺序,构建用于确定所述数据源对应的特征宽表结构;
基于所述特征宽表结构对所述特征字段的值进行拼接,得到所述数据源特征表。
本申请实施例提供一种用于数据信息处理的电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的数据信息处理的方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的数据信息处理的方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的数据信息处理的方法。
本申请实施例具有以下有益效果:
通过对特征字典中的特征字段进行聚合处理,得到特征源表信息对应的数据源特征表,并基于数据源特征表中的关联字段对每个数据源特征表进行递归拼接处理,得到与信息构建领域相适配的特征宽表,从而减小计算机资源的浪费,以提高数据信息处理效率。
附图说明
图1是本申请实施例提供的数据信息处理系统10的应用场景示意图;
图2是本申请实施例提供的用于数据信息处理的电子设备500的结构示意图;
图3是本申请实施例提供的数据信息处理方法的流程示意图一;
图4是本申请实施例提供的数据信息处理方法的流程示意图二;
图5是本申请实施例提供的针对数据源地址界面示意图;
图6是本申请实施例提供的另一种针对数据源地址界面示意图;
图7是本申请实施例提供的获取特征字段的流程示意图一;
图8是本申请实施例提供的获取特征字段的流程示意图二;
图9是本申请实施例提供的特征字典排序一个流程示意图;
图10是本申请实施例提供的数据信息处理方法的一个可选的流程示意图;
图11是本申请实施例提供的一个特征宽表生成流程示意图;
图12是本申请实施例提供的特征宽表生成流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)特征宽表:特征宽表是一种字段较多的数据库表,其通常是指业务主题相关的指标、维度以及属性关联在一起的数据库表。
2)关联规则:关联规则是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。
3)特征拼接:将两个或两个以上的数据库表,按照某种关联规则进行拼接,并生成新的特征数据库表的一种方法,其中新生成的特征库表的各个特征字段和特征字段对应的数值来源于每个数据库表的特征字段。
4)数据源(Data Source):数据的来源,在数据源中存储了所有建立数据库连接的信息。与通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,可以找到相应的数据库连接。
本申请实施例记载的信息处理方法可以应用于各种领域,例如可以是身份信息识别领域、广告推荐推荐领域等,即本申请实施例中的信息处理方法并不局限于某种领域。
本申请实施例提供了一种数据信息处理方法、装置、电子设备及计算机可读存储介质,能够预聚合信息构建领域的多个数据源,生成与信息构建领域相适配的特征宽表,从而提高数据信息处理的效率。
本申请实施例所提供的数据信息处理方法,可以由终端/服务器独自实现;也可以由终端和服务器协同实现,例如终端独自承担下文所述的数据信息处理方法,或者,终端向服务器发送针对数据信息处理的处理请求,服务器根据接收的针对数据信息处理的处理请求执行数据信息处理的方法,并向终端发送生成的神经网络模型,以通过神经网络模型预测对应的应用指标。
本申请实施例提供的用于神经网络模型构建的电子设备可以是各种类型的终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以服务器为例,例如可以是部署在云端的服务器集群,向用户开放人工智能云服务(AI as a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
例如,其中的一种人工智能云服务可以为数据信息处理服务,即云端的服务器封装有本申请实施例提供的数据信息处理的程序。开发人员通过终端(运行有客户端,例如配置客户端)调用云服务中的数据信息处理服务,以使部署在云端的服务器调用封装的数据信息处理程序,基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个特征源表信息的参数序列,基于参数序列对数据源进行匹配处理,得到特征源表信息对应的特征字段,对特征字段进行拼接处理,生成多个数据源对应的特征字典;对特征字典中的特征字段进行聚合处理,得到特征源表信息对应的数据源特征表,其中,数据源特征表包括特征字段和关联字段,关联字段用于表示多个数据源之间的关联关系,基于关联字段对每个数据源特征表进行递归拼接处理,得到与信息构建领域相适配的特征宽表。
在一个实施场景中,为了确定与信息构建领域相适配的特征宽表,服务器或者终端可以基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个特征源表信息的参数序列,基于参数序列对数据源进行匹配处理,得到特征源表信息对应的特征字段,对特征字段进行拼接处理,生成多个数据源对应的特征字典;对特征字典中的特征字段进行聚合处理,得到特征源表信息对应的数据源特征表,其中,数据源特征表包括特征字段和关联字段,关联字段用于表示多个数据源之间的关联关系,基于关联字段对每个数据源特征表进行递归拼接处理,得到与信息构建领域相适配的特征宽表。
例如,在信息识别系统中,调用本申请实施例提供的数据信息处理功能,信息识别项目包括身份识别场景,例如针对海量的用户信息,基于多个用户数据源中包括的特征源表信息,生成用于表征多个特征源表信息的参数序列,将用于表征用户数据的特征字段进行拼接处理,生成与多个数据源对应得特征字典。本申请实施例可以结合与信息识别系统中相适配的特征宽表,对需要通过门禁的行人进行身份的识别认证,以提高身份识别的准确性和效率性,加强门禁的安全系数。
例如,在新闻推荐系统中,调用本申请实施例提供的数据信息处理功能,新闻推荐项目包括新闻点击率预测场景以及新闻曝光率预测场景,例如针对新闻点击率,基于数据源表包括的用户标识和新闻标识(即关联字段),将数据源对应的用户和新闻特征,进行拼接聚合处理形成与新闻推送相适配的特征宽表,以特征宽表形成训练样本集,进而训练得到点击率预测模型或者新闻曝光率预测模型。本申请实施例可以结合特征宽表形成训练样本集,通过训练得到的点击率预测模型或者新闻曝光率预测模型,对新闻的点击率以及曝光率进行预测,进而根据新闻的点击率以及曝光率,确定是否推荐该新闻,以提高新闻推荐的准确性,向用户推荐更符合用户兴趣的新闻。
下面具体结合数据信息处理方法进行说明,参见图1,图1是本申请实施例提供的数据信息处理系统10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端200(运行有客户端,例如配置客户端)可以被用来获取针对数据信息处理请求,例如,用户在客户端中输入应用场景对应的多个特征表后,终端自动获取针对数据信息处理请求。
在一些实施例中,终端中运行的客户端中可以植入有数据信息处理的插件,用以在客户端本地实现数据信息处理的方法。例如,终端200获取针对数据信息处理请求后,调用数据信息处理的插件,以实现数据信息处理的方法,从基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个特征源表信息的参数序列,基于参数序列对数据源进行匹配处理,得到特征源表信息对应的特征字段,对特征字段进行拼接处理,生成多个数据源对应的特征字典;对特征字典中的特征字段进行聚合处理,得到特征源表信息对应的数据源特征表,其中,数据源特征表包括特征字段和关联字段,关联字段用于表示多个数据源之间的关联关系,基于关联字段对每个数据源特征表进行递归拼接处理,得到与信息构建领域相适配的特征宽表,例如通过数据信息处理的插件,结合与信息识别系统中相适配的特征宽表,对需要通过门禁的行人进行身份的识别认证,以提高身份识别的准确性和效率性,加强门禁的安全系数。
在一些实施例中,终端200获取针对数据信息处理请求后,调用服务器100的数据信息处理接口(可以提供为云服务的形式,即数据信息处理服务),服务器100,针对海量的用户,基于多个用户数据源中包括的特征源表信息,生成用于表征多个特征源表信息的参数序列,将用于表征用户数据的特征字段进行拼接处理,生成与多个数据源对应得特征字典。
例如,在智能答复系统中,终端200获取针对数据信息处理请求后,针对海量的词义信息,基于多个词义信息数据源中包括的特征源表信息,生成用于表征多个特征源表信息的参数序列,将用于表征词义信息数据的特征字段进行拼接处理,生成与多个词义信息数据源对应得特征字典。本申请实施例可以结合与智能答复系统中相适配的特征宽表,对需要判别语义的语音进行语义分析,以提高智能答复系统中回复的正确性。
下面说明本申请实施例提供的用于数据信息处理的电子设备的结构,参见图2,图2是本申请实施例提供的用于数据信息处理的电子设备500的结构示意图,以电子设备500是服务器为例说明,图2所示的用于数据信息处理的电子设备500包括:至少一个处理器510、存储器550以及至少一个网络接口520。电子设备500中的各个组件通过总线系统530耦合在一起。可理解,总线系统530用于实现这些组件之间的连接通信。总线系统530除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统530。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块553,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的数据信息处理装置可以采用软件方式实现,例如,可以是上文所述的终端中的数据信息处理插件,可以是上文所述的服务器中推数据信息处理服务。当然,不局限于此,本申请实施例提供的数据信息处理的装置可以提供为各种软件实施例,包括应用程序、软件、软件模块、脚本或代码在内的各种形式。
图2示出了存储在存储器550中的数据信息处理的装置555,其可以是程序和插件等形式的软件,例如数据信息处理插件,并包括一系列的模块,包括参数序列生成模块5551、特征字段生成模块5552、拼接模块5553、聚合模块5554以及特征宽表生成模块5555;其中,参数序列生成模块5551、特征字段生成模块5552、拼接模块5553、聚合模块5554以及特征宽表生成模块5555用于实现本申请实施例提供的数据信息处理功能。
下面结合本申请实施例提供的服务器的示例性应用和实施,参见图3,图3是本申请实施例提供的数据信息处理方法的流程示意图一,说明本申请实施例提供的数据信息处理的方法。
在步骤101中,基于目标领域的多个数据源分别对应的特征源表信息,生成用于表征多个特征源表信息的参数序列。
在一些实施例中,在基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个特征源表信息的参数序列之前,获取多个数据源的地址;基于地址,从多个数据源中分别提取对应的特征源表信息。
在一些实施例中,显示数据源地址界面,其中,数据源地址界面包括多个候选数据源的地址;响应于针对候选数据源的地址选择操作,将选中的地址作为数据源的地址。
在步骤102中,基于参数序列对数据源进行匹配处理,得到特征源表信息对应的特征字段。
在一些实施例中,参数序列中的参数通过特征源表信息表征,特征源表信息包括特征源库名和特征源表名;当特征源表信息通过特征源库名和特征源表名标识时;针对参数序列中的任意一个参数执行以下处理:将参数包括的特征源库名、与多个数据源的特征源库名进行匹配,得到匹配的特征源库名;将参数包括的特征源表名、与匹配的特征源库名对应的特征源表名进行匹配,得到匹配的特征源表名;从匹配的特征源表名对应的特征源表中获取对应的特征字段。
在一些实施例中,参数序列中的参数通过特征源表信息表征,特征源表信息包括特征源库名和特征源表名;当特征源表信息通过标识信息标识针对参数序列中的任意一个参数执行以下处理:将参数包括的标识信息、与多个数据源的标识信息进行匹配,得到匹配的标识信息;从匹配的标识信息对应的特征源表中获取对应的特征字段。
在步骤103中,对特征字段进行拼接处理,生成多个数据源对应的特征字典。
在一些实施例中,针对任意一个数据源中对应的特征字段执行以下处理:将特征字段对应的特征源表信息作为前缀,与特征字段进行拼接,得到数据源对应的单一特征字典;将多个单一特征字典进行拼接,得到多个数据源对应的特征字典。
在一些实施例中,在对特征字段进行拼接处理,生成多个数据源对应的特征字典之后,基于参数序列,获取数据源对应的行数;将行数添加到特征字典中的库表尺寸字段;按照库表尺寸字段,对特征字典中包括的单一特征字典进行降序排序,得到排序后的特征字典。
在一些实施例中,基于参数序列,构建用于循环获取行数的指令语句;执行指令语句,得到数据源对应的行数。
在步骤104中,对特征字典中的特征字段进行聚合处理,得到特征源表信息对应的数据源特征表;其中,数据源特征表包括特征字段和关联字段,关联字段用于表示多个数据源之间的关联关系。
在一些实施例中,针对特征字典中的任一数据源对应的特征字段执行以下处理:基于特征字段在特征字典中的顺序,构建用于确定数据源对应的特征宽表结构;基于特征宽表结构对特征字段的值进行拼接,得到数据源特征表。
在步骤105中,基于关联字段对每个数据源特征表进行递归拼接处理,得到与信息构建领域相适配的特征宽表。
在一些实施例中,基于多个数据源对应的特征字典中的库表尺寸字段,确定每个数据源特征表的拼接顺序;按照数据源特征表的拼接顺序、以及关联字段对应的相同关联字段的值,对数据源特征表进行拼接,得到与信息构建领域相适配的特征宽表。
如前所述,本申请实施例提供的数据信息处理方法可以由各种类型的电子设备实施,例如服务器。参见图4,图4是本申请实施例提供的数据信息处理方法的流程示意图二,结合图4示出的步骤进行说明。
在下面的步骤中,信息构建领域表示具体的应用领域,例如身份信息识别、文本推荐等。
在步骤201中,基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个特征源表信息的参数序列。
这里,数据源存储信息的方式包括表结构,例如数据源可以是身份信息数据源,以身份信息数据源为例,身份数据源中包括的信息可以为姓名、身高、体重、银行卡号、家庭住址等,其中身份数据源所包括的姓名、身高、体重、银行卡号、家庭住址是以表结构进行存储的。数据源也可以是统计调查数据包括各种类型的统计报表。数据源也可以是社会调查数据,包括用户喜欢观看新闻的类型、时间段以及时长。特征源表信息可以是包含有关特定数据源的数据结构、开放式数据库连接驱动能够连接到数据库上必需的信息。其中,特征源表信息存储在注册表或作为一个单独的文本文件,在特征源表信息里面包含的信息有名称、目录和数据库驱动器,以及用户ID和密码。开发人员为每个数据源创建一个独立的特征源表信息,在连接到某个特定数据源时需要对应的特征源表信息。
需要说明的是,本申请实施例中多个特征源表信息的参数序列包括多个数据源分别对应的特征源表信息中的名称、目录。
在一些实施例中,在基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个特征源表信息的参数序列之前,服务器可以通过以下方式确定特征源表信息:获取多个数据源的地址;基于地址,从多个数据源中分别提取对应的特征源表信息。
在实际实施时,在还未生成用于表征多个特征源表信息的参数序列之前,服务器通过从终端返回与信息构建领域相关的多个数据源的地址。其中数据源的地址可以是IP地址、URL地址等,根据得到的多个数据源地址,从对应的多个数据源中获取对应的特征源表信息。
在一些实施例中,服务器可以通过以下方式获取多个数据源的地址:显示数据源地址界面,其中,数据源地址界面包括多个候选数据源的地址;响应于针对候选数据源的地址选择操作,将选中的地址作为数据源的地址。
示例性的,参见图5,图5是本申请实施例提供的针对数据源地址界面示意图。
在上述数据源地址界面中,图5所示出的数据源地址显示列表52列举了6条候选数据源的地址,由用户在数据源地址界面上勾选框51勾选数据源地址,选中至少3条数据源地址,再由服务器接收到由用户触发的选择操作,将选中的数据源地址确定为数据源的地址。
上述针对数据源的地址的获取方式,能够由用户来选择需要选定的数据源,从而根据不同用户的数据需求生成特征宽表。
示例性的,参见图6,图6是本申请实施例提供的另一种针对数据源地址界面示意图。
在上述数据源地址界面中,还可以通过机器学习的方式对候选数据源进行相似度匹配,将众多的候选数据源中相似度最接近的一类数据源以选中的状态,在图6所示出的数据源地址显示列表62中进行显示,用户可以对界面上勾选框61选择中的候选数据源进行筛选,或者直接确定。
示例性的,获取用户历史选择的历史数据源,从预先建立的候选数据源库中查找与历史数据源匹配的候选数据源,可以通过计算数据源之间的相似度来确定与历史数据源匹配的候选数据源,具体的,当历史数据源与候选数据源库中候选数据源相似度大于相似度阈值时,则该候选数据源为历史数据源匹配的数据源,将与历史数据源匹配的候选数据源,在数据源地址界面中按照相似度从高到低的排序顺序显示在数据源地址显示列表62中,以提供给用户进行筛选,或者直接确定。
示例性的,在与历史数据源匹配的候选数据源之后,还可以对与历史数据源匹配的候选数据源进行聚类处理,得到匹配的候选数据源的类别,随机抽取各个类别中的至少一个匹配的候选数据源作为待显示的候选数据源,在数据源地址界面中,将待显示的候选数据源按照相似度从高到低的排序顺序显示在数据源地址显示列表62中,以提供给用户进行筛选,或者直接确定。
上述针对数据源的地址的获取方式,能够由机器学习的方式帮助用户对候选数据源进行刷选,从而将候选数据源地址确定为数据源的地址,如此,可以提供一种高效率的数据源地址的智能选取方法,解决了目前数据源选取单一、低效的问题。
在步骤202中,基于参数序列对数据源进行匹配处理,得到特征源表信息对应的特征字段。
这里,匹配处理是将参数序列中的参数与数据源进行匹配,确定出特征源表信息中所包括的特征字段,其中,特征字段用于表征数据源中数据类别。
在一些实施例中,参数序列中的参数通过特征源表信息表征,特征源表信息包括特征源库名和特征源表名,当特征源表信息通过特征源库名和特征源表名标识时,参见图7,图7是本申请实施例提供的获取特征字段的流程示意图一,图3示出的步骤202可以通过图7中的步骤2021A-步骤2023A实现。
在步骤2021A中,将参数包括的特征源库名、与多个数据源的特征源库名进行匹配,得到匹配的特征源库名。
示例性的,参数序列可以具体为(A1B1,A1B2,A1B3,……,AnBn),其中A1-An表示为特征源库名,且特征源库名A1中的表可以为一个或者多个,B1-Bn表示为特征源表名,例如将参数序列中的A1B2与多个数据源的特征源库名进行匹配,具体的匹配过程为:将参数A1与多个数据源的特征源库名A1-An进行匹配验证,将多个数据源的特征源库中名为A1的特征源库名确定为匹配的特征源库名。
在步骤2022A中,将参数包括的特征源表名、与匹配的特征源库名对应的特征源表名进行匹配,得到匹配的特征源表名。
承接上例,当将多个数据源的特征源库名为A1的特征源库名,确定为匹配的特征源库名后,将参数序列中表征特征源表名B2与匹配的特征源库名A1对应的特征源表名进行再次匹配,在多个数据源中确定出与特征源表名为B2的相同的特征源表。
在步骤2023A中,从匹配的特征源表名对应的特征源表中获取对应的特征字段。
承接上例,通过两次的匹配在多个数据源中确定出特征源库名为A1、特征源表名为B2的特征源表,进而在特征源表中获取对应的特征字段。
需要说明的是,在步骤2021A-2023A中可以针对参数序列中的任意一个参数执行匹配处理,由此可以从参数序列中任一参数所对应的特征源表中获取参数对应的特征字段。
在一些实施例中,参数序列中的参数通过特征源表信息表征,特征源表信息包括特征源库名和特征源表名,当特征源表信息通过标识信息标识,标识信息为特征源库名或特征源表名时,参见图8,图8是本申请实施例提供的获取特征字段的流程示意图二,图3示出的步骤202还可以通过图8中的步骤2021B-步骤2022B实现。
在步骤2021B中,将参数包括的标识信息、与多个数据源的标识信息进行匹配,得到匹配的标识信息。
示例性的,标识信息是可以由特征源表名单独进行表示,例如,参数序列可以具体为(A1B1,A1B2,A1B3,……,AnBn),其中A1-An表示为特征源库名,且特征源库名A1中的表可以为一个或者多个,B1-Bn表示为特征源表名,将参数序列中的A1B3与多个数据源的特征源库名和特征源表名进行匹配,具体的匹配过程为:将特征源表名标记为标识信息,即,特征源表名为B3。当按照参数包括的标识信息与多个数据源的标识信息相同的规则进行匹配时,可以得出与在步骤2022B中,从匹配的标识信息对应的特征源表中获取对应的特征字段。
承接上例,由参数序列中的B3的位置信息(A1B2,A1B3,A1B4),可以确定出参数序列中需要与多个数据源的特征源库名,进行匹配的特征源库名为A1,进而通过标识信息在多个数据源中匹配确定出特征源库名为A1、特征源表名为B3的特征源表与标识信息匹配的特征源表,从匹配的特征源表中获取对应的特征字段。
需要说明的是,在步骤2021B-2022B中可以针对参数序列中的任意一个参数执行匹配处理,由此可以从参数序列中任一参数所对应的特征源表中获取参数对应的特征字段。
在步骤203中,对特征字段进行拼接处理,生成多个数据源对应的特征字典。
这里,特征字段是多个数据源中所包括的全部特征字段,通过对多个数据源中的特征字段按照预设规则进行拼接,从而形成多个数据源对应的特征字典,其中,特征字典表示是由多个数据源中的特征字段按照一定的排序规则组成的特征字段结构排序目录。
在一些实施例中,将特征字段对应的特征源表信息作为前缀,与特征字段进行拼接,得到数据源对应的单一特征字典。将多个单一特征字典进行拼接,得到多个数据源对应的特征字典。
在实际实施中,将特征字段对应的特征源库名和特征源表名作为前缀,例如特征字段包括userid、feature1、feature2、feature3、……、featuren,而特征源库名为A1,特征源表名为B1,则由特征字段对应的特征源库名和特征源表名作为前缀与特征字段进行拼接后得到的单一特征字典为(A1_B1_userid,A1_B1_feature1,A1_B1_feature2,A1_B1_feature3,……,A1_B1_featuren)。通过对多个数据源对应的特征字段和对应特征字段的特征源库名和特征源表名(作为前缀)进行循环拼接,得到多个数据源对应的特征字典。
在一些实施例中,在对特征字段进行拼接处理,生成多个数据源对应的特征字典之后参见图9,图9是本申请实施例提供的特征字典排序一个流程示意图,步骤203可以通过图9中的步骤2031-步骤2033实现。
在步骤2031中,基于参数序列,获取数据源对应的行数。
示例性的,基于参数序列中的特征源库名和特征源表名,获取对应数据源对应的行数。
在步骤2032中,将行数添加到特征字典中的库表尺寸字段。
示例性的,库表尺寸字段中表征特征源表的大小,将基于参数序列中的特征源库名和特征源表名,获取对应数据源的行数,并将行数添加到特征字典中的库表尺寸字段中。参见表1,表1是本申请实施例提供添加库表尺寸字段后的特征字典示意表。
表1
Figure 237652DEST_PATH_IMAGE001
在步骤2033中,按照库表尺寸字段,对特征字典中包括的单一特征字典进行降序排序,得到排序后的特征字典。
示例性的,参见表2,表2是本申请实施例提供排序后的字典示意表。
表2
Figure 748268DEST_PATH_IMAGE002
需要说明的是,在表2中,表征库表尺寸的N1至Nm是按照从小到大的顺序进行排列的。
在一些实施例中,基于参数序列,构建用于循环获取行数的指令语句;执行指令语句,得到数据源对应的行数。
示例性的,基于参数序列,可以实现对获取行数的指令语句的自动化构造,使得通过执行获取行数语句即可获取数据源对应的行数,减少人为错误,提高后续生成的特征宽表的准确性。
在步骤204中,对特征字典中的特征字段进行聚合处理,得到特征源表信息对应的数据源特征表;其中,数据源特征表包括特征字段和关联字段,关联字段用于表示多个数据源之间的关联关系。
这里,聚合处理是根据特征字典中的特征字段的排列顺序,并通过关联字段将特征字段对应的特征字段的值进行聚合。
在一些实施例中,基于特征字段在特征字典中的顺序,构建用于确定数据源对应的特征宽表结构,基于特征宽表结构对特征字段的值进行拼接,得到数据源特征表。参见表3,表3是本申请实施例提供的拼接后的数据特征表。
表3
Figure 996846DEST_PATH_IMAGE003
在实际实施中,按照特征字典中特征字段的排列顺序,对应的获取数据源中包括的特征字段对应的特征字段的值,并将特征字段的值按照特征宽表结构进行拼接,得到数据源特征表。其中,特征宽表结构表征特征字段和特征字段的值的排列顺序。
在步骤205中,基于关联字段对每个数据源特征表进行递归拼接处理,得到与信息构建领域相适配的特征宽表。
这里,关联字段是指将多个特征源表关联起来的字段。为了避免不同特征源表在拼接后出现重复的特征字段,可以理解为特征源表的关联字段的值通常是唯一的,因而根据单个特征源表的关联字段确定不同特征源表之间的关联字段,由此基于确定出的关联字段,能够在不重复各个特征源表中数据的情况下,将不同特征源表之间的数据交叉捆绑在一起,以形成包含更多且不重复的特征字段的特征宽表。
在一些实施例中,基于多个数据源对应的特征字典中的库表尺寸字段,确定每个数据源特征表的拼接顺序;按照数据源特征表的拼接顺序、以及关联字段对应的相同关联字段的值,对数据源特征表进行拼接,得到与信息构建领域相适配的特征宽表。
示例性的,参见表4,表4是本申请实施例递归拼接后生成的特征宽表。
表4
Figure 486996DEST_PATH_IMAGE004
在一些实施例中,在特征宽表拼接生成后,特征宽表中可能存在两种类型的空值,其中一种类型为null/none,表示特征字段对应的特征值在原始数据中没有对应的值。还有一种类型则是显示为' ',对于特征宽表中特征字段的值存在的两种类型的空值需要对其进行赋值处理,在本实施例中将特征宽表中出现空值的情况统一设置为'0',进而使得在后续对特征宽表的应用中,获取的数据准确性更高,更具有容错性。
在一些实施例中,在特征宽表拼接生成后,对于特征宽表中可能存在空值进行空值填充,空值填充的方法可以是对于数值型变量使用均值填充,对于分类变量使用出现频率最高的变值进行填充。具体的,根据特征字段的业务含义,将其对应的数值变量进行离散处理,例如把表征年龄的数值变量的连续值,按照分段阈值离散化为少年、青年、中年、和老年多个值,将分布最集中的表征年龄的数值的平均值对对应的空值进行填充。
需要说明的是,拼接后的特征宽表中特征字段对应的值有两类:数值变量,分类变量。此外,对特征字段对应的数值变量进行离散处理后,将分布最集中的数值段的平均值对对应的空值进行填充,可以实现更加贴近业务实践,简化信息,减少存储空间的占用,更快得到结果。
需要说明的是,本申请实施例中按照库表尺寸字段中行数的大小进行排序,并按照数据源特征表的拼接顺序,将关联字段对应相同关联字段的值对数据源特征表进行拼接,从而生成最终的特征宽表,有效降低计算和存储的资源,并降低了特征宽表生成过程中的数据倾斜问题。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
参见图10,图10是本申请实施例提供的数据信息处理方法的一个可选的流程示意图,将结合图10示出的步骤进行说明。
步骤401,提取各个数据库表名。
这里,由用户输入数据源1、数据源2、…、数据源m的地址作为参数,并通过构建循环SQL语句操作提取每个数据源所在的库表(即特征源表信息),分别提取数据源1的库表db1.table1,数据源2的库表db2.table2,…,数据源m的库表dbm.tablem。
相比于现有的相关技术,用户来确定数据源的地址信息,从而选择需要生成宽表的数据源码,进而实现根据不同用户的数据需求生成相应的宽表。
步骤402,生成库表名称参数序列。
根据提取到的数据源库表名称,构建库表名称参数序列:{db1.table1,db2.table2,…,dbm.tablem}(即参数序列)。
步骤403,生成“库表-字段名称”字典(即特征字典)。
这里,根据生成的库表名称参数序列,将库表名称参数序列作为参数列表,输入循环SQL操作语句构建的字段提取系统,自动提取每个库表的字段名称,且将每个库表名作为前缀与每个字段名称进行拼接生成库表-字段名称字典。对应db1.table1的库表-字段名称字典。如此类推,循环生成{db1.table1,db2.table2,…,dbm.tablem}的库表-字段名称字典。
参见表5,表5是本申请实施例提供的库表-字段名称字典示意表。
表5
Figure 35789DEST_PATH_IMAGE005
步骤404,计算各个库表大小。
根据库表名称参数序列{ db1.table1,db2.table2,…,dbm.tablem},构建循环SQL语句分别计算每个库表的大小(计算每个库表的行数),其中m表示库表数量,并添加到上述库表-字段名称字典。
步骤405,库表排序。
根据生成后的库表-字段名称字典,按照库表大小进行从小到大升序排序,从而得到排序后的库表-字段名称字典。
步骤406,特征宽表生成。
参见表6,表6是本申请实施例提供的特征宽表示意表。
表6
Figure 451727DEST_PATH_IMAGE007
参见图11,图11是本申请实施例提供的一个特征宽表生成流程示意图,图11示意出图10中的步骤406可以通过图11中的步骤4061至步骤4062实现。
步骤4061,经过排序后的库表-字段名称字典。
示例性的,构建循环SQL库表生成系统,按字段名称顺序生成特征宽表表结构并构建表,本申请实施例提供的基于人工智能的翻译方法的伪代码如下所示:
算法1构建循环SQL库表生成系统创建宽表表结构
for i in rang(n)://变量i取值范围为1到n的整数
cloumns=data(i).columns
//获取每个表的列的字段名形成宽表
sql=“create table if not exist db.t_dw_kuantable as(columns[i] stringcommort“”)”%(columns[i])
//创建包括columns[i]字段的宽表结构,db.t_dw_kuantable为宽表结构名
需要说明的是,其中,该宽表结构中只保留一个userid字段并放在生成宽表的第一位字段,其他宽表字段按照特征字段名称顺序排序生成。
步骤4062,构建循环SQL拼接系统,通过循环LEFT-JOIN按库表大小顺序从小到大及userid相同规则进行表的拼接。
示例性的,参见公式1,公式1为本申请实施例提供的一个对宽表循环拼接的逻辑方法。
Figure 187602DEST_PATH_IMAGE008
公式1
本申请实施例提供的特征宽表拼接伪代码如下所示:
算法2构建循环SQL拼接系统
sql1=“insert table db.t_dw_kuantable as (select from db.table1 where…)”
//根据db.t_dw_kuantable的宽表结构从db.table1中查询相应字段对应的数据,插入到db.t_dw_kuantable中
for i in range(1:n)
sql2+=“inset table db.t_dw_kuantable as (
select
*
from i)s
where
)”%(table s[i])s//根据db.t_dw_kuantable的宽表结构从db.table1中查询相应字段对应的数据,插入到db.t_dw_kuantable中并与之前已得到的db.t_dw_kuantable进行拼接
Sql3+=“union all”(select * from db.table1 where…)”
//将循环生成的db.t_dw_kuantable进拼接得到特征宽表
参见图12,图12是本申请实施例提供的特征宽表生成流程示意图。
需要说明的是,库表的行数大小,将最小的库表放在前面可以降低了特征宽表生成过程中的数据倾斜。
在本申请实施例中,涉及到数据源、特征源表信息等相关的用户数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请上述实施例有如下有益技术效果:
(1)通过采用库名和表名构建库表名的参数序列,将库表名称作为参数序列输入到宽表生成系统中。宽表生成系统根据传入的库表名称参数序列,提取每个库表的字段,并去除相同字段名称的字段,生成“库表-字段名称”字典,通过输入库表名称参数列表实现根据不同用户的数据需求生成宽表。
(2)在进行宽表生成前,先通过每个传入的库表名称参数分别计算每个库表的大小,并存储到“库表-字段名称”字典中,按照库表名称的大小对库表进行从小到大的排序。按照排序,提取库表字段名称字段中的字段名称及数值,从小到大按照关联规则将每个数据源小表进行规则匹配,生成最终的特征宽表,有效降低计算和存储的资源,并降低了特征宽表生成过程中的数据倾斜问题。
至此已经结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的数据信息处理的方法。本申请实施例还提供数据信息处理装置,实际应用中,数据信息处理的装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)、存储器协同实现。图2示出了存储在存储器550中的数据信息处理的装置555,其可以是程序和插件等形式的软件,例如,软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块、应用程序接口、插件、云服务等实现方式,下面对不同的实现方式举例说明。
示例一、数据信息处理装置是移动端应用程序及模块。
本申请实施例中的数据信息处理的装置555可提供为使用软件C/C++、Java等编程语言设计的软件模块,嵌入到基于Android或iOS等系统的各种移动端应用中(以可执行指令存储在移动端的存储介质中,由移动端的处理器执行),从而直接使用移动端自身的计算资源完成相关的数据信息处理任务,并且定期或不定期地通过各种网络通信方式将处理结果传送给远程的服务器,或者在移动端本地保存。
示例二、数据信息处理装置是服务器应用程序及平台。
本申请实施例中的数据信息处理的装置555可提供为使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块,运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储,并由服务器端的处理器运行),服务器使用自身的计算资源完成相关的数据信息处理任务。
本申请实施例还可以提供为在多台服务器构成的分布式、并行计算平台上,搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI,User Interface),形成供个人、群体或单位使用的信息处理方法等。
示例三、数据信息处理装置是服务器端应用程序接口(API,Application ProgramInterface)及插件。
本申请实施例中的数据信息处理的装置555可提供为服务器端的API或插件,以供用户调用,以执行本申请实施例的数据信息处理方法,并嵌入到各类应用程序中。
示例四、数据信息处理的装置是移动设备客户端API及插件。
本申请实施例中的数据信息处理的装置555可提供为移动设备端的API或插件,以供用户调用,以执行本申请实施例的数据信息处理的方法。
示例五、数据信息处理的装置是云端开放服务。
本申请实施例中的数据信息处理的装置555包括一系列的模块,包括参数序列生成模块5551、特征字段生成模块5552、拼接模块5553、聚合模块5554以及特征宽表生成模块5555;其中,参数序列生成模块5551、特征字段生成模块5552、拼接模块5553、聚合模块5554以及特征宽表生成模块5555用于实现本申请实施例提供的数据信息处理功能。
在一些实施例中,获取模块用于获取多个数据源的地址;基于地址,从多个数据源中分别提取对应的特征源表信息。
在一些实施例中,获取模块还用于显示数据源地址界面,其中,数据源地址界面包括多个候选数据源的地址;响应于针对候选数据源的地址选择操作,将选中的地址作为数据源的地址。
在一些实施例中,当特征源表信息通过特征源库名和特征源表名标识时,特征字段生成模块还用于针对参数序列中的任意一个参数执行以下处理:将参数包括的特征源库名、与多个数据源的特征源库名进行匹配,得到匹配的特征源库名;将参数包括的特征源表名、与匹配的特征源库名对应的特征源表名进行匹配,得到匹配的特征源表名;从匹配的特征源表名对应的特征源表中获取对应的特征字段;参数序列中的参数通过特征源表信息表征,特征源表信息包括特征源库名和特征源表名。
在一些实施例中,当特征源表信息通过标识信息标识,标识信息为特征源库名或特征源表名时,特征字段生成模块还用于针对参数序列中的任意一个参数执行以下处理:将参数包括的标识信息、与多个数据源的标识信息进行匹配,得到匹配的标识信息;从匹配的标识信息对应的特征源表中获取对应的特征字段;参数序列中的参数通过特征源表信息表征,特征源表信息包括特征源库名和特征源表名。
在一些实施例中,拼接模块还用于针对任意一个数据源中对应的特征字段执行以下处理:将特征字段对应的特征源表信息作为前缀,与特征字段进行拼接,得到数据源对应的单一特征字典;将多个单一特征字典进行拼接,得到多个数据源对应的特征字典。
在一些实施例中,聚合模块还用于在对特征字段进行拼接处理,生成多个数据源对应的特征字典之后,基于参数序列,获取数据源对应的行数;将行数添加到特征字典中的库表尺寸字段;按照库表尺寸字段,对特征字典中包括的单一特征字典进行降序排序,得到排序后的特征字典。
在一些实施例中,聚合模块还用于基于多个数据源对应的特征字典中的库表尺寸字段,确定每个数据源特征表的拼接顺序;按照数据源特征表的拼接顺序、以及关联字段对应的相同关联字段的值,对数据源特征表进行拼接,得到与信息构建领域相适配的特征宽表。
在一些实施例中,聚合模块还用于基于参数序列,构建用于循环获取行数的指令语句;执行指令语句,得到数据源对应的行数。
在一些实施例中,特征宽表生成模块还用于针对特征字典中的任一数据源对应的特征字段执行以下处理:基于特征字段在特征字典中的顺序,构建用于确定数据源对应的特征宽表结构;基于特征宽表结构对特征字段的值进行拼接,得到数据源特征表。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的数据信息处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的数据信息处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (14)

1.一种数据信息处理方法,其特征在于,所述方法包括:
基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个所述特征源表信息的参数序列;
将所述参数序列中的参数与所述多个数据源进行匹配,得到每个所述特征源表信息对应的特征字段;
将每个所述数据源中的特征字段对应的特征源表信息作为前缀,与所述特征字段进行拼接,得到每个所述数据源对应的单一特征字典;
将多个所述单一特征字典进行拼接,得到所述多个数据源对应的特征字典,其中,特征字典是由所述多个数据源中的特征字段组成的特征字段结构排序目录;
对所述特征字典中的特征字段进行聚合处理,得到所述特征源表信息对应的数据源特征表;其中,所述数据源特征表包括所述特征字段和关联字段,所述关联字段用于表示所述多个数据源之间的关联关系;
基于所述关联字段对每个所述数据源特征表进行递归拼接处理,得到与所述信息构建领域相适配的特征宽表。
2.根据权利要求1所述的方法,其特征在于,在所述基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个所述特征源表信息的参数序列之前,所述方法还包括:
获取所述多个数据源的地址;
基于所述地址,从所述多个数据源中分别提取对应的所述特征源表信息。
3.根据权利要求2所述的方法,其特征在于,所述获取所述多个数据源的地址,包括:
显示数据源地址界面,其中,所述数据源地址界面包括多个候选数据源的地址;
响应于针对所述候选数据源的地址选择操作,将选中的地址作为所述数据源的地址。
4.根据权利要求1所述的方法,其特征在于,所述参数序列中的参数通过所述特征源表信息表征,所述特征源表信息包括特征源库名和特征源表名;
当所述特征源表信息通过所述特征源库名和特征源表名标识时,所述将所述参数序列中的参数与所述多个数据源进行匹配,得到每个所述特征源表信息对应的特征字段,包括:
针对所述参数序列中的任意一个所述参数执行以下处理:
将所述参数包括的特征源库名、与所述多个数据源的特征源库名进行匹配,得到匹配的特征源库名;
将所述参数包括的所述特征源表名、与所述匹配的特征源库名对应的特征源表名进行匹配,得到匹配的特征源表名;
从所述匹配的特征源表名对应的特征源表中获取对应的特征字段。
5.根据权利要求1所述的方法,其特征在于,所述参数序列中的参数通过所述特征源表信息表征,所述特征源表信息包括特征源库名和特征源表名;
当所述特征源表信息通过标识信息标识,所述标识信息为所述特征源库名或特征源表名时,所述将所述参数序列中的参数与所述多个数据源进行匹配,得到每个所述特征源表信息对应的特征字段,包括:
针对所述参数序列中的任意一个所述参数执行以下处理:
将所述参数包括的标识信息、与所述多个数据源的标识信息进行匹配,得到匹配的标识信息;
从所述匹配的标识信息对应的特征源表中获取对应的特征字段。
6.根据权利要求1或5所述的方法,其特征在于,在所述对所述特征字段进行拼接处理,生成所述多个数据源对应的特征字典之后,所述方法还包括:
基于所述参数序列,获取所述数据源对应的行数;
将所述行数添加到所述特征字典中的库表尺寸字段;
按照所述库表尺寸字段,对所述特征字典中包括的单一特征字典进行降序排序,得到排序后的所述特征字典。
7.根据权利要求6所述的方法,其特征在于,所述基于所述关联字段对每个所述数据源特征表进行递归拼接处理,得到与所述信息构建领域相适配的特征宽表,包括:
基于所述多个数据源对应的特征字典中的库表尺寸字段,确定每个所述数据源特征表的拼接顺序;
按照所述数据源特征表的拼接顺序、以及所述关联字段对应的相同关联字段的值,对所述数据源特征表进行拼接,得到与所述信息构建领域相适配的特征宽表。
8.根据权利要求6所述的方法,其特征在于,所述基于所述参数序列,获取所述数据源对应的行数,包括:
基于所述参数序列,构建用于循环获取行数的指令语句;
执行所述指令语句,得到所述数据源对应的行数。
9.根据权利要求1所述的方法,其特征在于,所述对所述特征字典中的特征字段进行聚合处理,得到所述特征源表信息对应的数据源特征表,包括:
针对所述特征字典中的任一所述数据源对应的特征字段执行以下处理:
基于所述特征字段在所述特征字典中的顺序,构建用于确定所述数据源对应的特征宽表结构;
基于所述特征宽表结构对所述特征字段的值进行拼接,得到所述数据源特征表。
10.一种数据信息处理方法,其特征在于,所述方法包括:
基于目标领域的多个数据源分别对应的特征源表信息,生成用于表征多个所述特征源表信息的参数序列;
将所述参数序列中的参数与所述多个数据源进行匹配,得到每个所述特征源表信息对应的特征字段;
将每个所述数据源中的特征字段对应的特征源表信息作为前缀,与所述特征字段进行拼接,得到每个所述数据源对应的单一特征字典;
将多个所述单一特征字典进行拼接,得到所述多个数据源对应的特征字典,其中,特征字典是由所述多个数据源中的特征字段组成的特征字段结构排序目录;
对所述特征字典中的特征字段进行聚合处理,得到所述特征源表信息对应的数据源特征表;其中,所述数据源特征表包括所述特征字段和关联字段,所述关联字段用于表示所述多个数据源之间的关联关系;
基于所述关联字段对每个所述数据源特征表进行递归拼接处理,得到与所述目标领域相适配的特征宽表。
11.一种数据信息处理装置,其特征在于,所述装置包括:
参数序列生成模块,用于基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个所述特征源表信息的参数序列;
特征字段生成模块,用于将所述参数序列中的参数与所述多个数据源进行匹配,得到每个所述特征源表信息对应的特征字段;
拼接模块,用于将每个所述数据源中的特征字段对应的特征源表信息作为前缀,与所述特征字段进行拼接,得到每个所述数据源对应的单一特征字典;将多个所述单一特征字典进行拼接,得到所述多个数据源对应的特征字典,其中,特征字典是由所述多个数据源中的特征字段组成的特征字段结构排序目录;
聚合模块,用于对所述特征字典中的特征字段进行聚合处理,得到所述特征源表信息对应的数据源特征表;其中,所述数据源特征表包括所述特征字段和关联字段,所述关联字段用于表示所述多个数据源之间的关联关系;
特征宽表生成模块,用于基于所述关联字段对每个所述数据源特征表进行递归拼接处理,得到与所述信息构建领域相适配的特征宽表。
12.一种数据信息处理设备,其特征在于,所述数据信息处理设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至10任一项所述的数据信息处理方法。
14.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至10任一项所述的数据信息处理方法。
CN202210364879.2A 2022-04-08 2022-04-08 数据信息处理方法、装置、电子设备及存储介质 Active CN114490673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210364879.2A CN114490673B (zh) 2022-04-08 2022-04-08 数据信息处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210364879.2A CN114490673B (zh) 2022-04-08 2022-04-08 数据信息处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114490673A CN114490673A (zh) 2022-05-13
CN114490673B true CN114490673B (zh) 2022-07-12

Family

ID=81488623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210364879.2A Active CN114490673B (zh) 2022-04-08 2022-04-08 数据信息处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114490673B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757304B (zh) * 2022-06-10 2022-09-09 北京芯盾时代科技有限公司 一种数据识别方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286917B (zh) * 2020-10-22 2022-10-18 北京锐安科技有限公司 数据处理方法、装置、电子设备和存储介质
CN112597168A (zh) * 2020-12-28 2021-04-02 恩亿科(北京)数据科技有限公司 多源客户数据的处理方法、装置、平台及存储介质
CN113297188B (zh) * 2021-02-01 2022-11-15 淘宝(中国)软件有限公司 数据处理方法以及装置
CN113535817B (zh) * 2021-07-13 2024-05-14 浙江网商银行股份有限公司 特征宽表生成及业务处理模型的训练方法和装置

Also Published As

Publication number Publication date
CN114490673A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN107341399B (zh) 评估代码文件安全性的方法及装置
KR102064292B1 (ko) 개인화된 소셜네트워크서비스 컨텐츠 추천 방법 및 장치
CN108733810B (zh) 一种地址数据匹配方法及装置
CN107862039B (zh) 网页数据获取方法、系统和数据匹配推送方法
CN112328909A (zh) 信息推荐方法、装置、计算机设备及介质
CN111562920A (zh) 小程序代码相似度确定方法、装置、服务器及存储介质
CN114490673B (zh) 数据信息处理方法、装置、电子设备及存储介质
CN113011167A (zh) 基于人工智能的作弊识别方法、装置、设备及存储介质
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN116881429A (zh) 一种基于多租户的对话模型交互方法、装置及存储介质
KR101929649B1 (ko) 채팅로그 키워드 추출을 통한 관심사 관련 오픈 채팅방 추천 시스템 및 방법
CN116541887B (zh) 一种大数据平台数据安全保护方法
CN111061975B (zh) 一种页面中无关内容的处理方法、装置
CN116991872A (zh) 数据查询方法、设备及计算机可读存储介质
CN111752958A (zh) 智能关联标签方法、装置、计算机设备及存储介质
CN109408592B (zh) 一种决策型分布式数据库系统中ai的特征工程知识库及其实现方法
CN107679168A (zh) 一种基于java平台的目标网站内容获取方法
CN113468037A (zh) 一种数据质量评估方法、装置、介质和电子设备
CN109408704B (zh) 基金数据关联方法、系统、计算机设备和存储介质
CN114676740A (zh) 用户识别方法、装置、设备及存储介质
CN117993493A (zh) 基于事理图谱的剧本生成方法、装置、设备及存储介质
CN116415233A (zh) 信息检测方法、设备、计算机可读存储介质及程序产品
CN117032789A (zh) 业务规则配置和执行方法、系统、计算机设备及存储介质
CN118012889A (zh) 向量的确定方法及装置、存储介质及电子装置
Kálmán Versatile form validation using jSRML

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant