CN113535817B - 特征宽表生成及业务处理模型的训练方法和装置 - Google Patents
特征宽表生成及业务处理模型的训练方法和装置 Download PDFInfo
- Publication number
- CN113535817B CN113535817B CN202110791247.XA CN202110791247A CN113535817B CN 113535817 B CN113535817 B CN 113535817B CN 202110791247 A CN202110791247 A CN 202110791247A CN 113535817 B CN113535817 B CN 113535817B
- Authority
- CN
- China
- Prior art keywords
- feature
- service
- target
- field
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012545 processing Methods 0.000 title claims abstract description 51
- 238000010276 construction Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims description 26
- 238000012216 screening Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000009960 carding Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stored Programmes (AREA)
Abstract
本说明书实施例公开了一种特征宽表生成及业务处理模型的训练方法和装置。所述特征宽表生成方法包括:基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,业务数据库中存储有不同业务的业务基础数据,元数据用于描述业务基础数据的属性;基于特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与目标业务相关的不同特征字段的字段值;基于特征源表信息,确定所述多个特征源表之间的关联字段;基于所述多个特征源表之间的关联字段和目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;执行建表语句和拼接语句,以得到用于记录目标特征字段的字段值的特征宽表。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种特征宽表生成及业务处理模型的训练方法和装置。
背景技术
在各类业务场景中,通常需要对海量业务数据进行各种处理,例如在机器学习建模场景中,需要将不同的特征数据拼接成维度更多的特征数据。
目前,传统拼接方案是通过人工从业务数据集中筛选出所需的特征数据,然后对筛选出的特征数据进行拼接,得到用于存储更多维度的特征数据的特征宽表。但是,由于业务数据集的规模较大,且不同业务数据之间的业务逻辑存在较大差异性,这种人工创建特征宽表的方式无法保证效率和准确性。
因此,目前亟需一种高效且准确生成特征宽表的解决方案。
发明内容
本说明书实施例目的是提供一种特征宽表生成及业务处理模型的训练方法和装置,能够提高特征宽表的生成效率和准确性,并且能够基于生成的特征宽表进一步训练出业务处理模型。
为了实现上述目的,本说明书实施例采用下述技术方案:
第一方面,提供一种特征宽表生成方法,包括:
基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
第二方面,提供一种业务处理模型的训练方法,包括:
获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;
查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
第三方面,提供一种特征宽表生成装置,包括:
第一确定单元,基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
建表语句构造单元,基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
第二确定单元,基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
拼接语句构造单元,基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
宽表生成单元,执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
第四方面,提供一种业务处理模型的训练装置,包括:
宽表获取单元,获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;
查询单元,查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
训练单元,基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
第五方面,提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
第六方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
第七方面,提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;
查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
第八方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;
查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
本说明书实施例的方案,基于业务数据库的元数据,可以梳理出与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,进而基于特征源表信息可以自动构造用于创建特征源表的建表语句,后续通过执行建表语句即可创建与目标业务相关的多个特征源表,整个过程无需人工参与数据梳理、代码编写和特征源表的创建,不仅可以提高特征源表的生成效率,还可以减少人为错误,提高后续生成的特征源表的准确性;基于特征源表信息,确定多个特征源表之间的关联字段,关联字段能够反映出不同特征源表之间的拼接逻辑,进而基于多个特征源表之间的关联字段、训练样本包含的目标特征字段,可以自动构造用于对多个特征源表进行拼接的拼接语句,后续通过执行拼接语句即可创建与目标业务对应的特征宽表,整个过程无需人工参与整理不同拼接源表的业务逻辑、代码编写和特征宽表的创建,不仅可以提高特征宽表的生成效率,还可以减少人为错误,提高生成的特征宽表的准确性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书的一个实施例提供的一种特征宽表生成方法的流程示意图;
图2为本说明书的一个实施例提供的一种业务处理模型的训练方法的流程示意图;
图3为本说明书的一个实施例提供的一种特征宽表生成装置的流程示意图;
图4为本说明书的一个实施例提供的一种业务处理模型的训练装置的结构示意图;
图5为本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件保护的范围。
如前所述,传统的特征宽表生成方案是通过人工从业务数据集中筛选出所需的特征数据,然后对筛选出的特征数据进行拼接。但是,由于业务数据集的规模较大,且不同业务数据之间的业务逻辑存在较大差异性,这种人工创建特征宽表的方式无法保证效率和准确性。
为此,本说明书实施例旨在提供一种基于业务数据库的元数据自动生成特征源表并将特征源表拼接为特征宽表的方案,以及后续基于生成的特征宽表所所执行的训练业务处理模型的方案。
应理解,本说明书实施例提供的特征宽表生成方法及业务处理模型的训练方法可以由电子设备执行或安装在电子设备中的软件执行,具体可以由终端设备或服务端设备执行。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
请参考图1,为本说明书的一个实施例提供的一种特征宽表生成方法的流程示意图,该方法可以包括:
S102,基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段。
其中,业务数据库中存储有不同业务的业务基础数据。业务数据库的元数据用于描述业务基础数据的属性,如业务基础数据的类型、数据大小、注释等。业务基础数据随着业务的不同而不同,例如,交易业务的业务基础数据包括交易的商品、商品的成交量及成交金额、交易参与方的相关信息等。
与目标业务匹配的特征源表信息可以例如包括所要建立的与目标业务相关的多个特征源表分别的名称、包含的特征字段及特征字段的属性信息,其中,特征源表用于记录与目标业务相关的特征字段的字段值,不同特征源表包含的特征字段至少部分不同。特征字段的属性信息具体可以包括但不限于特征字段的字段类型、字段注释以及主键等。当然,本领域技术人员应理解,除此之外,特征源表信息还可能包含一些其他信息,本说明书实施例对此不做限定。
作为一种实施方式,可以从业务数据库的元数据中筛选出与目标业务相关的元数据,将筛选出的元数据作为特征源表包含的特征字段。例如,目标业务为预测用户对商品的点击率,那么,可以从业务数据库的元数据中筛选出与该目标业务相关的元数据,例如描述商品属性、用户画像、商家画像等的元数据,作为特征源表包含的特征字段。进一步地,可以根据特征源表包含的特征字段,并结合实际需要,确定特征源表的名称、特征源表所包含的特征字段的属性信息,例如,对于用户标识这一特征字段,可以将该特征字段的字段类型设置为整数型,字段注释为“用户标识”,并将该特征字段设置为主键。
进一步地,可以从筛选出的元数据中确定训练样本包含的目标特征字段,例如将用于描述商品类型的元数据、用于描述商品所属地域的元数据、用于描述用户性别的元数据、用于描述用户年龄的元数据等作为训练样本包含的目标特征字段。
作为另一种实施方式,为了便于对不同特征源表进行管理和拼接,特征源表可以按照业务维度进行分类,进而在后续建立不同业务维度对应的特征源表,其中,单个特征源表则用于记录所对应业务维度的相关特征字段的字段值。
具体地,与目标业务匹配的特征源表信息可通过以下方式确定:首先,从业务数据库的元数据中,筛选与目标业务相关的元数据;然后,按照所属的业务维度对筛选出的元数据进行分组,以得到不同业务维度对应的元数据;进一步地,将单个业务维度对应的元数据,确定为单个业务维度对应的特征源表包含的特征字段;最后,基于不同业务维度对应的特征源表包含的特征字段及特征字段的属性信息,确定与目标业务匹配的特征源表信息。
业务维度随着目标业务的不同而不同,例如,目标业务为预测用户对商品的点击率,则业务维度可以包括但不限于用户维度、商品维度以及商家维护等。相应地,对于用户维度,可以从业务数据库的元数据中,筛选出用于描述用户画像的元数据,例如包括用户的性别、年龄、所处地域、历史消费金额等,作为与用户维度对应的特征源表包含的特征字段。对于商品维度,可以从业务数据库的元数据中,筛选出用于描述商品属性的元数据,例如包括商品的类型、所属地域、历史购买量、历史浏览次数、历史收藏次数、好评率等,作为与商品维度对应的特征源表包含的特征字段。对于商家维度,可以从业务数据库的元数据中,筛选出用于描述商家画像的元数据,例如包括商家所属地域、好评率、粉丝数等,作为与商家维度对应的特征源表包含的特征字段。
S104,基于特征源表信息,构造用于创建多个特征源表的建表语句。
其中,多个特征源表用于记录与目标业务相关的不同特征字段的字段值。
作为一种可选实施方式,可以针对单个特征源表,基于特征源表信息指示的单个特征源表包含的特征字段及特征字段的属性信息以及预定的建表语句模板,构造用于创建单个特征源表的建表语句。
具体而言,可以按照预定的建表语句模板指示的构造规范,将单个特征源表包含的特征字段及特征字段的属性信息插入建表语句模板的相应位置处,由此构造出用于创建单个特征源表的建表语句。其中,建表语句模板可以采用以下任一种语言对应的建表语句模板:Python、Mars和结构化查询语言(Structured Query Language,SQL),也即,建表语句可以通过上述任一种语言编写。
作为示例,以SQL为例,建表语句模板可以如以下所示:
CREATE TABLE特征源表的名称
(
特征字段1字段类型1comment‘字段注释1’,
特征字段2字段类型2comment‘字段注释2’,
特征字段3字段类型3comment‘字段注释3’,
……
)
INSERT INTO特征源表的名称(特征字段1,特征字段2,特征字段3,…)VALUES(字段值1,字段值2,字段值3,…)
在上述建表语句模板中,特征源表的名称、特征字段1至特征字段3、字段类型1至字段类型3、字段注释1至字段注释3以及字段值1及字段值3即为基于特征源表信息所要插入的内容。
可以理解,上述实施方式中,基于对业务数据库中的元数据进行梳理得到的特征源表信息和建表语句模板,可以实现对建表语句的自动化构造,使得通过执行建表语句即可创建与目标业务相关的多个特征源表,整个过程无需人工参与数据梳理、代码编写和特征源表的创建,不仅可以提高特征源表的生成效率,还可以减少人为错误,提高后续生成的特征源表的准确性。
当然,本领域技术人员应理解的是,上述只是构造建表语句的其中一种可选的实施方式,本领域常用的其他构造建表语句的方式也是可行的。
S106,基于特征源表信息,确定多个特征源表之间的关联字段。
多个特征源表之间的关联字段是指将多个特征源表关联起来的字段。为了避免不同特征源表在拼接后出现重复的特征字段,作为一种实施方式,可以根据不同特征源表包含的特征字段及主键,确定不同特征源表之间的关联字段。具体而言,确定多个特征源表之间的关联字段包括:基于特征源表信息指示的单个特征源表包含的特征字段,确定单个特征源表的主键;如果第一特征源表包含与第二特征源表的主键相同的字段,则将第二特征源表的主键确定为第一特征源表与第二特征源表之间的关联字段,其中,第一特征源表和第二特征源表为上述多个特征源表中不同的特征源表。
例如,第一特征源表包含特征字段1和特征字段2,第二特征源表包含特征字段2和特征字段3,其中,特征字段2为第二特征源表的主键,且该特征字段还存在于第一特征源表中,因而第一特征源表和第二特征源表就可以通过特征字段2关联起来,也即特征字段2即为第一特征源表和第二特征源表之间的关联字段。
可以理解,在上述实施方式中,由于单个特征源表的主键的值通常是唯一的,因而根据单个特征源表的主键确定不同特征源表之间的关联字段,由此基于确定出的关联字段,能够在不重复各个特征源表中数据的情况下,将不同特征源表之间的数据交叉捆绑在一起,以形成包含更多且不重复的特征字段的特征宽表。
当然,在其他实施方式中,也可以将同时存在于第一特征源表和第二特征源表的特征字段,作为第一特征源表和第二特征源表之间的关联字段。
S108,基于多个特征源表之间的关联字段和训练样本包含的目标特征字段,构造用于对多个特征源表进行拼接的拼接语句。
本说明书实施例中,拼接语句在被执行时能够将多个特征源表拼接成包含目标特征字段的特征宽表,也即所建立的特征宽表用于记录目标特征字段的字段值。
作为一种可选实施方式,可以基于训练样本包含的目标特征字段,确定单个特征源表中待拼接的特征字段,然后,基于单个特征源表中待拼接的特征字段、训练样本包含的目标特征字段以及预定的拼接语句模板,构造上述拼接语句。
具体而言,可以按照预定的拼接语句模板指示的构造规范,将待拼接的特征字段的属性信息和目标特征字段的属性信息插入拼接语句模板的相应位置处,由此构造出上述拼接语句。其中,拼接语句模板可以采用以下任一种语言对应的建表语句模板:Python、Mars和结构化查询语言(Structured Query Language,SQL),也即,拼接语句可以通过上述任一种语言编写。
作为示例,以SQL为例,拼接语句模板可以如下所示:
SELECT特征源表A的名称.待拼接的特征字段1,特征源表B的名称.待拼接的特征字段2,…FROM特征源表A的名称
JOIN特征源表A的名称ON特征源表A的名称.关联字段=特征源表B的名称.关联字段
……
上述拼接语句模板中,特征源表A和B各自的名称、待拼接的特征字段1和2以及关联字段即为所要插入的内容。
可以理解,通过上述方式可以实现对拼接语句的自动化构造,使得后续通过执行拼接语句即可创建与目标业务对应的特征宽表,整个过程无需人工参与整理不同拼接源表的业务逻辑、代码编写和特征宽表的创建,不仅可以提高特征宽表的生成效率,还可以减少人为错误,提高生成的特征宽表的准确性。
当然,本领域技术人员应理解的是,上述只是构造拼接语句的其中一种可选的实施方式,本领域常用的其他构造拼接语句的方式也是可行的。
S110,执行建表语句和拼接语句,以得到用于记录目标特征字段的字段值的特征宽表。
通过执行建表语句,可以创建与目标业务相关的多个特征源表,多个特征源表中分别记录与目标业务相关的不同特征字段的字段值。通过执行拼接语句,可以将多个特征源表拼接为包含目标特征字段的特征宽表。
本说明书实施例提供的特征宽表生成方法,基于业务数据库的元数据,可以梳理出与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,进而基于特征源表信息可以自动构造用于创建特征源表的建表语句,后续通过执行建表语句即可创建与目标业务相关的多个特征源表,整个过程无需人工参与数据梳理、代码编写和特征源表的创建,不仅可以提高特征源表的生成效率,还可以减少人为错误,提高后续生成的特征源表的准确性;基于特征源表信息,确定多个特征源表之间的关联字段,关联字段能够反映出不同特征源表之间的拼接逻辑,进而基于多个特征源表之间的关联字段、训练样本包含的目标特征字段,可以自动构造用于对多个特征源表进行拼接的拼接语句,后续通过执行拼接语句即可创建与目标业务对应的特征宽表,整个过程无需人工参与整理不同拼接源表的业务逻辑、代码编写和特征宽表的创建,不仅可以提高特征宽表的生成效率,还可以减少人为错误,提高生成的特征宽表的准确性。
与上述方法相对应地,本说明书实施例还提供一种业务处理模型的训练方法,能够基于生成的特征宽表训练业务处理模型。
请参考图2,为本说明书的一个实施例提供的一种业务处理模型的训练方法的流程示意图,该方法可以包括:
S202,获取与待处理的目标业务对应的特征宽表。
其中,特征宽表是通过执行用于创建多个特征源表的建表语句和用于对多个特征源表进行拼接的拼接语句得到的,多个特征源表用于记录与目标业务相关的不同特征字段的字段值,特征宽表用于记录与目标业务匹配的训练样本包含的目标特征字段的字段值。
S204,查询特征宽表,以得到与目标业务匹配的训练样本。
具体而言,特征宽表的每一行记录即可作为一训练样本,由此通过查询与目标业务对应的特征宽表的行记录,可以获取与目标业务匹配的训练样本。
S206,基于训练样本和训练样本对应的标签,训练与目标业务对应的业务处理模型。
训练样本对应的标签为训练样本在目标业务对应的业务处理结果。具体地,作为一种实施方式,可以将训练样本输入与目标业务对应的业务处理模型中,以得到训练样本在目标业务对应的预测结果。然后,基于预定的损失函数、训练样本在目标业务对应的预测结果及对应的标签,确定对训练样本的预测误差。进一步地,基于预测误差调整业务处理模型的网络参数,例如包括业务处理模型的网络层数、各网络层包含的神经元数、不同网络层包含的神经元之间的连接权重等,直到基于业务处理模型对训练样本进行预测所得的预测误差满足预定误差要求,例如预测误差小于预定误差阈值等。
例如,仍以目标业务为预测用户对商品的点击率为例,训练样本可以包括用户维度、商品维度以及商家维度等业务维度对应的特征字段的字段值,训练样本对应的标签可以为用户对商品的点击率,训练样本在目标业务对应的预测结果可以包括用户对商品的点击率的预测值。
本领域技术人员应理解,作为其他一些实施方式,还可以采用其他本领域常用的训练方式进行业务处理模型的训练,在此不再详细展开。
显然,本说明书实施例提供的业务处理模型的训练方法,能够方便快捷地从特征宽表中获取到准确的训练样本,从而提高业务处理模型的准确率。之后,基于业务处理模型可以进行相关的业务处理。
此外,与上述图1所示的特征宽表生成方法相对应地,本说明书实施例还提供一种特征宽表生成装置。图3是本说明书实施例提供的一种特征宽表生成装置300的结构示意图,包括:
第一确定单元310,基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
建表语句构造单元320,基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
第二确定单元330,基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
拼接语句构造单元340,基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
宽表生成单元350,执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
本说明书实施例提供的特征宽表生成装置,基于业务数据库的元数据,可以梳理出与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,进而基于特征源表信息可以自动构造用于创建特征源表的建表语句,后续通过执行建表语句即可创建与目标业务相关的多个特征源表,整个过程无需人工参与数据梳理、代码编写和特征源表的创建,不仅可以提高特征源表的生成效率,还可以减少人为错误,提高后续生成的特征源表的准确性;基于特征源表信息,确定多个特征源表之间的关联字段,关联字段能够反映出不同特征源表之间的拼接逻辑,进而基于多个特征源表之间的关联字段、训练样本包含的目标特征字段,可以自动构造用于对多个特征源表进行拼接的拼接语句,后续通过执行拼接语句即可创建与目标业务对应的特征宽表,整个过程无需人工参与整理不同拼接源表的业务逻辑、代码编写和特征宽表的创建,不仅可以提高特征宽表的生成效率,还可以减少人为错误,提高生成的特征宽表的准确性。
可选地,所述建表语句构造单元320,基于所述特征源表信息指示的单个特征源表包含的特征字段及特征字段的属性信息以及预定的建表语句模板,构造用于创建所述单个特征源表的建表语句,所述属性信息包括字段类型及字段注释。
可选地,所述第一确定单元310,从所述业务数据库的元数据中,筛选与所述目标业务相关的元数据;
按照所属的业务维度对筛选出的元数据进行分组,以得到不同业务维度对应的元数据;
将单个业务维度对应的元数据,确定为所述单个业务维度对应的特征源表包含的特征字段;
基于不同业务维度对应的特征源表包含的特征字段及特征字段的属性信息,确定与目标业务匹配的特征源表信息。
可选地,所述第二确定单元330,基于所述特征源表信息指示的单个特征源表包含的特征字段,确定单个特征源表的主键;
如果第一特征源表包含与第二特征源表的主键相同的字段,则将所述第二特征源表的主键确定为所述第一特征源表与所述第二特征源表之间的关联字段,其中,所述第一特征源表和所述第二特征源表为所述多个特征源表中不同的特征源表。
可选地,所述拼接语句构造单元340,基于所述目标特征字段,确定单个特征源表中待拼接的特征字段;
基于所述待拼接的特征字段、所述目标特征字段以及预定的拼接语句模板,构造所述拼接语句。
可选地,所述建表语句和所述拼接语句通过以下任一种语言构造:Python、Mars和SQL。
显然,本说明书实施例的特征宽表生成装置可以作为上述图1所示的特征宽表生成方法的执行主体,因此能够实现特征宽表生成方法在图1所实现的功能。由于原理相同,在此不再赘述。
此外,与上述图2所示的业务处理模型的训练方法相对应地,本说明书实施还提供一种业务处理模型的训练装置。图4是本说明书实施例提供的业务处理模型的训练装置400的结构示意图,该装置400包括:
宽表获取单元410,获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;
查询单元420,查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
训练单元430,基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
显然,能够方便快捷地从特征宽表中获取到准确的训练样本,从而提高业务处理模型的准确率。之后,基于业务处理模型可以进行相关的业务处理。
另外,本说明书实施例提供的业务处理模型的训练装置可以作为上述图2所示的业务处理模型的训练方法的执行主体,因此能够实现业务处理模型的训练方法在图2所实现的功能。由于原理相同,在此不再赘述。
图5是本说明书的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成特征宽表生成装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成业务处理模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;
查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
上述如本说明书图1所示实施例揭示的特征宽表生成装置执行的方法或者如本说明书图2所示实施例揭示的业务处理模型的训练装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本说明书实施例的电子设备可以实现特征宽表生成装置在图1所示实施例的功能,或者,可以实现业务处理模型的训练装置在图2所示实施例的功能。由于原理相同,本说明书实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
或者,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图2所示实施例的方法,并具体用于执行以下操作:
获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;
查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (13)
1.一种特征宽表生成方法,包括:
基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性,所述特征源表信息包括待生成的特征源表的名称以及所述特征源表包含的特征字段的属性信息;
基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述建表语句为基于所述特征源表信息和建表语句模板进行自动构造得到;
基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句,所述拼接语句为基于单个特征源表中待拼接的特征字段、所述目标特征字段以及拼接语句模板进行自动构造得到;
执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
2.如权利要求1所述的方法,所述基于所述特征源表信息,构造用于创建多个特征源表的建表语句,包括:
基于所述特征源表信息指示的单个特征源表包含的特征字段及特征字段的属性信息以及预定的建表语句模板,构造用于创建所述单个特征源表的建表语句,所述属性信息包括字段类型及字段注释。
3.如权利要求1所述的方法,基于业务数据库的元数据,确定与目标业务匹配的特征源表信息,包括:
从所述业务数据库的元数据中,筛选与所述目标业务相关的元数据;
按照所属的业务维度对筛选出的元数据进行分组,以得到不同业务维度对应的元数据;
将单个业务维度对应的元数据,确定为所述单个业务维度对应的特征源表包含的特征字段;
基于不同业务维度对应的特征源表包含的特征字段及特征字段的属性信息,确定与目标业务匹配的特征源表信息。
4.如权利要求1所述的方法,所述基于所述特征源表信息,确定所述多个特征源表之间的关联字段,包括:
基于所述特征源表信息指示的单个特征源表包含的特征字段,确定单个特征源表的主键;
如果第一特征源表包含与第二特征源表的主键相同的字段,则将所述第二特征源表的主键确定为所述第一特征源表与所述第二特征源表之间的关联字段,其中,所述第一特征源表和所述第二特征源表为所述多个特征源表中不同的特征源表。
5.如权利要求1所述的方法,所述基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句,包括:
基于所述目标特征字段,确定单个特征源表中待拼接的特征字段;
基于所述待拼接的特征字段、所述目标特征字段以及预定的拼接语句模板,构造所述拼接语句。
6.如权利要求1至5中任一项所述的方法,所述建表语句和所述拼接语句通过以下任一种语言构造:Python、Mars和SQL。
7.一种业务处理模型的训练方法,包括:
获取与待处理的目标业务对应的特征宽表,所述特征宽表是基于权利要求1至6中任一项所述的方法生成的;
查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
8.一种特征宽表生成装置,包括:
第一确定单元,基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性,所述特征源表信息包括待生成的特征源表的名称以及所述特征源表包含的特征字段的属性信息;
建表语句构造单元,基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述建表语句为基于所述特征源表信息和建表语句模板进行自动构造得到;
第二确定单元,基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
拼接语句构造单元,基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句,所述拼接语句为基于单个特征源表中待拼接的特征字段、所述目标特征字段以及拼接语句模板进行自动构造得到;
宽表生成单元,执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
9.一种业务处理模型的训练装置,包括:
宽表获取单元,获取与待处理的目标业务对应的特征宽表,所述特征宽表是基于权利要求1至6中任一项所述的方法生成的;
查询单元,查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
训练单元,基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
10.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性,所述特征源表信息包括待生成的特征源表的名称以及所述特征源表包含的特征字段的属性信息;
基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述建表语句为基于所述特征源表信息和建表语句模板进行自动构造得到;
基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句,所述拼接语句为基于单个特征源表中待拼接的特征字段、所述目标特征字段以及拼接语句模板进行自动构造得到;
执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
11.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性,所述特征源表信息包括待生成的特征源表的名称以及所述特征源表包含的特征字段的属性信息;
基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述建表语句为基于所述特征源表信息和建表语句模板进行自动构造得到;
基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句,所述拼接语句为基于单个特征源表中待拼接的特征字段、所述目标特征字段以及拼接语句模板进行自动构造得到;
执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
12.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取与待处理的目标业务对应的特征宽表,所述特征宽表是基于权利要求1至6中任一项所述的方法生成的;
查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
13.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取与待处理的目标业务对应的特征宽表,所述特征宽表是基于权利要求1至6中任一项所述的方法生成的;
查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110791247.XA CN113535817B (zh) | 2021-07-13 | 2021-07-13 | 特征宽表生成及业务处理模型的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110791247.XA CN113535817B (zh) | 2021-07-13 | 2021-07-13 | 特征宽表生成及业务处理模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535817A CN113535817A (zh) | 2021-10-22 |
CN113535817B true CN113535817B (zh) | 2024-05-14 |
Family
ID=78098904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110791247.XA Active CN113535817B (zh) | 2021-07-13 | 2021-07-13 | 特征宽表生成及业务处理模型的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535817B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490673B (zh) * | 2022-04-08 | 2022-07-12 | 腾讯科技(深圳)有限公司 | 数据信息处理方法、装置、电子设备及存储介质 |
CN114579584B (zh) * | 2022-05-06 | 2022-08-09 | 腾讯科技(深圳)有限公司 | 数据表处理方法、装置、计算机设备和存储介质 |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7143107B1 (en) * | 2003-06-26 | 2006-11-28 | Microsoft Corporation | Reporting engine for data warehouse |
CN106033473A (zh) * | 2015-03-20 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 数据的处理方法和装置 |
CN106204091A (zh) * | 2015-05-28 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 数据处理方法和装置 |
CN108536826A (zh) * | 2018-04-10 | 2018-09-14 | 口口相传(北京)网络技术有限公司 | 数据分析方法及装置 |
CN108664638A (zh) * | 2018-05-15 | 2018-10-16 | 口碑(上海)信息技术有限公司 | 基于指标体系的报表生成方法及装置 |
CN109117377A (zh) * | 2018-08-31 | 2019-01-01 | 杭州安恒信息技术股份有限公司 | 一种基于建表语句的测试数据自动生成方法、装置及设备 |
CN109189835A (zh) * | 2018-08-21 | 2019-01-11 | 北京京东尚科信息技术有限公司 | 实时生成数据宽表的方法和装置 |
CN109388637A (zh) * | 2018-09-21 | 2019-02-26 | 北京京东金融科技控股有限公司 | 数据仓库信息处理方法、装置、系统、介质 |
CN109684332A (zh) * | 2018-12-20 | 2019-04-26 | 贵州工程应用技术学院 | 一种数据宽表生成方法、装置及系统 |
CN109766429A (zh) * | 2019-02-19 | 2019-05-17 | 北京奇艺世纪科技有限公司 | 一种语句检索方法及装置 |
CN110399600A (zh) * | 2019-07-24 | 2019-11-01 | 北京明略软件系统有限公司 | 生成宽表的方法及装置 |
CN110928879A (zh) * | 2019-11-20 | 2020-03-27 | 贵州电网有限责任公司电力科学研究院 | 宽表生成方法及装置 |
CN110956503A (zh) * | 2019-11-29 | 2020-04-03 | 上海观安信息技术股份有限公司 | 基于用户网络行为的具有借贷需求的用户识别方法及装置 |
CN111008521A (zh) * | 2019-12-06 | 2020-04-14 | 北京三快在线科技有限公司 | 生成宽表的方法、装置及计算机存储介质 |
CN111428458A (zh) * | 2020-03-03 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 通用报表生成方法、装置及计算机可读存储介质 |
CN111563082A (zh) * | 2020-04-30 | 2020-08-21 | 中国银行股份有限公司 | 报表生成方法及装置 |
CN111858600A (zh) * | 2020-07-23 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 数据宽表构建方法、装置、设备及存储介质 |
CN112540978A (zh) * | 2019-09-23 | 2021-03-23 | 北京顺源开华科技有限公司 | 宽表生成方法、装置及电子设备 |
CN112732242A (zh) * | 2021-01-12 | 2021-04-30 | 中国邮政储蓄银行股份有限公司 | 宽表加工脚本的生成方法及装置 |
CN112765152A (zh) * | 2019-11-05 | 2021-05-07 | 北京京东振世信息技术有限公司 | 用于合并数据表的方法和装置 |
CN112784168A (zh) * | 2021-02-25 | 2021-05-11 | 平安健康保险股份有限公司 | 信息推送模型训练方法以及装置、信息推送方法以及装置 |
CN112990455A (zh) * | 2021-02-23 | 2021-06-18 | 北京明略软件系统有限公司 | 网络模型的发布方法及装置、存储介质、电子设备 |
CN113032420A (zh) * | 2021-04-23 | 2021-06-25 | 中国建设银行股份有限公司 | 数据查询方法、装置和服务器 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039898B2 (en) * | 2002-07-12 | 2006-05-02 | Netspective Communications, Llc | Computer system for performing reusable software application development from a set of declarative executable specifications |
US9740692B2 (en) * | 2006-08-01 | 2017-08-22 | Abbyy Development Llc | Creating flexible structure descriptions of documents with repetitive non-regular structures |
KR100934270B1 (ko) * | 2007-09-27 | 2009-12-28 | 주식회사 아이큐엠씨 | 객체 지향적 프로그램을 이용하여 보고서가 작성되도록하는 방법 및 시스템 |
-
2021
- 2021-07-13 CN CN202110791247.XA patent/CN113535817B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7143107B1 (en) * | 2003-06-26 | 2006-11-28 | Microsoft Corporation | Reporting engine for data warehouse |
CN106033473A (zh) * | 2015-03-20 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 数据的处理方法和装置 |
CN106204091A (zh) * | 2015-05-28 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 数据处理方法和装置 |
CN108536826A (zh) * | 2018-04-10 | 2018-09-14 | 口口相传(北京)网络技术有限公司 | 数据分析方法及装置 |
CN108664638A (zh) * | 2018-05-15 | 2018-10-16 | 口碑(上海)信息技术有限公司 | 基于指标体系的报表生成方法及装置 |
CN109189835A (zh) * | 2018-08-21 | 2019-01-11 | 北京京东尚科信息技术有限公司 | 实时生成数据宽表的方法和装置 |
CN109117377A (zh) * | 2018-08-31 | 2019-01-01 | 杭州安恒信息技术股份有限公司 | 一种基于建表语句的测试数据自动生成方法、装置及设备 |
CN109388637A (zh) * | 2018-09-21 | 2019-02-26 | 北京京东金融科技控股有限公司 | 数据仓库信息处理方法、装置、系统、介质 |
CN109684332A (zh) * | 2018-12-20 | 2019-04-26 | 贵州工程应用技术学院 | 一种数据宽表生成方法、装置及系统 |
CN109766429A (zh) * | 2019-02-19 | 2019-05-17 | 北京奇艺世纪科技有限公司 | 一种语句检索方法及装置 |
CN110399600A (zh) * | 2019-07-24 | 2019-11-01 | 北京明略软件系统有限公司 | 生成宽表的方法及装置 |
CN112540978A (zh) * | 2019-09-23 | 2021-03-23 | 北京顺源开华科技有限公司 | 宽表生成方法、装置及电子设备 |
CN112765152A (zh) * | 2019-11-05 | 2021-05-07 | 北京京东振世信息技术有限公司 | 用于合并数据表的方法和装置 |
CN110928879A (zh) * | 2019-11-20 | 2020-03-27 | 贵州电网有限责任公司电力科学研究院 | 宽表生成方法及装置 |
CN110956503A (zh) * | 2019-11-29 | 2020-04-03 | 上海观安信息技术股份有限公司 | 基于用户网络行为的具有借贷需求的用户识别方法及装置 |
CN111008521A (zh) * | 2019-12-06 | 2020-04-14 | 北京三快在线科技有限公司 | 生成宽表的方法、装置及计算机存储介质 |
CN111428458A (zh) * | 2020-03-03 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 通用报表生成方法、装置及计算机可读存储介质 |
CN111563082A (zh) * | 2020-04-30 | 2020-08-21 | 中国银行股份有限公司 | 报表生成方法及装置 |
CN111858600A (zh) * | 2020-07-23 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 数据宽表构建方法、装置、设备及存储介质 |
CN112732242A (zh) * | 2021-01-12 | 2021-04-30 | 中国邮政储蓄银行股份有限公司 | 宽表加工脚本的生成方法及装置 |
CN112990455A (zh) * | 2021-02-23 | 2021-06-18 | 北京明略软件系统有限公司 | 网络模型的发布方法及装置、存储介质、电子设备 |
CN112784168A (zh) * | 2021-02-25 | 2021-05-11 | 平安健康保险股份有限公司 | 信息推送模型训练方法以及装置、信息推送方法以及装置 |
CN113032420A (zh) * | 2021-04-23 | 2021-06-25 | 中国建设银行股份有限公司 | 数据查询方法、装置和服务器 |
Non-Patent Citations (1)
Title |
---|
电路实验数据分析挖掘技术研究;张滢;张新卫;;现代电子技术(第24期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113535817A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019169977A1 (zh) | 一种信息转化率的预测、信息推荐方法和装置 | |
CN113535817B (zh) | 特征宽表生成及业务处理模型的训练方法和装置 | |
CN110019668A (zh) | 一种文本检索方法及装置 | |
CN109190007A (zh) | 数据分析方法及装置 | |
CN113688313A (zh) | 一种预测模型的训练方法、信息推送的方法及装置 | |
CN114817538B (zh) | 文本分类模型的训练方法、文本分类方法及相关设备 | |
CN114625732A (zh) | 基于结构化查询语言sql的查询方法和系统 | |
CN105989066A (zh) | 一种信息处理方法和装置 | |
CN110232156B (zh) | 基于长文本的信息推荐方法及装置 | |
CN110058992B (zh) | 一种文案模板效果反馈方法、装置及电子设备 | |
CN113626558B (zh) | 一种基于智能推荐的字段标准化的方法和系统 | |
CN110019670A (zh) | 一种文本检索方法及装置 | |
CN116737915B (zh) | 基于知识图谱的语义检索方法、装置、设备及存储介质 | |
CN110427492B (zh) | 生成关键词库的方法、装置和电子设备 | |
CN110516918B (zh) | 一种风险识别方法和装置 | |
CN109598478B (zh) | 一种风测结果描述文案的生成方法、装置及电子设备 | |
CN112183181A (zh) | 一种信息展示方法 | |
CN110866085A (zh) | 数据反馈方法与装置 | |
CN111143546A (zh) | 一种获得推荐语的方法、装置及电子设备 | |
CN114817707A (zh) | 一种节点和问题的创建方法、装置、电子设备及存储介质 | |
CN110018844B (zh) | 决策触发方案的管理方法、装置和电子设备 | |
CN110245136B (zh) | 数据检索方法及装置、设备及存储设备 | |
CN111159205A (zh) | 一种数据处理方法及系统 | |
CN110674363B (zh) | 接口服务之间的相似匹配方法、装置及电子设备 | |
CN110908902B (zh) | 一种测试步骤的编辑方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |