CN117009859A

CN117009859A - 一种基于内存计算的特征拼接方法及系统

Info

Publication number: CN117009859A
Application number: CN202311242877.7A
Authority: CN
Inventors: 许靖; 柴磊; 陆金乔
Original assignee: Shenzhen Magic Digital Intelligent Artificial Intelligence Co ltd
Current assignee: Shenzhen Magic Digital Intelligent Artificial Intelligence Co ltd
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-11-07
Anticipated expiration: 2043-09-26
Also published as: CN117009859B

Abstract

本发明提供了一种基于内存计算的特征拼接方法及系统，方法包含：获取包含建立深度学习模型及机器学习模型等模型的数据的文件，将文件导入计算机主存内进行处理；从候选模型集合中选择模型，得到需要拼接的深度学习模型或机器学习模型，从选择模型中筛选得到拼接的数值型、类别型及日期型变量；接收变量，采用多层维度特征同时拼接，通过组合不同层数的特征，得到拼接后的特征，拼接后的特征作为输入，构建深度学习模型及机器学习模型等；系统包含：文件获取模块、模型筛选模块及特征拼接模块。本发明将数据以文件形式导入到计算机主存，通过将数据直接加载到内存中，避免了磁盘I/O的开销，从而大大缩短了数据处理时间。

Description

一种基于内存计算的特征拼接方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于内存计算的特征拼接方法及系统。

背景技术

近年来，随着大数据时代的到来，数据量的不断增加对于传统的数据处理方式提出了更高的要求。内存计算作为一种新型的数据处理方式，以其高速的计算能力、低延迟的数据访问速度和高效的并行处理能力被广泛应用于各个领域，成为了大数据时代数据处理的主要方式之一。而在机器学习及深度学习等人工智能领域中，特征拼接技术被广泛应用于多个层次的神经网络中，特征拼接是指将来自不同来源的特征进行融合，以增强分类及聚类等模型的性能；现有的特征拼接技术大多采用中央处理器CPU或图形处理器GPU等计算设备进行计算，但随着数据量的增加，会导致计算速度变慢，影响模型的性能。

现有技术一，申请号：CN202210474272.X公开了一种点云数据的处理方法、装置、设备及介质，包括：将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征；将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征；将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。虽然能够在较低内存占用的前提下，提升体素的特征表达能力，并提高点云数据的数据处理效果，但是内存使用过高，需要大量的内存来存储特征向量，这可能导致内存不足的问题，并且可能会影响算法的性能。

现有技术二，申请号：CN202010816542.1公开了一种基于多尺度近端特征拼接的高光谱图像分类模型的装置，模型包括多尺度近端特征拼接模块和分类模块，多尺度近端特征拼接模块包括多个串接的多尺度近端特征拼接单元；多尺度近端特征拼接单元包括第一特征提取支路、第二特征提取支路、输入特征传递支路、特征拼接层和平均池化层；第一特征提取支路与第二特征提取支路并联后与特征拼接层及平均池化层依次串接；第一特征提取支路包括串接的第一空洞卷积层和第二空洞卷积层；第二特征提取支路包括第三空洞卷积层；输入特征传递支路用于传递原始空谱特征。虽然模型引入相邻近端特征上下文信息，利用各特征图的空间多样性与特征相关性，提升分类精度；但是如果将不同模型中的特量拼接起来，可能会出现特征维度不一、特征错误的情况影响到模型的准确性，需要进行维度的调整，但是调整过程中也需要消耗更多的计算资源。

现有技术三，申请号：CN202010816542.1公开了一种基于多尺度近端特征拼接的高光谱图像分类模型的装置，其中，模型包括多尺度近端特征拼接模块和分类模块，多尺度近端特征拼接模块包括多个串接的多尺度近端特征拼接单元；多尺度近端特征拼接单元包括第一特征提取支路、第二特征提取支路、输入特征传递支路、特征拼接层和平均池化层；第一特征提取支路与第二特征提取支路并联后与特征拼接层及平均池化层依次串接；第一特征提取支路包括串接的第一空洞卷积层和第二空洞卷积层；第二特征提取支路包括第三空洞卷积层；输入特征传递支路用于传递原始空谱特征。虽然模型引入相邻近端特征上下文信息，利用各特征图的空间多样性与特征相关性，提升分类精度，但是特征拼接采取俩俩拼接不能做到多个模型内特征进行一次性的拼接且拼接的是模型中全量的特征，产生了冗余的操作以无效的特征。

目前现有技术一、现有技术二及现有技术三存在内存使用过高，特征维度不同及拼接方式有限的问题，因而，本发明提供一种基于内存计算的特征拼接方法及系统，利用内存计算的高速度和低延迟，将不同来源的特征读入内存，进行快速的拼接和处理，提高了特征融合的速度和效率；同时，内存计算还可以实现大规模数据的并行处理，进一步提高了特征拼接的速度和性能。

发明内容

为了解决上述技术问题，本发明提供了一基于内存计算的特征拼接方法，包含以下步骤：

获取包含建立深度学习模型及机器学习模型的数据的文件，将文件导入计算机主存内进行处理；

从候选模型集合中选择模型，得到需要拼接的深度学习模型或机器学习模型，从选择模型中筛选得到拼接的数值型、类别型及日期型变量；

接收变量，采用多层维度特征同时拼接，通过组合不同层数的特征，得到拼接后的特征，拼接后的特征作为输入，构建深度学习模型及机器学习模型。

可选的，文件导入计算机主存内的过程，包含以下步骤：

计算机主存发出获取文件的传输请求，开始采集包含建立深度学习模型及机器学习模型的数据；

获取数据转换文件，数据转换文件对应于导入计算机主存的文件存储类型，数据转换文件用于对数据的格式进行转换；

将数据转换文件得到的文件存储至数据库或计算机主存内部存储器，计算向目标存储节点发送文件存储请求，目标存储节点为数据库或计算机主存多个存储节点中的任意一个，文件存储请求包含文件对应的日志段和存储位置信息；存储至数据库时，计算机主存建立与数据库的连接，调取文件。

可选的，数值型、类别型及日期型变量筛选的过程，包含以下步骤：

读取多个需要拼接的深度学习模型或机器学习模型，利用定义的相关条件读取深度学习模型或机器学习模型的特征值，对特征值进行变量分类，变量分类包含数值型、类别型及日期；

利用主值分析求得变量的特征向量，根据特征值，求得当前深度学习模型或机器学习模型的特征值的平均特征值，利用平均特征值实现特征向量的一次筛选，获得初始的变量集合，计算初始的变量集合的特征熵进行二次筛选；

结合特征变量及特征值估计目标规则，依据目标规则及变量分类为基础获取选择模型中所有的变量。

可选的，构建深度学习模型及机器学习模型的过程，包含以下步骤：

获取深度学习模型或机器学习模型的特征拼接层，对不同深度学习模型或机器学习模型的变量进行降维或升维，实现变量的维度一致；

将不同特征拼接层层级的特征按照特征维度进行垂直拼接，即将特征矩阵按行方向进行连接；特征分为数值型、类别型及日期型不同类型；

将拼接后的特征作为深度学习模型或机器学习模型的输入，构建深度学习模型或机器学习模型。

可选的，实现变量的维度一致的过程，包含以下步骤：

获取当前深度学习模型或机器学习模型的特征拼接层的维度，并读取不同深度学习模型或机器学习模型的变量；

判断变量的特征值所在的维度，是否与特征拼接层的维度相同，当所在的维度高于特征拼接层的维度时，进行降维；当所在的维度低于特征拼接层的维度时，进行升维；

将变量与特征拼接层的变量进行关联，同时采用聚类对关联得到的特征拼接层的变量进行压缩，实现变量的维度一致。

可选的，将特征矩阵按行方向进行连接的过程，包含以下步骤：

获取不同特征拼接层层级的特征维度，以特征类型为特征矩阵的行方向特征向量，以特征拼接层层级为特征矩阵的横方向特征向量，建立特征矩阵；

按照特征矩阵的行方向进行特征的拼接，即将特征的相同维度上的值按顺序拼接在一起，形成新的特征；

对新的特征拼接层的特征进行归一化或编码处理，生成新的特征拼接层的特征。

可选的，将特征的相同维度上的值按顺序拼接在一起的过程，包含以下步骤：

按照特征矩阵的行方向输入待拼接的特征拼接层，提取拼接的特征，按照特征进行粗拼接，得到粗拼接后的特征；

获取粗拼接后的特征中的特征值及类型，按照类型提取对应的特征及特征值，在类型的对应下进行，按照特征值进行特征的精确匹配；

将精确匹配的结果按照特征的类型进行拼接，实现特征矩阵的行方向进行特征的拼接。

本发明提供的一种基于内存计算的特征拼接系统，包含以下步骤：

文件获取模块，负责获取包含建立深度学习模型及机器学习模型的数据的文件，将文件导入计算机主存内进行处理；

模型筛选模块，负责从候选模型集合中选择模型，得到需要拼接的深度学习模型或机器学习模型，从选择模型中筛选得到拼接的数值型、类别型及日期型变量；

特征拼接模块，负责接收变量，采用多层维度特征同时拼接，通过组合不同层数的特征，得到拼接后的特征，拼接后的特征作为输入，构建深度学习模型及机器学习模型。

可选的，文件获取模块，包含：

请求发出子模块，负责计算机主存发出获取文件的传输请求，开始采集包含建立深度学习模型及机器学习模型的数据；

数据转换子模块，负责获取数据转换文件，数据转换文件对应于导入计算机主存的文件存储类型，数据转换文件用于对数据的格式进行转换；

文件存储子模块，负责将数据转换文件得到的文件存储至数据库或计算机主存内部存储器，计算向目标存储节点发送文件存储请求，目标存储节点为数据库或计算机主存多个存储节点中的任意一个，文件存储请求包含文件对应的日志段和存储位置信息；存储至数据库时，计算机主存建立与数据库的连接，调取文件。

可选的，特征拼接模块，包含：

维度处理子模块，负责获取深度学习模型或机器学习模型的特征拼接层，对不同深度学习模型或机器学习模型的变量进行降维或升维，实现变量的维度一致；

垂直拼接子模块，负责将不同特征拼接层层级的特征按照特征维度进行垂直拼接，即将特征矩阵按行方向进行连接；特征分为数值型、类别型及日期型不同类型；

特征输入子模块，负责将拼接后的特征作为深度学习模型或机器学习模型的输入，构建深度学习模型或机器学习模型。

本发明首先获取包含建立深度学习模型及机器学习模型等模型的数据的文件，将文件导入计算机主存内进行处理；其次从候选模型集合中选择模型，得到需要拼接的深度学习模型或机器学习模型，从选择模型中筛选得到拼接的数值型、类别型及日期型变量；最后接收变量，采用多层维度特征同时拼接，通过组合不同层数的特征，得到拼接后的特征，拼接后的特征作为输入，构建深度学习模型及机器学习模型等；上述方案将所有建立深度学习模型及机器学习模型等模型所需的数据以文件形式导入到计算机主存，通过将数据直接加载到内存中，避免了磁盘I/O的开销，从而大大缩短了数据处理时间；不同类型的特征按照数值型、类别型和日期按照一定的方式分布进行拼接，获得更为丰富的特征表示，提高深度学习模型及机器学习模型等模型的准确度；采用了多层维度特征同时拼接的技术，通过组合不同层数的特征，进一步提高特征的表达能力和预测准确度。本实施例的特征拼接过程具有高度可定制化，能够根据不同领域或任务的需求，选择不同的特征组合方式和参数设置，实现更加灵活的特征处理；使用内存计算技术对大规模数据进行实时处理和特征拼接，以便更好地提取数据中的信息和模式，并为机器学习算法提供更多的特征和上下文信息，从而提高模型的准确性和可靠性；利用内存计算的高速度和低延迟，将不同来源的特征读入内存，进行快速的拼接和处理，从而提高了特征融合的速度和效率；同时，内存计算还可以实现大规模数据的并行处理，进一步提高了特征拼接的速度和性能。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例1中基于内存计算的特征拼接方法流程图；

图2为本发明实施例2中文件导入计算机主存内的过程图；

图3为本发明实施例3中数值型、类别型及日期型变量筛选的过程图；

图4为本发明实施例4中构建深度学习模型及机器学习模型的过程图；

图5为本发明实施例5中实现变量的维度一致的过程图；

图6为本发明实施例6中将特征矩阵按行方向进行连接的过程图；

图7为本发明实施例7中将特征的相同维度上的值按顺序拼接在一起的过程图；

图8为本发明实施例8中基于内存计算的特征拼接系统框图；

图9为本发明实施例9中文件获取模块框图；

图10为本发明实施例10中模型筛选模块框图；

图11为本发明实施例11中特征拼接模块框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包含多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

实施例1：如图1所示，本发明实施例提供了一种基于内存计算的特征拼接方法，包含以下步骤：

S100：获取包含建立深度学习模型及机器学习模型等模型的数据的文件，将文件导入计算机主存内进行处理；

S200：从候选模型集合中选择模型，得到需要拼接的深度学习模型或机器学习模型，从选择模型中筛选得到拼接的数值型、类别型及日期型变量；

S300：接收变量，采用多层维度特征同时拼接，通过组合不同层数的特征，得到拼接后的特征，拼接后的特征作为输入，构建深度学习模型及机器学习模型等；

上述技术方案的工作原理和有益效果为：本实施例首先获取包含建立深度学习模型及机器学习模型等模型的数据的文件，将文件导入计算机主存内进行处理；其次从候选模型集合中选择模型，得到需要拼接的深度学习模型或机器学习模型，从选择模型中筛选得到拼接的数值型、类别型及日期型变量；最后接收变量，采用多层维度特征同时拼接，通过组合不同层数的特征，得到拼接后的特征，拼接后的特征作为输入，构建深度学习模型及机器学习模型等；上述方案将所有建立深度学习模型及机器学习模型等模型所需的数据以文件形式导入到计算机主存，通过将数据直接加载到内存中，避免了磁盘I/O的开销，从而大大缩短了数据处理时间；不同类型的特征按照数值型、类别型和日期按照一定的方式分布进行拼接，获得更为丰富的特征表示，提高深度学习模型及机器学习模型等模型的准确度；采用了多层维度特征同时拼接的技术，通过组合不同层数的特征，进一步提高特征的表达能力和预测准确度。本实施例的特征拼接过程具有高度可定制化，能够根据不同领域或任务的需求，选择不同的特征组合方式和参数设置，实现更加灵活的特征处理；使用内存计算技术对大规模数据进行实时处理和特征拼接，以便更好地提取数据中的信息和模式，并为机器学习算法提供更多的特征和上下文信息，从而提高模型的准确性和可靠性；利用内存计算的高速度和低延迟，将不同来源的特征读入内存，进行快速的拼接和处理，从而提高了特征融合的速度和效率；同时，内存计算还可以实现大规模数据的并行处理，进一步提高了特征拼接的速度和性能。

实施例2：如图2所示，在实施例1的基础上，本发明实施例提供的文件导入计算机主存内的过程，包含以下步骤：

S101：计算机主存发出获取文件的传输请求，开始采集包含建立深度学习模型及机器学习模型等模型的数据；

S102：获取数据转换文件，数据转换文件对应于导入计算机主存的文件存储类型，数据转换文件用于对数据的格式进行转换；

S103：将数据转换文件得到的文件存储至数据库或计算机主存内部存储器，计算向目标存储节点发送文件存储请求，目标存储节点为数据库或计算机主存多个存储节点中的任意一个，文件存储请求包含文件对应的日志段和存储位置信息；存储至数据库时，计算机主存建立与数据库的连接，调取文件；

上述技术方案的工作原理和有益效果为：本实施例首先计算机主存发出获取文件的传输请求，开始采集包含建立深度学习模型及机器学习模型等模型的数据；其次获取数据转换文件，数据转换文件对应于导入计算机主存的文件存储类型，数据转换文件用于对数据的格式进行转换；最后将数据转换文件得到的文件存储至数据库或计算机主存内部存储器，计算向目标存储节点发送文件存储请求，目标存储节点为数据库或计算机主存多个存储节点中的任意一个，文件存储请求包含文件对应的日志段和存储位置信息；存储至数据库时，计算机主存建立与数据库的连接，调取文件；上述方案数据格式转换：数据转换文件可以对数据的格式进行转换，使得数据能够在计算机主存中进行有效存储和处理，提高数据的读取和处理效率，减少数据传输和转换的时间；数据存储优化：将数据存储到数据库或计算机主存内部存储器中，提供更快速和高效的数据访问，数据库的索引和查询功能可以加速数据的检索和分析，同时计算机主存的高速缓存可以提高数据的读取和写入速度；数据集中管理：将数据集中存储在数据库或计算机主存中，方便地对数据进行管理和维护，通过数据库的事务处理和备份机制，确保数据的一致性和可靠性；同时，根据需要对数据进行更新、删除或添加操作，保持数据集的最新状态；分布式存储支持：通过向目标存储节点发送文件存储请求，可以将数据存储到分布式存储系统中的任意一个存储节点，实现数据的冗余备份和负载均衡，提高系统的可靠性和扩展性；模型训练与预测效率提升：通过将数据存储在计算机主存或数据库中，加速深度学习模型和机器学习模型的训练和预测过程，数据的高速读取和处理能力可以提高模型的训练速度和预测准确度。本实施例提高数据处理效率、数据存储优化、数据集中管理、分布式存储支持以及模型训练与预测效率的提升，提高数据处理和模型构建的效率和准确度，为实现更好的业务结果提供支持。

实施例3：如图3所示，在实施例1的基础上，本发明实施例提供的数值型、类别型及日期型变量筛选的过程，包含以下步骤：

S201：读取多个需要拼接的深度学习模型或机器学习模型，利用定义的相关条件读取深度学习模型或机器学习模型的特征值，对特征值进行变量分类，变量分类包含数值型、类别型及日期；

S202：利用主值分析求得变量的特征向量，根据特征值，求得当前深度学习模型或机器学习模型的特征值的平均特征值，利用平均特征值实现特征向量的一次筛选，获得初始的变量集合，计算初始的变量集合的特征熵进行二次筛选；

S203：结合特征变量及特征值估计目标规则，依据目标规则及变量分类为基础获取选择模型中所有的变量；

上述技术方案的工作原理和有益效果为：本实施例首先读取多个需要拼接的深度学习模型或机器学习模型，利用定义的相关条件读取深度学习模型或机器学习模型的特征值，对特征值进行变量分类，变量分类包含数值型、类别型及日期；其次利用主值分析求得变量的特征向量，根据特征值，求得当前深度学习模型或机器学习模型的特征值的平均特征值，利用平均特征值实现特征向量的一次筛选，获得初始的变量集合，计算初始的变量集合的特征熵进行二次筛选；最后结合特征变量及特征值估计目标规则，依据目标规则及变量分类为基础获取选择模型中所有的变量；上述方案提供了一种自动化的方法来选择深度学习模型或机器学习模型中的变量，减少了人工选择变量的时间和努力；通过利用主值分析和特征熵的方法，能够更准确地筛选出与目标规则相关的变量，提高了模型的准确性和效率；通过对变量进行分类，能够更好地理解和利用不同类型的变量，提高了模型的解释性和可解释性；平均特征值的使用可以减少特征向量的维度，降低了模型的复杂度，提高了模型的训练和预测效率；与现有技术相比，本实施例提供了一种更全面、更有效的变量选择方法，可以帮助研究人员更好地理解和利用深度学习模型或机器学习模型中的变量。

实施例4：如图4所示，在实施例1的基础上，本发明实施例提供的构建深度学习模型及机器学习模型的过程，包含以下步骤：

S301：获取深度学习模型或机器学习模型的特征拼接层，对不同深度学习模型或机器学习模型的变量进行降维或升维，实现变量的维度一致；

S302：将不同特征拼接层层级的特征按照特征维度进行垂直拼接，即将特征矩阵按行方向进行连接；特征分为数值型、类别型及日期型等不同类型；

S303：将拼接后的特征作为深度学习模型或机器学习模型的输入，构建深度学习模型或机器学习模型；

上述技术方案的工作原理和有益效果为：本实施例首先获取深度学习模型或机器学习模型的特征拼接层，对不同深度学习模型或机器学习模型的变量进行降维或升维，实现变量的维度一致；其次将不同特征拼接层层级的特征按照特征维度进行垂直拼接，即将特征矩阵按行方向进行连接；特征分为数值型、类别型及日期型等不同类型；最后将拼接后的特征作为深度学习模型或机器学习模型的输入，构建深度学习模型或机器学习模型；上述方案将不同类型的特征按照一定的方式进行拼接，以获得更为丰富的特征表示，从而提高模型的准确度；具体来说，特征可以分为数值型、类别型和日期型等不同类型；通过将这些不同类型的特征按照一定的方式进行拼接，可以获得更加全面和综合的特征信息；采用多层维度特征同时拼接的技术，可以通过组合不同层数的特征，进一步提高特征的表达能力和预测准确度；可以将原始特征进行一次拼接，将拼接后的特征再与其他特征进行二次拼接，以此类推，可以将更多的特征信息进行组合，增加特征的多样性和表达能力。本实施例通过适当的特征拼接和组合，可以获得更为丰富和全面的特征表示，提高模型的准确度和性能。

实施例5：如图5所示，在实施例4的基础上，本发明实施例提供的实现变量的维度一致的过程，包含以下步骤：

S3011：获取当前深度学习模型或机器学习模型的特征拼接层的维度，并读取不同深度学习模型或机器学习模型的变量；

S3012：判断变量的特征值所在的维度，是否与特征拼接层的维度相同，当所在的维度高于特征拼接层的维度时，进行降维；当所在的维度低于特征拼接层的维度时，进行升维；

S3013：将变量与特征拼接层的变量进行关联，同时采用聚类对关联得到的特征拼接层的变量进行压缩，实现变量的维度一致；

上述技术方案的工作原理和有益效果为：本实施例首先获取当前深度学习模型或机器学习模型的特征拼接层的维度，并读取不同深度学习模型或机器学习模型的变量；其次判断变量的特征值所在的维度，是否与特征拼接层的维度相同，当所在的维度高于特征拼接层的维度时，进行降维；当所在的维度低于特征拼接层的维度时，进行升维；最后将变量与特征拼接层的变量进行关联，同时采用聚类对关联得到的特征拼接层的变量进行压缩，实现变量的维度一致；上述方案实现了维度一致化，通过判断变量的特征值所在的维度与特征拼接层的维度的关系，进行降维或升维操作，将变量的维度调整为与特征拼接层相同，解决不同模型间维度不一致的问题，确保模型能够正常运行和拼接；提高模型性能：维度一致化可以减少维度不一致带来的问题，如特征信息丢失、模型难以训练等，一致的特征拼接层维度可以更好地保留和融合各个模型的特征信息，提高模型的表达能力和性能；增强模型泛化能力：通过对关联得到的特征拼接层的变量进行聚类压缩，进一步减少特征维度，去除冗余信息，提取更具代表性的特征，增强模型的泛化能力，使其在新数据上具有更好的适应性。本实施例解决不同模型间特征拼接层维度不一致的问题，从而提高模型的性能、泛化能力和效果；同时，也为模型集成、特征融合等领域提供了一种有效的维度一致化方法。

实施例6：如图6所示，在实施例4的基础上，本发明实施例提供的将特征矩阵按行方向进行连接的过程，包含以下步骤：

S3021：获取不同特征拼接层层级的特征维度，以特征类型为特征矩阵的行方向特征向量，以特征拼接层层级为特征矩阵的横方向特征向量，建立特征矩阵；

S3022：按照特征矩阵的行方向进行特征的拼接，即将特征的相同维度上的值按顺序拼接在一起，形成新的特征；

S3023：对新的特征拼接层的特征进行归一化或编码处理，生成新的特征拼接层的特征；

上述技术方案的工作原理和有益效果为：本实施例首先获取不同特征拼接层层级的特征维度，以特征类型为特征矩阵的行方向特征向量，以特征拼接层层级为特征矩阵的横方向特征向量，建立特征矩阵；其次按照特征矩阵的行方向进行特征的拼接，即将特征的相同维度上的值按顺序拼接在一起，形成新的特征；最后对新的特征拼接层的特征进行归一化或编码处理，生成新的特征拼接层的特征；上述方案实现了特征融合：将不同特征拼接在一起，可以将它们的信息融合起来，形成一个更全面及更综合的特征表示，提供更多的信息给模型，从而改善模型的性能和泛化能力；维度扩展：通过将特征按照特征维度进行拼接，将特征的维度扩展，从而提供更多的特征信息。对于某些模型来说尤为重要，特别是那些需要大量输入特征的模型；特征交互：拼接不同特征可以促进不同特征之间的交互和关联，通过将特征在特征维度上进行拼接，捕捉到特征之间的交互作用，从而提供更多的模型学习能力；特征预处理：在特征拼接层后，对新的特征进行归一化或编码等预处理操作，进一步改善特征的分布和表示，为后续的模型训练提供更好的输入。被方南实施例通过将不同特征拼接层层级的特征进行垂直拼接，并对拼接后的特征进行预处理，可以提供更丰富及更全面的特征表示，从而改善模型的性能和泛化能力。

实施例7：如图7所示，在实施例6的基础上，本发明实施例提供的将特征的相同维度上的值按顺序拼接在一起的过程，包含以下步骤：

S302201：按照特征矩阵的行方向输入待拼接的特征拼接层，提取拼接的特征，按照特征进行粗拼接，得到粗拼接后的特征；

S302202：获取粗拼接后的特征中的特征值及类型，按照类型提取对应的特征及特征值，在类型的对应下进行，按照特征值进行特征的精确匹配；

S302203：将精确匹配的结果按照特征的类型进行拼接，实现特征矩阵的行方向进行特征的拼接；

上述技术方案的工作原理和有益效果为：本实施例首先按照特征矩阵的行方向输入待拼接的特征拼接层，提取拼接的特征，按照特征进行粗拼接，得到粗拼接后的特征；其次获取粗拼接后的特征中的特征值及类型，按照类型提取对应的特征及特征值，在类型的对应下进行，按照特征值进行特征的精确匹配；最后将精确匹配的结果按照特征的类型进行拼接，实现特征矩阵的行方向进行特征的拼接；上述方案提取拼接的特征：通过按照特征矩阵的行方向输入待拼接的特征拼接层，提取出需要拼接的特征；粗拼接特征：将提取出的特征按照特征进行粗拼接，得到粗拼接后的特征，将不同特征的信息进行融合，提高特征的表达能力；特征值的提取和匹配：获取粗拼接后的特征中的特征值及类型，并按照类型提取对应的特征及特征值，根据特征值的大小和类型的匹配关系，进行特征的精确匹配；特征的精确匹配和拼接：根据特征的精确匹配结果，将匹配的特征按照特征的类型进行拼接，保留特征的结构和语义信息，提高特征的表示能力。本实施例可以有效地将不同特征拼接层级的特征进行精确匹配和拼接，得到新的特征拼接层的特征矩阵，提高特征的多样性和表达能力，从而更好地支持后续的数据分析和模型建立任务。

实施例8：如图8所示，本发明实施例提供了一种基于内存计算的特征拼接系统，包含以下步骤：

文件获取模块，负责获取包含建立深度学习模型及机器学习模型等模型的数据的文件，将文件导入计算机主存内进行处理；

特征拼接模块，负责接收变量，采用多层维度特征同时拼接，通过组合不同层数的特征，得到拼接后的特征，拼接后的特征作为输入，构建深度学习模型及机器学习模型等；

上述技术方案的工作原理和有益效果为：本实施例的文件获取模块获取包含建立深度学习模型及机器学习模型等模型的数据的文件，将文件导入计算机主存内进行处理；模型筛选模块从候选模型集合中选择模型，得到需要拼接的深度学习模型或机器学习模型，从选择模型中筛选得到拼接的数值型、类别型及日期型变量；特征拼接模块接收变量，采用多层维度特征同时拼接，通过组合不同层数的特征，得到拼接后的特征，拼接后的特征作为输入，构建深度学习模型及机器学习模型等；上述方案将所有建立深度学习模型及机器学习模型等模型所需的数据以文件形式导入到计算机主存，通过将数据直接加载到内存中，避免了磁盘I/O的开销，从而大大缩短了数据处理时间；不同类型的特征按照数值型、类别型和日期按照一定的方式分布进行拼接，获得更为丰富的特征表示，提高深度学习模型及机器学习模型等模型的准确度；采用了多层维度特征同时拼接的技术，通过组合不同层数的特征，进一步提高特征的表达能力和预测准确度。本实施例的特征拼接过程具有高度可定制化，能够根据不同领域或任务的需求，选择不同的特征组合方式和参数设置，实现更加灵活的特征处理；使用内存计算技术对大规模数据进行实时处理和特征拼接，以便更好地提取数据中的信息和模式，并为机器学习算法提供更多的特征和上下文信息，从而提高模型的准确性和可靠性；利用内存计算的高速度和低延迟，将不同来源的特征读入内存，进行快速的拼接和处理，从而提高了特征融合的速度和效率；同时，内存计算还可以实现大规模数据的并行处理，进一步提高了特征拼接的速度和性能。

实施例9：如图9所示，在实施例8的基础上，本发明实施例提供的文件获取模块，包含：

请求发出子模块，负责计算机主存发出获取文件的传输请求，开始采集包含建立深度学习模型及机器学习模型等模型的数据；

文件存储子模块，负责将数据转换文件得到的文件存储至数据库或计算机主存内部存储器，计算向目标存储节点发送文件存储请求，目标存储节点为数据库或计算机主存多个存储节点中的任意一个，文件存储请求包含文件对应的日志段和存储位置信息；存储至数据库时，计算机主存建立与数据库的连接，调取文件；

上述技术方案的工作原理和有益效果为：本实施例的请求发出子模块计算机主存发出获取文件的传输请求，开始采集包含建立深度学习模型及机器学习模型等模型的数据；数据转换子模块获取数据转换文件，数据转换文件对应于导入计算机主存的文件存储类型，数据转换文件用于对数据的格式进行转换；文件存储子模块将数据转换文件得到的文件存储至数据库或计算机主存内部存储器，计算向目标存储节点发送文件存储请求，目标存储节点为数据库或计算机主存多个存储节点中的任意一个，文件存储请求包含文件对应的日志段和存储位置信息；存储至数据库时，计算机主存建立与数据库的连接，调取文件；上述方案数据格式转换：数据转换文件可以对数据的格式进行转换，使得数据能够在计算机主存中进行有效存储和处理，提高数据的读取和处理效率，减少数据传输和转换的时间；数据存储优化：将数据存储到数据库或计算机主存内部存储器中，提供更快速和高效的数据访问，数据库的索引和查询功能可以加速数据的检索和分析，同时计算机主存的高速缓存可以提高数据的读取和写入速度；数据集中管理：将数据集中存储在数据库或计算机主存中，方便地对数据进行管理和维护，通过数据库的事务处理和备份机制，确保数据的一致性和可靠性；同时，根据需要对数据进行更新、删除或添加操作，保持数据集的最新状态；分布式存储支持：通过向目标存储节点发送文件存储请求，可以将数据存储到分布式存储系统中的任意一个存储节点，实现数据的冗余备份和负载均衡，提高系统的可靠性和扩展性；模型训练与预测效率提升：通过将数据存储在计算机主存或数据库中，加速深度学习模型和机器学习模型的训练和预测过程，数据的高速读取和处理能力可以提高模型的训练速度和预测准确度。本实施例提高数据处理效率、数据存储优化、数据集中管理、分布式存储支持以及模型训练与预测效率的提升，提高数据处理和模型构建的效率和准确度，为实现更好的业务结果提供支持。

实施例10：如图10所示，在实施例8的基础上，本发明实施例提供的模型筛选模块，包含：

变量分类子模块，负责读取多个需要拼接的深度学习模型或机器学习模型，利用定义的相关条件读取深度学习模型或机器学习模型的特征值，对特征值进行变量分类，变量分类包含数值型、类别型及日期；

特征向量子模块，负责利用主值分析求得变量的特征向量，根据特征值，求得当前深度学习模型或机器学习模型的特征值的平均特征值，利用平均特征值实现特征向量的一次筛选，获得初始的变量集合，计算初始的变量集合的特征熵进行二次筛选；

变量获取子模块，负责结合特征变量及特征值估计目标规则，依据目标规则及变量分类为基础获取选择模型中所有的变量；

上述技术方案的工作原理和有益效果为：本实施例的变量分类子模块读取多个需要拼接的深度学习模型或机器学习模型，利用定义的相关条件读取深度学习模型或机器学习模型的特征值，对特征值进行变量分类，变量分类包含数值型、类别型及日期；特征向量子模块利用主值分析求得变量的特征向量，根据特征值，求得当前深度学习模型或机器学习模型的特征值的平均特征值，利用平均特征值实现特征向量的一次筛选，获得初始的变量集合，计算初始的变量集合的特征熵进行二次筛选；变量获取子模块结合特征变量及特征值估计目标规则，依据目标规则及变量分类为基础获取选择模型中所有的变量；上述方案提供了一种自动化的方法来选择深度学习模型或机器学习模型中的变量，减少了人工选择变量的时间和努力；通过利用主值分析和特征熵的方法，能够更准确地筛选出与目标规则相关的变量，提高了模型的准确性和效率；通过对变量进行分类，能够更好地理解和利用不同类型的变量，提高了模型的解释性和可解释性；平均特征值的使用可以减少特征向量的维度，降低了模型的复杂度，提高了模型的训练和预测效率；与现有技术相比，本实施例提供了一种更全面、更有效的变量选择方法，可以帮助研究人员更好地理解和利用深度学习模型或机器学习模型中的变量。

实施例11：如图11所示，在实施例8的基础上，本发明实施例提供的特征拼接模块，包含：

垂直拼接子模块，负责将不同特征拼接层层级的特征按照特征维度进行垂直拼接，即将特征矩阵按行方向进行连接；特征分为数值型、类别型及日期型等不同类型；

特征输入子模块，负责将拼接后的特征作为深度学习模型或机器学习模型的输入，构建深度学习模型或机器学习模型；

上述技术方案的工作原理和有益效果为：本实施例的维度处理子模块获取深度学习模型或机器学习模型的特征拼接层，对不同深度学习模型或机器学习模型的变量进行降维或升维，实现变量的维度一致；垂直拼接子模块将不同特征拼接层层级的特征按照特征维度进行垂直拼接，即将特征矩阵按行方向进行连接；特征分为数值型、类别型及日期型等不同类型；特征输入子模块将拼接后的特征作为深度学习模型或机器学习模型的输入，构建深度学习模型或机器学习模型；上述方案将不同类型的特征按照一定的方式进行拼接，以获得更为丰富的特征表示，从而提高模型的准确度；具体来说，特征可以分为数值型、类别型和日期型等不同类型；通过将这些不同类型的特征按照一定的方式进行拼接，可以获得更加全面和综合的特征信息；采用多层维度特征同时拼接的技术，可以通过组合不同层数的特征，进一步提高特征的表达能力和预测准确度；可以将原始特征进行一次拼接，将拼接后的特征再与其他特征进行二次拼接，以此类推，可以将更多的特征信息进行组合，增加特征的多样性和表达能力。本实施例通过适当的特征拼接和组合，可以获得更为丰富和全面的特征表示，提高模型的准确度和性能。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于内存计算的特征拼接方法，其特征在于，包含以下步骤：

2.如权利要求1所述的基于内存计算的特征拼接方法，其特征在于，文件导入计算机主存内的过程，包含以下步骤：

3.如权利要求1所述的基于内存计算的特征拼接方法，其特征在于，数值型、类别型及日期型变量筛选的过程，包含以下步骤：

4.如权利要求1所述的基于内存计算的特征拼接方法，其特征在于，构建深度学习模型及机器学习模型的过程，包含以下步骤：

5.如权利要求4所述的基于内存计算的特征拼接方法，其特征在于，实现变量的维度一致的过程，包含以下步骤：

6.如权利要求4所述的基于内存计算的特征拼接方法，其特征在于，将特征矩阵按行方向进行连接的过程，包含以下步骤：

7.如权利要求6所述的基于内存计算的特征拼接方法，其特征在于，将特征的相同维度上的值按顺序拼接在一起的过程，包含以下步骤：

8.一种基于内存计算的特征拼接系统，其特征在于，包含以下步骤：

9.如权利要求8所述的基于内存计算的特征拼接系统，其特征在于，文件获取模块，包含：

10.如权利要求8所述的基于内存计算的特征拼接系统，其特征在于，特征拼接模块，包含：