CN114970751A

CN114970751A - 基于自编码器的自适应目标分类方法、系统及电子设备

Info

Publication number: CN114970751A
Application number: CN202210689469.5A
Authority: CN
Inventors: 宋孟楠; 苏绥绥
Original assignee: Shanghai Qiyue Information Technology Co Ltd
Current assignee: Shanghai Qiyue Information Technology Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-08-30

Abstract

本发明涉及一种基于自编码器的自适应目标分类方法、系统、电子设备及计算机可读介质。该方法包括：按照预设策略从采集的多个目标的目标数据中选择数据样本而得到数据样本集，根据所述数据样本集生成待识别的目标数据的输入特征向量；使用自编码器模型对输入特征向量进行分类编码以及解码，当解码得到的输出特征向量与输入特征向量满足预设条件时，从所述自编码器模型中获取目标特征向量；将目标特征向量输入至训练后的分类器中，输出待识别的目标数据对应目标所属的群体类别。由此直接利用目标数据精细准确识别目标所在群体类别，提高复杂数据和特定数据的识别准确率，无需依赖专家经验介入、提高后续所提供的服务的准确性和安全性。

Description

基于自编码器的自适应目标分类方法、系统及电子设备

技术领域

本发明涉及计算机信息处理技术领域，具体而言，涉及一种基于自编码器的自适应目标分类方法、系统、电子设备及计算机可读介质。

背景技术

随着数据维度的丰富，不同目标在数据上的分布也愈发复杂多样，单一模型很难准确的覆盖到所有模式，因此常常利用的数据特征进行分组建模，比如：根据某一属性指标，将目标划分为不同的子群体类别，在各个子群体类别上单独建模，可以提高模型对目标的识别的准确率。

当前在划分群体类别时，通常是根据专家经验，对某一属性指标，例如籍贯、现居地、网络名称、会员等级或多个指标的组合，例如籍贯+现居地，划分出多个区间，每个区间内的群体可以作为一个群体类别，这样可以得到多个群体类别。群体类别划分的标准是利用统计工具、数据挖掘和机器学习技术得到的。最常用的一种方法是进行聚类分析。聚类分析可以采用层次聚类、k-Means或模糊c均值聚类。无论采用何种算法，聚类都是基于目标的数据特征。因此，具有不同统计学特征或行为特征的目标能够被划分为不同的细分的群体类别。

但是使用单一指标对群体类别进行划分不够精细，群体类别内仍包含较多中分布模式，所述多个指标的组合一般只能做到2个或者3个指标的组合，精度仍然不足；此外群体类别的划分需要依赖专家经验，所谓经验方法主要是指由主观经验根据目标的一些数据特征，建立目标的群体类别分类的原则和标准，细分同质群体类别。这种方法虽然从直觉上看似乎是合理的，但并不能保证群体类别的划分能提高模型性能、也同样不能提升对海量多维度数据所对应的目标识别其所属群体类别的准确性。

发明内容

有鉴于此，本发明主要目的在于提出一种基于自编码器的自适应目标分类方法、系统、电子设备及计算机可读介质，以期解决或部分解决如何提高目标数据特征中复杂数据和特定数据的识别准确率的技术问题，进而实现更准确有效地自动确定目标所属群体类别的技术问题，从而保证了目标识别的准确性和类别划分的有效性、准确性。

为了解决上述技术问题，本发明第一方面提出一种基于自编码器的自适应目标分类方法，包括：按照预设策略从采集的多个目标的目标数据中选择数据样本而得到数据样本集，从所述数据样本集提取特征数据形成目标特征参数，以及，利用所述目标特征参数生成待识别的目标数据的输入特征向量；使用自编码器模型对所述输入特征向量进行分类编码以及解码，当解码得到的输出特征向量与所述输入特征向量满足预设条件时，从所述自编码器模型中获取目标特征向量；将所述目标特征向量输入至训练后的分类器中，输出待识别的目标数据对应的目标所属的群体类别。

根据本发明一种优选实施方式，使用自编码器模型对所述输入特征向量进行分类编码以及解码，当解码得到的输出特征向量与所述输入特征向量满足预设条件时，从所述自编码器模型中获取目标特征向量，具体包括：对所述输入特征向量进行编码，生成隐藏层的中间特征向量；对所述隐藏层的中间特征向量进行解码，得到输出特征向量；以及，在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时，确定所述隐藏层的中间特征向量为目标特征向量。

根据本发明一种优选实施方式，还包括：根据所述输入特征向量获取权值矩阵、第一偏置向量以及第二偏置向量；其中，预先设置所述隐藏层的中间特征向量的节点数m，所述权值矩阵是n×m的矩阵且n＞m，n表示输入特征向量的维度；对所述输入特征向量进行编码，生成隐藏层的中间特征向量；对所述隐藏层的中间特征向量进行解码，得到输出特征向量；以及，在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时，确定所述隐藏层的中间特征向量为目标特征向量，具体包括：根据所述输入特征向量、权值矩阵以及第一偏置向量确定中间特征向量：h＝f₁(x)＝σ₁(W₁x+b₁)，其中，h表示中间特征向量，x表示输入特征向量；W₁x表示x到h的权值矩阵，σ₁表示第一激活函数，b₁表示第一偏置向量；根据中间特征向量、权值矩阵的逆矩阵以及第二偏置向量确定输出特征向量：x_R＝f₂(h)＝σ₂(W₂h+b₂)，其中，x_R表示输出特征向量，h表示中间特征向量，W₂h表示h到x_R的权值矩阵且W₂h为W₁x权值矩阵对应的逆矩阵，σ₂表示第二激活函数，b₂表示第二偏置向量；计算输出特征向量与输入特征向量的损失：MinimizeLoss＝dist(x,x_R)，其中，dist为二者的距离度量函数；判断步骤：判断损失是否小于预设阈值；如果是，则将中间特征向量确定为目标特征向量并输出；如果否则对所述权值矩阵、第一偏置向量以及第二偏置向量重新赋值，重新确定输出特征向量，重新计算输出特征向量与输入特征向量的损失后执行所述判断步骤，直到损失小于所述预设阈值为止。

根据本发明一种优选实施方式，还包括：中间特征向量的每个元素都是0-1范围内的小数；对于每个待识别的目标数据，将所述目标数据的输入特征向量确定的中间特征向量中值最大的元素置为1，其他元素置为0。

根据本发明一种优选实施方式，对所述权值矩阵、第一偏置向量以及第二偏置向量重新赋值，包括：对所述权值矩阵、第一偏置向量以及第二偏置向量按照梯度下降法重新赋值。

根据本发明一种优选实施方式，还包括：所述自编码器模型包含多个隐藏层；训练所述自编码器模型包括：根据输入特征向量x，训练第一个隐藏层，得到对输入特征向量x的表达h₁，并输出表达h₁；使用第一个隐藏层输出的表达h₁，训练第二个隐藏层，得到对表达h₁的表达h₂；依次对每一个隐藏层采用同样的训练策略，将前一个隐藏层的输出作为下一个隐藏层的输入，最后一个隐藏层的输出为中间特征向量。

根据本发明一种优选实施方式，还包括：将数据样本集分成训练集和测试集，以及，根据训练集和测试集分别提取的特征数据形成目标特征参数，生成待识别的目标数据的输入特征向量x；构建自编码器模型，利用所述输入特征向量x分别进行训练和测试后，获得训练后的所述自编码器模型中的最优的特征表达权值W_u和最优的第一偏置向量b_u；将最优的特征表达权值W_u和最优的第一偏置向量b_u作为深度神经网络分类器的参数的初始值；获取历史目标的历史数据样本形成历史数据样本集，从历史数据样本集提取特征数据形成历史目标特征参数，以及，利用所述历史目标特征参数生成历史输入特征向量；利用训练后的自编码器模型对历史输入特征向量进行编码后得到样本向量，根据所述样本向量和对应的历史目标所属的群体类别对所述深度神经网络分类器进行训练；将所述目标特征向量输入至训练后的分类器中，输出待识别的目标数据对应的目标所属的群体类别，具体包括：将所述目标特征向量输入到训练后的所述深度神经网络分类器，从所述深度神经网络分类器的输出中选出最大概率能发生的向量作为识别结果，以确定待识别的目标数据对应的目标所属的群体类别。

为了解决上述技术问题，本发明第二方面提供一种基于自编码器的自适应目标分类系统，包括：数据采集及处理模块，用于采集多个目标的目标数据，按照预设策略从采集的多个目标的目标数据中选择数据样本而得到数据样本集，从所述数据样本集提取特征数据形成目标特征参数，以及，利用所述目标特征参数生成待识别的目标数据的输入特征向量；编码模块，用于使用自编码器模型对所述输入特征向量进行分类编码以及解码，当解码得到的输出特征向量与所述输入特征向量满足预设条件时，从所述自编码器模型中获取目标特征向量；分类单元，用于将所述目标特征向量输入至训练后的分类器中，输出待识别的目标数据对应的目标所属的群体类别；分类器训练单元，用于基于自编码器模型训练分类器。

为了解决上述技术问题，本发明第三方面提出一种电子设备，包括：处理器以及存储计算机可执行指令的存储器，所述计算机可执行指令在被所述处理器执行时实现前述第一方面的方法。

为了解决上述技术问题，本发明第四方面提出一种计算机可读介质，其中，所述计算机可读介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现前述第一方面的方法。

为了解决上述技术问题，本发明第五方面提出一种计算机可执行程序，所述计算机可执行程序被执行时，实现前述的第一方面的方法。

本发明使用自编码器进行自适应的目标分类识别(分群)，融合多个维度进行目标的群体类别识别和划分，不仅仅是少量几个单一特征或属性指标，而是可以处理任意维度的数据，使得目标的群体类别的划分更加精细准确，并且根据数据分布进行自适应群体类别划分，并不需要依赖专家经验，从而能够满足识别目标特征以及确定目标所属群体类别的功能，提高复杂数据和特定数据的识别准确率。从而提升计算机信息处理的效率，降低大数据处理成本和运算资源消耗，提升运算速度及识别是否存在异常的准确性。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明的示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1是根据本发明的基于自编码器的自适应目标分类方法的一实施例的主要流程图；

图2是根据本发明可采用的自编码器模型结构一示例的示意图；

图3是根据本发明的基于自编码器的自适应目标分类系统的一实施例的主要结构框图；

图4是根据本发明的电子设备的一个实施例的结构框图；

图5是根据本发明的计算机可读介质的一个实施例的结构框图。

具体实施方式

现在将参考附图来更加全面地描述本发明的示例性实施例，虽然各示例性实施例能够以多种具体的方式实施，但不应理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例是为了使本发明的内容更加完整，更加便于将发明构思全面地传达给本领域的技术人员。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

【实施例1】

图1是根据本发明的基于自编码器的自适应目标分类方法的一实施例的主要流程图。根据本发明的方案，能实现自适应目标分类识别。如图1所示，该方法至少包括下述步骤：

S1：采集多个目标的目标数据，按照预设策略从所述多个目标的目标数据中选择数据样本，得到数据样本集，并生成待识别目标数据的输入特征向量。

一个实施方式中，按照预设策略从采集的多个目标的目标数据中选择数据样本而得到数据样本集，从所述数据样本集提取特征数据形成目标特征参数，再利用所述目标特征参数生成待识别的目标数据的输入特征向量。

在本实施例中，需要进行分类的目标可以是个人用户，比如，识别用户是否有进行犯罪、识别用户是否是黑产、识别用户的违约风险，具体的，可以根据用户在视频中的行为特征识别用户是否有犯罪风险、根据用户在网络上的行为识别用户是否是黑产、根据用户资产数据识别用户是否有违约的风险，等等。

在本实施例中，需要进行分类的目标还可以是终端，比如，终端可以是手机或者服务器等设备，具体的，根据终端的售价、品牌影响力、销量等数据对终端的档次、面向人群进行分类；进一步，还可以根据终端的销售情况来对产量分布进行分类。

在本实施例中，需要进行分类的目标还可以是数据，比如，财务数据、运动能力数据、网络数据等，具体的，可以根据财务数据所属的公司、支出的分类、收入的分类，对财务数据进行更具体的分类；可以根据运动员在不同项目上的得分或者成绩对运动能力数据进行分类，进而确定运动员擅长的项目；可以根据网络数据的主题、涉及到的对象、涉及到的话题对网络数据进行分类。

在本实施例中，需要进行分类的目标不仅包括个人用户、终端、数据，还可以是日常生活中的餐具、玩具、店铺、文具等等。

其中，该目标数据可以包括多种目标行为类别的数据，其中，目标行为类别可以根据目标行为特性来进行划分，比如，与社交相关的数据可以划分为社交信息，与支付相关的数据可以划分为支付行为数据，与娱乐休闲相关的数据可以划分为娱乐休闲行为数据等等；即该目标数据可以包括目标的帐号信息、社交信息、支付行为数据、娱乐休闲行为数据、教育行为数据、和/或其他网络行为数据等等，例如，可以如下：

目标的帐号信息，比如公开的帐号名称、公开的区域、公开的年龄、和/或通用设置等。

目标的社交信息，比如公开交流平台上的聊天、语音通话、微博空间公开发表的信息、社区评论、和/或公众号文章公开阅读点赞等。

目标的支付行为数据，比如网上购物、游戏点卡支付、和/或音乐流量包等。

娱乐休闲行为数据：如视频点播、音乐播放、K歌、和/或新闻阅读等。

教育行为数据：如线上读书、公开课学习、职业考试练习、技能培训、和/或翻译软件使用等.

网络行为数据：如终端应用下载、和/或搜索等。

其中，该预设策略可以根据实际应用的需求进行设置，例如，可以设置为对目标数据进行清洗。

即将采集到的目标数据进行清洗，然后，将清洗后的目标数据作为数据样本，添加至数据样本集中，目的是提取有预测能力且稳定的变量。

其中，清洗的方式可以多种，比如“去除奇异点”、“补齐缺失值”、和/或“去掉重复采集的数据”等等；例如，可以如下：

去除奇异点：将该目标数据中的奇异点剔除，并将剩余的目标数据作为数据样本，添加至数据样本集中。其中，该奇异点指的是由于数据采集过程中的错误或者其他行为造成的数据可能性取值外的数据。

补齐缺失值：根据该目标数据确定本应采集但没有采集到数据，对没有采集到的数据赋予预设值(即赋默认值)，然后，将采集到的目标数据和该赋值后的数据作为数据样本，添加至数据样本集中。

去掉重复采集的数据：将该目标数据中重复采集的数据进行剔除，并将剩余的目标数据作为数据样本，添加至数据样本集中。

在将目标数据进行清洗后，便可以将清洗后的数据，即数据样本集中的数据样本进行归类，并写入预设数据库中，以供后续步骤使用。

在一个特定实施方式中，该数据样本集的数据样本为未标注所属的群体类别即目标识别的数据样本。

具体的，可以筛选任意维度的特征作为自编码器模型的输入，即划分群体类别的依据，因为自编码器模型是无监督模型，因此可以根据数据的分布自适应划分群体类别。

所述待识别目标数据的输入特征向量用于表征该目标的特征，以供群体类别分类使用。

所述特征向量可以包括待识别目标的特征参数，具体的，对待识别目标数据进行特征数据提取，以生成待识别目标的特征参数。

可以通过对特征数据进行数值化来生成特征参数。之后将每个待识别目标的特征参数表示成向量空间模型的空间中的一个向量，即输入特征向量。

S2、使用自编码器模型对输入特征向量进行分类编码，获取目标特征向量。

一个实施方式中，可以使用自编码器模型对所述输入特征向量进行分类编码以及解码，当解码得到的输出特征向量与所述输入特征向量满足预设条件时，从所述自编码器模型中获取目标特征向量。

进一步，对所述输入特征向量进行编码，生成隐藏层的中间特征向量；对所述隐藏层的中间特征向量进行解码，得到输出特征向量；以及，在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时，确定所述隐藏层的中间特征向量为目标特征向量。

具体地，自编码器模型是一种无监督式学习模型，其可以采用神经网络。其基于反向传播算法与最优化方法，利用输入数据x本身作为监督，来指导神经网络尝试学习一个映射关系，从而得到一个重构输出x_R。在时间序列异常检测场景下，异常对于正常来说是少数，所以如果使用自编码器重构出来的输出x_R跟原始输入的差异超出一定阈值的话，原始时间序列即存在了异常。附图2是自编码器的模型结构示意图。

一个实施方式中，如附图2所示，所述自编码器由输入层、隐藏层(中间层)和输出层组成，其中，输入层(同时也作为输出层)的规模(即输入节点数)为n，隐藏层的节点数为m。x∈Rⁿ，h∈R^m，x^R即x_R∈Rⁿ分别表示输入层、隐藏层及输出层上对应的特征向量，这里x＝x_R(理想情况下)，隐藏层的特征向量h即为要求的压缩后的目标特征向量。所述模型包含两个主要的部分：Encoder(编码器)和Decoder(解码器)。编码器的作用是把高维输入x编码成低维的隐变量h，从而强迫神经网络学习最有信息量的特征；解码器的作用是把隐藏层的隐变量h还原到初始维度，最好的状态就是解码器的输出能够完美地或者近似恢复出原来的输入,即x_R≈x。

一个实施方式中，从自编码器获得有用特征的一种方式是限制h的维度使其小于输入x，这种情况下称作有损自编码器。通过训练有损表征，使得自编码器能学习到数据中最重要的特征。在理想情况下，根据要分配的数据复杂度，来准确选择编码器和解码器的编码维数和容量，就可以成功地训练出任何所需的自编码器结构。

一个实施方式中，可以使用自编码器将输入特征向量转化成目标特征向量，再使用目标特征向量进行搜索。具体的，所述使用自编码器模型对输入特征向量进行分类编码如编码压缩，获取目标特征向量，由以下步骤实现：

S21、获取权值矩阵、第一偏置向量以及第二偏置向量。

具体地，可以根据所述输入特征向量获取权值矩阵、第一偏置向量以及第二偏置向量；其中，预先设置所述隐藏层的中间特征向量的节点数m，所述权值矩阵是n×m的矩阵且n＞m，n表示输入特征向量的维度。

其中，权值矩阵为n×m的矩阵；n＞m；n表示输入特征向量的维度。

其中，预先设置所述隐藏层的中间特征向量的节点数m，即希望划分出的群体类别数。

R^m维数据x_i(i＝1，2，…，n)进入输入层，得到压缩过的Rⁿ维特征h，隐藏层的Rⁿ维特征h再通过输出层重构为R^m维数据x_R，自编码器发现数据相关性，获得最优特征表达权值W₁、W₂和偏差值b₁、b₂，此时希望R^m维里只有某几维是有值的，其它维都是0，避免恒等变换。

S22、对输入特征向量进行分类编码、实现压缩，具体是通过对输入特征向量进行编码而后解码的方式，在确定解码后的特征向量满足条件时，确定编码后的特征向量为目标特征向量。

具体地，对所述输入特征向量进行编码，生成隐藏层的中间特征向量；对所述隐藏层的中间特征向量进行解码，得到输出特征向量；以及，在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时，确定所述隐藏层的中间特征向量为目标特征向量。例如：

S221：根据输入特征向量、权值矩阵以及第一偏置向量确定中间特征向量。

具体的，根据以下公式确定中间特征向量：

h＝f₁(x)＝σ₁(W₁x+b₁)

其中，h表示中间特征向量；x表示输入特征向量；W₁x表示x到h的映射矩阵(即权值矩阵)；σ₁表示第一激活函数；b₁表示第一偏置向量。

S222、根据中间特征向量、权值矩阵的逆矩阵以及第二偏置向量确定输出特征向量。

具体的，根据以下公式确定输出特征向量：

x_R＝f₂(h)＝σ₂(W₂h+b₂)

其中，x_R表示输出特征向量；h表示目标特征向量；W₂h表示h到x_R的映射矩阵(即权值矩阵)；所述W₂h是所述W₁x的逆矩阵，σ₂表示第二激活函数；b₂表示第二偏置向量。

S223、确定输出特征向量与输入特征向量的差值，确定所述差值是否小于预设阈值。

具体的，计算损失函数即模型的损失，根据以下公式计算输出特征向量与输入特征向量的差值：

MinimizeLoss＝dist(x,x_R)

其中，dist为二者的距离度量函数，例如可以使用MSE(均方方差)、欧式距离算法。执行判断步骤，即确定损失是否小于一预设阈值，越小则x和x_R越接近。

如果所述差值小于预设阈值，例如可以认为非常近似甚至完全相同/为0等则执行步骤S225，否则执行步骤S224。

S224、对权值矩阵、第一偏置向量以及第二偏置向量按照梯度下降法重新赋值，并重复S221-S223。直到小于该预设阈值。

S225、将中间特征向量确定为目标特征向量，并输出。

所述目标特征向量(中间特征向量)的每个节点都是0-1范围内的小数，在此对所述目标特征向量做一步特殊处理，由于每个待分群目标的样本只属于一个群体类别，因此对于每个样本，将每个待分群目标相应的所述目标特征向量(中间特征向量)中值最大的节点元素置为1，其他节点元素置为0。通过这样的改动，所述目标特征向量可以代表样本所属的群体类别。

进一步的，在一个特定实施方式中，自编码器模型还可以加入更多个隐藏层。可以设置一个很深的神经网络，有很多层。这样中间会有一个特别窄的层，该层具有很少的节点。

具体的，在编码阶段和解码阶段都设置t个隐藏层，首先给定一个输入样本，通过训练第一个隐藏层，得到对原始样本数据x的表达h₁，然后使用第一个隐藏层的输出h₁训练第二个隐藏层，通过第二层的学习得到对h₁的表达h₂，对后面的各层同样采用的策略，将前一个隐藏层的输出作为下一个隐藏层的输入，最终层的输出结果h_t即为所重构的原始数据x的表达。同样在解码阶段做类似策略的处理。其中，最后一个隐藏层输出的表达h_m为所述中间特征向量，m为所述隐藏层的个数。该过程是这类多隐藏层自编码器模型对当前的输入特征向量的编码过程和解码过程。优选地，对该例子中的具有多个隐藏层的自编码器模型来说，除了自适应编码过程通过上述策略外，在自编码器模型进行训练的过程中也同样可以根据该前一个隐藏层的输出作为下一个隐藏层的输入。

在一个特定实施方式中，还包括使用稀疏自编码对网络中每一层参数进行参数初始化的过程。例如可以把网络从第一层开始自编码训练，在每一层学习到的隐藏特征表示后作为下一层的输入，然后下一层再进行自编码训练，对每层网络的进行逐层无监督训练。

当无监督训练完毕后，可以用有标签的数据对整个网络的参数继续进行梯度下降调整等等。

S3、将目标特征向量输入至训练后(或者说训练好)的分类器中，输出待识别目标所属的群体类别。

一个实施方式中，采用训练后的深度神经网络分类器，输入目标特征向量，从输出中选择最大可能发生的向量即从分类器输出中选出概率最大/最大概率能发生的向量作为识别结果，由此确定了待识别的目标数据对应的目标所属的群体类别，即结果指示的群体类别，如目标所在客群。

在一种实现方式中，使用自编码器模型训练分类器的方法包括：

步骤S301：采集多个目标的目标数据，按照预设策略从所述多个目标的目标数据中选择数据样本，得到数据样本集，并生成待识别目标数据的输入特征向量。数据样本形成数据样本集，可以分为训练集和测试集。

步骤S301与前述步骤S1类似，根据训练集和测试集分别提取的特征数据形成目标特征参数，生成待识别的目标数据的输入特征向量x，在此不再赘述。

一个实施方式中可以直接使用步骤S1的当前要识别的目标数据所获得的数据样本集、分为训练集和测试集直接使用；也可以进行其他的目标数据的采集后构建数据样本集来进行训练和测试。

步骤S302、通过自编码器进行自编码，获得最优特征表达权值的W_u和偏置向量(偏差值)b_u。

一个实施方式中，构建自编码器模型利用所述输入特征向量x分别进行训练和测试后，获得训练后的所述自编码器中的最优特征表达权值的W_u和最优的第一偏置向量b_u；将最优特征表达权值的W_u和最优的第一偏置向量b_u作为深度神经网络分类器的参数的初始值。由此，利用训练集和测试集的输入特征向量进行自编码，获得训练后/很好地学习了重建的自编码器模型，比如获得最优特征表达权值W_u和偏差值b_u/最优的偏差值、即最优的第一偏置向量b_u等。

更具体地，将数据样本集分为训练集和测试集，从所述训练集和测试集中分别提取特征数据形成目标特征参数，并利用所述目标特征参数生成相应的待识别的目标数据的输入特征向量；自编码器模型利用相应训练集的所述输入特征向量进行自编码(训练)并利用相应测试集的所述输入特征向量进行自编码(测试)，优选地，自编码器自适应编码，可以如步骤S2中的多个隐藏层的方式一层一层进行训练和测试，获得最优特征表达权值的W_u和最优的第一偏置向量b_u。将最优特征表达权值的W_u和最优的偏置向量b_u作为分类器的初始参数，进一步训练分类器。

例如：R^m维数据x_i(i＝1，2，…，n)进入输入层，得到压缩过的Rⁿ维特征h，隐藏层的Rⁿ维特征h再通过输出层重构为R^m维数据x_R，自编码器发现数据相关性，能获得最优特征表达权值W₁、W₂和偏差值b₁、b₂，取编码部分的W₁为W_u，取偏差值b₁为b_u。

其中，预先设置所述隐藏层的中间特征向量的节点数m，即希望划分出的群体类别数。其中，多个隐藏层的自编码器模型的训练如步骤S2所述。

步骤S303：将最优特征表达权值W_u和偏差值b_u作为深度神经网络分类器的参数的初始值，对深度神经网络分类器进行学习、训练。

一个实施方式中，获取历史目标的历史数据样本形成历史数据样本集，从历史数据样本集提取特征数据形成历史目标特征参数，以及，利用所述历史目标特征参数生成历史输入特征向量；利用训练后的自编码器模型对历史输入特征向量进行编码后得到样本向量，根据所述样本向量和对应的历史目标所属的群体类别对所述深度神经网络分类器进行训练。

具体地，通过自编码器模型中训练有素的编码器来训练分类器。比如利用使用训练集的输入特征向量进行自编码，将自编码数据作为输入训练深度神经网络分类器；并利用测试集的输入特征向量进行自编码，将自编码数据作为输入评估训练的深度神经网络分类器的性能评估。

一个训练分类器的例子包括：将最优特征表达权值的W_u和第一偏置向量b_u作为深度神经网络分类器的参数的初始值；从历史目标的历史目标数据中选取历史数据样本形成历史数据样本集，其中，历史数据样本即已经识别过的历史目标数据，有对应所属的群体类别，将其识别过的群体类别作为标签。从历史数据样本集提取特征数据形成历史目标特征参数，以及，利用所述历史目标特征参数生成历史输入特征向量，利用训练后的自编码器模型对历史输入特征向量自编码后得到的样本向量，输入所述深度神经网络分类器，结合所述样本向量对应的历史目标所属群体类别，进行该分类器的训练。训练进一步优选地，输入特征向量自编码后输入到该分类器获得输出的分类识别结果即历史数据样本相应的最大可能发生的向量或者说样本对应的目标所属群体类别，结合实际该历史数据样本已经识别过的类别标签计算损失函数，优化分类器的模型参数，直到训练或迭代完成，或者，损失函数达到预设目标，等等，完成训练。深度神经网络分类器不限于CNN、GNN等，其训练方式也不限于上述例子。

进而，可以将当前待识别的目标数据的输入特征向量经过训练后的自编码器模型进行自适应编码处理后确定的目标特征向量作为输入，输入到该训练后的所述深度神经网络分类器，从分类器的输出中选出最可能发生的目标特征向量/中间特征向量作为识别结果如选取发生概率最大的向量，作为分类识别结果，即可确定当前待识别的目标数据对应的目标应当是哪个类别(群体类别或者说客群)。

在本发明中，通过对输入特征向量中的数据进行编码压缩，生成更低维度目标特征向量。在保证正确率不受影响的同时；降低了分类器的计算压力。

【实施例2】

图3是根据本发明的系统的一实施例的功能模块架构框图。该系统至少包括：

数据采集及处理模块401，用于用于采集多个目标的目标数据，按照预设策略从所述多个目标的目标数据中选择数据样本而得到数据样本集，从所述数据样本集提取特征数据形成目标特征参数，以及，利用所述目标特征参数生成待识别的目标数据的输入特征向量。具体实现的功能参见实施例1的步骤S1的具体处理过程。

编码模块402，使用使用自编码器模型对所述输入特征向量进行分类编码以及解码，当解码得到的输出特征向量与所述输入特征向量满足预设条件时，从所述自编码器模型中获取目标特征向量。具体实现的功能参见实施例1的步骤S2的具体处理过程。

在一个实施方式中，编码模块402可以包括：

权值矩阵、第一偏置向量以及第二偏置向量获取单元，用于获取权值矩阵、第一偏置向量以及第二偏置向量。

编码压缩单元，对输入特征向量进行编码压缩，具体是通过对输入特征向量进行编码而后解码的方式，在确定解码后的特征向量满足条件时，确定编码后的特征向量为目标特征向量。在一个实施方式中，所述编码压缩单元可以包括：

中间特征向量计算单元，用于根据输入特征向量、权值矩阵以及第一偏置向量确定中间特征向量。

输出特征向量计算单元，根据中间特征向量、权值矩阵的逆矩阵以及第二偏置向量确定输出特征向量。

差值计算及比较单元，确定输出特征向量与输入特征向量的差值，并确定所述差值是否小于预设阈值。

优化单元，对权值矩阵、第一偏置向量以及第二偏置向量按照梯度下降法重新赋值；

目标特征向量确定单元，将中间特征向量确定为目标特征向量，并输出。

分类模块403，将目标特征向量输入至训练后/训练好的分类器中，输出待识别的目标数据所对应的目标所属的群体类别。具体实现的功能参见实施例1的步骤S3的具体处理过程。

分类器训练模块404，基于自编码器模型训练分类器。具体实现的功能参见实施例1的步骤S301至S303的具体处理过程。

在一个实施方式中，分类器训练模块404同样包括：

数据采集及处理单元，用于采集多个目标的目标数据，按照预设策略从所述多个目标的目标数据中选择数据样本，得到数据样本集，并生成待识别目标数据的输入特征向量，如前述数据采集及处理模块401的功能；

最优特征表达权值和偏差值获取单元，通过自编码器模型进行自编码或者说训练，获得最优特征表达权值W_u和最优偏差值b_u；

学习单元：将W_u和b_u作为深度神经网络分类器参数的初始值，对深度神经网络分类器进行学习、训练，选出最可能发生的预测向量作为分类识别结果。

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

【实施例3】

下面描述本发明的电子设备实施例，该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明电子设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图4是根据本发明的一种电子设备的示例性实施例的结构框图。图4显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，该示例性实施例的电子设备400以通用数据处理设备的形式表现。电子设备400的组件可以包括但不限于：至少一个处理单元410、至少一个存储单元420、连接不同电子设备组件(包括存储单元420和处理单元410)的总线430、显示单元440等。

其中，所述存储单元420存储有计算机可读程序，其可以是源程序或都只读程序的代码。所述程序可以被处理单元410执行，使得所述处理单元410执行本发明各种实施方式的步骤。例如，所述处理单元410可以执行如图1所示的步骤。

所述存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元(ROM)4203。所述存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204，这样的程序模块4205包括但不限于：操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备100(例如键盘、显示器、网络设备、蓝牙设备等)通信，使得目标能经由这些外部设备100与该电子设备400交互，和/或使得该电子设备400能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口450进行，还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)进行。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白，尽管图5中未示出，电子设备400中可使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。

【实施例4】

图5是本发明的一个计算机可读介质实施例的示意图。如图5所示，所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：获取各个企业实体的中文关键词；根据象形要素对所述关键词分别进行语义拆分，并根据语义拆分结果输出所述企业实体的词向量；通过语义关联度解释模型对所述词向量进行识别，得到所述企业实体的舆情识别结果，所述语义关联度解释模型用于识别所述关键词与文本训练数据中各个词或汉字的语义相关度，并将语义相关度满足阈值的词或汉字作为舆情识别结果对所述关键词进行语义层面的解释说明；根据各个企业实体的舆情识别结果和所述企业实体之间的经济关系构建企业知识图谱；根据所述企业知识图谱确定黑名单企业。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语音包括面向对象的程序设计语音—诸如Java、C++等，还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在目标计算设备上执行、部分地在目标设备上执行、作为一个独立的软件包执行、部分在目标计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到目标计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。

由此，本发明能有效准确地通过目标数据自适应识别目标特征并确定其所属群体类别，在诸如征信、现场监控等场景下，目标例如客户识别及其所属客群的判定更加准确有效，保证了征信、监控等人员和数据信息的安全。

本发明中涉及的每个子群体类别可以代表目标数据的某一单一模式。群体类别的划分可以定义为根据反映目标数据中目标特征和行为的自变量之间的关系归类，对目标进行合理的归类处理，识别同质群体类别的过程，使得同一群体类别内具有最大的同质性，不同群体类别之间具有最大的差异性。经过目标的群体类别的划分，每类中的目标应具有明显区别于其他群体类别中目标的特征。分组建模就是对已识别的同质群体类别分别进行分析研究，并单独建模，以提高模型的性能和实现产品或服务设计，策略制定的专业化。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自编码器的自适应目标分类方法，其特征在于，包括：

按照预设策略从采集的多个目标的目标数据中选择数据样本而得到数据样本集，从所述数据样本集提取特征数据形成目标特征参数，以及，利用所述目标特征参数生成待识别的目标数据的输入特征向量；

使用自编码器模型对所述输入特征向量进行分类编码以及解码，当解码得到的输出特征向量与所述输入特征向量满足预设条件时，从所述自编码器模型中获取目标特征向量；

将所述目标特征向量输入至训练后的分类器中，输出待识别的目标数据对应的目标所属的群体类别。

2.如权利要求1所述的方法，其特征在于，使用自编码器模型对所述输入特征向量进行分类编码以及解码，当解码得到的输出特征向量与所述输入特征向量满足预设条件时，从所述自编码器模型中获取目标特征向量，具体包括：

对所述输入特征向量进行编码，生成隐藏层的中间特征向量；对所述隐藏层的中间特征向量进行解码，得到输出特征向量；以及，在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时，确定所述隐藏层的中间特征向量为目标特征向量。

3.如权利要求2所述的方法，其特征在于，还包括：

根据所述输入特征向量获取权值矩阵、第一偏置向量以及第二偏置向量；其中，预先设置所述隐藏层的中间特征向量的节点数m，所述权值矩阵是n×m的矩阵且n＞m，n表示输入特征向量的维度；

对所述输入特征向量进行编码，生成隐藏层的中间特征向量；对所述隐藏层的中间特征向量进行解码，得到输出特征向量；以及，在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时，确定所述隐藏层的中间特征向量为目标特征向量，具体包括：

根据所述输入特征向量、权值矩阵以及第一偏置向量确定中间特征向量：h＝f₁(x)＝σ₁(W₁x+b₁)，其中，h表示中间特征向量，x表示输入特征向量；W₁x表示x到h的权值矩阵，σ₁表示第一激活函数，b₁表示第一偏置向量；

根据中间特征向量、权值矩阵的逆矩阵以及第二偏置向量确定输出特征向量：x_R＝f₂(h)＝σ₂(W₂h+b₂)，其中，x_R即x^R表示输出特征向量，h表示中间特征向量，W₂h表示h到x_R的权值矩阵且W₂h为W₁x权值矩阵对应的逆矩阵，σ₂表示第二激活函数，b₂表示第二偏置向量；

计算输出特征向量与输入特征向量的损失：MinimizeLoss＝dist(x,x_R)，其中，dist为二者的距离度量函数；

判断步骤：判断损失是否小于预设阈值；如果是，则将中间特征向量确定为目标特征向量并输出；如果否则对所述权值矩阵、第一偏置向量以及第二偏置向量重新赋值，重新确定输出特征向量，重新计算输出特征向量与输入特征向量的损失后执行所述判断步骤，直到损失小于所述预设阈值为止。

4.如权利要求3所述的方法，其特征在于，还包括：

中间特征向量的每个元素都是0-1范围内的小数；

对于每个待识别的目标数据，将所述目标数据的输入特征向量确定的中间特征向量中值最大的元素置为1，其他元素置为0。

5.如权利要求3所述的方法，其特征在于，对所述权值矩阵、第一偏置向量以及第二偏置向量重新赋值，包括：

对所述权值矩阵、第一偏置向量以及第二偏置向量按照梯度下降法重新赋值。

6.如权利要求1所述的方法，其特征在于，还包括：

所述自编码器模型包含多个隐藏层；

训练所述自编码器模型包括：根据输入特征向量x，训练第一个隐藏层，得到对输入特征向量x的表达h₁，并输出表达h₁；使用第一个隐藏层输出的表达h₁，训练第二个隐藏层，得到对表达h₁的表达h₂；依次对每一个隐藏层采用同样的训练策略，将前一个隐藏层的输出作为下一个隐藏层的输入，最后一个隐藏层的输出为中间特征向量。

7.如权利要求1-6任一项所述的方法，其特征在于，还包括：

将数据样本集分成训练集和测试集，以及，根据训练集和测试集分别提取的特征数据形成目标特征参数，生成待识别的目标数据的输入特征向量x；

构建自编码器模型，利用所述输入特征向量x分别进行训练和测试后，获得训练后的所述自编码器模型中的最优的特征表达权值W_u和最优的第一偏置向量b_u；

将最优的特征表达权值W_u和最优的第一偏置向量b_u作为深度神经网络分类器的参数的初始值；

获取历史目标的历史数据样本形成历史数据样本集，从历史数据样本集提取特征数据形成历史目标特征参数，以及，利用所述历史目标特征参数生成历史输入特征向量；

利用训练后的自编码器模型对历史输入特征向量进行编码后得到样本向量，根据所述样本向量和对应的历史目标所属的群体类别对所述深度神经网络分类器进行训练；

将所述目标特征向量输入至训练后的分类器中，输出待识别的目标数据对应的目标所属的群体类别，具体包括：将所述目标特征向量输入到训练后的所述深度神经网络分类器，从所述深度神经网络分类器的输出中选出最大概率能发生的向量作为识别结果，以确定待识别的目标数据对应的目标所属的群体类别。

8.一种基于自编码器的自适应目标分类系统，其特征在于，包括：

数据采集及处理模块，用于采集多个目标的目标数据，按照预设策略从采集的多个目标的目标数据中选择数据样本而得到数据样本集，从所述数据样本集提取特征数据形成目标特征参数，以及，利用所述目标特征参数生成待识别的目标数据的输入特征向量；

编码模块，用于使用自编码器模型对所述输入特征向量进行分类编码以及解码，当解码得到的输出特征向量与所述输入特征向量满足预设条件时，从所述自编码器模型中获取目标特征向量；

分类单元，用于将所述目标特征向量输入至训练后的分类器中，输出待识别的目标数据对应的目标所属的群体类别；

分类器训练单元，用于基于自编码器模型训练分类器。

9.一种电子设备，包括处理器以及存储计算机可执行指令的存储器；其特征在于：所述计算机可执行指令在被所述处理器执行时实现根据权利要求1至7中任一项所述的方法。

10.一种计算机可读介质，其中，所述计算机可读介质存储一个或多个程序，其特征在于：当所述一个或多个程序被处理器执行时，实现权利要求1至7中任一项所述的方法。