CN112820412B

CN112820412B - 用户信息的处理方法、装置、存储介质和电子设备

Info

Publication number: CN112820412B
Application number: CN202110152716.3A
Authority: CN
Inventors: 李彦东; 冯仓龙
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2024-03-08
Anticipated expiration: 2041-02-03
Also published as: CN112820412A

Abstract

本公开涉及一种用户信息的处理方法、装置、存储介质和电子设备，涉及电子信息处理技术领域，该方法包括：获取目标用户的目标用户信息，目标用户信息用于表征目标用户的状态，目标用户信息包括：用户属性、检查信息、调查信息中的一种或多种，对目标用户信息进行编码，以得到能够表征目标用户信息的目标特征向量，根据目标特征向量和预先训练的注意力网络，确定低层特征，并根据目标特征向量和预先训练的卷积神经网络，确定高层特征，根据低层特征、高层特征和预先训练的分类模型，确定目标用户所属的目标类型。本公开结合不同特征维度的低层特征和高层特征对目标用户进行分类，能够提高目标用户分类的准确度。

Description

用户信息的处理方法、装置、存储介质和电子设备

技术领域

本公开涉及电子信息处理技术领域，具体地，涉及一种用户信息的处理方法、装置、存储介质和电子设备。

背景技术

随着电子信息技术的不断发展，越来越多的检查手段和检查设备，能够采集反映用户体征状态的用户信息，使得研究人员可以通过分析用户信息，对用户进行分类。例如通过采集饮食习惯、锻炼方式、基因序列等用户信息预测青少年的体重属于过重类型、过轻类型、适中类型，或者通过采集血液参数、激素参数、蛋白质属性、基因序列等用户信息预测用户的血压属于正常类型、高压类型、低压类型。通常情况下，在对某个具体用户进行分类时，是直接对该用户的用户信息进行分析来实现的，分类的准确度不高。

发明内容

为了解决现有技术中存在的问题，本公开的目的是提供一种用户信息的处理方法、装置、存储介质和电子设备。

为了实现上述目的，根据本公开实施例的第一方面，提供一种用户信息的处理方法，该方法包括：

获取目标用户的目标用户信息，所述目标用户信息用于表征所述目标用户的状态，所述目标用户信息包括：用户属性、检查信息、调查信息中的一种或多种；

对所述目标用户信息进行编码，以得到能够表征所述目标用户信息的目标特征向量；

根据所述目标特征向量和预先训练的注意力网络，确定低层特征，并根据所述目标特征向量和预先训练的卷积神经网络，确定高层特征；

根据所述低层特征、所述高层特征和预先训练的分类模型，确定所述目标用户所属的目标类型。

可选地，所述对所述目标用户信息进行编码，以得到能够表征所述目标用户信息的目标特征向量，包括：

将所述目标用户信息分为离散型数据和文本型数据；

对所述离散型数据进行编码，并将编码后的所述离散型数据输入嵌入层，以得到所述嵌入层输出的第一特征向量；

将所述文本型数据输入预训练模型，以得到所述预训练模型输出的第二特征向量；

将所述第一特征向量和所述第二特征向量拼接为所述目标特征向量。

可选地，所述目标用户信息包括多种数据，每种数据属于用户属性、检查信息、调查信息中的一种；所述将所述目标用户信息分为离散型数据和文本型数据，包括：

针对每种数据，若该种数据的数据类型为非文本类型，按照该种数据对应的取值范围对该种数据进行离散化处理，并将离散化处理后的该种数据作为所述离散型数据；

若该数据的数据类型为文本类型，将该数据作为所述文本型数据。

可选地，所述根据所述低层特征、所述高层特征和预先训练的分类模型，确定所述目标用户所属的目标类型，包括：

将所述低层特征和所述高层特征拼接为组合特征；

将所述组合特征作为所述分类模型的输入，以得到所述分类模型输出的所述目标类型。

可选地，所述注意力网络、所述卷积神经网络和所述分类模型是通过如下方式联合训练获得的：

获取多个样本用户的样本用户信息，每个所述样本用户的样本用户信息用于表征该样本用户的状态，包括：用户属性、检查信息、调查信息中的一种或多种；

根据每个所述样本用户的样本用户信息，确定能够表征该样本用户的样本用户信息的样本特征向量，并将所述样本特征向量作为该样本用户对应的样本输入，以得到包括每个所述样本用户对应的样本输入的样本输入集；

获取样本输出集，所述样本输出集中包括与每个所述样本输入对应的样本输出，每个所述样本输出包括对应的所述样本用户所属的真实类型；

将所述样本输入集分别作为所述注意力网络和所述卷积神经网络的输入，以得到所述注意力网络的输出和所述卷积神经网络的输出；

将所述注意力网络的输出和所述卷积神经网络的输出作为所述分类模型的输入，将所述样本输出集作为所述分类模型的输出，以训练所述注意力网络、所述卷积神经网络和所述分类模型。

可选地，所述根据每个所述样本用户的样本用户信息，确定能够表征该样本用户的样本用户信息的样本特征向量，包括：

将该样本用户的样本用户信息分为样本离散型数据和样本文本型数据；

对所述样本离散型数据进行编码，并将编码后的所述样本离散型数据输入嵌入层，以得到所述嵌入层输出的第一样本特征向量；

将所述样本文本型数据输入预训练模型，以得到所述预训练模型输出的第二样本特征向量；

将所述第一样本特征向量和所述第二样本特征向量拼接为所述样本特征向量。

根据本公开实施例的第二方面，提供一种用户信息的处理装置，该装置包括：

获取模块，用于获取目标用户的目标用户信息，所述目标用户信息用于表征所述目标用户的状态，所述目标用户信息包括：用户属性、检查信息、调查信息中的一种或多种；

编码模块，用于对所述目标用户信息进行编码，以得到能够表征所述目标用户信息的目标特征向量；

确定模块，用于根据所述目标特征向量和预先训练的注意力网络，确定低层特征，并根据所述目标特征向量和预先训练的卷积神经网络，确定高层特征；

处理模块，用于根据所述低层特征、所述高层特征和预先训练的分类模型，确定所述目标用户所属的目标类型。

可选地，所述编码模块包括：

分类子模块，用于将所述目标用户信息分为离散型数据和文本型数据；

第一编码子模块，用于对所述离散型数据进行编码，并将编码后的所述离散型数据输入嵌入层，以得到所述嵌入层输出的第一特征向量；

第二编码子模块，用于将所述文本型数据输入预训练模型，以得到所述预训练模型输出的第二特征向量；

第一拼接子模块，用于将所述第一特征向量和所述第二特征向量拼接为所述目标特征向量。

可选地，所述目标用户信息包括多种数据，每种数据属于用户属性、检查信息、调查信息中的一种；所述分类子模块用于：

可选地，所述处理模块包括：

第二拼接子模块，用于将所述低层特征和所述高层特征拼接为组合特征；

处理子模块，用于将所述组合特征作为所述分类模型的输入，以得到所述分类模型输出的所述目标类型。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开实施例的第一方面所述方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开实施例的第一方面所述方法的步骤。

通过上述技术方案，本公开首先获取用于表征目标用户的状态的目标用户信息，其中包括用户属性、检查信息、调查信息中的一种或多种，之后对目标用户信息进行编码，以得到能够表征目标用户信息的目标特征向量，再根据目标特征向量和注意力网络，确定低层特征，根据目标特征向量和卷积神经网络，确定高层特征，最后利用分类模型，根据低层特征和高层特征对目标用户进行分类，以确定目标用户所属的目标类型。本公开通过编码来获取能够表征目标用户信息的目标特征向量，并利用注意力网络和卷积神经网络分别提取不同特征维度的低层特征和高层特征，最后结合低层特征和高层特征对目标用户进行分类，能够提高目标用户分类的准确度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种用户信息的处理方法的流程图；

图2是根据一示例性实施例示出的另一种用户信息的处理方法的流程图；

图3是根据一示例性实施例示出的另一种用户信息的处理方法的流程图；

图4是根据一示例性实施例示出的注意力网络、卷积神经网络和分类模型连接关系的示意图；

图5是根据一示例性实施例示出的一种训练分类模型的流程图；

图6是根据一示例性实施例示出的另一种训练分类模型的流程图；

图7是根据一示例性实施例示出的一种用户信息的处理装置的框图；

图8是根据一示例性实施例示出的另一种用户信息的处理装置的框图；

图9是根据一示例性实施例示出的另一种用户信息的处理装置的框图；

图10是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种用户信息的处理方法的流程图，如图1所示，该方法包括以下步骤：

步骤101，获取目标用户的目标用户信息，目标用户信息用于表征目标用户的状态，目标用户信息包括：用户属性、检查信息、调查信息中的一种或多种。

举例来说，要对目标用户进行分类，首先需要采集目标用户的目标用户信息。目标用户信息能够表征目标用户的状态，可以由多种数据组成，每种数据可以属于用户属性、检查信息或者调查信息，也就是说可以将目标用户信息理解为一个数据组，其中包括了用户属性、检查信息、调查信息中的一种或多种。其中，用户属性可以包括多种数据，例如目标用户的身高、体重、年龄、性别等。检查信息是目标用户进行多项检查得到的，可以包括多种数据，例如检查图像(例如：CT图像、PET图像、MRI图像、DR图像、DSA图像等)，和/或检查数据(例如：血液参数、激素参数、蛋白质属性、基因序列等)。调查信息可以是目标用户参加问卷调查，或者在医院就诊得到的，可以包括多种数据，例如：吸烟史、锻炼方式等。例如，目标用户信息可以包括：身高、体重、年龄、吸烟史和锻炼方式，共5种数据。需要说明的是，上述目标用户信息均是在得到目标用户授权的前提下获取的。

步骤102，对目标用户信息进行编码，以得到能够表征目标用户信息的目标特征向量。

步骤103，根据目标特征向量和预先训练的注意力网络，确定低层特征，并根据目标特征向量和预先训练的卷积神经网络，确定高层特征。

示例的，可以通过对目标用户信息进行编码的方式，得到能够表征目标用户信息的特征向量。可以针对目标用户信息，预先训练一个编码器，将目标用户信息输入该编码器，得到该编码器输出的目标特征向量。还可以针对目标用户信息中包括的多种数据，分别选择不同的编码方式，然后再将不同编码方式得到的结果进行组合，得到目标特征向量。例如，针对文本类型的数据，可以利用Transformer对目标用户信息进行编码，针对非文本类型的数据，可以利用查找表的方式进行编码。

在得到目标特征向量之后，可以分别利用预先训练的注意力网络和卷积神经网络，对目标特征向量进行提取，以提取不同特征维度下的低层特征和高层特征。其中，注意力网络可以是预先根据大量的训练样本训练得到的，将目标特征向量输入注意力网络，注意力网络能够为目标特征向量中包括的每个元素分配一个注意力权重，从而输出目标特征向量对应的低层特征。低层特征可以理解为目标特征向量细粒度的表示，也就是说低层特征是目标特征向量只通过注意力网络这一层的提取得到的，信息损失较少，特征维度低，分辨率高，能够从细节上反映目标特征向量。其中，注意力网络可以为位置敏感注意力(英文：Locative Sensitive Attention)网络，也可以为GMM(英文：Gaussian Mixture Model，缩写GMM)注意力网络，还可以是多头注意力(英文：Multi-Head Attention)网络等，本公开对此不作具体限定。卷积神经网络(英文：Convolutional Neural Networks，缩写：CNN)可以是预先根据大量的训练样本训练得到的，将目标特征向量输入卷积神经网络，卷积神经网络中包括的多个卷积层能够提取出目标特征向量对应的高层特征。高层特征可以理解为目标特征向量粗粒度的表示，也就是说高层特征是目标特征向量通过多个卷积层的提取得到的，信息损失较多，特征维度高，分辨率低，能够从整体上反映目标特征向量。

步骤104，根据低层特征、高层特征和预先训练的分类模型，确定目标用户所属的目标类型。

示例的，由于低层特征能够从细节上反映目标特征向量，高层特征能够从整体上反映目标特征向量，因此可以将低层特征和高层特征结合起来，利用预先训练的分类模型对目标用户进行分类，以确定目标用户所属的目标类型。分类模型可以理解为对目标用户所属类型的预测，通过不同特征维度的低层特征和高层特征，判断目标用户与多个预先指定的类型中每个类型的匹配度，即目标用户属于该类型的概率值，匹配度越高，目标用户属于该类型的概率值越高，匹配度越低，目标用户属于该类型的概率值越低。分类模型可以将对应匹配度最高的类型确定为目标类型，也可以将匹配度满足预设条件(例如按照降序排列，排在最前面的预设数量个匹配度)的类型确定为目标类型。

例如，可以按照体重状态对目标用户进行分类，预先指定的类型可以包括：过重类型、过轻类型和适中类型。也可以按照身高状态对目标用户进行分类，预先指定的类型可以包括：高个类型、低个类型和适中类型。还可以按照慢性病对目标用户进行分类，预先指定的类型可以包括：高血压类型、高血脂类型、高血糖类型和心脑血管类型等。

分类模型是预先根据大量的训练样本训练得到的模型。分类模型例如可以是Dense_layer+softmax组合的分类网络，其中，Dense_layer(即全连接层)例如可以包括三层，每层的输入尺寸分别为：32、64、2。首先，可以将低层特征和高层特征作为Dense_layer的输入，并将Dense_layer的输出作为softmax的输入，以得到softmax输出的与多个预先指定的类型中每个类型的匹配度，最后根据匹配度来确定目标类型。例如，预先指定的类型包括：过重类型、过轻类型和适中类型，softmax输出的与3种类型的匹配度分别为：0.7、0.2、0.1，那么可以将过重类型作为目标类型。再比如，预先指定的类型包括：高血压类型、高血脂类型、高血糖类型和心脑血管类型，softmax输出的与4种类型的匹配度分别为：0.2、0.5、0.1、0.2，那么可以将高血脂类型作为目标类型。这样，可以通过编码的方式将目标用户信息抽象为目标用户特征，并且按照不同的特征维度对目标用户特征进行特征提取，以得到能够从细节上反映目标特征向量的低层特征，和能够从整体上反映目标特征向量的高层特征，最后将低层特征和高层特征结合起来，利用分类模型对目标用户进行分类，提高了目标用户分类的准确度。

综上所述，本公开首先获取用于表征目标用户的状态的目标用户信息，其中包括用户属性、检查信息、调查信息中的一种或多种，之后对目标用户信息进行编码，以得到能够表征目标用户信息的目标特征向量，再根据目标特征向量和注意力网络，确定低层特征，根据目标特征向量和卷积神经网络，确定高层特征，最后利用分类模型，根据低层特征和高层特征对目标用户进行分类，以确定目标用户所属的目标类型。本公开通过编码来获取能够表征目标用户信息的目标特征向量，并利用注意力网络和卷积神经网络分别提取不同特征维度的低层特征和高层特征，最后结合低层特征和高层特征对目标用户进行分类，能够提高目标用户分类的准确度。

图2是根据一示例性实施例示出的另一种用户信息的处理方法的流程图，如图2所示，步骤102的实现方式可以包括：

步骤1021，将目标用户信息分为离散型数据和文本型数据。

步骤1022，对离散型数据进行编码，并将编码后的离散型数据输入嵌入层，以得到嵌入层输出的第一特征向量。

步骤1023，将文本型数据输入预训练模型，以得到预训练模型输出的第二特征向量。

步骤1024，将第一特征向量和第二特征向量拼接为目标特征向量。

示例的，可以先将目标用户信息中包括的多种数据，划分为离散型数据和文本型数据。离散型数据例如可以是体重、身高、年龄等，文本型数据例如可以是吸烟史、锻炼方式等。针对离散型数据，可以先利用one-hot编码的方式对离散型数据进行编码，或者利用预设的查找表对离散型数据进行编码。之后再将编码后的离散型数据输入嵌入层(即Character Embedding层)，以得到嵌入层输出的第一特征向量。第一特征向量可以理解为目标用户信息中包括的离散型数据的向量表达。针对文本型数据，可以将文本型数据输入预训练模型，以得到预训练模型输出的第二特征向量。第二特征向量可以理解为目标用户信息中包括的文本型数据的向量表达。其中，预训练模型例如可以是BERT(英文：Bidirectional Encoder Representation from Transformers)，也可以是其他类型的Transformer，本公开对此不作具体限定。最后，可以将第一特征向量和第二特征向量进行拼接，以得到目标特征向量。例如，第一特征向量为1*100维的向量，第二特征向量为1*256维的向量，那么目标特征向量可以是第一特征向量和第二特征向量拼接起来得到的1*356维的向量。

在一种应用场景中，目标用户信息可以包括多种数据，其中，每种数据属于用户属性、检查信息、调查信息中的一种。相应的，步骤1021的实现方式可以为：

针对每种数据，若该种数据的数据类型为非文本类型，按照该种数据对应的取值范围对该种数据进行离散化处理，并将离散化处理后的该种数据作为离散型数据。若该数据的数据类型为文本类型，将该数据作为文本型数据。

举例来说，可以按照目标用户信息包括的多种数据中，每种数据的数据类型，对多种数据进行划分。例如，可以先将数据按照是否为文本类型进行划分，将数据类型为文本类型的数据，确定为文本型数据。针对数据类型为非文本类型的数据，可以先按照该种数据对应的取值范围对该种数据进行离散化处理，然后再将离散化处理后的该种数据，确定为离散型数据。具体的，可以将该种数据对应的取值范围划分为指定数量个区间，并为每个区间设置一个唯一的标识码。之后，该种数据落在哪个区间，可以用该区间对应的标识码来表示该数据，从而达到离散化的目的。例如，以目标用户信息中的包括的体重来举例，可以将体重的取值范围划分为1-10kg，11-30kg，31-50kg，51-65kg，66-75kg，76-90kg，91-120kg，共7个区间，对应的标识码分别为：1000，1001，1010，1011，1100，1101，1110，若目标用户信息中包括的体重为55kg，落在51-65kg这个区间内，那么可以对体重进行离散化处理，用1011来表示目标用户的体重。

图3是根据一示例性实施例示出的另一种用户信息的处理方法的流程图，步骤104可以包括：

步骤1041，将低层特征和高层特征拼接为组合特征。

步骤1042，将组合特征作为分类模型的输入，以得到分类模型输出的目标类型。

示例的，在将低层特征和高层特征输入分类模型之前，可以先将低层特征和高层特征进行拼接得到组合特征，然后再将组合特征作为分类模型的输入，以得到分类模型输出的目标类型。例如，低层特征为1*100维的向量，高层特征为1*32维的向量，那么组合特征可以是低层特征和高层特征拼接起来得到的1*132维的向量。其中，可以利用Concat函数来实现低层特征和高层特征的拼接(同样的，也可以利用Concat函数来实现第一特征向量和第二特征向量的拼接)。上述实施例中注意力网络、卷积神经网络和分类模型的连接关系可以如图4所示，即先将目标用户信息分为离散型数据和文本型数据，然后利用嵌入层对离散型数据进行编码，得到第一特征向量，利用预训练模型对文本型数据进行编码，得到第二特征向量。将第一特征向量和第二特征向量输入Concat函数，得到目标特征向量。然后分别将目标特征向量输入注意力网络和卷积神经网络，得到注意网络输出的低层特征，和卷积神经网络输出的高层特征。再将低层特征和高层特征输入Concat函数，得到组合特征，最后将组合特征输入分类模型，以得到分类模型输出的目标类型。

图5是根据一示例性实施例示出的一种训练分类模型的流程图，如图5所示，上述注意力网络、卷积神经网络和分类模型是通过如下方式联合训练获得的：

步骤A)获取多个样本用户的样本用户信息，每个样本用户的样本用户信息用于表征该样本用户的状态，包括：用户属性、检查信息、调查信息中的一种或多种。

步骤B)根据每个样本用户的样本用户信息，确定能够表征该样本用户的样本用户信息的样本特征向量，并将样本特征向量作为该样本用户对应的样本输入，以得到包括每个样本用户对应的样本输入的样本输入集。

步骤C)获取样本输出集，样本输出集中包括与每个样本输入对应的样本输出，每个样本输出包括对应的样本用户所属的真实类型。

举例来说，在对分类模型进行训练时，需要先获取样本输入集和样本输出集。样本输入集中包括了多个样本用户中每个样本用户对应的样本输入。样本输出集中包括了与每个样本输入对应的样本输出，每个样本输出包括对应的样本用户所属的真实类型。

获取样本输入集中每个样本输入的具体方式可以为：先获取多个样本用户中每个样本用户的样本用户信息，其中样本用户信息能够表征对应的样本用户的状态。样本用户信息可以是由多种数据组成的，每种数据可以属于用户属性、检查信息或者调查信息，也就是说可以将样本用户信息理解为一个数据组，其中包括了用户属性、检查信息、调查信息中的一种或多种。例如，样本用户信息可以包括：身高、体重、年龄、血液参数、激素参数和基因序列，共6种数据。之后，针对每个样本用户的样本用户信息，可以根据样本用户信息，确定能够表征该样本用户信息的样本特征向量，并将样本特征向量作为该样本用户对应的样本输入。

需要说明的是，在得到多个样本用户的样本用户信息后，可以对每个样本用户信息中包括的数据进行数据清洗。具体的，数据清洗的过程可以是删除数据缺失较多的样本用户信息，还可以对数据缺失较少的样本用户信息进行插值法来补全。例如，可以先获取2500个样本用户的样本用户信息，每个样本用户信息中包括9种数据，若其中有120个用户的用户信息中，至少缺少5种数据，那么可以删除这120个用户的用户信息，也就是说样本输入集中包括了2380个样本用户信息对应的样本特征向量。若某个样本用户的样本用户信息中，只缺少1种数据，那么可以根据该种数据的概率分布，将该样本用户的样本用户信息中该种数据进行插值，从而补全该样本用户的样本用户信息。

步骤D)将样本输入集分别作为注意力网络和卷积神经网络的输入，以得到注意力网络的输出和卷积神经网络的输出。

步骤E)将注意力网络的输出和卷积神经网络的输出作为分类模型的输入，将样本输出集作为分类模型的输出，以训练注意力网络、卷积神经网络和分类模型。

示例的，在对分类模型训练时，可以将样本输入集分别作为注意力网络和卷积神经网络的输入，以得到注意力网络的输出和卷积神经网络的输出。然后再将注意力网络的输出和卷积神经网络的输出作为分类模型的输入，将样本输出集作为分类模型的输出，来训练注意力网络、卷积神经网络和分类模型，使得在输入样本输入集时，分类模型的输出，能够和样本输出集匹配。例如，可以根据分类模型的输出，与样本输出集的差(或者均方差)作为分类模型的损失函数，以降低损失函数为目标，利用反向传播算法来修正分类模型中的神经元的参数，神经元的参数例如可以是神经元的权重(英文：Weight)和偏置量(英文：Bias)。同时，还可以利用反向传播算法来修正注意力网络中的权重，和卷积神经网络中的神经元的参数。重复上述步骤，直至损失函数满足预设条件，例如损失函数小于预设的损失阈值，以达到联合训练注意力网络、卷积神经网络和分类模型的目的。

需要说明的是，在步骤B)得到样本输入集之后，还可以对样本输入集中包括的样本输入进行归一化处理，并进行正负样本均衡，得到处理后的样本输入集，使得处理后的样本输入集更具有通用性。可以将处理后的样本输入集作为分类模型的输入，将样本输出集作为分类模型的输出来训练分类模型。

图6是根据一示例性实施例示出的另一种训练分类模型的流程图，如图6所示，步骤B的实现方式可以包括：

步骤B1)将该样本用户的样本用户信息分为样本离散型数据和样本文本型数据。

步骤B2)对样本离散型数据进行编码，并将编码后的样本离散型数据输入嵌入层，以得到嵌入层输出的第一样本特征向量。

步骤B3)将样本文本型数据输入预训练模型，以得到预训练模型输出的第二样本特征向量。

步骤B4)将第一样本特征向量和第二样本特征向量拼接为样本特征向量。

示例的，确定每个样本输入的方式，可以先将每个样本用户的样本用户信息包括的多种数据，划分为样本离散型数据和样本文本型数据。样本离散型数据例如可以是体重、身高、年龄等，样本文本型数据例如可以是吸烟史、锻炼方式等。针对样本离散型数据，可以先利用one-hot编码的方式对样本离散型数据进行编码，或者利用预设的查找表对样本离散型数据进行编码。之后再将编码后的样本离散型数据输入嵌入层，以得到嵌入层输出的第一样本特征向量。第一样本特征向量可以理解为该样本用户的样本用户信息中包括的样本离散型数据的向量表达。针对样本文本型数据，可以将样本文本型数据输入预训练模型，以得到预训练模型输出的第二样本特征向量。第二样本特征向量可以理解为该样本用户的样本用户信息中包括的样本文本型数据的向量表达。最后，可以将第一样本特征向量和第二样本特征向量进行拼接，以得到样本特征向量。

图7是根据一示例性实施例示出的一种用户信息的处理装置的框图，如图7所示，该装置200包括：

获取模块201，用于获取目标用户的目标用户信息，目标用户信息用于表征目标用户的状态，目标用户信息包括：用户属性、检查信息、调查信息中的一种或多种。

编码模块202，用于对目标用户信息进行编码，以得到能够表征目标用户信息的目标特征向量。

确定模块203，用于根据目标特征向量和预先训练的注意力网络，确定低层特征，并根据目标特征向量和预先训练的卷积神经网络，确定高层特征。

处理模块204，用于根据低层特征、高层特征和预先训练的分类模型，确定目标用户所属的目标类型。

图8是根据一示例性实施例示出的另一种用户信息的处理装置的框图，如图8所示，编码模块202可以包括：

分类子模块2021，用于将目标用户信息分为离散型数据和文本型数据。

第一编码子模块2022，用于对离散型数据进行编码，并将编码后的离散型数据输入嵌入层，以得到嵌入层输出的第一特征向量。

第二编码子模块2023，用于将文本型数据输入预训练模型，以得到预训练模型输出的第二特征向量。

第一拼接子模块2024，用于将第一特征向量和第二特征向量拼接为目标特征向量。

在一种应用场景中，目标用户信息包括多种数据，每种数据属于用户属性、检查信息、调查信息中的一种。分类子模块2021可以用于：

图9是根据一示例性实施例示出的另一种用户信息的处理装置的框图，如图9所示，处理模块204可以包括：

第二拼接子模块2041，用于将低层特征和高层特征拼接为组合特征。

处理子模块2042，用于将组合特征作为分类模型的输入，以得到分类模型输出的目标类型。

需要说明的是，上述注意力网络、卷积神经网络和分类模型是通过如下方式联合训练获得的：

在一种应用场景中，步骤B)可以包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种电子设备300的框图。如图10所示，该电子设备300可以包括：处理器301，存储器302。该电子设备300还可以包括多媒体组件303，输入/输出(I/O)接口304，以及通信组件305中的一者或多者。

其中，处理器301用于控制该电子设备300的整体操作，以完成上述的用户信息的处理方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作，这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件305可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的用户信息的处理方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的用户信息的处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器302，上述程序指令可由电子设备300的处理器301执行以完成上述的用户信息的处理方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的用户信息的处理方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种用户信息的处理方法，其特征在于，所述方法包括：

根据所述低层特征、所述高层特征和预先训练的分类模型，确定所述目标用户所属的目标类型；

所述对所述目标用户信息进行编码，以得到能够表征所述目标用户信息的目标特征向量，包括：将所述目标用户信息分为离散型数据和文本型数据；

2.根据权利要求1所述的方法，其特征在于，所述目标用户信息包括多种数据，每种数据属于用户属性、检查信息、调查信息中的一种；所述将所述目标用户信息分为离散型数据和文本型数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述低层特征、所述高层特征和预先训练的分类模型，确定所述目标用户所属的目标类型，包括：

将所述低层特征和所述高层特征拼接为组合特征；

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述注意力网络、所述卷积神经网络和所述分类模型是通过如下方式联合训练获得的：

5.根据权利要求4所述的方法，其特征在于，所述根据每个所述样本用户的样本用户信息，确定能够表征该样本用户的样本用户信息的样本特征向量，包括：

6.一种用户信息的处理装置，其特征在于，所述装置包括：

处理模块，用于根据所述低层特征、所述高层特征和预先训练的分类模型，确定所述目标用户所属的目标类型；

所述编码模块，用于将所述目标用户信息分为离散型数据和文本型数据，对所述离散型数据进行编码，并将编码后的所述离散型数据输入嵌入层，以得到所述嵌入层输出的第一特征向量，将所述文本型数据输入预训练模型，以得到所述预训练模型输出的第二特征向量，将所述第一特征向量和所述第二特征向量拼接为所述目标特征向量。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

8.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-5中任一项所述方法的步骤。