CN111666382A

CN111666382A - 用户特征提取方法、装置、电子设备及可读存储介质

Info

Publication number: CN111666382A
Application number: CN202010567506.6A
Authority: CN
Inventors: 赖勇铨
Original assignee: China Citic Bank Corp Ltd
Current assignee: China Citic Bank Corp Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-09-15

Abstract

本申请提供了一种用户特征提取方法、装置、电子设备及可读存储介质，应用于信息处理技术领域，其中该方法包括：获取应用名称信息，以及基于应用名称信息确定用户特征的各个步骤是在终端设备侧进行的，避免了将应用名称上传至服务器导致用户信息泄露的风险，再者，用户特征信息是基于至少两个应用特征向量加权聚合得到的，即使将提取到的用户特征上传至服务器，基于该上传的用户特征也不能反推出用户的应用信息，进一步保证用户信息的安全。

Description

用户特征提取方法、装置、电子设备及可读存储介质

技术领域

本申请涉及信息处理技术领域，具体而言，本申请涉及一种用户特征提取方法、装置、电子设备及可读存储介质。

背景技术

随着智能手机的广泛应用，App的下载安装和使用频率越来越高。不同的用户使用不同的App，这些App可以从一定程度上刻画用户的社交兴趣、生活需求、消费习惯、财产、借贷等情况。例如，用户下载了中介App软件则表明该用近期有房产交易或消费的需求，用户下载了与基金相关的App则表明用户可能存在理财的需求。

然而，用户手机的App列表包含了用户的隐私信息，如何在不泄露隐私的情况下基于用户手机的APP信息得到用户画像或提取用户特征成为了一个问题。

发明内容

本申请提供了一种用户特征提取方法、装置、电子设备及可读存储介质，用于避免用户的应用信息泄露，本申请采用的技术方案如下：

第一方面，提供了一种用户特征提取方法，该方法包括，

获取目标用户的至少两个应用名称；

基于各个应用名称获取各个应用的应用介绍信息；

基于各个应用的应用介绍信息确定各个应用的特征向量；

基于各个应用的特征向量确定目标用户的目标用户特征。

可选地，基于各个应用名称获取各个应用的应用介绍信息，包括：

基于任一应用名称通过第三方应用获取任一应用名称对应的应用的应用介绍信息。

可选地，所述基于所述各个应用的应用介绍信息得到各个应用的特征向量，包括：

对所述任一应用名称对应的应用的应用介绍信息进行分词处理，得到所述任一应用名称对应的应用的多个分词；

基于预训练的词向量模型确定各个分词的分词向量；

基于各个分词的权重对各个分词的分词向量进行加权聚合处理得到所述任一应用的特征向量，所述任一应用的特征向量为定长向量表达。

可选地，各个分词的权重通过逆文本频率指数确定。

可选地，所述基于各个应用的特征向量得到目标用户的目标用户特征，包括：

基于各个应用的权重对所述各个应用的特征向量进行加权聚合处理，得到目标用户的目标用户特征。

可选地，各个应用的权重基于应用的下载量、应用的下载时间、应用的安装时间中的至少一项确定；或者各个应用的权重基于各个应用对应的应用介绍信息通过深度神经网络计算得到。

可选地，该方法还包括：

基于所述目标用户的目标用户特征进行个性化推荐或欺诈识别或模型训练。

第二方面，提供了一种用户特征提取装置，该装置包括，

第一获取模块，用于获取目标用户的至少两个应用名称；

第二获取模块，用于基于各个所述应用名称获取各个应用的应用介绍信息；

第一确定模块，用于基于所述各个应用的应用介绍信息确定各个应用的特征向量；

第二确定模块，用于基于各个应用的特征向量确定目标用户的目标用户特征。

可选地，所述第二获取模块具体用于基于任一应用名称通过第三方应用获取所述任一应用名称对应的应用的应用介绍信息。

可选地，所述第一确定模块包括：

分词单元，用于对所述任一应用名称对应的应用的应用介绍信息进行分词处理，得到所述任一应用名称对应的应用的多个分词；

确定单元，用于基于预训练的词向量模型确定各个分词的分词向量；

处理单元，用于基于各个分词的权重对各个分词的分词向量进行加权聚合处理得到所述任一应用的特征向量，所述任一应用的特征向量为定长向量表达。

可选地，各个分词的权重通过逆文本频率指数确定。

可选地，第二确定模块具体用于基于各个应用的权重对所述各个应用的特征向量进行加权聚合处理，得到目标用户的目标用户特征。

可选地，该装置还包括：

应用模块，用于基于所述目标用户的目标用户特征进行个性化推荐或欺诈识别或模型训练。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行第一方面所示的用户特征提取方法。

第四方面，提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行第一方面所示的用户特征提取方法。

本申请提供了一种用户特征提取方法、装置、电子设备及可读存储介质，与现有技术直接基于用户应用app名称刻画用户画像相比，本申请通过获取目标用户的至少两个应用名称，然后基于各个所述应用名称获取各个应用的应用介绍信息，继而所述各个应用的应用介绍信息确定各个应用的特征向量，进而基于各个应用的特征向量确定目标用户的目标用户特征，且上述步骤是在终端设备侧进行的。即基于用户应用的应用介绍信息提取应用的特征向量，并基于至少两个应用的应用特征向量确定目标用户的用户特征，由于应用的介绍信息相对稳定(变化较小)，从而较直接基于应用名称刻画用户画像相比，刻画的用户画像更加准确，避免由于应用名称可能变化，导致仅根据名称刻画的用户画像不准确；此外，获取应用名称信息，以及基于应用名称信息确定用户特征的各个步骤是在终端设备侧进行的，避免了将应用名称上传至服务器导致用户信息泄露的风险，再者，用户特征信息是基于至少两个应用特征向量加权聚合得到的，即使将提取到的用户特征上传至服务器，基于该上传的用户特征也不能反推出用户的应用信息，进一步保证用户信息的安全。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的一种用户特征提取方法的流程示意图；

图2为本申请实施例的一种用户特征提取装置的结构示意图；

图3为本申请实施例的一种应用介绍信息及分词结果示意图；

图4为本申请实施例的一种电子设备的结构示意图；

图5为本申请实施例的一种应用权重确定方法的结构示意图。

具体实施方式

下面详细描述本申请的实施例，各实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

实施例一

本申请实施例提供了一种用户特征提取方法，应用于终端设备侧，如图1所示，该方法可以包括以下步骤：

步骤S101，获取目标用户的至少两个应用名称；

具体地，可以通过调用或查询终端设备的应用注册表获取目标用户在终端设备安装的应用名称；作为另一种实施方式，可以获取终端设备屏幕的截屏，然后通过图片识别方法识别得到终端设备安装的应用信息；其中，可以获取至少两个应用名称。

其中，终端设备可以手机、PAD、可穿戴设备(智能手表、智能眼镜等)。

步骤S102，基于各个所述应用名称获取各个应用的应用介绍信息；

具体地，可以基于各个所述应用名称通过第三方应用获取各个应用的应用介绍信息，也可以基于系统进程获取本地存储的各个应用的应用介绍信息。

步骤S103，基于所述各个应用的应用介绍信息确定各个应用的特征向量；

具体地，可以通过文本向量表达方法(如one-hot，词嵌入等)，基于各个应用的应用介绍信息得到应用介绍信息的文本向量，并对得到的文本向量进行处理得到各个应用的特征向量。

步骤S104，基于各个应用的特征向量确定目标用户的目标用户特征。

具体地，基于各个应用的特征向量确定目标用户的目标用户特征，如可以对各个应用的特征向量进行加权聚合处理或线性处理得到目标用户的目标用户特征。

本申请实施例提供了一种用户特征提取方法，与现有技术直接基于用户应用app名称刻画用户画像相比，本申请通过获取目标用户的至少两个应用名称，然后基于各个所述应用名称获取各个应用的应用介绍信息，继而所述各个应用的应用介绍信息确定各个应用的特征向量，进而基于各个应用的特征向量确定目标用户的目标用户特征，且上述步骤是在终端设备侧进行的。即基于用户应用的应用介绍信息提取应用的特征向量，并基于至少两个应用的应用特征向量确定目标用户的用户特征，由于应用的介绍信息相对稳定(变化较小)，从而较直接基于应用名称刻画用户画像相比，刻画的用户画像更加准确，避免由于应用名称可能变化，导致仅根据名称刻画的用户画像不准确；此外，获取应用名称信息，以及基于应用名称信息确定用户特征的各个步骤是在终端设备侧进行的，避免了将应用名称上传至服务器导致用户信息泄露的风险，再者，用户特征信息是基于至少两个应用特征向量加权聚合得到的，即使将提取到的用户特征上传至服务器，基于该上传的用户特征也不能反推出用户的应用信息，进一步保证用户信息的安全。

本申请实施例提供了一种可能的实现方式，步骤S102包括：

步骤S1021(图中未示出)，基于任一应用名称通过第三方应用获取所述任一应用名称对应的应用的应用介绍信息。

具体地，基于任一应用名称通过第三方应用获取所述任一应用名称对应的应用的应用介绍信息。其中，该第三方应用可以为一个或多个。

如果第三方应用为一个，示例性地，可以基于任一应用名称，通过浏览器得到该任一应用名称对应的应用的应用介绍信息；也可以通过第三方应用商城，获取该任一应用名称对应的应用的应用介绍信息。

如果第三方应用为多个，示例性地，可以通过浏览器以及至少一个第三方应用商商城分别获取应用介绍信息，然后对获取的应用介绍信息进行综合处理，得到任一应用名称对应的应用的应用介绍信息；也可以基于两个第三方应用商城(如小米、华为提供的应用商城)分别获取应用介绍信息，然后对获取的应用介绍信息进行综合处理，得到任一应用名称对应的应用的应用介绍信息。

本申请实施例提供了一种可能的实现方式，步骤S103包括：

步骤S1031(图中未示出)，对所述任一应用名称对应的应用的应用介绍信息进行分词处理，得到所述任一应用名称对应的应用的多个分词；

步骤S1032(图中未示出)，基于预训练的词向量模型确定各个分词的分词向量；

步骤S1033(图中未示出)，基于各个分词的权重对各个分词的分词向量进行加权聚合处理得到所述任一应用的特征向量，所述任一应用的特征向量为定长向量表达。

具体地，可以对应用介绍信息进行分词处理，得到应用的多个分词，然后通过向量表达方法(如one hot、训练的词嵌入模型)得到各个分词的词向量，然后基于各个分词的权重对各个分词的分词向量进行加权聚合处理得到所述任一应用的特征向量，所述任一应用的特征向量为定长向量表达。其中，各个分词的权重通过逆文本频率指数确定。

示例性地，图3示出了一个应用的介绍信息以及分词的结果信息：

分词处理，对该描述中的描述字符进行分词，并去除标点和换行等非中文字符，分词的结果为：我们是中信银行信用卡唯一官方...。分词模块采用的现有的技术实现。

确定词向量，对于分词后的结果，使用词向量工具把每个词转换成一个d维的实数向量。其中d的大小不限，通常设置为300。这些词向量用v1,v2,....vn表示。其中n为该应用描述分词后的词的个数。词向量采用预先训练好的词向量映射表实现从词到向量的映射，采用现有的技术实现。对于不在词典中的词，则以0向量代替

计算词频(即常说的IDF)，根据逆文档词频w1,w2,...wn对于上述向量v1,v2,...vn进行加权求和。其中w1,w2,...,wn的计算方式如下：计算描述中的每一个词如v1所对应的“我们”在应用市声中所有app描述中出现的文档数量并求倒数(用1除以该数量)作为“我们”的权重w1.对w1,w2,...wn进行归一化处理使得w1+w2+...wn＝1。获取App名字，计算描述中的所有词向量，对描述中的词向量进行加权聚合，权重根据IDF的方式计算，得到该app的向量表达。

计算该应用的特征向量，最后该app特征向量计算如下：

a＝w1*v1+w2*v2+....+wn*vn (公式1

对于本申请实施例，解决了应用的应用特征的确定问题。

本申请实施例提供了一种可能的实现方式，步骤S104包括：

步骤S1041(图中未示出)，基于各个应用的权重对所述各个应用的特征向量进行加权聚合处理，得到目标用户的目标用户特征。

其中，各个应用的权重基于应用的下载量、应用的下载时间、应用的安装时间中的至少一项确定；或者各个应用的权重基于各个应用对应的应用介绍信息通过深度神经网络计算得到。

示例性地，计算用户整体app列表的特征向量(即目标用户特征)可以是：

用户手机安装了K个app，每个app按照如上所述方式计算各自的词向量,分别为a1,....,ak.每个向量为d维。计算每个app的权重，设为b1,...,bk，则最后用户的特征向量为:a1*b1+a2*b2+...+ak*bk。

其中，权重b1,...,bk的计算方式有不限于如下三种的实施方式：

第一种，根据应用的下载量确定应用的权重，第二种，根据应用的上次使用(或安装)时间确定应用的权重，其原理是下载量越大的应用(如微信)则在刻画用户个性化特征当中所占的权重应当越小，上次使用时间距今越久的应用，也应当占越小的权重；

如图5所示，第三种采用自注意力机制，即第k个app权重bk根据应用的介绍信息通过深度神经网络计算得到，bk经过归一化后与ak相乘。深度网络的实例包括RNN,LSTM,或其它文本分类网络，只需要满足输入为文本，输出为0到1的概率值(采用sigmoid为最后激活函数的文本网络都符合要求。这种“自注意力”机制能更加灵活地通过网络调整每个app的权重，以适应下游应用。例如，对于贷款风险识别的应用而言，与p2p相关的app所占的权重更大。对于用户画像类应用，则视频类、社交类、购物类app对于刻画用户兴趣爱好占有更大权重。

需要说明的是，以上三种加权方式可以合并使用，即经过三次加权得到一个向量，也可以做为三种方式分别得到三种向量，或组合成一个三倍维度的向量供下游算法使用。

本申请实施例提供了一种可能的实现方式，进一步地，该方法还包括：

步骤S105(图中未示出)，基于所述目标用户的目标用户特征进行个性化推荐或欺诈识别或模型训练。

具体地，可以基于基于所述目标用户的目标用户特征进行个性化推荐或欺诈识别或模型训练。其中，该进行个性化推荐或欺诈识别或模型训练的步骤可以是在终端测进行的，也可以是在服务器侧执行的。

实施例二

图2为本申请实施例提供的一种用户特征提取装置，该装置20包括：第一获取模块201、第二获取模块202、第一确定模块203以及第二确定模块204，其中，

第一获取模块201，用于获取目标用户的至少两个应用名称；

第二获取模块202，用于基于各个所述应用名称获取各个应用的应用介绍信息；

第一确定模块203，用于基于所述各个应用的应用介绍信息确定各个应用的特征向量；

第二确定模块204，用于基于各个应用的特征向量确定目标用户的目标用户特征。

本申请实施例提供了一种用户特征提取装置，与现有技术直接基于用户应用app名称刻画用户画像相比，本申请通过获取目标用户的至少两个应用名称，然后基于各个所述应用名称获取各个应用的应用介绍信息，继而所述各个应用的应用介绍信息确定各个应用的特征向量，进而基于各个应用的特征向量确定目标用户的目标用户特征，且上述步骤是在终端设备侧进行的。即基于用户应用的应用介绍信息提取应用的特征向量，并基于至少两个应用的应用特征向量确定目标用户的用户特征，由于应用的介绍信息相对稳定(变化较小)，从而较直接基于应用名称刻画用户画像相比，刻画的用户画像更加准确，避免由于应用名称可能变化，导致仅根据名称刻画的用户画像不准确；此外，获取应用名称信息，以及基于应用名称信息确定用户特征的各个步骤是在终端设备侧进行的，避免了将应用名称上传至服务器导致用户信息泄露的风险，再者，用户特征信息是基于至少两个应用特征向量加权聚合得到的，即使将提取到的用户特征上传至服务器，基于该上传的用户特征也不能反推出用户的应用信息，进一步保证用户信息的安全。

本申请实施例提供了一种可能的实现方式，具体地，所述第二获取模块具体用于基于任一应用名称通过第三方应用获取所述任一应用名称对应的应用的应用介绍信息。

本申请实施例提供了一种可能的实现方式，所述第一确定模块包括：

其中，各个分词的权重通过逆文本频率指数确定。

本申请实施例提供了一种可能的实现方式，具体地，第二确定模块具体用于基于各个应用的权重对所述各个应用的特征向量进行加权聚合处理，得到目标用户的目标用户特征。

本申请实施提供了一种可能的实现方式，该装置还包括：

本申请实施例提供了一种用户特征提取装置，与现有技术直接基于用户应用app名称刻画用户画像相比，本申请实施例通过获取目标用户的至少两个应用名称，然后基于各个所述应用名称获取各个应用的应用介绍信息，继而所述各个应用的应用介绍信息确定各个应用的特征向量，进而基于各个应用的特征向量确定目标用户的目标用户特征，且上述步骤是在终端设备侧进行的。即基于用户应用的应用介绍信息提取应用的特征向量，并基于至少两个应用的应用特征向量确定目标用户的用户特征，由于应用的介绍信息相对稳定(变化较小)，从而较直接基于应用名称刻画用户画像相比，刻画的用户画像更加准确，避免由于应用名称可能变化，导致仅根据名称刻画的用户画像不准确；此外，获取应用名称信息，以及基于应用名称信息确定用户特征的各个步骤是在终端设备侧进行的，避免了将应用名称上传至服务器导致用户信息泄露的风险，再者，用户特征信息是基于至少两个应用特征向量加权聚合得到的，即使将提取到的用户特征上传至服务器，基于该上传的用户特征也不能反推出用户的应用信息，进一步保证用户信息的安全。

本申请实施例的装置可以执行本申请实施例一所示的方法，其实现的效果类似，在此不再赘述。

实施例三

本申请实施例提供了一种电子设备，如图4所示，图4所示的电子设备40包括：处理器401和存储器403。其中，处理器401和存储器403相连，如通过总线402相连。进一步地，电子设备40还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备40的结构并不构成对本申请实施例的限定。其中，处理器401应用于本申请实施例中，用于实现图2所示的模块的功能。收发器404包括接收机和发射机。

处理器401可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现图2所示实施例提供的装置的功能。

本申请实施例提供了一种电子设备适用于上述方法实施例，具体实现方式和技术效果，在此不再赘述。

实施例四

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例中所示的用户特征提取方法。

本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例，具体实现方式和技术效果，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种用户特征提取方法，其特征在于，应用于终端设备，包括：

获取目标用户的至少两个应用名称；

基于各个所述应用名称获取各个应用的应用介绍信息；

基于所述各个应用的应用介绍信息确定各个应用的特征向量；

基于各个应用的特征向量确定目标用户的目标用户特征。

2.根据权利要求1所述的方法，其特征在于，基于各个所述应用名称获取各个应用的应用介绍信息，包括：

基于任一应用名称通过第三方应用获取所述任一应用名称对应的应用的应用介绍信息。

3.根据权利要求1所述的方法，其特征在于，所述基于所述各个应用的应用介绍信息得到各个应用的特征向量，包括：

基于预训练的词向量模型确定各个分词的分词向量；

4.根据权利要求3所述的方法，其特征在于，各个分词的权重通过逆文本频率指数确定。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述基于各个应用的特征向量得到目标用户的目标用户特征，包括：

6.根据权利要求5所述的方法，其特征在于，各个应用的权重基于应用的下载量、应用的下载时间、应用的安装时间中的至少一项确定；或者各个应用的权重基于各个应用对应的应用介绍信息通过深度神经网络计算得到。

7.根据权利要求1-6任一项所述的方法，其特征在于，该方法还包括：

8.一种用户特征提取装置，其特征在于，应用于终端设备，包括：

第一获取模块，用于获取目标用户的至少两个应用名称；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至7任一项所述的用户特征提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1至7中任一项所述的用户特征提取方法。