CN111382793A

CN111382793A - 一种特征提取方法、装置和存储介质

Info

Publication number: CN111382793A
Application number: CN202010155617.6A
Authority: CN
Inventors: 吴喆; 李深远; 黄昕
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-07-07
Anticipated expiration: 2040-03-09
Also published as: CN111382793B

Abstract

本发明实施例公开了一种特征提取方法、装置和存储介质，其中，通过构建包括用户标识和对象标识的正样本对，构建包括用户特征提取子网络、对象特征提取子网络以及损失网络的深度学习网络；将用户对应的第一辅助信息以及用户标识输入到用户特征提取子网络进行特征向量提取；将对象对应的第二辅助信息以及对象标识输入到对象特征提取子网络进行特征向量提取；将两个特征提取子网络取到的特征向量输入损失网络，根据损失网络输出的损失值进行联合训练，直至收敛；根据收敛后的对象特征提取子网络提取得到对象的目标特征向量。相较于相关技术，本发明提取得到对象的目标特征向量融合了用户的相关信息，能够更有效的表征对象，进而能够更好的进行推荐。

Description

一种特征提取方法、装置和存储介质

技术领域

本发明涉及推荐技术领域，具体涉及一种特征提取方法、装置和存储介质。

背景技术

在推荐技术领域，推荐的对象可以是视频、音乐、新闻以及商品等。推荐系统由多模块组成，比如召回模块、精排模块等。其中，许多模块是以特征向量为核心来进行搭建的，比如，召回模块基于对象的特征向量来进行相似召回，精排模块中对用户点击序列中的对象进行特征向量聚合，用以表征用户的行为特征等。然而，相关技术中关注的是如何使用对象的特征向量，而忽略了特征向量的提取。

发明内容

本发明实施例提供一种特征提取方法、装置和存储介质，能够有效的提取对象的特征向量，进而能够更好的进行推荐。

本发明实施例提供的特征提取方法，包括：

获取用户对于对象的操作行为数据，并根据所述操作行为数据构建正样本对，所述正样本对包括用户标识和对象标识；

构建初始的深度学习网络，所述深度学习网络包括用户特征提取子网络、对象特征提取子网络以及连接所述用户特征提取子网络和所述对象特征提取子网络的损失网络；

获取所述用户对应的第一辅助信息，并将所述用户标识以及所述第一辅助信息输入到所述用户特征提取子网络进行特征向量提取；

获取所述对象对应的第二辅助信息，并将所述对象标识以及所述第二辅助信息输入到所述对象特征提取子网络进行特征向量提取；

将所述用户特征提取子网络以及所述对象特征提取子网络提取到的特征向量输入所述损失网络，并根据所述损失网络输出的损失值对所述用户特征提取子网络和所述对象特征提取子网络的参数进行调整，直至所述用户特征提取子网络和所述对象特征提取子网络收敛；

根据收敛后的所述对象特征提取子网络提取得到所述对象的目标特征向量。

本发明实施例还提供一种特征提取装置，包括：

样本构建模块，用于获取用户对于对象的操作行为数据，并根据所述操作行为数据构建正样本对，所述正样本对包括用户标识和对象标识；

网络构建模块，用于构建初始的深度学习网络，所述深度学习网络包括用户特征提取子网络、对象特征提取子网络以及连接所述用户特征提取子网络和所述对象特征提取子网络的损失网络；

第一特征提取模块，用于获取所述用户对应的第一辅助信息，并将所述用户标识以及所述第一辅助信息输入到所述用户特征提取子网络进行特征向量提取；

第二特征提取模块，用于获取所述对象对应的第二辅助信息，并将所述对象标识以及所述第二辅助信息输入到所述对象特征提取子网络进行特征向量提取；

模型训练模块，用于将所述用户特征提取子网络以及所述对象特征提取子网络提取到的特征向量输入所述损失网络，并根据所述损失网络输出的损失值对所述用户特征提取子网络和所述对象特征提取子网络的参数进行调整，直至所述用户特征提取子网络和所述对象特征提取子网络收敛；

目标特征提取模块，用于根据收敛后的所述对象特征提取子网络提取得到所述对象的目标特征向量。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行本发明实施例所提供的特征提取方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的特征提取方法的一流程示意图；

图2是本发明实施例中构建的深度学习网络的架构示意图；

图3是本发明实施例中构建的深度学习网络中用户特征提取子网络的一架构示意图；

图4是本发明实施例中构建的深度学习网络中用户特征提取子网络的另一架构示意图；

图5是本发明实施例中构建的深度学习网络中对象特征提取子网络的一架构示意图；

图6是本发明实施例中构建的深度学习网络中对象特征提取子网络的另一架构示意图；

图7是本发明实施例提供的特征提取方法的另一流程示意图；

图8是本发明实施例中构建的深度学习网络的另一架构示意图；

图9是本发明实施例提供的特征提取装置的结构示意图；

图10是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种特征提取方法、对象推荐方法、装置和存储介质，其中，该特征提取方法可由特征提取装置执行，该特征提取装置可以集成在服务器，使得服务器获取用户对于对象的操作行为数据，并根据操作行为数据构建正样本对，正样本对包括用户标识和对象标识；构建初始的深度学习网络，深度学习网络包括用户特征提取子网络、对象特征提取子网络以及连接用户特征提取子网络和对象特征提取子网络的损失网络；获取用户对应的第一辅助信息，并将用户标识以及第一辅助信息输入到用户特征提取子网络进行特征向量提取；获取对象对应的第二辅助信息，并将对象标识以及第二辅助信息输入到对象特征提取子网络进行特征向量提取；将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入损失网络，并根据损失网络输出的损失值对用户特征提取子网络和对象特征提取子网络的参数进行调整，直至用户特征提取子网络和对象特征提取子网络收敛；根据收敛后的对象特征提取子网络提取得到对象的目标特征向量。

本发明实施例提供一种特征提取方法，在本发明实施例中，将从服务器的角度进行描述，如图1所示，该特征提取方法的流程可以如下：

在101中，获取用户对于对象的操作行为数据，并根据操作行为数据构建正样本对，正样本对包括用户标识和对象标识。

应当说明的是，在推荐技术领域，推荐的对象包括但不限于视频、音乐、商品以及新闻等。

本发明实施例中，服务器在接收到用户对于对象的操作行为时，对接收到的操作行为进行记录，得到操作行为数据，该操作行为数据用于描述用户所执行的操作行为，至少包括用于表征用户的用户标识、用于表征对象的对象标识以及用于表征用户执行的操作行为的行为标识。

以视频为例，用户对视频的操作行为包括但不限于播放、转发、点赞以及送礼等，相应的，服务器通过对应的操作行为数据来记录用户的操作行为。

相应的，服务器可以从记录的操作行为数据中，获取预设时长区间的操作行为数据，并根据获取到的操作行为数据构建正样本对。其中，预设时长区间可由本领域普通技术人员根据实际需要取值，本发明实施例对此不作具体限制，比如，可以设置为三十个自然日。

示例性的，在根据获取到的操作行为数据构建正样本对时，服务器可以从获取到的操作行为数据中筛选出满足预设条件的目标操作行为数据。其中，预设条件用于约束操作行为数据所描述的操作行为属于正向的操作行为(或称正反馈行为)，可以通过行为标识来限定，比如，对于视频而言，正向的操作行为包括完整播放、转发、点赞以及送礼等能够反映用户对视频感兴趣的操作行为，相应的，预设条件可以设置为：操作行为数据中的行为标识为对应完整播放、转发、点赞以及送礼等正向操作行为的行为标识；又比如，对于音乐而言，正向的操作行为包括完整播放、分享以及收藏等，相应的，预设条件可以设置为：操作行为数据中的行为标识为对应相应的，预设条件可以设置为：操作行为数据中的行为标识为对应完整播放、分享以及收藏等正向操作行为的行为标识。

服务器在从获取到的操作行为数据中筛选出目标操作行为数据之后，即根据筛选出的目标操作行为数据来构建正样本对。比如，服务器直接根据目标操作行为数据原始的用户标识和对象标识来构建正样本对，假设服务器筛选出的目标操作行为数据中的用户标识为“1000011”，对象标识为“999_203_75”，则服务器构建的正样本对为<1000011，999_203_75>。

在一实施例中，“根据操作行为数据构建正样本对”，包括：

(1)解析出操作行为数据包括的原始用户标识以及原始对象标识；

(2)根据预设的映射策略将用户标识映射为对应的用户映射信息，以及根据映射策略将对象标识映射为对应的对象映射信息；

(3)将用户映射信息设为用户标识，将对象映射信息设为对象标识。

本发明实施例中，服务器在构建正样本对时，并不直接使用操作行为数据记录的原始用户标识和原始对象标识来构架正样本对，而是将操作行为数据中的用户标识和对象标识映射到其它数据空间，使得用户标识之间以及对象标识之间不再孤立，而是存在某种相关性，这种相关性取决于对用户标识和对象标识的映射策略，具体可由本领域普通技术人员根据实际需要进行设置。

其中，服务器在获取到操作行为数据之后，首先对获取到的操作行为数据进行解析，解析出操作行为数据中包括的原始用户标识、原始对象标识以及行为标识。并根据行为标识从获取到的操作行为数据中筛选出行为标识满足预设条件的目标操作行为数据。

对于筛选出的目标操作行为数据，服务器进一步根据预设的映射策略，将目标操作行为数据中的原始用户标识映射为对应的用户映射信息，以及将目标操作行为数据中的原始对象标识映射为对应的对象映射信息。其中，不同原始用户标识对应的用户映射信息之间相关，不同原始对象标识对应的对象映射信息之间相关，且其中的相关性取决于映射策略。

对于一目标操作行为数据，服务器在将目标操作行为数据中的原始用户标识映射为对应的用户映射信息，以及将目标操作行为数据中的原始对象标识映射为对应的对象映射信息之后，进一步将映射得到的用户映射信息设为用户标识，将映射得到的对象标识信息设为对象标识。换言之，即将目标操作行为中的原始用户标识和原始对象标识转换至其它的标识空间。

在一实施例中，“根据预设的映射策略将原始对象标识映射为对应的对象映射信息”，包括：

(1)统计原始对象标识在获取到的所有操作行为数据中出现的次数；

(2)根据原始对象标识对应的次数进行排序，得到原始对象标识对应的排序信息；

(3)将原始对象标识对应的排序信息设为对象映射信息。

本发明实施例中，进一步提供一种用于将原始对象标识映射到其它数据空间的映射策略。

其中，对于一目标操作行为数据中的原始对象标识，服务器首先统计该原始对象标识在所有目标操作行为数据中出现的次数。

然后，服务器根据每一原始对象标识对应的次数进行排序，得到每一原始对象标识对应的排序信息，将每一原始对象标识所对应的排序信息设为其对象映射信息。

比如，假设原始对象标识“999_203_75”在所有目标操作行为数据中出现的次数的排名为“79”，则将“999_203_75”映射为“79”，进而将“79”作为构建正样本对的对象标识，这样，不同的对象标识之间存在排名的相关性。

此外，“根据预设的映射策略将原始用户标识映射为对应的用户映射信息”，包括：

(1)统计原始用户标识在获取到的所有操作行为数据中出现的次数；

(2)根据原始用户标识对应的次数进行排序，得到原始用户标识对应的排序信息；

(3)将原始用户标识对应的排序信息设为用户映射信息。

本发明实施例中，按照相同的映射策略将原始用户标识映射到其它数据空间。

其中，对于一目标操作行为数据中的原始用户标识，服务器首先统计该原始用户标识在所有目标操作行为数据中出现的次数。

然后，服务器根据每一原始用户标识对应的次数进行排序，得到每一原始用户标识对应的排序信息，将每一原始用户标识所对应的排序信息设为其用户映射信息。

比如，假设原始用户标识“1000011”在所有目标操作行为数据中出现的次数的排名为“37”，则将“1000011”映射为“37”，进而将“37”作为构建正样本对的用户标识，这样，不同的用户标识之间存在排名的相关性。

在102中，构建初始的深度学习网络，深度学习网络包括用户特征提取子网络、对象特征提取子网络以及连接用户特征提取子网络和对象特征提取子网络的损失网络。

请参照图2，本发明实施例中，服务器构建有基于伪孪生网络框架的深度学习网络，该深度学习网络包括同构的用户特征提取子网络和对象特征提取子网络，应当说明的是，其中的用户特征提取子网络和对象特征提取子网络是解耦的。此外，服务器构建的深度学习网络还包括与用户特征提取子网络和对象特征提取子网络连接的损失网络。

在103中，获取前述用户对应的第一辅助信息，并将用户标识以及第一辅助信息输入到用户特征提取子网络进行特征向量提取。

本发明实施例中，服务器还获取用户对应的辅助信息(也称边信息)，记为第一辅助信息。其中，第一辅助信息可以为用户的画像信息，包括但不限于性别、年龄等。

在获取到用户对应的第一辅助信息之后，服务器即将用户标识以及第一辅助信息输入到初始构建的用户特征提取子网络进行特征向量提取。

在一实施例中，用户特征提取子网络包括用户特征提取模块和用户向量聚合模块，将用户标识以及第一辅助信息输入到用户特征提取子网络进行特征提取的步骤，包括：

(1)分别对用户标识和第一辅助信息进行独热编码，得到用户标识的独热编码向量、第一辅助信息的独热编码向量；

(2)将用户标识的独热编码向量输入到用户特征提取模块进行特征提取，得到用户标识的嵌入向量；

(3)将用户标识的嵌入向量和第一辅助信息的独热编码向量输入到用户向量聚合模块进行向量聚合，将聚合得到的向量设为用户特征提取子网络输出的特征向量。

应当说明的是，本发明实施例中，请参照图3，服务器构建的用户特征提取子网络包括用户特征提取模块和用户向量聚合模块，其中，用户特征提取模块和用户向量聚合模块为类wide&deep结构，作为Deep部分的用户特征提取模块用于将输入的高维稀疏的初始向量变换为低维稠密的嵌入向量，作为wide部分的用户向量聚合模块用于添加辅助信息。由此，通过将第一辅助信息独立于用户标识的特征提取之外，能够避免第一辅助信息降低用户标识的特征提取质量。

其中，服务器首先分别对用户标识和第一辅助信息进行独热编码，得到用户标识的独热编码向量和第一辅助信息的独热编码向量。

在完成对用户标识和第一辅助信息的独热编码之后，服务器将用户标识的独热编码向量输入到用户特征提取模块进行特征提取，得到用户标识的嵌入向量。

在提取得到用户标识的嵌入向量之后，服务器进一步将用户标识的嵌入向量和第一辅助信息的独热编码向量输入到用户向量聚合模块进行向量聚合，将聚合得到的向量设为用户特征提取子网络输出的特征向量。

应当说明的是，本发明实施例中对于采用何种向量聚合方式来对用户标识的嵌入向量和第一辅助信息的独热编码向量进行向量聚合不做具体限制，可由本领域普通技术人员根据实际需要选取合适的向量聚合方式。

在一实施例中，用户特征提取子网络还包括用户归一化模块，如图4所示，该用户归一化模块连接于用户特征提取模块和用户向量聚合模块之间，“将用户标识的嵌入向量和第一辅助信息的独热编码向量输入到用户向量聚合模块进行向量聚合”之前，还包括：

(1)将用户标识的嵌入向量输入到用户归一化模块进行归一化处理，得到归一化后的用户标识的嵌入向量；

“将用户标识的嵌入向量和第一辅助信息的独热编码向量输入到用户向量聚合模块进行向量聚合”，包括：

(2)将归一化后的用户标识的嵌入向量和第一辅助信息的独热编码向量输入到用户向量聚合模块进行向量聚合。

本发明实施例中，服务器构建的用户特征提取子网络还包括连接于特征提取模块和向量聚合模块之间的用户归一化模块。

相应的，服务器在将用户标识的独热编码向量输入到特征提取模块进行特征提取，得到用户标识的嵌入向量之后，并不直接与第一辅助信息的独热编码向量进行向量聚合，而是将用户标识的独热编码向量输入到用户归一化模块中进行归一化处理，比如，进行批量归一化处理。

然后，服务器将归一化后的用户标识的嵌入向量和第一辅助信息的独热编码向量输入到用户向量聚合模块进行向量聚合。

在104中，获取前述对象对应的第二辅助信息，并将对象标识以及第二辅助信息输入到对象特征提取子网络进行特征向量提取。

本发明实施例中，服务器还获取对象所对应的辅助信息(也称边信息)，记为第二辅助信息。比如，对于视频而言，其辅助信息可以为视频的类型信息和原创类别等。

在获取到对象对应的第二辅助信息之后，服务器即将对象标识以及第二辅助信息输入到初始构建的对象特征提取子网络进行特征向量提取。

在一实施例中，对象特征提取子网络包括对象特征提取模块和对象向量聚合模块，“将对象标识以及第二辅助信息输入到对象特征提取子网络进行特征提取”，包括：

(1)分别对对象标识和第二辅助信息进行独热编码，得到对象标识的独热编码向量、第二辅助信息的独热编码向量；

(2)将对象标识的独热编码向量输入到对象特征提取模块进行特征提取，得到对象标识的嵌入向量；

(3)将对象标识的嵌入向量和第二辅助信息的独热编码向量输入到对象向量聚合模块进行向量聚合，将聚合得到的向量设为对象特征提取子网络输出的特征向量。

应当说明的是，本发明实施例中，请参照图5，服务器构建的对象特征提取子网络包括对象特征提取模块和对象向量聚合模块，其中，对象特征提取模块和对象向量聚合模块为类wide&deep结构，作为Deep部分的对象特征提取模块用于将输入的高维稀疏的初始向量变换为低维稠密的嵌入向量，作为wide部分的对象向量聚合模块用于添加辅助信息。

其中，服务器首先分别对对象标识和第二辅助信息进行独热编码，得到对象标识的独热编码向量和第二辅助信息的独热编码向量。

在完成对对象标识和第二辅助信息的独热编码之后，服务器将对象标识的独热编码向量输入到对象特征提取模块进行特征提取，得到对象标识的嵌入向量。

在提取得到对象标识的嵌入向量之后，服务器进一步将对象标识的嵌入向量和第二辅助信息的独热编码向量输入到对象向量聚合模块进行向量聚合，将聚合得到的向量设为对象特征提取子网络输出的特征向量。

应当说明的是，本发明实施例中对于采用何种向量聚合方式来对对象标识的嵌入向量和第二辅助信息的独热编码向量进行向量聚合不做具体限制，可由本领域普通技术人员根据实际需要选取合适的向量聚合方式。

在一实施例中，对象特征提取子网络还包括对象归一化模块，如图6所示，该对象归一化模块连接于对象特征提取模块和对象向量聚合模块之间，“将对象标识的嵌入向量和第二辅助信息的独热编码向量输入到对象向量聚合模块进行向量聚合”之前，还包括：

(1)将对象标识的嵌入向量输入到对象归一化模块进行归一化处理，得到归一化后的嵌入向量；

“将对象标识的嵌入向量和第二辅助信息的独热编码向量输入到对象向量聚合模块进行向量聚合”，包括：

(2)将归一化后的嵌入向量和第二辅助信息的独热编码向量输入到对象向量聚合模块进行向量聚合。

本发明实施例中，服务器构建的对象特征提取子网络还包括连接于对象特征提取模块和对象向量聚合模块之间的对象归一化模块。

相应的，服务器在将对象标识的独热编码向量输入到对象特征提取模块进行特征提取，得到对象标识的嵌入向量之后，并不直接与第二辅助信息的独热编码向量进行向量聚合，而是将对象标识的独热编码向量输入到对象归一化模块中进行归一化处理，比如，进行批量归一化处理。

然后，服务器将归一化后的对象标识的嵌入向量和第二辅助信息的独热编码向量输入到对象向量聚合模块进行向量聚合。

在105中，将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入损失网络，并根据损失网络输出的损失值对用户特征提取子网络和对象特征提取子网络的参数进行调整，直至构建的用户特征提取子网络和对象特征提取子网络收敛。

本发明实施例中，服务器还将用户特征提取子网络以及对象特征提取子网络所提取的特征向量输入损失网络，在损失网络中进行损失值的计算，并根据损失网络所输出的损失值对用户特征提取子网络和对象特征提取子网络进行联合训练，在训练过程中，根据损失网络输出的损失值对用户特征提取子网络和对象特征提取子网络的参数进行调整，直至构建的用户特征提取子网络和对象特征提取子网络收敛，完成对用户特征提取子网络和对象特征提取子网络的训练。

在一实施例中，损失网络包括相似度计算模块、负采样模块和损失值计算模块，“将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入损失网络”，包括：

(1)将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入到相似度计算模块进行相似度计算，得到对应的相似度；

(2)基于负采样模块负采样得到对应正样本对的负样本对，并获取对应负样本对的相似度；

(3)将对应正样本对的相似度和对应负样本对的相似度输入损失值计算模块，得到损失值计算模块输出的损失值。

本发明实施例中，在将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入损失网络时，服务器首先将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入到相似度计算模块进行相似度计算，得到对应的相似度。比如，相似度计算模块用于计算两个特征向量之间的余弦相似度。此外，服务器还基于负采样模块负采样得到对应正样本对的负样本对，并获取对应负样本对的相似度。

在得到对应正样本对的相似度和对应负采样得到的负样本对的相似度之后，服务器进一步将对应正样本对的相似度和对应负样本对的相似度输入损失值计算模块进行噪音对比估计损失值的计算，将计算得到的噪音对比估计损失值设为损失网络输出的损失值。

比如，损失值计算模块采用负采样的方式进行噪音对比估计损失值的计算，其基于先验分布进行随机采样，可极大提升训练效率，有益于特征向量的质量提升。

在106中，根据收敛后的对象特征提取子网络提取得到对象的目标特征向量。

本发明实施例中，服务器在完成对用户特征提取子网络和对象特征提取子网络的训练之后，即可根据收敛后的对象特征提取子网络提取得到对象的目标特征向量，该目标特征向量融合了用户标识的特征向量以及第一辅助信息。

在一实施例中，“根据收敛后的对象特征提取子网络提取得到前述对象的目标特征向量”，包括：

将对象特征提取子网络中的特征提取模块在收敛时所输出的嵌入向量设为前述对象的目标特征向量。

在一实施例中，“根据收敛后的对象特征提取子网络提取得到对象的目标特征向量”之后，还包括：

(1)从对象所处的对象集合中确定出与对象之间目标特征向量的相似度最高的前预设数量的目标对象；

(2)将确定出的目标对象与前述对象关联。

本发明实施例中，服务器还提取前述对象所处对象集合中除前述对象之外的其它对象的目标特征向量，具体可参照以上实施例中提取前述对象的目标目标特征向量的方式相应实施，此处不再赘述。

在提取得到其它对象的目标特征向量之后，服务器进一步计算前述对象的目标特征向量与每一其它对象的目标特征向量之间相似度，比如，计算余弦相似度。

然后，服务器确定出与前述对象之间目标特征向量的相似度最高的前述预设数量的其它对象，记为目标对象，并将确定出的目标对象与前述对象关联。

比如，使用对象标识来表征前述对象时，可以将确定出的目标对象的对象标识与前述对象的对象标识关联。

在一实施例中，“将确定出的目标对象与前述对象关联”之后，还包括：

当接收到用户对前述对象的预设操作行为时，将关联前述对象的目标对象推荐给用户。

其中，预设操作行为包括对前述对象的正向的操作行为，比如，以视频为例，对其正向的操作行为包括完整播放、分享以及收藏等。

服务器在接收到对前述对象正向的操作行为时，将与前述对象关联的目标对象推荐给用户。比如，前述对象为一个年轻女孩的唱歌视频，当服务器接收对该唱歌视频的正向操作行为如送礼时，将与该唱歌视频关联的其它视频推荐给用户，其中，推荐的其它视频包括与前述唱歌视频相似的其它年轻女孩的唱歌视频以及前述年轻女孩的其它唱歌视频。

由上可知，本发明实施例中，获取用户对于对象的操作行为数据，并根据操作行为数据构建正样本对，正样本对包括用户标识和对象标识；构建初始的深度学习网络，深度学习网络包括用户特征提取子网络、对象特征提取子网络以及连接用户特征提取子网络和对象特征提取子网络的损失网络；获取用户对应的第一辅助信息，并将用户标识以及第一辅助信息输入到用户特征提取子网络进行特征向量提取；获取对象对应的第二辅助信息，并将对象标识以及第二辅助信息输入到对象特征提取子网络进行特征向量提取；将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入损失网络，并根据损失网络输出的损失值对用户特征提取子网络和对象特征提取子网络的参数进行调整，直至用户特征提取子网络和对象特征提取子网络收敛；根据收敛后的对象特征提取子网络提取得到对象的目标特征向量。相较于相关技术，本发明提取得到对象的目标特征向量融合了用户的相关信息，能够更有效的表征对象，进而能够更好的进行推荐。

请参照图7和图8，本发明实施例提供的一种特征提取方法的执行流程还可以如下：

在201中，服务器构建正样本对。

其中，服务器获取用户对于对象的操作行为数据，将操作行为中的原始用户标识和原始对象标识转换新的用户标识和新的对象标识，并根据新的用户标识和新的对象标识构建正样本对。

在202中，服务器构建初始的深度学习网络，深度学习网络包括用户特征提取子网络、对象特征提取子网络以及连接用户特征提取子网络和对象特征提取子网络的损失网络。

其中，服务器构建初始的深度学习网络，深度学习网络包括用户特征提取子网络、对象特征提取子网络以及连接用户特征提取子网络和对象特征提取子网络的损失网络，其中，用户特征提取子网络包括用户特征提取模块和用户向量聚合模块，对象特征提取子网络包括对象特征提取模块和对象向量聚合模块，损失网络包括相似度计算模块、负采样模块和损失值计算模块。

在203中，服务器根据用户特征提取子网络进行特征向量提取。

其中，服务器获取用户对应的第一辅助信息，分别对新的对象标识和第一辅助信息进行独热编码，得到新的对象标识的独热编码向量、第一辅助信息的独热编码向量；将新的对象标识的独热编码向量输入到特征提取模块进行特征提取，得到新的对象标识的嵌入向量；将嵌入向量和第一辅助信息的独热编码向量输入到向量聚合模块进行向量聚合，将聚合得到的向量设为对象特征提取子网络输出的特征向量。

在204中，服务器根据初始构建的对象特征提取子网络进行特征向量提取。

其中，服务器获取对象对应的第二辅助信息，分别对新的用户标识和第二辅助信息进行独热编码，得到新的用户标识的独热编码向量、第二辅助信息的独热编码向量；将新的用户标识的独热编码向量输入到特征提取模块进行特征提取，得到新的用户标识的嵌入向量；将嵌入向量和第二辅助信息的独热编码向量输入到向量聚合模块进行向量聚合，将聚合得到的向量设为用户特征提取子网络输出的特征向量。

在205中，服务器根据损失网络计算得到对应用户特征提取子网络以及对象特征提取子网络提取到的特征向量的噪音对比估计损失值，并根据该噪音对比估计损失值对用户特征提取子网络和对象特征提取子网络进行联合训练。

其中，服务器将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入到相似度计算模块进行相似度计算，得到对应的相似度；基于负采样模块负采样得到对应正样本对的负样本对，并获取对应负样本对的相似度；将对应正样本对的相似度和对应负样本对的相似度输入损失值计算模块，得到损失值计算模块输出的噪音对比估计损失值；根据该噪音对比估计损失值对用户特征提取子网络和对象特征提取子网络的参数进行调整，直至用户特征提取子网络和对象特征提取子网络收敛。

在206中，服务器将对象特征提取子网络中的特征提取模块在收敛时所输出的嵌入向量设为前述对象的目标特征向量。

在207中，服务器从前述对象所处的对象集合中确定出与前述对象之间目标特征向量的相似度最高的前预设数量的目标对象，将确定出的目标对象与前述对象关联。

在208中，当接收到前述用户对前述对象的预设操作行为时，服务器将关联前述对象的目标对象推荐给前述用户。

为了更好地实施以上特征提取方法，本发明实施例还提供一种特征提取装置。请参照图9，该特征提取装置包括样本构建模块301、网络构建模块302、第一特征提取模块303、第二特征提取模块304、模型训练模块305以及目标特征提取模块306，如下：

样本构建模块301，用于获取用户对于对象的操作行为数据，并根据操作行为数据构建正样本对，正样本对包括用户标识和对象标识；

网络构建模块302，用于构建初始的深度学习网络，深度学习网络包括用户特征提取子网络、对象特征提取子网络以及连接用户特征提取子网络和对象特征提取子网络的损失网络；

第一特征提取模块303，用于获取前述用户对应的第一辅助信息，并将用户标识以及第一辅助信息输入到用户特征提取子网络进行特征向量提取；

第二特征提取模块304，用于获取前述对象对应的第二辅助信息，并将对象标识以及第二辅助信息输入到对象特征提取子网络进行特征向量提取；

模型训练模块305，用于将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入损失网络，并根据损失网络输出的损失值对用户特征提取子网络和对象特征提取子网络的参数进行调整，直至构建的用户特征提取子网络和对象特征提取子网络收敛；

目标特征提取模块306，用于根据收敛后的对象特征提取子网络提取得到对象的目标特征向量。

在一实施例中，对象特征提取子网络包括特征提取模块和向量聚合模块，在将对象标识以及第二辅助信息输入到对象特征提取子网络进行特征提取，第二特征提取模块304用于：

分别对对象标识和第二辅助信息进行独热编码，得到对象标识的独热编码向量、第二辅助信息的独热编码向量；

将对象标识的独热编码向量输入到特征提取模块进行特征提取，得到对象标识的嵌入向量；

将对象标识的嵌入向量和第二辅助信息的独热编码向量输入到向量聚合模块进行向量聚合，将聚合得到的向量设为对象特征提取子网络输出的特征向量。

在一实施例中，对象特征提取子网络还包括归一化模块，在将对象标识的嵌入向量和第二辅助信息的独热编码向量输入到向量聚合模块进行向量聚合之前，第二特征提取模块304还用于：

将对象标识的嵌入向量输入到归一化模块进行归一化处理，得到归一化后的嵌入向量；

在将对象标识的嵌入向量和第二辅助信息的独热编码向量输入到向量聚合模块进行向量聚合时，第二特征提取模块304用于：

将归一化后的嵌入向量和第二辅助信息的独热编码向量输入到向量聚合模块进行向量聚合。

在一实施例中，在根据操作行为数据构建正样本对时，样本构建模块301用于：

解析出操作行为数据包括的原始用户标识以及原始对象标识；

根据预设的映射策略将用户标识映射为对应的用户映射信息，以及根据前述映射策略将对象标识映射为对应的对象映射信息；

将用户映射信息设为用户标识，将对象映射信息设为对象标识。

在一实施例中，在根据预设的映射策略将原始对象标识映射为对应的对象映射信息时，样本构建模块301用于：

统计原始对象标识在获取到的所有操作行为数据中出现的次数；

根据原始对象标识对应的次数进行排序，得到原始对象标识对应的排序信息；

将排序信息设为对象映射信息。

在一实施例中，损失网络包括相似度计算模块、负采样模块和损失值计算模块，在将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入损失网络时，模型训练模块305用于：

将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入到相似度计算模块进行相似度计算，得到对应的相似度；

基于负采样模块负采样得到对应正样本对的负样本对，并获取对应负样本对的相似度；

将对应正样本对的相似度和对应负样本对的相似度输入损失值计算模块，得到损失值计算模块输出的损失值。

在一实施例中，本发明提供的特征提取装置还包括对象关联模块，在根据收敛后的对象特征提取子网络提取得到对象的目标特征向量之后，用于：

提取前述对象之外的其它对象的目标特征向量；

确定与前述对象之间目标特征向量的相似度最高的前预设数量的目标对象；

将确定出的目标对象与前述对象关联。

在一实施例中，本发明提供的特征提取装置还包括对象推荐模块，在将确定出的目标对象与前述对象关联之后，用于：

本发明实施例还提供一种服务器，如图10所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图10中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，当预先在应用程序的架构中增加协议对接层，并在协议对接层中设置注解模块、测试模块以及请求模块后，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而执行本发明实施例提供的特征提取方法，比如：

获取用户对于对象的操作行为数据，并根据操作行为数据构建正样本对，正样本对包括用户标识和对象标识；

构建初始的深度学习网络，深度学习网络包括用户特征提取子网络、对象特征提取子网络以及连接用户特征提取子网络和对象特征提取子网络的损失网络；

获取用户对应的第一辅助信息，并将用户标识以及第一辅助信息输入到用户特征提取子网络进行特征向量提取；

获取对象对应的第二辅助信息，并将对象标识以及第二辅助信息输入到对象特征提取子网络进行特征向量提取；

将用户特征提取子网络以及对象特征提取子网络提取到的特征向量输入损失网络，并根据损失网络输出的损失值对用户特征提取子网络和对象特征提取子网络的参数进行调整，直至用户特征提取子网络和对象特征提取子网络收敛；

根据收敛后的对象特征提取子网络提取得到对象的目标特征向量。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序包括的多条指令能够被服务器的处理器进行加载，以执行本发明实施例所提供的特征提取方法，例如：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本发明实施例所提供的任一种特征提取方法中的步骤，因此，可以实现本发明实施例所提供的任一种特征提取方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种特征提取方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种特征提取方法，其特征在于，所述特征提取方法包括：

将所述用户特征提取子网络提取到的特征向量以及所述对象特征提取子网络提取到的特征向量输入所述损失网络，并根据所述损失网络输出的损失值对所述用户特征提取子网络和所述对象特征提取子网络的参数进行调整，直至所述用户特征提取子网络和所述对象特征提取子网络收敛；

2.根据权利要求1所述的特征提取方法，其特征在于，所述对象特征提取子网络包括对象特征提取模块和对象向量聚合模块，所述将所述对象标识以及所述第二辅助信息输入到所述对象特征提取子网络进行特征提取的步骤，包括：

分别对所述对象标识和所述第二辅助信息进行独热编码，得到所述对象标识的独热编码向量、所述第二辅助信息的独热编码向量；

将所述对象标识的独热编码向量输入到所述对象特征提取模块进行特征提取，得到所述对象标识的嵌入向量；

将所述嵌入向量和所述第二辅助信息的独热编码向量输入到所述对象向量聚合模块进行向量聚合，将聚合得到的向量设为所述对象特征提取子网络输出的特征向量。

3.根据权利要求2所述的特征提取方法，其特征在于，所述对象特征提取子网络还包括对象归一化模块，所述将所述对象特征向量和所述第二辅助信息的独热编码向量输入到所述对象向量聚合模块进行向量聚合的步骤之前，还包括：

将所述嵌入向量输入到所述对象归一化模块进行归一化处理，得到归一化后的嵌入向量；

所述将所述嵌入向量和所述第二辅助信息的独热编码向量输入到所述对象向量聚合模块进行向量聚合的步骤，包括：

将所述归一化后的嵌入向量和所述第二辅助信息的独热编码向量输入到所述对象向量聚合模块进行向量聚合。

4.根据权利要求1所述的特征提取方法，其特征在于，所述根据所述操作行为数据构建样本对的步骤，包括：

解析出所述操作行为数据包括的原始用户标识以及原始对象标识；

根据预设的映射策略将所述原始用户标识映射为对应的用户映射信息，以及根据所述映射策略将所述原始对象标识映射为对应的对象映射信息；

将所述用户映射信息设为所述用户标识，将所述对象映射信息设为所述对象标识。

5.根据权利要求4所述的特征提取方法，其特征在于，所述根据所述映射策略将所述原始对象标识映射为对应的对象映射信息的步骤，包括：

统计所述原始对象标识在获取到的所有操作行为数据中出现的次数；

根据所述原始对象标识对应的次数进行排序，得到所述原始对象标识对应的排序信息；

将所述原始对象标识对应的排序信息设为所述对象映射信息。

6.根据权利要求4所述的特征提取方法，其特征在于，所述根据所述映射策略将所述原始用户标识映射为对应的用户映射信息的步骤，包括：

统计所述原始用户标识在获取到的所有操作行为数据中出现的次数；

根据所述原始用户标识对应的次数进行排序，得到所述原始用户标识对应的排序信息；

将所述原始用户标识对应的排序信息设为所述用户映射信息。

7.根据权利要求1所述的特征提取方法，其特征在于，所述用户特征提取子网络包括用户特征提取模块和用户向量聚合模块，所述将所述用户标识以及所述第一辅助信息输入到所述用户特征提取子网络进行特征向量提取的步骤，包括：

分别对所述用户标识和所述第一辅助信息进行独热编码，得到所述用户标识的独热编码向量、所述第一辅助信息的独热编码向量；

将所述用户标识的独热编码向量输入到特征提取模块进行特征提取，得到所述用户标识的嵌入向量；

将所述用户标识的嵌入向量和所述第一辅助信息的独热编码向量输入到所述向量聚合模块进行向量聚合，将聚合得到的向量设为所述用户特征提取子网络输出的特征向量。

8.根据权利要求7所述的特征提取方法，其特征在于，所述用户特征提取子网络还包括用户归一化模块，所述将所述用户标识的嵌入向量和所述第一辅助信息的独热编码向量输入到所述用户向量聚合模块进行向量聚合的步骤之前，还包括：

将所述用户标识的嵌入向量输入到所述用户归一化模块进行归一化处理，得到归一化后的用户标识的嵌入向量；

所述将所述用户标识的嵌入向量和所述第一辅助信息的独热编码向量输入到所述用户向量聚合模块进行向量聚合的步骤，包括：

将所述归一化后的用户标识的嵌入向量和所述第一辅助信息的独热编码向量输入到所述用户向量聚合模块进行向量聚合。

9.根据权利要求1所述的特征提取方法，其特征在于，所述损失网络包括相似度计算模块、负采样模块和损失值计算模块，所述将所述用户特征提取子网络提取到的特征向量以及所述对象特征提取子网络提取到的特征向量输入所述损失网络，包括：

将所述用户特征提取子网络提取到的特征向量以及所述对象特征提取子网络提取到的特征向量输入到相似度计算模块进行相似度计算，得到对应的相似度；

基于所述负采样模块负采样得到对应所述正样本对的负样本对，并获取对应所述负样本对的相似度；

将对应所述正样本对的相似度和所述对应所述负样本对的相似度输入所述损失值计算模块，得到所述损失值计算模块输出的损失值。

10.根据权利要求1-9任一项所述的特征提取方法，其特征在于，所述根据收敛后的所述对象特征提取子网络提取得到所述对象标识的目标特征向量的步骤之后，还包括：

从所述对象所处的对象集合中确定出与所述对象之间目标特征向量的相似度最高的前预设数量的目标对象；

将确定出的目标对象与所述对象关联。

11.根据权利要求10所述的特征提取方法，其特征在于，所述将确定出的目标对象与所述对象关联的步骤之后，还包括：

当接收到所述用户对所述对象的预设操作行为时，将关联所述对象的目标对象推荐给所述用户。

12.一种特征提取装置，其特征在于，所述特征提取装置包括：

13.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器加载以执行权利要求1至11任一项所述的特征提取方法。