CN112507214A

CN112507214A - 基于用户名的数据处理方法、装置、设备及介质

Info

Publication number: CN112507214A
Application number: CN202011384574.5A
Authority: CN
Inventors: 陶日明
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-16
Anticipated expiration: 2040-11-30
Also published as: CN112507214B

Abstract

本发明实施例公开了一种基于用户名的数据处理方法、装置、设备及介质,涉及计算机技术领域，该基于用户名的数据处理方法包括：获取目标用户名信息；从预设的名称向量库中，查找与所述目标用户名信息匹配的目标用户特征向量，所述名称向量库用于存储用户特征向量和所述用户特征向量对应的用户名信息；将所述目标用户特征向量作为任务特征输入信息并进行数据处理，得到所述目标用户名信息对应的数据处理结果。本发明实施解决了现有技术中在用户不填写诸如年龄、性别等敏感信息时无法实现新用户冷启的问题，提高数据挖掘的准确性。

Description

基于用户名的数据处理方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于用户名的数据处理方法、装置、设备及介质。

背景技术

随着计算机技术的快速发展，应用程序(Application，App)越来越普及，给人们的生活、工作以及学习带来了极大的便利。

目前，信息流App的展示内容主要依据用户的兴趣偏好进行相关推荐。对于新注册用户或者使用时间不长的新用户而言，用户的行为数据非常稀少，很难对用户兴趣直接进行建模预测。具体而言，现有技术中通常采用大量的用户行为数据和用户兴趣数据进行模型训练，以确保训练得到的推荐模型的精准度。若模型训练采用比较少的数据进行训练，则无法保证训练出的模型输出的准确性，影响推荐准确率。因此，现有对于这种新用户常见处理方式是利用用户填写的年龄、性别等信息进行冷启。但是，目前的App通常都不对用户的填写内容进行强制要求，且用户也经常对年龄、性别等偏敏感信息不填写真实内容，导致App服务器无法基于用户填写信息进行冷启，影响数据挖掘的准确性。

发明内容

有鉴于此，本发明实施例提供一种基于用户名的数据处理方法、装置、设备及介质，以提高数据挖掘的准确性。

第一方面，本发明实施例提供了一种基于用户名的数据处理方法，包括：

获取目标用户名信息；

从预设的名称向量库中，查找与所述目标用户名信息匹配的目标用户特征向量，所述名称向量库用于存储用户特征向量和所述用户特征向量对应的用户名信息；

将所述目标用户特征向量作为任务特征输入信息并进行数据处理，得到所述目标用户名信息对应的数据处理结果。

第二方面，本发明实施例还提供了一种基于用户名的数据处理装置，包括：

用户名信息获取模块，用于获取目标用户名信息；

用户特征向量匹配模块，用于从预设的名称向量库中，查找与所述目标用户名信息匹配的目标用户特征向量，所述名称向量库用于存储用户特征向量和所述用户特征向量对应的用户名信息；

数据处理模块，用于将所述目标用户特征向量作为任务特征输入信息并进行数据处理，得到所述目标用户名信息对应的数据处理结果。

第三方面，本发明实施例还提供了一种基于用户名的数据处理设备，包括：处理器和存储器；所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述基于用户名的数据处理设备执行如第一方面所述的基于用户名的数据处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述可读存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行如第一方面所述的基于用户名的数据处理方法。

本发明实施例通过获取目标用户名标注信息，并在名称向量库中查找与该目标用户名标注信息相匹配的目标用户特征向量，随后将查找到的目标用户特征向量作为任务特征输入信息进行数据处理，使得用户特征向量可以反作用于诸如内容推荐等业务场景，从而解决了现有技术中在用户不填写诸如年龄、性别等敏感信息时无法实现新用户冷启的问题，提高数据挖掘的准确性。

附图说明

图1是本发明实施例的一种基于用户名的数据处理方法的步骤流程示意图；

图2是本发明一个可选实施例中的一种基于用户名的数据处理方法的步骤流程示意图；

图3是本发明一个可选示例中基于用户昵称进行数据处理的示意图；

图4是本发明实施例中的一种基于用户名的数据处理装置的结构方框示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构或组成。

图1为本发明实施例提供的一种基于用户名的数据处理方法的步骤流程示意图。本实施例可适用于基于用户名的数据处理情况，如适用于利用用户名进行数据挖掘等情况，该基于用户名的数据处理方法可以由基于用户名的数据处理装置来执行，具体包括如下步骤：

步骤110，获取目标用户名信息。

其中，目标用户名信息可以是指当前所需要处理的用户名信息。用户名信息可以表示用户名，具体可以包括用户填写的各种名称信息，如可以是用户注册时填写的用户昵称、用户名字等，本实施例对此不作限制。

步骤120，从预设的名称向量库中，查找与所述目标用户名信息匹配的目标用户特征向量，所述名称向量库用于存储用户特征向量和所述用户特征向量对应的用户名信息。

具体而言，在数据挖掘过程中，本发明实施在获取到用户的用户名信息时，可以将当前获取到的用户名信息确定为目标用户名信息，并可依据该目标用户名信息在预设的名称向量库中进行查找，以在该名称向量库中查找出与该目标用户名信息相匹配的用户名信息，如可以通过判断名称向量库中存储的各个用户名信息是否与目标用户名信息是否相匹配，从而可以在该名称向量库中查找与目标用户名信息相匹配的用户名信息，并可将与目标用户名信息相匹配的用户名信息对应的用户名特征向量确定为出与目标用户名信息相匹配的目标用户特征向量，达到从名称量库中查找出与目标用户名信息相匹配的目标用户特征向量的目的，以便后续可以将该目标用户特征向量作为任务输入特征信息进行数据处理，即执行步骤130。

步骤130，将所述目标用户特征向量作为任务特征输入信息并进行数据处理，得到所述目标用户名信息对应的数据处理结果。

其中，任务特征输入信息可以是指任务的特征输入，具体可以用于执行任务，以产生数据处理结果。具体的，本实施例在查找出目标用户特征向量后，可以将该目标用户特征向量作为下游任务的特征输入，传输给下游任务使用，使得下游任务可以依据作为任务特征输入信息的目标用户特征向量进行数据处理，产生结果信息，并可将该结果信息作为目标用户名信息对应的数据处理结果，到达依据目标用户名信息进行数据挖掘的目的。

可见，本发明实施例在获取目标用户名标注信息后，通过在名称向量库中查找与该目标用户名标注信息相匹配的目标用户特征向量，并可将查找到的目标用户特征向量作为任务特征输入信息进行数据处理，从而解决了现有技术中在用户不填写诸如年龄、性别等敏感信息时无法实现新用户冷启而导致数据挖掘准确性低的问题，提高数据挖掘的准确性。

需要说明的是，本发明实施例中的用户特征向量作为用户的一种隐式表达，具体可以用于新用户的表示和/或老用户的补充表示，在大数据挖掘过程利用该用户特征向量进行数据处理，提高数据挖掘的准确性。

在实际处理中，相似用户之间的行为内容通常具有一定的共性，如偏好美妆类视频通常为青年女性用户，而青少年用户对卡通类视频的喜欢会高于成年人，这种对不同视频类型的偏好可以体现在用户不同的属性上，如可以体现在诸如用户性别、用户所属的国家、用户昵称等用户属性上。因此，可以利用大量已知属性用户的内容消费数据进行建模学习，以学习出不同属性的用户特征向量，使得用户特征向量可以反作用于诸如内容推荐等业务场景，如利用大量已知属性用户的内容消费数据可以建模学习不同属性的用户embedding表达，这些embedding数据可以反作用于内容推荐等场景，从而可以提高这些业务场景的数据挖掘准确性。其中，作为用户特征向量的用户embedding，具体可以是用户向量化的一种，即可用一个低维稠密的向量来表示一个用户，通常这个向量的距离可以反映用户之间的相似性。

在上述实施的基础上，可选的，本发明实施例提供的基于用户名的数据处理方法在获取用户名信息之前，还可以包括：依据历史用户的消费视频数据，确定各视频属性对应的视频组；针对每一个视频属性对应的视频组，依据所述视频组对应的用户名信息随机生成用户名序列；通过预设的文本分类模型对所述用户名序列进行训练，得到所述用户名序列对应的用户特征向量；将所述用户特征向量和所述用户特征向量对应的用户名信息存储至名称向量库。其中，历史用户可以包括已知属性的用户，如可以是已知诸如性别、年龄、昵称等属性的用户；历史用户的消费视频数据可以指历史用户支付一定费用或资源后所观看的视频。

参照图2，示出了本发明一个可选实施例中的一种基于用户名的数据处理方法的步骤流程示意图，该基于用户名的数据处理方法可以包括如下步骤：

步骤210，依据历史用户的消费视频数据，确定各视频属性对应的视频组。

在实际处理中，本实施例可以通过收集历史用户的消费视频数据，来确定出不同视频属性对应的视频组，以便后续可以依据不同视频组对应的用户名序列生成不同的用户特征向量。进一步而言，本发明实施例依据历史用户的消费视频数据，确定各视频属性信息对应的视频组，具体可以包括：收集历史用户的消费视频数据；从所述消费视频数据中提取出热门视频数据；依据视频属性对所述热门视频数据进行划分，得到各视频属性对应的视频组，所述视频组包含至少一个热门视频数据。其中，热门视频数据可以表示热门视频，如可以表示播放次数比较多的热门视频；视频属性可以表示视频的属性，该视频属性可以是指通过人工或者一定算法得到的有关视频内容风格等标签数据，如视频属性可以分为美妆类视频属性、卡通类视频属性，赛车类视频属性等，本实施例对此不作具体限制。

具体的，本实施数据在数据准备阶段，可以收集历史用户的消费视频数据，并可从收集到的消费视频数据中筛选出热门视频数据，然后可根据视频属性将筛选出的热门视频数据划分到不同的视频组中。需要说明的是，视频组可以包括同一视频属性所对应的所有视频，如可以包括某一个视频属性对应的一个或多个视频，本实施例对此不作具体限制。

作为本发明的一个示例，在数据准备阶段，可以选取一段时间内的用户消费视频内容数据，以作为收集到的历史用户的消费视频数据，随后可从这段时间内的用户消费视频内容数据中筛选出播放次数比较高的热门视频数据，即从收集到的消费视频数据中筛选出热门视频数据，然后可根据视频的属性将筛选出的热门视频数据的视频标识video_id划分到不同的视频组标识数组video_group_id[]中，即根据视频属性对筛选出的热门视频数据进行划分，以将筛选出的热门视频数据划分到其所属视频属性对应的视频组中。其中，视频组标识数组video_group_id[]可以包含一个视频标识，即一个热门视频可以自成一个视频组；当然，视频组标识数组video_group_id[]也可以包含多个视频标识，即多个热门视频可以组成一个视频组，本实施例对视频组中所包含的视频数量不作具体限制。

步骤220，针对每一个视频属性对应的视频组，依据所述视频组对应的用户名信息随机生成用户名序列。

在具体实现中，本发明实施例在划分出不同视频属性对应的视频组后，可以针对每一个视频属性对应的视频组，按照随机游走方式，采用视频组对应的用户名信息生成用户名序列。其中，视频组对应的用户名信息可以包括播放过视频组中所包含的视频数据的用户的用户名信息，如在视频组中所包含的视频为播放次数比较多的热门视频数据时，视频组对应的用户名信息可以是播放过该视频组中所包含的热门视频数据的用户的用户名信息。

可选的，本发明实施例依据所述视频组对应的用户名信息随机生成用户名序列，具体可以包括：基于同一视频组中各热门视频数据的用户名信息，生成用户名集合；基于所述用户名集合中的用户名信息和预设的序列长度阈值，生成所述视频组对应的用户名序列。

具体而言，本发明实施例可以对同一视频组下的热门视频数据有过诸如点赞、转发、评论、关注等行为的用户聚合一起，并提取出聚合后的用户的用户名信息，以依据提取到的用户名信息生成该视频组对应的用户名集合。例如，结合上述示例，可以对同一视频组标识数组video_group_id[]中所包含的视频标识video_id对应的视频有过诸如点赞/转发/评论/关注等高阶行为的用户聚合一起，并可提取用户昵称，然后可以将提取到的用户昵称作为视频用户名存放到一个集合中，并可将该集合作为视频组对应的用户名集合，以便后续可以依据该视频组对应的用户名集合生成对应的用户名序列。

当然，本发明实施例还可以采用其他方式生成视频组对应的用户名集合，如在对同一视频组下的热门视频数据有过高阶行为的用户聚合一起后，可根据每个用户在该视频组下的行为丰富度生成每个用户的用户名权重数据，以结合用户名权重数据，采用提取到的用户名信息生成视频组对应的用户名集合等，本实施例对此不作具体限制。

进一步而言，本发明实施例基于同一视频组中各热门视频数据的用户名信息，生成用户名集合，具体可以包括：对同一视频组中各热门视频数据的用户名信息进行聚合，得到初始用户名集合，所述初始用户名集合包括至少一个视频用户名；针对所述初始用户名集合中的每一个视频用户名，依据视频用户在所述同一视频组中的行为丰富度信息生成对应的用户名权重数据，所述视频用户为所述视频用户名对应的用户；基于所述初始用户名集合和所述初始用户名中各视频用户名对应的用户名权重数据，生成所述视频组对应的用户名集合。其中，行为丰富度信息可以表示用户在视频组中的行为丰富度，具体可以根据用户在视频组中的行为类型和行为次数来确定，如可以根据用户在该视频组中的点赞次数、转发次数、关注次数等进行加权统计确定，本实施例对此不作具体限制。

具体的，本发明实施例可以通过对同一视频组的热门视频数据有过诸如点赞、转发、评论或转发等高阶行为的用户进行聚合，得到观看过该视频组中的视频的用户，随后可提取观看过该视频组中的视频的各个用户的用户名信息，以采用提取到的用户名信息形成该视频组对应的初始用户名集合，并可根据各个用户在当前视频组中的行为丰富度生成各个用户的用户名权重数据，随后可结合各个用户的用户名权重数据，采用各个用户的用户名信息生成一个集合，以作为视频组对应的用户名集合，其中，初始用户名集合中的视频用户可以用于表示观看过视频组中的一个或多个视频的用户。

例如，在提取出同一视频组的视频相关的所有用户后，可以根据同一视频组的视频相关的所有用户的用户昵称进行聚合，生成昵称集合{name1,name2，name3，…}，以作为视频组对应的初始用户名集合，并可根据用户在当前视频组中的行为丰富度信息(如行为次数等)生成用户昵称权重，以作为用户名权重数据，如生成的用户昵称权重可以分别标记为name1_weight,name2_weight,name2_weight…，以便后续可以根据用户昵称权重生成该视频组对应的用户名集合，从而使得该用户名集合中权重高的用户昵称更容易被挑选到用户名序列中。可选的，可以按照用户昵称权重对初始用户名集合中的用户昵称进行复制，并可将复制得到的用户昵称添加到初始用户名集合中，形成新的集合，以作为视频组对应的用户名集合。需要说明的是，复制后的用户昵称的个数与该用户昵称权重可以成正比例关系，如在视频组对应的初始用户名集合为{name1,name2，name3}，且该初始用户名集合中的第一个视频用户的用户昵称权重name1_weight为20％，第二个视频用户的用户昵称权重name2_weight为40％，第三个视频用户的用户昵称权重name3_weight为40％时，可以基于这三个用户昵称权重对第二个视频用户的用户昵称name2和第三个视频用户的用户昵称name3进行复制，并将复制后得到第二个视频用户的用户昵称和复制后的第三个视频用户的用户昵称添加到初始用户名集合中，形成视频组对应的用户名集合{name1,name2，name3，name2，name3}，使得第二个视频用户的用户昵称name2的个数为2，以及第三个视频用户的用户昵称name3的个数为2。

本发明实施例在生成视频组对应的用户名集合后，可以基于该用户名集合中的用户名信息和预设的序列长度阈值，通过随机游走(Random Walk)的方式生成视频组不同的用户名序列。其中，序列长度阈值可以表示序列最大长度，且该序列长度阈值可以根据业务需求进行设置，如在序列长度阈值记录为max_length时，可以将该max_length的值设置为15，以将序列长度阈值设置为15，本实施例对此不作限制。

可选的，上述基于所述用户名集合中的用户名信息和预设的序列长度阈值，生成所述视频组对应的用户名序列，具体可以包括：从所述用户名集合中随机挑选一个用户名信息，并将挑选到的用户名信息添加到新建名称序列中；判断所述新建名称序列的序列长度是否达到所述序列长度阈值；若所述新建名称序列的序列长度没有达到所述序列长度阈值，则继续从所述用户名集合中随机挑选用户名信息并将挑选到的用户名信息添加到所述新建名称序列中，直到所述新建名称序列的序列长度达到所述序列长度阈值；当所述新建名称序列的序列长度达到所述序列长度阈值，将所述新建名称序列确定为所述视频组对应的用户名序列。

进一步而言，本发明实施例在生成视频组对应的用户名集合后，可以根据该用户名集合的用户名数量，确定每个视频组生成最大序列数量，以便后续可以基于每个视频组的最大序列数量生成视频组不同的用户名序列。可选的，本发明实施例提供的基于用户名的数据处理方法，在将所述新建名称序列确定为所述视频组对应的用户名序列之后，还可以包括：对所述视频组对应的用户名序列进行统计，得到所述视频组的用户名序列数量；判断所述视频组的用户名序列数量是否达到预设的序列数量阈值；若所述视频组的用户名序列数量没有达到所述序列数量阈值，则继续基于所述用户名集合中的用户名信息和预设的序列长度阈值，生成所述视频组对应的用户名序列。其中，用户名数量可以用于表示用户名集合的集合大小，具体可以是指用户名集合中所包含的用户名的数量，如在用户名集合为{name1,name2，name3，name2，name3}时，用户名集合的用户数量为5；又如，在用户名集合为{name1,name2，name3}时，用户名集合的用户数量为3。序列数量阈值可以用于表示每个视频组能够生成的最大序列数量，可以根据视频组对应的用户名集合的集合大小进行设置，本实施例对此不作具体限制。

作为本发明的一个示例，在用户昵称集合的用户名数量为昵称集合大小name_list_length时，可以将每个视频组生成最大序列数量max_walk_nums设置为昵称集合大小name_list_length与调节参数的乘积(即max_walk_nums＝name_list_length*调节参数)，作为视频组对应的序列长度阈值max_length，随后可基于该序列长度阈值从用户名集合中挑选用户名信息，以生成视频组对应的用户名序列。其中，调节参数可以根据实际情况设置，如可以设置为0.5等，本示例对此不作具体限制。

具体而言，在确定出每个视频组生成最大序列数量max_walk_nums后，可以新生成昵称序列，并可将新生成的昵称序列初始化为空序列，即生成新建昵称序列，然后可从用户昵称集合中随机挑选一个昵称进入到新建昵称序列中，随后可判断昵称序列长度是否达序列最大长度max_length，即判断新建昵称序列的序列长度是否达到序列长度阈值；若昵称序列长度小于达序列最大长度max_length，即在新建名称序列的序列长度没有达到序列长度阈值时，则重复执行从用户昵称集合中随机挑选一个昵称进入到新建昵称序列中的步骤，直到新建名称序列的序列长度达到序列长度阈值。若昵称序列长度等于达序列最大长度max_length，即在新建名称序列的序列长度达到序列长度阈值时，则可以将新建昵称序列确定为视频组对应的用户名序列，并可判断该昵称序列数量是否达到最大序列数量max_walk_nums，即判断视频组的用户名序列数量是否达到预设的序列数量阈值。若昵称序列数量小于最大序列数量max_walk_nums，即在视频组的用户名序列数量没有达到序列数量阈值，则可以重复执行生成新建昵称序列和从用户昵称集合中随机挑选昵称进入到新建昵称序列中的步骤，以继续执行生成视频组对应的昵称序列，直到该视频组的昵称序列数量等于最大序列数量max_walk_nums，即继续基于用户名集合中的用户名信息和序列长度阈值生成该频组对应的用户名序列，直到视频组对应的用户名序列数量达到序列数量阈值。若昵称序列数量等于最大序列数量max_walk_nums，即在视频组对应的用户名序列数量达到序列数量阈值时，则可以提取下一个视频组相关的用户，以根据下一个所述视频组对应的用户名信息随机生成用户名序列，直到完成所有视频组对应的用户名序列的生成。

步骤230，通过预设的文本分类模型对所述用户名序列进行训练，得到所述用户名序列对应的用户特征向量。

具体而言，本实施例在视频组对应的用户名序列生成后，可以利用预先设置的文本分类模型，如快速文本(FastText)模型等，根据生成的用户名序列训练生成对应的用户特征向量。其中，预先设置的文本分类模型可以将用户名序列中的用户名信息拆解为Ngram形式，然后分别训练得到所有Ngram的特征向量，以作为用户名序列对应的用户特征向量。需要说明的是，FastText模型可以是一种开源的一个词向量计算和文本分类工具，在词向量训练上可以引入了N-gram特征，以更好解决词顺序丢失问题。

步骤240，将所述用户特征向量和所述用户特征向量对应的用户名信息存储至名称向量库。

具体的，本发明实施例在得到用户名序列对应的用户特征向量后，可以构建用户特征向量与该用户名序列中所包含的各个用户名信息之间的对应关系，然后可基于用户特征向量与用户名序列中所包含的各个用户名信息之间的对应关系，将该用户特征向量和其所对应的用户名信息关联存储到名称向量库中，以便后续在获取到用户的用户名信息时可以依据该用户名信息在名称向量库进行匹配，从而可以匹配出该用户名信息对应的用户特征向量，即当前获取到的用户的用户名信息作为目标用户名信息，以依据目标用户名信息在存储有用户特征向量和用户特征向量的名称向量库中进行查找，从而查找出与该目标用户名信息。

步骤250，获取目标用户名信息。

具体的，本发明实施例在获取到用户的用户名信息时，可以将该用户名信息确定为目标用户名信息，以依据该目标用户名信息在预设的名称向量库中进行查找，即执行步骤260。

步骤260，从名称向量库中，查找与目标用户名信息匹配的目标用户特征向量。

其中，名称向量库用于存储用户特征向量和所述用户特征向量对应的用户名信息。可选的，本发明实施例从预设的名称向量库中，查找与所述目标用户名信息匹配的目标用户特征向量，具体可以包括如下子步骤：

子步骤2601，依据所述目标用户名信息中的字符信息，确定目标名信息；

子步骤2602，从所述名称向量库中查找与目标名信息相匹配的用户特征向量；

子步骤2603，基于查找到的用户特征向量，确定所述目标用户特征向量。

具体而言，本发明实施例在获取到目标名信息后，可以对该目标名信息进行数据清洗，以剔除该目标名信息中不符合预设字符格式的字符信息，得到符合预设字符格式的字符信息，从而可以基于符合预设字符格式的字符信息确定出一个或多个目标名信息。进一步的，本发明实施例依据所述目标用户名信息中的字符信息，确定目标名信息，可以包括：从所述目标用户名信息中提取符合预设字符格式的字符信息；依据提取到的字符信息确定至少一个目标名信息。

作为本发明的一个可选示例，可以通过对获取到的目标用户名信息进行数据清洗，去除用户名信息中含有的表情或者其他特殊字符内容，并可进行字符统一码规划，如字母小写等处理，得到预设字符格式的字符信息，以作为从目标用户名信息中提取符合预设字符格式的字符信息，然后可依据预设字符格式的字符信息进行划分，以将划分后得到的字符信息对应的用户名确定为目标名信息。例如，在获取到的用户昵称为“*MEREL@INaa#”，在通过数据清洗后可以得到符合预设字符格式的字符信息“merelinaa”，随后可通过该字符信息“merelinaa”进行划分，得到两个目标名信息，分别为“merel”和“inaa”；又如，通过对获取到的用户昵称“*Ruby*”进行数据清洗，得到预设字符格式的字符信息“ruby”，并可该字符信息“ruby”确定为目标名信息等。

本发明实施例在确定出目标名信息后，可以依据该目标名信息在名称向量库中进行查找匹配，以查找出与该与目标名信息相匹配的用户特征向量。可选的，上述从所述名称向量库中查找与目标名信息相匹配的用户特征向量，具体可以包括：针对每一个目标名信息，检测所述名称向量库中是否存在与所述目标名信息相同的用户名信息；若所述名称向量库中存在与所述目标名信息相同的用户名信息，则从所述名称向量库中，提取相同的用户名信息对应的用户特征向量，以作为与所述目标名信息相匹配的用户特征向量。

随后，可基于查找到的与目标名信息相匹配的用户特征向量确定出目标用户特征向量。例如，可以根据目标名信息与目标用户名信息之间的相似匹配度，确定出各目标名信息所匹配的用户特征向量与目标用户名信息之间的匹配度，进而可以结合各个用户特征向量与目标用户名信息之间的匹配度，确定出与目标用户名信息匹配的目标用户特征向量。

步骤270，将所述目标用户特征向量作为任务特征输入信息并进行数据处理，得到所述目标用户名信息对应的数据处理结果。

具体的，本发明实施例在得到与用户名信息对应的目标用户特征向量后，可以将该目标用户特征向量作为任务特征输入信息，以输入到下游任务中，使得下游任务可以依据该用户特征向量进行数据处理。进一步而言，本发明实施例将所述目标用户特征向量作为任务特征输入信息并进行数据处理，得到所述目标用户名信息对应的数据处理结果，具体可以包括：将所述目标用户特征向量作为任务特征输入信息，并传输给任务执行模块，其中，所述任务执行模块用于依据所述任务特征输入信息进行数据处理；将所述结果信息确定为所述目标用户名信息对应的数据处理结果。

例如，如图3所示，在获取到用户的昵称信息后，可以将该用户的昵称信息作为目标用户信息，以依据该用户的昵称信息在作为名称向量库的昵称向量库中，查找该用户的昵称信息对应的用户特征向量，随后可直接将该查找到的用户特征向量作为下游任务的特征输入，即将查找到的用户特征向量作为任务特征输入信息，传输给下游任务使用，即将用户特征向量作为任务特征输入信息传输给任务执行模块，使得任务执行模块可以依据该用户特征向量进行数据处理，产生结果信息，并可将该结果信息作为用户的昵称信息对应的数据处理结果进行反馈，以完成任务处理。可见，本示例可以在利用用户注册填写的昵称信息进行一种大数据的隐式挖掘，生成用户特征向量，以作为用户的一种隐式表达，该用户特征线路可用于新用户的表示或者老用户的补充表示，解决了现有技术中在用户不填写诸如年龄、性别等敏感信息时无法实现新用户冷启的问题。

综上，本发明实施例可以利用用户最基础的用户名信息，如用户注册时填写的昵称信息，学习得到的用户特征向量表示用户，且该用户特征向量可以用于新用户或者不活跃用户基础画像或者兴趣推荐等下游任务，使得下游任务可以使用用户名信息对应的用户特征向量，即下游任务可以依据用户名信息对应的用户特征向量进行数据挖掘，提高数据挖掘的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。

参照图4，示出了本发明实施例中的一种基于用户名的数据处理装置的结构框示意图，该基于用户名的数据处理装置具体可以包括如下模块：

用户名信息获取模块410，用于获取目标用户名信息；

用户特征向量匹配模块420，用于从预设的名称向量库中，查找与所述目标用户名信息匹配的目标用户特征向量，所述名称向量库用于存储用户特征向量和所述用户特征向量对应的用户名信息；

数据处理模块430，用于将所述目标用户特征向量作为任务特征输入信息并进行数据处理，得到所述目标用户名信息对应的数据处理结果。

在上述实施例的基础上，可选地，本实施例中的基于用户名的数据处理装置还可以包括如下模块：

视频组确定模块，用于依据历史用户的消费视频数据，确定各视频属性对应的视频组；

用户名序列生成模块，用于针对每一个视频属性对应的视频组，依据所述视频组对应的用户名信息随机生成用户名序列；

用户名序列训练模块，用于通过预设的文本分类模型对所述用户名序列进行训练，得到所述用户名序列对应的用户特征向量；

用户特征向量存储模块，用于将所述用户特征向量和所述用户特征向量对应的用户名信息存储至所述名称向量库。

例如，视频组确定模块在用户名信息获取模块获取用户名信息之前，可以依据历史用户的消费视频数据，确定各视频属性对应的视频组，从而使得用户名序列生成模块可以针对每一个视频属性对应的视频组，依据所述视频组对应的用户名信息随机生成用户名序列，进而使得用户名序列训练模块可以通过预设的文本分类模型对所述用户名序列进行训练，得到所述用户名序列对应的用户特征向量，随后可通过用户特征向量存储模块将所述用户特征向量和所述用户特征向量对应的用户名信息存储至所述名称向量库，以便后续用户特征向量匹配模块在用户名信息获取模块获取到目标用户名信息时从该名称向量库中查找出与目标用户名信息匹配的目标用户特征向量。

在本发明的一个可选实施例中，视频组确定模块可以包括如下子模块：

视频数据收集子模块，用于收集历史用户的消费视频数据；

视频数据提取子模块，用于从所述消费视频数据中提取出热门视频数据；

视频数据划分子模块，用于依据视频属性对所述热门视频数据进行划分，得到各视频属性对应的视频组，所述视频组包含至少一个热门视频数据。

在本发明的一个可选实施方式，用户名序列生成模块可以包括如下子模块：

用户名集合生成子模块，用于基于同一视频组中各热门视频数据的用户名信息，生成用户名集合；

序列长度阈值确定子模块，用于依据所述用户名集合的用户名数量，确定所述视频组对应的序列长度阈值；

用户名序列生成子模块，用于基于所述用户名集合中的用户名信息和预设的序列长度阈值，生成所述视频组对应的用户名序列。

在本发明的一个可选实施方式，用户名序列生成子模块可以包括如下单元：

用户名随机挑选单元，用于从所述用户名集合中随机挑选一个用户名信息，并将挑选到的用户名信息添加到新建名称序列中；

序列长度判断单元，用于判断所述新建名称序列的序列长度是否达到所述序列长度阈值；

挑选触发单元，用于在所述新建名称序列的序列长度没有达到所述序列长度阈值时，触发所述用户名随机挑选单元继续从所述用户名集合中随机挑选用户名信息并将挑选到的用户名信息添加到所述新建名称序列中，直到所述新建名称序列的序列长度达到所述序列长度阈值；

用户名序列确定单元，用于在所述新建名称序列的序列长度达到所述序列长度阈值时，将所述新建名称序列确定为所述视频组对应的用户名序列。

可选的，本发明实施例中的用户名序列生成模块还可以包括如下子模块：

用户名序列统计子模块，用于在所述用户名序列确定单元将所述新建名称序列确定为所述视频组对应的用户名序列之后，对所述视频组对应的用户名序列进行统计，得到所述视频组的用户名序列数量；

用户名序列数量判断子模块，用于判断所述视频组的用户名序列数量是否达到预设的序列数量阈值；若所述视频组的用户名序列数量没有达到所述序列数量阈值，则触发所述用户名序列生成子模块继续基于所述用户名集合中的用户名信息和预设的序列长度阈值，生成所述视频组对应的用户名序列。

可选的，本发明实施例中的用户名集合生成子模块可以包括如下单元：

用户名聚合单元，用于对同一视频组中各热门视频数据的用户名信息进行聚合，得到初始用户名集合，所述初始用户名集合包括至少一个视频用户名；

用户名权重确定单元，用于针对所述初始用户名集合中的每一个视频用户名，依据视频用户在所述同一视频组中的行为丰富度信息生成对应的用户名权重数据，所述视频用户为所述视频用户名对应的用户；

用户名集合生成单元，用于基于所述初始用户名集合和所述初始用户名中各视频用户名对应的用户名权重数据，生成所述视频组对应的用户名集合。

可选的，本实施例中的用户特征向量匹配模块420可以包括如下子模块：

目标名信息确定子模块，用于依据所述目标用户名信息中的字符信息，确定目标名信息；

用户特征向量查找子模块，用于从所述名称向量库中查找与目标名信息相匹配的用户特征向量；

目标用户特征向量确定子模块，用于基于查找到的用户特征向量，确定所述目标用户特征向量。

可选的，本实施例中的目标名信息确定子模块可以包括如下单元：

字符信息提取单元，用于从所述目标用户名信息中提取符合预设字符格式的字符信息；

目标名信息确定单元，用于依据提取到的字符信息确定至少一个目标名信息。

可选的，本实施例中的用户特征向量查找子模块可以包括如下单元：

用户名信息检测单元，用于针对每一个目标名信息，检测所述名称向量库中是否存在与所述目标名信息相同的用户名信息；

用户特征向量提取单元，用于在所述名称向量库中存在与所述目标名信息相同的用户名信息时，从所述名称向量库中，提取相同的用户名信息对应的用户特征向量，以作为与所述目标名信息相匹配的用户特征向量。

可选的，本发明实施例中的数据处理模块430可以包括如下子模块：

传输子模块，用于将所述目标用户特征向量作为任务特征输入信息，并传输给任务执行模块，其中，所述任务执行模块用于依据所述任务特征输入信息进行数据处理并产生结果信息；

数据处理结果确定子模块，用于将所述结果信息确定为所述目标用户名信息对应的数据处理结果。

需要说明的是，上述提供的基于用户名的数据处理装置可执行本发明任意实施例所提供的基于用户名的数据处理方法，具备执行方法相应的功能和有益效果。

在具体实现中，上述基于用户名的数据处理装置可以集成在基于用户名的数据处理设备中。该基于用户名的数据处理设备可以是两个或多个物理实体构成，也可以是一个物理实体构成，如基于用户名的数据处理设备可以是个人计算机(Personal Computer，PC)、电脑、手机、平板设备、个人数字助理、服务器、游戏控制台等。

进一步的，本发明实施例还提供一种基于用户名的数据处理设备，包括：处理器和存储器。存储器中存储有至少一条指令，且指令由所述处理器执行，使得所述基于用户名的数据处理设备执行如上述方法实施例中所述的基于用户名的数据处理方法。具体的，本实施例中的处理器可以通过运行存储在存储器的软件程序、指令以及模块，从而执行基于用户名的数据处理设备的各种功能应用以及数据处理，即实现上述基于用户名的数据处理方法。例如，处理器执行存储器中存储的一个或多个程序时，具体实现如下操作：获取目标用户名信息；从预设的名称向量库中，查找与所述目标用户名信息匹配的目标用户特征向量，所述名称向量库用于存储用户特征向量和所述用户特征向量对应的用户名信息；将所述目标用户特征向量作为任务特征输入信息并进行数据处理，得到所述目标用户名信息对应的数据处理结果。

本发明实施例还提供一种计算机可读存储介质，所述可读存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行如上述方法实施例所述的基于用户名的数据处理方法。示例性的，该基于用户名的数据处理方法包括：获取目标用户名信息；从预设的名称向量库中，查找与所述目标用户名信息匹配的目标用户特征向量，所述名称向量库用于存储用户特征向量和所述用户特征向量对应的用户名信息；将所述目标用户特征向量作为任务特征输入信息并进行数据处理，得到所述目标用户名信息对应的数据处理结果。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器等)执行本发明任意实施例所述的基于用户名的数据处理方法。

值得注意的是，上述基于用户名的数据处理装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。

上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由权利要求范围决定。

Claims

1.一种基于用户名的数据处理方法，其特征在于，包括：

获取目标用户名信息；

2.根据权利要求1所述的基于用户名的数据处理方法，其特征在于，所述获取用户名信息之前，还包括：

依据历史用户的消费视频数据，确定各视频属性对应的视频组；

针对每一个视频属性对应的视频组，依据所述视频组对应的用户名信息随机生成用户名序列；

通过预设的文本分类模型对所述用户名序列进行训练，得到所述用户名序列对应的用户特征向量；

将所述用户特征向量和所述用户特征向量对应的用户名信息存储至所述名称向量库。

3.根据权利要求2所述的基于用户名的数据处理方法，其特征在于，所述依据历史用户的消费视频数据，确定各视频属性信息对应的视频组，包括：

收集历史用户的消费视频数据；

从所述消费视频数据中提取出热门视频数据；

依据视频属性对所述热门视频数据进行划分，得到各视频属性对应的视频组，所述视频组包含至少一个热门视频数据。

4.根据权利要求3所述的基于用户名的数据处理方法，其特征在于，所述依据所述视频组对应的用户名信息随机生成用户名序列，包括：

基于同一视频组中各热门视频数据的用户名信息，生成用户名集合；

基于所述用户名集合中的用户名信息和预设的序列长度阈值，生成所述视频组对应的用户名序列。

5.根据权利要求4所述的基于用户名的数据处理方法，其特征在于，基于所述用户名集合中的用户名信息和预设的序列长度阈值，生成所述视频组对应的用户名序列，包括：

从所述用户名集合中随机挑选一个用户名信息，并将挑选到的用户名信息添加到新建名称序列中；

判断所述新建名称序列的序列长度是否达到预设的序列长度阈值；

若所述新建名称序列的序列长度没有达到所述序列长度阈值，则继续从所述用户名集合中随机挑选用户名信息并将挑选到的用户名信息添加到所述新建名称序列中，直到所述新建名称序列的序列长度达到所述序列长度阈值；

当所述新建名称序列的序列长度达到所述序列长度阈值，将所述新建名称序列确定为所述视频组对应的用户名序列。

6.根据权利要求5所述的基于用户名的数据处理方法，其特征在于，在将所述新建名称序列确定为所述视频组对应的用户名序列之后，还包括：

对所述视频组对应的用户名序列进行统计，得到所述视频组的用户名序列数量；

判断所述视频组的用户名序列数量是否达到预设的序列数量阈值；

若所述视频组的用户名序列数量没有达到所述序列数量阈值，则继续基于所述用户名集合中的用户名信息和预设的序列长度阈值，生成所述视频组对应的用户名序列。

7.根据权利要求4所述的基于用户名的数据处理方法，其特征在于，所述基于同一视频组中各热门视频数据的用户名信息，生成用户名集合，包括：

对同一视频组中各热门视频数据的用户名信息进行聚合，得到初始用户名集合，所述初始用户名集合包括至少一个视频用户名；

针对所述初始用户名集合中的每一个视频用户名，依据视频用户在所述同一视频组中的行为丰富度信息生成对应的用户名权重数据，所述视频用户为所述视频用户名对应的用户；

基于所述初始用户名集合和所述初始用户名中各视频用户名对应的用户名权重数据，生成所述视频组对应的用户名集合。

8.根据权利要求1所述的基于用户名的数据处理方法，其特征在于，所述从预设的名称向量库中，查找与所述目标用户名信息匹配的目标用户特征向量，包括：

依据所述目标用户名信息中的字符信息，确定目标名信息；

从所述名称向量库中查找与目标名信息相匹配的用户特征向量；

基于查找到的用户特征向量，确定所述目标用户特征向量。

9.根据权利要求8所述的基于用户名的数据处理方法，其特征在于，所述依据所述目标用户名信息中的字符信息，确定目标名信息，包括：

从所述目标用户名信息中提取符合预设字符格式的字符信息；

依据提取到的字符信息确定至少一个目标名信息。

10.根据权利要求9所述的基于用户名的数据处理方法，其特征在于，所述从所述名称向量库中查找与目标名信息相匹配的用户特征向量，包括：

针对每一个目标名信息，检测所述名称向量库中是否存在与所述目标名信息相同的用户名信息；

若所述名称向量库中存在与所述目标名信息相同的用户名信息，则从所述名称向量库中，提取相同的用户名信息对应的用户特征向量，以作为与所述目标名信息相匹配的用户特征向量。

11.根据权利要求1所述的基于用户名的数据处理方法，其特征在于，所述将所述目标用户特征向量作为任务特征输入信息并进行数据处理，得到所述目标用户名信息对应的数据处理结果，包括：

将所述目标用户特征向量作为任务特征输入信息，并传输给任务执行模块，其中，所述任务执行模块用于依据所述任务特征输入信息进行数据处理并产生结果信息；

将所述结果信息确定为所述目标用户名信息对应的数据处理结果。

12.一种基于用户名的数据处理装置，其特征在于，包括：

用户名信息获取模块，用于获取目标用户名信息；

13.一种基于用户名的数据处理设备，其特征在于，包括：处理器和存储器；

所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述基于用户名的数据处理设备执行如权利要求1至12任一所述的基于用户名的数据处理方法。

14.一种计算机可读存储介质，其特征在于，所述可读存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行如权利要求1至12任一所述的基于用户名的数据处理方法。