CN113535885B

CN113535885B - 基于用户昵称的年龄预测方法、装置及电子设备

Info

Publication number: CN113535885B
Application number: CN202111053027.3A
Authority: CN
Inventors: 张猛
Original assignee: Beijing Qingsongchou Information Technology Co ltd
Current assignee: Beijing Easy Yikang Information Technology Co ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2022-03-04
Anticipated expiration: 2041-09-09
Also published as: CN113535885A

Abstract

本申请提供一种基于用户昵称的年龄预测方法、装置及电子设备。该方法包括：获取第一用户昵称；将第一用户昵称进行编码，生成第一词向量；将第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量；基于预先构建的年龄分组集合，确定出目标词向量对应的第二用户昵称的年龄区间；将目标词向量对应的第二用户昵称的年龄区间确定为第一用户昵称的预测年龄区间。由于年龄相近的人群有大致相同的人生感悟、体会、追求目标等，而这些会间接的表现在用户的个性化昵称上。因此，通过昵称可以较为准确地预测出用户年龄，进而便于后续业务的有效推送。

Description

基于用户昵称的年龄预测方法、装置及电子设备

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种基于用户昵称的年龄预测方法、装置，信息推送方法、装置及电子设备。

背景技术

随着现代社交网络的蓬勃发展，很多应用程序的推送、公司业务的推送开始依赖于社交网络。

但由于目前很多网络用户不会在社交网络平台上留下自己的真实信息（如真实年龄），使得现有的推送方式无法针对用户的个人信息进行适应性推送，进而导致很多业务进行了无效的推送，同时此类无效推送还严重影响了用户的体验。

发明内容

本申请实施例的目的在于提供一种基于用户昵称的年龄预测方法、装置，信息推送方法、装置及电子设备，以通过用户的昵称准确的预测用户的年龄，进而基于预测的年龄向用户进行相关业务的推送。

本发明是这样实现的：

第一方面，本申请实施例提供一种基于用户昵称的年龄预测方法，包括：获取第一用户昵称；其中，所述第一用户昵称为待预测年龄的用户的昵称；将所述第一用户昵称进行编码，生成第一词向量；将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量；其中，所述目标词向量为所述第二词向量中与所述第一词向量相似度最高的词向量；所述第二词向量通过对第二用户昵称进行编码后获得；所述第二用户昵称为真实年龄已知的用户的昵称；基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间；其中，所述年龄分组集合包括每个所述第二用户昵称各自对应的年龄区间；将所述目标词向量对应的第二用户昵称的年龄区间确定为所述第一用户昵称的预测年龄区间。

本申请实施例提供的年龄预测方式，通过将真实年龄已知的用户的昵称进行归类，以确定各个昵称的年龄区间，并将真实年龄已知的用户的昵称进行编码形成预设的词向量库，然后将未知年龄的第一用户昵称进行编码，与预设的词向量库中的编码后的词向量进行匹配，以确定出第一用户昵称的预测年龄区间。由于年龄相近的人群有大致相同的人生感悟、体会、追求目标等，而这些会间接地表现在用户的个性化昵称上。因此，通过昵称可以较为准确地预测出用户年龄，进而便于后续业务的有效推送。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述将所述第一用户昵称进行编码，生成第一词向量，包括：将所述第一用户昵称通过Bert编码方式进行编码，生成第一词向量；其中，所述第一词向量为1*768的数组；相应的，所述第二词向量为所述第二用户昵称通过Bert编码方式进行编码获得的，所述第二词向量为1*768的数组。

在本申请实施例中，通过Bert编码以便于获取与字符所对应的词向量，同时词向量的形式为1*768的一维数组以便于后续相似度的计算。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量，包括：计算所述第一词向量的范数以及每个所述第二词向量的范数；基于所述第一词向量、所述第二词向量、所述第一词向量的范数、每个所述第二词向量的范数以及余弦相似度算法，计算所述第一词向量与每个所述第二词向量的余弦相似度；基于所述第一词向量与每个所述第二词向量的余弦相似度，确定出所述目标词向量。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量，包括：基于欧式距离算法，计算所述第一词向量与每个所述第二词向量的相似度；基于所述第一词向量与每个所述第二词向量的相似度，确定出所述目标词向量。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，每个所述第二用户昵称包括唯一的索引标识；每个所述第二用户昵称与自身通过编码后获得的第二词向量具有相同的索引标识；所述基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间，包括：基于所述目标词向量的索引标识，确定出与所述目标词向量具有相同索引标识的第二用户昵称；从所述年龄分组集合确定出与所述目标词向量具有相同索引标识的第二用户昵称的年龄区间。

在本申请实施例中，通过对每个第二用户昵称添加唯一的索引标识，使得基于索引标识可以建立第二用户昵称与第二词向量的对应关系，进而便于后续确定出目标词向量所对应的第二用户昵称。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述年龄分组集合的构建步骤包括：获取所述第二用户昵称；基于预先划分的年龄区间，将所述第二用户昵称基于各自对应的真实年龄进行归类；统计每个年龄区间中，相同的第二用户昵称出现的次数；当相同的第二用户昵称同时出现在不同的年龄区间时，将出现次数多的年龄区间作为该第二用户昵称的年龄区间；将每个年龄区间中重复的第二用户昵称进行去重处理，生成所述年龄分组集合。

由于在构建年龄分组集合时可能出现相同的昵称，为了避免相同的昵称出现在不同的分组中进而影响后续预测的准确性，因此，在构建年龄分组集合时会统计每个年龄区间中，相同的第二用户昵称出现的次数；当相同的第二用户昵称同时出现在不同的年龄区间时，将出现次数多的年龄区间作为该第二用户昵称的年龄区间；最后将每个年龄区间中重复的第二用户昵称删除，进而生成合理可靠的年龄分组集合。

第二方面，本申请实施例提供一种信息推送方法，包括：获取第一用户昵称；其中，所述第一用户昵称为待预测年龄的用户的昵称；将所述第一用户昵称进行编码，生成第一词向量；将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量；其中，所述目标词向量为所述第二词向量中与所述第一词向量相似度最高的词向量；所述第二词向量通过对第二用户昵称进行编码后获得；所述第二用户昵称为真实年龄已知的用户的昵称；基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间；其中，所述年龄分组集合包括每个所述第二用户昵称各自对应的年龄区间；将所述目标词向量对应的第二用户昵称的年龄区间确定为所述第一用户昵称的预测年龄区间；向所述待预测年龄的用户推送与所述预测年龄区间相符的推送信息。

第三方面，本申请实施例提供一种基于用户昵称的年龄预测装置，包括：第一获取模块，用于获取第一用户昵称；其中，所述第一用户昵称为待预测年龄的用户的昵称；第一编码模块，用于将所述第一用户昵称进行编码，生成第一词向量；第一计算模块，用于将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量；其中，所述目标词向量为所述第二词向量中与所述第一词向量相似度最高的词向量；所述第二词向量通过对第二用户昵称进行编码后获得；所述第二用户昵称为真实年龄已知的用户的昵称；第一确定模块，用于基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间；其中，所述年龄分组集合包括每个所述第二用户昵称各自对应的年龄区间；第一预测模块，用于将所述目标词向量对应的第二用户昵称的年龄区间确定为所述第一用户昵称的预测年龄区间。

第四方面，本申请实施例提供一种信息推送装置，包括：第二获取模块，用于获取第一用户昵称；其中，所述第一用户昵称为待预测年龄的用户的昵称；第二编码模块，用于将所述第一用户昵称进行编码，生成第一词向量；第二计算模块，用于将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量；其中，所述目标词向量为所述第二词向量中与所述第一词向量相似度最高的词向量；所述第二词向量通过对第二用户昵称进行编码后获得；所述第二用户昵称为真实年龄已知的用户的昵称；第二确定模块，用于基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间；其中，所述年龄分组集合包括每个所述第二用户昵称各自对应的年龄区间；第二预测模块，用于将所述目标词向量对应的第二用户昵称的年龄区间确定为所述第一用户昵称的预测年龄区间；推送模块，用于向所述待预测年龄的用户推送与所述预测年龄区间相符的推送信息。

第五方面，本申请实施例提供一种电子设备，包括：处理器和存储器，所述处理器和所述存储器连接；所述存储器用于存储程序；所述处理器用于调用存储在所述存储器中的程序，执行如上述第一方面实施例和/或第二方面实施例提供的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器运行时执行如上述第一方面实施例和/或第二方面实施例提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电子设备的模块框图。

图2为本申请实施例提供的一种基于用户昵称的年龄预测方法的步骤流程图。

图3为本申请实施例提供的一种年龄分组集合的构建方法的步骤流程图。

图4为本申请实施例提供的一种信息推送方法的步骤流程图。

图5为本申请实施例提供的一种基于用户昵称的年龄预测装置的模块框图。

图6为本申请实施例提供的一种信息推送装置的模块框图。

图标：100-电子设备；110-处理器；120-存储器；200-基于用户昵称的年龄预测装置；210-第一获取模块；220-第一编码模块；230-第一计算模块；240-第一确定模块；250-第一预测模块；300-信息推送装置；310-第二获取模块；320-第二编码模块；330-第二计算模块；340-第二确定模块；350-第二预测模块；360-推送模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参阅图1，本申请实施例提供的一种应用基于用户昵称的年龄预测方法及装置，和/或信息推送方法及装置的电子设备100的示意性结构框图。本申请实施例中，电子设备100可以是，但不限于服务器、计算机等。在结构上，电子设备100可以包括处理器110和存储器120。

处理器110与存储器120直接或间接地电性连接，以实现数据的传输或交互，例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。基于用户昵称的年龄预测装置和/或信息推送装置包括至少一个可以软件或固件（Firmware）的形式存储在存储器120中或固化在电子设备100的操作系统（Operating System，OS）中的软件模块。处理器110用于执行存储器120中存储的可执行模块，例如，基于用户昵称的年龄预测装置所包括的软件功能模块及计算机程序等，以实现基于用户昵称的年龄预测方法；又例如信息推送装置所包括的软件功能模块及计算机程序等，以实现基于信息推送方法。处理器110可以在接收到执行指令后，执行计算机程序。

其中，处理器110可以是一种集成电路芯片，具有信号处理能力。处理器110也可以是通用处理器，例如，可以是中央处理器（Central Processing Unit，CPU）、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific IntegratedCircuit ，ASIC）、分立门或晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。此外，通用处理器可以是微处理器或者任何常规处理器等。

存储器120可以是，但不限于，随机存取存储器（Random Access Memory，RAM）、只读存储器（Read Only Memory，ROM）、可编程只读存储器（Programmable Read-OnlyMemory，PROM）、可擦可编程序只读存储器（Erasable Programmable Read-Only Memory，EPROM），以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM）。存储器120用于存储程序，处理器110在接收到执行指令后，执行该程序。

需要说明的是，图1所示的结构仅为示意，本申请实施例提供的电子设备100还可以具有比图1更少或更多的组件，或是具有与图1所示不同的配置。此外，图1所示的各组件可以通过软件、硬件或其组合实现。

本申请实施例所提供的基于用户昵称的年龄预测方法可以应用于各类需要进行年龄预测的应用场景，例如：应用程序的推荐、公司业务的推荐等应用场景中。举例来说，假设当前需要进行应用程序的推荐，而该应用程序可能只有年轻人有需求，则，此时便可以根据用户的年龄进行针对性的推送，避免无效和不准确的推送。

进而，该年龄预测方法可以应用于涉及对应的应用场景的推荐平台，例如：应用程序的推荐平台、公司业务的推荐平台等。这些推荐平台通常具有本地的用户数据库，基于本地的用户数据库，可进行用户年龄的预测。

结合推荐平台，该年龄预测方法可以应用于推荐平台的数据处理端，该数据处理端可以是：服务器或者前端。即，该年龄预测方法对应的硬件运行环境可以是服务器、前端等，在本申请实施例中不作限定。

请参阅图2，图2为本申请实施例提供的基于用户昵称的年龄预测方法的步骤流程图，该方法应用于图1所示的电子设备100。需要说明的是，本申请实施例提供的基于用户昵称的年龄预测方法不以图2及以下所示的顺序为限制，该方法包括：步骤S101-步骤S105。

步骤S101：获取第一用户昵称。

第一用户昵称为待预测年龄的用户的昵称。例如可从待测试年龄的用户的终端中获取用户的昵称信息，但无法获取到该用户的年龄信息。第一用户昵称还可以是未填写年龄信息的用户的昵称。由于少数用户会填写虚假的年龄信息，因此，第一用户昵称也可以是指的已填写年龄信息的用户的昵称。

步骤S102：将第一用户昵称进行编码，生成第一词向量。

由于用户昵称通常为字符形式，比如汉字、符号、英文、数字等等。为了便于后续计算昵称之间的相似度，此处，将第一用户昵称进行编码，进而转换为第一词向量。

可选地，编码方式可以采用Bert编码。也即，步骤S102可具体包括：将第一用户昵称通过Bert编码方式进行编码，生成第一词向量。

其中，通过Bert编码方式形成的第一词向量可以为1*768的数组。示例性的，第一词向量为[0.1，0.4，-0.5，......，0.9，0.8，0.1]，中间的省略号省略了762个数字。

通过Bert编码以便于获取与字符所对应的词向量，同时词向量的形式为1*768的一维数组以便于后续相似度的计算。

在其他实施例中，上述的编码方式还可以采用word2vce编码，对此，本申请不作限定。由于此类编码方式已为本领域所熟知，因此，对此类编码方式的具体编码过程不作展开说明。

步骤S103：将第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量。

在将第一用户昵称进行编码，生成第一词向量后，将第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，以确定出目标词向量。其中，目标词向量为第二词向量中与第一词向量相似度最高的词向量。

上述的第二词向量通过对第二用户昵称进行编码后获得。而第二用户昵称为真实年龄已知的用户的昵称。比如，当用户进行实名认证后，则会得到用户的真实年龄信息，将已实名认证的用户的昵称作为第二用户昵称进行编码。用户的真实年龄信息也可以是用户通过终端登录应用程序直接填写的年龄信息，此外，用户的真实年龄信息还可以是当用户自主上传身份证号后，经过用户授权而具有相应用户信息获取权限的应用程序主动提取身份证号中的用户的生日信息得到的。对此，本申请不作限定。

也即，本申请实施例通过对真实年龄已知的用户的昵称进行编码进而生成预设的词向量库。需要说明的是，在上述方法的实施过程中，对第一用户昵称进行编码的方式需要与对第二用户昵称进行编码的方式相同。比如，通过Bert编码方式对第二用户昵称进行编码，生成第二词向量（第二词向量为1*768的数组），则在步骤S102中，也采用Bert编码方式对第一用户昵称进行编码，生成第一词向量（第一词向量为1*768的数组）。又比如，通过word2vce编码方式对第二用户昵称进行编码，生成第二词向量，则在步骤S102中，也采用word2vce编码方式对第一用户昵称进行编码，生成第一词向量。通过相同的编码方式，以便于进行相似度的计算。

作为一种相似度计算方式，上述步骤S103可具体包括：计算第一词向量的范数以及每个第二词向量的范数；然后基于第一词向量、第二词向量、第一词向量的范数、每个第二词向量的范数以及余弦相似度算法，计算第一词向量与每个第二词向量的余弦相似度；最后基于第一词向量与每个第二词向量的余弦相似度，确定出目标词向量。

其中，余弦相似度的计算公式为：

（1）

公式（1）中，

表示第一词向量；

表示第二词向量的集合，

中包括所有的第二词向量；

表示第一词向量的范数（由于范数为本领域所熟知的数学概念，此处不作过多阐述），

表示第二词向量的范数的集合，

中包括所有的第二词向量对应的范数；

表示余弦相似度，输出的

也为一个集合，包括第一词向量与每个第二词向量之间的相似度。

为了便于理解，以词向量为1*7的数组进行说明。

假设第一词向量为：[ 0.1，0.4，-0.5，0.9，0.8，0.1]；预设的词向量库中共有七个第二词向量。预设的词向量中七个第二词向量的集合

为：

{[ 0.1，0.4， -0.5，0.9，0.8，0.1],

[ 0.2，0.1， -0.8，0.3，0.9，0.1],

[ 0.3，0.9， -0.5，0.5，0.1，0.6],

[ 0.5，0.2， -0.7，0.7，0.6，0.3],

[ 0.4，0.7， -0.9，0.1，0.2，0.2]，

[ 0.4，0.7，-0.9，0.1，0.2，0.2],

[ 0.8，0.7， -0.1，0.4，0.7，0.9]}

计算第一词向量

的范数

得到

=1.37113092。

计算每个第二词向量的范数，得到第二词向量的范数的集合

={1.37113092，1.26491106，1.33041347，1.3114877 ，1.24498996， 1.24498996，1.61245155}。

然后，通过公式（1）输出第一词向量与每个第二词向量之间的相似度，得到集合{1，0.84180973，0.67427888，0.90089021，0.60924022，0.60924022，0.64227756}。

其中，集合中的1表示第一词向量与第一个第二词向量的相似度，0.84180973表示第一词向量与第二个第二词向量的相似度......相应的，0.64227756表示第一词向量与第七个第二词向量的相似度。显然，由于第一词向量与第一个第二词向量的相似度为最大的相似度，因此，确定出预设的词向量库中的第一个第二词向量为目标词向量。

此外，上述余弦公式中的

也可以仅表示一个第二词向量；

表示该第二词向量的范数；相应的，

表示第一词向量与该第二词向量的余弦相似度。

作为另一种相似度计算方式，上述步骤S103可具体包括：基于欧式距离算法，计算第一词向量与每个第二词向量的相似度；基于第一词向量与每个第二词向量的相似度，确定出目标词向量。

其中，欧式距离算法通过向量之间的距离来判断相似程度，由于欧式距离算法为本领域所熟知的相似度算法，此处不作过多说明。

在其他实施例中，上述的相似度计算还可以采用汉明距离算法，对此，本申请不作限定。

步骤S104：基于预先构建的年龄分组集合，确定出目标词向量对应的第二用户昵称的年龄区间。

在确定出目标词向量后，查找出与目标词向量所对应的第二用户昵称，然后基于预先构建的年龄分组集合，确定出第二用户昵称所在的年龄区间。需要说明的是，年龄分组集合包括每个第二用户昵称各自对应的年龄区间。

由于在构建年龄分组集合时可能出现相同的昵称，为了避免相同的昵称出现在不同的分组中进而影响后续预测的准确性，下面先对本申请实施例提供的一种年龄分组集合的构建过程进行说明。请参阅图3，年龄分组集合的构建具体包括：步骤S201-步骤S205。

步骤S201：获取第二用户昵称。

首先，获取一定数量的真实年龄已知的用户的昵称（即第二用户昵称）。其中，具有信息获取权限的推荐平台可以从社交平台等应用程序中获取用户信息，进而得到一定数量的真实年龄已知的用户的昵称。

于本申请实施例中，可获取两万个第二用户昵称来构建年龄分组集合。

步骤S202：基于预先划分的年龄区间，将第二用户昵称基于各自对应的真实年龄进行归类。

然后，将第二用户昵称基于各自对应的真实年龄进行归类。示例性的，预先划分的年龄区间可以分为十组：

年龄大于等于70组别为十（group_10）。

年龄大于等于60小于70组别为九（group_9）。

年龄大于等于50小于60组别为八（group_8）。

年龄大于等于45小于50组别为七（group_7）。

年龄大于等于40小于45组别为六（group_6）。

年龄大于等于35小于40组别为五（group_5）。

年龄大于等于30小于35组别为四（group_4）。

年龄大于等于25小于30组别为三（group_3）。

年龄大于等于20小于25组别为二（group_2）。

年龄大于等于10小于20组别为一（group_1）。

年龄大于等于0小于10组别为零（group_0）。

在分组后，将第二用户昵称基于各自对应的真实年龄进行归类，比如第二用户昵称为“老有所乐”，该昵称对应的用户的真实年龄为40岁，则将“老有所乐”归为group_6。又比如第二用户昵称为“我的未来”，该昵称对应的用户的真实年龄为9岁，则将“我的未来”归为group_0。

需要说明的是，上述的分组方式仅为示例，比如也可以将年龄划分为五组，八组等，每组的年龄区间也可以根据需求设定，本申请不作限定。

步骤S203：统计每个年龄区间中，相同的第二用户昵称出现的次数。

在归类后，统计每个年龄区间中，相同第二用户昵称所出现的次数。示例性的：

group_0:{“未来；我来”:1， “我就是我”：2，………}，

group_1:{“请远离我”:13， “思念变成海”：40，………}，

group_2:{“来日方长”:15， “つ微凉徒眸意浅挚半”：3，………}，

group_3:{“对方正在输入”:17， “Sunshine”：31，………}，

group_4:{“人生若只如初见”:121， “微微一笑”：32，………}，

group_5:{“老有所乐”:1， “我就是我”：30，………}，

group_6:{“海阔天空”:79， “宁静致远”：19，………}，

group_7:{“知足常乐”:97， “顺其自然”：56，………}，

group_8:{“一生快乐”:18， “蕙质兰心”：32，………}，

group_9:{“天伦之乐”:98， “老骥伏枥”：62，………}，

group_10:{“老有所乐”:30， “最美夕阳红”：2，………}。

上述示例中，“未来；我来”为group_0中的一个第二用户昵称，“未来；我来”后面的“1”表示在group_0中，“未来；我来”仅出现一次。相应的，“老有所乐”为group_10中的一个第二用户昵称，“老有所乐”后面的“30”表示在group_10中“老有所乐”出现了三十次。

步骤S204：当相同的第二用户昵称同时出现在不同的年龄区间时，将出现次数多的年龄区间作为该第二用户昵称的年龄区间。

然后，进行跨分组昵称去重，也即，当相同的第二用户昵称同时出现在不同的年龄区间时，将出现次数多的年龄区间作为该第二用户昵称的年龄区间。继续以上述示例进行说明，比如在group_5和group_0中均出现了“我就是我”这一第二用户昵称，但是在group_5中“我就是我”出现了三十次，而在group_0中“我就是我”仅出现了两次，因此，此时将“我就是我”归为group_5。而将group_0中的“我就是我”进行删除。

此外，需要说明的是，当相同的第二用户昵称同时出现在不同的年龄区间，且出现次数相同时，此时根据后续业务需求确定与该第二用户昵称所对应的年龄区间。

比如，对于保险业务场景，该场景对年龄较大的用户更为关注，保险类业务需要规避年龄大的用户，避免向他们推送保险信息。示例性的，当后续业务需求为保险业务，且当相同的第二用户昵称出现在group_6和group_1的次数相同时，将该用户昵称归为group_6。

步骤S205：将每个年龄区间中重复的第二用户昵称进行去重处理，生成年龄分组集合。

上述的去重处理具体为将每个年龄区间中重复的第二用户昵称删除，每个年龄区间中仅保留一个不相同的第二用户昵称。

最后，生成的年龄分组集合包括预先划分的年龄区间和与各个年龄区间对应的唯一的第二用户昵称。

可以理解的是，在其他实施例中，也可仅通过步骤S201、步骤S202和步骤S205来生成年龄分组集合，对此，本申请不作限定。

在步骤S103中的预设的词向量库即根据年龄分组集合中的第二用户昵称进行构建。而为了便于后续确定出目标词向量所对应的第二用户昵称，每个第二用户昵称包括唯一的索引标识；每个第二用户昵称与自身通过编码后获得的第二词向量具有相同的索引标识。相应的，上述步骤具体包括：基于目标词向量的索引标识，确定出与目标词向量具有相同索引标识的第二用户昵称；从年龄分组集合确定出与目标词向量具有相同索引标识的第二用户昵称的年龄区间。

上述的索引标识可以是将各个分组中的第二用户昵称进行排序生成，比如从group_0开始，“未来；我来”的索引标识为0001，“我就是我”的索引标识为0002......每个第二用户昵称与自身通过编码后获得的第二词向量具有相同的索引标识。如，“未来；我来”通过编码后获得的第二词向量为[0.1，0.4，-0.5，0.4，0.8，0.1]，该向量的索引标识也为0001。

当然，索引标识还可以包括字符，英文等，本申请不作限定。

步骤S105：将目标词向量对应的第二用户昵称的年龄区间确定为第一用户昵称的预测年龄区间。

最后，根据目标词向量对应的第二用户昵称的年龄区间确定出第一用户昵称的预测年龄区间。示例性的，待预测年龄的用户的昵称为“未来，我行”，根据编码后的相似度比对，确定出与该昵称相似度最高的第二用户昵称为“未来，我来”。由于“未来，我来”属于group_0，而group_0的年龄区间为大于等于0小于10，因此，第一用户昵称“未来，我行”的预测年龄区间为大于等于0小于10。

此外，需要说明的是，上述的第一用户昵称可以和第二用户昵称来源于同一社交软件。比如，通过社交软件A中已知真实年龄的第二用户昵称去预测社交软件A中的未知真实年龄的第一用户昵称对应的年龄区间。通过该方式，能够提高对第一用户昵称年龄区间预测的准确性。

当然，上述的第一用户昵称和第二用户昵称还可以来源于不同的社交软件。比如，通过社交软件A中已知真实年龄的第二用户昵称去预测社交软件B中的未知真实年龄的第一用户昵称对应的年龄区间。在社交软件B中由于缺乏用户的特征信息，而导致难以在社交软件B中针对性地且较精确地向用户推荐信息，但通过本申请可以基于社交软件A中获取到一些用户的特征信息（即已经真实年龄的第二用户昵称）来预测社交软件B中的用户的特征信息，从而可以基于预测得到的社交软件B中的用户的特征信息，来向社交软件B中的用户针对性地推荐信息，提高推荐相关度和精确度。

综上，本申请实施例提供的年龄预测方式，通过将真实年龄已知的用户的昵称进行归类，以确定各个昵称的年龄区间，并将真实年龄已知的用户的昵称进行编码形成预设的词向量库，然后将未知年龄的第一用户昵称进行编码，与预设的词向量库中的编码后的词向量进行匹配，以确定出第一用户昵称的预测年龄区间。由于年龄相近的人群有大致相同的人生感悟、体会、追求目标等，而这些会间接地表现在用户的个性化昵称上。因此，通过昵称可以较为准确地预测出用户年龄，进而便于后续业务的有效推送。此外，本申请实施例是采用已知年龄的用户的昵称进行的预测，年龄预测的准确性较高。

请参阅图4，基于同一发明构思，本申请实施例还提供一种信息推送方法，该方法也应用于图1所示的电子设备100。需要说明的是，本申请实施例提供的信息推送方法不以图4及以下所示的顺序为限制，该方法包括：步骤S301-步骤S306。

步骤S301：获取第一用户昵称。

步骤S302：将第一用户昵称进行编码，生成第一词向量。

步骤S303：将第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量。

步骤S304：基于预先构建的年龄分组集合，确定出目标词向量对应的第二用户昵称的年龄区间。

步骤S305：将目标词向量对应的第二用户昵称的年龄区间确定为第一用户昵称的预测年龄区间。

需要说明的是，上述步骤S301-步骤S305与步骤S101-步骤S105相同，为了避免累赘，此处不作赘述，相同部分互相参考即可。

步骤S306：向待预测年龄的用户推送与预测年龄区间相符的推送信息。

在得到待预测年龄的用户的预测年龄区间后，即可向该用户推送与用户年龄相符的推送信息。比如根据不同年龄段的用户推送不同的广告、新闻、产品等等，或者向某些年龄段的用户推送筹款信息、保险信息。对于推送信息的种类，本申请不作限定。

此外，需要说的是，推送与预测年龄区间相符的推送信息可以是根据预测出的用户的年龄，选择向该年龄的用户推荐某类信息或不推荐某类信息。例如对于保险业务，若预测出的用户的年龄较大的话，选择不向该用户推送保险信息，进而规避风险。

请参阅图5，基于同一发明构思，本申请实施例还提供一种基于用户昵称的年龄预测装置200，包括：

第一获取模块210，用于获取第一用户昵称；其中，所述第一用户昵称为待预测年龄的用户的昵称。

第一编码模块220，用于将所述第一用户昵称进行编码，生成第一词向量。

第一计算模块230，用于将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量；其中，所述目标词向量为所述第二词向量中与所述第一词向量相似度最高的词向量；所述第二词向量通过对第二用户昵称进行编码后获得；所述第二用户昵称为真实年龄已知的用户的昵称。

第一确定模块240，用于基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间；其中，所述年龄分组集合包括每个所述第二用户昵称各自对应的年龄区间。

第一预测模块250，用于将所述目标词向量对应的第二用户昵称的年龄区间确定为所述第一用户昵称的预测年龄区间。

可选地，第一编码模块220具体用于将所述第一用户昵称通过Bert编码方式进行编码，生成第一词向量；其中，所述第一词向量为1*768的数组。相应的，所述第二词向量为所述第二用户昵称通过Bert编码方式进行编码获得的，所述第二词向量为1*768的数组。

可选地，第一计算模块230具体用于计算所述第一词向量的范数以及每个所述第二词向量的范数；基于所述第一词向量、所述第二词向量、所述第一词向量的范数、每个所述第二词向量的范数以及余弦相似度算法，计算所述第一词向量与每个所述第二词向量的余弦相似度；基于所述第一词向量与每个所述第二词向量的余弦相似度，确定出所述目标词向量。

可选地，第一计算模块230具体用于基于欧式距离算法，计算所述第一词向量与每个所述第二词向量的相似度；基于所述第一词向量与每个所述第二词向量的相似度，确定出所述目标词向量。

可选地，每个所述第二用户昵称包括唯一的索引标识；每个所述第二用户昵称与自身通过编码后获得的第二词向量具有相同的索引标识；第一确定模块240具体用于基于所述目标词向量的索引标识，确定出与所述目标词向量具有相同索引标识的第二用户昵称；从所述年龄分组集合确定出与所述目标词向量具有相同索引标识的第二用户昵称的年龄区间。

可选地，该装置还包括构建模块。构建模块用于获取所述第二用户昵称；基于预先划分的年龄区间，将所述第二用户昵称基于各自对应的真实年龄进行归类；统计每个年龄区间中，相同的第二用户昵称出现的次数；当相同的第二用户昵称同时出现在不同的年龄区间时，将出现次数多的年龄区间作为该第二用户昵称的年龄区间；将每个年龄区间中重复的第二用户昵称进行去重处理，生成所述年龄分组集合。

请参阅图6，基于同一发明构思，本申请实施例还提供一种信息推送装置300，包括：

第二获取模块310，用于获取第一用户昵称；其中，所述第一用户昵称为待预测年龄的用户的昵称。

第二编码模块320，用于将所述第一用户昵称进行编码，生成第一词向量。

第二计算模块330，用于将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量；其中，所述目标词向量为所述第二词向量中与所述第一词向量相似度最高的词向量；所述第二词向量通过对第二用户昵称进行编码后获得；所述第二用户昵称为真实年龄已知的用户的昵称。

第二确定模块340，用于基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间；其中，所述年龄分组集合包括每个所述第二用户昵称各自对应的年龄区间。

第二预测模块350，用于将所述目标词向量对应的第二用户昵称的年龄区间确定为所述第一用户昵称的预测年龄区间。

推送模块360，用于向所述待预测年龄的用户推送与所述预测年龄区间相符的推送信息。

需要说明的是，由于所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被运行时执行上述实施例中提供的方法。

该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk(SSD)）等。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于用户昵称的年龄预测方法，其特征在于，包括：

获取第一用户昵称；其中，所述第一用户昵称为待预测年龄的用户的昵称；

将所述第一用户昵称进行编码，生成第一词向量；

将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量；其中，所述目标词向量为所述第二词向量中与所述第一词向量相似度最高的词向量；所述第二词向量通过对第二用户昵称进行编码后获得；所述第二用户昵称为真实年龄已知的用户的昵称；

基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间；其中，所述年龄分组集合包括每个所述第二用户昵称各自对应的年龄区间；

将所述目标词向量对应的第二用户昵称的年龄区间确定为所述第一用户昵称的预测年龄区间；

其中，所述将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量，包括：计算所述第一词向量的范数以及每个所述第二词向量的范数；基于所述第一词向量、所述第二词向量、所述第一词向量的范数、每个所述第二词向量的范数以及余弦相似度算法，计算所述第一词向量与每个所述第二词向量的余弦相似度；基于所述第一词向量与每个所述第二词向量的余弦相似度，确定出所述目标词向量。

2.根据权利要求1所述的年龄预测方法，其特征在于，所述将所述第一用户昵称进行编码，生成第一词向量，包括：

将所述第一用户昵称通过Bert编码方式进行编码，生成第一词向量；其中，所述第一词向量为1*768的数组；

相应的，所述第二词向量为所述第二用户昵称通过Bert编码方式进行编码获得的，所述第二词向量为1*768的数组。

3.根据权利要求1所述的年龄预测方法，其特征在于，所述将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量，包括：

基于欧式距离算法，计算所述第一词向量与每个所述第二词向量的相似度；

基于所述第一词向量与每个所述第二词向量的相似度，确定出所述目标词向量。

4.根据权利要求1所述的年龄预测方法，其特征在于，每个所述第二用户昵称包括唯一的索引标识；每个所述第二用户昵称与自身通过编码后获得的第二词向量具有相同的索引标识；

所述基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间，包括：

基于所述目标词向量的索引标识，确定出与所述目标词向量具有相同索引标识的第二用户昵称；

从所述年龄分组集合确定出与所述目标词向量具有相同索引标识的第二用户昵称的年龄区间。

5.根据权利要求1所述的年龄预测方法，其特征在于，所述年龄分组集合的构建步骤包括：

获取所述第二用户昵称；

基于预先划分的年龄区间，将所述第二用户昵称基于各自对应的真实年龄进行归类；

统计每个年龄区间中，相同的第二用户昵称出现的次数；

当相同的第二用户昵称同时出现在不同的年龄区间时，将出现次数多的年龄区间作为该第二用户昵称的年龄区间；

将每个年龄区间中重复的第二用户昵称进行去重处理，生成所述年龄分组集合。

6.一种信息推送方法，其特征在于，包括：

将所述第一用户昵称进行编码，生成第一词向量；

向所述待预测年龄的用户推送与所述预测年龄区间相符的推送信息；

7.一种基于用户昵称的年龄预测装置，其特征在于，包括：

第一获取模块，用于获取第一用户昵称；其中，所述第一用户昵称为待预测年龄的用户的昵称；

第一编码模块，用于将所述第一用户昵称进行编码，生成第一词向量；

第一计算模块，用于将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量；其中，所述目标词向量为所述第二词向量中与所述第一词向量相似度最高的词向量；所述第二词向量通过对第二用户昵称进行编码后获得；所述第二用户昵称为真实年龄已知的用户的昵称；

第一确定模块，用于基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间；其中，所述年龄分组集合包括每个所述第二用户昵称各自对应的年龄区间；

第一预测模块，用于将所述目标词向量对应的第二用户昵称的年龄区间确定为所述第一用户昵称的预测年龄区间；

其中，所述第一计算模块具体用于计算所述第一词向量的范数以及每个所述第二词向量的范数；基于所述第一词向量、所述第二词向量、所述第一词向量的范数、每个所述第二词向量的范数以及余弦相似度算法，计算所述第一词向量与每个所述第二词向量的余弦相似度；基于所述第一词向量与每个所述第二词向量的余弦相似度，确定出所述目标词向量。

8.一种信息推送装置，其特征在于，包括：

第二获取模块，用于获取第一用户昵称；其中，所述第一用户昵称为待预测年龄的用户的昵称；

第二编码模块，用于将所述第一用户昵称进行编码，生成第一词向量；

第二计算模块，用于将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算，确定出目标词向量；其中，所述目标词向量为所述第二词向量中与所述第一词向量相似度最高的词向量；所述第二词向量通过对第二用户昵称进行编码后获得；所述第二用户昵称为真实年龄已知的用户的昵称；

第二确定模块，用于基于预先构建的年龄分组集合，确定出所述目标词向量对应的第二用户昵称的年龄区间；其中，所述年龄分组集合包括每个所述第二用户昵称各自对应的年龄区间；

第二预测模块，用于将所述目标词向量对应的第二用户昵称的年龄区间确定为所述第一用户昵称的预测年龄区间；

推送模块，用于向所述待预测年龄的用户推送与所述预测年龄区间相符的推送信息；

其中，所述第二计算模块具体用于计算所述第一词向量的范数以及每个所述第二词向量的范数；基于所述第一词向量、所述第二词向量、所述第一词向量的范数、每个所述第二词向量的范数以及余弦相似度算法，计算所述第一词向量与每个所述第二词向量的余弦相似度；基于所述第一词向量与每个所述第二词向量的余弦相似度，确定出所述目标词向量。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器和所述存储器连接；

所述存储器用于存储程序；

所述处理器用于运行存储在所述存储器中的程序，执行如权利要求1-5中任一项所述的年龄预测方法，和/或执行如权利要求6所述的信息推送方法。