CN115081334A

CN115081334A - 用于预测用户的年龄段或性别的方法、系统、装置和介质

Info

Publication number: CN115081334A
Application number: CN202210768050.9A
Authority: CN
Inventors: 张长浩; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-20
Also published as: WO2024001599A1

Abstract

公开了一种用于预测用户的年龄段或性别的方法，包括：接收用户在触摸面板上的手势输入；基于手势输入生成手势信息；以及利用机器学习模型，基于手势信息来预测用户的年龄段和性别中的至少一者。还公开了用于预测用户的年龄段或性别的系统、装置和介质。

Description

用于预测用户的年龄段或性别的方法、系统、装置和介质

技术领域

本申请涉及用户信息预测，尤其涉及用于预测用户的年龄段或性别的方法、系统、装置和介质。

背景技术

用户的年龄段和性别属于重要的用户信息。然而，在许多情况下，可能用户没有提供年龄段或性别信息。在此情况下，需要对用户的年龄段或性别信息进行预测。

目前的模型通常利用用户的图像、声音或动作信息来执行预测。然而，这样的模型可能需要采集和处理更多的用户数据(有时甚至需要利用额外的传感器模块)，从而在用户隐私保护、设备成本和复杂度、设备处理能力和功耗等方面带来不利影响。

因此，需要能够高效、低成本地预测用户的年龄段和/或性别的方案。

发明内容

为了克服现有技术的缺陷，本说明书的一个或多个实施例通过利用用户的手势信息，实现了减少数据采集量、无需额外传感器的用户年龄段或性别的预测方案。

本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。

在一个方面，提供了一种用于预测用户的年龄段或性别的方法，包括：接收用户在用户设备上的触摸面板上的手势输入；基于所述用户的手势输入生成手势信息，所述手势信息包括手势事件类型、手势位置、手势持续时间、平均按压压力、平均按压面积、手势时间戳、相关联业务标识中的两者或更多者；以及利用机器学习模型，基于所述手势信息来预测所述用户的年龄段和性别中的至少一者。

优选地，所述机器学习模型利用所述手势输入的轨迹特征、时序特征和类别特征中的一者或多者来预测所述用户的年龄段和性别中的至少一者。

优选地，所述机器学习模型包括轨迹模块，所述轨迹模块用于基于手势事件类型、手势起点坐标和/或手势终点坐标来生成所述手势输入的轨迹特征编码。

优选地，所述轨迹模块用于：将所述手势事件类型、手势起点坐标和/或手势终点坐标转换为轨迹图像；以及利用基于CNN的模型，基于所述轨迹图像生成所述手势输入的轨迹特征编码。

优选地，所述机器学习模型包括时序模块，所述时序模块用于基于手势持续时间、平均按压压力、平均按压面积、和/或手势时间戳来生成所述手势输入的时序特征编码。

优选地，所述时序模块用于：基于所述手势持续时间、平均按压压力、平均按压面积、和/或手势时间戳，使用卷积算法来生成采样信息；以及将所述采样信息输入至注意力机制来生成所述手势输入的时序特征编码。

优选地，所述机器学习模型包括类别模块，所述类别模块用于：将所述手势输入的相关联业务标识进行词嵌入以生成词嵌入表示；基于所述手势信息生成一个或多个人工特征；将所述人工特征和所述词嵌入表示进行拼接，以及将拼接后的输出输入至宽神经网络模型以生成所述类别特征编码。

优选地，所述方法还包括将所述轨迹特征、时序特征和类别特征中的两者或更多者的特征编码进行拼接以生成手势特征编码。

优选地，所述方法还包括利用所述机器学习模型的多门控混合专家模块，基于所述手势信息来预测所述用户的年龄段和性别两者。

优选地，所述方法还包括：使用XGBoost模型来对用户的年龄段进行初步划分。

优选地，所述方法还包括：基于所述用户的手势信息与所述用户的体态信息、动作信息和声音信息中的一者或多者的结合来预测所述用户的年龄段和性别中的至少一者。

优选地，所述方法还包括：基于所述用户的所预测的年龄段和性别中的至少一者来确定用于所述用户的身份认证方法。

优选地，所述方法还包括：基于所述用户的所预测的年龄段和性别中的至少一者来为所述用户生成推荐。

在又一方面，提供了一种用于预测用户的年龄段或性别的系统，包括：手势输入接收模块，用于接收用户在用户设备上的触摸面板上的手势输入；手势信息生成模块，用于基于所述用户的手势输入生成手势信息，所述手势信息包括手势事件类型、手势位置、手势持续时间、平均按压压力、平均按压面积、手势时间戳、相关联业务标识中的两者或更多者；以及预测模块，用于利用机器学习模型，基于所述手势信息来预测所述用户的年龄段和性别中的至少一者。

优选地，所述机器学习模型包括轨迹模块、时序模块、类别模块中的一者或多者。

在又另一方面中，提供了一种用于预测用户的年龄段或性别的装置，包括：存储器；以及处理器，该处理器被配置成执行如上述方法。

在又另一方面中，提供了一种存储指令的计算机可读存储介质，该指令当被计算机执行时，使该计算机执行上述方法。

与现有技术相比，本说明书的一个或多个实施例能够实现以下技术效果中的一者或多者：

不依赖于额外的传感器和/或对额外信息的收集；

更好地保护用户隐私；

使得用户设备的成本更低；

适用范围更广；和/或

减少了对处理器的占用、提升了系统性能，减少了功耗。

需要理解，本说明书的一个或多个实施例实现的技术效果不限于以上各项，且本说明书的一个或多个实施例无需实现以上全部技术效果。

附图说明

以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是，附图仅作为所请求保护的发明的示例。在附图中，相同的附图标记代表相同或类似的元素。

图1A示出根据本说明书实施例的用户的数据量的示例示意图。

图1B示出采用机器学习模型对图1A中的用户进行初步年龄段划分的召回率。

图2示出根据本说明书实施例的手势信息的数据结构的示例。

图3示出根据本说明书的优选实施例的用于预测用户的年龄段和/或性别的机器学习模型的架构的框图。

图4示出根据本说明书实施例的轨迹模块的示例结构的示意框图。

图5示出根据本说明书实施例的将轨迹信息转换为轨迹图像的示例示意图。

图6示出根据本说明书实施例的时序模块的示例结构的示意框图。

图7示出根据本说明书实施例的类别模块的示例结构的示意框图。

图8示出根据本说明书实施例的分类模块的示例结构的示意框图。

图9示出根据本说明书实施例的用于预测用户的年龄段或性别的示例方法的流程图。

图10示出根据本说明书实施例的用于预测用户的年龄段或性别的示例系统的示意框图。

图11示出用于实现根据本说明书一个或多个实施例的方法的装置的示意框图。

具体实施方式

以下具体实施方式的内容足以使任何本领域技术人员了解本说明书的一个或多个实施例的技术内容并据以实施，且根据本说明书所揭露的说明书、权利要求及附图，本领域技术人员可轻易地理解本说明书的一个或多个实施例相关的目的及优点。

为了对用户的模型进行预测，近年来，机器学习模型被越来越多地采用。机器学习模型将利用某一种或多种类型的数据(例如用户数据)来预测用户的年龄段或性别。

在一种方案中，机器学习模型可使用用户的体态数据来预测用户的年龄段或性别。

用户的体态数据例如可包括用户在步行时的手部动作信息、臀部动作信息、手臂动作信息、腕部动作信息、胸部动作信息等。可以想象，不同年龄段的用户(例如老人、年轻人和儿童)的体态可能有所区别，不同性别的用户的体态也可能有所区别。因此，通过利用多个用户的体态数据对机器学习模型进行训练，能够得到基于体态数据来预测用户的年龄段或性别的机器学习模型。

然而，用户的体态数据通常需要通过加速度计和陀螺仪等传感器来采集。因此，要收集用户的体态数据，不仅需要用户设备上具有上述传感器，而且需要用户授权来使用上述传感器收集信息，还需要处理器处理能力并且需要消耗电力来执行数据采集和对所采集的数据进行处理。

在另一种方案中，机器学习模型可使用用户的声音数据来预测用户的年龄段或性别。

用户的声音数据例如可包括用户的语音数据。声音数据是常见的可用于对用户画像的数据类型。在一个示例中，可以通过引导用户说出特定语句，以提升预测准确度。在替代示例中，可通过随机采集的用户声音来执行预测。可以理解，不同年龄段以及不同性别的用户的声音具有各自的特征，因此通过声音数据可以预测用户的年龄段和/或性别。可采用各种机器学习模型来执行预测，例如深度学习语音网络。

类似地，用户的声音数据通常需要通过麦克风(例如智能手机等用户设备中的内置麦克风)等专用元件来采集。同样地，这要求用户设备具有麦克风，需要用户授权来使用麦克风收集声音，还需要处理器处理能力并且需要消耗电力来执行数据采集和对所采集的数据进行处理。

在又一种方案中，机器学习模型可使用用户的动作数据来预测用户的年龄段或性别。

用户的动作数据例如可包括用户的空中书写动作、眼球运动、摇晃运动、自由运动等各种可设想的动作数据。用户的动作数据通常可通过图像采集设备(例如摄像头)来采集，这与上文中由加速度计和陀螺仪采集的体态数据不同。可以理解，不同年龄段以及不同性别的用户的动作具有各自的特征(例如在动作频率、动作幅度、动作习惯等方面)，因此通过动作数据可以预测用户的年龄段和/或性别。可采用各种机器学习模型来执行预测，例如各种图像处理模型。

类似地，用户的动作数据通常需要通过图像采集设备(例如摄像头)等专用元件来采集。同样地，这要求用户设备具有图像采集设备，需要用户授权来使用该设备捕捉用户图像，还需要处理器处理能力并且需要消耗电力来执行数据采集和对所采集的数据进行处理。

可以看出，在上文中，通常需要专门的传感器或数据采集元件来采集相应的数据，从而在设备成本、用户隐私、设备性能和功耗影响方面带来不利影响。

针对上述问题，发明人创造性地认识到，不同年龄段、性别的用户可能在手势行为习惯上也存在区别。例如，老年人的操作频率通常较慢；儿童、女性的按压压力通常较小；不同年龄段、性别的用户所点击的业务也常常有所不同。

因此，本说明书实施例提供了采用手势数据来预测用户的年龄段和/或性别的方案。此方案不仅提出了现有技术中未曾发现的可用于预测用户的年龄段和/或性别的思路，而且相对于现有方案解决了上述问题。

为了预测用户的年龄段，可首先划分年龄段。年龄段的划分有许多方式，例如，可采用以下几种年龄段划分方案：

方案一：6-10岁、10-20岁、20-30岁、30-40岁、40-50岁、50-60岁、60岁以上；

方案二：6-20岁、20-50岁、50岁以上；

方案三：6-40岁、40岁-60岁、60岁以上；

等等。

可以领会，不同的年龄段划分方案也可能影响机器学习模型在预测年龄段时的表现。例如，如果将不具有显著统一特征的年龄范围划分为一个年龄段，可能对年龄段的预测带来不利影响。

在通常情况下，可基于经验来划分年龄段。例如，可由开发者和/或预测系统的使用者基于其经验或历史数据来设置用户的年龄段。然而，基于主观经验来划分年龄段可能无法实现最合理的年龄段划分。

在本说明书的优选示例中，可首先利用机器学习模型对用户的年龄段进行划分，从而将特征更加统一、突出的年龄范围划分到相同的年龄段，以便在后续预测过程中提升系统表现。

图1A示出根据本说明书实施例的用户的数据量的示例示意图。在图1A中，横轴表示年龄(以岁数计算)，而纵轴表示该年龄的用户的数据量，该数据量以数据点的数量(条数)来计算，表示该用户的可用数据条数。该数据量例如可以来自测试数据集。

如图1A所示，由于数据的可用性，在6岁以下以及65岁之后的用户的数据量较少，而中间范围(尤其是20-40岁)的用户的数据量较大。

图1B示出采用机器学习模型对图1A中的用户进行初步年龄段划分的召回率。在图1B中，横轴表示年龄(以岁数计算)，而纵轴表示通过机器学习模型进行预测得到的年龄段的召回率。

该机器学习模型例如可以是已知的任何机器学习模型，例如XGBoost模型。该召回率为将年龄段设划分为6-16岁(青少年)、17-50岁(成年)和51-100岁(老年)时的召回率。

如图1B所示，17岁的召回率非常高而50岁的召回率极低。可以看出，不同年龄段的用户有明显区别。基于上述结果，将训练数据的年龄段划分为6-16岁(青少年)、17-50岁(成年)和51-100岁(老年)是较为合适的。通过基于召回率的表现来进行年龄段的初步划分，能够提升后续预测年龄段时的系统表现。

如上文所述，在本说明书实施例中，提出了基于手势信息来预测用户的年龄段和性别中的至少一者的机器学习模型。手势信息可基于用户在用户设备上的触摸面板上的手势输入生成。

该用户设备可以是具有触摸面板的任何计算设备，包括但不限于：智能电话、平板计算机、笔记本计算机、固定式计算机、嵌入式计算机以及各种类型的物联网(IoT)设备等。该触摸面板可接收用户的触摸输入，并将用户的触摸输入转换为坐标点等信息。

优选地，该触摸面板是触摸屏，即同时具有触摸功能和显示功能的设备。替代地，该触摸面板可不具有显示功能。以下将以触摸屏为例进行介绍。

手势输入的示例可包括但不限于：触摸手势、点击手势、翻页手势、滑动手势、扫略手势、按键手势等。

从输入点数量区分，手势输入可分为单点手势输入和多点手势输入(例如多点触摸输入、多点滑动收入等)。优选地，本说明书实施例所使用的手势输入为单点手势输入。在一些情况下，本说明书实施例所使用的手势输入也可包括多点手势输入。

从事件类型区分，手势输入可分为点击输入和滑动输入，其中点击输入通常仅与静态坐标点相关(在多点输入情况下可为多个静态坐标点)，而滑动输入可包括与动态坐标点相关，该动态坐标点构成该输入手势的动作路径，该路径通常具有起点和终点。

参见图2，其示出根据本说明书实施例的手势信息的数据结构的示例。

如图2所示，在本说明书示例中，该手势信息可包括事件类型、起点坐标(可由起点横坐标和起点纵坐标表示)、终点坐标(可由终点横坐标和终点纵坐标表示)、手势持续时间、平均按压压力、平均按压面积、手势时间戳、相关联业务标识(例如参见图2中的索引0-9)等的一者或多者。手势信息还可包括由上述信息推导得到的信息。手势信息还可包括本领域技术人员可构想的与用户设备的触摸屏上的手势相关联的任何其他信息。

如上所述，事件类型可指示事件的类型，如点击事件和滑动事件。

对于滑动类型的事件而言，起点坐标为滑动路径的起点的坐标。对于点击类型的事件而言，起点坐标即为所点击的点的坐标。

对于滑动类型的事件而言，终点坐标为滑动路径的终点的坐标。对于点击类型的事件而言，可不包括终点坐标(相应数值可设置为空)，或者终点坐标可与起点坐标相同。

手势持续时间可为从手指开始接触到触摸屏起到手指从触摸屏离开的持续时间。

平均按压压力可为在手势持续时间期间手指对触摸屏的按压压力的平均值。

平均按压面积可为在手势持续时间期间手指与触摸屏的接触面积的平均值。

手势时间戳可为手指接触到触摸屏时的时间戳。

相关联业务标识可指示了用户正通过手势输入与其交互的业务，例如其可为手势刚刚接触到触摸屏时或者手势持续时间期间在触摸屏上所显示的业务的标识符。对于应用而言，该标识符可以为应用ID(例如APP ID)。对于页面(例如应用内页面、网页页面等等)而言，该标识符可以为页面ID或页面URI等等。

在优选示例中，手势信息可采用如图2所示的数据结构，该数据结构可为MxN的矩阵，其中M为特征数，N为数据点数量。例如，M可为10(即上文所述的手势信息的10个特征，如索引0-9所示)，N可为200，即用户与触摸屏的200次交互(例如最近的200次交互)。可以理解，基于具体情形，可以选择更多或更少的特征。此外，每个矩阵可以使用更多或更少的数据点。

也可采用本领域技术人员可构想的任何其他数据结构。

参见图3，其示出根据本说明书的优选实施例的用于预测用户的年龄段和/或性别的机器学习模型300的架构的框图。

如图3所示，在优选实施例中，该机器学习模型300可包括用于编码一种或多种类型的手势特征的模块(可简称为“手势特征模块”)，例如轨迹模块302、时序模块304和类别模块306中的一者或多者。该轨迹模块302、时序模块304和类别模块306可接收手势信息301，并分别基于手势信息生成轨迹特征、时序特征和类别特征的特征编码。

应当领会，虽然在本文中描述并在附图中示出了全部三个模块，但应领会，仅通过其中的一个或任何两个模块也可实现本说明书实施例的年龄段/性别预测。

当存在多个手势特征模块时，机器学习模型300可包括拼接模块308。该多个手势特征模块所输出的特征编码可由拼接模块308拼接为组合手势特征编码。该组合手势特征编码可用于对年龄段和性别之一或两者的预测。轨迹模块302、时序模块304、类别模块306中的一者或多者和拼接模块308共同构成组合特征编码模块310，用于基于手势信息生成经组合的手势特征编码以供输出到分类模块312。

当仅存在一个手势特征模块(即只存在轨迹模块302、时序模块304和类别模块306中的一者)时，机器学习模型300可不包括拼接模块308，此时该一个手势特征模块的输出即为输入到分类模块312的手势特征编码。

所生成的手势特征编码被输入到分类模块312，以基于该手势特征编码来生成对用户的年龄段313和性别315中的至少一者的预测。

当同时预测年龄段和性别时，该分类模块312可为多任务分类模块。当仅预测年龄段和性别中的一者时，该分类模块312可为单任务分类模块。

在下文中，将逐个对图2中所示的模块进行介绍。

参见图4，其示出根据本说明书实施例的轨迹模块400的示例结构的示意框图。

如图4所示，轨迹模块400可接收与手势的轨迹相关的信息，即手势的轨迹信息401。该轨迹信息例如可包括手势事件类型、手势起点坐标(包括横坐标和纵坐标)和/或手势终点坐标(包括横坐标和纵坐标，对于点击类型的事件可不包括手势终点坐标)。可以理解，该轨迹信息可包括更多或更少信息。

在一个示例中，可采用如图3所示的数据结构中的特征0到4，从而形成200x5的轨迹信息矩阵。

轨迹模块400可包括图像转换模块402和图像处理模块404。

为了能够执行处理，在本说明书实施例中，通过图像转换模块402将该轨迹信息转换为在轨迹图像。具体而言，可将该触摸面板转换为指定大小的画布，例如100x50。随后，可将该轨迹信息转换为该画布中的轨迹图像。

图5示出了根据本说明书实施例的将轨迹信息转换为轨迹图像的示例示意图。

例如，如图5所示，对于滑动类型的事件，该轨迹图像可为该画布上的曲线段，例如从起点(x1,y1)到终点(x2,y2)的直线段。例如，在代表触摸面板的画布中，在该曲线段上的点例如可被赋值为1，而不在该曲线段上的点可被赋值为0，从而得到100x50的矩阵。因此，原来的200x5的轨迹信息矩阵可被转换为200x100x50的轨迹图像矩阵。

对于点击类型的事件，该轨迹图像可为该画布上的点(图5中未示出)。此时，该100x50的矩阵中可能仅有一个元素(即与起点坐标对应的点)被赋值为1，而其他元素被赋值为0。

随后，可将该轨迹图像矩阵输入图像处理模块404进行处理。优选地，该图像处理模块可为卷积神经网络(CNN)模型，或任何其他的基于CNN的模型。也可采用本领域技术人员可构想的任何其他图像处理模型。

通过该图像处理模型，可生成该手势输入的轨迹特征的编码，即轨迹特征编码。

参见图6，其示出根据本说明书实施例的时序模块600的示例结构的示意框图。

如图6所示，时序模块600可接收与手势的时序或时间相关的信息，即手势的时序信息。该时序信息例如可包括手势持续时间、平均按压压力、平均按压面积以及时间戳。可以理解，该时序信息可包括更多或更少信息。

在一个示例中，可采用如图4所示的数据结构中索引为5-8的特征，从而形成200x4的时序信息矩阵。

如图6所示，时序模块600可包括卷积模块602和注意力机制模块604。卷积模块602可基于时序信息执行卷积算法来生成采样信息。例如，通过该卷积模块，可基于200x4的时序信息矩阵得到200x64的采样信息矩阵。

卷积模块602可对时序信息601矩阵执行卷积。优选地，可采用具有1x1卷积核的卷积神经网络对该时序信息矩阵执行处理。也可采用其他卷积核来执行卷积。通过卷积，可生成采样信息。

注意力机制模块604可对采样信息生成处理以生成手势信息的时序特征编码。

如图6所示，注意力机制模块604可利用该采样信息以及对应的位置编码603来使用多个注意力机制层606进行处理，每个注意力机制层606可包括例如单头或多头注意力机制单元、求和及归一化单元以及前馈网络等。该注意力机制模块604(包括位置编码603)的具体实现可参考Transformer模型或其变型。例如，可参考由Ashish Vaswani等人于2017年发布的论文《Attention is all you need(你仅需要注意力)》(可参见https://arxiv.org/abs/1706.03762)。

参见图7，其示出根据本说明书实施例的类别模块700的示例结构的示意框图。

如图7所示，类别模块700可接收与手势的类别相关的信息，即手势的类别信息701。在本说明书实施例中，类别信息是指手势输入的相关联业务标识，例如APP ID。类别信息可包括更多或更少信息。可以设想，不同年龄段和/或性别的用户在不同业务中的手势行为的模式可能有所不同，因此添加如业务标识等类别信息有助于识别用户的年龄段和/或性别。

在一个示例中，可采用如图4所示的数据结构中索引为9的特征，从而形成200x1的时序信息矩阵。

此外，类别模块700可包括词嵌入模块702，该词嵌入模块可生成该类别信息(例如相关联业务标识)的词嵌入表示。由于业务标识等类别信息本身可能没有明显意义，因此可使用简单的词嵌入算法来生成其词嵌入表示。

类别模块700还可包括手工特征生成模块704。手工特征生成模块可基于手势信息703来生成指定的手工特征。手势信息例如是上文参考图2所示的手工信息。

手工特征的示例可包括但不限于：手势滑动速度、按压压强、手势输入频率等等。

手势滑动速度可通过将滑动距离(例如手势的起点到终点的直线距离)除以手势持续时间得到。对于点击类型的事件可不计算手势滑动速度。

按压压强可通过将手势的按压压力除以按压面积得到。

手势输入频率可通过对单位时间内的手势操作的计数得到。

在具体应用中，可对每个人工特征计算统计值，作为实际使用的人工特征。例如，可计算上述每个人工特征的最大值、最小值、中位数值、平均值、方差等。

可采用本领域技术人员可构想的任何其他人工特征。

如图7所示，类别模块700还可包括拼接模块706和宽神经网络模块708。该拼接模块706可基于人工特征和相关联业务标识的词嵌入表示来生成经拼接的类别特征表示。

随后，该经拼接的类别特征表示被输入宽神经网络模块708，以生成类别特征编码709。优选地，宽神经网络模块708可包括全连接层。发明人发现，宽神经网络对于类别特征表现良好。宽神经网络的具体实现在此不再赘述。

如上文所述，如图3所示，由轨迹模块302生成的轨迹特征编码、由时序模块304生成的时序特征编码以及由类别模块306生成的类别特征编码可由拼接模块308进行拼接，以生成经拼接的编码，作为最终的手势特征编码。

应当理解，虽然图3中示出了全部三个模块，但该机器学习模型可包括任一个或任两个模块。当仅包括两个模块时，拼接模块可仅拼接来自两个模块的特征编码。当仅包括一个模块时，可不包括拼接模块。

参见图8，其示出根据本说明书实施例的分类模块800的示例结构的示意框图。

如上文所述，当同时预测年龄段和性别时，该分类模块可为多任务分类模块。当仅预测年龄段和性别中的一者时，该分类模块可为单任务分类模块。

当分类模块为多任务分类模块时，该多任务分类模块可采用MMoE(多门控混合专家)模型。

由于就手势而言年龄段和性别之间也存在关联(例如成年男性和青少年女性之间的特征差异更加明显)，所以使用MMoE模型能够进一步利用这种关联，提升每个任务的预测表现。

如图8所示，前文所生成的手势特征编码可作为输入801被输入到该MMoE模型，该MMoE模型可包括年龄门控802和性别门控804，以及由多个专家构成的混合专家网络(例如专家0 806、专家1 808和专家2 810，但本发明不限于此)，且输出被加权求和并分别输入到年龄塔812和性别塔814，以分别生成对年龄段815和性别817的预测。关于MoME模型的更多细节，可参考Jiaqi Ma等人于2018年发布的论文《Modeling Task Relationships inMulti-task Learning with Multi-gate Mixture-of-Experts(利用多门控混合专家在多任务学习中建模任务关系)》(例如参见https://dl.acm.org/doi/10.1145/3219819.3220007)。

替代地，可采用本领域技术人员可构想的任何使用的其他多任务分类模型。

当该分类模块为单任务分类模块时，可采用本领域技术人员可构想的任何适用的单任务分类模块。

上面详细介绍了用于基于用户的手势信息来预测用户的年龄或性别的机器学习模型的各个组成模块，下面介绍用该机器学习模型来预测用户的年龄和/或性别的示例方法和系统。应当领会，在下文的方法和系统中，省略了一些实现细节，对这些实现细节的描述可参考上文的描述。

参见图9，其示出根据本说明书实施例的用于预测用户的年龄段或性别的示例方法900的流程图。该示例方法的一个或多个步骤例如可由上文参考图3描述的机器学习模型300来实现。

方法900可包括：在操作902，可接收用户在用户设备上的触摸面板上的手势输入。

例如，当该机器学习模型在用户设备上实现时，可直接接收来自用户的触摸面板的用户输入。当该机器学习模型在服务器上实现时，可接收用户在应用和/或页面上的用户输入。替代地，可由服务器接收存储在用户设备上的手势输入的历史。

需要注意的是，与上文所介绍的体态信息(需要加速度计或陀螺仪)、声音信息(需要麦克风)和动作信息(需要摄像头)不同，上述信息不仅需要额外的传感器或专用数据采集设备，而且这些信息是独立于用户使用过程本身的，即是原本用户可能不需要提供以正常使用服务的。例如，对于在线购物应用而言，加速度计、陀螺仪、麦克风、摄像头的数据对于用户的在线购物行为本身并不是必要的。然而，在绝大多数情况下，尤其是在当前流行的具备触摸屏的智能设备中，用户本身就需要在触摸屏上进行手势输入(即触摸输入)来使用对应的服务，例如通过点击和滑动来在在线购物应用中浏览、选择和购买物品。

因此，本说明书实施例不仅提供了另一种预测用户的年龄段和/或性别的思路，而且相对于体态信息、声音信息和动作信息，本说明书实施例的基于手势信息的方案不依赖于额外的传感器和/或对额外信息的收集。

此外，由于不依赖于额外的传感器和/或对额外信息的收集，因此需要收集更少的用户数据，从而保护了用户隐私；不需要额外的传感器也使得用户设备的成本更低；不需要额外的传感器也使得本说明书实施例的适用范围更广，例如可适用于仅具有触摸屏的一些物联网设备；不需要对额外信息进行采集和处理也减少了对处理器的占用、提升了系统性能，减少了功耗。

尽管如此，在优选实施例中，可通知用户该用户的手势信息将被用于对其年龄段和/或性别进行预测。在更优选实施例中，可在使用用户的手势信息之前首先请求用户的明确授权。

方法900还可包括：在操作904，可基于所述用户的手势输入生成手势信息，所述手势信息包括手势事件类型、手势位置、手势持续时间、平均按压压力、平均按压面积、手势时间戳、相关联业务标识中的两者或更多者。如上文所述，手势事件类型、手势位置(包括手势路径的起点和终点坐标)可作为手势输入的轨迹特征，手势持续时间、平均按压压力、平均按压面积、手势时间戳可作为手势输入的时序特征，而相关联业务标识可作为手势输入的类别特征。

方法900还可包括：在操作906，可利用机器学习模型，基于所述手势信息来预测所述用户的年龄段和性别中的至少一者。

如上文所述，所述机器学习模型利用所述手势输入的轨迹特征、时序特征和类别特征中的一者或多者来预测所述用户的年龄段。优选地，所述机器学习模型利用手势输入的轨迹特征、时序特征和类别特征三者的组合来预测所述用户的年龄段或性别。

优选地，所述机器学习模型可包括轨迹模块，所述轨迹模块用于基于手势事件类型、手势起点坐标和/或手势终点坐标来生成所述手势输入的轨迹特征编码。具体而言，所述轨迹模块可用于：将所述手势事件类型、手势起点坐标和/或手势终点坐标转换为轨迹图像；以及利用基于CNN的模型，基于所述轨迹图像生成所述手势输入的轨迹特征编码。轨迹模块的更多细节可参考上文针对图4和图5的描述。

优选地，所述机器学习模型可包括时序模块，所述时序模块用于基于手势持续时间、平均按压压力、平均按压面积、和/或手势时间戳来生成所述手势输入的时序特征编码。具体而言，所述时序模块可用于：基于所述手势持续时间、平均按压压力、平均按压面积、和/或手势时间戳，使用卷积算法来生成采样信息；以及将所述采样信息输入至注意力机制来生成所述手势输入的时序特征编码。时序模块的更多细节可参考上文针对图6的描述。

优选地，所述机器学习模型可包括类别模块，所述类别模块用于：将所述手势输入的相关联业务标识进行词嵌入以生成词嵌入表示；基于所述手势信息生成一个或多个人工特征；将所述人工特征和所述词嵌入表示进行拼接，以及将拼接后的输出输入至宽神经网络模型以生成所述类别特征编码。类别模块的更多细节可参考上文针对图7的描述。

优选地，所述机器学习模型还可包括拼接模块，所述拼接模块用于将所述轨迹特征、时序特征和类别特征中的两者或更多者的特征编码进行拼接以生成手势特征编码。在仅使用一种特征时，可不进行拼接且机器学习模型可不包括拼接模块。

优选地，所述机器学习模型还可包括：多门控混合专家模块，用于基于所述手势信息来预测所述用户的年龄段和性别两者。在替代实施例中，可使用其他多任务分类模块来预测年龄段和性别两者。在仅预测年龄段和性别之一时，可使用单任务分类模块来执行预测。

优选地，在执行对年龄段的预测之前，可使用XGBoost模型来对用户的年龄段进行初步划分。通过对年龄段执行初步划分，可实现更准确的年龄段预测。

优选地，还可基于所述用户的手势信息与所述用户的体态信息、动作信息和声音信息中的一者或多者的结合来预测所述用户的年龄段和性别中的至少一者。可以理解，可以将本说明书实施例介绍的手势信息与前文中提及的基于体态信息、动作信息和声音信息进行组合，使用更多类别的信息进行对年龄段或性别的预测，从而进一步提升预测的准确度。

优选地，方法900还可包括：在预测到用户的年龄段或性别之后，可基于所述用户的所预测的年龄段和性别中的至少一者来确定用于所述用户的身份认证方法或者来对用户执行身份认证(图9中未示出)。

例如，一些青少年用户可能还没有身份证，或者没有完成身份认证的足够知识。此时，可针对性地向青少年提供提示或指引。例如可提示青少年用户无需实体身份证，可在户口页中找到身份证号等等。又例如，可提示青少年请求家长辅助或担保执行身份认证等。

又例如，一些老年用户可能视力不佳。因此，在识别到老年用户时，可增大所显示的字体和图标，可延长认证刷脸时长等。

优选地，方法900还可包括：在预测到用户的年龄段或性别之后，基于所述用户的所预测的年龄段和性别中的至少一者来为所述用户生成推荐。

例如，可针对青少年用户推荐青少年更可能感兴趣的商品或服务；可针对女性用户推荐女性更可能感兴趣的商品或服务等等。基于年龄段、性别或两者的组合提供推荐可基于本领域技术人员可构想的任何适用方法来执行。

参见图10，其示出根据本说明书实施例的用于预测用户的年龄段或性别的示例系统1000的示意框图。该系统1000的各模块的具体描述可参考上文针对图9所述的方法900以及前文针对图2-图8介绍的机器学习模型及其各模块的具体细节。

如图10所示，系统1000可包括手势输入接收模块1002，用于接收用户在用户设备上的触摸面板上的手势输入。此模块的操作的具体细节可参考上文对操作902的描述。

系统1000还可包括手势信息生成模块1004，用于基于所述用户的手势输入生成手势信息，所述手势信息包括手势事件类型、手势位置、手势持续时间、平均按压压力、平均按压面积、手势时间戳、相关联业务标识中的两者或更多者。手势事件类型、手势位置(包括手势路径的起点和终点坐标)可作为手势输入的轨迹特征，手势持续时间、平均按压压力、平均按压面积、手势时间戳可作为手势输入的时序特征，而相关联业务标识可作为手势输入的类别特征。此模块的操作的具体细节可参考上文对操作904的描述。

系统1000还可包括预测模块1006，用于利用机器学习模型，基于所述手势信息来预测所述用户的年龄段和性别中的至少一者。此模块的操作的具体细节可参考上文对操作906的描述。如上文所述，所述机器学习模型利用所述手势输入的轨迹特征、时序特征和类别特征中的一者或多者来预测所述用户的年龄段。优选地，所述机器学习模型利用手势输入的轨迹特征、时序特征和类别特征三者的组合来预测所述用户的年龄段或性别。

优选地，系统1000还可包括年龄段划分模块(图10中未示出)。例如，在执行对年龄段的预测之前，年龄段划分模块可使用XGBoost模型来对用户的年龄段进行初步划分。通过对年龄段执行初步划分，可实现更准确的年龄段预测。

优选地，还可基于所述用户的手势信息与所述用户的体态信息、动作信息和声音信息中的一者或多者的结合来预测所述用户的年龄段和性别中的至少一者。

优选地，系统1000还可包括用户认证模块(图10中未示出)，用于基于所述用户的所预测的年龄段和性别中的至少一者来确定用于所述用户的身份认证方法和/或对用户执行认证。用户认证模块的操作的具体细节可参考上文针对图9的描述。

优选地，系统1000还可包括推荐模块(图10中未示出)，用于基于所述用户的所预测的年龄段和性别中的至少一者来为所述用户的生成推荐。推荐模块的操作的具体细节可参考上文针对图9的描述。

图11示出用于实现根据本说明书一个或多个实施例的方法的装置1100的示意框图。该装置可用于实现例如本文描述的方法和系统中的任一者。该装置还可被实现为本文描述的任何计算设备或资源分配设备。该装置可包括处理器1110以及存储器1115，该处理器被配置成执行如上所述的任何方法。该存储器可存储例如手势信息等。该存储器还可用于存储在方法的执行过程中可使用的任何指令、变量、中间数据等等。

该装置1100可包括网络连接元件1125，例如可包括通过有线连接或无线连接来连接到其它设备的网络连接设备。该无线连接例如可以为WiFi连接、蓝牙连接、3G/4G/5G网络连接等。例如，可通过该网络连接元件连接到网络以获取数据(如用户交互历史等)及其它各种数据。还可经由网络连接元件接收用户从其它设备所进行的输入或者将数据传送到其它设备以供显示。

当实现机器学习模型的装置在用户设备上实现时，该该装置还包括触摸面板，用于接收用户的手势输入。该装置还可选地包括其它外围元件1120，例如输入装置(键盘、鼠标)、输出装置(如显示器)等。优选地，该装置可包括触摸屏。例如，用户可通过输入装置输入各目标的权重。还可经由输出装置向用户输出相应的信息，例如资源分配结果。

这些模块中的每一者可彼此直接或间接通信，例如，经由一条或多条总线(例如总线1105)。

该装置可为具有计算能力的实体计算设备或虚拟计算设备。实体计算设备的示例可包括但不限于大型机、小型机、个人计算机等等。虚拟计算设备的示例可包括各种类型的虚拟机(例如vmware虚拟机或virtualbox虚拟机等)或虚拟容器(例如docker等虚拟容器)。

需要理解，虽然上文示出的装置1100为单个计算设备，但应领会，该装置1100实际上可为计算设备的集合，例如计算设备集群、虚拟机集群、计算云、存储云等。

而且，本申请还公开了一种包括存储于其上的计算机可执行指令的计算机可读存储介质，该计算机可执行指令在被处理器执行时使得该处理器执行本文所述的各实施例的方法。

此外，本申请还公开了一种装置，该装置包括处理器以及存储有计算机可执行指令的存储器，该计算机可执行指令在被处理器执行时使得该处理器执行本文所述的各实施例的方法。

此外，本申请还公开了一种系统，该系统包括用于实现本文所述的各实施例的方法的装置。

可以理解，根据本说明书的一个或多个实施例的方法可以用软件、固件或其组合来实现。

应该理解，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参考方法实施例的部分说明即可。

应该理解，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

应该理解，本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数目限于一个。此外，本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件，且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。

还应理解，本文采用的术语和表述方式只是用于描述，本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。

同样，需要指出的是，虽然已参考当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本说明书的一个或多个实施例，在没有脱离本发明精神的情况下还可做出各种等效的变化或替换，因此，只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims

1.一种用于预测用户的年龄段或性别的方法，包括：

接收用户在用户设备上的触摸面板上的手势输入；

基于所述用户的手势输入生成手势信息，所述手势信息包括手势事件类型、手势位置、手势持续时间、平均按压压力、平均按压面积、手势时间戳、相关联业务标识中的两者或更多者；以及

利用机器学习模型，基于所述手势信息来预测所述用户的年龄段和性别中的至少一者。

2.如权利要求1所述的方法，其中所述机器学习模型利用所述手势输入的轨迹特征、时序特征和类别特征中的一者或多者来预测所述用户的年龄段和性别中的至少一者。

3.如权利要求2所述的方法，其中所述机器学习模型包括轨迹模块，所述轨迹模块用于基于手势事件类型、手势起点坐标和/或手势终点坐标来生成所述手势输入的轨迹特征编码。

4.如权利要求3所述的方法，其中所述轨迹模块用于：

将所述手势事件类型、手势起点坐标和/或手势终点坐标转换为轨迹图像；以及

利用基于CNN的模型，基于所述轨迹图像生成所述手势输入的轨迹特征编码。

5.如权利要求2所述的方法，其中所述机器学习模型包括时序模块，所述时序模块用于基于手势持续时间、平均按压压力、平均按压面积、和/或手势时间戳来生成所述手势输入的时序特征编码。

6.如权利要求5所述的方法，其中所述时序模块用于：

基于所述手势持续时间、平均按压压力、平均按压面积、和/或手势时间戳，使用卷积算法来生成采样信息；以及

将所述采样信息输入至注意力机制来生成所述手势输入的时序特征编码。

7.如权利要求2所述的方法，其中所述机器学习模型包括类别模块，所述类别模块用于：

将所述手势输入的相关联业务标识进行词嵌入以生成词嵌入表示；

基于所述手势信息生成一个或多个人工特征；

将所述人工特征和所述词嵌入表示进行拼接，以及

将拼接后的输出输入至宽神经网络模型以生成所述类别特征编码。

8.如权利要求2所述的方法，进一步包括：

将所述轨迹特征、时序特征和类别特征中的两者或更多者的特征编码进行拼接以生成手势特征编码。

9.如权利要求1所述的方法，进一步包括：

利用所述机器学习模型的多门控混合专家模块，基于所述手势信息来预测所述用户的年龄段和性别两者。

10.如权利要求1所述的方法，进一步包括：

使用XGBoost模型来对用户的年龄段进行初步划分。

11.如权利要求1所述的方法，进一步包括：

基于所述用户的手势信息与所述用户的体态信息、动作信息和声音信息中的一者或多者的结合来预测所述用户的年龄段和性别中的至少一者。

12.如权利要求1所述的方法，进一步包括：

基于所述用户的所预测的年龄段和性别中的至少一者来确定用于所述用户的身份认证方法。

13.如权利要求1所述的方法，进一步包括：

基于所述用户的所预测的年龄段和性别中的至少一者来为所述用户生成推荐。

14.一种用于预测用户的年龄段或性别的系统，包括：

手势输入接收模块，用于接收用户在用户设备上的触摸面板上的手势输入；

手势信息生成模块，用于基于所述用户的手势输入生成手势信息，所述手势信息包括手势事件类型、手势位置、手势持续时间、平均按压压力、平均按压面积、手势时间戳、相关联业务标识中的两者或更多者；以及

预测模块，用于利用机器学习模型，基于所述手势信息来预测所述用户的年龄段和性别中的至少一者。

15.如权利要求14所述的系统，其中所述机器学习模型包括轨迹模块、时序模块、类别模块中的一者或多者。

16.一种用于预测用户的年龄段或性别的装置，包括：

存储器；以及

处理器，所述处理器被配置成执行如权利要求1-13中任一项所述的方法。

17.一种存储指令的计算机可读存储介质，所述指令当被计算机执行时，使所述计算机执行如权利要求1-13中任一项所述的方法。