CN110335626A

CN110335626A - 基于音频的年龄识别方法及装置、存储介质

Info

Publication number: CN110335626A
Application number: CN201910615636.XA
Authority: CN
Inventors: 郭冠军
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-15

Abstract

本公开提供一种基于音频的年龄识别方法及装置、存储介质。该方法包括：获取第一音频数据，所述第一音频数据中包含至少一个用户的声音数据，然后，对所述第一音频数据进行间隔采样处理，得到目标用户的第二音频数据，所述目标用户为与所述第一音频数据对应的用户，从而，利用训练好的年龄识别模型处理所述第二音频数据，得到所年龄识别结果。本公开的方法，从区别于现有图像维度的另一维度，即声音维度上实现对用户的年龄识别，并能够在一定程度上弥补现有技术中基于图像实现的年龄识别方法的不足。

Description

基于音频的年龄识别方法及装置、存储介质

技术领域

本公开涉及计算机技术，尤其涉及一种基于音频的年龄识别方法及装置、存储介质。

背景技术

随着互联网技术的发展，低龄用户在使用终端或应用程序时容易受到网络的不良影响，因此，如何识别低龄用户并对其采取相应的低龄保护措施成为本领域重点关注的技术问题。

目前，对用户的年龄识别一般是基于用户图像来实现的。具体而言，通过获取用户发表的图像或视频来获取到若干帧图像数据，图像数据中包含用户的人脸图像，然后，直接将这些图像数据直接输入至用于识别用户年龄的神经网络模型中，由神经网络模型来预测所输入的人脸的最低年龄，从而，实现针对低龄用户的识别。

但是，现有的年龄识别方法完全依赖于抽取到的若干帧图像中一定包含人脸图像，若抽取到的若干帧图像中不包含图像，则无法基于现有的年龄预测方案实现年龄识别。

发明内容

本公开提供一种基于音频的年龄识别方法及装置、存储介质，用以提供从另一种维度上实现年龄识别的方法，并能够用以在一定程度上弥补现有技术中基于图像实现的年龄识别方法的不足。

第一方面，本公开提供一种基于音频的年龄识别方法，包括：

获取第一音频数据，所述第一音频数据中包含至少一个用户的声音数据；

对所述第一音频数据进行间隔采样处理，得到目标用户的第二音频数据，所述目标用户为与所述第一音频数据对应的用户；

利用训练好的年龄识别模型处理所述第二音频数据，得到所年龄识别结果；

其中，所述年龄识别结果包括如下至少一种：

所述目标用户的年龄；

所述目标用户所处的年龄阶段；

所述目标用户是否为目标年龄段用户。

第二方面，本公开提供一种基于音频的年龄识别装置，包括：

获取模块，用于获取第一音频数据，所述第一音频数据中包含至少一个用户的声音数据；

第一处理模块，用于对所述第一音频数据进行间隔采样处理，得到目标用户的第二音频数据，所述目标用户为与所述第一音频数据对应的用户；

第二处理模块，用于利用训练好的年龄识别模型处理所述第二音频数据，得到所年龄识别结果；

其中，所述年龄识别结果包括如下至少一种：

所述目标用户的年龄；

所述目标用户所处的年龄阶段；

所述目标用户是否为目标年龄段用户。

第三方面，本公开提供一种基于音频的年龄识别装置，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开提供一种终端，包括：

基于音频的年龄识别装置，用于实现如第一方面所述的方法；

终端主体。

第五方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如第一方面所述的方法。

本公开提供的一种基于音频的年龄识别方法及装置、存储介质，在获取到包含目标用户的至少一个用户的声音数据的第一音频数据后，通过对其进行间隔采样，得到目标用户的第二音频数据，这能够有效降低年龄识别步骤中的音频数据处理量，避免了由于音频数据量过大、年龄识别步骤繁琐低效带来的不利影响，由此，可直接基于间隔采样后的目标用户的第二音频数据实现对目标用户的年龄识别，实现方式简便快捷。并且，本公开实施例所提供的技术方案利用音频数据实现对用户年龄的识别，从区别于图像的另一维度上实现了年龄识别，这能够在一定程度上弥补现有的基于图像预测年龄的技术方案中不存在用户人脸图像则无法识别年龄的不足。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本公开实施例所提供的一种基于音频的年龄识别方法的流程示意图；

图2为本公开实施例所提供的另一种基于音频的年龄识别方法的流程示意图；

图3为本公开实施例所提供的另一种基于音频的年龄识别方法的流程示意图；

图4为本公开实施例所提供的年龄识别模型的架构示意图；

图5为本公开实施例所提供的另一种基于音频的年龄识别方法的流程示意图；

图6为本公开实施例所提供的一种基于音频的年龄识别装置的功能方块图；

图7为本公开实施例所提供的一种基于音频的年龄识别装置的实体结构示意图；

图8为本公开实施例所提供的另一种基于音频的年龄识别装置的实体结构示意图；

图9为本公开实施例所提供的一种终端的架构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开具体的应用场景为：对用户进行年龄识别的场景。进一步的，还可以进一步具体为：根据用户年龄，为用户进行个性化推荐的场景。或者，还可以具体为：根据用户年龄，对特殊用户，如低龄用户，进行权限管理的应用场景。例如，针对用户发表内容这一权限的权限管理场景、针对用户浏览内容(如视频、信息等)时的权限管理场景等。

如前所述，现有的针对年龄识别的方法仅依赖于图像这一个单一维度进行年龄识别。其主要依据是图像中包含的人脸图像，但当获取到的图像中不具备人脸图像时，则无法实现年龄识别，以及，当获取到的图像中包含多个不同用户的人脸图像时，现有方案会通过杂糅的方式进行年龄识别，即通过多个不同用户的人脸图像预测出一个年龄或年龄阶段，这又造成了年龄识别结果的不准确。综上，现有的年龄识别方法实现维度单一且在预测稳定性和准确率上存在不足，因此，亟待一种可弥补这种不足的其他维度上的年龄识别方法。

本公开提供的技术方案，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本公开的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

实施例一

本公开实施例提供了一种基于音频的年龄识别方法。请参考图1，该方法包括如下步骤：

S102，获取第一音频数据，所述第一音频数据中包含至少一个用户的声音数据。

本方案利用音频数据实现对用户年龄的识别，在此过程中，可以获取目标用户的行为数据，并在所述行为数据中获取至少一帧音频数据，以作为第一音频数据。

其中，本公开实施例所涉及到的行为数据可以包括但不限于：发表数据、存储数据与采集数据中的至少一种。以及，所述行为数据可以为目标用户当前实时采集或获取到的行为数据，和/或，目标用户的历史行为数据。

其中，发表数据是指目标用户在应用程序中发表出来的数据。例如，目标用户在应用程序中发表的视频或音频数据。而存储数据是指存储在终端或应用程序服务器(或应用程序存储器)中的视频或音频数据，这些数据可能并未对外发表。例如，目标用户在应用程序中上传到服务器或存储器，但仅用于收藏或存储，但并未对外发表的视频或音频数据。采集数据是指利用应用程序调用采集设备采集到的数据。例如，在应用程序中调用终端的麦克风采集到的音频或视频数据等；又例如，第一音频数据可以是采集到的目标用户在使用应用程序或终端过程中的音频数据。

此外，需要说明的是，本公开实施例所提供的技术方案是基于音频数据来实现对目标用户的年龄识别的，由此，本公开实施例中获取到的第一音频数据中包含至少一个用户的声音数据。此外，第一音频数据还可以是自视频数据中的音频数据。

S104，对所述第一音频数据进行间隔采样处理，得到所述目标用户的第二音频数据，所述目标用户为与所述第一音频数据对应的用户。

本发明实施例所涉及到的目标用户是与所述第一音频数据对应的用户。例如，一种场景中，一个应用程序中的账号发表的音视频数据中，更多的是与自己相关的内容，此时，可以将该第一音频数据的发布者作为目标用户。或者，又例如，另一种场景中，一个音频数据中出声次数最多的用户也可以作为目标用户。总之，第一音频数据是与目标用户相关的音频数据。

该步骤用于对第一音频数据进行数据简化及提取，以得到目标用户的声音数据，并将其提取到的全部或部分声音数据作为第二音频数据，并以此为后续年龄识别的依据。

而现有技术中基于图像数据实现年龄识别，一定程度上也是由于音频数据处理量较大，在实际进行年龄识别的过程中，经常由于数据处理量过大而导致处理效率较低或处理系统崩溃的情况，以及，音频数据中一般除目标用户的声音之外，还存在一些背景音、噪声和其他声音(如人声或场景音等)，这也导致以音频数据为基础来实现年龄识别的准确率较低。

相比之下，本公开实施例通过该步骤的处理，能够得到目标用户的第二音频数据，相对于以前述第一音频数据，第二音频数据为目标用户的声音数据，避免了音频数据中的杂音对识别结果的影响，而且，这也能够有效降低后续年龄识别步骤的数据处理量。

S106，利用训练好的年龄识别模型处理所述第二音频数据，得到所年龄识别结果。

也就是，利用前述处理后的简化了的目标用户的第二音频数据，来实现对目标用户的年龄识别。具体而言，本发明实施例是通过训练好的神经网络模型，也就是，训练好的年龄识别模型来实现年龄识别的，年龄识别模型的输入为目标用户的音频数据(也即第二音频数据)或处理后的第二音频数据，输出为年龄识别结果，后续具体说明。

通过如图1所示的方案，本公开实施例可以从声音维度，而非图像维度，实现对目标用户的年龄识别，从而，这拓宽了年龄识别的实现方式，并且，能够在一定程度上弥补现有的年龄识别方式的不足，为准确识别用户年龄提供了另一种实现方式。

以下，对如图1所示方案中的各步骤作进一步说明。

在具体实现S104所述的人脸识别步骤时，本公开实施例提供至少如下所示的两种实现方式：

一种具体的实现方式中，可以在所述第一音频数据中，提取所述目标用户的声音数据，以作为所述第二音频数据。

在该实现方式中，无需对提取出来的目标用户的声音数据进行其他处理，直接将提取到的全部的目标用户的声音数据作为第二音频数据即可。

而在具体提取目标用户的声音数据时，可以通过神经网络模型来实现。具体的，在执行该步骤之前，构建可用于识别音频数据中的用户声音数据的神经网络模型，并利用样本数据对该神经网络模型进行训练，如此，可得到训练好的神经网络模型，也即声音识别模型。

此外，本公开实施例对于所涉及到的各神经网络模型的模型类型也无特别限定。其可包括但不限于：卷积神经网络模型(Convolutional Neural Network，CNN)或递归神经网络模型(Recursive Neural Network，RNN)。

本公开实施例中，基于声音识别模型的输出内容不同，可以参考如图2所示的两种设计方式：

一种可能的设计中，声音识别模型的输入为：音频数据，输出为音频数据中携带的一个用户，即目标用户的声音数据。为了便于区分，以下，将该输出方式的声音识别模型简称为第一声音识别模型。

此时，如图2所示，S104可以具体表现为如下步骤：

S1042，利用训练好的第一声音识别模型处理所述第一音频数据，得到所述第一声音识别模型输出的所述目标用户的声音数据。

而另一种可能的设计中，声音识别模型的输入为：音频数据，输出为音频数据中携带的各用户的声音数据。为了便于区分，以下，将该输出方式的声音识别模型简称为第二声音识别模型。

此时，如图2所示，S104还可以具体表现为如下步骤：

S1044-2，利用训练好的第二声音识别模型处理所述第一音频数据，得到所述第二声音识别模型输出的至少两个人声数据集合。

此时，每个人声数据集合中包含的人声数据属于一个用户。也就是，当前述第一音频数据中包含多个用户的人声数据时，该第二声音识别模型具体用于将各用户的人声数据进行识别和分类，如此，得到每个用户各自对应的人声数据集合。

S1044-42，根据所述目标用户的先验信息，在所述至少两个人声数据集合中提取出所述目标用户的声音数据。

由于第二声音识别模型仅用于实现针对各用户的人声识别，此处，需要在其中筛选出目标用户的声音数据。

本公开实施例利用先验信息与各人声数据集合之间的匹配程度来实现该步骤。其中，本公开实施例所涉及到的先验信息可以包括但不限于：所述目标用户的声音属性信息与历史音频数据中的至少一种。

其中，声音属性信息可以包括但不限于：音色与音调中的至少一种。在具体实现时，可根据各人声的声音属性不同，来获取与该先验信息最为接近的人声数据集合，以作为目标用户的声音数据。其中，在获取该匹配程度时，可对每个人声数据集合的数据进行声音属性分析，得到每个人声数据集合的声音属性，进而，获取各人声数据集合与先验信息在各声音属性维度上的相似度，并获取各声音属性维度上相似度的加权值，如加权和或加权平均值，以作为各人声数据集合与先验信息的匹配程度。

而历史音频数据作为先验信息时，也可以首先通过对目标用户的历史音频数据进行声音属性分析，得到历史音频数据的声音属性，进而，通过前述方式获取各人声数据集合与先验信息的匹配程度即可，不再赘述。

或者，除利用先验信息对各用户的人声数据集合进行筛选之外，如图2所示，在通过S1044-2步骤获取到各人声数据集合之后，还可以通过如下手段实现：

S1044-44，获取数据量最大的一个所述人声数据集合，以作为所述目标用户的声音数据。

也就是，根据各人声数据集合的数据量来确定目标用户，这是考虑到，数据量越大的人声数据集合，该用户在第一音频数据中出现的越多，人声的持续时间越长，越有可能是目标用户。

此外，如图2所示的实现方式至少给出了提取所述目标用户的声音数据的3种实现方案，这三种实现方案可并列实现，互相之间无影响。例如，如图2所示的S1044-42与S1044-44，实际为两种不同的处理方式，在具体实现时，择一选择处理即可。

除前述设计之外，图3还示出了另一种实现S104的实现方式。这种实现方式除提取目标用户的声音数据之外，还进一步在该步骤之外还进行了额外的间隔采样处理。如图3所示，此时，S104可具体表现为以下几个步骤：

S1046-2，在所述第一音频数据中，提取所述目标用户的声音数据。

该步骤的实现方式可以参考前述图2所示的任一种实现方式，不再赘述。

S1046-4，在所述第一音频数据中进行间隔采样，得到采样集合。

具体而言，该间隔采样步骤可以利用神经网络模型来实现，或者，可以按照预设的间隔采样规则来实现。

换言之，一种可能的实现方式中，可以利用训练好的采样模型处理所述第一音频数据，得到所述采样模型输出的音频数据，以作为所述采样集合。

此时，采样模型可以按照自定义采样方式进行设计。而该步骤所涉及到的采样模型为支持间隔采样的神经网络模型。在具体的实现场景中，可以利用利用任意神经网络模型，如RNN模型或CNN模型，来实现采样模型的设计，对此不赘述。

或者，另一种可能的实现方式中，除利用神经网络模型实现间隔采样之外，还可以按照预设的采样间隔，对所述第一音频数据进行音频提取，得到所述采样集合。

而具体的采样间隔可以根据实际需要自定义设计。例如，可以每隔5s进行一次声音数据的采样，或者，可以按照不规则的，如递增或递减间隔的方式来设计采样间隔，或者，还可以按照指定帧的方式，来采集指定时刻的声音数据。本公开实施例对此无特别限定。

S1046-6，获取所述声音数据与所述采样集合之间的交集，以作为所述第二音频数据。

具体而言，获取前述目标用户的声音数据与采样集合之间的交集时，可以有三种实现方式：

一种实现方式中，先在第一音频数据中获取目标用户的声音数据，再对获取到的目标用户的声音数据中进行间隔采样，并将此次间隔采样得到的音频数据作为第二音频数据。

另一实现方式中，先对第一音频数据进行间隔采样处理，得到采样集合，然后，针对采样集合进行目标用户的声音数据的提取，如此，得到第二音频数据。

另一实现方式中，分别对第一音频数据进行目标用户声音数据的提取步骤和间隔采样步骤，然后，再在二者中获取重合的声音数据，以作为第二音频数据。

前述三种不同的处理方式，均能够得到目标用户的第二音频数据，但由于处理时序的区别，基于前述各处理方式得到的第二音频数据的内容可能不同。

此外，在以如图2或图3所示的任一种方式来获取第二音频数据的过程中，考虑到第一音频数据中可能还存在一些环境或其他声音源的噪声干扰，因此，在执行S104步骤之前，还可以预先对所述第一音频数据进行滤波处理。从而，在执行S104步骤，针对滤波处理后的第一音频数据进行处理即可。处理方式同前，不作赘述。

而本公开实施例所涉及到的滤波处理方式可以包括但不限于：去噪声处理。

基于前述任一种实现方式的处理，能够实现对第一音频数据的筛选和处理，得到目标用户的第二音频数据。在此基础上，本公开实施例进一步给出S106的实现方式：利用训练好的年龄识别模型来处理第二音频数据，并得到目标用户的年龄识别结果。

本公开实施例中，基于不同的实现场景，年龄识别模型可以有多种不同的设计。具体的，可以参考图4所示的设计方式。

一方面，针对年龄识别模型的输入，可以参考图4，至少可以包括如下设计：

年龄识别模型的输入为音频数据，这种模型后续简称为第一年龄识别模型。此时，可以利用训练好的第一年龄识别模型处理所述第二音频数据，得到所述第一年龄识别模型输出的所述目标用户的年龄识别结果。

或者，

年龄识别模型的输入为音频特征，这种模型后续简称为第二年龄识别模型。此时，首先要对所述第二音频数据进行特征提取，得到目标音频特征，从而，利用训练好的第二年龄识别模型处理所述目标音频特征，得到所述第二年龄识别模型输出的所述目标用户的年龄识别结果。

其中，前述目标音频特征可以包括但不限于：声音属性特征。

另一方面，针对年龄识别模型的输出的年龄识别结果，可以参考图4，至少可以包括如下至少一种方式：

所述目标用户的年龄；

所述目标用户所处的年龄阶段；

所述目标用户是否为目标年龄段用户。

其中，年龄阶段以及目标年龄段都可以根据需要自定义设计。例如，可以将年龄段设置为：低龄、青少年、中青年和老年。而年龄阶段的年龄选择则根据需要自定义设计，例如，低龄段可以为0～6岁，青少年段可以为7～16岁，等。而目标年龄段也可以根据不同的实现场景，选择至少一个年龄段，为目标年龄段。例如，前述提到的针对低龄用户的权限控制场景中，可以将低龄段作为目标年龄段；又例如，针对老年用户的个性化内容推荐场景中，可以将老年段作为目标年龄段。

在前述实现方式中，年龄识别模型无需承担间隔采样的功能，因此，在前述实现方式中，对于年龄识别模型的模型架构无特别限定，可采用任一种神经网络模型来实现。不再赘述。

此外，本公开实施例还进一步给出了另一种实现方式：利用一个第三年龄识别模型来实现前述方案。此时，前述基于音频的年龄识别方法执行于第三年龄识别模型中，其中，所述第三年龄识别模型的输入为所述第一音频数据，输出为所述目标用户的年龄识别结果。

以图1所示方式为例，图1所示各步骤为第三年龄识别模型的实现步骤，该第三年龄识别模型可用于实现间隔采样，并用于对间隔采样后的第二音频数据进行年龄识别。或者，以图2所示方式为例，图2所示流程中涉及到的声音识别模型可以为第三年龄识别模型中的一个处理单元。

在这种实现场景中，第三年龄识别模型承担间隔采样的作用，此时，需要具备间隔采样功能的神经网络模型来实现本方案。具体而言，本公开实施例所涉及到的所述第三年龄识别模型可以包括但不限于：Wavenet神经网络模型。

Wavenet是一种利用神经网络系统对原始音频波形(Raw Sound Wave)建模的技术Wavenet通过对音频所有采样点进行输入，然后该网络通过逐层提取语音特征进行映射到预测年龄。Wavenert本身是一种特殊的神经网络，建模后得到的结果是神经网络系数。通过训练一个Wavenet模型，可以通过输入单位的音频数据直接映射成预测年龄。

而在执行本方案之前，还需要对Wavenet模型进行训练。在Wavenet模型的模型训练阶段，可以把音频的采样频率设为16KHZ，即一秒钟16000个元素(在具体实现场景中该数值可变)。视频的帧率为N，那么每帧图像对应的音频元素数目为16000/N，则Wavenet的输入为元素数目为16000/N的音频向量。对应的输出数据是从每个音频数据对应的真实年龄。假设音频向量用x表示，预测年龄用y表示。音频向量及其对应的预测年龄可以通过(x,y)表示。

并且，在所有训练样本上，利用最小化目标函数f(x,y)＝||g(x)-y||^2来求取Wavenet神经网络模型中g的训练。其中，f(x,y)为最小化目标函数，g(x)表示利用模型处理输入数据x后的输出数据，而y表示与输入数据对应的真实数据。

训练过程需要多次迭代求取目标函数的最小值。重复迭代直到测试精度趋于稳定。测试精度指在另外一份不参与模型训练的图像数据中测试的模型精度。

通过前述方式，可实现针对以Wavenet模型为基础的第三年龄预测模型。从而，在执行本公开实施例所提供的技术方案时，只需要将获取到的第一音频数据输入该第三年龄预测模型，即可得到前述目标用户的年龄识别结果。

通过前述方案，本公开实施例所提供的技术方案能够实现针对目标用户的年龄识别。

除此之外，还需要说民的是，本公开实施例中，除可以针对第一音频数据中单个目标用户的年龄识别之外，还可以实现对多个目标用户的年龄识别。

具体而言，这种实现方式在执行S104时，除确定单个目标用户之外，还可以包括如下步骤：

对所述第一音频数据进行人声识别处理，得到各用户的人声数据集合；

针对一个或多个所述人声数据集合，分别进行年龄识别处理，得到各用户的年龄识别结果。

其中，对第一音频数据进行人声识别处理的方式，可以参考前述图2所示的方式，不作赘述。

而对各用户的年龄识别处理，则可以利用前述任一实现方式来分别实现年龄识别。例如，将各用户的人声数据集合(或音频特征)输入前述年龄识别模型，来实现各用户的年龄识别。

或者，另一实现方式中，还可以将各用户的人声数据集合一并输入一个第四年龄识别模型，由第四年龄识别模型来一次性对各用户实现年龄识别。这种实现方式得到的年龄识别结果还可以进一步包含有如下设计：

用户的年龄；

用户所处的年龄阶段；

是否包含目标年龄段用户；

目标用户是否为目标年龄段用户。

在前述任一实现方式实现的年龄识别的基础上，本公开实施例进一步给出前述年龄识别结果的进一步应用。此时，可以参考图5，该方法还可以包括如下步骤：

S110，根据目标用户的年龄识别结果，判断所述目标用户是否为低龄用户；若是，执行S112；若否，结束。

如前所述，低龄用户对应的低龄段可以根据实际场景自定义设计。根据前述年龄识别结果，可直接或通过与预设低龄段的比对，确定目标用户是否为低龄用户。

S112，对所述目标用户进行低龄保护处理。

此时，所述目标用户为低龄用户，则对目标用户进行低龄保护处理。具体的，可以采取如下至少一种低龄保护处理，来实现S112。

一种低龄保护处理的方式中，可以限制目标用户的操作权限。

其中，所述操作权限可以包括但不限于：发表权限、浏览权限、删除权限、存储权限与评论权限中的至少一种。例如，可以限制低龄用户的浏览权限，避免其浏览到不适合其年龄段观看的内容。又例如，可以限制低龄用户的评论权限，以避免低龄用户的随意评论对内容发表者的评论偏差。

另一种低龄保护处理的方式中，可以获取目标用户的监护对象，并向所述监护对象发送监护提醒。

其中，监护对象的联系方式可以在目标用户的基础数据中进行获取。在实际的实现场景中，监护对象的联系方式可以为：通信号码，和/或，应用程序内的账号联系方式，本公开实施例对此无特别限定。

另一种低龄保护处理的方式中，可以根据各用户的所述年龄识别结果，确定目标用户的推荐内容，并向目标用户推荐所述推荐内容。

也就是，若目标用户为低龄用户，则根据低龄用户感兴趣的内容为其进行个性化内容的推荐。例如，将低龄用户中比较热门的动漫视频，推荐给目标用户。

通过前述方案，能够对低龄用户采取保护措施，避免低龄用户接触到与其年龄不适应的内容，助力低龄用户的成长。

可以理解的是，上述实施例中的部分或全部步骤或操作仅是示例，本申请实施例还可以执行其它操作或者各种操作的变形。此外，各个步骤可以按照上述实施例呈现的不同的顺序来执行，并且有可能并非要执行上述实施例中的全部操作。

本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

实施例二

基于上述实施例一所提供的基于音频的年龄识别方法，本公开实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

本公开实施例提供了一种基于音频的年龄识别装置，请参考图6，该基于音频的年龄识别装置600，包括：

获取模块61，用于获取第一音频数据，所述第一音频数据中包含至少一个用户的声音数据；

第一处理模块62，用于对所述第一音频数据进行间隔采样处理，得到目标用户的第二音频数据，所述目标用户为与所述第一音频数据对应的用户；

第二处理模块63，用于利用训练好的年龄识别模型处理所述第二音频数据，得到所年龄识别结果；

其中，所述年龄识别结果包括如下至少一种：

所述目标用户的年龄；

所述目标用户所处的年龄阶段；

所述目标用户是否为目标年龄段用户。

一种可能的设计中，第一处理模块62，具体用于：

在所述第一音频数据中，提取所述目标用户的声音数据，以作为所述第二音频数据。

另一种可能的设计中，第一处理模块62，具体用于：

在所述第一音频数据中，提取所述目标用户的声音数据；

在所述第一音频数据中进行间隔采样，得到采样集合；

获取所述声音数据与所述采样集合之间的交集，以作为所述第二音频数据。

另一种可能的设计中，第一处理模块62，还进一步具体用于：

利用训练好的第一声音识别模型处理所述第一音频数据，得到所述第一声音识别模型输出的所述目标用户的声音数据。

利用训练好的第二声音识别模型处理所述第一音频数据，得到所述第二声音识别模型输出的至少两个人声数据集合；

根据所述目标用户的先验信息，在所述至少两个人声数据集合中提取出所述目标用户的声音数据；其中，所述先验信息包括：所述目标用户的声音属性信息与历史音频数据中的至少一种。

或者，另一种可能的设计中，第一处理模块62，还进一步具体用于：

获取数据量最大的一个所述人声数据集合，以作为所述目标用户的声音数据。

利用训练好的采样模型处理所述第一音频数据，得到所述采样模型输出的音频数据，以作为所述采样集合；

或者，

按照预设的采样间隔，对所述第一音频数据进行音频提取，得到所述采样集合。

另一种可能的设计中，第二处理模块63，具体用于：

利用训练好的第一年龄识别模型处理所述第二音频数据，得到所述第一年龄识别模型输出的所述目标用户的年龄识别结果。

另一种可能的设计中，第二处理模块63，具体用于：

对所述第二音频数据进行特征提取，得到目标音频特征；

利用训练好的第二年龄识别模型处理所述目标音频特征，得到所述第二年龄识别模型输出的所述目标用户的年龄识别结果。

另一种可能的设计中，所述基于音频的年龄识别方法执行于第三年龄识别模型中；

其中，所述第三年龄识别模型的输入为所述第一音频数据，输出为所述目标用户的年龄识别结果。

其中，所述第三年龄识别模型包括：Wavenet神经网络模型。

另一种可能的设计中，第一处理模块62，还用于对所述第一音频数据进行人声识别处理，得到各用户的人声数据集合；

第二处理模块63，还用于针对一个或多个所述人声数据集合，分别进行年龄识别处理，得到各用户的年龄识别结果。

此外，所述基于音频的年龄识别装置600，还包括：

判断模块(图6未示出)，用于根据目标用户的年龄识别结果，判断所述目标用户是否为低龄用户；

第三处理模块(图6未示出)，用于若所述用户为所述低龄用户，对所述目标用户进行低龄保护处理。

其中，第三处理模块，具体用于执行如下至少一种：

限制所述目标用户的操作权限；所述操作权限包括：发表权限、浏览权限、删除权限、存储权限与评论权限中的至少一种；

获取所述目标用户的监护对象，并向所述监护对象发送监护提醒；

根据所述年龄识别结果，确定所述目标用户的感兴趣内容，并向所述目标用户推荐所述感兴趣内容。

图6所示实施例的基于音频的年龄识别装置600可用于执行上述方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述，可选的，该基于音频的年龄识别装置600可以为终端。

应理解以上图6所示基于音频的年龄识别装置600的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块以软件通过处理元件调用的形式实现，部分模块通过硬件的形式实现。例如，第二处理模块63可以为单独设立的处理元件，也可以集成在基于音频的年龄识别装置600中，例如终端的某一个芯片中实现，此外，也可以以程序的形式存储于基于音频的年龄识别装置600的存储器中，由基于音频的年龄识别装置600的某一个处理元件调用并执行以上各个模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个微处理器(digital singnal processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。再如，当以上某个模块通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central ProcessingUnit，CPU)或其它可以调用程序的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

并且，本公开实施例提供了一种基于音频的年龄识别装置，请参考图7，该基于音频的年龄识别装置600，包括：

存储器610；

处理器620；以及

计算机程序；

其中，计算机程序存储在存储器610中，并被配置为由处理器620执行以实现如上述实施例所述的方法。

其中，基于音频的年龄识别装置600中处理器620的数目可以为一个或多个，处理器620也可以称为处理单元，可以实现一定的控制功能。所述处理器620可以是通用处理器或者专用处理器等。在一种可选地设计中，处理器620也可以存有指令，所述指令可以被所述处理器620运行，使得所述基于音频的年龄识别装置600执行上述方法实施例中描述的方法。

在又一种可能的设计中，基于音频的年龄识别装置600可以包括电路，所述电路可以实现前述方法实施例中发送或接收或者通信的功能。

可选地，所述基于音频的年龄识别装置600中存储器610的数目可以为一个或多个，存储器610上存有指令或者中间数据，所述指令可在所述处理器620上被运行，使得所述基于音频的年龄识别装置600执行上述方法实施例中描述的方法。可选地，所述存储器610中还可以存储有其他相关数据。可选地处理器620中也可以存储指令和/或数据。所述处理器620和存储器610可以单独设置，也可以集成在一起。

此外，如图7所示，在该基于音频的年龄识别装置600中还设置有收发器630，其中，所述收发器630可以称为收发单元、收发机、收发电路、或者收发器等，用于与测试设备或其他终端设备进行数据传输或通信，在此不再赘述。

如图7所示，存储器610、处理器620与收发器630通过总线连接并通信。

若该基于音频的年龄识别装置600用于实现对应于图1中的方法时，处理器620用于完成相应的确定或者控制操作，可选的，还可以在存储器610中存储相应的指令。各个部件的具体的处理方式可以参考前述实施例的相关描述。

此外，在另一个可能的设计中，请参考图8，该基于音频的年龄识别装置600中还可以进一步设置：音频采集装置640；

其中，音频采集装置640，用于采集所述第一音频数据。

其中，音频采集装置640包括任意可以采集到音频数据的装置，如麦克风。

此外，本公开实施例提供了一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行以实现如实施例一所述的方法。

以及，本公开实施例提供了一种终端，请参考图9，该终端900包括：基于音频的年龄识别装置600与终端主体910。其中，基于音频的年龄识别装置600用于执行如实施例一任一实现方式所述的基于音频的年龄识别方法。

其中，终端主体910中一般还配置有音频采集装置(如终端中搭载的话筒或麦克风)等。此时，如图8所示的基于音频的年龄识别装置600中的音频采集装置可以复用终端已有的设备。

本公开实施例对于终端主体910所包含的组件无特别限制。在一种实际的实现场景中，可以包括以下一个或多个组件：处理组件，存储器，电源组件，多媒体组件，音频组件，输入/输出(I/O)接口，传感器组件，以及通信组件。

而本公开实施例所涉及到的终端900可以是无线终端也可以是有线终端。无线终端可以是指向目标用户提供语音和/或其他业务数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network，简称RAN)与一个或多个核心网设备进行通信，无线终端可以是移动终端，如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。再例如，无线终端还可以是个人通信业务(Personal Communication Service，简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol，简称SIP)话机、无线本地环路(Wireless Local Loop，简称WLL)站、个人数字助理(Personal DigitalAssistant，简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station)，移动站(Mobile Station)、移动台(Mobile)、远程站(RemoteStation)、远程终端(Remote Terminal)、接入终端(Access Terminal)、目标用户终端(User Terminal)、目标用户代理(User Agent)、目标用户设备(User Device or UserEquipment)，在此不作限定。可选的，上述终端设备还可以是智能手表、平板电脑等设备。

由于本实施例中的各模块能够执行实施例一所示的方法，本实施例未详细描述的部分，可参考对实施例一的相关说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种基于音频的年龄识别方法，其特征在于，包括：

其中，所述年龄识别结果包括如下至少一种：

所述目标用户的年龄；

所述目标用户所处的年龄阶段；

所述目标用户是否为目标年龄段用户。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一音频数据进行间隔采样处理，得到目标用户的第二音频数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述第一音频数据进行间隔采样处理，得到目标用户的第二音频数据，包括：

在所述第一音频数据中，提取所述目标用户的声音数据；

在所述第一音频数据中进行间隔采样，得到采样集合；

4.根据权利要求2或3所述的方法，其特征在于，所述在所述第一音频数据中，提取所述目标用户的声音数据，包括：

5.根据权利要求2或3所述的方法，其特征在于，所述在所述第一音频数据中，提取所述目标用户的声音数据，包括：

根据所述目标用户的先验信息，在所述至少两个人声数据集合中提取出所述目标用户的声音数据；其中，所述先验信息包括：所述目标用户的声音属性信息与历史音频数据中的至少一种；或者，获取数据量最大的一个所述人声数据集合，以作为所述目标用户的声音数据。

6.根据权利要求3所述的方法，其特征在于，所述在所述第一音频数据中进行间隔采样，包括：

或者，

7.根据权利要求1所述的方法，其特征在于，所述利用训练好的年龄识别模型处理所述第二音频数据，得到所年龄识别结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述利用训练好的年龄识别模型处理所述第二音频数据，得到所年龄识别结果，包括：

对所述第二音频数据进行特征提取，得到目标音频特征；

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据目标用户的年龄识别结果，判断所述目标用户是否为低龄用户；

若所述用户为所述低龄用户，对所述目标用户进行低龄保护处理。

11.根据权利要求10所述的方法，其特征在于，所述对所述目标用户进行低龄保护处理，包括如下至少一种：

12.一种基于音频的年龄识别装置，其特征在于，包括：

其中，所述年龄识别结果包括如下至少一种：

所述目标用户的年龄；

所述目标用户所处的年龄阶段；

所述目标用户是否为目标年龄段用户。

13.一种基于音频的年龄识别装置，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如权利要求1-11任一项所述的方法。