CN111192319A

CN111192319A - 用于监控人类面部到智能设备的距离的系统和方法

Info

Publication number: CN111192319A
Application number: CN201910402105.2A
Authority: CN
Inventors: 朱胜栋; 钟镭; 宋愷晟; 郭嘉
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2018-11-14
Filing date: 2019-05-13
Publication date: 2020-05-22
Anticipated expiration: 2039-05-13
Also published as: CN111192319B; US20200151432A1; US10896320B2

Abstract

在实施方式中，儿童面部提醒系统用于与具有显示屏的智能设备一起使用。利用具有嵌入式距离信息的数据集图像进行训练的神经网络模型可在智能设备的后台运行。当利用智能设备接收所获取的儿童面部图像帧时，神经网络模型可确定出所获取的图像帧是来自于儿童，并且基于所获取的图像帧上的面部的大小进一步确定儿童的面部是否在相距显示屏的预定距离内。如果面部在预定距离内，则智能设备可显示儿童的面部过于靠近显示屏的提醒并且可暂停一个或多个用户应用直至儿童的面部移动至预定距离之外。

Description

用于监控人类面部到智能设备的距离的系统和方法

技术领域

本公开的实施方式大体涉及智能设备。更具体地，本公开的实施方式涉及用于监控儿童面部到智能设备(诸如智能扬声器)的距离的系统和方法。

背景技术

智能设备，例如智能扬声器，可借助一个“热词(hot word)”的辅助来提供交互动作和不需要手的激活。智能设备可具有显示屏以经由语音控制命令提供服务，例如，在线搜索、视频呼叫、媒体回放、视频串流以及云照片。

由于服务的娱乐性特点，与启用屏幕的智能设备交互的用户可能容易全神贯注于显示屏上正在发生的东西。当用户(尤其是儿童)在相距小屏幕近的距离处花费过多时间时，他们冒着其眼睛紧张的风险并且这对其视力造成永久性的损坏。

一些现有的方案可利用深度传感器或资源密集算法在用户的面部过于靠近智能设备的显示屏时提醒用户。然而，这些现有的方案要求额外的硬件组件，或者在资源有限的设备中是不适用的。因此，需要用于在用户的面部过于靠近启用屏幕的智能设备时资源高效地生成提醒的方案。

发明内容

本公开的实施方式提供由计算机实现的用于监控人类面部与智能设备的显示屏之间的距离的方法、存储有用于监控人类面部与智能设备的显示屏之间的距离的指令的非暂时性机器可读介质以及数据处理系统。

在本公开的一方面，由计算机实现的用于监控人类面部与智能设备的显示屏之间的距离的方法包括：利用所述智能设备的相机捕获操作所述智能设备的用户的人类面部的图像帧；利用在所述智能设备上运行的经训练的神经网络模型对所述图像帧分类，以确定所述人类面部是否为儿童面部以及所述人类面部是否在相距所述智能设备的显示屏的预定距离内；以及响应于确定出所述人类面部是在所述预定距离内的儿童面部，在所述智能设备的显示屏上生成提醒消息。

在本公开的另一方面，非暂时性机器可读介质存储有用于监控人类面部与智能设备的显示屏之间的距离的指令，所述指令在被处理器执行时致使所述处理器执行操作，所述操作包括：利用所述智能设备的相机捕获操作所述智能设备的用户的人类面部的图像帧；利用在所述智能设备上运行的经训练的神经网络模型对所述图像帧分类，以确定所述人类面部是否为儿童面部以及所述人类面部是否在相距所述智能设备的显示屏的预定距离内；以及响应于确定出所述人类面部是在所述预定距离内的儿童面部，在所述智能设备的显示屏上生成提醒消息。

在本公开的另一方面，数据处理系统包括：处理器；以及存储器，联接至所述处理器，并且存储用于监控人类面部与智能设备的显示屏之间的距离的指令，所述指令在被处理器执行时致使所述处理器执行操作，所述操作包括：利用所述智能设备的相机捕获操作所述智能设备的用户的人类面部的图像帧；利用在所述智能设备上运行的经训练的神经网络模型对所述图像帧分类，以确定所述人类面部是否为儿童面部以及所述人类面部是否在相距所述智能设备的显示屏的预定距离内；以及响应于确定出所述人类面部是在所述预定距离内的儿童面部，在所述智能设备的显示屏上生成提醒消息。

附图说明

在附图的各图中通过示例而非限制的方式示出本公开的实施方式，在附图中，相同的参考标记指代相同的元件。

图1示出根据实施方式的用于监控儿童面部到智能设备的距离的系统。

图2示出根据实施方式的示例性经训练的面部分类模型。

图3示出根据实施方式的用于对面部分类模型进行训练的示例性图像。

图4是示出根据实施方式的用于监控人类面部与智能设备的显示屏之间的距离的过程的示例的流程图。

图5是示出可与本公开的一个实施方式一起使用的距离提醒系统的示例的框图。

具体实施方式

将参考以下所讨论的细节来描述本公开的各种实施方式和方面，附图将示出所述各种实施方式。下列描述和附图是对本公开的说明，而不应当解释为限制本公开。描述了许多特定细节以提供对本公开各种实施方式的全面理解。然而，在某些情况下，并未描述众所周知的或常规的细节以提供对本公开的实施方式的简洁讨论。

本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可以包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指同一实施方式。

智能设备可为具有显示屏并且具有用于运行软件应用的微处理器和存储器的智能扬声器、移动设备和任何其他家电。

智能设备可显示用户的面部过于靠近显示屏的消息，并且可同时暂停用户正在使用的任何服务直至用户的面部移动到预定距离之外。在实施方式中，智能设备可以等待，直至用户的面部停留在预定距离内可配置的时间段(例如，10秒)后，再采取提醒用户的动作。

智能设备以可配置的捕获速率(例如每秒4帧)获取儿童面部图像，并且可处理每个图像帧，以将其像素大小减小至与训练数据集图像的像素大小(例如，24x24像素)相等。

在实施方式中，神经网络模型可为具有多个层的卷积神经网络模型。层的数量可基于固定像素大小以及期望的图像分类准确度的组合来确定。

例如，在给出每个训练数据集图像的固定像素大小的情况下，可初始地训练各自具有不同的层组成的多个卷积神经网络模型。每个被训练的模型可在具有给定硬件容量的智能设备上进行测试。如果在期望的应答时间内全部的经训练的模型可实现一定比率的期望图像分类准确度，则可选择经训练的具有最少数量的层的模型来与儿童面部提醒系统一起使用。

在实施方式中，训练数据集图像包括在相距相机的各种距离处拍摄的面部图像。面部的大小将基于距离而不同。通过面部的大小表征的距离信息可编码到卷积网络模型中。模型转而可用于基于所获取的图像帧上的面部的大小确定面部相距相机多远。

卷积神经网络模型可在资源有限的智能设备的后台持续地运行。在神经网络模型中，减小的图像大小和微调的层组成可在不牺牲其图像分类准确度的情况下减少模型的CPU和存储器利用率。

本发明的实施方式仅出于例示的目的描述了用于检测儿童面部到智能设备的显示屏的距离的卷积神经网络模型。本领域普通技术人员将理解，可类似地训练其他类型的神经网络并且可使用其他实施方式。

例如，可根据对资源利用率和/或图像分类准确度的不同的需求来调整卷积神经网络模型的层的类型、层的数量以及每个层中的神经元的数量。可使用不同的训练数据集来训练模型，使得所述模型可用于监控在相距智能设备的显示屏不同距离处的儿童面部。系统还可配置成：当任何年龄的个体的面部在显示屏的预定距离内时，生成提醒并且采取适当的动作。

如图1所示，系统100包括多个软件组件，其包括相机API 115、模型推理库119、面部分类模型121以及前端提醒用户界面117。以上软件组件中的每一个可加载到存储器113中，并且可在智能设备109中的微处理器111上运行。

相机API 115可用于将相机107集成到儿童面部距离提醒系统100中。相机API 115可以以相机107的视角103捕获用户的面部101的图像帧。相机107可配置为：利用相机API115限制其帧捕获速率(例如，每秒4帧)并且改变每个所获取的帧的大小。例如，每个所获取的图像帧可改变至24x24像素。模型推理组件119可利用一组运算符执行面部分类模型121。在实施方式中，模型推理119还可使用用于硬件加速的神经网络API。面部分类模型121可表示已经针对在智能设备109上运行的操作系统(例如，Android OS)被训练和优化的卷积神经网络模型。

在实施方式中，面部分类模型121可接收通过相机API 115获取的图像帧，并且可将所获取的图像帧中的每一个分类成多种类别之一。如果确定至少一个所获取的图像帧是儿童的面部且所述面部在显示屏125的预定距离内，则前端提醒用户界面117可暂停一个或多个用户应用123，并且显示用户的面部过于靠近显示屏125的提醒消息。

例如，如果儿童正在观看视频或浏览显示屏125上的内容且系统确定出儿童坐在相距显示屏125的预定距离内，则系统可显示提醒消息并且暂停或停止视频直至儿童向后坐。

在实施方式中，系统可配置为：仅在确定儿童的面部在相距显示屏的预定距离内维持了预定时间段时显示提醒消息和/或暂停运行的用户应用。例如，如果儿童仅在相距显示屏125的预定距离内移动他的面部并且迅速地移开，则即使儿童面部的单个图像帧已经被获取并正确地分类，系统也不会显示提醒消息或者暂停任何运行的用户应用。

在实施方式中，相机107可以是显示屏125的一部分或者邻近显示屏125。因此，可基于用户的面部101到相机107的距离、显示屏125的大小以及显示屏125的倾斜角度，确定用户的面部101到显示屏125的距离在某一范围内。用户的面部101到相机107的距离可基于如从相机107观察的、用户的面部101的大小来确定。距离与图像大小之间的关系可编码到面部分类模型121中。

图2示出根据实施方式的示例性经训练的面部分类模型。

面部分类模型121可为经训练的神经网络模型。神经网络可包括设计成模拟人类大脑的被连接的神经元的集合。神经网络中的每个神经元可连接至其他神经元，使得一个神经元的输出可作为另一神经元的输入被接收。每个神经元可具有将通向该神经元的全部输入的值组合以生成输出的活性功能。可将神经元之中的连接参数化以增强或抑制在神经元之间传输的信号。

可计划性地对神经网络进行训练，以利用具有已知解或真实情况的训练数据的集合(训练数据集)来执行任务。为了训练神经网络，神经网络可重复地将其针对输入数据的输出与针对输入数据的已知解进行比较。基于该比较，可针对神经网络增额地调整其参数，使得神经网络的输出接近已知解。之后，可在不改变神经网络的参数的情况下，比对不同于训练数据集的一组测试数据来测试神经网络。可使所得的神经网络遵从二进制制品并且配置为应用中的组件以执行特定的分析任务。二进制制品是经训练的神经网络模型。

卷积神经网络是包括输入、输出层和多个隐藏层的一类神经网络。隐藏层可包括卷积层、池化层、全连接层和常规层。

在实施方式中，面部分类模型121可为包括卷积层A 203、卷积层B 205、全连接层A207和全连接层B 209的卷积神经网络模型。每个卷积层203或205可用于从输入图像帧201提取特征，并且每个全连接层可用于学习所提取的特征并且将表征特征的数据分类成各种类别。

在实施方式中，每个卷积层是二维(2D)层。在卷积层A 203中，输入图像帧201通过二维阵列的像素值来表征。可对2D阵列的像素值应用多个过滤器，以生成同等数量的特征映射。特征映射的数量等于过滤器的数量。每个过滤器可以是2D阵列的数以表征输入图像帧201的片段。在卷积层B 205中，可对多个特征映射应用相同的过滤器以生成一组新的特征映射。

全连接层A 207可将具有输入图像帧201的大小(例如，24x24像素)的一个或多个过滤器应用于这组新的特征映射以生成输出。全连接层A 209还可将一个或多个过滤器应用于所述输出，以生成对于输入图像帧201的预测结果。预测结果可以是“背景”211、“近的儿童面部”213、“近的成人面部”215和“远的面部”217之一。当分类为“背景”213时，已经确定输入图像帧201是背景场景的一部分。当分类为“近的儿童面部”时，已经确定输入图像帧201是在相距智能设备的显示屏的预定距离内的儿童面部。类似地，“近的成人面部”215意味着输入图像帧201是在相距显示屏的预定距离内的成人面部，且“远的面部”217意味着面部在相距显示屏的预定距离外。

在实施方式中，为了在资源有限的设备中进一步提高面部分类模型121的性能，可使用定点量化技术。量化技术表示模型的、在预限定的最小值与预限定的最大值之间均匀分布的呈固定数量的值(例如，256个值)的输入、输出和中间输出。这些值转而可通过数量减少的比特(例如，8比特)来表征，从而减少资源消耗。此外，如上所述，可减小输入图像帧201的大小，例如，从640x480像素到24x24像素。可通过各种下采样方法将通过这样的大小减小所得的像素化的帧光滑化。用于执行下采样方法的一种方式是通过深度卷积技术来进行。

训练数据集图像包括在多种年龄组中的儿童的面部图像、在不同场景中并且面向各种方向的成人的面部图像。每个训练数据集图像(例如，图像A 301和图像B 302)可裁剪成固定尺寸的矩形306或308，其中所述矩形306或308的长度和宽度之间具有固定比率(例如，4:3)。在实施方式中，固定比率可以是与所获取的帧的长度与宽度之间的比率相同的比率。

在实施方式中，可将边界框305或309放置于每个面部图像301或302上的面部上以指出面部的大小。可通过头部宽度lw 304和颏部-发缘长度lh 303来测量边界框的大小。每个边界框具有中心；例如，图像A 301中的边界框305的中心是(lx,ly)。因为训练数据集图像可包括不同的面部形状和不同的面部方向，所以用于训练数据集图像的边界框在形状和大小方面可不同。

面部可并非总是在矩形的中心处。这样，边界框的中心和包围矩形的中心可不同。在实施方式中，矩形的中心可位于通过

和

限定的区域中，其中，w和h分别是矩形的宽度和高度。

基于矩形的宽度和长度，可计算矩形的对角线。在图像B 302的示例中，假设矩形308具有长度4和宽度3，则矩形308的对角线d315将为5。可通过公式

来计算从包围边界框309延伸的等效矩形311的对角线ld310。对于具有给定规格的相机，可针对在相距相机各种距离处拍摄的人类面部的图像来获得d和ld之间的比率。

以下表1示出根据实施方式的距离和相应的比率。

表1

距离(cm)	比率(d/ld)
		10	0.70
20	1.40
		30	2.10

如表1所示，d/ld之间的比率与面部到相机的距离成比例。比率和距离之间的关系可用于确定面部相距智能设备的显示屏多远。

图4是示出根据实施方式的用于监控人类面部与智能设备的显示屏之间的距离的过程400的示例的流程图。

可通过可包括软件、硬件或它们的组合的处理逻辑来执行过程400。可通过可包括硬件(例如，电路、专用逻辑、可编程逻辑、处理器、处理设备、中央处理单元(CPU)、芯片上系统(SoC)等)、软件(例如，在处理设备上运行/执行的指令)、固件(例如，微代码)或它们的组合的处理逻辑来执行过程400。在一些实施方式中，可通过图1中所示的软件组件115、117、119和121中的一个或多个来执行过程400。

参考图4，在操作401中，智能设备(例如，具有显示屏的智能扬声器)中的处理逻辑接收人类面部的图像帧，其中通过智能设备上的相机获取图像帧。可调用相机API以将相机的帧捕获速率限制为预定值，从而减少智能设备的资源利用。处理逻辑可对图像帧进行预处理以将其像素大小减小至一对预定值。例如，图像帧可减小至24x24像素，其是每个裁剪后的训练数据集图像的大小。在操作403中，处理逻辑调用在智能设备上运行的经训练的神经网络模型来对图像帧进行分类，以确定人类面部是否为儿童面部以及人类面部是否在相距智能设备的显示屏的预定距离内。在操作405中，处理逻辑响应于确定出人类面部是在预定距离内的儿童面部，在智能设备的显示屏上生成提醒消息。智能设备还响应于确定出儿童面部在相距显示屏的预定距离内而暂停一个或多个用户应用。

应注意，如上文示出和描述的部件中的一些或全部可以在软件、硬件或其组合中实施。例如，此类部件可以实施为安装并存储在永久性存储装置中的软件，所述软件可以通过处理器(未示出)加载在存储器中并在存储器中执行以实施贯穿本申请所述的过程或操作。替代地，此类部件可以实施为编程或嵌入到专用硬件(诸如，集成电路(例如，专用集成电路或ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA))中的可执行代码，所述可执行代码可以经由来自应用的相应驱动程序和/或操作系统来访问。此外，此类部件可以实施为处理器或处理器内核中的特定硬件逻辑，作为可由软件部件通过一个或多个特定指令访问的指令集的一部分。

图5是示出可以与本公开的一个实施方式一起使用的距离提醒系统的示例的框图。

例如，系统1500可以表示以上所述的执行上述过程或方法中的任一个的任何距离监控系统。系统1500可以包括许多不同的部件。这些部件可以实施为集成电路(IC)、集成电路的部分、分立电子装置或适用于电路板(诸如，计算机系统的主板或插入卡)的其它模块或者实施为以其它方式并入计算机系统的机架内的部件。

还应注意，系统1500旨在示出计算机系统的许多部件的高阶视图。然而，应当理解的是，某些实施例中可以具有附加的部件，此外，其它实施例中可以具有所示部件的不同布置。系统1500可以表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏装置、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外，虽然仅示出了单个机器或系统，但是术语“机器”或“系统”还应当被理解为包括单独地或共同地执行一个(或多个)指令集以执行本文所讨论的任何一种或多种方法的机器或系统的任何集合。

在一个实施方式中，系统1500包括通过总线或互连件1510连接的处理器1501、存储器1503以及装置1505至1508。处理器1501可以表示其中包括单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器1501可以表示一个或多个通用处理器，诸如，微处理器、中央处理单元(CPU)等。更具体地，处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实施其它指令集的处理器、或实施指令集组合的处理器。处理器1501还可以是一个或多个专用处理器，诸如，专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、通信处理器、加密处理器、协处理器、嵌入式处理器、或者能够处理指令的任何其它类型的逻辑。

处理器1501(其可以是低功率多核处理器套接口，诸如超低电压处理器)可以充当用于与所述系统的各种部件通信的主处理单元和中央集线器。这种处理器可以实施为片上系统(SoC)。处理器1501被配置成执行用于执行本文所讨论的操作和步骤的指令。系统1500还可以包括与可选的图形子系统1504通信的图形接口，图形子系统1504可以包括显示控制器、图形处理器和/或显示装置。

处理器1501可以与存储器1503通信，存储器1503在一个实施方式中可以经由多个存储器装置实施以提供给定量的系统存储。存储器1503可以包括一个或多个易失性存储(或存储器)装置，诸如，随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或者其它类型的存储装置。存储器1503可以存储包括由处理器1501或任何其它装置执行的指令序列的信息。例如，各种操作系统、装置驱动程序、固件(例如，输入输出基本系统或BIOS)和/或应用的可执行代码和/或数据可以加载到存储器1503中并由处理器1501执行。操作系统可以是任何类型的操作系统，例如，机器人操作系统(ROS)、来自

公司的

操作系统、来自苹果公司的Mac

来自

公司的

LINUX、UNIX，或者其它实时或嵌入式操作系统。

系统1500还可以包括IO装置，诸如装置1505至1508，包括网络接口装置1505、可选的输入装置1506，以及其它可选的IO装置1507。网络接口装置1505可以包括无线收发器和/或网络接口卡(NIC)。所述无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如，全球定位系统(GPS)收发器)或其它射频(RF)收发器或者它们的组合。NIC可以是以太网卡。

输入装置1506可以包括鼠标、触摸板、触敏屏幕(其可以与显示装置1504集成在一起)、指针装置(诸如，手写笔)和/或键盘(例如，物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如，输入装置1506可以包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器例如可以使用多种触敏技术(包括但不限于电容、电阻、红外和表面声波技术)中的任一种，以及其它接近传感器阵列或用于确定与触摸屏接触的一个或多个点的其它元件来检测其接触和移动或间断。

IO装置1507可以包括音频装置。音频装置可以包括扬声器和/或麦克风，以促进支持语音的功能，诸如语音识别、语音复制、数字记录和/或电话功能。其它IO装置1507还可以包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如，PCI-PCI桥)、传感器(例如，诸如加速度计运动传感器、陀螺仪、磁强计、光传感器、罗盘、接近传感器等)或者它们的组合。装置1507还可以包括成像处理子系统(例如，摄像机)，所述成像处理子系统可以包括用于促进摄像机功能(诸如，记录照片和视频片段)的光学传感器，诸如电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可以经由传感器集线器(未示出)联接到互连件1510，而诸如键盘或热传感器的其它装置可以根据系统1500的具体配置或设计由嵌入式控制器(未示出)控制。

为了提供对诸如数据、应用、一个或多个操作系统等信息的永久性存储，大容量存储设备(未示出)也可以联接到处理器1501。在各种实施方式中，为了实现更薄且更轻的系统设计并且改进系统响应性，这种大容量存储设备可以经由固态装置(SSD)来实施。然而，在其它实施方式中，大容量存储设备可以主要使用硬盘驱动器(HDD)来实施，其中较小量的SSD存储设备充当SSD高速缓存以在断电事件期间实现上下文状态以及其它此类信息的非易失性存储，从而使得在系统活动重新启动时能够实现快速通电。另外，闪存装置可以例如经由串行外围接口(SPI)联接到处理器1501。这种闪存装置可以提供系统软件的非易失性存储，所述系统软件包括所述系统的BIOS以及其它固件。

存储装置1508可以包括计算机可访问的存储介质1509(也被称为机器可读存储介质或计算机可读介质)，其上存储有体现本文所述的任何一种或多种方法或功能的一个或多个指令集或软件(例如，模块、单元和/或逻辑1528)。处理模块/单元/逻辑1528可以表示上述部件中的任一个，例如相机API 115、模型推理库119、面部分类模型121以及前端提醒用户界面117。处理模块/单元/逻辑1528还可以在其由数据处理系统1500、存储器1503和处理器1501执行期间完全地或至少部分地驻留在存储器1503内和/或处理器1501内，数据处理系统1500、存储器1503和处理器1501也构成机器可访问的存储介质。处理模块/单元/逻辑1528还可以通过网络经由网络接口装置1505进行传输或接收。

计算机可读存储介质1509也可以用来永久性地存储以上描述的一些软件功能。虽然计算机可读存储介质1509在示例性实施方式中被示为单个介质，但是术语“计算机可读存储介质”应当被认为包括存储所述一个或多个指令集的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当被认为包括能够存储或编码指令集的任何介质，所述指令集用于由机器执行并且使得所述机器执行本公开的任何一种或多种方法。因此，术语“计算机可读存储介质”应当被认为包括但不限于固态存储器以及光学介质和磁性介质，或者任何其它非暂时性机器可读介质。

本文所述的处理模块/单元/逻辑1528、部件以及其它特征可以实施为分立硬件部件或集成在硬件部件(诸如，ASICS、FPGA、DSP或类似装置)的功能中。此外，处理模块/单元/逻辑1528可以实施为硬件装置内的固件或功能电路。此外，处理模块/单元/逻辑1528可以以硬件装置和软件部件的任何组合来实施。

应注意，虽然系统1500被示出为具有数据处理系统的各种部件，但是并不旨在表示使部件互连的任何特定架构或方式；因为此类细节和本公开的实施方式没有密切关系。还应当认识到，具有更少部件或可能具有更多部件的网络计算机、手持计算机、移动电话、服务器和/或其它数据处理系统也可以与本公开的实施方式一起使用。

前述详细描述中的一些部分已经根据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方式，以将他们的工作实质最有效地传达给本领域中的其他技术人员。本文中，算法通常被认为是导致所期望结果的自洽操作序列。这些操作是指需要对物理量进行物理操控的操作。

然而，应当牢记，所有这些和类似的术语均旨在与适当的物理量关联，并且仅仅是应用于这些量的方便标记。除非在以上讨论中以其它方式明确地指出，否则应当了解，在整个说明书中，利用术语(诸如所附权利要求书中所阐述的术语)进行的讨论是指计算机系统或类似电子计算装置的动作和处理，所述计算机系统或电子计算装置操控计算机系统的寄存器和存储器内的表示为物理(电子)量的数据，并将所述数据变换成计算机系统存储器或寄存器或者其它此类信息存储设备、传输或显示装置内类似地表示为物理量的其它数据。

本公开的实施方式还涉及用于执行本文中的操作的设备。这种计算机程序被存储在非暂时性计算机可读介质中。机器可读介质包括用于以机器(例如，计算机)可读的形式存储信息的任何机构。例如，机器可读(例如，计算机可读)介质包括机器(例如，计算机)可读存储介质(例如，只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存存储器装置)。

前述附图中所描绘的过程或方法可以由处理逻辑来执行，所述处理逻辑包括硬件(例如，电路、专用逻辑等)、软件(例如，体现在非暂时性计算机可读介质上)或两者的组合。尽管所述过程或方法在上文是依据一些顺序操作来描述的，但是应当了解，所述操作中的一些可以按不同的顺序执行。此外，一些操作可以并行地执行而不是顺序地执行。

本公开的实施方式并未参考任何特定的编程语言进行描述。应认识到，可以使用多种编程语言来实施如本文描述的本公开的实施方式的教导。

在以上的说明书中，已经参考本公开的具体示例性实施方式对本公开的实施方式进行了描述。将显而易见的是，在不脱离所附权利要求书中阐述的本公开的更宽泛精神和范围的情况下，可以对本公开作出各种修改。因此，应当在说明性意义而不是限制性意义上来理解本说明书和附图。

Claims

1.由计算机实现的方法，用于监控人类面部与智能设备的显示屏之间的距离，所述方法包括：

利用所述智能设备的相机捕获操作所述智能设备的用户的人类面部的图像帧；

利用在所述智能设备上运行的经训练的神经网络模型对所述图像帧分类，以确定所述人类面部是否为儿童面部以及所述人类面部是否在相距所述智能设备的显示屏的预定距离内；以及

响应于确定出所述人类面部是在所述预定距离内的儿童面部，在所述智能设备的显示屏上生成提醒消息。

2.如权利要求1所述的方法，其中，所述经训练的神经网络模型将所捕获的图像帧分类成多种类别之一，所述多种类别包括：近的儿童面部、近的成人面部、背景以及远的面部。

3.如权利要求1所述的方法，其中，所述智能设备将所述图像帧的像素大小减小到一对预定值。

4.如权利要求3所述的方法，其中，所述智能设备是智能扬声器或移动设备，所述经训练的神经网络模型是具有多个层的卷积神经网络，所述多个层的数量至少基于所述像素大小和期望的图像分类准确度来确定。

5.如权利要求1所述的方法，其中，所述经训练的神经网络模型基于所述人类面部在所捕获的图像帧上的大小来确定所述人类面部的距离，其中响应于确定出所述人类面部是在所述预定距离内的儿童面部，所述智能设备另外地暂停在所述智能设备上运行的一个或多个用户应用。

6.如权利要求5所述的方法，其中，所述神经网络模型利用训练数据集图像进行训练，所述训练数据集图像中的每一个包括指示人类面部相距用于拍摄所述训练数据集图像的相机的距离的信息。

7.如权利要求6所述的方法，其中，所述训练数据集图像中的每一个包括包围所述训练数据集图像上的面部的边界框，并且所述训练数据集图像中的每一个被裁剪成具有固定长度的固定尺寸的矩形，其中计算所述矩形的对角线与从所述边界框延伸的等效矩形的对角线之间的比率，其中所述比率与同所述训练数据集图像关联的距离成比例。

8.如权利要求1所述的方法，其中，所述相机配置成：利用相机应用编程接口API将所述相机的帧捕获速率限制为预定数值。

9.非暂时性机器可读介质，其中存储有用于监控人类面部与智能设备的显示屏之间的距离的指令，所述指令在被处理器执行时致使所述处理器执行操作，所述操作包括：

10.如权利要求9所述的非暂时性机器可读介质，其中，所述经训练的神经网络模型将所捕获的图像帧分类成多种类别之一，所述多种类别包括近的儿童面部、近的成人面部、背景和远的面部。

11.如权利要求9所述的非暂时性机器可读介质，其中，所述智能设备将所述图像帧的像素大小减小至一对预定值。

12.如权利要求11所述的非暂时性机器可读介质，其中，所述智能设备是智能扬声器或移动设备，所述经训练的神经网络模型是具有多个层的卷积神经网络，所述多个层的数量至少基于所述像素大小和期望的图像分类准确度来确定。

13.如权利要求9所述的非暂时性机器可读介质，其中，所述经训练的神经网络模型基于所述人类面部在所获取的图像帧上的大小来确定所述人类面部的距离，其中，响应于确定出所述人类面部是在所述预定距离内的儿童面部，所述智能设备另外地暂停在所述智能设备上运行的一个或多个用户应用。

14.如权利要求13所述的非暂时性机器可读介质，其中，所述神经网络模型利用训练数据集图像进行训练，其中所述训练数据集图像中的每一个包括指示人类面部相距用于拍摄所述训练数据集图像的相机的距离的信息。

15.如权利要求14所述的非暂时性机器可读介质，其中，所述训练数据集图像中的每一个包括包围所述训练数据集图像上的面部的边界框，并且所述训练数据集图像中的每一个被裁剪成具有固定长度的固定尺寸的矩形，其中计算所述矩形的对角线与从所述边界框延伸的等效矩形的对角线之间的比率，其中所述比率与同所述训练数据集图像关联的距离成比例。

16.如权利要求9所述的非暂时性机器可读介质，其中，所述相机配置成：利用相机应用编程接口API将所述相机的帧捕获速率限制为预定数值。

17.数据处理系统，包括：

处理器；以及

存储器，联接至所述处理器，并且存储用于监控人类面部与智能设备的显示屏之间的距离的指令，所述指令在被处理器执行时致使所述处理器执行操作，所述操作包括：

18.如权利要求17所述的数据处理系统，其中，所述经训练的神经网络模型将所获取的图像帧分类成多种类别之一，所述多种类别包括近的儿童面部、近的成人面部、背景和远的面部。

19.如权利要求17所述的数据处理系统，其中，所述智能设备将所述图像帧的像素大小减小至一对预定值。

20.如权利要求19所述的数据处理系统，其中，所述智能设备是智能扬声器或移动设备，所述经训练的神经网络模型是具有多个层的卷积神经网络，所述多个层的数量至少基于所述像素大小和期望的图像分类准确度而确定。