CN114449320A

CN114449320A - 一种播放控制方法、装置、存储介质及电子设备

Info

Publication number: CN114449320A
Application number: CN202111657380.2A
Authority: CN
Inventors: 丛若男
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-06

Abstract

本公开涉及一种播放控制方法、装置、存储介质及电子设备。本公开获取电子设备所在空间区域内的用户图像信息；基于用户图像信息，确定用户的面部朝向信息；基于用户的面部朝向信息，确定用户的观影状态；获取电子设备所在空间区域内用户的语音信息；基于用户的语音信息，确定用户的聊天状态；基于用户的观影状态和用户的聊天状态，控制电子设备的播放状态。通过获取用户图像和语音信息，根据用户图像和语音判断用户的观影状态和聊天状态，并实时根据当前的用户状态，自动选择控制策略，对电子设备的播放状态进行调节，优化了电子设备智能化和自动化控制功能，提高了用户的实际使用体验。

Description

一种播放控制方法、装置、存储介质及电子设备

技术领域

本公开涉及一种播放控制方法、装置、存储介质及电子设备。

背景技术

用户在观看电视等电子设备的播放内容时，有时会进行聊天等其他娱乐活动，播放内容此时就会影响聊天等娱乐活动，同时，用户也会因聊天等娱乐活动错过想要观看的播放内容。

对此，用户可通过手动暂停播放实现播放内容的暂停，或者通过手动选择对播放内容的录制等操作以避免错过播放内容。

然而，这种操作仍需要消耗用户一定的精力和关注度，影响用户体验。

因此，如何增加对播放内容控制的自动程度以提升用户体验，成为目前亟待解决的技术问题。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供一种播放控制方法、装置、存储介质及电子设备。

根据本公开的第一方面，提供了一种电子设备播放控制方法。

在一可实施方式中，所述方法包括：获取电子设备所在空间区域内的用户图像信息；基于所述用户图像信息，确定所述用户的面部朝向信息；基于所述用户的面部朝向信息，确定所述用户的观影状态；获取电子设备所在空间区域内所述用户的语音信息；基于所述用户的语音信息，确定所述用户的聊天状态；基于所述用户的观影状态和所述用户的聊天状态，控制所述电子设备的播放状态。

在一可实施方式中，所述基于所述用户图像信息，确定所述用户的面部朝向信息，包括：基于所述用户图像信息确定所述用户的头部方向信息；根据所述用户的头部方向信息，确定所述用户的面部朝向信息；和/或，基于所述用户图像信息确定所述用户的视线信息；根据所述用户的视线信息，确定所述用户的面部朝向信息。

在一可实施方式中，所述基于所述用户的面部朝向信息，确定所述用户的观影状态，包括：基于所述用户的面部朝向信息为朝向电子设备，确定所述用户处于观影状态。

在一可实施方式中，所述基于所述用户的语音信息，确定所述用户的聊天状态，包括：基于所述用户的语音信息，确定所述用户中至少一人存在说话行为；在第一预设时间内，若检测到存在多人说话行为，确定所述用户处于聊天状态。

在一可实施方式中，所述基于所述用户的语音信息，确定所述用户中至少一人存在说话行为，还包括：基于所述用户图像信息，确定所述用户的唇动信息；基于所述用户的唇动信息和所述用户的语音信息，确定所述用户中至少一人存在说话行为。

在一可实施方式中，所述基于所述用户的语音信息，确定所述用户的聊天状态，包括：根据所述用户的语音信息，确定所述用户的语音信息对应的语义信息，根据所述语义信息判断所述用户的聊天状态。

在一可实施方式中，所述基于所述用户的观影状态和所述用户的聊天状态，控制所述电子设备的播放状态，包括：获取处于聊天状态的人数及人数占比，以及处于观影状态和处于非观影状态的人数及人数占比；确定处于聊天状态且处于非观影状态的人数及人数占比；基于在第二预设时间内，处于聊天状态且处于非观影状态的人数占比大于第一预设占比，控制所述电子设备的播放音量降低。

在一可实施方式中，所述基于所述用户的观影状态和所述用户的聊天状态，控制所述电子设备的播放状态，包括：基于在第三预设时间内，处于观影状态的人数占比为零，控制所述电子设备暂停播放，或者控制所述电子设备进入休眠模式；监测所述处于观影状态的人数占比，基于所述处于观影状态的人数占比不为零时，控制所述电子设备继续播放，或者控制所述电子设备退出休眠模式。

根据本公开的第二方面，提供了一种播放控制装置。

在一可实施方式中，包括：第一获取模块，用于获取电子设备所在空间区域内的用户图像信息；第二获取模块，用于获取电子设备所在空间区域内所述用户的语音信息；第一分析模块，用于基于所述电子设备所在空间区域内的图像信息，确定所述用户的观影状态；第二分析模块，用于基于所述电子设备所在空间区域内的语音信息和/或所述电子设备所在空间区域内的图像信息，确定所述用户的聊天状态；控制模块，用于基于所述用户的观影状态和所述用户的聊天状态，控制所述电子设备的播放状态。

根据本公开的第三方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开所述的电子设备播放控制方法。

根据本公开的第四方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本公开所述的电子设备播放控制方法。

本公开的一种播放控制方法、装置、存储介质及电子设备，使得电子设备能够在播放内容时，通过获取用户图像和语音信息，根据用户图像和语音判断用户的观影状态和聊天状态，并实时根据当前的用户状态，自动选择合适的控制策略，对电子设备的播放状态进行调节，优化了电子设备智能化和自动化控制功能，提高了用户的实际使用体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的播放控制方法的流程示意图一；

图2是本申请一示例性实施例提供的播放控制方法的流程示意图二；

图3是本申请另一示例性实施例提供的播放控制方法的流程示意图三；

图4是本申请又另一示例性实施例提供的播放控制方法的流程示意图四；

图5是本申请一示例性实施例提供的播放控制方法的流程示意图五；

图6是本申请一示例性实施例提供的播放控制方法的流程示意图六；

图7是本申请一示例性实施例提供的播放控制方法的流程示意图七；

图8是本申请一示例性实施例提供的播放控制方法的流程示意图八；

图9是本申请一示例性实施例提供的播放控制方法的流程示意图九；

图10是本申请一示例性实施例提供的播放控制方法的流程示意图十；

图11是本申请一示例性实施例提供的播放控制装置的框图一；

图12是本申请一示例性实施例提供的播放控制装置的框图二；

图13是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

用户在观看电视等电子设备的播放内容时，常常会进行聊天等其他娱乐活动，播放内容此时就会成为影响聊天等娱乐活动的负面因素，同时，用户也会因聊天等娱乐活动错过想要观看的播放内容。对此，用户可通过手动暂停播放实现播放内容的暂停，或者通过手动选择对播放内容的录制等操作以避免错过播放内容，但是，这种操作会消耗用户一定的精力和关注度，影响用户体验。

示例性方法

图1是本申请一示例性实施例提供的播放控制方法的流程示意图。本实施例可应用与电子设备上，如图1所示，该方法包括如下步骤：

步骤101，获取电子设备所在空间区域内的用户图像信息；

其中，获取用户图像信息的电子设备所在空间区域为所在空间区域内可观看到电子设备播放内容的空间区域，用户图像信息包括用户在空间区域内的图像和用户的身体区域的的图像。

在另一示例中，电子设备所在空间区域也可为电子设备的播放内容面的正前方区域，并可选取合适的水平角度获取区域范围内的用户图像信息，以保证在选取的区域范围之间能够获取较全的用户图像信息，且保证所获取的用户图像的质量。

步骤102，基于用户图像信息，确定用户的面部朝向信息；

其中，面部朝向信息是指用户面部是否朝向电子设备的判断信息，例如包括面部朝向电子设备和面部未朝向电子设备。基于用户图像信息，可通过用户的头部、人脸、视线等朝向进行分析，来判断用户的面部朝向信息，例如，若用户的头部、人脸或视线朝向电子设备时，则可判断用户的面部为朝向电子设备；也可以基于用户图像信息，通过预先训练得到的面部朝向识别模型，确定用户的面部朝向信息。

步骤103，基于用户的面部朝向信息，确定用户的观影状态；

其中，用户的观影状态是指用户是否正处于观看电子设备状态的判断信息，例如包括处于观影状态和处于非观影状态。可通过用户的面部朝向信息判断用户是否处于观影状态，例如，当确定用户的面部朝向电子设备，即确定用户处于观影状态，反之，则确定用户处于非观影状态。

步骤104，获取电子设备所在空间区域内用户的语音信息；

其中，获取语音信息的电子设备所在空间区域为电子设备能够采集到音频信号的范围组成的空间区域。用户的语音信息为采集的音频信号中的人声部分，初始采集的音频信号包含了电视声音、环境杂音和用户人声，也可能未包含用户人声，可通过音频采集器在空间区域内采集音频信号并输入至电子设备，电子设备对音频信号进行分析，当识别出音频信号中包含人声时，将人声部分从音频信号中分离出。从音频信号中识别及处理人声，可以基于计算听觉场景分析(CASA，Computational Auditory Scene Analysis)的音频分离技术，利用计算机技术模拟人体听觉系统，将声音分成人声和背景声同时出现的部分和只有背景声的部分，将人声和背景声同时出现部分的信号通过多通道滤波器分解，将人声从音频信号中分离。从音频信号中识别及处理人声亦可采用其他能够实现相同或相似技术效果的技术手段，本实施例在此不做限定且不再展开描述。

在另一示例中，电子设备所在空间区域也可为电子设备的播放内容面的正前方区域，即处于观影位置的用户进行针对性的定向音频采集。

步骤105，基于用户的语音信息，确定用户的聊天状态；

其中，用户的聊天状态是指用户是否正与其他用户对话的判断信息，例如包括处于聊天状态和处于非聊天状态。基于用户的语音信息，可通过声纹识别技术或语义分析技术，对语音信息的声纹特征、语句的语义、相邻语句的间隔时间等参数进行分析，从而确定用户是否正在与其他用户进行对话，若确定有多个用户在进行对话，则可确定用户处于聊天状态，反之，则确定用户处于非聊天状态。

步骤106，基于用户的观影状态和用户的聊天状态，控制电子设备的播放状态。

其中，如图1所示，步骤101和104之间无固定的先后顺序。

结合控制过程进行具体解释，其中，步骤101，电子设备获取电子设备所在空间区域内的用户图像信息后，执行步骤102，针对用户图像进行分析，判断用户的面部朝向信息，根据用户的面部朝向信息的判断结果，执行步骤103，从而确认用户当前是否处于观影状态。

步骤104，电子设备获取电子设备所在空间区域的语音信息后，执行步骤105，并根据语音信息确定用户当前是否处于聊天状态。

最后，在确定了用户的观影状态和聊天状态后，执行步骤106，基于用户的观影状态和用户的聊天状态的信息进行结合判断，根据判断结果控制电子设备对当前播放内容做出适应性的控制策略，对电子设备的播放状态进行调节。

以此，使得电子设备能够在播放内容时，通过获取用户图像和语音信息，根据用户图像和语音判断用户的观影状态和聊天状态，并实时根据当前的用户状态，自动选择合适的控制策略，对电子设备的播放状态进行调节，优化了电子设备控制的智能化和自动化，使电子设备和用户的主动交互，提高了用户的实际使用体验。

在一实施例中，在上述图1所示实施例的基础上，步骤102，基于用户图像信息，确定用户的面部朝向信息，可包括如下步骤：

步骤1021，基于所述用户图像信息确定所述用户的头部方向信息；

步骤1022，根据用户的头部方向信息，确定用户的面部朝向信息；

其中，用户的头部方向信息是指以用户平视电子设备的头部方向为基准方向，对用户当前相对于基准方向的头部方向的判别信息，例如包括：抬头、低头、转头等。可通过将用户图像从2D图像映射到3D图像，计算头部俯仰角、滚转角等信息，得到人脸姿态的朝向是抬头、低头还是转头。

和/或，

步骤1023，基于所述用户图像信息确定所述用户的视线信息；

步骤1024，根据用户的视线信息，确定用户的面部朝向信息。

其中，用户的视线信息包括视线方向、眼动情况等信息，是指用户的视线是否落于电子设备的判别信息。可通过对用户图像中用户的眼部图像进行图像分析，确定用户的视线信息。

如图2所示，在一示例中，在步骤101中获取到用户图像信息后，执行步骤1021，对从步骤101中获取的用户图像中用户的头部方向进行分析，例如，判断用户是否处于低头状态，或判断用户的转头幅度是否超过预设角度，如45度，并生成对应的用户的头部方向信息。根据用户的头部方向信息，执行步骤1022，当用户未处于低头状态和/或转动幅度未超过预设角度时，则确定用户面部朝向信息为朝向电子设备，反之，则确定用户面部朝向信息为未朝向电子设备。

通过对用户图像信息中用户的头部方向信息进行分析和判断，当用户存在低头或转头幅度过大时，即可判断用户面部此时并未朝向电子设备，有利于电子设备快速确定用户的面部朝向信息。

如图3所示，在另一示例中，在获取到用户图像信息后，执行步骤1023，对从步骤101中获取的用户图像中的用户视线进行分析，例如，对用户的视线方向进行分析，或基于连续的用户图像信息分析用户的眼动情况，并判断用户的眼动情况是否与电视节目相关联，又或是基于视线追踪技术进行判断，并生成对应的用户的视线信息。其中，对用户的视线方向的分析，可基于图像的人眼视线方向估计技术，如通过建立人眼的二维模型，基于不同视线方向眼球中心距眼眶内侧距离的规律，计算左右眼球中心到左右眼眶内侧距离差值来估计人眼视线方向的算法，在本实施例中，仅需实现根据用户图像识别用户的视线方向即可，本实施例不做限制且不再展开赘述。其中，基于连续的用户图像信息分析用户的眼动情况，可基于连续图像的眼动分析技术，如通过人脸识别技术，分析其中一张用户图像的人脸特征，确定人眼在人脸中的大致范围，且其位置比例相对固定，根据这些值粗略判定眼眶位置，进而确定眼眶内侧位置，建立该用户图像中人眼的二维模型，并以该用户图像为基准，将其后的连续用户图像一一与基准用户图像建立仿射变换矩阵或透视变换矩阵，建立每一用户图像的人眼二维模型，并通过比对每一用户图像的人眼二维模型，判断用户的眼动情况，在本实施例中，仅需实现根据连续的用户图像识别用户的眼动情况即可，本实施例不做限制且不再展开赘述。

根据用户的视线信息，执行步骤1024，当用户的视线方向朝向电子设备，和/或用户的眼动情况与电视节目相关联，和/或视线追踪技术判断用户的视线是朝向电子设备，则判断用户的面部朝向信息为朝向电子设备，反之，则确定用户面部朝向信息为未朝向电子设备。

通过对用户图像信息中用户的视线信息进行分析，使用视线追踪技术和/或眼动追踪技术，对用户的视线方向和/或用户的眼动情况进行分析，并判断用户此时是否注视电子设备，从而确定用户的面部朝向信息，提高了对用户的面部朝向信息判断的准确性。

如图4所示，在又另一示例中，电子设备均执行步骤1021和步骤1023，并基于用户的头部方向信息和用户的视线信息进行结合判断，以此，确定用户面部朝向信息是否为朝向电子设备，进一步提高了对用户的面部朝向信息判断的准确性。

在一实施例中，如图5所示，在上述图1所示实施例的基础上，步骤103，基于用户的面部朝向信息，确定用户的观影状态，可包括如下步骤：

步骤1031，基于用户的面部朝向信息为朝向电子设备，确定用户处于观影状态。

当通过用户的面部朝向信息确定用户的面部是朝向电子设备时，则确定此时用户处于观影状态。若否，则确定用户处于非观影状态。

在一实施例中，如图6所示，在上述图1所示实施例的基础上，步骤105，基于用户的语音信息，确定用户的聊天状态，可包括如下步骤：

步骤1051，基于用户的语音信息，确定用户中至少一人存在说话行为；

步骤1052，在第一预设时间内，若检测到存在多人说话行为，确定用户处于聊天状态。

其中，在步骤104中，当电子设备从初始采集的音频信号中确定存在人声时，则确定用户存在说话行为。在步骤1052中，第一预设时间可根据统计常规对话的间隔时间或在实验中作适应性的调整，以提高检测的准确性，本实施例在此不做限制，例如一用户说话后，检测到除说话人以外其他用户有说话行为，且两者说话时间间隔未超过5秒，则确定存在多人说话行为，此5秒即为第一预设时间。

在一示例中，检测音频信号中是否存在多人说话行为可采用声纹识别技术，通过对人声中音高、音强、音长、音色四要素进行分析，从音频信号中识别出人声以及识别出存在不同人声，或也可采用神经网络模型对音频信号中的人声特征进行识别和区分，从而实现从音频信号中识别人声以及识别出不同人声的效果，人声识别和区分均为现有技术，仅需实现从获取的语音信息中能够识别及区分人声的效果即可，在此不做限制且不再展开赘述。

在一实施例中，如图7所示，在上述图6所示实施例的基础上，步骤1051，基于用户的语音信息，确定用户中至少一人存在说话行为，还包括如下步骤：

步骤10511，基于用户图像信息，确定用户的唇动信息；

步骤10512，基于用户的唇动信息和用户的语音信息，确定用户中至少一人存在说话行为。

在一示例中，步骤10511中，用户的唇动信息包括用户是否存在唇动行为的判断信息，可通过连续的用户图像结合分析，判断在连续的用户图像中，对应用户是否存在连续的开口和闭口动作，从而确定用户的唇动信息。步骤10512中，可通过预设时间阈值，当确定用户存在唇动行为后，在时间阈值内电子设备接收到包含人声的语音信息时，则确定用户存在说话行为。

通过结合用户唇动信息和语音信息进行综合判断，降低说话行为的误识别的概率，提高了对用户存在说话行为判断的准确性。

在一实施例中，如图8所示，在上述图1或图7所示实施例的基础上，步骤105，基于用户的语音信息，确定用户的聊天状态，还包括：

步骤1053，根据用户的语音信息，确定用户的语音信息对应的语义信息，根据语义信息判断用户的聊天状态。

在一示例中，通过步骤1053，对语音信息中的人声进行语义分析，若分析出的相邻语句的语义之间存在接续性或同质性，则判断用户之间处于聊天状态。基于语音信息中的语义对是否存在对话进行判断，提高了聊天状态判断的准确性。

在另一示例中，通过步骤1052中，当确认了存在多人说话行为时，可通过声纹识别技术区分不同用户之间的声音，并对应的对语音信息中的区分出的人声分别进行语义分析，并对不同用户之间的语句语义判断是否存在接续性或同质性，从而进一步提高了对用户的聊天状态判断的准确性。

在一实施例中，如图9所示，在上述图1所示实施例的基础上，步骤106，基于用户的观影状态和用户的聊天状态，控制电子设备的播放状态，还包括如下步骤：

步骤1061，获取处于聊天状态的人数及人数占比，以及处于观影状态和处于非观影状态的人数及人数占比；

步骤1062，确定处于聊天状态且处于非观影状态的人数及人数占比；

步骤1063，基于在第二预设时间内，处于聊天状态且处于非观影状态的人数占比大于第一预设占比，控制电子设备的播放音量降低。

其中，预设的第二预设时间可为系统固定预设，也可为用户可在其用户端根据自身使用需求进行调整。

其中，获取聊天状态的人数，可通过步骤1052中的声纹识别技术或神经网络模型识别存在不同类型的人声数量，并根据人声数量确定存在说话行为的用户人数。获取观影状态和非观影状态的人数，可基于图像识别技术或人脸识别技术，在步骤103中，对处于观影状态、非观影状态的用户进行标记并统计人数。用户的总人数，可通过获取的用户图像进行人脸识别并统计，确定用户的总人数，从而计算各状态人数的人数占比。

结合控制过程进行具体解释，当步骤103和步骤105均执行完毕后，执行步骤1061，基于识别出的处于观影状态和处于聊天状态的人数，分别统计观影状态、非观影状态和聊天状态的人数。

随后执行步骤1062，确定处于聊天状态且处于非观影状态的人数以及人数占比。在一示例中，处于聊天状态且处于非观影状态的人数可通过分别统计聊天状态人数和非观影状态人数，取较小的数值作为处于聊天状态且处于非观影状态的人数，例如处于聊天状态为3人，处于非观影状态为2人，即处于聊天状态且处于非观影状态的人数即确定为2人。在另一示例中，处于聊天状态且处于非观影状态的人数可基于步骤1051-1052中的声纹识别技术结合唇动信息，对每个用户的声纹特征进行匹配，并在统计聊天状态且处于非观影状态的人数时，即可判断处于聊天状态的用户是否为处于非观影状态的用户，提高了统计数据的准确性。

确定处于聊天状态且处于非观影状态的人数及人数占比后，执行步骤1063，当人数占比大于第一预设占比时，开始计时，当时间超过第二预设时间时，即确定此时用户正处于多人聊天状态，并未观看电子设备的播放内容，且电子设备的播放内容的声音会对用户的聊天造成影响，则控制电子设备降低播放音量，提高了用户体验。

在一实施例中，电子设备音量调节量与当前聊天音量成反向变化，即聊天音量越高，电子设备音量越低，反之，聊天音量越低，电子设备音量越高。在另一示例中，可设置音量阈值，即电子设备的音量降低不会低于音量阈值，可保证其余处于观影状态的用户的正常观影体验。

在一实施例中，如图10所示，在上述图9所示实施例的基础上，步骤106，基于用户的观影状态和用户的聊天状态，控制电子设备的播放状态，还包括如下步骤：

步骤1064，基于在第三预设时间内，处于观影状态的人数占比为零，控制电子设备暂停播放，或者控制电子设备进入休眠模式；

步骤1065，监测处于观影状态的人数占比，基于处于观影状态的人数占比不为零时，控制电子设备继续播放，或者控制电子设备退出休眠模式。

根据步骤1061中获取的观影状态、非观影状态和聊天状态的人数，在步骤1064中，当处于观影状态的人数占比为零时，开始计时，当时间大于第三预设时间时，确定此时无用户在观看电子设备的播放内容，控制电子设备暂停播放或进入休眠模式。电子设备暂停播放或休眠后，执行步骤1065，持续对用户的观影状态和聊天状态进行监测，当有用户重新准备开始观看播放内容时，例如用户的视线回归至电子设备上，且视线停留时间大于预设的第四预设时间时，此时观影状态的人数占比即不为零，控制电子设备继续播放或退出休眠模式。

在一示例中，当电子设备的播放内容为点播类节目时，基于点播类节目进度可控的特性，可采用暂停播放的控制策略，使播放内容停留在暂停位置，方便下次继续播放。其中，播放内容的暂停的时间点可为最后一个结束观影状态的用户视线离开电子设备的时间点。当多人中有一人视线回归屏幕，即从播放内容的暂停的时间点开始继续播放节目内容。在另一种可实现方式中，可使用人脸识别技术，标记每一名用户结束观影状态的时间点。当有一人视线回归时，调取该人对应的标记时间点，并将播放内容的进度调整至该标记时间点。

在另一示例中，当电子设备的播放内容为直播类节目时，基于点直播类节目进度不可控的特性，可采用控制电子设备休眠不息屏模式的控制策略。其中，可将最后一个结束观影状态的用户视线离开电子设备的时间点进行标记，当用户中有一个用户视线回归电子设备时，即停止休眠，并基于标记的时间点和用户视线回归电子设备的时间点，生成用户错过播放内容的时间段的通知消息，通知消息可为文字消息、语音消息等，以文字消息为例，将文字消息显示于电子设备的播放内容面，以告知用户错过观看节目时间段。在另一种可实现方式中，可使用人脸识别技术，标记每一名用户结束观影状态的时间点。当有一人视线回归时，调取该人对应的标记时间点，并基于标记的时间点和用户视线回归电子设备的时间点，生成用户错过播放内容的时间段的通知消息。

在一实施例中，当用户中有一个用户视线回归电子设备时，可生成确认消息，询问用户是否将播放内容进度跳转回到标记时间点，确认消息可为文字消息、语音消息等，例如文字消息可显示在电子设备的播放内容面，供用户使用遥控器选择，例如语音消息，通过语音提示用户，在一中可实现方式中，可支持用户通过语音确认或否定，从而提高用户使用自主权。

示例性装置

图11为本申请一示例性实施例提供的播放控制装置的框图。

如图11所示，播放控制装置300包括：

第一获取模块301，用于获取电子设备所在空间区域内的图像信息；

第二获取模块302，用于获取电子设备所在空间区域内的语音信息；

第一分析模块303，用于基于电子设备所在空间区域内的图像信息，确定用户的观影状态；

第二分析模块304，用于基于电子设备所在空间区域内的语音信息和/或电子设备所在空间区域内的图像信息，确定用户的聊天状态；

控制模块305，用于基于用户的观影状态和用户的聊天状态，控制电子设备的播放状态。

图12为本申请一示例性实施例提供的播放控制装置300的框图。

如图12所示，在一实施例中，第一分析模块303，还包括面部朝向分析单元3031和观影状态分析单元3032。

其中，面部朝向分析单元3031，用于根据用户的头部方向信息，确定用户的面部朝向信息；和/或，根据用户的视线信息，确定用户的面部朝向信息。

观影状态分析单元3032，用于基于用户的面部朝向信息为朝向电子设备，确定用户处于观影状态。

第二分析模块304，还包括第一说话行为分析单元3041、聊天状态分析单元3042、唇动分析单元3043、第二说话行为分析单元3044和语义分析单元3045。

第一说话行为分析单元3041，用于基于用户的语音信息，确定用户中至少一人存在说话行为。

聊天状态分析单元3042，用于在第一预设时间内，若检测到存在多人说话行为，确定用户处于聊天状态。

唇动分析单元3043，用于基于用户图像信息，确定用户的唇动信息。

第二说话行为分析单元3044，用于基于用户的唇动信息和用户的语音信息，确定用户中至少一人存在说话行为。

语义分析单元3045，用于根据用户的语音信息，确定用户的语音信息对应的语义信息，根据语义信息判断用户的聊天状态。

控制模块305，还包括状态统计单元3051、状态确定单元3052、控制策略执行单元3053。

状态统计单元3051，用于获取处于聊天状态的人数及人数占比，以及处于观影状态和非观影状态的人数及人数占比。

状态确定单元3052，用于确定处于聊天状态且处于非观影状态的人数及人数占比。

控制策略执行单元3053，用于基于在第二预设时间内，处于聊天状态且处于非观影状态的人数占比大于第一预设占比，控制电子设备的播放音量降低；基于在第三预设时间内，处于观影状态的人数占比为零，控制电子设备暂停播放，或者控制电子设备进入休眠模式；监测处于观影状态的人数占比，基于处于观影状态的人数占比不为零时，控制电子设备继续播放，或者控制电子设备退出休眠模式。

示例性电子设备

下面，参考图13来描述根据本申请实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图13图示了根据本申请实施例的电子设备的框图。

如图13所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的播放控制方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图13中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的播放控制方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的播放控制方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种电子设备播放控制方法，所述方法包括：

获取电子设备所在空间区域内的用户图像信息；

基于所述用户图像信息，确定所述用户的面部朝向信息；

基于所述用户的面部朝向信息，确定所述用户的观影状态；

获取电子设备所在空间区域内所述用户的语音信息；

基于所述用户的语音信息，确定所述用户的聊天状态；

基于所述用户的观影状态和所述用户的聊天状态，控制所述电子设备的播放状态。

2.根据权利要求1所述的方法，其中，所述基于所述用户图像信息，确定所述用户的面部朝向信息，包括：

基于所述用户图像信息确定所述用户的头部方向信息；

根据所述用户的头部方向信息，确定所述用户的面部朝向信息；

和/或，

基于所述用户图像信息确定所述用户的视线信息；

根据所述用户的视线信息，确定所述用户的面部朝向信息。

3.根据权利要求1所述的方法，其中，所述基于所述用户的面部朝向信息，确定所述用户的观影状态，包括：

基于所述用户的面部朝向信息为朝向电子设备，确定所述用户处于观影状态。

4.根据权利要求1所述的方法，其中，所述基于所述用户的语音信息，确定所述用户的聊天状态，包括：

基于所述用户的语音信息，确定所述用户中至少一人存在说话行为；

在第一预设时间内，若检测到存在多人说话行为，确定所述用户处于聊天状态。

5.根据权利要求4所述的方法，其中，所述基于所述用户的语音信息，确定所述用户中至少一人存在说话行为，还包括：

基于所述用户图像信息，确定所述用户的唇动信息；

基于所述用户的唇动信息和所述用户的语音信息，确定所述用户中至少一人存在说话行为。

6.根据权利要求1或4所述的方法，其中，所述基于所述用户的语音信息，确定所述用户的聊天状态，包括：

根据所述用户的语音信息，确定所述用户的语音信息对应的语义信息，根据所述语义信息判断所述用户的聊天状态。

7.根据权利要求1所述的方法，其中，所述基于所述用户的观影状态和所述用户的聊天状态，控制所述电子设备的播放状态，包括：

获取处于聊天状态的人数及人数占比，以及处于观影状态和处于非观影状态的人数及人数占比；

确定处于聊天状态且处于非观影状态的人数及人数占比；

基于在第二预设时间内，处于聊天状态且处于非观影状态的人数占比大于第一预设占比，控制所述电子设备的播放音量降低。

8.根据权利要求7所述的方法，其中，所述基于所述用户的观影状态和所述用户的聊天状态，控制所述电子设备的播放状态，包括：

基于在第三预设时间内，处于观影状态的人数占比为零，控制所述电子设备暂停播放，或者控制所述电子设备进入休眠模式；

监测所述处于观影状态的人数占比，基于所述处于观影状态的人数占比不为零时，控制所述电子设备继续播放，或者控制所述电子设备退出休眠模式。

9.一种播放控制装置，包括：

第一获取模块，用于获取电子设备所在空间区域内的用户图像信息；

第二获取模块，用于获取电子设备所在空间区域内所述用户的语音信息；

第一分析模块，用于基于所述电子设备所在空间区域内的图像信息，确定所述用户的观影状态；

第二分析模块，用于基于所述电子设备所在空间区域内的语音信息和/或所述电子设备所在空间区域内的图像信息，确定所述用户的聊天状态；

控制模块，用于基于所述用户的观影状态和所述用户的聊天状态，控制所述电子设备的播放状态。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一项所述的电子设备播放控制方法。

11.一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8任一项所述的电子设备播放控制方法。