CN110191303B

CN110191303B - 基于屏幕发声的视频通话方法、设备、装置及计算机可读存储介质

Info

Publication number: CN110191303B
Application number: CN201910544419.6A
Authority: CN
Inventors: 张海平
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2021-04-13
Anticipated expiration: 2039-06-21
Also published as: CN110191303A

Abstract

本申请实施例公开了一种基于屏幕发声的视频通话方法及相关产品，应用于电子设备，所述电子设备包括显示屏、摄像头和处理器，所述电子设备还包括：屏幕发声激励器，所述屏幕发声激励器设置在所述显示屏的下方，所述方法包括如下步骤：接入视频通话时，获取该视频通话中的第一图片，对该第一图片进行识别确定该第一图片内嘴巴的第一位置；采集第二图片；第二图片进行人脸识别确定该第二图片内目标对象的数量；依据所述目标对象的数量控制与所述第一位置控制所述屏幕发声激励器按设定策略播放视频通话的声音。本申请提供的方案提高了用户的体验度。

Description

基于屏幕发声的视频通话方法、设备、装置及计算机可读存储介质

技术领域

本申请涉及电子设备技术领域，具体涉及一种基于屏幕发声的视频通话方法及相关产品。

背景技术

随着电子设备(如手机、平板电脑等等)的大量普及应用，电子设备能够支持的应用越来越多，功能越来越强大，电子设备向着多样化、个性化的方向发展，成为用户生活中不可缺少的电子用品。

现有的视频通话通过位于终端底端的扬声器发出声音，用户在进行视频通话时需要正对屏幕，这使得视频通话的声音与用户具有一定的方向差，导致声音效果差，降低用户体验度

发明内容

本申请实施例提供了一种基于屏幕发声的视频通话方法及相关产品，能够在视频通话时通过屏幕发声，减小声音与用户之间的方向差，提高声音的效果，提高了用户的体验度。

第一方面，本申请实施例提供一种电子设备，所述电子设备包括显示屏、摄像头和处理器，所述电子设备还包括：屏幕发声激励器、所述屏幕发声激励器设置在所述显示屏的下方；其中，

所述处理器，用于接入视频通话时，获取该视频通话中的第一图片，对该第一图片进行识别确定该第一图片内嘴巴的第一位置；

所述摄像头，用于采集第二图片；

所述处理器，还用于对第二图片进行人脸识别确定该第二图片内目标对象的数量，依据所述目标对象的数量控制与所述第一位置控制所述屏幕发声激励器按设定策略播放视频通话的声音。

第二方面，提供一种基于屏幕发声的视频通话方法，所述方法应用于电子设备，所述电子设备包括显示屏、摄像头和处理器，所述电子设备还包括：屏幕发声激励器、所述屏幕发声激励器设置在所述显示屏的下方，所述方法包括如下步骤：

接入视频通话时，获取该视频通话中的第一图片，对该第一图片进行识别确定该第一图片内嘴巴的第一位置；

采集第二图片；第二图片进行人脸识别确定该第二图片内目标对象的数量；

依据所述目标对象的数量控制与所述第一位置控制所述屏幕发声激励器按设定策略播放视频通话的声音。

第三方面，提供一种基于屏幕发声的视频通话装置，应用于电子设备，所述电子设备包括显示屏、摄像头和处理器，所述电子设备还包括：屏幕发声激励器、所述屏幕发声激励器设置在所述显示屏的下方；其中，所述装置包括：

获取单元，用于接入视频通话时，获取该视频通话中的第一图片；

识别单元，用于对该第一图片进行识别确定该第一图片内嘴巴的第一位置；

采集单元，用于采集第二图片；

所述识别单元，还用于对第二图片进行人脸识别确定该第二图片内目标对象的数量；

控制单元，用于依据所述目标对象的数量控制与所述第一位置控制所述屏幕发声激励器按设定策略播放视频通话的声音。

第四方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第二方面中的步骤的指令。

第五方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第二方面中所描述的部分或全部步骤。

第六方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第二方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请提供的技术方案在确定进入视频通话时，首先获取视频通话对应的第一图片并识别确定第一图片中人物的嘴巴位置，然后通过摄像头采集第二图片确定目标对象的数量，该目标对象的数量可以为视频通话的人数，然后依据该数量控制与第一位置对应的屏幕发声激励器发出视频声音。由于该发声通过屏幕发声激励器发出声音，并且通过特定位置的屏幕发声激励器发出声音，这样增加了现实感(嘴巴位置发出声音使用户感觉视频的声音从视频对象的嘴巴里说出，和现实对话相似。)，另外，屏幕发声与目标对象的人脸位置对应，减小了声音与视频对象之间的角度，因此增加了声音的效果，提高了用户体验度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的一种电子设备的结构示意图；

图1B是本申请实施例提供的一种基于屏幕发声的视频通话方法的流程示意图；

图2A是本申请实施例提供的一种卷积核的示意图；

图2B是本申请实施例提供的一种核尺寸的示意图；

图2C是本申请实施例提供的另一种核尺寸的示意图；

图2D是本申请实施例提供的一种拟合核尺寸的变换示意图；

图3A是本申请实施例提供的一种基于屏幕发声的视频通话方法的流程图；

图3B是本申请实施例提供的一种设置有多个屏幕发声激励器编号的电子设备示意图；

图3C是本申请实施例提供一种对多个屏幕发声激励器编号的示意图

图4A是本申请实施例提供的一种基于屏幕发声的视频通话装置的功能单元组成框图；

图4B是本申请实施例提供的另一种基于屏幕发声的视频通话装置的功能单元组成框图；

图4C是本申请实施例提供的另一种基于屏幕发声的视频通话装置的功能单元组成框图；

图4D是本申请实施例提供的另一种基于屏幕发声的视频通话装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备(例如智能手机或平板电脑)、智能穿戴设备(例如智能手环、智能手表等具有无线通信功能的穿戴设备)、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station， MS)，终端设备(terminal device)等等。

下面对本申请实施例进行详细介绍。

请参阅图1A，图1A是本申请实施例公开的一种电子设备的结构示意图，电子设备100包括存储和处理电路110，以及与所述存储和处理电路110连接的传感器170，传感器170具体可以包括：无线收发器，用于接收或发射无线信号；其中：

电子设备100可以包括控制电路，该控制电路可以包括存储和处理电路110。该存储和处理电路110可以存储器，例如硬盘驱动存储器，非易失性存储器(例如闪存或用于形成固态驱动器的其它电子可编程只读存储器等)，易失性存储器 (例如静态或动态随机存取存储器等)等，本申请实施例不作限制。存储和处理电路110中的处理电路可以用于控制电子设备100的运转。该处理电路可以基于一个或多个微处理器，微控制器，数字信号处理器，基带处理器，功率管理单元，音频编解码器芯片，专用集成电路，显示驱动器集成电路等来实现。

存储和处理电路110可用于运行电子设备100中的软件，例如互联网浏览应用程序，互联网协议语音(Voice over Internet Protocol,VOIP)电话呼叫应用程序，电子邮件应用程序，媒体播放应用程序，操作系统功能等。这些软件可以用于执行一些控制操作，例如，基于照相机的图像采集，基于环境光传感器的环境光测量，基于接近传感器的接近传感器测量，基于诸如发光二极管的状态指示灯等状态指示器实现的信息显示功能，基于触摸传感器的触摸事件检测，与在多个(例如分层的)显示屏上显示信息相关联的功能，与执行无线通信功能相关联的操作，与收集和产生音频信号相关联的操作，与收集和处理按钮按压事件数据相关联的控制操作，以及电子设备100中的其它功能等，本申请实施例不作限制。

电子设备100可以包括输入-输出电路150。输入-输出电路150可用于使电子设备100实现数据的输入和输出，即允许电子设备100从外部设备接收数据和也允许电子设备100将数据从电子设备100输出至外部设备。输入-输出电路 150可以进一步包括传感器170。传感器170静脉识别模组，还可以包括环境光传感器，基于光和电容的接近传感器，指纹识别模组，、触摸传感器(例如，基于光触摸传感器和/或电容式触摸传感器，其中，触摸传感器可以是触控显示屏的一部分，也可以作为一个触摸传感器结构独立使用)，加速度传感器，摄像头，和其它传感器等，摄像头可以为前置摄像头或者后置摄像头，指纹识别模组可集成于显示屏下方，用于采集指纹图像，指纹识别模组可以为以下至少一种：光学指纹识别模组、或者超声波指纹识别模组等等，在此不作限定。上述前置摄像头可以设置前面显示屏的下方，上述后置摄像头可以设置在后面显示屏的下方。当然上述前置摄像头或后置摄像头也可以不和显示屏集成设置，当然在实际应用中，上述前置摄像头或后置摄像头还可以为升降结构，本申请具体实施方式并不限制上述前置摄像头或后置摄像头的具体结构。

输入-输出电路150还可以包括一个或多个显示屏，当为多个显示屏时，例如2个显示屏时，一个显示屏可以设置在电子设备的前面，另一个显示屏可以设置在电子设备的后面，例如显示屏130。显示屏130可以包括液晶显示屏，有机发光二极管显示屏，电子墨水显示屏，等离子显示屏，使用其它显示技术的显示屏中一种或者几种的组合。显示屏130可以包括触摸传感器阵列(即，显示屏130可以是触控显示屏)。触摸传感器可以是由透明的触摸传感器电极(例如氧化铟锡(ITO)电极)阵列形成的电容式触摸传感器，或者可以是使用其它触摸技术形成的触摸传感器，例如音波触控，压敏触摸，电阻触摸，光学触摸等，本申请实施例不作限制。

电子设备100还可以包括音频组件140。音频组件140可以用于为电子设备 100提供音频输入和输出功能。电子设备100中的音频组件140可以包括扬声器，麦克风，蜂鸣器，音调发生器以及其它用于产生和检测声音的组件。上述音频组件还可以包括：设置在显示屏下方的一个或多个屏幕发声激励器，在需要发声时，屏幕发声激励器驱动前方的屏幕及结构，以屏幕作为振动提，借由振动产生声波，然后传送到人耳。

对于屏幕发声激励器具体可以包括：压电陶瓷单元激励器或微振动单元激励器。对于压电陶瓷单元激励器，其包括多层压电陶瓷片附着在金属薄片，俗称振动膜，给振动膜加交替变化的电压，振动膜会随着电压的变化而不停的上下弯曲驱动负载结构振动发声。微振动单元激励器，也可以叫做线性振动器，其原理与线性马达接近，是利用电场跟磁场交互作用而产生力场。对于压电陶瓷单元激励器，其在低音频信号的表现比较差，而对于微振动单元激励器，其语音范围内的频响范围是比较均衡平坦的，其声感较好。

通信电路120可以用于为电子设备100提供与外部设备通信的能力。通信电路120可以包括模拟和数字输入-输出接口电路，和基于射频信号和/或光信号的无线通信电路。通信电路120中的无线通信电路可以包括射频收发器电路、功率放大器电路、低噪声放大器、开关、滤波器和天线。举例来说，通信电路 120中的无线通信电路可以包括用于通过发射和接收近场耦合电磁信号来支持近场通信(Near Field Communication，NFC)的电路。例如，通信电路120可以包括近场通信天线和近场通信收发器。通信电路120还可以包括蜂窝电话收发器和天线，无线局域网收发器电路和天线等。上述通信电路120还可以为5G阵列天线。

上述无线收发器可以用于为电子设备100提供发射无线波的能力，该无线波可以为无线电波、无线声波或无线光波等等。本申请并不限制上述无线波的具体表现形式。

电子设备100还可以进一步包括电池，电力管理电路和其它输入-输出单元 160。输入-输出单元160可以包括按钮，操纵杆，点击轮，滚动轮，触摸板，小键盘，键盘，照相机，发光二极管和其它状态指示器等。

用户可以通过输入-输出电路150输入命令来控制电子设备100的操作，并且可以使用输入-输出电路150的输出数据以实现接收来自电子设备100的状态信息和其它输出。

基于上述图1A所描述的电子设备，可以用于实现如下功能：

存储和处理电路110，用于接入视频通话时，获取该视频通话中的第一图片，对该第一图片进行识别确定该第一图片内嘴巴的第一位置；

摄像头，用于采集第二图片；

存储和处理电路110，还用于对第二图片进行人脸识别确定该第二图片内目标对象的数量，依据所述目标对象的数量控制与所述第一位置控制所述屏幕发声激励器按设定策略播放视频通话的声音。

在一种可选的方案中，存储和处理电路110，具体用于将该第一图片形成输入数据，将该输入数据输入到预设的神经网络模型中计算得到输出结果，依据该输出结果确定该嘴巴的第一位置。

在一种可选的方案中，存储和处理电路110，具体用于获取第一图片中每个像素点的RGB值，将该每个像素点的RGB值按像素点的位置组成输入数据 3*H*W，其中H为输入数据的高度值；

或，

存储和处理电路110，具体用于获取第一图片中每个像素点的HSI值，将该每个像素点的HSI值按像素点的位置组成输入数据3*H*W，其中H为输入数据的高度值，W为输入数据的宽度值。

在一种可选的方案中，存储和处理电路110，具体用于提取嘴巴的预设结果矩阵【B】【B】，以矩阵【B】【B】的尺寸为滑动窗口在输出结果滑动，每滑动一次，获取滑动窗口内的元素值，将滑动窗口获取的元素值与所述预设结果矩阵【B】【B】的元素值执行差计算得到差值矩阵，滑动窗口遍历所述输出结果后，获取差值矩阵中最小的差值矩阵，计算最小的差值矩阵的元素平均值，如所述元素平均值小于设定阈值，确定所述最小的差值矩阵对应的像素点的位置为第一嘴巴的位置。

在一种可选的方案中，存储和处理电路110，具体用于确定目标对象的数量所属的第一区间，依据区间与音量的映射关系确定第一区间对应的第一音量，获取第一位置设定范围内的β个屏幕发声激励器，控制所述β个屏幕发声激励器按所述第一音量播放所述视频通话的声音。

请参阅图1B，图1B是本申请实施例提供的一种基于屏幕发声的视频通话方法的流程示意图，如图所示，应用于如图1A所示的电子设备，所述电子设备包括屏幕发声激励器，上述基于屏幕发声的视频通话方法包括：

步骤S101、电子设备接入视频通话时，获取该视频通话中的第一图片；

步骤S102、电子设备对该第一图片进行识别确定该第一图片内嘴巴的第一位置；

上述步骤S102的实现方法具体可以包括：

将该第一图片形成输入数据，将该输入数据输入到预设的神经网络模型中计算得到输出结果，依据该输出结果确定该嘴巴的第一位置。

上述将该第一图片形成输入数据的方式具体可以包括：

获取第一图片中每个像素点的RGB值，将该每个像素点的RGB值按像素点的位置组成输入数据3*H*W，其中H为输入数据的高度值(对应像素点的列数量，W为输入数据的宽度值(对应像素点的行数量)，3代表R、G、B。

当然在实际应用中，上述将该第一图片形成输入数据的方式具体可以包括：

获取第一图片中每个像素点的HSI值，将该每个像素点的HSI值按像素点的位置组成输入数据3*H*W，其中H为输入数据的高度值(对应像素点的列数量，W为输入数据的宽度值(对应像素点的行数量)，3代表H、S、I。

上述2种方式组成的输入数据仅仅是图片的模型不同，即基于RGB模型或 HIS模型。

上述将该输入数据输入到预设的神经网络模型中计算得到输出结果具体可以包括：

将该输入数据输入到预设的神经网络模型中的多层卷积层执行卷积运算得到输出结果。

获取神经网络模型多层中执行卷积运算的X1个神经网络模型计算层，提取 X1个神经网络模型计算中的X1个卷积运算的X1个卷积核(如图2A所示，一个方框代表一个元素)中的核尺寸kernel size(如图2B所示)；获取终端适应计算的核尺寸【3】【3】【3】(如图2C所示)；提取X1个卷积核中的核尺寸不为核尺寸【3】【3】【3】的X2个卷积核，将X2个卷积核中的第y层的第α个卷积核切割成CN个核尺寸【3】【A】【A】，其中CN为卷积核的数量值，CN均为大于等于1的整数，将核尺寸【3】【A】【A】拟合成X3个核尺寸【3】【3】【3】的卷积核，在执行核尺寸【3】【A】【A】与神经网络模型计算层中第y层的卷积计算时，将X3个核尺寸【3】【3】【3】与第y层的输入数据的对应数据(这个对应数据可以依据卷积运算的计算原理来确定，例如核尺寸【3】【A】【A】为核尺寸【3】【5】【5】，那么对应的数据也为输入数据的一块【3】【5】【5】数据块)执行X3次卷积运算得到X3个卷积计算中间结果，将X3个卷积计算中间结果执行累加得到第y层的卷积结果矩阵中的一个元素。上述X1＞X2，X1、 X2、X3均为大于等于1的整数，A也为大于3的整数。

上述第y层的输入数据具体可以为上一层的输出数据(即y-1层输出结果)，具体的，例如y层为第3层神经网络计算层，那么y层输入数据为第2层输出数据，同理，y层的输出数据为下一层的输出数据，即本申请中第y层神经网络模型的输出数据为第y+1层输入数据。上述y为大于等于1的整数，如y＝1时，其输入数据为神经网络模型的原始输入数据。

可选的，上述将核尺寸【3】【A】【A】拟合成X3个核尺寸【3】【3】【3】的卷积核核具体可以为，将【3】【A】【A】以尺寸【3】【3】【3】为基础切割成 X3个矩阵，如矩阵尺寸不为核尺寸【3】【3】【3】，则在矩阵边缘添加零元素使得X3个矩阵尺寸均为核尺寸【3】【3】【3】。

参阅图2D，图2D为核尺寸【3】【5】【5】拟合成4个核尺寸【3】【3】【3】的变换示意图。

本申请技术方案在神经网络的多层卷积运算时，如果卷积核的核尺寸与终端的硬件的基本核尺寸【3】【3】【3】不匹配时，将不匹配的核尺寸拟合成X3 个基本核尺寸【3】【3】【3】，进而与终端的硬件更匹配，并且添加零元素也由于零乘积的特殊性，首先不会改变计算结果，其次零乘以任何数均为零，所以可以忽略，不增加计算开销，所以其能够更加匹配硬件，进而增加匹配度，提高计算速度，降低功耗。

上述依据该输出结果确定该第一嘴巴的位置具体包括：

提取嘴巴的预设结果矩阵【B】【B】(该矩阵为嘴巴与预设神经网络模型计算得到的结果矩阵)，以矩阵【B】【B】为窗口大小在输出结果矩阵滑动(滑动间距可以为1，也可以为设定数值，例如2、3等等)，每滑动一次，将滑动窗口获取的元素值与预设结果矩阵【B】【B】的元素值执行差计算得到差值矩阵，遍历所有输出结果矩阵，获取差值矩阵中最小的差值矩阵，计算最小的差值矩阵的元素平均值，如该元素平均值小于设定阈值，确定该最小的差值矩阵对应的像素点的位置为第一嘴巴的位置。

此原理为，因为对于预设的神经网络来说，其权值是不变的，对于嘴巴其 RGB模型或HIS模型的值的在一定的范围内，那么执行多层卷积运算以后得到的输出结果矩阵中有部分是属于嘴巴的结果，上述方案即通过卷积滑动窗口的原理来得到该嘴巴的范围。

步骤S103、电子设备通过摄像头采集第二图片，对第二图片进行人脸识别确定该第二图片内目标对象的数量；

上述对第二图片进行人脸识别确定目标对象的数量的方法可以采用现有的人脸识别方法，本申请并不局限上述具体的实现方法。

步骤S104、电子设备依据该目标对象的数量控制与该第一位置对应的屏幕发声激励器按设定策略发出视频声音。

本申请提供的技术方案在确定进入视频通话时，首先获取视频通话对应的第一图片并识别确定第一图片中人物的嘴巴位置，然后通过摄像头采集第二图片确定目标对象的数量，该目标对象的数量可以为视频通话的人数，然后依据该数量控制与第一位置对应的屏幕发声激励器发出视频声音。由于该发声通过屏幕发声激励器发出声音，并且通过特定位置的屏幕发声激励器发出声音，这样增加了现实感(嘴巴位置发出声音使用户感觉视频的声音从视频对象的嘴巴里说出，和现实对话相似。)，另外，屏幕发声与目标对象的人脸位置对应，减小了声音与视频对象之间的角度，因此增加了声音的效果，提高了用户体验度。

上述方法在步骤S101之前还可以包括：电子设备对目标用户执行生物识别验证，如验证成功，启动版本更新，该生物识别验证包括但不限于：指纹识别、掌纹识别、静脉识别等等。

上述静脉识别验证的方法具体可以包括：

B1、分析静脉图片中的目标静脉区域图像的特征点分布；

B2、按照M个不同圆心对所述目标静脉区域图像进行圆形图像截取，得到M个圆形静脉区域图像，所述M为大于3的整数；

B3、从所述M个圆形静脉区域图像中选出目标圆形静脉区域图像，所述目标圆形静脉区域图像所包含的特征点的数量大于所述M个圆形静脉区域图像中的其他圆形静脉区域图像；

B4，将所述目标圆形静脉区域图像划分得到N个圆环，所述N个圆环的环宽相同；

B5，从所述N个圆环中半径最小的圆环开始，将所述N个圆环依次与预设静脉模板进行特征点匹配，并累计已匹配圆环的匹配值；

B6，当累计的匹配值大于预设匹配阈值时立即停止进行特征点匹配，进入视频通话。

其中，上述目标静脉区域图像为仅包括静脉纹路的图片面积，在实际静脉采集过程中，静脉图像还可能包括背景图像，但背景图像并不包括静脉纹路，因此，可以把这部分进行裁剪掉，静脉有效面积为用户靠近静脉识别模组且生成静脉图像中静脉纹路的区域。电子设备可以对静脉图像进行特征点提取，得到特征点分布，特征点分布可以包括多个特征点，特征提取的主要算法可以为以下至少一种：Harris角点检测算法、尺度不变特征提取算法(scale invariant feature transform，SIFT)，SURF算法等等，在此不作限定，同理，电子设备也可以对预设静脉模板进行特征提取，得到预设的特征点分布，预设的特征点分布也可以包括多个特征点，进而，可以依据特征点分布、静脉有效面积确定静脉图像的目标特征点分布密度，如此，可以依据特征点的分布情况，适当调整识别阈值，有助于提升身份认证效率。

可选的，上述电子设备依据该目标对象的数量控制与该第一位置对应的屏幕发声激励器按设定策略发出视频声音具体可以包括：

确定目标对象的数量所属的第一区间，依据区间与音量的映射关系确定第一区间对应的第一音量，控制该第一位置对应的屏幕发声激励器按该第一音量播放视频声音。

确定目标对象的数量所属的第一区间，依据区间与音量的映射关系确定第一区间对应的第一音量，确定环境参数，依据该环境参数对该第一音量调整得到第二音量，控制该第一位置对应的屏幕发声激励器按第二音量播放视频声音。

其中，上述环境参数可以为以下至少一种：环境噪音、环境亮度、环境色温、湿度、温度、地理位置、环境背景等等，在此不作限定，具体实现中，电子设备可以设置有环境传感器，基于环境传感器可以采集环境参数，环境传感器可以为以下至少一种：声音传感器、环境光传感器、色温传感器、温度传感器、湿度传感器、定位传感器和图像传感器等等，在此不作限定。预设质量评价值可以预先保存在电子设备中，其可以由用户自行设置或者系统默认。电子设备中还可以预先存储预设的环境参数与光学指纹识别阈值之间的映射关系。上述预设方式可以为九宫格，或者，四宫格，或者，十六宫格等等，在此不作限定。

具体实现中，还可以采用至少一个图像质量评价指标对该第二图片进行质量评价，如质量评价超过设定标准，对该第二图片执行上述步骤操作，否则，删除第二图片，再次采集图片。该图像质量评价指标可以为：均方差、信息熵、特征点数量、清晰度、灰度值等等，在此不作限定。

具体实现中，电子设备可以通过环境传感器获取第二图片对应的目标环境参数，基于预先存储的预设的环境参数与质量评价阈值之间的映射关系。可以确定目标环境参数对应的与质量评价阈值，进而，可以按照预设方式将第二图像划分为多个图片区域，每一图片区域的面积大小可相等，由于每个图片区域采集情况(即环境参数影响不同)不一，所以可能每个图片区域的图像质量不一，因此，可对多个图片区域进行图像质量评价，得到多个图像质量评价值，计算多个图像质量评价值的平均值，依据该平均值来确定该第二图片是否符合识别的要求。此技术方案通过对环境参数来动态的调整第二图片的质量评价阈值，这样能够更好的对第二图片进行识别，避免了质量不好无法进行第二图片识别的问题。

参阅图3A，图3A为本申请提供的一种基于屏幕发声的视频通话方法的流程图，如图3A所示的方法在如图3B所示的电子设备中执行，如图3B所示，该电子设备可以包括：设置在电子设备显示屏下的多个屏幕发声激励器，为了描述的方便，将该多个屏幕发声激励器按编号标识，具体如图3B所示。参阅图 3A，上述方法包括如下步骤：

步骤S301、电子设备接入视频通话时，获取该视频通话中的第一图片；

步骤S302、电子设备将该第一图片组成输入数据，将该输入数据输入到预设的神经网络模型中执行多层卷积运算得到输出结果，依据该输出结果确定该第一图片中嘴巴的第一位置；

步骤S303、电子设备通过摄像头采集第二图片，对第二图片进行人脸识别确定该第二图片内目标对象的数量；

步骤S304、电子设备依据该目标对象的数量以及环境参数确定该视频声音的第一音量，获取第一位置设定范围内的β个屏幕发声激励器；

上述获取第一位置在设定范围内的β个屏幕发声激励器可以如图3C所示，例如，如图3C所示，以第一位置，即图像中嘴巴的位置为圆心设置一个圆形范围，与该圆形范围内的屏幕发声激励器均属于β个屏幕发声激励器，即如图3B 所示的，屏幕发声激励器2、屏幕发声激励器3、屏幕发声激励器4。当然在实际应用中，还可以采用其他的方式，本申请并不限定上述确定β个屏幕发声激励器的具体方式。

步骤S305、电子设备控制该β个屏幕发声激励器依据该第一音量播放该视频通话的声音。

申请提供的技术方案在确定进入视频通话时，首先获取视频通话对应的第一图片并识别确定第一图片中人物的嘴巴位置，然后通过摄像头采集第二图片确定目标对象的数量，该目标对象的数量可以为视频通话的人数，然后依据该数量控制与第一位置对应的屏幕发声激励器发出视频声音。由于该发声通过屏幕发声激励器发出声音，并且通过特定位置的屏幕发声激励器发出声音，这样增加了现实感(嘴巴位置发出声音使用户感觉视频的声音从视频对象的嘴巴里说出，和现实对话相似。)，另外，屏幕发声与目标对象的人脸位置对应，减小了声音与视频对象之间的角度，因此增加了声音的效果，提高了用户体验度。

参阅图4A，图4A提供了一种电子设备，如图4A所示，该电子设备包括：

显示屏401、摄像头402和处理器403，所述电子设备还包括：屏幕发声激励器404，屏幕发声激励器404设置在所述显示屏的下方；其中，

处理器403，用于接入视频通话时，获取该视频通话中的第一图片，对该第一图片进行识别确定该第一图片内嘴巴的第一位置；

摄像头402，用于采集第二图片；

处理器403，还用于对第二图片进行人脸识别确定该第二图片内目标对象的数量，依据所述目标对象的数量控制与所述第一位置控制所述屏幕发声激励器按设定策略播放视频通话的声音。

在一种可选的方案中，处理器403，具体用于将该第一图片形成输入数据，将该输入数据输入到预设的神经网络模型中计算得到输出结果，依据该输出结果确定该嘴巴的第一位置。

在一种可选的方案中，处理器403，具体用于获取第一图片中每个像素点的 RGB值，将该每个像素点的RGB值按像素点的位置组成输入数据3*H*W，其中H为输入数据的高度值；

或，

处理器403，具体用于获取第一图片中每个像素点的HSI值，将该每个像素点的HSI值按像素点的位置组成输入数据3*H*W，其中H为输入数据的高度值， W为输入数据的宽度值。

在一种可选的方案中，处理器403，具体用于提取嘴巴的预设结果矩阵【B】【B】，以矩阵【B】【B】的尺寸为滑动窗口在输出结果滑动，每滑动一次，获取滑动窗口内的元素值，将滑动窗口获取的元素值与所述预设结果矩阵【B】【B】的元素值执行差计算得到差值矩阵，滑动窗口遍历所述输出结果后，获取差值矩阵中最小的差值矩阵，计算最小的差值矩阵的元素平均值，如所述元素平均值小于设定阈值，确定所述最小的差值矩阵对应的像素点的位置为第一嘴巴的位置。

在一种可选的方案中，处理器403，具体用于确定目标对象的数量所属的第一区间，依据区间与音量的映射关系确定第一区间对应的第一音量，获取第一位置设定范围内的β个屏幕发声激励器，控制所述β个屏幕发声激励器按所述第一音量播放所述视频通话的声音。

参阅图4B，图4B提供了一种基于屏幕发声的视频通话装置，应用于电子设备，所述电子设备包括显示屏、摄像头和处理器，所述电子设备还包括：屏幕发声激励器，所述屏幕发声激励器设置在所述显示屏的下方；其中，所述装置包括：

获取单元406，用于接入视频通话时，获取该视频通话中的第一图片；

识别单元407，用于对该第一图片进行识别确定该第一图片内嘴巴的第一位置；

采集单元408，用于采集第二图片；

识别单元407，还用于对第二图片进行人脸识别确定该第二图片内目标对象的数量；

控制单元409，用于依据所述目标对象的数量控制与所述第一位置控制所述屏幕发声激励器按设定策略播放视频通话的声音。

参阅图4C在一种可选的方案中，识别单元407具体可以包括：

数据形成模块4071，用于将该第一图片形成输入数据；

计算模块4072，用于将该输入数据输入到预设的神经网络模型中计算得到输出结果，依据该输出结果确定该嘴巴的第一位置。

在一种可选的方案中，数据形成模块4071，具体用于获取第一图片中每个像素点的RGB值，将该每个像素点的RGB值按像素点的位置组成输入数据 3*H*W，其中H为输入数据的高度值；

或，

数据形成模块4071，具体用于获取第一图片中每个像素点的HSI值，将该每个像素点的HSI值按像素点的位置组成输入数据3*H*W，其中H为输入数据的高度值，W为输入数据的宽度值。

在一种可选的方案中，计算模块4072，具体用于提取嘴巴的预设结果矩阵【B】【B】，以矩阵【B】【B】的尺寸为滑动窗口在输出结果滑动，每滑动一次，获取滑动窗口内的元素值，将滑动窗口获取的元素值与所述预设结果矩阵【B】【B】的元素值执行差计算得到差值矩阵，滑动窗口遍历所述输出结果后，获取差值矩阵中最小的差值矩阵，计算最小的差值矩阵的元素平均值，如所述元素平均值小于设定阈值，确定所述最小的差值矩阵对应的像素点的位置为第一嘴巴的位置。

参阅图4D在一种可选的方案中，控制单元409具体可以包括：

音量控制模块4091，用于确定目标对象的数量所属的第一区间，依据区间与音量的映射关系确定第一区间对应的第一音量；

位置控制模块4092，用于获取第一位置设定范围内的β个屏幕发声激励器，控制所述β个屏幕发声激励器按所述第一音量播放所述视频通话的声音。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种电子设备，所述电子设备包括显示屏、摄像头和处理器，其特征在于，所述电子设备还包括：多个屏幕发声激励器，所述屏幕发声激励器设置在所述显示屏的下方；其中，

所述处理器，用于接入视频通话时，获取该视频通话中的第一图片，将所述第一图片组成输入数据，将所述输入数据输入到预设的神经网络模型中执行多层卷积运算得到输出结果，依据所述输出结果确定该第一图片内嘴巴的第一位置；

所述摄像头，用于采集第二图片；

所述处理器，还用于对第二图片进行人脸识别确定该第二图片内目标对象的数量，依据所述目标对象的数量控制与所述第一位置对应的屏幕发声激励器按设定策略播放视频通话的声音，包括：确定目标对象的数量所属的第一区间，依据区间与音量的映射关系确定第一区间对应的第一音量，控制所述第一位置对应的屏幕发声激励器按所述第一音量播放视频声音。

2.根据权利要求1所述的电子设备，其特征在于，

所述处理器，具体用于获取第一图片中每个像素点的RGB值，将该每个像素点的RGB值按像素点的位置组成输入数据3*H*W，其中H为输入数据的高度值，W为输入数据的宽度值；

或，

所述处理器，具体用于获取第一图片中每个像素点的HSI值，将该每个像素点的HSI值按像素点的位置组成输入数据3*H*W，其中H为输入数据的高度值，W为输入数据的宽度值。

3.根据权利要求1所述的电子设备，其特征在于，

所述处理器，具体用于提取嘴巴的预设结果矩阵【B】【B】，以矩阵【B】【B】的尺寸为滑动窗口在输出结果滑动，每滑动一次，获取滑动窗口内的元素值，将滑动窗口获取的元素值与所述预设结果矩阵【B】【B】的元素值执行差计算得到差值矩阵，滑动窗口遍历所述输出结果后，获取差值矩阵中最小的差值矩阵，计算最小的差值矩阵的元素平均值，如所述元素平均值小于设定阈值，确定所述最小的差值矩阵对应的像素点的位置为第一嘴巴的位置。

4.一种基于屏幕发声的视频通话方法，所述方法应用于电子设备，所述电子设备包括显示屏、摄像头和处理器，其特征在于，所述电子设备还包括：多个屏幕发声激励器，所述屏幕发声激励器设置在所述显示屏的下方，所述方法包括如下步骤：

接入视频通话时，获取该视频通话中的第一图片，将所述第一图片组成输入数据，将所述输入数据输入到预设的神经网络模型中执行多层卷积运算得到输出结果，依据所述输出结果确定该第一图片内嘴巴的第一位置；

通过所述摄像头采集第二图片；第二图片进行人脸识别确定该第二图片内目标对象的数量；

依据所述目标对象的数量控制与所述第一位置对应的屏幕发声激励器按设定策略播放视频通话的声音，包括：确定目标对象的数量所属的第一区间，依据区间与音量的映射关系确定第一区间对应的第一音量，控制所述第一位置对应的屏幕发声激励器按所述第一音量播放视频声音。

5.根据权利要求4所述的方法，其特征在于，所述将所述第一图片组成输入数据具体包括：

获取第一图片中每个像素点的RGB值，将该每个像素点的RGB值按像素点的位置组成输入数据3*H*W，其中H为输入数据的高度值，W为输入数据的宽度值；

或，

获取第一图片中每个像素点的HSI值，将该每个像素点的HSI值按像素点的位置组成输入数据3*H*W，其中H为输入数据的高度值，W为输入数据的宽度值。

6.根据权利要求4所述的方法，其特征在，所述依据该输出结果确定该嘴巴的第一位置具体包括：

提取嘴巴的预设结果矩阵【B】【B】，以矩阵【B】【B】的尺寸为滑动窗口在输出结果滑动，每滑动一次，获取滑动窗口内的元素值，将滑动窗口获取的元素值与所述预设结果矩阵【B】【B】的元素值执行差计算得到差值矩阵，滑动窗口遍历所述输出结果后，获取差值矩阵中最小的差值矩阵，计算最小的差值矩阵的元素平均值，如所述元素平均值小于设定阈值，确定所述最小的差值矩阵对应的像素点的位置为第一嘴巴的位置。

7.一种基于屏幕发声的视频通话装置，其特征在于，应用于电子设备，所述电子设备包括显示屏、摄像头和处理器，所述电子设备还包括：多个屏幕发声激励器，所述屏幕发声激励器设置在所述显示屏的下方；其中，所述装置包括：

识别单元，用于将所述第一图片组成输入数据，将所述输入数据输入到预设的神经网络模型中执行多层卷积运算得到输出结果，依据所述输出结果确定该第一图片内嘴巴的第一位置；

采集单元，用于通过所述摄像头采集第二图片；

控制单元，用于依据所述目标对象的数量控制与所述第一位置对应的屏幕发声激励器按设定策略播放视频通话的声音，包括：确定目标对象的数量所属的第一区间，依据区间与音量的映射关系确定第一区间对应的第一音量，控制所述第一位置对应的屏幕发声激励器按所述第一音量播放视频声音。

8.一种电子设备，其特征在于，包括处理器、存储器，所述存储器用于存储一个或多个程序，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求4-6任一项所述的方法中的步骤的指令。

9.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求4-6任一项所述的方法。