CN111708383A

CN111708383A - 一种摄像头拍摄角度的调整方法及显示设备

Info

Publication number: CN111708383A
Application number: CN202010621070.4A
Authority: CN
Inventors: 杨鲁明; 王大勇; 王旭升; 程晋
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-09-25

Abstract

本申请公开了一种摄像头拍摄角度的调整方法及显示设备，其中的摄像头可在预设角度范围内转动，控制器被配置为获取声音采集器采集的人物声源信息并进行声源识别，确定用于标识人物所在位置的方位角度的声源角度信息；基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；按照目标转动方向和目标转动角度，调整摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。可见，本发明提供的方法及显示设备，可实现利用人物声源信息触发摄像头的转动，能够自动识别用户的实时所处位置并调整摄像头的拍摄角度，使得摄像头始终能够拍摄到包含人像的图像。

Description

一种摄像头拍摄角度的调整方法及显示设备

技术领域

本申请涉及电视软件技术领域，尤其涉及一种摄像头拍摄角度的调整方法及显示设备。

背景技术

随着显示设备的快速发展，显示设备功能将越来越丰富，性能也越来越强大。例如，显示设备可实现网络搜索、IP电视、BBTV网视通、视频点播(VOD)、数字音乐、网络新闻、网络视频电话等功能。而在利用显示设备实现网络视频通话功能时，需在显示设备上安装摄像头，实现用户形象的采集。

目前，显示设备上安装的摄像头可采用外置形式，也可采用内置形式，但无论采用哪种安装形式，摄像头均固定安装在显示设备上。由于摄像头的可视角度有限，使得固定摄像头的预览显示区域只能是镜头朝向的拍摄区域，即固定摄像头只能拍摄到镜头正对拍摄区域的图像。

由于摄像头固定安装无法旋转角度，使得摄像头的拍摄区域受限，无法拍摄到除镜头正对拍摄区域以外的其他区域图像。那么，如果人物出现在摄像头的拍摄区域之外，则因摄像头被固定而无法获知人物的具体位置，使得固定安装的摄像头无法拍摄到包含人物的图像。

发明内容

本申请提供了一种摄像头拍摄角度的调整方法及显示设备，以解决现有的显示设备因摄像头固定安装而无法根据人物的位置调整摄像头的拍摄角度以拍摄到包含人物的图像的问题。

第一方面，本申请提供了一种显示设备，包括：

摄像头，所述摄像头被配置为采集人像以及实现在预设角度范围内的转动；

声音采集器，所述声音采集器被配置为采集人物声源信息，所述人物声源信息是指人物通过语音与显示设备交互时产生的声音信息；

与所述摄像头和所述声音采集器连接的控制器，所述控制器被配置为：获取所述声音采集器采集的人物声源信息和所述摄像头的当前拍摄角度；

对所述人物声源信息进行声源识别，确定声源角度信息，所述声源角度信息用于表征人物在语音时所处位置的方位角度；

基于所述摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；

按照所述目标转动方向和目标转动角度，调整所述摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。

进一步地，所述控制器在执行所述对人物声源信息进行声源识别，确定声源角度信息之前，被进一步配置为：

对所述人物声源信息进行文本提取，得到语音交互文本；

对比所述语音交互文本和预置唤醒文本，所述预置唤醒文本是指用于触发声源识别过程的文本；

如果所述语音交互文本与所述预置唤醒文本对比一致，则执行对人物声源信息进行声源识别的步骤。

进一步地，包括多组声音采集器，所述控制器获取所述声音采集器采集的人物声源信息具体为：获取每个所述声音采集器采集的所述人物在语音时产生的人物声源信息；

所述控制器在执行所述对人物声源信息进行声源识别，确定声源角度信息，被进一步配置为：

对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差；

基于所述语音时间差，计算所述人物在语音时所处位置的声源角度信息。

进一步地，所述控制器在执行所述对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差，被进一步配置为：

在所述人物声源信息中提取环境噪声、人物语音时的声源信号和人物的语音传播至每一声音采集器的传播时间；

根据所述环境噪声、声源信号和传播时间，确定每个声音采集器的接收信号；

利用互相关时延估计算法，对每个声音采集器的接收信号进行处理，得到每两个声音采集器在采集对应的人物声源信息时产生的语音时间差。

进一步地，所述控制器在执行所述基于语音时间差，计算所述人物在语音时所处位置的声源角度信息，被进一步配置为：

获取当前环境状态下的声速、每个声音采集器的坐标和所述声音采集器的设置个数；

根据所述声音采集器的设置个数，确定声音采集器的组合对数量，所述组合对数量是指声音采集器两两组合得到的组合数；

根据每两个声音采集器对应的语音时间差、声速和每个声音采集器的坐标，建立向量关系方程组，所述向量关系方程组的数量与组合对数量相同；

求解所述向量关系方程组，得到人物语音时所处位置的声源单位平面波传播向量的向量值；

根据所述向量值，计算所述人物在语音时所处位置的声源角度信息。

进一步地，所述控制器在执行所述获取摄像头的当前拍摄角度之前，被进一步配置为：

查询所述摄像头的当前运行状态；

如果所述摄像头的当前运行状态为处于旋转状态，则等待摄像头旋转完毕；

如果所述摄像头的当前运行状态为处于未旋转状态，则获取所述摄像头的当前拍摄角度。

进一步地，所述控制器在执行所述基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度，被进一步配置为：

将所述声源角度信息转换为摄像头的坐标角度；

计算所述摄像头的坐标角度和摄像头的当前拍摄角度的角度差值，将所述角度差值作为所述摄像头的目标转动角度；

根据所述角度差值，确定摄像头的目标转动方向。

进一步地，所述控制器在执行所述将声源角度信息转换为摄像头的坐标角度，被进一步配置为：

获取所述人物在语音时的声源角度范围和摄像头转动时的预设角度范围；

计算所述声源角度范围与所述预设角度范围之间的角度差值，将所述角度差值的半值作为转换角度；

计算所述声源角度信息对应的角度与所述转换角度的角度差，将所述角度差作为摄像头的坐标角度。

进一步地，所述控制器在执行所述根据角度差值，确定摄像头的目标转动方向，被进一步配置为：

如果所述角度差值为正值，则确定摄像头的目标转动方向为向右转动；

如果所述角度差值为负值，则确定摄像头的目标转动方向为向左转动。

第二方面，本申请还提供了一种摄像头拍摄角度的调整方法，所述方法包括：

获取所述声音采集器采集的人物声源信息和所述摄像头的当前拍摄角度，所述人物声源信息是指人物通过语音与显示设备交互时产生的声音信息；

第三方面，本申请还提供了一种存储介质，该计算机存储介质可存储有程序，该程序执行时可实现包括本申请提供的摄像头拍摄角度的调整方法各实施例中的部分或全部步骤。

由以上技术方案可知，本发明实施例提供的一种摄像头拍摄角度的调整方法及显示设备，其中的摄像头可在预设角度范围内转动，控制器被配置为获取声音采集器采集的人物声源信息并进行声源识别，确定用于标识人物所在位置的方位角度的声源角度信息；基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；按照目标转动方向和目标转动角度，调整摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。可见，本发明提供的方法及显示设备，可实现利用人物声源信息触发摄像头的转动，能够自动识别用户的实时所处位置并调整摄像头的拍摄角度，使得摄像头始终能够拍摄到包含人像的图像。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据一些实施例的显示设备200的硬件配置框图；

图3中示例性示出了根据一些实施例的控制设备100的硬件配置框图；

图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；

图5中示例性示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示示意图；

图6中示例性示出了根据一些实施例的显示设备的结构框图；

图7中示例性示出了根据一些实施例的实现摄像头转动的预设角度范围的示意图；

图8中示例性示出了根据一些实施例的在预设角度范围内摄像头转动的场景图；

图9中示例性示出了根据一些实施例的声源角度范围的示意图；

图10中示例性示出了根据一些实施例的摄像头拍摄角度的调整方法的流程图；

图11中示例性示出了根据一些实施例的唤醒文本的对比方法的流程图；

图12中示例性示出了根据一些实施例的对人物声源信息进行声源识别的方法流程图；

图13中示例性示出了根据一些实施例的确定摄像头的目标转动方向和目标转动角度的方法流程图；

图14中示例性示出了根据一些实施例的调整摄像头拍摄角度的一种场景图；

图15中示例性示出了根据一些实施例的调整摄像头拍摄角度的另一种场景图；

图16中示例性示出了根据一些实施例的人物语音时所处位置的场景图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端300和控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

在一些实施例中，移动终端300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端300与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端300上，通过控制移动终端300上用户界面，实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上，实现同步显示功能。

如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

显示设备200，可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。

显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(IPTV)等。

图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275，音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。

在一些实施例中，显示器275，用于接收源自第一处理器输出的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。

在一些实施例中，显示器275，包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。

在一些实施例中，显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。

在一些实施例中，显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控UI界面。

在一些实施例中，根据显示器275类型不同，还包括用于驱动显示的驱动组件。

在一些实施例中，显示器275为一种投影显示器，还可以包括一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信器可以包括Wifi芯片，蓝牙通信协议芯片，有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。

在一些实施例中，显示设备200可以通过通信器220与外部控制设备100或内容提供设备之间建立控制信号和数据信号发送和接收。

在一些实施例中，用户接口265，可用于接收控制装置100(如：红外遥控器等)红外控制信号。

在一些实施例中，检测器230是显示设备200用于采集外部环境或与外部交互的信号。

在一些实施例中，检测器230包括光接收器，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。

在一些实施例中，检测器230还可以包括图像采集器，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。

在一些实施例中，检测器230还可以包括温度传感器等，如通过感测环境温度。

在一些实施例中，显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整显示设备200显示图像偏暖色调。

在一些实施例中，检测器230还可声音采集器等，如麦克风，可以用于接收用户的声音。示例性的，包括用户控制显示设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得显示设备200可以自适应适应环境噪声。

在一些实施例中，如图2所示，输入/输出接口255被配置为，可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。

在一些实施例中，外部装置接口240可以包括，但不限于如下：可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。

在一些实施例中，如图2所示，调谐解调器210被配置为，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多多个无线或有线广播电视信号中解调出音视频信号，该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号，以及EPG数据信号。

在一些实施例中，调谐解调器210解调的频点受到控制器250的控制，控制器250可根据用户选择发出控制信号，以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。

在一些实施例中，广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号，模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。这样，机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备，主体设备经过第一输入/输出接口接收音视频信号。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

如图2所示，控制器250包括随机存取存储器251(Random Access Memory，RAM)、只读存储器252(Read-Only Memory,ROM)、视频处理器270、音频处理器280、其他处理器253(例如：图形处理器(Graphics Processing Unit，GPU)、中央处理器254(CentralProcessing Unit，CPU)、通信接口(Communication Interface)，以及通信总线256(Bus)中的至少一种。其中，通信总线连接各个部件。

在一些实施例中，RAM 251用于存储操作系统或其他正在运行中的程序的临时数据

在一些实施例中，ROM 252用于存储各种系统启动的指令。

在一些实施例中，ROM 252用于存储一个基本输入输出系统，称为基本输入输出系统(Basic Input Output System，BIOS)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。

在一些实施例中，在收到开机信号时，显示设备200电源开始启动，CPU运行ROM252中系统启动指令，将存储在存储器的操作系统的临时数据拷贝至RAM 251中，以便于启动或运行操作系统。当操作系统启动完成后，CPU再将存储器中各种应用程序的临时数据拷贝至RAM 251中,然后，以便于启动或运行各种应用程序。

在一些实施例中，CPU处理器254，用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，CPU处理器254，可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器，用于在预加电模式中执行显示设备200一些操作，和/或在正常模式下显示画面的操作。一个或多个子处理器，用于在待机模式等状态下一种操作。

在一些实施例中，图形处理器253，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器270被配置为将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器270，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。

视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧率转换模块，用于对转换输入视频帧率，如将60Hz帧率转换为120Hz帧率或240Hz帧率，通常的格式采用如插帧方式实现。

显示格式化模块，则用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，图形处理器253可以和视频处理器可以集成设置，也可以分开设置，集成设置的时候可以执行输出给显示器的图形信号的处理，分离设置的时候可以分别执行不同的功能，例如GPU+FRC(Frame Rate Conversion))架构。

在一些实施例中，音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，视频处理器270可以包括一颗或多颗芯片组成。音频处理器，也可以包括一颗或多颗芯片组成。

在一些实施例中，视频处理器270和音频处理器280，可以单独的芯片，也可以于控制器一起集成在一颗或多颗芯片中。

在一些实施例中，音频输出，在控制器250的控制下接收音频处理器280输出的声音信号，如：扬声器286，以及除了显示设备200自身携带的扬声器之外，可以输出至外接设备的发生装置的外接音响输出端子，如：外接音响接口或耳机接口等，还可以包括通信接口中的近距离通信模块，例如：用于进行蓝牙扬声器声音输出的蓝牙模块。

供电电源290，在控制器250控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路，也可以是安装在显示设备200外部电源，在显示设备200中提供外接电源的电源接口。

用户接口265，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。

在一些实施例中，用户通过控制装置100或移动终端300输入用户命令，用户输入接口则根据用户的输入，显示设备200则通过控制器250响应用户的输入。

在一些实施例中，用户可在显示器275上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

存储器260，包括存储用于驱动显示设备200的各种软件模块。如：第一存储器中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。

基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。

例如，语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块，可以用于播放多媒体图像内容和UI界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。同时，存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。

图3示例性示出了根据示例性实施例中控制设备100的配置框图。如图3所示，控制设备100包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。

控制设备100被配置为控制显示设备200，以及可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。如：用户通过操作控制设备100上频道加减键，显示设备200响应频道加减的操作。

在一些实施例中，控制设备100可是一种智能设备。如：控制设备100可根据用户需求安装控制显示设备200的各种应用。

在一些实施例中，如图1所示，移动终端300或其他智能电子设备，可在安装操控显示设备200的应用之后，可以起到控制设备100类似功能。如：用户可以通过安装应用，在移动终端300或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮，以实现控制设备100实体按键的功能。

控制器110包括处理器112和RAM 113和ROM 114、通信接口130以及通信总线。控制器用于控制控制设备100的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。

通信接口130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片131、蓝牙模块132、NFC模块133等其他近场通信模块中至少之一种。

用户输入/输出接口140，其中，输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换为相应指令信号，发送至显示设备200。

输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中，可以红外接口，也可以是射频接口。如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。

在一些实施例中，控制设备100包括通信接口130和输入输出接口140中至少一者。控制设备100中配置通信接口130，如：WiFi、蓝牙、NFC等模块，可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码，发送至显示设备200.

存储器190，用于在控制器的控制下存储驱动和控制控制设备200的各种运行程序、数据和应用。存储器190，可以存储用户输入的各类控制信号指令。

供电电源180，用于在控制器的控制下为控制设备100各元件提供运行电力支持。可以电池及相关控制电路。

在一些实施例中，系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序、时钟程序、相机应用等；也可以是第三方开发者所开发的应用程序，比如嗨见程序、K歌程序、魔镜程序等。在具体实施时，应用程序层中的应用程序包不限于以上举例，实际还可以包括其它应用程序包，本申请实施例对此不做限制。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于：管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。

在一些实施例中，窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，触摸传感器、压力传感器等)等。

在一些实施例中，内核层还包括用于进行电源管理的电源驱动模块。

在一些实施例中，图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。

在一些实施例中，以魔镜应用(拍照应用)为例，当遥控接收装置接收到遥控器输入操作，相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值，输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作，该确认操作所对应的控件为魔镜应用图标的控件，魔镜应用调用应用框架层的接口，启动魔镜应用，进而通过调用内核层启动摄像头驱动，实现通过摄像头捕获静态图像或视频。

在一些实施例中，对于具备触控功能的显示设备，以分屏操作为例，显示设备接收用户作用于显示屏上的输入操作(如分屏操作)，内核层可以根据输入操作产生相应的输入事件，并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口，然后将绘制的窗口数据发送给内核层的显示驱动，由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。

在一些实施例中，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。

在一些实施例中，直播电视应用程序，可以通过不同的信号源提供直播电视。例如，直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及，直播电视应用程序可在显示设备200上显示直播电视信号的视频。

在一些实施例中，视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。例如，视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。

在一些实施例中，媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。例如，媒体中心，可以为不同于直播电视或视频点播，用户可通过媒体中心应用程序访问各种图像或音频所提供服务。

在一些实施例中，应用程序中心，可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序，或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序，将它们储存在本地储存器中，然后在显示设备200上可运行。

在一些实施例中，显示设备中需要利用到摄像头的应用程序包括“嗨见”、“照镜子”、“优学猫”、“健身”等，可实现“视频聊天”、“边看边聊”和“健身”等功能。“嗨见”是一款视频聊天应用，可实现手机与电视之间，电视与电视之间的一键聊天。“照镜子”是为用户提供镜子服务的应用，通过照镜子应用打开摄像头，用户可将智能电视作为镜子使用。“优学猫”是提供学习功能的应用。在实现“边聊边看”功能时，用户在启动“嗨见”应用进行视频通话的场景下，同时观看视频节目。“健身”功能可在显示设备的显示器上同步显示健身指导视频和摄像头拍摄的用户跟随健身指导视频做相应动作的图像，实现用户实时查看自身的动作是否标准。

由于用户在利用显示设备进行“视频聊天”、“边看边聊”或“健身”时，可能不会固定在一个位置不动，用户还可以边走边进行上述功能实现。但是现有的显示设备中，摄像头固定安装在显示设备上，摄像头的视角中心线与显示器垂直，且摄像头的可视角度有限，通常位于60°～75°之间，即摄像头的拍摄区域为以摄像头的视角中心线向左和向右同步扩散形成60°～75°角度对应的区域。

如果用户走出摄像头的拍摄区域，摄像头将无法拍摄到包含用户人像的图像，使得显示器上无法显示人像。若在视频聊天通话场景下，与本端用户进行视频聊天通话的对端用户将无法看到本端用户；若在健身场景下，显示器上将无法显示用户呈现健身动作的图像，用户看不到自己的健身动作，将无法判断是否标准，影响用户体验。

图6中示例性示出了根据一些实施例的显示设备的结构框图。为了在用户走出摄像头的拍摄区域，使得摄像头仍然可以拍摄到用户的图像，参见图6，本发明实施例提供了一种显示设备，包括摄像头232、声音采集器231和控制器250。摄像头用于采集人像，摄像头不再采用固定安装方式，而是以可转动的方式安装在显示设备上，具体地，摄像头232以转动形式安装在显示器的顶部，摄像头232可沿显示器的顶部转动。

图7中示例性示出了根据一些实施例的实现摄像头转动的预设角度范围的示意图；图8中示例性示出了根据一些实施例的在预设角度范围内摄像头转动的场景图。参见图7和图8，预设摄像头232可在预设角度范围内转动，且在水平方向上转动。在一些实施例中，预设角度范围为0°～120°，即在面对显示器的位置，以用户的左侧为0°，用户的右侧为120°。以摄像头232的视角中心线垂直于显示器时的状态为初始状态，摄像头可实现由初始状态向左转动60°，以及，由初始状态向右转动60°；摄像头的视角中心线与显示器垂直的位置为摄像头60°的位置。

本发明实施例提供的显示设备，实现利用声源信息触发摄像头的转动，能够自动识别用户的实时所处位置并调整摄像头的拍摄角度，使得摄像头始终能够拍摄到包含人像的图像。为此，在一些实施例中，显示设备通过设置声音采集器231实现人物声源信息的采集。

为保证声源采集的准确性，显示设备中可设置多组声音采集器，在一些实施例中，显示设备中设置四组声音采集器231，四组声音采集器231可以线性的位置关系进行排列设置。在一些实施例中，声音采集器可为麦克风，四组麦克风线性排列形成麦克风阵列。在声音采集时，四组声音采集器231接收同一用户通过语音与显示设备交互时产生的声音信息。

图9中示例性示出了根据一些实施例的声源角度范围的示意图。用户在语音时，产生的声音会被360°接收到，因此，在用户位于显示设备正面时，用户产生的声源角度范围为0°～180°，同样的，在用户位于显示设备背面，用户产生的声源角度范围也为0°～180°。参见图9，以用户面对显示设备的位置为例，用户位于声音采集器左侧为水平0°，用户位于声音采集器右侧为水平180°。

再次参见图7和图9，声源的30°角位置等于摄像头的0°角位置，声源的90°角位置等于摄像头的60°角位置，声源的150°角位置等于摄像头的120°角位置。

控制器250分别与摄像头232和声音采集器231连接，控制器用于接收声音采集器采集到的人物声源信息，并对人物声源信息进行识别，确定出人物所在位置的方位角度，进而确定摄像头需要转动的角度。控制器按照确定出的摄像头需要转动的角度调整摄像头的拍摄角度，使得摄像头的拍摄区域正对人物语音时的所处位置，实现根据人物的位置调整摄像头的拍摄角度以拍摄到包含人物的图像。

图10中示例性示出了根据一些实施例的摄像头拍摄角度的调整方法的流程图。本发明实施例提供的一种显示设备，在根据人物的位置调整摄像头的拍摄角度时，控制器被配置为执行图10所示的摄像头拍摄角度的调整方法，包括：

S1、获取声音采集器采集的人物声源信息和摄像头的当前拍摄角度。

在一些实施例中，显示设备中的控制器在驱动摄像头转动，以调整摄像头的拍摄角度时，需根据人物在所处位置与显示设备进行语音交互时产生的人物声源信息来确定，人物声源信息是指人物通过语音与显示设备交互时产生的声音信息。

人物声源信息可确定出人物在语音时所处位置的方位角度，而为准确确定摄像头需要进行调整的角度，需要先获取摄像头的当前状态，即当前拍摄角度。摄像头的当前拍摄角度需要在摄像头处于停止状态时才可被获取，以保证摄像头的当前拍摄角度的准确性，进而保证确定摄像头需要进行调整角度的准确性。

因此，控制器在执行获取摄像头的当前拍摄角度之前，被进一步配置为执行下述步骤：

步骤11、查询摄像头的当前运行状态。

步骤12、如果摄像头的当前运行状态为处于旋转状态，则等待摄像头旋转完毕。

步骤13、如果摄像头的当前运行状态为处于未旋转状态，则获取摄像头的当前拍摄角度。

控制器内配置有马达控制服务，马达控制服务用于驱动摄像头转动、获取摄像头的运行状态和摄像头朝向角度。

马达控制服务实时监控摄像头的运行状态，控制器通过调用马达控制服务查询摄像头的当前运行状态，摄像头的当前运行状态可表征当前摄像头的朝向角度以及摄像头是否处于旋转状态。

如果摄像头正处于旋转状态，此时不能获取摄像头的当前拍摄角度，否则无法确定准确的数值。因此，在摄像头处于旋转状态时，需先等待摄像头执行前一指令完成转动后，在停止状态下，再执行获取摄像头的当前拍摄角度的步骤。

如果摄像头正处于未旋转状态，即摄像头处于停止状态，则可执行获取摄像头的当前拍摄角度的步骤。

S2、对人物声源信息进行声源识别，确定声源角度信息，声源角度信息用于表征人物在语音时所处位置的方位角度。

在获取到人物与显示设备交互产生的人物声源信息后，控制器需对人物声源信息进行声源识别，以判断出人物在语音时的所处位置，具体为方位角度，即人物是位于声音采集器的左侧、右侧还是正对声音采集器的位置，进而根据人物的所处位置调整摄像头的拍摄角度。

由于人物在与显示设备交互时，例如在视频通话场景中，人物语音可能是在与对端用户进行对话，而自身仍位于摄像头的拍摄区域内，若此时控制器执行调整摄像头的拍摄角度的步骤，则会出现无效操作。

因此，为准确的根据人物声源信息确定是否需要对摄像头的拍摄角度进行调整，需要先对人物产生的人物声源信息进行分析，判断人物声源信息是否为触发摄像头调整的信息。

在一些实施例中，可预先在控制器内存储用于触发摄像头拍摄角度调整的唤醒文本，例如，定制“海信小聚”作为声源识别的唤醒文本。人物通过语音“海信小聚”作为识别声源，以触发调整摄像头拍摄角度的过程。唤醒文本也可定制为其他词语，本实施例中不做具体限定。

图11中示例性示出了根据一些实施例的唤醒文本的对比方法的流程图。具体地，参见图11，控制器在执行对人物声源信息进行声源识别，确定声源角度信息之前，被进一步配置为执行下述步骤：

S021、对人物声源信息进行文本提取，得到语音交互文本。

S022、对比语音交互文本和预置唤醒文本，预置唤醒文本是指用于触发声源识别过程的文本。

S023、如果语音交互文本与预置唤醒文本对比一致，则执行对人物声源信息进行声源识别的步骤。

在一些实施例中，控制器在获取到人物声源信息后，先进行文本提取，提取出人物通过语音与显示设备交互时的语音交互文本。将提取出的语音交互文本与预置唤醒文本进行对比，如果对比不一致，例如，人物语音并非“海信小聚”，而是其他交互内容，此时，说明当前人物的语音并非触发调整摄像头拍摄角度的语音，控制器无需执行调整摄像头拍摄角度的相关步骤。

如果对比一致，则说明当前人物的语音为触发调整摄像头拍摄角度的语音，例如，人物语音为预先设置的“海信小聚”，此时，控制器可继续执行后续调整摄像头拍摄角度的步骤。

在判断出人物声源信息为唤醒语音，即调整摄像头拍摄角度的触发语音时，控制器需执行后续声源识别的过程。

由于显示设备中设置多组声音采集器，多组声音采集器可采集到同一人物语音时的多组人物声源信息，那么控制器在获取声音采集器采集的人物声源信息时，可获取到每个声音采集器采集的人物在语音时产生的人物声源信息，即控制器会获取到多组人物声源信息。

图12中示例性示出了根据一些实施例的对人物声源信息进行声源识别的方法流程图。多组声音采集器采集同一唤醒文本时，由于每个声音采集器与人物之间的距离并不相同，因此，可对每个人物声源信息进行识别，以确定人物语音时的方位角度，即声源角度信息。具体地，参见图12，制器在执行对人物声源信息进行声源识别，确定声源角度信息，被进一步配置为执行下述步骤：

S21、对每个人物声源信息分别进行声源识别，计算多组声音采集器在采集对应的人物声源信息时产生的语音时间差。

S22、基于语音时间差，计算人物在语音时所处位置的声源角度信息。

每个声音采集器的频率响应一致，其采样时钟也同步，但由于每个声音采集器与人物之间的距离并不相同，因此，每个声音采集器能够采集到语音的时刻也并非相同，多组声音采集器之间会存在采集时间差。

在一些实施例中，可以通过声音采集器阵列计算声源距离阵列的角度和距离，实现对人物语音时所处位置的声源进行跟踪。基于TDOA(Time Difference Of Arrival，到达时间差)的声源定位技术，估计信号到达两两麦克风之间的时间差，从而得到声源位置坐标的方程组，然后求解方程组即可得到声源的精确方位坐标，即声源角度信息。

在一些实施例中，在步骤S21中，控制器在执行对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差，被进一步配置为执行下述步骤：

步骤211、在人物声源信息中提取环境噪声、人物语音时的声源信号和人物的语音传播至每一声音采集器的传播时间。

步骤212、根据环境噪声、声源信号和传播时间，确定每个声音采集器的接收信号。

步骤213、利用互相关时延估计算法，对每个声音采集器的接收信号进行处理，得到每两个声音采集器在采集对应的人物声源信息时产生的语音时间差。

在计算每两个声音采集器的语音时间差时，可利用声音采集器阵列实现声源到达方向估计(direction-of-arrival(DOA)estimation)，由DOA估计算法计算声音到达不同声音采集器阵列间的时间差。

在声源定位系统中，声音采集器阵列的每个阵元接收到的目标信号都来自于同一个声源。因此，各通道信号之间具有较强的相关性，通过计算每两路信号之间的相关函数，就可以确定每两个声音采集器观测信号之间的时延，即语音时间差。

人物在语音时产生的人物声源信息中包括环境噪声和人物语音时的声源信号，还可在人物声源信息中通过识别提取出人物的语音传播至每一声音采集器的传播时间，计算每个声音采集器的接收信号。

x_i(t)＝α_is(t-τ_i)+n_i(t)；

式中，x_i(t)为第i个声音采集器的接收信号，s(t)为人物语音时的声源信号，τ_i为人物的语音传播至第i个声音采集器的传播时间，n_i(t)为环境噪声，α_i为修正系数。

利用互相关时延估计算法对每个声音采集器的接收信号进行处理，进行时延估计，表示为：

式中，

为第i个声音采集器与第i+1个声音采集器之间的时延，即语音时间差。

带入每个声音采集器的接收信号模型，得到：

由于s(t)与n_i(t)互不相关，因此可简化上式为：

其中，τ_ii+1＝τ_i-τ_i+1，n_i与n_i+1为互不相关的高斯白噪声，则上式进一步简化为：

由互相关时延估计算法的性质可知，当τ_ii+1＝τ_i-τ_i+1时，

取最大值，是两个声音采集器的时延，即语音时间差。

在声音采集器阵列信号处理实际模型中，由于存在混响和噪声影响，导致

的峰值不明显，降低了时延估计的精度。为了锐化

的峰值，可以根据信号和噪声的先验知识，在频域内对互功率谱进行加权，从而能抑制噪声和混响干扰。最后进行傅里叶逆变换，得到广义互相关函数

其中

表示频域加权函数。

最后采用PHAT加权，使得信号间的互动率谱更加平滑，得到最终的每两个声音采集器在采集对应的人物声源信息时产生的语音时间差

经过PHAT加权的互功率谱近似于单位冲激响应的表达式，突出了时延的峰值，能够有效抑制混响噪声，提高时延(语音时间差)估计的精度和准确度。

在一些实施例中，在步骤S22中，控制器在执行基于语音时间差，计算人物在语音时所处位置的声源角度信息，被进一步配置为执行下述步骤：

步骤221、获取当前环境状态下的声速、每个声音采集器的坐标和声音采集器的设置个数。

步骤222、根据声音采集器的设置个数，确定声音采集器的组合对数量，组合对数量是指声音采集器两两组合得到的组合数。

步骤223、根据每两个声音采集器对应的语音时间差、声速和每个声音采集器的坐标，建立向量关系方程组，向量关系方程组的数量与组合对数量相同。

步骤224、求解向量关系方程组，得到人物语音时所处位置的声源单位平面波传播向量的向量值。

步骤225、根据向量值，计算人物在语音时所处位置的声源角度信息。

在根据前述实施例提供的方法计算出每两个声音采集器的语音时间差后，可根据每个语音时间差计算人物在语音时所处位置的声源角度信息。

在计算声源角度信息时，需要建立多组向量关系方程组，为保证计算结果的准确性，可设定方程组的数量与声音采集器两两组合得到的组合数相同。为此，获取声音采集器的设置个数N，则所有声音采集器之间两两组合共有N(N-1)/2对组合对。

在建立向量关系方程组时，获取当前环境状态下的声速c和每个声音采集器的坐标，记第k个声音采集器的坐标为(x_k,y_k,z_k)，同时，设定人物语音时所处位置的声源单位平面波传播向量为u＝(u,v,w)，求解出人物语音时所处位置的声源单位平面波传播向量的向量值即可确定声源角度信息。

根据每两个声音采集器对应的语音时间差

声速c、每个声音采集器的坐标(x_k,y_k,z_k)和人物语音时所处位置的声源单位平面波传播向量为(u,v,w)，建立N(N-1)/2个向量关系方程组：

该式代表第i个声音采集器与第j个声音采集器之间建立的向量关系方程组。

以N＝3为例，可以建立以下方程组：

(第1个声音采集器与第2个声音采集器之间建立的向量关系方程组)；

(第1个声音采集器与第3个声音采集器之间建立的向量关系方程组)；

(第3个声音采集器与第2个声音采集器之间建立的向量关系方程组)。

将上述三个向量关系方程组，写成矩阵形式：

根据上述矩阵求解出u＝(u,v,w)，再利用正余弦关系，即可得到角度值：

即人物在语音时所处位置的方位角度的声源角度信息。

S3、基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度。

控制器通过对人物声源信息进行声源识别，以确定出用于表征人物在语音时所处位置的方位角度的声源角度信息。声源角度信息可标识人物当前的所处位置，摄像头的当前拍摄角度可标识摄像头当前的所处位置，根据两个位置之间的相差角度即可确定摄像头需要转动的目标转动角度，以及摄像头在转动时的目标转动方向。

图13中示例性示出了根据一些实施例的确定摄像头的目标转动方向和目标转动角度的方法流程图。具体地，参见图13，控制器在执行基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度，被进一步配置为执行下述步骤：

S31、将声源角度信息转换为摄像头的坐标角度。

由于声源角度信息表征人物的所处方位角度，因此，为便于准确地根据声源角度信息和摄像头的当前拍摄角度计算出摄像头需要调整的方位角度，可将人物的声源角度信息转换为摄像头的坐标角度，即用摄像头的坐标角度来代替人物的声源角度信息。

具体地，控制器在执行将声源角度信息转换为摄像头的坐标角度，被进一步配置为执行下述步骤：

步骤311、获取人物在语音时的声源角度范围和摄像头转动时的预设角度范围。

步骤312、计算声源角度范围与预设角度范围之间的角度差值，将角度差值的半值作为转换角度。

步骤313、计算声源角度信息对应的角度与转换角度的角度差，将角度差作为摄像头的坐标角度。

由于声源角度范围和摄像头的预设角度范围并不相同，预设角度范围为0°～120°，声源角度范围为0°～180°，无法直接由摄像头的坐标角度代替声源角度信息。因此，先计算声源角度范围与预设角度范围之间的角度差值，再计算角度差值的半值，将半值作为由声源角度信息转换为摄像头的坐标角度时的转换角度。

声源角度范围与预设角度范围之间的角度差值为60°，角度差值的半值为30°，将30°作为转换角度。最后，计算声源角度信息对应的角度与转换角度的角度差，即为将声源角度信息转换成的摄像头的坐标角度。

例如，如果人物位于声音采集器的左侧，控制器通过获取多个声音采集器采集的人物声源信息确定出的声源角度信息对应的角度为50°，而转换角度为30°，因此，计算角度差为20°，即实现将声源角度信息对应的50°替换为摄像头的坐标角度20°来表示。

如果人物位于声音采集器的右侧，控制器通过获取多个声音采集器采集的人物声源信息确定出的声源角度信息对应的角度为130°，而转换角度为30°，因此，计算角度差为100°，即实现将声源角度信息对应的130°替换为摄像头的坐标角度100°来表示。

S32、计算摄像头的坐标角度和摄像头的当前拍摄角度的角度差值，将角度差值作为摄像头的目标转动角度。

摄像头的坐标角度用于标识人物所处位置在摄像头坐标内的角度，因此，根据摄像头的当前拍摄角度与摄像头的坐标角度的角度差值，即可确定出摄像头需要转动的目标转动角度。

例如，如果摄像头的当前拍摄角度为100°，摄像头的坐标角度为20°，说明摄像头当前的拍摄区域并未对准人物所处位置，二者相差80°，因此，需将摄像头转动80°后，摄像头的拍摄区域才可对准人物所处位置，即摄像头的目标转动角度为80°。

S33、根据角度差值，确定摄像头的目标转动方向。

由于以面对显示设备的方向，将左侧作为摄像头0°位置，右侧作为摄像头120°位置，因此，在根据摄像头的坐标角度和摄像头的当前拍摄角度确定出角度差值后，如果当前拍摄角度大于坐标角度，则说明摄像头的拍摄角度位于人物所处位置的右侧，此时角度差值为负值；如果当前拍摄角度小于坐标角度，则说明摄像头的拍摄角度位于人物所处位置的左侧，此时角度差值为正值。

在一些实施例中，可根据角度差值的正负来确定摄像头的目标转动方向。如果角度差值为正值，说明摄像头的拍摄角度位于人物所处位置的左侧，此时，为使摄像头拍摄到人物的图像，需向右调整摄像头的拍摄角度，则确定摄像头的目标转动方向为向右转动。

如果角度差值为负值，说明摄像头的拍摄角度位于人物所处位置的右侧，此时，为使摄像头拍摄到人物的图像，需向左调整摄像头的拍摄角度，则确定摄像头的目标转动方向为向左转动。

例如，图14中示例性示出了根据一些实施例的调整摄像头拍摄角度的一种场景图。参见图14，如果人物对应的声源角度信息对应的角度为50°，则转换成的摄像头的坐标角度为20°；摄像头的当前拍摄角度为100°，即摄像头的视角中心线位于人物所处位置的右侧，计算得到角度差值为-80°。可见角度差值为负值，此时，需调整摄像头向左转动80°。

图15中示例性示出了根据一些实施例的调整摄像头拍摄角度的另一种场景图。参见图15，如果人物对应的声源角度信息对应的角度为120°，则转换成的摄像头的坐标角度为90°；摄像头的当前拍摄角度为40°，即摄像头的视角中心线位于人物所处位置的左侧，计算得到角度差值为50°。可见角度差值为正值，此时，需调整摄像头向右转动50°。

S4、按照目标转动方向和目标转动角度，调整摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。

控制器在确定出摄像头需要调整拍摄角度时所需的目标转动方向和目标转动角度后，即可按照目标转动方向和目标转动角度调整摄像头的拍摄角度，将摄像头的拍摄区域正对人物所处位置，使得摄像头可拍摄到包括人物的图像，实现根据人物的所处位置调整摄像头的拍摄角度。

图16中示例性示出了根据一些实施例的人物语音时所处位置的场景图。由于摄像头的预设角度范围与人物语音时的声源角度范围不同，若体现在角度示意图中，参见图16，预设角度范围的0°位置与声源角度范围的0°位置之间存在30°的角度差值，同样的，预设角度范围的120°位置与声源角度范围的180°位置之间也存在30°的角度差值。

那么，如果人物在与显示设备交互时，其所处的位置恰好位于30°的夹角区域范围内，如图16中所示的人物(a)所处位置或人物(b)所处位置。此时，控制器在执行前述步骤S31中将声源角度信息转换为摄像头的坐标角度时，将会出现由人物的声源角度信息转换得到的摄像头的坐标角度为负值的情况，或者大于摄像头的预设角度范围最大值的情况，即转换得到的摄像头的坐标角度并未位于摄像头的预设角度范围内。

例如，若人物(a)所处位置对应的声源角度信息为20°，而转换角度为30°，则计算得到的摄像头的坐标角度为-10°。若人物(b)所处位置对应的声源角度信息为170°，而转换角度为30°，则计算得到的摄像头的坐标角度为140°。可见，根据人物(a)所处位置和人物(b)所处位置分别转换得到的摄像头的坐标角度均超出摄像头的预设角度范围。

如果摄像头的坐标角度均超出摄像头的预设角度范围，说明摄像头无法转动至摄像头的坐标角度(人物语音所处位置)对应的位置。而由于摄像头的可视角度范围位于60°～75°之间，说明在将摄像头转动到0°位置或者120°位置，摄像头的可视角度范围可覆盖预设角度范围的0°位置与声源角度范围的0°位置之间存在30°的角度差，以及，覆盖预设角度范围的120°位置与声源角度范围的180°位置之间存在30°的角度差。

因此，如果人物的所处位置位于预设角度范围的0°位置与声源角度范围的0°位置之间存在30°的角度差范围内，或者，位于预设角度范围的120°位置与声源角度范围的180°位置之间存在30°的角度差范围内，则为了能够拍摄到包含人物的图像，按照摄像头的预设角度范围的最小值或最大值对应的位置，调整摄像头的拍摄角度。

在一些实施例中，控制器被进一步配置为执行下述步骤：在人物的声源角度信息转换为摄像头的坐标角度超出摄像头的预设角度范围时，根据摄像头的当前拍摄角度与预设角度范围的最小值或最大值的角度差值，确定摄像头的目标转动方向和目标转动角度。

例如，如果人物(a)位于预设角度范围的0°位置与声源角度范围的0°位置之间存在30°的角度差范围内，即人物(a)的声源角度信息对应的声源角度为20°，摄像头的当前拍摄角度为50°时。根据摄像头的预设角度范围的最小值0°和当前拍摄角度50°计算角度差值，角度差值为-50°，则确定摄像头的目标转动方向为向左转动，目标转动角度为50°。此时，摄像头的视角中心线(a)与摄像头的0°线重合。

如果人物(b)位于预设角度范围的120°位置与声源角度范围的180°位置之间存在30°的角度差范围内，即人物(b)的声源角度信息对应的声源角度为170°，摄像头的当前拍摄角度为50°时。根据摄像头的预设角度范围的最大值120°和当前拍摄角度50°计算角度差值，角度差值为70°，则确定摄像头的目标转动方向为向右转动，目标转动角度为70°。此时，摄像头的视角中心线(b)与摄像头的120°线重合。

因此，即使人物所处位置对应的声源角度超出摄像头在转动时的预设角度范围，本发明实施例提供的显示设备，仍可依据人物的所处位置，将摄像头转动至预设角度范围对应的最小值或最大值的位置，依据摄像头的可视角度覆盖范围，拍摄到包含人物的图像。

可见，本发明实施例提供的一种显示设备，其中的摄像头可在预设角度范围内转动，控制器被配置为获取声音采集器采集的人物声源信息并进行声源识别，确定用于标识人物所在位置的方位角度的声源角度信息；基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；按照目标转动方向和目标转动角度，调整摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。可见，本发明提供的显示设备，可实现利用人物声源信息触发摄像头的转动，能够自动识别用户的实时所处位置并调整摄像头的拍摄角度，使得摄像头始终能够拍摄到包含人像的图像。

图10中示例性示出了根据一些实施例的摄像头拍摄角度的调整方法的流程图。参见图10，本发明实施例提供的一种摄像头拍摄角度的调整方法，由前述实施例提供的显示设备中的控制器执行，该方法包括：

S1、获取所述声音采集器采集的人物声源信息和所述摄像头的当前拍摄角度，所述人物声源信息是指人物通过语音与显示设备交互时产生的声音信息；

S2、对所述人物声源信息进行声源识别，确定声源角度信息，所述声源角度信息用于表征人物在语音时所处位置的方位角度；

S3、基于所述摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；

S4、按照所述目标转动方向和目标转动角度，调整所述摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。

进一步地，所述对人物声源信息进行声源识别，确定声源角度信息之前，还包括：对所述人物声源信息进行文本提取，得到语音交互文本；对比所述语音交互文本和预置唤醒文本，所述预置唤醒文本是指用于触发声源识别过程的文本；如果所述语音交互文本与所述预置唤醒文本对比一致，则执行对人物声源信息进行声源识别的步骤。

进一步地，包括多组声音采集器，所述控制器获取所述声音采集器采集的人物声源信息具体为：获取每个所述声音采集器采集的所述人物在语音时产生的人物声源信息；所述对人物声源信息进行声源识别，确定声源角度信息，包括：对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差；基于所述语音时间差，计算所述人物在语音时所处位置的声源角度信息。

进一步地，所述对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差，包括：在所述人物声源信息中提取环境噪声、人物语音时的声源信号和人物的语音传播至每一声音采集器的传播时间；根据所述环境噪声、声源信号和传播时间，确定每个声音采集器的接收信号；利用互相关时延估计算法，对每个声音采集器的接收信号进行处理，得到每两个声音采集器在采集对应的人物声源信息时产生的语音时间差。

进一步地，所述基于语音时间差，计算所述人物在语音时所处位置的声源角度信息，包括：获取当前环境状态下的声速、每个声音采集器的坐标和所述声音采集器的设置个数；根据所述声音采集器的设置个数，确定声音采集器的组合对数量，所述组合对数量是指声音采集器两两组合得到的组合数；根据每两个声音采集器对应的语音时间差、声速和每个声音采集器的坐标，建立向量关系方程组，所述向量关系方程组的数量与组合对数量相同；求解所述向量关系方程组，得到人物语音时所处位置的声源单位平面波传播向量的向量值；根据所述向量值，计算所述人物在语音时所处位置的声源角度信息。

进一步地，所述获取摄像头的当前拍摄角度之前，包括：查询所述摄像头的当前运行状态；如果所述摄像头的当前运行状态为处于旋转状态，则等待摄像头旋转完毕；如果所述摄像头的当前运行状态为处于未旋转状态，则获取所述摄像头的当前拍摄角度。

进一步地，所述基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度，包括：将所述声源角度信息转换为摄像头的坐标角度；计算所述摄像头的坐标角度和摄像头的当前拍摄角度的角度差值，将所述角度差值作为所述摄像头的目标转动角度；根据所述角度差值，确定摄像头的目标转动方向。

进一步地，所述将声源角度信息转换为摄像头的坐标角度，包括：获取所述人物在语音时的声源角度范围和摄像头转动时的预设角度范围；计算所述声源角度范围与所述预设角度范围之间的角度差值，将所述角度差值的半值作为转换角度；计算所述声源角度信息对应的角度与所述转换角度的角度差，将所述角度差作为摄像头的坐标角度。

进一步地，所述根据角度差值，确定摄像头的目标转动方向，包括：如果所述角度差值为正值，则确定摄像头的目标转动方向为向右转动；如果所述角度差值为负值，则确定摄像头的目标转动方向为向左转动。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的摄像头拍摄角度的调整方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-onlymemory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述控制器在执行所述对人物声源信息进行声源识别，确定声源角度信息之前，被进一步配置为：

对所述人物声源信息进行文本提取，得到语音交互文本；

3.根据权利要求1所述的显示设备，其特征在于，包括多组声音采集器，所述控制器获取所述声音采集器采集的人物声源信息具体为：获取每个所述声音采集器采集的所述人物在语音时产生的人物声源信息；

4.根据权利要求3所述的显示设备，其特征在于，所述控制器在执行所述对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差，被进一步配置为：

5.根据权利要求3所述的显示设备，其特征在于，所述控制器在执行所述基于语音时间差，计算所述人物在语音时所处位置的声源角度信息，被进一步配置为：

6.根据权利要求1所述的显示设备，其特征在于，所述控制器在执行所述获取摄像头的当前拍摄角度之前，被进一步配置为：

查询所述摄像头的当前运行状态；

7.根据权利要求1所述的显示设备，其特征在于，所述控制器在执行所述基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度，被进一步配置为：

将所述声源角度信息转换为摄像头的坐标角度；

根据所述角度差值，确定摄像头的目标转动方向。

8.根据权利要求7所述的显示设备，其特征在于，所述控制器在执行所述将声源角度信息转换为摄像头的坐标角度，被进一步配置为：

9.根据权利要求7所述的显示设备，其特征在于，所述控制器在执行所述根据角度差值，确定摄像头的目标转动方向，被进一步配置为：

10.一种摄像头拍摄角度的调整方法，其特征在于，所述方法包括：