CN113438548B

CN113438548B - 基于视频数据包与音频数据包的数字电视展示方法与装置

Info

Publication number: CN113438548B
Application number: CN202111000052.5A
Authority: CN
Inventors: 罗俊强; 廖佳秋
Original assignee: Shenzhen Justek Technology Co ltd
Current assignee: Shenzhen Justek Technology Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-10-29
Anticipated expiration: 2041-08-30
Also published as: CN113438548A

Abstract

本申请揭示了一种基于视频数据包与音频数据包的数字电视展示方法，获取视频数据包与音频数据包；在屏幕上展现视频图像；进行第一声音输出操作，从而以球面声波的方式播放所述主音频；获取所有观看者分别选择的子音频组；将第一子音频组中的共有音频发送至对应的移动终端；要求移动终端进行第二声音输出操作；进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置；将专有音频均发送至所述超声波定向声音输出器件阵列；要求超声波定向声音输出器件进行第三声音输出操作，从而提高了数字电视的播放效果。

Description

基于视频数据包与音频数据包的数字电视展示方法与装置

技术领域

本申请涉及到数字电视领域，特别是涉及到一种基于视频数据包与音频数据包的数字电视展示方法、装置。

背景技术

观看数字电视节目的时候，数字电视终端一般会采用双声道的方式实现立体声的播放，但这种立体声，实际上仍与声音原场景仍具有一定的区别。并且，这种立体声对于所有观看者而言均是相同的，对于交互式电视节目的适应性较差。其中，交互式电视节目指，多个观看者可以分别选择电视节目中的一个视角（电视节目包括多个视角，视角与视角之间的区别至少包括音频的不同）来替入进行观看。但现有的方案只能输出基于双声道原理的立体声，其效果不佳且适应性较差。

发明内容

本申请提出一种基于视频数据包与音频数据包的数字电视展示方法，包括以下步骤：

S1、数字电视终端获取视频数据包与音频数据包；其中，所述音频数据包由一个主音频和多个子音频组构成，每个子音频组均由一个共有音频和一个专有音频构成；

S2、根据所述视频数据包生成视频图像，并在所述数字电视终端的屏幕上展现所述视频图像；

S3、采用预设于数字电视终端的第一声音输出器件阵列，进行第一声音输出操作，从而以球面声波的方式播放所述主音频；

S4、与所有观看者的移动终端分别建立第一通信连接，并通过第一通信连接获取所有观看者分别选择的子音频组，从而构建观看者-移动终端-子音频组的三元素对应关系；其中，每个观看者携带一个移动终端，共有n个观看者，n为大于等于2且小于等于所述多个子音频组的数量的整数；

S5、根据所述观看者-移动终端-子音频组的三元素对应关系，将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、将第n子音频组中的共有音频发送至对应的第n移动终端；

S6、向所有观看者的移动终端分别发送音频播放指令，以要求移动终端进行第二声音输出操作，从而分别采用固有扬声器播放接收到的共有音频；

S7、通过预设的摄像头对观看者所处环境进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置；其中，所述人物识别模型在卷积神经网络模型的基础上训练而成；

S8、与预设的超声波定向声音输出器件建立第二通信连接，并将所有观看者的位置、第一子音频组中的专有音频、第二子音频组中的专有音频、…、将第n子音频组中的专有音频均发送至所述超声波定向声音输出器件阵列；

S9、向所述超声波定向声音输出器件发送音频播放指令，以要求超声波定向声音输出器件进行第三声音输出操作，从而采用第一定向声音输出的方式输出所述第一子音频组中的专有音频、采用第二定向声音输出的方式输出所述第二子音频组中的专有音频、…、采用第n定向声音输出的方式输出所述第n子音频组中的专有音频；其中，第一定向声音输出的方式使得仅有第一观看者能够听到所述第一子音频组中的专有音频，第二定向声音输出的方式使得仅有第二观看者能够听到所述第二子音频组中的专有音频，第n定向声音输出的方式使得仅有第n观看者能够听到所述第n子音频组中的专有音频。

进一步地，所述向所有观看者的移动终端分别发送音频播放指令，以要求移动终端进行第二声音输出操作，从而分别采用固有扬声器播放接收到的共有音频的步骤S6之前，包括：

S51、向所有观看者的移动终端分别发送位置调整请求，以要求第一观看者将第一移动终端置于第一位置、第二观看者将第二移动终端置于第二位置、…、第n观看者将第n移动终端置于第n位置；其中，所述第一位置与第一观看者之间的距离不大于预设的距离阈值，所述第二位置与第二观看者之间的距离不大于预设的距离阈值，所述第n位置与第n观看者之间的距离不大于预设的距离阈值；所述第一位置与除第一观看者之外的其他观看者之间的距离不小于预设的距离阈值，所述第二位置与除第二观看者之外的其他观看者之间的距离不小于预设的距离阈值，所述第n位置与除第n观看者之外的其他观看者之间的距离不小于预设的距离阈值。

进一步地，所述通过预设的摄像头对观看者所处环境进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置的步骤S7之前，包括：

S61、对多个预设场景进行图像采集处理，以得到多幅样本图像；其中，每个预设场景中至少包括两个人；

S62、将所述多幅样本图像划分为多幅训练图像和多幅验证图像；

S63、调取预设的卷积神经网络模型，并将所述多幅训练图像输入卷积神经网络模型中进行训练，以得到暂时人物识别模型；

S64、利用所述多幅验证图像对所述暂时人物识别模型进行验证处理，以得到验证结果；

S65、判断验证结果是否为验证合格；

S66、若验证结果为验证合格，则将所述暂时人物识别模型记为最终的人物识别模型。

进一步地，所述第一通信连接与所述第二通信连接均为ZigBee无线通信连接。

本申请提供一种基于视频数据包与音频数据包的数字电视展示装置，包括：

数据包获取单元，用于指示数字电视终端获取视频数据包与音频数据包；其中，所述音频数据包由一个主音频和多个子音频组构成，每个子音频组均由一个共有音频和一个专有音频构成；

视频图像展现单元，用于指示根据所述视频数据包生成视频图像，并在所述数字电视终端的屏幕上展现所述视频图像；

第一声音输出单元，用于指示采用预设于数字电视终端的第一声音输出器件阵列，进行第一声音输出操作，从而以球面声波的方式播放所述主音频；

三元素对应关系构建单元，用于指示与所有观看者的移动终端分别建立第一通信连接，并通过第一通信连接获取所有观看者分别选择的子音频组，从而构建观看者-移动终端-子音频组的三元素对应关系；其中，每个观看者携带一个移动终端，共有n个观看者，n为大于等于2且小于等于所述多个子音频组的数量的整数；

共有音频发送单元，用于指示根据所述观看者-移动终端-子音频组的三元素对应关系，将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、将第n子音频组中的共有音频发送至对应的第n移动终端；

第二声音输出单元，用于指示向所有观看者的移动终端分别发送音频播放指令，以要求移动终端进行第二声音输出操作，从而分别采用固有扬声器播放接收到的共有音频；

人物识别单元，用于指示通过预设的摄像头对观看者所处环境进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置；其中，所述人物识别模型在卷积神经网络模型的基础上训练而成；

专有音频发送单元，用于指示与预设的超声波定向声音输出器件建立第二通信连接，并将所有观看者的位置、第一子音频组中的专有音频、第二子音频组中的专有音频、…、将第n子音频组中的专有音频均发送至所述超声波定向声音输出器件阵列；

第三声音输出单元，用于指示向所述超声波定向声音输出器件发送音频播放指令，以要求超声波定向声音输出器件进行第三声音输出操作，从而采用第一定向声音输出的方式输出所述第一子音频组中的专有音频、采用第二定向声音输出的方式输出所述第二子音频组中的专有音频、…、采用第n定向声音输出的方式输出所述第n子音频组中的专有音频；其中，第一定向声音输出的方式使得仅有第一观看者能够听到所述第一子音频组中的专有音频，第二定向声音输出的方式使得仅有第二观看者能够听到所述第二子音频组中的专有音频，第n定向声音输出的方式使得仅有第n观看者能够听到所述第n子音频组中的专有音频。

本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于视频数据包与音频数据包的数字电视展示方法、装置、计算机设备和存储介质，获取视频数据包与音频数据包；在所述数字电视终端的屏幕上展现视频图像；进行第一声音输出操作，从而以球面声波的方式播放所述主音频；获取所有观看者分别选择的子音频组，从而构建观看者-移动终端-子音频组的三元素对应关系；将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、将第n子音频组中的共有音频发送至对应的第n移动终端；要求移动终端进行第二声音输出操作；进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置；将专有音频均发送至所述超声波定向声音输出器件阵列；要求超声波定向声音输出器件进行第三声音输出操作，从而提高了数字电视的播放效果。

附图说明

图1 为本申请一实施例的基于视频数据包与音频数据包的数字电视展示方法的流程示意图；

图2 为本申请一实施例的基于视频数据包与音频数据包的数字电视展示装置的结构示意框图；

图3 为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于视频数据包与音频数据包的数字电视展示方法，包括以下步骤：

本申请有两方面优势，一方面在于其能提供效果更佳的立体声（利用数字电视终端的固有的第一声音输出器件阵列，多个移动终端的扬声器，超声波定向声音输出器件共同实现），另一方面在于其能够实现多视角的交互式电视节目的播放。之所以能够具有这两方面优势，原因在于本申请采用了第一声音输出操作、第二声音输出操作和第三声音输出操作的方式，以在播放视频图像的同时，为多个观看者提供不尽相同的声音环境。

本申请可适用于任意可行的数字电视节目的展示，尤其适合群像电视节目的展示，因为群像电视节目的视角会更多。

本申请的实施过程，以存在三个观看者为例进行描述：

三个观看者分别将三个移动终端放在茶几上（其中，放在茶几上时，只需要观看者放置于靠近自己的位置，且远离其他人的位置即可；甚至于，移动终端可以贴身放置，只要不影响声音输出即可），并使移动终端的扬声器的声音输出方向朝向自己。其中，虽然移动终端的扬声器不具备定向声音发放功能，但是一般移动终端的扬声器位于移动终端的底部，底部正面朝向的方向相较于其他方向的声场更强。并且三个移动终端都更靠近自己。当展示数字电视节目时，在屏幕上展现视频图像。需要注意的是，三个观看者看到的视频图像是相同的，然而音频内容却不完全相同。同时，数字电视终端的第一声音输出器件阵列输出主音频，其目的包括两个方面，第一个方面是提供例如背景音乐等不需要距离感的声音，第二方面是与其他移动终端一块形成立体声音。

三个移动终端分别播放三个共有音频，这些共有音频不尽相同，用与主音频一块以构建立体声。由于三个移动终端以及数字电视终端的第一声音输出器件阵列彼此之间相距一定的距离，因此具有一定的距离差，符合基于双声道或者多声道的立体声输出要求，从而能够提供初步的立体声效果（本申请的共有音频，同样具有双声道或者多声道，而其他所有的音频，也可以具有双声道）。其中，本申请构建立体声效果的过程，与传统的基于双声道原理的立体声重放相似，在此不再赘述，但本申请不需要特地设置两个扬声器。

最后，超声波定向声音输出器件，向三个观看者分别定向输出三个不同的专用音频。所述专用音频是指，仅有一个观看者能够听到的音频。这种设置特别适合于互动式电视节目，例如在一个场景中，存在A、B、C三个角色，并且彼此之间相隔较远，此时在场景中的某处发生响动，则A、B、C三个角色听到的声音是不同的，因此向分别选择这三个角色的三个观看者，分别定向输出三个不同的专用音频。更进一步地，在该场景中，A、B距离某位讲述者较近，而C角色距离较远，因此A、B能够清晰地听到完整的讲述，但是C角色听到的是较为模糊的讲述。这种场景多存在于侦探视频中，也是本申请适于应于的一种视频类型。当然，本申请也可以应用于普通的视频，在极端情况下，专有音频的内容也可以完全相同，从而专注于构建立体声音效。

本申请采用的超声波定向声音输出器件，基于的是超声波的强指向性来实现的，其原理在于，超声波相对于普通声波，其波长较短，具有更好的指向性，因此普通声波是球面传播的，而超声波能够线性传播。但是超声波本身是无法被人耳听到的，因此在人耳附近应当将超声波解调为人耳可听到的声波。因此，超声波定向声音输出的具体过程为，以两个或更多的不同频率的超声波作为载波，再在观看者的附近（例如观看者的头部或者整个人体）进行解调，而解调的过程是两个或更多的超声波该位置进行叠加，从而实现频率叠加或者频率减少（这通过控制相位来实现），而频率叠加或者频率减少从而生成频率较低的普通声波，从而落入人耳能够听到的频率范围内。此时，只有该观看者所处位置能够听到定向声音，而其他位置的观看者是无法听到该定向声音的。

据此，本申请采用超声波定向声音输出器件进行声音定向输出，并且，超声波定向声音输出器件可以阵列形式呈现，而且声音定向输出时，是对多个观看者输出多个定向声音（根据专有音频的时间轴来确定，若两个专有音频在同一个时间点上均有声音信号，则在该时间点同时对两个对应的观看者输出定向声音；若只有一个专有音频在一个时间点上有声音信号，则在该时间点只对对应的观看者输出定向声音，而其他观看者不输出定向声音）。

如上述步骤S1-S3所述，数字电视终端获取视频数据包与音频数据包；其中，所述音频数据包由一个主音频和多个子音频组构成，每个子音频组均由一个共有音频和一个专有音频构成；根据所述视频数据包生成视频图像，并在所述数字电视终端的屏幕上展现所述视频图像；采用预设于数字电视终端的第一声音输出器件阵列，进行第一声音输出操作，从而以球面声波的方式播放所述主音频。

视频数据包与音频数据包是以数字信号的方式接收到的，视频数据包通过预设的解码方式能够解码出视频图像，当然，所述视频图像是由多幅图像顺序排列构成的。另外，所述音频数据包由一个主音频和多个子音频组构成，每个子音频组均由一个共有音频和一个专有音频构成，其目的在于与视频图像同时输出声音，因此视频图像、主音频、共有音频和专用音频遵循的是相同的时间轴，可视为采用相同的计时器，从而保证同步播放。

数字电视终端例如以数字电视机的方式呈现，数字电视机包括屏幕、固有扬声器阵列，而屏幕用于展现视频图像；固有扬声器阵列，即第一声音输出器件阵列，用于进行第一声音输出操作，从而以球面声波的方式播放所述主音频。其中，球面声波表明第一声音输出器件阵列是对环境进行无取向性地声波输出，因此每个观看者听到的主音频均相同。而主音频主要输出背景音乐等没有空间距离要求的声音，另一方面与多个移动终端的扬声器共同构成初步的立体声。

进一步地，本申请的实施过程，还包括获取多个移动终端的位置和所述第一声音输出器件阵列的位置，根据多个移动终端的位置和所述第一声音输出器件阵列的位置对各个子音频组的声音播放参数进行调整（当然，也可直接按原始录制的声道进行播放，无需调整声音播放参数），再将各个子音频组的共有音频发送给对应的移动终端，将各个子音频组的专有音频发送给超声波定向声音输器件，从而第一声音输出器件阵列、各个移动终端的扬声器、超声波定向声音输器件根据相同的时间轴进行匹配作业，从而同时实现第一声音输出操作、第二声音输出操作、第三声音输出操作，以形成效果更好的立体音，同时实现因人而异的音频输出。

如上述步骤S4-S6所述，与所有观看者的移动终端分别建立第一通信连接，并通过第一通信连接获取所有观看者分别选择的子音频组，从而构建观看者-移动终端-子音频组的三元素对应关系；其中，每个观看者携带一个移动终端，共有n个观看者，n为大于等于2且小于等于所述多个子音频组的数量的整数；根据所述观看者-移动终端-子音频组的三元素对应关系，将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、将第n子音频组中的共有音频发送至对应的第n移动终端；向所有观看者的移动终端分别发送音频播放指令，以要求移动终端进行第二声音输出操作，从而分别采用固有扬声器播放接收到的共有音频。

其中，获取所有观看者分别选择的子音频组，是本领域的惯用描述方式，指的是观看者选择了一个子音频组，从而数字电视终端确定了被选择的子音频组，这即是获取的含义。

第一通信连接可采用任意可行的连接，例如采用近距离通信技术实现，优选采用ZigBee无线通信连接。本申请中，观看者与移动终端是具有对应关系的，而观看者通过移动终端选择子音频组，从而能够构建观看者-移动终端-子音频组的三元素对应关系。而子音频组与视角是对应的，在电视节目中，一个视角对应于一个子音频组，观看者选择了一个子音频组，即是选择了一个代入视角。

其申请中涉及共有音频和专有音频的描述，共有音频指的是，虽然是在不同的移动终端的扬声器发出的，但发出的声音没有选择性，所有观看者均能够听见；专有音频指的是，只有一个观看者能够听风，具有选择性，只有一个观看者能够听见。分别采用固有扬声器播放接收到的共有音频，其中的固有扬声器，指的是各个移动终端自带的扬声器。

本申请中，采用了省略号…，其含义与数学领域中的省略号的含义相同，例如将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、将第n子音频组中的共有音频发送至对应的第n移动终端，其中的省略号就是省略了第二子音频组至第n子音频组之间的其他子音频组的发送过程。

其中，位置调整请求，目的在于提醒观看者将移动终端移动至合适的位置，其具体的要求为，离A移动终端离A观看者最近，但是离其他观看者较远，即所述第一位置与第一观看者之间的距离不大于预设的距离阈值，所述第一位置与除第一观看者之外的其他观看者之间的距离不小于预设的距离阈值。这是因为，若所有的移动终端都放在一块，那么采用多个移动终端进行第二声音输出的必要性就不存在了。

如上述步骤S7-S9所述，通过预设的摄像头对观看者所处环境进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置；其中，所述人物识别模型在卷积神经网络模型的基础上训练而成；与预设的超声波定向声音输出器件建立第二通信连接，并将所有观看者的位置、第一子音频组中的专有音频、第二子音频组中的专有音频、…、将第n子音频组中的专有音频均发送至所述超声波定向声音输出器件阵列；向所述超声波定向声音输出器件发送音频播放指令，以要求超声波定向声音输出器件进行第三声音输出操作，从而采用第一定向声音输出的方式输出所述第一子音频组中的专有音频、采用第二定向声音输出的方式输出所述第二子音频组中的专有音频、…、采用第n定向声音输出的方式输出所述第n子音频组中的专有音频；其中，第一定向声音输出的方式使得仅有第一观看者能够听到所述第一子音频组中的专有音频，第二定向声音输出的方式使得仅有第二观看者能够听到所述第二子音频组中的专有音频，第n定向声音输出的方式使得仅有第n观看者能够听到所述第n子音频组中的专有音频。

本申请的环境图像，是包括所有观看者的图像，所有观看者例如都坐或躺在沙发上，则环境图像是对沙发进行图像采集得到的图像。并且为了更准确的人物识别，本申请的环境图像中包括所有观看者的面部图像。卷积神经网络模型是一种机器学习模型，其包括输入层、卷积层、池化层、全连接层、输出层等等，其适合于进行图像识别处理，能够胜任人物识别的任务。

由于本申请需要进行因人而异的定向声音输出，因此需要先确定观看者的位置，所以利用环境图像，以识别出人物（即识别结果），再从环境图像中得到所有观看者的位置，从而为定向声音输出的实现提供了可能。

另外，本申请采用的人物识别模型与普通模型不同，因为本申请对识别精度的要求很低，具体地，其只需要在有限的对象中进行区分处理即可，因为会聚在一起看电视的一般不会是陌生人，因此本申请的人物识别模型实际上需要识别出的结果很少，训练时需要的训练数据少（这也是对识别精度要求低的原因），从而训练速度快，易于实施。

而超声波定向声音输出器件可布设置任意可行位置，优选布设于天花板。布设于天花板，能够使得超声波定向声音输出器件在进行定向声音输出时，不必过多考虑障碍物及人物交叉的问题，从而更易于实施。当然，也可布设于沙发的侧面等。

超声波定向声音输出器件的原理如前所述，需要定向输出至少两个不同频率的超声波，并且在目标位置实现频率叠加，生成频率之差的相对低频声音，从而观看者能够听到该低频声音。

S65、判断验证结果是否为验证合格；

从而保证训练得到的人物识别模型能够胜任多人场景中的识别任务。进一步地，所述多幅样本图像仅为一个家庭成员的所有成员的图像，从而训练更具备针对性，训练速度更快，并且通过这样训练得到的人物识别模型，虽然无法进行大范围的人物识别（指对其他人物的识别准确性较低），但对于该家庭而言，其识别准确性高。

本申请的基于视频数据包与音频数据包的数字电视展示方法，获取视频数据包与音频数据包；在所述数字电视终端的屏幕上展现视频图像；进行第一声音输出操作，从而以球面声波的方式播放所述主音频；获取所有观看者分别选择的子音频组，从而构建观看者-移动终端-子音频组的三元素对应关系；将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、将第n子音频组中的共有音频发送至对应的第n移动终端；要求移动终端进行第二声音输出操作；进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置；将专有音频均发送至所述超声波定向声音输出器件阵列；要求超声波定向声音输出器件进行第三声音输出操作，从而提高了数字电视的播放效果。

参照图2，本申请实施例提供一种基于视频数据包与音频数据包的数字电视展示装置，包括：

数据包获取单元10，用于指示数字电视终端获取视频数据包与音频数据包；其中，所述音频数据包由一个主音频和多个子音频组构成，每个子音频组均由一个共有音频和一个专有音频构成；

视频图像展现单元20，用于指示根据所述视频数据包生成视频图像，并在所述数字电视终端的屏幕上展现所述视频图像；

第一声音输出单元30，用于指示采用预设于数字电视终端的第一声音输出器件阵列，进行第一声音输出操作，从而以球面声波的方式播放所述主音频；

三元素对应关系构建单元40，用于指示与所有观看者的移动终端分别建立第一通信连接，并通过第一通信连接获取所有观看者分别选择的子音频组，从而构建观看者-移动终端-子音频组的三元素对应关系；其中，每个观看者携带一个移动终端，共有n个观看者，n为大于等于2且小于等于所述多个子音频组的数量的整数；

共有音频发送单元50，用于指示根据所述观看者-移动终端-子音频组的三元素对应关系，将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、将第n子音频组中的共有音频发送至对应的第n移动终端；

第二声音输出单元60，用于指示向所有观看者的移动终端分别发送音频播放指令，以要求移动终端进行第二声音输出操作，从而分别采用固有扬声器播放接收到的共有音频；

人物识别单元70，用于指示通过预设的摄像头对观看者所处环境进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置；其中，所述人物识别模型在卷积神经网络模型的基础上训练而成；

专有音频发送单元80，用于指示与预设的超声波定向声音输出器件建立第二通信连接，并将所有观看者的位置、第一子音频组中的专有音频、第二子音频组中的专有音频、…、将第n子音频组中的专有音频均发送至所述超声波定向声音输出器件阵列；

第三声音输出单元90，用于指示向所述超声波定向声音输出器件发送音频播放指令，以要求超声波定向声音输出器件进行第三声音输出操作，从而采用第一定向声音输出的方式输出所述第一子音频组中的专有音频、采用第二定向声音输出的方式输出所述第二子音频组中的专有音频、…、采用第n定向声音输出的方式输出所述第n子音频组中的专有音频；其中，第一定向声音输出的方式使得仅有第一观看者能够听到所述第一子音频组中的专有音频，第二定向声音输出的方式使得仅有第二观看者能够听到所述第二子音频组中的专有音频，第n定向声音输出的方式使得仅有第n观看者能够听到所述第n子音频组中的专有音频。

其中上述单元分别用于执行的操作与前述实施方式的基于视频数据包与音频数据包的数字电视展示方法的步骤一一对应，在此不再赘述。

本申请的基于视频数据包与音频数据包的数字电视展示装置，获取视频数据包与音频数据包；在所述数字电视终端的屏幕上展现视频图像；进行第一声音输出操作，从而以球面声波的方式播放所述主音频；获取所有观看者分别选择的子音频组，从而构建观看者-移动终端-子音频组的三元素对应关系；将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、将第n子音频组中的共有音频发送至对应的第n移动终端；要求移动终端进行第二声音输出操作；进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置；将专有音频均发送至所述超声波定向声音输出器件阵列；要求超声波定向声音输出器件进行第三声音输出操作，从而提高了数字电视的播放效果。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于视频数据包与音频数据包的数字电视展示方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于视频数据包与音频数据包的数字电视展示方法。

上述处理器执行上述基于视频数据包与音频数据包的数字电视展示方法，其中所述方法包括的步骤分别与执行前述实施方式的基于视频数据包与音频数据包的数字电视展示方法的步骤一一对应，在此不再赘述。

本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请的计算机设备，获取视频数据包与音频数据包；在所述数字电视终端的屏幕上展现视频图像；进行第一声音输出操作，从而以球面声波的方式播放所述主音频；获取所有观看者分别选择的子音频组，从而构建观看者-移动终端-子音频组的三元素对应关系；将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、将第n子音频组中的共有音频发送至对应的第n移动终端；要求移动终端进行第二声音输出操作；进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置；将专有音频均发送至所述超声波定向声音输出器件阵列；要求超声波定向声音输出器件进行第三声音输出操作，从而提高了数字电视的播放效果。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于视频数据包与音频数据包的数字电视展示方法，其中所述方法包括的步骤分别与执行前述实施方式的基于视频数据包与音频数据包的数字电视展示方法的步骤一一对应，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序或指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于视频数据包与音频数据包的数字电视展示方法，其特征在于，包括：

S5、根据所述观看者-移动终端-子音频组的三元素对应关系，将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、以及将第n子音频组中的共有音频发送至对应的第n移动终端；

S6、向所有观看者的移动终端分别发送音频播放指令，以要求移动终端进行第二声音输出操作，从而分别采用移动终端的固有扬声器播放接收到的共有音频；

S8、与预设的超声波定向声音输出器件建立第二通信连接，并将所有观看者的位置、第一子音频组中的专有音频、第二子音频组中的专有音频、…、以及第n子音频组中的专有音频均发送至所述超声波定向声音输出器件阵列；

S9、向所述超声波定向声音输出器件发送音频播放指令，以要求超声波定向声音输出器件进行第三声音输出操作，从而采用第一定向声音输出的方式输出所述第一子音频组中的专有音频、采用第二定向声音输出的方式输出所述第二子音频组中的专有音频、…、以及采用第n定向声音输出的方式输出所述第n子音频组中的专有音频；其中，第一定向声音输出的方式使得仅有第一观看者能够听到所述第一子音频组中的专有音频，第二定向声音输出的方式使得仅有第二观看者能够听到所述第二子音频组中的专有音频，…，以及第n定向声音输出的方式使得仅有第n观看者能够听到所述第n子音频组中的专有音频。

2.根据权利要求1所述的基于视频数据包与音频数据包的数字电视展示方法，其特征在于，所述向所有观看者的移动终端分别发送音频播放指令，以要求移动终端进行第二声音输出操作，从而分别采用移动终端的固有扬声器播放接收到的共有音频的步骤S6之前，包括：

S51、向所有观看者的移动终端分别发送位置调整请求，以要求第一观看者将第一移动终端置于第一位置、第二观看者将第二移动终端置于第二位置、…、以及第n观看者将第n移动终端置于第n位置；其中，所述第一位置与第一观看者之间的距离不大于预设的距离阈值，所述第二位置与第二观看者之间的距离不大于预设的距离阈值，所述第n位置与第n观看者之间的距离不大于预设的距离阈值；所述第一位置与除第一观看者之外的其他观看者之间的距离不小于预设的距离阈值，所述第二位置与除第二观看者之外的其他观看者之间的距离不小于预设的距离阈值，…，以及所述第n位置与除第n观看者之外的其他观看者之间的距离不小于预设的距离阈值。

3.根据权利要求1所述的基于视频数据包与音频数据包的数字电视展示方法，其特征在于，所述通过预设的摄像头对观看者所处环境进行图像采集处理，以得到环境图像，并将所述环境图像输入预设的人物识别模型中进行处理，以得到所述人物识别模型输出的识别结果，并根据所述识别结果获取所有观看者的位置的步骤S7之前，包括：

S65、判断验证结果是否为验证合格；

4.根据权利要求1所述的基于视频数据包与音频数据包的数字电视展示方法，其特征在于，所述第一通信连接与所述第二通信连接均为ZigBee无线通信连接。

5.一种基于视频数据包与音频数据包的数字电视展示装置，其特征在于，包括：

共有音频发送单元，用于指示根据所述观看者-移动终端-子音频组的三元素对应关系，将第一子音频组中的共有音频发送至对应的第一移动终端、将第二子音频组中的共有音频发送至对应的第二移动终端、…、以及将第n子音频组中的共有音频发送至对应的第n移动终端；

第二声音输出单元，用于指示向所有观看者的移动终端分别发送音频播放指令，以要求移动终端进行第二声音输出操作，从而分别采用移动终端的固有扬声器播放接收到的共有音频；

专有音频发送单元，用于指示与预设的超声波定向声音输出器件建立第二通信连接，并将所有观看者的位置、第一子音频组中的专有音频、第二子音频组中的专有音频、…、以及第n子音频组中的专有音频均发送至所述超声波定向声音输出器件阵列；

第三声音输出单元，用于指示向所述超声波定向声音输出器件发送音频播放指令，以要求超声波定向声音输出器件进行第三声音输出操作，从而采用第一定向声音输出的方式输出所述第一子音频组中的专有音频、采用第二定向声音输出的方式输出所述第二子音频组中的专有音频、…、以及采用第n定向声音输出的方式输出所述第n子音频组中的专有音频；其中，第一定向声音输出的方式使得仅有第一观看者能够听到所述第一子音频组中的专有音频，第二定向声音输出的方式使得仅有第二观看者能够听到所述第二子音频组中的专有音频，…，以及第n定向声音输出的方式使得仅有第n观看者能够听到所述第n子音频组中的专有音频。

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。