CN114449252B

CN114449252B - 基于解说音频的现场视频动态调整方法、装置、设备、系统和介质

Info

Publication number: CN114449252B
Application number: CN202210130889.XA
Authority: CN
Inventors: 刘威; 夏勇峰
Original assignee: Beijing Beehive Century Technology Co ltd
Current assignee: Beijing Beehive Century Technology Co ltd
Priority date: 2022-02-12
Filing date: 2022-02-12
Publication date: 2023-08-01
Anticipated expiration: 2042-02-12
Also published as: CN114449252A

Abstract

本申请涉及一种基于解说音频的现场视频动态调整方法、装置、设备、系统和介质，涉及增强现实技术的领域，其方法包括获取并播放现场活动的当前解说音频数据；识别所述当前解说音频数据的关键词信息；获取第一摄像头采集的所述现场活动的当前视频数据；基于所述关键词信息和所述当前视频数据确定是否生成提示信息，所述提示信息用于提示用户调整所述第一摄像头的角度。本申请根据提示信息转动第一摄像头使得显示设备播放的当前视频数据中的内容与当前解说音频数据中的内容达到同步，提高了用户观看体育赛事或演出的体验感。

Description

基于解说音频的现场视频动态调整方法、装置、设备、系统和介质

技术领域

本申请涉及增强现实技术的领域，尤其是涉及一种基于解说音频的现场视频动态调整方法、装置、设备、系统和介质。

背景技术

目前，随着中国经济的高速发展，人民的生活水平得到了很大的提高。为了满足自身的精神文化需求，越来越多的观众选择到现场观看体育赛事或演出。

相关技术中，虽然观众在现场能感受到活动的氛围，但是在根据活动解说观看活动的过程中，观众不能对活动解说内容进行捕捉，观众观看现场的实时视频与活动解说内容无法同步，亟需一种将现场视频与实时解说进行同步的技术。

发明内容

为了实现视频与实时解说音频的同步，本申请提供一种基于解说音频的现场视频动态调整方法、装置、设备、系统和介质。

第一方面，本申请提供一种基于解说音频的现场视频动态调整方法，采用如下的技术方案：

一种基于解说音频的现场视频动态调整方法，包括：

获取并播放现场活动的当前解说音频数据；

识别所述当前解说音频数据的关键词信息；

获取第一摄像头采集的所述现场活动的当前视频数据；

基于所述关键词信息和所述当前视频数据确定是否生成提示信息，所述提示信息用于提示用户调整所述第一摄像头的角度。

通过采用上述技术方案，用户在观看视频过程中，根据提示信息调整第一摄像头的角度使得显示设备播放的当前视频数据中的画面与当前解说音频数据中的内容达到同步，提高了用户观看体育赛事或演出的体验感。

可选的，所述基于所述关键词信息和所述当前视频数据确定是否生成提示信息，包括：

获取所述关键词信息对应的第一目标对象，并将所述第一目标对象作为当前目标对象；

判断所述当前视频数据的画面中是否存在所述当前目标对象；

若否，则生成所述提示信息。

可选的，所述生成所述提示信息，包括：

获取所述现场活动的直播视频流数据，基于所述直播视频流数据获取所述当前解说音频数据实时对应的活动全景画面；

确定所述当前目标对象在所述活动全景画面中的位置信息；

确定所述当前视频数据的画面与所述活动全景画面的相对位置关系；

基于所述位置信息和所述相对位置关系生成第一摄像头角度偏移方向；

基于所述第一摄像头角度偏移方向生成所述提示信息。

可选的，还包括：

若所述当前视频数据的画面中存在所述当前目标对象，则对所述当前视频数据的画面中的所述当前目标对象进行第一标识。

通过采用上述技术方案，当前视频数据的画面中包括当前目标对象时，通过第一标识使用户能够及时捕捉到当前目标对象，提高用户的体验感。

可选的，在所述生成所述提示信息之后，还包括：

判断所述当前解说音频数据中是否出现新的关键词信息；

若否，则重复所述判断所述当前视频数据的画面中是否存在所述当前目标对象的步骤；

若是，则将所述新的关键词信息对应的第一目标对象作为当前目标对象，并重复所述判断所述当前视频数据的画面中是否存在所述当前目标对象的步骤。

可选的，在所述获取第一摄像头采集的所述现场活动的当前视频数据之后，还包括：

响应于用户选择第二目标对象的操作，对所述当前视频数据进行图像识别；

若所述当前视频数据的画面中存在所述第二目标对象，则对所述当前视频数据的画面中的所述第二目标对象进行第二标识。

通过采用上述技术方案，用户可以对第二目标对象进行选择，若当前视频数据的画面中包括第二目标对象，则在显示的当前视频数据的画面中的球员或演员进行标识，方便用户观看第二目标对象。

第二方面，本申请提供一种基于解说音频的现场视频动态调整装置，采用如下的技术方案：

一种基于解说音频的现场视频动态调整装置，包括：

获取播放模块，用于获取并播放现场活动的当前解说音频数据；

识别模块，用于识别所述当前解说音频数据的关键词信息；

获取模块，用于获取第一摄像头采集的所述现场活动的当前视频数据；

生成模块，用于基于所述关键词信息和所述当前视频数据确定是否生成提示信息，所述提示信息用于提示用户调整所述第一摄像头的角度。

第三方面，本申请提供一种智能终端，采用如下的技术方案：

一种智能终端，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行第一方面任一项所述的基于解说音频的现场视频动态调整方法的计算机程序。

第四方面，本申请提供一种基于解说音频的现场视频动态调整系统，采用如下的技术方案：

一种基于解说音频的现场视频动态调整系统，包括如第三方面所述的智能终端以及音频播放设备、摄像设备、显示设备；

所述智能终端基于网络接收现场活动的当前解说音频数据，并将当前解说音频数据发送至音频播放设备，所述音频播放设备用于对接收的解说音频进行播放；

所述摄像设备用于采集现场活动的当前视频数据，并将当前视频数据发送至智能终端，智能终端用于控制显示设备对采集的当前视频数据的画面进行显示；

所述智能终端用于对当前解说音频数据的关键词信息进行识别，根据关键词信息和当前视频数据进行处理后确定是否生成用于提示用户转动所述第一摄像头的提示信息。

本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行第一方面任一项所述的基于解说音频的现场视频动态调整方法的计算机程序。

附图说明

图1是本申请其中一实施例的智能终端100的结构框图。

图2是本申请其中一实施例的基于解说音频的现场视频动态调整方法的流程示意图。

图3是本申请其中一实施例的基于解说音频的现场视频动态调整装置300的结构框图。

图4是本申请其中一实施例的基于解说音频的现场视频动态调整系统400的结构框图。

具体实施方式

以下结合附图对本申请作进一步详细说明。

本申请实施例提供一种基于解说音频的现场视频动态调整方法，该方法可以由头戴式显示设备中的智能终端100实现，参照图1，智能终端100包括存储器101、处理器102和通信总线103；存储器101、处理器102通过通信总线103相连。存储器101上存储有能够被处理器102加载并执行基于解说音频的现场视频动态调整方法的计算机程序。

存储器101可用于存储指令、程序、代码、代码集或指令集。存储器101可以包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令以及用于实现基于解说音频的现场视频动态调整方法的指令等；存储数据区可存储基于解说音频的现场视频动态调整方法中涉及到的数据等。

处理器102可以包括一个或者多个处理核心。处理器102通过运行或执行存储在存储器101内的指令、程序、代码集或指令集，调用存储在存储器101内的数据，执行本申请的各种功能和处理数据。处理器102可以为特定用途集成电路(Application SpecificIntegrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器和微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

通信总线103可包括一通路，在上述组件之间传送信息。通信总线103可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA (ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。通信总线103可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一个双箭头表示，但并不表示仅有一根总线或一种类型的总线。

头戴式显示设备可以是用于向体育赛事或演出等活动现场的用户提供观看服务的智能眼镜，本实施例以智能终端为执行主体，进行方案的详细说明。

下面将结合具体实施方式，对图2所示的处理流程进行详细的说明，包括：

步骤S201：获取并播放现场活动的当前解说音频数据；

智能眼镜通过播放的当前解说音频数据对用户观看的现场活动进行解说，作为本实施例的一种可选实施方式，获取当前解说音频数据包括：

通过头戴式显示设备的GPS等定位设备获取用户所在位置并通过计时设备获取当前的时间；根据所在位置和当前的时间确定现场活动的名称，现场活动可以为体育赛事或演出；基于网络实时查询各种包括音频解说的渠道，获取各种渠道当前的节目名称，渠道包括互联网、电台广播FM、电视台直播等；将现场活动名称与各种渠道当前的节目名称进行对比，若多种渠道的实时电子名称与现场活动名称一致，则生成包含当前对现场活动进行解说的多个渠道的电子节目单；基于电子节目单选择其中一个渠道；获取该渠道当前节目的数据源，对数据源进行解码得到当前解说音频数据。

将当前解说音频数据发送至中控设备，中控设备控制音频播放设备对解说音频进行播放，其中，中控设备可以设置在场馆中或者集成在头戴式显示设备上。

在现场活动结束后，用户可通过头戴式显示设备对渠道评价进行输入，输入方式包括语音输入或按键输入等，评价内容包括解说音频传输信号的稳定性和解说专业度等信息，根据渠道评价生成渠道的打分信息。

在基于电子节目单选择其中一个渠道过程中，根据历史打分信息选择打分最高的渠道进行解说。

步骤S202：识别当前解说音频数据的关键词信息；

在一个实施例中，为了对当前解说音频数据中的解说内容进行识别，对应的，步骤S202中可以包括如下处理：基于语音识别算法将当前解说音频数据转换成文本信息；对文本信息进行识别，将文本信息与预设的关键词信息进行对比，从而获得当前解说音频数据的关键词信息。

以体育赛事为例，预设的关键词信息包括球员姓名、球衣号等用于区分球员身份的词语。

步骤S203：获取第一摄像头采集的现场活动的当前视频数据；

在一个实施例中，现场活动中不同用户的关注点具有差异性，例如体育赛事中用户喜欢的球员不同，用户自身的关注点更偏向于集中在自己喜欢的球员上，因此对应的，步骤S203之后可以包括如下处理：基于现场活动名称获取参赛或参演的人员信息，人员信息包括人员姓名和头像；将人员信息在当前视频数据的画面中进行显示；响应于用户选择第二目标对象的操作，对当前视频数据进行图像识别；若当前视频数据的画面中存在第二目标对象，则当前视频数据的画面中的第二目标对象进行第二标识。

本实施例中，用户可以在头戴式显示设备通过按键对第二目标对象进行选择，第二目标对象即用户在现场活动中进行关注的目标人员。第二标识方式包括通过AR技术在显示的当前视频数据的画面中的球员或演员进行标识，方便用户观看第二目标对象，其中第二标识方式包括标记箭头、框选或描边等形式。

步骤S204：基于关键词信息和当前视频数据确定是否生成提示信息，提示信息用于提示用户调整第一摄像头的角度。

在一个实施例中，用户在观看视频过程中，为了提高观看的当前视频数据的画面与播放的当前解说音频数据的同步效果，因此对应的，步骤S204中可以包括如下处理：获取关键词信息对应的第一目标对象，并将第一目标对象作为当前目标对象；判断当前视频数据的画面中是否存在当前目标对象；若否，则生成提示信息；基于提示信息对用户进行提示。

以体育赛事为例，第一目标对象为解说音频数据中关键词信息对应的球员图像，头戴式显示设备中预设有多个关于球员图像的第一预设图像特征，第一预设图像特征包括现场活动中的球员姓名、球衣号、球队名等，若当前视频数据的画面中与第一目标对象对应的多个第一预设图像特征对比均不一致，则说明此时的当前视频数据的画面中不存在当前目标对象，所以需要根据提示信息对第一摄像头的角度进行调整。

其中，提示信息可以通过AR技术显示在当前视频数据的画面中，也可以通过头戴式显示设备进行语音播报提示。

在一个实施例中，步骤生成提示信息，可以进行如下处理：获取现场活动的直播视频流数据，基于直播视频流数据获取当前解说音频数据实时对应的活动全景画面；确定当前目标对象在活动全景画面中的位置信息；确定当前视频数据的画面与活动全景画面的相对位置关系；基于位置信息和相对位置关系生成第一摄像头角度偏移方向；基于第一摄像头角度偏移方向生成提示信息。

现场活动的场馆中安装有多个第二摄像头，多个第二摄像头分别安装在场馆的多个不同位置，用于获取现场活动的直播视频流数据并生成活动全景画面，基于第一预设图像特征获取当前目标对象在活动全景画面中的位置信息。头戴式显示设备中还预设有多个第二预设图像特征，第二图像特征分别与场馆不同的位置对应，基于第二预设图像特征能够获取当前视频数据的画面在场馆活动全景画面中的位置。

提示信息可以为显示在头戴式显示设备上的移动箭头或其他形状，移动箭头用于指导用户转动方向，提示信息也可以是显示在头戴式显示设备上的移动文本信息，用户根据显示设备上显示的内容对第一摄像头角度进行调整，使得头戴式显示设备上显示的当前视频数据的画面能够跟解说音频数据的内容匹配。

在一个实施例中，生成提示信息之后，可以包括如下处理：判断当前解说音频数据中是否出现新的关键词信息；若当前解说音频数据中没有出现新的关键词信息，则重复判断当前视频数据的画面中是否存在当前目标对象的步骤；若当前解说音频数据中出现新的关键词信息，则将新的关键词信息对应的第一目标对象作为当前目标对象，并重复判断当前视频数据的画面中是否存在当前目标对象的步骤。

对当前解说音频数据中的第i个关键词信息对应的第一目标对象与实时的当前视频数据进行对比，根据提示信息转动第一摄像头寻找当前视频数据中第i个关键词信息对应的第一目标对象，在转动过程中若识别出新的第i+1个关键词信息，则第i+1个关键词信息对应的第一目标对象替代第i个关键词信息对应的第一目标对象作为当前目标对象，在当前视频数据的画面中对第i+1个关键词信息对应的第一目标对象进行查找。

在一个实施例中，第一摄像头为变焦镜头，步骤S204之后可以进行如下处理：响应于用户缩放当前视频数据内容的操作；获取操作的缩放系数；基于缩放系数对第一摄像头的焦距进行调整；将缩放图像进行显示。

头戴式显示设备上设置有用于识别用户缩放操作的按键，或者用于识别缩放手势的感应板，以使用感应板缩放当前视频数据的画面为例，用户沿朝向比赛场地、向前挥动手的动作为放大手势，向后挥动手的动作为缩小手势。当用户缩放手势为放大或缩小时，将头戴式显示设备显示的当前视频数据的画面的中点作为缩放中心，将手在感应板上移动长度与感应板总长度的比值作为缩放系数，头戴式显示设备内预设有缩放系数与第一摄像头焦距调整量的映射关系表。

当用户缩放手势为放大时，第一摄像头的焦距变长，显示在头戴式显示设备上的当前视频数据的画面放大，便于用户查看画面中的内容。

在一个实施例中，可以进行如下处理：若当前视频数据的画面中存在当前目标对象，则在当前视频数据的画面中当前目标对象进行第一标识。

当前视频数据的画面中包括当前目标对象时，为了使用户能够及时捕捉到当前目标对象，提高用户的体验感，本实施例中，通过第一标识的方式在显示的当前视频数据的画面中进行标识，第一标识可以为与第二标识显示颜色不同的标记箭头、框选或描边等形式。

基于相同的技术构思，参照图3，本发明实施例还提供了一种基于解说音频的现场视频动态调整装置300，该装置包括:

获取播放模块301，用于获取并播放现场活动的当前解说音频数据；

识别模块302，用于识别当前解说音频数据的关键词信息；

获取模块303，用于获取第一摄像头采集的现场活动的当前视频数据；

生成模块304，用于基于关键词信息和当前视频数据确定是否生成提示信息，提示信息用于提示用户调整第一摄像头的角度。

可选的，获取模块303包括：

第一获取子模块：用于基于现场活动名称获取参赛或参演的人员信息，人员信息包括人员姓名和头像；

显示子模块：用于将人员信息在当前视频数据的画面中进行显示；

第一响应子模块：用于响应于用户选择第二目标对象的操作，对当前视频数据进行图像识别；

第一标识子模块：用于在当前视频数据的画面中存在第二目标对象时，将当前视频数据的画面中的第二目标对象在进行第二标识。

可选的，生成模块304包括：

第二获取子模块：用于获取关键词信息对应的第一目标对象，第一目标对象为当前目标对象；

第一判断子模块：用于判断当前视频数据的画面中是否存在当前目标对象，若否，则生成提示信息；

第一提示子模块：用于基于提示信息对用户进行提示。

可选的，第一提示子模块包括：

第三获取子模块：用于获取现场活动的直播视频流数据，基于直播视频流数据获取当前解说音频数据实时对应的活动全景画面；

确定子模块：用于确定当前目标对象在活动全景画面中的位置信息；确定当前视频数据的画面与活动全景画面的相对位置关系；

第一生成子模块：用于基于位置信息和相对位置关系生成第一摄像头角度偏移方向；

第二生成子模块：用于基于第一摄像头角度偏移方向生成提示信息。

可选的，第一判断子模块包括：

第二标识子模块：用于在当前视频数据与当前目标对象对比一致时，在当前视频数据中对当前目标对象进行第一标识。

可选的，生成模块304还包括：

第二判断子模块：用于判断当前解说音频数据中是否出现新的关键词信息；

第一重复子模块：用于在当前解说音频数据中没有出现新的关键词信息时，重复判断当前视频数据的画面中是否存在当前目标对象的步骤；

第二重复子模块：用于在当前解说音频数据中出现新的关键词信息时，将新的关键词信息对应的第一目标对象作为当前目标对象，并重复判断当前视频数据的画面中是否存在当前目标对象的步骤。

可选的，生成模块304还包括：

第二响应子模块：用于响应于用户缩放当前视频数据内容的操作；

第四获取子模块：用于获取操作的缩放系数；

调整子模块：基于缩放系数对第一摄像头的焦距进行调整；

显示子模块：将缩放图像进行显示。

基于相同的技术构思，参照图4，本发明实施例还提供了一种基于解说音频的现场视频动态调整系统400，该系统包括：智能终端100以及音频播放设备401、摄像设备402、显示设备403，智能终端100基于网络接收现场活动的当前解说音频数据，并将当前解说音频数据发送至音频播放设备401，音频播放设备401对接收的解说音频进行播放；摄像设备402用于采集现场活动的当前视频数据，并将当前视频数据发送至智能终端100，智能终端100控制显示设备403对采集的当前视频数据进行显示；智能终端100对当前解说音频数据的关键词信息进行识别，根据关键词信息和当前视频数据进行处理后确定是否生成用于提示用户调整第一摄像头角度的提示信息。

基于相同的技术构思，本发明实施例还提供了一种计算机可读存储介质，存储有能够被处理器加载并执行如上述实施例提供的基于解说音频的现场视频动态调整方法的计算机程序。

本实施例中，计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。具体的，计算机可读存储介质可以是便携式计算机盘、硬盘、U盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、讲台随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、光盘、磁碟、机械编码设备以及上述任意组合。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于解说音频的现场视频动态调整方法，其特征在于，包括：

获取并播放现场活动的当前解说音频数据；

识别所述当前解说音频数据的关键词信息；

获取第一摄像头采集的所述现场活动的当前视频数据；

基于所述关键词信息和所述当前视频数据确定是否生成提示信息，所述提示信息用于提示用户调整所述第一摄像头的角度；

其中，所述基于所述关键词信息和所述当前视频数据确定是否生成提示信息，包括：获取所述关键词信息对应的第一目标对象，并将所述第一目标对象作为当前目标对象；判断所述当前视频数据的画面中是否存在所述当前目标对象；若否，则生成所述提示信息；

所述生成所述提示信息，包括：获取所述现场活动的直播视频流数据，基于所述直播视频流数据获取所述当前解说音频数据实时对应的活动全景画面；确定所述当前目标对象在所述活动全景画面中的位置信息；确定所述当前视频数据的画面与所述活动全景画面的相对位置关系；基于所述位置信息和所述相对位置关系生成第一摄像头角度偏移方向；基于所述第一摄像头角度偏移方向生成所述提示信息。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，在所述生成所述提示信息之后，还包括：

判断所述当前解说音频数据中是否出现新的关键词信息；

4.根据权利要求1所述的方法，其特征在于，在所述获取第一摄像头采集的所述现场活动的当前视频数据之后，还包括：

5.一种基于解说音频的现场视频动态调整装置，其特征在于，包括：

识别模块，用于识别所述当前解说音频数据的关键词信息；

生成模块，用于基于所述关键词信息和所述当前视频数据确定是否生成提示信息，所述提示信息用于提示用户调整所述第一摄像头的角度；

所述生成模块包括：

第一提示子模块：用于基于提示信息对用户进行提示；

所述第一提示子模块包括：

6.一种智能终端，其特征在于，包括存储器和处理器，所述存储器上存储有能够被所述处理器加载并执行如权利要求1至4中任一种方法的计算机程序。

7.一种基于解说音频的现场视频动态调整系统，其特征在于，包括如权利要求6所述的智能终端以及音频播放设备、摄像设备、显示设备；

所述智能终端用于对当前解说音频数据的关键词信息进行识别，获取所述关键词信息对应的第一目标对象，并将所述第一目标对象作为当前目标对象；判断所述当前视频数据的画面中是否存在所述当前目标对象；若否，则智能终端用于获取所述现场活动的直播视频流数据，基于所述直播视频流数据获取所述当前解说音频数据实时对应的活动全景画面；确定所述当前目标对象在所述活动全景画面中的位置信息；确定所述当前视频数据的画面与所述活动全景画面的相对位置关系；基于所述位置信息和所述相对位置关系生成第一摄像头角度偏移方向；基于所述第一摄像头角度偏移方向生成所述提示信息。

8.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至4中任一种方法的计算机程序。