CN111641865A

CN111641865A - 音视频流的播放控制方法、电视设备及可读存储介质

Info

Publication number: CN111641865A
Application number: CN202010451972.8A
Authority: CN
Inventors: 张蓝翔; 高伟标; 陈文杰; 朱生林
Original assignee: Huizhou Shiwei New Technology Co Ltd
Current assignee: Huizhou Shiwei New Technology Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-08
Anticipated expiration: 2040-05-25
Also published as: CN111641865B

Abstract

本发明公开了一种音视频流的播放控制方法，包括以下步骤：在播放视频时，确定对应视频帧中的发声对象对应的目标发声装置，所述目标发声装置的位置与所述发声对象的位置对应；在播放音频时，控制所述目标发声装置播放目标音频流，并控制参考发声装置播放原音频流，其中，对所述原音频流中所述发声对象发声时产生的音频进行处理后得到所述目标音频流，所述参考发生装置是除所述目标发声装置之外的发声装置。本发明还公开了一种电视设备及计算机可读存储介质，从而提高播放效果。

Description

音视频流的播放控制方法、电视设备及可读存储介质

技术领域

本发明涉电视技术领域，尤其涉及音视频流的播放控制方法、电视设备及计算机可读存储介质。

背景技术

电视设备是最常用的多媒体播放设备之一，电视设备可以从对流数据中得到图像数据和声音数据，并在屏幕和扬声器上播放出来。随着用户对播放效果的要求越来越高，用户希望得到更逼真的播放效果和沉浸式的观看体验。

目前，在市场上销售的电视设备在播放时，只是简单将接收到音频数据从扬声器中播放出来。由于电视设备越来越大，且用户在观看时可以很明显地感受到声音是从电视设备的扬声器中发出，而不是由电视设备屏幕中的发声对象发出，从而导致用户的观影体验较差，因此，现有的音视频流的播放控制方法存在播放效果差的缺点。

发明内容

本发明的主要目的在于提供一种音视频流的播放控制方法、电视设备及计算机可读存储介质，旨在提高播放效果。

为实现上述目的，本发明提供一种音视频流的播放控制方法，所述音视频流的播放控制方法包括以下步骤：

在播放视频时，确定对应视频帧中的发声对象对应的目标发声装置，所述目标发声装置的位置与所述发声对象的位置对应；

在播放音频时，控制所述目标发声装置播放目标音频流，并控制参考发声装置播放原音频流，其中，对所述原音频流中所述发声对象发声时产生的音频进行处理后得到所述目标音频流，所述参考发生装置是除所述目标发声装置之外的发声装置。

可选地，所述在播放视频时，确定对应视频帧中的发声对象对应的目标发声装置的步骤之前还包括：

接收视频流数据，并识别所述视频流数据中视频帧中的发声对象；

获取所述发声对象在对应视频帧中的位置信息；

关联所述位置信息以及所述视频帧；

接收音频流数据，并获取所述音频流数据中的原音频流；

根据所述原音频流生成目标音频流；

所述确定对应视频帧中的发声对象对应的目标发声装置的步骤包括：

获取对应视频帧关联的位置信息，根据所述位置信息确定所述目标发声装置。

可选地，所述获取所述发声对象在视频帧中的位置信息的步骤包括：

将视频流数据中的视频帧分为参考视频帧以及预测视频帧，其中，所述参考视频帧的播放顺序早于所述预测视频帧；

识别所述参考视频帧中所述发声对象的位置信息，根据所述位置信息以及所述参考视频帧的播放顺序得到所述发声对象的移动轨迹；

根据所述移动轨迹预测所述预测视频帧中所述发声对象的预测位置信息；

根据所述预测位置信息得到所述预测视频帧中所述发声对象的位置信息。

可选地，所述根据所述预测位置信息得到所述预测视频帧中所述发声对象的位置信息的步骤包括：

获取所述预测视频帧中预设数量的视频帧作为校验视频帧，其中，所述校验视频帧的播放顺序晚于所述预测视频帧中除所述校验视频帧之外的其它视频帧；

识别所述校验视频帧中所述发声对象的校验位置信息；

获取所述预测位置信息与校验位置信息之间的偏差值；

在所述偏差值小于或等于预设阈值时，将所述预测位置信息作为所述发声对象的位置信息。

可选地，所述获取所述预测位置信息与校验位置信息之间的偏差值的步骤之后，所述音视频流的播放控制方法还包括：

在所述偏差值大于预设阈值时，根据所述预测位置信息与所述校验位置信息生成最终位置信息，并将所述最终位置信息作为所述发声对象的位置信息。

可选地，所述根据所述原音频流生成目标音频流的步骤包括：

获取原音频流中处于预设频率段的子音频流；

调整所述子音频流的音量，并混合所述子音频流与所述原音频流得到所述目标音频流。

可选地，所述发声装置为扬声器阵列，且设置于显示装置的边框的至少两个侧边，所述控制所述目标发声装置播放目标音频流，并控制参考发声装置播放原音频流的步骤包括：

根据所述目标发声装置以及参考发声装置的位置信息生成增益序列，其中，所述增益序列中电视设备中的每个所述发声装置对应一个增益值，所述目标发声装置的增益值大于所述参考发声装置的增益值，同一侧边上所述参考发声装置距离所述目标发声装置越远增益值越小；

控制所述目标发声装置按照所述增益序列中对应的增益值播放所述目标音频流；

控制所述参考发声装置按照所述增益序列中对应的增益值播放所述原音频流。

此外，为实现上述目的，本发明还提出了一种电视设备，所述电视设备包括：显示装置、发声装置、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音视频流的播放控制程序，所述音视频流的播放控制程序在被处理器执行时实现如上述的音视频流的播放控制方法。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有音视频流的播放控制程序，所述音视频流的播放控制程序被处理器执行时实现如上所述的音视频流的播放控制方法的步骤。

本发明实施例提出的一种音视频流的播放控制方法、电视设备及计算机可读存储介质，在播放音视频时，通过获取对应视频帧中的发声对象的位置以及对应的目标发声装置，并控制目标发声装置播放发声对象对应的目标音频流，由于目标发声装置的位置与发声对象在视频帧中的位置存在映射关系，也即不断地调整发声对象对应的目标音频流在电视设备中的播放位置，使得发声对象的显示位置与发声位置在视听觉上位置相近或者一致，从而提高播放效果。

附图说明

图1是本发明实施例方案涉及的电视设备硬件架构示意图；

图2为本发明音视频流的播放控制方法第一实施例的流程示意图；

图3为本发明实施例方案涉及的视频帧的区域划分示意图；

图4为本发明实施例方案设计的平面发生装置设置于电视设备上的示意图；

图5为本发明实施例方案设计的扬声器阵列设置于电视设备上的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为解决上述缺陷，本发明实施例提出一种音视频流的播放控制方法、电视设备及计算机可读存储介质，其中，所述音视频流的播放控制方法主要包括以下步骤：

在本方案中，由于目标发声装置的位置与发声对象在视频帧中的位置存在映射关系，也即不断地调整发声对象对应的目标音频流在电视设备中的播放位置，使得发声对象的显示位置与发声位置在视听觉上位置相近或者一致，从而提高播放效果。

如图1所示，图1是本发明实施例方案涉及的电视设备的硬件架构示意图。

如图1所示，该电视设备可以包括：处理器1001，例如CPU，显示装置1003，发声装置1004，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。发声装置1004可以是平面发声振子，也可以是扬声器。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的电视设备的硬件架构并不构成对电视设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及音视频流的播放控制程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；处理器1001可以用于调用存储器1005中存储的音视频流的播放控制程序，并执行以下操作：

进一步地，处理器1001可以用于调用存储器1005中存储的音视频流的播放控制程序，还执行以下操作：

获取所述发声对象在对应视频帧中的位置信息；

关联所述位置信息以及所述视频帧；

接收音频流数据，并获取所述音频流数据中的原音频流；

根据所述原音频流生成目标音频流；

识别所述校验视频帧中所述发声对象的校验位置信息；

获取所述预测位置信息与校验位置信息之间的偏差值；

获取原音频流中处于预设频率段的子音频流；

参照图2，图2是本发明音视频流的播放控制方法的第一实施例的流程示意图，在本实施例中，所述音视频流的播放控制方法包括以下步骤：

步骤S10、在播放视频时，确定对应视频帧中的发声对象对应的目标发声装置，所述目标发声装置的位置与所述发声对象的位置对应；

步骤S20、在播放音频时，控制所述目标发声装置播放目标音频流，并控制参考发声装置播放原音频流，其中，对所述原音频流中所述发声对象发声时产生的音频进行处理后得到所述目标音频流，所述参考发生装置是除所述目标发声装置之外的发声装置。

在本实施例中，所述视频帧是组成视频流的最小单位；所述视频流为电视设备接收到的视频帧序列，其中，所述视频帧与视频帧之间存在顺序关系；所述发声对象是可以发出声响的物体，可以是人类、小提琴、狗和汽车等；所述发声装置是可以根据接收到的音频数据发出声响的电子器件，可以是平面发声振子、扬声器等。

所述目标发声装置为播放发声对象的音频流的装置，所述目标发声装置的位置与发声对象的位置对应；所述发声对象的位置为发声对象在视频帧中所处的区域的位置信息，所述区域为处理器对视频帧进行的区域划分，示例性地，如图3所示，可以将视频帧划分为9个区域；所述参考发声装置为电视设备中除目标发声装置之外的发声装置。

所述原音频流为电视设备接收到的原始音频数据，也就是数字化的声音数据；所述目标音频流是对原音频流进行处理后的发声对象的音频数据，由电视设备根据发声对象的频率段对接收到的原始音频流进行分离处理得到发声对象的音频数据，然后对该音频数据的音量进行增大处理得到目标音频流。

处理器在播放视频时，根据视频帧的播放顺序以及当前正在播放的视频帧的播放位置获取下一待播放的视频帧，然后播放该视频帧，同时获取存储器中与该视频帧关联保存的发声对象，在存储器中存在与该视频帧关联的发声对象时，确定该发声对象对应的目标发声装置，其中，发声对象的位置与目标发声装置的位置存在映射关系，也即根据发声对象在视频帧中的位置来确定对应位置的发声装置，并将该位置的发声装置作为目标发声装置。在播放音频时，处理器将电视设备中除目标发声装置之外的发声装置作为参考发声装置，根据原音频流播放顺序以及当前原音频流播放情况，获取存储器中对应的原音频流，同时获取与该发声对象关联的目标音频流，其中，目标音频流与原音频流均为当前应播放的音频数据；最后控制目标发声装置播放目标音频流，同时控制参考发声装置播放原音频流。

在本实施例公开的技术方案中，由于目标发声装置的位置与发声对象在视频帧中的位置存在映射关系，也即不断地调整发声对象对应的目标音频流在电视设备中的播放位置，使得发声对象的显示位置与发声位置在视听觉上位置相近或者一致，从而提高播放效果。

可选地，参照前述实施例，在本发明音视频流的播放控制方法的第二实施例中，由于需要获取对应视频帧中的发声对象对应的位置信息以及目标音频流，因此，处理器在确定对应视频帧中的发声对象对应的目标发声装置之前，处理器还可以接收视频流数据，然后对视频流数据中的视频帧进行识别，在识别到视频帧中存在发声对象时，获取该发声对象在视频帧中的位置信息，其中，所述位置信息可以是发声对象在视频帧中所处的区域信息；然后将视频帧、视频帧中的发声对象以及发声对象的位置信息关联保存。

同时，处理器还可以接收音频流数据，获取音频流数据中的原音频流，并检测员音频流中是否存在发声对象的音频流，在检测到发声对象的音频流时，对原音频流进行处理，得到目标音频流，并将目标音频流与发声对象关联保存。

在确定所述视频帧中的发声对象对应的目标发声装置时，处理器可以根据发声对象在视频帧中的位置信息确定该发声对象对应的目标发声装置。

示例性地，如图4所示，当所述发声装置为平面发声振子时，所述平面发声振子至少两个，且分区域设置于显示装置的背板处；当发声对象在视频帧中为位置1时，将1区域的平面发声振子作为目标发声装置，2-9区域的平面发声振子则为参考发声装置。

示例性地，如图5所示，当所述发声装置为扬声器阵列时，所述扬声器阵列设置于显示装置的边框的至少两个侧边；当发声对象在视频帧中为位置1时，获取位置1对应的扬声器标识，可以是A1、A2、A3、B1、B2、以及B3这六个扬声器，将该扬声器标识对应的扬声器作为目标发声装置，并将剩余扬声器标识对应的扬声器作为参考发声装置。

处理器还可以获取目标音频流中发声对象与视频帧中发声对象一致的目标音频流，示例性地，可以获取目标音频流对应的发声对象的标识与视频帧中发声对象的标识一致的目标音频流。

在本实施例公开的技术方案中，通过对接收到的视频流数据和音频流数据进行识别并处理，得到发声对象的位置信息，并确定对应的目标发声装置，同时获取发声对象对应的目标音频流，从而达到了确定发声对象对应的目标发声装置，并获取发声对象对应的目标音频流的效果。

可选地，参照前述实施例，在本发明音视频流的播放控制方法的第三实施例中，由于需要获取发声对象在视频帧中的位置信息，因此，处理器在获取所述发声对象在视频帧中的位置信息时，处理器还可以接收视频流数据，然后从视频流数据中获取第一预设数量的视频帧，其中，由于处理器可以分组识别接收到的视频帧，则所述第一预设数量是一组视频帧序列中视频帧的个数。

处理器将视频帧序列中的视频帧分为参考视频帧以及预测视频帧，其中，所述参考视频帧用于对发声对象进行图像识别的视频帧，所述预测视频帧是用于对发声对象进行运动检测的视频帧，参考视频帧的播放顺序早于预测视频帧。处理器对每一个参考视频帧进行预处理，然后获取每一个参考视频帧中的图像特征，然后对每一个参考视频帧的图像特征进行特征识别，也即根据预设的识别模型确定每一个发声对象的类型，然后根据同一发声对象的特征像素，确定每一个发声对象在每一个参考视频帧中所处的区域位置；然后关联参考视频帧、参考视频帧中的发声对象以及发声对象在参考视频帧中所处区域的位置信息。

处理器根据发声对象在每一参考视频帧中的位置信息以及参考对象帧的顺序关系得到发声对象在参考视频帧序列中的移动轨迹，然后根据发声对象在参考视频帧序列中的移动轨迹预测发声对象在预测视频帧序列中的移动轨迹，并根据预测视频帧序列中的移动轨迹获取发声对象在每一个预测视频帧中所处的区域的位置信息，然后关联预测视频帧、预测视频帧中的发声对象以及发声对象在预测视频帧中所处区域的位置信息。

在本实施例公开的技术方案中，通过对部分视频帧进行运动检测，得到对应的视频帧中发声对象的位置信息，达成了减少计算量的效果。

可选地，参照前述实施例，在本发明音视频流的播放控制方法的第四实施例中，由于通过运动检测得到的位置信息可能存在偏差，因此，处理器在根据所述预测位置信息得到所述预测视频帧中所述发声对象的位置信息时，处理器还可以获取第二预设数量的预测视频帧作为校验视频帧，其中，所述校验视频帧的播放顺序晚于预测视频帧中除校验视频帧之外的其它视频帧；所述第二预设数量为用于校验的预测视频帧的个数。处理器对每一个校验视频帧进行预处理，然后获取每一个校验视频帧中的图像特征，然后对每一个校验视频帧的图像特征进行特征识别，也即根据预设的识别模型确定每一个发声对象的类型，然后根据同一发声对象的特征像素，确定每一个发声对象在每一个校验视频帧中所处的区域位置。处理器然后比对每一校验视频帧中通过图像识别得到的校验位置信息以及通过运动预测得到的预测位置信息，并获取校验位置信息与预测位置信息不一致的校验视频帧的帧数，并将该帧数作为预测位置信息与校验位置信息之间的偏差值；在所述偏差值小于或等于预设阈值时，将预测位置信息作为发声对象的位置信息，其中，所述预设阈值为是否更新发声对象在校验视频帧中的位置信息的临界值。

在本实施例公开的技术方案中，通过设置校验视频帧并获取校验位置信息，并将校验位置信息与预测位置信息进行比对，达成了检验错误位置信息的效果

可选地，参照前述实施例，在本发明音视频流的播放控制方法的第五实施例中，由于预测位置信息与校验位置信息之间的偏差值可能大于预设阈值，因此，处理器在获取所述预测位置信息与校验位置信息之间的偏差值之后，处理器还可以根据预测位置信息与校验位置信息生成最终位置信息，并将最终位置信息作为发声对象的位置信息。

示例性地，在判定偏差值大于预设阈值时，获取不一致校验视频帧中的校验位置信息1区域与预测位置信息3区域，然后将1区域与3区域作为发声对象在该校验视频帧中的最终位置信息；或者是获取1区域与3区域的中间区域，并将该中间区域，即2区域作为发声对象在该校验视频帧中的最终位置信息。

在本实施例公开的技术方案中，通过根据校验位置信息与预测位置信息生成最终位置信息，从而达成了校正发声对象在校验视频帧中的位置信息的效果。

可选地，参照前述实施例，在本发明音视频流的播放控制方法的第六实施例中，由于需要控制目标发声装置播放目标音频流，因此，处理器在根据所述原音频流生成目标音频流时，处理器还可以获取原音频流，并判断原音频流中是否存在与预设频率段匹配的音频数据，其中，所述预设频率段为发声对象发出声响时，对应声波中的谐波的频率段；所述预设频率段至少一个；在原音频流中是否存在与预设频率段匹配的音频数据时，获取原音频流中处于预设频率段的子音频流，并调整子音频流的音量，并混合调整音量后的子音频流与原音频流，得到发声对象的目标音频流，增大子音频流的音量，然后混合增大音量后的子音频流与原音频流，得到目标音频流。

处理器还可以根据发声装置的频响特性对子音频流进行处理，然后混合处理后的子音频流与原音频流，得到目标音频流。

在本实施例公开的技术方案中，通过获取预设频率段的子音频流，并对其进行处理得到目标音频流，达成了获取发声对象的目标音频流的效果。

可选地，参照前述实施例，在本发明音视频流的播放控制方法的第七实施例中，由于发声装置还可以是扬声器，则当所述发声装置为扬声器阵列时，处理器在控制所述目标发声装置播放目标音频流，并控制参考发声装置播放原音频流时，处理器还可以根据预设增益序列逐一对该子音频流进行音量调整，然后逐一与原音频流进行混合。示例性的，在预设增益序列为30、20、10时，根据增益值30对子音频流进行处理，也即将复制到的子音频流的音量增大30分贝，然后混合增大音量后的子音频流与原音频流得到增益值为30对应的目标音频流；在根据增益值20以及增益值10对子音频流进行处理时，执行一样的步骤，得到增益值为20的目标音频流以及增益值为10的目标音频流；其中，将处理器原音频流作为增益值为0的音频流。

处理器根据所述目标发声装置以及所述参考发声装置的位置信息生成增益序列，其中，所述增益序列中电视设备中的每个所述发声装置对应一个增益值，所述目标发声装置的增益值大于所述参考发声装置的增益值，同一侧边上所述参考发声装置距离所述目标发声装置越远增益值越小。处理器关联每一个发声装置的发声装置标识与增益值，然后控制目标发声装置播放发声装置标识对应的增益值的目标音频流，控制参考发声装置播放发声装置标识对应的增益值的音频流。

在本实施例公开的技术方案中，通过生成增益序列，并控制增益值对应的发声装置播放增益值对应的目标音频流或音频流，达成了在发声装置为扬声器阵列时，根据发声对象的位置调整发声装置的播放效果的效果。

此外，本发明实施例还提出一种电视设备，所述电视设备包括显示装置、发声装置、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音视频流的播放控制程序，所述音视频流的播放控制程序被所述处理器执行时实现如上各个实施例所述的音视频流的播放控制方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有音视频流的播放控制程序，所述音视频流的播放控制程序被处理器执行时实现如上各个实施例所述的音视频流的播放控制方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电视设备执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音视频流的播放控制方法，其特征在于，所述音视频流的播放控制方法应用于电视设备，所述电视设备包括多个发声装置，所述音视频流的播放控制方法包括以下步骤：

2.如权利要求1所述的音视频流的播放控制方法，其特征在于，所述在播放视频时，确定对应视频帧中的发声对象对应的目标发声装置的步骤之前还包括：

获取所述发声对象在对应视频帧中的位置信息；

关联所述位置信息以及所述视频帧；

接收音频流数据，并获取所述音频流数据中的原音频流；

根据所述原音频流生成目标音频流；

3.如权利要求2所述的音视频流的播放控制方法，其特征在于，所述获取所述发声对象在对应视频帧中的位置信息的步骤包括：

4.如权利要求3所述的音视频流的播放控制方法，其特征在于，所述根据所述预测位置信息得到所述预测视频帧中所述发声对象的位置信息的步骤包括：

识别所述校验视频帧中所述发声对象的校验位置信息；

获取所述预测位置信息与校验位置信息之间的偏差值；

5.如权利要求4所述的音视频流的播放控制方法，其特征在于，所述获取所述预测位置信息与校验位置信息之间的偏差值的步骤之后，所述音视频流的播放控制方法还包括：

6.如权利要求2所述的音视频流的播放控制方法，其特征在于，所述根据所述原音频流生成目标音频流的步骤包括：

获取原音频流中处于预设频率段的子音频流；

7.如权利要求6所述的音视频流的播放控制方法，其特征在于，所述发声装置为扬声器阵列，且设置于显示装置的边框的至少两个侧边，所述控制所述目标发声装置播放目标音频流，并控制参考发声装置播放原音频流的步骤包括：

8.一种电视设备，其特征在于，所述电视设备包括：显示装置、发声装置、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音视频流的播放控制程序，所述音视频流的播放控制程序被所述处理器执行时实现如权利要求1至7中任一项所述的音视频流的播放控制方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音视频流的播放控制程序，所述音视频流的播放控制程序被处理器执行时实现如权利要求1至7中任一项所述的音视频流的播放控制方法的步骤。