CN107027053A

CN107027053A - 音频播放方法、终端及计算机可读存储介质

Info

Publication number: CN107027053A
Application number: CN201710320150.4A
Authority: CN
Inventors: 黄孙明; 王云华
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd; Shenzhen TCL Digital Technology Co Ltd
Priority date: 2017-05-08
Filing date: 2017-05-08
Publication date: 2017-08-08

Abstract

本发明提供一种音频播放方法，所述音频播放方法应用于音频播放终端，所述音频播放方法包括：在检测到视频画面为动态画面时，获取预设时间段内所述视频画面第一帧画面和最后一帧画面；将获得的两帧画面发送到云端服务器以对所述两帧画面进行景物识别获取对应的景物音频信息；接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频画面播放对应的景物音频。本发明还提供了一种音频播放终端和一种计算机可读存储介质。本发明根据视频内容获取对应的景物音频信息，准确把握视频重点表现内容，确定该内容的音频展现方式；在该视频播放时，通过播放特定类型的音频，构建沉浸式音效环境，为用户提供良好的娱乐体验。

Description

音频播放方法、终端及计算机可读存储介质

技术领域

本发明涉及多媒体技术领域，尤其涉及一种音频播放方法、终端及计算机可读存储介质。

背景技术

随着科学技术的发展和人们生活水平的提高，人们对多媒体技术的要求越来越高，人们希望通过先进的多媒体技术模拟构建出更逼真的虚拟现实世界，从而得到更好的娱乐体验。在这其中，音频声效极其重要，而沉浸式音频是构建虚拟现实世界的重要手段之一。通过使用沉浸式音频，人们能非常明显地感受到音频源仿佛就在耳边，四周的声音都是有迹可循，为人们提供出身临其境的逼真音效体验，例如在玩游戏时，转动游戏人物的头部，游戏系统会根据游戏人物面对方向的不同调整游戏环境声音的音调、音色和响度，从而提供更刺激的感官体验。

现有的环绕音效是通过7.1声道系统进行展示的，即通过增加音响设备提高音频音效的表现力。但是一套7.1声道系统需要使用4个环绕音箱，其设备成本高，一般的家庭中不会安装这样的音频设备；对于显示屏和音响的摆放、用户所在位置都有较严格的要求，用户在家中观看时不一定会坐在某个固定位置，从而无法为用户提供良好的娱乐体验。

发明内容

本发明的主要目的在于提出一种音频播放方法、终端及计算机可读存储介质，旨在方便用户体验沉浸式音频，并降低设备成本。

为实现上述目的，本发明提供一种音频播放方法，所述音频播放方法应用于音频播放终端，所述音频播放方法包括以下步骤：

在检测到视频画面为动态画面时，获取预设时间段内所述视频画面第一帧画面和最后一帧画面；

将获得的两帧画面发送到云端服务器以对所述两帧画面进行景物识别获取对应的景物音频信息；

接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频画面播放对应的景物音频。

优选的，所述两帧画面包括动态背景和静态背景，所述将获得的两帧画面发送到云端服务器以对所述两帧画面进行景物识别获取对应的景物音频信息的步骤包括：

将获得的两帧画面发送到云端服务器以对所述两帧画面的动态背景和静态背景进行景物识别获取对应的景物音频信息。

优选的，所述接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频画面播放对应的景物音频的步骤包括：

接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频判断所述景物音频信息和视频画面是否匹配；

若所述景物音频信息和视频画面匹配，则根据所述景物音频信息和视频的播放进度播放对应的景物音频。

优选的，所述接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频判断所述景物音频信息和视频画面是否匹配的步骤之后，还包括：

若所述景物音频信息和视频画面不匹配，则播放所述视频画面的原始音频。

优选的，所述接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频画面播放对应的景物音频的步骤之后，还包括：

统计所述景物音频的播放次数，并在所述视频播放结束时显示所述播放次数。

此外，为实现上述目的，本发明还提供一种音频播放终端，所述音频播放终端包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的音频播放程序，其中所述音频播放程序被所述处理器执行时实现以下步骤：

在检测到播放视频为动态视频时，获取预设时间段内所述视频第一帧画面和最后一帧画面；

优选的，所述两帧画面包括动态背景和静态背景，所述音频播放程序被所述处理器执行时，还实现以下步骤：

优选的，所述音频播放程序被所述处理器执行时，还实现以下步骤：

若所述景物音频信息和视频画面匹配，则根据所述景物音频信息和视频的播放进度播放对应的景物音频；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有音频播放程序，所述音频播放程序被处理器执行时实现如上述的音频播放方法的步骤。

本发明通过在检测到视频画面为动态画面时，获取预设时间段内所述视频画面第一帧画面和最后一帧画面；将获得的两帧画面发送到云端服务器以对所述两帧画面进行景物识别获取对应的景物音频信息；接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频画面播放对应的景物音频。通过以上方式，本发明的音频播放终端对视频画面进行画面截取，并根据画面内容获取对应的景物音频信息，准确地把握视频画面的重点表现内容，并确定该内容的音频展现方式；在播放该视频时，通过播放特定类型的音频，构建沉浸式的音效环境。本发明根据视频画面实现沉浸式音频的播放，无需使用多种环绕式音响，降低了设备成本，为用户提供良好的娱乐体验。

附图说明

图1为本发明实施例方案涉及的音频播放终端的硬件运行环境的终端结构示意图；

图2为本发明音频播放方法第一实施例的流程示意图；

图3为本发明音频播放方法第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例方案的主要思路是：音频播放终端在检测到播放视频为动态视频时，获取预设时间段内所述视频第一帧画面和最后一帧画面；将获得的两帧画面发送到云端服务器以对所述两帧画面进行景物识别获取对应的景物音频信息；接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频的播放进度播放对应的景物音频。

参照图1，图1为本发明实施例方案涉及的音频播放终端的硬件运行环境的终端结构示意图。

本发明实施例中的音频播放终端可以是智能电视、智能手机、平板电脑、、便携计算机等具有显示播放功能的终端设备。如图1所示，本发明实施例的音频播放终端可以包括处理器1001(例如CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003包括视频画面获取模块(用于获取视频画面)、沉浸式音频提升模块模块(具备音频播放和调节功能)，可选用户接口1003还可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)；存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选的，音频播放终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体的，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，音频播放终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的音频播放终端结构并不构成对本发明音频播放终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及音频播放程序。

在图1所示的终端中，网络接口1004主要用于连接云端服务器，与云端服务器进行数据通信；用户接口1003主要用于获取视频信息和播放相关音频。用户接口1003还可以连接客户端(用户端)或控制器，与客户端或控制器进行数据通信；而处理器1001可以用于调用存储器1005中存储的音频播放程序，并执行以下操作：

在检测到视频画面为动态画面时，获取预设时间段内所述视频第一帧画面和最后一帧画面；

进一步的，处理器1001还可以调用存储器1005中存储的音频播放程序，执行以下操作：

基于上述硬件结构，提出本发明音频播放方法实施例。

参照图2，图2为本发明音频播放方法第一实施例的流程示意图。

本实施例中，所述音频播放方法应用于音频播放终端，所述音频播放方法包括以下步骤：

步骤S10，在检测到视频画面为视频画面时，获取预设时间段内所述视频第一帧画面和最后一帧画面；

本实施例中，考虑到现有的沉浸式音频是一般通过7.1声道系统进行展示，而7.1声道系统需要使用4个环绕音箱，其设备成本高，一般的家庭中不会安装这样的音频设备；对于显示屏和音响的摆放、用户所在位置都有较严格的要求，用户在家中观看时不一定会坐在某个固定位置，从而无法为用户提供良好的娱乐体验，因此本实施例提出一种音频播放方法，无需增加额外的音响设备，而是通过对视频画面进行景物识别，并播放对应的景物音效音频，从而构建出更逼真的虚拟现实世界，给用户带来更好的娱乐体验。

本实施例的音频播放方法应用于音频播放终端，本实施例中音频播放终端为智能电视，除了音频播放的功能外还具有视频播放的功能；当然本发明音频播放方法也可以用于仅有音频播放功能的音频播放终端，该音频播放终端与视频播放终端配合使用；当然本发明音频播放方法还可应用智能手机、平板电脑、便携计算机等具有显示播放功能的终端设备。智能电视在检测到播放的视频是动态画面时，将会获取预设时间段内视频画面的第一帧画面和第二帧画面。其中的预设时间段的具体参数保存在智能电视内存中，而预设时间段具体参数的设置，可以是用户手动设置的固定数值，例如用户设为2分钟；还可以系统自动根据视频长度进行划分，例如视频长度为100分钟，预设时间段为视频长度的百分之二，即2分钟。动态画面可以是这样判断的，当视频中相邻两帧画面的内容存在差别，则该视频画面为动态画面；若当视频中相邻两帧画面的内容相同，则该视频画面为静态画面，此时可直接播放视频画面的原始音频，无需进行音频转换和音效增强；当然为了节约系统资源，不对细小画面变化进行处理，还可以设置预设差别范围，在视频画面的每一帧内容存在差别，但该差别在预设差别范围之内时，认为该视频画面为静态画面，例如视频内容为天空中的云在缓慢移动，虽然视频中每一帧的内容都不同，但是该差别较小，可认为该视频画面为静态画面。

进一步的，动态画面中包括动态背景和静态背景，其中动态背景和静态背景的可以是这样判断的：若在预设时间段内，视频画面中某一背景内容一直保持不变，或者该背景内容发生改变但改变的范围在预设改变范围之内，则认为该背景内容为静态背景；反之，该背景内容为动态背景。通过区分视频画面中的动态背景和静态背景，可以更有针对性为不同的背景设置对应音频属性(包括响度、音色、音调)，提高音频的表现力。

步骤S20，将获得的两帧画面发送到云端服务器以对所述两帧画面进行景物识别获取对应的景物音频信息；

本实施例中，智能电视在获取预设时间段内的第一帧画面和第二帧画面时，将会通过智能电视中通信模块向云端服务器发送这两帧画面，通信方式可以是有线网络，也可以是无线网络，如2G、3G、4G等，在周围可连接的无线wifi网络时还可以通过该网络进行通信。智能电视在发送这两帧画面前，还可以先将这两帧画面保存在内存中。云端服务器在接收到智能电视发送的两帧画面信息时，将对两帧画面进行图像景物提取和识别。具体的，云端服务器对画面图像进行景物边缘切割，将画面图像进行拆解，得出单独的具体景物，并对景物类型进行识别，例如，画面图像中存在山谷和小溪，云端服务器将对画面图像进行景物边缘切割，拆解和识别出其中的山谷和小溪两种景物类型。在识别出图像景物类型时，系统将从预设音频数据库和/或网络中获取与该景物相对应的景物音频信息，例如山谷对应的音频为重低音100Hz，小溪对应的音频为中音300Hz。云端服务器在获取到两帧图像中的景物所对应的景物音频信息时，将把该景物音频信息返回至智能电视中。

进一步的，若一帧画面中有多个同一类型的景物，对于其音频属性，可以取各属性参数的中间值，例如，在一帧画面中有多条小溪，而其音频范围为100～800Hz，此时小溪的音频可取450Hz；当然还可以以其他方式进行取值，例如取各属性参数的众数。

步骤S30，接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频的播放进度播放对应的景物音频,。

本实施例中，智能电视在接收到云端服务器返回的景物音频信息时，将把该景物音频信息保存在内存中，并根据该景物音频信息进行视频场景音频设置；在设置完成时，将该音频设置方案进行保存，并根据该音频设置方案和视频画面的播放情况，通过智能电视中的沉浸式音频提升模块播放对应的景物音频。具体的，在视频画面播放出现山谷画面和小溪画面时，播放山谷对应的重低音音频和小溪对应的中音音频，并根据山谷画面的持续，逐渐增加重低音和中音的增益。由于两个特定增益音频嵌入，用户得到沉浸式的音效体验。当然在音频播放过程中，可是是在原有音频的基础上叠加播放景物音频；还可以是将原有音频消除，根据云端服务器返回的景物音频信息重新设置视频的配套音频并播放。

进一步的，智能电视在接收到云端服务器返回的景物音频信息时，将根据所述景物音频信息和视频判断景物音频信息和视频画面是否匹配；若述景物音频信息和视频画面匹配，则根据景物音频信息和视频的播放进度播放对应的景物音频；若景物音频信息和视频画面匹配不匹配，则播放视频画面的原始音频。具体的，智能电视可以根据景物音频的出现次数进行判断，若景物音频的出现次数和对应的景物画面的出现次数相等或相差在预设差值范围内，则认为景物音频信息和视频画面匹配；反之则认为景物音频信息和视频画面不匹配。

再进一步的，智能电视在视频播放结束时，还可以将云端服务器返回的景物音频信息和音频设置方案保存在本地内存中；在再次播放同一视频或具有相同内容的视频时，直接调用内存中的景物音频信息和音频设置方案进行音频播放，无需再次与云端服务器进行数据交互，节约了网络资源，同时提高了系统的任务处理速度和响应速度。

本实施例中，通过在检测到视频画面为动态画面时，获取预设时间段内所述视频画面第一帧画面和最后一帧画面；将获得的两帧画面发送到云端服务器以对所述两帧画面进行景物识别获取对应的景物音频信息；接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频画面播放对应的景物音频。通过以上方式，本实施例中的音频播放终端对视频画面进行画面截取，并根据画面内容获取对应的景物音频信息，准确地把握视频画面的重点表现内容，并确定该内容的音频展现方式；在播放该视频时，通过播放特定类型的音频，构建沉浸式的音效环境。本实施例中根据视频画面实现沉浸式音频的播放，无需使用多种环绕式音响，降低了设备成本，为用户提供良好的娱乐体验。

参照图3，图3为本发明音频播放方法第二实施例的流程示意图。

基于上述图1所示实施例，所述音频播放方法还包括：

步骤S40，统计所述景物音频的播放次数，并在所述视频播放结束时显示所述播放次数。

本实施例中，音频播放终端仍采用智能电视进行说明。智能电视在播放景物音频对视频音效进行增强时，会对景物音频的播放次数(即音效增强次数)进行统计，并将景物音频的播放次数保存记录在内存中。在视频播放结束时，将显示景物音频的播放次数，供用户了解本次音效增强情况；当然，智能电视也可以在视频播放的过程中在屏幕的某个区域实时显示景物音频的播放次数。

进一步的，智能电视在视频播放结束时，还可将统计的景物音频播放次数发送到云端服务器，由云端服务器进行保存，以供相关技术人员利用该数据进行音频增强优化。

本发明还提供一种音频播放终端。

继续参照图2，本发明音频播放终端包括处理器、存储器及存储在所述存储器上并可在处理器上运行的音频播放程序，所述音频播放程序被所述处理器执行时实现以下步骤：

本实施例中音频播放终端为智能电视，除了音频播放的功能外还具有视频播放的功能；当然本发明音频播放方法也可以用于仅有音频播放功能的音频播放终端，该音频播放终端与视频播放终端配合使用；当然本发明音频播放程序还可应用智能手机、平板电脑、便携计算机等具有显示播放功能的终端设备。智能电视在检测到播放的视频是动态画面时，将会获取预设时间段内视频画面的第一帧画面和第二帧画面。其中的预设时间段的具体参数保存在智能电视内存中，而预设时间段具体参数的设置，可以是用户手动设置的固定数值，例如用户设为2分钟；还可以系统自动根据视频长度进行划分，例如视频长度为100分钟，预设时间段为视频长度的百分之2，即2分钟。动态画面可以是这样判断的，当视频中相邻两帧画面的内容存在差别，则该视频画面为动态画面；若当视频中相邻两帧画面的内容相同，则该视频画面为静态画面，此时可直接播放视频画面的原始音频，无需进行音频转换和音效增强；当然为了节约系统资源，不对细小画面变化进行处理，还可以设置预设差别范围，在视频画面的每一帧内容存在差别，但该差别在预设差别范围之内时，认为该视频画面为静态画面，例如视频内容为天空中的云在缓慢移动，虽然视频中每一帧的内容都不同，但是该差别较小，可认为该视频画面为静态画面。

本实施例中，智能电视在接收到云端服务器返回的景物音频信息时，将把该景物音频信息保存在内存中获取该景物音频信息进行视频场景音频设置；在设置完成时，将该音频设置方案进行保存，并根据该音频设置方案和视频画面的播放情况，通过智能电视中的沉浸式音频提升模块播放对应的景物音频。具体的，在视频画面播放出现山谷画面和小溪画面时，播放山谷对应的重低音音频和小溪对应的中音音频，并根据山谷画面的持续，逐渐增加重低音和中音的增益。由于两个特定增益音频嵌入，用户得到沉浸式的音效体验。当然在音频播放过程中，可是是在原有音频的基础上叠加播放景物音频；还可以是将原有音频消除，根据云端服务器返回的景物音频信息重新设置视频的配套音频并播放。

继续参照图3，本发明音频播放终端中，所述音频播放程序被所述处理器执行时，还实现以下步骤：

本实施例中，基于上述图2所示实施例，音频播放终端仍采用智能电视进行说明。智能电视在播放景物音频对视频音效进行增强时，会对景物音频的播放次数(即音效增强次数)进行统计，并将景物音频的播放次数保存记录在内存中。在视频播放结束时，将显示景物音频的播放次数，供用户了解本次音效增强情况；当然，智能电视也可以在视频播放的过程中在屏幕的某个区域实时显示景物音频的播放次数。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有音频播放程序，所述音频播放程序被处理器执行时实现如上述音频播放方法的步骤。

其中，音频播放程序被执行时所实现的方法可参照本发明音频播放方法和音频播放终端的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频播放方法，其特征在于，所述音频播放方法应用于音频播放终端，所述音频播放方法包括以下步骤：

2.如权利要求1所述的音频播放方法，其特征在于，所述两帧画面包括动态背景和静态背景，所述将获得的两帧画面发送到云端服务器以对所述两帧画面进行景物识别获取对应的景物音频信息的步骤包括：

3.如权利要求1所述的音频播放方法，其特征在于，所述接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频画面播放对应的景物音频的步骤包括：

4.如权利要求3所述的音频播放方法，其特征在于，所述接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频判断所述景物音频信息和视频画面是否匹配的步骤之后，还包括：

5.如权利要求1至4中任一项权利要求所述的音频播放方法，其特征在于，所述接收所述云端服务器返回的所述景物音频信息，并根据所述景物音频信息和视频画面播放对应的景物音频的步骤之后，还包括：

6.一种音频播放终端，其特征在于，所述音频播放终端包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的音频播放程序，其中所述音频播放程序被所述处理器执行时实现以下步骤：

7.如权利要求6所述的音频播放终端，其特征在于，所述两帧画面包括动态背景和静态背景，所述音频播放程序被所述处理器执行时，还实现以下步骤：

8.如权利要求6所述的音频播放终端，其特征在于，所述音频播放程序被所述处理器执行时，还实现以下步骤：

9.如权利要求6至8中任一项权利要求所述的音频播放终端，其特征在于，所述音频播放程序被所述处理器执行时，还实现以下步骤

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音频播放程序，所述音频播放程序被处理器执行时实现如权利要求1至5中任一项所述的音频播放方法的步骤。