CN109194999B

CN109194999B - 一种实现声音与图像同位的方法、装置、设备及介质

Info

Publication number: CN109194999B
Application number: CN201811043120.4A
Authority: CN
Inventors: 赵新科
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2021-07-09
Anticipated expiration: 2038-09-07
Also published as: CN109194999A; WO2020048034A1

Abstract

本发明实施例公开了一种实现声音与图像同位的方法、装置、设备及介质，所述方法包括：对当前播放视频分别进行图像识别以及声音识别，以获取当前播放视频对应的图像特征和声音特征；基于所述图像特征判断当前播放视频是否存在发声源；若存在，则获取当前播放视频的发声源在当前视频显示屏的位置信息；基于所述声音特征判断当前播放视频是否存在与所述发声源匹配的音源，若存在，则根据所述发声源在当前视频显示屏的位置信息生成控制信号，以控制与所述位置信息对应的声音还原元件发声；其中，所述预设图像特征数据库依据所述当前播放视频预先构建。通过采用上述技术方案，可提高视频的播放效果，给观看者带来较强的临场感。

Description

一种实现声音与图像同位的方法、装置、设备及介质

技术领域

本发明实施例涉及智能电视技术领域，尤其涉及一种实现声音与图像同位的方法、装置、设备及介质。

背景技术

现在的电子显示类产品，如大尺寸液晶电视，在播放视频的时候，视频图像是通过显示屏呈现出来，而视频声音则是通过设置在电视其它位置的扬声器发声，由于视频声音与对应的视频图像不在同一个位置，导致视频的播放效果不佳，用户观看视频时的临场感不强。

发明内容

本发明提供一种实现声音与图像同位的方法、装置、设备及介质，通过所述方法有效实现声音与图像的同位置呈现，提高视频的播放效果。

为实现上述目的，本发明实施例采用如下技术方案：

第一方面，本发明实施例提供了一种实现声音与图像同位的方法，所述方法包括：

对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征；

基于所述图像特征判断所述当前播放视频是否存在发声源；

若所述当前播放视频存在发声源，则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息；

基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源，若存在，则根据所述发声源在当前视频显示屏的位置信息生成控制信号，以控制与所述位置信息对应的声音还原元件发声；

其中，所述预设图像特征数据库依据所述当前播放视频预先构建。

进一步的，所述对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征，包括：

对当前播放视频进行解码，分别得到当前播放视频对应的图像数据和声音数据；

基于所述图像数据调用图像识别接口进行图像识别，得到对应的图像特征，并基于所述声音数据调用声音识别接口进行声音识别，得到对应的声音特征。

进一步的，所述声音还原元件包括扬声器，所述声音还原元件依据所述当前视频显示屏预先划分的分区独立设置；

所述分区的数量依据显示屏的大小进行设定。

进一步的，所述根据所述发声源在当前视频显示屏的位置信息生成控制信号，以控制与所述位置信息对应的声音还原元件发声包括；

将所述声音数据通过ATMOS解码，得到IIS音频信号；

根据所述IIS音频信号以及所述控制信号控制与所述位置信息对应的功率放大器工作以驱动对应的扬声器发声。

进一步的，所述基于所述图像特征判断所述当前播放视频是否存在发声源，包括：

将所述图像特征与预设图像特征数据库中的图像特征进行相似度匹配；

当匹配相似度达到设定阈值时，则确定所述当前播放视频存在发声源；

其中，所述预设图像特征数据库中的图像特征包括人体形态特征和/或动物形态特征。

进一步的，所述基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源，包括：

将所述声音特征与预先建立的模型发声源的模型特征进行比对；

若存在与所述声音特征一致的模型特征且与所述模型特征对应的模型发声源与所述当前播放视频中存在的发声源相同，则确定所述当前播放视频存在与所述发声源匹配的音源。

进一步的，所述控制与所述位置信息对应的声音还原元件发声，包括：

当所述声音还原元件发出的声音幅度超过设定上限时，则降低所述声音还原元件的发声增益，否则提高所述声音还原元件的发声增益。

第二方面，本发明实施例提供了一种实现声音与图像同位的装置，所述装置包括：

识别模块，用于对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征；

发声源判断模块，用于基于所述图像特征判断所述当前播放视频是否存在发声源；

获取模块，用于若所述当前播放视频存在发声源，则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息；

音源判断模块，用于基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源；

控制模块，用于若存在与所述发声源匹配的音源，则根据所述发声源在当前视频显示屏的位置信息生成控制信号，以控制与所述位置信息对应的声音还原元件发声；

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的实现声音与图像同位的方法。

第四方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的实现声音与图像同位的方法。

本发明实施例提供的一种实现声音与图像同位的方法，通过对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征；基于所述图像特征判断所述当前播放视频是否存在发声源；若所述当前播放视频存在发声源，则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息；然后基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源，若存在，则根据所述发声源在当前视频显示屏的位置信息生成控制信号，以控制与所述位置信息对应的声音还原元件发声，实现了声音与图像的同位置呈现，使观看视频的用户感觉到视频声音的位置与视频中发出声音的对象的位置基本一致，提高了视频的播放效果，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1为本发明实施例一提供的一种实现声音与图像同位的方法流程示意图；

图2为本发明实施例一提供的另一种实现声音与图像同位的方法流程示意图；

图3为本发明实施例二提供的一种实现声音与图像同位的方法过程示意图；

图4为本发明实施例二提供的一种显示屏分区示意图；

图5为本发明实施例二提供的一种根据所述控制信号控制对应功率放大器工作以驱动对应的扬声器发声的流程示意图；

图6为本发明实施例三提供的一种实现声音与图像同位的装置的结构示意图；

图7为本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种实现声音与图像同位的方法流程示意图。本实施例提供的实现声音与图像同位的方法可应用在具有大尺寸显示屏的电子产品上，例如65寸及以上的电视机产品；当显示屏尺寸较小时，由于声音还原系统与视频图像(即发声源)之间的距离较近，声音与图像同位的音响效果无法被突出体现。所述实现声音与图像同位的方法适用于具有明显方向属性的声音特征的视频的播放过程中，所述具有明显方向属性的声音特征的视频例如是包含有人物且所述人物发出了说话的声音，吵架的声音或者唱歌的声音的视频，或者包含有动物且所述动物发出了叫声的视频，或者包含有物体且所述物体发出了敲打声(例如打铁、电焊等)或者打碎物体声音(例如打碎玻璃或者碗等陶瓷制品的声音)的视频，即具有明显声音特征且有发出声音的源头的视频。在具有声音但该声音没有明显方向属性的视频播放过程中，本实施例提供的实现声音与图像同位的方法无法正常执行。例如对于只包含有背景音乐的视频，由于所述背景音乐没有明显的发声源头，即不具有明显的方向属性，则无法应用本实施例提供的方法达到提升视频播放效果的目的，对于此类视频播放，只当作普通声音进行呈现，不进行声音与图像的同位操作。所述实现声音与图像同位的方法可以由实现声音与图像同位的装置来执行，该装置可由软件和/或硬件实现，一般集成在具有大尺寸显示屏的电子设备中。所述实现声音与图像同位的方法用于提升视频播放效果，提升用户观看视频的临场感，沉浸感。具体参见图1所示，该方法包括如下步骤：

110、对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征。

其中，所述图像特征具体指当前播放视频中包含的人物、动物或者其他的物体、物品等的特征，所述物体例如可以是木凳或者木桌，所述物品例如可以是碗、杯子或者茶壶等陶瓷制品，只要是当前播放视频中包含的物的特征都属于所述图像特征的范畴。所述声音特征具体指当前播放视频中包含的音频特征，例如唱歌声、说话声、动物叫喊声或者打碎物品的声音等。

所述当前播放视频通过对播放视频进行定期采样获得，例如每秒中对播放视频采样两次，每次采样得到的视频均为当前播放视频。

示例性的，所述对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征，包括：

其中，对当前播放视频进行解码可以利用本领域内成熟的解码算法进行，本实施例中不再赘述。所述图像识别接口优选为百度的人脸识别系统，可实现对当前播放视频中的图像特征进行有效识别。所述声音识别接口具体为提取声音中的振幅或者频率等能够体现声音特征的信息的程序模块，通过该程序模块可有效提取当前播放视频中的声音特征。

120、基于所述图像特征判断所述当前播放视频是否存在发声源，若所述当前播放视频存在发声源，则继续执行步骤130，否则退出流程。

其中，所述发声源指当前播放视频中发出声音的源头，例如发出声音的人或者物等。

示例性地，所述基于所述图像特征判断所述当前播放视频是否存在发声源，包括：

其中，所述预设图像特征数据库中的图像特征包括人体形态特征和/或动物形态特征，还可以包括物体、物品的形态特征，所述人体形态特征具体可以指人发出声音时的口型姿态，所述动物形态特征具体可以指动物发出声音时的口型姿态，所述物体、物品的形态特征具体可以指物体、物品发出声音时的姿态，例如物体之间的敲打、摩擦姿态，物品被打碎时的姿态。所述图像特征的实质是当前播放视频中存在的发声源的标识。所述预设图像特征数据库中的图像特征可以基于人工智能技术，通过自主学习功能对所述当前播放视频预先进行学习得到，同时对预设图像特征数据库中的图像特征在当前视频播放设备的显示屏的位置进行标记，因此在自主学习的过程中还需要加入用于播放当前视频的电子设备的屏幕尺寸信息，考虑到成本问题，播放当前视频的电子设备可以仅考虑目前市场上比较流行的配置有65寸液晶显示屏的智能电视机。

由于当前播放视频可通过对播放视频进行定期采样得到，通过设置所述设定阈值，可以将一些图像特征不明显的图像过滤掉，即将当前次采样得到的视频数据放弃，等待下一次的采样数据，从而可减少实现声音与图像同位的方法对系统资源的占用率，同时可提高确定当前播放视频中是否存在发声源的准确性。

若当前播放视频不存在发声源，则表示当前播放视频不存在具有明显方向属性的声音特征，无法体现声音与图像同位的播放效果，因此不对当前播放视频进行声音与图像的同位操作，直接按照常规的视频播放流程进行播放即可，将视频中的声音通过当前视频播放设备的所有声道进行播放即可。

130、基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息。

其中，所述当前视频显示屏具体指用于播放当前视频的电子设备的显示屏。所述预设图像特征数据库依据所述当前播放视频预先构建，所述预设图像特征数据库中保存有当前播放视频的发声源与其在当前视频显示屏的位置信息之间的对应关系，通过该对应关系可以查找到所述发声源在当前视频显示屏的位置信息。

140、基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源，若存在，则继续执行步骤150，否则结束流程。

示例性的，所述基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源，包括：

所述模型发声源的模型特征根据所述当前播放的视频预先构建，在所述模型发声源中保存有当前播放视频中存在的发声源以及该发声源对应的声音特征，例如所述发声源为人物，对应的声音特征为唱歌声，则表示当前播放视频中的所述发声源对应的人物在唱歌；若所述发声源为人物，对应的声音特征为狗叫声，则表示当前播放视频中所述发声源对应的人物在学狗叫；若所述发声源为玻璃花瓶，对应的声音特征为玻璃打碎的声音，则表示当前播放视频中所述发声源对应玻璃花瓶发出了玻璃打碎的声音。

当从当前播放视频中识别出的声音特征以及确定出的发声源均与所述模型发声源中的模型特征以及对应的发声源匹配时，则表示当前播放视频中存在具有明显方向属性的声音特征，即音源。

其中，所述声音特征具体指当前播放视频中包含的音频特征，例如唱歌声、说话声、动物叫喊声或者打碎物品的声音等。

150、根据所述发声源在当前视频显示屏的位置信息生成控制信号，以控制与所述位置信息对应的声音还原元件发声。

其中，所述声音还原元件包括扬声器，所述声音还原元件依据所述当前视频显示屏幕预先划分的分区独立设置；

所述分区的数量依据显示屏幕的大小进行设定。

具体的，可以将所述当前视频显示屏预先划分为特定数量的小区域，每个小区域由独立的声音还原元件进行发声，通过确定所述发声源在哪个小区域，进而控制对应小区域的声音还原元件发声，从而实现了声音与图像同位的目的，给观看视频的用户一种所述声音是由发声源发出的临场效果。例如，假设当前播放视频内容为“皇后娘娘在训斥奴才”，通过本实施例提供的实现声音与图像同位的方法，让观看者感觉训斥奴才的话正好是从皇后娘娘的嘴部发出来的，给观看者一种较强的临场感体验，提高观看者的沉浸感。假设当前播放视频内容为“鸟飞过树林发出悦耳动听的鸟叫声”，通过本实施例提供的实现声音与图像同位的方法，让观看者感觉鸟叫声是从显示屏上某个位置处的鸟发出来的，给观看者一种较强的临场感体验。

本实施例提供的实现声音与图像同位的方法，通过图像识别以及声音识别识别当前播放视频中的发声源以及对应的声音特征，当当前播放视频存在具有明显方向属性的声音特征时，通过获取当前播放视频中的发声源在当前视频显示屏的位置信息，根据所述位置信息控制发声源处的声音还原元件发声，从而实现了声音与图像的同位，给人一种视频声音从对应的发声源处发出的感觉，提高了观看者的临场感、沉浸感。

在上述技术方案的基础上，本实施例提供了另一种实现声音与图像同位的方法流程示意图，具体参见2所示，所述方法包括：

210、视频开始播放。

220、对正在播放的视频进行视频采样。

考虑到系统资源的占用问题以及视频的帧频，本实施例优选采用每秒2次的采样频率对正在播放的视频进行视频采样，在尽量减少对系统资源的占用的同时保证不对实现声音与图像同位的方法造成影响，不遗落视频中任何一个具有明显方向属性的发声源。

230、对采样得到的视频进行视频解码，分别得到视频中的图像数据240和声音数据231。

其中，对采样得到的视频进行视频解码可以利用本领域内成熟的解码算法进行，本实施例中不再赘述。

231、声音数据。

240、图像数据。

250、根据图像数据进行图像识别，得到图像特征。

具体可通过调用图像识别接口进行图像识别操作，所述图像识别接口优选为百度的人脸识别系统，可实现对当前播放视频中的图像特征进行有效识别。

260、将所述图像特征与图像数据库中的图像特征进行匹配。

其中，所述图像数据库依据当前播放视频预先构建，其中保存有当前播放视频中存在的发声源的图像特征。

270、确认是否获得匹配数据，若是，则执行步骤280，否则，放弃当前的采样数据，进行下次采样。

其中，确认是否获得匹配数据的实质是判断图像数据库中是否存在与所述图像特征匹配的数据，若存在，执行步骤280、根据声音数据进行声音识别，得到声音特征；若不存在，则放弃当前的采样数据，进行下次采样。

280、根据声音数据进行声音识别，得到声音特征。

290、将所述声音特征与声音数据库中的声音特征进行匹配。

其中，所述声音数据库依据当前播放视频预先构建，其中保存有当前播放视频中的发声源发出的声音的特征数据。

2100、确认是否获得匹配数据，若是，则执行步骤2110，否则，放弃当前的采样数据，进行下次采样。

其中，确认是否获得匹配数据的实质是判断所述声音数据库中是否存在与所述声音特征匹配的数据。

其中，所述声场控制信息具体为控制发声源在当前显示屏的位置处的扬声器发声的控制信息。

2110、根据发声源在当前显示屏的位置信息输出声场控制信息，以控制相应的声场发声。

通过对采样得到的视频数据进行图像识别，实现了确定所述视频数据中是否存在具有明显方向属性的发声源的目的，当存在发声源时，则进一步对视频数据进行声音特征识别，当具有与所述发声源匹配的声音特征时，则控制所述发声源在显示屏的位置处的喇叭发声，实现了声音与图像的同位，提高了视频的播放效果，给观看者带来较强的临场感体验。

实施例二

图3为本发明实施例二提供的一种实现声音与图像同位的方法流程示意图。在上述实施例的基础上，本实施例对所述发声源声音还原的实现过程进行了说明。具体参见图3所示，所述方法具体包括如下步骤：

310、对当前播放视频进行解码，分别得到当前播放视频对应的图像数据和声音数据。

320、基于所述图像数据调用图像识别接口进行图像识别，得到对应的图像特征，并基于所述声音数据调用声音识别接口进行声音识别，得到对应的声音特征。

330、基于所述图像特征判断所述当前播放视频是否存在发声源，若所述当前播放视频存在发声源，则继续执行步骤340，否则退出流程。

340、基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息。

350、基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源，若存在，则继续执行步骤360，否则结束流程。

360、根据所述发声源在当前视频显示屏的位置信息生成控制信号。

具体的，用于播放所述视频的电子设备的显示屏能够分区发声是本发明实施例提供的实现声音与图像同位的方法实现的基本前提，只有在显示屏相应位置处安装了发声元件才能实现具有临场感的声音效果。但是由于音源是具备区域大小属性的，因此不可能实现图像与声音的绝对同位。若采用虚拟声音算法将声音虚拟在显示屏上发声，则需要实时进行视频图像识别与声场虚拟应用，会占用较多的CPU(Central Processing Unit，中央处理单元)资源，为了节约系统资源同时又能体现声音与图像同位的效果，本实施例将所述显示屏预先划分为特定数量的分区，且为每个分区虚拟出独立的声场，具体通过为每个分区配置独立的扬声器实现为每个分区虚拟出独立的声场。参见图4所示的一种显示屏分区示意图，为了节约系统资源同时又能体现声像同位的效果，将65寸及以上的显示屏划分为面积相等的6个分区，分别对应6个虚拟声场，所述6个虚拟声场分别为声场1、声场2、声场3、声场4、声场5和声场6；每个虚拟声场由独立的扬声器实现，对应的6个扬声器分别安装在显示屏的左上、左中、左下、右上、右中和右下六个方位。声场1和声场2的两个扬声器通过第一功率放大器驱动来还原声场1和声场2两个声场的声音；声场3和声场4的两个扬声器通过第二功率放大器驱动来还原声场3和声场4两个声场的声音；声场5和声场6对应的两个扬声器通过第三功率放大器驱动来还原声场5和声场6两个声场的声音。

音源是指具备声音信息的视频信号，所述音源可通过对视频进行解码获取，从视频中解码出的音源，即声音数据进一步通过解码，可以从声音数据中分离出多个方向的声音数据，声音解码的方式有很多，例如ATMOS解码、DTS解码等，但只有采用ATMOS解码才能将双声道的声音解码成8声道的声音。本实施例中，主要取解码出来的6个方向的声音，即声场1、声场2、声场3、声场4、声场5和声场6六个方向的声音信号。由于这6个方向的声音信号都是调制在一个IIS信号中，因此，可以将上述第一功率放大器、第二功率放大器和第三功率放大器的驱动功能连接到同一个IIS信号进行解码。对音源进行解码并根据所述控制信号控制与所述位置信息对应的功率放大器工作以驱动对应的扬声器发声的流程示意图可参见图5所示，所述方法包括：

510、获取音源。

具体的，可以通过对视频进行解码获取其中的音源。

520、通过ATMOS芯片对所述音源解码，得到IIS音频信号530。

其中，所述ATMOS芯片配置在播放所述视频的电子设备中，所述IIS音频信号包含有对所述第一功率放大器、第二功率放大器和第三功率放大器进行控制的控制逻辑。

530、IIS音频信号。

540、将所述声场控制信息发送至所述IIS音频信号。

其中，所述声场控制信息为控制所述发声源在当前显示屏的位置处的声场发声的控制信息，具体是通过所述位置处的功率放大器驱动所述位置处的扬声器工作。

将所述声场控制信息发送至所述IIS音频信号的目的是将所述声场控制信息编码至所述IIS音频信号。IIS音频信号是一种数字信号，其内部调制了视频中各个方向的声音信号，而声场控制信息中包含有需要被触发的声场位置信息，IIS音频信号被还原成模拟信号时，需根据所述声场控制信息来选择还原IIS音频信号中哪个方向的声音，因此可将所述声场控制信息编码至所述IIS音频信号一起被还原为模型信号。

对视频中的声音进行还原的具体过程为：对所述IIS音频信号进行解码，获取与上述声场1、声场2、声场3、声场4、声场5和声场6，6个方向对应的声音，并利用解码得到声场控制信息控制与所述位置处的功率放大器工作以驱动对应的扬声器发声，从而实现还原所述位置处所在方向的声音。例如所述声场控制信息为触发声场3的控制信息，则在还原IIS音频信号时，就只还原声场3所在方向的声音信号，其它声场区不输送声音信号。

370、将所述声音数据通过ATMOS解码，得到IIS音频信号。

380、根据所述IIS音频信号以及所述控制信号控制与所述位置信息对应的功率放大器工作以驱动对应的扬声器发声。

例如，通过对当前播放视频进行图像识别，识别到当前播放视频中的发声源位于当前显示屏的声场3的区域，则控制声场3的扬声器发声，同时关闭其他声场的扬声器，只保留声场3的扬声器发声，呈现一种声音的位置与发出声音的人的位置基本一致，给观看者带来较强的临场感体验。

当视频中没有具有明显方向属性的发声源时，视频声音是通过上述6个声场的扬声器共同发声来呈现的，而如果突然进入具有明显方向属性的发声源的视频画面时，则需仅通过与所述发声源位置对应的扬声器来发声，会导致视频声音的幅度突然变化，给观看者带来不好的体验。因此，通过采用声音幅度动态调整技术，即通过专业音效算法，将声音幅度控制在一个设定的范围，当声音幅度低于设定下限时，则提升与所述发声源位置对应的扬声器的增益；当声音幅度超过设定上限时，则降低与所述发声源位置对应的扬声器的增益，从而实现任何时刻视频的音量都在设定范围内。

本实施例提供的一种实现声音与图像同位的方法，通过将用于播放视频的电子设备的显示屏预先划分为特定数量的分区，并为每个分区配置独立的扬声器，以为每个分区虚拟出独立的声场，实现了节约系统资源同时又能体现声音与图像同位的播放效果的目的。

实施例三

图6为本发明实施例三提供的一种实现声音与图像同位的装置的结构示意图；参见图6所示，所述装置包括：识别模块610、发声源判断模块620、获取模块630、音源判断模块640和控制模块650；

其中，识别模块610，用于对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征；发声源判断模块620，用于基于所述图像特征判断所述当前播放视频是否存在发声源；获取模块630，用于若所述当前播放视频存在发声源，则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息；音源判断模块640，用于基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源；控制模块650，用于若存在与所述发声源匹配的音源，则根据所述发声源在当前视频显示屏的位置信息生成控制信号，以控制与所述位置信息对应的声音还原元件发声；其中，所述预设图像特征数据库依据所述当前播放视频预先构建。

进一步的，识别模块610具体用于对当前播放视频进行解码，分别得到当前播放视频对应的图像数据和声音数据；基于所述图像数据调用图像识别接口进行图像识别，得到对应的图像特征，并基于所述声音数据调用声音识别接口进行声音识别，得到对应的声音特征。

进一步的，所述声音还原元件包括扬声器，所述声音还原元件依据所述当前视频显示屏幕预先划分的分区独立设置；

所述分区的数量依据显示屏幕的大小进行设定。

进一步的，控制模块650具体用于；将所述声音数据通过ATMOS解码，得到IIS音频信号；根据所述IIS音频信号以及所述控制信号控制与所述位置信息对应的功率放大器工作以驱动对应的扬声器发声。

进一步的，发声源判断模块620包括：

匹配单元，用于将所述图像特征与预设图像特征数据库中的图像特征进行相似度匹配；

确定单元，用于当匹配相似度达到设定阈值时，则确定所述当前播放视频存在发声源；

进一步的，音源判断模块640还用于；将所述声音特征与预先建立的模型发声源的模型特征进行比对；若存在与所述声音特征一致的模型特征且与所述模型特征对应的模型发声源与所述当前播放视频中存在的发声源相同，则确定所述当前播放视频存在与所述发声源匹配的音源。

本实施例提供的实现声音与图像同位的装置，通过图像识别以及声音识别识别当前播放视频中的发声源以及对应的声音特征，当当前播放视频存在具有明显方向属性的声音特征时，通过获取当前播放视频中的发声源在当前视频显示屏的位置信息，根据所述位置信息控制发声源处的声音还原元件发声，从而实现了声音与图像的同位，给人一种视频声音从对应的发声源处发出的感觉，提高了观看者的临场感、沉浸感。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的方法。

实施例四

图7为本发明实施例四提供的一种电子设备的结构示意图。如图7所示，该电子设备包括：处理器770、存储器771及存储在存储器771上并可在处理器770上运行的计算机程序；其中，处理器770的数量可以是一个或多个，图7中以一个处理器770为例；处理器770执行所述计算机程序时实现如上述实施例一和实施例二中所述的实现声音与图像同位的方法。如图7所示，所述电子设备还可以包括第一输入装置772和第一输出装置773。处理器770、存储器771、第一输入装置772和第一输出装置773可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器771作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中实现声音与图像同位的方法对应的程序指令/模块(例如，实现声音与图像同位的装置中的识别模块610、发声源判断模块620、获取模块630、音源判断模块640和控制模块650等)。处理器770通过运行存储在存储器771中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的实现声音与图像同位的方法。

存储器771可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器771可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器771可进一步包括相对于处理器770远程设置的存储器，这些远程存储器可以通过网络连接至电子设备/存储介质。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

第一输入装置772可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。第一输出装置773可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种实现声音与图像同位的方法，该方法包括：

基于所述图像特征判断所述当前播放视频是否存在发声源；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的实现声音与图像同位的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，存储介质，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种实现声音与图像同位的方法，其特征在于，所述方法包括：

基于所述图像特征判断所述当前播放视频是否存在发声源；

其中，所述预设图像特征数据库依据所述当前播放视频预先构建；

所述基于所述图像特征判断所述当前播放视频是否存在发声源，包括：

当匹配相似度达到设定阈值时，则确定所述当前播放视频存在发声源；其中，所述预设图像特征数据库中的图像特征包括人体形态特征和/或动物形态特征。

2.根据权利要求1所述的方法，其特征在于，所述对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述声音还原元件包括扬声器，所述声音还原元件依据所述当前视频显示屏预先划分的分区独立设置；

所述分区的数量依据显示屏的大小进行设定。

4.根据权利要求3所述的方法，其特征在于，所述根据所述发声源在当前视频显示屏的位置信息生成控制信号，以控制与所述位置信息对应的声音还原元件发声包括；

将所述声音数据通过ATMOS解码，得到IIS音频信号；

5.根据权利要求1所述的方法，其特征在于，所述基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源，包括：

6.根据权利要求1所述的方法，其特征在于，所述控制与所述位置信息对应的声音还原元件发声，包括：

7.一种实现声音与图像同位的装置，其特征在于，所述装置包括：

发声源判断模块包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6中任一所述的实现声音与图像同位的方法。

9.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-6中任一所述的实现声音与图像同位的方法。