CN114416014A

CN114416014A - 屏幕发声方法、装置、显示设备及计算机可读存储介质

Info

Publication number: CN114416014A
Application number: CN202210007324.2A
Authority: CN
Inventors: 张利红
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-29

Abstract

本发明公开了屏幕发声方法、装置、显示设备及计算机可读存储介质，所述屏幕发声方法包括：获取视频流信息对应当前播放的当前图像帧和当前音频信号，识别当前图像帧中的图像发声体，并将图像发声体对应的发声区域作为目标发声区域；控制目标发声区域对应的音频激励器，驱动目标发声区域振动产生当前音频信号对应的声音。本发明实现了视频播放的声音和画面保持空间位置的统一，提升了用户的视听体验。

Description

屏幕发声方法、装置、显示设备及计算机可读存储介质

技术领域

本发明涉及智能电子装置技术领域，尤其涉及一种屏幕发声方法、装置、显示设备及计算机可读存储介质。

背景技术

目前的电子显示类产品，如大尺寸液晶电视、带屏智能音箱等音频设备，在播放视频的时候，视频图像是通过显示屏呈现出来，而视频声音则是通过设置在音频设备其它位置的扬声器发声，由于视频声音与视频图像中的图像发声体不在同一个位置，声音和画面无法达到空间统一，给用户带来空间上的错位感，导致用户视听体验不佳。

发明内容

本发明的主要目的在于提供一种屏幕发声方法、装置、显示设备及计算机可读存储介质，旨在解决视频播放的声音和画面无法达到空间位置统一，而导致用户视听体验不佳的技术问题。

为实现上述目的，本发明提供一种屏幕发声方法，所述屏幕发声方法应用于显示设备，所述显示设备包括振动发声的屏幕，以及驱动所述屏幕发声的音频激励器，所述屏幕包括多个发声区域，不同的发声区域对应不同的音频激励器进行驱动发声，所述屏幕发声方法包括：

获取视频流信息对应当前播放的当前图像帧和当前音频信号，识别所述当前图像帧中的图像发声体，并将所述图像发声体对应的发声区域作为目标发声区域；

控制所述目标发声区域对应的音频激励器，驱动所述目标发声区域振动产生所述当前音频信号对应的声音。

可选地，所述获取视频流信息对应当前播放的当前图像帧和当前音频信号的步骤之前包括：

将视频流信息中对应预备播放的预播图像帧进行图像识别处理，得到所述预播图像帧中的图像发声体，并将所述预播图像帧中的图像发声体进行标识处理，得到发声体标签；

将标识处理后的所述预播图像帧，转换为视频流信息对应当前播放的当前图像帧；

所述识别所述当前图像帧中的图像发声体，并将所述图像发声体对应的发声区域作为目标发声区域的步骤包括：

识别所述当前图像帧中的发声体标签，将所述发声体标签对应的发声区域作为目标发声区域。

可选地，所述将所述发声体标签对应的发声区域作为目标发声区域的步骤包括：

获取所述发声体标签在屏幕坐标系中的坐标位置，基于预设的映射数据表，确定所述坐标位置映射的发声区域，其中，所述屏幕坐标系为在所述屏幕的显示区域所构建的坐标系；

将所述坐标位置映射的发声区域，作为目标发声区域。

可选地，所述将视频流信息中对应预备播放的预播图像帧进行图像识别处理，得到所述预播图像帧中的图像发声体的步骤包括：

将视频流信息中对应预备播放的预播图像帧进行图像识别处理，得到所述预播图像帧中的实际图像特征；

将所述实际图像特征与预设图像特征数据库中的参考图像特征进行相似度匹配，其中，所述参考图像特征为预先存储于预设图像特征数据库中的图像特征；

将匹配相似度达到预设匹配阈值的所述实际图像特征，作为所述预播图像帧中的图像发声体。

可选地，所述参考图像特征包括人体形态特征、动物形态特征和物体形态特征。

可选地，所述将所述图像发声体对应的发声区域作为目标发声区域的步骤之前包括：

基于当前图像帧中的图像发声体，确定当前图像帧的发声区域；

判断当前图像帧的发声区域与当前图像帧对应上一图像帧的发声区域是否相同；

若否，则执行：所述将所述图像发声体对应的发声区域作为目标发声区域的步骤。

可选地，所述控制所述目标发声区域对应的音频激励器，驱动所述目标发声区域振动产生所述当前音频信号对应的声音的步骤包括：

将所述图像发声体在所述目标发声区域中所处的网格分区，作为目标网格分区，其中，所述网格分区是对所述目标发声区域进行网格划分得到；

控制所述目标发声区域对应的音频激励器，驱动所述目标网格分区振动产生所述当前音频信号对应的声音。

本发明还提供一种屏幕发声装置，所述屏幕发声装置应用于显示设备，所述显示设备包括振动发声的屏幕，以及驱动所述屏幕发声的音频激励器，所述屏幕包括多个发声区域，不同的发声区域对应不同的音频激励器进行驱动发声，所述屏幕发声装置包括：

识别模块，用于获取视频流信息对应当前播放的当前图像帧和当前音频信号，识别所述当前图像帧中的图像发声体，并将所述图像发声体对应的发声区域作为目标发声区域；

驱动模块，用于控制所述目标发声区域对应的音频激励器，驱动所述目标发声区域振动产生所述当前音频信号对应的声音。

本发明还提供一种显示设备，所述显示设备为实体设备，所述显示设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述屏幕发声程序，所述屏幕发声程序被处理器执行时可实现如上述的屏幕发声方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有屏幕发声程序，所述屏幕发声程序被处理器执行时实现如上述的屏幕发声方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述的屏幕发声方法的步骤。

本发明通过获取视频流信息对应当前播放的当前图像帧和当前音频信号，识别该当前图像帧中的图像发声体，并将该图像发声体对应的发声区域作为目标发声区域，从而确定图像发声体在屏幕的目标发声区域，并通过控制目标发声区域对应的音频激励器，驱动目标发声区域振动产生当前音频信号对应的声音，从而使视频声音与视频图像中的图像发声体在同一个位置，进而使得视频播放的声音和画面保持空间位置的统一，实现“音画合一”的效果，营造更真实的立体声环境，提升用户的视听体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明屏幕发声方法第一实施例的流程示意图；

图2为本发明一实施例中2.0音频系统的显示界面的目标发声区域映射示意图；

图3为本发明一实施例中5.0音频系统的显示界面的目标发声区域映射示意图；

图4为本发明另一实施例中5.0音频系统的显示界面的目标发声区域映射示意图；

图5为本发明屏幕发声方法第二实施例的流程示意图；

图6为本发明一实施例中2.0音频系统的显示界面的目标网格分区映射示意图；

图7为本发明实施例中显示设备的模块结构示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

目前的电子显示类产品，由于视频声音与视频图像中的图像发声体不在同一个位置，声音和画面无法达到空间统一，给用户带来空间上的错位感，导致用户视听体验不佳。

基于此，本发明实施例提供一种屏幕发声方法，在本发明屏幕发声方法的第一实施例中，请参照图1，所述屏幕发声方法应用于显示设备，所述显示设备包括振动发声的屏幕，以及驱动所述屏幕发声的音频激励器，所述屏幕包括多个发声区域，不同的发声区域对应不同的音频激励器进行驱动发声，所述屏幕发声方法包括：

步骤S10，获取视频流信息对应当前播放的当前图像帧和当前音频信号，识别所述当前图像帧中的图像发声体，并将所述图像发声体对应的发声区域作为目标发声区域；

在本实施例中，振动发声的屏幕可为蜂窝仿生屏，通过控制蜂窝仿生屏中各单元的蜂窝结构的振动，既可以使屏幕显示图像，又可以实现全屏幕振动发声或者屏幕的局部区域振动发声。本领域技术人员可以理解的是，该音频激励器可为电磁驱动器，例如压电装置或者马达，将输入的音频信号转换成机械振动进行输出，以机械方式激励屏幕的发声介质面，使之振动发出音频信号对应的声音，从而使屏幕具备发声功能。

在本实施例中，可以理解的是，可通过对视频流信息解码，拆分得到视频流信息对应的多帧图像帧和音频信号。其中，当前播放的图像帧即为当前图像帧，当前播放的音频信号即为当前音频信号。需要说明的是，该图像发声体代表图像帧中的发声主体，例如，图像帧中的人物a正在说话，则此时图像发声体为人物a。

在本实施例中，可通过预先训练好的图像识别模型，对当前图像帧进行识别处理，识别出当前图像帧中的图像发声体。其中，该图像识别模型可为基于深度学习构建的识别模型，利用该图像识别模型对输入的各图像帧信息进行识别，识别出图像帧信息中的图像发声体。在一实施例中，当前图像帧为人物发声的图像帧，则识别出图像发声体为人物的嘴巴。在另一实施例中，当前图像帧为动物发声或拟人化发声物的图像帧，则识别出图像发声体为发声动物的嘴巴或拟人化发声物的发声位置。在又一实施例中，当前图像帧为乐器发声的图形帧，则识别出图像发声体为该乐器。

步骤S20，控制所述目标发声区域对应的音频激励器，驱动所述目标发声区域振动产生所述当前音频信号对应的声音。

在本实施例中，显示设备的不同发声区域由不同的音频激励器进行驱动发声，也就是说，发声区域与音频激励器具有一一对应的映射关系，并且发声区域与音频激励器的映射关系已预先存储于显示设备的存储器中，因此，本实施例在确定图像发声体在屏幕的目标发声区域后，可通过读取存储器中存储的映射关系，确定该目标发声区域对应的音频激励器，并通过目标发声区域对应的音频激励器，驱动该目标发声区域振动产生当前音频信号对应的声音。

本实施例通过获取视频流信息对应当前播放的当前图像帧和当前音频信号，识别该当前图像帧中的图像发声体，并将该图像发声体对应的发声区域作为目标发声区域，从而确定图像发声体在屏幕的目标发声区域，并通过控制目标发声区域对应的音频激励器，驱动目标发声区域振动产生当前音频信号对应的声音，从而使视频声音与视频图像中的图像发声体在同一个位置，进而使得视频播放的声音和画面保持空间位置的统一，实现“音画合一”的效果，营造更真实的立体声环境，提升用户的视听体验。

作为一种示例，以助于理解本申请。在一实施例中，显示设备的音频系统为2.0系统，即该显示设备包括左声道和右声道，也就是说，该显示设备的发声区域包括左声道发声区域和右声道发声道。例如，请参照图2，显示设备在播放视频时，将当前播放的视频进行解码，拆分成当前图像帧和当前音频信号，并通过预先训练好的图像识别模型，识别出当前图像帧中的图像发声体为钢琴，并根据该钢琴的位置，确定该钢琴位于左声道发声区域，因此本实施例通过控制左声道发声区域对应的音频激励器，驱动左声道发声区域，振动产生该当前音频信号对应的声音，从而使视频播放的声源位置和图像帧中的图像发声体位置精准匹配，实现“音画合一”的效果。

在另一实施例中，显示设备的音频系统为5.0系统，即该显示设备包括左主箱声道、右主箱声道、中置声道、左环绕声道和右环绕声道，也就是说，该显示设备的发声区域包括左主箱发声区域、右主箱发声区域、中置发声区域、左环绕发声区域和右环绕发声区域。例如，请参照图3，显示设备在播放视频时，将当前播放的视频进行解码，拆分成当前图像帧和当前音频信号，并通过预先训练好的图像识别模型，识别出当前图像帧中的图像发声体为钢琴，并根据该钢琴的位置，确定该钢琴位于左主箱发声区域和左环绕发声区域的中间交界位置，横跨左主箱发声区域和左环绕发声区域，因此本实施例通过控制左主箱发声区域对应的音频激励器，以及左环绕发声区域对应的音频激励器，驱动左主箱发声区域和左环绕发声区域同时振动，产生该当前音频信号对应的声音，从而使视频播放的声源位置和图像帧中的图像发声体位置达到空间位置的统一。又例如，请参照图4，显示设备在播放视频时，将当前播放的视频进行解码，拆分成当前图像帧和当前音频信号，并通过预先训练好的图像识别模型，识别出当前图像帧中的图像发声体为钢琴、小提器和穿汉服的女孩，并根据该钢琴、小提器和女孩的位置，确定钢琴位于左主箱发声区域、小提器位于右环绕发声区域，以及穿汉服的女孩位于右主箱发声区域，因此本实施例通过控制左主箱发声区域对应的音频激励器、右环绕发声区域对应的音频激励器，以及右主箱发声区域对应的音频激励器，驱动左主箱发声区域、右环绕发声区域和右主箱发声区域同时振动，产生该当前音频信号对应的声音，从而使视频播放的声源位置和图像帧中的图像发声体位置达到空间统一。需要说明的是，以上仅助于理解本申请，并不构成对本申请的限定。

本实施例基于屏幕发声多元激励技术，并根据视频流对应各图像帧中的图像发声体位置，动态变换不同的音频激励器，驱动屏幕的不同发声区域发声，模拟和还原声音空间位置，使音频播放的空间位置同视频画面中图像发声体的空间位置一致，实现“音画合一”的效果，提高用户的视听体验。

在一种可能的实施方式中，请参照图5，所述步骤S100，获取视频流信息对应当前播放的当前图像帧和当前音频信号的步骤之前包括：

步骤S30，将视频流信息中对应预备播放的预播图像帧进行图像识别处理，得到所述预播图像帧中的图像发声体，并将所述预播图像帧中的图像发声体进行标识处理，得到发声体标签；

在本实施例中，预播图像帧是指预备播放但还未播放的图像帧。需要说明的是，该发声体标签并不是在图像帧中标记出遮挡图像帧内容的实际标签，该发声体标签是一种标记图像发声体位置的虚拟标签，并不会显示于图像帧上，而导致遮挡图像帧内容，影响用户观看体验。

在本实施例中，可通过预先训练好的图像识别模型对预播图像帧进行识别，从而识别出预播图像帧中的图像发声体。

步骤S40，将标识处理后的所述预播图像帧，转换为视频流信息对应当前播放的当前图像帧；

所述步骤S100，获取视频流信息对应当前播放的当前图像帧和当前音频信号，识别所述当前图像帧中的图像发声体，并将所述图像发声体对应的发声区域作为目标发声区域的步骤包括：

步骤S11，获取视频流信息对应当前播放的当前图像帧和当前音频信号；

步骤S12，识别所述当前图像帧中的发声体标签，将所述发声体标签对应的发声区域作为目标发声区域。

本实施例通过将屏幕发声多元激励技术、图像识别技术，以及给视频图像帧标记声音位置标签的图像标识技术相结合，实现声音与图像的同位置呈现，提高视频的播放效果，营造更逼真的视听环境。

值得一提的是，本实施例通过在前置视频预处理阶段，将视频流信息中对应预备播放的预播图像帧进行图像识别处理，得到预播图像帧中的图像发声体，并将预播图像帧中的图像发声体进行标识处理，得到发声体标签，再将标识处理后的所述预播图像帧，转换为视频流信息对应当前播放的当前图像帧，从而使得在显示设备播放图像帧之前，预先对图像帧进行图像预处理，识别图像帧中的图像发声体，并通过对该图像发声体进行标识处理，得到打标签的图像帧，进而便于在后置视频播放阶段，能根据图像帧中发声体标签在显示界面的位置，确定图像发声主体对应的发声区域，将发声体标签对应的发声区域作为目标发声区域，使得无需在后置视频播放阶段还需要临时对当前图像帧进行图像识别处理，识别出当前图像帧中的图像发声体，从而降低了后置视频播放阶段的运行负载。本实施例通过在后置视频播放阶段之前的前置视频预处理阶段，预先对预播图像帧进行图像处理，并将预播图像帧中的图像发声体进行标识处理，得到标识有发声体标签的图像帧，从而便于在后置视频播放阶段直接可通过识别图像帧中发声体标签的位置，确定图像发声主体的位置，而无需进行算法复杂度高的图像识别处理，进而降低了后置视频播放阶段的运行负载，降低了播放时延，提高了播放流畅度。

在一种可实施的方式中，在所述步骤S12中，将所述发声体标签对应的发声区域作为目标发声区域的步骤包括：

步骤A10，获取所述发声体标签在屏幕坐标系中的坐标位置，基于预设的映射数据表，确定所述坐标位置映射的发声区域；

在本实施例中，需要说明的是，所述屏幕坐标系为在所述屏幕的显示区域所构建的坐标系。在一实施例中，该屏幕坐标系是以显示区域的中心为原点，而建立的坐标系。另外，该映射数据表是指具有坐标位置与发声区域相互映射关系的数据表。

步骤A20，将所述坐标位置映射的发声区域，作为目标发声区域。

本实施例通过获取发声体标签在屏幕坐标系中的坐标位置，基于预设的映射数据表，确定坐标位置映射的发声区域，并将该坐标位置映射的发声区域，作为目标发声区域，从而将发声体标签的位置与发声区域建立映射匹配，使得能更快速、准确地确定出发声体标签所处的发声区域，进而实现更快速、准确地确定图像发声体所处的发声区域，提升本实施例屏幕发声方法的鲁棒性。

在一种可实施的方式中，在所述步骤S30中，所述将视频流信息中对应预备播放的预播图像帧进行图像识别处理，得到所述预播图像帧中的图像发声体的步骤包括：

步骤B10，将视频流信息中对应预备播放的预播图像帧进行图像识别处理，得到所述预播图像帧中的实际图像特征；

在本实施例中，该实际图像特征是指从图像帧中识别出的图像特征。其中，该实际图像特征具体可包括人物、动物或者其他的物体、物品等特征，该物体例如可以是木凳、木桌或乐器等，该物品例如可以是碗、杯子或者茶壶等。

在本实施例中，可通过预先训练好的图像识别模型，对该预播图像帧进行图像识别处理，识别出预播图像帧中的实际图像特征。

步骤B20，将所述实际图像特征与预设图像特征数据库中的参考图像特征进行相似度匹配；

需要说明的是，所述参考图像特征为预先存储于预设图像特征数据库中的图像特征。

示例性地，所述参考图像特征包括人体形态特征、动物形态特征和物体形态特征。所述人体形态特征具体可以指人发出声音时的口型姿态，所述动物形态特征具体可以指动物发出声音时的口型姿态，该物体形态特征具体可以指物体或物品发出声音时的姿态，例如物体之间的敲打、摩擦姿态，物品被打碎时的姿态，又例如物品为乐器，并且人与该乐器的结合度非常紧密时的姿态(当人与该乐器的结合度较紧密时，可判定乐器为图像发声体)。该参考图像特征的实质是视频流信息中存在的图像发声体。该预设图像特征数据库中的参考图像特征可基于人工智能技术，通过自主学习功能对需要播放的视频流信息进行预先学习得到。

步骤B30，将匹配相似度达到预设匹配阈值的所述实际图像特征，作为所述预播图像帧中的图像发声体。

在本实施例中，该预设匹配阈值，本领域技术人员可根据实际需要进行设置，以更好的识别出预播图像帧的实际图像特征是否为图像发声体为准。

本实施例通过将视频流信息中对应预备播放的预播图像帧进行图像识别处理，得到该预播图像帧中的实际图像特征，并将该实际图像特征与预设图像特征数据库中的参考图像特征进行相似度匹配，然后再将匹配相似度达到预设匹配阈值的所述实际图像特征，作为所述预播图像帧中的图像发声体，从而准确的识别出预播图像帧中的图像发声体，进而提高了后续将屏幕发声的声源位置和图像帧中图像发声体位置进行一致性匹配的准确性，进一步提升了本实施例屏幕发声方法的鲁棒性。

实施例二

进一步地，基于本发明第一实施例和第二实施例，在本发明另一实施例中，与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。在此基础上，在所述步骤S10中，所述将所述图像发声体对应的发声区域作为目标发声区域的步骤之前包括：

步骤C10，基于当前图像帧中的图像发声体，确定当前图像帧的发声区域；

步骤C20，判断当前图像帧的发声区域与当前图像帧对应上一图像帧的发声区域是否相同；

步骤C30，若否，则执行：所述将所述图像发声体对应的发声区域作为目标发声区域的步骤。

在本实施例中，若当前图像帧的发声区域与当前图像帧对应上一图像帧的发声区域相同，则说明视频流信息中的图像发声体没有产生移动，在屏幕中当前次的目标发声区域与上一次确定的目标发声区域相同，此时可以不执行所述将图像发声体对应的发声区域作为目标发声区域的步骤，也就是说，不需要更改目标发声区域的相应参数，直接驱动前一次确定的目标发声区域进行发声，从而避免对每一图像帧对应目标发声区域的相应参数进行重新设置，即使当前图像帧与上一图像帧的目标发声区域的相应参数未作改变，进而降低了显示设备的运行负载。

本实施例通过基于当前图像帧中的图像发声体，确定当前图像帧的发声区域，并判断当前图像帧的发声区域与当前图像帧对应上一图像帧的发声区域是否相同，若否，则执行：所述将所述图像发声体对应的发声区域作为目标发声区域的步骤，从而判定出当前次确定的目标发声区域与前一次确定的目标发声区域是否相同，若是，则仍然以前一次确定的目标发声区域进行振动发声，不需要更改目标发声区域的相应参数，可以直接驱动前一次确定的目标发声区域进行发声，若否，则才根据当前确定的目标发声区域进行驱动发声，从而避免目标发声区域的相应参数在未作改变的情况下，还对目标发声区域的相应参数进行重新设置，进而降低了显示设备的运行负载。

实施例三

进一步地，基于本发明第一实施例，在本发明另一实施例中，与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。在此基础上，所述步骤S20，控制所述目标发声区域对应的音频激励器，驱动所述目标发声区域振动产生所述当前音频信号对应的声音的步骤包括：

步骤D10，将所述图像发声体在所述目标发声区域中所处的网格分区，作为目标网格分区；

需要说明的是，其中，所述网格分区是对所述目标发声区域进行网格划分得到

步骤D20，控制所述目标发声区域对应的音频激励器，驱动所述目标网格分区振动产生所述当前音频信号对应的声音。

为助于理解本实施例，列举一具体实施例，请参照图6。该显示设备的音频系统为2.0系统，即显示设备的发声区域包括左声道发声区域和右声道发声区域。显示设备在播放视频时，识别出当前图像帧中的图像发声体为钢琴和小提器，并根据该钢琴和小提器的位置，确定钢琴位于左声道发声区域中位置范围1所在的网格分区，小提器位于右声道发声区域中位置范围2所在的网格分区，将位置范围1和位置范围2两者所在的网格分区，作为目标网格分区，并通过控制左声道发声区域对应的音频激励器，以及右声道发声区域对应的音频激励器，驱动两个目标网格分区，同时振动产生该当前音频信号对应的声音，从而提高实际播放声源位置和图像帧中的图像发声体位置的位置一致性。需要说明的是，该具体实施例，仅助于理解本申请，并不构成对本申请的限定。

本实施例通过将所述图像发声体在所述目标发声区域中所处的网格分区，作为目标网格分区，并控制所述目标发声区域对应的音频激励器，驱动所述目标网格分区振动产生所述当前音频信号对应的声音，从而进一步提高了将屏幕发声的声源位置和图像帧中图像发声体位置进行一致性匹配的准确性，营造出更真实的立体声环境。

实施例四

本发明实施例还提供一种屏幕发声装置，所述屏幕发声装置应用于显示设备，所述显示设备包括振动发声的屏幕，以及驱动所述屏幕发声的音频激励器，所述屏幕包括多个发声区域，不同的发声区域对应不同的音频激励器进行驱动发声，所述屏幕发声装置包括：

可选地，所述识别模块还用于：

获取视频流信息对应当前播放的当前图像帧和当前音频信号，识别所述当前图像帧中的发声体标签，将所述发声体标签对应的发声区域作为目标发声区域。

可选地，所述识别模块还用于：

将所述坐标位置映射的发声区域，作为目标发声区域。

可选地，所述识别模块还用于：

所述参考图像特征包括人体形态特征、动物形态特征和物体形态特征。

可选地，所述识别模块还用于：

可选地，所述驱动模块还用于：

本发明提供的屏幕发声装置，采用上述实施例一、实施例二或实施例三中的屏幕发声方法，解决了视频播放的声音和画面无法达到空间位置统一，而导致用户视听体验不佳的技术问题。与现有技术相比，本发明实施例提供的屏幕发声装置的有益效果与上述实施例提供的屏幕发声方法的有益效果相同，且该屏幕发声装置中的其他技术特征与上一实施例方法公开的特征相同，在此不做赘述。

实施例五

本发明实施例提供一种显示设备，显示设备包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施例一中的屏幕发声方法。

请参照图7，图7为本发明各个实施例中所提供的显示设备的模块结构示意图。所述显示设备包括通信模块01、存储器02及处理器03等部件。本领域技术人员可以理解，图7中所示出的显示设备还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中，所述处理器03分别与所述存储器02和所述通信模块01连接，所述存储器02上存储有屏幕发声程序，所述屏幕发声程序同时被处理器03执行。

通信模块01，可通过网络与外部设备连接。通信模块01可以接收外部设备发出的数据，还可发送数据、指令及信息至所述外部设备，所述外部设备可以是数据管理终端、手机、平板电脑、笔记本电脑和台式电脑等电子设备。

存储器02，可用于存储软件程序以及各种数据。存储器02可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储被控显示设备的运行情况和行驶环境以及信号机的相位变化所创建的数据或信息等。此外，存储器02可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器03，是显示设备的控制中心，利用各种接口和线路连接整个显示设备的各个部分，通过运行或执行存储在存储器02内的软件程序和/或模块，以及调用存储在存储器02内的数据，执行显示设备的各种功能和处理数据。处理器03可包括一个或多个处理单元；优选的，处理器03可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器03中。

本领域技术人员可以理解，图7中示出的显示设备模块结构并不构成对显示设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

根据上述模块结构，提出本发明方法各个实施例。

实施例六

本实施例提供一种计算机存储介质，具有存储在其上的计算机可读程序指令，计算机可读程序指令用于执行上述实施例中屏幕发声方法。

本发明实施例提供的计算机存储介质例如可以是U盘，但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。计算机存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机存储介质可以是设备中所包含的；也可以是单独存在，而未装配入设备中。

上述计算机存储介质承载有一个或者多个程序，当上述一个或者多个程序被设备执行时，使得设备：获取视频流信息对应当前播放的当前图像帧和当前音频信号，识别所述当前图像帧中的图像发声体，并将所述图像发声体对应的发声区域作为目标发声区域；控制所述目标发声区域对应的音频激励器，驱动所述目标发声区域振动产生所述当前音频信号对应的声音。其中，所述设备包括振动发声的屏幕，以及驱动所述屏幕发声的音频激励器，所述屏幕包括多个发声区域，不同的发声区域对应不同的音频激励器进行驱动发声。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该单元本身的限定。

本发明提供的计算机存储介质，存储有用于执行上述屏幕发声方法的计算机可读程序指令，解决了视频播放的声音和画面无法达到空间位置统一，而导致用户视听体验不佳的技术问题。与现有技术相比，本发明实施例提供的计算机存储介质的有益效果与上述实施例一、实施例二或实施例三提供的屏幕发声方法的有益效果相同，在此不做赘述。

实施例七

本发明提供的计算机程序产品解决了视频播放的声音和画面无法达到空间位置统一，而导致用户视听体验不佳的技术问题。与现有技术相比，本发明实施例提供的计算机程序产品的有益效果与上述实施例一或实施例二提供的屏幕发声方法的有益效果相同，在此不做赘述。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利处理范围内。

Claims

1.一种屏幕发声方法，其特征在于，所述屏幕发声方法应用于显示设备，所述显示设备包括振动发声的屏幕，以及驱动所述屏幕发声的音频激励器，所述屏幕包括多个发声区域，不同的发声区域对应不同的音频激励器进行驱动发声，所述屏幕发声方法包括：

2.如权利要求1所述的屏幕发声方法，其特征在于，所述获取视频流信息对应当前播放的当前图像帧和当前音频信号的步骤之前包括：

3.如权利要求2所述的屏幕发声方法，其特征在于，所述将所述发声体标签对应的发声区域作为目标发声区域的步骤包括：

将所述坐标位置映射的发声区域，作为目标发声区域。

4.如权利要求2所述的屏幕发声方法，其特征在于，所述将视频流信息中对应预备播放的预播图像帧进行图像识别处理，得到所述预播图像帧中的图像发声体的步骤包括：

5.如权利要求4所述的屏幕发声方法，其特征在于，所述参考图像特征包括人体形态特征、动物形态特征和物体形态特征。

6.如权利要求1所述的屏幕发声方法，其特征在于，所述将所述图像发声体对应的发声区域作为目标发声区域的步骤之前包括：

7.如权利要求1所述的屏幕发声方法，其特征在于，所述控制所述目标发声区域对应的音频激励器，驱动所述目标发声区域振动产生所述当前音频信号对应的声音的步骤包括：

8.一种屏幕发声装置，其特征在于，所述屏幕发声装置应用于显示设备，所述显示设备包括振动发声的屏幕，以及驱动所述屏幕发声的音频激励器，所述屏幕包括多个发声区域，不同的发声区域对应不同的音频激励器进行驱动发声，所述屏幕发声装置包括：

9.一种显示设备，其特征在于，所述显示设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述屏幕发声方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有屏幕发声程序，所述屏幕发声程序被处理器执行以实现如权利要求1至7中任一项所述屏幕发声方法的步骤。