CN112929739A - 发声控制方法、装置、电子设备和存储介质 - Google Patents

发声控制方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112929739A
CN112929739A CN202110107660.XA CN202110107660A CN112929739A CN 112929739 A CN112929739 A CN 112929739A CN 202110107660 A CN202110107660 A CN 202110107660A CN 112929739 A CN112929739 A CN 112929739A
Authority
CN
China
Prior art keywords
sound
target
unit
distance
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110107660.XA
Other languages
English (en)
Inventor
吴华平
刘国红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110107660.XA priority Critical patent/CN112929739A/zh
Publication of CN112929739A publication Critical patent/CN112929739A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Stereophonic System (AREA)

Abstract

本申请公开了一种发声控制方法、装置、电子设备和存储介质,属于电子设备技术领域。该方法应用于电子设备,电子设备包括至少两个发声单元,该方法包括:在显示视频画面的情况下,获取视频画面中的目标对象与每个发声单元的距离;从至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元;驱动目标发声单元发声。根据本申请实施例,可以提高声音的立体感,优化用户听觉体验。

Description

发声控制方法、装置、电子设备和存储介质
技术领域
本申请属于电子设备技术领域,具体涉及一种发声控制方法、装置、电子设备和存储介质。
背景技术
随着对于使用体验的追求,用户在使用电子设备播放视频时,往往希望获得较好的听觉体验。但是由于电子设备的发声单元的位置和方向是固定的,在视频播放过程中,声音的立体感通常不强,容易造成用户的听觉体验较差。
发明内容
本申请实施例的目的是提供一种发声控制方法、装置、电子设备和存储介质,能够提高声音的立体感,优化用户听觉体验。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种发声控制方法,该方法应用于电子设备,电子设备包括至少两个发声单元,该方法包括:
在显示视频画面的情况下,获取视频画面中的目标对象与每个发声单元的距离;
从至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元;
驱动目标发声单元发声。
第二方面,本申请实施例提供了一种发声控制装置,该装置应用于电子设备,电子设备包括至少两个发声单元,该装置包括:
获取模块,用于在显示视频画面的情况下,获取视频画面中的目标对象与每个发声单元的距离;
确定模块,用于从至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元;
驱动模块,用于驱动目标发声单元发声。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面的方法。
在本申请实施例中,在显示视频画面的情况下,电子设备获取视频画面中的目标对象与每个发声单元的距离,从电子设备的至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元,驱动目标发声单元发声。如此可以在视频播放过程中,根据视频画面中的目标对象与发声单元的距离从至少两个发声单元中确定目标发声单元,从而驱动目标发声单元发声,提高声音的立体感,优化用户听觉体验。
附图说明
图1是本申请实施例提供的一种电子设备的俯视图;
图2是本申请实施例提供的一种电子设备的侧剖面图;
图3是本申请实施例的提供的一种电子设备的结构示意图;
图4是本申请实施例提供的一种发声控制方法的流程示意图;
图5是本申请实施例的提供的一种发声控制场景示意图;
图6是本申请实施例的提供的另一种发声控制场景示意图;
图7是本申请实施例的提供的另一种发声控制场景示意图;
图8是本申请实施例的提供的另一种发声控制场景示意图;
图9是本申请实施例提供的一种发声控制装置的结构示意图;
图10是本申请实施例的提供的另一种电子设备的结构示意图;
图11是本申请实施例的提供的另一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
针对相关技术中出现的问题,本申请实施例提供了一种发声控制方法、装置、电子设备和存储介质。在显示视频画面的情况下,电子设备获取视频画面中的目标对象与每个发声单元的距离,从电子设备的至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元,驱动目标发声单元发声。如此可以在视频播放过程中,根据视频画面中的目标对象与发声单元的距离从至少两个发声单元中确定目标发声单元,从而驱动目标发声单元发声,提高声音的立体感,优化用户听觉体验。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的发声控制方法、装置、电子设备和存储介质进行详细地说明。
作为一个示例,本申请实施例提供的发声控制方法可以应用于电影播放、直播播放或者视频通话等视频播放场景,能够提高视频播放时的声音立体感,优化用户听觉体验。
图1是本申请实施例提供的一种电子设备的俯视图、图2是本申请实施例提供的一种电子设备的侧剖面图,如图1、图2所示,电子设备包括两个发声单元,分别为发声单元1、发声单元2,可选地,电子设备可以包括两个以上的发声单元。
其中,电子设备可以为移动电子设备,也可以为非移动电子设备,例如移动电子设备可以为手机、平板电脑或者笔记本电脑等,非移动电子设备可以为服务器、个人计算机(Personal Computer,PC)或者电视机(Television,TV)等。发声单元可以设置在电子设备的屏幕下面,发声单元的位置分别是发声单元对应于屏幕的坐标。如图1所示,发声单元1、发声单元2的位置分别是发声单元1、发声单元2的中心对应于屏幕的位置坐标,分别是(x1,y1)、(x2,y2)。可选地,发声单元可以是激励器、喇叭、受话器或者蜂鸣器等发声器件。以激励器作为发声单元为例,激励器与屏幕紧密贴合,可以驱动屏幕振动发声。激励器可以根据应用场景不同,可以同时复用成喇叭和受话器发声的功能,不同场景驱动的激励器发声的功率不同,用于喇叭外放功能时,使用相对较高功率等级驱动激励器发声,用于受话器功能接听电话时,使用相对较低功率等级驱动激励器发声。
图3是本申请实施例提供的一种电子设备的结构示意图,如图3所示,电子设备包括控制模块、音频编解码模块、驱动模块、发声单元1和发声单元2。其中,控制模块分别与音频编解码模块和驱动模块连接,音频编解码模块与驱动模块连接,驱动模块分别与发声单元1、发声单元2连接。具体地,参见图3,控制模块可以通过通信控制接口和音频接口与音频编解码模块连接,音频编解码模块通过通信控制接口和音频接口与驱动模块连接,控制模块通过通信控制接口与驱动模块连接。可选地,通信控制接口可以为通用输入/输出(General-Purpose Input/Output,GPIO)接口、通用异步收发传输器(UniversalAsynchronous Receiver/Transmitter,UART)接口、集成电路总线(Inter-IntegratedCircuit,I2C)接口或者串行外设接口(Serial Peripheral Interface,SPI)接口等,用于传输控制信号;音频接口可以为集成电路内置音频总线(Inter—IC Sound,I2S)接口或者脉冲编码调制(Pulse Code Modulation,PCM)接口等,用于传输音频信号。其中,控制模块可以用于控制驱动模块选择驱动不同的发声单元进行发声。可选地,控制模块可以用于直接控制驱动模块选择驱动不同的发声单元进行发声,也可以用于通过音频编解码模块间接控制驱动模块选择驱动不同的发声单元进行发声。
作为一个示例,如图1、图2和图3所示,在显示视频画面的情况下,电子设备可以获取视频画面中的目标对象与发声单元1、发声单元2的距离。具体地,可以获取视频画面中的目标对象的第一位置,即目标对象对应于屏幕的位置坐标,根据目标对象的第一位置与发声单元1、发声单元2的位置,计算目标对象与发声单元1、发声单元2的距离。然后从发声单元1、发声单元2中确定距离满足预设距离条件的发声单元为目标发声单元,并驱动目标发声单元发声。具体地,可以由电子设备的控制模块控制驱动模块驱动目标发声单元进行发声。如此可以提高视频播放时声音的立体感,优化用户听觉体验。
图4是本申请实施例提供的一种发声控制方法的流程示意图,如图4所示,该发声控制方法应用于电子设备,可以包括以下步骤:
S410,在显示视频画面的情况下,获取视频画面中的目标对象与每个发声单元的距离。
具体地,用户可以在电子设备上播放视频,例如播放直播、播放电影、视频通话等等。在显示视频画面的情况下,电子设备可以获取当前视频画面中目标对象与每个发声单元的距离。
在一个实施例中,电子设备可以先获取当前视频画面中目标对象的第一位置。其中,目标对象可以是视频画面中发声的对象,例如敲击钉子的锤子,说话的人物等等,第一位置是目标对象对应于屏幕的位置坐标。然后根据目标对象的第一位置与每个发声单元的第二位置,计算目标对象与每个发声单元的距离。其中,第二位置是发声单元对应于屏幕的位置坐标,可以根据电子设备的实际堆叠图中的具体设计尺寸参数获取。
作为一个示例,电子设备可以将第一位置与第二位置输入距离计算公式,计算目标对象与发声单元的距离。其中,距离计算公式可以如下所示:
Figure BDA0002918120450000061
其中,(X1、X2)表示发声单元的位置坐标,(Y1、Y2)表示目标对象的位置坐标,L表示目标对象与发声单元的距离。
S420,从至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元。
其中,目标发声单元是选中的用于发声的发声单元。可选地,电子设备可以从至少两个发声单元中确定距离目标对象距离最小的发声单元为目标发声单元,如此可以选择距离目标对象最近的发声单元用于发声,能够在发声时实现立体发声效果。
此外,电子设备也可以从至少两个发声单元中确定距离小于预设距离阈值的发声单元为目标发声单元。如此可以选择距离目标对象较近的发声单元用于发声,能够在发声时实现立体发声效果。
例如,电子设备存在4个发声单元,分别为发声单元1、发声单元2、发声单元3、发声单元4。此时,视频画面中显示目标对象1,经过计算得到目标对象1与发声单元1、发声单元2、发声单元3、发声单元4的距离分别为L1、L2、L3、L4。其中,L1<L2<L3<L4,L1<L2<L0,L0是预设距离阈值,则可以确定距离目标对象1最近的发声单元1为目标发声单元。此外,也可以确定L1和L2为目标发声单元。
S430,驱动目标发声单元发声。
具体地,驱动目标发声单元发出视频画面对应的声音。
在本申请实施例中,电子设备可以获取视频画面中的目标对象与每个发声单元的距离,从电子设备的至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元,驱动目标发声单元发声。如此可以在视频播放过程中,根据视频画面中的目标对象与发声单元的距离从至少两个发声单元中动态地确定目标发声单元,从而驱动目标发声单元发声,提高声音的立体感,优化用户听觉体验。
在一个实施例中,在驱动目标发声单元发声之后,电子设备还可以获取视频画面的场景信息。场景信息可以包括环境信息例如流水、大风、雷电等等。然后驱动至少一个发声单元中除目标发声单元之外的发声单元发出场景信息对应的声音,例如流水声、风声、雷电声。可选地,场景信息还可以包括目标对象的动作信息。如此可以配合画面发出对应的声音,增加声音真实感。
示例性地,电子设备的控制模块可以根据场景信息控制驱动电路间隙性调节驱动模块的驱动电压和频率,使目标发声单元之外的发声单元配合视频画面发出一定的振动反馈或者低频的声音,例如敲击、碰撞、水滴等振动或者声音。
在一个实施例中,目标对象可以包括运动的对象,例如运动的人物、动物或者物体等等。在驱动目标发声单元发声之后,电子设备还可以获取视频画面中的目标对象的移动距离,以及目标对象的移动方向。具体地,电子设备可以获取视频画面中的目标对象的第三位置,根据第一位置与第三位置,确定目标对象的移动距离,以及目标对象的移动方向。在移动距离大于或等于预设距离阈值时,停止驱动目标发声单元,并驱动移动方向指向的至少一个发声单元中除目标发声单元之外的发声单元发声。如此可以通过目标对象的移动,切换不同位置的发声单元进行发声,给用户带来更加真实的声音体验。
此外,也可以在移动距离大于或等于预设距离阈值时,逐步减小目标发声单元的音量,直至音量为零,并驱动移动方向指向的至少一个发声单元中除目标发声单元之外的发声单元发声,逐步增加音量至预设值。如此可以使视频播放时的声音更加连续、平滑,进一步增强声音立体感。
示例性地,如图5所示,目标对象在位置1时距离发声单元1最近,此时,电子设备驱动发声单元1发声,当目标对象从位置1移动至位置2时,可以根据位置1和位置2计算出目标对象的移动距离和移动方向。如图5所示,移动方向指向发声单元2。可以在移动距离大于或等于预设距离阈值时,停止驱动发声单元1发声,并驱动发声单元2发声。也可以在移动距离大于或等于预设距离阈值时,逐步减小发声单元1的音量,直至音量为零,停止驱动发声单元1,并驱动发声单元2发声,逐步增加音量至预设值。其中,预设距离阈值可以是屏幕长度或宽度的1/3、1/2或者2/3等等,在此不做限制。调节音量的步进可以与移动距离成一定线性关系。
在一个实施例中,目标对象可以包括目标人物。在获取视频画面中的目标对象与每个发声单元的距离之前,电子设备还可以在显示视频画面的情况下,获取视频画面中至少一个人物和每个人物的属性信息。具体地,可以通过目标检测算法例如人脸识别算法或肢体检测算法,获取视频画面中至少一个人物和每个人物的属性信息。可知,通常说话的人物会有嘴部张合动作、肢体动作例如手势动作,而且说话的人物会清晰凸显,不说话的人物会进行模糊处理,也就是说,说话的人物的人脸清晰度较高、人脸图像较大。因此,属性信息可以包括人物的嘴部信息、肢体信息、人脸清晰度信息、人脸大小信息中至少一项。进而根据每个人物的属性信息,从至少一个人物中确定发声的人物为目标人物。如此可以精确地确定发声的人物作为目标人物。
可选地,可以确定目标人物的脸部中心位置或者嘴部中心位置为第一位置,则目标人物与发声单元的距离可以是目标人物的脸部或者嘴部与发声单元的距离。
作为一个示例,如图6所示,当视频画面出现1个人时,电子设备可以识别人物,获取人物的嘴部信息,例如嘴部的张开或闭合。根据嘴部信息确定人物是否发声,若发声则为目标人物。然后根据目标人物的嘴部的张合动作确定嘴部对应于屏幕的区域范围。参见图6,根据该范围确定嘴部中心对应于屏幕的位置坐标为(x3、y3)。根据发声单元1中心对应于屏幕的位置坐标(x1、y1)、发声单元2中心对应于屏幕的位置坐标(x2、y2)、嘴部中心对应于屏幕的位置坐标(x3、y3)以及距离公式(1),可以计算出目标人物的嘴部与发声单元1、发声单元2的距离。如图6所示,目标人物的嘴巴距离发声单元2最近,从而可以驱动发声单元2发声。如果视频画面中检测到人物,但是嘴部没有任何动作,例如人物背对着或者斜侧对着镜头,可以驱动发声单元1和发声单元2同时发声。如果视频画面中未检测到人物,可以驱动发声单元1和发声单元2同时发声。
作为另一个示例,如图7所示,当视频画面出现至少2个人物时,电子设备可以识别至少2个人物,获取每个人物的嘴部信息。根据嘴部信息确定发声的人物则为目标人物。然后根据目标人物的嘴部的张合动作确定嘴部对应于屏幕的区域范围。参见图7,根据该范围确定嘴部中心对应于屏幕的位置坐标为(x4、y4)。根据发声单元1中心对应于屏幕的位置坐标(x1、y1)、发声单元2中心对应于屏幕的位置坐标(x2、y2)、嘴部中心对应于屏幕的位置坐标(x4、y4)以及距离公式(1),可以计算出目标人物的嘴部与发声单元1、发声单元2的距离。如图7所示,目标人物的嘴巴距离发声单元1最近,从而可以驱动发声单元1发声。可选地,如果目标人物有至少两个,可以驱动发声单元1和发声单元2同时发声。
在一个实施例中,目标对象可以包括目标物体,即发声的物体,换句话说是运动的物体。如图8所示,当视频画面出现运动的物体时,电子设备可以检测运动物体的运动区域,获取运动区域中心对应于屏幕的位置坐标(x5、y5),根据发声单元1中心对应于屏幕的位置坐标(x1、y1)、发声单元2中心对应于屏幕的位置坐标(x2、y2)、运动区域中心对应于屏幕的位置坐标(x5、y5)以及距离公式(1),可以计算出目标物体与发声单元1、发声单元2的距离。如图8所示,目标物体距离发声单元1最近,从而可以驱动发声单元1发声。
需要说明的是,本申请实施例提供的发声控制方法,执行主体可以为应用于电子设备的发声控制装置,或者该发声控制装置中用于执行发声控制方法的控制模块;本申请实施例中以应用于电子设备的发声控制装置执行发声控制方法为例,说明本申请实施例提供的应用于电子设备的发声控制装置。
图9是本申请实施例提供的一种发声控制装置的结构示意图,如图9所示,发声控制装置900应用于电子设备,电子设备包括至少两个发声单元,发声控制装置900包括:
获取模块910,用于在显示视频画面的情况下,获取视频画面中的目标对象与每个发声单元的距离。
确定模块920,用于从至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元。
驱动模块930,用于驱动目标发声单元发声。
在本申请实施例中,电子设备可以获取视频画面中的目标对象与每个发声单元的距离,从电子设备的至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元,驱动目标发声单元发声。如此可以在视频播放过程中,根据视频画面中的目标对象与发声单元的距离从至少两个发声单元中动态地确定目标发声单元,从而驱动目标发声单元发声,提高声音的立体感,优化用户听觉体验。
在一个实施例中,确定模块920具体用于:从至少两个发声单元中确定距离目标对象距离最小的发声单元为目标发声单元。如此可以选择距离目标对象最近的发声单元用于发声,能够在发声时实现立体发声效果。
在一个实施例中,在驱动目标发声单元发声之后,获取模块910,还用于获取视频画面的场景信息。
驱动模块930,还用于驱动至少一个发声单元中除目标发声单元之外的发声单元发出场景信息对应的声音。如此可以配合画面发出对应的声音,增加声音真实感。
在一个实施例中,目标对象包括运动的对象,在驱动目标发声单元发声之后,获取模块910,还用于获取视频画面中的目标对象的移动距离,以及目标对象的移动方向。
驱动模块930,还用于在移动距离大于或等于预设距离阈值时,停止驱动目标发声单元,并驱动移动方向指向的至少一个发声单元中除目标发声单元之外的发声单元发声。如此可以通过目标对象的移动,切换不同位置的发声单元进行发声,给用户带来更加真实的声音体验。
在一个实施例中,目标对象包括运动的对象,在驱动目标发声单元发声之后,获取模块910,还用于获取视频画面中的目标对象的移动距离,以及目标对象的移动方向。
驱动模块930,还用于在移动距离大于或等于预设距离阈值时,逐步减小目标发声单元的音量,直至音量为零,并驱动移动方向指向的至少一个发声单元中除目标发声单元之外的发声单元发声,逐步增加音量至预设值。如此可以使视频播放时的声音更加连续、平滑,进一步增强声音立体感。
在一个实施例中,目标对象包括目标人物,在获取视频画面中的目标对象与每个发声单元的距离之前,获取模块910,还用于在显示视频画面的情况下,获取视频画面中至少一个人物和每个人物的属性信息,属性信息包括人物的嘴部信息、肢体信息、人脸清晰度信息、人脸大小信息中至少一项。
确定模块920,还用于根据每个人物的属性信息,从至少一个人物中确定发声的人物为目标人物。如此可以精确地确定发声的人物作为目标人物。
本申请实施例中的发声控制装置900可以是装置,也可以是终端中的部件、集成电路、或芯片。
本申请实施例中的发声控制装置900可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为IOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的发声控制装置900能够实现图4至图8的方法实施例实现的各个过程,为避免重复,这里不再赘述。
如图10所示,本申请实施例还提供另一种电子设备1000,包括处理器1001,存储器1002,存储在存储器1002上并可在处理器1001上运行的程序或指令,该程序或指令被处理器1001执行时实现上述发声控制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括移动电子设备和非移动电子设备。
图11是本申请实施例的提供的另一种电子设备的硬件结构示意图。该电子设备1100包括但不限于:射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109以及处理器1110等部件。
本领域技术人员可以理解,电子设备1100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图11中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,电子设备1100包括至少两个发声单元。
处理器1110,用于在显示视频画面的情况下,获取视频画面中的目标对象与每个发声单元的距离。
处理器1110,还用于从至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元。
音频输出单元1103,用于驱动目标发声单元发声。
在本申请实施例中,电子设备可以获取视频画面中的目标对象与每个发声单元的距离,从电子设备的至少两个发声单元中确定距离满足预设距离条件的发声单元为目标发声单元,驱动目标发声单元发声。如此可以在视频播放过程中,根据视频画面中的目标对象与发声单元的距离从至少两个发声单元中动态地确定目标发声单元,从而驱动目标发声单元发声,提高声音的立体感,优化用户听觉体验。
在一个实施例中,处理器1110具体用于:从至少两个发声单元中确定距离目标对象距离最小的发声单元为目标发声单元。如此可以选择距离目标对象最近的发声单元用于发声,能够在发声时实现立体发声效果。
在一个实施例中,在驱动目标发声单元发声之后,处理器1110,还用于获取视频画面的场景信息。
音频输出单元1103,还用于驱动至少一个发声单元中除目标发声单元之外的发声单元发出场景信息对应的声音。如此可以配合画面发出对应的声音,增加声音真实感。
在一个实施例中,目标对象包括运动的对象,在驱动目标发声单元发声之后,处理器1110,还用于获取视频画面中的目标对象的移动距离,以及目标对象的移动方向。
音频输出单元1103,还用于在移动距离大于或等于预设距离阈值时,停止驱动目标发声单元,并驱动移动方向指向的至少一个发声单元中除目标发声单元之外的发声单元发声。如此可以通过目标对象的移动,切换不同位置的发声单元进行发声,给用户带来更加真实的声音体验。
在一个实施例中,目标对象包括运动的对象,在驱动目标发声单元发声之后,处理器1110,还用于获取视频画面中的目标对象的移动距离,以及目标对象的移动方向。
音频输出单元1103,还用于在移动距离大于或等于预设距离阈值时,逐步减小目标发声单元的音量,直至音量为零,并驱动移动方向指向的至少一个发声单元中除目标发声单元之外的发声单元发声,逐步增加音量至预设值。如此可以使视频播放时的声音更加连续、平滑,进一步增强声音立体感。
在一个实施例中,目标对象包括目标人物,在获取视频画面中的目标对象与每个发声单元的距离之前,处理器1110,还用于在显示视频画面的情况下,获取视频画面中至少一个人物和每个人物的属性信息,属性信息包括人物的嘴部信息、肢体信息、人脸清晰度信息、人脸大小信息中至少一项。
处理器1110,还用于根据每个人物的属性信息,从至少一个人物中确定发声的人物为目标人物。如此可以精确地确定发声的人物作为目标人物。
应理解的是,本申请实施例中,输入单元1104可以包括图形处理器(GraphicsProcessing Unit,GPU)和麦克风,图形处理器对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1106可包括显示面板,可以采用液晶显示器、有机发光二极管等形式来配置显示面板。用户输入单元1107包括触控面板以及其他输入设备。触控面板,也称为触摸屏。触控面板可包括触摸检测装置和触摸控制器两个部分。其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1109可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器1110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1110中。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述发声控制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述发声控制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种发声控制方法,其特征在于,所述方法应用于电子设备,所述电子设备包括至少两个发声单元,所述方法包括:
在显示视频画面的情况下,获取视频画面中的目标对象与每个发声单元的距离;
从所述至少两个发声单元中确定所述距离满足预设距离条件的发声单元为目标发声单元;
驱动所述目标发声单元发声。
2.根据权利要求1所述的方法,其特征在于,所述从所述至少两个发声单元中确定所述距离满足预设距离条件的发声单元为目标发声单元,包括:
从所述至少两个发声单元中确定距离所述目标对象距离最小的发声单元为所述目标发声单元。
3.根据权利要求1或2所述的方法,其特征在于,在所述驱动所述目标发声单元发声之后,所述方法还包括:
获取视频画面的场景信息;
驱动所述至少一个发声单元中除所述目标发声单元之外的发声单元发出所述场景信息对应的声音。
4.根据权利要求1所述的方法,其特征在于,所述目标对象包括运动的对象,在所述驱动所述目标发声单元发声之后,所述方法还包括:
获取视频画面中的所述目标对象的移动距离,以及所述目标对象的移动方向;
在所述移动距离大于或等于预设距离阈值时,停止驱动所述目标发声单元,并驱动所述移动方向指向的所述至少一个发声单元中除所述目标发声单元之外的发声单元发声。
5.根据权利要求1所述的方法,其特征在于,所述目标对象包括运动的对象,在所述驱动所述目标发声单元发声之后,所述方法还包括:
获取视频画面中的所述目标对象的移动距离,以及所述目标对象的移动方向;
在所述移动距离大于或等于预设距离阈值时,逐步减小所述目标发声单元的音量,直至音量为零,并驱动所述移动方向指向的所述至少一个发声单元中除所述目标发声单元之外的发声单元发声,逐步增加音量至预设值。
6.根据权利要求1、2、4、5中任意一项所述的方法,其特征在于,所述目标对象包括目标人物,在所述获取视频画面中的目标对象与每个发声单元的距离之前,所述方法还包括:
在显示视频画面的情况下,获取视频画面中至少一个人物和每个人物的属性信息,所述属性信息包括所述人物的嘴部信息、肢体信息、人脸清晰度信息、人脸大小信息中至少一项;
根据所述每个人物的属性信息,从所述至少一个人物中确定发声的人物为所述目标人物。
7.一种发声控制装置,其特征在于,所述装置应用于电子设备,所述电子设备包括至少两个发声单元,所述装置包括:
获取模块,用于在显示视频画面的情况下,获取视频画面中的目标对象与所述每个发声单元的距离;
确定模块,用于从所述至少两个发声单元中确定所述距离满足预设距离条件的发声单元为目标发声单元;
驱动模块,用于驱动所述目标发声单元发声。
8.根据权利要求7所述的装置,其特征在于,所述确定模块具体用于:
从所述至少两个发声单元中确定距离所述目标对象距离最小的发声单元为所述目标发声单元。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的发声控制方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-6任一项所述的发声控制方法的步骤。
CN202110107660.XA 2021-01-27 2021-01-27 发声控制方法、装置、电子设备和存储介质 Pending CN112929739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110107660.XA CN112929739A (zh) 2021-01-27 2021-01-27 发声控制方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110107660.XA CN112929739A (zh) 2021-01-27 2021-01-27 发声控制方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112929739A true CN112929739A (zh) 2021-06-08

Family

ID=76166544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110107660.XA Pending CN112929739A (zh) 2021-01-27 2021-01-27 发声控制方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112929739A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573120A (zh) * 2021-06-16 2021-10-29 荣耀终端有限公司 音频的处理方法及电子设备
CN116048448A (zh) * 2022-07-26 2023-05-02 荣耀终端有限公司 一种音频播放方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010140254A1 (ja) * 2009-06-05 2010-12-09 パイオニア株式会社 映像音声出力装置及び音声定位方法
CN109194796A (zh) * 2018-07-09 2019-01-11 Oppo广东移动通信有限公司 屏幕发声方法、装置、电子装置及存储介质
CN109862293A (zh) * 2019-03-25 2019-06-07 深圳创维-Rgb电子有限公司 终端喇叭的控制方法、设备及计算机可读存储介质
CN110572760A (zh) * 2019-09-05 2019-12-13 Oppo广东移动通信有限公司 电子设备及其控制方法
CN111641865A (zh) * 2020-05-25 2020-09-08 惠州视维新技术有限公司 音视频流的播放控制方法、电视设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010140254A1 (ja) * 2009-06-05 2010-12-09 パイオニア株式会社 映像音声出力装置及び音声定位方法
CN109194796A (zh) * 2018-07-09 2019-01-11 Oppo广东移动通信有限公司 屏幕发声方法、装置、电子装置及存储介质
CN109862293A (zh) * 2019-03-25 2019-06-07 深圳创维-Rgb电子有限公司 终端喇叭的控制方法、设备及计算机可读存储介质
CN110572760A (zh) * 2019-09-05 2019-12-13 Oppo广东移动通信有限公司 电子设备及其控制方法
CN111641865A (zh) * 2020-05-25 2020-09-08 惠州视维新技术有限公司 音视频流的播放控制方法、电视设备及可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573120A (zh) * 2021-06-16 2021-10-29 荣耀终端有限公司 音频的处理方法及电子设备
CN113573120B (zh) * 2021-06-16 2023-10-27 北京荣耀终端有限公司 音频的处理方法及电子设备、芯片系统及存储介质
CN116048448A (zh) * 2022-07-26 2023-05-02 荣耀终端有限公司 一种音频播放方法及电子设备
WO2024021712A1 (zh) * 2022-07-26 2024-02-01 荣耀终端有限公司 一种音频播放方法及电子设备
CN116048448B (zh) * 2022-07-26 2024-05-24 荣耀终端有限公司 一种音频播放方法及电子设备

Similar Documents

Publication Publication Date Title
JP7312853B2 (ja) 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム
CN110379430B (zh) 基于语音的动画显示方法、装置、计算机设备及存储介质
CN104252226B (zh) 一种信息处理的方法及电子设备
CN110263131B (zh) 回复信息生成方法、装置及存储介质
CN105122353A (zh) 用于虚拟个人助理系统的自然人-计算机交互
CN110910887B (zh) 语音唤醒方法和装置
CN109616135B (zh) 音频处理方法、装置及存储介质
CN112929739A (zh) 发声控制方法、装置、电子设备和存储介质
CN111669689B (zh) 一种屏幕发声装置、屏幕发声方法、计算机设备和介质
KR102651249B1 (ko) 디지털 어시스턴트를 이용한 오디오 정보 제공
CN109032554B (zh) 一种音频处理方法和电子设备
CN114822568A (zh) 音频播放方法、装置、设备及计算机可读存储介质
CN111522524A (zh) 一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端
CN112291672B (zh) 扬声器的控制方法、控制装置以及电子设备
AU2013222959A1 (en) Method and apparatus for processing information of image including a face
CN114594892B (zh) 远程交互方法、远程交互设备以及计算机存储介质
CN116433810A (zh) 服务器、显示设备以及虚拟数字人交互方法
WO2023006033A1 (zh) 语音交互方法、电子设备及介质
CN113793625A (zh) 音频播放方法、装置
CN116320144B (zh) 一种音频播放方法及电子设备、可读存储介质
CN112740219A (zh) 手势识别模型的生成方法、装置、存储介质及电子设备
CN116347320B (zh) 音频播放方法及电子设备
CN114051105B (zh) 多媒体数据处理方法、装置、电子设备及存储介质
CN117998166B (zh) 视频生成模型的训练方法、装置、设备、存储介质和产品
CN112153461B (zh) 用于定位发声物的方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210608

WD01 Invention patent application deemed withdrawn after publication