CN115691555A - 一种录制处理方法及相关装置 - Google Patents
一种录制处理方法及相关装置 Download PDFInfo
- Publication number
- CN115691555A CN115691555A CN202110877286.1A CN202110877286A CN115691555A CN 115691555 A CN115691555 A CN 115691555A CN 202110877286 A CN202110877286 A CN 202110877286A CN 115691555 A CN115691555 A CN 115691555A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- sound source
- audio
- electronic device
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本申请提供了一种录制处理方法及相关装置。该方法可以包括:电子设备可以基于麦克风收集的声音进行声源定位,得到目标声源的位置,以及录制环境中的声源数量,再根据目标声源的位置和录制环境中的声源数量,对麦克风收集的声音进行声源分离,得到目标声源对应的声音,即目标音频信号。电子设备还可以确定信噪比,并将当前的拾音质量显示给用户。这种方法可以实时监测拾音质量并将其显示给用户,使得用户能在拾音质量较差时及时调整,从而获得高质量音频,也提高了用户体验。
Description
技术领域
本申请涉及音频处理领域,尤其涉及一种录制处理方法及相关装置。
背景技术
在录制视频和音频的过程中,拾音是非常重要的一步。拾音质量直接影响用户录制的视频及音频的质量。可理解,拾音是指收集声音(音频)的过程。理想情况下,用户收集的音频只包括目标语音,即用户需要的声音。但是,收集音频时往往会有很多的干扰声音,很可能导致用户最终得到的音频质量不高。
目前,可以通过对收集的音频进行降噪处理(例如,声学信号处理等)来提高音频质量。但是,在干扰声音较多的情况下,这种处理方式往往无法在保证目标语音无损伤的前提下抑制干扰声音。此外,在录制视频和音频的过程中,用户感受到的环境噪声与麦克风收集的声音是有差异的,可能导致用户录制完成后才发现收集的音频效果差。
因此,如何及时检测拾音质量并提醒用户是目前亟需解决的问题。
发明内容
本申请提供了一种录制处理方法及相关装置,可以基于麦克风收集的声音进行声源定位,并得到目标声源的位置,以及当前录制环境中的声源数量,再根据目标声源的位置和录制环境中的声源数量,对麦克风收集的声音进行声源分离,得到目标声源产生的音频信号,即目标音频信号。电子设备还可以确定信噪比,并将当前的拾音质量显示给用户。这种方法可以实时监测拾音质量并将其显示给用户,使得用户能在拾音质量较差时及时调整,从而获得高质量音频,也提高了用户体验。
第一方面,本申请提供了一种录制处理方法。该方法可以应用于电子设备。该方法可以包括:接收录制启动指令;响应录制启动指令,采集第一音频信号;第一音频信号包括至少一个声源产生的音频信号;对第一音频信号进行处理,得到目标声源的位置;基于目标声源的位置,对第一音频信号进行处理,得到第二音频信号;在录制的过程中,根据第一音频信号和第二音频信号输出提示信息。其中,第二音频信号为目标声源产生的音频信号。提示信息用于表征当前录制环境中的拾音质量。
在本申请提供的方案中,电子设备可以接收用户触发的录制启动指令,响应于该指令,电子设备可以采集第一音频信号。可理解,第一音频信号可以包括当前录制环境中的一个或多个声源产生的音频信号。电子设备可以对第一音频信号进行声源分离,得到目标声源产生的音频信号,即第二音频信号。电子设备还可以根据第一音频信号和第二音频信号输出提示信息。可理解,该提示信息可以表征当前录制环境中的拾音质量。这种方法可以实时监测拾音质量并将其显示给用户,使得用户能在拾音质量较差时及时调整,从而获得高质量音频,也提高了用户体验。
在本申请的一些实施例中,提示信息的表现形式可以为文字、图像等,本申请对此不作限制。
在本申请的一些实施例中,电子设备可以确定当前录制环境中不同位置的可控响应功率,并确定可控响应功率最大的位置为目标声源的位置。
结合第一方面,在第一方面的一种可能的实现方式中,基于目标声源的位置,对第一音频信号进行处理,得到第二音频信号,具体包括:基于目标声源的位置,增强位于目标声源方向的音频信号,得到第三音频信号;基于当前录制环境中的声源数量,通过第一分离方法从第一音频信号中分离出不同声源产生的音频信号,得到第一分离音频信号集;通过第二分离方法从第一音频信号中分离出不同声源产生的音频信号,得到第二分离音频信号集;基于第三音频信号和第一分离音频信号集,确定第四音频信号;基于第三音频信号和第二分离音频信号集,确定第五音频信号;将第三音频信号、第四音频信号和第五音频信号中绝对值最小的音频信号确定为第二音频信号。其中,第四音频信号为第一分离音频信号集中与第三音频信号的相关性最大的音频信号。第五音频信号为第二分离音频信号集中与第三音频信号的相关性最大的音频信号。
在本申请提供的方案中,电子设备可以采取多种方式来得到目标声源产生的音频信号。例如,电子设备可以根据目标声源的位置来增强目标声源方向的音频信号。再如,电子设备可以根据不同的分离方法(例如,第一分离方法、第二分离方法等),来从第一音频信号中分离出不同声源产生的音频信号。电子设备还可以融合上述几种方式来得到目标声源产生的音频信号,以达到更好的分离效果,即使得分离得到的目标声源产生的音频信号更接近源信号(不受干扰信号影响的目标声源产生的音频信号)。这种方式不仅提高了声源分离的准确性,还提高了输出的提示信息的准确性。
在本申请的一些实施例中,电子设备可以通过波束成形方法来增强位于目标声源方向的音频信号。
在本申请的一些实施例中,第一分离方法可以为深度学习方法。可理解,第一分离方法还可以为固定点算法、支持向量机方法、基于高斯混合模型的方法、基于非负矩阵分解的方法、多反复结构分离方法等,本申请对此不作限制。
在本申请的一些实施例中,第二分离方法可以为盲源分离方法。可理解,第二分离方法还可以为固定点算法、支持向量机方法、基于高斯混合模型的方法、基于非负矩阵分解的方法、多反复结构分离方法等,本申请对此不作限制。
结合第一方面,在第一方面的一种可能的实现方式中,基于目标声源的位置,对第一音频信号进行处理,得到第二音频信号,具体包括:基于目标声源的位置,增强位于目标声源方向的音频信号,得到第三音频信号;基于当前录制环境中的声源数量,通过第一分离方法从第一音频信号中分离出不同声源产生的音频信号,得到第一分离音频信号集;基于第三音频信号和第一分离音频信号集,确定第四音频信号;将第三音频信号和第四音频信号中绝对值最小的音频信号确定为第二音频信号。其中,第四音频信号为第一分离音频信号集中与第三音频信号的相关性最大的音频信号。
在本申请提供的方案中,电子设备可以采取多种方式来得到目标声源产生的音频信号。例如,电子设备可以根据目标声源的位置来增强目标声源方向的音频信号。再如,电子设备可以根据不同的分离方法(例如,第一分离方法),来从第一音频信号中分离出不同声源产生的音频信号。电子设备还可以融合上述两种方式来得到目标声源产生的音频信号,以达到更好的分离效果,即使得分离得到的目标声源产生的音频信号更接近源信号(不受干扰信号影响的目标声源产生的音频信号)。这种方式不仅提高了声源分离的准确性,还提高了输出的提示信息的准确性。
结合第一方面,在第一方面的一种可能的实现方式中,基于目标声源的位置,对第一音频信号进行处理,得到第二音频信号,具体包括:基于目标声源的位置,增强位于目标声源方向的音频信号,得到第三音频信号;通过第二分离方法从第一音频信号中分离出不同声源产生的音频信号,得到第二分离音频信号集;基于第三音频信号和第二分离音频信号集,确定第五音频信号;将第三音频信号和第五音频信号中绝对值最小的音频信号确定为第二音频信号。其中,第五音频信号为第二分离音频信号集中与第三音频信号的相关性最大的音频信号。
在本申请提供的方案中,电子设备可以采取多种方式来得到目标声源产生的音频信号。例如,电子设备可以根据目标声源的位置来增强目标声源方向的音频信号。再如,电子设备可以根据不同的分离方法(例如,第二分离方法等),来从第一音频信号中分离出不同声源产生的音频信号。电子设备还可以融合上述两种方式来得到目标声源产生的音频信号,以达到更好的分离效果,即使得分离得到的目标声源产生的音频信号更接近源信号(不受干扰信号影响的目标声源产生的音频信号)。这种方式不仅提高了声源分离的准确性,还提高了输出的提示信息的准确性。
结合第一方面,在第一方面的一种可能的实现方式中,根据第一音频信号和第二音频信号输出提示信息,具体包括:根据第一音频信号和第二音频信号,得到当前录制环境中的信噪比;通过比较信噪比与预设阈值,确定当前录制环境中的拾音质量所属的质量等级;显示当前录制环境中的拾音质量所属的质量等级。其中,不同的质量等级表征不同的拾音质量。
在本申请提供的方案中,电子设备可以根据第一音频信号和第二音频信号,得到当前录制环境中的信噪比。可理解,第二音频信号为有用信号,第一音频信号与第二音频信号的差值为干扰信号。电子设备还可以将信噪比和预设阈值进行比较,确定出当前录制环境的拾音质量所得的质量等级,并在显示屏上显示该质量等级。也就是说,电子设备可以实时监测拾音质量并将其显示给用户,使得用户能在拾音质量较差时及时调整,从而获得高质量音频,也提高了用户体验。
可理解,质量等级可以表征拾音质量。例如,第一质量等级可以表示拾音质量良好。
需要说明的是,电子设备的显示屏上所显示的质量等级不限于文字形式,还可以为图像等形式。
在本申请的一些实施例中,质量等级可以直接表示当前录制环境中的拾音质量的高低。例如,第二质量等级为“拾音质量差”,电子设备可以直接将文字“拾音质量差”显示在显示屏上。
可理解,预设阈值可以包括一个或多个阈值。预设阈值可以根据实际需求进行设置,本申请对此不作限制。
结合第一方面,在第一方面的一种可能的实现方式中,根据第一音频信号和第二音频信号输出提示信息,包括:根据第一音频信号和第二音频信号,得到当前录制环境中的信噪比;显示信噪比。
在本申请提供的方案中,电子设备可以根据第一音频信号和第二音频信号,得到当前录制环境中的信噪比,并直接将其显示在显示屏上。可理解,信噪比越高,当前录制环境中的拾音质量越好。也就是说,电子设备可以实时监测拾音质量并将其显示给用户,使得用户能在拾音质量较差时及时调整,从而获得高质量音频,也提高了用户体验。
第二方面,本申请提供一种电子设备,包括显示屏、一个或多个存储器、一个或多个处理器。其中,一个或多个处理器与一个或多个存储器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。处理器,可以用于:接收录制启动指令;响应录制启动指令,采集第一音频信号;第一音频信号包括至少一个声源产生的音频信号;对第一音频信号进行处理,得到目标声源的位置;基于目标声源的位置,对第一音频信号进行处理,得到第二音频信号;在录制的过程中,根据第一音频信号和第二音频信号输出提示信息。其中,第二音频信号为目标声源产生的音频信号。提示信息用于表征当前录制环境中的拾音质量。
结合第二方面,在第二方面的一种可能的实现方式中,处理器,在用于基于目标声源的位置,对第一音频信号进行处理,得到第二音频信号时,具体可以用于:基于目标声源的位置,增强位于目标声源方向的音频信号,得到第三音频信号;基于当前录制环境中的声源数量,通过第一分离方法从第一音频信号中分离出不同声源产生的音频信号,得到第一分离音频信号集;通过第二分离方法从第一音频信号中分离出不同声源产生的音频信号,得到第二分离音频信号集;基于第三音频信号和第一分离音频信号集,确定第四音频信号;基于第三音频信号和第二分离音频信号集,确定第五音频信号;将第三音频信号、第四音频信号和第五音频信号中绝对值最小的音频信号确定为第二音频信号。其中,第四音频信号为第一分离音频信号集中与第三音频信号的相关性最大的音频信号。第五音频信号为第二分离音频信号集中与第三音频信号的相关性最大的音频信号。
结合第二方面,在第二方面的一种可能的实现方式中,处理器,在用于基于目标声源的位置,对第一音频信号进行处理,得到第二音频信号时,具体可以用于:基于目标声源的位置,增强位于目标声源方向的音频信号,得到第三音频信号;基于当前录制环境中的声源数量,通过第一分离方法从第一音频信号中分离出不同声源产生的音频信号,得到第一分离音频信号集;基于第三音频信号和第一分离音频信号集,确定第四音频信号;将第三音频信号和第四音频信号中绝对值最小的音频信号确定为第二音频信号。其中,第四音频信号为第一分离音频信号集中与第三音频信号的相关性最大的音频信号。
结合第二方面,在第二方面的一种可能的实现方式中,处理器,在用于基于目标声源的位置,对第一音频信号进行处理,得到第二音频信号时,具体可以用于:基于目标声源的位置,增强位于目标声源方向的音频信号,得到第三音频信号;通过第二分离方法从第一音频信号中分离出不同声源产生的音频信号,得到第二分离音频信号集;基于第三音频信号和第二分离音频信号集,确定第五音频信号;将第三音频信号和第五音频信号中绝对值最小的音频信号确定为第二音频信号。其中,第五音频信号为第二分离音频信号集中与第三音频信号的相关性最大的音频信号。
结合第二方面,在第二方面的一种可能的实现方式中,处理器,在用于根据第一音频信号和第二音频信号输出提示信息时,具体可以用于:根据第一音频信号和第二音频信号,得到当前录制环境中的信噪比;通过比较信噪比与预设阈值,确定当前录制环境中的拾音质量所属的质量等级。可理解,电子设备还可以包括显示屏。显示屏,可以用于显示当前录制环境中的拾音质量所属的质量等级。其中,不同的质量等级表征不同的拾音质量。
结合第二方面,在第二方面的一种可能的实现方式中,处理器,在用于根据第一音频信号和第二音频信号输出提示信息时,具体可以用于:根据第一音频信号和第二音频信号,得到当前录制环境中的信噪比。可理解,电子设备还可以包括显示屏。显示屏,可以用于显示信噪比。
第三方面,本申请提供一种计算机存储介质,包括指令,当上述指令在电子设备上运行时,使得上述电子设备执行上述第一方面中任一种可能的实现方式。
第四方面,本申请实施例提供一种芯片,该芯片应用于电子设备,该芯片包括一个或多个处理器,该处理器用于调用计算机指令以使得该电子设备执行上述第一方面中任一种可能的实现方式。
第五方面,本申请实施例提供一种包含指令的计算机程序产品,当上述计算机程序产品在设备上运行时,使得上述电子设备执行上述第一方面中任一种可能的实现方式。
可以理解地,上述第二方面提供的电子设备、第三方面提供的计算机存储介质、第四方面提供的芯片、第五方面提供的计算机程序产品均用于执行上述第一方面中任一种可能的实现方式。因此,其所能达到的有益效果可参考上述第一方面中任一种可能的实现方式的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种电子设备100的硬件结构示意图;
图2为本申请实施例提供的一种电子设备100的软件结构示意图;
图3A-图3I为本申请实施例提供的一组用户界面示意图;
图4为本申请实施例提供的一种声源定位方法;
图5为本申请实施例提供的一种声源分离方法;
图6为本申请实施例提供的又一种声源分离方法;
图7为本申请实施例提供的又一种声源分离方法;
图8为本申请实施例提供的一种录制处理方法。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
应当理解,本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
在媒体漫长的发展史中,伴随着技术的革新,媒体经历了多次变革。如今,利用数字技术,通过计算机网络、无线通信网、卫星等渠道,以及电脑、手机、数字电视机等终端,向用户提供信息和服务的传播形态——新媒体,成为了主流媒体。新媒体加速了信息传播,让用户能在较短时间内实现信息共享。
视频和音频都是新媒体的重要媒介渠道。尤其是随着短视频、有声读物的兴起,越来越多的用户利用终端来录制视频、音频,并通过新媒体分享给他人。因此,提高录制的视频、及音频的质量成为了用户的一大需求。
在录制视频和音频的过程中,拾音是非常重要的一步。拾音质量直接影响用户录制的视频及音频的质量。可理解,拾音是指收集声音(音频)的过程。理想情况下,用户收集的音频只包括目标语音,即用户需要的声音。但是,收集音频时往往会有很多的干扰声音,很可能导致用户最终得到的音频质量不高。
目前,可以通过对收集的音频进行降噪处理(例如,声学信号处理等)来提高音频质量。但是,在干扰声音较多的情况下,这种处理方式往往无法在保证目标语音无损伤的前提下抑制干扰声音。此外,在录制视频和音频的过程中,用户感受到的环境噪声与麦克风收集的声音是有差异的,可能导致用户录制完成后才发现收集的音频效果差。
本申请提供了一种录制处理方法及相关装置,可以对麦克风收集的声音进行声源定位,得到目标声源的位置,以及录制环境中的声源数量,再根据目标声源的位置和录制环境中的声源数量,对麦克风收集的声音进行声源分离,得到目标声源,即目标音频信号,并确定信噪比以提示用户当前的拾音质量。这种方法可以实时监测拾音质量并将其显示给用户,使得用户能在拾音质量较差时及时调整,从而获得高质量音频,也提高了用户体验。
下面介绍本申请实施例涉及的装置。
图1为本申请实施例提供的一种电子设备100的硬件结构示意图。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(Universal Serial Bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(Subscriber Identification Module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(Application Processor,AP),调制解调处理器,图形处理器(Graphics Processingunit,GPU),图像信号处理器(Image Signal Processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(Digital Signal Processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
在本申请提供的实施例中,电子设备100可以通过处理器110对采集到的音频信号进行声源定位和声源分离,得到目标声源对应的音频信号。电子设备110还可以确定信噪比,并根据信噪比确定当前的拾音质量。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备100,例如AR设备等。
充电管理模块140用于从充电器接收充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备100供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(Low Noise Amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(WirelessLocal Area Networks,WLAN)(如无线保真(Wireless Fidelity,Wi-Fi)网络),蓝牙(Bluetooth,BT),全球导航卫星系统(Global Navigation Satellite System,GNSS),调频(Frequency Modulation,FM),近距离无线通信技术(Near Field Communication,NFC),红外技术(Infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(Liquid Crystal Display,LCD),有机发光二极管(Organic Light-EmittingDiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-MatrixOrganic Light Emitting Diode的,AMOLED),柔性发光二极管(Flex Light-EmittingDiode,FLED),Mini LED,Micro LED,Micro-OLED,量子点发光二极管(Quantum Dot LightEmitting Diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
在本申请的一些实施例中,显示屏194可以显示由处理器110计算所得的信噪比。
在本申请的另一些实施例中,显示屏194可以显示由处理器确定的当前的拾音质量。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现获取功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像或视频。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(Charge Coupled Device,CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像或视频信号。ISP将数字图像或视频信号输出到DSP加工处理。DSP将数字图像或视频信号转换成标准的RGB,YUV等格式的图像或视频信号。
在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。例如,在一些实施例中,电子设备100可以利用N个摄像头193获取多个曝光强度的图像,进而,在视频后处理中,电子设备100可以根据多个曝光强度的图像,通过HDR技术合成HDR图像。
在本申请实施例中,电子设备100可以包括两个摄像头193。这两个摄像头分别为主摄像头和辅助摄像头。若用户触发拍摄,主摄像头和辅助摄像头可以同时获取图像,然后经电子设备100融合成一张图像,该图像即为显示给用户的图像。
在本申请实施例中,可以通过感度系数来表征摄像头193的感光能力。也可以理解为摄像头193中的感光元件的感光能力可以通过感度系数来表示。在曝光强度相同的情况下,感度系数越大,感光元件的感光能力越强,摄像头193获取的图像越亮。
在本申请实施例中,主摄像头和辅助摄像头可以获取Raw图,并将Raw图传递给ISP进行处理。ISP根据Raw图的亮度和上述两个摄像头的曝光强度,可以调整主摄像头或辅助摄像头的曝光强度,使得通过这两个摄像头获取的图像的亮度一致。
数字信号处理器用于处理数字信号,除了可以处理数字图像或视频信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(Moving Picture Experts Group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(Neural-Network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像视频播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。电子设备100可以包括麦克风阵列。该麦克风阵列可以包括至少一个麦克风170C。
在本申请的一些实施例中,电子设备100可以通过麦克风阵列来采集音频信号。
耳机接口170D用于连接有线耳机。
传感器模块180可以包括1个或多个传感器,这些传感器可以为相同类型或不同类型。可理解,图1所示的传感器模块180仅为一种示例性的划分方式,还可能有其他划分方式,本申请对此不作限制。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。
气压传感器180C用于测量气压。在一些实施例中,电子设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备100姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。
环境光传感器180L用于感知环境光亮度。
指纹传感器180H用于获取指纹。
温度传感器180J用于检测温度。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
在本申请的一个实施例中,用户利用电子设备100进行延时摄影或连拍,需要获取一系列图像。在延时摄像或连拍的场景中,电子设备100可以采取AE模式。即电子设备100自动调整AE值,在预览这一系列图像的过程中,若用户有触摸操作作用于显示屏194,可能触发touchAE模式。在touchAE模式下,电子设备100可以调整用户触摸显示屏的相应位置的亮度,并进行高权重测光。使得计算画面平均亮度的时候,用户触摸区域的权重明显高于其他区域,最终计算所得的画面平均亮度更加靠近用户触摸区域的平均亮度。
骨传导传感器180M可以获取振动信号。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
图2为本申请实施例提供的一种电子设备100的软件结构示意图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将系统分为四层,从上至下分别为应用程序层,应用程序框架层,运行时(Runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序(也可以称为应用)。
应用程序框架层为应用程序层的应用程序提供应用编程接口(ApplicationProgramming Interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话界面形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
运行时(Runtime)包括核心库和虚拟机。Runtime负责系统的调度和管理。
核心库包含两部分:一部分是编程语言(例如,java语言)需要调用的功能函数,另一部分是系统的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的编程文件(例如,java文件)执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(Surface Manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),二维图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了二维(2-Dimensional,2D)和三维(3-Dimensional,3D)图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现3D图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动,虚拟卡驱动。
下面介绍本申请实施例提供的一些录制场景。
可理解,本申请的说明书和权利要求书及附图中的术语“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphic userinterface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
1、录像场景(图3A~图3F)
(1)开始录制并开始拾音(图3A~图3C)
图3A示例性示出了电子设备100上的用于展示电子设备100安装的应用程序的示例性用户界面310。
用户界面310显示了一个放置有应用图标的页面,该页面可包括多个应用图标(例如,天气应用图标、日历应用图标、电子邮件应用图标、设置应用图标、应用商店应用图标、便签应用图标、相册应用图标、录音机应用图标311等等)。上述多个应用图标下方还可显示有页面指示符,以表明当前显示的页面与其他页面的位置关系。页面指示符的下方有多个托盘图标(例如,相机应用图标312、浏览器应用图标、信息应用图标、拨号应用图标)。托盘图标在页面切换时保持显示。本申请实施例对用户界面310上显示的内容不作限定。
电子设备100可以检测到作用于相机应用图标312的用户操作,响应于该操作,电子设备100可以显示图3B所示的用户界面320。
用户界面320可包括参数调节区域321、预览区域322、相机模式选项323、相册快捷控件324、快门控件325和摄像头翻转控件326。
预览区域322可用于显示预览图像。该预览图像为电子设备100通过摄像头实时采集的图像。电子设备可以实时刷新预览区域322中的显示内容,以便于用户预览摄像头当前采集的图像。
相机模式选项323中可以显示有一个或多个拍摄模式选项。这一个或多个拍摄模式选项可以包括:夜景模式选项3231、智能人像模式选项3232、拍照模式选项3233、录像模式选项3234和更多选项3235。
相册快捷控件324可用于开启相册应用程序。响应于作用在相册快捷控件324上的用户操作,例如触摸操作,电子设备100可以开启相册应用程序。
快门控件325可用于监听触发拍照的用户操作。电子设备100可以检测到作用于快门控件325的用户操作,响应于该操作,电子设备100可以将预览区域322中的预览图像保存为相册应用程序中的图片。
摄像头翻转控件326可用于监听触发翻转摄像头的用户操作。
用户界面320中所包含的控件可以是按钮或者其他形式的控件,本申请对此不作限制。另外,用户界面320还可以包含更多或更少的控件,本申请实施例对此不作限定。
可理解,本申请中所提及的用户操作包括但并不限于触摸、声控和手势等。
电子设备100可以检测到作用于录像模式选项3234的用户操作,响应于该操作,电子设备100可以显示如图3C所示的用户界面330。可理解,用户界面330可以为相机应用程序中的录像预览界面。
用户界面330所包含的控件与用户界面320所包含的控件基本一致。另外,用户界面330可以包括录像预览区域331和开始录像控件332。其中,录像预览区域331可用于显示预览图像。
电子设备100可以检测到作用于开始录像控件332的用户操作,响应于该操作,电子设备100可以开始录制视频。同时,电子设备100中的麦克风阵列也可以采集音频信号。
(2)电子设备100检测拾音质量(图3D~图3F)
电子设备100可以根据采集到的音频信号进行声源定位,得到目标声源的位置和声源数量,然后基于目标声源的位置和声源数量进行声源分离,分离出目标声源对应的音频信号。电子设备100可以基于目标声源对应的音频信号计算信噪比,并将信噪比显示给用户。可理解,此处提及的信噪比指的是目标声源对应的音频信号和其他干扰信号在环境中的比例。
如图3D所示,电子设备100可以显示用户界面340。可理解,用户界面340可以为相机应用程序中的录像界面。
用户界面340所包含的控件与用户界面330所包含的控件基本一致。不同的是,用户界面340中没有相机模式选项323,用户界面340中可以包括快门控件341、结束录像控件342、暂停录像控件343和录像时间控件344。其中,快门控件341可用于触发拍照,即在录像的过程中用户可触发快门控件341来拍照。结束录像控件342可用于结束录制视频。暂停录像控件343可用于暂时停止录制视频。录像时间控件344可以指示当前录制视频的时间长度。如图3D所示,录像时间控件344中显示00:00:02,这表示当前视频已录制2秒(s)。
可理解,用户界面340还可以包括录像显示区域345。录像显示区域345可以包括显示区域3451。显示区域3451可以用于显示电子设备100计算所得的信噪比。如图3D所示,显示区域3451显示当前的信噪比为5分贝(dB)。用户可以根据显示区域3451所显示的内容判断当前拾音质量是否良好,进而判断是否需要停止录像。
可理解,显示区域3451可以包括弹窗等,本申请对于显示区域3451的表现形式不作限制。
在本申请的一些实施例中,电子设备100可以根据计算所得的信噪比确定当前的拾音质量,再将当前的拾音质量显示给用户。可理解,电子设备100可以显示如图3E所示的用户界面。如图3E所示,显示区域3451可以显示当前拾音质量良好。
另外,显示区域3451所显示的内容可以随着电子设备100所检测的拾音质量而变化。如图3F所示,电子设备100可以显示用户界面350。用户界面350所包含的控件与用户界面340所包含的控件一致。用户界面350所包含的录像时间控件344中显示00:00:05,这表示当前视频已录制5s。此时,显示区域3451所显示的信噪比为33dB。
2、录音场景(图3G~图3I)
(1)开始拾音(图3G)
电子设备100可以检测到作用于录音机应用图标311的用户操作,响应于该操作,电子设备100可以显示图3G所示的用户界面360。
用户界面360可以包括显示区域361和开始录音控件362。其中,显示区域361可以显示录音文件列表。录音文件列表中包括已经录制的音频文件。开始录音控件362可以用于开始录制音频。
电子设备100可以检测到作用于开始录音控件362的用户操作,响应于该用户操作,电子设备100可以开始录制音频。
(2)电子设备100检测拾音质量
电子设备100可以根据采集到的音频信号进行声源定位,得到目标声源的位置和声源数量,然后基于目标声源的位置和声源数量进行声源分离,分理出目标声源对应的音频信号。电子设备100可以基于目标声源对应的音频信号计算信噪比,并将信噪比显示给用户。可理解,此处提及的信噪比指的是目标声源对应的音频信号和其他干扰信号在环境中的比例。
电子设备100可以显示如图3H所示的用户界面370。
用户界面379可以包括录音显示区域371、录音文件列表快捷控件372、暂停录音控件373、停止录音控件374和录音时间控件375。其中,录音显示区域371可以显示当前录制的声音大小。录音文件列表快捷控件372可以用于显示录音文件列表。暂停录音控件373可以用于暂停音频录制。停止录音控件374可以用于停止音频录制。录音时间控件375可以用于显示当前录制音频的时间长度。如图3H所示,录音时间控件375中显示00:00:03,这表示当前已经录制3s音频。
可理解,录音显示区域371可以包括显示区域3712。显示区域3721可以包括显示区域3712。显示区域3712可以用于显示电子设备100计算所得的信噪比。如图3H所示,显示区域3712显示当前的信噪比为5分贝(dB)。用户可以根据显示区域3712所显示的内容判断当前拾音质量是否良好,进而判断是否需要停止录像。
可理解,显示区域3451可以包括弹窗等,本申请对于显示区域3712的表现形式不作限制。
在本申请的一些实施例中,电子设备100可以根据计算所得的信噪比确定当前的拾音质量,再将当前的拾音质量显示给用户。可理解,电子设备100可以显示如图3I所示的用户界面。如图3I所示,显示区域3712可以显示当前拾音质量差。
另外,显示区域3712所显示的内容可以随着电子设备100所检测的拾音质量而变化。可理解,相关描述可参考上文,在此不再赘述。
下面结合图4具体介绍本申请实施例提供的一种声源定位方法。
S401:电子设备100通过麦克风阵列采集音频信号。
录制声音的过程中,声音的振动可以传播到电子设备100中的麦克风的振膜上,形成变化的电场,并得到音频信号。可理解,麦克风可以将声音信号转换成电信号。也就是说,音频信号可以为电信号。
可理解,电子设备100包括一个或多个麦克风,这些麦克风组成了麦克风阵列。电子设备100可以通过该麦克风阵列采集音频信号。
在本申请的一些实施例中,电子设备100中的麦克风阵列可以包括3个麦克风。例如,电子设备100可以包括顶部麦克风、背部麦克风和底部麦克风。
可理解,电子设备100通过麦克风阵列采集的音频信号是时域内的音频信号。时域可以描述数学函数或物理信号对时间的关系。
S402:电子设备100将采集的音频信号进行分帧处理以及傅里叶变换,得到频域内的音频信号。
从整体上看,音频信号具有非稳态、时变的特性。然而,在一个短时间范围内,音频信号的特性基本保持不变,即相对稳定。也就是说,音频信号具有短时平稳性。因此,在进行音频信号处理时,往往会对音频信号进行分帧处理,来减少音频信号整体的非稳态、时变的影响。也就是说,一般会将音频信号分段进行分析。其中,每一段称为一帧。一帧的长度被称为帧长。帧长一般为10ms-30ms。
在本申请的一些实施例中,帧长可以为10ms。
电子设备100可以对经过分帧处理后的音频信号进行傅里叶变换,得到频域内的音频信号。可理解,电子设备100可以通过傅里叶变换将时域内的音频信号转换为频域内的音频信号。频域是描述信号在频率方面特性时用到的一种坐标系。
具体地,可以将第m个麦克风第i帧的音频信号记为:xm(i,k)。可理解,xm(i,k)为离散时域信号。电子设备100可以对xm(i,k)进行离散傅里叶变换,将xm(i,k)变换到频域,得到频域内的音频信号,将其记为:Xm(i,k)。可理解,其中,k表示的是离散频点。k=0,1,2,...,N-1。
需要说明的是,在对经过分帧处理的音频信号进行傅里叶变换之前,电子设备100还可以对该音频信号进行其他处理。例如,电子设备100可以对该音频信号进行加窗处理,可以提高傅里叶变换结果(即频谱)的分辨率。
S403:电子设备100将空间分成一个个网格,基于频域内的音频信号计算出麦克风阵列导引到每个网格的输出功率(即可控响应功率),确定可控响应功率最大的位置为目标声源的位置。
电子设备100可以采取基于相位变换加权的可控响应功率(Steered ResponsePower-Phase Transform,SRP-PHAT)的声源定位方法。
电子设备100可以将声源所在的空间分成一个一个的网格,每一个网格中都存在一个假想的声源。电子设备100可以计算每一个假想声源到一对指定位置麦克风(即麦克风阵列中的两个麦克风)的时延差,并根据该时延差计算广义互相关(Generalized CrossCorrelation,GCC)函数的值。电子设备100还可以对多个GCC函数值求和,得到可控响应功率。可控响应功率对应的假想声源位置,即为声源估计位置。
其中,q表示的是假想声源的坐标矢量。τm(q)表示的是假想声源到达第m个麦克风和到达参考麦克风的时延差。R表示的是声源所在的空间。
可理解,在对网格中的假想声源进行遍历时,可以采用直角坐标、极坐标、柱坐标或球坐标等。类似的,假想声源的坐标也可以采用直角坐标、极坐标、柱坐标或球坐标等。
需要说明的是,电子设备100可以根据可控响应功率的极大值数量来确定当前环境中的声源数量。具体地,电子设备100确定可控响应功率的极大值数量即为当前环境中的声源数量。当然,电子设备100还可以通过其他方式来确定当前环境中的声源数量,本申请对此不作限制。
在本申请的一些实施例中,电子设备100可以结合图像进一步确定目标声源的位置。例如,在用户利用电子设备100录制视频等场景下,电子设备100的麦克风会进行拾音,同时,其摄像头还会采集图像并显示在显示屏上。在这些场景下,用户可以通过触摸、声控、手势等方式在图像上选择目标声源。
可理解,用户可以选择一个或多个目标声源。另外,采集图像的摄像头可以为前置摄像头,也可以为后置摄像头。
具体地,电子设备100可以在显示屏上显示摄像头采集的图像,还可以检测到作用于该图像的用户操作(触摸、声控、手势等)。电子设备100可以根据该用户操作确定目标声源,进而确定目标声源的位置。例如,用户在显示屏上显示的图像中选择目标声源(例如,人等)并点击相应区域,电子设备100可以检测到该用户操作,并记录用户点击的位置,并将其作为目标声源的位置。
在本申请的一些实施例中,电子设备100记录的用户选择的目标声源的位置可以采用直角坐标、极坐标、柱坐标或球坐标等方式表示。
在本申请的一些实施例中,电子设备100记录的用户选择的目标声源的位置还可以采用相对位置来表示。例如,用户点击的位置是图像的左上方区域,电子设备100可以记录目标声源位于图像的左上方区域。
可理解,电子设备100还可以通过其他方式记录用户选择的目标声源的位置,本申请对此不作限制。
在本申请的一些实施例中,电子设备100可以在拾音的同时将摄像头采集的图像显示在显示屏上,但是用户并未选择目标声源。在这种情况下,电子设备100可以结合存储的用户图像(例如,用于解锁电子设备100而录入的面部数据)来判断图像中是否存在本设备的用户。若电子设备100显示的图像中包括本设备的用户(例如,电子设备100检测到与录入的面部数据相同的人脸),电子设备100可以默认将本设备的用户作为目标声源,并记录本设备的用户在图像中的位置。若电子设备100显示的图像中不包括本设备的用户,可以将该图像中的人都作为目标声源。可理解,电子设备100可以通过检测图像中的人脸,来判断画面中的人的数量及位置。电子设备100可以记录人脸所在的位置,并将其作为目标声源的位置。
在本申请的一些实施例中,电子设备100可以将预先记录的用户选择的目标声源的位置,与经过图4所示方法确定的目标声源的位置进行比对,最终确定目标声源的位置。
在本申请的一些实施例中,若用户选择的目标声源为自己,或者电子设备100默认本设备的用户为目标声源,电子设备100可以利用存储的本设备用户的声纹信息,来与步骤S401中收集到的音频信号进行比对,最终确定目标声源的位置。
下面结合图5具体介绍本申请实施例提供的一种声源分离方法。
S501:电子设备100通过波束形成(Beamforming,BF)方法增强音频信号X中的位于目标声源方向的音频信号,将增强后的音频信号记为SBF(i,k)。其中,i表示的是帧数。k表示的是离散频点。音频信号X为对麦克风阵列采集的音频信号进行处理后的频域内的音频信号。
BF的基本原理为:对于麦克风阵列来说,由于各个麦克风的分布位置不同,它们采集的音频信号会存在一定的时间差。利用这一点可以确定目标声源的方向和位置。通过对齐各个麦克风采集的音频信号,可以将其中的干扰信号抵消,进而增强目标声源对应的音频信号。可理解,这里所说的对齐指的是消除各个麦克风采集音频信号的时间差。例如,可以对各个麦克风采集音频信号的相对时延进行补偿,使得信号到达麦克风阵列时可以等效为是同一波面同时到达各个麦克风。
时域内,麦克风阵列中的各个麦克风采集的音频信号会存在时间差,意味着,在频域内,相应的音频信号会存在相位差。可理解,这里所说的相应的音频信号为时域内的音频信号经过处理(例如,步骤S402)后所得的频域内的音频信号。这些频域内的音频信号组成了音频信号X。电子设备100可以通过调整这些频域内的音频信号的相位,使得一些方向的音频信号获得相长干涉,另一些方向的音频信号获得相消干涉,由此可以增强一些方向的音频信号。
可理解,在波的叠加原理中,若两波的波峰(或波谷)同时抵达同一地点,称两波在该点同相。此时,干涉波会产生最大的振幅。这种现象被称为相长干涉。在波的叠加原理中,若一个波的波峰与另一个波的波谷同时抵达同一地点,称两波在该点反相。此时,干涉波会产生最小的振幅。这种现象被称为相消干涉。
具体地,电子设备100可以根据目标声源的位置来确定不同麦克风采集的音频信号的方向矢量,并根据这些方向矢量和波束形成器的权值向量来对这些音频信号进行加权相干叠加,最终得到目标声源方向的音频信号。可理解,该目标声源方向的音频信号即为增强后的音频信号。将其记为SBF(i,k)。其中,i表示的是帧数。k表示的是离散频点。
S502:电子设备100将获取到的声源数量M作为先验信息,通过深度学习方法对音频信号X进行声源分离,将分离后的音频信号记为SNN(nNN,i,k)。其中,nNN表示声源分离后的某一个声源。nNN≤M。i表示的是帧数。k表示的是离散频点。
可理解,通过深度学习方法对音频信号X进行声源分离可以包括但不限于基于深度神经网络(Deep Neural Network,DNN)的声源分离方法,以及基于卷积神经网络(Convolutional Neuron Network,CNN)的声源分离方法。
下面以基于DNN的声源分离方法为例进行说明。
电子设备100通过基于DNN的声源分离方法来进行声源分离,主要是通过DNN声源分离模型完成的。电子设备100中可以包括DNN声源分离模型。电子设备100可以对输入该模型的音频信号X进行声源分离,并输出分离后的音频信号SNN(nNN,i,k)。其中,nNN表示声源分离后的某一个声源。nNN≤M。i表示的是帧数。k表示的是离散频点。
下面对DNN进行简单介绍。
DNN可以理解成是具有很多层隐含层的神经网络。DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的。也就是说,第i层的任意一个神经元一定与相邻层的所有神经元都相连。DNN中每一层的工作可以理解为如下线性关系表达式:y=α(Wx+b)。其中,x是输入向量,y是输出向量,b是偏移向量,W是权重矩阵,α()是激活函数。可理解,DNN中每一层的输入和输出,与相邻层的输入和输出都是具有一定关系的。也就是说,在已知DNN中的第i层的输出的情况下,可以计算出DNN中的第i-1层的输出,以及DNN中的第i+1层的输出。
下面对DNN声源分离模型进行简单介绍。
可理解,电子设备100可以对DNN进行训练,得到DNN声源分离模型。
具体地,电子设备100将来自多个声源的音频信号按照一定比例进行混合,得到混合后的音频信号。电子设备100可以对混合后的音频信号进行特征提取,还可以将提取的音频特征作为DNN的输入,DNN的输出即为分离后的音频信号。
可理解,混合后的音频信号为DNN的输入。理想的DNN的输出为混合前的音频信号。
需要说明的是,在对DNN进行训练的过程中,电子设备100需要让DNN的输出等于或很接近理想的DNN的输出。具体地,电子设备100需要找到合适的偏移向量b和权重矩阵W,使得DNN的输出等于或很接近理想的DNN输出。
为实现上述目的,电子设备100可以选择一个合适的损失函数来度量训练过程中的输出损失,并对该损失函数进行优化求最小化的极值。对应的一系列偏移向量b和权重矩阵W即为合适的偏移向量b和权重矩阵W。可理解,合适的偏移向量b和权重矩阵W所对应的DNN,即为DNN声源分离模型。
可理解,电子设备100提取的特征可以是帧级别或者时频单元级别的音频特征。
可理解,用于训练DNN的音频信号为训练样本。训练样本中包括的音频信号可以根据实际需要确定,本申请对此不作限制。
需要说明的是,上述内容仅为本申请提供的一个示例,还可以通过其他方式得到DNN声源分离模型,本申请对此不作限制。
S503:电子设备100通过盲源分离(Blind Source Separation,BSS)方法对音频信号X进行声源分离,将分离后的音频信号记为SBSS(nBSS,i,k)。其中,nBSS表示声源分离后的某一个声源。nBSS≤M。i表示的是帧数。k表示的是离散频点。
下面对BSS进行简单介绍。
BSS是指在不知道源信号和传输通道的参数的情况下,根据输入源信号的统计特性,仅由观测信号恢复出源信号各个独立成分的过程。BSS的最终目的是寻找分离矩阵,使得输出信号尽可能逼近真实源信号。
可理解,独立分量分析(Independent Component Analysis,ICA)是盲源分离的一个解决方法。ICA的基本思想是:假设生成观测信号的源信号彼此独立,寻找分离矩阵的目的是使输出结果中的各个分量尽可能相互独立。因此,ICA可以被看成是一个优化问题。其目标函数是度量分离结果独立性的函数,其关系为ICA算法=目标函数+优化算法。其中,目标函数可以采用基于独立性测度的分离准则(例如,非高斯最大化准则、互信息极小化准则、信息极大化准则以及极大似然准则等)。优化算法可以采用批处理算法、自适应算法、逐次提取法等。
可理解,麦克风阵列采集的音频信号实际上是来自不同声源的混合后的音频信号。即音频信号X是由多个声源所对应的音频信号混合后形成的。也就是说,上文提及的观测信号可以为音频信号X,源信号可以为声源对应的音频信号。
下面对基于BSS的声源分离方法进行简单介绍。
基于BSS方法来对音频信号X进行声源分离的基本思路是寻找合适的分离矩阵,能将音频信号X中的来自不同声源的音频信号分离出来,并且使得分离出来的音频信号尽可能与真实的源信号一致。
在本申请的一些实施例中,电子设备100可以通过ICA来寻找合适的分离矩阵,使得分离效果最好,再利用该分离矩阵来对音频信号X进行声源分离,得到分离后的音频信号SBSS(nBSS,i,k)。其中,nBSS表示声源分离后的某一个声源。nBSS≤M。i表示的是帧数。k表示的是离散频点。
S504:电子设备100确定第一相关性和第二相关性。其中,第一相关性为SBF(i,k)与SNN(nNN,i,k)的相关性。第二相关性为SBF(i,k)与SBSS(nBSS,i,k)的相关性。
电子设备100可以确定第一相关性。即SBF(i,k)与SNN(nNN,i,k)的相关性。将第一相关性记为ρBF,NN(nNN)。ρBF,NN(nNN)的计算方式如下:
其中,cov(SBF(i,k),SNN(nNN,i,k))为音频信号SBF(i,k)和音频信号SNN(nNN,i,k)的协方差。abs(SBF(i,k))为音频信号SBF(i,k)的绝对值。abs(SNN(nNN,i,k))为音频信号SNN(nNN,i,k)的绝对值。
电子设备100还可以确定第二相关性。即SBF(i,k)与SBSS(nBSS,i,k)的相关性。将第一相关性记为ρBF,BSS(nBSS)。
其中,cov(SBF(i,k),SBSS(nBSS,i,k))为音频信号SBF(i,k)和音频信号SBSS(nBSS,i,k)的协方差。abs(SBF(i,k))为音频信号SBF(i,k)的绝对值。abs(SBSS(nBSS,i,k))为音频信号SBSS(nBSS,i,k)的绝对值。
S505:电子设备100确定SBF(i,k)、音频信号S和音频信号T中绝对值最小的音频信号为目标声源对应的音频信号。其中,音频信号S为电子设备100通过深度学习方法对音频信号X进行分离所得的音频信号中,使得第一相关性最大的音频信号。音频信号T为电子设备100通过BSS方法对音频信号X进行分离所得的音频信号中,使得第二相关性最大的音频信号。
电子设备100可以确定音频信号S。音频信号S为电子设备100通过深度学习方法对音频信号X进行分离所得的音频信号中,使得第一相关性最大的音频信号。音频信号S如下式:
SNN(n1,i,k),ifρBF,NN(n1)=max(ρBF,NN(nNN)),n1≤M
电子设备100可以确定音频信号T。音频信号T为电子设备100通过BSS方法对音频信号X进行分离所得的音频信号中,使得第二相关性最大的音频信号。音频信号T如下式:
SBSS(n2,i,k),ifρBF,BSS(n2)=max(ρBF,BSS(nBSS)),n2≤M
电子设备100可以确定SBF(i,k)、音频信号S和音频信号T中绝对值最小的音频信号为目标声源对应的音频信号。将最终确定的目标声源对应的音频信号记为Starget(i,k)。其中,i表示的是帧数。k表示的是离散频点。Starget(i,k)的计算方式如下:
其中,Smin(i,k)表示的是abs(SBF(i,k))、abs(SNN(n1,i,k))和abs(SBSS(n2,i,k))三个中的最小值。即Smin(i,k)=min(abs(SBF(i,k)),abs(SNN(n1,i,k)),abs(SBSS(n2,i,k)))。
可理解,本申请对步骤S501、步骤S502和步骤S503的先后执行顺序不作限制。
可理解,上述方法结合了BF方法、深度学习方法和BSS方法来进行声源分离,分离后的目标声源所对应的音频信号更接近原始的音频信号,也使得后续计算信噪比时的准确性更高。
下面结合图6具体介绍本申请实施例提供的又一种声源分离方法。
S601:电子设备100通过BF方法增强音频信号X中的位于目标声源方向的音频信号,将增强后的音频信号记为SBF(i,k)。其中,i表示的是帧数。k表示的是离散频点。音频信号X为对麦克风阵列采集的音频信号进行处理后的频域内的音频信号。
具体地,电子设备100可以根据目标声源的位置来确定不同麦克风采集的音频信号的方向矢量,并根据这些方向矢量和波束形成器的权值向量来对这些音频信号进行加权相干叠加,最终得到目标声源方向的音频信号。可理解,该目标声源方向的音频信号即为增强后的音频信号。将其记为SBF(i,k)。其中,i表示的是帧数。k表示的是离散频点。
可理解,BF的相关描述可参考步骤S501的内容,本申请对此不再赘述。
S602:电子设备100将获取到的声源数量M作为先验信息,通过深度学习方法对音频信号X进行声源分离,将分离后的音频信号记为SNN(nNN,i,k)。其中,nNN表示声源分离后的某一个声源。nNN≤M。i表示的是帧数。k表示的是离散频点。
可理解,通过深度学习方法对音频信号X进行声源分离的具体实现方式可以参考步骤S502,在此不再赘述。
S603:电子设备100确定第一相关性。第一相关性为SBF(i,k)与SNN(nNN,i,k)的相关性。
电子设备100可以确定SBF(i,k)与SNN(nNN,i,k)的相关性。可理解,具体方式可以参考步骤S504,在此不再赘述。
S604:电子设备100确定SBF(i,k)和音频信号S中绝对值最小的音频信号为目标声源对应的音频信号。其中,音频信号S为电子设备100通过深度学习方法对音频信号X进行分离所得的音频信号中,使得第一相关性最大的音频信号。
可理解,关于音频信号S的相关描述可以参考步骤S505,在此不再赘述。
电子设备100可以将最终确定的目标声源对应的音频信号记为Starget(i,k)。其中,i表示的是帧数。k表示的是离散频点。Starget(i,k)的计算方式如下:
其中,Smin(i,k)表示的是abs(SBF(i,k))和abs(SNN(n1,i,k))中的最小值。即Smin(i,k)=min(abs(SBF(i,k)),abs(SNN(n1,i,k)))。
可理解,本申请对步骤S601和步骤S602的先后执行顺序不作限制。
下面结合图7具体介绍本申请实施例提供的又一种声源分离方法。
S701:电子设备100通过BF方法增强音频信号X中的位于目标声源方向的音频信号,将增强后的音频信号记为SBF(i,k)。其中,i表示的是帧数。k表示的是离散频点。音频信号X为对麦克风阵列采集的音频信号进行处理后的频域内的音频信号。
具体地,电子设备100可以根据目标声源的位置来确定不同麦克风采集的音频信号的方向矢量,并根据这些方向矢量和波束形成器的权值向量来对这些音频信号进行加权相干叠加,最终得到目标声源方向的音频信号。可理解,该目标声源方向的音频信号即为增强后的音频信号。将其记为SBF(i,k)。其中,i表示的是帧数。k表示的是离散频点。
可理解,BF的相关描述可参考步骤S501的内容,本申请对此不再赘述。
S702:电子设备100通过BSS方法对音频信号X进行声源分离,将分离后的音频信号记为SBSS(nBSS,i,k)。其中,nBSS表示声源分离后的某一个声源。nBSS≤M。i表示的是帧数。k表示的是离散频点。
可理解,通过BSS方法对音频信号X进行声源分离的具体实现方式可以参考步骤S503,在此不再赘述。
S703:电子设备100确定第二相关性。第二相关性为SBF(i,k)与SBSS(nBSS,i,k)的相关性。
电子设备100可以确定SBF(i,k)与SBSS(nBSS,i,k)的相关性。可理解,具体方式可以参考步骤S504,在此不再赘述。
S704:电子设备100确定SBF(i,k)和音频信号T中绝对值最小的音频信号为目标声源对应的音频信号。其中,音频信号T为电子设备100通过BSS方法对音频信号X进行分离所得的音频信号中,使得第二相关性最大的音频信号。
可理解,关于音频信号T的相关描述可以参考步骤S505,在此不再赘述。
电子设备100可以将最终确定的目标声源对应的音频信号记为Starget(i,k)。其中,i表示的是帧数。k表示的是离散频点。Starget(i,k)的计算方式如下:
其中,Smin(i,k)表示的是abs(SBF(i,k))和abs(SBSS(n2,i,k))中的最小值。即Smin(i,k)=min(abs(SBF(i,k)),abs(SBSS(n2,i,k)))。
可理解,本申请对步骤S701和步骤S702的先后执行顺序不作限制。
下面结合图8具体介绍本申请实施例提供的一种录制处理方法。
S801:电子设备100通过麦克风阵列采集音频信号。
可理解,电子设备100可以通过该设备包括的麦克风阵列采集音频信号。可理解,步骤S801的具体内容可以参考步骤S401,在此不再赘述。
S802:电子设备100根据采集到的音频信号进行声源定位,即根据采集到的音频信号确定目标声源的位置以及声源数量。
具体的,电子设备100可以将采集到的音频信号进行处理,将其转换为频域内的音频信号以便于后续操作。电子设备100可以采取基于SRP-PHAT的声源定位方法来确定目标声源的位置以及声源数量。另外,在录像等场景下,电子设备100还可以结合图像以及用户操作进一步确定目标声源的位置。可理解,步骤S802的具体内容可参考步骤S402和步骤S403,在此不再赘述。
S803:电子设备100基于目标声源的位置和声源数量,来对采集到的音频信号进行声源分离,得到目标声源的音频信号。
具体的,电子设备100可以基于目标声源的位置和声源数量,采取BF方法、深度学习方法和BSS方法分别对采集到的音频信号进行声源分离。电子设备100可以根据采取上述三种方法进行声源分离所得到的结果,确定目标声源的音频信号Starget(i,k)。可理解,步骤S803的具体内容可以参考图5、图6和图7所示的实施例,在此不再赘述。
S804:电子设备100基于目标声源的音频信号,确定干扰信号。
可理解,电子设备100可以根据目标声源的音频信号Starget(i,k)、Xm(i,k)来确定干扰信号。将干扰信号记为Sother(i,k)。则有:Sother(i,k)=Xm(i,k)-Starget(i,k)。
S805:电子设备100基于目标声源的音频信号和干扰信号,确定信噪比。
电子设备100基于目标声源的音频信号和干扰信号,可以确定信噪比。将信噪比记为SNR(i)。其中,i表示帧数。SNR(i)的计算方式如下:
需要说明的是,电子设备100可以在显示屏上显示信噪比来提醒用户注意当前的拾音质量。
在本申请的一些实施例中,电子设备100可以在显示屏上显示当前录制环境中的拾音质量所属的质量等级。
示例性的,若信噪比大于第一阈值,电子设备100确定当前录制环境中的拾音质量所属的质量等级为第一质量等级。若信噪比小于第二阈值,电子设备100确定当前录制环境中的拾音质量所属的质量等级为第二质量等级。若信噪比不小于第二阈值,且不大于第一阈值,电子设备100确定当前录制环境中的拾音质量所属的质量等级为第三质量等级。可理解,第一质量等级可以表示当前录制环境中的拾音质量良好。第二质量等级可以表示当前录制环境中的拾音质量差。第三质量等级可以表示当前录制环境中的拾音质量一般。
可理解,第一阈值和第二阈值可以根据实际需要进行设置,本申请对此不作限制。
示例性的,第一阈值可以设置为20dB,第二阈值可以设置为0dB。
需要说明的是,权利要求书中所提及的电子设备可以为本申请实施例中的电子设备100。
在本申请的一些实施例中,第一音频信号可以为前述实施例中的音频信号X。第二音频信号可以为前述实施例中的Starget(i,k)。
在本申请的一些实施例中,第三音频信号可以为前述实施例中的SBF(i,k)。
在本申请的一些实施例中,第一分离音频信号集可以为前述实施例中的SNN(nNN,i,k)。
在本申请的一些实施例中,第二分离音频信号集可以为前述实施例中的SBSS(nBSS,i,k)。在本申请的一些实施例中,第四音频信号可以为前述实施例中的音频信号S。
在本申请的一些实施例中,第五音频信号可以为前述实施例中的音频信号T。
在本申请的一些实施例中,权利要求书中所提及的预设阈值可以包括前述实施例中的第一阈值和第二阈值。
另外,需要说明的是,本申请中所出现的声源所对应的音频信号,与声源产生的音频信号,以及来自声源的音频信号具有相同的含义。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (13)
1.一种录制处理方法,其特征在于,应用于电子设备,所述方法包括:
接收录制启动指令;
响应所述录制启动指令,采集第一音频信号;所述第一音频信号包括至少一个声源产生的音频信号;
对所述第一音频信号进行处理,得到目标声源的位置;
基于所述目标声源的位置,对所述第一音频信号进行处理,得到第二音频信号;所述第二音频信号为所述目标声源产生的音频信号;
在录制的过程中,根据所述第一音频信号和所述第二音频信号输出提示信息;所述提示信息用于表征当前录制环境中的拾音质量。
2.如权利要求1所述的方法,其特征在于,基于所述目标声源的位置,对所述第一音频信号进行处理,得到第二音频信号,具体包括:
基于所述目标声源的位置,增强位于所述目标声源方向的音频信号,得到第三音频信号;
基于所述当前录制环境中的声源数量,通过第一分离方法从所述第一音频信号中分离出不同声源产生的音频信号,得到第一分离音频信号集;
通过第二分离方法从所述第一音频信号中分离出不同声源产生的音频信号,得到第二分离音频信号集;
基于所述第三音频信号和所述第一分离音频信号集,确定第四音频信号;所述第四音频信号为所述第一分离音频信号集中与所述第三音频信号的相关性最大的音频信号;
基于所述第三音频信号和所述第二分离音频信号集,确定第五音频信号;所述第五音频信号为所述第二分离音频信号集中与所述第三音频信号的相关性最大的音频信号;
将所述第三音频信号、所述第四音频信号和所述第五音频信号中绝对值最小的音频信号确定为所述第二音频信号。
3.如权利要求1所述的方法,其特征在于,基于所述目标声源的位置,对所述第一音频信号进行处理,得到第二音频信号,具体包括:
基于所述目标声源的位置,增强位于所述目标声源方向的音频信号,得到第三音频信号;
基于所述当前录制环境中的声源数量,通过第一分离方法从所述第一音频信号中分离出不同声源产生的音频信号,得到第一分离音频信号集;
基于所述第三音频信号和所述第一分离音频信号集,确定第四音频信号;所述第四音频信号为所述第一分离音频信号集中与所述第三音频信号的相关性最大的音频信号;
将所述第三音频信号和所述第四音频信号中绝对值最小的音频信号确定为所述第二音频信号。
4.如权利要求1所述的方法,其特征在于,基于所述目标声源的位置,对所述第一音频信号进行处理,得到第二音频信号,具体包括:
基于所述目标声源的位置,增强位于所述目标声源方向的音频信号,得到第三音频信号;
通过第二分离方法从所述第一音频信号中分离出不同声源产生的音频信号,得到第二分离音频信号集;
基于所述第三音频信号和所述第二分离音频信号集,确定第五音频信号;所述第五音频信号为所述第二分离音频信号集中与所述第三音频信号的相关性最大的音频信号;
将所述第三音频信号和所述第五音频信号中绝对值最小的音频信号确定为所述第二音频信号。
5.如权利要求1-4任一项所述的方法,其特征在于,根据所述第一音频信号和所述第二音频信号输出提示信息,具体包括:
根据所述第一音频信号和所述第二音频信号,得到所述当前录制环境中的信噪比;
通过比较所述信噪比与预设阈值,确定所述当前录制环境中的拾音质量所属的质量等级;
显示所述当前录制环境中的拾音质量所属的质量等级;
其中,不同的质量等级表征不同的拾音质量。
6.如权利要求1-4任一项所述的方法,其特征在于,根据所述第一音频信号和所述第二音频信号输出提示信息,包括:
根据所述第一音频信号和所述第二音频信号,得到所述当前录制环境中的信噪比;
显示所述信噪比。
7.一种电子设备,包括一个或多个存储器、一个或多个处理器,其特征在于,所述一个或多个处理器与所述一个或多个存储器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
所述处理器,用于接收录制启动指令;
所述处理器,还用于响应所述录制启动指令,采集第一音频信号;所述第一音频信号包括至少一个声源产生的音频信号;
所述处理器,还用于对所述第一音频信号进行处理,得到目标声源的位置;
所述处理器,还用于基于所述目标声源的位置,对所述第一音频信号进行处理,得到第二音频信号;所述第二音频信号为所述目标声源产生的音频信号;
所述处理器,还用于在录制的过程中,根据所述第一音频信号和所述第二音频信号输出提示信息;所述提示信息用于表征当前录制环境中的拾音质量。
8.如权利要求7所述的电子设备,其特征在于,所述处理器,在用于基于所述目标声源的位置,对所述第一音频信号进行处理,得到第二音频信号时,具体用于:
基于所述目标声源的位置,增强位于所述目标声源方向的音频信号,得到第三音频信号;
基于所述当前录制环境中的声源数量,通过第一分离方法从所述第一音频信号中分离出不同声源产生的音频信号,得到第一分离音频信号集;
通过第二分离方法从所述第一音频信号中分离出不同声源产生的音频信号,得到第二分离音频信号集;
基于所述第三音频信号和所述第一分离音频信号集,确定第四音频信号;所述第四音频信号为所述第一分离音频信号集中与所述第三音频信号的相关性最大的音频信号;
基于所述第三音频信号和所述第二分离音频信号集,确定第五音频信号;所述第五音频信号为所述第二分离音频信号集中与所述第三音频信号的相关性最大的音频信号;
将所述第三音频信号、所述第四音频信号和所述第五音频信号中绝对值最小的音频信号确定为所述第二音频信号。
9.如权利要求7所述的电子设备,其特征在于,所述处理器,在用于基于所述目标声源的位置,对所述第一音频信号进行处理,得到第二音频信号时,具体用于:
基于所述目标声源的位置,增强位于所述目标声源方向的音频信号,得到第三音频信号;
基于所述当前录制环境中的声源数量,通过第一分离方法从所述第一音频信号中分离出不同声源产生的音频信号,得到第一分离音频信号集;
基于所述第三音频信号和所述第一分离音频信号集,确定第四音频信号;所述第四音频信号为所述第一分离音频信号集中与所述第三音频信号的相关性最大的音频信号;
将所述第三音频信号和所述第四音频信号中绝对值最小的音频信号确定为所述第二音频信号。
10.如权利要求7所述的电子设备,其特征在于,所述处理器,在用于基于所述目标声源的位置,对所述第一音频信号进行处理,得到第二音频信号时,具体用于:
基于所述目标声源的位置,增强位于所述目标声源方向的音频信号,得到第三音频信号;
通过第二分离方法从所述第一音频信号中分离出不同声源产生的音频信号,得到第二分离音频信号集;
基于所述第三音频信号和所述第二分离音频信号集,确定第五音频信号;所述第五音频信号为所述第二分离音频信号集中与所述第三音频信号的相关性最大的音频信号;
将所述第三音频信号和所述第五音频信号中绝对值最小的音频信号确定为所述第二音频信号。
11.如权利要求7-10任一项所述的电子设备,其特征在于,所述处理器,在用于根据所述第一音频信号和所述第二音频信号输出提示信息时,具体用于:
根据所述第一音频信号和所述第二音频信号,得到所述当前录制环境中的信噪比;
通过比较所述信噪比与预设阈值,确定所述当前录制环境中的拾音质量所属的质量等级;
所述电子设备还包括显示屏;所述显示屏,用于显示所述当前录制环境中的拾音质量所属的质量等级;
其中,不同的质量等级表征不同的拾音质量。
12.如权利要求7-10任一项所述的电子设备,其特征在于,所述处理器,在用于根据所述第一音频信号和所述第二音频信号输出提示信息时,具体用于:
根据所述第一音频信号和所述第二音频信号,得到所述当前录制环境中的信噪比;
所述电子设备还包括显示屏;所述显示屏,用于显示所述信噪比。
13.一种计算机存储介质,其特征在于,包括:计算机指令;当所述计算机指令在电子设备上运行时,使得所述电子设备执行权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110877286.1A CN115691555A (zh) | 2021-07-31 | 2021-07-31 | 一种录制处理方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110877286.1A CN115691555A (zh) | 2021-07-31 | 2021-07-31 | 一种录制处理方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115691555A true CN115691555A (zh) | 2023-02-03 |
Family
ID=85060088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110877286.1A Pending CN115691555A (zh) | 2021-07-31 | 2021-07-31 | 一种录制处理方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115691555A (zh) |
-
2021
- 2021-07-31 CN CN202110877286.1A patent/CN115691555A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111050269B (zh) | 音频处理方法和电子设备 | |
CN108538311B (zh) | 音频分类方法、装置及计算机可读存储介质 | |
CN109887494B (zh) | 重构语音信号的方法和装置 | |
CN113475057A (zh) | 一种录像帧率的控制方法及相关装置 | |
WO2021052111A1 (zh) | 图像处理方法及电子装置 | |
CN111048111B (zh) | 检测音频的节奏点的方法、装置、设备及可读存储介质 | |
CN113810603B (zh) | 点光源图像检测方法和电子设备 | |
CN113744750B (zh) | 一种音频处理方法及电子设备 | |
CN113891009B (zh) | 曝光调整方法及相关设备 | |
CN113823314B (zh) | 语音处理方法和电子设备 | |
CN109003621B (zh) | 一种音频处理方法、装置及存储介质 | |
CN113170037A (zh) | 一种拍摄长曝光图像的方法和电子设备 | |
CN114422935B (zh) | 音频处理方法、终端及计算机可读存储介质 | |
WO2022156473A1 (zh) | 一种播放视频的方法及电子设备 | |
CN111613213A (zh) | 音频分类的方法、装置、设备以及存储介质 | |
CN113573120A (zh) | 音频的处理方法及电子设备 | |
CN115641867B (zh) | 语音处理方法和终端设备 | |
CN114283195B (zh) | 生成动态图像的方法、电子设备及可读存储介质 | |
WO2022033344A1 (zh) | 视频防抖方法、终端设备和计算机可读存储介质 | |
CN113923372B (zh) | 曝光调整方法及相关设备 | |
WO2022062985A1 (zh) | 视频特效添加方法、装置及终端设备 | |
CN111916105B (zh) | 语音信号处理方法、装置、电子设备及存储介质 | |
CN114845059A (zh) | 一种拍摄方法及相关设备 | |
CN114465852A (zh) | 信号处理方法及相关装置 | |
CN115691555A (zh) | 一种录制处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |