CN111970625B - 录音方法和装置、终端和存储介质 - Google Patents
录音方法和装置、终端和存储介质 Download PDFInfo
- Publication number
- CN111970625B CN111970625B CN202010882361.9A CN202010882361A CN111970625B CN 111970625 B CN111970625 B CN 111970625B CN 202010882361 A CN202010882361 A CN 202010882361A CN 111970625 B CN111970625 B CN 111970625B
- Authority
- CN
- China
- Prior art keywords
- audio signals
- terminal
- portrait
- audio
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000005236 sound signal Effects 0.000 claims abstract description 193
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 27
- 230000008054 signal transmission Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 230000001360 synchronised effect Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 7
- 230000007613 environmental effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- -1 falling Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请提供了一种录音方法。录音方法包括判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像;若存在,则通过所述终端的至少三个麦克风进行录音,以获取至少三个第一音频信号;根据所述至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪;及合成去噪后的至少三个所述第一音频信号,以生成立体音频信号。本申请实施方式的录音方法中通过至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪,可将声源所在的波束角之外的环境噪音去除,录音效果较好。本申请还提供一种录音装置、终端和非易失性计算机可读存储介质。
Description
技术领域
本申请涉及录音技术领域,特别涉及一种录音方法、录音装置、终端和非易失性计算机存储介质。
背景技术
立体声,就是指具有立体感的声音,为了实现立体声录音,终端一般通过多个不同位置的麦克风进行录音以合成立体音频信号,然而,录音时不仅会录到声源的声音,还会将声源周围的环境噪音一并录入,导致录音效果较差。
发明内容
为此,本申请的实施方式提供了一种录音方法、录音装置、终端和非易失性计算机存储介质。
本申请实施方式的录音方法包括判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像;若存在,则通过所述终端的至少三个麦克风进行录音,以获取至少三个第一音频信号;根据所述至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪;及合成去噪后的至少三个所述第一音频信号,以生成立体音频信号。
本申请实施方式的录音装置包括判断模块、第一获取模块、去噪模块和第一合成模块。所述判断模块用于判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像;所述获取模块用于在所述采集图像中存在所述人像时,通过所述终端的至少三个麦克风进行录音,以获取至少三个第一音频信号;所述去噪模块用于根据所述至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪;所述合成模块用于合成去噪后的至少三个所述第一音频信号,以生成立体音频信号。
本申请实施方式的终端包括摄像头、至少三个麦克风和处理器,所述处理器用于:判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像;在所述采集图像中存在所述人像时,通过所述终端的至少三个麦克风进行录音,以获取至少三个第一音频信号;根据所述至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪;及合成去噪后的至少三个所述第一音频信号,以生成立体音频信号。
本申请的一种包含计算机程序的非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,使得所述处理器执行录音方法。所述录音方法包括判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像;若存在,则通过所述终端的至少三个麦克风进行录音,以获取至少三个第一音频信号;根据所述至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪;及合成去噪后的至少三个所述第一音频信号,以生成立体音频信号。
本申请的录音方法、录音装置、终端和非易失性计算机可读存储介质通过至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪,可准确地确定波束角并将声源所在的波束角之外的环境噪音去除,录音效果较好。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请某些实施方式的录音方法的流程示意图;
图2是本申请某些实施方式的录音装置的模块示意图;
图3是本申请某些实施方式的终端和耳机的连接示意图;
图4是本申请某些实施方式的终端背部的平面示意图;
图5是本申请某些实施方式的录音方法的流程示意图;
图6是本申请某些实施方式的录音装置的模块示意图;
图7是本申请某些实施方式的录音方法的流程示意图;
图8是本申请某些实施方式的录音装置的模块示意图;
图9是本申请某些实施方式的录音方法的原理示意图;
图10是本申请某些实施方式的录音方法的流程示意图;
图11是本申请某些实施方式的录音装置的模块示意图;
图12是本申请某些实施方式的录音方法的流程示意图;和
图13是本申请某些实施方式的处理器和计算机可读存储介质的连接示意图。
具体实施方式
以下结合附图对本申请的实施方式作进一步说明。附图中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。另外,下面结合附图描述的本申请的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的限制。
请参阅图1和图3,本申请实施方式的录音方法包括以下步骤:
011:判断终端100的摄像头20拍摄的一帧或多帧采集图像是否存在人像;
012:若存在,则通过终端100的至少三个麦克风30进行录音,以获取至少三个第一音频信号;
013:根据至少三个第一音频信号和人像在采集图像的位置确定的波束角对至少三个第一音频信号进行去噪;及
014:合成去噪后的至少三个第一音频信号,以生成立体音频信号。
请参阅图2,在某些实施方式中,录音装置10包括判断模块11、第一获取模块12、去噪模块13和第一合成模块14。判断模块11、第一获取模块12、去噪模块13和第一合成模块14分别用于执行步骤011、步骤012、步骤013和步骤014。即,判断模块11用于判断终端100的摄像头20拍摄的一帧或多帧采集图像是否存在人像;第一获取模块12用于在采集图像存在人像时,通过至少三个麦克风30进行录音,以获取至少三个第一音频信号;去噪模块13用于根据至少三个第一音频信号和人像在采集图像的位置确定的波束角对至少三个第一音频信号进行去噪;第一合成模块14用于合成去噪后的至少三个第一音频信号,以生成立体音频信号。
在某些实施方式中,终端100包括摄像头20、至少三个麦克风30和处理器40。处理器40用于判断终端100的摄像头20拍摄的一帧或多帧采集图像是否存在人像;在采集图像存在人像时,通过至少三个麦克风30进行录音,以获取至少三个第一音频信号;根据至少三个第一音频信号和人像在采集图像的位置确定的波束角对至少三个第一音频信号进行去噪;及合成去噪后的至少三个第一音频信号,以生成立体音频信号。也即是说,步骤011、步骤012、步骤013和步骤014可以由处理器40实现。
具体地,终端100包括摄像头20、至少三个麦克风30、处理器40、壳体50和显示屏60。终端100可以是手机、平板电脑、显示器、笔记本电脑、柜员机、闸机、智能手表、头显设备、游戏机等。如图3所示,本申请实施方式以终端100是手机为例进行说明,可以理解,终端100的具体形式并不限于手机。壳体50还可用于安装终端100的音频装置(即,麦克风和扬声器)、成像装置(即,摄像头20)、显示装置(即显示屏60)、供电装置、通信装置等功能模块,以使壳体50为功能模块提供防尘、防摔、防水等保护。
摄像头20可以是前置相机、后置相机、侧置相机等,摄像头20还可设置在屏下,在此不做限制。摄像头20包括镜头模组和图像传感器,摄像头20和处理器40安装在壳体50内。壳体50光线经过显示屏60后进入镜头模组,再来到图像传感器,图像传感器用于将照射到图像传感器上的光信号转化为电信号,以生成初始图像。
请结合图3和图4,终端100可设置有至少三个麦克风30,至少三个麦克风30至少分别设置在终端100的两侧,任意两个麦克风30之间的距离大于预定距离,如预定距离可以是1厘米、2厘米、3厘米等。例如,终端100设置有三个麦克风30、四个麦克风30、五个麦克风30等,本申请实施方式中,终端100设置有四个麦克风30,分别为设置在终端100的底部的两个麦克风30、设置在顶部的一个麦克风30,以及设置在背部的一个麦克风30,四个麦克风设置的位置差异较大,能够提高立体录音效果。
处理器40首先判断摄像头20拍摄的一帧或多帧采集图像是否存在人像,其中,人像指的是包含人的特定部位的图像区域,例如人像为包含脸部的图像区域。处理器40可判断预定帧数内的采集图像是否存在人像,预定帧数可以是1帧、2帧、3帧、4帧、10帧等,在存在人像时,说明终端100此时可能正在进行视频通话,或者用户正在利用摄像头20给其他用户拍摄视频,此时声源处于摄像头20的视场角内。
处理器40可基于波束赋形原理,利用终端100的四个麦克风30的相对空间坐标和四个麦克风30采集的四个第一音频信号的采集时延,计算出声源相对终端100的第一波束角。具体地,麦克风30接收到声源发出的声音后会将声音信号转换为音频信号,根据第一音频信号对应的音频波形即可确定任意两个第一音频信号之间的采集时延,以其中一个第一音频信号为基准,即可计算得到其他三个第一音频信号相对该第一音频信号的采集时延,然后以任一麦克风30或者终端100的中心位置为坐标原点建立空间坐标系,根据麦克风30预设的安装位置,即可计算得到其他三个麦克风30相对该麦克风30的空间坐标,根据四个麦克风30的空间坐标和每个麦克风30采集的第一音频信号对应的采集时延,即可计算得到声源相对坐标原点(如终端100的中心)的空间坐标,从而进一步计算得到第一波束角,终端100的中心和声源的连线即为第一波束角的平分线,第一波束角可以是20度、30度、50度等,可根据终端100的麦克风30的数量确定,麦克风30数量越多,第一波束角越小。第一波束角可用于表征声源相对终端100在水平面上的方位。
处理器40还可获取人像在采集图像中的位置以确定第二波束角,可以理解,采集图像中人像的位置与人像对应的声源相对摄像头20的位置是对应的,如人像对应的声源位于摄像头20的左侧,则人像在采集图像中的位置也是左侧,人像对应的声源位于摄像头20的右侧,则人像在采集图像中的位置也是右侧。如此,处理器40根据人像在采集图像中的位置能够确定声源相对摄像头第二波束角。第二波束角可用于表征声源相对摄像头20在水平面上的方位。第二波束角可以是一个预定值,该预定值可根据摄像头20的视场角确定,例如,摄像头20的水平视场角120度,若人像在采集图像中的位置为左侧,则可确定第二视场角的角度范围为[0度,60度],若人像在采集图像中的位置为右侧,则可确定第二视场角的角度范围为[60度,120度]。从而根据人像在采集图像的位置确定一个初步的角度范围。
在其他实施方式中,人像占据采集图像的面积占整个采集图像的面积的比例越大,说明声源离终端100越近,第二波束角越大,人像占据采集图像的面积占整个采集图像的面积的比例越小,说明声源离终端100越远,第二波束角越小,例如,在用户距离摄像头极近时,人像占据整个采集图像,此时的第二波束角基本等于摄像头20的水平视场角。如此,处理器40根据人像在采集图像中的位置和人像占据采集图像的面积占整个采集图像的面积的比例即可更准确地确定第二波束角的角度范围,如第二波束角的角度范围可以是[0度,30度]、[10度,50度]、[30度,60度]、[0度,120度]等。
处理器40可融合第一波束角和第二波束角,以更为准确地确定声源相对于终端100的波束角。融合方式可以是:
处理器40可识别当前场景的声源数量,在声源数量较大时,使用波束赋形的方式计算的第一波束角的准确性较低。例如,处理器40识别麦克风30接收的第一音频信号中强度大于预定声源强度阈值的信号数量,以作为声源数量,当声源数量大于第一预设阈值(如第一预设阈值为1、2、3、4等)时,使用波束赋形的方式计算的第一波束角的准确性较低,此时以第二波束角作为声源相对于终端100的波束角;而在声源数量小于或等于预设阈值时,此时使用波束赋形的方式计算的第一波束角的准确性较高,此时以第一波束角作为声源相对于终端100的波束角。
同样的,处理器40可识别采集图像中人像数量时,人像数量较大时,人像识别的速度和准确性均会下降。例如,在人像数量大于第二预设阈值(如第二预设阈值为1、2、3、4等)时,使用根据人像在采集图像中的位置确定第二波束角的方式计算的第二波束角的准确性较低,此时第一波束角作为声源相对于终端100的波束角;人像数量若小于或等于第二预设阈值时,使用根据人像在采集图像中的位置确定第二波束角的方式计算的第二波束角的准确性较高,此时以第二波束角作为声源相对于终端100的波束角。
在确定波束角之后,处理器40通过调节终端100的每个麦克风30的增益,以增强波束角内的音频信号而过滤波束角之外的音频信号,可以理解,声源之外的声音一般为环境噪音,因此,根据过滤波束角之外的音频信号能够很好的消除终端100的麦克风30采集的环境噪音。
最后,处理器40将去噪后的四个第一音频信号进行合成,以生成立体音频信号,且由于四个第一音频信号对应的麦克风30的安装位置不同,四个第一音频信号包括声源在不同方位的音频信号,从而使得合成的立体音频信号的空间立体感更好。
本申请实施方式的录音方法、录音装置10和终端100通过至少三个第一音频信号和人像在采集图像的位置确定的波束角对至少三个第一音频信号进行去噪,可准确地确定波束角并将声源所在的波束角之外的环境噪音去除,录音效果较好,且得到的立体音频信号的空间立体感较好。
请参阅图5,在某些实施方式中,录音方法还包括以下步骤:
015:若采集图像不存在人像,则开启左耳耳机210和右耳耳机220的麦克风240进行录音以获取二个第二音频信号;及
016:合成二个第二音频信号,以生成立体音频信号。
请参阅图6,在某些实施方式中,录音装置10还包括第二获取模块15和第二合成模块16,第二获取模块15和第二合成模块16分别用于执行步骤015和步骤016。即,第二获取模块15用于在采集图像不存在人像时,开启左耳耳机210和右耳耳机220的麦克风进行录音以获取二个第二音频信号;第二合成模块16用于合成二个第二音频信号,以生成立体音频信号。
请再次参阅图3,在某些实施方式中,处理器40还用于在采集图像不存在人像时,开启左耳耳机210和右耳耳机220的麦克风240进行录音以获取二个第二音频信号;合成二个第二音频信号,以生成立体音频信号。也即是说,步骤015和步骤016可以由处理器40实现。
具体地,在一帧或多帧采集图像均不存在人像时,说明此时进行视频通话或被拍摄的用户不在摄像头20前,或者暂时离开了摄像头20前,用户距离终端100的距离可能较远,此时可使用与终端100连接的耳机200的麦克风240进行录音,由于耳机200一般穿戴在用户耳部,距离用户较近,相较于距离较远的终端100的麦克风30而言,耳机200的麦克风240录制用户的声音时更为清晰。
终端100和耳机200的连接可以是有线连接或无线连接。有线连接如终端100设置有耳机插口,耳机200包括耳机线和与耳机线连接的耳机插头,通过耳机插头插入耳机插口即可实现终端100和耳机200的有线连接。无线连接如耳机200和终端100可通过蓝牙实现无线连接。如图3所示,本申请的终端100和耳机200通过蓝牙实现无线连接。
处理器40可设置在终端100和/或耳机200,例如处理器40为一个且设置在终端100,或者处理器40为多个(如分别为第一处理器41和第二处理器230),分别设置在终端100和耳机200上,在终端100和耳机200连接后,第一处理器41和第二处理器230能够实现通信连接。本实施方式中,处理器40包括第一处理器41和第二处理器230,分别设置在终端100和耳机200上。在一帧或多帧采集图像均不存在人像时,第一处理器41将录音指令发送给第二处理器40,以使得第二处理器40控制左耳耳机210和右耳耳机220的麦克风240进行录音以获取二个第二音频信号。
耳机200包括左耳耳机210、右耳耳机220和第二处理器230,左耳耳机210和右耳耳机220连接,在耳机200和终端100连接时,左耳耳机210和右耳耳机220中的一个作为主耳机,另一个作为从耳机,第二处理器230设置在主耳机内。如以左耳耳机210作为主耳机,右耳耳机220作为从耳机,终端100可先与左耳耳机210的第二处理器230实现蓝牙连接,然后左耳耳机210再与右耳耳机220实现蓝牙连接,从而通过左耳耳机210和右耳耳机220的连接实现同步,且终端100只需与左耳耳机210进行通信即可。
左耳耳机210和右耳耳机220均设置有麦克风240,左耳耳机210的麦克风240和右耳耳机220的麦克风240贴合人的左耳和右耳的声场,无需转化即可得到类似左右声道的第二音频信号,第二处理器230将第二音频信号合成即可生成立体音频信号。
请参阅图7,在某些实施方式中,录音方法还包括以下步骤:
017:根据终端100到左耳耳机210和右耳耳机220的信号传输时间,同步去噪后的至少三个第一音频信号和二个第二音频信号;及
018:合成同步后的至少三个第一音频信号和二个第二音频信号,以生成立体音频信号。
请参阅图8,在某些实施方式中,录音装置10还包括同步模块17和第三合成模块18。同步模块17和第三合成模块18分别用于执行步骤017步骤018。即,同步模块17用于根据终端100到左耳耳机210和右耳耳机220的信号传输时间,同步去噪后的至少三个第一音频信号和二个第二音频信号;第三合成模块18用于合成同步后的至少三个第一音频信号和二个第二音频信号,以生成立体音频信号。
请再次参阅图3,在某些实施方式中,处理器40还用于根据终端100到左耳耳机210和右耳耳机220的信号传输时间,同步去噪后的至少三个第一音频信号和二个第二音频信号;及合成同步后的至少三个第一音频信号和二个第二音频信号,以生成立体音频信号。也即是说,步骤017和步骤018可以由处理器40实现。
具体地,在采集图像后不存在人像时,除了开启左耳耳机210和右耳耳机220的麦克风240进行录音以获取二个第二音频信号之外,终端100的至少三个麦克风30同时也会进行录音以得到至少三个第一音频信号,终端100和耳机200连接后,第一处理器41和/或第二处理器230均可获取终端100的麦克风30采集的第一音频信号、左耳耳机210的麦克风240采集的第二音频信号、右耳耳机220的麦克风240采集的第二音频信号。例如,第一处理器41获取到第一音频信号后,通过蓝牙传输给第二处理器230,第二处理器230可直接获取到第二音频信号,由于第一音频信号需要通过蓝牙传输给第二处理器230,而蓝牙传输需要消耗一定的时间,因此,在第二处理器230获取到第一音频信号后,会计算信号传输时间,从而同步第一音频信号和第二音频信号,使得第一音频信号和第二音频信号的开始时间相同。
计算信号传输时间的方式可以是:第一处理器41在发送第一音频信号的同时会发送时间戳信号,时间戳信号可用于表征第一音频信号的发射时间,第二处理器230接收到时间戳信号后根据发射时间和接收时间即可确定信号传输时间,从而根据信号传输时间同步第一音频信号和第二音频信号。
然后根据同步后的第一音频信号和第二音频信号即可合成立体音频信号。由于左耳耳机210、右耳耳机220和终端100的麦克风30的位置差异较大,采集的至少三个第一音频信号和两个第二音频信号包括声源在不同方位的音频信号,从而使得合成的立体音频信号的空间立体感更好。
在某些实施方式中,处理器40根据声源相对终端100的波束角、耳机200相对终端100的空间坐标确定声源相对耳机200的波束角;根据声源相对耳机200的波束角调节左耳耳机210和右耳耳机220的麦克风240的增益,以过滤第二音频信号中的环境噪音。
具体地,处理器40根据摄像头20拍摄的采集图像中,人像对应人的头部的区域在采集图像中的位置、及人像对应人的头部的区域的面积占采集图像的面积的比例,即可确定耳机200相对终端100的空间坐标,其中,根据人像对应人的头部的区域在采集图像中的位置可确定耳机200相对终端100的方位角,根据人像对应人的头部的区域的面积占采集图像的面积的比例可确定耳机200相对终端100的距离,根据耳机200相对终端100的方位角和距离即可计算得到耳机200相对终端100的空间坐标。
然后处理器40根据前述实施方式计算得到的声源O相对终端100的空间坐标即可确定声源O相对耳机200的空间坐标,从而确定声源O相对耳机200的波束角(如图9所示的波束角β),声源O和耳机200的连线即为波束角β的平分线,波束角β可以是20度、30度、50度等,可根据声源O相对终端100的波束角(如图9所示的波束角α)确定,波束角α越小(即,波束角α越准确),波束角β也越小。
在计算得到波束角β之后,将根据波束角β调节左耳耳机210和右耳耳机220的麦克风240的增益,以增强波束角β内的第二音频信号而过滤波束角β之外的第二音频信号,可以理解,声源O之外的声音一般为环境噪音,因此,根据过滤波束角β之外的第二音频信号能够很好的消除耳机200的麦克风240采集的环境噪音以得到更为准确的第二音频信号。
请参阅图10,在某些实施方式中,录音方法还包括以下步骤:
019:根据至少三个第一音频信号确定一个或多个第一波束角;
020:根据人像在采集图像的位置确定第二波束角;及
021:根据一个或多个第一波束角和第二波束角计算波束角。
请参阅图11,在某些实施方式中,录音装置10还包括第一确定模块19、第二确定模块20和计算模块21。第一确定模块19、第二确定模块20和计算模块21分别用于执行步骤019、步骤020和步骤021。即,第一确定模块19用于根据至少三个第一音频信号确定一个或多个第一波束角;第二确定模块20用于根据人像在采集图像的位置确定第二波束角;计算模块21用于根据一个或多个第一波束角和第二波束角计算波束角。
请再次参阅图3,在某些实施方式中,处理器40还用于根据至少三个第一音频信号确定一个或多个第一波束角;根据人像在采集图像的位置确定第二波束角;及根据一个或多个第一波束角和第二波束角计算波束角。也即是说,步骤019、步骤020和步骤021可以由处理器40实现。
具体地,可以理解,波束赋形原理中,只需要三个形成三角形的麦克风即可计算得到波束角,当终端100的麦克风30数量为三时,可得到一个第一波束角,而当终端100的麦克风30数量大于三时,每三个麦克风30的采集的第一音频信号即可计算得到一个第一波束角,处理器40可将所有组合(每三个为一组,如存在四个麦克风30时则有4种组合)的第一波束角均计算得到,然后根据利用最小二乘法对所有第一波束角进行处理以求出最优解,从而利用到终端100所有的麦克风30的信息来提高第一波束角的稳定性和准确性。最后处理器40根据最优解和第二波束角准确地确定声源相对于终端100的波束角,从而提高录音效果。
请参阅图12,在某些实施方式中,步骤014包括以下步骤:
0142:将去噪后的至少三个第一音频信号转化为左右声道,以生成立体音频信号。
请再次参阅图11,在某些实施方式中,第一合成模块14还用于执行步骤0142。即,第一合成模块14还用于将去噪后的至少三个第一音频信号转化为左右声道,以生成立体音频信号。
请再次参阅图3,在某些实施方式中,处理器40还用于将去噪后的至少三个第一音频信号转化为左右声道,以生成立体音频信号。也即是说,步骤0142可以由处理器40实现。
具体地,在得到第一音频信号、或者得到第一音频信号和第二音频信号后,由于终端100的扬声器和耳机200一般是通过左右声道实现立体声的播放,因此,需要将第一音频信号和第二音频信号转换为左右声道,从而生成立体音频信号以供终端100或耳机200播放。当然,第一音频信号和第二音频信号还可转换为更多的声道,如根据位置不同的麦克风数量,可以转换为4声道(对应4个麦克风)、8声道(对应8个麦克风)等等,从而提升立体音频信号的空间立体感。
请参阅图13,本申请实施方式的一种存储有计算机程序302的非易失性计算机可读存储介质300,当计算机程序302被一个或多个处理器40执行时,使得处理器40可执行上述任一实施方式的录音方法。
例如,请结合图1和图3,当计算机程序302被一个或多个处理器40执行时,使得处理器40执行以下步骤:
011:判断终端100的摄像头20拍摄的一帧或多帧采集图像是否存在人像;
012:若存在,则通过终端100的至少三个麦克风30进行录音,以获取至少三个第一音频信号;
013:根据至少三个第一音频信号和人像在采集图像的位置确定的波束角对至少三个第一音频信号进行去噪;及
014:合成去噪后的至少三个第一音频信号,以生成立体音频信号。
再例如,请结合图3和图5,当计算机程序302被一个或多个处理器40执行时,处理器40还可以执行以下步骤:
015:若采集图像不存在人像,则开启左耳耳机210和右耳耳机220的麦克风240进行录音以获取二个第二音频信号;及
016:合成二个第二音频信号,以生成立体音频信号。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的程序的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。
Claims (10)
1.一种录音方法,其特征在于,包括:
判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像;
若存在,则通过所述终端的至少三个麦克风进行录音,以获取至少三个第一音频信号;
根据至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪,在识别到当前场景的声源数量小于第一预设阈值时,选择至少三个所述第一音频信号确定的波束角对至少三个所述第一音频信号进行去噪;在识别到所述采集图像的人像数量小于第二预设阈值时,选择所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪;及
合成去噪后的至少三个所述第一音频信号,以生成立体音频信号。
2.根据权利要求1所述的录音方法,其特征在于,还包括:
若所述采集图像不存在所述人像,则开启左耳耳机和右耳耳机的麦克风进行录音以获取二个第二音频信号;及
合成二个所述第二音频信号,以生成所述立体音频信号。
3.根据权利要求2所述的录音方法,其特征在于,还包括:
根据所述终端到所述左耳耳机和所述右耳耳机的信号传输时间,同步去噪后的至少三个所述第一音频信号和二个所述第二音频信号;及
合成同步后的至少三个所述第一音频信号和二个所述第二音频信号,以生成所述立体音频信号。
4.根据权利要求1所述的录音方法,其特征在于,还包括:
根据至少三个所述第一音频信号确定一个或多个第一波束角;
根据所述人像在所述采集图像的位置确定第二波束角;及
根据一个或多个所述第一波束角和所述第二波束角计算所述波束角。
5.根据权利要求1所述的录音方法,其特征在于,所述摄像头包括前置摄像头或者后置摄像头。
6.根据权利要求1所述的录音方法,其特征在于,所述终端的至少三个所述麦克风至少分别设置在所述终端的两侧,任意两个所述麦克风之间的距离大于预定距离。
7.根据权利要求1所述的录音方法,其特征在于,所述合成去噪后的至少三个所述第一音频信号,以生成立体音频信号,包括:
将去噪后的至少三个所述第一音频信号转化为左右声道,以生成所述立体音频信号。
8.一种录音装置,其特征在于,包括:
判断模块,用于判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像;
第一获取模块,用于在所述采集图像存在所述人像时,通过所述终端的至少三个麦克风进行录音,以获取至少三个第一音频信号;
去噪模块,用于根据至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪,在识别到当前场景的声源数量小于第一预设阈值时,选择所述至少三个所述第一音频信号确定的波束角对至少三个所述第一音频信号进行去噪;在识别到所述采集图像的人像数量小于第二预设阈值时,选择所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪;
第一合成模块,用于合成去噪后的至少三个所述第一音频信号,以生成立体音频信号。
9.一种终端,其特征在于,包括摄像头、至少三个麦克风和处理器,所述处理器用于:
判断所述摄像头拍摄的一帧或多帧采集图像是否存在人像;
在所述采集图像存在所述人像时,通过至少三个所述麦克风进行录音,以获取至少三个第一音频信号;
根据至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪,在识别到当前场景的声源数量小于第一预设阈值时,选择所述至少三个所述第一音频信号确定的波束角对至少三个所述第一音频信号进行去噪;在识别到所述采集图像的人像数量小于第二预设阈值时,选择所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪;及
合成去噪后的至少三个所述第一音频信号,以生成立体音频信号。
10.一种存储有计算机程序的非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,实现权利要求1至7中任一项所述的录音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010882361.9A CN111970625B (zh) | 2020-08-28 | 2020-08-28 | 录音方法和装置、终端和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010882361.9A CN111970625B (zh) | 2020-08-28 | 2020-08-28 | 录音方法和装置、终端和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111970625A CN111970625A (zh) | 2020-11-20 |
CN111970625B true CN111970625B (zh) | 2022-03-22 |
Family
ID=73401038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010882361.9A Active CN111970625B (zh) | 2020-08-28 | 2020-08-28 | 录音方法和装置、终端和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111970625B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113014844A (zh) * | 2021-02-08 | 2021-06-22 | Oppo广东移动通信有限公司 | 一种音频处理方法、装置、存储介质及电子设备 |
CN112954548B (zh) * | 2021-02-22 | 2022-09-02 | 惠州Tcl移动通信有限公司 | 一种将终端麦克风及耳麦采集的声音结合的方法及装置 |
CN115225840A (zh) * | 2021-04-17 | 2022-10-21 | 华为技术有限公司 | 一种视频录制方法和电子设备 |
CN115499537B (zh) * | 2021-06-18 | 2024-01-09 | Oppo广东移动通信有限公司 | 麦克风的控制方法、装置、移动终端以及存储介质 |
CN113542466A (zh) * | 2021-07-07 | 2021-10-22 | Oppo广东移动通信有限公司 | 音频处理方法、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011124850A (ja) * | 2009-12-11 | 2011-06-23 | Canon Inc | 撮像装置並びにその制御方法及びプログラム |
CN102595265A (zh) * | 2011-01-05 | 2012-07-18 | 美律实业股份有限公司 | 具有录音功能的通讯用耳麦组合 |
CN103634476A (zh) * | 2013-12-10 | 2014-03-12 | 南京信大气象装备有限公司 | 一种基于手机的录音装置的定位方法 |
CN104581512A (zh) * | 2014-11-21 | 2015-04-29 | 广东欧珀移动通信有限公司 | 一种立体声录制方法及装置 |
CN107004426A (zh) * | 2014-11-28 | 2017-08-01 | 华为技术有限公司 | 录取录像对象的声音的方法和移动终端 |
CN108111952A (zh) * | 2017-12-26 | 2018-06-01 | 上海展扬通信技术有限公司 | 一种录音方法、装置、终端及计算机可读存储介质 |
CN111050269A (zh) * | 2018-10-15 | 2020-04-21 | 华为技术有限公司 | 音频处理方法和电子设备 |
CN111078185A (zh) * | 2019-12-26 | 2020-04-28 | 珠海格力电器股份有限公司 | 录制声音的方法及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9131305B2 (en) * | 2012-01-17 | 2015-09-08 | LI Creative Technologies, Inc. | Configurable three-dimensional sound system |
JP7230427B2 (ja) * | 2018-10-24 | 2023-03-01 | ヤマハ株式会社 | 音信号処理装置、ミキサ、および音信号処理方法 |
CN109817240A (zh) * | 2019-03-21 | 2019-05-28 | 北京儒博科技有限公司 | 信号分离方法、装置、设备及存储介质 |
-
2020
- 2020-08-28 CN CN202010882361.9A patent/CN111970625B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011124850A (ja) * | 2009-12-11 | 2011-06-23 | Canon Inc | 撮像装置並びにその制御方法及びプログラム |
CN102595265A (zh) * | 2011-01-05 | 2012-07-18 | 美律实业股份有限公司 | 具有录音功能的通讯用耳麦组合 |
CN103634476A (zh) * | 2013-12-10 | 2014-03-12 | 南京信大气象装备有限公司 | 一种基于手机的录音装置的定位方法 |
CN104581512A (zh) * | 2014-11-21 | 2015-04-29 | 广东欧珀移动通信有限公司 | 一种立体声录制方法及装置 |
CN107004426A (zh) * | 2014-11-28 | 2017-08-01 | 华为技术有限公司 | 录取录像对象的声音的方法和移动终端 |
CN108111952A (zh) * | 2017-12-26 | 2018-06-01 | 上海展扬通信技术有限公司 | 一种录音方法、装置、终端及计算机可读存储介质 |
CN111050269A (zh) * | 2018-10-15 | 2020-04-21 | 华为技术有限公司 | 音频处理方法和电子设备 |
CN111078185A (zh) * | 2019-12-26 | 2020-04-28 | 珠海格力电器股份有限公司 | 录制声音的方法及设备 |
Non-Patent Citations (1)
Title |
---|
iOS外设:iM2录音麦克风;张毅;《电脑迷》;20120131;第46页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111970625A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111970625B (zh) | 录音方法和装置、终端和存储介质 | |
US10959037B1 (en) | Gaze-directed audio enhancement | |
CN111970626B (zh) | 录音方法和装置、录音系统和存储介质 | |
US10944936B2 (en) | Beam forming for microphones on separate faces of a camera | |
JP4926916B2 (ja) | 情報処理装置、情報処理方法、およびコンピュータプログラム | |
JP6252849B2 (ja) | 撮像装置および方法 | |
US20100074460A1 (en) | Self-steering directional hearing aid and method of operation thereof | |
JP5597956B2 (ja) | 音声データ合成装置 | |
US20240064449A1 (en) | Sound Collecting Method, Electronic Device, and System | |
CN114727212B (zh) | 音频的处理方法及电子设备 | |
US10873824B2 (en) | Apparatus, system, and method of processing data, and recording medium | |
WO2018166081A1 (zh) | 一种耳机 | |
CN113573120B (zh) | 音频的处理方法及电子设备、芯片系统及存储介质 | |
US11902754B2 (en) | Audio processing method, apparatus, electronic device and storage medium | |
CN114220454B (zh) | 一种音频降噪方法、介质和电子设备 | |
WO2018168652A1 (en) | Image pickup apparatus and image pickup system | |
CN114120950A (zh) | 一种人声屏蔽方法和电子设备 | |
JP2018157314A (ja) | 情報処理システム、情報処理方法及びプログラム | |
CN112558302B (zh) | 一种用于确定眼镜姿态的智能眼镜及其信号处理方法 | |
CN116055983B (zh) | 一种音频信号处理方法及电子设备 | |
RU2782312C1 (ru) | Способ обработки изображения и устройство отображения, устанавливаемое на голове | |
WO2024109482A1 (zh) | 一种可穿戴拾音设备及拾音方法 | |
US11356786B2 (en) | Method and apparatus for wind noise detection and beam pattern processing | |
US20240015433A1 (en) | Wind noise reduction, flexible beamforming, and direction of arrival estimation by microphone placement | |
CN116781817A (zh) | 双耳拾音方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |