CN117729465A - 一种音频信号调整方法、装置、设备、系统及介质 - Google Patents
一种音频信号调整方法、装置、设备、系统及介质 Download PDFInfo
- Publication number
- CN117729465A CN117729465A CN202211096258.7A CN202211096258A CN117729465A CN 117729465 A CN117729465 A CN 117729465A CN 202211096258 A CN202211096258 A CN 202211096258A CN 117729465 A CN117729465 A CN 117729465A
- Authority
- CN
- China
- Prior art keywords
- microphone array
- audio signal
- determining
- orientation
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 339
- 238000000034 method Methods 0.000 title claims abstract description 85
- 239000013598 vector Substances 0.000 claims description 127
- 230000015654 memory Effects 0.000 claims description 41
- 230000003750 conditioning effect Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 11
- 238000003491 array Methods 0.000 description 10
- 206010047289 Ventricular extrasystoles Diseases 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000005129 volume perturbation calorimetry Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012546 transfer Methods 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005314 correlation function Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请提供了一种音频信号调整方法,用于根据发声对象的朝向调整麦克风阵列获取的音频信号,以提高麦克风阵列的拾音品质。本申请还提供了对应的装置、设备、系统、计算机可读存储介质以及计算机程序产品。其中,所述音频信号调整方法包括:获取第一音频信号,所述第一音频信号包括第一麦克风阵列对第一对象发出的声音进行采集得到的音频信号;确定朝向对应关系,所述朝向对应关系指示所述第一对象的朝向与所述第一麦克风阵列之间的角度关系;根据所述朝向对应关系对所述第一音频信号进行调整,得到第二音频信号。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种音频信号调整方法、装置、设备、系统及介质。
背景技术
在现代化的办公场景中,远程会议得到了广泛的应用。通过远程会议技术,位于不同地理位置的人员可以通过网络进行实时沟通。在远程会议技术中,可以通过麦克风获取音频信号,并通过网络将音频信号发送给参加会议的其他用户。可见,为了保证远程会议的质量,需要提高音频信号的质量。
目前,可以通过麦克风阵列来提升远程会议中音频信号的质量。麦克风阵列包括多个麦克风阵元。每个麦克风阵元都可以采集音频信号。这样,通过多个麦克风阵元采集会议中的音频,得到的音频信号的相对清晰稳定,从而提升了远程会议的质量。
但是,在远程会议等应用场景中,发出声音的对象(后称声源或发声对象)的位置和朝向可能发生改变。当发声对象的位置和朝向发生改变之后,麦克风阵列的拾音质量会受到影响。
发明内容
有鉴于此,本申请提供了一种音频信号调整方法,用于根据发声对象的朝向调整麦克风阵列获取的音频信号,以提高麦克风阵列的拾音品质。本申请还提供了对应的装置、设备、系统、计算机可读存储介质以及计算机程序产品。
第一方面,本申请提供了一种音频信号调整方法,该方法可以应用于会议终端或服务器,用于对第一麦克风阵列采集到的音频信号进行调整,以提高第一麦克风阵列的拾音质量。具体地,首先可以获取第一麦克风阵列采集的第一音频信号。第一音频信号中包括第一麦克风阵列对第一对象发出的声音进行采集得到的音频信号。接着,可以确定第一对象的朝向与第一麦克风阵列之间的角度关系,该角度关系可以被称为朝向对应关系。第一对象的朝向为第一对象发出的声音的主要方向。在确定朝向对应关系之后,可以根据朝向对应关系对第一音频信号进行调整,得到第二音频信号。这样,即使作为声源的第一对象的位置和/或朝向发生了改变,仍然可以通过分析第一麦克风阵列与第一对象之间的朝向对应关系,对第一音频信号进行自适应调整。如此,基于第一对象的位置和朝向对第一麦克风阵列所采集的音频信号进行自适应调整,可以提升第一麦克风阵列的拾音质量。
在一些可能的实施方式中,朝向对应关系用于指示从第一向量到第二向量的旋转角度。其中,第一向量对应第一对象的朝向,第二向量对应从第一对象到第一麦克风阵列的连线的方向。从第一向量到第二向量的旋转角度,例如可以是第二向量在基于第一向量建立的坐标系中的方位角和俯仰角。这样,分别通过向量表示第一对象的朝向和从第一对象到第一麦克风阵列的连线,有利于计算朝向对应关系。
在一些可能的实施方式中,朝向对应关系是基于第一音频信号确定的。具体地,在确定朝向对应关系时,首先可以对第一音频信号进行分析,确定第一麦克风阵列与第一对象之间的相对位置关系。然后,可以基于第一麦克风阵列与第一对象之间的相对位置关系确定朝向对应关系。这样,基于第一音频信号确定角度对应关系,可以简化角度对应关系的确定方式。
在一些可能的实施方式中,可以基于第一麦克风阵列中不同麦克风阵元接收到的音频信号的差异确定第一麦克风阵列与第一对象之间的相对位置关系。具体地,第一麦克风阵列包括多个麦克风阵元,第一音频信号包括多个麦克风阵列分别采集到的多个音频信号。在确定第一麦克风阵列与第一对象之间的相对位置关系时,可以对多个麦克风阵元分别采集到的音频信号之间的差异进行分析,从而确定第一麦克风阵列和第一对象之间的相对位置关系。如此,无需其他设备,就能够确定第一麦克风阵列和第一对象之间的相对位置关系。
在一些可能的实施方式中,可以先对第一麦克风阵列的多个麦克风阵元采集的音频信号之间的差异进行分析,从第一麦克风阵列到第一对象的向量,与第一麦克风阵列的法向量之间的夹角,该夹角可以被称为第一角度。在确定第一角度之后,可以基于预设高度和第一角度确定目标位置点,然后根据目标位置点确定第一对象与第一麦克风阵列的相对位置关系。这样,基于发声位置的预设高度,结合第一角度确定相对位置关系,可以简化相对位置关系的确定方式。
在一些可能的实施方式中,可以先根据预设高度和第一角度确定多个预测位置点。每个预测未知点的高度与预设高度相匹配,且每个预测位置点到第一麦克风阵列的连线,与第一麦克风阵列的法向量的夹角与预设角度匹配。接着,可以确定每个预测位置点相对第一麦克风阵列的距离,并将距离第一麦克风阵列最远的预测位置点确定为目标位置点。这样,将距离第一麦克风阵列最远的预测位置点确定为目标位置点,可以减少对第一音频信号的调整幅度,从而避免对第一音频信号过调整。
在一些可能的实施方式中,可以基于相机获取的深度信息确定目标位置点。具体地,可以通过第一相机获取第一深度信息,第一深度信息用于指示第一对象到第一相机的像平面的距离,即第一对象到第一相机的像平面的连线,在第一相机的焦轴上的投影长度。第一相机包括至少两个摄像头。在确定第一深度信息之后,可以根据第一深度信息、预设高度和第一角度确定两个位置点,然后通过左右判断确定目标位置点。
在一些可能的实施方式中,可以基于多个麦克风阵列采集的音频信号确定目标位置点。具体地,会议终端(或服务器)还可以获取第二麦克风阵列采集的第三音频信号,第三音频信号包括第二麦克风阵列对第一对象发出的声音进行采集得到的音频信号。接着,可以根据第三音频信号确定第二角度,第二角度为从第二麦克风阵列到第一对象的向量,与第二麦克风阵列的法向量之间的夹角。在确定目标位置点时,可以结合第一角度、第二角度和预设高度确定目标位置点。这样,基于两个麦克风阵列对第一对象进行定位,得到的目标位置点更加精确。
在一些可能的实施方式中,可能存在多个发声对象,那么可以结合多个麦克风阵列与深度信息,确定发声强度最高的发声对象的位置。那么第一音频信号还包括第一麦克风阵列对第二对象发出的声音采集得到的音频信号,第三音频信号还包括第二麦克风阵列对第二对象发出的声音采集得到的音频信号。假设第一对象发出的声音的强度高于第二对象发出的声音的强度,那么在确定目标位置点之前,可以先获取第二深度信息和第三深度信息。第二深度信息用于指示第一对象到第二相机的像平面的距离,第三深度信息用于指示第二对象到第二相机的像平面的距离。接着,可以结合第二深度信息和第三深度信息分贝确定第一对象可能的位置,与第二对象可能的位置。然后根据第一角度和第二角度,确定发声强度最高的声源的位置。即,可以结合第二深度信息、第三深度信息、第一角度、第二角度和预设高度,确定第一对象所发出的声音的强度高于第二对象所发出的声音的强度。这样,通过多个麦克风阵列和深度信息,可以从多个声源中确定发出声音的强度最高的声源。所述第二相机和上文的第一相机可以是相同的相机。
在一些可能的实施方式中,上述深度信息是基于至少两个摄像头采集的图像信息确定的。具体地,假设第二相机包括第一摄像头和第二摄像头。那么在确定第二深度信息时,首先可以获取第一摄像头采集的第一图像以及第二摄像头采集的第二图像。接着,可以分别对第一图像和第二图像进行发声状态识别,从而确定发出声音的第一对象和第二对象分别在第一图像和第二图像中的位置。接着,可以根据第一对象在第一图像中的位置、第一对象在第二图像中的位置,以及第一相机的双目距离确定第二深度信息。第一相机的双目距离为第一摄像头与第二摄像头的距离。这样,通过双目相机结合发声状态识别技术,可以确定声源的深度信息。
在一些可能的实施方式中,在确定第一对象和第一麦克风的相对位置关系之后,可以根据第一对象的位置和第一麦克风阵列的位置确定从第一对象指向第一麦克风阵列的第三向量。接着,可以根据第三向量与水平方向的夹角确定朝向对应关系所指示的角度关系。这样,在没有相机辅助的情况下,将第一对象视为正对第一麦克风阵列发生,考虑第一对象与第一麦克风阵列之间相对位置关系对第一对象发出的声音的朝向的影响。上述第三向量可以为前述第二向量。
在一些可能的实施方式中,可以基于图像识别确定朝向对应关系。具体地,可以吸纳获取第一对象的图像,然后对第一对象的图像进行识别,确定第一对象在图像所拍摄的场景中的朝向,得到第一对象的法向量。第一对象的法向量可以为前述第一向量。接着,可以第一麦克风阵列与第一对象的相对位置关系确定第二向量,从而确定第一向量与第二向量之间的夹角,得到朝向对应关系。
第二方面,本申请还提供了一种资源规划装置,包括:获取模块,用于获取第一音频信号,所述第一音频信号包括第一麦克风阵列对第一对象发出的声音进行采集得到的音频信号;朝向确定模块,用于确定朝向对应关系,所述朝向对应关系指示所述第一对象的朝向与所述第一麦克风阵列之间的角度关系;调整模块,用于根据所述朝向对应关系对所述第一音频信号进行调整,得到第二音频信号。
在一些可能的实施方式中,所述朝向对应关系用于指示从第一向量到第二向量的旋转角度,所述第一向量对应所述第一对象的朝向,所述第二向量对应从所述第一对象到所述第一麦克风阵列的方向。
在一些可能的实施方式中,所述朝向确定模块,具体用于对所述第一音频信号进行分析,确定所述第一麦克风阵列与所述第一对象的相对位置关系;根据所述第一麦克风阵列与所述第一对象的相对位置关系,确定所述朝向对应关系。
在一些可能的实施方式中,所述第一麦克风阵列包括多个麦克风阵元,所述第一音频信号包括所述多个麦克风阵元分别采集到的音频信号;所述朝向确定模块,具体用于对所述多个麦克风阵元分别采集到的音频信号之间的差异进行分析,确定所述第一麦克风阵列与所述第一对象的相对位置关系。
在一些可能的实施方式中,所述朝向确定模块,具体用于对所述多个麦克风阵元采集到的音频信号之间的差异进行分析,确定第一角度,所述第一角度为从所述第一麦克风阵列到所述第一对象的向量,与所述第一麦克风阵列的法向量之间的夹角;根据预设高度和所述第一角度确定目标位置点;根据所述目标位置点确定所述第一对象和所述第一麦克风阵列的相对位置关系。
在一些可能的实施方式中,所述朝向确定模块,具体用于根据所述预设高度和所述第一角度确定多个预测位置点,所述预测位置点的高度与所述预设高度匹配,从所述第一麦克风阵列到所述预测位置点的向量,与所述第一麦克风阵列的法向量的夹角与所述第一角度匹配;确定所述多个预测位置点中每个预测位置点与所述第一麦克风阵列的距离;将距离所述第一麦克风阵列最远的预测位置点确定为目标位置点。
在一些可能的实施方式中,所述朝向确定模块,具体用于通过第一相机获取第一深度信息,所述第一深度信息用于指示所述第一对象到所述第一相机的像平面的距离;根据所述第一深度信息、所述预设高度和所述第一角度确定目标位置点。
在一些可能的实施方式中,所述获取模块,还用于获取第三音频信号,所述第三音频信号包括第二麦克风阵列对所述第一对象发出的声音进行采集得到的音频信号;所述朝向确定模块,还用于根据所述第三音频信号确定第二角度,所述第二角度为所述第二麦克风阵列到所述第一对象的向量与所述第二麦克风阵列的法向量之间的夹角;根据所述预设高度、所述第一角度和所述第二角度确定所述目标位置点。
在一些可能的实施方式中,所述第一音频信号还包括第一麦克风阵列对第二对象发出的声音进行采集得到的音频信号,所述第三音频信号还包括第二麦克风阵列对第二对象发出的声音进行采集得到的音频信号,所述第一对象所发出的声音的强度高于所述第二对象所发出的声音的强度;
所述获取模块,还用于获取第二深度信息和第三深度信息,所述第二深度信息用于指示所述第一对象到第二相机的像平面的距离,所述第三深度信息用于指示所述第二对象到所述第二相机的像平面的距离;所述朝向确定模块,还用于根据所述第二深度信息、第三深度信息、所述预设高度、所述第一角度和所述第二角度确定所述第一对象所发出的声音的强度高于所述第二对象所发出的声音的强度。
在一些可能的实施方式中,所述第二相机包括第一摄像头和第二摄像头,所述获取模块,具体用于获取所述第一摄像头采集的第一图像和所述第二摄像头采集的第二图像,所述第一图像和所述第二图像均包括至少两个对象的图像;所述朝向确定模块,具体用于对所述第一图像和所述第二图像分别进行发声状态识别,确定所述第一对象在所述第一图像和所述第二图像中的位置,所述第一对象处于发声状态;根据确定所述第一对象分别在所述第一图像和所述第二图像中的位置,以及所述第一摄像机和所述第二摄像机的相对位置,确定所述第二深度信息。
在一些可能的实施方式中,所述朝向确定模块,还用于确定根据所述第一麦克风阵列的位置与所述第一对象的位置确定第三向量,所述第三向量为从所述第一对象指向所述第一麦克风阵列的向量;根据所述第一向量与水平方向的夹角,确定所述第一麦克风阵列与所述第一对象之间的朝向对应关系。
在一些可能的实施方式中,所述获取模块,还用于获取第一对象的图像;所述朝向确定模块,还用于对所述第一对象的图像进行识别,确定所述第一对象的法向量,所述第一对象的法向量用于指示所述第一对象的朝向;根据所述第一对象的法向量、所述第一麦克风阵列的法向量和所述第一麦克风阵列与所述第一对象的相对位置关系,确定所述朝向对应关系。
第三方面,本申请提供一种计算设备集群,所述计算设备包括至少一个计算设备,所述至少一个计算设备包括至少一个处理器和至少一个存储器;所述至少一个存储器用于存储指令,所述至少一个处理器执行所述至少一个存储器存储的该指令,以使所述计算设备集群执行上述第一方面或第一方面任一种可能实现方式中的资源规划方法。需要说明的是,该存储器可以集成于处理器中,也可以是独立于处理器之外。所述至少一个计算设备还可以包括总线。其中,处理器通过总线连接存储器。其中,存储器可以包括可读存储器以及随机存取存储器。
第四方面,本申请提供一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令,所述处理器用于运行所述指令,以使得所述设备执行上述第一方面或第一方面的任一种实现方式所述的方法。
第五方面,本申请提供一种系统,所述系统包括第一麦克风阵列和第一设备,所述第一麦克风阵列用于采集音频信号,所述第一设备存储器和处理器,所述存储器用于存储指令,所述处理器用于运行所述指令,以使得所述第一设备执行上述第一方面或第一方面的任一种实现方式所述的方法。
在一些可能的实施方式中,所述系统还包括图像采集设备,所述图像采集设备可以是单目相机或双目相机。可选地,所述系统还可以包括第二麦克风阵列。
第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在至少一个计算设备上运行时,使得所述至少一个计算设备执行上述第一方面或第一方面的任一种实现方式所述的方法。
第七方面,本申请提供了一种包含指令的计算机程序产品,当其在至少一个计算设备上运行时,使得所述至少一个计算设备执行上述第一方面或第一方面的任一种实现方式所述的方法。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的远程会议应用场景的一示例性应用场景的示意图;
图2为本申请实施例提供的一示例性应用场景的示意图;
图3为本申请实施例提供的音频信号调整方法的一种流程示意图;
图4为本申请实施例提供的声源搜索空间的划分方法的一种示意图;
图5为本申请实施例提供的第一摄像头、第二摄像头和第一对象之间的几何关系的一种示意图;
图6为本申请实施例提供的一种计算设备的结构示意图;
图7为本申请实施例提供的一种计算设备集群的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请提供的实施例中的方案进行描述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。
麦克风阵列包括多个麦克风阵元,每个麦克风阵元均可以相对独立地采集音频信号。通过调整参数对麦克风阵元采集的音频信号进行调整,可以提高音频信号的质量,从而提升麦克风阵列的拾音品质。这样,麦克风阵列可以对一片区域实现稳定拾音和音频信号增强,因此可以被应用于远程会议等领域。
例如,在图1所示的远程会议的应用场景中,位于第一地点的麦克风阵列可以采集用户11、用户12、用户13、用户14、用户15和用户16中任意一个或多个发出的音频信号,并通过会议终端1经过网络发送给位于第二地点的会议终端2。会议终端2可以通过扩音设备播放接收到的音频信号,以使用户21、用户22、用户23、用户24、用户25和用户26能够听到第一地点的参会人员发出的声音。同理,位于第二地点的麦克风阵列也可以采集第二地点的参会人员发出的声音,并依次经过会议终端2、网络、会议终端1和第一地点的扩音设备,以使第一地点的参会人员能够听到第二地点的参会人员发出的声音。这样,位于不同位置的参会人员通过网络可以相互交流,实现了远程会议。
但是,在远程会议的过程中,发出声音的人员的朝向和位置可能发生改变。当人员的朝向和位置发生改变之后,麦克风阵列的拾音品质会受到影响。
具体地,大部分应用场景中的声源,例如人或扬声器等,发出的声音往往具有方向性,导致声源发出的声音在不同方向上的强度。即,声源发出的声音,在声源的朝向上的强度较高,在其他方向上的强度较低。
例如,如果发出声音的人员面朝麦克风阵列,那么麦克风阵列采集到的音频信号中,该人员发出的音频信号的强度较高。如果发出声音的人员背朝麦克风阵列,那么麦克风阵列采集到的音频信号中,该人员发出的音频信号的强度较低,麦克风阵列的拾音效果较差。因此,对于传统的麦克风阵列,无法适应人员的朝向发生的改变,拾音效果较差。
具体地,在远程会议场景中,可能存在以下两方面的问题。
一方面,如果发出声音的人员的位置发生了改变,那么该人员的朝向与麦克风阵列之间的相对角度关系可能发生改变。这样,对于麦克风阵列而言,相当于发出声音的人员的朝向发生了改变。如果不对麦克风阵列采集到的声音信号进行调整,可能影响麦克风阵列的拾音效果。
另一方面,即使发出声音的人员的位置没有发生改变,但是发出声音的人员的面部朝向发生了改变,那么麦克风阵列采集到的声音信号的强度也会随之变化。如果不对麦克风阵列采集到的声音信号进行调整,可能影响麦克风阵列的拾音效果。
综上所述,为了适应声源的朝向和/或位置的变化,需要对麦克风阵列采集到的声音信号进行调整。
仍然以图1所示远程会议的应用场景为例进行说明。
假设麦克风阵列呈线型,位于在用户15的正上方,且指向用户14,那么由于用户15说话的指向性,麦克风阵列收音的高频部分在这一方向较少,会导致传到远端会场的声音听起来很沉闷。这样,如果在远程会议的过程中,麦克风阵列所采集的音频信号中来自用户15的声音的强度较低,麦克风阵列对用户15发出的声音的拾音效果较差。这样,位于第二地点的参会人员可能不能听清楚用户15发出的声音。
并且,如果用户14说话时的朝向发生改变,例如用户14说话时进行了转身,麦克风阵列的拾音效果可能出现变化。例如,如果用户14说话时正对麦克风阵列,那么麦克风阵列的拾音效果最好,麦克风阵列向会议终端1发送的音频信号中用户14的声音的音质较好,位于第二地点的参会人员能够听清楚第一人员发出的声音。
但是,如果用户14转身后又发出了声音,这时麦克风阵列处于用户14的嘴部朝向的反方向,用户14发出的声音在传播到麦克风阵列的位置时会出现较大的衰减。那么麦克风阵列所采集的音频信号中来自用户14的声音的强度较低,麦克风阵列向会议终端1发送的音频信号的音质较差。这样,位于第二地点的参会人员可能不能听清楚用户14发出的声音。
基于此,本申请实施例提供了一种音频信号调整方法,该方法可以由音频信号调整装置执行,实现根据声源在发出的声音时的朝向和麦克风阵列的朝向对应关系。具体地,音频信号调整装置可以先获取第一音频信号,第一音频信号包括第一麦克风阵列对第一对象发出的声音进行采集得到的音频信号。接着,音频信号调整装置可以确定朝向对应关系。朝向对应关系用于指示第一对象的朝向,与第一麦克风阵列之间的角度关系。根据朝向对应关系,可以确定第一对象发出的声音在第一麦克风阵列的位置的强度,从而对第一麦克风阵列采集到的音频进行适应性调整。这样,根据朝向对应关系对第一音频信号进行调整,使得调整后的第二音频信号能够适应发声的第一对象与第一麦克风阵列之间的角度对应关系。即使作为声源的第一对象的位置和/或朝向发生了改变,仍然可以通过分析第一麦克风阵列与第一对象之间的朝向对应关系,对第一音频信号进行自适应调整。如此,基于第一对象的位置和朝向对第一麦克风阵列所采集的音频信号进行自适应调整,可以提升第一麦克风阵列的拾音质量。
作为一种示例,在远程会议的应用场景中,上述音频信号调整装置可以运行于计算机设备。例如,在图1所示的应用场景中,上述音频信号调整装置可以运行于会议终端1。会议终端1可以是位于第一地点的计算机设备,用于对麦克风阵列采集到的音频信号进行处理,并通过网络传输给会议终端2,以使第二地点的参会人员可以收听到第一地点的参会人员的声音。或者,上述音频信号调整装置110可以运行于云端的计算设备或计算设备集群。麦克风阵列采集到的音频信号被会议终端传输给音频信号调整装置110,以使云端的计算设备或计算设备集群对音频信号进行处理。
可以理解的是,在除远程会议以外的应用场景中,运行有音频信号调整装置的计算机设备为该场景下与麦克风阵列连接的、用于对音频信号进行处理的设备。
实际应用时,音频信号调整装置可以与多个麦克风阵列连接,也可以与图像采集设备连接。例如,参见图2,在图2给出的应用场景中,运行于会议终端100的音频信号调整装置110。音频信号调整装置110与第一麦克风阵列200连接。其中,第一麦克风阵列200用于对参会人员300的语音信号进行采集,以得到第一音频信号并向音频信号调整装置110发送。音频信号调整装置110可以根据声源的朝向与第一麦克风阵列200之间的角度关系对第一音频信号进行调整,得到第二音频信号。在图2所示的应用场景中,音频信号调整装置110调整得到的第二音频信号被会议终端100发送到网络600,以使远端的会议终端获取到第二音频信号并进行播放。
可以理解的是,在除远程会议以外的应用场景中,第二音频信号可以通过其他方式输出,例如第二音频信号可以被存储到存储装置中。
另外,在图2所示的应用场景中,音频信号调整装置110还可以与第二麦克风阵列400和/或图像采集装置500连接。因此图2中第二麦克风阵列400以及图像采集装置500对应的线条为虚线,表示其为可选的方案。其中,第二麦克风阵列200用于对参会人员300的语音信号进行采集,以得到第三音频信号并向音频信号调整装置110发送。图像采集装置500可以包括一个或多个摄像头,用于采集参会人员300的图像信息并发送给音频信号调整装置110。
相应地,如果音频信号调整装置110接收到了第三音频信号,音频信号调整装置110可以结合第一音频信号和第三音频信号确定朝向对应关系。如果音频信号调整装置110接收到了图像信息,音频信号调整装置110可以基于第一音频信号和图像信息确定朝向对应关系。关于这部分内容的介绍可以参见下文,这里不再赘述。
实际应用时,音频信号调整装置110可以包括获取模块111、朝向模块112和调整模块113。其中,获取模块111用于获取第一麦克风阵列200采集的第一音频信号。朝向确定模块112用于确定朝向对应关系。调整模块113用于根据朝向对应关系对第一音频信号进行调整。可选地,如果音频信号调整装置110还与第二麦克风阵列400连接,获取模块111还用于获取第二麦克风阵列400采集的第三音频信号。如果音频信号调整装置110还与图像采集模块500连接,朝向确定模块112还用于根据图像信息确定朝向对应关系。可以理解的是,如果存在多个麦克风阵列采集音频信号,那么不同的麦克风阵列的位置和/或朝向可以不同。
实际应用时,上述音频信号调整装置110可以通过软件实现,或者可以通过硬件实现。
音频信号调整装置110作为软件功能单元的一种举例,可以包括运行在计算实例上的代码。其中,计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地,上述计算实例可以是一台或者多台。例如,信息传递装置可以包括运行在多个主机/虚拟机/容器上的代码。需要说明的是,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中,也可以分布在不同的region中。进一步地,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone,AZ)中,也可以分布在不同的AZ中,每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中,通常一个region可以包括多个AZ。
同样,用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud,VPC)中,也可以分布在多个VPC中。其中,通常一个VPC设置在一个region内,同一region内两个VPC之间,以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关,经通信网关实现VPC之间的互连。
音频信号调整装置110作为硬件功能单元的一种举例,音频信号调整装置110可以包括至少一个计算设备,如计算机或者服务器等。或者,音频信号调整装置110也可以是利用专用集成电路(application-specific integrated circuit,ASIC)实现、或可编程逻辑器件(programmable logic device,PLD)实现的设备等。其中,上述PLD可以是复杂程序逻辑器件(complex programmable logical device,CPLD)、现场可编程门阵列(field-programmable gate array,FPGA)、通用阵列逻辑(generic array logic,GAL)或其任意组合实现。
音频信号调整装置110包括的多个计算设备可以分布在相同的region中,也可以分布在不同的region中。音频信号调整装置110包括的多个计算设备可以分布在相同的AZ中,也可以分布在不同的AZ中。同样,音频信号调整装置110包括的多个计算设备可以分布在同一个VPC中,也可以分布在多个VPC中。其中,所述多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。
接下来,对音频信号调整过程的各种非限定性的具体实施方式进行详细描述。
参阅图3,为本申请实施例中音频信号调整方法的一种流程示意图。该方法可以应用于上述图2所示的应用场景中,或者也可以是应用于其它可适用的应用场景中。下面以应用于图2所示的应用场景为例进行说明。各个模块的功能,具体参见下述实施例的相关描述。
图3所示的信息传递的方法具体可以包括:
S301:获取模块111获取第一音频信号。
在本申请实施例中,第一音频信号是第一麦克风阵列200对第一对象发出的声音进行采集得到的音频信号。其中,第一对象为声源,例如可以是远程会议场景下的参会人员,也可以是扩音器或其他能够发出声音的设备。例如,在图1所示的应用场景中,第一对象可以是第一用户310,也可以是第二用户320。
可以理解的是,如果存在多个声源,那么第一音频信号中不仅包括第一对象发出的声音对应的音频信号,还可以包括其他声源发出的声音对应的音频信号。
声音信号调整装置110中的获取模块111可以获取第一麦克风阵列200采集的第一音频信号。具体地,在图2所示的应用场景中,第一麦克风阵列200可以被安装在会议室等可能被用于远程会议的位置。在远程会议开始时,第一麦克风阵列200被启动。这样,参会人员发出的语音可以被第一麦克风阵列200采集,得到第一音频信号。第一麦克风阵列200在采集到第一音频信号之后,可以向获取模块111发送第一音频信号。
在图2所示的应用场景中,声音信号调整装置110属于会议终端,那么第一麦克风阵列200可以通过与会议终端100之间的有线连接向声音信号调整装置110发送第一音频信号。在其他的应用场景中,声音信号调整装置可以被部署在云端的计算设备或计算设备集群。那么第一麦克风阵列可以通过会议终端将第一声音信号上传至云端,以便声音信号调整装置获取到第一音频信号。
实际应用时,第一麦克风阵列200采集到的音频信号中不但包括第一对象的声音,还可以包括其他声音,例如第一麦克风阵列200所处的环境的杂音。特别地,在一些应用场景下,第一对象(以及第一麦克风阵列200采集的其他声源)的发声可能不是连续的。也就是说,第一麦克风阵列200所采集的音频信号中,可以包括第一对象(和其他声源)所发出的声音对应的音频信号,也可以包括杂音对应的音频信号。对此,如果第一麦克风阵列200将所有音频信号发送给远端的会议终端,那么可能造成远程会议中存在较多的杂音。
为此,可以对第一麦克风阵列200采集的音频信号进行剪辑筛选,从而得到第一音频信号。可选地,可以通过语音活动检测(voice activity detection,VAD)技术确定第一音频信号。可以理解的是,上述基于VAD技术确定第一音频信号的动作,可以由获取模块111执行,也可以由第一麦克风阵列200中的控制模块执行。下面以获取模块111确定第一音频信号为例进行说明。
在一些可能的实现方式中,获取模块111可以基于希尔伯特变换的信号覆盖和判别阈值确定第一音频信号。其中,判别阈值基于静音信号的过零率和静音信号的信号能量计算得到,所述音频信号是指第一麦克风阵列100采集的、未经处理的原始音频信号。下面分别进行介绍。
具体地,信号g(t)的希尔伯特变换的信号覆盖可以通过如下公式计算得到:
其中,|ψj|为第j帧音频信号g(t)的希尔伯特变换的信号覆盖,为信号g(t)的希尔伯特变换,t为时间。
过零率用于度量音频信号的振幅为零的频率。例如,过零率可以通过如下公式计算得到:
其中,Zj表示音频信号x(i)的第j个音频帧的过零率,N为窗口长度,sign[x(i)]表示音频信号x(i)在第i秒的振幅的符号。
信号能量可以通过如下公式计算得到:
其中,Ej表示音频信号x(i)的第j个音频帧的信号能量
判别阈值可以通过如下公式计算:
其中,为第j帧信号的能量阈值,为第j帧信号的过零率阈值,THj为第j个音频帧的判别阈值,Emax为历史帧的最大信号能量值,Emin为历史帧的最小信号能量值,Zmax为历史帧的最大过零率,Zmin为历史帧的最小过零率,λE为信号能量值对应的权重系数,λz为信号过零率对应的权重系数。
这样通过比较THj与|ψj|的大小,即可判断麦克风阵列所采集的某段音频信号是否为静音信号。如果这段音频信号为静音信号,那么获取模块111可以将这段音频信号丢弃。如果这段音频信号不为静音信号,获取模块111可以将这段音频信号确定为第一音频信号。
如果会议终端100还与第二麦克风阵列400连接,那么获取模块111还可以获取第二麦克风阵列400采集的第三音频信号。
在获取到第一音频信号之后,获取模块111可以向调整模块113发送第一音频信号,以便调整模块113对第一音频信号进行调整。另外,在一些可能的实现方式中,朝向确定模块112能够基于音频信号确定朝向对应关系,那么获取模块111还向朝向确定模块112发送第一音频信号。因此,在图3中获取模块111向朝向确定模块112发送的第一音频信号为虚线,表示该步骤为可选的实现方式。
S302:朝向确定模块112确定朝向对应关系。
朝向对应关系指示第一对象的朝向与第一麦克风阵列200之间的角度关系。其中,第一对象的朝向,是指第一对象发出的声音的主要方向,又可以被称为第一对象发出的声音的朝向,或者第一对象发出声音时第一对象的朝向。例如,如果第一对象为发出声音的参会人员,那么第一对象的朝向可以是该参会人员的面部(或嘴部)的朝向。如果第一对象为发出声音的扩音器等设备,那么第一对象的朝向可以是扩音器的主轴方向。
第一对象的朝向与第一麦克风阵列200之间的角度关系,具体是指第一对象的朝向,与从第一对象到第一麦克风阵列200的连线之间的角度关系。其中,从第一对象到第一麦克风阵列200的连线,可以是从第一对象的发声中心到麦克风阵列200的中心之间的连线。如果第一对象为人,那么第一对象的发声中心可以是人嘴部的中心位置。
第一对象的朝向与第一麦克风阵列200之间的角度关系,具体可以通过第一对象的朝向与第一麦克风阵列的朝向之间的夹角表示。具体地,可以将第一对象的朝向,和从第一对象到第一麦克风阵列200的有向线段分别转换为向量,那么第一对象的朝向与第一麦克风阵列200之间的角度关系即为两个向量之间的角度关系。可选地,第一对象的朝向对应的向量被称为第一向量,第一麦克风阵列对应的向量被称为第二向量。在一些可能的实现中,上述第一向量和第二向量为单位向量。朝向确定模块112可以通过归一化确定第一向量和第二向量。
那么在一些可能的实现方式中,第一对象的朝向与第一麦克风阵列之间的角度关系为第一坐标系下第一向量和第二向量之间的夹角关系。例如可以包括第一坐标系下从第一向量到第二向量的俯仰旋转角和方位旋转角。也就是说,在第一坐标系下,第一向量根据俯仰旋转角和方位旋转角旋转后与第二向量重合。相应地,朝向对应关系包括俯仰旋转角和方位旋转角。
可选地,第一坐标系是基于第一向量建立的。具体地,第一坐标系可以是以第一向量为X轴的右手坐标系。那么方位旋转角为在XOY平面上的旋转角度,俯仰旋转角为垂直于XOY平面上的旋转角度。也就是说,在第一坐标系下,先以第一坐标系的Z为轴旋转轴,将第一向量在XOY平面上旋转方位旋转角,然后在第一向量所属的、垂直于XOY的平面上,将XOY旋转俯仰旋转角,得到的向量方向与第二向量的方向一致。在上述实现方式中,第一坐标系又可以被称为人嘴坐标系或面部坐标系。
在一些其他可能的实现方式中,第一坐标系不是基于第一向量建立的,例如第一坐标系可以是基于第一麦克风阵列200所在的房间建立的坐标系(后称房间坐标系)。那么第一向量与第二向量之间的角度关系可以包括多个旋转角。第一向量经过多个旋转角的旋转之后方向与第二向量的方向重合。
上面介绍了朝向对应关系,下面介绍朝向确定模块112确定朝向对应关系的方法。
在一些可能的实现方式中,朝向确定模块112可以基于图像信息确定朝向对应关系。也就是说,在声音信号调整装置110还与图像采集装置500连接的应用场景中,朝向确定模块112可以接收图像采集装置500发送的图像信息,并基于图像信息确定朝向对应关系。
具体地,图像采集装置500可以包括多个摄像头,朝向确定模块112获取的图像信息中可以包括多个摄像头拍摄得到的多张图像。朝向确定模块112可以对多张图像进行识别,从而确定发出声音的第一对象在图像中的位置。接着,朝向确定模块112可以通过三维重建的方式,确定第一对象与第一麦克风阵列100之间的相关位置关系以及角度关系,从而确定朝向对应关系。
在一些其他可能的实现方式中,朝向确定模块112还可以对音频信号进行分析,从而确定朝向对应关系。其中,用于确定朝向对应关系的音频信号包括第一音频信号,还可以包括上述第三音频信号。
关于通过分析音频信号确定朝向对应关系的介绍可以参见下文,这里不再赘述。
在确定了朝向对应关系之后,朝向确定模块112可以向调整模块113发送朝向对应关系,以使调整模块113根据朝向对应关系对第一音频信号进行调整。
S303:调整模块113根据朝向对应关系对第一音频信号,得到第二音频信号。
调整模块113可以接收获取模块111发送的第一音频信号,还接收朝向确定模块112发送的朝向对应关系。调整模块113可以根据朝向对应关系对第一音频信号进行调整,从而得到第二音频信号。这样,根据朝向对应关系对第一音频信号进行调整,使得调整后的第二音频信号能够适应发声的第一对象与第一麦克风阵列200之间的角度对应关系。即使作为声源的第一对象的位置和/或朝向发生了改变,仍然可以通过分析第一麦克风阵列200与第一对象之间的朝向对应关系,对第一音频信号进行调整。如此,基于第一对象的位置和朝向对第一麦克风阵列200所采集的音频信号进行自适应调整,可以提升第一麦克风阵列200的拾音质量。
在一些可能的实现方式,调整模块113可以根据朝向对应关系确定调整参数,然后根据调整参数对第一音频信号进行调整。其中,调整参数为与频率相关的参数。相应地,在根据调整参数对第一音频信号进行调整时,调整模块113先将第一音频信号从时域信号转换为频域信号,然后根据调整参数,分别对每个频率上的振幅进行缩放,最后再将频域信号转换为时域信号(例如通过快速傅里叶变换和逆快速傅里叶变换进行转换)。这样,得到的第二音频信号中各个频率分量根据朝向对应关系所指示的调整参数进行了缩放,可以适应第一对象的朝向与第一麦克风阵列200之间的角度关系。
在实际的应用中,第一对象的朝向与第一麦克风阵列200之间的角度关系可能较为复杂。为此,在一些可能的实现方式中,可以预先设置多个调整参数,每个调整参数对应一种角度关系。这样,调整模块113可以根据第一对象的朝向与第一麦克风阵列200之间实际的角度关系,从预设的多个调整参数中选取合适的调整参数。例如,调整模块113可以从预设的多个调整参数中,选取对应的角度关系与实际的角度关系最接近的调整参数。或者,调整模块113也可以从预设的多个调整参数中,选取对应的角度关系小于实际的角度关系,且与实际的角度关系最接近的调整参数。
或者,在一些其他可能的实现方式中,调整模块113可以通过插值法确定频率参数,然后根据频率参数确定调整参数。其中,插值法具体可以包括但不限于最邻近插值法、线性插值法、多项式插值法和样条曲线插值法等。下面以线性插值法为例进行介绍。
假设第一对象的朝向与第一麦克风阵列200之间的角度关系包括方位旋转角φ和俯仰旋转角θ。那么在方位旋转角φ和俯仰旋转角θ的条件下,频率f对应的频率参数可以通过如下公式求得。
dSPL(f,θ,φ)为方位旋转角φ、俯仰旋转角θ和频率f对应的频率参数;dSPL(f,θa,φa)为方位旋转角φa、俯仰旋转角θa和频率f对应的频率参数;dSPL(f,θb,φa)为方位旋转角φa、俯仰旋转角θb和频率f对应的频率参数;dSPL(f,θa,φb)为方位旋转角φb、俯仰旋转角θa的条件下,频率f对应的频率参数;dSPL(f,θb,φb)为方位旋转角φb、俯仰旋转角θb的条件下,频率f对应的频率参数。
上述公式可以用于根据预设的dSPL(f,θa,φa)、dSPL(f,θb,φa)、dSPL(f,θa,φb)和dSPL(f,θb,φb)确定方位旋转角φ、俯仰旋转角θ和频率f对应的频率参数dSPL(f,θ,φ)。可选地,如果已知方位旋转角φ、俯仰旋转角θ和频率fa对应的频率参数dSPL(fa,θ,φ),以及方位旋转角φ、俯仰旋转角θ和频率fb对应的频率参数dSPL(fb,θ,φ),那么调整模块113可以通过如下公式确定频率参数:
在确定频率参数之后,可以通过确定频率参数对应的调整参数。具体地,频率f对应的调整参数cf可以通过如下公式计算得到:
在确定频率f的调整参数cf之后,可以将调整参数cf与第一音频信号中频率f对应的频率分量的振幅相乘。这样,相当于放大(或缩小)了第一音频信号中频率f对应的频率分量。如此,基于上述方法分别对第一音频信号中多个频率分量进行调整,即可实现对第一音频信号进行调整的效果。
根据上文介绍可知,朝向确定模块112可以基于第一音频信号确定朝向对应关系。在本申请实施例中,朝向确定模块112可以基于以下六种实现方式确定朝向对应关系。可以理解的是,朝向确定模块112还可以基于其他方式确定朝向对应关系,这里不再赘述。
下面以朝向对应关系包括方位旋转角和俯仰旋转角,且方位旋转角和俯仰旋转角对应的第一坐标系为第一坐标系可以是以第一向量为X轴的右手坐标系(即前述面部坐标系)为例,介绍六种确定朝向对应关系的实现方式。
实现方式一:朝向确定模块112仅基于第一音频信号确定朝向对应关系。
在第一种可能的实现方式中,朝向确定模块112基于第一音频信号确定朝向对应关系。实际应用时,在第一种实现方式中,使用第一种实现方式确定朝向对应关系的会议终端100仅与第一麦克风阵列200连接,不与第二麦克风阵列400以及图像采集装置500连接。
在本实施例中,朝向确定模块112可以先对第一音频信号进行分析,确定第一麦克风阵列200和第一对象之间的相对位置关系,然后基于第一麦克风阵列200和第一对象之间的相对位置关系确定朝向对应关系。下面分别进行介绍。
首先介绍朝向确定装置112确定第一麦克风阵列200和第一对象之间的相对位置关系的方法。
根据前文介绍可知,麦克风阵列可以包括多个麦克风阵元。显然,即使属于同一个麦克风阵列,不同的麦克风阵元之间的位置也存在差异。为此,在一些可能的实现方式中,朝向确定装置112可以基于多个麦克风阵元采集到的音频信号之间的差异确定第一麦克风阵列200与第一对象的相对位置关系。
在本实施例中,可以先基于多个麦克风阵元采集到的音频信号之间的差异进行波达方向(direction of arrival,DOA)估计,然后基于预设高度确定第一对象相对第一麦克风阵列200的位置。
具体地,可以基于音频信号的相位变换加权的可控响应功率(steered-responsepower phase transform SRP-PHAT)进行DOA估计。在进行DOA估计时,可以将第一麦克风阵列200的轴平面划分为多个扇形区域,然后假设每个扇形区域内均存在一个假设的虚拟声源,然后计算虚拟声源到不同麦克风的时延差。其中,扇形区域又可以被称为声源搜索区域或声源搜索空间。关于声源搜索空间的划分方法具体可以参见图4。
可选地,上述时延差可以通过广义互相关(generalized cross-correlationGCC)的方法进行计算。
具体地,在基于GCC计算时延差时,可以先计算两个信号之间的互功率谱,然后在频域内处理收噪声干扰的部分并突出信号部分,使得互相关功率函数的峰值明显。这样,再将函数变换到时域内,即可得到两个信号的互相关函数,进而得到延迟估计值。在本实施例中,上述两个信号为第一麦克风阵列200中两个麦克风阵元采集到的音频信号,均属于前述第一音频信号。
具体地,假设第一麦克风阵列200包括第一麦克风阵元和第二麦克风阵元,那么第一麦克风阵元采集到的音频信号x1(t)和第二麦克风阵元采集到的音频信号x2(t)的互相关函数R12(τ)可以表示为:
其中,为音频信号x1(t)和音频信号x2(t)的互功率谱。ψPHAT(f)为音频信号x1(t)和音频信号x2(t)的加权函数,为音频信号x1(t)和音频信号x2(t)的广义相关谱。
通过互相关函数R12(τ),可以计算出关于音频信号x1(t)和音频信号x2(t)的广义相关谱的时延τφ。具体可以通过以下公式计算:
这样,可以得到第一麦克风阵元和第二麦克风阵元的时延。相似地,通过多次执行上述方法,可以确定多个时延,每个时延对应第一麦克风阵列200中的两个麦克风阵元。可选地,在一些可能的实现方式中,朝向确定模块112可以确定第一麦克风阵列200中任意两个麦克风阵元的时延。
或者,在一些其他可能的实现方式中,朝向确定模块112可以确定第一麦克风阵列200中第一麦克风阵元与其他任一麦克风阵元的时延。对于这种情况,可以将第一麦克风称为参考麦克风。下面以这种实现方式为例进行介绍
在得到多个时延值之后,可以将多个时延值进行求和,从而得到虚拟声源到第一麦克风阵列200的总功率。这样,基于分别计算每个声源搜索空间内虚拟声源到第一麦克风阵列的总功率,然后从中选出功率最大的虚拟声源,该虚拟声源所属的声源搜索空间即为真实声源(即前述第一对象)所在的声源搜索空间。
在基于时延值计算虚拟声源到第一麦克风阵列200的总功率时,朝向确定模块112可以基于如下公式进行计算:
其中,PPHAT(q)为虚拟声源q的总功率,YPHAT(k,q)为虚拟声源q在离散频点k的可控响应。Xm(k)是第一麦克风阵列200中第m个麦克风阵元接收到的音频信号的傅里叶变换,是第q个虚拟声源到达第m个麦克风和到达参考麦克风mr的时延差。N为离散频点的总数量,M为第一麦克风阵列200中麦克风阵元的总数量。
相应地,声源的DOA估计值可以通过如下公式计算得到:
其中,第p个虚拟声源为总功率最大的虚拟声源,为第一对象源所在的声源搜索空间与第一麦克风阵列200的主轴的夹角。又可以被称为第一角度。
根据前文介绍可知,虚拟声源所在的声源搜索空间为第一麦克风阵列的主轴平面内的扇形区域。这样,在三维空间中,声源搜索空间实际为扇形区域沿第一麦克风阵列200的主轴旋转一周后扫过的空间,具体是以第一麦克风阵列100为顶点的空心圆锥。
在部署第一麦克风阵列200时,可以根据第一麦克风阵列200的部署位置设置第一麦克风阵列的三维坐标。那么第一对象与第一麦克风阵列200的相对位置可以基于第一对象的三维坐标确定。其中,上述三维坐标可以是以第一对象(或第一麦克风阵列200)在房间坐标系中的坐标。
考虑到实现方式一中用于确定朝向对应关系的相关信息有限,朝向确定模块112可以通过假设简化确定朝向对应关系的方法。具体地,为了确定第一对象的三维坐标,可以做出如下两个假设。
首先,考虑到远程会议场景中声源往往是参会人员,而不同参会人员的嘴部位置的高度接近。为此,可以假设第一麦克风阵列200对应的任意声源处于同一水平面,且该水平面的高度为预设高度。预设高度例如可以根据人坐姿状态下嘴部的高度确定。
其次,如果使用较为激进的调整参数对第一音频信号进行调整,可能导致第一音频信号出现失真的情况。为此,可以假设第一对象出现在满足DOA对应的角度的情况下距离第一麦克风阵列200最远的点。这样,基于第一对象的相对位置确定的调整参数最小,对第一音频信号的影响最小。
基于上述两个假设,可以确定第一对象同时位于声源搜索空间与水平面上,且第一对象为距离第一麦克风阵列200的距离最远。其中,声源搜索空间与水平面的交界面为椭圆环,朝向确定模块112可以将该椭圆环中距离第一麦克风阵列200最远的点确定为第一对象的位置。也就是说,朝向确定模块112可以基于第一角度和预设高度确定目标位置点,目标位置点即为第一对象在三维空间中的位置。这样,结合目标为孩子的和第一麦克风阵列200在三维空间中的位置,能够确定第一对象相对第一麦克风阵列的位置。
实际应用时,可以基于预设高度和第一角度确定多个预测位置点,然后分别计算每个预测位置点距离第一麦克风阵列200的距离,再从多个预测位置点中选择距离第一麦克风阵列200最远的点作为目标位置点。
具体地,可以对预设高度的水平面进行格点化,在预设高度的水平面上设置多个平面格点。其中,第i个平面格点的位置可以表示为其中,为从坐标系原点指向第g个格点的向量。
接着,可以基于第一麦克风阵列200的基准坐标和第一麦克风阵列200的指向向量,计算第一麦克风阵列200与第i个平面格点的夹角βi。具体地,该夹角βi可以通过如下公式计算:
其中,为从坐标系原点指向第一麦克风阵列200的基准坐标的向量,为第一麦克风阵列200的朝向向量。
接着,朝向确定模块112判断夹角βi与第一角度之间的差距是否大于位置估计误差裕度lim。如果则第i个平面格点可能是预测位置点。接着,可以计算第i个平面格点与第一麦克风阵列200的基准坐标之间的距离di。
然后,朝向确定模块113继续判断第i+1个平面格点是否为预测位置点。若是,则计算第i+1个平面格点与第一麦克风阵列200的基准坐标之间的距离di+1。接着,朝向确定模块113比较di与di+1之间的大小关系。如果di+1大于di,朝向确定模块113将第i+1个平面格点确定为目标位置点。如此,通过遍历多个平面格点,可以确定目标位置点。
在确定目标位置点之后,可以基于目标位置点确定第一对象的坐标ge=(xe,ye,ze)。由于第一麦克风阵列200的坐标已知,确定第一对象的坐标相当于确定第一对象与第一麦克风阵列200的相对位置关系。
在确定第一对象的坐标之后,可以进一步确定俯仰旋转角和方位旋转角。考虑到实现方式一中用于确定朝向对应关系的相关信息有限,朝向确定模块112可以通过假设简化确定朝向对应关系的方法。具体地,为了确定房间坐标系与第一坐标系的对应关系,可以假设第一对象的发声方向为水平方向,且正对麦克风。
这样,第一麦克风阵列200在第一坐标系下的向量且第一对象发出的声音对应的向量方位旋转角φ=0,俯仰旋转角其中,为归一化的向量
可以理解的是,如果不仅有第一对象发出声音,那么第一麦克风阵列200采集到的音频信号可能是来自多个声源的多个音频信号叠加后的信号。相应地,在确定朝向对应关系时,朝向确定模块112所确定的朝向对应关系为等效声源相对第一麦克风阵列200之间的朝向对应关系。其中,等效声源为多个声源叠加后的声源。或者,朝向确定模块112也可以先从多个声源中选择音频信号强度最高的声源,或者选择距离第一麦克风阵列200最远的声源确定朝向对应关系。
实现方式二:朝向确定模块112基于第一音频信号和单目相机拍摄得到的图像信息确定朝向对应关系。
在第二种可能的实现方式中,朝向确定模块112可以基于第一音频信号和单目相机拍摄得到的图像信息确定俯仰旋转角和方位旋转角。实际应用中,在第二种实现方式中,会议终端100不仅与第一麦克风阵列200连接,还与图像采集装置500连接。其中,图像采集装置500包括单目相机,图像采集装置500向朝向确定模块发送的图像信息包括单目相机采集得到的图像信息。
具体地,在确定朝向对应关系时,朝向确定模块112可以先对第一音频信号进行处理,确定第一对象与第一麦克风阵列200的相对位置关系。然后根据第一对象与第一麦克风阵列200的相对位置关系和单目相机得到的图像信息确定朝向对应关系。关于确定第一对象与第一麦克风阵列200的相对位置关系的方法可以参见前文介绍,这里不再赘述。
下面以第一对象为发声人员为例,介绍基于第一对象与第一麦克风阵列200的相对位置关系和图像信息确定朝向对应关系的方法。
首先,可以根据第一麦克风阵列200的相对位置关系计算平移变换参数。具体地,可以通过公式进行计算。关于和的介绍可以参见上文,这里不再赘述。
接着,可以计算从房间坐标系到第一坐标系的旋转矩阵。具体地,可以基于单目相机拍摄得到的图像确定第一对象的法向量,再基于第一对象的法向量确定从房间坐标系到第一坐标系的旋转矩阵。如果第一对象为参会人员,那么第一对象的法向量又可以被称为面部法向量。
具体地,在获取到单目相机拍摄得到的图像信息之后,朝向确定模块112可以通过面部法向模型(facial normal model)计算面部法向量。其中,面部法向量用于指示第一对象的面部朝向,即第一对象发出的声音的方向。例如,面部法向量为人嘴的指向方向。面部法向模型可以用于追踪面部的五个特征确定面部朝向。上述五个特征包括人脸双眼外侧端点、嘴巴两侧端点和鼻尖。面部法向量为垂直于眼部和嘴部的四个特征点构成的平面,且通过鼻尖特征点的向量。在本实施例中,通过表示面部法向量。
假设房间坐标系的X轴对应向量房间坐标系的Y轴对应向量房间坐标系的Z轴对应向量基于面部法向量可以计算出面部法向量在房间坐标系的XOY平面上的投影这样,可以分别计算面部法向量在房间坐标系的XOY平面上投影向量与房间坐标系的x轴的夹角φc,以及面部法向量在房间坐标系的XOY平面上投影向量与面部法向量的夹角θc。具体地,朝向确定模块112可以通过如下公式进行计算:
其中,对于绕旋转轴逆时针旋转的sign的取值为1,绕旋转轴顺时针旋转的sign的取值为-1。
在确定φc和θc之后,可以分别计算方位角旋转矩阵R1和俯仰角旋转矩阵R2。具体可以通过如下公式进行计算:
接着,朝向确定模块112基于方位角旋转矩阵R1和俯仰角旋转矩阵R2,计算用于修正人头偏转量的偏转角旋转矩阵R3。具体地,朝向确定模块112可以先确定用于修正人头偏转量的偏转旋转角fe,然后根据偏转旋转角fe和人脸偏转角fr确定偏转角旋转矩阵R3。其中,人脸偏转角fr可以通过对单目相机拍摄的图像进行分析得到,表示人脸相对于面部法向量的偏转角度。
具体地,朝向确定模块112可以通过如下公式进行计算偏转角旋转矩阵R3:
在得到方位角旋转矩阵R1、俯仰角旋转矩阵R2和偏转角旋转矩阵R3之后,可以计算从房间坐标系到第一坐标系的坐标转移矩阵bRT=R3R2R1bT。
在确定坐标转移矩阵bRT之后,朝向确定模块112可以通过如下公式计算方位旋转角φ和俯仰旋转角θ。
其中,表示坐标转移矩阵bRT中第一个元素,表示坐标转移矩阵bRT中第二个元素,表示坐标转移矩阵bRT中第三个元素。
在实现方式二中,基于单目相机的识别结果确定第一对象的朝向,可以适应参会人员身体和头部的朝向情况。这样,不仅可以根据声源位置的移动自适应调节第一麦克风阵列200采集到的音频信号,还可以根据人脸朝向进行动态调节,提到了第一麦克风阵列200的拾音质量。
实现方式三:朝向确定模块112基于第一音频信号和双目相机拍摄得到的图像确定朝向对应关系。
在第三种实现方式中,朝向确定模块112可以基于第一音频信号和双目相机拍摄得到的图像信息确定俯仰旋转角和方位旋转角。实际应用中,在第二种实现方式中,会议终端100不仅与第一麦克风阵列200连接,还与图像采集装置500连接。其中,图像采集装置500包括双目相机,图像采集装置500向朝向确定模块发送的图像信息包括双目相机采集得到的图像信息。具体地,双目相机可以包括两个单目相机,且双目相机的两个相机之间的距离确定。
在上述实现方式一和实现方式二中,需要假设目标位置点为距离第一麦克风阵列200最远的预设位置点。在实现方式三中,无需进行上述假设,可以基于双目相机拍摄得到图像确定第一对象的准确位置。
具体地,朝向确定模块112首先对第一音频信号进行分析,确定第一角度接着,朝向确定模块112基于双目相机拍摄得到的图像确定深度信息,并基于深度信息、预设高度和第一角度确定第一对象与第一麦克风阵列200的相对位置关系。然后,朝向确定模块112基于双目相机拍摄得到图像和相对位置关系确定俯仰旋转角和方位旋转角。
其中,确定第一角度和确定俯仰旋转角和方位旋转角的介绍可以参见前述两种实现方式,这里不再赘述。
下面介绍朝向确定模块112基于双目相机拍摄得到的图像确定深度信息的方法。
双目相机包括两个(或更多)的单目相机,每个单目相机可以视为单独的摄像头。并且,双目相机中摄像头的相对位置是固定且已知的。第一对象的深度信息是指第一对象到双目相机的像平面的距离,即第一对象到双目相机的连线在相机主轴上的投影距离。
假设双目相机包括第一摄像头和第二摄像头,且第一摄像头与第二摄像头之间的距离为b,第一摄像头和第二摄像头的焦距为f,第一摄像头采集到的图像为第一图像,第二摄像头采集到的图像为第二图像。那么,在确定第一对象的深度信息时,朝向确定模块112首先分别对第一图像和第二图像进行识别,确定第一对象在第一图像中的位置和第一对象在第二图像中的位置。
然后,朝向确定模块112确定第一对象在第一摄像头的像平面上的成像,与第一摄像头的主轴之间的距离l,以及第一对象在第二摄像头的像平面上的成像,与第二摄像头的主轴之间的距离r。
接着,朝向确定模块112可以根据第一摄像头、第二摄像头和第一对象之间的几何关系,计算第一对象到双目相机的连线在相机主轴上的投影距离d。具体可以通过如下公式进行计算:
d=f*b/(l-r)
关于第一摄像头、第二摄像头和第一对象之间的几何关系可以参考图5。图5中的相机1可以是第一摄像头,相机2可以是第二摄像头,目标可以是第一对象,目标深度即为上述第一对象到双目相机的连线在相机主轴上的投影距离。
在确定深度信息d之后,朝向确定模块可以根据深度信息d、预设高度和第一角度确定第一对象与第一麦克风阵列200的相对位置关系。具体地,双目相机在房间坐标系中的位置根据双目相机的安装位置确定,可以预先设置或者由技术人员在会议终端100上设置。这样,可以从第一角度对应的空心圆锥与预设高度的水平面相交得到的椭圆环上确定多个预设位置点。然后分别计算每个预设位置点到双目相机的连线在相机主轴上的投影距离,并将投影距离与深度信息d匹配的预设位置点确定为目标位置点。
可选地,在一些可能的实现中,可能存在两个或多个预设位置点能够满足预设高度、第一角度和深度信息。那么朝向确定模块112可以基于图像信息进行判断,从而确定目标位置点的具体位置。
在上述实现方式中,增加了双目相机进行更精确的定位,提高了第一对象的位置的精确程度,使得得到的朝向对应关系与实际的角度关系更加匹配,提升了第一麦克风阵列200的拾音质量。
实现方式四:朝向确定模块112基于第一音频信号和第三音频信号确定朝向对应关系。
在第四种实现方式中,朝向确定模块112可以基于第一音频信号和第三音频信号确定俯仰旋转角和方位旋转角实际应用中,在第四种实现方式中,会议终端100不仅与第一麦克风阵列200连接,还与第二麦克风阵列400连接。另外,会议终端100可以不与图像采集装置500连接。
具体地,朝向确定模块112可以基于第一音频信号确定第一角度以及基于音频信号确定第二角度其中,第二角度的确定方法与确定第一角度的方法相似,这里不再赘述。
在确定第一角度和第二角度之后,朝向确定模块112基于预设高度、第一角度和第二角度确定目标位置点。具体地,第一角度对应一个空心圆锥,第二角度对应另一个空心圆锥,那么目标位置点同时属于第一角度对应的空心圆锥、第二角度对应的空心圆锥和预设高度对应的水平面。
具体地,基于第一角度对应的空心圆锥与预设高度对应的水平面可以确定一个椭圆环,基于第二角度对应的空心圆锥与预设高度对应的水平面可以确定另一个椭圆环。目标位置点即为这两个椭圆环的交点。可选地,如果上述两个椭圆环存在多个交点,朝向确定模块112可以将距离第一麦克风阵列200,和/或,第二麦克风阵列400最远的预设位置点确定为目标位置点。
在上述实现方式中,基于两个麦克风阵列共同确定第一对象的位置,提高了第一对象的位置确定的精度。
实现方式五:朝向确定模块112基于第一音频信号、第三音频信号和单目相机拍摄得到的图像确定朝向对应关系。
在第五种实现方式中,朝向确定模块112可以结合上述实现方式二和实现方式四确定朝向对应关系。这样,既可以较为精确地定位第一对象,也可以结合第一对象的朝向对第一音频信号进行调整。
实现方式六:朝向确定模块112基于第一音频信号、第三音频信号和双目相机拍摄得到的图像确定朝向对应关系。
在第六种实现方式中,朝向确定模块112结合上述实现方式二和实现方式四确定朝向对应关系。这样,既可以较为精确地定位第一对象,也可以结合第一对象的朝向对第一音频信号进行调整。另外,在定位第一对象时,还可以结合深度信息进行定位,进一步提高了第一对象的位置的精确性。
实际应用时,可能存在多个声源进行发生的情况。例如在远程会议的应用场景中,可能存在多名参会人员同时发出声音的情况。
而第一角度和第二角度是通过DOA的方法得到的,第一角度和第二角度实际上是声音信号的能量最强的声源对应的角度。而基于相机拍摄的图像进行识别,无法判断每个声源的声音信号的能量强度。为此,在上述实现方式二、实现方式三和实现方式五中,可以将图像中距离的第一麦克风阵列200最远的声源确定为第一对象。
而在实现方式六中,可以从多个声源中确定发出的声音信号的能量最强的声源。
例如,假设存在第一对象和第二对象两个声源。那么朝向确定模块112可以通过双目相机分别确定第一对象的深度信息和第二对象的深度信息。其中,第一对象的深度信息为第一对象到双目相机的像平面的距离,第二对象的深度信息为第二对象到孀居相机的像平面的距离。接着,朝向确定模块可以根据第一对象的深度信息、第二对象的深度信息、预设高度、第一角度和第二角度,确定发出声音信号的能量最强的声源。这样,由于包括了多个深度信息以及多个角度信息,可以从多个声源中确定声音信号能量最强的声源。
具体地,在确定第一对象的声音信息和第二对象的声音信息时,朝向确定模块112可以先获取第一图像和第二图像,然后分别对第一图像和第二图像分别进行发声状态识别,确定第一对象在第一图像中的位置、第一对象在第二图像中的位置、第二对象在第一图像中的位置以及第二对象在第二图像中的位置。然后,朝向确定模块112根据第一对象在第一图像中的位置和第一对象在第二图像中的位置确定第一对象的深度信息,并根据第二对象在第一图像中的位置以及第二对象在第二图像中的位置确定第二对象的深度信息。
需要说明的是,本申请实施例中,对于声音信号调整装置110内的各个单元的划分以及功能描述仅作为一种示例。比如,在其他实施例中,获取模块111可以用于执行上述声音信号调整方法中的任意步骤,类似的,朝向确定模块112和调整模块113均可以用于执行上述声音信号调整方法中的任意步骤,并且,获取模块111、朝向确定模块112和调整模块113负责实现的步骤可根据需要指定,通过获取模块111、朝向确定模块112和调整模块113分别实现声音信号调整方法中不同的步骤来实现声音信号调整装置的功能。
上述图3所示实施例中,针对声音信号调整过程中所涉及到的声音信号调整装置110(包括上述获取模块111、朝向确定模块112和调整模块113)可以是配置于计算设备或者计算设备集群上的软件,并且,通过在计算设备或者计算设备集群上运行该软件,可以使得计算设备或者计算设备集群实现上述声音信号调整装置110所具有的功能。下面,基于硬件设备实现的角度,对声音信号调整的过程中所涉及的声音信号调整装置进行详细介绍。
图6示出了一种计算设备的结构示意图,上述声音信号调整装置可以部署在该计算设备上,该计算设备可以是云环境中的计算设备(如服务器),或边缘环境中的计算设备,或终端设备等具体可以用于实现上述图3所示实施例中获取模块111、朝向确定模块112和调整模块113的功能。
如图6所示,计算设备600包括处理器610、存储器620、通信接口630和总线640。处理器610、存储器620和通信接口630之间通过总线640通信。总线640可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extendedindustry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口630用于与外部通信,例如接收第一麦克风阵列采集的第一音频信号、第二麦克风阵列采集的第二音频信号和图像信息等。
其中,处理器610可以为中央处理器(central processing unit,CPU)、专用集成电路(application specific integrated circuit,ASIC)、图形处理器(graphicsprocessing unit,GPU)或者一个或多个集成电路。处理器610还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,声音信号调整装置中各个单元的功能可以通过处理器610中的硬件的集成逻辑电路或者软件形式的指令完成。处理器610还可以是通用处理器、数据信号处理器(digital signal process,DSP)、现场可编程逻辑门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件,分立门或者晶体管逻辑器件,分立硬件组件,可以实现或者执行本申请实施例中公开的方法、步骤及逻辑框图。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,结合本申请实施例所公开的方法可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器620,处理器610读取存储器620中的信息,结合其硬件完成声音信号调整装置中的部分或全部功能。
存储器620可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。存储器620还可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,HDD或SSD。
存储器620中存储有可执行代码,处理器610执行该可执行代码以执行前述声音信号调整装置所执行的方法。
具体地,在实现图3所示实施例的情况下,且图3所示实施例中所描述的获取模块111、朝向确定模块112和调整模块113为通过软件实现的情况下,执行图3中的获取模块111、朝向确定模块112和调整模块113功能所需的软件或程序代码存储在存储器620中,客户端模块210与其它设备的交互通过通信接口630实现,处理器用于执行存储器620中的指令,实现声音信号调整装置所执行的方法。
图7示出的一种计算设备集群的结构示意图。其中,图7所示的计算设备集群70包括多个计算设备,上述声音信号调整装置可以分布式地部署在该计算设备集群70中的多个计算设备上。如图7所示,计算设备集群70包括多个计算设备700,每个计算设备700包括存储器720、处理器710、通信接口730以及总线740,其中,存储器720、处理器710、通信接口730通过总线740实现彼此之间的通信连接。
处理器710可以采用CPU、GPU、ASIC或者一个或多个集成电路。处理器710还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,声音信号调整装置的部分功能可用通过处理器710中的硬件的集成逻辑电路或者软件形式的指令完成。处理器710还可以是DSP、FPGA、通用处理器、其他可编程逻辑器件,分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的部分方法、步骤及逻辑框图。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,结合本申请实施例所公开的声音信号调整方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器720,在每个计算设备700中,处理器710读取存储器720中的信息,结合其硬件可以完成声音信号调整装置的部分功能。
存储器720可以包括ROM、RAM、静态存储设备、动态存储设备、硬盘(例如SSD、HDD)等。存储器720可以存储程序代码,例如,用于实现上述获取模块111的部分或者全部程序代码、用于实现朝向确定模块112的部分或者全部程序代码、用于实现调整模块113的部分或者全部程序代码等。针对每个计算设备700,当存储器720中存储的程序代码被处理器710执行时,处理器710基于通信接口730执行声音信号调整装置所执行的部分方法。例如其中一部分计算设备700可以用于执行上述获取模块111所执行的方法,另一部分计算设备700用于执行上述朝向确定模块112和调整模块113所执行的方法。存储器720还可以存储数据,例如:处理器710在执行过程中产生的中间数据或结果数据,例如,上述第一向量和第一角度等。
每个计算设备700中的通信接口703用于与外部通信,例如与其它计算设备700进行交互等。
总线740可以是外设部件互连标准总线或扩展工业标准结构总线等。为便于表示,图7中每个计算设备700内的总线740仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
上述多个计算设备700之间通过通信网络建立通信通路,以实现声音信号调整装置的功能。任一计算设备可以是云环境中的计算设备(例如,服务器),或边缘环境中的计算设备,或终端设备。
此外,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在一个或者多个计算设备上运行时,使得该一个或者多个计算设备执行上述实施例声音信号调整装置的各个单元所执行的方法。
此外,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品被一个或者多个计算设备执行时,所述一个或者多个计算设备执行前述声音信号调整方法中的任一方法。该计算机程序产品可以为一个软件安装包,在需要使用前述声音信号调整方法的任一方法的情况下,可以下载该计算机程序产品并在计算机上执行该计算机程序产品。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,单元之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (27)
1.一种音频信号调整方法,其特征在于,所述方法包括:
获取第一音频信号,所述第一音频信号包括第一麦克风阵列对第一对象发出的声音进行采集得到的音频信号;
确定朝向对应关系,所述朝向对应关系指示所述第一对象的朝向与所述第一麦克风阵列之间的角度关系;
根据所述朝向对应关系对所述第一音频信号进行调整,得到第二音频信号。
2.根据权利要求1所述的方法,其特征在于,所述朝向对应关系用于指示从第一向量到第二向量的旋转角度,所述第一向量对应所述第一对象的朝向,所述第二向量对应从所述第一对象到所述第一麦克风阵列的方向。
3.根据权利要求1或2所述的方法,其特征在于,所述确定朝向对应关系包括:
对所述第一音频信号进行分析,确定所述第一麦克风阵列与所述第一对象的相对位置关系;
根据所述第一麦克风阵列与所述第一对象的相对位置关系,确定所述朝向对应关系。
4.根据权利要求3所述的方法,其特征在于,所述第一麦克风阵列包括多个麦克风阵元,所述第一音频信号包括所述多个麦克风阵元分别采集到的音频信号;
所述对所述第一音频信号进行分析,确定所述第一麦克风阵列与所述第一对象的相对位置关系包括:
对所述多个麦克风阵元分别采集到的音频信号之间的差异进行分析,确定所述第一麦克风阵列与所述第一对象的相对位置关系。
5.根据权利要求4所述的方法,其特征在于,所述对所述多个麦克风阵元分别采集到的音频信号之间的差异进行分析,确定所述第一麦克风阵列与所述第一对象的相对位置关系包括:
对所述多个麦克风阵元采集到的音频信号之间的差异进行分析,确定第一角度,所述第一角度为从所述第一麦克风阵列到所述第一对象的向量,与所述第一麦克风阵列的法向量之间的夹角;
根据预设高度和所述第一角度确定目标位置点;
根据所述目标位置点确定所述第一对象和所述第一麦克风阵列的相对位置关系。
6.根据权利要求5所述的方法,其特征在于,所述根据预设高度和所述第一角度确定目标位置点包括:
根据所述预设高度和所述第一角度确定多个预测位置点,所述预测位置点的高度与所述预设高度匹配,从所述第一麦克风阵列到所述预测位置点的向量,与所述第一麦克风阵列的法向量的夹角与所述第一角度匹配;
确定所述多个预测位置点中每个预测位置点与所述第一麦克风阵列的距离;
将距离所述第一麦克风阵列最远的预测位置点确定为目标位置点。
7.根据权利要求5所述的方法,其特征在于,所述根据预设高度和所述第一角度确定目标位置点包括:
通过第一相机获取第一深度信息,所述第一深度信息用于指示所述第一对象到所述第一相机的像平面的距离;
根据所述第一深度信息、所述预设高度和所述第一角度确定目标位置点。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取第三音频信号,所述第三音频信号包括第二麦克风阵列对第一对象发出的声音进行采集得到的音频信号;
根据所述第三音频信号确定第二角度,所述第二角度为所述第二麦克风阵列到所述第一对象的向量与所述第二麦克风阵列的法向量之间的夹角;
所述根据预设高度和所述第一角度确定目标位置点还包括:
根据所述预设高度、所述第一角度和所述第二角度确定所述目标位置点。
9.根据权利要求8所述的方法,其特征在于,所述第一音频信号还包括第一麦克风阵列对第二对象发出的声音进行采集得到的音频信号,所述第三音频信号还包括第二麦克风阵列对第二对象发出的声音进行采集得到的音频信号,所述第一对象所发出的声音的强度高于所述第二对象所发出的声音的强度;
在确定所述目标位置点之前,所述方法还包括:
获取第二深度信息和第三深度信息,所述第二深度信息用于指示所述第一对象到第二相机的像平面的距离,所述第三深度信息用于指示所述第二对象到所述第二相机的像平面的距离;
根据所述第二深度信息、第三深度信息、所述预设高度、所述第一角度和所述第二角度确定所述第一对象所发出的声音的强度高于所述第二对象所发出的声音的强度。
10.根据权利要求9所述的方法,其特征在于,所述第二相机包括第一摄像头和第二摄像头,所述获取第二深度信息包括:
获取所述第一摄像头采集的第一图像和所述第二摄像头采集的第二图像,所述第一图像和所述第二图像均包括至少两个对象的图像;
对所述第一图像和所述第二图像分别进行发声状态识别,确定所述第一对象在所述第一图像和所述第二图像中的位置,所述第一对象处于发声状态;
根据确定所述第一对象分别在所述第一图像和所述第二图像中的位置,以及所述第一摄像机和所述第二摄像机的相对位置,确定所述第二深度信息。
11.根据权利要求3-10任一项所述的方法,其特征在于,所述根据所述第一麦克风阵列与所述第一对象的相对位置关系,确定所述朝向对应关系包括:
确定根据所述第一麦克风阵列的位置与所述第一对象的位置确定第三向量,所述第三向量为从所述第一对象指向所述第一麦克风阵列的向量;
根据所述第一向量与水平方向的夹角,确定所述第一麦克风阵列与所述第一对象之间的朝向对应关系。
12.根据权利要求3-10任一项所述的方法,其特征在于,所述根据所述第一麦克风阵列与所述第一对象的相对位置关系,确定所述朝向对应关系包括:
获取第一对象的图像;
对所述第一对象的图像进行识别,确定所述第一对象的法向量,所述第一对象的法向量用于指示所述第一对象的朝向;
根据所述第一对象的法向量,和所述第一麦克风阵列与所述第一对象的相对位置关系,确定所述朝向对应关系。
13.一种音频信号调整装置,其特征在于,所述装置包括:
获取模块,用于获取第一音频信号,所述第一音频信号包括第一麦克风阵列对第一对象发出的声音进行采集得到的音频信号;
朝向确定模块,用于确定朝向对应关系,所述朝向对应关系指示所述第一对象的朝向与所述第一麦克风阵列之间的角度关系;
调整模块,用于根据所述朝向对应关系对所述第一音频信号进行调整,得到第二音频信号。
14.根据权利要求13所述的装置,其特征在于,所述朝向对应关系用于指示从第一向量到第二向量的旋转角度,所述第一向量对应所述第一对象的朝向,所述第二向量对应从所述第一对象到所述第一麦克风阵列的方向。
15.根据权利要求13或14所述的装置,其特征在于,
所述朝向确定模块,具体用于对所述第一音频信号进行分析,确定所述第一麦克风阵列与所述第一对象的相对位置关系;根据所述第一麦克风阵列与所述第一对象的相对位置关系,确定所述朝向对应关系。
16.根据权利要求15所述的装置,其特征在于,所述第一麦克风阵列包括多个麦克风阵元,所述第一音频信号包括所述多个麦克风阵元分别采集到的音频信号;
所述朝向确定模块,具体用于对所述多个麦克风阵元分别采集到的音频信号之间的差异进行分析,确定所述第一麦克风阵列与所述第一对象的相对位置关系。
17.根据权利要求16所述的装置,其特征在于,所述朝向确定模块,具体用于对所述多个麦克风阵元采集到的音频信号之间的差异进行分析,确定第一角度,所述第一角度为从所述第一麦克风阵列到所述第一对象的向量,与所述第一麦克风阵列的法向量之间的夹角;根据预设高度和所述第一角度确定目标位置点;根据所述目标位置点确定所述第一对象和所述第一麦克风阵列的相对位置关系。
18.根据权利要求17所述的装置,其特征在于,所述朝向确定模块,具体用于根据所述预设高度和所述第一角度确定多个预测位置点,所述预测位置点的高度与所述预设高度匹配,从所述第一麦克风阵列到所述预测位置点的向量,与所述第一麦克风阵列的法向量的夹角与所述第一角度匹配;确定所述多个预测位置点中每个预测位置点与所述第一麦克风阵列的距离;将距离所述第一麦克风阵列最远的预测位置点确定为目标位置点。
19.根据权利要求17所述的装置,其特征在于,
所述朝向确定模块,具体用于通过第一相机获取第一深度信息,所述第一深度信息用于指示所述第一对象到所述第一相机的像平面的距离;根据所述第一深度信息、所述预cv高度和所述第一角度确定目标位置点。
20.根据权利要求17所述的装置,其特征在于,
所述获取模块,还用于获取第三音频信号,所述第三音频信号包括第二麦克风阵列对所述第一对象发出的声音进行采集得到的音频信号;
所述朝向确定模块,还用于根据所述第三音频信号确定第二角度,所述第二角度为所述第二麦克风阵列到所述第一对象的向量与所述第二麦克风阵列的法向量之间的夹角;根据所述预设高度、所述第一角度和所述第二角度确定所述目标位置点。
21.根据权利要求20所述的装置,其特征在于,所述第一音频信号还包括第一麦克风阵列对第二对象发出的声音进行采集得到的音频信号,所述第三音频信号还包括第二麦克风阵列对第二对象发出的声音进行采集得到的音频信号,所述第一对象所发出的声音的强度高于所述第二对象所发出的声音的强度;
所述获取模块,还用于获取第二深度信息和第三深度信息,所述第二深度信息用于指示所述第一对象到第二相机的像平面的距离,所述第三深度信息用于指示所述第二对象到所述第二相机的像平面的距离;
所述朝向确定模块,还用于根据所述第二深度信息、第三深度信息、所述预设高度、所述第一角度和所述第二角度确定所述第一对象所发出的声音的强度高于所述第二对象所发出的声音的强度。
22.根据权利要求21所述的装置,其特征在于,所述第二相机包括第一摄像头和第二摄像头,
所述获取模块,具体用于获取所述第一摄像头采集的第一图像和所述第二摄像头采集的第二图像,所述第一图像和所述第二图像均包括至少两个对象的图像;
所述朝向确定模块,具体用于对所述第一图像和所述第二图像分别进行发声状态识别,确定所述第一对象在所述第一图像和所述第二图像中的位置,所述第一对象处于发声状态;根据确定所述第一对象分别在所述第一图像和所述第二图像中的位置,以及所述第一摄像机和所述第二摄像机的相对位置,确定所述第二深度信息。
23.根据权利要求15-22任一项所述的装置,其特征在于,
所述朝向确定模块,还用于确定根据所述第一麦克风阵列的位置与所述第一对象的位置确定第三向量,所述第三向量为从所述第一对象指向所述第一麦克风阵列的向量;根据所述第一向量与水平方向的夹角,确定所述第一麦克风阵列与所述第一对象之间的朝向对应关系。
24.根据权利要求15-22任一项所述的装置,其特征在于,
所述获取模块,还用于获取第一对象的图像;
所述朝向确定模块,还用于对所述第一对象的图像进行识别,确定所述第一对象的法向量,所述第一对象的法向量用于指示所述第一对象的朝向;根据所述第一对象的法向量、所述第一麦克风阵列的法向量和所述第一麦克风阵列与所述第一对象的相对位置关系,确定所述朝向对应关系。
25.一种设备,其特征在于,所述设备包括存储器和处理器,所述存储器用于存储指令,所述处理器用于运行所述指令,以使得所述设备执行如权利要求1-12任一项所述的方法。
26.一种系统,其特征在于,所述系统包括第一麦克风阵列和第一设备,所述第一麦克风阵列用于采集音频信号,所述第一设备存储器和处理器,所述存储器用于存储指令,所述处理器用于运行所述指令,以使得所述第一设备执行如权利要求1-12任一项所述的方法。
27.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在计算设备上运行时,使得所述计算设备执行如权利要求1至12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211096258.7A CN117729465A (zh) | 2022-09-08 | 2022-09-08 | 一种音频信号调整方法、装置、设备、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211096258.7A CN117729465A (zh) | 2022-09-08 | 2022-09-08 | 一种音频信号调整方法、装置、设备、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117729465A true CN117729465A (zh) | 2024-03-19 |
Family
ID=90200283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211096258.7A Pending CN117729465A (zh) | 2022-09-08 | 2022-09-08 | 一种音频信号调整方法、装置、设备、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117729465A (zh) |
-
2022
- 2022-09-08 CN CN202211096258.7A patent/CN117729465A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105981404B (zh) | 使用麦克风阵列的混响声的提取 | |
CN106653041B (zh) | 音频信号处理设备、方法和电子设备 | |
US8577054B2 (en) | Signal processing apparatus, signal processing method, and program | |
CN107534725B (zh) | 一种语音信号处理方法及装置 | |
US9338544B2 (en) | Determination, display, and adjustment of best sound source placement region relative to microphone | |
TWI558228B (zh) | 依據空間能量密度定位麥克風之設備及方法 | |
US10726861B2 (en) | Semi-private communication in open environments | |
US9451379B2 (en) | Sound field analysis system | |
US9838646B2 (en) | Attenuation of loudspeaker in microphone array | |
KR20160026652A (ko) | 사운드 신호 처리 방법 및 장치 | |
US11284211B2 (en) | Determination of targeted spatial audio parameters and associated spatial audio playback | |
WO2015106401A1 (zh) | 语音处理方法和语音处理装置 | |
CN110610718A (zh) | 一种提取期望声源语音信号的方法及装置 | |
Di Carlo et al. | Mirage: 2d source localization using microphone pair augmentation with echoes | |
CN111551921A (zh) | 一种声像联动的声源定向系统及方法 | |
CN116671132A (zh) | 利用空间元数据内插和源位置信息的音频渲染 | |
CN117729465A (zh) | 一种音频信号调整方法、装置、设备、系统及介质 | |
JP2017108240A (ja) | 情報処理装置、及び情報処理方法 | |
JP6368055B2 (ja) | ビデオチャットにおける録音方法、および端末 | |
CN114038452A (zh) | 一种语音分离方法和设备 | |
CN115884038A (zh) | 音频采集方法、电子设备及存储介质 | |
Tashev et al. | Cost function for sound source localization with arbitrary microphone arrays | |
WO2023088156A1 (zh) | 一种声速矫正方法以及装置 | |
US20240340605A1 (en) | Information processing device and method, and program | |
Lu et al. | Separating voices from multiple sound sources using 2D microphone array |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |