CN117135280B - 语音通话的方法和电子设备 - Google Patents
语音通话的方法和电子设备 Download PDFInfo
- Publication number
- CN117135280B CN117135280B CN202310432571.1A CN202310432571A CN117135280B CN 117135280 B CN117135280 B CN 117135280B CN 202310432571 A CN202310432571 A CN 202310432571A CN 117135280 B CN117135280 B CN 117135280B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- state
- angle
- microphone
- pose
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 158
- 238000012545 processing Methods 0.000 claims abstract description 98
- 230000005236 sound signal Effects 0.000 claims description 517
- 230000009467 reduction Effects 0.000 claims description 147
- 230000008569 process Effects 0.000 claims description 46
- 238000004891 communication Methods 0.000 claims description 44
- 230000006854 communication Effects 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 description 24
- 230000000694 effects Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 12
- 238000012937 correction Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 8
- 241000209140 Triticum Species 0.000 description 6
- 235000021307 Triticum Nutrition 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000005314 correlation function Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例适用于音频数据处理领域,提供一种语音通话的方法和电子设备,该电子设备包括第一麦克风和第二麦克风,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,能够在电子设备处于快速大张角状态时,采用匹配的降噪算法处理当前的音频信号,提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。
Description
技术领域
本申请涉及音频数据处理领域,并且更具体地,涉及一种语音通话的方法和电子设备。
背景技术
现阶段,电子设备(例如手机)上通常设置有多个麦克风。其中,设置在电子设备的底部,靠近用户嘴巴的麦克风称为主麦,主麦用于采集用户的声音信号;设置在电子设备的其他区域的麦克风称为副麦,副麦用于采集环境噪声。
在用户调整电子设备的位姿过程中,主麦与用户的嘴巴之间的距离从小变大,因此主麦采集的声音信号从大变小,而又由于副麦的位置基本不变,因此副麦采集的噪声信号基本不变。也即是说,电子设备的信噪比随着电子设备的位姿变化而变化。在这种情况下,由于电子设备的信噪比发生变化,若直接采用预设的降噪算法对主麦采集的声音信号进行修正,将导致对主麦采集的声音信号的修正结果不准确,进而导致电子设备的语音通话质量下降。
基于此,如何提高电子设备的语音通话质量成为了一个亟待解决的问题。
发明内容
本申请提供了一种语音通话的方法,能够提高电子设备的语音通话质量。
第一方面,提供了一种语音通话的方法,该方法应用于电子设备,电子设备包括多个麦克风,多个麦克风包括第一麦克风和第二麦克风,第一麦克风用于采集用户的声音信号,第二麦克风用于采集电子设备所处环境的噪声信号,该方法包括:
获取第一音频信号和第二音频信号,第一音频信号为第一麦克风采集的音频信号,第二音频信号为第二麦克风采集的音频信号;
基于第一音频信号和第二音频信号确定电子设备是否处于第一状态,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,其中,第一位姿是指第一麦克风与用户嘴部之间的距离小于第二阈值的位姿,第二位姿是指第一麦克风与用户嘴部之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿过程中,第二麦克风与用户嘴部之间的距离小于第四阈值;
若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号;
输出第三音频信号。
本申请实施例提供的语音通话的方法,应用于电子设备,电子设备包括第一麦克风和第二麦克风,第一麦克风用于采集用户的声音信号,第二麦克风用于采集电子设备所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指第一麦克风与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,第二麦克风与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,通过第一音频信号和第二音频信号确定出电子设备处于第一状态的情况下,使用第一状态对应的降噪算法对第一音频信号进行降噪处理,得到电子设备输出的第三音频信号,使得在第一状态(即快速大张角状态)时,电子设备能够采用与第一状态匹配的降噪算法处理当前的音频信号(第一音频信号),提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。
结合第一方面,在第一方面的某些实现方式中,上述基于第一音频信号和第二音频信号确定电子设备是否处于第一状态,包括:基于第一音频信号和第二音频信号,获取第一角度,第一角度是指在语音通话时,电子设备与用户之间的夹角;获取第一角度的梯度值,梯度值用于表征当前时刻的第一角度与当前时刻的上一时刻的第一角度之间的差值;根据第一角度的梯度值确定电子设备是否处于第一状态。
本申请实施例提供的语音通话的方法,应用于电子设备,电子设备包括第一麦克风和第二麦克风,主麦用于采集用户的声音信号,副麦用于采集电子设备所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号,获取第一角度,然后获取第一角度的梯度值,并根据第一角度的梯度值确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,副麦与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,通过第一音频信号和第二音频信号确定出电子设备处于第一状态的情况下,使用第一状态对应的降噪算法对第一音频信号进行降噪处理,得到电子设备输出的第三音频信号,使得在第一状态(即快速大张角状态)时,电子设备能够采用与第一状态匹配的降噪算法处理当前的音频信号(第一音频信号),提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。进一步地,在确定电子设备是否处于第一状态的过程中,先基于第一音频信号和第二音频信号确定第一角度,然后再获取第一角度的梯度值,最后根据第一角度的梯度值确定电子设备是否处于第一状态,这样能够提高确定电子设备是否处于第一状态的准确性,进而提高了根据第一算法对第一音频信号进行修正的准确性,进一步地提高了电子设备输出的第三音频信号的效果,也即是提高了电子设备的语音通话质量。
结合第一方面,在第一方面的某些实现方式中,上述基于第一音频信号和第二音频信号,获取第一角度,包括:根据第一音频信号和第二音频信号确定第一延迟值,第一延迟值是指第一音频信号与第二音频信号之间的延迟值;基于第一延迟值,确定第一角度。
本申请的实施例提供的语音通话的方法,应用于电子设备,电子设备包括第一麦克风和第二麦克风,主麦用于采集用户的声音信号,副麦用于采集环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号,确定第一音频信号和第二音频信号之间的第一延迟值,进而根据第一延迟值获取第一角度,然后获取第一角度的梯度值,并根据第一角度的梯度值确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指电子设备从第一位姿转换为第二位姿,且从第一位姿转换为第二位姿的时长小于第一阈值,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿转换为第二位姿时,副麦与用户之间的距离变化值小于第四阈值,即第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,通过第一音频信号和第二音频信号之间的延迟值确定出电子设备是否处于第一状态的情况下,在电子设备处于第一状态的情况下,使用第一状态对应的降噪算法对第一音频信号进行降噪处理,得到电子设备输出的第三音频信号,使得在第一状态(即快速大张角状态)时,电子设备能够采用与第一状态匹配的降噪算法处理第一音频信号,提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。
结合第一方面,在第一方面的某些实现方式中,上述基于第一音频信号和第二音频信号,获取第一角度,包括:获取第一音频信号的第一功率;获取第二音频信号的第二功率;根据第一功率和第二功率,确定第一角度。
本申请的实施例提供的语音通话的方法,应用于电子设备,电子设备包括主麦和副麦,主麦用于采集用户的声音信号,副麦用于采集电子设备当前所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号的第一功率和第二音频信号的第二功率,确定第一角度,然后获取第一角度的梯度值,并根据第一角度的梯度值确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,副麦与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,通过第一音频信号和第二音频信号之间的延迟值确定出电子设备是否处于第一状态的情况下,在电子设备处于第一状态的情况下,使用第一状态对应的降噪算法对第一音频信号进行降噪处理,得到电子设备输出的第三音频信号,使得在第一状态(即快速大张角状态)时,电子设备能够采用与第一状态匹配的降噪算法处理第一音频信号,提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。
结合第一方面,在第一方面的某些实现方式中,上述根据第一角度的梯度值确定电子设备是否处于第一状态,包括:若第一角度的梯度值大于第五阈值的次数大于第六阈值,则确定电子设备处于第一状态。
本申请的实施例中提供的语音通话方法,在确定电子设备是否处于第一状态时,是通过确定第一角度的梯度值大于第五阈值的次数是否大于第六阈值来确定,与在采样过程中,每一次第一角度的梯度值均大于第五阈值相比,在第一角度的梯度值大于第五阈值的次数大于第六阈值时确定电子设备处于第一状态,能够避免在快速大张角状态中,由于用户的抖动导致判断不准确的情况,提高了基于第一角度的梯度值确定电子设备是否处于第一状态的准确性,进而提高了在第一状态下通过第一算法对第一音频信号进行降噪处理的准确性,提高了电子设备的语音通话质量。
结合第一方面,在第一方面的某些实现方式中,上述采用第一算法对第一音频信号进行降噪处理,得到第三音频信号之后,该方法还包括:在预设时长之后,采用第二算法对第一音频信号进行降噪处理,得到第四音频信号,第二算法是电子设备的位姿为第二位姿对应的降噪算法;输出第四音频信号。
本申请的实施例中提供的语音通话方法,应用于电子设备中,电子设备包括主麦和副麦,主麦用于采集用户的声音信号,副麦用于采集电子设备当前所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号的第一功率和第二音频信号的第二功率,确定第一角度,然后获取第一角度的梯度值,并根据第一角度的梯度值确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,然后,在预设时长之后,采用第二算法对第一音频信号进行降噪处理,得到第四音频信号,输出第四音频信号。通常,快速大张角状态是一个短暂的动态过程,且快速大张角状态之后电子设备通常是处于大张角状态,也即是电子设备的位姿为第二位姿,在本申请的实施例中,在采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号之后,间隔预设时长,直接采用大张角状态(第二状态)对应的降噪算法对第一音频信号进行降噪处理,得到第四音频信号,避免了采用复杂的算法对电子设备进行状态判断的过程,在采用匹配的降噪算法对第一音频信号进行降噪处理的基础上,提高了电子设备对第一音频信号进行降噪处理的效率。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:若电子设备处于第二状态,采用第二算法对第一音频信号进行降噪处理,得到第四音频信号,第二状态是指电子设备的位姿为第二位姿的状态。
结合第一方面,在第一方面的某些实现方式中,还包括:若第一角度的梯度值大于第五阈值的次数小于或者等于第六阈值,则确定当前时刻的第一角度是否大于第七阈值,第一角度是指在语音通话时,电子设备与用户之间的夹角,第一角度的梯度值用于表征当前时刻的第一角度与当前时刻的上一时刻的第一角度之间的差值;若当前时刻的第一角度大于第七阈值,则电子设备处于第二状态。
本申请的实施例中提供的语音通话的方法,应用于电子设备,电子设备包括第一麦克风和第二麦克风,主麦用于采集用户的声音信号,副麦用于采集电子设备所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号确定电子设备所处的状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,若电子设备处于第二状态,采用第二算法对第一音频信号进行降噪处理,得到第四音频信号,并输出第四音频信号。其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,副麦与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第二状态是指电子设备的位姿为第二位姿的状态,也即是大张角状态,在本申请的实施例中,电子设备处于不同的状态时,分别采用与电子设备的当前状态匹配降噪算法对第一音频信号进行处理,提高了对第一音频信号进行校正的准确性,进而使得校正后的音频信号的准确性更高,提高了语音通话的质量。
结合第一方面,在第一方面的某些实现方式中,还包括:若电子设备处于第三状态,采用第三算法对第一音频信号进行降噪处理,得到第五音频信号,第三状态是指电子设备的位姿为第一位姿的状态;输出第五音频信号。
结合第一方面,在第一方面的某些实现方式中,还包括:若当前时刻的第一角度小于或者等于第七阈值,则电子设备处于第三状态。
本申请的实施例中提供的语音通话的方法,应用于电子设备,电子设备包括第一麦克风(相当于主麦)和第二麦克风(相当于副麦),主麦用于采集用户的声音信号,副麦用于采集电子设备所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号确定电子设备所处的状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,若电子设备处于第三状态,则采用第三算法对第一音频信号进行降噪处理,得到第五音频信号,并输出第五音频信号。其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,副麦与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第三状态是指电子设备的位姿为第一位姿的状态,也即是正常的语音通话状态,在本申请的实施例中,电子设备处于不同的状态时,分别采用与电子设备的当前状态匹配降噪算法对第一音频信号进行处理,提高了对第一音频信号进行校正的准确性,进而使得校正后的音频信号的准确性更高,提高了语音通话的质量。
第二方面,提供了一种语音通话的装置,包括用于执行第一方面中任一种方法的单元。该装置可以是服务器,也可以是终端设备,还可以是终端设备内的芯片。该装置可以包括输入单元和处理单元。
当该装置是终端设备时,该处理单元可以是处理器,该输入单元可以是通信接口;该终端设备还可以包括存储器,该存储器用于存储计算机程序代码,当该处理器执行该存储器所存储的计算机程序代码时,使得该终端设备执行第一方面中的任一种方法。
当该装置是终端设备内的芯片时,该处理单元可以是芯片内部的处理单元,该输入单元可以是输出接口、管脚或电路等;该芯片还可以包括存储器,该存储器可以是该芯片内的存储器(例如,寄存器、缓存等),也可以是位于该芯片外部的存储器(例如,只读存储器、随机存取存储器等);该存储器用于存储计算机程序代码,当该处理器执行该存储器所存储的计算机程序代码时,使得该芯片执行第一方面中的任一种方法。
在一种可能的实现方式中,存储器用于存储计算机程序代码;处理器,处理器执行该存储器所存储的计算机程序代码,当该存储器存储的计算机程序代码被执行时,该处理器用于执行:获取第一音频信号和第二音频信号,第一音频信号为第一麦克风采集的音频信号,第二音频信号为第二麦克风采集的音频信号;基于第一音频信号和第二音频信号确定电子设备是否处于第一状态,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,其中,第一位姿是指第一麦克风与用户嘴部之间的距离小于第二阈值的位姿,第二位姿是指第一麦克风与用户嘴部之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿过程中,第二麦克风与用户嘴部之间的距离小于第四阈值;若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号;输出第三音频信号。
第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序代码,当所述计算机程序代码被语音通话的装置运行时,使得该语音通话的装置执行第一方面中的任一种语音通话的方法。
第四方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被语音通话的装置运行时,使得该语音通话的装置执行第一方面中的任一种装置方法。
本申请实施例提供的语音通话的方法及电子设备,其中,电子设备包括第一麦克风和第二麦克风,第一麦克风用于采集用户的声音信号,第二麦克风用于采集电子设备所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指第一麦克风与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,第二麦克风与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,通过第一音频信号和第二音频信号确定出电子设备处于第一状态的情况下,使用第一状态对应的降噪算法对第一音频信号进行降噪处理,得到电子设备输出的第三音频信号,使得在第一状态(即快速大张角状态)时,电子设备能够采用与第一状态匹配的降噪算法处理当前的音频信号(第一音频信号),提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。
附图说明
图1是一种手机的位姿示意图;
图2是一种快速大张角状态下语音信号受损的示意图;
图3是一种适用于本申请的电子设备的硬件系统的示意图;
图4是一种适用于本申请的电子设备的软件系统的示意图;
图5是本申请实施例提供的一种应用场景的示意图;
图6是本申请实施例提供的一种语音通话的方法的流程示意图;
图7是一种第一角度的示意图;
图8是本申请实施例提供的另一种语音通话的方法的流程示意图;
图9是基于第一延迟值计算第一角度的示意图;
图10是本申请实施例提供的另一种语音通话的方法的流程示意图;
图11是本申请实施例提供的另一种语音通话的方法的流程示意图;
图12是本申请实施例提供的另一种语音通话的方法的流程示意图;
图13是本申请实施例提供的另一种语音通话的方法的流程示意图;
图14是本申请提供的一种语音通话的装置的示意图;
图15是本申请提供的一种语音通话的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。
现阶段,电子设备(例如手机)上通常设置有多个麦克风。其中,设置在电子设备的底部,靠近用户嘴巴的麦克风称为主麦,主麦用于采集用户的声音信号;设置在电子设备的其他区域的麦克风称为副麦,副麦用于采集环境噪声。
示例性的,用户通过手机进行语音通话时,当手机处于第一位姿状态时,主麦与用户的嘴巴之间的距离为Xcm,且X小于第一阈值,副麦与用户的距离为Ycm,如图1中的(a)所示。当电子设备从第一位姿状态转变为第二位姿状态时,主麦与用户的嘴巴之间的距离增大,副麦与用户嘴巴之间的距离保持不变。即,第二位姿状态是指主麦与用户的嘴巴之间的距离增大为(X+D)cm,且D大于第二阈值,副麦与用户之间的距离基本不变,仍为Ycm,如图1中的(b)所示。在这种情况下,由于主麦与用户的嘴巴之间的距离增大,副麦与用户之间的距离不变,这样将导致主麦采集的声音数据变弱,而副麦采集的环境噪声不变,导致主麦信噪比和副麦的信噪比差异变小。在这种情况下,电子设备通常会采用预设的降噪算法对主麦采集的声音信号进行处理,得到通话质量更高的音频信号。然而,当电子设备的位姿快速地从第一位姿状态变为第二位姿状态时,由于主麦采集的声音数据快速变弱,而副麦采集的环境噪声不变,这样将导致电子设备主麦信噪比和副麦的信噪比差异快速变小,进而导致基于主麦信噪比和副麦的信噪比差异的双麦降噪算法的降噪效果降低,影响电子设备的语音通话质量。
示例性的,如图2所示,在18.5秒至19秒之间,及,21秒至22秒之间,用户将手机从第一位姿调整到第二位姿,在这两个时间段内,语音信号受损,导致在这两个时间段内,手机无语音信号输出。
有鉴于此,本申请实施例提供了一种语音通话的方法,该方法应用于电子设备,电子设备包括第一麦克风和第二麦克风,第一麦克风用于采集用户的声音信号,第二麦克风用于采集电子设备所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指第一麦克风与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,第二麦克风与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,通过第一音频信号和第二音频信号确定出电子设备处于第一状态的情况下,使用第一状态对应的降噪算法对第一音频信号进行降噪处理,得到电子设备输出的第三音频信号,使得在第一状态(即快速大张角状态)时,电子设备能够采用与第一状态匹配的降噪算法处理当前的音频信号(第一音频信号),提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。
为了便于理解,示例的给出部分与本申请实施例相关概念的说明以供参考。
1、大张角状态
当手机与用户脸部的夹角大于预设角度阈值时,手机中主麦与用户的嘴巴之间的距离较大,而副麦与用户之间的距离较小,即手机和人脸之间的夹角较大,这种状态被称为大张角状态。在手机处于大张角状态时,通常主麦采集的声音信号较小,副麦采集的噪声信号不变,因此电子设备的信噪比较低。
2、快速大张角状态
在一种可能的情况下,手机从正常状态(即主麦与用户的嘴巴之间的距离较小的状态)转换为大张角状态,转换的时间较短,这种状态被称为快速大张角状态。应理解,与大张角状态不同,快速大张角状态通常是指动态的状态,也即是手机从正常状态转换为大张角状态的动态过程。
本申请实施例提供的语音通话的方法,可以应用于电子设备。可选的,电子设备包括终端设备,终端设备也可以称为终端(terminal)、用户设备(user equipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)等。终端设备可以是手机(mobile phone)、智能电视、穿戴式设备、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality,VR)终端设备、增强现实(augmented reality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。
示例性的,图3示出了电子设备100的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备100供电。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。通常用于采集声音信号的麦克风被称为主麦,用于采集噪声信号,使得电子设备基于噪声信号进行降噪处理的麦克风被称为副麦。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
需要说明的是,本申请实施例提到的任一电子设备可以包括电子设备100中更多或者更少的模块。
电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。
图4是本申请实施例的电子设备100的软件结构框图。
电子设备100的分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图4所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图4所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动,Wi-Fi驱动等。
需要说明的是,本申请实施例提到的电子设备可以包括上述电子设备中更多或者更少的模块。
下面结合附图对本申请实施例提供的应用场景进行说明。
图5为本申请实施例提供的语音通话的方法的应用场景示意图。当用户握持手机100进行语音通话时,设置在手机100底部的主麦110A与用户的嘴巴之间的距离较小,例如在T0时刻,主麦110A与用户的嘴巴之间的距离为Xcm,同时设置在手机100顶部的副麦120A与用户的嘴巴之间的距离为Ycm,如图5中的(a)所示,即手机100处于正常状态。当用户调整握持姿势,使得主麦110A与用户的嘴巴之间的距离快速增大,例如,如图5中的(b)所示,在T1时刻,也即是从T0时刻开始,经过Δt的时长之后的时刻,主麦110A与用户的嘴巴之间的距离为(X+D)cm,而副麦120A与用户的嘴巴之间的距离仍为Ycm。其中,Δt为小于时长阈值的数值,即手机100处于快速大张角状态。本申请实施例提供的语音通话的方法,在上述Δt的时间段内,对主麦110A采集的音频信号进行降噪处理,能够提高手机100在快速大张角状态的语音通话质量。
应理解,上述为对应用场景的举例说明,并不对本申请的应用场景作任何限定。
下面结合图6至图13对本申请实施例提供的语音通话的方法进行详细描述。
图6为本申请实施例提供的一种语音通话的方法的流程示意图,该方法应用于电子设备,电子设备包括第一麦克风(相当于主麦)和第二麦克风(相当于副麦),主麦用于采集用户的声音信号,副麦用于采集电子设备所处环境的噪声信号,如图6所示,该方法包括:
S101、获取第一音频信号和第二音频信号。
其中,第一音频信号为主麦采集的音频信号,第二音频信号为副麦采集的音频信号。
由于主麦通常是用于采集用户的声音信号,因此,第一音频信号通常是指用户的声音信号。特别是在语音通话的过程中,第一音频信号通常是指用户进行语音通话的过程中发出的声音信号。
由于副麦通常是用于采集环境的噪声信号,因此,第二音频信号通常是指环境的噪声信号。在语音通话的过程中,第二音频信号通常是指用户进行语音通话的过程中的环境噪声。
S102、基于第一音频信号和第二音频信号,获取第一角度。
其中,第一角度是指语音通话时,电子设备与用户之间的夹角。示例性的,电子设备可以是指手机。为了便于理解,下面以电子设备是手机为例进行说明。
应理解,在进行语音通话的过程中,手机通常是由用户握持,并放在用户的脸旁。手机与用户的脸之间的夹角即为第一角度。示例性的,如图7所示,手机和用户的脸之间的夹角θ即为第一角度。
应理解,第一角度通常会随着用户移动手机而改变。示例性的,如图5所示,在T0时刻和T1时刻,第一角度随着手机的移动而变化。
在一种可能的情况下,可以根据第一音频信号和第二音频信号的信号能量差值确定第一角度。
在一种可能的情况下,可以根据第一音频信号和第二音频信号之间的信号延时确定第一角度。
S103、获取第一角度的梯度值。
其中,第一角度的梯度值用于表征当前时刻的第一角度与当前时刻的上一时刻的第一角度之间的差值。
应理解,第一角度通常会随着用户移动手机而改变。当用户将手机从靠近人脸的位置移动到远离人脸的位置,第一角度随之改变。
其中,手机可以按照预设采样频率获取第一角度。例如,手机可以在T0时刻获取第一角度之后,在预设采样频率指示的下一个时刻(例如T1时刻)获取T1时刻的第一角度。然后用T1时刻的第一角度减去T0时刻的第一角度,得到第一角度在T1时刻的梯度值。
S104、根据第一角度的梯度值确定电子设备是否处于第一状态。
其中,第一状态是指手机从第一位姿运动至第二位姿的时长小于第一阈值的状态,其中,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,副麦与用户之间的距离小于第四阈值。
示例性的,第一位姿可以是指用户将手机放在嘴巴旁边进行通话时手机的位姿,如图5中的(a)所示。第二位姿可以是指用户将手机向外旋转,将手机的主麦旋转到远离用户嘴巴时手机的位姿,如图5中的(b)所示。
其中,主麦用于采集用户的声音信号,通常设置在手机的底部。副麦适用于采集环境的噪声信号,通常设置在手机的顶部。也即是说,第一状态是指手机以用户的耳朵为圆心,快速地旋转到远离用户的嘴巴的状态,即相当于第一角度在快速增长。
在这种情况下,根据第一角度的梯度值确定电子设备是否处于第一状态,可以是确定预设的时长(即第一阈值)内第一角度的梯度值大于阈值的数量是否满足要求。
例如,在预设的时长每次获取的第一角度的梯度值均大于预设的梯度阈值,则电子设备(手机)处于第一状态。
又例如,在预设的时长(第一阈值指示的时长)内,共获取了N次第一角度的梯度值,其中,(N-2)次的第一角度的梯度值大于预设的梯度阈值。也即是只有2次第一角度的梯度值未超过阈值。则电子设备(手机)处于第一状态。
若电子设备处于第一状态,则执行S105。
S105、采用第一算法对第一音频信号进行降噪处理,得到第三音频信号。
其中,第一算法是指第一状态对应的降噪算法,也即是快速大张角状态对应的降噪算法。
在手机处于正常状态和大张角状态,手机均有对应的降噪算法处理第一音频信号。其中,针对快速大张角状态,手机可以通过调整降噪参数,得到适用于快速大张角状态的降噪算法,也即是第一算法。
示例性的,可以对大张角状态对应的降噪算法采用预设的加权因子进行加权,得到快速大张角状态对应的降噪算法,也即是第一算法。
S106、输出第三音频信号。
本申请实施例提供的语音通话的方法,应用于电子设备,电子设备包括第一麦克风(相当于主麦)和第二麦克风(相当于副麦),主麦用于采集用户的声音信号,副麦用于采集电子设备所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号,获取第一角度,然后获取第一角度的梯度值,并根据第一角度的梯度值确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,副麦与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,通过第一音频信号和第二音频信号确定出电子设备处于第一状态的情况下,使用第一状态对应的降噪算法对第一音频信号进行降噪处理,得到电子设备输出的第三音频信号,使得在第一状态(即快速大张角状态)时,电子设备能够采用与第一状态匹配的降噪算法处理当前的音频信号(第一音频信号),提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。进一步地,在确定电子设备是否处于第一状态的过程中,先基于第一音频信号和第二音频信号确定第一角度,然后再获取第一角度的梯度值,最后根据第一角度的梯度值确定电子设备是否处于第一状态,这样能够提高确定电子设备是否处于第一状态的准确性,进而提高了根据第一算法对第一音频信号进行修正的准确性,进一步地提高了电子设备输出的第三音频信号的效果,也即是提高了电子设备的语音通话质量。
在一种可能的情况下,电子设备可以根据第一音频信号和第二音频信号之间的信号相关性确定出手机和人脸之间的夹角。示例性的,电子设备可以采用声源方位(Direction of arrival,DOA)估计中的广义互相关-相位变换法(generalized crosscorrelation phase transformation,GCC-PHAT)方法,确定手机与人脸之间的角度,也即是第一角度。下面通过图8和图9所示实施例来详细说明。
图8为本申请实施例提供的另一种语音通话的方法的流程示意图,该方法应用于电子设备,该电子设备包括第一麦克风(相当于主麦)和第二麦克风(相当于副麦),主麦用于采集用户的声音信号,副麦用于采集环境的噪声信号,该方法包括:
S201、获取第一音频信号和第二音频信号。
其中,第一音频信号是指主麦采集的音频信号,第二音频信号是指副麦采集的音频信号。
S201的具体实现方式与S101类似,此处不再赘述。
S202、根据第一音频信号和第二音频信号确定第一延迟值。
其中,第一延迟值是指主麦采集音频信号与副麦采集音频信号之间的延迟值。
例如,可以采用DOA估计中的广义互相关-相位变换法(generalized crosscorrelation phase transformation,GCC-PHAT)方法,确定出第一音频信号和第二音频信号之间的延迟值,再根据延迟值确定第一角度。
在确定第一音频信号和第二音频信号之间的延迟值时,可以先确定第一音频信号和第二音频信号之间的互相关函数,然后根据第一音频信号和第二音频信号之间的互相关函数,得到第一音频信号和第二音频信号之间的延迟值。
示例性的,先通过公式(1)得到第一音频信号和第二音频信号之间的互相关函数其中,公式(1)为:
其中,IDFT表示进行傅里叶变换,Xa表示经过傅里叶变换后第一音频信号,Xb表示经过傅里叶变换后的第二音频信号,t表示对第一音频信号和第二音频信号进行采样所用的时间,通常可以使用帧数来表示,f表示第一音频信号和第二音频信号的频点,*表示取共轭。
应理解,第一音频信号和第二音频信号经过相同的傅里叶变化,也即是经过相同个点数的傅里叶变化,得到相同数量的傅里叶变换结果。在通过GCC-PHAT算法在频域计算时,所采用的傅里叶变换后第一音频信号的频点和傅里叶变化后的第二音频信号的频点是同一频点,即上述f。
然后根据第一音频信号和第二音频信号之间的互相关函数和公式(2)得到第一音频信号和第二音频信号之间的延迟值(第一延迟值)/>其中公式(2)为:
S203、基于第一延迟值,确定第一角度。
第一角度是指语音通话时,电子设备与用户之间的夹角。
以用户通过手机进行语音通话为例,第一角度可以指示人脸与手机之间的夹角。人脸与手机之间的第一角度θ可以根据第一延迟值和主麦和副麦之间的距离确定。示例性的,如图9所示,第一角度θ可以通过第一延迟值主麦和副麦之间的直线距离d及公式(3)得到。其中,公式(3)为:
其中,θ表示第一角度,表示第一延迟值,d表示主麦和副麦之间的直线距离。
其中,由于主麦和副麦接收的声源为同一声源,因此,主麦和人脸之间的夹角与副麦和人脸之间的夹角相同,均为θ。因此在已知三角形的两个边的长度的情况下,可以通过三角公式得到第一角度θ。
S204、获取第一角度的梯度值。
其中,第一角度的梯度值是指当前时刻的第一角度与当前时刻的上一时刻的第一角度之间的差值。
S205、根据第一角度的梯度值确定电子设备是否处于第一状态。
其中,第一状态是指手机从第一位姿转换为第二位姿,且从第一位姿转换为第二位姿的时长小于第一阈值,其中,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿转换为第二位姿时,副麦与用户之间的距离变化值小于第四阈值。
示例性的,第一位姿可以是指用户将手机放在嘴巴旁边进行通话时手机的位姿,如图5中的(a)所示。第二位姿可以是指用户将手机向外旋转,将手机的主麦旋转到远离用户嘴巴时手机的位姿,如图5中的(b)所示。第一状态可以是指手机以用户的耳朵为圆心,快速地旋转到远离用户的嘴巴的状态,即相当于第一角度在快速增长。
示例性的,第一角度的梯度值可以通过公式(4)表示,其中,Δθ表示第一角度的增加梯度,θ表示当前时刻的第一角度,θpre表示上一时刻的第一角度。
Δθ=θ-θpre 公式(4);
若手机处于快速大张角状态,第一角度会显著增大,即第一角度的梯度值会连续大于预设阈值。因此,示例性的,可以通过以下代码判断手机是否处于快速大张角状态(即第一状态)。
其中,thr1为预设的梯度阈值(即第五阈值),thr2为预设帧数阈值(即第一阈值),state=true表示当前手机处于快速大张角状态(即第一状态)。
应理解,上述代码表示每一次第一角度的梯度值均大于预设的梯度阈值,才将手机的状态确定为第一状态。
在一种可能的情况下,第一角度的梯度值大于预设的梯度阈值的次数略小于检测第一角度大于预设的梯度阈值的次数,也可以将手机的状态确定为第一状态。
可选地,若第一角度的梯度值大于第五阈值的次数大于第六阈值,则确定电子设备处于第一状态。
例如,将上述代码“count=count”替换为“count=count-4”,表示在检测第一角度大于预设的梯度阈值(第五阈值)中,若第一角度的梯度值小于预设的梯度阈值的次数不超过4次,也可以将手机的状态确定为第一状态,其中,第六阈值可以是指(count-4)。
若电子设备处于第一状态,则执行S206。
本申请的实施例中提供的语音通话方法,在确定电子设备是否处于第一状态时,是通过确定第一角度的梯度值大于第五阈值的次数是否大于第六阈值来确定,与在采样过程中,每一次第一角度的梯度值均大于第五阈值相比,在第一角度的梯度值大于第五阈值的次数大于第六阈值时确定电子设备处于第一状态,能够避免在快速大张角状态中,由于用户的抖动导致判断不准确的情况,提高了基于第一角度的梯度值确定电子设备是否处于第一状态的准确性,进而提高了在第一状态下通过第一算法对第一音频信号进行降噪处理的准确性,提高了电子设备的语音通话质量。
S206、采用第一算法对第一音频信号进行降噪处理,得到第三音频信号。
其中,第一算法是指第一状态对应的降噪算法。
应理解,在手机处于正常状态和大张角状态,手机均有对应的降噪算法处理第一音频信号。
示例性的,在手机处于正常的握持时,也即是正常状态,主麦采集的第一音频信号和副麦采集的第二音频信号之间存在能量差。可以通过第一音频信号和第二音频信号之间的双耳能量差值(interaural level difference,ILD)和公式(5)对主麦和副麦进行语音活动检测(Voice active detection,VAD)。其中,公式(5)包括:
其中,t表示电子设备进行采样的帧数,f表示第一音频信号的频点,ILDthr表示预设的能量差阈值。
对主麦和副麦进行语音活动检测得到检测结果之后,手机可以先对主麦采集的第一音频信号进行单麦噪声估计,获得单麦降噪能量谱。例如,可以采用最小值更新方法,对手机当前采集的噪声进行跟踪,得到单麦降噪能量谱。
示例性的,可以采用如下代码对主麦进行单麦噪声估计:
其中,P(t,f)为对第一音频信号的能量谱向量,Pmin(t,f)为对第一音频信号的能量谱P(t,f)进行极小值跟踪得到的极小值,Ptmp(t,f)为中间变量。D为预设的跟踪窗长,mod表示取余操作。其中,所得到的Pmin(t,f)是指频点f的噪声能量,即单麦降噪能量谱。
然后,手机进行双麦噪声估计,获得双麦降噪能量谱。
例如,手机先获取第一音频信号的向量,第一音频信号的向量为X=[Xt,…,Xt-L+1],其中X表示第一音频信号的向量,Xt表示第一音频信号在第t帧的能量谱,Xt-L+1表示第一音频信号在第t-L+1帧的能量谱。预设的滤波器系数为Wt-1=[W1,…,WL],其中Wt-1表示预设的滤波器的向量,W1,…,WL表示滤波器的向量中的系数,第二音频信号的能量谱可以用Dt表示。通过滤波器进行滤波后得到的噪声信号的能量谱为Et=Dt-X*Wt-1。其中,Et即为双麦降噪能量谱。
在手机处于正常状态时,如图5中的(a)所示,可以将单麦降噪能量Pmin(t,f)和双麦降噪能量谱Et中的大值作为第一音频信号的噪声谱,并根据该噪声谱对第一音频信号进行降噪处理。
然而,在快速大张角状态(即第一状态)下,通过ILD进行语音活动检测不准确,因此可以采用主麦和副麦的相关性进行语音活动检测,包括:
先通过公式(6)确定主麦采集的第一音频信号和副麦采集的第二音频信号之间的相关性。其中,公式(6)为:
其中,Coh(t,f)表示第一音频信号和第二音频信号的相关性,Xa表示经过傅里叶变换后第一音频信号,Xb表示经过傅里叶变换后的第二音频信号,t表示对第一音频信号和第二音频信号进行采样所用的时间,通常可以使用帧数来表示,f表示第一音频信号和第二音频信号的频点,*表示取共轭。
然后根据第一音频信号和第二音频信号的相关性,及,公式(7)进行语音活动检测。
其中,公式(7)为:
其中,t表示电子设备进行采样的帧数,f表示第一音频信号的频点,ILDthr表示预设的ILD阈值。
由于在快速大张角状态(即第一状态)下,通过ILD进行语音活动检测不准确,进行语音活动检测是采用主麦和副麦的相关性进行的,因此,在进行双麦噪声估计,获得双麦降噪能量谱时,需要对所获得的双麦降噪能量谱进行校正。
例如,可以采用加权因子对双麦降噪能量谱进行校正。示例性的,在快速大张角状态下,采用Et1=alpha*Et得到校正后的双麦降噪能量谱。其中,Et1表示校正后的双麦降噪能量谱,Et表示初始的双麦降噪能量谱,也即是通过滤波器进行滤波后得到的双麦降噪能量谱,alpha表示加权因子,通常为0-1之间的常数。
在手机处于快速大张角状态(即第一状态)时,可以将单麦降噪能量Pmin(t,f)和校正后的双麦降噪能量谱Et1中的大值作为第一音频信号的噪声谱,并根据该噪声谱对第一音频信号进行降噪处理。
S207、输出第三音频信号。
本申请的实施例提供的语音通话的方法,应用于电子设备,电子设备包括第一麦克风(相当于主麦)和第二麦克风(相当于副麦),主麦用于采集用户的声音信号,副麦用于采集环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号,确定第一音频信号和第二音频信号之间的第一延迟值,进而根据第一延迟值获取第一角度,然后获取第一角度的梯度值,并根据第一角度的梯度值确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指电子设备从第一位姿转换为第二位姿,且从第一位姿转换为第二位姿的时长小于第一阈值,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿转换为第二位姿时,副麦与用户之间的距离变化值小于第四阈值,即第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,通过第一音频信号和第二音频信号之间的延迟值确定出电子设备是否处于第一状态的情况下,在电子设备处于第一状态的情况下,使用第一状态对应的降噪算法对第一音频信号进行降噪处理,得到电子设备输出的第三音频信号,使得在第一状态(即快速大张角状态)时,电子设备能够采用与第一状态匹配的降噪算法处理第一音频信号,提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。
在一种可能的情况下,电子设备可以根据第一音频信号和第二音频信号的信号能量差值确定出手机和人脸之间的夹角,也即是第一角度,下面通过图10所示实施例来详细说明。
图10为本申请实施例提供的另一种语音通话的方法的流程示意图,该方法应用于电子设备,电子设备包括主麦和副麦,主麦用于采集用户的声音信号,副麦用于采集环境的噪声信号,该方法包括:
S301、获取第一音频信号和第二音频信号。
其中,第一音频信号是指主麦采集的音频信号,第二音频信号是指副麦采集的音频信号。
上述S301的具体实现方式与S101类似,此处不再赘述。
S302、获取第一音频信号的第一功率。
S303、获取第二音频信号的第二功率。
S304、根据第一功率和第二功率,确定第一角度。
其中,第一角度是指语音通话时,电子设备与用户之间的夹角。
由于用户的嘴巴与主麦之间的距离较近,与副麦之间的距离较远,因此,第一音频信号的信号功率(第一功率)大于第二音频信号的信号功率(第二功率)。当电子设备和用户的人脸之间的夹角变大,即主麦与用户之间的距离变大,副麦保持不变,这样将导致主麦采集的第一音频信号和副麦采集的第二音频信号之间的能量差变小。示例性的,第一音频信号的第一功率为Pmain,第二音频信号的第二功率为Pref。可以通过公式(8)来获取第一音频信号和第二音频信号之间的能量差ILD。其中,公式(8)为:
电子设备可以根据第一音频信号和第二音频信号之间的能量差ILD,获取第一音频信号和第二音频信号之间第一延迟值然后再根据第一延迟值/>主麦和副麦之间的直线距离d及公式(3)得到第一角度θ。
S305、获取第一角度的梯度值。
其中,梯度值是指当前时刻的第一角度与上一时刻的第一角度之间的差值。
S306、根据第一角度的梯度值确定电子设备是否处于第一状态。
其中,第一状态是指手机从第一位姿转换为第二位姿,且从第一位姿转换为第二位姿的时长小于第一阈值,其中,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿转换为第二位姿时,副麦与用户之间的距离变化值小于第四阈值。
若电子设备处于第一状态,执行S307。
S307、采用第一算法对第一音频信号进行降噪处理,得到第三音频信号。
其中,第一算法是指第一状态对应的降噪算法。
上述S307的具体实现方式与上述S206类似,此处不再赘述。
S308、输出第三音频信号。
本申请的实施例提供的语音通话的方法,应用于电子设备,电子设备包括主麦和副麦,主麦用于采集用户的声音信号,副麦用于采集电子设备当前所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号的第一功率和第二音频信号的第二功率,确定第一角度,然后获取第一角度的梯度值,并根据第一角度的梯度值确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,副麦与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,通过第一音频信号和第二音频信号之间的延迟值确定出电子设备是否处于第一状态的情况下,在电子设备处于第一状态的情况下,使用第一状态对应的降噪算法对第一音频信号进行降噪处理,得到电子设备输出的第三音频信号,使得在第一状态(即快速大张角状态)时,电子设备能够采用与第一状态匹配的降噪算法处理第一音频信号,提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。
在一种可能的情况下,用户转动手机的状态不是快速大张角状态,在这种情况下,电子设备可以根据第一角度的梯度值确定出电子设备当前的状态,并选择当前的状态对应的算法处理第一音频信号。下面通过图11所示实施例来详细描述。
图11为本申请实施例提供的另一种语音通话的方法的流程示意图,该方法应用于电子设备,电子设备包括主麦和副麦,主麦用于采集用户的声音信号,副麦用于采集电子设备所处环境的噪声信号,该方法包括:
S401、获取第一音频信号和第二音频信号。
其中,第一音频信号是指主麦采集的音频信号,第二音频信号是指副麦采集的音频信号。
S402、基于第一音频信号和第二音频信号,获取第一角度。
其中,第一角度是指语音通话时,电子设备与用户之间的夹角。
S403、获取第一角度的梯度值。
其中,第一角度的梯度值是指当前时刻的第一角度与当前时刻的上一时刻的第一角度之间的差值。
S404、根据第一角度的梯度值确定电子设备的状态。
若第一角度的梯度值大于第五阈值的次数大于第六阈值,则确定电子设备处于第一状态。
若电子设备处于第一状态,则执行S405。
其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,其中,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,副麦与用户之间的距离小于第四阈值。
若电子设备处于第二状态,则执行S407。
其中,第二状态是指电子设备的位姿为第二位姿的状态,也即是电子设备处于大张角状态,如图5中的(b)所示。
若第一角度的梯度值大于第五阈值的次数小于或者等于第六阈值,确定当前时刻的第一角度是否大于第七阈值,若当前时刻的第一角度大于第七阈值,则电子设备处于第二状态。
若电子设备处于第三状态,则执行S409。
其中,第三状态是指电子设备的位姿为第一位姿的状态,也即是电子设备处于正常的语音通话状态,如图5中的(a)所示。
若当前时刻的第一角度小于或者等于第七阈值,则电子设备处于第三状态。
S405、采用第一算法对第一音频信号进行降噪处理,得到第三音频信号。
其中,第一算法是指第一状态对应的降噪算法。
S406、输出第三音频信号。
S407、采用第二算法对第一音频信号进行降噪处理,得到第四音频信号。
其中,第二算法是第二状态对应的降噪算法。
S408、输出第四音频信号。
S409、采用第三算法对第一音频信号进行降噪处理,得到第五音频信号。
其中,第三算法是电子设备的位姿为第一位姿对应的降噪算法。
S410、输出第五音频信号。
本申请的实施例中提供的语音通话的方法,应用于电子设备,电子设备包括第一麦克风(相当于主麦)和第二麦克风(相当于副麦),主麦用于采集用户的声音信号,副麦用于采集电子设备所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号确定电子设备所处的状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,若电子设备处于第二状态,采用第二算法对第一音频信号进行降噪处理,得到第四音频信号,并输出第四音频信号,若电子设备处于第三状态,则采用第三算法对第一音频信号进行降噪处理,得到第五音频信号,并输出第五音频信号。其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指主麦与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,副麦与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第二状态是指电子设备的位姿为第二位姿的状态,也即是大张角状态,第三状态是指电子设备的位姿为第一位姿的状态,也即是正常的语音通话状态,在本申请的实施例中,电子设备处于不同的状态时,分别采用与电子设备的当前状态匹配降噪算法对第一音频信号进行处理,提高了对第一音频信号进行校正的准确性,进而使得校正后的音频信号的准确性更高,提高了语音通话的质量。
由于快速大张角状态通常是一个短暂的动态过程,因此,电子设备可以在快速大张角状态的过程中,采用上述实施例所示的方法步骤处理音频信号,电子设备在快速大张角状态结束后,无需重新判断电子设备的状态,直接选择大张角状态对应的算法处理音频信号。下面通过图12所示实施例来详细描述。
图12为本申请实施例提供的另一种语音通话的方法的流程示意图,该方法应用于电子设备,电子设备包括主麦和副麦,主麦用于采集用户的声音信号,副麦用于采集电子设备所处环境的噪声信号,该方法包括:
S501、获取第一音频信号和第二音频信号。
其中,第一音频信号是指主麦采集的音频信号,第二音频信号是指副麦采集的音频信号。
S502、基于第一音频信号和第二音频信号,获取第一角度。
其中,第一角度是指语音通话时,电子设备与用户之间的夹角。
S503、获取第一角度的梯度值。
其中,梯度值是指当前时刻的第一角度与当前时刻的上一时刻的第一角度之间的差值。
S504、根据第一角度的梯度值确定电子设备是否处于第一状态。
可选地,若第一角度的梯度值大于第五阈值的次数大于第六阈值,则确定电子设备处于第一状态,可以采用第一状态对应的降噪算法对第一音频信号进行降噪处理,也即是执行S505。
S505、采用第一算法对第一音频信号进行降噪处理,得到第三音频信号。
其中,第一算法是指第一状态对应的降噪算法。
S506、输出第三音频信号。
S507、在预设时长之后,采用第二算法对第一音频信号进行降噪处理,得到第四音频信号。
其中,第二算法是电子设备的位姿为第二位姿对应的降噪算法,也即是电子设备处于第二状态(大张角状态)时对应的降噪算法。
S508、输出第四音频信号。
本申请的实施例中提供的语音通话方法,应用于电子设备中,电子设备包括主麦和副麦,主麦用于采集用户的声音信号,副麦用于采集电子设备当前所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号的第一功率和第二音频信号的第二功率,确定第一角度,然后获取第一角度的梯度值,并根据第一角度的梯度值确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,然后,在预设时长之后,采用第二算法对第一音频信号进行降噪处理,得到第四音频信号,输出第四音频信号。通常,快速大张角状态是一个短暂的动态过程,且快速大张角状态之后电子设备通常是处于大张角状态,也即是电子设备的位姿为第二位姿,在本申请的实施例中,在采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号之后,间隔预设时长,直接采用大张角状态(第二状态)对应的降噪算法对第一音频信号进行降噪处理,得到第四音频信号,避免了采用复杂的算法对电子设备进行状态判断的过程,在采用匹配的降噪算法对第一音频信号进行降噪处理的基础上,提高了电子设备对第一音频信号进行降噪处理的效率。
图13为本申请实施例提供的另一种语音通话的方法的流程示意图,该方法应用于电子设备,电子设备包括多个麦克风,多个麦克风包括第一麦克风和第二麦克风,第一麦克风用于采集用户的声音信号,第二麦克风用于采集电子设备所处环境的噪声信号,如图13所示,该方法包括:
S601、获取第一音频信号和第二音频信号。
其中,第一音频信号是指第一麦克风采集的音频信号,第二音频信号是指第二麦克风采集的音频信号。
S602、基于第一音频信号和第二音频信号确定电子设备是否处于第一状态。
其中,第一状态是指电子设备从第一位姿转换为第二位姿的时长小于第一阈值的状态,其中,第一位姿是指第一麦克风与用户之间的距离小于第二阈值的位姿,第二位姿是指第一麦克风与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿时,第二麦克风与用户之间的距离小于第四阈值。
若电子设备处于第一状态,则执行S603。
S603、采用第一算法对第一音频信号进行降噪处理,得到第三音频信号。
其中,第一算法是指第一状态对应的降噪算法。
S604、输出第三音频信号。
本申请实施例提供的语音通话的方法,应用于电子设备,电子设备包括第一麦克风和第二麦克风,第一麦克风用于采集用户的声音信号,第二麦克风用于采集电子设备所处环境的噪声信号,通过获取第一音频信号和第二音频信号,再基于第一音频信号和第二音频信号确定电子设备是否处于第一状态,若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号,并输出第三音频信号,其中,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,第一位姿是指主麦与用户之间的距离小于第二阈值的位姿,第二位姿是指第一麦克风与用户之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿的过程中,第二麦克风与用户之间的距离小于第四阈值,即第一状态是指快速大张角状态,第一算法是指快速大张角状态对应的降噪算法,也即是说,采用本申请实施例提供的语音通话的方法,通过第一音频信号和第二音频信号确定出电子设备处于第一状态的情况下,使用第一状态对应的降噪算法对第一音频信号进行降噪处理,得到电子设备输出的第三音频信号,使得在第一状态(即快速大张角状态)时,电子设备能够采用与第一状态匹配的降噪算法处理当前的音频信号(第一音频信号),提高了对第一音频信号的修正效果,进而提高了电子设备的语音通话质量。
应该理解的是,虽然上述实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
可以理解的是,为了实现上述功能,电子设备包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个模块中。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。需要说明的是,本申请实施例中模块的名称是示意性的,实际实现时对模块的名称不做限定。
图14为本申请实施例提供的语音通话的装置的一种结构示意图。
应理解,语音通话的装置600可以执行图6至图13所示的语音通话的方法;语音通话的装置600包括:获取单元610和处理单元620。
获取单元610用于获取第一音频信号和第二音频信号,第一音频信号为第一麦克风采集的音频信号,第二音频信号为第二麦克风采集的音频信号;处理单元620用于基于第一音频信号和第二音频信号确定电子设备是否处于第一状态,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,其中,第一位姿是指第一麦克风与用户嘴部之间的距离小于第二阈值的位姿,第二位姿是指第一麦克风与用户嘴部之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿过程中,第二麦克风与用户嘴部之间的距离小于第四阈值;若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号;输出第三音频信号。
在一个实施例中,处理单元620用于基于第一音频信号和第二音频信号,获取第一角度,第一角度是指在语音通话时,电子设备与用户之间的夹角;获取第一角度的梯度值,梯度值用于表征当前时刻的第一角度与当前时刻的上一时刻的第一角度之间的差值;根据第一角度的梯度值确定电子设备是否处于第一状态。
在一个实施例中,处理单元620用于根据第一音频信号和第二音频信号确定第一延迟值,第一延迟值是指第一音频信号与第二音频信号之间的延迟值;基于第一延迟值,确定第一角度。
在一个实施例中,处理单元620用于获取第一音频信号的第一功率;获取第二音频信号的第二功率;根据第一功率和第二功率,确定第一角度。
在一个实施例中,处理单元620用于若第一角度的梯度值大于第五阈值的次数大于第六阈值,则确定电子设备处于第一状态。
在一个实施例中,处理单元620还用于在预设时长之后,采用第二算法对第一音频信号进行降噪处理,得到第四音频信号,第二算法是电子设备的位姿为第二位姿对应的降噪算法;输出第四音频信号。
在一个实施例中,处理单元620还用于在电子设备处于第二状态时,采用第二算法对第一音频信号进行降噪处理,得到第四音频信号,第二状态是指电子设备的位姿为第二位姿的状态。
在一个实施例中,处理单元620还用于在第一角度的梯度值大于第五阈值的次数小于或者等于第六阈值,确定当前时刻的第一角度是否大于第七阈值,第一角度是指在语音通话时,电子设备与用户之间的夹角,第一角度的梯度值用于表征当前时刻的第一角度与当前时刻的上一时刻的第一角度之间的差值;若当前时刻的第一角度大于第七阈值,则电子设备处于第二状态。
在一个实施例中,处理单元620还用于在电子设备处于第三状态时,采用第三算法对第一音频信号进行降噪处理,得到第五音频信号,第三状态是指电子设备的位姿为第一位姿的状态;输出第五音频信号。
在一个实施例中,处理单元620还用于在当前时刻的第一角度小于或者等于第七阈值,确定电子设备处于第三状态。
本实施例提供的语音通话的装置,用于执行上述实施例的语音通话的方法,技术原理和技术效果相似,此处不再赘述。
需要说明的是,上述语音通话的装置600以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。
例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
图15示出了本申请提供的一种电子设备的结构示意图。图15中的虚线表示该单元或该模块为可选的。电子设备700可用于实现上述方法实施例中描述的语音通话的方法。
电子设备700包括一个或多个处理器701,该一个或多个处理器701可支持电子设备700实现方法实施例中的语音通话的方法。处理器701可以是通用处理器或者专用处理器。例如,处理器701可以是中央处理器(central processing unit,CPU)、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件,如分立门、晶体管逻辑器件或分立硬件组件。
处理器701可以用于对电子设备700进行控制,执行软件程序,处理软件程序的数据。电子设备700还可以包括通信单元705,用以实现信号的输入(接收)和输出(发送)。
例如,电子设备700可以是芯片,通信单元705可以是该芯片的输入和/或输出电路,或者,通信单元705可以是该芯片的通信接口,该芯片可以作为终端设备或其它电子设备的组成部分。
又例如,电子设备700可以是终端设备,通信单元705可以是该终端设备的收发器,或者,通信单元705可以是该终端设备的收发电路。
电子设备700中可以包括一个或多个存储器702,其上存有程序704,程序704可被处理器701运行,生成指令703,使得处理器701根据指令703执行上述方法实施例中描述的阻抗匹配方法。
可选地,存储器702中还可以存储有数据。可选地,处理器701还可以读取存储器702中存储的数据,该数据可以与程序704存储在相同的存储地址,该数据也可以与程序704存储在不同的存储地址。
处理器701和存储器702可以单独设置,也可以集成在一起;例如,集成在终端设备的系统级芯片(system on chip,SOC)上。
示例性地,存储器702可以用于存储本申请实施例中提供的语音通话的方法的相关程序704,处理器701可以用于在进行语音通话时调用存储器702中存储的语音通话的方法的相关程序704,执行本申请实施例的语音通话的方法;包括:获取第一音频信号和第二音频信号,第一音频信号为第一麦克风采集的音频信号,第二音频信号为第二麦克风采集的音频信号;基于第一音频信号和第二音频信号确定电子设备是否处于第一状态,第一状态是指电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,其中,第一位姿是指第一麦克风与用户嘴部之间的距离小于第二阈值的位姿,第二位姿是指第一麦克风与用户嘴部之间的距离大于第三阈值的位姿,且从第一位姿运动至第二位姿过程中,第二麦克风与用户嘴部之间的距离小于第四阈值;若电子设备处于第一状态,采用第一算法对第一音频信号进行降噪处理,得到第三音频信号;输出第三音频信号。
本申请还提供了一种计算机程序产品,该计算机程序产品被处理器701执行时实现本申请中任一方法实施例所述的语音通话的方法。
该计算机程序产品可以存储在存储器702中,例如是程序704,程序704经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器701执行的可执行目标文件。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现本申请中任一方法实施例所述的语音通话的方法。该计算机程序可以是高级语言程序,也可以是可执行目标程序。
该计算机可读存储介质例如是存储器702。存储器702可以是易失性存储器或非易失性存储器,或者,存储器702可以同时包括易失性存储器和非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmableROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(randomaccess memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamicRAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种语音通话的方法,其特征在于,所述方法应用于电子设备,所述电子设备包括多个麦克风,所述多个麦克风包括第一麦克风和第二麦克风,所述第一麦克风用于采集用户的声音信号,所述第二麦克风用于采集所述电子设备所处环境的噪声信号,所述方法包括:
获取第一音频信号和第二音频信号,所述第一音频信号为所述第一麦克风采集的音频信号,所述第二音频信号为所述第二麦克风采集的音频信号;
基于所述第一音频信号和所述第二音频信号确定所述电子设备是否处于第一状态,所述第一状态是指所述电子设备从第一位姿运动至第二位姿的时长小于第一阈值的状态,其中,所述第一位姿是指所述第一麦克风与用户嘴部之间的距离小于第二阈值的位姿,所述第二位姿是指所述第一麦克风与用户嘴部之间的距离大于第三阈值的位姿,且从所述第一位姿运动至所述第二位姿过程中,所述第二麦克风与用户嘴部之间的距离小于第四阈值;
若所述电子设备处于所述第一状态,采用第一算法对所述第一音频信号进行降噪处理,得到第三音频信号;
输出所述第三音频信号;
其中,所述基于所述第一音频信号和所述第二音频信号确定所述电子设备是否处于第一状态,包括:
基于所述第一音频信号和所述第二音频信号,获取第一角度,所述第一角度是指在语音通话时,所述电子设备与用户之间的夹角;
获取所述第一角度的梯度值,所述梯度值用于表征当前时刻的第一角度与所述当前时刻的上一时刻的第一角度之间的差值;
根据所述第一角度的梯度值确定所述电子设备是否处于所述第一状态。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一音频信号和所述第二音频信号,获取第一角度,包括:
根据所述第一音频信号和所述第二音频信号确定第一延迟值,所述第一延迟值是指所述第一音频信号与所述第二音频信号之间的延迟值;
基于所述第一延迟值,确定所述第一角度。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一音频信号和所述第二音频信号,获取第一角度,包括:
获取所述第一音频信号的第一功率;
获取所述第二音频信号的第二功率;
根据所述第一功率和所述第二功率,确定所述第一角度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一角度的梯度值确定所述电子设备是否处于所述第一状态,包括:
若所述第一角度的梯度值大于第五阈值的次数大于第六阈值,则确定所述电子设备处于所述第一状态。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述采用第一算法对所述第一音频信号进行降噪处理,得到第三音频信号之后,所述方法还包括:
在预设时长之后,采用第二算法对所述第一音频信号进行降噪处理,得到第四音频信号,所述第二算法是所述电子设备的位姿为所述第二位姿对应的降噪算法;
输出所述第四音频信号。
6.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
若所述电子设备处于第二状态,采用第二算法对第一音频信号进行降噪处理,得到第四音频信号,所述第二状态是指所述电子设备的位姿为所述第二位姿的状态。
7.根据权利要求6所述的方法,其特征在于,还包括:
若第一角度的梯度值大于第五阈值的次数小于或者等于第六阈值,则确定当前时刻的所述第一角度是否大于第七阈值,所述第一角度是指在语音通话时,所述电子设备与用户之间的夹角,所述第一角度的梯度值用于表征当前时刻的第一角度与所述当前时刻的上一时刻的第一角度之间的差值,所述第一角度是指在语音通话时,所述电子设备与用户之间的夹角;
若所述当前时刻的所述第一角度大于所述第七阈值,则所述电子设备处于所述第二状态。
8.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
若所述电子设备处于第三状态,采用第三算法对第一音频信号进行降噪处理,得到第五音频信号,所述第三状态是指所述电子设备的位姿为所述第一位姿的状态;
输出所述第五音频信号。
9.根据权利要求8所述的方法,其特征在于,还包括:
若当前时刻的第一角度小于或者等于第七阈值,则所述电子设备处于所述第三状态,所述第一角度是指在语音通话时,所述电子设备与用户之间的夹角。
10.一种电子设备,其特征在于,包括用于执行如权利要求1至9任一项所述方法的模块。
11.一种电子设备,其特征在于,包括:
一个或多个处理器和存储器;
所述存储器与所述一个或多个处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1至9中任一项所述的方法。
12.一种芯片系统,其特征在于,所述芯片系统应用于电子设备,所述芯片系统包括一个或多个处理器,所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1至9中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至9中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310432571.1A CN117135280B (zh) | 2023-04-17 | 2023-04-17 | 语音通话的方法和电子设备 |
CN202410591567.4A CN118433316A (zh) | 2023-04-17 | 2023-04-17 | 语音通话的方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310432571.1A CN117135280B (zh) | 2023-04-17 | 2023-04-17 | 语音通话的方法和电子设备 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410591567.4A Division CN118433316A (zh) | 2023-04-17 | 2023-04-17 | 语音通话的方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117135280A CN117135280A (zh) | 2023-11-28 |
CN117135280B true CN117135280B (zh) | 2024-05-31 |
Family
ID=88851519
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410591567.4A Pending CN118433316A (zh) | 2023-04-17 | 2023-04-17 | 语音通话的方法和电子设备 |
CN202310432571.1A Active CN117135280B (zh) | 2023-04-17 | 2023-04-17 | 语音通话的方法和电子设备 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410591567.4A Pending CN118433316A (zh) | 2023-04-17 | 2023-04-17 | 语音通话的方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN118433316A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801861A (zh) * | 2012-08-07 | 2012-11-28 | 歌尔声学股份有限公司 | 一种应用于手机的语音增强方法和装置 |
CN107910015A (zh) * | 2017-12-12 | 2018-04-13 | 上海与德科技有限公司 | 一种终端设备降噪方法及终端设备 |
CN108712551A (zh) * | 2018-06-04 | 2018-10-26 | 联想(北京)有限公司 | 一种通话控制方法及电子设备 |
CN111356908A (zh) * | 2017-09-29 | 2020-06-30 | 深圳传音通讯有限公司 | 一种降噪方法及终端 |
CN115641866A (zh) * | 2022-10-13 | 2023-01-24 | 展讯通信(上海)有限公司 | 信号处理方法及装置、计算机可读存储介质、终端 |
CN115662468A (zh) * | 2022-10-14 | 2023-01-31 | 展讯通信(上海)有限公司 | 手持姿态检测方法及装置、计算机可读存储介质 |
-
2023
- 2023-04-17 CN CN202410591567.4A patent/CN118433316A/zh active Pending
- 2023-04-17 CN CN202310432571.1A patent/CN117135280B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801861A (zh) * | 2012-08-07 | 2012-11-28 | 歌尔声学股份有限公司 | 一种应用于手机的语音增强方法和装置 |
CN111356908A (zh) * | 2017-09-29 | 2020-06-30 | 深圳传音通讯有限公司 | 一种降噪方法及终端 |
CN107910015A (zh) * | 2017-12-12 | 2018-04-13 | 上海与德科技有限公司 | 一种终端设备降噪方法及终端设备 |
CN108712551A (zh) * | 2018-06-04 | 2018-10-26 | 联想(北京)有限公司 | 一种通话控制方法及电子设备 |
CN115641866A (zh) * | 2022-10-13 | 2023-01-24 | 展讯通信(上海)有限公司 | 信号处理方法及装置、计算机可读存储介质、终端 |
CN115662468A (zh) * | 2022-10-14 | 2023-01-31 | 展讯通信(上海)有限公司 | 手持姿态检测方法及装置、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117135280A (zh) | 2023-11-28 |
CN118433316A (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102216881B1 (ko) | 전자장치에서 마이크의 감도에 따른 자동 이득 조절 방법 및 장치 | |
CN113744750B (zh) | 一种音频处理方法及电子设备 | |
EP4203447A1 (en) | Sound processing method and apparatus thereof | |
WO2022161119A1 (zh) | 一种显示方法及电子设备 | |
CN117153181B (zh) | 语音降噪方法、设备及存储介质 | |
CN113837920A (zh) | 一种图像渲染方法及电子设备 | |
CN111598919B (zh) | 运动估计方法、运动估计装置、存储介质与电子设备 | |
WO2022143258A1 (zh) | 一种语音交互处理方法及相关装置 | |
CN115119048B (zh) | 一种视频流处理方法及电子设备 | |
CN116668892B (zh) | 音频信号的处理方法、电子设备及可读存储介质 | |
CN117135280B (zh) | 语音通话的方法和电子设备 | |
CN116665692A (zh) | 语音降噪方法和终端设备 | |
CN115641867A (zh) | 语音处理方法和终端设备 | |
US20230419562A1 (en) | Method for Generating Brush Effect Picture, Image Editing Method, Device, and Storage Medium | |
EP4152736A1 (en) | Method for switching audio output channel, apparatus, and electronic device | |
CN112151017B (zh) | 语音处理方法、装置、系统、设备及存储介质 | |
CN114390406B (zh) | 一种控制扬声器振膜位移的方法及装置 | |
CN117135254B (zh) | 语音通话的方法和电子设备 | |
CN115086888A (zh) | 消息通知方法与装置、电子设备 | |
CN116346982B (zh) | 处理音频的方法、电子设备及可读存储介质 | |
CN117635466B (zh) | 图像增强方法、装置、电子设备及可读存储介质 | |
CN117133311B (zh) | 音频场景识别方法及电子设备 | |
CN116743921B (zh) | 携号转网号码显示方法、电子设备及存储介质 | |
CN116993619B (zh) | 图像处理方法及相关设备 | |
WO2022206643A1 (zh) | 一种信号到达角度估计方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |