CN111199751B - 一种麦克风的屏蔽方法、装置和电子设备 - Google Patents
一种麦克风的屏蔽方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111199751B CN111199751B CN202010143279.4A CN202010143279A CN111199751B CN 111199751 B CN111199751 B CN 111199751B CN 202010143279 A CN202010143279 A CN 202010143279A CN 111199751 B CN111199751 B CN 111199751B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- microphone
- shielding
- receiving
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Abstract
本申请公开了一种麦克风的屏蔽方法、装置和电子设备,该方法和装置具体用于接收麦克风采集的音频信号;检测音频信号是否为私语音频信号;在音频信号为私语音频信号的情况下,屏蔽麦克风。通过对私语声音或者噪音的屏蔽,在多方通话的场景下可以避免其他人无法听清语音内容或者对其他人正常发言造成干扰,从而提高了通话的效果。
Description
技术领域
本申请涉及通信技术领域,更具体地说,涉及一种麦克风的屏蔽方法、装置和电子设备。
背景技术
随着技术的进步以及通信网络的完善,本地多人语音交互或者通过远程方式进行多方语音通信得到越来越广泛的应用,现在广泛应用于在会议、教学、网络游戏等场合,取得了良好的效果,丰富了用户的交流方式。
在本地多方语音交互(例如多人会议)或者远程多方语音通话中,如果其中一人发言时,有人在私下讨论问题、窃窃私语,或者其中一人发言时,有人所处场所的噪音较大,会导致其他人无法听清发言者的语音内容,导致多方语音交互或者多方语音通话的效果较差。
发明内容
有鉴于此,本申请提供一种麦克风的屏蔽方法、装置和电子设备,用于在多方语音交互或者多方通话的场景下提高通话的效果。
为了实现上述目的,现提出的方案如下:
一种麦克风的屏蔽方法,包括步骤:
接收麦克风采集的音频信号;
确定所述音频信号是否为私语音频信号;
在确定所述音频信号为私语音频信号的情况下,屏蔽所述麦克风。
可选的,在所述确定所述音频信号是否为私语音频信号步骤之前,还包括步骤:
检测所述麦克风是否正在接收发言;
如果所述麦克风正在接收发言,则结束本次操作;
如果所述麦克风并非在接收发言,则执行后续的步骤。
可选的,所述确定所述音频信号是否为私语音频信号,包括步骤:
对所述音频信号进行降噪处理;
对经过降噪处理的音频信号进行语音活动检测;
在检测到所述音频信号中存在语音数据的情况下,检测所述音频信号是否为私语音频信号。
可选的,还包括步骤:
当检测到所述音频信号中不再包括语音数据时,判定所述音频信号不为所述私语音频信号。
可选的,在所述屏蔽所述麦克风步骤之后,还包括步骤:
获取所述麦克风采集的音频信号;
对所述音频信号进行语音活动检测;
在未检测到所述音频信号中存在语音数据的情况下,解除对所述麦克风的屏蔽。
可选的,在所述屏蔽所述麦克风步骤之后,还包括步骤:
获取所述麦克风采集的音频信号;
基于所述音频信号,确定所述麦克风是否正在接收用户的正常发言;
在所述麦克风正在接收用户的正常发言的情况下,解除对所述麦克风的屏蔽。
可选的,所述基于所述音频信号,确定所述麦克风是否正在接收用户的正常发言,包括:
当所述麦克风接收到用户输入的特定信号或指令时,判定所述麦克风正在接收用户的正常发言。
可选的,所述基于所述音频信号,确定所述麦克风是否正在接收用户的正常发言,包括:
当所述音频信号中包含特定声纹信息时,判定所述麦克风正在接收用户的正常发言。
可选的,在所述解除对所述麦克风的屏蔽步骤之后,还包括步骤:
当所述麦克风接收到用户的正常发言时,消除语音延迟。
可选的,所述消除语音延迟,包括步骤:
获取之前的缓存数据,将所述缓存数据与新生数据进行合并;
和/或,降低所述音频信号的采样率。
可选的,降低后的采样率为:
f=F*t/(t+d)
其中,f为降低后的采样率,F为原始采样率,t为消除延迟所需要的时间,d为最大延迟。
一种麦克风的屏蔽装置,包括:
信号获取模块,用于接收麦克风采集的音频信号;
私语检测模块,用于检测所述音频信号是否为私语音频信号;
屏蔽执行模块,用于在所述音频信号为所述私语音频信号的情况下,屏蔽所述麦克风。
可选的,还包括:
发言检测模块,用于在所述检测所述音频信号是否为私语声音步骤之前,检测所述麦克风是否正在接收发言;如果所述麦克风正在接收发言,则结束本次操作,如果所述麦克风并非在接收发言,则控制所述私语检测模块执行检测所述音频信号是否为私语声音。
可选的,还包括:
第一获取模块,用于在所述麦克风被屏蔽之后,获取所述麦克风采集的音频信号;
第一检测模块,用于对所述音频信号进行语音活动检测;
第一解除模块,用于在未检测到所述音频信号中存在语音数据的情况下,解除对所述麦克风的屏蔽。
可选的,还包括:
第二获取模块,用于在所述麦克风被屏蔽之后,获取所述麦克风采集的音频信号;
第二检测模块,用于基于所述音频信号,确定所述麦克风是否正在接收用户的正常发言;
第二解除模块,用于在所述麦克风正在接收用户的正常发言的情况下,解除对所述麦克风的屏蔽。
可选的,还包括:
延迟消除模块,用于当所述麦克风接收到用户的正常发言时,消除语音延迟。
一种电子设备,可选的,设置有上所述的屏蔽装置。
一种电子设备,包括麦克风,可选的,设置有至少一个处理器和与所述处理器信号连接的存储器,其中:
所述存储器用于存储计算机程序或指令;
所述处理器用于获取并执行所述计算机程序或指令,以使所述通信设备实现如上所述的屏蔽方法。
从上述的技术方案可以看出,本申请公开了一种麦克风的屏蔽方法、装置和电子设备,该方法和装置具体用于接收麦克风采集的音频信号;检测音频信号是否为私语音频信号;在音频信号为私语音频信号的情况下,屏蔽麦克风。通过对私语声音或者噪音的屏蔽,在多方通话的场景下可以避免其他人无法听清语音内容或者对其他人正常发言造成干扰,从而提高了通话的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种麦克风的屏蔽方法的流程图;
图2为本申请实施例的一种私语检测的流程图;
图3为本申请实施例的又一种私语检测的流程图;
图4a为本申请实施例的另一种麦克风的屏蔽方法的流程图;
图4b为本申请实施例的又一种麦克风的屏蔽方法的流程图;
图5为本申请实施例的又一种麦克风的屏蔽方法的流程图;
图6为本申请实施例的一种麦克风的屏蔽装置的框图;
图7a为本申请实施例的另一种麦克风的屏蔽装置的框图;
图7b为本申请实施例的又一种麦克风的屏蔽装置的框图;
图8为本申请实施例的又一种麦克风的屏蔽装置的框图;
图9为本申请实施例的一种电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图1为本申请实施例的一种麦克风的屏蔽方法的流程图。
如图1所示,本实施例的麦克风的屏蔽方法应用于与参与远程多方通话(包括如远程多人会议,手机、电脑等终端设备上的多人语音交互等)的通信设备相连接的服务器,或者应用于本地多方通话场景下(包括如本地多人会议等)的会议机,该屏蔽方法包括如下步骤。
S10、接收麦克风采集的音频信号。
当将本方法应用于远程多方通话的场景时,这里的麦克风可以是参与远程多方通话的通信设备的麦克风。参与多方通话的通信设备将麦克风采集到的音频信号上传至与其相连的服务器。
当将本方法应用于本地多方通话的场景时,这里的麦克风为与会议机配合使用的麦克风,该麦克风可以安装在会议机上,也可以是安装在会议室中利于采集声音(该声音包括如参会者的声音)位置,包括如会议桌上与参会者位置对应的位置。因此,当将本方法应用于本地多方通话的场景时,会议机可接收与其配合使用的麦克风所采集到音频信号。
S20、确定所述音频信号是否为私语音频信号。
当接收到每个麦克风采集的音频信号后,单独对每个音频信号进行私语检测,即检测所述音频信号是否为私语音频信号。其中,私语指的是相对于用户的正常发言来说声音较小且较不清晰的窃窃私语。
如果音频信号不为私语音频信号,则继续做进一步的处理,如发送给远程通话场景下其他通话参与方的扩音设备,或者发送给本地的扩音设备。
如果为私语音频信号或者为噪音音频信号,则执行后续的步骤S30。
S30、屏蔽所述麦克风。
即如果该音频信号为私语音频信号,则屏蔽所述麦克风。所述屏蔽所述麦克风,可以是暂停对麦克风产生的音频信号作进一步的处理,即这里屏蔽麦克风并非停止麦克风的工作,而是仅停止或者暂停对麦克风产生的音频信号作进一步的处理,因为后续还需要通过麦克风获取音频信号,并通过根据获取的所述音频信号做出是否解除屏蔽的决定。
从上述技术方案可以看出,本申请提供了一种麦克风的屏蔽方法,该方法具体为:接收麦克风采集的音频信号;检测音频信号是否为私语音频信号;在音频信号为私语音频信号的情况下,屏蔽麦克风。通过对私语声音或者噪音的屏蔽,在多方通话的场景下可以避免其他人无法听清语音内容或者对其他人正常发言造成干扰,从而提高了通话的效果。
在本申请的一个具体实施方式中,通过如下具体操作对音频信号是否为私语音频信号进行检测和判定,具体如图2所示。
S21、对麦克风采集的音频信号进行降噪处理。
在接收到麦克风采集的音频信号后,对该音频信号进行降噪处理。具体来说,可以通过LMS自适应滤波器进行降噪处理,还可以通过基本谱减法、维纳滤波方法、基于RNN的音频降噪方法、speex降噪方法等对音频信号进行降噪处理。当然,这里列出的内容并非意在限制于上述降噪方法,而是举例说明。
S22、检测音频信号中是否存在语音数据。
具体来说是对经过降噪处理的音频信号进行VAD检测,检测其中是否存在语音数据,如果不存在语音数据则直接结束当前流程,即不再执行后续步骤,直接结束所有流程。
VAD(Voice Activity Detection,语音活动检测),又称语音端点检测,语音边界检测,通过对端点或者说边界的检测,从中确定该语音信号中是否有语音数据的存在。在确定音频信号中包含语音数据的情况下,执行步骤S23,即检测该音频信号是否为私语音频信号。在确定音频信号中没有包含语音数据的情况下,执行步骤S24。
S23、检测音频信号是否为私语音频信号。
私语音频信号是指该音频信号反映的是用户窃窃私语发出的声音。如果是窃窃私语,则会由于声音较小且较不清晰而导致其他人无法听清,而噪音的话会影响其他参与人之间的通话质量,因此这两者都会影响其他通话人或参会人的收听质量。
具体来说,在进行模型训练之前,提取样本音频信号的特征作为样本数据,包括但不限于声强,响度,音高,过零率,信噪比,LPCC,MFCC,FBank等等,然后利用样本数据对深度学习神经网络进行模型训练,训练出用于检测输入的音频信号是否为相应的私语音频信号和是否为噪音的模型。
另外,本具体实施方式中还包括如下步骤,具体如图3所示。
S24、当不存在语音数据时判定音频信号不为私语音频信号。
具体为,在屏蔽麦克风的情况下,继续对音频信号中是否存在语音数据进行检测,当不再存在语音数据时,判定该音频信号不为私语音频信号,基于此判定,后续则不再对麦克风进行屏蔽。
由于音频信号中不再有语音数据,也就不会对多方通话的其他参与方造成干扰,更重要的是当本方产生语音数据时可以无延迟传递给后续设备使其他参与方听到相应语音,能够避免语音延迟。
另外,如图4a所示,在本申请的另一个具体实施方式中,在步骤S30之后,还包括如下步骤:
S31、获取麦克风采集的音频信号。
即在对麦克风进行屏蔽之后,继续获取麦克风采集的音频信号。这里的屏蔽同前面的解释,这里不再赘述。
S32、对音频信号进行语音活动检测。
即检测音频信号中是否有语音,这里的检测原理以及过程与前面的记载相同,这里不再赘述。
S33、如果音频信号中不存在语音数据,解除对麦克风的屏蔽。
通过语音活动检测,如果音频信号中不再有语音数据,此时就不会对他人的收听产生不良影响,为了后续继续接受语音,此时解除对麦克风的屏蔽。
另外,如图4b所示,在本申请的另一个具体实施方式中,在步骤S30之后,还包括如下步骤:
S34、获取麦克风采集的音频信号。
即在对麦克风进行屏蔽之后,继续获取麦克风采集的音频信号。这里的屏蔽同前面的解释,这里不再赘述。
S35、对音频信号进行语音活动检测。
即检测音频信号中是否有用户的正常发言,这里的检测原理以及过程与前面的记载相同,这里不再赘述。
所谓的正常发言是指在多方通话过程中当前的正常发言,例如在远程会议中主持人、领导或者指定发言人在当前时刻进行的正常发言。如果不加分别,则有可能将发言方的音频信号进行屏蔽,此时有可能导致多方通话无法实现。
为此,在接收到音频信号后,对相应麦克风是否正在接收发言进行检测,检测基础可以是通过检测相应麦克风在发送音频信号的同时是否发送一个特定的信号或指令,该信号或指令可以是该麦克风的用户在发言之前或同时对麦克风输入的信号或指令,还可以是根据预先的时间或顺序规则确定该麦克风是否正在接收发言。
或者对麦克风采集的音频信号进行识别,根据识别得到的结果,确定是否是用户正在正常发言。具体地,前述识别包括语音识别、声纹识别,而根据识别得到的结果,指的是语音识别得到的文本内容和/或声纹识别得到的内容。当语音识别得到的文本内容和/或声纹识别得到的声纹特征为清楚的文本内容或者清楚的声纹结果时,即可确定有人正在正常发言。
另外,对于多方通话场景中多个麦克风来说,如果有麦克风在接收发言,对于其他的麦克风则执行私语检测并根据检测结果对所述其他麦克风执行屏蔽操作等步骤。
S36、如果音频信号中有正常发言,解除对麦克风的屏蔽。
通过语音活动检测,如果音频信号中发现有用户的正常发言存在,此时,为了将该正常发言进行处理并发送到会议机或者服务器,则解除对麦克风的屏蔽。
还有,如图5所示,在本申请的又一个具体实施方式中,在步骤S36之后还包括如下步骤:
S37、消除语音延迟。
麦克风被屏蔽后再次被解除屏蔽时,由于还需要针对音频信号执行语音检测、私语检测、屏蔽解除等操作环节,从而会造成一定的语音延迟,即从接收说话者声音到播放该说话者声音之间的时延。
这里实现消除语音延迟的基础是将采集到的音频信号进行缓存,当确定该音频信号属于用户的正常发言时,可以利用所述缓存的音频信号实现语音延迟的消除。
这里所缓存的语音信号可以通过循环方式进行缓存,即开辟一定的存储空间,将在确定该音频信号属于用户的正常发言之前一定时长如5秒、10秒或30秒的语音信号进行缓存,超过该时长的语音数据则予以丢弃或者直接覆盖,这样能够保证在确定该音频信号属于用户的正常发言前的语音信号被有效缓存。
对所述缓存的音频信号进行采样,通过降低对音频信号的采样率的方式来消除该语音延迟。
用户体验比较好的情况是延迟小于500ms。假设延迟为d ms,我们假设要在t ms内,消除延迟。我们采用降低采样率的方式来消除延迟,即将t+d ms的数据变换为t ms的数据。降低后的采样率为:
f=F*t/(t+d)
其中,f为降低后的采样率,F为原始采样率,t为消除延迟所需要的时间,d为最大延迟。
假设原始音频为采样率F为16000hz,延时d为800ms,在t为3000ms内消除延迟。降低后的采样率f=16000*3000/(3000+800)=12632hz。这时候语音听起来会稍快(相当于(3000+800)/3000=~1.26倍速),但是在可接受范围内,但是内容是完整的,并消除了延迟。
实施例二
图6为本申请实施例的一种麦克风的屏蔽装置的框图。
如图6所示,本实施例的麦克风的屏蔽装置应用于与参与多方通话的通信设备相连接的服务器,或者应用于本地多方通话场景下的会议机,该屏蔽装置包括信号获取模块10、私语检测模块20和屏蔽执行模块30。
信号获取模块10用于接收麦克风采集的音频信号。
这里的麦克风是指上述通信设备的麦克风,在参与多方通话的通信设备采集到其所处环境的声音后,将相应声音转换为音频信号并上传至与其相连的服务器。此时,服务器接收所有参与本次多方通话的通信设备所发送的音频信号。
私语检测模块20用于检测音频信号是否为私语音频信号。
当接收到每个通信设备发送的音频信号后,对每个音频信号进行私语检测,即检测相应音频信号是否为相应的私语音频信号,即相对于用户的正常发言来说声音较小且较不清晰的窃窃私语。另外,在进行私语检测的同时,还检测该音频信号是否为噪音,这里的噪音是指相对于用户正常的发言声音较大的嘈杂声音或者环境声音。
如果音频信号不为私语音频信号,则直接结束所有操作,不再执行其他操作。
屏蔽执行模块用于对麦克风执行屏蔽操作。
即如果该音频信号护额私语音频信号或者为噪音则屏蔽麦克风。这里屏蔽麦克风并非停止麦克风的工作,而是仅停止对麦克风产生的音频信号做进一步的处理,因为还需要通过麦克风获取音频信号以确定私语声音或者噪音是否停止。
如果该音频信号不是私语声音或者噪音,则继续做进一步的处理,如发送给远程通话场景下其他通话参与方的扩音设备,或者发送给本地的扩音设备。
从上述技术方案可以看出,本申请提供了一种麦克风的屏蔽装置,该装置具体用于接收麦克风采集的音频信号;检测音频信号是否为私语音频信号;在音频信号为私语音频信号的情况下,屏蔽麦克风。通过对私语声音或者噪音的屏蔽,在多方通话的场景下可以避免其他人无法听清语音内容或者对其他人正常发言造成干扰,从而提高了通话的效果。
在本申请的一个具体实施方式中,私语检测模块具体包括降噪处理单元、VAD检测单元和语音检测单元。
降噪处理单元用于对麦克风采集的音频信号进行降噪处理。
在接收到麦克风采集的音频信号后,对该音频信号进行降噪处理。具体来说,可以通过LMS自适应滤波器进行降噪处理,还可以通过基本谱减法、维纳滤波方法、基于RNN的音频降噪方法、speex降噪方法等对音频信号进行降噪处理。当然,这里列出的内容并非意在限制于上述降噪方法,而是举例说明。
VAD检测单元用于检测音频信号中是否存在语音数据。
具体来说是对经过降噪处理的音频信号进行VAD检测,检测其中是否存在语音数据,如果不存在语音数据则直接结束当前流程,即不再执行后续步骤,直接结束所有流程。
VAD(Voice Activity Detection,语音活动检测),又称语音端点检测,语音边界检测,通过对端点或者说边界的检测,从中确定该语音信号中是否有语音数据的存在。在确定音频信号中包含语音数据的情况下,执行步骤S23,即检测该音频信号是否为私语音频信号。
语音检测单元用于检测音频信号是否为私语音频信号。
这里为私语音频信号是指该音频信号反映的是用户窃窃私语发出的声音。如果是窃窃私语则因为声音较小且较不清晰而导致其他人无法听清,而噪音的话会影响其他参与人之间的通话质量,因此这两者都会影响其他通话参与人的收听质量。
具体来说,在进行模型训练之前,提取样本音频信号的特征作为样本数据,包括但不限于声强,响度,音高,过零率,信噪比,LPCC,MFCC,FBank等等,然后利用样本数据对深度学习神经网络进行模型训练,训练好的模型可以用于检测输入的音频信号是否为相应的私语音频信号和是否为噪音。。
另外,本具体实施方式中还包括特征判定单元。
该特征判定单元用于当音频信号中不存在语音数据时判定音频信号不为私语音频信号。
具体为,在屏蔽麦克风的情况下,继续对音频信号中是否存在语音数据进行检测,当不再存在语音数据时判定该音频信号不为私语音频信号,基于此判定,后续则不再对麦克风进行屏蔽。
由于音频信号中不再有语音数据,也就不会对多方通话的其他参与方造成干扰,更重要的是当本方产生语音数据时可以无延迟传递给后续设备使其他参与方听到相应语音,能够避免语音延迟。
另外,如图7a所示,在本申请的另一个具体实施方式中,还包括第一获取模块31、第一检测模块32和第一解除模块33。
第一获取模块用于在麦克风被屏蔽后获取麦克风采集的音频信号。
即在对麦克风进行屏蔽之后,继续获取麦克风采集的音频信号。这里的屏蔽同前面的解释,这里不再赘述。
第一检测模块用于对音频信号进行语音活动检测。
即检测音频信号中是否有语音,这里的检测原理以及过程与前面的记载相同,这里不再赘述。
第一解除模块用于如果音频信号中不存在语音数据,解除对麦克风的屏蔽。
通过语音活动检测,如果音频信号中不再有语音数据,此时就不会对他人的收听产生不良影响,为了后续继续接受语音,此时解除对麦克风的屏蔽。
另外,如图7b所示,在本申请的另一个具体实施方式中,还包括第二获取模块34、第二检测模块35和第二解除模块36。
第二获取模块用于在麦克风被屏蔽后获取麦克风采集的音频信号。
即在对麦克风进行屏蔽之后,继续获取麦克风采集的音频信号。这里的屏蔽同前面的解释,这里不再赘述。
第二检测模块用于对音频信号进行语音活动检测。
即检测音频信号中是否有用户的正常发言,这里的检测原理以及过程与前面的记载相同,这里不再赘述。
所谓的正常发言是指在多方通话过程中当前的正常发言,例如在远程会议中主持人、领导或者指定发言人在当前时刻进行的正常发言。如果不加分别,则有可能将发言方的音频信号进行屏蔽,此时有可能导致多方通话无法实现。
为此,在接收到音频信号后,对相应麦克风是否正在接收发言进行检测,检测基础可以是通过检测相应麦克风在发送音频信号的同时是否发送一个特定的信号或指令,该信号或指令可以是该麦克风的用户在发言之前或同时对麦克风输入的信号或指令,还可以是根据预先的时间或顺序规则确定该麦克风是否正在接收发言。
或者对麦克风采集的音频信号进行识别,根据识别得到的结果,确定是否是用户正在正常发言。具体地,前述识别包括语音识别、声纹识别,而根据识别得到的结果,指的是语音识别得到的文本内容和/或声纹识别得到的内容。当语音识别得到的文本内容和/或声纹识别得到的声纹特征为清楚的文本内容或者清楚的声纹结果时,即可确定有人正在正常发言。
另外,对于多方通话场景中多个麦克风来说,如果有麦克风在接收发言,对于其他的麦克风则执行私语检测并根据检测结果对所述其他麦克风执行屏蔽操作等步骤。
第二解除模块用于如果音频信号中有正常发言,解除对麦克风的屏蔽。
通过语音活动检测,如果音频信号中发现有用户的正常发言存在,此时,为了将该正常发言进行处理并发送到会议机或者服务器,则解除对麦克风的屏蔽。
还有,如图8所示,在本申请的又一个具体实施方式中,还包括延迟消除模块37。
延迟消除模块用于消除语音延迟。
麦克风被屏蔽后,用户突然开始说话时,由于还需要执行语音检测、私语检测、屏蔽解除等操作环节,从而会造成一定的语音延迟,即从接收说话者声音到播放该说话者声音之间的时延。
这里实现消除语音延迟的基础是在用户正常发言时,将其发言产生的语音数据进行缓存,从而在系统中会存储有相应时长的缓存数据,该延迟消除模块在需要时可以利用麦克风被屏蔽之前其产生的缓存数据实现语音延迟的消除,或者在没有缓存数据的情况下通过降低采样率的方式来消除语音延迟。
这里所缓存的语音数据可以通过循环方式进行缓存,即开辟一定的存储空间,将麦克风被屏蔽前一定时长如5秒、10秒或30秒的语音数据进行缓存,超过该时长的语音数据则予以丢弃或者直接覆盖,这样能够保证相应麦克风在被屏蔽前的语音数据被有效缓存。
当麦克风在再次接收到正常发言时,可以通过将该缓存数据与在麦克风取消屏蔽之后产生的新生成数据结合的方式来消除语音延迟。或者,通过降低音频信号的采样率的方式来消除该语音延迟。
实施例三
本实施例提供了一种电子设备,该电子为多方通话系统中与参与多方通话的通信设备连接的服务器,或者应用于本地多方通话场景下的会议机,该电子设备设置有如上面实施例所提供的麦克风的屏蔽装置。
该装置具体用于接收麦克风采集的音频信号;检测音频信号是否为私语音频信号;在音频信号为私语音频信号的情况下,屏蔽麦克风。通过对私语声音或者噪音的屏蔽,在多方通话的场景下可以避免其他人无法听清语音内容或者对其他人正常发言造成干扰,从而提高了通话的效果。
实施例四
图9为本申请实施例的一种电子设备的框图。
如图9所示,本实施例提供的电子设备包括至少一个处理器101和存储器102,两者通过数据总线103相连接。
该存储器用于存储计算机程序或指令,处理器则用于获取并执行该计算机程序或指令,以使该通信设备能够执行实施例一所提供的麦克风的屏蔽方法。
该屏蔽方法具体为用于接收麦克风采集的音频信号;检测音频信号是否为私语音频信号;在音频信号为私语音频信号的情况下,屏蔽麦克风。通过对私语声音或者噪音的屏蔽,在多方通话的场景下可以避免其他人无法听清语音内容或者对其他人正常发言造成干扰,从而提高了通话的效果。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种麦克风的屏蔽方法,其特征在于,包括步骤:
接收麦克风采集的音频信号;
确定所述音频信号是否为私语音频信号;
在确定所述音频信号为私语音频信号的情况下,屏蔽所述麦克风;
当所述麦克风接收到用户的正常发言时,消除语音延迟,所述消除语音延迟,包括步骤:
降低所述音频信号的采样率,降低后的采样率为:
f=F*t/(t+d)
其中,f为降低后的采样率,F为原始采样率,t为消除延迟所需要的时间,d为最大延迟。
2.如权利要求1所述的屏蔽方法,其特征在于,在所述确定所述音频信号是否为私语音频信号步骤之前,还包括步骤:
检测所述麦克风是否正在接收发言;
如果所述麦克风正在接收发言,则结束本次操作;
如果所述麦克风并非在接收发言,则执行后续的步骤。
3.如权利要求1所述的屏蔽方法,其特征在于,所述确定所述音频信号是否为私语音频信号,包括步骤:
对所述音频信号进行降噪处理;
对经过降噪处理的音频信号进行语音活动检测;
在检测到所述音频信号中存在语音数据的情况下,检测所述音频信号是否为私语音频信号。
4.如权利要求3所述的屏蔽方法,其特征在于,还包括步骤:
当检测到所述音频信号中不再包括语音数据时,判定所述音频信号不为所述私语音频信号。
5.如权利要求1所述的屏蔽方法,其特征在于,在所述屏蔽所述麦克风步骤之后,还包括步骤:
获取所述麦克风采集的音频信号;
对所述音频信号进行语音活动检测;
在未检测到所述音频信号中存在语音数据的情况下,解除对所述麦克风的屏蔽。
6.如权利要求1所述的屏蔽方法,其特征在于,在所述屏蔽所述麦克风步骤之后,还包括步骤:
获取所述麦克风采集的音频信号;
基于所述音频信号,确定所述麦克风是否正在接收用户的正常发言;
在所述麦克风正在接收用户的正常发言的情况下,解除对所述麦克风的屏蔽。
7.如权利要求6所述的屏蔽方法,其特征在于,所述基于所述音频信号,确定所述麦克风是否正在接收用户的正常发言,包括:
当所述麦克风接收到用户输入的特定信号或指令时,判定所述麦克风正在接收用户的正常发言。
8.如权利要求6所述的屏蔽方法,其特征在于,所述基于所述音频信号,确定所述麦克风是否正在接收用户的正常发言,包括:
当所述音频信号中包含特定声纹信息时,判定所述麦克风正在接收用户的正常发言。
9.一种麦克风的屏蔽装置,其特征在于,包括:
信号获取模块,用于接收麦克风采集的音频信号;
私语检测模块,用于检测所述音频信号是否为私语音频信号;
屏蔽执行模块,用于在所述音频信号为所述私语音频信号的情况下,屏蔽所述麦克风;
延迟消除模块,用于当所述麦克风接收到用户的正常发言时,消除语音延迟,所述延迟消除模块具体用于降低所述音频信号的采样率,降低后的采样率为:
f=F*t/(t+d)
其中,f为降低后的采样率,F为原始采样率,t为消除延迟所需要的时间,d为最大延迟。
10.如权利要求9所述的屏蔽装置,其特征在于,还包括:
发言检测模块,用于在所述检测所述音频信号是否为私语声音步骤之前,检测所述麦克风是否正在接收发言;如果所述麦克风正在接收发言,则结束本次操作,如果所述麦克风并非在接收发言,则控制所述私语检测模块执行检测所述音频信号是否为私语声音。
11.如权利要求9所述的屏蔽装置,其特征在于,还包括:
第一获取模块,用于在所述麦克风被屏蔽之后,获取所述麦克风采集的音频信号;
第一检测模块,用于对所述音频信号进行语音活动检测;
第一解除模块,用于在未检测到所述音频信号中存在语音数据的情况下,解除对所述麦克风的屏蔽。
12.如权利要求9所述的屏蔽装置,其特征在于,还包括:
第二获取模块,用于在所述麦克风被屏蔽之后,获取所述麦克风采集的音频信号;
第二检测模块,用于基于所述音频信号,确定所述麦克风是否正在接收用户的正常发言;
第二解除模块,用于在所述麦克风正在接收用户的正常发言的情况下,解除对所述麦克风的屏蔽。
13.一种电子设备,其特征在于,设置有如权利要求9~12任一项所述的屏蔽装置。
14.一种电子设备,包括麦克风,其特征在于,设置有至少一个处理器和与所述处理器信号连接的存储器,其中:
所述存储器用于存储计算机程序或指令;
所述处理器用于获取并执行所述计算机程序或指令,以使所述电子设备实现如权利要求1~8任一项所述的屏蔽方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010143279.4A CN111199751B (zh) | 2020-03-04 | 2020-03-04 | 一种麦克风的屏蔽方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010143279.4A CN111199751B (zh) | 2020-03-04 | 2020-03-04 | 一种麦克风的屏蔽方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111199751A CN111199751A (zh) | 2020-05-26 |
CN111199751B true CN111199751B (zh) | 2021-04-13 |
Family
ID=70747497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010143279.4A Active CN111199751B (zh) | 2020-03-04 | 2020-03-04 | 一种麦克风的屏蔽方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111199751B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967732B (zh) * | 2021-02-25 | 2023-10-03 | 北京百度网讯科技有限公司 | 调整均衡器的方法、装置、设备和计算机可读存储介质 |
CN115550595A (zh) * | 2021-06-30 | 2022-12-30 | Oppo广东移动通信有限公司 | 线上会议实现方法、装置、设备及可读存储介质 |
CN115086477B (zh) * | 2022-06-02 | 2024-05-03 | Oppo广东移动通信有限公司 | 控制方法和装置、电子设备、通话系统及可读存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5297210A (en) * | 1992-04-10 | 1994-03-22 | Shure Brothers, Incorporated | Microphone actuation control system |
CN1636362A (zh) * | 2001-05-15 | 2005-07-06 | 高通股份有限公司 | 用于减小组通讯网络内在组休眠唤醒过程中的等待延时的控制器 |
CN1890941A (zh) * | 2003-10-09 | 2007-01-03 | 惠普开发有限公司 | 在远程协作期间建立并行会话线程的系统和方法 |
CN103270702A (zh) * | 2010-10-27 | 2013-08-28 | 惠普发展公司,有限责任合伙企业 | 用于在通信会话中启用音频发送的系统、方法和装置 |
EP1622349B1 (en) * | 2004-07-27 | 2014-03-12 | Hewlett-Packard Development Company, L.P. | Teleconference volume level monitoring and feedback on the volume level |
CN105340255A (zh) * | 2013-06-10 | 2016-02-17 | 微软技术许可有限责任公司 | 赶上进行中的会议通话 |
CN105933558A (zh) * | 2016-04-25 | 2016-09-07 | 四川联友电讯技术有限公司 | 一种电话会议高噪声与会人员的智能屏蔽及解除方法 |
JP2017163182A (ja) * | 2016-03-07 | 2017-09-14 | 株式会社リコー | 情報処理装置、会議システムおよび情報処理装置の制御方法 |
CN107302640A (zh) * | 2017-06-08 | 2017-10-27 | 携程旅游信息技术(上海)有限公司 | 电话会议控制系统及其控制方法 |
CN108370469A (zh) * | 2016-03-17 | 2018-08-03 | 铁三角有限公司 | 噪声检测装置和语音信号输出装置 |
CN109005419A (zh) * | 2018-09-05 | 2018-12-14 | 北京优酷科技有限公司 | 一种语音信息的处理方法及客户端 |
CN110111776A (zh) * | 2019-06-03 | 2019-08-09 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7343283B2 (en) * | 2002-10-23 | 2008-03-11 | Motorola, Inc. | Method and apparatus for coding a noise-suppressed audio signal |
US10045140B2 (en) * | 2015-01-07 | 2018-08-07 | Knowles Electronics, Llc | Utilizing digital microphones for low power keyword detection and noise suppression |
CN109903752B (zh) * | 2018-05-28 | 2021-04-20 | 华为技术有限公司 | 对齐语音的方法和装置 |
-
2020
- 2020-03-04 CN CN202010143279.4A patent/CN111199751B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5297210A (en) * | 1992-04-10 | 1994-03-22 | Shure Brothers, Incorporated | Microphone actuation control system |
CN1636362A (zh) * | 2001-05-15 | 2005-07-06 | 高通股份有限公司 | 用于减小组通讯网络内在组休眠唤醒过程中的等待延时的控制器 |
CN1890941A (zh) * | 2003-10-09 | 2007-01-03 | 惠普开发有限公司 | 在远程协作期间建立并行会话线程的系统和方法 |
EP1622349B1 (en) * | 2004-07-27 | 2014-03-12 | Hewlett-Packard Development Company, L.P. | Teleconference volume level monitoring and feedback on the volume level |
CN103270702A (zh) * | 2010-10-27 | 2013-08-28 | 惠普发展公司,有限责任合伙企业 | 用于在通信会话中启用音频发送的系统、方法和装置 |
CN105340255A (zh) * | 2013-06-10 | 2016-02-17 | 微软技术许可有限责任公司 | 赶上进行中的会议通话 |
JP2017163182A (ja) * | 2016-03-07 | 2017-09-14 | 株式会社リコー | 情報処理装置、会議システムおよび情報処理装置の制御方法 |
CN108370469A (zh) * | 2016-03-17 | 2018-08-03 | 铁三角有限公司 | 噪声检测装置和语音信号输出装置 |
CN105933558A (zh) * | 2016-04-25 | 2016-09-07 | 四川联友电讯技术有限公司 | 一种电话会议高噪声与会人员的智能屏蔽及解除方法 |
CN107302640A (zh) * | 2017-06-08 | 2017-10-27 | 携程旅游信息技术(上海)有限公司 | 电话会议控制系统及其控制方法 |
CN109005419A (zh) * | 2018-09-05 | 2018-12-14 | 北京优酷科技有限公司 | 一种语音信息的处理方法及客户端 |
CN110111776A (zh) * | 2019-06-03 | 2019-08-09 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
Non-Patent Citations (2)
Title |
---|
Application of microphone arrays for the detection of acoustic noise in porous panel shields;Mohamad Y. Mustafa;Geanette Polanco;Qi Gao;Yizhong Xu;;《2014 5th IEEE Conference on Cognitive Infocommunications (CogInfoCom)》;20150126;全文 * |
指挥调度系统中通播会议功能的设计与实现;张华琳, 阮军洲;《无线电工程》;20151130;第45卷(第11期);69-72 * |
Also Published As
Publication number | Publication date |
---|---|
CN111199751A (zh) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199751B (zh) | 一种麦克风的屏蔽方法、装置和电子设备 | |
JP5085556B2 (ja) | エコー除去の構成 | |
US8175874B2 (en) | Personalized voice activity detection | |
CN107995360B (zh) | 通话处理方法及相关产品 | |
WO2015172435A1 (zh) | 远程会议中实现有序发言的方法及服务器 | |
US8731940B2 (en) | Method of controlling a system and signal processing system | |
CN110956976B (zh) | 一种回声消除方法、装置、设备及可读存储介质 | |
US9661139B2 (en) | Conversation detection in an ambient telephony system | |
CN111683183B (zh) | 一种多媒体会议非参会对话屏蔽处理方法及其系统 | |
WO2023040523A1 (zh) | 音频信号的处理方法、装置、电子设备及存储介质 | |
US10540983B2 (en) | Detecting and reducing feedback | |
US20180350382A1 (en) | Noise reduction in audio signals | |
CN115482830B (zh) | 语音增强方法及相关设备 | |
US20240096343A1 (en) | Voice quality enhancement method and related device | |
CN116420188A (zh) | 从呼叫和音频消息中对其他说话者进行语音过滤 | |
CN113271430B (zh) | 网络视频会议中防干扰方法、系统、设备及存储介质 | |
CN110265038B (zh) | 一种处理方法及电子设备 | |
CN110197663B (zh) | 一种控制方法、装置及电子设备 | |
EP3900315B1 (en) | Microphone control based on speech direction | |
CN113923395A (zh) | 一种提升会议质量的方法、设备和存储介质 | |
CN117118956B (zh) | 音频处理方法、装置、电子设备及计算机可读存储介质 | |
CN114530159A (zh) | 一种基于WebRTC技术的多媒体资源整合调度方法 | |
CN116453497A (zh) | 智能网络通讯的杂讯消减方法 | |
CN115174724A (zh) | 通话降噪方法、装置、设备及可读存储介质 | |
CN115665602A (zh) | 回声消除方法、装置、会议系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |