CN112118511A - 耳机降噪方法、装置、耳机及计算机可读存储介质 - Google Patents
耳机降噪方法、装置、耳机及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112118511A CN112118511A CN202011307507.3A CN202011307507A CN112118511A CN 112118511 A CN112118511 A CN 112118511A CN 202011307507 A CN202011307507 A CN 202011307507A CN 112118511 A CN112118511 A CN 112118511A
- Authority
- CN
- China
- Prior art keywords
- audio data
- noise reduction
- voice
- target
- voiceprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 141
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 abstract description 16
- 230000000694 effects Effects 0.000 abstract description 7
- 230000003044 adaptive effect Effects 0.000 description 23
- 230000000712 assembly Effects 0.000 description 9
- 238000000429 assembly Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000011946 reduction process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/01—Hearing devices using active noise cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本申请提供了一种耳机降噪方法、装置、耳机及计算机可读存储介质,属于信号处理技术领域。本申请通过在基于耳机采集到的第一音频数据包括人声时,通过对人声的声纹特征和目标用户预先注册的目标声纹特征进行匹配,以确定第一音频数据所包括的人声是不是由目标用户发出的,在人声的声纹特征和目标声纹特征不匹配时,即可确定人声不是由目标用户发出的,进而根据基于第一音频数据确定出的第一降噪参数信息,来对第一音频数据进行降噪处理,避免非目标用户的人声对降噪过程造成影响,从而提高降噪效果。
Description
技术领域
本申请涉及信号处理技术领域,特别涉及一种耳机降噪方法、装置、耳机及计算机可读存储介质。
背景技术
耳机作为一种高效便捷的音频输入输出设备,已经成为人们日常生活中的必需品。而通信降噪是耳机的一个重要功能点,在通过耳机进行通信的过程中,周围环境中的噪声会被耳机中的麦克风采集到,进而传输到远端正在进行通信的用户侧,造成通话质量下降。
目前在对耳机进行降噪时,主要是通过自适应滤波器,来对收集到的音频数据进行滤波实现的。在检测到音频数据中的人声时,自适应滤波器停止更新参数,避免对人声造成损伤,在未检测到人声时,自适应滤波器更新参数,实现环境噪声的消除。
在上述实现过程中,由于周围环境中也会存在其他人的人声,在检测到周围环境中存在的其他人的人声时,自适应滤波器会采用已存储的参数,仅对环境噪声进行处理,从而导致降噪效果较差。
发明内容
本申请实施例提供了一种耳机降噪方法、装置、耳机及计算机可读存储介质,以提高耳机的降噪效果。下面对该技术方案涉及的内容进行介绍。
一方面,提供了一种耳机降噪方法,该方法包括:
获取第一音频数据,该第一音频数据基于耳机采集得到;
若该第一音频数据包括人声,则提取该人声的声纹特征;
若该人声的声纹特征与目标声纹特征不匹配,则基于该第一音频数据确定第一降噪参数信息,该目标声纹特征为目标用户预先注册的声纹特征;
根据该第一降噪参数信息,对该第一音频数据进行降噪处理。
在一些可能的实现方式中,该若该第一音频数据包括人声,则提取该人声的声纹特征包括:
若该第一音频数据包括人声,则确定该人声的频谱特征;
基于该人声的频谱特征,确定该人声的对数谱特征;
基于该人声的对数谱特征,确定该人声的声纹特征。
在一种可能的实现方式中,该若该第一音频数据包括人声,则提取该人声的声纹特征之前,该方法还包括:
对该第一音频数据进行语音端点检测,该语音端点检测用于确定该第一音频数据是否包括人声。
在一种可能的实现方式中,该若该人声的声纹特征与目标声纹特征不匹配,则基于该第一音频数据确定第一降噪参数信息包括:
若该人声的声纹特征与目标声纹特征不匹配,则基于已存储的第二降噪参数信息、该第一音频数据,确定残差信号,该第二降噪参数信息基于第二音频数据确定,该第二音频数据为采集时间在该第一音频数据的采集时间之前,且与该第一音频数据的采集时间的时间间隔最短的音频数据;
基于该第一音频数据,确定参数调整信息;
基于该残差信号、该参数调整信息和该第二降噪参数信息,确定该第一降噪参数信息。
在一种可能的实现方式中,该获取第一音频数据之后,该方法还包括:
若该第一音频数据不包括人声,则执行基于该第一音频数据确定第一降噪参数信息的步骤。
在一种可能的实现方式中,该若该第一音频数据包括人声,则提取该人声的声纹特征之后,该方法还包括:
若该人声的声纹特征与目标声纹特征匹配,则获取已存储的第二降噪参数信息,该第二降噪参数信息基于第二音频数据确定,该第二音频数据为采集时间在该第一音频数据的采集时间之前,且与该第一音频数据的采集时间的时间间隔最短的音频数据;
根据该第二降噪参数信息,对该第一音频数据进行降噪处理。
在一种可能的实现方式中,该目标声纹特征的注册过程包括下述至少一项:
若外界环境的分贝值小于第一目标阈值,则获取当前输入的音频数据中人声的声纹特征,作为该目标声纹特征;
若基于获取到的音频数据中的人声确定出的声纹特征相同的次数大于或等于第二目标阈值,则将该声纹特征确定为该目标声纹特征。
一方面,提供了一种耳机降噪装置,该装置包括:
数据获取模块,用于获取第一音频数据,该第一音频数据基于耳机采集得到;
提取模块,用于若该第一音频数据包括人声,则提取该人声的声纹特征;
确定模块,用于若该人声的声纹特征与目标声纹特征不匹配,则基于该第一音频数据确定第一降噪参数信息,该目标声纹特征为目标用户预先注册的声纹特征;
降噪处理模块,用于根据该第一降噪参数信息,对该第一音频数据进行降噪处理。
在一种可能的实现方式中,该提取模块,用于若该第一音频数据包括人声,则确定该人声的频谱特征;基于该人声的频谱特征,确定该人声的对数谱特征;基于该人声的对数谱特征,确定该人声的声纹特征。
在一种可能的实现方式中,该装置还包括:
检测模块,用于对该第一音频数据进行语音端点检测,该语音端点检测用于确定该第一音频数据是否包括人声。
在一种可能的实现方式中,该确定模块,用于若该人声的声纹特征与目标声纹特征不匹配,则基于已存储的第二降噪参数信息、该第一音频数据,确定残差信号,该第二降噪参数信息基于第二音频数据确定,该第二音频数据为采集时间在该第一音频数据的采集时间之前,且与该第一音频数据的采集时间的时间间隔最短的音频数据;基于该第一音频数据,确定参数调整信息;基于该残差信号、该参数调整信息和该第二降噪参数信息,确定该第一降噪参数信息。
在一种可能的实现方式中,该确定模块,还用于若该第一音频数据不包括人声,则执行基于该第一音频数据确定第一降噪参数信息的步骤。
在一种可能的实现方式中,该装置还包括:
信息获取模块,用于若该人声的声纹特征与目标声纹特征匹配,则获取已存储的第二降噪参数信息,该第二降噪参数信息基于第二音频数据确定,该第二音频数据为采集时间在该第一音频数据的采集时间之前,且与该第一音频数据的采集时间的时间间隔最短的音频数据;
该降噪处理模块,还用于根据该第二降噪参数信息,对该第一音频数据进行降噪处理。
在一种可能的实现方式中,该目标声纹特征的注册过程包括下述至少一项:
若外界环境的分贝值小于第一目标阈值,则获取当前输入的音频数据中人声的声纹特征,作为该目标声纹特征;
若基于获取到的音频数据中的人声确定出的声纹特征相同的次数大于或等于第二目标阈值,则将该声纹特征确定为该目标声纹特征。
一方面,提供了一种耳机,该耳机包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该程序代码由该一个或多个处理器加载并执行以实现该耳机降噪方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该程序代码由处理器加载并执行以实现该耳机降噪方法所执行的操作。
一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。耳机的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,以实现该耳机降噪方法所执行的操作。
本申请实施例提供的方案,通过在基于耳机采集到的第一音频数据包括人声时,通过对人声的声纹特征和目标用户预先注册的目标声纹特征进行匹配,以确定第一音频数据所包括的人声是不是由目标用户发出的,在人声的声纹特征和目标声纹特征不匹配时,即可确定人声不是由目标用户发出的,进而根据基于第一音频数据确定出的第一降噪参数信息,来对第一音频数据进行降噪处理,避免非目标用户的人声对降噪过程造成影响,从而提高降噪效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种耳机降噪方法的实施环境示意图;
图2是本申请实施例提供的一种耳机降噪方法的流程图;
图3是本申请实施例提供的一种耳机降噪方法的流程图;
图4是本申请实施例提供的一种残差信号的确定过程的原理示意图;
图5是本申请实施例提供的一种耳机降噪装置的结构示意图;
图6是本申请实施例提供的一种耳机的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种耳机降噪方法的实施环境示意图,参见图1,该实施环境包括:耳机101和计算机设备102。
耳机101可以为头戴式耳机、真无线立体声(True Wireless Stereo,TWS)耳机等,可选地,耳机101包括其他类型,本申请实施例对此不加以限定。耳机101内置有多个麦克风组件,耳机101通过该多个麦克风组件对音频数据进行采集,进而对采集到的音频数据进行降噪处理,得到消除噪声后的音频数据。耳机101通过有线或无线连接方式与计算机设备102进行连接,本申请实施例对具体的连接方式不加以限定,以便耳机101将消除噪声后的音频数据传输至计算机设备102。
计算机设备102可以为智能手机、平板电脑、智能手表、手提电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机等设备中的至少一种。可选地,耳机101和计算机设备102通过有线或无线连接方式进行连接,本申请实施例对具体的连接方式不加以限定。计算机设备102将通过耳机101获取到的音频数据发送给其他计算机设备,并接收其他计算机设备发送的音频数据,进而通过扬声器组件对接收到的音频数据进行播放,或通过耳机101对接收到的音频数据进行播放。
耳机101可以泛指多个耳机中的一个,计算机设备102可以泛指多个计算机设备中的一个,本实施例仅以耳机101和计算机设备102来举例说明。本领域技术人员可以知晓,上述耳机和计算机设备的数量均可以更多或更少。比如上述耳机和计算机设备均可以仅为几个,或者上述耳机和计算机设备均为几十个或几百个,或者更多数量,本申请实施例对耳机和计算机设备的数量和类型均不加以限定。
图2是本申请实施例提供的一种耳机降噪方法的流程图,参见图2,该方法包括以下步骤。
201、耳机获取第一音频数据,该第一音频数据基于耳机采集得到。
202、若该第一音频数据包括人声,则耳机提取该人声的声纹特征。
203、若该人声的声纹特征与目标声纹特征不匹配,则耳机基于该第一音频数据确定第一降噪参数信息,该目标声纹特征为目标用户预先注册的声纹特征。
204、耳机根据该第一降噪参数信息,对该第一音频数据进行降噪处理。
本申请实施例提供的方案,通过在基于耳机采集到的第一音频数据包括人声时,通过对人声的声纹特征和目标用户预先注册的目标声纹特征进行匹配,以确定第一音频数据所包括的人声是不是由目标用户发出的,在人声的声纹特征和目标声纹特征不匹配时,即可确定人声不是由目标用户发出的,进而根据基于第一音频数据确定出的第一降噪参数信息,来对第一音频数据进行降噪处理,避免非目标用户的人声对降噪过程造成影响,从而提高降噪效果。
在一种可能的实现方式中,该若该第一音频数据包括人声,则提取该人声的声纹特征包括:
若该第一音频数据包括人声,则确定该人声的频谱特征;
基于该人声的频谱特征,确定该人声的对数谱特征;
基于该人声的对数谱特征,确定该人声的声纹特征。
在一种可能的实现方式中,该若该第一音频数据包括人声,则提取该人声的声纹特征之前,该方法还包括:
对该第一音频数据进行语音端点检测,该语音端点检测用于确定该第一音频数据是否包括人声。
在一种可能的实现方式中,该若该人声的声纹特征与目标声纹特征不匹配,则基于该第一音频数据确定第一降噪参数信息包括:
若该人声的声纹特征与目标声纹特征不匹配,则基于已存储的第二降噪参数信息、该第一音频数据,确定残差信号,该第二降噪参数信息基于第二音频数据确定,该第二音频数据为采集时间在该第一音频数据的采集时间之前,且与该第一音频数据的采集时间的时间间隔最短的音频数据;
基于该第一音频数据,确定参数调整信息;
基于该残差信号、该参数调整信息和该第二降噪参数信息,确定该第一降噪参数信息。
在一种可能的实现方式中,该获取第一音频数据之后,该方法还包括:
若该第一音频数据不包括人声,则执行基于该第一音频数据确定第一降噪参数信息的步骤。
在一种可能的实现方式中,该若该第一音频数据包括人声,则提取该人声的声纹特征之后,该方法还包括:
若该人声的声纹特征与目标声纹特征匹配,则获取已存储的第二降噪参数信息,该第二降噪参数信息基于第二音频数据确定,该第二音频数据为采集时间在该第一音频数据的采集时间之前,且与该第一音频数据的采集时间的时间间隔最短的音频数据;
根据该第二降噪参数信息,对该第一音频数据进行降噪处理。
在一种可能的实现方式中,该目标声纹特征的注册过程包括下述至少一项:
若外界环境的分贝值小于第一目标阈值,则获取当前输入的音频数据中人声的声纹特征,作为该目标声纹特征;
若基于获取到的音频数据中的人声确定出的声纹特征相同的次数大于或等于第二目标阈值,则将该声纹特征确定为该目标声纹特征。
图3是本申请实施例提供的一种耳机降噪方法的流程图,参见图3,该方法包括以下步骤。
301、耳机获取第一音频数据,该第一音频数据基于耳机采集得到。
需要说明的是,该耳机中包括多个麦克风组件,例如,该耳机中包括2个麦克风组件,或者,该耳机中包括3个麦克风组件,可选地,麦克风组件的数量可以更多或更少,本申请实施例对麦克风组件的具体数量不加以限定。
302、耳机对该第一音频数据进行语音端点检测,执行步骤303和步骤304,该语音端点检测用于确定该第一音频数据是否包括人声。
在一种可能的实现方式中,耳机根据获取到的第一音频数据,确定检测参数信息,进而根据该检测参数信息对人声和环境噪声进行划分。若该检测参数信息所指示的参数值大于判决门限时,则确定该第一音频数据为人声,若该检测参数信息所指示的参数值小于判决门限时,则确定该第一音频数据为环境噪声;或者,若该检测参数信息所指示的参数值小于判决门限时,则确定该第一音频数据为人声,若该检测参数信息所指示的参数值大于判决门限时,则确定该第一音频数据为环境噪声,具体采用哪种方式进行判定基于所采用的检测参数信息确定,本申请实施例对此不加以限定。该判决门限为任意值,本申请实施例对判决门限的取值不加以限定。
其中,该检测参数信息对应的检测参数为时域参数,例如,短时能量和过零率、短时自相关及一些其他时域参数(如对数能量、绝对值能量、最小均方参数等),或者,该检测参数信息对应的检测参数为距离参数,例如线性预测编码倒谱(Linear PredictionCepstrum,LPC)距离、倒谱距离等,或者,该检测参数信息对应的检测参数为变换域参数等,可选地,该检测参数为其他类型,本申请实施例对此不加以限定。
在更多可能的实现方式中,在对第一音频数据进行语音端点检测(VoiceActivity Detection,VAD)之前,对第一音频数据进行预处理。其中,预处理包括预加重、加窗分帧、预滤波等,可选地,预处理包括其他类型的处理操作,本申请实施例对此不加以限定。通过对第一音频数据进行预处理,能够保证进行语音端点检测时所采用的第一音频数据均匀、平滑,提高第一音频数据的数据质量,进而提高语音端点检测的准确性。
303、若该第一音频数据包括人声,则耳机提取该人声的声纹特征,执行步骤304和步骤308。
在一种可能的实现方式中,若该第一音频数据包括人声,则耳机确定该人声的频谱特征,基于该人声的频谱特征,确定该人声的对数谱特征,基于该人声的对数谱特征,确定该人声的倒谱特征,作为该人声的声纹特征。
需要说明的是,该倒谱特征为线性倒谱系数(Linear Predictive CepstrumCofficient,LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstrum Cofficient,MFCC)等,可选地,该倒谱特征为其他类型,本申请实施例对此不加以限定。
以该倒谱特征为梅尔频率倒谱系数为例,若该第一音频数据包括人声,则耳机先对该第一音频数据进行快速傅里叶变换,得到第一音频数据在频域上的能量分布信息,即得到第一音频数据的频谱特征。然后,基于该频谱特征得到第一音频数据的能量谱特征,再对能量谱特征取对数,计算其对数能量,得到对数谱特征。最后,对对数谱特征进行傅里叶逆变换,得到该梅尔频率倒谱系数,将该梅尔频率倒谱系数作为第一音频数据的频谱特征。
需要说明的是,上述对梅尔频率倒谱系数确定方法的说明,仅是一种示例性说明,可选地,采用其他方式来进行梅尔频率倒谱系数的确定,本申请实施例对此不作具体限定。
304、若该人声的声纹特征与目标声纹特征不匹配,则耳机基于已存储的第二降噪参数信息、该第一音频数据,确定残差信号,该目标声纹特征为目标用户预先注册的声纹特征,该第二降噪参数信息基于第二音频数据确定,该第二音频数据为采集时间在该第一音频数据的采集时间之前,且与该第一音频数据的采集时间的时间间隔最短的音频数据。
需要说明的是,耳机中预先存储有目标用户的目标声纹特征,目标用户即为耳机的佩戴者。该目标声纹特征的获取过程有如下两种方式,下面分别对这两种方式进行介绍。
第一种是采用声纹注册的方式,在耳机使用前按照声纹注册的一般原则,通过语音提示的方式,以提示用户对着耳机说3句固定的话,并获取用户基于这3句固定的话输入的目标音频数据,提取目标用户的声纹特征,并对提取出的声纹特征进行存储,作为该目标声纹特征。第二种是采用自动注册的方式,也即是,在耳机的使用过程中,自动获取用户输入的音频数据,并将从该音频数据中提取到的声纹特征作为目标声纹特征进行存储。
其中,该目标声纹特征的自动注册过程包括下述至少一项:若外界环境的分贝值小于第一目标阈值,则获取当前输入的音频数据中人声的声纹特征,作为该目标声纹特征;若基于获取到的音频数据中的人声确定出的声纹特征相同的次数大于或等于第二目标阈值,则将该声纹特征确定为该目标声纹特征。该第一目标阈值和该第二目标阈值均为任意正数值,本申请实施例对第一目标阈值和第二目标阈值的具体取值不加以限定。
通过在提取出的声纹特征相同的次数大于或等于第二目标阈值时,将提取出的声纹特征确定为目标声纹特征,以便在用户的耳机经常借给他人(尤其是熟人)使用时,将经常使用该耳机的常用人的声纹特征也作为目标声纹特征进行存储,实现对常用人的声纹特征的自动注册,进而使得耳机能够自动为常用人提供降噪功能,而不是只有作为耳机所有者的用户自己使用时才能降噪,提高耳机降噪过程的应用范围,进而提高用户体验。
以该第二目标阈值为2为例,该目标声纹特征的自动注册过程为:在外界环境的分贝值小于第一目标阈值,也即是,外界环境足够安静时,在获取到用户输入的音频数据时进行声纹特征的提取,并将提取到的声纹特征作为目标声纹特征进行存储;或者,对在用户使用过程中任意时刻获取到的用户输入的音频数据进行声纹特征的提取,当提取到的声纹特征相同的次数大于或等于2时,将提取到的声纹特征作为目标声纹特征进行存储;或者,在外界环境的分贝值小于第一目标阈值时,提取用户输入的音频数据的声纹特征,当提取到的声纹特征相同的次数大于或等于2时,将提取到的声纹特征作为目标声纹特征进行存储,本申请实施例对具体采用哪种自动注册方式不加以限定。
其中,该目标声纹特征的提取过程与上述步骤303同理,此处不再赘述。可选地,在获取到目标声纹特征后,通过第二种方式对获取的目标声纹特征进行更新。例如,每隔目标时长,对目标声纹特征进行更新,该目标时长为任意时长,本申请实施例对此不加以限定。在对目标声纹特征进行更新时,删除原来的目标声纹特征,存储通过第二种方式获取到的目标声纹特征,将通过第二种方式获取到的目标声纹特征作为目标用户的目标声纹特征,或者,不删除原来的目标声纹特征,存储通过第二种方式获取到的目标声纹特征,将原来的目标声纹特征和通过第二种方式获取到的目标声纹特征均作为目标用户的目标声纹特征,本申请实施例对采用哪种方式不加以限定。
需要说明的是,耳机中内置有自适应滤波器,通过该自适应滤波器来对第一音频数据进行降噪处理。
以该耳机包括2个麦克风组件,自适应滤波器采用时域的归一化最小均方算法(Normalized Least Mean Square Algorithm,NLMS)为例,一个麦克风组件记为麦克风1,另一个麦克风组件记为参考麦克风2。其中,麦克风1所采集到的第一音频数据为,为快拍数,参考麦克风2所采集到的第一音频数据为,为快拍数,自适应滤波器的第二降噪参数信息为,则经过自适应滤波器后得到的残差信号为。
需要说明的是,该残差信号的确定过程参见图4,图4是本申请实施例提供的一种残差信号的确定过程的原理示意图,耳机通过参数为第二降噪参数的自适应滤波器,对参考麦克风2采集到的第一音频数据进行滤波,进而将滤波后的第一音频数据,以及麦克风1采集到的第一音频数据,输入加法器,通过加法器,输出该残差信号。
其中,该第二降噪参数信息为已存储的降噪参数信息,该第二降噪参数信息是在当前时刻的前一时刻时,在对前一时刻所采集到的第二音频数据进行处理时确定出来的,该第二降噪参数信息的确定过程与步骤304至步骤306中第一降噪参数信息的确定过程同理,此处不再赘述。耳机在基于第二音频数据确定出第二降噪参数信息后,对第二降噪参数信息进行存储,以便在对第一音频数据进行处理时,直接获取到已存储的第二降噪参数信息。
305、耳机基于该第一音频数据,确定参数调整信息。
仍以耳机包括2个麦克风组件,自适应滤波器采用时域的归一化最小均方算法(Normalized Least Mean Square Algorithm,NLMS)为例来对参数调整信息的确定过程进行说明。在一种可能的实现方式中,耳机基于参考麦克风2所采集到的第一音频数据,确定该参数调整信息,该参数调整信息的确定公式参见公式(1)。
306、耳机基于该残差信号、该参数调整信息和该第二降噪参数信息,确定第一降噪参数信息。
在一种可能的实现方式中,耳机通过如下公式(2),来进行第一降噪参数信息的确定,该第一降噪参数信息的确定公式参见公式(2)。
307、耳机根据该第一降噪参数信息,对该第一音频数据进行降噪处理。
需要说明的是,在通过上述步骤306确定出第一降噪参数信息后,根据第一降噪参数信息对自适应滤波器进行更新,使得更新后的自适应滤波器的参数为第一降噪参数信息。
在一种可能的实现方式中,耳机将该第一音频数据输入以该第一降噪参数信息作为参数的自适应滤波器中,通过以该第一降噪参数信息作为参数的自适应滤波器来对第一音频数据进行滤波,实现对第一音频数据的降噪处理。
308、若该人声的声纹特征与目标声纹特征匹配,则耳机获取已存储的第二降噪参数信息。
309、耳机根据该第二降噪参数信息,对该第一音频数据进行降噪处理。
在一种可能的实现方式中,耳机将该第一音频数据输入以该第二降噪参数信息作为参数的自适应滤波器中,通过以该第二降噪参数信息作为参数的自适应滤波器来对第一音频数据进行滤波,实现对第一音频数据的降噪处理。
需要说明的是,耳机在人声的声纹特征与目标声纹特征匹配时,直接通过上述步骤308至步骤309获取未更新的自适应滤波器的第二降噪参数信息,进而基于第二降噪参数信息来对第一音视频数据进行降噪处理,也即是,通过未更新的自适应滤波器来对第一音视频数据进行降噪处理。
310、若该第一音频数据不包括人声,则耳机通过上述步骤304至步骤307,来对该第一音频数据进行降噪处理。
需要说明的是,该步骤310的处理过程参见上述步骤304至步骤307,此处不再赘述。
本申请实施例提供的方案,通过在基于耳机采集到的第一音频数据包括人声时,通过对人声的声纹特征和目标用户预先注册的目标声纹特征进行匹配,以确定第一音频数据所包括的人声是不是由目标用户发出的,在人声的声纹特征和目标声纹特征不匹配时,即可确定人声不是由目标用户发出的,进而根据基于第一音频数据确定出的第一降噪参数信息,来对第一音频数据进行降噪处理,避免非目标用户的人声对降噪过程造成影响,从而提高降噪效果。在获得第一音频数据的声纹特征后,对第一音频数据的声纹特征进行声纹验证,如果确定是目标用户的声纹特征,则自适应滤波器停止更新,通过未更新的自适应滤波器来对第一音频数据进行处理,如果不是目标用户的声纹特征,则自适应滤波器更新参数,通过更新后的自适应滤波器来对第一音频数据进行处理,这样能够有效避免周围语音的干扰,从第一音频数据中,有效去除目标用户以外的用户发出的人声。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图5是本申请实施例提供的一种耳机降噪装置的结构示意图,参见图5,该装置包括:
数据获取模块501,用于获取第一音频数据,该第一音频数据基于耳机采集得到;
提取模块502,用于若该第一音频数据包括人声,则提取该人声的声纹特征;
确定模块503,用于若该人声的声纹特征与目标声纹特征不匹配,则基于该第一音频数据确定第一降噪参数信息,该目标声纹特征为目标用户预先注册的声纹特征;
降噪处理模块504,用于根据该第一降噪参数信息,对该第一音频数据进行降噪处理。
本申请实施例提供的装置,通过在基于耳机采集到的第一音频数据包括人声时,通过对人声的声纹特征和目标用户预先注册的目标声纹特征进行匹配,以确定第一音频数据所包括的人声是不是由目标用户发出的,在人声的声纹特征和目标声纹特征不匹配时,即可确定人声不是由目标用户发出的,进而根据基于第一音频数据确定出的第一降噪参数信息,来对第一音频数据进行降噪处理,避免非目标用户的人声对降噪过程造成影响,从而提高降噪效果。
在一种可能的实现方式中,该提取模块502,用于若该第一音频数据包括人声,则确定该人声的频谱特征;基于该人声的频谱特征,确定该人声的对数谱特征;基于该人声的对数谱特征,确定该人声的声纹特征。
在一种可能的实现方式中,该装置还包括:
检测模块,用于对该第一音频数据进行语音端点检测,该语音端点检测用于确定该第一音频数据是否包括人声。
在一种可能的实现方式中,该确定模块503,用于若该人声的声纹特征与目标声纹特征不匹配,则基于已存储的第二降噪参数信息、该第一音频数据,确定残差信号,该第二降噪参数信息基于第二音频数据确定,该第二音频数据为采集时间在该第一音频数据的采集时间之前,且与该第一音频数据的采集时间的时间间隔最短的音频数据;基于该第一音频数据,确定参数调整信息;基于该残差信号、该参数调整信息和该第二降噪参数信息,确定该第一降噪参数信息。
在一种可能的实现方式中,该确定模块503,还用于若该第一音频数据不包括人声,则执行基于该第一音频数据确定第一降噪参数信息的步骤。
在一种可能的实现方式中,该装置还包括:
信息获取模块,用于若该人声的声纹特征与目标声纹特征匹配,则获取已存储的第二降噪参数信息,该第二降噪参数信息基于第二音频数据确定,该第二音频数据为采集时间在该第一音频数据的采集时间之前,且与该第一音频数据的采集时间的时间间隔最短的音频数据;
该降噪处理模块504,还用于根据该第二降噪参数信息,对该第一音频数据进行降噪处理。
在一种可能的实现方式中,该目标声纹特征的注册过程包括下述至少一项:
若外界环境的分贝值小于第一目标阈值,则获取当前输入的音频数据中人声的声纹特征,作为该目标声纹特征;
若基于获取到的音频数据中的人声确定出的声纹特征相同的次数大于或等于第二目标阈值,则将该声纹特征确定为该目标声纹特征。
需要说明的是:上述实施例提供的耳机降噪装置在对耳机采集到的音频数据进行降噪处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将耳机的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的耳机降噪装置与耳机降噪方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本申请实施例提供的一种耳机的结构示意图,该耳机600可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)601和一个或多个的存储器602,其中,该一个或多个存储器602中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器601加载并执行以实现上述各个方法实施例提供的方法。当然,该耳机600还可以具有有线或无线网络接以及输入输出接口等部件,以便进行输入输出,该耳机600还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括程序代码的存储器,上述程序代码可由处理器执行以完成上述实施例中的耳机降噪方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,耳机的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该耳机执行上述实施例中提供的耳机降噪方法的方法步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来程序代码相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种耳机降噪方法,其特征在于,所述方法包括:
获取第一音频数据,所述第一音频数据基于耳机采集得到;
若所述第一音频数据包括人声,则提取所述人声的声纹特征;
若所述人声的声纹特征与目标声纹特征不匹配,则基于所述第一音频数据确定第一降噪参数信息,所述目标声纹特征为目标用户预先注册的声纹特征;
根据所述第一降噪参数信息,对所述第一音频数据进行降噪处理。
2.根据权利要求1所述的方法,其特征在于,所述若所述第一音频数据包括人声,则提取所述人声的声纹特征包括:
若所述第一音频数据包括人声,则确定所述人声的频谱特征;
基于所述人声的频谱特征,确定所述人声的对数谱特征;
基于所述人声的对数谱特征,确定所述人声的声纹特征。
3.根据权利要求1所述的方法,其特征在于,所述若所述第一音频数据包括人声,则提取所述人声的声纹特征之前,所述方法还包括:
对所述第一音频数据进行语音端点检测,所述语音端点检测用于确定所述第一音频数据是否包括人声。
4.根据权利要求1所述的方法,其特征在于,所述若所述人声的声纹特征与目标声纹特征不匹配,则基于所述第一音频数据确定第一降噪参数信息包括:
若所述人声的声纹特征与目标声纹特征不匹配,则基于已存储的第二降噪参数信息、所述第一音频数据,确定残差信号,所述第二降噪参数信息基于第二音频数据确定,所述第二音频数据为采集时间在所述第一音频数据的采集时间之前,且与所述第一音频数据的采集时间的时间间隔最短的音频数据;
基于所述第一音频数据,确定参数调整信息;
基于所述残差信号、所述参数调整信息和所述第二降噪参数信息,确定所述第一降噪参数信息。
5.根据权利要求1所述的方法,其特征在于,所述获取第一音频数据之后,所述方法还包括:
若所述第一音频数据不包括人声,则执行基于所述第一音频数据确定第一降噪参数信息的步骤。
6.根据权利要求1所述的方法,其特征在于,所述若所述第一音频数据包括人声,则提取所述人声的声纹特征之后,所述方法还包括:
若所述人声的声纹特征与目标声纹特征匹配,则获取已存储的第二降噪参数信息,所述第二降噪参数信息基于第二音频数据确定,所述第二音频数据为采集时间在所述第一音频数据的采集时间之前,且与所述第一音频数据的采集时间的时间间隔最短的音频数据;
根据所述第二降噪参数信息,对所述第一音频数据进行降噪处理。
7.根据权利要求1所述的方法,其特征在于,所述目标声纹特征的注册过程包括下述至少一项:
若外界环境的分贝值小于第一目标阈值,则获取当前输入的音频数据中人声的声纹特征,作为所述目标声纹特征;
若基于获取到的音频数据中的人声确定出的声纹特征相同的次数大于或等于第二目标阈值,则将所述声纹特征确定为所述目标声纹特征。
8.一种耳机降噪装置,其特征在于,所述装置包括:
数据获取模块,用于获取第一音频数据,所述第一音频数据基于耳机采集得到;
提取模块,用于若所述第一音频数据包括人声,则提取所述人声的声纹特征;
确定模块,用于若所述人声的声纹特征与目标声纹特征不匹配,则基于所述第一音频数据确定第一降噪参数信息,所述目标声纹特征为目标用户预先注册的声纹特征;
降噪处理模块,用于根据所述第一降噪参数信息,对所述第一音频数据进行降噪处理。
9.一种耳机,其特征在于,所述耳机包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的耳机降噪方法所执行的操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的耳机降噪方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011307507.3A CN112118511A (zh) | 2020-11-19 | 2020-11-19 | 耳机降噪方法、装置、耳机及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011307507.3A CN112118511A (zh) | 2020-11-19 | 2020-11-19 | 耳机降噪方法、装置、耳机及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112118511A true CN112118511A (zh) | 2020-12-22 |
Family
ID=73794543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011307507.3A Pending CN112118511A (zh) | 2020-11-19 | 2020-11-19 | 耳机降噪方法、装置、耳机及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112118511A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113938785A (zh) * | 2021-11-24 | 2022-01-14 | 英华达(上海)科技有限公司 | 降噪处理方法、装置、设备、耳机及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108206023A (zh) * | 2018-04-10 | 2018-06-26 | 南京地平线机器人技术有限公司 | 声音处理设备和声音处理方法 |
CN110265038A (zh) * | 2019-06-28 | 2019-09-20 | 联想(北京)有限公司 | 一种处理方法及电子设备 |
CN110400567A (zh) * | 2019-07-30 | 2019-11-01 | 深圳秋田微电子股份有限公司 | 注册声纹动态更新方法及计算机存储介质 |
US20200184057A1 (en) * | 2017-05-19 | 2020-06-11 | Plantronics, Inc. | Headset for Acoustic Authentication of a User |
CN111798860A (zh) * | 2020-07-17 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、设备及存储介质 |
-
2020
- 2020-11-19 CN CN202011307507.3A patent/CN112118511A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200184057A1 (en) * | 2017-05-19 | 2020-06-11 | Plantronics, Inc. | Headset for Acoustic Authentication of a User |
CN108206023A (zh) * | 2018-04-10 | 2018-06-26 | 南京地平线机器人技术有限公司 | 声音处理设备和声音处理方法 |
CN110265038A (zh) * | 2019-06-28 | 2019-09-20 | 联想(北京)有限公司 | 一种处理方法及电子设备 |
CN110400567A (zh) * | 2019-07-30 | 2019-11-01 | 深圳秋田微电子股份有限公司 | 注册声纹动态更新方法及计算机存储介质 |
CN111798860A (zh) * | 2020-07-17 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113938785A (zh) * | 2021-11-24 | 2022-01-14 | 英华达(上海)科技有限公司 | 降噪处理方法、装置、设备、耳机及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
Stern et al. | Hearing is believing: Biologically inspired methods for robust automatic speech recognition | |
US9704478B1 (en) | Audio output masking for improved automatic speech recognition | |
TWI397058B (zh) | 音頻訊號之處理裝置及其方法,及電腦可讀取之紀錄媒體 | |
CN108877823B (zh) | 语音增强方法和装置 | |
US20130246059A1 (en) | System and method for producing an audio signal | |
WO2015010129A1 (en) | Speech signal separation and synthesis based on auditory scene analysis and speech modeling | |
CN111833896A (zh) | 融合反馈信号的语音增强方法、系统、装置和存储介质 | |
Maruri et al. | V-Speech: noise-robust speech capturing glasses using vibration sensors | |
CN109361995B (zh) | 一种电器设备的音量调节方法、装置、电器设备和介质 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN109473102A (zh) | 一种机器人秘书智能会议记录方法及系统 | |
CN110992967A (zh) | 一种语音信号处理方法、装置、助听器及存储介质 | |
CN112242149A (zh) | 音频数据的处理方法、装置、耳机及计算机可读存储介质 | |
CN113921026A (zh) | 语音增强方法和装置 | |
WO2017045512A1 (zh) | 一种语音识别的方法、装置、终端及语音识别设备 | |
CN112116909A (zh) | 语音识别方法、装置及系统 | |
CN112118511A (zh) | 耳机降噪方法、装置、耳机及计算机可读存储介质 | |
CN110875037A (zh) | 语音数据处理方法、装置及电子设备 | |
WO2022068440A1 (zh) | 啸叫抑制方法、装置、计算机设备和存储介质 | |
CN110767238B (zh) | 基于地址信息的黑名单识别方法、装置、设备及存储介质 | |
Maganti et al. | A perceptual masking approach for noise robust speech recognition | |
CN113380244A (zh) | 一种设备播放音量的智能调节方法和系统 | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
US20240005937A1 (en) | Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201222 |
|
RJ01 | Rejection of invention patent application after publication |