CN113593612B - 语音信号处理方法、设备、介质及计算机程序产品 - Google Patents

语音信号处理方法、设备、介质及计算机程序产品 Download PDF

Info

Publication number
CN113593612B
CN113593612B CN202110978116.2A CN202110978116A CN113593612B CN 113593612 B CN113593612 B CN 113593612B CN 202110978116 A CN202110978116 A CN 202110978116A CN 113593612 B CN113593612 B CN 113593612B
Authority
CN
China
Prior art keywords
signal
voice
voice signal
processed
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110978116.2A
Other languages
English (en)
Other versions
CN113593612A (zh
Inventor
陈国明
许国军
于洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goertek Techology Co Ltd
Original Assignee
Goertek Techology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Techology Co Ltd filed Critical Goertek Techology Co Ltd
Priority to CN202110978116.2A priority Critical patent/CN113593612B/zh
Publication of CN113593612A publication Critical patent/CN113593612A/zh
Application granted granted Critical
Publication of CN113593612B publication Critical patent/CN113593612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R23/00Transducers other than those covered by groups H04R9/00 - H04R21/00
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种语音信号处理方法、设备、介质及计算机程序产品,所述语音信号处理方法包括:获取待处理语音信号,基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型;基于所述待处理语音信号的信号类型对所述待处理语音信号进行噪声调节处理,得到目标语音信号。本申请通过对获取的待处理语音信号进行语音激活检测,可以准确地确定出待处理语音信号的信号类型,并可以根据信号类型以相应的处理方式对作为纯噪声或含噪语音的待处理语音信号进行噪声调节处理,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。

Description

语音信号处理方法、设备、介质及计算机程序产品
技术领域
本申请涉及通信技术领域,尤其涉及一种语音信号处理方法、设备、介质及计算机程序产品。
背景技术
在人们从外界接收声音时,声音的声波主要通过空气传导的方式传入人们的内耳。但是,由于环境噪声的影响,经过空气传导的声音不可避免地受到噪声的污染,使得人们从外界接收到的声音为含噪语音或音量较大的纯噪音,含噪语音使得人们从外界接收的声音的可懂度较低,而声音较大的纯噪音则可能损害人们的听觉神经,进而造成人们的听觉疲劳。
发明内容
本申请的主要目的在于提供一种语音信号处理方法、设备、介质及计算机程序产品,旨在避免外界噪声造成人们的听觉疲劳的技术问题。
为实现上述目的,本申请实施例提供一种语音信号处理方法,所述语音信号处理方法包括:
获取待处理语音信号,基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型;
基于所述待处理语音信号的信号类型对所述待处理语音信号进行噪声调节处理,得到目标语音信号。
优选地,所述基于所述待处理语音信号的信号类型对所述待处理语音信号进行噪声处理,得到目标语音信号的步骤包括:
若所述待处理语音信号的信号类型为含噪语音,则对所述待处理语音信号进行噪声滤除,并基于噪声滤除后的待处理语音信号生成与输出目标语音信号;
若所述待处理语音信号的信号类型为噪声,则对所述待处理语音信号进行噪声功率谱更新,并基于噪声功率谱更新后的待处理语音信号生成与输出目标语音信号。
优选地,所述基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型的步骤包括:
基于语音激活检测算法对所述待处理语音信号中的骨导信号进行语音激活检测,得到语音激活检测结果;
基于所述语音激活检测结果确定所述待处理语音信号的信号类型。
优选地,所述基于语音激活检测算法对所述待处理语音信号中的骨导信号进行语音激活检测,得到语音激活检测结果的步骤包括:
获取所述骨导信号的过零率、基音周期、频谱能量与谱质心;
对所述过零率、所述基音周期、所述频谱能量与所述谱质心进行融合判决,得到语音激活检测结果。
优选地,所述待处理语音信号包括麦克信号与内耳麦克信号,所述对所述待处理语音信号进行噪声滤除的步骤包括:
基于训练后的噪声滤除网络模型对所述待处理语音信号中的所述麦克信号进行噪声滤除,得到第一语音信号;
对所述待处理语音信号中的所述内耳麦克信号进行噪声滤除,得到第二语音信号;
将所述第一语音信号与所述第二语音信号作为噪声滤除后的待处理语音信号。
优选地,所述对所述待处理语音信号中的所述内耳麦克信号进行噪声滤除,得到第二语音信号的步骤之后,还包括:
识别所述第二语音信号的带宽信息;
将所述带宽信息与预设带宽阈值进行对比;
若所述带宽信息小于所述预设带宽阈值,则基于训练后的带宽扩展网络模型对所述第二语音信号进行带宽扩展,得到带宽扩展后的第二语音信号。
优选地,所述基于噪声滤除后的待处理语音信号生成与输出目标语音信号的步骤包括:
分别对噪声滤除后的待处理语音信号中的所述第一语音信号与所述第二语音信号进行滤波处理,得到第三语音信号与第四语音信号;
对所述第三语音信号与所述第四语音信号进行信号融合,得到第五语音信号;
对所述第五语音信号进行动态范围控制,生成并输出目标语音信号。
进一步地,为实现上述目的,本申请还提供一种语音信号处理设备,所述语音信号处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音信号处理程序,所述语音信号处理程序被所述处理器执行时实现上述的语音信号处理方法的步骤。
进一步地,为实现上述目的,本申请还提供一种介质,所述介质为计算机可读存储介质,其上存储有语音信号处理程序,所述语音信号处理程序被处理器执行时实现上述的语音信号处理方法的步骤。
进一步地,为实现上述目的,本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的语音信号处理方法的步骤。
本申请实施例提供一种语音信号处理方法、设备、介质及计算机程序产品,所述语音信号处理方法包括:获取待处理语音信号,基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型;基于所述待处理语音信号的信号类型对所述待处理语音信号进行噪声调节处理,得到目标语音信号。本申请通过对获取的待处理语音信号进行语音激活检测,可以准确地确定出待处理语音信号的信号类型,并可以根据信号类型以相应的处理方式对作为纯噪声或含噪语音的待处理语音信号进行噪声调节处理,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
附图说明
图1为本申请语音信号处理方法实施例方案涉及的硬件运行环境的结构示意图;
图2为本申请语音信号处理方法第一实施例的流程示意图;
图3为本申请语音信号处理方法第二实施例的第一流程示意图;
图4为本申请语音信号处理方法第二实施例的第二流程示意图;
图5为本申请语音信号处理方法第三实施例的流程示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种语音信号处理方法、设备、介质及计算机程序产品,所述语音信号处理方法包括:获取待处理语音信号,基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型;基于所述待处理语音信号的信号类型对所述待处理语音信号进行噪声调节处理,得到目标语音信号。本申请通过对获取的待处理语音信号进行语音激活检测,可以准确地确定出待处理语音信号的信号类型,并可以根据信号类型以相应的处理方式对作为纯噪声或含噪语音的待处理语音信号进行噪声调节处理,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
如图1所示,图1是本申请实施例方案涉及的硬件运行环境的语音信号处理设备结构示意图。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本申请实施例语音信号处理设备可以是PC,也可以是平板电脑、便携计算机等可移动式终端设备。
如图1所示,该语音信号处理设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的语音信号处理设备结构并不构成对语音信号处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音信号处理程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音信号处理程序,并执行以下操作:
获取待处理语音信号,基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型;
基于所述待处理语音信号的信号类型对所述待处理语音信号进行噪声调节处理,得到目标语音信号。
进一步地,所述基于所述待处理语音信号的信号类型对所述待处理语音信号进行噪声处理,得到目标语音信号的步骤包括:
若所述待处理语音信号的信号类型为含噪语音,则对所述待处理语音信号进行噪声滤除,并基于噪声滤除后的待处理语音信号生成与输出目标语音信号;
若所述待处理语音信号的信号类型为噪声,则对所述待处理语音信号进行噪声功率谱更新,并基于噪声功率谱更新后的待处理语音信号生成与输出目标语音信号。
进一步地,所述基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型的步骤包括:
基于语音激活检测算法对所述待处理语音信号中的骨导信号进行语音激活检测,得到语音激活检测结果;
基于所述语音激活检测结果确定所述待处理语音信号的信号类型。
进一步地,所述基于语音激活检测算法对所述待处理语音信号中的骨导信号进行语音激活检测,得到语音激活检测结果的步骤包括:
获取所述骨导信号的过零率、基音周期、频谱能量与谱质心;
对所述过零率、所述基音周期、所述频谱能量与所述谱质心进行融合判决,得到语音激活检测结果。
进一步地,所述待处理语音信号包括麦克信号与内耳麦克信号,所述对所述待处理语音信号进行噪声滤除的步骤包括:
基于训练后的噪声滤除网络模型对所述待处理语音信号中的所述麦克信号进行噪声滤除,得到第一语音信号;
对所述待处理语音信号中的所述内耳麦克信号进行噪声滤除,得到第二语音信号;
将所述第一语音信号与所述第二语音信号作为噪声滤除后的待处理语音信号。
进一步地,所述对所述待处理语音信号中的所述内耳麦克信号进行噪声滤除,得到第二语音信号的步骤之后,处理器1001可以用于调用存储器1005中存储的语音信号处理程序,并执行以下操作:
识别所述第二语音信号的带宽信息;
将所述带宽信息与预设带宽阈值进行对比;
若所述带宽信息小于所述预设带宽阈值,则基于训练后的带宽扩展网络模型对所述第二语音信号进行带宽扩展,得到带宽扩展后的第二语音信号。
进一步地,所述基于噪声滤除后的待处理语音信号生成与输出目标语音信号的步骤包括:
分别对噪声滤除后的待处理语音信号中的所述第一语音信号与所述第二语音信号进行滤波处理,得到第三语音信号与第四语音信号;
对所述第三语音信号与所述第四语音信号进行信号融合,得到第五语音信号;
对所述第五语音信号进行动态范围控制,生成并输出目标语音信号。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
参照图2,本申请第一实施例提供一种语音信号处理方法的流程示意图。该实施例中,所述语音信号处理方法包括以下步骤:
步骤S10,获取待处理语音信号,基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型;
本实施例中语音信号处理方法可以应用于耳机产品,可提高在环境噪声下的用户体验,本实施例中耳机产品可以优选为TWS(True Wireless Stereo,真正的无线立体声)耳机产品,并且为方便描述,后续将耳机产品简称为耳机。耳机中可以包括骨声纹传感器、麦克风以及内耳麦克风,其中骨声纹传感器用于获取骨导信号,麦克风用于获取麦克信号,麦克信号也可以称为气导信号,内耳麦克风用于获取内耳麦克信号,并由骨导信号、麦克信号与内耳麦克信号形成语音信号。可以理解地,在正常情况下,声波可以通过两条路径传入内耳:空气传导和骨传导,空气传导是我们所熟知的声波经耳廓由外耳道传递到中耳,再经听骨链传到内耳,语音频谱成份比较丰富。由于环境噪声的影响,经过空气传导的语音信号不可避免受到噪声的污染,使得最终接收到的语音中存在噪声,使人们的听觉疲劳程度较高。而骨传导是指声波通过颅骨、颌骨等的振动传到内耳。在骨传导中,声波无需经过外耳和中耳也可以传递到内耳。骨声纹传感器只能采集与骨导麦克风直接接触并产生振动的信号,理论上不能采集通过空气传播的语音信号,不受环境噪声的干扰,非常适用于噪声环境下的语音传输。但是,由于工艺影响,骨声纹传感器只能采集并传送较低频率的语音信号,导致最终的语音听起来比较沉闷。在此基础上,由于内耳麦克风的工作机制类似于骨声纹传感器,它的语谱图在低频段(0~4khz)信号的完整性和保真度要优于一般的振动传感器。为此,本实施例结合骨声纹传感器的低频段不易受噪声影响的优势、内耳麦克风低频段信号完整性和保真度较高、传统麦克风的高频比较丰富的优势;又由于从带噪语音信号中提取有用的语音信号,或者说分离有用语音信号,本质上是一个分类的问题。神经网络模拟人脑识别模型,对解决该问题有一定的优势,尤其是随着深度神经网络的发展,硬件训练条件的完善,为深度学习用于语音增强提供了软硬件条件。因此,本申请提出一种基于骨声纹传感器、内耳麦克风和麦克风且基于深度学习的语音增强方法,即本申请的语音信号处理方法,通过对获取的待处理语音信号进行语音激活检测,可以准确地确定出待处理语音信号的信号类型,并可以根据信号类型以相应的处理方式对作为纯噪声或含噪语音的待处理语音信号进行噪声调节处理,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
具体地,耳机(具体为耳机的控制系统)获取输入的待处理语音信号,本实施例中待处理语音信号可以包括麦克风获取的麦克信号,内耳麦克风获取的内耳麦克信号以及骨声纹传感器获取的骨导信号,其中麦克信号可以为一路也可以为多路,本申请的一实施例中可以两路麦克信号为例。需要说明的是,本实施例中待处理语音信号为逐帧获取的,因此在对待处理语音信号进行噪声调节时也是针对各帧语音信号进行的。在获取到待处理语音信号后,耳机先分别对待处理语音信号中的一路或多路麦克信号、内耳麦克信号、骨导信号进行时频转换,将时域信号转换为频域信号,具体可以为对麦克信号、内耳麦克信号、骨导信号进行FFT(fast Fourier transform)变换(即快速傅立叶变换),以便于后续对待处理语音信号进行回声消除。进一步地,由于在接收外界的语音时可能存在回声,若将回声也一同输出,则会使收听该语音的用户收听到回音,会提高用户的听觉疲劳程度。因此,耳机可以获取远端信号(又称喇叭信号),通过远端信号对获取的待处理语音信号进行回声消除处理,具体原理为通过待处理语音信号减去远端信号的估计值来进行回声消除,以减少回声的干扰,有利于降低用户的听觉疲劳程度。可以理解地,在对获取的待处理语音信号进行回声消除处理后,耳机还可以对待处理语音信号中的麦克信号进行波束形成,以此抑制指向性以外的噪声,有利于避免外界噪声造成人们的听觉疲劳。例如,本实施例中可以对待处理语音信号中的两路麦克信号进行波束形成,以抑制指向性以外的噪声,其中,波束形成是指将一定几何形状(直线、圆柱、弧形等)排列的多元基阵各阵元输出经过处理(例如加权、时延、求和等)形成空间指向性的方法。
进一步地,耳机通过经上述处理后的待处理语音信号中的骨导信号对待处理语音信号进行语音激活检测,即vad(voice activate detection),以此确定待处理语音信号的信号类型为噪声还是含噪语音。具体地,耳机通过获取待处理语音信号中骨导信号的过零率、基音周期、频谱能量、谱质心等特征信息,并通过对骨导信号的过零率、基音周期、频谱能量、谱质心等特征信息进行融合判决,由融合判决的输出结果确定待处理语音信号的信号类型。以便于后续基于待处理语音信号的信号类型对待处理语音信号进行噪声调节处理,得到目标语音信号,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
步骤S20,基于所述待处理语音信号的信号类型对所述待处理语音信号进行噪声调节处理,得到目标语音信号。
在确定出待处理语音信号的信号类型后,耳机基于待处理语音信号的信号类型对待处理语音信号中的麦克信号与内耳麦克信号进行噪声调节处理,得到,目标语音信号。具体地,若待处理语音信号的信号类型为含噪语音,则分别对待处理语音信号中的麦克信号与内耳麦克信号进行噪声滤除,分别得到噪声滤除后的第一语音信号与第二语音信号,并基于得到的第一语音信号与第二语音信号生成与输出目标语音信号,其中第一语音信号为对待处理语音信号中的麦克信号进行噪声滤除得到的语音信号,第二语音信号为对待处理语音信号中的内耳麦克信号进行噪声滤除得到的语音信号。并且,在对待处理语音信号中的麦克信号进行噪声滤除,分别得到噪声滤除后的第一语音信号时,本实施例通过训练后的噪声滤除网络模型对麦克信号进行噪声滤除,得到第一语音信号,其中噪声滤除网络模型的构建与训练过程参见本申请的第二实施例。此外,在对待处理语音信号中的内耳麦克信号进行噪声滤除,分别得到噪声滤除后的第二语音信号后,耳机还需要确定第二语音信号的带宽是否满足预设带宽阈值,若不满足则基于训练后的带宽扩展网络模型对第二语音信号进行带宽扩展,再基于得到的第一语音信号与第二语音信号生成与输出目标语音信号,其中带宽扩展网络模型的构建与训练过程参见本申请的第二实施例。
而若待处理语音信号的信号类型为噪声,则分别对待处理语音信号中的麦克信号与内耳麦克信号进行噪声功率谱更新,得到更新麦克信号与更新内耳麦克信号,并基于更新麦克信号与更新内耳麦克信号生成与输出目标语音信号,其中更新麦克信号为对待处理语音信号中的麦克信号进行噪声功率谱更新得到的语音信号,更新内耳麦克信号为对待处理语音信号中的内耳麦克信号进行噪声功率谱更新得到的语音信号。在确定待处理语音信号的信号类型后,根据信号类型以相应的处理方式对作为纯噪声或含噪语音的待处理语音信号进行噪声调节处理,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
本实施例通过骨声纹传感器对待处理语音信号进行语音激活检测,区分待处理语音信号是含噪语音还是噪声,在噪声段更新麦克风以及内耳麦克风的噪声功率谱估计;在含噪语音段,对待处理语音信号进行降噪处理。对于高频麦克信号使用基于深度学习的语音增强方法,对于低频信号根据实际采集到的信号带宽或者直接采用内耳麦克信号,或者采用基于深度学习的带宽扩展方法。最后将待处理语音信号中的高低频信号融合后输出。相较于传统的麦克风增强算法,本申请可以很好地消除背景噪声。
本实施例提供一种语音信号处理方法、设备、介质及计算机程序产品,所述语音信号处理方法包括:获取待处理语音信号,基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型;基于所述待处理语音信号的信号类型对所述待处理语音信号进行噪声调节处理,得到目标语音信号。本申请通过对获取的待处理语音信号进行语音激活检测,可以准确地确定出待处理语音信号的信号类型,并可以根据信号类型以相应的处理方式对作为纯噪声或含噪语音的待处理语音信号进行噪声调节处理,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
进一步地,参照图3与图4,基于本申请语音信号处理方法的第一实施例,提出本申请语音信号处理方法的第二实施例,在第二实施例中,所述基于所述待处理语音信号的信号类型对所述待处理语音信号进行噪声处理,得到目标语音信号的步骤包括:
步骤A,若所述待处理语音信号的信号类型为含噪语音,则对所述待处理语音信号进行噪声滤除,并基于噪声滤除后的待处理语音信号生成与输出目标语音信号;
在确定待处理语音信号的信号类型后,若待处理语音信号的信号类型为含噪语音,说明当前处理的信号帧为语音帧,耳机一方面通过训练后的噪声滤除网络模型对待处理语音信号中的麦克信号进行噪声滤除,另一方面对待处理语音信号中的内耳麦克信号进行噪声滤除,其中,在对待处理语音信号中的内耳麦克信号进行噪声滤除后,若噪声滤除得到的第二语音信号的带宽信息不满足预设带宽阈值,还需要先对噪声滤除得到的第二语音信号进行带宽扩展。进一步地,耳机对噪声滤除后的麦克信号与内耳麦克信号进行滤波,再对滤波后的麦克信号与内耳麦克信号进行融合,最后对融合得到的语音信号进行适当调节,得到目标语音信号,并将目标语音信号通过语音输出装置如扬声器进行输出。通过进行噪声滤除,可以滤除含噪语音中的噪声以避免噪声的干扰,避免外界噪声造成人们的听觉疲劳。
进一步地,所述对所述待处理语音信号进行噪声滤除的步骤包括:
步骤A11,基于训练后的噪声滤除网络模型对所述待处理语音信号中的所述麦克信号进行噪声滤除,得到第一语音信号;
步骤A12,对所述待处理语音信号中的所述内耳麦克信号进行噪声滤除,得到第二语音信号;
步骤A13,将所述第一语音信号与所述第二语音信号作为噪声滤除后的待处理语音信号。
可以理解地,本实施例中耳机首先基于深度神经网络中的基于全连接的长短期记忆网络或门控循环单元网络搭建初始的噪声滤除网络模型,选择Tanh或RELU作为激活函数,其中全连接即网络中所有节点与输入的所有维数的数据均有连接,与长短期记忆网络相比,门控循环单元网络内部少了一个门,参数比长短期记忆网络少,但也能够接近或达到与长短期记忆网络相当的性能。考虑到硬件的计算能力和训练网络的时间成本,因而在一些场合也会选择实用的门控循环单元网络。进一步地,耳机获取用于对初始网络模型进行训练的训练数据集,本实施例中可以获取实际录取噪声信号n和麦克信号s,求取噪声信号n和麦克信号s的混合信号s_mix,分别对噪声信号n、麦克信号s和混合信号s_mix做时频变换(如FFT),得到频域信号N(k)、S(k)和S_mix(k),通过特征提取模块分别计算频域信号N(k)、S(k)和S_mix(k)的信号特征;同时,耳机还可以将麦克信号与混合信号在频域上划分为子带(如18个子带),子带划分的方式可以采用mel频率的划分方式,也可以采用bark子带的划分方式。进一步地,耳机通过预设的第一语音信号能量公式和第一混合信号能量公式,分别计算麦克信号与混合信号各个子带上的语音信号能量和混合信号能量。其中,预设的第一语音信号能量公式如下公式(1)所示:
其中,Es(b)为麦克信号第b个子带上的语音信号能量,S(k)为麦克信号s的频域信号,b为子带序号,b=0,1,2,...,n。
预设的第一混合信号能量公式如下公式(2)所示:
其中,Es_mix(b)为混合信号第b个子带上的语音信号能量,S_mix(k)为混合信号s_mix的频域信号,b为子带序号,b=0,1,2,...,n。
进一步地,耳机根据麦克信号与混合信号各个子带上的语音信号能量和混合信号能量,计算子带增益,其中子带增益的第一计算公式如下公式(3)所示:
其中,g(b)为第b个子带的子带增益,Es(b)为麦克信号第b个子带上的语音信号能量,Es_mix(b)为混合信号第b个子带上的语音信号能量,b为子带序号,b=0,1,2,...,n。
进一步地,耳机将获取的信号特征与子带增益作为训练数据集对初始的噪声滤除网络模型进行训练,具体可以按照一定的比例,例如训练集:测试集:验证集=8:1:1的比例,将训练数据集划分为训练集、测试集与验证集。通过训练集对初始的噪声滤除网络模型进行训练,通过测试集对训练后的噪声滤除网络模型进行测试,通过验证集对测试得到的噪声滤除网络模型进行验证。具体地,将训练数据集中的信号特征作为输入信号,将子带增益作为输出信号,不断训练和调整噪声滤除网络模型中的权重系数、偏置,使每次输出的预测增益不断接近真实增益值。当预测增益和真是增益值的误差小于某个事先确定的值后,就认为网络训练成功,此时的网络参数就是实际应用时采用的参数,得到训练后的噪声滤除网络模型,实际上该过程可以使用诸如tensorflow、keras、Mxnet等框架编程完成。
在完成噪声滤除网络模型的训练后,若确定待处理语音信号的信号类型为含噪语音,耳机将进行波束形成后的麦克信号输入至训练后的噪声滤除网络模型中,通过训练后的噪声滤除网络模型根据输入的麦克信号预测出该信号对应的增益,再将增益与输入的麦克信号进行乘积运算,得到的运算结果即为进行噪声滤除后的第一语音信号。
同时,耳机可以通过预设的噪声消除方式对待处理语音信号中的内耳麦克信号进行噪声滤除,得到第二语音信号,具体地,预设的噪声消除方式如下公式(4)所示:
其中,表示经过增强后的频谱信号,Ht(k)是增益函数,过减因子λ是一常数,通常取0.9,γt(k)是后验信噪比,γt(k)如下公式(5)所示:
其中,Pn(k,t)可以为内耳麦克风接收到的作为噪声信号的内耳麦克信号,Yt(k)为频域的内耳麦克信号。
进一步地,耳机将第一语音信号与第二语音信号作为噪声滤除后的待处理语音信号,以基于噪声滤除后的待处理语音信号生成与输出目标语音信号,将目标语音信号通过语音输出装置如扬声器进行输出。通过进行噪声滤除,可以滤除含噪语音中的噪声以避免噪声的干扰,避免外界噪声造成人们的听觉疲劳。
进一步地,所述对所述待处理语音信号中的所述内耳麦克信号进行噪声滤除,得到第二语音信号的步骤之后,还包括:
步骤A101,识别所述第二语音信号的带宽信息;
步骤A102,将所述带宽信息与预设带宽阈值进行对比;
步骤A103,若所述带宽信息小于所述预设带宽阈值,则基于训练后的带宽扩展网络模型对所述第二语音信号进行带宽扩展,得到带宽扩展后的第二语音信号。
可以理解地,本实施例中耳机首先基于深度神经网络中的基于全连接的长短期记忆网络或门控循环单元网络搭建初始的带宽扩展网络模型,选择Tanh或RELU作为激活函数。进一步地,耳机获取用于对初始的带宽扩展网络模型进行训练的训练数据集,本实施例中可以获取实际录取降噪后残留的内耳麦克噪声信号ng和内耳麦克语音信号sg,求取内耳麦克噪声信号ng和内耳麦克语音信号sg的混合信号sg_mix,分别对内耳麦克噪声信号ng、内耳麦克语音信号sg与混合信号sg_mix做时频变换(如FFT),得到频域信号Ng(k)、Sg(k)和Sg_mix(k)。通过特征提取模块分别计算频域信号Ng(k)、Sg(k)和Sg_mix(k)的信号特征。同时,耳机还可以将内耳麦克语音信号与混合信号在频域上划分为子带(如5个子带),子带划分的方式可以采用mel频率的划分方式,也可以采用bark子带的划分方式。进一步地,耳机通过预设的第二语音信号能量公式和第二混合信号能量公式,分别计算内耳麦克语音信号与混合信号各个子带上的语音信号能量和混合信号能量。其中,预设的第二语音信号能量公式如下公式(6)所示:
其中,Esg(b)为内耳麦克语音信号第b个子带上的语音信号能量,Sg(k)为内耳麦克语音信号sg的频域信号,b为子带序号,b=0,1,2,...,n。
预设的第二混合信号能量公式如下公式(7)所示:
其中,Esg_mix(b)为混合信号第b个子带上的语音信号能量,Sg_mx(k)为混合信号sg_mix的频域信号,b为子带序号,b=0,1,2,...,n。
进一步地,耳机根据内耳麦克语音信号与混合信号各个子带上的语音信号能量和混合信号能量,计算子带增益,其中子带增益的第二计算公式如下公式(8)所示:
其中,g(b)为第b个子带的子带增益,Esg(b)为内耳麦克语音信号第b个子带上的语音信号能量,Esg_mix(b)为混合信号第b个子带上的语音信号能量,b为子带序号,b=0,1,2,...,n。
进一步地,耳机将获取的信号特征与子带增益作为训练数据集对初始的带宽扩展网络模型进行训练,具体可以按照一定的比例,例如训练集:测试集:验证集=8:1:1的比例,将训练数据集划分为训练集、测试集与验证集。通过训练集对初始的带宽扩展网络模型进行训练,通过测试集对训练的带宽扩展网络模型进行测试,通过验证集对测试得到的带宽扩展网络模型进行验证。具体地,将训练数据集中的信号特征作为输入信号,将子带增益作为输出信号,不断训练和调整初始网络模型中的权重系数、偏置,使每次输出的预测增益不断接近真实增益值。当预测增益和真是增益值的误差小于某个事先确定的值后,就认为网络训练成功,此时的网络参数就是实际应用时采用的参数,得到训练后的带宽扩展网络模型,实际上该过程可以使用诸如tensorflow、keras、Mxnet等框架编程完成。可以理解地,本实施例中麦克风条件下噪声消除的网络训练和内耳麦克风条件下带宽扩展的网络训练的区别在于:麦克信号的噪声消除相对于内耳麦克信号的带宽扩展,噪声的种类更为多样化;内耳麦克信号的带宽扩展的训练子带要远小于麦克信号的噪声消除。另外需要说明的是,子带划分不是必须的,特殊的情况下做128点FFT时,将每个频点都作为一个子带,则可以将信号划分为128个子带。
在对待处理语音信号中的内耳麦克信号进行噪声滤除,得到第二语音信号之后,以及对第二语音信号进行滤波之前,耳机还需要确定第二语音信号的带宽是否满足预设带宽阈值,以此确保语音信号的传输速度,其中预设带宽阈值为根据实际环境需求设定的带宽值。具体地,耳机对进行噪声滤除得到的第二语音信号进行信息识别,识别出第二语音信号的带宽信息。并进一步将识别得到的带宽信息与预设带宽阈值进行对比,具体可以为将带宽信息与预设带宽阈值的数值大小进行比较,确定带宽信息与预设带宽阈值之间的大小关系。进一步地,若经对比确定带宽信息大于或等于预设带宽阈值,则确定第二语音信号的带宽满足预设带宽阈值所对应的带宽传输条件,则可以对第二语音信号进行滤波以最终输出目标语音信号。而若确定带宽信息小于预设带宽阈值,则确定第二语音信号的带宽不满足预设带宽阈值所对应的带宽传输条件,耳机则将第二语音信号输入至训练后的带宽扩展网络模型,通过训练后的带宽扩展网络模型,根据输入的第二语音信号预测出该信号对应的增益,再将增益与输入的第二语音信号进行乘积运算,得到的运算结果即为进行带宽扩展后的第二语音信号。通过训练后的带宽扩展网络模型精确地对第二语音信号进行带宽扩展,使得带宽扩展后的第二语音信号可以满足带宽传输条件,可以确保语音信号的传输速度,提高用户的收听体验。
进一步地,所述基于噪声滤除后的待处理语音信号生成与输出目标语音信号的步骤包括:
步骤A21,分别对噪声滤除后的待处理语音信号中的所述第一语音信号与所述第二语音信号进行滤波处理,得到第三语音信号与第四语音信号;
步骤A22,对所述第三语音信号与所述第四语音信号进行信号融合,得到第五语音信号;
步骤A23,对所述第五语音信号进行动态范围控制,生成并输出目标语音信号。
在对待处理语音信号进行噪声滤除后,耳机对噪声滤除后的麦克信号与内耳麦克信号分别进行傅里叶反变换,将时域的信号转换为频域信号。进一步地,耳机对噪声滤除并转换为时域的麦克信号进行高通滤波得到第三语音信号,以及对噪声滤除并转换为时域的内耳麦克信号进行低通滤波得到第四语音信号,具体地,本实施例中可以通过高、低通滤波器分别对噪声滤除并转换为时域的麦克信号进行高通滤波,以及对噪声滤除并转换为频域的内耳麦克信号进行低通滤波,其中,本实施例中高、低通滤波器采用5个biquad(双二阶滤波器)串联而成,串联系数可以通过matlab生成,双二阶滤波器(biquad)是最常用的滤波器之一,双二阶滤波器是双二阶(两个极点和两个零点)的IIR滤波器(即递归滤波器)。进一步地,系统对滤波得到的第三语音信号与第四语音信号进行信号融合,具体地,分别获取第三语音信号的输出系数以及第四语音信号的输出系数,再分别计算第三语音信号与其输出系数的乘积,以及第四语音信号与其输出系数的乘积,最后将两乘积进行加和得到融合后的第五语音信号。进一步地,耳机将第五语音信号分别与最低输出信号阈值及最高输出信号阈值进行比较,若第五语音信号小于最低输出信号阈值,则对第五语音信号按照相关系数进行放大后作为目标语音信号进行输出;若第五语音信号大于最高输出信号阈值,则对第五语音信号按照相关系数进行缩小后作为目标语音信号进行输出,以避免目标语音信号的信号频率过高而影响用户的体验。
步骤B,若所述待处理语音信号的信号类型为噪声,则对所述待处理语音信号进行噪声功率谱更新,并基于噪声功率谱更新后的待处理语音信号生成与输出目标语音信号。
在确定待处理语音信号的信号类型后,若待处理语音信号的信号类型为噪声,说明当前处理的信号帧为纯噪声帧,耳机则通过预设的噪声功率谱更新公式分别对待处理语音信号中的麦克信号与内耳麦克信号进行噪声功率谱更新,得到更新后的麦克信号与内耳麦克信号的频谱信号作为噪声功率谱更新后的待处理语音信号,实现对于作为噪声的待处理语音信号的噪声调节,本实施例中对于噪声的调节处理为噪声缩小处理,即将噪声减小以避免噪声过大而损害用户的听觉神经或影响用户的听觉体验,其中,预设的噪声功率谱更新公式如下公式(9)所示:
Pn1(k,t)=β*Pn1(k,t-1)+(1-β)*|Y1(K,t)|2 (9)
其中,Pn1(k,t)可以为麦克风或内耳麦克风接收到的作为噪声信号的麦克信号或内耳麦克信号,下标t表示第t帧,k是频域序号,β为迭代因子,通常取0.9。
进一步地,耳机对功率谱更新后的麦克信号与内耳麦克信号进行融合,具体为获取功率谱更新后麦克信号与内耳麦克信号的融合系数,再将功率谱更新后麦克信号与其对应的融合系数相乘,以及将功率谱更新后内耳麦克信号与其对应的融合系数相乘,最后将两个相乘的结果进行加和运算,得到目标语音信号,并将目标语音信号通过语音输出装置如扬声器进行输出。通过进行噪声功率谱更新,可以降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
本实施例可以根据信号类型以相应的处理方式对作为纯噪声或含噪语音的待处理语音信号进行噪声调节处理,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
进一步地,参照图5,基于本申请语音信号处理方法的第一实施例,提出本申请语音信号处理方法的第三实施例,在第三实施例中,所述基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型的步骤包括:
步骤S11,基于语音激活检测算法对所述待处理语音信号中的骨导信号进行语音激活检测,得到语音激活检测结果;
步骤S12,基于所述语音激活检测结果确定所述待处理语音信号的信号类型。
在获取到包括麦克信号、内耳麦克信号与骨导信号的待处理语音信号后,耳机通过获取输入的待处理语音信号中骨导信号的过零率、基音周期、频谱能量、谱质心等特征信息,通过骨导信号的过零率、基音周期、频谱能量、谱质心等特征信息对待处理语音信号进行语音激活检测,具体为通过对骨导信号的过零率、基音周期、频谱能量、谱质心等特征信息进行融合判决,根据判决结果得到待处理语音信号的语音激活检测结果,本实施例中语音激活检测结果包括作为标志位的0和1,根据语音激活检测结果中的标志位,可以确定出待处理语音信号的信号类型,本申请中若标志位为0,则判定待处理语音信号的信号类型为噪声,若标志位为1,则判定待处理语音信号的信号类型为含噪语音。但是,本申请也可以根据实际需求,设定若标志位为0,则判定待处理语音信号的信号类型为含噪语音,若标志位为1,则判定待处理语音信号的信号类型为噪声。以便于后续基于待处理语音信号的信号类型对待处理语音信号进行噪声调节处理,得到目标语音信号,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
进一步地,所述基于语音激活检测算法对所述待处理语音信号中的骨导信号进行语音激活检测,得到语音激活检测结果的步骤包括:
步骤S111,获取所述骨导信号的过零率、基音周期、频谱能量与谱质心;
在基于语音激活检测算法对待处理语音信号中的骨导信号进行语音激活检测,得到语音激活检测结果的步骤中,耳机通过预设的过零率计算公式与预设的基音周期提取公式分别计算出时频的骨导信号的过零率与基音周期,若当前骨导信号为频域,则需先进行IFFT将其转换为时域,其中预设的过零率计算公式如下公式(10)所示:
ZCR=Zn/(m2-m1+1) (10)
其中,ZCR为骨导信号的过零率,m1、m2表示骨导信号的时域点序号,Zn如公式(11)所示:
其中,sgn为符号函数,m1、m2表示骨导信号的时域点序号,n小于或等于N,N为时域骨导信号x(n)的长度,w(n)与sgn[x(n)]分别如下公式(12)与公式(13)所示:
进一步地,预设的基音周期提取公式如下公式(14)所示:
Pitch=max{Rm} (14)
其中,Pitch为骨导信号的基音周期,max为选取最大值,Rm如下公式(15)所示:
其中,m1、m2表示时域点序号,n、m为时间变量,x(n)为骨导信号。
进一步地,耳机通过预设的频谱能量计算公式计算频域的骨导信号的能量频谱,若当前骨导信号为时域则需转换为频域,具体为通过对骨导信号进行FFT变换来对骨导信号进行时频转换,将时域的骨导信号转换为频域的骨导信号,例如本实施例经过FFT计算后将8khz带宽的骨导信号分为128个子带,取低24子带能量。其中预设的频谱能量计算公式如下公式(16)所示:
其中,Eg为骨导信号的能量频谱,Y(K)为频域的骨导信号,log为求对数。
进一步地,耳机通过预设的谱质心计算公式计算频域的骨导信号的谱质心,预设的谱质心计算公式如下公式(17)所示:
其中,brightness为骨导信号的谱质心,N表示频率点数,实施例中N=128,f(k)表示该点的频率,E(k)表示频谱能量,其中E(k)如下公式(18)所示:
E(k)=|Y(K)|2 (18)
经过上述计算得到骨导信号的过零率、基音周期、频谱能量、谱质心等特征信息。
步骤S112,对所述过零率、所述基音周期、所述频谱能量与所述谱质心进行融合判决,得到语音激活检测结果。
在计算得到骨导信号的过零率、基音周期、频谱能量、谱质心等特征信息后,耳机先将骨导信号的频谱能量与第一预设阈值进行比较,确定骨导信号的频谱能量与第一预设阈值的大小关系,若骨导信号的频谱能量小于第一预设阈值,则输出标志位Vad=0作为语音激活检测结果。若骨导信号的频谱能量大于或等于第一预设阈值,则将骨导信号的过零率与第二预设阈值进行比较,确定骨导信号的过零率与第二预设阈值之间的大小关系,若过零率大于第二预设阈值,则输出标志位Vad=0作为语音激活检测结果;若过零率小于或等于第二预设阈值,则将骨导信号的基音周期分别与第三预设阈值、第四预设阈值进行比较,确定基音周期分别与第三预设阈值、第四预设阈值的大小关系,若基音周期大于第三预设阈值或小于第四预设阈值,则输出标志位Vad=0作为语音激活检测结果;若基音周期处于第三预设阈值与第四预设阈值之间,则将骨导信号的谱质心与第五预设阈值进行比较,确定谱质心与第五预设阈值之间的大小关系,若谱质心大于第五预设阈值,则输出标志位Vad=0作为语音激活检测结果;若谱质心小于或等于第五预设阈值,则输出标志位Vad=1作为语音激活检测结果,其中,第一预设阈值、第二预设阈值、第三预设阈值、第四预设阈值、第五预设阈值均为根据实际需求设置的数值,本实施例中第一预设阈值可以优选为-9,第二预设阈值可以优选为0.6,第三预设阈值可以优选为143,第四预设阈值可以优选为8,第五预设阈值可以优选为3。以基于语音激活检测结果确定待处理语音信号的信号类型,并根据信号类型以相应的处理方式对作为纯噪声或含噪语音的待处理语音信号进行噪声调节处理,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
本实施例基于语音激活检测算法对待处理语音信号中的骨导信号进行语音激活检测,得到语音激活检测结果,并基于语音激活检测结果确定待处理语音信号的信号类型。便于根据信号类型以相应的处理方式对作为纯噪声或含噪语音的待处理语音信号进行噪声调节处理,实现根据信号类型滤除含噪语音中的噪声以避免噪声的干扰,或降低纯噪音的音量,避免外界噪声造成人们的听觉疲劳。
此外,本申请还提供一种介质,所述介质优选为计算机可读存储介质,其上存储有语音信号处理程序,所述语音信号处理程序被处理器执行时实现上述语音信号处理方法各实施例的步骤。
此外,本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述语音信号处理方法各实施例的步骤。
在本申请语音信号处理设备、计算机可读介质和计算机程序产品的实施例中,包含了上述语音信号处理方法各实施例的全部技术特征,说明和解释内容与上述语音信号处理方法各实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是固定终端,如物联网智能设备,包括智能空调、智能电灯、智能电源、智能路由器等智能家居;也可以是移动终端,包括智能手机、可穿戴的联网AR/VR装置、智能音箱、自动驾驶汽车等诸多联网设备)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (8)

1.一种语音信号处理方法,其特征在于,所述语音信号处理方法包括:
获取待处理语音信号,基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型,其中,所述待处理语音信号还包括麦克信号与内耳麦克信号;
若所述待处理语音信号的信号类型为含噪语音,则对所述待处理语音信号进行噪声滤除,并基于噪声滤除后的待处理语音信号生成与输出目标语音信号;
若所述待处理语音信号的信号类型为噪声,则分别对所述待处理语音信号中的麦克信号和内耳麦克信号进行噪声功率谱更新,得到更新麦克信号和更新内耳麦克信号,并基于所述更新麦克信号和所述更新内耳麦克信号生成与输出目标语音信号;
所述对所述待处理语音信号进行噪声滤除的步骤包括:
基于训练后的噪声滤除网络模型对所述待处理语音信号中的所述麦克信号进行噪声滤除,得到第一语音信号;
对所述待处理语音信号中的所述内耳麦克信号进行噪声滤除,得到第二语音信号;
将所述第一语音信号与所述第二语音信号作为噪声滤除后的待处理语音信号。
2.如权利要求1所述的语音信号处理方法,其特征在于,所述基于所述待处理语音信号中的骨导信号对所述待处理语音信号进行语音激活检测,以确定所述待处理语音信号的信号类型的步骤包括:
基于语音激活检测算法对所述待处理语音信号中的骨导信号进行语音激活检测,得到语音激活检测结果;
基于所述语音激活检测结果确定所述待处理语音信号的信号类型。
3.如权利要求2所述的语音信号处理方法,其特征在于,所述基于语音激活检测算法对所述待处理语音信号中的骨导信号进行语音激活检测,得到语音激活检测结果的步骤包括:
获取所述骨导信号的过零率、基音周期、频谱能量与谱质心;
对所述过零率、所述基音周期、所述频谱能量与所述谱质心进行融合判决,得到语音激活检测结果。
4.如权利要求1所述的语音信号处理方法,其特征在于,所述对所述待处理语音信号中的所述内耳麦克信号进行噪声滤除,得到第二语音信号的步骤之后,还包括:
识别所述第二语音信号的带宽信息;
将所述带宽信息与预设带宽阈值进行对比;
若所述带宽信息小于所述预设带宽阈值,则基于训练后的带宽扩展网络模型对所述第二语音信号进行带宽扩展,得到带宽扩展后的第二语音信号。
5.如权利要求1所述的语音信号处理方法,其特征在于,所述基于噪声滤除后的待处理语音信号生成与输出目标语音信号的步骤包括:
分别对噪声滤除后的待处理语音信号中的所述第一语音信号与所述第二语音信号进行滤波处理,得到第三语音信号与第四语音信号;
对所述第三语音信号与所述第四语音信号进行信号融合,得到第五语音信号;
对所述第五语音信号进行动态范围控制,生成并输出目标语音信号。
6.一种语音信号处理设备,其特征在于,所述语音信号处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音信号处理程序,所述语音信号处理程序被所述处理器执行时实现如权利要求1-5中任一项所述的语音信号处理方法的步骤。
7.一种介质,所述介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音信号处理程序,所述语音信号处理程序被处理器执行时实现如权利要求1-5中任一项所述的语音信号处理方法的步骤。
8.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的语音信号处理方法的步骤。
CN202110978116.2A 2021-08-24 2021-08-24 语音信号处理方法、设备、介质及计算机程序产品 Active CN113593612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110978116.2A CN113593612B (zh) 2021-08-24 2021-08-24 语音信号处理方法、设备、介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110978116.2A CN113593612B (zh) 2021-08-24 2021-08-24 语音信号处理方法、设备、介质及计算机程序产品

Publications (2)

Publication Number Publication Date
CN113593612A CN113593612A (zh) 2021-11-02
CN113593612B true CN113593612B (zh) 2024-06-04

Family

ID=78239496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110978116.2A Active CN113593612B (zh) 2021-08-24 2021-08-24 语音信号处理方法、设备、介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN113593612B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822573A (zh) * 2022-04-28 2022-07-29 歌尔股份有限公司 语音增强方法、装置、耳机设备以及计算机可读存储介质
CN114582365B (zh) * 2022-05-05 2022-09-06 阿里巴巴(中国)有限公司 音频处理方法和装置、存储介质和电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742371A (zh) * 2008-11-12 2010-06-16 潍坊歌尔电子有限公司 一种抑制风噪声的麦克风
WO2012069020A1 (zh) * 2010-11-25 2012-05-31 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
EP3057340A1 (en) * 2015-02-13 2016-08-17 Oticon A/s A partner microphone unit and a hearing system comprising a partner microphone unit
CA3074050A1 (en) * 2016-05-06 2017-11-09 Eers Global Technologies Inc. Device and method for improving the quality of in-ear microphone signals in noisy environments
CN109920451A (zh) * 2019-03-18 2019-06-21 恒玄科技(上海)有限公司 语音活动检测方法、噪声抑制方法和噪声抑制系统
CN110121129A (zh) * 2019-06-20 2019-08-13 歌尔股份有限公司 耳机的麦克风阵列降噪方法、装置、耳机及tws耳机
KR20190101325A (ko) * 2019-08-12 2019-08-30 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
CN112017696A (zh) * 2020-09-10 2020-12-01 歌尔科技有限公司 耳机的语音活动检测方法、耳机及存储介质
CN112116918A (zh) * 2020-09-27 2020-12-22 北京声加科技有限公司 语音信号增强处理方法和耳机
CN112767963A (zh) * 2021-01-28 2021-05-07 歌尔科技有限公司 一种语音增强方法、装置、系统及计算机可读存储介质
CN113259799A (zh) * 2021-04-23 2021-08-13 深圳市豪恩声学股份有限公司 闭塞效应优化方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742371A (zh) * 2008-11-12 2010-06-16 潍坊歌尔电子有限公司 一种抑制风噪声的麦克风
WO2012069020A1 (zh) * 2010-11-25 2012-05-31 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
EP3057340A1 (en) * 2015-02-13 2016-08-17 Oticon A/s A partner microphone unit and a hearing system comprising a partner microphone unit
CA3074050A1 (en) * 2016-05-06 2017-11-09 Eers Global Technologies Inc. Device and method for improving the quality of in-ear microphone signals in noisy environments
CN109920451A (zh) * 2019-03-18 2019-06-21 恒玄科技(上海)有限公司 语音活动检测方法、噪声抑制方法和噪声抑制系统
CN110121129A (zh) * 2019-06-20 2019-08-13 歌尔股份有限公司 耳机的麦克风阵列降噪方法、装置、耳机及tws耳机
KR20190101325A (ko) * 2019-08-12 2019-08-30 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
CN112017696A (zh) * 2020-09-10 2020-12-01 歌尔科技有限公司 耳机的语音活动检测方法、耳机及存储介质
CN112116918A (zh) * 2020-09-27 2020-12-22 北京声加科技有限公司 语音信号增强处理方法和耳机
CN112767963A (zh) * 2021-01-28 2021-05-07 歌尔科技有限公司 一种语音增强方法、装置、系统及计算机可读存储介质
CN113259799A (zh) * 2021-04-23 2021-08-13 深圳市豪恩声学股份有限公司 闭塞效应优化方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
机场强噪声环境下的语音通讯降噪技术研究;解传军;《数字技术与应用》;20130531(第5期);第75页 *

Also Published As

Publication number Publication date
CN113593612A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN112767963B (zh) 一种语音增强方法、装置、系统及计算机可读存储介质
CN112017696B (zh) 耳机的语音活动检测方法、耳机及存储介质
Wu et al. A two-stage algorithm for one-microphone reverberant speech enhancement
US9064502B2 (en) Speech intelligibility predictor and applications thereof
EP2643834B1 (en) Device and method for producing an audio signal
CN112424863B (zh) 语音感知音频系统及方法
CN111833896A (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
CN113593612B (zh) 语音信号处理方法、设备、介质及计算机程序产品
TW201030733A (en) Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
CN112087701B (zh) 用于风检测的麦克风的扬声器仿真
US11832072B2 (en) Audio processing using distributed machine learning model
CN110970010A (zh) 噪音消除方法、装置、存储介质及设备
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
CN110992967A (zh) 一种语音信号处理方法、装置、助听器及存储介质
Westhausen et al. Low bit rate binaural link for improved ultra low-latency low-complexity multichannel speech enhancement in Hearing Aids
CN116980804B (zh) 音量调整方法、装置、设备及可读存储介质
JP2007251354A (ja) マイクロホン、音声生成方法
CN114822573A (zh) 语音增强方法、装置、耳机设备以及计算机可读存储介质
CN112954570B (zh) 融合边缘计算与云计算的助听方法、装置、设备及介质
CN116343756A (zh) 人声透传方法、装置、耳机、存储介质及程序产品
CN113838471A (zh) 基于神经网络的降噪方法、系统、电子设备及存储介质
EP3837621B1 (en) Dual-microphone methods for reverberation mitigation
US11330376B1 (en) Hearing device with multiple delay paths
US20240089683A1 (en) Method and system for generating a personalized free field audio signal transfer function based on near-field audio signal transfer function data
EP4258263A1 (en) Apparatus and method for noise suppression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant