CN105280195A - 语音信号的处理方法及装置 - Google Patents

语音信号的处理方法及装置 Download PDF

Info

Publication number
CN105280195A
CN105280195A CN201510741057.1A CN201510741057A CN105280195A CN 105280195 A CN105280195 A CN 105280195A CN 201510741057 A CN201510741057 A CN 201510741057A CN 105280195 A CN105280195 A CN 105280195A
Authority
CN
China
Prior art keywords
signal
power spectrum
audio signals
recorded audio
broadcast signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510741057.1A
Other languages
English (en)
Other versions
CN105280195B (zh
Inventor
袁豪磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510741057.1A priority Critical patent/CN105280195B/zh
Publication of CN105280195A publication Critical patent/CN105280195A/zh
Priority to MYPI2017703990A priority patent/MY179978A/en
Priority to KR1020177029724A priority patent/KR101981879B1/ko
Priority to EP16861250.5A priority patent/EP3373300B1/en
Priority to JP2017553962A priority patent/JP6505252B2/ja
Priority to PCT/CN2016/083622 priority patent/WO2017075979A1/zh
Priority to US15/691,300 priority patent/US10586551B2/en
Application granted granted Critical
Publication of CN105280195B publication Critical patent/CN105280195B/zh
Priority to US16/774,854 priority patent/US10924614B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Abstract

本发明公开了一种语音信号的处理方法及装置,属于终端技术领域。所述方法包括:从近端采集录音信号并接收对端发送的播音信号,录音信号中至少包括噪声信号及回声信号;根据录音信号和播音信号,计算环路传递函数;计算录音信号的功率谱;根据录音信号的功率谱、播音信号及环路传递函数,计算回声信号的功率谱和噪声信号的功率谱;根据回声信号的功率谱和噪声信号的功率谱,计算频率加重系数;基于频率加重系数,对播音信号的频点幅值进行调节;输出调节后的播音信号。本发明在确保扬声器不过载,且不破坏原始播音信号的动态幅度的前提下,自动根据噪声信号与播音信号的频率分布,调整播音信号的频点幅值,明显提高了语音可懂度。

Description

语音信号的处理方法及装置
技术领域
本发明涉及终端技术领域,特别涉及一种语音信号的处理方法及装置。
背景技术
语音可懂度是指用户听懂声音系统所传递的语音信号的百分比,例如,如果用户听到声音系统传递了100个单词,但仅听懂了50个单词,则用户的语音可懂度为50%。随着便携式移动终端的外形尺寸逐渐向小型化方向发展,移动终端所能输出的最大声音功率逐渐减小,相应地用户使用移动终端进行通信时的语音可懂度也受到了影响。由于语音可懂度是衡量移动终端性能的一项重要指标,因此,移动终端如何处理语音信号,以改善语音可懂度,成为其发展的关键。
目前,在由移动终端、用户、噪声源所构成的典型声学应用场景下,现有技术采用自动增益控制算法检测待播放的播音信号,并对待播放的播音信号中的小信号进行放大,将放大后的播音信号转化为电信号,并将电信号传送到扬声器。通过上述放大处理,使得送到扬声器的电信号达到扬声器所允许的最大值,扬声器工作在最大输出功率的状态下,此时扬声器以最大的输出声压级输出语音信号。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
由于通常播音信号的平均波动幅度远小于峰值波动幅度,对于一个最大额定输出功率为1瓦的扬声器来说,在正常语音信号的激励下,它正常工作时的平均输出功率一般仅达到最大额定输出功率的10%左右(也就是0.1W)。在正常工作状态下,如果继续加大输入到扬声器的电信号幅度,则播音信号中幅度较大的信号部分将导致扬声器过载,形成饱和失真,反而降低了语音可懂度与清晰度;另外,如果仅对播音信号中的小信号作放大处理,则将缩小播音信号的有效动态范围,对应的语音可懂度同样也得不到明显提高。
发明内容
为了解决相关技术的问题,本发明实施例提供了一种语音信号的处理方法及装置。所述技术方案如下:
一方面,提供了一种语音信号的处理方法,所述方法包括:
从近端采集录音信号并接收对端发送的播音信号,所述录音信号中至少包括噪声信号及回声信号;
根据所述录音信号和所述播音信号,计算环路传递函数;
计算所述录音信号的功率谱;
根据所述录音信号的功率谱、所述播音信号及所述环路传递函数,计算所述回声信号的功率谱和所述噪声信号的功率谱;
根据所述回声信号的功率谱和所述噪声信号的功率谱,计算频率加重系数;
基于所述频率加重系数,对所述播音信号的频点幅值进行调节;
输出调节后的播音信号。
另一方面,提供了一种语音信号的处理装置,所述装置包括:
采集模块,用于从近端采集录音信号,所述录音信号中至少包括噪声信号及回声信号;
接收模块,用于接收对端发送的播音信号;
第一计算模块,用于根据所述录音信号和所述播音信号,计算环路传递函数;
第二计算模块,用于计算所述录音信号的功率谱;
第三计算模块,用于根据所述录音信号的功率谱、所述播音信号及所述环路传递函数,计算所述回声信号的功率谱和所述噪声信号的功率谱;
第四计算模块,用于根据所述回声信号的功率谱和所述噪声信号的功率谱,计算频率加重系数;
调节模块,用于基于所述频率加重系数,对所述播音信号的频点幅值进行调节;
输出模块,用于输出调节后的播音信号。
本发明实施例提供的技术方案带来的有益效果是:
在确保扬声器不过载,且不破坏原始播音信号的动态幅度的前提下,自动根据噪声信号与播音信号的频率分布,调整播音信号的频点幅值,明显提高了语音可懂度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的语音信号的处理方法所涉及的实施环境的示意图;
图2是本发明另一实施例提供的语音信号的处理方法的系统架构图;
图3是本发明另一实施例提供的一种语音信号的处理方法流程图;
图4是本发明的另一实施例提供的一种语音信号的处理方法流程图;
图5是本发明的另一实施例提供的一种语音信号的处理方法对应的信号流的示意图;
图6是本发明的另一实施例提供的一种语音信号的处理方法对应的软件实现流程图;
图7是本发明另一实施例提供的一种语音信号的处理装置的结构示意图;
图8是本发明另一实施例提供的一种语音信号的处理终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
语音即时通讯应用是一种能够拨打网络电话或网络音频会议的应用,被广泛地安装在智能手机、平板电脑、笔记本电脑、可穿戴电子产品等便携式移动终端设备上。随着这些便携式移动终端的外形尺寸逐渐向小型化方向发展,移动终端设备中的微型扬声器所能够输出的最大声功率也遇到了瓶颈。
造成移动终端所输出的最大声功率遇到瓶颈的主要原因有以下两方面:
第一方面、现有的电声扩音技术主要依靠功放、扬声器、音腔三个部分共同作用实现声波的产生,当扬声器与音腔的物理尺寸与声波的波长成正比时,移动终端设备中的扬声器才能最大效率地实现电声转换。然而,随着便携式移动设备的外形尺寸向小型化发展,移动终端的外形尺寸往往比声波的波长要小得多,以波长为340Hz的声波为例,若想实现最大的声电转换效率,移动终端的尺寸需要达到1米,扬声器尺寸的微型化导致移动终端输出的最大声音功率减小。另外,目前普遍使用的动圈式扬声器需要达到一定的尺寸厚度,以保证震膜有足够的运动空间,然而,随着移动终端的外形尺寸的减小,扬声器的厚度也相应地变薄,由于移动终端内的整体声学设计受到了物理尺寸的限制,使得移动终端输出的最大声功率受到了限制。
第二方面、通常移动终端中所安装的语音即时通讯应用一般运行于操作系统之上,需要通过操作系统提供的应用程序接口才能实现对硬件的音量控制。对于音频输入输出而言,目前主流的实现方法是语音即时通讯应用向操作系统声明要求的音频配置模式由操作系统对相关硬件作出设置,完成配置之后,语音即时通讯应用只需要定时地将播音信号所对应的数据写入操作系统的录音API,再从操作系统的录音API中读取数据即可。然而操作系统所支持的音频配置模式的类型是有限的,这些有限的音频配置模式是由移动终端生产商在硬件底层(固件firmware)中实现的,应用程序对硬件输出音量的控制受到这一因素的制约,此外硬件厂商往往仅针对正常的使用场景做底层的音频优化,对于极端环境(比如存在很大环境噪声)下的使用场景,移动终端生产商一般不会对此作针对性的优化(比如提供可以提高硬件输出音量的专用软件接口)。
在常见的移动终端中,输出音量从大到小排序依次是:笔记本电脑、平板电脑、智能手机(免提模式)、可穿戴设备等。在采用这些移动终端进行通信时,这几种移动终端面临的环境噪声问题却呈相反的变化趋势:通常笔记本电脑在室内使用的使用频率比较高,接触到的噪声也以室内低分贝的小噪声为主;平板电脑和智能手机在室外、公共场所使用的频度要更高,接触到的噪声以高分贝的大噪声为主;可穿戴设备由于长时间佩戴在人体上,接触到的噪声场景最多、最复杂。随着移动终端的外形尺寸向小型化发展,移动终端所面临的环境噪声问题越来越突出,严重影响了用户使用移动终端进行通信时的体验效果。
为了解决上述移动终端所输出的最大声功率遇到瓶颈的问题,本发明实施例提供了一种在不对移动终端作改动的前提下,通过对语音信号进行处理,来提高移动终端的语音可懂度的方法,采用本实施例提供的方法用户即便处于嘈杂的场景下,也能够听清通话对端的语音内容。
图1为本发明提供的语音信号的处理方法所涉及到的实施环境示意图。参见图1,该实施环境包括移动终端P、用户U及噪声源N这3个声学主体,还包括扬声器S和麦克风M。该移动终端P中安装多个语音即时通讯应用(App),基于这些语音即时通讯应用,用户可随时随地与其他用户进行通信。扬声器S作为音频输出设备,既可以内置于智能手机、平板电脑、笔记本电脑、可穿戴设备等移动终端内,也可以以外接设备如外接音响、外接扬声器、蓝牙音箱、蓝牙耳机的形式连接在移动终端上;同理,麦克风M作为音频输入设备,既可以内置于智能手机、平板电脑、笔记本电脑、可穿戴设备等移动终端内,也可以以外接设备如外接麦克风、蓝牙耳机的形式连接在移动终端上。由图1可知,麦克风M可以拾取到整个场景中的声音,包括:噪声源N发出的噪声、用户U说话时发出的语音、扬声器S播出的声音。当用户通过语音即时通讯软件与对端用户进行通信时,移动终端接收对端发送的播音信号,将该播音信号处理之后,由扬声器转换成声波,通过空气传播给用户U并被用户U所感知;与此同时噪声源N发出的声波也通过空气传播给用户U,同时也被用户U感知,该噪声源N发出的声波会对用户U形成干扰,降低了用户收听时的语音可懂度。
在声学领域,根据心理声学的掩蔽效应原理,当两个频率相近、幅值差别较大的信号同时出现时,幅值较大的信号会对幅值较小的信号形成掩蔽作用。也即是,当噪声源N发出的噪声强度很大时,用户U无法听清扬声器S中正在播放的语音内容。此时若想加大扬声器S的输出功率,则需要加大S的物理尺寸,而这又与便携式移动终端小型化、轻薄化的设计相矛盾。鉴于此,本发明将利用心理声学的掩蔽效应解决噪声信号对播音信号的干扰问题。
通常播音信号、噪声信号都不是单频信号,它们各自占据不同的频带范围,并且它们在各个频点上的能量分布也不是均匀的。通过对比播音信号、噪声信号的功率谱分布,可找到噪声信号中能量最低的那些频点,记为f_weak。本实施例在不超过扬声器输出功率的前提下,将播音信号能量集中到f_weak附近播放出去,与此同时衰减远离f_weak的频点上的语音能量,以避免扬声器过载。通过这种处理方式,在临近f_weak的频点上,噪声信号被播音信号所掩蔽,用户所感知到的是播音信号的内容。在远离f_weak的频点上,播音信号仍旧被噪声信号所掩蔽。综合上述内容,增强后的播音信号在部分频点上将噪声信号掩蔽,使得噪声不再对播音信号形成整体掩蔽,此时用户可以听清播音信号的内容。
图2为本发明提供的语音信号的处理方法的系统架构图。参见图2,该系统架构包括用户U、扬声器S、麦克风M以及各种功能模块。其中,功能模块包括信号检测和分类模块、频谱估计模块、环路函数传递模块、语音可懂度估计模块等,对于系统的各个模块的作用及模块间的相互关系如下:
其中,麦克风M用于拾取环境声音,在本实施例中将环境声音称为录音信号(记为x),并将录音信号x送入信号检测与分类模块。
信号检测与分类模块用于对录音信号进行检测与区分。通过信号检测与分类模块的检测和区分,可输出三类信号:用户U讲话时的语音信号(记为近端信号v)、噪声源N发出的噪声信号(记为噪声信号n)、扬声器S播出的声音被M重新录回的信号(记为回声信号e)。
频谱估计模块用于计算噪声信号功率谱、回声信号的功率谱及近端信号的功率特征值,其中,噪声信号的功率谱可用Pn表示、回声信号的功率可用Pe表示、近端信号的功率特征值可用VAD_v表示。VAD_v具有true和false两种状态,当VAD_v=true时,说明当前时刻有近端信号存在,也即是用户U正在说话,当VAD_v=false时,说明当前时刻近端信号不存在,也即是用户U未在说话,或者用户U的说话声音的音量明显小于噪声信号的音量或者回声信号的音量。
环路传递函数模块用于根据播音信号y和麦克风拾取到的录音信号x计算出“加重滤波器--扬声器--声场--麦克风”这条路径上的传递函数,该环路传递函数可以表示为H_loop。
语音可懂度估计模块用于根据H_loop、VAD_v、Pn和Pe,确定语音可懂度函数(记为SII),该语音可懂度函数还用于计算加重滤波器W的频率加重系数。
参见图2,在实际应用中由于用户、移动终端、噪声源这三者在空间上的具体位置是无法确定的,本实施提供的方法主要目的是通过对播音信号和录音信号进行处理,将用户U耳朵所处位置上的SII调节到最大,而不是麦克风M所在的位置。为了解决这一问题,本实施例提供的方法采用了如下近似处理。为了便于后续叙述,在本实施例中,将扬声器与用户U人耳之间的距离用h1表示,将噪声源与用户人耳之间的距离用h2表示,将噪声源和麦克风之间的距离用h3表示,将用户嘴与麦克风之间的距离用h4表示,将麦克风与扬声器之间的距离用h5表示。基于这些距离,本实施例中所作的近似如下:
(1)、在本实施例中设定麦克风所拾取到的噪声与用户所感受到的噪声是近似相同,也即是h2≈h3。
(2)、在本实施例中设定麦克风所拾取到的回声与用户感受到的是扬声器所播放的声音近似相同,也即是h1≈h5。
在以上近似条件满足的前提下,可将计算用户U所在位置的最大语音可懂度问题,转化为计算麦克风M所在位置的最大语音可懂度问题。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
本发明实施例提供了一种语音信号的处理方法,参见图3,本实施例提供的方法流程包括:
301、从近端采集录音信号并接收对端发送的播音信号,该录音信号中至少包括噪声信号及回声信号。
302、根据录音信号和播音信号,计算环路传递函数。
303、计算录音信号的功率谱。
304、根据录音信号的功率谱、播音信号及环路传递函数,计算回声信号的功率谱和噪声信号的功率谱。
305、根据回声信号的功率谱和噪声信号的功率谱,计算频率加重系数。
306、基于频率加重系数,对播音信号的频点幅值进行调节。
307、输出调节后的播音信号。
本发明实施例提供的方法,在确保扬声器不过载,且不破坏原始播音信号的动态幅度的前提下,自动根据噪声信号与播音信号的频率分布,调整播音信号的频点幅值,明显提高了语音可懂度。
在本发明的另一个实施例中,根据录音信号和播音信号,计算环路传递函数,包括:
计算录音信号与播音信号之间的频域互相关函数;
计算播音信号的频域自相关函数;
对录音信号与播音信号之间的频域互相关函数以及播音信号的频域自相关函数,应用以下公式,计算环路传递函数:
H _ l o o p = r _ x y R _ y y
其中,H_loop为环路传递函数,r_xy为录音信号与播音信号之间的频域互相关函数,R_yy为播音信号的频域自相关函数,x为录音信号,y为播音信号。
在本发明的另一个实施例中,计算录音信号的功率谱,包括:
对于录音信号,应用以下公式,计算录音信号的功率谱:
Px=X(n).^2
其中,Px为录音信号的功率谱,X(n)为将第n时刻采集到的录音信号进行傅立叶变换得到的向量,.^2用于将X(n)中的每个向量元素求平方。
在本发明的另一个实施例中,根据录音信号的功率谱、播音信号及环路传递函数,计算回声信号的功率谱和噪声信号的功率谱,包括:
根据环路传递函数及播音信号,计算回声信号的频谱估计值;
计算回声信号的频谱估计值的平方,作为回声信号的功率谱;
将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱。
在本发明的另一个实施例中,计算回声信号的频谱估计值的平方,作为回声信号的功率谱之前,还包括:
计算录音信号的功率特征值、播音信号的功率特征值及回声信号的功率特征值;
判断录音信号的功率特征值是否大于第一阈值、播音信号的功率特征值是否大于第二阈值、回声信号的功率特征值是否大于第三阈值;
当录音信号的功率特征值大于第一阈值、播音信号的功率值大于第二阈值且回声信号的功率特征值大于第三阈值时,执行计算回声信号的频谱估计值的平方,作为回声信号的功率谱的步骤。
在本发明的另一个实施例中,将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱之前,还包括:
判断录音信号的功率特征值是否小于第一阈值、回声信号的功率特征值是否小于第三阈值;
当录音信号的功率特征值小于第一阈值且回声信号的功率特征值小于第三阈值时,执行将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱的步骤。
在本发明的另一个实施例中,根据回声信号的功率谱、噪声信号的功率谱,计算频率加重系数,包括:
根据回声信号的功率谱及噪声信号的功率谱,构建语音可懂度函数;
在回声信号的功率谱保持不变的条件下,计算语音可懂度函数的极大值,作为频率加重系数。
本发明实施例提供了一种语音信号的处理方法,参见图4,本实施例提供的方法流程包括:
401、移动终端从近端采集录音信号并接收对端发送的播音信号。
其中,近端为移动终端当前所处的环境,移动终端从近端采集录音信号方式,包括但不限于:开启麦克风,通过麦克风采集当前环境中的声音信号,并将麦克风采集到的声音信号作为录音信号,该录音信号中包括噪声信号、回声信号及近端信号等。在本实施例中,录音信号可用x表示,噪声信号可用n表示,回声信号可用e表示,近端信号可用v表示。
对端为与移动终端通过语音即时通讯应用进行通信的移动终端,对端通过麦克风采集到对端用户的语音信号,对采集到的语音信号处理后,通过网络发送至移动终端,移动终端上的即时通讯应用接收到对端发送来的语音信号,并将对端发送的语音信号作为播音信号。在本实施例中,播音信号可用y表示。
为了提高采用语音即时通讯应用的时效性,移动终端侧的麦克风会每隔预设时长采集一次录音信号,对端侧麦克风也将每隔预设时长采集一次播音信号,并将采集到的播音信号发送给移动终端。其中,预设时长可以为10ms(毫秒)、20ms、50ms等等。
在本实施例中,移动终端从近端采集到的录音信号以及对端发送的播音信号实质上为时域信号,为了便于后续的计算,本实施例提供的方法还将采用傅里叶变换等方法分别对采集到的录音信号和接收到的播音信号进行处理,通过处理可将时域形式的录音信号转换为频域形式的录音信号,并将时域形式的播音信号转换为频域形式的播音信号。本实施例正是基于频域形式的录音信号及频域形式的播音信号进行计算的。在本实施例中,频域形式的录音信号为一个列向量,向量长度等于所采用的傅立叶变换的点数,可用X表示;频域形式的播音信号也为一个列向量,向量长度也等于所采用的傅立叶变换的点数,可用Y表示。
需要说明的是,在将时域形式的录音信号、播音信号经过傅里叶变换后,得到的频域形式的录音信号、频域形式的播音信号的维度相同。
402、移动终端根据录音信号和播音信号,计算环路传递函数。
在本实施例中,移动终端根据录音信号和播音信号,计算环路传递函数时,可采用如下步骤4021~4023:
4021、移动终端获取录音信号与播音信号之间的频域互相关函数。
其中,互相关函数用于表示两个信号之间的相关程度。移动终端在获取录音信号与播音信号之间的频域互相关函数时,可采用如下公式<1>:
r_xy=E[X.*Y`]<1>
其中,r_xy为录音信号与播音信号之间的互相关函数,E[.]为期望运算符,.*用于对向量按元素逐个相乘,Y表示播音信号在频域中的形式,Y`表示播音信号Y的共轭成分。例如,X={a1,a2,a3,a4},Y`={b1,b2,b3,b4},则X.*Y`={a1b1,a2b2,a3b3,a4b4}。
4022、移动终端获取播音信号的频域自相关函数。
其中,自相关函数用于表示信号与该信号的延迟信号之间的相关程度。移动终端在获取播音信号的频域自相关函数时,可采用如下公式<2>:
R_yy=E[Y*Y`]<2>
其中,R_yy为播音信号的频域自相关函数。
4023、基于上述步骤4021中所获取到的录音信号与播音信号之间的频域互相关函数,以及步骤4022中所获取到的播音信号的频域自相关函数,移动终端可应用以下公式<3>,计算环路传递函数:
H _ l o o p = r _ x y R _ y y - - - < 3 >
其中,H_loop为环路传递函数。
403、移动终端获取录音信号的功率谱和播音信号的功率谱。
对于录音信号,移动终端可应用以下公式<4>,计算录音信号的功率谱:
Px=X(n).^2<4>
其中,Px为录音信号的功率谱,X(n)为将第n时刻采集到的录音信号进行傅里叶变换得到的向量,.^2用于将X(n)中的每个向量元素求平方。
例如,第n时刻采集到的录音信号X(n)={a1,a2,a3,….,an},移动终端通过应用公式Px=X(n).^2,可得到Px={a1 2,a2 2,a3 2,….,an 2}。
对于播音信号,移动终端可应用以下公式<5>,计算播音信号的功率谱:
Py=Y(n).^2<5>
其中,Py为播音信号的功率谱,Y(n)为将第n时刻采集到的播音信号进行傅里叶变换得到的向量,.^2用于将Y(n)中的每个向量元素求平方。
例如,第n时刻采集到的录音信号Y(n)={b1,b2,b3,….,bn},移动终端通过应用公式Py=Y(n).^2,可得到Py={b1 2,b2 2,b3 2,….,bn 2}。
404、移动终端根据环路传递函数及播音信号,计算回声信号的估计值。
移动终端根据环路传递函数及播音信号,可应用如下公式<6>,计算回声信号的估计值:
E(n)=H_loop·Y(n)
<6>
其中,E(n)为回声信号的估计值。
405、移动终端获取录音信号的功率特征值、播音信号的功率特征值及回声信号的功率特征值。
其中,录音信号的功率特征值为对录音信号的功率谱进行衡量的一种量度,可通过对录音信号的功率谱进行处理得到,在本实施例中,录音信号的功率特征值可用VAD_x表示。VAD_x为一种二值状态,具有true和flase两种状态。当VAD_x=true时,表示录音信号较强;当VAD_x=flase时,表示录音信号较弱。
播音信号的功率特征值为对播音信号的功率谱进行衡量的一种量度,可通过对播音信号的功率谱进行处理得到,在本实施例中,播音信号的功率特征值可用VAD_y表示。VAD_y为一种二值状态,具有true和flase两种状态。当VAD_y=true时,表示播音信号较强;当VAD_y=flase时,表示播音信号较弱。
回声信号的功率特征值为对回声信号的功率谱进行衡量的一种量度,在本实施例中,回声信号的功率特征值可用VAD_e表示。VAD_e为一种二值状态,具有true和flase两种状态。当VAD_e=true时,表示回声信号较强;当VAD_e=flase时,表示回音信号较弱。此处需要说明的是,在获取回声信号的功率特征值时,可预先根据回声信号的频谱估计值,计算一个回声信号的功率谱,进而通过对回声信号的功率谱进行处理,得到回声信号的功率特征值。此处计算得到的回声信号的功率谱为对回声信号的功率谱的一种估计,对于回声信号的功率谱是否为此处计算得到的回声信号的功率谱,需要通过下述步骤406进一步判断。
406、移动终端判断录音信号的功率特征值是否大于第一阈值、播音信号的功率特征值是否大于第二阈值、回声信号的功率特征值是否大于第三阈值,如果是,执行步骤407。
为了将回声信号、噪声信号及近端信号进行区分,本实施例应用信号检测和分类模块以及语音激活检测机制,并根据录音信号的功率特征值、回声信号的功率特征值以及播音信号的功率特征值,按时间区分近端信号和非近端信号,以获取回声信号的功率谱、噪声信号的功率谱。具体判断时,移动终端需要判断录音信号的功率特征值是否大于第一阈值,播音信号的功率特征值是否大于第二阈值、回声信号的功率特征值是否大于第三阈值。其中,第一阈值、第二阈值、第三阈值为预设门限值,在本实施例中,第一阈值可用Tx表示,第二阈值可用Ty表示,第三阈值可用Te表示,第一阈值、第二阈值、第三阈值取值越小,移动终端对噪声的反应越敏感,反之,移动终端仅当噪声能量非常大时,才对噪声作出反应。
上述判断过程,可用如下公式<7>表示:
V A D _ y = t r u e P y > T y f l a s e P y &le; T y V A D _ x = t r u e P x > T x f l a s e P x &le; T x V A D _ e = t r u e P e > T e f l a s e P e &le; T e - - - < 7 >
一般情况下,移动终端通过麦克风所采集到的录音信号中可能并不存在近端信号,为了进一步判断录音信号中是否存在近端信号,可采用如下公式<8>进行判断:
当VAD_y=flase,并且VAD_e=flase时,VAD_v=VAD_x<8>
也即是,当移动终端的扬声器并没用播放声音(即VAD_y=flase)时,且未检测到回声信号(即VAD_e=flase),则此时麦克风所收集到的录音信号即为近端信号,此时用户正在说话,否则说明用户未在说话。
在判断过程中,如果判断出录音信号的功率特征值大于第一阈值、播音信号的功率特征值大于第二阈值、回声信号的功率特征值大于第三阈值,则执行下述步骤407;如果判断出录音信号的功率特征值大于第一阈值、播音信号的功率特征值大于第二阈值、回声信号的功率特征值小于或等于第三阈值,或者,录音信号的功率特征值大于第一阈值、播音信号的功率特征值小于或等于第二阈值,则忽略本次获取到的录音信号和播音信号;则忽略本次获取到的录音信号和播音信号。
407、移动终端计算回声信号的频谱估计值的平方,作为回声信号的功率谱。
当录音信号的功率特征值是大于第一阈值、播音信号的功率特征值大于第二阈值、回声信号的功率特征值大于第三阈值时,移动终端通过计算回声信号的频谱估计值的平方,获取回声信号的功率谱,具体计算时,可应用以下公式<9>:
Pe=E(n).^2<9>
其中,Pe为回声信号的功率谱。
408、移动终端判断录音信号的功率特征值是否小于第一阈值、回声信号的功率特征值是否小于第三阈值,如果是,执行步骤409。
基于上述步骤407,移动终端还将继续判断录音信号的功率特征值是否小于第一阈值、回声信号的功率特征值是否小于第三阈值,以获取噪声信号的功率谱。
在判断过程中,如果判断出录音信号的功率特征值小于第一阈值且回声信号的功率特征值小于第三阈值,则执行下述步骤409;如果判断出录音信号的功率特征值小于第一阈值、回声信号的功率特征值大于或等于第三阈值,则忽略本次获取到的录音信号和播音信号。
409、移动终端将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱。
当判断出录音信号的功率特征值小于第一阈值且回声信号的功率特征值小于第三阈值,此时可认为未检测到近端信号,也即是用户此时并未讲话,此时移动终端通过将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱。具体实施时,可参见下述公式<10>:
Pn=Px–Pe<10>
其中,Pn为噪声信号的功率谱。
410、移动终端根据回声信号的功率谱和噪声信号的功率谱,计算频率加重系数。
移动终端在根据回声信号的功率谱和噪声信号的功率谱,计算频率加重系数时,可采用如下步骤4101~4102:
4101、移动终端根据回声信号的功率谱及噪声信号的功率谱,构建语音可懂度函数。
在声学领域,语音可懂度函数(SII)具有多套标准,本实施例中采用ASNI-S3.5中的标准[4]为了进行计算,在标准[4]中,语音可懂度函数可以表示为以回声信号的功率谱及噪声信号的功率谱为自变量的函数。因此,当移动终端计算出回声信号的功率谱和噪声信号的功率谱之后,即可构建出语音可懂度函数。构建的语音可懂度函数可参见如下公式<11>:
<math> <mrow> <mi>S</mi> <mi>I</mi> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>Pe</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Pn</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>i</mi> <mi>max</mi> </msub> </munderover> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <mi>min</mi> <mo>{</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <msub> <mi>Pe</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>Pu</mi> <mi>i</mi> </msub> <mo>-</mo> <mn>10</mn> </mrow> <mn>160</mn> </mfrac> <mo>,</mo> <mn>1</mn> <mo>}</mo> <mo>&amp;CenterDot;</mo> <mi>min</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>,</mo> <mi>max</mi> <mo>(</mo> <mrow> <mn>0</mn> <mo>,</mo> <mfrac> <mrow> <msub> <mi>Pe</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>Pd</mi> <mi>i</mi> </msub> <mo>+</mo> <mn>15</mn> </mrow> <mn>30</mn> </mfrac> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mi>&lt;11&gt;</mi> </mrow> </math>
其中,imax为所拆分的频带总数,i为imax内的任一频带,SII为语音可懂度函数,Pei为回声信号在第i个频带内的功率谱,Pni为噪声信号在第i个频带内的功率谱,Pui为标准语音强度在第i个频带内功率谱,Ii为分频带加权权重,Pdi为中间变量,可用如下公式<12>表示:
Pd i = 10 &CenterDot; log 10 ( 10 Pn i 10 + &Sigma; k i - 1 10 m a x { Pn k , Pe k - 24 } + 3.32 C k l o g ( 0.89 f i f k ) 10 ) i &NotEqual; 0 m a x { Pn k , Pe k - 24 } i = 0 - - - < 12 >
其中,fk表示第i个频带内的第k个频点,Ck为中间变量,可用如下公式<13>表示:
Ck=0.6(max{Pnk,Pek-24}+10log10fk-6.353)-80<13>
其中,Pek为回声信号在第k个频点上的功率谱,Pnk为噪声信号在第k个频点上的功率谱。
需要说明的是,上述Pui和Ii的具体取值可以参考ANSI-S3.5标准[4]中规定的数值,也可以由设计人员根据需要自行确定。
4102、在回声信号的功率谱保持不变的条件下,移动终端计算语音可懂度函数的极大值,作为频率加重系数。
在本实施例中,频率加重系数即为移动终端中加重滤波器的系数,用于调节移动终端输出的播音信号的频点幅值。在不同时刻时,移动终端所计算出的频率加重系数是不同的。
通过观察上述步骤4101中所构建的语音可懂度函数可以看出,语音可懂度函数为以回声信号的功率谱和噪声信号的功率谱为自变量的函数,也即是,语音可懂度函数中的变量有两个,此时很难计算计算语音可懂度函数的极大值。为此,本实施例提供的方法作了一个近似计算,设定第n时刻的噪声信号的功率谱近似等于n-1时刻的噪声信号的功率谱,这样在计算第n时刻的频率加重系数时,移动终端可直接使用第n-1时刻所计算出的噪声信号的功率谱。通过采用该种处理方式,移动终端将语音可懂度函数转换为以回声信号的功率谱为自变量的函数。
为了提高用户扬声器播放的语音信号的语音可懂度,移动终端在将包括录音信号和播音信号在内的语音信号通过扬声器播放之前,还将采用加重滤波器对录音信号和播音信号进行处理,以提高录音信号和播音信号在指定频点上的幅值,增加录音信号和播音信号的能量。受限于移动终端的尺寸,扬声器播放的最大声功率具极大值,为了避免扬声器不会过载,本实施例在基于所构建的语音可懂度函数,计算频率加重系数时,需采用加重滤波器增强前后的回声信号功率谱保持不变,这时再计算语音可懂度函数的极大值,在数学上这一方法称为有约束条件下求极值问题。该极值问题,可用如下公式<14>表示:
max &Sigma; i S I I ( Pe i , Pn i ) &Sigma; i Pe i &prime; = &Sigma; i Pe i - - - < 14 >
其中,Pei为增强前的回声信号在第i个频点上的功率谱,Pe’i为增强后的回声信号在第i个频点上的功率谱,公式保证了增强前后的回声信号功率谱不变,从而确保扬声器不会过载。
需要注意的是,通过加重滤波器处理后的信号为电信号,电信号需通过扬声器转换后才变成声波。由于不同型号的移动终端的扬声器的输出频率响应是不同的,如果要获取不同移动终端的扬声器的输出功率响应,就需要分别测量每个移动终端的扬声器,并在运行时进行校正补偿,由此将产生硬件碎片化问题。为了避免该问题,本实施例提供的方法将采用如下方法,以避免对扬声器频响的直接测量。
通过对上述公式<6>的观察可以发现,E(n)与Y(n)可通过环路传递函数H_loop建立起映射关系。本实施例将扬声器的频率响应记为Hspk,将麦克风的频率响应记为Hmic,根据公式<6>,则可得出:
P e = R y &CenterDot; | H - l o o p | 2 = P z &CenterDot; | H s p k | 2 &CenterDot; | H m i c | 2 = P z &CenterDot; | H - l o o p | 2 | W | 2 - - - < 15 >
对上述公式<15>,可将公式<14>求极值问题转化为求偏导的问题,通过计算公式<15>的偏导数,可得到语音可懂度函数的拐点,具体过程可参见下述公式<16>:
&part; S I I &part; Pe i = 0 &DoubleRightArrow; &part; S I I &part; ( Pz i &CenterDot; | H l o o p | 2 | W | 2 ) = 0 &DoubleRightArrow; &part; S I I &part; ( Py i &CenterDot; | W | 2 &CenterDot; | H l o o p | 2 | W | 2 ) = 0 &DoubleRightArrow; &part; S I I &part; ( Py i &CenterDot; | H l o o p | 2 ) = 0 &DoubleRightArrow; &part; S I I &part; ( Py i &CenterDot; | H s p k | 2 &CenterDot; | H m i c | 2 &CenterDot; | W | 2 ) = 0 - - - < 16 >
其中,|W|2为频率加重系数,|H_loop|2可通过上述公式<3>得到,Pyi可通过上述公式<5>得到,SII可通过公式<11>得到。
通过对上述公式<16>进行计算,可得到当前时刻的|W|2
411、基于频率加重系数,移动终端对播音信号的频点幅值进行调节。
基于所确定的频率加重系数,移动终端通过动态地跟踪并调整语音可懂度函数,以实现对噪声信号的功率谱Pn、回声信号的功率谱Pe进行调整。
412、移动终端输出调节后的播音信号。
为了提高移动终端当前时刻所输出的播音信号的准确性,移动终端将结合当前时刻之前的一段时间内所输出的语音信号及相应的频率加重系数,确定当前时刻所输出的播音信号。最终输出的播音信号,可参见下述公式<17>。
z ( n ) = &Sigma; k = 0 K m a x w ( k ) &CenterDot; y ( n - k ) - - - < 17 >
其中,z(n)为输出的播音信号,w(k)为第n时刻计算出的频率加重系数在时域上的对应值,Kmax等于加重滤波器W的阶数,y(n-k)为加重前的播音信号在第n-k时刻的值。
由于本步骤中移动终端所输出的调节后的播音信号能够掩蔽噪声信号,因此,当收听到待调节后的播音信号后,用户能够听清该播音信号的内容。
图5示出了本发明实施例提供的语音信号的处理方法对应的信号流,由图5可知,当基于所获取到的录音信号X和播音信号Y,移动终端根据录音信号和播音信号之间的频域互相关函数r_xy=E[X.*Y`]及播音信号的频域自相关函数R_yy=E[Y*Y`],可计算出环路传递函数移动终端根据播音信号及环路传递函数,可计算出回声信号的估计值E(n)=H_loop·Y(n),进一步地,移动终端根据录音信号的功率特征值、播音信号的功率特征值及回声信号的功率特征值,并采用语音激活检测机制,计算出回声信号的功率谱和噪声信号的功率谱,进而通过计算语音可懂度函数的极大值,获取频率加重系数,最后基于频率加重系数,采用加重滤波器对播音信号的频点幅值进行调节,并将调节后的播音信号输出。
图6示出了本发明实施例提供的语音信号的处理方法对应的软件实现流程图,当语音即时通讯应用启动后,移动终端会定时地获取麦克风从近端采集到的录音信号x与对端发送的播音信号y,并计算出录音信号的功率谱Px、播音信号的功率谱Py,进而基于公式<3>计算出环路传递函数H_loop。当确定了环路传递函数之后,移动终端可根据公式<6>,计算出回声信号的估计值E(n)。另外,由于回声信号、近端语音信号、噪声信号三者被同一个麦克风拾取,时间上存在重叠,因此,可需要结合图5中的四个判断分支,对录音信号进行分类,进而根据公式<9>计算出回声功率谱Pe,根据公式<10>计算出噪声功率谱Pn。之后,根据回声信号的功率谱和噪声信号的功率谱,构建语音可懂度函数SII,通过计算语音可懂度函数SII的极大值,可得到频谱加重系数W。最后根据公式<17>计算输出增强后的播音信号送给扬声器,由扬声器转换成声音进行播放。
需要说明的是,上述方法可以在语音即时通讯应用层面中实现,也可以在操作系统层面实现,也可以固化在硬件芯片的固件(firmware)中实现。无论是在这三个层面的哪一层面上实现,本发明实施例提供的语音数据的处理方法均适用的,区别仅在于同一语音数据的处理方法具体是运行于移动终端系统中的哪个层面。
需要说明的是,上述方法不仅可用于提高语音可懂度之外,还可以用于提高其他内容的音频信号。例如:可根据不同的环境噪声自动地对铃声、闹钟的提示音做增强,使得增强后的提示声音能更清楚地被用户听到,以达到克服环境噪声干扰的目的。
需要说明的是,上述方法除了用于对抗噪声场景之外,还可用于对抗非噪声的环境。例如:A与B两个人同时在相近的距离内拨打电话,其中,A与a通话、B与b通话。由于A与B两个人距离很近,因而A的说话声将会对B的收听形成干扰,同时B的说话声也对A的收听形成干扰。本发明实施提供的方法同样可用于这种语音竞争场景,在该场景下,A侧的移动终端将当把B的语音作为噪声信号,把a的语音作为需要做增强的信号;同理,B侧的软件移动终端将把A作为噪声信号,把b的语音作为需要做增强的信号。
本发明实施例提供的方法,在确保扬声器不过载,且不破坏原始播音信号的动态幅度的前提下,自动根据噪声信号与播音信号的频率分布,调整播音信号的频点幅值,明显提高了语音可懂度。
参见图7,本发明实施例提供了一种语音信号的处理装置的结构示意图,该装置包括:
采集模块701,用于从近端采集录音信号,录音信号中至少包括噪声信号及回声信号;
接收模块702,用于接收对端发送的播音信号;
第一计算模块703,用于根据录音信号和播音信号,计算环路传递函数;
第二计算模块704,用于计算录音信号的功率谱;
第三计算模块705,用于根据录音信号的功率谱、播音信号及环路传递函数,计算回声信号的功率谱和噪声信号的功率谱;
第四计算模块706,用于根据回声信号的功率谱和噪声信号的功率谱,计算频率加重系数;
调节模块707,用于基于频率加重系数,对播音信号的频点幅值进行调节;
输出模块708,用于输出调节后的播音信号。
在本发明的另一个实施例中,第一计算模块703,用于计算录音信号与播音信号之间的频域互相关函数;计算播音信号的频域自相关函数;对录音信号与播音信号之间的频域互相关函数以及播音信号的频域自相关函数,应用以下公式,计算环路传递函数:
H _ l o o p = r _ x y R _ y y
其中,H_loop为环路传递函数,r_xy为录音信号与播音信号之间的频域互相关函数,R_yy为播音信号的频域自相关函数,x为录音信号,y为播音信号。
在本发明的另一个实施例中,第二计算模块704,用于对于录音信号,应用以下公式,计算录音信号的功率谱:
Px=X(n).^2
其中,Px为录音信号的功率谱,X(n)为将第n时刻采集到的录音信号进行傅里叶变换得到的向量,.^2用于将X(n)中的每个向量元素求平方。
在本发明的另一个实施例中,第三计算模块705,用于根据环路传递函数及播音信号,计算回声信号的频谱估计值;计算回声信号的频谱估计值的平方,作为回声信号的功率谱;将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱。
在本发明的另一个实施例中,该装置还包括:
第五计算模块,用于计算录音信号的功率特征值、播音信号的功率特征值及回声信号的功率特征值;
第一判断模块,用于判断录音信号的功率特征值是否大于第一阈值、播音信号的功率特征值是否大于第二阈值、回声信号的功率特征值是否大于第三阈值;
第三计算模块705,用于当录音信号的功率特征值大于第一阈值、播音信号的功率值大于第二阈值且回声信号的功率特征值大于第三阈值时,计算回声信号的频谱估计值的平方,作为回声信号的功率谱。
在本发明的另一个实施例中,该装置还包括:
第二判断模块,用于判断录音信号的功率特征值是否小于第一阈值、回声信号的功率特征值是否小于第三阈值;
第三计算模块705,用于当录音信号的功率特征值小于第一阈值且回声信号的功率特征值小于第三阈值时,将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱。
在本发明的另一个实施例中,第四计算模块706,用于根据回声信号的功率谱及噪声信号的功率谱,构建语音可懂度函数;在回声信号的功率谱保持不变的条件下,计算语音可懂度函数的极大值,作为频率加重系数。
综上,本发明实施例提供的装置,在确保扬声器不过载,且不破坏原始播音信号的动态幅度的前提下,自动根据噪声信号与播音信号的频率分布,调整播音信号的频点幅值,明显提高了语音可懂度。
参见图8,其示出了本发明实施例所涉及的语音信号的处理终端的结构示意图,该终端可以用于实施上述实施例中提供的语音信号的处理方法。具体来讲:
终端800可以包括RF(RadioFrequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(WirelessFidelity,无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图8中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(LowNoiseAmplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(GlobalSystemofMobilecommunication,全球移动通讯系统)、GPRS(GeneralPacketRadioService,通用分组无线服务)、CDMA(CodeDivisionMultipleAccess,码分多址)、WCDMA(WidebandCodeDivisionMultipleAccess,宽带码分多址)、LTE(LongTermEvolution,长期演进)、电子邮件、SMS(ShortMessagingService,短消息服务)等。
存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端800的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端800的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(LiquidCrystalDisplay,液晶显示器)、OLED(OrganicLight-EmittingDiode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图8中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端800还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端800移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端800还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端800之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端800的通信。
WiFi属于短距离无线传输技术,终端800通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块170,但是可以理解的是,其并不属于终端800的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端800的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端800的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;可选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端800还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端800还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端800的显示单元是触摸屏显示器,终端800还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行以下操作的指令:
从近端采集录音信号并接收对端发送的播音信号,所述录音信号中至少包括噪声信号及回声信号;
根据所述录音信号和所述播音信号,计算环路传递函数;
计算所述录音信号的功率谱;
根据所述录音信号的功率谱、所述播音信号及所述环路传递函数,计算所述回声信号的功率谱和所述噪声信号的功率谱;
根据所述回声信号的功率谱和所述噪声信号的功率谱,计算频率加重系数;
基于所述频率加重系数,对所述播音信号的频点幅值进行调节;
输出调节后的播音信号。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
根据录音信号和播音信号,计算环路传递函数,包括:
计算录音信号与播音信号之间的频域互相关函数;
计算播音信号的频域自相关函数;
对录音信号与播音信号之间的频域互相关函数以及播音信号的频域自相关函数,应用以下公式,计算环路传递函数:
H _ l o o p = r _ x y R _ y y
其中,H_loop为环路传递函数,r_xy为录音信号与播音信号之间的频域互相关函数,R_yy为播音信号的频域自相关函数,x为录音信号,y为播音信号。
假设上述为第二种可能的实施方式,则在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
计算录音信号的功率谱,包括:
对于录音信号,应用以下公式,计算录音信号的功率谱:
Px=X(n).^2
其中,Px为录音信号的功率谱,X(n)为将第n时刻采集到的录音信号进行傅里叶变换得到的向量,.^2用于将X(n)中的每个向量元素求平方。
假设上述为第三种可能的实施方式,则在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
根据录音信号的功率谱、播音信号及环路传递函数,计算回声信号的功率谱和噪声信号的功率谱,包括:
根据环路传递函数及播音信号,计算回声信号的频谱估计值;
计算回声信号的频谱估计值的平方,作为回声信号的功率谱;
将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱。
假设上述为第四种可能的实施方式,则在第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
计算回声信号的频谱估计值的平方,作为回声信号的功率谱之前,还包括:
计算录音信号的功率特征值、播音信号的功率特征值及回声信号的功率特征值;
判断录音信号的功率特征值是否大于第一阈值、播音信号的功率特征值是否大于第二阈值、回声信号的功率特征值是否大于第三阈值;
当录音信号的功率特征值大于第一阈值、播音信号的功率值大于第二阈值且回声信号的功率特征值大于第三阈值时,执行计算回声信号的频谱估计值的平方,作为回声信号的功率谱的步骤。
假设上述为第五种可能的实施方式,则在第五种可能的实施方式作为基础而提供的第六种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱之前,还包括:
判断录音信号的功率特征值是否小于第一阈值、回声信号的功率特征值是否小于第三阈值;
当录音信号的功率特征值小于第一阈值且回声信号的功率特征值小于第三阈值时,执行将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱的步骤。
假设上述为第六种可能的实施方式,则在第六种可能的实施方式作为基础而提供的第七种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
根据回声信号的功率谱、噪声信号的功率谱,计算频率加重系数,包括:
根据回声信号的功率谱及噪声信号的功率谱,构建语音可懂度函数;
在回声信号的功率谱保持不变的条件下,计算语音可懂度函数的极大值,作为频率加重系数。
本发明实施例提供的终端,在确保扬声器不过载,且不破坏原始播音信号的动态幅度的前提下,自动根据噪声信号与播音信号的频率分布,调整播音信号的频点幅值,明显提高了语音可懂度。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序,该一个或者一个以上程序被一个或者一个以上的处理器用来执行语音信号的处理方法,该方法包括:
从近端采集录音信号并接收对端发送的播音信号,所述录音信号中至少包括噪声信号及回声信号;
根据所述录音信号和所述播音信号,计算环路传递函数;
计算所述录音信号的功率谱;
根据所述录音信号的功率谱、所述播音信号及所述环路传递函数,计算所述回声信号的功率谱和所述噪声信号的功率谱;
根据所述回声信号的功率谱和所述噪声信号的功率谱,计算频率加重系数;
基于所述频率加重系数,对所述播音信号的频点幅值进行调节;
输出调节后的播音信号。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
根据录音信号和播音信号,计算环路传递函数,包括:
计算录音信号与播音信号之间的频域互相关函数;
计算播音信号的频域自相关函数;
对录音信号与播音信号之间的频域互相关函数以及播音信号的频域自相关函数,应用以下公式,计算环路传递函数:
H _ l o o p = r _ x y R _ y y
其中,H_loop为环路传递函数,r_xy为录音信号与播音信号之间的频域互相关函数,R_yy为播音信号的频域自相关函数,x为录音信号,y为播音信号。
假设上述为第二种可能的实施方式,则在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
计算录音信号的功率谱,包括:
对于录音信号,应用以下公式,计算录音信号的功率谱:
Px=X(n).^2
其中,Px为录音信号的功率谱,X(n)为将第n时刻采集到的录音信号进行傅里叶变换得到的向量,.^2用于将X(n)中的每个向量元素求平方。
假设上述为第三种可能的实施方式,则在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
根据录音信号的功率谱、播音信号及环路传递函数,计算回声信号的功率谱和噪声信号的功率谱,包括:
根据环路传递函数及播音信号,计算回声信号的频谱估计值;
计算回声信号的频谱估计值的平方,作为回声信号的功率谱;
将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱。
假设上述为第四种可能的实施方式,则在第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
计算回声信号的频谱估计值的平方,作为回声信号的功率谱之前,还包括:
获取录音信号的功率特征值、播音信号的功率特征值及回声信号的功率特征值;
判断录音信号的功率特征值是否大于第一阈值、播音信号的功率特征值是否大于第二阈值、回声信号的功率特征值是否大于第三阈值;
当录音信号的功率特征值大于第一阈值、播音信号的功率值大于第二阈值且回声信号的功率特征值大于第三阈值时,执行计算回声信号的频谱估计值的平方,作为回声信号的功率谱的步骤。
假设上述为第五种可能的实施方式,则在第五种可能的实施方式作为基础而提供的第六种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱之前,还包括:
判断录音信号的功率特征值是否小于第一阈值、回声信号的功率特征值是否小于第三阈值;
当录音信号的功率特征值小于第一阈值且回声信号的功率特征值小于第三阈值时,执行将录音信号的功率谱减去回声信号的功率谱,作为噪声信号的功率谱的步骤。
假设上述为第六种可能的实施方式,则在第六种可能的实施方式作为基础而提供的第七种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
根据回声信号的功率谱、噪声信号的功率谱,计算频率加重系数,包括:
根据回声信号的功率谱及噪声信号的功率谱,构建语音可懂度函数;
在回声信号的功率谱保持不变的条件下,计算语音可懂度函数的极大值,作为频率加重系数。
本发明实施例提供的计算机可读存储介质,在确保扬声器不过载,且不破坏原始播音信号的动态幅度的前提下,自动根据噪声信号与播音信号的频率分布,调整播音信号的频点幅值,明显提高了语音可懂度。
本发明实施例中提供了一种图形用户接口,该图形用户接口用在语音信号的处理终端上,该执行语音信号的处理终端包括触摸屏显示器、存储器和用于执行一个或者一个以上的程序的一个或者一个以上的处理器;该图形用户接口包括:
从近端采集录音信号并接收对端发送的播音信号,录音信号中至少包括噪声信号及回声信号;
根据录音信号和播音信号,计算环路传递函数;
计算录音信号的功率谱;
根据录音信号的功率谱、播音信号及环路传递函数,计算回声信号的功率谱和噪声信号的功率谱;
根据回声信号的功率谱和噪声信号的功率谱,计算频率加重系数;
基于频率加重系数,对播音信号的频点幅值进行调节;
输出调节后的播音信号。
本发明实施例提供的图形用户接口,在确保扬声器不过载,且不破坏原始播音信号的动态幅度的前提下,自动根据噪声信号与播音信号的频率分布,调整播音信号的频点幅值,明显提高了语音可懂度。
需要说明的是:上述实施例提供的语音信号的处理装置在处理语音信号时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将语音信号的处理装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音信号的处理装置与语音信号的处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种语音信号的处理方法,其特征在于,所述方法包括:
从近端采集录音信号并接收对端发送的播音信号,所述录音信号中至少包括噪声信号及回声信号;
根据所述录音信号和所述播音信号,计算环路传递函数;
计算所述录音信号的功率谱;
根据所述录音信号的功率谱、所述播音信号及所述环路传递函数,计算所述回声信号的功率谱和所述噪声信号的功率谱;
根据所述回声信号的功率谱和所述噪声信号的功率谱,计算频率加重系数;
基于所述频率加重系数,对所述播音信号的频点幅值进行调节;
输出调节后的播音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述录音信号和所述播音信号,计算环路传递函数,包括:
计算所述录音信号与所述播音信号之间的频域互相关函数;
计算所述播音信号的频域自相关函数;
对所述录音信号与所述播音信号之间的频域互相关函数以及所述播音信号的频域自相关函数,应用以下公式,计算所述环路传递函数:
H _ l o o p = r _ x y R _ y y
其中,H_loop为所述环路传递函数,r_xy为所述录音信号与所述播音信号之间的频域互相关函数,R_yy为所述播音信号的频域自相关函数,x为所述录音信号,y为所述播音信号。
3.根据权利要求1所述的方法,其特征在于,所述计算所述录音信号的功率谱,包括:
对于所述录音信号,应用以下公式,计算所述录音信号的功率谱:
Px=X(n).^2
其中,Px为所述录音信号的功率谱,X(n)为将第n时刻采集到的录音信号进行傅立叶变换得到的向量,.^2用于将X(n)中的每个向量元素求平方。
4.根据权利要求1所述的方法,其特征在于,所述根据所述录音信号的功率谱、所述播音信号及所述环路传递函数,计算所述回声信号的功率谱和所述噪声信号的功率谱,包括:
根据所述环路传递函数及所述播音信号,计算所述回声信号的频谱估计值;
计算所述回声信号的频谱估计值的平方,作为所述回声信号的功率谱;
将所述录音信号的功率谱减去所述回声信号的功率谱,作为所述噪声信号的功率谱。
5.根据权利要求4所述的方法,其特征在于,所述计算所述回声信号的频谱估计值的平方,作为所述回声信号的功率谱之前,还包括:
计算所述录音信号的功率特征值、所述播音信号的功率特征值及所述回声信号的功率特征值;
判断所述录音信号的功率特征值是否大于第一阈值、所述播音信号的功率特征值是否大于第二阈值、所述回声信号的功率特征值是否大于第三阈值;
当所述录音信号的功率特征值大于所述第一阈值、所述播音信号的功率值大于所述第二阈值且所述回声信号的功率特征值大于所述第三阈值时,执行计算所述回声信号的频谱估计值的平方,作为所述回声信号的功率谱的步骤。
6.根据权利要求5所述的方法,其特征在于,所述将所述录音信号的功率谱减去所述回声信号的功率谱,作为所述噪声信号的功率谱之前,还包括:
判断所述录音信号的功率特征值是否小于所述第一阈值、所述回声信号的功率特征值是否小于所述第三阈值;
当所述录音信号的功率特征值小于所述第一阈值且所述回声信号的功率特征值小于所述第三阈值时,执行将所述录音信号的功率谱减去所述回声信号的功率谱,作为所述噪声信号的功率谱的步骤。
7.根据权利要求1所述的方法,其特征在于,所述根据所述回声信号的功率谱和所述噪声信号的功率谱,计算频率加重系数,包括:
根据所述回声信号的功率谱及所述噪声信号的功率谱,构建语音可懂度函数;
在所述回声信号的功率谱保持不变的条件下,计算所述语音可懂度函数的极大值,作为所述频率加重系数。
8.一种语音信号的处理装置,其特征在于,所述装置包括:
采集模块,用于从近端采集录音信号,所述录音信号中至少包括噪声信号及回声信号;
接收模块,用于接收对端发送的播音信号;
第一计算模块,用于根据所述录音信号和所述播音信号,计算环路传递函数;
第二计算模块,用于计算所述录音信号的功率谱;
第三计算模块,用于根据所述录音信号的功率谱、所述播音信号及所述环路传递函数,计算所述回声信号的功率谱和所述噪声信号的功率谱;
第四计算模块,用于根据所述回声信号的功率谱和所述噪声信号的功率谱,计算频率加重系数;
调节模块,用于基于所述频率加重系数,对所述播音信号的频点幅值进行调节;
输出模块,用于输出调节后的播音信号。
9.根据权利要求8所述的装置,其特征在于,所述第一计算模块,用于计算所述录音信号与所述播音信号之间的频域互相关函数;计算所述播音信号的频域自相关函数;对所述录音信号与所述播音信号之间的频域互相关函数以及所述播音信号的频域自相关函数,应用以下公式,计算所述环路传递函数:
H _ l o o p = r _ x y R _ y y
其中,H_loop为所述环路传递函数,r_xy为所述录音信号与所述播音信号之间的频域互相关函数,R_yy为所述播音信号的频域自相关函数,x为所述录音信号,y为所述播音信号。
10.根据权利要求8所述的装置,其特征在于,所述第二计算模块,用于对于所述录音信号,应用以下公式,计算所述录音信号的功率谱:
Px=X(n).^2
其中,Px为所述录音信号的功率谱,X(n)为将第n时刻采集到的录音信号进行傅立叶变换得到的向量,.^2用于将X(n)中的每个向量元素求平方。
11.根据权利要求8所述的装置,其特征在于,所述第三计算模块,用于根据所述环路传递函数及所述播音信号,计算所述回声信号的频谱估计值;计算所述回声信号的频谱估计值的平方,作为所述回声信号的功率谱;将所述录音信号的功率谱减去所述回声信号的功率谱,作为所述噪声信号的功率谱。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第五计算模块,用于计算所述录音信号的功率特征值、所述播音信号的功率特征值及所述回声信号的功率特征值;
第一判断模块,用于判断所述录音信号的功率特征值是否大于第一阈值、所述播音信号的功率特征值是否大于第二阈值、所述回声信号的功率特征值是否大于第三阈值;
所述第三计算模块,用于当所述录音信号的功率特征值大于所述第一阈值、所述播音信号的功率值大于所述第二阈值且所述回声信号的功率特征值大于所述第三阈值时,计算所述回声信号的频谱估计值的平方,作为所述回声信号的功率谱。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于判断所述录音信号的功率特征值是否小于所述第一阈值、所述回声信号的功率特征值是否小于所述第三阈值;
所述第三计算模块,用于当所述录音信号的功率特征值小于所述第一阈值且所述回声信号的功率特征值小于所述第三阈值时,将所述录音信号的功率谱减去所述回声信号的功率谱,作为所述噪声信号的功率谱。
14.根据权利要求8所述的装置,其特征在于,所述第四计算模块,用于根据所述回声信号的功率谱及所述噪声信号的功率谱,构建语音可懂度函数;在所述回声信号的功率谱保持不变的条件下,计算所述语音可懂度函数的极大值,作为所述频率加重系数。
CN201510741057.1A 2015-11-04 2015-11-04 语音信号的处理方法及装置 Active CN105280195B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201510741057.1A CN105280195B (zh) 2015-11-04 2015-11-04 语音信号的处理方法及装置
JP2017553962A JP6505252B2 (ja) 2015-11-04 2016-05-27 音声信号を処理するための方法及び装置
KR1020177029724A KR101981879B1 (ko) 2015-11-04 2016-05-27 음성 신호를 처리하기 위한 방법 및 장치
EP16861250.5A EP3373300B1 (en) 2015-11-04 2016-05-27 Method and apparatus for processing voice signal
MYPI2017703990A MY179978A (en) 2015-11-04 2016-05-27 Method and apparatus for processing voice signal
PCT/CN2016/083622 WO2017075979A1 (zh) 2015-11-04 2016-05-27 语音信号的处理方法及装置
US15/691,300 US10586551B2 (en) 2015-11-04 2017-08-30 Speech signal processing method and apparatus
US16/774,854 US10924614B2 (en) 2015-11-04 2020-01-28 Speech signal processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510741057.1A CN105280195B (zh) 2015-11-04 2015-11-04 语音信号的处理方法及装置

Publications (2)

Publication Number Publication Date
CN105280195A true CN105280195A (zh) 2016-01-27
CN105280195B CN105280195B (zh) 2018-12-28

Family

ID=55149085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510741057.1A Active CN105280195B (zh) 2015-11-04 2015-11-04 语音信号的处理方法及装置

Country Status (7)

Country Link
US (2) US10586551B2 (zh)
EP (1) EP3373300B1 (zh)
JP (1) JP6505252B2 (zh)
KR (1) KR101981879B1 (zh)
CN (1) CN105280195B (zh)
MY (1) MY179978A (zh)
WO (1) WO2017075979A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106506872A (zh) * 2016-11-02 2017-03-15 腾讯科技(深圳)有限公司 通话状态检测方法及装置
WO2017075979A1 (zh) * 2015-11-04 2017-05-11 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
CN106878575A (zh) * 2017-02-24 2017-06-20 成都喜元网络科技有限公司 残留回声的估计方法及装置
CN107833579A (zh) * 2017-10-30 2018-03-23 广州酷狗计算机科技有限公司 噪声消除方法、装置及计算机可读存储介质
CN108200526A (zh) * 2017-12-29 2018-06-22 广州励丰文化科技股份有限公司 一种基于可信度曲线的音响调试方法及装置
CN108447472A (zh) * 2017-02-16 2018-08-24 腾讯科技(深圳)有限公司 语音唤醒方法及装置
CN109155130A (zh) * 2016-05-13 2019-01-04 伯斯有限公司 处理来自分布式麦克风的语音
CN109727605A (zh) * 2018-12-29 2019-05-07 苏州思必驰信息科技有限公司 处理声音信号的方法及系统
CN111128194A (zh) * 2019-12-31 2020-05-08 云知声智能科技股份有限公司 一种提高在线语音识别效果的系统及方法
US10693799B2 (en) 2016-09-22 2020-06-23 Tencent Technology (Shenzhen) Company Limited Calling method and device, computer storage medium, and terminal
CN112203188A (zh) * 2020-07-24 2021-01-08 北京工业大学 一种自动音量调节方法
CN112259125A (zh) * 2020-10-23 2021-01-22 江苏理工学院 基于噪声的舒适度评价方法、系统、设备及可存储介质
CN112820311A (zh) * 2021-04-16 2021-05-18 成都启英泰伦科技有限公司 一种基于空间预测的回声消除方法及装置
CN115665642A (zh) * 2022-12-12 2023-01-31 杭州兆华电子股份有限公司 一种噪声消除方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390947B (zh) * 2018-04-23 2024-04-05 北京京东尚科信息技术有限公司 声源位置的确定方法、系统、设备和存储介质
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN111048118B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111048096B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
KR102424795B1 (ko) * 2020-08-25 2022-07-25 서울과학기술대학교 산학협력단 음성 구간 검출 방법
US11610598B2 (en) * 2021-04-14 2023-03-21 Harris Global Communications, Inc. Voice enhancement in presence of noise
CN113178192A (zh) * 2021-04-30 2021-07-27 平安科技(深圳)有限公司 语音识别模型的训练方法、装置、设备及存储介质
DE202023103428U1 (de) 2023-06-21 2023-06-28 Richik Kashyap Ein Sprachqualitätsschätzsystem für reale Signale basierend auf nicht negativer frequenzgewichteter Energie

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1315032A (zh) * 1998-06-26 2001-09-26 阿斯科姆股份公司 用于执行音频信号的传输质量的机器支持的评估的方法
WO2002013572A2 (en) * 2000-08-07 2002-02-14 Audia Technology, Inc. Method and apparatus for filtering and compressing sound signals
CN1655230A (zh) * 2005-01-18 2005-08-17 中国电子科技集团公司第三十研究所 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法
US20080219457A1 (en) * 2005-08-02 2008-09-11 Koninklijke Philips Electronics, N.V. Enhancement of Speech Intelligibility in a Mobile Communication Device by Controlling the Operation of a Vibrator of a Vibrator in Dependance of the Background Noise
US20080255829A1 (en) * 2005-09-20 2008-10-16 Jun Cheng Method and Test Signal for Measuring Speech Intelligibility
CN101582264A (zh) * 2009-06-12 2009-11-18 瑞声声学科技(深圳)有限公司 语音增强的方法及语音增加的声音采集系统
US20100211395A1 (en) * 2007-10-11 2010-08-19 Koninklijke Kpn N.V. Method and System for Speech Intelligibility Measurement of an Audio Transmission System
CN102510418A (zh) * 2011-10-28 2012-06-20 声科科技(南京)有限公司 噪声环境下的语音可懂度测量方法及装置
CN102984638A (zh) * 2011-08-23 2013-03-20 奥迪康有限公司 使好耳效应最大化的方法和双耳听音系统
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04100460A (ja) * 1990-08-20 1992-04-02 Nippon Telegr & Teleph Corp <Ntt> 電話機の歪測定方法
JP3397269B2 (ja) * 1994-10-26 2003-04-14 日本電信電話株式会社 多チャネル反響消去方法
IL115892A (en) * 1994-11-10 1999-05-09 British Telecomm Interference detection system for telecommunications
JP3420705B2 (ja) * 1998-03-16 2003-06-30 日本電信電話株式会社 エコー抑圧方法及び装置並びにエコー抑圧プログラムが記憶されたコンピュータに読取り可能な記憶媒体
US7058185B1 (en) * 1999-06-24 2006-06-06 Koninklijke Philips Electronics N.V. Acoustic echo and noise cancellation
US7171003B1 (en) * 2000-10-19 2007-01-30 Lear Corporation Robust and reliable acoustic echo and noise cancellation system for cabin communication
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
DE10157535B4 (de) * 2000-12-13 2015-05-13 Jörg Houpert Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
KR20110025853A (ko) * 2002-03-27 2011-03-11 앨리프컴 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성
JP3864914B2 (ja) * 2003-01-20 2007-01-10 ソニー株式会社 エコー抑圧装置
EP1591995B1 (en) * 2004-04-29 2019-06-19 Harman Becker Automotive Systems GmbH Indoor communication system for a vehicular cabin
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
US8594320B2 (en) * 2005-04-19 2013-11-26 (Epfl) Ecole Polytechnique Federale De Lausanne Hybrid echo and noise suppression method and device in a multi-channel audio signal
JP4671303B2 (ja) * 2005-09-02 2011-04-13 国立大学法人北陸先端科学技術大学院大学 マイクロホンアレイ用ポストフィルタ
US8046218B2 (en) * 2006-09-19 2011-10-25 The Board Of Trustees Of The University Of Illinois Speech and method for identifying perceptual features
JP4509126B2 (ja) * 2007-01-24 2010-07-21 沖電気工業株式会社 エコーキャンセラ及びエコーキャンセル方法
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
ATE521064T1 (de) * 2007-10-08 2011-09-15 Harman Becker Automotive Sys Verstärkung und spektralformenanpassung bei der verarbeitung von audiosignalen
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
CN101763858A (zh) * 2009-10-19 2010-06-30 瑞声声学科技(深圳)有限公司 双麦克风信号处理方法
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
CN102306496B (zh) * 2011-09-05 2014-07-09 歌尔声学股份有限公司 一种多麦克风阵列噪声消除方法、装置及系统
CN104050971A (zh) * 2013-03-15 2014-09-17 杜比实验室特许公司 声学回声减轻装置和方法、音频处理装置和语音通信终端
CN103606374A (zh) * 2013-11-26 2014-02-26 国家电网公司 一种瘦终端的噪音消除和回声抑制方法及装置
US10262677B2 (en) * 2015-09-02 2019-04-16 The University Of Rochester Systems and methods for removing reverberation from audio signals
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US10403299B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
US20180358032A1 (en) * 2017-06-12 2018-12-13 Ryo Tanaka System for collecting and processing audio signals

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1315032A (zh) * 1998-06-26 2001-09-26 阿斯科姆股份公司 用于执行音频信号的传输质量的机器支持的评估的方法
WO2002013572A2 (en) * 2000-08-07 2002-02-14 Audia Technology, Inc. Method and apparatus for filtering and compressing sound signals
CN1655230A (zh) * 2005-01-18 2005-08-17 中国电子科技集团公司第三十研究所 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法
US20080219457A1 (en) * 2005-08-02 2008-09-11 Koninklijke Philips Electronics, N.V. Enhancement of Speech Intelligibility in a Mobile Communication Device by Controlling the Operation of a Vibrator of a Vibrator in Dependance of the Background Noise
US20080255829A1 (en) * 2005-09-20 2008-10-16 Jun Cheng Method and Test Signal for Measuring Speech Intelligibility
US20100211395A1 (en) * 2007-10-11 2010-08-19 Koninklijke Kpn N.V. Method and System for Speech Intelligibility Measurement of an Audio Transmission System
CN101582264A (zh) * 2009-06-12 2009-11-18 瑞声声学科技(深圳)有限公司 语音增强的方法及语音增加的声音采集系统
CN102984638A (zh) * 2011-08-23 2013-03-20 奥迪康有限公司 使好耳效应最大化的方法和双耳听音系统
CN102510418A (zh) * 2011-10-28 2012-06-20 声科科技(南京)有限公司 噪声环境下的语音可懂度测量方法及装置
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YUAN-FU LIAO ET AL: ""Maximum intelligiblity-based close-loop speech synthesis framework for noisy environments"", 《ACOUSTIC,SPEECH AND SIGNAL PROCESSING,2013 IEEE INTERNATIONAL CONFERENCE》 *
ZHOU JIAN ET AL: ""Whisper intelligibility enhancement based on noise robust feature and SVM"", 《JOURNAL OF SOUTHEAST UNIVERSITY (ENGLISH EDITION)》 *
刘鹏: ""高可懂度的信号子空间语音增强算法"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
徐宇卓: ""语音可懂度客观评价方法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李娜: ""有效提高语音可懂度的语音增强方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017075979A1 (zh) * 2015-11-04 2017-05-11 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US10924614B2 (en) 2015-11-04 2021-02-16 Tencent Technology (Shenzhen) Company Limited Speech signal processing method and apparatus
US10586551B2 (en) 2015-11-04 2020-03-10 Tencent Technology (Shenzhen) Company Limited Speech signal processing method and apparatus
CN109155130A (zh) * 2016-05-13 2019-01-04 伯斯有限公司 处理来自分布式麦克风的语音
US10693799B2 (en) 2016-09-22 2020-06-23 Tencent Technology (Shenzhen) Company Limited Calling method and device, computer storage medium, and terminal
CN106506872B (zh) * 2016-11-02 2019-05-24 腾讯科技(深圳)有限公司 通话状态检测方法及装置
CN106506872A (zh) * 2016-11-02 2017-03-15 腾讯科技(深圳)有限公司 通话状态检测方法及装置
CN108447472A (zh) * 2017-02-16 2018-08-24 腾讯科技(深圳)有限公司 语音唤醒方法及装置
CN106878575A (zh) * 2017-02-24 2017-06-20 成都喜元网络科技有限公司 残留回声的估计方法及装置
CN106878575B (zh) * 2017-02-24 2019-11-05 成都喜元网络科技有限公司 残留回声的估计方法及装置
CN107833579A (zh) * 2017-10-30 2018-03-23 广州酷狗计算机科技有限公司 噪声消除方法、装置及计算机可读存储介质
CN108200526A (zh) * 2017-12-29 2018-06-22 广州励丰文化科技股份有限公司 一种基于可信度曲线的音响调试方法及装置
CN108200526B (zh) * 2017-12-29 2020-09-22 广州励丰文化科技股份有限公司 一种基于可信度曲线的音响调试方法及装置
CN109727605A (zh) * 2018-12-29 2019-05-07 苏州思必驰信息科技有限公司 处理声音信号的方法及系统
CN111128194A (zh) * 2019-12-31 2020-05-08 云知声智能科技股份有限公司 一种提高在线语音识别效果的系统及方法
CN112203188A (zh) * 2020-07-24 2021-01-08 北京工业大学 一种自动音量调节方法
CN112259125A (zh) * 2020-10-23 2021-01-22 江苏理工学院 基于噪声的舒适度评价方法、系统、设备及可存储介质
CN112259125B (zh) * 2020-10-23 2023-06-16 江苏理工学院 基于噪声的舒适度评价方法、系统、设备及可存储介质
CN112820311A (zh) * 2021-04-16 2021-05-18 成都启英泰伦科技有限公司 一种基于空间预测的回声消除方法及装置
CN115665642A (zh) * 2022-12-12 2023-01-31 杭州兆华电子股份有限公司 一种噪声消除方法及系统
CN115665642B (zh) * 2022-12-12 2023-03-17 杭州兆华电子股份有限公司 一种噪声消除方法及系统

Also Published As

Publication number Publication date
KR101981879B1 (ko) 2019-05-23
US10924614B2 (en) 2021-02-16
EP3373300A1 (en) 2018-09-12
MY179978A (en) 2020-11-19
WO2017075979A1 (zh) 2017-05-11
KR20170129211A (ko) 2017-11-24
US10586551B2 (en) 2020-03-10
US20170365270A1 (en) 2017-12-21
EP3373300B1 (en) 2020-09-16
US20200168237A1 (en) 2020-05-28
CN105280195B (zh) 2018-12-28
EP3373300A4 (en) 2019-07-31
JP2018517167A (ja) 2018-06-28
JP6505252B2 (ja) 2019-04-24

Similar Documents

Publication Publication Date Title
CN105280195A (zh) 语音信号的处理方法及装置
CN107509153B (zh) 声音播放器件的检测方法、装置、存储介质及终端
CN108668009B (zh) 输入操作控制方法、装置、终端、耳机及可读存储介质
CN104393848B (zh) 音量调节方法及装置
CN106331359B (zh) 一种语音信号采集方法、装置及终端
CN108540900B (zh) 音量调节方法及相关产品
CN103501375A (zh) 音效控制方法及装置
CN106384597B (zh) 一种音频数据处理方法、及设备
CN109616135B (zh) 音频处理方法、装置及存储介质
CN111343540B (zh) 一种钢琴音频的处理方法及电子设备
CN108763901A (zh) 耳纹信息获取方法和装置、终端、耳机及可读存储介质
CN106356070A (zh) 一种音频信号处理方法,及装置
CN113170268B (zh) 一种检测概率无声故障的方法和装置
CN110161508A (zh) 测距方法、装置、终端及存储介质
CN106356071B (zh) 一种噪声检测方法,及装置
CN108492837B (zh) 音频突发白噪声的检测方法、装置及存储介质
CN111182118B (zh) 一种音量调节方法及电子设备
CN108226880A (zh) 超声波距离检测防干扰的方法、装置及存储介质
CN107016990A (zh) 音频信号生成方法及装置
CN106297818A (zh) 一种获取去噪语音信号的方法和装置
CN116994596A (zh) 啸叫抑制方法、装置、存储介质及电子设备
CN108810787B (zh) 基于音频设备的异物检测方法和装置、终端
CN106231499A (zh) 一种音效增强方法与装置
CN110139181B (zh) 音频处理方法、装置、耳机、终端设备及存储介质
CN106534589A (zh) 一种移动终端控制方法及移动终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant