CN110060697A - 一种情感特征提取方法 - Google Patents

一种情感特征提取方法 Download PDF

Info

Publication number
CN110060697A
CN110060697A CN201910296711.0A CN201910296711A CN110060697A CN 110060697 A CN110060697 A CN 110060697A CN 201910296711 A CN201910296711 A CN 201910296711A CN 110060697 A CN110060697 A CN 110060697A
Authority
CN
China
Prior art keywords
parameter
characteristic extraction
extraction method
voice
emotional characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910296711.0A
Other languages
English (en)
Inventor
李剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Check Credit Intelligent Technology Co Ltd
Original Assignee
Hunan Check Credit Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Check Credit Intelligent Technology Co Ltd filed Critical Hunan Check Credit Intelligent Technology Co Ltd
Priority to CN201910296711.0A priority Critical patent/CN110060697A/zh
Publication of CN110060697A publication Critical patent/CN110060697A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种情感特征提取方法,包括:对语音中的一帧采样,对语音序列s(n)实行预加重然后做离散FFT变换,再逐步计算得到MFCC参数。本发明在任何条件下都可以使用MFCC参数,在抗噪能力上MFCC参数具有很强的处理能力,增强了抗噪能力。

Description

一种情感特征提取方法
技术领域
本发明涉及情感分析技术领域,更为具体地,涉及一种情感特征提取方法。
背景技术
特征参数提取是为了对语音信号进行分析处理,语音情感识别系统主要提取以短时谱为基础的各种表征,反映人耳听觉特性的MEL频率倒谱系数(MFCC)。Mel频率倒谱系数(MFCC)表示的核心思想是把人的听觉系统对频率感知的非线性特征用于语音识别特征中,具体地说,在50Hz以下的低频段,人耳对频率感知是线性的;在50Hz以上频段,人耳对频率感知呈现对数非线性。Mel频率倒谱参数(MFCC)就是充分利用了人耳对这种频段的感知特性的参数。通过临界带宽的度量方法可以采用Mel刻度,MFCC是将信号频谱的频率轴转换换为Mel刻度,所谓的Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的关系式,倒谱系数是通过倒谱域的转换得到的。现有的特征提取技术,存在抗噪特性差等问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种情感特征提取方法,在任何条件下都可以使用提取的MFCC参数,在抗噪能力上MFCC参数具有很强的处理能力,因此增强了特质提取过程中的抗噪能力。
本发明的目的是通过以下技术方案来实现的:
一种情感特征提取方法,包括:
(1)对语音序列s(n)实行预加重然后做离散FFT变换;
(2)对语音中的一帧采样{xi}i=1,2,…,M,M是帧长,对{xi}i=1,2,…,M加汉明窗后作M点的FFT,频域分量{Xi}i=1,2,…,M通过时域信号进行转化,离散功率谱S(n)通过取模的平方得到;
(3)计算S(n)通过传递函数Hm(n)求得功率值,即计算S(n)和Hm(n)的乘积再求和,求得M个参数Pm
(4)计算Pm的自然对数,求得Lm
(5)计算Lm的离散余弦变换,求得Dm
(6)去除直流成分的D0,取D1,D2,…,Dk作为MFCC参数。
进一步的,在步骤(1)中,通过传递函数为H(Z)=1-αZ-1的滤波器对其加以滤波,其中α为预加重系数且0.9<α<10,设n时刻的语音采样值为X(n),经过预加重处理后的结果为Y(n)=X(n)-αX(n-1),0.9<α<1.0。
进一步的,在步骤(1)中,k=12。
进一步的,在步骤(1)中,语音中的一帧采样,为了计算FFT方便,取n=256点。
本发明的有益效果是:
(1)本发明在任何条件下都可以使用MFCC参数,在抗噪能力上MFCC参数具有很强的处理能力,增强了抗噪能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的步骤流程示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。本说明书中公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
下面将详细描述本发明的具体实施例,应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。在以下描述中,为了提供对本发明的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的电路,软件或方法。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在对实施例进行描述之前,需要对一些必要的术语进行解释。例如:
若本申请中出现使用“第一”、“第二”等术语来描述各种元件,但是这些元件不应当由这些术语所限制。这些术语仅用来区分一个元件和另一个元件。因此,下文所讨论的“第一”元件也可以被称为“第二”元件而不偏离本发明的教导。应当理解的是,若提及一元件“连接”或者“联接”到另一元件时,其可以直接地连接或直接地联接到另一元件或者也可以存在中间元件。相反地,当提及一元件“直接地连接”或“直接地联接”到另一元件时,则不存在中间元件。
在本申请中出现的各种术语仅仅用于描述具体的实施方式的目的而无意作为对本发明的限定,除非上下文另外清楚地指出,否则单数形式意图也包括复数形式。
当在本说明书中使用术语“包括”和/或“包括有”时,这些术语指明了所述特征、整体、步骤、操作、元件和/或部件的存在,但是也不排除一个以上其他特征、整体、步骤、操作、元件、部件和/或其群组的存在和/或附加。
如图1所示,一种情感特征提取方法,包括:
(1)对语音序列s(n)实行预加重然后做离散FFT变换;
(2)对语音中的一帧采样{xi}i=1,2,…,M,M是帧长,对{xi}i=1,2,…,M加汉明窗后作M点的FFT,频域分量{Xi}i=1,2,…,M通过时域信号进行转化,离散功率谱S(n)通过取模的平方得到;
(3)计算S(n)通过传递函数Hm(n)求得功率值,即计算S(n)和Hm(n)的乘积再求和,求得M个参数Pm
(4)计算Pm的自然对数,求得Lm
(5)计算Lm的离散余弦变换,求得Dm
(6)去除直流成分的D0,取D1,D2,…,Dk作为MFCC参数。
进一步的,在步骤(1)中,通过传递函数为H(Z)=1-αZ-1的滤波器对其加以滤波,其中α为预加重系数且0.9<α<10,设n时刻的语音采样值为X(n),经过预加重处理后的结果为Y(n)=X(n)-αX(n-1),0.9<α<1.0。
进一步的,在步骤(1)中,k=12。
进一步的,在步骤(1)中,语音中的一帧采样,为了计算FFT方便,取n=256点。
实施例1
一种情感特征提取方法,包括:
(1)对语音序列s(n)实行预加重然后做离散FFT变换;
(2)对语音中的一帧采样{xi}i=1,2,…,M,M是帧长,对{xi}i=1,2,…,M加汉明窗后作M点的FFT,频域分量{Xi}i=1,2,…,M通过时域信号进行转化,离散功率谱S(n)通过取模的平方得到;
(3)计算S(n)通过传递函数Hm(n)求得功率值,即计算S(n)和Hm(n)的乘积再求和,求得M个参数Pm
(4)计算Pm的自然对数,求得Lm
(5)计算Lm的离散余弦变换,求得Dm
(6)去除直流成分的D0,取D1,D2,…,Dk作为MFCC参数。
特征参数提取是为了对语音信号进行分析处理。语音情感识别系统主要提取以短时谱为基础的各种表征,反映人耳听觉特性的MEL频率倒谱系数(MFCC)。
Mel频率倒谱系数(MFCC)表示的核心思想是把人的听觉系统对频率感知的非线性特征用于语音识别特征中,具体地说,在50Hz以下的低频段,人耳对频率感知是线性的;在50Hz以上频段,人耳对频率感知呈现对数非线性。
Mel频率倒谱参数(MFCC)就是充分利用了人耳对这种频段的感知特性的参数。通过临界带宽的度量方法可以采用Mel刻度,MFCC是将信号频谱的频率轴转换换为Mel刻度,所谓的Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的关系式,倒谱系数是通过倒谱域的转换得到的。其具体计算过程如下:
1.语音中的一帧采样{xi}i=1,2,…,M,M是帧长,对{xi}i=1,2,…,M加汉明窗后作M点的FFT,频域分量{Xi}i=1,2,…,M通过时域信号进行转化,离散功率谱S(n)通过取模的平方得到;
2.为了计算S(m)和Hn(m)的乘积在各离散频率点上的和,功率值通过带通滤波器组,获得N个参数Pj
3.计算自然对数,倒谱域通过离散余弦变换(DCT)获得到:
p是MFCC的阶数,取p=12。{Ck}k=1,2,…,12结果是MFCC的参数。
倒谱提升窗口:得到每帧数据的MFCC参数后,需要将系数乘以权系数。
4.差分倒谱参数:MFCC参数用于表示语音参数静态特性,人耳在对语音动态特征反
应上特别灵敏,常用差分倒谱参数来描述动态特性。
这里ΔC和C都表示一帧语音参数,k为常数,通常取2。差分参数就是当前帧的前后两帧的线性组合。
由上式得到的差分参数是一阶MFCC差分参数,然后再计算,得到的就是二阶MFCC差分参数。为了进行下级语音训练和识别,最后提取的特征参数为特征矢量。
具体实现程序如下:
调用函数melbankm来计算m个滤波器的系数,melbankm.m的语法为:
h=melbankm(m,n,fs)
function ccc=mfcc(x)
%归一化mel滤波器组系数
bank=melbankm(24,256,8000,0,0.5,'m');
bank=full(bank);
bank=bank/max(bank(:));
%DCT系数,12*24
for k=1:12
n=0:23;
dctcoef(k,:)=cos((2*n+1)*k*pi/(2*24));
end
%归一化倒谱提升窗口
w=1+6*sin(pi*[1:12]./12);
w=w/max(w);
%计算每帧的MFCC参数
for i=1:size(xx,1)
y=xx(i,:);
s=y'.*hamming(256);
t=abs(fft(s));
t=t.^2;
c1=dctcoef*log(bank*t(1:129));
c2=c1.*w';
m(i,:)=c2';
end
%差分系数
dtm=zeros(size(m));
for i=3:size(m,1)-2
dtm(i,:)=-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:);
end
dtm=dtm/3;
%合并mfcc参数和一阶差分mfcc参数
ccc=[m dtm];
%去除首尾两帧,因为这两帧的一阶差分参数为0
ccc=ccc(3:size(m,1)-2,:)。
在本实施例中的其余技术特征,本领域技术人员均可以根据实际情况进行灵活选用和以满足不同的具体实际需求。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实现本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的算法,方法或系统等,均在本发明的权利要求书请求保护的技术方案限定技术保护范围之内。
对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法实现所描述的功能,但是这种实现不应超出本发明的范围。
所揭露的系统、模块和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例,仅仅是示意性的,例如,所述单元的划分,可以仅仅是一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以说通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述分立部件说明的单元可以是或者也可以不收物理上分开的,作为单元显示的部件可以是或者可以不收物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例的方案的目的。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (4)

1.一种情感特征提取方法,其特征在于,包括:
(1)对语音序列s(n)实行预加重然后做离散FFT变换;
(2)对语音中的一帧采样{xi}i=1,2,…,M,M是帧长,对{xi}i=1,2,…,M加汉明窗后作M点的FFT,频域分量{Xi}i=1,2,…,M通过时域信号进行转化,离散功率谱S(n)通过取模的平方得到;
(3)计算S(n)通过传递函数Hm(n)求得功率值,即计算S(n)和Hm(n)的乘积再求和,求得M个参数Pm
(4)计算Pm的自然对数,求得Lm
(5)计算Lm的离散余弦变换,求得Dm
(6)去除直流成分的D0,取D1,D2,…,Dk作为MFCC参数。
2.根据权利要求1所述的一种情感特征提取方法,其特征在于,在步骤(1)中,通过传递函数为H(Z)=1-αZ-1的滤波器对其加以滤波,其中α为预加重系数且0.9<α<10,设n时刻的语音采样值为X(n),经过预加重处理后的结果为Y(n)=X(n)-αX(n-1),0.9<α<1.0。
3.根据权利要求1所述的一种情感特征提取方法,其特征在于,在步骤(1)中,k=12。
4.根据权利要求1所述的一种情感特征提取方法,其特征在于,在步骤(1)中,语音中的一帧采样,取n=256点。
CN201910296711.0A 2019-04-14 2019-04-14 一种情感特征提取方法 Pending CN110060697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910296711.0A CN110060697A (zh) 2019-04-14 2019-04-14 一种情感特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910296711.0A CN110060697A (zh) 2019-04-14 2019-04-14 一种情感特征提取方法

Publications (1)

Publication Number Publication Date
CN110060697A true CN110060697A (zh) 2019-07-26

Family

ID=67318953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910296711.0A Pending CN110060697A (zh) 2019-04-14 2019-04-14 一种情感特征提取方法

Country Status (1)

Country Link
CN (1) CN110060697A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184732A (zh) * 2011-04-28 2011-09-14 重庆邮电大学 基于分形特征的智能轮椅语音识别控制方法及系统
CN102426835A (zh) * 2011-08-30 2012-04-25 华南理工大学 一种基于支持向量机模型的开关柜局部放电信号识别方法
CN102982803A (zh) * 2012-12-11 2013-03-20 华南师范大学 基于hrsf及改进dtw算法的孤立词语音识别方法
CN103366759A (zh) * 2012-03-29 2013-10-23 北京中传天籁数字技术有限公司 语音数据的测评方法和装置
CN103514877A (zh) * 2013-10-12 2014-01-15 新疆美特智能安全工程股份有限公司 振动信号特征参数提取方法
CN105206270A (zh) * 2015-08-20 2015-12-30 长安大学 一种组合pca和rbm的孤立数字语音识别分类系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184732A (zh) * 2011-04-28 2011-09-14 重庆邮电大学 基于分形特征的智能轮椅语音识别控制方法及系统
CN102426835A (zh) * 2011-08-30 2012-04-25 华南理工大学 一种基于支持向量机模型的开关柜局部放电信号识别方法
CN103366759A (zh) * 2012-03-29 2013-10-23 北京中传天籁数字技术有限公司 语音数据的测评方法和装置
CN102982803A (zh) * 2012-12-11 2013-03-20 华南师范大学 基于hrsf及改进dtw算法的孤立词语音识别方法
CN103514877A (zh) * 2013-10-12 2014-01-15 新疆美特智能安全工程股份有限公司 振动信号特征参数提取方法
CN105206270A (zh) * 2015-08-20 2015-12-30 长安大学 一种组合pca和rbm的孤立数字语音识别分类系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李子琳: "语音信号识别技术及应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
杨亚山: "基于语音情感智能的呼叫中心服务管理研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN107610708B (zh) 识别声纹的方法及设备
CN105489221B (zh) 一种语音识别方法及装置
CN105872855A (zh) 视频文件的标注方法及装置
CN112634920A (zh) 基于域分离的语音转换模型的训练方法及装置
DE60025748T2 (de) Spracherkennung
CN110111769B (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN109147796A (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN108877823A (zh) 语音增强方法和装置
WO2021218136A1 (zh) 基于语音的用户性别年龄识别方法、装置、计算机设备及存储介质
CN108564956B (zh) 一种声纹识别方法和装置、服务器、存储介质
US9484044B1 (en) Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US6701291B2 (en) Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis
CN109147798A (zh) 语音识别方法、装置、电子设备及可读存储介质
US9208794B1 (en) Providing sound models of an input signal using continuous and/or linear fitting
CN114187922A (zh) 一种音频检测方法、装置及终端设备
CN111462736B (zh) 基于语音的图像生成方法、装置和电子设备
Jensen et al. A perceptual subspace approach for modeling of speech and audio signals with damped sinusoids
CN115884032A (zh) 一种后馈式耳机的智慧通话降噪方法及系统
Dash et al. Multi-objective approach to speech enhancement using tunable Q-factor-based wavelet transform and ANN techniques
CN114974281A (zh) 语音降噪模型的训练方法、装置、存储介质及电子装置
CN110060697A (zh) 一种情感特征提取方法
Nirjon et al. sMFCC: exploiting sparseness in speech for fast acoustic feature extraction on mobile devices--a feasibility study
CN116665638A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN110767238B (zh) 基于地址信息的黑名单识别方法、装置、设备及存储介质
CN115116471A (zh) 音频信号处理方法和装置、训练方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190726

RJ01 Rejection of invention patent application after publication