CN110288983B - 一种基于机器学习的语音处理方法 - Google Patents
一种基于机器学习的语音处理方法 Download PDFInfo
- Publication number
- CN110288983B CN110288983B CN201910558412.XA CN201910558412A CN110288983B CN 110288983 B CN110288983 B CN 110288983B CN 201910558412 A CN201910558412 A CN 201910558412A CN 110288983 B CN110288983 B CN 110288983B
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- characteristic
- vector
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 16
- 238000003672 processing method Methods 0.000 title description 5
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 17
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000010183 spectrum analysis Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
- Complex Calculations (AREA)
Abstract
一种基于机器学习的语音处理方法,包括:确定语音样本分类数量为k,预先接收一组包括多个具有分类标签的语音样本;对已获得的语音样本进行频谱分析,提取特征属性;接收语音信号,分析当前输入的语音信号特征,通过由所述语音样本进行机器学习建立的模型判断当前输入信号的类别;根据判断结果对输入语音信号进行数字滤波操作。本发明提高了语音美化技术的普适性,提高语音处理效率,赋予系统对不同人群语音类别的判别能力。
Description
技术领域
本发明属于人工智能技术领域,特别涉及一种基于机器学习的语音处理方法。
背景技术
对于语音音频的处理美化技术,主要集中在视频后期制作、歌曲调音、主持人调音等专业领域。现有方法是通过人工操作,根据经验以及响应的规则对音频信号进行处理,达到美化音频的效果。其具体方法是将语音音频分为若干频段,分别对其幅值进行相应的增益处理,再将其叠加。这种方法需要专业人员根据被调音人的声音特点和自身经验自行把握,导致调音时间成本较高,调音结果各有不同,且专业性强。因此该方法不适用于对于普通人日常语音交流、小视频制作等活动中对音频的美化操作。
发明内容
本发明实施例针对目前语音美化技术专业性强,需要专业人员进行调音,时间成本较高等问题,采用机器学习分类算法判断输入语音信号的类别,并根据其类别做出相应的数字滤波处理,达到在无专业设备和专业人员操作下快速美化语音的效果,扩展了语音美化技术的应用领域。
本发明实施例之一,一种基于机器学习的语音处理方法,该方法包括步骤:
确定语音样本分类数量为k,预先接收一组包括多个具有分类标签的语音样本;
对已获得的语音样本进行频谱分析,提取特征属性;
接收语音信号,分析当前输入的语音信号特征,通过由所述语音样本进行机器学习建立的模型判断当前输入信号的类别;
根据判断结果对输入语音信号进行数字滤波操作。
本发明采用机器学习分类算法,分析输入语音信号的特征属性并将其分类,再根据分类结果做出相应的美化操作,扩展了语音美化技术的应用领域,大幅提高了语音美化操作的处理速度,节省了人工语音处理的成本,可进行在线语音美化操作。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1根据本发明实施例之一的基于机器学习的语音处理方法流程图。
具体实施方式
根据一个或者多个实施例,如图1所示,一种语音处理方法,包括以下几个步骤:
S101.确定系统分类个数k,预先输入一组数量足够的带分类标签的语音样本;
S102.将输入的语音信号进行预处理(主要为频谱分析),提取其特征属性;
S103.判断当前输入信号是否为可处理的语音信号,若不是则不进行美化操作;
S104.分析系统当前输入的语音信号特征,通过机器学习分类方法判断当前输入信号的类别;
S105.根据判断结果对输入信号进行与美化方向相应的数字滤波操作。
其中,步骤S103中预先输入的语音样本须具备在其所属类别中具有典型样本为中心的分布;
步骤S104中的机器学习分类方法根据场景需求做出选择;
步骤S105中每个类别采用固定系数的数字滤波器对其进行处理,根据该类别的通用美化方向制定滤波器权系数。
根据一个或者多个实施例,一种适用于语音信箱的语音美化方法。在该实施例中,信号处理中允许具有较大的时间复杂度和空间复杂度,同时输入信号长度固定且已知,可采用k-近邻算法对其分类。
首先输入一组数量为p的带标签语音语音样本,确定分类个数k。
对每个样本进行快速傅里叶变换:
提取频谱中前N/2个元素,组成向量:
X=(X(0)X(0)...X(N/2))T (1-2)
将其降序排列得到向量:
X′=(X′(0)X′(1)...X′(N/2))T (1-3)
满足
X′(0)≥X′(1)≥…≥X′(N/2) (1-4)
提取其特征属性:
其中x1、x2、x3、x4表示最大的四个频率点所在的频率位置,Amax表示输入信号最大幅值,Aave表示最大四个频率点的平均幅值。
将以上六个特征属性组成向量,得到第i个样本的特征属性矢量:
X(i)=(x(i)1 x(i)2 x(i)3 x(i)4 A(i)max A(i)ave)T (1-6)
重复以上操作得到所有p个语音样本的特征是下矢量所张成的线性空间:
S=Span{X(1),X(2),...X(p)} (1-7)
系统输入一长度为N的信号xin(n),求其频谱中前N/2个元素组成的向量Xin和Xin的降序排列矢量X′in。取X′in中位数:
Ain=X′in(N/4) (1-8)
若满足:
即信号具有至少四个明显的频率点,则判断其是否为可处理的语音信号,进行下一步处理,否则不处理该信号,直接将输入信号输出。
若上述条件符合,则计算输入信号的特征属性矢量:
Xin=(x1 x2 x3 x4 Amax Aave)T (1-10)
判断其与线性空间S中各点的距离(这里采用欧式距离):
将与Xin距离最小的k个样本取出,根据取出样本的标签类别进行投票,票数最多的为系统判断的类别。
根据系统对Xin类别的判断对Xin进行数字滤波,系统预先根据对应类别的特征进行滤波器设计。例如年轻女性一类,在100Hz左右衰减6dB~10dB,在250Hz~2kHz频段提升3dB~6dB,此举可提高女声的饱满度并抑制近讲效应引起的低频过强现象。
最后系统将滤波完成后的音频打包发送给目的地址。
根据一个或者多个实施例,一种适用于视频聊天、语音通话的在线语音美化方法。鉴于在线语音美化需要系统具备高实时性和低算法复杂度,由于网络实时传输本身具有丢包现象,对输出信号精度(采用频率)要求较低,可采用决策树算法对输入信号进行分类。为了满足系统的实时性,可采用分时间片处理方案。
首先输入一组数量为p的带标签语音语音样本,确定分类个数k。
与前述实施例中对语音样本的预处理方法相同,得到特征属性矢量:
X(i)=(x(i)1 x(i)2 x(i)3 x(i)4 A(i)max A(i)ave)T (2-1)
重复以上操作得到p个特征属性矢量,由于系统精度要求不高,这里将每个特征属性按照数值大小分为低、中、高三个类,令其分别对应于1,2,3。
求系统基础信息熵H(Dbase):
其中P(x)表示第x个类别出现的概率。
假设采用第i条特征属性划分数据集,其第j个子数据集(特征属性取值对应于第j个划分,j=1,2,3)的信息熵为:
其中Pim表示第i条特征属性划分下,该属性特征取值为j的条件下,第x个类别发生的概率。
计算第i条特征属性划分下的信息熵:
信息增益为:
Ai=H(Dbase)-H(Di) (2-5)
通过上述方法计算6个特征属性的信息增益,将信息增益最大的特征作为数据划分节点。再从未被选择的特征里继续选择最优数据划分特征来划分子数据集,从而完成决策树的创建。
以上均为系统预先对语音信号的学习,现在对系统输入进行处理:
系统输入x(n)长度未知,设一个时间片长度为2s,且认定每个时间片内语音信号的类别不变。
则一个时间片的长度为2f,f为输入信号的采样频率。取当前时间片的第1.8f个点到第1.9f个点为输入信号xin(n),经过0.1f个采样周期的计算时间,可保证下一个时间片可完整的得到系统滤波,以此类推。(第一个时间片不处理)
对长度为0.1f的系统输入xin(n),与前述实施例判别方法相同,判断其是否为可处理的语音信号,进行下一步处理,否则不处理该信号,直接将输入信号输出。
若条件符合,则计算输入信号的特征属性矢量:
Xin=(x1 x2 x3 x4 Amax Aave)T (2-6)
将Xin输入预先创建好的决策树,通过各特征属性的划分可直接得出Xin的类别,以Xin类别对应的数字滤波权系数对下一个时间片的语音信号滤波。
根据一个或者多个实施例,一种基于机器学习的语音处理装置,所述语音处理装置包括存储器;以及耦合到所述存储器的处理器,该处理器被配置为执行存储在所述存储器中的指令,所述处理器执行以下RPA操作:
确定语音样本分类数量为k,预先接收一组包括多个具有分类标签的语音样本;
对已获得的语音样本进行频谱分析,提取特征属性;
接收语音信号,分析当前输入的语音信号特征,通过由所述语音样本进行机器学习建立的模型判断当前输入信号的类别;
根据判断结果对输入语音信号进行数字滤波操作。
RPA,即Robotic Process Automation(软件流程自动化),是指用软件自动化方式实现在各个行业中本来是人工操作计算机完成的业务。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (2)
1.一种基于机器学习的语音处理系统,其特征在于,该系统对语音的处理包括步骤:
首先,输入一组数量为p的带标签语音语音样本,确定分类个数k;
对每个样本进行快速傅里叶变换:
提取频谱中前N/2个元素,组成向量:
X=(X(0) X(1) ... X(N/2))T (1-2)
将其降序排列得到向量:
X′=(X′(0) X′(1) ... X′(N/2))T (1-3)
满足
X′(0)≥X′(1)≥…≥X′(N/2) (1-4)
提取特征属性:
其中x1、x2、x3、x4表示最大的四个频率点所在的频率位置,Amax表示输入信号最大幅值,Aave表示最大四个频率点的平均幅值,
将式(1-5)中六个特征属性组成向量,得到第i个样本的特征属性矢量:
X(i)=(x(i)1x(i)2x(i)3x(i)4A(i)maxA(i)ave)T (1-6)
重复操作得到所有p个语音样本的特征是下矢量所张成的线性空间:
S=Span{X(1),X(2),...X(p)} (1-7)
系统输入一长度为N的信号xin(n),求其频谱中前N/2个元素组成的向量Xin和Xin的降序排列矢量X′in,取X′in中位数:
Ain=X′in(N/4) (1-8)
若满足:
即信号具有至少四个明显的频率点,则判断其是否为可处理的语音信号,进行下一步处理,否则不处理该信号,直接将输入信号输出;
若上述条件符合,则计算输入信号的特征属性矢量:
Xin=(x1 x2 x3 x4 Amax Aave)T (1-10)
判断其与线性空间S中各点的距离(这里采用欧式距离):
将与Xin距离最小的k个样本取出,根据取出样本的标签类别进行投票,票数最多的为系统判断的类别;
根据系统对Xin类别的判断对Xin进行数字滤波,系统预先根据对应类别的特征进行滤波器设计,系统完成对音频滤波处理。
2.一种基于机器学习的语音处理系统,其特征在于,该系统对语音的处理包括步骤:
首先,输入一组数量为p的带标签语音语音样本,确定分类个数k;
对每个样本进行快速傅里叶变换:
提取频谱中前N/2个元素,组成向量:
X=(X(0) X(1) ... X(N/2))T (1-2)
将其降序排列得到向量:
X′=(X′(0) X′(1) ... X′(N/2))T (1-3)
满足
X′(0)≥X′(1)≥…≥X′(N/2) (1-4)
提取特征属性:
其中x1、x2、x3、x4表示最大的四个频率点所在的频率位置,Amax表示输入信号最大幅值,Aave表示最大四个频率点的平均幅值,
将式(1-5)中六个特征属性组成向量,得到第i个样本的特征属性矢量:
X(i)=(x(i)1 x(i)2 x(i)3 x(i)4 A(i)max A(i)ave)T (2-1)
重复以上操作得到p个特征属性矢量,由于系统精度要求不高,这里将每个特征属性按照数值大小分为低、中、高三个类,令其分别对应于1,2,3,
求系统基础信息熵H(Dbase):
其中P(x)表示第x个类别出现的概率,
假设采用第i条特征属性划分数据集,其第j个子数据集(特征属性取值对应于第j个划分,j=1,2,3)的信息熵为:
其中Pim表示第i条特征属性划分下,该属性特征取值为j的条件下,第x个类别发生的概率,
计算第i条特征属性划分下的信息熵:
信息增益为:
Ai=H(Dbase)-H(Di) (2-5)
计算所述6个特征属性的信息增益,将信息增益最大的特征作为数据划分节点,再从未被选择的特征里继续选择最优数据划分特征来划分子数据集,从而完成决策树的创建;
系统完成对语音信号的学习后,对系统当前输入进行处理:
系统输入x(n)长度未知,设一个时间片长度,且认定每个时间片内语音信号的类别不变;
则一个时间片的长度为2f,f为输入信号的采样频率,取当前时间片的第1.8f个点到第1.9f个点为输入信号xin(n),经过0.1f个采样周期的计算时间,可保证下一个时间片可完整的得到系统滤波;
对长度为0.1f的系统输入xin(n),判断其是否为可处理的语音信号,进行下一步处理,否则不处理该信号,直接将输入信号输出;
若条件符合,则计算输入信号的特征属性矢量:
Xin=(x1 x2 x3 x4 Amax Aave)T (2-6)
将Xin输入预先创建好的决策树,通过各特征属性的划分可直接得出Xin的类别,以Xin类别对应的数字滤波权系数对下一个时间片的语音信号滤波。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910558412.XA CN110288983B (zh) | 2019-06-26 | 2019-06-26 | 一种基于机器学习的语音处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910558412.XA CN110288983B (zh) | 2019-06-26 | 2019-06-26 | 一种基于机器学习的语音处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110288983A CN110288983A (zh) | 2019-09-27 |
CN110288983B true CN110288983B (zh) | 2021-10-01 |
Family
ID=68005954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910558412.XA Active CN110288983B (zh) | 2019-06-26 | 2019-06-26 | 一种基于机器学习的语音处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110288983B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6789063B1 (en) * | 2000-09-01 | 2004-09-07 | Intel Corporation | Acoustic modeling using a two-level decision tree in a speech recognition system |
CN102089803A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用以将信号的不同段分类的方法与鉴别器 |
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
CN105405448A (zh) * | 2014-09-16 | 2016-03-16 | 科大讯飞股份有限公司 | 一种音效处理方法及装置 |
US10002609B2 (en) * | 2013-12-24 | 2018-06-19 | Industrial Technology Research Institute | Device and method for generating recognition network by adjusting recognition vocabulary weights based on a number of times they appear in operation contents |
US10199037B1 (en) * | 2016-06-29 | 2019-02-05 | Amazon Technologies, Inc. | Adaptive beam pruning for automatic speech recognition |
CN109599094A (zh) * | 2018-12-17 | 2019-04-09 | 海南大学 | 声音美容与情感修饰的方法 |
-
2019
- 2019-06-26 CN CN201910558412.XA patent/CN110288983B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6789063B1 (en) * | 2000-09-01 | 2004-09-07 | Intel Corporation | Acoustic modeling using a two-level decision tree in a speech recognition system |
CN102089803A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用以将信号的不同段分类的方法与鉴别器 |
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
US10002609B2 (en) * | 2013-12-24 | 2018-06-19 | Industrial Technology Research Institute | Device and method for generating recognition network by adjusting recognition vocabulary weights based on a number of times they appear in operation contents |
CN105405448A (zh) * | 2014-09-16 | 2016-03-16 | 科大讯飞股份有限公司 | 一种音效处理方法及装置 |
US10199037B1 (en) * | 2016-06-29 | 2019-02-05 | Amazon Technologies, Inc. | Adaptive beam pruning for automatic speech recognition |
CN109599094A (zh) * | 2018-12-17 | 2019-04-09 | 海南大学 | 声音美容与情感修饰的方法 |
Non-Patent Citations (4)
Title |
---|
Content Analysis for Audio Classification and Segmentation;Lie Lu et al;《504 IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》;20021031;第10卷(第7期);全文 * |
DECISION TREE BASED TONE MODELING FOR CHINESE SPEECH RECOGNITION;Pui-Fung WONG et al;《2014 IEEE International Conference on Acoustics,Speech,and Signal Processing》;20040521;全文 * |
基于决策树和改进SVM混合模型的语音情感识别;赵涓涓等;《北京理工大学学报》;20170430;第37卷(第4期);全文 * |
面向语音情感识别的深度学习算法研究;朱芳枚;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110288983A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | Autospeech: Neural architecture search for speaker recognition | |
CN111080109B (zh) | 客服服务质量评价方法、装置及电子设备 | |
JP3065314B1 (ja) | 高速信号探索方法、装置およびその記録媒体 | |
CN109767757A (zh) | 一种会议记录生成方法和装置 | |
JP2005518118A (ja) | 周波数解析のためのフィルタセット | |
CN101515454B (zh) | 用于语音、音乐、噪音自动分类的信号特征提取方法 | |
CN109890043A (zh) | 一种基于生成式对抗网络的无线信号降噪方法 | |
US20210326700A1 (en) | Neural network optimization | |
CN112906859B (zh) | 一种用于轴承故障诊断的联邦学习方法 | |
CN116153330B (zh) | 一种智能电话语音机器人控制方法 | |
CN111768761A (zh) | 一种语音识别模型的训练方法和装置 | |
CN115062678A (zh) | 设备故障检测模型的训练方法、故障检测方法及装置 | |
JP4760614B2 (ja) | 信号識別装置の学習データの選択方法 | |
CN110288983B (zh) | 一种基于机器学习的语音处理方法 | |
JP6843701B2 (ja) | 音響信号処理のパラメータ予測装置及びパラメータ予測方法 | |
CN110265060B (zh) | 一种基于密度聚类的说话人数目自动检测方法 | |
CN116566777A (zh) | 一种基于图卷积神经网络的跳频信号调制识别方法 | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 | |
CN113793623B (zh) | 音效设置方法、装置、设备以及计算机可读存储介质 | |
CN103390404A (zh) | 信息处理装置、信息处理方法和信息处理程序 | |
CN114218428A (zh) | 音频数据聚类方法、装置、设备及存储介质 | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
CN113066506A (zh) | 音频数据分离方法、装置、电子设备以及存储介质 | |
Unluturk et al. | Emotion recognition using neural networks | |
Krishnamurthy et al. | Segregation in social networks: Markov bridge models and estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |