CN110288983A - 一种基于机器学习的语音处理方法 - Google Patents

一种基于机器学习的语音处理方法 Download PDF

Info

Publication number
CN110288983A
CN110288983A CN201910558412.XA CN201910558412A CN110288983A CN 110288983 A CN110288983 A CN 110288983A CN 201910558412 A CN201910558412 A CN 201910558412A CN 110288983 A CN110288983 A CN 110288983A
Authority
CN
China
Prior art keywords
signal
classification
speech
voice
characteristic attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910558412.XA
Other languages
English (en)
Other versions
CN110288983B (zh
Inventor
张昊天
刘文红
胡锦熙
刘中华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dianji University
Original Assignee
Shanghai Dianji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dianji University filed Critical Shanghai Dianji University
Priority to CN201910558412.XA priority Critical patent/CN110288983B/zh
Publication of CN110288983A publication Critical patent/CN110288983A/zh
Application granted granted Critical
Publication of CN110288983B publication Critical patent/CN110288983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于机器学习的语音处理方法,包括:确定语音样本分类数量为k,预先接收一组包括多个具有分类标签的语音样本;对已获得的语音样本进行频谱分析,提取特征属性;接收语音信号,分析当前输入的语音信号特征,通过由所述语音样本进行机器学习建立的模型判断当前输入信号的类别;根据判断结果对输入语音信号进行数字滤波操作。本发明提高了语音美化技术的普适性,提高语音处理效率,赋予系统对不同人群语音类别的判别能力。

Description

一种基于机器学习的语音处理方法
技术领域
本发明属于人工智能技术领域,特别涉及一种基于机器学习的语音处理方法。
背景技术
对于语音音频的处理美化技术,主要集中在视频后期制作、歌曲调音、主持人调音等专业领域。现有方法是通过人工操作,根据经验以及响应的规则对音频信号进行处理,达到美化音频的效果。其具体方法是将语音音频分为若干频段,分别对其幅值进行相应的增益处理,再将其叠加。这种方法需要专业人员根据被调音人的声音特点和自身经验自行把握,导致调音时间成本较高,调音结果各有不同,且专业性强。因此该方法不适用于对于普通人日常语音交流、小视频制作等活动中对音频的美化操作。
发明内容
本发明实施例针对目前语音美化技术专业性强,需要专业人员进行调音,时间成本较高等问题,采用机器学习分类算法判断输入语音信号的类别,并根据其类别做出相应的数字滤波处理,达到在无专业设备和专业人员操作下快速美化语音的效果,扩展了语音美化技术的应用领域。
本发明实施例之一,一种基于机器学习的语音处理方法,该方法包括步骤:
确定语音样本分类数量为k,预先接收一组包括多个具有分类标签的语音样本;
对已获得的语音样本进行频谱分析,提取特征属性;
接收语音信号,分析当前输入的语音信号特征,通过由所述语音样本进行机器学习建立的模型判断当前输入信号的类别;
根据判断结果对输入语音信号进行数字滤波操作。
本发明采用机器学习分类算法,分析输入语音信号的特征属性并将其分类,再根据分类结果做出相应的美化操作,扩展了语音美化技术的应用领域,大幅提高了语音美化操作的处理速度,节省了人工语音处理的成本,可进行在线语音美化操作。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1根据本发明实施例之一的基于机器学习的语音处理方法流程图。
具体实施方式
根据一个或者多个实施例,如图1所示,一种语音处理方法,包括以下几个步骤:
S101.确定系统分类个数k,预先输入一组数量足够的带分类标签的语音样本;
S102.将输入的语音信号进行预处理(主要为频谱分析),提取其特征属性;
S103.判断当前输入信号是否为可处理的语音信号,若不是则不进行美化操作;
S104.分析系统当前输入的语音信号特征,通过机器学习分类方法判断当前输入信号的类别;
S105.根据判断结果对输入信号进行与美化方向相应的数字滤波操作。
其中,步骤S103中预先输入的语音样本须具备在其所属类别中具有典型样本为中心的分布;
步骤S104中的机器学习分类方法根据场景需求做出选择;
步骤S105中每个类别采用固定系数的数字滤波器对其进行处理,根据该类别的通用美化方向制定滤波器权系数。
根据一个或者多个实施例,一种适用于语音信箱的语音美化方法。在该实施例中,信号处理中允许具有较大的时间复杂度和空间复杂度,同时输入信号长度固定且已知,可采用k-近邻算法对其分类。
首先输入一组数量为p的带标签语音语音样本,确定分类个数k。
对每个样本进行快速傅里叶变换:
其中结合采样频率f,确定其频谱。
提取频谱中前N/2个元素,组成向量:
X=(X(0)X(0)...X(N/2))T (1-2)
将其降序排列得到向量:
X′=(X′(0)X′(1)...X′(N/2))T (1-3)
满足
X′(0)≥X′(1)≥…≥X′(N/2) (1-4)
提取其特征属性:
其中x1、x2、x3、x4表示最大的四个频率点所在的频率位置,Amax表示输入信号最大幅值,Aave表示最大四个频率点的平均幅值。
将以上六个特征属性组成向量,得到第i个样本的特征属性矢量:
X(i)=(x(i)1 x(i)2 x(i)3 x(i)4 A(i)max A(i)ave)T (1-6)
重复以上操作得到所有p个语音样本的特征是下矢量所张成的线性空间:
S=Span{X(1),X(2),...X(p)} (1-7)
系统输入一长度为N的信号xin(n),求其频谱中前N/2个元素组成的向量Xin和Xin的降序排列矢量X′in。取X′in中位数:
Ain=X′in(N/4) (1-8)
若满足:
即信号具有至少四个明显的频率点,则判断其是否为可处理的语音信号,进行下一步处理,否则不处理该信号,直接将输入信号输出。
若上述条件符合,则计算输入信号的特征属性矢量:
Xin=(x1 x2 x3 x4 Amax Aave)T (1-10)
判断其与线性空间S中各点的距离(这里采用欧式距离):
将与Xin距离最小的k个样本取出,根据取出样本的标签类别进行投票,票数最多的为系统判断的类别。
根据系统对Xin类别的判断对Xin进行数字滤波,系统预先根据对应类别的特征进行滤波器设计。例如年轻女性一类,在100Hz左右衰减6dB~10dB,在250Hz~2kHz频段提升3dB~6dB,此举可提高女声的饱满度并抑制近讲效应引起的低频过强现象。
最后系统将滤波完成后的音频打包发送给目的地址。
根据一个或者多个实施例,一种适用于视频聊天、语音通话的在线语音美化方法。鉴于在线语音美化需要系统具备高实时性和低算法复杂度,由于网络实时传输本身具有丢包现象,对输出信号精度(采用频率)要求较低,可采用决策树算法对输入信号进行分类。为了满足系统的实时性,可采用分时间片处理方案。
首先输入一组数量为p的带标签语音语音样本,确定分类个数k。
与前述实施例中对语音样本的预处理方法相同,得到特征属性矢量:
X(i)=(x(i)1 x(i)2 x(i)3 x(i)4 A(i)max A(i)ave)T (2-1)
重复以上操作得到p个特征属性矢量,由于系统精度要求不高,这里将每个特征属性按照数值大小分为低、中、高三个类,令其分别对应于1,2,3。
求系统基础信息熵H(Dbase):
其中P(x)表示第x个类别出现的概率。
假设采用第i条特征属性划分数据集,其第j个子数据集(特征属性取值对应于第j个划分,j=1,2,3)的信息熵为:
其中Pim表示第i条特征属性划分下,该属性特征取值为j的条件下,第x个类别发生的概率。
计算第i条特征属性划分下的信息熵:
信息增益为:
Ai=H(Dbase)-H(Di) (2-5)
通过上述方法计算6个特征属性的信息增益,将信息增益最大的特征作为数据划分节点。再从未被选择的特征里继续选择最优数据划分特征来划分子数据集,从而完成决策树的创建。
以上均为系统预先对语音信号的学习,现在对系统输入进行处理:
系统输入x(n)长度未知,设一个时间片长度为2s,且认定每个时间片内语音信号的类别不变。
则一个时间片的长度为2f,f为输入信号的采样频率。取当前时间片的第1.8f个点到第1.9f个点为输入信号xin(n),经过0.1f个采样周期的计算时间,可保证下一个时间片可完整的得到系统滤波,以此类推。(第一个时间片不处理)
对长度为0.1f的系统输入xin(n),与前述实施例判别方法相同,判断其是否为可处理的语音信号,进行下一步处理,否则不处理该信号,直接将输入信号输出。
若条件符合,则计算输入信号的特征属性矢量:
Xin=(x1 x2 x3 x4 Amax Aave)T (2-6)
将Xin输入预先创建好的决策树,通过各特征属性的划分可直接得出Xin的类别,以Xin类别对应的数字滤波权系数对下一个时间片的语音信号滤波。
根据一个或者多个实施例,一种基于机器学习的语音处理装置,所述语音处理装置包括存储器;以及耦合到所述存储器的处理器,该处理器被配置为执行存储在所述存储器中的指令,所述处理器执行以下RPA操作:
确定语音样本分类数量为k,预先接收一组包括多个具有分类标签的语音样本;
对已获得的语音样本进行频谱分析,提取特征属性;
接收语音信号,分析当前输入的语音信号特征,通过由所述语音样本进行机器学习建立的模型判断当前输入信号的类别;
根据判断结果对输入语音信号进行数字滤波操作。
RPA,即Robotic Process Automation(软件流程自动化),是指用软件自动化方式实现在各个行业中本来是人工操作计算机完成的业务。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于机器学习的语音处理方法,该方法包括步骤:
确定语音样本分类数量为k,预先接收一组包括多个具有分类标签的语音样本;
对已获得的语音样本进行频谱分析,提取特征属性;
接收语音信号,分析当前输入的语音信号特征,通过由所述语音样本进行机器学习建立的模型判断当前输入信号的类别;
根据判断结果对输入语音信号进行数字滤波操作。
2.根据权利要求1所述的基于机器学习的语音处理方法,其特征在于,预先输入的语音样本具备在其所属类别中具有典型样本为中心的分布。
3.根据权利要求1所述的基于机器学习的语音处理方法,其特征在于,对输入语音信号进行数字滤波操作中,根据语音信号类别采用固定系数的数字滤波器进行处理,根据该类别的处理需要制定滤波器权系数。
4.一种基于机器学习的语音处理系统,其特征在于,该系统对语音的处理包括步骤:
首先,输入一组数量为p的带标签语音语音样本,确定分类个数k;
对每个样本进行快速傅里叶变换:
其中结合采样频率f,确定其频谱,
提取频谱中前N/2个元素,组成向量:
X=(X(0) X(0) ... X(N/2))T (1-2)
将其降序排列得到向量:
X′=(X′(0) X′(1) ... X′(N/2))T (1-3)
满足
X′(0)≥X′(1)≥…≥X′(N/2) (1-4)
提取特征属性:
其中x1、x2、x3、x4表示最大的四个频率点所在的频率位置,Amax表示输入信号最大幅值,Aave表示最大四个频率点的平均幅值,
将式(1-5)中六个特征属性组成向量,得到第i个样本的特征属性矢量:
X(i)=(x(i)1 x(i)2 x(i)3 x(i)4 A(i)max A(i)ave)T (1-6)
重复操作得到所有p个语音样本的特征是下矢量所张成的线性空间:
S=Span{X(1),X(2),...X(p)} (1-7)
系统输入一长度为N的信号xin(n),求其频谱中前N/2个元素组成的向量Xin和Xin的降序排列矢量X′in。取X′in中位数:
Ain=X′in(N/4) (1-8)
若满足:
即信号具有至少四个明显的频率点,则判断其是否为可处理的语音信号,进行下一步处理,否则不处理该信号,直接将输入信号输出;
若上述条件符合,则计算输入信号的特征属性矢量:
Xin=(x1 x2 x3 x4 Amax Aave)T (1-10)
判断其与线性空间S中各点的距离(这里采用欧式距离):
将与Xin距离最小的k个样本取出,根据取出样本的标签类别进行投票,票数最多的为系统判断的类别;
根据系统对Xin类别的判断对Xin进行数字滤波,系统预先根据对应类别的特征进行滤波器设计,系统完成对音频滤波处理。
5.一种基于机器学习的语音处理系统,其特征在于,该系统对语音的处理包括步骤:
首先,输入一组数量为p的带标签语音语音样本,确定分类个数k;
对每个样本进行快速傅里叶变换:
其中结合采样频率f,确定其频谱,
提取频谱中前N/2个元素,组成向量:
X=(X(0) X(0) ... X(N/2))T (1-2)
将其降序排列得到向量:
X′=(X′(0) X′(1) ... X′(N/2))T (1-3)
满足
X′(0)≥X′(1)≥…≥X′(N/2) (1-4)
提取特征属性:
其中x1、x2、x3、x4表示最大的四个频率点所在的频率位置,Amax表示输入信号最大幅值,Aave表示最大四个频率点的平均幅值,
将式(1-5)中六个特征属性组成向量,得到第i个样本的特征属性矢量:
X(i)=(x(i)1 x(i)2 x(i)3 x(i)4 A(i)maxA(i)ave)T (2-1)
重复以上操作得到p个特征属性矢量,由于系统精度要求不高,这里将每个特征属性按照数值大小分为低、中、高三个类,令其分别对应于1,2,3,
求系统基础信息熵H(Dbase):
其中P(x)表示第x个类别出现的概率,
假设采用第i条特征属性划分数据集,其第j个子数据集(特征属性取值对应于第j个划分,j=1,2,3)的信息熵为:
其中Pim表示第i条特征属性划分下,该属性特征取值为j的条件下,第x个类别发生的概率,
计算第i条特征属性划分下的信息熵:
信息增益为:
Ai=H(Dbase)-H(Di) (2-5)
计算所述6个特征属性的信息增益,将信息增益最大的特征作为数据划分节点,再从未被选择的特征里继续选择最优数据划分特征来划分子数据集,从而完成决策树的创建;
系统完成对语音信号的学习后,对系统当前输入进行处理:
系统输入x(n)长度未知,设一个时间片长度,且认定每个时间片内语音信号的类别不变;
则一个时间片的长度为2f,f为输入信号的采样频率。取当前时间片的第1.8f个点到第1.9f个点为输入信号xin(n),经过0.1f个采样周期的计算时间,可保证下一个时间片可完整的得到系统滤波;
对长度为0.1f的系统输入xin(n),判断其是否为可处理的语音信号,进行下一步处理,否则不处理该信号,直接将输入信号输出;
若条件符合,则计算输入信号的特征属性矢量:
Xin=(x1 x2 x3 x4 Amax Aave)T (2-6)
将Xin输入预先创建好的决策树,通过各特征属性的划分可直接得出Xin的类别,以Xin类别对应的数字滤波权系数对下一个时间片的语音信号滤波。
6.一种基于机器学习的语音处理装置,其特征在于,所述语音处理装置包括存储器;以及
耦合到所述存储器的处理器,该处理器被配置为执行存储在所述存储器中的指令,所述处理器执行以下RPA操作:
确定语音样本分类数量为k,预先接收一组包括多个具有分类标签的语音样本;
对已获得的语音样本进行频谱分析,提取特征属性;
接收语音信号,分析当前输入的语音信号特征,通过由所述语音样本进行机器学习建立的模型判断当前输入信号的类别;
根据判断结果对输入语音信号进行数字滤波操作。
CN201910558412.XA 2019-06-26 2019-06-26 一种基于机器学习的语音处理方法 Active CN110288983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910558412.XA CN110288983B (zh) 2019-06-26 2019-06-26 一种基于机器学习的语音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910558412.XA CN110288983B (zh) 2019-06-26 2019-06-26 一种基于机器学习的语音处理方法

Publications (2)

Publication Number Publication Date
CN110288983A true CN110288983A (zh) 2019-09-27
CN110288983B CN110288983B (zh) 2021-10-01

Family

ID=68005954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910558412.XA Active CN110288983B (zh) 2019-06-26 2019-06-26 一种基于机器学习的语音处理方法

Country Status (1)

Country Link
CN (1) CN110288983B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6789063B1 (en) * 2000-09-01 2004-09-07 Intel Corporation Acoustic modeling using a two-level decision tree in a speech recognition system
CN102089803A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用以将信号的不同段分类的方法与鉴别器
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法
CN105405448A (zh) * 2014-09-16 2016-03-16 科大讯飞股份有限公司 一种音效处理方法及装置
US10002609B2 (en) * 2013-12-24 2018-06-19 Industrial Technology Research Institute Device and method for generating recognition network by adjusting recognition vocabulary weights based on a number of times they appear in operation contents
US10199037B1 (en) * 2016-06-29 2019-02-05 Amazon Technologies, Inc. Adaptive beam pruning for automatic speech recognition
CN109599094A (zh) * 2018-12-17 2019-04-09 海南大学 声音美容与情感修饰的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6789063B1 (en) * 2000-09-01 2004-09-07 Intel Corporation Acoustic modeling using a two-level decision tree in a speech recognition system
CN102089803A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用以将信号的不同段分类的方法与鉴别器
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法
US10002609B2 (en) * 2013-12-24 2018-06-19 Industrial Technology Research Institute Device and method for generating recognition network by adjusting recognition vocabulary weights based on a number of times they appear in operation contents
CN105405448A (zh) * 2014-09-16 2016-03-16 科大讯飞股份有限公司 一种音效处理方法及装置
US10199037B1 (en) * 2016-06-29 2019-02-05 Amazon Technologies, Inc. Adaptive beam pruning for automatic speech recognition
CN109599094A (zh) * 2018-12-17 2019-04-09 海南大学 声音美容与情感修饰的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIE LU ET AL: "Content Analysis for Audio Classification and Segmentation", 《504 IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 *
PUI-FUNG WONG ET AL: "DECISION TREE BASED TONE MODELING FOR CHINESE SPEECH RECOGNITION", 《2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH,AND SIGNAL PROCESSING》 *
朱芳枚: "面向语音情感识别的深度学习算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
赵涓涓等: "基于决策树和改进SVM混合模型的语音情感识别", 《北京理工大学学报》 *

Also Published As

Publication number Publication date
CN110288983B (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN106779087B (zh) 一种通用机器学习数据分析平台
CN105760888B (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN107766371A (zh) 一种文本信息分类方法及其装置
CN109473119B (zh) 一种声学目标事件监控方法
CN109241297B (zh) 一种内容分类聚合方法、电子设备、存储介质及引擎
CN112766229B (zh) 基于注意力机制的人脸点云图像智能识别系统及方法
CN111462758A (zh) 智能会议角色分类的方法、装置、设备及存储介质
CN110059765B (zh) 一种矿物智能识别分类系统与方法
CN110377727A (zh) 一种基于多任务学习的多标签文本分类方法和装置
JPH02238588A (ja) 文字認識装置
CN111125396B (zh) 一种单模型多分支结构的图像检索方法
CN111768761B (zh) 一种语音识别模型的训练方法和装置
CN109460872B (zh) 一种面向移动通信用户流失不平衡数据预测方法
CN104699819A (zh) 一种义原的分类方法及装置
CN110288465A (zh) 对象确定方法及装置、存储介质、电子装置
CN109215636A (zh) 一种语音信息的分类方法及系统
Jiang A facial expression recognition model based on HMM
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法
CN110288983A (zh) 一种基于机器学习的语音处理方法
CN109189897B (zh) 一种基于数据内容匹配的聊天方法及聊天装置
CN108520311B (zh) 结合sofm网与bp神经网络的雾霾预测模型建立方法及系统
Henri et al. A deep transfer learning model for the identification of bird songs: A case study for Mauritius
Al-Gunaid et al. Decision trees based fuzzy rules
da Silva et al. Audio plugin recommendation systems for music production
Gan et al. Fault diagnosis of wind Turbine’s gearbox based on improved GA random forest classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant