CN109256118B - 基于生成式听觉模型的端到端汉语方言识别系统和方法 - Google Patents

基于生成式听觉模型的端到端汉语方言识别系统和方法 Download PDF

Info

Publication number
CN109256118B
CN109256118B CN201811228307.1A CN201811228307A CN109256118B CN 109256118 B CN109256118 B CN 109256118B CN 201811228307 A CN201811228307 A CN 201811228307A CN 109256118 B CN109256118 B CN 109256118B
Authority
CN
China
Prior art keywords
dialect
layer
generative
auditory
auditory model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811228307.1A
Other languages
English (en)
Other versions
CN109256118A (zh
Inventor
齐诏娣
马勇
顾明亮
金赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Normal University
Original Assignee
Jiangsu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Normal University filed Critical Jiangsu Normal University
Priority to CN201811228307.1A priority Critical patent/CN109256118B/zh
Publication of CN109256118A publication Critical patent/CN109256118A/zh
Application granted granted Critical
Publication of CN109256118B publication Critical patent/CN109256118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法,涉及语音识别技术领域。该汉语方言识别系统,用CNN模拟听觉模型对方言时域声音波形进行特征提取,随后将提取出的固定长度特征序列输入至RNN中,再连接全连接层后进行softmax,用于预测方言类别。本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法,可有效提高NN方言识别过程中的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定程度上也提高了方言识别率。

Description

基于生成式听觉模型的端到端汉语方言识别系统和方法
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于生成式听觉模型的端到端汉语方言识别系统和方法。
背景技术
在方言识别(DID)的应用中,已经有些许研究学者提出了用NN来解决方言识别问题,并且与传统的方法相比带来了显着的性能改进。比如在传统的方法中,由于人工设计的特征具有领域局限性,在某一领域的特征集不一定适应另一个领域,而NN在不同领域有一定的推广能力。接着,还出现了大量的变体NN,例如:前馈神经网络(FFNN)、递归神经网络(RNN)和时延神经网络(TDNN)。其中,RNN网络中的单元在接收到当前输入信息时也将其之前接收到的信息作为其输入,换句话说,就是把刚刚过去的事情联合现在的事情作为输入,来预测接下来会发生的事情,这给了它有限的短期记忆的优势,可以更好地学习语音的时间信息。随后,有研究者使用了LSTM取代了传统的RNN结构。此外,研究者们已经证明卷积神经网络(CNN)模型对于许多语音和语言处理应用是有效的。除了模型域,深度神经网络(DNN)也可以用于DID的特征域。例如:使用DNN来提取i-vector。
而在NN时代之前,从听觉模型中提取的特征已经应用于各种语音应用,并且已经证明比传统的语音处理特征更能抵抗噪声,其中,在听觉模型中基底膜模型的主要功能是带通滤波,它是对人耳听觉模型的系统进行有效的模拟。
然而,现存在的RNN方言识别模型虽然能够较好的提取语音的时间信息,但因为其使用特征为原始声学特征,从而对噪声的抵抗性较低。
因此,鉴于以上问题,有必要提出一种抗噪性能高的基于生成式听觉模型的端到端汉语方言识别系统,以提高方言识别率。
发明内容
为了克服传统的RNN汉语方言识别模型中底层声学特征的抗噪性能低问题,本发明提供一种基于生成式听觉模型的RNN方言识别系统,用CNN模拟听觉模型对方言时域声音波形进行特征提取,随后将提取出的固定长度特征序列输入至RNN 中,再连接全连接层后进行softmax,用于预测方言类别,可有效提高现存在的NN方言识别系统的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定程度上也提高了方言识别率。
根据本发明的目的提出的一种基于生成式听觉模型的端到端汉语方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征。
优选的,所述生成式听觉模型各层依次为一维卷积层、合并层、二维卷积层;所述一维卷积层由36个一维核组成,二维卷积层由24个二维核组成。
一种基于生成式听觉模型的端到端汉语方言识别方法,包括以下步骤:
步骤一、构建各地方言数据集并进行标注,其中包括训练集与测试集;
步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理,并为每一话语进行标签,其中,标签信息表示对应话语的所属地区;
步骤三、构建基于生成式听觉模型的RNN方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征,所述生成式听觉模型各层依次为一维卷积层、合并层、二维卷积层;
步骤四、使用梯度下降法和反向传播算法训练所属网络系统;
步骤五、训练完成后,得到汉语方言识别训练系统的识别率。
优选的,步骤一中训练集与测试集的比例为7:3。
优选的,步骤二中对数据集进行分帧,帧长为22ms,帧移为10ms。
优选的,步骤三中生成式听觉模型分为两个阶段,第一阶段模仿听觉系统的外围功能,将声音表示为内部神经元活动;第二阶段模拟听觉皮层,来分析内部特征从而提取更高层次的特征。
优选的,生成式听觉模型中的一维卷积层由36个一维核组成,二维卷积层由24个二维核组成。
优选的,步骤3中softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。
优选的,步骤四中梯度下降算法的具体步骤为:从任意一点出发,沿该点的梯度反方向移动到新位置,再沿新位置的梯度反方向运行至另一个新位置,循环迭代以上步骤,输出的函数解则一直朝下坡最陡的方向运动,直到运行到函数的局部最小点,即损失函数最小值。
优选的,步骤五中分批次对所有样本进行训练,不断更新权值,直到损失函数的值收敛于一个稳定区域内的值,即识别率收敛于一个稳定值。
与现有技术相比,本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统的优点是:
使用卷积神经网络模拟声学模型,提取各方言的语言特征,可有效提高现存在的NN方言识别系统的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定程度上也提高了方言识别率。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域中的普通技术人员来说,在不付出创造性劳动的前提下,还可根据这些附图获得其他附图。
图1为本发明的整体流程示意图。
图2为本发明中生成式听觉模型的流程示意图。
图3为本发明的系统框图。
具体实施方式
下面结合附图对本发明的具体实施方式做简要说明。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,均属于本发明保护的范围。
图1-图3示出了本发明较佳的实施例,分别从不同的角度对其进行了详细的剖析。
如图1-3所示的一种基于生成式听觉模型的端到端汉语方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层。其中,生成式听觉模型各层依次为一维卷积层、合并层、二维卷积层。一维卷积层由36个一维核组成,二维卷积层由24个二维核组成,一维卷积层输出的STFT特征由合并层合并成声谱图后,再由二维卷积层对声谱图进行分解。该生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征,可解决现存在的NN方言识别噪声抵抗力弱的问题,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定程度上也提高了方言识别率。具体的,一维卷积层是模拟耳蜗滤波的方式执行时域卷积,它由36个一维内核组成。然后将时域波形输入至这36个内核,其输出结果合并为二维类似于声谱图的声学形式。二维卷积层模拟皮层滤波,它由24个二维核组成,我们将由上层合并得来的类似声谱图的语音信号输入至其中,用它来分解谱图。然后,可以选择性在其后加入池化层用于降低输出维度,同时保留重要信息,即得到我们需要的语音深层次的语言特征。其中,每个一维卷积层的内核长度设置为200(即25ms),因此,一维内核的输出可以认为是帧移为10ms的log F频谱图。二维卷积层内核的大小被设置为10X15,二维卷积层可以理解为提取声谱图中更高级的语言信息。
具体的,输入的每一话语已经被预处理为固定帧长的时域波形。一维卷积层由36个一维内核组成,以类似于耳蜗滤波的方式执行时域卷积来用于模拟外围听觉系统耳蜗滤波器,固定时长的时域声音波形首先通过一组恒定带通滤波器,然后通过非线性压缩模块和横向抑制网络,最后通过包络提取器。非线性压缩模拟内毛细胞引起的饱和度,横向抑制网络模拟听觉的频率掩蔽。简而言之,该阶段的输出被称为听觉谱图,其表示时间与log F的神经元活动。直观地,听觉谱图类似于沿log F方向呈现的STFT谱图的幅度响应。提取的局部包络近似于STFT谱图的幅度。二维卷积网络结构模拟神经元的皮质滤波。简而言之,听觉谱图由神经元进一步分析,神经元被建模为调整到不同谱时间调制参数的二维滤波器,调谐参数包括速率(ω),比率(Ω)。速率参数捕获听觉频谱图的局部包络沿时间轴变化的速度,scale参数捕获包络沿logF轴分布的宽度。 因此,语音的共振峰和谐波结构可以用比例参数来表征。方向性表示包络的扫描方向,并且以速率参数的符号编码。合并层是将一维卷积层的输出STFT合并为声谱图。
使用上述基于生成式听觉模型的端到端汉语方言识别系统进行汉语方言识别的方法,包括以下步骤:
步骤一、构建各地方言数据集并进行标注,其中包括训练集与测试集。
步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理,并为每一话语进行标签,其中,标签信息表示对应声音波形的所属地区。
步骤三、构建基于生成式听觉模型的RNN方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层,该生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征。处理后的等长度时域波形经生成式听觉模型产生更高级的语言特征,将此特征作为输入至RNN方言识别系统中,得到预测汉语方言种类,依此结果与数据标签相比较来进行模型参数调整,优化模型参数,最终得到最优的RNN汉语方言识别系统。
步骤四、使用梯度下降法和反向传播算法训练所属网络系统,具体的,准备好系统网络后,将标注好的数据集送入系统网络中,开始运行程序。
步骤五、程序会输出每一段语音的预测结果,训练完成后会输出整个运行过程中训练和测试的识别率。
进一步的,步骤一中训练集与测试集的比例为7:3。
进一步的,步骤二中对数据集进行分帧,帧长为22ms,帧移为10ms。
进一步的,步骤三中RNN选取其变种GRU,该结构运算结果及其接近LSTM,但计算效率要远远高于LSTM。LSTM是RNN的一种改进,LSTM解决了RNN长时依赖问题,是一种特殊的RNN,所以算是RNN的一种改进。GRU也是如此,GRU作为LSTM的一种变体,也同样属于RNN的一种变体,它将LSTM中的忘记门和输入门合成了一个单一的更新门,同样还混合了细胞状态和隐藏状态,加诸其他一些改动。最终的模型比标准的 LSTM 模型要简单。GRU的计算量远远小于LSTM。生成式听觉模型分为两个阶段,第一阶段模仿听觉系统的外围功能,将声音表示为内部神经元活动;第二阶段模拟听觉皮层,来分析内部特征从而提取更高层次的特征。其中,softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。
进一步的,步骤四中梯度下降算法的具体步骤为:从任意一点出发,沿该点的梯度反方向移动到新位置,再沿新位置的梯度反方向运行至另一个新位置,循环迭代以上步骤,输出的函数解则一直朝下坡最陡的方向运动,直到运行到函数的局部最小点,即损失函数最小值。反向传播算法主要有两个主要部分组成,即激励传播与权重更新。在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层。如果在输出层得不到期望的输出值,则取输出与期望的误差平方和作为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯量,作为修改权值的依据,网络的学习在权值修改过程中完成。误差达到所期望值时,网络学习结束。
进一步的,步骤五中分批次对所有样本进行训练,不断更新权值,直到损失函数的值收敛于一个稳定区域内的值,即识别率收敛于一个稳定值。
综上所述,本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统,使用卷积神经网络模拟声学模型,提取各方言的语言特征,可有效提高现存在的NN方言识别系统的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息所以在一定程度上也提高了方言识别率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现和使用本发明。对这些实施例的多种修改方式对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神和范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,包括以下步骤:
步骤一、构建各地方言数据集并进行标注,其中包括训练集与测试集;
步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理,并为每一话语进行标签,其中,标签信息表示对应话语的所属地区;
步骤三、构建基于生成式听觉模型的RNN方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征;所述生成式听觉模型分为两个阶段,第一阶段模仿听觉系统的外围功能,将声音表示为内部神经元活动;第二阶段模拟听觉皮层,来分析内部特征从而提取更高层次的特征;所述生成式听觉模型各层依次为一维卷积层、合并层、二维卷积层;一维卷积层由36个一维内核组成,以类似于耳蜗滤波的方式执行时域卷积来用于模拟外围听觉系统耳蜗滤波器,固定时长的时域声音波形首先通过一组恒定带通滤波器,然后通过非线性压缩模块和横向抑制网络,最后通过包络提取器;非线性压缩模拟内毛细胞引起的饱和度,横向抑制网络模拟听觉的频率掩蔽;二维卷积层模拟皮层滤波,它由24个二维核组成,将由上层合并得来的类似声谱图的语音信号输入至其中,分解谱图;然后,选择性在其后加入池化层用于降低输出维度,同时保留重要信息,即得到我们需要的语音深层次的语言特征;
步骤四、使用梯度下降法和反向传播算法训练所属网络系统;
步骤五、训练完成后,得到汉语方言识别训练系统的识别率。
2.根据权利要求1所述的基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤一中训练集与测试集的比例为7:3。
3.根据权利要求1所述的基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤二中对数据集进行分帧,帧长为22ms,帧移为10ms。
4.根据权利要求1所述的基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤3中softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。
5.根据权利要求1所述的基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤四中梯度下降算法的具体步骤为:从任意一点出发,沿该点的梯度反方向移动到新位置,再沿新位置的梯度反方向运行至另一个新位置,循环迭代以上步骤,输出的函数解则一直朝下坡最陡的方向运动,直到运行到函数的局部最小点,即损失函数最小值。
6.根据权利要求1所述的基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤五中分批次对所有样本进行训练,不断更新权值,直到损失函数的值收敛于一个稳定区域内的值,即识别率收敛于一个稳定值。
CN201811228307.1A 2018-10-22 2018-10-22 基于生成式听觉模型的端到端汉语方言识别系统和方法 Active CN109256118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811228307.1A CN109256118B (zh) 2018-10-22 2018-10-22 基于生成式听觉模型的端到端汉语方言识别系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811228307.1A CN109256118B (zh) 2018-10-22 2018-10-22 基于生成式听觉模型的端到端汉语方言识别系统和方法

Publications (2)

Publication Number Publication Date
CN109256118A CN109256118A (zh) 2019-01-22
CN109256118B true CN109256118B (zh) 2021-06-25

Family

ID=65046013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811228307.1A Active CN109256118B (zh) 2018-10-22 2018-10-22 基于生成式听觉模型的端到端汉语方言识别系统和方法

Country Status (1)

Country Link
CN (1) CN109256118B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724810B (zh) * 2019-03-19 2023-11-24 杭州海康威视数字技术股份有限公司 一种音频分类方法和装置
CN110322894B (zh) * 2019-06-27 2022-02-11 电子科技大学 一种基于声音的波形图生成及大熊猫检测方法
CN110827791B (zh) * 2019-09-09 2022-07-01 西北大学 一种面向边缘设备的语音识别-合成联合的建模方法
CN110807365B (zh) * 2019-09-29 2022-02-11 浙江大学 一种基于gru与一维cnn神经网络融合的水下目标识别方法
CN111292727B (zh) * 2020-02-03 2023-03-24 北京声智科技有限公司 一种语音识别方法及电子设备
CN111916057A (zh) * 2020-06-20 2020-11-10 中国建设银行股份有限公司 一种语言识别方法、装置、电子设备及计算机可读存储介质
CN111739555B (zh) * 2020-07-23 2020-11-24 深圳市友杰智新科技有限公司 基于端到端深度神经网络的音频信号处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN107068167A (zh) * 2017-03-13 2017-08-18 广东顺德中山大学卡内基梅隆大学国际联合研究院 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN108520757A (zh) * 2018-03-31 2018-09-11 华南理工大学 基于听觉特性的音乐适用场景自动分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180032689A1 (en) * 2016-07-29 2018-02-01 Qatar University Method and apparatus for performing feature classification on electrocardiogram data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN107068167A (zh) * 2017-03-13 2017-08-18 广东顺德中山大学卡内基梅隆大学国际联合研究院 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN108520757A (zh) * 2018-03-31 2018-09-11 华南理工大学 基于听觉特性的音乐适用场景自动分类方法

Also Published As

Publication number Publication date
CN109256118A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN109256118B (zh) 基于生成式听觉模型的端到端汉语方言识别系统和方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN108899051B (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN109036465B (zh) 语音情感识别方法
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
CN112289342A (zh) 使用神经网络生成音频
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN105788592A (zh) 一种音频分类方法及装置
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN105895082A (zh) 声学模型训练方法、语音识别方法及装置
CN110600014B (zh) 一种模型训练方法、装置、存储介质及电子设备
CN109147774B (zh) 一种改进的延时神经网络声学模型
Rawat et al. Emotion recognition through speech using neural network
US20230035504A1 (en) Audio processing method and apparatus, vocoder, electronic device, computer-readable storage medium, and computer program product
CN115602165B (zh) 基于金融系统的数字员工智能系统
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
CN110992959A (zh) 一种语音识别方法及系统
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN106875944A (zh) 一种语音控制家庭智能终端的系统
WO2024114303A1 (zh) 音素识别方法、装置、电子设备及存储介质
Gadasin et al. Using Formants for Human Speech Recognition by Artificial Intelligence
CN116467416A (zh) 一种基于图神经网络的多模态对话情感识别方法及系统
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品
CN116705013B (zh) 语音唤醒词的检测方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant