CN109256118A - 基于生成式听觉模型的端到端汉语方言识别系统和方法 - Google Patents
基于生成式听觉模型的端到端汉语方言识别系统和方法 Download PDFInfo
- Publication number
- CN109256118A CN109256118A CN201811228307.1A CN201811228307A CN109256118A CN 109256118 A CN109256118 A CN 109256118A CN 201811228307 A CN201811228307 A CN 201811228307A CN 109256118 A CN109256118 A CN 109256118A
- Authority
- CN
- China
- Prior art keywords
- auditory model
- production
- chinese dialects
- layers
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 210000003926 auditory cortex Anatomy 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 3
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000004088 simulation Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 210000003477 cochlea Anatomy 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001054 cortical effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 210000000067 inner hair cell Anatomy 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Analysis (AREA)
Abstract
本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法,涉及语音识别技术领域。该汉语方言识别系统,用CNN模拟听觉模型对方言时域声音波形进行特征提取,随后将提取出的固定长度特征序列输入至RNN中,再连接全连接层后进行softmax,用于预测方言类别。本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法,可有效提高NN方言识别过程中的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定层度上也提高了方言识别率。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于生成式听觉模型的端到端汉语方言识别系统和方法。
背景技术
在方言识别(DID)的应用中,已经有些许研究学者提出了用NN来解决方言识别问题,并且与传统的方法相比带来了显着的性能改进。比如在传统的方法中,由于人工设计的特征具有领域局限性,在某一领域的特征集不一定适应另一个领域,而NN在不同领域有一定的推广能力。接着,还出现了大量的变体NN,例如:前馈神经网络(FFNN)、递归神经网络(RNN)和时延神经网络(TDNN)。其中,RNN网络中的单元在接收到当前输入信息时也将其之前接收到的信息作为其输入,换句话说,就是把刚刚过去的事情联合现在的事情作为输入,来预测接下来会发生的事情,这给了它有限的短期记忆的优势,可以更好地学习语音的时间信息。随后,有研究者使用了LSTM取代了传统的RNN结构。此外,研究者们已经证明卷积神经网络(CNN)模型对于许多语音和语言处理应用是有效的。除了模型域,深度神经网络(DNN)也可以用于DID的特征域。例如:使用DNN来提取i-vector。
而在NN时代之前,从听觉模型中提取的特征已经应用于各种语音应用,并且已经证明比传统的语音处理特征更能抵抗噪声,其中,在听觉模型中基底膜模型的主要功能是带通滤波,它是对人耳听觉模型的系统进行有效的模拟。
然而,现存在的RNN方言识别模型虽然能够较好的提取语音的时间信息,但因为其使用特征为原始声学特征,从而对噪声的抵抗性较低。
因此,鉴于以上问题,有必要提出一种抗噪性能高的基于生成式听觉模型的端到端汉语方言识别系统,以提高方言识别率。
发明内容
为了克服传统的RNN汉语方言识别模型中底层声学特征的抗噪性能低问题,本发明提供一种基于生成式听觉模型的RNN方言识别系统,用CNN模拟听觉模型对方言时域声音波形进行特征提取,随后将提取出的固定长度特征序列输入至RNN中,再连接全连接层后进行softmax,用于预测方言类别,可有效提高现存在的NN方言识别系统的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定层度上也提高了方言识别率。
根据本发明的目的提出的一种基于生成式听觉模型的端到端汉语方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征。
优选的,所述生成式听觉模型各层依次为1-D CNN层、合并层、2-D CNN层;所述1-DCNN层由36个1-D核组成,2-D CNN层由24个2-D核组成。
一种基于生成式听觉模型的端到端汉语方言识别方法,包括以下步骤:
步骤一、构建各地方言数据集并进行标注,其中包括训练集与测试集;
步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理,并为每一话语进行标签,其中,标签信息表示对应话语的所属地区;
步骤三、构建基于生成式听觉模型的RNN方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征,所述生成式听觉模型各层依次为1-D CNN层、合并层、2-D CNN层;
步骤四、使用梯度下降法和反向传播算法训练所属网络系统;
步骤五、训练完成后,得到汉语方言识别训练系统的识别率。
优选的,步骤一中训练集与测试集的比例为7:3。
优选的,步骤二中对数据集进行分帧,帧长为22ms,帧移为10ms。
优选的,步骤三中生成式听觉模型分为两个阶段,第一阶段模仿听觉系统的外围功能,将声音表示为内部神经元活动;第二阶段模拟听觉皮层,来分析内部特征从而提取更高层次的特征。
优选的,生成式听觉模型中的1-D CNN层由36个1-D核组成,2-D CNN层由24个2-D核组成,1-D CNN层输出的STFT特征由合并层合并成声谱图后,再由2-D CNN层对声谱图进行分解。
优选的,步骤3中softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。
优选的,步骤四中梯度下降算法的具体步骤为:从任意一点出发,沿该点的梯度反方向移动到新位置,再沿新位置的梯度反方向运行至另一个新位置,循环迭代以上步骤,输出的函数解则一直朝下坡最陡的方向运动,直到运行到函数的局部最小点,即损失函数最小值。
优选的,步骤五中分批次对所有样本进行训练,不断更新权值,直到损失函数的值收敛于一个稳定区域内的值,即识别率收敛于一个稳定值。
与现有技术相比,本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统的优点是:
使用卷积神经网络模拟声学模型,提取各方言的语言特征,可有效提高现存在的NN方言识别系统的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定层度上也提高了方言识别率。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域中的普通技术人员来说,在不付出创造性劳动的前提下,还可根据这些附图获得其他附图。
图1为本发明的整体流程示意图。
图2为本发明中生成式听觉模型的流程示意图。
图3为本发明的系统框图。
具体实施方式
下面结合附图对本发明的具体实施方式做简要说明。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,均属于本发明保护的范围。
图1-图3示出了本发明较佳的实施例,分别从不同的角度对其进行了详细的剖析。
如图1-3所示的一种基于生成式听觉模型的端到端汉语方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层。其中,生成式听觉模型各层依次为1-D CNN层、合并层、2-D CNN层。1-D CNN层由36个1-D核组成,2-D CNN层由24个2-D核组成,1-D CNN层输出的STFT特征由合并层合并成声谱图后,再由2-D CNN层对声谱图进行分解。该生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征,可解决现存在的NN方言识别噪声抵抗力弱的问题,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定层度上也提高了方言识别率。具体的,1-D卷积层是模拟耳蜗滤波的方式执行时域卷积,它由36个1-D内核组成。然后将时域波形输入至这36个内核,其输出结果合并为二维类似于声谱图的声学形式。2-D卷积层模拟皮层滤波,它由24个2-D核组成,我们将由上层合并得来的类似声谱图的语音信号输入至其中,用它来分解谱图。然后,可以选择性在其后加入池化层用于降低输出维度,同时保留重要信息,即得到我们需要的语音深层次的语言特征。其中,每个1-D CNN的内核长度设置为200(即25ms),因此,1-D内核的输出可以认为是帧移为10ms的log F频谱图。2-D CNN内核的大小被设置为10X15,2-D CNN可以理解为提取声谱图中更高级的语言信息。
具体的,输入的每一话语已经被预处理为固定帧长的时域波形。1-D卷积层由36个1-D内核组成,以类似于耳蜗滤波的方式执行时域卷积来用于模拟外围听觉系统耳蜗滤波器,固定时长的时域声音波形首先通过一组恒定带通滤波器,然后通过非线性压缩模块和横向抑制网络,最后通过包络提取器。非线性压缩模拟内毛细胞引起的饱和度,横向抑制网络模拟听觉的频率掩蔽。简而言之,该阶段的输出被称为听觉谱图,其表示时间与log F的神经元活动。直观地,听觉谱图类似于沿log F方向呈现的STFT谱图的幅度响应。提取的局部包络近似于STFT谱图的幅度。2-D CNN网络结构模拟神经元的皮质滤波。简而言之,听觉谱图由神经元进一步分析,神经元被建模为调整到不同谱时间调制参数的二维滤波器,调谐参数包括速率(ω),比率(Ω)。速率参数捕获听觉频谱图的局部包络沿时间轴变化的速度,scale参数捕获包络沿logF轴分布的宽度。因此,语音的共振峰和谐波结构可以用比例参数来表征。方向性表示包络的扫描方向,并且以速率参数的符号编码。合并层是将1-DCNN的输出STFT合并为声谱图。
使用上述基于生成式听觉模型的端到端汉语方言识别系统进行汉语方言识别的方法,包括以下步骤:
步骤一、构建各地方言数据集并进行标注,其中包括训练集与测试集。
步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理,并为每一话语进行标签,其中,标签信息表示对应声音波形的所属地区。
步骤三、构建基于生成式听觉模型的RNN方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层,该生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征。处理后的等长度时域波形经生成式听觉模型产生更高级的语言特征,将此特征作为输入至RNN方言识别系统中,得到预测汉语方言种类,依此结果与数据标签相比较来进行模型参数调整,优化模型参数,最终得到最优的RNN汉语方言识别系统。
步骤四、使用梯度下降法和反向传播算法训练所属网络系统,具体的,准备好系统网络后,将标注好的数据集送入系统网络中,开始运行程序。
步骤五、程序会输出每一段语音的预测结果,训练完成后会输出整个运行过程中训练和测试的识别率。
进一步的,步骤一中训练集与测试集的比例为7:3。
进一步的,步骤二中对数据集进行分帧,帧长为22ms,帧移为10ms。
进一步的,步骤三中RNN选取其变种GRU,该结构运算结果及其接近LSTM,但计算效率要远远高于LSTM。LSTM是RNN的一种改进,LSTM解决了RNN长时依赖问题,是一种特殊的RNN,所以算是RNN的一种改进。GRU也是如此,GRU作为LSTM的一种变体,也同样属于RNN的一种变体,它将LSTM中的忘记门和输入门合成了一个单一的更新门,同样还混合了细胞状态和隐藏状态,加诸其他一些改动。最终的模型比标准的LSTM模型要简单。GRU的计算量远远小于LSTM。生成式听觉模型分为两个阶段,第一阶段模仿听觉系统的外围功能,将声音表示为内部神经元活动;第二阶段模拟听觉皮层,来分析内部特征从而提取更高层次的特征。其中,softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。
进一步的,步骤四中梯度下降算法的具体步骤为:从任意一点出发,沿该点的梯度反方向移动到新位置,再沿新位置的梯度反方向运行至另一个新位置,循环迭代以上步骤,输出的函数解则一直朝下坡最陡的方向运动,直到运行到函数的局部最小点,即损失函数最小值。反向传播算法主要有两个主要部分组成,即激励传播与权重更新。在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层。如果在输出层得不到期望的输出值,则取输出与期望的误差平方和作为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯量,作为修改权值的依据,网络的学习在权值修改过程中完成。误差达到所期望值时,网络学习结束。
进一步的,步骤五中分批次对所有样本进行训练,不断更新权值,直到损失函数的值收敛于一个稳定区域内的值,即识别率收敛于一个稳定值。
综上所述,本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统,使用卷积神经网络模拟声学模型,提取各方言的语言特征,可有效提高现存在的NN方言识别系统的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息所以在一定层度上也提高了方言识别率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现和使用本发明。对这些实施例的多种修改方式对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神和范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于生成式听觉模型的端到端汉语方言识别系统,其特征在于,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征。
2.根据权利要求1所述的一种基于生成式听觉模型的端到端汉语方言识别系统,其特征在于,所述生成式听觉模型各层依次为1-D CNN层、合并层、2-D CNN层;所述1-D CNN层由36个1-D核组成,2-D CNN层由24个2-D核组成。
3.一种使用权利要求1所述的汉语方言识别系统进行汉语方言识别的方法,其特征在于,包括以下步骤:
步骤一、构建各地方言数据集并进行标注,其中包括训练集与测试集;
步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理,并为每一话语进行标签,其中,标签信息表示对应话语的所属地区;
步骤三、构建基于生成式听觉模型的RNN方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征,所述生成式听觉模型各层依次为1-D CNN层、合并层、2-D CNN层;
步骤四、使用梯度下降法和反向传播算法训练所属网络系统;
步骤五、训练完成后,得到汉语方言识别训练系统的识别率。
4.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤一中训练集与测试集的比例为7:3。
5.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤二中对数据集进行分帧,帧长为22ms,帧移为10ms。
6.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤三中生成式听觉模型分为两个阶段,第一阶段模仿听觉系统的外围功能,将声音表示为内部神经元活动;第二阶段模拟听觉皮层,来分析内部特征从而提取更高层次的特征。
7.根据权利要求6所述的一种基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,生成式听觉模型中的1-D CNN层由36个1-D核组成,2-D CNN层由24个2-D核组成,1-D CNN层输出的STFT特征由合并层合并成声谱图后,再由2-D CNN层对声谱图进行分解。
8.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤3中softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。
9.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤四中梯度下降算法的具体步骤为:从任意一点出发,沿该点的梯度反方向移动到新位置,再沿新位置的梯度反方向运行至另一个新位置,循环迭代以上步骤,输出的函数解则一直朝下坡最陡的方向运动,直到运行到函数的局部最小点,即损失函数最小值。
10.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤五中分批次对所有样本进行训练,不断更新权值,直到损失函数的值收敛于一个稳定区域内的值,即识别率收敛于一个稳定值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811228307.1A CN109256118B (zh) | 2018-10-22 | 2018-10-22 | 基于生成式听觉模型的端到端汉语方言识别系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811228307.1A CN109256118B (zh) | 2018-10-22 | 2018-10-22 | 基于生成式听觉模型的端到端汉语方言识别系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109256118A true CN109256118A (zh) | 2019-01-22 |
CN109256118B CN109256118B (zh) | 2021-06-25 |
Family
ID=65046013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811228307.1A Active CN109256118B (zh) | 2018-10-22 | 2018-10-22 | 基于生成式听觉模型的端到端汉语方言识别系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109256118B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322894A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于声音的波形图生成及大熊猫检测方法 |
CN110807365A (zh) * | 2019-09-29 | 2020-02-18 | 浙江大学 | 一种基于gru与一维cnn神经网络融合的水下目标识别方法 |
CN110827791A (zh) * | 2019-09-09 | 2020-02-21 | 西北大学 | 一种面向边缘设备的语音识别-合成联合的建模方法 |
CN111292727A (zh) * | 2020-02-03 | 2020-06-16 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111724810A (zh) * | 2019-03-19 | 2020-09-29 | 杭州海康威视数字技术股份有限公司 | 一种音频分类方法和装置 |
CN111739555A (zh) * | 2020-07-23 | 2020-10-02 | 深圳市友杰智新科技有限公司 | 基于端到端深度神经网络的音频信号处理方法及装置 |
CN111916057A (zh) * | 2020-06-20 | 2020-11-10 | 中国建设银行股份有限公司 | 一种语言识别方法、装置、电子设备及计算机可读存储介质 |
CN115148192A (zh) * | 2022-06-30 | 2022-10-04 | 上海近则生物科技有限责任公司 | 基于方言语义提取的语音识别方法及装置 |
CN115273881A (zh) * | 2022-07-13 | 2022-11-01 | 广州伏羲智能科技有限公司 | 一种可学习参数的声谱图生成的方法及其系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
CN107068167A (zh) * | 2017-03-13 | 2017-08-18 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 融合多种端到端神经网络结构的说话人感冒症状识别方法 |
US20180032689A1 (en) * | 2016-07-29 | 2018-02-01 | Qatar University | Method and apparatus for performing feature classification on electrocardiogram data |
CN108520757A (zh) * | 2018-03-31 | 2018-09-11 | 华南理工大学 | 基于听觉特性的音乐适用场景自动分类方法 |
-
2018
- 2018-10-22 CN CN201811228307.1A patent/CN109256118B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
US20180032689A1 (en) * | 2016-07-29 | 2018-02-01 | Qatar University | Method and apparatus for performing feature classification on electrocardiogram data |
CN107068167A (zh) * | 2017-03-13 | 2017-08-18 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 融合多种端到端神经网络结构的说话人感冒症状识别方法 |
CN108520757A (zh) * | 2018-03-31 | 2018-09-11 | 华南理工大学 | 基于听觉特性的音乐适用场景自动分类方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724810A (zh) * | 2019-03-19 | 2020-09-29 | 杭州海康威视数字技术股份有限公司 | 一种音频分类方法和装置 |
CN111724810B (zh) * | 2019-03-19 | 2023-11-24 | 杭州海康威视数字技术股份有限公司 | 一种音频分类方法和装置 |
CN110322894B (zh) * | 2019-06-27 | 2022-02-11 | 电子科技大学 | 一种基于声音的波形图生成及大熊猫检测方法 |
CN110322894A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于声音的波形图生成及大熊猫检测方法 |
CN110827791A (zh) * | 2019-09-09 | 2020-02-21 | 西北大学 | 一种面向边缘设备的语音识别-合成联合的建模方法 |
CN110827791B (zh) * | 2019-09-09 | 2022-07-01 | 西北大学 | 一种面向边缘设备的语音识别-合成联合的建模方法 |
CN110807365A (zh) * | 2019-09-29 | 2020-02-18 | 浙江大学 | 一种基于gru与一维cnn神经网络融合的水下目标识别方法 |
CN110807365B (zh) * | 2019-09-29 | 2022-02-11 | 浙江大学 | 一种基于gru与一维cnn神经网络融合的水下目标识别方法 |
CN111292727A (zh) * | 2020-02-03 | 2020-06-16 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111292727B (zh) * | 2020-02-03 | 2023-03-24 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111916057A (zh) * | 2020-06-20 | 2020-11-10 | 中国建设银行股份有限公司 | 一种语言识别方法、装置、电子设备及计算机可读存储介质 |
CN111739555B (zh) * | 2020-07-23 | 2020-11-24 | 深圳市友杰智新科技有限公司 | 基于端到端深度神经网络的音频信号处理方法及装置 |
CN111739555A (zh) * | 2020-07-23 | 2020-10-02 | 深圳市友杰智新科技有限公司 | 基于端到端深度神经网络的音频信号处理方法及装置 |
CN115148192A (zh) * | 2022-06-30 | 2022-10-04 | 上海近则生物科技有限责任公司 | 基于方言语义提取的语音识别方法及装置 |
CN115273881A (zh) * | 2022-07-13 | 2022-11-01 | 广州伏羲智能科技有限公司 | 一种可学习参数的声谱图生成的方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109256118B (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109256118A (zh) | 基于生成式听觉模型的端到端汉语方言识别系统和方法 | |
CN109036465B (zh) | 语音情感识别方法 | |
CN112006697B (zh) | 一种基于语音信号的梯度提升决策树抑郁程度识别系统 | |
CN112885372B (zh) | 电力设备故障声音智能诊断方法、系统、终端及介质 | |
CN109473120A (zh) | 一种基于卷积神经网络的异常声音信号识别方法 | |
CN109493874A (zh) | 一种基于卷积神经网络的生猪咳嗽声音识别方法 | |
CN109215674A (zh) | 实时语音增强方法 | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与系统 | |
CN105761720A (zh) | 一种基于语音属性分类的交互系统及其方法 | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN109559736A (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN108520753A (zh) | 基于卷积双向长短时记忆网络的语音测谎方法 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN107039036A (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 | |
Fan et al. | The impact of student learning aids on deep learning and mobile platform on learning behavior | |
CN111724806A (zh) | 一种基于深度神经网络的双视角单通道语音分离方法 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN113269305B (zh) | 一种加强记忆的反馈语音强化方法 | |
CN212342269U (zh) | 一种基于声音频率分析的情绪监测系统 | |
Muchamad et al. | Prototype Design of Deep Learning-based Voice Control Model for Smart Home | |
CN111833851B (zh) | 一种自动学习优化声学模型的方法 | |
CN112819143B (zh) | 一种基于图神经网络的工作记忆计算系统及方法 | |
CN114267361A (zh) | 一种高识别度的说话人识别系统 | |
CN113643725A (zh) | 一种基于动态卷积神经网络及脉冲神经网络的语音情感识别模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |