CN108847223A - 一种基于深度残差神经网络的语音识别方法 - Google Patents

一种基于深度残差神经网络的语音识别方法 Download PDF

Info

Publication number
CN108847223A
CN108847223A CN201810638786.8A CN201810638786A CN108847223A CN 108847223 A CN108847223 A CN 108847223A CN 201810638786 A CN201810638786 A CN 201810638786A CN 108847223 A CN108847223 A CN 108847223A
Authority
CN
China
Prior art keywords
group
neural network
residual error
training
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810638786.8A
Other languages
English (en)
Other versions
CN108847223B (zh
Inventor
齐勇
张立泽清
刘浩哲
雷凯
行习铭
赵智健
张文天
王妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinrui Yichuang (Xi'an) Information Technology Co.,Ltd.
Original Assignee
Shaanxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi University of Science and Technology filed Critical Shaanxi University of Science and Technology
Priority to CN201810638786.8A priority Critical patent/CN108847223B/zh
Publication of CN108847223A publication Critical patent/CN108847223A/zh
Application granted granted Critical
Publication of CN108847223B publication Critical patent/CN108847223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度残差神经网络的语音识别方法,具体按照构建语音库,得到n+1组声音信号组;随机将n+1组声音信号组分为n组训练组和1组测试组;利用n组训练组训练深度残差神经网络,得到训练好的深度残差神经网络;将测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别的步骤。本发明方法,防止了各种马鞍情况和收敛速度过慢的出现,防止了过拟合现象的发生,从而保证了整个网络的高效快速准确的运行,语音识别准确率更高。

Description

一种基于深度残差神经网络的语音识别方法
技术领域
本发明属于语音识别方法技术领域,涉及一种基于深度残差神经网络的语音识别方法。
背景技术
在卷积神经网络中,网络的深度往往与识别的正确率密切相关,因为传统的卷积神经网络能够提取到low/mid/high-level的多层次特征,网络的层数越多,意味着提取到的特征越丰富。但随着卷积神经网络层数的不断加深,“退化现象”开始出现,以至于错误率的急剧飙升。
残差神经网络是在深度卷积神经网络结构的基础上加入“快捷连接(Shortcuts)”来实现网络的映射,并在该映射的基础上来拟合残差函数,从而克服“退化现象”也能够显著提升准确率。利用残差神经网络的表征能力特点,可将其广泛的应用于计算机时域信号识别。
然而经实践验证,残差神经网络存在一下不足:1.马鞍情况的出现;2. 在对待简单的问题时容易发生过拟合现象;3.收敛的速度与传统的网络相比较为缓慢,时效性较强,在工程应用中效率不高。
发明内容
本发明的目的是提供一种基于深度残差神经网络的语音识别方法,能够显著提高识别的准确率。
本发明所采用的技术方案是,一种基于深度残差神经网络的语音识别方法,具体按照下述步骤进行:
步骤1,构建语音库,得到n+1组声音信号组;
步骤2,随机将n+1组声音信号组分为n组训练组和1组测试组;
步骤3,利用n组训练组训练深度残差神经网络,得到训练好的深度残差神经网络;
步骤4,将测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别。
本发明的特点还在于:
步骤1中构建语音库具体按照下述方法进行:
步骤1.1,随机选取多个不同的汉字组成测试汉字组;
步骤1.2,采集测试汉字组中每一个汉字的声音信号,得到初始声音信号组;
步骤1.3,将初始声音信号组的每个声音信号进行类别标号,将每个类别标号后的声音信号进行预处理变成二维数据形式的声音信号,得到一组声音信号组;
步骤1.4,将步骤1.2和步骤1.3重复n+1次,得到n+1组声音信号组。
步骤1.3中对声音信号按照下述步骤进行预处理:
步骤1.3.1,将初始声音信号组中的每个声音信号均进行傅里叶变换变成频域声音信号,得到频域声音信号组;
步骤1.3.2,将频域声音信号组每个频域声音信号均进行正则化处理变成正则化信号,得到正则化信号组;
步骤1.3.3,将正则化信号组中的每个正则化信号转化为二维矩阵形式的声音信号,得到声音信号组。
步骤3中训练深度残差神经网络具体按照下述方法进行:
步骤3.1,构建深度神经网络框架,其中,深度神经网络主要包括三个部分,第一部分为输入层,第二部分为隐含层,第三部分为输出层,隐含层连接在输入层上,输出层连接在隐含层上;隐含层包括至少一个训练层,每一个训练层的输入端均与输入层连接;
步骤3.2,取一组训练组的语音数据从输入层全部输入至深度神经网络框架中进行训练,时遍历训练组的每一个语音数据,训练结束后,输出层输出语音识别的准确率;
步骤3.3,准确率达到设定值,则当前的深度神经网络为训练好的深度残差神经网络;
若准确率达不到设定值,则调整深度神经网络框架中的权重和阈值,并且增加一层训练层,训练层与调整前的深度神经网络框架的隐含层相连,取另一组训练组输入至调整后的深度神经网络框架进行训练,训练结束后,输出层输出语音识别的准确率;如此循环,直至准确率达到设定值,则当前的深度神经网络为训练好的深度残差神经网络。
输出层为Soft-Max层。
训练层包括两个相连的卷积层,一个卷积层连接输入层,另一个卷积层连接输出层,卷积层之间存在参数传递通道,且参数传递通道不能在卷积层之间相互交叉。
每一个卷积层的激活函数使用Relu激活函数。
每个卷积层后均连接有池化后层。
本发明的有益效果是:
本发明一种基于深度残差神经网络的语音识别方法,防止了各种马鞍情况和收敛速度过慢的出现,防止了过拟合现象的发生,从而保证了整个网络的高效快速准确的运行,语音识别准确率更高。
附图说明
图1是本发明一种基于深度残差神经网络的语音识别方法中实施例得到的深度残差神经网络的结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于深度残差神经网络的语音识别方法,具体按照下述步骤进行:
步骤1,构建语音库,得到n+1组声音信号组,具体按照下述方法进行:
步骤1.1,随机选取多个不同的汉字组成测试汉字组;
步骤1.2,采集测试汉字组中每一个汉字的声音信号,得到初始声音信号组;
步骤1.3,将初始声音信号组的每个声音信号进行类别标号,将每个类别标号后的声音信号进行预处理变成二维声音信号,得到一组声音信号组,其中预处理按照下述方法进行:
步骤1.3.1,将初始声音信号组中的每个声音信号均进行傅里叶变换变成频域声音信号,得到频域声音信号组;
步骤1.3.2,将频域声音信号组每个频域声音信号均进行正则化处理变成 3000维的正则化信号,得到正则化信号组;
步骤1.3.3,将正则化信号组中的每个正则化信号转化为二维矩阵形式的声音信号,得到声音信号组。
步骤1.4,将步骤1.2和步骤1.3重复n+1次,得到n+1组声音信号组。
步骤2,随机将n+1组声音信号组分为n组训练组和1组测试组;
步骤3,利用n组训练组训练深度残差神经网络,得到训练好的深度残差神经网络,具体按照下述方法进行:
步骤3.1,构建如图1所示的深度神经网络框架,其中,深度神经网络主要包括三个部分,第一部分为输入层,第二部分为隐含层,第三部分为输出层,隐含层连接在输入层上,输出层连接在隐含层上;隐含层包括至少一个训练层,每一个训练层的输入端均与输入层连接;
步骤3.2,取一组训练组的语音数据从输入层全部输入至深度神经网络框架中进行训练,训练时遍历训练组的每一个语音数据,训练结束后,输出层输出语音识别的准确率;
步骤3.3,准确率达到设定值,则当前的深度神经网络为训练好的深度残差神经网络;
若准确率达不到设定值,则调整深度神经网络框架中的权重和阈值,并且增加一层训练层,训练层的输出端与调整前的深度神经网络框架的隐含层的输出端相连进行数据的残差拟合,取另一组训练组输入至调整后的深度神经网络框架进行训练,训练结束后,输出层输出语音识别的准确率;如此循环,直至准确率达到设定值,则当前的深度神经网络为训练好的深度残差神经网络。
其中,快捷连接层包括两个相互连接的卷积层,一个卷积层的输入端连接输入层,另一个卷积层的输出端进行残差拟合后与输出层相连,卷积层之间存在参数传递通道,且参数传递通道不能在卷积层之间相互交叉;每个卷积层的激活函数均使用Relu激活函数;每个卷积层后均连接有池化后层。
步骤4,将测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别。
本发明一种基于深度残差神经网络的语音识别方法中,当语音识别的准确率达到设定值的时候,得到初始深度残差神经网络,改变初始深度残差神经网络的结构,增加快捷连接层组成残差网络结构,使用隐含层的参数更新快捷连接层参数后,在使用训练组进行训练,重复该步骤,向初始深度残差神经网络中增加多个快捷连接层,这样反复迭代,能够使得最后的训练好的残差神经网络结构最优。
本发明的一种基于深度残差神经网络的语音识别方法中,在进行训练是,在卷积层中,对每个为二维矩阵形式的声音信号进行处理时,需要先定义一个权重矩阵,权重矩阵的大小通常为3×3、5×5或7×7,通过滑动来使权重矩阵覆盖整个语音数据,在此时滑动步长为1×1,对权重矩阵所覆盖的数据进行加权求和并进行relu激活操作。
在卷积层激活采用的激活relu函数为f(x)=max(x,0);softmax分类采用的分类函数为其中j=1,2,...,K,分类函数将神经网络处理过后的K维的中文语音频域信号向量z压缩到另一个K维实向量σ(z)j,使得每一个元素的范围都在{0,1}之间,并且所有元素的和为1。在进行softmax 分类后,该神经网络会根据损失函数计算出相应的训练集的误差,通过梯度下降的方法反向传播误差,从而更新权重与阈值,使整个神经网络的准确率更高。
使用池化层能够减小减少语音数据空间大小。根据相邻数据的相关性,在每个n×n区域内,采用2×2矩阵在该区域进行滑动。池化在每一个纵深维度上独自完成,语音数据的纵深保持不变。
实施例
本实施例选择Python2.7和Keras以及Tensorflow作为实现平台,编程实现本发明方案的设计。
本实施例中随机选取1184个汉字组成测试汉字组,然后对测试汉字组的每一个汉字进行声音信号的采集和预处理,得到8组声音信号组。
将前7组声音信号组作为训练组,将第8组声音信号组作为测试组。
构建深度神经网络框架,将7组训练组的声音信号一次输入至深度神经网络框架中,第7组训练组训练完成后,输出层的语音识别的准确率达到 98%,超过设定值95%,得到深度神经网络;
向深度神经网络中增加快捷连接层调整结构,增加2层快捷连接层后,,输出层的语音识别的准确率达到98.8%,得到如图1所示的深度残差神经网络。
将测试组的所有声音信号均输入至深度残差神经网络中进行训练,语音识别争取率为99%,达到了预期的效果。

Claims (8)

1.一种基于深度残差神经网络的语音识别方法,其特征在于,具体按照下述步骤进行:
步骤1,构建语音库,得到n+1组声音信号组;
步骤2,随机将n+1组声音信号组分为n组训练组和1组测试组;
步骤3,利用n组所述训练组训练深度残差神经网络,得到训练好的深度残差神经网络;
步骤4,将所述测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别。
2.根据权利要求1所述的一种基于深度残差神经网络的语音识别方法,其特征在于,所述步骤1中构建语音库具体按照下述方法进行:
步骤1.1,随机选取多个不同的汉字组成测试汉字组;
步骤1.2,采集所述测试汉字组中每一个汉字的声音信号,得到初始声音信号组;
步骤1.3,将所述初始声音信号组的每个声音信号进行类别标号,将每个类别标号后的声音信号进行预处理变成二维数据形式的声音信号,得到一组声音信号组;
步骤1.4,将步骤1.2和步骤1.3重复n+1次,得到n+1组声音信号组。
3.根据权利要求2所述的一种基于深度残差神经网络的语音识别方法,其特征在于,所述步骤1.3中对声音信号按照下述步骤进行预处理:
步骤1.3.1,将所述初始声音信号组中的每个声音信号均进行傅里叶变换变成频域声音信号,得到频域声音信号组;
步骤1.3.2,将所述频域声音信号组每个频域声音信号均进行正则化处理变成正则化信号,得到正则化信号组;
步骤1.3.3,将所述正则化信号组中的每个所述正则化信号转化为二维矩阵形式的声音信号,得到声音信号组。
4.根据权利要求1所述的一种基于深度残差神经网络的语音识别方法,其特征在于,所述步骤3中训练深度残差神经网络具体按照下述方法进行:
步骤3.1,构建深度神经网络框架,其中,深度神经网络主要包括三个部分,第一部分为输入层,第二部分为隐含层,第三部分为输出层,所述隐含层连接在输入层上,所述输出层连接在所述隐含层上;所述隐含层包括至少一个训练层,每一个训练层的输入端均与输入层连接;
步骤3.2,取一组所述训练组的语音数据从输入层全部输入至深度神经网络框架中进行训练,训练时遍历训练组的每一个语音数据,训练结束后,输出层输出语音识别的准确率;
步骤3.3,准确率达到设定值,则当前的深度神经网络为训练好的深度残差神经网络;
若准确率达不到设定值,则调整深度神经网络框架中的权重和阈值,并且增加一层训练层,训练层与调整前的深度神经网络框架的隐含层相连,取另一组所述训练组输入至调整后的深度神经网络框架进行训练,训练结束后,输出层输出语音识别的准确率;如此循环,直至准确率达到设定值,则当前的深度神经网络为训练好的深度残差神经网络。
5.根据权利要求4所述的一种基于深度残差神经网络的语音识别方法,其特征在于,所述输出层为Soft-Max层。
6.根据权利要求4所述的一种基于深度残差神经网络的语音识别方法,其特征在于,所述训练层包括两个相连的卷积层,一个所述卷积层连接输入层,另一个所述卷积层连接输出层,所述卷积层之间存在参数传递通道,且参数传递通道不能在卷积层之间相互交叉。
7.据权利要求5或权利要求6所述的一种基于深度残差神经网络的语音识别方法,其特征在于,每一个所述卷积层的激活函数使用Relu激活函数。
8.据权利要求5或权利要求6所述的一种基于深度残差神经网络的语音识别方法,其特征在于,每个所述卷积层后均连接有池化后层。
CN201810638786.8A 2018-06-20 2018-06-20 一种基于深度残差神经网络的语音识别方法 Active CN108847223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810638786.8A CN108847223B (zh) 2018-06-20 2018-06-20 一种基于深度残差神经网络的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810638786.8A CN108847223B (zh) 2018-06-20 2018-06-20 一种基于深度残差神经网络的语音识别方法

Publications (2)

Publication Number Publication Date
CN108847223A true CN108847223A (zh) 2018-11-20
CN108847223B CN108847223B (zh) 2020-09-29

Family

ID=64202655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810638786.8A Active CN108847223B (zh) 2018-06-20 2018-06-20 一种基于深度残差神经网络的语音识别方法

Country Status (1)

Country Link
CN (1) CN108847223B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801621A (zh) * 2019-03-15 2019-05-24 三峡大学 一种基于残差门控循环单元的语音识别方法
CN110148408A (zh) * 2019-05-29 2019-08-20 上海电力学院 一种基于深度残差的中文语音识别方法
CN110189769A (zh) * 2019-05-23 2019-08-30 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
CN110751944A (zh) * 2019-09-19 2020-02-04 平安科技(深圳)有限公司 构建语音识别模型的方法、装置、设备和存储介质
CN110930996A (zh) * 2019-12-11 2020-03-27 广州市百果园信息技术有限公司 模型训练方法、语音识别方法、装置、存储介质及设备
CN111354372A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于前后端联合训练的音频场景分类方法及系统
CN111401530A (zh) * 2020-04-22 2020-07-10 上海依图网络科技有限公司 循环神经网络及其训练方法训练方法
CN112200302A (zh) * 2020-09-27 2021-01-08 四川翼飞视科技有限公司 一种加权残差神经网络的构建方法
CN110120227B (zh) * 2019-04-26 2021-03-19 天津大学 一种深度堆叠残差网络的语音分离方法
CN114937150A (zh) * 2022-05-20 2022-08-23 电子科技大学 一种基于深度阈值残差网络的无人机目标识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133227A (ja) * 2005-11-11 2007-05-31 Arcadia:Kk ニューラルネット学習装置および感情判断装置
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN106682694A (zh) * 2016-12-27 2017-05-17 复旦大学 一种基于深度学习的敏感图像识别方法
CN106782511A (zh) * 2016-12-22 2017-05-31 太原理工大学 修正线性深度自编码网络语音识别方法
CN107123111A (zh) * 2017-04-14 2017-09-01 浙江大学 一种用于手机屏幕缺陷检测的深度残差网络构造方法
CN107464568A (zh) * 2017-09-25 2017-12-12 四川长虹电器股份有限公司 基于三维卷积神经网络文本无关的说话人识别方法及系统
CN108052884A (zh) * 2017-12-01 2018-05-18 华南理工大学 一种基于改进残差神经网络的手势识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133227A (ja) * 2005-11-11 2007-05-31 Arcadia:Kk ニューラルネット学習装置および感情判断装置
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN106782511A (zh) * 2016-12-22 2017-05-31 太原理工大学 修正线性深度自编码网络语音识别方法
CN106682694A (zh) * 2016-12-27 2017-05-17 复旦大学 一种基于深度学习的敏感图像识别方法
CN107123111A (zh) * 2017-04-14 2017-09-01 浙江大学 一种用于手机屏幕缺陷检测的深度残差网络构造方法
CN107464568A (zh) * 2017-09-25 2017-12-12 四川长虹电器股份有限公司 基于三维卷积神经网络文本无关的说话人识别方法及系统
CN108052884A (zh) * 2017-12-01 2018-05-18 华南理工大学 一种基于改进残差神经网络的手势识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAIMING HE等: "Deep Residual Learning for Image Recognition", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
刘豫军,夏聪: "深度学习神经网络在语音识别中的应用", 《网络安全技术及应用》 *
杨云等: "结合优化U-Net和残差学习的细胞膜分割", 《计算机工程与设计》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354372A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于前后端联合训练的音频场景分类方法及系统
CN109801621A (zh) * 2019-03-15 2019-05-24 三峡大学 一种基于残差门控循环单元的语音识别方法
CN110120227B (zh) * 2019-04-26 2021-03-19 天津大学 一种深度堆叠残差网络的语音分离方法
CN110189769A (zh) * 2019-05-23 2019-08-30 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
CN110148408A (zh) * 2019-05-29 2019-08-20 上海电力学院 一种基于深度残差的中文语音识别方法
WO2021051628A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 构建语音识别模型的方法、装置、设备和存储介质
CN110751944A (zh) * 2019-09-19 2020-02-04 平安科技(深圳)有限公司 构建语音识别模型的方法、装置、设备和存储介质
CN110930996A (zh) * 2019-12-11 2020-03-27 广州市百果园信息技术有限公司 模型训练方法、语音识别方法、装置、存储介质及设备
CN110930996B (zh) * 2019-12-11 2023-10-31 广州市百果园信息技术有限公司 模型训练方法、语音识别方法、装置、存储介质及设备
CN111401530A (zh) * 2020-04-22 2020-07-10 上海依图网络科技有限公司 循环神经网络及其训练方法训练方法
CN111401530B (zh) * 2020-04-22 2021-04-09 上海依图网络科技有限公司 一种用于语音识别装置神经网络的训练方法
CN112200302A (zh) * 2020-09-27 2021-01-08 四川翼飞视科技有限公司 一种加权残差神经网络的构建方法
CN114937150A (zh) * 2022-05-20 2022-08-23 电子科技大学 一种基于深度阈值残差网络的无人机目标识别方法
CN114937150B (zh) * 2022-05-20 2023-04-07 电子科技大学 一种基于深度阈值残差网络的无人机目标识别方法

Also Published As

Publication number Publication date
CN108847223B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN108847223A (zh) 一种基于深度残差神经网络的语音识别方法
CN110599409B (zh) 基于多尺度卷积组与并行的卷积神经网络图像去噪方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN111260740B (zh) 一种基于生成对抗网络的文本到图像生成方法
CN111079795B (zh) 基于cnn的分片多尺度特征融合的图像分类方法
CN108764317B (zh) 一种基于多路特征加权的残差卷积神经网络图像分类方法
CN106991440B (zh) 一种基于空间金字塔的卷积神经网络的图像分类方法
CN111429947B (zh) 一种基于多级残差卷积神经网络的语音情感识别方法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
CN111832546B (zh) 一种轻量级自然场景文本识别方法
CN105205448A (zh) 基于深度学习的文字识别模型训练方法和识别方法
CN110534132A (zh) 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法
CN111507884A (zh) 一种基于深层卷积神经网络的自适应图像隐写分析方法及系统
CN111861906B (zh) 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法
CN110197205A (zh) 一种多特征来源残差网络的图像识别方法
CN107680077A (zh) 一种基于多阶梯度特征的无参考图像质量评价方法
CN102201236A (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN114943345A (zh) 基于主动学习和模型压缩的联邦学习全局模型训练方法
CN111694977A (zh) 一种基于数据增强的车辆图像检索方法
CN110991554B (zh) 一种基于改进pca的深度网络图像分类方法
Zhiyan et al. Speech emotion recognition based on deep learning and kernel nonlinear PSVM
CN107516069A (zh) 基于几何重构和多尺度分析的目标识别方法
CN111079691A (zh) 一种基于双流网络的剪枝方法
CN110189330A (zh) 一种基于深度学习的背景去除的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210422

Address after: Room a-107-61, room 14, Gaoxin 2nd Road, Zhangba Street office, Gaoxin District, Xi'an City, Shaanxi Province, 710075

Patentee after: Xinrui Yichuang (Xi'an) Information Technology Co.,Ltd.

Address before: 710021 Shaanxi city of Xi'an province Weiyang University Park

Patentee before: SHAANXI University OF SCIENCE & TECHNOLOGY