CN110600014B - 一种模型训练方法、装置、存储介质及电子设备 - Google Patents

一种模型训练方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110600014B
CN110600014B CN201910884780.3A CN201910884780A CN110600014B CN 110600014 B CN110600014 B CN 110600014B CN 201910884780 A CN201910884780 A CN 201910884780A CN 110600014 B CN110600014 B CN 110600014B
Authority
CN
China
Prior art keywords
voice
voice data
acoustic model
model
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910884780.3A
Other languages
English (en)
Other versions
CN110600014A (zh
Inventor
汤志淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coolpad Technology Co ltd
Original Assignee
Shenzhen Coolpad Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coolpad Technology Co ltd filed Critical Shenzhen Coolpad Technology Co ltd
Priority to CN201910884780.3A priority Critical patent/CN110600014B/zh
Publication of CN110600014A publication Critical patent/CN110600014A/zh
Application granted granted Critical
Publication of CN110600014B publication Critical patent/CN110600014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例公开了一种模型训练方法、装置、存储介质及电子设备,其中,方法包括:获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型,获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。采用本申请实施例,可以提升模型的鲁棒性,提高模型的识别准确率。

Description

一种模型训练方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种模型训练方法、装置、存储介质及电子设备。
背景技术
随着通信技术的发展和智能终端的普及,一种新兴智能求救方式-求救语音识别方式越来越受到人们的欢迎,人们可以在出现意外或危险而无人知晓的情况下通过发出求救语音,用户终端接收到求救语音之后,识别求救语音的求救信息,基于求救信息进行求救预警。
为了对求救语音进行精准识别,通常是通过训练好的求救语音模型,基于求救语音模型对求救语音进行识别。在创建求救语音模型的过程中需要对求救语音模型进行训练。
目前,一般是对带噪语音数据和求救语音数据提取语音特征,将带噪语音数据的语音特征以及求救语音数据的语音特征共同输入到求救语音模型中进行训练,然而,在对带噪语音数据和求救语音数据提取语音特征的过程中,带噪语音数据的语音特征与求救语音数据的语音特征会存在过拟合的情况,在过拟合的情况下,训练的求救语音模型中的参数会难以收敛,从而导致训练出的模型参数鲁棒性不稳定而使得识别准确率较低。
发明内容
本申请实施例提供了一种模型训练方法、装置、存储介质及电子设备,可以提升模型的鲁棒性,提高模型的识别准确率。所述技术方案如下:
第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:
获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型;
获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。
第二方面,本申请实施例提供了一种模型训练装置,所述装置包括:
第一声学模型生成模块,用于获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型;
第二声学模型生成模块,用于获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种服务器,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
在本申请一个或多个实施例中,用户终端获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型,获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。通过先将带噪语音数据输入神经网络模型训练生成第一声学模型,再将求救语音数据输入第一声学模型进行迁移学习以得到第二声学模型(求救语音模型),可以避免在训练求救语音模型时模型参数难以收敛的情况,提升了求救语音模型的鲁棒性,提高了求救语音模型的识别准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种模型训练方法的流程示意图;
图2是本申请实施例提供的另一种模型训练方法的流程示意图;
图3是本申请实施例提供的一种模型训练方法涉及的提取语音特征的示意图;
图4是本申请实施例提供的模型训练方法涉及的一种深度神经网络模型的示意图;
图5是本申请实施例提供的一种模型训练装置的结构示意图;
图6是本申请实施例提供的一种第一声学模型生成模块的结构示意图;
图7是本申请实施例提供的一种第二声学模型生成模块的结构示意图;
图8是本申请实施例提供的另一种模型训练装置的结构示意图;
图9是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面结合具体的实施例对本申请进行详细说明。
在一个实施例中,如图1所示,特提出了一种模型训练方法,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的模型训练装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本申请实施例中的模型训练装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。
具体的,该模型训练方法包括:
步骤101:获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型;
所述带噪语音数据是指实际语言环境下所采集的含有噪声的真实录音数据,在本实施例中所述带噪语音数据可以理解为由各种实际语言环境下所采集的含有噪声的真实录音数据组成的海量样本数据,其中该样本数据中噪声类型和噪声强度各异,采用带噪语音数据训练神经网络模型,可以很好的覆盖实际使用环境。
其中,所述带噪语音数据可以是来自于已有的海量现场真实录音数据库中的部分或全部带噪语音数据,例如,可采用维基百科语料库、VoxCeleb语料库、LibriSpeech语料库、THCHS-30语料库等等,可以是实际噪声环境中收集的带噪语音数据,等等。
所述神经网络模型是由许多节点中各节点的简单非线性模拟处理要素密集互连配置而成的,是一种模仿了生物神经元的系统模型。所述神经网络模型通过使至少一个节点的输入与每一个节点的输出连接形成,类似于真实神经元的突触连接。每个神经元表达了一种特定的输出函数,即激励函数,每两个神经元之间的连接都包含一个连接强度,即作用于通过该连接的信号的加权值。在本实施例中,将带噪语音数据输入至神经网络模型进行训练,得到训练之后的第一声学模型,该第一声学模型具有带噪语音信息特征抽取、带噪语音知识概括和学习记忆的能力,通常所述神经网络模型学习到的信息或知识储存在每个单元节点之间的连接矩阵上。
所述神经网络模型可以是基于卷积神经网络(Convolutional Neural Network,CNN)模型,深度神经网络(Deep Neural Network,DNN)模型、循环神经网络(RecurrentNeural Networks,RNN)、模型、嵌入(embedding)模型、梯度提升决策树(GradientBoosting Decision Tree,GBDT)模型、逻辑回归(Logistic Regression,LR)模型等模型中的一种或多种的拟合实现的。在本实施例中,优选采用基于深度神经网络的隐马尔可夫模型,即DNN-HMM,在现有神经网络模型基础上引入误差反向传播算法进行优化,提高神经网络模型的识别准确率。
具体的,用户终端获取带噪语音数据,对所述带噪语音数据进行数字化处理,所述数字化处理包含反混叠滤波、采样、A/D转换等等,再对数字化处理后的带噪语音数据进行预处理,滤除掉带噪语音数据中不重要的信息以及背景噪声,然后对所述带噪语音数据进行分帧等处理,提取带噪语音数据中的语音特征,将所述语音特征输入到所述神经网络模型中进行训练,在训练过程中,计算神经网络模型的实际输出值与期望输出值的期望误差,基于所述期望误差调整所述神经网络模型的参数,训练完成后,生成第一声学模型。
可选的,在对所述神经网络模型进行训练,可以是采用基于动态时间规整的训练方法(DTW),可以是基于矢量量化的训练方法(VQ),还可以是基于语音信号的时间序列的训练方法(HMM),等等。
步骤102:获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。
所述求救语音数据是指实际语言环境下所采集的包含有求救语音的真实录音数据,在本实施例中所述求救语音数据可以理解为由各种实际语言环境下所采集的含有求救语音的真实录音数据组成的样本数据。
所述迁移学习是指将某个领域或任务学习到的知识或模式应用到不同但相关的领域或任务中。在本实施例中,所述带噪语音数据通常是海量的,而所述求救语音数据较之于所述带噪语音数据较少,所述带噪语音数据在迁移学习中可称为源数据,所述带噪语音数据可称为目标数据,用户终端通过预先将源数据-带噪语音数据输入至神经网络模型进行训练,得到训练好的第一声学模型,再将目标数据-求救语音数据输入到所述第一声学模型中,对所述第一声学模型进行训练并对所述第一声学模型的参数进行调整,然后生成的第二声学模型,以达到较好的拟合效果。
具体的,用户终端可以从已有的语音数据库中获取全部或部分求救语音数据,和/或获取采用录音设备对实际语言环境下录制的求救语音数据,在获取到所述求救语音数据之后,对所述求救语音数据进行数字化处理,再对数字化处理后的求救语音数据进行预处理,滤除掉带噪语音数据中不重要的信息以及背景噪声,并对所述求救语音数据进行分帧等处理,采用声学特征提取算法提取求救语音数据中的语音特征,将求救语音数据中的冗余信息进行过滤,然后将过滤之后的所述语音特征输入到所述第一声学模型中进行训练,在训练过程中,计算神经网络模型的实际输出值与期望输出值的期望误差,基于所述期望误差调整所述神经网络模型的参数,训练完成后,生成第二声学模型。
可选的,所述声学特征提取算法可以是线性预测分析算法、可以是基于感知线性预测系数的提取算法、可以是线性预测倒谱系数的提取算法、可以是基于梅尔频率倒谱系数的提取算法等等。
在本申请实施例中,用户终端获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型,获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。通过先将带噪语音数据输入神经网络模型训练生成第一声学模型,再将求救语音数据输入第一声学模型进行迁移学习以得到第二声学模型(求救语音模型),可以避免在训练求救语音模型时模型参数难以收敛的情况,提升了求救语音模型的鲁棒性,提高了求救语音模型的识别准确率。
请参见图2,图2是本申请提出的一种模型训练方法的另一种实施例的流程示意图。具体的:
步骤201:获取带噪语音数据,提取所述带噪语音数据的第一语音特征。
所述带噪语音数据可以包括语音标识,所述语音标识用来标识基本语音元素,其中所述语音标识可以是各种形式的标识,例如字母、数字、符号、文字等等。
所述第一语音特征是对所述带噪语音数据进行数字化处理以及预处理之后包括带噪语音特征的数据集,通常也称第一语音特征向量。其中,所述数字化处理包含反混叠滤波、采样、A/D转换等等。
具体的,通常所述带噪语音数据中的带噪语音为模拟信号,模拟信号的时域波形反映声压随时间变化的关系,为了更好的反映带噪语音的声学特征,用户终端对所述带噪语音数据进行数字化处理以及预处理之后,提取第一语音特征。
在一种可行的实施方式中,用户终端可以基于梅尔频率倒谱系数(MFCC)的提取算法从带噪语音数据中提取第一声学特征。如图3所示,图3是采用MFCC提取算法提取第一语音特征的流程图。具体如下:
A/D转换:即模数转换,包括采样和量化,用户终端以预设采样率和采样位数将带噪语音数据的连续波形转换为离散的数据点。
预加重:对于带噪语音数据来说,往往低频部分的带噪语音能量高于高频部分的能量,为使高频部分的能量和低频部分能量有相似的幅度,需要预加强带噪语音数据的高频能量。用户终端在加强高频部分的能量之后,可以使神经网络模型更好的利用高频共振峰,提高识别准确率。通常预加重通过高通滤波器实现。
加窗:通常带噪语音数据一般是非平稳信号,通过加窗处理可以将带噪语音数据进行分帧。
快速傅里叶变换(FFT):用户终端在得到经过加窗的每一帧带噪语音信号后,采用快速傅里叶变换对每一帧带噪语音信号进行处理之后,可以反映出每一帧信号在不同频段的能量分布。
Mel滤波:将噪声语音数据经FFT变换之后的FFT频谱通过Mel滤波器组进行转换,转换成Mel频谱。通常Mel滤波器组一般是一组mel刻度的三角形滤波器组,得到Mel频谱之后,计算每个滤波器组输出的对数能量。
倒谱:通过离散余弦变换将频域信号变换回时域信号,基于倒谱系数可以检测带噪语音的音元和音高。
最后经能量和差分处理,得到第一语音特征。
步骤202:创建神经网络模型,将所述第一语音特征输入至所述神经网络模型中,输出所述第一语音特征对应的第一语音标识,基于所述第一语音标识对所述神经网络模型进行训练,得到所述第一声学模型。
所述第一语音标识可以是各种形式的标识,例如向量、字母、数字、符号、文字等等。
在本实施例中,优选采用基于深度神经网络的隐马尔可夫模型,即DNN-HMM模型,在现有神经网络模型基础上引入误差反向传播算法进行优化,提高神经网络模型的识别准确率。
所述深度神经网络由输入层、隐层、输出层组成,如图4所示,所述输入层用于根据输入所述深度神经网络的语音特征计算输入至最底层的隐层单元的输出值,所述输入层通常包括多个输入单元,所述输入单元用于根据输入的语音特征计算输入至最底层的隐层单元的输出值。将所述语音特征输入至所述输入单元后,所述输入单元根据自身的加权值利用输入至所述输入单元的语音特征计算向最底层的隐层输出的输出值。
所述隐层通常为多个,每一层隐层包括多个隐层单元,所述隐层单元接收来自于下一隐层中的隐层单元的输入值。根据本层的加权值对来自于下一层隐层中的隐层单元的输入值进行加权求和,并将加权求和的结果作为输出至上一层隐层的隐层单元的输出值。
所述输出层包括多个输出单元,所述输出单元接收来自于最上层隐层中的隐层单元的输入值,根据本层的加权值对来自于最上层隐层中的隐层单元的输入值进行加权求和,根据加权求和的结果计算实际输出值,基于期望输出值与实际输出值的误差从输出层反向传播并沿输出路径调整各层连接权重值和阈值。
具体的,本实施例中采用引入误差反向传播算法的DNN-HMM模型创建初始模型,在提取所述带噪语音数据的第一语音特征之后,将所述第一语音特征输入到所述神经网络模型中,所述神经网络模型的训练过程通常由正向传播和反向传播两部分组成,在正向传播过程中,用户终端输入样本-带噪语音数据对应的第一语音特征从所述神经网络模型的输入层经过隐层神经元(也称节点)的传递函数(又称激活函数、转换函数)运算后,传向输出层,其中每一层神经元状态影响下一层神经元状态,在输出层计算实际输出值-第一语音标识,计算所述实际输出值与期望输出值的期望误差,基于所述期望误差调整所述神经网络模型的参数,所述参数包含每一层的权重值和阈值,训练完成后,生成第一声学模型。
具体的,所述期望误差可以是计算实际输出值与期望输出值的均方误差MSE,均方误差MSE,所述均方误差MSE可以采用如下的公式:
Figure GDA0003654406600000081
其中,m为输出节点个数,p为训练样本数目,
Figure GDA0003654406600000082
为期望输出值,ypj为实际输出值。
步骤203:获取求救语音数据,提取所述求救语音数据的第二语音特征。
具体的,用户终端可以从已有的语音数据库中获取全部或部分求救语音数据,和/或获取采用录音设备对实际语言环境下录制的求救语音数据,在获取到所述求救语音数据之后,提取所述求救语音数据的第二语音特征。
其中,所述提取所述求救语音数据的第二语音特征的步骤具体可参考步骤201,此处不再赘述。
步骤204:将所述第二语音特征输入至所述第一声学模型中,输出所述第二语音特征对应的第二语音标识,基于所述第二语音标识对所述第一声学模型进行训练,得到训练后的所述第二声学模型。
具体的,用户终端在提取所述求救语音数据的第二语音特征之后,将所述第二语音特征输入到所述第一声学模型中,所述第一声学模型的训练过程通常由正向传播和反向传播两部分组成,在正向传播过程中,用户终端输入样本-求救语音数据对应的第二语音特征从所述第一声学模型的输入层经过隐层神经元(也称节点)的传递函数(又称激活函数、转换函数)运算后,传向输出层,其中每一层神经元状态影响下一层神经元状态,在输出层计算实际输出值-第一语音标识,计算所述实际输出值与期望输出值的期望误差,基于所述期望误差调整所述第一声学模型的参数,同时对所述第一声学模型中隐层的学习速率进行微调,训练完成后,生成第二声学模型。
在实际应用中,用户终端先采用带噪语音数据训练所述神经网络模型,得到训练好的第一声学模型,所述第一声学模型中的参数经过了根据期望误差进行调整,得到的第一声学模型具有对带噪语音数据中语音特征进行识别的特性,由于,所述求救语音数据与所述带噪语音数据在语言识别上具有共性,所述共性可以理解为,带噪语音与求救语音的音素、音节、词性等相似,用户终端将所述求救语音数据的第二语音特征输入到所述第一声学模型进行训练,可以得到具有求救语音识别特性的第二声学模型。
步骤205:接收求救语音信号,获取所述求救语音信号携带的目标语音数据,将所述目标语音数据输入到所述第二声学模型进行识别,输出所述目标语音数据对应的目标文本信息。
所述语音信号是一种携带信息的非平稳的时变信号,所述求救语音信号可以理解为携带求救信息的时变信号。
所述目标语音数据可以理解为用户终端可识别的求救语音数据,在本实施例中可以理解为,用户终端在接收到所述求救语音信号,对所述求救语音信号进行语音处理,得到求救语音信号携带的目标语音数据,例如对所述求救语音信号进行解码,得到相应格式的目标语音数据等。
所述目标语音数据通常包含求救语音的音高、音强、音长、音色等,所述目标文本信息是指第二声学模型识别目标语音数据输出的文本,可以是具有求救含义的词、句子、字符、字母等。
具体的,用户终端可以通过内置的录音采集装置或外置的录音采集装置采集用户输入的求救语音信号,音频采集装置可以是一个或多个话筒(也称为麦克风)。在话筒的数量为多个的情况下,多个话筒可以分布在不同的位置组成话筒阵列,用户终端通过话筒阵列获取每个话筒采集到的求救语音信号,将多个通道采集到的测评语音集合进行合并得到高保真的求救语音信号。
可选的,在音频采集装置外置的情况下,音频采集装置可以通过预设长度(如3.5mm)的耳机插口、USB接口或蓝牙等将采集到的求救语音信号实时传输给用户终端。
具体的,用户终端将所述求救语音信号进行语音处理,所述语音处理包括对求救语音信号进行数字化处理,得到所述目标语音数据,用户终端对所述目标语音数据进行预处理,然后将所述目标语音数据输入到第二声学模型中,得到第二声学模型的输出结果-目标文本信息。
步骤206:输出包含所述目标文本信息的报警求救信号。
所述报警求救信号可以是短信、电话、即时通讯应用上的通知消息等形式。
具体的,用户终端预先存储有紧急联系表,当识别到所述目标文本信息之后,向紧急联系表上的紧急联系人发送包含所述目标文本信息的报警求救信号。例如:用户终端可以是以电话的方式通知紧急联系人、可以是以短信的方式通知紧急联系人等等。
可选的,用户终端具有定位功能,所述定位功能可以是基于现有的卫星定位系统实现的,也可以是基于信号距离衰减模型计算实现的,等等。当用户终端识别出所述目标文本信息之后,触发定位功能,获取当前求救的地理位置,向紧急联系人发送包含所述目标文本信息以及所述地理位置的报警求救信号。
步骤207:向服务器发送包含所述目标文本信息的所述报警求救信号,以使所述服务器基于预设紧急联系表,向所述预设紧急联系表中的紧急联系人发送所述报警求救信号。
所述服务器可以是单独的服务器设备,例如:机架式、刀片、塔式、或者机柜式的服务器设备,也可以采用工作站、大型计算机、等具备较强计算能力硬件设备,也可以采用多个服务器组成的服务器集群,所述服务集群中的各服务器可以是以对称方式组成的,其中每台服务器在通信链路中功能等价、地位等价,各服务器均可单独对外提供服务,所述单独提供服务可以理解为无需另外的服务器的辅助。
所述用户终端通过网络与服务器进行通信,网络可以是无线网络,也可以是有线网络,无线网络包括但不限于蜂窝网络、无线局域网、红外网络或蓝牙网络,有线网络包括但不限于以太网、通用串行总线(universal serial bus,USB)或控制器局域网络。
具体的,用户终端识别到所述目标文本信息之后,向服务器发送包含所述目标文本信息的报警求救信号,服务器接收到报警求救信号之后,获取保存的预设紧急联系表,所述预设联系表中包含用户在用户终端上设置的紧急联系人及相关救援电话(例如110、112、119等),用户终端向预设紧急联系表中的紧急联系人发送所述报警求救信号。
可选的,服务器在接收到用户终端发送的报警求救信号之后,可以实时获取用户终端上用户的实时定位信息,将所述实时定位信息发送至预设紧急联系表中的紧急联系人。
可选的,服务器在接收到用户终端发送的报警求救信号之后,可以实时获取所述用户终端上用户的实时定位信息和预设紧急联系表中的紧急联系人的实时位置信息,根据用户的实时定位信息以及紧急联系人的实时位置信息指示的位置在电子地图上的相应的位置进行标注,服务器将标注完成之后的电子地图发送至预设紧急联系表中的紧急联系人。
在本申请实施例中,用户终端获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型,获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。通过先将带噪语音数据输入神经网络模型训练生成第一声学模型,再将求救语音数据输入第一声学模型进行迁移学习以得到第二声学模型(求救语音模型),可以避免在训练求救语音模型时模型参数难以收敛的情况,提升了求救语音模型的鲁棒性,提高了求救语音模型的识别准确率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图5,其示出了本申请一个示例性实施例提供的模型训练装置的结构示意图。该模型训练装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括第一声学模型生成模块11以及第二声学模型生成模块12。
第一声学模型生成模块11,用于获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型;
第二声学模型生成模块12,用于获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。
可选的,如图6所示,所述第一声学模型生成模块11,包括:
第一语音特征提取单元111,用于获取带噪语音数据,提取所述带噪语音数据的第一语音特征;
第一声学模型生成单元112,用于创建神经网络模型,将所述第一语音特征输入至所述神经网络模型中,输出所述第一语音特征对应的第一语音标识,基于所述第一语音标识对所述神经网络模型进行训练,得到所述第一声学模型。
可选的,如图7所示,所述第二声学模型生成模块12,包括:
第二语音特征提取单元121,用于提取所述求救语音数据的第二语音特征;
第二声学模型生成单元122,用于将所述第二语音特征输入至所述第一声学模型中,输出所述第二语音特征对应的第二语音标识,基于所述第二语音标识对所述第一声学模型进行训练,得到训练后的所述第二声学模型。
可选的,如图8所示,所述装置1,还包括:
求救语音识别模块13,用于接收求救语音信号,获取所述求救语音信号携带的目标语音数据,将所述目标语音数据输入到所述第二声学模型进行识别,输出所述目标语音数据对应的目标文本信息。
可选的,如图8所示,所述装置1,还包括:
信号输出模块14,用于输出包含所述目标文本信息的报警求救信号。
可选的,如图8所示,所述装置1,还包括:
信号发送模块15,用于向服务器发送包含所述目标文本信息的所述报警求救信号,以使所述服务器基于预设紧急联系表,向所述预设紧急联系表中的紧急联系人发送所述报警求救信号。
需要说明的是,上述实施例提供的模型训练装置在执行模型训练方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本实施例中,用户终端获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型,获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。通过先将带噪语音数据输入神经网络模型训练生成第一声学模型,再将求救语音数据输入第一声学模型进行迁移学习以得到第二声学模型(求救语音模型),可以避免在训练求救语音模型时模型参数难以收敛的情况,提升了求救语音模型的鲁棒性,提高了求救语音模型的识别准确率。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图4所示实施例的所述模型训练方法,具体执行过程可以参见图1-图4所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1-图4所示实施例的所述模型训练方法,具体执行过程可以参见图1-图4所示实施例的具体说明,在此不进行赘述。
请参见图9,为本申请实施例提供了一种电子设备的结构示意图。如图9所示,所述电子设备1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个服务器1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行服务器1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及模型训练应用程序。
在图9所示的电子设备1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的模型训练应用程序,并具体执行以下操作:
获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型;
获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。
在一个实施例中,当所述业务图像包括多个时,所述处理器1001在执行所述获取带噪语音数据,将所述带噪语音数据输入至神经网络进行训练,生成第一声学模型时,具体执行以下操作:
获取带噪语音数据,提取所述带噪语音数据的第一语音特征;
创建神经网络模型,将所述第一语音特征输入至所述神经网络模型中,输出所述第一语音特征对应的第一语音标识,基于所述第一语音标识对所述神经网络模型进行训练,得到所述第一声学模型。
在一个实施例中,所述处理器1001在执行所述获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型时,具体执行以下操作:
获取求救语音数据,提取所述求救语音数据的第二语音特征;
将所述第二语音特征输入至所述第一声学模型中,输出所述第二语音特征对应的第二语音标识,基于所述第二语音标识对所述第一声学模型进行训练,得到训练后的所述第二声学模型。
在一个实施例中,所述处理器1001在执行所述对所述第一声学模型进行训练,得到训练后的所述第一声学模型之后,还执行以下操作:
接收求救语音信号,获取所述求救语音信号携带的目标语音数据,将所述目标语音数据输入到所述第二声学模型进行识别,输出所述目标语音数据对应的目标文本信息。
在一个实施例中,所述处理器1001在执行所述输出所述目标求救语音数据对应的目标语音标识之后,还执行以下操作:
输出包含所述目标文本信息的报警求救信号。
在一个实施例中,所述处理器1001在执行所述输出所述目标求救语音数据对应的目标语音标识之后,还执行以下操作:
向服务器发送包含所述目标文本信息的所述报警求救信号,以使所述服务器基于预设紧急联系表,向所述预设紧急联系表中的紧急联系人发送所述报警求救信号。
在本实施例中,用户终端获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型,获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。通过先将带噪语音数据输入神经网络模型训练生成第一声学模型,再将求救语音数据输入第一声学模型进行迁移学习以得到第二声学模型(求救语音模型),可以避免在训练求救语音模型时模型参数难以收敛的情况,提升了求救语音模型的鲁棒性,提高了求救语音模型的识别准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (13)

1.一种模型识别方法,其特征在于,应用于用户终端,所述方法包括:
获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,在神经网络模型的训练过程中,通过计算所述神经网络模型的实际输出值与期望输出值的期望误差,基于所述神经网络模型的期望误差调整所述神经网络模型的参数,训练完成后,生成第一声学模型;
获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,在第一声学模型的迁移学习过程中,计算所述第一声学模型的实际输出值与期望输出值的期望误差,基于所述第一声学模型的期望误差调整模型参数以及学习速率,训练完成后,生成第二声学模型;所述带噪语音数据的数据量大于所述求救语音数据的数据量;
接收求救语音信号,获取所述求救语音信号携带的目标语音数据,将所述目标语音数据输入到所述第二声学模型进行识别输出所述目标语音数据对应的目标文本信息,输出包含所述目标文本信息的报警求救信号,以基于所述报警求救信号进行报警求救;
其中,所述求救语音数据与所述带噪语音数据在语言识别上具有共性,所述共性为所述带噪语音数据与所述求救语音数据的音素特征、音节特征、词性特征相似。
2.根据权利要求1所述的方法,其特征在于,所述获取带噪语音数据,将所述带噪语音数据输入至神经网络进行训练,生成第一声学模型,包括:
获取带噪语音数据,提取所述带噪语音数据的第一语音特征;
创建神经网络模型,将所述第一语音特征输入至所述神经网络模型中,输出所述第一语音特征对应的第一语音标识,基于所述第一语音标识对所述神经网络模型进行训练,得到所述第一声学模型。
3.根据权利要求1所述的方法,其特征在于,所述获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型,包括:
获取求救语音数据,提取所述求救语音数据的第二语音特征;
将所述第二语音特征输入至所述第一声学模型中,输出所述第二语音特征对应的第二语音标识,基于所述第二语音标识对所述第一声学模型进行训练,得到训练后的所述第二声学模型。
4.根据权利要求1所述的方法,其特征在于,所述输出包含所述目标文本信息的报警求救信号,包括:
触发定位功能,获取当前的地理位置,向紧急联系人发送包含所述目标文本信息以及所述地理位置的报警求救信号。
5.根据权利要求1所述的方法,其特征在于,所述输出包含所述目标文本信息的报警求救信号之后,还包括:
向服务器发送包含所述目标文本信息的所述报警求救信号,以使所述服务器基于预设紧急联系表,向所述预设紧急联系表中的紧急联系人发送所述报警求救信号。
6.一种模型识别装置,其特征在于,所述装置包括:
第一声学模型生成模块,用于获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,在神经网络模型的训练过程中,通过计算所述神经网络模型的实际输出值与期望输出值的期望误差,基于所述神经网络模型的期望误差调整所述神经网络模型的参数,训练完成后,生成第一声学模型;
第二声学模型生成模块,用于获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,在第一声学模型的迁移学习过程中,计算所述第一声学模型的实际输出值与期望输出值的期望误差,基于所述第一声学模型的期望误差调整模型参数以及学习速率,训练完成后,生成第二声学模型;所述带噪语音数据的数据量大于所述求救语音数据的数据量;
所述装置还用于:接收求救语音信号,获取所述求救语音信号携带的目标语音数据,将所述目标语音数据输入到所述第二声学模型进行识别输出所述目标语音数据对应的目标文本信息,输出包含所述目标文本信息的报警求救信号,以基于所述报警求救信号进行报警求救;
其中,所述求救语音数据与所述带噪语音数据在语言识别上具有共性,所述共性为所述带噪语音数据与所述求救语音数据的音素特征、音节特征、词性特征相似。
7.根据权利要求6所述的装置,其特征在于,所述第一声学模型生成模块,包括:
第一语音特征提取单元,用于获取带噪语音数据,提取所述带噪语音数据的第一语音特征;
第一声学模型生成单元,用于创建神经网络模型,将所述第一语音特征输入至所述神经网络模型中,输出所述第一语音特征对应的第一语音标识,基于所述第一语音标识对所述神经网络模型进行训练,得到所述第一声学模型。
8.根据权利要求6所述的装置,其特征在于,所述第二声学模型生成模块,包括:
第二语音特征提取单元,用于提取所述求救语音数据的第二语音特征;
第二声学模型生成单元,用于将所述第二语音特征输入至所述第一声学模型中,输出所述第二语音特征对应的第二语音标识,基于所述第二语音标识对所述第一声学模型进行训练,得到训练后的所述第二声学模型。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
求救语音识别模块,用于接收求救语音信号,获取所述求救语音信号携带的目标语音数据,将所述目标语音数据输入到所述第二声学模型进行识别,输出所述目标语音数据对应的目标文本信息。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
信号输出模块,用于输出包含所述目标文本信息的报警求救信号。
11.根据权利要求6所述的装置,其特征在于,所述装置还包括:
信号发送模块,用于向服务器发送包含所述目标文本信息的所述报警求救信号,以使所述服务器基于预设紧急联系表,向所述预设紧急联系表中的紧急联系人发送所述报警求救信号。
12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~5任意一项的方法步骤。
13.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~5任意一项的方法步骤。
CN201910884780.3A 2019-09-19 2019-09-19 一种模型训练方法、装置、存储介质及电子设备 Active CN110600014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910884780.3A CN110600014B (zh) 2019-09-19 2019-09-19 一种模型训练方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910884780.3A CN110600014B (zh) 2019-09-19 2019-09-19 一种模型训练方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110600014A CN110600014A (zh) 2019-12-20
CN110600014B true CN110600014B (zh) 2022-09-02

Family

ID=68861331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910884780.3A Active CN110600014B (zh) 2019-09-19 2019-09-19 一种模型训练方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110600014B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081222A (zh) * 2019-12-30 2020-04-28 北京明略软件系统有限公司 语音识别方法、装置、存储介质以及电子装置
CN111461438B (zh) * 2020-04-01 2024-01-05 中国人民解放军空军93114部队 一种信号检测方法、装置、电子设备和存储介质
CN111833852B (zh) * 2020-06-30 2022-04-15 思必驰科技股份有限公司 一种声学模型的训练方法、装置以及计算机可读存储介质
CN111710330A (zh) * 2020-07-29 2020-09-25 深圳波洛斯科技有限公司 基于深度神经网络的环境噪声消除方法、装置及存储介质
CN117178320A (zh) * 2021-07-16 2023-12-05 华为技术有限公司 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质
CN113849150A (zh) * 2021-08-25 2021-12-28 北京通通易联科技有限公司 基于迁移学习实现前端标签页声控切换的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364408A (zh) * 2008-10-07 2009-02-11 西安成峰科技有限公司 一种声像联合的监控方法及系统
CN109545190A (zh) * 2018-12-29 2019-03-29 联动优势科技有限公司 一种基于关键词的语音识别方法
CN110070855A (zh) * 2018-01-23 2019-07-30 中国科学院声学研究所 一种基于迁移神经网络声学模型的语音识别系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911429B1 (ko) * 2007-08-22 2009-08-11 한국전자통신연구원 환경 이동을 위한 잡음 적응형 음향 모델 생성 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364408A (zh) * 2008-10-07 2009-02-11 西安成峰科技有限公司 一种声像联合的监控方法及系统
CN110070855A (zh) * 2018-01-23 2019-07-30 中国科学院声学研究所 一种基于迁移神经网络声学模型的语音识别系统及方法
CN109545190A (zh) * 2018-12-29 2019-03-29 联动优势科技有限公司 一种基于关键词的语音识别方法

Also Published As

Publication number Publication date
CN110600014A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110600014B (zh) 一种模型训练方法、装置、存储介质及电子设备
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN105976812B (zh) 一种语音识别方法及其设备
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
CN106782504A (zh) 语音识别方法和装置
CN112259106A (zh) 声纹识别方法、装置、存储介质及计算机设备
CN108597496A (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN107767869A (zh) 用于提供语音服务的方法和装置
CN108399923A (zh) 多人发言中发言人识别方法以及装置
CN112581963B (zh) 一种语音意图识别方法及系统
Muhammad et al. Voice content matching system for quran readers
CN111883135A (zh) 语音转写方法、装置和电子设备
CN114420169B (zh) 情绪识别方法、装置及机器人
CN111986679A (zh) 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN109300339A (zh) 一种英语口语的练习方法及系统
CN111785302B (zh) 说话人分离方法、装置及电子设备
Gupta et al. Speech feature extraction and recognition using genetic algorithm
Mian Qaisar Isolated speech recognition and its transformation in visual signs
CN112002348A (zh) 一种患者语音愤怒情绪识别方法和系统
WO2024114303A1 (zh) 音素识别方法、装置、电子设备及存储介质
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
CN117351948A (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
Kuljic et al. Mobile robot controlled by voice
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
CN112259077B (zh) 语音识别方法、装置、终端和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant