CN109065027A - 语音区分模型训练方法、装置、计算机设备及存储介质 - Google Patents

语音区分模型训练方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109065027A
CN109065027A CN201810561701.0A CN201810561701A CN109065027A CN 109065027 A CN109065027 A CN 109065027A CN 201810561701 A CN201810561701 A CN 201810561701A CN 109065027 A CN109065027 A CN 109065027A
Authority
CN
China
Prior art keywords
neural network
model
voice data
recognition
bidirectional circulating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810561701.0A
Other languages
English (en)
Other versions
CN109065027B (zh
Inventor
涂宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810561701.0A priority Critical patent/CN109065027B/zh
Priority to PCT/CN2018/094232 priority patent/WO2019232851A1/zh
Publication of CN109065027A publication Critical patent/CN109065027A/zh
Application granted granted Critical
Publication of CN109065027B publication Critical patent/CN109065027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Feedback Control In General (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种语音区分模型训练方法、装置、计算机设备及存储介质。该方法包括:将标准训练语音数据和干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型;获取待测试语音数据,待测试语音数据包括等比例配置的标准测试语音数据和干扰测试语音数据;将标准测试语音数据和干扰测试语音数据输入到原始语音区分模型中进行识别,获取识别准确率,若识别准确率大于预设阈值,则原始语音区分模型确定为目标语音区分模型。采用目标语音区分模型对语音进行区分,可以提高语音区分的准确率。

Description

语音区分模型训练方法、装置、计算机设备及存储介质
技术领域
本发明涉及语音处理领域,尤其涉及一种语音区分模型训练方法、装置、计算机设备及存储介质。
背景技术
一段未经处理的语音数据一般包括标准语音和干扰语音,其中标准语音是指语音数据中声纹连续变化明显的语音部分(即纯语音段),干扰语音可以是语音数据中由于静默而没有发音的语音数据(即静音段),也可以是环境噪音部分(即噪音段)。语音区分是对输入的语音数据进行筛选,以保留对识别具有意义的标准语音。当前主要采用端点检测技术对语音数据进行区分,这种语音区分方式,在标准语音中夹杂噪音时,随着噪音越大,进行语音区分的难度越大,其端点检测的识别结果越不准确。因此,采用端点检测技术进行语音区分时,其语音区分的识别结果容易受外部因素影响,使得语音区分结果不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种使语音区分结果不易受外部因素影响的语音区分模型训练方法、装置、设备及介质。
一种语音区分模型训练方法,包括:
对双向循环神经网络模型的权值和偏置进行初始化处理,获取原始双向循环神经网络模型;
获取待训练语音数据,所述待训练语音数据包括等比例配置的标准训练语音数据和干扰训练语音数据;
将所述标准训练语音数据和所述干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整所述原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型;
获取待测试语音数据,所述待测试语音数据包括等比例配置的标准测试语音数据和干扰测试语音数据;
将所述标准测试语音数据和干扰测试语音数据输入到原始语音区分模型中进行识别,获取所述标准测试语音数据或者干扰测试语音数据对应的识别准确率,若所述识别准确率大于预设阈值,则所述原始语音区分模型确定为目标语音区分模型。
一种语音模型训练装置,包括:
模型初始化模块,用于对双向循环神经网络模型的权值和偏置进行初始化处理,获取原始双向循环神经网络模型;
待训练语音数据获取模块,用于获取待训练语音数据,所述待训练语音数据包括等比例配置的标准训练语音数据和干扰训练语音数据;
模型训练模块,用于将所述标准训练语音数据和所述干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整所述原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型;
待测试语音数据获取模块,用于获取待测试语音数据,所述待测试语音数据包括等比例配置的标准测试语音数据和干扰测试语音数据;
模型获取模块,用于将所述标准测试语音数据和干扰测试语音数据输入到原始语音区分模型中进行识别,获取所述标准测试语音数据或者干扰测试语音数据对应的识别准确率,若所述识别准确率大于预设阈值,则所述原始语音区分模型确定为目标语音区分模型。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述语音区分模型训练方法的步骤。
一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述语音区分模型训练方法的步骤。
上述语音区分模型训练方法、装置、计算机设备及存储介质中,将标准语音训练数据和干扰训练语音数据输入到双向循环神经网络模型中,通过优化原始双向循环神经网络模型中的权值和偏置,获取可以区分标准语音数据个干扰语音数据的原始语音区分模型。为了进一步验证训练出的原始语音区分模型对语音区分的准确性,还需要通过待测试语音数据对原始语音区分模型进行验证测试,若该原始语音区分模型对待测试语音数据的识别该结果大于等于预先设置的阈值时,则该原始语音区分模型确定为目标语音区分模型。采用目标语音区分模型对语音进行区分,可以提高语音区分的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音区分模型训练方法的一应用场景图;
图2是本发明一实施例中语音区分模型训练方法的一流程图;
图3是图2中步骤S30的一具体流程图;
图4是图3中步骤S31的一具体流程图;
图5是图3中步骤S32的一具体流程图;
图6是本发明一实施例中语音区分模型的训练装置的一示意图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出本发明实施例中语音区分模型训练方法的应用场景图。该语音区分模型训练方法的应用环境包括服务器和客户端,其中,服务端和客户端之间通过网络进行连接。客户端是指与服务器相对应,为客户提供本地服务的程序,可安装在电脑、智能手机和平板等设备上。本发明实施例提供的语音区分模型训练方法应用于服务器。
在一实施例中,如图2所示,提供一种语音区分模型训练方法,该语音区分模型训练方法以应用在服务端为例进行说明,该语音区分模型训练方法包括如下步骤:
S10:对双向循环神经网络模型的权值和偏置进行初始化处理,获取原始双向循环神经网络模型。
其中,双向循环神经网络(Bi-directional Recurrent Neural Networks,BRNN)模型是由两个循环神经网络(Recurrent Neural Networks,RNN)组成的,将其中一个循环神经网络称之为向前循环神经网络,另外一个循环神经网络称为向后循环神经网络。双向循环神经网络(BRNN)模型中的向前循环神经网络和向后循环神经网络有各自对应的隐藏层,输入层和输出层共用一个。即双向循环神经网络模型是由一个输入层、两个隐藏层和一个输出层组成的神经网络模型。该双向循环神经网络模型包括各层之间的神经元连接的权值和偏置,权值和偏置是双向循环神经网络模型中的参数,这些权值和偏置决定双向循环神经网络模型的性质及识别效果。
服务器获取双向循环神经网络模型后,首先需要对双向循环神经网络模型中的权值和偏置进行初始化设置,本实施例中,采用预设值对权值和偏置进行初始化设置,该预设值是开发人员根据经验预先设置好的值。采用预设值对双向循环神经网络模型的权值和偏置进行初始化设置,可以在后续根据待训练语音数据进行双向循环神经网络模型训练时,缩短模型的训练时间,提高模型的识别准确率。若在原始语音区分模型时,对权值和偏置的初始化设置不是很恰当,则会导致模型在初始阶段的调整能力很差,从而影响该双向循环神经网络模型后续对语音数据的区分效果。
S20:获取待训练语音数据,待训练语音数据包括等比例配置的标准训练语音数据和干扰训练语音数据。
待训练语音数据指用来训练双向循环神经网络模型的语音数据,该待训练语音数据包括标准训练语音数据和干扰训练语音数据。其中,标准训练语音数据是指用于训练原始双向循环神经网络模型的标准语音数据。标准语音数据是指仅包含纯语音段的语音数据,即语音数据中声纹连续变化明显的语音数据。干扰训练语音数据指用于训练原始双向循环神经网络模型的干扰语音数据。干扰语音数据是指除纯语音段以外的语音数据。待训练语音数据可以从已经预先区分好标准训练语音数据和干扰语音数据的语音数据库中获取,也可以从开源的语音训练集获取。为了方便区分标准训练语音数据和干扰训练语音数据,标准训练语音数据和干扰训练语音数据分别携带有不同的标签值。如标准训练语音数据的标签值为A,干扰训练语音数据的标签值为B,基于标签值A和标签值B可以快速识别待训练语音数据中的标准训练语音数据和干扰训练语音数据。
本实施例中,待训练语音数据中的标准训练语音数据和干扰训练语音数据是按等比例配置,可避免因标准训练语音数据和干扰训练语音数据的数据分布不均衡而导致出现过拟合现象,从而提高原始双向循环神经网络模型的训练效率和训练所获得的模型的准确性。
S30:将标准训练语音数据和干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型。
原始双向循环神经网络模型的输入层获取待训练语音数据后,为了提高训练的效率和准确性,将待训练语音数据按照预先设置的语音长度切分成多个训练样本,每个训练样本中的标准训练语音数据和干扰训练语音数据也是等比例配置的,以保证获取到的原始语音区分模型的识别准确性。在将待训练语音数据切分成多个训练样本后,为了方便了解每个训练样本在隐藏层计算得到的输出值,每个训练样本都会携带有对应的顺序标签,该顺序标签是根据待测试语音数据的先后顺序获取的。
具体地,将切分好的多个训练样本通过双向循环神经网络模型的输入层输入到隐藏层进行计算,获取隐藏层的输出值。再将隐藏层的输出值发送给原始双向循环神经网络模型的输出层,通过原始双向循环神经网络模型的输出层的计算,获取模型输出值。模型输出值是待训练语音数据通过双向循环神经网络模型训练获取的输出值。其中,原始双向循环神经网络模型的输出层在获取模型输出值后,基于原始双向循环神经网络模型的输出层中的真实输出值构建损失函数,然后根据损失函数采用反向传播算法调整原始双向循环神经网络模型的权值,获取原始语音区分模型。其中,反向传播(Back Propagation)算法是指按照时序状态的反向顺序调整隐藏层与原始双向循环神经网络模型的输出层之间的权值和偏置、以及输入层与隐藏层之间的权值和偏置的算法。真实输出值是指待训练语音数据中标准训练语音数据和干扰语音数据各自对应的标签值。
该原始语音区分模型是通过待训练语音数据训练后初步得到的双向循环神经网络模型,为了进一步地验证原始语音区分模型对标准语音数据和干扰语音数据区分的准确性,还需要通过待测试语音数据进行测试验证。
S40:获取待测试语音数据,待测试语音数据包括等比例配置的标准测试语音数据和干扰测试语音数据。
待测试语音数据是指用于测试原始语音区分模型对语音区分的准确性的语音数据。在测试原始语音区分模型队进行语音数据区分的准确性时,需要用标准语音数据和干扰语音数据进行测试验证,因此,待测试语音数据会包括标准测试语音数据和干扰测试语音数据。进一步地,为了节省时间,提高测试验证的全面性和准确性,待测试语音数据中的标准测试语音数据和干扰测试语音数据也是按照等比例配置。
S50:将标准测试语音数据和干扰测试语音数据输入到原始语音区分模型中进行识别,获取标准测试语音数据或者干扰测试语音数据对应的识别准确率,若识别准确率大于预设阈值,则原始语音区分模型确定为目标语音区分模型。
其中,预设阈值是指预先设置的用于验证原始语音区分模型区分语音数据的结果准确性是否达标的阈值。
具体地,将标准测试语音数据和干扰测试语音数据输入到原始语音区分模型中,通过隐藏层的计算处理,在原始双向循环神经网络模型的输出层获取对应的识别结果,并基于识别结果获取原始语音区分模型的识别准确率,若识别准确率大于预设阈值,则说明该原始语音区分模型的识别准确率达到预设的要求,将该原始语音区分模型确定为目标语音区分模型。若识别准确率不大于预设阈值,则说明该原始语音区分模型的识别准确率未达到预设的要求,需进一步训练,以确保最终训练出的目标语音区分模型的识别准确率较高。该识别结果具体是指原始语音区分模型对标准测试语音数据和干扰测试语音数据进行识别,识别其为标准语音数据还是干扰语音数据。
本实施例中,根据原始语音区分模型对标准测试语音数据和干扰测试语音数据进行识别,获取对应的识别结果,并将该识别结果与其携带的标签值进行对比,若识别结果与其携带的标签值相匹配,则识别结果正确的数量m加1;若识别结果与其携带的标签值不相匹配,则识别结果错误的数量n加1;在对所有待测评语音数据进行识别后,根据识别结果正确的数量m和识别结果错误的数量n计算识别准确率L,该识别准确率的计算公式为
例如,设置预先阈值为90%,当待测试语音数据输入到原始语音区分模型中进行识别时,原始语音区分模型通过计算,在原始双向循环神经网络模型的输出层输出每一待测试语音数据对应的识别结果,根据该识别结果与其携带的标签值进行对比,确定其识别结果是否与标签值匹配,获取识别结果,并根据所有待测试语音数据对应的识别结果计算识别准确率,当该识别准确率大于预先阈值90%时,则可以认为该原始语音区分模型对待测试语音数据的识别准确性达到了要求,从而可以确定该原始语音区分模型可以最终确定为目标语音区分模型。
本实施例提供的语音区分模型训练方法,将标准语音训练数据和干扰训练语音数据输入到原始双向循环神经网络模型中,调整原始双向循环神经网络模型中的权值和偏置,获取可以初步区分标准语音数据和干扰语音数据的原始语音区分模型。然后,采用待测试语音数据对原始语音区分模型进行验证测试,若该原始语音区分模型对待测试语音数据的识别准确率大于预设阈值时,则该原始语音区分模型可以确定为目标语音区分模型,使用该目标语音区分模型可以更加准确区分语音数据中的标准语音和干扰语音。
在一实施例中,如图3所示,步骤S30,将标准训练语音数据和干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型,具体包括如下步骤:
S31:采用ASR语音特征提取方法对标准训练语音数据和干扰训练语音数据进行特征提取,获取标准ASR语音特征和干扰ASR语音特征。
其中,ASR语音特征提取方法指采用ASR技术对语音数据提取特征的方法,ASR技术(Automatic Speech Recognition,自动语音识别技术)是将语音数据转换为计算机可读输入的技术,例如将语音数据转化为按键、二进制编码或者字符序列等形式。本实施例中,采用ASR语音特征提取方法可以提取标准训练语音数据和干扰训练语音数据的语音特征,从而获取到对应的标准ASR语音特征和干扰ASR语音特征。可以理解地,ASR语音特征提取方法能够将原本计算机无法直接读取的语音数据转换为计算机能够读取的ASR语音特征,该ASR语音特征可以采用向量的方式表示。
本实施例中,采用ASR语音特征提取方法对每个训练样本中的标准训练语音数据和干扰训练语音数据进行特征提取,获取与每一标准训练语音数据相对应的标准ASR语音特征和与每一干扰训练语音数据相对应的干扰ASR语音特征,为后续根据该ASR语音特征进行相应的模型训练提供了数据来源。
S32:将标准ASR语音特征和干扰ASR语音特征输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型。
获取每个训练样本的标准ASR语音特征和干扰ASR语音特征后,将各训练样本对应的标准ASR语音特征和干扰ASR语音特征分别输入到原始双向循环神经网络模型中,获取训练样本中标准训练语音数据和干扰训练语音数据各自对应的模型输出值。然后根据模型输出值和真实输出值构建损失函数,基于损失函数对原始双向循环神经网络模型中的权值和偏置求偏导,按照反向传播算法调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型。
步骤S31-S32,获取标准ASR语音特征和干扰ASR语音特征,并将标准ASR语音特征和干扰ASR语音特征输入到原始双向循环神经网络模型中进行训练,使得原始双向循环神经网络模型成为用于区分标准语音和干扰语音的原始语音区分模型,由于原始语音区分模型学习了标准语音和干扰语音的深层特征,从而使得获取到的原始语音区分模型对标准语音和干扰语音的识别有较强的准确性。
在一实施例中,如图4所示,步骤S31,采用ASR语音特征提取方法对标准训练语音数据和干扰训练语音数据进行特征提取,获取标准ASR语音特征和干扰ASR语音特征,具体包括如下步骤:
S311:对标准训练语音数据和干扰训练语音数据分别进行快速傅里叶变换,获取对应的标准功率谱和干扰功率谱。
其中,标准功率谱指标准训练语音数据对应的功率谱,干扰功率谱指干扰训练语音数据对应的功率谱。具体地,采用公式对训练样本中的标准训练语音数据和干扰训练语音数据分别进行快速傅里叶变换(Fast FourierTransformation,简称FFT)处理,获取对应的频谱。公式中,1≤k≤N,N为训练样本的个数,s(k)为频域上的信号幅度,s(n)为时域上第n帧语音数据的信号幅度,j为负数单位。在获取标准训练语音数据和干扰训练语音数据的频谱后,采用公式获取标准训练语音数据和干扰训练语音数据各自对应的标准功率谱和干扰功率谱。公式中,1≤k≤N,N为训练样本的个数,s(k)为频域上的信号幅度,P(k)为求得的标准功率谱或者干扰功率谱。获取标准功率谱和干扰功率谱方便步骤S312获取标准梅尔频谱和干扰梅尔频谱。
S312:采用梅尔滤波器组对标准功率谱和干扰功率谱分别进行降维处理,获取标准梅尔频谱和干扰梅尔频谱。
由于人的听觉感知系统可以模拟复杂的非线性系统,基于步骤S311获取的标准功率谱和干扰功率谱不能很好地展现语音数据的非线性特点,因此,需要采用梅尔滤波器组对标准功率谱和干扰功率谱进行降维处理,使得获取的待测试语音数据的频谱更加接近人耳感知的频率。其中,梅尔滤波器组是由多个重叠的三角带通滤波器组成的,三角带通滤波器携带有下限频率、截止频率和中心频率三种频率。这些三角带通滤波器的中心频率在梅尔刻度上是等距的,梅尔刻度在1000HZ之前是线性增长的,1000HZ之后是成对数增长的。梅尔频谱与功率谱之间的转换关系:其中,n表示三角带通滤波器的个数,wn为转换系数,ln为下限频率,hn为截止频率,P(k)为功率谱,k为第k帧语音数据。
S313:对标准梅尔频谱和干扰梅尔频谱分别进行倒谱分析,获取标准ASR语音特征和干扰ASR语音特征。
其中,倒谱(cepstrum)是指一种信号的傅里叶变换谱经对数运算后再进行的傅里叶逆变换,由于一般傅里叶谱是复数谱,因而倒谱又称复倒谱。
具体地,在获取标准梅尔频谱和干扰梅尔频谱后,分别对标准梅尔频谱和干扰梅尔频谱取对数X=logmel(n),然后对X作离散余弦变换(Discrete Cosine Transform,DCT),获取标准梅尔频谱和干扰梅尔频谱各自对应的梅尔频率倒谱系数(MFCC),标准梅尔频谱对应的梅尔频率倒谱系数(MFCC)即为标准ASR语音特征,干扰梅尔频谱对应的梅尔频率倒谱系数(MFCC)即为干扰ASR语音特征。其中,离散傅里叶变化的公式为ci表示第i个梅尔频率倒谱系数,n表示梅尔频率倒谱系数的个数,与梅尔滤波器的个数相关,若梅尔滤波器的个数为13个,则标准梅尔频谱对应的梅尔频率倒谱系数(MFCC)的个数为13个,干扰梅尔频谱对应的梅尔频率倒谱系数的个数也为13个。
进一步地,为了便于观察和更好地反映待测试语音数据对应的语音信号的特点,在分别获取标准梅尔频谱和干扰梅尔频谱各自对应的梅尔频率倒谱系数(MFCC)后,还需要对MFCC进行归一化处理。其中,归一化处理的具体步骤为:对所有的ci求平均值,然后用每一个ci减去平均值获取每一个ci对应的归一化处理后的值。ci对应的归一化处理后的值为标准训练语音数据和干扰训练语音数居对应的梅尔频率倒谱系数(MFCC),即就是标准ASR语音特征和干扰ASR语音特征。
在一实施例中,双向循环神经网络模型包括先前循环神经网络和向后循环神经网络,如图5所示,步骤S32,将标准ASR语音特征和干扰ASR语音特征输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型,具体包括如下步骤:
S321:将标准ASR语音特征和干扰ASR语音特征输入到原始双向循环神经网络模型中,根据前向传播算法,获取原始双向循环神经网络模型中向前循环神经网络对应的第一输出值和原始双向循环神经网络模型中向后循环神经网络对应的第二输出值,第一输出值的计算公式为h(t)=σ(Ux(t)+Wh(t-1)+b),第二输出值的计算公式为h′(t)=σ(Ux(t)+Wh(t+1)+b),其中,σ表示原始双向循环神经网络模型中向前循环神经网络和向后循环神经网络各自的隐藏层的激活函数,U表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络各自的隐藏层之间的权值,W表示向前循环神经网络或者向后循环神经网络各自的隐藏层和隐藏层之间的权值,b表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络的隐藏层之间的偏置,x(t)表示原始双向循环神经网络模型的输入层获取的第t个训练样本的顺序标签对应的标准ASR语音特征和干扰ASR语音特征,h(t)表示向前循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第一输出值,h′(t)表示向后循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第二输出值,h(t-1)表示向前循环神经网络的隐藏层中第(t-1)个顺序标签对应的第一输出值,h(t+1)表示向后循环神经网络的隐藏层中第(t+1)个顺序标签对应的第一输出值。
双向循环神经网络模型的输入层在获取标准ASR语音特征和干扰ASR语音特征后,向前循环神经网络中的隐藏层根据前向传播(Forward Propagation)算法,按照训练样本携带的顺序标签对待训练语音数据中训练样本依次进行训练,获取待训练语音数据在向前循环神经网络的第一输出值。同理,向后循环神经网络中的隐藏层采用前向传播(ForwardPropagation)算法,按照训练样本携带的顺序标签的逆顺序对训练样本进行训练,获取待测试语音数据在向后循环神经网络的第二输出值。其中,前向传播算法是指依据训练样本携带的顺序标签,由前向后对待训练集语音数据中的标准训练语音数据和干扰训练语音数据进行训练的算法。
S322:采用预设算法规则对第一输出值和第二输出值进行处理,获取目标输出值。
为了方便后续构建损失函数,向前循环神经网络的隐藏层和向后循环神经网络的隐藏层在获取对应的第一输出值和第二输出值后,需要采用预设算法规则对第一输出值和第二输出值进行处理,得到目标输出值。其中,目标输出值是指对第一输出值和第二输出值根据预设算法规则进行处理后获取的输出值。预设算法规则预先设置的用于计算第一输出值和第二输出值的规则。
具体地,根据预设算法规则,可以采用对第一输出值和第二输出值进行平均值计算获取目标输出值,也可以采用预先设置的权值对第一输出值和第二输出值进行计算获取目标输出值。如向前循环神经网络的某一训练样本中第t个顺序标签对应的第一输出值为h(t),向后循环神经网络的某一训练样本中第t个顺序标签对应的第二输出值为h′(t),若对两个输出值进行平均值计算,则训练样本中的第t个顺序标签对应的目标输出值若采用预先设置的权值对第一输出值和第二输出值进行计算,则训练样本中第t个顺序标签对应的目标输出值h(t)=h(t)*p1+h′(t)*p2,其中,p1为向前循环神经网络对应的权值,p2为向后循环神经网络对应的权值。
S323:基于目标输出值获取模型输出值,具体计算公式为o(t)=Vh0 (t)+c和y(t)=σ′(o(t)),其中,V表示原始双向循环神经网络模型的隐藏层与原始双向循环神经网络模型的输出层之间的权值,h0 (t)表示目标输出值,o(t)表示原始双向循环神经网络模型的输出层的输入值,c表示原始双向循环神经网络模型的隐藏层和原始双向循环神经网络模型的输出层之间的偏置,σ′表示原始双向循环神经网络模型的原始双向循环神经网络模型的输出层的激活函数,y(t)表示原始双向循环神经网络模型的输出层输出的模型输出值。
具体地,隐藏层在计算出目标输出值后,经过公式o(t)=Vh0 (t)+c计算获取输入到原始双向循环神经网络模型的输出层的输入值,然后根据公式y(t)=σ′(o(t))获取原始双向循环神经网络模型的模型输出值,其中,σ′表示原始双向循环神经网络模型的输出层的激活函数,一般为softmax函数。获取模型输出值便于步骤S324构建损失函数,从而调整双向循环神经网络模型中向前循环神经网络和向后循环神经网络的权值和偏重。
S324:基于模型输出值对向前循环神经网络和向后循环神经网络进行误差反向传播,调整向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型。
误差反向传播是指基于损失函数的反向传播算法。反向传播(Back Propagation)算法是指按照时序状态的反向顺序调整神经网络模型中隐藏层与输出层之间的权值和偏置、以及输入层与隐藏层之间的权值和偏置的算法。
原始双向循环神经网络模型的输出层获取模型输出值后,与真实输出值构建损失函数。基于该损失函数分别对双向循环神经网络模型中的向前循环神经网络和向后循环神经网络中的权值和偏置进行参数调整。
进一步地,步骤S324包括:基于模型输出值构建损失函数,并基于损失函数,分别对双向循环神经网络模型中的权值和偏置求偏导,调整向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型,损失函数为
其中,N表示待训练语音数据的训练样本的个数,T表示训练样本中携带的顺序标签,j表示y(t)中的第j元素,θ表示权值和偏置的集合(U、V、W、b、c),表示待训练语音数据对应的真实输出值。
其中,真实输出值指待训练语音数据客观存在的值。如待训练语音数据中的标准训练语音数据为“你在干什么”,则该标准训练语音数据对应的真实输出值则为“你在干什么”。具体地,在获取损失函数然后,根据公式分别对双向循环神经网络模型中的向前循环神经网络和向后循环神经网络对应的权值和偏置进行计算,调整向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型。
基于损失函数调整原始双向循环神经网络模型的权值和偏重,获取用于区分语音的原始语音区分模型,可以使得该原始语音区分模型对识别标准语音数据和干扰语音数据的准确性更高。
该语音区分模型训练方法通过将标准语音训练数据和干扰训练语音数据输入到双向循环神经网络模型中,通过模型输出值和真实输出值构建损失函数,并采用误差反向传播调整原始双向循环神经网络模型中的权值和偏置,获取可以区分标准语音数据和干扰语音数据的原始语音区分模型。为了进一步验证训练出的原始语音区分模型对语音区分的准确性,还需要通过待测试语音数据对原始语音区分模型进行验证测试,若该原始语音区分模型对待测试语音数据的识别该结果大于等于预设阈值时,则该原始语音区分模型确定为目标语音区分模型。采用目标语音区分模型对语音进行区分,可以提高语音区分的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种语音区分模型的训练装置,该语音区分模型的训练装置与上述实施例中语音区分模型训练方法一一对应。如图6所示,该语音区分模型的训练装置包括模型初始化模块10、待训练语音数据获取模块20、模型训练模块30、待测试语音数据获取模块40和模型获取模块50的实现功能与上述实施例中语音区分模型训练方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
模型初始化模块10,用于对双向循环神经网络模型的权值和偏置进行初始化处理,获取原始双向循环神经网络模型。
待训练语音数据获取模块20,用于获取待训练语音数据,待训练语音数据包括等比例配置的标准训练语音数据和干扰训练语音数据。
模型训练模块30,用于将标准训练语音数据和干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型。
待测试语音数据获取模块40,用于获取待测试语音数据,待测试语音数据包括等比例配置的标准测试语音数据和干扰测试语音数据。
模型获取模块50,用于将标准测试语音数据和干扰测试语音数据输入到原始语音区分模型中进行识别,获取标准测试语音数据或者干扰测试语音数据对应的识别准确率,若识别准确率大于预设阈值,则原始语音区分模型确定为目标语音区分模型。
具体地,模型训练模块30包括ASR语音特征获取单元31和ASR语音特征训练单元32。
ASR语音特征获取单元31,用于采用ASR语音特征提取方法对标准训练语音数据和干扰训练语音数据进行特征提取,获取标准ASR语音特征和干扰ASR语音特征。
ASR语音特征训练单元32,用于将标准ASR语音特征和干扰ASR语音特征输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型。
具体地,ASR语音特征获取单元31包括功率谱获取单元311、梅尔频谱获取单元312和倒谱分析单元313。
功率谱获取单元311,用于对标准训练语音数据和干扰训练语音数据分别进行快速傅里叶变换,获取对应的标准功率谱和干扰功率谱。
梅尔频谱获取单元312,用于采用梅尔滤波器组对标准功率谱和干扰功率谱分别进行降维处理,获取标准梅尔频谱和干扰梅尔频谱。
倒谱分析单元313,用于对标准梅尔频谱和干扰梅尔频谱分别进行倒谱分析,获取标准ASR语音特征和干扰ASR语音特征。
具体地,ASR语音特征训练单元32包括前向传播处理单元321、目标输出值获取单元322、模型输出值获取单元323和模型参数调整单元324。
前向传播处理单元321,用于将标准ASR语音特征和干扰ASR语音特征输入到原始双向循环神经网络模型中,根据前向传播算法,获取原始双向循环神经网络模型中向前循环神经网络对应的第一输出值和原始双向循环神经网络模型中向后循环神经网络对应的第二输出值,第一输出值的计算公式为h(t)=σ(Ux(t)+Wh(t-1)+b),第二输出值的计算公式为h′(t)=σ(Ux(t)+Wh(t+1)+b),其中,σ表示原始双向循环神经网络模型中向前循环神经网络和向后循环神经网络各自的隐藏层的激活函数,U表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络各自的隐藏层之间的权值,W表示向前循环神经网络或者向后循环神经网络各自的隐藏层和隐藏层之间的权值,b表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络的隐藏层之间的偏置,x(t)表示原始双向循环神经网络模型的输入层获取的第t个训练样本的顺序标签对应的标准ASR语音特征和干扰ASR语音特征,h(t)表示向前循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第一输出值,h′(t)表示向后循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第二输出值,h(t-1)表示向前循环神经网络的隐藏层中第(t-1)个顺序标签对应的第一输出值,h(t+1)表示向后循环神经网络的隐藏层中第(t+1)个顺序标签对应的第一输出值。
目标输出值获取单元322,用于采用预设算法规则对第一输出值和第二输出值进行处理,获取目标输出值。
模型输出值获取单元323,用于基于目标输出值获取模型输出值,具体计算公式为o(t)=Vh0 (t)+c和y(t)=σ′(o(t)),其中,V表示隐藏层和原始双向循环神经网络模型的隐藏层与原始双向循环神经网络模型的输出层之间的权值,h0 (t)表示目标输出值,o(t)表示原始双向循环神经网络模型的输出层的输入值,c表示原始双向循环神经网络模型的隐藏层和原始双向循环神经网络模型的输出层之间的偏置,σ′表示原始双向循环神经网络模型的原始双向循环神经网络模型的输出层的激活函数,y(t)表示原始双向循环神经网络模型的输出层输出的模型输出值。
模型参数调整单元324,用于基于模型输出值对向前循环神经网络和向后循环神经网络进行误差反向传播,调整向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型。
具体地,模型参数调整单元324还用于基于模型输出值构建损失函数,并基于损失函数,分别对双向循环神经网络模型中的权值和偏置求偏导,调整向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型,损失函数为
其中,N表示待训练语音数据的训练样本的个数,T表示训练样本中携带的顺序标签,j表示y(t)中的第j元素,θ表示权值和偏置的集合(U、V、W、b、c),表示待训练语音数据对应的真实输出值。
在一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音区分模型训练方法过程中获取的或者生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音区分模型训练方法。
在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:对双向循环神经网络模型的权值和偏置进行初始化处理,获取原始双向循环神经网络模型;获取待训练语音数据,待训练语音数据包括等比例配置的标准训练语音数据和干扰训练语音数据;将标准训练语音数据和干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型;获取待测试语音数据,待测试语音数据包括等比例配置的标准测试语音数据和干扰测试语音数据;将标准测试语音数据和干扰测试语音数据输入到原始语音区分模型中进行识别,获取标准测试语音数据或者干扰测试语音数据对应的识别准确率,若识别准确率大于预设阈值,则原始语音区分模型确定为目标语音区分模型。
在一实施例中,处理器执行计算机程序时还实现以下步骤:采用ASR语音特征提取方法对标准训练语音数据和干扰训练语音数据进行特征提取,获取标准ASR语音特征和干扰ASR语音特征;将标准ASR语音特征和干扰ASR语音特征输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型。
在一实施例中,处理器执行计算机程序时还实现以下步骤:对标准训练语音数据和干扰训练语音数据分别进行快速傅里叶变换,获取对应的标准功率谱和干扰功率谱;采用梅尔滤波器组对标准功率谱和干扰功率谱分别进行降维处理,获取标准梅尔频谱和干扰梅尔频谱;对标准梅尔频谱和干扰梅尔频谱分别进行倒谱分析,获取标准ASR语音特征和干扰ASR语音特征。
在一实施例中,处理器执行计算机程序时还实现以下步骤:将标准ASR语音特征和干扰ASR语音特征输入到原始双向循环神经网络模型中,根据前向传播算法,获取原始双向循环神经网络模型中向前循环神经网络对应的第一输出值和原始双向循环神经网络模型中向后循环神经网络对应的第二输出值,第一输出值的计算公式为h(t)=σ(Ux(t)+Wh(t-1)+b),第二输出值的计算公式为h′(t)=σ(Ux(t)+Wh(t+1)+b),其中,σ表示原始双向循环神经网络模型中向前循环神经网络和向后循环神经网络各自的隐藏层的激活函数,U表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络各自的隐藏层之间的权值,W表示向前循环神经网络或者向后循环神经网络各自的隐藏层和隐藏层之间的权值,b表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络的隐藏层之间的偏置,x(t)表示原始双向循环神经网络模型的输入层获取的第t个训练样本的顺序标签对应的标准ASR语音特征和干扰ASR语音特征,h(t)表示向前循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第一输出值,h′(t)表示向后循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第二输出值,h(t-1)表示向前循环神经网络的隐藏层中第(t-1)个顺序标签对应的第一输出值,h(t+1)表示向后循环神经网络的隐藏层中第(t+1)个顺序标签对应的第一输出值;采用预设算法规则对第一输出值和第二输出值进行处理,获取目标输出值;基于目标输出值获取模型输出值,具体计算公式为o(t)=Vh0 (t)+c和y(t)=σ′(o(t)),其中,V表示原始双向循环神经网络模型的隐藏层与原始双向循环神经网络模型的输出层之间的权值,h0 (t)表示目标输出值,o(t)表示原始双向循环神经网络模型的输出层的输入值,c表示原始双向循环神经网络模型的隐藏层和原始双向循环神经网络模型的输出层之间的偏置,σ′表示原始双向循环神经网络模型的原始双向循环神经网络模型的输出层的激活函数,y(t)表示原始双向循环神经网络模型的输出层输出的模型输出值;基于模型输出值对向前循环神经网络和向后循环神经网络进行误差反向传播,调整向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型。
在一实施例中,处理器执行计算机程序时还实现以下步骤:基于模型输出值构建损失函数,并基于损失函数,分别对双向循环神经网络模型中的权值和偏置求偏导,调整向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型,损失函数为其中,N表示待训练语音数据的训练样本的个数,T表示训练样本中携带的顺序标签,j表示y(t)中的第j元素,θ表示权值和偏置的集合(U、V、W、b、c),表示待训练语音数据对应的真实输出值。
在一个实施例中,提供了一种非易失性存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:对双向循环神经网络模型的权值和偏置进行初始化处理,获取原始双向循环神经网络模型;获取待训练语音数据,待训练语音数据包括等比例配置的标准训练语音数据和干扰训练语音数据;将标准训练语音数据和干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型;获取待测试语音数据,待测试语音数据包括等比例配置的标准测试语音数据和干扰测试语音数据;将标准测试语音数据和干扰测试语音数据输入到原始语音区分模型中进行识别,获取标准测试语音数据或者干扰测试语音数据对应的识别准确率,若识别准确率大于预设阈值,则原始语音区分模型确定为目标语音区分模型。
在一实施例中,计算机程序被处理器执行时实现以下步骤:采用ASR语音特征提取方法对标准训练语音数据和干扰训练语音数据进行特征提取,获取标准ASR语音特征和干扰ASR语音特征;将标准ASR语音特征和干扰ASR语音特征输入到原始双向循环神经网络模型中进行训练,调整原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型。
在一实施例中,计算机程序被处理器执行时实现以下步骤:对标准训练语音数据和干扰训练语音数据分别进行快速傅里叶变换,获取对应的标准功率谱和干扰功率谱;采用梅尔滤波器组对标准功率谱和干扰功率谱分别进行降维处理,获取标准梅尔频谱和干扰梅尔频谱;对标准梅尔频谱和干扰梅尔频谱分别进行倒谱分析,获取标准ASR语音特征和干扰ASR语音特征。
在一实施例中,计算机程序被处理器执行时实现以下步骤:将标准ASR语音特征和干扰ASR语音特征输入到原始双向循环神经网络模型中,根据前向传播算法,获取原始双向循环神经网络模型中向前循环神经网络对应的第一输出值和原始双向循环神经网络模型中向后循环神经网络对应的第二输出值,第一输出值的计算公式为h(t)=σ(Ux(t)+Wh(t-1)+b),第二输出值的计算公式为h′(t)=σ(Ux(t)+Wh(t+1)+b),其中,σ表示原始双向循环神经网络模型中向前循环神经网络和向后循环神经网络各自的隐藏层的激活函数,U表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络各自的隐藏层之间的权值,W表示向前循环神经网络或者向后循环神经网络各自的隐藏层和隐藏层之间的权值,b表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络的隐藏层之间的偏置,x(t)表示原始双向循环神经网络模型的输入层获取的第t个训练样本的顺序标签对应的标准ASR语音特征和干扰ASR语音特征,h(t)表示向前循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第一输出值,h′(t)表示向后循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第二输出值,h(t-1)表示向前循环神经网络的隐藏层中第(t-1)个顺序标签对应的第一输出值,h(t+1)表示向后循环神经网络的隐藏层中第(t+1)个顺序标签对应的第一输出值;采用预设算法规则对第一输出值和第二输出值进行处理,获取目标输出值;基于目标输出值获取模型输出值,具体计算公式为o(t)=Vh0 (t)+c和y(t)=σ′(o(t)),其中,V表示原始双向循环神经网络模型的隐藏层与原始双向循环神经网络模型的输出层之间的权值,h0 (t)表示目标输出值,o(t)表示原始双向循环神经网络模型的输出层的输入值,c表示原始双向循环神经网络模型的隐藏层和原始双向循环神经网络模型的输出层之间的偏置,σ′表示原始双向循环神经网络模型的原始双向循环神经网络模型的输出层的激活函数,y(t)表示原始双向循环神经网络模型的输出层输出的模型输出值;基于模型输出值对向前循环神经网络和向后循环神经网络进行误差反向传播,调整向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型。
在一实施例中,计算机程序被处理器执行时实现以下步骤:基于模型输出值构建损失函数,并基于损失函数,分别对双向循环神经网络模型中的权值和偏置求偏导,调整向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型,损失函数为其中,N表示待训练语音数据的训练样本的个数,T表示训练样本中携带的顺序标签,j表示y(t)中的第j元素,θ表示权值和偏置的集合(U、V、W、b、c),表示待训练语音数据对应的真实输出值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于计算机设备上的非易失性存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音区分模型训练方法,其特征在于,包括:
对双向循环神经网络模型的权值和偏置进行初始化处理,获取原始双向循环神经网络模型;
获取待训练语音数据,所述待训练语音数据包括等比例配置的标准训练语音数据和干扰训练语音数据;
将所述标准训练语音数据和所述干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整所述原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型;
获取待测试语音数据,所述待测试语音数据包括等比例配置的标准测试语音数据和干扰测试语音数据;
将所述标准测试语音数据和干扰测试语音数据输入到原始语音区分模型中进行识别,获取所述标准测试语音数据或者干扰测试语音数据对应的识别准确率,若所述识别准确率大于预设阈值,则所述原始语音区分模型确定为目标语音区分模型。
2.如权利要求1所述的语音区分模型训练方法,其特征在于,所述将所述标准训练语音数据和所述干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整所述原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型,包括:
采用ASR语音特征提取方法对所述标准训练语音数据和所述干扰训练语音数据进行特征提取,获取标准ASR语音特征和干扰ASR语音特征;
将所述标准ASR语音特征和所述干扰ASR语音特征输入到原始双向循环神经网络模型中进行训练,调整所述原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型。
3.如权利要求2所述的语音区分模型训练方法,其特征在于,所述采用ASR语音特征提取方法对所述标准训练语音数据和所述干扰训练语音数据进行特征提取,获取标准ASR语音特征和干扰ASR语音特征,包括:
对所述标准训练语音数据和所述干扰训练语音数据分别进行快速傅里叶变换,获取对应的标准功率谱和干扰功率谱;
采用梅尔滤波器组对所述标准功率谱和所述干扰功率谱分别进行降维处理,获取标准梅尔频谱和干扰梅尔频谱;
对所述标准梅尔频谱和所述干扰梅尔频谱分别进行倒谱分析,获取标准ASR语音特征和干扰ASR语音特征。
4.如权利要求2所述的语音区分模型训练方法,其特征在于,所述将所述标准ASR语音特征和所述干扰ASR语音特征输入到原始双向循环神经网络模型中进行训练,调整所述原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型,包括:
将所述标准ASR语音特征和所述干扰ASR语音特征输入到原始双向循环神经网络模型中,根据前向传播算法,获取原始双向循环神经网络模型中向前循环神经网络对应的第一输出值和原始双向循环神经网络模型中向后循环神经网络对应的第二输出值,所述第一输出值的计算公式为h(t)=σ(Ux(t)+Wh(t-1)+b),所述第二输出值的计算公式为h'(t)=σ(Ux(t)+Wh(t+1)+b),其中,σ表示原始双向循环神经网络模型中向前循环神经网络和向后循环神经网络各自的隐藏层的激活函数,U表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络各自的隐藏层之间的权值,W表示向前循环神经网络或者向后循环神经网络各自的隐藏层和隐藏层之间的权值,b表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络的隐藏层之间的偏置,x(t)表示原始双向循环神经网络模型的输入层获取的第t个训练样本的顺序标签对应的标准ASR语音特征和干扰ASR语音特征,h(t)表示向前循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第一输出值,h'(t)表示向后循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第二输出值,h(t-1)表示向前循环神经网络的隐藏层中第(t-1)个顺序标签对应的第一输出值,h(t+1)表示向后循环神经网络的隐藏层中第(t+1)个顺序标签对应的第一输出值;
采用预设算法规则对所述第一输出值和所述第二输出值进行处理,获取目标输出值;
基于所述目标输出值获取模型输出值,具体计算公式为o(t)=Vh0 (t)+c和y(t)=σ'(o(t)),其中,V表示原始双向循环神经网络模型的隐藏层与原始双向循环神经网络模型的输出层之间的权值,h0 (t)表示目标输出值,o(t)表示原始双向循环神经网络模型的输出层的输入值,c表示原始双向循环神经网络模型的隐藏层和原始双向循环神经网络模型的输出层之间的偏置,σ'表示原始双向循环神经网络模型的原始双向循环神经网络模型的输出层的激活函数,y(t)表示原始双向循环神经网络模型的输出层输出的模型输出值;
基于所述模型输出值对所述向前循环神经网络和向后循环神经网络进行误差反向传播,调整所述向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型。
5.如权利要求4所述的语音区分模型训练方法,其特征在于,所述基于所述模型输出值对所述向前循环神经网络和向后循环神经网络进行误差反向传播,调整所述向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型,包括:
基于所述模型输出值构建损失函数,并基于所述损失函数,分别对所述双向循环神经网络模型中的权值和偏置求偏导,调整所述向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型,所述损失函数为
其中,N表示待训练语音数据的训练样本的个数,T表示训练样本中携带的顺序标签,j表示y(t)中的第j元素,θ表示权值和偏置的集合(U、V、W、b、c),表示待训练语音数据对应的真实输出值。
6.一种语音区分模型的训练装置,其特征在于,包括:
模型初始化模块,用于对双向循环神经网络模型的权值和偏置进行初始化处理,获取原始双向循环神经网络模型;
待训练语音数据获取模块,用于获取待训练语音数据,所述待训练语音数据包括等比例配置的标准训练语音数据和干扰训练语音数据;
模型训练模块,用于将所述标准训练语音数据和所述干扰训练语音数据输入到原始双向循环神经网络模型中进行训练,调整所述原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型;
待测试语音数据获取模块,用于获取待测试语音数据,所述待测试语音数据包括等比例配置的标准测试语音数据和干扰测试语音数据;
模型获取模块,用于将所述标准测试语音数据和干扰测试语音数据输入到原始语音区分模型中进行识别,获取所述标准测试语音数据或者干扰测试语音数据对应的识别准确率,若所述识别准确率大于预设阈值,则所述原始语音区分模型确定为目标语音区分模型。
7.如权利要求6所述的语音区分模型的训练装置,其特征在于,模型训练模块包括:
ASR语音特征获取单元,用于采用ASR语音特征提取方法对所述标准训练语音数据和所述干扰训练语音数据进行特征提取,获取标准ASR语音特征和干扰ASR语音特征;
ASR语音特征训练单元,用于将所述标准ASR语音特征和所述干扰ASR语音特征输入到原始双向循环神经网络模型中进行训练,调整所述原始双向循环神经网络模型的权值和偏置,获取原始语音区分模型。
8.如权利要求7所述的语音区分模型的训练装置,其特征在于,语音特征训练单元包括:
前向传播处理单元,用于将所述标准ASR语音特征和所述干扰ASR语音特征输入到原始双向循环神经网络模型中,根据前向传播算法,获取原始双向循环神经网络模型中向前循环神经网络对应的第一输出值和原始双向循环神经网络模型中向后循环神经网络对应的第二输出值,所述第一输出值的计算公式为h(t)=σ(Ux(t)+Wh(t-1)+b),所述第二输出值的计算公式为h'(t)=σ(Ux(t)+Wh(t+1)+b),其中,σ表示原始双向循环神经网络模型中向前循环神经网络和向后循环神经网络各自的隐藏层的激活函数,U表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络各自的隐藏层之间的权值,W表示向前循环神经网络或者向后循环神经网络各自的隐藏层和隐藏层之间的权值,b表示原始双向循环神经网络模型的输入层与原始双向循环神经网络模型中向前循环神经网络或者向后循环神经网络的隐藏层之间的偏置,x(t)表示原始双向循环神经网络模型的输入层获取的第t个训练样本的顺序标签对应的标准ASR语音特征和干扰ASR语音特征,h(t)表示向前循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第一输出值,h'(t)表示向后循环神经网络的隐藏层中第t个训练样本的顺序标签对应的第二输出值,h(t-1)表示向前循环神经网络的隐藏层中第(t-1)个顺序标签对应的第一输出值,h(t+1)表示向后循环神经网络的隐藏层中第(t+1)个顺序标签对应的第一输出值;
目标输出值获取单元,用于采用预设算法规则对所述第一输出值和所述第二输出值进行处理,获取目标输出值;
模型输出值获取单元,用于基于所述目标输出值获取模型输出值,具体计算公式为o(t)=Vh0 (t)+c和y(t)=σ'(o(t)),其中,V表示原始双向循环神经网络模型的隐藏层与原始双向循环神经网络模型的输出层之间的权值,h0 (t)表示目标输出值,o(t)表示原始双向循环神经网络模型的输出层的输入值,c表示原始双向循环神经网络模型的隐藏层和原始双向循环神经网络模型的输出层之间的偏置,σ'表示原始双向循环神经网络模型的原始双向循环神经网络模型的输出层的激活函数,y(t)表示原始双向循环神经网络模型的输出层输出的模型输出值;
模型参数调整单元,用于基于所述模型输出值对所述向前循环神经网络和向后循环神经网络进行误差反向传播,调整所述向前循环神经网络和向后循环神经网络的权值和偏置,获取原始语音区分模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音区分模型训练方法的步骤。
10.一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音区分模型训练方法的步骤。
CN201810561701.0A 2018-06-04 2018-06-04 语音区分模型训练方法、装置、计算机设备及存储介质 Active CN109065027B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810561701.0A CN109065027B (zh) 2018-06-04 2018-06-04 语音区分模型训练方法、装置、计算机设备及存储介质
PCT/CN2018/094232 WO2019232851A1 (zh) 2018-06-04 2018-07-03 语音区分模型训练方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810561701.0A CN109065027B (zh) 2018-06-04 2018-06-04 语音区分模型训练方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109065027A true CN109065027A (zh) 2018-12-21
CN109065027B CN109065027B (zh) 2023-05-02

Family

ID=64820271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810561701.0A Active CN109065027B (zh) 2018-06-04 2018-06-04 语音区分模型训练方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109065027B (zh)
WO (1) WO2019232851A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109602421A (zh) * 2019-01-04 2019-04-12 平安科技(深圳)有限公司 健康监测方法、装置及计算机可读存储介质
CN110046663A (zh) * 2019-04-16 2019-07-23 重庆大学 一种复杂机电系统故障临界态辨识方法
CN110070857A (zh) * 2019-04-25 2019-07-30 北京梧桐车联科技有限责任公司 语音唤醒模型的模型参数调整方法及装置、语音设备
CN110162610A (zh) * 2019-04-16 2019-08-23 平安科技(深圳)有限公司 机器人智能应答方法、装置、计算机设备及存储介质
CN110287283A (zh) * 2019-05-22 2019-09-27 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
WO2019232851A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 语音区分模型训练方法、装置、计算机设备及存储介质
CN111968620A (zh) * 2019-05-20 2020-11-20 北京声智科技有限公司 算法的测试方法、装置、电子设备及存储介质
CN113192530A (zh) * 2021-04-26 2021-07-30 深圳追一科技有限公司 模型训练、嘴部动作参数获取方法、装置、设备及介质
CN115097296A (zh) * 2022-06-22 2022-09-23 云南电网有限责任公司电力科学研究院 继电器可靠性评估方法及装置
CN118571212A (zh) * 2024-07-31 2024-08-30 深圳市美恩微电子有限公司 一种智能耳机的语音识别方法、装置、电子设备及存储介质
CN118571212B (zh) * 2024-07-31 2024-10-25 深圳市美恩微电子有限公司 一种智能耳机的语音识别方法、装置、电子设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613211B (zh) * 2020-04-17 2023-04-07 云知声智能科技股份有限公司 特定词语音的处理方法及装置
CN112001182B (zh) * 2020-07-20 2024-02-13 北京百度网讯科技有限公司 多语言语义表示模型的训练方法、装置、设备及存储介质
CN112259078A (zh) * 2020-10-15 2021-01-22 上海依图网络科技有限公司 一种音频识别模型的训练和非正常音频识别的方法和装置
CN112465042B (zh) * 2020-12-02 2023-10-24 中国联合网络通信集团有限公司 一种分类网络模型的生成方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101548313A (zh) * 2006-11-16 2009-09-30 国际商业机器公司 话音活动检测系统和方法
CN107182279B (zh) * 2010-10-19 2014-03-19 西南电子电信技术研究所 复杂强噪声环境下的语音检测方法
US20160260426A1 (en) * 2015-03-02 2016-09-08 Electronics And Telecommunications Research Institute Speech recognition apparatus and method
CN107039035A (zh) * 2017-01-10 2017-08-11 上海优同科技有限公司 一种语音起始点和终止点的检测方法
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
CN107393526A (zh) * 2017-07-19 2017-11-24 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质
CN107507611A (zh) * 2017-08-31 2017-12-22 苏州大学 一种语音分类识别的方法及装置
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN109065027B (zh) * 2018-06-04 2023-05-02 平安科技(深圳)有限公司 语音区分模型训练方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101548313A (zh) * 2006-11-16 2009-09-30 国际商业机器公司 话音活动检测系统和方法
CN107182279B (zh) * 2010-10-19 2014-03-19 西南电子电信技术研究所 复杂强噪声环境下的语音检测方法
US20160260426A1 (en) * 2015-03-02 2016-09-08 Electronics And Telecommunications Research Institute Speech recognition apparatus and method
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
CN107039035A (zh) * 2017-01-10 2017-08-11 上海优同科技有限公司 一种语音起始点和终止点的检测方法
CN107393526A (zh) * 2017-07-19 2017-11-24 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质
CN107507611A (zh) * 2017-08-31 2017-12-22 苏州大学 一种语音分类识别的方法及装置
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PHUTTAPONG SERTSI ETC.: "Robust Voice Activity Detection Based on LSTM Recurrent Neural Networks and Modulation Spectrum", 《PROCEEDINGS OF APSIPA ANNUAL SUMMIT AND CONFERENCE 2017》 *
THAD HUGHES ETC.: "RECURRENT NEURAL NETWORKS FOR VOICE ACTIVITY DETECTION", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTIC,SPEECH AND SIGNAL PROCESSING》 *
黄孝平: "《当代机器深度学习方法与应用研究》", 30 November 2017, 成都:电子科技大学出版社 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019232851A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 语音区分模型训练方法、装置、计算机设备及存储介质
CN109602421A (zh) * 2019-01-04 2019-04-12 平安科技(深圳)有限公司 健康监测方法、装置及计算机可读存储介质
CN110046663A (zh) * 2019-04-16 2019-07-23 重庆大学 一种复杂机电系统故障临界态辨识方法
CN110162610A (zh) * 2019-04-16 2019-08-23 平安科技(深圳)有限公司 机器人智能应答方法、装置、计算机设备及存储介质
CN110070857A (zh) * 2019-04-25 2019-07-30 北京梧桐车联科技有限责任公司 语音唤醒模型的模型参数调整方法及装置、语音设备
CN110070857B (zh) * 2019-04-25 2021-11-23 北京梧桐车联科技有限责任公司 语音唤醒模型的模型参数调整方法及装置、语音设备
CN111968620A (zh) * 2019-05-20 2020-11-20 北京声智科技有限公司 算法的测试方法、装置、电子设备及存储介质
CN111968620B (zh) * 2019-05-20 2024-05-28 北京声智科技有限公司 算法的测试方法、装置、电子设备及存储介质
CN110287283A (zh) * 2019-05-22 2019-09-27 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
CN110287283B (zh) * 2019-05-22 2023-08-01 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
CN113192530A (zh) * 2021-04-26 2021-07-30 深圳追一科技有限公司 模型训练、嘴部动作参数获取方法、装置、设备及介质
CN113192530B (zh) * 2021-04-26 2023-08-22 深圳追一科技有限公司 模型训练、嘴部动作参数获取方法、装置、设备及介质
CN115097296A (zh) * 2022-06-22 2022-09-23 云南电网有限责任公司电力科学研究院 继电器可靠性评估方法及装置
CN118571212A (zh) * 2024-07-31 2024-08-30 深圳市美恩微电子有限公司 一种智能耳机的语音识别方法、装置、电子设备及存储介质
CN118571212B (zh) * 2024-07-31 2024-10-25 深圳市美恩微电子有限公司 一种智能耳机的语音识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2019232851A1 (zh) 2019-12-12
CN109065027B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN109065027A (zh) 语音区分模型训练方法、装置、计算机设备及存储介质
CN108877775B (zh) 语音数据处理方法、装置、计算机设备及存储介质
CN107610707B (zh) 一种声纹识别方法及装置
Balamurali et al. Toward robust audio spoofing detection: A detailed comparison of traditional and learned features
WO2020177380A1 (zh) 基于短文本的声纹检测方法、装置、设备及存储介质
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN108922561A (zh) 语音区分方法、装置、计算机设备及存储介质
CN105096955A (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN108154371A (zh) 电子装置、身份验证的方法及存储介质
CN111081223B (zh) 一种语音识别方法、装置、设备和存储介质
Fontes et al. Classification system of pathological voices using correntropy
CN106558308A (zh) 一种互联网音频数据质量自动打分系统及方法
CN110010153A (zh) 一种基于神经网络的静音检测方法、终端设备及介质
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
Poorjam et al. Automatic quality control and enhancement for voice-based remote Parkinson’s disease detection
Karthikeyan Adaptive boosted random forest-support vector machine based classification scheme for speaker identification
CN112052686B (zh) 一种用户交互式教育的语音学习资源推送方法
Moritz et al. Integration of optimized modulation filter sets into deep neural networks for automatic speech recognition
CN112420056A (zh) 基于变分自编码器的说话人身份鉴别方法、系统及无人机
Chaves et al. Katydids acoustic classification on verification approach based on MFCC and HMM
CN116570284A (zh) 一种基于语音表征的抑郁症识别方法、系统
CN112259107A (zh) 一种会议场景小样本条件下的声纹识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant