CN108962223A - 一种基于深度学习的语音性别识别方法、设备及介质 - Google Patents

一种基于深度学习的语音性别识别方法、设备及介质 Download PDF

Info

Publication number
CN108962223A
CN108962223A CN201810661799.7A CN201810661799A CN108962223A CN 108962223 A CN108962223 A CN 108962223A CN 201810661799 A CN201810661799 A CN 201810661799A CN 108962223 A CN108962223 A CN 108962223A
Authority
CN
China
Prior art keywords
voice
gender
rescnn
neural network
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810661799.7A
Other languages
English (en)
Inventor
叶志坚
李稀敏
肖龙源
蔡振华
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201810661799.7A priority Critical patent/CN108962223A/zh
Publication of CN108962223A publication Critical patent/CN108962223A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于深度学习的语音性别识别方法、设备及介质,所述方法包括获取待检测的语音信息;从所述语音信息提取语音的声学特征;构建ResCNN神经网络模型;将所述声学特征输入所述ResCNN神经网络模型,获得性别概率p;将所述性别概率p与真实性别进行比较,构造交叉熵损失函数;根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练;利用训练好的ResCNN神经网络模型进行语音性别预测。本发明通过联合ResCNN神经网络架构和交叉熵损失函数,不但可以提高语音识别率,精确地识别某段语音的性别,并且减小整个模型大小。

Description

一种基于深度学习的语音性别识别方法、设备及介质
技术领域
本发明涉及性别识别领域,具体涉及一种基于深度学习的语音性别识别方法、计算机设备及计算机可读存储介质。
背景技术
目前大部分性别识别方法采用人脸识别的方式进行性别识别,需要摄像装置获取人脸图像,并根据脸部特征识别性别,然而人脸识别还受光照条件(例如白天和夜晚,室内和室外等)、人脸的很多遮盖物(例如口罩、墨镜、头发、胡须等)、年龄等多方面因素的影响,但是通过声纹识别技术对人的性别进行识别并不会受以上因素的影响,而且精确度高,只需要说话人的一句话即可验证该人的性别。所谓声纹即是用电声学仪器显示的携带言语信息的声波频谱。声纹生理图人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异,因此采用声纹识别去判断一个人的性别,准确度是相对较高的。然而现有的通过语音识别性别的算法较为复杂,本发明提供一种基于深度学习的语音识别性别方法,不仅简单而且识别精度高。
发明内容
本发明的目的在于克服现有技术问题,提出基于深度学习的方式从语音信息精确地实现性别的识别,鉴于此,本发明提供了一种基于深度学习的语音性别识别方法、设备及介质。
其中,本发明提供的一种基于深度学习的语音性别识别方法,包括如下步骤:
步骤一,获取待检测的语音信息;
步骤二,从所述语音信息提取语音的声学特征;
步骤三,构建ResCNN神经网络模型;
步骤四,将所述声学特征输入所述ResCNN神经网络模型,获得性别概率p;
步骤五,将所述性别概率p与真实性别进行比较,构造交叉熵损失函数;
步骤六,根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练;
步骤七,利用训练好的ResCNN神经网络模型进行语音性别预测。
进一步的,所述提取语音的声学特征过程包括将时域信号转换成时域-频域信息。在发明实施例中,优选地,采用短时傅里叶变换和梅尔频率倒谱系数将时域信号转换成时域-频域信息。
优选的,步骤四后,还将所述性别概率p进行softmax分类(1-p,p),即概率p为0~1的二分类。
在本发明实施例中,按照如下构建ResCNN神经网络模型,卷积网络核的层数为16层:
第1层使用5×5的卷积核,通道数为64,步长为2;
3-8层为3个ResBlock残差块,卷积核为3×3,通道数为64,步长为1;
第9层使用5×5的卷积核,通道数为128,步长为2;
10-15层为3个ResBlock残差块,卷积核为3×3,通道数为128,步长为1;
接着在时间轴方向上做平均;
第16层为全连接层,输出节点数为512。
进一步的,所述构造交叉熵损失函数具体为:每一批训练样本包含M段语音样本,将预测的结果和真实的结果做比较构造一个交叉熵损失函数L,所述交叉熵损失函数公式为如下:
其中,yi为第i段语音的真实性别,为第i句话预测性别,M表示声音样本数量,M为正整数且M≥1。
为了更快地收敛,本发明还在根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练后,还利用随机梯度下降算法进行神经网络训练。
在本发明实施例中,利用训练好的ResCNN神经网络模型进行语音性别预测,具体为,判断性别概率p是否大于等于设定阈值,若是则所述语音信息判断为男性语音,若概率p小于设定阈值,则所述语音信息判断为女性语音。
在本发明一实施例中,优选地,所述的设定阈值为0.5。
另外,本发明另一实施例中,还提供了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述的基于深度学习的语音性别识别方法。
另外,本发明另一实施例中,还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被处理器执行时实现上述的基于深度学习的语音性别识别方法。
本发明提供的基于深度学习的语音性别识别方法、计算机设备及介质,与现有技术相比,本发明是通过联合上述ResCNN深度神经网络架构和交叉熵损失函数,不但可以提高语音识别率,精确的识别某段语音的性别,并且减小整个模型大小。
附图说明
此处所说明的附图用来提供对发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1本发明实施例1提供了一种基于深度学习的语音性别识别方法的流程示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于深度学习的语音性别识别方法,具体到性别识别的训练方式,本发明是简化版的ResCNN神经网络架构及交叉熵损失函数进行训练,可以有效提高识别的精度和降低训练的难度。具体实现方式如下:
本发明提供了一种基于深度学习的语音性别识别方法,如附图1所示,包括如下步骤:
步骤一,获取待检测的语音信息;
步骤二,从所述语音信息提取语音的声学特征;所述提取语音的声学特征过程包括将时域信号转换成时域-频域信息,在在发明实施例中,优选地,采用短时傅里叶变换和梅尔频率倒谱系数将时域信号转换成时域-频域信息。需要说明的是,本发明所述语音信息提取语音的声学特征还可以采用其它方式进行,不限于本发明所指的优选方式。
步骤三,构建ResCNN神经网络模型;
其中,按照如下构建ResCNN神经网络模型,卷积网络核的层数为16层:
第1层使用5×5的卷积核,通道数为64,步长为2;
3-8层为3个ResBlock残差块,卷积核为3×3,通道数为64,步长为1;
第9层使用5×5的卷积核,通道数为128,步长为2;
10-15层为3个ResBlock残差块,卷积核为3×3,通道数为128,步长为1;
接着在时间轴方向上做平均;
第16层为全连接层,输出节点数为512。
步骤四,将所述声学特征输入所述ResCNN神经网络模型,获得性别概率p;
步骤五,将所述性别概率p与真实性别进行比较,构造交叉熵损失函数;
步骤六,根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练;
进一步的,所述构造交叉熵损失函数具体为:每一批训练样本包含M段语音样本,将预测的结果和真实的结果做比较构造一个交叉熵损失函数L,所述交叉熵损失函数公式为如下:
其中,yi为第i段语音的真实性别,为第i句话预测性别,M表示声音样本数量,M为正整数且M≥1。需要说明的是,yi为第i段语音的真实性别为0或者为1;为第i句话预测性别的概率p介于0和1之间。
步骤七,利用训练好的ResCNN神经网络模型进行语音性别预测。
softmax函数经常用于解决分类问题,其值对应于判别为该类的概率,所有值加起来刚好等于1。优选的,步骤四后,还将所述性别概率p进行softmax分类(1-p,p),即概率p为0~1的二分类。
进一步的,为了更快地收敛,本发明还在根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练后,还利用随机梯度下降算法进行神经网络训练。作为本发明优选实施例,采用随机梯度下降算法(StochasticGradientDescent,简称SGD)能有效避免冗余计算,消耗时间更短。当然本领域技术人员还可以采用其它算法。
在本发明实施例中,利用训练好的ResCNN神经网络模型进行语音性别预测,具体为,判断性别概率p是否大于等于设定阈值,若是则所述语音信息判断为男性语音,若概率p小于设定阈值,则所述语音信息判断为女性语音。
在本发明一实施例中,优选地,所述的设定阈值为0.5。
待检测的是男性语音或者女性语音,将该段语音经该神经网络训练出来得到的是0或1的一个判别结果,如果为1为男性语音,则0就是女性语音。
训练的时候,首先人为地给语音打上标签,并与神经网络预测的语音性别结果进行对比,如果神经网络预测结果是男性语音,事实上该段语音是女性声音则会产生一个误差,该误差为损失函数,然后经过随机梯度算法SGD或者其他的类似算法来训练,如果输出结果和标签不一致则继续训练,直到输出结果和标签的一致,之后就可以用这个训练完的神经网络架构去进行语音性别预测。
需要说明的是,本发明中,在神经网络中,将声音判别结果性别为男的设置为1,相应的性别为女的设置为0,则当预测结果为1为男性语音,预测结果为女性语音。也可以将声音将判别结果性别为女的设置为1,将性别为男的设置为0。
另外,本发明的另一实施例,还提供了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述的基于深度学习的语音性别识别方法。
另外,本发明的另一实施例,还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被处理器执行时实现上述的基于深度学习的语音性别识别方法。
上述说明描述了本发明的优选实施例,但应当理解本发明并非局限于上述实施例,且不应看作对其他实施例的排除。通过本发明的启示,本领域技术人员结合公知或现有技术、知识所进行的改动也应视为在本发明的保护范围内。

Claims (10)

1.一种基于深度学习的语音性别识别方法,其特征在于,包括如下步骤:
步骤一,获取待检测的语音信息;
步骤二,从所述语音信息提取语音的声学特征;
步骤三,构建ResCNN神经网络模型;
步骤四,将所述声学特征输入所述ResCNN神经网络模型,获得性别概率p;
步骤五,将所述性别概率p与真实性别进行比较,构造交叉熵损失函数;
步骤六,根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练;
步骤七,利用训练好的ResCNN神经网络模型进行语音性别预测。
2.根据权利要求1所述的基于深度学习的语音性别识别方法,其特征在于,
所述提取语音的声学特征过程包括将时域信号转换成时域-频域信息。
3.根据权利要求1所述的基于深度学习的语音性别识别方法,其特征在于,
步骤四后,还将所述性别概率p进行softmax分类(1-p,p),即概率p为0~1的二分类。
4.根据权利要求1所述的基于深度学习的语音性别识别方法,其特征在于,
按照如下构建ResCNN神经网络模型,卷积网络核的层数为16层:
第1层使用5×5的卷积核,通道数为64,步长为2;
3-8层为3个ResBlock残差块,卷积核为3×3,通道数为64,步长为1;
第9层使用5×5的卷积核,通道数为128,步长为2;
10-15层为3个ResBlock残差块,卷积核为3×3,通道数为128,步长为1;
接着在时间轴方向上做平均;
第16层为全连接层,输出节点数为512。
5.根据权利要求1所述的基于深度学习的语音性别识别方法,其特征在于,
所述构造交叉熵损失函数具体为:每一批训练样本包含M段语音样本,将预测的结果和真实的结果做比较构造一个交叉熵损失函数L,所述交叉熵损失函数公式为如下:
其中,yi为第i段语音的真实性别,为第i句话预测性别,M表示声音样本数量,M为正整数且M≥1。
6.根据权利要求1所述的基于深度学习的语音性别识别方法,其特征在于,
根据所述交叉熵损失函数对所述ResCNN神经网络模型进行训练后,还利用随机梯度下降算法进行神经网络训练。
7.根据权利要求1所述的基于深度学习的语音性别识别方法,其特征在于,
利用训练好的ResCNN神经网络模型进行语音性别预测,具体为,判断性别概率p是否大于等于设定阈值,若是则所述语音信息判断为男性语音,若概率p小于设定阈值,则所述语音信息判断为女性语音。
8.根据权利要求7所述的基于深度学习的语音性别识别方法,其特征在于,
所述的设定阈值为0.5。
9.一种计算机设备,其特征在于,
所述计算机设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-8中任一项所述的基于深度学习的语音性别识别方法。
10.一种非暂态计算机可读存储介质,其特征在于,
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被处理器执行时实现如权利要求1-8任一所述的基于深度学习的语音性别识别方法。
CN201810661799.7A 2018-06-25 2018-06-25 一种基于深度学习的语音性别识别方法、设备及介质 Pending CN108962223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810661799.7A CN108962223A (zh) 2018-06-25 2018-06-25 一种基于深度学习的语音性别识别方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810661799.7A CN108962223A (zh) 2018-06-25 2018-06-25 一种基于深度学习的语音性别识别方法、设备及介质

Publications (1)

Publication Number Publication Date
CN108962223A true CN108962223A (zh) 2018-12-07

Family

ID=64486409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810661799.7A Pending CN108962223A (zh) 2018-06-25 2018-06-25 一种基于深度学习的语音性别识别方法、设备及介质

Country Status (1)

Country Link
CN (1) CN108962223A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136726A (zh) * 2019-06-20 2019-08-16 厦门市美亚柏科信息股份有限公司 一种语音性别的估计方法、装置、系统及存储介质
CN110211569A (zh) * 2019-07-09 2019-09-06 浙江百应科技有限公司 基于语音图谱和深度学习的实时性别识别方法
CN110428843A (zh) * 2019-03-11 2019-11-08 杭州雄迈信息技术有限公司 一种语音性别识别深度学习方法
CN110459209A (zh) * 2019-08-20 2019-11-15 深圳追一科技有限公司 语音识别方法、装置、设备及存储介质
CN110600042A (zh) * 2019-10-10 2019-12-20 公安部第三研究所 一种伪装语音说话人性别识别的方法及系统
CN110619889A (zh) * 2019-09-19 2019-12-27 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN110648672A (zh) * 2019-09-05 2020-01-03 深圳追一科技有限公司 人物图像生成方法、交互方法、装置及终端设备
CN110931023A (zh) * 2019-11-29 2020-03-27 厦门快商通科技股份有限公司 性别识别方法、系统、移动终端及存储介质
CN111091840A (zh) * 2019-12-19 2020-05-01 浙江百应科技有限公司 一种建立性别识别模型的方法及性别识别方法
CN111540382A (zh) * 2020-07-10 2020-08-14 北京海天瑞声科技股份有限公司 基于线性预测残差负熵的语音音质度量评价方法及装置
CN111951785A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
CN112825250A (zh) * 2019-11-20 2021-05-21 芋头科技(杭州)有限公司 语音唤醒方法、设备、存储介质及程序产品
WO2021175031A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 信息提示方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221320A (zh) * 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质
US20170300487A1 (en) * 2010-09-22 2017-10-19 Interactions Llc System And Method For Enhancing Voice-Enabled Search Based On Automated Demographic Identification
CN107507612A (zh) * 2017-06-30 2017-12-22 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN107680597A (zh) * 2017-10-23 2018-02-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN107886949A (zh) * 2017-11-24 2018-04-06 科大讯飞股份有限公司 一种内容推荐方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300487A1 (en) * 2010-09-22 2017-10-19 Interactions Llc System And Method For Enhancing Voice-Enabled Search Based On Automated Demographic Identification
CN107221320A (zh) * 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN107507612A (zh) * 2017-06-30 2017-12-22 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN107680597A (zh) * 2017-10-23 2018-02-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN107886949A (zh) * 2017-11-24 2018-04-06 科大讯飞股份有限公司 一种内容推荐方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428843A (zh) * 2019-03-11 2019-11-08 杭州雄迈信息技术有限公司 一种语音性别识别深度学习方法
CN110428843B (zh) * 2019-03-11 2021-09-07 杭州巨峰科技有限公司 一种语音性别识别深度学习方法
CN111951785A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
CN111951785B (zh) * 2019-05-16 2024-03-15 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
CN110136726A (zh) * 2019-06-20 2019-08-16 厦门市美亚柏科信息股份有限公司 一种语音性别的估计方法、装置、系统及存储介质
CN110211569A (zh) * 2019-07-09 2019-09-06 浙江百应科技有限公司 基于语音图谱和深度学习的实时性别识别方法
CN110459209A (zh) * 2019-08-20 2019-11-15 深圳追一科技有限公司 语音识别方法、装置、设备及存储介质
CN110648672A (zh) * 2019-09-05 2020-01-03 深圳追一科技有限公司 人物图像生成方法、交互方法、装置及终端设备
CN110619889A (zh) * 2019-09-19 2019-12-27 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN110619889B (zh) * 2019-09-19 2022-03-15 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN110600042A (zh) * 2019-10-10 2019-12-20 公安部第三研究所 一种伪装语音说话人性别识别的方法及系统
CN110600042B (zh) * 2019-10-10 2020-10-23 公安部第三研究所 一种伪装语音说话人性别识别的方法及系统
CN112825250A (zh) * 2019-11-20 2021-05-21 芋头科技(杭州)有限公司 语音唤醒方法、设备、存储介质及程序产品
CN110931023B (zh) * 2019-11-29 2022-08-19 厦门快商通科技股份有限公司 性别识别方法、系统、移动终端及存储介质
CN110931023A (zh) * 2019-11-29 2020-03-27 厦门快商通科技股份有限公司 性别识别方法、系统、移动终端及存储介质
CN111091840A (zh) * 2019-12-19 2020-05-01 浙江百应科技有限公司 一种建立性别识别模型的方法及性别识别方法
WO2021175031A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 信息提示方法、装置、电子设备及介质
CN111540382B (zh) * 2020-07-10 2020-10-16 北京海天瑞声科技股份有限公司 基于线性预测残差负熵的语音音质度量评价方法及装置
CN111540382A (zh) * 2020-07-10 2020-08-14 北京海天瑞声科技股份有限公司 基于线性预测残差负熵的语音音质度量评价方法及装置

Similar Documents

Publication Publication Date Title
CN108962223A (zh) 一种基于深度学习的语音性别识别方法、设备及介质
US11322155B2 (en) Method and apparatus for establishing voiceprint model, computer device, and storage medium
WO2018227780A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN103928023B (zh) 一种语音评分方法及系统
CN105741832B (zh) 一种基于深度学习的口语评测方法和系统
WO2018227781A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN106782603B (zh) 智能语音评测方法及系统
CN101645271B (zh) 发音质量评估系统中的置信度快速求取方法
CN108564940A (zh) 语音识别方法、服务器及计算机可读存储介质
CN101887725A (zh) 一种基于音素混淆网络的音素后验概率计算方法
CN102938252B (zh) 结合韵律和发音学特征的汉语声调识别系统及方法
CN104240706B (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
US11056100B2 (en) Acoustic information based language modeling system and method
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN104464724A (zh) 一种针对刻意伪装语音的说话人识别方法
CN108364634A (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN109377981A (zh) 音素对齐的方法及装置
CN114783464A (zh) 认知检测方法及相关装置、电子设备和存储介质
US10269356B2 (en) Systems and methods for estimating age of a speaker based on speech
US8145483B2 (en) Speech recognition method for all languages without using samples
CN109545198A (zh) 一种基于卷积神经网络的英语口语母语度判断方法
Ling An acoustic model for English speech recognition based on deep learning
Chen et al. Mandarin Chinese mispronunciation detection and diagnosis leveraging deep neural network based acoustic modeling and training techniques
CN108182938B (zh) 一种基于dnn的蒙古语声学模型的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207

RJ01 Rejection of invention patent application after publication