CN111210840A - 一种年龄预测方法和装置以及设备 - Google Patents
一种年龄预测方法和装置以及设备 Download PDFInfo
- Publication number
- CN111210840A CN111210840A CN202010002564.4A CN202010002564A CN111210840A CN 111210840 A CN111210840 A CN 111210840A CN 202010002564 A CN202010002564 A CN 202010002564A CN 111210840 A CN111210840 A CN 111210840A
- Authority
- CN
- China
- Prior art keywords
- support vector
- vector machine
- feature
- age
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012706 support-vector machine Methods 0.000 claims abstract description 161
- 238000001228 spectrum Methods 0.000 claims description 96
- 230000006870 function Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种年龄预测方法和装置以及设备。其中,所述方法包括:获取不同年龄段的人体的语音数据,和构建基于该语音数据的支持向量机回归模型,和采用支持向量机对该构建的支持向量机回归模型进行训练,以及根据该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测。通过上述方式,能够实现通过人体的语音来预测该人体的年龄。
Description
技术领域
本发明涉及年龄预测技术领域,尤其涉及一种年龄预测方法和装置以及设备。
背景技术
语音,是指人体通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。人体的语音,一般会随着年龄的变化而变化。
现有的年龄预测方案,一般是获取人体的人脸图像,根据该人脸图像进行人脸识别,进而预测出该人体的年龄。
然而,现有的年龄预测方案,无法实现通过人体的语音来预测该人体的年龄。
发明内容
有鉴于此,本发明的目的在于提出一种年龄预测方法和装置以及设备,能够实现通过人体的语音来预测该人体的年龄。
根据本发明的一个方面,提供一种年龄预测方法,包括:获取不同年龄段的人体的语音数据;构建基于所述语音数据的支持向量机回归模型;采用支持向量机对所述构建的支持向量机回归模型进行训练;根据所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测。
其中,所述采用支持向量机对所述构建的支持向量机回归模型进行训练,包括:采用支持向量机对所述语音数据中的每个语音进行相应年龄的年龄标签打标,和从所述经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从所述声学特征中提取出梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为支持向量机的训练输入的方式,以及采用所述将梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为训练输入的支持向量机对所述构建的支持向量机回归模型进行训练。
其中,所述根据所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测,包括:根据所述经训练后的支持向量机回归模型,从人体的语音中提取出对关联所述语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征,将所述提取出的关联所述语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征输入所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测,通过所述经训练后的支持向量机回归模型得到预测的年龄。
其中,在所述根据所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测之后,还包括:通过交叉熵损失的损失函数和优化算法对所述支持向量机进行参数更数,和采用所述经参数更新后的支持向量机通过预测次数的迭代对所述支持向量机回归模型进行训练更新。
根据本发明的另一个方面,提供一种年龄预测装置,包括:获取模块、构建模块、训练模块和预测模块;所述获取模块,用于获取不同年龄段的人体的语音数据;所述构建模块,用于构建基于所述语音数据的支持向量机回归模型;所述训练模块,用于采用支持向量机对所述构建的支持向量机回归模型进行训练;所述预测模块,用于根据所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测。
其中,所述训练模块,具体用于:采用支持向量机对所述语音数据中的每个语音进行相应年龄的年龄标签打标,和从所述经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从所述声学特征中提取出梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为支持向量机的训练输入的方式,以及采用所述将梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为训练输入的支持向量机对所述构建的支持向量机回归模型进行训练。
其中,所述预测模块,具体用于:根据所述经训练后的支持向量机回归模型,从人体的语音中提取出对关联所述语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征,将所述提取出的关联所述语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征输入所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测,通过所述经训练后的支持向量机回归模型得到预测的年龄。
其中,所述年龄预测装置,还包括:更新模块;所述更新模块,用于通过交叉熵损失的损失函数和优化算法对所述支持向量机进行参数更数,和采用所述经参数更新后的支持向量机通过预测次数的迭代对所述支持向量机回归模型进行训练更新。
根据本发明的又一个方面,提供一种年龄预测设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一项所述的年龄预测方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的年龄预测方法。
可以发现,以上方案,可以获取不同年龄段的人体的语音数据,和可以构建基于该语音数据的支持向量机回归模型,和可以采用支持向量机对该构建的支持向量机回归模型进行训练,以及可以根据该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测,能够实现通过人体的语音来预测该人体的年龄。
进一步的,以上方案,可以采用支持向量机对该语音数据中的每个语音进行相应年龄的年龄标签打标,和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从该声学特征中提取出梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为支持向量机的训练输入的方式,以及采用该将梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为训练输入的支持向量机对该构建的支持向量机回归模型进行训练,这样的好处是因为该支持向量机能够保留语音上打标的年龄标签的信息,进而能够便于通过人体的语音来预测该人体的年龄。
进一步的,以上方案,可以根据该经训练后的支持向量机回归模型,从人体的语音中提取出对关联该语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征,将该提取出的关联该语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征输入该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测,通过该经训练后的支持向量机回归模型得到预测的年龄,这样的好处由于经训练后的支持向量机回归模型经过多次训练提高了该支持向量机回归模型的准确率,进而能够提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。
进一步的,以上方案,可以通过交叉熵损失的损失函数和优化算法对该支持向量机进行参数更数,和采用该经参数更新后的支持向量机通过预测次数的迭代对该支持向量机回归模型进行训练更新,这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明年龄预测方法一实施例的流程示意图;
图2是本发明年龄预测方法另一实施例的流程示意图;
图3是本发明年龄预测装置一实施例的结构示意图;
图4是本发明年龄预测装置另一实施例的结构示意图;
图5是本发明年龄预测设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种年龄预测方法,能够实现通过人体的语音来预测该人体的年龄。
请参见图1,图1是本发明年龄预测方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:获取不同年龄段的人体的语音数据。
在本实施例中,可以一次性获取不同年龄段的人体的语音数据,也可以分多次获取不同年龄段的人体的语音数据,还可以逐一逐个人体的获取不同年龄段的人体的语音数据等,本发明不加以限定。
在本实施例中,可以获取不同年龄段的不同人体的语音数据,也可以获取不同年龄段的相同人体的语音数据,本发明不加以限定。
S102:构建基于该语音数据的SVM(Support Vector Machine,支持向量机)回归模型。
在本实施例中,该构建的支持向量机回归模型,可以依据不同年龄段的人体之间的语音特征差异,采用合适的回归器,对人体的年龄进行预测。
S103:采用支持向量机对该构建的支持向量机回归模型进行训练。
其中,该采用支持向量机对该构建的支持向量机回归模型进行训练,可以包括:
采用支持向量机对该语音数据中的每个语音进行相应年龄的年龄标签打标,和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从该声学特征中提取出MFCC(Mel-scale Frequency Cepstral Coefficients,梅尔倒谱系数)特征、频谱质心(Spectral Centroid)特征、频谱带宽(Spectral Bandwidth)特征和频谱滚边特征作为支持向量机的训练输入的方式,以及采用该将梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为训练输入的支持向量机对该构建的支持向量机回归模型进行训练,这样的好处是因为该支持向量机能够保留语音上打标的年龄标签的信息,进而能够便于通过人体的语音来预测该人体的年龄。
在本实施例中,还可以在该梅尔倒谱系数特征、该频谱质心特征、该频谱带宽特征和该频谱滚边特征的基础上再加入性别(Gender)特征信息作为训练输入的支持向量机对该构建的支持向量机回归模型进行训练,这样的好处是能够实现通过对性别特征的区分,能更好的通过该区分出性别特征的人体的语音来预测该人体的年龄。
在本实施例中,该支持向量机可以采用高斯核方式,也可以采用其它方式,本发明不加以限定。
S104:根据该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测。
其中,该根据该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测,可以包括:
根据该经训练后的支持向量机回归模型,从人体的语音中提取出对关联该语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征,将该提取出的关联该语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征输入该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测,通过该经训练后的支持向量机回归模型得到预测的年龄,这样的好处由于经训练后的支持向量机回归模型经过多次训练提高了该支持向量机回归模型的准确率,进而能够提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。
其中,在该根据该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测之后,还可以包括:
通过交叉熵损失的损失函数和优化算法对该支持向量机进行参数更数,和采用该经参数更新后的支持向量机通过预测次数的迭代对该支持向量机回归模型进行训练更新,这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。
可以发现,在本实施例中,可以获取不同年龄段的人体的语音数据,和可以构建基于该语音数据的支持向量机回归模型,和可以采用支持向量机对该构建的支持向量机回归模型进行训练,以及可以根据该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测,能够实现通过人体的语音来预测该人体的年龄。
进一步的,在本实施例中,可以采用支持向量机对该语音数据中的每个语音进行相应年龄的年龄标签打标,和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从该声学特征中提取出梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为支持向量机的训练输入的方式,以及采用该将梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为训练输入的支持向量机对该构建的支持向量机回归模型进行训练,这样的好处是因为该支持向量机能够保留语音上打标的年龄标签的信息,进而能够便于通过人体的语音来预测该人体的年龄。
进一步的,在本实施例中,可以根据该经训练后的支持向量机回归模型,从人体的语音中提取出对关联该语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征,将该提取出的关联该语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征输入该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测,通过该经训练后的支持向量机回归模型得到预测的年龄,这样的好处由于经训练后的支持向量机回归模型经过多次训练提高了该支持向量机回归模型的准确率,进而能够提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。
请参见图2,图2是本发明年龄预测方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S201:获取不同年龄段的人体的语音数据。
可如上S101所述,在此不作赘述。
S202:构建基于该语音数据的支持向量机回归模型。
可如上S102所述,在此不作赘述。
S203:采用支持向量机对该构建的支持向量机回归模型进行训练。
可如上S103所述,在此不作赘述。
S204:根据该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测。
可如上S104所述,在此不作赘述。
S205:通过交叉熵损失的损失函数和优化算法对该支持向量机进行参数更数,和采用该经参数更新后的支持向量机通过预测次数的迭代对该支持向量机回归模型进行训练更新。
可以发现,在本实施例中,可以通过交叉熵损失的损失函数和优化算法对该支持向量机进行参数更数,和采用该经参数更新后的支持向量机通过预测次数的迭代对该支持向量机回归模型进行训练更新,这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。
本发明还提供一种年龄预测装置,能够实现通过人体的语音来预测该人体的年龄。
请参见图3,图3是本发明年龄预测装置一实施例的结构示意图。本实施例中,该年龄预测装置30包括获取模块31、构建模块32、训练模块33和预测模块34。
该获取模块31,用于获取不同年龄段的人体的语音数据。
该构建模块32,用于构建基于该语音数据的支持向量机回归模型。
该训练模块33,用于采用支持向量机对该构建的支持向量机回归模型进行训练。
该预测模块34,用于根据该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测。
可选地,该训练模块33,可以具体用于:
采用支持向量机对该语音数据中的每个语音进行相应年龄的年龄标签打标,和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从该声学特征中提取出梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为支持向量机的训练输入的方式,以及采用该将梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为训练输入的支持向量机对该构建的支持向量机回归模型进行训练。
可选地,该预测模块34,可以具体用于:
根据该经训练后的支持向量机回归模型,从人体的语音中提取出对关联该语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征,将该提取出的关联该语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征输入该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测,通过该经训练后的支持向量机回归模型得到预测的年龄。
请参见图4,图4是本发明年龄预测装置另一实施例的结构示意图。区别于上一实施例,本实施例所述年龄预测装置40还包括更新模块41。
该更新模块41,用于通过交叉熵损失的损失函数和优化算法对该支持向量机进行参数更数,和采用该经参数更新后的支持向量机通过预测次数的迭代对该支持向量机回归模型进行训练更新。
该年龄预测装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种年龄预测设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的年龄预测方法。
其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。
处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以获取不同年龄段的人体的语音数据,和可以构建基于该语音数据的支持向量机回归模型,和可以采用支持向量机对该构建的支持向量机回归模型进行训练,以及可以根据该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测,能够实现通过人体的语音来预测该人体的年龄。
进一步的,以上方案,可以采用支持向量机对该语音数据中的每个语音进行相应年龄的年龄标签打标,和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从该声学特征中提取出梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为支持向量机的训练输入的方式,以及采用该将梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为训练输入的支持向量机对该构建的支持向量机回归模型进行训练,这样的好处是因为该支持向量机能够保留语音上打标的年龄标签的信息,进而能够便于通过人体的语音来预测该人体的年龄。
进一步的,以上方案,可以根据该经训练后的支持向量机回归模型,从人体的语音中提取出对关联该语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征,将该提取出的关联该语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征输入该经训练后的支持向量机回归模型,来对人体的语音进行对应该语音的人体的年龄的预测,通过该经训练后的支持向量机回归模型得到预测的年龄,这样的好处由于经训练后的支持向量机回归模型经过多次训练提高了该支持向量机回归模型的准确率,进而能够提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。
进一步的,以上方案,可以通过交叉熵损失的损失函数和优化算法对该支持向量机进行参数更数,和采用该经参数更新后的支持向量机通过预测次数的迭代对该支持向量机回归模型进行训练更新,这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种年龄预测方法,其特征在于,包括:
获取不同年龄段的人体的语音数据;
构建基于所述语音数据的支持向量机回归模型;
采用支持向量机对所述构建的支持向量机回归模型进行训练;
根据所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测。
2.如权利要求1所述的年龄预测方法,其特征在于,所述采用支持向量机对所述构建的支持向量机回归模型进行训练,包括:
采用支持向量机对所述语音数据中的每个语音进行相应年龄的年龄标签打标,和从所述经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从所述声学特征中提取出梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为支持向量机的训练输入的方式,以及采用所述将梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为训练输入的支持向量机对所述构建的支持向量机回归模型进行训练。
3.如权利要求1所述的年龄预测方法,其特征在于,所述根据所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测,包括:
根据所述经训练后的支持向量机回归模型,从人体的语音中提取出对关联所述语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征,将所述提取出的关联所述语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征输入所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测,通过所述经训练后的支持向量机回归模型得到预测的年龄。
4.如权利要求1所述的年龄预测方法,其特征在于,在所述根据所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测之后,还包括:
通过交叉熵损失的损失函数和优化算法对所述支持向量机进行参数更数,和采用所述经参数更新后的支持向量机通过预测次数的迭代对所述支持向量机回归模型进行训练更新。
5.一种年龄预测装置,其特征在于,包括:
获取模块、构建模块、训练模块和预测模块;
所述获取模块,用于获取不同年龄段的人体的语音数据;
所述构建模块,用于构建基于所述语音数据的支持向量机回归模型;
所述训练模块,用于采用支持向量机对所述构建的支持向量机回归模型进行训练;
所述预测模块,用于根据所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测。
6.如权利要求5所述的年龄预测装置,其特征在于,所述训练模块,具体用于:
采用支持向量机对所述语音数据中的每个语音进行相应年龄的年龄标签打标,和从所述经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从所述声学特征中提取出梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为支持向量机的训练输入的方式,以及采用所述将梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征作为训练输入的支持向量机对所述构建的支持向量机回归模型进行训练。
7.如权利要求5所述的年龄预测装置,其特征在于,所述预测模块,具体用于:
根据所述经训练后的支持向量机回归模型,从人体的语音中提取出对关联所述语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征,将所述提取出的关联所述语音的梅尔倒谱系数特征、频谱质心特征、频谱带宽特征和频谱滚边特征输入所述经训练后的支持向量机回归模型,来对人体的语音进行对应所述语音的人体的年龄的预测,通过所述经训练后的支持向量机回归模型得到预测的年龄。
8.如权利要求5所述的年龄预测装置,其特征在于,所述年龄预测装置,还包括:
更新模块;
所述更新模块,用于通过交叉熵损失的损失函数和优化算法对所述支持向量机进行参数更数,和采用所述经参数更新后的支持向量机通过预测次数的迭代对所述支持向量机回归模型进行训练更新。
9.一种年龄预测设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的年龄预测方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的年龄预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002564.4A CN111210840A (zh) | 2020-01-02 | 2020-01-02 | 一种年龄预测方法和装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002564.4A CN111210840A (zh) | 2020-01-02 | 2020-01-02 | 一种年龄预测方法和装置以及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111210840A true CN111210840A (zh) | 2020-05-29 |
Family
ID=70787201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010002564.4A Pending CN111210840A (zh) | 2020-01-02 | 2020-01-02 | 一种年龄预测方法和装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111210840A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933148A (zh) * | 2020-06-29 | 2020-11-13 | 厦门快商通科技股份有限公司 | 基于卷神经网络的年龄识别方法、装置及终端 |
WO2023281606A1 (ja) * | 2021-07-05 | 2023-01-12 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
US11908453B2 (en) | 2021-02-10 | 2024-02-20 | Direct Cursus Technology L.L.C | Method and system for classifying a user of an electronic device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102834842A (zh) * | 2010-03-23 | 2012-12-19 | 诺基亚公司 | 用于确定用户年龄范围的方法和装置 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN109192221A (zh) * | 2018-03-30 | 2019-01-11 | 大连理工大学 | 一种基于聚类的使用语音判断帕金森严重程度检测方法 |
CN109817222A (zh) * | 2019-01-26 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种年龄识别方法、装置及终端设备 |
CN109859189A (zh) * | 2019-01-31 | 2019-06-07 | 长安大学 | 一种基于深度学习的年龄估计方法 |
-
2020
- 2020-01-02 CN CN202010002564.4A patent/CN111210840A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102834842A (zh) * | 2010-03-23 | 2012-12-19 | 诺基亚公司 | 用于确定用户年龄范围的方法和装置 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN109192221A (zh) * | 2018-03-30 | 2019-01-11 | 大连理工大学 | 一种基于聚类的使用语音判断帕金森严重程度检测方法 |
CN109817222A (zh) * | 2019-01-26 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种年龄识别方法、装置及终端设备 |
CN109859189A (zh) * | 2019-01-31 | 2019-06-07 | 长安大学 | 一种基于深度学习的年龄估计方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933148A (zh) * | 2020-06-29 | 2020-11-13 | 厦门快商通科技股份有限公司 | 基于卷神经网络的年龄识别方法、装置及终端 |
US11908453B2 (en) | 2021-02-10 | 2024-02-20 | Direct Cursus Technology L.L.C | Method and system for classifying a user of an electronic device |
WO2023281606A1 (ja) * | 2021-07-05 | 2023-01-12 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299458B (zh) | 实体识别方法、装置、设备及存储介质 | |
CN111602148B (zh) | 正则化神经网络架构搜索 | |
CN111210840A (zh) | 一种年龄预测方法和装置以及设备 | |
Rajan et al. | From single to multiple enrollment i-vectors: Practical PLDA scoring variants for speaker verification | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN110634474B (zh) | 一种基于人工智能的语音识别方法和装置 | |
US20220319493A1 (en) | Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program | |
US11880754B2 (en) | Electronic apparatus and control method thereof | |
WO2020057052A1 (en) | Machine-aided dialog system and medical condition inquiry apparatus and method | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN111508478B (zh) | 语音识别方法和装置 | |
CN112687266A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN111261196A (zh) | 一种年龄预估方法和装置以及设备 | |
CN111104874B (zh) | 人脸年龄预测方法及模型的训练方法、装置及电子设备 | |
CN113837669B (zh) | 一种标签体系的评价指标构建方法和相关装置 | |
KR20210028041A (ko) | 전자 장치 및 그 제어 방법 | |
US11830478B2 (en) | Learning device, learning method, and learning program for images and sound which uses a similarity matrix | |
CN111128235A (zh) | 一种基于语音的年龄预测方法和装置以及设备 | |
CN112487813A (zh) | 命名实体识别方法及系统、电子设备及存储介质 | |
JP6633556B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
CN112115248B (zh) | 一种从对话语料中抽取对话策略结构的方法及系统 | |
JP2022088341A (ja) | 機器学習装置及び方法 | |
US11798578B2 (en) | Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program | |
CN111128234A (zh) | 一种拼接语音的识别检测方法和装置以及设备 | |
JP2023027697A (ja) | 端末装置、送信方法、送信プログラム及び情報処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200529 |
|
RJ01 | Rejection of invention patent application after publication |