CN111261196A - 一种年龄预估方法和装置以及设备 - Google Patents
一种年龄预估方法和装置以及设备 Download PDFInfo
- Publication number
- CN111261196A CN111261196A CN202010055497.2A CN202010055497A CN111261196A CN 111261196 A CN111261196 A CN 111261196A CN 202010055497 A CN202010055497 A CN 202010055497A CN 111261196 A CN111261196 A CN 111261196A
- Authority
- CN
- China
- Prior art keywords
- age
- voice
- algorithm
- regression model
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Abstract
本发明公开了一种年龄预估方法和装置以及设备。其中,所述方法包括:获取不同年龄段的人体的语音数据,和构建基于该语音数据的邻近算法回归模型,和采用邻近算法对该构建的邻近算法回归模型进行训练,以及根据该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估。通过上述方式,能够实现通过人体的语音来预估该人体的年龄。
Description
技术领域
本发明涉及年龄预估技术领域,尤其涉及一种年龄预估方法和装置以及设备。
背景技术
语音,是指人体通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。人体的语音,一般会随着年龄的变化而变化。
现有的年龄预估方案,一般是获取人体的人脸图像,根据该人脸图像进行人脸识别,进而预估出该人体的年龄。
然而,现有的年龄预估方案,无法实现通过人体的语音来预估该人体的年龄。
发明内容
有鉴于此,本发明的目的在于提出一种年龄预估方法和装置以及设备,能够实现通过人体的语音来预估该人体的年龄。
根据本发明的一个方面,提供一种年龄预估方法,包括:获取不同年龄段的人体的语音数据;构建基于所述语音数据的邻近算法回归模型;采用邻近算法对所述构建的邻近算法回归模型进行训练;根据所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估。
其中,所述采用邻近算法对所述构建的邻近算法回归模型进行训练,包括:对所述语音数据中的每个语音进行相应年龄的年龄标签打标,和从所述经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从所述声学特征中提取出梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为邻近算法的训练输入的方式,以及采用所述将梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为训练输入的邻近算法对所述构建的邻近算法回归模型进行训练。
其中,所述根据所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估,包括:根据所述经训练后的邻近算法回归模型,从人体的语音中提取出对关联所述语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征,将所述提取出的关联所述语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征输入所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估,通过所述经训练后的邻近算法回归模型得到预估的年龄。
其中,在所述根据所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估之后,还包括:通过交叉熵损失的损失函数和优化算法对所述邻近算法进行参数更数,和采用所述经参数更新后的邻近算法通过预估次数的迭代对所述邻近算法回归模型进行训练更新。
根据本发明的另一个方面,提供一种年龄预估装置,包括:获取模块、构建模块、训练模块和预估模块;所述获取模块,用于获取不同年龄段的人体的语音数据;所述构建模块,用于构建基于所述语音数据的邻近算法回归模型;所述训练模块,用于采用邻近算法对所述构建的邻近算法回归模型进行训练;所述预估模块,用于根据所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估。
其中,所述训练模块,具体用于:对所述语音数据中的每个语音进行相应年龄的年龄标签打标,和从所述经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从所述声学特征中提取出梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为邻近算法的训练输入的方式,以及采用所述将梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为训练输入的邻近算法对所述构建的邻近算法回归模型进行训练。
其中,所述预估模块,具体用于:根据所述经训练后的邻近算法回归模型,从人体的语音中提取出对关联所述语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征,将所述提取出的关联所述语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征输入所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估,通过所述经训练后的邻近算法回归模型得到预估的年龄。
其中,所述年龄预估装置,还包括:更新模块;所述更新模块,用于通过交叉熵损失的损失函数和优化算法对所述邻近算法进行参数更数,和采用所述经参数更新后的邻近算法通过预估次数的迭代对所述邻近算法回归模型进行训练更新。
根据本发明的又一个方面,提供一种年龄预估设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一项所述的年龄预估方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的年龄预估方法。
可以发现,以上方案,可以获取不同年龄段的人体的语音数据,和可以构建基于该语音数据的邻近算法回归模型,和可以采用邻近算法对该构建的邻近算法回归模型进行训练,以及可以根据该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估,能够实现通过人体的语音来预估该人体的年龄。
进一步的,以上方案,可以对该语音数据中的每个语音进行相应年龄的年龄标签打标,和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从该声学特征中提取出梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为邻近算法的训练输入的方式,以及采用该将梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为训练输入的邻近算法对该构建的邻近算法回归模型进行训练,这样的好处是因为该邻近算法能够保留语音上打标的年龄标签的信息,进而能够便于通过人体的语音来预估该人体的年龄。
进一步的,以上方案,可以根据该经训练后的邻近算法回归模型,从人体的语音中提取出对关联该语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征,将该提取出的关联该语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征输入该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估,通过该经训练后的邻近算法回归模型得到预估的年龄,经过类似的多次迭代和参数调整,进而能够提高对人体的语音进行对应该语音的人体的年龄的预估的准确率。
进一步的,以上方案,可以通过交叉熵损失的损失函数和优化算法对该邻近算法进行参数更数,和采用该经参数更新后的邻近算法通过预估次数的迭代对该邻近算法回归模型进行训练更新,这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预估的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明年龄预估方法一实施例的流程示意图;
图2是本发明年龄预估方法另一实施例的流程示意图;
图3是本发明年龄预估装置一实施例的结构示意图;
图4是本发明年龄预估装置另一实施例的结构示意图;
图5是本发明年龄预估设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种年龄预估方法,能够实现通过人体的语音来预估该人体的年龄。
请参见图1,图1是本发明年龄预估方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:获取不同年龄段的人体的语音数据。
在本实施例中,可以一次性获取不同年龄段的人体的语音数据,也可以分多次获取不同年龄段的人体的语音数据,还可以逐一逐个人体的获取不同年龄段的人体的语音数据等,本发明不加以限定。
在本实施例中,可以获取不同年龄段的不同人体的语音数据,也可以获取不同年龄段的相同人体的语音数据,本发明不加以限定。
S102:构建基于该语音数据的KNN(k-NearestNeighbor,邻近算法)回归模型。
在本实施例中,该构建的邻近算法回归模型,可以依据不同年龄段的人体之间的语音特征差异,采用合适的回归器,对人体的年龄进行预估。
S103:采用邻近算法对该构建的邻近算法回归模型进行训练。
其中,该采用邻近算法对该构建的邻近算法回归模型进行训练,可以包括:
对该语音数据中的每个语音进行相应年龄的年龄标签打标,和从该经年龄标签打标后的语音数据中提取出每个语音的MFCC(Mel-scale Frequency CepstralCoefficients,梅尔倒谱系数)特征、PLP(Perceptual Linear Prediction,感知线性预测系数)特征和过零率(zero_crossing_rate)特征作为邻近算法的训练输入的方式,以及采用该将梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为训练输入的邻近算法对该构建的邻近算法回归模型进行训练,这样的好处是因为该邻近算法能够保留语音上打标的年龄标签的信息,进而能够便于通过人体的语音来预估该人体的年龄。
S104:根据该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估。
其中,该根据该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估,可以包括:
根据该经训练后的邻近算法回归模型,从人体的语音中提取出对关联该语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征,将该提取出的关联该语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征输入该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估,通过该经训练后的邻近算法回归模型得到预估的年龄,经过类似的多次迭代和参数调整,进而能够提高对人体的语音进行对应该语音的人体的年龄的预估的准确率。
其中,在该根据该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估之后,还可以包括:
通过交叉熵损失的损失函数和优化算法对该邻近算法进行参数更数,和采用该经参数更新后的邻近算法通过预估次数的迭代对该邻近算法回归模型进行训练更新,这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预估的准确率。
可以发现,在本实施例中,可以获取不同年龄段的人体的语音数据,和可以构建基于该语音数据的邻近算法回归模型,和可以采用邻近算法对该构建的邻近算法回归模型进行训练,以及可以根据该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估,能够实现通过人体的语音来预估该人体的年龄。
进一步的,在本实施例中,可以对该语音数据中的每个语音进行相应年龄的年龄标签打标,和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从该声学特征中提取出梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为邻近算法的训练输入的方式,以及采用该将梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为训练输入的邻近算法对该构建的邻近算法回归模型进行训练,这样的好处是因为该邻近算法能够保留语音上打标的年龄标签的信息,进而能够便于通过人体的语音来预估该人体的年龄。
进一步的,在本实施例中,可以根据该经训练后的邻近算法回归模型,从人体的语音中提取出对关联该语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征,将该提取出的关联该语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征输入该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估,通过该经训练后的邻近算法回归模型得到预估的年龄,经过类似的多次迭代和参数调整,进而能够提高对人体的语音进行对应该语音的人体的年龄的预估的准确率。
请参见图2,图2是本发明年龄预估方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S201:获取不同年龄段的人体的语音数据。
可如上S101所述,在此不作赘述。
S202:构建基于该语音数据的邻近算法回归模型。
可如上S102所述,在此不作赘述。
S203:采用邻近算法对该构建的邻近算法回归模型进行训练。
可如上S103所述,在此不作赘述。
S204:根据该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估。
可如上S104所述,在此不作赘述。
S205:通过交叉熵损失的损失函数和优化算法对该邻近算法进行参数更数,和采用该经参数更新后的邻近算法通过预估次数的迭代对该邻近算法回归模型进行训练更新。
可以发现,在本实施例中,可以通过交叉熵损失的损失函数和优化算法对该邻近算法进行参数更数,和采用该经参数更新后的邻近算法通过预估次数的迭代对该邻近算法回归模型进行训练更新,这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预估的准确率。
本发明还提供一种年龄预估装置,能够实现通过人体的语音来预估该人体的年龄。
请参见图3,图3是本发明年龄预估装置一实施例的结构示意图。本实施例中,该年龄预估装置30包括获取模块31、构建模块32、训练模块33和预估模块34。
该获取模块31,用于获取不同年龄段的人体的语音数据。
该构建模块32,用于构建基于该语音数据的邻近算法回归模型。
该训练模块33,用于采用邻近算法对该构建的邻近算法回归模型进行训练。
该预估模块34,用于根据该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估。
可选地,该训练模块33,可以具体用于:
对该语音数据中的每个语音进行相应年龄的年龄标签打标,和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从该声学特征中提取出梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为邻近算法的训练输入的方式,以及采用该将梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为训练输入的邻近算法对该构建的邻近算法回归模型进行训练。
可选地,该预估模块34,可以具体用于:
根据该经训练后的邻近算法回归模型,从人体的语音中提取出对关联该语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征,将该提取出的关联该语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征输入该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估,通过该经训练后的邻近算法回归模型得到预估的年龄。
请参见图4,图4是本发明年龄预估装置另一实施例的结构示意图。区别于上一实施例,本实施例所述年龄预估装置40还包括更新模块41。
该更新模块41,用于通过交叉熵损失的损失函数和优化算法对该邻近算法进行参数更数,和采用该经参数更新后的邻近算法通过预估次数的迭代对该邻近算法回归模型进行训练更新。
该年龄预估装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种年龄预估设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的年龄预估方法。
其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。
处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以获取不同年龄段的人体的语音数据,和可以构建基于该语音数据的邻近算法回归模型,和可以采用邻近算法对该构建的邻近算法回归模型进行训练,以及可以根据该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估,能够实现通过人体的语音来预估该人体的年龄。
进一步的,以上方案,可以对该语音数据中的每个语音进行相应年龄的年龄标签打标,和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从该声学特征中提取出梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为邻近算法的训练输入的方式,以及采用该将梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为训练输入的邻近算法对该构建的邻近算法回归模型进行训练,这样的好处是因为该邻近算法能够保留语音上打标的年龄标签的信息,进而能够便于通过人体的语音来预估该人体的年龄。
进一步的,以上方案,可以根据该经训练后的邻近算法回归模型,从人体的语音中提取出对关联该语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征,将该提取出的关联该语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征输入该经训练后的邻近算法回归模型,来对人体的语音进行对应该语音的人体的年龄的预估,通过该经训练后的邻近算法回归模型得到预估的年龄,经过类似的多次迭代和参数调整,进而能够提高对人体的语音进行对应该语音的人体的年龄的预估的准确率。
进一步的,以上方案,可以通过交叉熵损失的损失函数和优化算法对该邻近算法进行参数更数,和采用该经参数更新后的邻近算法通过预估次数的迭代对该邻近算法回归模型进行训练更新,这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预估的准确率。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种年龄预估方法,其特征在于,包括:
获取不同年龄段的人体的语音数据;
构建基于所述语音数据的邻近算法回归模型;
采用邻近算法对所述构建的邻近算法回归模型进行训练;
根据所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估。
2.如权利要求1所述的年龄预估方法,其特征在于,所述采用邻近算法对所述构建的邻近算法回归模型进行训练,包括:
对所述语音数据中的每个语音进行相应年龄的年龄标签打标,和从所述经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从所述声学特征中提取出梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为邻近算法的训练输入,以及采用所述将梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为训练输入的邻近算法对所述构建的邻近算法回归模型进行训练。
3.如权利要求1所述的年龄预估方法,其特征在于,所述根据所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估,包括:
根据所述经训练后的邻近算法回归模型,从人体的语音中提取出对关联所述语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征,将所述提取出的关联所述语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征输入所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估,通过所述经训练后的邻近算法回归模型得到预估的年龄。
4.如权利要求1所述的年龄预估方法,其特征在于,在所述根据所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估之后,还包括:
通过交叉熵损失的损失函数和优化算法对所述邻近算法进行参数更数,和采用所述经参数更新后的邻近算法通过预估次数的迭代对所述邻近算法回归模型进行训练更新。
5.一种年龄预估装置,其特征在于,包括:
获取模块、构建模块、训练模块和预估模块;
所述获取模块,用于获取不同年龄段的人体的语音数据;
所述构建模块,用于构建基于所述语音数据的邻近算法回归模型;
所述训练模块,用于采用邻近算法对所述构建的邻近算法回归模型进行训练;
所述预估模块,用于根据所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估。
6.如权利要求5所述的年龄预估装置,其特征在于,所述训练模块,具体用于:
对所述语音数据中的每个语音进行相应年龄的年龄标签打标,和从所述经年龄标签打标后的语音数据中提取出每个语音的声学特征,并从所述声学特征中提取出梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为邻近算法的训练输入的方式,以及采用所述将梅尔倒谱系数特征、感知线性预测系数特征和过零率特征作为训练输入的邻近算法对所述构建的邻近算法回归模型进行训练。
7.如权利要求5所述的年龄预估装置,其特征在于,所述预估模块,具体用于:
根据所述经训练后的邻近算法回归模型,从人体的语音中提取出对关联所述语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征,将所述提取出的关联所述语音的梅尔倒谱系数特征、感知线性预测系数特征和过零率特征输入所述经训练后的邻近算法回归模型,来对人体的语音进行对应所述语音的人体的年龄的预估,通过所述经训练后的邻近算法回归模型得到预估的年龄。
8.如权利要求5所述的年龄预估装置,其特征在于,所述年龄预估装置,还包括:
更新模块;
所述更新模块,用于通过交叉熵损失的损失函数和优化算法对所述邻近算法进行参数更数,和采用所述经参数更新后的邻近算法通过预估次数的迭代对所述邻近算法回归模型进行训练更新。
9.一种年龄预估设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的年龄预估方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的年龄预估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010055497.2A CN111261196A (zh) | 2020-01-17 | 2020-01-17 | 一种年龄预估方法和装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010055497.2A CN111261196A (zh) | 2020-01-17 | 2020-01-17 | 一种年龄预估方法和装置以及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111261196A true CN111261196A (zh) | 2020-06-09 |
Family
ID=70952226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010055497.2A Pending CN111261196A (zh) | 2020-01-17 | 2020-01-17 | 一种年龄预估方法和装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111261196A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933148A (zh) * | 2020-06-29 | 2020-11-13 | 厦门快商通科技股份有限公司 | 基于卷神经网络的年龄识别方法、装置及终端 |
WO2023281606A1 (ja) * | 2021-07-05 | 2023-01-12 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130013308A1 (en) * | 2010-03-23 | 2013-01-10 | Nokia Corporation | Method And Apparatus For Determining a User Age Range |
US20130268273A1 (en) * | 2012-04-10 | 2013-10-10 | Oscal Tzyh-Chiang Chen | Method of recognizing gender or age of a speaker according to speech emotion or arousal |
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105975518A (zh) * | 2016-04-28 | 2016-09-28 | 吴国华 | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 |
US20180053514A1 (en) * | 2016-08-22 | 2018-02-22 | Disney Enterprises, Inc. | Systems and Methods for Estimating Age of a Child Based on Speech |
CN107886949A (zh) * | 2017-11-24 | 2018-04-06 | 科大讯飞股份有限公司 | 一种内容推荐方法及装置 |
CN109255363A (zh) * | 2018-07-11 | 2019-01-22 | 齐鲁工业大学 | 一种基于加权卡方距离度量的模糊k近邻分类方法及系统 |
CN109272984A (zh) * | 2018-10-17 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法和装置 |
CN109448756A (zh) * | 2018-11-14 | 2019-03-08 | 北京大生在线科技有限公司 | 一种语音年龄识别方法及系统 |
CN109817222A (zh) * | 2019-01-26 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种年龄识别方法、装置及终端设备 |
CN110265040A (zh) * | 2019-06-20 | 2019-09-20 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110490227A (zh) * | 2019-07-09 | 2019-11-22 | 武汉理工大学 | 一种基于特征转换的少样本图像分类方法 |
CN110634472A (zh) * | 2018-06-21 | 2019-12-31 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
-
2020
- 2020-01-17 CN CN202010055497.2A patent/CN111261196A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130013308A1 (en) * | 2010-03-23 | 2013-01-10 | Nokia Corporation | Method And Apparatus For Determining a User Age Range |
US20130268273A1 (en) * | 2012-04-10 | 2013-10-10 | Oscal Tzyh-Chiang Chen | Method of recognizing gender or age of a speaker according to speech emotion or arousal |
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105975518A (zh) * | 2016-04-28 | 2016-09-28 | 吴国华 | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 |
US20180053514A1 (en) * | 2016-08-22 | 2018-02-22 | Disney Enterprises, Inc. | Systems and Methods for Estimating Age of a Child Based on Speech |
CN107886949A (zh) * | 2017-11-24 | 2018-04-06 | 科大讯飞股份有限公司 | 一种内容推荐方法及装置 |
CN110634472A (zh) * | 2018-06-21 | 2019-12-31 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
CN109255363A (zh) * | 2018-07-11 | 2019-01-22 | 齐鲁工业大学 | 一种基于加权卡方距离度量的模糊k近邻分类方法及系统 |
CN109272984A (zh) * | 2018-10-17 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法和装置 |
CN109448756A (zh) * | 2018-11-14 | 2019-03-08 | 北京大生在线科技有限公司 | 一种语音年龄识别方法及系统 |
CN109817222A (zh) * | 2019-01-26 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种年龄识别方法、装置及终端设备 |
CN110265040A (zh) * | 2019-06-20 | 2019-09-20 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110490227A (zh) * | 2019-07-09 | 2019-11-22 | 武汉理工大学 | 一种基于特征转换的少样本图像分类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933148A (zh) * | 2020-06-29 | 2020-11-13 | 厦门快商通科技股份有限公司 | 基于卷神经网络的年龄识别方法、装置及终端 |
WO2023281606A1 (ja) * | 2021-07-05 | 2023-01-12 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299458B (zh) | 实体识别方法、装置、设备及存储介质 | |
CN108630190B (zh) | 用于生成语音合成模型的方法和装置 | |
CN111602148B (zh) | 正则化神经网络架构搜索 | |
EP3133595B1 (en) | Speech recognition | |
CN110852438B (zh) | 模型生成方法和装置 | |
CN111210840A (zh) | 一种年龄预测方法和装置以及设备 | |
CN111261196A (zh) | 一种年龄预估方法和装置以及设备 | |
JP2022158735A (ja) | 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム | |
CN111508478B (zh) | 语音识别方法和装置 | |
CN112687266A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN113837669B (zh) | 一种标签体系的评价指标构建方法和相关装置 | |
KR20210028041A (ko) | 전자 장치 및 그 제어 방법 | |
CN111243604A (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
US11830478B2 (en) | Learning device, learning method, and learning program for images and sound which uses a similarity matrix | |
CN111128235A (zh) | 一种基于语音的年龄预测方法和装置以及设备 | |
CN106228976A (zh) | 语音识别方法和装置 | |
CN110991661A (zh) | 用于生成模型的方法和装置 | |
CN111128234B (zh) | 一种拼接语音的识别检测方法和装置以及设备 | |
JP7326596B2 (ja) | 音声データ作成装置 | |
CN115129877A (zh) | 标点符号预测模型的生成方法、装置和电子设备 | |
CN114067415A (zh) | 回归模型的训练方法、对象评估方法、装置、设备和介质 | |
CN116150324A (zh) | 对话模型的训练方法、装置、设备及介质 | |
WO2021114617A1 (zh) | 语音合成方法、装置、计算机设备及计算机可读存储介质 | |
CN110728137B (zh) | 用于分词的方法和装置 | |
JP2023027697A (ja) | 端末装置、送信方法、送信プログラム及び情報処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |