CN109817222A - 一种年龄识别方法、装置及终端设备 - Google Patents
一种年龄识别方法、装置及终端设备 Download PDFInfo
- Publication number
- CN109817222A CN109817222A CN201910076388.6A CN201910076388A CN109817222A CN 109817222 A CN109817222 A CN 109817222A CN 201910076388 A CN201910076388 A CN 201910076388A CN 109817222 A CN109817222 A CN 109817222A
- Authority
- CN
- China
- Prior art keywords
- age
- vector
- layer
- vocal cords
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 94
- 210000001260 vocal cord Anatomy 0.000 claims abstract description 74
- 238000003062 neural network model Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 4
- 230000003252 repetitive effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 230000005284 excitation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Prostheses (AREA)
Abstract
本发明提供了一种年龄识别方法、装置及终端设备,适用于数据处理技术领域,该方法包括:提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到语音数据的第一语音向量;将第一语音向量输入至预设的神经网络模型,得到语音数据与各个年龄的对应概率,神经网络模型用于预测语音数据对应的年龄及对应概率;筛选出数值最大的对应概率对应的年龄,将该年龄判定为语音数据对应的年龄。实现了对语音声带系数+共振峰频率两个维度的年龄聚类分析,从而保证了语音年龄识别的高效准确。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及年龄识别方法及终端设备。
背景技术
年龄是人的重要属性之一,不同年龄的人具有明显的群体偏好属性,因此,为了提高各种智能系统的智能化程度,增强对各年龄段用户的定制化服务能力,对用户的年龄识别日渐成为热点。
现有技术中较为常见的都是根据视频/图像来实现对用户年龄的识别,但实际情况中受到环境/硬件等限制,在许多场景下视频/图像的获取难度都比较大,而语音信号的获取难度远低于视频/图像,因此使用语音来进行年龄识别无疑是一种更为便利高效的年龄识别方式,但现有技术中都是由人工来听语音并根据经验来确定年龄,效率低下且准确率不高。
发明内容
有鉴于此,本发明实施例提供了一种年龄识别方法及终端设备,以解决现有技术中根据语音识别年龄的效率低下且准确率不高的问题。
本发明实施例的第一方面提供了一种年龄识别方法,包括:
提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到所述语音数据的第一语音向量;
将所述第一语音向量输入至预设的神经网络模型,得到所述语音数据与各个年龄的对应概率,所述神经网络模型用于预测语音数据对应的年龄及对应概率;
筛选出数值最大的所述对应概率对应的年龄,将该年龄判定为所述语音数据对应的年龄。
本发明实施例的第二方面提供了一种年龄识别装置,包括:
向量生成模块,用于提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到所述语音数据的第一语音向量;
年龄识别模块,用于将所述第一语音向量输入至预设的神经网络模型,得到所述语音数据与各个年龄的对应概率,所述神经网络模型用于预测语音数据对应的年龄及对应概率;
年龄筛选模块,用于筛选出数值最大的所述对应概率对应的年龄,将该年龄判定为所述语音数据对应的年龄。
本发明实施例的第三方面提供了一种终端设备,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的年龄识别方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,包括:存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的年龄识别方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:语音产生的过程可以简化为肺部产生的气流激励声带震动发出声音,而声带系数可以很好滴反映出人体声带的特征,虽然不同年龄段的人声道和发音频率各异,但是相近年龄段的人的这两个特征仍然具有一定聚类特性,因此本发明实施例通过声带系数+共振峰频率来进行预测模型的训练以及用户语音数据的处理,实现了对语音声带系数+共振峰频率两个维度的年龄聚类分析,从而保证了语音年龄识别的高效准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的年龄识别方法的实现流程示意图;
图2是本发明实施例二提供的年龄识别方法的实现流程示意图;
图3是本发明实施例三提供的年龄识别方法的实现流程示意图;
图4是本发明实施例五提供的年龄识别方法的实现流程示意图;
图5是本发明实施例六提供的年龄识别装置的结构示意图;
图6是本发明实施例七提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
为了便于理解本发明,此处先对本发明实施例进行简要说明,语音产生的过程可以简化为肺部产生的气流激励声带震动发出声音,根据实际情况可知,不同年龄段的人虽然声道特征(即声带发声后直至传出这一人体发声通道的特征)和发音频率存在差异,但年龄段相近的人,这两方面特征人具有一定的聚类特性,因此,为了实现根据语音进行年龄的识别,本发明实施例中会对语音数据从声带系数和共振峰频率两方面进行分析,即对发出语音的用户的声道和发音高低进行分析,并根据预先设定好的神经网络模型来对声带系数和共振峰频率进行处理,从而实现对基于语音的年龄识别,详述如下:
图1示出了本发明实施例一提供的年龄识别方法的实现流程图,详述如下:
S101,提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到语音数据的第一语音向量。
由于不同年龄段的人在声道特征上具有一定的聚类特性,同时,在发音频率上也会存在一定差异,因此,为了实现对语音的分析以进行年龄识别,本发明实施例会对语音数据中的声道特征以及频率特征进行分析。其中,本发明实施例以声带系数来表示声道特征,以实现对声道特征的分析,对声带系数的具体计算方法可由技术人员根据自行设定,或者参考本发明实施例四进行处理得到,对于声音频率方面,考虑到共振峰频率可以反映共振腔的物理特征,本发明实施例中会以共振峰频率为发音频率参数来进行处理,其中共振峰频率计算方法包括但不限于如谱包络提取和倒谱法提取共振峰。
在计算得到所需的声带系数及共振峰频率之后,本发明实施例会进一步地将其进行向量话处理,并进行向量合并,即将两个向量合成为一个长度为n的一维向量,其中,n为正整数。其中具体的向量化方法此处不予限定,可由技术人员根据实际需求设定,包括但不限于直接将声带系数内的数据按顺序排列,得到对应的一维向量数据。
S102,将第一语音向量输入至预设的神经网络模型,得到语音数据与各个年龄的对应概率,神经网络模型用于预测语音数据对应的年龄及对应概率。
为了实现对年龄的识别,本发明实施例会预先训练构建好基于声带系数和共振峰频率进行年龄识别的神经网络模型,并在S101得到声带系数和共振峰频率对应的语音向量之后,利用神经网络模型对语音向量进行处理,以得到语音数据可能对应的年龄以及每个可能年龄对应的概率。
S103,筛选出数值最大的对应概率对应的年龄,将该年龄判定为语音数据对应的年龄。
在确定出每个可能年龄对应的概率之后,本发明实施例会将其中概率最大的年龄作为语音数据对应的年龄,从而实现对基于语音数据的年龄识别。
语音产生的过程可以简化为肺部产生的气流激励声带震动发出声音,而声带系数可以很好滴反映出人体声带的特征,虽然不同年龄段的人声道和发音频率各异,但是相近年龄段的人的这两个特征仍然具有一定聚类特性,因此本发明实施例通过声带系数+共振峰频率来进行预测模型的训练以及用户语音数据的处理,实现了对语音声带系数+共振峰频率两个维度的年龄聚类分析,从而保证了语音年龄识别的高效准确。
作为本发明实施例二,为了保证本发明实施例一中可以正常对语音向量数据进行处理,得到对应的年龄概率,本发明实施例会在本发明实施例一之前预先基于收集到的语音样本及语音样本对应的年龄,来训练神经网络模型,如图2所示,包括:
S201,获取多个语音样本以及多个语音样本分别对应的年龄。
本发明实施例中,需要技术人员预先收集各个不同年龄/年龄段对应的语音样本数据,并为每个语音样本标记好对应的实际年龄。
S202,提取多个语音样本的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到每个语音样本分别对应的第二语音向量。
这里的向量化处理方法应当与本发明实施例一中的一致,以保证后续处理的正常执行。
S203,基于多个语音样本分别对应的第二语音向量和年龄,利用梯度下降法训练预设的神经网络模型,得到训练好的神经网络模型。
在获取到所需的样本数据之后,本发明实施例会利用梯度下降法对神经网络模型进行训练,已得到最终训练好可用的神经网络模型。其中,神经网络模型可以为keras等模型。
作为本发明实施例二中利用梯度下降法对神经网络模型进行训练的一中具体实现方式,本发明实施例中神经网络模型包括输入层、多个隐层以及输出层,如图3所示,本发明实施例三,包括:
S301,初始化输入层与隐层之间、多个隐层之间以及隐层与输出层之间的全连接矩阵。
S302,基于sigmod函数计算输入层、隐层及输出层中各个节点的输出值:
其中,Zki为第k层第i个节点的输出向量,Z(k-1)j为第k-1层第j个节点的输出向量,Z11为第二语音向量,Wkij为全连接矩阵中第k层第i个节点与第k-1层第j个节点的连接权重,bij为第k层第i个节点与第k-1层第j个节点连接对应的偏置量。
S303,基于得到的输出层节点的输出值,确定神经网络模型对每个第二语音向量的预测年龄,并根据该预测年龄与多个语音样本分别对应的年龄计算预测误差。
S304,迭代训练Wkij及bij,直至得到的预测误差小于预设误差阈值为止,完成对神经网络模型的训练。
作为本发明的另一个实施例,也可以针对每个年龄分布进行语音样本的训练,从而实现对每个年龄的独立预测,再将这些对每个不同年龄进行预测的模型封装为一个用于年龄识别的模型,即可实现输入一个语音数据,输出对应的多个可能年龄以及每个年龄对应的可能概率。
作为本发明实施例一中计算声带系数对应的向量的一种具体实现方式,本发明实施例四,包括:
对语音数据进行分帧处理,得到对应的p个语音帧x(n),设声带系数为bi,则:
其中,x(n)是分帧后的语音帧,p是总帧数,e(n)为预测误差,p为大于1的正整数。
对e(n)取期望值,并对上式进行变形,得到:
对变形得到的公式进行化简,得到对应的方程组:
使E对bi求偏导为0,得到公式:
联解化简得到的方程组以及偏导得到的公式,得到:
其中bi=[1,b2…bp+1]即声带系数对应的向量。
作为本发明实施例一或本发明实施例四中对声带系数和共振峰频率进行向量化处理的一种具体实现方式,如4所示,本发明实施例五,包括:
S401,对得到的长度为m声带系数进行n次差分,得到声带系数对应的长度为m×n的声带向量,其中,m和n均为正整数。
由于差分处理之后,可以去除数据扰动和季节性影响,利用差分后得到的数据进行模型训练可以便于查找出数据对象的规律,因此本发明实施例中会对声带系数进行差分处理,并同时将原始数据和差分后的数据放置于同一向量之中,从而保证后续分析的全面性和有效性。
S402,从共振峰频率提取基音频率以及基音频率的一倍频,得到共振峰频率对应的长度为2的基音向量。
本发明实施例中,采用共振峰频率中的基音频率及基音频率的一倍频来作为发声频率的特征参数。
S403,合并声带向量及基音向量,得到语音数据的第一语音向量。
在得到声带向量和基音向量两个向量之后,本发明实施例会直接将两个向量进行合并处理,得到对应的第一语言向量数据。由上述说明可知,为了保证预先训练的神经网络模型的正常可用,本发明实施例二和三中对语音样本数据的向量化处理,应当与本发明实施例一中相同,因此,在本发明实施例五的基础上,本发明实施例二和三也应当采用与本发明实施例相同的方法来计算语音样本的第二语音向量。
作为本发明的一个具体实施例,本发明实施例中神经网络模型包含三层隐层,其中每层隐层节点数为20,输入层节点数为41(其中声带系数长为13,对声带系数进行2次差分从而得到长度为39的声带向量,与长度为2的基音向量进行合并得到长度为41的语音向量,每个节点数与向量的一个参数相对应),输出层节点为L(L为可以预测的年龄数量)。基于上述本发明实施例二和三对神经网络模型进行训练,并基于本发明实施例四和五对所需处理的语音数据进行语音向量提取,最后利用得到的神经网络模型对提取出的语音向量进行处理,得到语音数据可能对应的年龄以及每个年龄对应的概率,最后筛选出其中概率最大的年龄即可。
应当理解地,在本发明实施例对语音数据识别的最终结果,既可以是单个确定的年龄,如20岁还是30岁,也可以是一些年龄段范围,如是18~30岁还是31~40岁等,具体是对单个年龄的识别还是对年龄段的识别,可由技术人员自行设定,并在神经网络模型训练时将每个语音样本对应的年龄设置为所需的单个年龄或者年龄段。
在本发明实施例中,通过声带系数+基音频率来进行预测模型的训练以及用户语音数据的处理,实现了对语音声带系数+共振峰频率两个维度的年龄聚类分析,从而保证了语音年龄识别的高效准确。
对应于上文实施例的方法,图5示出了本发明实施例提供的年龄识别装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。图5示例的年龄识别装置可以是前述实施例一提供的年龄识别方法的执行主体。
参照图5,该年龄识别装置包括:
第一向量生成模块51,用于提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到所述语音数据的第一语音向量。
年龄识别模块52,用于将所述第一语音向量输入至预设的神经网络模型,得到所述语音数据与各个年龄的对应概率,所述神经网络模型用于预测语音数据对应的年龄及对应概率。
年龄筛选模块53,用于筛选出数值最大的所述对应概率对应的年龄,将该年龄判定为所述语音数据对应的年龄。
进一步地,该年龄识别装置,还包括:
样本获取模块,用于获取多个语音样本以及多个所述语音样本分别对应的年龄。
第二向量生成模块,用于提取多个所述语音样本的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到每个所述语音样本分别对应的第二语音向量。
模型训练模块,用于基于所述多个语音样本分别对应的所述第二语音向量和年龄,利用梯度下降法训练预设的所述神经网络模型,得到训练好的所述神经网络模型。
进一步地,第一向量生成模块51,包括:
对所述语音数据进行分帧处理,得到对应的p个语音帧x(n),设声带系数为bi,则:
其中,x(n)是分帧后的语音帧,p是总帧数,e(n)为预测误差,p为大于1的正整数。
对e(n)取期望值,并对上式进行变形,得到:
对变形得到的公式进行化简,得到对应的方程组:
使E对bi求偏导为0,得到公式:
联解化简得到的方程组以及偏导得到的公式,得到:
其中bi=[1,b2…bp+1]即声带系数对应的向量。
进一步地,第一向量生成模块51,还包括:
对得到的长度为m声带系数进行n次差分,得到声带系数对应的长度为m×n的声带向量,其中,m和n均为正整数。
从共振峰频率提取基音频率以及基音频率的一倍频,得到共振峰频率对应的长度为2的基音向量。
合并所述声带向量及所述基音向量,得到所述语音数据的第一语音向量。
进一步地,模型训练模块,包括:
初始化所述输入层与所述隐层之间、多个所述隐层之间以及所述隐层与所述输出层之间的全连接矩阵。
基于sigmod函数计算所述输入层、所述隐层及所述输出层中各个节点的输出值:
其中,Zki为第k层第i个节点的输出向量,Z(k-1)j为第k-1层第j个节点的输出向量,Z11为所述第二语音向量,Wkij为所述全连接矩阵中第k层第i个节点与第k-1层第j个节点的连接权重,bij为第k层第i个节点与第k-1层第j个节点连接对应的偏置量。
基于得到的所述输出层节点的输出值,确定所述神经网络模型对每个所述第二语音向量的预测年龄,并根据该预测年龄与所述多个语音样本分别对应的年龄计算预测误差。
迭代训练Wkij及bij,直至得到的所述预测误差小于预设误差阈值为止,完成对所述神经网络模型的训练。
本发明实施例提供的年龄识别装置中各模块实现各自功能的过程,具体可参考前述图1所示实施例一的描述,此处不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
还应理解的是,虽然术语“第一”、“第二”等在文本中在一些本发明实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如,第一表格可以被命名为第二表格,并且类似地,第二表格可以被命名为第一表格,而不背离各种所描述的实施例的范围。第一表格和第二表格都是表格,但是它们不是同一表格。
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61,所述存储器61中存储有可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现上述各个年龄识别方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块51至53的功能。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入发送设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经发送或者将要发送的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种年龄识别方法,其特征在于,包括:
提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到所述语音数据的第一语音向量;
将所述第一语音向量输入至预设的神经网络模型,得到所述语音数据与各个年龄的对应概率,所述神经网络模型用于预测语音数据对应的年龄及对应概率;
筛选出数值最大的所述对应概率对应的年龄,将该年龄判定为所述语音数据对应的年龄。
2.如权利要求1所述的年龄识别方法,其特征在于,在所述提取语音数据的声带系数及共振峰频率之前,还包括:
获取多个语音样本以及多个所述语音样本分别对应的年龄;
提取多个所述语音样本的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到每个所述语音样本分别对应的第二语音向量;
基于所述多个语音样本分别对应的所述第二语音向量和年龄,利用梯度下降法训练预设的所述神经网络模型,得到训练好的所述神经网络模型。
3.如权利要求1所述的年龄识别方法,其特征在于,所述提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,包括:
对所述语音数据进行分帧处理,得到对应的p个语音帧x(n),设声带系数为bi,则:
其中,x(n)是分帧后的语音帧,p是总帧数,e(n)为预测误差,p为大于1的正整数;
对e(n)取期望值,并对上式进行变形,得到:
对变形得到的公式进行化简,得到对应的方程组:
使E对bi求偏导为0,得到公式:
联解化简得到的方程组以及偏导得到的公式,得到:
其中bi=[1,b2…bp+1]即声带系数对应的向量。
4.如权利要求1或3所述的年龄识别方法,其特征在于,所述提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到所述语音数据的第一语音向量,包括:
对得到的长度为m声带系数进行n次差分,得到声带系数对应的长度为m×n的声带向量,其中,m和n均为正整数;
从共振峰频率提取基音频率以及基音频率的一倍频,得到共振峰频率对应的长度为2的基音向量;
合并所述声带向量及所述基音向量,得到所述语音数据的第一语音向量。
5.如权利要求2所述的年龄识别方法,其特征在于,所述神经网络模型包括输入层、多个隐层以及输出层,所述基于所述多个语音样本分别对应的所述第二语音向量和年龄,利用梯度下降法训练预设的所述神经网络模型,得到训练好的所述神经网络模型,包括:
初始化所述输入层与所述隐层之间、多个所述隐层之间以及所述隐层与所述输出层之间的全连接矩阵;
基于sigmod函数计算所述输入层、所述隐层及所述输出层中各个节点的输出值:
其中,Zki为第k层第i个节点的输出向量,Z(k-1)j为第k-1层第j个节点的输出向量,Z11为所述第二语音向量,Wkij为所述全连接矩阵中第k层第i个节点与第k-1层第j个节点的连接权重,bij为第k层第i个节点与第k-1层第j个节点连接对应的偏置量;
基于得到的所述输出层节点的输出值,确定所述神经网络模型对每个所述第二语音向量的预测年龄,并根据该预测年龄与所述多个语音样本分别对应的年龄计算预测误差;
迭代训练Wkij及bij,直至得到的所述预测误差小于预设误差阈值为止,完成对所述神经网络模型的训练。
6.一种年龄识别装置,其特征在于,包括:
向量生成模块,用于提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到所述语音数据的第一语音向量;
年龄识别模块,用于将所述第一语音向量输入至预设的神经网络模型,得到所述语音数据与各个年龄的对应概率,所述神经网络模型用于预测语音数据对应的年龄及对应概率;
年龄筛选模块,用于筛选出数值最大的所述对应概率对应的年龄,将该年龄判定为所述语音数据对应的年龄。
7.如权利要求6所述的年龄识别装置,其特征在于,所述向量生成模块,包括:
对所述语音数据进行分帧处理,得到对应的p个语音帧x(n),设声带系数为bi,则:
其中,x(n)是分帧后的语音帧,p是总帧数,e(n)为预测误差,p为大于1的正整数;
对e(n)取期望值,并对上式进行变形,得到:
对变形得到的公式进行化简,得到对应的方程组:
使E对bi求偏导为0,得到公式:
联解化简得到的方程组以及偏导得到的公式,得到:
其中bi=[1,b2…bp+1]即声带系数对应的向量。
8.如权利要7所述的年龄识别装置,其特征在于,所述神经网络模型包括输入层、多个隐层以及输出层,所述基于所述多个语音样本分别对应的所述第二语音向量和年龄,利用梯度下降法训练预设的所述神经网络模型,得到训练好的所述神经网络模型,包括:
初始化所述输入层与所述隐层之间、多个所述隐层之间以及所述隐层与所述输出层之间的全连接矩阵;
基于sigmod函数计算所述输入层、所述隐层及所述输出层中各个节点的输出值:
其中,Zki为第k层第i个节点的输出向量,Z(k-1)j为第k-1层第j个节点的输出向量,Z11为所述第二语音向量,Wkij为所述全连接矩阵中第k层第i个节点与第k-1层第j个节点的连接权重,bij为第k层第i个节点与第k-1层第j个节点连接对应的偏置量;
基于得到的所述输出层节点的输出值,确定所述神经网络模型对每个所述第二语音向量的预测年龄,并根据该预测年龄与所述多个语音样本分别对应的年龄计算预测误差;
迭代训练Wkij及bij,直至得到的所述预测误差小于预设误差阈值为止,完成对所述神经网络模型的训练。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910076388.6A CN109817222B (zh) | 2019-01-26 | 2019-01-26 | 一种年龄识别方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910076388.6A CN109817222B (zh) | 2019-01-26 | 2019-01-26 | 一种年龄识别方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109817222A true CN109817222A (zh) | 2019-05-28 |
CN109817222B CN109817222B (zh) | 2024-02-02 |
Family
ID=66605403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910076388.6A Active CN109817222B (zh) | 2019-01-26 | 2019-01-26 | 一种年龄识别方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109817222B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619889A (zh) * | 2019-09-19 | 2019-12-27 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN110648672A (zh) * | 2019-09-05 | 2020-01-03 | 深圳追一科技有限公司 | 人物图像生成方法、交互方法、装置及终端设备 |
CN111128235A (zh) * | 2019-12-05 | 2020-05-08 | 厦门快商通科技股份有限公司 | 一种基于语音的年龄预测方法和装置以及设备 |
CN111179944A (zh) * | 2020-01-03 | 2020-05-19 | 达闼科技成都有限公司 | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 |
CN111210840A (zh) * | 2020-01-02 | 2020-05-29 | 厦门快商通科技股份有限公司 | 一种年龄预测方法和装置以及设备 |
CN111261196A (zh) * | 2020-01-17 | 2020-06-09 | 厦门快商通科技股份有限公司 | 一种年龄预估方法和装置以及设备 |
CN113782032A (zh) * | 2021-09-24 | 2021-12-10 | 广东电网有限责任公司 | 一种声纹识别方法及相关装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003122395A (ja) * | 2001-10-19 | 2003-04-25 | Asahi Kasei Corp | 音声認識システム、端末およびプログラム、並びに音声認識方法 |
JP2003330485A (ja) * | 2002-05-10 | 2003-11-19 | Tokai Rika Co Ltd | 音声認識装置、音声認識システム及び音声認識方法 |
EP2418643A1 (en) * | 2010-08-11 | 2012-02-15 | Software AG | Computer-implemented method and system for analysing digital speech data |
CN102881291A (zh) * | 2012-10-24 | 2013-01-16 | 兰州理工大学 | 语音感知哈希认证的感知哈希值提取方法及认证方法 |
US20140278379A1 (en) * | 2013-03-15 | 2014-09-18 | Google Inc. | Integration of semantic context information |
US20150127327A1 (en) * | 2013-11-01 | 2015-05-07 | Google Inc. | Context-dependent state tying using a neural network |
CN104700843A (zh) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | 一种年龄识别的方法及装置 |
CN105895087A (zh) * | 2016-03-24 | 2016-08-24 | 海信集团有限公司 | 一种语音识别方法及装置 |
US20180053514A1 (en) * | 2016-08-22 | 2018-02-22 | Disney Enterprises, Inc. | Systems and Methods for Estimating Age of a Child Based on Speech |
-
2019
- 2019-01-26 CN CN201910076388.6A patent/CN109817222B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003122395A (ja) * | 2001-10-19 | 2003-04-25 | Asahi Kasei Corp | 音声認識システム、端末およびプログラム、並びに音声認識方法 |
JP2003330485A (ja) * | 2002-05-10 | 2003-11-19 | Tokai Rika Co Ltd | 音声認識装置、音声認識システム及び音声認識方法 |
EP2418643A1 (en) * | 2010-08-11 | 2012-02-15 | Software AG | Computer-implemented method and system for analysing digital speech data |
CN102881291A (zh) * | 2012-10-24 | 2013-01-16 | 兰州理工大学 | 语音感知哈希认证的感知哈希值提取方法及认证方法 |
US20140278379A1 (en) * | 2013-03-15 | 2014-09-18 | Google Inc. | Integration of semantic context information |
US20150127327A1 (en) * | 2013-11-01 | 2015-05-07 | Google Inc. | Context-dependent state tying using a neural network |
CN104700843A (zh) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | 一种年龄识别的方法及装置 |
CN105895087A (zh) * | 2016-03-24 | 2016-08-24 | 海信集团有限公司 | 一种语音识别方法及装置 |
US20180053514A1 (en) * | 2016-08-22 | 2018-02-22 | Disney Enterprises, Inc. | Systems and Methods for Estimating Age of a Child Based on Speech |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648672A (zh) * | 2019-09-05 | 2020-01-03 | 深圳追一科技有限公司 | 人物图像生成方法、交互方法、装置及终端设备 |
CN110619889A (zh) * | 2019-09-19 | 2019-12-27 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN110619889B (zh) * | 2019-09-19 | 2022-03-15 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN111128235A (zh) * | 2019-12-05 | 2020-05-08 | 厦门快商通科技股份有限公司 | 一种基于语音的年龄预测方法和装置以及设备 |
CN111210840A (zh) * | 2020-01-02 | 2020-05-29 | 厦门快商通科技股份有限公司 | 一种年龄预测方法和装置以及设备 |
CN111179944A (zh) * | 2020-01-03 | 2020-05-19 | 达闼科技成都有限公司 | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 |
CN111179944B (zh) * | 2020-01-03 | 2022-11-08 | 达闼机器人股份有限公司 | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 |
CN111261196A (zh) * | 2020-01-17 | 2020-06-09 | 厦门快商通科技股份有限公司 | 一种年龄预估方法和装置以及设备 |
CN113782032A (zh) * | 2021-09-24 | 2021-12-10 | 广东电网有限责任公司 | 一种声纹识别方法及相关装置 |
CN113782032B (zh) * | 2021-09-24 | 2024-02-13 | 广东电网有限责任公司 | 一种声纹识别方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109817222B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817222A (zh) | 一种年龄识别方法、装置及终端设备 | |
CN109036384B (zh) | 语音识别方法和装置 | |
CN108597492B (zh) | 语音合成方法和装置 | |
US10621971B2 (en) | Method and device for extracting speech feature based on artificial intelligence | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN106575379B (zh) | 用于神经网络的改进的定点整型实现方式 | |
CN110379416A (zh) | 一种神经网络语言模型训练方法、装置、设备及存储介质 | |
CN110428842A (zh) | 语音模型训练方法、装置、设备及计算机可读存储介质 | |
CN111694940B (zh) | 一种用户报告的生成方法及终端设备 | |
CN109460514A (zh) | 用于推送信息的方法和装置 | |
CN107610707A (zh) | 一种声纹识别方法及装置 | |
CN107564513A (zh) | 语音识别方法及装置 | |
CN110781413B (zh) | 兴趣点确定方法及装置、存储介质、电子设备 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN105989849A (zh) | 一种语音增强方法、语音识别方法、聚类方法及装置 | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN107437417A (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN102982351A (zh) | 基于bp神经网络的瓷绝缘子振动声学检测数据分类方法 | |
CN109325178A (zh) | 用于处理信息的方法和装置 | |
CN113763966B (zh) | 一种端到端的文本无关声纹识别方法及系统 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
CN111061877A (zh) | 文本主题提取方法和装置 | |
CN110362744A (zh) | 阅读推荐方法及系统、终端设备、计算机设备及介质 | |
CN111402922B (zh) | 基于小样本的音频信号分类方法、装置、设备及存储介质 | |
CN107910005A (zh) | 交互文本的目标业务定位方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |