CN110619889B - 体征数据识别方法、装置、电子设备和存储介质 - Google Patents

体征数据识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110619889B
CN110619889B CN201910888847.0A CN201910888847A CN110619889B CN 110619889 B CN110619889 B CN 110619889B CN 201910888847 A CN201910888847 A CN 201910888847A CN 110619889 B CN110619889 B CN 110619889B
Authority
CN
China
Prior art keywords
age
gender
probability
maximum
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910888847.0A
Other languages
English (en)
Other versions
CN110619889A (zh
Inventor
刘文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jinsheng Communication Technology Co ltd
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Shanghai Jinsheng Communication Technology Co ltd
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jinsheng Communication Technology Co ltd, Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Shanghai Jinsheng Communication Technology Co ltd
Priority to CN201910888847.0A priority Critical patent/CN110619889B/zh
Publication of CN110619889A publication Critical patent/CN110619889A/zh
Application granted granted Critical
Publication of CN110619889B publication Critical patent/CN110619889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供了一种体征数据识别方法、装置、电子设备及存储介质,通过获取用户的语音数据;通过预先训练好的特征提取模型提取所述语音数据的性别年龄特征;通过预先训练好的分类模型确定与所述性别年龄特征对应的所述用户的性别和年龄段。可以直接从语音数据中获取与性别年龄相关的特征进行识别,并且提取到的特征数据更加细化,避免提取到的性别年龄特征丢失,提高体征数据识别的效率。

Description

体征数据识别方法、装置、电子设备和存储介质
技术领域
本申请涉及语音识别领域,特别是一种体征数据识别方法、装置、电子设备和存储介质。
背景技术
随着社会的发展,语音识别技术的使用已经越来越普遍,人们可以利用声纹、特定语音完成解锁终端、身份认证、控制设备等操作,在一些场景下,还可以通过语音识别用户的性别和年龄,现有的身份特征识别一般需要建立个性化模型或者性别、年龄识别模型的目标特征数据库,再将待识别语音与模型或数据库进行匹配。但个性化模型以及数据库的建立难以适配所有人的语音,因为目标特征的提取不够抽象,难以涵盖所有人语音特征分布。
发明内容
基于上述问题,本申请提出了基于语音的一种性别年龄识别方法,可以直接从语音数据中获取与性别年龄相关的特征进行识别,并且提取到的特征数据更加细化,避免提取到的性别年龄特征丢失,提高体征数据识别的效率。
本申请第一方面提供了一种体征数据识别方法,所述方法包括:
获取用户的语音数据;
通过预先训练好的特征提取模型提取所述语音数据的性别年龄特征;
通过预先训练好的分类模型确定与所述性别年龄特征对应的所述用户的性别和年龄段。
本申请实施例第二方面提供了一种体征数据识别装置,所述装置包括:
语音获取单元,获取用户的语音数据;
特征提取单元,用于通过预先训练好的特征提取模型提取所述语音数据的性别年龄特征;
性别年龄确定单元,用于通过预先训练好的分类模型确定与所述性别年龄特征对应的所述用户的性别和年龄段。
本申请实施例第三方面提供了一种电子设备,包括应用处理器、输入设备、输出设备和存储器,所述应用处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述应用处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
本申请实施例第四方面提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
本申请实施例第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括计算机程序,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
通过实施上述申请实施例,可以得到以下有益效果:
上述体征数据识别方法、装置、电子设备及存储介质,通过获取用户的语音数据;通过预先训练好的特征提取模型提取所述语音数据的性别年龄特征;通过预先训练好的分类模型确定与所述性别年龄特征对应的所述用户的性别和年龄段。可以直接从语音数据中获取与性别年龄相关的特征进行识别,并且提取到的特征数据更加细化,避免提取到的性别年龄特征丢失,提高体征数据识别的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的体征数据识别方法的系统构架图;
图2为本申请实施例提供的一种体征数据识别方法的流程示意图;
图3为本申请实施例提供的一种特征提取模型的结构示意图;
图4为本申请实施例提供的基于图3的子网络模块的结构示意图;
图5为本申请实施例提供的一种分类模型的结构示意图;
图6为本申请实施例提供的另一种体征数据识别方法的流程示意图;
图7为本申请实施例提供的一种体征数据识别装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备,该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
下面结合图1对本申请实施例中体征数据识别方法的系统构架做详细说明,图1为本申请实施例中体征数据识别方法的系统构架图,具体包括特征提取模型101和分类模型102,上述特征提取模型101可以基于神经网络构建,用于根据获取到的语音数据输出性别年龄特征,上述性别年龄特征为用于确定用户的性别和年龄段的相关参数,上述分类模型102同样可以基于神经网络构建,并与上述特征提取模型101连接,用于根据上述特征提取模型101输出的性别年龄特征输出识别结果,上述识别结果可以包括用户为男性还是女性,用户的年龄在什么年龄段等,也可以包括识别失败的提示信息。
通过上述系统架构,可以看出,采用双模型结构可以先通过特征提取模型提取用户的语音数据分析得到更加细化的性别年龄特征,再通过分类模型基于上述性别年龄特征输出识别的结果,由于模型都是训练好的神经网络模型,无需再将语音数据中的特征与特征数据库进行匹配,增加自动化识别的效率,且上述性别年龄特征为针对性别和年龄提取的参数,有较好的泛化能力。
下面结合图2对本申请实施例中一种体征识别方法作详细说明,图2为本申请实施例中一种体征识别方法的流程示意图,具体包括以下步骤:
步骤201,电子设备获取用户的语音数据。
其中,可以通过语音采集模块获取用户的语音数据,上述语音采集模块可以包括麦克风矩阵,本申请实施例中对采集语音数据的方式不做具体限定,上述语音数据为预设的固定时长的语音数据,如只采集每个用户5s的语音数据,可以根据不同的需求变更预设的固定时长。
可选的,上述语音采集模块可以对获取到的语音数据进行预处理,预处理可以包括预滤波、采样和量化、加窗、端点检测、预加重等,在此不做具体限定。
通过获取用户的语音数据,并进行预处理可以消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量,为后续步骤做铺垫,提高性别年龄识别的成功率。
步骤202,所述电子设备提取所述语音数据的性别年龄特征。
其中,上述性别年龄特征可以用于表示用户的性别和年龄段,可以通过预先训练好的特征提取模型提取上述语音数据的性别年龄特征,上述特征提取模型可以包括卷积核和N个子网络模块,N为大于2的正整数,每个子网络模块可以由两层全连接层组成,需要说明的是,上述语音数据会先被划分为M段音频数据,M为预设正整数,然后通过上述卷积核将上述M段音频数据转化为对应的M个特征系数,上述特征系数可以为一维向量;最后通过上述两个子网络模块对上述M个特征系数进行处理得到二维向量,上述二维向量即为上述语音数据的性别年龄特征。
具体的,举例来说,结合图3进行说明,图3为本申请实施例中一种特征提取模型的结构示意图,包括若干个卷积核,两个子网络模块以及全连接层,每个卷积核都可以处理一段音频数据,每段音频数据的信号长度为固定值,在这里设定语音数据的信号长度为5s,每段音频数据的信号长度L为50×16ms,从而可以得到100个音频数据。一个上述音频特征在输入上述特征提取模型后,先经过一层一维卷积层,设定卷积核大小K为30×16ms,步长S为1×16ms,输出通道N为100,因此第一层卷积层输出维度为N×D,其中D=(L-K)/S+1,此处可以得到D为21,并且通过对数函数对上述输出维度取绝对值再取对数,之后将处理后的输出维度输入两个子网络模块201,两个子网络模块依次输出1×D1、1×D2后,全连接层输出最终的特征系数1×D3,由于存在100个音频数据,所以最终可以整合得到100×D3的二维向量,其中,D1为第一个子网络模块输出的向量元素个数,D2为第二个子网络模块输出的向量元素个数,D3为全连接层输出的向量元素个数,上述D1、D2、D3为提前设定的参数,可以根据不同场景进行配置,在此不做具体限定,上述二维向量即为上述性别年龄特征。
进一步的,上述子网络模块的结构如图4所示,图4为本申请实施例中基于图3的子网络模块的结构示意图,每个子网络模块由两个子网络构成,两个子网络之间通过线性整流函数(Rectified Linear Unit,ReLU)进行数据处理,ReLU又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),上述子网络实质为全连接层,每一个子网络只作用于上一层输出的单个通道数据1×D,同时每一个模块中的所有子网络共享权重,需要说明的是,子网络中全连接层FC1输出的维度可以为输入维度D或D1的5倍;
根据上述设定,可以求出D为21,设定D1、D2为18、D3为300,因此每50ms的音频数据经过上述特征提取步骤可以得到一个300维的特征系数,该特征系数为一维向量,由于5s的语音数据存在100个音频数据,所以可以得到100×300的二维向量,该二维向量即为上述语音数据的性别年龄特征。
通过提取所述语音数据的性别年龄特征,并且在特征提取模型结构中增加小的子网络模块能够提取更加细粒度的抽象特征,这对语音数据中包含的年龄性别特征提取有很大帮助,且通过增大子网络模型的输出维度至输入维度D或D1的5倍,并在最后输出的时候减小输出维度至300可以降低特征提取模型的计算量。
步骤203,所述电子设备根据所述性别年龄特征确定所述用户的性别和年龄段。
其中,可以通过预先训练好的分类模型确定与上述性别年龄特征对应的上述用户的性别和年龄段。
其中,上述分类模型可以包括两个门控循环单元(Gated Recurrent Unit,GRU)、性别全连接层(Fully Connected layers,FC1)、年龄全连接层FC2、性别归一化处理Softmax层和年龄归一化处理Softmax层,通过上述两个门控循环单元GRU、上述性别全连接层FC1和上述性别Softmax层对上述性别年龄特征进行归一化确定性别概率,以及,通过上述两个门控循环单元、上述年龄全连接层FC2和上述年龄Softmax层确定年龄概率,上述性别概率包括男性概率和女性概率,上述年龄概率包括每个预设年龄段的概率,需要说明的是,特征提取模型中的子网络模块、全连接层和分类模型中的性别全连接层、年龄全连接层各自独立,并起到不同的作用;
筛选出上述男性概率和上述女性概率中数值更大的那一个作为最大性别概率,以及筛选出上述每个预设年龄段的概率中数值最大的那一个作为最大年龄概率;
判断上述最大性别概率和上述最大年龄概率是否大于预设阈值;
若是,则输出与上述最大性别概率和上述最大年龄概率对应的性别和年龄段。
具体的,结合图5进行说明,图5为本申请实施例中一种分类模型的结构示意图,需要说明的是,图5中的举例说明中用到的性别年龄特征与图3的例子保持一致。
首先将特征提取模型输出的性别年龄特征,即100×300的二维向量输入到双层GRU中,采用上述双层GRU结构可以对连续对以5s为单位的语音数据进行识别,此处的5s语音数据只是举例说明,并不代表对本申请的限定,其次经过两层GRU之后同步通过FC1和FC2,FC1加性别Softmax层根据性别年龄特征中的性别相关参数进行输出,得到男性概率和女性概率,FC2加年龄Softmax层根据性别年龄特征中的年龄相关参数进行输出,得到年龄概率,预设年龄段可以为0~10岁、10~20岁、20~30岁......以此类推确定0~100岁的10个年龄段,上述年龄概率可以为10个年龄段各自的概率,之后自动筛选出男性概率和女性概率中数值更大的作为最大性别概率,10个年龄段中数值最大的作为最大年龄概率,最后,可以预设一个预设阈值,该预设阈值用于确定识别结果是否可靠,如预设阈值可以为0.8,并根据最大性别概率与预设阈值之间的关系、最大年龄概率与预设阈值之间的关系得到不同的输出结果,具体包括以下输出结果:
当最大性别概率大于0.8时,可以判定性别识别成功,确定与该最大性别概率对应的性别作为识别结果进行输出,当最大性别概率小于或等于0.8时,可以判定性别识别失败,输出识别性别失败的提示信息;当最大年龄概率大于0.8时,可以判定年龄识别成功,确定与该最大年龄概率对应的年龄段为识别结果进行输出,当最大年龄概率小于或等于0.8时,可以判定年龄识别失败,输出年龄识别失败的提示信息。需要说明的是,在最终输出结果的时候,需要同时输出性别的判定结果和年龄的判定结果,如性别和年龄都识别成功,即输出确定的性别和年龄段;如性别识别成功,年龄识别失败,则输出确定的性别和无法识别年龄段的提示信息;如性别识别失败,年龄识别成功,则输出无法识别性别的提示信息和确定的年龄段;如性别和年龄段都识别失败,则输出无法识别性别的提示信息和无法识别年龄段的提示信息。
可选的,上述输出结果可以以音频播报、文字显示、指示灯闪烁等任意一种或者其任意组合的方式进行表示,在此不做具体限定。
通过根据所述性别年龄特征确定所述用户的性别和年龄段,可以直接从语音数据中获取与性别年龄相关的特征进行识别,并且提取到的特征数据更加细化,避免提取到的性别年龄特征丢失,提高体征数据识别的效率。
下面结合图6对本申请实施例中另一种体征数据识别方法做详细说明,图6为本申请实施例中另一种体征数据识别方法的流程示意图,具体包括以下步骤:
步骤601,电子设备获取预先训练好的特征提取模型和预先训练好的分类模型。
其中,特征提取模型和分类模型可以为需要进行训练才能进行使用的神经网络模型。
具体的,首先获取训练数据,上述训练数据包括真实性别年龄标签,上述训练数据为已经确定性别和年龄段的语音数据,上述训练数据同样是固定时长的语音数据,可以采用切换多种固定时长的语音数据对模型进行训练,使特征提取模型和分类模型能够识别多种时长的语音数据,并且可以灵活切换;
其次,在上述特征提取模型和上述分类模型中输入上述训练数据得到预测性别概率和预测年龄概率,上述特征提取模型在输入上述训练数据后可以得到预测性别年龄特征,上述分类模型根据上述预测性别年龄特征确定预测性别概率和预测年龄概率;根据上述预测性别概率、上述预测年龄概率和上述真实性别年龄标签确定性别交叉熵损失函数和年龄交叉熵损失函数;通过梯度下降算法、上述性别交叉熵损失函数和上述年龄交叉熵损失函数训练得到训练好的特征提取模型和训练好的分类模型,即上述预测性别概率和预测年龄概率的准确率达到预设训练阈值后才能认定为训练完成,否则继续训练直到训练完成为止。
通过获取预先训练好的特征提取模型和预先训练好的分类模型,可以直接通过模型来自动识别用户的性别和年龄段,并且采用预先训练对模型进行调试可以提高识别的准确率。
步骤602,所述电子设备获取用户的语音数据;
步骤603,所述电子设备提取所述语音数据的性别年龄特征;
步骤604,所述电子设备根据所述性别年龄特征确定所述用户的性别和年龄段。
通过上述步骤,可以直接从语音数据中获取与性别年龄相关的特征进行识别,并且提取到的特征数据更加细化,避免提取到的性别年龄特征丢失,提高体征数据识别的效率。
下面结合图7对本申请实施例中一种体征数据识别装置作详细说明,图7为本申请实施例中一种体征数据识别装置700的结构示意图,具体包括以下单元:
语音获取单元710,获取用户的语音数据;
特征提取单元720,用于通过预先训练好的特征提取模型提取所述语音数据的性别年龄特征;
性别年龄确定单元730,用于通过预先训练好的分类模型确定与所述性别年龄特征对应的所述用户的性别和年龄段。
在一个可能的实施例中,具体的:
所述特征提取模型包括卷积核和N个子网络模块,N为大于等于2的正整数。
进一步的,所述通过预先训练好的特征提取模型提取所述语音数据的性别年龄特征,具体的:
将所述语音数据划分为M段音频数据,M为预设正整数;
通过所述卷积核将所述M段音频数据转化为对应的M个特征系数,所述特征系数为一维向量;
通过所述两个子网络模块对所述M个特征系数进行处理得到二维向量,所述二维向量为所述语音数据的性别年龄特征。
在一个可能的实施例中,所述分类模型包括两个门控循环单元、性别全连接层、年龄全连接层、性别归一化处理层和年龄归一化处理层。
进一步的,所述通过预先训练好的分类模型确定与所述性别年龄特征对应的所述用户的性别和年龄段,具体步骤为:
通过所述两个门控循环单元、所述性别全连接层和所述性别归一化处理层对所述性别年龄特征进行归一化确定性别概率,以及,通过所述两个门控循环单元、所述年龄全连接层和所述年龄归一化处理层确定年龄概率,所述性别概率包括男性概率和女性概率,所述年龄概率包括每个预设年龄段的概率;
筛选出所述男性概率和所述女性概率中数值更大的那一个作为最大性别概率,以及筛选出所述每个预设年龄段的概率中数值最大的那一个作为最大年龄概率;
判断所述最大性别概率和所述最大年龄概率是否大于预设阈值;
若是,则输出与所述最大性别概率和所述最大年龄概率对应的性别和年龄段。
进一步的,所述判断所述最大性别概率和所述最大年龄概率是否大于预设阈值之后,若所述最大性别概率和所述最大年龄概率小于预设阈值,则发送识别失败的提示信息。
在一个可能的实施例中,所述体征识别装置还包括训练单元740,用于在获取用户的语音数据之前:
获取训练数据,所述训练数据包括真实性别年龄标签;
在所述特征提取模型和所述分类模型中输入所述训练数据得到预测性别概率和预测年龄概率;
根据所述预测性别概率、所述预测年龄概率和所述真实性别年龄标签确定性别交叉熵损失函数和年龄交叉熵损失函数;
通过梯度下降算法、所述性别交叉熵损失函数和所述年龄交叉熵损失函数训练得到训练好的特征提取模型和训练好的分类模型。
需要了解的是,上述各单元可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用以上各个单元执行对应的操作。
上述单元的具体实施方式可以参见图2、图6中的方法步骤,在此不再赘述。
通过上述体征数据识别装置,可以直接从语音数据中获取与性别年龄相关的特征进行识别,并且提取到的特征数据更加细化,避免提取到的性别年龄特征丢失,提高体征数据识别的效率。
本发明实施例还提供了一种电子设备,该电子设备可以各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
下面结合图8对本申请实施例中的电子设备进行详细说明,图8为本申请实施例公开的一种电子设备的结构示意图。如图8所示,该电子设备800包括处理器801和存储器802,其中,电子设备800还可以包括总线803,处理器801和存储器802可以通过总线803相互连接,总线803可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。总线803可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器802用于存储包含指令的一个或多个程序;处理器801用于调用存储在存储器802中的指令执行上述图2、图6中的部分或全部方法步骤。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如图2、图6中所描述的方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如图2、图6所描述的方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种体征数据识别方法,其特征在于,所述方法包括:
获取用户的语音数据;
将所述语音数据划分为信号长度相同的M段音频数据,M为正整数;
通过预先训练好的特征提取模型中的卷积核将上述M段音频数据转化为对应的M个特征系数,所述特征系数为一维向量,所述特征提取模型包括所述卷积核和N个子网络模块,N为大于2的正整数,每个子网络模块由两层全连接层组成;
通过所述N个子网络模块对所述M个特征系数进行处理得到所述语音数据的性别年龄特征,所述性别年龄特征为二维向量;
通过预先训练好的分类模型确定与所述性别年龄特征对应的所述用户的性别和年龄段。
2.根据权利要求1所述的方法,其特征在于,所述分类模型包括两个门控循环单元、性别全连接层、年龄全连接层、性别归一化处理层和年龄归一化处理层。
3.根据权利要求2所述的方法,其特征在于,所述通过所述预先训练好的分类模型确定与所述性别年龄特征对应的所述用户的性别和年龄段,包括:
通过所述两个门控循环单元、所述性别全连接层和所述性别归一化处理层对所述性别年龄特征进行归一化确定性别概率,以及,通过所述两个门控循环单元、所述年龄全连接层和所述年龄归一化处理层确定年龄概率,所述性别概率包括男性概率和女性概率,所述年龄概率包括每个预设年龄段的概率;
筛选出所述男性概率和所述女性概率中数值更大的那一个作为最大性别概率,以及筛选出所述每个预设年龄段的概率中数值最大的那一个作为最大年龄概率;
判断所述最大性别概率和所述最大年龄概率是否大于预设阈值;
若是,则输出与所述最大性别概率和所述最大年龄概率对应的性别和年龄段。
4.根据权利要求3所述的方法,其特征在于,所述判断所述最大性别概率和所述最大年龄概率是否大于预设阈值之后,所述方法还包括:
若所述最大性别概率和所述最大年龄概率小于预设阈值,则发送识别失败的提示信息。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述获取用户的语音数据之前,所述方法还包括:
获取训练数据,所述训练数据包括真实性别年龄标签;
在所述特征提取模型和所述分类模型中输入所述训练数据得到预测性别概率和预测年龄概率;
根据所述预测性别概率、所述预测年龄概率和所述真实性别年龄标签确定性别交叉熵损失函数和年龄交叉熵损失函数;
通过梯度下降算法、所述性别交叉熵损失函数和所述年龄交叉熵损失函数训练得到训练好的特征提取模型和训练好的分类模型。
6.一种体征数据识别装置,其特征在于,所述装置包括:
语音获取单元,获取用户的语音数据;
特征提取单元,用于将所述语音数据划分为信号长度相同的M段音频数据,M为正整数;通过预先训练好的特征提取模型中的卷积核将上述M段音频数据转化为对应的M个特征系数,所述特征系数为一维向量,所述特征提取模型包括所述卷积核和N个子网络模块,N为大于2的正整数,每个子网络模块由两层全连接层组成;通过所述N个子网络模块对所述M个特征系数进行处理得到所述语音数据的性别年龄特征,所述性别年龄特征为二维向量;
性别年龄确定单元,用于通过预先训练好的分类模型确定与所述性别年龄特征对应的所述用户的性别和年龄段。
7.一种电子设备,其特征在于,包括应用处理器、输入设备、输出设备和存储器,所述应用处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述应用处理器被配置用于调用所述程序指令,执行如权利要求1~5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~5任一项所述的方法。
CN201910888847.0A 2019-09-19 2019-09-19 体征数据识别方法、装置、电子设备和存储介质 Active CN110619889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910888847.0A CN110619889B (zh) 2019-09-19 2019-09-19 体征数据识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910888847.0A CN110619889B (zh) 2019-09-19 2019-09-19 体征数据识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN110619889A CN110619889A (zh) 2019-12-27
CN110619889B true CN110619889B (zh) 2022-03-15

Family

ID=68923626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910888847.0A Active CN110619889B (zh) 2019-09-19 2019-09-19 体征数据识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110619889B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179915A (zh) * 2019-12-30 2020-05-19 苏州思必驰信息科技有限公司 基于语音的年龄识别方法及装置
CN111105803A (zh) * 2019-12-30 2020-05-05 苏州思必驰信息科技有限公司 快速识别性别的方法及装置、用于识别性别的算法模型的生成方法
CN111312286A (zh) * 2020-02-12 2020-06-19 深圳壹账通智能科技有限公司 年龄识别方法、装置、设备及计算机可读存储介质
CN111243607A (zh) * 2020-03-26 2020-06-05 北京字节跳动网络技术有限公司 用于生成说话人信息的方法、装置、电子设备和介质
CN111626229A (zh) * 2020-05-29 2020-09-04 广州云从博衍智能科技有限公司 一种对象管理方法、装置、机器可读介质及设备
CN112489636A (zh) * 2020-10-15 2021-03-12 南京创维信息技术研究院有限公司 一种智能语音播报助手选择方法和系统
CN112489662A (zh) * 2020-11-13 2021-03-12 北京沃东天骏信息技术有限公司 用于训练语音处理模型的方法和装置
CN113192510B (zh) * 2020-12-29 2024-04-30 云从科技集团股份有限公司 实现语音年龄和/或性别识别服务的方法、系统及介质
CN112581942A (zh) * 2020-12-29 2021-03-30 云从科技集团股份有限公司 一种基于语音识别目标对象的方法、系统、设备及介质
CN112908312B (zh) * 2021-01-30 2022-06-24 云知声智能科技股份有限公司 一种提高唤醒性能的方法和设备
WO2023197957A1 (zh) * 2022-04-16 2023-10-19 华为技术有限公司 年龄检测方法及可穿戴设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108281138A (zh) * 2017-12-18 2018-07-13 百度在线网络技术(北京)有限公司 年龄判别模型训练及智能语音交互方法、设备及存储介质
CN108847224A (zh) * 2018-07-05 2018-11-20 广州势必可赢网络科技有限公司 一种声音墙画面显示方法及装置
CN108962223A (zh) * 2018-06-25 2018-12-07 厦门快商通信息技术有限公司 一种基于深度学习的语音性别识别方法、设备及介质
CN109243467A (zh) * 2018-11-14 2019-01-18 龙马智声(珠海)科技有限公司 声纹模型构建方法、声纹识别方法及系统
CN109817222A (zh) * 2019-01-26 2019-05-28 平安科技(深圳)有限公司 一种年龄识别方法、装置及终端设备
CN109949807A (zh) * 2019-03-13 2019-06-28 常州市贝叶斯智能科技有限公司 一种人体组分检测和分析的智能机器人交互系统及方法
CN110047516A (zh) * 2019-03-12 2019-07-23 天津大学 一种基于性别感知的语音情感识别方法
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注
CN110121110A (zh) * 2019-05-07 2019-08-13 北京奇艺世纪科技有限公司 视频质量评估方法、设备、视频处理设备及介质
CN110163187A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法
CN110192204A (zh) * 2016-11-03 2019-08-30 易享信息技术有限公司 通过多个语言任务层级处理数据的深度神经网络模型

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101189765B1 (ko) * 2008-12-23 2012-10-15 한국전자통신연구원 음성 및 영상에 기반한 성별-연령 판별방법 및 그 장치
CN110197099B (zh) * 2018-02-26 2022-10-11 腾讯科技(深圳)有限公司 跨年龄人脸识别及其模型训练的方法和装置
CN109036465B (zh) * 2018-06-28 2021-05-11 南京邮电大学 语音情感识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110192204A (zh) * 2016-11-03 2019-08-30 易享信息技术有限公司 通过多个语言任务层级处理数据的深度神经网络模型
CN108281138A (zh) * 2017-12-18 2018-07-13 百度在线网络技术(北京)有限公司 年龄判别模型训练及智能语音交互方法、设备及存储介质
CN108962223A (zh) * 2018-06-25 2018-12-07 厦门快商通信息技术有限公司 一种基于深度学习的语音性别识别方法、设备及介质
CN108847224A (zh) * 2018-07-05 2018-11-20 广州势必可赢网络科技有限公司 一种声音墙画面显示方法及装置
CN109243467A (zh) * 2018-11-14 2019-01-18 龙马智声(珠海)科技有限公司 声纹模型构建方法、声纹识别方法及系统
CN109817222A (zh) * 2019-01-26 2019-05-28 平安科技(深圳)有限公司 一种年龄识别方法、装置及终端设备
CN110047516A (zh) * 2019-03-12 2019-07-23 天津大学 一种基于性别感知的语音情感识别方法
CN109949807A (zh) * 2019-03-13 2019-06-28 常州市贝叶斯智能科技有限公司 一种人体组分检测和分析的智能机器人交互系统及方法
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注
CN110121110A (zh) * 2019-05-07 2019-08-13 北京奇艺世纪科技有限公司 视频质量评估方法、设备、视频处理设备及介质
CN110163187A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法

Also Published As

Publication number Publication date
CN110619889A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN110619889B (zh) 体征数据识别方法、装置、电子设备和存储介质
US11138903B2 (en) Method, apparatus, device and system for sign language translation
CN111667814A (zh) 一种多语种的语音合成方法及装置
CN110970018B (zh) 语音识别方法和装置
CN110610707B (zh) 语音关键词识别方法、装置、电子设备和存储介质
CN109117777A (zh) 生成信息的方法和装置
CN111583907B (zh) 信息处理方法、装置及存储介质
CN108447471A (zh) 语音识别方法及语音识别装置
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN111583919B (zh) 信息处理方法、装置及存储介质
CN108682420A (zh) 一种音视频通话方言识别方法及终端设备
CN110942763B (zh) 语音识别方法及装置
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN115273841A (zh) 语音拒识方法、装置、服务设备及存储介质
CN110136726A (zh) 一种语音性别的估计方法、装置、系统及存储介质
CN111179910A (zh) 语速识别方法和装置、服务器、计算机可读存储介质
CN115171731A (zh) 一种情绪类别确定方法、装置、设备及可读存储介质
CN113327584B (zh) 语种识别方法、装置、设备及存储介质
CN112466287B (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN107886940B (zh) 语音翻译处理方法及装置
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
CN111477212B (zh) 内容识别、模型训练、数据处理方法、系统及设备
CN116741155A (zh) 语音识别方法、语音识别模型的训练方法、装置及设备
CN115883878A (zh) 视频剪辑方法、装置、电子设备及存储介质
CN114170997A (zh) 发音技巧检测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant