CN112750467A - 婴儿哭声分析方法、模型训练方法、装置和电子设备 - Google Patents
婴儿哭声分析方法、模型训练方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112750467A CN112750467A CN202110069700.6A CN202110069700A CN112750467A CN 112750467 A CN112750467 A CN 112750467A CN 202110069700 A CN202110069700 A CN 202110069700A CN 112750467 A CN112750467 A CN 112750467A
- Authority
- CN
- China
- Prior art keywords
- information
- features
- crying
- baby
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 37
- 206010011469 Crying Diseases 0.000 claims abstract description 95
- 238000003062 neural network model Methods 0.000 claims abstract description 32
- 230000033764 rhythmic process Effects 0.000 claims abstract description 31
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000006722 reduction reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000003814 drug Substances 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000001802 infusion Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000035922 thirst Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供了一种婴儿哭声分析方法、模型训练方法、装置和电子设备,包括:获取婴儿哭声信息;将所述婴儿哭声信息输入训练好的神经网络模型对所述婴儿哭声信息的声学特征和韵律特征进行分析,得到所述声学特征和所述韵律特征的分类概率,其中,所述神经网络模型通过基于所述声学特征和所述韵律特征标注好的哭声信息作为训练样本训练得到;基于所述声学特征和所述韵律特征的分类概率确定分析结果。对声学特征进行分析同时,还加入韵律特征的分析,可以在识别出婴儿的音频、音调、声音能量等特征的同时还可以识别出婴儿啼哭的节奏,进而可以多维度分析出婴儿的啼哭状态,可以较为准确的确定婴儿啼哭的原因。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种婴儿哭声分析方法、模型训练方法、装置和电子设备。
背景技术
婴儿难以表达情绪,父母对婴儿的情绪也不好感知,而婴儿的哭声有的时候会包含其想表达的意思,比如生病了、疼了、饿了、渴了等等情绪。
针对目前父母难以理解婴儿哭声的含义,以及在休息、不能实时照看孩子时,没有提醒从而引发的麻烦甚至危险等问题。而且一些哭声识别的装置不存在声音分析、或者分析结果不准确的问题。
因此,如何准确的识别婴儿哭声成为亟待解决的技术问题。
发明内容
本申请提供了一种婴儿哭声分析方法、模型训练方法、装置和电子设备,以至少解决相关技术中存在的如何准确的识别婴儿哭声的技术问题。
根据本申请实施例的一个方面,提供了一种婴儿哭声分析方法,包括:获取婴儿哭声信息;将所述婴儿哭声信息输入训练好的神经网络模型对所述婴儿哭声信息的声学特征和韵律特征进行分析,得到所述声学特征和所述韵律特征的分类概率,其中,所述神经网络模型通过基于所述声学特征和所述韵律特征标注好的哭声信息作为训练样本训练得到;基于所述声学特征和所述韵律特征的分类概率确定分析结果。
可选地,所述获取婴儿哭声信息包括:获取声音信息;对所述声音信息进行预处理得到预处理声音信息;对所述预处理声音信息进行特征分析,得到哭声信息。
可选地,所述对所述预处理声音信息进行特征分析,得到哭声信息包括:提取所述预处理声音信息的线性预测系数;基于所述线性预测系数确定所述预处理声音信息中的哭声特征信息;基于所述哭声特征信息确定哭声信息。
可选地,所述对所述声音信息进行预处理得到预处理声音信息包括:对所述声音信息进行降噪、分帧、滤波和预加重处理中的至少一种。
可选地,所述基于所述声学特征和所述韵律特征的分类概率确定分析结果包括:分别基于所述声学特征和所述韵律特征的分类概率与参考分析结果中的预设声学特征和预设韵律特征分别进行匹配,得到多个分析结果概率。
根据本申请实施例的又一个方面,还提供了一种模型训练方法,包括:获取训练样本集,所述样本集包括基于声学特征和韵律特征标注好的婴儿哭声信息;将所述训练样本集输入预设神经网络模型识别的所述训练样本集的声学特征和韵律特征;将输出的声学特征和韵律特征与标注的声学特征和韵律特征进行对比得到偏差;基于所述偏差调整所述预设神经网络模型的参数,直至完成训练。
可选地,所述获取训练样本集包括:获取声音信息;对所述声音信息进行预处理得到预处理声音信息;对所述预处理声音信息进行特征分析,得到哭声信息;对所述哭声信息的声学特征和韵律特征进行标注。
根据本申请实施例的又一个方面,还提供了一种婴儿哭声分析装置,包括:获取模块,用于获取婴儿哭声信息;识别模块,用于将所述婴儿哭声信息输入训练好的神经网络模型对所述婴儿哭声信息的声学特征和韵律特征进行分析,得到所述声学特征和所述韵律特征的分类概率,其中,所述神经网络模型通过基于所述声学特征和所述韵律特征标注好的哭声信息作为训练样本训练得到;结果分析模块,用于基于所述声学特征和所述韵律特征的分类概率确定分析结果。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。
在本申请实施例中,在获取到婴儿哭声之后,可以基于已经训练好的神经网络模型对婴儿哭声信息中的声学特征和韵律特征进行识别,分别得到声学特征和韵律特征的分类概率,在基于该分类概率与预设的基于声学特征和韵律特征确定的分析结果进行匹配,得到最终的分析结果。在对婴儿哭声进行分析时,对声学特征进行分析同时,还加入韵律特征的分析,可以在识别出婴儿的音频、音调、声音能量等特征的同时还可以识别出婴儿啼哭的节奏,进而可以多维度分析出婴儿的啼哭状态,可以较为准确的确定婴儿啼哭的原因。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种可选的婴儿哭声分析方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的婴儿哭声分析方法的流程示意图;
图3是根据本申请实施例的另一种可选的模型训练方法流程示意图;
图4是根据本申请实施例的一种可选的婴儿哭声分析装置的结构框图;
图5是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种婴儿哭声分析方法。可选地,在本实施例中,上述婴儿哭声分析方法可以应用于如图1所示的硬件环境中。如图1所示,
根据本申请实施例的一个方面,提供了一种婴儿哭声分析方法。可选地,在本实施例中,上述婴儿哭声分析方法可以应用于如图1所示的由终端102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端102进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,还可以用于处理云服务,上述网络包括但不限于:广域网、城域网或局域网,终端102并不限定于PC、手机、平板电脑等。本申请实施例的婴儿哭声分析方法可以由服务器104来执行,也可以由终端102来执行,还可以是由服务器104和终端102共同执行。其中,终端102执行本申请实施例的婴儿哭声分析方法也可以是由安装在其上的客户端来执行。
以由终端102和/或服务器104来执行本实施例中的婴儿哭声分析方法为例,图2是根据本申请实施例的一种可选的婴儿哭声分析方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S202,获取婴儿哭声信息;
步骤S204,将所述婴儿哭声信息输入训练好的神经网络模型对所述婴儿哭声信息的声学特征和韵律特征进行分析,得到所述声学特征和所述韵律特征的分类概率,其中,所述神经网络模型通过基于所述声学特征和所述韵律特征标注好的哭声信息作为训练样本训练得到;
步骤S206,基于所述声学特征和所述韵律特征的分类概率确定分析结果。
通过上述步骤S202至步骤S206,在获取到婴儿哭声之后,可以基于已经训练好的神经网络模型对婴儿哭声信息中的声学特征和韵律特征进行识别,分别得到声学特征和韵律特征的分类概率,在基于该分类概率与预设的基于声学特征和韵律特征确定的分析结果进行匹配,得到最终的分析结果。在对婴儿哭声进行分析时,对声学特征进行分析同时,还加入韵律特征的分析,可以在识别出婴儿的音频、音调、声音能量等特征的同时还可以识别出婴儿啼哭的节奏,进而可以多维度分析出婴儿的啼哭状态,以及婴儿啼哭的原因。
对于步骤S202中的技术方案,获取婴儿哭声信息。示例性的,可以基于声音采集器,在婴儿啼哭时进行声音信息的采集,在采集过程中,声音信息中可能夹杂着环境噪声、婴儿发出的其他声音等,采集的声音混有多种无效声音,因此,在采集声音之后,需要对声音进行预处理,以分离出婴儿哭声信息。
对于步骤S204中的技术方案,将所述婴儿哭声信息输入训练好的神经网络模型对所述婴儿哭声信息的声学特征和韵律特征进行分析,得到所述声学特征和所述韵律特征的分类概率。作为示例性的实施例,婴儿在啼哭时,不同状态的啼哭其哭声的频率、能量和声调等声学特征往往不同,可以基于神经网络模型识别出声学特征。发明人发现,在婴儿啼哭时,不同的状态的啼哭的节奏、停顿、音调等往往不同,通过神经网络模型识别出哭声信息中的韵律特征,即音调、或声音在时域上的变化特征,以及音调在时域上的分布等特征,可以综合声学特征和韵律特征作为婴儿啼哭状态确定的基础。其中,所述神经网络模型通过基于所述声学特征和所述韵律特征标注好的哭声信息作为训练样本训练得到。
对于步骤S206中的技术方案,在得到声学特征和韵律特征的分类概率之后,可以基于声学特征和韵律特征的分类概率,可以根据医学、护理学、健康学对婴儿哭声分析,建立婴儿哭声分析模型,其中,不同的哭声特点对应因而不同的状态,示例性的可以参见表1:
表1
其中,不同的哭声特点对应着不同的预设声学特征和预设韵律特征,因此,可以建立预设声学特征和预设韵律特征与婴儿状态的映射关系,基于神经网络模型识别得到的声学特征概率和韵律特征概率匹配预设分析模型中对应的预设声学概率和韵律特征概率,得到对应的婴儿状态。
在婴儿哭声信息获取时通常掺杂有噪音或无效声音信息,作为示例性的实施例,获取声音信息;对所述声音信息进行预处理得到预处理声音信息;对所述预处理声音信息进行特征分析,得到哭声信息。
具体的,对于声音信息预处理可以包括降噪、分帧、滤波和预加重处理中的至少一种。示例性的,对声音信息进行降噪可以设定预设的哭声频率范围将低于正常哭声频率范围的杂音和高于正常哭声频率范围的噪声都去除掉。作为示例性的实施例,以通过分帧处理,以得到稳定的声音信号,示例性的,还可以对声音信息进行滤波和预加重处理,以使声音信号尽量滤除哭声以外的其他声音,并且可以保证较为完整稳定哭声信号。
作为示例性的实施例,对于对所述预处理声音信息进行特征分析,可以提取预处理声音信息的线性预测系数,该线性预测系数可以基于对过去若干语音采样值的声学特征进行分析,确定婴儿哭声对应的语音采样值,在基于婴儿哭声采样值的线性组合进行逼近,确定婴儿哭声对应的线性预测系数,线性预测系数可以表示哭声信号自身的系数,体现哭声信号本身的特征,根据本身的特征和能量信息,判断出预处理声音信息中的哭声特征信息,并基于哭声特征信息确定哭声信息。基于哭声信号的线性预测系数可以较为准确的在才的声音信号中分离得到婴儿哭声信号。
作为示例性的实施例,不同的哭声特点对应着不同的预设声学特征和预设韵律特征,可以基于不同的预设声学特征和预设韵律特征构建参考分析结果,参见表1,在分析得到待预测的婴儿哭声对应的声学特征和所述韵律特征之后,与参考分析结果中的预设声学特征和预设韵律特征分别进行匹配,得到多个分析结果概率。示例性的,比如参考分析结果中,由a,b,c,d四种参考结果,通过声学特征和所述韵律特征的分类概率与四种结果中的声学特征和所述韵律特征的匹配得到的结果概率Pa=70%、Pb=20%、Pc=10%,那么就可以得到婴儿哭叫大概率可能是a情况,另外也可以得到b,c情况的存在概率。
作为示例性的实施例,在得到婴儿状态后,可以基于婴儿状态生成对应的推荐信息,例如,生理性啼哭可以生成推荐信息:只需轻微摇晃、安抚;病理性啼哭可以生成推荐:准备急需药物、冲泡类xxx,按摩部分,不好转则送医;身体不正常性可以生成推荐:立即送医就诊;温度不舒服可以生成推荐:添加/减少衣物、控制温度;饥饿性啼哭可以生成推荐:适合当时时间段的食物等。在对应的分析结束后,对每一个情况进行在线对应,比如出现了上述实施例中描述的a情况,那么就从库中对a对应的推荐方法进行推荐,如果加入在线或者计算能力,对a情况的文本再进行扩展,按情况进行分类,然后进行标注更加细致的推荐。另外,可以将推荐信息推荐到用户的显示终端,例如,移动终端,或用于显示推荐信息的提醒终端,利用声学模型的声音信号的特征参数分析能力,得出相应的可能概率,并在装置上显示,或是在成人休息时刻发送给成人提醒。
本发明实施例还提供了一种模型训练方法,如图3所示,该模型训练方法可以包括:
S302.获取训练样本集,所述样本集包括基于声学特征和韵律特征标注好的婴儿哭声信息。
S304.将所述训练样本集输入预设神经网络模型识别的所述训练样本集的声学特征和韵律特征;
S306.将输出的声学特征和韵律特征与标注的声学特征和韵律特征进行对比得到偏差;
S308.基于所述偏差调整所述预设神经网络模型的参数,直至完成训练。
作为示例性的实施例,声学模型,例如DNN-HMM。神经网络模型是具有很多隐层的感知机,是一种判别模型,自身具有区分性,可以更好地区分标注类别,而且本身DNN网络对环境噪声的处理要优于其他模型,对第L层,有公式:
vl=f(zl)=f(Wlvl-1+bl)
其中,vl、Wl、vl-1、bl表示第L层的输出向量,权重区镇,输入向量和偏差。f(x)为激活函数。将采集器得到的婴儿哭声信号预处理之后传入神经网络,分析出哭声信号的声学特征,通过得到的声学特征向量和韵律特征向量,如基频、能量特征、音调、节奏等。基于输出结果与标注信息的对比,对模型参数进行调整,直至输出结果的准确率大于或等于预设值,完成模型训练。
作为示例性的实施例,获取训练样本集包括:获取声音信息;对所述声音信息进行预处理得到预处理声音信息;对所述预处理声音信息进行特征分析,得到哭声信息;具体可以参见上述实施例中对于哭声信息获取的描述,在得到哭声信息的声学特征和韵律特征之后,可以对所述哭声信息的声学特征和韵律特征进行标注。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述样婴儿哭声分析方法的婴儿哭声分析装置。图4是根据本申请实施例的一种可选的婴儿哭声分析装置的示意图,如图4所示,该装置可以包括:
获取模块402,用于获取婴儿哭声信息;
识别模块406,用于将所述婴儿哭声信息输入训练好的神经网络模型对所述婴儿哭声信息的声学特征和韵律特征进行分析,得到所述声学特征和所述韵律特征的分类概率,其中,所述神经网络模型通过基于所述声学特征和所述韵律特征标注好的哭声信息作为训练样本训练得到;
结果分析模块406,用于基于所述声学特征和所述韵律特征的分类概率确定分析结果。
需要说明的是,该实施例中的获取模块402可以用于执行上述步骤S202,该实施例中的识别模块404可以用于执行上述步骤S204,该实施例中的结果分析模块406可以用于执行上述步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述婴儿哭声分析方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图5是根据本申请实施例的一种可选的电子设备的结构框图,如图5所示,包括处理器502、通信接口504、存储器506和通信总线508,其中,处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信,其中,
存储器506,用于存储计算机程序;
处理器502,用于执行存储器506上所存放的计算机程序时,实现如下步骤:
获取婴儿哭声信息;
将所述婴儿哭声信息输入训练好的神经网络模型对所述婴儿哭声信息的声学特征和韵律特征进行分析,得到所述声学特征和所述韵律特征的分类概率,其中,所述神经网络模型通过基于所述声学特征和所述韵律特征标注好的哭声信息作为训练样本训练得到;
基于所述声学特征和所述韵律特征的分类概率确定分析结果。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图5所示,上述存储器502中可以但不限于包括上述婴儿哭声分析装置中的获取模块402、识别模块404以及结果分析模块406。此外,还可以包括但不限于上述婴儿哭声分析装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述婴儿哭声分析方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,终端设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行婴儿哭声分析方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取婴儿哭声信息;
将所述婴儿哭声信息输入训练好的神经网络模型对所述婴儿哭声信息的声学特征和韵律特征进行分析,得到所述声学特征和所述韵律特征的分类概率,其中,所述神经网络模型通过基于所述声学特征和所述韵律特征标注好的哭声信息作为训练样本训练得到;
基于所述声学特征和所述韵律特征的分类概率确定分析结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种婴儿哭声分析方法,其特征在于,包括:
获取婴儿哭声信息;
将所述婴儿哭声信息输入训练好的神经网络模型对所述婴儿哭声信息的声学特征和韵律特征进行分析,得到所述声学特征和所述韵律特征的分类概率,其中,所述神经网络模型通过基于所述声学特征和所述韵律特征标注好的哭声信息作为训练样本训练得到;
基于所述声学特征和所述韵律特征的分类概率确定分析结果。
2.如权利要求1所述的分析方法,其特征在于,所述获取婴儿哭声信息包括:
获取声音信息;
对所述声音信息进行预处理得到预处理声音信息;
对所述预处理声音信息进行特征分析,得到哭声信息。
3.如权利要求2所述的分析方法,其特征在于,所述对所述预处理声音信息进行特征分析,得到哭声信息包括:
提取所述预处理声音信息的线性预测系数;
基于所述线性预测系数确定所述预处理声音信息中的哭声特征信息;
基于所述哭声特征信息确定哭声信息。
4.如权利要求2所述的分析方法,其特征在于,所述对所述声音信息进行预处理得到预处理声音信息包括:
对所述声音信息进行降噪、分帧、滤波和预加重处理中的至少一种。
5.如权利要求1所述的分析方法,其特征在于,所述基于所述声学特征和所述韵律特征的分类概率确定分析结果包括:
分别基于所述声学特征和所述韵律特征的分类概率与参考分析结果中的预设声学特征和预设韵律特征分别进行匹配,得到多个分析结果概率。
6.一种模型训练方法,其特征在于,包括:
获取训练样本集,所述样本集包括基于声学特征和韵律特征标注好的婴儿哭声信息;
将所述训练样本集输入预设神经网络模型识别的所述训练样本集的声学特征和韵律特征;
将输出的声学特征和韵律特征与标注的声学特征和韵律特征进行对比得到偏差;
基于所述偏差调整所述预设神经网络模型的参数,直至完成训练。
7.如权利要求6所述的模型训练方法,其特征在于,所述获取训练样本集包括:
获取声音信息;
对所述声音信息进行预处理得到预处理声音信息;
对所述预处理声音信息进行特征分析,得到哭声信息;
对所述哭声信息的声学特征和韵律特征进行标注。
8.一种婴儿哭声分析装置,其特征在于,包括:
获取模块,用于获取婴儿哭声信息;
识别模块,用于将所述婴儿哭声信息输入训练好的神经网络模型对所述婴儿哭声信息的声学特征和韵律特征进行分析,得到所述声学特征和所述韵律特征的分类概率,其中,所述神经网络模型通过基于所述声学特征和所述韵律特征标注好的哭声信息作为训练样本训练得到;
结果分析模块,用于基于所述声学特征和所述韵律特征的分类概率确定分析结果。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至5中任一项所述的婴儿哭声分析方法步骤和/或如权利要求6或7所述的模型训练方法步骤。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至5中任一项所述的婴儿哭声分析方法步骤和/或如权利要求6或7所述的模型训练方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069700.6A CN112750467A (zh) | 2021-01-19 | 2021-01-19 | 婴儿哭声分析方法、模型训练方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069700.6A CN112750467A (zh) | 2021-01-19 | 2021-01-19 | 婴儿哭声分析方法、模型训练方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112750467A true CN112750467A (zh) | 2021-05-04 |
Family
ID=75652525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110069700.6A Pending CN112750467A (zh) | 2021-01-19 | 2021-01-19 | 婴儿哭声分析方法、模型训练方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750467A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI795304B (zh) * | 2022-06-06 | 2023-03-01 | 中華學校財團法人中華科技大學 | 嬰聲遙控智能輔助育嬰收納櫃 |
CN116935861A (zh) * | 2023-08-10 | 2023-10-24 | 广州番禺职业技术学院 | 一种用于婴儿啼哭的哭声检测方法、系统及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014167570A1 (en) * | 2013-04-10 | 2014-10-16 | Technologies For Voice Interface | System and method for extracting and using prosody features |
CN106653059A (zh) * | 2016-11-17 | 2017-05-10 | 沈晓明 | 婴儿啼哭原因的自动识别方法及其系统 |
CN107767874A (zh) * | 2017-09-04 | 2018-03-06 | 南方医科大学南方医院 | 一种婴儿啼哭声识别提示方法及系统 |
US20180239967A1 (en) * | 2015-06-12 | 2018-08-23 | Google Llc | Method and system for detecting an audio event for smart home devices |
CN111862991A (zh) * | 2019-04-30 | 2020-10-30 | 杭州海康威视数字技术股份有限公司 | 一种婴儿哭声的识别方法及系统 |
CN111916107A (zh) * | 2020-07-14 | 2020-11-10 | 普联技术有限公司 | 一种音频分类模型的训练方法、音频的分类方法及装置 |
-
2021
- 2021-01-19 CN CN202110069700.6A patent/CN112750467A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014167570A1 (en) * | 2013-04-10 | 2014-10-16 | Technologies For Voice Interface | System and method for extracting and using prosody features |
US20180239967A1 (en) * | 2015-06-12 | 2018-08-23 | Google Llc | Method and system for detecting an audio event for smart home devices |
CN106653059A (zh) * | 2016-11-17 | 2017-05-10 | 沈晓明 | 婴儿啼哭原因的自动识别方法及其系统 |
CN107767874A (zh) * | 2017-09-04 | 2018-03-06 | 南方医科大学南方医院 | 一种婴儿啼哭声识别提示方法及系统 |
CN111862991A (zh) * | 2019-04-30 | 2020-10-30 | 杭州海康威视数字技术股份有限公司 | 一种婴儿哭声的识别方法及系统 |
CN111916107A (zh) * | 2020-07-14 | 2020-11-10 | 普联技术有限公司 | 一种音频分类模型的训练方法、音频的分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
李敏等: "《信号分析与处理的软硬件实现 第2版》", 大连海事大学出版社, pages: 228 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI795304B (zh) * | 2022-06-06 | 2023-03-01 | 中華學校財團法人中華科技大學 | 嬰聲遙控智能輔助育嬰收納櫃 |
CN116935861A (zh) * | 2023-08-10 | 2023-10-24 | 广州番禺职业技术学院 | 一种用于婴儿啼哭的哭声检测方法、系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11226673B2 (en) | Affective interaction systems, devices, and methods based on affective computing user interface | |
CN111680159B (zh) | 数据处理方法、装置及电子设备 | |
US20170368683A1 (en) | User portrait based skill package recommendation device and method | |
CN107833603B (zh) | 电子病历文档分类方法、装置、电子设备及存储介质 | |
KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
CN106650261A (zh) | 智能问诊方法、装置和系统 | |
CN108197592B (zh) | 信息获取方法和装置 | |
CN106991115A (zh) | 向用户提供经适配的学习信息的方法和设备 | |
CN108108743A (zh) | 异常用户识别方法和用于识别异常用户的装置 | |
CN112750467A (zh) | 婴儿哭声分析方法、模型训练方法、装置和电子设备 | |
CN113611405A (zh) | 一种体检项目推荐方法、装置、设备及介质 | |
CN112069315A (zh) | 提取文本多维度信息方法、装置、服务器及存储介质 | |
CN115526166A (zh) | 一种图文情感推断方法、系统、存储介质及设备 | |
CN113705792A (zh) | 基于深度学习模型的个性化推荐方法、装置、设备及介质 | |
CN116543798A (zh) | 基于多分类器的情感识别方法和装置、电子设备、介质 | |
CN116741396A (zh) | 文章归类方法和装置、电子设备和存储介质 | |
CN116469547A (zh) | 一种基于在线问诊人机交互的患者需求分析方法及系统 | |
CN113436650B (zh) | 婴儿哭声识别方法、装置、电子设备及存储介质 | |
CN115438246A (zh) | 内容评测方法、装置、存储介质以及电子设备 | |
CN112464087B (zh) | 推荐概率的输出方法及装置、存储介质、电子设备 | |
CN114267324A (zh) | 语音生成方法、装置、设备和存储介质 | |
CN115408599A (zh) | 信息推荐方法、装置、电子设备及计算机可读存储介质 | |
CN113763934A (zh) | 音频识别模型的训练方法、装置和存储介质及电子设备 | |
CN113536111A (zh) | 保险知识内容的推荐方法、装置和终端设备 | |
CN112911334A (zh) | 基于音视频数据的情绪识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210504 |