CN113270115B - 婴儿监护设备及其婴儿监护方法、控制装置和存储介质 - Google Patents
婴儿监护设备及其婴儿监护方法、控制装置和存储介质 Download PDFInfo
- Publication number
- CN113270115B CN113270115B CN202010097788.8A CN202010097788A CN113270115B CN 113270115 B CN113270115 B CN 113270115B CN 202010097788 A CN202010097788 A CN 202010097788A CN 113270115 B CN113270115 B CN 113270115B
- Authority
- CN
- China
- Prior art keywords
- crying
- baby
- infant
- sound
- sound data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012544 monitoring process Methods 0.000 title claims abstract description 41
- 238000012806 monitoring device Methods 0.000 title claims abstract description 16
- 206010011469 Crying Diseases 0.000 claims abstract description 148
- 238000013528 artificial neural network Methods 0.000 claims description 55
- 230000005236 sound signal Effects 0.000 claims description 54
- 230000009467 reduction Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 235000003642 hunger Nutrition 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001795 light effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Emergency Alarm Devices (AREA)
Abstract
本发明公开了一种婴儿监护方法,该方法包括:获取环境中的声音数据;当所述声音数据中存在婴儿哭声的情况下,确定婴儿当前的啼哭原因分别归属于多个不同的啼哭原因所对应的第一概率信息;根据各所述第一概率信息生成提示信息并输出。本发明还公开了一种控制装置、婴儿监护设备和可读存储介质。本发明旨在为监护者提供准确全面的婴儿哭声分析数据,提高婴儿关护的及时性和准确性。
Description
技术领域
本发明涉及家电技术领域,尤其涉及婴儿监护方法、控制装置、婴儿监护设备和可读存储介质。
背景技术
随着科技的发展,人们需求的不断提高,家电的功能也不断多样化。其中,为了便于用户对婴儿进行监护,目前有些家电中添加有婴儿监护功能,其采集婴儿的哭声,将哭声与数据库中的样本频谱进行比对,将与哭声匹配的样本所对应的哭声诉求作为当前婴儿的诉求进行输出。然而所得到的哭声诉求分析只会有一个,由于样本的限制,输出的结果可能与婴儿的实际需求存在偏差,用户基于哭声诉求的输出结果无法对婴儿进行安抚后,便不知道该如何采取进一步的行动安抚婴儿。由此可见,当前基于婴儿哭声分析的输出结果实现婴儿监护时,分析结果具有局限性,无法为婴儿的监护者提供准确全面的婴儿哭闹分析,难以辅助监护者及时、恰当地关护婴儿。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种婴儿监护方法,旨在为监护者提供准确全面的婴儿哭声分析数据,提高婴儿关护的及时性和准确性。
为实现上述目的,本发明提供一种婴儿监护方法,所述婴儿监护方法包括以下步骤:
获取环境中的声音数据;
当所述声音数据中存在婴儿哭声的情况下,确定婴儿当前的啼哭原因分别归属于多个不同的啼哭原因所对应的第一概率信息;
根据各所述第一概率信息生成提示信息并输出。
可选地,所述确定婴儿当前的啼哭原因分别归属于多个不同的啼哭原因所对应的第一概率信息的步骤包括:
对所述婴儿哭声进行梅尔频率倒谱系数的特征提取,得到第一特征信息;
将所述第一特征信息输入用于哭声分类的第一深度神经网络;所述第一深度神经网络基于各所述啼哭原因对应的声音特征生成;
获取所述第一深度神经网络输出的结果,得到所述婴儿当前的啼哭原因分别归属于各所述啼哭原因所对应的第一概率信息。
可选地,所述根据各所述第一概率信息生成提示信息并输出的步骤之后,还包括:
获取基于各所述第一概率信息返回的校正信息;
根据所述校正信息和所述婴儿哭声,调整所述第一深度神经网络。
可选地,所述当所述声音数据中存在婴儿哭声的情况下,确定婴儿当前的啼哭原因归属于不同啼哭原因所对应的第一概率信息的步骤之前,还包括:
确定所述声音数据中包含各类型声音信号所对应的第二概率信息;
在各所述第二概率信息中,确定所述声音数据包含婴儿哭声类型的声音信号对应的第二概率信息,作为目标概率;
当所述目标概率大于或等于第一阈值时,判定所述声音数据存在婴儿哭声。
可选地,所述确定所述声音数据中包含各类型声音信号所对应的第二概率信息的步骤包括:
对所述声音数据进行梅尔频率倒谱系数的特征提取,得到第二特征信息;
将所述第二特征信息输入用于哭声识别的第二深度神经网络;所述第二深度神经网络基于多种类型声音信号对应的声音特征生成;
获取所述第二深度神经网络输出的结果,得到所述声音数据中包含各类型声音信号所对应的第二概率信息。
可选地,所述婴儿监护方法还包括:
当所述声音数据存在婴儿哭声的情况下,控制安抚装置对所述婴儿进行安抚。
可选地,所述确定所述声音数据中包含各类型声音信号所对应的第二概率信息的步骤之前,还包括:
获取婴儿监护设备产生噪声的部件的运行参数;
根据所述运行参数确定降噪参数;
按照所述降噪参数对所述声音数据进行降噪处理。
此外,为了实现上述目的,本申请还提出一种控制装置,所述控制装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的婴儿监护程序,所述婴儿监护程序被所述处理器执行时实现如上任一项所述的婴儿监护方法的步骤。
此外,为了实现上述目的,本申请还提出一种婴儿监护设备,所述婴儿监护设备包括如上所述的控制装置和安抚装置。
此外,为了实现上述目的,本申请还提出一种可读存储介质,所述可读存储介质上存储有婴儿监护程序,所述婴儿监护程序被处理器执行时实现如上任一项所述的婴儿监护方法的步骤。
本发明提出的一种婴儿监护方法,该方法当环境中的声音数据存在婴儿哭声的情况下,确定婴儿当前的啼哭原因分别归属于多个不同啼哭原因所对应的第一概率信息,根据所得到各个啼哭原因所分别对应的第一概率信息生成并输出提示信息。由于啼哭原因分析不仅仅只有一种啼哭原因的分析结果,而是得到多个啼哭原因的概率分布,基于所得到的多个第一概率信息输出提示信息,可为用户提供准确全面的婴儿哭声分析数据,用户可从提示信息中获取到准确的啼哭原因分析结果,并基于分析结果对婴儿进行及时有效的安抚,从而提高婴儿关护的及时性和准确性。
附图说明
图1是本发明的婴儿监护设备一实施例运行涉及的硬件结构示意图;
图2为本发明婴儿监护方法第一实施例的流程示意图;
图3为本发明婴儿监护方法第二实施例的流程示意图;
图4为本发明婴儿监护方法第三实施例的流程示意图;
图5为图4中步骤S01的细化流程示意图;
图6为本发明婴儿监护方法第四实施例的流程示意图;
图7为本发明婴儿监护方法第五实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取环境中的声音数据;当所述声音数据中存在婴儿哭声的情况下,确定婴儿当前的啼哭原因分别归属于多个不同的啼哭原因所对应的第一概率信息;根据各所述第一概率信息生成提示信息并输出。
由于现有技术中,基于婴儿哭声分析结果输出提示信息实现婴儿监护时,所分析结果单一具有局限性,无法为婴儿的监护者提供准确全面的婴儿哭闹分析,难以辅助监护者及时、恰当地关护婴儿。
本发明提供上述的解决方案,旨在为监护者提供准确全面的婴儿哭声分析数据,提高婴儿关护的及时性和准确性。
本发明提出一种婴儿监护设备,具体应用于对婴儿进行监护。
婴儿监护设备可具体包括控制装置100。在本发明实施例中,参照图1,控制装置100包括:处理器1001,例如CPU,存储器1002,等。存储器1002可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。
婴儿监护设备还可包括麦克风200,用于采集婴儿所在环境中的声音数据。处理器1001可与麦克风200连接,以获取麦克风200所采集的声音数据。此外,处理器1001还可与婴儿所在空间中具有声音采集功能的任意设备连接,以实现声音数据的获取。
另外,为了实现对婴儿及时的安抚,婴儿监护设备还可设有安抚装置300,安抚装置300是能对婴儿执行安抚操作(例如播放音乐、释放婴儿喜欢的气味、摇动摇篮、调整灯光效果)的设备。处理器1001与安抚装置300连接,以实现根据控制指令实现对婴儿的及时安抚。
此外,处理器1001还可与提示装置400连接,提示装置400具体用于发出提示信息,以使接收到该提示信息的监护人可及时对婴儿进行安抚。提示装置400可具体为婴儿的监护人所携带的或监护人所在空间内具有提示功能的任意装置,例如手机、电视、空调等。
本领域技术人员可以理解,图1中示出的装置结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种可读存储介质的存储器1002中可以包括婴儿监护程序。在图1所示的装置中,处理器1001与存储器1002连接,处理器1001可以用于调用存储器1002中存储的婴儿监护程序,并执行以下实施例中婴儿监护方法的相关步骤操作。
本发明还提供一种婴儿监护方法。
参照图2,提出本发明婴儿监护方法第一实施例,所述婴儿监护方法包括:
步骤S10,获取环境中的声音数据;
这里的环境指的是需要受到监护的婴儿所在空间环境。这里的声音数据指的是环境中所有类型的声音信息被麦克风采集到所形成的音频数据。声音数据可具体包括婴儿所发出的声音(如哭声、笑声等)、婴儿以外其他人员发出的声音、除人体以外其他设备(如电视、空调、风扇等)发出的声音、环境中的任意声音(如街道汽车声、风声、水声等)等等的一切声音被采集到形成的音频数据。
步骤S20,当所述声音数据中存在婴儿哭声的情况下,确定婴儿当前的啼哭原因分别归属于多个不同的啼哭原因所对应的第一概率信息;
具体的,监护者可在自行发现婴儿啼哭时输入第一指令。对第一指令进行监测,当监测到第一指令时,可判定当前采集的声音数据中存在婴儿哭声,当未监测到第一指令时,可判定当前采集的声音数据中不存在婴儿哭声。
此外,也可对声音数据进行解析,当声音数据中识别到婴儿啼哭对应的特征数据时,判定声音数据中存在婴儿哭声,当声音数据中未识别到婴儿啼哭对应的特征数据时,判定声音数据中不存在婴儿哭声。
当声音数据中存在婴儿哭声时,提取声音数据中婴儿哭声对应的特征数据。采用多个预先配置的啼哭原因所对应的预设声音特征对特征数据进行分析,得到婴儿当前啼哭原因分别归属于各个啼哭原因所对应的第一概率信息。例如,可按照预设声音特征对应的解析方式对特征数据进行解析得到当前特征数据的实际声音特征,根据各个预设声音特征与实际声音特征的匹配程度,确定婴儿当前的啼哭原因属于对应的啼哭原因的第一概率信息。此外,还可对多个啼哭原因所对应的声音样本进行采集、提取和学习,生成啼哭原因的解析模型,采用该解析模型对上述特征数据进行解析,得到婴儿当前的啼哭原因分别属于各啼哭原因的第一概率信息。
例如,这里的不同啼哭原因可根据实际情况进行设置。例如,不同啼哭可具体包括饥饿、冷热不适、想睡觉、太饱、想排泄、需要关怀、不舒服、婴儿特殊运动,以及其他根据实际情况设置的原因等。基于对婴儿当前的啼哭原因的分析,上述每个啼哭原因对应确定一个第一概率信息,从而得到多个第一概率信息。
步骤S30,根据各所述第一概率信息生成提示信息并输出。
具体的,可将多个啼哭原因以及婴儿当前啼哭原因为各个啼哭原因所对应的第一概率信息直接作为提示信息输出。此外,还可在多个第一概率信息中,确定大于或等于概率阈值的第一概率信息所对应的一个或多个啼哭原因作为备选原因,将备选原因形成提示信息进行输出或者将备选原因连同其对应的第一概率信息形成提示信息进行输出。通过语音、文字显示、图像显示等方式输出提示信息。具体的,可控制监护人所携带的提示设备或监护人所在空间内的提示设备输出提示信息。例如,可通过手机短信、应用提醒、环境中的提示设备等输出提示信息。
本发明实施例提出的一种婴儿监护方法,该方法当环境中的声音数据存在婴儿哭声的情况下,确定婴儿当前的啼哭原因分别归属于多个不同啼哭原因所对应的第一概率信息,根据所得到各个啼哭原因所分别对应的第一概率信息生成并输出提示信息。由于啼哭原因分析不仅仅只有一种啼哭原因的分析结果,而是得到多个啼哭原因的概率分布,基于所得到的多个第一概率信息输出提示信息,可为用户提供准确全面的婴儿哭声分析数据,用户可从提示信息中获取到准确的啼哭原因分析结果,并基于分析结果对婴儿进行及时有效的安抚,从而提高婴儿关护的及时性和准确性。其中,当提示信息中包括多个啼哭原因及其对应的第一概率信息时,可实现接收到的提示信息的监护人可基于提示信息中的多个发生概率实现对婴儿及时有效的监护,例如监护人先基于发生概率最大的啼哭原因对婴儿进行安抚,若该安抚无效,则可基于发生概率第二大的啼哭原因对婴儿进行安抚,从而保证即使发生概率最大的啼哭原因分析得不够准确,也可按其他啼哭原因发生概率的大小依次对婴儿进行相应的安抚措施,提高婴儿安抚的及时性和有效性。
进一步的,在第一实施例中,当所述声音数据存在婴儿哭声的情况下,除了执行上述步骤S20和步骤S30以外,还可执行步骤S40:
步骤S40,控制安抚装置对所述婴儿进行安抚。
需要说明的是,步骤S40与步骤S20和步骤S30之间执行的先后顺序并未作限定。安抚装置可根据实际情况设置有一个或多个,例如可具体包括声音装置、驱动装置、空气调节装置(温度调节、气味调节等)、灯光装置等中一个或多个。具体的,可控制安抚装置播放音乐、释放婴儿喜欢的气味、摇动摇篮、调整灯光效果等,以实现对婴儿的安抚。其中,监护人员可对安抚措施进行预先设置,可控制安抚装置按照预设的安抚措施对婴儿进行安抚。此外,还可按照第一概率信息确定安抚措施,基于所确定的安抚措施控制安抚装置对婴儿进行安抚。例如,根据第一概率信息确定概率最大的啼哭原因为想睡觉时,可控制安抚装置通过摇篮摇动的方式对婴儿进行安抚预设时长;预设时长后若当前声音数据中仍包括婴儿哭声,根据第一概率信息确定概率第二大的啼哭原因为冷热不适,则可控制安抚装置通过温度调节的方式对婴儿进行安抚。
这里,在判定婴儿啼哭时,控制安抚装置对婴儿进行安抚,可实现在监护人尚未对婴儿进行安抚时,可通过安抚装置自动对婴儿进行安抚,从而提高对婴儿安抚的及时性。
进一步的,基于第一实施例,提出本申请婴儿监护方法第二实施例。在第二实施例中,参照图3,所述步骤S20中,确定婴儿当前的啼哭原因归属于不同啼哭原因所对应的第一概率信息的步骤包括:
步骤S21,对所述婴儿哭声进行梅尔频率倒谱系数的特征提取,得到第一特征信息;
梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC),梅尔倒谱是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换,梅尔频率倒谱系数就是组成梅尔频率倒谱的系数,梅尔标度描述了人耳频率的非线性特性,可实现对声音精确的特征提取。
步骤S22,将所述第一特征信息输入用于哭声分类的第一深度神经网络;所述第一深度神经网络基于各所述啼哭原因对应的声音特征生成;
第一深度神经网络具体为用于对不同啼哭原因所对应的哭声进行分类的深度神经网络。具体的,可搜集大量婴儿哭声的哭声样本,获取专业人士的评价信息,对哭声样本进行标注,得到不同啼哭原因所对应的哭声样本,将哭声样本进行MFCC提取后得到多个啼哭原因所对应的声音特征,将多个啼哭原因所对应的声音特征输入到模型参数待定的深度神经网络进行训练,通过样本训练确定模型参数,将模型参数确定的深度神经网络作为第一深度神经网络。
步骤S23,获取所述第一深度神经网络输出的结果,得到所述婴儿当前的啼哭原因分别归属于各所述啼哭原因所对应的第一概率信息。
其中,将第一深度神经网络的softmax层(用于实现多分类)作为结果的输出层,提取softmax层的每个分类所对应的概率,便可得到婴儿当前的啼哭原因归属于不同啼哭原因所对应的第一概率信息。
例如,按照饥饿、冷热不适、想睡觉、太饱、想排泄、需要关怀、不舒服、婴儿特殊运动以及其他9个啼哭原因对搜集到的大量婴儿哭声进行分类,将分类后的声音样本进行MFCC特征提取后进行训练,得到第一深度神经网络。将当前声音数据中所存在的婴儿哭声同样进行MFCC提取后输入到该第一深度神经网络,提取第一深度神经网络的softmax层的数据作为输出的结果,便可得到婴儿当前的啼哭原因归属于9个啼哭原因中的每个原因所对应的发生概率,即得到9个第一概率信息。
在本实施例中,结合梅尔频率倒谱系数的特征提取以及基于多个啼哭原因对应的声音特征生成的第一深度神经网络,对当前声音数据中的婴儿哭声进行分析,实现对当前啼哭原因的准确解析,得到婴儿在不同啼哭原因所对应的精确的发生概率,进一步保证所输出的提示信息的准确性。
进一步的,基于上述任一实施例,提出本申请婴儿监护方法第三实施例。在第三实施例中,参照图4,所述步骤S20之前,还包括:
步骤S01,确定所述声音数据中包含各类型声音信号所对应的第二概率信息;
具体的,可预先配置各类型声音信号所对应的预设声音特征,其中各类型声音信号中包括婴儿哭声类型的声音信号以及其他类型的声音信号。采用多个预先配置的各类型的声音信号所对应的预设声音特征对声音数据进行分析,得到声音数据中包含各种各类型的声音信号所对应的第二概率信息。例如,可按照预设声音特征对应的解析方式对声音数据进行解析得到当前声音数据的实际声音特征,根据各个预设声音特征与实际声音特征的匹配程度,确定当前的声音数据中包括各种类型的声音信号所对应的第二概率信息。此外,还可对多种类型声音信号所对应的声音样本进行采集、提取和学习,生成婴儿哭声识别的解析模型,采用该解析模型对上述声音数据进行解析,得到当前的声音数据中包括各种类型的声音信号所对应的第二概率信息。
例如,这里的各类型的声音信号可根据实际情况进行设置,但必然包括婴儿哭声类型的声音信号。例如,各类型的声音信号可具体包括婴儿哭声、婴儿哭声以外的人声、电视节目声音、音乐声、街道汽车声、街道杂声、家电运行噪声等等。基于对声音数据所包括声音信号的类型的分析,上述每种类型的声音信号对应确定一个第二概率信息。
步骤S02,在各所述第二概率信息中,确定所述声音数据包含婴儿哭声类型的声音信号对应的第二概率信息,为目标概率;
具体的,在得到的多个第二概率信息中提取声音数据包含婴儿哭声类型的声音信号对应的第二概率信息,作为目标概率。
步骤S03,判断所述目标概率是否大于或等于第一阈值;
当所述目标概率大于或等于第一阈值时,执行步骤S04;当所述目标概率小于第一阈值时,执行步骤S05。其中,第一阈值可根据实际精度需求进行设置,例如可设置为70%。
步骤S04,判定所述声音数据存在婴儿哭声;
步骤S05,判定所述声音数据不存在婴儿哭声。
在本实施例中,先分析得到声音数据中包括多种类型声音信号中的每一种类型声音信号时所对应的概率形成的第二概率信息,再在多个第二概率信息中提取得到当前婴儿哭声类型的声音信号所对应的目标概率,在所得到的目标概率大于或等于第一阈值时判定声音数据存在婴儿哭声,在得到目标概率小于第一阈值时判定声音数据不存在婴儿哭声,基于婴儿哭声类型的声音信号所对应的目标概率的大小,实现对环境中出现的婴儿哭声进行及时准确的识别,从而进一步提高婴儿安抚的及时性。
具体的,在第三实施例中,参照图5,所述步骤S01包括:
步骤S011,对所述声音数据进行梅尔频率倒谱系数的特征提取,得到第二特征信息;
步骤S012,将所述第二特征信息输入用于哭声识别的第二深度神经网络;所述第二深度神经网络基于多种类型声音信号对应的声音特征生成;
第二深度神经网络具体为用于在不同类型的声音信号识别中识别到婴儿哭声的深度神经网络。具体的,可搜集大量的音频样本,音频样本中部分包括婴儿哭声的样本,对音频样本中所包括的声音信号的类型进行标注,得到不同类型的声音信号所对应的音频样本,将包含婴儿哭声类型的声音信号的各类型的音频样本进行MFCC提取,得到包含婴儿哭声类型的声音信号的各类型声音信号所对应的声音特征。在对音频样本进行MFCC提取时,可对不同类型的声音信号所对应的音频样本进行离散余弦变换、快速傅里叶变换、加窗、分帧等声学处理后,得到表征音频样本声音特征的MFCC向量。将包含婴儿哭声类型的声音信号的各类型声音信号所对应的声音特征输入到模型参数待定的深度神经网络进行训练,通过样本训练确定模型参数,将模型参数确定的深度神经网络作为第二深度神经网络。
其中,音频样本可通过人工在不同环境中采集,或者可从第三方数据服务器提供商对设备采集到人们生活中的音频数据得到。在音频样本训练前,除了对样本进行类型标注以外,还可对样本进行清洗,具体的可将样本中与需求无关的、音质达不到要求等音频进行剔除,必要时还可对音频样本进行剪裁,还可对音频样本进行转码,转为WAV或PCM格式,将清洗后的样本进行MFCC特征提取后再进行训练,从而提高第二深度神经网络进行婴儿哭声识别时的准确性。
步骤S013,获取所述第二深度神经网络输出的结果,得到所述声音数据中包含各类型声音信号所对应的第二概率信息。
其中,将第二深度神经网络的softmax层(用于实现多分类)作为结果的输出层,提取softmax层的每个分类所对应的概率,便可得到声音数据包含各类型声音信号所对应的第二概率信息。
例如,按照婴儿哭声、婴儿哭声以外的人声、电视节目声音、音乐声、街道汽车声、街道杂声、家电运行噪声以及其他8个类型对搜集到的大量音频样本进行分类,将分类后的音频样本进行MFCC特征提取后进行训练,得到第二深度神经网络。将当前声音数据同样进行MFCC提取后输入到该第二深度神经网络,提取第二深度神经网络的softmax层的数据作为输出的结果,便可得到声音数据包括8个类型的声音信号中每种类型声音信号所分别对应的第二概率信息,即得到8个第二概率信息,8个第二概率信息中之一为声音数据包含婴儿哭声类型的声音信号所对应的第二概率信息。
其中,基于第二深度神经网络的输出结果判定声音数据中包含婴儿哭声类型的声音信号后,可基于婴儿哭声类型的声音信号所对应的目标概率对声音数据中的婴儿哭声进行提取并标识,将标识有目标概率的婴儿哭声进行MFCC特征提取后输入到第一深度神经网络中,从而使第一深度神经网络基于结合目标概率对婴儿哭声进行分类,实现对婴儿当前啼哭原因在不同啼哭原因中对应的目标概率的准确分析,进一步提高协助婴儿监护的提示信息输出的准确性。
在本实施例中,结合梅尔频率倒谱系数的特征提取以及基于多种类型的声音信号所对应的声音特征生成的第二深度神经网络,对当前声音数据进行婴儿哭声识别,实现对当前环境的声音数据中所包含的声音信号的类型的准确解析,得到声音信号所包含的不同类型声音信号所对应的精确的第二概率信息,基于得到的多个第二概率信息对婴儿哭声实现准确识别。并且,基于此可实现声音数据中婴儿哭声的精确提取,基于精确提取到的婴儿哭声再进一步结合上述实施例中的第一深度神经网络分析婴儿啼哭原因,联合两个深度神经网络对声音数据进行分步解析,相较于直接基于声音数据一步分析得到唯一的婴儿的啼哭原因更为精确,从而进一步保证输出提示信息的准确性,提高婴儿安抚的及时性和有效性。
进一步的,基于上述第二或第三实施例,提出本申请婴儿监护方法第四实施例。在第四实施例中,参照图6,所述步骤S30之后,还包括:
步骤S50,获取基于各所述第一概率信息返回的校正信息;
其中,上述的多个第一概率信息及其对应的啼哭原因可通过手机应用等进行显示输出。若用户认为输出的提示信息有误,可输入校正信息。其中,校正信息可具体包括用户对婴儿进行有效安抚后所判定的婴儿的正确啼哭原因。当啼哭原因为显示的多个啼哭原因之一时,用户可通过操作手机应用等方式对其中正确啼哭原因进行选择;当啼哭原因不属于显示的多个啼哭原因中之一时,用户可通过输入自定义信息新增啼哭原因。
步骤S60,根据所述校正信息和所述婴儿哭声,调整所述第一深度神经网络。
原来的第一深度神经网络可对校正信息所包含的啼哭原因及对应的婴儿哭声进行重新学习,对模型参数甚至超参数进行优化调整后,得到新的第一深度神经网络,从而实现对第一深度神经网络进行优化。
在本实施例中,通过上述方式,每次输出提示信息后可实现对第一深度神经网络的优化调整,从而提高第一深度神经网络分析的准确性,此外,第一深度神经网络对婴儿啼哭原因的分析不再局限于神经网络预先配置的啼哭原因分类,而是可以适应于实际需求新增更多的啼哭原因,从而增加对新的啼哭原因分析的支持,提高基于第一深度神经网络对婴儿啼哭原因识别的全面性和准确性。
进一步的,基于上述第三或第四实施例,提出本申请婴儿监护方法第五实施例。在第五实施例中,参照图7,所述步骤S01之前,还包括:
步骤S201,获取婴儿监护设备产生噪声的部件的运行参数;
具体的,婴儿监护设备可具体为具有婴儿监护功能的任意电器设备,例如安装有上述麦克风和控制装置的空调器。其中,可将运行噪声可能达到预设分贝值以上的部件确定为产生噪声的部件,例如风机和压缩机等。不同的部件对应不同的运行参数,如风机的转速、压缩机的频率等。
步骤S202,根据所述运行参数确定降噪参数;
不同的运行参数对应不同的降噪参数。降噪参数可具体包括降噪的频段、降噪算法等降噪处理相关的任意参数。例如,不同的压缩机的频率对应不同的降噪频段。具体的,当压缩机频率位于第一区间时,对应的降噪频段为第一频段;当压缩机频率位于第二区间时,对应的降噪频段为第二频段;其中第一区间的频率大于第二区间的频率,第一频段的频率值大于第二频段的频率值。
步骤S203,按照所述降噪参数对所述声音数据进行降噪处理。
例如,采集到的声音数据按照预设降噪算法对上述运行参数所对应的降噪频段内的声音信息进行过滤。
在本实施例中,通过上述方式,可实现采用婴儿监护设备对婴儿实施监护时,即使婴儿监护设备中存在产生噪声的部件,也可适应于该部件的实际运行情况对声音数据进行降噪处理,避免婴儿监护设备自身所产生的噪声影响声音数据中婴儿哭声的识别以及婴儿哭声所对应的啼哭原因的分析结果,从而保证所得到的第一概率信息的准确性,进一步提高输出提示信息的准确性和有效性。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有婴儿监护程序,所述婴儿监护程序被处理器执行时实现如上婴儿监护方法任一实施例的相关步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,婴儿监护设备,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种婴儿监护方法,其特征在于,所述婴儿监护方法包括以下步骤:
获取环境中的声音数据;
当所述声音数据中存在婴儿哭声的情况下,确定婴儿当前的啼哭原因分别归属于多个不同的啼哭原因所对应的第一概率信息;
根据各所述第一概率信息生成提示信息并输出;
所述当所述声音数据中存在婴儿哭声的情况下,确定婴儿当前的啼哭原因分别归属于多个不同的啼哭原因所对应的第一概率信息的步骤之前,还包括:
确定所述声音数据中包含各类型声音信号所对应的第二概率信息;
在各所述第二概率信息中,确定所述声音数据包含婴儿哭声类型的声音信号对应的第二概率信息,作为目标概率;
当所述目标概率大于或等于第一阈值时,判定所述声音数据存在婴儿哭声。
2.如权利要求1所述的婴儿监护方法,其特征在于,所述确定婴儿当前的啼哭原因分别归属于多个不同的啼哭原因所对应的第一概率信息的步骤包括:
对所述婴儿哭声进行梅尔频率倒谱系数的特征提取,得到第一特征信息;
将所述第一特征信息输入用于哭声分类的第一深度神经网络;所述第一深度神经网络基于各所述啼哭原因对应的声音特征生成;
获取所述第一深度神经网络输出的结果,得到所述婴儿当前的啼哭原因分别归属于各所述啼哭原因所对应的第一概率信息。
3.如权利要求2所述的婴儿监护方法,其特征在于,所述根据各所述第一概率信息生成提示信息并输出的步骤之后,还包括:
获取基于各所述第一概率信息返回的校正信息;
根据所述校正信息和所述婴儿哭声,调整所述第一深度神经网络。
4.如权利要求1所述的婴儿监护方法,其特征在于,所述确定所述声音数据中包含各类型声音信号所对应的第二概率信息的步骤包括:
对所述声音数据进行梅尔频率倒谱系数的特征提取,得到第二特征信息;
将所述第二特征信息输入用于哭声识别的第二深度神经网络;所述第二深度神经网络基于多种类型声音信号对应的声音特征生成;
获取所述第二深度神经网络输出的结果,得到所述声音数据中包含各类型声音信号所对应的第二概率信息。
5.如权利要求1或4所述的婴儿监护方法,其特征在于,所述确定所述声音数据中包含各类型声音信号所对应的第二概率信息的步骤之前,还包括:
获取婴儿监护设备产生噪声的部件的运行参数;
根据所述运行参数确定降噪参数;
按照所述降噪参数对所述声音数据进行降噪处理。
6.如权利要求1至5中任一项所述的婴儿监护方法,其特征在于,所述婴儿监护方法还包括:
当所述声音数据存在婴儿哭声的情况下,控制安抚装置对所述婴儿进行安抚。
7.一种控制装置,其特征在于,所述控制装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的婴儿监护程序,所述婴儿监护程序被所述处理器执行时实现如权利要求1至6中任一项所述的婴儿监护方法的步骤。
8.一种婴儿监护设备,其特征在于,所述婴儿监护设备包括如权利要求7所述的控制装置和安抚装置。
9.一种可读存储介质,其特征在于,所述可读存储介质上存储有婴儿监护程序,所述婴儿监护程序被处理器执行时实现如权利要求1至6中任一项所述的婴儿监护方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097788.8A CN113270115B (zh) | 2020-02-17 | 2020-02-17 | 婴儿监护设备及其婴儿监护方法、控制装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097788.8A CN113270115B (zh) | 2020-02-17 | 2020-02-17 | 婴儿监护设备及其婴儿监护方法、控制装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113270115A CN113270115A (zh) | 2021-08-17 |
CN113270115B true CN113270115B (zh) | 2023-04-11 |
Family
ID=77227513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010097788.8A Active CN113270115B (zh) | 2020-02-17 | 2020-02-17 | 婴儿监护设备及其婴儿监护方法、控制装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113270115B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488077B (zh) * | 2021-09-07 | 2021-12-07 | 珠海亿智电子科技有限公司 | 真实场景下的婴儿哭声检测方法、装置及可读介质 |
CN114463937A (zh) * | 2022-03-07 | 2022-05-10 | 云知声智能科技股份有限公司 | 一种婴儿监护方法、装置、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007102505A1 (ja) * | 2006-03-06 | 2007-09-13 | Nagasaki University | 乳児の情動を判定する方法、そのための装置とプログラム |
CN103280220A (zh) * | 2013-04-25 | 2013-09-04 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
CN104347066A (zh) * | 2013-08-09 | 2015-02-11 | 盛乐信息技术(上海)有限公司 | 基于深层神经网络的婴儿啼哭声识别方法及系统 |
CN106653059A (zh) * | 2016-11-17 | 2017-05-10 | 沈晓明 | 婴儿啼哭原因的自动识别方法及其系统 |
CN106653001A (zh) * | 2016-11-17 | 2017-05-10 | 沈晓明 | 婴儿哭声的辩识方法及其系统 |
CN107564541A (zh) * | 2017-09-04 | 2018-01-09 | 南方医科大学南方医院 | 一种便携式婴儿啼哭声识别器及其识别方法 |
CN109480868A (zh) * | 2018-11-02 | 2019-03-19 | 成都中技智慧企业管理咨询有限公司 | 一种智能婴儿监护系统 |
CN110070893A (zh) * | 2019-03-25 | 2019-07-30 | 成都品果科技有限公司 | 一种利用婴儿哭声进行情感分析的系统、方法和装置 |
CN110085216A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种婴儿哭声检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI474315B (zh) * | 2012-05-25 | 2015-02-21 | Univ Nat Taiwan Normal | Infant cries analysis method and system |
-
2020
- 2020-02-17 CN CN202010097788.8A patent/CN113270115B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007102505A1 (ja) * | 2006-03-06 | 2007-09-13 | Nagasaki University | 乳児の情動を判定する方法、そのための装置とプログラム |
CN103280220A (zh) * | 2013-04-25 | 2013-09-04 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
CN104347066A (zh) * | 2013-08-09 | 2015-02-11 | 盛乐信息技术(上海)有限公司 | 基于深层神经网络的婴儿啼哭声识别方法及系统 |
CN106653059A (zh) * | 2016-11-17 | 2017-05-10 | 沈晓明 | 婴儿啼哭原因的自动识别方法及其系统 |
CN106653001A (zh) * | 2016-11-17 | 2017-05-10 | 沈晓明 | 婴儿哭声的辩识方法及其系统 |
CN107564541A (zh) * | 2017-09-04 | 2018-01-09 | 南方医科大学南方医院 | 一种便携式婴儿啼哭声识别器及其识别方法 |
CN110085216A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种婴儿哭声检测方法及装置 |
CN109480868A (zh) * | 2018-11-02 | 2019-03-19 | 成都中技智慧企业管理咨询有限公司 | 一种智能婴儿监护系统 |
CN110070893A (zh) * | 2019-03-25 | 2019-07-30 | 成都品果科技有限公司 | 一种利用婴儿哭声进行情感分析的系统、方法和装置 |
Non-Patent Citations (1)
Title |
---|
语音识别技术对新生儿疼痛与非疼痛啼哭的分类研究;汤亚南等;《临床儿科杂志》;20090315(第03期);236-238 * |
Also Published As
Publication number | Publication date |
---|---|
CN113270115A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6855527B2 (ja) | 情報を出力するための方法、及び装置 | |
US9609441B2 (en) | Smart hearing aid | |
JP4166153B2 (ja) | 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法 | |
JP2019212288A (ja) | 情報を出力するための方法、及び装置 | |
CN113270115B (zh) | 婴儿监护设备及其婴儿监护方法、控制装置和存储介质 | |
CN103943104B (zh) | 一种语音信息识别的方法及终端设备 | |
CN108346433A (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
US11763810B2 (en) | Apparatus and method for residential speaker recognition | |
JP6748965B2 (ja) | 認知機能評価装置、認知機能評価方法、およびプログラム | |
EP3940698A1 (en) | A computer-implemented method of providing data for an automated baby cry assessment | |
JP6991041B2 (ja) | 生成装置、生成方法、および生成プログラム | |
WO2019119279A1 (en) | Method and apparatus for emotion recognition from speech | |
CN110400565A (zh) | 说话人识别方法、系统及计算机可读存储介质 | |
CN106992008A (zh) | 处理方法及电子设备 | |
JP2014241498A (ja) | 番組推薦装置 | |
CN114846539A (zh) | 用于环境噪声检测、识别及管理的系统和方法 | |
CN111339881A (zh) | 基于情绪识别的宝宝成长监护方法及系统 | |
KR101941225B1 (ko) | 아기 울음소리 분석시스템, 방법 및 프로그램 | |
TWI831822B (zh) | 語音處理方法與資訊裝置 | |
CN104754110A (zh) | 一种基于机器语音对话的情感发泄方法及手机 | |
TWI753576B (zh) | 用於音訊辨識的模型建構方法 | |
CN115374305A (zh) | 智能音箱的音效调整方法及装置 | |
US11610574B2 (en) | Sound processing apparatus, system, and method | |
CN113763920B (zh) | 空调器及其语音生成方法、语音生成装置和可读存储介质 | |
JP6516805B2 (ja) | 決定装置、決定方法、及び決定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |