CN109065034B - 一种基于声音特征识别的婴儿哭声翻译方法 - Google Patents

一种基于声音特征识别的婴儿哭声翻译方法 Download PDF

Info

Publication number
CN109065034B
CN109065034B CN201811114781.1A CN201811114781A CN109065034B CN 109065034 B CN109065034 B CN 109065034B CN 201811114781 A CN201811114781 A CN 201811114781A CN 109065034 B CN109065034 B CN 109065034B
Authority
CN
China
Prior art keywords
crying
sound
frequency
infant
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811114781.1A
Other languages
English (en)
Other versions
CN109065034A (zh
Inventor
邓小伟
聂彦合
叶广课
韩明君
殷帅军
王勋龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201811114781.1A priority Critical patent/CN109065034B/zh
Publication of CN109065034A publication Critical patent/CN109065034A/zh
Application granted granted Critical
Publication of CN109065034B publication Critical patent/CN109065034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种基于声音特征识别的婴儿哭声翻译方法,依据婴儿在不同生理状态下啼哭的声音特征差异,利用计算机声音处理技术,分别提取婴儿在不同生理状态下啼哭声音特征参数:音色、音调、响度、能量、频率和频率共生矩阵的11个特征参数,总共的16个特征参数;通过BP神经网络算法,对婴儿在不同生理状态下啼哭声音片段进行采集,对声音片段降噪和滤波后再建立婴儿啼哭声音特征差异与饥饿、瞌睡、疼痛、无聊、恐惧、不适六种生理状态之间的对应关系,并给出识别结果为:饥饿、瞌睡、疼痛、无聊、恐惧、不适。在训练BP神经网络中,输入任何一段婴儿哭声声音片段中提取的特征参数,即可从输出层得到识别的结果,提高婴儿护理的质量与效率,减少婴儿护理中的误判和延判。

Description

一种基于声音特征识别的婴儿哭声翻译方法
技术领域
本发明涉及声音识别技术领域,特别是一种基于声音特征识别的婴儿哭声翻译方法。
背景技术
传统婴幼儿陪护过程中,由于婴儿尚未具备语言能力,其生理需求和情感表达主要依靠陪护人的观察婴儿的表情、表观现象及体感特征等经验判断。这种方法在一定程度上依赖于看护人的经验丰富程度,但年轻父母或其他看护人很少接受专业培训,而造成经验不足或不尽相同、且没有相对统一的参考标准。这种传统的经验式判断存在以下弊端:1.由于看护人未及时掌握婴儿生理或心理需求,使得看护质量下降,效率不高;2.由于看护人误判、延判,造成婴儿的医疗、救治不及时。
发明内容
本发明的目的是要解决现有技术中存在的不足,提供一种基于声音特征识别的婴儿哭声翻译方法,通过对婴儿哭声的特征提取与分析和神经网络训练,可以识别婴儿在不同生理状态下的声音反应,并反馈为饥饿、瞌睡、疼痛、无聊、恐惧、不适六种状态,可以协助人们对婴儿的反应做出判断,提高婴儿护理的科学性和可靠性。
为达到上述目的,本发明是按照以下技术方案实施的:
一种基于声音特征识别的婴儿哭声翻译方法,包括以下步骤:
步骤一、采用一个精密声级拾音器采集婴儿哭声的声音片段,并对采集的所有婴儿哭声的声音片段进行前处理,所述前处理包括对所有婴儿哭声的声音片段的语音降噪、滤波消噪;
步骤二、将经前处理的婴儿哭声的声音片段经A/D采样后存储于计算机,通过计算机对经前处理的婴儿哭声的声音片段再次进行滤波和降噪处理;
步骤三、对步骤二处理过的婴儿哭声的声音片段提取音色、音调、响度、能量、频率共5个特征参数特征参数和频率共生矩阵,共生矩阵的特征参数包括对比度、相关、逆差距、能量、中值、协方差、反差、差异性、二阶矩、熵、自相关共11个特征参数;
步骤四、通过主成分分析法对提取的音色、音调、响度、能量、频率的特征参数和频率共生矩阵的特征参数进行降维处理;
步骤五、选取降维处理后的婴儿哭声的声音片段的音色、音调、响度、能量、频率的特征参数用于输入BP神经网络的输入层,输出层神经元的个数为6,设定隐含层神经元的个数为4;设定BP神经网络最大训练次数为60000次,使最小均方差为0.0001;设定输入层的转换函数为tansig、输出层的转换函数为purelin、BP神经网络的训练函数为traingdm,权值和阈值的学习函数为learngdm;在输出层中分别表示如下:饥饿[1 0 0 0 0 0]、瞌睡[0 10 0 0 0]、疼痛[0 0 1 0 0 0]、无聊[0 0 0 1 0 0]、恐惧[0 0 0 0 1 0]、不适[0 0 0 0 01],然后开始对BP神经网络进行训练;
步骤六、BP神经网络训练完成后,将待识别的婴儿哭声的声音片段的降维处理后的声音片段的音色、音调、响度、能量、频率的特征参数输入到训练好的BP神经网络中,输出层得到婴儿哭声的声音识别。
进一步的技术方案为,所述步骤一中,所述精密声级拾音器放置于婴儿嘴部上方10cm处,采集1s时长的婴儿哭声的声音片段。
进一步的技术方案为,所述步骤四中降维处理具体为:采用db5小波对声音片段进行4层分解,得到16个等分的频率段,然后求出每个频率段的能量,然后将各段声音信号能量归一化后构成特征向量,该特征向量可表示为:
式中,E1,E2,……,E13,E14为每个频率段能量,E为信号总能量。
进一步的技术方案为,所述步骤五中,分别用[1 0 0 0 0]、[0 1 0 0 0]、[0 0 10 0]、[0 0 0 1 0]和[0 0 0 0 1]来表示降维后的每段婴儿哭声的的声音片段的音色、音调、响度、能量、频率的特征参数。
与现有技术相比,本发明依据婴儿在不同生理状态下啼哭的声音特征差异,利用计算机声音处理技术,分别提取婴儿在不同生理状态下啼哭声音特征参数:音色、音调、响度、能量、频率和频率共生矩阵的11个特征参数,总共的16个特征参数。通过BP神经网络算法,对婴儿在不同生理状态下啼哭声音片段进行采集,对声音片段降噪和滤波后再建立婴儿啼哭声音特征差异与饥饿、瞌睡、疼痛、无聊、恐惧、不适六种生理状态之间的对应关系,并给出识别结果为:饥饿、瞌睡、疼痛、无聊、恐惧、不适。在训练BP神经网络中,输入任何一段婴儿哭声声音片段中提取的特征参数,即可从输出层得到识别的结果,提高婴儿护理的质量与效率,减少婴儿护理中的误判和延判。
附图说明
图1为本发明的流程图。
图2 为BP神经网络结构图。
图3为多元神经单层神经网络示意图。
具体实施方式
下面结合具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
如图1所示,本实施例的一种基于声音特征识别的婴儿哭声翻译方法,具体步骤如下所示:
可以采用一个手持式的精密声级拾音器放置于婴儿嘴部上方10cm处,采集1s时长的婴儿哭声的声音片段,并对采集的所有婴儿哭声的声音片段进行前处理,所述前处理包括采用MINI DSP音频处理器,DSP语音降噪算法,LD-2L滤波消噪电流声抗干扰器对所有婴儿哭声的声音片段的语音降噪、滤波消噪。
这些声音信号在输入BP神经网络前需经分析处理,以获取利于识别的有效特征,这是决定BP网络输入层节点数和网络识别精度的关键。前面采集并存储于计算机的声音是离散的时域信号,可对婴儿啼哭产生的声音的进行频谱等特征分析,以提取相关的特征参数,从而建立婴儿啼哭声音特征差异与饥饿、瞌睡、疼痛、无聊、恐惧、不适六种生理状态之间的对应关系。
进一步,将经前处理的婴儿哭声的声音片段经A/D采样后存储于计算机,通过计算机对经前处理的婴儿哭声的声音片段再次进行滤波和降噪处理。
进一步,对处理过的婴儿哭声的声音片段提取音色、音调、响度、能量、频率共5个特征参数特征参数和频率共生矩阵,共生矩阵的特征参数包括对比度、相关、逆差距、能量、中值、协方差、反差、差异性、二阶矩、熵、自相关共11个特征参数。
进一步,由于不同婴儿啼哭的声音信号的功率谱不同,通过主成分分析法对提取的音色、音调、响度、能量、频率的特征参数和频率共生矩阵的特征参数进行降维处理,具体方法为:采用db5小波对婴儿哭声的声音片段进行4层分解,得到16个等分的频率段,然后求出每个频率段的能量,然后将各段声音信号能量归一化后构成特征向量,该特征向量可表示为:
式中,E1,E2,……,E13,E14为每个频率段能量,E为信号总能量。
BP神经网络是采用误差反向传播算法的多层前馈神经网络,它包含输入层、输出层和一个或多个隐层,如图3所示。各层神经元仅与相邻层神经元之间相互全连接,同层神经元之间无连接。输入信号从输入层节点(神经元)依次传过各隐层节点,再传到输出节点,每一层节点的输出只影响下一层节点的输出,然后按照误差减少的原则,从输出层经隐层向输入层逐层修正权值,这种逆向误差传播修正不断进行,直到达到所要求的学习目标。
进一步,构建BP神经网络,包含输入层节点数、输出层节点数和网络层数的确定。其中输入层节点数和输出层节点数是由实际问题本身决定的。如图2所示,选取降维处理后的声音片段的5个主成分特征参数:音色、音调、响度、能量、频率的特征参数用于输入BP神经网络的输入层,分别用[1 0 0 0 0]、[0 1 0 0 0]、[0 0 1 0 0]、[0 0 0 1 0]和[0 0 00 1]来表示降维后的每段声音的音色、音调、响度、能量、频率的特征信号,输出层神经元的个数为6,设定隐含层神经元的个数为4;设定BP神经网络最大训练次数为60000次,使最小均方差为0.0001;设定输入层的转换函数为tansig、输出层的转换函数为purelin、BP神经网络的训练函数为traingdm,权值和阈值的学习函数为learngdm;在输出层中分别表示如下:饥饿[1 0 0 0 0 0]、瞌睡[0 1 0 0 0 0]、疼痛[0 0 1 0 0 0]、无聊[0 0 0 1 0 0]、恐惧[0 0 0 0 1 0]、不适[0 0 0 0 0 1],然后开始对BP神经网络进行训练。
进一步,BP神经网络训练完成后,将待识别的婴儿哭声的声音片段的降维处理后的声音片段的音色、音调、响度、能量、频率的特征参数输入到训练好的BP神经网络中,输出层得到婴儿哭声的声音识别,从而就判断出婴儿所表达的是饥饿、瞌睡、疼痛、无聊、恐惧、不适中具体的一种状态。
为了进一步验证本实施例的可行性,BP神经网络训练完成后,选取另外的待识别的待识别的20个婴儿哭声的声音片段,将每个试样的5个主成分特征参数输入到训练好的BP神经网络中,即得到如表1的输出结果。
表1 BP神经网络测试结果
从表1中可以看出,将待识别的降维处理后的婴儿哭声的声音片段的音色、音调、响度、能量、频率的特征参数输入到训练好的BP神经网络中,可以快速识别出婴儿所表达的具体是饥饿、瞌睡、疼痛、无聊、恐惧、不适中具体的一种状态。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。

Claims (3)

1.一种基于声音特征识别的婴儿哭声翻译方法,其特征在于,包括以下步骤:
步骤一、采用一个精密声级拾音器采集婴儿哭声的声音片段,并对采集的所有婴儿哭声的声音片段进行前处理,所述前处理包括对所有婴儿哭声的声音片段的语音降噪、滤波消噪;
步骤二、将经前处理的婴儿哭声的声音片段经A/D采样后存储于计算机,通过计算机对经前处理的婴儿哭声的声音片段再次进行滤波和降噪处理;
步骤三、对步骤二处理过的婴儿哭声的声音片段提取音色、音调、响度、能量、频率共5个特征参数特征参数和频率共生矩阵,共生矩阵的特征参数包括对比度、相关、逆差距、能量、中值、协方差、反差、差异性、二阶矩、熵、自相关共11个特征参数;
步骤四、通过主成分分析法对提取的音色、音调、响度、能量、频率的特征参数和频率共生矩阵的特征参数进行降维处理,降维处理具体为:采用db5小波对声音片段进行4层分解,得到16个等分的频率段,然后求出每个频率段的能量,然后将各段声音信号能量归一化后构成特征向量,该特征向量可表示为:
式中,E1,E2,……,E13,E14为每个频率段能量,E为信号总能量;
步骤五、选取降维处理后的婴儿哭声的声音片段的音色、音调、响度、能量、频率的特征参数用于输入BP神经网络的输入层,输出层神经元的个数为6,设定隐含层神经元的个数为4;设定BP神经网络最大训练次数为60000次,使最小均方差为0.0001;设定输入层的转换函数为tansig、输出层的转换函数为purelin、BP神经网络的训练函数为traingdm,权值和阈值的学习函数为learngdm;在输出层中分别表示如下:饥饿[100000]、瞌睡[010000]、疼痛[001000]、无聊[000100]、恐惧[000010]、不适[000001],然后开始对BP神经网络进行训练;
步骤六、BP神经网络训练完成后,将待识别的婴儿哭声的声音片段的降维处理后的声音片段的音色、音调、响度、能量、频率的特征参数输入到训练好的BP神经网络中,输出层得到婴儿哭声的声音识别。
2.根据权利要求1所述的基于声音特征识别的婴儿哭声翻译方法,其特征在于:所述步骤一中,所述精密声级拾音器放置于婴儿嘴部上方10cm处,采集1s时长的婴儿哭声的声音片段。
3.根据权利要求1所述的基于声音特征识别的婴儿哭声翻译方法,其特征在于:所述步骤五中,分别用[10000]、[01000]、[00100]、[00010]和[00001]来表示降维后的每段婴儿哭声的的声音片段的音色、音调、响度、能量、频率的特征参数。
CN201811114781.1A 2018-09-25 2018-09-25 一种基于声音特征识别的婴儿哭声翻译方法 Active CN109065034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811114781.1A CN109065034B (zh) 2018-09-25 2018-09-25 一种基于声音特征识别的婴儿哭声翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811114781.1A CN109065034B (zh) 2018-09-25 2018-09-25 一种基于声音特征识别的婴儿哭声翻译方法

Publications (2)

Publication Number Publication Date
CN109065034A CN109065034A (zh) 2018-12-21
CN109065034B true CN109065034B (zh) 2023-09-08

Family

ID=64762456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811114781.1A Active CN109065034B (zh) 2018-09-25 2018-09-25 一种基于声音特征识别的婴儿哭声翻译方法

Country Status (1)

Country Link
CN (1) CN109065034B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070893A (zh) * 2019-03-25 2019-07-30 成都品果科技有限公司 一种利用婴儿哭声进行情感分析的系统、方法和装置
CN109979436B (zh) * 2019-04-12 2020-11-13 南京工程学院 一种基于频谱自适应法的bp神经网络语音识别系统及方法
CN110897428A (zh) * 2019-11-29 2020-03-24 京东方科技集团股份有限公司 智能婴儿床及其监控方法
CN112967733B (zh) * 2021-02-26 2023-08-08 武汉星巡智能科技有限公司 智能识别婴儿哭声类别的方法及装置
CN113436650B (zh) * 2021-08-25 2021-11-16 深圳市北科瑞声科技股份有限公司 婴儿哭声识别方法、装置、电子设备及存储介质
CN116825115A (zh) * 2023-08-10 2023-09-29 广州番禺职业技术学院 一种婴儿哭声识别方法、系统及装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5859925A (en) * 1995-08-08 1999-01-12 Apple Computer, Inc. Classifying system having a single neural network architecture for multiple input representations
CN1564245A (zh) * 2004-04-20 2005-01-12 上海上悦通讯技术有限公司 婴儿哭声解读方法与装置
JP2006084630A (ja) * 2004-09-15 2006-03-30 Meiji Univ 乳幼児の音声解析システム
CN2847456Y (zh) * 2005-10-08 2006-12-13 陈财明 婴儿哭声分析器
WO2007102505A1 (ja) * 2006-03-06 2007-09-13 Nagasaki University 乳児の情動を判定する方法、そのための装置とプログラム
KR20110113359A (ko) * 2010-04-09 2011-10-17 계명대학교 산학협력단 진동수 및 지속 패턴을 이용한 아기 울음소리 감지 방법 및 장치
CN103280220A (zh) * 2013-04-25 2013-09-04 北京大学深圳研究生院 一种实时的婴儿啼哭声识别方法
CN103426438A (zh) * 2012-05-25 2013-12-04 洪荣昭 婴儿哭声分析方法及系统
CN104347066A (zh) * 2013-08-09 2015-02-11 盛乐信息技术(上海)有限公司 基于深层神经网络的婴儿啼哭声识别方法及系统
CN104882144A (zh) * 2015-05-06 2015-09-02 福州大学 基于声谱图双特征的动物声音识别方法
CN105938564A (zh) * 2016-04-29 2016-09-14 无锡中科智能农业发展有限责任公司 基于主成分分析和神经网络的水稻病害识别方法及系统
WO2016155047A1 (zh) * 2015-03-30 2016-10-06 福州大学 低信噪比声场景下声音事件的识别方法
CN106653001A (zh) * 2016-11-17 2017-05-10 沈晓明 婴儿哭声的辩识方法及其系统
CN107133612A (zh) * 2017-06-06 2017-09-05 河海大学常州校区 基于图像处理与语音识别技术的智能病房及其运行方法
CN107657963A (zh) * 2016-07-25 2018-02-02 韦创科技有限公司 哭声辨识系统与哭声辨识方法
CN107818779A (zh) * 2017-09-15 2018-03-20 北京理工大学 一种婴幼儿啼哭声检测方法、装置、设备及介质
CN107886953A (zh) * 2017-11-27 2018-04-06 四川长虹电器股份有限公司 一种基于表情和语音识别的婴儿哭声翻译系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3564501B2 (ja) * 2001-03-22 2004-09-15 学校法人明治大学 乳幼児の音声解析システム
US9697821B2 (en) * 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
WO2017136674A1 (en) * 2016-02-05 2017-08-10 Google Inc. Generating feature embeddings from a co-occurrence matrix

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5859925A (en) * 1995-08-08 1999-01-12 Apple Computer, Inc. Classifying system having a single neural network architecture for multiple input representations
CN1564245A (zh) * 2004-04-20 2005-01-12 上海上悦通讯技术有限公司 婴儿哭声解读方法与装置
JP2006084630A (ja) * 2004-09-15 2006-03-30 Meiji Univ 乳幼児の音声解析システム
CN2847456Y (zh) * 2005-10-08 2006-12-13 陈财明 婴儿哭声分析器
WO2007102505A1 (ja) * 2006-03-06 2007-09-13 Nagasaki University 乳児の情動を判定する方法、そのための装置とプログラム
KR20110113359A (ko) * 2010-04-09 2011-10-17 계명대학교 산학협력단 진동수 및 지속 패턴을 이용한 아기 울음소리 감지 방법 및 장치
CN103426438A (zh) * 2012-05-25 2013-12-04 洪荣昭 婴儿哭声分析方法及系统
CN103280220A (zh) * 2013-04-25 2013-09-04 北京大学深圳研究生院 一种实时的婴儿啼哭声识别方法
CN104347066A (zh) * 2013-08-09 2015-02-11 盛乐信息技术(上海)有限公司 基于深层神经网络的婴儿啼哭声识别方法及系统
WO2016155047A1 (zh) * 2015-03-30 2016-10-06 福州大学 低信噪比声场景下声音事件的识别方法
CN104882144A (zh) * 2015-05-06 2015-09-02 福州大学 基于声谱图双特征的动物声音识别方法
CN105938564A (zh) * 2016-04-29 2016-09-14 无锡中科智能农业发展有限责任公司 基于主成分分析和神经网络的水稻病害识别方法及系统
CN107657963A (zh) * 2016-07-25 2018-02-02 韦创科技有限公司 哭声辨识系统与哭声辨识方法
CN106653001A (zh) * 2016-11-17 2017-05-10 沈晓明 婴儿哭声的辩识方法及其系统
CN107133612A (zh) * 2017-06-06 2017-09-05 河海大学常州校区 基于图像处理与语音识别技术的智能病房及其运行方法
CN107818779A (zh) * 2017-09-15 2018-03-20 北京理工大学 一种婴幼儿啼哭声检测方法、装置、设备及介质
CN107886953A (zh) * 2017-11-27 2018-04-06 四川长虹电器股份有限公司 一种基于表情和语音识别的婴儿哭声翻译系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
低信噪比环境声音识别;林巍;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715;摘要、正文第19-30、50页 *

Also Published As

Publication number Publication date
CN109065034A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109065034B (zh) 一种基于声音特征识别的婴儿哭声翻译方法
Macartney et al. Improved speech enhancement with the wave-u-net
Chatterjee et al. Real-time speech emotion analysis for smart home assistants
Sharan et al. Automatic croup diagnosis using cough sound recognition
CN103280220B (zh) 一种实时的婴儿啼哭声识别方法
Vongphoe et al. Speaker recognition with temporal cues in acoustic and electric hearing
Zabidi et al. Classification of infant cries with asphyxia using multilayer perceptron neural network
CN107811649B (zh) 一种基于深度卷积神经网络的心音多分类方法
CN110970042B (zh) 一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质
Nishimura et al. Eating habits monitoring using wireless wearable in-ear microphone
Aydelott et al. Semantic processing of unattended speech in dichotic listening
Flanagan et al. The role of phase synchronisation between low frequency amplitude modulations in child phonology and morphology speech tasks
Dau et al. Auditory stream formation affects comodulation masking release retroactively
Zabidi et al. Binary particle swarm optimization for selection of features in the recognition of infants cries with asphyxia
Kumar et al. Pilot study of early meal onset detection from abdominal sounds
CN112908353A (zh) 用于助听器的边缘计算与云计算相结合的语音增强方法
Messaoud et al. A cry-based babies identification system
CN111862991A (zh) 一种婴儿哭声的识别方法及系统
Mima et al. Cause estimation of younger babies' cries from the frequency analyses of the voice-Classification of hunger, sleepiness, and discomfort
TÜRKER et al. Smart Stethoscope
Vaishnavi et al. Neonatal cry signal prediction and classification via dense convolution neural network
TW200917231A (en) Enhancement system for wide space voice signal
AU2005336269A1 (en) Signal recognition method using a low-cost microcontroller
Ahmed et al. DeepLung: Smartphone Convolutional Neural Network-Based Inference of Lung Anomalies for Pulmonary Patients.
CN109065074A (zh) 一种婴儿语音声音翻译器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant