CN109065034B - 一种基于声音特征识别的婴儿哭声翻译方法 - Google Patents
一种基于声音特征识别的婴儿哭声翻译方法 Download PDFInfo
- Publication number
- CN109065034B CN109065034B CN201811114781.1A CN201811114781A CN109065034B CN 109065034 B CN109065034 B CN 109065034B CN 201811114781 A CN201811114781 A CN 201811114781A CN 109065034 B CN109065034 B CN 109065034B
- Authority
- CN
- China
- Prior art keywords
- crying
- sound
- frequency
- infant
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010011469 Crying Diseases 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000013519 translation Methods 0.000 title description 2
- 239000012634 fragment Substances 0.000 claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 16
- 206010041349 Somnolence Diseases 0.000 claims abstract description 11
- 235000003642 hunger Nutrition 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000009467 reduction Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000035790 physiological processes and functions Effects 0.000 abstract description 10
- 208000032140 Sleepiness Diseases 0.000 abstract description 6
- 230000037321 sleepiness Effects 0.000 abstract description 6
- 239000010410 layer Substances 0.000 description 39
- 230000000474 nursing effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于声音特征识别的婴儿哭声翻译方法,依据婴儿在不同生理状态下啼哭的声音特征差异,利用计算机声音处理技术,分别提取婴儿在不同生理状态下啼哭声音特征参数:音色、音调、响度、能量、频率和频率共生矩阵的11个特征参数,总共的16个特征参数;通过BP神经网络算法,对婴儿在不同生理状态下啼哭声音片段进行采集,对声音片段降噪和滤波后再建立婴儿啼哭声音特征差异与饥饿、瞌睡、疼痛、无聊、恐惧、不适六种生理状态之间的对应关系,并给出识别结果为:饥饿、瞌睡、疼痛、无聊、恐惧、不适。在训练BP神经网络中,输入任何一段婴儿哭声声音片段中提取的特征参数,即可从输出层得到识别的结果,提高婴儿护理的质量与效率,减少婴儿护理中的误判和延判。
Description
技术领域
本发明涉及声音识别技术领域,特别是一种基于声音特征识别的婴儿哭声翻译方法。
背景技术
传统婴幼儿陪护过程中,由于婴儿尚未具备语言能力,其生理需求和情感表达主要依靠陪护人的观察婴儿的表情、表观现象及体感特征等经验判断。这种方法在一定程度上依赖于看护人的经验丰富程度,但年轻父母或其他看护人很少接受专业培训,而造成经验不足或不尽相同、且没有相对统一的参考标准。这种传统的经验式判断存在以下弊端:1.由于看护人未及时掌握婴儿生理或心理需求,使得看护质量下降,效率不高;2.由于看护人误判、延判,造成婴儿的医疗、救治不及时。
发明内容
本发明的目的是要解决现有技术中存在的不足,提供一种基于声音特征识别的婴儿哭声翻译方法,通过对婴儿哭声的特征提取与分析和神经网络训练,可以识别婴儿在不同生理状态下的声音反应,并反馈为饥饿、瞌睡、疼痛、无聊、恐惧、不适六种状态,可以协助人们对婴儿的反应做出判断,提高婴儿护理的科学性和可靠性。
为达到上述目的,本发明是按照以下技术方案实施的:
一种基于声音特征识别的婴儿哭声翻译方法,包括以下步骤:
步骤一、采用一个精密声级拾音器采集婴儿哭声的声音片段,并对采集的所有婴儿哭声的声音片段进行前处理,所述前处理包括对所有婴儿哭声的声音片段的语音降噪、滤波消噪;
步骤二、将经前处理的婴儿哭声的声音片段经A/D采样后存储于计算机,通过计算机对经前处理的婴儿哭声的声音片段再次进行滤波和降噪处理;
步骤三、对步骤二处理过的婴儿哭声的声音片段提取音色、音调、响度、能量、频率共5个特征参数特征参数和频率共生矩阵,共生矩阵的特征参数包括对比度、相关、逆差距、能量、中值、协方差、反差、差异性、二阶矩、熵、自相关共11个特征参数;
步骤四、通过主成分分析法对提取的音色、音调、响度、能量、频率的特征参数和频率共生矩阵的特征参数进行降维处理;
步骤五、选取降维处理后的婴儿哭声的声音片段的音色、音调、响度、能量、频率的特征参数用于输入BP神经网络的输入层,输出层神经元的个数为6,设定隐含层神经元的个数为4;设定BP神经网络最大训练次数为60000次,使最小均方差为0.0001;设定输入层的转换函数为tansig、输出层的转换函数为purelin、BP神经网络的训练函数为traingdm,权值和阈值的学习函数为learngdm;在输出层中分别表示如下:饥饿[1 0 0 0 0 0]、瞌睡[0 10 0 0 0]、疼痛[0 0 1 0 0 0]、无聊[0 0 0 1 0 0]、恐惧[0 0 0 0 1 0]、不适[0 0 0 0 01],然后开始对BP神经网络进行训练;
步骤六、BP神经网络训练完成后,将待识别的婴儿哭声的声音片段的降维处理后的声音片段的音色、音调、响度、能量、频率的特征参数输入到训练好的BP神经网络中,输出层得到婴儿哭声的声音识别。
进一步的技术方案为,所述步骤一中,所述精密声级拾音器放置于婴儿嘴部上方10cm处,采集1s时长的婴儿哭声的声音片段。
进一步的技术方案为,所述步骤四中降维处理具体为:采用db5小波对声音片段进行4层分解,得到16个等分的频率段,然后求出每个频率段的能量,然后将各段声音信号能量归一化后构成特征向量,该特征向量可表示为:
式中,E1,E2,……,E13,E14为每个频率段能量,E为信号总能量。
进一步的技术方案为,所述步骤五中,分别用[1 0 0 0 0]、[0 1 0 0 0]、[0 0 10 0]、[0 0 0 1 0]和[0 0 0 0 1]来表示降维后的每段婴儿哭声的的声音片段的音色、音调、响度、能量、频率的特征参数。
与现有技术相比,本发明依据婴儿在不同生理状态下啼哭的声音特征差异,利用计算机声音处理技术,分别提取婴儿在不同生理状态下啼哭声音特征参数:音色、音调、响度、能量、频率和频率共生矩阵的11个特征参数,总共的16个特征参数。通过BP神经网络算法,对婴儿在不同生理状态下啼哭声音片段进行采集,对声音片段降噪和滤波后再建立婴儿啼哭声音特征差异与饥饿、瞌睡、疼痛、无聊、恐惧、不适六种生理状态之间的对应关系,并给出识别结果为:饥饿、瞌睡、疼痛、无聊、恐惧、不适。在训练BP神经网络中,输入任何一段婴儿哭声声音片段中提取的特征参数,即可从输出层得到识别的结果,提高婴儿护理的质量与效率,减少婴儿护理中的误判和延判。
附图说明
图1为本发明的流程图。
图2 为BP神经网络结构图。
图3为多元神经单层神经网络示意图。
具体实施方式
下面结合具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
如图1所示,本实施例的一种基于声音特征识别的婴儿哭声翻译方法,具体步骤如下所示:
可以采用一个手持式的精密声级拾音器放置于婴儿嘴部上方10cm处,采集1s时长的婴儿哭声的声音片段,并对采集的所有婴儿哭声的声音片段进行前处理,所述前处理包括采用MINI DSP音频处理器,DSP语音降噪算法,LD-2L滤波消噪电流声抗干扰器对所有婴儿哭声的声音片段的语音降噪、滤波消噪。
这些声音信号在输入BP神经网络前需经分析处理,以获取利于识别的有效特征,这是决定BP网络输入层节点数和网络识别精度的关键。前面采集并存储于计算机的声音是离散的时域信号,可对婴儿啼哭产生的声音的进行频谱等特征分析,以提取相关的特征参数,从而建立婴儿啼哭声音特征差异与饥饿、瞌睡、疼痛、无聊、恐惧、不适六种生理状态之间的对应关系。
进一步,将经前处理的婴儿哭声的声音片段经A/D采样后存储于计算机,通过计算机对经前处理的婴儿哭声的声音片段再次进行滤波和降噪处理。
进一步,对处理过的婴儿哭声的声音片段提取音色、音调、响度、能量、频率共5个特征参数特征参数和频率共生矩阵,共生矩阵的特征参数包括对比度、相关、逆差距、能量、中值、协方差、反差、差异性、二阶矩、熵、自相关共11个特征参数。
进一步,由于不同婴儿啼哭的声音信号的功率谱不同,通过主成分分析法对提取的音色、音调、响度、能量、频率的特征参数和频率共生矩阵的特征参数进行降维处理,具体方法为:采用db5小波对婴儿哭声的声音片段进行4层分解,得到16个等分的频率段,然后求出每个频率段的能量,然后将各段声音信号能量归一化后构成特征向量,该特征向量可表示为:
式中,E1,E2,……,E13,E14为每个频率段能量,E为信号总能量。
BP神经网络是采用误差反向传播算法的多层前馈神经网络,它包含输入层、输出层和一个或多个隐层,如图3所示。各层神经元仅与相邻层神经元之间相互全连接,同层神经元之间无连接。输入信号从输入层节点(神经元)依次传过各隐层节点,再传到输出节点,每一层节点的输出只影响下一层节点的输出,然后按照误差减少的原则,从输出层经隐层向输入层逐层修正权值,这种逆向误差传播修正不断进行,直到达到所要求的学习目标。
进一步,构建BP神经网络,包含输入层节点数、输出层节点数和网络层数的确定。其中输入层节点数和输出层节点数是由实际问题本身决定的。如图2所示,选取降维处理后的声音片段的5个主成分特征参数:音色、音调、响度、能量、频率的特征参数用于输入BP神经网络的输入层,分别用[1 0 0 0 0]、[0 1 0 0 0]、[0 0 1 0 0]、[0 0 0 1 0]和[0 0 00 1]来表示降维后的每段声音的音色、音调、响度、能量、频率的特征信号,输出层神经元的个数为6,设定隐含层神经元的个数为4;设定BP神经网络最大训练次数为60000次,使最小均方差为0.0001;设定输入层的转换函数为tansig、输出层的转换函数为purelin、BP神经网络的训练函数为traingdm,权值和阈值的学习函数为learngdm;在输出层中分别表示如下:饥饿[1 0 0 0 0 0]、瞌睡[0 1 0 0 0 0]、疼痛[0 0 1 0 0 0]、无聊[0 0 0 1 0 0]、恐惧[0 0 0 0 1 0]、不适[0 0 0 0 0 1],然后开始对BP神经网络进行训练。
进一步,BP神经网络训练完成后,将待识别的婴儿哭声的声音片段的降维处理后的声音片段的音色、音调、响度、能量、频率的特征参数输入到训练好的BP神经网络中,输出层得到婴儿哭声的声音识别,从而就判断出婴儿所表达的是饥饿、瞌睡、疼痛、无聊、恐惧、不适中具体的一种状态。
为了进一步验证本实施例的可行性,BP神经网络训练完成后,选取另外的待识别的待识别的20个婴儿哭声的声音片段,将每个试样的5个主成分特征参数输入到训练好的BP神经网络中,即得到如表1的输出结果。
表1 BP神经网络测试结果
从表1中可以看出,将待识别的降维处理后的婴儿哭声的声音片段的音色、音调、响度、能量、频率的特征参数输入到训练好的BP神经网络中,可以快速识别出婴儿所表达的具体是饥饿、瞌睡、疼痛、无聊、恐惧、不适中具体的一种状态。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。
Claims (3)
1.一种基于声音特征识别的婴儿哭声翻译方法,其特征在于,包括以下步骤:
步骤一、采用一个精密声级拾音器采集婴儿哭声的声音片段,并对采集的所有婴儿哭声的声音片段进行前处理,所述前处理包括对所有婴儿哭声的声音片段的语音降噪、滤波消噪;
步骤二、将经前处理的婴儿哭声的声音片段经A/D采样后存储于计算机,通过计算机对经前处理的婴儿哭声的声音片段再次进行滤波和降噪处理;
步骤三、对步骤二处理过的婴儿哭声的声音片段提取音色、音调、响度、能量、频率共5个特征参数特征参数和频率共生矩阵,共生矩阵的特征参数包括对比度、相关、逆差距、能量、中值、协方差、反差、差异性、二阶矩、熵、自相关共11个特征参数;
步骤四、通过主成分分析法对提取的音色、音调、响度、能量、频率的特征参数和频率共生矩阵的特征参数进行降维处理,降维处理具体为:采用db5小波对声音片段进行4层分解,得到16个等分的频率段,然后求出每个频率段的能量,然后将各段声音信号能量归一化后构成特征向量,该特征向量可表示为:
式中,E1,E2,……,E13,E14为每个频率段能量,E为信号总能量;
步骤五、选取降维处理后的婴儿哭声的声音片段的音色、音调、响度、能量、频率的特征参数用于输入BP神经网络的输入层,输出层神经元的个数为6,设定隐含层神经元的个数为4;设定BP神经网络最大训练次数为60000次,使最小均方差为0.0001;设定输入层的转换函数为tansig、输出层的转换函数为purelin、BP神经网络的训练函数为traingdm,权值和阈值的学习函数为learngdm;在输出层中分别表示如下:饥饿[100000]、瞌睡[010000]、疼痛[001000]、无聊[000100]、恐惧[000010]、不适[000001],然后开始对BP神经网络进行训练;
步骤六、BP神经网络训练完成后,将待识别的婴儿哭声的声音片段的降维处理后的声音片段的音色、音调、响度、能量、频率的特征参数输入到训练好的BP神经网络中,输出层得到婴儿哭声的声音识别。
2.根据权利要求1所述的基于声音特征识别的婴儿哭声翻译方法,其特征在于:所述步骤一中,所述精密声级拾音器放置于婴儿嘴部上方10cm处,采集1s时长的婴儿哭声的声音片段。
3.根据权利要求1所述的基于声音特征识别的婴儿哭声翻译方法,其特征在于:所述步骤五中,分别用[10000]、[01000]、[00100]、[00010]和[00001]来表示降维后的每段婴儿哭声的的声音片段的音色、音调、响度、能量、频率的特征参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811114781.1A CN109065034B (zh) | 2018-09-25 | 2018-09-25 | 一种基于声音特征识别的婴儿哭声翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811114781.1A CN109065034B (zh) | 2018-09-25 | 2018-09-25 | 一种基于声音特征识别的婴儿哭声翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109065034A CN109065034A (zh) | 2018-12-21 |
CN109065034B true CN109065034B (zh) | 2023-09-08 |
Family
ID=64762456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811114781.1A Active CN109065034B (zh) | 2018-09-25 | 2018-09-25 | 一种基于声音特征识别的婴儿哭声翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109065034B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070893A (zh) * | 2019-03-25 | 2019-07-30 | 成都品果科技有限公司 | 一种利用婴儿哭声进行情感分析的系统、方法和装置 |
CN109979436B (zh) * | 2019-04-12 | 2020-11-13 | 南京工程学院 | 一种基于频谱自适应法的bp神经网络语音识别系统及方法 |
CN110897428A (zh) * | 2019-11-29 | 2020-03-24 | 京东方科技集团股份有限公司 | 智能婴儿床及其监控方法 |
CN112967733B (zh) * | 2021-02-26 | 2023-08-08 | 武汉星巡智能科技有限公司 | 智能识别婴儿哭声类别的方法及装置 |
CN113436650B (zh) * | 2021-08-25 | 2021-11-16 | 深圳市北科瑞声科技股份有限公司 | 婴儿哭声识别方法、装置、电子设备及存储介质 |
CN116825115A (zh) * | 2023-08-10 | 2023-09-29 | 广州番禺职业技术学院 | 一种婴儿哭声识别方法、系统及装置 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5859925A (en) * | 1995-08-08 | 1999-01-12 | Apple Computer, Inc. | Classifying system having a single neural network architecture for multiple input representations |
CN1564245A (zh) * | 2004-04-20 | 2005-01-12 | 上海上悦通讯技术有限公司 | 婴儿哭声解读方法与装置 |
JP2006084630A (ja) * | 2004-09-15 | 2006-03-30 | Meiji Univ | 乳幼児の音声解析システム |
CN2847456Y (zh) * | 2005-10-08 | 2006-12-13 | 陈财明 | 婴儿哭声分析器 |
WO2007102505A1 (ja) * | 2006-03-06 | 2007-09-13 | Nagasaki University | 乳児の情動を判定する方法、そのための装置とプログラム |
KR20110113359A (ko) * | 2010-04-09 | 2011-10-17 | 계명대학교 산학협력단 | 진동수 및 지속 패턴을 이용한 아기 울음소리 감지 방법 및 장치 |
CN103280220A (zh) * | 2013-04-25 | 2013-09-04 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
CN103426438A (zh) * | 2012-05-25 | 2013-12-04 | 洪荣昭 | 婴儿哭声分析方法及系统 |
CN104347066A (zh) * | 2013-08-09 | 2015-02-11 | 盛乐信息技术(上海)有限公司 | 基于深层神经网络的婴儿啼哭声识别方法及系统 |
CN104882144A (zh) * | 2015-05-06 | 2015-09-02 | 福州大学 | 基于声谱图双特征的动物声音识别方法 |
CN105938564A (zh) * | 2016-04-29 | 2016-09-14 | 无锡中科智能农业发展有限责任公司 | 基于主成分分析和神经网络的水稻病害识别方法及系统 |
WO2016155047A1 (zh) * | 2015-03-30 | 2016-10-06 | 福州大学 | 低信噪比声场景下声音事件的识别方法 |
CN106653001A (zh) * | 2016-11-17 | 2017-05-10 | 沈晓明 | 婴儿哭声的辩识方法及其系统 |
CN107133612A (zh) * | 2017-06-06 | 2017-09-05 | 河海大学常州校区 | 基于图像处理与语音识别技术的智能病房及其运行方法 |
CN107657963A (zh) * | 2016-07-25 | 2018-02-02 | 韦创科技有限公司 | 哭声辨识系统与哭声辨识方法 |
CN107818779A (zh) * | 2017-09-15 | 2018-03-20 | 北京理工大学 | 一种婴幼儿啼哭声检测方法、装置、设备及介质 |
CN107886953A (zh) * | 2017-11-27 | 2018-04-06 | 四川长虹电器股份有限公司 | 一种基于表情和语音识别的婴儿哭声翻译系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3564501B2 (ja) * | 2001-03-22 | 2004-09-15 | 学校法人明治大学 | 乳幼児の音声解析システム |
US9697821B2 (en) * | 2013-01-29 | 2017-07-04 | Tencent Technology (Shenzhen) Company Limited | Method and system for building a topic specific language model for use in automatic speech recognition |
WO2017136674A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Generating feature embeddings from a co-occurrence matrix |
-
2018
- 2018-09-25 CN CN201811114781.1A patent/CN109065034B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5859925A (en) * | 1995-08-08 | 1999-01-12 | Apple Computer, Inc. | Classifying system having a single neural network architecture for multiple input representations |
CN1564245A (zh) * | 2004-04-20 | 2005-01-12 | 上海上悦通讯技术有限公司 | 婴儿哭声解读方法与装置 |
JP2006084630A (ja) * | 2004-09-15 | 2006-03-30 | Meiji Univ | 乳幼児の音声解析システム |
CN2847456Y (zh) * | 2005-10-08 | 2006-12-13 | 陈财明 | 婴儿哭声分析器 |
WO2007102505A1 (ja) * | 2006-03-06 | 2007-09-13 | Nagasaki University | 乳児の情動を判定する方法、そのための装置とプログラム |
KR20110113359A (ko) * | 2010-04-09 | 2011-10-17 | 계명대학교 산학협력단 | 진동수 및 지속 패턴을 이용한 아기 울음소리 감지 방법 및 장치 |
CN103426438A (zh) * | 2012-05-25 | 2013-12-04 | 洪荣昭 | 婴儿哭声分析方法及系统 |
CN103280220A (zh) * | 2013-04-25 | 2013-09-04 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
CN104347066A (zh) * | 2013-08-09 | 2015-02-11 | 盛乐信息技术(上海)有限公司 | 基于深层神经网络的婴儿啼哭声识别方法及系统 |
WO2016155047A1 (zh) * | 2015-03-30 | 2016-10-06 | 福州大学 | 低信噪比声场景下声音事件的识别方法 |
CN104882144A (zh) * | 2015-05-06 | 2015-09-02 | 福州大学 | 基于声谱图双特征的动物声音识别方法 |
CN105938564A (zh) * | 2016-04-29 | 2016-09-14 | 无锡中科智能农业发展有限责任公司 | 基于主成分分析和神经网络的水稻病害识别方法及系统 |
CN107657963A (zh) * | 2016-07-25 | 2018-02-02 | 韦创科技有限公司 | 哭声辨识系统与哭声辨识方法 |
CN106653001A (zh) * | 2016-11-17 | 2017-05-10 | 沈晓明 | 婴儿哭声的辩识方法及其系统 |
CN107133612A (zh) * | 2017-06-06 | 2017-09-05 | 河海大学常州校区 | 基于图像处理与语音识别技术的智能病房及其运行方法 |
CN107818779A (zh) * | 2017-09-15 | 2018-03-20 | 北京理工大学 | 一种婴幼儿啼哭声检测方法、装置、设备及介质 |
CN107886953A (zh) * | 2017-11-27 | 2018-04-06 | 四川长虹电器股份有限公司 | 一种基于表情和语音识别的婴儿哭声翻译系统 |
Non-Patent Citations (1)
Title |
---|
低信噪比环境声音识别;林巍;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715;摘要、正文第19-30、50页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109065034A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065034B (zh) | 一种基于声音特征识别的婴儿哭声翻译方法 | |
Macartney et al. | Improved speech enhancement with the wave-u-net | |
Chatterjee et al. | Real-time speech emotion analysis for smart home assistants | |
Sharan et al. | Automatic croup diagnosis using cough sound recognition | |
CN103280220B (zh) | 一种实时的婴儿啼哭声识别方法 | |
Vongphoe et al. | Speaker recognition with temporal cues in acoustic and electric hearing | |
Zabidi et al. | Classification of infant cries with asphyxia using multilayer perceptron neural network | |
CN107811649B (zh) | 一种基于深度卷积神经网络的心音多分类方法 | |
CN110970042B (zh) | 一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质 | |
Nishimura et al. | Eating habits monitoring using wireless wearable in-ear microphone | |
Aydelott et al. | Semantic processing of unattended speech in dichotic listening | |
Flanagan et al. | The role of phase synchronisation between low frequency amplitude modulations in child phonology and morphology speech tasks | |
Dau et al. | Auditory stream formation affects comodulation masking release retroactively | |
Zabidi et al. | Binary particle swarm optimization for selection of features in the recognition of infants cries with asphyxia | |
Kumar et al. | Pilot study of early meal onset detection from abdominal sounds | |
CN112908353A (zh) | 用于助听器的边缘计算与云计算相结合的语音增强方法 | |
Messaoud et al. | A cry-based babies identification system | |
CN111862991A (zh) | 一种婴儿哭声的识别方法及系统 | |
Mima et al. | Cause estimation of younger babies' cries from the frequency analyses of the voice-Classification of hunger, sleepiness, and discomfort | |
TÜRKER et al. | Smart Stethoscope | |
Vaishnavi et al. | Neonatal cry signal prediction and classification via dense convolution neural network | |
TW200917231A (en) | Enhancement system for wide space voice signal | |
AU2005336269A1 (en) | Signal recognition method using a low-cost microcontroller | |
Ahmed et al. | DeepLung: Smartphone Convolutional Neural Network-Based Inference of Lung Anomalies for Pulmonary Patients. | |
CN109065074A (zh) | 一种婴儿语音声音翻译器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |