CN107274913A - 一种声音识别方法及装置 - Google Patents
一种声音识别方法及装置 Download PDFInfo
- Publication number
- CN107274913A CN107274913A CN201710386789.2A CN201710386789A CN107274913A CN 107274913 A CN107274913 A CN 107274913A CN 201710386789 A CN201710386789 A CN 201710386789A CN 107274913 A CN107274913 A CN 107274913A
- Authority
- CN
- China
- Prior art keywords
- frequency
- voice signal
- similarity
- sound
- preset reference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000014759 maintenance of location Effects 0.000 claims abstract description 48
- 230000005236 sound signal Effects 0.000 claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims description 27
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000000630 rising effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000010411 cooking Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000011521 glass Substances 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000006096 absorbing agent Substances 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000006233 lamp black Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052573 porcelain Inorganic materials 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种声音识别方法,包括:采集声音信号,确定所述声音信号中各脉冲的保持时间;基于所述保持时间计算所述声音信号的频率;将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,将相似度大于预设阈值且最大的预设参考频率所对应的声音类型确定为采集的声音的类型。本发明还同时公开了一种声音识别装置。
Description
技术领域
本发明涉及声音识别技术,尤其涉及一种声音识别方法及装置。
背景技术
语音识别的研究工作开始于上世纪50年代,贝尔实验室开发出了第一个可以识别十个英文数字的语音识别系统,开启了语音识别的先河。在目前常用的声音识别的方案中,主要是对人类发出的语音进行识别,识别方法主要是利用基于人工智能技术的语音识别技术,对人类发出的语音进行识别,从而通过语音实现人机交互。
在生活中,除了人类发出的语音之外,还存在着其它形形色色的声音,例如流水声、炒菜声、敲门声等,人们在做完饭菜后可能会忘记关水龙头或油烟机,将造成资源的浪费;或者,玻璃杯或瓷器掉落地上,碎片未及时处理可能会伤到人。因此,亟需一种可以识别非人类声音的技术方案,从而通过识别此类声音可以进行相应的自动控制或提示。
发明内容
针对上述的技术问题,本发明实施例期望提供一种声音识别方法及装置,可以识别除人类语音之外的声音。
本发明的技术方案是这样实现的:
本发明实施例提供一种声音识别方法,所述方法包括:
采集声音信号,确定所述声音信号中各脉冲的保持时间;
基于所述保持时间计算所述声音信号的频率;
将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,将相似度大于预设阈值且最大的预设参考频率所对应的声音类型确定为采集的声音的类型。
上述方案中,所述将所述声音信号的频率与预设参考频率进行对比之前,所述方法还包括:对所述声音信号的频率进行采样,得到采样频率;
将所述采样频率划分为至少一个频段;
统计所述至少一个频段中各频段内的频率个数,根据所述频率个数计算各频道内的频率占比,所述频率占比为各频段内的频率个数与采样所得的频率总数之间的比值;
所述将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,包括:
将所述至少一个频段中各频段内的所述频率占比分别与所述预设参考频率的参考占比进行对比,得到占比相似度;
将所述至少一个频段中各频段内的频率分别与所述预设参考频率进行对比,得到频率相似度;
基于所述占比相似度和所述频率相似度获得所述相似度。
上述方案中,所述确定所述声音信号中各脉冲的保持时间,包括:确定所述声音信号中信号强度大于预设强度所对应的时间,基于所述时间获得所述声音信号中各脉冲的保持时间。
上述方案中,所述基于所述保持时间计算所述声音信号的频率,包括:对所述保持时间求倒数,将所计算的结果作为所述声音信号的频率。
上述方案中,所述将所述采样频率划分为至少一个频段,包括:基于频谱识别范围和频谱分辨率将所述采样频率划分为至少一个频段。
本发明实施例还提供了一种声音识别装置,所述装置包括:采集模块,用于采集声音信号;
确定模块,用于确定所述声音信号中各脉冲的保持时间;
第一计算模块,用于基于所述保持时间计算所述声音信号的频率;
对比模块,用于将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,将相似度大于预设阈值且最大的预设参考频率所对应的声音类型确定为采集的声音的类型。
上述方案中,所述装置还包括:采样模块,用于在对比模块将所述声音信号的频率与预设参考频率进行对比之前,对所述声音信号的频率进行采样,得到采样频率;
划分模块,用于将所述采样频率划分为至少一个频段;
统计模块,用于统计所述至少一个频段中各频段内的频率个数;
第二计算模块,用于根据所述频率个数计算各频道内的频率占比,所述频率占比为各频段内的频率个数与采样所得的频率总数之间的比值;
所述对比模块包括:
第一对比子模块,用于将所述至少一个频段中各频段内的所述频率占比分别与所述预设参考频率的参考占比进行对比,得到占比相似度;
第二对比子模块,用于将所述至少一个频段中各频段内的频率分别与所述预设参考频率进行对比,得到频率相似度;
第三计算模块,用于基于所述占比相似度和所述频率相似度获得所述相似度。
上述方案中,所述确定模块,具体用于确定所述声音信号中信号强度大于预设强度所对应的时间,基于所述时间获得所述声音信号中各脉冲的保持时间。
上述方案中,所述第一计算模块,具体用于对所述保持时间求倒数,将所计算的结果作为所述声音信号的频率。
上述方案中,所述划分模块,具体用于基于频谱识别范围和频谱分辨率将所述采样频率划分为至少一个频段。
本发明实施例提供的声音识别方法及装置,采集声音信号,确定所述声音信号中各脉冲的保持时间;基于所述保持时间计算所述声音信号的频率;将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,将相似度大于预设阈值且最大的预设参考频率所对应的声音类型确定为采集的声音的类型。可见,本发明实施例通过采集声音信号,计算该信号的脉冲保持时间,从而得到相应的频率,将该频率与标准的频率进行对比,从而分辨出该声音的类型。
此外,将所述声音信号的频率划分多个频段,按频段分别与标准的频率进行对比,降低了计算量。
附图说明
图1为本发明实施例一公开的一种声音识别方法的实现流程示意图;
图2为本发明实施例一公开的一种声音识别装置的组成结构示意图;
图3为本发明实施例二公开的一种声音识别装置的组成结构示意图;
图4为本发明实施例二公开的一种声音识别方法的实现流程示意图;
图5为声音信号的频谱特性随时间的变化示意图;
图6为采集到的声音信号与标准特征声音模型之间的相似度随时间变化的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例公开的一种声音识别方法的实现流程示意图,如图1所示,本实施例的声音识别方法包括以下步骤:
步骤101:声音识别装置采集声音信号,确定所述声音信号中各脉冲的保持时间。
这里,所述声音包括但不限于:流水声、炒菜声、敲门声、走路声和玻璃或陶器掉地的声音。
具体地,当发出流水声、炒菜声、敲门声、走路声或玻璃或陶器掉地的声音这些声音中的任一种时,声音识别装置采集到该声音信号,通过该声音信号的脉冲与时间之间的关系,确定所述声音信号中各脉冲的保持时间。这里,所述保持时间为脉冲从形成到结束的时间。声音识别装置在开启后,将一直采集声音信号,当环境中未发出声音时,采集到信号功率为零;当环境中发出声音时,采集到信号功率大于零。因此,采集到的声音信号在某个时间段内值为零,在另外的某个时间的值大于零;在频谱中,若横坐标为时间,纵坐标为功率或能量,声音信号的纵坐标大于零时,说明采集到的信号出现了有用的声音信号。
具体地,确定所述声音信号中各脉冲的保持时间包括:确定所述声音信号中信号强度大于预设强度所对应的时间,基于所述时间获得所述声音信号中各脉冲的保持时间。例如,声音识别装置计算所述声音信号中各脉冲的上升沿和下降沿之间的时间差,将所述时间差确定为所述声音信号中各脉冲的保持时间。
例如,当产生了流水声,声音识别装置采集到流水声音信号,假设该流水声音信号的脉冲有a和b两个,脉冲a的上升沿和下降沿对应的时间分别为t1、t2,脉冲b的上升沿和下降沿对应的时间分别为t3、t4,从而得到脉冲a和脉冲b的保持时间为t2-t1、t4-t3。上述脉冲仅仅是举例,不是穷举,包括但不仅限于a和b两个。
步骤102:声音识别装置基于所述保持时间计算所述声音信号的频率。
具体地,基于所述保持时间计算所述声音信号的频率包括:声音识别装置对所述保持时间求倒数,将所计算的结果作为所述声音信号的频率。
例如,当产生了流水声,声音识别装置采集到流水声音信号,假设该流水声音信号的脉冲有a和b两个,对应的保持时间分别为t2-t1、t4-t3时,将t2-t1、t4-t3分别求倒数,得到1/(t2-t1)、1/(t4-t3),因此,所述声音信号的频率f1=1/(t2-t1)、f2=1/(t4-t3)。
步骤103:声音识别装置将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,将相似度大于预设阈值且最大的预设参考频率所对应的声音类型确定为采集的声音的类型。
具体地,所述将相似度大于预设阈值且最大的预设参考频率所对应的声音类型确定为采集的声音的类型,包括:从所述相似度中获取大于预设阈值的相似度值,并从获取到的相似度中选取最大的值作为目标相似度,得到与所述目标相似度对应的目标预设参考频率,并将所述目标预设参考频率对应的声音类型确定为采集的声音的类型。
进一步地,在将所述声音信号的频率与预设参考频率进行对比之前,声音识别装置对所述声音信号的频率进行采样,得到采样频率;将所述采样频率划分为至少一个频段;统计所述至少一个频段中各频段内的频率个数,根据所述频率个数计算各频道内的频率占比,所述频率占比为各频段内的频率个数与采样所得的频率总数之间的比值。
进一步地,将将所述采样频率划分为至少一个频段包括:声音识别装置基于频谱识别范围和频谱分辨率将所述采样频率划分为至少一个频段。具体地,并根据频谱识别范围和频谱分辨率进行数学统计,根据统计结果划分频段,假设频谱识别范围为0~6千赫兹(kHz),频谱分辨率为1kHz,此时,可以将所述采样频率划分为小于或等于6个频段。
例如,在将所述声音信号的频率与预设参考频率进行对比之前,声音识别装置将所述频率存放于数组中,按照一定的采样频率对数组中的频率进行采样,从而获得每个频段所占比例随时间的变化,即频谱随时间的变化。
具体地,所述将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,包括:声音识别装置将所述至少一个频段中各频段内的所述频率占比分别与所述预设参考频率的参考占比进行对比,得到占比相似度;将所述至少一个频段中各频段内的频率分别与所述预设参考频率进行对比,得到频率相似度;基于所述占比相似度和所述频率相似度获得所述相似度。将声音信号划分频段,降低计算的复杂度。
例如,声音识别装置将所述声音信号的频率与标准特征声音模型的频率进行比对,从而获得所述声音信号的频率与标准特征声音模型的频率的相似度。当相似度大于预先设定的阈值时,则判定所述声音信号与标准特征声音是一致的。当标准特征声音模型为多个时,且相似度大于预先设定阈值的标准特征声音模型数量大于1时,则判定所述声音信号与相似度最高的标准特征声音是一致的。当标准特征声音模型为多个时,且相似度大于预先设定阈值的标准特征声音模型数量为0时,则判定采集到的声音与标准特征声音不一致。
为了便于更好地实施本发明实施例的上述声音识别方法,本发明还提供了用于实现实施上述方法的声音识别装置。
图2为本发明实施例公开的一种声音识别装置的组成结构示意图,如图2所示,本实施例的声音识别装置包括:
采集模块201,用于采集声音信号;
确定模块202,用于确定所述声音信号中各脉冲的保持时间;
第一计算模块203,用于基于所述保持时间计算所述声音信号的频率;
对比模块204,用于将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,将相似度大于预设阈值且最大的预设参考频率所对应的声音类型确定为采集的声音的类型。
进一步地,所述装置还包括:采样模块205,用于在对比模块将所述声音信号的频率与预设参考频率进行对比之前,对所述声音信号的频率进行采样,得到采样频率;
划分模块206,用于将所述采样频率划分为至少一个频段;
统计模块207,用于统计所述至少一个频段中各频段内的频率个数;
第二计算模块208,用于根据所述频率个数计算各频道内的频率占比,所述频率占比为各频段内的频率个数与采样所得的频率总数之间的比值;
所述对比模块204包括:
第一对比子模块2041,用于将所述至少一个频段中各频段内的所述频率占比分别与所述预设参考频率的参考占比进行对比,得到占比相似度;
第二对比子模块2042,用于将所述至少一个频段中各频段内的频率分别与所述预设参考频率进行对比,得到频率相似度;
计算子模块2043,用于基于所述占比相似度和所述频率相似度获得所述相似度。
进一步地,所述确定模块202,具体用于确定所述声音信号中信号强度大于预设强度所对应的时间,基于所述时间获得所述声音信号中各脉冲的保持时间。
进一步地,所述第一计算模块203,具体用于对所述保持时间求倒数,将所计算的结果作为所述声音信号的频率。
进一步地,所述划分模块206,具体用于基于频谱识别范围和频谱分辨率将所述采样频率划分为至少一个频段。
由上述组成结构示意图组成的声音识别装置,可以执行以下方法和步骤:
(1)采集模块201采集声音信号,确定模块202确定所述声音信号中各脉冲的保持时间。
这里,所述声音包括但不限于:流水声、炒菜声、敲门声、走路声和玻璃或陶器掉地的声音。
具体地,当发出流水声、炒菜声、敲门声、走路声或玻璃或陶器掉地的声音这些声音中的任一种时,采集模块201采集到该声音信号,确定模块202通过该声音信号的脉冲与时间之间的关系,确定所述声音信号中各脉冲的保持时间。这里,所述保持时间为脉冲从形成到结束的时间。声音识别装置在开启后,将一直采集声音信号,当环境中未发出声音时,采集到信号功率为零;当环境中发出声音时,采集到信号功率大于零。因此,采集到的声音信号在某个时间段内值为零,在另外的某个时间的值大于零;在频谱中,若横坐标为时间,纵坐标为功率或能量,声音信号的纵坐标大于零时,说明采集到的信号出现了有用的声音信号。
具体地,确定模块202确定所述声音信号中各脉冲的保持时间包括:确定模块202确定所述声音信号中信号强度大于预设强度所对应的时间,基于所述时间获得所述声音信号中各脉冲的保持时间。例如,确定模块202计算所述声音信号中各脉冲的上升沿和下降沿之间的时间差,将所述时间差确定为所述声音信号中各脉冲的保持时间。
例如,当产生了流水声,采集模块201采集到流水声音信号,假设该流水声音信号的脉冲有a和b两个,脉冲a的上升沿和下降沿对应的时间分别为t1、t2,脉冲b的上升沿和下降沿对应的时间分别为t3、t4,确定模块202通过计算得到脉冲a和脉冲b的保持时间为t2-t1、t4-t3。上述脉冲仅仅是举例,不是穷举,包括但不仅限于a和b两个。
(2)第一计算模块203基于所述保持时间计算所述声音信号的频率。
具体地,基于所述保持时间计算所述声音信号的频率包括:第一计算模块203对所述保持时间求倒数,将所计算的结果作为所述声音信号的频率。
例如,当产生了流水声,声音识别装置采集到流水声音信号,假设该流水声音信号的脉冲有a和b两个,对应的保持时间分别为t2-t1、t4-t3时,第一计算模块203将t2-t1、t4-t3分别求倒数,得到1/(t2-t1)、1/(t4-t3),因此,所述声音信号的频率f1=1/(t2-t1)、f2=1/(t4-t3)。
(3)对比模块204将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,将相似度大于预设阈值且最大的预设参考频率所对应的声音类型确定为采集的声音的类型。
具体地,对比模块204从所述相似度中获取大于预设阈值的相似度值,并从获取到的相似度中选取最大的值作为目标相似度,得到与所述目标相似度对应的目标预设参考频率,并将所述目标预设参考频率对应的声音类型确定为采集的声音的类型。
进一步地,在将所述声音信号的频率与预设参考频率进行对比之前,采样模块205对所述声音信号的频率进行采样,得到采样频率;划分模块206将所述采样频率划分为至少一个频段;统计模块207统计所述至少一个频段中各频段内的频率个数,第二计算模块208根据所述频率个数计算各频道内的频率占比,所述频率占比为各频段内的频率个数与采样所得的频率总数之间的比值。
进一步地,划分模块206将将所述采样频率划分为至少一个频段包括:划分模块206基于频谱识别范围和频谱分辨率将所述采样频率划分为至少一个频段。具体地,并根据频谱识别范围和频谱分辨率进行数学统计,根据统计结果划分频段,假设频谱识别范围为0~6kHz,频谱分辨率为1kHz,此时,可以将所述采样频率划分为小于或等于6个频段。
例如,在将所述声音信号的频率与预设参考频率进行对比之前,声音识别装置将所述频率存放于数组中,按照一定的采样频率对数组中的频率进行采样,从而获得每个频段所占比例随时间的变化,即频谱随时间的变化。
具体地,对比模块204将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,包括:第一对比子模块2041将所述至少一个频段中各频段内的所述频率占比分别与所述预设参考频率的参考占比进行对比,得到占比相似度;第二对比子模块2042将所述至少一个频段中各频段内的频率分别与所述预设参考频率进行对比,得到频率相似度;计算子模块2043基于所述占比相似度和所述频率相似度获得所述相似度。将声音信号划分频段,降低计算的复杂度。
例如,对比模块204将所述声音信号的频率与标准特征声音模型的频率进行比对,从而获得所述声音信号的频率与标准特征声音模型的频率的相似度。当相似度大于预先设定的阈值时,则判定所述声音信号与标准特征声音是一致的。当标准特征声音模型为多个时,且相似度大于预先设定阈值的标准特征声音模型数量大于1时,则判定所述声音信号与相似度最高的标准特征声音是一致的。当标准特征声音模型为多个时,且相似度大于预先设定阈值的标准特征声音模型数量为0时,则判定采集到的声音与标准特征声音不一致。
通过本发明实施例方案,可以通过采集声音信号,计算该信号的脉冲保持时间,从而得到相应的频率,将该频率与标准的频率进行对比,从而分辨出该声音的类型。将所述声音信号的频率划分多个频段,按频段分别与标准的频率进行对比,降低了计算量。
实施例二
图3为本发明实施例二公开的一种声音识别装置的组成结构示意图,如图3所示,本实施例的声音识别装置包括:
麦克风301,用于信号处理的滤波电路,用于小信号放大的放大电路和信号处理芯片。
滤波电路302,用于信号处理,将采集到的声音信号传送到滤波电路中进行降噪处理。
放大电路303,用于将经过降噪处理的声音信号进行功率放大,降低信号检测的难度,提高信号检测的准确性。
信号处理芯片304,用于对信号进行处理。
存储器305,用于存储信号处理芯片中的软件算法、存储声音识别方法的指令,其中,软件算法包括:测量频率的软件算法、生成频谱的软件算法和特征声音识别的软件算法。
测量频率的软件算法通过信号处理芯片对声音信号进行采样,计算每一个脉冲的保持时间,再将其转化为频率信息;
生成频谱的软件算法是指将一定数量脉冲中的每一个脉冲的频率依采集顺序保存在一个数组内,并根据频谱识别范围A和频谱分辨率B进行数学统计,从而获得每个频段ai所占比例。从而实现了将声音信号从时域转化到频域的功能。按照一定的采样频率对频段ai进行采样,从而获得每个频段所占比例随时间的变化,即频谱随时间的变化。
特征声音识别的软件算法是指将采集到的包含一定数量脉冲的声音信号的频谱与标准特征声音模型的频谱进行比对,从而获得采集到的声音信号的频谱与标准特征声音模型的频谱的相似度。当相似度大于预先设定的阈值时,则判定采集到的声音与标准特征声音是一致的。当标准特征声音模型为多个时,且相似度大于预先设定阈值的标准特征声音模型数量大于1时,则判定采集到的声音与相似度最高的标准特征声音是一致的。当标准特征声音模型为多个时,且相似度大于预先设定阈值的标准特征声音模型数量为0时,则判定采集到的声音与标准特征声音不一致。
图4为本发明实施例二公开的一种声音识别方法的实现流程示意图,如图4所示,本实施例的声音识别方法包括以下步骤:
假设选取脉冲信号数量为300,频谱识别范围A为0~6kHz范围,频谱分辨率B为1kHz,频谱采样率为1Hz。
步骤401:采集声音信号并进行信号滤波。
麦克风301收集到声音信号,并将该信号通过总线或其它方式传输至的滤波电路302。该滤波电路302设计为低通滤波器,截止频率为6kHz,使得声音信号中大于6kHz频率部分被衰减。
由于滤波电路302在滤波的同时对声音信号也有衰减作用,使得声音信号的振幅减小。因此,需要对滤波后的声音信号进行放大。
步骤402:将声音信号振幅放大至电源电压的一半。
放大电路303将声音信号的振幅放大至大于电源电压的一半,再将信号传输至信号处理芯片304。
步骤403:计算每个脉冲信号的频率。
信号处理芯片304利用存储在存储器305中的频率测量算法计算脉冲信号上升沿和下降沿的时间差t,从而得到脉冲信号的频率f=1/t。
步骤404:统计一定数量脉冲信号的频谱特性。
已知统计300个脉冲信号的频率分布,即每采集到300个脉冲信号生成一次频谱信息,信号处理芯片304按照1Hz的采样频率对频谱信息进行采样,从而获得如图5所示的声音信号频谱随时间的变化过程。
步骤405:将采样频率与标准特征声音模型比较得到相似度。
信号处理芯片304将每一个采样频率与标准特征声音模型进行比对得到如图6所示的相似度随时间的变化曲线。图6中虚线为预先设定的阈值,当相似度大于阈值时,判定声音信号与标准特征声音模型一致;当相似度小于阈值时,判定声音信号与标准特征声音模型不一致,从而识别出该声音信号对应的声音类型。例如,检测的声音信号频率与标准特征声音模型中的流水声之间的频率相似度大于所述阈值时,表示该声音与流水声一致,即该声音为流水声。
实际应用中,采集模块201、确定模块202、第一计算模块203、对比模块204(包括:第一对比子模块2041、第二对比子模块2042和计算子模块2043)、采样模块205、划分模块206、统计模块207和第二计算模块208均可由位于声音识别装置中的(CPU,CentralProcessing Unit)、微处理器(MPU,Microprocessor Unit)、数字信号处理器(DSP,DigitalSignal Processor)、或现场可编程门阵列(FPGA,Field-Programmable Gate Array)等实现。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (10)
1.一种声音识别方法,其特征在于,所述方法包括:
采集声音信号,确定所述声音信号中各脉冲的保持时间;
基于所述保持时间计算所述声音信号的频率;
将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,将相似度大于预设阈值且最大的预设参考频率所对应的声音类型确定为采集的声音的类型。
2.根据权利要求1所述的方法,其特征在于,所述将所述声音信号的频率与预设参考频率进行对比之前,所述方法还包括:
对所述声音信号的频率进行采样,得到采样频率;
将所述采样频率划分为至少一个频段;
统计所述至少一个频段中各频段内的频率个数,根据所述频率个数计算各频道内的频率占比,所述频率占比为各频段内的频率个数与采样所得的频率总数之间的比值;
所述将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,包括:
将所述至少一个频段中各频段内的所述频率占比分别与所述预设参考频率的参考占比进行对比,得到占比相似度;
将所述至少一个频段中各频段内的频率分别与所述预设参考频率进行对比,得到频率相似度;
基于所述占比相似度和所述频率相似度获得所述相似度。
3.根据权利要求1或2所述的方法,其特征在于,所述确定所述声音信号中各脉冲的保持时间,包括:
确定所述声音信号中信号强度大于预设强度所对应的时间,基于所述时间获得所述声音信号中各脉冲的保持时间。
4.根据权利要求1或2所述的方法,其特征在于,所述基于所述保持时间计算所述声音信号的频率,包括:
对所述保持时间求倒数,将所计算的结果作为所述声音信号的频率。
5.根据权利要求2所述的方法,其特征在于,所述将所述采样频率划分为至少一个频段,包括:
基于频谱识别范围和频谱分辨率将所述采样频率划分为至少一个频段。
6.一种声音识别装置,其特征在于,所述装置包括:
采集模块,用于采集声音信号;
确定模块,用于确定所述声音信号中各脉冲的保持时间;
第一计算模块,用于基于所述保持时间计算所述声音信号的频率;
对比模块,用于将所述声音信号的频率与预设参考频率进行对比,确定所述声音信号的频率与所述预设参考频率之间的相似度,将相似度大于预设阈值且最大的预设参考频率所对应的声音类型确定为采集的声音的类型。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
采样模块,用于在对比模块将所述声音信号的频率与预设参考频率进行对比之前,对所述声音信号的频率进行采样,得到采样频率;
划分模块,用于将所述采样频率划分为至少一个频段;
统计模块,用于统计所述至少一个频段中各频段内的频率个数;
第二计算模块,用于根据所述频率个数计算各频道内的频率占比,所述频率占比为各频段内的频率个数与采样所得的频率总数之间的比值;
所述对比模块包括:
第一对比子模块,用于将所述至少一个频段中各频段内的所述频率占比分别与所述预设参考频率的参考占比进行对比,得到占比相似度;
第二对比子模块,用于将所述至少一个频段中各频段内的频率分别与所述预设参考频率进行对比,得到频率相似度;
第三计算模块,用于基于所述占比相似度和所述频率相似度获得所述相似度。
8.根据权利要求6或7所述的装置,其特征在于,所述确定模块,具体用于确定所述声音信号中信号强度大于预设强度所对应的时间,基于所述时间获得所述声音信号中各脉冲的保持时间。
9.根据权利要求6或7所述的装置,其特征在于,所述第一计算模块,具体用于对所述保持时间求倒数,将所计算的结果作为所述声音信号的频率。
10.根据权利要求7所述的装置,其特征在于,所述划分模块,具体用于基于频谱识别范围和频谱分辨率将所述采样频率划分为至少一个频段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710386789.2A CN107274913B (zh) | 2017-05-26 | 2017-05-26 | 一种声音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710386789.2A CN107274913B (zh) | 2017-05-26 | 2017-05-26 | 一种声音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107274913A true CN107274913A (zh) | 2017-10-20 |
CN107274913B CN107274913B (zh) | 2020-09-11 |
Family
ID=60064124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710386789.2A Active CN107274913B (zh) | 2017-05-26 | 2017-05-26 | 一种声音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107274913B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862279A (zh) * | 2017-11-03 | 2018-03-30 | 中国电子科技集团公司第三研究所 | 一种脉冲声信号识别分类方法 |
CN107997738A (zh) * | 2017-10-31 | 2018-05-08 | 努比亚技术有限公司 | 一种生理信号处理方法、装置及计算机可读存储介质 |
CN110970054A (zh) * | 2019-11-06 | 2020-04-07 | 广州视源电子科技股份有限公司 | 语音采集自动停止的方法、装置、终端设备和存储介质 |
CN111811635A (zh) * | 2020-07-07 | 2020-10-23 | 美钻石油钻采系统(上海)有限公司 | 水下目标监测装置 |
CN112466057A (zh) * | 2020-12-01 | 2021-03-09 | 上海旷日网络科技有限公司 | 基于人脸识别和语音识别的交互式认证取件系统 |
CN112885374A (zh) * | 2021-01-27 | 2021-06-01 | 吴怡然 | 一种基于频谱分析的声音音准判断方法及系统 |
CN113112681A (zh) * | 2020-01-13 | 2021-07-13 | 阿里健康信息技术有限公司 | 售货设备、出货检测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2382122A1 (en) * | 1999-08-30 | 2001-03-08 | Wavemakers Inc. | Sound source classification |
CN1728235A (zh) * | 2004-07-30 | 2006-02-01 | 华为技术有限公司 | 声音类型检测装置及方法 |
CN101217036A (zh) * | 2008-01-16 | 2008-07-09 | 重庆邮电大学 | 基于音频特性的雏禽性别识别方法及装置 |
WO2010070314A1 (en) * | 2008-12-15 | 2010-06-24 | Audio Analytic Ltd | Sound identification systems |
CN101779142A (zh) * | 2007-08-21 | 2010-07-14 | 罗伯特·博世有限公司 | 距离传感器和用于确定距离的方法 |
CN104200816A (zh) * | 2014-07-31 | 2014-12-10 | 广东美的制冷设备有限公司 | 语音控制方法和系统 |
CN106297770A (zh) * | 2016-08-04 | 2017-01-04 | 杭州电子科技大学 | 基于时频域统计特征提取的自然环境声音识别方法 |
-
2017
- 2017-05-26 CN CN201710386789.2A patent/CN107274913B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2382122A1 (en) * | 1999-08-30 | 2001-03-08 | Wavemakers Inc. | Sound source classification |
CN1728235A (zh) * | 2004-07-30 | 2006-02-01 | 华为技术有限公司 | 声音类型检测装置及方法 |
CN101779142A (zh) * | 2007-08-21 | 2010-07-14 | 罗伯特·博世有限公司 | 距离传感器和用于确定距离的方法 |
CN101217036A (zh) * | 2008-01-16 | 2008-07-09 | 重庆邮电大学 | 基于音频特性的雏禽性别识别方法及装置 |
WO2010070314A1 (en) * | 2008-12-15 | 2010-06-24 | Audio Analytic Ltd | Sound identification systems |
CN104200816A (zh) * | 2014-07-31 | 2014-12-10 | 广东美的制冷设备有限公司 | 语音控制方法和系统 |
CN106297770A (zh) * | 2016-08-04 | 2017-01-04 | 杭州电子科技大学 | 基于时频域统计特征提取的自然环境声音识别方法 |
Non-Patent Citations (2)
Title |
---|
GUANGHU SHEN,QUANG NGUYEN,JONGSUK CHOI: "An Environmental Sound Source Classification System Based on Mel-Frequency Cepstral Coefficients and Gaussian Mixture Models", 《IFAC PROCEEDINGS VOLUMES》 * |
王熙,李应: "多频带谱减法用于生态环境声音分类", 《计算机工程与应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107997738A (zh) * | 2017-10-31 | 2018-05-08 | 努比亚技术有限公司 | 一种生理信号处理方法、装置及计算机可读存储介质 |
CN107862279A (zh) * | 2017-11-03 | 2018-03-30 | 中国电子科技集团公司第三研究所 | 一种脉冲声信号识别分类方法 |
CN110970054A (zh) * | 2019-11-06 | 2020-04-07 | 广州视源电子科技股份有限公司 | 语音采集自动停止的方法、装置、终端设备和存储介质 |
CN113112681A (zh) * | 2020-01-13 | 2021-07-13 | 阿里健康信息技术有限公司 | 售货设备、出货检测方法及装置 |
CN111811635A (zh) * | 2020-07-07 | 2020-10-23 | 美钻石油钻采系统(上海)有限公司 | 水下目标监测装置 |
CN112466057A (zh) * | 2020-12-01 | 2021-03-09 | 上海旷日网络科技有限公司 | 基于人脸识别和语音识别的交互式认证取件系统 |
CN112885374A (zh) * | 2021-01-27 | 2021-06-01 | 吴怡然 | 一种基于频谱分析的声音音准判断方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107274913B (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107274913A (zh) | 一种声音识别方法及装置 | |
CN107461611B (zh) | 基于小波和emd重构相结合的泄漏检测方法及泄漏检测装置 | |
US7508948B2 (en) | Reverberation removal | |
JP5799013B2 (ja) | 音声信号の処理に際して、ノイズを無視して音声を対象にすることによりノイズを低減するシステムおよび方法 | |
WO2008090541B1 (en) | Apparatus and methods for enhancement of speech | |
CN107316653A (zh) | 一种基于改进的经验小波变换的基频检测方法 | |
CN102054480A (zh) | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 | |
CN104916292B (zh) | 检测音频信号的方法和装置 | |
CN106448696A (zh) | 一种基于背景噪声估计自适应高通滤波语音降噪方法 | |
US4091237A (en) | Bi-Phase harmonic histogram pitch extractor | |
CN114093377B (zh) | 分裂归一化方法、装置、音频特征提取器、芯片 | |
CN106340303A (zh) | 一种基于时间频率域的语音降噪方法 | |
CN105118522A (zh) | 噪声检测方法及装置 | |
CN106504760B (zh) | 宽频带背景噪声与语音分离检测系统及方法 | |
US4044204A (en) | Device for separating the voiced and unvoiced portions of speech | |
CN106548771A (zh) | 用于语音识别系统消除突发噪音的方法 | |
CN104282315B (zh) | 音频信号分类处理方法、装置及设备 | |
CN109427345B (zh) | 一种风噪检测方法、装置及系统 | |
CN115293219A (zh) | 一种融合小波和峭度的脉冲信号去噪方法 | |
CN111341337B (zh) | 声音降噪算法及其系统 | |
CN106710602A (zh) | 一种声学混响时间估计方法和装置 | |
TWI520131B (zh) | Speech Recognition System Based on Joint Time - Frequency Domain and Its Method | |
Cnockaert et al. | Fundamental frequency estimation and vocal tremor analysis by means of morlet wavelet transforms | |
CN206498409U (zh) | 一种基于相关辨识的噪声处理系统 | |
CN105989835A (zh) | 语音辨识装置及语音辨识方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |