CN112270932A - 用于智能设备的报警方法及装置、电子设备及存储介质 - Google Patents

用于智能设备的报警方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112270932A
CN112270932A CN202011141888.2A CN202011141888A CN112270932A CN 112270932 A CN112270932 A CN 112270932A CN 202011141888 A CN202011141888 A CN 202011141888A CN 112270932 A CN112270932 A CN 112270932A
Authority
CN
China
Prior art keywords
sound
target
recognition model
type
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011141888.2A
Other languages
English (en)
Inventor
王昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202011141888.2A priority Critical patent/CN112270932A/zh
Publication of CN112270932A publication Critical patent/CN112270932A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Alarm Systems (AREA)
  • Emergency Alarm Devices (AREA)

Abstract

本公开涉及一种用于智能设备的报警方法及装置、电子设备及存储介质,以解决相关技术中对声音辨别的准确性较低的技术问题。所述方法包括:通过声音采集装置采集环境声音;提取所述环境声音中的梅尔谱特征信息;将所述梅尔谱特征信息输入到声音识别模型中,得到所述声音识别模型输出的识别结果,所述声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的;在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作。这样,可以提高对声音辨别的准确性。

Description

用于智能设备的报警方法及装置、电子设备及存储介质
技术领域
本公开涉及智能家居技术领域,尤其涉及用于智能设备的报警方法及装置、电子设备及存储介质。
背景技术
针对婴儿等需要人照看的群体,由于工作、家务等原因,负责照看的人员无法寸步不离地在被照看人的身边,可能被照看人发生意外情况,负责照看的人员等无法及时了解情况,例如当孩子独自在房间时,无法及时发现婴儿啼哭,不能及时给予婴儿安抚。
相关技术中,通过将婴儿哭声输入声源采集电路,然后将婴儿哭声的声音变化转换成电压变化,并经过整形电路,去掉干扰信号,从而得到哭声信号。进一步地,由中央微处理器将哭声信号进行数据分离和排序,结合婴儿哭声的特征算法得到婴儿哭声的翻译结果。
发明内容
为克服相关技术中存在的问题,本公开提供一种用于智能设备的报警方法及装置、电子设备及存储介质。
根据本公开实施例的第一方面,提供一种用于智能设备的报警方法,所述报警方法包括:
通过声音采集装置采集环境声音;
提取所述环境声音中的梅尔谱特征信息;
将所述梅尔谱特征信息输入到声音识别模型中,得到所述声音识别模型输出的识别结果,所述声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的;
在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作。
可选地,所述提取所述环境声音中的梅尔谱特征信息包括:
提取所述环境声音中的短时平稳信号;
对所述短时平稳信号中每一帧信号叠加预设汉明窗,并移帧预设百分比,得到目标信号;
对所述目标信号中每一帧取预设点进行短时傅立叶变换得到所述目标信号对应的功率谱;
对所述功率谱,基于梅尔刻度三角滤波组进行频带提取,得到三角频带信号;
对所述三角频带信号进行快速傅立叶变换得到所述目标信号在频域上的能量分布;
基于所述能量分布得到所述梅尔谱特征信息。
可选地,所述梅尔刻度三角滤波组包括低频滤波器以及高频滤波器,并且,所述低频滤波器的数量多于所述高频滤波器的数量。
可选地,所述目标声音类型包括表征婴儿哭声的类型,相应地,所述在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作,包括:
在所述识别结果表征所述环境声音属于婴儿哭声的情况下,发送提醒消息给与所述智能设备绑定的用户设备;和/或,
在所述识别结果表征所述环境声音属于婴儿哭声的情况下,通过扬声器播放预设的用于安抚婴儿的音乐。
可选地,所述目标声音类型包括表征呼救声的类型,相应地,所述在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作,包括:
在所述识别结果表征所述环境声音属于呼救声的情况下,获取所述智能设备的位置信息;
基于所述位置信息搜索距离最近的医院,并向该医院发送报警信息,其中,所述报警消息包括所述位置信息。
可选地,所述声音识别模型是通过如下方式训练得到的:
采集目标婴儿的哭声;
对所述哭声添加表征该哭声属于婴儿哭声类型的标签,得到声音样本;
基于所述声音样本对初始声音识别模型进行训练,直到达到预设训练时长,得到训练完成的所述声音识别模型。
可选地,所述声音识别模型为卷积递归神经网络模型,相应地,所述基于所述声音样本对初始声音识别模型进行训练包括:
根据所述声音样本在卷积层上进行特征提取,得到卷积层特征图;
根据所述卷积层特征图在池化层上沿频域进行最大池化操作,得到池化层参数;
根据门循环单元和所述池化层参数,基于双向循环神经网络得到递归参数;
根据所述递归参数和所述声音样本的标签,基于全连接密集层训练所述卷积递归神经网络模型。
根据本公开实施例的第二方面,提供一种用于智能设备的报警装置,所述报警装置包括:
采集模块,被配置为通过声音采集装置采集环境声音;
提取模块,被配置为提取所述环境声音中的梅尔谱特征信息;
输入模块,被配置为将所述梅尔谱特征信息输入到声音识别模型中,得到所述声音识别模型输出的识别结果,所述声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的;
执行模块,被配置为在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作。
可选地,所述提取模块包括:
第一提取子模块,被配置为提取所述环境声音中的短时平稳信号;
叠加子模块,被配置为对所述短时平稳信号中每一帧信号叠加预设汉明窗,并移帧预设百分比,得到目标信号;
第一变换子模块,被配置为对所述目标信号中每一帧取预设点进行短时傅立叶变换得到所述目标信号对应的功率谱;
第二提取子模块,被配置为对所述功率谱,基于梅尔刻度三角滤波组进行频带提取,得到三角频带信号;
第二变换子模块,被配置为对所述三角频带信号进行快速傅立叶变换得到所述目标信号在频域上的能量分布;
确定子模块,被配置为基于所述能量分布得到所述梅尔谱特征信息。
可选地,所述梅尔刻度三角滤波组包括低频滤波器以及高频滤波器,并且,所述低频滤波器的数量多于所述高频滤波器的数量。
可选地,所述目标声音类型包括表征婴儿哭声的类型,相应地,所述执行模块,具体被配置为:
在所述识别结果表征所述环境声音属于婴儿哭声的情况下,发送提醒消息给与所述智能设备绑定的用户设备;和/或,
在所述识别结果表征所述环境声音属于婴儿哭声的情况下,通过扬声器播放预设的用于安抚婴儿的音乐。
可选地,所述目标声音类型包括表征呼救声的类型,相应地,所述执行模块包括:
获取子模块,被配置为在所述识别结果表征所述环境声音属于呼救声的情况下,获取所述智能设备的位置信息;
发送子模块,被配置为基于所述位置信息搜索距离最近的医院,并向该医院发送报警信息,其中,所述报警消息包括所述位置信息。
可选地,所述声音识别模型是通过如下方式训练得到的:
采集目标婴儿的哭声;
对所述哭声添加表征该哭声属于婴儿哭声类型的标签,得到声音样本;
基于所述声音样本对初始声音识别模型进行训练,直到达到预设训练时长,得到训练完成的所述声音识别模型。
可选地,所述声音识别模型为卷积递归神经网络模型,相应地,所述基于所述声音样本对初始声音识别模型进行训练包括:
根据所述声音样本在卷积层上进行特征提取,得到卷积层特征图;
根据所述卷积层特征图在池化层上沿频域进行最大池化操作,得到池化层参数;
根据门循环单元和所述池化层参数,基于双向循环神经网络得到递归参数;
根据所述递归参数和所述声音样本的标签,基于全连接密集层训练所述卷积递归神经网络模型。
根据本公开实施例的第三方面,提供一种用于智能设备的报警装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过声音采集装置采集环境声音;
提取所述环境声音中的梅尔谱特征信息;
将所述梅尔谱特征信息输入到声音识别模型中,得到所述声音识别模型输出的识别结果,所述声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的;
在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所述报警方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:通过声音采集装置采集环境声音,并提取环境声音中的梅尔谱特征信息,进而将梅尔谱特征信息输入到声音识别模型中,得到声音识别模型输出的识别结果,声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的,在识别结果表征环境声音属于目标声音类型的情况下,执行与目标声音类型对应的报警操作。这样,可以通过对环境声音的梅尔谱特征信息提取,并通过声音识别模型输出识别结果,可以提高对声音辨别的准确性,进而提升报警的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种用于智能设备的报警方法的流程图。
图2是根据一示例性实施例示出的图1中步骤S12的流程图。
图3是根据一示例性实施例示出的一种三角滤波器的示意图。
图4是根据一示例性实施例示出的一种能量分布的示意图。
图5是根据一示例性实施例示出的一种用于智能设备的报警装置的框图。
图6是根据一示例性实施例示出的图5中提取模块520的框图。
图7是根据一示例性实施例示出的一种用于智能设备的报警装置800的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,在本公开中,说明书和权利要求书以及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必理解为描述特定的顺序或先后次序。
在介绍本公开提供的用于智能设备的报警方法及装置、电子设备及存储介质之前,首先对本公开的应用场景进行介绍。本公开提供的基于智能家居的报警方法可以应用于智能家居,所述智能家居例如可以是智能音响设备、智能台灯、消息收发设备,平板设备,医疗设备,健身设备等等等。
准确地对环境声音进行辨别,可以提高报警的准确性,便于用户准确地了解到实际的情况,进而可以及时地发现被照顾人出现意外情况,以便于及时地救助。相关技术中,将婴儿哭声的声音变化转换成电压变化,并经过整形电路,去掉干扰信号,从而得到哭声信号。进一步地,由中央微处理器将哭声信号进行数据分离和排序。
但是,申请人发现,婴儿哭声的频率等声音特性与干扰信号的部分特性是一致的,经过整形电路的婴儿哭声虽然可以去掉干扰信号,但是也会将婴儿哭声中与干扰信号一致的部分去掉,即通过整形电路处理婴儿哭声对环境声音的辨别准确性较低。因而导致最终得到的婴儿哭声准确性较低。
为解决上述技术问题,本公开提供一种用于智能设备的报警方法。此处以该方法可以应用于智能台灯为例,图1是根据一示例性实施例示出的一种用于智能设备的报警方法的流程图,如图1所示,包括以下步骤。
在步骤S11中,通过声音采集装置采集环境声音。
在步骤S12中,提取所述环境声音中的梅尔谱特征信息。
在步骤S13中,将所述梅尔谱特征信息输入到声音识别模型中,得到所述声音识别模型输出的识别结果,所述声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的。
在步骤S13中,在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作。
具体地,所述智能台灯包括声音采集装置,例如一个或者多个麦克风,麦克风可以用于采集环境声音,进而智能台灯可以对环境声音进行梅尔谱特征信息提取。
在一种可能实现的方式中,取梅尔谱特征信息中预设帧数的音频,并对该音频中每一帧提取预设维度的梅尔波段,进而将得到的预设帧数的预设维度的梅尔谱特征信息输入到声音识别模型中。
例如,取梅尔谱特征信息中T帧的音频,并对该音频中每一帧提取40维的梅尔波段,得到T×40维的梅尔谱特征信息,将该T×40维的梅尔谱特征信息输入到声音识别模型中。这样,可以在提高声音识别模型输出是被结果的准确性,进而提高对声音辨别的准确性。
可选地,智能台灯可以与终端设备或者监控设备连接,在环境声音属于目标声音类型的情况下,例如,在环境声音属于敲门声音的情况下,可以通过监控设备向用户终端设备发送提示消息,便于用户及时了解到有人敲门的情况。
上述技术方案通过声音采集装置采集环境声音,并提取环境声音中的梅尔谱特征信息,进而将梅尔谱特征信息输入到声音识别模型中,得到声音识别模型输出的识别结果,声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的,在识别结果表征环境声音属于目标声音类型的情况下,执行与目标声音类型对应的报警操作。这样,可以通过对环境声音的梅尔谱特征信息提取,并通过声音识别模型输出识别结果,可以提高对声音辨别的准确性,进而提升报警的准确性。
可选地,图2是根据一示例性实施例示出的一种步骤S12的流程图,如图2所示,在步骤S12中,提取所述环境声音中的梅尔谱特征信息包括以下步骤:
在步骤S121中,提取所述环境声音中的短时平稳信号。
在步骤S122中,对所述短时平稳信号中每一帧信号叠加预设汉明窗,并移帧预设百分比,得到目标信号。
在步骤S123中,对所述目标信号中每一帧取预设点进行短时傅立叶变换得到所述目标信号对应的功率谱。
在步骤S124中,对所述功率谱,基于梅尔刻度三角滤波组进行频带提取,得到三角频带信号。
在步骤S125中,对所述三角频带信号进行快速傅立叶变换得到所述目标信号在频域上的能量分布。
在步骤S126中,基于所述能量分布得到所述梅尔谱特征信息。
具体地,由于环境声音中非平稳信号会随着时间的推移丢失信号的频率轮廓,影响环境声音提取梅尔谱特征信息的准确性,因此,可以提取环境声音中的短时平稳信号,提取短时平稳信号的方法此处不做限定。
进一步地,对短时平稳信号中每一帧信号叠加一个40ms的预设汉明窗,并移帧50%的预设百分比,得到目标信号。
进一步地,对目标信号中每一帧信号做一个N点短时傅里叶变换,计算得到每一帧的频谱,进而对所有帧信号的频谱取模平方,例如对每一帧信号的频谱取对数,或者对每一帧信号的频谱去平方,得到目标信号对应的功率谱。
进一步地,将功率谱通过一组梅尔刻度的三角滤波器,其中,该组梅尔刻度的三角滤波器包括40个三角滤波器。梅尔刻度的三角滤波器可以提取到特定频率的频率分量,进而得到三角频带信号。
进一步地,对三角频带信号进行快速傅立叶变换,将三角频带信号转换为频域上的能量分布,其中,不同的能量分布,代表不同环境声音的特性。进而可以基于能量分布得到梅尔谱特征信息。这样,对环境声音的梅尔谱特征信息提取,可以提高输入到声音识别模型的音频的准确性,进而提高对声音辨别的准确性。
可选地,所述梅尔刻度三角滤波组包括低频滤波器以及高频滤波器,并且,所述低频滤波器的数量多于所述高频滤波器的数量。
其中,低频滤波器用于对功率谱中低频信号进行频带提取,高频滤波器用于对功率谱中高频信号进行频带提取。参考图3所示,取40个滤波器构成一组三角滤波组,每一个三角形表示梅尔刻度三角滤波组中三角滤波器提取到的一个三角波频带。可见,在低频区域滤波器的分布较为密集,而在高频区域滤波器的分布较为稀疏,即处于低频区的低频滤波器的数量多于处于高频区的高频滤波器的数量。这样,可以提高功率谱中低频环境声音的辨别力,进而提高对声音辨别的准确性。
进一步地,参考图4所示,根据提取到三角波频带信号,得到图4所示的能量分布,其中,白色亮条纹部分为所需要的梅尔谱特征信息。可以看出,在不同的频率范围内,均出现有所需要的梅尔谱特征信息,这样,可以得到环境声音中婴儿哭声的不同声音特性,也可以得到不同婴儿哭声的特性,进而可以基于声音识别模型,得到准确的识别结果。
可选地,所述目标声音类型包括表征婴儿哭声的类型,相应地,所述在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作,包括:
在所述识别结果表征所述环境声音属于婴儿哭声的情况下,发送提醒消息给与所述智能设备绑定的用户设备;和/或,
在所述识别结果表征所述环境声音属于婴儿哭声的情况下,通过扬声器播放预设的用于安抚婴儿的音乐。
具体地,用户设备可以是智能手机,平板电脑,个人电脑终端等,这样,可以通过网络将提醒消息实时发送到父母的用户设备上,方便父母查看婴儿的情况。
在一种可能实现的方式中,在识别结果表征环境声音属于婴儿哭声的情况下,根据婴儿哭声的声音特性确定适合安抚婴儿的音乐类型,其中,声音特性包括频率、音量和缓急程度;
根据音乐类型确定播放的目标音乐,并通过扬声器播放目标音乐。
其中,不同频率的婴儿哭声,不同音量的婴儿哭声以及不同缓急程度的婴儿哭声可以表征不同婴儿哭泣的原因,这样,可以根据上述声音特性确定对应类型的目标音乐,可以提高安抚婴儿的效果。
可选地,所述目标声音类型包括表征呼救声的类型,相应地,所述在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作,包括:
在所述识别结果表征所述环境声音属于呼救声的情况下,获取所述智能设备的位置信息;
基于所述位置信息搜索距离最近的医院,并向该医院发送报警信息,其中,所述报警消息包括所述位置信息。
在一种可能实现的方式中,在识别结果表征环境声音属于病人的呼救声的情况下,例如患病老人,报警消息还可以包括病历信息,这样,医护人员可以根据病历信息及时准备需要的设备和药物,提高救助的准确性,保证病人的有效救助。
可选地,所述声音识别模型是通过如下方式训练得到的:
采集目标婴儿的哭声;
对所述哭声添加表征该哭声属于婴儿哭声类型的标签,得到声音样本;
基于所述声音样本对初始声音识别模型进行训练,直到达到预设训练时长,得到训练完成的所述声音识别模型。
可选地,目标婴儿可以包括不同年龄段、不同性别的婴儿,例如,数据采样率为44100Hz,男女婴儿比例50:50,覆盖0~18个月的婴儿的哭声,进而对不同年龄的婴儿、不同性别的婴儿添加不同的标签,得到声音样本,再对初始声音识别模型经过30小时的训练时长得到声音识别模型。
可选地,可以将采集的目标婴儿哭声按照80%作为声音样本,用于对初始声音识别模型进行训练,将剩余20%作为测试样本,取3S测试时间对声音识别模型进行验证,得出准确率达96.97%,召回率达98.77%。证明该声音识别模型对婴儿哭具有较高的辨别力,婴儿哭声辨别准确性较高。
并且,采集目标婴儿的哭声包括不同的家居背景的哭声,因为每个家庭所布置的家居数量、类型和方位等均不相同,可能造成采集婴儿哭声的效果不同,采集不同家居背景下的婴儿哭声作为训练集,可以提高声音识别模型训练的准确性,进而提高不同家居背景下对声音辨别的准确性。
在一种可能实现的方式中,可以在用户使用阶段,由用户采集自己的婴儿的哭声,进而以用户采集的婴儿哭声作为声音样本,也就是说初始声音识别模型训练过程可以不是产品出厂就训练好的,可以到用户使用阶段训练的。这样,可以提高得到的声音识别模型的准确性。
可选地,所述声音识别模型为卷积递归神经网络模型,相应地,所述基于所述声音样本对初始声音识别模型进行训练包括:
根据所述声音样本在卷积层上进行特征提取,得到卷积层特征图;
根据所述卷积层特征图在池化层上沿频域进行最大池化操作,得到池化层参数;
根据门循环单元和所述池化层参数,基于双向循环神经网络得到递归参数;
根据所述递归参数和所述声音样本的标签,基于全连接密集层训练所述卷积递归神经网络模型。
基于相同的发明构思,本公开还提供一种用于智能设备的报警装置500,用于执行上述方法实施例提供的用于智能设备的报警方法的步骤,该报警装置500可以以软件、硬件或者两者相结合的方式实现智能设备报警。图5是根据一示例性实施例示出的一种用于智能设备的报警装置500框图。参照图5,该报警装置500包括采集模块510,提取模块520,输入模块530和执行模块540。
其中,该采集模块510被配置为通过声音采集装置采集环境声音;
该提取模块520被配置为提取所述环境声音中的梅尔谱特征信息;
该输入模块530被配置为将所述梅尔谱特征信息输入到声音识别模型中,得到所述声音识别模型输出的识别结果,所述声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的;
该执行模块540被配置为在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作。
可选地,图6是根据一示例性实施例示出的一种提取模块的框图。参照图6,该提取模块520包括第一提取子模块5201,叠加子模块5202,第一变换子模块5203,第二提取子模块5204,第二变换子模块5205和确定子模块5206。
其中,该第一提取子模块5201被配置为提取所述环境声音中的短时平稳信号;
该叠加子模块5202被配置为对所述短时平稳信号中每一帧信号叠加预设汉明窗,并移帧预设百分比,得到目标信号;
该第一变换子模块5203被配置为对所述目标信号中每一帧取预设点进行短时傅立叶变换得到所述目标信号对应的功率谱;
该第二提取子模块5204被配置为对所述功率谱,基于梅尔刻度三角滤波组进行频带提取,得到三角频带信号;
该第二变换子模块5205被配置为对所述三角频带信号进行快速傅立叶变换得到所述目标信号在频域上的能量分布;
该确定子模块5206被配置为基于所述能量分布得到所述梅尔谱特征信息。
可选地,所述梅尔刻度三角滤波组包括低频滤波器以及高频滤波器,并且,所述低频滤波器的数量多于所述高频滤波器的数量。
可选地,所述目标声音类型包括表征婴儿哭声的类型,相应地,所述执行模块540,具体被配置为:
在所述识别结果表征所述环境声音属于婴儿哭声的情况下,发送提醒消息给与所述智能设备绑定的用户设备;和/或,
在所述识别结果表征所述环境声音属于婴儿哭声的情况下,通过扬声器播放预设的用于安抚婴儿的音乐。
可选地,所述目标声音类型包括表征呼救声的类型,相应地,所述执行模块540包括:获取子模块和发送子模块。
该获取子模块被配置为在所述识别结果表征所述环境声音属于呼救声的情况下,获取所述智能设备的位置信息;
该发送子模块被配置为基于所述位置信息搜索距离最近的医院,并向该医院发送报警信息,其中,所述报警消息包括所述位置信息。
可选地,所述声音识别模型是通过如下方式训练得到的:
采集目标婴儿的哭声;
对所述哭声添加表征该哭声属于婴儿哭声类型的标签,得到声音样本;
基于所述声音样本对初始声音识别模型进行训练,直到达到预设训练时长,得到训练完成的所述声音识别模型。
可选地,所述声音识别模型为卷积递归神经网络模型,相应地,所述基于所述声音样本对初始声音识别模型进行训练包括:
根据所述声音样本在卷积层上进行特征提取,得到卷积层特征图;
根据所述卷积层特征图在池化层上沿频域进行最大池化操作,得到池化层参数;
根据门循环单元和所述池化层参数,基于双向循环神经网络得到递归参数;
根据所述递归参数和所述声音样本的标签,基于全连接密集层训练所述卷积递归神经网络模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
此外值得说明的是,为描述的方便和简洁,说明书中所描述的实施例均属于优选实施例,其所涉及的部分并不一定是本发明所必须的,例如,采集模块510和提取模块520,在具体实施时可以是相互独立的装置也可以是同一个装置,本公开对此不作限定。
本公开提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所述报警方法的步骤。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的用于智能设备的报警方法的步骤。
图7是根据一示例性实施例示出的一种用于智能设备的报警的装置800的框图。例如,装置800可以是智能家居中的智能台灯、智能音箱等,也可以是移动电话,计算机,数字广播终端,消息收发设备,平板设备,医疗设备,健身设备等。
参照图7,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,声音采集装置,扬声器和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述用于智能设备的报警方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,声音等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),即声音采集装置中的一种。当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述用于智能设备的报警方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述用于智能设备的报警方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述用于智能设备的报警方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种用于智能设备的报警方法,其特征在于,所述报警方法包括:
通过声音采集装置采集环境声音;
提取所述环境声音中的梅尔谱特征信息;
将所述梅尔谱特征信息输入到声音识别模型中,得到所述声音识别模型输出的识别结果,所述声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的;
在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作。
2.根据权利要求1所述的报警方法,其特征在于,所述提取所述环境声音中的梅尔谱特征信息包括:
提取所述环境声音中的短时平稳信号;
对所述短时平稳信号中每一帧信号叠加预设汉明窗,并移帧预设百分比,得到目标信号;
对所述目标信号中每一帧取预设点进行短时傅立叶变换得到所述目标信号对应的功率谱;
对所述功率谱,基于梅尔刻度三角滤波组进行频带提取,得到三角频带信号;
对所述三角频带信号进行快速傅立叶变换得到所述目标信号在频域上的能量分布;
基于所述能量分布得到所述梅尔谱特征信息。
3.根据权利要求2所述的报警方法,其特征在于,所述梅尔刻度三角滤波组包括低频滤波器以及高频滤波器,并且,所述低频滤波器的数量多于所述高频滤波器的数量。
4.根据权利要求1-3任一项所述的报警方法,其特征在于,所述目标声音类型包括表征婴儿哭声的类型,相应地,所述在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作,包括:
在所述识别结果表征所述环境声音属于婴儿哭声的情况下,发送提醒消息给与所述智能设备绑定的用户设备;和/或,
在所述识别结果表征所述环境声音属于婴儿哭声的情况下,通过扬声器播放预设的用于安抚婴儿的音乐。
5.根据权利要求1-3任一项所述的报警方法,其特征在于,所述目标声音类型包括表征呼救声的类型,相应地,所述在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作,包括:
在所述识别结果表征所述环境声音属于呼救声的情况下,获取所述智能设备的位置信息;
基于所述位置信息搜索距离最近的医院,并向该医院发送报警信息,其中,所述报警消息包括所述位置信息。
6.根据权利要求4所述的报警方法,其特征在于,所述声音识别模型是通过如下方式训练得到的:
采集目标婴儿的哭声;
对所述哭声添加表征该哭声属于婴儿哭声类型的标签,得到声音样本;
基于所述声音样本对初始声音识别模型进行训练,直到达到预设训练时长,得到训练完成的所述声音识别模型。
7.根据权利要求6所述的报警方法,其特征在于,所述声音识别模型为卷积递归神经网络模型,相应地,所述基于所述声音样本对初始声音识别模型进行训练包括:
根据所述声音样本在卷积层上进行特征提取,得到卷积层特征图;
根据所述卷积层特征图在池化层上沿频域进行最大池化操作,得到池化层参数;
根据门循环单元和所述池化层参数,基于双向循环神经网络得到递归参数;
根据所述递归参数和所述声音样本的标签,基于全连接密集层训练所述卷积递归神经网络模型。
8.一种用于智能设备的报警装置,其特征在于,所述报警装置包括:
采集模块,被配置为通过声音采集装置采集环境声音;
提取模块,被配置为提取所述环境声音中的梅尔谱特征信息;
输入模块,被配置为将所述梅尔谱特征信息输入到声音识别模型中,得到所述声音识别模型输出的识别结果,所述声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的;
执行模块,被配置为在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作。
9.一种用于智能设备的报警装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过声音采集装置采集环境声音;
提取所述环境声音中的梅尔谱特征信息;
将所述梅尔谱特征信息输入到声音识别模型中,得到所述声音识别模型输出的识别结果,所述声音识别模型是基于标记为目标声音类型的声音样本进行训练得到的;
在所述识别结果表征所述环境声音属于所述目标声音类型的情况下,执行与所述目标声音类型对应的报警操作。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-7中任一项所述报警方法的步骤。
CN202011141888.2A 2020-10-22 2020-10-22 用于智能设备的报警方法及装置、电子设备及存储介质 Pending CN112270932A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011141888.2A CN112270932A (zh) 2020-10-22 2020-10-22 用于智能设备的报警方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011141888.2A CN112270932A (zh) 2020-10-22 2020-10-22 用于智能设备的报警方法及装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112270932A true CN112270932A (zh) 2021-01-26

Family

ID=74342313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011141888.2A Pending CN112270932A (zh) 2020-10-22 2020-10-22 用于智能设备的报警方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112270932A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117162789A (zh) * 2023-11-03 2023-12-05 中国第一汽车股份有限公司 电池热安全的控制方法、存储介质、处理器及车辆

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530979A (zh) * 2013-10-24 2014-01-22 南京市秦淮医院 一种医院用远程婴儿啼哭报警装置
CN104346902A (zh) * 2014-10-15 2015-02-11 瞿洪桂 一种具有报警功能的智能穿戴设备及系统
CN107122807A (zh) * 2017-05-24 2017-09-01 努比亚技术有限公司 一种家庭监控方法、服务端及计算机可读存储介质
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN109658953A (zh) * 2019-01-12 2019-04-19 深圳先进技术研究院 一种婴儿哭声识别方法、装置及设备
CN111243224A (zh) * 2018-11-09 2020-06-05 北京搜狗科技发展有限公司 一种实现报警的方法及装置
CN111462735A (zh) * 2020-04-10 2020-07-28 网易(杭州)网络有限公司 语音检测方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530979A (zh) * 2013-10-24 2014-01-22 南京市秦淮医院 一种医院用远程婴儿啼哭报警装置
CN104346902A (zh) * 2014-10-15 2015-02-11 瞿洪桂 一种具有报警功能的智能穿戴设备及系统
CN107122807A (zh) * 2017-05-24 2017-09-01 努比亚技术有限公司 一种家庭监控方法、服务端及计算机可读存储介质
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN111243224A (zh) * 2018-11-09 2020-06-05 北京搜狗科技发展有限公司 一种实现报警的方法及装置
CN109658953A (zh) * 2019-01-12 2019-04-19 深圳先进技术研究院 一种婴儿哭声识别方法、装置及设备
CN111462735A (zh) * 2020-04-10 2020-07-28 网易(杭州)网络有限公司 语音检测方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117162789A (zh) * 2023-11-03 2023-12-05 中国第一汽车股份有限公司 电池热安全的控制方法、存储介质、处理器及车辆

Similar Documents

Publication Publication Date Title
CN108899037B (zh) 动物声纹特征提取方法、装置及电子设备
CN105590094B (zh) 确定人体数量的方法及装置
EP2727104B1 (en) Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
CN109389162B (zh) 样本图像筛选方法和装置、电子设备及存储介质
US9668117B2 (en) Method and device for analyzing social relationship
CN106886385A (zh) 用于提供电子设备的用户接口的方法和装置
CN110992989B (zh) 语音采集方法、装置及计算机可读存储介质
CN110992979B (zh) 一种检测方法、装置和电子设备
CN107423106A (zh) 支持多框架语法的方法和装置
CN109145679A (zh) 一种发出预警信息的方法、装置及系统
CN109087650B (zh) 语音唤醒方法及装置
CN110717399A (zh) 人脸识别方法和电子终端设备
CN108877837A (zh) 音频信号异常识别方法、装置和存储介质
WO2018214663A1 (zh) 一种基于语音的数据处理方法、装置和电子设备
CN111899760A (zh) 音频事件的检测方法、装置、电子设备及存储介质
CN111345808B (zh) 处理心电信号的方法、心电信号监测设备和存储介质
CN107301862A (zh) 一种语音识别方法、识别模型建立方法、装置及电子设备
CN108121631A (zh) 屏幕异常状态提醒方法及装置
CN107169429A (zh) 活体识别方法和装置
CN113032627A (zh) 视频分类方法、装置、存储介质及终端设备
CN109036404A (zh) 语音交互方法及装置
CN106471493A (zh) 用于管理数据的方法和装置
CN112270932A (zh) 用于智能设备的报警方法及装置、电子设备及存储介质
CN106782625A (zh) 音频处理方法和装置
CN111583958B (zh) 音频信号处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination