CN108511002A - 危险事件声音信号识别方法、终端和计算机可读存储介质 - Google Patents

危险事件声音信号识别方法、终端和计算机可读存储介质 Download PDF

Info

Publication number
CN108511002A
CN108511002A CN201810064108.5A CN201810064108A CN108511002A CN 108511002 A CN108511002 A CN 108511002A CN 201810064108 A CN201810064108 A CN 201810064108A CN 108511002 A CN108511002 A CN 108511002A
Authority
CN
China
Prior art keywords
voice signal
parameter
identification
feature parameter
hazard event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810064108.5A
Other languages
English (en)
Other versions
CN108511002B (zh
Inventor
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taicang Hongyu Intelligent Technology Co., Ltd
Original Assignee
Nubia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nubia Technology Co Ltd filed Critical Nubia Technology Co Ltd
Priority to CN201810064108.5A priority Critical patent/CN108511002B/zh
Publication of CN108511002A publication Critical patent/CN108511002A/zh
Application granted granted Critical
Publication of CN108511002B publication Critical patent/CN108511002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

本发明公开了一种危险事件声音信号识别方法、终端和计算机可读存储介质,通过对麦克风采集的声音信号进行第一识别特征参数的提取,以及对第一识别特征参数中的各参数进行融合处理得到声音信号的融合特征参数;根据预测模型以及该声音信号的融合特征参数,判断声音信号是否为危险事件发生时外界的声音信号,由于本发明的融合特征参数是基于第一识别特征参数中的各参数融合得到,可以有效地从多个角度反映出声音信号的特点,而该预测模型也是基于危险事件发生时外界的声音信号与对应的融合特征参数得到,有效保证了对危险事件发生时的声音信号的识别准确度和有效性,有利于提升用户体验,保护用户安全。

Description

危险事件声音信号识别方法、终端和计算机可读存储介质
技术领域
本发明涉及终端技术领域,更具体地说,涉及一种危险事件声音信号识别方法、终端和计算机可读存储介质。
背景技术
人们活动的公共场合如广场、公共汽车站、地铁等具有人流量大、地域广等特点,一旦发生危险,往往会导致比较严重的后果,所以一直以来公共场所的安全防范一直受到各国政府和人民的广泛关注。
各类终端作为人们日常生活中不可缺的工具,具有采集声音信号和识别声音信号的功能,所以现有技术中,已经有终端可以识别危险事件发生产生的声音并报警。众所周知,在危险事件发生时往往伴随着大声呼救声、玻璃破碎声、枪声、哭声、尖叫声等声音。对危险事件发生时伴随的声音进行识别的识别技术为终端实施监控功能的核心技术。因此,对该识别技术的研究具有重要的社会意义以及研究价值。
目前国内外多采用语音识别方法如梅尔频率倒谱系数、短时能量等方法来提取危险事件产生的呼救声、玻璃破碎声、枪声、哭声、尖叫声等声音信号,然而在某些场景下,这些声音信号如哭声、尖叫声可能不是异常的语音信号,因此这类方法提取声音信号的特征存在不足之处,对危险事件发生时外界的声音信号的识别能力不足,识别准确度不满足要求。
发明内容
本发明要解决的技术问题在于现有技术中对危险事件发生时外界的声音信号的识别能力不足,识别准确度不满足要求,针对该技术问题,提供一种危险事件声音信号识别方法、终端和计算机可读存储介质。
为解决上述技术问题,本发明提供一种危险事件声音信号识别方法,该危险事件声音信号识别方法包括:
通过麦克风采集外界的声音信号;
对声音信号进行第一识别特征参数的提取;
对第一识别特征参数中的各参数进行融合处理得到融合特征参数;
获取基于预设的危险事件发生时外界的声音信号与对应的融合特征参数得到的预测模型,根据预测模型和声音信号的融合特征参数,判断声音信号是否为危险事件发生时外界的声音信号。
可选的,对第一识别特征参数中的各参数进行融合处理得到融合特征参数包括:
获取第一识别特征参数中的各参数对预设的危险事件发生时外界的声音信号的识别能力;
根据第一识别特征参数中各参数的识别能力对第一识别特征参数中的各参数进行融合处理得到融合特征参数。
可选的,根据第一识别特征参数中各参数的识别能力对第一识别特征参数中的各参数进行融合处理得到融合特征参数包括:
分别获取第一识别特征参数中各参数的权重;其中,权重基于与权重对应的参数对各类危险事件发生时外界的声音信号的识别能力得到;
将第一识别特征参数中的各参数与其对应的权重相乘;
将各参数对应的乘积的集合确定为融合特征参数。
可选的,第一识别特征参数包括第一类时域特征参数中的至少两种参数,或者所述第一识别特征参数包括第一类时域特征参数中的至少一种参数和对所述声音信号进行滤波得到的滤波特征参数;其中,第一类时域特征参数包括可反映危险事件发生时外界声音信号特性的参数。
可选的,预测模型为基于预设的危险事件发生时外界的各类声音信号与对应的融合特征参数得到的分类预测模型;
根据预测模型和声音信号的融合特征参数,判断声音信号是否为危险事件发生时外界的声音信号包括:
根据分类预测模型和声音信号的融合特征参数,判断声音信号是否为预设的危险事件发生时外界的各类声音信号中的某一类。
可选的,若声音信号为预设的危险事件发生时外界的各类声音信号中的某一类,在判断声音信号是否为预设的危险事件发生时外界的各类声音信号中的某一类后还包括:
确定声音信号在预设的危险事件发生时外界的各类声音信号中的第一识别类型,根据第一识别类型确定用于对声音信号的第一识别类型进行再识别的第二识别特征参数;
对声音信号进行第二识别特征参数的提取,根据第二识别特征参数确定声音信号的类型是否为第一识别类型;
若是,则声音信号为危险事件发生时外界的声音信号,否则,声音信号为正常声音信号。
可选的,第二识别特征参数包括第二类时域特征参数;
对声音信号进行第二识别特征参数的提取,根据第二识别特征参数确定声音信号的类型是否为第一识别类型包括:
对声音信号进行第二类时域特征参数的提取;
判断第二类时域特征参数中各参数是否分别满足预设条件,若是,则声音信号的类型是第一识别类型,否则声音信号为正常声音信号。
可选的,预设的危险事件发生时外界的各类声音信号包括:大声呼救声、玻璃破碎声、枪声、哭声、尖叫声;
当确定声音信号的第一识别类型为大声呼救声时,第二类时域特征参数包括:平均幅度、最大幅度、方差、平坦度和峰度;预设条件包括:声音信号的平均幅度、最大幅度和方差均分别大于对应的阈值,且平坦度和峰度均分别小于对应的阈值;
当确定声音信号的第一识别类型为枪声时,第二类时域特征参数包括:平均幅度、最大幅度、方差和偏度;预设条件包括:声音信号的平均幅度、最大幅度和方差均分别大于对应的阈值,且偏度小于对应的阈值;
当确定声音信号的第一识别类型为玻璃破碎声时,第二类时域特征参数包括:平均幅度、最大幅度、方差和爬升峭度;预设条件包括:声音信号的平均幅度、最大幅度、方差和爬升峭度均分别大于对应的阈值;
当确定声音信号的第一识别类型为尖叫声时,第二类时域特征参数包括:平均幅度、最大幅度、方差、平坦度和爬升峭度;预设条件包括:平均幅度、最大幅度和方差均分别大于对应的阈值,且平坦度和爬升峭度均分别小于对应的阈值;
当确定声音信号的第一识别类型为哭声时,第二类时域特征参数包括:最大幅度、方差和爬升峭度;预设条件包括:最大幅度和方差均分别大于对应的阈值,且爬升峭度小于对应的阈值。
进一步的,本发明还提供一种终端,该终端包括处理器、存储器及通信总线;
通信总线用于实现处理器和存储器之间的连接通信;
处理器用于执行存储器中存储的一个或者多个程序,以实现如上述的危险事件声音信号识别方法的步骤。
进一步的,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如上述的危险事件声音信号识别方法的步骤。
有益效果:
本发明提出了一种危险事件声音信号识别方法、终端和计算机可读存储介质,通过对麦克风采集的声音信号进行第一识别特征参数的提取,以及对第一识别特征参数中的各参数进行融合处理得到声音信号的融合特征参数;根据基于预设的危险事件发生时外界的声音信号与对应的融合特征参数得到的预测模型,以及该声音信号的融合特征参数,判断声音信号是否为危险事件发生时外界的声音信号,由于融合特征参数是基于对第一识别特征参数中的各参数融合得到,可以有效地从多个角度反映出声音信号的特点,而该预测模型也是基于危险事件发生时外界的声音信号与对应的融合特征参数得到,有效保证了对危险事件发生时的声音信号的识别准确度和有效性,有利于提升用户体验,保护用户安全。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为实现本发明各个实施例一个可选的终端的电气结构示意图。
图2为本发明第一实施例提供的一种危险事件声音信号识别方法的流程图;
图3为本发明第一实施例提供的一种用户提示界面的示意图;
图4为本发明第一实施例提供的另一种用户提示界面的示意图;
图5为本发明第二实施例提供的一种对声音信号进行两级识别的原理框图;
图6为本发明第二实施例提供的另一种危险事件声音信号识别方法的流程图;
图7为本发明第三实施例提供的一种终端的结构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明的终端可以是具有可弯曲的终端,该终端的显示屏可以是柔性屏,本发明的终端可以以各种形式来实施。例如,本发明中描述的终端可以是诸如手机、平板电脑、笔记本电脑、掌上电脑、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环等移动终端,以及诸如数字TV、台式计算机等固定终端。
后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
请参阅图1,其为实现本发明各个实施例的一种移动终端的硬件结构示意图,该移动终端100可以包括:RF(Radio Frequency,射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对移动终端的各个部件进行具体的介绍:
射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将基站的下行信息接收后,给处理器110处理;另外,将上行的数据发送给基站。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA2000(Code Division Mul tiple Access 2000,码分多址2000)、WCDMA(Wideband Code Divis ionMultiple Access,宽带码分多址)、TD-SCDMA(Time Divis ion-Synchronous Code Division Multiple Access,时分同步码分多址)、FDD-LTE(Frequency Divis ion Duplexing-Long Term Evolution,频分双工长期演进)和TDD-LTE(Time Divis ion Duplexing-LongTerm Evolution,分时双工长期演进)等。
WiFi属于短距离无线传输技术,移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102,但是可以理解的是,其并不属于移动终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。
A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Process ing Uni t,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
移动终端100还包括至少一种传感器105,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,接近传感器可在移动终端100移动到耳边时,关闭显示面板1061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。
用户输入单元107可用于接收输入的数字或字符信息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括其他输入设备1072。具体地,其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。
进一步的,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能,具体此处不做限定。
接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器110是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以及调用存储在存储器109内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
移动终端100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图1未示出,移动终端100还可以包括蓝牙模块等,在此不再赘述。
第一实施例:
目前,现有技术中一般通过梅尔频率倒谱系数、短时能量等方法来识别危险事件产生时外界的声音信号,但是这些现有技术中的识别方式在提取声音信号的特征方面存在不足之处,对于采集的声音信号是否为危险事件产生时外界的声音信号的判断存在准确度不足的缺点,不能满足对声音信号的准确识别的要求。为了提升对危险事件产生时外界的声音信号的识别准确度,本实施例提出一种危险事件声音信号识别方法,如图2所示,该危险事件声音信号识别方法包括:
S201、通过麦克风采集外界的声音信号;
本实施例中,终端通过麦克风来采集外界的声音信号,为了保证声音信号在后续步骤中的识别准确度,可以先采取措施保证采集的声音信号的质量。例如在S201中,通过多个麦克风采集外界的声音信号,进一步的,在对声音信号进行处理时可以通过对多个麦克风采集的声音信号进行降噪等处理来提升声音信号的质量。
可以预见,若麦克风一直处于采集状态,不仅会浪费终端的电量,降低其续航能力,还会占用终端大量的计算资源。为了避免这种情况的发生,可选的,本实施例中麦克风可以按照预设的时间间隔采集外界的声音信号,或者在终端上预先设置采集地点,当用户的当前位置属于预先设置的采集地点时,开启麦克风采集外界的声音信号;可选的,通过麦克风采集外界的声音信号包括:通过麦克风按照预设的时间间隔采集外界的声音信号;或在终端的当前位置属于预先设置的采集地点时,通过麦克风采集外界的声音信号。
S202、对声音信号进行第一识别特征参数的提取;
其中,第一识别特征参数可以是时域的参数和/或频域的参数,本实施例对此没有限制。
进一步的,第一识别特征参数包括第一类时域特征参数中的至少两种参数,或者第一识别特征参数包括第一类时域特征参数中的至少一种参数和对声音信号进行滤波得到的滤波特征参数;其中,第一类时域特征参数包括可反映危险事件发生时外界声音信号特性的参数。
危险事件发生时外界声音信号一般地具有突发性、振幅变化明显、能量集中的特性中的至少一个特性,所以第一类时域特征参数可以包括反映声音信号是否具有突发性和/或振幅变化是否明显和/或能量是否集中的参数。可选的,本实施例中第一类时域特征参数的类型包括但不限于平均短时能量、峰度、偏度、质心。
在一个示例中,声音信号的第一识别特征参数包括声音信号的平均短时能量、峰度、偏度、质心中的至少两种参数;在另一个示例中,声音信号的第一识别特征参数包括声音信号的平均短时能量、峰度、偏度、质心中的至少一种参数以及声音信号的滤波特征参数。
可以预见,在后一个示例中S202中对声音信号进行第一识别特征参数的提取必定包含对声音信号进进行滤波得到滤波特征参数的步骤。
可以理解的是,本实施例对声音信号进行滤波前还包括对声音信号进行诸如FFT(Fast Fourier Transformat ion,快速傅氏变换)变换的处理。可选的,本实施例可以采用诸如矩形滤波器和三角形滤波器等滤波器实现对声音信号的滤波处理。滤波特征参数包括但不限于滤波器滤波后声音信号的横坐标的集合。但是考虑到三角形滤波有交叉的缺点,采用矩形滤波器更优。
本实施例对得到声音信号的滤波特征参数的过程进行如下的说明。
假设采集的声音信号设为Y,对Y进行预加重、分帧、加窗后得到声音信号每帧的时域信号x(n)帧信号,对每一帧信号做傅里叶变换(FFT)得到频域信号X(k)。X(k)可以表示为如下:
式中,X(k)为频域信号,x(n)为时域信号,k为采样点数,N为周期。将处理后的声音信号的频谱X(k)经过归一化、求和、再取对数可得到采集的声音信号的统计幅度谱S(k)。获取预设的矩形滤波器,对该声音信号进行滤波得到滤波特征参数。
其中,预设的矩形滤波器可以是在S201之前,在得到S204中的预测模型时对预设的危险事件发生时外界的声音信号进行滤波的矩形滤波器。该矩形滤波器为根据预设的危险事件发生时外界的声音信号的统计幅度谱S(k),按照曲线线下面积相同的原则在傅里叶频谱上设计矩形滤波器的边界线得到。
可以预见,在后一个示例中,S202中对声音信号进行第一识别特征参数的提取还包括对声音信号进行第一类时域特征参数的提取的步骤。
本实施例中,对声音信号进行第一类时域特征参数的提取包括:提取声音信号的平均短时能量、峰度、偏度、质心中的至少一种。
如下列的公式所示,平均短时能量峰度K、偏度S、质心R这四类时域特征
S203、对第一识别特征参数中的各参数进行融合处理得到融合特征参数;
本实施例中的融合处理是对第一识别特征参数中的各参数例如第一类时域特征参数中的至少两种参数,或对滤波特征参数和第一类时域特征参数中的至少一种参数进行融合处理。可选的,融合处理可以是直接将第一识别特征参数中的各参数作为构成融合特征参数的一部分。为了增加识别的准确性,本实施例中还可以根据第一识别特征参数中的各参数对危险事件发生时外界的声音信号的识别能力来进行融合。
可选的,对第一识别特征参数中的各参数进行融合处理得到融合特征参数包括:
获取第一识别特征参数中的各参数对预设的危险事件发生时外界的声音信号的识别能力;
根据第一识别特征参数中各参数的识别能力对第一识别特征参数中的各参数进行融合处理得到融合特征参数。
可选的,根据第一识别特征参数中各参数的识别能力对第一识别特征参数中的各参数进行融合处理得到融合特征参数包括:
分别获取第一识别特征参数中各参数的权重;其中,权重基于与权重对应的参数对各类危险事件发生时外界的声音信号的识别能力得到;
将第一识别特征参数中的各参数与其对应的权重相乘;
将各参数对应的乘积的集合确定为融合特征参数。
在本实施例中各参数的权重可以是预先就设置好的,或者根据各参数的识别能力实时确定的。可选的,获取第一识别特征参数中各参数的权重的方式包括:从本地获取预存的第一识别特征参数中各参数的权重;通过网络从服务器/其他终端获取第一识别特征参数中各参数的权重。
在S201之前,可以通过以下的方法计算出第一识别特征参数中各参数的权重。
获取声音文件,声音文件中包括预设的危险事件发生时外界的各类声音信号,其中每一类声音信号的数量均不低于预设阈值;可选的,声音文件中包含的声音信号包括枪声、玻璃破碎声、尖叫声、哭声、大声呼救声等。
对声音文件中的各声音信号分别获取第一识别特征参数;
分别通过第一识别特征参数中的各参数对声音文件中的各个声音信号进行类型的识别;
确定通过第一识别特征参数中的各参数识别出的各类声音信号的实际数量;
根据第一识别特征参数中的各参数各自识别出的各类声音信号的实际数量,以及声音文件中各类声音信号的数量,确定第一识别特征参数中的各参数的权重。
其中,可以理解的是,根据第一识别特征参数中的某参数识别出声音文件中各类声音信号的实际数量越多,其识别能力也就越大。
下面结合具体的例子对融合特征参数的计算过程进行示例说明。
计算融合特征参数,需先得到每类特征参数的分类权重,权重的计算过程如下(一般在本实施例的S201之前进行):假设第一识别特征参数中仅包含滤波特征参数、平均短时能量、峰度、偏度、质心这五种特征参数,权重的确定根据每类特征参数的分类能力来确定。
假设选择包含大声呼救声、玻璃破碎声、枪声、哭声、尖叫声这五类危险事件发生时外界的声音信号样本作为测试集计算第一识别特征参数中每类特征参数的权重,用Ni(i=1,2,..5)表示五类声音信号样本,令M={M1,M2,M3,M4,M5}中的Mi表示测试集中第Ni类声音信号的个数。
计算包含滤波特征参数、平均短时能量、峰度、偏度、质心这五种特征参数的权重,需要对利用五类特征参数xi(i=1,2..5),分别单独对上述的测试集进行分类识别,得到分类结果m={m1,m2,m3,m4,m5},mi表示识别为第Ni类声音信号的个数,则特征参数xi的权重表示为如下:
上式中,Zki表示每类特征参数对大声呼救声、玻璃破碎声、枪声、哭声、尖叫声这五类声音的分类识别能力,且Zki=mi/Mi
(2)针对滤波特征参数、平均短时能量、峰度、偏度、质心这五类特征参数的权重Zk(k=1,2…5),五类特征参数xi与分别与对应的权重Zk相乘得到最终的融合特征参数v,v可以表示为如下所示:
v=[x1*Z1,x2*Z2,x3*Z3,x4*Z4,x5*Z5]
S204、获取基于预设的危险事件发生时外界的声音信号与对应的融合特征参数得到的预测模型,根据预测模型和声音信号的融合特征参数,判断声音信号是否为危险事件发生时外界的声音信号。
可以理解的是,若判断结果为声音信号为危险事件发生时外界的声音信号,则可以判断当前发生了危险事件,终端可以直接拨打预设的报警电话进行报警,或拨打预设的呼救电话进行呼救,或通过语音、震动、文字/图形显示等方式提示用户外界发生危险,需要进行自救。
在上述示例中,预测模型基于预设的危险事件发生时外界的声音信号与对应的融合特征参数得到,考虑到危险事件发生时外界的声音信号的类型有多种,为了能在声音信号为危险事件发生时外界的声音信号时,直接就判断出声音信号属于哪一类声音信号,本实施例中,预测模型还具有对声音信号进行分类的作用。可选的,预测模型为基于预设的危险事件发生时外界的各类声音信号与对应的融合特征参数得到的分类预测模型。例如,该分类预测模型中包含了预设的危险事件发生时外界的各类声音信号,以及与各类声音信号对应的融合特征参数,例如分类预测模型中包含大声呼救声以及大声呼救声的融合特征参数的对应关系、玻璃破碎声以及玻璃破碎声的融合特征参数的对应关系、枪声以及枪声的融合特征参数的对应关系、哭声以及哭声的融合特征参数的对应关系、尖叫声以及尖叫声的融合特征参数的对应关系。
可选的,根据预测模型和声音信号的融合特征参数,判断声音信号是否为危险事件发生时外界的声音信号包括:
根据分类预测模型和声音信号的融合特征参数,判断声音信号是否为预设的危险事件发生时外界的各类声音信号中的某一类。
可以理解的是,若根据分类预测模型判断出该声音信号不是预设的危险事件发生时外界的各类声音信号,则该声音信号为正常的声音信号。
在另一个示例中,也可以在分类预测模型中还增加一个正常声音信号与该正常声音信号的融合特征参数的对应关系,通过分类预测模型来还可以识别声音信号是否为正常声音信号。其中,计算该正常声音信号的融合特征参数的过程与计算上述预设的危险事件发生时外界的各类声音信号的融合特征参数的过程类似,在此不再赘述。
当分类预测模型中包括危险事件发生时外界的各类声音信号与各类声音信号的融合特征参数的对应关系,以及正常声音信号与该正常声音信号的融合特征参数的对应关系时,根据分类预测模型和声音信号的融合特征参数,判断声音信号是否为预设的危险事件发生时外界的各类声音信号中的某一类时,具体判断的是声音信号是正常声音信号,还是危险事件发生时外界的各类声音信号中的某一类。
通过上述的第一级的识别,根据分类预测模型一般可以准确地识别出麦克风采集的声音信号是否为危险事件发生时外界的声音信号,为了进一步提升本实施例中对危险事件发生时外界的声音信号的识别准确度,继而提升对危险事件的准确判断,保护用户的安全,在第一级识别之后,若声音信号不是正常声音信号,本实施例还提供对声音信号的第二级识别。
可选的,若声音信号为预设的危险事件发生时外界的各类声音信号中的某一类,在判断声音信号是否为预设的危险事件发生时外界的各类声音信号中的某一类后还包括:
确定声音信号在预设的危险事件发生时外界的各类声音信号中的第一识别类型,根据第一识别类型确定用于对声音信号的第一识别类型进行再识别的第二识别特征参数;
对声音信号进行第二识别特征参数的提取,根据第二识别特征参数确定声音信号的类型是否为第一识别类型;
若是,则确定声音信号为危险事件发生时外界的声音信号,否则,确定声音信号为正常声音信号。
在上述的第二级识别过程中,第二识别特征参数是与第一级识别过程识别出的声音信号的第一识别类型对应的,例如若第一级识别过程识别出麦克风采集的声音信号为枪声,则上述的第二级识别特征参数是用于识别枪声的参数,其可以反映出枪声具有的某些特性;若第一级识别过程识别出麦克风采集的声音信号为大声呼救声,则上述的第二级识别特征参数是用于识别大声呼救声的参数,其可以反映出大声呼救声具有的某些特性。其中,第二识别特征参数可以包括时域参数和/或频域参数,本实施例对此没有限定。甚至对于如大声呼救声等声音信号,第二识别特征参数还可以包括呼救的具体内容。
可以理解的是,在第二级识别中,为了保证对各类声音信号的类型的再识别的准确度,各类声音信号的第二识别特征参数是针对各个类型声音信号的特性设置的,其包括的具体参数的数量和类型可以不同。
可选的,本实施例中第二识别特征参数包括第二类时域特征参数;
对声音信号进行第二识别特征参数的提取,根据第二识别特征参数确定声音信号的类型是否为第一识别类型包括:
对声音信号进行第二类时域特征参数的提取;
判断第二类时域特征参数中各参数是否分别满足预设条件,若是,则确定声音信号的类型是第一识别类型,否则确定声音信号为正常声音信号。
上述的第二类时域特征参数包括但不限于平均幅度、最大幅度、方差、平坦度、峰度、偏度、爬升峭度,对于不同类型的危险事件发生时外界的声音信号,其第二类时域特征参数中的时域特征参数数量和/或类型不同。
其中,对于平均幅度、最大幅度、方差、峰度、偏度的定义分别如下所示:
其中是指输入的声音信号的均值,σ2是指输入的声音信号的方差,σ是指输入的声音信号的标准差。
对于平坦度的定义为:将输入的声音信号分成n帧,每帧长为512,我们把能量最大帧的幅度与平均幅度的比值作为平坦度。
对于爬升峭度的定义为:将输入的声音信号分成n帧,每帧长为512,爬升峭度K定义如下所示:
式中,s1为第一个幅度绝对值的和大于等于m/6的中点坐标,s2为第一个幅度绝对值的和大于等于m/2的帧的中点坐标,m为绝对值最大帧的绝对值幅度和。
可选的,预设的危险事件发生时外界的各类声音信号包括:大声呼救声、玻璃破碎声、枪声、哭声、尖叫声;
当在第一级识别过程中确定声音信号的第一识别类型为大声呼救声时,第二类时域特征参数包括:平均幅度、最大幅度、方差、平坦度、峰度;预设条件包括:声音信号的平均幅度、最大幅度、方差均分别大于对应的阈值,且平坦度、峰度均分别小于对应的阈值;
判断第二类时域特征参数中各参数是否分别满足预设条件,若是,则确定声音信号的类型是第一识别类型,否则确定声音信号为正常声音信号包括:
判断声音信号的平均幅度、最大幅度、方差均是否均大于对应的阈值,且平坦度、峰度是否均小于对应的阈值;若是,则声音信号的类型是大声呼救声,否则声音信号为正常的声音信号。
当在第一级识别过程中确定声音信号的第一识别类型为枪声时,第二类时域特征参数包括:平均幅度、最大幅度、方差、偏度;预设条件包括:声音信号的平均幅度、最大幅度、方差均分别大于对应的阈值,且偏度小于对应的阈值;
判断第二类时域特征参数中各参数是否分别满足预设条件,若是,确定声音信号的类型是第一识别类型,否则确定声音信号为正常声音信号包括:
判断声音信号的平均幅度、最大幅度、方差是否均分别大于对应的阈值,且偏度是否小于对应的阈值;若是,则声音信号的类型是枪声,否则声音信号为正常的声音信号;
当在第一级识别过程中确定声音信号的第一识别类型为玻璃破碎声时,第二类时域特征参数包括:平均幅度、最大幅度、方差、爬升峭度;预设条件包括:声音信号的平均幅度、最大幅度、方差、爬升峭度均分别大于对应的阈值;
判断第二类时域特征参数中各参数是否分别满足预设条件,若是,确定声音信号的类型是第一识别类型,否则确定声音信号为正常声音信号包括:
判断声音信号的平均幅度、最大幅度、方差、爬升峭度是否均分别大于对应的阈值;若是,则声音信号的类型是玻璃破碎声,否则声音信号为正常的声音信号。
当在第一级识别过程中确定声音信号的第一识别类型为尖叫声时,第二类时域特征参数包括:平均幅度、最大幅度、方差、平坦度、爬升峭度;预设条件包括:平均幅度、最大幅度、方差均分别大于对应的阈值,且平坦度与爬升峭度分别小于对应的阈值;
判断第二类时域特征参数中各参数是否分别满足预设条件,若是,确定声音信号的类型是第一识别类型,否则确定声音信号为正常声音信号包括:
判断声音信号的平均幅度、最大幅度、方差是否均分别大于对应的阈值,且平坦度与爬升峭度是否均分别小于对应的阈值;若是,则声音信号的类型是尖叫声,否则声音信号为正常的声音信号。
当在第一级识别过程中确定声音信号的第一识别类型为哭声时,第二类时域特征参数包括:最大幅度、方差、爬升峭度;预设条件包括:最大幅度、方差均分别大于对应的阈值,且爬升峭度小于对应的阈值;
判断第二类时域特征参数中各参数是否分别满足预设条件,若是,确定声音信号的类型是第一识别类型,否则确定声音信号为正常声音信号包括:
判断声音信号的最大幅度、方差是否均分别大于对应的阈值,且爬升峭度小于对应的阈值;若是,则声音信号的类型是哭声,否则声音信号为正常的声音信号。
可以理解的是,对于不同类型的声音信号,即使其第二类时域特征参数中存在相同类型的时域特征参数,该时域特征参数对应的阈值也可以不同。例如哭声和尖叫声的第二类时域特征参数中都存在最大幅度,但是对于哭声和尖叫声而言,该最大幅度对应的阈值可以设置为不同的值。
在第二级识别完成后,若声音信号为预设的危险事件发生时外界的各类声音信号中的某一类,则终端可以确定外界发生危险事件。当存在上述的第二级识别过程时,上述对报警电话、呼叫电话的拨打以及对用户的提示等可以在第二级识别过程结束后进行。可选的,若根据第二识别特征参数确定声音信号的类型是第一识别类型,则在根据第二识别特征参数确定声音信号的类型是第一识别类型后,还包括:按照预设方式拨打报警电话或呼救电话;或,按照预设提醒方式对用户进行提醒。
在一个示例中,如图3所示,终端可以在提醒用户的同时,询问用户是否拨打报警电话进行报警。在一个示例中,若通过第一、二级分类识别方法确定声音信号为枪声,则终端还可以根据枪声的声音信号判断枪声距离用户的方位,在对用户进行提示时,如图4所示,将枪声的方位提示给用户,以便用户快速寻找掩体或者便于用户逃跑。
采用本实施例的危险事件声音信号识别方法,通过两级识别,可以准确、快速地识别外界的声音信号中是否包括危险事件发生时的声音信号,进而判断外界是否发生危险事件,以及在外界发生危险事件时,直接报警或提示用户避难,保障用户安全。
第二实施例:
下面结合图5和图6对实施例一中的危险事件声音信号识别方法进行详细的示例说明,如图5所示,本实施例中会对声音信号进行两级识别-第一级分类识别和第二级分类识别,第一级分类识别中会提取滤波特征参数和第一类时域特征参数,之后对这些参数进行特征融合处理得到融合特征参数,根据融合特征参数进行分类预测模型识别可以识别出声音信号是正常的声音信号还是危险事件发生时外界的某一类声音信号,第二级分类识别可以根据第一级识别出的声音信号的类型来获取其对应的第二类时域特征参数,根据该第二类时域特征参数来进一步确认该声音信号的类型。
如图6所示,本实施例的危险事件声音信号识别方法包括:
S601、建立声音数据库:采集包含正常声音信号,危险事件发生时产生的大声呼救声、玻璃破碎声、枪声、哭声、尖叫声的声音文件建立声音数据库。
其中,各类声音信号的数量不低于预设阈值,例如不低于1000个。
S602、提取声音文件中各声音信号的第一识别特征参数:第一识别特征参数包括对声音信号进行滤波得到的滤波特征参数,以及第一类时域特征参数(包括平均短时能量、峰度、偏度、质心等时域特征)。
1)对声音文件中的每一类声音信号的滤波特征参数的获取过程如下所示:
假设输入的声音信号设为Y,对Y进行预加重、分帧、加窗后得到声音事件每帧的时域信号x(n)帧信号,对每一帧信号做傅里叶变换(FFT)得到频域信号X(k)。X(k)可以表示为如下:
式中,X(k)为频域信号,x(n)为时域信号,k为采样点数,N为周期。
通过上述步骤获取声音文件中各类声音信号(正常声音信号,危险事件发生时产生的大声呼救声、玻璃破碎声、枪声、哭声、尖叫声)的,对各类声音信号的频谱X(k)经过归一化、求和再取对数可得各类声音信号的统计幅度谱S(k)。根据统计幅度谱S(k)按照曲线线下面积相同的原则,在傅里叶频谱上设计矩形滤波器的边界线,根据设计好的矩形滤波器对各类声音信号进行滤波就得到了各类声音信号的滤波特征参数。
2)针对危险事件发生时外界的声音信号的突发性、振幅变化明显、能量集中的特点,求取声音文件中各类声音信号的平均短时能量峰度K、偏度S、质心R这四类时域特征参数,各时域特征参数的定义如下所示:
S603、对声音文件中各声音信号的第一识别特征参数进行融合:采用特征加权融合方法对声音文件中各声音信号的滤波特征参数、平均短时能量、峰度、偏度、质心这五种特征参数进行特征融合处理,得到声音文件的各声音信号的融合特征参数。
可选的,获取声音文件中各声音信号的融合特征参数的方法具体包括:
获取声音信号滤波特征参数、平均短时能量、峰度、偏度、质心五种特征参数的权重,将各个特征参数与其权重的乘积的集合作为声音信号的融合特征参数。
可选的,融合特征参数的计算过程如下:
第一识别特征参数中仅包含滤波特征参数、平均短时能量、峰度、偏度、质心这五种特征参数,需要对五类特征参数进行加权,权重的确定根据每类特征参数的分类能力来确定。
选择包含大声呼救声、玻璃破碎声、枪声、哭声、尖叫声以及正常声音信号这六类声音样本作为测试集计算每类特征参数的权重,用Ni,(i=1,2,..6)表示六类声音样本,令M={M1,M2,M3,M4,M5,M6},Mi表示测试集中第Ni类的个数。计算包含滤波特征参数、平均短时能量、峰度、偏度、质心这五种特征参数的权重,需要对五类特征参数xi(i=1,2..5),分别单独对测试集中的声音信号进行分类识别,得到各类声音信号的分类结果m={m1,m2,m3,m4,m5,m6},mi表示识别为第Ni类声音信号的个数,则特征xi的权重表示为如下:
上式中,Zki表示每类特征参数对大声呼救声、玻璃破碎声、枪声、哭声、尖叫声以及正常声音这六类声音的分类识别能力,且Zki=mi/Mi
(2)针对滤波特征参数、平均短时能量、峰度、偏度、质心这五类特征的权重(k=1,2…5),五类特征参数xi与权重Zk相乘得到最终的融合特征参数v,v可以表示为如下所示:
v=[x1*Z1,x2*Z2,x3*Z3,x4*Z4,x5*Z5]
S604、根据声音文件中各声音信号的融合特征参数建立分类预测模型:在已经建立的包含危险事件发生时产生的大声呼救声、玻璃破碎声、枪声、哭声、尖叫声以及正常声音信号的声音数据库中对每类声音信号选取一定数量样本,提取各类声音信号的样本中声音信号的融合特征参数作为建立分类预测模型的训练样本库,并构建分类预测模型。
S605、通过麦克风采集外界的声音信号,获取该声音信号的第一识别特征参数;
S606、对该第一识别参数进行融合处理得到声音信号的融合特征参数v1
可选的,在得到融合特征参数时,先获取S603中计算得到的第一识别特征参数中各参数的权重,根据该权重对第一识别参数进行融合处理得到融合特征参数v1
S607、根据融合特征参数v1以及分类预测模型得到第一级分类识别结果:识别结果是声音信号为正常声音信号则结束当前步骤,否则进入S608。
在S607中,若声音信号是危险事件发生时外界的声音信号,则该第一级分类识别可以识别出声音信号具体为危险事件发生时外界的各类声音信号中的哪一类,例如为枪声、玻璃破碎声。
S608、根据第一级分类识别结果获取声音信号的第一识别类型,根据该第一识别类型获取声音信号的第二类时域特征参数,根据该第二类时域特征参数对声音信号进行第二级分类识别。
可选的,根据该第二类时域特征参数对声音信号进行第二级分类识别包括:如果第二类时域特征参数中各参数的参数值分别满足约定的阈值条件,则该声音信号的类型是第一识别类型,该声音信号识别为危险事件发生时外界的声音信号;否则该声音信号为正常声音信号。
在第二级识别后,若该声音信号识别为危险事件发生时外界的声音信号,则自动自动拨打报警电话或提示用户保护自己的人身安全。
声音信号的第二类时域特征参数包括:平均幅度、最大幅度、方差、平坦度、峰度、偏度、爬升峭度。针对每种声音信号第二类时域特征参数中包含的各参数不同,主要如下所示:
①针对大声呼救声,第二类时域特征参数选取:平均幅度、最大幅度、方差、平坦度、峰度。当第一级识别过程识别出声音信号为大声呼救声时,在第二级识别过程中求得声音信号的平均幅度、最大幅度、方差均分别大于约定的阈值且平坦度与峰度均分别小于约定的阈值时确定该声音信号为大声呼救声,否则为正常声音信号。
②针对枪声,第二类时域特征参数选取:平均幅度、最大幅度、方差、偏度。当第一级识别过程识别出声音信号为枪声时,在第二级识别过程中求得声音信号的平均幅度、最大幅度、方差均分别大于约定的阈值且偏度小于约定的阈值时确定该声音信号为枪声,否则为正常声音信号。
③针对玻璃破碎声,第二类时域特征参数选取:平均幅度、最大幅度、方差、爬升峭度。当第一级识别过程识别出声音信号为玻璃破碎声时,在第二级识别过程中求得声音信号的平均幅度、最大幅度、方差、爬升峭度均分别大于约定的阈值时确定该声音信号为玻璃破碎声,否则为正常声音信号。
④针对尖叫声,第二类时域特征参数选取:平均幅度、最大幅度、方差、平坦度、爬升峭度。当第一级识别过程识别出声音信号为尖叫声时,在第二级识别过程中求得声音信号的平均幅度、最大幅度、方差均分别大于约定的阈值且平坦度与爬升峭度均分别小于约定的阈值时确定该声音信号为尖叫声,否则为正常声音信号。
⑤针对哭声,第二类时域特征参数选取:最大幅度、方差、爬升峭度。当第一级识别过程识别出声音信号为哭声时,在第二级识别过程中求得声音信号的最大幅度、方差均分别大于约定的阈值且爬升峭度小于约定的阈值时确定该声音信号为哭声,否则为正常声音信号。
其中,对于平均幅度、最大幅度、方差、峰度、偏度、平坦度、爬升峭度的定义参见实施例一的相关叙述,在此不再赘述。
本实施例的危险事件声音信号识别方法,结合预设的危险事件发生时的声音信号的特点采用两级分类识别的方式对正常声音信号,危险事件发生时产生的大声呼救声、玻璃破碎声、枪声、哭声和尖叫声进行分类,有效提升了危险事件发生时的声音信号的识别准确度,有利于保护用户的人身安全。
第三实施例:
如图7所示,本实施例提出一种终端,该终端包括处理器71、存储器72及通信总线73;
通信总线73用于实现处理器71和存储器72之间的连接通信;
处理器71用于执行存储器72中存储的一个或者多个程序,以实现如实施例一或实施例二提出的危险事件声音信号识别方法的步骤。
本实施例还提出一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如实施例一或实施例二提出的危险事件声音信号识别方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种危险事件声音信号识别方法,其特征在于,包括:
通过麦克风采集外界的声音信号;
对所述声音信号进行第一识别特征参数的提取;
对所述第一识别特征参数中的各参数进行融合处理得到融合特征参数;
获取基于预设的危险事件发生时外界的声音信号与对应的融合特征参数得到的预测模型,根据所述预测模型和所述声音信号的融合特征参数,判断所述声音信号是否为危险事件发生时外界的声音信号。
2.如权利要求1所述的危险事件声音信号识别方法,其特征在于,所述对所述第一识别特征参数中的各参数进行融合处理得到融合特征参数包括:
获取所述第一识别特征参数中的各参数对预设的危险事件发生时外界的声音信号的识别能力;
根据所述第一识别特征参数中各参数的所述识别能力对所述第一识别特征参数中的各参数进行融合处理得到融合特征参数。
3.如权利要求2所述的危险事件声音信号识别方法,其特征在于,所述根据所述第一识别特征参数中各参数的所述识别能力对所述第一识别特征参数中的各参数进行融合处理得到融合特征参数包括:
分别获取所述第一识别特征参数中各参数的权重;其中,所述权重基于与所述权重对应的参数对各类危险事件发生时外界的声音信号的识别能力得到;
将所述第一识别特征参数中的各参数与其对应的权重相乘;
将所述各参数对应的乘积的集合确定为融合特征参数。
4.如权利要求1-3任一项所述的危险事件声音信号识别方法,其特征在于,所述第一识别特征参数包括第一类时域特征参数中的至少两种参数,或者所述第一识别特征参数包括第一类时域特征参数中的至少一种参数和对所述声音信号进行滤波得到的滤波特征参数;其中,所述第一类时域特征参数包括可反映危险事件发生时外界声音信号特性的参数。
5.如权利要求1-3任一项所述的危险事件声音信号识别方法,其特征在于,所述预测模型为基于预设的危险事件发生时外界的各类声音信号与对应的融合特征参数得到的分类预测模型;
所述根据所述预测模型和所述声音信号的融合特征参数,判断所述声音信号是否为危险事件发生时外界的声音信号包括:
根据所述分类预测模型和所述声音信号的融合特征参数,判断所述声音信号是否为预设的危险事件发生时外界的各类声音信号中的某一类。
6.如权利要求5所述的危险事件声音信号识别方法,其特征在于,若所述声音信号为预设的危险事件发生时外界的各类声音信号中的某一类,在所述判断所述声音信号是否为预设的危险事件发生时外界的各类声音信号中的某一类后还包括:
确定所述声音信号在所述预设的危险事件发生时外界的各类声音信号中的第一识别类型,根据所述第一识别类型确定用于对所述声音信号的所述第一识别类型进行再识别的第二识别特征参数;
对所述声音信号进行所述第二识别特征参数的提取,根据所述第二识别特征参数确定所述声音信号的类型是否为所述第一识别类型;
若是,则确定所述声音信号为危险事件发生时外界的声音信号,否则,确定所述声音信号为正常声音信号。
7.如权利要求6所述的危险事件声音信号识别方法,其特征在于,所述第二识别特征参数包括第二类时域特征参数;
所述对所述声音信号进行所述第二识别特征参数的提取,根据所述第二识别特征参数确定所述声音信号的类型是否为所述第一识别类型包括:
对所述声音信号进行第二类时域特征参数的提取;
判断所述第二类时域特征参数中各参数是否分别满足预设条件,若是,则确定所述声音信号的类型是所述第一识别类型,否则确定所述声音信号为正常声音信号。
8.如权利要求7所述的危险事件声音信号识别方法,其特征在于,所述预设的危险事件发生时外界的各类声音信号包括:大声呼救声、玻璃破碎声、枪声、哭声、尖叫声;
当确定所述声音信号的所述第一识别类型为大声呼救声时,所述第二类时域特征参数包括:平均幅度、最大幅度、方差、平坦度和峰度;所述预设条件包括:所述声音信号的平均幅度、最大幅度和方差均分别大于对应的阈值,且平坦度和峰度均分别小于对应的阈值;
当确定所述声音信号的所述第一识别类型为枪声时,所述第二类时域特征参数包括:平均幅度、最大幅度、方差和偏度;所述预设条件包括:所述声音信号的平均幅度、最大幅度和方差均分别大于对应的阈值,且偏度小于对应的阈值;
当确定所述声音信号的所述第一识别类型为玻璃破碎声时,所述第二类时域特征参数包括:平均幅度、最大幅度、方差和爬升峭度;所述预设条件包括:所述声音信号的平均幅度、最大幅度、方差和爬升峭度均分别大于对应的阈值;
当确定所述声音信号的所述第一识别类型为尖叫声时,所述第二类时域特征参数包括:平均幅度、最大幅度、方差、平坦度和爬升峭度;所述预设条件包括:所述平均幅度、最大幅度和方差均分别大于对应的阈值,且平坦度和爬升峭度均分别小于对应的阈值;
当确定所述声音信号的所述第一识别类型为哭声时,所述第二类时域特征参数包括:最大幅度、方差和爬升峭度;所述预设条件包括:所述最大幅度和方差均分别大于对应的阈值,且爬升峭度小于对应的阈值。
9.一种终端,其特征在于,所述终端包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的一个或者多个程序,以实现如权利要求1至8中任一项所述的危险事件声音信号识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至8中任一项所述的危险事件声音信号识别方法的步骤。
CN201810064108.5A 2018-01-23 2018-01-23 危险事件声音信号识别方法、终端和计算机可读存储介质 Active CN108511002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810064108.5A CN108511002B (zh) 2018-01-23 2018-01-23 危险事件声音信号识别方法、终端和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810064108.5A CN108511002B (zh) 2018-01-23 2018-01-23 危险事件声音信号识别方法、终端和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108511002A true CN108511002A (zh) 2018-09-07
CN108511002B CN108511002B (zh) 2020-12-01

Family

ID=63374853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810064108.5A Active CN108511002B (zh) 2018-01-23 2018-01-23 危险事件声音信号识别方法、终端和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108511002B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109407559A (zh) * 2018-10-15 2019-03-01 合肥世忠科技开发有限公司 一种智能安全护栏自动控制系统
CN109754819A (zh) * 2018-12-29 2019-05-14 努比亚技术有限公司 一种数据处理方法、装置及存储介质
CN109785866A (zh) * 2019-03-07 2019-05-21 上海电力学院 基于相关函数最大值的广播语音与噪声检测的方法
CN109947248A (zh) * 2019-03-14 2019-06-28 努比亚技术有限公司 振动控制方法、移动终端及计算机可读存储介质
CN110033198A (zh) * 2019-04-19 2019-07-19 北京邮电大学 一种危险预测方法及装置
CN111398965A (zh) * 2020-04-09 2020-07-10 电子科技大学 基于智能穿戴设备的危险信号监控方法、系统和穿戴设备
CN112185415A (zh) * 2020-09-10 2021-01-05 珠海格力电器股份有限公司 声音可视化方法及装置、存储介质、mr混合现实设备
CN112634883A (zh) * 2019-09-24 2021-04-09 音频分析有限公司 控制用户界面
CN112863550A (zh) * 2021-03-01 2021-05-28 德鲁动力科技(成都)有限公司 基于注意力残差学习的哭声检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753992A (zh) * 2008-12-17 2010-06-23 深圳市先进智能技术研究所 一种多模态智能监控系统和方法
WO2010109725A1 (ja) * 2009-03-26 2010-09-30 株式会社東芝 音声処理装置、音声処理方法、及び、音声処理プログラム
US8195455B2 (en) * 2008-02-19 2012-06-05 Samsung Electronics Co., Ltd Apparatus and method for sound recognition in portable device
CN103811003A (zh) * 2012-11-13 2014-05-21 联想(北京)有限公司 一种语音识别方法以及电子设备
CN103985381A (zh) * 2014-05-16 2014-08-13 清华大学 一种基于参数融合优化决策的音频索引方法
CN105810213A (zh) * 2014-12-30 2016-07-27 浙江大华技术股份有限公司 一种典型异常声音检测方法及装置
CN105895087A (zh) * 2016-03-24 2016-08-24 海信集团有限公司 一种语音识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195455B2 (en) * 2008-02-19 2012-06-05 Samsung Electronics Co., Ltd Apparatus and method for sound recognition in portable device
CN101753992A (zh) * 2008-12-17 2010-06-23 深圳市先进智能技术研究所 一种多模态智能监控系统和方法
WO2010109725A1 (ja) * 2009-03-26 2010-09-30 株式会社東芝 音声処理装置、音声処理方法、及び、音声処理プログラム
CN103811003A (zh) * 2012-11-13 2014-05-21 联想(北京)有限公司 一种语音识别方法以及电子设备
CN103985381A (zh) * 2014-05-16 2014-08-13 清华大学 一种基于参数融合优化决策的音频索引方法
CN105810213A (zh) * 2014-12-30 2016-07-27 浙江大华技术股份有限公司 一种典型异常声音检测方法及装置
CN105895087A (zh) * 2016-03-24 2016-08-24 海信集团有限公司 一种语音识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KUBA LOPATKA等: "Acceleration of decision making in sound event recognition employing supercomputing cluster", 《INFORMATION SCIENCES》 *
张涛等: "一种用于枪声的多级检测识别技术", 《电子设计工程》 *
栾少文等: "公共场所典型异常声音的特征提取", 《计算机工程》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109407559A (zh) * 2018-10-15 2019-03-01 合肥世忠科技开发有限公司 一种智能安全护栏自动控制系统
CN109754819A (zh) * 2018-12-29 2019-05-14 努比亚技术有限公司 一种数据处理方法、装置及存储介质
CN109754819B (zh) * 2018-12-29 2021-08-10 努比亚技术有限公司 一种数据处理方法、装置及存储介质
CN109785866A (zh) * 2019-03-07 2019-05-21 上海电力学院 基于相关函数最大值的广播语音与噪声检测的方法
CN109947248A (zh) * 2019-03-14 2019-06-28 努比亚技术有限公司 振动控制方法、移动终端及计算机可读存储介质
CN110033198A (zh) * 2019-04-19 2019-07-19 北京邮电大学 一种危险预测方法及装置
CN110033198B (zh) * 2019-04-19 2021-10-01 北京邮电大学 一种危险预测方法及装置
CN112634883A (zh) * 2019-09-24 2021-04-09 音频分析有限公司 控制用户界面
CN111398965A (zh) * 2020-04-09 2020-07-10 电子科技大学 基于智能穿戴设备的危险信号监控方法、系统和穿戴设备
CN112185415A (zh) * 2020-09-10 2021-01-05 珠海格力电器股份有限公司 声音可视化方法及装置、存储介质、mr混合现实设备
CN112863550A (zh) * 2021-03-01 2021-05-28 德鲁动力科技(成都)有限公司 基于注意力残差学习的哭声检测方法及系统

Also Published As

Publication number Publication date
CN108511002B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN108511002A (zh) 危险事件声音信号识别方法、终端和计算机可读存储介质
CN110335620A (zh) 一种噪声抑制方法、装置和移动终端
CN110365853B (zh) 一种提示方法及电子设备
CN109065060B (zh) 一种语音唤醒方法及终端
CN108287611A (zh) 屏幕触控响应方法、终端和计算机存储介质
CN107395855A (zh) 终端防护方法、防护装置、终端及计算机可读存储介质
CN109982228A (zh) 一种麦克风故障检测方法及移动终端
CN107730255A (zh) 一种安全支付方法、终端及计算机可读存储介质
CN109412932A (zh) 一种截屏方法和终端
CN108769369A (zh) 一种预警方法及移动终端
CN107918511A (zh) 一种界面显示方法、终端及计算机可读存储介质
CN108597512A (zh) 移动终端控制方法、移动终端及计算机可读存储介质
CN111477334A (zh) 目标区域的提醒方法及电子设备
CN109754823A (zh) 一种语音活动检测方法、移动终端
CN109788402A (zh) 一种音频信号处理方法及音频信号处理装置
CN108182137A (zh) 屏幕安全预警方法、移动终端及计算机可读存储介质
CN108287738A (zh) 一种应用程序控制方法及装置
CN110995921A (zh) 通话处理方法、电子设备及计算机可读存储介质
CN108650392A (zh) 一种通话录音方法及移动终端
CN108234751A (zh) 一种自动检测危险方法、移动终端及计算机可读存储介质
CN109088986A (zh) 移动终端保护方法、移动终端及计算机可读存储介质
CN108597495A (zh) 一种处理语音数据的方法及装置
CN107705804A (zh) 一种发声设备状态检测方法及移动终端
CN108063869A (zh) 一种安全预警方法、移动终端
CN108520760A (zh) 一种语音信号处理方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201111

Address after: 215400 room 03, shop 43, Tinghai Road, Liuhe Town, Taicang City, Suzhou City, Jiangsu Province

Applicant after: Taicang Hongyu Intelligent Technology Co., Ltd

Address before: 518057 Guangdong province Shenzhen city Nanshan District high tech park, No. 9018 North Central Avenue, building A, floor 10, Han's innovation

Applicant before: NUBIA TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant