CN112447170A

CN112447170A - 一种基于声音信息的安防方法、装置及电子设备

Info

Publication number: CN112447170A
Application number: CN201910806692.1A
Authority: CN
Inventors: 陈孝良; 安辽源; 苏少炜; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2021-03-05

Abstract

本发明提供了一种基于声音信息的安防方法、装置及电子设备，当检测到异常声音且处于预设安防时间段内时，获取异常声音的声音信息，提取所述声音信息中的情绪特征，基于所述情绪特征进行安全防护控制。在遇到危险且人们通常惊慌失措只顾大声呼叫而提取不出有用的语言文本信息时，声音中会存在情绪信息，此时提取出情绪特征，进而可以基于情绪特征进行安全防护控制。

Description

一种基于声音信息的安防方法、装置及电子设备

技术领域

本发明涉及语音处理领域，更具体的说，涉及一种基于声音信息的安防方法、装置及电子设备。

背景技术

现有的安防机器人通过内置的麦克风接受外界声音，并对人声进行识别和理解，一旦读懂“人声”背后有类似危险的行为存在，将自动触发报警系统进入防御状态，从而对目标人物起到安全防护的作用。这种方式主要针对人声，主要关注点是通过对人声进行语音识别，得到对应的文本信息，下一步运用自然语言处理技术进行分析，一旦理解的语义信息中含有危险信号，就会自动触发报警系统进入防御状态，从而起到安全防护作用。但是，在遇到危险时，人们通常惊慌失措只顾大声呼叫而提取不出有用的语言文本信息，此时安防机器人将起不到安防作用。

发明内容

有鉴于此，本发明提供一种基于声音信息的安防方法、装置及电子设备，以解决在遇到危险时，人们通常惊慌失措只顾大声呼叫而提取不出有用的语言文本信息，此时安防机器人将起不到安防作用的问题。

为解决上述技术问题，本发明采用了如下技术方案：

一种基于声音信息的安防方法，包括：

当检测到异常声音且处于预设安防时间段内时，获取异常声音的声音信息；

提取所述声音信息中的情绪特征；

基于所述情绪特征进行安全防护控制。

可选地，在所述检测到异常声音之前，还包括：

获取采集到的声音信号；

基于预设的声音唤醒模型，确定所述声音信号的唤醒概率；所述声音唤醒模型依据声音唤醒语料通过神经网络算法训练得到；

在所述唤醒概率大于预设唤醒阈值、以及所述声音信号的属性信息满足预设属性条件时，确定所述声音信号为所述异常声音。

可选地，提取所述声音信息中的情绪特征，包括：

对所述声音信息进行声纹识别，得到声纹识别结果；所述声纹识别结果包括人类声音或动物声音；

若所述声纹识别结果为人类声音，对所述声音信息进行语音识别，得到语音识别结果；

判断所述语音识别结果是否包括目标文字；所述目标文字为处于预设场景时出现频率大于预设阈值的词语；

若包括，则对所述语音识别结果进行情感分析，得到所述情绪特征；

若不包括，则对所述声音信息进行情感提取，得到所述情绪特征。

可选地，提取所述声音信息中的情绪特征，还包括：

若所述声纹识别结果为动物声音，执行所述对所述声音信息进行情感提取，得到所述情绪特征这一步骤。

可选地，对所述声音信息进行情感提取，得到所述情绪特征，包括：

获取情绪分析模型；

将所述声音信息输入到所述情绪分析模型中，得到所述情绪特征。

可选地，所述情绪分析模型的生成过程包括：

获取声音语料信息；

从所述声音语料信息中提取出语料特征；所述语料特征包括声谱图、音量和声音持续时间中的至少一种；

对所述语料特征进行情绪识别训练，得到所述情绪分析模型。

可选地，基于所述情绪特征进行安全防护控制，包括：

若所述情绪特征为负面情绪或恐怖情绪，则进行安全防护操作。

一种基于声音信息的安防装置，包括：

声音获取模块，用于当检测到异常声音且处于预设安防时间段内时，获取异常声音的声音信息；

特征提取模块，用于提取所述声音信息中的情绪特征；

安防模块，用于基于所述情绪特征进行安全防护控制。

可选地，还包括：

信号获取模块，用于获取采集到的声音信号；

概率确定模块，用于基于预设的声音唤醒模型，确定所述声音信号的唤醒概率；所述声音唤醒模型依据声音唤醒语料通过神经网络算法训练得到；

声音确定模块，用于在所述唤醒概率大于预设唤醒阈值、以及所述声音信号的属性信息满足预设属性条件时，确定所述声音信号为所述异常声音。

可选地，所述特征提取模块包括：

声纹识别子模块，用于对所述声音信息进行声纹识别，得到声纹识别结果；所述声纹识别结果包括人类声音或动物声音；

语音识别子模块，用于若所述声纹识别结果为人类声音，对所述声音信息进行语音识别，得到语音识别结果；

判断子模块，用于判断所述语音识别结果是否包括目标文字；所述目标文字为处于预设场景时出现频率大于预设阈值的词语；

特征分析子模块，用于若包括目标文字，则对所述语音识别结果进行情感分析，得到所述情绪特征；若不包括目标文字，则对所述声音信息进行情感提取，得到所述情绪特征。

一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

提取所述声音信息中的情绪特征；

基于所述情绪特征进行安全防护控制。

相较于现有技术，本发明具有以下有益效果：

本发明提供了一种基于声音信息的安防方法、装置及电子设备，在遇到危险且人们通常惊慌失措只顾大声呼叫而提取不出有用的语言文本信息时，声音中会存在情绪信息，此时提取出情绪特征，进而可以基于情绪特征进行安全防护控制。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于声音信息的安防方法的方法流程图；

图2为本发明实施例提供的另一种基于声音信息的安防方法的方法流程图；

图3为本发明实施例提供的一种基于声音信息的安防装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音识别技术在安防(安防，可以理解为“安全防范”的缩略词。指做好准备和保护，以应付攻击或者避免受害，从而使被保护对象处于没有危险、不受侵害、不出现事故的安全状态)行业的应用，主要是安防机器人通过内置的麦克风接受外界声音，并对人声进行识别和理解，一旦读懂“人声”背后有类似危险的行为存在，将自动触发报警系统进入防御状态，从而对目标人物起到安全防护的作用。

这种方法主要采取的还是对人说话的具体内容进行辨识，通过分析其中带有的语义信息，来分辨是否带有危险攻击性言论，如“抢劫”、“救命”、“杀人啦”等等。

对于家庭安防目前主要以家庭摄像监控为主，这主要解决的是影像信息，对于声音信息同样可以提取出来用于安防使用。

但是在安防过程中，当人类突然见到恐怖或遇到其他危险情形时会大声呼喊，而真正危险的情况下，人们通常惊慌失措只顾大声呼叫而提取不出有用的语言文本信息，此时基于声音的具体内容进行识别已经起不到作用。此时基于语音情绪识别唤醒的安防系统就可以发挥作用了，因为异常声音唤醒了安防系统，通过分辨得出其中蕴含的负面情绪或恐惧情绪，如惊慌失措、焦急、痛苦等等后，就会发出预警信号，相关工作人员就可以接受到而及时进行营救操作。

在上述的背景下，本发明实施例提供了基于声音信息的安防方法，应用于安防机器人的处理器或服务器，参照图1，可以包括：

S11、当检测到异常声音且处于预设安防时间段内时，获取异常声音的声音信息。

本实施例中的安防系统具有异常声音唤醒功能，与现有的语音唤醒任务不同，异常声音唤醒没有固定的唤醒词，采用基于端到端的神经网络模型(即预设的声音唤醒模型)结合规则(所述唤醒概率是否大于预设唤醒阈值、以及所述声音信号的属性信息是否满足预设属性条件)判断，端到端的神经网络模型，输入为语音，输出为各唤醒的概率。接着判断该异常声音持续时间，频率，音高(即属性信息)等信息综合给出唤醒决策，一旦达到唤醒阈值即启动唤醒。如在唤醒概率大于70％(预设唤醒阈值)，持续时间大于0.5-2分钟，频率大于2500-5000Hz,音高大于60-80分贝时，即认为采集到了异常声音。

另外，安防系统可以具有定时控制功能，即用户可以自由决定当前是否启动异常声音唤醒，举例来说，晚上用户睡觉，警惕性较低，则可以设置0.00-6.00启动异常声音唤醒，但是白天，6.00-18.00，时刻有人在家，则不需要启动异常声音唤醒。异常声音可以为哭声、尖叫声、嘶喊声等等一些用户平常不会发出的声音。

系统首先处于侦听状态，如果发生了异常声音唤醒了系统，接下来会去判断是否处于用户设定的监控报警定时阶段内，如果不在说明此刻即使发生了异常声音也不必报警，如果在此时间段内则进入到一下步。即只有满足检测到异常声音、且处于用户设定的预设安防时间段内，才去分析异常声音。

需要说明的是，此处的异常声音既可以是人类的异常声音，也可以是动物的异常声音。当家庭里面有异常物体接近或异常状态发生时，宠物一般会第一时间预感到。类似于猫或狗会发出急促而强烈的叫声，这些声音也会去采集和分析。

S12、提取所述声音信息中的情绪特征。

提取情绪特征可以采用语音情绪识别算法，语音情绪识别算法是指语音会包含情绪信息,通过对语音信号的处理，提取出其中特有的情绪信息。情绪特征可以包括恐怖、伤心、悲痛、惊慌失措、焦急、痛苦等等。

S13、基于所述情绪特征进行安全防护控制。

在实际应用中，若所述情绪特征为负面情绪或恐怖情绪，则进行安全防护操作。

具体的，如果情绪分析模型判定了当前声音里蕴含了负面或恐惧情绪，下一步会进入监控报警阶段，如给主人发短信或直接语音提醒，调用摄像等其他安防设备查看当前情况等。

本实施例中，在遇到危险且人们通常惊慌失措只顾大声呼叫而提取不出有用的语言文本信息时，声音中会存在情绪信息，此时提取出情绪特征，进而可以基于情绪特征进行安全防护控制。

上述在提取情绪特征时，可以先对声音信息进行声纹识别，识别出该声音信息是人类声音还是动物声音，进而在进行不同的分析。具体的，参照图2，提取情绪特征的过程可以具体包括：

S21、对所述声音信息进行声纹识别，得到声纹识别结果；所述声纹识别结果包括人类声音或动物声音。

声纹识别是生物识别技术的一种，也称为说话人识别，有两类，即说话人辨认和说话人确认。本实施例中不是通过声纹识别区识别出是哪一人的声音，而是去识别出该声音信息是动物声音(如猫、狗等等)还是人类声音，如果是动物声音，则直接进行情绪提取，即执行步骤S25；若是人类声音，则先进行语音识别结果，根据语音识别结果的内容执行后续步骤。即可能会执行步骤S23、S24和S25。

S22、对所述声音信息进行语音识别，得到语音识别结果。

在声音信息为人类声音时，先进行语音识别，得到语音识别结果。其中语音识别算法可以是使用WFST模型进行语音识别，此外，也可以使用其他的语音识别算法进行语音识别。

进行语音识别主要目的是去识别异常声音里是否包含有用的文字信息，如果可以识别出来“救命”、“走开”这种紧急情况下会发出的词语，对于下一步情绪识别有很大的帮助。

S23、判断所述语音识别结果是否包括目标文字；若包括，执行步骤S24；若不包括，执行步骤S25。

目标文字所述目标文字为处于预设场景时出现频率大于预设阈值的词语，预设场景可以是处于危险的场景，预设阈值可以根据具体使用场景进行限定，目标文字如可以是上述的“救命”“走开”“杀人啦”等等。若包括，则直接针对语音识别出来的文字来进行文字层面的情感分析。

S24、对所述语音识别结果进行情感分析，得到所述情绪特征。

本实施例中，先进行语音识别，在判断语音识别结果中是否包括目标文字，是因为如果包括目标文字，则可以根据目标文字直接且毫无疑义确定出用户的情绪。通过文字识别情绪相比于直接通过声音识别情绪的准确度高一些。

举例来说，语音识别结果中包括“救命”，则可以确定出用户的情绪为恐慌、恐惧等。

S25、对所述声音信息进行情感提取，得到所述情绪特征。

如果没有识别出来有意义的文本信息，则直接根据原始的语音信号来判断是否含有负面或恐惧情绪。另外，当声音信息为动物声音时，因为无法去从动物声音里面提取出语言文本，则可以直接执行步骤S25。

在实际应用中，对声音信息进行情感提取，得到情绪特征可以采用下述方式：

获取情绪分析模型，将所述声音信息输入到所述情绪分析模型中，得到所述情绪特征。

情绪分析模型根据声纹识别的结果分别调用相应的子模块(动物情绪识别子模块或人类情绪识别子模块)去分辨具体类别声音下蕴含的情绪。情绪分析模型采用神经网络算法训练得到，比如人类声音调用包含人类负面或恐惧声音语料训练出来的模型，狗的声音会用包含狗的恐惧叫声和警示叫声语料训练出来的模型，其他类型的声音以此类推。语音情绪识别可以通过声谱图作为输入结合卷积神经网络或循环神经网络进行情绪识别训练，本公开的方法也可以直接用声音语料进行训练，可以获得更多例如音量、声音持续时长等更贴近真实场景的原始信息，情绪识别的准确度更高。特别是当获取的语料中有明确可以识别语义的词语，比如“救命”等词时，将更能提高识别准确度。

本公开中进行的情绪识别的机器学习模型训练中，至少包含恐怖、伤心、悲痛、惊慌失措、焦急、痛苦类情绪特征的语料，生成至少以上各类的情绪特征结果。为提升模型的准确率，训练中也添加拟合真实比例的其他类型语料，以及对应的类型特征标注以训练获得识别其他类型情绪的模型。所谓真实比例的语料是指语料库由某段时间获取的未经筛选的语料集合，训练中为提升模型的准确度，可以添加合成的语音或是调整相关情感特征的语料的比例，例如通常无强烈感情色彩的语料占比80％-90％，偏积极的感情如高兴等占比5％-10％，偏负面的惊恐、悲伤等感情的语料占比5％-10％。

特别的，本实施例公开的方法中，可以预先录取目标人物或者动物的声音，以此来提高识别准确率。

将声音信息输入到情绪分析模型中，直接就可以输出情绪特征。本实施例中的人类情绪和动物情绪采用不同的子模块进行分析，此外，还可以同时对人类声音和动物声音训练成一个统一的情绪分析分析模型，将人类声音或动物声音输入到该模型中，即可自动识别得到情绪。

如果情绪分析模型判定了人类的当前声音里蕴含了负面或恐惧情绪，下一步会进入监控报警阶段，如给主人发短信或直接语音提醒，调用摄像等其他安防设备查看当前情况等。

另外，通过识别出宠物的异常叫声，分析得到此刻宠物处于异常情绪状态，这个时候就可以给主人发出预警，可以进一步调用监控等设备，查看家里的具体情况。

本发明实施例可以识别出异常声音对应发声者的身份信息以及情绪信息，根据异常情绪的识别结果，自动地决策是否触发安防报警执行系统。带来的有益效果是更加有效地利用了当先环境下的语音信号信息。加强了安防领域的防护功能。给使用者带来更加安全可靠的防护服务。

可选的，在上述基于声音信息的安防方法的实施例的基础上，本发明的另一实施例提供了一种基于声音信息的安防装置，参照图3，可以包括：

声音获取模块101，用于当检测到异常声音且处于预设安防时间段内时，获取异常声音的声音信息；

特征提取模块102，用于提取所述声音信息中的情绪特征；

安防模块103，用于基于所述情绪特征进行安全防护控制。

进一步，还包括：

信号获取模块，用于获取采集到的声音信号；

进一步，所述特征提取模块包括：

特征分析子模块，用于若包括目标文字，则对所述语音识别结果进行情感分析，得到所述情绪特征；若不包括目标文字、或所述声纹识别结果为动物声音，则对所述声音信息进行情感提取，得到所述情绪特征。

进一步，所述特征分析子模块用于对所述声音信息进行情感提取，得到所述情绪特征时，具体用于：

进一步，还包括：模型生成子模块，模型生成子模块可以包括：

信息获取子模块，用于获取声音语料信息；

特征提取自模块，用于从所述声音语料信息中提取出语料特征；所述语料特征包括声谱图、音量和声音持续时间中的至少一种；

训练子模块，用于对所述语料特征进行情绪识别训练，得到所述情绪分析模型。

进一步，安防模块用于基于所述情绪特征进行安全防护控制时，具体用于：

需要说明的是，本实施例中的各个模块和子模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上述基于声音信息的安防方法及装置的实施例的基础上，本发明的另一实施例提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

提取所述声音信息中的情绪特征；

基于所述情绪特征进行安全防护控制。

进一步，在所述检测到异常声音之前，还包括：

获取采集到的声音信号；

进一步，提取所述声音信息中的情绪特征，包括：

进一步，提取所述声音信息中的情绪特征，还包括：

进一步，对所述声音信息进行情感提取，得到所述情绪特征，包括：

获取情绪分析模型；

进一步，所述情绪分析模型的生成过程包括：

获取声音语料信息；

进一步，基于所述情绪特征进行安全防护控制，包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于声音信息的安防方法，其特征在于，包括：

提取所述声音信息中的情绪特征；

基于所述情绪特征进行安全防护控制。

2.根据权利要求1所述的安防方法，其特征在于，在所述检测到异常声音之前，还包括：

获取采集到的声音信号；

3.根据权利要求1所述的安防方法，其特征在于，提取所述声音信息中的情绪特征，包括：

4.根据权利要求3所述的安防方法，其特征在于，提取所述声音信息中的情绪特征，还包括：

5.根据权利要求3或4所述的安防方法，其特征在于，对所述声音信息进行情感提取，得到所述情绪特征，包括：

获取情绪分析模型；

6.根据权利要求5所述的安防方法，其特征在于，所述情绪分析模型的生成过程包括：

获取声音语料信息；

7.根据权利要求1所述的安防方法，其特征在于，基于所述情绪特征进行安全防护控制，包括：

8.一种基于声音信息的安防装置，其特征在于，包括：

特征提取模块，用于提取所述声音信息中的情绪特征；

安防模块，用于基于所述情绪特征进行安全防护控制。

9.根据权利要求8所述的安防方法，其特征在于，还包括：

信号获取模块，用于获取采集到的声音信号；

10.根据权利要求8所述的安防装置，其特征在于，所述特征提取模块包括：

11.一种电子设备，其特征在于，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

提取所述声音信息中的情绪特征；

基于所述情绪特征进行安全防护控制。