CN107122807B

CN107122807B - 一种家庭监控方法、服务端及计算机可读存储介质

Info

Publication number: CN107122807B
Application number: CN201710374229.5A
Authority: CN
Inventors: 张立海
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2021-05-21
Anticipated expiration: 2037-05-24
Also published as: CN107122807A

Abstract

本发明实施例公开了一种家庭监控方法、服务端及计算机可读存储介质。该方法包括：接收采集端发出的音频信息；对所述音频信息进行特征处理并根据服务模型判断是否为预制信息；若是，则向预设终端发出警报。该服务端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本发明提供的家庭监控方法的步骤。该计算机可读存储介质上存储有家庭监控程序，所述家庭监控程序被处理器执行时实现本发明提供的家庭监控方法的步骤。本发明中通过服务模型判断是否向预设终端发出警报，从而防止在家庭环境下发生不希望发生的情况。

Description

一种家庭监控方法、服务端及计算机可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种家庭监控方法、服务端及计算机可读存储介质。

背景技术

随着深度学习的发展，智能语音领域最近几年取得了很大的发展。在很多领域中，语音识别的准确率已经接近人类。语音识别和自然语音处理的商用场景越来越多，在人机交互、语音控制、实时翻译、文本分类、语义理解、文本关键词提取、情绪分析、舆情监控等领域都有了广泛的应用。

于此同时，随着今年来国内经济的快速发展和人口流动，城市人口在婴儿看护方面也遇到了以前未如此广泛遇到的麻烦，主要体现在婴幼儿的照看监护问题。中国传统的父母帮忙照看孩子的问题不再适应现代社会。中介保姆虐待婴幼儿的事情屡见报端。

如何对家庭进行监控，防止虐待婴幼儿的事情发生是亟待解决的问题。

发明内容

本发明实施例提供了一种家庭监控方法、服务端及计算机可读存储介质，旨在对家庭进行监控，当有虐待婴幼儿的事情发生时发出警报。

有鉴于此，本发明实施例第一方面，提供了一种家庭监控方法，所述方法包括：

接收采集端发出的音频信息；

对所述音频信息进行特征处理并根据服务模型判断是否为预制信息；

若是，则向预设终端发出警报。

在一种可能的设计中，所述预制信息包括第一预制信息；所述对所述音频信息进行特征处理并根据预设服务模型判断是否为预制信息包括：

对所述音频信息进行语音参数提取得到第一信息；

根据第一服务模型判断所述第一信息是否为所述第一预制信息。

本实施例中，所述预制信息包括第二预制信息；所述根据第一服务模型判断所述第一信息是否为所述第一预制信息之后包括：

将所述第一信息转换成文本信息；

根据第二服务模型判断所述文本信息是否为所述第二预制信息。

本实施例中，所述将所述第一信息转换成文本信息包括：

将所述第一信息进行语音识别生成语言文本信息；

对所述语言文本信息进行语法语义处理生成语义文本信息；

将所述语义文本信息用作所述文本信息。

在一种可能的设计中，所述对所述音频信息进行特征处理并根据预设服务模型判断是否为预制信息包括：

对所述音频信息进行语音参数提取得到第一信息；

将所述第一信息转换成文本信息；

根据服务模型判断所述文本信息是否为预制信息。

本实施例中，所述将所述第一信息转换成文本信息还包括：对所述文本信息进行文本情绪识别获取语音情绪信息；

所述根据服务模型判断所述文本信息是否为预制信息还包括：根据服务模型判断所述文本信息和语音情绪信息是否为预制信息。

在一种可能的设计中，所述对所述音频信息进行特征处理并根据服务模型判断是否为预制信息之前，所述方法还包括：

通过训练数据库中训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型。

在一种可能的设计中，所述向预设终端发出警报的步骤之后，还包括：

接收预设终端发出的反馈信息；

根据所述反馈信息将对应的所述预制信息进行标记，并加入到所述训练数据库。

本发明实施例第二方面提供了一种家庭监控服务端，其特征在于，所述家庭监控服务端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本发明实施例提供的家庭监控方法的步骤。

本发明实施例第三方面提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有家庭监控程序，所述家庭监控程序被处理器执行时实现本发明实施例提供的家庭监控方法的步骤。

从以上技术方案可以看出，本发明实施例中，通过哭声信息的检测判断是否向预设终端发出警报，从而防止在家庭环境下可能发生的长时间哭闹等情况。

附图说明

图1为本发明一种家庭监控系统的实施例的示意图；

图2为本发明一种家庭监控方法另一个实施例的示意图；

图3为本发明一种家庭监控方法另一个实施例的示意图；

图4为本发明一种家庭监控方法另一个实施例的示意图；

图5为本发明一种家庭监控方法中训练数据自学习的过程的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

如图1所示，本发明提供的家庭监控方法，应用于家庭监控系统，该家庭监控系统包括用于采集音频信息的采集端101，用于处理音频信息的服务端102以及用于接收报警的预设终端103。

其中，采集端101集成在类似智能音箱的家庭终端中，主要完成的功能是语音数据的采集。采集端101可以采用麦克风阵列解决5米远场拾音问题；此外，采集端101还可以具有音频码率与网络带宽自适应的功能。当网络带宽较低或者时延较大时，自动切换到8khz采样频率，当带宽较大时延较低时自动切换到16khz甚至更高的采样频率。

上述预设终端可以以各种形式来实施。例如，本发明中描述的预设终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal DigitalAssistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

终端在接收到警报后，可以对采集端发起会话控制。

请参阅图2，图2为本发明一种家庭监控方法一个实施例示意图，应用于家庭监控系统中的服务端，包括步骤：

201、开始；

202、预设终端向服务端发出预定服务；

该预定服务是用于定制预制信息的类型的，例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等；

需要说明的是，当预制信息的类型是固定的时候，可以不执行该步骤，例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报；

203、采集端向服务端发出的音频信息；

204、服务端对所述音频信息进行特征处理并根据服务模型判断是否为预制信息；若是，则进入步骤205；若否，则进入步骤206；

在具体实施时，上述特征处理可以是提取语音特征参数梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)；服务模型则需要根据预制信息的特征进行训练获取。更具体地，可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型；

205、向预设终端发出警报；

206、结束。

需要说明的是，还可以包括步骤207、预设终端接收到报警信息后，可以进行会话干预；更具体地，预设终端接收到报警信息后，可以向采集端发起语音会话或视频会话；当然，该步骤并不是必须要执行的。

如图3所示，本发明实施例提供的家庭监控方法的另一个可选实施例中，包括：

301、开始；

302、预设终端向服务端发出预定服务；

303、采集端向服务端发出的音频信息；

304、服务端对所述音频信息进行语音参数提取得到第一信息；

该语音特征参数可以是梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients，MFCC)；

305、服务端根据第一服务模型判断所述第一信息是否为所述第一预制信息；若是，则进入步骤308；若否，则进入步骤306；

可见，在本实施例中，第一信息为音频格式的信息，因此其对应的第一预制信息也为音频格式的信息；在具体实施时，第一预制信息可以为婴幼儿的哭声；

306、服务端将所述第一信息转换成文本信息；

在本发明的一个实施例中，该步骤具体可以包括：将所述第一信息进行语音识别生成语言文本信息；对所述语言文本信息进行语法语义处理生成语义文本信息；将所述语义文本信息用作所述文本信息；

307、服务端根据第二服务模型判断所述文本信息是否为所述第二预制信息；若是，则进入步骤308；若否，则进入步骤309；

可见第二预制信息为文本信息；在具体实施时，第二预制信息为恶劣言语或针对婴幼儿敏感言语等；

上述第一服务模型或第二服务模型需要根据预制信息的特征进行训练获取。更具体地，可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述第一服务模型或第二服务模型；

308、向预设终端发出警报；

309、结束。

需要说明的是，还可以包括步骤310、预设终端接收到报警信息后，可以进行会话干预；更具体地，预设终端接收到报警信息后，可以向采集端发起语音会话或视频会话；当然，该步骤并不是必须要执行的。

在本发明的另一实施例中，若预制信息的类型都是音频格式的，则无需进行上述步骤306、307。

如图4所示，本发明实施例提供的家庭监控方法的另一个可选实施例中，包括：

401、开始；

402、预设终端向服务端发出预定服务；

403、采集端向服务端发出的音频信息；

404、服务端对所述音频信息进行语音参数提取得到第一信息；

405、服务端将所述第一信息转换成文本信息；

406、服务端根据服务模型判断所述文本信息是否为预制信息；若是，则进入步骤407；若否，则进入步骤408；

本实施例中，预制信息为文本信息；在具体实施时，预制信息可以为婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等；上述服务模型需要根据预制信息的特征进行训练获取。更具体地，可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型；

407、向预设终端发出警报；

408、结束。

需要说明的是，还可以包括步骤409、预设终端接收到报警信息后，可以进行会话干预；更具体地，预设终端接收到报警信息后，可以向采集端发起语音会话或视频会话；当然，该步骤并不是必须要执行的。

在本发明的另一实施例中，上述步骤405还包括：对所述文本信息进行文本情绪识别获取语音情绪信息；此时，在步骤406中，可以通过语音情绪信息辅助判断所述文本信息是否为预制信息。

下面进一步说明本发明中服务模型的建立方法：

收集预先标记好的训练数据置于训练数据库内，本发明中该训练数据根据预制信息而定；例如预制信息包括哭声、恶劣言语，则训练数据库为哭声识别训练数据、恶意言语训练数据。

对于哭声识别训练数据来说，主要包括带标签的音频样本和带标签的文本样本两种类型；该两种类型可以分别建立两个不同的服务模型。

考虑到大词汇量和标记样本工作量的因素，恶意言语服务模型只有一种基于带标签的文本训练样本形式。

在训练过程中，基于带标签的训练数据，针对不同的服务模型设计合适的判别算法进行分类判别。如哭声检测，通过训练大量的婴儿哭声和非婴儿哭声的的音频样本或者文本样本，进行算法模型的训练、验证和评估运行过程。通常情况下，我们可以采用通用机器学习分类器算法或者深度神经网络进行分类判断。单一服务类型的判断属于简单的二分类问题，复合服务类型的判断属于多分类器问题。一般情况下，类似softmax分类器或者支持向量机等通用机器学习算法已经能够达到较高的准确率，也可以根据实测情况结合深度神经网络进行实现。

训练过程完成，会生成服务模型以进行预制信息的判断。

可见，定时批量把实测数据进行存储并加入到训练数据中，进行服务模型的增量训练可以提高判断的准确率。

可选地，在上述图2至图4对应的任一实施例的基础上，本发明实施例提供的家庭监控方法另一个可选实施例中，在向预设终端发出警报的步骤之后，还包括：

接收预设终端发出的反馈信息；根据所述反馈信息将对应的预制信息进行标记，并加入到所述训练数据库。

本实施例中，可以在控制端加入用户反馈功能，在服务端加入数据缓存功能。服务端每个一段时间将控制端进行的有效反馈作为新训练样本标签，一并将对应的训练样本加入到训练集进行增量训练，优化和更新服务模型数据。

更具体地，请同时参照图5，在训练数据库501中存放着带标签的训练数据；服务模型引擎505通过训练数据库501中训练数据生成服务模型；通过服务模型即可判断经过特征处理后的音频信息是否为预制信息506。

在本发明中，服务端接收到的音频信息502在特征处理过程中生成的信息包括：经过语音参数提取得到第一信息503，第一信息503经转换可以得到文本信息504；该文本信息504包括通过语音识别生成语言文本信息以及由语言文本信息进一步进行语法语义处理生成语义文本信息。

上述第一信息503以及文本信息504经过服务模型引擎505生成服务模型即可判断是否为预制信息506；本实施例中，若接收预设终端发出的反馈信息；根据所述反馈信息将对应的预制信息进行标记，该预制信息可能是第一信息503，也可能是文本信息504；标记后的第一信息503或文本信息504可以加入到训练数据库501中，从而完成训练数据自学习的过程。

本发明还提供一种家庭监控服务端，所述家庭监控服务端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本发明任一实施例提供的家庭监控方法的步骤。

更具体地，所述计算机程序被所述处理器执行以实现以下步骤：

接收预设终端发出预定服务；该预定服务是用于定制预制信息的类型的，例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等；需要说明的是，当预制信息的类型是固定的时候，可以不执行该步骤，例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报；

接收采集端发出的音频信息；

对所述音频信息进行特征处理并根据服务模型判断是否为预制信息；若是，则向预设终端发出警报；在具体实施时，上述特征处理可以是提取语音特征参数梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)；服务模型则需要根据预制信息的特征进行训练获取。更具体地，可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型；

在本发明实施例提供的家庭监控服务端的另一个可选实施例中，所述计算机程序被所述处理器执行以实现以下步骤：

接收采集端发出的音频信息；

所述音频信息进行语音参数提取得到第一信息；该语音特征参数可以是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)；

根据第一服务模型判断所述第一信息是否为所述第一预制信息；可见，在本实施例中，第一信息为音频格式的信息，因此其对应的第一预制信息也为音频格式的信息；在具体实施时，第一预制信息可以为婴幼儿的哭声；若是，则向预设终端发出警报；若否，则

将所述第一信息转换成文本信息；在本发明的一个实施例中，该步骤具体可以包括：将所述第一信息进行语音识别生成语言文本信息；对所述语言文本信息进行语法语义处理生成语义文本信息；将所述语义文本信息用作所述文本信息；

根据第二服务模型判断所述文本信息是否为所述第二预制信息；若是，则向预设终端发出警报；可见，本实施例中，第二预制信息为文本信息；在具体实施时，第二预制信息为恶劣言语或针对婴幼儿敏感言语等；上述第一服务模型或第二服务模型需要根据预制信息的特征进行训练获取。更具体地，可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述第一服务模型或第二服务模型；

需要说明的是，若预制信息的类型都是音频格式的，则无需进行上述将所述第一信息转换成文本信息以及根据第二服务模型判断所述文本信息是否为所述第二预制信息的步骤。

接收采集端发出的音频信息；

对所述音频信息进行语音参数提取得到第一信息；该语音特征参数可以是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)；

根据服务模型判断所述文本信息是否为预制信息；若是，则向预设终端发出警报；本实施例中，预制信息为文本信息；在具体实施时，预制信息可以为婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等；上述服务模型需要根据预制信息的特征进行训练获取。更具体地，可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型；

在本发明的另一实施例中，在将所述第一信息转换成文本信息时，还可以对所述文本信息进行文本情绪识别获取语音情绪信息；该语音情绪信息可以用于辅助判断所述文本信息是否为预制信息。

可选地，在向预设终端发出警报之后，所述计算机程序被所述处理器执行以实现以下步骤：

接收预设终端发出的反馈信息；根据所述反馈信息将对应的哭声信息进行标记，并加入到所述训练数据库。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有家庭监控程序，所述家庭监控程序被处理器执行时实现本发明实施例提供的家庭监控方法的步骤。

更具体地，所述家庭监控程序被所述处理器执行以实现以下步骤：

接收采集端发出的音频信息；

在本发明实施例提供的计算机可读存储介质的另一个可选实施例中，所述家庭监控程序被所述处理器执行以实现以下步骤：

接收采集端发出的音频信息；

可选地，在向预设终端发出警报之后，所述家庭监控程序被所述处理器执行以实现以下步骤：

本发明实施例提供的家庭监控方法、服务端及计算机可读存储介质，实时检测家庭环境下婴幼儿监控中可能发生的恶意言语攻击和长时间哭闹等情况，并触发告警，达到实时监控的效果。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种家庭监控方法，其特征在于，所述方法包括：

通过训练数据库中训练数据结合通用机器学习分类器算法或者深度神经网络建立服务模型；

接收采集端发出的音频信息；

对所述音频信息进行特征处理并根据所述服务模型判断是否为预制信息；

若是，则向预设终端发出警报；

接收预设终端发出的反馈信息；

根据所述反馈信息将对应的所述预制信息进行标记，并加入到所述训练数据库；

所述预制信息包括第一预制信息和第二预制信息；所述对所述音频信息进行特征处理并根据预设服务模型判断是否为预制信息包括：

对所述音频信息进行语音参数提取得到第一信息；

根据第一服务模型判断所述第一信息是否为所述第一预制信息；

将所述第一信息转换成文本信息；

2.如权利要求1所述的家庭监控方法，其特征在于，所述将所述第一信息转换成文本信息包括：

将所述第一信息进行语音识别生成语言文本信息；

对所述语言文本信息进行语法语义处理生成语义文本信息；

将所述语义文本信息用作所述文本信息。

3.如权利要求1所述的家庭监控方法，其特征在于，所述对所述音频信息进行特征处理并根据预设服务模型判断是否为预制信息包括：

对所述音频信息进行语音参数提取得到第一信息；

将所述第一信息转换成文本信息；

根据服务模型判断所述文本信息是否为预制信息。

4.如权利要求3所述的家庭监控方法，其特征在于：

所述将所述第一信息转换成文本信息还包括：对所述文本信息进行文本情绪识别获取语音情绪信息；

5.一种家庭监控服务端，其特征在于，所述家庭监控服务端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的家庭监控方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有家庭监控程序，所述家庭监控程序被处理器执行时实现如权利要求1至4中任一项所述的家庭监控方法的步骤。