CN112259127A

CN112259127A - 一种咳嗽及喷嚏监测识别方法

Info

Publication number: CN112259127A
Application number: CN202011017400.5A
Authority: CN
Inventors: 邵宇丰; 周锦霆
Original assignee: Shanghai Hefu Artificial Intelligence Technology Group Co ltd
Current assignee: Shanghai Hefu Artificial Intelligence Technology Group Co ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2021-01-22

Abstract

本发明公开了一种咳嗽及喷嚏监测识别方法，属于语音识别技术领域。其包括以下步骤：咳嗽信号预处理、咳嗽信号特征提取、算法识别、采用单片机及WiFi模块传输、服务器及后端接收并前端显示。本发明的有益效果是：采用非特定人语音识别和连续语音识别技术，进而开发咳嗽识别，显著提高目前市场上的咳嗽识别系统的准确度和应用性，本发明能够不需要提前录入咳嗽声音进行训练则能够准确的在大范围的生活场景中识别咳嗽的人并显示和报警，此外，本发明基于连续语音识别技术，则对于连续咳嗽的高风险人群识别提高了准确性。

Description

一种咳嗽及喷嚏监测识别方法

技术领域

本发明涉及一种咳嗽及喷嚏监测识别方法，属于语音识别技术领域。

背景技术

目前国内外采取咳嗽识别的本地离线语音识别芯片所涉及的技术包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别技术作为人工智能的支撑，语音识别，语音控制以及和WiFi/蓝牙组合是应用的主要表现形式。

市场现有咳嗽识别的离线语音识别芯片的内部单片机主要为24MHZ、48MHZ、240MHZ、600MHZ主频，采用8K算法小模型、16K算法大模型。主要基于特定人语音识别，即针对指定人的语音识别，其他人的话不识别，须先把使用者的语音参考样本存入当成比对的资料库，即特定人语音识别在使用前必须要进行语音训练，一般按照机器提示训练两遍语音词条即可使用。并基于非连续语音识别，对于非连续语音来说，识别所说的每一个字必须分开辨认，要求说完每个字后都要停顿。

目前市场上的咳嗽识别的语音芯片是基于特定人的语音识别和非连续语音识别，实际在日常场景的使用中有很大的局限性。基于特定人的语音识别需要特定人提前录入声音，对于其他人的语音不进行识别，采用这种方法的咳嗽识别只能针对特定人的咳嗽识别，在正常使用中不可能提前让所有人的咳嗽声音先录入然后在进行比对，更别提在流动人口大的公共区域进行咳嗽识别。对于在大面积多人口流动性强的地方进行咳嗽识别应用目前市场上的方法显然不行。

此外，基于非连续语音识别的语音识别芯片而开发的咳嗽识别系统，需要单个字单个字的停顿从而才能识别，如果是连续的一句话则识别率大大下降、错误率明显提高。但是非连续语音识别来开发咳嗽识别受到很大的掣肘。虽然看似咳嗽声是单独的，但是不能排除连续咳嗽声的场景，尤其是人流量大的公共区域。而且，连续咳嗽的人患病的风险会随之变高，如果基于非连续语音识别，此类高危险人群的识别则会受到很大的影响，从而会提高其他健康人群被危险人群传染的风险。

发明内容

本发明所要解决的技术问题在于：提供一种咳嗽及喷嚏监测识别方法，它解决了现有技术中对于咳嗽声的识别时，特定人的语音识别需要特定人提前录入声音，对于其他人的语音不进行识别的问题。

本发明所要解决的技术问题采取以下技术方案来实现：

一种咳嗽及喷嚏监测识别方法，包括以下步骤：

S1.咳嗽信号预处理，具体包括以下步骤：

S11.采样与量化，对声音信号进行采样与量化，获取到的初始声音样本信号用连续的信号，以等时间间隔对其进行采样，得到离散的信号；

S12.滤波，对采样与量化后的声音信号进行滤波处理；

S13.加窗分帧，将声音信号划分为许多个时间相等的声音段；

S14.端点检测，对声音信号进行端点检测，确定获取的每一个声音样本是否是有效的发声，并且在有效的声音样本中确定出有用信号的起始点和终止点，为后期提取特征参数做准备；

S2.咳嗽信号特征提取，对预处理后的声音信号进行功率谱密度分析，在分析结果的基础上设计有效的信号特征提取算法，获取识别咳嗽声信号的参考特征，在获得声音信号功率谱密度的基础上，对一定量的声音样本信号进行训练，得到平均功率谱密度来作为声音信号的分类特征；

S3.算法识别，训练得到咳嗽声的功率谱密度特征后，以此特征曲线作为聚类中心，在模糊C均值聚类算法的基础上设计出识别算法，对咳嗽声进行识别，具体包括以下步骤：

S31.以获得的咳嗽声功率谱密度特征和尖叫声功率谱密度特征作为两个聚类中心v₁(n)和v₂(n)聚合的两个类分别用w₁和w₂表示；

S32.将每一个要分类的声音样本的功率谱密度用P_N表示，按点N分别来计算到各聚类中心的距离，计算公式如下：

d(P_n,v₁(n))＝||P_n-v₁(n)||,i＝1,2,n＝1,2,...,N

S33.按最小距离原则，对声音样本的功率谱密度P_N的N个点进行聚类，并在程序中分别以j和k计数来记录类属情况，表示如下：

若d(P_n,v₁(n))＝d(P_n,v₂(n)),则j，k不变

若d(P_n,v₁(n))>d(P_n,v₂(n)),则k＝k+1,n＝1,2,...N,j+k≤N

若d(P_n,v₁(n))＝d(P_n,v₂(n)),则j、k不变

S34.计数值j和k反映了声音样本的功率谱密度P_N的N个点的聚类情况，根据它们值的大小，定义如下的识别方法：

若j>k,则P_N∈w₁

若j＜k,则P_N∈w₂

S4.采用单片机及WiFi模块传输；

S5.服务器及后端接收并前端显示。

作为优选实例，所述步骤S21中，采用巴特沃斯低通滤波器对采样与量化后的声音信号进行滤波处理。

作为优选实例，所述步骤S4中，采用单片机及WiFi模块传输，设置语音识别模块的串口发送指令发送串口数据0x55，设置完成后每次语音识别模块识别到咳嗽声音，则向单片机发送0x55数据将语音识别模块通过D型数据接口连接器接口将语音模块的输出与单片机的串口USART1进行连接，单片机通过串口USART2与WiFi模块进行连接。

作为优选实例，所述步骤S5中，服务器及后端接收并前端显示，边缘算法服务器使用Java语言，Springboot框架暴露咳嗽异常检测接口，在进程启动时，使用JavaCV拉取摄像头视频流但不做任何操作，当硬件检测到咳嗽时，请求边缘算法服务器java后端，后端截取摄像头当前帧的图片并转发报告给超算中心服务器，由超算中心服务器进行数据存储并通过Websocket长连接形式与前端展示页面实现数据的实时交互展示；后端收到请求之后会将请求的响应结果发送给浏览器端，前端通过处理结果将咳嗽等数据动态的渲染在前端页面上。

本发明的有益效果是：

(1)采用非特定人语音识别和连续语音识别技术，进而开发咳嗽识别，显著提高目前市场上的咳嗽识别系统的准确度和应用性，本发明能够不需要提前录入咳嗽声音进行训练则能够准确的在大范围的生活场景中识别咳嗽的人并显示和报警，此外，本发明基于连续语音识别技术，则对于连续咳嗽的高风险人群识别提高了准确性；

(2)基于目标优化思想训练声音信号功率谱密度特征，获得了有效的咳嗽声和尖叫声识别分类特征，且方法简单、高效；

(3)在模糊C均值聚类算法的基础上，提出了由样本点的聚类间接来实现线的聚类的识别方法，按个体对声音样本进行识别，忽略个体差异，提高对咳嗽声和尖叫声的识别准确率。

附图说明

图1为本发明的步骤流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例。

图1为本发明的步骤流程示意图，如图1所示，本发明一种咳嗽及喷嚏监测识别方法的步骤如下：

S1：咳嗽信号预处理，具体包括以下步骤：

在本发明中，对声音样本信号的预处理操作包含有采样与量化、滤波、加窗分帧和端点检测几部分内容。

S11.采样与量化，对声音信号进行采样与量化，获取到的初始声音样本信号用连续的信号，以等时间间隔对其进行采样，得到离散的信号；采样的过程是这样的：获取到的初始声音样本信号用连续的信号，以等时间间隔对其进行采样，便得到了离散的信号。采样是在声音采集过程中由采集设备自动完成的。

S12.滤波，对采样与量化后的声音信号进行滤波处理；因为外在环境等多种客观因素的存在，使得获取到的声音样本信号中常常混有噪声，这往往会导致有用的信号被掩盖住，所以在对信号进行采样与量化处理后，紧接着对声音信号进行滤波处理，尽量降低无用噪声对有用信号的干扰，提高声音信号的信噪比。

获取到的声音信号因釆集电路及环境因素等包含了高频的无用信号，需要使用低通滤波器进行滤波。巴特沃斯低通滤波器和切比雪夫低通滤波是最通用的两种低通滤波器。其中，巴特沃斯低通滤波器能够获得通频带内最大限度平坦的频率响应曲线，而且随着阶数的增加，它的幅频特性会变得越来越好，会更接近于理想状态下的低通滤波器，并且低频检测信号保真度也会越高，然而切比雪夫低通滤波器的内部幅频特性很不稳定，因此巴特沃斯低通滤波器是本方案滤波器设计的首选。

S13.加窗分帧，将声音信号划分为许多个时间相等的声音段；分帧就是将声音信号划分为许多个时间相等的声音段，但为避免帧和帧之间的连续信息产生遗漏，一般会在相邻的两帧之间设置一部分重叠，即采取交叠分段的方式对滤波后的声音信号进行分帧，从而使得帧和帧之间能够平滑过渡，以此来保证信号的连续性效果。

S14.端点检测，对声音信号进行端点检测，本发明中中端点检测主要用于确定获取的每一个声音样本是否是有效的声音样本，并且在有效的声音样本中确定出有用信号的开始位置和结束位置，为后期特征参数的提取做好准备，所以就将端点检测作为对声音样本信号预处理的最后一步。在声音信号处理的过程中，检测出有用信号的起始点是非常重要且有用的。而端点检测就是从包括有用信号在内的一段复杂信号中得到有用信号的开始位置和终点位置。本文先对声音信号进行了端点检测，主要用于确定获取的每一个声音样本是否是有效的发声，并且在有效的声音样本中确定出有用信号的起始点和终止点，为后期提取特征参数做准备。

S2.咳嗽信号特征提取，本发明中选择对声音信号进行功率谱密度分析，在分析结果的基础上设计有效的信号特征提取算法，获取识别咳嗽声信号的参考特征。本发明在获得了声音信号功率谱密度的基础上，提出运用目标优化的思想，对一定量的声音样本信号进行训练，以期得到它们的平均功率谱密度来作为声音信号的分类特征。对于的这两种声音，在试验过程中可以发现：

(1)除了1500Hz以下频段的功率谱密度特征较为接近之外，1500Hz以上频段的功率谱密度特征基本上都相差10dB左右；

(2)3000Hz以下频段部分的功率谱密度波动性较大，而3000Hz以上频段部分的功率谱密度曲线则较为平缓。

通过目标优化思想训练得到的咳嗽声信号和尖叫声信号的功率谱密度特征在数值上是有明显差异的，以这样的方式得到的声音信号特征可以认为是有效的发声。

S2.咳嗽声音识别，训练得到了咳嗽声的功率谱密度特征，接下来，将以此特征曲线作为聚类中心，在模糊C均值聚类算法(FuzzyC-Means，FCM)的基础上设计出有效的识别算法，对咳嗽声进行识别。

FCM聚类算法实际上是通过一种逐步迭代的运算方式来实现聚类效果的算法，其中的每一步迭代都会朝着使目标函数逐渐减小的方向而进行。具体的实现过程如下：

(1)确定好聚类中心的数目C、聚类中心v₁，以及初始化加权系数m；

(2)对第t次迭代，计算出新的隶属度函数和C个聚类中心；

(3)令t＝t+1，返回到步骤(2)中，继续进行迭代，直到满足迭代停滞条件。

本发明在上述FCM聚类算法的基础上，提出由样本点的聚类间接实现线的聚类，以这样的算法对咳嗽声进行识别，具体采用如下的方法和步骤进行：

(1)以获得的咳嗽声功率谱密度特征和尖叫声功率谱密度特征作为两个聚类中心v₁(n)和v₂(n)聚合的两个类分别用w₁和w₂表示；

(2)将每一个要分类的声音样本的功率谱密度用P_N表示，按点N分别来计算到各聚类中心的距离，公式如下：

d(P_n,v₁(n))＝||P_n-v₁(n)||,i＝1,2,n＝1,2,...,N

(3)按最小距离原则，对声音样本的功率谱密度P_N的N个点进行聚类，并在程序中分别以j和k计数来记录类属情况，表示如下：

若d(P_n,v₁(n))＝d(P_n,v₂(n)),则j，k不变

若d(P_n,v₁(n))>d(P_n,v₂(n)),则k＝k+1,n＝1,2,...N,j+k≤N

若d(P_n,v₁(n))＝d(P_n,v₂(n)),则j、k不变

(4)计数值j和k反映了声音样本的功率谱密度P_N的N个点的聚类情况，根据它们值的大小，定义如下的识别方法：

若j>k,则P_N∈w₁

若j＜k,则P_N∈w₂

通过上述过程，可以完成对一个声音样本的分类识别工作。在实际情况中，j＝k几乎不存在，此处不予考虑。

S4.单片机及WiFi模块传输咳嗽报警信号，设置语音识别模块的串口发送指令发送串口数据0x55(串口通信数据帧的帧头)。设置完成后每次语音识别模块识别到咳嗽声音，则向单片机发送0x55数据将语音识别模块通过DB9(D型数据接口连接器)将语音模块的输出与单片机stm32f103的串口USART1进行连接。单片机通过串口USART2与WiFi模块esp8266进行连接(esp8266的IO_0需要为高电平则WiFi模块进入运行模式)。

S5.服务器及后端接收并前端显示，边缘算法服务器使用Java语言，Springboot框架暴露咳嗽异常检测接口，Springboot框架是Java平台上的一种开源应用框架，提供具有控制反转特性的容器。在进程启动时，使用JavaCV拉取摄像头视频流但不做任何操作，JavaCV是Github上的一个开源项目，它是第一个向包括Android在内的Linux内核系统提供视频处理库Java接口的开源项目，提供的视频处理库接口包括：OpenCV、FFMEPG、lib1394、PRG、FlyCapture、OpenKinect、VideoInput等。当硬件检测到咳嗽时，请求边缘算法服务器java后端，后端截取摄像头当前帧的图片并转发报告给超算中心服务器，由超算中心服务器进行数据存储并通过Websocket长连接形式与前端展示页面实现数据的实时交互展示。Websocket是一种在单个TCP连接上进行全双工通信的协议。Websocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在Websocket API中，浏览器和服务器只需要完成一次握手，两者之间就直接可以创建持久性的连接，并进行双向数据传输。通过此种架构，极大的减小了摄像头帧图获取的延时，解决了咳嗽检测时间与图片获取时间偏差过大的问题。

前端使用Vue.js框架进行开发，Vue是一套用于构建用户界面的渐进式框架，可以自底向上逐层应用，并且在与现代化的工具链以及各种支持类库结合使用时，Vue也完全能够为复杂的单页应用提供驱动。在疫情防控页面，前端通过Axios发送请求给服务器端，Axios内部封装了Ajax，是一个基于promise的HTTP库，可以用在浏览器和node.js中。Ajax即“Asynchronous Javascript And XML”(异步JavaScript和XML)，是指一种创建交互式、快速动态网页应用的网页开发技术，无需重新加载整个网页的情况下，能够更新部分网页的技术。后端收到请求之后会将请求的响应结果发送给浏览器端，前端通过处理结果将咳嗽等数据动态的渲染在前端页面上，因为是基于Vue开发，开发者无需关注DOM的变化，只需改变数据即可更新网页的视图，这就是Vue的设计模式：MVVM的优点。当咳嗽数据发生更新的时候，用户无需刷新页面，前端采用Websocket技术，和服务器端建立长连接，服务器端可以主动向浏览器端发送数据，当浏览器端接受到更新的疫情数据时，可以将最新的数据动态的添加到当前展示的列表中。

本发明目的是不需要提前录入咳嗽声音进行训练则能够准确的在大范围的生活场景中识别咳嗽的人并显示和报警。此外，本发明基于连续语音识别技术，则对于连续咳嗽的高风险人群识别提高了准确性。

基于目标优化思想训练声音信号功率谱密度特征，获得了有效的咳嗽声和尖叫声识别分类特征，且方法简单、高效；在模糊C均值聚类算法的基础上，提出了由样本点的聚类间接来实现线的聚类的识别方法，按个体对声音样本进行识别，忽略个体差异，提高对咳嗽声和尖叫声的识别准确率。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种咳嗽及喷嚏监测识别方法，其特征在于，包括以下步骤：

S1：咳嗽信号预处理；具体包括以下步骤：

S1.1：采样与量化；对声音信号进行采样与量化，获取到的初始声音样本信号用连续的信号，以等时间间隔对其进行采样，得到离散的信号；

S1.2：滤波；对采样与量化后的声音信号进行滤波处理；

S1.3：加窗分帧；将声音信号划分为许多个时间相等的声音段；

S1.4：端点检测；对声音信号进行端点检测，确定获取的每一个声音样本是否是有效的声音样本，并且在有效的声音样本中确定出有用信号的起始点和终止点，为后期提取特征参数做准备；

S2：咳嗽信号特征提取；对S1预处理确定出的有用信号进行功率谱密度分析，在分析结果的基础上设计有效的信号特征提取算法，获取识别咳嗽声信号的参考特征，在获得声音信号功率谱密度的基础上，对一定量的声音样本信号进行训练，得到平均功率谱密度来作为声音信号的分类特征；

S3：算法识别；训练得到咳嗽声的功率谱密度特征后，以此特征曲线作为聚类中心，在模糊C均值聚类算法的基础上设计出识别算法，对咳嗽声进行识别，具体包括以下步骤：

S3.1：以获得的咳嗽声功率谱密度特征和尖叫声功率谱密度特征作为两个聚类中心v₁(n)和v₂(n)聚合的两个类分别用w₁和w₂表示；

S3.2：将每一个要分类的声音样本的功率谱密度用P_N表示，按点N分别来计算到各聚类中心的距离，计算公式如下：

d(P_n,v₁(n))＝||P_n-v₁(n)||,i＝1,2,n＝1,2,...,N

S3.3：按最小距离原则，对声音样本的功率谱密度P_N的N个点进行聚类，并在程序中分别以j和k计数来记录类属情况，表示如下：

若d(P_n,v₁(n))＝d(P_n,v₂(n)),则j，k不变

若d(P_n,v₁(n))>d(P_n,v₂(n)),则k＝k+1,n＝1,2,...N,j+k≤N

若d(P_n,v₁(n))＝d(P_n,v₂(n)),则j、k不变

S3.4：计数值j和k反映了声音样本的功率谱密度P_N的N个点的聚类情况，根据它们值的大小，定义如下的识别方法：

若j>k,则P_N∈w₁

若j＜k,则P_N∈w₂

S4：单片机及WiFi模块传输；

S5：服务器及后端接收并前端显示。

2.根据权利要求1所述的一种咳嗽及喷嚏监测识别方法，其特征在于，所述步骤S21中，采用巴特沃斯低通滤波器对采样与量化后的声音信号进行滤波处理。

3.根据权利要求1所述的一种咳嗽及喷嚏监测识别方法，其特征在于，所述步骤S4中，采用单片机及WiFi模块传输，设置语音识别模块的串口发送指令发送串口数据，设置完成后每次语音识别模块识别到咳嗽声音，则向单片机发送串口数据将语音识别模块通过D型数据接口连接器接口将语音模块的输出与单片机的串口USART1进行连接，单片机通过串口USART2与WiFi模块进行连接。

4.根据权利要求1所述的一种咳嗽及喷嚏监测识别方法，其特征在于，所述步骤S5中，服务器及后端接收并前端显示，边缘算法服务器使用Java语言，Springboot框架暴露咳嗽异常检测接口，在进程启动时，使用JavaCV拉取摄像头视频流但不做任何操作，当硬件检测到咳嗽时，请求边缘算法服务器java后端，后端截取摄像头当前帧的图片并转发报告给超算中心服务器，由超算中心服务器进行数据存储并通过Websocket长连接形式与前端展示页面实现数据的实时交互展示；后端收到请求之后会将请求的响应结果发送给浏览器端，前端通过处理结果将咳嗽等数据动态的渲染在前端页面上。