CN109192226A

CN109192226A - 一种信号处理方法及装置

Info

Publication number: CN109192226A
Application number: CN201810669024.4A
Authority: CN
Inventors: 丁惠君; 潘搌鹏; 岑乾; 但果; 汪天富; 陈思平
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2019-01-11
Also published as: WO2020000523A1

Abstract

本发明实施例提供了一种信号处理方法及装置，包括：通过麦克风采集检测声音信号；通过目标网络模型识别该检测声音信号属于每类信号的概率；将该检测声音信号归类至识别出的概率最大的信号类。本发明实施例，可以通过非接触式检查嗓音疾病。

Description

一种信号处理方法及装置

技术领域

本发明涉及信号处理领域，具体涉及一种信号处理方法及装置。

背景技术

当人嗓音的音量、音调、音质、发音持续时间、共鸣位置以及发音的轻松程度等出现异常时，人的声音可能无法满足人们日常生活和工作的需要，此时认为人的嗓子患有嗓音疾病。由于在语言形成及运用过程中，嗓音起着非常重要的作用，因此，如何确定嗓音疾病已成为一个亟待解决的技术问题。目前，可以通过动态喉镜、喉肌电图等检查人们的嗓音疾病，但此类技术手段均属于侵入性检查方式，对于患者存在一定的痛苦及损伤。

发明内容

本发明实施例提供一种信号处理方法及装置，可以通过非接触式检测嗓音疾病。

本发明实施例第一方面提供一种信号处理方法，包括：

通过麦克风采集检测声音信号；

通过目标网络模型识别所述检测声音信号属于每类信号的概率；

将所述检测声音信号归类至所述概率最大的信号类。

在一个实施例中，所述方法还包括：

通过麦克风采集训练声音信号；

使用所述训练声音信号训练初始网络模型，获得目标网络模型。

在一个实施例中，所述方法还包括：

将所述训练声音信号中每个声音信号划分为长度相同的信号，获得划分训练信号；

所述使用所述训练声音信号训练初始网络模型，获得目标网络模型包括：

使用所述划分训练信号训练初始网络模型，获得目标网络模型。

在一个实施例中，所述方法还包括：

将所述检测声音信号划分为长度相同的信号，获得分段信号，所述分段信号中每个信号与所述划分训练信号中每个信号的长度相同；

所述通过目标网络模型识别所述检测声音信号属于每类信号的概率包括：

将所述分段信号输入目标网络模型，获得所述检测声音信号属于每类信号的概率。

在一个实施例中，所述方法还包括：

从所述训练声音信号中的每个声音信号中选取部分信号；

所述将所述训练声音信号中每个声音信号划分为长度相同的信号，获得划分训练信号包括：

将所述部分信号中每个信号划分为长度相同的信号，获得划分训练信号。

本发明实施例第二方面提供一种信号处理装置，包括：

第一采集单元，用于通过麦克风采集检测声音信号；

识别单元，用于通过目标网络模型识别所述第一采集单元采集的检测声音信号属于每类信号的概率；

归类单元，用于将所述第一采集单元采集的检测声音信号归类至所述识别单元识别出的概率最大的信号类。

在一个实施例中，所述装置还包括：

第二采集单元，用于通过麦克风采集训练声音信号；

训练单元，用于使用所述第二采集单元采集的训练声音信号训练初始网络模型，获得目标网络模型。

在一个实施例中，所述装置还包括：

第一划分单元，用于将所述第二采集单元采集的训练声音信号中每个声音信号划分为长度相同的信号，获得划分训练信号；

所述训练单元，具体用于使用所述第一划分单元获得的划分训练信号训练初始网络模型，获得目标网络模型。

在一个实施例中，所述装置还包括：

第二划分单元，用于将所述第一采集单元采集的检测声音信号划分为长度相同的信号，获得分段信号，所述分段信号中每个信号与所述划分训练信号中每个信号的长度相同；

所述识别单元，具体用于将所述第二划分单元获得的分段信号输入目标网络模型，获得所述检测声音信号属于每类信号的概率。

在一个实施例中，所述装置还包括：

选取单元，用于从所述第二采集单元采集的训练声音信号中的每个声音信号中选取部分信号；

所述第一划分单元，具体用于将所述选取单元选取的部分信号中每个信号划分为长度相同的信号，获得划分训练信号。

本发明实施例第三方面提供一种信号处理装置，该信号处理装置包括处理器、存储器和麦克风，存储器用于存储程序代码，处理器用于执行程序代码，麦克风用于采集声音信号。当处理器执行存储器存储的程序代码时，使得处理器执行第一方面或第一方面的任一种可能实现方式所公开的信号处理方法。

本发明实施例第四方面提供一种可读存储介质，该可读存储介质存储了信号处理装置用于执行第一方面或第一方面的任一种可能实现方式所公开的信号处理方法的程序代码。

本发明实施例中，通过麦克风采集检测声音信号，通过目标网络模型识别该检测声音信号属于每类信号的概率，将该检测声音信号归类至概率最大的信号类。由于通过麦克风采集人声音信号，因此，可以不与人接触，从而不会对患者存造成痛苦及损伤，以便通过非接触式检测嗓音疾病。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种信号处理方法的流程示意图；

图2是本发明实施例提供的另一种信号处理方法的流程示意图；

图3是本发明实施例提供的一种信号处理装置的结构示意图；

图4是本发明实施例提供的另一种信号处理装置的结构示意图；

图5是本发明实施例提供的一种残差CNN模型的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种信号处理方法及装置，可以通过非接触式检测嗓音疾病。以下分别进行详细说明。

请参阅图1，图1是本发明实施例提供的一种信号处理方法的流程示意图。如图1所示，该信号处理方法可以包括以下步骤。

101、通过麦克风采集检测声音信号。

本实施例中，当需要检查人的嗓子是否患有疾病时，先需要通过麦克风采集检测声音信号。声音信号可以分为两类，一类为正常人的声音信号，另一类为嗓子患有疾病的嗓音患者的声音信号。声音信号也可以分为三类或三类以上，可以将嗓子患有疾病的嗓音患者根据患病情况的严重程度不同分为多类。麦克风的采集频率可以为8kHZ，也可以为其它值，本实施例不作限定。为了保证采集的声音信号的准确性，麦克风与人的嘴唇之间的距离要小于30cm。此外，为了减少环境噪音对声音信号检测的影响，环境噪音要低于30db。采集的检测声音信号可以只包括一个音的信号，也可以包括多个音的信号。此外，采集的检测声音信号可以是一个声音信号，也可以是多个声音信号。当为多个声音信号时，这多个声音信号的长度可以相同，也可以不同。

102、通过目标网络模型识别检测声音信号属于每类信号的概率。

本实施例中，为了让采集到的声音信号尽可能地保留高频特征，可以不对采集的声音信号进行滤波处理。通过麦克风采集到需要的检测声音信号之后，通过目标网络模型识别检测声音信号属于每类信号的概率。目标网络模型是预先训练好的网络模型，可以包括卷积神经网络(Convolutional Neural Network，CNN)模型和循环神经网络(RecurrentNeural Network，RNN)模型，可以为前CNN后RNN。CNN模型可以为残差CNN模型，也可以为google网络模型中的初始模块(inception module)，还可以为密集网络(densenet)模型中的密集模块(dense module)。RNN模型可以为长短期记忆(Long Short Time Memory，LSTM)RNN模型，也可以为门控循环单元(Gated Recurrent Unit，GRU)模型。请参阅图5，图5是本发明实施例提供的一种残差CNN模型的示意图。如图5所示，残差CNN模型的输入经过卷积层、批量归一化层、ReLU函数、叠加等运算之后输出。此外，目标网络模型还可以包括归一化概率(softmax)函数、最大池化(maxpooling)算法等。

103、将检测声音信号归类至概率最大的信号类。

本实施例中，通过目标网络模型识别出检测声音信号属于每类信号的概率之后，将检测声音信号归类至概率最大的信号类，当概率最大的类别为正常人时，表明检测声音信号为正常人的声音信号；当概率最大的类别为嗓音患者的声音信号时，表明检测声音信号为嗓音患者的声音信号。

在图1所描述的信号处理方法中，通过麦克风采集检测声音信号，通过目标网络模型识别检测声音信号属于每类信号的概率，将检测声音信号归类至概率最大的信号类。由于通过麦克风采集人声音信号，因此，可以不与人接触，从而不会对患者存造成痛苦及损伤，以便通过非接触式检测嗓音疾病。

请参阅图2，图2是本发明实施例提供的另一种信号处理方法的流程示意图。如图2所示，该信号处理方法可以包括以下步骤。

201、通过麦克风采集训练声音信号。

本实施例中，为了检测人嗓音疾病，需要先通过麦克风采集训练声音信号。训练声音信号包括多个声音信号，这多个声音信号的长度可以均相同，也可以均不同，还可以部分相同部分不同。为了保证采集的声音信号的准确性，麦克风与人的嘴唇之间的距离要小于30cm。此外，为了减少环境噪音对声音信号检测的影响，环境噪音要低于30db。训练声音信号中的每个声音信号可以只包括一个音的信号，也可以包括多个音的信号。

202、从训练声音信号中的每个声音信号中选取部分信号。

本实施例中，通过麦克风采集到训练声音信号之后，当采集的训练声音信号中声音信号的数量较少时，为了减轻过拟合，增加训练的声音信号的数量，可以先从训练声音信号中的每个声音信号中选取部分信号。这部分信号可以是从原声音信号中随机选取的50％-70％的信号。

本实施例中，当采集的训练声音信号中声音信号的数量较少时，一般是先从训练声音信号中的每个声音信号中分别选取一部分信号进行第一轮训练，之后再从训练声音信号中的每个声音信号中分别选取另一部分信号进行第二轮训练，直到训练结束。其中，每轮选训练中从同一声音信号中选取的部分信号的长度均相同，但内容可以均不同，也可以部分相同部分不同。

203、将该部分信号中每个信号划分为长度相同的信号，获得划分训练信号。

本实施例中，从训练声音信号中的每个声音信号中选取出部分信号之后，将该部分信号中每个信号划分为长度相同的信号，即对该部分信号进行分帧处理，获得划分训练信号。其中，每一帧的长度相同，当部分信号的长度不同时，每部分信号分帧之后得到的帧数不同。在一个实施例中，当采集的训练声音信号中声音信号的数量较大时，通过麦克风采集到训练声音信号之后，可以直接将训练声音信号中每个信号划分为长度相同的信号，获得划分训练信号，而不需要执行步骤202。其中，划分训练信号的公式可以表示如下：

y(n)＝∏x(n)h(m)

其中，y(n)为划分训练信号，即划分后信号的集合，h(m)为汉明窗函数，x(n)为长度与窗函数的长度相同的训练信号中的部分信号。h(m)可以表示如下：

其中，N为分段后每段信号和汉明窗函数(或窗)的长度，m为窗里面的点，0≤m≤N-1，M为重叠率，一般为0.5，n为自然数，n＝0，……，P-1，P为划分训练信号中信号的数量。

204、使用划分训练信号训练初始网络模型，获得目标网络模型。

本实施例中，将该部分信号中每个信号划分为长度相同的信号或将训练声音信号中每个信号划分为长度相同的信号，获得划分训练信号之后，使用划分训练信号训练初始网络模型，获得目标网络模型。可以将划分训练信号中属于第一信号的信号输入初始网络模型，获得第一信号属于每类信号的概率，根据该概率计算损失函数值，将该损失函数值反向传播至初始网络模型，获得更新参数的初始网络模型，之后将划分训练信号中属于第二信号的信号输入更新参数的初始网络模型，获得第二信号属于每类信号的概率，根据该概率计算损失函数值，将该损失函数值反向传播至更新参数的初始网络模型，获得再次更新参数的初始网络模型，重复执行上述步骤，直到确定出最小的损失函数值，并将损失函数值最小时对应的初始网络模型确定目标网络模型。第一信号和第二信号为训练声音信号中的不同信号。其中，初始网络模型与目标网络模型的模型相同，只是参数不同。初始网络模型和目标网络模型可以包括CNN模型和RNN模型，可以为前CNN后RNN。CNN模型可以为残差CNN模型，也可以为google网络模型中的初始模块，还可以为密集网络模型中的密集模块。RNN模型可以为LSTMRNN模型，也可以为GRU模型。此外，初始网络模型和目标网络模型还可以包括归一化概率函数、最大池化算法等。

本实施例中，当声音信号分为两类时，初始网络模型和目标网络模型可以理解为输入向量x与网络权重w相乘，之后经过一个非线性变换f，并加上偏置b后得到的二维向量s，再对s进行归一化(即经过softmax函数)后得到的两个类别的概率p。其中，s可以表示如下：

s＝f(wx)+b

p可以表示如下：

其中，j为声音信号的类别，当声音信号分为两类时，j＝0或1，k＝0，1。损失函数可以表示如下：

loss(p,label)表示损失函数，label表示数据的真实标签。将损失函数值反向传播至初始网络模型获得更新参数的初始网络模型，可以为损失函数对每个变量求偏导，之后计算所有偏导的平均值，使用初始网络模型里面的参数均减去该平均值，获得更新参数的初始网络模型。

205、通过麦克风采集检测声音信号。

其中，步骤205与步骤101相同，详细描述请参考步骤101，在此不再赘述。

206、将检测声音信号划分为长度相同的信号，获得分段信号。

其中，步骤206与步骤203相似，详细描述请参考步骤203，在此不再赘述。

207、将分段信号输入目标网络模型，获得检测声音信号属于每类信号的概率。

208、将检测声音信号归类至概率最大的信号类。

其中，步骤208与步骤103相似，详细描述请参考步骤103，在此不再赘述。

在图2所描述的信号处理方法中，由于通过麦克风采集人声音信号，因此，可以不与人接触，从而不会对患者存造成痛苦及损伤，以便通过非接触式检测嗓音疾病。

基于上述实施例中的信号处理方法的同一构思，请参阅图3，图3是本发明实施例提供的一种信号处理装置的结构示意图。其中，该信号处理装置可以应用于上述图1-图2所示的信号处理方法中。如图3所示，该装置可以包括：

第一采集单元301，用于通过麦克风采集检测声音信号；

识别单元302，用于通过目标网络模型识别第一采集单元301采集的检测声音信号属于每类信号的概率；

归类单元303，用于将第一采集单元301采集的检测声音信号归类至识别单元302识别出的概率最大的信号类。

作为一种可能的实施方式，该装置还可以包括：

第二采集单元304，用于通过麦克风采集训练声音信号；

训练单元305，用于使用第二采集单元304采集的训练声音信号训练初始网络模型，获得目标网络模型。

具体地，识别单元302，用于通过训练单元305获得的目标网络模型识别声音信号属于每类信号的概率。

作为一种可能的实施方式，该装置还可以包括：

第一划分单元306，用于将第二采集单元304采集的训练声音信号中每个声音信号划分为长度相同的信号，获得划分训练信号；

训练单元305，具体用于使用第一划分单元306获得的划分训练信号训练初始网络模型，获得目标网络模型。

作为一种可能的实施方式，该装置还可以包括：

第二划分单元307，用于将第一采集单元301采集的声音信号划分为长度相同的信号，获得分段信号，分段信号中每个信号与划分训练信号中每个信号的长度相同；

识别单元302，具体用于将第二划分单元307获得的分段信号输入目标网络模型，获得检测声音信号属于每类信号的概率。

作为一种可能的实施方式，该装置还可以包括：

选取单元308，用于从第二采集单元304采集的训练声音信号中的每个声音信号中选取部分信号；

第一划分单元306，具体用于将选取单元308选取的部分信号中每个信号划分为长度相同的信号，获得划分训练信号。

有关上述采集单元301、识别单元302、归类单元303、训练单元304、第一划分单元305、第二划分单元306和选取单元307更详细的描述可以直接参考上述图1-图2所示的信号处理方法实施例中的相关描述直接得到，这里不加赘述。

基于上述实施例中的信号处理方法的同一构思，请参阅图4，图4是本发明实施例提供的另一种信号处理装置的结构示意图。其中，该信号处理装置可以应用于上述图1-图2所示的信号处理方法中。如图4所示，该信号处理装置可以包括：至少一个处理器401，如CPU，存储器402，麦克风403、图像处理器(Graphics Processing Unit，GPU)404以及至少一个总线405。存储器402可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。可选地，存储器402还可以是至少一个位于远离前述处理器401的存储装置。其中：

总线405，用于实现这些组件之间的连接通信；

GPU404，用于辅助浮点计算；

麦克风403，用于采集检测声音信号，并发送给处理器401；

存储器402中存储有一组程序代码，处理器401用于调用存储器402中存储的程序代码执行以下操作：

通过目标网络模型识别检测声音信号属于每类信号的概率；

将检测声音信号归类至概率最大的信号类。

作为一种可能的实施方式，麦克风403，还用于通过麦克风采集训练声音信号；

处理器401还用于调用存储器402中存储的程序代码执行以下操作：

使用训练声音信号训练初始网络模型，获得目标网络模型。

作为一种可能的实施方式，处理器401还用于调用存储器402中存储的程序代码执行以下操作：

将训练声音信号中每个声音信号划分为长度相同的信号，获得划分训练信号；

处理器401使用训练声音信号训练初始网络模型，获得目标网络模型包括：

使用划分训练信号训练初始网络模型，获得目标网络模型。

将检测声音信号划分为长度相同的信号，获得分段信号，分段信号中每个信号与划分训练信号中每个信号的长度相同；

处理器401通过目标网络模型识别检测声音信号属于每类信号的概率包括：

将分段信号输入目标网络模型，获得检测声音信号属于每类信号的概率。

从训练声音信号中的每个声音信号中选取部分信号；

处理器401将训练声音信号中每个声音信号划分为长度相同的信号，获得划分训练信号包括：

将该部分信号中每个信号划分为长度相同的信号，获得划分训练信号。

其中，步骤101、步骤201和步骤205可以由信号处理装置中的麦克风403来执行，步骤102-步骤103、步骤202-步骤204以及步骤206-步骤208可以由信号处理装置中的处理器401和存储器402来执行。

其中，采集单元301可以由信号处理装置中的加速度传感器403来实现，识别单元302、归类单元303、训练单元304、第一划分单元305、第二划分单元306和选取单元307可以由信号处理装置中的处理器401和存储器402来实现。

本发明实施例还公开了一种可读存储介质，该可读存储介质存储了信号处理装置用于执行图1-图2所示的信号处理方法的程序代码。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明实施例提供的信号处理方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种信号处理方法，其特征在于，包括：

通过麦克风采集检测声音信号；

将所述检测声音信号归类至所述概率最大的信号类。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过麦克风采集训练声音信号；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

从所述训练声音信号中的每个声音信号中选取部分信号；

6.一种信号处理装置，其特征在于，包括：

第一采集单元，用于通过麦克风采集检测声音信号；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二采集单元，用于通过麦克风采集训练声音信号；

8.根据权利要求7所述的方法，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：