CN109192226A - 一种信号处理方法及装置 - Google Patents
一种信号处理方法及装置 Download PDFInfo
- Publication number
- CN109192226A CN109192226A CN201810669024.4A CN201810669024A CN109192226A CN 109192226 A CN109192226 A CN 109192226A CN 201810669024 A CN201810669024 A CN 201810669024A CN 109192226 A CN109192226 A CN 109192226A
- Authority
- CN
- China
- Prior art keywords
- signal
- training
- voice signal
- network model
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 101
- 238000012545 processing Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 17
- 208000011293 voice disease Diseases 0.000 abstract description 8
- 238000007689 inspection Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 208000002193 Pain Diseases 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 210000004717 laryngeal muscle Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000036407 pain Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002889 sympathetic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明实施例提供了一种信号处理方法及装置,包括:通过麦克风采集检测声音信号;通过目标网络模型识别该检测声音信号属于每类信号的概率;将该检测声音信号归类至识别出的概率最大的信号类。本发明实施例,可以通过非接触式检查嗓音疾病。
Description
技术领域
本发明涉及信号处理领域,具体涉及一种信号处理方法及装置。
背景技术
当人嗓音的音量、音调、音质、发音持续时间、共鸣位置以及发音的轻松程度等出现异常时,人的声音可能无法满足人们日常生活和工作的需要,此时认为人的嗓子患有嗓音疾病。由于在语言形成及运用过程中,嗓音起着非常重要的作用,因此,如何确定嗓音疾病已成为一个亟待解决的技术问题。目前,可以通过动态喉镜、喉肌电图等检查人们的嗓音疾病,但此类技术手段均属于侵入性检查方式,对于患者存在一定的痛苦及损伤。
发明内容
本发明实施例提供一种信号处理方法及装置,可以通过非接触式检测嗓音疾病。
本发明实施例第一方面提供一种信号处理方法,包括:
通过麦克风采集检测声音信号;
通过目标网络模型识别所述检测声音信号属于每类信号的概率;
将所述检测声音信号归类至所述概率最大的信号类。
在一个实施例中,所述方法还包括:
通过麦克风采集训练声音信号;
使用所述训练声音信号训练初始网络模型,获得目标网络模型。
在一个实施例中,所述方法还包括:
将所述训练声音信号中每个声音信号划分为长度相同的信号,获得划分训练信号;
所述使用所述训练声音信号训练初始网络模型,获得目标网络模型包括:
使用所述划分训练信号训练初始网络模型,获得目标网络模型。
在一个实施例中,所述方法还包括:
将所述检测声音信号划分为长度相同的信号,获得分段信号,所述分段信号中每个信号与所述划分训练信号中每个信号的长度相同;
所述通过目标网络模型识别所述检测声音信号属于每类信号的概率包括:
将所述分段信号输入目标网络模型,获得所述检测声音信号属于每类信号的概率。
在一个实施例中,所述方法还包括:
从所述训练声音信号中的每个声音信号中选取部分信号;
所述将所述训练声音信号中每个声音信号划分为长度相同的信号,获得划分训练信号包括:
将所述部分信号中每个信号划分为长度相同的信号,获得划分训练信号。
本发明实施例第二方面提供一种信号处理装置,包括:
第一采集单元,用于通过麦克风采集检测声音信号;
识别单元,用于通过目标网络模型识别所述第一采集单元采集的检测声音信号属于每类信号的概率;
归类单元,用于将所述第一采集单元采集的检测声音信号归类至所述识别单元识别出的概率最大的信号类。
在一个实施例中,所述装置还包括:
第二采集单元,用于通过麦克风采集训练声音信号;
训练单元,用于使用所述第二采集单元采集的训练声音信号训练初始网络模型,获得目标网络模型。
在一个实施例中,所述装置还包括:
第一划分单元,用于将所述第二采集单元采集的训练声音信号中每个声音信号划分为长度相同的信号,获得划分训练信号;
所述训练单元,具体用于使用所述第一划分单元获得的划分训练信号训练初始网络模型,获得目标网络模型。
在一个实施例中,所述装置还包括:
第二划分单元,用于将所述第一采集单元采集的检测声音信号划分为长度相同的信号,获得分段信号,所述分段信号中每个信号与所述划分训练信号中每个信号的长度相同;
所述识别单元,具体用于将所述第二划分单元获得的分段信号输入目标网络模型,获得所述检测声音信号属于每类信号的概率。
在一个实施例中,所述装置还包括:
选取单元,用于从所述第二采集单元采集的训练声音信号中的每个声音信号中选取部分信号;
所述第一划分单元,具体用于将所述选取单元选取的部分信号中每个信号划分为长度相同的信号,获得划分训练信号。
本发明实施例第三方面提供一种信号处理装置,该信号处理装置包括处理器、存储器和麦克风,存储器用于存储程序代码,处理器用于执行程序代码,麦克风用于采集声音信号。当处理器执行存储器存储的程序代码时,使得处理器执行第一方面或第一方面的任一种可能实现方式所公开的信号处理方法。
本发明实施例第四方面提供一种可读存储介质,该可读存储介质存储了信号处理装置用于执行第一方面或第一方面的任一种可能实现方式所公开的信号处理方法的程序代码。
本发明实施例中,通过麦克风采集检测声音信号,通过目标网络模型识别该检测声音信号属于每类信号的概率,将该检测声音信号归类至概率最大的信号类。由于通过麦克风采集人声音信号,因此,可以不与人接触,从而不会对患者存造成痛苦及损伤,以便通过非接触式检测嗓音疾病。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种信号处理方法的流程示意图;
图2是本发明实施例提供的另一种信号处理方法的流程示意图;
图3是本发明实施例提供的一种信号处理装置的结构示意图;
图4是本发明实施例提供的另一种信号处理装置的结构示意图;
图5是本发明实施例提供的一种残差CNN模型的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种信号处理方法及装置,可以通过非接触式检测嗓音疾病。以下分别进行详细说明。
请参阅图1,图1是本发明实施例提供的一种信号处理方法的流程示意图。如图1所示,该信号处理方法可以包括以下步骤。
101、通过麦克风采集检测声音信号。
本实施例中,当需要检查人的嗓子是否患有疾病时,先需要通过麦克风采集检测声音信号。声音信号可以分为两类,一类为正常人的声音信号,另一类为嗓子患有疾病的嗓音患者的声音信号。声音信号也可以分为三类或三类以上,可以将嗓子患有疾病的嗓音患者根据患病情况的严重程度不同分为多类。麦克风的采集频率可以为8kHZ,也可以为其它值,本实施例不作限定。为了保证采集的声音信号的准确性,麦克风与人的嘴唇之间的距离要小于30cm。此外,为了减少环境噪音对声音信号检测的影响,环境噪音要低于30db。采集的检测声音信号可以只包括一个音的信号,也可以包括多个音的信号。此外,采集的检测声音信号可以是一个声音信号,也可以是多个声音信号。当为多个声音信号时,这多个声音信号的长度可以相同,也可以不同。
102、通过目标网络模型识别检测声音信号属于每类信号的概率。
本实施例中,为了让采集到的声音信号尽可能地保留高频特征,可以不对采集的声音信号进行滤波处理。通过麦克风采集到需要的检测声音信号之后,通过目标网络模型识别检测声音信号属于每类信号的概率。目标网络模型是预先训练好的网络模型,可以包括卷积神经网络(Convolutional Neural Network,CNN)模型和循环神经网络(RecurrentNeural Network,RNN)模型,可以为前CNN后RNN。CNN模型可以为残差CNN模型,也可以为google网络模型中的初始模块(inception module),还可以为密集网络(densenet)模型中的密集模块(dense module)。RNN模型可以为长短期记忆(Long Short Time Memory,LSTM)RNN模型,也可以为门控循环单元(Gated Recurrent Unit,GRU)模型。请参阅图5,图5是本发明实施例提供的一种残差CNN模型的示意图。如图5所示,残差CNN模型的输入经过卷积层、批量归一化层、ReLU函数、叠加等运算之后输出。此外,目标网络模型还可以包括归一化概率(softmax)函数、最大池化(maxpooling)算法等。
103、将检测声音信号归类至概率最大的信号类。
本实施例中,通过目标网络模型识别出检测声音信号属于每类信号的概率之后,将检测声音信号归类至概率最大的信号类,当概率最大的类别为正常人时,表明检测声音信号为正常人的声音信号;当概率最大的类别为嗓音患者的声音信号时,表明检测声音信号为嗓音患者的声音信号。
在图1所描述的信号处理方法中,通过麦克风采集检测声音信号,通过目标网络模型识别检测声音信号属于每类信号的概率,将检测声音信号归类至概率最大的信号类。由于通过麦克风采集人声音信号,因此,可以不与人接触,从而不会对患者存造成痛苦及损伤,以便通过非接触式检测嗓音疾病。
请参阅图2,图2是本发明实施例提供的另一种信号处理方法的流程示意图。如图2所示,该信号处理方法可以包括以下步骤。
201、通过麦克风采集训练声音信号。
本实施例中,为了检测人嗓音疾病,需要先通过麦克风采集训练声音信号。训练声音信号包括多个声音信号,这多个声音信号的长度可以均相同,也可以均不同,还可以部分相同部分不同。为了保证采集的声音信号的准确性,麦克风与人的嘴唇之间的距离要小于30cm。此外,为了减少环境噪音对声音信号检测的影响,环境噪音要低于30db。训练声音信号中的每个声音信号可以只包括一个音的信号,也可以包括多个音的信号。
202、从训练声音信号中的每个声音信号中选取部分信号。
本实施例中,通过麦克风采集到训练声音信号之后,当采集的训练声音信号中声音信号的数量较少时,为了减轻过拟合,增加训练的声音信号的数量,可以先从训练声音信号中的每个声音信号中选取部分信号。这部分信号可以是从原声音信号中随机选取的50%-70%的信号。
本实施例中,当采集的训练声音信号中声音信号的数量较少时,一般是先从训练声音信号中的每个声音信号中分别选取一部分信号进行第一轮训练,之后再从训练声音信号中的每个声音信号中分别选取另一部分信号进行第二轮训练,直到训练结束。其中,每轮选训练中从同一声音信号中选取的部分信号的长度均相同,但内容可以均不同,也可以部分相同部分不同。
203、将该部分信号中每个信号划分为长度相同的信号,获得划分训练信号。
本实施例中,从训练声音信号中的每个声音信号中选取出部分信号之后,将该部分信号中每个信号划分为长度相同的信号,即对该部分信号进行分帧处理,获得划分训练信号。其中,每一帧的长度相同,当部分信号的长度不同时,每部分信号分帧之后得到的帧数不同。在一个实施例中,当采集的训练声音信号中声音信号的数量较大时,通过麦克风采集到训练声音信号之后,可以直接将训练声音信号中每个信号划分为长度相同的信号,获得划分训练信号,而不需要执行步骤202。其中,划分训练信号的公式可以表示如下:
y(n)=∏x(n)h(m)
其中,y(n)为划分训练信号,即划分后信号的集合,h(m)为汉明窗函数,x(n)为长度与窗函数的长度相同的训练信号中的部分信号。h(m)可以表示如下:
其中,N为分段后每段信号和汉明窗函数(或窗)的长度,m为窗里面的点,0≤m≤N-1,M为重叠率,一般为0.5,n为自然数,n=0,……,P-1,P为划分训练信号中信号的数量。
204、使用划分训练信号训练初始网络模型,获得目标网络模型。
本实施例中,将该部分信号中每个信号划分为长度相同的信号或将训练声音信号中每个信号划分为长度相同的信号,获得划分训练信号之后,使用划分训练信号训练初始网络模型,获得目标网络模型。可以将划分训练信号中属于第一信号的信号输入初始网络模型,获得第一信号属于每类信号的概率,根据该概率计算损失函数值,将该损失函数值反向传播至初始网络模型,获得更新参数的初始网络模型,之后将划分训练信号中属于第二信号的信号输入更新参数的初始网络模型,获得第二信号属于每类信号的概率,根据该概率计算损失函数值,将该损失函数值反向传播至更新参数的初始网络模型,获得再次更新参数的初始网络模型,重复执行上述步骤,直到确定出最小的损失函数值,并将损失函数值最小时对应的初始网络模型确定目标网络模型。第一信号和第二信号为训练声音信号中的不同信号。其中,初始网络模型与目标网络模型的模型相同,只是参数不同。初始网络模型和目标网络模型可以包括CNN模型和RNN模型,可以为前CNN后RNN。CNN模型可以为残差CNN模型,也可以为google网络模型中的初始模块,还可以为密集网络模型中的密集模块。RNN模型可以为LSTMRNN模型,也可以为GRU模型。此外,初始网络模型和目标网络模型还可以包括归一化概率函数、最大池化算法等。
本实施例中,当声音信号分为两类时,初始网络模型和目标网络模型可以理解为输入向量x与网络权重w相乘,之后经过一个非线性变换f,并加上偏置b后得到的二维向量s,再对s进行归一化(即经过softmax函数)后得到的两个类别的概率p。其中,s可以表示如下:
s=f(wx)+b
p可以表示如下:
其中,j为声音信号的类别,当声音信号分为两类时,j=0或1,k=0,1。损失函数可以表示如下:
loss(p,label)表示损失函数,label表示数据的真实标签。将损失函数值反向传播至初始网络模型获得更新参数的初始网络模型,可以为损失函数对每个变量求偏导,之后计算所有偏导的平均值,使用初始网络模型里面的参数均减去该平均值,获得更新参数的初始网络模型。
205、通过麦克风采集检测声音信号。
其中,步骤205与步骤101相同,详细描述请参考步骤101,在此不再赘述。
206、将检测声音信号划分为长度相同的信号,获得分段信号。
其中,步骤206与步骤203相似,详细描述请参考步骤203,在此不再赘述。
207、将分段信号输入目标网络模型,获得检测声音信号属于每类信号的概率。
208、将检测声音信号归类至概率最大的信号类。
其中,步骤208与步骤103相似,详细描述请参考步骤103,在此不再赘述。
在图2所描述的信号处理方法中,由于通过麦克风采集人声音信号,因此,可以不与人接触,从而不会对患者存造成痛苦及损伤,以便通过非接触式检测嗓音疾病。
基于上述实施例中的信号处理方法的同一构思,请参阅图3,图3是本发明实施例提供的一种信号处理装置的结构示意图。其中,该信号处理装置可以应用于上述图1-图2所示的信号处理方法中。如图3所示,该装置可以包括:
第一采集单元301,用于通过麦克风采集检测声音信号;
识别单元302,用于通过目标网络模型识别第一采集单元301采集的检测声音信号属于每类信号的概率;
归类单元303,用于将第一采集单元301采集的检测声音信号归类至识别单元302识别出的概率最大的信号类。
作为一种可能的实施方式,该装置还可以包括:
第二采集单元304,用于通过麦克风采集训练声音信号;
训练单元305,用于使用第二采集单元304采集的训练声音信号训练初始网络模型,获得目标网络模型。
具体地,识别单元302,用于通过训练单元305获得的目标网络模型识别声音信号属于每类信号的概率。
作为一种可能的实施方式,该装置还可以包括:
第一划分单元306,用于将第二采集单元304采集的训练声音信号中每个声音信号划分为长度相同的信号,获得划分训练信号;
训练单元305,具体用于使用第一划分单元306获得的划分训练信号训练初始网络模型,获得目标网络模型。
作为一种可能的实施方式,该装置还可以包括:
第二划分单元307,用于将第一采集单元301采集的声音信号划分为长度相同的信号,获得分段信号,分段信号中每个信号与划分训练信号中每个信号的长度相同;
识别单元302,具体用于将第二划分单元307获得的分段信号输入目标网络模型,获得检测声音信号属于每类信号的概率。
作为一种可能的实施方式,该装置还可以包括:
选取单元308,用于从第二采集单元304采集的训练声音信号中的每个声音信号中选取部分信号;
第一划分单元306,具体用于将选取单元308选取的部分信号中每个信号划分为长度相同的信号,获得划分训练信号。
有关上述采集单元301、识别单元302、归类单元303、训练单元304、第一划分单元305、第二划分单元306和选取单元307更详细的描述可以直接参考上述图1-图2所示的信号处理方法实施例中的相关描述直接得到,这里不加赘述。
基于上述实施例中的信号处理方法的同一构思,请参阅图4,图4是本发明实施例提供的另一种信号处理装置的结构示意图。其中,该信号处理装置可以应用于上述图1-图2所示的信号处理方法中。如图4所示,该信号处理装置可以包括:至少一个处理器401,如CPU,存储器402,麦克风403、图像处理器(Graphics Processing Unit,GPU)404以及至少一个总线405。存储器402可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。可选地,存储器402还可以是至少一个位于远离前述处理器401的存储装置。其中:
总线405,用于实现这些组件之间的连接通信;
GPU404,用于辅助浮点计算;
麦克风403,用于采集检测声音信号,并发送给处理器401;
存储器402中存储有一组程序代码,处理器401用于调用存储器402中存储的程序代码执行以下操作:
通过目标网络模型识别检测声音信号属于每类信号的概率;
将检测声音信号归类至概率最大的信号类。
作为一种可能的实施方式,麦克风403,还用于通过麦克风采集训练声音信号;
处理器401还用于调用存储器402中存储的程序代码执行以下操作:
使用训练声音信号训练初始网络模型,获得目标网络模型。
作为一种可能的实施方式,处理器401还用于调用存储器402中存储的程序代码执行以下操作:
将训练声音信号中每个声音信号划分为长度相同的信号,获得划分训练信号;
处理器401使用训练声音信号训练初始网络模型,获得目标网络模型包括:
使用划分训练信号训练初始网络模型,获得目标网络模型。
作为一种可能的实施方式,处理器401还用于调用存储器402中存储的程序代码执行以下操作:
将检测声音信号划分为长度相同的信号,获得分段信号,分段信号中每个信号与划分训练信号中每个信号的长度相同;
处理器401通过目标网络模型识别检测声音信号属于每类信号的概率包括:
将分段信号输入目标网络模型,获得检测声音信号属于每类信号的概率。
作为一种可能的实施方式,处理器401还用于调用存储器402中存储的程序代码执行以下操作:
从训练声音信号中的每个声音信号中选取部分信号;
处理器401将训练声音信号中每个声音信号划分为长度相同的信号,获得划分训练信号包括:
将该部分信号中每个信号划分为长度相同的信号,获得划分训练信号。
其中,步骤101、步骤201和步骤205可以由信号处理装置中的麦克风403来执行,步骤102-步骤103、步骤202-步骤204以及步骤206-步骤208可以由信号处理装置中的处理器401和存储器402来执行。
其中,采集单元301可以由信号处理装置中的加速度传感器403来实现,识别单元302、归类单元303、训练单元304、第一划分单元305、第二划分单元306和选取单元307可以由信号处理装置中的处理器401和存储器402来实现。
本发明实施例还公开了一种可读存储介质,该可读存储介质存储了信号处理装置用于执行图1-图2所示的信号处理方法的程序代码。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明实施例提供的信号处理方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种信号处理方法,其特征在于,包括:
通过麦克风采集检测声音信号;
通过目标网络模型识别所述检测声音信号属于每类信号的概率;
将所述检测声音信号归类至所述概率最大的信号类。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过麦克风采集训练声音信号;
使用所述训练声音信号训练初始网络模型,获得目标网络模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述训练声音信号中每个声音信号划分为长度相同的信号,获得划分训练信号;
所述使用所述训练声音信号训练初始网络模型,获得目标网络模型包括:
使用所述划分训练信号训练初始网络模型,获得目标网络模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述检测声音信号划分为长度相同的信号,获得分段信号,所述分段信号中每个信号与所述划分训练信号中每个信号的长度相同;
所述通过目标网络模型识别所述检测声音信号属于每类信号的概率包括:
将所述分段信号输入目标网络模型,获得所述检测声音信号属于每类信号的概率。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
从所述训练声音信号中的每个声音信号中选取部分信号;
所述将所述训练声音信号中每个声音信号划分为长度相同的信号,获得划分训练信号包括:
将所述部分信号中每个信号划分为长度相同的信号,获得划分训练信号。
6.一种信号处理装置,其特征在于,包括:
第一采集单元,用于通过麦克风采集检测声音信号;
识别单元,用于通过目标网络模型识别所述第一采集单元采集的检测声音信号属于每类信号的概率;
归类单元,用于将所述第一采集单元采集的检测声音信号归类至所述识别单元识别出的概率最大的信号类。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二采集单元,用于通过麦克风采集训练声音信号;
训练单元,用于使用所述第二采集单元采集的训练声音信号训练初始网络模型,获得目标网络模型。
8.根据权利要求7所述的方法,其特征在于,所述装置还包括:
第一划分单元,用于将所述第二采集单元采集的训练声音信号中每个声音信号划分为长度相同的信号,获得划分训练信号;
所述训练单元,具体用于使用所述第一划分单元获得的划分训练信号训练初始网络模型,获得目标网络模型。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二划分单元,用于将所述第一采集单元采集的检测声音信号划分为长度相同的信号,获得分段信号,所述分段信号中每个信号与所述划分训练信号中每个信号的长度相同;
所述识别单元,具体用于将所述第二划分单元获得的分段信号输入目标网络模型,获得所述检测声音信号属于每类信号的概率。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
选取单元,用于从所述第二采集单元采集的训练声音信号中的每个声音信号中选取部分信号;
所述第一划分单元,具体用于将所述选取单元选取的部分信号中每个信号划分为长度相同的信号,获得划分训练信号。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810669024.4A CN109192226A (zh) | 2018-06-26 | 2018-06-26 | 一种信号处理方法及装置 |
PCT/CN2018/095377 WO2020000523A1 (zh) | 2018-06-26 | 2018-07-12 | 一种信号处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810669024.4A CN109192226A (zh) | 2018-06-26 | 2018-06-26 | 一种信号处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109192226A true CN109192226A (zh) | 2019-01-11 |
Family
ID=64948488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810669024.4A Pending CN109192226A (zh) | 2018-06-26 | 2018-06-26 | 一种信号处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109192226A (zh) |
WO (1) | WO2020000523A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109758141A (zh) * | 2019-03-06 | 2019-05-17 | 清华大学 | 一种心理压力监测方法、装置及系统 |
CN111179972A (zh) * | 2019-12-12 | 2020-05-19 | 中山大学 | 一种基于深度学习的人声检测算法 |
CN115067945A (zh) * | 2022-08-22 | 2022-09-20 | 深圳市海清视讯科技有限公司 | 疲劳检测方法、装置、设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452698A (zh) * | 2007-11-29 | 2009-06-10 | 中国科学院声学研究所 | 一种自动嗓音谐噪比分析方法 |
CN103258545A (zh) * | 2012-12-20 | 2013-08-21 | 苏州大学 | 一种病理嗓音细分方法 |
CN103778913A (zh) * | 2014-01-22 | 2014-05-07 | 苏州大学 | 一种病理嗓音的识别方法 |
US20150161995A1 (en) * | 2013-12-06 | 2015-06-11 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
CN106328150A (zh) * | 2016-08-18 | 2017-01-11 | 北京易迈医疗科技有限公司 | 嘈杂环境下的肠鸣音检测方法、装置及系统 |
US20170032221A1 (en) * | 2015-07-29 | 2017-02-02 | Htc Corporation | Method, electronic apparatus, and computer readable medium of constructing classifier for disease detection |
CN106652999A (zh) * | 2015-10-29 | 2017-05-10 | 三星Sds株式会社 | 语音识别系统以及方法 |
CN106821337A (zh) * | 2017-04-13 | 2017-06-13 | 南京理工大学 | 一种有监督的鼾声来源识别方法 |
CN106901758A (zh) * | 2017-02-23 | 2017-06-30 | 南京工程学院 | 一种基于卷积神经网络的言语置信度评测方法 |
CN107068167A (zh) * | 2017-03-13 | 2017-08-18 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 融合多种端到端神经网络结构的说话人感冒症状识别方法 |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
CN107423398A (zh) * | 2017-07-26 | 2017-12-01 | 腾讯科技(上海)有限公司 | 交互方法、装置、存储介质和计算机设备 |
CN107529645A (zh) * | 2017-06-29 | 2018-01-02 | 重庆邮电大学 | 一种基于深度学习的心音智能诊断系统及方法 |
US20180047389A1 (en) * | 2016-08-12 | 2018-02-15 | Electronics And Telecommunications Research Institute | Apparatus and method for recognizing speech using attention-based context-dependent acoustic model |
CN107928673A (zh) * | 2017-11-06 | 2018-04-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、存储介质和计算机设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104819846B (zh) * | 2015-04-10 | 2017-03-22 | 北京航空航天大学 | 一种基于短时傅里叶变换和稀疏层叠自动编码器的滚动轴承声音信号故障诊断方法 |
CN105206270B (zh) * | 2015-08-20 | 2019-04-02 | 长安大学 | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 |
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
-
2018
- 2018-06-26 CN CN201810669024.4A patent/CN109192226A/zh active Pending
- 2018-07-12 WO PCT/CN2018/095377 patent/WO2020000523A1/zh active Application Filing
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452698A (zh) * | 2007-11-29 | 2009-06-10 | 中国科学院声学研究所 | 一种自动嗓音谐噪比分析方法 |
CN103258545A (zh) * | 2012-12-20 | 2013-08-21 | 苏州大学 | 一种病理嗓音细分方法 |
US20150161995A1 (en) * | 2013-12-06 | 2015-06-11 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
CN103778913A (zh) * | 2014-01-22 | 2014-05-07 | 苏州大学 | 一种病理嗓音的识别方法 |
US20170032221A1 (en) * | 2015-07-29 | 2017-02-02 | Htc Corporation | Method, electronic apparatus, and computer readable medium of constructing classifier for disease detection |
CN106652999A (zh) * | 2015-10-29 | 2017-05-10 | 三星Sds株式会社 | 语音识别系统以及方法 |
US20180047389A1 (en) * | 2016-08-12 | 2018-02-15 | Electronics And Telecommunications Research Institute | Apparatus and method for recognizing speech using attention-based context-dependent acoustic model |
CN106328150A (zh) * | 2016-08-18 | 2017-01-11 | 北京易迈医疗科技有限公司 | 嘈杂环境下的肠鸣音检测方法、装置及系统 |
CN106901758A (zh) * | 2017-02-23 | 2017-06-30 | 南京工程学院 | 一种基于卷积神经网络的言语置信度评测方法 |
CN107068167A (zh) * | 2017-03-13 | 2017-08-18 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 融合多种端到端神经网络结构的说话人感冒症状识别方法 |
CN106821337A (zh) * | 2017-04-13 | 2017-06-13 | 南京理工大学 | 一种有监督的鼾声来源识别方法 |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
CN107529645A (zh) * | 2017-06-29 | 2018-01-02 | 重庆邮电大学 | 一种基于深度学习的心音智能诊断系统及方法 |
CN107423398A (zh) * | 2017-07-26 | 2017-12-01 | 腾讯科技(上海)有限公司 | 交互方法、装置、存储介质和计算机设备 |
CN107928673A (zh) * | 2017-11-06 | 2018-04-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、存储介质和计算机设备 |
Non-Patent Citations (4)
Title |
---|
ALTERA公司组: "《Niosll嵌入式处理器设计大赛2006年优秀作品精品集》", 30 April 2007 * |
PHILIPOS C.LOIZOU: "《语音增强——理论与实践》", 31 December 2012 * |
宋知用: "《MATLAB语音信号分析与合成》", 31 January 2018 * |
龚永杰等: "基于矢量量化的猪咳嗽声识别", 《华中农业大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109758141A (zh) * | 2019-03-06 | 2019-05-17 | 清华大学 | 一种心理压力监测方法、装置及系统 |
CN111179972A (zh) * | 2019-12-12 | 2020-05-19 | 中山大学 | 一种基于深度学习的人声检测算法 |
CN115067945A (zh) * | 2022-08-22 | 2022-09-20 | 深圳市海清视讯科技有限公司 | 疲劳检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020000523A1 (zh) | 2020-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817246B (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
JP6993353B2 (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
Lopac et al. | Detection of non-stationary GW signals in high noise from Cohen’s class of time–frequency representations using deep learning | |
CN110826466B (zh) | 基于lstm音像融合的情感识别方法、装置及存储介质 | |
JP6198872B2 (ja) | 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出 | |
CN109816092A (zh) | 深度神经网络训练方法、装置、电子设备及存储介质 | |
CN106920545A (zh) | 基于人工智能的语音特征提取方法和装置 | |
CN107680582A (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN106782501A (zh) | 基于人工智能的语音特征提取方法和装置 | |
JP2016502140A (ja) | 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ | |
CN109192226A (zh) | 一种信号处理方法及装置 | |
CN108922515A (zh) | 语音模型训练方法、语音识别方法、装置、设备及介质 | |
CN111508480B (zh) | 音频识别模型的训练方法、音频识别方法、装置及设备 | |
CN108877783A (zh) | 确定音频数据的音频类型的方法和装置 | |
CN109616097A (zh) | 语音数据处理方法、装置、设备及存储介质 | |
CN111354371A (zh) | 交通工具运行状态的预测方法、装置、终端及存储介质 | |
WO2019006541A1 (en) | SYSTEM AND METHOD FOR AUTOMATIC CONSTRUCTION OF LEARNING MACHINES USING LEARNING MACHINES | |
US20200395036A1 (en) | Sound signal model learning device, sound signal analysis device, method and program | |
CN114783021A (zh) | 一种口罩佩戴智能检测方法、装置、设备及介质 | |
CN110580897B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN113793620A (zh) | 基于场景分类的语音降噪方法、装置、设备及存储介质 | |
CN105161096B (zh) | 基于垃圾模型的语音识别处理方法及装置 | |
CN109545226A (zh) | 一种语音识别方法、设备及计算机可读存储介质 | |
CN110706808A (zh) | 动脉瘤破裂状态预测方法和装置 | |
JP2020126227A (ja) | 信号処理方法及び情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |
|
RJ01 | Rejection of invention patent application after publication |