CN114360578A - 双门限法与残差神经网络结合的声音语意识别方法及系统 - Google Patents

双门限法与残差神经网络结合的声音语意识别方法及系统 Download PDF

Info

Publication number
CN114360578A
CN114360578A CN202111536963.XA CN202111536963A CN114360578A CN 114360578 A CN114360578 A CN 114360578A CN 202111536963 A CN202111536963 A CN 202111536963A CN 114360578 A CN114360578 A CN 114360578A
Authority
CN
China
Prior art keywords
sound
short
data set
threshold
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111536963.XA
Other languages
English (en)
Inventor
段鹏飞
赵文举
赵培升
李龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202111536963.XA priority Critical patent/CN114360578A/zh
Publication of CN114360578A publication Critical patent/CN114360578A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种双门限法与残差神经网络结合的声音语意识别方法及系统,首先自行收集了一套语音数据,针对这套数据进行了数据规范化等预处理操作;然后基于双门限法端点检测,寻找噪音点,进行降噪处理。同时使用分帧、加窗、傅里叶变换等一连串步骤将原始数据集中的所有音频转换为语谱图,得到图像数据集;最后使用深度残差网络对训练集进行训练,并根据训练到的模型在测试集中测试。本发明的优点在于:应用到船舶中实现了较高准确率的方法优化船舶护航能力,相较于人耳识别笛音具有成本低的特性。另外,本方法创新性的提出将端点检测与深度学习相结合的方式对语音进行语义理解,其效果远超单独利用端点检测或深度学习进行语音分类的方式。

Description

双门限法与残差神经网络结合的声音语意识别方法及系统
技术领域
本发明涉及深度学习与语音识别技术领域,涉及一种声音语意识别方法及系统,具体涉及一种双门限法与残差神经网络结合的船舶汽笛声识别方法及系统。
背景技术
各种交通工具的声音,均可以具有一定的含义,理解好相关语意,对建设智慧交通具有举足轻重的作用。
例如:根据《中华人民共和国内河避碰规则》第四十三条的规定,机动船为表示本船的意图、行动或者需要其他船舶、排筏注意时,应当根据本规则各条规定使用号笛发出特定声号。如“一短声”表示“我”正在向右转向,当和其他船舶对驶相遇时,表示“要求从我左舷会船”。该规则详细介绍了河道轮船之间的交流方式,加强了水上生命安全、提高了船舶航行的安全性、创造了一种船舶之间的“语言”。
作为船舶之间的“语言”,汽笛能够减少因信息缺乏而造成的误判。在黑夜,雾天等恶劣天气下,这种“语言”能够保证船舶之间的安全,协助船舶之间进行正常的交流与航行。
目前船舶间行驶通信仍然需要人工识别笛声,在声音强度极大的风声、浪声中识别出船舶鸣笛,是一件难度很大的工作。单靠人耳,根据笛声所包含的意义采取相应的行驶策略,极容易出现误判,因此准确、快捷识别船舶鸣笛成为海上交通流中异构船舶交互意图识别的难点。目前对于异构船舶交互意图的研究尚未形成完整有效的方法论,往往都忽略了行驶环境中的听觉信息,这就导致目前的船舶鸣笛并未能充分发挥出其应有的效果。
发明内容
为解决上述技术问题,本发明提出了一种双门限法与残差神经网络结合的船舶汽笛声识别方法及系统。
本发明的方法所采用的技术方案是:一种双门限法与残差神经网络结合的声音语意识别方法,包括以下步骤:
步骤1:构建数据集A,其中包含若干具有既定含义的音频数据以及一种无声时的空白音频;
步骤2:利用数据集A,通过对多音道加权处理、下采样以及使用空白音频做填补处理,规范化处理后得到数据集B;
步骤3:使用双门限法对数据集B进行端点检测,并设置阈值剔除不满足阈值的端点,之后根据端点对音频数据进一步处理,将未检测到声音的位置替换为空白音频,得到数据集C;
步骤4:使用分帧、加窗、傅里叶变换将数据集C中的所有音频转换为语谱图,得到图像数据集D;
步骤5:使用残差神经网络构建声音语意识别网络模型,利用数据集D,划分训练集和测试集,使用训练集对残差神经网络进行训练,实用测试集测试训练准确率,最后获得训练好的声音语意识别网络模型;
步骤6:将实时采集到的音频数据输入所述训练好的声音语意识别网络模型中,获得其语意。
本发明的系统所采用的技术方案是:一种双门限法与残差神经网络结合的声音语意识别系统,包括以下模块:
模块1,用于构建数据集A,其中包含若干具有既定含义的音频数据以及一种无声时的空白音频;
模块2,用于利用数据集A,通过对多音道加权处理、下采样以及使用空白音频做填补处理,规范化处理后得到数据集B;
模块3,用于使用双门限法对数据集B进行端点检测,并设置阈值剔除不满足阈值的端点,之后根据端点对音频数据进一步处理,将未检测到声音的位置替换为空白音频,得到数据集C;
模块4,用于使用分帧、加窗、傅里叶变换将数据集C中的所有音频转换为语谱图,得到图像数据集D;
模块5,用于使用残差神经网络构建声音语意识别网络模型,利用数据集D,划分训练集和测试集,使用训练集对残差神经网络进行训练,实用测试集测试训练准确率,最后获得训练好的声音语意识别网络模型;
模块6,用于将实时采集到的音频数据输入所述训练好的声音语意识别网络模型中,获得其语意。
本发明的有益效果在于:本发明通过利用双门限法进行端点检测能有效去除噪音序列,再进一步的深度学习学习中,能够学习到更好的效果,从而在预测时,能够表现出更加好的准确率。
本发明的模型具有较高的准确率,能够在船舶交流时,比较准确的识别到船舶的语音信息,从而做出相应的避险措施。同时本发明研究的模型不仅适用于船舶的汽笛语音理解,还可以在汽车的喇叭音段识别,在交通领域表现出良好的安全防护能力。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例的汽笛五短音一维序列图;
图3为本发明实施例的双门限法示意图;
图4为本发明实施例的快速傅立叶变换流程图;
图5为本发明实施例的残差网络结构图;
图6为本发明实施例的双门限示意图;
图7为本发明实施例的语谱图;
图8为本发明实施例的船舶汽笛声识别网络模型结构图。
具体实施方法
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种双门限法与残差神经网络结合的船汽笛声识别方法,包括以下步骤:
步骤1:构建数据集A,其中包含十九种类型的船舶汽笛声音频以及一种无笛声时的空白音频;
本实施例数据集的具体样本示例如图2所示。数据集A中数据是音频数据,其中包含轮船发出的汽笛声,1s左右为一短声,4—6s左右为一长声。
汽笛是船舶之间的“语言”,并有各自的含义。本实施例十九种类型的船舶汽笛声,包括:(1)“一短声”表示我正在向右转向;当和其他船舶对驶相遇时,表示“要求从我左舷会船”。(2)“两短声”表示我正在向左转向;当和其他船舶对驶相遇时,表示“要求从我右舷会船”。(3)“三短声”表示我正在倒车或者有后退倾向。(4)“四短声”表示不同意你的要求。(5)“五短声”表示怀疑对方是否已经采取充分避让行动,并警告对方注意。(6)“一长声”表示“我将要离泊”、“我将要横越”,以及要求来船或者附近船舶注意。(7)“两长声”表示我要靠泊或者我要求通过船闸。(8)“三长声”表示有人落水。(9)“一长一短声”表示掉头时,“表示我向右掉头”;进出干、支流或者叉河口时,表示“我将要或者正在向右转弯”。(10)“一长两短声”表示掉头时,表示“我向左掉头”;进出干、支流或者叉河口时,表示“我将要或者正在向左转弯”。(11)“一长三短声”表示拖船通知被拖船舶、排筏注意。(12)“两长一短声”表示追越船要求从前船右舷通过。(13)“两长两短声”表示追越船要求从前船左舷通过。(14)“一长一短一长声”表示我希望和你联系。(15)“一长一短一长一短声”表示同意你的要求。(16)“一长两短一长声”表示要求来船同意我通过。(17)“一短一长一短声”表示要求他船减速或者停车。(18)“一短一长声”表示我已减速或者停车。(19)“两短一长声”表示能见度不良时,“我是客渡船”。
本实施例总共收集了901条数据,除19种轮船笛声语言外,还有一种为空白音频,代表“当前无笛声”,正常行驶。
步骤2:利用数据集A,通过对多音道加权处理、下采样以及使用空白音频做填补处理,规范化处理后得到数据集B;
收集到音频通常有多个音道,本实施例对多个音道进行加权处理得到新的音频数据。即:
Figure BDA0003406348960000041
其中,假设数据有N个声道,第i个声道在时刻x的语音信号为si(x),加权后时刻x的语音信号为S(x)。
因为单个音频数据量太大,假如原音频为44.1khz的话每秒就得处理44100个数据,使得处理速度过慢,太过耗时,不利于后续的处理和建模,所以本实施例需要对音频数据进行采样,以得到更小的音频数据。即使做了采样之后,1s之内的音频信号仍然很密集,故并不影响最终的预测结果。
本实施例收集到的音频数据时长并不统一,有长达20s以上以及短达5s的数据,因为后续的模型需要统一大小的输入,为了方便后续进行统一处理和建模,本实施例使用空白音频将数据集中的所有音频都填补到30s,得到数据集B。
步骤3:使用双门限法对数据集B进行端点检测,并设置阈值剔除不满足阈值的端点,之后根据端点对音频数据进一步处理,将未检测到声音的位置替换为空白音频,得到数据集C;
本实施例需要对语音进行短时分析,计算短时能量、短时平均幅度、短时过零率,并通过介绍门限过零率来进一步解释双门限法。最后使用阈值对检测到的不合格端点进行剔除。
(1)短时分析;
语音信号是非平稳信号,但是可以认为10~30ms的时间范围内,语音信号是平稳信号。短时分析的最基本手段是对语音信号加窗,
Sw(n)=s(m)w(m);
其中s(m)为原语音信号,Sw(n)为加窗后的语音信号,w(m)为窗函数。常见的窗函数有:
方窗:
Figure BDA0003406348960000051
哈明(Hamming)窗:
Figure BDA0003406348960000052
哈宁(Hanning)窗:
Figure BDA0003406348960000053
(2)短时能量;
Figure BDA0003406348960000054
En为整段语音的短时能量。短时能量可用于清浊判决、有声段和无声段进行判定、对声母和韵母分界,以及连字的分界等。经常是识别系统中特征的一维。
(3)短时平均幅度;
Figure BDA0003406348960000061
(4)短时过零率:单位时间内过零发生的次数。
Figure BDA0003406348960000062
其中,
Figure BDA0003406348960000063
Figure BDA0003406348960000064
(5)门限过零率;
短时平均过零率,容易受到低频的干扰,因而提出了门限过零率的思想,门限过零率如图6所示,需要设置上下两个门限阈值,只有高于上门限+T或低于下门限-T才会被计算,门限过零率Zn为:
Figure BDA0003406348960000065
请见图3,本实施例使用双门限法对数据集B进行端点检测。
双门限检测法中,将平均过零率和短时能量结合起来,在开始进行端点检测之前,需要对短时能量以及过零率分别设置两个门限,即一个高门限(TH)和一个低门限(TL)。当语音信号的低门限TL被超过时,则表示语音信号有可能进入语音段,但必须等语音信号的高门限TH也被超过时,才能肯定该语音信号进入语音段;同时,当语音信号低于高门限TL时也不能表示语音信号结束,还必须等到语音信号低于低门限Tl时才能确定语音信号结束。
双门限法是利用短时能量和过零率的乘积进行检测的。在基于短时能量和过零率的双门限端点检测算法中首先为短时能量和过零率分别确定两个门限,一个为较低的门限,对信号的变化比较敏感,另一个是较高的门限。当低门限被超过时,很有可能是由于很小的噪声所引起的,未必是语音的开始,当高门限被超过并且在接下来的时间段内一直超过低门限时,则意味着语音信号的开始。
对上述两种特征作一个统计估计,得到两个门限值,利用短时能量检测浊音,短时过零率检测清音,两者配合从而确定语音的端点。由于采集的声音信号中最初的短时段多为无声或背景噪声,这样就可以利用已知为“静态”的最初几帧(一般取10帧)信号计算其过零率阀值及高、低能量阀值(低能量阀和高能量阀)。
本实施例使用双门限法对数据集B进行端点检测,具体包括以下步骤:
第一步是取一个较高的短时能量作为阈值MH,利用这个阈值,先分出语音中的浊音部分。
第二步是取一个较低的能量阈值ML,利用这个阈值,本实施例可以向两端进行搜索,将较低能量段的语音部分也加入到语音段,进一步扩大语音段范围。
第三步是利用短时过零率,短时过零率的阈值为Zs。由于语音的两端部分是辅音(也就是清音部分),也是语音中的一部分,但是辅音的能量与静音部分的能量一样低,但是过零率比静音部分高出很多。为了区分开二者,将利用短时能量区分完的语音段继续向两端进行搜索,短时过零率大于3倍Zs的部分,则认为是语音的清音部分。将该部分加入语言段,就是求得的语音段。
进行双门限法端点检测后,得到一系列端点di,i=1,2,...,n,设置阈值ε,若di+1-di<ε且i为奇数,则去掉i与i+1这两个端点。最后将未检测到端点的片段使用空白音频进行填补后得到数据集C。本实施例中,将阈值ε设定为0.5,即检测到的语音信号片段小于0.5s的会被剔除。
步骤4:使用分帧、加窗、傅里叶变换等步骤将数据集C中的所有音频转换为语谱图,得到图像数据集D,方便进行后续的神经网络学习;
生成语谱图的前置工作是分帧处理。语音信号处理常常要达到的一个目标,就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换。
傅里叶变换要求输入信号是平稳的。而语音在宏观上来看是不平稳的——你的嘴巴一动,信号的特征就变了。但是从微观上来看,在比较短的时间内,嘴巴动得是没有那么快的,语音信号就可以看成平稳的,就可以截取出来做傅里叶变换了,截取出来的一小段信号就叫一帧。
语谱图是一种频率随时间变化的三维图谱,横坐标代表时间大小,纵坐标代表频率大小,时间和频率所对应的像素点的值可以反映出相应时刻和频率的能量,如图7所示。语谱图是一种可观察信号特性的平面图,通过分析音频的产生原理可以观察到声源点的共振属性和声乐在自然界的特性。
语谱图的主要理论方法是短时傅里叶分析和快速傅里叶变换。
设离散时域采样信号为x(n),n=0,1......N-1,其中n为时域采样点序号,N是信号长度。对信号进行分帧处理,则x(n)表示为Xn(m),其中n是帧序号,m是帧同步的时间序号,N为帧长(一帧内的采样点数)。
对语音信号{xn}做短时傅里叶变换(STFT):
Figure BDA0003406348960000081
对语音信号X(n)做离散时域傅里叶变换(DTFT):
Figure BDA0003406348960000082
其中0≤k≤N-1,则X(n,k)就是x(n)的短时幅度谱估计,而时间m处频谱能量密度函数(或功率谱函数)P(n,k)为:
P(n,k)=|X(n,k)|2=(X(n,k))×(conj(X(n,k)));
其中P(n,k)表示信号x(n)的短时自相关函数的傅里叶变换。用时间n作为横坐标,k作为纵坐标,将P(n,k)的值表示为灰度级所构成的二维图像就是语谱图。
请见图4,本实施例首先根据原始音频信号长度来进行适当分帧,然后使用窗函数进行加窗处理,再对加窗以后达到的每一帧音频信号进行快速傅里叶变换,然后根据傅里叶变换的系数计算相应时间和相应频率点上的信号能量,再将该能量进行分贝表示并且归一化,最后再对以上得到的数据矩阵进行伪彩色映射得到语音信号的语谱图。
这一步将所有音频数据统一生成大小为173*129*3的彩色图像数据。
步骤5:使用残差神经网络(ResNet)构建船舶汽笛声识别网络模型,利用数据集D,根据6:4的比例划分训练集和测试集,使用训练集对残差神经网络进行训练,实用测试集测试训练准确率,最后获得训练好的船舶汽笛声识别网络模型;
残差网络可以通过不同的layer作为网络基本骨架。为了使其效果达到最好同时又保证计算时间较小,本实施例以残差网络作为我们的网络骨架。
本实施例中,
(1)将数据集按照6:4的比例划分为训练集和测试集。其中测试集只负责模型训练好后的测试工作。
(2)将数据集中的每张图片进行处理,缩放图片的大小为224*224*3的彩色图像数据。
本实施例的船舶汽笛声识别网络模型结构请见图8:使用ResNet网络作为分类的主要网络框架;ResNet分为5个stage,其中Stage 0为对INPUT的预处理,后4个Stage都由Bottleneck组成;Stage 1包含3个Bottleneck,剩下的3个stage分别包括3、4、3个Bottleneck;
Stage 0中(3,224,224)指输入INPUT的通道数channel、高height和宽width,即(C,H,W),输入的高度和宽度相等;该stage中第1层包括3个先后操作;卷积操作,7×7指卷积核大小,64指卷积核的数量,2指卷积核的步长为2;归一化操作,包括BN层,激活函数为ReLU激活函数;该stage中第2层为MaxPooling,即最大池化层,其kernel大小为3×3、步长为2;(64,56,56)是该stage输出的通道数channel、高height和宽width,其中64等于该stage第1层卷积层中卷积核的数量,56等于224/2/2;形状为(3,224,224)的输入先后经过卷积层、BN层、RELU激活函数、MaxPooling层得到了形状为(64,56,56)的输出;
Stage1的输入的形状为(64,56,56),输出的形状为(64,56,56);部分操作与Stage0中的是一致的。但其中有两个种类的Bottleneck结构,首先经过BTNK1对Stage0的输出进行处理,变成(256,56,56)的大小,然后经过两个BTNK2的处理得到该Stage的输出,其形状为(256,56,56)。
对于BTNK2,BTNK2有2个可变的参数C和W,即输入的形状(C,H,W)中的C和W;令形状为(C,H,W)的输入为x,令BTNK2左侧的3个卷积块以及相关BN和RELU为函数,两者相加F(x)+x后再经过1个RELU激活函数,就得到了BTNK2的输出,输出的形状为(C,H,W);
BTNK1有4个可变的参数C、W、C1和S;与BTNK2相比,BTNK1多1个右侧的卷积层,令其为函数G(x);BTNK1对应输入x与输出F(x)通道数不同的情况,添加的卷积层将x变为G(x),用于匹配输入与输出维度差异,进而求和F(x)+G(x);
Stage2的输入的形状为(256,56,56),输出的形状为(512,28,28);该部分包含了1个BTNK1块和2个BTNK2块。首先从Stage1中的输出经过一个(256,56,128,2)的BTNK1块,然后两次经过大小为(512,28)的BTNK2块,得到大小为(512,28,28)的输出。
Stage3的输入的形状为(512,28,28),输出的形状为(1024,14,14);该部分包含了1个BTNK1块和3个BTNK2块。首先从Stage2中的输出经过一个(256,28,256,2)的BTNK1块,然后三次经过大小为(1024,14)的BTNK2块,得到大小为(1024,14,14)的输出。
Stage4的输入的形状为(1024,14,14),输出的形状为(2048,7,7);该部分包含了1个BTNK1块和2个BTNK2块。首先从Stage3中的输出经过一个(1024,14,512,2)的BTNK1块,然后两次经过大小为(2048,7)的BTNK2块,得到大小为(2048,7,7)的输出。
最后将输出扁平化,输入到前馈神经网络之中,利用Softmax层得到分类结果。
本实施例将resnet生成的结果利用全连接层压缩为一个向量,利用softmax层得到每个类别的预测概率。
Figure BDA0003406348960000101
其中Wy为y类别的权重,C为类别的集合。
本实施例选择预测概率最大的那个类别作为最终输出。
本实施例的船舶汽笛声识别网络模型,输入为语谱图,输出为语音类别;其损失函数为:
Figure BDA0003406348960000111
其中,p(xi)表示真实概率分布,q(xi)表示预测概率分布;所采用的损失函数通过缩小两个概率分布的差异,来使预测概率分布尽可能达到真实概率分布。
请见图5,对于一个堆积层结构(几层堆积而成),当输入为x时其学习到的特征记为H(x)。现在本实施例使其可以学习到残差F(x)=H(x)-x,在极端情况下,如果一个恒等映射是最优的,那么将残差置为0比使用一堆非线性层来拟合恒等映射更容易,因为至少网络性能不会下降。残差不为0时,堆积层在输入特征基础上学习到了新的特征,从而拥有更好的性能。
步骤6:将实时采集到的船舶汽笛声音频输入所述训练好的船舶汽笛声识别网络模型中,获得船舶汽笛声语意。
针对该方式与其他方法进行对比,结果如下表所示。
Figure BDA0003406348960000112
从表中也可以看出,本方法创新性的提出将端点检测与深度学习相结合的方式对语音进行语义理解,其效果远超单独利用端点检测或深度学习进行语音分类的方式,达到最高的效果。本发明最终实现对汽笛语音理解的高准确率,使船舶具备安全防护能力。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (9)

1.一种双门限法与残差神经网络结合的声音语意识别方法,其特征在于,包括以下步骤:
步骤1:构建数据集A,其中包含若干具有既定含义的音频数据以及一种无声时的空白音频;
步骤2:利用数据集A,通过对多音道加权处理、下采样以及使用空白音频做填补处理,规范化处理后得到数据集B;
步骤3:使用双门限法对数据集B进行端点检测,并设置阈值剔除不满足阈值的端点,之后根据端点对音频数据进一步处理,将未检测到声音的位置替换为空白音频,得到数据集C;
步骤4:使用分帧、加窗、傅里叶变换将数据集C中的所有音频转换为语谱图,得到图像数据集D;
步骤5:使用残差神经网络构建声音语意识别网络模型,利用数据集D,划分训练集和测试集,使用训练集对残差神经网络进行训练,实用测试集测试训练准确率,最后获得训练好的声音语意识别网络模型;
步骤6:将实时采集到的音频数据输入所述训练好的声音语意识别网络模型中,获得其语意。
2.根据权利要求1所述的双门限法与残差神经网络结合的声音语意识别方法,其特征在于:步骤1中,所述既定含义的音频数据,包括船舶的十九种类型的船舶汽笛声,(1)“一短声”表示我正在向右转向;当和其他船舶对驶相遇时,表示“要求从我左舷会船”;(2)“两短声”表示我正在向左转向;当和其他船舶对驶相遇时,表示“要求从我右舷会船”;(3)“三短声”表示我正在倒车或者有后退倾向;(4)“四短声”表示不同意你的要求;(5)“五短声”表示怀疑对方是否已经采取充分避让行动,并警告对方注意;(6)“一长声”表示“我将要离泊”、“我将要横越”,以及要求来船或者附近船舶注意;(7)“两长声”表示我要靠泊或者我要求通过船闸;(8)“三长声”表示有人落水;(9)“一长一短声”表示掉头时,“表示我向右掉头”;进出干、支流或者叉河口时,表示“我将要或者正在向右转弯”;(10)“一长两短声”表示掉头时,表示“我向左掉头”;进出干、支流或者叉河口时,表示“我将要或者正在向左转弯”;(11)“一长三短声”表示拖船通知被拖船舶、排筏注意;(12)“两长一短声”表示追越船要求从前船右舷通过;(13)“两长两短声”表示追越船要求从前船左舷通过;(14)“一长一短一长声”表示我希望和你联系;(15)“一长一短一长一短声”表示同意你的要求;(16)“一长两短一长声”表示要求来船同意我通过;(17)“一短一长一短声”表示要求他船减速或者停车;(18)“一短一长声”表示我已减速或者停车;(19)“两短一长声”表示能见度不良时,“我是客渡船”。
3.根据权利要求1所述的双门限法与残差神经网络结合的声音语意识别方法,其特征在于:步骤2中,对多个音道进行加权处理得到新的音频数据;
即:
Figure FDA0003406348950000021
其中,假设数据有N个声道,第i个声道在时刻x的语音信号为si(x),加权后时刻x的语音信号为S(x)。
4.根据权利要求1所述的双门限法与残差神经网络结合的船汽笛声识别方法,其特征在于:步骤3中,所述使用双门限法对数据集B进行端点检测,具体包括以下子步骤:
步骤3.1:设置能量阈值MH,分出语音中的浊音部分;
步骤3.2:设置能量阈值ML,ML<MH;利用这个阈值,向两端进行搜索,将较低能量段的语音部分也加入到语音段,进一步扩大语音段范围;
步骤3.3:设置短时过零率阈值Zs,将步骤3.2获得的语音段继续向两端进行搜索,短时过零率大于预设倍Zs的部分,则认为是语音的清音部分;将该部分加入语言段,就是求得的语音段。
5.根据权利要求1所述的双门限法与残差神经网络结合的声音语意识别方法,其特征在于:步骤3中,使用双门限法对数据集B进行端点检测后,得到一系列端点di,i=1,2,...,n,设置阈值ε,若di+1-di<ε且i为奇数,则去掉i与i+1这两个端点。
6.根据权利要求1所述的双门限法与残差神经网络结合的声音语意识别方法,其特征在于:步骤4中,首先根据原始音频信号长度来进行分帧,然后使用窗函数进行加窗处理,再对加窗以后达到的每一帧音频信号进行快速傅里叶变换,然后根据傅里叶变换的系数计算相应时间和相应频率点上的信号能量,再将该能量进行分贝表示并且归一化,最后再对以上得到的数据矩阵进行伪彩色映射得到语音信号的语谱图。
7.根据权利要求1所述的双门限法与残差神经网络结合的声音语意识别方法,其特征在于:步骤5中,所述声音语意识别网络模型,使用ResNet网络作为分类的主要网络框架;ResNet分为5个stage,其中Stage 0为对INPUT的预处理,后4个Stage都由Bottleneck组成;Stage 1包含3个Bottleneck,剩下的3个stage分别包括3、4、3个Bottleneck;
Stage 0中(3,224,224)指输入INPUT的通道数channel、高height和宽width,即(C,H,W),输入的高度和宽度相等;该stage中第1层包括3个先后操作;卷积操作,7×7指卷积核大小,64指卷积核的数量,2指卷积核的步长为2;归一化操作,包括BN层,激活函数为ReLU激活函数;该stage中第2层为MaxPooling,即最大池化层,其kernel大小为3×3、步长为2;(64,56,56)是该stage输出的通道数channel、高height和宽width,其中64等于该stage第1层卷积层中卷积核的数量,56等于224/2/2;形状为(3,224,224)的输入先后经过卷积层、BN层、RELU激活函数、MaxPooling层得到了形状为(64,56,56)的输出;
Stage1的输入的形状为(64,56,56),输出的形状为(64,56,56);部分操作与Stage0中的是一致的,但其中有两个种类的Bottleneck结构,首先经过BTNK1对Stage0的输出进行处理,变成(256,56,56)的大小,然后经过两个BTNK2的处理得到该Stage的输出,其形状为(256,56,56);
对于BTNK2,有2个可变的参数C和W,即输入的形状(C,H,W)中的C和W;令形状为(C,H,W)的输入为x,令BTNK2左侧的3个卷积块以及相关BN和RELU为函数,两者相加F(x)+x后再经过1个RELU激活函数,获得BTNK2的输出,输出的形状为(C,H,W);
BTNK1有4个可变的参数C、W、C1和S;与BTNK2相比,BTNK1多1个右侧的卷积层,令其为函数G(x);BTNK1对应输入x与输出F(x)通道数不同的情况,添加的卷积层将x变为G(x),用于匹配输入与输出维度差异,进而求和F(x)+G(x);
Stage2的输入的形状为(256,56,56),输出的形状为(512,28,28);该部分包含了1个BTNK1块和2个BTNK2块;首先从Stage1中的输出经过一个(256,56,128,2)的BTNK1块,然后两次经过大小为(512,28)的BTNK2块,得到大小为(512,28,28)的输出;
Stage3的输入的形状为(512,28,28),输出的形状为(1024,14,14);该部分包含了1个BTNK1块和3个BTNK2块;首先从Stage2中的输出经过一个(256,28,256,2)的BTNK1块,然后三次经过大小为(1024,14)的BTNK2块,得到大小为(1024,14,14)的输出;
Stage4的输入的形状为(1024,14,14),输出的形状为(2048,7,7);该部分包含了1个BTNK1块和2个BTNK2块;首先从Stage3中的输出经过一个(1024,14,512,2)的BTNK1块,然后两次经过大小为(2048,7)的BTNK2块,得到大小为(2048,7,7)的输出;
最后将输出扁平化,输入到前馈神经网络之中,利用Softmax层得到分类结果。
8.根据权利要求1-7任意一项所述的双门限法与残差神经网络结合的声音语意识别方法,其特征在于:步骤5中,所述声音语意识别网络模型,输入为语谱图,输出为语音类别;其损失函数为:
Figure FDA0003406348950000041
其中,p(xi)表示真实概率分布,q(xi)表示预测概率分布;所采用的损失函数通过缩小两个概率分布的差异,来使预测概率分布尽可能达到真实概率分布。
9.一种双门限法与残差神经网络结合的声音语意识别系统,其特征在于,包括以下模块:
模块1,用于构建数据集A,其中包含若干具有既定含义的音频数据以及一种无声时的空白音频;
模块2,用于利用数据集A,通过对多音道加权处理、下采样以及使用空白音频做填补处理,规范化处理后得到数据集B;
模块3,用于使用双门限法对数据集B进行端点检测,并设置阈值剔除不满足阈值的端点,之后根据端点对音频数据进一步处理,将未检测到声音的位置替换为空白音频,得到数据集C;
模块4,用于使用分帧、加窗、傅里叶变换将数据集C中的所有音频转换为语谱图,得到图像数据集D;
模块5,用于使用残差神经网络构建声音语意识别网络模型,利用数据集D,划分训练集和测试集,使用训练集对残差神经网络进行训练,实用测试集测试训练准确率,最后获得训练好的声音语意识别网络模型;
模块6,用于将实时采集到的音频数据输入所述训练好的声音语意识别网络模型中,获得其语意。
CN202111536963.XA 2021-12-13 2021-12-13 双门限法与残差神经网络结合的声音语意识别方法及系统 Pending CN114360578A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111536963.XA CN114360578A (zh) 2021-12-13 2021-12-13 双门限法与残差神经网络结合的声音语意识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111536963.XA CN114360578A (zh) 2021-12-13 2021-12-13 双门限法与残差神经网络结合的声音语意识别方法及系统

Publications (1)

Publication Number Publication Date
CN114360578A true CN114360578A (zh) 2022-04-15

Family

ID=81099436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111536963.XA Pending CN114360578A (zh) 2021-12-13 2021-12-13 双门限法与残差神经网络结合的声音语意识别方法及系统

Country Status (1)

Country Link
CN (1) CN114360578A (zh)

Similar Documents

Publication Publication Date Title
CN110827837B (zh) 一种基于深度学习的鲸鱼活动音频分类方法
CN105261357B (zh) 基于统计模型的语音端点检测方法及装置
CN109800700A (zh) 一种基于深度学习的水下声信号目标分类识别方法
CN110675891B (zh) 一种基于多层注意力机制的语音分离方法、模块
JP2016502140A (ja) 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ
Hong et al. Underwater acoustic target recognition with resnet18 on shipsear dataset
Luo et al. An underwater acoustic target recognition method based on combined feature with automatic coding and reconstruction
Cole et al. Feature-based speaker-independent recognition of isolated English letters
Tsenov et al. Speech recognition using neural networks
CN117831572A (zh) 一种基于轻量化多尺度卷积注意力神经网络的水下目标声音自动分类方法
CN117310668A (zh) 融合注意力机制与深度残差收缩网络的水声目标识别方法
Ju et al. A new low SNR underwater acoustic signal classification method based on intrinsic modal features maintaining dimensionality reduction
CN114360578A (zh) 双门限法与残差神经网络结合的声音语意识别方法及系统
Zhang et al. Underwater acoustic source separation with deep Bi-LSTM networks
CN116417011A (zh) 基于特征融合和残差cnn的水声目标识别方法
CN115909040A (zh) 一种基于自适应多特征融合模型的水声目标识别方法
Farrokhrooz et al. Ship noise classification using probabilistic neural network and AR model coefficients
Yu et al. Underwater target classification using deep neural network
Peyvandi et al. Determining class of underwater vehicles in passive sonar using hidden Markov model with Hausdorff similarity measure
Hummel et al. A survey on machine learning in ship radiated noise
Tran et al. UNDERWATER ACOUSTIC SIGNAL RECOGNITION BASED ON COMBINATION OF MULTI-SCALE CONVOLUTIONAL NEURAL NETWORK AND CONSTANT-Q TRANSFORM
CN117854540B (zh) 基于神经网络和多维特征融合的水声目标识别方法及系统
Hu et al. A deep learning method for ship-radiated noise recognition based on mfcc feature
Kuzin et al. Automated sea vehicle classification system based on neural network
Nehra et al. Speaker identification system using CNN approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination