CN111179975B - 用于情绪识别的语音端点检测方法、电子设备及存储介质 - Google Patents
用于情绪识别的语音端点检测方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111179975B CN111179975B CN202010287911.2A CN202010287911A CN111179975B CN 111179975 B CN111179975 B CN 111179975B CN 202010287911 A CN202010287911 A CN 202010287911A CN 111179975 B CN111179975 B CN 111179975B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- network model
- human voice
- voice
- emotion recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 88
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 48
- 230000005236 sound signal Effects 0.000 claims abstract description 164
- 238000003062 neural network model Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 16
- 230000008451 emotion Effects 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013550 semantic technology Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Circuit For Audible Band Transducer (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及语音语义,提供一种用于情绪识别的语音端点检测方法,包括:采集音频信号;对音频信号进行处理操作,包括:对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比;提取处理后音频信号的MFCC特征及其二阶差分特征;将上述特征输入神经网络模型,提取音频信号的高维信息及音频信号前后关联特征;将提取的音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果,检测结果包括人声和非人声;根据音频信号的检测结果将音频信号分割成人声部分和非人声部分。本发明还提供一种电子设备及存储介质。本发明能够在低信噪比环境和非平稳环境下准确语音端点检测。
Description
技术领域
本发明涉及语音语义技术领域,更为具体地,涉及一种用于情绪识别的语音端点检测方法、电子设备及存储介质。
背景技术
在进行语音情绪识别前,需要准确识别出一段长音频中人声说话的端点位置,以便将环境噪声与说话人声进行分离,该技术即为语音端点检测(VAD),是一种驱动性的语音信号处理技术。研究表明,若能准确识别说话人的起止位置并进行分割可以有效提升后续语音任务的准确率。传统VAD技术主要有基于音频的短时能量、过零率、倒谱特征或熵进行检测,这些方法原理简单,运算量小,但是当噪音和语音信号的时域和频域分布相似时,情绪识别效果比较差;在一些语音编码如G.729B和AMR-NB中也采用了VAD技术,这些方法同样在平稳噪声环境下准确率较高,但是在低信噪比环境和非平稳环境下检测效果就不理想。
发明内容
鉴于上述问题,本发明的目的是提供一种能够在低信噪比环境和非平稳环境下准确识别人声说话的端点位置的用于情绪识别的语音端点检测方法、电子设备及存储介质。
为了实现上述目的,本发明提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有用于情绪识别的语音端点检测程序,所述用于情绪识别的语音端点检测程序被所述处理器执行时实现如下步骤:
采集音频信号;
对音频信号进行处理操作,所述处理操作包括:对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比;
提取处理后的音频信号的MFCC特征及其二阶差分特征;
将上述MFCC特征及其二阶差分特征输入神经网络模型,提取音频信号的高维信息及音频信号前后关联特征;
将提取的音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果,所述检测结果包括人声和非人声;
根据音频信号的检测结果,将音频信号分割成人声部分和非人声部分。
此外,为了实现上述目的,本发明还提供一种用于情绪识别的语音端点检测方法,包括:
采集音频信号;
对音频信号进行处理操作,所述处理操作包括:对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比;
提取处理后的音频信号的MFCC特征及其二阶差分特征;
将上述MFCC特征及其二阶差分特征输入神经网络模型,提取音频信号的高维信息及音频信号前后关联特征;
将提取的音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果,所述检测结果包括人声和非人声;
根据音频信号的检测结果,将音频信号分割成人声部分和非人声部分。
在一个实施例中,所述提取预处理后的音频信号的MFCC特征及其二阶差分特征的步骤包括:
对音频信号进行预加重;
对预加重后的音频信号进行分帧和加窗;
对分帧和加窗后的音频信号进行快速傅里叶变换;
经过三角带通滤波器对经过快速傅立叶变换后的音频信号的频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰;
计算三角带通滤波器输出的对数能量,经离散余弦变换得到MFCC;
通过MFCC前一阶差分与后一阶差分之间的关系,获得相邻三帧之间的动态关系,从而获得二阶差分特征。
在一个实施例中,所述神经网络模型和全连接网络模型的训练步骤包括:
从AISHELL数据集获得人声音频信号,加入纯噪声段和人声噪声段随机组合;
进行多种场景下的噪声信号与人声数据的采集并随机设置信噪比,从而获得所述人声音频信号的训练集;
提取训练集中音频信号的MFCC特征及其二阶差分特征;
将上述MFCC特征及其二阶差分特征输入神经网络模型,进行训练,提取音频信号的高维信息及音频信号前后关联特征,所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征,通过音频信号的二阶差分特征获得所述音频信号前后关联特征;
将音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果;
使用Focal loss作为损失函数对全连接网络模型和神经网络模型的参数进行迭代更新。
在一个实施例中,所述神经网络模型的损失函数通过下式构建
其中,y′是经过激活函数的输出,在0-1之间,γ为输出因子,γ>0。
在一个实施例中,所述神经网络模型的优化器选用Adam,学习率为e-3,训练次数为100,批尺寸为2048。
在一个实施例中,所述神经网络模型和全连接网络模型的训练步骤还包括:
在每次模型参数更新之前,修改训练集中样本的权重,减少易分类样本的权重,增加难分类样本的权重,所述全连接网络模型输出的预测值在0-1之间,0为非人声,1为人声,预测值在0.5设定范围内的样本为难分类样本。
在一个实施例中,还包括:
将人声部分的音频信号输入语音情绪检测模型,输出语音情绪识别的结果。
在一个实施例中,还包括:对全连接网络模型的输出结果进行平滑操作,当检测到为人声或非人声端点的一帧时,再检测所述一帧的前后第一设定数量的帧数据,只有当其中至少第二设定数量的检测结果与所述一帧的检测结果一致时,才最终确定所述一帧为人声或非人声。
此外,为了实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括有用于情绪识别的语音端点检测程序,所述用于情绪识别的语音端点检测程序被处理器执行时,实现上述用于情绪识别的语音端点检测方法的步骤。
本发明所述用于情绪识别的语音端点检测方法、电子设备及存储介质对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比,将MFCC特征及其二阶差分特征输入神经网络模型,提取音频信号的高维信息及音频信号前后关联特征,将音频信号的高维信息及关联特征输入全连接网络模型,增强模型的在复杂多变环境下的鲁棒性和泛化能力,改善了传统VAD中对低信噪比和非平稳环境下噪声数据的辨识度。
附图说明
图1是本发明用于情绪识别的语音端点检测方法较佳实施例的应用环境示意图;
图2是图1中用于情绪识别的语音端点检测程序较佳实施例的模块示意图;
图3是本发明用于情绪识别的语音端点检测方法较佳实施例的流程图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下将结合附图对本发明的具体实施例进行详细描述。
本发明提供一种用于情绪识别的语音端点检测方法,应用于一种电子设备。参照图1所示,为本发明用于情绪识别的语音端点检测方法较佳实施例的应用环境示意图。
在本实施例中,电子设备1可以是服务器、手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端客户端。
该电子设备1包括存储器11、处理器12、网络接口13及通信总线14。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子设备1的外部存储器,例如所述电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子设备1的用于情绪识别的语音端点检测程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行用于情绪识别的语音端点检测程序10等。
网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子设备1与其他电子客户端之间建立通信连接。
通信总线14用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-14的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子设备1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的客户端、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子设备1还可以包括显示器,显示器也可以称为显示屏或显示单元。
在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子设备1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
可选地,该电子设备1还可以包括逻辑门电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统以及用于情绪识别的语音端点检测程序10;处理器12执行存储器11中存储的用于情绪识别的语音端点检测程序10时实现如下步骤:
采集音频信号;
对音频信号进行处理操作,所述处理操作包括:对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比;
提取处理后的音频信号的MFCC特征及其二阶差分特征,所述MFCC特征为梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性, 所述MFCC特征的二阶差分特征是音频信号相邻三帧之间的动态关系;
将上述MFCC特征及其二阶差分特征输入神经网络模型,提取音频信号的高维信息及音频信号前后关联特征,所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征,所述音素特征是指根据音素时长信息表达的词性特征、上下文信息和音调特征,所述关联特征表示音频信号相邻多帧的时序动态关系;
将提取的音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果,所述检测结果包括人声和非人声;
根据音频信号的检测结果,将提取的音频信号分割成人声部分和非人声部分。
在其他实施例中,所述用于情绪识别的语音端点检测程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中用于情绪识别的语音端点检测程序10较佳实施例的功能模块图。所述用于情绪识别的语音端点检测程序10可以被分割为采集模块110、信号处理模块120、第一特征提取模块130、第二特征提取模块140、信号检测模块150、分割模块160和情绪识别模块170,其中:
采集模块110,采集音频信号;
信号处理模块120,对采集模块110采集的音频信号进行处理操作,所述处理操作包括:对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比;
第一特征提取模块130,提取信号处理模块120处理后的音频信号的MFCC特征及其二阶差分特征;
第二特征提取模块140,将上述第一特征提取模块130提取的MFCC特征及其二阶差分特征输入神经网络模型,提取音频信号的高维信息及音频信号前后关联特征;
端点识别模块150,将第二特征提取模块140提取的音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果,所述检测结果包括人声和非人声;
分割模块160,根据音频信号的检测结果,将音频信号分割成人声部分和非人声部分。
优选地,还包括情绪识别模块170,将人声部分的音频信号输入语音情绪检测模型,输出用于情绪识别的语音端点检测的结果。
在一个可选实施例中,上述信号检测模块150对全连接网络模型的输出结果进行平滑操作,当检测到为人声或非人声端点的一帧时,再检测所述一帧的前后第一设定数量的帧数据,只有当其中至少第二设定数量的检测结果与所述一帧的检测结果一致时,才最终确定所述一帧为人声或非人声。
在一个可选实施例中,所述第一特征提取模块130包括:
预加重单元,对音频信号进行预加重;
分帧加窗单元,对预加重后的音频信号进行分帧和加窗;
变换单元,对分帧和加窗后的音频信号进行快速傅里叶变换;
平滑处理单元,经过三角带通滤波器对经过快速傅立叶变换后的音频信号的频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰;
MFCC获得单元,计算三角带通滤波器输出的对数能量,经离散余弦变换得到MFCC;
二阶差分特征获得单元,通过MFCC前一阶差分与后一阶差分之间的关系,获得相邻三帧之间的动态关系,从而获得二阶差分特征。
在一个实施例中,还包括训练模块,对所述神经网络模型和全连接网络模型进行训练,包括:
噪声添加单元,从AISHELL数据集获得人声音频信号,加入纯噪声段和人声噪声段随机组合,所述AISHELL数据集为北京希尔贝壳科技有限公司的开源数据库;
训练集构建单元,进行多种场景下的噪声信号与人声数据的采集并随机设置信噪比,从而获得所述人声音频信号的训练集;
特征提取单元,提取训练集中音频信号的MFCC特征及其二阶差分特征;
训练单元,将上述MFCC特征及其二阶差分特征输入神经网络模型,进行训练,提取音频信号的高维信息及音频信号前后关联特征,所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征,通过音频信号的二阶差分特征获得所述音频信号前后关联特征;将音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果;
参数更新单元,使用Focal loss作为损失函数对全连接网络模型和神经网络模型的参数进行迭代更新。
优选地,上述参数更新单元还在每次模型参数更新之前,修改训练集中样本的权重,减少易分类样本的权重,增加难分类样本的权重。
此外,本发明还提供一种用于情绪识别的语音端点检测方法。参照图3所示,为本发明用于情绪识别的语音端点检测较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,用于情绪识别的语音端点检测方法包括:
步骤S1,采集音频信号;
步骤S2,对音频信号进行处理操作,所述处理操作包括:对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比,所述多种场景包括办公室噪声集、手录实验室噪声集、电话催收噪声集和面审数据等,例如,在20dB-40dB范围内设置信噪比,根据设置的信噪比获得音频信号和噪声信号的比例,噪声信号由纯噪声段和人声噪声段构成,噪声信号的功率确定,调整纯噪声段和人声噪声段的混合比例,并与音频信号相加堆叠,获得最接近人声(不淹没音频信号)的混合比例;
步骤S3,提取处理后的音频信号的MFCC特征及其二阶差分特征,所述MFCC特征及其二阶差分特征的提取方法包括:将添加噪声后的音频信号经过高通滤波器进行预加重,对预加重后的音频信号进行分帧和加窗,对分帧加窗后的音频信号进行快速傅立叶变换,经过快速傅立叶变换后的音频信号通过Mel频率滤波器组进行平滑处理,计算每个滤波器组输出的对数能量,经离散余弦变换(DCT)得到MFCC(音频信号的MFCC特征),提取MFCC的差分谱,获得其二阶差分特征;
步骤S4,将上述MFCC特征及其二阶差分特征输入神经网络模型,提取音频信号的高维信息及音频信号前后关联特征;
步骤S5,将提取的音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果,所述检测结果包括人声和非人声,例如采用人声为1,非人声为0,将音频信号变成二值序列;
步骤S6,根据音频信号的检测结果将音频信号分割成人声部分和非人声部分,例如,将音频信号中检测结果为1的帧进行相加堆叠,将检测结果为0的帧进行相加堆叠,实现人声部分和非人声部分的分割。
优选地,步骤S6之后还包括:将人声部分的音频信号输入语音情绪检测模型,输出用于情绪识别的语音端点检测的结果,例如,将语音情绪分成快乐、兴趣、厌恶、恐惧、痛苦(悲伤)和愤怒等,所述语音情绪检测模型可以是基于神经网络构建的分类模型,也可以是采用分类器构建的分类模型。
在实时语音情绪检测系统中,长时间的静音或者噪声一方面增加了网络通信的代价,另一方面也会使情绪检测系统产生错误判断。准确识别音频中人声起止位置,不仅可以提高模型运行效率,也可以提升模型的稳定性和准确性。
作为进行语音情绪检测前的音频预处理操作,保证数据特征的一致性可以有效提升情绪检测的准确率,所以在设计语音情绪检测模型(VAD模型)时,采用与情绪检测预训练模型相同的数据源来构造训练集。另外,为了增强模型的在复杂多变环境下的鲁棒性和泛化能力,进行多种场景下的噪声数据与人声数据的采集并随机设置信噪比保证数据的广泛性。
音频数据特征不再是单一的使用音频短时能量和倒谱特征等,而是在此基础上进一步提取音频信息的MFCC特征及其二阶差分特征,保证音频在频域和时域上信息的完整性和连贯性,之后将该特征输入神经网络模型(例如,长短期记忆网络LSTM)进行训练,提取高维信息及音频前后关联特征,增加噪声和非噪声的识别度,最后使用全连接网络作为分类器输出每一帧的检测结果。
步骤S3包括:
对音频信号进行预加重;
对预加重后的音频信号进行分帧和加窗;
对分帧和加窗后的音频信号进行快速傅里叶变换;
经过三角带通滤波器对经过快速傅立叶变换后的音频信号的频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰;
计算三角带通滤波器输出的对数能量,经离散余弦变换(DCT)得到MFCC;
通过MFCC前一阶差分与后一阶差分之间的关系,获得相邻三帧之间的动态关系,从而获得二阶差分特征。
在一个实施例中,所述神经网络模型和全连接网络模型的训练步骤包括:
从AISHELL数据集获得人声音频信号,加入纯噪声段和人声噪声段随机组合;
进行多种场景下的噪声信号与人声数据的采集并随机设置信噪比,从而获得所述人声音频信号的训练集;
提取训练集中音频信号的MFCC特征及其二阶差分特征;
将上述MFCC特征及其二阶差分特征输入神经网络模型,优化器选用Adam,学习率为e-3,训练次数为100,批尺寸为2048,进行训练,提取音频信号的高维信息及音频信号前后关联特征,所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征,通过音频信号的二阶差分特征获得所述音频信号前后关联特征。
将音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果;
使用Focal loss作为损失函数对全连接网络模型和神经网络模型的参数进行迭代更新,优选地,通过下式构建神经网络模型的损失函数
其中,y是样本的标签,正类(人声)为1,负类(非人声)为0,y′是经过激活函数的输出,在0-1之间;γ为输出因子,γ>0。
普通的交叉熵对于正样本而言,输出概率越大损失越小。对于负样本而言,输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优,在原有的基础上加了一个因子,其中,γ>0使得减少易分类样本的损失。使得更关注于困难的、错分的样本。
在一个实施例中,在步骤S6之后还包括:对全连接网络模型的输出结果进行平滑操作,当检测到为人声或非人声端点的一帧时,再检测该帧的前后第一设定数量的帧数据,只有当其中至少第二设定数量的检测结果与当前帧检测结果一致时,才最终确定该帧为人声或非人声,例如,检测该帧的前后10帧数据,只有当其中至少9帧检测结果与当前帧检测结果一致才最终确定该帧为人声或非人声。
优选地,神经网络模型和全连接网络模型的训练步骤还包括:
在每次模型参数更新之前,修改训练集中样本的权重,减少易分类样本的权重,增加难分类样本的权重,例如,全连接网络模型输出的预测值在0-1之间,0为非人声,1为人声,预测值在0.5设定范围内的样本为难分类样本。
在平稳环境下,人声和噪声具有较高的辨识度,但是当环境为非平稳情况时,人声和非人声就难以辨识,所以在这里使用Focalloss作为损失函数,该损失函数是在标准交叉熵损失基础上修改得到,可以通过减少易分类样本的权重,使模型在训练时更加专注于难分类样本,提高模型在非平稳环境下对低信噪比声音识别的准确度,减少对噪声音频的误判。最后对模型的输出结果进行平滑操作,当模型检测到某一帧为人声或非人声端点时,再检测该帧的前后10帧数据,只有当其中至少9帧音频结果与当前帧检测结果一致时,才最终确定该帧为人声和非人声,以抑制某些突变信息造成模型对结果的误判。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括用于情绪识别的语音端点检测程序,所述用于情绪识别的语音端点检测程序被处理器执行时实现如下步骤:
采集音频信号;
对音频信号进行处理操作,所述预处理操作包括:对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比;
提取处理后的音频信号的MFCC特征及其二阶差分特征;
将上述MFCC特征及其二阶差分特征输入神经网络模型,提取音频信号的高维信息及音频信号前后关联特征;
将提取的音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果,所述检测结果包括人声和非人声;
根据音频信号的检测结果,将音频信号分割成人声部分和非人声部分。
本发明之计算机可读存储介质的具体实施方式与上述用于情绪识别的语音端点检测方法、电子设备的具体实施方式大致相同,在此不再赘述。
在上述各实施例中,神经网络模型和全连接网络模型可以合成为一个,即全连接神经网络模型,所述全连接神经网络模型可以包括一层LSTM和两层全连接层(FC)。
上述各实施例中的用于情绪识别的语音端点检测方法、电子设备和计算机可读存储介质针对语音情绪检测前的处理进行了改进,主要改善了传统VAD中对低信噪比和非平稳环境下噪声数据的辨识度,通过数据构造和模型训练的方式,尤其增强对难分类数据的训练,有效抑制了模型对噪声或干扰数据的误识别率,对于突变信号的平滑操作也使得声音切割端点更加平滑准确。因为加入人声端点检测,所以有效提高了语音情绪检测的准确性,减少了时间和空间的消耗,提升了系统的工作效率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端客户端(可以是手机,计算机,服务器,或者网络客户端等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种用于情绪识别的语音端点检测方法,其特征在于,包括:
采集音频信号;
对音频信号进行处理操作,所述处理操作包括:对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比;
提取处理后的音频信号的MFCC特征及其二阶差分特征;
将上述MFCC特征及其二阶差分特征输入神经网络模型,提取音频信号的高维信息及音频信号前后关联特征,所述高维信息是神经网络模型从样本中学习到的高度抽象的音素特征,所述关联特征表示音频信号相邻多帧的时序动态关系;
将提取的音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果,所述检测结果包括人声和非人声;
根据音频信号的检测结果,将音频信号分割成人声部分和非人声部分。
2.根据权利要求1所述的用于情绪识别的语音端点检测方法,其特征在于,所述提取处理后的音频信号的MFCC特征及其二阶差分特征的步骤包括:
对音频信号进行预加重;
对预加重后的音频信号进行分帧和加窗;
对分帧和加窗后的音频信号进行快速傅里叶变换;
经过三角带通滤波器对经过快速傅立叶变换后的音频信号的频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰;
计算三角带通滤波器输出的对数能量,经离散余弦变换得到MFCC;
通过MFCC前一阶差分与后一阶差分之间的关系,获得相邻三帧之间的动态关系,从而获得二阶差分特征。
3.根据权利要求1所述的用于情绪识别的语音端点检测方法,其特征在于,所述神经网络模型和全连接网络模型的训练步骤包括:
从AISHELL数据集获得人声音频信号,加入纯噪声段和人声噪声段随机组合;
进行多种场景下的噪声信号与人声数据的采集并随机设置信噪比,从而获得所述人声音频信号的训练集;
提取训练集中音频信号的MFCC特征及其二阶差分特征;
将上述MFCC特征及其二阶差分特征输入神经网络模型,进行训练,提取音频信号的高维信息及音频信号前后关联特征,所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征,通过音频信号的二阶差分特征获得所述音频信号前后关联特征;
将音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果;
使用Focal loss作为损失函数对全连接网络模型和神经网络模型的参数进行迭代更新。
5.根据权利要求3所述的用于情绪识别的语音端点检测方法,其特征在于,所述神经网络模型的优化器选用Adam,学习率为e-3,训练次数为100,批尺寸为2048。
6.根据权利要求3所述的用于情绪识别的语音端点检测方法,其特征在于,所述神经网络模型和全连接网络模型的训练步骤还包括:
在每次模型参数更新之前,修改训练集中样本的权重,减少易分类样本的权重,增加难分类样本的权重,所述全连接网络模型输出的预测值在0-1之间,0为非人声,1为人声,预测值在0.5的设定范围内的样本为难分类样本。
7.根据权利要求1所述的用于情绪识别的语音端点检测方法,其特征在于,还包括:
将人声部分的音频信号输入语音情绪检测模型,输出语音情绪识别的结果。
8.根据权利要求1所述的用于情绪识别的语音端点检测方法,其特征在于,还包括:对全连接网络模型的输出结果进行平滑操作,当检测到为人声或非人声端点的一帧时,再检测所述一帧的前后第一设定数量的帧数据,只有当其中至少第二设定数量的检测结果与所述一帧的检测结果一致时,才最终确定所述一帧为人声或非人声。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有用于情绪识别的语音端点检测程序,所述用于情绪识别的语音端点检测程序被所述处理器执行时实现如下步骤:
采集音频信号;
对音频信号进行处理操作,所述处理操作包括:对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比;
提取处理后的音频信号的MFCC特征及其二阶差分特征;
将上述MFCC特征及其二阶差分特征输入神经网络模型,提取音频信号的高维信息及音频信号前后关联特征;
将提取的音频信号的高维信息及关联特征输入全连接网络模型,获得音频信号每一帧的检测结果,所述检测结果包括人声和非人声;
根据音频信号的检测结果,将音频信号分割成人声部分和非人声部分。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括有用于情绪识别的语音端点检测程序,所述用于情绪识别的语音端点检测程序被处理器执行时,实现如权利要求1至8中任一项权利要求所述用于情绪识别的语音端点检测方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010287911.2A CN111179975B (zh) | 2020-04-14 | 2020-04-14 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
PCT/CN2020/104783 WO2021208287A1 (zh) | 2020-04-14 | 2020-07-27 | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010287911.2A CN111179975B (zh) | 2020-04-14 | 2020-04-14 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111179975A CN111179975A (zh) | 2020-05-19 |
CN111179975B true CN111179975B (zh) | 2020-08-04 |
Family
ID=70656748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010287911.2A Active CN111179975B (zh) | 2020-04-14 | 2020-04-14 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111179975B (zh) |
WO (1) | WO2021208287A1 (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179975B (zh) * | 2020-04-14 | 2020-08-04 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
CN111986686B (zh) * | 2020-07-09 | 2023-01-03 | 厦门快商通科技股份有限公司 | 短时语音信噪比估算方法、装置、设备及存储介质 |
CN112102846B (zh) * | 2020-09-04 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、电子设备以及存储介质 |
CN112215927B (zh) * | 2020-09-18 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 人脸视频的合成方法、装置、设备及介质 |
CN112102851B (zh) * | 2020-11-17 | 2021-04-13 | 深圳壹账通智能科技有限公司 | 语音端点检测方法、装置、设备及计算机可读存储介质 |
CN112509601B (zh) * | 2020-11-18 | 2022-09-06 | 中电海康集团有限公司 | 一种音符起始点检测方法及系统 |
CN112951259B (zh) * | 2021-03-01 | 2024-07-16 | 杭州网易云音乐科技有限公司 | 音频降噪方法、装置、电子设备及计算机可读存储介质 |
CN113131965B (zh) * | 2021-04-16 | 2023-11-07 | 成都天奥信息科技有限公司 | 一种民航甚高频地空通信电台遥控装置及人声判别方法 |
CN113113001A (zh) * | 2021-04-20 | 2021-07-13 | 深圳市友杰智新科技有限公司 | 人声激活检测方法、装置、计算机设备和存储介质 |
CN112992191B (zh) * | 2021-05-12 | 2021-11-05 | 北京世纪好未来教育科技有限公司 | 语音端点检测方法、装置、电子设备及可读存储介质 |
CN113327630B (zh) * | 2021-05-27 | 2023-05-09 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置、设备及存储介质 |
CN113572908A (zh) * | 2021-06-16 | 2021-10-29 | 云茂互联智能科技(厦门)有限公司 | 一种VoIP通话中降噪的方法、装置及系统 |
CN113555028B (zh) * | 2021-07-19 | 2024-08-02 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
CN113724720B (zh) * | 2021-07-19 | 2023-07-11 | 电信科学技术第五研究所有限公司 | 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法 |
CN114333912B (zh) * | 2021-12-15 | 2023-08-29 | 北京百度网讯科技有限公司 | 语音激活检测方法、装置、电子设备和存储介质 |
CN114299950B (zh) * | 2021-12-30 | 2023-07-14 | 北京字跳网络技术有限公司 | 一种字幕生成方法、装置及设备 |
CN114598767B (zh) * | 2022-01-11 | 2023-04-07 | 浙江大学 | 基于惯性测量单元的跨设备手机语音信息恢复方法及系统 |
CN114399005B (zh) * | 2022-03-10 | 2022-07-12 | 深圳市声扬科技有限公司 | 一种活体检测模型的训练方法、装置、设备及存储介质 |
CN115101091A (zh) * | 2022-05-11 | 2022-09-23 | 上海事凡物联网科技有限公司 | 基于多维特征加权融合的声音数据分类方法、终端和介质 |
CN115171700B (zh) * | 2022-06-13 | 2024-04-26 | 武汉大学 | 一种基于脉冲神经网络的声纹识别语音助手方法 |
CN115065912B (zh) * | 2022-06-22 | 2023-04-25 | 广东帝比电子科技有限公司 | 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 |
CN115264408B (zh) * | 2022-06-23 | 2024-07-12 | 大连理工大学 | 一种基于音频处理的管道泄漏检测方法及系统 |
CN115273915A (zh) * | 2022-07-29 | 2022-11-01 | 歌尔科技有限公司 | 语音激活检测方法、装置、终端设备以及计算机存储介质 |
CN115394318A (zh) * | 2022-08-24 | 2022-11-25 | 广州趣丸网络科技有限公司 | 一种音频检测方法和装置 |
CN115883753A (zh) * | 2022-11-04 | 2023-03-31 | 网易(杭州)网络有限公司 | 视频的生成方法、装置、计算设备及存储介质 |
CN117475360B (zh) * | 2023-12-27 | 2024-03-26 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021406B (zh) * | 2012-12-18 | 2014-10-22 | 台州学院 | 基于压缩感知的鲁棒性语音情感识别方法 |
CN105118502B (zh) * | 2015-07-14 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 语音识别系统的端点检测方法及系统 |
CN105261357B (zh) * | 2015-09-15 | 2016-11-23 | 百度在线网络技术(北京)有限公司 | 基于统计模型的语音端点检测方法及装置 |
CN105321525B (zh) * | 2015-09-30 | 2019-02-22 | 北京邮电大学 | 一种降低voip通信资源开销的系统和方法 |
CN106340309B (zh) * | 2016-08-23 | 2019-11-12 | 上海索洛信息技术有限公司 | 一种基于深度学习的狗叫情感识别方法及装置 |
GB2561408A (en) * | 2017-04-10 | 2018-10-17 | Cirrus Logic Int Semiconductor Ltd | Flexible voice capture front-end for headsets |
US11276390B2 (en) * | 2018-03-22 | 2022-03-15 | Casio Computer Co., Ltd. | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme |
US20200074997A1 (en) * | 2018-08-31 | 2020-03-05 | CloudMinds Technology, Inc. | Method and system for detecting voice activity in noisy conditions |
CN110910905B (zh) * | 2018-09-18 | 2023-05-02 | 京东科技控股股份有限公司 | 静音点检测方法及装置、存储介质、电子设备 |
CN109767781A (zh) * | 2019-03-06 | 2019-05-17 | 哈尔滨工业大学(深圳) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 |
CN109887511A (zh) * | 2019-04-24 | 2019-06-14 | 武汉水象电子科技有限公司 | 一种基于级联dnn的语音唤醒优化方法 |
CN110491416B (zh) * | 2019-07-26 | 2022-02-25 | 广东工业大学 | 一种基于lstm和sae的电话语音情感分析与识别方法 |
CN110706694B (zh) * | 2019-09-26 | 2022-04-08 | 成都数之联科技股份有限公司 | 一种基于深度学习的语音端点检测方法及系统 |
CN110991652A (zh) * | 2019-12-02 | 2020-04-10 | 北京迈格威科技有限公司 | 神经网络模型训练方法、装置及电子设备 |
CN111179975B (zh) * | 2020-04-14 | 2020-08-04 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
-
2020
- 2020-04-14 CN CN202010287911.2A patent/CN111179975B/zh active Active
- 2020-07-27 WO PCT/CN2020/104783 patent/WO2021208287A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN111179975A (zh) | 2020-05-19 |
WO2021208287A1 (zh) | 2021-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179975B (zh) | 用于情绪识别的语音端点检测方法、电子设备及存储介质 | |
CN109817246B (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN109243490A (zh) | 司机情绪识别方法及终端设备 | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
JP2016502140A (ja) | 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ | |
Joshi et al. | Speech emotion recognition: a review | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
Shah et al. | Speech emotion recognition based on SVM using MATLAB | |
Pao et al. | A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition | |
Ghosal et al. | Automatic male-female voice discrimination | |
Saritha et al. | Deep Learning-Based End-to-End Speaker Identification Using Time–Frequency Representation of Speech Signal | |
Dalsaniya et al. | Development of a novel database in Gujarati language for spoken digits classification | |
CN113838462A (zh) | 语音唤醒方法、装置、电子设备及计算机可读存储介质 | |
Singh et al. | Speaker Recognition Assessment in a Continuous System for Speaker Identification | |
CN116645956A (zh) | 语音合成方法、语音合成系统、电子设备及存储介质 | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
Shah et al. | Speaker recognition for pashto speakers based on isolated digits recognition using accent and dialect approach | |
Fennir et al. | Acoustic scene classification for speaker diarization | |
CN111506764A (zh) | 音频数据筛选方法、计算机设备和存储介质 | |
CN112420022A (zh) | 一种噪声提取方法、装置、设备和存储介质 | |
Dhakal | Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms | |
Bharti et al. | SVM based Voice Activity Detection by fusing a new acoustic feature PLMS with some existing acoustic features of speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |