CN115985347A - 基于深度学习的语音端点检测方法、装置和计算机设备 - Google Patents

基于深度学习的语音端点检测方法、装置和计算机设备 Download PDF

Info

Publication number
CN115985347A
CN115985347A CN202310146818.3A CN202310146818A CN115985347A CN 115985347 A CN115985347 A CN 115985347A CN 202310146818 A CN202310146818 A CN 202310146818A CN 115985347 A CN115985347 A CN 115985347A
Authority
CN
China
Prior art keywords
sound frame
frame
audio
sound
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310146818.3A
Other languages
English (en)
Other versions
CN115985347B (zh
Inventor
李鹏
黄文琦
林全郴
冯勤宇
梁凌宇
习伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN202310146818.3A priority Critical patent/CN115985347B/zh
Publication of CN115985347A publication Critical patent/CN115985347A/zh
Application granted granted Critical
Publication of CN115985347B publication Critical patent/CN115985347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请涉及一种基于深度学习的语音端点检测方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取待识别音频信号中各个音帧对应的音频数据;对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征;对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征;对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量;音帧类别概率向量表征相应的音帧为语音帧的概率信息和音帧为非语音帧的概率信息;根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点。采用本方法能够准确地识别语音段的端点位置。

Description

基于深度学习的语音端点检测方法、装置和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于深度学习的语音端点检测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,各种各样的语音识别技术层出不穷。在进行语音识别时,常常需要对语音数据进行分析处理,从而得到准确的语音识别结果。
在日常生活的沟通场景中,常常存在一定的环境噪声,如何在存在环境噪声的音频数据中检测出有效语音段至关重要。然而,目前的语音段端点检测方法常常无法准确识别出有效语音段的出现起止位置,不利于对语音信息进行提取。
因此,传统技术中存在对语音段的端点识别不够准确的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确识别语音端点的基于深度学习的语音端点检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
一种基于深度学习的语音端点检测方法,其特征在于,方法包括:
获取待识别音频信号中各个音帧对应的音频数据;
对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征;
对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征;
对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量;音帧类别概率向量表征相应的音帧为语音帧的概率信息和音帧为非语音帧的概率信息;
根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点。
在其中一个实施例中,对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征,包括:
获取各音帧对应的语音帧位置特征;
根据各音帧对应的语音帧位置特征和各音帧对应的音频听觉特征,确定语音帧向量矩阵;
将语音帧向量矩阵输入至预训练的音频特征处理模型中的编码器,得到编码信息矩阵,作为各音帧对应的音频编码特征。
在其中一个实施例中,对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量,包括:
将编码信息矩阵输入至预训练的音频特征处理模型中的解码器,得到各音帧对应的音频特征解码信息;
根据各音帧对应的音频特征解码信息,生成各音帧对应的音帧类别概率向量。
在其中一个实施例中,根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点,包括:
根据各音帧对应的音帧类别概率向量,确定待识别音频信号对应的待识别序列;
根据待识别音频信号对应的待识别序列,确定待识别音频信号中的语音端点。
在其中一个实施例中,根据各音帧对应的音帧类别概率向量,确定待识别音频信号对应的待识别序列,包括:
根据各音帧对应的音帧类别概率向量,生成待识别音频信号对应的音帧类别概率矩阵;
获取转移概率矩阵,根据音帧类别概率矩阵和转移概率矩阵,确定待识别音频信号中各音帧对应的音帧类别;
根据待识别音频信号中各音帧对应的音帧类别,生成待识别音频信号对应的待识别序列。
在其中一个实施例中,对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征,包括:
对各个音帧对应的音频数据进行傅里叶变换,得到各音帧对应的变换后音频数据;
对各音帧对应的变换后音频数据进行梅尔滤波,得到各音帧对应的滤波后音频数据;
将各音帧对应的滤波后音频数据进行对数运算,得到各音帧对应的转换后音频数据;
将各音帧对应的转换后音频数据进行离散余弦变换,得到各音帧对应的音频听觉特征。
在其中一个实施例中,获取待识别音频信号中各个音帧对应的音频数据,包括:
对待识别音频信号进行预加重处理,得到处理后音频信号;
对处理后音频信号进行分帧处理,得到待音频识别信号对应的各个音帧;
对各音帧对应的数据进行加窗处理,得到待音频识别信号中各音帧对应的音频数据。
一种基于深度学习的语音端点检测装置,其特征在于,装置包括:
获取模块,用于获取待识别音频信号中各个音帧对应的音频数据;
提取模块,用于对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征;
编码模块,用于对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征;
分类模块,用于对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量;音帧类别概率向量表征相应的音帧为语音帧的概率信息和音帧为非语音帧的概率信息;
确定模块,用于根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,其特征在于,处理器执行计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现上述的方法的步骤。
上述基于深度学习的语音端点检测方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待识别音频信号中各个音帧对应的音频数据;对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征;对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征;对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量;音帧类别概率向量表征相应的音帧为语音帧的概率信息和音帧为非语音帧的概率信息;根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点;如此,实现了在对待识别音频信号进行听觉特征提取后,还进行编码特征提取,使得各音帧对应的音频编码特征具有更好的语音信息表征效果,能够更准确地确定音帧对应的音帧类别概率向量,从而更准确地确定待识别音频信号的语音端点,有利于提高对待识别音频信号中的语音段的识别准确率和识别效率。
附图说明
图1为一个实施例中一种基于深度学习的语音端点检测方法的应用环境图;
图2为一个实施例中一种基于深度学习的语音端点检测方法的流程示意图;
图3为一个实施例中一种语音端点检测模型的训练流程图和测试流程图;
图4为一个实施例中一种待识别音频信号进行听觉语音特征提取的流程图;
图5为另一个实施例中一种语音端点检测方法的流程示意图;
图6为一个实施例中一种基于深度学习的语音端点检测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的基于深度学习的语音端点检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。服务器104获取待识别音频信号中各个音帧对应的音频数据;服务器104对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征;服务器104对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征;服务器104对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量;音帧类别概率向量表征相应的音帧为语音帧的概率信息和音帧为非语音帧的概率信息;服务器104根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点。服务器104发送待识别音频信号的语音端点识别结果至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于深度学习的语音端点检测方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤S202,获取待识别音频信号中各个音帧对应的音频数据。
其中,待识别音频信号可以是需要确定语音端点的音频信号。
其中,音频数据可以是音帧对应的声波信号数据。
具体实现中,服务器获取待识别音频信号,并对待识别音频信号进行处理得到各个音帧对应的音频数据。
步骤S204,对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征。
其中,音频听觉特征可以是MFCC语音特征(Mel-Frequency CepstralCoefficient,梅尔频率倒谱系数)。其中,MFCC语音特征是根据人耳对不同频率声音的感知不同这一听觉特征所构建的语音特征。
具体实现中,服务器对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征。例如,服务器对各个音帧对应的音频数据进行梅尔频率倒谱系数提取,得到个音帧对应的MFCC语音特征向量。
步骤S206,对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征。
其中,音频编码特征可以是根据音帧对应的音频听觉特征对应的数据进行编码数据处理后得到的特征数据。
具体实现中,服务器对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征。
步骤S208,对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量;音帧类别概率向量表征相应的音帧为语音帧的概率信息和音帧为非语音帧的概率信息。
具体实现中,服务器分别对各个音帧对应的音频编码特征进行分类处理,得到各个音帧为语音帧的概率和为非语音帧的概率,并根据音帧为语音帧的概率和为非语音帧的概率生成各音帧对应的概率向量,即生成各音帧对应的音帧类别概率向量。
步骤S210,根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点。
其中,语音端点可以是音频信号中语音段的起点和语音段的尾点。
具体实现中,服务器根据各个音帧对应的音帧类别概率向量,确定待识别音频信号中的语音段起点和语音段尾点。
为了便于本领域技术人员的理解,图3示例性地提供了一种基于深度学习的语音端点检测模型的训练过程和测试过程。该基于深度学习的语音端点检测模型的训练过程为:
步骤1:获取训练音频数据集。其中,训练音频数据集包括多个音频段,每个音频段由语音段和噪声段叠加而成;
步骤2:将各音频段(语音段和噪声段的叠加)中的语音段进行VAD检测(VoiceActivity Detection,语音活动检测,又称语音端点检测),得到各语音段在各音频段中的端点标记结果;
步骤3:将各音频段(语音段和噪声段的叠加)作为混合语音进行时频分解,得到各个音频段对应的音频段语音特征;
步骤4:根据各语音段在各音频段中的端点标记结果和各音频段对应的音频语音特征,训练语音端点检测模型。按照步骤1至步骤4训练得到的语音端点检测模型,当将某一音频段的音频信号输入至该语音端点检测模型时,该语音端点检测模型输出该音频段中语音段的端点位置。
处于测试阶段时,可以将测试音频信号进行时频分解,得到测试音频信号对应的各音帧对应的语音特征数据,再将各音帧对应的语音特征数据输入至上述训练所得的语音端点检测模型,从而得到测试音频信号对应的语音段端点位置。
上述基于深度学习的语音端点检测方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待识别音频信号中各个音帧对应的音频数据;对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征;对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征;对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量;音帧类别概率向量表征相应的音帧为语音帧的概率信息和音帧为非语音帧的概率信息;根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点;如此,实现了在对待识别音频信号进行听觉特征提取后,还进行编码特征提取,使得各音帧对应的音频编码特征具有更好的语音信息表征效果,能够更准确地确定音帧对应的音帧类别概率向量,从而更准确地确定待识别音频信号的语音端点,有利于提高对待识别音频信号中的语音段的识别准确率和识别效率。
在另一个实施例中,对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征,包括:获取各音帧对应的语音帧位置特征;根据各音帧对应的语音帧位置特征和各音帧对应的音频听觉特征,确定语音帧向量矩阵;将语音帧向量矩阵输入至预训练的音频特征处理模型中的编码器,得到编码信息矩阵,作为各音帧对应的音频编码特征。
其中,语音帧位置特征可以是某一音帧在对应的音频段中的位置信息特征。
其中,语音帧向量矩阵可以是由音帧对应的语音帧位置和音帧对应的音频听觉特征相加得到的向量。
其中,编码器可以是用于根据音帧的音频数据进行编码的编码单元。编码器可以将语音帧向量矩阵进行编码后,输出与语音帧向量矩阵相同维度大小的编码信息矩阵。
其中,编码信息矩阵可以是某一音帧的音频信息经过数据编码处理后对应的信息矩阵,编码信息矩阵含有音帧的音频特征信息。
具体实现中,服务器获取各个音帧的语音帧位置特征,并且将各个音帧对应的语音帧位置特征向量和各音帧对应的音频听觉特征向量相加,得到各个音帧对应的语音帧向量矩阵,服务器将各个音帧对应的语音帧向量矩阵输入至预处理的音频特征处理模型进行编码数据处理,得到各个音帧对应的编码信息矩阵,作为各个音帧对应的音频编码特征。
本实施例的技术方案,通过根据各音帧对应的语音帧位置特征和各音帧对应的音频听觉特征,确定各音帧对应的语音帧向量矩阵,将各音帧对应的语音帧向量矩阵进行编码处理,得到各音帧对应的编码信息矩阵,各音帧对应的编码信息矩阵能够较为准确地表征各音帧对应的特征信息,有利于对各音帧的音帧类别进行准确识别,有利于提高对待识别音频信号的语音段端点的识别准确率。
在另一个实施例中,对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量,包括:将编码信息矩阵输入至预训练的音频特征处理模型中的解码器,得到各音帧对应的音频特征解码信息;根据各音帧对应的音频特征解码信息,生成各音帧对应的音帧类别概率向量。
其中,音频特征处理模型可以是对音帧的音频听觉特征进行再一次特征提取的模型。例如,音频特征处理模型可以是用于对音帧的MFCC特征进行特征再提取的Transformer模型(一种应用于自然语言处理领域的特征提取模型)。
其中,音频特征解码信息可以是音帧为语音帧的概率信息以及音帧为非语音帧的概率信息。
其中,音帧类别概率向量可以是由音帧为语音帧的概率信息以及音帧为非音帧的概率信息构成的向量。
具体实现中,服务器将各个音帧对应的编码信息矩阵输入至预训练的音频特征处理模型中的解码器,对编码信息矩阵进行解码处理,服务器得到各个音帧对应的音频特征解码信息,即得到各个音帧为语音帧的概率和为非语音帧的概率,根据各个音帧为语音帧的概率和为非语音帧的概率,生成各个音帧对应的音帧类别概率向量。
例如,在采用Transformer模型对待识别音频信号中各个音帧对应的MFCC特征进行特征再提取以及确定各个音帧对应的音帧类别概率向量的具体过程如下:
步骤1:获取待识别音频信号的每一音帧的音帧表示向量X。其中,X由音帧对应的MFCC语音特征和音帧对应的嵌入位置相加得到。
步骤2:根据各个音帧对应的音帧表示向量,生成音帧表示向量矩阵。其中,音帧表示向量矩阵中的每一行代表一个音帧。
步骤3:将待识别音频信号对应的音帧表示向量矩阵输入至Transformer模型,音帧表示向量矩阵依次经过6个编码器后,输出和待识别音频信号对应的编码信息矩阵。
步骤4:将编码信息矩阵传递至6个解码器,输出待识别音频信号对应的各个音帧的音频特征解码信息,即输出待识别音频信号对应的各个音帧为语音帧的概率和为非语音帧的概率,从而生成各个音帧对应的音帧类别概率向量。
采用Transformer模型对待识别音频信号中各个音帧对应的MFCC特征进行特征再提取,再提取的音频特征数据的维度与声学模型的维度相匹配,再提取的音频特征数据具有更准确的语音信息表征效果。
本实施例的技术方案,通过将编码信息矩阵输入至预训练的音频特征处理模型中的解码器,对编码信息矩阵进行解码处理,得到各音帧对应的音频特征解码信息,音频特征解码信息能够更准确地表征音帧特征,从而由各个音帧对应的音频特征解码信息生成的各个音帧对应的音帧类别概率向量能够更加准确地表征音帧类别信息,有利于提高对待识别音频信号中各个音帧的类别识别准确率,进而有利于对待识别音频信号中语音段端点的准确识别。
在另一个实施例中,根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点,包括:根据各音帧对应的音帧类别概率向量,确定待识别音频信号对应的待识别序列;根据待识别音频信号对应的待识别序列,确定待识别音频信号中的语音端点。
其中,待识别序列可以是由待识别音频信号中各个音帧对应的音帧类别构成的序列。
具体实现中,服务器根据各个音帧对应的音帧类别概率向量,确定各个音帧的类别,即确定各个音帧为语音帧或非语音帧,服务器将各个音帧对应的类别按照时间先后顺序,生成待识别音频信号对应的待识别序列,服务器根据待识别序列,确定待识别音频信号中的语音段起点和语音段尾点。
本实施例的技术方案,通过根据各音帧对应的音帧类别概率向量,确定待识别音频信号对应的待识别序列,以确定待识别音频信号中的语音端点,进而确定待识别音频信号中的语音段,实现了对语音段的精准识别。
在另一个实施例中,根据各音帧对应的音帧类别概率向量,确定待识别音频信号对应的待识别序列,包括:根据各音帧对应的音帧类别概率向量,生成待识别音频信号对应的音帧类别概率矩阵;获取转移概率矩阵,根据音帧类别概率矩阵和转移概率矩阵,确定待识别音频信号中各音帧对应的音帧类别;根据待识别音频信号中各音帧对应的音帧类别,生成待识别音频信号对应的待识别序列。
其中,音帧类别概率矩阵可以是由各音帧对应的音帧类别概率向量组成的概率矩阵。例如,音帧类别概率矩阵可以是
其中,待识别音频信号的第i帧对应的音帧类别概率向量为,其中,为语音帧的概率,为非语音帧的概率。
其中,转移概率矩阵可以是确定音帧从语音帧跳转到非语音帧的概率以及音帧从非语音帧跳转到语音帧的概率对应的矩阵。
具体实现中,服务器根据各个音帧对应的音帧类别概率向量,并依据各个音帧对应的时间先后顺序,生成待识别音频信号对应的音帧类别概率矩阵,服务器获取对应的转移概率矩阵,服务器利用维比特算法,并根据音帧类别概率矩阵和对应的转移概率矩阵,确定待识别音频信号中各个音帧对应的音帧类别,即确定各个音帧为语音帧或非语音帧,服务器根据待识别音频信号中各音帧对应的音帧类别,生成待识别音频信号对应的待识别序列。
为了便于本领域技术人员的理解,下述示例性地提供了一种基于维比特算法确定待识别音频信号中语音段起始位置的方法:
步骤1:获取待识别音频信号对应的观测序列,即获取待识别音频信号对应的音帧类别概率矩阵。
步骤2:确定对应的转移概率矩阵,即确定语音帧/非语音帧的状态转移概率值和语音帧/非语音帧的先验概率值。其中,该先验概率值需要由前期根据音频训练数据集进行相应的模型训练得到。
步骤3:对待识别音频信号的信号起始点进行逐帧判断,对于当前帧,计算出之前每一帧出现语音帧或非语音帧的概率,依次乘以帧间的转移概率,从而得到某一序列出现的总概率。其中,帧间的转移概率可由步骤2中的转移概率矩阵确定。
步骤4:在步骤3中,只保留出现概率较大的前若干个序列以及它们出现的概率,最终概率最大对应的状态序列就是最有可能出现的隐含序列,将该隐含序列作为待识别音频信号中各音帧对应的识别结果;
步骤5:根据步骤4得到的待识别音频信号中各帧对应的识别结果确定待识别音频信号的语音段端点。
本实施例的技术方案,通过根据各个音帧对应的音帧类别概率向量,生成待识别音频信号对应的音帧类别概率矩阵,并根据音帧类别概率矩阵和对应的转移概率矩阵,确定待识别音频信号中各个音帧对应的音帧类别,并将各个音帧对应的音帧类别生成待识别音频信号对应的待识别序列,如此能够较为准确地确定待识别音频信号对应的待识别序列,能够较为准确地确定待识别音频信号中各音帧的音帧类别,为后续对语音段的识别提供精确的数据,能够提高对语音段端点的识别准确率。
在另一个实施例中,对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征,包括:对各个音帧对应的音频数据进行傅里叶变换,得到各音帧对应的变换后音频数据;对各音帧对应的变换后音频数据进行梅尔滤波,得到各音帧对应的滤波后音频数据;将各音帧对应的滤波后音频数据进行对数运算,得到各音帧对应的转换后音频数据;将各音帧对应的转换后音频数据进行离散余弦变换,得到各音帧对应的音频听觉特征。
具体实现中,服务器对待识别音频信号中各个音帧对应的音频数据进行离散傅里叶变换,将各个音帧对应的音频数据从时域变换成时频域,得到各个音帧对应的变换后音频数据,服务器对各个音帧对应的变换后音频数据进行梅尔滤波,得到各个音帧对应的滤波器组,即得到各个音帧对应的滤波后音频数据,服务器将各个音帧对应的滤波器组进行对数运算,得到对数梅尔滤波器组,即得到各个音帧对应的转换后音频数据,服务器将各音帧对应的转换后音频数据进行离散余弦变换,得到各个音帧对应的MFCC语音特征,即得到各个音帧对应的音频听觉特征向量。
为了便于本领域技术人员的理解,图4示例性地提供了一种对待识别音频信号进行MFCC语音特征提取的流程图。其中,首先将时域信号进行预处理,即首先将待识别音频信号进行预处理,得到待识别音频信号对应的各个音帧,将待识别音频信号中的各个音帧依次进行傅里叶变换处理和梅尔滤波处理,得到各个音帧对应的Fbank特征数据(FilterBank,一种以类似人耳的方式对音频数据进行特征提取的方法),再将各个音帧对应的Fbank特征数据进行对数运算处理和离散余弦变换处理,得到各个音帧对应的MFCC语音特征向量,如此完成对待识别音频信号的各个音帧的音频听觉特征提取。
本实施例的技术方案,通过对各个音帧对应的音频数据依次进行傅里叶变换处理、梅尔滤波处理、对数运算处理和离散余弦变换处理,得到各个音帧对应的MFCC语音特征向量,即得到了较为准确的可以表征各个音帧特征的向量数据,有利于对各个音帧类别的准确识别,从而提高对待识别音频信号中语音段的识别准确率。
在另一个实施例中,获取待识别音频信号中各个音帧对应的音频数据,包括:对待识别音频信号进行预加重处理,得到处理后音频信号;对处理后音频信号进行分帧处理,得到待识别音频信号对应的各个音帧;对各音帧对应的数据进行加窗处理,得到待识别音频信号中各音帧对应的音频数据。
具体实现中,服务器对待识别音频信号进行预加重处理,即对待识别音频信号中的信号高频分量进行补偿,得到处理后音频信号,服务器对处理后音频信号进行分帧处理,将待识别音频信号划分为多个小段,每个小段作为一个音帧,服务器对各个音帧对应的数据进行加窗处理,得到待识别音频信号中各音帧对应的音频数据。
例如,在获取待识别音频信号中各个音帧对应的音频数据的过程时,是通过对待识别音频信号依次进行预加重处理、分帧处理和加窗处理,其中,预加重处理是对待识别音频信号中的信号高频分量再传输过程中的衰减进行补偿,分帧处理是根据预加重处理后的待识别音频信号短时平稳的特性进行分帧处理、加窗是将分帧后的音帧数据转换为适用于傅里叶变化的数据形式,如此,实现了将待识别音频信号转换为各个音帧对应的音频数据。
其中,在对待识别音频信号进行分帧处理的过程中,需要确定每一帧的起始点,其每一帧的起始点具体计算过程如下,下述以第一帧起始点和第二帧起始点的具体计算过程为例进行说明:
步骤1:将待识别音频信号进行长度为25ms的分帧,其中帧移位为10ms,帧与帧之间的重叠为15ms;
步骤2:确定待识别音频信号的采样率,当待识别音频信号的采样率为16kHz时,则取窗口大小为25ms,此时,待识别音频信号中每一帧数据的所包含的数据点为400个采样点。若设定帧之间重叠为15ms,则第一帧的数据起始点为sample 0(采样点0),第二帧数据的起始点为sample 160(采样点160)。
采用上述对待识别音频第一帧起始点和第二帧起始点的确定方法,可以确定待识别音频其他帧的起始点。如此,可以实现对待识别音频信号的分帧处理。
本实施例的技术方案,通过对待识别音频信号依次进行预加重处理、分帧处理和加窗处理,得到待识别音频信号各个音帧对应的音频数据,有利于后续对各个音频进行语音特征提取,从而有利于确定各个音帧对应的类别,提高对待识别音频信号的语音端点识别准确率。
在另一个实施例中,如图5所示,提供了一种基于深度学习的语音端点检测方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤S502,获取待识别音频信号中各个音帧对应的音频数据。
步骤S504,对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征。
步骤S506,对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征。
步骤S508,对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量;音帧类别概率向量表征相应的音帧为语音帧的概率信息和音帧为非语音帧的概率信息。
步骤S510,根据各音帧对应的音帧类别概率向量,确定待识别音频信号对应的待识别序列。
步骤S512,根据待识别音频信号对应的待识别序列,确定待识别音频信号中的语音端点。
需要说明的是,上述步骤的具体限定可以参见上文对一种基于深度学习的语音端点检测方法的具体限定。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于深度学习的语音端点检测方法的基于深度学习的语音端点检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于深度学习的语音端点检测装置实施例中的具体限定可以参见上文中对于基于深度学习的语音端点检测方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种基于深度学习的语音端点检测装置,包括:
获取模块602,用于获取待识别音频信号中各个音帧对应的音频数据;
提取模块604,用于对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征;
编码模块606,用于对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征;
分类模块608,用于对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量;音帧类别概率向量表征相应的音帧为语音帧的概率信息和音帧为非语音帧的概率信息;
确定模块610,用于根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点。
在其中一个实施例中,对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征,编码模块606,具体用于获取各音帧对应的语音帧位置特征;根据各音帧对应的语音帧位置特征和各音帧对应的音频听觉特征,确定语音帧向量矩阵;将语音帧向量矩阵输入至预训练的音频特征处理模型中的编码器,得到编码信息矩阵,作为各音帧对应的音频编码特征。
在其中一个实施例中,对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量,分类模块608,具体用于将编码信息矩阵输入至预训练的音频特征处理模型中的解码器,得到各音帧对应的音频特征解码信息;根据各音帧对应的音频特征解码信息,生成各音帧对应的音帧类别概率向量。
在其中一个实施例中,根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点,确定模块610,具体用于根据各音帧对应的音帧类别概率向量,确定待识别音频信号对应的待识别序列;根据待识别音频信号对应的待识别序列,确定待识别音频信号中的语音端点。
在其中一个实施例中,根据各音帧对应的音帧类别概率向量,确定待识别音频信号对应的待识别序列,确定模块610,具体用于根据各音帧对应的音帧类别概率向量,生成待识别音频信号对应的音帧类别概率矩阵;获取转移概率矩阵,根据音帧类别概率矩阵和转移概率矩阵,确定待识别音频信号中各音帧对应的音帧类别;根据待识别音频信号中各音帧对应的音帧类别,生成待识别音频信号对应的待识别序列。
在其中一个实施例中,对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征,提取模块604,具体用于对各个音帧对应的音频数据进行傅里叶变换,得到各音帧对应的变换后音频数据;对各音帧对应的变换后音频数据进行梅尔滤波,得到各音帧对应的滤波后音频数据;将各音帧对应的滤波后音频数据进行对数运算,得到各音帧对应的转换后音频数据;将各音帧对应的转换后音频数据进行离散余弦变换,得到各音帧对应的音频听觉特征。
在其中一个实施例中,获取待识别音频信号中各个音帧对应的音频数据,获取模块402,具体用于对待识别音频信号进行预加重处理,得到处理后音频信号;对处理后音频信号进行分帧处理,得到待识别音频信号对应的各个音帧;对各音帧对应的数据进行加窗处理,得到待识别音频信号中各音帧对应的音频数据。
上述基于深度学习的语音端点检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于深度学习的语音端点检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的语音端点检测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述一种基于深度学习的语音端点检测方法的步骤。此处一种基于深度学习的语音端点检测方法的步骤可以是上述各个实施例的一种基于深度学习的语音端点检测方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述一种基于深度学习的语音端点检测方法的步骤。此处一种基于深度学习的语音端点检测方法的步骤可以是上述各个实施例的一种基于深度学习的语音端点检测方法中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,使得处理器执行上述一种基于深度学习的语音端点检测方法的步骤。此处一种基于深度学习的语音端点检测方法的步骤可以是上述各个实施例的一种基于深度学习的语音端点检测方法中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于深度学习的语音端点检测方法,其特征在于,所述方法包括:
获取待识别音频信号中各个音帧对应的音频数据;
对所述各个音帧对应的音频数据进行听觉特征提取,得到各所述音帧对应的音频听觉特征;
对各所述音帧对应的音频听觉特征进行编码特征提取,得到各所述音帧对应的音频编码特征;
对各所述音帧对应的音频编码特征进行分类处理,得到各所述音帧对应的音帧类别概率向量;所述音帧类别概率向量表征相应的所述音帧为语音帧的概率信息和所述音帧为非语音帧的概率信息;
根据各所述音帧对应的音帧类别概率向量,确定所述待识别音频信号中的语音端点。
2.根据权利要求1所述的方法,其特征在于,所述对各所述音帧对应的音频听觉特征进行编码特征提取,得到各所述音帧对应的音频编码特征,包括:
获取各所述音帧对应的语音帧位置特征;
根据各所述音帧对应的语音帧位置特征和各所述音帧对应的音频听觉特征,确定语音帧向量矩阵;
将所述语音帧向量矩阵输入至预训练的音频特征处理模型中的编码器,得到编码信息矩阵,作为各所述音帧对应的音频编码特征。
3.根据权利要求2所述的方法,其特征在于,所述对各所述音帧对应的音频编码特征进行分类处理,得到各所述音帧对应的音帧类别概率向量,包括:
将所述编码信息矩阵输入至所述预训练的音频特征处理模型中的解码器,得到各所述音帧对应的音频特征解码信息;
根据各所述音帧对应的音频特征解码信息,生成各所述音帧对应的音帧类别概率向量。
4.根据权利要求1所述的方法,其特征在于,所述根据各所述音帧对应的音帧类别概率向量,确定所述待识别音频信号中的语音端点,包括:
根据各所述音帧对应的音帧类别概率向量,确定所述待识别音频信号对应的待识别序列;
根据所述待识别音频信号对应的待识别序列,确定所述待识别音频信号中的语音端点。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述音帧对应的音帧类别概率向量,确定所述待识别音频信号对应的待识别序列,包括:
根据各所述音帧对应的音帧类别概率向量,生成所述待识别音频信号对应的音帧类别概率矩阵;
获取转移概率矩阵,根据所述音帧类别概率矩阵和所述转移概率矩阵,确定所述待识别音频信号中各音帧对应的音帧类别;
根据所述待识别音频信号中各音帧对应的音帧类别,生成所述待识别音频信号对应的待识别序列。
6.根据权利要求1所述的方法,其特征在于,所述对所述各个音帧对应的音频数据进行听觉特征提取,得到各所述音帧对应的音频听觉特征,包括:
对所述各个音帧对应的音频数据进行傅里叶变换,得到各所述音帧对应的变换后音频数据;
对各所述音帧对应的变换后音频数据进行梅尔滤波,得到各所述音帧对应的滤波后音频数据;
将各所述音帧对应的滤波后音频数据进行对数运算,得到各所述音帧对应的转换后音频数据;
将各所述音帧对应的转换后音频数据进行离散余弦变换,得到各所述音帧对应的音频听觉特征。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述获取待识别音频信号中各个音帧对应的音频数据,包括:
对所述待识别音频信号进行预加重处理,得到处理后音频信号;
对所述处理后音频信号进行分帧处理,得到所述待音频识别信号对应的各个音帧;
对各所述音帧对应的数据进行加窗处理,得到所述待音频识别信号中各所述音帧对应的音频数据。
8.一种基于深度学习的语音端点检测装置,其特征在于,所述装置包括:
获取模块,用于获取待识别音频信号中各个音帧对应的音频数据;
提取模块,用于对所述各个音帧对应的音频数据进行听觉特征提取,得到各所述音帧对应的音频听觉特征;
编码模块,用于对各所述音帧对应的音频听觉特征进行编码特征提取,得到各所述音帧对应的音频编码特征;
分类模块,用于对各所述音帧对应的音频编码特征进行分类处理,得到各所述音帧对应的音帧类别概率向量;所述音帧类别概率向量表征相应的所述音帧为语音帧的概率信息和所述音帧为非语音帧的概率信息;
确定模块,用于根据各所述音帧对应的音帧类别概率向量,确定所述待识别音频信号中的语音端点。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202310146818.3A 2023-02-22 2023-02-22 基于深度学习的语音端点检测方法、装置和计算机设备 Active CN115985347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310146818.3A CN115985347B (zh) 2023-02-22 2023-02-22 基于深度学习的语音端点检测方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310146818.3A CN115985347B (zh) 2023-02-22 2023-02-22 基于深度学习的语音端点检测方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN115985347A true CN115985347A (zh) 2023-04-18
CN115985347B CN115985347B (zh) 2023-06-27

Family

ID=85976349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310146818.3A Active CN115985347B (zh) 2023-02-22 2023-02-22 基于深度学习的语音端点检测方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN115985347B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009024066A1 (fr) * 2007-08-17 2009-02-26 Huawei Technologies Co., Ltd. Procédé de commande de détection d'activité vocale et dispositif de commande apparenté
CN109036471A (zh) * 2018-08-20 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN112802498A (zh) * 2020-12-29 2021-05-14 深圳追一科技有限公司 语音检测方法、装置、计算机设备和存储介质
CN112967739A (zh) * 2021-02-26 2021-06-15 山东省计算中心(国家超级计算济南中心) 一种基于长短期记忆网络的语音端点检测方法及系统
CN112992191A (zh) * 2021-05-12 2021-06-18 北京世纪好未来教育科技有限公司 语音端点检测方法、装置、电子设备及可读存储介质
CN114566152A (zh) * 2022-04-27 2022-05-31 成都启英泰伦科技有限公司 一种基于深度学习的语音端点检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009024066A1 (fr) * 2007-08-17 2009-02-26 Huawei Technologies Co., Ltd. Procédé de commande de détection d'activité vocale et dispositif de commande apparenté
CN109036471A (zh) * 2018-08-20 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN112802498A (zh) * 2020-12-29 2021-05-14 深圳追一科技有限公司 语音检测方法、装置、计算机设备和存储介质
CN112967739A (zh) * 2021-02-26 2021-06-15 山东省计算中心(国家超级计算济南中心) 一种基于长短期记忆网络的语音端点检测方法及系统
CN112992191A (zh) * 2021-05-12 2021-06-18 北京世纪好未来教育科技有限公司 语音端点检测方法、装置、电子设备及可读存储介质
CN114566152A (zh) * 2022-04-27 2022-05-31 成都启英泰伦科技有限公司 一种基于深度学习的语音端点检测方法

Also Published As

Publication number Publication date
CN115985347B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN111179975A (zh) 用于情绪识别的语音端点检测方法、电子设备及存储介质
CN112712813B (zh) 语音处理方法、装置、设备及存储介质
CN109658921B (zh) 一种语音信号处理方法、设备及计算机可读存储介质
CN112786008B (zh) 语音合成方法、装置、可读介质及电子设备
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
CN112767927A (zh) 一种提取语音特征的方法、装置、终端及存储介质
Chatterjee et al. Auditory model-based design and optimization of feature vectors for automatic speech recognition
CN114596879A (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
CN114255740A (zh) 语音识别方法、装置、计算机设备和存储介质
CN113205820A (zh) 一种用于声音事件检测的声音编码器的生成方法
CN114495977B (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
CN115148211A (zh) 音频敏感内容检测方法、计算机设备和计算机程序产品
CN108962226B (zh) 用于检测语音的端点的方法和装置
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
KR102220964B1 (ko) 오디오 인식을 위한 방법 및 디바이스
CN112767950A (zh) 一种声纹识别方法、装置及计算机可读存储介质
CN116844567A (zh) 一种基于多特征重建融合的深度合成音频检测方法及系统
CN116645956A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
CN115985347B (zh) 基于深度学习的语音端点检测方法、装置和计算机设备
CN113889085B (zh) 语音识别方法、装置、设备、存储介质及程序产品
CN115206321A (zh) 语音关键词的识别方法、装置和电子设备
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN114664313A (zh) 语音识别方法、装置、计算机设备、存储介质和程序产品
CN113160823A (zh) 基于脉冲神经网络的语音唤醒方法、装置及电子设备
CN113327578A (zh) 一种声学模型训练方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant