CN110010153A - 一种基于神经网络的静音检测方法、终端设备及介质 - Google Patents

一种基于神经网络的静音检测方法、终端设备及介质 Download PDF

Info

Publication number
CN110010153A
CN110010153A CN201910226470.2A CN201910226470A CN110010153A CN 110010153 A CN110010153 A CN 110010153A CN 201910226470 A CN201910226470 A CN 201910226470A CN 110010153 A CN110010153 A CN 110010153A
Authority
CN
China
Prior art keywords
audio
subsequence
layer
dimensionality reduction
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910226470.2A
Other languages
English (en)
Inventor
房树明
程宁
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910226470.2A priority Critical patent/CN110010153A/zh
Publication of CN110010153A publication Critical patent/CN110010153A/zh
Priority to PCT/CN2019/103149 priority patent/WO2020192009A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明适用于人工智能技术领域,提供了一种基于神经网络的静音检测方法、终端设备及介质,包括:基于预设采样频率对待检测的原始音频信号进行采样,得到原始音频信号对应的采样信号;基于预设感受野长度对采样信号进行分帧处理,得到至少两帧音频子序列;将音频子序列输入至预先训练好的静音检测模型,得到音频子序列的特征值;静音检测模型为一维卷积神经网络模型,音频子序列的特征值用于表征音频子序列对应的音频段为语音信号的概率,特征值为一维数值;若音频子序列的特征值大于或等于预设特征值阈值,则确定音频子序列对应的音频段为语音信号,从而提高了静音检测的效率及准确率。

Description

一种基于神经网络的静音检测方法、终端设备及介质
技术领域
本发明属于人工智能技术领域,尤其涉及一种基于神经网络的静音检测方法、终端设备及计算机可读存储介质。
背景技术
静音检测是指对音频信号进行特征分析,从音频信号中识别出语音信号和噪声信号,它在语音编码、语音增强及语音识别等领域具有非常广泛的应用。静音检测作为语音编码、语音增强及语音识别等的第一步,其准确率直接关系到后续的语音处理工作能否有效进行。
传统的静音检测通常采用过零检测、相关性检测或谱包络检测等检测方法,这些检测方法均需要先将时域音频信号转换为频域信号,不仅操作繁琐,应用难度大,而且检测准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种基于神经网络的静音检测方法、终端设备及计算机可读存储介质,以解决现有的静音检测方法存在的操作繁琐,应用难度较大,检测准确率较低的问题。
本发明实施例的第一方面提供了一种基于神经网络的静音检测方法,包括:
基于预设采样频率对待检测的原始音频信号进行采样,得到所述原始音频信号对应的采样信号;
基于预设感受野长度对所述采样信号进行分帧处理,得到至少两帧音频子序列;
将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值;所述静音检测模型为一维卷积神经网络模型,所述音频子序列的特征值用于表征所述音频子序列对应的音频段为语音信号的概率,所述特征值为一维数值;
若所述音频子序列的特征值大于或等于预设特征值阈值,则确定所述音频子序列对应的音频段为语音信号。
本发明实施例的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下各步骤:
基于预设采样频率对待检测的原始音频信号进行采样,得到所述原始音频信号对应的采样信号;
基于预设感受野长度对所述采样信号进行分帧处理,得到至少两帧音频子序列;
将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值;所述静音检测模型为一维卷积神经网络模型,所述音频子序列的特征值用于表征所述音频子序列对应的音频段为语音信号的概率,所述特征值为一维数值;
若所述音频子序列的特征值大于或等于预设特征值阈值,则确定所述音频子序列对应的音频段为语音信号。
本发明实施例的第三方面提供了一种终端设备,包括:
第一采样单元,用于基于预设采样频率对待检测的原始音频信号进行采样,得到所述原始音频信号对应的采样信号;
第一音频处理单元,用于基于预设感受野长度对所述采样信号进行分帧处理,得到至少两帧音频子序列;
特征值计算单元,用于将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值;所述静音检测模型为一维卷积神经网络模型,所述音频子序列的特征值用于表征所述音频子序列对应的音频段为语音信号的概率,所述特征值为一维数值;
静音检测单元,用于若所述音频子序列的特征值大于或等于预设特征值阈值,则确定所述音频子序列对应的音频段为语音信号。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现以下各步骤:
基于预设采样频率对待检测的原始音频信号进行采样,得到所述原始音频信号对应的采样信号;
基于预设感受野长度对所述采样信号进行分帧处理,得到至少两帧音频子序列;
将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值;所述静音检测模型为一维卷积神经网络模型,所述音频子序列的特征值用于表征所述音频子序列对应的音频段为语音信号的概率,所述特征值为一维数值;
若所述音频子序列的特征值大于或等于预设特征值阈值,则确定所述音频子序列对应的音频段为语音信号。
实施本发明实施例提供的一种基于神经网络的静音检测方法、终端设备及计算机可读存储介质具有以下有益效果:
本发明实施例基于预设采样频率对原始音频信号进行采样,并基于预设感受野长度对采样得到的采样信号进行分帧处理,得到至少量帧音频子序列,通过采用预先训练好的静音检测模型对音频子序列进行降维处理,最终将音频子序列转换为一个一维数值,并基于该一维数值与预设特征值阈值之间的大小关系,确定该音频子序列对应的音频段是否为语音信号。本发明实施例在对原始音频信号进行静音检测时,无需将原始音频信号进行时域到频域的转换,只需在时域将其转换为数字音频信号即可,从而简化了静音检测流程,提高了静音检测的效率,且由于静音检测模型是训练得到的,因而在训练过程中可以不断对静音检测模型包含的各项参数进行优化,从而能够提高静音检测的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于神经网络的静音检测方法的实现流程图;
图2是本发明实施例提供的一种基于神经网络的静音检测方法中S3的具体实现流程图;
图3是本发明另一实施例提供的一种基于神经网络的静音检测方法的实现流程图;
图4是本发明实施例提供的一种终端设备的结构框图;
图5是本发明另一实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1是本发明实施例提供的一种基于神经网络的静音检测方法的实现流程图。本实施例中,基于神经网络的静音检测方法的执行主体为终端设备。终端设备包括但不限于智能手机、平板电脑或台式电脑。如图1所示的基于神经网络的静音检测方法包括以下步骤:
S1:基于预设采样频率对待检测的原始音频信号进行采样,得到所述原始音频信号对应的采样信号。
待检测的原始音频信号为模拟音频信号,其通常通过麦克风采集得到。在对原始音频信号进行静音检测时,需要先将原始音频信号转换为数字音频信号。本发明实施例中,终端设备可以基于预设采样频率对待检测的原始音频信号进行采样,进而得到原始音频信号对应的采样信号。其中,采样信号为数字音频信号,采样信号的长度与原始音频信号的时长及预设采样频率有关,采样信号的长度用于标识采样信号所包含的采样点的个数。具体的,采样信号的长度N=t×f,其中,t为原始音频信号的时长,f为预设采样频率,N为正整数,也就是说,基于预设采样频率f对时长为t秒的原始音频信号进行采样得到的采样信号是一个长度为t×f的音频序列。在实际应用中,预设采样频率可以根据实际需求设置,此处不做限制。
S2:基于预设感受野长度对所述采样信号进行分帧处理,得到至少两帧音频子序列。
本发明实施例中,预设感受野长度指对采样信号进行分帧处理时所依据的单帧帧长,也就是说,基于预设感受野长度对采样信号进行分帧处理得到的每帧音频子序列的长度与预设感受野长度相等。预设感受野长度可根据实际需求设置,此处不做限制,例如,预设感受野长度可以为T。
由于本发明实施例在后续步骤中需要对分帧处理得到的每帧音频子序列均进行相同的处理,因此需保证对采样信号进行分帧处理得到的每帧音频子序列的长度均与预设感受野长度相等,这就需要保证采样信号的长度是预设感受野长度的整数倍,而实际应用中,采样信号的长度并不都是预设感受野长度的整数倍,因此,本发明实施例中,终端设备在对采样信号进行分帧处理之前,还检测采样信号的长度是否是预设感受野长度的整数倍。
作为本发明一实施例,终端设备若检测到采样信号的长度不是预设感受野长度的整数倍,则基于预设长度调整策略对采样信号的长度进行调整,以使采样信号的长度为预设感受野长度的整数倍。其中,预设长度调整策略可以根据实际需求设置,示例性的,预设长度调整策略可以是:对采样信号进行补0处理,直至采样信号的长度为预设感受野长度的整数倍。实际应用中,对采样信号进行补0处理具体可以为:在采样信号对应的音频序列之前或之后补0。
终端设备将采样信号的长度调整为预设感受野长度的整数倍后,基于预设感受野长度对调整了长度后的采样信号进行分帧处理,得到至少两帧音频子序列,每帧音频子序列的长度为T,即每帧音频子序列由T个采样值构成。本发明实施例中,假设对采样信号进行长度调整时在采样信号对应的音频序列中添加了n个0,则对调整了长度后的采样信号进行分帧处理后得到的音频子序列的个数m=(t×f+n)/T。
S3:将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值;所述静音检测模型为一维卷积神经网络模型,所述音频子序列的特征值用于表征所述音频子序列对应的音频段为语音信号的概率,所述特征值为一维数值。
静音检测模型是基于预设样本集,采用深度学习算法对预先构建的一维卷积神经网络模型进行训练得到的。需要说明的是,本发明实施例所述的一维卷积神经网络模型的输入值及中间处理值均为一维数组,一维卷积神经网络模型的输出值为一维数值。
预设样本集中的每条样本数据均由长度为T的音频子序列及该音频子序列对应的特征值构成。音频子序列的特征值用于表征该音频子序列对应的音频段为语音信号的概率。例如,若某一音频子序列对应的音频信号为语音信号,则可以将该音频子序列的特征值设为1,若某一音频子序列对应的音频信号为噪声信号,则可以将该音频子序列的特征值设为0。需要说明的是,音频子序列对应的音频段用于表征音频子序列在原始音频信号中所对应的音频片段。
本发明实施例中,一维卷积神经网络模型包括输入层、隐藏层及输出层。其中,输入层包括T个输入节点,用于分别接收音频子序列所包含的T个采样值;隐藏层由L层级联的降维网络构成,每层降维网络均配置有一个用于对音频子序列进行降维处理的第一卷积核,第一卷积核为一维数组,其长度小于音频子序列的长度,本实施例中,第一卷积核的步长可以与第一卷积核的长度相等;输出层配置有一个用于对隐藏层输出的卷积处理后的音频子序列进行降维处理的第二卷积核,第二卷积核也为一维数组,第二卷积核的长度与隐藏层输出的音频子序列的长度相等。
在基于预设样本集对预先构建的一维卷积神经网络模型进行训练时,将预设样本集中每条样本数据包含的长度为T的音频子序列作为一维卷积神经网络模型的输入,将每条样本数据包含的音频子序列的特征值作为一维卷积神经网络模型的输出,进而对一维卷积神经网络模型进行训练。在对一维卷积神经网络模型进行训练的过程中,终端设备可以在一维卷积神经网络模型的隐藏层学习到各层降维网络的第一卷积核的卷积核参数,在一维卷积神经网络模型的输出层学习到第二卷积核的卷积核参数。卷积核参数指卷积核所包含的各个元素的值。在完成对一维卷积神经网络模型的训练后,终端设备将训练完成的一维卷积神经网络模型确定为静音检测模型,也就是说,本发明实施例中的静音检测模型包括输入层、隐藏层及输出层。
本发明实施例中,终端设备对采样信号进行分帧处理得到至少两帧音频子序列后,将所有音频子序列均输入至预先训练好的静音检测模型,得到每一音频子序列的特征值。
具体的,作为本发明一实施例,S3具体可以通过如图2所示的S31~S33来实现,详述如下:
S31:通过所述静音检测模型的输入层包含的T个输入节点分别接收所述音频子序列包含的T个采样值。
终端设备将分帧处理得到的音频子序列输入至预先训练好的静音检测模型后,通过静音检测模型的输入层包含的T个输入节点分别接收音频子序列包含的T个采样值,并将接收到的音频子序列输入至静音检测模型的隐藏层。
S32:在所述静音检测模型的隐藏层中,依次基于每层所述降维网络的第一卷积核对每层所述降维网络接收到的音频子序列进行卷积处理,在第L层所述降维网络中得到所述音频子序列的特征数组。
本实施例中,终端设备将在静音检测模型的输入层接收到的音频子序列输入至静音检测模型的隐藏层后,在静音检测模型的隐藏层中,依次基于每层降维网络的第一卷积核对每层降维网络接收到的音频子序列进行卷积处理,在第L层降维网络中得到音频子序列的特征数组。
终端设备在静音检测模型的隐藏层中,依次基于每层降维网络的第一卷积核对每层降维网络接收到的音频子序列进行卷积处理,具体包括以下步骤:在隐藏层包含的第1层降维网络中基于第1层降维网络的第一卷积核对输入层输出的音频子序列进行卷积处理,将卷积处理后的音频子序列输入至第2层降维网络中;在第2层降维网络中基于第2层降维网络的第一卷积核对第1层降维网络输出的卷积处理后的音频子序列再次进行卷积处理,将再次卷积处理后的音频子序列输入至第3层降维网络中,以此类推,最终,在隐藏层的第L层降维网络中基于第L层降维网络的第一卷积核对第L-1层输出的卷积处理后的音频子序列进行卷积处理后,即得到音频子序列的特征数组。需要说明的是,音频子序列特征数组的长度远小于音频子序列的长度。
需要说明的是,由于输入至静音检测模型的音频子序列的长度是确定的,因此,在实际应用中,可根据实际需求对隐藏层所包含的降维网络的层数、每层降维网络的第一卷积核的长度及步长进行灵活设置,使得第L层降维网络最终输出的特征数组的长度是确定的,进而也可基于音频子序列的特征数组的长度确定输出层所包含的第二卷积核的长度及步长。
作为本发明一实施例,第一卷积核的长度与步长相等,且每层降维网络接收到的音频子序列的长度为该层的第一卷积核的长度的整数倍,基于此,S32具体可以包括以下步骤:
在所述静音检测模型的隐藏层中,依次基于第一预设卷积公式对每层所述降维网络接收到的音频子序列进行卷积处理;所述第一预设卷积公式为:
其中,Audioi为第i层所述降维网络待输出的音频子序列,i={1,2,…,L},Kernelij为第i层所述降维网络的第一卷积核中第j个元素的值,ki为Kernelij的长度,Audio(i-1)j为第i-1层所述降维网络输出的音频子序列包含的第j个音频元素的值,为第i-1层所述降维网络输出的音频子序列包含的第j+ki个音频元素的值,为第i-1层所述降维网络输出的音频子序列包含的第个音频元素的值,ai-1为第i-1层所述降维网络输出的音频子序列的长度;
将第L层所述降维网络输出的卷积处理后的所述音频子序列确定为所述音频子序列的特征数组。
本发明实施例中,隐藏层的第1层降维网络接收到的音频子序列为输入层输出的音频子序列,隐藏层的第2层至第L层降维网络接收到的音频子序列均为其上一层降维网络输出的进行卷积处理后的音频子序列。
示例性的,假设隐藏层的第1层降维网络接收到的音频子序列为Audio0=[0.1,0.7,-0.3,0.9,0.6,-0.4,0.85,0.5],第1层降维网络的第一卷积核Kernel1=[0.6,0.8],则在第1层降维网络中基于第一预设卷积公式对接收到的音频子序列进行处理得到的待输出的音频子序列
终端设备在隐藏层的第L层降维网络中得到音频子序列的特征数组后,将音频子序列的特征数组输入至静音检测模型的输出层。
S33:在所述静音检测模型的输出层基于第二卷积核对所述音频子序列的特征数组进行卷积处理,得到所述音频子序列的特征值。
本实施例中,终端设备在输出层中基于第二卷积核对隐藏层输出的音频子序列的特征数组进行卷积处理,得到音频子序列的特征值。需要说明的是,由于输出层的第二卷积核的长度与隐藏层输出的音频子序列的特征数组的长度相等,因此,通过第二卷积核对音频子序列的特征数组进行卷积处理后得到的音频子序列的特征值为一个一维数值。
作为本发明一实施例,S33可以通过以下步骤实现:
在所述输出层中基于第二预设卷积公式对所述音频子序列的特征数组进行卷积处理,得到所述音频子序列的特征值;所述第二预设卷积公式为:
其中,Audiofinal为所述音频子序列的特征值,afinal为所述音频子序列的特征数组的长度,Kernelj为所述第二卷积核中第j个元素的值,Audioj为所述音频子序列的特征数组中第j个音频元素的值。
示例性的,假设终端设备在隐藏层的第L层降维网络中得到的音频子序列的特征数组Audio=[-0.47,-0.38],第二卷积核Kernelj=[-0.9,0.2],则在输出层基于第二预设卷积公式对音频子序列的特征数组进行卷积处理得到的音频子序列的特征值Audiofinal=-0.9×(-0.47)+0.2×(-0.38)=0.35。
S4:若所述音频子序列的特征值大于或等于预设特征值阈值,则确定所述音频子序列对应的音频段为语音信号。
本发明实施例中,终端设备计算得到每一音频子序列的特征值后,将每一音频子序列的特征值与预设特征值阈值进行比较。终端设备若检测到某一音频子序列的特征值大于或等于预设特征值阈值,则确定该音频子序列对应的音频段为语音信号。其中,预设特征值阈值可根据实际需求设置,此处不做限制。
作为本发明另一实施例,如图3所示,在S3之后,基于神经网络的静音检测方法还可以包括S5。详述如下:
S5:若所述音频子序列的特征值小于预设特征值阈值,则确定所述音频子序列对应的音频段为噪声信号。
本实施例中,终端设备若检测到某一音频子序列的特征值小于预设特征值阈值,则确定该音频子序列对应的音频段为噪声信号。
以上可以看出,本发明实施例基于预设采样频率对原始音频信号进行采样,并基于预设感受野长度对采样得到的采样信号进行分帧处理,得到至少量帧音频子序列,通过采用预先训练好的静音检测模型对音频子序列进行降维处理,最终将音频子序列转换为一个一维数值,并基于该一维数值与预设特征值阈值之间的大小关系,确定该音频子序列对应的音频段是否为语音信号。本发明实施例在对原始音频信号进行静音检测时,无需将原始音频信号进行时域到频域的转换,只需在时域将其转换为数字音频信号即可,从而简化了静音检测流程,提高了静音检测的效率,且由于静音检测模型是训练得到的,因而在训练过程中可以不断对静音检测模型包含的各项参数进行优化,从而能够提高静音检测的准确率。
请参阅图4,图4是本发明实施例提供的一种终端设备的结构框图。本实施例中的终端设备可以是智能手机、平板电脑等终端设备。该终端设备包括的各单元用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,终端设备400包括:第一采样单元41、第一音频处理单元42、特征值计算单元43及静音检测单元44。其中:
第一采样单元41,用于基于预设采样频率对待检测的原始音频信号进行采样,得到所述原始音频信号对应的采样信号;
第一音频处理单元42,用于基于预设感受野长度对所述采样信号进行分帧处理,得到至少两帧音频子序列;
特征值计算单元43,用于将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值;所述静音检测模型为一维卷积神经网络模型,所述音频子序列的特征值用于表征所述音频子序列对应的音频段为语音信号的概率,所述特征值为一维数值;
静音检测单元44,用于若所述音频子序列的特征值大于或等于预设特征值阈值,则确定所述音频子序列对应的音频段为语音信号。
作为本发明一实施例,每帧所述音频子序列包含T个采样值;所述静音检测模型包括输入层、隐藏层及输出层,所述输入层包含T个输入节点,所述隐藏层由L层级联的降维网络构成,每层所述降维网络均配置有第一卷积核;特征值计算单元43具体包括:第一接收单元、第一计算单元及第二计算单元。其中:
第一接收单元用于通过所述静音检测模型的输入层包含的T个输入节点分别接收所述音频子序列包含的T个采样值。
第一计算单元用于在所述静音检测模型的隐藏层中,依次基于每层所述降维网络的第一卷积核对每层所述降维网络接收到的音频子序列进行卷积处理,在第L层所述降维网络中得到所述音频子序列的特征数组。
第二计算单元用于在所述静音检测模型的输出层基于第二卷积核对所述音频子序列的特征数组进行卷积处理,得到所述音频子序列的特征值。
作为本发明一实施例,所述第一卷积核的长度与其步长相等,每层所述降维网络接收到的音频子序列的长度为该层的第一卷积核的长度的整数倍;所述第一计算单元具体用于:
在所述静音检测模型的隐藏层中,依次基于第一预设卷积公式对每层所述降维网络接收到的音频子序列进行卷积处理;所述第一预设卷积公式为:
其中,Audioi为第i层所述降维网络待输出的音频子序列,i={1,2,…,L},Kernelij为第i层所述降维网络的第一卷积核中第j个元素的值,ki为Kernelij的长度,Audio(i-1)j为第i-1层所述降维网络输出的音频子序列包含的第j个音频元素的值,为第i-1层所述降维网络输出的音频子序列包含的第j+ki个音频元素的值,为第i-1层所述降维网络输出的音频子序列包含的第个音频元素的值,ai-1为第i-1层所述降维网络输出的音频子序列的长度;
将第L层所述降维网络输出的卷积处理后的所述音频子序列确定为所述音频子序列的特征数组。
作为本发明一实施例,所述第二卷积核的长度与所述音频子序列的特征数组的长度相等;所述第二计算单元具体用于:
在所述输出层中基于第二预设卷积公式对所述音频子序列的特征数组进行卷积处理,得到所述音频子序列的特征值;所述第二预设卷积公式为:
其中,Audiofinal为所述音频子序列的特征值,afinal为所述音频子序列的特征数组的长度,Kernelj为所述第二卷积核中第j个元素的值,Audioj为所述音频子序列的特征数组中第j个音频元素的值。
作为本发明一实施例,静音检测单元44还用于若所述音频子序列的特征值小于预设特征值阈值,则确定所述音频子序列对应的音频段为噪声信号。
以上可以看出,本实施例提供的终端设备基于预设采样频率对原始音频信号进行采样,并基于预设感受野长度对采样得到的采样信号进行分帧处理,得到至少量帧音频子序列,通过采用预先训练好的静音检测模型对音频子序列进行降维处理,最终将音频子序列转换为一个一维数值,并基于该一维数值与预设特征值阈值之间的大小关系,确定该音频子序列对应的音频段是否为语音信号。本发明实施例在对原始音频信号进行静音检测时,无需将原始音频信号进行时域到频域的转换,只需在时域将其转换为数字音频信号即可,从而简化了静音检测流程,提高了静音检测的效率,且由于静音检测模型是训练得到的,因而在训练过程中可以不断对静音检测模型包含的各项参数进行优化,从而能够提高静音检测的准确率。
图5是本发明另一实施例提供的一种终端设备的结构框图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如基于神经网络的静音检测方法的程序。处理器50执行所述计算机程序52时实现上述各个基于神经网络的静音检测方法各实施例中的步骤,例如图1所示的S1至S4。或者,所述处理器50执行所述计算机程序52时实现上述图4对应的实施例中各单元的功能,例如,图4所示的单元41至44的功能,具体请参阅图4对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序52可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。例如,所述计算机程序52可以被分割成第一采样单元、第一音频处理单元、特征值计算单元及静音检测单元,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于神经网络的静音检测方法,其特征在于,包括:
基于预设采样频率对待检测的原始音频信号进行采样,得到所述原始音频信号对应的采样信号;
基于预设感受野长度对所述采样信号进行分帧处理,得到至少两帧音频子序列;
将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值;所述静音检测模型为一维卷积神经网络模型,所述音频子序列的特征值用于表征所述音频子序列对应的音频段为语音信号的概率,所述特征值为一维数值;
若所述音频子序列的特征值大于或等于预设特征值阈值,则确定所述音频子序列对应的音频段为语音信号。
2.根据权利要求1所述的静音检测方法,其特征在于,每帧所述音频子序列包含T个采样值;所述静音检测模型包括输入层、隐藏层及输出层,所述输入层包含T个输入节点,所述隐藏层由L层级联的降维网络构成,每层所述降维网络均配置有第一卷积核;
所述将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值,包括:
通过所述静音检测模型的输入层包含的T个输入节点分别接收所述音频子序列包含的T个采样值;
在所述静音检测模型的隐藏层中,依次基于每层所述降维网络的第一卷积核对每层所述降维网络接收到的音频子序列进行卷积处理,在第L层所述降维网络中得到所述音频子序列的特征数组;
在所述静音检测模型的输出层基于第二卷积核对所述音频子序列的特征数组进行卷积处理,得到所述音频子序列的特征值。
3.根据权利要求2所述的静音检测方法,其特征在于,所述第一卷积核的长度与其步长相等,每层所述降维网络接收到的音频子序列的长度为该层的第一卷积核的长度的整数倍;
所述在所述静音检测模型的隐藏层中,依次基于每层所述降维网络的第一卷积核对每层所述降维网络接收到的音频子序列进行卷积处理,在第L层所述降维网络中得到所述音频子序列的特征数组,包括:
在所述静音检测模型的隐藏层中,依次基于第一预设卷积公式对每层所述降维网络接收到的音频子序列进行卷积处理;所述第一预设卷积公式为:
其中,Audioi为第i层所述降维网络待输出的音频子序列,i={1,2,…,L},Kernelij为第i层所述降维网络的第一卷积核中第j个元素的值,ki为Kernelij的长度,Audio(i-1)j为第i-1层所述降维网络输出的音频子序列包含的第j个音频元素的值,为第i-1层所述降维网络输出的音频子序列包含的第j+ki个音频元素的值,为第i-1层所述降维网络输出的音频子序列包含的第个音频元素的值,ai-1为第i-1层所述降维网络输出的音频子序列的长度;
将第L层所述降维网络输出的卷积处理后的所述音频子序列确定为所述音频子序列的特征数组。
4.根据权利要求2所述的静音检测方法,其特征在于,所述第二卷积核的长度与所述音频子序列的特征数组的长度相等;
所述在所述静音检测模型的输出层基于第二卷积核对所述音频子序列的特征数组进行卷积处理,得到所述音频子序列的特征值,包括:
在所述输出层中基于第二预设卷积公式对所述音频子序列的特征数组进行卷积处理,得到所述音频子序列的特征值;所述第二预设卷积公式为:
其中,Audiofinal为所述音频子序列的特征值,afinal为所述音频子序列的特征数组的长度,Kernelj为所述第二卷积核中第j个元素的值,Audioj为所述音频子序列的特征数组中第j个音频元素的值。
5.根据权利要求1-4任一项所述的静音检测方法,其特征在于,所述将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值之后,还包括:
若所述音频子序列的特征值小于预设特征值阈值,则确定所述音频子序列对应的音频段为噪声信号。
6.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
基于预设采样频率对待检测的原始音频信号进行采样,得到所述原始音频信号对应的采样信号;
基于预设感受野长度对所述采样信号进行分帧处理,得到至少两帧音频子序列;
将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值;所述静音检测模型为一维卷积神经网络模型,所述音频子序列的特征值用于表征所述音频子序列对应的音频段为语音信号的概率,所述特征值为一维数值;
若所述音频子序列的特征值大于或等于预设特征值阈值,则确定所述音频子序列对应的音频段为语音信号。
7.根据权利要求6所述的终端设备,其特征在于,每帧所述音频子序列包含T个采样值;所述静音检测模型包括输入层、隐藏层及输出层,所述输入层包含T个输入节点,所述隐藏层由L层级联的降维网络构成,每层所述降维网络均配置有第一卷积核;
所述将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值,包括:
通过所述静音检测模型的输入层包含的T个输入节点分别接收所述音频子序列包含的T个采样值;
在所述静音检测模型的隐藏层中,依次基于每层所述降维网络的第一卷积核对每层所述降维网络接收到的音频子序列进行卷积处理,在第L层所述降维网络中得到所述音频子序列的特征数组;
在所述静音检测模型的输出层基于第二卷积核对所述音频子序列的特征数组进行卷积处理,得到所述音频子序列的特征值。
8.根据权利要求7所述的终端设备,其特征在于,所述第一卷积核的长度与其步长相等,每层所述降维网络接收到的音频子序列的长度为该层的第一卷积核的长度的整数倍;
所述在所述静音检测模型的隐藏层中,依次基于每层所述降维网络的第一卷积核对每层所述降维网络接收到的音频子序列进行卷积处理,在第L层所述降维网络中得到所述音频子序列的特征数组,包括:
在所述静音检测模型的隐藏层中,依次基于第一预设卷积公式对每层所述降维网络接收到的音频子序列进行卷积处理;所述第一预设卷积公式为:
其中,Audioi为第i层所述降维网络待输出的音频子序列,i={1,2,…,L},Kernelij为第i层所述降维网络的第一卷积核中第j个元素的值,ki为Kernelij的长度,Audio(i-1)j为第i-1层所述降维网络输出的音频子序列包含的第j个音频元素的值,为第i-1层所述降维网络输出的音频子序列包含的第j+ki个音频元素的值,为第i-1层所述降维网络输出的音频子序列包含的第个音频元素的值,ai-1为第i-1层所述降维网络输出的音频子序列的长度;
将第L层所述降维网络输出的卷积处理后的所述音频子序列确定为所述音频子序列的特征数组。
9.一种终端设备,其特征在于,包括:
第一采样单元,用于基于预设采样频率对待检测的原始音频信号进行采样,得到所述原始音频信号对应的采样信号;
第一音频处理单元,用于基于预设感受野长度对所述采样信号进行分帧处理,得到至少两帧音频子序列;
特征值计算单元,用于将所述音频子序列输入至预先训练好的静音检测模型,得到所述音频子序列的特征值;所述静音检测模型为一维卷积神经网络模型,所述音频子序列的特征值用于表征所述音频子序列对应的音频段为语音信号的概率,所述特征值为一维数值;
静音检测单元,用于若所述音频子序列的特征值大于或等于预设特征值阈值,则确定所述音频子序列对应的音频段为语音信号。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201910226470.2A 2019-03-25 2019-03-25 一种基于神经网络的静音检测方法、终端设备及介质 Pending CN110010153A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910226470.2A CN110010153A (zh) 2019-03-25 2019-03-25 一种基于神经网络的静音检测方法、终端设备及介质
PCT/CN2019/103149 WO2020192009A1 (zh) 2019-03-25 2019-08-29 一种基于神经网络的静音检测方法、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910226470.2A CN110010153A (zh) 2019-03-25 2019-03-25 一种基于神经网络的静音检测方法、终端设备及介质

Publications (1)

Publication Number Publication Date
CN110010153A true CN110010153A (zh) 2019-07-12

Family

ID=67167950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910226470.2A Pending CN110010153A (zh) 2019-03-25 2019-03-25 一种基于神经网络的静音检测方法、终端设备及介质

Country Status (2)

Country Link
CN (1) CN110010153A (zh)
WO (1) WO2020192009A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181949A (zh) * 2019-12-25 2020-05-19 视联动力信息技术股份有限公司 一种声音检测方法、装置、终端设备和存储介质
WO2020192009A1 (zh) * 2019-03-25 2020-10-01 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质
WO2022143768A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 语音识别方法及装置
CN116469413A (zh) * 2023-04-03 2023-07-21 广州市迪士普音响科技有限公司 一种基于人工智能的压缩音频静默检测方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116417015B (zh) * 2023-04-03 2023-09-12 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170092297A1 (en) * 2015-09-24 2017-03-30 Google Inc. Voice Activity Detection
CN107393526A (zh) * 2017-07-19 2017-11-24 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质
US20180075343A1 (en) * 2016-09-06 2018-03-15 Google Inc. Processing sequences using convolutional neural networks
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN109036459A (zh) * 2018-08-22 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法、装置、计算机设备、计算机存储介质
CN109378016A (zh) * 2018-10-10 2019-02-22 四川长虹电器股份有限公司 一种基于vad的关键词识别标注方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1315917B1 (it) * 2000-05-10 2003-03-26 Multimedia Technologies Inst M Metodo di rivelazione di attivita' vocale e metodo per lasegmentazione di parole isolate, e relativi apparati.
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN105427870B (zh) * 2015-12-23 2019-08-30 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
US10249292B2 (en) * 2016-12-14 2019-04-02 International Business Machines Corporation Using long short-term memory recurrent neural network for speaker diarization segmentation
CN108428448A (zh) * 2017-02-13 2018-08-21 芋头科技(杭州)有限公司 一种语音端点检测方法及语音识别方法
CN109036467B (zh) * 2018-10-26 2021-04-16 南京邮电大学 基于tf-lstm的cffd提取方法、语音情感识别方法及系统
CN109146066A (zh) * 2018-11-01 2019-01-04 重庆邮电大学 一种基于语音情感识别的虚拟学习环境自然交互方法
CN110010153A (zh) * 2019-03-25 2019-07-12 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170092297A1 (en) * 2015-09-24 2017-03-30 Google Inc. Voice Activity Detection
US20180075343A1 (en) * 2016-09-06 2018-03-15 Google Inc. Processing sequences using convolutional neural networks
CN107393526A (zh) * 2017-07-19 2017-11-24 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN109036459A (zh) * 2018-08-22 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法、装置、计算机设备、计算机存储介质
CN109378016A (zh) * 2018-10-10 2019-02-22 四川长虹电器股份有限公司 一种基于vad的关键词识别标注方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JONGPIL LEE等: "《SAMPLE-LEVEL DEEP CONVOLUTIONAL NEURAL NETWORKS FOR》", 《ARXIV》 *
JONGPIL LEE等: "《SAMPLE-LEVEL DEEP CONVOLUTIONAL NEURAL NETWORKS FOR》", 《ARXIV》, 22 May 2017 (2017-05-22), pages 1 - 7 *
WEI DAI等: "《Very deep convolutional neural networks for raw waveforms》", 《 2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, 17 June 2017 (2017-06-17), pages 421 - 425 *
许庆勇: "《基于深度学习理论的纹身图像识别与检测研究》", 华中科技大学出版社, pages: 42 - 46 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020192009A1 (zh) * 2019-03-25 2020-10-01 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质
CN111181949A (zh) * 2019-12-25 2020-05-19 视联动力信息技术股份有限公司 一种声音检测方法、装置、终端设备和存储介质
CN111181949B (zh) * 2019-12-25 2023-12-12 视联动力信息技术股份有限公司 一种声音检测方法、装置、终端设备和存储介质
WO2022143768A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 语音识别方法及装置
CN116469413A (zh) * 2023-04-03 2023-07-21 广州市迪士普音响科技有限公司 一种基于人工智能的压缩音频静默检测方法及装置
CN116469413B (zh) * 2023-04-03 2023-12-01 广州市迪士普音响科技有限公司 一种基于人工智能的压缩音频静默检测方法及装置

Also Published As

Publication number Publication date
WO2020192009A1 (zh) 2020-10-01

Similar Documents

Publication Publication Date Title
CN110010153A (zh) 一种基于神经网络的静音检测方法、终端设备及介质
CN107703486B (zh) 一种基于卷积神经网络cnn的声源定位方法
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN109065027B (zh) 语音区分模型训练方法、装置、计算机设备及存储介质
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
CN108962237A (zh) 混合语音识别方法、装置及计算机可读存储介质
CN109272988B (zh) 基于多路卷积神经网络的语音识别方法
CN105321525B (zh) 一种降低voip通信资源开销的系统和方法
CN110223680A (zh) 语音处理方法、识别方法及其装置、系统、电子设备
CN110390952B (zh) 基于双特征2-DenseNet并联的城市声音事件分类方法
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN110853630B (zh) 面向边缘计算的轻量级语音识别方法
Wang et al. Recurrent deep stacking networks for supervised speech separation
CN113191178B (zh) 一种基于听觉感知特征深度学习的水声目标识别方法
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
US11282514B2 (en) Method and apparatus for recognizing voice
CN108877783A (zh) 确定音频数据的音频类型的方法和装置
CN110364185A (zh) 一种基于语音数据的情绪识别方法、终端设备及介质
Hasannezhad et al. PACDNN: A phase-aware composite deep neural network for speech enhancement
Lim et al. Weakly labeled semi-supervised sound event detection using CRNN with inception module.
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
Dong et al. A time-frequency network with channel attention and non-local modules for artificial bandwidth extension
CN113921041A (zh) 基于分组卷积注意力网络的录音设备识别方法及系统
CN116753471A (zh) 供水管道泄漏多域特征提取与融合辨识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190712