CN113113001A - 人声激活检测方法、装置、计算机设备和存储介质 - Google Patents
人声激活检测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113113001A CN113113001A CN202110425564.XA CN202110425564A CN113113001A CN 113113001 A CN113113001 A CN 113113001A CN 202110425564 A CN202110425564 A CN 202110425564A CN 113113001 A CN113113001 A CN 113113001A
- Authority
- CN
- China
- Prior art keywords
- voice
- frame
- training
- activation detection
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 109
- 230000004913 activation Effects 0.000 title claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 122
- 238000012549 training Methods 0.000 claims abstract description 89
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- VOCBWIIFXDYGNZ-IXKNJLPQSA-N testosterone enanthate Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H](OC(=O)CCCCCC)[C@@]1(C)CC2 VOCBWIIFXDYGNZ-IXKNJLPQSA-N 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 11
- 230000000875 corresponding effect Effects 0.000 description 62
- 230000008569 process Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 206010041235 Snoring Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种人声激活检测方法、装置、计算机设备和存储介质,其中方法包括:实时采集语音数据;提取所述语音数据中每一帧音频数据对应的语音特征向量;依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,所述预设的人声激活检测模型基于时延神经网络训练得到,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声,不仅检测速度快,且模型结合了当前帧及其上下文的语音,检测效果好。
Description
技术领域
本申请涉及语音识别技术领域,特别涉及一种人声激活检测方法、装置、计算机设备和存储介质。
背景技术
传统的VAD(voice activity detection,声音激活检测)算法作为一个前端监测模块,常用于实时唤醒系统以及实时语音识别等系统中,用于过滤实时录音数据,减少后续模型不必要的计算。但是,目前的VAD算法只能检测环境中有没有声音,无法区分这个声音是不是后续模型需要的声音,即无法区分人声和非人声。
发明内容
本申请的主要目的为提供一种人声激活检测方法、装置、计算机设备和存储介质,旨在克服目前无法检测环境中是否有人声的缺陷。
为实现上述目的,本申请提供了一种人声激活检测方法,包括以下步骤:
实时采集语音数据;所述语音数据包括多帧音频数据;
提取所述语音数据中每一帧音频数据对应的语音特征向量;
依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;
基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。
进一步地,所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层;
所述基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声的步骤,包括:
将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算,得到第一中间特征向量;
将所述第一中间特征向量输入至所述第二卷积层进行卷积运算,得到第二中间特征向量;
将所述第二中间特征向量输入至所述第三卷积层进行卷积运算,得到第三中间特征向量;
将所述第三中间特征向量输入至所述分类层中进行分类,得出所述预设帧音频数据中是否包括人声的检测结果。
进一步地,所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络;其中,所述第一卷积层的dilate=1,context=3,所述第二卷积层的dilate=3,context=3,所述第三卷积层的dilate=3,context=15。
进一步地,所述实时采集语音数据的步骤之前,还包括:
获取训练数据;所述训练数据包括多帧训练音频,所述训练数据为带噪的音频文件;
提取每一帧训练音频对应的训练特征向量;
依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练,得到所述人声激活检测模型。
进一步地,所述获取训练数据的步骤,包括:
获取干净的人声语音;其中,所述干净的人声语音为不包括噪声以及混响的语音;
基于预设的语音识别模型检测所述干净的人声语音中每个字对应的音频帧;
将所述干净的人声语音中每个字对应的音频帧标注为第一标签,将其余的音频帧标注为第二标签;
对标注后的所述干净的人声语音进行加噪以及加混响处理,得到所述训练数据。
本申请还提供了一种人声激活检测装置,包括:
采集单元,用于实时采集语音数据;所述语音数据包括多帧音频数据;
第一提取单元,用于提取所述语音数据中每一帧音频数据对应的语音特征向量;
第一输入单元,用于依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;
检测单元,用于基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。
进一步地,所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层;
所述检测单元,具体用于:
将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算,得到第一中间特征向量;
将所述第一中间特征向量输入至所述第二卷积层进行卷积运算,得到第二中间特征向量;
将所述第二中间特征向量输入至所述第三卷积层进行卷积运算,得到第三中间特征向量;
将所述第三中间特征向量输入至所述分类层中进行分类,得出所述预设帧音频数据中是否包括人声的检测结果。
进一步地,还包括:
获取单元,用于获取训练数据;所述训练数据包括多帧训练音频,所述训练数据为带噪的音频文件;
第二提取单元,用于提取每一帧训练音频对应的训练特征向量;
训练单元,用于依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练,得到所述人声激活检测模型。
进一步地,所述获取单元,具体包括:
获取干净的人声语音;其中,所述干净的人声语音为不包括噪声以及混响的语音;
基于预设的语音识别模型检测所述干净的人声语音中每个字对应的音频帧;
将所述干净的人声语音中每个字对应的音频帧标注为第一标签,将其余的音频帧标注为第二标签;
对标注后的所述干净的人声语音进行加噪以及加混响处理,得到所述训练数据。
进一步地,所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络;其中,所述第一卷积层的dilate=1,context=3,所述第二卷积层的dilate=3,context=3,所述第三卷积层的dilate=3,context=15。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的人声激活检测方法、装置、计算机设备和存储介质,包括:实时采集语音数据;提取所述语音数据中每一帧音频数据对应的语音特征向量;依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,所述预设的人声激活检测模型基于时延神经网络训练得到,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声,不仅检测速度快,且模型结合了当前帧及其上下文的语音,检测效果好。
附图说明
图1是本申请一实施例中人声激活检测方法步骤示意图;
图2是本申请一实施例中人声激活检测装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例在提供了一种人声激活检测方法,包括以下步骤:
步骤S1,实时采集语音数据;所述语音数据包括多帧音频数据;
步骤S2,提取所述语音数据中每一帧音频数据对应的语音特征向量;
步骤S3,依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,所述预设的人声激活检测模型基于时延神经网络训练得到,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;
步骤S4,基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。
在本实施例中,上述人声激活检测方法应用于实时检测环境语音中是否包括人声。上述人声激活检测(speech activity detection,SAD)是相对于“声音激活检测”而言,目前的声音激活检测只能检测环境中是否有声音,而无法区分人声以及非人声;而本实施例中的人声激活检测即是为了区分人声以及非人声。
如上述步骤S1所述的,实时采集环境中的语音数据,环境中可能包括人声、汽车声音、雨声等等。在本实施例中,只将清楚说话的声音作为人声,而其它声音均作为噪声数据,例如人的咳嗽、哼唱、鼾声、呻吟、狗叫声等等均作为噪声。
如上述步骤S2所述的,为了将语音数据输入至人声激活检测模型中进行运算,需要将上述每一帧音频数据都转换为对应的语音特征向量;具体地,可以采用傅里叶变换的方式进行语音特征向量的提取,在此不进行赘述。
由于音频特征为40维的FBank,因此上述每一帧音频数据(0.02*16000=320点)转化为1X 40的语音特征向量。
如上述步骤S3-S4所述的,上述预设的人声激活检测模型预先基于时延神经网络训练得到,将预设帧的音频数据对应的语音特征向量输入至预设的人声激活检测模型中进行人声检测,从而基于上述人声激活检测模型检测上述实时采集的语音数据中是否包括人声。
其中,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量。即在本实施例中,进行人声激活检测时,不仅仅是输入当前帧音频数据对应的语音特征向量,还需要结合上下文的音频数据对应的语音特征向量。这是因为语音的特征前后帧之间是相关的,在处理语音数据时,需要结合上下文的语音信息;本实施例中的时延神经网络是用于语音识别中的一种结合上下文信息进行预测的神经网络,预测每一帧数据时,输入为当前帧的前面几帧数据,当前帧数据以及未来几帧的数据。之所以叫时延就是因为需要等待未来几帧的数据,因此由于“时延”机制,预测的要比实际的慢几十毫秒。
在一实施例中,上述预设帧为20-30帧,可取一个值为23。
具体地,正常语速情况下,一个字的发音持续时间在200-300ms之间,以20ms为一帧数据的窗长,10ms为一帧数据的步长,则一个字的发音帧数在20-30帧之间,取其中的一个值23为例,则上述人声激活检测模型一次输入23帧的音频数据对应的语音特征向量进行计算;此23帧音频数据对应的语音特征向量对应给出一个是否包括人声的检测结果。
在一实施例中,所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层;
所述基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声的步骤S4,包括:
将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算,得到第一中间特征向量;
将所述第一中间特征向量输入至所述第二卷积层进行卷积运算,得到第二中间特征向量;
将所述第二中间特征向量输入至所述第三卷积层进行卷积运算,得到第三中间特征向量;
将所述第三中间特征向量输入至所述分类层中进行分类,得出所述预设帧音频数据中是否包括人声的检测结果。
在本实施例中,所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络;该网络通过不同的dialted系数来控制上下文信息的范围。其中,所述第一卷积层的dilate=1,context=3,所述第二卷积层的dilate=3,context=3,所述第三卷积层的dilate=3,context=15。
具体地,得益于上述第一卷积层、第二卷积层、第三卷积层的网络结构,对上述预设帧音频数据对应的语音特征向量进行多层的特征提取,并且使得提取出的特征向量的帧数逐渐下降,最终只输出一帧的特征向量(即上述第三中间特征向量)至分类层中进行分类,通过上述网络结构,不仅使得提取特征向量的过程中可以结合上下文信息,有能力表达语音特征向量在时间上的关系;而且网络是多层的,每层对语音特征有较强的抽象能力,经过多层提取,对特征向量的提取深度更深,有益于特征向量的表达以及后续的分类计算结果,提升模型效果。
具体地,上述预设帧为23帧,上述第一卷积层输入23帧的语音特征向量,使用dilate=1,context=3的网络结构输出21帧的第一中间特征向量;
第二卷积层输入21帧的第一中间特征向量,用dilate=3,context=3的网络结构输出15帧的第二中间特征向量;
第三卷积层输入15帧的第二中间特征向量,用dilate=3,context=15的网络结构输出1帧的第三中间特征向量;
最后将这一帧的第三中间特征向量输入至分类层中进行分类,输出是否包括人声的检测结果。其中,分类层的分类函数为softmax函数。
在一实施例中,所述实时采集语音数据的步骤S1之前,还包括:
步骤S01,获取训练数据;所述训练数据包括多帧训练音频,所述训练数据为带噪的音频文件;
步骤S02,提取每一帧训练音频对应的训练特征向量;
步骤S03,依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练,得到所述人声激活检测模型。
在本实施例中,预先训练上述时延神经网络,得到上述人声激活检测模型,训练上述时延神经网络可采用反向传播算法,上述训练数据为带噪的音频文件,该音频文件中包括有人声,且预先对人声进行了标注,同时对其它声音也进行了标注;例如,人声标注为1,非人声标注为0。
将上述训练数据中每一帧的音频都转换成对应的训练特征向量,上述转换可采用傅里叶转换等,在此不进行赘述。
然后依序将预设帧的训练音频对应的训练特征向量输入至时延神经网络中进行迭代训练,得到所述人声激活检测模型。其中,上述训练过程使用交叉熵损失函数(cross_entropy loss)计算损失值,损失值为预测标签与真实标签之间的损失值;基于反向传播算法,不断调整时延神经网络中的网络参数(网络权值),从而最小化上述损失值,最终得到上述训练完成的人声激活检测模型。
在一个实施例中,所述获取训练数据的步骤01,包括:
获取干净的人声语音;其中,所述干净的人声语音为不包括噪声以及混响的语音;
基于预设的语音识别模型检测所述干净的人声语音中每个字对应的音频帧;
将所述干净的人声语音中每个字对应的音频帧标注为第一标签,将其余的音频帧标注为第二标签;
对标注后的所述干净的人声语音进行加噪以及加混响处理,得到所述训练数据。
在本实施例中,提出一个制作训练数据的过程;预先获取干净的人声语音,该干净的人声语音中只包括人声,而不包括任何其他噪声或者混响。
训练数据的构造过程需要一个语音识别模型来进行数据标注,目前主流的端到端语音识别模型在干净的数据集上可以达到96%以上的正确识别效果,这个识别率足够使用。为了保证对音频数据帧标注的准确率,本方案中可以预先使用三千小时的干净语音数据(不带混响不带噪声)来训练语音识别模型,然后用训练得到的上述语音识别模型在干净的人声语音上进行标注对齐,即通过语音识别模型,将所述干净的人声语音中每个字对应的音频帧标注为第一标签,将其余的音频帧标注为第二标签;第一标签可以为“1”,第二标签可以为“0”。
例如,一个干净的人声语音,语音内容为“你好今天放假”,通过上述语音识别模型进行对齐后得到每个字对应的音频帧,将每个文字对应的帧片段标注为1,其余音频帧标注为0。
进一步地,对标注后的所述干净的人声语音进行加噪(加噪的音频为收集到的非人声语音数据)以及加混响处理,至此就得到了可以用于训练人声激活检测模型的训练数据。
综上所述,为本申请实施例中提供的人声激活检测方法,包括:实时采集语音数据;提取所述语音数据中每一帧音频数据对应的语音特征向量;依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,所述预设的人声激活检测模型基于时延神经网络训练得到,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声,不仅检测速度快,且模型结合了当前帧及其上下文的语音,检测效果好。
参照图2,本申请一实施例中还提供了一种人声激活检测装置,包括:
采集单元10,用于实时采集语音数据;所述语音数据包括多帧音频数据;
第一提取单元20,用于提取所述语音数据中每一帧音频数据对应的语音特征向量;
第一输入单元30,用于依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,所述预设的人声激活检测模型基于时延神经网络训练得到,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;
检测单元40,用于基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。
在一个实施例中,所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层;
所述检测单元40,具体用于:
将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算,得到第一中间特征向量;
将所述第一中间特征向量输入至所述第二卷积层进行卷积运算,得到第二中间特征向量;
将所述第二中间特征向量输入至所述第三卷积层进行卷积运算,得到第三中间特征向量;
将所述第三中间特征向量输入至所述分类层中进行分类,得出所述预设帧音频数据中是否包括人声的检测结果。
在一个实施例中,还包括:
获取单元,用于获取训练数据;所述训练数据包括多帧训练音频,所述训练数据为带噪的音频文件;
第二提取单元,用于提取每一帧训练音频对应的训练特征向量;
训练单元,用于依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练,得到所述人声激活检测模型。
在一个实施例中,所述获取单元,具体包括:
获取干净的人声语音;其中,所述干净的人声语音为不包括噪声以及混响的语音;
基于预设的语音识别模型检测所述干净的人声语音中每个字对应的音频帧;
将所述干净的人声语音中每个字对应的音频帧标注为第一标签,将其余的音频帧标注为第二标签;
对标注后的所述干净的人声语音进行加噪以及加混响处理,得到所述训练数据。
在一个实施例中,所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络;其中,所述第一卷积层的dilate=1,context=3,所述第二卷积层的dilate=3,context=3,所述第三卷积层的dilate=3,context=15。
在本实施例中,上述人声激活检测装置实施例中的各个单元的具体实现方式,请参照上述人声激活检测方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储人声激活检测模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人声激活检测方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种人声激活检测方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的人声激活检测方法、装置、计算机设备和存储介质,包括:实时采集语音数据;提取所述语音数据中每一帧音频数据对应的语音特征向量;依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,所述预设的人声激活检测模型基于时延神经网络训练得到,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声,不仅检测速度快,且模型结合了当前帧及其上下文的语音,检测效果好。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种人声激活检测方法,其特征在于,包括以下步骤:
实时采集语音数据;所述语音数据包括多帧音频数据;
提取所述语音数据中每一帧音频数据对应的语音特征向量;
依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;
基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。
2.根据权利要求1所述的人声激活检测方法,其特征在于,所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层;
所述基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声的步骤,包括:
将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算,得到第一中间特征向量;
将所述第一中间特征向量输入至所述第二卷积层进行卷积运算,得到第二中间特征向量;
将所述第二中间特征向量输入至所述第三卷积层进行卷积运算,得到第三中间特征向量;
将所述第三中间特征向量输入至所述分类层中进行分类,得出所述预设帧音频数据中是否包括人声的检测结果。
3.根据权利要求2所述的人声激活检测方法,其特征在于,所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络;其中,所述第一卷积层的dilate=1,context=3,所述第二卷积层的dilate=3,context=3,所述第三卷积层的dilate=3,context=15。
4.根据权利要求1所述的人声激活检测方法,其特征在于,所述实时采集语音数据的步骤之前,还包括:
获取训练数据;所述训练数据包括多帧训练音频,所述训练数据为带噪的音频文件;
提取每一帧训练音频对应的训练特征向量;
依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练,得到所述人声激活检测模型。
5.根据权利要求4所述的人声激活检测方法,其特征在于,所述获取训练数据的步骤,包括:
获取干净的人声语音;其中,所述干净的人声语音为不包括噪声以及混响的语音;
基于预设的语音识别模型检测所述干净的人声语音中每个字对应的音频帧;
将所述干净的人声语音中每个字对应的音频帧标注为第一标签,将其余的音频帧标注为第二标签;
对标注后的所述干净的人声语音进行加噪以及加混响处理,得到所述训练数据。
6.一种人声激活检测装置,其特征在于,包括:
采集单元,用于实时采集语音数据;所述语音数据包括多帧音频数据;
第一提取单元,用于提取所述语音数据中每一帧音频数据对应的语音特征向量;
第一输入单元,用于依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;
检测单元,用于基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。
7.根据权利要求6所述的人声激活检测装置,其特征在于,所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层;
所述检测单元,具体用于:
将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算,得到第一中间特征向量;
将所述第一中间特征向量输入至所述第二卷积层进行卷积运算,得到第二中间特征向量;
将所述第二中间特征向量输入至所述第三卷积层进行卷积运算,得到第三中间特征向量;
将所述第三中间特征向量输入至所述分类层中进行分类,得出所述预设帧音频数据中是否包括人声的检测结果。
8.根据权利要求6所述的人声激活检测装置,其特征在于,还包括:
获取单元,用于获取训练数据;所述训练数据包括多帧训练音频,所述训练数据为带噪的音频文件;
第二提取单元,用于提取每一帧训练音频对应的训练特征向量;
训练单元,用于依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练,得到所述人声激活检测模型。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110425564.XA CN113113001A (zh) | 2021-04-20 | 2021-04-20 | 人声激活检测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110425564.XA CN113113001A (zh) | 2021-04-20 | 2021-04-20 | 人声激活检测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113113001A true CN113113001A (zh) | 2021-07-13 |
Family
ID=76719176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110425564.XA Pending CN113113001A (zh) | 2021-04-20 | 2021-04-20 | 人声激活检测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113113001A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333912A (zh) * | 2021-12-15 | 2022-04-12 | 北京百度网讯科技有限公司 | 语音激活检测方法、装置、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2154911A1 (en) * | 1994-08-02 | 1996-02-03 | Kazunori Ozawa | Speech coding device |
CN110120217A (zh) * | 2019-05-10 | 2019-08-13 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法及装置 |
CN110648692A (zh) * | 2019-09-26 | 2020-01-03 | 苏州思必驰信息科技有限公司 | 语音端点检测方法及系统 |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
CN111179975A (zh) * | 2020-04-14 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
CN111223476A (zh) * | 2020-04-23 | 2020-06-02 | 深圳市友杰智新科技有限公司 | 语音特征向量的提取方法、装置、计算机设备和存储介质 |
CN111816218A (zh) * | 2020-07-31 | 2020-10-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
CN112420069A (zh) * | 2020-11-18 | 2021-02-26 | 北京云从科技有限公司 | 一种语音处理方法、装置、机器可读介质及设备 |
CN112634882A (zh) * | 2021-03-11 | 2021-04-09 | 南京硅基智能科技有限公司 | 端到端实时语音端点检测神经网络模型、训练方法 |
-
2021
- 2021-04-20 CN CN202110425564.XA patent/CN113113001A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2154911A1 (en) * | 1994-08-02 | 1996-02-03 | Kazunori Ozawa | Speech coding device |
CN110120217A (zh) * | 2019-05-10 | 2019-08-13 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法及装置 |
CN110648692A (zh) * | 2019-09-26 | 2020-01-03 | 苏州思必驰信息科技有限公司 | 语音端点检测方法及系统 |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
CN111179975A (zh) * | 2020-04-14 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
CN111223476A (zh) * | 2020-04-23 | 2020-06-02 | 深圳市友杰智新科技有限公司 | 语音特征向量的提取方法、装置、计算机设备和存储介质 |
CN111816218A (zh) * | 2020-07-31 | 2020-10-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
CN112420069A (zh) * | 2020-11-18 | 2021-02-26 | 北京云从科技有限公司 | 一种语音处理方法、装置、机器可读介质及设备 |
CN112634882A (zh) * | 2021-03-11 | 2021-04-09 | 南京硅基智能科技有限公司 | 端到端实时语音端点检测神经网络模型、训练方法 |
Non-Patent Citations (1)
Title |
---|
李正友;李天伟;黄谦;: "基于共振峰谐波特征和支持向量机的VDR人声检测方法", 舰船科学技术, no. 02 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333912A (zh) * | 2021-12-15 | 2022-04-12 | 北京百度网讯科技有限公司 | 语音激活检测方法、装置、电子设备和存储介质 |
CN114333912B (zh) * | 2021-12-15 | 2023-08-29 | 北京百度网讯科技有限公司 | 语音激活检测方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN110287283B (zh) | 意图模型训练方法、意图识别方法、装置、设备及介质 | |
CN108520741B (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
CN110120224B (zh) | 鸟声识别模型的构建方法、装置、计算机设备及存储介质 | |
CN110781916A (zh) | 视频数据的欺诈检测方法、装置、计算机设备和存储介质 | |
CN111145786A (zh) | 语音情感识别方法和装置、服务器、计算机可读存储介质 | |
CN111933114B (zh) | 语音唤醒混合模型的训练方法、使用方法和相关设备 | |
CN112634867A (zh) | 模型训练方法、方言识别方法、装置、服务器及存储介质 | |
CN110930989B (zh) | 语音意图识别方法、装置、计算机设备和存储介质 | |
CN112735482B (zh) | 基于联合深度神经网络的端点检测方法及系统 | |
JP2022028772A5 (ja) | オーディオデータおよび画像データに基づいて人の発声を解析するコンピューティングデバイスおよび発声処理方法、ならびにプログラム | |
CN113506575B (zh) | 流式语音识别的处理方法、装置和计算机设备 | |
CN112802461B (zh) | 语音识别方法和装置、服务器、计算机可读存储介质 | |
CN111582020A (zh) | 信号处理方法、装置、计算机设备及存储介质 | |
CN111223476A (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN113076847A (zh) | 一种多模态情感识别方法及系统 | |
CN113870844A (zh) | 语音识别模型的训练方法、装置和计算机设备 | |
CN110648655B (zh) | 一种语音识别方法、装置、系统及存储介质 | |
CN113113001A (zh) | 人声激活检测方法、装置、计算机设备和存储介质 | |
CN114974292A (zh) | 音频增强方法、装置、电子设备及可读存储介质 | |
CN112802498B (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
CN113327584A (zh) | 语种识别方法、装置、设备及存储介质 | |
CN111554270B (zh) | 训练样本筛选方法及电子设备 | |
CN115691475A (zh) | 用于训练语音识别模型的方法以及语音识别方法 | |
CN115101063B (zh) | 低算力语音识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |