CN108010515A - 一种语音端点检测和唤醒方法及装置 - Google Patents
一种语音端点检测和唤醒方法及装置 Download PDFInfo
- Publication number
- CN108010515A CN108010515A CN201711161966.3A CN201711161966A CN108010515A CN 108010515 A CN108010515 A CN 108010515A CN 201711161966 A CN201711161966 A CN 201711161966A CN 108010515 A CN108010515 A CN 108010515A
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- speech terminals
- terminals detection
- fbank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 230000007935 neutral effect Effects 0.000 claims abstract description 27
- 238000013209 evaluation strategy Methods 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 37
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 230000002618 waking effect Effects 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 150000001875 compounds Chemical class 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 39
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 210000005036 nerve Anatomy 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音端点检测和唤醒方法及装置,涉及机器学习语音识别领域技术领域。方法包括:获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。本发明的系统框架能够同时适用于语音端点检测和语音唤醒技术,能够实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术。
Description
技术领域
本发明涉及机器学习语音识别领域技术领域,尤其涉及一种语音端点检测和唤醒方法及装置。
背景技术
当前,随着语音识别技术、数字化设备以及多媒体技术的发展,语音端点检测技术得到了良好的发展。目前,语音端点检测(Voice Activity Detection,简称VAD)是在连续信号中检测出语音片段的技术,语音端点检测常与自动语音识别(Automatic SpeechRecognition,简称ASR)系统、声纹识别系统相结合,检测有效而准确的语音端点成为这些系统的重要组成部分。语音唤醒指在音频流中检测预定义的关键字的过程,一旦检测到关键词即唤醒手机、音箱等嵌入式设备。要实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术,必须设计一个简单的模型和高效的后端评判策略,同时可以把网络模型压缩以适应于嵌入式系统和便携式设备。
在现有技术中,G.Chen等人在“Small-footprint keyword spotting using deepneural networks”(Acoustics,Speech and Signal Processing(ICASSP),2014)中提出了可以采用深度神经网路(Deep Neural Networks,简称DNN)和后验平滑策略检测关键词从而唤醒设备。之后Sainath等人又在“Convolutional neural networks for small-footprint keyword spotting”(INTERSPEECH,2015)中提出了采用卷积神经网络(Convolutional Neural Networks,,简称CNN)和DNN结合的方式同时辅助后验平滑策略检测关键词同时唤醒设备。虽然这些方法是简洁高效的,但是现有技术存在两个问题,一是因为,要实现较好的性能,需要采用传统的CNN和DNN网络需要做大量的加法、减法和乘法操作而消耗大量的内存和功耗。二是现有技术模型很大,4层512个节点的DNN网络,占用硬件存储空间6M,导致非常受限于某些应用场景,比如FPGA系统和嵌入式芯片等需要极小模型和极低的功耗。可见,当前如何实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术成为了一个亟待解决的问题。
发明内容
本发明的实施例提供一种语音端点检测和唤醒方法及装置,以解决现有技术中难以实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术的问题。
为达到上述目的,本发明采用如下技术方案:
一种语音端点检测和唤醒方法,包括:
获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;
将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;
根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。
具体的,获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据,包括:
根据预先设置的采样频率,在预先设置的采样环境中采集获取语音端点检测数据和唤醒数据;
对所述语音端点检测数据采用26维Fbank特征提取,并加一阶和二阶偏导,得到语音端点检测Fbank特征数据;
对所述唤醒数据采用40维Fbank特征提取,并加一阶和二阶偏导,得到唤醒Fbank特征数据。
具体的,将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据,包括:
将所述语音端点检测Fbank特征数据输入到由2层CNN和1层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第一模型输出结果;
将所述唤醒Fbank特征数据输入到由2层CNN和4层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第二模型输出结果。
具体的,根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,包括:
对所述第一模型输出结果进行后验平滑处理得到各帧语音的声母和韵母合后的非静音的概率pj;
若从一第一目标帧语音开始连续m帧语音的概率pj均大于预先设置的非静音的阈值,则确定所述第一目标帧语音为语音端点检测数据的语音起始位置;所述m为预先设置的数值;
若从一第二目标帧语音开始连续n帧语音的概率pj均小于预先设置的静音的阈值,则确定所述第二目标帧语音为语音端点检测数据的语音结束位置;所述n为预先设置的数值。
具体的,根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,检测唤醒数据中的唤醒词数据,包括:
对所述第二模型输出结果进行后验平滑处理得到各帧语音中与唤醒词中各关键字对应的关键字概率;
若从一第一目标帧语音开始连续m帧语音的一目标关键字的关键字概率大于目标关键字的预设阈值,则确定所述第二模型输出结果中包含所述目标关键字;所述m为预先设置的数值。
一种语音端点检测和唤醒装置,包括:
特征提取单元,用于获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;
二值化神经网络处理单元,用于将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;
语音端点检测和唤醒处理单元,用于根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。
具体的,所述特征提取单元,包括:
采样模块,用于根据预先设置的采样频率,在预先设置的采样环境中采集获取语音端点检测数据和唤醒数据;
语音端点检测Fbank特征数据确定模块,用于对所述语音端点检测数据采用26维Fbank特征提取,并加一阶和二阶偏导,得到语音端点检测Fbank特征数据;
唤醒Fbank特征数据确定模块,用于对所述唤醒数据采用40维Fbank特征提取,并加一阶和二阶偏导,得到唤醒Fbank特征数据。
具体的,所述二值化神经网络处理单元,包括:
第一模型输出结果确定模块,用于将所述语音端点检测Fbank特征数据输入到由2层CNN和1层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第一模型输出结果;
第二模型输出结果确定模块,用于将所述唤醒Fbank特征数据输入到由2层CNN和4层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第二模型输出结果。
此外,所述语音端点检测和唤醒处理单元,具体用于:
对所述第一模型输出结果进行后验平滑处理得到各帧语音的声母和韵母合后的非静音的概率pj;
在从一第一目标帧语音开始连续m帧语音的概率pj均大于预先设置的非静音的阈值时,确定所述第一目标帧语音为语音端点检测数据的语音起始位置;所述m为预先设置的数值;
在从一第二目标帧语音开始连续n帧语音的概率pj均小于预先设置的静音的阈值时,确定所述第二目标帧语音为语音端点检测数据的语音结束位置;所述n为预先设置的数值。
此外,所述语音端点检测和唤醒处理单元,具体用于:
对所述第二模型输出结果进行后验平滑处理得到各帧语音中与唤醒词中各关键字对应的关键字概率;
在从一第一目标帧语音开始连续m帧语音的一目标关键字的关键字概率大于目标关键字的预设阈值时,确定所述第二模型输出结果中包含所述目标关键字;所述m为预先设置的数值。
本发明实施例提供的一种语音端点检测和唤醒方法及装置,获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。本发明的系统框架能够同时适用于语音端点检测和语音唤醒技术,能够实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音端点检测和唤醒方法的流程图一;
图2为本发明实施例提供的一种语音端点检测和唤醒方法的流程图二;
图3为本发明实施例中的语音端点检测的示意图;
图4为本发明实施例中的唤醒技术示意图;
图5为本发明实施例提供的一种语音端点检测和唤醒装置的结构示意图一;
图6为本发明实施例提供的一种语音端点检测和唤醒装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种语音端点检测和唤醒方法,包括:
步骤101、获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据。
步骤102、将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据。
步骤103、根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。
本发明实施例提供的一种语音端点检测和唤醒方法,获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。本发明的系统框架能够同时适用于语音端点检测和语音唤醒技术,能够实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术。
为了使本领域的技术人员更好的了解本发明,下面列举一个更为详细的实施例,如图2所示,本发明实施例提供一种语音端点检测和唤醒方法,包括:
步骤201、根据预先设置的采样频率,在预先设置的采样环境中采集获取语音端点检测数据和唤醒数据。
此处,所述预先设置的采样频率可以为16kHz,预先设置的采样环境可以是普通手机在比较安静的安静下。对于唤醒技术,环境技术的训练集数据可以采用普通手机采集的1k采样频率的只有唤醒词和相近词数据集的音频数据。例如,唤醒词为“小微”,相近词为“小微小微”。
步骤202、对所述语音端点检测数据采用26维Fbank特征提取,并加一阶和二阶偏导,得到语音端点检测Fbank特征数据。
步骤203、对所述唤醒数据采用40维Fbank特征提取,并加一阶和二阶偏导,得到唤醒Fbank特征数据。
步骤204、将所述语音端点检测Fbank特征数据输入到由2层CNN和1层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第一模型输出结果。
此处的2层CNN(包括8通道、3*3的卷积核、2*2的池化层)和1层DNN(16个节点)组成的二值化神经网络模型,其最后一层的softmax层为9个输出节点。其中9个输出节点是根据HMM-GMM(高斯隐马尔科夫混合模型)进行三状态聚类得到,0~2号节点代表静音,3~5号节点代表声母,6~8号节点代表韵母,这样因为声母和韵母可以更好的刻画声音的起止位置,具有更好的效果。
步骤205、将所述唤醒Fbank特征数据输入到由2层CNN和4层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第二模型输出结果。
此处的由2层CNN(包括8通道、3*3的卷积核、2*2的池化层)和4层DNN(512节点)组成的二值化神经网络模型,其最后一层的softmax层可为3个输出节点,例如唤醒词为“小微”,则3个输出节点分别代表杂音、“小”和“微”,其中杂音包含所有非“小”和“微”的声音。“杂音”是0号节点,“小”是1号节点,“微”是2号节点。
对于二值化神经网络模型,优化如下:
对于32位的浮点网络参数,采用符号函数,大于0的设置为1,小于0的设置为-1,进行二值化。
在进行反向传播时,为了解决梯度无法计算的问题,将浮点权重在(-1,1)之间的导数设置为1,其它导数设置为0。
gr=gq1|r|≤1
对于激活函数,为了保证量化,我们采用优化的二值化激活函数:
Htanh(x)=Clip(x,-1,1)=max(-1,min(1,x))。
对于二值化神经网络模型中的正则化层,传统的批量正则化层的是需要将所有权重求均值和方差,在涉及庞大的数据时,给内存和硬件设计带来了巨大的挑战,同时带来了巨大的延时,所以此处将其中的求均值和方差进行优化,使其只有移位操作,大大降低了计算量。对于正则化层,优化如下:
传统的批量正则化层的计算公式是:
在这个公式中γ和β是训练好的参数,因此可以把这个公式简化为:
xi=kx+b
这样k和b在前向传播时都可以通过计算得到,然后可以把k近似为2的n次方,这个公式可以被简化为:
采用这种近似计算策略我们不需要大量减法、加法、乘法和除法计算,只需要移位计算就可到达很好的效果。
步骤206、对所述第一模型输出结果进行后验平滑处理得到各帧语音的声母和韵母合后的非静音的概率pj。
首先计算元音和辅音在每帧的得分即DNN网络的sofmax得分,然后对其进行平滑处理和评判。即连续n帧求平均作为该帧的后验分数,然后进行评判是音频的端点还是唤醒设备。在现有技术的方法中是连续m帧把所有的元音和辅音softmax节点分数最大值找到,然后最大值连乘、开根号,大于某个阈值设置为音频起点或者关键词,小于某个阈值设置为音频终点。但是这种方法需要乘法器和除法器,复杂度很高且不易于硬件设计,所以对后端评判策略进行改进。即在平滑策略之后,连续m帧大于一定阈值就直接将其设置为音频的起点,连续n帧小于一定阈值设置为音频的终点,作为端点检测标准;连续m帧大于一定阈值直接设置为某个关键词,作为唤醒技术评判标准。这样改进的评判策略大大降低了计算复杂度和大大提升了速度。
步骤207、若从一第一目标帧语音开始连续m帧语音的概率pj均大于预先设置的非静音的阈值,则确定所述第一目标帧语音为语音端点检测数据的语音起始位置。
其中,所述m为预先设置的数值。
步骤208、若从一第二目标帧语音开始连续n帧语音的概率pj均小于预先设置的静音的阈值,则确定所述第二目标帧语音为语音端点检测数据的语音结束位置。
其中,所述n为预先设置的数值。
步骤209、对所述第二模型输出结果进行后验平滑处理得到各帧语音中与唤醒词中各关键字对应的关键字概率。
步骤210、若从一第一目标帧语音开始连续m帧语音的一目标关键字的关键字概率大于目标关键字的预设阈值,则确定所述第二模型输出结果中包含所述目标关键字;所述m为预先设置的数值。
对于后端评判策略的优化,可以如下:
(1)后验平滑策略:
其中j是第j帧,wsmoot h是平滑窗口。当j<wsmoot h时,第j帧是前面所有帧平均值。当j≥wsmoot h时,第j帧为当前帧及之前所有wsmoot h帧的平均值。
对于端点检测和唤醒技术的评判策略优化后如下:
(1)端点检测技术评判策略
把第j帧所有音频分数相加为音频j帧分数,连续N0帧p′jα大于静音到音频的阈值Tsil_audio设置为音频声音起始位置,连续N1帧p′jβ小于音频到静音的阈值Taudio_sil设置为因为声音终止位置,并且β>α,即声音的终止点一定在声音的起止点之后。
(2)唤醒技术评判策略
比如唤醒词为“小微”,连续N0帧大于“小”的阈值Ath,则关键词“小”检测到,接着检测关键词“微”,同样当连续N1帧大于“微”的阈值Bth,则唤醒词“小微”检测到唤醒设备。
对于上述步骤201至步骤210中的语音端点检测,其示意图可以如图3所示。对于上述步骤201至步骤210中的唤醒技术,其示意图可以如图4所示。如图3和图4所示,在本发明实施例中,采用相同的架构设计语音唤醒系统和端点检测系统,只是网络的层数的每层的节点数不同,和网络二值化的程度不同。端点检测技术采用完全二值化,即网络权重和激活函数都二值化;而唤醒技术采用完全二值化时,精度损失比较严重,所以采用部分二值化,即只是把权重二值化,激活函数仍然采用传统激活函数;此处的二值化神经网络,就是权重在进行训练时,大于0的浮点权重设置为1,小于0的浮点权重设置为-1,这样可以将庞大的32位浮点参数网络缩小32倍,变为1bit的权重参数。在进行训练反向传播时,为了解决残差进行梯度计算的问题,我们把在权重在(-1,1)之间的反向梯度强制设置为1,其它设置为0,保证其可以进行反向传传播,同时,这也是一种无损传输。
本发明实施例提供的一种语音端点检测和唤醒方法,针对语音端点检测技术和唤醒技术系统进行改进,将唤醒策略移植到语音端点检测技术。同时将两个技术的网络模型进行压缩,即将网络浮点的参数运算变成1bit的二值网络运算,这样可以将训练模型压缩32倍同时将实时率提升5倍。此外因为在训练时使用的批量正则化层运算比较复杂,对其进行了优化,使其只有移位操作,没有乘法、除法和减法操作,大大降低了计算复杂度和提高了运算效率端点检测。本发明的系统框架能够同时适用于语音端点检测和语音唤醒技术,能够实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术。
对应于上述图1和图2所述的方法实施例,如图5所示,本发明实施例提供一种语音端点检测和唤醒装置,包括:
特征提取单元31,用于获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据。
二值化神经网络处理单元32,用于将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据。
语音端点检测和唤醒处理单元33,用于根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。
具体的,如图6所示,所述特征提取单元31,包括:
采样模块311,用于根据预先设置的采样频率,在预先设置的采样环境中采集获取语音端点检测数据和唤醒数据。
语音端点检测Fbank特征数据确定模块312,用于对所述语音端点检测数据采用26维Fbank特征提取,并加一阶和二阶偏导,得到语音端点检测Fbank特征数据。
唤醒Fbank特征数据确定模块313,用于对所述唤醒数据采用40维Fbank特征提取,并加一阶和二阶偏导,得到唤醒Fbank特征数据。
具体的,如图6所示,所述二值化神经网络处理单元32,包括:
第一模型输出结果确定模块321,用于将所述语音端点检测Fbank特征数据输入到由2层CNN和1层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第一模型输出结果。
第二模型输出结果确定模块322,用于将所述唤醒Fbank特征数据输入到由2层CNN和4层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第二模型输出结果。
此外,所述语音端点检测和唤醒处理单元33,具体用于:
对所述第一模型输出结果进行后验平滑处理得到各帧语音的声母和韵母合后的非静音的概率pj。
在从一第一目标帧语音开始连续m帧语音的概率pj均大于预先设置的非静音的阈值时,确定所述第一目标帧语音为语音端点检测数据的语音起始位置;所述m为预先设置的数值。
在从一第二目标帧语音开始连续n帧语音的概率pj均小于预先设置的静音的阈值时,确定所述第二目标帧语音为语音端点检测数据的语音结束位置;所述n为预先设置的数值。
此外,所述语音端点检测和唤醒处理单元33,具体用于:
对所述第二模型输出结果进行后验平滑处理得到各帧语音中与唤醒词中各关键字对应的关键字概率。
在从一第一目标帧语音开始连续m帧语音的一目标关键字的关键字概率大于目标关键字的预设阈值时,确定所述第二模型输出结果中包含所述目标关键字;所述m为预先设置的数值。
值得说明的是,本发明实施例提供的一种语音端点检测和唤醒装置的具体实现方式可以参见上述图1和图2对应的方法实施例,此处不再赘述。
本发明实施例提供的一种语音端点检测和唤醒装置,获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。本发明的系统框架能够同时适用于语音端点检测和语音唤醒技术,能够实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语音端点检测和唤醒方法,其特征在于,包括:
获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;
将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;
根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。
2.根据权利要求1所述的语音端点检测和唤醒方法,其特征在于,获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据,包括:
根据预先设置的采样频率,在预先设置的采样环境中采集获取语音端点检测数据和唤醒数据;
对所述语音端点检测数据采用26维Fbank特征提取,并加一阶和二阶偏导,得到语音端点检测Fbank特征数据;
对所述唤醒数据采用40维Fbank特征提取,并加一阶和二阶偏导,得到唤醒Fbank特征数据。
3.根据权利要求2所述的语音端点检测和唤醒方法,其特征在于,将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据,包括:
将所述语音端点检测Fbank特征数据输入到由2层CNN和1层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第一模型输出结果;
将所述唤醒Fbank特征数据输入到由2层CNN和4层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第二模型输出结果。
4.根据权利要求3所述的语音端点检测和唤醒方法,其特征在于,根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,包括:
对所述第一模型输出结果进行后验平滑处理得到各帧语音的声母和韵母合后的非静音的概率pj;
若从一第一目标帧语音开始连续m帧语音的概率pj均大于预先设置的非静音的阈值,则确定所述第一目标帧语音为语音端点检测数据的语音起始位置;所述m为预先设置的数值;
若从一第二目标帧语音开始连续n帧语音的概率pj均小于预先设置的静音的阈值,则确定所述第二目标帧语音为语音端点检测数据的语音结束位置;所述n为预先设置的数值。
5.根据权利要求3所述的语音端点检测和唤醒方法,其特征在于,根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,检测唤醒数据中的唤醒词数据,包括:
对所述第二模型输出结果进行后验平滑处理得到各帧语音中与唤醒词中各关键字对应的关键字概率;
若从一第一目标帧语音开始连续m帧语音的一目标关键字的关键字概率大于目标关键字的预设阈值,则确定所述第二模型输出结果中包含所述目标关键字;所述m为预先设置的数值。
6.一种语音端点检测和唤醒装置,其特征在于,包括:
特征提取单元,用于获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;
二值化神经网络处理单元,用于将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;
语音端点检测和唤醒处理单元,用于根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。
7.根据权利要求6所述的语音端点检测和唤醒装置,其特征在于,所述特征提取单元,包括:
采样模块,用于根据预先设置的采样频率,在预先设置的采样环境中采集获取语音端点检测数据和唤醒数据;
语音端点检测Fbank特征数据确定模块,用于对所述语音端点检测数据采用26维Fbank特征提取,并加一阶和二阶偏导,得到语音端点检测Fbank特征数据;
唤醒Fbank特征数据确定模块,用于对所述唤醒数据采用40维Fbank特征提取,并加一阶和二阶偏导,得到唤醒Fbank特征数据。
8.根据权利要求7所述的语音端点检测和唤醒装置,其特征在于,所述二值化神经网络处理单元,包括:
第一模型输出结果确定模块,用于将所述语音端点检测Fbank特征数据输入到由2层CNN和1层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第一模型输出结果;
第二模型输出结果确定模块,用于将所述唤醒Fbank特征数据输入到由2层CNN和4层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第二模型输出结果。
9.根据权利要求8所述的语音端点检测和唤醒装置,其特征在于,所述语音端点检测和唤醒处理单元,具体用于:
对所述第一模型输出结果进行后验平滑处理得到各帧语音的声母和韵母合后的非静音的概率pj;
在从一第一目标帧语音开始连续m帧语音的概率pj均大于预先设置的非静音的阈值时,确定所述第一目标帧语音为语音端点检测数据的语音起始位置;所述m为预先设置的数值;
在从一第二目标帧语音开始连续n帧语音的概率pj均小于预先设置的静音的阈值时,确定所述第二目标帧语音为语音端点检测数据的语音结束位置;所述n为预先设置的数值。
10.根据权利要求8所述的语音端点检测和唤醒装置,其特征在于,所述语音端点检测和唤醒处理单元,具体用于:
对所述第二模型输出结果进行后验平滑处理得到各帧语音中与唤醒词中各关键字对应的关键字概率;
在从一第一目标帧语音开始连续m帧语音的一目标关键字的关键字概率大于目标关键字的预设阈值时,确定所述第二模型输出结果中包含所述目标关键字;所述m为预先设置的数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711161966.3A CN108010515B (zh) | 2017-11-21 | 2017-11-21 | 一种语音端点检测和唤醒方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711161966.3A CN108010515B (zh) | 2017-11-21 | 2017-11-21 | 一种语音端点检测和唤醒方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108010515A true CN108010515A (zh) | 2018-05-08 |
CN108010515B CN108010515B (zh) | 2020-06-30 |
Family
ID=62052905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711161966.3A Active CN108010515B (zh) | 2017-11-21 | 2017-11-21 | 一种语音端点检测和唤醒方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108010515B (zh) |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305639A (zh) * | 2018-05-11 | 2018-07-20 | 南京邮电大学 | 语音情感识别方法、计算机可读存储介质、终端 |
CN108682432A (zh) * | 2018-05-11 | 2018-10-19 | 南京邮电大学 | 语音情感识别装置 |
CN108766418A (zh) * | 2018-05-24 | 2018-11-06 | 百度在线网络技术(北京)有限公司 | 语音端点识别方法、装置及设备 |
CN108877779A (zh) * | 2018-08-22 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于检测语音尾点的方法和装置 |
CN108932943A (zh) * | 2018-07-12 | 2018-12-04 | 广州视源电子科技股份有限公司 | 命令词语音检测方法、装置、设备和存储介质 |
CN108962260A (zh) * | 2018-06-25 | 2018-12-07 | 福来宝电子(深圳)有限公司 | 一种多人命令语音识别方法、系统及存储介质 |
CN109036471A (zh) * | 2018-08-20 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
CN109192210A (zh) * | 2018-10-25 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、唤醒词检测的方法及装置 |
CN109308517A (zh) * | 2018-09-07 | 2019-02-05 | 中国科学院计算技术研究所 | 面向二值神经网络的二值化装置、方法及应用 |
CN109448719A (zh) * | 2018-12-11 | 2019-03-08 | 网易(杭州)网络有限公司 | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 |
CN109859774A (zh) * | 2019-01-02 | 2019-06-07 | 珠海格力电器股份有限公司 | 语音设备及其端点检测灵敏度调节方法、装置和存储介质 |
CN110265002A (zh) * | 2019-06-04 | 2019-09-20 | 北京清微智能科技有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN110321816A (zh) * | 2019-06-19 | 2019-10-11 | 北京清微智能科技有限公司 | 图像识别方法及装置 |
CN110334244A (zh) * | 2019-07-11 | 2019-10-15 | 出门问问信息科技有限公司 | 一种数据处理的方法、装置及电子设备 |
CN110415699A (zh) * | 2019-08-30 | 2019-11-05 | 北京声智科技有限公司 | 一种语音唤醒的判断方法、装置及电子设备 |
CN110428854A (zh) * | 2019-08-12 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 车载端的语音端点检测方法、装置和计算机设备 |
CN110503968A (zh) * | 2018-05-18 | 2019-11-26 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
WO2019222996A1 (en) * | 2018-05-25 | 2019-11-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for voice recognition |
CN110517670A (zh) * | 2019-08-28 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 提升唤醒性能的方法和装置 |
CN110910905A (zh) * | 2018-09-18 | 2020-03-24 | 北京京东金融科技控股有限公司 | 静音点检测方法及装置、存储介质、电子设备 |
CN111091819A (zh) * | 2018-10-08 | 2020-05-01 | 蔚来汽车有限公司 | 语音识别装置和方法、语音交互系统和方法 |
CN111161747A (zh) * | 2020-04-03 | 2020-05-15 | 深圳市友杰智新科技有限公司 | 基于Tensorflow唤醒模型的预测方法、装置和计算机设备 |
CN111524528A (zh) * | 2020-05-28 | 2020-08-11 | Oppo广东移动通信有限公司 | 防录音检测的语音唤醒方法及装置 |
CN111739521A (zh) * | 2020-06-19 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 电子设备唤醒方法、装置、电子设备及存储介质 |
CN111881726A (zh) * | 2020-06-15 | 2020-11-03 | 马上消费金融股份有限公司 | 一种活体检测方法、装置及存储介质 |
CN112201259A (zh) * | 2020-09-23 | 2021-01-08 | 北京百度网讯科技有限公司 | 声源定位方法、装置、设备和计算机存储介质 |
CN112289323A (zh) * | 2020-12-29 | 2021-01-29 | 深圳追一科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN112767949A (zh) * | 2021-01-18 | 2021-05-07 | 东南大学 | 一种基于二值权重卷积神经网络的声纹识别系统 |
CN112802498A (zh) * | 2020-12-29 | 2021-05-14 | 深圳追一科技有限公司 | 语音检测方法、装置、计算机设备和存储介质 |
CN113192488A (zh) * | 2021-04-06 | 2021-07-30 | 青岛信芯微电子科技股份有限公司 | 一种语音处理方法及装置 |
CN113284517A (zh) * | 2021-02-03 | 2021-08-20 | 珠海市杰理科技股份有限公司 | 语音端点检测方法、电路、音频处理芯片和音频设备 |
CN113409773A (zh) * | 2021-08-18 | 2021-09-17 | 中科南京智能技术研究院 | 一种二值化神经网络语音唤醒方法及系统 |
CN115171736A (zh) * | 2022-07-13 | 2022-10-11 | 成都市联洲国际技术有限公司 | 语音活性检测模型的生成方法、处理器与电子设备 |
CN111739515B (zh) * | 2019-09-18 | 2023-08-04 | 北京京东尚科信息技术有限公司 | 语音识别方法、设备、电子设备和服务器、相关系统 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5842163A (en) * | 1995-06-21 | 1998-11-24 | Sri International | Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech |
WO1999014741A1 (de) * | 1997-09-18 | 1999-03-25 | Siemens Aktiengesellschaft | Verfahren zur erkennung eines schlüsselworts in gesprochener sprache |
EP1215654A1 (en) * | 2000-12-13 | 2002-06-19 | Sony International (Europe) GmbH | Method for recognizing speech |
CN102790579A (zh) * | 2012-08-06 | 2012-11-21 | 江苏大学 | 一种五自由度无轴承永磁同步电机解耦控制器的构造方法 |
US20140334645A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
CN104538030A (zh) * | 2014-12-11 | 2015-04-22 | 科大讯飞股份有限公司 | 一种可以通过语音控制家电的控制系统与方法 |
US20150302855A1 (en) * | 2014-04-21 | 2015-10-22 | Qualcomm Incorporated | Method and apparatus for activating application by speech input |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN105206271A (zh) * | 2015-08-25 | 2015-12-30 | 北京宇音天下科技有限公司 | 智能设备的语音唤醒方法及实现所述方法的系统 |
US20160099010A1 (en) * | 2014-10-03 | 2016-04-07 | Google Inc. | Convolutional, long short-term memory, fully connected deep neural networks |
CN105632486A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
CN105741838A (zh) * | 2016-01-20 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
US20160283841A1 (en) * | 2015-03-27 | 2016-09-29 | Google Inc. | Convolutional neural networks |
CN106460711A (zh) * | 2014-06-11 | 2017-02-22 | 大众汽车有限公司 | 用于在内燃机的气缸内进行充气检测的方法和装置 |
CN106534520A (zh) * | 2016-10-28 | 2017-03-22 | 惠州Tcl移动通信有限公司 | 一种基于语音识别的信息发送方法及系统 |
CN106611597A (zh) * | 2016-12-02 | 2017-05-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
-
2017
- 2017-11-21 CN CN201711161966.3A patent/CN108010515B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5842163A (en) * | 1995-06-21 | 1998-11-24 | Sri International | Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech |
WO1999014741A1 (de) * | 1997-09-18 | 1999-03-25 | Siemens Aktiengesellschaft | Verfahren zur erkennung eines schlüsselworts in gesprochener sprache |
EP1215654A1 (en) * | 2000-12-13 | 2002-06-19 | Sony International (Europe) GmbH | Method for recognizing speech |
CN102790579A (zh) * | 2012-08-06 | 2012-11-21 | 江苏大学 | 一种五自由度无轴承永磁同步电机解耦控制器的构造方法 |
US20140334645A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
US20150302855A1 (en) * | 2014-04-21 | 2015-10-22 | Qualcomm Incorporated | Method and apparatus for activating application by speech input |
CN106233376A (zh) * | 2014-04-21 | 2016-12-14 | 高通股份有限公司 | 用于通过话音输入激活应用程序的方法和设备 |
CN106460711A (zh) * | 2014-06-11 | 2017-02-22 | 大众汽车有限公司 | 用于在内燃机的气缸内进行充气检测的方法和装置 |
US20160099010A1 (en) * | 2014-10-03 | 2016-04-07 | Google Inc. | Convolutional, long short-term memory, fully connected deep neural networks |
CN104538030A (zh) * | 2014-12-11 | 2015-04-22 | 科大讯飞股份有限公司 | 一种可以通过语音控制家电的控制系统与方法 |
US20160283841A1 (en) * | 2015-03-27 | 2016-09-29 | Google Inc. | Convolutional neural networks |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN105206271A (zh) * | 2015-08-25 | 2015-12-30 | 北京宇音天下科技有限公司 | 智能设备的语音唤醒方法及实现所述方法的系统 |
CN105632486A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
CN105741838A (zh) * | 2016-01-20 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN106534520A (zh) * | 2016-10-28 | 2017-03-22 | 惠州Tcl移动通信有限公司 | 一种基于语音识别的信息发送方法及系统 |
CN106611597A (zh) * | 2016-12-02 | 2017-05-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
Non-Patent Citations (4)
Title |
---|
TARA N. SAINATH: ""Convolutional neural networks for small footprint keyword spotting"", 《INTERSPEECH 2015》 * |
侯一民: ""深度学习在语音识别中的研究进展综述"", 《计算机应用研究》 * |
刘梦君: ""基于神经网络的语音识别点名系统"", 《科技资讯》 * |
石颖: ""基于循环神经网络的语音识别方案的优化与设计"", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108682432A (zh) * | 2018-05-11 | 2018-10-19 | 南京邮电大学 | 语音情感识别装置 |
CN108305639A (zh) * | 2018-05-11 | 2018-07-20 | 南京邮电大学 | 语音情感识别方法、计算机可读存储介质、终端 |
CN110503968A (zh) * | 2018-05-18 | 2019-11-26 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN110503968B (zh) * | 2018-05-18 | 2024-06-04 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN108766418A (zh) * | 2018-05-24 | 2018-11-06 | 百度在线网络技术(北京)有限公司 | 语音端点识别方法、装置及设备 |
US10847179B2 (en) | 2018-05-24 | 2020-11-24 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for recognizing voice endpoints |
CN111066082A (zh) * | 2018-05-25 | 2020-04-24 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别系统和方法 |
WO2019222996A1 (en) * | 2018-05-25 | 2019-11-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for voice recognition |
CN111066082B (zh) * | 2018-05-25 | 2020-08-28 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别系统和方法 |
CN108962260A (zh) * | 2018-06-25 | 2018-12-07 | 福来宝电子(深圳)有限公司 | 一种多人命令语音识别方法、系统及存储介质 |
CN108932943A (zh) * | 2018-07-12 | 2018-12-04 | 广州视源电子科技股份有限公司 | 命令词语音检测方法、装置、设备和存储介质 |
CN109036471A (zh) * | 2018-08-20 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
CN108877779A (zh) * | 2018-08-22 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于检测语音尾点的方法和装置 |
CN109308517A (zh) * | 2018-09-07 | 2019-02-05 | 中国科学院计算技术研究所 | 面向二值神经网络的二值化装置、方法及应用 |
CN110910905B (zh) * | 2018-09-18 | 2023-05-02 | 京东科技控股股份有限公司 | 静音点检测方法及装置、存储介质、电子设备 |
CN110910905A (zh) * | 2018-09-18 | 2020-03-24 | 北京京东金融科技控股有限公司 | 静音点检测方法及装置、存储介质、电子设备 |
CN111091819A (zh) * | 2018-10-08 | 2020-05-01 | 蔚来汽车有限公司 | 语音识别装置和方法、语音交互系统和方法 |
CN110444210B (zh) * | 2018-10-25 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、唤醒词检测的方法及装置 |
CN110444210A (zh) * | 2018-10-25 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、唤醒词检测的方法及装置 |
CN109192210A (zh) * | 2018-10-25 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、唤醒词检测的方法及装置 |
CN109192210B (zh) * | 2018-10-25 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、唤醒词检测的方法及装置 |
CN109448719A (zh) * | 2018-12-11 | 2019-03-08 | 网易(杭州)网络有限公司 | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 |
CN109448719B (zh) * | 2018-12-11 | 2022-09-09 | 杭州易现先进科技有限公司 | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 |
CN109859774A (zh) * | 2019-01-02 | 2019-06-07 | 珠海格力电器股份有限公司 | 语音设备及其端点检测灵敏度调节方法、装置和存储介质 |
CN109859774B (zh) * | 2019-01-02 | 2021-04-02 | 珠海格力电器股份有限公司 | 语音设备及其端点检测灵敏度调节方法、装置和存储介质 |
CN110265002A (zh) * | 2019-06-04 | 2019-09-20 | 北京清微智能科技有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN110265002B (zh) * | 2019-06-04 | 2021-07-23 | 北京清微智能科技有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN110321816A (zh) * | 2019-06-19 | 2019-10-11 | 北京清微智能科技有限公司 | 图像识别方法及装置 |
CN110334244A (zh) * | 2019-07-11 | 2019-10-15 | 出门问问信息科技有限公司 | 一种数据处理的方法、装置及电子设备 |
CN110428854B (zh) * | 2019-08-12 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 车载端的语音端点检测方法、装置和计算机设备 |
CN110428854A (zh) * | 2019-08-12 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 车载端的语音端点检测方法、装置和计算机设备 |
CN110517670A (zh) * | 2019-08-28 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 提升唤醒性能的方法和装置 |
CN110415699A (zh) * | 2019-08-30 | 2019-11-05 | 北京声智科技有限公司 | 一种语音唤醒的判断方法、装置及电子设备 |
CN111739515B (zh) * | 2019-09-18 | 2023-08-04 | 北京京东尚科信息技术有限公司 | 语音识别方法、设备、电子设备和服务器、相关系统 |
CN111161747A (zh) * | 2020-04-03 | 2020-05-15 | 深圳市友杰智新科技有限公司 | 基于Tensorflow唤醒模型的预测方法、装置和计算机设备 |
CN111524528A (zh) * | 2020-05-28 | 2020-08-11 | Oppo广东移动通信有限公司 | 防录音检测的语音唤醒方法及装置 |
CN111881726A (zh) * | 2020-06-15 | 2020-11-03 | 马上消费金融股份有限公司 | 一种活体检测方法、装置及存储介质 |
CN111739521A (zh) * | 2020-06-19 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 电子设备唤醒方法、装置、电子设备及存储介质 |
CN112201259B (zh) * | 2020-09-23 | 2022-11-25 | 北京百度网讯科技有限公司 | 声源定位方法、装置、设备和计算机存储介质 |
CN112201259A (zh) * | 2020-09-23 | 2021-01-08 | 北京百度网讯科技有限公司 | 声源定位方法、装置、设备和计算机存储介质 |
CN112802498A (zh) * | 2020-12-29 | 2021-05-14 | 深圳追一科技有限公司 | 语音检测方法、装置、计算机设备和存储介质 |
CN112289323A (zh) * | 2020-12-29 | 2021-01-29 | 深圳追一科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN112289323B (zh) * | 2020-12-29 | 2021-05-28 | 深圳追一科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN112802498B (zh) * | 2020-12-29 | 2023-11-24 | 深圳追一科技有限公司 | 语音检测方法、装置、计算机设备和存储介质 |
CN112767949A (zh) * | 2021-01-18 | 2021-05-07 | 东南大学 | 一种基于二值权重卷积神经网络的声纹识别系统 |
CN113284517B (zh) * | 2021-02-03 | 2022-04-01 | 珠海市杰理科技股份有限公司 | 语音端点检测方法、电路、音频处理芯片和音频设备 |
CN113284517A (zh) * | 2021-02-03 | 2021-08-20 | 珠海市杰理科技股份有限公司 | 语音端点检测方法、电路、音频处理芯片和音频设备 |
CN113192488B (zh) * | 2021-04-06 | 2022-05-06 | 青岛信芯微电子科技股份有限公司 | 一种语音处理方法及装置 |
CN113192488A (zh) * | 2021-04-06 | 2021-07-30 | 青岛信芯微电子科技股份有限公司 | 一种语音处理方法及装置 |
CN113409773A (zh) * | 2021-08-18 | 2021-09-17 | 中科南京智能技术研究院 | 一种二值化神经网络语音唤醒方法及系统 |
CN115171736A (zh) * | 2022-07-13 | 2022-10-11 | 成都市联洲国际技术有限公司 | 语音活性检测模型的生成方法、处理器与电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108010515B (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108010515A (zh) | 一种语音端点检测和唤醒方法及装置 | |
DE102019122180B4 (de) | Verfahren und system zur schlüsselausdruckserkennung auf der grundlage eines neuronalen netzes | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN103811003B (zh) | 一种语音识别方法以及电子设备 | |
WO2017157183A1 (zh) | 一种自动多阀值特征过滤方法及装置 | |
CN108735202A (zh) | 用于小占用资源关键词检索的卷积递归神经网络 | |
CN112652306B (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN111833866A (zh) | 用于低资源设备的高准确度关键短语检测的方法和系统 | |
WO2023098459A1 (zh) | 语音唤醒方法、装置、电子设备及可读存储介质 | |
CN113782009A (zh) | 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统 | |
CN109215647A (zh) | 语音唤醒方法、电子设备及非暂态计算机可读存储介质 | |
EP4238088A1 (en) | End-to-end streaming acoustic trigger apparatus and method | |
CN114708855A (zh) | 一种基于二值残差神经网络的语音唤醒方法及系统 | |
KR20150105847A (ko) | 음성구간 검출 방법 및 장치 | |
CN112825250A (zh) | 语音唤醒方法、设备、存储介质及程序产品 | |
Liu et al. | A 1D-CRNN inspired reconfigurable processor for noise-robust low-power keywords recognition | |
CN116933751B (zh) | 文章生成方法、装置、电子设备及存储介质 | |
CN113808585A (zh) | 耳机唤醒方法、装置、设备以及存储介质 | |
CN110415729A (zh) | 语音活动检测方法、装置、介质和系统 | |
CN113689866B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
Gong et al. | QCNN inspired reconfigurable keyword spotting processor with hybrid data-weight reuse methods | |
CN113012682B (zh) | 误唤醒率确定方法、装置、设备、存储介质和程序产品 | |
CN112259077B (zh) | 语音识别方法、装置、终端和存储介质 | |
CN112509556B (zh) | 一种语音唤醒方法及装置 | |
Samanta et al. | A Reconfigurable Gaussian Base Normalization Deep Neural Network Design for an Energy-Efficient Voice Activity Detector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |