CN111508475B - 一种机器人唤醒的语音关键词识别方法、装置及存储介质 - Google Patents
一种机器人唤醒的语音关键词识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111508475B CN111508475B CN202010302037.5A CN202010302037A CN111508475B CN 111508475 B CN111508475 B CN 111508475B CN 202010302037 A CN202010302037 A CN 202010302037A CN 111508475 B CN111508475 B CN 111508475B
- Authority
- CN
- China
- Prior art keywords
- voice
- sample
- unit
- robot
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000003062 neural network model Methods 0.000 claims abstract description 38
- 230000001537 neural effect Effects 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000009432 framing Methods 0.000 claims abstract description 11
- 239000002775 capsule Substances 0.000 claims description 66
- 210000005036 nerve Anatomy 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012351 Integrated analysis Methods 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 abstract description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000007963 capsule composition Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
- Toys (AREA)
Abstract
本发明公开了一种机器人唤醒的语音关键词识别方法、装置及存储介质,包括:获取语音样本并进行语音增强,得到语音增强样本;对所述语音增强样本进行分帧处理,得到语音帧;对所述语音帧进行去噪处理,得到语音样本特征;将所述语音样本特征输入到深度神经网络模型进行训练,深度神经网络模型的输出层的每个神经单元得到后验概率;将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词;克服了数据较少或不平衡、受环境噪声影响造成关键词识别鲁棒性较低的问题,提高了语音关键词识别的准确率,从而提高了唤醒机器人的工作效率。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种机器人唤醒的语音关键词识别方法、装置及存储介质。
背景技术
语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术除了应用在常见的智能家居的机器人唤醒与服务、餐饮行业的点餐与服务中,还可以应用在一些如今涉及比较少的领域,例如行政服务的满意度评价、校园暴力的安全预警、商场服务的评价与改进等,应用前景广阔。尽管如此,语音关键词识别技术尚未成熟,导致无法准确地进行人机互动,影响用户体验。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种机器人唤醒的语音关键词识别方法,克服了数据较少或不平衡、受环境噪声影响造成关键词识别鲁棒性较低的问题,提高了语音关键词识别的准确率,从而提高了唤醒机器人的工作效率。
本发明还提出一种应用上述机器人唤醒的语音关键词识别方法的机器人唤醒的语音关键词识别装置。
本发明还提出一种应用上述机器人唤醒的语音关键词识别方法的机器人唤醒的语音关键词识别存储介质。
根据本发明第一方面实施例的机器人唤醒的语音关键词识别方法,包括:
获取语音样本并进行语音增强,得到语音增强样本;
对所述语音增强样本进行分帧处理,得到语音帧;
对所述语音帧进行去噪处理,得到语音样本特征;
将所述语音样本特征输入到深度神经网络模型进行训练,所述深度神经网络模型的输出层的每个神经单元得到后验概率;
将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词。
根据本发明实施例的机器人唤醒的语音关键词识别方法,至少具有如下有益效果:通过语音增强可有效缓解因数据不平衡或者太少而造成的训练效果差或者无法训练等问题;同时去噪处理可有效减少环境噪声对关键词识别造成的影响,具有对不同噪声环境的良好鲁棒性,提高了关键词识别的正确率,从而提高了唤醒机器人的工作效率。
根据本发明的一些实施例,所述语音增强,包括:
将所述语音样本转换为PCM格式,并分为若干段音频;
利用SouthTouch音频处理库估算每段音频音轨的稳定节拍率;
保持音轨稳定节拍率,调节音频的节拍和音调;
结合采样率转换与时间拉伸,将若干段调整后的音频重新组合。
根据本发明的一些实施例,对所述语音帧进行去噪处理,得到语音样本特征,包括:利用堆栈式胶囊自动编码器对所述语音帧进行去噪处理;其中,所述堆栈式胶囊自动编码器包括部件胶囊自动编码器和目标胶囊自动编码器。
根据本发明的一些实施例,利用堆栈式胶囊自动编码器对所述语音帧进行去噪处理,得到语音样本特征,包括:
利用所述部件胶囊自动编码器学习预测所述语音帧的组成部分;
通过对所述组成部分进行仿射变换,得到样本特征部件;
利用所述目标胶囊自动编码器将所述样本特征部件集中于同一目标集合;
所述目标集合对所述样本特征部件进行分开混合预测,得出语音样本特征。
根据本发明的一些实施例,所述将所述语音样本特征输入到深度神经网络模型进行训练,所述深度神经网络模型的输出层的每个神经单元得到后验概率,包括:
从所述语音样本特征中提取梅尔倒谱特征系数MFCC序列;
将所述MFCC序列输入到深度神经网络模型的输入层;
所述输入层对所述MFCC序列进行并行化处理,然后传输至深度神经网络模型的隐藏层;
所述隐藏层计算所述MFCC序列在深度神经网络模型的输出层的每个神经单元下的后验概率。
根据本发明的一些实施例,所述将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词,包括:判断每个神经单元下的后验概率是否为最大;
若为最大,判断每个神经单元下的后验概率是否存在连续的数值子段均大于预设阈值的概率序列;
若存在,判断该连续的数值子段所对应起始帧与结束帧之间的持续时间是否大于预设时间;
若是,将该连续的数值子段所属的神经单元对应的关键词作为待识别的输入语音所表示的关键词。
根据本发明第二方面实施例的机器人唤醒的语音关键词识别装置,还包括:预处理单元,用于获取语音样本并进行语音增强,得到语音增强样本;
分帧单元,用于对所述语音增强样本进行分帧处理,得到语音帧;
去噪单元,用于对所述语音帧进行去噪处理,得到语音样本特征;
训练单元,用于将所述语音样本特征输入到深度神经网络模型进行训练,深度神经网络模型的输出层的每个神经单元得到后验概率;
综合分析单元,用于将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词。
根据本发明的一些实施例,所述预处理单元包括:
采集单元,用于获取语音样本;
增强单元,用于对所述语音样本进行语音增强。
根据本发明的一些实施例,所述综合分析单元包括:
组合单元,用于将所述后验概率组合成后验概率序列;
对比单元,用于将所述后验概率序列与预设阈值概率序列进行比较;
识别单元,用于确定输入语音的关键词。
根据本发明实施例的机器人唤醒的语音关键词识别装置,至少具有如下有益效果:通过上述的机器人唤醒的语音关键词识别方法,克服了数据较少或不平衡、受环境噪声影响造成关键词识别鲁棒性较低的问题,提高了语音关键词识别的准确率,从而提高了唤醒机器人的工作效率。
根据本发明第三方面实施例的机器人唤醒的语音关键词识别存储介质,能够应用根据本发明上述第一方面实施例的机器人唤醒的语音关键词识别方法。
根据本发明实施例的机器人唤醒的语音关键词识别存储介质,至少具有如下有益效果:机器人唤醒的语音关键词识别存储介质存储有机器人唤醒的语音关键词识别装置的机器人唤醒的语音关键词识别方法指令,能够克服了数据较少或不平衡、受环境噪声影响造成关键词识别鲁棒性较低的问题,提高了语音关键词识别的准确率,从而提高了唤醒机器人的工作效率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例一的机器人唤醒的语音关键词识别方法的流程图;
图2为本发明实施例一的机器人唤醒的语音关键词识别方法中的语音增强的工作流程图;
图3为本发明实施例一的机器人唤醒的语音关键词识别方法中的去噪处理的工作流程图;
图4为本发明实施例一的机器人唤醒的语音关键词识别方法中的训练分析识别的工作流程图;
图5为本发明实施例二的机器人唤醒的语音关键词识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明的描述中,除非另有明确的限定,设置、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
实施例一
参照图1,本发明实施例一提供了一种机器人唤醒的语音关键词识别方法,其中的一种实施例包括但不限于以下步骤:
步骤S100,获取语音样本并进行语音增强,得到语音增强样本。
在本实施例中,本步骤获取语音样本,然后对语音样本进行增强处理,能够有效地缓解因为数据不平衡或者数据太少而做成训练效果差或者无法训练的问题,为了后续的关键词识别做好准备。
步骤S200,对所述语音增强样本进行分帧处理,得到语音帧。
在本实施例中,本步骤对上述所获得的语音增强样本进行分帧处理,从而得到语音帧,为了后续的机器人的唤醒关键词做好数据处理准备。
步骤S300,对所述语音帧进行去噪处理,得到语音样本特征。
在本实施例中,本步骤对语音帧进行去噪处理,能够有效地减少环境噪声对关键识别造成的影响,很好地提高了机器人的关键词识别的准确度。
步骤S400,将所述语音样本特征输入到深度神经网络模型进行训练,深度神经网络模型的输出层的每个神经单元得到后验概率。
在本实施例中,本步骤利用深度学习方法对选取的语音样本进行深度神经网络训练得到深度神经网络模型;其中,深度神经网络模型结构包括由MFCC序列对应的神经单元组成的输入层、由非线性映射单元组成的隐藏层和由每个语音帧的后验概率对应的神经单元组成的输出层。
步骤S500,将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词。
在本实施例中,本步骤将后验概率组合成后验概率序列,然后将后验概率序列与预设阈值概率序列进行比较,从而确定输入语音的关键词,提高了关键词识别的正确率。
参照图2,本实施例的步骤S100中,可以包括但不限于以下步骤:
步骤S110,将所述语音样本转换为PCM格式,并分为若干段音频。
在本实施例中,本步骤将获取得到的语音样本转换为PCM格式,并且分为若干段音频,为了音频的调节做好准备。
步骤S120,利用SouthTouch音频处理库估算每段音频音轨的稳定节拍率。
在本实施例中,本步骤利用SouthTouch音频处理库来估算上述分割而成的音频音轨的稳定节拍率。
步骤S130,保持音轨稳定节拍率,调节音频的节拍和音调。
在本实施例中,本步骤保持音轨稳定节拍率,然后对音频的节拍和音调进行调节处理。
步骤S140,结合采样率转换与时间拉伸,将若干段调整后的音频重新组合。
在本实施例中,本步骤将上述经过调节的音频在结合采样率转换与时间拉伸的基础上进行重新组合处理,以此完成语音增强处理,克服了语音数据集较少并且数据分布不均衡的问题。
在本实施例中,步骤S300中对语音帧进行去噪处理是利用堆栈式胶囊自动编码器进行去噪处理。其中,堆栈式胶囊自动编码器包括部件胶囊自动编码器和目标胶囊自动编码器。堆栈式胶囊自动编码器(SCAE)的两个组成部分为部件胶囊自动编码器(PartCapsule Autoencoder,PCAE)和目标胶囊自动编码器(Object Capsule Autoencoder,OCAE)。其中,部件胶囊自动编码器:编码器学习去推断不同部件胶囊的特征和参数,而解码器学习每个部件的特征模板,模板对应的部件是使用其参数的仿射变换,而这些变换过的参数被用来为每个语音样本特征创建单独的混合模型。目标胶囊自动编码器:把部件胶囊集中起来作为目标集合,通过学习目标集合中元素的关系来预测多个目标胶囊,每个目标胶囊能够对应每个语音帧样本特征的所有属性,预测目标胶囊后的每个部件胶囊都可以被解释为是目标胶囊预测的独立混合。
参照图3,本实施例的步骤S300中,可以包括但不限于以下步骤:
步骤S310,利用部件胶囊自动编码器学习预测所述语音帧的组成部分。和步骤S320,通过对所述组成部分进行仿射变换,得到样本特征部件。
在本实施例中,上述步骤利用部件胶囊自动编码器预测每个语音帧的组成部分,即四个特征参数:频谱包络、对数基频(F0)、浊音/清音判决和频谱包络的非周期能量,并通过对组成部分进行适当的排列仿射变换来重新输出多个语音帧的语音样本特征。为了预测部件胶囊参数,我们使用基于DNN的编码器,每个部件胶囊m有一个四维的元素xm,一个存在变量cm∈[0,1]和一个自身唯一的特征zm。编码器学习去预测不同部件胶囊的元素和存在变量,而解码器学习每个部件的特征模板Tm,若根据每个部件的存在变量得知该部件存在,则相应模板对应的部件是使用其元素的仿射变换,预测的元素为而转换后的模板合成到音频中。不同元素的混合概率与部件胶囊的存在概率和每个模板的学习α通道的值的乘积成比例。令y∈[0,1]表示音频,将部件胶囊的最大数量限制为M,并使用编码器来预测它们的元素xm、存在概率cm和唯一特征zm,其中元素xm包括每个语音帧的组成部分即频谱包络,对数基频,浊清音判决和频谱包络的非周期能量,这些都是通过WORLD声码器将语音音频编码而得;而唯一特征zm对应于每个胶囊的相位谱,以区分于其余的部件胶囊,还会与目标胶囊的相应部分对应。
其中,部件胶囊自动编码器中利用到的算法公式如下:
预测部件胶囊组成元素参数:x1:M,c1:M,z1:M=henc(y)
预测部件胶囊的相位谱:sm=MLP(zm)
计算音频的可能性:
步骤S330,利用所述目标胶囊自动编码器将所述样本特征部件集中于同一目标集合;和步骤S340,所述目标集合对所述样本特征部件进行分开混合预测,得出语音样本特征。
在本实施例中,利用目标胶囊自动编码器将学习预测的各个组成部分集中在一个目标集合,这个目标集合对每个组成部分进行分开混合预测,从而解释多个语音帧的整体样本特征,合成干净的语音样本特征。把部件胶囊集中起来作为目标集合,通过SetTransformer模型学习集合中各个元素的成对关系以及高阶关系,输出K个目标胶囊实例;对K个目标胶囊使用MLP解码,基于每个目标胶囊与所有部件胶囊之间的隶属关系,使用高斯混合模型来建模,预测高斯混合模型每个高斯成分的均值和方差,即每个部件胶囊m的元素可看成是多个目标胶囊贡献的高斯混合,那么第k个目标胶囊对第m个部件胶囊的贡献为p(xm|k,m)。每个部件元素被解释为来自目标胶囊的预测的独立混合,其中每个目标胶囊做出M个候选预测或每个部件元素做出一个候选预测,即部件胶囊及其属性被目标胶囊整体的高斯混合来进行重构解释的极大似然估计。
其中,目标胶囊自动编码器计算部件胶囊的可能性算法公式可表示为:
参照图4,本实施例的步骤S400和步骤S500中,可以包括但不限于以下步骤:
步骤S410,提取每个语音帧对应的MFCC序列;
步骤S420,并行化输入深度神经网络模型训练;
步骤S430,计算每个语音帧的MFCC序列在深度神经网络模型的输出层的每个神经单元下的后验概率;
步骤S440,判断深度神经网络模型的输出层的每个神经单元下的后验概率是否为最大;若是,执行步骤S510;若非,执行步骤S450;
步骤S450,反向传播算法对模型调参,再转向执行步骤S420;
步骤S510,每个神经单元下的后验概率存在一个连续的数值子段均大于预设阈值的概率序列;
步骤S520,判断每个神经单元下的后验概率是否存在一个连续的数值子段均大于预设阈值的概率序列;若存在,执行步骤S540;若不存在,则反馈关键词识别不出来;
步骤S540,该连续的数值子段所对应起始帧与结束帧之间的持续时间大于预设时间;
步骤S550,判断该连续的数值子段所对应起始帧与结束帧之间的持续时间是否大于预设时间;若大于,执行步骤S570;若不大于,则反馈关键词可能相似;
步骤S570,将该连续的数值子段所属的神经单元对应的关键词作为待识别的输入语音所表示的关键词。
在本实施例中,利用深度学习方法对选取的语音样本进行深度神经网络训练得到深度神经网络模型,其中,深度神经网络模型结构包括:由MFCC序列对应的神经单元组成的输入层、由非线性映射单元组成的隐藏层和由每个语音帧的后验概率对应的神经单元组成的输出层,输出层的神经单元包括每个关键词对应的神经单元、一个环境音的神经单元和一个非关键词的神经单元,即若训练得到N个关键词的深度神经网络模型,则该深度神经网络模型的输出层的神经单元的个数为N+2。
首先,将经过去噪处理的每个语音帧的语音样本特征中具有辨识性的成分提取出来,得到每个语音帧对应的梅尔倒谱特征系数MFCC序列,其中,该梅尔倒谱特征系数MFCC序列具有n维的特性,将每个语音帧对应的n维的MFCC序列作为预设的深度神经网络的输入层的输入特征,因此,将深度神经网络的输入层设置为n个神经单元,输入层的每个神经单元之间相互独立。其中,式中f为每个语音帧的频率,单位为Hz。
接着,对输入的每个语音帧的n维的MFCC序列进行并行化处理后,传输至深度神经网络的隐藏层,隐藏层由非线性映射单元组成,并分别计算每个语音帧的MFCC序列在深度神经网络模型的输出层的每个神经单元下的后验概率,输出层的每个神经单元之间相互独立,所以并行识别可实现,且输出层的每个神经单元下均存在一个后验概率序列。
接着,判断每个语音帧在对应的神经单元下的后验概率是否最大,若不为最大,则利用反向传播算法对深度神经网络模型的参数进行微调,直到每个语音帧均在对应的神经单元下的后验概率最大。
其中,每个语音帧在深度神经网络模型的输出层的对应神经单元下应该存在一串取值较大的后验概率序列,而在输出层的其他神经单元下不存在一串取值较大的后验概率序列或者存在几个断断续续的取值较大的后验概率序列;反之,则利用反向传播算法对该深度神经网络的模型的参数进行调整,使得输入的每个语音帧在深度神经网络模型的输出层中对应的神经单元下得到最大的后验概率值。
最后,判断每个语音帧的后验概率序列是否存在一个连续的数值子段均大于预设阈值的概率序列,若该输出层的神经单元所对应的关键词为待识别的输入语音的关键词,则待识别的输入语音的多个语音帧在深度神经网络中对应的神经单元下存在一个连续的数值子段均大于预设阈值的概率序列。若存在,为了排除关键词相似的情况,则继续判断该连续的数值子段所对应起始帧与结束帧之间的持续时间是否大于预设时间,若是,则将该连续的数值子段所属的神经单元对应的关键词作为待识别的输入语音所表示的关键词。
通过上述方案可知,通过语音增强可有效缓解因数据不平衡或者太少而造成的训练效果差或者无法训练等问题;同时对语音帧进行去噪处理可有效减少环境噪声对关键词识别造成的影响,具有对不同噪声环境的良好鲁棒性,提高了关键词识别的正确率,从而提高了唤醒机器人的工作效率。
实施例二
参照图5,本发明实施例二提供了一种机器人唤醒的语音关键词识别装置1000,包括:
预处理单元1100,用于获取语音样本并进行语音增强,得到语音增强样本;
分帧单元1200,用于对所述语音增强样本进行分帧处理,得到语音帧;
去噪单元1300,用于对所述语音帧进行去噪处理,得到语音样本特征;
训练单元1400,用于将所述语音样本特征输入到深度神经网络模型进行训练,深度神经网络模型的输出层的每个神经单元得到后验概率;
综合分析单元1500,用于将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词。
在本实施例中,预处理单元1100包括:
采集单元1110,用于获取语音样本;
增强单元1120,用于对所述语音样本进行语音增强。
在本实施例中,综合分析单元1500包括:
组合单元1510,用于将所述后验概率组合成后验概率序列;
对比单元1520,用于将所述后验概率序列与预设阈值概率序列进行比较;
识别单元1530,用于确定输入语音的关键词。
需要说明的是,由于本实施例中的机器人唤醒的语音关键词识别装置与上述实施例一中的机器人唤醒的语音关键词识别方法基于相同的发明构思,因此,方法实施例一中的相应内容同样适用于本系统实施例,此处不再详述。
通过上述方案可知,预处理单元1100能够获取语音样本并进行语音增强,有效缓解因数据不平衡或者太少而造成的训练效果差或者无法训练等问题;去噪单元1300对语音帧进行去噪处理,可有效减少环境噪声对关键词识别造成的影响,具有对不同噪声环境的良好鲁棒性,提高了关键词识别的正确率,从而提高了唤醒机器人的工作效率。
实施例三
本发明实施例三还提供了一种机器人唤醒的语音关键词识别存储介质,所述机器人唤醒的语音关键词识别存储介质存储有机器人唤醒的语音关键词识别装置可执行指令,机器人唤醒的语音关键词识别装置可执行指令用于使机器人唤醒的语音关键词识别装置执行上述的机器人唤醒的语音关键词识别方法,例如,执行以上描述的图1中的方法步骤S100至S500,实现图5中的单元1000-1530的功能。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种机器人唤醒的语音关键词识别方法,其特征在于,包括:
获取语音样本并进行语音增强,得到语音增强样本;
对所述语音增强样本进行分帧处理,得到语音帧;
对所述语音帧进行去噪处理,得到语音样本特征;
将所述语音样本特征输入到深度神经网络模型进行训练,所述深度神经网络模型的输出层的每个神经单元得到后验概率;
将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词;
其中,对所述语音帧进行去噪处理,得到语音样本特征,包括:
利用堆栈式胶囊自动编码器对所述语音帧进行去噪处理;
其中,所述堆栈式胶囊自动编码器包括部件胶囊自动编码器和目标胶囊自动编码器;
利用堆栈式胶囊自动编码器对所述语音帧进行去噪处理,得到语音样本特征,包括:
利用所述部件胶囊自动编码器学习预测所述语音帧的组成部分;
通过对所述组成部分进行仿射变换,得到样本特征部件;
利用所述目标胶囊自动编码器将所述样本特征部件集中于同一目标集合;
所述目标集合对所述样本特征部件进行分开混合预测,得出语音样本特征。
2.根据权利要求1所述的一种机器人唤醒的语音关键词识别方法,其特征在于,所述语音增强,包括:
将所述语音样本转换为PCM格式,并分为若干段音频;
利用SouthTouch音频处理库估算每段音频音轨的稳定节拍率;
保持音轨稳定节拍率,调节音频的节拍和音调;
结合采样率转换与时间拉伸,将若干段调整后的音频重新组合。
3.根据权利要求1所述的一种机器人唤醒的语音关键词识别方法,其特征在于,所述将所述语音样本特征输入到深度神经网络模型进行训练,所述深度神经网络模型的输出层的每个神经单元得到后验概率,包括:
从所述语音样本特征中提取梅尔倒谱特征系数MFCC序列;
将所述MFCC序列输入到深度神经网络模型的输入层;
所述输入层对所述MFCC序列进行并行化处理,然后传输至深度神经网络模型的隐藏层;
所述隐藏层计算所述MFCC序列在深度神经网络模型的输出层的每个神经单元下的后验概率。
4.根据权利要求1所述的一种机器人唤醒的语音关键词识别方法,其特征在于,所述将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词,包括:
判断每个神经单元下的后验概率是否为最大;
若为最大,判断每个神经单元下的后验概率是否存在连续的数值子段均大于预设阈值的概率序列;
若存在,判断该连续的数值子段所对应起始帧与结束帧之间的持续时间是否大于预设时间;
若是,将该连续的数值子段所属的神经单元对应的关键词作为待识别的输入语音所表示的关键词。
5.一种机器人唤醒的语音关键词识别装置,其特征在于,包括:
预处理单元,用于获取语音样本并进行语音增强,得到语音增强样本;
分帧单元,用于对所述语音增强样本进行分帧处理,得到语音帧;
去噪单元,用于对所述语音帧进行去噪处理,得到语音样本特征;
训练单元,用于将所述语音样本特征输入到深度神经网络模型进行训练,深度神经网络模型的输出层的每个神经单元得到后验概率;
综合分析单元,用于将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词;
其中,对所述语音帧进行去噪处理,得到语音样本特征,包括:
利用堆栈式胶囊自动编码器对所述语音帧进行去噪处理;
其中,所述堆栈式胶囊自动编码器包括部件胶囊自动编码器和目标胶囊自动编码器;
利用堆栈式胶囊自动编码器对所述语音帧进行去噪处理,得到语音样本特征,包括:
利用所述部件胶囊自动编码器学习预测所述语音帧的组成部分;
通过对所述组成部分进行仿射变换,得到样本特征部件;
利用所述目标胶囊自动编码器将所述样本特征部件集中于同一目标集合;
所述目标集合对所述样本特征部件进行分开混合预测,得出语音样本特征。
6.根据权利要求5所述的一种机器人唤醒的语音关键词识别装置,其特征在于:所述预处理单元包括:
采集单元,用于获取语音样本;
增强单元,用于对所述语音样本进行语音增强。
7.根据权利要求6所述的一种机器人唤醒的语音关键词识别装置,其特征在于:所述综合分析单元包括:
组合单元,用于将所述后验概率组合成后验概率序列;
对比单元,用于将所述后验概率序列与预设阈值概率序列进行比较;
识别单元,用于确定输入语音的关键词。
8.一种机器人唤醒的语音关键词识别存储介质,其特征在于:所述机器人唤醒的语音识别存储介质存储有机器人唤醒的语音关键词识别装置可执行指令,机器人唤醒的语音关键词识别装置可执行指令用于使机器人唤醒的语音关键词识别装置执行如权利要求1至4任一所述的机器人唤醒的语音关键词识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010302037.5A CN111508475B (zh) | 2020-04-16 | 2020-04-16 | 一种机器人唤醒的语音关键词识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010302037.5A CN111508475B (zh) | 2020-04-16 | 2020-04-16 | 一种机器人唤醒的语音关键词识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508475A CN111508475A (zh) | 2020-08-07 |
CN111508475B true CN111508475B (zh) | 2022-08-09 |
Family
ID=71864190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010302037.5A Active CN111508475B (zh) | 2020-04-16 | 2020-04-16 | 一种机器人唤醒的语音关键词识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508475B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200144366A (ko) * | 2019-06-18 | 2020-12-29 | 엘지전자 주식회사 | 로봇을 위한 기동어 인식 모델의 생성 |
CN113689865A (zh) * | 2021-08-24 | 2021-11-23 | 广东优碧胜科技有限公司 | 采样率切换方法、装置、电子设备以及语音系统 |
CN116229987B (zh) * | 2022-12-13 | 2023-11-21 | 广东保伦电子股份有限公司 | 一种校园语音识别的方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105489222A (zh) * | 2015-12-11 | 2016-04-13 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN108711429A (zh) * | 2018-06-08 | 2018-10-26 | Oppo广东移动通信有限公司 | 电子设备及设备控制方法 |
CN109712609A (zh) * | 2019-01-08 | 2019-05-03 | 华南理工大学 | 一种解决关键词识别样本不均衡的方法 |
CN110246509A (zh) * | 2019-06-15 | 2019-09-17 | 河南工业大学 | 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 |
WO2020017226A1 (ja) * | 2018-07-17 | 2020-01-23 | 国立研究開発法人情報通信研究機構 | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム |
-
2020
- 2020-04-16 CN CN202010302037.5A patent/CN111508475B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105489222A (zh) * | 2015-12-11 | 2016-04-13 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN108711429A (zh) * | 2018-06-08 | 2018-10-26 | Oppo广东移动通信有限公司 | 电子设备及设备控制方法 |
WO2020017226A1 (ja) * | 2018-07-17 | 2020-01-23 | 国立研究開発法人情報通信研究機構 | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム |
CN109712609A (zh) * | 2019-01-08 | 2019-05-03 | 华南理工大学 | 一种解决关键词识别样本不均衡的方法 |
CN110246509A (zh) * | 2019-06-15 | 2019-09-17 | 河南工业大学 | 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 |
Also Published As
Publication number | Publication date |
---|---|
CN111508475A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Purwins et al. | Deep learning for audio signal processing | |
CN111508475B (zh) | 一种机器人唤醒的语音关键词识别方法、装置及存储介质 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN103531205B (zh) | 基于深层神经网络特征映射的非对称语音转换方法 | |
CN101751921B (zh) | 一种在训练数据量极少条件下的实时语音转换方法 | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN110767210A (zh) | 一种生成个性化语音的方法及装置 | |
CN110349597A (zh) | 一种语音检测方法及装置 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
CN111583965A (zh) | 一种语音情绪识别方法、装置、设备及存储介质 | |
Dave et al. | Speech recognition: A review | |
CN115331658B (zh) | 一种语音识别方法 | |
CN116347723A (zh) | 一种可调灯光样色的声控型墙壁开关的控制系统 | |
Chetouani et al. | Neural predictive coding for speech discriminant feature extraction: The DFE-NPC. | |
Aggarwal et al. | Application of genetically optimized neural networks for hindi speech recognition system | |
Tripathy et al. | A knowledge based approach using fuzzy inference rules for vowel recognition. | |
CN111063335B (zh) | 一种基于神经网络的端到端声调识别方法 | |
CN111259188B (zh) | 一种基于seq2seq网络的歌词对齐方法及系统 | |
Wu et al. | Nonlinear speech coding model based on genetic programming | |
Yuan et al. | Vector quantization codebook design method for speech recognition based on genetic algorithm | |
Saraf et al. | A Zero-Shot Approach to Identifying Children's Speech in Automatic Gender Classification | |
Yingle et al. | Speaker gender identification based on combining linear and nonlinear features | |
CN115482837B (zh) | 一种基于人工智能的情绪分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |