CN116884405A - 语音指令识别方法、设备及可读存储介质 - Google Patents
语音指令识别方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN116884405A CN116884405A CN202310815659.1A CN202310815659A CN116884405A CN 116884405 A CN116884405 A CN 116884405A CN 202310815659 A CN202310815659 A CN 202310815659A CN 116884405 A CN116884405 A CN 116884405A
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- filtering
- initial
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000001914 filtration Methods 0.000 claims abstract description 115
- 230000005236 sound signal Effects 0.000 claims abstract description 71
- 239000012634 fragment Substances 0.000 claims description 16
- 230000003321 amplification Effects 0.000 claims description 10
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 61
- 230000008569 process Effects 0.000 description 6
- 108010076504 Protein Sorting Signals Proteins 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种语音指令识别方法、设备及可读存储介质,属于语音识别技术领域。本申请通过在当前采集的音频信号的信号幅值大于第一阈值时,以当前时刻为基准点,基于预设步长截取初始指令信号;获取所述初始指令信号对应的区间之前的相邻区间对应的基础音频信号,所述相邻区间的区间长度为预设值;确定所述采集设备对应的位置信息以及所述基准点对应的世界时间;基于所述位置信息和所述世界时间确定滤波模型;根据所述滤波模型以及所述基础音频信号,对所述初始指令信号做噪声滤除;基于滤除噪声后的所述初始指令信号,识别语音指令。实现了在非平稳噪声环境中准确识别语音指令的有益效果。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及语音指令识别方法、设备及可读存储介质。
背景技术
目前,市场已经存在大量语音识别控制的智能家电产品,这些产品设置拾音麦克风(单麦克风、或多麦克风阵列),能够对平稳噪声或与人声方向不一致的噪声实现降噪效果。
但是,在嘈杂的商场或售卖环境,由于不同时间段的人群流量不同,所产生的噪声,是一种非平稳噪声,且由于该噪声源的类型杂、数量多、音量大,容易混淆人发出的语音指令。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种语音指令识别方法、装置、设备及可读存储介质,旨在解决家电设备在商场或售卖环境下的语音指令识别准确率不高的技术问题。
为实现上述目的,本申请提供一种语音指令识别方法,所述语音指令识别方法包括以下步骤:
所述语音指令识别方法包括以下步骤:
在当前采集的音频信号的信号幅值大于第一阈值时,以当前时刻为基准点,基于预设步长截取初始指令信号;
获取所述初始指令信号对应的区间之前的相邻区间对应的基础音频信号,所述相邻区间的区间长度为预设值;
确定所述采集设备对应的位置信息以及所述基准点对应的世界时间;
基于所述位置信息和所述世界时间确定滤波模型;
根据所述滤波模型以及所述基础音频信号,对所述初始指令信号做噪声滤除;
基于滤除噪声后的所述初始指令信号,识别语音指令。
可选地,所述基于所述位置信息和所述世界时间确定滤波模型的步骤包括:
获取所述位置信息对应的滤波模型库,其中,所述滤波模型库包括若干与历史音频信号对应的滤波模型;
基于所述滤波模型库,确定所述世界时间对应的滤波模型。
可选地,所述获取所述初始指令信号对应的区间之前的相邻区间对应的基础音频信号,所述相邻区间的区间长度为预设值的步骤之后还包括:
基于所述预设值和所述世界时间,确定所述基础音频信号的采集时间;
基于所述滤波模型库,确定所述采集时间对应的初始滤波模型;
基于所述基础音频信号和所述初始滤波模型,得到所述采集时间对应的更新滤波模型。
可选地,所述基于所述基础音频信号和所述初始滤波模型,得到所述采集时间对应的更新滤波模型的步骤包括:
配置与所述基础音频信号对应的基础滤波参数;
基于所述初始滤波模型对应的初始滤波参数和所述基础滤波参数,确定更新滤波参数;
基于所述更新滤波参数,确定所述采集时间对应的更新滤波模型。
可选地,所述基于滤除噪声后的所述初始指令信号,识别语音指令的步骤包括:
对滤除噪声后的所述初始指令信号进行语义识别,以确定文本信息;
基于预设语音指令,对所述文本信息进行语义相似度检测;
基于语义相似度检测结果,提取所述文本信息中的语音指令,以执行所述语音指令对应的动作。
可选地,所述提取所述文本信息中的语音指令,以执行所述语音指令对应的动作的步骤之后还包括:
若所述文本信息中包括若干语音指令,截取滤除噪声后的所述初始指令信号中所述若干语音指令对应的声音片段;
若所述声音片段包括预设声纹信息,则执行所述预设声纹信息对应的语音指令;
若所述声音片段不包括所述预设声纹信息,则执行所述声音片段中距离所述基准点最远的声音片段对应的语音指令。
可选地,所述在当前采集的音频信号的信号幅值大于第一阈值时的步骤之前包括:
提取当前采集的所述音频信号的声学特征,并对所述声学特征进行分帧和窗函数处理,以得到每一帧声学特征中预设窗口数量的时域数据;
对所述时域数据进行快速傅里叶变换,得到预设窗口数量的频域数据;
将预设时长的频域数据进行叠加,得到语谱图。
可选地,所述基于滤除噪声后的所述初始指令信号,识别语音指令的步骤之前包括:
检测所述基础音频信号的信号幅值是否大于第二阈值;
若所述基础音频信号的信号幅值大于所述第二阈值,则对滤除噪声后的所述初始指令信号做增益放大处理,以获取人声增益指令信息。
此外,为实现上述目的,本申请还提供一种语音指令识别设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音指令识别程序,所述语音指令识别程序配置为实现上述的语音指令识别方法的步骤。
此外,为实现上述目的,本申请还提供一种可读存储介质,所述可读存储介质上存储有语音指令识别程序,所述语音指令识别程序被处理器执行时实现上述的语音指令识别方法的步骤。
在本申请中,为了解决家电设备在商场或售卖环境下的语音识别准确率不高的技术问题,本申请通过在当前采集的音频信号的信号幅值大于第一阈值时,以当前时刻为基准点,基于预设步长截取初始指令信号;获取所述初始指令信号对应的区间之前的相邻区间对应的基础音频信号,所述相邻区间的区间长度为预设值;确定所述采集设备对应的位置信息以及所述基准点对应的世界时间;基于所述位置信息和所述世界时间确定滤波模型;根据所述滤波模型以及所述基础音频信号,对所述初始指令信号做噪声滤除;基于滤除噪声后的所述初始指令信号,识别语音指令。能够在非平稳噪声环境中,为根据采集设备所处的位置和采集信息,自适应匹配对应的滤波模型以及实时确定环境噪音,从而实现准确识别语音指令的有益效果。
附图说明
图1为本申请语音指令识别方法第一实施例的流程图;
图2为本申请语音指令识别方法第一实施例中采集的音频信号的语谱图;
图3为本申请语音指令识别方法第二实施例的流程图;
图4为本申请语音指令识别方法第三实施例的流程图;
图5为本申请语音指令识别方法第三实施例的第二阈值示意图;
图6为本申请语音指令识别方法第四实施例的流程图;
图7为本申请实施例方案涉及的硬件运行环境的语音指令识别设备的结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
目前,市场已经存在大量语音识别控制的智能家电产品,这些产品设置拾音麦克风(单麦克风、或多麦克风阵列),能够对平稳噪声或与人声方向不一致的噪声实现降噪效果。
但是,在嘈杂的商场或售卖环境,由于不同时间段的人群流量不同,所产生的噪声,是一种非平稳噪声。因此,依靠固定频率的传统滤波器来滤除噪音,无法达到较好的噪音滤除效果,导致语音指令的识别准确率不高。
为了克服上述问题,本申请通过预设第一阈值确定是否存在初始指令信号,并且出于噪音在时间与空间上的连续性,初始指令信号对应的区间之前的相邻区间对应的基础音频信号无限接近于接近当前时刻的环境噪音。但不排除初始指令信号中存在突变噪声的概率,为此本申请根据该采集设备所处的位置信息和基准点对应的世界时间,从滤波模型库中选定对应的滤波模型,以进一步滤除可能存在的突变噪音,最终基于滤除了环境噪音和突变噪音的初始指令信号,识别语音指令。达到了自适应非平稳噪声环境,准确识别语音指令的有益效果。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种语音指令识别方法,参照图1,图1为本申请一种语音指令识别方法第一实施例的流程示意图。
本实施例中,所述语音指令识别方法包括:
步骤S10:在当前采集的音频信号的信号幅值大于第一阈值时,以当前时刻为基准点,基于预设步长截取初始指令信号;
可选地,本申请应用于支持语音控制的智能家电设备,内置用于采集音频信号的采集装置,该采集装置内置麦克风阵列,麦克风阵列由几个到上千个麦克风,按照一定规则排列组成。最常用的阵型包括线性(平面180度收音,但无法区分水平和垂直角度,比如微软Kinect等游戏设备,智能交互大屏)、环形(适用于平面360度收音,可以区分水平与垂直角度,比如圆柱形音箱)和矩形(可以区分水平和垂直角度)等。所有麦克风的频率响应一致,麦克风的采样时钟也是同步的。用于实时周围环境中的音频信号,并将采集到的音频信号录制存储在存储器中形成录音。
可选地,处理器在对音频信号进行分析和处理之前,需要提取所述音频信号中的声学特征。常见的特征提取都是基于人类的发声机理和听觉感知,从发声机理到听觉感知认识声音的本质。例如:感知线性预测(PLP),PLP是一种基于听觉模型的特征参数。该参数是一种等效于LPC(线性预测系数)的特征,也是全极点模型预测多项式的一组系数。不同之处是PLP是基于入耳昕觉,通过计算应用到频谱分析中,将输入语音信号经过入耳听觉模型处理,替代LPC所用的时域信号,这样的优点是有利于抗噪语音特征的提取。梅尔频率倒谱系数(MFCC),MFCC也是基于入耳听觉特性,梅尔频率倒谱频带划分是在Mel刻度上等距划的,Mel频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性,所以可以使得语音信号有着更好的表示。基于滤波器组的特征Fbank(Filterbank),Fbank特征提取方法就是相当于MFCC去掉最后一步的离散余弦变换,跟MFCC特征,Fbank特征保留了更多的原始语音数据。语谱图(Spectrogram),语谱图就是语音频谱图,一般是通过处理接收的时域信号得到频谱图,因此只要有足够时间长度的时域信号就可。语谱图的特点是观察语音不同频段的信号强度,可以看出随时间的变化情况。
在本实施例中参照上述声学特征提取方法,生成语谱图。本实施例所指语谱图可以理解为在一段时间内的频谱图叠加而成,因此提取语谱图的主要步骤分为:分帧、加窗、快速傅立叶变换(FFT)。
作为一种实施方式,由于声音信号在宏观上是不平稳的,在微观上是平稳的,具有短时平稳性(10-30ms内可以认为声音信号近似不变为一个音素的发音),一般情况下取25ms。为了处理声音信号,对其进行加窗,也就是一次仅处理窗中的数据。本实施例的加窗操作指的就是汉明窗操作,原理就是把一帧内的数据乘以一个函数并得到新的一帧数据。且由于声音信号在时域上比较难看出其特性,所以通常转换为频域上的能量分布,所以本申请对每帧经过汉明窗处理的数据进行快速傅立叶变换(FFT),将时域图转换成各帧的频谱。原理是假设一个窗内的信号是代表一个周期的信号(也就是说窗的左端和右端大致可以连续),而通常一小段音频数据没有明显的周期性,加上汉明窗后,数据就比较接近周期函数了。此外,由于加上汉明窗,只有中间的数据体现出来了,两边的数据信息丢失了,所以移窗时要求有重叠的部分,如当窗口取了25ms时,步长可以取10ms。将每个窗口的频域数据进行叠加,得到语谱图。
在本实施例中,由于用户在下达语音指令时,很自然地会提高音量以盖过周围的环境噪音,因此预设第一阈值,参照图2,图2为本申请语音指令识别方法第一实施例中采集的音频信号的语谱图。当采集的音频信号的幅值大于第一阈值时,确定存在初始指令信号,所述初始指令信号包括噪音与用户指令。这里的“噪音”定义为所需语音指令以外的所有干扰信号。干扰信号可以是窄带的或宽带的、白噪声的或有色噪声的、声学的或电学的、加性的或乘性的,甚至可以是其它无关的语音。
可选地,为了使截取的初始指令信号中包含完整的语音指令和尽可能少的噪音,本申请通过预设步长完成初始指令信号的截取。
例如,预设步长为基准点向前0.5s以及基准点向后2.5S形成的3s区间长度。此外,本实施例中所例举的数值并不构成对预设步长的限定,在实践中,可根据语音指令长度和实际需要,自设定具体的预设步长,本申请不对预设步长的具体数值做限定。
步骤S20:获取所述初始指令信号对应的区间之前的相邻区间对应的基础音频信号,所述相邻区间的区间长度为预设值;
可选地,出于噪音在时间与空间上的连续性,初始指令信号对应的区间之前的相邻区间对应的基础音频信号无限接近于当前时刻的环境噪音。其中,所述相邻区间的区间长度与的预设值与所述预设步长相对应。
步骤S30:确定所述采集设备对应的位置信息以及所述基准点对应的世界时间;
步骤S40:基于所述位置信息和所述世界时间确定滤波模型;
进一步地,所述步骤S40包括:
步骤S41:获取所述位置信息对应的滤波模型库,其中,所述滤波模型库包括若干与历史音频信号对应的滤波模型;
步骤S42:基于所述滤波模型库,确定所述世界时间对应的滤波模型。
可选地,虽然初始指令信号对应的区间之前的相邻区间对应的基础音频信号非常接近于当前时刻的环境噪音,但是不排除初始指令信号中存在突变噪声的概率。
为此,基于本申请应用的售卖环境,日活客流量或者是周客流量存在一定的可循规律,在采集设备出于运行状态时,小于第一阈值的音频信号都打上了时间标记,用于使用自适应算法来确定自适应滤波参数,并生成对应的滤波模型,进而将时间标记、自适应滤波参数、滤波模型关联保存于滤波模型库中。达成了能够在未知环境中有效工作,并能够跟踪输入信号的时变特征的有益效果。
可以理解的是,当存在多个采集设备时,由于多个采集设备所处的位置不同,因此采集到的音频信号显然也是不同,由此生成的滤波模型库自然也是不同的。因此,采集设备在获取当前时刻(世界时间)对应的滤波模型之前,先要根据自身的位置信息,确定对应的滤波模型库。
步骤S50:根据所述滤波模型以及所述基础音频信号,对所述初始指令信号做噪声滤除;
可选地,基于谱减法,初步滤除所述初始指令信号中与基础音频信号频谱重叠的部分,进一步地,基于滤波模型,给予滤除了基础音频信号的初始指令信号一个补偿值。
步骤S60:基于滤除噪声后的所述初始指令信号,识别语音指令。
可选地,对滤除噪声后的所述初始指令信号进行语义识别,以确定文本信息;基于预设语音指令,对所述文本信息进行语义相似度检测;基于语义相似度检测结果,提取所述文本信息中的语音指令,以执行所述语音指令对应的动作。
在本实施例中,为了解决家电设备在商场或售卖环境下的语音识别准确率不高的技术问题,通过预设第一阈值确定是否存在初始指令信号,并且出于噪音在时间与空间上的连续性,初始指令信号对应的区间之前的相邻区间对应的基础音频信号无限接近于接近当前时刻的环境噪音。但不排除初始指令信号中存在突变噪声的概率,为此本申请根据该采集设备所处的位置信息和基准点对应的世界时间,从滤波模型库中选定对应的滤波模型,以进一步滤除可能存在的突变噪音,最终基于滤除了环境噪音和突变噪音的初始指令信号,识别语音指令。达到了自适应非平稳噪声环境,准确识别语音指令的有益效果。
进一步地,基于上述实施例,参照图3,图3为本申请语音指令识别方法第二实施例的流程示意图,提供本申请的第二实施例,所述步骤S20之后包括:
步骤S21:基于所述预设值和所述世界时间,确定所述基础音频信号的采集时间;
可选地,所述世界时间减去所述预设值,即为所述基础音频信号的采集时间。
步骤S22:基于所述滤波模型库,确定所述采集时间对应的初始滤波模型;
可选地,基于采集设备历史采集的音频信号,滤波模型库中存储有多时间段的历史音频信号对应的滤波模型,并且会根据最新采集到的基础音频信号对所述滤波模型库中的滤波模型进行更新。
步骤S23:基于所述基础音频信号和所述初始滤波模型,得到所述采集时间对应的更新滤波模型。
进一步地,所述步骤S23包括:
步骤S24:配置与所述基础音频信号对应的基础滤波参数;
步骤S25:基于所述初始滤波模型对应的初始滤波参数和所述基础滤波参数,确定更新滤波参数;
步骤S26:基于所述更新滤波参数,确定所述采集时间对应的更新滤波模型。
在本实施例中,以输入和输出信号的统计特性的估计为依据,采取特定算法自动地调整滤波参数,使滤波模型达到最佳滤波特性。
作为一种实施方式,对输入信号序列x(n)的每一个样值,按特定的算法,更新、调整加权系数,使输出信号序列y(n)与期望输出信号序列d(n)相比较的均方误差为最小,即输出信号序列y(n)逼近期望信号序列d(n)。
作为另一种实施方式,更新滤波模型并非是完全基于最新采集的基础音频信号计算得到的,而是在滤波模型库中存有的初始滤波模型的基础上进行一个微调。基于所述初始滤波模型对应的初始滤波参数、基础音频信号对应的基础滤波参数、调整加权系数,按照特定的算法,对所述初始滤波模型进行更新,以确定所述采集时间对应的更新滤波模型。
在本实施例中,能够跟踪采集到的音频信号的时变特征,并自适应生成匹配的滤波模型,且对于不同周期同时段的滤波模型能够随着采集的音频信号进行持续的更新。对于周期性的非平稳噪声环境,以及位置环境,都能够有效工作,以提高语音识别的准确率。
进一步地,基于上述实施例,参照图4,图4为本申请语音指令识别方法第三实施例的流程示意图,提供本申请的第三实施例,所述步骤S60之前包括:
步骤S51:检测所述基础音频信号的信号幅值是否大于第二阈值;
步骤S52:若所述基础音频信号的信号幅值大于所述第二阈值,则对滤除噪声后的所述初始指令信号做增益放大处理,以获取人声增益指令信息。
可选地,噪音幅值的大小不同,对于人声的语音指令的影响是不同的。一般而言,若噪音处于人声所处的幅值范围内,噪音的幅值越高,则与人声混同的范围越大。针对噪音幅值较大的场景,本申请预设第二阈值用于界定。参照图5,图5为本申请语音指令识别方法第三实施例的第二阈值示意图。
在本实施例中,若检测到基础音频信号的信号幅值大于所述第二阈值,则对滤除噪声后的所述初始指令信号做增益放大处理,以获取人声增益指令信息。
可选地,所述增益放大处理包括前置放大或程控放大。
作为一种实施方式,所述前置放大电路采用直流音量控制方式控制前置放大器的增益,进而实现整体音频放大器的音量控制。外部输入的直流模拟电压经过片内模数转换器转换成数字控制信号,控制前置放大器的输入电阻与反馈电阻的比值,从而实现前置放大器的增益控制。
作为另一种实施方式,基于程控增益放大器对所述初始指令信号做增益放大处理,所述程控增益放大器与普通放大器的差别在于反馈电阻网络可变且受控于控制接口的输出信号。即程控增益放大器是指跟不同的控制信号,将产生不同的反馈系数,从而改变放大器的闭环增益的机器。
在本实施例中,基于不同幅值的噪音对语音指令的影响力不同,预设第二阈值,用于确定噪音对语音指令影响较大的场景,进而对初始指令信号进行增益放大处理,通过增益放大能够放大语音指令与噪音的差异,有利于提高语音指令识别的准确度。
进一步地,基于上述实施例,参照图6,图6为本申请语音指令识别方法第四实施例的流程示意图,提供本申请的第四实施例,所述步骤S60之后包括:
步骤S61:若所述文本信息中包括若干语音指令,截取滤除噪声后的所述初始指令信号中所述若干语音指令对应的声音片段;
可选地,初始指令信号中可能包括若干个(大于1个)语音指令,将所有包括语音指令的声音片段截取下来。
步骤S62:若所述声音片段包括预设声纹信息,则执行所述预设声纹信息对应的语音指令;
可选地,若所述若干语音指令为多人指令,则根据预存的声纹信息,对所述若干语音片段进行声纹识别,优先执行与声纹信息相匹配的语音指令。
步骤S63:若所述声音片段不包括所述预设声纹信息,则执行所述声音片段中距离所述基准点最远的声音片段对应的语音指令。
可选地,若所述若干语音指令中不存在预设声纹信息,则根据语音指令的下发时间点确定执行的语音指令。
例如,语音指令信息中,按时间顺序包括以下指令:进入睡眠模式、开启强劲模式、关机。则执行最后下达的语音指令“关机”。
可选地,所述若干语音指令中存在多段与预设声纹信息匹配的语音指令,则先滤除与预设声纹信息不匹配的语音指令,进而在于预设声纹信息匹配的语音指令中,根据时间顺序,确定执行的语音指令。或者,根据声纹信息的优先级设置,执行优先级较高的声纹信息对应的语音指令。
在本实施例中,面对多语音指令的冲突场景,通过逻辑设计与声纹设置,能够有效解决冲突,确定最终执行的语音指令,且能够防止他人误控或是越权控制。
此外,本申请实施例还提出一种语音指令识别设备。
参照图7,图7为本申请实施例方案涉及的硬件运行环境的语音指令识别设备结构示意图。
如图7所示,该语音指令识别设备可以包括:处理器1001,例如中央处理器(CentralProcessingUnit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccessMemory,RAM)存储器,也可以是稳定的非易失性存储器(Non-VolatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图7中示出的结构并不构成对语音指令识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图7所示,作为一种可读存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及语音指令识别程序。
在图7所示的语音指令识别设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本申请语音指令识别设备中的处理器1001、存储器1005可以设置在语音指令识别设备中,所述语音指令识别设备通过处理器1001调用存储器1005中存储的语音指令识别程序,并执行本申请实施例提供的语音指令识别方法。
此外,本申请实施例还提出一种可读存储介质。
本申请可读存储介质上存储有语音指令识别程序,所述语音指令识别程序被处理器执行时实现如上所述的语音指令识别方法的步骤。
其中,本申请可读存储介质中存储的语音指令识别程序被处理器执行的具体实施例与上述语音指令识别方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个语音指令识别”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种语音指令识别方法,其特征在于,所述语音指令识别方法包括以下步骤:
在当前采集的音频信号的信号幅值大于第一阈值时,以当前时刻为基准点,基于预设步长截取初始指令信号;
获取所述初始指令信号对应的区间之前的相邻区间对应的基础音频信号,所述相邻区间的区间长度为预设值;
确定所述采集设备对应的位置信息以及所述基准点对应的世界时间;
基于所述位置信息和所述世界时间确定滤波模型;
根据所述滤波模型以及所述基础音频信号,对所述初始指令信号做噪声滤除;
基于滤除噪声后的所述初始指令信号,识别语音指令。
2.如权利要求1所述的语音指令识别方法,其特征在于,所述基于所述位置信息和所述世界时间确定滤波模型的步骤包括:
获取所述位置信息对应的滤波模型库,其中,所述滤波模型库包括若干与历史音频信号对应的滤波模型;
基于所述滤波模型库,确定所述世界时间对应的滤波模型。
3.如权利要求2所述的语音指令识别方法,其特征在于,所述获取所述初始指令信号对应的区间之前的相邻区间对应的基础音频信号,所述相邻区间的区间长度为预设值的步骤之后还包括:
基于所述预设值和所述世界时间,确定所述基础音频信号的采集时间;
基于所述滤波模型库,确定所述采集时间对应的初始滤波模型;
基于所述基础音频信号和所述初始滤波模型,得到所述采集时间对应的更新滤波模型。
4.如权利要求3所述的语音指令识别方法,其特征在于,所述基于所述基础音频信号和所述初始滤波模型,得到所述采集时间对应的更新滤波模型的步骤包括:
配置与所述基础音频信号对应的基础滤波参数;
基于所述初始滤波模型对应的初始滤波参数和所述基础滤波参数,确定更新滤波参数;
基于所述更新滤波参数,确定所述采集时间对应的更新滤波模型。
5.如权利要求1所述的语音指令识别方法,其特征在于,所述基于滤除噪声后的所述初始指令信号,识别语音指令的步骤包括:
对滤除噪声后的所述初始指令信号进行语义识别,以确定文本信息;
基于预设语音指令,对所述文本信息进行语义相似度检测;
基于语义相似度检测结果,提取所述文本信息中的语音指令,以执行所述语音指令对应的动作。
6.如权利要求5所述的语音指令识别方法,其特征在于,所述提取所述文本信息中的语音指令,以执行所述语音指令对应的动作的步骤之后还包括:
若所述文本信息中包括若干语音指令,截取滤除噪声后的所述初始指令信号中所述若干语音指令对应的声音片段;
若所述声音片段包括预设声纹信息,则执行所述预设声纹信息对应的语音指令;
若所述声音片段不包括所述预设声纹信息,则执行所述声音片段中距离所述基准点最远的声音片段对应的语音指令。
7.如权利要求1所述的语音指令识别方法,其特征在于,所述在当前采集的音频信号的信号幅值大于第一阈值时的步骤之前包括:
提取当前采集的所述音频信号的声学特征,并对所述声学特征进行分帧和窗函数处理,以得到每一帧声学特征中预设窗口数量的时域数据;
对所述时域数据进行快速傅里叶变换,得到预设窗口数量的频域数据;
将预设时长的频域数据进行叠加,得到语谱图。
8.如权利要求1所述的语音指令识别方法,其特征在于,所述基于滤除噪声后的所述初始指令信号,识别语音指令的步骤之前包括:
检测所述基础音频信号的信号幅值是否大于第二阈值;
若所述基础音频信号的信号幅值大于所述第二阈值,则对滤除噪声后的所述初始指令信号做增益放大处理,以获取人声增益指令信息。
9.一种语音指令识别设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音指令识别程序,所述语音指令识别程序配置为实现如权利要求1至8中任一项所述的语音指令识别方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有语音指令识别程序,所述语音指令识别程序被处理器执行时实现如权利要求1至8任一项所述的语音指令识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310815659.1A CN116884405A (zh) | 2023-07-04 | 2023-07-04 | 语音指令识别方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310815659.1A CN116884405A (zh) | 2023-07-04 | 2023-07-04 | 语音指令识别方法、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116884405A true CN116884405A (zh) | 2023-10-13 |
Family
ID=88269101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310815659.1A Pending CN116884405A (zh) | 2023-07-04 | 2023-07-04 | 语音指令识别方法、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884405A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593949A (zh) * | 2024-01-19 | 2024-02-23 | 成都金都超星天文设备有限公司 | 一种用于天象仪运行演示天象的控制方法、设备及介质 |
-
2023
- 2023-07-04 CN CN202310815659.1A patent/CN116884405A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593949A (zh) * | 2024-01-19 | 2024-02-23 | 成都金都超星天文设备有限公司 | 一种用于天象仪运行演示天象的控制方法、设备及介质 |
CN117593949B (zh) * | 2024-01-19 | 2024-03-29 | 成都金都超星天文设备有限公司 | 一种用于天象仪运行演示天象的控制方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI730584B (zh) | 關鍵詞的檢測方法以及相關裝置 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
EP3164871B1 (en) | User environment aware acoustic noise reduction | |
CN110021307B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
EP1208563B1 (en) | Noisy acoustic signal enhancement | |
US20190172480A1 (en) | Voice activity detection systems and methods | |
US8645130B2 (en) | Processing unit, speech recognition apparatus, speech recognition system, speech recognition method, storage medium storing speech recognition program | |
EP2381702B1 (en) | Systems and methods for own voice recognition with adaptations for noise robustness | |
JP5998603B2 (ja) | 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム | |
WO2019100500A1 (zh) | 语音信号降噪方法及设备 | |
EP4004906A1 (en) | Per-epoch data augmentation for training acoustic models | |
CN112397083A (zh) | 语音处理方法及相关装置 | |
CN110268471B (zh) | 具有嵌入式降噪的asr的方法和设备 | |
Sehr et al. | Towards a better understanding of the effect of reverberation on speech recognition performance | |
CN116884405A (zh) | 语音指令识别方法、设备及可读存储介质 | |
Nakajima et al. | An easily-configurable robot audition system using histogram-based recursive level estimation | |
CN109541982B (zh) | 连续活动智能个人助理 | |
Alonso-Martin et al. | Multidomain voice activity detection during human-robot interaction | |
CN111613223B (zh) | 语音识别方法、系统、移动终端及存储介质 | |
JP2005070367A (ja) | 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器 | |
Jaroslavceva et al. | Robot Ego‐Noise Suppression with Labanotation‐Template Subtraction | |
JP2022544065A (ja) | 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 | |
JP2015049406A (ja) | 音響信号解析装置、方法、及びプログラム | |
WO2020230460A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |