CN111681649A - 语音识别方法、交互系统及包括该系统的成绩管理系统 - Google Patents
语音识别方法、交互系统及包括该系统的成绩管理系统 Download PDFInfo
- Publication number
- CN111681649A CN111681649A CN202010451147.8A CN202010451147A CN111681649A CN 111681649 A CN111681649 A CN 111681649A CN 202010451147 A CN202010451147 A CN 202010451147A CN 111681649 A CN111681649 A CN 111681649A
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- voice signal
- speech
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002452 interceptive effect Effects 0.000 title description 2
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000003993 interaction Effects 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 6
- 230000000903 blocking effect Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 210000001260 vocal cord Anatomy 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1785—Methods, e.g. algorithms; Devices
- G10K11/17853—Methods, e.g. algorithms; Devices of the filter
- G10K11/17854—Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音交互技术领域,特别涉及一种语音识别方法、交互系统及包括该系统的成绩管理系统,所述方法包括:对获取的语音信号进行语音增强处理;对语音增强处理之后的语音信号进行去噪处理;提取去噪之后语音信号的语音信号;根据语音信号进行判断和处理;将处理后语音信号转换为文字数据,并将文字数据转换为计算机语言;本发明解决噪声对语音识别的影响,提出了小波去造与麦克风阵列相结合的方法,在噪声存在的情况下,提高目标语音的质量和清晰度,消除语音识别系统中待识别语音信号的噪声,提高语音命令识别率。
Description
技术领域
本发明涉及语音交互技术领域,特别涉及一种语音识别方法、交互系统及包括该系统的成绩管理系统。
背景技术
近年来,关于语音识别系统的研究越来越多。语音识别系统已经在许多领域得到了应用,比如在人机交互中的应用。许多人机交互系统都涉及语音命令识别。语音识别(ASR)是通过计算机程序构造的一系列算法将语音信号转换为文本序列的过程。也就是说,让机器理解人的语言,实现相应的意义,产生人的声音,最终实现人机语音交互。由于语音识别技术的进步,许多语音辅助或语音命令应用已经商业化。智能语音以其广阔的应用前景和巨大的商业价值成为竞争的制高点。亚马逊、苹果、谷歌等公司通过并购和自身发展,逐步开发语音识别系统。随着人工智能和机器学习的发展,语音识别技术得到了进一步的发展。
随着科技的不断发展,自动语音识别(ASR)技术也取得了重大突破。但是语音信号在不同的语音环境中不断受到各种噪声的干扰。噪音范围从叽叽喳喳的噪音到汽车噪音、交通噪音甚至白噪音。不同形式的噪声(如加性噪声、信道噪声、混响噪声)干扰语音信号,严重影响了语音信号的质量。而且,当一个语音信号被远处的麦克风捕捉到,例如,在会议室里,它通常包含混响、扩散噪声和无关的语音信号。这些组件对捕获语音信号的感知质量有害,并且在许多应用程序(如自动语音识别)中经常导致严重的性能下降。因此要增强任何有噪声的语音信号并将其转换为干净的语音,必须用大量的专业知识来处理噪声。在自然环境中,语音信号受到不同程度的噪声污染。在严重的情况下,语音会完全淹没在噪声中,无法分辨原始语义。因此,在对语音信号进行去噪的同时,考虑多种形式的噪声是一项艰巨的任务。
发明内容
为了提高目标语音的清晰度和质量、消除语音识别系统中待识别语音信号的噪音、提高语音命令识别率,本发明提出一种语音识别方法及语音交互系统,其中一种语音识别方法包括:
S1、对获取的语音信号进行语音增强处理;
S2、对语音增强处理之后的语音信号进行去噪处理;
S3、提取去噪之后语音信号的语音信号;
S4、根据语音信号进行判断和处理;
S5、将处理后语音信号转换为文字数据,并将文字数据转换为计算机语言。
进一步的,对获取的语音信号进行语音增强处理包括:
S11、构建校准滤波器并使用该滤波器对增益和相位不匹配的语音信号进行校正;
S12、通过对广义旁瓣相消器中阻塞矩阵的输出来调整权重,得到纯净的语音信号估计;
S13、利用后置滤波器来抑制语音信号的残留噪声。
进一步的,校准滤波器的构建过程包括:
利用自适应波速法的自适应噪声抵消原理消除干扰和噪声,即以噪声为处理对象将噪声抑制或进行非常大的衰减以提高接收信号的质量;
根据实际麦克风输出和理想麦克风输出的频谱均方误差,利用频域最小均方算法求出各麦克风通道的滤波器系数;
通过最小化目标函数更新和调整滤波器系数,使输出信号不断接近期望信号。
进一步的,对语音信号进行去噪处理包括:
S21、计算待处理的语音信号的小波变换;
S22、对小波变换得到的小波进行阈值化;
S23、对阈值化之后的小波进行小波逆变换,得到去噪后的语音信号。
进一步的,提取去噪之后语音信号的语音特征包括:
S31、通一个高通滤波器滤除语音信号中声带和嘴唇的效应;
S32、将语音信号分帧,即讲一段持续的语音信号分成多段语音信号;
S33、将分帧之后的语音信号进行加窗,即将该语音信号与一个窗函数相乘;
S34、将加窗之后的信号进行傅里叶变换,计算语音信号的功率谱;
S35、使用三角带通率比起对功率谱进行平滑;
S36、平滑后的数据经过余弦离散变换,得到梅尔频率倒谱系数,即语音特征。
进一步的,根据语音信号进行判断并处理包括:
除去语音信号中的冗余信息;
提取影响语音识别的关键信息和表达语言含义的特征信息;
利用最小单元字词识别方法,依照不同语言的语法的先后顺序识别字词;
按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,得到处理后的信号。
本发明还提出一种语音交互系统,包括:
语音输入模块,用于采集语音输入数据;
语音增强模块,对语音输入模块获取的语音信号进行信号增强;
去噪模块,对预处理之后的语音信号进行去噪;
特征分类模块,提取去噪之后语音信号的语音特征;
分类模块,根据语音信号的语音特征对语音信号进行分类;
语音转化模块,将去噪后的语音信号转化为文字语言,再将文字语言转换为计算机语言;
语音输出模块,用于将服务器中的数据通过人声合成,转化为语音数据。
本发明解决噪声对语音识别的影响,提出了小波去造与麦克风阵列相结合的方法,在噪声存在的情况下,提高目标语音的质量和清晰度,消除语音识别系统中待识别语音信号的噪声,提高语音命令识别率。
附图说明
图1为本发明一种语音识别方法识别流程图;
图2为本发明一种语音识别方法中语音增强处理流程;
图3为本发明一种语音识别方法中去噪处理流程图;
图4为本发明一种语音识别方法中语音特征提取流程图;
图5为本发明一种语音交互系统结构示意图;
图6为本发明一种包括玉婷交互系统的成绩管理系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种语音识别方法,如图1,包括:
S1、对获取的语音信号进行语音增强处理;
S2、对语音增强处理之后的语音信号进行去噪处理;
S3、提取去噪之后语音信号的语音特征;
S4、根据语音信号进行判断和处理;
S5、将处理后语音信号转换为文字数据,并将文字数据转换为计算机语言。
实施例1
本实施例对获取的语音信号进行语音增强处理进行进一步说明,该操作如图2,主要包括对原始语音信号中增益和相位不匹配的位置进行校正、调整滤波的权重系数消除噪音以及提高波束形成器的鲁棒性,该处理具体包括:
S11、构建校准滤波器并使用该滤波器对增益和相位不匹配的语音信号进行校正;
S12、通过对广义旁瓣相消器中阻塞矩阵的输出来调整权重,得到纯净的语音信号估计;
S13、利用后置滤波器来抑制语音信号的残留噪声,提高波束形成器的鲁棒性。
进一步的,构建校准滤波器的过程包括:
利用自适应波速法的自适应噪声抵消原理消除干扰和噪声,即以噪声为处理对象将噪声抑制或进行非常大的衰减以提高接收信号的质量,在此过程中,目标函数表示为:J(n)=E[e2(n)],其中e(n)为误差信号,E[]表示求期望;
根据实际麦克风输出和理想麦克风输出的频谱均方误差,利用频域最小均方算法求出各麦克风通道的滤波器系数;
通过最小化目标函数更新和调整滤波器系数,使输出信号不断接近期望信号。
自适应波束形成又包含LCMV结构跟GSC结构,本发明采用GSC结构,即广义旁瓣相消器,其中GSC结构主要由三部分构成:固定波束形成部分、阻塞矩阵部分和自适应波束形成部分。因为固定波束形成部分的输出中肯定会残留一部分其他方向的信号,那么可以通过对阻塞矩阵的输出进行权重调整来估计出固定波束形成部分残留的噪声,最后进行减法操作,便可以得到最终的纯净语音信号的估计,从而调整滤波的权重系数。
将步骤S12经过自适应波束形成的输出后接入一个后置滤波器可以有效地抑制部分残留噪声,如非相干噪声、散射噪声等。
实施例2
本发明具体对语音增强处理之后的语音信号进行去噪处理的过程进行进一步说明,本实施例采用小波变换进行去噪,如图3,具体步骤包括:
S21、计算待处理的语音信号的小波变换;
S22、对小波变换得到的小波进行阈值化;
S23、对阈值化之后的小波进行小波逆变换,得到去噪后的语音信号。
本实施例步骤S21中才去世的小波变化的包括:
小波变换需要选择能支持支撑长度、消失矩、对称性、正则性以及相似性要求的小波基函数,本实施例选择支撑长度为5~9之间的小波以及sym小波系的小波基函数;
选择合适的分解尺度来分解层数,将信号跟噪声分解开,通常需要考虑支撑长度、消失矩等特性,因为支撑长度太长会产生边界问题,支撑长度太短消失矩太低,不利于信号能量的集中,一般情况下,消失矩越高,支撑长度也越长,因此在支撑长度和消失矩上,必须要折衷处理;本发明选择设置一个阈值,选尺度大于设置的阈值的信号进行小波变换,再将选取信号的低频部分在原信号尺度的一半上再进行小波变换,获取完成小波变换的信号。
步骤S22中对小波变换得到的小波进行阈值化,本领域常选择的阈值化方法包括定阈值估计、极值阈值估计、无偏似然估计以及启发式估计等。
实施例3
本实施例对步骤S3~S5进行进一步说明,如图4,该过程包括以下步骤:
S31、通一个高通滤波器滤除语音信号中声带和嘴唇的效应,即对语音信号进行预加重;
S32、将语音信号分帧,即讲一段持续的语音信号分成多段语音信号;
S33、将分帧之后的语音信号进行加窗,即将该语音信号与一个窗函数相乘;
S34、将加窗之后的信号进行傅里叶变换,计算语音信号的功率谱;
S35、使用三角带通滤波器对功率谱进行平滑;
S36、平滑后的数据经过余弦离散变换,得到梅尔频率倒谱系数,即语音特征。
根据语音特征判断语音信号的具体来源,该过程是将用户在输入语音过程中的其他杂音进行过滤,包括环境干扰声音以及同一段语音中出现的其他非目标用户的声音,该过程具体包括:
除去语音信号中的冗余信息;
提取影响语音识别的关键信息和表达语言含义的特征信息;
利用最小单元字词识别方法,依照不同语言的语法的先后顺序识别字词;
按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,得到处理后的信号。
去除杂音之后,再根据获取的语音信号转换为文字,再将文字转换为计算机语言进行存储。
实施例4
本实施例提供一种语音交互系统,如图5,包括:
语音输入模块,用于采集语音输入数据;
语音增强模块,对语音输入模块获取的语音信号进行信号增强,语音增强模块包括校准滤波器、广义旁瓣相消器以及后置滤波器,滤波器的构建、功能以及工作原理见实施例1,此处不再赘述;
去噪模块,对语音增强之后的语音信号进行去噪,该模块包括用于计算待处理语音信号的小波变换的小波变换子模块、用于对小波变换得到的小波进行阈值化的阈值化子模块以及用于对阈值化之后的小波进行小波逆变换的小波逆变换子模块,小波变换子模块、阈值化子模块以及小波逆变换子模块的详细参数见实施例2;
特征分类模块,提取去噪之后语音信号的语音特征,该模块包括用于滤除语音信号中声带和嘴唇的效应的高通滤波器、用于对语音信号进行分帧的分帧子模块、用于对分帧之后的语音信号进行加窗的加窗子模块、用于计算加窗之后语音信号功率谱的功率谱计算子模块、对功率谱进行平滑的平滑子模块,此处平滑子模块选用三角带通滤波器,以及用于对平滑后的数据进行余弦离散变换的余弦离散变换模块,详细过程见实施例3;
分类模块,根据语音信号的语音特征对语音信号进行分类,即将用户在输入语音过程中的其他杂音进行过滤,该过程详见实施例3;
语音转化模块,将去噪后的语音信号转化为文字语言,再将文字语言转换为计算机语言;
语音输出模块,用于将服务器中的数据通过人声合成,转化为语音数据。
实施例5
将该发明具体应用于一款作业管理系统中,如图6,该系统原本采用文本输入的方式录入成绩,但是该方式比较浪费时间,因此本发明选择采用语音录入的方式,本发明可以作为该系统的一个子系统,为其提供语音交互功能。
其中语音输入模块、语音输出模块为移动终端上的麦克风等设备,采集的原始语音信号通过网络传输到指定的服务器,服务器中包括语音增强模块、去噪模块、特征分类模块、分类模块、语音转化模块,通过语音转化模块将获取的语音信号了转换为文字,再由文字转换为计算机语言,在进行输出时,经过服务器进行人声合成,将人声数据通过网络传输给移动终端,由移动终端的语音输出模块进行播放。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种语音识别方法,其特征在于,包括以下步骤:
S1、对获取的语音信号进行语音增强处理;
S2、对语音增强处理之后的语音信号进行去噪处理;
S3、提取去噪之后语音信号的语音信号;
S4、根据语音信号进行判断和处理;
S5、将处理后语音信号转换为文字数据,并将文字数据转换为计算机语言。
2.根据权利要求1所述的一种语音识别方法,其特征在于,对获取的语音信号进行语音增强处理包括:
S11、构建校准滤波器并使用该滤波器对增益和相位不匹配的语音信号进行校正;
S12、通过对广义旁瓣相消器中阻塞矩阵的输出来调整权重,得到纯净的语音信号估计;
S13、利用后置滤波器来抑制语音信号的残留噪声。
3.根据权利要求1所述的一种语音识别方法,其特征在于,校准滤波器的构建过程包括:
利用自适应波速法的自适应噪声抵消原理消除干扰和噪声,即以噪声为处理对象将噪声抑制或进行非常大的衰减以提高接收信号的质量;
根据实际麦克风输出和理想麦克风输出的频谱均方误差,利用频域最小均方算法求出各麦克风通道的滤波器系数;
通过最小化目标函数更新和调整滤波器系数,使输出信号不断接近期望信号。
4.根据权利要求1所述的一种语音识别方法,其特征在于,对语音信号进行去噪处理包括:
S21、计算待处理的语音信号的小波变换;
S22、对小波变换得到的小波进行阈值化;
S23、对阈值化之后的小波进行小波逆变换,得到去噪后的语音信号。
5.根据权利要求4所述的一种语音识别方法,其特征在于,小波变换包括:
选择支撑长度为5~9之间的小波以及sym小波系的小波基函数;
设置阈值,选尺度大于设置的阈值的信号进行小波变换,再将选取信号的低频部分在原信号尺度的一半上再进行小波变换,获取完成小波变换的信号。
6.根据权利要求4所述的一种语音识别方法,其特征在于,对小波变换得到的小波进行阈值化的方法包括定阈值估计、极值阈值估计、无偏似然估计以及启发式估计。
7.根据权利要求1所述的一种语音识别方法,其特征在于,提取去噪之后语音信号的语音特征包括:
S31、通一个高通滤波器滤除语音信号中声带和嘴唇的效应;
S32、将语音信号分帧,即讲一段持续的语音信号分成多段语音信号;
S33、将分帧之后的语音信号进行加窗,即将该语音信号与一个窗函数相乘;
S34、将加窗之后的信号进行傅里叶变换,计算语音信号的功率谱;
S35、使用三角带通率比起对功率谱进行平滑;
S36、平滑后的数据经过余弦离散变换,得到梅尔频率倒谱系数,即语音特征。
8.根据权利要求1所述的一种语音识别方法,其特征在于,根据语音信号进行判断并处理包括:
除去语音信号中的冗余信息;
提取影响语音识别的关键信息和表达语言含义的特征信息;
利用最小单元字词识别方法,依照不同语言的语法的先后顺序识别字词;
按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,得到处理后的信号。
9.一种语音交互系统,其特征在于,包括:
语音输入模块,用于采集语音输入数据;
语音增强模块,对语音输入模块获取的语音信号进行信号增强;
去噪模块,对预处理之后的语音信号进行去噪;
特征分类模块,提取去噪之后语音信号的语音特征;
分类模块,根据语音信号的语音特征对语音信号进行分类;
语音转化模块,将去噪后的语音信号转化为文字语言,再将文字语言转换为计算机语言;
语音输出模块,用于将服务器中的数据通过人声合成,转化为语音数据。
10.一种包括语音交互系统的成绩管理系统,其特征在于,包括权利要求9所述的语音交互系统,并且该系统的语音输入模块、语音输出模块设置在移动终端上,语音增强模块、预处理模块、去噪模块、特征分类模块、分类模块以及语音转化模块设置在成绩管理系统的服务器上,服务器上根据语音转化模块输出的计算机语言进行存储和相关操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010451147.8A CN111681649B (zh) | 2020-05-25 | 2020-05-25 | 语音识别方法、交互系统及包括该系统的成绩管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010451147.8A CN111681649B (zh) | 2020-05-25 | 2020-05-25 | 语音识别方法、交互系统及包括该系统的成绩管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111681649A true CN111681649A (zh) | 2020-09-18 |
CN111681649B CN111681649B (zh) | 2023-05-02 |
Family
ID=72453589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010451147.8A Active CN111681649B (zh) | 2020-05-25 | 2020-05-25 | 语音识别方法、交互系统及包括该系统的成绩管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111681649B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112413859A (zh) * | 2020-11-24 | 2021-02-26 | 珠海格力电器股份有限公司 | 空调器控制方法、装置、空调器及存储介质 |
CN112530453A (zh) * | 2020-11-27 | 2021-03-19 | 五邑大学 | 一种适用于噪声环境下的语音识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685638A (zh) * | 2008-09-25 | 2010-03-31 | 华为技术有限公司 | 一种语音信号增强方法及装置 |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN110033769A (zh) * | 2019-04-23 | 2019-07-19 | 努比亚技术有限公司 | 一种录入语音处理方法、终端及计算机可读存储介质 |
CN110136709A (zh) * | 2019-04-26 | 2019-08-16 | 国网浙江省电力有限公司信息通信分公司 | 语音识别方法及基于语音识别的视频会议系统 |
CN110246504A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 鸟类声音识别方法、装置、计算机设备和存储介质 |
-
2020
- 2020-05-25 CN CN202010451147.8A patent/CN111681649B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685638A (zh) * | 2008-09-25 | 2010-03-31 | 华为技术有限公司 | 一种语音信号增强方法及装置 |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN110033769A (zh) * | 2019-04-23 | 2019-07-19 | 努比亚技术有限公司 | 一种录入语音处理方法、终端及计算机可读存储介质 |
CN110136709A (zh) * | 2019-04-26 | 2019-08-16 | 国网浙江省电力有限公司信息通信分公司 | 语音识别方法及基于语音识别的视频会议系统 |
CN110246504A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 鸟类声音识别方法、装置、计算机设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112413859A (zh) * | 2020-11-24 | 2021-02-26 | 珠海格力电器股份有限公司 | 空调器控制方法、装置、空调器及存储介质 |
CN112413859B (zh) * | 2020-11-24 | 2021-11-16 | 珠海格力电器股份有限公司 | 空调器控制方法、装置、空调器及存储介质 |
CN112530453A (zh) * | 2020-11-27 | 2021-03-19 | 五邑大学 | 一种适用于噪声环境下的语音识别方法及装置 |
CN112530453B (zh) * | 2020-11-27 | 2022-04-05 | 五邑大学 | 一种适用于噪声环境下的语音识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111681649B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10373609B2 (en) | Voice recognition method and apparatus | |
CN110379412B (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
WO2020043160A1 (en) | Method and system for detecting voice activity innoisy conditions | |
CN110120227A (zh) | 一种深度堆叠残差网络的语音分离方法 | |
CN111429932A (zh) | 语音降噪方法、装置、设备及介质 | |
CN112735460B (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN111681649B (zh) | 语音识别方法、交互系统及包括该系统的成绩管理系统 | |
CN114974280A (zh) | 音频降噪模型的训练方法、音频降噪的方法及装置 | |
Hidayat et al. | A Modified MFCC for Improved Wavelet-Based Denoising on Robust Speech Recognition. | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
CN111916060B (zh) | 一种基于谱减的深度学习语音端点检测方法和系统 | |
CN111341331B (zh) | 基于局部注意力机制的语音增强方法、装置及介质 | |
CN110797008A (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
Nataraj et al. | Single channel speech enhancement using adaptive filtering and best correlating noise identification | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN112908340A (zh) | 一种基于全局-局部加窗的声音特征快速提取方法 | |
CN113744754B (zh) | 语音信号的增强处理方法和装置 | |
Jelčicová et al. | PeakRNN and StatsRNN: Dynamic pruning in recurrent neural networks | |
CN112491449A (zh) | 声回波消除方法、装置、电子设备和存储介质 | |
WO2023226592A1 (zh) | 噪音信号的处理方法和装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |