CN111613223B - 语音识别方法、系统、移动终端及存储介质 - Google Patents
语音识别方法、系统、移动终端及存储介质 Download PDFInfo
- Publication number
- CN111613223B CN111613223B CN202010257599.2A CN202010257599A CN111613223B CN 111613223 B CN111613223 B CN 111613223B CN 202010257599 A CN202010257599 A CN 202010257599A CN 111613223 B CN111613223 B CN 111613223B
- Authority
- CN
- China
- Prior art keywords
- voice
- recognized
- time
- environment
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000008451 emotion Effects 0.000 claims abstract description 90
- 238000004458 analytical method Methods 0.000 claims abstract description 73
- 230000009467 reduction Effects 0.000 claims abstract description 50
- 230000007613 environmental effect Effects 0.000 claims abstract description 37
- 230000008859 change Effects 0.000 claims description 43
- 238000005070 sampling Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 6
- 238000005311 autocorrelation function Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 12
- 238000013461 design Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 239000003638 chemical reducing agent Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明适用于语音识别技术领域,提供了一种语音识别方法、系统、移动终端及存储介质,该方法包括:当用户的终端设备处于开机状态时,对终端设备的所处环境进行语音采集,得到环境语音;当接收到用户针对终端设备发送的语音采集指令时,对用户进行语音采集,得到待识别语音;根据环境语音对待识别语音进行语音降噪,并对降噪后的待识别语音进行情感分析,得到情感标识;将情感标识和待识别语音输入语音识别模型进行语音分析,得到语音文本。本发明通过在接收待识别语音之前进行环境语音的采集,以使能根据采集到的环境语音对待识别语音进行背景音的降噪,使得针对不同应用场景均能有效的起到背景音降噪的效果,提高了语音识别的准确性。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种语音识别方法、系统、移动终端及存储介质。
背景技术
语音识别技术,简要来说就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括声音特征提取技术、模式匹配准则及模型训练技术等方面。目前语音识别技术已经得到快速的发展以及广泛的使用。但是,在环境噪声较大的环境下,例如在体育场等嘈杂背景的环境下,语音识别技术的应用却受到了很大的限制,因此,语音识别准确性的问题越来越受人们所重视。
现有的语音识别方法使用过程中,均是通过采用降噪器的方式实现背景声的降噪,但由于降噪器是针对指定语音音频进行降噪,并不能对用户所处的不同场景的背景音进行降噪,进而导致其语音降噪效率低下,降低了语音识别的准确性。
发明内容
本发明实施例的目的在于提供一种语音识别方法、系统、移动终端及存储介质,旨在解决现有的语音识别方法中,由于采用降噪器进行背景声降噪所导致的识别准确性低下的问题。
本发明实施例是这样实现的,一种语音识别方法,所述方法包括:
当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音;
当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音;
根据所述环境语音对所述待识别语音进行语音降噪,并对降噪后的所述待识别语音进行情感分析,得到情感标识;
将所述情感标识和所述待识别语音输入语音识别模型进行语音分析,得到语音文本。
更进一步的,所述根据所述环境语音对所述待识别语音进行语音降噪的步骤包括:
获取所述待识别语音的语音采集时间,所述语音采集时间包括起始时间和终止时间;
根据第一预设截取时间截取所述环境语音在所述起始时间之前的语音信息,得到第一噪声语音;
根据第二预设截取时间截取所述环境语音在所述终止时间之后的语音信息,得到第二噪声语音;
将所述第一噪声语音和所述第二噪声语音与所述待识别语音进行语音比对,并根据比对结果对所述待识别语音进行去噪处理。
更进一步的,所述对降噪后的所述待识别语音进行情感分析的步骤包括:
获取所述待识别语音的基频特征、共振峰特征和MFCC特征,并将所述基频特征、所述共振峰特征和所述MFCC特征进行特征组合,得到特性向量;
将所述特征向量与本地预存储的情感数据库进行匹配,以得到所述情感标识,所述情感标识为生气、高兴、害怕、悲伤、惊讶或中性。
更进一步的,所述获取所述待识别语音的基频特征、共振峰特征和MFCC特征的步骤包括:
采用自相关函数法或平均幅度差法分析所述待识别语音中的时域信号,得到所述基频特征;
采用倒谱法将所述待识别语音中的基音信息和声道信息进行分离,以得到所述共振峰特征,或采用线性预测分析方法以获取所述待识别语音中的所述共振峰特征;
通过对所述待识别语音进行预加重、分帧、加窗、快速傅里叶变换、谱线能量计算、滤波器滤波和散余弦变换处理,以得到所述MFCC特征。
更进一步的,所述将所述情感标识和所述待识别语音输入语音识别模型进行语音分析的步骤之前,所述方法还包括:
对所述用户当前所处环境进行图像采集,得到环境图像,并获取所述环境图像中的背景图像和设备图像;
根据所述设备图像和所述背景图像获取所述用户当前所处环境的场景标识,并将所述场景标识、所述情感标识和所述待识别语音输入所述语音识别模型进行语音分析。
更进一步的,所述根据所述环境语音对所述待识别语音进行语音降噪的步骤包括:
获取所述待识别语音的语音采集时间,所述语音采集时间包括起始时间和终止时间;
获取所述环境语音中所述起始时间至第一预设时间点之间的语音信息,得到第一采样语音,并对所述第一采样语音中的音频信息进行变化分析;
获取所述第一采样语音中最大音频变化点所对应的时间点,并将最大音频变化点所对应的时间点设置为第一截取点;
获取所述环境语音中第二预设时间点至所述终止时间之间的语音信息,得到第二采样语音,并对所述第二采样语音中的音频信息进行变化分析;
获取所述第二采样语音中最大音频变化点所对应的时间点,并将最大音频变化点所对应的时间点设置为第二截取点;
获取所述环境语音中所述起始时间至所述第一截取点之间的语音信息,得到第三噪声语音;
获取所述环境语音中所述第二截取点至所述终止时间之间的语音信息,得到第四噪声语音;
将所述第三噪声语音和所述第四噪声语音与所述待识别语音进行语音比对,并根据比对结果对所述待识别语音进行去噪处理。
更进一步的,所述将所述情感标识和所述待识别语音输入语音识别模型进行语音分析的步骤之前,所述方法还包括:
对所述用户当前所处环境进行定位,得到位置信息,并根据所述位置信息查询方言标识;
将所述方言标识、所述情感标识和所述待识别语音输入所述语音识别模型进行语音分析。
本发明实施例的另一目的在于提供一种语音识别系统,所述系统包括:
环境语音采集模块,用于当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音;
用户语音采集模块,用于当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音;
情感分析模块,用于根据所述环境语音对所述待识别语音进行语音降噪,并对降噪后的所述待识别语音进行情感分析,得到情感标识;
语音识别模块,用于将所述情感标识和所述待识别语音输入语音识别模型进行语音分析,得到语音文本。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的语音识别方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的语音识别方法的步骤。
本发明实施例,通过在接收待识别语音之前进行环境语音的采集,以使能根据采集到的环境语音对待识别语音进行背景音的降噪,使得针对不同应用场景均能有效的起到背景音降噪的效果,提高了语音识别的准确性,通过对降噪后的待识别语音进行情感分析的设计,以使后续语音识别模型能基于情感标识对待识别语音进行分析,进而提高了语音识别的准确性。
附图说明
图1是本发明第一实施例提供的语音识别方法的流程图;
图2是本发明第二实施例提供的语音识别方法的流程图;
图3是本发明第三实施例提供的语音识别方法的流程图;
图4是本发明第四实施例提供的语音识别方法的流程图;
图5是本发明第五实施例提供的语音识别方法的流程图;
图6是本发明第六实施例提供的语音识别系统的结构示意图;
图7是本发明第七实施例提供的移动终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的语音识别方法的流程图,包括步骤:
步骤S10,当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音;
其中,该终端设备可以为手机、平板、可穿戴智能设备或移动机器人等,通过检测该终端设备内的电源供电状态,以判定该终端设备是否处于开机状态;
具体的,通过在该终端设备内部或外部设备拾音器,当检测到终端设备开机时,则通过控制拾音器实时对该终端设备所处的环境进行语音采集,得到该环境语音。
步骤S20,当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音;
其中,该语音采集指令可以采用触控指令、语音指令或无线控制信号灯方式进行传输,当接收到用户对该终端设备发送的语音采集指令时,则判定用户针对该终端设备需要进行语音控制,以使通过对该用户进行语音采集,以得到携带语音控制信息的待识别语音。
具体的,本实施例中该语音采集指令采用语音指令的方式进行传输控制,即当接收到携带预设语音标识的语音指令时,则判定接收到了用户发出的语音采集指令,并通过发送控制信号至拾音器,以对该用户进行语音采集,得到对应的待识别语音。
步骤S30,根据所述环境语音对所述待识别语音进行语音降噪,并对降噪后的所述待识别语音进行情感分析,得到情感标识;
其中,通过将该环境语音与待识别语音进行语音比对,并根据比对结果能有效的对背景噪声进行分离,以达到对场景背景音的降噪效果,提高了后续语音识别的准确性。
优选的,该步骤中,可以通过采用频谱比对、功率谱比对或倒频谱等比对方式,以进行该环境语音与待识别语音之间的重复音频信息的查询,通过基于重复音频信息的查询结果,以得到背景噪声数据,并通过在该待识别语音中对该背景噪声数据进行消除,以达到语音降噪效果。
步骤S40,将所述情感标识和所述待识别语音输入语音识别模型进行语音分析,得到语音文本;
其中,通过语音识别模型中设有多个情感分类器,该情感分类器通过获取情感标识,以使将该待识别语音发送至对应识别区域进行语音识别,得到语音文本或语音命令,并基于该语音文本或语音命令对应控制该终端设备执行对应操作。
本实施例,通过在接收待识别语音之前进行环境语音的采集,以使能根据采集到的环境语音对待识别语音进行背景音的降噪,使得针对不同应用场景均能有效的起到背景音降噪的效果,提高了语音识别的准确性,通过对降噪后的待识别语音进行情感分析的设计,以使后续语音识别模型能基于情感标识对待识别语音进行分析,进而提高了语音识别的准确性。
实施例二
请参阅图2,是本发明第二实施例提供的语音识别方法的流程图,包括步骤:
步骤S11,当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音;
其中,通过采用实时采集的方式进行该环境语音的采集,当判断到该终端设备关机时,则停止该环境语音的采集;
优选的,该步骤中,通过预设时间间隔对采集到的环境语音进行数据覆盖,例如当该预设时间间隔设置为1分钟时,则采集的环境语音总时长为1分钟,并通过采用循环覆盖的方式进行该环境语音的存储,进一步地,该预设时间间隔可以根据需求进行设置,例如还可设置为1小时、1天或1周,进而有效的防止了由于该环境语音存储所导致的占用内存较大的现象。
步骤S21,当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音;
步骤S31,获取所述待识别语音的语音采集时间,所述语音采集时间包括起始时间和终止时间;
其中,该待识别语音为拾音器在该起始时间至终止时间内所采集到的语音信息;
步骤S41,根据第一预设截取时间截取所述环境语音在所述起始时间之前的语音信息,得到第一噪声语音;
其中,该第一预设截取时间可以根据需求进行设置,例如该第一预设截取时间可以设置为1秒、0.5秒或0.3秒等,所述环境语音中第一预设截取时间至起始时间之间的语音信息为环境的背景音,即用户在发出控制语音信息之前当前所处环境的背景音。
具体的,例如,当该起始时间为12点、第一预设截取时间为1秒时,则截取该环境语音中11点59分59秒至12点之间的语音信息,得到该第一噪声语音,该第一噪声语音中未携带用户发出的语音信息。
步骤S51,根据第二预设截取时间截取所述环境语音在所述终止时间之后的语音信息,得到第二噪声语音;
可以理解的,该第二预设截取时间的设置与该第一预设截取时间的设置方式相同,例如当该终止时间为12点01分时,则截取该环境语音中12点00分59秒至12点01分之间的语音信息,以得到该第二噪声语音。
步骤S61,将所述第一噪声语音和所述第二噪声语音与所述待识别语音进行语音比对,并根据比对结果对所述待识别语音进行去噪处理;
其中,可以通过采用频谱比对、功率谱比对或倒频谱等比对方式,以进行该第一噪声语音、第二噪声语音与待识别语音之间的语音比对,并基于语音比对结果得到背景噪声数据,并通过在该待识别语音中对该背景噪声数据进行消除,以达到语音降噪效果。
具体的,该步骤中,通过截取接收到用户发出待识别语音之前的环境语音,以得到用户发出待识别语音之前的背景噪音,并通过截取完成该待识别语音采集之后的环境语音,以得到用户发出待识别语音之后的背景噪音,由于该背景语音与待识别语音之间相同的语音信息即为噪声信息,因此,通过将两个背景噪音分别与该待识别语音进行语音比对,以分析得到背景噪声数据。
步骤S71,对降噪后的所述待识别语音进行情感分析,得到情感标识,并将所述情感标识和所述待识别语音输入语音识别模型进行语音分析,得到语音文本;
本实施例,通过在接收待识别语音之前进行环境语音的采集,以使能根据采集到的环境语音对待识别语音进行背景音的降噪,使得针对不同应用场景均能有效的起到背景音降噪的效果,提高了语音识别的准确性,通过对降噪后的待识别语音进行情感分析的设计,以使后续语音识别模型能基于情感标识对待识别语音进行分析,进而提高了语音识别的准确性。
实施例三
请参阅图3,是本发明第三实施例提供的语音识别方法的流程图,包括步骤:
步骤S12,当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音;
步骤S22,当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音;
步骤S32,根据所述环境语音对所述待识别语音进行语音降噪,并获取所述待识别语音的基频特征、共振峰特征和MFCC特征;
其中,该基频特征中包含了大量表征语音情感的特征,因此,基于该基频特征能有效的识别待该待识别语音中的情感。
根据声学观点,声道可以看作非均匀截面的声管,当声音激励信号的频率与声道频率一致时,声道将发生共振,产生的波形称为共振峰共振峰是语音信号处理最重要的参数之一,它决定着元音中的音质。共振峰参数包括共振峰频率和共振峰带宽。不同情感发音的共振峰位置不同,因此,基于该共振峰特征能有效的对该待识别语音进行情感分析。
具体的,情感状态发生变化时前三个共振峰的峰值变化较大,且其峰值从低到高依次为第一共振峰、第二共振峰和第三共振峰。一般选取第一共振峰、第二共振峰、第三共振峰的平均值、最大值、最小值、动态变化范围、平均变化率、均方差,共振峰频率的1/4分位点、1/3分位点以及共振峰变化的1/3分位点、1/4分位点等统计特征。
具体的,该步骤中,所述获取所述待识别语音的基频特征、共振峰特征和MFCC特征的步骤包括:
采用自相关函数法或平均幅度差法分析所述待识别语音中的时域信号,得到所述基频特征;
采用倒谱法将所述待识别语音中的基音信息和声道信息进行分离,以得到所述共振峰特征,或采用线性预测分析方法以获取所述待识别语音中的所述共振峰特征;
通过对所述待识别语音进行预加重、分帧、加窗、快速傅里叶变换、谱线能量计算、滤波器滤波和散余弦变换处理,以得到所述MFCC特征。
步骤S42,将所述基频特征、所述共振峰特征和所述MFCC特征进行特征组合,得到特性向量;
步骤S52,将所述特征向量与本地预存储的情感数据库进行匹配,以得到所述情感标识;
其中,所述情感标识为生气、高兴、害怕、悲伤、惊讶或中性,得到情感标识;
步骤S62,将所述情感标识和所述待识别语音输入语音识别模型进行语音分析,得到语音文本;
本实施例中,通过在接收待识别语音之前进行环境语音的采集,以使能根据采集到的环境语音对待识别语音进行背景音的降噪,使得针对不同应用场景均能有效的起到背景音降噪的效果,提高了语音识别的准确性,通过对降噪后的待识别语音进行情感分析的设计,以使后续语音识别模型能基于情感标识对待识别语音进行分析,进而提高了语音识别的准确性。
实施例四
请参阅图4,是本发明第四实施例提供的语音识别方法的流程图,包括步骤:
步骤S13,当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音;
步骤S23,当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音;
步骤S33,获取所述待识别语音的语音采集时间,所述语音采集时间包括起始时间和终止时间;
步骤S43,获取所述环境语音中所述起始时间至第一预设时间点之间的语音信息,得到第一采样语音,并对所述第一采样语音中的音频信息进行变化分析;
其中,该第一预设时间点可以根据需求进行设置,通过对该第一采样语音中的音频信息进行变化分析的设计,以分析音频波动的变化,该起始时间至第一预设时间点之间最大频变化点所对应的时间点为首次采集到用户发出语音的时刻,即该最大音频变化点所对应的时间点之后的语音信息中存储有用户的语音控制信息,在该起始时间至最大音频变化点所对应的时间点之间任然是用户当前所处环境的背景声;
步骤S53,获取所述第一采样语音中最大音频变化点所对应的时间点,并将最大音频变化点所对应的时间点设置为第一截取点;
步骤S63,获取所述环境语音中第二预设时间点至所述终止时间之间的语音信息,得到第二采样语音,并对所述第二采样语音中的音频信息进行变化分析;
其中,该第二预设时间点可以根据需求进行设置,通过对该第二采样语音中的音频信息进行变化分析的设计,以分析音频波动的变化,该第二预设时间点至终止时间之间最大频变化点所对应的时间点为判断到用户已经完成语音的发送时刻,即该最大音频变化点所对应的时间点之后的语音信息为当前所处环境的背景声;
步骤S73,获取所述第二采样语音中最大音频变化点所对应的时间点,并将最大音频变化点所对应的时间点设置为第二截取点;
步骤S83,获取所述环境语音中所述起始时间至所述第一截取点之间的语音信息,得到第三噪声语音;
步骤S93,获取所述环境语音中所述第二截取点至所述终止时间之间的语音信息,得到第四噪声语音;
步骤S103,将所述第三噪声语音和所述第四噪声语音与所述待识别语音进行语音比对,并根据比对结果对所述待识别语音进行去噪处理;
其中,可以通过采用频谱比对、功率谱比对或倒频谱等比对方式,以进行该第三噪声语音、第四噪声语音与待识别语音之间的语音比对,并基于语音比对结果得到背景噪声数据,并通过在该待识别语音中对该背景噪声数据进行消除,以达到语音降噪效果。
步骤S113,对降噪后的所述待识别语音进行情感分析,得到情感标识,并将所述情感标识和所述待识别语音输入语音识别模型进行语音分析,得到语音文本;
本实施例中,通过在接收待识别语音之前进行环境语音的采集,以使能根据采集到的环境语音对待识别语音进行背景音的降噪,使得针对不同应用场景均能有效的起到背景音降噪的效果,提高了语音识别的准确性,通过对降噪后的待识别语音进行情感分析的设计,以使后续语音识别模型能基于情感标识对待识别语音进行分析,进而提高了语音识别的准确性。
实施例五
请参阅图5,是本发明第五实施例提供的语音识别方法的流程图,包括步骤:
步骤S14,当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音;
步骤S24,当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音;
步骤S34,根据所述环境语音对所述待识别语音进行语音降噪,并对降噪后的所述待识别语音进行情感分析,得到情感标识;
步骤S44,对所述用户当前所处环境进行图像采集,得到环境图像,并获取所述环境图像中的背景图像和设备图像;
其中,通过对用户当前所处环境进行图像采集的设计,以分析用户当前环境的场景;
步骤S54,根据所述设备图像和所述背景图像获取所述用户当前所处环境的场景标识;
其中,通过获取所述用户当前所处环境的场景标识设计,以使能基于对用户当前所处环境的分析,提高了后续语音中语义分析的准确性,进而提高了语音识别的准确性;
步骤S64,对所述用户当前所处环境进行定位,得到位置信息根据所述位置信息查询方言标识;
其中,通过对所述用户当前所处环境进行定位,得到定位坐标,并基于该定位坐标以查询该位置信息,优选的,该位置信息采用文字的方式进行存储,例如该位置信息为城市名称或省市县的名称。
具体的,通过将该位置信息的名称与本地预存储的方言表进行匹配,以查询该方言标识。
步骤S74,将所述场景标识、所述方言标识、所述情感标识和所述待识别语音输入所述语音识别模型进行语音分析;
其中,由于不同场景下语义的不相同、不同感情下语义或音频的不同、不同方言下语音的不同,因此,该步骤通过将所述场景标识、所述方言标识和所述情感标识输出该语音识别模型的设计,以使该语音识别模型能基于场景标识、方言标识和情感标识对该待识别语音进行识别,进而有效的提高了语音识别的准确性。
本实施例中,通过在接收待识别语音之前进行环境语音的采集,以使能根据采集到的环境语音对待识别语音进行背景音的降噪,使得针对不同应用场景均能有效的起到背景音降噪的效果,提高了语音识别的准确性,通过对降噪后的待识别语音进行情感分析的设计,以使后续语音识别模型能基于情感标识对待识别语音进行分析,进而提高了语音识别的准确性。
实施例六
请参阅图6,是本发明第四实施例提供的语音识别系统100的结构示意图,包括:环境语音采集模块10、用户语音采集模块11、情感分析模块12和语音识别模块13,其中:
环境语音采集模块10,用于当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音。
用户语音采集模块11,用于当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音。
情感分析模块12,用于根据所述环境语音对所述待识别语音进行语音降噪,并对降噪后的所述待识别语音进行情感分析,得到情感标识。
其中,所述情感分析模块12还用于:获取所述待识别语音的语音采集时间,所述语音采集时间包括起始时间和终止时间;
根据第一预设截取时间截取所述环境语音在所述起始时间之前的语音信息,得到第一噪声语音;
根据第二预设截取时间截取所述环境语音在所述终止时间之后的语音信息,得到第二噪声语音;
将所述第一噪声语音和所述第二噪声语音与所述待识别语音进行语音比对,并根据比对结果对所述待识别语音进行去噪处理。
优选的,所述情感分析模块12还用于:获取所述待识别语音的基频特征、共振峰特征和MFCC特征,并将所述基频特征、所述共振峰特征和所述MFCC特征进行特征组合,得到特性向量;
将所述特征向量与本地预存储的情感数据库进行匹配,以得到所述情感标识,所述情感标识为生气、高兴、害怕、悲伤、惊讶或中性。
进一步地,所述情感分析模块12还用于:采用自相关函数法或平均幅度差法分析所述待识别语音中的时域信号,得到所述基频特征;
采用倒谱法将所述待识别语音中的基音信息和声道信息进行分离,以得到所述共振峰特征,或采用线性预测分析方法以获取所述待识别语音中的所述共振峰特征;
通过对所述待识别语音进行预加重、分帧、加窗、快速傅里叶变换、谱线能量计算、滤波器滤波和散余弦变换处理,以得到所述MFCC特征。
此外,本实施例中,所述情感分析模块12还用于:获取所述待识别语音的语音采集时间,所述语音采集时间包括起始时间和终止时间;
获取所述环境语音中所述起始时间至第一预设时间点之间的语音信息,得到第一采样语音,并对所述第一采样语音中的音频信息进行变化分析;
获取所述第一采样语音中最大音频变化点所对应的时间点,并将最大音频变化点所对应的时间点设置为第一截取点;
获取所述环境语音中第二预设时间点至所述终止时间之间的语音信息,得到第二采样语音,并对所述第二采样语音中的音频信息进行变化分析;
获取所述第二采样语音中最大音频变化点所对应的时间点,并将最大音频变化点所对应的时间点设置为第二截取点;
获取所述环境语音中所述起始时间至所述第一截取点之间的语音信息,得到第三噪声语音;
获取所述环境语音中所述第二截取点至所述终止时间之间的语音信息,得到第四噪声语音;
将所述第三噪声语音和所述第四噪声语音与所述待识别语音进行语音比对,并根据比对结果对所述待识别语音进行去噪处理。
语音识别模块13,用于将所述情感标识和所述待识别语音输入语音识别模型进行语音分析,得到语音文本。
此外,本实施例中,所述语音识别系统100还包括:
场景分析模块14,用于对所述用户当前所处环境进行图像采集,得到环境图像,并获取所述环境图像中的背景图像和设备图像;
根据所述设备图像和所述背景图像获取所述用户当前所处环境的场景标识,并将所述场景标识、所述情感标识和所述待识别语音输入所述语音识别模型进行语音分析。
方言分析模块15,用于对所述用户当前所处环境进行定位,得到位置信息,并根据所述位置信息查询方言标识;
将所述方言标识、所述情感标识和所述待识别语音输入所述语音识别模型进行语音分析。
本实施例,通过在接收待识别语音之前进行环境语音的采集,以使能根据采集到的环境语音对待识别语音进行背景音的降噪,使得针对不同应用场景均能有效的起到背景音降噪的效果,提高了语音识别的准确性,通过对降噪后的待识别语音进行情感分析的设计,以使后续语音识别模型能基于情感标识对待识别语音进行分析,进而提高了语音识别的准确性。
实施例七
请参阅图7,是本发明第七实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音识别方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音;
当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音;
根据所述环境语音对所述待识别语音进行语音降噪,并对降噪后的所述待识别语音进行情感分析,得到情感标识;
将所述情感标识和所述待识别语音输入语音识别模型进行语音分析,得到语音文本。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图6中示出的组成结构并不构成对本发明的语音识别系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-5中的语音识别方法亦采用图6中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音识别系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标语音识别系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种语音识别方法,其特征在于,所述方法包括:
当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音;
当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音;
根据所述环境语音对所述待识别语音进行语音降噪,并对降噪后的所述待识别语音进行情感分析,得到情感标识;
将所述情感标识和所述待识别语音输入语音识别模型进行语音分析,得到语音文本;
所述根据所述环境语音对所述待识别语音进行语音降噪的步骤包括:
获取所述待识别语音的语音采集时间,所述语音采集时间包括起始时间和终止时间;
根据第一预设截取时间截取所述环境语音在所述起始时间之前的语音信息,得到第一噪声语音;
根据第二预设截取时间截取所述环境语音在所述终止时间之后的语音信息,得到第二噪声语音;
将所述第一噪声语音和所述第二噪声语音与所述待识别语音进行语音比对,并根据比对结果对所述待识别语音进行去噪处理;或
所述根据所述环境语音对所述待识别语音进行语音降噪的步骤包括:
获取所述待识别语音的语音采集时间,所述语音采集时间包括起始时间和终止时间;
获取所述环境语音中所述起始时间至第一预设时间点之间的语音信息,得到第一采样语音,并对所述第一采样语音中的音频信息进行变化分析;
获取所述第一采样语音中最大音频变化点所对应的时间点,并将最大音频变化点所对应的时间点设置为第一截取点;
获取所述环境语音中第二预设时间点至所述终止时间之间的语音信息,得到第二采样语音,并对所述第二采样语音中的音频信息进行变化分析;
获取所述第二采样语音中最大音频变化点所对应的时间点,并将最大音频变化点所对应的时间点设置为第二截取点;
获取所述环境语音中所述起始时间至所述第一截取点之间的语音信息,得到第三噪声语音;
获取所述环境语音中所述第二截取点至所述终止时间之间的语音信息,得到第四噪声语音;
将所述第三噪声语音和所述第四噪声语音与所述待识别语音进行语音比对,并根据比对结果对所述待识别语音进行去噪处理。
2.如权利要求1所述的语音识别方法,其特征在于,所述对降噪后的所述待识别语音进行情感分析的步骤包括:
获取所述待识别语音的基频特征、共振峰特征和MFCC特征,并将所述基频特征、所述共振峰特征和所述MFCC特征进行特征组合,得到特征 向量;
将所述特征向量与本地预存储的情感数据库进行匹配,以得到所述情感标识,所述情感标识为生气、高兴、害怕、悲伤、惊讶或中性。
3.如权利要求2所述的语音识别方法,其特征在于,所述获取所述待识别语音的基频特征、共振峰特征和MFCC特征的步骤包括:
采用自相关函数法或平均幅度差法分析所述待识别语音中的时域信号,得到所述基频特征;
采用倒谱法将所述待识别语音中的基音信息和声道信息进行分离,以得到所述共振峰特征,或采用线性预测分析方法以获取所述待识别语音中的所述共振峰特征;
通过对所述待识别语音进行预加重、分帧、加窗、快速傅里叶变换、谱线能量计算、滤波器滤波和散余弦变换处理,以得到所述MFCC特征。
4.如权利要求1所述的语音识别方法,其特征在于,所述将所述情感标识和所述待识别语音输入语音识别模型进行语音分析的步骤之前,所述方法还包括:
对所述用户当前所处环境进行图像采集,得到环境图像,并获取所述环境图像中的背景图像和设备图像;
根据所述设备图像和所述背景图像获取所述用户当前所处环境的场景标识,并将所述场景标识、所述情感标识和所述待识别语音输入所述语音识别模型进行语音分析。
5.如权利要求1所述的语音识别方法,其特征在于,所述将所述情感标识和所述待识别语音输入语音识别模型进行语音分析的步骤之前,所述方法还包括:
对所述用户当前所处环境进行定位,得到位置信息,并根据所述位置信息查询方言标识;
将所述方言标识、所述情感标识和所述待识别语音输入所述语音识别模型进行语音分析。
6.一种语音识别系统,其特征在于,所述系统包括:
环境语音采集模块,用于当用户的终端设备处于开机状态时,对所述终端设备的所处环境进行语音采集,得到环境语音;
用户语音采集模块,用于当接收到所述用户针对所述终端设备发送的语音采集指令时,对所述用户进行语音采集,得到待识别语音;
情感分析模块,用于根据所述环境语音对所述待识别语音进行语音降噪,并对降噪后的所述待识别语音进行情感分析,得到情感标识;
语音识别模块,用于将所述情感标识和所述待识别语音输入语音识别模型进行语音分析,得到语音文本;
所述情感分析模块还用于:获取所述待识别语音的语音采集时间,所述语音采集时间包括起始时间和终止时间;
根据第一预设截取时间截取所述环境语音在所述起始时间之前的语音信息,得到第一噪声语音;
根据第二预设截取时间截取所述环境语音在所述终止时间之后的语音信息,得到第二噪声语音;
将所述第一噪声语音和所述第二噪声语音与所述待识别语音进行语音比对,并根据比对结果对所述待识别语音进行去噪处理;
所述情感分析模块还用于:获取所述待识别语音的语音采集时间,所述语音采集时间包括起始时间和终止时间;
获取所述环境语音中所述起始时间至第一预设时间点之间的语音信息,得到第一采样语音,并对所述第一采样语音中的音频信息进行变化分析;
获取所述第一采样语音中最大音频变化点所对应的时间点,并将最大音频变化点所对应的时间点设置为第一截取点;
获取所述环境语音中第二预设时间点至所述终止时间之间的语音信息,得到第二采样语音,并对所述第二采样语音中的音频信息进行变化分析;
获取所述第二采样语音中最大音频变化点所对应的时间点,并将最大音频变化点所对应的时间点设置为第二截取点;
获取所述环境语音中所述起始时间至所述第一截取点之间的语音信息,得到第三噪声语音;
获取所述环境语音中所述第二截取点至所述终止时间之间的语音信息,得到第四噪声语音;
将所述第三噪声语音和所述第四噪声语音与所述待识别语音进行语音比对,并根据比对结果对所述待识别语音进行去噪处理。
7.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至5任一项所述的语音识别方法。
8.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述的语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010257599.2A CN111613223B (zh) | 2020-04-03 | 2020-04-03 | 语音识别方法、系统、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010257599.2A CN111613223B (zh) | 2020-04-03 | 2020-04-03 | 语音识别方法、系统、移动终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111613223A CN111613223A (zh) | 2020-09-01 |
CN111613223B true CN111613223B (zh) | 2023-03-31 |
Family
ID=72199385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010257599.2A Active CN111613223B (zh) | 2020-04-03 | 2020-04-03 | 语音识别方法、系统、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111613223B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113052B (zh) * | 2021-04-08 | 2024-04-05 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
CN114464182B (zh) * | 2022-03-03 | 2022-10-21 | 慧言科技(天津)有限公司 | 一种音频场景分类辅助的语音识别快速自适应方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101625857B (zh) * | 2008-07-10 | 2012-05-09 | 新奥特(北京)视频技术有限公司 | 一种自适应的语音端点检测方法 |
CN105679310A (zh) * | 2015-11-17 | 2016-06-15 | 乐视致新电子科技(天津)有限公司 | 一种用于语音识别方法及系统 |
CN108648756A (zh) * | 2018-05-21 | 2018-10-12 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置和系统 |
CN108806667B (zh) * | 2018-05-29 | 2020-04-17 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN109741732B (zh) * | 2018-08-30 | 2022-06-21 | 京东方科技集团股份有限公司 | 命名实体识别方法、命名实体识别装置、设备及介质 |
CN109599128B (zh) * | 2018-12-24 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 语音情感识别方法、装置、电子设备和可读介质 |
CN110689877A (zh) * | 2019-09-17 | 2020-01-14 | 华为技术有限公司 | 一种语音结束端点检测方法及装置 |
CN110706693B (zh) * | 2019-10-18 | 2022-04-19 | 浙江大华技术股份有限公司 | 语音端点的确定方法及装置、存储介质、电子装置 |
CN110769111A (zh) * | 2019-10-28 | 2020-02-07 | 珠海格力电器股份有限公司 | 一种降噪方法、系统、存储介质以及终端 |
CN110931048B (zh) * | 2019-12-12 | 2024-04-02 | 广州酷狗计算机科技有限公司 | 语音端点检测方法、装置、计算机设备及存储介质 |
-
2020
- 2020-04-03 CN CN202010257599.2A patent/CN111613223B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111613223A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
US20170140750A1 (en) | Method and device for speech recognition | |
CN102543073B (zh) | 一种沪语语音识别信息处理方法 | |
US7089184B2 (en) | Speech recognition for recognizing speaker-independent, continuous speech | |
CN111210829B (zh) | 语音识别方法、装置、系统、设备和计算机可读存储介质 | |
CN111816218A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
CN111613223B (zh) | 语音识别方法、系统、移动终端及存储介质 | |
CN110223687B (zh) | 指令执行方法、装置、存储介质及电子设备 | |
CN110268471B (zh) | 具有嵌入式降噪的asr的方法和设备 | |
CN113744722B (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
US20220392485A1 (en) | System and Method For Identifying Sentiment (Emotions) In A Speech Audio Input | |
CN116884405A (zh) | 语音指令识别方法、设备及可读存储介质 | |
CN112116909A (zh) | 语音识别方法、装置及系统 | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
CN111345016A (zh) | 一种智能终端的启动控制方法及启动控制系统 | |
CN116229987B (zh) | 一种校园语音识别的方法、装置及存储介质 | |
CN115331670B (zh) | 一种家用电器用离线语音遥控器 | |
CN107123420A (zh) | 一种语音识别系统及其交互方法 | |
Nijhawan et al. | A new design approach for speaker recognition using MFCC and VAD | |
CN110661923A (zh) | 一种在会议中记录发言信息的方法和装置 | |
CN112420022B (zh) | 一种噪声提取方法、装置、设备和存储介质 | |
CN114664303A (zh) | 连续语音指令快速识别控制系统 | |
CN110164449B (zh) | 语音识别的空调机控制方法及装置 | |
CN109697985B (zh) | 语音信号处理方法、装置及终端 | |
CN112259077A (zh) | 语音识别方法、装置、终端和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |