CN117238278B - 基于人工智能的语音识别纠错方法及系统 - Google Patents
基于人工智能的语音识别纠错方法及系统 Download PDFInfo
- Publication number
- CN117238278B CN117238278B CN202311512096.5A CN202311512096A CN117238278B CN 117238278 B CN117238278 B CN 117238278B CN 202311512096 A CN202311512096 A CN 202311512096A CN 117238278 B CN117238278 B CN 117238278B
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- user
- overlapping
- altitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 69
- 238000001514 detection method Methods 0.000 claims abstract description 66
- 238000000926 separation method Methods 0.000 claims abstract description 58
- 230000011218 segmentation Effects 0.000 claims abstract description 36
- 238000001228 spectrum Methods 0.000 claims description 58
- 230000000694 effects Effects 0.000 claims description 46
- 230000008859 change Effects 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 36
- 230000009467 reduction Effects 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 8
- 238000002156 mixing Methods 0.000 claims description 7
- 238000010183 spectrum analysis Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 description 16
- 230000006735 deficit Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000001603 reducing effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000002989 correction material Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语音识别技术领域,尤其涉及一种基于人工智能的语音识别纠错方法及系统。所述方法包括以下步骤:通过语音输入设备获取用户语音数据;对用户语音数据进行人声重叠检测,从而获取人声重叠检测数据,其中人声重叠检测数据包括单人语音数据以及多人语音重叠数据;确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离并进行人声标识处理,从而获取人声标识数据;对单人语音数据进行单人语音分段,从而获取单人语音分段数据。本发明通过海拔气压减损分析以及多人语音重叠数据的语音时空分离处理,以实现基于人工智能的语音识别纠错方法及系统。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于人工智能的语音识别纠错方法及系统。
背景技术
随着人工智能技术的不断发展,语音识别系统在各领域的应用变得越来越普遍。然而,现有的语音识别系统在处理多人语音重叠分离以及方言和口音时存在一定的限制。多人语音情况下,识别系统容易混淆多个说话者的话语,导致误识别。另外,方言和口音也经常导致识别错误,降低了系统的可用性。
发明内容
基于此,有必要提供一种基于人工智能的语音识别纠错方法及系统,以解决至少一个上述技术问题。
为实现上述目的,一种基于人工智能的语音识别纠错方法及系统,所述方法包括以下步骤:
步骤S1:通过语音输入设备获取用户语音数据;对用户语音数据进行人声重叠检测,从而获取人声重叠检测数据,其中人声重叠检测数据包括单人语音数据以及多人语音重叠数据;
步骤S2:确定语音重叠识别数据为单人语音数据时,直接执行步骤S3;确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离并进行人声标识处理,从而获取人声标识数据;将人声标识数据中的每一项单人语音数据作为步骤S3的输入数据并执行步骤S3;
步骤S3:对单人语音数据进行单人语音分段,从而获取单人语音分段数据;对单人语音分段数据进行语音口音特征提取,从而获取语音口音特征数据;
步骤S4:获取用户地理位置数据;根据用户地理位置数据对单人语音数据进行海拔气压减损分析,从而获取海拔气压减损参数;
步骤S5:利用海拔气压减损参数对语音口音特征数据进行语音声学补偿处理并进行语音纠错,从而获取单人语音纠错数据。
本发明通过从多种语音源中采集数据,使得系统能够处理不同说话者的语音,同时,检测人声重叠数据有助于区分单人语音和多人语音重叠数据,为后续处理提供基础;通过根据语音重叠情况,系统能够有效地区分处理方式,以准备进行相应的后续处理,当识别数据为单人语音时,无需进行多人语音分离,从而减少计算负担,提高系统效率;将单人语音数据分成小段,有助于后续精细的口音特征提取和声学补偿处理,提取语音口音特征数据,以了解发音和口音的特点,为后续纠错提供重要信息;利用用户的地理位置信息,系统可以更好地适应不同地理区域的气压变化,从而提高声音质量,通过海拔气压减损分析,校准语音信号,降低海拔对声音信号的影响,从而改善语音质量;通过声学补偿处理,系统可以更准确地识别和纠正发音错误,从而提高语音识别的准确性,基于用户的地理位置信息,系统可以进行个性化的声学适应,提供更符合用户的语音纠错。因此,本发明提供了一种基于人工智能的语音识别纠错方法及系统,通过海拔气压减损分析以及多人语音重叠数据的语音时空分离处理,提高了不同海拔高度的多人语音情况下语音识别准确性以及应对方言和口音的适应性。
优选地,步骤S1包括以下步骤:
步骤S11:通过语音输入设备获取用户语音数据;
步骤S12:对用户语音数据进行语音环境降噪,从而获取用户语音环境降噪;
步骤S13:对用户语音环境降噪进行语音信号分帧,从而获取用户语音帧数据;
步骤S14:对用户语音帧数据进行连续帧分析,从而获取语音连续帧数据;
步骤S15:利用预设的人声重叠检测模型对语音连续帧数据进行人声重叠检测,从而获取人声重叠检测数据。
本发明通过语音输入设备,如麦克风或手机麦克风,获取用户的语音数据,这是语音识别和纠错的起始点,这一步骤确保了用户的语音信号可以被记录和用于后续处理;通过语音环境降噪计算公式对用户语音数据进行语音环境降噪计算,用于去除来自环境噪声的干扰,使语音信号更加清晰,有助于提高后续语音处理的准确性;将降噪后的语音信号分成短时间帧,通常为20毫秒到50毫秒的持续时间,有助于语音信号的分析和处理,分帧后的数据可用于进行各种语音特征提取和分析,如音频频谱分析;对分帧后的语音数据进行连续帧分析,通过计算相邻帧之间的音频特征,如频谱包络、能量、频率,来捕捉语音信号的动态特性;利用事先构建的人声重叠检测模型,对连续帧数据进行分析,以检测是否存在多人语音重叠,有助于区分单人语音和多人语音,为后续的语音分离和纠错提供了关键信息。
优选地,步骤S12中语音环境降噪计算公式进行计算,其中语音环境降噪计算公式具体为:
;
式中,表示用户语音环境降噪后的输出信号,/>用户语音数据的输入信号,/>表示用户语音数据的频率分量的序号,/>表示用户语音数据的第/>个频率分量的幅度,/>表示用户语音数据的第/>个频率分量的相位,/>表示用户语音数据的音频方向角,/>表示用户语音数据的音频倾斜角,/>表示用户语音数据的信噪比,/>表示用户语音数据的音频能量,/>表示用户语音数据的音频峰值,/>表示语音环境降噪误差修复量。
本发明构造了一种语音环境降噪计算公式,用于对用户语音数据进行语音环境降噪;公式中部分涉及对用户语音数据的频率分量幅度和相位的对数比,计算频率分量的幅度和相位比的对数可以有助于突出主要声音成分,因为人类语音通常由一系列频率分量组成,有助于提取语音信号中的有用信息;/>部分涉及用户语音数据的音频方向角和音频倾斜角,这部分有助于识别声音来源的方向和倾斜度,从而有助于降低噪声,尤其是来自不同方向的噪声;/>部分包括用户语音数据的信噪比/>和音频能量/>以及音频峰值/>,计算信噪比的平方根与音频能量和音频峰值之和的平方根的比例,这可以用来调整信噪比,使具有较高信噪比的部分得到保留,而具有较低信噪比的部分得到抑制,从而改善降噪效果;/>项用于对降噪后的信号进行额外的校正和修复,以确保声音质量和清晰度。
优选地,步骤S2包括以下步骤:
步骤S21:确定语音重叠识别数据为单人语音数据时,直接执行步骤S3;
步骤S22:确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离,从而获取独立语言流数据;
步骤S23:对独立语言流数据进行人声标识处理,从而获取人声标识数据;
步骤S24:将人声标识数据中的每一项单人语音数据作为步骤S3的输入数据并执行步骤S3。
本发明通过对多人语音重叠数据进行语音时空分离,有助于识别和处理多人语音,提供了更多的分析和纠错材料,通过时空分离,可以减少多人语音中的交叉干扰,提高独立语音流数据的准确性和纯净度;人声标识处理有助于识别和区分不同的说话者,从而确定每个独立语音流数据的来源。这对于后续的纠错和标记非常重要,通过识别说话者,系统可以为每个说话者应用个性化的纠错和改进策略,以更好地满足他们的需求;通过将每个单人语音数据与其关联的人声标识数据一一对应,可以根据每个说话者的特点进行个性化的纠错和改进,提高了语音识别的适应性和准确性;通过将分离出的单人语音数据分别处理,系统可以更有效地应对多人语音重叠情况,减少混叠和错误,从而提高了多人语音的处理能力。
优选地,步骤S22包括以下步骤:
步骤S221:确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行声源多波束构建,从而获取声源多波束数据;
步骤S222:对声源多波束数据进行空间谱估计,从而获取声源空间谱数据;
步骤S223:对多人语音重叠数据进行混合矩阵估计,从而获取声源混合矩阵数据;
步骤S224:对声源混合矩阵数据进行矩阵逆调整以及进行声源分离,从而获取声源分离结果数据;
步骤S225:基于声源空间谱数据以及声源分离结果数据进行时间-频域分析,从获取时间-频域分析数据;
步骤S226:对时间-频域分析数据进行时间序列定位处理,时间序列定位数据;
步骤S227:基于声源空间谱数据以及声源分离结果数据进行三维空间位置分析,从而获取三维空间位置数据;
步骤S228:对声源分离结果数据、时间序列定位数据以及三维空间位置数据进行语音流重建,从而获取独立语音流数据。
本发明通过构建声源多波束,可以增强特定方向上的声音源信号,同时抑制其他方向上的噪声和混叠语音,有助于提高多人语音重叠数据的清晰度和可分辨性;通过进行空间谱估计,系统可以更准确地了解声源在多麦克风阵列中的分布情况,以便更好地分离语音信号,有助于提高声音源的空间定位和声音源信号的质量;估计混合矩阵有助于了解多个说话者的语音信号是如何混合在一起的,这个信息对后续的声源分离过程至关重要,因为它提供了分离算法所需的关键信息;通过调整混合矩阵并进行矩阵逆操作,系统能够有效地分离混叠的语音信号,从而提供单独的语音流,有助于提高多人语音重叠数据的可理解性和可操作性;时间-频域分析有助于了解语音信号在不同时间和频率上的变化,包括说话者切换、语音段落和音频特性,有助于提高语音纠错的准确性和针对性;时间序列定位处理允许系统更好地理解多人语音中不同说话者的时间序列,有助于更准确地区分说话者和理解他们的发言时刻,这对于语音分离和纠错非常重要;通过三维空间位置分析,系统能够确定每个声源的具体三维位置,有助于实现更高级的声音源定位和空间分离,这对于多人语音分离和纠错的准确性非常关键;语音流重建允许系统将分离出的语音信号重新组合为单独的语音流,这使得后续的语音识别和纠错工作更容易实施,提高了语音处理的质量和可用性。
优选地,步骤S3包括以下步骤:
步骤S31:确定语音重叠识别数据为单人语音数据时,对单人语音数据进行能量门限检测,从而获取语音段数据;
步骤S32:利用语音活动检测算法对语音段数据进行语音活动检测,从而获取语音活动数据;
步骤S33:对语音活动数据进行定位切割点,从而获取定位切割点数据;
步骤S34:跟定位切割点数据进行语音定点切割,从而获取单人语音分段数据;
步骤S35:对单人语音分段数据进行声音频谱分析,从而获取声音频谱数据;
步骤S36:对单人语音分段数据进行共振峰参数提取,从而获取共振峰参数;
步骤S37:利用共振峰参数对声音频谱数据进行峰值匹配,从而获取声音频谱峰值数据;
步骤S38:对单人语音分段数据进行单人声纹特征提取,从而获取单人声纹特征数据;
步骤S39:对单人语音分段数据进行单人音素分析,从而获取单人音素特征数据;
步骤S310:根据声音频谱峰值数据对单人声纹特征数据以及单人音素特征数据进行语音口音特征融合,从而获取语音口音特征数据。
本发明通过检测语音数据的能量门限,确定语音段数据的开始和结束,从而准确提取语音段,有助于排除背景噪音或沉默段,使后续的分析更加准确和高效;语音活动检测算法用于确定语音段中的活动和非活动部分,即声音是否存在,有助于确定语音段的实际语音活动部分,从而避免处理无声或非语音区域,提高了分析的精确性;定位切割点数据的获取有助于确定语音段的分界点,即语音活动的开始和结束,使得进一步的语音分割变得更加精确,为后续的分析和特征提取提供了准确的语音段;语音定点切割是根据定位切割点数据对语音段进行准确的切分,以获取单人语音分段数据,有助于将不同的语音活动分离开,为后续的声学分析和声纹特征提取提供了清晰的语音数据;声音频谱分析用于提取语音段的频谱特征,包括声音频谱的幅度和频率信息,有助于了解语音的声音质量和语音内容,为后续的特征提取和分析提供了基础数据;共振峰参数提取是声学分析的一部分,用于提取语音段中的共振峰信息,这些峰值与声音的声学特性相关,有助于区分不同语音的声音特征,为声音识别提供了重要信息;峰值匹配过程用于根据共振峰参数对声音频谱数据进行匹配,以确定语音的声学特征,有助于识别和区分不同的语音,提高语音识别的准确性;单人声纹特征提取用于捕捉语音中的声纹特征,这些特征是与说话者个体相关的,有助于对不同说话者进行区分,可以用于声纹识别和说话者识别;单人音素分析有助于将语音分段拆分成音素级别的语音单位,这对于语音识别和语音理解非常重要,提供了语音的更细粒度特征,有助于精确的语音处理;语音口音特征融合是将声音频谱峰值数据与单人声纹特征和单人音素特征相结合,以获得更全面和准确的语音口音特征数据,有助于改善方言、口音和发音错误的识别和纠正,提高了语音识别系统的性能。
优选地,步骤S4包括以下步骤:
步骤S41:获取用户地理位置数据;利用GIS对用户地理位置数据进行三维空间局部构建,从而获取地理空间局部数据;
步骤S42:对地理空间局部数据进行用户地理海拔标注,从而获取用户地理海拔数据;
步骤S43:根据用户地理海拔数据进行气压数据获取,从而获取海拔气压数据;
步骤S44:基于海拔气压数据进行气压-海拔关系模型构建,从而获取气压-海拔关系模型;
步骤S45:利用气压-海拔关系模型对海拔气压数据进行模型拟合,从而获取气压-海拔关系模型拟合参数;
步骤S46:基于气压-海拔关系模型拟合参数进行海拔气压减损参数提取,从而获取海拔气压减损参数。
本发明通过获取用户的地理位置数据有助于将环境变量引入到语音处理中,这意味着语音识别系统可以更好地适应不同地理区域的环境条件,提高了系统的环境适应性;标注用户的地理海拔信息可以帮助系统更准确地了解语音信号产生时的海拔高度,对于声学环境的建模非常重要,因为海拔高度会影响声音的传播速度和声音的频谱特性;获取气压数据是为了获取与地理位置相关的气象数据,气压与海拔高度之间存在紧密的关系,因此能够提供声音传播中的重要环境信息;建立气压-海拔关系模型允许系统根据气压数据来推断海拔高度,这一模型是基于气象学原理构建的,可以提供精确的海拔高度估计;模型拟合可以进一步改进海拔高度的估计精度,模型能够更好地捕捉气压和海拔之间的关系,从而提供更准确的数据;提取海拔气压减损参数是为了对多人语音数据进行声学补偿,准确的减损参数允许语音处理系统更好地理解声音在不同海拔高度和气压条件下的传播特性,从而提高语音识别的准确性。
优选地,步骤S46包括以下步骤:
步骤S461:基于气压-海拔关系模型拟合参数进行气压减损参数计算,从而获取气压减损参数数据;
步骤S462:根据气压减损参数数据进行声音传播速度变化分析,从而获取声音传播速度变化数据;
步骤S463:根据气压减损参数数据进行声音波长变化分析,从而获取声音波长变化数据;
步骤S464:基于声音传播速度变化数据以及声音波长变化数据进行语音信号影响效应分析,从而获取语音信号影响效应数据;
步骤S465:对语音信号影响效应数据进行语音信号调整,从而获取海拔气压减损参数。
本发明通过气压-海拔关系模型,可计算出与海拔高度相关的气压减损参数,有助于纠正多人语音中受海拔高度影响的语音信号,提高语音识别的准确性;通过声音传播速度变化数据,可以了解语音信号在不同海拔高度下的传播速度差异,有助于校正语音信号的时间特性,确保语音识别过程中的时序关系准确;声音波长变化数据揭示了语音信号在不同海拔高度下的波长变化情况,有助于更好地理解语音信号的频谱特性,从而提高语音识别的频谱建模准确性;语音信号影响效应数据反映了海拔高度对语音信号的影响,包括时间特性和频谱特性,这些数据有助于更精确地理解语音信号的变化,从而更好地进行校正和纠正;通过语音信号调整,可以根据获取的语音信号影响效应数据,对语音信号进行纠正和调整,以适应不同海拔高度下的语音信号特性,有助于提高语音识别系统的鲁棒性和准确性,无论用户所在的海拔高度如何。
优选地,步骤S461中气压减损参数计算公式进行计算,其中气压减损参数计算公式具体为:
;
式中,表示气压减损参数,/>表示一个离散的海拔高度分段的总数,/>表示海拔高度分段的索引值,/>表示在海拔高度分段/>上的气压变化,/>表示海平面上的标准大气压力,/>表示与海拔高度分段/>相关的角度参数,/>表示与海拔高度分段/>相关的斜率参数,/>表示气压减损参数计算偏差纠正值。
本发明构造了一种气压减损参数计算公式,用于基于气压-海拔关系模型拟合参数进行气压减损参数计算;公式中表示了在不同海拔高度分段上的气压减损程度,它是计算气压减损的核心参数,对于纠正语音数据中的气压效应非常重要;/>表示将海拔高度分段为多少个小区间,用于离散化海拔高度,使气压减损参数的计算更精确,增加N的数量可以提高计算的精度;/>表示在特定海拔高度分段k上的气压变化量,反映了海拔高度对气压的影响,可以帮助确定气压减损的程度;/>作为一个常数,表示海平面上的标准大气压力,提供了一个基准值,用于计算气压变化相对于海平面的影响;/>这个角度参数可能用于考虑不同海拔高度分段之间的斜率或倾斜度,以更准确地表示气压减损效应;/>这个参数可能用于调整计算的斜率,以更好地匹配海拔高度分段的数据;/>这是一个纠正值,用于调整整体计算结果,以消除可能的系统偏差。
10.优选地,本发明还提供了一种基于人工智能的语音识别纠错系统,包括:
用户语音检测模块,用于通过语音输入设备获取用户语音数据;对用户语音数据进行人声重叠检测,从而获取人声重叠检测数据,其中人声重叠检测数据包括单人语音数据以及多人语音重叠数据;
语音重叠识别数据判断模块,用于确定语音重叠识别数据为单人语音数据时,直接执行步骤S3;确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离并进行人声标识处理,从而获取人声标识数据;将人声标识数据中的每一项单人语音数据作为步骤S3的输入数据并执行步骤S3;
单人语言特征提取模块,用于对单人语音数据进行单人语音分段,从而获取单人语音分段数据;对单人语音分段数据进行语音口音特征提取,从而获取语音口音特征数据;
海拔气压减损分析模块,用于获取用户地理位置数据;根据用户地理位置数据对单人语音数据进行海拔气压减损分析,从而获取海拔气压减损参数;
语音声学纠错模块,用于利用海拔气压减损参数对语音口音特征数据进行语音声学补偿处理并进行语音纠错,从而获取单人语音纠错数据。
本发明通过从多种语音源中采集数据,使得系统能够处理不同说话者的语音,同时,检测人声重叠数据有助于区分单人语音和多人语音重叠数据,为后续处理提供基础;通过根据语音重叠情况,系统能够有效地区分处理方式,以准备进行相应的后续处理,当识别数据为单人语音时,无需进行多人语音分离,从而减少计算负担,提高系统效率;将单人语音数据分成小段,有助于后续精细的口音特征提取和声学补偿处理,提取语音口音特征数据,以了解发音和口音的特点,为后续纠错提供重要信息;利用用户的地理位置信息,系统可以更好地适应不同地理区域的气压变化,从而提高声音质量,通过海拔气压减损分析,校准语音信号,降低海拔对声音信号的影响,从而改善语音质量;通过声学补偿处理,系统可以更准确地识别和纠正发音错误,从而提高语音识别的准确性,基于用户的地理位置信息,系统可以进行个性化的声学适应,提供更符合用户的语音纠错。因此,本发明提供了一种基于人工智能的语音识别纠错方法及系统,通过海拔气压减损分析以及多人语音重叠数据的语音时空分离处理,提高了不同海拔高度的多人语音情况下语音识别准确性以及应对方言和口音的适应性。
附图说明
图1为一种基于人工智能的语音识别纠错方法的步骤流程示意图;
图2为图1中步骤S1的详细实施步骤流程示意图;
图3为图1中步骤S4的详细实施步骤流程示意图;
图4为图3中步骤S46的详细实施步骤流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面结合附图对本发明专利的技术方法进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
为实现上述目的,请参阅图1至图4,一种基于人工智能的语音识别纠错方法及系统,所述方法包括以下步骤:
步骤S1:通过语音输入设备获取用户语音数据;对用户语音数据进行人声重叠检测,从而获取人声重叠检测数据,其中人声重叠检测数据包括单人语音数据以及多人语音重叠数据;
步骤S2:确定语音重叠识别数据为单人语音数据时,直接执行步骤S3;确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离并进行人声标识处理,从而获取人声标识数据;将人声标识数据中的每一项单人语音数据作为步骤S3的输入数据并执行步骤S3;
步骤S3:对单人语音数据进行单人语音分段,从而获取单人语音分段数据;对单人语音分段数据进行语音口音特征提取,从而获取语音口音特征数据;
步骤S4:获取用户地理位置数据;根据用户地理位置数据对单人语音数据进行海拔气压减损分析,从而获取海拔气压减损参数;
步骤S5:利用海拔气压减损参数对语音口音特征数据进行语音声学补偿处理并进行语音纠错,从而获取单人语音纠错数据。
本发明通过从多种语音源中采集数据,使得系统能够处理不同说话者的语音,同时,检测人声重叠数据有助于区分单人语音和多人语音重叠数据,为后续处理提供基础;通过根据语音重叠情况,系统能够有效地区分处理方式,以准备进行相应的后续处理,当识别数据为单人语音时,无需进行多人语音分离,从而减少计算负担,提高系统效率;将单人语音数据分成小段,有助于后续精细的口音特征提取和声学补偿处理,提取语音口音特征数据,以了解发音和口音的特点,为后续纠错提供重要信息;利用用户的地理位置信息,系统可以更好地适应不同地理区域的气压变化,从而提高声音质量,通过海拔气压减损分析,校准语音信号,降低海拔对声音信号的影响,从而改善语音质量;通过声学补偿处理,系统可以更准确地识别和纠正发音错误,从而提高语音识别的准确性,基于用户的地理位置信息,系统可以进行个性化的声学适应,提供更符合用户的语音纠错。因此,本发明提供了一种基于人工智能的语音识别纠错方法及系统,通过海拔气压减损分析以及多人语音重叠数据的语音时空分离处理,提高了不同海拔高度的多人语音情况下语音识别准确性以及应对方言和口音的适应性。
本发明实施例中,参考图1所述,为本发明一种基于人工智能的语音识别纠错方法的步骤流程示意图,在本实例中,所述一种基于人工智能的语音识别纠错方法包括以下步骤:
步骤S1:通过语音输入设备获取用户语音数据;对用户语音数据进行人声重叠检测,从而获取人声重叠检测数据,其中人声重叠检测数据包括单人语音数据以及多人语音重叠数据;
本发明实施例中,用户使用语音输入设备录制语音数据;对录制的语音数据进行预处理,包括去噪和滤波,以提高数据质量;运行人声重叠检测算法,分析语音数据以确定是否存在多人语音重叠;如果多人语音重叠被检测到,将相关数据标记为多人语音重叠数据,否则标记为单人语音数据。
步骤S2:确定语音重叠识别数据为单人语音数据时,直接执行步骤S3;确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离并进行人声标识处理,从而获取人声标识数据;将人声标识数据中的每一项单人语音数据作为步骤S3的输入数据并执行步骤S3;
本发明实施例中,如果语音重叠识别数据被确定为单人语音数据,直接执行步骤S3;如果语音重叠识别数据被确定为多人语音重叠数据,进行语音时空分离;利用麦克风阵列捕捉的多通道音频数据;对不同通道的音频数据进行时延校准,以确保对齐;运行盲源语音分离算法,以分离混合的语音信号;通过声源定位算法确定每个说话者的空间位置;将分离后的声音信号与已知的发言者身份进行关联,以获得人声标识数据;将每个人声标识数据中的单人语音数据作为步骤S3的输入数据,并继续执行步骤S3。
步骤S3:对单人语音数据进行单人语音分段,从而获取单人语音分段数据;对单人语音分段数据进行语音口音特征提取,从而获取语音口音特征数据;
本发明实施例中,划分语音数据为较小的时间段,通常采用语音活动检测技术,识别语音段和静音段;获取每个语音段的开始和结束时间;使用特征提取算法,提取语音的声学特征;这些特征可能包括声谱特征、频谱包络、基音频率。
步骤S4:获取用户地理位置数据;根据用户地理位置数据对单人语音数据进行海拔气压减损分析,从而获取海拔气压减损参数;
本发明实施例中,根据用户的地理位置数据以及气象数据源,获取相关的海拔气压信息;运行海拔气压减损分析算法,将海拔气压数据与单人语音数据相关联,以计算海拔气压减损参数。
步骤S5:利用海拔气压减损参数对语音口音特征数据进行语音声学补偿处理并进行语音纠错,从而获取单人语音纠错数据;
本发明实施例中,使用减损参数来调整语音特征,以校正由于海拔高度变化引起的声学特性差异;运行声学补偿算法,如频率校正和幅度校正,以修正语音特征;进一步执行语音纠错,包括发音错误检测和修正,以提高语音识别准确性。
优选地,步骤S1包括以下步骤:
步骤S11:通过语音输入设备获取用户语音数据;
步骤S12:对用户语音数据进行语音环境降噪,从而获取用户语音环境降噪;
步骤S13:对用户语音环境降噪进行语音信号分帧,从而获取用户语音帧数据;
步骤S14:对用户语音帧数据进行连续帧分析,从而获取语音连续帧数据;
步骤S15:利用预设的人声重叠检测模型对语音连续帧数据进行人声重叠检测,从而获取人声重叠检测数据。
本发明通过语音输入设备,如麦克风或手机麦克风,获取用户的语音数据,这是语音识别和纠错的起始点,这一步骤确保了用户的语音信号可以被记录和用于后续处理;通过语音环境降噪计算公式对用户语音数据进行语音环境降噪计算,用于去除来自环境噪声的干扰,使语音信号更加清晰,有助于提高后续语音处理的准确性;将降噪后的语音信号分成短时间帧,通常为20毫秒到50毫秒的持续时间,有助于语音信号的分析和处理,分帧后的数据可用于进行各种语音特征提取和分析,如音频频谱分析;对分帧后的语音数据进行连续帧分析,通过计算相邻帧之间的音频特征,如频谱包络、能量、频率,来捕捉语音信号的动态特性;利用事先构建的人声重叠检测模型,对连续帧数据进行分析,以检测是否存在多人语音重叠,有助于区分单人语音和多人语音,为后续的语音分离和纠错提供了关键信息。
作为本发明的一个实例,参考图2所示,在本实例中所述步骤S1包括:
步骤S11:通过语音输入设备获取用户语音数据;
本发明实施例中,用户使用语音输入设备进行语音录音;语音输入设备将用户的语音信号转化为数字音频数据。
步骤S12:对用户语音数据进行语音环境降噪,从而获取用户语音环境降噪;
本发明实施例中,使用环境噪声估计算法,获取当前录音环境中的噪声特征;对用户语音数据应用语音环境降噪计算公式,以去除环境噪声,从而获取用户语音环境降噪数据。
步骤S13:对用户语音环境降噪进行语音信号分帧,从而获取用户语音帧数据;
本发明实施例中,将用户语音环境降噪数据分割成短时间帧,约20毫秒至30毫秒的帧长度;对每个帧应用汉明窗,以减少帧末端的振荡;以帧长度的50%或25%进行帧重叠,以确保帧之间的平滑过渡。
步骤S14:对用户语音帧数据进行连续帧分析,从而获取语音连续帧数据;
本发明实施例中,对每个帧应用离散傅立叶变换,将时域信号转换为频域信号;提取每个帧的频谱特征,包括幅度谱和相位谱;进行特征提取。
步骤S15:利用预设的人声重叠检测模型对语音连续帧数据进行人声重叠检测,从而获取人声重叠检测数据;
本发明实施例中,利用预训练的人声重叠检测模型,该模型是深度学习模型;将每个连续帧的频谱特征输入到模型中进行检测;模型输出表明每个帧是否包含人声重叠;结合连续帧的检测结果,确定哪些部分的语音数据存在人声重叠。
优选地,步骤S12中语音环境降噪计算公式进行计算,其中语音环境降噪计算公式具体为:
;
式中,表示用户语音环境降噪后的输出信号,/>用户语音数据的输入信号,/>表示用户语音数据的频率分量的序号,/>表示用户语音数据的第/>个频率分量的幅度,/>表示用户语音数据的第/>个频率分量的相位,/>表示用户语音数据的音频方向角,/>表示用户语音数据的音频倾斜角,/>表示用户语音数据的信噪比,/>表示用户语音数据的音频能量,/>表示用户语音数据的音频峰值,/>表示语音环境降噪误差修复量。
本发明构造了一种语音环境降噪计算公式,用于对用户语音数据进行语音环境降噪;公式中部分涉及对用户语音数据的频率分量幅度和相位的对数比,计算频率分量的幅度和相位比的对数可以有助于突出主要声音成分,因为人类语音通常由一系列频率分量组成,有助于提取语音信号中的有用信息;/>部分涉及用户语音数据的音频方向角和音频倾斜角,这部分有助于识别声音来源的方向和倾斜度,从而有助于降低噪声,尤其是来自不同方向的噪声;/>部分包括用户语音数据的信噪比/>和音频能量/>以及音频峰值/>,计算信噪比的平方根与音频能量和音频峰值之和的平方根的比例,这可以用来调整信噪比,使具有较高信噪比的部分得到保留,而具有较低信噪比的部分得到抑制,从而改善降噪效果;/>项用于对降噪后的信号进行额外的校正和修复,以确保声音质量和清晰度。
优选地,步骤S2包括以下步骤:
步骤S21:确定语音重叠识别数据为单人语音数据时,直接执行步骤S3;
步骤S22:确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离,从而获取独立语言流数据;
步骤S23:对独立语言流数据进行人声标识处理,从而获取人声标识数据;
步骤S24:将人声标识数据中的每一项单人语音数据作为步骤S3的输入数据并执行步骤S3。
本发明通过对多人语音重叠数据进行语音时空分离,有助于识别和处理多人语音,提供了更多的分析和纠错材料,通过时空分离,可以减少多人语音中的交叉干扰,提高独立语音流数据的准确性和纯净度;人声标识处理有助于识别和区分不同的说话者,从而确定每个独立语音流数据的来源。这对于后续的纠错和标记非常重要,通过识别说话者,系统可以为每个说话者应用个性化的纠错和改进策略,以更好地满足他们的需求;通过将每个单人语音数据与其关联的人声标识数据一一对应,可以根据每个说话者的特点进行个性化的纠错和改进,提高了语音识别的适应性和准确性;通过将分离出的单人语音数据分别处理,系统可以更有效地应对多人语音重叠情况,减少混叠和错误,从而提高了多人语音的处理能力。
本发明实施例中,利用波束形成和空间谱估计技术,分析多通道音频数据的空间特性;采用盲源分离算法,将多人语音分离成各个说话者的独立语音流;对每个独立语音流进行声学特征提取,例如声谱特征、频谱包络;利用声学特征进行说话者识别,以确定每个独立语音流的说话者标识;逐个取出人声标识数据中的每一项,这代表了每个独立语音流及其对应的说话者标识;将单人语音数据与相应的说话者标识作为输入数据,依次执行步骤S3中的处理。
优选地,步骤S22包括以下步骤:
步骤S221:确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行声源多波束构建,从而获取声源多波束数据;
步骤S222:对声源多波束数据进行空间谱估计,从而获取声源空间谱数据;
步骤S223:对多人语音重叠数据进行混合矩阵估计,从而获取声源混合矩阵数据;
步骤S224:对声源混合矩阵数据进行矩阵逆调整以及进行声源分离,从而获取声源分离结果数据;
步骤S225:基于声源空间谱数据以及声源分离结果数据进行时间-频域分析,从获取时间-频域分析数据;
步骤S226:对时间-频域分析数据进行时间序列定位处理,时间序列定位数据;
步骤S227:基于声源空间谱数据以及声源分离结果数据进行三维空间位置分析,从而获取三维空间位置数据;
步骤S228:对声源分离结果数据、时间序列定位数据以及三维空间位置数据进行语音流重建,从而获取独立语音流数据。
本发明通过构建声源多波束,可以增强特定方向上的声音源信号,同时抑制其他方向上的噪声和混叠语音,有助于提高多人语音重叠数据的清晰度和可分辨性;通过进行空间谱估计,系统可以更准确地了解声源在多麦克风阵列中的分布情况,以便更好地分离语音信号,有助于提高声音源的空间定位和声音源信号的质量;估计混合矩阵有助于了解多个说话者的语音信号是如何混合在一起的,这个信息对后续的声源分离过程至关重要,因为它提供了分离算法所需的关键信息;通过调整混合矩阵并进行矩阵逆操作,系统能够有效地分离混叠的语音信号,从而提供单独的语音流,有助于提高多人语音重叠数据的可理解性和可操作性;时间-频域分析有助于了解语音信号在不同时间和频率上的变化,包括说话者切换、语音段落和音频特性,有助于提高语音纠错的准确性和针对性;时间序列定位处理允许系统更好地理解多人语音中不同说话者的时间序列,有助于更准确地区分说话者和理解他们的发言时刻,这对于语音分离和纠错非常重要;通过三维空间位置分析,系统能够确定每个声源的具体三维位置,有助于实现更高级的声音源定位和空间分离,这对于多人语音分离和纠错的准确性非常关键;语音流重建允许系统将分离出的语音信号重新组合为单独的语音流,这使得后续的语音识别和纠错工作更容易实施,提高了语音处理的质量和可用性。
本发明实施例中,对多通道音频数据应用多波束构建算法,以构建多个波束,其中每个波束针对一个潜在的声源,每个波束的构建是通过权重和相位调整来实现的,以增强特定声源信号,并抑制其他声源的干扰;对每个声源多波束数据计算其空间谱估计,计算每个波束的功率谱密度,空间谱估计提供了关于声源位置和空间特性的信息,进一步用于声源分离和定位;利用多波束构建后的数据和空间谱估计的结果,对多人语音重叠数据中的声源进行混合矩阵估计,混合矩阵描述了不同波束之间的混合关系,即不同声源如何混合在一起;使用混合矩阵数据,进行矩阵逆操作,以将混合信号分离成各个独立的声源信号,利用矩阵逆调整后的数据,进行声源分离,以分离多人语音重叠数据中的不同声源,每个分离出的声源信号对应于一个独立的说话者;对分离出的声源信号进行时频分析,以获得声源在时间和频率上的特征信息;利用时间-频域分析数据和空间谱数据,进行时间序列定位处理,以确定各个声源在时间上的位置;利用声源空间谱数据和声源分离结果数据,进行三维空间位置分析,以确定各个声源的三维空间位置;利用分离出的声源数据、时间序列定位数据和三维空间位置数据,重建各个说话者的独立语音流。
优选地,步骤S3包括以下步骤:
步骤S31:确定语音重叠识别数据为单人语音数据时,对单人语音数据进行能量门限检测,从而获取语音段数据;
步骤S32:利用语音活动检测算法对语音段数据进行语音活动检测,从而获取语音活动数据;
步骤S33:对语音活动数据进行定位切割点,从而获取定位切割点数据;
步骤S34:跟定位切割点数据进行语音定点切割,从而获取单人语音分段数据;
步骤S35:对单人语音分段数据进行声音频谱分析,从而获取声音频谱数据;
步骤S36:对单人语音分段数据进行共振峰参数提取,从而获取共振峰参数;
步骤S37:利用共振峰参数对声音频谱数据进行峰值匹配,从而获取声音频谱峰值数据;
步骤S38:对单人语音分段数据进行单人声纹特征提取,从而获取单人声纹特征数据;
步骤S39:对单人语音分段数据进行单人音素分析,从而获取单人音素特征数据;
步骤S310:根据声音频谱峰值数据对单人声纹特征数据以及单人音素特征数据进行语音口音特征融合,从而获取语音口音特征数据。
本发明通过检测语音数据的能量门限,确定语音段数据的开始和结束,从而准确提取语音段,有助于排除背景噪音或沉默段,使后续的分析更加准确和高效;语音活动检测算法用于确定语音段中的活动和非活动部分,即声音是否存在,有助于确定语音段的实际语音活动部分,从而避免处理无声或非语音区域,提高了分析的精确性;定位切割点数据的获取有助于确定语音段的分界点,即语音活动的开始和结束,使得进一步的语音分割变得更加精确,为后续的分析和特征提取提供了准确的语音段;语音定点切割是根据定位切割点数据对语音段进行准确的切分,以获取单人语音分段数据,有助于将不同的语音活动分离开,为后续的声学分析和声纹特征提取提供了清晰的语音数据;声音频谱分析用于提取语音段的频谱特征,包括声音频谱的幅度和频率信息,有助于了解语音的声音质量和语音内容,为后续的特征提取和分析提供了基础数据;共振峰参数提取是声学分析的一部分,用于提取语音段中的共振峰信息,这些峰值与声音的声学特性相关,有助于区分不同语音的声音特征,为声音识别提供了重要信息;峰值匹配过程用于根据共振峰参数对声音频谱数据进行匹配,以确定语音的声学特征,有助于识别和区分不同的语音,提高语音识别的准确性;单人声纹特征提取用于捕捉语音中的声纹特征,这些特征是与说话者个体相关的,有助于对不同说话者进行区分,可以用于声纹识别和说话者识别;单人音素分析有助于将语音分段拆分成音素级别的语音单位,这对于语音识别和语音理解非常重要,提供了语音的更细粒度特征,有助于精确的语音处理;语音口音特征融合是将声音频谱峰值数据与单人声纹特征和单人音素特征相结合,以获得更全面和准确的语音口音特征数据,有助于改善方言、口音和发音错误的识别和纠正,提高了语音识别系统的性能。
本发明实施例中,利用信号处理技术,对语音数据进行能量门限检测,以识别语音段,在检测过程中,当语音信号的能量超过预定的门限值时,将其标记为语音段,语音段数据,即已检测并分离出的语音段;对每个语音段进行语音活动检测,确定语音段中的活动和静音部分,确定语音段中的活动和静音部分;利用定位切割点,以找到语音活动中的切割点,即语音段的起始和结束点;根据定位切割点数据,对语音活动数据进行切割,以获取单人语音分段数据;将每个语音分段转换为频域表示,获得声音频谱数据;提取每个语音分段中的共振峰参数;对声音频谱数据中的峰值进行匹配,以确定频谱中的峰值位置和幅度;提取每个语音分段的声纹特征,以描述说话者的声音特性;进行单人音素分析,以确定每个语音分段中的音素,即语音中的基本发音单元;基于声音频谱峰值数据,将单人声纹特征和单人音素特征进行融合,以获得语音口音特征数据,该数据综合了声音频谱、声纹和音素信息。
优选地,步骤S4包括以下步骤:
步骤S41:获取用户地理位置数据;利用GIS对用户地理位置数据进行三维空间局部构建,从而获取地理空间局部数据;
步骤S42:对地理空间局部数据进行用户地理海拔标注,从而获取用户地理海拔数据;
步骤S43:根据用户地理海拔数据进行气压数据获取,从而获取海拔气压数据;
步骤S44:基于海拔气压数据进行气压-海拔关系模型构建,从而获取气压-海拔关系模型;
步骤S45:利用气压-海拔关系模型对海拔气压数据进行模型拟合,从而获取气压-海拔关系模型拟合参数;
步骤S46:基于气压-海拔关系模型拟合参数进行海拔气压减损参数提取,从而获取海拔气压减损参数。
本发明通过获取用户的地理位置数据有助于将环境变量引入到语音处理中,这意味着语音识别系统可以更好地适应不同地理区域的环境条件,提高了系统的环境适应性;标注用户的地理海拔信息可以帮助系统更准确地了解语音信号产生时的海拔高度,对于声学环境的建模非常重要,因为海拔高度会影响声音的传播速度和声音的频谱特性;获取气压数据是为了获取与地理位置相关的气象数据,气压与海拔高度之间存在紧密的关系,因此能够提供声音传播中的重要环境信息;建立气压-海拔关系模型允许系统根据气压数据来推断海拔高度,这一模型是基于气象学原理构建的,可以提供精确的海拔高度估计;模型拟合可以进一步改进海拔高度的估计精度,模型能够更好地捕捉气压和海拔之间的关系,从而提供更准确的数据;提取海拔气压减损参数是为了对多人语音数据进行声学补偿,准确的减损参数允许语音处理系统更好地理解声音在不同海拔高度和气压条件下的传播特性,从而提高语音识别的准确性。
作为本发明的一个实例,参考图3所示,在本实例中所述步骤S4包括:
步骤S41:获取用户地理位置数据;利用GIS对用户地理位置数据进行三维空间局部构建,从而获取地理空间局部数据;
本发明实施例中,使用全球卫星导航系统接收用户的位置数据,如经度和纬度。
步骤S42:对地理空间局部数据进行用户地理海拔标注,从而获取用户地理海拔数据;
本发明实施例中,利用用户的经度和纬度数据,访问地理信息系统的地图数据库;从地图数据库中获取用户所在地点的地理空间局部数据,包括该地点的海拔信息。
步骤S43:根据用户地理海拔数据进行气压数据获取,从而获取海拔气压数据;
本发明实施例中,使用用户地理海拔数据以及气象传感器数据,以获取该地点的气压数据。
步骤S44:基于海拔气压数据进行气压-海拔关系模型构建,从而获取气压-海拔关系模型;
本发明实施例中,收集大量不同地点的气压和相应的海拔数据;利用收集的数据,使用数学建模技术构建气压-海拔关系模型,采用线性回归,以建立气压与海拔之间的关系。
步骤S45:利用气压-海拔关系模型对海拔气压数据进行模型拟合,从而获取气压-海拔关系模型拟合参数;
本发明实施例中,使用已构建的气压-海拔关系模型,将用户的海拔数据代入模型中。
步骤S46:基于气压-海拔关系模型拟合参数进行海拔气压减损参数提取,从而获取海拔气压减损参数;
本发明实施例中,通过将用户地理海拔数据和相应的气压数据传递到模型中,得到预测的气压值;与实际测得的气压数据进行比较,从而计算出海拔气压减损参数;这个参数描述了气压随海拔变化的趋势。
优选地,步骤S46包括以下步骤:
步骤S461:基于气压-海拔关系模型拟合参数进行气压减损参数计算,从而获取气压减损参数数据;
步骤S462:根据气压减损参数数据进行声音传播速度变化分析,从而获取声音传播速度变化数据;
步骤S463:根据气压减损参数数据进行声音波长变化分析,从而获取声音波长变化数据;
步骤S464:基于声音传播速度变化数据以及声音波长变化数据进行语音信号影响效应分析,从而获取语音信号影响效应数据;
步骤S465:对语音信号影响效应数据进行语音信号调整,从而获取海拔气压减损参数。
本发明通过气压-海拔关系模型,可计算出与海拔高度相关的气压减损参数,有助于纠正多人语音中受海拔高度影响的语音信号,提高语音识别的准确性;通过声音传播速度变化数据,可以了解语音信号在不同海拔高度下的传播速度差异,有助于校正语音信号的时间特性,确保语音识别过程中的时序关系准确;声音波长变化数据揭示了语音信号在不同海拔高度下的波长变化情况,有助于更好地理解语音信号的频谱特性,从而提高语音识别的频谱建模准确性;语音信号影响效应数据反映了海拔高度对语音信号的影响,包括时间特性和频谱特性,这些数据有助于更精确地理解语音信号的变化,从而更好地进行校正和纠正;通过语音信号调整,可以根据获取的语音信号影响效应数据,对语音信号进行纠正和调整,以适应不同海拔高度下的语音信号特性,有助于提高语音识别系统的鲁棒性和准确性,无论用户所在的海拔高度如何。
作为本发明的一个实例,参考图4所示,在本实例中所述步骤S46包括:
步骤S461:基于气压-海拔关系模型拟合参数进行气压减损参数计算,从而获取气压减损参数数据;
本发明实施例中,利用现有的气压-海拔关系模型,根据用户提供的海拔高度估计气压;利用气压-海拔关系模型,拟合参数,以估算气压减损参数。
步骤S462:根据气压减损参数数据进行声音传播速度变化分析,从而获取声音传播速度变化数据;
本发明实施例中,基于已知的声音速度和气压减损参数数据,计算声音在特定条件下的传播速度;比较计算得到的声音速度与标准声音速度;根据差异,得出声音传播速度的变化数据。
步骤S463:根据气压减损参数数据进行声音波长变化分析,从而获取声音波长变化数据;
本发明实施例中,基于已知的声音速度和气压减损参数数据,计算声音的频率;声音速度与频率之间有明显的关系。
步骤S464:基于声音传播速度变化数据以及声音波长变化数据进行语音信号影响效应分析,从而获取语音信号影响效应数据;
本发明实施例中,使用声音传播速度和波长的变化数据,分析它们对语音信号的影响,例如声音传播时间、频率变化。
步骤S465:对语音信号影响效应数据进行语音信号调整,从而获取海拔气压减损参数;
本发明实施例中,根据前一步骤中的分析结果,了解声音信号受海拔高度和气压变化的影响;根据语音信号的分析结果,对语音信号进行相应的调整,以抵消或修正海拔和气压的影响;最终,获得了校准后的语音信号,其中已经考虑了海拔气压减损参数的影响。
优选地,步骤S461中气压减损参数计算公式进行计算,其中气压减损参数计算公式具体为:
;
式中,表示气压减损参数,/>表示一个离散的海拔高度分段的总数,/>表示海拔高度分段的索引值,/>表示在海拔高度分段/>上的气压变化,/>表示海平面上的标准大气压力,/>表示与海拔高度分段/>相关的角度参数,/>表示与海拔高度分段/>相关的斜率参数,/>表示气压减损参数计算偏差纠正值。
本发明构造了一种气压减损参数计算公式,用于基于气压-海拔关系模型拟合参数进行气压减损参数计算;公式中表示了在不同海拔高度分段上的气压减损程度,它是计算气压减损的核心参数,对于纠正语音数据中的气压效应非常重要;/>表示将海拔高度分段为多少个小区间,用于离散化海拔高度,使气压减损参数的计算更精确,增加N的数量可以提高计算的精度;/>表示在特定海拔高度分段k上的气压变化量,反映了海拔高度对气压的影响,可以帮助确定气压减损的程度;/>作为一个常数,表示海平面上的标准大气压力,提供了一个基准值,用于计算气压变化相对于海平面的影响;/>这个角度参数可能用于考虑不同海拔高度分段之间的斜率或倾斜度,以更准确地表示气压减损效应;/>这个参数可能用于调整计算的斜率,以更好地匹配海拔高度分段的数据;/>这是一个纠正值,用于调整整体计算结果,以消除可能的系统偏差。
10.优选地,本发明还提供了一种基于人工智能的语音识别纠错系统,包括:
用户语音检测模块,用于通过语音输入设备获取用户语音数据;对用户语音数据进行人声重叠检测,从而获取人声重叠检测数据,其中人声重叠检测数据包括单人语音数据以及多人语音重叠数据;
语音重叠识别数据判断模块,用于确定语音重叠识别数据为单人语音数据时,直接执行步骤S3;确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离并进行人声标识处理,从而获取人声标识数据;将人声标识数据中的每一项单人语音数据作为步骤S3的输入数据并执行步骤S3;
单人语言特征提取模块,用于对单人语音数据进行单人语音分段,从而获取单人语音分段数据;对单人语音分段数据进行语音口音特征提取,从而获取语音口音特征数据;
海拔气压减损分析模块,用于获取用户地理位置数据;根据用户地理位置数据对单人语音数据进行海拔气压减损分析,从而获取海拔气压减损参数;
语音声学纠错模块,用于利用海拔气压减损参数对语音口音特征数据进行语音声学补偿处理并进行语音纠错,从而获取单人语音纠错数据。
本发明通过从多种语音源中采集数据,使得系统能够处理不同说话者的语音,同时,检测人声重叠数据有助于区分单人语音和多人语音重叠数据,为后续处理提供基础;通过根据语音重叠情况,系统能够有效地区分处理方式,以准备进行相应的后续处理,当识别数据为单人语音时,无需进行多人语音分离,从而减少计算负担,提高系统效率;将单人语音数据分成小段,有助于后续精细的口音特征提取和声学补偿处理,提取语音口音特征数据,以了解发音和口音的特点,为后续纠错提供重要信息;利用用户的地理位置信息,系统可以更好地适应不同地理区域的气压变化,从而提高声音质量,通过海拔气压减损分析,校准语音信号,降低海拔对声音信号的影响,从而改善语音质量;通过声学补偿处理,系统可以更准确地识别和纠正发音错误,从而提高语音识别的准确性,基于用户的地理位置信息,系统可以进行个性化的声学适应,提供更符合用户的语音纠错。因此,本发明提供了一种基于人工智能的语音识别纠错方法及系统,通过海拔气压减损分析以及多人语音重叠数据的语音时空分离处理,提高了不同海拔高度的多人语音情况下语音识别准确性以及应对方言和口音的适应性。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于人工智能的语音识别纠错方法,其特征在于,包括以下步骤:
步骤S1:通过语音输入设备获取用户语音数据;对用户语音数据进行人声重叠检测,从而获取人声重叠检测数据,其中人声重叠检测数据包括单人语音数据以及多人语音重叠数据;
步骤S2:确定语音重叠识别数据为单人语音数据时,直接执行步骤S3;确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离并进行人声标识处理,从而获取人声标识数据;将人声标识数据中的每一项单人语音数据作为步骤S3的输入数据并执行步骤S3;
步骤S3:对单人语音数据进行单人语音分段,从而获取单人语音分段数据;对单人语音分段数据进行语音口音特征提取,从而获取语音口音特征数据;
步骤S4:获取用户地理位置数据;根据用户地理位置数据对单人语音数据进行海拔气压减损分析,从而获取海拔气压减损参数;其中,步骤S4包括:
步骤S41:获取用户地理位置数据;利用GIS对用户地理位置数据进行三维空间局部构建,从而获取地理空间局部数据;
步骤S42:对地理空间局部数据进行用户地理海拔标注,从而获取用户地理海拔数据;
步骤S43:根据用户地理海拔数据进行气压数据获取,从而获取海拔气压数据;
步骤S44:基于海拔气压数据进行气压-海拔关系模型构建,从而获取气压-海拔关系模型;
步骤S45:利用气压-海拔关系模型对海拔气压数据进行模型拟合,从而获取气压-海拔关系模型拟合参数;
步骤S46:基于气压-海拔关系模型拟合参数进行海拔气压减损参数提取,从而获取海拔气压减损参数;其中步骤S46包括:
步骤S461:基于气压-海拔关系模型拟合参数进行气压减损参数计算,从而获取气压减损参数数据;
其中,进行气压减损参数计算是通过气压减损参数计算公式进行的,气压减损参数计算公式具体为:
;
式中,表示气压减损参数,/>表示一个离散的海拔高度分段的总数,/>表示海拔高度分段的索引值,/>表示在海拔高度分段/>上的气压变化,/>表示海平面上的标准大气压力,表示与海拔高度分段/>相关的角度参数,/>表示与海拔高度分段/>相关的斜率参数,/>表示气压减损参数计算偏差纠正值;
步骤S462:根据气压减损参数数据进行声音传播速度变化分析,从而获取声音传播速度变化数据;
步骤S463:根据气压减损参数数据进行声音波长变化分析,从而获取声音波长变化数据;
步骤S464:基于声音传播速度变化数据以及声音波长变化数据进行语音信号影响效应分析,从而获取语音信号影响效应数据;
步骤S465:对语音信号影响效应数据进行语音信号调整,从而获取海拔气压减损参数,其中语音信号影响效应数据包括声音信号受海拔高度和气压变化的影响;
步骤S5:利用海拔气压减损参数对语音口音特征数据进行语音声学补偿处理并进行语音纠错,从而获取单人语音纠错数据。
2.根据权利要求1所述的基于人工智能的语音识别纠错方法,其特征在于,步骤S1包括以下步骤:
步骤S11:通过语音输入设备获取用户语音数据;
步骤S12:对用户语音数据进行语音环境降噪,从而获取用户语音环境降噪;
步骤S13:对用户语音环境降噪进行语音信号分帧,从而获取用户语音帧数据;
步骤S14:对用户语音帧数据进行连续帧分析,从而获取语音连续帧数据;
步骤S15:利用预设的人声重叠检测模型对语音连续帧数据进行人声重叠检测,从而获取人声重叠检测数据。
3.根据权利要求2所述的基于人工智能的语音识别纠错方法,其特征在于,步骤S12中语音环境降噪计算公式进行计算,其中语音环境降噪计算公式具体为:
;
式中,表示用户语音环境降噪后的输出信号,/>用户语音数据的输入信号,/>表示用户语音数据的频率分量的序号,/>表示用户语音数据的第/>个频率分量的幅度,/>表示用户语音数据的第/>个频率分量的相位,/>表示用户语音数据的音频方向角,/>表示用户语音数据的音频倾斜角,/>表示用户语音数据的信噪比,/>表示用户语音数据的音频能量,/>表示用户语音数据的音频峰值,/>表示语音环境降噪误差修复量。
4.根据权利要求1所述的基于人工智能的语音识别纠错方法,其特征在于,步骤S2包括以下步骤:
步骤S21:确定语音重叠识别数据为单人语音数据时,直接执行步骤S3;
步骤S22:确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离,从而获取独立语言流数据;
步骤S23:对独立语言流数据进行人声标识处理,从而获取人声标识数据;
步骤S24:将人声标识数据中的每一项单人语音数据作为步骤S3的输入数据并执行步骤S3。
5.根据权利要求4所述的基于人工智能的语音识别纠错方法,其特征在于,步骤S22包括以下步骤:
步骤S221:确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行声源多波束构建,从而获取声源多波束数据;
步骤S222:对声源多波束数据进行空间谱估计,从而获取声源空间谱数据;
步骤S223:对多人语音重叠数据进行混合矩阵估计,从而获取声源混合矩阵数据;
步骤S224:对声源混合矩阵数据进行矩阵逆调整以及进行声源分离,从而获取声源分离结果数据;
步骤S225:基于声源空间谱数据以及声源分离结果数据进行时间-频域分析,从获取时间-频域分析数据;
步骤S226:对时间-频域分析数据进行时间序列定位处理,时间序列定位数据;
步骤S227:基于声源空间谱数据以及声源分离结果数据进行三维空间位置分析,从而获取三维空间位置数据;
步骤S228:对声源分离结果数据、时间序列定位数据以及三维空间位置数据进行语音流重建,从而获取独立语音流数据。
6.根据权利要求1所述的基于人工智能的语音识别纠错方法,其特征在于,步骤S3包括以下步骤:
步骤S31:确定语音重叠识别数据为单人语音数据时,对单人语音数据进行能量门限检测,从而获取语音段数据;
步骤S32:利用语音活动检测算法对语音段数据进行语音活动检测,从而获取语音活动数据;
步骤S33:对语音活动数据进行定位切割点,从而获取定位切割点数据;
步骤S34:跟定位切割点数据进行语音定点切割,从而获取单人语音分段数据;
步骤S35:对单人语音分段数据进行声音频谱分析,从而获取声音频谱数据;
步骤S36:对单人语音分段数据进行共振峰参数提取,从而获取共振峰参数;
步骤S37:利用共振峰参数对声音频谱数据进行峰值匹配,从而获取声音频谱峰值数据;
步骤S38:对单人语音分段数据进行单人声纹特征提取,从而获取单人声纹特征数据;
步骤S39:对单人语音分段数据进行单人音素分析,从而获取单人音素特征数据;
步骤S310:根据声音频谱峰值数据对单人声纹特征数据以及单人音素特征数据进行语音口音特征融合,从而获取语音口音特征数据。
7.一种基于人工智能的语音识别纠错系统,其特征在于,用于执行如权利要求1所述的基于人工智能的语音识别纠错方法,该基于人工智能的语音识别纠错系统包括:
用户语音检测模块,用于通过语音输入设备获取用户语音数据;对用户语音数据进行人声重叠检测,从而获取人声重叠检测数据,其中人声重叠检测数据包括单人语音数据以及多人语音重叠数据;
语音重叠识别数据判断模块,用于确定语音重叠识别数据为单人语音数据时,直接执行步骤S3;确定语音重叠识别数据为多人语音重叠数据时,对多人语音重叠数据进行语音时空分离并进行人声标识处理,从而获取人声标识数据;将人声标识数据中的每一项单人语音数据作为步骤S3的输入数据并执行步骤S3;
单人语言特征提取模块,用于对单人语音数据进行单人语音分段,从而获取单人语音分段数据;对单人语音分段数据进行语音口音特征提取,从而获取语音口音特征数据;
海拔气压减损分析模块,用于获取用户地理位置数据;根据用户地理位置数据对单人语音数据进行海拔气压减损分析,从而获取海拔气压减损参数;
语音声学纠错模块,用于利用海拔气压减损参数对语音口音特征数据进行语音声学补偿处理并进行语音纠错,从而获取单人语音纠错数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311512096.5A CN117238278B (zh) | 2023-11-14 | 2023-11-14 | 基于人工智能的语音识别纠错方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311512096.5A CN117238278B (zh) | 2023-11-14 | 2023-11-14 | 基于人工智能的语音识别纠错方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117238278A CN117238278A (zh) | 2023-12-15 |
CN117238278B true CN117238278B (zh) | 2024-02-09 |
Family
ID=89082982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311512096.5A Active CN117238278B (zh) | 2023-11-14 | 2023-11-14 | 基于人工智能的语音识别纠错方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117238278B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
WO2017068582A1 (en) * | 2015-10-20 | 2017-04-27 | Healthymize Ltd | System and method for monitoring and determining a medical condition of a user |
CN108597263A (zh) * | 2018-04-26 | 2018-09-28 | 广州国铭职业技能培训有限公司 | 一种具有部门专业知识培训功能的机器人 |
CN109272998A (zh) * | 2018-09-07 | 2019-01-25 | 马鞍山问鼎网络科技有限公司 | 一种人工智能语音检测及控制方法 |
CN110970049A (zh) * | 2019-12-06 | 2020-04-07 | 广州国音智能科技有限公司 | 多人声识别方法、装置、设备及可读存储介质 |
CN111128178A (zh) * | 2019-12-31 | 2020-05-08 | 上海赫千电子科技有限公司 | 一种基于面部表情分析的语音识别方法 |
-
2023
- 2023-11-14 CN CN202311512096.5A patent/CN117238278B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017068582A1 (en) * | 2015-10-20 | 2017-04-27 | Healthymize Ltd | System and method for monitoring and determining a medical condition of a user |
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN108597263A (zh) * | 2018-04-26 | 2018-09-28 | 广州国铭职业技能培训有限公司 | 一种具有部门专业知识培训功能的机器人 |
CN109272998A (zh) * | 2018-09-07 | 2019-01-25 | 马鞍山问鼎网络科技有限公司 | 一种人工智能语音检测及控制方法 |
CN110970049A (zh) * | 2019-12-06 | 2020-04-07 | 广州国音智能科技有限公司 | 多人声识别方法、装置、设备及可读存储介质 |
CN111128178A (zh) * | 2019-12-31 | 2020-05-08 | 上海赫千电子科技有限公司 | 一种基于面部表情分析的语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117238278A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shao et al. | A computational auditory scene analysis system for speech segregation and robust speech recognition | |
Van Kuyk et al. | An evaluation of intrusive instrumental intelligibility metrics | |
Kingsbury et al. | Robust speech recognition using the modulation spectrogram | |
EP1536414B1 (en) | Method and apparatus for multi-sensory speech enhancement | |
Viikki et al. | Cepstral domain segmental feature vector normalization for noise robust speech recognition | |
Ma et al. | Efficient voice activity detection algorithm using long-term spectral flatness measure | |
Mitra et al. | Medium-duration modulation cepstral feature for robust speech recognition | |
EP1887831B1 (en) | Method, apparatus and program for estimating the direction of a sound source | |
KR101378696B1 (ko) | 협대역 신호로부터의 상위대역 신호의 결정 | |
CN110459241B (zh) | 一种用于语音特征的提取方法和系统 | |
CN105474311A (zh) | 基于听觉场景分析及语音模型化的语音信号分离及合成 | |
US20080208578A1 (en) | Robust Speaker-Dependent Speech Recognition System | |
CN108108357B (zh) | 口音转换方法及装置、电子设备 | |
Ganapathy et al. | Temporal envelope compensation for robust phoneme recognition using modulation spectrum | |
CN110858476B (zh) | 一种基于麦克风阵列的声音采集方法及装置 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
CN103730112A (zh) | 语音多信道模拟与采集方法 | |
Erzin | Improving throat microphone speech recognition by joint analysis of throat and acoustic microphone recordings | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Kotnik et al. | Evaluation of pitch detection algorithms in adverse conditions | |
CN110176243B (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
JP4871191B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
CN117238278B (zh) | 基于人工智能的语音识别纠错方法及系统 | |
CN112185405A (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
US11978433B2 (en) | Multi-encoder end-to-end automatic speech recognition (ASR) for joint modeling of multiple input devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |