CN115148208A - 音频数据处理方法、装置、芯片及电子设备 - Google Patents
音频数据处理方法、装置、芯片及电子设备 Download PDFInfo
- Publication number
- CN115148208A CN115148208A CN202211067669.3A CN202211067669A CN115148208A CN 115148208 A CN115148208 A CN 115148208A CN 202211067669 A CN202211067669 A CN 202211067669A CN 115148208 A CN115148208 A CN 115148208A
- Authority
- CN
- China
- Prior art keywords
- audio data
- audio
- sample
- recognition
- echo cancellation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000000694 effects Effects 0.000 claims abstract description 27
- 239000000523 sample Substances 0.000 claims description 125
- 239000013074 reference sample Substances 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 4
- 230000004075 alteration Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本申请公开一种音频数据处理方法、装置、芯片及电子设备,该音频数据处理方法包括:获取原始音频数据,并对所述原始音频数据进行回声消除处理,得到第一目标音频数据;对所述原始音频数据和所述第一目标音频数据进行语音识别,得到对应所述原始音频数据的第一识别率以及对应所述第一目标音频数据的第二识别率;将所述第一识别率和所述第二识别率进行对比,并基于对比结果确定所述回声消除处理的效果。本申请能够有效评估消除回声的效果。
Description
技术领域
本申请涉及语音识别技术领域,具体涉及一种音频数据处理方法、装置、芯片及电子设备。
背景技术
随着人工智能技术高速发展,智能语音识别设备逐渐被应用到各种应用场景。虽然智能语音识别设备已经被广泛应用,但是仍然有尚未解决的技术问题影响智能语音识别设备的语音识别率,其中,回声是降低语音识别率的重要因素之一。现有技术方案可以提供消除回声的方法,然而,在现有技术领域内却没有一种评估方法可以有效评估消除回声的效果,导致人们难以确定消除回声是否有效提高语音识别率。
发明内容
鉴于此,本申请提供一种音频数据处理方法、装置、芯片及电子设备,能够有效评估消除回声的效果。
本申请提供一种音频数据处理方法,包括:
获取原始音频数据,并对所述原始音频数据进行回声消除处理,得到第一目标音频数据;
对所述原始音频数据和所述第一目标音频数据进行语音识别,得到对应所述原始音频数据的第一识别率以及对应所述第一目标音频数据的第二识别率;
将所述第一识别率和所述第二识别率进行对比,并基于对比结果确定所述回声消除处理的效果。
可选地,所述原始音频数据包括多个音频样本,所述第一目标音频数据包括多个第一目标音频样本;在所述获取原始音频数据,并对所述原始音频数据进行回声消除处理,得到第一目标音频数据之前,所述方法还包括:
获取音频信号,并对所述音频信号进行模数转换处理,得到多个音频样本,其中,所述音频信号包括对应正音频样本的语音和对应负音频样本的语音,所述正音频样本为待识别的预设音频样本,所述负音频样本为干扰识别的预设音频样本。
可选地,所述对所述原始音频数据和所述第一目标音频数据进行语音识别,得到对应所述原始音频数据的第一识别率以及对应所述第一目标音频数据的第二识别率,包括:
对每个所述音频样本进行语音识别,得到对应的第一识别结果;
基于所述第一识别结果的数量与所述正音频样本的数量,确定所述第一识别率;以及,
对每个所述第一目标音频样本进行语音识别,得到对应的第二识别结果;
基于所述第二识别结果的数量与所述正音频样本的数量,确定所述第二识别率。
可选地,所述对所述原始音频数据进行回声消除处理,得到第一目标音频数据,包括:
获取参考样本,并基于所述参考样本,确定对应的音频样本中的负音频样本;
将所述对应的音频样本中的负音频样本进行删除,得到第一目标音频样本。
可选地,所述获取参考样本,包括:
当获得所述第一识别结果或所述第二识别结果时,生成提示语音,并将所述提示语音作为所述参考样本。
可选地,所述音频数据处理方法,还包括:
获取所述正音频样本的音频特征以及所述第一目标音频样本的音频特征;
将所述正音频样本的音频特征与所述第一目标音频样本的音频特征进行对比,得到对比信息;
基于所述对比信息确定所述回声消除处理的效果。
可选地,所述音频数据处理方法,还包括:
基于所述对比结果,采用对应的回声消除方式对所述原始音频数据进行回声消除处理,得到第二目标音频数据;
对所述第二目标音频数据进行语音识别,得到对应所述第二目标频数据的第三识别率。
可选地,所述采用对应的回声消除方式对所述原始音频数据进行回声消除处理,包括:
当执行所述回声消除处理时,获取音频样本和参考样本;
确定获取所述音频样本的时间点与获取所述参考样本的时间点之间的时间差;
基于时间差与识别率的映射关系,调节所述时间差,以调节所述回声消除方式。
本申请提供一种音频数据处理装置,包括:
回声消除模块,用于获取原始音频数据,并对所述原始音频数据进行回声消除处理,得到目标音频数据;
第一识别模块,用于对所述原始音频数据和所述目标音频数据进行语音识别,得到对应所述原始音频数据的第一识别率以及对应所述目标音频数据的第二识别率;
效果评估模块,用于将所述第一识别率和所述第二识别率进行对比,并基于对比结果确定所述回声消除处理的效果。
本申请提供一种芯片,用于执行如上任一项所述的音频数据处理方法。
本申请一种电子设备,包括如上所述的芯片。
本申请提供一种音频数据处理方法、装置、芯片及电子设备,首先,获取原始音频数据,并对原始音频数据进行回声消除处理,得到第一目标音频数据,接着,对原始音频数据和第一目标音频数据进行语音识别,得到对应原始音频数据的第一识别率以及对应第一目标音频数据的第二识别率,然后,将第一识别率和第二识别率进行对比,并基于对比结果确定回声消除处理的效果。本申请通过将对应原始音频数据的第一识别率以及对应第一目标音频数据的第二识别率进行对比,根据对比结果可以判断回声消除处理是否能够提升识别率,从而有效评估消除回声的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的音频数据处理方法的第一流程示意图;
图2为本申请实施例提供的音频数据处理方法的第二流程示意图;
图3为本申请实施例提供的音频数据处理方法的第三流程示意图;
图4为本申请实施例提供的音频数据处理方法的第四流程示意图;
图5为本申请实施例提供的音频数据处理装置的第一结构示意图;
图6为本申请实施例提供的音频数据处理装置的第二结构示意图;
图7为本申请实施例提供的音频数据处理装置的第三结构示意图;
图8为本申请实施例提供的音频数据处理装置的第四结构示意图;
图9为本申请实施例提供的音频数据处理装置的第五结构示意图。
具体实施方式
下面结合附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,下述各个实施例及其技术特征可以相互组合。
本申请提供一种音频数据处理方法,请参见图1,图1为本申请实施例提供的音频数据处理方法的第一流程示意图。该音频数据处理方法包括:
S1、获取原始音频数据,并对原始音频数据进行回声消除处理,得到第一目标音频数据。
获取原始音频数据时,比如,可以通过如下方式进行获取:通过麦克风等拾音设备实时获取周围环境的音频数据,或者,通过通过麦克风等拾音设备获取事先录制的音频数据,或者,读取电子设备上存储的音频数据,或者,从服务器下载音频数据等,通过上述方式获取的音频数据作为原始音频数据。
在一种实施例中,当原始音频数据中含有回声时,可以采用AEC回声消除技术消除原始音频数据中的回声,以得到第一目标音频数据。
在另一种实施例中,原始音频数据可能会掺杂回声和环境噪声,此时,需要对原始音频数据同时进行回声消除和噪声消除处理,以得到第一目标音频数据。
可选地,在一些实施例中,原始音频数据可以包括多个音频样本,第一目标音频数据包括多个第一目标音频样本。
可以理解的是,音频样本可以是人声说出的语句、机器播放的仿人声的语句或者非人声的音频。由于获取到的原始音频数据包括多个音频样本,每个音频样本可能掺杂语音识别设备不能识别的音频信息,当掺杂有回声时,需要对每个音频样本进行回声消除处理,以得到第一目标音频样本;当掺杂有回声和噪声时,需要同时对每个音频样本进行回声和噪声消除处理,以得到第一目标音频样本。
请参见图2,图2为本申请实施例提供的音频数据处理方法的第二流程示意图。在步骤“获取原始音频数据,并对原始音频数据进行回声消除处理,得到第一目标音频数据”之前,该音频数据处理方法还包括:
S0、获取音频信号,并对音频信号进行模数转换处理,得到多个音频样本,其中,音频信号包括对应正音频样本的语音和对应负音频样本的语音,正音频样本为待识别的预设音频样本,负音频样本为干扰识别的预设音频样本。
在一个具体实施例中,通过麦克风接收声音以获取音频信号,其中,麦克风接收到的声音中包括由音箱播放的语音,音箱根据正音频样本播放出用于测试语音识别的语音,正音频样本为待识别的预设音频样本;麦克风接收到的声音中还包括由语音识别设备的扬声器播放的语音,该扬声器根据负音频样本播放出用于干扰语音识别的语音,负音频样本为干扰识别的预设音频样本。上述音频信号为模拟信号,通过模数转换模块将该模拟信号转换成数字信号,以得到多个音频样本。
例如,在一种应用场景中,音箱根据作为正样本数据的语句“开灯”播放出“开灯”的语音,语音识别设备识别到“开灯”的语音后,执行开灯动作,并通过语音识别设备的扬声器播放“已开灯”的语音,其中,语音识别设备的扬声器根据作为负样本数据的语句“已开灯”播放出“已开灯”的语音。若此时音箱播放另一个“关灯”的语音,就会与扬声器播放的“灯已开”一同被麦克风拾取,并干扰语音识别产品识别到“关灯”的语音。
可选地,在一些实施例中,回声消除处理方式包括:
获取参考样本,并基于参考样本,确定对应的音频样本中的负音频样本;将对应的音频样本中的负音频样本进行删除,得到第一目标音频样本。
可以理解的是,通过将音频样本与参考样本进行比较,可以将音频样本中与参考样本相同的部分确定为负音频样本,并将每个音频样本与对应的参考样本分别进行比较,即可确定每个音频样本中的负音频样本。将每个音频样本中的负音频样本进行删除,从而实现回声消除处理,得到经过回声消除处理后的第一目标音频样本。
在一些实施例中,参考样本为预存于数据库中的音频样本,在需要利用参考样本时,可以从数据库中调用参考样本。
可选地,在一些实施例中,获取参考样本的方式包括:
当获得第一识别结果或第二识别结果时,生成提示语音,并将提示语音作为参考样本。
可以理解的是,在由音频信号进行模数转换处理得到的音频样本中,干扰语音识别的主要部分是由语音识别设备播放出的提示语音及其回声导致的,基于此,在语音识别设备播放出提示语音时或者在语音识别设备播放提示语音前,将提示语音作为参考样本,更能准确地确定音频样本中干扰语音识别的主要部分,即音频样本中的负音频样本。
S2、对原始音频数据和第一目标音频数据进行语音识别,得到对应原始音频数据的第一识别率以及对应第一目标音频数据的第二识别率。
可以理解的是,在一些实施例中,通过将原始音频数据与第一目标音频数据分别输入语音识别模型,以实现对原始音频数据和第一目标音频数据进行语音识别。例如,首先对原始音频数据进行语音识别,将输入到语音识别模型前的原始音频数据记为None_AEC_1,将语音识别模型识别到的识别结果记为None_AEC_2,统计得到的第一识别率记为None_AEC_Rates;然后,对原始音频数据进行回声消除处理,得到第一目标音频数据;将第一目标音频数据输入至语音识别模型,并将输入至语音识别模型的第一目标音频数据记为AEC_1_1,第一目标音频数据对应的识别结果记为AEC_2_1,统计得到第二识别率记为AEC_Rates_1。
可选地,在一些实施例中,步骤S2“对原始音频数据和第一目标音频数据进行语音识别,得到对应原始音频数据的第一识别率以及对应第一目标音频数据的第二识别率”可以包括:
对每个音频样本进行语音识别,得到对应的第一识别结果;
基于第一识别结果的数量与正音频样本的数量,确定第一识别率;以及,
对每个第一目标音频样本进行语音识别,得到对应的第二识别结果;
基于第二识别结果的数量与正音频样本的数量,确定第二识别率。
在本实施例中,以对原始音频数据进行语音识别为例,当开始语音识别测试时,音箱基于60个不同的正音频样本播放60种不同的语音,这些语音被麦克风拾取后经过模数转换处理,得到60个音频样本。这些音频样本作为原始音频数据进行语音识别。首先将原始音频数据的第一个音频样本输入到该语音识别模型,若语音识别模型成功识别该音频样本,则语音识别模型输出第一识别结果;将原始音频数据的所有音频样本输入至语音识别模型进行语音识别后,统计所有语音识别模型输出的第一识别结果,得到第一识别结果的数量;然后,从音箱调用本次语音识别测试的所有正音频样本,统计正音频样本的数量,基于第一识别结果的数量与正音频样本的数量,确定第一识别率,即识别率=正确的识别结果数量/实际音箱播放的正样本数量,若本次语音识别测试中成功识别并得到的第一识别结果有30个,则第一识别率为30/60=50%。
同理,基于第二识别结果的数量与正音频样本的数量,可以确定对应第一目标音频数据的第二识别率。
S3、将第一识别率和第二识别率进行对比,并基于对比结果确定回声消除处理的效果。
在一个具体实施例中,将第一识别率None_AEC_Rates与第二识别率AEC_Rates_1进行对比。若第二识别率AEC_Rates_1高于第一识别率None_AEC_Rates,则说明回声消除处理的效果好,有利于提高语音识别的识别率,反之,若第二识别率AEC_Rates_1低于第一识别率None_AEC_Rates,则说明回声消除处理的效果差。
本申请还提供其他音频数据处理方法,可选地,在一些实施例中,请参见图3,图3为本申请实施例提供的音频数据处理方法的第三流程示意图。在上述音频数据处理方法的基础上,还包括:
S4、获取正音频样本的音频特征以及第一目标音频样本的音频特征。
S5、将正音频样本的音频特征与第一目标音频样本的音频特征进行对比,得到对比信息。
S6、基于对比信息确定回声消除处理的效果。
可以理解的是,音频特征指的是一段音频的频率、幅度、相位等可视化的特征,即,通过检测正音频样本对应的语音,并检测出该语音的频率、幅度、相位,同理,对第一目标音频样本进行检测,得到对应的频率、幅度、相位。将对应正音频样本的频率与对应第一目标音频样本的频率进行对比、将对应正音频样本的幅度与对应第一目标音频样本的幅度进行对比或者将对应正音频样本的相位与对应第一目标音频样本的相位进行对比,通过将正音频样本与第一目标音频样本的一种或多种音频特征进行对比,得到对比信息。例如,对比信息显示:正音频样本与第一目标音频样本的频率相同,正音频样本的幅度大于第一目标音频样本的幅度,正音频样本与第一目标音频样本的相位相同。基于对比信息确定回声消除处理的效果,即正音频样本与第一目标音频样本的相同音频特征越多,正音频样本与第一目标音频样本的相似度越高,则说明回声消除处理的效果越好。
可选地,在一些实施例中,请参见图4,图4为本申请实施例提供的音频数据处理方法的第四流程示意图。在上述音频数据处理方法的基础上,还包括:
S7、基于对比结果,采用对应的回声消除方式对原始音频数据进行回声消除处理,得到第二目标音频数据。
S8、对第二目标音频数据进行语音识别,得到对应第二目标频数据的第三识别率。
可以理解的是,根据对比结果,可以判定回声消除处理的优化方向,再根据优化方向采取新的回声消除方式对原始音频数据进行回声消除处理,例如,第一种回声消除方式采用第一参考样本,通过对比结果发现第二识别率比第一识别率低,即说明需要采取另一种回声消除方式才能改善回声消除处理的效果,提高第二识别率,因此,第二种回声消除方式采用第二参考样本,并利用第二种回声消除方式对原始音频数据进行回声消除处理,得到第二目标音频数据,第二目标音频数据包括多个第二目标音频样本,再对每个第二目标音频样本进行语音识别,得到对应每个第二目标音频样本的第三识别结果,基于第三识别结果可以计算第三识别率。若第三识别率比第二识别率高,则说明第二种回声消除方式的效果更好。但是,若第三识别率比第二识别率低,则需要采用比第二种回声消除方式更好的回声消除方式,为了找到比第二种回声消除方式更好的回声消除方式,本申请还提供其他实施例。
可选地,在一些实施例中,采用对应的回声消除方式对原始音频数据进行回声消除处理的具体方式包括:
当执行回声消除处理时,获取音频样本和参考样本;确定获取音频样本的时间点与获取参考样本的时间点之间的时间差;基于时间差与识别率的映射关系,调节时间差,以调节回声消除方式。
在一个具体的实施例中,在时间差与识别率的映射关系中,当音频样本的时间点与获取参考样本的时间点之间的时间差为0时,识别率为90%;当音频样本的时间点与获取参考样本的时间点的差值为16ms时,识别率为80%;当音频样本的时间点与获取参考样本的时间点的差值为-16ms时,识别率为98%;当音频样本的时间点与获取参考样本的时间点的差值为-32ms时,识别率为88%;由时间差与识别率的映射关系可得,当音频样本的时间点与获取参考样本的时间点的差值为-16ms时,识别率最高,因此采用的回声消除方式应为获取音频样本的时间点比获取参考样本的时间点早16ms。
本申请提供的音频数据处理方法,首先,获取原始音频数据,并对原始音频数据进行回声消除处理,得到第一目标音频数据,接着,对原始音频数据和第一目标音频数据进行语音识别,得到对应原始音频数据的第一识别率以及对应第一目标音频数据的第二识别率,然后,将第一识别率和第二识别率进行对比,并基于对比结果确定回声消除处理的效果。本申请通过将对应原始音频数据的第一识别率以及对应第一目标音频数据的第二识别率进行对比,根据对比结果可以判断回声消除处理是否能够提升识别率,从而有效评估消除回声的效果。
本申请提供一种音频数据处理装置,请参见图5,图5为本申请实施例提供的音频数据处理装置的第一结构示意图。该音频数据处理装置包括:
回声消除模块1,用于获取原始音频数据,并对原始音频数据进行回声消除处理,得到目标音频数据。
第一识别模块2,用于对原始音频数据和目标音频数据进行语音识别,得到对应原始音频数据的第一识别率以及对应目标音频数据的第二识别率。
效果评估模块3,用于将第一识别率和第二识别率进行对比,并基于对比结果确定回声消除处理的效果。
可选地,在一些实施例中,原始音频数据包括多个音频样本,第一目标音频数据包括多个第一目标音频样本。
可选地,在一些实施例中,请参见图6,图6为本申请实施例提供的音频数据处理装置的第二结构示意图。该音频数据处理装置还包括:
音频处理模块4,用于获取音频信号,并对音频信号进行模数转换处理,得到多个音频样本。
其中,音频信号包括对应正音频样本的语音和对应负音频样本的语音,正音频样本为待识别的预设音频样本,负音频样本为干扰识别的预设音频样本。
可选地,在一些实施例中,回声消除模块1包括:
获取单元11,用于获取参考样本,并基于参考样本,确定对应的音频样本中的负音频样本。
清除单元12,用于将对应的音频样本中的负音频样本进行删除,得到第一目标音频样本。
可选地,在一些实施例中,请参见图7,图7为本申请实施例提供的音频数据处理装置的第三结构示意图。该音频数据处理装置还包括:
生成模块5,当获得第一识别结果或第二识别结果时,生成提示语音,并将提示语音作为参考样本。
可选地,在一些实施例中,第一识别模块2还用于:
对每个音频样本进行语音识别,得到对应的第一识别结果;基于第一识别结果的数量与正音频样本的数量,确定第一识别率;以及,对每个第一目标音频样本进行语音识别,得到对应的第二识别结果;基于第二识别结果的数量与正音频样本的数量,确定第二识别率。
可选地,在一些实施例中,请参见图8,图8为本申请实施例提供的音频数据处理装置的第四结构示意图。该音频数据处理装置还包括第二识别模块6,该第二识别模块6用于:
获取正音频样本的音频特征以及第一目标音频样本的音频特征;将正音频样本的音频特征与第一目标音频样本的音频特征进行对比,得到对比信息;基于对比信息确定回声消除处理的效果。
可选地,在一些实施例中,请参见图9,图9为本申请实施例提供的音频数据处理装置的第五结构示意图。该音频数据处理装置还包括调节模块7。
调节模块7用于基于对比结果,采用对应的回声消除方式对原始音频数据进行回声消除处理,得到第二目标音频数据。
第一识别模块2还用于对第二目标音频数据进行语音识别,得到对应第二目标频数据的第三识别率。
可选地,在一些实施例中,调节模块7包括时间调节单元71,该时间调节单元71用于:
当执行回声消除处理时,获取音频样本和参考样本;确定获取音频样本的时间点与获取参考样本的时间点之间的时间差;基于时间差与识别率的映射关系,调节时间差,以调节回声消除方式。
本申请提供的音频数据处理装置,首先,回声消除模块1获取原始音频数据,并对原始音频数据进行回声消除处理,得到第一目标音频数据,接着,第一识别模块2对原始音频数据和第一目标音频数据进行语音识别,得到对应原始音频数据的第一识别率以及对应第一目标音频数据的第二识别率,然后,效果评估模块3将第一识别率和第二识别率进行对比,并基于对比结果确定回声消除处理的效果。本申请通过将对应原始音频数据的第一识别率以及对应第一目标音频数据的第二识别率进行对比,根据对比结果可以判断回声消除处理是否能够提升识别率,从而有效评估消除回声的效果。
本申请提供一种芯片,用于执行如上任一项的音频数据处理方法。
本实施例的芯片能够实现如上的技术效果,在此不再累述。
本申请提供一种电子设备,包括上述芯片。
本实施例的电子能够实现如上的技术效果,在此不再累述。
尽管已经相对于一个或多个实现方式示出并描述了本申请,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本申请包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。
即,以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,例如各实施例之间技术特征的相互结合,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
另外,对于特性相同或相似的结构元件,本申请可采用相同或者不相同的标号进行标识。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词是用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何一个实施例不一定被解释为比其它实施例更加优选或更加具优势。为了使本领域任何技术人员能够实现和使用本申请,本申请给出了以上描述。在以上描述中,为了解释的目的而列出了各个细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实施例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
Claims (11)
1.一种音频数据处理方法,其特征在于,包括:
获取原始音频数据,并对所述原始音频数据进行回声消除处理,得到第一目标音频数据;
对所述原始音频数据和所述第一目标音频数据进行语音识别,得到对应所述原始音频数据的第一识别率以及对应所述第一目标音频数据的第二识别率;
将所述第一识别率和所述第二识别率进行对比,并基于对比结果确定所述回声消除处理的效果。
2.根据权利要求1所述的音频数据处理方法,其特征在于,所述原始音频数据包括多个音频样本,所述第一目标音频数据包括多个第一目标音频样本;在所述获取原始音频数据,并对所述原始音频数据进行回声消除处理,得到第一目标音频数据之前,所述方法还包括:
获取音频信号,并对所述音频信号进行模数转换处理,得到多个音频样本,其中,所述音频信号包括对应正音频样本的语音和对应负音频样本的语音,所述正音频样本为待识别的预设音频样本,所述负音频样本为干扰识别的预设音频样本。
3.根据权利要求2所述的音频数据处理方法,其特征在于,所述对所述原始音频数据和所述第一目标音频数据进行语音识别,得到对应所述原始音频数据的第一识别率以及对应所述第一目标音频数据的第二识别率,包括:
对每个所述音频样本进行语音识别,得到对应的第一识别结果;
基于所述第一识别结果的数量与所述正音频样本的数量,确定所述第一识别率;以及,
对每个所述第一目标音频样本进行语音识别,得到对应的第二识别结果;
基于所述第二识别结果的数量与所述正音频样本的数量,确定所述第二识别率。
4.根据权利要求3所述的音频数据处理方法,其特征在于,所述对所述原始音频数据进行回声消除处理,得到第一目标音频数据,包括:
获取参考样本,并基于所述参考样本,确定对应的音频样本中的负音频样本;
将所述对应的音频样本中的负音频样本进行删除,得到第一目标音频样本。
5.根据权利要求4所述的音频数据处理方法,其特征在于,所述获取参考样本,包括:
当获得所述第一识别结果或所述第二识别结果时,生成提示语音,并将所述提示语音作为所述参考样本。
6.根据权利要求2所述的音频数据处理方法,其特征在于,还包括:
获取所述正音频样本的音频特征以及所述第一目标音频样本的音频特征;
将所述正音频样本的音频特征与所述第一目标音频样本的音频特征进行对比,得到对比信息;
基于所述对比信息确定所述回声消除处理的效果。
7.根据权利要求1至6任一项所述的音频数据处理方法,其特征在于,所述方法还包括:
基于所述对比结果,采用对应的回声消除方式对所述原始音频数据进行回声消除处理,得到第二目标音频数据;
对所述第二目标音频数据进行语音识别,得到对应所述第二目标频数据的第三识别率。
8.根据权利要求7所述的音频数据处理方法,其特征在于,所述采用对应的回声消除方式对所述原始音频数据进行回声消除处理,包括:
当执行所述回声消除处理时,获取音频样本和参考样本;
确定获取所述音频样本的时间点与获取所述参考样本的时间点之间的时间差;
基于时间差与识别率的映射关系,调节所述时间差,以调节所述回声消除方式。
9.一种音频数据处理装置,其特征在于,包括:
回声消除模块,用于获取原始音频数据,并对所述原始音频数据进行回声消除处理,得到目标音频数据;
第一识别模块,用于对所述原始音频数据和所述目标音频数据进行语音识别,得到对应所述原始音频数据的第一识别率以及对应所述目标音频数据的第二识别率;
效果评估模块,用于将所述第一识别率和所述第二识别率进行对比,并基于对比结果确定所述回声消除处理的效果。
10.一种芯片,其特征在于,用于执行如权利要求1-8任一项所述的音频数据处理方法。
11.一种电子设备,其特征在于,包括如权利要求10所述的芯片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211067669.3A CN115148208B (zh) | 2022-09-01 | 2022-09-01 | 音频数据处理方法、装置、芯片及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211067669.3A CN115148208B (zh) | 2022-09-01 | 2022-09-01 | 音频数据处理方法、装置、芯片及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115148208A true CN115148208A (zh) | 2022-10-04 |
CN115148208B CN115148208B (zh) | 2023-02-03 |
Family
ID=83416067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211067669.3A Active CN115148208B (zh) | 2022-09-01 | 2022-09-01 | 音频数据处理方法、装置、芯片及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115148208B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002300120A (ja) * | 2001-03-30 | 2002-10-11 | Nec Corp | 音声通信装置用試験装置 |
CN101661751A (zh) * | 2008-08-29 | 2010-03-03 | 华为技术有限公司 | 一种评估声学回声消除算法的方法和装置 |
CN104575521A (zh) * | 2014-12-26 | 2015-04-29 | 大连理工大学 | 一种lte通信系统语音质量的评估方法 |
CN107910014A (zh) * | 2017-11-23 | 2018-04-13 | 苏州科达科技股份有限公司 | 回声消除的测试方法、装置及测试设备 |
US20190341060A1 (en) * | 2018-05-07 | 2019-11-07 | Google Llc | Objective quality metrics for ambisonic spatial audio |
CN112489679A (zh) * | 2020-11-20 | 2021-03-12 | 广州华多网络科技有限公司 | 声学回声消除算法的评估方法、装置及终端设备 |
CN112967731A (zh) * | 2021-05-18 | 2021-06-15 | 浙江华创视讯科技有限公司 | 一种消除语音回声的方法、装置及计算机可读介质 |
CN113225659A (zh) * | 2020-02-06 | 2021-08-06 | 钉钉控股(开曼)有限公司 | 设备测试方法及电子设备 |
CN113517000A (zh) * | 2021-03-03 | 2021-10-19 | 广州朗国电子科技股份有限公司 | 回声消除的测试方法、终端以及存储装置 |
CN114242101A (zh) * | 2021-12-20 | 2022-03-25 | 北京奕斯伟计算技术有限公司 | 用于语音交互系统的回声消除方法及电子设备和存储介质 |
-
2022
- 2022-09-01 CN CN202211067669.3A patent/CN115148208B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002300120A (ja) * | 2001-03-30 | 2002-10-11 | Nec Corp | 音声通信装置用試験装置 |
CN101661751A (zh) * | 2008-08-29 | 2010-03-03 | 华为技术有限公司 | 一种评估声学回声消除算法的方法和装置 |
CN104575521A (zh) * | 2014-12-26 | 2015-04-29 | 大连理工大学 | 一种lte通信系统语音质量的评估方法 |
CN107910014A (zh) * | 2017-11-23 | 2018-04-13 | 苏州科达科技股份有限公司 | 回声消除的测试方法、装置及测试设备 |
US20190341060A1 (en) * | 2018-05-07 | 2019-11-07 | Google Llc | Objective quality metrics for ambisonic spatial audio |
CN113225659A (zh) * | 2020-02-06 | 2021-08-06 | 钉钉控股(开曼)有限公司 | 设备测试方法及电子设备 |
CN112489679A (zh) * | 2020-11-20 | 2021-03-12 | 广州华多网络科技有限公司 | 声学回声消除算法的评估方法、装置及终端设备 |
CN113517000A (zh) * | 2021-03-03 | 2021-10-19 | 广州朗国电子科技股份有限公司 | 回声消除的测试方法、终端以及存储装置 |
CN112967731A (zh) * | 2021-05-18 | 2021-06-15 | 浙江华创视讯科技有限公司 | 一种消除语音回声的方法、装置及计算机可读介质 |
CN114242101A (zh) * | 2021-12-20 | 2022-03-25 | 北京奕斯伟计算技术有限公司 | 用于语音交互系统的回声消除方法及电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115148208B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161752B (zh) | 回声消除方法和装置 | |
US11042616B2 (en) | Detection of replay attack | |
US20220093111A1 (en) | Analysing speech signals | |
US20200265834A1 (en) | Detection of replay attack | |
Nam et al. | Filteraugment: An acoustic environmental data augmentation method | |
US6671666B1 (en) | Recognition system | |
CN111312273A (zh) | 混响消除方法、装置、计算机设备和存储介质 | |
CN111028845A (zh) | 多音频识别方法、装置、设备及可读存储介质 | |
CN110837758B (zh) | 一种关键词输入方法、装置及电子设备 | |
CN111477238B (zh) | 一种回声消除方法、装置及电子设备 | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
US20200227069A1 (en) | Method, device and apparatus for recognizing voice signal, and storage medium | |
CN110176243B (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
CN111028833A (zh) | 一种交互、车辆的交互方法、装置 | |
CN109741761B (zh) | 声音处理方法和装置 | |
CN115148208B (zh) | 音频数据处理方法、装置、芯片及电子设备 | |
JP2001520764A (ja) | スピーチ分析システム | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
Lemercier et al. | Diffusion posterior sampling for informed single-channel dereverberation | |
CN114333874A (zh) | 处理音频信号的方法 | |
CN115206347A (zh) | 肠鸣音的识别方法、装置、存储介质及计算机设备 | |
CN113724694B (zh) | 语音转换模型训练方法、装置、电子设备及存储介质 | |
CN111951786A (zh) | 声音识别模型的训练方法、装置、终端设备及介质 | |
CN115294990B (zh) | 扩声系统检测方法、系统、终端及存储介质 | |
CN109788399A (zh) | 一种音箱的回声消除方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |