CN110689887A - 音频校验方法、装置、存储介质及电子设备 - Google Patents

音频校验方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110689887A
CN110689887A CN201910907456.9A CN201910907456A CN110689887A CN 110689887 A CN110689887 A CN 110689887A CN 201910907456 A CN201910907456 A CN 201910907456A CN 110689887 A CN110689887 A CN 110689887A
Authority
CN
China
Prior art keywords
audio
audio signal
verification
recognition chip
verified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910907456.9A
Other languages
English (en)
Other versions
CN110689887B (zh
Inventor
陈喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201910907456.9A priority Critical patent/CN110689887B/zh
Publication of CN110689887A publication Critical patent/CN110689887A/zh
Application granted granted Critical
Publication of CN110689887B publication Critical patent/CN110689887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例公开了一种音频校验方法、装置、存储介质及电子设备,其中,通过麦克风采集待校验音频信号,并将待校验音频信号提供给专用语音识别芯片,由专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整,得到增强音频信号,再按照对应预设语气特征的第一校验策略校验增强音频信号,并在通过第一校验策略时,由处理器按照对应预设语气特征的第二校验策略再次校验增强音频信号,并再通过第二校验策略后,再按照第三校验策略校验原始的待校验音频信号,得到校验结果。由此,本申请通过对待校验音频信号进行语气调整后,再按照对应的音频校验策略进行校验,以排除语气变化的影响,能够提升音频校验的准确度。

Description

音频校验方法、装置、存储介质及电子设备
技术领域
本申请涉及语音识别技术领域,具体涉及一种音频校验方法、装置、存储介质及电子设备。
背景技术
目前,随着语音识别技术的发展,电子设备(比如手机、平板电脑等)通过运行的语音交互应用可与用户进行语音交互,比如,用户可以说出“我要听**歌曲”,则语音交互应用对用户的语音进行识别,并识别出用户想要听**歌曲的意图之后,即播放**歌曲。可以理解的是,用户与电子设备进行语音交互的前提是对用户进行音频校验,然而,在实际使用环境中,由于声音是一个不可控因素,使得音频校验的准确度较低。
发明内容
本申请实施例提供了一种音频校验方法、装置、存储介质及电子设备,能够提高电子设备进行音频校验的准确度。
第一方面,本申请实施例提供了一种音频校验方法,应用于电子设备,所述电子设备包括专用语音识别芯片、处理器和麦克风,所述音频校验方法包括:
通过所述麦克风采集待校验音频信号,并将所述待校验音频信号提供给所述专用语音识别芯片;
基于所述专用语音识别芯片按照预设语气特征对所述待校验音频信号进行语气调整,得到增强音频信号;
基于所述专用语音识别芯片按照对应所述预设语气特征的第一校验策略校验所述增强音频信号;
若通过所述第一校验策略,则基于所述处理器按照对应所述预设语气特征的第二校验策略再次校验所述增强音频信号;
若通过所述第二校验策略,则基于所述处理器按照第三校验策略校验所述待校验音频信号,得到校验结果。
第二方面,本申请实施例提供了一种音频校验装置,应用于电子设备,所述电子设备包括专用语音识别芯片、处理器和麦克风,所述音频校验装置包括:
音频采集模块,用于通过所述麦克风采集待校验音频信号,并将所述待校验音频信号提供给所述专用语音识别芯片;
音频增强模块,用于基于所述专用语音识别芯片按照预设语气特征对所述待校验音频信号进行语气调整,得到增强音频信号;
第一校验模块,用于基于所述专用语音识别芯片按照对应所述预设语气特征的第一校验策略校验所述增强音频信号;
第二校验模块用于在第一校验模块校验通过时,基于所述处理器按照对应所述预设语气特征的第二校验策略再次校验所述增强音频信号;
第三校验模块,用于在第二校验模块校验通过时,基于所述处理器按照第三校验策略校验所述待校验音频信号。
第三方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,当所述计算机程序在包括专用语音识别芯片、处理器和麦克风的电子设备上运行时,使得所述电子设备执行如本申请实施例提供的音频校验方法。
第四方面,本申请实施例提供了一种电子设备,包括专用语音识别芯片、处理器和麦克风,所述存储器存储有计算机程序,其中,
所述麦克风用于采集待校验音频信号,并将所述待校验音频信号提供给所述专用语音识别芯片;
所述专用语音识别芯片和所述处理器通过调用所述计算机程序,用于执行:
所述专用语音识别芯片按照预设语气特征对所述待校验音频信号进行语气调整,得到增强音频信号;
所述专用语音识别芯片按照对应所述预设语气特征的第一校验策略校验所述增强音频信号;
当通过第一校验策略时,所述处理器按照对应预设语气特征的第二校验策略再次校验所述增强音频信号;
当通过第二校验策略时,所述处理器按照第三校验策略校验所述待校验音频信号,得到校验结果。
相比于相关技术,本申请通过对待校验音频信号进行语气调整后,再按照对应的音频校验策略进行校验,以排除语气变化的影响,能够提升音频校验的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的音频校验方法的一流程示意图。
图2是本申请实施例中对待校验音频信号分帧的示意图。
图3是本申请实施例提供的音频校验方法的另一流程示意图。
图4是本申请实施例提供的音频校验装置的一结构示意图。
图5是本申请实施例提供的电子设备的一结构示意图。
具体实施方式
应当说明的是,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
目前,现有的音频校验方案通常是针对正确语气情况下进行音频校验,而语气是一个不可控因素,当用户因情绪波动而发生语气变化时,比如语速加快、音量变大等,将导致音频校验的准确度迅速跌落,从而严重影响到用户的使用体验。
为此,本申请实施例提供一种音频校验方法、音频校验装置、存储介质以及电子设备,按照音频校验策略对应的预设语气特征对待校验音频信号进行语气调整后,再按照音频校验策略进行校验,以排除语气变化的影响,提升音频校验的准确度。其中,该音频校验方法的执行主体可以是本申请实施例提供的音频校验装置,或者集成了该音频校验装置的电子设备,其中该音频校验装置可以采用硬件或者软件的方式实现,电子设备可为计算设备诸如膝上型计算机、包含嵌入式计算机的计算机监视器、平板电脑、蜂窝电话、媒体播放器、或其他手持式或便携式电子设备、较小的设备(诸如腕表设备、挂式设备、耳机或听筒设备、被嵌入在眼镜中的设备或者佩戴在用户的头部上的其他设备,或其他可佩戴式或微型设备)、电视机、不包含嵌入式计算机的计算机显示器、游戏设备、导航设备、嵌入式系统(诸如其中具有显示器的电子设备被安装在信息亭或汽车中的系统)等。
请参照图1,图1为本申请实施例提供的音频校验方法的流程示意图。该音频校验方法应用于本申请实施例提供的电子设备,该电子设备包括专用语音识别芯片、处理器和麦克风,如图1所示,本申请实施例提供的音频校验方法的流程可以如下:
101,通过麦克风采集待校验音频信号,并将待校验音频信号提供给专用语音识别芯片。
应当说明的是,在本申请实施例中,电子设备至少包括麦克风、处理器和专用语音识别芯片,且该专用语音识别芯片的功耗小于处理器的功耗。
其中,麦克风用于对外部的声音进行采集,得到对应的音频信号。
处理器为适于通用处理任务的处理器,比如ARM架构的处理器。
专用语音识别芯片是以语音识别为目的而设计的专用芯片,比如以语音识别为目的而设计的数字信号处理芯片,以语音识别为目的而设计的专用集成电路芯片等,其相较于通用的处理器,具有更低的功耗,适于语音识别任务的处理。其中,专用语音识别芯片、处理器以及麦克风任意二者之间通过通信总线(比如I2C总线)建立通信连接,实现数据的交互。
本申请实施例中,电子设备所包括的麦克风可以是内置的麦克风,也可以是外置的麦克风(可以是有线的外置麦克风,也可以是无线的外置麦克风)。
在处理器处于休眠状态时(专用语音识别芯片处于唤醒状态),电子设备通过麦克风对外部的声音进行音频采集,得到对应的音频信号,将该音频信号记为待校验音频信号。比如,假设麦克风为模拟麦克风,那么将采集到模拟的音频信号,此时需要将模拟的音频信号进行模数转换,得到数字化的音频信号,用于后续处理。比如,电子设备可以在通过麦克风采集到外部的模拟音频信号后,以16KHz的采样频率对该模拟音频信号进行采样,得到数字化的音频信号。
本领域普通技术人员可以理解的是,若电子设备所包括的麦克风为数字麦克风,那么将直接采集到数字化的音频信号,无需再进行模数转换。
相应的,在通过麦克风采集得到待校验音频信号之后,电子设备将采集到的待校验音频信号提供给专用语音识别芯片。
102,基于专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整,得到增强音频信号。
应当说明的是,在人际交往的过程中,一部分信息是靠身体语言传达的,另一部分是靠语气传达的,其中,语气至少包括语速和音量中的至少一种。
本申请实施例中,专用语音识别芯片在接收到来自于麦克风的待校验音频信号之后,获取到与音频校验策略对应的预设语气特征,并根据该预设语气特征对待校验音频信号进行语气调整,使得其调整后的语气特征与预设语气特征一致,并将调整后的待校验音频信号记为增强音频信号。
其中,音频校验策略包括供专用语音识别芯片进行音频校验的第一校验策略,供处理器进行音频校验的第二校验策略和第三校验策略。
应当说明的是,第一校验策略、第二校验策略以及第三校验策略中任意两者的校验内容可以相同,也可以不同,比如,第一校验策略指示校验待校验音频信号的文本特征,第二校验策略指示校验待校验音频信号的文本特征,第三校验策略指示校验待校验音频信号的声纹特征。
103,基于专用语音识别芯片按照对应预设语气特征的第一校验策略校验增强音频信号。
比如,专用语音识别芯片按照对应预设语气特征的第一校验策略,对增强音频信号的文本特征进行校验。通俗的说,对增强音频信号的文本特征进行校验也即是校验该增强音频信号中是否包括预设关键词,只要增强音频信号中包括预设关键词(可由预设用户根据实际需要进行设置,其中,预设用户可以为电子设备的机主,或者机主授权使用电子设备的其他用户等),即校验通过。比如,增强音频信号中包括了预设用户设置的预设关键词,但是该预设关键词由用户A说出,而不是预设用户,此时也将校验通过。
104,若通过第一校验策略,则基于处理器按照对应预设语气特征的第二校验策略再次校验增强音频信号。
其中,当增强音频信号通过第一校验策略时,专用语音识别芯片基于其与处理器之间的通信连接发送预设的中断信号至处理器,以唤醒处理器,并在唤醒处理器之后,将增强音频信号提供给处理器,然后休眠。
处理器在被专用语音识别芯片唤醒后,按照对应预设语气特征的第二校验策略,再次对增强音频信号进行校验。比如,在专用语音识别芯片已经按照第一校验策略对增强音频信号的文本特征进行校验,且校验通过的前提下,处理器按照对应预设语气特征的第二校验策略,再次对增强音频信号的文本特征进行校验。
105,若通过第二校验策略,则基于处理器按照第三校验策略校验待校验音频信号,得到校验结果。
其中,当增强音频信号第二校验策略时,处理器进一步按照第三校验策略对待校验音频信号进行校验,比如,在专用语音识别芯片和处理器对增强音频信号的文本特征进行两次校验,且均校验通过的前提下,处理器按照第三校验策略,对原始的待校验音频信号进行校验,得到待校验音频信号通过第三校验策略的校验结果,或者得到待校验音频信号未通过第三校验策略的校验结果。
由上可知,本申请实施例中通过麦克风采集待校验音频信号,并将待校验音频信号提供给专用语音识别芯片,由专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整,得到增强音频信号,再按照对应预设语气特征的第一校验策略校验增强音频信号,并在通过第一校验策略时,由处理器按照对应预设语气特征的第二校验策略再次校验增强音频信号,并再通过第二校验策略后,再按照第三校验策略校验原始的待校验音频信号,得到校验结果。由此,本申请通过对待校验音频信号进行语气调整后,再按照对应的音频校验策略进行校验,以排除语气变化的影响,能够提升音频校验的准确度。
在一实施例中,“基于专用语音识别芯片按照对应预设语气特征的第一校验策略校验增强音频信号”,包括:
基于专用语音识别芯片调用对应预设语气特征的一级文本校验模型,并根据一级文本校验模型校验增强音频信号的文本特征;
“基于处理器按照对应预设语气特征的第二校验策略校验增强音频信号”,包括:
基于处理器调用对应预设语气特征的二级文本校验模型,并根据二级文本校验模型再次校验增强音频信号的文本特征;
“基于处理器按照第三校验策略校验待校验音频信号”,包括:
基于处理器调用声纹校验模型,并根据声纹校验模型校验待校验音频信号的声纹特征,得到校验结果。
其中,一级文本校验模型和二级文本校验模型可以相同,也可以不同。比如,本申请实施例中,一级校验模型为基于神经网络的文本校验模型,二级文本校验模型为基于高斯混合模型的文本校验模型,
示例性的,二级文本校验模型为预先训练的对应预设关键词的通用高斯混合模型,比如,首先采集预设用户说出预设关键词的音频信号,将该音频信号的语气特征设为预设语气特征,然后采集多人按照预设语气特征说出预设关键词的样本音频信号,然后分别提取这些样本音频信号向量形式的声学特征(比如梅尔频率倒谱系数),再根据这些样本音频信号的声学特征训练得到一个与预设唤醒词对应的通用高斯混合模型,设为二级文本校验模型。由于通用高斯混合模型采用大量与特定人(即用户)无关的音频信号训练得到,其仅拟合人的声学特征分布,并不代表某个具体的人。
在根据二级文本校验模型校验增强音频信号的文本特征时,处理器首先提取增强音频信号向量形式的声学特征,并将提取到的声学特征输入到二级文本校验模型中,由二级文本校验模型对该增强音频信号进行评分,并输出一个评分分值,当输出的评分分值达到该二级文本校验模型对应的判别分值时,判定该增强音频信号的文本特征通过校验,即该增强音频信号中包括预设关键词。比如,二级文本校验模型的输出分值的区间为[0,1],其对应的判别分值配置为0.45,也即是当增强音频信号所对应的评分分值达到0.45时,处理器将判定该增强音频信号的文本特征通过校验。
此外,当采用对应预设关键词的通用高斯混合模型作为二级文本校验模型时,声纹校验模型可由前述通用高斯混合模型根据用户说出预设关键词的音频信号自适应处理得到。其中,自适应处理是指将通用高斯混合模型中的与说话人(即用户)的说出预设关键词的音频信号相近的一部分非特定说话人的声学特征作为用户的声学特征的处理方法,该自适应处理可以采用最大后验估计算法实现。
相应的,在根据二级文本校验模型校验待校验音频信号的声纹特征时,处理器首先提取待校验音频信号向量形式的声学特征,并将提取到的声学特征输入到声纹校验模型中,由声纹校验模型对该待校验音频信号进行评分,并输出一个评分分值,当输出的评分分值达到该声纹校验模型对应的判别分值时,判定该待校验音频信号的声纹特征通过校验,即该待校验音频信号由预设用户说出。比如,声纹校验模型的输出分值的区间为[0,1],其对应的判别分值配置为0.28,也即是当待校验音频信号所对应的评分分值达到0.28时,处理器将判定该待校验音频信号的声纹特征通过校验。
在一实施例中,“根据预设语气特征对待校验音频信号进行语气调整,得到增强音频信号”,包括:
(1)根据预设滤波器对待校验音频信号进行滤波处理,得到对应的激励信号;
(2)根据预设语气特征对激励信号进行调整,得到调整后的激励信号;
(3)根据预设逆滤波器对调整后的激励信号进行滤波处理,得到增强音频信号。
其中,专用语音识别芯片首先根据预设滤波器对待校验音频信号进行滤波处理,得到对应的激励信号。
示例性的,将待校验音频信号记为s(n),将待校验音频信号对应的激励信号记为u(n),则待校验音频信号和激励信号的关系可以表示为:
Figure BDA0002213695100000081
其中,p为预设滤波器的阶数,可由本领域普通技术人员根据实际需要取经验值,比如,取值为10,ai是预设滤波器的滤波器系数,G是滤波器的增益。
根据以上待校验音频信号和激励信号的关系,可以将理解为用过去p个采样点值来预测未来的采样点值,而
Figure BDA0002213695100000083
可以理解为预测的误差;
为了使滤波器系数最佳,以
Figure BDA0002213695100000091
值最小,且
Figure BDA0002213695100000092
为约束,可以通过自相关法或协方差法求解该线性方程组,即可得到最佳的滤波器系数ai,同时可以求得滤波器增益为
在滤波得到对应待校验音频信号的激励信号之后,专用语音识别芯片进一步根据预设语气特征对激励信号进行调整,得到调整后的激励信号。
示例性的,以预设语气特征包括预设语速和预设幅值(即使用幅值表征音量大小)为例,专用语音识别芯片首先提取待校验音频信号的语速,然后根据待校验音频信号的语速和预设语速计算语速调整比例,如下所示:
K=S1/S2;
其中,K表示语速调整比例,S1表示待校验音频信号的语速,S2表示预设语速。
此外,专用语音识别芯片还提取待校验音频信号的幅值,并根据待校验音频信号的幅值和预设幅值计算幅值调整比例,如下所示:
A=A1/A2;
其中,A表示幅值调整比例,A1表示预设幅值,A2表示待校验音频信号的幅值。
在确定出语速调整比例和幅值调整比例之后,专用语音识别芯片根据确定出的语速调整比例和幅值调整比例对激励信号进行调整,如下所示:
Figure BDA0002213695100000094
其中,
Figure BDA0002213695100000095
表示调整后的激励信号。
在完成对激励信号的调整,得到调整的激励信号信号之后,专用语音识别芯片进一步基于对应预设滤波器的预设逆滤波器对调整后的激励信号进行滤波,可以理解为消除预测的误差,然后将通过预设逆滤波器进行滤波后的激励信号记为增强音频信号。
在一实施例中,“基于专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整”之前,还包括:
基于专用语音识别芯片识别待校验音频信号的语音部分,并滤除待校验音频信号的非语言部分。
本申请实施例中,为了确保音频校验的准确性,专用语音识别芯片在接收到来自于麦克风原始的待校验音频信号后,并不直接将该原始的待校验音频信号用于校验,而是识别出其中的语音部分,并相应滤除其中的非语音部分,将仅保留有语音部分的待校验音频信号用于校验。对于如何校验可参照以上实施例中的相关描述,此处不再赘述。
比如,专用语音识别芯片可根据预先配置的端点检测算法识别出原始的待校验音频信号的语音部分。
在一实施例中,“基于专用语音识别芯片识别待校验音频信号的语音部分”,包括:
(1)基于专用语音识别芯片对待校验音频信号进行分帧处理,得到多个音频帧;
(2)基于专用语音识别芯片获取每一音频帧中背景噪声的噪声能量,并根据每一音频帧的噪声能量从多个音频帧中确定出候选端点音频帧;
(3)基于专用语音识别芯片获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱;
(4)根据候选端点音频帧以及邻近音频帧各自对应的功率谱,基于专用语音识别芯片从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧;
(5)根据目标端点音频帧,基于专用语音识别芯片识别出待校验音频信号的语音部分。
应当说明的是,虽然音频信号在宏观上是不平稳的,但是其在微观上是平稳的,具有短时平稳性,通常认为音频信号在10毫秒至30毫秒的时间段中是平稳的。因此,本申请实施例中,专用语音识别芯片在获取到待检测音频之后,进一步对待检测音频进行分帧处理,得到多个音频帧,以用于后续处理
其中,对于如何对待检测音频进行分帧处理,本申请实施例不做具体限制,可由本领域普通技术人员根据实际需要配置,比如,本申请实施例中预先配置分帧处理的帧长为20毫秒,帧移为50%,由此,分帧得到m个音频帧,如图2所示。
可选的,为了平滑音频帧的边缘部分,本申请实施例中还对分帧得到的音频帧做加窗处理,比如汉明窗。
比如,本申请实施例采用的汉明窗
Figure BDA0002213695100000111
其中,n表示采样点数,取值范围为[0,M],M为采样点数表示的音频帧长度,比如,在音频帧的时长为20毫秒,采样率为16KHz时,M取值为320。
应当说明的是,在进行声音采集时,除了期望采集的用户语音之外,还会采集到除用户语音之外的其它声音,比如办公设备的运行声、机器设备的施工声以及汽车的行使声等,这些除用户语音之外的声音即为背景噪声。
相应的,专用语音识别芯片进一步对分帧得到的每一音频帧中背景噪声的噪声能量进行估计,得到每一音频帧中背景噪声的噪声能量。
在估计得到每一音频帧中背景噪声的噪声能量之后,专用语音识别芯片根据每一音频帧对应的噪声能量从分帧得到的多个音频帧中确定出候选端点音频帧,通俗的说,确定出候选端点音频帧即大概估计实际用户语音的端点帧。其中,候选端点音频帧包括可能的用户语音起始帧及实际用户语音结束帧,换言之,确定出的候选端点音频帧至少为两个。
比如,专用语音识别芯片在根据噪声能量从多个音频帧中确定出候选端点音频帧时,可以获取各音频帧的音频能量,将音频能量和噪声能量之差满足预设差值的音频帧作为候选端点音频帧,此时确定出的候选端点音频帧为第12个音频帧和第23个音频帧,且第12个音频帧为可能的用户语音起始帧,第23个音频帧为可能的用户语音结束帧,则说明由第12个音频帧至第12个音频帧的连续多个音频帧为实际用户语音。
又比如,根据如下公式确定出为可能的实际用户语音起始帧的候选端点音频帧:
Figure BDA0002213695100000121
即分别计算各音频帧内,采样点的采样值大于阈值Thre的总数,将采样点的采样值大于阈值Thre的总数且最靠近多个音频帧中第一个音频帧的音频帧作为候选端点音频帧。
根据如下公式确定出可能的实际用户语音结束帧的候选端点音频帧:
Figure BDA0002213695100000122
即分别计算各音频帧内,采样点的采样值大于阈值Thre的总数,将采样点的采样值大于阈值Thre的总数且最靠近多个音频帧中最后一个音频帧的音频帧作为候选端点音频帧。
以上公式中,U1为经验常数,比如取值为3,U2为经验常数,比如取值为15,阈值Thre可由如下公式得到:
Figure BDA0002213695100000123
其中,Eback表示噪声能量,C为经验参数,比如取值为8。
可选的,考虑到无背景噪声的情况下,由于Eback的值近似于0,Thre也会近似于0,若实际用户语音的尾部跟随一个很小的随机噪声,也会误检测为实际用户语音,为了避免这种情况,阈值Thre可以修正为
Figure BDA0002213695100000124
其中,D为经验常数,比如取值为800。
可选的,为了确保目标端点音频帧所限定的实际用户语音包含一个完整的唤醒词,tstop-tstart≥tmin,tmin取值25,即以作为实际用户语音起始帧的目标端点音频帧和作为实际用户语音结束帧的目标端点音频帧之间至少存在25个音频帧为约束,来确定作为实际用户语音起始帧的目标端点音频帧和作为实际用户语音结束帧的目标端点音频帧。
如上所述,音频帧由背景噪声和可能存在的用户语音组成,或者仅由背景噪声组成。本申请实施例中,在从分帧得到的多个音频帧中确定出候选端点音频帧之后,专用语音识别芯片进一步获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
其中,若候选端点音频帧为可能的用户语音起始帧,则专用语音识别芯片获取与候选端点音频帧前向相邻的第一预设个数的邻近音频帧不含背景噪声时的功率谱;若候选端点音频帧为可能的用户语音结束帧,则专用语音识别芯片获取与候选端点音频帧后向相邻的第一预设个数的邻近音频帧不含背景噪声时的功率谱。
比如,本申请实施例中考虑到音频信号的初始阶段一般无实际的语音,首先计算待检测音频初始阶段的不含语音的背景噪声的功率谱,Pn(w)=(FFT[Xi])2,其中FFT表示傅里叶变换,Xi表示第i帧音频帧,i取值范围1到10,w代表频点。
若候选端点音频帧为可能的用户语音起始帧,则以候选端点音频帧为起点,向前追溯j帧,计算候选端点音频帧以及这j帧音频帧的功率谱,
Figure BDA0002213695100000131
其中
Figure BDA0002213695100000132
表示候选端点音频帧前第j帧,j的取值范围为[0,jmax],考虑到语音声母最长可达200ms以上,因此,至少应从候选端点音频帧向前追溯10帧,本申请中jmax的取值范围为[10,20],即,可以最少追溯候选端点音频帧之前10帧音频帧的功率谱,最多追溯候选端点音频帧之前20帧音频帧的功率谱。
对于以候选端点音频帧为起点向前追溯的j帧音频帧,其不含背景噪声时的功率谱为:
Figure BDA0002213695100000133
其中,a为经验常数,本申请实施例中取值为3。
应当说明的是,对于以上第一预设个数的取值,以第一预设个数小于j为约束,可由本领域普通技术人员根据实际需要取经验值。由此,即可从候选端点音频帧以及追溯的j帧音频帧不含背景噪声时的功率谱中获取到候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
同理,若候选端点音频帧为可能的用户语音结束帧,将相应获取到候选端点音频帧,以及以候选端点音频帧为起点向后追溯的j帧音频帧不含背景噪声时的功率谱,进而从候选端点音频帧以及追溯的j帧音频帧不含背景噪声时的功率谱中获取到候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
比如,本申请实施例中第一预设个数取值为2,假设确定出的候选端点音频帧为第12个音频帧和第23个音频帧,且第12个音频帧为可能的用户语音起始帧,第23个音频帧为可能的用户语音结束帧,则对于第12个音频帧,获取第10个音频帧、第11个音频帧以及第12个音频帧不含背景噪声时的功率谱,而对于第23个音频帧,获取第23个音频帧、第24个音频帧以及第25个音频帧不含背景噪声的功率谱。
专用语音识别芯片在获取到候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱之后,若候选端点音频帧为可能的实际用户语音起始音频帧,则以候选端点音频帧为起点,从该候选端点音频帧的邻近音频帧之前的音频帧中确定出目标端点音频帧,作为实际用户语音起始帧;若候选端点音频帧为可能的实际用户语音结束音频帧,则以候选端点音频帧为起点,从该候选端点音频帧的邻近音频帧之后的音频帧中确定出目标端点音频帧,作为实际用户语音结束音频帧。
在一实施例中,“根据候选端点音频帧以及邻近音频帧各自对应的功率谱,基于专用语音识别芯片从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧”,包括:
(1)根据候选端点音频帧以及邻近音频帧各自对应的功率谱,基于专用语音识别芯片确定候选端点音频帧以及邻近音频帧的功率均大于预设阈值的频率区间;
(2)基于专用语音识别芯片,将频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧。
本申请实施例中,在根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧时,专用语音识别芯片根据候选端点音频帧以及邻近音频帧各自对应的功率谱,确定候选端点音频帧以及邻近音频帧的功率均大于预设阈值的频率区间。
然后,若候选端点音频帧为可能的用户语音起始帧,由于之前已经向前追溯了j帧音频帧不含背景噪声时的功率谱,则对候选端点音频帧以及邻近音频帧之外的音频帧进行分析,将前述频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧,即实际用户语音起始帧。
若候选端点音频帧为可能的用户语音结束帧,由于之前已经向后追溯了j帧音频帧不含背景噪声时的功率谱,则对候选端点音频帧以及邻近音频帧之外的音频帧进行分析,将前述频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧,即实际用户语音结束帧。
比如,本申请中对前述预设阈值取值为0,第一预设个数取值为2,若候选端点音频帧为可能的用户语音起始帧,则专用语音识别芯片对候选端点音频帧及其之前连续2个音频帧所对应的功率谱(即不含背景噪声时的功率谱),得到3个音频帧的功率均大于0的频率区间[f1,f2],然后,依次向前回溯音频帧,当某一帧的频率区间[f1,f2]中有频率对应的功率小于或等于预设阈值0时,将该音频帧作为目标音频帧,即实际用户语音起始帧;若候选端点音频帧为可能的用户语音结束帧,则专用语音识别芯片对候选端点音频帧及其之后连续2个音频帧所对应的功率谱(即不含背景噪声时的功率谱),得到3个音频帧的功率均大于0的频率区间[f1,f2],然后,依次向后回溯音频帧,当某一帧的频率区间[f1,f2]中有频率对应的功率小于或等于预设阈值0时,将该音频帧作为目标音频帧,即实际用户语音结束帧。
在一实施例中,“基于专用语音识别芯片获取每一音频帧中背景噪声的噪声能量”,包括:
(1)基于专用语音识别芯片获取多个音频帧中前第二预设个数音频帧的音频能量,确定出前第二预设个数音频帧的音频能量中的最大音频能量以及最小音频能量;
(2)基于专用语音识别芯片获取最大音频能量与最小音频能量的平均音频能量;
(3)基于专用语音识别芯片将多个音频帧的音频能量划分为音频能量小于平均音频能量的第一音频能量集,以及音频能量大于或等于平均音频能量的第二音频能量集;
(4)基于专用语音识别芯片获取第一音频能量集的第一平均音频能量,以及获取第二音频能量集的第二平均音频能量;
(5)根据第一平均音频能量以及第二平均音频能量,基于专用语音识别芯片获取各音频帧中背景噪声的噪声能量。
考虑到音频信号的初始阶段一般无实际语音,本申请实施例中,将各音频帧中背景噪声的噪声能量看做相同,专用语音识别芯片根据分帧得到的多个音频帧中前第二预设个数的音频帧来估计各音频帧中背景噪声的噪声能量。其中,对于第二预设个数的取值,可由本领域普通技术人员根据实际需要取经验值,本申请实施例对此不做具体限制,比如,本申请实施例中对第二预设个数取值为10。
其中,专用语音识别芯片首先获取多个音频帧中前第二预设个数音频帧的音频能量,如下所示:
Figure BDA0002213695100000161
Ek表示前第二预设个数音频帧中第k个音频帧的音频能量,x(n)表示第n个采样点的采样值,n的取值范围为[0,M],M为采样点数表示的音频帧长度,比如,在音频帧的时长为20毫秒,采样率为16KHz时,M取值为320。
然后,专用语音识别芯片确定出前第二预设个数音频帧的音频能量中的最大音频能量Emax以及最小音频能量Emin
然后,专用语音识别芯片获取最大音频能量与最小音频能量的平均音频能量Emid=(Emax+Emin)/2。
然后,专用语音识别芯片将多个音频帧的音频能量划分为音频能量小于平均音频能量Emid的第一音频能量集,以及音频能量大于或等于平均音频能量Emid的第二音频能量集。
然后,专用语音识别芯片获取第一音频能量集的第一平均音频能量E1,以及获取第二音频能量集的第二平均音频能量E2
然后,专用语音识别芯片根据第一平均音频能量以及第二平均音频能量获取各音频帧中背景噪声的噪声能量,如下公式:
Figure BDA0002213695100000171
在一实施例中,“基于专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整”之前,还包括:
(1)基于专用语音识别芯片提取待校验音频信号的语气特征;
(2)基于专用语音识别芯片获取待校验音频信号的语气特征与预设语气特征的相似度;
(3)在相似度未达到预设相似度时,基于专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整。
为了避免不必要的语气调整,本申请实施例中,在按照预设语气特征对待校验音频信号进行语气调整之前,专用语音识别芯片还提取待校验音频信号的语气特征,并获取待校验音频信号的语气特征与预设语气特征的相似度,然后判断该相似度是否达到预设相似度,若达到,则直接对该待校验音频信号进行音频校验,若未达到,再按照预设语气特征对待校验音频信号进行语气调整后再进行音频校验。
示例性的,假设语气特征包括语速和音量,相应的,预设语气特征包括预设语速和预设音量,则专用语音识别芯片在获取待校验音频信号语气特征与预设语气特征的相似度时,分别获取待校验音频信号的语速与预设语速的相似度,以及待校验音频信号的音量与预设音量的相似度,然后判断获取到的两个相似度是否均达到预设相似度,否则对待校验音频信号进行语气调整。
在一实施例中,“基于处理器按照第三校验策略校验待校验音频信号,得到校验结果”之后,还包括:
若待校验音频信号通过第三校验策略,则唤醒语音交互应用。
本申请实施例中,电子设备在待校验音频信号通过第三校验策略时,判定用户当前存在交互需求,此时基于处理器唤醒语音交互应用,利用该语音交互应用与用户进行语音交互。其中,语音交互应用即俗称的语音助手,比如欧珀的语音助手“小欧”等。
请参照图3,图3为本申请实施例提供的音频校验方法的另一流程示意图,该音频校验方法应用于包括专用语音识别芯片、处理器和麦克风的电子设备,如图3所示,本申请实施例提供的音频校验方法的流程可以如下:
201,麦克风在处理器休眠时,采集待校验音频信号,并将采集的待校验音频信号提供给专用语音识别芯片。
其中,在处理器处于休眠状态时(专用语音识别芯片处于唤醒状态),麦克风进行音频采集,得到对应的音频信号,将该音频信号记为待校验音频信号,提供给给专用语音识别芯片。
202,专用语音识别芯片识别待校验音频信号的语音部分,并滤除非语音部分。
其中,专用语音识别芯片在接收到来自于麦克风的待校验音频信号信号之后,按照预设端点检测算法识别出待校验音频信号的语音部分,并相应滤除其中的非语音部分,将仅保留有语音部分的待校验音频信号用于校验。
202,专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整,得到增强音频信号。
其中,专用语音识别芯片获取到预设语气特征,该语气特征为预设用户说出预设关键词的语气特征。然后,专用语音识别芯片根据该预设语气特征对待校验音频信号进行语气调整,使得其调整后的语气特征与预设语气特征一致,并将调整后的待校验音频信号记为增强音频信号。
203,专用语音识别芯片调用一级文本校验模型对增强音频信号的文本特征进行校验,并在校验通过时唤醒处理器,将增强音频信号提供给处理器。
204,处理器调用二级文本校验模型再次对增强音频信号的文本特征进行校验。
205,若增强音频信号再次校验通过,则处理器调用声纹校验模型对待校验音频信号的声纹特征进行校验。
其中,一级文本校验模型和二级文本校验模型可以相同,也可以不同。比如,本申请实施例中,一级校验模型为基于神经网络的文本校验模型,二级文本校验模型为基于高斯混合模型的文本校验模型,
示例性的,二级文本校验模型为预先训练的对应预设关键词的通用高斯混合模型,比如,首先采集预设用户说出预设关键词的音频信号,将该音频信号的语气特征设为预设语气特征,然后采集多人按照预设语气特征说出预设关键词的样本音频信号,然后分别提取这些样本音频信号向量形式的声学特征(比如梅尔频率倒谱系数),再根据这些样本音频信号的声学特征训练得到一个与预设唤醒词对应的通用高斯混合模型,设为二级文本校验模型。由于通用高斯混合模型采用大量与特定人(即用户)无关的音频信号训练得到,其仅拟合人的声学特征分布,并不代表某个具体的人。
在根据二级文本校验模型校验增强音频信号的文本特征时,处理器首先提取增强音频信号向量形式的声学特征,并将提取到的声学特征输入到二级文本校验模型中,由二级文本校验模型对该增强音频信号进行评分,并输出一个评分分值,当输出的评分分值达到该二级文本校验模型对应的判别分值时,判定该增强音频信号的文本特征通过校验,即该增强音频信号中包括预设关键词。比如,二级文本校验模型的输出分值的区间为[0,1],其对应的判别分值配置为0.45,也即是当增强音频信号所对应的评分分值达到0.45时,处理器将判定该增强音频信号的文本特征通过校验。
此外,当采用对应预设关键词的通用高斯混合模型作为二级文本校验模型时,声纹校验模型可由前述通用高斯混合模型根据用户说出预设关键词的音频信号自适应处理得到。其中,自适应处理是指将通用高斯混合模型中的与说话人(即用户)的说出预设关键词的音频信号相近的一部分非特定说话人的声学特征作为用户的声学特征的处理方法,该自适应处理可以采用最大后验估计算法实现。
相应的,在根据二级文本校验模型校验待校验音频信号的声纹特征时,处理器首先提取待校验音频信号向量形式的声学特征,并将提取到的声学特征输入到声纹校验模型中,由声纹校验模型对该待校验音频信号进行评分,并输出一个评分分值,当输出的评分分值达到该声纹校验模型对应的判别分值时,判定该待校验音频信号的声纹特征通过校验,即该待校验音频信号由预设用户说出。比如,声纹校验模型的输出分值的区间为[0,1],其对应的判别分值配置为0.28,也即是当待校验音频信号所对应的评分分值达到0.28时,处理器将判定该待校验音频信号的声纹特征通过校验。
206,若待校验音频信号的声纹特征通过校验,则处理器唤醒预设语音交互应用。
本申请实施例中,处理器在待校验音频信号通过第三校验策略时,判定用户当前存在交互需求,此时唤醒语音交互应用,利用该语音交互应用与用户进行语音交互。其中,语音交互应用即俗称的语音助手,比如欧珀的语音助手“小欧”等。
本申请实施例还提供一种音频校验装置。请参照图4,图4为本申请实施例提供的音频校验装置的结构示意图。其中该音频校验装置应用于电子设备,该电子设备包括存储器以及用于管理存储器的文件系统,该音频校验装置包括音频采集模块301、音频增强模块302、第一校验模块303、第二校验模块304以及第三校验模块305,如下:
音频采集模块301,用于通过麦克风采集待校验音频信号,并将待校验音频信号提供给专用语音识别芯片;
音频增强模块302,用于基于专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整,得到增强音频信号;
第一校验模块303,用于基于专用语音识别芯片按照对应预设语气特征的
第一校验策略校验增强音频信号;
第二校验模块304,用于在第一校验模块303校验通过时,基于处理器按照对应预设语气特征的第二校验策略再次校验增强音频信号;
第三校验模块305,用于在第二校验模块304校验通过时,基于处理器按照第三校验策略校验待校验音频信号,得到校验结果。
在一实施例中,在基于专用语音识别芯片按照对应预设语气特征的第一校验策略校验增强音频信号时,第一校验模块303用于:
基于专用语音识别芯片调用对应预设语气特征的一级文本校验模型,并根据一级文本校验模型校验增强音频信号的文本特征;
在基于处理器按照对应预设语气特征的第二校验策略校验增强音频信号时,第二校验模块304用于:
基于处理器调用对应预设语气特征的二级文本校验模型,并根据二级文本校验模型再次校验增强音频信号的文本特征;
在基于处理器按照第三校验策略校验待校验音频信号时,第三校验模块305用于:
基于处理器调用声纹校验模型,并根据声纹校验模型校验待校验音频信号的声纹特征,得到校验结果。
在一实施例中,根据预设语气特征对待校验音频信号进行语气调整,得到增强音频信号,音频增强模块302用于:
根据预设滤波器对待校验音频信号进行滤波处理,得到对应的激励信号;
根据预设语气特征对激励信号进行调整,得到调整后的激励信号;
根据预设逆滤波器对调整后的激励信号进行滤波处理,得到增强音频信号。
在一实施例中,基于专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整之前,音频增强模块302还用于:
基于专用语音识别芯片识别待校验音频信号的语音部分,并滤除待校验音频信号的非语言部分。
在一实施例中,在基于专用语音识别芯片识别待校验音频信号的语音部分时,音频增强模块302用于:
基于专用语音识别芯片对待校验音频信号进行分帧处理,得到多个音频帧;
基于专用语音识别芯片获取每一音频帧中背景噪声的噪声能量,并根据每一音频帧的噪声能量从多个音频帧中确定出候选端点音频帧;
基于专用语音识别芯片获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱;
根据候选端点音频帧以及邻近音频帧各自对应的功率谱,基于专用语音识别芯片从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧;
根据目标端点音频帧,基于专用语音识别芯片识别出待校验音频信号的语音部分。
在一实施例中,在根据候选端点音频帧以及邻近音频帧各自对应的功率谱,基于专用语音识别芯片从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧时,音频增强模块302用于:
根据候选端点音频帧以及邻近音频帧各自对应的功率谱,基于专用语音识别芯片确定候选端点音频帧以及邻近音频帧的功率均大于预设阈值的频率区间;
基于专用语音识别芯片,将频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧。
在一实施例中,基于专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整之前,音频增强模块302还用于:
基于专用语音识别芯片提取待校验音频信号的语气特征;
基于专用语音识别芯片获取待校验音频信号的语气特征与预设语气特征的相似度;
在相似度未达到预设相似度时,基于专用语音识别芯片按照预设语气特征对待校验音频信号进行语气调整。
应当说明的是,本申请实施例提供的音频校验装置与上文实施例中的音频校验方法属于同一构思,在音频校验装置上可以运行音频校验方法实施例中提供的任一方法,其具体实现过程详见音频校验方法实施例,此处不再赘述。
本申请实施例提供一种计算机可读的存储介质,其上存储有计算机程序,当其存储的计算机程序在包括专用语音识别芯片、处理器和麦克风的电子设备上运行时,使得电子设备执行如本申请实施例提供的音频校验方法中的步骤。其中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)或者随机存取器(Random Access Memory,RAM)等。
本申请实施例还提供一种电子设备,请参照图5,电子设备包括处理器401、存储器402、专用语音识别芯片403和麦克风404,其中,处理器401与存储器402、专用语音识别芯片403以及麦克风404电性连接。
处理器401是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器402内的计算机程序,以及调用存储在存储器402内的数据,执行电子设备的各种功能并处理数据。其中,处理器401运行有用于管理存储器402的文件系统。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
专用语音识别芯片403是以语音识别为目的而设计的专用芯片,比如以语音为目的而设计的数字信号处理芯片,以语音为目的而设计的专用集成电路芯片等,其相较于通用的处理器401,具有更低的功耗。
麦克风404用于采集外部的声音,得到对应的音频信号
在本申请实施例中,麦克风用于采集待校验音频信号,并将待校验音频信号提供给专用语音识别芯片;
处理器401和专用语音识别芯片403通过调用存储器402中的计算机程序,用于执行:
专用语音识别芯片403按照预设语气特征对待校验音频信号进行语气调整,得到增强音频信号;
专用语音识别芯片403按照对应预设语气特征的第一校验策略校验增强音频信号;
当通过第一校验策略时,处理器401按照对应预设语气特征的第二校验策略再次校验增强音频信号;
当通过第二校验策略时,处理器401按照第三校验策略校验待校验音频信号,得到校验结果。
在一实施例中,在按照对应预设语气特征的第一校验策略校验增强音频信号时,专用语音识别芯片403用于执行:
调用对应预设语气特征的一级文本校验模型,并根据一级文本校验模型校验增强音频信号的文本特征;
在基于按照对应预设语气特征的第二校验策略校验增强音频信号时,处理器401用于执行:
调用对应预设语气特征的二级文本校验模型,并根据二级文本校验模型再次校验增强音频信号的文本特征;
在按照第三校验策略校验待校验音频信号时,处理器401用于执行:
调用声纹校验模型,并根据声纹校验模型校验待校验音频信号的声纹特征,得到校验结果。
在一实施例中,在根据预设语气特征对待校验音频信号进行语气调整,得到增强音频信号时,专用语音识别芯片403用于执行:
根据预设滤波器对待校验音频信号进行滤波处理,得到对应的激励信号;
根据预设语气特征对激励信号进行调整,得到调整后的激励信号;
根据预设逆滤波器对调整后的激励信号进行滤波处理,得到增强音频信号。
在一实施例中,在按照预设语气特征对待校验音频信号进行语气调整之前,专用语音识别芯片403还用于执行:
基于专用语音识别芯片识别待校验音频信号的语音部分,并滤除待校验音频信号的非语言部分。
在一实施例中,在识别待校验音频信号的语音部分时,专用语音识别芯片403用于执行:
对待校验音频信号进行分帧处理,得到多个音频帧;
获取每一音频帧中背景噪声的噪声能量,并根据每一音频帧的噪声能量从多个音频帧中确定出候选端点音频帧;
获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱;
根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧;
根据目标端点音频帧,识别出待校验音频信号的语音部分。
在一实施例中,在根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧时,专用语音识别芯片403用于执行:
根据候选端点音频帧以及邻近音频帧各自对应的功率谱,确定候选端点音频帧以及邻近音频帧的功率均大于预设阈值的频率区间;
将频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧。
在一实施例中,在按照预设语气特征对待校验音频信号进行语气调整之前,专用语音识别芯片还用于执行:
提取待校验音频信号的语气特征;
获取待校验音频信号的语气特征与预设语气特征的相似度;
在相似度未达到预设相似度时,按照预设语气特征对待校验音频信号进行语气调整。
应当说明的是,本申请实施例提供的电子设备与上文实施例中的音频校验方法属于同一构思,在电子设备上可以运行音频校验方法实施例中提供的任一方法,其具体实现过程详见特征提取方法实施例,此处不再赘述。
需要说明的是,对本申请实施例的音频校验方法而言,本领域普通测试人员可以理解实现本申请实施例的音频校验方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如音频校验方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的音频校验装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种音频校验方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种音频校验方法,应用于电子设备,其特征在于,所述电子设备包括专用语音识别芯片、处理器和麦克风,所述音频校验方法包括:
通过所述麦克风采集待校验音频信号,并将所述待校验音频信号提供给所述专用语音识别芯片;
基于所述专用语音识别芯片按照预设语气特征对所述待校验音频信号进行语气调整,得到增强音频信号;
基于所述专用语音识别芯片按照对应所述预设语气特征的第一校验策略校验所述增强音频信号;
若通过所述第一校验策略,则基于所述处理器按照对应所述预设语气特征的第二校验策略再次校验所述增强音频信号;
若通过所述第二校验策略,则基于所述处理器按照第三校验策略校验所述待校验音频信号,得到校验结果。
2.根据权利要求1所述的音频校验方法,其特征在于,所述基于所述专用语音识别芯片按照对应所述预设语气特征的第一校验策略校验所述增强音频信号,包括:
基于所述专用语音识别芯片调用对应所述预设语气特征的一级文本校验模型,并根据所述一级文本校验模型校验所述增强音频信号的文本特征;
所述基于所述处理器按照对应所述预设语气特征的第二校验策略校验所述增强音频信号,包括:
基于所述处理器调用对应所述预设语气特征的二级文本校验模型,并根据所述二级文本校验模型再次校验所述增强音频信号的文本特征;
所述基于所述处理器按照第三校验策略校验所述待校验音频信号,包括:
基于所述处理器调用预先训练的声纹校验模型,并根据所述声纹校验模型校验所述待校验音频信号的声纹特征,得到校验结果。
3.根据权利要求1所述的音频校验方法,其特征在于,所述根据所述预设语气特征对所述待校验音频信号进行语气调整,得到增强音频信号,包括:
根据预设滤波器对所述待校验音频信号进行滤波处理,得到对应的激励信号;
根据所述预设语气特征对所述激励信号进行调整,得到调整后的激励信号;
根据预设逆滤波器对所述调整后的激励信号进行滤波处理,得到所述增强音频信号。
4.根据权利要求1-3任一项所述的音频校验方法,其特征在于,所述基于所述专用语音识别芯片按照预设语气特征对所述待校验音频信号进行语气调整之前,还包括:
基于所述专用语音识别芯片识别所述待校验音频信号的语音部分,并滤除所述待校验音频信号的非语言部分。
5.根据权利要求4所述的音频校验方法,其特征在于,所述基于所述专用语音识别芯片识别所述待校验音频信号的语音部分,包括:
基于所述专用语音识别芯片对所述待校验音频信号进行分帧处理,得到多个音频帧;
基于所述专用语音识别芯片获取每一音频帧中背景噪声的噪声能量,并根据每一音频帧的噪声能量从所述多个音频帧中确定出候选端点音频帧;
基于所述专用语音识别芯片获取所述候选端点音频帧以及与所述候选端点音频帧相邻的第一预设个数邻近音频帧不含所述背景噪声时的功率谱;
根据所述候选端点音频帧以及所述邻近音频帧各自对应的功率谱,基于所述专用语音识别芯片从所述候选端点音频帧以及所述邻近音频帧之外的音频帧中确定出目标端点音频帧;
根据所述目标端点音频帧,基于所述专用语音识别芯片识别出所述待校验音频信号的语音部分。
6.根据权利要求5所述的音频校验方法,其特征在于,所述根据所述候选端点音频帧以及所述邻近音频帧各自对应的功率谱,基于所述专用语音识别芯片从所述候选端点音频帧以及所述邻近音频帧之外的音频帧中确定出目标端点音频帧,包括:
根据所述候选端点音频帧以及所述邻近音频帧各自对应的功率谱,基于所述专用语音识别芯片确定所述候选端点音频帧以及所述邻近音频帧的功率均大于预设阈值的频率区间;
基于所述专用语音识别芯片,将所述频率区间中有频率对应的功率小于或等于所述预设阈值,且距离所述候选端点音频帧最近的音频帧作为所述目标端点音频帧。
7.根据权利要求1所述的音频校验方法,其特征在于,所述基于所述专用语音识别芯片按照预设语气特征对所述待校验音频信号进行语气调整之前,还包括:
基于所述专用语音识别芯片提取所述待校验音频信号的语气特征;
基于所述专用语音识别芯片获取所述语气特征与所述预设语气特征的相似度;
在所述相似度未达到预设相似度时,基于所述专用语音识别芯片按照预设语气特征对所述待校验音频信号进行语气调整。
8.一种音频校验装置,应用于电子设备,其特征在于,所述电子设备包括专用语音识别芯片、处理器和麦克风,所述音频校验装置包括:
音频采集模块,用于通过所述麦克风采集待校验音频信号,并将所述待校验音频信号提供给所述专用语音识别芯片;
音频增强模块,用于基于所述专用语音识别芯片按照预设语气特征对所述待校验音频信号进行语气调整,得到增强音频信号;
第一校验模块,用于基于所述专用语音识别芯片按照对应所述预设语气特征的第一校验策略校验所述增强音频信号;
第二校验模块用于在第一校验模块校验通过时,基于所述处理器按照对应所述预设语气特征的第二校验策略再次校验所述增强音频信号;
第三校验模块,用于在第二校验模块校验通过时,基于所述处理器按照第三校验策略校验所述待校验音频信号。
9.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在包括专用语音识别芯片、处理器和麦克风的电子设备上运行时,使得所述电子设备执行如权利要求1至7任一项所述的音频校验方法。
10.一种电子设备,其特征在于,包括专用语音识别芯片、处理器和麦克风,所述存储器存储有计算机程序,其中,
所述麦克风用于采集待校验音频信号,并将所述待校验音频信号提供给所述专用语音识别芯片;
所述专用语音识别芯片和所述处理器通过调用所述计算机程序,用于执行:
所述专用语音识别芯片按照预设语气特征对所述待校验音频信号进行语气调整,得到增强音频信号;
所述专用语音识别芯片按照对应所述预设语气特征的第一校验策略校验所述增强音频信号;
当通过第一校验策略时,所述处理器按照对应预设语气特征的第二校验策略再次校验所述增强音频信号;
当通过第二校验策略时,所述处理器按照第三校验策略校验所述待校验音频信号,得到校验结果。
CN201910907456.9A 2019-09-24 2019-09-24 音频校验方法、装置、存储介质及电子设备 Active CN110689887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910907456.9A CN110689887B (zh) 2019-09-24 2019-09-24 音频校验方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910907456.9A CN110689887B (zh) 2019-09-24 2019-09-24 音频校验方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110689887A true CN110689887A (zh) 2020-01-14
CN110689887B CN110689887B (zh) 2022-04-22

Family

ID=69110617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910907456.9A Active CN110689887B (zh) 2019-09-24 2019-09-24 音频校验方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110689887B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522971A (zh) * 2020-04-08 2020-08-11 广东小天才科技有限公司 一种直播教学中辅助用户听课的方法及装置
CN112466304A (zh) * 2020-12-03 2021-03-09 北京百度网讯科技有限公司 离线语音交互方法、装置、系统、设备和存储介质
WO2021169711A1 (zh) * 2020-02-27 2021-09-02 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512485A (zh) * 2002-12-31 2004-07-14 北京天朗语音科技有限公司 语速自适应的语音识别系统
US20100198583A1 (en) * 2009-02-04 2010-08-05 Aibelive Co., Ltd. Indicating method for speech recognition system
CN102693722A (zh) * 2012-05-23 2012-09-26 Tcl集团股份有限公司 一种语音识别的方法、装置及数字电视
US20140093100A1 (en) * 2012-09-28 2014-04-03 Samsung Electronics Co. Ltd. User terminal apparatus, electronic device, and method for controlling the same
CN105741829A (zh) * 2016-04-28 2016-07-06 玉环看知信息科技有限公司 数据转换方法及装置
CN107871506A (zh) * 2017-11-15 2018-04-03 北京云知声信息技术有限公司 语音识别功能的唤醒方法及装置
US20180166071A1 (en) * 2016-12-08 2018-06-14 Electronics And Telecommunications Research Institute Method of automatically classifying speaking rate and speech recognition system using the same
CN108899028A (zh) * 2018-06-08 2018-11-27 广州视源电子科技股份有限公司 语音唤醒方法、搜索方法、装置和终端
US10236006B1 (en) * 2016-08-05 2019-03-19 Digimarc Corporation Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing
CN109671433A (zh) * 2019-01-10 2019-04-23 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置
CN110021307A (zh) * 2019-04-04 2019-07-16 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512485A (zh) * 2002-12-31 2004-07-14 北京天朗语音科技有限公司 语速自适应的语音识别系统
US20100198583A1 (en) * 2009-02-04 2010-08-05 Aibelive Co., Ltd. Indicating method for speech recognition system
CN102693722A (zh) * 2012-05-23 2012-09-26 Tcl集团股份有限公司 一种语音识别的方法、装置及数字电视
US20140093100A1 (en) * 2012-09-28 2014-04-03 Samsung Electronics Co. Ltd. User terminal apparatus, electronic device, and method for controlling the same
CN105741829A (zh) * 2016-04-28 2016-07-06 玉环看知信息科技有限公司 数据转换方法及装置
US10236006B1 (en) * 2016-08-05 2019-03-19 Digimarc Corporation Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing
US20180166071A1 (en) * 2016-12-08 2018-06-14 Electronics And Telecommunications Research Institute Method of automatically classifying speaking rate and speech recognition system using the same
CN107871506A (zh) * 2017-11-15 2018-04-03 北京云知声信息技术有限公司 语音识别功能的唤醒方法及装置
CN108899028A (zh) * 2018-06-08 2018-11-27 广州视源电子科技股份有限公司 语音唤醒方法、搜索方法、装置和终端
CN109671433A (zh) * 2019-01-10 2019-04-23 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置
CN110021307A (zh) * 2019-04-04 2019-07-16 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021169711A1 (zh) * 2020-02-27 2021-09-02 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备
CN111522971A (zh) * 2020-04-08 2020-08-11 广东小天才科技有限公司 一种直播教学中辅助用户听课的方法及装置
CN112466304A (zh) * 2020-12-03 2021-03-09 北京百度网讯科技有限公司 离线语音交互方法、装置、系统、设备和存储介质
CN112466304B (zh) * 2020-12-03 2023-09-08 北京百度网讯科技有限公司 离线语音交互方法、装置、系统、设备和存储介质

Also Published As

Publication number Publication date
CN110689887B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN110232933B (zh) 音频检测方法、装置、存储介质及电子设备
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN110021307B (zh) 音频校验方法、装置、存储介质及电子设备
US11042616B2 (en) Detection of replay attack
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
US20140200890A1 (en) Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
CN111566729A (zh) 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
CN110689887B (zh) 音频校验方法、装置、存储介质及电子设备
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN110400571B (zh) 音频处理方法、装置、存储介质及电子设备
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
US11308946B2 (en) Methods and apparatus for ASR with embedded noise reduction
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
CN110600048B (zh) 音频校验方法、装置、存储介质及电子设备
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN110223687B (zh) 指令执行方法、装置、存储介质及电子设备
CN112669822B (zh) 音频处理方法、装置、电子设备和存储介质
US20230206924A1 (en) Voice wakeup method and voice wakeup device
CN109065026B (zh) 一种录音控制方法及装置
WO2019041871A1 (zh) 语音对象识别方法及装置
CN111369992A (zh) 指令执行方法、装置、存储介质及电子设备
CN113241059B (zh) 语音唤醒方法、装置、设备及存储介质
CN112509556B (zh) 一种语音唤醒方法及装置
Wang et al. Robust Text-independent Speaker Identification in a Time-varying Noisy Environment.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant