CN113421552A - 音频识别方法和装置 - Google Patents

音频识别方法和装置 Download PDF

Info

Publication number
CN113421552A
CN113421552A CN202110694791.2A CN202110694791A CN113421552A CN 113421552 A CN113421552 A CN 113421552A CN 202110694791 A CN202110694791 A CN 202110694791A CN 113421552 A CN113421552 A CN 113421552A
Authority
CN
China
Prior art keywords
audio
training
data
training data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110694791.2A
Other languages
English (en)
Inventor
桑海岩
邓慧
刘�文
廉士国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Big Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202110694791.2A priority Critical patent/CN113421552A/zh
Publication of CN113421552A publication Critical patent/CN113421552A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Abstract

本发明实施例提供一种音频识别方法和装置,该方法包括:将待识别音频信息切分成预设数量个音频片段;提取音频片段的声学特征;将声学特征输入到预先训练的音频识别模型,得到每个音频片段对应的音频类别,音频识别模型包括深度特征学习层和分类层;深度特征学习层的参数通过第一训练数据训练的,第一训练数据为标注有第一音频类别标签的音频片段,第一音频类别是根据预设音频库存储中的音频数据确定的,分类层的参数是通过第二训练数据进行训练的,第二训练数据为标注有第二音频类型标签的音频片段,第二音频类型是根据用户自定义音频数据确定的,当用户想要增加新类别的音频识别功能时,只需重新训练分类层的参数即可,提高了音频识别效率。

Description

音频识别方法和装置
技术领域
本发明实施例涉及音频处理技术领域,尤其涉及一种音频识别方法和装置。
背景技术
互联网技术的发展给人们带来了很大的便利,用户可以通过互联网查询需要的信息,也可以通过互联网分享信息,比如文字资源、图片资源、视频资源以及音频资源等。但是随着互联网用户数量的激增,网络中也出现了大量来源不明的视频信息、音频信息和直播音频等不符合网络健康规范的信息。为了净化网络环境,技术人员需要对互联网中的众多音频信息进行审核、分类,以将不符合网络健康规范的音频信息识别出来。
相关技术中,识别音频信息是否符合规范的方法是提取音频的声学特征,采用神经网络分类的方法神经网络可以通过非线性建模进行分类,通过大量的训练数据(包括不合规的音频数据和相应的不合规类型标签)对神经网络模型训练,将待检测未知音频经过训练好的神经网络模型得到映射分类结果,判断未知音频是否合规。
但是,现有采用非线性建模得到的神经网络模型虽然能对音频进行分类判断其是否合规,但是这一类的模型对分类的训练数据量要求很大,每增加一个新的音频类别,都需要增加大量的经过标注新类别的训练数据,且需要重新训练模型。比如,当用户想要增加少量的且未知类别的音频数据的识别功能时,还需要收集大量的相关音频数据作为训练数据来重新训练整个模型,需要消耗大量的人力和时间成本,降低了音频识别效率。
发明内容
本发明实施例提供一种音频识别方法和装置,以解决现有技术中要增加少量的且未知类别的音频数据的识别功能时,还需要收集大量的相关音频数据作为训练数据来重新训练整个模型,消耗大量的人力和时间成本,降低音频识别效率的问题。
本发明实施例的第一方面提供一种音频识别方法,包括:
获取待识别音频信息;
将所述待识别音频信息切分成预设数量个音频片段;
提取所述音频片段的声学特征;
将提取到的声学特征输入到预先训练得到的音频识别模型中,得到所述音频识别模型输出的每个音频片段对应的音频类别,所述音频识别模型包括深度特征学习层和分类层;
其中,所述深度特征学习层的参数是通过第一训练数据训练得到的,所述第一训练数据为标注有第一音频类别标签的音频片段,所述第一音频类别是根据预设音频库存储中的音频数据确定的;
所述分类层的参数是通过第二训练数据进行训练得到的,所述第二训练数据为标注有第二音频类型标签的音频片段,所述第二音频类型是根据用户自定义音频数据确定的。
可选的,所述音频库中包括第一预设数量类不符合网络规范的音频数据,所述方法还包括:
提取所述音频库中的音频数据;
将所述音频数据在时域上进行切分,得到多个音频片段;
对每个音频片段标注音频类别标签,得到所述第一训练数据。
可选的,所述方法还包括:
接收用户输入的自定义音频数据;
将所述自定义音频数据进行切分,得到多个自定义音频片段;
提取每个自定义音频片段的声学特征;
对每个自定义音频片段的声学特征进行聚类处理,得到第二预设数量类音频类别;
按照第二预设数量类音频类别,对每个自定义音频片段标注音频类别标签,得到所述第二训练数据。
可选的,所述方法还包括根据所述第一训练数据和所述第二训练数据,训练得到所述音频识别模型的步骤:
将所述第一训练数据作为输入量输入至所述音频识别模型中的深度特征学习层进行训练;
将所述第二训练数据作为输入量输入至所述分类层进行训练,得到所述分类层输出的音频类别。
可选的,所述方法还包括:
将所述音频识别模型输出的每个音频片段对应的音频类别发送至目标终端,以指示用户对所述每个音频片段对应的音频类别进行正误判断;
接收所述用户通过所述目标终端发送的正误判断结果;
根据所述正误判断结果,优化所述音频识别模型。
可选的,所述根据所述正误判断结果,优化所述音频识别模型,包括:
若所述音频片段对应的音频类别正确,则将所述音频片段及其对应的音频类别标签作为新的训练数据输入至所述音频识别模型进行训练;
若所述音频片段对应的音频类别错误,则修改所述音频片段对应的音频类别标签,将所述音频片段和修改后的音频类别标签作为新的训练数据输入至所述音频识别模型进行训练。
本发明实施例的第二方面提供一种音频识别装置,包括:
获取模块,用于获取待识别音频信息;
切分模块,用于将所述待识别音频信息切分成预设数量个音频片段;
提取模块,用于提取所述音频片段的声学特征;
识别模块,用于将提取到的声学特征输入到预先训练得到的音频识别模型中,得到所述音频识别模型输出的每个音频片段对应的音频类别,所述音频识别模型包括深度特征学习层和分类层;
其中,所述深度特征学习层的参数是通过第一训练数据训练得到的,所述第一训练数据为标注有第一音频类别标签的音频片段,所述第一音频类别是根据预设音频库存储中的音频数据确定的;
所述分类层的参数是通过第二训练数据进行训练得到的,所述第二训练数据为标注有第二音频类型标签的音频片段,所述第二音频类型是根据用户自定义音频数据确定的。
本发明实施例的第三方面提供一种计算机设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行本发明实施例第一方面所述的音频识别方法。
本发明实施例的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现本发明实施例第一方面所述的音频识别方法。
本发明实施例的第五方面提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面所述的音频识别方法。
本发明实施例提供一种音频识别方法和装置,该方法首先获取待识别音频信息;然后将所述待识别音频信息切分成预设数量个音频片段;提取所述音频片段的声学特征;将提取到的声学特征输入到预先训练得到的音频识别模型中,便可以得到音频识别模型输出的音频分类结果,包括每个音频片段对应的音频类别。由于本实施例中的音频识别模型包括深度特征学习层和分类层;所述深度特征学习层的参数是通过第一训练数据训练得到的,第一训练数据为标注有第一音频类别标签的音频片段,所述第一音频类别是根据预设音频库存储中的音频数据确定的,所以深度特征学习层的参数固定,又由于分类层的参数是通过第二训练数据进行训练得到的,且第二训练数据为标注有第二音频类型标签的音频片段,所述第二音频类型是根据用户自定义音频数据确定的,因此,当用户想要增加新类别的音频识别功能时,只需要将新增加的音频数据作为训练数据去训练分类层的参数即可,无需重新训练整个音频识别模型的参数,大大降低了人力和时间成本,提高了音频识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一示例性实施例示出的音频识别方法的应用场景图;
图2是本发明一示例性实施例示出的音频识别方法的流程示意图;
图3是本发明另一示例性实施例示出的音频识别方法的流程示意图;
图4是本发明一示例性实施例示出的音频识别模型的结构示意图;
图5是本发明一示例性实施例示出的音频识别装置的结构示意图;
图6是本发明一示例性实施例示出的计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
互联网技术的发展给人们带来了很大的便利,用户可以通过互联网查询需要的信息,也可以通过互联网分享信息,比如文字资源、图片资源、视频资源以及音频资源等。但是随着互联网用户数量的激增,网络中也出现了大量来源不明的视频信息、音频信息和直播音频等不符合网络健康规范的信息。为了净化网络环境,技术人员需要对互联网中的众多音频信息进行审核、分类,以将不符合网络健康规范的音频信息识别出来。
相关技术中,识别音频信息是否符合规范的方法是提取音频的声学特征,采用神经网络分类的方法神经网络可以通过非线性建模进行分类,通过大量的训练数据(包括不合规的音频数据和相应的不合规类型标签)对神经网络模型训练,将待检测未知音频经过训练好的神经网络模型得到映射分类结果,判断未知音频是否合规。但是,现有采用非线性建模得到的神经网络模型虽然能对音频进行分类判断其是否合规,但是这一类的模型对分类的训练数据量要求很大,每增加一个新的音频类别,都需要增加大量的经过标注新类别的训练数据,且需要重新训练模型。单独的一个神经网络分类模型无法解决用户增加少量的,未知类别的音频作为匹配模版这一问题,比如,当用户想要增加少量的且未知类别的音频数据的识别功能时,还需要收集大量的相关音频数据作为训练数据来重新训练整个模型,需要消耗大量的人力和时间成本,降低了音频识别效率。
针对此缺陷,本发明的技术方案主要在于:首先建立一个用户个性化的音频识别模型,将音频识别模型拆分成深度特征学习层和分类层,其中的深度特征学习层的参数是通过现有音频库中大量的音频数据进行训练得到的,因此,深度特征学习层的参数固定;而分类层是根据用户自定义音频数据进行训练得到的,也就是说分类层的参数可以根据用户需求进行修改,当用户想要增加新类别的音频识别功能时,只需要将新增加的音频数据作为训练数据去训练分类层的参数即可,无需重新训练整个音频识别模型的参数,大大降低了人力和时间成本,提高了音频识别效率。当获取到待识别音频信息后,将所述待识别音频信息切分成预设数量个音频片段;提取所述音频片段的声学特征;将提取到的声学特征输入到预先训练得到的音频识别模型中,便可以得到音频识别模型输出的音频分类结果,包括每个音频片段对应的音频类别,整个音频识别模型既可以识别常见的音频类别,也可以通过微调分类层参数识别用户新增加的音频类别。
图1是本发明一示例性实施例示出的音频识别方法的应用场景图。
如图1所示,本实施例提供的应用场景的基本架构主要包括:网络终端设备101和服务器102;其中,网络终端设备可以包括手机、平板电脑、个人计算机、对讲机等等;当用户通过网络终端设备在网络中上传音频、视频等信息时,服务器来识别网络上的音频数据是否符合网络规范。
图2是本发明一示例性实施例示出的音频识别方法的流程示意图,本实施例提供的方法可以是图1所示实施例中的服务器,也可以是其他具有音频处理功能的设备。
如图2所示,本实施例提供的方法可以包括以下步骤。
S201,获取待识别音频信息。
具体的,互联网上的视频音频、语音、直播音频等信息通常都存储在云端或者本地数据库中,当技术人员需要对互联网上的音频信息进行审核的适合,服务器向云端或者本地数据库发送音频获取请求,然后云端或者数据库根据音频获取请求将互联网上的一段段音频信息发送至服务器。
S202,将所述待识别音频信息切分成预设数量个音频片段。
具体的,服务器获取到待识别的音频信息后,由于不同音频时长不同,为了保证音频识别的精准度,需要将音频信息在时域上进行切分,将每个音频信息切分成多个音频片段,比如待识别音频信息为一段30秒长度的音频,可以将该段音频信息切分成6段5秒长度的音频片段,或者切分成几段时长不同的音频片段。
S203,提取所述音频片段的声学特征。
其中,声学特征可以但不限于包括基频特征、梅尔频率倒谱系数(Mel-frequencycepstral coefficients,MFCC)特征等。
具体的,MFCC特征的提取主要包括以下几个步骤:首先对每个音频片段进行预加重处理,即将音频信号通过一个高通滤波器进行处理,使音频信息的频谱变得平坦,不易受到有限字长效应的影响;然后对预加重之后的音频信息进行分帧,根据语音的短时平稳特性,语音可以以帧为单位进行处理,比如选取的语音帧长为32ms,帧叠为16ms;然后加窗,采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;最后进行快速傅立叶变换(FastFourier Transformation,FFT),将时域的音频信号变换成为信号的功率谱。基频特征的提取过程主要是:首先对音频片段进行预处理,如加窗、滤波等处理;然后基于归一化自相关函数计算每帧的基频候选值;对计算得到的候选值精细化处理;最后运用动态规划算法找出音频片段的基音周期。
S204,将提取到的声学特征输入到预先训练得到的音频识别模型中,得到所述音频识别模型输出的每个音频片段对应的音频类别,所述音频识别模型包括深度特征学习层和分类层。
其中,所述深度特征学习层的参数是通过第一训练数据训练得到的,所述第一训练数据为标注有第一音频类别标签的音频片段,所述第一音频类别是根据预设音频库存储中的音频数据确定的;
所述分类层的参数是通过第二训练数据进行训练得到的,所述第二训练数据为标注有第二音频类型标签的音频片段,所述第二音频类型是根据用户自定义音频数据确定的。
具体的,音频库中存储有大量已经标注音频类别标签的不符合网络规范的音频,比如,涉及到语言暴力的音频,其对应标注的音频类别为“暴力”,涉及到内容不健康的音频类别,其对应标注的音频类别为“不健康”等。对音频库中的音频数据按照时域进行切分,获得音频片段及其对应的不符合网络规范的音频类别标签作为第一训练数据,使用第一训练数据训练深度特征学习层的参数,训练完成之后,固定将深度特征学习层的参数。当将类似音频片段的声学特征输入至音频识别模型中的深度特征学习层之后,深度特征学习层自动识别出该音频片段的音频类别,从而识别出该音频片段是否符合网络规范。
并且,音频识别模型中还包括分类层,分类层的参数是通过第二训练数据进行训练得到的,所述第二训练数据为标注有第二音频类型标签的音频片段,所述第二音频类型是根据用户自定义音频数据确定的。
具体的,在一些特定应用场景中,技术人员可能需要识别一些特殊类型的音频,比如包含一些特殊关键字的音频,而这些音频相对于音频库中包含的不符合网络健康规范的音频数据是非常少量的,因此,可以将技术人员自定义的音频数据去单独训练分类层,将用户自定义的音频数据和对应的音频类别标签作为第二训练数据去训练分类层的参数,即,分类层的参数是根据用户自定义音频数据进行训练得到的。当将与用户自定义音频数据类似的音频片段输入至音频识别模型中的深度特征学习层,深度特征学习层无法识别出其音频类别,进而再将其输入至分类层,分类层识别得到对应的音频类别。
示例性的,将待审核音频t.wav按照时域进行切分,得到多个音频片段分别为t_1.wav、t_2.wav……,然后提取每个音频片段的声学特征,输入到音频识别模型中,经过音频识别模型中的深度特征学习层和分类层,输出对应的不合规音频的音频类别,比如Y_1、Y_2……等。
本实施例中,首先获取待识别音频信息;然后将所述待识别音频信息切分成预设数量个音频片段;提取所述音频片段的声学特征;将提取到的声学特征输入到预先训练得到的音频识别模型中,便可以得到音频识别模型输出的音频分类结果,包括每个音频片段对应的音频类别。由于本实施例中的音频识别模型包括深度特征学习层和分类层;所述深度特征学习层的参数是通过第一训练数据训练得到的,第一训练数据为标注有第一音频类别标签的音频片段,所述第一音频类别是根据预设音频库存储中的音频数据确定的,所以深度特征学习层的参数固定,又由于分类层的参数是通过第二训练数据进行训练得到的,且第二训练数据为标注有第二音频类型标签的音频片段,所述第二音频类型是根据用户自定义音频数据确定的。也就是说,本实施例的音频识别模型是新音频类别分类的用户个性化音频识别模型,其中深度特征学习层的参数经音频库中的大量训练数据训练得到,其最后一层的分类层的参数是根据用户添加的自定义音频数据训练得到的。即不同用户拥有不同的分类器参数,做为用户个性化参数进行保存,但是所有用户共享模型深度特征学习层的参数。因此,当用户想要增加新类别的音频识别功能时,只需要将新增加的音频数据作为训练数据去训练分类层的参数即可,无需重新训练整个音频识别模型的参数,大大降低了人力和时间成本,提高了音频识别效率。
在一种可能的实施例中,所述音频库中包括第一预设数量类不符合网络规范的音频数据,所述方法还包括:提取所述音频库中的音频数据;将所述音频数据在时域上进行切分,得到多个音频片段;对每个音频片段标注音频类别标签,得到所述第一训练数据。
其中,不符合网络规范的音频数据的种类可以根据实际情况进行设定,比如包括“暴力”、“危险”、“不健康”等多种类型。
具体的,假设第一预设数量为N,将音频库中N类已知不合规类别标签音频按照时域切割,获得音频片段,例如音频a.wav,音频类别是“不健康”,经分割后获得(a_1.wav,不健康),(a_2.wav,不健康)…等多个带有音频类别标签的音频片段,即第一训练数据。
在一种可能的实施例中,所述方法还包括:将所述第一训练数据作为输入量输入至所述音频识别模型中的深度特征学习层进行训练。
具体的,提取第一训练数据中每个音频片段的声学特征,适当加噪以提高泛化能力,用如上训练数据进行深度特征学习层的微调,训练好后,将深度特征学习层参数固定。
在一种可能的实施例中,所述方法还包括:接收用户输入的自定义音频数据;将所述自定义音频数据进行切分,得到多个自定义音频片段;提取每个自定义音频片段的声学特征;对每个自定义音频片段的声学特征进行聚类处理,得到第二预设数量类音频类别;按照第二预设数量类音频类别,对每个自定义音频片段标注音频类别标签,得到所述第二训练数据。
其中,第二预设数量是根据用户自定义的音频数据来确定的,假设用M来表示第二预设数量。
具体的,用户添加少量的,未知音频类别标签的不合规音频,但是音频类别个数也未知,则需要先对用户自定义的音频数据进行切分,得到自定义音频数据对应的多个音频片段,然后提取自定义音频片段的声学特征(基频特征和MFCC特征等),然后对提取到的声学特征进行聚类处理,聚类结果假设为M个,即根据用户自定义的音频数据可以确定新增识别的音频类别为M类。用户在能识别N类音频类别的音频识别模型的基础上训练一个能够进行N+M类音频类别的识别模型,其中,深度特征学习层的参数经音频库中的大量训练数据训练得到,能识别N类音频。根据用户自定义音频数据得到的第二训练数据用于训练其最后一层的分类层的参数,能识别N+M类音频,将训练好的分类层参数作为用户的个性化参数存储。
示例性的,如图4所示,为本实施例中音频识别模型的结构图,包括深度特征学习层和分类层,其中,深度特征学习层的参数根据音频库中存储的大量的N类音频数据确定的第一训练数据,深度特征学习层的参数根据第一训练数据训练得到,然后固定深度特征学习层的参数;分类层的参数是根据用户自定义音频数据确定的第二训练数据进行训练得到的,因此,对于用户新添加的少量的,未知类别的音频,通过微调分类层参数就能使训练得到的音频识别模型在审核结果中包含新添加的音频类别。
需要说明的是,本实施例中的分类层可以是神经网络中的分类层,比如softMax,也可以是其他基于机器学习的分类器,比如支持向量机(Support Vector Machine,SVM),决策树等。
图3是本发明另一示例性实施例示出的音频识别方法的流程示意图,本实施例在图2所示实施例的基础上,进一步对音频识别模型的迭代训练过程进行描述。
如图3所示,本实施例提供的方法可以包括以下步骤。
S301,将所述音频识别模型输出的每个音频片段对应的音频类别发送至目标终端,以指示用户对所述每个音频片段对应的音频类别进行正误判断。
具体的,得到音频识别模型输出的每个音频片段对应的音频类别后,服务器将每个音频片段及其对应的音频类别发送至目标终端,比如发送至用户的显示终端或者手机等,由用户对分类识别结果进行审核,判断音频识别模型的识别结果是否正确。
S302,接收所述用户通过所述目标终端发送的正误判断结果。
具体的,用户可以将审核结果通过目标终端发送至服务器,服务器根据用户的审核结果进行下一步操作。
比如,假如用户审核的音频识别模型的识别某个音频片段对应的音频类别是正确的,则可以通过目标终端输入正确的字样或者对号标识;假如用户审核到某个音频片段对应的音频类别是错误的,则通过目标终端修改该音频片段对应的音频类别标签,目标终端将用户修改的内容发送至服务器。
S303,根据所述正误判断结果,优化所述音频识别模型。
具体的,服务器针对用户通过目标终端发送的分类正确的音频作为强化模型的训练数据,将所述音频片段及其对应的音频类别标签作为新的训练数据输入至所述音频识别模型进行训练;对于分类错误的数据,根据用户输入的修改后的音频类别标签及相应的音频片段作为优化模型的训练数据,将所述音频片段和修改后的音频类别标签作为新的训练数据输入至所述音频识别模型进行训练,对用户个性化音频审核模型进行迭代学习。
本实施例中,通过对音频识别模型进行迭代训练,保证了音频识别模型的精准度。
图5是本发明一示例性实施例示出的音频识别装置的结构示意图;
如图5所示,本实施例提供的装置包括:获取模块501,用于获取待识别音频信息;切分模块502,用于将所述待识别音频信息切分成预设数量个音频片段;提取模块503,用于提取所述音频片段的声学特征;识别模块504,用于将提取到的声学特征输入到预先训练得到的音频识别模型中,得到所述音频识别模型输出的每个音频片段对应的音频类别,所述音频识别模型包括深度特征学习层和分类层。
其中,所述深度特征学习层的参数是通过第一训练数据训练得到的,所述第一训练数据为标注有第一音频类别标签的音频片段,所述第一音频类别是根据预设音频库存储中的音频数据确定的;所述分类层的参数是通过第二训练数据进行训练得到的,所述第二训练数据为标注有第二音频类型标签的音频片段,所述第二音频类型是根据用户自定义音频数据确定的。
进一步的,所述音频库中包括第一预设数量类不符合网络规范的音频数据,所述获取模块还用于:提取所述音频库中的音频数据;所述切分模块还用于将所述音频数据在时域上进行切分,得到多个音频片段;对每个音频片段标注音频类别标签,得到所述第一训练数据。
进一步的,所述获取模块还用于:接收用户输入的自定义音频数据;所述切分模块还用于将所述自定义音频数据进行切分,得到多个自定义音频片段;所述提取模块还用于提取每个自定义音频片段的声学特征;对每个自定义音频片段的声学特征进行聚类处理,得到第二预设数量类音频类别;按照第二预设数量类音频类别,对每个自定义音频片段标注音频类别标签,得到所述第二训练数据。
进一步的,所述装置还包括:训练模块,用于根据所述第一训练数据和所述第二训练数据,训练得到所述音频识别模型,具体用于:将所述第一训练数据作为输入量输入至所述音频识别模型中的深度特征学习层进行训练;将所述第二训练数据作为输入量输入至所述分类层进行训练,得到所述分类层输出的音频类别。
进一步的,所述装置还包括:优化模块,用于将所述音频识别模型输出的每个音频片段对应的音频类别发送至目标终端,以指示用户对所述每个音频片段对应的音频类别进行正误判断;接收所述用户通过所述目标终端发送的正误判断结果;根据所述正误判断结果,优化所述音频识别模型。
进一步的,所述优化模块具体用于:若所述音频片段对应的音频类别正确,则将所述音频片段及其对应的音频类别标签作为新的训练数据输入至所述音频识别模型进行训练;若所述音频片段对应的音频类别错误,则修改所述音频片段对应的音频类别标签,将所述音频片段和修改后的音频类别标签作为新的训练数据输入至所述音频识别模型进行训练。
本实施例中提供的装置中的各个模块的实现过程可参考上述有关方法实施例中的详细描述。
图6为本发明实施例提供的计算机设备的硬件结构示意图。如图6所示,本实施例提供的计算机设备60包括:至少一个处理器601和存储器602。其中,处理器601、存储器602通过总线603连接。
在具体实现过程中,至少一个处理器601执行所述存储器602存储的计算机执行指令,使得至少一个处理器601执行上述方法实施例中的音频识别方法。
处理器601的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图6所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请的另一实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述方法实施例中的音频识别方法。
本申请的另一实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面所述的音频识别方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种音频识别方法,其特征在于,包括:
获取待识别音频信息;
将所述待识别音频信息切分成预设数量个音频片段;
提取所述音频片段的声学特征;
将提取到的声学特征输入到预先训练得到的音频识别模型中,得到所述音频识别模型输出的每个音频片段对应的音频类别,所述音频识别模型包括深度特征学习层和分类层;
其中,所述深度特征学习层的参数是通过第一训练数据训练得到的,所述第一训练数据为标注有第一音频类别标签的音频片段,所述第一音频类别是根据预设音频库存储中的音频数据确定的;
所述分类层的参数是通过第二训练数据进行训练得到的,所述第二训练数据为标注有第二音频类型标签的音频片段,所述第二音频类型是根据用户自定义音频数据确定的。
2.根据权利要求1所述的方法,其特征在于,所述音频库中包括第一预设数量类不符合网络规范的音频数据,所述方法还包括:
提取所述音频库中的音频数据;
将所述音频数据在时域上进行切分,得到多个音频片段;
对每个音频片段标注音频类别标签,得到所述第一训练数据。
3.根据权利要求2所述的方法,其特征在于,还包括:
接收用户输入的自定义音频数据;
将所述自定义音频数据进行切分,得到多个自定义音频片段;
提取每个自定义音频片段的声学特征;
对每个自定义音频片段的声学特征进行聚类处理,得到第二预设数量类音频类别;
按照第二预设数量类音频类别,对每个自定义音频片段标注音频类别标签,得到所述第二训练数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括根据所述第一训练数据和所述第二训练数据,训练得到所述音频识别模型的步骤:
将所述第一训练数据作为输入量输入至所述音频识别模型中的深度特征学习层进行训练;
将所述第二训练数据作为输入量输入至所述分类层进行训练,得到所述分类层输出的音频类别。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
将所述音频识别模型输出的每个音频片段对应的音频类别发送至目标终端,以指示用户对所述每个音频片段对应的音频类别进行正误判断;
接收所述用户通过所述目标终端发送的正误判断结果;
根据所述正误判断结果,优化所述音频识别模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述正误判断结果,优化所述音频识别模型,包括:
若所述音频片段对应的音频类别正确,则将所述音频片段及其对应的音频类别标签作为新的训练数据输入至所述音频识别模型进行训练;
若所述音频片段对应的音频类别错误,则修改所述音频片段对应的音频类别标签,将所述音频片段和修改后的音频类别标签作为新的训练数据输入至所述音频识别模型进行训练。
7.一种音频识别装置,其特征在于,包括:
获取模块,用于获取待识别音频信息;
切分模块,用于将所述待识别音频信息切分成预设数量个音频片段;
提取模块,用于提取所述音频片段的声学特征;
识别模块,用于将提取到的声学特征输入到预先训练得到的音频识别模型中,得到所述音频识别模型输出的每个音频片段对应的音频类别,所述音频识别模型包括深度特征学习层和分类层;
其中,所述深度特征学习层的参数是通过第一训练数据训练得到的,所述第一训练数据为标注有第一音频类别标签的音频片段,所述第一音频类别是根据预设音频库存储中的音频数据确定的;
所述分类层的参数是通过第二训练数据进行训练得到的,所述第二训练数据为标注有第二音频类型标签的音频片段,所述第二音频类型是根据用户自定义音频数据确定的。
8.一种计算机设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-6任一项所述的音频识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-6任一项所述的音频识别方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的音频识别方法。
CN202110694791.2A 2021-06-22 2021-06-22 音频识别方法和装置 Pending CN113421552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110694791.2A CN113421552A (zh) 2021-06-22 2021-06-22 音频识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110694791.2A CN113421552A (zh) 2021-06-22 2021-06-22 音频识别方法和装置

Publications (1)

Publication Number Publication Date
CN113421552A true CN113421552A (zh) 2021-09-21

Family

ID=77716202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110694791.2A Pending CN113421552A (zh) 2021-06-22 2021-06-22 音频识别方法和装置

Country Status (1)

Country Link
CN (1) CN113421552A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114125368A (zh) * 2021-11-30 2022-03-01 北京字跳网络技术有限公司 会议音频的参会人关联方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824557A (zh) * 2014-02-19 2014-05-28 清华大学 一种具有自定义功能的音频检测分类方法
WO2014160678A2 (en) * 2013-03-26 2014-10-02 Dolby Laboratories Licensing Corporation 1apparatuses and methods for audio classifying and processing
US20200160845A1 (en) * 2018-11-21 2020-05-21 Sri International Real-time class recognition for an audio stream
CN111816170A (zh) * 2020-07-29 2020-10-23 网易(杭州)网络有限公司 一种音频分类模型的训练和垃圾音频识别方法和装置
CN112259078A (zh) * 2020-10-15 2021-01-22 上海依图网络科技有限公司 一种音频识别模型的训练和非正常音频识别的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014160678A2 (en) * 2013-03-26 2014-10-02 Dolby Laboratories Licensing Corporation 1apparatuses and methods for audio classifying and processing
CN103824557A (zh) * 2014-02-19 2014-05-28 清华大学 一种具有自定义功能的音频检测分类方法
US20200160845A1 (en) * 2018-11-21 2020-05-21 Sri International Real-time class recognition for an audio stream
CN111816170A (zh) * 2020-07-29 2020-10-23 网易(杭州)网络有限公司 一种音频分类模型的训练和垃圾音频识别方法和装置
CN112259078A (zh) * 2020-10-15 2021-01-22 上海依图网络科技有限公司 一种音频识别模型的训练和非正常音频识别的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114125368A (zh) * 2021-11-30 2022-03-01 北京字跳网络技术有限公司 会议音频的参会人关联方法、装置及电子设备
CN114125368B (zh) * 2021-11-30 2024-01-30 北京字跳网络技术有限公司 会议音频的参会人关联方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN111477250B (zh) 音频场景识别方法、音频场景识别模型的训练方法和装置
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN107767869B (zh) 用于提供语音服务的方法和装置
CN108447471B (zh) 语音识别方法及语音识别装置
CN111081279A (zh) 语音情绪波动分析方法及装置
CN110675862A (zh) 语料获取方法、电子装置及存储介质
CN109545185B (zh) 交互系统评价方法、评价系统、服务器及计算机可读介质
CN108899033B (zh) 一种确定说话人特征的方法及装置
CN109241332B (zh) 一种通过语音确定语义的方法及系统
CN111785275A (zh) 语音识别方法及装置
CN109410986B (zh) 一种情绪识别方法、装置及存储介质
CN111710337A (zh) 语音数据的处理方法、装置、计算机可读介质及电子设备
CN112487248A (zh) 视频文件的标签生成方法、装置、智能终端及存储介质
JP2017058507A (ja) 音声認識装置、音声認識方法、プログラム
CN107680584B (zh) 用于切分音频的方法和装置
CN114911929A (zh) 分类模型训练方法、文本挖掘方法、设备及存储介质
CN115394318A (zh) 一种音频检测方法和装置
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN113421552A (zh) 音频识别方法和装置
CN109413595B (zh) 一种垃圾短信的识别方法、装置及存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN113689860A (zh) 语音识别模型的训练、语音识别方法、装置及设备
CN111785259A (zh) 信息处理方法、装置及电子设备
CN111540363B (zh) 关键词模型及解码网络构建方法、检测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210921

RJ01 Rejection of invention patent application after publication