CN109065076B - 音频标签的设置方法、装置、设备和存储介质 - Google Patents

音频标签的设置方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN109065076B
CN109065076B CN201811030676.XA CN201811030676A CN109065076B CN 109065076 B CN109065076 B CN 109065076B CN 201811030676 A CN201811030676 A CN 201811030676A CN 109065076 B CN109065076 B CN 109065076B
Authority
CN
China
Prior art keywords
audio
label
sub
complete
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811030676.XA
Other languages
English (en)
Other versions
CN109065076A (zh
Inventor
涂臻
杨振宇
刘云峰
吴悦
陈正钦
胡晓
汶林丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN201811030676.XA priority Critical patent/CN109065076B/zh
Publication of CN109065076A publication Critical patent/CN109065076A/zh
Priority to PCT/CN2019/100292 priority patent/WO2020048295A1/zh
Application granted granted Critical
Publication of CN109065076B publication Critical patent/CN109065076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明涉及一种音频标签的设置方法、装置、设备和存储介质。其中,音频标签的设置方法包括:获取完整音频;切分完整音频,得到至少两个子音频;通过预先训练得到的音频标签设置模型为子音频设置标签;整合各子音频的标签,生成完整音频的完整标签。本申请提供的音频标签的设置方法中,将完整音频切分为各个子音频,通过音频标签设置模型直接为子音频设置标签,整合各个标签得到完整音频的完整标签。如此,在为音频设置标签的过程中,可以直接对音频进行操作,避免了将音频转化为文字的过程,保留音频的语调语气,更加全面的为音频设置标签。

Description

音频标签的设置方法、装置、设备和存储介质
技术领域
本发明涉及音频评判技术领域,具体涉及一种音频标签的设置方法、装置、设备和存储介质。
背景技术
随着社会的不断发展,客服已成为人们生活中必不可少的一份子。为了保证客服的服务质量,需要对客服的通话音频进行评判。评判的形式为音频设置标签。
目前,音频标签的一般设置方法为,通过语音识别系统将音频转化为文字,根据文字内容为音频设置标签。
但是,采用上述方式,存在以下问题:语音识别系统将音频转化为文字的过程中,丢失了音频的语调语气,无法全面的评判通话语音。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种音频标签的设置方法、装置、设备和存储介质。
根据本申请实施例的第一方面,提供一种音频标签的设置方法,包括:
获取完整音频;
切分所述完整音频,得到至少两个子音频;
通过预先训练得到的音频标签设置模型为所述子音频设置标签;
整合各所述子音频的标签,生成所述完整音频的完整标签。
可选的,所述切分所述完整音频,得到至少两个子音频,包括:
预处理所述完整音频;
确定所述完整音频中的音频段和静音段;
按照所述音频段和所述静音段切分所述完整音频,并将所述音频段保留为所述子音频。
可选的,所述预处理所述完整音频包括:
转码所述完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式。
可选的,所述确定所述完整音频中的音频段和静音段包括:
采用语音端点检测算法,确定所述完整音频中的音频段和静音段。
可选的,所述通过预先训练得到的音频标签设置模型为所述子音频设置标签包括:
对所述子音频进行分帧;
分别提取每一帧子音频的音频特征;
整合所述每一帧子音频的音频特征,得到音频特征矩阵;
向双向循环神经网络GRU层输入音频特征矩阵,得到第一输出数据;
向子采样层输入所述第一输出数据,进行子采样,得到第二输出数据;
向BN层输入所述第二输出数据,得到第三输出数据;
向最大池化层输入所述第三输出数据,得到第四输出数据;
向全连接+softmax层输入所述第四输出数据,得到子音频对应各标签的概率,选择概率最大的标签作为当前子音频的标签
可选的,所述音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。
可选的,还包括:
获取终端上传的所述完整标签是否合适的判断结果;所述判断结果包括:是或否;
若所述判断结果为否,获取所述终端上传的合适的完整标签。
可选的,所述获取所述终端上传的完整标签之后,还包括:
以所述终端上传的合适的完整标签和所述完整音频为训练数据,训练所述音频标签设置模型。
可选的,所述预训练的音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。
根据本申请实施例的第二方面,提供一种音频标签的设置装置,包括:
第一获取模块,用于获取音频;
切分模块,用于切分所述音频为各个子音频;
标签设置模块,通过音频标签设置模型为所述子音频设置标签;
整合模块,用于整合各所述子音频的标签,生成所述音频的完整标签。
所述切分模块具体用于:
预处理所述完整音频;
确定所述完整音频中的音频段和静音段;
按照所述音频段和所述静音段切分所述完整音频,并将所述音频段保留为所述子音频。
可选的,所述预处理所述完整音频包括:
转码所述完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式。
可选的,确定所述完整音频中的音频段和静音段所采用算法为:语音端点检测算法。
可选的,所述标签设置模块具体用于:
对所述子音频进行分帧;
分别提取每一帧子音频的音频特征;
整合所述每一帧子音频的音频特征,得到音频特征矩阵;
向双向循环神经网络GRU层输入音频特征矩阵,得到第一输出数据;
向子采样层输入所述第一输出数据,进行子采样,得到第二输出数据;
向BN层输入所述第二输出数据,得到第三输出数据;
向最大池化层输入所述第三输出数据,得到第四输出数据;
向全连接+softmax层输入所述第四输出数据,得到子音频对应各标签的概率,选择概率最大的标签作为当前子音频的标签。
可选的,所述音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。
可选的,所述预训练的音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。
可选的,所述音频标签的设置装置,还包括:
第二获取模块,用于获取终端上传的所述完整标签是否合适的判断结果;所述判断结果包括:是或否;
可选的,所述音频标签的设置装置,还包括:
第三获取模块,用于若所述判断结果为否,获取所述终端上传的完整标签。
根据本申请实施例的第三方面,提供一种音频标签的设置设备,包括:
处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序,所述计算机程序至少用于执行本申请实施例的第一方面所述的音频标签的设置方法;
所述处理器用于调用并执行所述存储器中的所述计算机程序。
根据本申请实施例的第四方面,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现本申请实施例的第一方面所述的音频标签的设置方法中各个步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请提供的音频标签的设置方法中,将完整音频切分为各个子音频,通过音频标签设置模型直接为子音频设置标签,整合各个标签得到完整音频的完整标签。如此,在为音频设置标签的过程中,可以直接对音频进行操作。与背景技术中的方案相比较,避免了将音频转化为文字的过程,保留音频的语调语气,更加全面的为音频设置标签。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的音频标签的设置方法的流程示意图。
图2是本发明另一实施例提供的音频标签的设置方法的流程示意图。
图3是本发明另一实施例提供的音频标签的设置方法的流程示意图。
图4是本发明另一实施例提供的音频标签的设置方法的流程示意图
图5是本发明一实施例提供的音频标签的设置装置的结构示意图。
图6是本发明一实施例提供的音频标签的设置设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
图1是本发明一实施例提供的一种音频标签的设置方法,其特征在于,包括:
S110,获取完整音频;
其中,完整音频只是为了与后文出现的子音频进行区分,并非强调音频为整个通话的音频。
S120切分完整音频,得到至少两个子音频;
具体的,如图2所示,S120包括:
S201,预处理完整音频;
其中,预处理完整音频包括:转码完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式。相同采样率、相同采样位深、相同比特率可以保留音频的大部分的特征。如此,将音频转化为某种音频格式的同时,保留了音频大部分的特征。
S202,确定完整音频中的音频段和静音段;
S203,按照音频段和静音段切分完整音频,并将音频段保留为子音频。
按照上述S201,S202和S203中的方案,在将完整音频切分为多个子音频的同时,剔除完整音频中的静音段,节省下面的步骤中处理静音段的时间,提高工作效率。同时,如此切分完整音频,保留的子音频多为单个字或词的音频。按照这种方式切分音频,不会割裂单独的字、词或句子,可以更加全面的保留音频信息。
例如:当音频为:“我明白了,是的,我对您的服务很满意”时,按照上述S201,S202和S203中的方案,可以将音频切分为“我明白了”、“是的”、“我对您的服务很满意”如此,并不会割裂音频中的“我明白了”的音频为两个音频。合理的保留了最小单元的字、词或句子完整性,更加全面的保留音频信息。
S130通过预先训练得到的音频标签设置模型为子音频设置标签;
具体的,如图3所示,步骤130可以包括:
S301,对子音频进行分帧;
S302,分别提取每一帧子音频的音频特征;
S303,整合每一帧子音频的音频特征,得到音频特征矩阵;
S304,向双向循环神经网络GRU层输入音频特征矩阵,得到第一输出数据;
S305,向子采样层输入第一输出数据,进行子采样,得到第二输出数据;
S306,向BN层输入第二输出数据,得到第三输出数据;
S307,向最大池化层输入第三输出数据,得到第四输出数据;
S308,向全连接+softmax层输入第四输出数据,得到子音频对应各标签的概率,选择概率最大的标签作为当前子音频的标签。
如此,通过S301,S302,S303,S304,S305,S306,S307,S308,可以直接为子音频设置标签,与背景技术中的方案相比较,避免将音频转化为文字的过程,保留子音频的语调语气,可以更加准确的为子音频设置标签。
其中,特征矩阵为梅尔倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)特征矩阵。MFCC特征矩阵是基于MFCC技术特征矩阵,MFCC技术是一种在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果的技术,采用这种技术可以提高语音识别系统的性能。
S140,整合各子音频的标签,生成完整音频的完整标签。
其中,预训练的音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。
本申请提供的音频标签的设置方法中,将完整音频切分为各个子音频,通过音频标签设置模型直接为子音频设置标签,整合各个标签得到完整音频的完整标签。如此,在为音频设置标签的过程中,可以直接对音频进行操作。与背景技术中的方案相比较,避免了将音频转化为文字的过程,保留音频的语调语气,更加全面的为音频设置标签。同时,由于目前的语音识别技术的效率和准确率偏低,所以采用背景技术中的方案会降低为音频设置标签的效率的准确率。而本申请提供的方案中,避免使用语音识别技术将音频识别为文字,提高为音频设置标签的效率的准确率。
进一步的,如图4所示,本申请提供音频标签的设置方法还包括:
S401,获取终端上传的完整标签是否合适的判断结果;判断结果包括:是或否;
S402若判断结果为否,获取终端上传的完整标签。
如此,当S110,S120,S130,S140,提供的方法为音频设置的标签后,可以获取终端上传的完整标签是否合适的判断结果,来确定标签是否合适,若不合适,则及时的获取终端上传的合适的完整标签,进一步的提高为音频设置的标签的准确率。
其中,终端上传的判断结果和合适的完整标签的来源可以是由人工进行输入。即由工作人员对设置有标签的音频进行检查,发现标签不合适,则通过终端上传判断结果和合适的完整标签。
进一步的,本申请提供音频标签的设置方法还包括:
S403,以终端上传的合适的完整标签和完整音频为训练数据,训练音频标签设置模型。
通过终端上传的合适的完整标签和完整音频为训练数据,训练音频标签设置模型,可以有效的提高音频标签设置模型为音频设置标签时的准确率。
下面结合以上各实施例中的优选实施例,对本申请实施例提供的音频标签的设置方法置进行更加详细的说明:
获取完整音频;
转码完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式;
确定完整音频中的音频段和静音段;
按照音频段和静音段切分完整音频,并将音频段保留为子音频;
对子音频进行分帧;
分别提取每一帧子音频的音频特征;
整合每一帧子音频的音频特征,得到音频特征矩阵;其中,音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。
向双向循环神经网络GRU层输入音频特征矩阵,得到第一输出数据;
向子采样层输入第一输出数据,进行子采样,得到第二输出数据;
向BN层输入第二输出数据,得到第三输出数据;
向最大池化层输入第三输出数据,得到第四输出数据;
向全连接+softmax层输入第四输出数据,得到子音频对应各标签的概率,选择概率最大的标签作为当前子音频的标签;
获取终端上传的完整标签是否合适的判断结果;判断结果包括:是或否;
若判断结果为否,获取终端上传的合适的完整标签;
以终端上传的合适的完整标签和完整音频为训练数据,训练音频标签设置模型。
其中,预训练的音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。
本申请提供的音频标签的设置方法中,将完整音频切分为各个子音频,通过音频标签设置模型直接为子音频设置标签,整合各个标签得到完整音频的完整标签。如此,在为音频设置标签的过程中,可以直接对音频进行操作。与背景技术中的方案相比较,避免了将音频转化为文字的过程,保留音频的语调语气,更加全面的为音频设置标签。同时,由于目前的语音识别技术的效率和准确率偏低,所以采用背景技术中的方案会降低为音频设置标签的效率的准确率。而本申请提供的方案中,避免使用语音识别技术将音频识别为文字,提高为音频设置标签的效率的准确率。
图5是本申请一实施例提供的音频标签的设置装置的结构示意图。参照与5,音频标签的设置装置包括:
第一获取模块501,用于获取音频;
切分模块502,用于切分音频为各个子音频;
标签设置模块503,通过音频标签设置模型为子音频设置标签;
整合模块504,用于整合各子音频的标签,生成音频的完整标签。
本申请提供的音频标签的设置装置中,将完整音频切分为各个子音频,通过音频标签设置模型直接为子音频设置标签,整合各个标签得到完整音频的完整标签。如此,在为音频设置标签的过程中,可以直接对音频进行操作。与背景技术中的方案相比较,避免了将音频转化为文字的过程,保留音频的语调语气,更加全面的为音频设置标签。同时,由于目前的语音识别技术的效率和准确率偏低,所以采用背景技术中的方案会降低为音频设置标签的效率的准确率。而本申请提供的方案中,避免使用语音识别技术将音频识别为文字,提高为音频设置标签的效率的准确率。
切分模块502具体用于:
预处理完整音频;
确定完整音频中的音频段和静音段;
按照音频段和静音段切分完整音频,并将音频段保留为子音频。
可选的,预处理完整音频包括:
转码完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式。
可选的,确定完整音频中的音频段和静音段所采用算法为:语音端点检测算法。
可选的,标签设置模块503具体用于:
对子音频进行分帧;
分别提取每一帧子音频的音频特征;
整合每一帧子音频的音频特征,得到音频特征矩阵;
向双向循环神经网络GRU层输入音频特征矩阵,得到第一输出数据;
向子采样层输入第一输出数据,进行子采样,得到第二输出数据;
向BN层输入第二输出数据,得到第三输出数据;
向最大池化层输入第三输出数据,得到第四输出数据;
向全连接+softmax层输入第四输出数据,得到子音频对应各标签的概率,选择概率最大的标签作为当前子音频的标签。
可选的,音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。
可选的,预训练的音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。
可选的,音频标签的设置装置,还包括:
第二获取模块,用于获取终端上传的完整标签是否合适的判断结果;判断结果包括:是或否;
可选的,音频标签的设置装置,还包括:
第三获取模块,用于若判断结果为否,获取终端上传的完整标签。
图6是本申请一实施例提供的音频标签的设置设备的结构示意图。参照与6,音频标签的设置设备,包括:
处理器602,以及与处理器相连接的存储器601;
存储器601用于存储计算机程序,计算机程序至少用于执行本申请实施例的音频标签的设置方法;
处理器用于调用并执行存储器中的计算机程序。
本申请提供的音频标签的设置设备中,将完整音频切分为各个子音频,通过音频标签设置模型直接为子音频设置标签,整合各个标签得到完整音频的完整标签。如此,在为音频设置标签的过程中,可以直接对音频进行操作。与背景技术中的方案相比较,避免了将音频转化为文字的过程,保留音频的语调语气,更加全面的为音频设置标签。同时,由于目前的语音识别技术的效率和准确率偏低,所以采用背景技术中的方案会降低为音频设置标签的效率的准确率。而本申请提供的方案中,避免使用语音识别技术将音频识别为文字,提高为音频设置标签的效率的准确率。
本申请还提供一种存储介质,存储介质存储有计算机程序,计算机程序被处理器执行时,实现本申请实施例的音频标签的设置方法中各个步骤。
关于上述实施例中的装置和设备,其中各个模块和部件执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种音频标签的设置方法,其特征在于,包括:
获取完整音频;
切分所述完整音频,得到至少两个子音频;
通过预先训练得到的音频标签设置模型为所述子音频设置标签;
整合各所述子音频的标签,生成所述完整音频的完整标签;
获取终端上传的所述完整标签是否合适的判断结果;所述判断结果包括:是或否;
若所述判断结果为否,获取所述终端上传的合适的完整标签;
以所述终端上传的合适的完整标签和所述完整音频为训练数据,训练所述音频标签设置模型;
所述通过预先训练得到的音频标签设置模型为所述子音频设置标签包括:
对所述子音频进行分帧;
分别提取每一帧子音频的音频特征;
整合所述每一帧子音频的音频特征,得到音频特征矩阵;
向双向循环神经网络GRU层输入音频特征矩阵,得到第一输出数据;
向子采样层输入所述第一输出数据,进行子采样,得到第二输出数据;
向BN层输入所述第二输出数据,得到第三输出数据;
向最大池化层输入所述第三输出数据,得到第四输出数据;
向全连接+softmax层输入所述第四输出数据,得到子音频对应各标签的概率,选择概率最大的标签作为当前子音频的标签。
2.根据权利要求1所述的方法,其特征在于,所述切分所述完整音频,得到至少两个子音频,包括:
预处理所述完整音频;
确定所述完整音频中的音频段和静音段;
按照所述音频段和所述静音段切分所述完整音频,并将所述音频段保留为所述子音频。
3.根据权利要求2所述的方法,其特征在于,所述预处理所述完整音频包括:
转码所述完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式。
4.根据权利要求2所述的方法,其特征在于,所述确定所述完整音频中的音频段和静音段包括:
采用语音端点检测算法,确定所述完整音频中的音频段和静音段。
5.根据权利要求1所述的方法,其特征在于,所述音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。
7.一种音频标签的设置装置,其特征在于,包括:
第一获取模块,用于获取音频;
切分模块,用于切分所述音频为各个子音频;
标签设置模块,通过音频标签设置模型为所述子音频设置标签;
整合模块,用于整合各所述子音频的标签,生成所述音频的完整标签;
第二获取模块,用于获取终端上传的所述完整标签是否合适的判断结果;所述判断结果包括:是或否;
第三获取模块,用于若所述判断结果为否,获取所述终端上传的完整标签;
训练模块,用于以所述终端上传的完整标签和完整音频为训练数据,训练所述音频标签设置模型;
其中,所述通过预先训练得到的音频标签设置模型为所述子音频设置标签包括:
对所述子音频进行分帧;
分别提取每一帧子音频的音频特征;
整合所述每一帧子音频的音频特征,得到音频特征矩阵;
向双向循环神经网络GRU层输入音频特征矩阵,得到第一输出数据;
向子采样层输入所述第一输出数据,进行子采样,得到第二输出数据;
向BN层输入所述第二输出数据,得到第三输出数据;
向最大池化层输入所述第三输出数据,得到第四输出数据;
向全连接+softmax层输入所述第四输出数据,得到子音频对应各标签的概率,选择概率最大的标签作为当前子音频的标签。
8.一种为音频设置标签的设备,其特征在于,包括:
处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序,所述计算机程序至少用于执行权利要求1-6任一项所述的音频标签的设置方法;
所述处理器用于调用并执行所述存储器中的所述计算机程序。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-6任一项所述的音频标签的设置方法中各个步骤。
CN201811030676.XA 2018-09-05 2018-09-05 音频标签的设置方法、装置、设备和存储介质 Active CN109065076B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811030676.XA CN109065076B (zh) 2018-09-05 2018-09-05 音频标签的设置方法、装置、设备和存储介质
PCT/CN2019/100292 WO2020048295A1 (zh) 2018-09-05 2019-08-13 音频标签的设置方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811030676.XA CN109065076B (zh) 2018-09-05 2018-09-05 音频标签的设置方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN109065076A CN109065076A (zh) 2018-12-21
CN109065076B true CN109065076B (zh) 2020-11-27

Family

ID=64759403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811030676.XA Active CN109065076B (zh) 2018-09-05 2018-09-05 音频标签的设置方法、装置、设备和存储介质

Country Status (2)

Country Link
CN (1) CN109065076B (zh)
WO (1) WO2020048295A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065076B (zh) * 2018-09-05 2020-11-27 深圳追一科技有限公司 音频标签的设置方法、装置、设备和存储介质
CN110148402A (zh) * 2019-05-07 2019-08-20 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN114218424B (zh) * 2022-02-22 2022-05-13 杭州一知智能科技有限公司 一种基于wav2vec的语气词插入的语音交互方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286317A (zh) * 2008-05-30 2008-10-15 同济大学 语音识别装置、模型训练方法、及交通信息服务平台
CN101770774A (zh) * 2009-12-31 2010-07-07 吉林大学 基于嵌入式的开集说话人识别方法及其系统
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN106531158A (zh) * 2016-11-30 2017-03-22 北京理工大学 一种应答语音的识别方法及装置
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
JP2003006208A (ja) * 2001-06-20 2003-01-10 Daikin Ind Ltd 音声記録装置および方法、音声再生装置および方法、音声記録再生システムおよび方法
CN103795699A (zh) * 2012-11-01 2014-05-14 腾讯科技(北京)有限公司 一种音频交互方法、装置和系统
US9959270B2 (en) * 2013-01-17 2018-05-01 Speech Morphing Systems, Inc. Method and apparatus to model and transfer the prosody of tags across languages
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US9972339B1 (en) * 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
CN106340309B (zh) * 2016-08-23 2019-11-12 上海索洛信息技术有限公司 一种基于深度学习的狗叫情感识别方法及装置
CN106328121B (zh) * 2016-08-30 2017-06-27 南京理工大学 基于深度置信网络的中国传统乐器分类方法
US20180082607A1 (en) * 2016-09-19 2018-03-22 Michael Everding Interactive Video Captioning Program
CN107886941A (zh) * 2016-09-29 2018-04-06 亿览在线网络技术(北京)有限公司 一种音频标注方法及装置
JP6817431B2 (ja) * 2016-10-28 2021-01-20 グーグル エルエルシーGoogle LLC ニューラルアーキテクチャ検索
CN107452371B (zh) * 2017-05-27 2019-03-05 北京字节跳动网络技术有限公司 一种语音分类模型的构建方法及装置
CN109522254B (zh) * 2017-10-30 2022-04-12 上海寒武纪信息科技有限公司 运算装置及方法
CN108305612B (zh) * 2017-11-21 2020-07-31 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN107945804A (zh) * 2017-12-07 2018-04-20 杭州测质成科技有限公司 基于语音识别的任务管理与量具数据提取系统及其方法
CN108122552B (zh) * 2017-12-15 2021-10-15 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN108053836B (zh) * 2018-01-18 2021-03-23 成都嗨翻屋科技有限公司 一种基于深度学习的音频自动化标注方法
CN108447491B (zh) * 2018-03-19 2021-08-10 成都信达智胜科技有限公司 一种智能语音识别方法
CN109065076B (zh) * 2018-09-05 2020-11-27 深圳追一科技有限公司 音频标签的设置方法、装置、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286317A (zh) * 2008-05-30 2008-10-15 同济大学 语音识别装置、模型训练方法、及交通信息服务平台
CN101770774A (zh) * 2009-12-31 2010-07-07 吉林大学 基于嵌入式的开集说话人识别方法及其系统
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN106531158A (zh) * 2016-11-30 2017-03-22 北京理工大学 一种应答语音的识别方法及装置

Also Published As

Publication number Publication date
CN109065076A (zh) 2018-12-21
WO2020048295A1 (zh) 2020-03-12

Similar Documents

Publication Publication Date Title
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN111968679B (zh) 情感识别方法、装置、电子设备及存储介质
CN110428810B (zh) 一种语音唤醒的识别方法、装置及电子设备
CN109065076B (zh) 音频标签的设置方法、装置、设备和存储介质
JP6541673B2 (ja) モバイル機器におけるリアルタイム音声評価システム及び方法
CN112289323B (zh) 语音数据处理方法、装置、计算机设备和存储介质
CN111081279A (zh) 语音情绪波动分析方法及装置
CN111105785B (zh) 一种文本韵律边界识别的方法及装置
CN108074576A (zh) 审讯场景下的说话人角色分离方法及系统
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和系统
CN110853621B (zh) 语音顺滑方法、装置、电子设备及计算机存储介质
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN108364655B (zh) 语音处理方法、介质、装置和计算设备
US9286913B2 (en) Atmosphere expression word selection system, atmosphere expression word selection method, and program
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
CN113658586B (zh) 语音识别模型的训练方法、语音交互方法及装置
CN112201253B (zh) 文字标记方法、装置、电子设备及计算机可读存储介质
KR20170086233A (ko) 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
CN115063155A (zh) 一种数据标注方法、装置、计算机设备及存储介质
CN115098765A (zh) 基于深度学习的信息推送方法、装置、设备及存储介质
CN113868271A (zh) 智能客服的知识库更新方法、装置、电子设备及存储介质
KR101925248B1 (ko) 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치
CN112466287A (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN117198338B (zh) 一种基于人工智能的对讲机声纹识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant