CN115206342A - 一种数据处理方法、装置、计算机设备及可读存储介质 - Google Patents

一种数据处理方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN115206342A
CN115206342A CN202110396808.6A CN202110396808A CN115206342A CN 115206342 A CN115206342 A CN 115206342A CN 202110396808 A CN202110396808 A CN 202110396808A CN 115206342 A CN115206342 A CN 115206342A
Authority
CN
China
Prior art keywords
sample
audio data
data
audio
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110396808.6A
Other languages
English (en)
Inventor
黄江泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110396808.6A priority Critical patent/CN115206342A/zh
Publication of CN115206342A publication Critical patent/CN115206342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、计算机设备及可读存储介质,涉及人工智能中的语音技术,其中,方法包括:获取目标用户的原始音频数据,采用N种噪声数据分别对该原始音频数据进行加噪处理,得到该N种噪声数据分别对应的样本音频数据;N为正整数;对N个样本音频数据分别进行特征提取,得到该N个样本音频数据分别对应的样本数据特征;获取该原始音频数据对应的分数标签,基于该N个样本音频数据分别对应的样本数据特征与该分数标签训练初始评估模型,生成音频评估模型;该音频评估模型用于预测目标音频数据对应的目标分数。采用本申请实施例,可以扩增数据量,从而提高模型预测的准确度。

Description

一种数据处理方法、装置、计算机设备及可读存储介质
技术领域
本申请涉及人工智能中的语音技术领域,尤其涉及一种数据处理方法、装置、计算机设备及可读存储介质。
背景技术
人工智能已经广泛应用于各种设备中,使得设备具有问答功能及根据用户的回答进行评分等功能。问答评分可以应用于各种评分系统,例如,普通话考试系统、英语口语考试系统以及各种需要进行语言测试的系统等。目前,越来越多的省市将英语口语考试纳入到中考和高考的考试范围,口语考试的重要性也就不言而喻,而如何提高口语考试评分的准确性是亟待解决的问题。
现有技术中一般是使用口语考试对应的数据训练评估模型,使用训练的评估模型对口语考试中待测评的数据进行评分。然而,由于每套口语试题的数据量较少,使得模型训练的过程不充分,导致使用模型进行分数预测的准确度较低,进而对学生的考试成绩造成较大影响。
发明内容
本申请实施例提供一种数据处理方法、装置、计算机设备及可读存储介质,可以扩增数据量,提高模型预测的准确度。
本申请实施例一方面提供一种数据处理方法,包括:
获取目标用户的原始音频数据,采用N种噪声数据分别对该原始音频数据进行加噪处理,得到该N种噪声数据分别对应的样本音频数据;N为正整数;
对N个样本音频数据分别进行特征提取,得到该N个样本音频数据分别对应的样本数据特征;
获取该原始音频数据对应的分数标签,基于该N个样本音频数据分别对应的样本数据特征与该分数标签训练初始评估模型,生成音频评估模型;该音频评估模型用于预测目标音频数据对应的目标分数。
本申请实施例一方面提供一种数据处理装置,包括:
原始数据获取模块,用于获取目标用户的原始音频数据,采用N种噪声数据分别对该原始音频数据进行加噪处理,得到该N种噪声数据分别对应的样本音频数据;N为正整数;
特征提取模块,用于对N个样本音频数据分别进行特征提取,得到该N个样本音频数据分别对应的样本数据特征;
模型生成模块,用于获取该原始音频数据对应的分数标签,基于该N个样本音频数据分别对应的样本数据特征与该分数标签训练初始评估模型,生成音频评估模型;该音频评估模型用于预测目标音频数据对应的目标分数。
可选的,该N个样本音频数据包括样本音频数据i;i为正整数;该特征提取模块,包括:
语音提取单元,用于对该样本音频数据i进行语音特征提取,得到该样本音频数据i对应的样本语音特征;
文本提取单元,用于对该样本音频数据i进行语音转换处理,得到该样本音频数据i对应的样本文本数据,对该样本文本数据进行文本特征提取,得到该样本音频数据i对应的样本文本特征;
特征拼接单元,用于对该样本语音特征与该样本文本特征进行特征拼接,生成该样本音频数据i对应的样本数据特征。
可选的,该语音提取单元具体用于:
获取该样本音频数据i对应的语音流畅度,基于该语音流畅度确定第一语音特征;
获取该样本音频数据i对应的音素序列,基于该样本音频数据i对应的音素序列确定第二语音特征;
获取该样本音频数据i对应的发音准确度,基于该发音准确度确定第三语音特征;
基于该第一语音特征、该第二语音特征及该第三语音特征,确定该样本音频数据i对应的样本语音特征。
可选的,该N个样本音频数据均包括待评测音频数据和参考音频数据,该N个样本音频数据分别对应的样本数据特征包括,待评测音频数据对应的待评测数据特征及参考音频数据对应的参考音频特征;该模型生成模块,包括:
相似度确定单元,用于将该N个样本音频数据分别对应的样本数据特征输入该初始评估模型,基于该初始评估模型确定每个样本音频数据对应的待评测数据特征与参考音频特征之间的音频相似度,根据该音频相似度得到样本预测分数;
模型调整单元,用于基于该分数标签与该样本预测分数之间的差异值,对该初始评估模型进行调整,生成该音频评估模型。
可选的,该装置还包括:
样本划分模块,用于将该N个样本音频数据划分为训练样本数据及验证样本数据;
该模型生成模块,包括:
模型训练单元,用于基于该训练样本数据对该初始评估模型进行训练,生成待检测评估模型;
质量确定单元,用于基于该验证样本数据对该待检测评估模型进行检测,得到该待检测评估模型对应的模型质量;
模型确定单元,用于若该模型质量大于或者等于模型有效阈值,则将该待检测评估模型确定为该音频评估模型。
可选的,该装置还包括模型调整模块,包括:
数据获取单元,用于获取该目标用户针对目标业务产生的目标音频数据;
特征提取单元,用于对该目标音频数据进行特征提取,得到该目标音频数据对应的目标音频特征;
分数确定单元,用于将该目标音频特征输入该音频评估模型,基于该音频评估模型对该目标音频特征进行预测,得到该目标音频特征对应的目标分数;
该分数确定单元,具体用于若该目标分数大于或等于业务合格阈值,则向该目标用户发送业务处理成功信息;
该分数确定单元,具体用于若该目标分数小于该业务合格阈值,则向该目标用户发送业务处理失败信息,该业务处理失败信息用于指示该目标用户在目标时间范围内,重新生成针对目标业务的音频数据。
可选的,该装置还包括模型优化模块,包括:
请求获取单元,用于接收该目标用户针对该目标分数的申诉请求;
请求复核单元,用于基于该申诉请求将该目标分数发送至测评终端进行复核;
模型优化单元,用于接收该测评终端发送的复核结果,基于该复核结果对该音频评估模型进行调整。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使包含该处理器的计算机设备执行上述方法。
本申请实施例一方面提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行上述方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例一方面中的各种可选方式中提供的方法。
本申请实施例中,通过获取目标用户的原始音频数据,采用N种噪声数据分别对原始音频数据进行加噪处理,得到N种噪声数据分别对应的样本音频数据;对N个样本音频数据分别进行特征提取,得到N个样本音频数据分别对应的样本数据特征;获取原始音频数据对应的分数标签,基于N个样本音频数据分别对应的样本数据特征与分数标签训练初始评估模型,生成音频评估模型;音频评估模型用于预测目标音频数据对应的目标分数。由于采用多种噪声数据分别对原始音频数据进行加噪处理,得到多种噪声数据分别对应的样本音频数据,可以扩增用于训练音频评估模型的数据量;因此,使用扩增后的大量样本音频数据对模型进行训练以及预测,可以提高模型预测的准确性,进而提高音频数据评分的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理系统的架构示意图;
图2是本申请实施例提供的一种数据处理方法的应用场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供一种模型训练和预测分数的流程示意图;
图5是本申请实施例提供的另一种数据处理方法的流程示意图;
图6是本申请实施例提供的一种对音频评估模型进行调整的流程示意图;
图7是本申请实施例提供的一种确定数据量的流程示意图;
图8是本申请实施例提供的一种数据处理装置的组成结构示意图;
图9是本申请实施例提供的一种计算机设备的组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
本申请涉及人工智能中的语音技术,利用语音技术对样本音频数据进行特征提取,得到样本音频数据对应的样本数据特征;获取原始音频数据对应的分数标签,基于样本音频数据对应的样本数据特征与分数标签训练初始评估模型,生成音频评估模型,基于音频评估模型预测目标音频数据对应的目标分数。本申请技术方案可以用于对样本音频数据进行预测,得到样本音频数据对应的预测分数的场景中,例如可以用于普通话等级考试、英语口语测试、其他语言测试,或者其他需要进行语言测试的场景中。通过获取目标用户的原始音频数据,采用N种噪声数据分别对原始音频数据进行加噪处理,得到N种噪声数据分别对应的样本音频数据;N为正整数。进一步的,对N个样本音频数据分别进行特征提取,得到N个样本音频数据分别对应的样本数据特征。进一步的,获取原始音频数据对应的分数标签,基于N个样本音频数据分别对应的样本数据特征与分数标签训练初始评估模型,生成音频评估模型;音频评估模型用于预测目标音频数据对应的目标分数。由于采用多种噪声数据分别对原始音频数据进行加噪处理,得到多种噪声数据分别对应的样本音频数据,可以扩增用于训练音频评估模型的数据量;因此,使用扩增后的大量样本音频数据对模型进行训练以及预测,可以提高模型预测的准确性,进而提高音频数据评分的准确性。
请参见图1,图1是本申请实施例提供的一种数据处理系统的网络架构图,如图1所示,计算机设备101可以与目标用户对应的用户终端进行数据交互,用户终端的数量可以为一个或者多个,例如,当用户终端的数量为多个时,用户终端可以包括图1中的用户终端102a、用户终端102b及用户终端102c等。其中,以目标用户对应的用户终端为用户终端102a为例,计算机设备101可以获取用户终端102a发送的原始音频数据,计算机设备101可以采用N种噪声数据分别对原始音频数据进行加噪处理,得到N种噪声数据分别对应的样本音频数据;其中,N为正整数。进一步的,计算机设备101可以对N个样本音频数据分别进行特征提取,得到N个样本音频数据分别对应的样本数据特征。进一步的,计算机设备101可以获取原始音频数据对应的分数标签,基于N个样本音频数据分别对应的样本数据特征与分数标签训练初始评估模型,生成音频评估模型;其中,音频评估模型用于预测目标音频数据对应的目标分数。可选的,计算机设备101还可以将该目标分数发送至用户终端102a,目标用户可以通过该用户终端102a查看到对应的目标分数。
由于采用多种噪声数据分别对原始音频数据进行加噪处理,得到多种噪声数据分别对应的样本音频数据,可以扩增用于训练音频评估模型的数据量;因此,使用扩增后的大量样本音频数据对模型进行训练以及预测,可以提高模型预测的准确性,进而提高音频数据评分的准确性。
可以理解的是,本申请实施例中所提及的计算机设备包括但不限于终端设备或服务器。换句话说,计算机设备或用户终端可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(AugmentedReality/Virtual Reality,AR/VR)设备、头盔显示器、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,MID)等。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
进一步地,请参见图2,图2是本申请实施例提供的一种数据处理方法的应用场景示意图。如图2所示,目标用户对应的用户终端20发送原始音频数据21至计算机设备22,计算机设备22采用N种噪声数据分别对原始音频数据21进行加噪处理,得到N种噪声数据分别对应的样本音频数据23;计算机设备22对样本音频数据23进行特征提取,得到样本音频数据23对应的样本数据特征24,其中,样本数据特征可以包括样本语音特征及样本文本特征。进一步的,计算机设备22获取原始音频数据21对应的分数标签,基于样本音频数据23对应的样本数据特征24与分数标签训练初始评估模型,生成音频评估模型。具体的,计算机设备22可以将样本数据特征24输入初始评估模型得到样本预测分数,基于分数标签与样本预测分数之间的差异值对初始评估模型进行训练,生成音频评估模型。可选的,计算机设备22还可以基于音频评估模型预测目标音频数据对应的目标分数,并发送目标分数至目标用户对应的用户终端20。
进一步地,请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图,该方法可以应用于计算机设备;如图3所示,该方法包括:
S101,获取目标用户的原始音频数据,采用N种噪声数据分别对原始音频数据进行加噪处理,得到N种噪声数据分别对应的样本音频数据。
本申请实施例中,计算机设备可以从目标用户对应的用户终端中获取目标用户的原始音频数据,也可以从存储有多个目标用户的原始音频数据的音频数据库中获取一个或者多个目标用户的原始视频数据。其中,原始音频数据可以是指目标用户针对目标业务产生的音频数据,例如,目标业务可以包括但不限于普通话等级考试、英语口语考试或者其他语言测试对应的业务,则目标音频数据可以是指普通话等级考试对应的音频数据、英语口语考试对应的音频数据或者其他语言测试对应的音频数据等。进一步的,计算机设备可以采用N种噪声数据分别对原始音频数据进行加噪处理,得到N种噪声数据分别对应的样本音频数据。其中,N为正整数。也就是说,若原始音频数据的数量为1,则采用N种噪声数据分别对原始音频数据进行加噪处理后得到的样本音频数据的数量为N;若原始音频数据的数量为M,则采用N种噪声数据分别对原始音频数据进行加噪处理后得到的样本音频数据的数量为N*M,M为正整数。这里,N的取值可以根据具体需求确定,例如,N的取值可以为原始音频数据的数量的倍数,例如可以为原始音频数据的数量的5倍、10倍或者20倍等。例如,原始音频数据的数量为237,N为5,则加噪处理后的样本音频数据的数量为237*(1+5)=1422。
具体实现中,计算机设备在获取原始音频数据之后,可以获取多种不同的噪声数据分别对原始音频数据进行加噪处理,得到的样本音频数据。其中,N种噪声数据可以包括不同噪声类型的噪声数据,包括但不限于高斯噪声数据、常数噪声数据或者其他类型的噪声数据等,或者也可以包括同一类型不同分贝的噪声数据,也就是说,N种噪声数据的噪声类型不完全相同。可选的,计算机设备可以将噪声数据转换为与原始音频数据的信号强度相同的信号,从而将噪声数据与原始音频数据相加,得到加噪处理后的样本音频数据。或者,计算机设备也可以使用其他的加噪方式实现对原始音频数据进行加噪处理,本申请实施例中不做限定。可选的,计算机设备还可以接收音频编码后的原始音频数据,对音频编码后的原始音频数据进行加噪处理,得到样本音频数据。由于音频数据对应的音频特征一般是由多维向量组成,每维向量对应一个元素,音频特征对应的不同元素间存在内在的相关性,本申请实施例直接针对原始音频数据进行加噪处理,即在对音频数据进行特征提取之前进行的加噪处理,因此在后续对加噪处理后的样本音频数据进行特征提取时,不会影响音频特征对应的元素之间的相关性,使得提取到的音频特征可以尽可能多地保留样本音频数据的数据信息,从而提高模型训练的准确性。
可选的,例如在英语口语考试的场景中,可以包括多种题型,例如跟读题型、问答题型、半开放题型,情景提问题型以及图片描述题型等等。以跟读题型为例,计算机设备中播放的语句为“What’s the weather yesterday?”(“昨天天气怎么样?”),考生则需要朗读该语句,考场的录音设备可以对考生朗读该语句的声音进行录制,得到目标用户的原始音频数据。或者,以问答题型为例,计算机设备中播放的提问语句为“What’s the weatheryesterday?”考生则需要基于该提问语句进行回答,例如考生回答的答复语句为“Itrained heavily yesterday”(“昨天下了很大的雨”),则考场的录音设备可以对考生答复“It rained heavily yesterday”的声音进行录制,得到目标用户的原始音频数据,等等。针对不同题型考生做出对应答复,录音设备对考生的答复数据进行录制,得到目标用户的原始音频数据。录音设备可以为计算机设备上的一部分,则当录音设备录制考生语音数据后,计算机设备获取到目标用户的原始音频数据。或者,录音设备也可以为一个独立于计算机设备以外的设备,录音设备通过对用户的语音数据进行录制,发送至计算机设备,则计算机设备获取到目标用户的原始音频数据。
S102,对N个样本音频数据分别进行特征提取,得到N个样本音频数据分别对应的样本数据特征。
本申请实施例中,计算机设备可以对N个样本音频数据中的每个样本音频数据分别进行特征提取,得到N个样本音频数据中的每个样本音频数据对应的样本数据特征。其中,样本数据特征可以包括样本音频特征和样本文本特征,样本音频特征可以是根据样本音频数据确定的,样本文本特征可以是根据样本音频数据对应的样本文本数据确定的。
可选的,N个样本音频数据包括样本音频数据i;i为正整数,即样本音频数据i为N个样本音频数据中的任意一个样本音频数据。计算机设备可以对样本音频数据i进行特征提取,得到样本音频数据i对应的样本数据特征。具体的,计算机设备可以对样本音频数据i进行语音特征提取,得到样本音频数据i对应的样本语音特征;对样本音频数据i进行语音转换处理,得到样本音频数据i对应的样本文本数据,对样本文本数据进行文本特征提取,得到样本音频数据i对应的样本文本特征;对样本语音特征与样本文本特征进行特征拼接,生成样本音频数据i对应的样本数据特征。
具体实现中,计算机设备可以获取样本音频数据i对应的语音流畅度,基于语音流畅度确定第一语音特征;获取样本音频数据i对应的音素序列,基于样本音频数据i对应的音素序列确定第二语音特征;获取样本音频数据i对应的发音准确度,基于发音准确度确定第三语音特征;基于第一语音特征、第二语音特征及第三语音特征,确定样本音频数据i对应的样本语音特征。其中,计算机设备可以根据样本音频数据i中每两个单词之间的停顿时长等确定样本音频数据i的语音流畅度,其中,停顿时长可以根据相邻两个单词之间的上一个单词发音结束到下一个单词开始这段时间之间没有声音的持续时间确定,当该停顿时长大于停顿时长阈值时,表示语音流畅度低;当该停顿时长小于或等于停顿时长阈值时,表示语音流畅度高,通过确定样本音频数据i中单词之间的停顿时长,可以确定样本音频数据i对应的语音流畅度,从而得到第一语音特征。音素序列可以是由样本音频数据i中包括的每个最小语音单元组成,计算机设备可以通过获取样本音频数据i中的每个最小语音单元,将样本音频数据i中包括的最小语音单元组合成序列,得到音素序列。例如,英语中有48个音素,包括元音音素和辅音音素,元音音素包括单元音音素和双元音音素。计算机设备可以根据样本音频数据i中的最小语音单元的发音确定样本音频数据i对应的发音准确度。由此可见,第一语音特征、第二语音特征及第三语音特征是从三个不同的维度对样本音频数据i进行特征提取得到的样本音频数据i对应的样本语音特征。可选的,计算机设备还可以获取样本音频数据i对应的完整度、韵律度等等,基于该完整度以及该韵律度分别获取对应的特征,并结合音频数据i对应的完整度所对应的特征、韵律度对应的特征、第一语音特征、第二语音特征及第三语音特征确定样本音频数据i对应的样本语音特征,从而实现从更多维度对样本音频数据i进行特征提取,使得提取到的特征更完整,进而得到的评分更准确,其中,完整度可以是指样本音频数据i中每个单词的完整程度,韵律度可以是指样本音频数据i中单词的轻音、重音以及连读等等。
具体实现中,计算机设备可以基于自动语音识别技术对样本音频数据i进行语音转换处理,将音频数据转换为文本数据,得到样本音频数据i对应的样本文本数据,或者,计算机设备也可以使用其他的方式实现将样本音频数据转换为样本文本数据,本申请实施例中对此不做限定。计算机设备可以对样本语音特征与样本文本特征进行特征拼接,生成样本音频数据i对应的样本数据特征,或者,计算机设备也可以基于融合算法对样本语音特征与样本文本特征进行融合,生成样本音频数据i对应的样本数据特征,计算机设备还可以使用其他的方式实现对样本语音特征与样本文本特征的特征拼接,本申请实施例中对此不做限定。
S103,获取原始音频数据对应的分数标签,基于N个样本音频数据分别对应的样本数据特征与分数标签训练初始评估模型,生成音频评估模型。
本申请实施例中,计算机设备可以获取原始音频数据对应的分数标签,基于N个样本音频数据分别对应的样本数据特征与分数标签训练初始评估模型,生成音频评估模型。计算机设备还可以基于音频评估模型预测目标音频数据对应的目标分数,从而实现对音频数据的评分。其中,原始音频数据对应的分数标签可以是指专家对原始音频数据进行的评分。
可选的,N个样本音频数据均包括待评测音频数据和参考音频数据,N个样本音频数据分别对应的样本数据特征包括,待评测音频数据对应的待评测数据特征及参考音频数据对应的参考音频特征。其中,待评测音频数据可以是指目标用户对应的音频数据,例如考生考试时针对考题产生的音频数据,参考音频数据可以是指参考答案对应的音频数据,例如可以是由专家使用标准的英语口语对参考答案进行朗读时录制得到的音频数据。获取待评测音频数据对应的待评测数据特征及参考音频数据对应的参考音频特征的方式可以参考前述步骤中获取样本音频数据对应的样本数据特征方式,此处不做过多描述。具体的,计算机设备将该N个样本音频数据分别对应的样本数据特征输入初始评估模型,基于初始评估模型确定每个样本音频数据对应的待评测数据特征与参考音频特征之间的音频相似度,根据音频相似度得到样本预测分数;基于分数标签与样本预测分数之间的差异值,对初始评估模型进行调整,生成音频评估模型。
具体实现中,计算机设备可以获取该N个样本音频数据中样本音频数据i对应的样本数据特征,将该样本音频数据i对应的样本数据特征输入初始评估模型,基于初始评估模型确定样本音频数据i对应的待评测数据特征与参考音频特征之间的音频相似度,根据音频相似度得到样本预测分数。可选的,计算机设备可以分别获取待评测数据特征对应的特征向量,以及与参考音频特征对应的特征向量,计算待评测数据特征对应的特征向量与参考音频特征对应的特征向量之间的音频相似度,音频相似度越高,表示待评测数据特征与参考音频特征之间的相似度越高;音频相似度越低,表示待评测数据特征与参考音频特征之间的相似度越低,从而可以根据待评测数据特征与参考音频特征之间的音频相似度确定样本预测分数。例如,音频相似度越高,对应的样本预测分数越高,音频相似度越低,对应的样本预测分数越低。计算机设备根据分数标签与样本预测分数之间的差异值,对初始评估模型进行调整,生成音频评估模型。分数标签与样本预测分数之间的差异值可以是指分数标签与样本预测分数之间的绝对差值。可选的,分数标签对应的分数值与样本预测分数越接近,则表示基于该初始评估模型进行评分的准确度越高,则可以对此时的初始评估模型进行保存,得到音频评估模型。分数标签对应的分数值与样本预测分数之间的差异值越大,则表示基于该初始评估模型进行评分的准确度越低,因此继续对此时的初始评估模型进行调整,调整初始评估模型中的参数,以提高模型的准确度。
上述过程中是针对N个样本音频数据中的样本音频数据i进行的处理,针对N个样本音频数据中的其他样本音频数据的处理方式可以参考该样本音频数据i的处理方式,从而得到N个样本音频数据中每个样本音频数据对应的样本预测分数,再根据每个样本音频数据对应的样本预测分数与每个样本音频数据对应的分数标签之间的差异值,对初始评估模型进行调整,生成音频评估模型。
可选的,计算机设备可以将N个样本音频数据划分为训练样本数据和验证样本数据,再基于训练样本数据对训练初始评估模型进行训练,以及基于验证样本数据对训练初始评估模型进行验证,得到音频评估模型。具体的,计算机设备将N个样本音频数据划分为训练样本数据及验证样本数据;基于训练样本数据对初始评估模型进行训练,生成待检测评估模型;基于验证样本数据对待检测评估模型进行检测,得到待检测评估模型对应的模型质量;若模型质量大于或者等于模型有效阈值,则将待检测评估模型确定为音频评估模型。其中,训练样本数据与验证样本数据之间的比值可以根据需求确定,例如在对模型的精度要求较高的情况下,可以增加训练样本数据的数量等,此处不做限定。待检测评估模型对应的模型质量用于指示模型的准确度,当模型质量大于或者等于模型有效阈值时,表示模型的准确度较高,可以用于正常使用,因此可以将待检测评估模型确定为音频评估模型。当模型质量小于模型有效阈值时,表示模型的准确度较低,使用此时的模型会导致模型预测不准确,因此可以继续对初始评估模型进行训练,调整初始评估模型中的参数,使得生成的待检测评估模型对应的模型质量大于模型有效阈值,从而提高模型预测的准确性。
由于在模型训练过程中,为了评估模型训练效果和防止过拟合,通常会划分训练集(训练样本数据)和验证集(验证样本数据)。由于在进行数据扩增之前可用的训练集数据太少,为了保证模型训练效果,验证集的比例会很小,以增加训练集的数据量;但验证集过小,可能会导致模型验证不充分,在一个不稳定的状态上就结束了训练过程。因此使用本申请中的技术方案对原始音频数据进行数据增强后,得到的数据数量增多,因此用于模型训练的数据数量大大增加,通过增加验证集的比例,可以使得模型收敛到较准确的状态,从而使用模型进行分数预测时,可以提高预测准确性。
可选的,参见图4,图4是本申请实施例提供一种模型训练和预测分数的流程示意图,如图4所示,该方法包括:
S201,获取样本音频数据、参考文本数据以及分数标签。
其中,分数标签可以是根据专家针对该样本音频数据进行评分得到的。
S202,对样本音频数据和参考文本数据进行特征提取,得到样本音频数据对应的样本数据特征。
S203,将样本数据特征和分数标签输入初始评估模型进行训练,生成音频评估模型。
S204,获取待评测音频数据和参考文本数据,将待评测音频数据和参考文本数据输入音频评估模型进行预测,输出目标分数。
可选的,模型训练和模型预测分数的过程可以由不同的计算机设备分别实现,或者,也可以使用同一个计算机设备实现,本申请实施例中不做限定。通过使用样本音频数据对应的样本数据特征和分数标签输入初始评估模型进行训练,生成音频评估模型,通过对模型进行训练,可以提高模型预测的准确性,在后续使用音频评估模型对音频数据进行分数预测的过程中,可以提高评分效率。
本申请实施例中,通过获取目标用户的原始音频数据,采用N种噪声数据分别对原始音频数据进行加噪处理,得到N种噪声数据分别对应的样本音频数据;对N个样本音频数据分别进行特征提取,得到N个样本音频数据分别对应的样本数据特征;获取原始音频数据对应的分数标签,基于N个样本音频数据分别对应的样本数据特征与分数标签训练初始评估模型,生成音频评估模型;音频评估模型用于预测目标音频数据对应的目标分数。由于采用多种噪声数据分别对原始音频数据进行加噪处理,得到多种噪声数据分别对应的样本音频数据,可以扩增用于训练音频评估模型的数据量;因此,使用扩增后的大量样本音频数据对模型进行训练以及预测,可以提高模型预测的准确性,进而提高音频数据评分的准确性。
可选的,在训练得到音频评估模型后,可以将该音频评估模型应用于具体的应用场景中,请参见图5,图5是本申请实施例提供的另一种数据处理方法的流程示意图。该方法可以应用于计算机设备;如图5所示,该方法包括:
S301,获取目标用户针对目标业务产生的目标音频数据。
本申请实施例中,音频评估模型可以应用于多种需要进行语音测试的场景中,包括但不限于普通话等级考试、英语口语测试或者问答系统中,等等。对应的,目标业务可以是指普通话等级考试业务、英语口语测试业务或者问答系统对应的业务,等等。计算机设备获取目标用户针对目标业务产生的目标音频数据。目标用户可以是指需要进行目标业务的用户,目标音频数据是指目标用户办理目标业务时的音频数据,例如英语口语测试中,目标音频数据为对目标用户回答计算机设备的提问而回复的语音进行录制得到的音频数据。可选的,计算机设备可以获取目标音频数据对应的参考文本数据。
S302,对目标音频数据进行特征提取,得到目标音频数据对应的目标音频特征。
本申请实施例中,步骤S302的具体实现方式可参考图3对应的实施例中步骤S101中对样本音频数据进行特征提取,得到样本音频数据对应的样本数据特征的描述,此处不再赘述。可选的,计算机设备还可以对目标音频数据对应的参考文本数据进行特征提取,得到目标音频数据对应的参考音频特征,具体特征提取方式可参考对样本音频数据进行特征提取,得到样本音频数据对应的样本数据特征的描述,此处不再赘述。可选的,计算机设备也可以将目标音频数据输入音频评估模型,基于音频评估模型对目标音频数据进行特征提取,得到目标音频数据对应的目标音频特征。
S303,将目标音频特征输入音频评估模型,基于音频评估模型对目标音频特征进行预测,得到目标音频特征对应的目标分数。
本申请实施例中,计算机设备可以将目标音频特征和目标音频数据对应的参考音频特征输入音频评估模型,基于音频评估模型对目标音频特征和目标音频数据对应的参考音频特征进行预测,得到目标音频特征对应的目标分数。具体的,计算机设备可以基于音频评估模型确定目标音频特征和目标音频数据对应的参考音频特征之间的音频相似度,根据该音频相似度得到目标音频特征对应的目标分数。
S304,若目标分数大于或等于业务合格阈值,则向目标用户发送业务处理成功信息。
本申请实施例中,业务合格阈值可以根据具体情况确定,例如在某些英语口语测试中,口语分数低于81算不及格,则业务合格阈值可以为81。可选的,业务合格阈值也可以用等级表示,则计算机设备也可以根据目标分数确定目标分数对应的等级,当目标分数对应的等级大于业务合格阈值对应的等级时,表示目标用户的业务处理成功,例如在考试的场景中,则表示目标用户分数及格,向目标用户发送业务处理成功信息。可选的,计算机设备也可以对目标音频数据中的低分音频数据对应的文本数据进行标注得到分数解析数据,或者高分音频数据对应的文本数据进行标注得到分数解析数据,并将标注后的分数解析数据发送至目标用户,从而使得目标用户可以基于分数解析数据对目标音频数据进行改进。
S305,若目标分数小于业务合格阈值,则向目标用户发送业务处理失败信息。
本申请实施例中,若目标分数小于业务合格阈值,表示目标用户的业务处理失败,例如在考试的场景中,则表示目标用户分数不及格,则向目标用户发送业务处理失败信息。业务处理失败信息用于指示目标用户在目标时间范围内,重新生成针对目标业务的音频数据。例如,业务处理失败信息可以包括“您的分数不及格,请在XX时间段内进行补考”。
本申请实施例中,通过对目标用户的目标音频数据进行预测,并将预测得到的目标分数发送至目标用户进行查看,以便于目标用户了解自身的不足,便于后续对目标音频数据进行提高。
可选的,在使用音频评估模型进行分数预测的过程中,还可以根据用户反馈对音频评估模型进行调整,以提高音频评估模型的准确性,请参见图6,图6是本申请实施例提供的一种对音频评估模型进行调整的流程示意图。该方法可以应用于计算机设备;如图6所示,该方法包括:
S401,获取目标用户的原始音频数据,采用N种噪声数据分别对原始音频数据进行加噪处理,得到N种噪声数据分别对应的样本音频数据。
S402,对N个样本音频数据分别进行特征提取,得到N个样本音频数据分别对应的样本数据特征。
S403,获取原始音频数据对应的分数标签,基于N个样本音频数据分别对应的样本数据特征与分数标签训练初始评估模型,生成音频评估模型,基于音频评估模型对目标用户的目标音频数据进行预测,得到目标分数并发送至目标用户。
本申请实施例中,步骤S401~S403的具体实现方式可参考图3对应的实施例中步骤S101~S103中的描述,以及参考图5对应的实施例中步骤S303基于音频评估模型对目标用户的目标音频数据进行预测,得到目标分数的描述,此处不再赘述。
S404,接收目标用户针对目标分数的申诉请求。
本申请实施例中,目标用户可以基于用户终端接收到计算机设备发送的目标分数,若目标用户觉得该目标分数异常,如目标分数远低于目标用户平时的模拟分数,则目标用户可以基于用户终端发送针对目标分数的申诉请求进行申诉。
S405,基于申诉请求将目标分数发送至测评终端进行复核。
本申请实施例中,计算机设备在接收到目标用户发送的申诉请求时,可以基于申诉请求将目标分数发送至测评终端进行复核。测评终端可以是指权威机构对应的终端,可以通过测评终端对目标用户的目标音频数据进行特征提取,从而进行复核,得到复核结果;或者,专家可以通过测评终端获取目标用户的目标音频数据,对目标音频数据进行复核,得到复核结果。复核结果可以用于指示目标分数有误或者目标分数无误。例如,对目标音频数据进行复核,得到的分数与目标分数之差小于或等于分数有效阈值,则复核结果指示目标分数无误;若对目标音频数据进行复核,得到的分数与目标分数之差大于分数有效阈值,则复核结果指示目标分数有误。
S406,接收测评终端发送的复核结果,基于复核结果对音频评估模型进行调整。
本申请实施例中,计算机设备接收测评终端发送的复核结果,基于复核结果对音频评估模型进行调整。若复核结果表示目标分数无误,则表示音频评估模型的准确度较高;若复核结果表示目标分数有误,则表示音频评估模型的准确度较低,则对音频评估模型进行调整,提高模型预测的准确度。
本申请实施例中,在使用音频评估模型进行分数预测的过程中,若接收到针对用户的申诉请求,则基于申诉请求对目标分数进行复核,并基于复核结果对音频评估模型进行调整,实现对音频评估模型的优化,可以提高模型预测的准确度。
可选的,参见图7,图7是本申请实施例提供的一种确定数据量的流程示意图,该方法可以应用于计算机设备;如图7所示,该方法包括:
S501,获取目标用户的原始音频数据。
S502,对原始音频数据进行加噪处理,得到样本音频数据。
S503,对样本音频数据进行特征提取,得到样本音频数据对应的样本语音特征和样本文本特征。
S504,对样本语音特征和样本文本特征进行特征拼接,得到样本音频数据对应的样本数据特征,样本音频数据的数量+1。
S505,确定样本音频数据的数量是否等于目标数量阈值。
若是,执行步骤S506;若否,执行步骤S502。目标数量阈值可以根据具体情况确定,例如,目标数量阈值可以为原始音频数据的数量的倍数,例如可以为原始音频数据的数量的5倍、10倍或者20倍等。
S506,结束对样本音频数据进行特征提取的步骤,基于样本音频数据训练初始评估模型,生成音频评估模型。
本申请实施例中,通过对原始音频数据进行加噪,可增加模型训练的数据量。
可选的,本申请实施例中提供了三种音频数据对应的特征,包括直接提取原始音频数据的特征;现有技术增强后的特征,即对原始音频数据进行特征提取后,再对提取到的特征中增加噪声后得到的增强特征;以及本申请增强后的特征,即使用本申请实施例中的方案得到的增强特征,三种特征如下:
原始音频的特征:
(01)1.00,0.00,2.33,1.67,3.00,0.00,3.00,0.00,0.00,1.00,
(02)1.00,0.00,2.00,2.00,0.00,0.00,0.00,3.00,0.00,1.00,
(03)2.00,0.00,0.00,0.00,2.00,2.00,2.00,1.00,2.00,2.67,
(04)0.00,0.00,2.00,0.00,2.00,2.00,0.00,3.00,2.00,0.06,
(05)0.00,0.09,0.09,0.03,0.00,0.03,0.00,0.00,0.03,0.03,
(06)0.00,0.03,0.03,0.00,0.00,0.00,0.09,0.00,0.03,0.03,
(07)0.00,0.00,0.00,0.03,0.03,0.03,0.03,0.03,0.09,0.00,
(08)0.00,0.06,0.00,0.03,0.03,0.00,0.03,0.03,0.00,0.40,
(09)0.07,0.00,1.00,0.00,1.00,0.68,1.00,0.82,0.81,0.00,
(10)0.00,0.00,0.00,0.00,1.00,0.00,1.00,1.00,0.00,0.00,
(11)0.00,0.00,1.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,
(12)0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,
(13)0.00,0.00,1.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,
(14)0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,
(15)0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,
(16)0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,
(17)0.00,0.00,4.00,0.00,1.00,0.00,0.00,0.00,0.00,0.00,
(18)0.00,0.00,0.00,0.00,0.00,0.00,0.00,4.00,0.00,0.00,
(19)0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,
(20)0.00,1.00,1.00,2.00,4.00,1.00,1.00,1.00,4.00,0.00,
(21)1.00,0.00,4.00,0.00,9.00,0.00,4.00,0.00,9.00,0.00,
(22)0.00,9.00,0.00,0.00,0.00,1.00,0.00,0.00,0.00,0.00,
(23)4.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,
(24)0.00,
现有技术增强后的特征:
(01)0.92,0.13,2.28,1.53,3.12,-0.05,3.06,-0.10,-0.11,1.02,
……
(09)0.16,0.08,0.95,0.03,1.04,0.67,1.13,0.68,0.95,0.04,
(10)-0.09,0.03,0.10,-0.12,0.99,-0.10,0.83,0.94,0.00,-0.06,
……
本申请增强后的特征:
(01)1.00,0.00,2.33,2.00,3.00,0.00,3.00,0.00,0.00,1.00,
……
(09)0.07,0.00,1.00,0.00,1.00,0.71,1.00,0.81,0.81,0.00,
(10)0.00,0.00,0.00,0.00,1.00,0.00,2.00,1.00,0.00,0.00,
……
可以看出,现有技术中的方案,会使得原始音频特征中的每个元素都增加噪声,没有考虑到原始音频特征中的每个元素之间的内在相关性,而本申请中的技术方案,只改变了如(1)中的部分语音特征和如(9)(10)中与原始音频特征相关的语音特征和文本特征,考虑到了原始音频特征中的每个元素之间的内在相关性,因此使用该种方式扩增得到的数据进行模型训练,可以提高模型的准确性。
可选的,针对英语口语测试的应用场景中,英语口语测试题型的评价指标通常包括一致率和可接受度等,一致率是指智能阅卷系统机器评分和人工评分完全一致的比例,可接受度是指机器评分和人工评分差距在一个评分档内的比例。对应的,本申请实施例中提供了一种分别使用原始音频数据、使用现有技术的方法增强后的音频数据、以及使用本申请增强后的音频数据进行模型训练的效果对比表,如表1所示:
表1效果对比表
Figure BDA0003018868320000191
从表1中可以看出,本申请增强后的音频数据对应的一致率提升了1个点,超过90%;可接受度提升0.88个点,超过96%。由于原始音频数据的效果已经较好,因此本申请中实现1个点的效果提升,非常突出,对应的分数预测准确度也相应提升。
上面介绍了本申请实施例的方法,下面介绍本申请实施例的装置。
参见图8,图8是本申请实施例提供的一种数据处理装置的组成结构示意图,上述一种视频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该一种数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。该装置80包括:
原始数据获取模块81,用于获取目标用户的原始音频数据,采用N种噪声数据分别对该原始音频数据进行加噪处理,得到该N种噪声数据分别对应的样本音频数据;N为正整数;
特征提取模块82,用于对N个样本音频数据分别进行特征提取,得到该N个样本音频数据分别对应的样本数据特征;
模型生成模块83,用于获取该原始音频数据对应的分数标签,基于该N个样本音频数据分别对应的样本数据特征与该分数标签训练初始评估模型,生成音频评估模型;该音频评估模型用于预测目标音频数据对应的目标分数。
可选的,该N个样本音频数据包括样本音频数据i;i为正整数;该特征提取模块82,包括:
语音提取单元821,用于对该样本音频数据i进行语音特征提取,得到该样本音频数据i对应的样本语音特征;
文本提取单元822,用于对该样本音频数据i进行语音转换处理,得到该样本音频数据i对应的样本文本数据,对该样本文本数据进行文本特征提取,得到该样本音频数据i对应的样本文本特征;
特征拼接单元823,用于对该样本语音特征与该样本文本特征进行特征拼接,生成该样本音频数据i对应的样本数据特征。
可选的,该语音提取单元821具体用于:
获取该样本音频数据i对应的语音流畅度,基于该语音流畅度确定第一语音特征;
获取该样本音频数据i对应的音素序列,基于该样本音频数据i对应的音素序列确定第二语音特征;
获取该样本音频数据i对应的发音准确度,基于该发音准确度确定第三语音特征;
基于该第一语音特征、该第二语音特征及该第三语音特征,确定该样本音频数据i对应的样本语音特征。
可选的,该N个样本音频数据均包括待评测音频数据和参考音频数据,该N个样本音频数据分别对应的样本数据特征包括,待评测音频数据对应的待评测数据特征及参考音频数据对应的参考音频特征;该模型生成模块83,包括:
相似度确定单元831,用于将该N个样本音频数据分别对应的样本数据特征输入该初始评估模型,基于该初始评估模型确定每个样本音频数据对应的待评测数据特征与参考音频特征之间的音频相似度,根据该音频相似度得到样本预测分数;
模型调整单元832,用于基于该分数标签与该样本预测分数之间的差异值,对该初始评估模型进行调整,生成该音频评估模型。
可选的,该装置80还包括:
样本划分模块84,用于将该N个样本音频数据划分为训练样本数据及验证样本数据;
该模型生成模块83,包括:
模型训练单元833,用于基于该训练样本数据对该初始评估模型进行训练,生成待检测评估模型;
质量确定单元834,用于基于该验证样本数据对该待检测评估模型进行检测,得到该待检测评估模型对应的模型质量;
模型确定单元835,用于若该模型质量大于或者等于模型有效阈值,则将该待检测评估模型确定为该音频评估模型。
可选的,该装置80还包括模型调整模块85,包括:
数据获取单元851,用于获取该目标用户针对目标业务产生的目标音频数据;
特征提取单元852,用于对该目标音频数据进行特征提取,得到该目标音频数据对应的目标音频特征;
分数确定单元853,用于将该目标音频特征输入该音频评估模型,基于该音频评估模型对该目标音频特征进行预测,得到该目标音频特征对应的目标分数;
该分数确定单元853,具体用于若该目标分数大于或等于业务合格阈值,则向该目标用户发送业务处理成功信息;
该分数确定单元853,具体用于若该目标分数小于该业务合格阈值,则向该目标用户发送业务处理失败信息,该业务处理失败信息用于指示该目标用户在目标时间范围内,重新生成针对目标业务的音频数据。
可选的,该装置80还包括模型优化模块86,包括:
请求获取单元861,用于接收该目标用户针对该目标分数的申诉请求;
请求复核单元862,用于基于该申诉请求将该目标分数发送至测评终端进行复核;
模型优化单元863,用于接收该测评终端发送的复核结果,基于该复核结果对该音频评估模型进行调整。
需要说明的是,图8对应的实施例中未提及的内容可参见方法实施例的描述,这里不再赘述。
本申请实施例中,通过获取目标用户的原始音频数据,采用N种噪声数据分别对原始音频数据进行加噪处理,得到N种噪声数据分别对应的样本音频数据;对N个样本音频数据分别进行特征提取,得到N个样本音频数据分别对应的样本数据特征;获取原始音频数据对应的分数标签,基于N个样本音频数据分别对应的样本数据特征与分数标签训练初始评估模型,生成音频评估模型;音频评估模型用于预测目标音频数据对应的目标分数。由于采用多种噪声数据分别对原始音频数据进行加噪处理,得到多种噪声数据分别对应的样本音频数据,可以扩增用于训练音频评估模型的数据量;因此,使用扩增后的大量样本音频数据对模型进行训练以及预测,可以提高模型预测的准确性,进而提高音频数据评分的准确性。
参见图9,图9是本申请实施例提供的一种计算机设备的组成结构示意图。如图9所示,上述计算机设备90可以包括:处理器901,网络接口904和存储器905,此外,上述计算机设备90还可以包括:用户接口903,和至少一个通信总线902。其中,通信总线902用于实现这些组件之间的连接通信。其中,用户接口903可以包括显示屏(Display)、键盘(Keyboard),可选用户接口903还可以包括标准的有线接口、无线接口。网络接口904可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器905可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器905可选的还可以是至少一个位于远离前述处理器901的存储装置。如图9所示,作为一种计算机可读存储介质的存储器905中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图9所示的计算机设备90中,网络接口904可提供网络通讯功能;而用户接口903主要用于为用户提供输入的接口;而处理器901可以用于调用存储器905中存储的设备控制应用程序,以实现:
获取目标用户的原始音频数据,采用N种噪声数据分别对该原始音频数据进行加噪处理,得到该N种噪声数据分别对应的样本音频数据;N为正整数;
对N个样本音频数据分别进行特征提取,得到该N个样本音频数据分别对应的样本数据特征;
获取该原始音频数据对应的分数标签,基于该N个样本音频数据分别对应的样本数据特征与该分数标签训练初始评估模型,生成音频评估模型;该音频评估模型用于预测目标音频数据对应的目标分数。
在一些可行的实施方式中,该处理器901可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器905可以包括只读存储器和随机存取存储器,并向处理器901和网络接口904提供指令和数据。该存储器905的一部分还可以包括非易失性随机存取存储器。例如,存储器905还可以存储设备类型的信息。
具体实现中,该计算机设备可通过其内置的各个功能模块执行如前述方法实施例中各个步骤所提供的实现方式,具体可参见前述方法实施例中各个步骤所提供的实现方式,在此不再赘述。
本申请实施例通过提供一种计算机设备,包括:处理器、存储器以及网络接口,通过处理器获取存储器中的计算机指令,执行该信息处理方法的各个步骤,进行信息处理操作。本申请实施例中,由于采用多种噪声数据分别对原始音频数据进行加噪处理,得到多种噪声数据分别对应的样本音频数据,可以扩增用于训练音频评估模型的数据量;因此,使用扩增后的大量样本音频数据对模型进行训练以及预测,可以提高模型预测的准确性,进而提高音频数据评分的准确性。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,当该程序指令被该处理器执行时,可以实现前述方法实施例中各个步骤所提供的信息处理方法,具体可参见前述方法实施例中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
该计算机可读存储介质可以是前述任一实施例提供的信息处理装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述方法实施例中的各种可选方式中所提供的方法,实现了由于采用多种噪声数据分别对原始音频数据进行加噪处理,得到多种噪声数据分别对应的样本音频数据,可以扩增用于训练音频评估模型的数据量;因此,使用扩增后的大量样本音频数据对模型进行训练以及预测,可以提高模型预测的准确性,进而提高音频数据评分的准确性。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取目标用户的原始音频数据,采用N种噪声数据分别对所述原始音频数据进行加噪处理,得到所述N种噪声数据分别对应的样本音频数据;N为正整数;
对N个样本音频数据分别进行特征提取,得到所述N个样本音频数据分别对应的样本数据特征;
获取所述原始音频数据对应的分数标签,基于所述N个样本音频数据分别对应的样本数据特征与所述分数标签训练初始评估模型,生成音频评估模型;所述音频评估模型用于预测目标音频数据对应的目标分数。
2.根据权利要求1所述的方法,其特征在于,所述N个样本音频数据包括样本音频数据i;i为正整数;
所述对N个样本音频数据分别进行特征提取,得到所述N个样本音频数据分别对应的样本数据特征,包括:
对所述样本音频数据i进行语音特征提取,得到所述样本音频数据i对应的样本语音特征;
对所述样本音频数据i进行语音转换处理,得到所述样本音频数据i对应的样本文本数据,对所述样本文本数据进行文本特征提取,得到所述样本音频数据i对应的样本文本特征;
对所述样本语音特征与所述样本文本特征进行特征拼接,生成所述样本音频数据i对应的样本数据特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述样本音频数据i进行语音特征提取,得到所述样本音频数据i对应的样本语音特征,包括:
获取所述样本音频数据i对应的语音流畅度,基于所述语音流畅度确定第一语音特征;
获取所述样本音频数据i对应的音素序列,基于所述样本音频数据i对应的音素序列确定第二语音特征;
获取所述样本音频数据i对应的发音准确度,基于所述发音准确度确定第三语音特征;
基于所述第一语音特征、所述第二语音特征及所述第三语音特征,确定所述样本音频数据i对应的样本语音特征。
4.根据权利要求1所述的方法,其特征在于,所述N个样本音频数据均包括待评测音频数据和参考音频数据,所述N个样本音频数据分别对应的样本数据特征包括,待评测音频数据对应的待评测数据特征及参考音频数据对应的参考音频特征;
所述基于所述N个样本音频数据分别对应的样本数据特征与所述分数标签训练初始评估模型,生成音频评估模型,包括:
将所述N个样本音频数据分别对应的样本数据特征输入所述初始评估模型,基于所述初始评估模型确定每个样本音频数据对应的待评测数据特征与参考音频特征之间的音频相似度,根据所述音频相似度得到样本预测分数;
基于所述分数标签与所述样本预测分数之间的差异值,对所述初始评估模型进行调整,生成所述音频评估模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述N个样本音频数据划分为训练样本数据及验证样本数据;
所述基于所述N个样本音频数据分别对应的样本数据特征与所述分数标签训练初始评估模型,生成音频评估模型,包括:
基于所述训练样本数据对所述初始评估模型进行训练,生成待检测评估模型;
基于所述验证样本数据对所述待检测评估模型进行检测,得到所述待检测评估模型对应的模型质量;
若所述模型质量大于或者等于模型有效阈值,则将所述待检测评估模型确定为所述音频评估模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标用户针对目标业务产生的目标音频数据;
对所述目标音频数据进行特征提取,得到所述目标音频数据对应的目标音频特征;
将所述目标音频特征输入所述音频评估模型,基于所述音频评估模型对所述目标音频特征进行预测,得到所述目标音频特征对应的目标分数;
若所述目标分数大于或等于业务合格阈值,则向所述目标用户发送业务处理成功信息;
若所述目标分数小于所述业务合格阈值,则向所述目标用户发送业务处理失败信息,所述业务处理失败信息用于指示所述目标用户在目标时间范围内,重新生成针对目标业务的音频数据。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述目标用户针对所述目标分数的申诉请求;
基于所述申诉请求将所述目标分数发送至测评终端进行复核;
接收所述测评终端发送的复核结果,基于所述复核结果对所述音频评估模型进行调整。
8.一种数据处理装置,其特征在于,包括:
原始数据获取模块,用于获取目标用户的原始音频数据,采用N种噪声数据分别对所述原始音频数据进行加噪处理,得到所述N种噪声数据分别对应的样本音频数据;N为正整数;
特征提取模块,用于对N个样本音频数据分别进行特征提取,得到所述N个样本音频数据分别对应的样本数据特征;
模型生成模块,用于获取所述原始音频数据对应的分数标签,基于所述N个样本音频数据分别对应的样本数据特征与所述分数标签训练初始评估模型,生成音频评估模型;所述音频评估模型用于预测目标音频数据对应的目标分数。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以使得所述计算机设备执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-7任一项所述的方法。
CN202110396808.6A 2021-04-13 2021-04-13 一种数据处理方法、装置、计算机设备及可读存储介质 Pending CN115206342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110396808.6A CN115206342A (zh) 2021-04-13 2021-04-13 一种数据处理方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110396808.6A CN115206342A (zh) 2021-04-13 2021-04-13 一种数据处理方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115206342A true CN115206342A (zh) 2022-10-18

Family

ID=83570436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110396808.6A Pending CN115206342A (zh) 2021-04-13 2021-04-13 一种数据处理方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115206342A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798518A (zh) * 2023-01-05 2023-03-14 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798518A (zh) * 2023-01-05 2023-03-14 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备及介质
CN115798518B (zh) * 2023-01-05 2023-04-07 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN104731767B (zh) 交流支援装置以及交流支援方法
CN112735373A (zh) 语音合成方法、装置、设备及存储介质
CN112863489B (zh) 语音识别方法、装置、设备及介质
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
CN113299312A (zh) 一种图像生成方法、装置、设备以及存储介质
CN114328817A (zh) 一种文本处理方法和装置
CN110503941B (zh) 语言能力评测方法、装置、系统、计算机设备及存储介质
CN108831503B (zh) 一种口语评测方法及装置
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN115206342A (zh) 一种数据处理方法、装置、计算机设备及可读存储介质
CN111798871B (zh) 会话环节识别方法、装置及设备、存储介质
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN113053409B (zh) 音频测评方法及装置
CN112185186B (zh) 一种发音纠正方法、装置、电子设备及存储介质
CN111160051B (zh) 数据处理方法、装置、电子设备及存储介质
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
CN113221514A (zh) 文本处理方法、装置、电子设备和存储介质
CN112951274A (zh) 语音相似度确定方法及设备、程序产品
CN111785280A (zh) 身份认证方法和装置、存储介质和电子设备
CN111445925A (zh) 用于生成差异信息的方法和装置
CN112307748A (zh) 用于处理文本的方法和装置
KR20200071996A (ko) 학습 단말기와 서버를 이용한 언어 학습 방법
KR20200011160A (ko) 음성 인식 기술을 이용한 지능형 끝말잇기 단어 학습 방법
CN113255361B (zh) 语音内容的自动检测方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination