CN112395456B - 音频数据分类方法、训练方法及装置、介质、计算机设备 - Google Patents
音频数据分类方法、训练方法及装置、介质、计算机设备 Download PDFInfo
- Publication number
- CN112395456B CN112395456B CN202110076034.9A CN202110076034A CN112395456B CN 112395456 B CN112395456 B CN 112395456B CN 202110076034 A CN202110076034 A CN 202110076034A CN 112395456 B CN112395456 B CN 112395456B
- Authority
- CN
- China
- Prior art keywords
- data
- audio
- text
- feature
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供音频数据分类方法、训练方法及装置、介质、计算机设备。其中所述方法包括:确定与音频数据对应的文本特征数据;基于所述音频数据确定所述文本特征数据中各特征的权重,利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;结合所述加权文本特征数据对所述音频数据进行分类。本申请实施例中的技术方案可以提升音频数据分类的准确性。
Description
技术领域
本申请实施例涉及数据处理领域,具体涉及音频数据分类方法、训练方法及装置、介质、计算机设备。
背景技术
随着数据处理技术的发展,对音频数据进行分类成为一类广泛的技术应用。
一种对音频数据进行分类的方式是,将音频数据转换成文本内容,根据文本内容对音频数据进行分类。但是,该种分类方式的准确度有待提高。
如何提升音频数据分类的准确性称为亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例中提供一种音频数据分类方法,包括:
确定与音频数据对应的文本特征数据;
基于所述音频数据确定所述文本特征数据中各特征的权重,利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
结合所述加权文本特征数据对所述音频数据进行分类。
可选的,所述确定与所述音频数据对应的文本特征数据包括:
转录所述音频数据为文本;
调整所述文本的长度为预设长度的标准长度文本;
提取所述标准长度文本的特征,得到所述文本特征数据。
可选的,基于所述音频数据确定所述文本特征数据中特征的权重包括:
对所述音频数据进行归一化处理;
基于归一化处理后的音频数据,确定所述文本特征数据中特征的权重。
可选的,所述基于所述音频数据确定所述文本特征数据中特征的权重包括:
基于所述音频数据确定音频特征数据;
对所述音频特征数据进行降维处理,得到与所述文本特征数中特征对应的权重。
可选的,所述基于所述音频数据确定所述文本特征数据中特征的权重包括:
基于所述音频数据确定所述文本特征数据中特征的初步权重;
对所述初步权重进行归一化处理,得到所述文本特征数据中特征的权重。
可选的,所述基于所述音频数据确定所述文本特征数据中特征的权重包括:
基于所述音频数据得到音频特征数据;
对所述文本特征数据中每个字符的字符特征数据进行扩维处理,得到扩维字符特征数据,所述扩维处理基于所述音频特征数据的维度;
计算所述音频特征数据与所述扩维字符特征数据的内积以进行降维处理,得到混合降维数据,所述混合降维数据与所述字符特征数据维度相同;
计算所述混合降维数据与所述字符特征数据的内积,根据所述内积得到所述字符特征数据对应的权重。
可选的,计算所述混合降维数据与所述字符特征数据的内积,根据所述内积得到所述字符特征数据对应的权重包括:
计算所述文本特征数据中各个字符特征数据对应的所述内积;
对所述内积进行归一化处理,各个字符特征数据的权重。
可选的,结合所述加权文本特征数据对所述音频数据进行分类包括:
基于所述音频数据得到音频特征数据;
连接所述加权文本特征数据与所述音频特征数据得到加权混合数据;
采用所述加权混合数据进行所述音频数据的分类。
可选的,结合所述加权文本特征数据对所述音频数据进行分类包括:
输入所述加权混合数据至分类器,所述分类器利用多层神经网络线性层实现;
对所述分类器的输出进行归一化概率计算,确定所述加权混合数据的分类结果,作为对应的所述音频数据分类的结果。
本申请实施例还提供一种音频数据训练方法,包括:
确定与音频数据对应的文本特征数据;
基于所述音频数据确定所述文本特征数据中各特征的权重,利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
结合所述加权文本特征数据以及该音频特征数据对应的标签对分类器进行训练。
本申请实施例还提供一种音频数据分类装置,包括:
文本特征数据确定单元,适于确定与音频数据对应的文本特征数据;
权重确定单元,适于基于所述音频数据确定所述文本特征数据中各特征的权重;
加权单元,适于利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
分类单元,适于结合所述加权文本特征数据对所述音频数据进行分类。
可选的,所述文本特征数据确定单元包括:
转录单元,适于转录所述音频数据为文本;
调整单元,适于调整所述文本的长度为预设长度的标准长度文本;
文本特征提取单元,适于提取所述标准长度文本的特征,得到所述文本特征数据。
可选的,所述权重确定单元,包括:
归一化单元,适于对所述音频数据进行归一化处理;
权重计算单元,适于基于归一化处理后的音频数据,确定所述文本特征数据中特征的权重。
可选的,所述权重确定单元,包括:
音频特征确定单元,适于基于所述音频数据确定音频特征数据;
降维单元,适于对所述音频特征数据进行降维处理,得到与所述文本特征数中特征对应的权重。
可选的,所述权重确定单元,包括:
初步权重确定单元,适于基于所述音频数据确定所述文本特征数据中特征的初步权重;
归一化单元,适于对所述初步权重进行归一化处理,得到所述文本特征数据中特征的权重。
可选的,所述权重确定单元,包括:
音频特征确定单元,适于基于所述音频数据得到音频特征数据;
扩维单元,适于对所述文本特征数据中每个字符的字符特征数据进行扩维处理,得到扩维字符特征数据,所述扩维处理基于所述音频特征数据的维度;
混合降维数据单元,适于计算所述音频特征数据与所述扩维字符特征数据的内积以进行降维处理,得到混合降维数据,所述混合降维数据与所述字符特征数据维度相同;
内积权重单元,适于计算所述混合降维数据与所述字符特征数据的内积,根据所述内积得到所述字符特征数据对应的权重。
可选的,所述内积权重单元,适于计算所述文本特征数据中各个字符特征数据对应的所述内积;
对所述内积进行归一化处理,各个字符特征数据的权重。
可选的,所述分类单元包括:
音频特征确定单元,适于基于所述音频数据得到音频特征数据;
连接单元,适于连接所述加权文本特征数据与所述音频特征数据得到加权混合数据;
加权混合分类单元,适于采用所述加权混合数据进行所述音频数据的分类。
可选的,所述加权混合分类单元,包括:
分类器单元,适于输入所述加权混合数据至分类器,所述分类器利用多层神经网络线性层实现;
归一化概率单元,适于对所述分类器的输出进行归一化概率计算,确定所述加权混合数据的分类结果,作为对应的所述音频数据分类的结果。
本申请实施例还提供一种音频数据训练装置,包括:
对应数据确定单元,适于确定与音频数据对应的文本特征数据;
训练数据准备单元,适于基于所述音频数据确定所述文本特征数据中各特征的权重,利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
训练单元,适于结合所述加权文本特征数据以及该音频特征数据对应的标签对分类器进行训练。
本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行所述的音频数据分类方法或所述的音频数据训练方法。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时执行所述的音频数据分类方法或所述的音频数据训练方法。
在本申请实施例中的技术方案中,基于音频数据确定与音频数据对应的文本特征数据中各特征的权重,得到加权文本特征数据。加权文本特征数据可以更好的体现音频数据的特征。故结合加权文本特征数据对所述音频数据进行分类更加准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例中一种音频数据分类方法的流程图;
图2为图1中步骤S11的一种具体实现方式的流程图;
图3为图1中步骤S11的另一种具体实现方式的流程图;
图4为本申请实施例中一种确定权重的具体实现方式的流程图;
图5为本申请实施例中另一种确定权重的具体实现方式的流程图;
图6为本申请实施例中另一种确定权重的具体实现方式的流程图;
图7为本申请实施例中一种通过内积得到特征对应的权重的具体实现方式的流程图;
图8为本申请实施例中一种确定所述文本特征数据中特征的权重可的具体实现方式的流程图;
图9为本申请实施例中一种结合所述加权文本特征数据对所述音频数据进行分的具体实现方式的流程图;
图10为本申请实施例中另一种结合所述加权文本特征数据对所述音频数据进行分的具体实现方式的流程图;
图11为本申请实施例中一种音频数据训练方法的流程图;
图12为本申请实施例中一种音频数据分类装置的结构示意图;
图13位本申请实施例中一种音频数据训练装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供一种音频数据分类方法,结合参考图1,具体可以包括如下步骤:
步骤S11,确定与音频数据对应的文本特征数据;
步骤S12,基于所述音频数据确定所述文本特征数据中各特征的权重;
步骤S13,利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
步骤S14,结合所述加权文本特征数据对所述音频数据进行分类。
如背景技术所述,可以将将音频数据转换成文本内容,根据文本内容对音频数据进行分类。但是由于文本来源是从音频转录的,在转录过程中会有噪声和信息损失,故基于转录文本进行音频数据分类的方式准确性有待提升。
在本发明实施例中,通过基于音频数据确定与音频数据对应的文本特征数据中各特征的权重,得到加权文本特征数据。加权文本特征数据可以更好的体现音频数据的特征。故结合加权文本特征数据对所述音频数据进行分类更加准确。
在具体实施中,结合所述加权文本特征数据对所述音频数据进行分类具体可以是将加权文本特征数据作为分类器的输入,基于分类器得到其对应的类别,作为音频数据的分类结果。
可以理解的是,该分类结果在不同场景下可以包括不同的标签。以教育领域为例,在一种场景中,该分类得到的标签可以是教师的语音内容标签,例如是否在提问、是否在讲解、是否在给学生纠正错误等。
在具体实施中,音频数据可以是一段预设时长内的音频数据,其来源场景可以是多样的,例如可以是教育场景中教师的语音。预设长度可以是根据场景的不同设定。例如在前述的教育中,根据对历史数据的判断,可以选取2到30秒之间的预设时长。可以理解的是,上述举例并非对音频数据的限制。
结合参考图2,可以通过如下方式确定与音频数据对应的文本特征数据:
步骤S21,转录所述音频数据为文本;
步骤S22,调整所述文本的长度为预设长度的标准长度文本;
步骤S23,提取所述标准长度文本的特征,得到所述文本特征数据。
在具体实施中,转录音频数据为文本的方式可以是多样的,例如可以采用ASR工具。提取文本的特征的方式也可以是多样的,具体可以采用多种文本特征提取工具,例如可以采用word2vec词向量、doc2vec句向量、Bert句向量、等工具中任一种或多种。可以理解的是,本领域技术人员可以实施的其它方式均在本申请的保护范围内。
在具体实施中,该长度可以根据前述的音频的预设时长设置,使得该长度与音频数据的长度相匹配。当预设长度大于转录音频数据得到的文本的长度时,可以使用占位符补足,以调整所述文本长度为预设长度。若预设长度小于,则可以采用占位符补足。
在具体实施中,也可以先提取文本的特征数据,再进行预设长度的调整。结合参考图2和图3,可以包括如下步骤:
步骤S21,转录所述音频数据为文本;
步骤S32,提取所述文本的特征,得到待调整文本特征数据;
步骤S33,调整所述待调整文本特征数据的长度为预设长度,得到所述文本特征数据。
在步骤S33的具体实施中,可以采用占位符对应的向量补足其长度至预设长度。
综上可以看出,可以采取多种方式,根据音频数据确定维度为预设维度的文本特征数据。进一步的,预设维度基于音频的预设时长确定,与前实施例中预设长度对应。
预设长度和音频的预设时长若设置过大,则可能导致分类器训练过程中速度慢,若预设长度和音频的预设时长设置过小,则分类器的可能精度有待提升。
在上述具体实施方式中,生成标准化的文本特征数据,也即维度一致的文本特征数据,更利于后续的分类处理过程,有利于进一步提升音频数据分类的准确性。
结合参考图4,在具体实施中,基于所述音频数据确定所述文本特征数据中特征的权重可以包括如下步骤:
步骤S41,对所述音频数据进行归一化处理;
步骤S42,基于归一化处理后的音频数据,确定所述文本特征数据中特征的权重。
可以理解的是,该标准化处理可以是在对分类器训练过程中的标准化处理,也可以是对音频数据分类过程中的标准化处理。
在具体实施中,对音频数据进行标准化处理的方式可以是多样的,例如,可以采用Z-score标准化的方式。以对训练集进行标准化为例进行说明。
假设训练集有P个音频数据的样本,每个样本均为音频数据提取得到的音频特征数据,具体可以是为1×M维的向量,则可得到P×M维的训练集上的音频特征矩阵,统计音频特征意义上每个维度上均值Ui和方差σi,一共可得M个Ui和M个σi,然后进行Z-score标准化。具体的,可以进行如下计算:
第1维维度上P个数据都减U1,然后再除以σ1;
第2维维度上P个数据都减U2,然后再除以σ2;
……
第M维维度上P个数据都减UM,然后再除以σM。
其中,音频特征数据可以通过音频特征提取工具得到,例如音频特征提取工具Opensmile、音频特征提取工具Kaldi等中一种或多种。本领域技术人员可以实现的各种音频特征提取的方法均可以用于本申请,在此不做限制。
在具体实施中,也可以根据音频特征数据的最大值和最小值线性映射到(0,1)区间内,以进行归一化处理,或者采用其它可以使得音频特征数据统一到标准正态分布上的处理方式进行归一化处理。
通过对音频特征数据进行归一化处理,提升分类方法的准确性。例如,在采用基于神经网络的分类器进行训练和分类时可以避免梯度弥散,进而可以提升分类方法的准确性。在其它类型的分类器中,归一化同样可以提升分类方法的准确性,其原理在此不再一一赘述。
结合参考图5,在具体实施中,基于所述音频数据确定所述文本特征数据中特征的权重可以是包括如下步骤:
步骤S51,基于所述音频数据确定音频特征数据;
步骤S52,对所述音频特征数据进行降维处理,得到与所述文本特征数中特征对应的权重。
如前文所述,音频特征数据可以通过音频特征提取工具得到,例如音频特征提取工具Opensmile、音频特征提取工具Kaldi等中一种或多种。本领域技术人员可以实现的各种音频特征提取的方法均可以用于本申请,在此不做限制。
音频特征数据通常以矩阵的形式出现。通过对音频特征数据进行降维处理,可以得到与文本特征数据中特征对应的权重。
其中,降维处理可以是分别针对文本特征数中各特征进行的,如此得到的与该特征对应的权重可以更好的实现调整作用,使得加权文本特征数据更好的体现音频数据的特征,进而可以使得分类更准确。
在具体实施中,降维处理可以结合所述文本特征数据进行。具体可以结合文本特征数据中每个字符的字符特征数据进行,以得到对应该字符特征的权重。
结合参考图6,在具体实施中,可以通过如下步骤确定所述文本特征数据中特征的权重:
步骤S61,基于所述音频数据得到音频特征数据;
步骤S62,对所述文本特征数据中每个字符的字符特征数据进行扩维处理,得到扩维字符特征数据,所述扩维处理基于所述音频特征数据的维度;
步骤S63,计算所述音频特征数据与所述扩维字符特征数据的内积以进行降维处理,得到混合降维数据,所述混合降维数据与所述字符特征数据维度相同;
步骤S64,计算所述混合降维数据与所述字符特征数据的内积,根据所述内积得到所述字符特征数据对应的权重。
可以看出,在该具体实现中,文本特征数据中特征即为字符特征数据。通过上述方式,可以实现前述对音频数据的降维,以得到权重。并且得到的权重是与每个字符特征数据对应的,可以在加权文本特征数据中更好的体现音频数据的特征,进而提升分类的准确性。
结合参考图7,根据内积得到特征对应的权重可以通过如下步骤实现:
步骤S71,计算所述文本特征数据中各个字符特征数据对应的内积;
步骤S72,对所述内积进行归一化处理,各个字符特征数据的权重。
具体的,可以采用Softmax函数进行归一化处理。
可以理解的是,在上述具体实现中,也可以不对内积进行归一化处理,直接将内积作为对应的字符数据特征的权重。
另外,归一化处理也可以并非限制为对内积进行。结合参考图8,于所述音频数据确定所述文本特征数据中特征的权重可以包括如下步骤:
步骤S81,基于所述音频数据确定所述文本特征数据中特征的初步权重;
步骤S82,对所述初步权重进行归一化处理,得到所述文本特征数据中特征的权重。
也即,在具体实施中,内积可以作为初步权重,或者也可以以其它实现方式计算初步权重。通过对初步权重进行归一化处理,可以避免权重的数值过大而影响后续的分类准确性。
示例性的,文本中包含的字符数量记为LEN,也即文本特征数据的维度记为1×LEN×N ,其中N为每个字符特征数据的维度。对每个字符特征数据计算出的内积依次为D1、D2、…DLEN。进行归一化处理后得到的权重依次记为a1、a2…aLEN,利用Softmax函数进行归一化的计算公式可以记为:
a1 = exp(D1)/ (exp(D1) + exp(D2) + ... + exp(DLEN));
a2 = exp(D2)/ (exp(D1) + exp(D2) + ... + exp(DLEN));
……
aLEN = exp(DLEN)/ (exp(D1) + exp(D2) + ... + exp(DLEN))。
结合参考图9,在具体实施中,结合所述加权文本特征数据对所述音频数据进行分类可以包括如下步骤:
步骤S91,基于所述音频数据得到音频特征数据;
步骤S92,连接所述加权文本特征数据与所述音频特征数据得到加权混合数据;
步骤S93,采用所述加权混合数据进行所述音频数据的分类。
在具体实施中,加权文本特征数据可以根据前述的各种具体实现方式中任一种得到,或者也可以通过其它方式得到。
在具体实施中,连接的音频特征数据可以是经过前述的具体实现方式调整过的,或者也可以是未调整过的音频特征数据。音频特征数据获取的方式在此不做限制。
通过连接加权文本特征数据和音频特征数据得到加权混合数据,可以更好的体现音频数据的特征。基于加权混合数据进行分类,其分类更加准确。
进一步的,结合参考图10,结合所述加权文本特征数据对所述音频数据进行分类可以包括如下步骤:
步骤S101,输入所述加权混合数据至分类器,所述分类器利用多层神经网络线性层实现;
步骤S102,对所述分类器的输出进行归一化概率计算,确定所述加权混合数据的分类结果,作为对应的所述音频数据分类的结果。
在具体实施中,归一化概率计算可以通过Softmax函数实现。
可以理解的是,在具体实施中,在分类器利用多层神经网络线性层实现时,也可以输入加权文本特征数据至该分类器,进行分类,对分类器的输出进行归一化概率计算,以得到对应的所述音频数据分类的结果。
也即,在具体实施中,采用多层神经网络线性层实现的分类器的输入可以是多样的,可以是加权文本特征数据,也可以是加权混合数据,或者结合加权文本特征数据和音频数据得到的其它数据,在此不做限制。
另外,也可以其它方式,基于分类器的输出作为分类的结果。利用多层神经网络线性层实现的分类器进行训练和分类准确性更高。通过进行归一化概率计算可以进一步提升分类的准确性。
以下结合一示例对本发明进行进一步的说明。
在本发明一实施例中,通过ASR工具将音频转录成文本,记为文本T。
使用音频特征提取工具提取音频特征数据X1,为1×M维的向量。其中M的维数数值与音频特征提取工具相关。
对音频特征进行Z-score标准化。具体方式可以参见前文所述,在此不再赘述。
使用文本特征提取工具提取文本T的文本特征数据X2,并限定输入文本最大长度为LEN(对长度不足LEN的字符使用[PAD]占位符对应的向量,对长度超过LEN的字符串则截取前LEN个字符),记X2为1×LEN×N维的向量。
对每一个字符对应的字符特征数据,也即向量X2,i 进行处理。X2,i是一个1×1×N维的向量,通过复制扩展方式可得到1×M×N维的扩维字符特征数据,也即向量B,具体操作可通过下面例子解释:
[[1,2,3]]是一个1×1×3维的向量,通过复制扩展可得1×6×3维的向量 [[1,2,3], [1,2,3], [1,2,3], [1,2,3], [1,2,3] , [1,2,3]]。
然后将维度为1×M的向量X1和维度为1×M×N 的向量B进行部分矩阵乘法可得维度为1×1×N特征向量C,也即混合降维数据。
然后将维度为1×1×N特征向量C和1×1×N维字符文本向量X2,i进行内积操作,可得内积值Di。
为避免权重值Di过大,造成后续操作Softmax归一化权重时候Di需要除以N的平方根进行缩小,可以通过Softmax操作得到每个字符(也即,每个字符特征数据)对应的权重αi。具体的归一化实现过程可以参见前文所述,在此不再赘述。
将各权重αi与对应的字符特征数据相乘,并求这些数据之和,可以得到加权文本特征数据,记为向量A:A=α1*X2,1+α2*X2,2+……+αLEN*X2,LEN。
将A和X1连接得到加权混合数据,记为特征向量B,显然特征向量B 的维度是1×(M+N)维度。
将特征向量B输入多个神经网络线性层,再接入 Softamax函数,可以得到该特征向量B的分类,进而可以得到对应的音频数据的分类。
本领域技术人员可以理解的是,本申请中的“在具体实施中”“一实施例中”“例如”等描述意指结合该实施例或示例描述的具体特征、结构或者特点包括于本申请的至少一种实施例或示例中。而且,描述的具体特征、结构或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本申请中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
另外,前述实施例中的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
结合参考图11,本发明实施例还提供一种音频数据训练方法,具体可以包括如下步骤:
步骤S111,确定与音频数据对应的文本特征数据;
步骤S112,基于所述音频数据确定所述文本特征数据中各特征的权重,利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
步骤S113,结合所述加权文本特征数据以及该音频特征数据对应的标签对分类器进行训练。
可以理解的是,分类方法与训练方法相对应,本申请实施例中的音频数据训练方法的具体实现方式可以参考前文的音频数据分类方法,在此不再赘述。通过该训练方法,可以为音频数据分类方法提供基础。
本发明实施例还提供一种音频数据分类装置,结合参考图12可以包括如下单元:
文本特征数据确定单元121,适于确定与音频数据对应的文本特征数据;
权重确定单元122,适于基于所述音频数据确定所述文本特征数据中各特征的权重;
加权单元123,适于利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
分类单元124,适于结合所述加权文本特征数据对所述音频数据进行分类。
在具体实施中,所述文本特征数据确定单元121可以包括:
转录单元,适于转录所述音频数据为文本;
调整单元,适于调整所述文本的长度为预设长度的标准长度文本;
文本特征提取单元,适于提取所述标准长度文本的特征,得到所述文本特征数据。
在具体实施中,所述权重确定单元122可以包括:
归一化单元,适于对所述音频数据进行归一化处理;
权重计算单元,适于基于归一化处理后的音频数据,确定所述文本特征数据中特征的权重。
在另一具体实施中,所述权重确定单元122可以包括:
音频特征确定单元,适于基于所述音频数据确定音频特征数据;
降维单元,适于对所述音频特征数据进行降维处理,得到与所述文本特征数中特征对应的权重。
在另一具体实施中,所述权重确定单元122,可以包括:
初步权重确定单元,适于基于所述音频数据确定所述文本特征数据中特征的初步权重;
归一化单元,适于对所述初步权重进行归一化处理,得到所述文本特征数据中特征的权重。
在另一具体实施中,所述权重确定单元122可以包括:
音频特征确定单元,适于基于所述音频数据得到音频特征数据;
扩维单元,适于对所述文本特征数据中每个字符的字符特征数据进行扩维处理,得到扩维字符特征数据,所述扩维处理基于所述音频特征数据的维度;
混合降维数据单元,适于计算所述音频特征数据与所述扩维字符特征数据的内积以进行降维处理,得到混合降维数据,所述混合降维数据与所述字符特征数据维度相同;
内积权重单元,适于计算所述混合降维数据与所述字符特征数据的内积,根据所述内积得到所述字符特征数据对应的权重。
在具体实施中,所述内积权重单元,适于计算所述文本特征数据中各个字符特征数据对应的所述内积;
对所述内积进行归一化处理,各个字符特征数据的权重。
在具体实施中,所述分类单元124可以包括:
音频特征确定单元,适于基于所述音频数据得到音频特征数据;
连接单元,适于连接所述加权文本特征数据与所述音频特征数据得到加权混合数据;
加权混合分类单元,适于采用所述加权混合数据进行所述音频数据的分类。
在具体实施中,所述加权混合分类单元,可以包括:
分类器单元,适于输入所述加权混合数据至分类器,所述分类器利用多层神经网络线性层实现;
归一化概率单元,适于对所述分类器的输出进行归一化概率计算,确定所述加权混合数据的分类结果,作为对应的所述音频数据分类的结果。
本申请实施例中的音频数据分类方法的具体实现和有益效果可以参见音频数据分类方法,在此不再赘述。
结合参考图13,本申请实施例还提供一种音频数据训练装置,可以包括:
对应数据确定单元131,适于确定与音频数据对应的文本特征数据;
训练数据准备单元132,适于基于所述音频数据确定所述文本特征数据中各特征的权重,利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
训练单元133,适于结合所述加权文本特征数据以及该音频特征数据对应的标签对分类器进行训练。
本申请实施例中的音频数据分类装置以及电子音频数据训练装置所描述的各个单元,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机程序。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机程序可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
并且,所述的各个功能模块可以集成在一个处理部件中,也可以是各个模块单独物理存在,也可以两个或两个以上功能模块集成在一个部件中。上述集成的部件既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的部件如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
本申请实施例还提供一种计算机设备,可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行所述的音频数据分类方法或所述的音频数据训练方法。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时执行所述的音频数据分类方法或所述的音频数据训练方法。
所述计算机设备包括但不限于:服务器、台式机、智能手机、笔记本电脑、平板电脑、智能手环、智能手表、其它智能设备或其中任意一种或多种的多个设备通信连接构成的分布式处理系统。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时执行
即,上述本申请实施例中的音频数据分类方法或电子音频数据训练方法可被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的音频数据分类方法或电子音频数据训练方法。此外,当通用计算机访问用于实现在此示出的音频数据分类方法或电子音频数据训练方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的音频数据分类方法或电子音频数据训练方法的专用计算机。
虽然本申请实施例披露如上,但本申请并非限定于此。任何本领域技术人员,在不脱离本申请实施例的精神和范围内,均可作各种更动与修改,因此本申请的保护范围应当以权利要求所限定的范围为准。
Claims (16)
1.一种音频数据分类方法,其特征在于,包括:
确定与音频数据对应的文本特征数据;
基于所述音频数据确定所述文本特征数据中各特征的权重;
基于所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
结合所述加权文本特征数据对所述音频数据进行分类;
所述基于所述音频数据确定所述文本特征数据中特征的权重包括:
基于所述音频数据得到音频特征数据;
对所述文本特征数据中每个字符的字符特征数据进行扩维处理,得到扩维字符特征数据,所述扩维处理基于所述音频特征数据的维度;
计算所述音频特征数据与所述扩维字符特征数据的内积以进行降维处理,得到混合降维数据,所述混合降维数据与所述字符特征数据维度相同;
计算所述混合降维数据与所述字符特征数据的内积,根据所述内积得到所述字符特征数据对应的权重。
2.根据权利要求1所述的音频数据分类方法,其特征在于,所述确定与所述音频数据对应的文本特征数据包括:
转录所述音频数据为文本;
调整所述文本的长度为预设长度的标准长度文本;
提取所述标准长度文本的特征,得到所述文本特征数据。
3.根据权利要求1所述的音频数据分类方法,其特征在于,基于所述音频数据确定所述文本特征数据中特征的权重包括:
对所述音频数据进行归一化处理;
基于归一化处理后的音频数据,确定所述文本特征数据中特征的权重。
4.根据权利要求1所述的音频数据分类方法,其特征在于,计算所述混合降维数据与所述字符特征数据的内积,根据所述内积得到所述字符特征数据对应的权重包括:
计算所述文本特征数据中各个字符特征数据对应的所述内积;
对所述内积进行归一化处理,各个字符特征数据的权重。
5.根据权利要求1所述的音频数据分类方法,其特征在于,结合所述加权文本特征数据对所述音频数据进行分类包括:
基于所述音频数据得到音频特征数据;
连接所述加权文本特征数据与所述音频特征数据得到加权混合数据;
采用所述加权混合数据进行所述音频数据的分类。
6.根据权利要求5所述的音频数据分类方法,其特征在于,结合所述加权文本特征数据对所述音频数据进行分类包括:
输入所述加权混合数据至分类器,所述分类器利用多层神经网络线性层实现;
对所述分类器的输出进行归一化概率计算,确定所述加权混合数据的分类结果,作为对应的所述音频数据分类的结果。
7.一种音频数据训练方法,其特征在于,包括:
确定与音频数据对应的文本特征数据;
基于所述音频数据确定所述文本特征数据中各特征的权重,利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
结合所述加权文本特征数据以及该音频数据对应的标签对分类器进行训练;
所述基于所述音频数据确定所述文本特征数据中各特征的权重包括:
基于所述音频数据得到音频特征数据;
对所述文本特征数据中每个字符的字符特征数据进行扩维处理,得到扩维字符特征数据,所述扩维处理基于所述音频特征数据的维度;
计算所述音频特征数据与所述扩维字符特征数据的内积以进行降维处理,得到混合降维数据,所述混合降维数据与所述字符特征数据维度相同;
计算所述混合降维数据与所述字符特征数据的内积,根据所述内积得到所述字符特征数据对应的权重。
8.一种音频数据分类装置,其特征在于,包括:
文本特征数据确定单元,适于确定与音频数据对应的文本特征数据;
权重确定单元,适于基于所述音频数据确定所述文本特征数据中各特征的权重;
加权单元,适于利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
分类单元,适于结合所述加权文本特征数据对所述音频数据进行分类;
所述权重确定单元,包括:
音频特征确定单元,适于基于所述音频数据得到音频特征数据;
扩维单元,适于对所述文本特征数据中每个字符的字符特征数据进行扩维处理,得到扩维字符特征数据,所述扩维处理基于所述音频特征数据的维度;
混合降维数据单元,适于计算所述音频特征数据与所述扩维字符特征数据的内积以进行降维处理,得到混合降维数据,所述混合降维数据与所述字符特征数据维度相同;
内积权重单元,适于计算所述混合降维数据与所述字符特征数据的内积,根据所述内积得到所述字符特征数据对应的权重。
9.根据权利要求8所述的音频数据分类装置,其特征在于,所述文本特征数据确定单元包括:
转录单元,适于转录所述音频数据为文本;
调整单元,适于调整所述文本的长度为预设长度的标准长度文本;
文本特征提取单元,适于提取所述标准长度文本的特征,得到所述文本特征数据。
10.根据权利要求8所述的音频数据分类装置,其特征在于,所述权重确定单元,包括:
归一化单元,适于对所述音频数据进行归一化处理;
权重计算单元,适于基于归一化处理后的音频数据,确定所述文本特征数据中特征的权重。
11.根据权利要求8所述的音频数据分类装置,其特征在于,所述内积权重单元,适于计算所述文本特征数据中各个字符特征数据对应的所述内积;
对所述内积进行归一化处理,各个字符特征数据的权重。
12.根据权利要求8所述的音频数据分类装置,其特征在于,所述分类单元包括:
音频特征确定单元,适于基于所述音频数据得到音频特征数据;
连接单元,适于连接所述加权文本特征数据与所述音频特征数据得到加权混合数据;
加权混合分类单元,适于采用所述加权混合数据进行所述音频数据的分类。
13.根据权利要求12所述的音频数据分类装置,其特征在于,所述加权混合分类单元,包括:
分类器单元,适于输入所述加权混合数据至分类器,所述分类器利用多层神经网络线性层实现;
归一化概率单元,适于对所述分类器的输出进行归一化概率计算,确定所述加权混合数据的分类结果,作为对应的所述音频数据分类的结果。
14.一种音频数据训练装置,其特征在于,包括:
对应数据确定单元,适于确定与音频数据对应的文本特征数据;
训练数据准备单元,适于基于所述音频数据确定所述文本特征数据中各特征的权重,利用所述各特征的权重对所述文本特征数据进行加权得到加权文本特征数据;
训练单元,适于结合所述加权文本特征数据以及该音频数据对应的标签对分类器进行训练;
训练数据准备单元,适于基于所述音频数据确定所述文本特征数据中各特征的权重包括:
基于所述音频数据得到音频特征数据;
对所述文本特征数据中每个字符的字符特征数据进行扩维处理,得到扩维字符特征数据,所述扩维处理基于所述音频特征数据的维度;
计算所述音频特征数据与所述扩维字符特征数据的内积以进行降维处理,得到混合降维数据,所述混合降维数据与所述字符特征数据维度相同;
计算所述混合降维数据与所述字符特征数据的内积,根据所述内积得到所述字符特征数据对应的权重。
15.一种计算机设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至6中任一项所述的音频数据分类方法或权利要求7所述的音频数据训练方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序运行时执行权利要求1至6中任一项所述的音频数据分类方法或权利要求7所述的音频数据训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076034.9A CN112395456B (zh) | 2021-01-20 | 2021-01-20 | 音频数据分类方法、训练方法及装置、介质、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076034.9A CN112395456B (zh) | 2021-01-20 | 2021-01-20 | 音频数据分类方法、训练方法及装置、介质、计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395456A CN112395456A (zh) | 2021-02-23 |
CN112395456B true CN112395456B (zh) | 2021-04-13 |
Family
ID=74625467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110076034.9A Active CN112395456B (zh) | 2021-01-20 | 2021-01-20 | 音频数据分类方法、训练方法及装置、介质、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395456B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
CN108986801A (zh) * | 2017-06-02 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置及人机交互终端 |
CN111145786A (zh) * | 2019-12-17 | 2020-05-12 | 深圳追一科技有限公司 | 语音情感识别方法和装置、服务器、计算机可读存储介质 |
CN111583907A (zh) * | 2020-04-15 | 2020-08-25 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016134782A1 (en) * | 2015-02-26 | 2016-09-01 | Longsand Limited | Obfuscating training data |
US11017774B2 (en) * | 2019-02-04 | 2021-05-25 | International Business Machines Corporation | Cognitive audio classifier |
-
2021
- 2021-01-20 CN CN202110076034.9A patent/CN112395456B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
CN108986801A (zh) * | 2017-06-02 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置及人机交互终端 |
CN111145786A (zh) * | 2019-12-17 | 2020-05-12 | 深圳追一科技有限公司 | 语音情感识别方法和装置、服务器、计算机可读存储介质 |
CN111583907A (zh) * | 2020-04-15 | 2020-08-25 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112395456A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102101044B1 (ko) | 텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법 | |
WO2021000408A1 (zh) | 面试评分方法、装置、设备及存储介质 | |
US9443193B2 (en) | Systems and methods for generating automated evaluation models | |
CN105340004A (zh) | 用于发音学习的计算机实现的方法、计算机可读介质和系统 | |
US10755595B1 (en) | Systems and methods for natural language processing for speech content scoring | |
US9087519B2 (en) | Computer-implemented systems and methods for evaluating prosodic features of speech | |
US9652991B2 (en) | Systems and methods for content scoring of spoken responses | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
US8005674B2 (en) | Data modeling of class independent recognition models | |
CN113836894B (zh) | 多维度英语作文评分方法、装置及可读存储介质 | |
US11829875B2 (en) | Information processing device, information processing method and computer readable storage medium | |
CN111008624A (zh) | 光学字符识别方法和产生光学字符识别的训练样本的方法 | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
CN112395456B (zh) | 音频数据分类方法、训练方法及装置、介质、计算机设备 | |
US9928754B2 (en) | Systems and methods for generating recitation items | |
CN113435500B (zh) | 一种语言模型构建方法及设备 | |
CN114141235A (zh) | 语音语料库生成方法、装置、计算机设备和存储介质 | |
CN110895938B (zh) | 语音校正系统及语音校正方法 | |
CN115206342A (zh) | 一种数据处理方法、装置、计算机设备及可读存储介质 | |
Nasution et al. | Speech Recognition Mobile Application for Learning Iqra’Using PocketSphinx | |
CN109817205B (zh) | 基于语义解析的文本确认方法、装置及终端设备 | |
KR20200072005A (ko) | 음성 인식된 문장의 보정 방법 | |
CN112530456B (zh) | 一种语言类别的识别方法、装置、电子设备及存储介质 | |
CN111681677B (zh) | 视频物体音效构建方法、系统、装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |