CN111599381A - 音频数据处理方法、装置、设备及计算机存储介质 - Google Patents
音频数据处理方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN111599381A CN111599381A CN202010477575.8A CN202010477575A CN111599381A CN 111599381 A CN111599381 A CN 111599381A CN 202010477575 A CN202010477575 A CN 202010477575A CN 111599381 A CN111599381 A CN 111599381A
- Authority
- CN
- China
- Prior art keywords
- audio data
- features
- audio
- user
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 65
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000012952 Resampling Methods 0.000 claims description 5
- 230000036651 mood Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 5
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000008451 emotion Effects 0.000 description 29
- 239000013598 vector Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种音频数据处理方法、装置、设备及计算机存储介质,属于音频数据分析技术领域。所述方法包括:获取音频数据的至少两种音频特征,所述至少两种音频特征与至少两个判别模型一一对应,每个所述判别模型用于根据对应的音频特征输出用户特征;将每个所述音频特征输入对应的判别模型,得到所述至少两种音频特征对应的至少两个用户特征;根据所述至少两个用户特征确定所述音频数据对应的目标用户特征。上述技术方案,解决了相关技术中音频数据处理方法准确性较低的问题。达到了提高音频数据处理方法准确性的效果。
Description
技术领域
本申请涉及音频数据分析技术领域,特别涉及一种音频数据处理方法、装置、设备及计算机存储介质。
背景技术
服务器可以根据用户的音频数据获取用户特征,以便服务器根据用户特征为用户匹配(或推荐)其他用户,用户特征可以包括用户性别信息以及情绪类型中的至少一种。
相关技术中的一种音频数据处理方法中,服务器将用户的音频数据输入判别模型中,该判别模型即可输出用户的性别信息与情绪类型。
但是,这种音频数据处理方法得到的用户的性别信息与情绪类型为单一的结果,可选择性较低,导致这种音频数据处理方法准确性较低。
发明内容
本申请实施例提供了一种音频数据处理方法、装置、设备及计算机存储介质。所述技术方案如下:
根据本申请的第一方面,提供了一种音频数据处理方法,所述音频数据处理方法包括:
获取音频数据的至少两种音频特征,所述至少两种音频特征与至少两个判别模型一一对应,每个所述判别模型用于根据对应的音频特征输出用户特征;
将每个所述音频特征输入对应的判别模型,得到所述至少两种音频特征对应的至少两个用户特征;
根据所述至少两个用户特征确定所述音频数据对应的目标用户特征。
可选的,所述获取音频数据的至少两种音频特征之前,所述方法还包括:
获取训练音频数据以及所述训练音频数据对应的用户特征;
获取所述训练音频数据的至少两种音频特征;
根据所述训练音频数据的至少两种音频特征以及所述用户该特征分别训练至少两个初始判别模型,得到所述至少两个判别模型。
可选的,每个所述用户特征包括至少一类子特征,所述用户特征的数量为至少三个,
所述根据所述至少两个用户特征确定所述音频数据对应的目标用户特征,包括:
将至少三个所述用户特征中,每一类子特征中出现次数最多的子特征确定为所述目标用户特征中的子特征。
可选的,所述获取音频数据的至少两种音频特征之前,所述方法还包括:
获取原始音频数据;
对所述原始音频数据进行预处理,得到所述音频数据,所述预处理包括重采样,预加重以及去除所述初始音频信号中的静音部分中的至少一种。
可选的,所述用户特征中的子特征包括性别信息和情绪类型中的至少一种。
可选的,所述判别模型包括深度学习神经网络模型,高斯混合模型,隐马尔可夫模型以及主成分分析模型中的至少一种。
可选的,所述音频特征包括:
基频特征,共振峰,频谱包络特征以及声压级特征中的至少两种。
另一方面,提供了一种音频数据处理装置,所述音频数据处理装置包括:
获取模块,用于获取音频数据的至少两种音频特征,所述至少两种音频特征与至少两个判别模型一一对应,每个所述判别模型用于根据对应的音频特征输出用户特征;
输入模块,用于将每个所述音频特征输入对应的判别模型,得到所述至少两种音频特征对应的至少两个用户特征;
确定模块,用于根据所述至少两个用户特征确定所述音频数据对应的目标用户特征。
又一方面,提供了一种音频数据处理设备,所述音频数据处理设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的音频数据处理方法。
再一方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的音频数据处理方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
提供了一种音频数据处理方法,该音频数据处理方法通过将音频数据的至少两种音频特征输入对应的判别模型,可以得到与每种音频特征对应的用户特征,如此便能根据至少两种音频特征确定音频数据对应的目标用户特征。上述技术方案,解决了相关技术中音频数据处理方法准确性较低的问题。达到了提高音频数据处理方法准确性的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的音频数据处理方法的实施环境的示意图;
图2是本申请实施例提供的一种音频数据处理方法的流程图;
图3是本申请实施例提供的另一种音频数据处理方法的流程图;
图4是本申请实施例提供的一种根据训练音频数据得到至少两个判别模型的流程图;
图5是本申请实施例提供的一种根据音频数据得到目标用户特征的流程图;
图6是本申请实施例提供的一种音频数据处理装置的框图;
图7是本申请实施例提供的一种音频数据处理装置的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在一种音频数据处理方法中,服务器将用户的音频数据输入判别模型中,该判别模型即可输出用户的性别信息与情绪类型。
但是,这种音频数据处理方法得到的用户的性别信息与情绪类型为单一的结果,可选择性较低,导致这种音频数据处理方法准确性较低。
本申请实施例提供了一种音频数据处理方法、装置、设备及计算机存储介质。
图1是本申请实施例提供的音频数据处理方法的实施环境的示意图,该实施环境可以包括服务器11以及终端12。
服务器11可以为一个服务器或服务器集群。
终端12可以为手机、平板电脑、笔记本电脑、智能可穿戴设备等各种终端。
终端12可以通过有线或无线的方式(图1示出的是以无线的方式进行连接的情况)与服务器11连接。
图2是本申请实施例提供的一种音频数据处理方法的流程图。该音频数据处理方法可以应用于图1所示实施环境的服务器中,该音频数据处理方法可以包括:
步骤201,获取音频数据的至少两种音频特征。至少两种音频特征与至少两个判别模型一一对应,每个判别模型用于根据对应的音频特征输出用户特征。
步骤202,将每个音频特征输入对应的判别模型,得到至少两种音频特征对应的至少两个用户特征。
步骤203,根据至少两个用户特征确定音频数据对应的目标用户特征。
综上所述,本申请实施例提供了一种音频数据处理方法,该音频数据处理方法通过将音频数据的至少两种音频特征输入对应的判别模型,可以得到与每种音频特征对应的用户特征,如此便能根据至少两种音频特征确定音频数据对应的目标用户特征。上述技术方案,解决了相关技术中音频数据处理方法准确性较低的问题。达到了提高音频数据处理方法准确性的效果。
图3是本申请实施例提供的另一种音频数据处理方法的流程图,该音频数据处理方法可以应用于图1所示实施环境的服务器中。参考图3可以看出,该音频数据处理方法可以包括:
步骤301,获取训练音频数据以及训练音频数据对应的用户特征。
用户特征可以包括训练音频数据对应的用户的性别信息以及终端获取训练音频数据时该用户的情绪类型。可以通过终端获取用户填写的用户的性别信息以及该用户录制训练音频数据时的情绪类型,训练音频数据以及该训练音频数据对应的用户特征可以从数据库获取,或者,服务器也可以获取终端上传的训练音频数据,再由工作人员人工标定该训练音频数据的用户特征,或者,服务器也可以获取终端上传的训练音频数据以及该训练音频数据对应的用户特征。常见的情绪类型的类别可以包括高兴,伤心,愤怒,紧张以及普通。
步骤302,获取训练音频数据的至少两种音频特征。
音频特征包括基频特征,共振峰,频谱包络特征以及声压级特征中的至少两种。音频特征还可以包括梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)、短时能量和短时平均过零率及其统计特征等其他特征,本申请实施例对此并不进行限制。
服务器可以从音频数据中获取至少两种音频特征,服务器可以根据每种音频特征从不同的角度分析训练音频数据,也即是服务器可以对训练音频数据进行较为全面的分析。
需要说明的是,服务器在获取训练音频数据的至少两种音频特征之前,服务器可以对训练音频数据进行预处理,预处理可以包括重采样,预加重以及去除音频信号中的静音部分中的至少一种。
步骤303,根据训练音频数据的至少两种音频特征以及训练音频数据对应的用户该特征分别训练至少两个初始判别模型,得到至少两个判别模型。
判别模型包括深度学习神经网络模型,高斯混合模型,隐马尔可夫模型以及主成分分析模型中的至少一种。至少两个初始判别模型可以为同一类型的模型,也可以为不同类型的模型,本申请实施例对此并不进行限制。
服务器可以将训练音频数据的音频特征作为初始判别模型的输入,将训练音频数据对应的用户特征作为初始判别模型的输出,对初始判别模型进行训练,得到判别模型。该判别模型可以根据音频数据的音频特征输出该音频数据对应的用户特征。服务器可以根据训练音频数据的每种音频特征训练一个与该音频特征对应的判别模型。
示例性的,请参考图4,其为本申请实施例提供的一种根据训练音频数据得到至少两个判别模型的流程图。终端可以从声音拾取模块获取训练音频数据。该声音拾取模块可以为终端中的声音拾取模块,也可以为终端外设的声音拾取模块。服务器可以获取终端上传的训练音频数据,服务器还可以获取该训练音频数据对应的用户特征,用户特征包括用户的性别信息以及用户在录制该训练音频数据时的情绪类型。服务器先对获取到的训练音频数据进行预处理,之后可以获取该训练音频数据的四种音频特征。当服务器获取到的训练数据的音频特征包括基频特征,共振峰,频谱包络特征以及声压级特征时,服务器可以根据训练数据的每种音频特征以及训练数据对应的用户特征训练一个与该音频特征对应的判别模型。也即是服务器可以训练四个判别模型分别与训练数据的四种音频特征对应。
步骤301至步骤303为训练初始判别模型并得到判别模型的步骤,步骤304至步骤308为应用判别模型获取音频数据对应的用户特征的步骤。
步骤304,获取原始音频数据。
服务器可以获取终端上传的原始音频数据,该原始音频数据为终端获取到的未处理的音频数据。终端可以提示用户进行原始音频数据的获取,并获取用户的原始音频数据(例如可以提示用户读出预定的语句或数字),之后再上传至服务器。
步骤305,对原始音频数据进行预处理,得到音频数据。预处理包括重采样,预加重以及去除初始音频信号中的静音部分中的至少一种。
服务器可以对原始音频数据进行预处理,得到音频数据。重采样可以对原始音频数据进行优化。原始音频数据在传输中会收到一定的损失,服务器可以对原始音频数据进行预加重以使服务器获取较好的音频数据。去除初始音频信号中的静音部分可以方便服务器对音频信号进行处理。
步骤306,获取音频数据的至少两种音频特征。至少两种音频特征与至少两个判别模型一一对应,每个判别模型用于根据对应的音频特征输出用户特征。
服务器可以获取音频数据的至少两种音频特征,该至少两种音频特征应与步骤303中至少两个判别模型一一对应。
步骤307,将每个音频特征输入对应的判别模型,得到至少两种音频特征对应的至少两个用户特征。
服务器可以将音频数据的每种音频特征输入对应的判别模型,每个判别模型可以根据对应的音频特征输出用户特征。用户特征可以包括用户的性别信息以及用户在录制原始音频数据时的情绪类型中的至少一种。
常见情绪类型的类别包括高兴,伤心,愤怒,紧张以及普通。普通表示用户在录制初始音频数据时的情绪较为稳定。
服务器根据至少两种音频特征得到的与至少两种音频特征对应的用户特征可能相同,也可能不同。由于音频特征包括的信息不同,将同一音频数据的至少两种音频特征输入对应的判别模型后,得到的至少两个用户特征可能相同也可能不同。
示例性的,服务器可以将情绪类型中的高兴设置为第1类,伤心设置为第2类,愤怒设置为第3类,紧张设置为第4类,普通设置为第5类,服务器还可以对用户的性别信息进行分类,男性用户为第6类,女性用户为第7类。音频特征包括基频特征,共振峰,频谱包络特征以及声压级特征时,将基频特征输入对应的判别模型后,该判别模型的输出可以为4,6,也即是根据基频特征得到用户特征的情绪类型为第4类,性别信息为第6类。将共振峰输入对应的判别模型后,该判别模型的输出可以为5,6。将频谱包络特征输入对应的判别模型后,该判别模型的输出可以为4,6。将声压级特征输入对应的判别模型后,该判别模型的输出可以为4,7。服务器可以将每个判别模型输出的情绪类型组合为情绪类型向量,将用户的性别组合为性别特征向量,也即是服务器可以得到情绪类型向量[4,5,4,4],性别特征向量[6,6,6,7],服务器可以对这两个特征向量进行处理,以得到目标用户特征。
步骤308,根据至少两个用户特征确定音频数据对应的目标用户特征。
服务器可以根据至少两个判别模型输出的用户特征确定音频数据对应的目标用户特征。服务器可以使用目标用户特征为用户匹配(或推荐)其他用户。目标用户特征可以包括用户的性别信息,用户的情绪类型以及用户的性别与情绪类型的组合,本申请实施例对此并不进行限制。
每个用户特征包括至少一类子特征,用户特征的数量为至少三个时,将至少三个用户特征中,每一类子特征中出现次数最多的子特征确定为目标用户特征中的子特征。用户特征中的子特征包括性别信息和情绪类型中的至少一种。
其中,用户特征的子特征包括用户的性别信息,用户的情绪类型以及用户的性别信息与情绪类型的组合种的至少一种。当用户特征的数量为至少三个时,服务器可以将每一类子特征中出现次数最多的子特征确定为目标用户特征中的子特征。服务器还可以将第一音频特征对应的用户特征确定为目标用户特征,该第一音频特征为操作人员根据实际情况选择的任一音频特征,本申请实施例对此并不进行限制。
示例性的,请参考图5,其为本申请实施例提供的一种根据音频数据得到目标用户特征的流程图。终端可以从声音拾取模块获取原始音频数据。该声音拾取模块可以为终端中的声音拾取模块,也可以为终端外设的声音拾取模块。服务器可以获取终端上传的远视音频数据,并对该原始音频数据进行预处理,得到音频数据。并获取该音频数据的四个音频特征。当服务器获取到的音频数据的音频特征包括基频特征,共振峰,频谱包络特征以及声压级特征时,服务器可以将每种音频特征分别输入每种音频特征对应的判别模型。也即是服务器可以将四个音频特征输入四个判别模型,得到四个用户特征。将四个用户特征中的情绪类型的类别组合为情绪类型向量,将性别信息的类别组合为性别特征向量。
情绪类型向量为[4,5,4,4],性别特征向量为[6,6,6,7]时,服务器可以将情绪类型向量中出现次数最多的数字定为目标用户特征中的情绪类型的类别,将性别特征向量中出现次数最多的数字定为目标用户特征中的性别的类别,也即是服务器可以将第4类情绪紧张确定为目标用户特征的一类子特征,将第6类性别男性确定为目标用户的另一类子特征。
示例性的,服务器在得到目标用户特征后,可以选择性别信息匹配,情绪类型匹配,以及性别与情绪类型共同匹配中的至少一种为用户进行匹配。例如,服务器通过用户的原始语音数据得到该用户的目标用户特征为女性用户,情绪类型为普通,则服务器可以选择为该用户匹配男性用户,且该男性用户的情绪为开心。如此便能根据用户特征为用户匹配合适的其他用户。使用本申请实施例提供的音频数据处理方法,可以根据至少两种音频特征得到用户特征,可以较为全面地对用户特征进行分析,并根据实际情况选择合适的目标用户特征,使得音频数据处理方法较为准确。
综上所述,本申请实施例提供了一种音频数据处理方法,该音频数据处理方法通过将音频数据的至少两种音频特征输入对应的判别模型,可以得到与每个音频特征对应的用户特征,如此便能根据至少两种音频特征确定音频数据对应的目标用户特征。上述技术方案,解决了相关技术中音频数据处理方法准确性较低的问题。达到了提高音频数据处理方法准确性的效果。
在一个示例性实施例中,音频数据处理方法可以应用于服务器中,训练音频数据以及该训练音频数据对应的用户特征可以从数据库获取,或者,服务器也可以获取终端上传的训练音频数据,再由工作人员人工标定该训练音频数据的用户特征,或者,服务器也可以获取终端上传的训练音频数据以及该训练音频数据对应的用户特征,服务器获取训练音频数据后可以对该训练音频数据进行预处理,并获取训练音频数据的至少两种音频特征,根据训练音频数据的至少两种音频特征以及训练音频数据对应的用户该特征分别训练至少两个初始判别模型,得到至少两个判别模型。
上述步骤为获取判别模型的步骤,以下步骤为使用判别模型得到目标用户特征的步骤。
服务器可以获取终端上传的原始音频数据,并对原始音频数据进行预处理,得到音频数据。获取音频数据的至少两种音频特征,并将每个音频特征输入对应的判别模型,得到至少两种音频特征对应的至少两个用户特征,根据至少两个用户特征确定音频数据对应的目标用户特征。
图6是本申请实施例提供的一种音频数据处理装置的框图。参考图6可以看出,该音频数据处理装置600可以包括:
获取模块601,用于获取音频数据的至少两种音频特征,至少两种音频特征与至少两个判别模型一一对应,每个判别模型用于根据对应的音频特征输出用户特征。
输入模块602,用于将每个音频特征输入对应的判别模型,得到至少两种音频特征对应的至少两个用户特征。
确定模块603,用于根据至少两个用户特征确定音频数据对应的目标用户特征。
综上所述,本申请实施例提供了一种音频数据处理装置,该音频数据处理装置通过将音频数据的至少两种音频特征输入对应的判别模型,可以得到与每个音频特征对应的用户特征,如此便能根据至少两种音频特征确定音频数据对应的目标用户特征。上述技术方案,解决了相关技术中音频数据处理方法准确性较低的问题。达到了提高音频数据处理方法准确性的效果。
可选地,音频数据处理装置还包括:
数据获取模块,用于获取原始音频数据。
预处理模块,用于对原始音频数据进行预处理,得到音频数据,预处理包括重采样,预加重以及去除音频信号中的静音部分中的至少一种。
可选地,音频数据处理装置还包括:
训练数据获取模块,用于获取训练音频数据以及训练音频数据对应的用户特征。
特征获取模块,用于获取训练音频数据的至少两种音频特征。
训练模块,用于根据训练音频数据的至少两种音频特征以及训练音频数据对应的用户该特征分别训练至少两个初始判别模型,得到至少两个判别模型。
可选地,每个用户特征包括至少一类子特征,用户特征的数量为至少三个,确定模块603还用于将至少三个用户特征中,每一类子特征中出现次数最多的子特征确定为目标用户特征中的子特征。
可选地,用户特征中的子特征包括性别信息和情绪类型中的至少一种。
可选地,判别模型包括深度学习神经网络模型,高斯混合模型,隐马尔可夫模型以及主成分分析模型中的至少一种。
可选地,音频特征包括基频特征,共振峰,频谱包络特征以及声压级特征中的至少两种。
图7是本申请实施例提供的一种音频数据处理装置700的结构示意图,该音频数据处理装置700可以为服务器。示例地,如图7所示,该音频数据处理装置700包括中央处理单元(Central Processing Unit,CPU)701、存储器702,以及连接存储器702和中央处理单元701的系统总线703,存储器702可以包括诸如硬盘或者紧凑型光盘只读储存器(CompactDisc Read-Only Memory,CD-ROM)之类的计算机可读介质(未示出)。
不失一般性,计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦写可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。
上述存储器702还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行,以实现本申请实施例提供的音频数据处理方法。
本申请实施例还提供了一种存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现如上述方法实施例所提供的音频数据处理方法。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种音频数据处理方法,其特征在于,所述方法包括:
获取音频数据的至少两种音频特征,所述至少两种音频特征与至少两个判别模型一一对应,每个所述判别模型用于根据对应的音频特征输出用户特征;
将每个所述音频特征输入对应的判别模型,得到所述至少两种音频特征对应的至少两个用户特征;
根据所述至少两个用户特征确定所述音频数据对应的目标用户特征。
2.根据权利要求1所述的方法,其特征在于,所述获取音频数据的至少两种音频特征之前,所述方法还包括:
获取训练音频数据以及所述训练音频数据对应的用户特征;
获取所述训练音频数据的至少两种音频特征;
根据所述训练音频数据的至少两种音频特征以及所述训练音频数据对应的用户特征分别训练至少两个初始判别模型,得到所述至少两个判别模型。
3.根据权利要求1所述的方法,其特征在于,每个所述用户特征包括至少一类子特征,所述用户特征的数量为至少三个,
所述根据所述至少两个用户特征确定所述音频数据对应的目标用户特征,包括:
将至少三个所述用户特征中,每一类子特征中出现次数最多的子特征确定为所述目标用户特征中的子特征。
4.根据权利要求3所述的方法,其特征在于,所述用户特征中的子特征包括性别信息和情绪类型中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述获取音频数据的至少两种音频特征之前,所述方法还包括:
获取原始音频数据;
对所述原始音频数据进行预处理,得到所述音频数据,所述预处理包括重采样,预加重以及去除所述初始音频信号中的静音部分中的至少一种。
6.根据权利要求1或3任一所述的方法,其特征在于,所述判别模型包括深度学习神经网络模型,高斯混合模型,隐马尔可夫模型以及主成分分析模型中的至少一种。
7.根据权利要求1所述的方法,其特征在于,所述音频特征包括:
基频特征,共振峰,频谱包络特征以及声压级特征中的至少两种。
8.一种音频数据处理装置,其特征在于,所述音频数据处理装置包括:
获取模块,用于获取音频数据的至少两种音频特征,所述至少两种音频特征与至少两个判别模型一一对应,每个所述判别模型用于根据对应的音频特征输出用户特征;
输入模块,用于将每个所述音频特征输入对应的判别模型,得到所述至少两种音频特征对应的至少两个用户特征;
确定模块,用于根据所述至少两个用户特征确定所述音频数据对应的目标用户特征。
9.一种音频数据处理设备,其特征在于,所述音频数据处理设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的音频数据处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的音频数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010477575.8A CN111599381A (zh) | 2020-05-29 | 2020-05-29 | 音频数据处理方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010477575.8A CN111599381A (zh) | 2020-05-29 | 2020-05-29 | 音频数据处理方法、装置、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111599381A true CN111599381A (zh) | 2020-08-28 |
Family
ID=72185828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010477575.8A Pending CN111599381A (zh) | 2020-05-29 | 2020-05-29 | 音频数据处理方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111599381A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070198261A1 (en) * | 2006-02-21 | 2007-08-23 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN104700843A (zh) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | 一种年龄识别的方法及装置 |
US20170171280A1 (en) * | 2015-12-15 | 2017-06-15 | Line Corporation | Method and system for video call using two-way communication of visual or auditory effect |
US20180268826A1 (en) * | 2015-09-25 | 2018-09-20 | Voiceage Corporation | Method and system for decoding left and right channels of a stereo sound signal |
CN109859772A (zh) * | 2019-03-22 | 2019-06-07 | 平安科技(深圳)有限公司 | 情绪识别方法、装置及计算机可读存储介质 |
CN109961776A (zh) * | 2017-12-18 | 2019-07-02 | 上海智臻智能网络科技股份有限公司 | 语音信息处理装置 |
CN110956971A (zh) * | 2019-12-03 | 2020-04-03 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、终端及存储介质 |
-
2020
- 2020-05-29 CN CN202010477575.8A patent/CN111599381A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070198261A1 (en) * | 2006-02-21 | 2007-08-23 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN104700843A (zh) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | 一种年龄识别的方法及装置 |
US20180268826A1 (en) * | 2015-09-25 | 2018-09-20 | Voiceage Corporation | Method and system for decoding left and right channels of a stereo sound signal |
US20170171280A1 (en) * | 2015-12-15 | 2017-06-15 | Line Corporation | Method and system for video call using two-way communication of visual or auditory effect |
CN109961776A (zh) * | 2017-12-18 | 2019-07-02 | 上海智臻智能网络科技股份有限公司 | 语音信息处理装置 |
CN109859772A (zh) * | 2019-03-22 | 2019-06-07 | 平安科技(深圳)有限公司 | 情绪识别方法、装置及计算机可读存储介质 |
CN110956971A (zh) * | 2019-12-03 | 2020-04-03 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
US10388279B2 (en) | Voice interaction apparatus and voice interaction method | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
CN108305641B (zh) | 情感信息的确定方法和装置 | |
CN110148400B (zh) | 发音类型的识别方法、模型的训练方法、装置及设备 | |
US10573307B2 (en) | Voice interaction apparatus and voice interaction method | |
CN109767765A (zh) | 话术匹配方法及装置、存储介质、计算机设备 | |
CN111916111A (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN108305618B (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
CN110111778B (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN113112992B (zh) | 一种语音识别方法、装置、存储介质和服务器 | |
CN113486970B (zh) | 阅读能力评测方法及装置 | |
CN114627896A (zh) | 语音评测方法、装置、设备及存储介质 | |
CN116741155A (zh) | 语音识别方法、语音识别模型的训练方法、装置及设备 | |
CN113053409B (zh) | 音频测评方法及装置 | |
CN111599381A (zh) | 音频数据处理方法、装置、设备及计算机存储介质 | |
CN111199750B (zh) | 一种发音评测方法、装置、电子设备及存储介质 | |
CN114925159A (zh) | 用户情感分析模型训练方法、装置、电子设备及存储介质 | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
CN114067807A (zh) | 音频数据处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200828 |
|
RJ01 | Rejection of invention patent application after publication |