CN113806586B - 数据处理方法、计算机设备以及可读存储介质 - Google Patents

数据处理方法、计算机设备以及可读存储介质 Download PDF

Info

Publication number
CN113806586B
CN113806586B CN202111369659.0A CN202111369659A CN113806586B CN 113806586 B CN113806586 B CN 113806586B CN 202111369659 A CN202111369659 A CN 202111369659A CN 113806586 B CN113806586 B CN 113806586B
Authority
CN
China
Prior art keywords
audio
emotion
convolution
attribute
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111369659.0A
Other languages
English (en)
Other versions
CN113806586A (zh
Inventor
彭博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111369659.0A priority Critical patent/CN113806586B/zh
Publication of CN113806586A publication Critical patent/CN113806586A/zh
Application granted granted Critical
Publication of CN113806586B publication Critical patent/CN113806586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、计算机设备以及可读存储介质,其中方法包括:获取音频数据,对音频数据进行属性识别,得到音频数据对应的目标音频基础属性;根据至少两个音频基础属性与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签;至少两个音频情绪标签包括目标音频情绪标签;为音频数据绑定目标音频情绪标签。本申请实施例可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。采用本申请,可以自动完成对音频数据的情绪分类,进而提高对音频数据进行情绪标签绑定的效率。

Description

数据处理方法、计算机设备以及可读存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、计算机设备以及可读存储介质。
背景技术
随着音频数据在生活中应用愈加广泛,划分音频数据情绪越来越受人重视。
实际应用中,通常可以通过歌曲情绪类型的选择在音乐应用中搜索相匹配的歌曲,而这功能的实现就需要事先为歌曲设置好对应的歌曲情绪类型,目前通常是通过人工听歌、人工分析以得到某首歌曲的歌曲情绪类型,然后再将该通过人为经验所得出的歌曲情绪类型与该歌曲进行绑定,这样可能会存在不同的分析人员对同一首歌曲所分析得到的歌曲情绪类型不同,导致所分析出的歌曲情绪类型的准确度不稳定,即无法保证歌曲情绪类型的准确性,而且人工分析的方式也会导致识别歌曲情绪类型的效率过低。
发明内容
本申请实施例提供一种数据处理方法、计算机设备以及可读存储介质,可以保证所识别的音频情绪标签的准确性,且可以提高识别音频情绪标签的效率。
本申请一方面提供了一种数据处理方法,包括:
获取音频数据,对音频数据进行属性识别,得到音频数据对应的目标音频基础属性;
根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签;至少两个音频情绪标签包括目标音频情绪标签;
为音频数据绑定目标音频情绪标签。
进一步地,获取音频数据,包括:
获取原始音频,对原始音频进行频谱变换,得到原始音频对应的频谱图;
对频谱图进行非线性变换滤波处理,得到滤波后的频谱图,将滤波后的频谱图确定为音频数据。
进一步地,对音频数据进行属性识别,得到音频数据对应的目标音频基础属性,包括:
获取音频属性识别模型;音频属性识别模型包括属性卷积层、属性池化层以及属性全连接层;
将音频数据输入属性卷积层,通过属性卷积层对音频数据进行卷积处理,得到音频数据对应的音频卷积特征;
将音频卷积特征输入至属性池化层,通过属性池化层对音频卷积特征进行池化处理,得到音频池化特征;
通过音频属性识别模型中的属性全连接层对音频池化特征进行全连接处理,得到目标音频基础属性。
进一步地,通过属性卷积层对音频数据进行卷积处理,得到音频数据对应的音频卷积特征,包括:
通过卷积组件对音频数据进行卷积处理,得到音频数据对应的待标准化卷积特征,将待标准化卷积特征输入到标准化组件;
通过标准化组件对待标准化卷积特征进行标准化处理,得到待激活卷积特征,将待激活卷积特征输入到激活组件;
通过激活组件对待激活卷积特征进行激活处理,得到待池化卷积特征,将待池化卷积特征输入到池化组件;
通过池化组件对待池化卷积特征进行池化处理,得到待过滤卷积特征,将待过滤卷积特征输入到过滤组件;
通过过滤组件对待过滤卷积特征进行过滤处理,得到音频卷积特征。
进一步地,根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签,包括:
根据目标音频基础属性,在至少两个映射基础属性组中获取目标映射基础属性组;目标映射基础属性组中的每个映射基础属性均属于目标音频基础属性;
将与目标映射基础属性组具有映射关系的音频情绪标签,确定为音频数据对应的目标音频情绪标签。
进一步地,根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签,包括:
将音频数据和目标音频基础属性输入至音频情绪识别模型;音频情绪识别模型是根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系以及样本音频数据所训练得到的;
通过音频情绪识别模型对音频数据和目标音频基础属性进行情绪识别,得到音频数据对应的目标音频情绪标签。
进一步地,通过音频情绪识别模型对音频数据和目标音频基础属性进行情绪识别,得到音频数据对应的目标音频情绪标签,包括:
通过音频情绪识别模型中的情绪卷积层对音频数据和目标音频基础属性进行卷积处理,得到音频数据对应的第一情绪卷积特征,以及目标音频基础属性对应的第二情绪卷积特征;
对第一情绪卷积特征和第二情绪卷积特征进行特征融合,得到情绪卷积特征;
通过音频情绪识别模型中的情绪池化层对情绪卷积特征进行池化处理,得到情绪卷积特征对应的情绪池化特征;
通过音频情绪识别模型中的情绪全连接层对情绪池化特征进行全连接处理,得到音频数据对应的目标音频情绪标签。
进一步地,还包括:
获取音频推送请求;音频推送请求携带目标音频情绪标签;
在音频库中获取携带目标音频情绪标签的推送音频数据,将推送音频数据发送至发起音频推送请求的终端设备。
本申请一方面提供了一种数据处理装置,包括:
属性获取模块,用于获取音频数据,对音频数据进行属性识别,得到音频数据对应的目标音频基础属性;
情绪获取模块,用于根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签;至少两个音频情绪标签包括目标音频情绪标签;
标签绑定模块,用于为音频数据绑定目标音频情绪标签。
其中,属性获取模块包括:
频谱图获取单元,用于获取原始音频,对原始音频进行频谱变换,得到原始音频对应的频谱图;
音频获取单元,用于对频谱图进行非线性变换滤波处理,得到滤波后的频谱图,将滤波后的频谱图确定为音频数据;
属性模型获取单元,用于获取音频属性识别模型;音频属性识别模型包括属性卷积层、属性池化层以及属性全连接层;
音频卷积单元,用于将音频数据输入属性卷积层,通过属性卷积层对音频数据进行卷积处理,得到音频数据对应的音频卷积特征;
音频池化单元,用于将音频卷积特征输入至属性池化层,通过属性池化层对音频卷积特征进行池化处理,得到音频池化特征;
音频全连接单元,用于通过音频属性识别模型中的属性全连接层对音频池化特征进行全连接处理,得到目标音频基础属性。
其中,属性卷积层包括卷积组件、标准化组件、激活组件、池化组件、过滤组件;
音频卷积单元包括:
属性卷积子单元,用于通过卷积组件对音频数据进行卷积处理,得到音频数据对应的待标准化卷积特征,将待标准化卷积特征输入到标准化组件;
属性标准化子单元,用于通过标准化组件对待标准化卷积特征进行标准化处理,得到待激活卷积特征,将待激活卷积特征输入到激活组件;
属性激活子单元,用于通过激活组件对待激活卷积特征进行激活处理,得到待池化卷积特征,将待池化卷积特征输入到池化组件;
属性池化子单元,用于通过池化组件对待池化卷积特征进行池化处理,得到待过滤卷积特征,将待过滤卷积特征输入到过滤组件;
属性全连接子单元,用于通过过滤组件对待过滤卷积特征进行过滤处理,得到音频卷积特征。
其中,情绪获取模块包括:
属性组获取单元,用于根据目标音频基础属性,在至少两个映射基础属性组中获取目标映射基础属性组;目标映射基础属性组中的每个映射基础属性均属于目标音频基础属性;
第一标签确定单元,用于将与目标映射基础属性组具有映射关系的音频情绪标签,确定为音频数据对应的目标音频情绪标签。
其中,情绪获取模块包括:
情绪模型输入单元,用于将音频数据和目标音频基础属性输入至音频情绪识别模型;音频情绪识别模型是根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系以及样本音频数据所训练得到的;
第二标签确定单元,用于通过音频情绪识别模型对音频数据和目标音频基础属性进行情绪识别,得到音频数据对应的目标音频情绪标签。
其中,音频情绪识别模型包括情绪卷积层、情绪池化层以及情绪全连接层;
第二标签确定单元包括:
情绪卷积子单元,用于通过音频情绪识别模型中的情绪卷积层对音频数据和目标音频基础属性进行卷积处理,得到音频数据对应的第一情绪卷积特征,以及目标音频基础属性对应的第二情绪卷积特征;
特征融合子单元,用于对第一情绪卷积特征和第二情绪卷积特征进行特征融合,得到情绪卷积特征;
情绪池化子单元,用于通过音频情绪识别模型中的情绪池化层对情绪卷积特征进行池化处理,得到情绪卷积特征对应的情绪池化特征;
情绪全连接子单元,用于通过音频情绪识别模型中的情绪全连接层对情绪池化特征进行全连接处理,得到音频数据对应的目标音频情绪标签。
其中,数据处理装置还包括:
推送获取模块,用于获取音频推送请求;音频推送请求携带目标音频情绪标签;
音频发送模块,用于在音频库中获取携带目标音频情绪标签的推送音频数据,将推送音频数据发送至发起音频推送请求的终端设备。
本申请另一方面提供了一种计算机设备,包括:处理器、存储器以及网络接口;
处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,存储器用于存储程序代码,处理器用于调用程序代码,以执行如本申请实施例中一方面中的方法。
本申请另一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序适于由处理器加载并执行如本申请实施例中一方面中的方法。
本申请另一方面提供了一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现如本申请实施例中一方面中的方法。
本申请实施例通过获取音频数据,并对音频数据进行属性识别,进而获取音频数据对应的目标音频基础属性,再根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签,目标音频情绪标签的选择综合考虑了至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系与对目标音频基础属性的特征分析,可以提升识别目标音频情绪标签的准确性,所以为音频数据绑定的目标音频情绪标签与对应的音频数据更加匹配。而且通过至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系与对目标音频基础属性的特征分析,可以实现对目标音频情绪标签的自动化识别,提高了识别效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构示意图;
图2是本申请实施例提供的一种用于音频数据名称搜索的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图一;
图4a是本申请实施例提供的一种数据处理方法的流程示意图二;
图4b是本申请实施例提供的一种用于目标音频情绪标签识别的场景示意图;
图5是本申请实施例提供的一种网络模型结构示意图;
图6是本申请实施例提供的一种数据处理方法的流程示意图三;
图7是本申请实施例提供的一种基于音频情绪识别模型的数据处理流程示意图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,本申请实施例中的文本处理或图像处理或其他处理过程可以使用AI模型。
请参见图1,是本申请实施例提供的一种网络架构示意图。该网络架构可以包括服务器100和多个终端设备(如图1所示,具体包括终端设备200a、终端设备200b、终端设备200c等)。以终端设备200a为例,终端设备200a可以获取目标对象发起的音频推送请求,然后终端设备200a将获取的音频推送请求发送给服务器100,终端设备200a也可以接收从服务器100发送过来的调用指令或音频数据,服务器100 可以基于终端设备200a发送的音频推送请求中所携带的目标音频情绪标签,在音频库中获取携带目标音频情绪标签的推送音频数据,将推送音频数据发送至发起音频推送请求的终端设备200a,终端设备200a就可以将从服务器100获取的推送音频数据向目标对象进行展示,以供目标对象选择播放。服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器100可以通过网络与每个终端设备进行通信,每个终端设备均可以安装音频播放应用,服务器100可以为该音频播放应用对应的后台服务器,因此,每个终端设备均可以通过该音频播放应用对应的客户端与服务器100进行数据传递。终端设备可以包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、POS(Point Of Sales,销售点)机、可穿戴设备(例如智能手表、智能手环等)、智能语音交互设备、智能家电、车载终端、飞行器等。每个终端设备都可以安装音频播放应用,使用音频播放应用可以进行音频搜索以及点击播放等操作。本申请实施例可以应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
请参见图2,图2是本申请实施例提供的一种用于音频情绪标签绑定的场景示意图。在图2中,以终端设备200c为例,终端设备200c上可以显示音频搜索界面210、音频类型搜索输入框211与音频搜索结果页面212等音频相关信息,音频搜索界面210可以包括音频类型搜索输入框211与音频搜索结果页面212,音频类型搜索输入框211可以用来输入目标对象需要输入的搜索内容,如音频类型、音频数据名称等,目标对象可以通过点击音频搜索结果页面212中的音频来播放该音频。其中,音频搜索结果页面212也可以显示某类情绪标签的音频数据集合,点击进入某类情绪标签的音频数据集合后,可以滑动浏览音频数据集合中的音频名称,再选定心仪的音频数据进行播放。
其中,服务器100可以获取由目标对象在多媒体搜索输入框211中所输入的音频数据名称或音频类型。例如,服务器100可以在音频数据库中获取在多媒体搜索输入框211中所输入的音频数据名称相匹配的目标音频数据,以及与目标音频数据的音频情绪标签相同的音频数据作为目标对象可能想要搜索的关联音频数据,进而服务器100可以将目标音频数据以及关联音频数据共同发送到终端设备200c,由终端设备200c在音频搜索结果页面212中进行展示。又例如,服务器100也可以获取在多媒体搜索输入框211中所输入的音频类型中的音频情绪标签,在音频数据库中获取携带该音频情绪标签的音频数据,进而服务器100可以将携带该音频情绪标签的音频数据共同发送到终端设备200c,由终端设备200c在音频搜索结果页面212中进行展示。
其中,服务器100可以事先预配置好音频数据库中的多个音频数据分别对应的音频情绪标签,识别音频数据对应的音频情绪标签的过程可以一并参见图2,在图2中,服务器100可以获取原始音频,将音频数据进行频谱变换滤波处理(例如梅尔变换滤波),得到音频数据。服务器100可以将音频数据输入音频属性识别模型,得到目标音频基础属性。服务器100可以将音频数据与目标音频基础属性输入音频情绪识别模型,得到目标音频情绪标签,服务器100可以为音频数据绑定目标音频情绪标签;目标音频基础属性可以包括价效、强度、节奏、音调;其中,音频情绪识别模型可以通过至少两个音频基础属性与至少两个音频情绪标签之间的映射关系训练得到。
请参见图3,是本申请实施例提供的一种数据处理方法的流程示意图一,方法可以由计算机设备执行,计算机设备可以为终端设备或服务器,其中方法可以包括:
S301,获取音频数据,对音频数据进行属性识别,得到音频数据对应的目标音频基础属性;
具体的,音频数据就是数字化的声音数据。其中,计算机设备在对音频库进行预配置时,可以从音频库中获取任意一个未知的原始音频,通过梅尔滤波器将原始音频转化为梅尔频谱图(即音频数据),然后可以对梅尔频谱图(即音频数据)进行属性识别,得到对应的目标音频基础属性。目标音频基础属性可以由价效、强度、节奏、音调四个不同维度的属性组合而成的综合属性,例如,目标音频基础属性可以包括价效正,强度低,节奏中;又例如,目标音频基础属性可以包括价效正,强度低,节奏慢。可以理解的是,音频是多媒体中的一种重要的媒体,是声音信号的形式。作为一种信息的载体,音频可分为语音、音乐和其它声音三种类型。不同的类型将具有不同的内在特征,这些内在特征可划分为三级,即就是最低层的物理样本级,中间层的声学特征级和最高层的语义级。物理样本级包含的特征有采样频率、时间刻度、样本、格式、编码等;声学特征级包含的特征有感知特征和声学特征,其中感知特征有音调、音高、旋律、节奏等,声学特征包含能量、过零率及音频的结构化表示等;语义级包括音乐叙事、音频对象描述、语音识别文本等。
S302,根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签;至少两个音频情绪标签包括目标音频情绪标签;
具体的,基础属性组可以由价效、强度、节奏、音调四个不同方面的属性组合而成,音频情绪标签可以是“安静”、“悲伤”、“抒情”、“浪漫”、“滑稽”、“进取”、“紧张”、“恐怖”、“轻快”、“恢弘”、“悬念”、“无”等。根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签。目标音频情绪标签可以是安静、悲伤、抒情、浪漫、滑稽、进取、紧张、恐怖、轻快、恢弘、悬念、无,等。目标映射基础属性组与音频情绪标签之间的映射关系可以是:(价效正,强度低,节奏慢)对应安静;(价效负,节奏慢)对应悲伤;(价效正,音调高)对应抒情;(价效正,节奏快)对应进取;(价效负,强度高,节奏快)对应紧张;(价效正,音调高)对应恐怖;(价效正,强度低,节奏中)对应轻快;(价效正,音调低)对应恢弘;(价效负,节奏慢)对应悬念。需要说明的是,若目标映射基础属性组为(价效正,强度低,节奏慢),则不管音调为“低”“中”“高”“空”目标音频情绪标签皆对应安静,四个维度价效、强度、节奏、音调中任意一个或多个维度为空时的目标映射基础属性组与音频情绪标签之间的映射关系皆可以参照上述(价效正,强度低,节奏慢)对应安静案例。
S303,为音频数据绑定目标音频情绪标签。
具体的,将目标音频情绪标签绑定至音频数据中。后续当在终端设备的音频类型搜索输入框中输入音频数据类型等搜索内容时,计算机设备可以对目标对象输入的搜索内容分析后,得到目标音频情绪标签,可以根据目标情绪标签将已经绑定了目标音频情绪标签的所有音频数据以集合的形式推送给终端设备。
进一步,绑定了目标音频情绪标签的所有音频数据集合可以应用于广告系统或音频数据的内容理解,进而可以更好的对音频数据进行隐藏属性和隐藏情绪的挖掘与发现。
本申请实施例通过对音频数据进行属性识别得到目标音频基础属性,可以得到音频数据的确切属性,增加对音频数据的了解程度,再基于目标音频基础属性对音频数据进行情绪识别,得到目标音频情绪标签,可以获得音频数据最突出表达的情绪,通过为音频数据绑定音频情绪标签,进而达到按照情绪标签不同,对音频数据进行分类的效果。综上,通过识别目标音频基础属性,可以提高对音频数据分析的准确性,基于目标音频基础属性获得的音频情绪标签,可以实现对目标音频情绪标签的自动化识别,提高了识别效率。
请参见图4a,是本申请实施例提供的一种数据处理方法的流程示意图二,方法可以由计算机设备执行,计算机设备可以为终端设备或服务器,其中方法可以包括:
S401,获取原始音频,对原始音频进行频谱变换,得到原始音频对应的频谱图;
具体的,请一并参见图4b,是本申请实施例提供的一种用于目标音频情绪标签识别的场景示意图。在图4b中,原始音频可以是未经过处理,未经过压缩的脉冲编码调制(Pulse Code Modulation,PCM)信息,由二进制组成。原始音频可以是多媒体音频文件(WaveForm,WAV)格式。原始音频经过频谱变换得到的二维数据称作频谱图,其中,频谱变换可以是傅里叶变换,傅里叶变换可以是快速傅里叶变换(Fast Fourier Transform,FFT)、连续傅立叶变换(Continuous Fourier Transform,CFT)、离散傅立叶变换(DiscreteFourier Transform,DFT)及短时傅里叶变换(Short-time Fourier Transform,STFT),可以通过短时傅里叶变换得到原始音频对应的频谱图。短时傅里叶变换通过选择一个时频局部化的窗函数,假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的,移动窗函数,使一维音频数据f(t)与窗函数g(t)之积在不同的有限时间宽度内是平稳信号。
S402,对频谱图进行非线性变换滤波处理,得到滤波后的频谱图,将滤波后的频谱图确定为音频数据;
具体的,非线性变换滤波可归结为求条件期望的问题,因为人耳对频率的感知不是线性的,为了使频率经过一个滤波器后对人耳感知呈线性关系,可以采用非线性变换滤波,常用的非线性变换滤波有扩展卡尔曼滤波(ExtendKalmanFilter,EKF)、不敏卡尔曼滤波(Unscented Kalman Filter,UKF)、粒子滤波(Particle Filter,PF)及梅尔倒频谱系数(Mel-Frequency Cipstal Coefficients, MFCC)等,非线性滤波变换可以是引用梅尔倒频谱系数的梅尔频谱滤波变换,在图4b中,对频谱图进行梅尔滤波变换滤波,得到梅尔频谱图,将梅尔滤波图确定为音频数据。
S403,获取音频属性识别模型;音频属性识别模型包括属性卷积层、属性池化层以及属性全连接层;
具体的,请一并参见图5,是本申请实施例提供的一种网络模型结构示意图。在图5中,计算机设备可以获取音频属性识别模型,音频属性识别模型是一个由多层结构构成的模型,音频属性识别模型可以包括属性卷积层、属性池化层以及属性全连接层,其中,在一个音频属性识别模型中,可以包括多个属性卷积层、多个属性池化层以及多个属性全连接层。例如,一个音频属性识别模型可以包括三个属性卷积层、一个属性池化层以及一个属性全连接层。获取到的音频属性识别模型为已经训练好的音频属性识别模型。
其中,已经训练好的音频属性识别模型可以通过对初始音频属性识别模型进行训练得到。其训练过程为:从音频库中,获取样本音频数据,从目标音频基础属性库中获取样本音频数据对应的音频基础属性标签,通过初始音频属性识别模型对样本音频数据进行属性识别,得到第一预测属性,基于第一预测属性与音频基础属性标签之间的误差可以生成样本损失值;通过样本损失值可以对初始音频属性识别模型的模型参数进行调整,将调整后收敛的初始音频属性识别模型确定为音频属性识别模型。
S404,将音频数据输入属性卷积层,通过属性卷积层对音频数据进行卷积处理,得到音频数据对应的音频卷积特征;
具体的,请一并参见图5,在图5中,音频属性识别模型的属性卷积层可以是多层,也可以是一层,可根据对于属性的精细划分程度进行属性卷积层层数选择。属性卷积层可以是将音频数据从整体的大块数据划分成分散的小块数据的结构,将音频数据划分为小块数据后,可以更为容易的对音频数据进行音频特征求取。
S405,将音频卷积特征输入至属性池化层,通过属性池化层对音频卷积特征进行池化处理,得到音频池化特征;
具体的,请一并参见图5,在图5中,属性池化层可以是将属性卷积层获取的音频卷积特征进行标准化处理的过程,将音频卷积特征进行标准化处理,可以删减冗余音频卷积特征,精炼音频卷积特征,将经过池化后的音频卷积特征确定为音频池化特征。其中,属性池化层可以包括全局池化处理和丢弃处理,通过全局池化处理,可以对音频卷积特征进行标准化处理,丢弃处理可以防止属性池化层过拟合。
S406,通过音频属性识别模型中的属性全连接层对音频池化特征进行全连接处理,得到目标音频基础属性。
具体的,请一并参见图5,在图5中,通过属性全连接层对音频池化特征进行全连接处理,可以当作对属性池化层的补充,属性全连接层可以防止属性池化层在标准化处理过程中丢失掉过多的音频卷积特征,进而影响得到的目标音频基础属性的准确性,通过属性全连接层的重新拟合,可以将属性池化层在标准化处理过程中丢失掉的过多的音频卷积特征重新获取。属性全连接层可以对音频池化特征进行全连接处理,得到基础属性特征,获取的基础属性特征比音频池化特征更加单一,特征更加明显,属性全连接层可以进一步对基础属性特征进行分类,以得到对应的属性标签,即目标音频基础属性。
S407,将音频数据和目标音频基础属性输入至音频情绪识别模型;音频情绪识别模型是根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系以及样本音频数据所训练得到的;
具体的,请一并参见图4b,在图4b中,音频情绪识别模型可以根据需要对音频数据与目标音频基础属性进行情绪特征提取,进而达到音频情绪识别的作用。音频情绪识别模型是根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系以及样本音频数据所训练得到的。音频数据和目标音频基础属性可以输入到已经训练好的音频情绪识别模型进行情绪识别。
其中,已经训练好的音频情绪识别模型可以通过对初始音频情绪识别模型进行训练得到。其训练过程为:从音频库中,获取样本音频数据,从目标音频基础属性库中获取至少两个映射基础属性组与样本音频数据对应的音频基础属性标签,从目标音频情绪标签库中获取至少两个音频情绪标签,生成至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系,通过该映射关系确定音频基础属性标签对应的样本音频情绪标签;通过初始音频情绪识别模型对样本音频数据与音频基础属性标签进行情绪识别,得到第一预测标签,基于第一预测标签与样本音频情绪标签之间的误差可以生成样本损失值;样本损失值可以对初始音频情绪识别模型的模型参数进行调整,将调整后收敛的初始音频情绪识别模型确定为音频情绪识别模型。
S408,通过音频情绪识别模型对音频数据和目标音频基础属性进行情绪识别,得到音频数据对应的目标音频情绪标签。
具体的,请一并参见图4b,在图4b中,将音频数据与目标音频基础属性输入音频情绪识别模型得到音频数据对应的目标音频情绪标签可以采用离散建模等方式。通过将音频数据与目标音频基础属性输入音频情绪识别模型得到音频数据对应的目标音频情绪标签的方式具有普遍性,对于目标映射基础属性组与音频情绪标签之间的映射关系比较隐含的情况,通过音频情绪识别模型对音频数据和目标音频基础属性进行情绪识别可以更加全面的分析出隐含的目标音频情绪标签。例如,在音频数据识别中,乐器加速演奏具有“滑稽”的目标音频情绪标签效果;“抒情”目标音频情绪标签叠加“轻柔”目标音频情绪标签可以得到“浪漫”目标音频情绪标签的效果。
需要说明的是,目标音频基础属性可以是价效、强度、节奏、音调,在至少两个映射基础属性组中获取目标映射基础属性组可以是包含价效、强度、节奏、音调四个维度目标音频基础属性的目标映射基础属性组,且目标映射基础属性组中的每个映射基础属性均属于目标音频基础属性。其中,至少两个映射基础属性组和目标映射基础属性组包含的四个维度目标音频基础属性中,价效、强度、节奏、音调四个维度中任意一个或多个维度目标音频基础属性皆可以为空。例如,至少两个映射基础属性组可以是(价效正,强度低,节奏慢)、(价效负,强度高,节奏快)等,其中,目标映射基础属性组可以是(价效正,强度低,节奏慢),在此目标映射基础属性组中音调维度即为空。
S409,为音频数据绑定目标音频情绪标签。
本步骤的具体过程可以参见上述图3所对应实施例中的S303,这里不再进行赘述。
可选的,本申请实施例除了S407-S408所提供的通过音频情绪识别模型来识别音频数据对应的目标音频情绪标签之外,还可以有另一种方式来识别音频数据对应的目标音频情绪标签。另一种方式具体可以为:根据目标音频基础属性,在至少两个映射基础属性组中获取目标映射基础属性组;目标映射基础属性组中的每个映射基础属性均属于目标音频基础属性;将与目标映射基础属性组具有映射关系的音频情绪标签,确定为音频数据对应的目标音频情绪标签。
本申请实施例通过对原始音频进行频谱变换后进行非线性变换滤波处理,得到音频数据,可以将人耳对频率的非线性感知转换为针对人耳来说的线性感知,通过获取音频属性识别模型,将音频数据输入音频属性识别模型中,借助音频属性识别模型得到音频数据的属性,可以提高音频数据类型的显明程度,借组卷积层对音频数据进行小范围的分析,可以获取音频数据的隐藏特征;借组池化层对音频卷积特征进行标准化处理,可以提高对属性分析的正确性;借组全连接层对音频池化特征进行最后的特征融合,可以使属性由隐藏转为可视化。通过非线性变换滤波的处理,可以提升频谱图针对人耳的适用性。借组目标映射基础属性组与音频情绪标签之间的映射关系以及音频情绪识别模型,可以更加全面的发现音频数据与目标音频情绪标签之间的隐含映射关系,提升了目标音频情绪标签的识别的效率与准确性,而且,与人工进行目标音频情绪标签的识别方式相比,极大程度的节省了人力,提升了工作效率与产出占比。
请参见图6,是本申请实施例提供的一种数据处理方法的流程示意图三。图6所描述的方法流程为上述图4a对应实施例中步骤S404的具体实现过程,方法可以由计算机设备执行,计算机设备可以为终端设备或服务器,其中,属性卷积层包括卷积组件、标准化组件、激活组件、池化组件、过滤组件;
图6中的方法流程可以包括如下步骤:
S601,通过卷积组件对音频数据进行卷积处理,得到音频数据对应的待标准化卷积特征,将待标准化卷积特征输入到标准化组件;
具体的,请一并参见图5,卷积组件可以包括卷积窗口,通过卷积窗口可以将音频数据划分为大小相等的等份数据,对这些等份子数据进行卷积处理,得到子数据待标准化卷积特征,将子数据待标准化卷积特征进行特征向量融合,得到待标准化卷积特征,将待标准化卷积特征输入到标准化组件。例如,卷积窗口的数量可以为4个,音频数据I通过4个卷积窗口可以划分为子音频数据i1、子音频数据i2、子音频数据i3、子音频数据i4,对子音频数据i1、i2、i3、i4进行卷积处理,得到子数据待标准化卷积特征可以是R1、R2、R3、R4,将子数据待标准化卷积特征R1、R2、R3、R4进行特征向量融合,得到的待标准化卷积特征可以是R,待标准化卷积特征R= R1*R2*R3*R4。
S602,通过标准化组件对待标准化卷积特征进行标准化处理,得到待激活卷积特征,将待激活卷积特征输入到激活组件;
具体的,请一并参见图5,将待标准化卷积特征进行标准化处理后,可以将待标准化卷积特征等分后,提取待标准化卷积特征每一等份中的重要特征,将所有待标准化卷积特征每一等份中的重要特征融合后,得到待激活卷积特征,从而做到将待标准化卷积特征进行归一化后,将待激活卷积特征输入到激活组件。
S603,通过激活组件对待激活卷积特征进行激活处理,得到待池化卷积特征,将待池化卷积特征输入到池化组件;
具体的,请一并参见图5,通过激活组件可以将待激活卷积特征进行数据过滤,做一个非线性映射,清洗掉无用的噪声数据,留下有用的特征数据,从而达到激活效果。激活组件调用的激活函数可以是sigmoid函数、tanh函数、Relu函数等,例如,当选取Relu函数作为激活组件的激活函数时,会使一部分特征数据为零,这就造成了网络的稀疏性,并且减少了参数之间的相互依赖关系,在一定程度上缓解了过拟合的发生。再例如,当选取tanh函数作为激活组件的激活函数时,它是由双曲正弦和双曲余弦推导出来的,均值为0,所以实际应用中,可以运用至更广的使用范围中,降低对特征数据的要求。
S604,通过池化组件对待池化卷积特征进行池化处理,得到待过滤卷积特征,将待过滤卷积特征输入到过滤组件;
具体的,请一并参见图5,通过池化组件可以将待池化卷积特征进行一个重要特征的筛选过程,待池化卷积特征还是有很大的数据量级,为了减少待池化卷积特征中特征的数量,降低计算机资源消耗,同时缓解过度拟合,保留了有效的数据。例如,待池化卷积特征可以是L={(1,1,5,6),(2,4,7,8),(3,2,1,2),(1,0,3,4)},为了保留数据大部分信息,可以采用最大值化池化,因此,池化后的待过滤卷积特征K={6,8,3, 4}。
S605,通过过滤组件对待过滤卷积特征进行过滤处理,得到音频卷积特征。
具体的,请一并参见图5,通过过滤组件可以对带过滤卷积特征进行筛选,根据目标对象输入的音频类型对待过滤卷积特征进行弃留选择,将留下的待过滤卷积特征确定为音频卷积特征。例如,待过滤卷积特征可以是M={a,b,c,d,e,f,g,h},当采取随即失活的过滤处理,则音频卷积特征可以是N={a,c,e,g}。
本申请实施例通过将音频数据通过卷积组件、标准化组件、激活组件、池化组件、过滤组件等组件进行处理后,进而达到先将音频数据进行划分,再进行卷积处理,降低了音频数据特征提取难度,将待标准化卷积特征进行标准化处理可以提升待标准化卷积特征的归一性,将待激活卷积特征进行激活处理、池化处理、过滤处理等过程,可以提升对待激活卷积特征的筛选效果,进而得到高质量的音频卷积特征。因此本申请实施例的实施方法不仅增加了音频卷积特征的归一性,而且提高了音频卷积特征的质量,进而提高了对音频数据的分析转化率。
请参见图7,是本申请实施例提供的一种基于音频情绪识别模型的数据处理流程示意图。图7所描述的方法流程为上述图6对应实施例中步骤S605的具体实现过程,方法可以由计算机设备执行,计算机设备可以为终端设备或服务器,其中,音频情绪识别模型包括情绪卷积层、情绪池化层以及情绪全连接层;
图7中的方法流程可以包括如下步骤:
S701,通过音频情绪识别模型中的情绪卷积层对音频数据和目标音频基础属性进行卷积处理,得到音频数据对应的第一情绪卷积特征,以及目标音频基础属性对应的第二情绪卷积特征;
具体的,计算机设备可以将音频数据与目标音频基础属性输入音频情绪识别模型中的情绪卷积层,情绪卷积层可以将音频数据与目标音频基础属性划分成若干等分,通过情绪卷积层对将音频数据与目标音频基础属性划分成的若干等分进行情绪卷积特征提取,得到若干个子情绪卷积特征,将若干个子情绪卷积特征进行特征向量融合后得到情绪卷积特征,将对音频数据进行特征提取后的情绪卷积特征确定为第一情绪卷积特征,将对目标音频基础属性进行特征提取后的情绪卷积特征确定为第二情绪卷积特征。
S702,对第一情绪卷积特征和第二情绪卷积特征进行特征融合,得到情绪卷积特征;
具体的,获取第一情绪卷积特征的特征向量与第二情绪卷积特征的特征向量,将第一情绪卷积特征的特征向量与第二情绪卷积特征的特征向量进行向量卷积处理,进而达到对第一情绪卷积特征和第二情绪卷积特征进行特征融合,得到情绪卷积特征。其中,第一情绪卷积特征的特征向量可以是A,第二情绪卷积特征的特征向量可以是B,则情绪卷积特征C=A*B。
S703,通过音频情绪识别模型中的情绪池化层对情绪卷积特征进行池化处理,得到情绪卷积特征对应的情绪池化特征;
具体的,情绪池化层可以是对情绪卷积特征标准化处理,将情绪卷积特征通过情绪池化层,可以对冗余的情绪卷积特征进行过滤,减小情绪卷积特征的量级,更利于对情绪卷积特征进行分析。其中,情绪池化层可以包括全局池化处理和过滤处理,通过全局池化处理和过滤处理,可以对情绪卷积特征进行标准化处理,防止情绪池化层过拟合。
S704,通过音频情绪识别模型中的情绪全连接层对情绪池化特征进行全连接处理,得到音频数据对应的目标音频情绪标签。
具体的,情绪全连接层是对情绪池化层的一种接续,如果把情绪池化层理解为一种向下采的过程,那么情绪全连接层就是与之对应的将采样过的数据重新融合的过程。因此,当情绪池化层池化过多情绪卷积特征,导致最后得到目标音频情绪标签准确性会因此下降时,可以通过情绪全连接层对情绪池化特征进行重新拟合,进而得到更加精准的目标音频情绪标签。
可以理解的是,音频情绪识别模型可以包括情绪卷积层、情绪池化层以及情绪全连接层;音频情绪识别模型是一个由多层结构构成的模型,其中,在一个音频情绪识别模型中,可以包括多个情绪卷积层、多个情绪池化层以及多个情绪全连接层。例如,一个音频情绪识别模型可以包括六个情绪卷积层、一个情绪池化层以及一个情绪全连接层。
需要说明的是,服务器可以获取音频推送请求;音频推送请求携带目标音频情绪标签;在音频库中获取携带目标音频情绪标签的推送音频数据,将推送音频数据发送至发起音频推送请求的终端设备。
本申请实施例通过音频情绪识别模型的情绪卷积层、情绪池化层以及情绪全连接层对音频数据和目标音频基础属性进行卷积处理,进而达到情绪识别,通过将音频数据和目标音频基础属性卷积后,进行特征融合,进而得到目标音频情绪标签,可以极大程度降低音频数据映射到目标音频情绪标签的难度,本申请从目标音频基础属性出发,又借助音频数据本身的第一情绪卷积特征,最后得到对应的目标音频情绪标签。不仅将音频数据的属性予以充分挖掘运用,而且考虑到目标音频情绪标签之间的内在联系,因此本申请的音频情绪识别模型飞跃式的提高了模型的识别精度,增强了音频情绪识别模型的泛化能力。
请参见图8,是本申请实施例提供的一种数据处理装置的结构示意图。如图8所示,该数据处理装置1可以应用于上述图1对应实施例中的任意一个计算机设备,该数据处理装置1可以包括:属性获取模块11、情绪获取模块12、标签绑定模块13、推送获取模块14、音频发送模块15;
属性获取模块11,用于获取音频数据,对音频数据进行属性识别,得到音频数据对应的目标音频基础属性;
上述属性获取模块11的具体实施方式可以参见上述图3实施例中的步骤S301,这里不再进行赘述。
情绪获取模块12,用于根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签;至少两个音频情绪标签包括目标音频情绪标签;
上述情绪获取模块12的具体实施方式可以参见上述图3实施例中的步骤S302,这里不再进行赘述。
标签绑定模块13,用于为音频数据绑定目标音频情绪标签。
上述标签绑定模块13的具体实施方式可以参见上述图3实施例中的步骤S303,这里不再进行赘述。
其中,属性获取模块11包括:
频谱图获取单元111,用于获取原始音频,对原始音频进行频谱变换,得到原始音频对应的频谱图;
上述频谱图获取单元111的具体实施方式可以参见上述图4a实施例中的步骤S401,这里不再进行赘述。
音频获取单元112,用于对频谱图进行非线性变换滤波处理,得到滤波后的频谱图,将滤波后的频谱图确定为音频数据。
上述音频获取单元112的具体实施方式可以参见上述图4a实施例中的步骤S402,这里不再进行赘述。
属性模型获取单元113,用于获取音频属性识别模型;音频属性识别模型包括属性卷积层、属性池化层以及属性全连接层;
上述属性模型获取单元113的具体实施方式可以参见上述图4a实施例中的步骤S403,这里不再进行赘述。
音频卷积单元114,用于将音频数据输入属性卷积层,通过属性卷积层对音频数据进行卷积处理,得到音频数据对应的音频卷积特征;
其中,音频卷积单元114的具体实施方式可以参见上述图4a实施例中的步骤S404,这里不再进行赘述。
音频池化单元115,用于将音频卷积特征输入至属性池化层,通过属性池化层对音频卷积特征进行池化处理,得到音频池化特征;
上述音频池化单元115的具体实施方式可以参见上述图4a实施例中的步骤S405,这里不再进行赘述。
音频全连接单元116,用于通过音频属性识别模型中的属性全连接层对音频池化特征进行全连接处理,得到目标音频基础属性。
上述音频全连接单元116的具体实施方式可以参见上述图4a实施例中的步骤S406,这里不再进行赘述。
其中,属性卷积层包括卷积组件、标准化组件、激活组件、池化组件、过滤组件;
音频卷积单元114包括:
属性卷积子单元1141,用于通过卷积组件对音频数据进行卷积处理,得到音频数据对应的待标准化卷积特征,将待标准化卷积特征输入到标准化组件;
上述属性卷积子单元1141的具体实施方式可以参见上述图6实施例中的步骤S601,这里不再进行赘述。
属性标准化子单元1142,用于通过标准化组件对待标准化卷积特征进行标准化处理,得到待激活卷积特征,将待激活卷积特征输入到激活组件;
上述属性标准化子单元1142的具体实施方式可以参见上述图6实施例中的步骤S602,这里不再进行赘述。
属性激活子单元1143,用于通过激活组件对待激活卷积特征进行激活处理,得到待池化卷积特征,将待池化卷积特征输入到池化组件;
上述属性激活子单元1143的具体实施方式可以参见上述图6例中的步骤S603,这里不再进行赘述。
属性池化子单元1144,用于通过池化组件对待池化卷积特征进行池化处理,得到待过滤卷积特征,将待过滤卷积特征输入到过滤组件;
上述属性池化子单元1144的具体实施方式可以参见上述图6实施例中的步骤S604,这里不再进行赘述。
属性全连接子单元1145,用于通过过滤组件对待过滤卷积特征进行过滤处理,得到音频卷积特征。
上述属性全连接子单元1145的具体实施方式可以参见上述图6实施例中的步骤S605,这里不再进行赘述。
其中,情绪获取模块12包括:
属性组获取单元121,用于根据目标音频基础属性,在至少两个映射基础属性组中获取目标映射基础属性组;目标映射基础属性组中的每个映射基础属性均属于目标音频基础属性;
上述属性组获取单元121的具体实施方式可以参见上述图4a实施例中的步骤S409,这里不再进行赘述。
第一标签确定单元122,用于将与目标映射基础属性组具有映射关系的音频情绪标签,确定为音频数据对应的目标音频情绪标签。
上述第一标签确定单元122的具体实施方式可以参见上述图4a实施例中的步骤S409,这里不再进行赘述。
其中,情绪获取模块12包括:
情绪模型输入单元123,用于将音频数据和目标音频基础属性输入至音频情绪识别模型;音频情绪识别模型是根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系以及样本音频数据所训练得到的;
上述情绪模型输入单元123的具体实施方式可以参见上述图4a实施例中的步骤S407,这里不再进行赘述。
第二标签确定单元124,还用于通过音频情绪识别模型对音频数据和目标音频基础属性进行情绪识别,得到音频数据对应的目标音频情绪标签。
上述第二标签确定单元124的具体实施方式可以参见上述图4a实施例中的步骤S408,这里不再进行赘述。
其中,音频情绪识别模型包括情绪卷积层、情绪池化层以及情绪全连接层;
第二标签确定单元124包括:
情绪卷积子单元1241,用于通过音频情绪识别模型中的情绪卷积层对音频数据和目标音频基础属性进行卷积处理,得到音频数据对应的第一情绪卷积特征,以及目标音频基础属性对应的第二情绪卷积特征;
上述情绪卷积子单元1241的具体实施方式可以参见上述图7实施例中的步骤S701,这里不再进行赘述。
特征融合子单元1242,用于对第一情绪卷积特征和第二情绪卷积特征进行特征融合,得到情绪卷积特征;
上述特征融合子单元1242的具体实施方式可以参见上述图7实施例中的步骤S702,这里不再进行赘述。
情绪池化子单元1243,用于通过音频情绪识别模型中的情绪池化层对情绪卷积特征进行池化处理,得到情绪卷积特征对应的情绪池化特征;
上述情绪池化子单元1243的具体实施方式可以参见上述图7实施例中的步骤S703,这里不再进行赘述。
情绪全连接子单元1244,用于通过音频情绪识别模型中的情绪全连接层对情绪池化特征进行全连接处理,得到音频数据对应的目标音频情绪标签。
上述情绪全连接子单元1244的具体实施方式可以参见上述图7实施例中的步骤S704,这里不再进行赘述。
其中,数据处理装置1还包括:
推送获取模块14,用于获取音频推送请求;音频推送请求携带目标音频情绪标签;
上述推送获取模块14的具体实施方式可以参见上述图7实施例中的步骤S704,这里不再进行赘述。
音频发送模块15,用于在音频库中获取携带目标音频情绪标签的推送音频数据,将推送音频数据发送至发起音频推送请求的终端设备。
上述音频发送模块15的具体实施方式可以参见上述图7实施例中的步骤S704,这里不再进行赘述。
本申请实施例通过获取音频数据,通过音频属性识别模型对音频数据进行属性识别,得到音频数据对应的目标音频基础属性;根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,运用音频情绪识别模型对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签。本申请通过增加了至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系作为情绪识别的基础方式,极大程度简化了目标音频情绪标签的识别步骤,同时通过对音频数据与目标音频基础属性进行卷积处理作为进阶方式,补全了情绪识别中目标音频情绪标签的隐藏属性的挖掘,降低了对象针对情绪识别的识别代价,提升了对象的搜索识别效率与准确率,同时高质量的目标音频情绪标签,提升了对象针对音频数据的播放转化率,进而带动音频平台的整体播放指标。可以提升目标对象的音频数据搜索使用体验。
请参见图9,是本申请实施例提供的又一种计算机设备的结构示意图。如图9示,该计算机设备可以应用于上述图1对应实施例中的计算机设备。计算机设备900包括:处理器901,网络接口904和存储器905,此外,计算机设备900还可以包括:用户接口903,和至少一个通信总线902。其中,通信总线902用于实现这些组件之间的连接通信。其中,用户接口903可以包括显示屏(Display)、键盘(Keyboard),可选用户接口903还可以包括标准的有线接口、无线接口。网络接口904可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器905可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器905可选的还可以是至少一个位于远离前述处理器901的存储装置。如图9所示,作为一种计算机存储介质的存储器905中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图9所示的计算机设备900中,网络接口904可提供网络通讯功能,以用于与服务器进行通信;而用户接口903主要用于为用户提供输入的接口;而处理器901可以用于调用存储器905中存储的设备控制应用程序,以实现:
处理器901获取音频数据,对音频数据进行属性识别,得到音频数据对应的目标音频基础属性;根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签;至少两个音频情绪标签包括目标音频情绪标签;为音频数据绑定目标音频情绪标签。
在一个实施例中,处理器901在获取音频数据时,具体执行以下步骤:
获取原始音频,对原始音频进行频谱变换,得到原始音频对应的频谱图;对频谱图进行非线性变换滤波处理,得到滤波后的频谱图,将滤波后的频谱图确定为音频数据。
在一个实施例中,处理器901在将属性卷积层包括卷积组件、标准化组件、激活组件、池化组件、过滤组件;
通过属性卷积层对音频数据进行卷积处理,得到音频数据对应的音频卷积特征时,具体执行以下步骤:
通过卷积组件对音频数据进行卷积处理,得到音频数据对应的待标准化卷积特征,将待标准化卷积特征输入到标准化组件;通过标准化组件对待标准化卷积特征进行标准化处理,得到待激活卷积特征,将待激活卷积特征输入到激活组件;通过激活组件对待激活卷积特征进行激活处理,得到待池化卷积特征,将待池化卷积特征输入到池化组件;通过池化组件对待池化卷积特征进行池化处理,得到待过滤卷积特征,将待过滤卷积特征输入到过滤组件;通过过滤组件对待过滤卷积特征进行过滤处理,得到音频卷积特征。
在一个实施例中,处理器901在将根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签时,具体执行以下步骤:
根据目标音频基础属性,在至少两个映射基础属性组中获取目标映射基础属性组;目标映射基础属性组中的每个映射基础属性均属于目标音频基础属性;将与目标映射基础属性组具有映射关系的音频情绪标签,确定为音频数据对应的目标音频情绪标签。
在一个实施例中,处理器901在将根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签时,还执行以下步骤:
将音频数据和目标音频基础属性输入至音频情绪识别模型;音频情绪识别模型是根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系以及样本音频数据所训练得到的;通过音频情绪识别模型对音频数据和目标音频基础属性进行情绪识别,得到音频数据对应的目标音频情绪标签。
在一个实施例中,处理器901在将音频情绪识别模型包括情绪卷积层、情绪池化层以及情绪全连接层;
通过音频情绪识别模型对音频数据和目标音频基础属性进行情绪识别,得到音频数据对应的目标音频情绪标签时,还执行以下步骤:
通过音频情绪识别模型中的情绪卷积层对音频数据和目标音频基础属性进行卷积处理,得到音频数据对应的第一情绪卷积特征,以及目标音频基础属性对应的第二情绪卷积特征;对第一情绪卷积特征和第二情绪卷积特征进行特征融合,得到情绪卷积特征;通过音频情绪识别模型中的情绪池化层对情绪卷积特征进行池化处理,得到情绪卷积特征对应的情绪池化特征;通过音频情绪识别模型中的情绪全连接层对情绪池化特征进行全连接处理,得到音频数据对应的目标音频情绪标签。
在一个实施例中,处理器901,还执行以下步骤:
获取音频推送请求;音频推送请求携带目标音频情绪标签;在音频库中获取携带目标音频情绪标签的推送音频数据,将推送音频数据发送至发起音频推送请求的终端设备。
本申请实施例通过获取音频数据,通过音频属性识别模型的属性卷积层、属性池化层以及属性全连接层对音频数据进行属性识别,得到音频数据对应的目标音频基础属性;根据至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系、以及目标音频基础属性,运用音频情绪识别模型的情绪卷积层、情绪池化层以及情绪全连接层对音频数据进行情绪识别,得到音频数据对应的目标音频情绪标签。本申请通过以至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系作为情绪识别的基础方式,以对音频数据与目标音频基础属性进行卷积处理作为进阶方式,充分利用了目标音频基础属性的音频卷积特征,降低了对象针对情绪识别的识别代价,提升了对象的目标音频情绪标签识别的精准性,同时高质量且切合音频数据的目标音频情绪标签,提升了对象针对目标音频情绪标签对应的音频数据的播放转化率,进而带动音频平台的整体播放指标。可以提升目标对象的音频数据搜索使用体验。
应当理解,本申请实施例中所描述的计算机设备900可执行前文图2、图3、图4a、图5、图6、图7中任一个所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的计算机设备所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图2、图3、图4a、图5、图6、图7任一个所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
获取属于音乐类型的音频数据,将所述音频数据输入音频属性识别模型,在所述音频属性识别模型的属性全连接层输出所述音频数据对应的目标音频基础属性;所述目标音频基础属性包括价效、强度、节奏以及音调;所述音频属性识别模型是基于样本音频数据以及样本音频数据对应的音频基础属性标签所训练得到的;
将所述音频数据输入至音频情绪识别模型,且通过所述音频属性识别模型的属性全连接层将所述目标音频基础属性输入至所述音频情绪识别模型的情绪全连接层;所述音频情绪识别模型是根据第一预测标签与样本音频情绪标签之间的样本损失值对初始音频情绪识别模型的模型参数进行调整所得到的;所述第一预测标签是通过所述初始音频情绪识别模型对样本音频数据与所述样本音频数据音频对应的基础属性标签进行情绪识别所得到;所述样本音频情绪标签是通过至少两个映射基础属性组与至少两个音频情绪标签之间的映射关系所确定的所述音频基础属性标签对应的音频情绪标签;所述至少两个音频情绪标签包括目标音频情绪标签;
通过所述音频情绪识别模型对所述音频数据和所述目标音频基础属性进行情绪识别,得到所述音频数据对应的目标音频情绪标签;
为所述音频数据绑定所述目标音频情绪标签。
2.根据权利要求1所述的方法,其特征在于,所述获取属于音乐类型的 音频数据,包括:
获取原始音频,对所述原始音频进行频谱变换,得到所述原始音频对应的频谱图;
对所述频谱图进行非线性变换滤波处理,得到滤波后的频谱图,将所述滤波后的频谱图确定为音频数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述音频数据进行属性识别,得到所述音频数据对应的目标音频基础属性,包括:
获取音频属性识别模型;所述音频属性识别模型包括属性卷积层、属性池化层以及属性全连接层;
将所述音频数据输入所述属性卷积层,通过所述属性卷积层对所述音频数据进行卷积处理,得到所述音频数据对应的音频卷积特征;
将音频卷积特征输入至所述属性池化层,通过所述属性池化层对所述音频卷积特征进行池化处理,得到音频池化特征;
通过所述音频属性识别模型中的属性全连接层对所述音频池化特征进行全连接处理,得到所述目标音频基础属性。
4.根据权利要求3所述的方法,其特征在于,所述属性卷积层包括卷积组件、标准化组件、激活组件、池化组件、过滤组件;
所述通过所述属性卷积层对所述音频数据进行卷积处理,得到所述音频数据对应的音频卷积特征,包括:
通过所述卷积组件对所述音频数据进行卷积处理,得到所述音频数据对应的待标准化卷积特征,将所述待标准化卷积特征输入到标准化组件;
通过所述标准化组件对所述待标准化卷积特征进行标准化处理,得到待激活卷积特征,将所述待激活卷积特征输入到激活组件;
通过所述激活组件对所述待激活卷积特征进行激活处理,得到待池化卷积特征,将所述待池化卷积特征输入到池化组件;
通过所述池化组件对所述待池化卷积特征进行池化处理,得到待过滤卷积特征,将所述待过滤卷积特征输入到过滤组件;
通过所述过滤组件对所述待过滤卷积特征进行过滤处理,得到音频卷积特征。
5.根据权利要求1所述的方法,其特征在于,所述音频情绪识别模型包括情绪卷积层、情绪池化层以及情绪全连接层;
所述通过所述音频情绪识别模型对所述音频数据和所述目标音频基础属性进行情绪识别,得到所述音频数据对应的目标音频情绪标签,包括:
通过所述音频情绪识别模型中的情绪卷积层对所述音频数据和所述目标音频基础属性进行卷积处理,得到所述音频数据对应的第一情绪卷积特征,以及所述目标音频基础属性对应的第二情绪卷积特征;
对所述第一情绪卷积特征和所述第二情绪卷积特征进行特征融合,得到情绪卷积特征;
通过所述音频情绪识别模型中的情绪池化层对所述情绪卷积特征进行池化处理,得到所述情绪卷积特征对应的情绪池化特征;
通过所述音频情绪识别模型中的情绪全连接层对所述情绪池化特征进行全连接处理,得到所述音频数据对应的目标音频情绪标签。
6.根据权利要求1~5任一项所述的方法,其特征在于,还包括:
获取音频推送请求;音频推送请求携带所述目标音频情绪标签;
在音频库中获取携带所述目标音频情绪标签的推送音频数据,将所述推送音频数据发送至发起所述音频推送请求的终端设备。
7.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-6任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-6任一项所述的方法。
CN202111369659.0A 2021-11-18 2021-11-18 数据处理方法、计算机设备以及可读存储介质 Active CN113806586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111369659.0A CN113806586B (zh) 2021-11-18 2021-11-18 数据处理方法、计算机设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111369659.0A CN113806586B (zh) 2021-11-18 2021-11-18 数据处理方法、计算机设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN113806586A CN113806586A (zh) 2021-12-17
CN113806586B true CN113806586B (zh) 2022-03-15

Family

ID=78938377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111369659.0A Active CN113806586B (zh) 2021-11-18 2021-11-18 数据处理方法、计算机设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN113806586B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800720A (zh) * 2019-01-23 2019-05-24 平安科技(深圳)有限公司 情绪识别模型训练方法、情绪识别方法、装置、设备及存储介质
CN109859772A (zh) * 2019-03-22 2019-06-07 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
CN109919307A (zh) * 2019-01-28 2019-06-21 广东浪潮大数据研究有限公司 Fpga及深度残差网络实现方法、系统、计算机介质
CN111429946A (zh) * 2020-03-03 2020-07-17 深圳壹账通智能科技有限公司 语音情绪识别方法、装置、介质及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106710589B (zh) * 2016-12-28 2019-07-30 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法及装置
CN107220355A (zh) * 2017-06-02 2017-09-29 北京百度网讯科技有限公司 基于人工智能的新闻质量判断方法、设备及存储介质
CN110288974B (zh) * 2018-03-19 2024-04-05 北京京东尚科信息技术有限公司 基于语音的情绪识别方法及装置
CN109447129B (zh) * 2018-09-29 2023-04-18 平安科技(深圳)有限公司 一种多模式情绪识别方法、装置及计算机可读存储介质
CN113160852A (zh) * 2021-04-16 2021-07-23 平安科技(深圳)有限公司 语音情绪识别方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800720A (zh) * 2019-01-23 2019-05-24 平安科技(深圳)有限公司 情绪识别模型训练方法、情绪识别方法、装置、设备及存储介质
CN109919307A (zh) * 2019-01-28 2019-06-21 广东浪潮大数据研究有限公司 Fpga及深度残差网络实现方法、系统、计算机介质
CN109859772A (zh) * 2019-03-22 2019-06-07 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
CN111429946A (zh) * 2020-03-03 2020-07-17 深圳壹账通智能科技有限公司 语音情绪识别方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN113806586A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN110019931B (zh) 音频分类方法、装置、智能设备和存储介质
Mitrović et al. Features for content-based audio retrieval
Richard et al. An overview on perceptually motivated audio indexing and classification
CN103971689A (zh) 一种音频识别方法及装置
CN111444382B (zh) 一种音频处理方法、装置、计算机设备以及存储介质
US11450306B2 (en) Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs
CN110377782B (zh) 音频检索方法、装置和存储介质
CN106295717A (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
CN111428078B (zh) 音频指纹编码方法、装置、计算机设备及存储介质
Cai et al. Music genre classification based on auditory image, spectral and acoustic features
CN104142831A (zh) 应用程序搜索方法及装置
CN111859008B (zh) 一种推荐音乐的方法及终端
CN111816170A (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN114399995A (zh) 语音模型的训练方法、装置、设备及计算机可读存储介质
KR101801250B1 (ko) 음악에 적합한 테마를 자동으로 태깅하는 방법 및 시스템
CN113806586B (zh) 数据处理方法、计算机设备以及可读存储介质
CN116486838A (zh) 音乐情感识别方法和系统、电子设备、存储介质
Luque-Suárez et al. Efficient speaker identification using spectral entropy
CN115359785A (zh) 音频识别方法、装置、计算机设备及计算机可读存储介质
CN114817622A (zh) 歌曲片段搜索方法及其装置、设备、介质、产品
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
Säger et al. AudioPairBank: towards a large-scale tag-pair-based audio content analysis
CN113744759A (zh) 音色模板定制方法及其装置、设备、介质、产品
Liu Study on the Application of Improved Audio Recognition Technology Based on Deep Learning in Vocal Music Teaching
Küçükbay et al. Hand-crafted versus learned representations for audio event detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant