CN116612788A - 音频数据的情感识别方法、装置、设备及介质 - Google Patents

音频数据的情感识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN116612788A
CN116612788A CN202310576648.2A CN202310576648A CN116612788A CN 116612788 A CN116612788 A CN 116612788A CN 202310576648 A CN202310576648 A CN 202310576648A CN 116612788 A CN116612788 A CN 116612788A
Authority
CN
China
Prior art keywords
audio
result
separated audio
sound
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310576648.2A
Other languages
English (en)
Inventor
张旭龙
王健宗
茹港徽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310576648.2A priority Critical patent/CN116612788A/zh
Publication of CN116612788A publication Critical patent/CN116612788A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于人工智能技术领域,尤其涉及一种音频数据的情感识别方法、装置、设备及介质。该方法使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频,将分离音频的声音模态与第一映射表中声音模态进行比对,确定对应分离音频的编码模型,调用对应的编码模型对分离音频进行编码,将所有编码结果联结,将联结结果输入解码模型,将解码结果输入分类模型,输出音频数据的情感类别,通过音频分离,使用不同的模型对分离音频进行不同的编码处理,再将分离的音频进行整合以输出情感分类结果,能够实现对复杂音频的处理,提高了泛化能力和鲁棒性,同时有效地保留了音频数据的各种特征,有助于提高识别准确率。

Description

音频数据的情感识别方法、装置、设备及介质
技术领域
本申请适用于人工智能技术领域,尤其涉及一种音频数据的情感识别方法、装置、设备及介质。
背景技术
目前,音乐情感识别(Music Emotion Recognition,MER)是指识别给定音乐片段所包含的情感信息的任务,其输入是原始音频文件,输出为情感的类别或者效价/激活度值。最初的音乐情感识别方法大多使用人工特征(梅尔频率倒谱系数,梅尔频谱,过零率等)结合传统机器学习模型(支持向量机,隐马尔科夫模型,决策树等)进行情感分类。现有多数使用短时傅里叶变换频谱(STFT)或梅尔频谱作为输入,并使用卷积神经网络等基于深度学习的模型进行特征提取,再通过全连接分类器进行预测输出,能够取得了较好的效果。
但现存方法对单音(monophonic)音乐效果较好,而对于复调(polyphonic)音乐效果较差,且识别结果难以直接用于基于情感的音乐检索任务,另外,现存方法大多对训练数据要求较高,需要有较为良好的标注精度和数据数量,且其泛化性和鲁棒性较差,在较为陌生的测试数据上通常展现出较大的性能差距,尤其对于流行歌曲等乐曲构成和编曲较为复杂的音乐效果较差。因此,如何在提高音频情感识别的泛化性和鲁棒性的同时保证识别结果的准确率成为亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种音频数据的情感识别方法、装置、设备及介质,以解决如何在提高音频情感识别的泛化性和鲁棒性的同时保证识别结果的准确率的问题。
第一方面,本申请实施例提供一种音频数据的情感识别方法,所述情感识别方法包括:
使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频;
针对任一分离音频,将所述分离音频的声音模态与第一映射表中声音模态进行比对,确定对应所述分离音频的编码模型,所述第一映射表存储有声音模态与编码模型的映射关系;
对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果,将所有编码结果联结,得到联结结果;
将所述联结结果输入解码模型进行解码,得到解码结果,将所述解码结果输入分类模型,输出所述音频数据的情感类别。
在一实施方式中,对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果包括:
使用梅尔谱对每个分离音频进行变换,得到对应分离音频的变换结果;
针对任一分离音频,将所述分离音频的变换结果输入编码模型,输出编码结果,遍历所有分离音频,得到每个分离音频的编码结果。
在一实施方式中,使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频包括:
使用声音模态提取模型,对获取的音频数据中的人声模态进行提取,将提取结果作为人声模态对应的分离音频;
使用所述人声模态对应的分离音频对所述音频数据进行对消,得到去除人声的音频数据;
使用声音模态提取模型,对所述去除人声的音频数据中表征其他声音模态的音频进行提取,得到其他声音模态的分离音频。
在一实施方式中,使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频之后,还包括:
将所述至少一个声音模态的构成信息与第二映射表中的组合信息进行比对,确定与所述构成信息匹配的组合信息对应的权重分配结果,所述第二映射表存储有组合信息与权重分配结果的映射关系;
将所有编码结果联结,得到联结结果包括:
根据所述权重分配结果,对每个分离音频的编码结果进行加权求和,确定加权求和结果为联结结果。
在一实施方式中,将所有编码结果联结,得到联结结果包括:
根据每个分离音频对应的声音模态的重要程度,将所有分离音频对应的编码结果进行首尾相接,确定首尾相接的结果为联结结果,其中,声音模态的重要程度越高,对应的分离音频的编码结果在所述联结结果中的位置越靠前。
在一实施方式中,将所有编码结果联结,得到联结结果包括:
将所有编码结果输入训练好的全连接器,输出联结结果。
在一实施方式中,在使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频之后,还包括:
对每个分离音频进行降噪处理,得到降噪处理后的分离音频;
对所述降噪处理后的分离音频进行特征降维,得到维度小于N的分离音频;
针对任一分离音频,将所述分离音频的声音模态与第一映射表中声音模态进行比对,确定对应所述分离音频的编码模型包括:
针对任一维度小于N的分离音频,将所述分离音频的声音模态与第一映射表中声音模态进行比对,确定对应所述分离音频的编码模型。
第二方面,本申请实施例提供一种音频数据的情感识别装置,所述情感识别装置包括:
音源分离模块,用于使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频;
编码模型确定模块,用于针对任一分离音频,将所述分离音频的声音模态与第一映射表中声音模态进行比对,确定对应所述分离音频的编码模型,所述第一映射表存储有声音模态与编码模型的映射关系;
编码连接模块,用于对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果,将所有编码结果联结,得到联结结果;
情感分类模块,用于将所述联结结果输入解码模型进行解码,得到解码结果,将所述解码结果输入分类模型,输出所述音频数据的情感类别。
在一实施方式中,所述编码连接模块包括:
数据变换单元,用于使用梅尔谱对每个分离音频进行变换,得到对应分离音频的变换结果;
音频编码单元,用于针对任一分离音频,将所述分离音频的变换结果输入编码模型,输出编码结果,遍历所有分离音频,得到每个分离音频的编码结果。
在一实施方式中,所述音源分离模块包括:
第一分离单元,用于使用声音模态提取模型,对获取的音频数据中的人声模态进行提取,将提取结果作为人声模态对应的分离音频;
消除单元,用于使用所述人声模态对应的分离音频对所述音频数据进行对消,得到去除人声的音频数据;
第二分离单元,用于使用声音模态提取模型,对所述去除人声的音频数据中表征其他声音模态的音频进行提取,得到其他声音模态的分离音频。
在一实施方式中,所述情感识别装置还包括:
权重分配确定模块,用于使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频之后,将所述至少一个声音模态的构成信息与第二映射表中的组合信息进行比对,确定与所述构成信息匹配的组合信息对应的权重分配结果,所述第二映射表存储有组合信息与权重分配结果的映射关系;
所述编码连接模块包括:
第一联结单元,用于根据所述权重分配结果,对每个分离音频的编码结果进行加权求和,确定加权求和结果为联结结果。
在一实施方式中,所述编码连接模块包括:
第二联结单元,用于根据每个分离音频对应的声音模态的重要程度,将所有分离音频对应的编码结果进行首尾相接,确定首尾相接的结果为联结结果,其中,声音模态的重要程度越高,对应的分离音频的编码结果在所述联结结果中的位置越靠前。
在一实施方式中,所述编码连接模块包括:
第三联结单元,用于将所有编码结果输入训练好的全连接器,输出联结结果。
在一实施方式中,所述情感识别装置还包括:
降噪处理模块,用于在使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频之后,对每个分离音频进行降噪处理,得到降噪处理后的分离音频;
降维处理模块,用于对所述降噪处理后的分离音频进行特征降维,得到维度小于N的分离音频;
所述编码模型确定模块包括:
编码模型确定单元,用于针对任一维度小于N的分离音频,将所述分离音频的声音模态与第一映射表中声音模态进行比对,确定对应所述分离音频的编码模型。
第三方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的情感识别方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的情感识别方法。
本申请实施例与现有技术相比存在的有益效果是:本申请使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频,针对任一分离音频,将分离音频的声音模态与第一映射表中声音模态进行比对,确定对应分离音频的编码模型,第一映射表存储有声音模态与编码模型的映射关系,对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果,将所有编码结果联结,得到联结结果,将联结结果输入解码模型进行解码,得到解码结果,将解码结果输入分类模型,输出音频数据的情感类别,通过音频分离,使用不同的模型对分离音频进行不同的编码处理,再将分离的音频进行整合以输出情感分类结果,能够实现对复杂音频的处理,提高了泛化能力和鲁棒性,同时有效地保留了音频数据的各种特征,有助于提高识别准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的一种音频数据的情感识别方法的一应用环境示意图;
图2是本申请实施例二提供的一种音频数据的情感识别方法的流程示意图;
图3是本申请实施例三提供的一种音频数据的情感识别方法的流程示意图;
图4是本申请实施例四提供的一种音频数据的情感识别装置的结构示意图;
图5是本申请实施例五提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为了说明本申请的技术方案,下面通过具体实施例来进行说明。
本申请实施例一提供的一种音频数据的情感识别方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、服务端计算机设备、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
参见图2,是本申请实施例二提供的一种音频数据的情感识别方法的流程示意图,上述音频数据的情感识别方法应用于图1中的服务端,服务端对应的计算机设备连接相应的数据库,以获取数据库中音频数据,另外,如需对服务端中的任意模型进行训练,还可以获取数据库中的训练集。上述计算机设备还可以连接相应的客户端,客户端为用户所操作,用户可以通过客户端向服务端发送音频数据。如图2所示,该音频数据的情感识别方法可以包括以下步骤:
步骤S201,使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频。
本申请中,声音模态可以是指音频中不同声部的声音所对应的模态,不同声部的声音可以是指不同乐器、不同人等发出的声音,例如,贝斯、钢琴等乐器发出的声音为不同的声音模态,又如,人发出的声音与乐器等发出声音为不同的声音模态。
声音模态提取模型可以是指能够提取出音频中表征不同声部声音的模型,该模型可以是基于相应的训练集训练得到的神经网络模型、机器学习模型或者深度学习模型,例如,声音模态提取模型为Demucs模型,可以将人声与音乐进行分离,从而得到人声数据和音乐数据。
对音频数据进行音源分离之后得到不同声音模态的分离音频,每个分离音频对应一个声音模态,也即一个声部的声音。
由于音频数据中每个声音模态的音频对音频数据最终所要表现出的情感贡献大小和影响方式均不同,提前将各个声部分离后再输入到特征提取模块中,有助于模型更好地学习到各个部分特有的特征表示,并可以达成类似通道维度注意力机制的效果,使模型能够知道哪个声部贡献最大最重要。
可选的是,使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频包括:
使用声音模态提取模型,对获取的音频数据中的人声模态进行提取,将提取结果作为人声模态对应的分离音频;
使用人声模态对应的分离音频对音频数据进行对消,得到去除人声的音频数据;
使用声音模态提取模型,对去除人声的音频数据中表征其他声音模态的音频进行提取,得到其他声音模态的分离音频。
步骤S202,针对任一分离音频,将分离音频的声音模态与第一映射表中声音模态进行比对,确定对应分离音频的编码模型。
本申请中,第一映射表存储有声音模态与编码模型的映射关系,映射关系即一种声音模态对应一种编码模型。由于不同的声音模态最终所要表现出的情感贡献大小和影响方式均不同,因而,需要使用不同的编码模型进行编码,才能够得到对应声音模态的音频的真实特征。
声音模态可以表征为一个标识号(Identity Document,ID),在第一映射表中,声音模态的ID与编码模型的编号相对应,因而,根据需要进行编码的分离音频对应的声音模态的ID,可以确定对应编码模型的编号,进而根据编码模型的编号调用对应的编码模型。
编码模型可以是根据已有训练集训练好的编码模型,能够针对不同声音模态的声音进行编码,以提高对声音的针对性编码,实现特征的提取。
步骤S203,对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果,将所有编码结果联结,得到联结结果。
本申请中,调用编码模型为对应的分离音频进行编码,从而得到每个分离音频的编码结果,此时的编码结果为基于不同编码模型得到,因而,具备对应分离音频的准确地声音特征,有助于后续的情感识别工作。
对所有编码结果联结是将所有编码结果进行融合,融合后的结果所表征的特征涵盖整个音频数据的所有特征,保证音频数据的完整性。
由于不同声音模态的声音在整个音频数据中的比重不同,因而,起到的影响力或者对情感的贡献程度可能不相同,在对所有编码结果进行融合时,可以根据不同声音模态对情感的贡献程度来体现融合结果中不同编码结果的重要程度。如果编码结果对应的声音模型对情感的贡献程度均相同,则融合结果中所有编码结果的中要程度也为相同的。
在融合结果中编码结果的重要程度可以通过编码结果在融合结果中的位置、编码结果在融合结果中的占比等来体现,即编码结果越重要,在融合结果中的位置越重要或者占比越高。
可选的是,对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果包括:
使用梅尔谱对每个分离音频进行变换,得到对应分离音频的变换结果;
针对任一分离音频,将分离音频的变换结果输入编码模型,输出编码结果,遍历所有分离音频,得到每个分离音频的编码结果。
其中,在对分离音频进行编码之前,还可以度分离音频进行变换处理,变换采用梅尔谱变换,以便于编码模型的处理,保证编码模型编码的准确性。
可选的是,使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频之后,还包括:
将至少一个声音模态的构成信息与第二映射表中的组合信息进行比对,确定与构成信息匹配的组合信息对应的权重分配结果,第二映射表存储有组合信息与权重分配结果的映射关系;
将所有编码结果联结,得到联结结果包括:
根据权重分配结果,对每个分离音频的编码结果进行加权求和,确定加权求和结果为联结结果。
其中,在本实施方式中,人为预设一第二映射表,在该第一映射表中存储有不同声音模态的组合对应的组合信息与权重分配结果的映射关系。
组合信息可以是指不同声音模态的组合,例如,人声、钢琴可构成一种组合,人声、贝斯可以构成一种组合,人声、钢琴和贝斯一起构成一种组合,每种组合中不同声音模态对应的权重不相同,因而,一种组合形式需对应一种权重分配结果。
权重分配结果中包含对应组合中每个声音模态的权重值,因此,在联结时可以采用加权求和的方式,将声音模态对应的编码结果与权重值相乘后相加,得到联合结果。
可选的是,将所有编码结果联结,得到联结结果包括:
根据每个分离音频对应的声音模态的重要程度,将所有分离音频对应的编码结果进行首尾相接,确定首尾相接的结果为联结结果,其中,声音模态的重要程度越高,对应的分离音频的编码结果在联结结果中的位置越靠前。
其中,在本实施方式中,采用将编码结果首尾相接的方式得到联结结果,以声音模态的重要程度为依据,如果声音模态的重要程度越高,对应的分离音频的编码结果在联结结果中的位置越靠前。使用此方式可以在解码时表达出不同声音模态对情感的影响程度。
例如,人声、钢琴和贝斯三种声音模态的音频数据,如果重要程度依次为人声、钢琴和贝斯,则联结结果中人声对应的编码结果在最前部,钢琴对应的编码结果在中间,贝斯对应的编码结果在最后。
可选的是,将所有编码结果联结,得到联结结果包括:
将所有编码结果输入训练好的全连接器,输出联结结果。
其中,本实施方式中使用训练好的全连接器对编码结果进行联结,无需给出预设权重分配结果,也无需给出声音模态的重要程度,使用训练集训练好的全连接器能够避免上述人为因素的影响,使得联结更加准确。
步骤S204,将联结结果输入解码模型进行解码,得到解码结果,将解码结果输入分类模型,输出音频数据的情感类别。
本申请中,针对联结结果进行解码,使用的解码模型可以是独立训练得到的解码模型,无需与上述的编码模型、全连接器等一起训练。
分类模型为训练好的模型,该分类模型给出了使用训练集训练得到的分类结果,即每个情感类别均对应有至少一个元素,使用解码结果与元素进行相似度计算,确定相似度最高的元素所属的情感类别为该解码结果的情感类别,也即是音频数据的情感类别,实现了音频数据的情感识别。
举例说明,使用预训练的音源分离系统Demucs,在实际应用时音源分离部分无需进一步训练,对训练数据没有任何要求。对于泛化能力而言,使用音源分离任务做辅助可以使各个特征提取模块分别处理对应的声部,由于不同乐曲间相同声部的信息分布较为相似,这种方法能够减少在面对新类型的测试集时出现的性能下降,并在单音和复调音乐间体现出较好的泛化性和适应能力。本申请提出的改进同样可以适用于其他现存的单模态音乐情感识别方法中,在网络前进行音源分离预处理可以提高大部分现存方法的表现和泛化能力。另外,在使用音源分离模块后,对所提取的各个声部分别使用了各自的编码模块,由于各个声部声音特征区别较大,使用单独定制的模型进行特征提取能够更好地针对该声部的特点,例如贝斯声部整体较为简单,不需要深层网络进行学习。这种操作使得网络的深度和对算力及训练数据的要求都有所下降,使得模型更加轻量化并可以部署在实时的音乐情感识别系统当中;同时,还可以去除背景的噪声并能在编曲相对复杂的情况下提取出音乐的核心要素(如旋律,节奏等),这种能力可以使模型在单音音乐和复调音乐中都可以展现出较好的表现;当声部缺失时(如单音音乐或不足四个声部的音乐),本申请的方法仍能正常运行并有较好的表现,可见,本申请的方法对复调音乐可以实现有效地处理。
本申请实施例使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频,针对任一分离音频,将分离音频的声音模态与第一映射表中声音模态进行比对,确定对应分离音频的编码模型,第一映射表存储有声音模态与编码模型的映射关系,对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果,将所有编码结果联结,得到联结结果,将联结结果输入解码模型进行解码,得到解码结果,将解码结果输入分类模型,输出音频数据的情感类别,通过音频分离,使用不同的模型对分离音频进行不同的编码处理,再将分离的音频进行整合以输出情感分类结果,能够实现对复杂音频的处理,提高了泛化能力和鲁棒性,同时有效地保留了音频数据的各种特征,有助于提高识别准确率。
参见图3,为本申请实施例三提供的一种音频数据的情感识别方法的流程示意图,如图3所示,该情感识别方法包括:
步骤S301,使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频。
其中,步骤S301与上述步骤S201的内容相同,具体可以参考步骤S201的描述,在此不再赘述。
步骤S302,对每个分离音频进行降噪处理,得到降噪处理后的分离音频。
本申请中,如果在上述进行音源分离时,无法对音源进行降噪、解耦以及特征降维等处理,则还需要进行上述处理,以提高编码模型的编码准确度,可以进一步减小编码模型的训练难度,从而达成了减少训练数据需求的目的。
步骤S303,对降噪处理后的分离音频进行特征降维,得到维度小于N的分离音频。
本申请中,N为大于1的整数,降噪处理后的分离音频进行特征降维可以有效地降低编码模型的训练难度,其中,分离音频的最低维度可以达到一维,此时训练难度大大降低,当然,可能伴随着准确度的下降,因此,可在使用过程中根据准确度、训练难度的需求自由选择N的值。
步骤S304,针对任一维度小于N的分离音频,将分离音频的声音模态与第一映射表中声音模态进行比对,确定对应分离音频的编码模型。
步骤S305,对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果,将所有编码结果联结,得到联结结果。
步骤S306,将联结结果输入解码模型进行解码,得到解码结果,将解码结果输入分类模型,输出音频数据的情感类别。
其中,步骤S304至步骤S306与上述步骤S202至步骤S204的内容相同,具体可以参考步骤S202至步骤S204的描述,在此不再赘述。
本申请实施例使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频,对每个分离音频进行降噪处理,得到降噪处理后的分离音频,对降噪处理后的分离音频进行特征降维,得到维度小于N的分离音频,针对任一维度小于N的分离音频,将分离音频的声音模态与第一映射表中声音模态进行比对,确定对应分离音频的编码模型,第一映射表存储有声音模态与编码模型的映射关系,对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果,将所有编码结果联结,得到联结结果,将联结结果输入解码模型进行解码,得到解码结果,将解码结果输入分类模型,输出音频数据的情感类别,通过音频分离,使用不同的模型对分离音频进行不同的编码处理,再将分离的音频进行整合以输出情感分类结果,能够实现对复杂音频的处理,提高了泛化能力和鲁棒性,同时有效地保留了音频数据的各种特征,有助于提高识别准确率。
对应于上文实施例的音频数据的情感识别方法,图4示出了本申请实施例四提供的情感预测模型的情感识别装置的结构框图,上述情感识别装置应用于图1中的服务端,服务端对应的计算机设备连接相应的数据库,以获取数据库中音频数据,另外,如需对服务端中的任意模型进行训练,还可以获取数据库中的训练集。上述计算机设备还可以连接相应的客户端,客户端为用户所操作,用户可以通过客户端向服务端发送音频数据。为了便于说明,仅示出了与本申请实施例相关的部分。
参见图4,该情感识别装置包括:
音源分离模块41,用于使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频;
编码模型确定模块42,用于针对任一分离音频,将分离音频的声音模态与第一映射表中声音模态进行比对,确定对应分离音频的编码模型,第一映射表存储有声音模态与编码模型的映射关系;
编码连接模块43,用于对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果,将所有编码结果联结,得到联结结果;
情感分类模块44,用于将联结结果输入解码模型进行解码,得到解码结果,将解码结果输入分类模型,输出音频数据的情感类别。
可选的是,上述编码连接模块43包括:
数据变换单元,用于使用梅尔谱对每个分离音频进行变换,得到对应分离音频的变换结果;
音频编码单元,用于针对任一分离音频,将分离音频的变换结果输入编码模型,输出编码结果,遍历所有分离音频,得到每个分离音频的编码结果。
可选的是,上述音源分离模块41包括:
第一分离单元,用于使用声音模态提取模型,对获取的音频数据中的人声模态进行提取,将提取结果作为人声模态对应的分离音频;
消除单元,用于使用人声模态对应的分离音频对音频数据进行对消,得到去除人声的音频数据;
第二分离单元,用于使用声音模态提取模型,对去除人声的音频数据中表征其他声音模态的音频进行提取,得到其他声音模态的分离音频。
可选的是,上述情感识别装置还包括:
权重分配确定模块,用于使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频之后,将至少一个声音模态的构成信息与第二映射表中的组合信息进行比对,确定与构成信息匹配的组合信息对应的权重分配结果,第二映射表存储有组合信息与权重分配结果的映射关系;
上述编码连接模块43包括:
第一联结单元,用于根据权重分配结果,对每个分离音频的编码结果进行加权求和,确定加权求和结果为联结结果。
可选的是,上述编码连接模块43包括:
第二联结单元,用于根据每个分离音频对应的声音模态的重要程度,将所有分离音频对应的编码结果进行首尾相接,确定首尾相接的结果为联结结果,其中,声音模态的重要程度越高,对应的分离音频的编码结果在联结结果中的位置越靠前。
可选的是,上述编码连接模块43包括:
第三联结单元,用于将所有编码结果输入训练好的全连接器,输出联结结果。
可选的是,上述情感识别装置还包括:
降噪处理模块,用于在使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频之后,对每个分离音频进行降噪处理,得到降噪处理后的分离音频;
降维处理模块,用于对降噪处理后的分离音频进行特征降维,得到维度小于N的分离音频;
上述编码模型确定模块42包括:
编码模型确定单元,用于针对任一维度小于N的分离音频,将分离音频的声音模态与第一映射表中声音模态进行比对,确定对应分离音频的编码模型。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图5为本申请实施例五提供的一种计算机设备的结构示意图。如图5所示,该实施例的计算机设备包括:至少一个处理器(图5中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个音频数据的情感识别方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图5仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本申请实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种音频数据的情感识别方法,其特征在于,所述情感识别方法包括:
使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频;
针对任一分离音频,将所述分离音频的声音模态与第一映射表中声音模态进行比对,确定对应所述分离音频的编码模型,所述第一映射表存储有声音模态与编码模型的映射关系;
对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果,将所有编码结果联结,得到联结结果;
将所述联结结果输入解码模型进行解码,得到解码结果,将所述解码结果输入分类模型,输出所述音频数据的情感类别。
2.根据权利要求1所述的情感识别方法,其特征在于,对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果包括:
使用梅尔谱对每个分离音频进行变换,得到对应分离音频的变换结果;
针对任一分离音频,将所述分离音频的变换结果输入编码模型,输出编码结果,遍历所有分离音频,得到每个分离音频的编码结果。
3.根据权利要求1所述的情感识别方法,其特征在于,使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频包括:
使用声音模态提取模型,对获取的音频数据中的人声模态进行提取,将提取结果作为人声模态对应的分离音频;
使用所述人声模态对应的分离音频对所述音频数据进行对消,得到去除人声的音频数据;
使用声音模态提取模型,对所述去除人声的音频数据中表征其他声音模态的音频进行提取,得到其他声音模态的分离音频。
4.根据权利要求1所述的情感识别方法,其特征在于,使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频之后,还包括:
将所述至少一个声音模态的构成信息与第二映射表中的组合信息进行比对,确定与所述构成信息匹配的组合信息对应的权重分配结果,所述第二映射表存储有组合信息与权重分配结果的映射关系;
将所有编码结果联结,得到联结结果包括:
根据所述权重分配结果,对每个分离音频的编码结果进行加权求和,确定加权求和结果为联结结果。
5.根据权利要求1所述的情感识别方法,其特征在于,将所有编码结果联结,得到联结结果包括:
根据每个分离音频对应的声音模态的重要程度,将所有分离音频对应的编码结果进行首尾相接,确定首尾相接的结果为联结结果,其中,声音模态的重要程度越高,对应的分离音频的编码结果在所述联结结果中的位置越靠前。
6.根据权利要求1所述的情感识别方法,其特征在于,将所有编码结果联结,得到联结结果包括:
将所有编码结果输入训练好的全连接器,输出联结结果。
7.根据权利要求1至6任一项所述的情感识别方法,其特征在于,在使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频之后,还包括:
对每个分离音频进行降噪处理,得到降噪处理后的分离音频;
对所述降噪处理后的分离音频进行特征降维,得到维度小于N的分离音频;
针对任一分离音频,将所述分离音频的声音模态与第一映射表中声音模态进行比对,确定对应所述分离音频的编码模型包括:
针对任一维度小于N的分离音频,将所述分离音频的声音模态与第一映射表中声音模态进行比对,确定对应所述分离音频的编码模型。
8.一种音频数据的情感识别装置,其特征在于,所述情感识别装置包括:
音源分离模块,用于使用声音模态提取模型,对获取的音频数据进行音源分离,得到至少一个声音模态的分离音频;
编码模型确定模块,用于针对任一分离音频,将所述分离音频的声音模态与第一映射表中声音模态进行比对,确定对应所述分离音频的编码模型,所述第一映射表存储有声音模态与编码模型的映射关系;
编码连接模块,用于对每个分离音频调用对应分离音频的编码模型进行编码,确定每个分离音频的编码结果,将所有编码结果联结,得到联结结果;
情感分类模块,用于将所述联结结果输入解码模型进行解码,得到解码结果,将所述解码结果输入分类模型,输出所述音频数据的情感类别。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的情感识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的情感识别方法。
CN202310576648.2A 2023-05-19 2023-05-19 音频数据的情感识别方法、装置、设备及介质 Pending CN116612788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310576648.2A CN116612788A (zh) 2023-05-19 2023-05-19 音频数据的情感识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310576648.2A CN116612788A (zh) 2023-05-19 2023-05-19 音频数据的情感识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116612788A true CN116612788A (zh) 2023-08-18

Family

ID=87684902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310576648.2A Pending CN116612788A (zh) 2023-05-19 2023-05-19 音频数据的情感识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116612788A (zh)

Similar Documents

Publication Publication Date Title
CN105788589B (zh) 一种音频数据的处理方法及装置
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
Du et al. Speaker augmentation for low resource speech recognition
CN107705782B (zh) 用于确定音素发音时长的方法和装置
CN113330511B (zh) 语音识别方法、装置、存储介质及电子设备
CN110164460A (zh) 歌唱合成方法和装置
Yu et al. Sparse cepstral codes and power scale for instrument identification
CN110534091A (zh) 一种基于微服务器及智能语音识别的人车交互方法
CN111859008B (zh) 一种推荐音乐的方法及终端
CN114491140A (zh) 音频匹配检测方法及装置、电子设备、存储介质
CN116580698A (zh) 基于人工智能的语音合成方法、装置、计算机设备及介质
CN116469374A (zh) 基于情感空间的语音合成方法、装置、设备及存储介质
JP4219539B2 (ja) 音響分類装置
CN116612788A (zh) 音频数据的情感识别方法、装置、设备及介质
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
JP2022153600A (ja) 音声合成方法、装置、電子機器及び記憶媒体
Shirali-Shahreza et al. Fast and scalable system for automatic artist identification
US20070028751A1 (en) System for using sound inputs to obtain video display response
CN113192522B (zh) 音频合成模型生成方法及装置、音频合成方法及装置
CN113806586B (zh) 数据处理方法、计算机设备以及可读存储介质
CN116631422A (zh) 基于人工智能的语音转换方法、装置、计算机设备及介质
CN116825085A (zh) 基于人工智能的语音合成方法、装置、计算机设备及介质
Wang et al. A Synthetic Corpus Generation Method for Neural Vocoder Training
CN112767923B (zh) 一种语音识别方法及装置
JP7376895B2 (ja) 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination