CN111739493B - 音频处理方法、装置及存储介质 - Google Patents

音频处理方法、装置及存储介质 Download PDF

Info

Publication number
CN111739493B
CN111739493B CN202010577711.0A CN202010577711A CN111739493B CN 111739493 B CN111739493 B CN 111739493B CN 202010577711 A CN202010577711 A CN 202010577711A CN 111739493 B CN111739493 B CN 111739493B
Authority
CN
China
Prior art keywords
audio data
value
target
feature
prosodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010577711.0A
Other languages
English (en)
Other versions
CN111739493A (zh
Inventor
杨伟明
赵伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202010577711.0A priority Critical patent/CN111739493B/zh
Publication of CN111739493A publication Critical patent/CN111739493A/zh
Application granted granted Critical
Publication of CN111739493B publication Critical patent/CN111739493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Telephone Function (AREA)

Abstract

本发明实施例公开了一种音频处理方法、装置及存储介质。该方案可以确定目标歌曲,获取目标歌曲的音频数据,对音频数据进行拆分,以得到音频数据中的多个单声道音频数据,确定单声道音频数据的目标特征的特征变化值,其中目标特征为能够表示音频数据韵律情况的特征,根据特征变化值,计算单声道音频数据的韵律均值,根据多个单声道音频数据的韵律均值,计算目标歌曲的韵律均值。本申请实施例所提供的方案可以根据音频数据中的多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值,从而实现对歌曲的韵律感进行预测,确定歌曲的韵律强弱信息。

Description

音频处理方法、装置及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种音频处理方法、装置及存储介质。
背景技术
歌曲是人们用来表现生活、抒发情感的一种艺术。随着歌曲数据的不断增多,越来越庞大的数字歌曲数据库需要更加智能化自动化的管理。例如,一种管理方式是对歌曲流派进行分类,歌曲流派是人类创造的分类标签,由专家们通过一定的相似性将音乐进行组织整理。具体地,可以使用歌曲的韵律特点对歌曲进行分类等管理工作,例如根据歌曲韵律强弱为歌曲添加韵律快或韵律慢的标签。因此需要一种技术方案,来确定歌曲的韵律强弱信息。
发明内容
本发明实施例提供一种音频处理方法、装置及存储介质,可以通过计算歌曲的韵律值来确定歌曲的韵律强弱信息。
本发明实施例提供一种音频处理方法,包括:
确定目标歌曲,获取所述目标歌曲的音频数据;
对所述音频数据进行拆分,以得到所述音频数据中的多个单声道音频数据;
确定所述单声道音频数据的目标特征的特征变化值,其中所述目标特征为能够表示音频数据韵律情况的特征;
根据所述特征变化值,计算所述单声道音频数据的韵律均值;
根据多个所述单声道音频数据的韵律均值,计算所述目标歌曲的韵律均值。
本发明实施例还提供一种音频处理装置,包括:
获取单元,用于确定目标歌曲,获取所述目标歌曲的音频数据;
拆分单元,用于对所述音频数据进行拆分,以得到所述音频数据中的多个单声道音频数据;
确定单元,用于确定所述单声道音频数据的目标特征的特征变化值,其中所述目标特征为能够表示音频数据韵律情况的特征;
第一计算单元,用于根据所述特征变化值,计算所述单声道音频数据的韵律均值;
第二计算单元,用于根据多个所述单声道音频数据的韵律均值,计算所述目标歌曲的韵律均值。
本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一音频处理方法。
本发明实施例提供的音频处理方案,可以确定目标歌曲,获取目标歌曲的音频数据,对音频数据进行拆分,以得到音频数据中的多个单声道音频数据,确定单声道音频数据的目标特征的特征变化值,其中目标特征为能够表示音频数据韵律情况的特征,根据特征变化值,计算单声道音频数据的韵律均值,根据多个单声道音频数据的韵律均值,计算目标歌曲的韵律均值。本申请实施例所提供的方案可以根据音频数据中的多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值,从而实现对歌曲的韵律感进行预测,确定歌曲的韵律强弱信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的音频处理方法的第一流程示意图;
图1b是本发明实施例提供的音频处理方法的第二流程示意图;
图2a是本发明实施例提供的音频处理装置的第一种结构示意图;
图2b是本发明实施例提供的音频处理装置的第二种结构示意图;
图3是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供一种音频处理方法,该音频处理方法的执行主体可以是本发明实施例提供的音频处理装置,或者集成了该音频处理装置的服务器,其中该音频处理装置可以采用硬件或者软件的方式实现。
如图1a所示,图1a是本发明实施例提供的音频处理方法的第一流程示意图,该音频处理方法的具体流程可以如下:
101、确定目标歌曲,获取目标歌曲的音频数据。
在一实施例中,上述目标歌曲可以为用户输入或选取的歌名,然后根据歌名获取对应的音频数据。该音频数据可以存储在终端(如:MP3、手机、电脑、平板电脑等)本地,即用户可直接从本地获取。该音频数据也可以存储于服务器上,用户可通过终端从服务器下载获取。
在实际使用过程中,比如某一歌曲在服务器中存储着多个不同音质的音频数据,其不同音质的歌曲所对应的音频数据的数据量大小也不相同。比如歌名为“ABC”的目标歌曲在服务器中存储着三个音频数据,分别为标准音质、极高音质、无损音质对应的音频数据,其中标准音质对应的音频数据大小为3MB,极高音质对应的音频数据大小为8MB,无损音质对应的音频数据大小为40MB。因此在一实施例中,若目标歌曲包括多个音频数据,可以进一步根据用户选择确定其中的目标音频数据,比如用户选择目标歌曲的无损音质,则可以从服务器下载目标歌曲的无损音质音频数据,大小为40MB。
102、对音频数据进行拆分,以得到音频数据中的多个单声道音频数据。
在现有技术中,声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。因此在一实施例中,可以在对音频数据进行拆分之前,先判断音频数据为单声道音频还是多声道音频,若是单声道,则可以无需拆分直接执行步骤103,若该音频数据为多声道音频,则对音频数据进行拆分,以得到音频数据中的多个单声道音频数据。也即在对音频数据进行拆分之前,所述方法还包括:
判断所述音频数据是否为单声道音频;
若否,则执行对音频数据进行拆分,以得到音频数据中的多个单声道音频数据的步骤。
其中,上述声道的分类可以包括单声道、立体声(双声道)、四声环绕、5.1声道以及7.1声道等等。在一实施例中,在对所述音频数据进行拆分时,还可以先确定上述音频数据的声道数,具体可以先获取该音频数据的属性信息,该属性信息包括音频数据的声道数,比如3、4、5等等,在确定该音频数据的声道数之后,根据该声道数进行拆分,以得到对应声道数的多个单声道音频数据。
比如,若上述音频数据为5.1声道,则解码后的数据流按照原本的通道位置进行分流为:FL(前置左声道)、FR(前置右声道)、FC(中置声道)、LFE(低音声道)、BL(后置左声道也叫Sorround-L)、BR(后置右声道也叫Surround-R)这6个声道的音频数据流。
103、确定单声道音频数据的目标特征的特征变化值,其中目标特征为能够表示音频数据韵律情况的特征。
在一实施例中,目标特征值可以包括过零率特征、音符起始能量、音符起始包弱自相关特征以及鼓点位置中的一个或多个。
其中,上述过零率(Zero Crossing Rate,ZCR)是指在每帧中,语音信号通过零点(从正变为负或从负变为正)的次数。这个特征已在语音识别和音乐信息检索领域得到广泛使用,是对敲击的声音的分类的关键特征。一般而言,清音(unvoiced sound)和环境噪音的ZCR都大于浊音(voiced sound);由于清音和环境噪音的ZCR大小相近,因而不能够通过ZCR来区分它们;在实际当中,过零率经常与短时能量特性相结合来进行端点检测,尤其是ZCR用来检测清音的起止点;有时也可以用ZCR来进行粗略的基频估算,但这是非常不可靠的,除非有后续的修正(refine)处理过程。
上述音符起始能量(onsetstrength)特征值可以通过先检测单声道音频数据的音符起始点,再提取该音符起始点的能量而得到。音符起始点检测(onset detection)是音乐信号处理中非常重要的一个算法。节拍和速度(tempo)的检测都会基于音符起始点的检测。音符起始点的一个特征是,能量的突然增加,或是频谱能量分布的改变。进一步的,还可以在单声道音频数据中提取onsetstrengthenvelop(音符起始包弱)自相关特征值。
上述鼓点即为音频数据中的beat点,本实施例可以先识别音频数据中的鼓点,再进一步获取鼓点位置特征值,该鼓点位置特征值可以为鼓点位置的能量。进一步的,上述识别音频中鼓点的方法可以包括:获取音频数字信号,对所述音频数字信号进行傅里叶变换,使音频数字信号从时域变换到频域,得到音频频谱信号,检测音频频谱信号中低频信号的最大振幅值Amax,若Amax大于阈值U,则该音频存在鼓点。其中,检测音频频谱信号中低频信号的最大振幅值Amax可以包括:将音频频谱信号中30HZ-200HZ信号以5HZ为一个基本区域,把30HZ-200HZ划分为34个区域,分别检测到每一个区域的最大振幅值,将所有区域的最大振幅值进行比较,得到整个低频信号的最大振幅值Amax。
特征变化值可以包括:特征值的一阶差分均值和/或特征值的方差。
在一实施例中,确定单声道音频数据的目标特征的特征变化值的步骤,具体为提取所述单声道音频数据的目标特征的多个特征值;计算多个特征值中两个目标特征值的一阶差分,得到多个一阶差分;计算多个一阶差分的均值;其中一阶差分的均值用于表示特征变化值。
104、根据特征变化值,计算单声道音频数据的韵律均值。
在其他实施例中,上述确定单声道音频数据的目标特征的特征变化值的步骤,还可以通过提取单声道音频数据的目标特征的多个特征值,然后计算多个特征值的方差;其中方差用于表示特征变化值。
进一步的,上述根据特征变化值,计算单声道音频数据的韵律均值的步骤,可以包括:在所述目标特征为多个的情况下,获得每个目标特征的预设权重;对每个目标特征的特征变化值进行归一化处理;依据加权平均算法,对每个目标特征的预设权重以及每个目标特征归一化处理后的特征变化值进行运算,得到单声道音频数据的韵律均值。
例如,可以预先设置每种类型特征值的预设权重,按照预设权重将该多种特征值进行加权平均后得到单声道音频数据的韵律均值。
105、根据多个单声道音频数据的韵律均值,计算目标歌曲的韵律均值。
在一实施例中,统计上述多个单声道音频数据中每个声道的韵律均值,从而得到多个韵律均值,取该多个韵律均值的平均值作为算法最终的输出值,这个值作为本歌曲的韵律感强弱值。这个值可以表征目标歌曲的韵律,该歌曲韵律感强弱值可以表示为一个浮点数,取值区间可以为[0,1]或其他区间的数值,值越大代表这首歌的韵律感越强。
由上所述,本发明实施例提出的音频处理方法可以确定目标歌曲,获取目标歌曲的音频数据,对音频数据进行拆分,以得到音频数据中的多个单声道音频数据,提取单声道音频数据中的多个特征值,并根据多个特征值计算单声道音频数据的韵律均值,根据多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值。本申请实施例所提供的方案可以根据音频数据中的多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值,从而实现对歌曲的韵律感进行预测,确定歌曲的韵律强弱信息。
根据前面实施例所描述的方法,以下将作进一步详细说明。
请参阅图1b,图1b是本发明实施例提供的音频处理方法的第二流程示意图。所述方法包括:
201、确定目标歌曲,获取目标歌曲的音频数据。
在一实施例中,上述目标歌曲可以为用户输入或选取的歌名,然后根据歌名获取对应的音频数据。该音频数据可以存储在终端本地,即用户可直接从本地获取。该音频数据也可以存储于服务器上,用户可通过终端从服务器下载获取。
在一实施例中,若目标歌曲包括多个音频数据,可以进一步根据用户选择确定其中的目标音频数据。
202、获取音频数据的编码方式,根据编码方式验证音频数据的有效性。
在一实施例中,可以根据音频数据的编码方式、文件大小等方式校验音频文件的有效性,进行数据清洗。其中,数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
具体的,在数据清洗前可以对音频数据进行预处理,然后对预处理后的数据进行缺失值清洗,格式内容清洗,逻辑错误清洗,非需求数据清洗以及关联性验证。上述预处理可以为将数据导入处理工具,然后查看数据。
203、若有效性验证成功,则对音频数据进行拆分,以得到音频数据中的多个单声道音频数据。
若上述音频数据的有效性验证成功,则可以对音频数据进行拆分,在一实施例中,可以在对音频数据进行拆分之前,先判断音频数据为单声道音频还是多声道音频,若是单声道,则可以无需拆分直接执行步骤204,若该音频数据为多声道音频,则对音频数据进行拆分,以得到音频数据中的多个单声道音频数据。
比如,若上述音频数据为5.1声道,则解码后的数据流按照原本的通道位置进行分流为:FL(前置左声道)、FR(前置右声道)、FC(中置声道)、LFE(低音声道)、BL(后置左声道也叫Sorround-L)、BR(后置右声道也叫Surround-R)这6个声道的音频数据流。
204、提取单声道音频数据中的多个特征值以及对应的一阶差分和方差,并计算单声道音频数据的韵律均值。
在一实施例中,上述特征值可以包括过零率特征值、音符起始能量特征值、音符起始包弱自相关特征值以及鼓点位置特征值。具体的,对每个声道数据提取ZCR(过零率)特征值,计算其一阶差分均值和方差信息;对每个声道数据提取onsetstrength(音符起始能量)特征值,设定一个阀值,根据这个阈值过滤掉小值,然后得到峰值信息,计算其一阶差分均值和方差信息;对每个声道数据提取onsetstrengthenvelop(音符起始包弱)自相关特征值,计算其一阶差分均值和方差信息;对每个声道数据提取鼓点位置特征值,计算其一阶差分均值和方差信息。然后根据上述信息计算单声道音频数据的韵律均值。
也即,计算所述单声道音频数据的韵律均值的步骤,可以包括:
分别计算所述过零率特征值、音符起始能量特征值、音符起始包弱自相关特征值以及鼓点位置特征值的一阶差分和方差;
将所述过零率特征值、音符起始能量特征值、音符起始包弱自相关特征值、鼓点位置特征值以及分别对应的一阶差分和方差进行归一化处理,并计算所述单声道音频数据的韵律均值。
205、根据多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值。
在一实施例中,统计上述多个单声道音频数据中每个声道的韵律均值,从而得到多个韵律均值,取该多个韵律均值的平均值作为算法最终的输出值,这个值作为本歌曲的韵律感强弱值。这个值可以表征目标歌曲的韵律,该歌曲韵律感强弱值可以表示为一个浮点数,取值区间为[0,1],值越大代表这首歌的韵律感越强。
206、确定与目标歌曲的韵律均值对应的预设韵律值区间。
207、在预设映射关系中查找与预设韵律值区间对应的预设标签信息,以作为目标歌曲的标签信息。
在本申请实施例中,可以预设韵律值区间与标签信息的映射关系,该映射关系中包括多个韵律值区间以及分别对应的标签信息。先确定与目标歌曲的韵律均值对应的预设韵律值区间,然后在预设映射关系中查找与预设韵律值区间对应的预设标签信息,以作为目标歌曲的标签信息。
比如,上述预设映射关系中包含5个韵律值区间分别为[0,0.2]、[0.2,0.4]、[0.4,0.6]、[0.6,0.8]、[0.8,1],上述5个韵律值区间分别对应的预设标签为“极慢”、“较慢”、“适中”、“较快”、“极快”,若上述目标歌曲的韵律均值为0.75,则其对应的预设韵律值区间为[0.6,0.8],因此在预设映射关系当中确定对应的预设标签为“较快”,并作为目标歌曲的标签信息,用于表示该歌曲的韵律。
由上所述,本发明实施例提出的音频处理方法可以确定目标歌曲,获取目标歌曲的音频数据,获取音频数据的编码方式,根据编码方式验证音频数据的有效性,若有效性验证成功,则对音频数据进行拆分,以得到音频数据中的多个单声道音频数据,提取单声道音频数据中的多个特征值以及对应的一阶差分和方差,并计算单声道音频数据的韵律均值,根据多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值,确定与目标歌曲的韵律均值对应的预设韵律值区间,在预设映射关系中查找与预设韵律值区间对应的预设标签信息,以作为目标歌曲的标签信息。本申请实施例所提供的方案可以根据音频数据中的多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值,从而实现对歌曲的韵律感进行预测,确定歌曲的韵律强弱信息。
为了实施以上方法,本发明实施例还提供一种音频处理装置,该音频处理装置具体可以集成在终端设备如手机、平板电脑等设备中。
例如,如图2a所示,是本发明实施例提供的音频处理装置的第一种结构示意图。该音频处理装置可以包括:
获取单元301,用于确定目标歌曲,获取所述目标歌曲的音频数据。
在一实施例中,上述目标歌曲可以为用户输入或选取的歌名,然后获取单元301根据歌名获取对应的音频数据。该音频数据可以存储在终端(如:MP3、手机、电脑、平板电脑等)本地,即用户可直接从本地获取。该音频数据也可以存储于服务器上,用户可通过终端从服务器下载获取。
在一实施例中,若目标歌曲包括多个音频数据,可以进一步根据用户选择确定其中的目标音频数据,比如用户选择目标歌曲的无损音质,则可以从服务器下载目标歌曲的无损音质音频数据,大小为40MB。
拆分单元302,用于对所述音频数据进行拆分,以得到所述音频数据中的多个单声道音频数据。
在现有技术中,声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。因此在一实施例中,可以在对音频数据进行拆分之前,先判断音频数据为单声道音频还是多声道音频,若是单声道,则可以无需拆分直接执行提取所述单声道音频数据中的多个特征值,并根据所述多个特征值计算所述单声道音频数据的韵律均值的步骤,若该音频数据为多声道音频,则由拆分单元302对音频数据进行拆分,以得到音频数据中的多个单声道音频数据。
比如,若上述音频数据为5.1声道,则解码后的数据流按照原本的通道位置进行分流为:FL(前置左声道)、FR(前置右声道)、FC(中置声道)、LFE(低音声道)、BL(后置左声道也叫Sorround-L)、BR(后置右声道也叫Surround-R)这6个声道的音频数据流。
确定单元303,用于确定单声道音频数据的目标特征的特征变化值,其中目标特征为能够表示音频数据韵律情况的特征。
第一计算单元304,用于根据特征变化值,计算单声道音频数据的韵律均值。
在一实施例中,上述特征值可以包括过零率特征值、音符起始能量特征值、音符起始包弱自相关特征值以及鼓点位置特征值中的一个或多个,然后计算单声道音频数据的韵律均值。其中,特征变化值包括:特征值的一阶差分均值和/或特征值的方差。
第二计算单元305,用于根据多个所述单声道音频数据的韵律均值,计算所述目标歌曲的韵律均值。
在一实施例中,第二计算单元305统计上述多个单声道音频数据中每个声道的韵律均值,从而得到多个韵律均值,取该多个韵律均值的平均值作为算法最终的输出值,这个值作为本歌曲的韵律感强弱值。这个值可以表征目标歌曲的韵律,该歌曲韵律感强弱值可以表示为一个浮点数,取值区间可以为[0,1]或其他区间的数值,值越大代表这首歌的韵律感越强。
在一实施例中,请参阅图2b,第一计算单元304可以包括:
获取子单元3041,用于在所述目标特征为多个的情况下,获得每个目标特征的预设权重;
计算子单元3042,用于对每个目标特征的特征变化值进行归一化处理,并依据加权平均算法,对每个目标特征的预设权重以及每个目标特征归一化处理后的特征变化值进行运算,得到单声道音频数据的韵律均值。
在一实施例中,所述音频处理装置还可以包括:
确定单元306,用于在所述第二计算单元305根据多个所述单声道音频数据的韵律均值,计算所述目标歌曲的韵律均值之后,确定与所述目标歌曲的韵律均值对应的预设韵律值区间。
查找单元307,用于在预设映射关系中查找与所述预设韵律值区间对应的预设标签信息,以作为所述目标歌曲的标签信息。
本发明实施例提出的音频处理装置,可以确定目标歌曲,获取目标歌曲的音频数据,对音频数据进行拆分,以得到音频数据中的多个单声道音频数据,提取单声道音频数据中的多个特征值,并根据多个特征值计算单声道音频数据的韵律均值,根据多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值。本申请实施例所提供的方案可以根据音频数据中的多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值,从而实现对歌曲的韵律感进行预测,确定歌曲的韵律强弱信息。
本发明实施例还提供一种终端,如图3所示,该终端可以包括射频(RF,RadioFrequency)电路401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、无线保真(WiFi,Wireless Fidelity)模块407、包括有一个或者一个以上处理核心的处理器408、以及电源409等部件。本领域技术人员可以理解,图3中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路401可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器408处理;另外,将涉及上行的数据发送给基站。通常,RF电路401包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路401还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器402可用于存储软件程序以及模块,处理器408通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器408和输入单元403对存储器402的访问。
输入单元403可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元403可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器408,并能接收处理器408发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元403还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元404可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元404可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器408以确定触摸事件的类型,随后处理器408根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图3中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器405,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路406、扬声器,传声器可提供用户与终端之间的音频接口。音频电路406可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路406接收后转换为音频数据,再将音频数据输出处理器408处理后,经RF电路401以发送给比如另一终端,或者将音频数据输出至存储器402以便进一步处理。音频电路406还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块407,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器408是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监测。可选的,处理器408可包括一个或多个处理核心;优选的,处理器408可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器408中。
终端还包括给各个部件供电的电源409(比如电池),优选的,电源可以通过电源管理系统与处理器408逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源409还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器408会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器408来运行存储在存储器402中的应用程序,从而实现各种功能:
确定目标歌曲,获取所述目标歌曲的音频数据;
对所述音频数据进行拆分,以得到所述音频数据中的多个单声道音频数据;
确定所述单声道音频数据的目标特征的特征变化值,其中所述目标特征为能够表示音频数据韵律情况的特征;
根据所述特征变化值,计算所述单声道音频数据的韵律均值;
根据多个所述单声道音频数据的韵律均值,计算所述目标歌曲的韵律均值。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对音频处理方法的详细描述,此处不再赘述。
由上可知,本发明实施例的终端可以确定目标歌曲,获取目标歌曲的音频数据,对音频数据进行拆分,以得到音频数据中的多个单声道音频数据,提取单声道音频数据中的多个特征值,并根据多个特征值计算单声道音频数据的韵律均值,根据多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值。本申请实施例所提供的方案可以根据音频数据中的多个单声道音频数据分别对应的韵律均值计算目标歌曲的韵律均值,从而实现对歌曲的韵律感进行预测,确定歌曲的韵律强弱信息。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种音频处理方法中的步骤。例如,该指令可以执行如下步骤:
确定目标歌曲,获取所述目标歌曲的音频数据;
对所述音频数据进行拆分,以得到所述音频数据中的多个单声道音频数据;
确定所述单声道音频数据的目标特征的特征变化值,其中所述目标特征为能够表示音频数据韵律情况的特征;
根据所述特征变化值,计算所述单声道音频数据的韵律均值;
根据多个所述单声道音频数据的韵律均值,计算所述目标歌曲的韵律均值。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种音频处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种音频处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种音频处理方法、装置、存储介质以及终端进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种音频处理方法,其特征在于,包括:
确定目标歌曲,获取所述目标歌曲的音频数据;
对所述音频数据进行拆分,以得到所述音频数据中的多个单声道音频数据;
确定所述单声道音频数据的目标特征的特征变化值,其中所述目标特征为能够表示音频数据韵律情况的特征;
根据所述特征变化值,计算所述单声道音频数据的韵律均值;
根据多个所述单声道音频数据的韵律均值,计算所述目标歌曲的韵律均值;
所述目标特征包括以下任意一项或多项:过零率特征、音符起始能量特征、音符起始包弱自相关特征以及鼓点位置特征;其中,所述过零率特征为所述单声道音频数据通过零点的次数,所述音符起始能量特征为音符起始点的能量,所述鼓点位置特征为鼓点位置的能量;
所述特征变化值包括:特征值的一阶差分均值和/或特征值的方差。
2.如权利要求1所述的音频处理方法,其特征在于,确定所述单声道音频数据的目标特征的特征变化值,包括:
提取所述单声道音频数据的目标特征的多个特征值;
计算多个所述特征值中两个目标特征值的一阶差分,得到多个一阶差分;
计算多个所述一阶差分的均值;其中所述一阶差分的均值用于表示特征变化值。
3.如权利要求1所述的音频处理方法,其特征在于,确定所述单声道音频数据的目标特征的特征变化值,包括:
提取所述单声道音频数据的目标特征的多个特征值;
计算多个所述特征值的方差;其中所述方差用于表示特征变化值。
4.如权利要求1所述的音频处理方法,其特征在于,根据所述特征变化值,计算所述单声道音频数据的韵律均值,包括:
在所述目标特征为多个的情况下,获得每个目标特征的预设权重;
对每个目标特征的特征变化值进行归一化处理;
依据加权平均算法,对每个目标特征的预设权重以及每个目标特征归一化处理后的特征变化值进行运算,得到单声道音频数据的韵律均值。
5.如权利要求1至4任意一项所述的音频处理方法,其特征在于,在根据多个所述单声道音频数据的韵律均值,计算所述目标歌曲的韵律均值之后,所述方法还包括:
确定与所述目标歌曲的韵律均值对应的预设韵律值区间;
在预设映射关系中查找与所述预设韵律值区间对应的预设标签信息,以作为所述目标歌曲的标签信息。
6.如权利要求1所述的音频处理方法,其特征在于,在对所述音频数据进行拆分,以得到所述音频数据中的多个单声道音频数据之前,所述方法还包括:
获取所述音频数据的编码方式;
根据所述编码方式验证所述音频数据的有效性;
若所述有效性验证成功,则执行对所述音频数据进行拆分,以得到所述音频数据中的多个单声道音频数据的步骤。
7.一种音频处理装置,其特征在于,包括:
获取单元,用于确定目标歌曲,获取所述目标歌曲的音频数据;
拆分单元,用于对所述音频数据进行拆分,以得到所述音频数据中的多个单声道音频数据;
确定单元,用于确定所述单声道音频数据的目标特征的特征变化值,其中所述目标特征为能够表示音频数据韵律情况的特征;所述目标特征包括以下任意一项或多项:过零率特征、音符起始能量特征、音符起始包弱自相关特征以及鼓点位置特征;其中,所述过零率特征为所述单声道音频数据通过零点的次数,所述音符起始能量特征为音符起始点的能量,所述鼓点位置特征为鼓点位置的能量;所述特征变化值包括:特征值的一阶差分均值和/或特征值的方差;
第一计算单元,用于根据所述特征变化值,计算所述单声道音频数据的韵律均值;
第二计算单元,用于根据多个所述单声道音频数据的韵律均值,计算所述目标歌曲的韵律均值。
8.如权利要求7所述的音频处理装置,其特征在于,所述装置还包括:
确定单元,用于在所述第二计算单元根据多个所述单声道音频数据的韵律均值,计算所述目标歌曲的韵律均值之后,确定与所述目标歌曲的韵律均值对应的预设韵律值区间;
查找单元,用于在预设映射关系中查找与所述预设韵律值区间对应的预设标签信息,以作为所述目标歌曲的标签信息。
9.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至6任一项所述的音频处理方法。
CN202010577711.0A 2020-06-23 2020-06-23 音频处理方法、装置及存储介质 Active CN111739493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010577711.0A CN111739493B (zh) 2020-06-23 2020-06-23 音频处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010577711.0A CN111739493B (zh) 2020-06-23 2020-06-23 音频处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111739493A CN111739493A (zh) 2020-10-02
CN111739493B true CN111739493B (zh) 2023-07-14

Family

ID=72650518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010577711.0A Active CN111739493B (zh) 2020-06-23 2020-06-23 音频处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111739493B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010181769A (ja) * 2009-02-09 2010-08-19 Toshiba Corp カラオケ装置及びその制御方法並びにその制御プログラム
EP2362238A1 (en) * 2010-02-26 2011-08-31 Honda Research Institute Europe GmbH Estimating the distance from a sensor to a sound source
CN106782601A (zh) * 2016-12-01 2017-05-31 腾讯音乐娱乐(深圳)有限公司 一种多媒体数据处理方法及其装置
WO2017157142A1 (zh) * 2016-03-18 2017-09-21 腾讯科技(深圳)有限公司 歌曲旋律信息处理方法、服务器和存储介质
US10008193B1 (en) * 2016-08-19 2018-06-26 Oben, Inc. Method and system for speech-to-singing voice conversion
CN109036463A (zh) * 2018-09-13 2018-12-18 广州酷狗计算机科技有限公司 获取歌曲的难度信息的方法、装置及存储介质
KR20190111438A (ko) * 2018-03-23 2019-10-02 안홍석 통계적 표준 오디오 마스터링 플러그인
CN110600055A (zh) * 2019-08-15 2019-12-20 杭州电子科技大学 一种使用旋律提取与语音合成技术的歌声分离方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0253098A (ja) * 1988-08-18 1990-02-22 Casio Comput Co Ltd 自動伴奏装置
US4960031A (en) * 1988-09-19 1990-10-02 Wenger Corporation Method and apparatus for representing musical information
EP1246164A1 (en) * 2001-03-30 2002-10-02 Sony France S.A. Sound characterisation and/or identification based on prosodic listening
CA2478697C (en) * 2004-08-20 2013-10-15 David Joseph Beckford System, computer program and method for quantifying and analyzing musical intellectual property
CN101599271B (zh) * 2009-07-07 2011-09-14 华中科技大学 一种数字音乐情感的识别方法
US20130157761A1 (en) * 2011-10-05 2013-06-20 Real Keys Music Inc System amd method for a song specific keyboard
US20180276540A1 (en) * 2017-03-22 2018-09-27 NextEv USA, Inc. Modeling of the latent embedding of music using deep neural network
CN110555126B (zh) * 2018-06-01 2023-06-27 微软技术许可有限责任公司 旋律的自动生成

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010181769A (ja) * 2009-02-09 2010-08-19 Toshiba Corp カラオケ装置及びその制御方法並びにその制御プログラム
EP2362238A1 (en) * 2010-02-26 2011-08-31 Honda Research Institute Europe GmbH Estimating the distance from a sensor to a sound source
WO2017157142A1 (zh) * 2016-03-18 2017-09-21 腾讯科技(深圳)有限公司 歌曲旋律信息处理方法、服务器和存储介质
US10008193B1 (en) * 2016-08-19 2018-06-26 Oben, Inc. Method and system for speech-to-singing voice conversion
CN106782601A (zh) * 2016-12-01 2017-05-31 腾讯音乐娱乐(深圳)有限公司 一种多媒体数据处理方法及其装置
KR20190111438A (ko) * 2018-03-23 2019-10-02 안홍석 통계적 표준 오디오 마스터링 플러그인
CN109036463A (zh) * 2018-09-13 2018-12-18 广州酷狗计算机科技有限公司 获取歌曲的难度信息的方法、装置及存储介质
CN110600055A (zh) * 2019-08-15 2019-12-20 杭州电子科技大学 一种使用旋律提取与语音合成技术的歌声分离方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
对多声道音频文件的基于旋律的音频检索系统设计;魏晓聪;路莹;唐晓君;李鑫;;大连工业大学学报(第03期);全文 *
蒙古族长调《圣》韵律声学特征研究;方华萍;李永宏;;西北民族大学学报(自然科学版)(第02期);全文 *

Also Published As

Publication number Publication date
CN111739493A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN109166593B (zh) 音频数据处理方法、装置及存储介质
EP3127116B1 (en) Attention-based dynamic audio level adjustment
CN112863547B (zh) 虚拟资源转移处理方法、装置、存储介质及计算机设备
CN103440862B (zh) 一种语音与音乐合成的方法、装置以及设备
KR20200027554A (ko) 음성 인식 방법 및 장치, 그리고 저장 매체
CN106782600B (zh) 音频文件的评分方法及装置
CN109903773B (zh) 音频处理方法、装置及存储介质
CN110097895B (zh) 一种纯音乐检测方法、装置及存储介质
US10628119B2 (en) Sound effect processing method and mobile terminal
CN109872710B (zh) 音效调制方法、装置及存储介质
US20230395051A1 (en) Pitch adjustment method and device, and computer storage medium
CN107680614B (zh) 音频信号处理方法、装置和存储介质
CN110599989B (zh) 音频处理方法、装置及存储介质
KR20160106075A (ko) 오디오 스트림에서 음악 작품을 식별하기 위한 방법 및 디바이스
CN110675848B (zh) 音频处理方法、装置及存储介质
CN110830368B (zh) 即时通讯消息发送方法及电子设备
CN109243488B (zh) 音频检测方法、装置及存储介质
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN112667844A (zh) 检索音频的方法、装置、设备和存储介质
CN112259076A (zh) 语音交互方法、装置、电子设备及计算机可读存储介质
CN111739493B (zh) 音频处理方法、装置及存储介质
CN111613246A (zh) 一种音频分类提示方法以及相关设备
CN110660376A (zh) 音频处理方法、装置及存储介质
CN111078181A (zh) 智能音乐播放的方法及系统、存储介质、终端设备
CN106782614B (zh) 音质检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant