CN113035160A - 基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质 - Google Patents

基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质 Download PDF

Info

Publication number
CN113035160A
CN113035160A CN202110218414.1A CN202110218414A CN113035160A CN 113035160 A CN113035160 A CN 113035160A CN 202110218414 A CN202110218414 A CN 202110218414A CN 113035160 A CN113035160 A CN 113035160A
Authority
CN
China
Prior art keywords
time point
similarity
climax
fragments
refrain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110218414.1A
Other languages
English (en)
Other versions
CN113035160B (zh
Inventor
尹学渊
王东明
江天宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Potential Artificial Intelligence Technology Co ltd
Original Assignee
Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Potential Artificial Intelligence Technology Co ltd filed Critical Chengdu Potential Artificial Intelligence Technology Co ltd
Priority to CN202110218414.1A priority Critical patent/CN113035160B/zh
Publication of CN113035160A publication Critical patent/CN113035160A/zh
Application granted granted Critical
Publication of CN113035160B publication Critical patent/CN113035160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/105Composing aid, e.g. for supporting creation, edition or modification of a piece of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质,包括S1.获取待剪辑的音频文件和预设剪辑时长范围;S2.将所述音频文件转换为对应的色谱图,并利用相似矩阵对副歌片段进行定位;S3.通过预设窗口对所述副歌片段的能量进行分析,获取所述副歌片段中的高潮片段;S4.通过微调窗口对所述高潮片段进行微调,获取所述高潮片段的起始时间点;S5.通过人声检测模型进行人声检测,获取所述高潮片段的结束时间点;S6.根据所述起始时间点和所述结束时间点剪辑得到对应的音频片段。通过上述方式,提高了音频剪辑的效率和准确性,降低了剪辑成本。

Description

基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质。
背景技术
目前,除开普通用户对于音乐的需求以外,现兴起的短时频、直播行业同样对音乐有着很大的需求。因此,对于音乐售卖方,能够提供一个片段让用户进行试听选择的功能至关重要。但是,音乐行业还是一个偏传统的行业,音乐编辑仍然需要人工使用编辑软件对每一首歌试听后截取高潮片段;这不但增加了人工成本,而且效率也不高。所以需要提供一种方案以便于在提高音乐剪辑的效率和准确性的同时降低剪辑成本。
发明内容
本发明的目的在于提供一种基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质,用以实现在提高音乐剪辑的效率和准确性的同时降低剪辑成本的技术效果。
第一方面,本发明提供了一种基于相似矩阵的音乐自动剪辑实现方法,包括:
S1.获取待剪辑的音频文件和预设剪辑时长范围;
S2.将所述音频文件转换为对应的色谱图,并利用相似矩阵对副歌片段进行定位;
S3.通过预设窗口对所述副歌片段的能量进行分析,获取所述副歌片段中的高潮片段;
S4.通过微调窗口对所述高潮片段进行微调,获取所述高潮片段的起始时间点;
S5.通过人声检测模型进行人声检测,获取所述高潮片段的结束时间点;
S6.根据所述起始时间点和所述结束时间点剪辑得到对应的音频片段。
进一步地,所述S2包括:
以一帧为单位构建所述音频文件的色谱图;
根据所述色谱图分析各帧歌曲的相似度;
将所述相似度按照时间维度构建相似矩阵;
根据所述相似矩阵分析最优副歌片段。
进一步地,将所述相似度按照时间维度构建相似矩阵的步骤包括:
根据公式(1)计算两帧歌曲的相似度;根据公式(2)构建相似矩阵:
Figure BDA0002954848760000021
M[x][y]=similarity(x,y) (2)
式中,x和y表示不同的两帧歌曲对应的音符向量;similarity表示相似度;M表示相似度矩阵。
进一步地,根据所述相似矩阵分析最优副歌片段的步骤包括:
根据所述相似度矩阵构建延时矩阵,将所述相似度矩阵中倾斜的对角线通过线性变换转换为平铺的直线;
根据设置的阈值对所述延时矩阵进行降噪平滑处理;
将降噪平滑处理后的延时矩阵中的线条按照时间点进行统计;
定义每一条直线的权重,根据各个时间点重叠的线条数进行加权求和,计算该直线的总权重;
将总权重最大的直线对应的歌曲片段作为最优副歌片段。
进一步地,根据所述相似度矩阵构建延时矩阵,将所述相似度矩阵中倾斜的对角线通过线性变换转换为平铺的直线的步骤通过公式(3)进行线性变换:
T[x][y]=M[x][x-y]=similarity(x,x-y) (3)
式中,T表示延时矩阵;M表示相似度矩阵;x和y表示不同的两帧歌曲对应的音符向量;similarity表示相似度。
进一步地,所述S3包括:
根据获取音频文件时的文件采样率和最小切片时长设置预设窗口;
根据所述预设窗口将所述副歌片段划分为多个片段;
计算各个所述片段中的平均能量值,并将平均能量值最高的片段作为高潮片段。
进一步地,所述S4包括:
获取高潮片段的起点作为初步起始时间点;
根据设置的检测片段时间长度和所述文件采样率设置微调窗口;
根据预设的滑动检测区域和所述初步起始时间点构建目标检测区域;
根据所述微调窗口将所述目标检测区域划分为多个检测片段;
计算各个所述检测片段中的平均能量值,并将平均能量值最小的检测片段对应的起点作为所述高潮片段的最终起始时间点。
进一步地,所述S5包括:
采用五个卷积层块和一个全连接层构建神经网络模型;
利用含有人声和不含人声的环境音、噪音和纯音乐音频样本对所述神经网络模型进行训练得到对应的人声检测模型;
根据所述起始时间点和所述剪辑时长范围的最小值计算剪辑结束的预估位置;
从所述预估位置开始按照预设时间间隔获取所述音频文件中的数字信号对应的Mel频谱图;
利用所述人声检测模型对所述预估位置对应的Mel频谱图进行分析,确认是否含有人声;若含有人声,则逐帧向后进行检测,直到连续多帧未检测到人声时以当前的时间点作为结束时间点。
第二方面,本发明提供一种基于相似矩阵的音乐自动剪辑实现系统,包括:获取模块,用于获取待剪辑的音频文件和预设剪辑时长范围;
副歌片段定位模块,用于将所述音频文件转换为对应的色谱图,并利用相似矩阵对副歌片段进行定位;
高潮片段定位模块,用于通过预设窗口对所述副歌片段的能量进行分析,获取所述副歌片段中的高潮片段;
起始时间点分析模块,用于通过微调窗口对所述高潮片段进行微调,获取所述高潮片段的起始时间点;
结束时间点分析模块,用于通过人声检测模型进行人声检测,获取所述高潮片段的结束时间点;
剪辑模块,用于根据所述起始时间点和所述结束时间点进行剪辑得到对应的音频片段。
第三方面,本发明提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被执行时实现上述方法的步骤。
本发明能够实现的有益效果是:本发明首先通过相似度矩阵对副歌片段进行定位;其次,通过设置的窗口对高潮片段的起始时间点进行更为准确的微调;然后,实用人声检测模型对高潮片段的结束时间点进行分析;最后根据分析到的起始时间点和结束时间点自动剪辑得到对应的音频片段;在提高音乐剪辑的效率和准确性的同时降低剪辑成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于相似矩阵的音乐自动剪辑实现方法流程示意图;
图2为本发明实施例提供的一种相似矩阵示意图;
图3为本发明实施例提供的一种降噪后的延时矩阵示意图;
图4为本发明实施例提供的一种基于相似矩阵的音乐自动剪辑实现系统拓扑结构示意图。
图标:10-音乐自动剪辑实现系统;100-获取模块;200-副歌片段定位模块;300-高潮片段定位模块;400-起始时间点分析模块;500-结束时间点分析模块;600-剪辑模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参看图1、图2和图3,图1为本发明实施例提供的一种基于相似矩阵的音乐自动剪辑实现方法流程示意图;图2为本发明实施例提供的一种相似矩阵示意图;图3为本发明实施例提供的一种降噪后的延时矩阵示意图。
在一种实施方式中,为了在提高音乐剪辑的效率和准确性的同时降低成本,本发明实施例提供了一种基于相似矩阵的音乐自动剪辑实现方法,其具体内容如下所述。
S1.获取待剪辑的音频文件和预设剪辑时长范围。
在一种实施方式中,可以通过预设的程序接口获取待剪辑的音频文件和预设剪辑时长范围等参数。其中,预设剪辑时长范围可以设置为,但不限于,30到60秒之间。
S2.将所述音频文件转换为对应的色谱图,并利用相似矩阵对副歌片段进行定位。
在一种实施方式中,音频文件获取完毕后可以存储在对应的内存中,并将数字信号处理为色谱图。色谱图中横轴代表时间帧,纵轴代表音高,数字大小代表振幅。
示例性地,可以先以0.2秒的音频文件为一帧构建该音频文件的色谱图;其次,根据所该色谱图分析各帧歌曲的相似度;然后,将相似度按照时间维度构建相似矩阵;最后,根据相似矩阵分析最优副歌片段。
具体地,可以根据公式(1)计算两帧歌曲的相似度;根据公式(2)构建相似矩阵:
Figure BDA0002954848760000061
M[x][y]=similarity(x,y) (2)
式中,x和y表示不同的两帧歌曲对应的音符向量;similarity表示相似度;M表示相似度矩阵。在相似度矩阵M中对角线对称相等,且对角线的值都是1,因为每一帧与自己的相似度都是是一样的。
在根据相似矩阵分析最优副歌片段时,可以先根据相似度矩阵构建延时矩阵,将相似度矩阵中倾斜的对角线通过线性变换转换为平铺的直线;其次,根据设置的阈值对延时矩阵进行降噪平滑处理;再次,将降噪平滑处理后的延时矩阵中的线条按照时间点进行统计;然后,定义每一条直线的权重,根据各个时间点重叠的线条数进行加权求和,计算该直线的总权重;最后,将总权重最大的直线对应的歌曲片段作为最优副歌片段。通过上述方式,可以获取到更加合适的副歌片段。
具体地,根据相似度矩阵构建延时矩阵,将相似度矩阵中倾斜的对角线通过线性变换转换为平铺的直线的步骤通过公式(3)进行线性变换:
T[x][y]=M[x][x-y]=similarity(x,x-y) (3)
式中,T表示延时矩阵;M表示相似度矩阵;x和y表示不同的两帧歌曲对应的音符向量;similarity表示相似度。
进一步地,对于一条从a点开始到b点结束的直线,若每个时间点含有的重叠线条数为n∈[j,k],且每一条直线的权重为
Figure BDA0002954848760000072
则该直线的总权重可以按照公式(4)进行计算:
Figure BDA0002954848760000071
S3.通过预设窗口对所述副歌片段的能量进行分析,获取所述副歌片段中的高潮片段。
在一种实施方式中,在获取高潮片段时可以先根据获取音频文件时的文件采样率fs和最小切片时长t设置预设窗口。
具体地,对于原始数字信号s,可以按照公式(5)进行划分:
Ws=t×α×fs (5)
其中,α是一个大于1的常量,这里可以设置为1.5,也就是说窗口大小应该大于剪辑限制因为后续还需要对起始位置进行微调。
然后,根据预设窗口将副歌片段划分为多个片段;
最后,计算各个片段中的平均能量值,并将平均能量值最高的片段作为高潮片段。
具体地,可以按照公式(6)计算每一个窗口中的平均能量值:
Figure BDA0002954848760000081
其中,
Figure BDA0002954848760000082
S4.通过微调窗口对所述高潮片段进行微调,获取所述高潮片段的起始时间点。
在一种实施方式中,当获取到高潮片段后,就可以先获取高潮片段的起点作为初步起始时间点;其次,根据设置的检测片段时间长度和文件采样率设置微调窗口;再次,根据预设的滑动检测区域和初步起始时间点构建目标检测区域;然后,根据微调窗口将目标检测区域划分为多个检测片段;最后,计算各个检测片段中的平均能量值,并将平均能量值最小的检测片段对应的起点作为高潮片段的最终起始时间点。
具体地,微调窗口可以按照公式(7)进行设置:
Wq=β×fs (7)
式中,β表示检测片段时间长度,fs为文件采样率。
S5.通过人声检测模型进行人声检测,获取所述高潮片段的结束时间点。
在一种实施方式中,可以先采用五个卷积层块(每个卷积层块均含有卷积层、池化层和dropout层)和一个全连接层构建神经网络模型;其次,利用含有人声和不含人声的环境音、噪音和纯音乐音频样本对神经网络模型进行训练得到对应的人声检测模型;再次,根据起始时间点和剪辑时长范围的最小值计算剪辑结束的预估位置;然后,从预估位置开始按照预设时间间隔获取音频文件中的数字信号对应的Mel频谱图;最后,利用人声检测模型对预估位置对应的Mel频谱图进行分析,确认是否含有人声;若含有人声,则逐帧向后进行检测,直到连续多帧未检测到人声时以当前的时间点作为结束时间点。
通过上述方式,可以防止将一句完整的歌词截断,使剪辑的音频片段更加完整。
S6.根据所述起始时间点和所述结束时间点剪辑得到对应的音频片段。
请参看图4,图4为本发明实施例提供的一种基于相似矩阵的音乐自动剪辑实现系统拓扑结构示意图。
在一种实施方式中,本发明实施例还提供了一种基于相似矩阵的音乐自动剪辑实现系统10。该音乐自动剪辑实现系统10包括:
获取模块100,用于获取待剪辑的音频文件和预设剪辑时长范围;
副歌片段定位模块200,用于将音频文件转换为对应的色谱图,并利用相似矩阵对副歌片段进行定位;
高潮片段定位模块300,用于通过预设窗口对副歌片段的能量进行分析,获取副歌片段中的高潮片段;
起始时间点分析模块400,用于通过微调窗口对高潮片段进行微调,获取高潮片段的起始时间点;
结束时间点分析模块500,用于通过人声检测模型进行人声检测,获取高潮片段的结束时间点;
剪辑模块600,用于根据起始时间点和结束时间点进行剪辑得到对应的音频片段。
在一种实施方式中,本发明实施例还提供一种存储介质,该存储介质存储有计算机程序,计算机程序被执行时实现方法的步骤。
综上所述,本发明实施例提供一种基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质,包括S1.获取待剪辑的音频文件和预设剪辑时长范围;S2.将所述音频文件转换为对应的色谱图,并利用相似矩阵对副歌片段进行定位;S3.通过预设窗口对所述副歌片段的能量进行分析,获取所述副歌片段中的高潮片段;S4.通过微调窗口对所述高潮片段进行微调,获取所述高潮片段的起始时间点;S5.通过人声检测模型进行人声检测,获取所述高潮片段的结束时间点;S6.根据所述起始时间点和所述结束时间点剪辑得到对应的音频片段。通过上述方式,提高了音频剪辑的效率和准确性,降低了剪辑成本。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于相似矩阵的音乐自动剪辑实现方法,其特征在于,包括:
S1.获取待剪辑的音频文件和预设剪辑时长范围;
S2.将所述音频文件转换为对应的色谱图,并利用相似矩阵对副歌片段进行定位;
S3.通过预设窗口对所述副歌片段的能量进行分析,获取所述副歌片段中的高潮片段;
S4.通过微调窗口对所述高潮片段进行微调,获取所述高潮片段的起始时间点;
S5.通过人声检测模型进行人声检测,获取所述高潮片段的结束时间点;
S6.根据所述起始时间点和所述结束时间点剪辑得到对应的音频片段。
2.根据权利要求1所述的方法,其特征在于,所述S2包括:
以一帧为单位构建所述音频文件的色谱图;
根据所述色谱图分析各帧歌曲的相似度;
将所述相似度按照时间维度构建相似矩阵;
根据所述相似矩阵分析最优副歌片段。
3.根据权利要求2所述的方法,其特征在于,将所述相似度按照时间维度构建相似矩阵的步骤包括:
根据公式(1)计算两帧歌曲的相似度;根据公式(2)构建相似矩阵:
Figure FDA0002954848750000011
M[x][y]=similarity(x,y) (2)
式中,x和y表示不同的两帧歌曲对应的音符向量;similarity表示相似度;M表示相似度矩阵。
4.根据权利要求3所述的方法,其特征在于,根据所述相似矩阵分析最优副歌片段的步骤包括:
根据所述相似度矩阵构建延时矩阵,将所述相似度矩阵中倾斜的对角线通过线性变换转换为平铺的直线;
根据设置的阈值对所述延时矩阵进行降噪平滑处理;
将降噪平滑处理后的延时矩阵中的线条按照时间点进行统计;
定义每一条直线的权重,根据各个时间点重叠的线条数进行加权求和,计算该直线的总权重;
将总权重最大的直线对应的歌曲片段作为最优副歌片段。
5.根据权利要求4所述的方法,其特征在于,根据所述相似度矩阵构建延时矩阵,将所述相似度矩阵中倾斜的对角线通过线性变换转换为平铺的直线的步骤通过公式(3)进行线性变换:
T[x][y]=M[x][x-y]=similarity(x,x-y) (3)
式中,T表示延时矩阵;M表示相似度矩阵;x和y表示不同的两帧歌曲对应的音符向量;similarity表示相似度。
6.根据权利要求1所述的方法,其特征在于,所述S3包括:
根据获取音频文件时的文件采样率和最小切片时长设置预设窗口;
根据所述预设窗口将所述副歌片段划分为多个片段;
计算各个所述片段中的平均能量值,并将平均能量值最高的片段作为高潮片段。
7.根据权利要求6所述的方法,其特征在于,所述S4包括:
获取高潮片段的起点作为初步起始时间点;
根据设置的检测片段时间长度和所述文件采样率设置微调窗口;
根据预设的滑动检测区域和所述初步起始时间点构建目标检测区域;
根据所述微调窗口将所述目标检测区域划分为多个检测片段;
计算各个所述检测片段中的平均能量值,并将平均能量值最小的检测片段对应的起点作为所述高潮片段的最终起始时间点。
8.根据权利要求1所述的方法,其特征在于,所述S5包括:
采用五个卷积层块和一个全连接层构建神经网络模型;
利用含有人声和不含人声的环境音、噪音和纯音乐音频样本对所述神经网络模型进行训练得到对应的人声检测模型;
根据所述起始时间点和所述剪辑时长范围的最小值计算剪辑结束的预估位置;
从所述预估位置开始按照预设时间间隔获取所述音频文件中的数字信号对应的Mel频谱图;
利用所述人声检测模型对所述预估位置对应的Mel频谱图进行分析,确认是否含有人声;若含有人声,则逐帧向后进行检测,直到连续多帧未检测到人声时以当前的时间点作为结束时间点。
9.一种基于相似矩阵的音乐自动剪辑实现系统,其特征在于,包括:
获取模块,用于获取待剪辑的音频文件和预设剪辑时长范围;
副歌片段定位模块,用于将所述音频文件转换为对应的色谱图,并利用相似矩阵对副歌片段进行定位;
高潮片段定位模块,用于通过预设窗口对所述副歌片段的能量进行分析,获取所述副歌片段中的高潮片段;
起始时间点分析模块,用于通过微调窗口对所述高潮片段进行微调,获取所述高潮片段的起始时间点;
结束时间点分析模块,用于通过人声检测模型进行人声检测,获取所述高潮片段的结束时间点;
剪辑模块,用于根据所述起始时间点和所述结束时间点进行剪辑得到对应的音频片段。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被执行时实现权利要求1-8任一项所述方法的步骤。
CN202110218414.1A 2021-02-26 2021-02-26 基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质 Active CN113035160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110218414.1A CN113035160B (zh) 2021-02-26 2021-02-26 基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110218414.1A CN113035160B (zh) 2021-02-26 2021-02-26 基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113035160A true CN113035160A (zh) 2021-06-25
CN113035160B CN113035160B (zh) 2022-08-02

Family

ID=76462381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110218414.1A Active CN113035160B (zh) 2021-02-26 2021-02-26 基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113035160B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539296A (zh) * 2021-06-30 2021-10-22 深圳市斯博科技有限公司 一种基于声音强度的音频高潮检测算法、存储介质及装置
CN115273891A (zh) * 2022-07-13 2022-11-01 上海海洋大学 一种基于相似度检测的音频自动剪错方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060080095A1 (en) * 2004-09-28 2006-04-13 Pinxteren Markus V Apparatus and method for designating various segment classes
US20090012637A1 (en) * 2007-07-06 2009-01-08 Sanyo Electric Co., Ltd. Chorus position detection device
CN106409311A (zh) * 2015-07-31 2017-02-15 阿里巴巴集团控股有限公司 副歌提取装置和方法
CN109829067A (zh) * 2019-03-05 2019-05-31 北京达佳互联信息技术有限公司 音频数据处理方法、装置、电子设备及存储介质
CN110808065A (zh) * 2019-10-28 2020-02-18 北京达佳互联信息技术有限公司 副歌检测方法、装置、电子设备及存储介质
CN111128100A (zh) * 2019-12-20 2020-05-08 网易(杭州)网络有限公司 节奏点检测方法、装置及电子设备
CN111326171A (zh) * 2020-01-19 2020-06-23 成都嗨翻屋科技有限公司 一种基于简谱识别和基频提取的人声旋律提取方法及系统
CN111968654A (zh) * 2020-08-24 2020-11-20 成都潜在人工智能科技有限公司 一种自适应混合域音频水印嵌入方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060080095A1 (en) * 2004-09-28 2006-04-13 Pinxteren Markus V Apparatus and method for designating various segment classes
US20090012637A1 (en) * 2007-07-06 2009-01-08 Sanyo Electric Co., Ltd. Chorus position detection device
CN106409311A (zh) * 2015-07-31 2017-02-15 阿里巴巴集团控股有限公司 副歌提取装置和方法
CN109829067A (zh) * 2019-03-05 2019-05-31 北京达佳互联信息技术有限公司 音频数据处理方法、装置、电子设备及存储介质
CN110808065A (zh) * 2019-10-28 2020-02-18 北京达佳互联信息技术有限公司 副歌检测方法、装置、电子设备及存储介质
CN111128100A (zh) * 2019-12-20 2020-05-08 网易(杭州)网络有限公司 节奏点检测方法、装置及电子设备
CN111326171A (zh) * 2020-01-19 2020-06-23 成都嗨翻屋科技有限公司 一种基于简谱识别和基频提取的人声旋律提取方法及系统
CN111968654A (zh) * 2020-08-24 2020-11-20 成都潜在人工智能科技有限公司 一种自适应混合域音频水印嵌入方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YU SHIU,等: "Similarity Matrix Processing for Music Structure Analysis", 《PROCEEDING OF THE 1ST ACM WORKSHOP ON AUDIO AND MUSIC COMPUTING MULTIMEDIA》 *
李伟,等: "流行音乐主旋律提取技术综述", 《计算机科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539296A (zh) * 2021-06-30 2021-10-22 深圳市斯博科技有限公司 一种基于声音强度的音频高潮检测算法、存储介质及装置
CN113539296B (zh) * 2021-06-30 2023-12-29 深圳万兴软件有限公司 一种基于声音强度的音频高潮检测算法、存储介质及装置
CN115273891A (zh) * 2022-07-13 2022-11-01 上海海洋大学 一种基于相似度检测的音频自动剪错方法
CN115273891B (zh) * 2022-07-13 2024-04-19 上海海洋大学 一种基于相似度检测的音频自动剪错方法

Also Published As

Publication number Publication date
CN113035160B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
US10497378B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
US8140331B2 (en) Feature extraction for identification and classification of audio signals
JP4878437B2 (ja) オーディオサムネイルを生成するためのシステムおよび方法
CN113035160B (zh) 基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质
US20060155399A1 (en) Method and system for generating acoustic fingerprints
CN110264999B (zh) 一种音频处理方法、设备及计算机可读介质
US20040267522A1 (en) Method and device for characterising a signal and for producing an indexed signal
JP2005322401A (ja) メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム
EP1547060A2 (en) System and method for generating an audio thumbnail of an audio track
CN109065071B (zh) 一种基于迭代k-means算法的歌曲聚类方法
CN111462758A (zh) 智能会议角色分类的方法、装置、设备及存储介质
CN105975568A (zh) 一种音频处理方法及装置
CN106887233A (zh) 音频数据处理方法及系统
CN107680584B (zh) 用于切分音频的方法和装置
CN109271501B (zh) 一种音频数据库的管理方法及系统
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
CN112908344B (zh) 一种鸟鸣声智能识别方法、装置、设备和介质
JP5109050B2 (ja) 音声処理装置およびプログラム
CN114329042A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
KR20130104878A (ko) 에너지 및 통계적 필터링을 이용한 음악 검색 방법, 장치 및 시스템
Miralles et al. The pulsed to tonal strength parameter and its importance in characterizing and classifying Beluga whale sounds
Liang et al. A Histogram Algorithm for Fast Audio Retrieval.
Aung et al. M-Diarization: A Myanmar Speaker Diarization using Multi-scale dynamic weights
Dutta et al. A hierarchical approach for silence/speech/music classification
CN108235137B (zh) 一种通过声音波形判断切台动作的方法、装置及电视机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant