CN107862093A - 文件属性识别方法及装置 - Google Patents
文件属性识别方法及装置 Download PDFInfo
- Publication number
- CN107862093A CN107862093A CN201711274772.4A CN201711274772A CN107862093A CN 107862093 A CN107862093 A CN 107862093A CN 201711274772 A CN201711274772 A CN 201711274772A CN 107862093 A CN107862093 A CN 107862093A
- Authority
- CN
- China
- Prior art keywords
- peak value
- file
- audio
- peak
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000012634 fragment Substances 0.000 claims abstract description 112
- 238000005314 correlation function Methods 0.000 claims abstract description 70
- 230000015654 memory Effects 0.000 claims description 20
- 238000013461 design Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 230000001133 acceleration Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000012952 Resampling Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Auxiliary Devices For Music (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本发明公开了一种文件属性识别方法及装置,属于网络技术领域。所述方法包括:获取待识别的多媒体文件,多媒体文件包括人声音轨音频和伴奏音轨音频;获取人声音轨音频中的第一音频片段以及伴奏音轨音频中的第二音频片段;获取第一音频片段与第二音频片段之间的归一相关函数;基于归一相关函数的第一峰值,识别多媒体文件的属性,第一峰值是指归一相关函数的最大幅值,属性为真唱文件或假唱文件。本发明保证电子设备可以实现识别和区分假唱文件和真唱文件的功能,提高了电子设备的智能性。
Description
技术领域
本发明涉及网络技术领域,特别涉及一种文件属性识别方法及装置。
背景技术
随着网络在人们日常生活中的作用越来越大,人们可以录制多媒体文件,将多媒体文件上传至网络,通过彼此的多媒体文件进行在线比赛。例如录制歌曲来进行K歌比赛,录制小视频来进行小视频比赛等。
用户上传的多媒体文件可能并非自己演唱的真唱文件,而为录制或合成的假唱文件:例如,在K歌比赛中,某些用户可能会播放原唱或者他人演唱的歌曲,将这种假唱歌曲冒充为自己演唱的真唱歌曲,通过终端录制歌曲,终端会将假唱歌曲上传给服务器,服务器会将假唱歌曲发布至网络,则假唱歌曲也会参与至在线比赛中。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
目前终端或服务器无法识别上传的多媒体文件为假唱文件还是真唱文件,智能性差。
发明内容
本发明实施例提供了一种文件属性识别方法及装置,能够解决相关技术中无法识别上传的多媒体文件为假唱文件还是真唱文件问题,所述技术方案如下:
第一方面,提供了一种文件属性识别方法,所述方法包括:
获取待识别的多媒体文件,所述多媒体文件包括人声音轨音频和伴奏音轨音频;
获取所述人声音轨音频中的第一音频片段以及所述伴奏音轨音频中的第二音频片段;
获取所述第一音频片段与所述第二音频片段之间的归一相关函数;
基于所述归一相关函数的第一峰值,识别所述多媒体文件的属性,所述第一峰值是指所述归一相关函数的最大幅值,所述属性为真唱文件或假唱文件。
在一种可能的设计中,所述基于所述归一相关函数的第一峰值,识别所述多媒体文件的属性,包括:
当所述第一峰值小于第一峰值阈值时,确定所述多媒体文件的属性为真唱文件,所述第一峰值阈值为小于多个样本假唱文件的第一峰值的最小值的数值。
在一种可能的设计中,所述基于所述归一相关函数的第一峰值,识别所述多媒体文件的属性,包括:
当所述第一峰值符合第一预设条件,且所述第一峰值大于第二峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第一预设条件为第一峰值的位置处于中值区间,所述中值区间是指在所述归一相关函数的中值前后分别取预设长度得到的区间,所述第二峰值阈值为大于多个第一样本真唱文件的第一峰值的最大值的数值,第一样本真唱文件为第一峰值符合所述第一预设条件的样本真唱文件;或,
当所述第一峰值符合第二预设条件,且所述第一峰值大于第三峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第二预设条件为第一峰值的位置处于中值区间内、且第一峰值为第二峰值的预设倍数以上,所述第二峰值是指所述归一相关函数在中值区间之外的最大幅值,所述第三峰值阈值为大于多个第二样本真唱文件的第一峰值的最大值的数值,第二样本真唱文件为第一峰值符合所述第二预设条件的样本真唱文件。
在一种可能的设计中,所述基于所述归一相关函数的第一峰值,识别所述多媒体文件的属性,包括:
当所述第一峰值符合第三预设条件,且所述第一峰值大于第四峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第三预设条件为第一峰值的位置处于中值区间外、且第一峰值为第三峰值的预设倍数以上,所述第三峰值是指所述归一相关函数在峰值区间以外的最大幅值,所述峰值区间是指所述第一峰值前后分别取预设长度得到的区间,所述第四峰值阈值为大于多个第三样本真唱文件的第一峰值的最大值的数值,第三样本真唱文件为第一峰值符合所述第三预设条件的样本真唱文件。
在一种可能的设计中,所述获取所述人声音轨音频的第一音频片段和所述伴奏音轨音频的第二音频片段,包括:
获取所述人声音轨音频的起点帧的起点位置;
在所述人声音轨音频中从所述起点位置开始,截取预设时长的音频片段,得到所述第一音频片段;
在所述伴奏音轨音频中从所述起点位置开始,截取所述预设时长的音频片段,得到所述第二音频片段。
在一种可能的设计中,所述获取所述人声音轨音频的起点帧的起点位置之前,所述方法还包括:
从所述人声音轨音频的第一个音频帧开始,遍历所述人声音轨音频的每一音频帧;
对于当前遍历到的音频帧,当所述音频帧的平均幅值大于平均幅值阈值时,确定所述音频帧为所述人声音轨音频的起点帧,所述平均幅值阈值为起点帧的平均幅值的最小值。
第二方面,提供了一种文件属性识别装置,所述装置包括:
获取模块,用于获取待识别的多媒体文件,所述多媒体文件包括人声音轨音频和伴奏音轨音频;
所述获取模块,还用于获取所述人声音轨音频中的第一音频片段以及所述伴奏音轨音频中的第二音频片段;
所述获取模块,还用于所述第一音频片段与所述第二音频片段之间的归一相关函数;
识别模块,用于基于所述归一相关函数的第一峰值,识别所述多媒体文件的属性,所述第一峰值是指所述归一相关函数的最大幅值,所述属性为真唱文件或假唱文件。
在一种可能的设计中,所述识别模块,还用于当所述第一峰值小于第一峰值阈值时,确定所述多媒体文件的属性为真唱文件,所述第一峰值阈值为小于多个样本假唱文件的第一峰值的最小值的数值。
在一种可能的设计中,所述识别模块,还用于当所述第一峰值符合第一预设条件,且所述第一峰值大于第二峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第一预设条件为第一峰值的位置处于中值区间,所述中值区间是指在所述归一相关函数的中值前后分别取预设长度得到的区间,所述第二峰值阈值为大于多个第一样本真唱文件的第一峰值的最大值的数值,第一样本真唱文件为第一峰值符合所述第一预设条件的样本真唱文件;或,
当所述第一峰值符合第二预设条件,且所述第一峰值大于第三峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第二预设条件为第一峰值的位置处于中值区间内、且第一峰值为第二峰值的预设倍数以上,所述第二峰值是指所述归一相关函数在中值区间之外的最大幅值,所述第三峰值阈值为大于多个第二样本真唱文件的第一峰值的最大值的数值,第二样本真唱文件为第一峰值符合所述第二预设条件的样本真唱文件。
在一种可能的设计中,所述识别模块,还用于当所述第一峰值符合第三预设条件,且所述第一峰值大于第四峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第三预设条件为第一峰值的位置处于中值区间外、且第一峰值为第三峰值的预设倍数以上,所述第三峰值是指所述归一相关函数在峰值区间以外的最大幅值,所述峰值区间是指所述第一峰值前后分别取预设长度得到的区间,所述第四峰值阈值为大于多个第三样本真唱文件的第一峰值的最大值的数值,第三样本真唱文件为第一峰值符合所述第三预设条件的样本真唱文件。
在一种可能的设计中,所述获取模块,包括:
获取子模块,用于获取所述人声音轨音频的起点帧的起点位置;
截取子模块,用于在所述人声音轨音频中从所述起点位置开始,截取预设时长的音频片段,得到所述第一音频片段;
所述截取子模块,用于在所述伴奏音轨音频中从所述起点位置开始,截取所述预设时长的音频片段,得到所述第二音频片段。
在一种可能的设计中,所述装置还包括:
确定模块,用于从所述人声音轨音频的第一个音频帧开始,遍历所述人声音轨音频的每一音频帧;对于当前遍历到的音频帧,当所述音频帧的平均幅值大于平均幅值阈值时,确定所述音频帧为所述人声音轨音频的起点帧,所述平均幅值阈值为起点帧的平均幅值的最小值。
第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现上述第一方面以及第一方面的任一种可能设计中的文件属性识别方法。
第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述第一方面以及第一方面的任一种可能设计中的文件属性识别方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的方法及装置,通过获取多媒体文件中人声音轨音频中的第一音频片段以及伴奏音轨音频中的第二音频片段,基于第一音频片段与第二音频片段之间的归一相关函数的第一峰值,能够识别出多媒体文件的属性,保证电子设备可以实现识别和区分假唱文件和真唱文件的功能,提高了电子设备的智能性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文件属性识别方法的流程图;
图2是本发明实施例提供的一种文件属性识别方法的流程图;
图3是本发明实施例提供的一种文件属性识别方法的操作流程图;
图4是本发明实施例提供的一种文件属性识别装置的结构示意图;
图5是本发明实施例提供的一种电子设备500的结构示意图。
图6是本发明实施例提供的一种电子设备600的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种文件属性识别方法的流程图,该方法包括:
101、获取待识别的多媒体文件,该多媒体文件包括人声音轨音频和伴奏音轨音频。
102、获取人声音轨音频中的第一音频片段以及伴奏音轨音频中的第二音频片段。
103、获取该第一音频片段与该第二音频片段之间的归一相关函数。
104、基于该归一相关函数的第一峰值,识别该多媒体文件的属性,该第一峰值是指该归一相关函数的最大幅值,该属性为真唱文件或假唱文件。
在一种可能的设计中,该基于该归一相关函数的第一峰值,识别该多媒体文件的属性,包括:
当该第一峰值小于第一峰值阈值时,确定该多媒体文件的属性为真唱文件,该第一峰值阈值为小于多个样本假唱文件的第一峰值的最小值的数值。
在一种可能的设计中,该基于该归一相关函数的第一峰值,识别该多媒体文件的属性,包括:
当该第一峰值符合第一预设条件,且该第一峰值大于第二峰值阈值时,确定该多媒体文件的属性为假唱文件,该第一预设条件为第一峰值的位置处于中值区间,该中值区间是指在该归一相关函数的中值前后分别取预设长度得到的区间,该第二峰值阈值为大于多个第一样本真唱文件的第一峰值的最大值的数值,该第一样本真唱文件为第一峰值符合该第一预设条件的样本真唱文件;或,
当该第一峰值符合第二预设条件,且该第一峰值大于第三峰值阈值时,确定该多媒体文件的属性为假唱文件,该第二预设条件为第一峰值的位置处于中值区间内、且第一峰值为第二峰值的预设倍数以上,该第二峰值是指该归一相关函数在中值区间之外的最大幅值,该第三峰值阈值为大于多个第二样本真唱文件的第一峰值的最大值的数值,该第二样本真唱文件为第一峰值符合该第二预设条件的样本真唱文件。
在一种可能的设计中,该基于该归一相关函数的第一峰值,识别该多媒体文件的属性,包括:
当该第一峰值符合第三预设条件,且该第一峰值大于第四峰值阈值时,确定该多媒体文件的属性为假唱文件,该第三预设条件为第一峰值的位置处于中值区间外、且第一峰值为第三峰值的预设倍数以上,该第三峰值是指该归一相关函数在峰值区间以外的最大幅值,该峰值区间是指该第一峰值前后分别取预设长度得到的区间,该第四峰值阈值为大于多个第三样本真唱文件的第一峰值的最大值的数值,该第三样本真唱文件为第一峰值符合该第三预设条件的样本真唱文件。
在一种可能的设计中,该获取该人声音轨音频的第一音频片段和该伴奏音轨音频的第二音频片段,包括:
获取该人声音轨音频的起点帧的起点位置;
在该人声音轨音频中从该起点位置开始,截取预设时长的音频片段,得到该第一音频片段;
在该伴奏音轨音频中从该起点位置开始,截取该预设时长的音频片段,得到该第二音频片段。
在一种可能的设计中,该获取该人声音轨音频的起点帧的起点位置之前,该方法还包括:
从该人声音轨音频的第一个音频帧开始,遍历该人声音轨音频的每一音频帧;
对于当前遍历到的音频帧,当该音频帧的平均幅值大于平均幅值阈值时,确定该音频帧为该人声音轨音频的起点帧,该平均幅值阈值为起点帧的平均幅值的最小值。
相关技术中,终端或服务器的智能性较差,无法识别上传的多媒体文件为假唱文件还是真唱文件,用户可以肆意弄虚造假,将假唱文件冒充为自己的作品参加在线比赛,影响了在线比赛的公平性、客观性。而本发明实施例提供了一种可以准确识别出假唱文件的方案,可以对假唱文件和真唱文件进行区分,避免假唱文件参与在线比赛,从而保证每个用户公平地进行在线比赛。
本发明实施例可以应用在各种在线比赛的场景中,例如K歌比赛、歌舞比赛、微电影比赛、小视频比赛等,以K歌比赛为例,用户可能会播放原唱或他人演唱的歌曲,通过终端录制歌曲,试图将这种假唱歌曲作为自己的作品参与在线比赛。而采用本发明实施例提供的方法,终端可以识别出歌曲为假唱歌曲,取消上传假唱歌曲,则假唱歌曲不会具有参与在线比赛的比赛资格,保证在线比赛的公平性。
图2是本发明实施例提供的一种文件属性识别方法的流程图。该发明实施例的执行主体为电子设备,该电子设备可以为终端或服务器,参见图2,该方法包括:
201、电子设备获取待识别的多媒体文件。
多媒体文件的类型可以为歌曲或视频等,多媒体文件的属性可以为真唱文件或假唱文件。
真唱文件包括人声音轨音频和伴奏音轨音频,其中人声音轨音频为用户真实演唱的音频。针对真唱文件的获取方式,以歌曲为例,用户可以对着终端演唱歌曲,在终端上触发录音操作,终端可以录制歌曲,并将歌曲发送给服务器,在这种情况下终端以及服务器获取到的歌曲为真唱歌曲。以视频为例,用户可以进行表演,在终端上触发拍摄操作,终端可以拍摄视频,并将视频发送给服务器,在这种情况下终端以及服务器获取到的视频为真唱视频。
假唱文件也包括人身音轨音频和伴奏音轨音频,其中人声音轨音频不为用户真实演唱的音频。为了避免假唱文件参与在线比赛,当电子设备获取到多媒体文件后,可以通过执行本实施例提供的各个步骤,对多媒体文件的属性进行识别。
可选地,电子设备可以对获取到的多媒体文件进行重采样,重采样是指将音频的采样频率从原始采样频率转换为目标采样频率,电子设备可以存储目标重采样频率,按照目标重采样频率,对人声音轨音频和伴奏音轨音频进行重采样。其中,目标重采样频率小于多媒体文件的原始采样频率,目标重采样频率可以根据实际需求确定,例如为8000Hz。通过进行重采样,能够降低人声音轨音频和伴奏音轨音频的采样频率,减少后续识别过程的计算量,提高计算效率。
202、电子设备获取多媒体文件的人声音轨音频的起点帧。
起点帧是指人声音轨音频的多个音频帧中第一个包含语音的音频帧。考虑到录制多媒体文件的过程中,通常会先播放一段前奏,在前奏结束后用户才会开始演唱,而在前奏期间用户通常保持静默,相应地,在前奏期间人声音轨音频音量较小,信息量不足,对后续识别过程会造成干扰。而本发明实施例会从人声音轨音频中识别出起点帧,该起点帧在前奏结束之后,后续从起点帧的位置开始截取音频片段,能够保证截取的音频片段不包括前奏期间的音频片段,避免根据前奏期间的音频片段进行计算时造成的干扰,保证识别过程的准确性。
获取人声音轨音频的起点帧的过程具体可以包括以下步骤一至步骤二:
步骤一、从人声音轨音频的第一个音频帧开始,遍历人声音轨音频的每一音频帧,对于当前遍历到的音频帧,计算该音频帧的平均幅值。
音频帧是指预设帧长的音频,人声音轨音频的第一个音频帧即为从人声音轨音频的起点开始且时长为预设帧长的音频。
电子设备可以基于预设步长和预设帧长,遍历每一音频帧:从人声音轨音频的起点开始,取时长为预设帧长的一段音频,作为第一个音频帧,计算第一个音频帧的平均幅值,以便判断第一个音频帧是否为起点帧,当第一个音频帧不为起点帧,则在时域上偏移预设步长,再次取时长为预设帧长的一段音频,作为第二个音频帧,计算第二个音频帧的平均幅值,以便判断第二个音频帧是否为起点帧,以此类推,直到确定出人声音轨音频的起点帧为止。其中,预设步长是指相邻两个音频帧在时域上的偏移量,例如为相邻两个音频帧的起点之间的差值或相邻两个音频帧的终点之间的差值,预设步长的具体数值可以根据实际需求确定,例如预设步长为0.01s。示例性地,以预设帧长为0.2s,预设步长为0.01s为例,电子设备会依次遍历第0-0.2s,第0.01s-0.21s、第0.02-0.22s,直到确定出起点帧为止。
针对平均幅值以及计算平均幅值的具体过程,音频帧的平均幅值是指音频帧的各个采样点的幅值的平均值,音频帧的平均幅值表征音频帧的能量,平均幅值越大,表征音频帧的能量越高。电子设备可以根据音频帧中每个采样点的幅值以及采样点个数,采用以下公式计算音频帧的平均幅值。
其中,xp表示音频帧的平均幅值,abs表示绝对值运算,x1(k)表示音频帧中第k个采样点的幅值,lenx1表示音频帧的采样点个数。
步骤二、当音频帧的平均幅值大于平均幅值阈值时,确定该音频帧为人声音轨音频的起点帧,平均幅值阈值为起点帧的平均幅值的最小值。
由于语音的能量通常较高,电子设备可以判断音频帧的平均幅值是否大于平均幅值阈值,当音频帧的平均幅值大于平均幅值阈值时,则确定音频帧为人声音轨音频的起点帧,执行下述步骤203,当音频帧的平均幅值不大于平均幅值阈值时,则确定该音频帧不为人声音轨音频的起点帧,继续遍历下一音频帧,再次计算平均幅值来进行判断,直到确定出人声音轨音频的起点帧为止。其中,针对平均幅值阈值的设置过程,可以预先对多个样本多媒体文件进行实验,获取多个样本多媒体文件的人声音轨音频的起点帧的平均幅值的最小值,作为平均幅值阈值。
需要说明的是,当电子设备遍历了人声音轨音频的所有音频帧,而未确定出人声音轨音频的起点帧时,表明人声音轨音频是无声音频,则确定多媒体文件为非正常文件,可以直接结束识别过程。
203、电子设备基于人声音轨音频的起点帧,获取人声音轨音频中的第一音频片段以及伴奏音轨音频中的第二音频片段。
本实施例中,电子设备会基于人声音轨音频的起点帧,分别从人声音轨音频和伴奏音频音轨中截取音频片段,得到两个音频片段,以便后续根据两个音频片段获取归一相关函数。为了区分描述,在此将人声音轨音频中截取的音频片段称为第一音频片段,将伴奏音轨音频中截取的音频片段称为第二音频片段。
针对截取第一音频片段和第二音频片段的具体过程,电子设备可以将起点帧的的起点位置作为人声音轨音频以及伴奏音轨音频开始截取的音频片段的位置,在人声音轨音频中从起点帧的起点位置开始,截取预设时长的音频片段,得到第一音频片段,在伴奏音轨音频中从起点帧的起点位置开始,截取预设时长的音频片段,得到第二音频片段。其中,预设时长可以根据实际需求确定,例如为30s。
基于这种获取音频片段的方式,第一音频片段与第二音频片段的起点相同、时长相同,结束点也会相同,后续根据起点、结束点均相同的两个音频片段获取归一相关函数时,能够保证归一相关函数的准确性,即归一相关函数的取值能够客观真实地反映两个音频片段之间的相关程度,进而保证识别出的多媒体文件的属性为准确的属性。
示例性地,假设起点帧为第800帧,预设时长为30s,则在人声音轨音频中从第800帧的起点开始,截取30s的音频片段,得到第一音频片段,在伴奏音轨音频中也从第800帧开始,截取30s的音频片段,得到第二音频片段。
204、电子设备获取第一音频片段与第二音频片段之间的归一相关函数。
电子设备会对第一音频片段、第二音频片段进行归一相关计算,得到第一音频片段与第二音频片段之间的归一相关函数,以便后续基于归一相关函数来识别多媒体文件的属性。其中,归一相关函数表征第一音频片段与第二音频片段之间的相关程度,归一相关函数在某个采样点的取值越大,表示第一音频片段与第二音频片段在该采样点越相关。
具体地,可以获取第一音频片段每个采样点的幅值、第二音频片段每个采样点的幅值以及采样点个数,采用以下公式进行计算,得到归一相关函数:
其中,C表示归一相关函数,x(k)表示第一音频片段在第k点的幅值,y(k)表示第二音频片段在第k点的幅值,len表示音频片段的采样点个数,*表示卷积计算。
205、电子设备基于归一相关函数的第一峰值,识别多媒体文件的属性,第一峰值是指归一相关函数的最大幅值,属性为真唱文件或假唱文件。
发明人认识到,对于同一多媒体文件中同一时间段的人声音轨音频与伴奏音轨音频来说,若人声音轨音频与伴奏音轨音频之间越相关,则多媒体文件为假唱文件的概率越大,若人声音轨音频与伴奏音轨音频之间越不相关,则多媒体文件为真唱文件的概率越大,因此,人声音轨音频与伴奏音轨音频之间的相关度可以用于确定多媒体文件的属性。
本实施例中,电子设备会获取归一相关函数的最大幅值,得到第一峰值,该第一峰值表征第一音频片段与第二音频片段之间的最大相关度,可以基于该第一峰值来识别多媒体文件的属性,即判断多媒体文件的属性为真唱文件还是假唱文件。
识别多媒体文件的属性的方式具体可以包括以下方式一至方式四中的任一种方式:
方式一、当第一峰值小于第一峰值阈值时,确定多媒体文件的属性为真唱文件。
第一峰值阈值为小于样本假唱文件的第一峰值的最小值的数值。针对设置第一峰值阈值的过程,在实施中,可以预先人工获取多个样本假唱文件,对多个样本假唱文件进行实验,获取多个样本假唱文件的第一峰值的最小值,选取小于该第一峰值的最小值的某一数值作为第一峰值阈值。其中,第一峰值阈值可以为250,第一峰值阈值可以预先存储在电子设备中。
在识别多媒体文件的属性的过程中,电子设备可以判断多媒体文件的第一峰值是否小于第一峰值阈值,当第一峰值小于第一峰值阈值时,表明多媒体文件的第一峰值小于样本假唱文件的第一峰值的最小值,因此多媒体文件的属性不是假唱文件,因此可以确定多媒体文件的属性为真唱文件。另外,当第一峰值大于第一峰值阈值时,可以采用以下方式二至方式四继续对多媒体文件的属性进行识别。
方式二、当第一峰值符合第一预设条件,且第一峰值大于第二峰值阈值时,确定多媒体文件的属性为假唱文件。
第一预设条件为第一峰值的位置处于中值区间内,中值区间是指在归一相关函数的中值前后分别取预设长度得到的区间。中值是指归一相关函数的定义域的中心点。当归一相关函数为多个采样点组成的离散函数时,中值即为第一个采样点和最后一个采样点之间的中间点,例如假设归一相关函数包括80000个采样点,则中值为第40000个采样点。在确定中值的位置后,可以在中值之前取预设长度,作为中值区间的起点,在中值之后取预设长度,作为中值区间的终点,则中值区间的起点和终点可以确定出中值区间。其中,预设长度可以根据实际需求确定,例如可以为2s。示例性地,假设中值为第40000个采样点,预设长度为2s,采样频率为8000Hz,则中值区间为(24000,56000)。
第二峰值阈值为大于多个第一样本真唱文件的第一峰值的最大值的数值,该多个第一样本真唱文件中的每个第一样本真唱文件为第一峰值符合第一预设条件的样本真唱文件。针对设置第二峰值阈值的过程,在实施中,可以获取多个样本真唱文件,获取多个样本真唱文件中第一峰值符合第一预设条件的样本真唱文件,得到多个第一样本真唱文件,获取多个第一样本真唱文件的第一峰值的最大值,选取大于该第一峰值的最大值的某一数值作为第二峰值阈值。其中,第二峰值阈值可以为500,第二峰值阈值可以预先存储在电子设备中。
在识别多媒体文件的属性的过程中,电子设备可以判断多媒体文件的第一峰值的位置是否处于中值区间内,当第一峰值的位置处于中值区间内,判断第一峰值是否大于第二峰值阈值,当第一峰值大于第二峰值阈值时,表明多媒体文件的第一峰值大于第一样本真唱文件的最大值,因此多媒体文件的属性不是真唱文件,因此可以确定多媒体文件的属性为假唱文件。
另外,当第一峰值的位置处于中值区间内,且第一峰值不大于第二峰值阈值时,可以采用下述方式三继续对多媒体文件的属性进行识别,当第一峰值的位置处于中值区间内,且通过方式二和方式三均未确定多媒体文件的属性为假唱文件时,则确定多媒体文件的属性为真唱文件。
方式三、当第一峰值符合第二预设条件,且第一峰值大于第三峰值阈值时,确定多媒体文件的属性为假唱文件。
第二预设条件为第一峰值的位置处于中值区间内、且第一峰值为第二峰值的预设倍数以上,第二峰值是指归一相关函数在中值区间之外的最大幅值,在确定归一相关函数的中值区间后,可以在中值区间之外选取归一相关函数的最大幅值,得到第二峰值。预设倍数的具体数值可以根据实际需求确定,例如为2倍。
第三峰值阈值为大于多个第二样本真唱文件的第一峰值的最大值的数值,多个第二样本真唱文件中的每个第二样本真唱文件为第一峰值符合第二预设条件的样本真唱文件。针对设置第三峰值阈值的过程,在实施中,可以获取多个样本真唱文件,获取多个样本真唱文件中第一峰值符合第二预设条件的样本真唱文件,得到多个第二样本真唱文件,获取多个第二样本真唱文件的第一峰值的最大值,选取大于该第一峰值的最大值的某一数值作为第三峰值阈值。其中,第三峰值阈值可以为250,第三峰值阈值可以预先存储在电子设备中。
在识别多媒体文件的属性的过程中,电子设备可以判断第一峰值的位置是否处于中值区间内,当第一峰值的位置处于中值区间内,判断第一峰值是否为第二峰值的预设倍数以上,当第一峰值为第二峰值的预设倍数以上,再判断第一峰值是否大于第三峰值阈值,当第一峰值大于第三峰值阈值,表明多媒体文件的第一峰值大于第二样本真唱文件的最大值,因此多媒体文件的属性不是真唱文件,因此可以确定多媒体文件的属性为假唱文件。
另外,当第一峰值的位置处于中值区间内,而第一峰值不为第二峰值的预设倍数以上,或第一峰值不大于第三峰值阈值时,可以采用上述方式二继续对多媒体文件的属性进行识别,当第一峰值的位置处于中值区间内,且通过方式二和方式三均未确定多媒体文件的属性为假唱文件时,则确定多媒体文件的属性为真唱文件。
方式四、当第一峰值符合第三预设条件,且第一峰值大于第四峰值阈值时,确定多媒体文件的属性为假唱文件。
第三预设条件为第一峰值的位置处于中值区间外、且第一峰值为第三峰值的预设倍数以上,第三峰值是指归一相关函数在峰值区间以外的最大幅值,峰值区间是指第一峰值前后分别取预设长度得到的区间。在确定峰值的位置后,可以在峰值之前取预设长度,作为峰值区间的起点,在峰值之后取预设长度,作为峰值区间的终点,则峰值区间的起点和终点可以确定出峰值区间。在确定归一相关函数的峰值区间后,可以在峰值区间之外选取归一相关函数的最大幅值,得到第三峰值。
第四峰值阈值为大于多个第三样本真唱文件的第一峰值的最大值的数值,多个第三样本真唱文件中的每个第三样本真唱文件为第一峰值符合第三预设条件的样本真唱文件。针对设置第四峰值阈值的过程,在实施中,可以获取多个样本真唱文件,获取多个样本真唱文件中第一峰值符合第三预设条件的样本真唱文件,得到多个第三样本真唱文件,获取多个第三样本真唱文件的第一峰值的最大值,选取大于该第一峰值的最大值的某一数值作为第四峰值阈值。其中,第四峰值阈值可以为250,第四峰值阈值可以预先存储在电子设备中。
在识别多媒体文件的属性的过程中,电子设备可以判断多媒体文件的第一峰值的位置是否处于中值区间内,当第一峰值的位置处于中值区间外,判断第一峰值是否为第三峰值的预设倍数以上,当第一峰值为第三峰值的预设倍数以上,再判断第一峰值是否大于第四峰值阈值,当第一峰值大于第四峰值阈值时,表明多媒体文件的第一峰值大于第三样本真唱文件的最大值,因此多媒体文件的属性不是真唱文件,因此可以确定多媒体文件的属性为假唱文件。
需要说明的第一点是,上述方式一至方式四可以采用结合的方式形成本步骤205,或者上述方式一至方式四中的任一方式可以独立成为本步骤205。参见图3,其示出了一种上述方式一至方式四结合时的操作流程图,其包括以下步骤:
步骤一、判断第一峰值是否小于第一峰值阈值(方式一),当第一峰值小于第一峰值阈值时,则结束,确定多媒体文件的属性为真唱文件;
步骤二、当第一峰值不小于第一峰值阈值时,则继续判断第一峰值的位置是否处于中值区间,当第一峰值处于中值区间时,进入步骤三(方式二)或步骤四(方式三),当处于中值区间外时,进入步骤四(方式四)。
步骤三、当第一峰值大于第二峰值阈值时,确定多媒体文件的属性为假唱文件,否则确定多媒体文件的属性为真唱文件。
步骤四、当第一峰值为第二峰值的预设倍数以上,且第一峰值大于第三峰值阈值时,确定多媒体文件的属性为假唱文件,否则确定多媒体文件的属性为真唱文件。
步骤五、当第一峰值为第三峰值的预设倍数以上,且第一峰值大于第四峰值阈值时,确定多媒体文件的属性为假唱文件,否则确定多媒体文件的属性为真唱文件。
需要说明的第二点是,针对识别出多媒体文件的属性的后续步骤,当电子设备为终端,终端确定多媒体文件为真唱文件时,会将多媒体文件上传至服务器,以便多媒体文件参与在线比赛。当终端确定多媒体文件为假唱文件时,会拒绝将多媒体文件上传给服务器,还可以按照预设提示方式提示用户,例如显示提示页面,提示页面可以包括例如“警告,上传的歌曲为假唱歌曲”的提示信息,以警告和提示用户。当电子设备为服务器,服务器确定多媒体文件为真唱文件时,会允许多媒体文件参与在线比赛,当确定多媒体文件为假唱文件时会拒绝多媒体文件参与在线比赛,还可以向发送该多媒体文件的终端返回提示消息,以便终端按照预设提示方式提示用户。另外,服务器还可以获取上传该多媒体文件的用户标识,取消该用户标识为在线比赛上传多媒体文件的权限。
本发明实施例提供的方法,通过获取多媒体文件中人声音轨音频中的第一音频片段以及伴奏音轨音频中的第二音频片段,基于第一音频片段与第二音频片段之间的归一相关函数的第一峰值,能够识别出多媒体文件的属性,保证电子设备可以实现识别和区分假唱文件和真唱文件的功能,提高了电子设备的智能性。
图4是本发明实施例提供的一种文件属性识别装置的结构示意图。参见4,该装置包括:获取模块401和识别模块402。
获取模块401,用于获取待识别的多媒体文件,该多媒体文件包括人声音轨音频和伴奏音轨音频;
该获取模块401,还用于获取该人声音轨音频中的第一音频片段以及该伴奏音轨音频中的第二音频片段;
该获取模块401,还用于该第一音频片段与该第二音频片段之间的归一相关函数;
识别模块402,用于基于该归一相关函数的第一峰值,识别该多媒体文件的属性,该第一峰值是指该归一相关函数的最大幅值,该属性为真唱文件或假唱文件。
本发明实施例提供的装置,通过获取多媒体文件中人声音轨音频中的第一音频片段以及伴奏音轨音频中的第二音频片段,基于第一音频片段与第二音频片段之间的归一相关函数的第一峰值,能够识别出多媒体文件的属性,保证电子设备可以实现识别和区分假唱文件和真唱文件的功能,提高了电子设备的智能性。
在一种可能的设计中,该识别模块402,还用于当该第一峰值小于第一峰值阈值时,确定该多媒体文件的属性为真唱文件,该第一峰值阈值为小于多个样本假唱文件的第一峰值的最小值的数值。
在一种可能的设计中,该识别模块402,还用于当该第一峰值符合第一预设条件,且该第一峰值大于第二峰值阈值时,确定该多媒体文件的属性为假唱文件,该第一预设条件为第一峰值的位置处于中值区间,该中值区间是指在该归一相关函数的中值前后分别取预设长度得到的区间,该第二峰值阈值为大于多个第一样本真唱文件的第一峰值的最大值的数值,该第一样本真唱文件为第一峰值符合该第一预设条件的样本真唱文件;或,
当该第一峰值符合第二预设条件,且该第一峰值大于第三峰值阈值时,确定该多媒体文件的属性为假唱文件,该第二预设条件为第一峰值的位置处于中值区间内、且第一峰值为第二峰值的预设倍数以上,该第二峰值是指该归一相关函数在中值区间之外的最大幅值,该第三峰值阈值为大于多个第二样本真唱文件的第一峰值的最大值的数值,该第二样本真唱文件为第一峰值符合该第二预设条件的样本真唱文件。
在一种可能的设计中,该识别模块402,还用于当该第一峰值符合第三预设条件,且该第一峰值大于第四峰值阈值时,确定该多媒体文件的属性为假唱文件,该第三预设条件为第一峰值的位置处于中值区间外、且第一峰值为第三峰值的预设倍数以上,该第三峰值是指该归一相关函数在峰值区间以外的最大幅值,该峰值区间是指该第一峰值前后分别取预设长度得到的区间,该第四峰值阈值为大于多个第三样本真唱文件的第一峰值的最大值的数值,该第三样本真唱文件为第一峰值符合该第三预设条件的样本真唱文件。
在一种可能的设计中,该获取模块401,包括:
获取子模块,用于获取该人声音轨音频的起点帧的起点位置;
截取子模块,用于在该人声音轨音频中从该起点位置开始,截取预设时长的音频片段,得到该第一音频片段;
该截取子模块,用于在该伴奏音轨音频中从该起点位置开始,截取该预设时长的音频片段,得到该第二音频片段。
在一种可能的设计中,该装置还包括:
确定模块,用于从该人声音轨音频的第一个音频帧开始,遍历该人声音轨音频的每一音频帧;对于当前遍历到的音频帧,当该音频帧的平均幅值大于平均幅值阈值时,确定该音频帧为该人声音轨音频的起点帧,该平均幅值阈值为起点帧的平均幅值的最小值。
需要说明的是:上述实施例提供的文件属性识别装置在识别文件属性时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将文件属性识别装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文件属性识别装置与文件属性识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5示出了本发明实施例提供的一种电子设备500的结构示意图。该电子设备500为终端,可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,电子设备500包括有:处理器501和存储器502。
处理器501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器501所执行以实现本发明中方法实施例提供的文件属性识别方法。
在一些实施例中,电子设备500还可选包括有:外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地,外围设备包括:射频电路504、触摸显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。
外围设备接口503可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中,处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路504包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本发明对此不加以限定。
显示屏505用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时,显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时,显示屏505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏505可以为一个,设置电子设备500的前面板;在另一些实施例中,显示屏505可以为至少两个,分别设置在电子设备500的不同表面或呈折叠设计;在再一些实施例中,显示屏505可以是柔性显示屏,设置在电子设备500的弯曲表面上或折叠面上。甚至,显示屏505还可以设置成非矩形的不规则图形,也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件506用于采集图像或视频。可选地,摄像头组件506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器501进行处理,或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路507还可以包括耳机插孔。
定位组件508用于定位电子设备500的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源509用于为电子设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于:加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。
加速度传感器511可以检测以电子设备500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号,控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器512可以检测电子设备500的机体方向及转动角度,陀螺仪传感器512可以与加速度传感器511协同采集用户对电子设备500的3D动作。处理器501根据陀螺仪传感器512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器513可以设置在电子设备500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在电子设备500的侧边框时,可以检测用户对电子设备500的握持信号,由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时,由处理器501根据用户对触摸显示屏505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器514用于采集用户的指纹,由处理器501根据指纹传感器514采集到的指纹识别用户的身份,或者,由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置电子设备500的正面、背面或侧面。当电子设备500上设置有物理按键或厂商Logo时,指纹传感器514可以与物理按键或厂商Logo集成在一起。
光学传感器515用于采集环境光强度。在一个实施例中,处理器501可以根据光学传感器515采集的环境光强度,控制触摸显示屏505的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏505的显示亮度;当环境光强度较低时,调低触摸显示屏505的显示亮度。在另一个实施例中,处理器501还可以根据光学传感器515采集的环境光强度,动态调整摄像头组件506的拍摄参数。
接近传感器516,也称距离传感器,通常设置在电子设备500的前面板。接近传感器516用于采集用户与电子设备500的正面之间的距离。在一个实施例中,当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变小时,由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态;当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变大时,由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图5中示出的结构并不构成对电子设备500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图6是本发明实施例提供的一种电子设备600的结构示意图,该电子设备600为服务器,可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在电子设备600上执行存储介质630中的一系列指令操作。
电子设备600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,一个或一个以上键盘656,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
该电子设备600可以用于执行上述实施例提供的文件属性识别方法中电子设备所执行的步骤。
在示例性实施例中,还提供了一种存储有计算机程序的计算机可读存储介质,例如存储有计算机程序的存储器,上述计算机程序被处理执行时实现上述实施例中所示的文件属性识别方法。例如,上述计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种文件属性识别方法,其特征在于,所述方法包括:
获取待识别的多媒体文件,所述多媒体文件包括人声音轨音频和伴奏音轨音频;
获取所述人声音轨音频中的第一音频片段以及所述伴奏音轨音频中的第二音频片段;
获取所述第一音频片段与所述第二音频片段之间的归一相关函数;
基于所述归一相关函数的第一峰值,识别所述多媒体文件的属性,所述第一峰值是指所述归一相关函数的最大幅值,所述属性为真唱文件或假唱文件。
2.根据权利要求1所述的方法,其特征在于,所述基于所述归一相关函数的第一峰值,识别所述多媒体文件的属性,包括:
当所述第一峰值小于第一峰值阈值时,确定所述多媒体文件的属性为真唱文件,所述第一峰值阈值为小于多个样本假唱文件的第一峰值的最小值的数值。
3.根据权利要求1所述的方法,其特征在于,所述基于所述归一相关函数的第一峰值,识别所述多媒体文件的属性,包括:
当所述第一峰值符合第一预设条件,且所述第一峰值大于第二峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第一预设条件为第一峰值的位置处于中值区间,所述中值区间是指在所述归一相关函数的中值前后分别取预设长度得到的区间,所述第二峰值阈值为大于多个第一样本真唱文件的第一峰值的最大值的数值,第一样本真唱文件为第一峰值符合所述第一预设条件的样本真唱文件;或,
当所述第一峰值符合第二预设条件,且所述第一峰值大于第三峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第二预设条件为第一峰值的位置处于中值区间内、且第一峰值为第二峰值的预设倍数以上,所述第二峰值是指所述归一相关函数在中值区间之外的最大幅值,所述第三峰值阈值为大于多个第二样本真唱文件的第一峰值的最大值的数值,第二样本真唱文件为第一峰值符合所述第二预设条件的样本真唱文件。
4.根据权利要求1所述的方法,其特征在于,所述基于所述归一相关函数的第一峰值,识别所述多媒体文件的属性,包括:
当所述第一峰值符合第三预设条件,且所述第一峰值大于第四峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第三预设条件为第一峰值的位置处于中值区间外、且第一峰值为第三峰值的预设倍数以上,所述第三峰值是指所述归一相关函数在峰值区间以外的最大幅值,所述峰值区间是指所述第一峰值前后分别取预设长度得到的区间,所述第四峰值阈值为大于多个第三样本真唱文件的第一峰值的最大值的数值,第三样本真唱文件为第一峰值符合所述第三预设条件的样本真唱文件。
5.根据权利要求1所述的方法,其特征在于,所述获取所述人声音轨音频的第一音频片段和所述伴奏音轨音频的第二音频片段,包括:
获取所述人声音轨音频的起点帧的起点位置;
在所述人声音轨音频中从所述起点位置开始,截取预设时长的音频片段,得到所述第一音频片段;
在所述伴奏音轨音频中从所述起点位置开始,截取所述预设时长的音频片段,得到所述第二音频片段。
6.根据权利要求5所述的方法,其特征在于,所述获取所述人声音轨音频的起点帧的起点位置之前,所述方法还包括:
从所述人声音轨音频的第一个音频帧开始,遍历所述人声音轨音频的每一音频帧;
对于当前遍历到的音频帧,当所述音频帧的平均幅值大于平均幅值阈值时,确定所述音频帧为所述人声音轨音频的起点帧,所述平均幅值阈值为起点帧的平均幅值的最小值。
7.一种文件属性识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的多媒体文件,所述多媒体文件包括人声音轨音频和伴奏音轨音频;
所述获取模块,还用于获取所述人声音轨音频中的第一音频片段以及所述伴奏音轨音频中的第二音频片段;
所述获取模块,还用于所述第一音频片段与所述第二音频片段之间的归一相关函数;
识别模块,用于基于所述归一相关函数的第一峰值,识别所述多媒体文件的属性,所述第一峰值是指所述归一相关函数的最大幅值,所述属性为真唱文件或假唱文件。
8.根据权利要求7所述的装置,其特征在于,所述识别模块,还用于当所述第一峰值小于第一峰值阈值时,确定所述多媒体文件的属性为真唱文件,所述第一峰值阈值为小于多个样本假唱文件的第一峰值的最小值的数值。
9.根据权利要求7所述的装置,其特征在于,所述识别模块,还用于当所述第一峰值符合第一预设条件,且所述第一峰值大于第二峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第一预设条件为第一峰值的位置处于中值区间,所述中值区间是指在所述归一相关函数的中值前后分别取预设长度得到的区间,所述第二峰值阈值为大于多个第一样本真唱文件的第一峰值的最大值的数值,第一样本真唱文件为第一峰值符合所述第一预设条件的样本真唱文件;或,
当所述第一峰值符合第二预设条件,且所述第一峰值大于第三峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第二预设条件为第一峰值的位置处于中值区间内、且第一峰值为第二峰值的预设倍数以上,所述第二峰值是指所述归一相关函数在中值区间之外的最大幅值,所述第三峰值阈值为大于多个第二样本真唱文件的第一峰值的最大值的数值,第二样本真唱文件为第一峰值符合所述第二预设条件的样本真唱文件。
10.根据权利要求7所述的装置,其特征在于,所述识别模块,还用于当所述第一峰值符合第三预设条件,且所述第一峰值大于第四峰值阈值时,确定所述多媒体文件的属性为假唱文件,所述第三预设条件为第一峰值的位置处于中值区间外、且第一峰值为第三峰值的预设倍数以上,所述第三峰值是指所述归一相关函数在峰值区间以外的最大幅值,所述峰值区间是指所述第一峰值前后分别取预设长度得到的区间,所述第四峰值阈值为大于多个第三样本真唱文件的第一峰值的最大值的数值,第三样本真唱文件为第一峰值符合所述第三预设条件的样本真唱文件。
11.根据权利要求7所述的装置,其特征在于,所述获取模块,包括:
获取子模块,用于获取所述人声音轨音频的起点帧的起点位置;
截取子模块,用于在所述人声音轨音频中从所述起点位置开始,截取预设时长的音频片段,得到所述第一音频片段;
所述截取子模块,用于在所述伴奏音轨音频中从所述起点位置开始,截取所述预设时长的音频片段,得到所述第二音频片段。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
确定模块,用于从所述人声音轨音频的第一个音频帧开始,遍历所述人声音轨音频的每一音频帧;对于当前遍历到的音频帧,当所述音频帧的平均幅值大于平均幅值阈值时,确定所述音频帧为所述人声音轨音频的起点帧,所述平均幅值阈值为起点帧的平均幅值的最小值。
13.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求6任一项所述的文件属性识别方法所执行的操作。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的文件属性识别方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711274772.4A CN107862093B (zh) | 2017-12-06 | 2017-12-06 | 文件属性识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711274772.4A CN107862093B (zh) | 2017-12-06 | 2017-12-06 | 文件属性识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107862093A true CN107862093A (zh) | 2018-03-30 |
CN107862093B CN107862093B (zh) | 2020-06-30 |
Family
ID=61705073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711274772.4A Active CN107862093B (zh) | 2017-12-06 | 2017-12-06 | 文件属性识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107862093B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711415A (zh) * | 2018-06-11 | 2018-10-26 | 广州酷狗计算机科技有限公司 | 纠正伴奏和干音之间的时延的方法、装置及存储介质 |
CN108922533A (zh) * | 2018-07-26 | 2018-11-30 | 广州酷狗计算机科技有限公司 | 确定是否是真唱的方法和装置 |
CN109286769A (zh) * | 2018-10-11 | 2019-01-29 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及存储介质 |
CN110602529A (zh) * | 2019-09-12 | 2019-12-20 | 广州虎牙科技有限公司 | 直播监控方法、装置、电子设备和机器可读存储介质 |
CN111540374A (zh) * | 2020-04-17 | 2020-08-14 | 杭州网易云音乐科技有限公司 | 伴奏和人声提取方法及装置、逐字歌词生成方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413547A (zh) * | 2013-07-23 | 2013-11-27 | 大连理工大学 | 一种室内混响消除的方法 |
US20130345843A1 (en) * | 2012-05-10 | 2013-12-26 | Liam Young | Identifying audio stream content |
CN105047202A (zh) * | 2015-05-25 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置及终端 |
CN105788610A (zh) * | 2016-02-29 | 2016-07-20 | 广州酷狗计算机科技有限公司 | 音频处理方法及装置 |
CN106384599A (zh) * | 2016-08-31 | 2017-02-08 | 广州酷狗计算机科技有限公司 | 一种破音识别的方法和装置 |
-
2017
- 2017-12-06 CN CN201711274772.4A patent/CN107862093B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130345843A1 (en) * | 2012-05-10 | 2013-12-26 | Liam Young | Identifying audio stream content |
CN103413547A (zh) * | 2013-07-23 | 2013-11-27 | 大连理工大学 | 一种室内混响消除的方法 |
CN105047202A (zh) * | 2015-05-25 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置及终端 |
CN105788610A (zh) * | 2016-02-29 | 2016-07-20 | 广州酷狗计算机科技有限公司 | 音频处理方法及装置 |
CN106384599A (zh) * | 2016-08-31 | 2017-02-08 | 广州酷狗计算机科技有限公司 | 一种破音识别的方法和装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711415A (zh) * | 2018-06-11 | 2018-10-26 | 广州酷狗计算机科技有限公司 | 纠正伴奏和干音之间的时延的方法、装置及存储介质 |
WO2019237664A1 (zh) * | 2018-06-11 | 2019-12-19 | 广州酷狗计算机科技有限公司 | 纠正伴奏和干音之间的时延的方法、装置及存储介质 |
US10964301B2 (en) | 2018-06-11 | 2021-03-30 | Guangzhou Kugou Computer Technology Co., Ltd. | Method and apparatus for correcting delay between accompaniment audio and unaccompanied audio, and storage medium |
CN108711415B (zh) * | 2018-06-11 | 2021-10-08 | 广州酷狗计算机科技有限公司 | 纠正伴奏和干音之间的时延的方法、装置及存储介质 |
CN108922533A (zh) * | 2018-07-26 | 2018-11-30 | 广州酷狗计算机科技有限公司 | 确定是否是真唱的方法和装置 |
CN109286769A (zh) * | 2018-10-11 | 2019-01-29 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及存储介质 |
CN110602529A (zh) * | 2019-09-12 | 2019-12-20 | 广州虎牙科技有限公司 | 直播监控方法、装置、电子设备和机器可读存储介质 |
CN111540374A (zh) * | 2020-04-17 | 2020-08-14 | 杭州网易云音乐科技有限公司 | 伴奏和人声提取方法及装置、逐字歌词生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107862093B (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107862093A (zh) | 文件属性识别方法及装置 | |
CN107978323B (zh) | 音频识别方法、装置及存储介质 | |
CN108090210A (zh) | 搜索音频的方法和装置 | |
CN109302538A (zh) | 音乐播放方法、装置、终端及存储介质 | |
CN109300485A (zh) | 音频信号的评分方法、装置、电子设备及计算机存储介质 | |
CN110491358A (zh) | 进行音频录制的方法、装置、设备、系统及存储介质 | |
CN109729297A (zh) | 在视频中添加特效的方法和装置 | |
CN110222789A (zh) | 图像识别方法及存储介质 | |
CN108829881A (zh) | 视频标题生成方法及装置 | |
CN108683927A (zh) | 主播推荐方法、装置及存储介质 | |
CN109300482A (zh) | 音频录制方法、装置、存储介质以及终端 | |
CN110209871B (zh) | 歌曲评论发布方法及装置 | |
CN108008930A (zh) | 确定k歌分值的方法和装置 | |
CN109994127A (zh) | 音频检测方法、装置、电子设备及存储介质 | |
CN108538302A (zh) | 合成音频的方法和装置 | |
CN109756784A (zh) | 音乐播放方法、装置、终端及存储介质 | |
CN108922506A (zh) | 歌曲音频生成方法、装置和计算机可读存储介质 | |
CN108848394A (zh) | 视频直播方法、装置、终端及存储介质 | |
CN111128232B (zh) | 音乐的小节信息确定方法、装置、存储介质及设备 | |
CN108039184A (zh) | 歌词添加方法及装置 | |
CN109346111A (zh) | 数据处理方法、装置、终端及存储介质 | |
CN109192218A (zh) | 音频处理的方法和装置 | |
CN107871012A (zh) | 音频处理方法、装置、存储介质及终端 | |
CN109887494A (zh) | 重构语音信号的方法和装置 | |
CN108053832A (zh) | 音频信号处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |