CN113420178A - 一种数据处理方法以及设备 - Google Patents

一种数据处理方法以及设备 Download PDF

Info

Publication number
CN113420178A
CN113420178A CN202110797095.4A CN202110797095A CN113420178A CN 113420178 A CN113420178 A CN 113420178A CN 202110797095 A CN202110797095 A CN 202110797095A CN 113420178 A CN113420178 A CN 113420178A
Authority
CN
China
Prior art keywords
audio
audio file
target
file
clip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110797095.4A
Other languages
English (en)
Inventor
郑炜乔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202110797095.4A priority Critical patent/CN113420178A/zh
Publication of CN113420178A publication Critical patent/CN113420178A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/637Administration of user profiles, e.g. generation, initialization, adaptation or distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification

Abstract

本申请实施例公开一种数据处理方法以及设备,其中方法包括如下步骤:获取目标音频文件;对所述目标音频文件进行音频分割,生成至少一个音频片段;使用预设的特征提取网络模型对所述音频片段的特征进行嵌入学习,以得到所述音频片段的嵌入式特征向量;通过音频检索库对所述至少一个音频片段的嵌入式特征向量进行检索,生成所述目标音频文件的检索结果;根据所述检索结果对所述目标音频文件的原创性进行分析。采用本申请,可以提高对音频文件原创性识别的效率和准确率。

Description

一种数据处理方法以及设备
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法以及设备。
背景技术
在原创音频保护上,目前主要是通过人工检测以及利用音频的相似性进行判别,但在现有技术中,基于人工审核识别的方法,在互联网产品海量的音视频环境下,需要花费大量的人工成本和时间成本,效率低下。同时,现有的基于音频聚类的音频相似性判断方法,主要是通过pitch特征、梅尔频率倒谱系数特征(MFCC)、能量、幅度或包络等特征作为音频指纹,音频识别的准确率受音频特征提取和聚类的影响,在聚类过程中,有些音频本身很相似,无法实现很好的聚类,会导致对音频文件的原创性进行错误地判断。
发明内容
本申请实施例提供一种数据处理方法以及设备,可以提高对音频文件原创性识别的效率和准确率。
本申请实施例一方面提供了一种数据处理方法,可包括:
获取目标音频文件;
对目标音频文件进行音频分割,生成至少一个音频片段;
使用预设的特征提取网络模型对音频片段的特征进行嵌入学习,以得到音频片段的嵌入式特征向量;
通过音频检索库对至少一个音频片段的嵌入式特征向量进行检索,生成目标音频文件的检索结果;
根据检索结果对目标音频文件的原创性进行分析。
在一种可行的实施方式中,数据处理方法还包括:
对至少一个原创音频文件进行特征提取,生成每个原创音频文件的嵌入式特征向量;
将原创音频文件和原创音频文件对应的嵌入式特征向量存储入音频检索库。
在一种可行的实施方式中,对目标音频文件进行音频分割,生成至少一个音频片段,包括:
确定目标音频文件中的静音片段,对静音片段进行剪切得到至少一个非静音片段;
根据切分时长对至少一个非静音片段进行切分过滤,得到至少一个音频片段。
在一种可行的实施方式中,提取至少一个音频片段中每个音频片段的嵌入式特征向量,包括:
对音频片段进行分帧处理,将分帧处理后的音频片段输入特征提取网络模型的音频帧处理层,以提取音频片段对应的第一特征;
将第一特征输入特征提取网络模型的随机池化层,获取第一特征的均值向量和标准差向量,根据第一特征的均值向量和标准差向量生成第二特征;
将第二特征输入特征提取网络模型的音频段处理层,获取音频片段对应的嵌入式特征向量。
在一种可行的实施方式中,检索结果包括:音频片段对应的命中音频文件、命中音频文件中音频片段对应的命中片段以及命中音频文件与音频片段的相似度得分。
在一种可行的实施方式中,根据检索结果对目标音频文件的原创性进行分析,包括:
在检索结果的命中音频文件中,确定目标音频文件的相似音频文件;
根据目标音频文件中音频片段与相似音频文件的相似度得分以及相似音频文件中音频片段对应的命中片段,对目标音频文件的原创性进行分析。
在一种可行的实施方式中,根据目标音频文件中音频片段与相似音频文件的相似度得分以及相似音频文件中音频片段对应的命中片段,对目标音频文件的原创性进行分析,包括:
对目标音频文件中至少一个音频片段的相似度评分进行均值计算,得到评分均值;
若评分均值大于或等于第一阈值,将目标音频文件确定为非原创音频;
若评分均值小于第一阈值且大于或等于第二阈值,统计相似音频文件中音频片段对应的命中片段的数量,若数量与目标音频文件包含音频片段的总量的比例大于或等于比例阈值,将目标音频文件确定为非原创音频,若数量与目标音频文件包含音频片段的总量的比例小于比例阈值,将目标音频文件确定为疑似非原创音频;
若评分均值小于第二阈值且大于或等于第三阈值,将目标音频文件确定为疑似非原创音频;
若评分均值小于第三阈值,将目标音频文件确定为原创音频。
在一种可行的实施方式中,数据处理方法还包括:
若目标音频文件为原创音频文件,将目标音频文件和目标音频文件对应的嵌入式特征向量存入音频检索库。
本申请实施例一方面提供了一种数据处理设备,可包括:
音频获取单元,用于获取目标音频文件;
音频分割单元,用于对目标音频文件进行音频分割,生成至少一个音频片段;
特征提取单元,用于使用预设的特征提取网络模型对音频片段的特征进行嵌入学习,以得到音频片段的嵌入式特征向量;
信息检索单元,用于通过音频检索库对至少一个音频片段的嵌入式特征向量进行检索,生成目标音频文件的检索结果;
音频分析单元,用于根据检索结果对目标音频文件的原创性进行分析。
在一种可行的实施方式中,数据处理设备还包括:
检索库创建单元,用于对至少一个原创音频文件进行特征提取,生成每个原创音频文件的嵌入式特征向量;
将原创音频文件和原创音频文件对应的嵌入式特征向量存储入音频检索库。
在一种可行的实施方式中,音频分割单元具体用于:
确定目标音频文件中的静音片段,对静音片段进行剪切得到至少一个非静音片段;
根据切分时长对至少一个非静音片段进行切分过滤,得到至少一个音频片段。
在一种可行的实施方式中,特征提取单元具体用于:
对音频片段进行分帧处理,将分帧处理后的音频片段输入特征提取网络模型的音频帧处理层,以提取音频片段对应的第一特征;
将第一特征输入特征提取网络模型的随机池化层,获取第一特征的均值向量和标准差向量,根据第一特征的均值向量和标准差向量生成第二特征;
将第二特征输入特征提取网络模型的音频段处理层,获取音频片段对应的嵌入式特征向量。
在一种可行的实施方式中,检索结果包括:音频片段对应的命中音频文件、命中音频文件中音频片段对应的命中片段以及命中音频文件与音频片段的相似度得分。
在一种可行的实施方式中,音频分析单元,包括:
相似音频确定子单元,用于在检索结果的命中音频文件中,确定目标音频文件的相似音频文件;
音频分析子单元,用于根据目标音频文件中音频片段与相似音频文件的相似度得分以及相似音频文件中音频片段对应的命中片段,对目标音频文件的原创性进行分析。
在一种可行的实施方式中,音频分析子单元具体用于:
对目标音频文件中至少一个音频片段的相似度评分进行均值计算,得到评分均值;
若评分均值大于或等于第一阈值,将目标音频文件确定为非原创音频;
若评分均值小于第一阈值且大于或等于第二阈值,统计相似音频文件中音频片段对应的命中片段的数量,若数量与目标音频文件包含音频片段的总量的比例大于或等于比例阈值,将目标音频文件确定为非原创音频,若数量与目标音频文件包含音频片段的总量的比例小于比例阈值,将目标音频文件确定为疑似非原创音频;
若评分均值小于第二阈值且大于或等于第三阈值,将目标音频文件确定为疑似非原创音频;
若评分均值小于第三阈值,将目标音频文件确定为原创音频。
在一种可行的实施方式中,数据处理设备还包括:
音频入库单元,用于若目标音频文件为原创音频文件,将目标音频文件和目标音频文件对应的嵌入式特征向量存入音频检索库。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例一方面提供了一种计算机设备,包括处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法步骤。
在本申请实施例中,通过获取目标音频文件,进一步对目标音频文件进行音频分割,生成至少一个音频片段,并使用预设的特征提取网络模型对音频片段的特征进行嵌入学习,以得到音频片段的嵌入式特征向量,通过音频检索库对至少一个音频片段的嵌入式特征向量进行检索,生成目标音频文件的检索结果,最后根据检索结果对待处理音频文件的原创性进行分析。采用上述嵌入式特征向量对音频文件进行检索,避免了人工审核效率低下以及相似音频的原创性判断错误的问题,提高了对音频文件原创性识别的效率和准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理的系统架构图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4a是本申请实施例提供的一种嵌入式特征向量获取的举例示意图;
图4b是本申请实施例提供的一种数据处理的举例示意图;
图4c是本申请实施例提供的一种原创性分析的举例示意图;
图5是本申请实施例提供的一种数据处理设备的结构示意图;
图6是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,是本发明实施例提供的一种数据处理的系统架构图。服务器10f通过交换机10e和通信总线10d与用户终端集群建立连接,用户终端集群可包括:用户终端10a、用户终端10b、...、用户终端10c。数据库10g中存储了音频检索库,音频检索库中包括多个原创音频文件和原创音频文件对应的嵌入式特征向量,数据库10g中还存储了特征提取网络模型,服务器10f通过用户终端获取目标音频文件,进一步对目标音频文件进行音频分割,生成至少一个音频片段,采用数据库10g中的特征提取网络模型对音频片段的特征进行嵌入学习,以得到音频片段的嵌入式特征向量,进而通过数据库10g中的音频检索库对至少一个音频片段的嵌入式特征向量进行检索,生成目标音频文件的检索结果,最后根据检索结果对待处理音频文件的原创性进行分析。
本申请实施例涉及的用户终端包括:平板电脑、智能手机、个人电脑(PC)、笔记本电脑、掌上电脑等终端设备。
图2为本申请实施例提供的一种数据处理方法的流程示意图。如图2所示,本申请实施例的方法可以包括以下步骤S101-步骤S105。
S101,获取目标音频文件。
具体的,本实施例提供的数据处理方法可以应用于数据处理设备,数据处理设备获取待处理音频文件,数据处理设备可以是图1中的服务器10f,待处理音频文件是待进行原创性检测的音频文件,音频文件的格式包括但不限于MP3、MIDI、WMA等,待处理音频文件也可以是从视频文件中提取的音频文件。进一步的,数据处理设备对待处理音频文件进行预处理生成目标音频文件,其中预处理包括对音频文件的转码、采样率、编码格式等进行统一,格式转换,音频通道的归一化处理,以及编码调制等,例如将MP3、MIDI或者WMA等格式的音频文件统一转码成WAV格式,使用pcm16bit小端对音频文件进行编码,将音频文件的采样率调整为16k,将双通道音频归一化为单通道音频。
S102,对目标音频文件进行音频分割,生成至少一个音频片段。
具体的,数据处理设备对目标音频文件进行音频分割,生成至少一个音频片段,可以理解的是,数据处理设备通过语音端点检测技术确定目标音频文件中的静音片段,在较长静音处把目标音频文件切割成多个非静音片段,通过目标音频文件生成的非静音片段的时长一般较长,一般情况下,会进一步对非静音片段采取强制切分的策略,以防止整个目标音频文件在强背景音乐或噪声干扰下导致语音端点检测失效的情况,具体的切分策略是根据切分时长对至少一个非静音片段进行切分过滤,生成至少一个音频片段,通过对一个音频分割成多个音频片段,并对音频片段进行筛选,在后续特征提取过程中可以降低噪声对音频片段特征提取的干扰。例如,将非静音片段按照3秒的时长进行切分,同时,将时长小于三秒的片段进行过滤,最终生成多个时长为3秒的音频片段,需要说明的是,针对不同的非静音片段,可以采用不同的切分策略。
S103,使用预设的特征提取网络模型对音频片段的特征进行嵌入学习,以得到音频片段的嵌入式特征向量。
具体的,数据处理设备通过特征提取网络模型获取每个音频片段的嵌入式特征向量。特征提取网络模型是一种深度神经网络,示例性地,包括音频帧处理层、随机池化层和音频段处理层,特征提取网络模型的前几层是音频帧处理层,音频帧处理层是帧级别的特征学习和表达,特征提取网络模型的后几层神经网络是音频段处理层,音频段处理层是对音频片段级别的特征嵌入学习,随机池化层用于计算帧级别层的均值和标准差,并将均值和标准差向量拼接在一起,输入音频段处理层中,实现帧级别层特征到片段级别层特征的映射,从而得到音频片段的嵌入式特征向量。通过深度神经网络对音频的帧级别特征的学习和片段级别特征的嵌入学习,可以使获取到的嵌入式特征向量更能表达音频的特征,进而提高后续使用音频片段识别目标音频文件是否原创的准确率。需要说明的是,通过大量音频数据训练的深度神经网络,也能提高其他场景(如重录原创音频)的识别准确率。
S104,通过音频检索库对至少一个音频片段的嵌入式特征向量进行检索,生成目标音频文件的检索结果。
具体的,数据处理设备通过向量距离检测方法从音频检索库中获取嵌入式特征向量的命中音频文件。向量距离可以具体为欧式距离或余弦距离,例如,采用欧氏距离进行检索,即从音频检索库中检索与嵌入式特征向量的欧氏距离较小的预设个数的音频片段,具体如检索最小欧氏距离对应的音频片段。检索到的音频片段所在的音频文件即可以称为命中音频文件,命中音频文件可以是音频检索库中的任意音频文件。
采用上述方法获取目标音频文件中每个音频片段对应的命中音频文件,检索结果包括目标音频文件对应的所有命中音频文件。需要说明的是,针对每一个音频片段,可以根据同一类型的向量距离选取多个命中音频文件,也可以采用多种类型向量距离选取多组命中音频文件,例如,同时采用欧式距离和余弦距离进行检索,根据欧式距离对每个音频片段选取10个命中音频文件,根据余弦距离对每个音频片段选取10个命中音频文件,即每个音频片段选取20个命中音频文件。通过多种距离判断方式继续检索,对检索结果进行综合,可以降低噪声对最终结果的影响,提高抗噪性。
S105,根据检索结果对目标音频文件的原创性进行分析。
具体的,检索结果包括音频片段对应的命中音频文件、命中音频文件中音频片段对应的命中片段以及命中音频文件与音频片段的相似度得分,数据处理设备统计检索结果中所有命中音频文件的命中次数,根据命中次数在命中音频文件中确定目标音频文件的相似音频文件,进一步根据目标音频文件中音频片段与相似音频文件的相似度得分以及相似音频文件中音频片段对应的命中片段,对目标音频文件的原创性进行分析,目标音频文件的原创性包括非原创音频、疑似原创音频和原创音频,其中,疑似原创音频需要进一步检测才能确定其原创性,具体可以是人工检测。例如,在音乐软件平台上,用户可以在平台上发布自己创作的音频,音乐软件可以采用上述方式对用户发布的音频进行原创性分析,若用户发布的音频为非原创音频,则禁止该音频在平台上发布,若用户发布的音频为原创音频,则允许该音频在平台上发布,若用户发布的音频为疑似原创音频,则进一步通过人工检测确定其原创性。
本申请实施例可以获取目标音频文件,进一步对目标音频文件进行音频分割,生成至少一个音频片段,并提取至少一个音频片段中每个音频片段的嵌入式特征向量,通过音频检索库对嵌入式特征向量进行检索,生成目标音频文件的检索结果,最后根据检索结果对目标音频文件的原创性进行分析。通过上述方法获取到的嵌入式特征向量能更准确表达目标音频文件的音频特征,采用上述嵌入式特征向量对音频文件进行检索,避免了人工审核效率低下以及相似音频的原创性判断错误的问题,提高了音频文件原创性识别的效率和准确率。
图3为本申请实施例提供的一种数据处理方法的流程示意图。如图3所示,本申请实施例的方法可以包括以下步骤S201-步骤S208。
S201,对至少一个原创音频文件进行特征提取,生成每个原创音频文件的嵌入式特征向量;将每个原创音频文件和原创音频文件对应的嵌入式特征向量存入音频检索库。
具体的,数据处理设备获取多个原创音频文件,通过特征提取网络模型获取每个原创音频文件的嵌入式特征向量,每个原创音频文件可以对应多个嵌入式特征向量,将每个原创音频文件和原创音频文件对应的嵌入式特征向量存储入音频检索库,音频检索库中每个音频文件具有唯一标识例如数字编号,音频检索库用于对目标音频文件进行原创性判断。
S202,获取目标音频文件。
S203,对目标音频文件进行音频分割,生成至少一个音频片段。
S204,使用预设的特征提取网络模型对音频片段的特征进行嵌入学习,以得到音频片段的嵌入式特征向量。
需要说明的是,有关步骤S202-S204的说明可以参见上述图2对应实施例的相关说明,此处并不赘述。
在一具体实施例中,特征提取网络模型具体可以是神经网络模型,类型包括卷积神经网络(Convolutional Neural Networks,CNN),深度神经网络(Deep NeuralNetworks,DNN),循环神经网络(Recurrent Neural Network,RNN),时延神经网络(Time-Delay Neural Network,TDNN)等,请参见图4a,其为本申请实施例提供的一种获取嵌入式特征向量的示意图。如图4a所示,嵌入式特征向量获取过程如下:
对目标音频片段进行分帧处理,即将目标音频片段切分成更小的音频帧(如30ms一帧),进而对每个音频帧进行特征提取,例如,可以提取每个音频帧的Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient)。进一步的,将提取的每个音频帧的特征输入特征提取网络模型的音频帧处理层,提取目标音频片段对应的第一特征,第一特征是帧级别的特征;进一步的,将第一特征输入特征提取网络模型的随机池化层,计算第一特征的均值向量和标准差向量,将第一特征的均值向量和标准差向量进行拼接生成第二特征;进一步的,将第二特征输入特征提取网络模型的音频段处理层,获取目标音频片段对应的嵌入式特征向量,具体的,可以将特征提取网络模型的倒数第二层的输出作为目标音频片段对应的嵌入式特征向量。
S205,通过音频检索库对至少一个音频片段的嵌入式特征向量进行检索,生成目标音频文件的检索结果。
需要说明的是,步骤S205的说明可以参见上述图2对应实施例的相关说明,此处并不赘述。
S206,在检索结果的命中音频文件中,确定目标音频文件的相似音频文件。
具体的,数据处理设备统计检索结果中所有命中音频文件的命中次数,根据命中次数确定目标音频文件的相似音频文件,例如,目标音频文件有30个音频片段,每个音频片段对应10个命中音频文件,则总共有300个命中音频文件(包括重复的命中音频文件),统计检索结果中所有命中音频文件的命中次数,将命中次数最多的命中音频文件作为目标音频文件的相似音频文件。需要说明的是,相似音频文件可以有多个,例如,选取命中次数第一和第二的两个命中音频文件作为目标音频文件的相似音频文件。进一步的,确定目标音频文件中每个音频片段与相似音频文件的相似度得分和相似音频文件中音频片段对应的命中片段,相似度得分可以采用向量距离,例如,若是采用欧氏距离进行检索,则相似度得分为欧氏距离。
S207,根据目标音频文件中音频片段与相似音频文件的相似度得分以及相似音频文件中音频片段对应的命中片段,对目标音频文件的原创性进行分析。
具体的,数据处理设备获取目标音频文件中每个音频片段的相似度评分的评分均值,对目标音频文件的原创性进行分析。
请参见图4b,其为本申请实施例提供的一种对音频文件进行原创性分析的方法示意图,如图4b所示,数据处理设备获取待处理音频文件,对待处理音频文件进行预处理生成目标音频文件,预处理包括对音频文件的转码、采样率、编码格式等进行统一,以及格式转换,音频通道的归一化处理,编码调制等,进一步对目标音频文件进行音频分割,生成至少一个音频片段,通过特征提取网络模型提取至少一个音频片段中每个音频片段的嵌入式特征向量,进一步通过向量距离检测从音频检索库中获取嵌入式特征向量的命中音频文件,统计检索结果中所有命中音频文件的命中次数,根据命中次数确定目标音频文件的相似音频文件,以及目标音频文件中每个音频片段与相似音频文件的相似度得分和相似音频文件中音频片段对应的命中片段,根据相似度得分和命中片段对目标音频文件的原创性进行分析。
请参见图4c,其为本申请实施例提供的一种原创性分析的示意图,如图4c所示,当评分均值大于或等于第一阈值时,将目标音频文件确定为非原创音频,第一阈值为预先设定;
当评分均值小于第一阈值且大于或等于第二阈值时,统计相似音频文件中音频片段对应的命中片段的数量,获取音频片段的数量在目标音频文件中的比例信息,若比例信息大于比例阈值,说明两个音频文件相似,进而将目标音频文件确定为非原创音频,若比例信息小于比例阈值,将目标音频文件确定为疑似非原创音频,对目标音频文件的原创性进行复审处理,第二阈值、比例阈值为预先设定;
当评分均值小于第二阈值且大于或等于第三阈值时,将目标音频文件确定为疑似非原创音频,对目标音频文件的原创性进行复审处理,第三阈值为预先设定;
当评分均值小于第三阈值时,将目标音频文件确定为原创音频。
S208,若目标音频文件为原创音频文件,将目标音频文件和目标音频文件对应的嵌入式特征向量存入音频检索库。
具体的,当确定目标音频文件为原创音频文件时,可以将目标音频文件录入音频检索库,用于对音频进行原创性分析,具体的,将目标音频文件和目标音频文件对应的嵌入式特征向量输入音频检索库,同时,根据音频检索库的编号规则生成目标音频文件的音频编号,音频编号中可以携带有入库的时间、入库的音频排名,也可以对目标音频文件进行哈希转换,将音频文件的哈希值作为音频编号,并将音频编号作为目标音频文件的音频标识。
在本申请实施例中,通过获取目标音频文件,进一步对目标音频文件进行音频分割,生成至少一个音频片段,并提取至少一个音频片段中每个音频片段的嵌入式特征向量,通过音频检索库对嵌入式特征向量进行检索,生成目标音频文件的检索结果,最后根据检索结果对目标音频文件的原创性进行分析。采用上述嵌入式特征向量对音频文件进行检索,避免了人工审核效率低下以及相似音频的原创性判断错误的问题,提高了对音频文件原创性识别的效率和准确率。
请参见图5,为本申请实施例提供了一种数据处理设备的结构示意图。数据处理设备可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理设备为一个应用软件;该设备可以用于执行本申请实施例提供的方法中的相应步骤。如图5所示,本申请实施例的数据处理设备1可以包括:音频获取单元11、音频分割单元12、特征提取单元13、信息检索单元14、音频分析单元15。
音频获取单元11,用于获取目标音频文件;
音频分割单元12,用于对目标音频文件进行音频分割,生成至少一个音频片段;
特征提取单元13,用于使用预设的特征提取网络模型对音频片段的特征进行嵌入学习,以得到音频片段的嵌入式特征向量;
信息检索单元14,用于通过音频检索库对至少一个音频片段的嵌入式特征向量进行检索,生成目标音频文件的检索结果;
音频分析单元15,用于根据检索结果对目标音频文件的原创性进行分析。
请参见图5,本申请实施例的数据处理设备1可以还包括:检索库创建单元16;
检索库创建单元16,用于对至少一个原创音频文件进行特征提取,生成每个原创音频文件的嵌入式特征向量;
将原创音频文件和原创音频文件对应的嵌入式特征向量存储入音频检索库。
在一种可行的实施方式中,音频分割单元12具体用于:
确定目标音频文件中的静音片段,对静音片段进行剪切得到至少一个非静音片段;
根据切分时长对至少一个非静音片段进行切分过滤,得到至少一个音频片段。
在一种可行的实施方式中,特征提取单元13具体用于:
对音频片段进行分帧处理,将分帧处理后的音频片段输入特征提取网络模型的音频帧处理层,以提取音频片段对应的第一特征;
将第一特征输入特征提取网络模型的随机池化层,获取第一特征的均值向量和标准差向量,根据第一特征的均值向量和标准差向量生成第二特征;
将第二特征输入特征提取网络模型的音频段处理层,获取音频片段对应的嵌入式特征向量。
在一种可行的实施方式中,检索结果包括:音频片段对应的命中音频文件、命中音频文件中音频片段对应的命中片段以及命中音频文件与音频片段的相似度得分。
请参见图5,本申请实施例的音频分析单元15可以包括:相似音频确定子单元151、音频分析子单元152;
相似音频确定子单元151,用于在检索结果的命中音频文件中,确定目标音频文件的相似音频文件;
音频分析子单元152,用于根据目标音频文件中音频片段与相似音频文件的相似度得分以及相似音频文件中音频片段对应的命中片段,对目标音频文件的原创性进行分析。
在一种可行的实施方式中,音频分析子单元152具体用于:
对目标音频文件中至少一个音频片段的相似度评分进行均值计算,得到评分均值;
若评分均值大于或等于第一阈值,将目标音频文件确定为非原创音频;
若评分均值小于第一阈值且大于或等于第二阈值,统计相似音频文件中音频片段对应的命中片段的数量,若数量与目标音频文件包含音频片段的总量的比例大于或等于比例阈值,将目标音频文件确定为非原创音频,若数量与目标音频文件包含音频片段的总量的比例小于比例阈值,将目标音频文件确定为疑似非原创音频;
若评分均值小于第二阈值且大于或等于第三阈值,将目标音频文件确定为疑似非原创音频;
若评分均值小于第三阈值,将目标音频文件确定为原创音频。
请参见图5,本申请实施例的数据处理设备1可以还包括:音频入库单元17;
音频入库单元17,用于若目标音频文件为原创音频文件,将目标音频文件和目标音频文件对应的嵌入式特征向量存入音频检索库。
在本申请实施例中,通过获取目标音频文件,进一步对目标音频文件进行音频分割,生成至少一个音频片段,并使用预设的特征提取网络模型对音频片段的特征进行嵌入学习,以得到音频片段的嵌入式特征向量,通过音频检索库对至少一个音频片段的嵌入特征向量进行检索,生成目标音频文件的检索结果,最后根据检索结果对待处理音频文件的原创性进行分析。采用上述嵌入式特征向量对音频文件进行检索,避免了人工审核效率低下以及相似音频的原创性判断错误的问题,提高了对音频文件原创性识别的效率和准确率。
请参见图6,为本申请实施例提供了一种计算机设备的结构示意图。如图6所示,计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是随机存取存储器(Random Access Memory,RAM),也可以是非易失性存储器(non-volatile memory,NVM),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。
在图6所示的计算机设备1000中,网络接口1004可提供网络通讯功能,用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的数据处理应用程序,以实现上述图2-图4c任一个所对应实施例中对数据处理方法的描述,在此不再赘述。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2-图4c任一个所对应实施例中对数据处理方法的描述,也可执行前文图5所对应实施例中对数据处理设备的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理设备所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图2-图4c任一个所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、NVM或RAM等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取目标音频文件;
对所述目标音频文件进行音频分割,生成至少一个音频片段;
使用预设的特征提取网络模型对所述音频片段的特征进行嵌入学习,以得到所述音频片段的嵌入式特征向量;
通过音频检索库对所述至少一个音频片段的嵌入式特征向量进行检索,生成所述目标音频文件的检索结果;
根据所述检索结果对所述目标音频文件的原创性进行分析。
2.根据权利要求1所述的方法,其特征在于,还包括:
对至少一个原创音频文件进行特征提取,生成每个原创音频文件的嵌入式特征向量;
将所述原创音频文件和原创音频文件对应的嵌入式特征向量存储入音频检索库。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标音频文件进行音频分割,生成至少一个音频片段,包括:
确定所述目标音频文件中的静音片段,对所述静音片段进行剪切得到至少一个非静音片段;
根据切分时长对所述至少一个非静音片段进行切分过滤,得到至少一个音频片段。
4.根据权利要求1所述的方法,其特征在于,所述提取所述至少一个音频片段中每个音频片段的嵌入式特征向量,包括:
对所述音频片段进行分帧处理,将分帧处理后的音频片段输入特征提取网络模型的音频帧处理层,以提取所述音频片段对应的第一特征;
将所述第一特征输入特征提取网络模型的随机池化层,获取所述第一特征的均值向量和标准差向量,根据所述第一特征的均值向量和标准差向量生成第二特征;
将所述第二特征输入特征提取网络模型的音频段处理层,获取所述音频片段对应的嵌入式特征向量。
5.根据权利要求1所述的方法,其特征在于,所述检索结果包括:所述音频片段对应的命中音频文件、所述命中音频文件中所述音频片段对应的命中片段以及所述命中音频文件与所述音频片段的相似度得分。
6.根据权利要求5所述的方法,其特征在于,所述根据所述检索结果对所述目标音频文件的原创性进行分析,包括:
在所述检索结果的命中音频文件中,确定所述目标音频文件的相似音频文件;
根据所述目标音频文件中音频片段与所述相似音频文件的相似度得分以及所述相似音频文件中音频片段对应的命中片段,对所述目标音频文件的原创性进行分析。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标音频文件中音频片段与所述相似音频文件的相似度得分以及所述相似音频文件中音频片段对应的命中片段,对所述目标音频文件的原创性进行分析,包括:
对所述目标音频文件中所述至少一个音频片段的相似度评分进行均值计算,得到评分均值;
若所述评分均值大于或等于第一阈值,将所述目标音频文件确定为非原创音频;
若所述评分均值小于第一阈值且大于或等于第二阈值,统计所述相似音频文件中音频片段对应的命中片段的数量,若所述数量与所述目标音频文件包含音频片段的总量的比例大于或等于比例阈值,将所述目标音频文件确定为非原创音频,若所述数量与所述目标音频文件包含音频片段的总量的比例小于所述比例阈值,将所述目标音频文件确定为疑似非原创音频;
若所述评分均值小于第二阈值且大于或等于第三阈值,将所述目标音频文件确定为疑似非原创音频;
若所述评分均值小于第三阈值,将所述目标音频文件确定为原创音频。
8.根据权利要求1所述的方法,其特征在于,还包括:
若所述目标音频文件为原创音频文件,将所述目标音频文件和所述目标音频文件对应的嵌入式特征向量存入音频检索库。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-8任意一项所述的方法。
10.一种计算机设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行权利要求1-8任意一项所述的方法。
CN202110797095.4A 2021-07-14 2021-07-14 一种数据处理方法以及设备 Pending CN113420178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110797095.4A CN113420178A (zh) 2021-07-14 2021-07-14 一种数据处理方法以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110797095.4A CN113420178A (zh) 2021-07-14 2021-07-14 一种数据处理方法以及设备

Publications (1)

Publication Number Publication Date
CN113420178A true CN113420178A (zh) 2021-09-21

Family

ID=77721011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110797095.4A Pending CN113420178A (zh) 2021-07-14 2021-07-14 一种数据处理方法以及设备

Country Status (1)

Country Link
CN (1) CN113420178A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114944152A (zh) * 2022-07-20 2022-08-26 深圳市微纳感知计算技术有限公司 车辆鸣笛音识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114944152A (zh) * 2022-07-20 2022-08-26 深圳市微纳感知计算技术有限公司 车辆鸣笛音识别方法

Similar Documents

Publication Publication Date Title
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
US10497378B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
KR100838674B1 (ko) 오디오 핑거프린팅 시스템 및 방법
US8352259B2 (en) Methods and apparatus for audio recognition
JP2003177778A (ja) 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法
JP7348445B2 (ja) 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム
CN111192601A (zh) 音乐标注方法、装置、电子设备及介质
CN111508506B (zh) 音频文件的原唱检测方法、装置、服务器及存储介质
CN106598997B (zh) 一种计算文本主题归属度的方法及装置
CN109271501B (zh) 一种音频数据库的管理方法及系统
CN113420178A (zh) 一种数据处理方法以及设备
EP1531457B1 (en) Apparatus and method for segmentation of audio data into meta patterns
Birla A robust unsupervised pattern discovery and clustering of speech signals
CN113312619B (zh) 基于小样本学习的恶意进程检测方法、装置、电子设备及存储介质
US10776420B2 (en) Fingerprint clustering for content-based audio recognition
CN113628637A (zh) 一种音频识别方法、装置、设备及存储介质
TWI516098B (zh) Record the signal detection method of the media
CN113506584B (zh) 数据处理方法以及设备
Zhang et al. A two phase method for general audio segmentation
CN111540363B (zh) 关键词模型及解码网络构建方法、检测方法及相关设备
CN113506584A (zh) 数据处理方法以及设备
CN112445934B (zh) 语音检索方法、装置、设备及存储介质
KR101002731B1 (ko) 오디오 데이터의 특징 벡터 추출방법과 그 방법이 기록된컴퓨터 판독 가능한 기록매체 및 이를 이용한 오디오데이터의 매칭 방법
JP6537996B2 (ja) 未知語検出装置、未知語検出方法、プログラム
CN113902012A (zh) 说话人分离方法、装置和系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination