CN110704690A

CN110704690A - 一种数据处理方法、设备及存储介质

Info

Publication number: CN110704690A
Application number: CN201910823537.0A
Authority: CN
Inventors: 孔令城
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-01-17
Anticipated expiration: 2039-09-02
Also published as: CN110704690B

Abstract

本发明实施例公开一种数据处理方法、设备及存储介质，其中方法包括如下步骤：获取音频数据组中的至少两个音频数据；获取所述至少两个音频数据之间的匹配关系；根据所述匹配关系生成至少两个音频数据对应的无向图；所述无向图中的每个节点对应一个音频数据，所述无向图用于表征音频数据组中任意两个音频数据之间的匹配关系；获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。采用本发明，可以提高同歌组数据的准确率。

Description

一种数据处理方法、设备及存储介质

技术领域

本发明涉及电子技术领域，尤其涉及一种数据处理方法、设备及存储介质。

背景技术

随着互联网的不断的开发和完善，移动终端和应用程序在生活中扮演着重要角色，视频、音乐是工作之余的娱乐消遣活动，对于音乐网站，在音乐库中存储有大量的音频文件，同歌组数据是音乐库中重要的数据之一，它为歌单、听歌识曲、媒体管理等很多业务提供基础服务，这些业务主要使用了同歌组的关联特性，即将歌曲A和歌曲B加入相同的同歌组内，那么歌曲A和歌曲B将会被视为是等价的，即歌曲A和歌曲B为同一首歌曲，可以互相替换。同歌组数据的检测是通过音频指纹来完成，一般方法是提取音频的10s片段，通过指纹查询系统获得初次检测结果，并加入的全量指纹对初次检测结果进行二次校验，即提取整首歌曲的指纹进行两两对比，对初次检测结果进行筛选，但采用上述方法获取的同歌组数据的准确率依然达不到要求。

发明内容

本发明实施例提供一种数据处理方法、设备及存储介质，可以提高同歌组数据的准确率。

本发明实施例一方面提供了一种数据处理方法，可包括：

获取音频数据组中的至少两个音频数据；

获取所述至少两个音频数据之间的匹配关系；

根据所述匹配关系生成至少两个音频数据对应的无向图；所述无向图中的每个节点对应一个音频数据，所述无向图用于表征音频数据组中任意两个音频数据之间的匹配关系；

获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。

其中，所述获取所述至少两个音频数据之间的匹配关系，包括：

获取音频数据组中每个所述音频数据对应的音频向量；

根据所述音频向量获取所述至少两个音频数据之间的匹配关系。

其中，所述获取音频数据组中每个所述音频数据对应的音频向量，包括：

从所述至少两个音频数据中获取待检测音频数据，对所述待检测音频数据进行降采样，得到所述待检测音频数据对应的频谱数据；

根据所述频谱数据生成所述待检测音频数据对应的音频向量。

其中，所述根据所述音频向量获取所述至少两个音频数据之间的匹配关系，包括：

在所述至少两个音频数据中获取第一音频数据和第二音频数据；

获取所述第一音频数据的第一音频向量和所述第二音频数据的第二音频向量，生成所述第一音频向量与所述第二音频向量之间的向量距离信息；

根据所述向量距离信息确定所述第一音频数据和所述第二音频数据之间的匹配关系。

其中，所述根据所向量距离信息确定所述第一音频数据和所述第二音频数据之间的匹配关系，包括：

当所述向量距离信息大于距离阈值时，将所述第一音频数据和所述第二音频数据之间的匹配关系确定为连通匹配关系；

当所述向量距离信息小于或等于距离阈值时，将所述第一音频数据和所述第二音频数据之间的匹配关系确定为未连通匹配关系；

其中，具有连通匹配关系的音频数据在无向图中对应的节点为连通节点，具有非连通匹配关系的音频数据在无向图对应的节点为非连通节点。

其中，所述根据所述匹配关系生成至少两个音频数据对应的无向图，包括：

将每个所述音频数据均确定为无向图中的节点；

将无向图中匹配关系为连通匹配关系的音频数据对应的节点确定为的连通节点，将匹配关系为未连通匹配关系的音频数据对应的节点确定为非连通节点；

根据所述连通节点和所述非连通节点创建无向图中每个节点之间的连接关系。

其中，所述获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据，包括：

获取所述无向图中的至少一个子无向图，所述子无向图为无向图中连通的子图；

获取每个所述子无向图对应的完全图，统计每个所述完全图的节点数；

将所述节点数最大的完全图确定为目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。

其中，所述获取每个所述子无向图对应的完全图，统计每个所述完全图的节点数，包括：

若所述子无向图为完全图，则获取所述子无向图的节点数，确定为所述完全图的节点数；

若所述子无向图不为完全图，则获取所述子无相图中包含节点数最多的完全图，统计所述包含节点数最多的完全图的节点数。

本发明实施例一方面提供了一种数据处理设备，可包括：

音频数据获取模块，用于获取音频数据组中的至少两个音频数据；

匹配关系获取模块，用于获取所述至少两个音频数据之间的匹配关系；

无向图生成模块，用于根据所述匹配关系生成至少两个音频数据对应的无向图；所述无向图中的每个节点对应一个音频数据，所述无向图用于表征音频数据组中任意两个音频数据之间的匹配关系；

音频数据确定模块，用于获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。

其中，所述匹配关系获取模块包括：

音频向量获取单元，用于获取音频数据组中每个所述音频数据对应的音频向量；

匹配关系获取单元，用于根据所述音频向量获取所述至少两个音频数据之间的匹配关系。

其中，所述音频向量获取单元具体用于：

其中，所述匹配关系获取单元包括：

距离信息获取子单元，用于在所述至少两个音频数据中获取第一音频数据和第二音频数据；获取所述第一音频数据的第一音频向量和所述第二音频数据的第二音频向量，生成所述第一音频向量与所述第二音频向量之间的向量距离信息；

匹配关系获取子单元，用于根据所述向量距离信息确定所述第一音频数据和所述第二音频数据之间的匹配关系。

其中，所述匹配关系获取子单元具体用于：

其中，所述无向图生成模块具体用于：

将每个所述音频数据均确定为无向图中的节点；

其中，所述音频数据确定模块包括：

子无向图获取单元，用于获取所述无向图中的至少一个子无向图，所述子无向图为无向图中连通的子图；

节点统计单元，用于获取每个所述子无向图对应的完全图，统计每个所述完全图的节点数；

音频数据确定单元，用于将所述节点数最大的完全图确定为目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。

其中，所述节点统计单元具体用于：

本发明实施例一方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

本发明实施例一方面提供了一种数据处理设备，包括处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

在本发明实施例中，通过获取音频数据组中的至少两个音频数据，进一步获取所述至少两个音频数据之间的匹配关系，根据所述匹配关系生成至少两个音频数据对应的无向图，所述无向图中的每个节点对应一个音频数据，所述无向图用于表征音频数据组中任意两个音频数据之间的匹配关系，根据所述无向图获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。通过音频数据的匹配关系生成无向图，基于图的思想，根据无向图中的目标完全图确定相同音频数据，避免了采用音频指纹确认同歌组数据导致检测准确率低的问题，提高了检测同歌组数据的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据处理方法的流程示意图；

图2是本发明实施例提供的另一种数据处理方法的流程示意图；

图3是本发明实施例提供的一种生成无向图的举例示意图；

图4是本发明实施例提供的一种生成目标完全图的举例示意图；

图5是本发明实施例提供的一种数据处理设备的结构示意图；

图6是本发明实施例提供的一种匹配关系获取模块的结构示意图；

图7是本发明实施例提供的一种匹配关系获取单元的结构示意图；

图8是本发明实施例提供的一种匹配关系获取模块设备的结构示意图；

图9是本发明实施例提供的一种数据处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的数据处理方法可以应用于音频文件的同歌组数据的处理，具体的，数据处理设备获取音频数据组中的至少两个音频数据，进一步获取所述至少两个音频数据之间的匹配关系，根据所述匹配关系生成至少两个音频数据对应的无向图，所述无向图中的每个节点对应一个音频数据，所述无向图用于表征音频数据组中任意两个音频数据之间的匹配关系，根据所述无向图获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。通过音频数据的匹配关系生成无向图，基于图的思想，根据无向图中的目标完全图确定相同音频数据，避免了采用音频指纹确认同歌组数据导致检测准确率低的问题，提高了检测同歌组数据的准确率。

本发明实施例涉及的数据处理设备可以包括：平板电脑、智能手机、个人电脑(PC)、笔记本电脑、掌上电脑等终端设备。

请参见图1，为本发明实施例提供了一种数据处理方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S104。

S101，获取音频数据组中的至少两个音频数据；

具体的，数据处理设备获取音频数据组中的至少两个音频数据，可以理解的是，所述音频数据组是音频数据的集合，所述音频数据组中至少包括两个音频数据，所述音频数据可以为音乐播放平台曲库中的音频数据，同一个音频数据组中的音频数据被视为同歌组数据，同歌组数据为被视为是互为等价的音频数据，例如，歌曲A和歌曲B为同歌组数据，则将歌曲A和歌曲B为同一首歌曲，可以互相替换。音频数据组是通过音频文件的音频片段进行全库查询获取，具体的，对歌曲A的进行全库查询，获取歌曲A10s长的音频片段，根据所述音频片段生成歌曲A对应的音频指纹，将所述音频指纹与曲库中所有的歌曲在相同时间段的音频指纹进行匹配，与歌曲A的音频指纹匹配通过的歌曲确定为相同的音频数据组，音乐播放平台的曲库中包括多个音频数据组，数据处理设备获取曲库中任意一个音频数据组，进一步获取音频数据组中的至少两个音频数据。

S102，获取所述至少两个音频数据之间的匹配关系；

具体的，数据处理设备获取所述至少两个音频数据之间的匹配关系，可以理解的是，所述匹配关系为音频数据之间的相似度关系，所述匹配关系包括连通匹配关系和未连通匹配关系，所述连通匹配关系表示两个音频数据是同一首歌曲，所述未连通匹配关系表示两个音频数据不是同一首歌曲，数据处理设备获取音频数据组中每两个音频数据之间的匹配关系，具体的获取两个音频数据之间的匹配关系为获取音频数据组两个音频数据对应的音频向量，根据所述音频向量获取所述两个音频数据之间的匹配关系。

S103，根据所述匹配关系生成至少两个音频数据对应的无向图；所述无向图中的每个节点对应一个音频数据，所述无向图用于表征音频数据组中任意两个音频数据之间的匹配关系；

具体的，数据处理设备根据所述匹配关系生成至少两个音频数据对应的无向图；所述无向图中的每个节点对应一个音频数据，所述无向图用于表征音频数据组中任意两个音频数据之间的匹配关系，可以理解的是，所述无向图为音频数据和音频数据之间的匹配关系生成图，所述无向图中节点为音频数据，无向图中的每个节点对应一个音频数据，无向图中节点之间的连通关系为节点对应的音频数据的匹配关系，音频数据之间的匹配关系为连通匹配关系，则音频数据对应的节点之间存在连线，音频数据之间的匹配关系为未连通匹配关系，则音频数据对应的节点之间不存在连线，节点之间的连线没有方向。

S104，获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。

具体的，数据处理设备获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据，可以理解的是，所述完全图为无向图中的部分节点组成的子图，所述完全图中每一个节点均与完全图中其他节点有连接关系，即完全图中每一个节点对应的音频数据与完全图中其他节点对应的音频数据为连通匹配关系，所述目标完全图为完全图中满足预设条件的完全图，具体的，目标完全图可以是无向图中包含节点最多的完全图，数据处理设备获取所述无向图中的目标完全图，所述目标完全图中节点对应的音频数据之间均为连通匹配关系，将目标完全图中节点对应的音频数据确定为相同音频数据。

请参见图2，为本发明实施例提供了一种数据处理方法的流程示意图。如图2所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S207。

S201，获取音频数据组中的至少两个音频数据；

S202，获取音频数据组中每个所述音频数据对应的音频向量；

具体的，数据处理设备获取音频数据组中每个所述音频数据对应的音频向量，可以理解的是，所述音频向量是对音频数据采样后得到的，一个音频数据对应多个音频向量，具体获取音频向量的过程为：数据处理设备从所述至少两个音频数据中获取待检测音频数据，对所述待检测音频数据进行降采样，得到所述待检测音频数据对应的频谱数据，所述频谱数据为音频数据的频率分布数据，数据处理设备以固定的频率对音频数据进行降采样，生成多个频谱数据，根据所述频谱数据生成所述待检测音频数据对应的音频向量，数据处理设备根据数据类型的转换方式将频谱数据转换为音频向量，所述频谱数据与音频向量是对应关系，数据处理设备最终获取音频数据对应的多个音频向量。

S203，根据所述音频向量获取所述至少两个音频数据之间的匹配关系。

具体的，数据处理设备根据所述音频向量获取所述至少两个音频数据之间的匹配关系，可以理解的是，数据处理设备根据两个音频数据对应的音频向量之间的向量关系生成两个音频数据之间的匹配关系，采用上述方法获取音频数据组中任意两个音频数据之间的匹配关系，并记录音频数据之间的匹配关系。

本发明实施例的S203可以包括以下步骤S2031-步骤S2032：

S2031，在所述至少两个音频数据中获取第一音频数据和第二音频数据；获取所述第一音频数据的第一音频向量和所述第二音频数据的第二音频向量，生成所述第一音频向量与所述第二音频向量之间的向量距离信息；

具体的，数据处理设备在所述至少两个音频数据中获取第一音频数据和第二音频数据；获取所述第一音频数据的第一音频向量和所述第二音频数据的第二音频向量，生成所述第一音频向量与所述第二音频向量之间的向量距离信息，可以理解的是，数据处理设备在所述至少两个音频数据中获取第一音频数据和第二音频数据，所述第一音频数据和第二音频数据是音频数据组中任意两个音频数据，所述第一音频向量为第一音频数据对应的多个音频向量，所述第二音频向量为第二音频数据对应的多个音频向量，计算所述第一音频向量与所述第二音频向量之间的向量距离信息，所述向量距离信息为第一音频向量与第二音频向量之间的相似度的衡量标准，可以采用第一音频向量与第二音频向量的汉明距离计算向量距离信息。

S2032，根据所述向量距离信息确定所述第一音频数据和所述第二音频数据之间的匹配关系。

具体的，数据处理设备根据所述向量距离信息确定所述第一音频数据和所述第二音频数据之间的匹配关系，可以理解的是，数据处理设备根据所述向量距离信息与距离阈值进行对比获取第一音频数据和所述第二音频数据之间的匹配关系，所述匹配关系包括连通匹配关系和未连通匹配关系，所述连通匹配关系表示两个音频数据是同一首歌曲，所述未连通匹配关系表示两个音频数据不是同一首歌曲，所述距离阈值是预先设置的，当所述向量距离信息大于距离阈值时，将所述第一音频数据和所述第二音频数据之间的匹配关系确定为连通匹配关系；当所述向量距离信息小于或等于距离阈值时，将所述第一音频数据和所述第二音频数据之间的匹配关系确定为未连通匹配关系；每个音频数据在无向图中对应一个节点，无向图中节点之间的连接关系对应音频数据的匹配关系，具有连通匹配关系的音频数据在无向图中对应的节点为连通节点，具有非连通匹配关系的音频数据在无向图对应的节点为非连通节点。请一并参见表1，表1中列举了音频数据组中音频数据之间的匹配关系，音频数据组包括音频数据A、音频数据B、音频数据C、音频数据D、音频数据E、音频数据F、音频数据G、音频数据H、音频数据M，将向量距离信息大于向量阈值的音频向量匹配关系标记为“1”，将向量距离信息小于或等于向量阈值的音频向量匹配关系标记为“0”，则音频数据组中各音频向量的匹配结果如表1所示。

表1音频数据的匹配关系

S204，将每个所述音频数据均确定为无向图中的节点；将无向图中匹配关系为连通匹配关系的音频数据对应的节点确定为的连通节点，将匹配关系为未连通匹配关系的音频数据对应的节点确定为非连通节点；根据所述连通节点和所述非连通节点创建无向图中每个节点之间的连接关系。

具体的，数据处理设备将每个所述音频数据均确定为无向图中的节点；将无向图中匹配关系为连通匹配关系的音频数据对应的节点确定为的连通节点，将匹配关系为未连通匹配关系的音频数据对应的节点确定为非连通节点；根据所述连通节点和所述非连通节点创建无向图中每个节点之间的连接关系，可以理解的是，每个音频数据在无向图中对应一个节点，无向图中节点之间的连接关系对应音频数据的匹配关系，在匹配关系为连通匹配关系的音频数据对应的节点之间建立连接关系，即将具有连通匹配关系的节点确定为连通节点，具有非连通匹配关系的节点确定为非连通节点，根据音频数据组中的任意两个音频数据之间的匹配关系创建每个音频数据与其他音频数据的连接关系，并生成音频数据组中至少两音频数据对应的无向图。请一并参见图3，为本发明实施例提供了一种生成无向图的举例示意图。如图3所示，图3中的节点A至节点M对应表1中的音频数据A至音频数据M，将表1中匹配关系为连通匹配关系的音频数据对应的节点确定为的连通节点，将匹配关系为未连通匹配关系的音频数据对应的节点确定为非连通节点，根据表1中的匹配关系可以确定具有连接关系的节点为：节点A与节点B、节点A与节点C、节点A与节点E、节点B与节点C、节点B与节点E、节点C与节点E、节点D与节点G、节点E与节点H、节点F与节点H、节点H与节点M，根据节点之间的连接关系生成图3中的无向图。

S205，获取所述无向图中的至少一个子无向图，所述子无向图为无向图中连通的子图；

具体的，数据处理设备获取所述无向图中的至少一个子无向图，所述子无向图为无向图中连通的子图，可以理解的是，所述无向图中包括至少一个子无向图，所述子无向图中的节点与不属于子无相图的任意一个节点不具有连接关系，即子无向图中的节点与不属于子无相图的任意一个节点为非连通节点，如图3中所示，子无向图包括两个，分别为第一子无向图包括节点D与G，第二子无向图包括节点A、B、C、E、F、H和M。

S206，获取每个所述子无向图对应的完全图，统计每个所述完全图的节点数；

具体的，数据处理设备获取每个所述子无向图对应的完全图，统计每个所述完全图的节点数，可以理解的是，所述完全图中的任意一个节点与完全图中其他节点的均具有连接关系，所述子无向图可以是完全图，也可以不为完全图，若所述子无向图为完全图，则获取所述子无向图的节点数，确定为所述完全图的节点数；若所述子无向图不为完全图，则获取所述子无相图中包含节点数最多的完全图，统计所述包含节点数最多的完全图的节点数，具体的，可以将无向图中所有满足完全图节点特征的节点作为包含节点数最多的完全图，如图3所示，第一子无向图中的节点D与G满足完全图的特征，所以第一子无向图为完全图，所述第一子无向图的节点为2，第一子无向图中的节点不满足完全图的特征，即第二字无向图不是完全图，第二子无向图中节点A、B、C和E组成的无向图满足完全图的特征，且包含节点数最多，则第二子无向图对应的节点最多的完全图的节点数为4。

S207，将所述节点数最大的完全图确定为目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。

具体的，数据处理设备将所述节点数最大的完全图确定为目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据，可以理解的是，子无相图中可以包括多个完全图，如图3所示，第二子无相图中节点A、B和C组成的无向图为完全图，节点A、B、C和E组成的无向图为完全图，其中，节点A、B、C和E组成的无向图为节点数最多的完全图，请参见图4，为本发明实施例提供了一种生成目标完全图的举例示意图，将节点数最多的完全图确定为目标完全图，由节点A至节点M生成的目标完全图为包括节点A、B、C和E的无向图，将所述目标完全图中节点A、B、C和E对应的音频数据确定为相同音频数据。

其中，本发明实施例的步骤S201参见图1所示实施例的步骤S101的具体描述，在此不进行赘述。

请参见图5，为本发明实施例提供了一种数据处理设备的结构示意图。如图5所示，本发明实施例的所述数据处理设备1可以包括：音频数据获取模块11、匹配关系获取模块12、无向图生成模块13、音频数据确定模块14。

音频数据获取模块11，用于获取音频数据组中的至少两个音频数据；

具体的，音频数据获取模块11获取音频数据组中的至少两个音频数据，可以理解的是，所述音频数据组是音频数据的集合，所述音频数据组中至少包括两个音频数据，所述音频数据可以为音乐播放平台曲库中的音频数据，同一个音频数据组中的音频数据被视为同歌组数据，同歌组数据为被视为是互为等价的音频数据，例如，歌曲A和歌曲B为同歌组数据，则将歌曲A和歌曲B为同一首歌曲，可以互相替换。音频数据组是通过音频文件的音频片段进行全库查询获取，具体的，对歌曲A的进行全库查询，获取歌曲A10s长的音频片段，根据所述音频片段生成歌曲A对应的音频指纹，将所述音频指纹与曲库中所有的歌曲在相同时间段的音频指纹进行匹配，与歌曲A的音频指纹匹配通过的歌曲确定为相同的音频数据组，音乐播放平台的曲库中包括多个音频数据组，数据处理设备获取曲库中任意一个音频数据组，进一步获取音频数据组中的至少两个音频数据。

匹配关系获取模块12，用于获取所述至少两个音频数据之间的匹配关系；

具体的，匹配关系获取模块12获取所述至少两个音频数据之间的匹配关系，可以理解的是，所述匹配关系为音频数据之间的相似度关系，所述匹配关系包括连通匹配关系和未连通匹配关系，所述连通匹配关系表示两个音频数据是同一首歌曲，所述未连通匹配关系表示两个音频数据不是同一首歌曲，数据处理设备获取音频数据组中每两个音频数据之间的匹配关系，具体的获取两个音频数据之间的匹配关系为获取音频数据组两个音频数据对应的音频向量，根据所述音频向量获取所述两个音频数据之间的匹配关系。

请一并参见图6，为本发明实施例提供了一种匹配关系获取模块的结构示意图。如图6所示，本发明实施例的所述匹配关系获取模块12可以包括：音频向量获取单元121、匹配关系获取单元122。

音频向量获取单元121，用于获取音频数据组中每个所述音频数据对应的音频向量；

匹配关系获取单元122，用于根据所述音频向量获取所述至少两个音频数据之间的匹配关系。

请一并参见图7，为本发明实施例提供了一种匹配关系获取单元122的结构示意图。如图7所示，本发明实施例的所述匹配关系获取单元122可以包括：距离信息获取子单元1221、匹配关系获取子单元1222。

距离信息获取子单元1221，用于在所述至少两个音频数据中获取第一音频数据和第二音频数据；获取所述第一音频数据的第一音频向量和所述第二音频数据的第二音频向量，生成所述第一音频向量与所述第二音频向量之间的向量距离信息；

匹配关系获取子单元1222，用于根据所述向量距离信息确定所述第一音频数据和所述第二音频数据之间的匹配关系。

无向图生成模块13，用于根据所述匹配关系生成至少两个音频数据对应的无向图；所述无向图中的每个节点对应一个音频数据，所述无向图用于表征音频数据组中任意两个音频数据之间的匹配关系；

具体的，无向图生成模块13根据所述匹配关系生成至少两个音频数据对应的无向图；所述无向图中的每个节点对应一个音频数据，所述无向图用于表征音频数据组中任意两个音频数据之间的匹配关系，可以理解的是，所述无向图为音频数据和音频数据之间的匹配关系生成图，所述无向图中节点为音频数据，无向图中的每个节点对应一个音频数据，无向图中节点之间的连通关系为节点对应的音频数据的匹配关系，音频数据之间的匹配关系为连通匹配关系，则音频数据对应的节点之间存在连线，音频数据之间的匹配关系为未连通匹配关系，则音频数据对应的节点之间不存在连线，节点之间的连线没有方向。

音频数据确定模块14，用于获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。

具体的，音频数据确定模块14获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据，可以理解的是，所述完全图为无向图中的部分节点组成的子图，所述完全图中每一个节点均与完全图中其他节点有连接关系，即完全图中每一个节点对应的音频数据与完全图中其他节点对应的音频数据为连通匹配关系，所述目标完全图为完全图中满足预设条件的完全图，具体的，目标完全图可以是无向图中包含节点最多的完全图，数据处理设备获取所述无向图中的目标完全图，所述目标完全图中节点对应的音频数据之间均为连通匹配关系，将目标完全图中节点对应的音频数据确定为相同音频数据。

请一并参见图8，为本发明实施例提供了一种匹配关系获取模块的结构示意图。如图8所示，本发明实施例的所述音频数据确定模块14可以包括：音频向量获取单元141、匹配关系获取单元142、音频数据确定单元143。

音频向量获取单元141，用于获取所述无向图中的至少一个子无向图，所述子无向图为无向图中连通的子图；

具体的，音频向量获取单元141获取所述无向图中的至少一个子无向图，所述子无向图为无向图中连通的子图，可以理解的是，所述无向图中包括至少一个子无向图，所述子无向图中的节点与不属于子无相图的任意一个节点不具有连接关系，即子无向图中的节点与不属于子无相图的任意一个节点为非连通节点。

匹配关系获取单元142，用于获取每个所述子无向图对应的完全图，统计每个所述完全图的节点数；

具体的，匹配关系获取单元142获取每个所述子无向图对应的完全图，统计每个所述完全图的节点数，可以理解的是，所述完全图中的任意一个节点与完全图中其他节点的均具有连接关系，所述子无向图可以是完全图，也可以不为完全图，若所述子无向图为完全图，则获取所述子无向图的节点数，确定为所述完全图的节点数；若所述子无向图不为完全图，则获取所述子无相图中包含节点数最多的完全图，统计所述包含节点数最多的完全图的节点数。

音频数据确定单元143，用于将所述节点数最大的完全图确定为目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图4所示实施例的方法步骤，具体执行过程可以参见图1-图4所示实施例的具体说明，在此不进行赘述。

请参见图9，为本发明实施例提供了一种数据处理设备的结构示意图。如图9所示，所述数据处理设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图9所示的设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的数据处理应用程序，并具体执行以下操作：

获取音频数据组中的至少两个音频数据；

获取所述至少两个音频数据之间的匹配关系；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取音频数据组中的至少两个音频数据；

获取所述至少两个音频数据之间的匹配关系；

2.根据权利要求1所述的方法，其特征在于，所述获取所述至少两个音频数据之间的匹配关系，包括：

获取音频数据组中每个所述音频数据对应的音频向量；

3.根据权利要求2所述的方法，其特征在于，所述获取音频数据组中每个所述音频数据对应的音频向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述音频向量获取所述至少两个音频数据之间的匹配关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所向量距离信息确定所述第一音频数据和所述第二音频数据之间的匹配关系，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述匹配关系生成至少两个音频数据对应的无向图，包括：

将每个所述音频数据均确定为无向图中的节点；

7.根据权利要求1所述的方法，其特征在于，所述获取所述无向图中的目标完全图，将所述目标完全图中节点对应的音频数据确定为相同音频数据，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取每个所述子无向图对应的完全图，统计每个所述完全图的节点数，包括：

9.一种数据处理设备，其特征在于，包括：

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-8任意一项的方法步骤。

11.一种数据处理设备，其特征在于，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-8任意一项的方法步骤。