CN110275989B

CN110275989B - 多媒体数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN110275989B
Application number: CN201910542943.XA
Authority: CN
Inventors: 黄明
Original assignee: Suona Network Technology Shanghai Co ltd
Current assignee: Suona Network Technology Shanghai Co ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2022-11-18
Anticipated expiration: 2039-06-21
Also published as: CN110275989A

Abstract

本申请提供了一种多媒体数据处理方法、装置、计算机设备和存储介质，首先构建数据库过程中，通过预设的视频分段算法，能够实现批量自动化地裁剪视频数据，得到多个视频片段，提高视频分段的效率，然后，抽离出待抽离的视频数据的音频，将抽离出的音频数据转换为统一的预设格式，配合后续的视频检索，提高检索速度，最后，基于ACRCloud，将预设格式的音频文件以及客户端提交的音频数据处理为具有唯一标识的ACR音频指纹文件，能够基于客户端提交的音频数据和具有唯一标识的ACR音频指纹文件，快速且准确地从数据库中匹配出对应的原始视频及视频片段，有针对性地实现定制化服务。

Description

多媒体数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及多媒体技术领域，特别是涉及一种多媒体数据处理方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的蓬勃发展，多媒体的应用领域已涉足诸如广告、艺术、教育、娱乐、工程、医药、商业及科学研究等行业。人们对于多媒体数据的应用的需求越来越高，于是，在解码、转码、听音识别处理上也出现了各种听音识曲等多媒体处理技术。

然而，当人们看到一段有趣的视频片段时，想要知道该视频片段出自哪部电视剧或哪部电源等多媒体数据，操作起来比较繁琐，无法快速且准确地找到该视频片段的出处，且传统的多媒体处理技术，也大多是基于关键字检索和固定场景模式去识别多媒体节目并推送给用户，例如，针对一个视频片段中的几个关键字可能识别出多个视频片段，因此，传统的多媒体处理技术缺乏针对性，无法满足大众的定制化服务需求。

发明内容

基于此，有必要针对传统的多媒体处理技术缺乏针对性，无法满足大众的定制化服务需求的问题，提供一种高效的多媒体数据处理方法、装置、计算机设备和存储介质。

一种多媒体数据处理方法，方法包括：

接收客户端发送的视频检索请求；

基于ACRCloud，对视频检索请求中携带的音频数据进行转换及指纹提取，得到目标ACR音频指纹文件，目标ACR音频指纹文件携带目标标识符；

当根据目标标识符从数据库中检索到与目标ACR音频指纹文件对应的原始ACR音频指纹文件时，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出对应的原始视频数据及视频片段，原始标识符与目标标识符携带有相同信息；

数据库采用以下步骤构建：

读取原始视频数据，调用预设的视频分段算法对原始视频数据进行分段处理，得到视频片段、并将视频片段保存至初始数据库；

获取待抽离视频数据，抽离出待抽离视频数据的音频数据、并将音频数据转换为预设格式的音频文件；

基于ACRCloud，对预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件、并保存原始ACR音频指纹文件至初始数据库，生成数据库。

在其中一个实施例中，调用预设的视频分段算法对原始视频数据进行分段处理，得到视频片段包括：

获取分段时长以及片段偏移长度；

基于分段时长以及片段偏移长度，对视频数据进行分段处理，得到视频片段。

在其中一个实施例中，基于ACRCloud，对视频检索请求中携带的音频数据进行转换及指纹提取，得到目标ACR音频指纹文件包括：

提取视频检索请求中携带的音频数据；

根据ACRCloud提供的文件转换工具，将提取出的音频数据转换为目标ACR音频指纹数据、并将目标ACR音频指纹数据上传至ACRCloud对应的音频库；

记录ACRCloud针对目标ACR音频指纹数据进行指纹提取后返回的目标标识符以及时间点，并将目标标识符与目标ACR音频指纹数据组合，生成目标ACR音频指纹文件，时间点为目标ACR音频指纹文件在其所属的视频数据中的时间点。

在其中一个实施例中，基于ACRCloud，对预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件包括：

根据ACRCloud提供的文件转换工具，将预设格式的音频文件转换为原始ACR音频指纹数据、并将原始ACR音频指纹数据上传至ACRCloud对应的音频库；

接收ACRCloud针对原始ACR音频指纹文件进行指纹提取后返回的原始标识符、并将原始标识符与原始ACR音频指纹数据组合，生成原始ACR音频指纹文件；

生成原始ACR音频指纹文件之后还包括：

将原始标识符记录至对应的原始视频数据。

在其中一个实施例中，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出对应的原始视频数据及视频片段包括：

根据原始标识符，查找出与原始标识符对应的原始视频数据；

根据原始视频数据的时间点，查找出与目标ACR音频指纹文件的时间点最接近的视频片段。

在其中一个实施例中，调用预设的视频分段算法对原始视频数据进行分段处理之前，还包括：

当原始视频数据不符合预设的格式要求时，对原始视频数据进行转码；

根据预设的视频处理工具，抽离出待抽离视频数据的音频数据之前，还包括：

当待抽离视频数据不符合预设的格式要求时，对待抽离视频数据进行转码。

一种多媒体数据处理装置，装置包括：

数据接收模块，用于接收客户端发送的视频检索请求；

第一文件转换模块，用于基于ACRCloud，对视频检索请求中携带的音频数据进行转换及指纹提取，得到目标自动内容识别ACR音频指纹文件，目标ACR音频指纹文件携带目标标识符；

视频检索模块，用于当根据目标标识符从数据库中检索到与目标ACR音频指纹文件对应的原始ACR音频指纹文件时，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出对应的原始视频数据及视频片段，原始标识符与目标标识符携带有相同信息；

视频分段模块，用于读取原始视频数据，调用预设的视频分段算法对原始视频数据进行分段处理，得到视频片段、并将视频片段保存至初始数据库；

音频抽离模块，用于抽离出待抽离视频数据的音频数据、并将音频数据转换为预设格式的音频文件；

第二文件转换模块，用于基于ACRCloud，对预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件、并保存原始ACR音频指纹文件至初始数据库，生成数据库。

在其中一个实施例中，装置还包括：

转码模块，用于当原始视频数据不符合预设的格式要求时，对原始视频数据进行转码；当待抽离视频数据不符合预设的格式要求时，对待抽离视频数据进行转码。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

接收客户端发送的视频检索请求；

数据库采用以下步骤构建：

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

接收客户端发送的视频检索请求；

数据库采用以下步骤构建：

上述多媒体数据处理方法、装置、计算机设备和存储介质，首先，构建数据库过程中，通过预设的视频分段算法，能够实现批量自动化地裁剪视频数据，得到多个视频片段，提高视频分段的效率，然后，抽离出待抽离的视频数据的音频，将抽离出的音频数据转换为统一的预设格式，配合后续的视频检索，提高检索速度，最后，基于ACRCloud，将预设格式的音频文件以及客户端提交的音频数据处理为具有唯一标识的ACR音频指纹文件，能够基于客户端提交的音频数据和具有唯一标识的ACR音频指纹文件，快速且准确地从数据库中匹配出对应的原始视频及视频片段，有针对性地实现定制化服务。

附图说明

图1为一个实施例中多媒体数据处理方法的应用环境图；

图2为一个实施例中多媒体数据处理方法的流程示意图；

图3为另一个实施例中数据库构建过程的详细流程示意图；

图4为一个实施例中多媒体数据处理装置的结构框图；

图5为另一个实施例中多媒体数据处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的多媒体数据处理方法，可应用于如图1所示的应用环境图中，服务器100首先从初始数据库中会实时读取是否存在有待裁剪的原始视频数据，当存在待裁剪的原始视频数据时，调用预设的视频分段算法对原始视频数据进行分段处理，得到视频片段、并将视频片段保存至初始数据库，然后，再从初始数据库中实时读取是否存在待抽离的视频数据，当存在待抽离的视频数据时，获取待抽离视频数据，抽离出待抽离视频数据的音频数据、并将音频数据转换为预设格式的音频文件，然后基于ACRCloud，对预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件、并保存原始ACR音频指纹文件至初始数据库，生成数据库，至此，数据库构建完成。服务器100接收客户端102发送的视频检索请求，基于ACRCloud，对视频检索请求中携带的音频数据进行转换及指纹提取，得到目标ACR音频指纹文件，目标ACR音频指纹文件携带目标标识符，再根据目标标识符(原始标识符与目标标识符携带有相同信息)从数据库中检索与目标ACR音频指纹文件对应的原始ACR音频指纹文件，当检索到对应的原始ACR音频指纹文件时，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出对应的原始视频数据及视频片段。至此，实现“听音识视频”，完成根据视频片段检索出原始视频数据集视频片段。其中，客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器100可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种多媒体数据处理方法，以该方法应用于服务器为例进行说明，包括以下步骤：

在实际应用中，服务器会事先完成数据库的构建，具体的，如图3所示，数据库构建包括以下步骤：

步骤S120，读取原始视频数据，调用预设的视频分段算法对原始视频数据进行分段处理，得到视频片段、并将视频片段保存至初始数据库。

实时读取初始数据库中的数据，判断初始数据库中是否存在待裁剪的原始视频数据，当存在待裁剪的原始视频数据时，读取该原始视频数据，当该原始视频数据符合预设的格式要求时，便调用预设的视频分段算法，将读取到的原始视频数据裁剪为多个视频片段，并将视频片段保存至初始数据库。

步骤S140，获取待抽离视频数据，抽离出待抽离视频数据的音频数据、并将音频数据转换为预设格式的音频文件。

音频抽离过程可以是实时读取初始数据库的数据，判断初始数据库中是否存在待抽离的视频数据，当存在待抽离的原始视频数据时，获取该原始视频数据，当该原始视频数据符合预设的格式要求时，便根据预设的视频处理工具，将获取到的待抽离的视频数据中的音频数据抽离出来，并将抽离出来的音频数据转换为预设格式的音频文件。具体的，预设的视频处理工具可以是FFmpeg，预设的格式的音频文件可以是m4a格式的音频文件，FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，可以理解的是，视频处理工具还可以是其他视频处理工具，预设的格式的音频文件也可以是WMA格式以及WAV格式等其他格式的音频文件。

步骤S160，基于ACRCloud，对预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件、并保存原始ACR音频指纹文件至初始数据库，生成数据库。

如上述实施例所述，可以是当将音频数据转换为m4a格式的音频文件之后，将m4a格式的音频文件上传至ACRCloud，通过ACRCloud对m4a格式的音频文件进行转换和指纹提取，得到待上传的ACR音频指纹数据，再将待上传的ACR音频指纹数据再次上传至ACRCloud，记录ACRCloud返回的原始标识符，将原始ACRCloud音频文件并保存原始ACR音频指纹文件至初始数据库，生成数据库，该原始标识符可以是ACRCloud针对该原始ACR音频指纹数据返回的ACR_ID，可以理解的是，ACR_ID可以是数字、字母或字母与数字组合的编号。

在其中一个实施例中，基于ACRCloud，对预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件包括：根据ACRCloud提供的文件转换工具，将预设格式的音频文件转换为原始ACR音频指纹数据、并将原始ACR音频指纹数据上传至ACRCloud对应的音频库，接收ACRCloud针对原始ACR音频指纹文件进行指纹提取后返回的原始标识符、并将原始标识符与原始ACR音频指纹数据组合，生成原始ACR音频指纹文件。生成原始ACR音频指纹文件之后还包括：将原始标识符记录至对应的原始视频数据。

其中，文件转换工具是ACRCloud提供的一段用于文件转换的功能代码，运行这段代码把音频文件转换成原始ACR音频指纹数据，然后，通过ACRCloud提供的接口，将原始ACR音频指纹数据上传至ACRCloud对应的音频库中，ACRCloud服务器接收到上传的初始ACR音频指纹数据，采用指纹提取算法对原始音频指纹数据进行指纹提取，提取出的指纹包括两个landmark的频率和时间差，同时每个指纹都有一个对应的时间，即landmark的时间，表示这个指纹出现的时刻，最后将提取的指纹放入指纹文件、并将指纹文件放入到指纹库，指纹库用散列表实现，每一个表项表示相同指纹对应的音频ID(即ACR_ID)和Time，然后，ACRCloud的接口返回针对初始音频指纹数据的生成的初始标识符(ACR_ID)，服务器接收初始标识符，并将初始标识符与目标ACR音频指纹数据组合，生成初始ACR音频指纹文件。生成初始ACR音频指纹文件之后，将接收到的初始标识符记录至对应的原始视频数据中，如此，就能将初始标识符(ACR_ID)与原始视频数据对应起来，也能通过初始标识符查找到每一个与之对应的原始视频数据。

在其中一个实施例中，调用预设的视频分段算法对原始视频数据进行分段处理之前，还包括：当原始视频数据不符合预设的格式要求时，对原始视频数据进行转码，根据预设的视频处理工具，抽离出待抽离视频数据的音频数据之前，还包括：当待抽离视频数据不符合预设的格式要求时，对待抽离视频数据进行转码。

为保证视频处理的格式统一，需要在对视频数据进行分段和音频抽离之前进行转码，判断视频数据是否需要转码的条件即判断视频数据是否符合预设的格式要求，具体的，预设的格式要求可以是视频是否为MPEG4(Moving Picture Experts Group，动态图像专家组)，即MP4，视频分辨率是否为480p或以上，若视频格式为MP4且分辨率为480p或以上，则无需转码，若视频格式不为MP4或分辨率低于480p，则通过FFmpeg程序对该视频数据进行转码。可以理解的是，在其他实施例中，预设的格式要求中视频格式还可以是其他格式，视频分辨率的要求也可以是其他分辨率。本实施例中，通过转码判断，将视频数据都统一为预设格式，为后续的视频检索提供便利。

步骤S200，接收客户端发送的视频检索请求。

在实际应用中，数据库构建完成后，用户首先于客户端(如智能手机)安装相应的多媒体APP(Application，应用程序)，用户打开APP，选择APP上的“听音识别”功能，此时，手机端会录制当前听到的声音，然后发送视频检索请求至服务器，在其他实施例中，若使用了ACRCloud的SDK功能，手机会在用户选择“听音识别”之前，预先启动音频服务，当用户去选择“听音识别”功能是，其实音频服务已录制几秒钟，并已将录音的音频文件提交给服务器端。

步骤S400，基于ACRCloud，对视频检索请求中携带的音频数据进行转换及指纹提取，得到目标ACR音频指纹文件，目标ACR音频指纹文件携带目标标识符。

ACRCloud是全球领先的(Automatic Content Recognition，内容自动识别)云服务平台，提供高效便捷的音视频匹配接入服务。其先进的音频指纹识别技术已广泛应用于音乐播放器和流媒体服务中。本实施例中，当接收到客户端发送的视频检索请求时，提取视频检索请求中携带的音频数据，然后将音频数据提交至ACRCloud服务器，ACRCloud服务器利用其高效的指纹提取算法以及丰富的音频指纹数据库，对该音频数据进行转换和指纹提取，将该音频数据转换为待上传的ACR音频指纹数据，再将待上传的ACR音频指纹数据上传至ACRCloud服务器，得到目标ACR音频指纹文件，该目标ACR音频指纹文件携带有目标标识符，具体的目标标识符可以是ACRCloud返回的ACR_ID，ACR_ID可以是数字、字母或字母与数字组合的编号。

步骤S600，当根据目标标识符从数据库中检索到与目标ACR音频指纹文件对应的原始ACR音频指纹文件时，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出对应的原始视频数据及视频片段，原始标识符与目标标识符携带有相同信息。

当得到目标ACR音频指纹文件之后，由于该目标ACR音频指纹文件携带有目标标识符，且目标标识符与原始标识符可以同为ACRCloud返回的ACR_ID，故可通过目标标识符进行音频检索，若目标标识符代表的音频文件存在于数据库中，则能够通过目标标识符查找到携带有相同信息的原始标识符，再由原始标识符查找到原始视频数据及视频片段。例如，在构建数据过程中，将一部电影音频文件经过转换得到了原始ACR音频指纹文件，该原始ACR音频指纹文件的原始标识符为1234567890abc，当用户想要识别一段目标视频片段，通过用户的智能手机录制的音频文件经过转换和指纹提取之后，得到的目标ACR音频指纹文件的目标标识符为567时，在检索匹配过程中，能够通过567检索到包含567的原始标识符1234567890abc，再由原始标识符查找出保存在数据库中的原始视频数据及视频片段。

在其中一个实施例中，基于ACRCloud，对视频检索请求中携带的音频数据进行转换及指纹提取，得到目标ACR音频指纹文件包括：提取视频检索请求中携带的音频数据，根据ACRCloud提供的文件转换工具，将提取出的音频数据转换为目标ACR音频指纹数据、并将目标ACR音频指纹数据上传至ACRCloud对应的音频库，记录ACRCloud针对目标ACR音频指纹数据进行指纹提取后返回的目标标识符以及时间点，并将目标标识符与目标ACR音频指纹数据组合，生成目标ACR音频指纹文件，时间点为目标ACR音频指纹文件在其所属的视频数据中的时间点。

在实际应用中，可以是提取出音频检索请求中携带的音频数据，然后通过ACRCloud提供的文件转换工具，将提取出的音频数据转换为目标ACR音频指纹数据，其中，文件转换工具是ACRCloud提供的一段用于文件转换的功能代码，运行这段代码把音频文件转换成目标ACR音频指纹数据，然后，通过ACRCloud提供的接口，将目标ACR音频指纹数据上传至ACRCloud对应的音频库中，ACRCloud服务器接收到上传的目标ACR音频指纹数据，会采用指纹提取算法对目标音频指纹数据进行指纹提取，匹配出与目标音频指纹数据对应的多个ACR_ID，然后通过ACRCloud的接口返回针对目标音频指纹数据的生成的(ACR_ID)和时间点，服务器接收ACR_ID和时间点，选取匹配值最高的音频数据对应的ACR_ID作为目标标识符，并将目标标识符与目标ACR音频指纹数据组合，生成目标ACR音频指纹文件。具体的，提取出的指纹包括两个landmark的频率和时间差，同时每个指纹都有一个对应的时间，即landmark的时间，表示这个指纹出现的时刻，最后将提取的指纹放入指纹文件、并将指纹文件放入到指纹库，指纹库用散列表实现，每一个表项表示相同指纹对应的音频ID(即ACR_ID)和Time。如此，能够通过目标标识符，查找到目标标识符所代表的音频文件的对应的原始视频数据及视频片段。

在其中一个实施例中，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出对应的原始视频数据及视频片段包括：根据原始标识符，查找出与原始标识符对应的原始视频数据，根据原始视频数据的时间点，查找出与目标ACR音频指纹文件的时间点最接近的视频片段。

如上述实施例所述，ACRCloud的接口会返回针对目标音频指纹数据的生成的时间点，时间点即为目标音频文件在其所属视频中的时间点，视频检索过程可以是首先，根据目标标识符查找到对应的原始ACR音频指纹文件，再根据原始ACR音频指纹文件携带的原始标识符，匹配出对应的原始视频数据，根据原始视频数据的时间点，查找出与目标ACR音频指纹文件的时间点最接近的视频片段。如此，即能通过APP提交的音频数据查找到对应的原始视频数据和视频片段。

上述多媒体数据处理方法，首先，构建数据库过程中，通过预设的视频分段算法，能够实现批量自动化地裁剪视频数据，得到多个视频片段，提高视频分段的效率，然后，抽离出待抽离的视频数据的音频，将抽离出的音频数据转换为统一的预设格式，配合后续的视频检索，提高检索速度，最后，基于ACRCloud，将预设格式的音频文件以及客户端提交的音频数据处理为具有唯一标识的ACR音频指纹文件，能够基于客户端提交的音频数据和具有唯一标识的ACR音频指纹文件，快速且准确地从数据库中匹配出对应的原始视频及视频片段，有针对性地实现定制化服务。

在其中一个实施例中，调用预设的视频分段算法对原始视频数据进行分段处理，得到视频片段包括：获取分段时长以及片段偏移长度，基于分段时长以及片段偏移长度，对视频数据进行分段处理，得到视频片段。

视频分段算法可以是根据视频切片的分段时长以及片段之前的偏移长度设计。具体的，可以是设定视频分段的开始时间的初始值为0，即第一个开始时间为0秒，每个视频片段截止时间＝开始时间+分段时长，开始时间＝上一个开始时间+偏移时长。例如，待裁剪的原始视频数据为一个时长为45分钟的视频，假设分段时长为1分钟，偏移时长为15秒，那么这个视频，得到第一视频片段就是初始开始时间0到分段时长60秒，第二个视频片段的开始时间就是上一个开始时间0+偏移时长15秒，即15秒，得到的第二个视频片段为15秒到75秒的片段，以此类推，往后的视频片段的裁剪内容为30秒到90秒，45秒到105秒，60秒到120秒……，然后根据上述分段算法得出的裁剪内容，完成整个视频的分段处理。本实施例中，通过预设的视频分段算法，能够实现自动视频的自动裁剪，无需通过人工借助视频处理工具就能完成视频的分段裁剪，提高视频处理的效率。

应该理解的是，虽然图2至图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图4所示，提供了一种多媒体数据处理装置，包括：任务转换模块410、第一文件转换模块420、视频检索模块430、视频分段模块440、音频抽离模块450以及第二文件转换模块460，其中：

数据接收模块410，用于接收客户端发送的视频检索请求。

第一文件转换模块420，用于基于ACRCloud，对视频检索请求中携带的音频数据进行转换及指纹提取，得到目标自动内容识别ACR音频指纹文件，目标ACR音频指纹文件携带目标标识符。

视频检索模块430，用于当根据目标标识符从数据库中检索到与目标ACR音频指纹文件对应的原始ACR音频指纹文件时，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出对应的原始视频数据及视频片段，原始标识符与目标标识符携带有相同信息。

视频分段模块440，用于读取原始视频数据，调用预设的视频分段算法对原始视频数据进行分段处理，得到视频片段、并将视频片段保存至初始数据库。

音频抽离模块450，用于抽离出待抽离视频数据的音频数据、并将音频数据转换为预设格式的音频文件。

第二文件转换模块460，用于基于ACRCloud，对预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件、并保存原始ACR音频指纹文件至初始数据库，生成数据库。

如图5所示，在其中一个实施例中，装置还包括转码模块470，用于当原始视频数据不符合预设的格式要求时，对原始视频数据进行转码；当待抽离视频数据不符合预设的格式要求时，对待抽离视频数据进行转码。

在其中一个实施例中，视频分段模块440还用于获取分段时长以及片段偏移长度，基于分段时长以及片段偏移长度，对视频数据进行分段处理，得到视频片段。

在其中一个实施例中，第一文件转换模块420还用于提取视频检索请求中携带的音频数据，根据ACRCloud提供的文件转换工具，将提取出的音频数据转换为目标ACR音频指纹数据、并将目标ACR音频指纹数据上传至ACRCloud对应的音频库，记录ACRCloud针对目标ACR音频指纹数据进行指纹提取后返回的目标标识符以及时间点，并将目标标识符与目标ACR音频指纹数据组合，生成目标ACR音频指纹文件，时间点为目标ACR音频指纹文件在其所属的视频数据中的时间点。

在其中一个实施例中，第二文件转换模块460还用于根据ACRCloud提供的文件转换工具，将预设格式的音频文件转换为原始ACR音频指纹数据、并将原始ACR音频指纹数据上传至ACRCloud对应的音频库，接收ACRCloud针对原始ACR音频指纹文件进行指纹提取后返回的原始标识符、并将原始标识符与原始ACR音频指纹数据组合，生成原始ACR音频指纹文件，将原始标识符记录至对应的原始视频数据。

在其中一个实施例中，视频检索模块430还用于根据原始标识符，查找出与原始标识符对应的原始视频数据，根据原始视频数据的时间点，查找出与目标ACR音频指纹文件的时间点最接近的视频片段。

关于多媒体数据处理装置的具体限定可以参见上文中对于多媒体数据处理方法的限定，在此不再赘述。上述多媒体数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频数据和标识符等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体数据处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：接收客户端发送的视频检索请求，基于ACRCloud，对视频检索请求中携带的音频数据进行转换及指纹提取，得到目标ACR音频指纹文件，目标ACR音频指纹文件携带目标标识符，当根据目标标识符从数据库中检索到与目标ACR音频指纹文件对应的原始ACR音频指纹文件时，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出对应的原始视频数据及视频片段，原始标识符与目标标识符携带有相同信息，数据库采用以下步骤构建：读取原始视频数据，调用预设的视频分段算法对原始视频数据进行分段处理，得到视频片段、并将视频片段保存至初始数据库，获取待抽离视频数据，抽离出待抽离视频数据的音频数据、并将音频数据转换为预设格式的音频文件，基于ACRCloud，对预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件、并保存原始ACR音频指纹文件至初始数据库，生成数据库。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：获取分段时长以及片段偏移长度，基于分段时长以及片段偏移长度，对视频数据进行分段处理，得到视频片段。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：还用于提取视频检索请求中携带的音频数据，根据ACRCloud提供的文件转换工具，将提取出的音频数据转换为目标ACR音频指纹数据、并将目标ACR音频指纹数据上传至ACRCloud对应的音频库，记录ACRCloud针对目标ACR音频指纹数据进行指纹提取后返回的目标标识符以及时间点，并将目标标识符与目标ACR音频指纹数据组合，生成目标ACR音频指纹文件，时间点为目标ACR音频指纹文件在其所属的视频数据中的时间点。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：根据ACRCloud提供的文件转换工具，将预设格式的音频文件转换为原始ACR音频指纹数据、并将原始ACR音频指纹数据上传至ACRCloud对应的音频库，接收ACRCloud针对原始ACR音频指纹文件进行指纹提取后返回的原始标识符、并将原始标识符与原始ACR音频指纹数据组合，生成原始ACR音频指纹文件，将原始标识符记录至对应的原始视频数据。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：根据原始标识符，查找出与原始标识符对应的原始视频数据，根据原始视频数据的时间点，查找出与目标ACR音频指纹文件的时间点最接近的视频片段。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：当原始视频数据不符合预设的格式要求时，对原始视频数据进行转码；当待抽离视频数据不符合预设的格式要求时，对待抽离视频数据进行转码。

在其中一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：接收客户端发送的视频检索请求，基于ACRCloud，对视频检索请求中携带的音频数据进行转换及指纹提取，得到目标ACR音频指纹文件，目标ACR音频指纹文件携带目标标识符，当根据目标标识符从数据库中检索到与目标ACR音频指纹文件对应的原始ACR音频指纹文件时，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出对应的原始视频数据及视频片段，原始标识符与目标标识符携带有相同信息，数据库采用以下步骤构建：读取原始视频数据，调用预设的视频分段算法对原始视频数据进行分段处理，得到视频片段、并将视频片段保存至初始数据库，获取待抽离视频数据，抽离出待抽离视频数据的音频数据、并将音频数据转换为预设格式的音频文件，基于ACRCloud，对预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件、并保存原始ACR音频指纹文件至初始数据库，生成数据库。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取分段时长以及片段偏移长度，基于分段时长以及片段偏移长度，对视频数据进行分段处理，得到视频片段。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：还用于提取视频检索请求中携带的音频数据，根据ACRCloud提供的文件转换工具，将提取出的音频数据转换为目标ACR音频指纹数据、并将目标ACR音频指纹数据上传至ACRCloud对应的音频库，记录ACRCloud针对目标ACR音频指纹数据进行指纹提取后返回的目标标识符以及时间点，并将目标标识符与目标ACR音频指纹数据组合，生成目标ACR音频指纹文件，时间点为目标ACR音频指纹文件在其所属的视频数据中的时间点。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据ACRCloud提供的文件转换工具，将预设格式的音频文件转换为原始ACR音频指纹数据、并将原始ACR音频指纹数据上传至ACRCloud对应的音频库，接收ACRCloud针对原始ACR音频指纹文件进行指纹提取后返回的原始标识符、并将原始标识符与原始ACR音频指纹数据组合，生成原始ACR音频指纹文件，将原始标识符记录至对应的原始视频数据。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据原始标识符，查找出与原始标识符对应的原始视频数据，根据原始视频数据的时间点，查找出与目标ACR音频指纹文件的时间点最接近的视频片段。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：当原始视频数据不符合预设的格式要求时，对原始视频数据进行转码；当待抽离视频数据不符合预设的格式要求时，对待抽离视频数据进行转码。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多媒体数据处理方法，其特征在于，所述方法包括：

接收客户端发送的视频检索请求；

基于ACRCloud，对所述视频检索请求中携带的音频数据进行转换及指纹提取，得到目标ACR音频指纹文件，所述目标ACR音频指纹文件携带目标标识符，所述目标标识符是与所述ACRCloud针对目标ACR音频指纹数据生成的ACR_ID和时间点的匹配值最高的ACR_ID，所述目标ACR音频指纹数据基于所述音频数据转换得到；

当根据所述目标标识符从数据库中检索到与所述目标ACR音频指纹文件对应的原始ACR音频指纹文件时，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出与所述原始标识符对应的原始视频数据，根据所述原始视频数据的时间点，查找出与所述目标ACR音频指纹文件的时间点最接近的视频片段，所述原始标识符与所述目标标识符携带有相同信息；

所述基于ACRCloud，对所述视频检索请求中携带的音频数据进行转换及指纹提取，得到目标ACR音频指纹文件包括：提取所述视频检索请求中携带的音频数据，根据所述ACRCloud提供的文件转换工具，将提取出的所述音频数据转换为目标ACR音频指纹数据、并将所述目标ACR音频指纹数据上传至所述ACRCloud对应的音频库，记录所述ACRCloud针对所述目标ACR音频指纹数据进行指纹提取后返回的目标标识符以及时间点，并将所述目标标识符与所述目标ACR音频指纹数据组合，生成目标ACR音频指纹文件，所述时间点为所述目标ACR音频指纹文件在其所属的视频数据中的时间点；

所述数据库采用以下步骤构建：

读取原始视频数据，调用预设的视频分段算法对所述原始视频数据进行分段处理，得到视频片段、并将所述视频片段保存至初始数据库；

获取待抽离视频数据，抽离出所述待抽离视频数据的音频数据、并将所述音频数据转换为预设格式的音频文件；

基于所述ACRCloud，对所述预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件、并保存所述原始ACR音频指纹文件至初始数据库，生成数据库。

2.根据权利要求1所述的多媒体数据处理方法，其特征在于，所述调用预设的视频分段算法对所述原始视频数据进行分段处理，得到视频片段包括：

获取分段时长以及片段偏移长度；

基于所述分段时长以及所述片段偏移长度，对所述视频数据进行分段处理，得到视频片段。

3.根据权利要求1所述的多媒体数据处理方法，其特征在于，所述基于所述ACRCloud，对所述预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件包括：

根据ACRCloud提供的文件转换工具，将所述预设格式的音频文件转换为原始ACR音频指纹数据、并将所述原始ACR音频指纹数据上传至所述ACRCloud对应的音频库；

接收所述ACRCloud针对所述原始ACR音频指纹文件进行指纹提取后返回的所述原始标识符、并将所述原始标识符与所述原始ACR音频指纹数据组合，生成原始ACR音频指纹文件；

所述生成原始ACR音频指纹文件之后还包括：

将所述原始标识符记录至对应的原始视频数据。

4.根据权利要求1所述的多媒体数据处理方法，其特征在于，所述调用预设的视频分段算法对所述原始视频数据进行分段处理之前，还包括：

当所述原始视频数据不符合预设的格式要求时，对所述原始视频数据进行转码；

所述根据预设的视频处理工具，抽离出所述待抽离视频数据的音频数据之前，还包括：

当所述待抽离视频数据不符合预设的格式要求时，对所述待抽离视频数据进行转码。

5.一种多媒体数据处理装置，其特征在于，所述装置包括：

数据接收模块，用于接收客户端发送的视频检索请求；

第一文件转换模块，用于基于ACRCloud，对所述视频检索请求中携带的音频数据进行转换及指纹提取，得到目标ACR音频指纹文件，所述目标ACR 音频指纹文件携带目标标识符，所述目标标识符是与所述ACRCloud针对目标ACR音频指纹数据生成的ACR_ID和时间点的匹配值最高的ACR_ID，所述目标ACR音频指纹数据由所述音频数据转换得到；

视频检索模块，用于当根据所述目标标识符从数据库中检索到与所述目标ACR音频指纹文件对应的原始ACR音频指纹文件时，根据检索出的原始ACR音频指纹文件携带的原始标识符，查找出与所述原始标识符对应的原始视频数据，根据所述原始视频数据的时间点，查找出与所述目标ACR音频指纹文件的时间点最接近的视频片段，所述原始标识符与所述目标标识符携带有相同信息；

视频分段模块，用于读取原始视频数据，调用预设的视频分段算法对所述原始视频数据进行分段处理，得到视频片段、并将所述视频片段保存至初始数据库；

音频抽离模块，用于抽离出待抽离视频数据的音频数据、并将所述音频数据转换为预设格式的音频文件；

第二文件转换模块，用于基于所述ACRCloud，对所述预设格式的音频文件进行转换及指纹提取，得到原始ACR音频指纹文件、并保存所述原始ACR音频指纹文件至初始数据库，生成数据库；

第一文件转换模块还用于提取所述视频检索请求中携带的音频数据，根据所述ACRCloud提供的文件转换工具，将提取出的所述音频数据转换为目标ACR音频指纹数据、并将所述目标ACR音频指纹数据上传至所述ACRCloud对应的音频库，记录所述ACRCloud针对所述目标ACR音频指纹数据进行指纹提取后返回的目标标识符以及时间点，并将所述目标标识符与所述目标ACR音频指纹数据组合，生成目标ACR音频指纹文件，所述时间点为所述目标ACR音频指纹文件在其所属的视频数据中的时间点。

6.根据权利要求5所述的多媒体数据处理装置，其特征在于，所述装置还包括：

转码模块，用于当所述原始视频数据不符合预设的格式要求时，对所述原始视频数据进行转码；当所述待抽离视频数据不符合预设的格式要求时，对所述待抽离视频数据进行转码。

7.根据权利要求5所述的多媒体数据处理装置，其特征在于，所述视频分段模块还用于获取分段时长以及片段偏移长度，基于所述分段时长以及所述片段偏移长度，对所述视频数据进行分段处理，得到视频片段。

8.根据权利要求5所述的多媒体数据处理装置，其特征在于，所述第二文件转换模块还用于根据ACRCloud提供的文件转换工具，将所述预设格式的音频文件转换为原始ACR音频指纹数据、并将所述原始ACR音频指纹数据上传至所述ACRCloud对应的音频库，接收所述ACRCloud针对所述原始ACR音频指纹文件进行指纹提取后返回的所述原始标识符、并将所述原始标识符与所述原始ACR音频指纹数据组合，生成原始ACR音频指纹文件，将原始标识符记录至对应的原始视频数据。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。