CN115735360A

CN115735360A - 用于从视频内容中检测音乐数据的装置及其控制方法

Info

Publication number: CN115735360A
Application number: CN202180036982.8A
Authority: CN
Inventors: 韩允畅; 李秀斌; 朴正修; 丁一荣; 李敦文; 林铉基
Original assignee: Coke Co ltd
Current assignee: Coke Co ltd
Priority date: 2020-05-19
Filing date: 2021-05-18
Publication date: 2023-03-03
Also published as: WO2021235846A1; JP2023530831A; EP4156701A4; EP4156701A1; JP7534740B2; KR102372580B1; US20230217074A1; KR20210143105A

Abstract

根据本发明的数据处理方法包括如下步骤：接收包括视频流和音频流的视频内容的输入；从上述音频流中检测音乐数据；及过滤上述音频流，以删除上述音频流中检测到的上述音乐数据。

Description

用于从视频内容中检测音乐数据的装置及其控制方法

技术领域

本发明涉及一种混合有音乐和语音的音频数据的处理方法。

背景技术

声源分离技术将由各种声音构成的音频流按照特定的准则划分为多个音频数据。例如，声源分离技术可以用于从立体声音乐中仅提取歌手的声音，或者将用一个麦克风记录的两个或多个音频信号分别分离。此外，声源分离技术还可用于车辆、手机等的噪声消除。

最近，已经介绍了将人工智能引入声源分离技术的方法。代表性的是，有一种使用预先训练语音、噪声模式或统计数据信息执行语音分离的方法。通过这种方式，即使在快速变化的噪声环境中也可以实现语音分离。

即，需要确认在视频内容中是否包含版权作品数据、或从原始视频内容中分离或移除版权作品数据、或将版权作品数据更改为免许可数据的操作。

但是，按照以往的视频编辑流程，存在编辑者需要在直接播放视频的同时确认上述操作的麻烦。考虑到最近在视频平台处理的数据量，存在通过用户需要手动检查版权作品数据的现有方法就难以检查足够量的视频内容的问题。

发明内容

技术问题

本发明的目的在于提供一种能够从任意音频流中提取音乐数据的数据处理装置及其控制方法。

此外，本发明的目的在于提供能够使用人工智能模型从不包括单独标记(label)、指示音频数据分类的标签或日志信息的任意音频流中判断是否存在音乐数据的数据处理装置及其控制方法。

并且，本发明的目的在于提供能够从由音频流和视频流构成的视频内容的原始文件中检测音乐数据，并从原始文件中删除检测到的音乐数据的数据处理装置及其控制方法。

另外，本发明的目的在于提供能够使用人工智能模型检测音频流中是否存在音乐数据，且能够检测音乐数据存在的时域的数据处理装置及其控制方法。

并且，本发明的目的在于提供能够判断在音频流中是否包含相当于版权作品的音乐数据的数据处理装置及其控制方法。

解决问题的方案

为了实现上述目的，本发明提供一种数据处理方法，该数据处理方法包括如下步骤：接收包括视频流和音频流的视频内容的输入；从上述音频流中检测音乐数据；及过滤上述音频流，以删除上述音频流中检测到的上述音乐数据。

发明的效果

根据本发明，即使用户不直接扫描视频内容也能够检测包含在视频内容中的音乐数据，因此可以提高编辑视频内容的用户的便利性。

此外，由于可以在短时间内针对大量视频内容检测到音乐数据，因此可以显着降低视频编辑成本。

另外，根据本发明，由于数据处理装置删除输入的视频内容中包括的对应于版权作品的音乐数据，或将其替换为代替音乐，因此可以提高视频内容的所有者或分发者的便利性。

附图说明

图1为与根据本发明的数据处理方法有关的概念图。

图2为示出根据本发明的数据处理装置的组件的框图。

图3为示出根据本发明的数据处理方法的一实施例的流程图。

图4为示出根据本发明的数据处理方法的一实施例的流程图。

具体实施方式

用于实施发明的最佳方式

一种数据处理方法，其特征在于，包括如下步骤：接收包括视频流和音频流的视频内容的输入；从上述音频流中检测音乐数据；及过滤上述音频流，以删除上述音频流中检测到的上述音乐数据。

用于实施发明的方式

在下文中，将结合附图对本说明书中所公开的实施例进行详细描述，应注意的是，本说明书中所使用的技术术语仅用于说明特定实施例，而不旨在限制本说明书所公开的技术思想。

首先，图1示出与根据本发明的数据处理方法有关的概念图。在下文中，视频内容1被定义为包括音频流2和视频流3的运动图像文件。此外，音频流可以由音乐数据和/或非音乐数据构成。

如本文所使用，术语“音乐”可指可由节奏(例如，拍子、节拍(meter)和发音(articulation))、音调(pitch)(例如，旋律和和声)、力度(dynamics)(例如，声音或音符的音量)等的一或多个元素表征且可包含乐器声音、人声等的任何类型的声音。另外，术语“版权作品”在本文中可指唯一或独特的音乐作品(musical work)或作曲(composition)，且可包含以声音或音频形式(例如，歌曲、曲调(tune)等)创建或再现上述音乐作品或作曲。另外，术语“音频流”可以是指表示可包含多首音乐作品、环境声音、语音、噪声等的声音流的一或多个部分的一或多个电信号或数据的序列。

参照图1，根据本发明的数据处理装置100可以通过扫描包括在视频内容中的音频流以辨别上述音频流中是否包括音乐数据。

具体而言，数据处理装置100可以使用外部服务器或安装在数据处理装置100中的人工智能模型来辨别音频流中是否包括音乐数据。在这种情况下，人工智能模型可以由执行深度学习或机器学习的人工神经网络构成。

图2为示出根据本发明的一实施例的数据处理装置的框图。参照图2，本发明的数据处理装置100包括输入单元110、输出单元120、存储器130、通信单元140、控制单元180和电源单元190。

更具体而言，在上述组件中，通信单元140可以包括实现数据处理装置100与无线通信系统之间、或数据处理装置100与另一数据处理装置100之间、或数据处理装置100与外部服务器之间的无线通信的一个或多个模块。此外，上述通信单元140可以包括用于将数据处理装置100连接到一个或多个网络的一个或多个模块。

输入单元110可以包括用于输入图像信号的照相机或图像输入单元、用于输入音频信号的麦克风(microphone)或音频输入单元、用于从用户接收信息输入的用户输入单元(例如，触摸键(touch key)、按键(机械键((mechanical key))等)。由输入单元110收集的语音数据或图像数据可以被分析，并通过用户的控制命令经过处理。

输出单元120用于产生与视觉、听觉或触觉相关联的输出，并且可以包括显示单元、音频输出单元、触觉模块及光输出单元中的至少一种。显示单元可以通过与触摸传感器构成相互层次结构或形成一体，从而能够实现触摸屏。上述的触摸屏用作提供数据处理装置100和用户之间的输入接口的用户输入装置的同时，还可提供数据处理装置100和用户之间的输出接口。

存储器130存储支持数据处理装置100的各种功能的数据。存储器130可以存储由数据处理装置100驱动的多个应用程序或应用以及用于数据处理装置100的操作的数据片段和命令。这些应用程序中的至少一部分可以通过无线通信从外部服务器下载。此外，为了数据处理装置100的基本功能(例如，接收到呼叫、发出呼叫、接收消息、发送消息等)，这些应用程序中的至少一部分可以从出厂时就存在于数据处理装置100上。另一方面，应用程序存储在存储器130中，设置在数据处理装置100上，并可以由控制单元180驱动以执行上述电子设备控制装置的操作(或功能)。

除了与上述应用程序相关的操作之外，控制单元180通常控制数据处理装置100的整体操作。控制单元180可以通过处理由前述说明中提及的各种组件输入或输出的信号、数据、信息等或者驱动存储在存储器130中的应用程序来提供或处理适合用户的信息或功能。

为了驱动存储在存储器130中的应用程序，控制单元180能够控制图2中所图示的组件中至少一部分。进而，为了驱动上述应用程序，控制单元180可以将数据处理装置100中包含的至少两个组件组合在一起来进行操作。

电源单元190在控制单元180的控制下接收外部电力或者内部电力，以对包括在数据处理装置100中的每个组件供应电力。上述电源单元190包括电池，并且上述电池可以被配置成嵌入在主体中，或者被配置成可从主体上拆卸。

各个上述组件中的至少一部分可以彼此协作操作以便于实现根据下面要描述的各种实施例的电子设备控制装置的操作、控制或控制方法。此外，上述电子设备控制装置的操作、控制或控制方法可通过存储在上述存储器130中的至少一个应用程序的驱动在电子设备控制装置中实现。

在一个示例中，数据处理装置100可以以单独终端的形式实现。也就是说，可以是台式电脑、数字电视等终端，也可以以能够移动的手机、笔记本电脑、PDA、平板电脑、笔记本电脑、可穿戴设备等移动终端的形式实现。

在下文中，将参照图3和图4描述本发明提出的基于人工智能的音乐数据过滤方法。

首先，输入单元110可以接收与包括音频流和视频流中的至少一种的视频内容有关的信息的输入(S300)。输入单元110也可以接收与音频流有关的信息的输入。

此外，通信单元140可以从外部服务器或外部终端接收与包括音频流和视频流中的至少一种的视频内容有关的信息。

即，视频内容或音频流可以是用户直接上传的文件，也可以是从外部服务器接收的文件。

控制单元180可以从在输入的视频内容中包含的音频流中检测音乐数据(S301)。如图4所示，检测上述音乐数据的步骤(S301)包括将音频流划分为音乐数据和语音数据的过程(S311)以及从上述音频流中检测存在音乐数据的片段的过程(S321)。

具体而言，将音频流划分为音乐数据和语音数据的过程(S311)可以通过预先训练的人工智能模型来执行。也就是说，控制单元180可以使用人工智能模型将输入的音频流划分为音乐数据和语音数据。

例如，上述人工智能模型可以接收音频流输入，并针对输入的音频流的每个预设单位片段分别输出对应于音乐数据的概率和对应于语音数据的概率。也就是说，控制单元180可以通过使用人工智能模型的输出来针对输入的音频流的每个单位片段辨别上述单位片段的音频是对应于音乐数据还是语音数据。

此时，控制单元180可以基于音频流的物理特性或视频内容的物理特性可变地设定上述单位片段。此外，控制单元180可以基于施加到输入单元110的用户输入来可变地设定单位片段。例如，上述用户输入可以与准确性、性能和处理速度中的至少一种相关。

在另一示例中，上述人工智能模型可以根据输入的音频流的序列，输出可变的能量分布。此时，能量分布可以与音频流的一部分是音乐的概率和/或音频流的一部分是语音的概率有关。

作为另一示例，控制单元180使用第一人工智能模型将输入的音频流划分为音乐数据和非音乐数据，并使用第三人工智能模型将划分的上述非音乐数据划分为语音数据和非语音数据。

此时，非语音数据是指不对应于人类语音的音频数据，例如，敲击声或动物叫声等。另外，第一人工智能模型可以是用于检测是否有音乐的人工神经网络，第三人工智能模型可以是用于辨别输入的音频是何种环境声音的人工神经网络。

当然，如果需要，可以对第一人工智能模型和第三人工智能模型进行整合配置，在这种情况下，整合的人工智能模型针对音频输入输出与包括音乐在内的多个类别或标记对应的概率值。

其次，控制单元180可以在顺序地移动(shift)目标片段的同时辨别上述目标片段中是否包括音乐。

例如，上述目标片段的长度可以被设定为1秒。此外，控制单元180可以在将目标片段移动0.5秒以使得当前片段和先前片段重叠，同时辨别目标片段中是否包括音乐。

与上述划分过程(S311)相比，检测过程(S321)的不同之处在于可以检测同时存在语音和音乐的片段。此外，控制单元180可以通过使用与用于执行划分过程(S311)的第一人工智能模型不同的第二人工智能模型来执行检测过程(S321)。

例如，在划分过程(S311)中使用的第一人工智能模型可以被配置为使用标记(labeling)为音乐数据和语音数据的训练数据来执行学习。

与此不同，在检测过程(S321)中使用的第二人工智能模型可以被配置为使用标记为包括音乐的数据和不包括音乐的数据的训练数据来执行学习。更具体而言，在检测过程(S321)中使用的第二人工智能模型可以被配置为使用标记为包括音乐的比例大于或等于参考值的数据、包括音乐的比例小于或等于参考值的数据以及根本不包括音乐的数据的训练数据来执行学习。

如上所述，控制单元180可以通过使用划分过程(S311)的执行结果和检测过程(S321)的执行结果中的至少一种从音频流中检测音乐数据。另一方面，当划分过程(S311)的精度大于或等于参考值时，控制单元180可以省略检测过程(S321)。

在一实施例中，控制单元180可以仅对在输入的音频流中通过划分过程(S311)区分为音乐的一部分执行上述检测过程(S321)。

在另一实施例中，控制单元180可基于输入音频流中通过划分过程(S311)输出的每个单位片段的概率来确定执行检测过程(S321)的目标。

在另一实施例中，与划分过程(S311)同样地，控制单元180也可以针对输入的整个音频流执行上述检测过程(S321)。

另一方面，控制单元180使用划分过程(S311)和检测过程(S321)中的至少一种来针对音频流的每个单位片段检测是否是音乐数据，然后基于检测结果的片段连续性，可以将音频流的一部分检测为音乐数据。

此外，控制单元180可以检测检测到的音乐数据的变奏模式，基于检测到的变奏模式将一个音乐数据划分为多个音乐数据。例如，当不同的音乐被连续流式传输并检测为一个音乐数据片段时，控制单元180可以通过监测音乐数据的变奏模式，将上述音乐数据划分为多个。

如上所述，当检测到音乐数据(S301)时，控制单元180可以以从音频流中去除检测到的上述音乐数据的方式对上述音频流执行过滤(S302)。

具体而言，控制单元180可以删除在音频流中被检测为音乐数据的一部分。

作为另一示例，控制单元180可以将在音频流中被检测为音乐数据的一部分改变为与上述音乐数据不同的替代音乐数据。

在一实施例中，控制单元180可以判断检测到的音乐数据是否相当于版权作品，并根据判断结果执行上述过滤步骤(S302)。也就是说，即使检测到音乐数据，若检测到的上述音乐数据不相当于版权作品，则控制单元180可以将其从过滤对象中排除。当从音频流中检测到多个不同的音乐数据时，控制单元180可以判断每个音乐数据是否为版权作品。

在执行过滤步骤S302的过程中，为了考虑是否为版权作品，数据处理装置100的存储器可以存储由与版权作品相关的信息组成的版权作品数据库。也就是说，控制单元180可以通过使用预先存储在存储器中的版权作品数据库来判断检测到的上述音乐数据是否为版权作品。此外，当判断检测到的音乐数据为版权作品时，控制单元180可以过滤音频流，从而删除上述音乐数据。

另一方面，控制单元180可以考虑检测到的音乐数据的特性来确定替代音乐数据。例如，上述特性可以与流派、气氛、作曲、节奏、音量及声源长度中的至少一种相关。

在一实施例中，控制单元180可以使用第四人工智能模型分析与检测到的音乐数据的流派和/或气氛有关的信息，并且可以基于分析结果选择替代音乐数据。

也就是说，控制单元180可以通过使用被设计为分析音乐的流派或气氛的第四人工智能模型来检测与检测到的音乐数据的流派和氛围中的至少一种相关的信息。尤其，第四人工智能模型可以被配置为通过标记为音乐是什么流派或什么气氛的训练数据来执行学习。在这种情况下，由第四人工智能模型得到的信息可以具有特征向量(Featurevector)的形式。

此外，控制单元180可以通过对替代音乐候选组的特征向量与检测到的音乐数据的特征向量进行比较来计算检测到的音乐数据和替代音乐候选组之间的相似度。此外，控制单元180可以基于计算的相似度选择多个替代音乐数据中的任一个，并将检测到的音乐数据改变为选择的替代音乐数据。

在另一实施例中，控制单元180可以基于检测到的音乐数据的音量大小来转换替代音乐数据。具体而言，控制单元180可以针对检测到的音乐数据计算每个重置单位片段的能量水平。例如，控制单元180可以将第二单位片段设定为比在划分过程(S311)中应用的第一单位片段更短的片段，并且计算针对每个上述第二单位片段检测到的音乐数据的能量水平。在一个示例中，第二单位片段可以是0.2秒。

控制单元180可以将由计算出的能级组成的向量定义的低通滤波器应用到替代音乐数据，并且将现有音乐数据改变为上述的应用结果。

另一方面，控制单元180可以分析与检测到的音乐数据对应的视频流的一部分，并且可以基于分析结果来确定替代音乐数据。

具体而言，控制单元180可以通过对上述视频流的一部分执行图像识别来识别至少一个对象，并且可以基于识别的对象的特征来确定替代音乐数据。此时，对象的特征可以包括对象的数量、每个对象的标记和对象的移动速度中的至少一种。

此外，控制单元180可以通过分析上述一部分的每个片段的颜色和颜色变化的程度来确定替代音乐数据。

此外，在执行过滤步骤(S302)之后，控制单元180可以输出过滤后的音频流(S303)。

根据本发明的数据处理装置100可以以存储在存储器中的文件的形式输出包括过滤后的音频流的视频内容，或者可以将视频内容直接输出到显示器。另一方面，数据处理装置100可以将过滤的音频流发送到外部服务器或外部终端。

例如，根据本发明的数据处理装置100可以安装在视频直播平台的服务器上。在这种情况下，当用户将视频内容上传到相关平台时，数据处理装置100对上传的视频内容进行过滤步骤(S302)，然后将过滤结果传输给平台控制装置，使得在平台上输出过滤结果。

在另一示例中，控制单元180可以控制输出单元120删除从原始音频流中检测到的音乐数据来输出包括改变的音频流的视频内容。此外，控制单元180可以与改变的视频内容一起输出与从原始音频流中删除音乐数据的片段有关的信息。

例如，可以输出与改变的视频内容文件分开的文本文件。在另一示例中，控制单元180可以通过使用由视频平台提供的日志来输出与音乐数据被删除的片段有关的信息，并控制在上述平台上输出改变的视频内容。

在另一示例中，控制单元180可以控制输出单元120基于检测到的音乐数据所在的片段解析(parsing)原始视频内容，并作为多个视频内容输出。

工业适用性

Claims

1.一种数据处理方法，其特征在于，包括如下步骤：

接收包括视频流和音频流的视频内容的输入；

从上述音频流中检测音乐数据；及

过滤上述音频流，以删除上述音频流中检测到的上述音乐数据。

2.根据权利要求1所述的数据处理方法，其特征在于，

从上述音频流中检测音乐数据的步骤包括用于将上述音频流划分为音乐数据和语音数据的划分过程以及用于从上述音频流中检测存在音乐数据的片段的检测过程。

3.根据权利要求2所述的数据处理方法，其特征在于，

上述划分过程由预先训练的第一人工智能模型执行，

上述第一人工智能模型被配置为使用识别为音乐或语音的训练数据进行学习。

4.根据权利要求2所述的数据处理方法，其特征在于，

上述检测过程由预先训练的第二人工智能模型执行，

上述第二人工智能模型被配置为使用预先识别是否包含音乐的训练数据进行学习。

5.根据权利要求1所述的数据处理方法，其特征在于，

过滤上述音频流的步骤包括基于检测到的上述音乐数据的版权信息判断检测到的上述音乐数据是否为版权作品的过程以及根据检测到的上述音乐数据是否为版权作品过滤上述音频流的过程。

6.根据权利要求1所述的数据处理方法，其特征在于，还包括将检测到的上述音乐数据变更为与上述音乐数据不同的替代音乐数据的步骤。