CN115735360A - 用于从视频内容中检测音乐数据的装置及其控制方法 - Google Patents
用于从视频内容中检测音乐数据的装置及其控制方法 Download PDFInfo
- Publication number
- CN115735360A CN115735360A CN202180036982.8A CN202180036982A CN115735360A CN 115735360 A CN115735360 A CN 115735360A CN 202180036982 A CN202180036982 A CN 202180036982A CN 115735360 A CN115735360 A CN 115735360A
- Authority
- CN
- China
- Prior art keywords
- data
- music data
- audio stream
- music
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 238000003672 processing method Methods 0.000 claims abstract description 13
- 238000013473 artificial intelligence Methods 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 39
- 238000004891 communication Methods 0.000 description 7
- 238000000926 separation method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
- H04N21/4627—Rights management associated to the content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
- H04N21/8113—Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Television Signal Processing For Recording (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
根据本发明的数据处理方法包括如下步骤:接收包括视频流和音频流的视频内容的输入;从上述音频流中检测音乐数据;及过滤上述音频流,以删除上述音频流中检测到的上述音乐数据。
Description
技术领域
本发明涉及一种混合有音乐和语音的音频数据的处理方法。
背景技术
声源分离技术将由各种声音构成的音频流按照特定的准则划分为多个音频数据。例如,声源分离技术可以用于从立体声音乐中仅提取歌手的声音,或者将用一个麦克风记录的两个或多个音频信号分别分离。此外,声源分离技术还可用于车辆、手机等的噪声消除。
最近,已经介绍了将人工智能引入声源分离技术的方法。代表性的是,有一种使用预先训练语音、噪声模式或统计数据信息执行语音分离的方法。通过这种方式,即使在快速变化的噪声环境中也可以实现语音分离。
另一方面,随着视频内容市场的发展,出现与包含在视频内容中的数据的版权相关的问题。尤其,在视频内容中包含未经版权所有者许可的音乐的情况下,相关视频内容的分发受到限制,因此,从视频内容中分离版权作品数据的需求日益增加。
即,需要确认在视频内容中是否包含版权作品数据、或从原始视频内容中分离或移除版权作品数据、或将版权作品数据更改为免许可数据的操作。
但是,按照以往的视频编辑流程,存在编辑者需要在直接播放视频的同时确认上述操作的麻烦。考虑到最近在视频平台处理的数据量,存在通过用户需要手动检查版权作品数据的现有方法就难以检查足够量的视频内容的问题。
发明内容
技术问题
本发明的目的在于提供一种能够从任意音频流中提取音乐数据的数据处理装置及其控制方法。
此外,本发明的目的在于提供能够使用人工智能模型从不包括单独标记(label)、指示音频数据分类的标签或日志信息的任意音频流中判断是否存在音乐数据的数据处理装置及其控制方法。
并且,本发明的目的在于提供能够从由音频流和视频流构成的视频内容的原始文件中检测音乐数据,并从原始文件中删除检测到的音乐数据的数据处理装置及其控制方法。
另外,本发明的目的在于提供能够使用人工智能模型检测音频流中是否存在音乐数据,且能够检测音乐数据存在的时域的数据处理装置及其控制方法。
并且,本发明的目的在于提供能够判断在音频流中是否包含相当于版权作品的音乐数据的数据处理装置及其控制方法。
解决问题的方案
为了实现上述目的,本发明提供一种数据处理方法,该数据处理方法包括如下步骤:接收包括视频流和音频流的视频内容的输入;从上述音频流中检测音乐数据;及过滤上述音频流,以删除上述音频流中检测到的上述音乐数据。
发明的效果
根据本发明,即使用户不直接扫描视频内容也能够检测包含在视频内容中的音乐数据,因此可以提高编辑视频内容的用户的便利性。
此外,由于可以在短时间内针对大量视频内容检测到音乐数据,因此可以显着降低视频编辑成本。
另外,根据本发明,由于数据处理装置删除输入的视频内容中包括的对应于版权作品的音乐数据,或将其替换为代替音乐,因此可以提高视频内容的所有者或分发者的便利性。
附图说明
图1为与根据本发明的数据处理方法有关的概念图。
图2为示出根据本发明的数据处理装置的组件的框图。
图3为示出根据本发明的数据处理方法的一实施例的流程图。
图4为示出根据本发明的数据处理方法的一实施例的流程图。
具体实施方式
用于实施发明的最佳方式
一种数据处理方法,其特征在于,包括如下步骤:接收包括视频流和音频流的视频内容的输入;从上述音频流中检测音乐数据;及过滤上述音频流,以删除上述音频流中检测到的上述音乐数据。
用于实施发明的方式
在下文中,将结合附图对本说明书中所公开的实施例进行详细描述,应注意的是,本说明书中所使用的技术术语仅用于说明特定实施例,而不旨在限制本说明书所公开的技术思想。
首先,图1示出与根据本发明的数据处理方法有关的概念图。在下文中,视频内容1被定义为包括音频流2和视频流3的运动图像文件。此外,音频流可以由音乐数据和/或非音乐数据构成。
如本文所使用,术语“音乐”可指可由节奏(例如,拍子、节拍(meter)和发音(articulation))、音调(pitch)(例如,旋律和和声)、力度(dynamics)(例如,声音或音符的音量)等的一或多个元素表征且可包含乐器声音、人声等的任何类型的声音。另外,术语“版权作品”在本文中可指唯一或独特的音乐作品(musical work)或作曲(composition),且可包含以声音或音频形式(例如,歌曲、曲调(tune)等)创建或再现上述音乐作品或作曲。另外,术语“音频流”可以是指表示可包含多首音乐作品、环境声音、语音、噪声等的声音流的一或多个部分的一或多个电信号或数据的序列。
参照图1,根据本发明的数据处理装置100可以通过扫描包括在视频内容中的音频流以辨别上述音频流中是否包括音乐数据。
具体而言,数据处理装置100可以使用外部服务器或安装在数据处理装置100中的人工智能模型来辨别音频流中是否包括音乐数据。在这种情况下,人工智能模型可以由执行深度学习或机器学习的人工神经网络构成。
图2为示出根据本发明的一实施例的数据处理装置的框图。参照图2,本发明的数据处理装置100包括输入单元110、输出单元120、存储器130、通信单元140、控制单元180和电源单元190。
更具体而言,在上述组件中,通信单元140可以包括实现数据处理装置100与无线通信系统之间、或数据处理装置100与另一数据处理装置100之间、或数据处理装置100与外部服务器之间的无线通信的一个或多个模块。此外,上述通信单元140可以包括用于将数据处理装置100连接到一个或多个网络的一个或多个模块。
输入单元110可以包括用于输入图像信号的照相机或图像输入单元、用于输入音频信号的麦克风(microphone)或音频输入单元、用于从用户接收信息输入的用户输入单元(例如,触摸键(touch key)、按键(机械键((mechanical key))等)。由输入单元110收集的语音数据或图像数据可以被分析,并通过用户的控制命令经过处理。
输出单元120用于产生与视觉、听觉或触觉相关联的输出,并且可以包括显示单元、音频输出单元、触觉模块及光输出单元中的至少一种。显示单元可以通过与触摸传感器构成相互层次结构或形成一体,从而能够实现触摸屏。上述的触摸屏用作提供数据处理装置100和用户之间的输入接口的用户输入装置的同时,还可提供数据处理装置100和用户之间的输出接口。
存储器130存储支持数据处理装置100的各种功能的数据。存储器130可以存储由数据处理装置100驱动的多个应用程序或应用以及用于数据处理装置100的操作的数据片段和命令。这些应用程序中的至少一部分可以通过无线通信从外部服务器下载。此外,为了数据处理装置100的基本功能(例如,接收到呼叫、发出呼叫、接收消息、发送消息等),这些应用程序中的至少一部分可以从出厂时就存在于数据处理装置100上。另一方面,应用程序存储在存储器130中,设置在数据处理装置100上,并可以由控制单元180驱动以执行上述电子设备控制装置的操作(或功能)。
除了与上述应用程序相关的操作之外,控制单元180通常控制数据处理装置100的整体操作。控制单元180可以通过处理由前述说明中提及的各种组件输入或输出的信号、数据、信息等或者驱动存储在存储器130中的应用程序来提供或处理适合用户的信息或功能。
为了驱动存储在存储器130中的应用程序,控制单元180能够控制图2中所图示的组件中至少一部分。进而,为了驱动上述应用程序,控制单元180可以将数据处理装置100中包含的至少两个组件组合在一起来进行操作。
电源单元190在控制单元180的控制下接收外部电力或者内部电力,以对包括在数据处理装置100中的每个组件供应电力。上述电源单元190包括电池,并且上述电池可以被配置成嵌入在主体中,或者被配置成可从主体上拆卸。
各个上述组件中的至少一部分可以彼此协作操作以便于实现根据下面要描述的各种实施例的电子设备控制装置的操作、控制或控制方法。此外,上述电子设备控制装置的操作、控制或控制方法可通过存储在上述存储器130中的至少一个应用程序的驱动在电子设备控制装置中实现。
在一个示例中,数据处理装置100可以以单独终端的形式实现。也就是说,可以是台式电脑、数字电视等终端,也可以以能够移动的手机、笔记本电脑、PDA、平板电脑、笔记本电脑、可穿戴设备等移动终端的形式实现。
在下文中,将参照图3和图4描述本发明提出的基于人工智能的音乐数据过滤方法。
首先,输入单元110可以接收与包括音频流和视频流中的至少一种的视频内容有关的信息的输入(S300)。输入单元110也可以接收与音频流有关的信息的输入。
此外,通信单元140可以从外部服务器或外部终端接收与包括音频流和视频流中的至少一种的视频内容有关的信息。
即,视频内容或音频流可以是用户直接上传的文件,也可以是从外部服务器接收的文件。
控制单元180可以从在输入的视频内容中包含的音频流中检测音乐数据(S301)。如图4所示,检测上述音乐数据的步骤(S301)包括将音频流划分为音乐数据和语音数据的过程(S311)以及从上述音频流中检测存在音乐数据的片段的过程(S321)。
具体而言,将音频流划分为音乐数据和语音数据的过程(S311)可以通过预先训练的人工智能模型来执行。也就是说,控制单元180可以使用人工智能模型将输入的音频流划分为音乐数据和语音数据。
例如,上述人工智能模型可以接收音频流输入,并针对输入的音频流的每个预设单位片段分别输出对应于音乐数据的概率和对应于语音数据的概率。也就是说,控制单元180可以通过使用人工智能模型的输出来针对输入的音频流的每个单位片段辨别上述单位片段的音频是对应于音乐数据还是语音数据。
此时,控制单元180可以基于音频流的物理特性或视频内容的物理特性可变地设定上述单位片段。此外,控制单元180可以基于施加到输入单元110的用户输入来可变地设定单位片段。例如,上述用户输入可以与准确性、性能和处理速度中的至少一种相关。
在另一示例中,上述人工智能模型可以根据输入的音频流的序列,输出可变的能量分布。此时,能量分布可以与音频流的一部分是音乐的概率和/或音频流的一部分是语音的概率有关。
作为另一示例,控制单元180使用第一人工智能模型将输入的音频流划分为音乐数据和非音乐数据,并使用第三人工智能模型将划分的上述非音乐数据划分为语音数据和非语音数据。
此时,非语音数据是指不对应于人类语音的音频数据,例如,敲击声或动物叫声等。另外,第一人工智能模型可以是用于检测是否有音乐的人工神经网络,第三人工智能模型可以是用于辨别输入的音频是何种环境声音的人工神经网络。
当然,如果需要,可以对第一人工智能模型和第三人工智能模型进行整合配置,在这种情况下,整合的人工智能模型针对音频输入输出与包括音乐在内的多个类别或标记对应的概率值。
其次,控制单元180可以在顺序地移动(shift)目标片段的同时辨别上述目标片段中是否包括音乐。
例如,上述目标片段的长度可以被设定为1秒。此外,控制单元180可以在将目标片段移动0.5秒以使得当前片段和先前片段重叠,同时辨别目标片段中是否包括音乐。
与上述划分过程(S311)相比,检测过程(S321)的不同之处在于可以检测同时存在语音和音乐的片段。此外,控制单元180可以通过使用与用于执行划分过程(S311)的第一人工智能模型不同的第二人工智能模型来执行检测过程(S321)。
例如,在划分过程(S311)中使用的第一人工智能模型可以被配置为使用标记(labeling)为音乐数据和语音数据的训练数据来执行学习。
与此不同,在检测过程(S321)中使用的第二人工智能模型可以被配置为使用标记为包括音乐的数据和不包括音乐的数据的训练数据来执行学习。更具体而言,在检测过程(S321)中使用的第二人工智能模型可以被配置为使用标记为包括音乐的比例大于或等于参考值的数据、包括音乐的比例小于或等于参考值的数据以及根本不包括音乐的数据的训练数据来执行学习。
如上所述,控制单元180可以通过使用划分过程(S311)的执行结果和检测过程(S321)的执行结果中的至少一种从音频流中检测音乐数据。另一方面,当划分过程(S311)的精度大于或等于参考值时,控制单元180可以省略检测过程(S321)。
在一实施例中,控制单元180可以仅对在输入的音频流中通过划分过程(S311)区分为音乐的一部分执行上述检测过程(S321)。
在另一实施例中,控制单元180可基于输入音频流中通过划分过程(S311)输出的每个单位片段的概率来确定执行检测过程(S321)的目标。
在另一实施例中,与划分过程(S311)同样地,控制单元180也可以针对输入的整个音频流执行上述检测过程(S321)。
另一方面,控制单元180使用划分过程(S311)和检测过程(S321)中的至少一种来针对音频流的每个单位片段检测是否是音乐数据,然后基于检测结果的片段连续性,可以将音频流的一部分检测为音乐数据。
此外,控制单元180可以检测检测到的音乐数据的变奏模式,基于检测到的变奏模式将一个音乐数据划分为多个音乐数据。例如,当不同的音乐被连续流式传输并检测为一个音乐数据片段时,控制单元180可以通过监测音乐数据的变奏模式,将上述音乐数据划分为多个。
如上所述,当检测到音乐数据(S301)时,控制单元180可以以从音频流中去除检测到的上述音乐数据的方式对上述音频流执行过滤(S302)。
具体而言,控制单元180可以删除在音频流中被检测为音乐数据的一部分。
作为另一示例,控制单元180可以将在音频流中被检测为音乐数据的一部分改变为与上述音乐数据不同的替代音乐数据。
在一实施例中,控制单元180可以判断检测到的音乐数据是否相当于版权作品,并根据判断结果执行上述过滤步骤(S302)。也就是说,即使检测到音乐数据,若检测到的上述音乐数据不相当于版权作品,则控制单元180可以将其从过滤对象中排除。当从音频流中检测到多个不同的音乐数据时,控制单元180可以判断每个音乐数据是否为版权作品。
在执行过滤步骤S302的过程中,为了考虑是否为版权作品,数据处理装置100的存储器可以存储由与版权作品相关的信息组成的版权作品数据库。也就是说,控制单元180可以通过使用预先存储在存储器中的版权作品数据库来判断检测到的上述音乐数据是否为版权作品。此外,当判断检测到的音乐数据为版权作品时,控制单元180可以过滤音频流,从而删除上述音乐数据。
另一方面,控制单元180可以考虑检测到的音乐数据的特性来确定替代音乐数据。例如,上述特性可以与流派、气氛、作曲、节奏、音量及声源长度中的至少一种相关。
在一实施例中,控制单元180可以使用第四人工智能模型分析与检测到的音乐数据的流派和/或气氛有关的信息,并且可以基于分析结果选择替代音乐数据。
也就是说,控制单元180可以通过使用被设计为分析音乐的流派或气氛的第四人工智能模型来检测与检测到的音乐数据的流派和氛围中的至少一种相关的信息。尤其,第四人工智能模型可以被配置为通过标记为音乐是什么流派或什么气氛的训练数据来执行学习。在这种情况下,由第四人工智能模型得到的信息可以具有特征向量(Featurevector)的形式。
此外,控制单元180可以通过对替代音乐候选组的特征向量与检测到的音乐数据的特征向量进行比较来计算检测到的音乐数据和替代音乐候选组之间的相似度。此外,控制单元180可以基于计算的相似度选择多个替代音乐数据中的任一个,并将检测到的音乐数据改变为选择的替代音乐数据。
在另一实施例中,控制单元180可以基于检测到的音乐数据的音量大小来转换替代音乐数据。具体而言,控制单元180可以针对检测到的音乐数据计算每个重置单位片段的能量水平。例如,控制单元180可以将第二单位片段设定为比在划分过程(S311)中应用的第一单位片段更短的片段,并且计算针对每个上述第二单位片段检测到的音乐数据的能量水平。在一个示例中,第二单位片段可以是0.2秒。
控制单元180可以将由计算出的能级组成的向量定义的低通滤波器应用到替代音乐数据,并且将现有音乐数据改变为上述的应用结果。
另一方面,控制单元180可以分析与检测到的音乐数据对应的视频流的一部分,并且可以基于分析结果来确定替代音乐数据。
具体而言,控制单元180可以通过对上述视频流的一部分执行图像识别来识别至少一个对象,并且可以基于识别的对象的特征来确定替代音乐数据。此时,对象的特征可以包括对象的数量、每个对象的标记和对象的移动速度中的至少一种。
此外,控制单元180可以通过分析上述一部分的每个片段的颜色和颜色变化的程度来确定替代音乐数据。
此外,在执行过滤步骤(S302)之后,控制单元180可以输出过滤后的音频流(S303)。
根据本发明的数据处理装置100可以以存储在存储器中的文件的形式输出包括过滤后的音频流的视频内容,或者可以将视频内容直接输出到显示器。另一方面,数据处理装置100可以将过滤的音频流发送到外部服务器或外部终端。
例如,根据本发明的数据处理装置100可以安装在视频直播平台的服务器上。在这种情况下,当用户将视频内容上传到相关平台时,数据处理装置100对上传的视频内容进行过滤步骤(S302),然后将过滤结果传输给平台控制装置,使得在平台上输出过滤结果。
在另一示例中,控制单元180可以控制输出单元120删除从原始音频流中检测到的音乐数据来输出包括改变的音频流的视频内容。此外,控制单元180可以与改变的视频内容一起输出与从原始音频流中删除音乐数据的片段有关的信息。
例如,可以输出与改变的视频内容文件分开的文本文件。在另一示例中,控制单元180可以通过使用由视频平台提供的日志来输出与音乐数据被删除的片段有关的信息,并控制在上述平台上输出改变的视频内容。
在另一示例中,控制单元180可以控制输出单元120基于检测到的音乐数据所在的片段解析(parsing)原始视频内容,并作为多个视频内容输出。
根据本发明,即使用户不直接扫描视频内容也能够检测包含在视频内容中的音乐数据,因此可以提高编辑视频内容的用户的便利性。
此外,由于可以在短时间内针对大量视频内容检测到音乐数据,因此可以显着降低视频编辑成本。
另外,根据本发明,由于数据处理装置删除输入的视频内容中包括的对应于版权作品的音乐数据,或将其替换为代替音乐,因此可以提高视频内容的所有者或分发者的便利性。
工业适用性
根据本发明,即使用户不直接扫描视频内容也能够检测包含在视频内容中的音乐数据,因此可以提高编辑视频内容的用户的便利性。
此外,由于可以在短时间内针对大量视频内容检测到音乐数据,因此可以显着降低视频编辑成本。
另外,根据本发明,由于数据处理装置删除输入的视频内容中包括的对应于版权作品的音乐数据,或将其替换为代替音乐,因此可以提高视频内容的所有者或分发者的便利性。
Claims (6)
1.一种数据处理方法,其特征在于,包括如下步骤:
接收包括视频流和音频流的视频内容的输入;
从上述音频流中检测音乐数据;及
过滤上述音频流,以删除上述音频流中检测到的上述音乐数据。
2.根据权利要求1所述的数据处理方法,其特征在于,
从上述音频流中检测音乐数据的步骤包括用于将上述音频流划分为音乐数据和语音数据的划分过程以及用于从上述音频流中检测存在音乐数据的片段的检测过程。
3.根据权利要求2所述的数据处理方法,其特征在于,
上述划分过程由预先训练的第一人工智能模型执行,
上述第一人工智能模型被配置为使用识别为音乐或语音的训练数据进行学习。
4.根据权利要求2所述的数据处理方法,其特征在于,
上述检测过程由预先训练的第二人工智能模型执行,
上述第二人工智能模型被配置为使用预先识别是否包含音乐的训练数据进行学习。
5.根据权利要求1所述的数据处理方法,其特征在于,
过滤上述音频流的步骤包括基于检测到的上述音乐数据的版权信息判断检测到的上述音乐数据是否为版权作品的过程以及根据检测到的上述音乐数据是否为版权作品过滤上述音频流的过程。
6.根据权利要求1所述的数据处理方法,其特征在于,还包括将检测到的上述音乐数据变更为与上述音乐数据不同的替代音乐数据的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0059429 | 2020-05-19 | ||
KR1020200059429 | 2020-05-19 | ||
PCT/KR2021/006244 WO2021235846A1 (ko) | 2020-05-19 | 2021-05-18 | 비디오 컨텐츠로부터 음악 데이터를 검출하는 장치 및 그의 제어방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115735360A true CN115735360A (zh) | 2023-03-03 |
Family
ID=78700370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180036982.8A Pending CN115735360A (zh) | 2020-05-19 | 2021-05-18 | 用于从视频内容中检测音乐数据的装置及其控制方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230217074A1 (zh) |
EP (1) | EP4156701A4 (zh) |
JP (1) | JP7534740B2 (zh) |
KR (1) | KR102372580B1 (zh) |
CN (1) | CN115735360A (zh) |
WO (1) | WO2021235846A1 (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005071090A (ja) * | 2003-08-25 | 2005-03-17 | Hideyoshi Tominaga | コンテンツ処理装置および配信システム |
CN1633690A (zh) * | 2002-02-20 | 2005-06-29 | 安濠声 | 存储无线电广播内容中的音乐部分的数字记录器及其方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002304185A (ja) | 2001-04-04 | 2002-10-18 | Video Research:Kk | 著作権管理システム、著作権管理方法及びプログラム |
JP5051237B2 (ja) * | 2007-10-19 | 2012-10-17 | 日本電気株式会社 | 不適切コンテンツ検出方法および装置、そのコンピュータプログラム、ならびにコンテンツ公開システム |
KR101027617B1 (ko) * | 2009-05-20 | 2011-04-11 | 주식회사 엔에스에이치씨 | 유해물 차단 서비스 시스템 및 방법 |
US9031243B2 (en) * | 2009-09-28 | 2015-05-12 | iZotope, Inc. | Automatic labeling and control of audio algorithms by audio recognition |
US9195431B2 (en) * | 2012-06-18 | 2015-11-24 | Google Inc. | System and method for selective removal of audio content from a mixed audio recording |
US10440431B1 (en) * | 2016-11-28 | 2019-10-08 | Amazon Technologies, Inc. | Adaptive and automatic video scripting |
KR102660124B1 (ko) * | 2018-03-08 | 2024-04-23 | 한국전자통신연구원 | 동영상 감정 학습용 데이터 생성 방법, 동영상 감정 판단 방법, 이를 이용하는 동영상 감정 판단 장치 |
-
2021
- 2021-04-26 KR KR1020210053988A patent/KR102372580B1/ko active IP Right Grant
- 2021-05-18 WO PCT/KR2021/006244 patent/WO2021235846A1/ko unknown
- 2021-05-18 EP EP21809047.0A patent/EP4156701A4/en active Pending
- 2021-05-18 JP JP2022570731A patent/JP7534740B2/ja active Active
- 2021-05-18 US US17/925,682 patent/US20230217074A1/en active Pending
- 2021-05-18 CN CN202180036982.8A patent/CN115735360A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1633690A (zh) * | 2002-02-20 | 2005-06-29 | 安濠声 | 存储无线电广播内容中的音乐部分的数字记录器及其方法 |
JP2005071090A (ja) * | 2003-08-25 | 2005-03-17 | Hideyoshi Tominaga | コンテンツ処理装置および配信システム |
Also Published As
Publication number | Publication date |
---|---|
WO2021235846A1 (ko) | 2021-11-25 |
JP2023530831A (ja) | 2023-07-20 |
EP4156701A4 (en) | 2024-05-22 |
EP4156701A1 (en) | 2023-03-29 |
JP7534740B2 (ja) | 2024-08-15 |
KR102372580B1 (ko) | 2022-03-10 |
US20230217074A1 (en) | 2023-07-06 |
KR20210143105A (ko) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503961B (zh) | 音频识别方法、装置、存储介质及电子设备 | |
CN110767209B (zh) | 语音合成方法、装置、系统和存储介质 | |
CN113590850A (zh) | 多媒体数据的搜索方法、装置、设备及存储介质 | |
CN113094552A (zh) | 视频模板的搜索方法、装置、服务器及可读存储介质 | |
CN110347866B (zh) | 信息处理方法、装置、存储介质及电子设备 | |
CN118098274A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN114817582A (zh) | 资源信息的推送方法和电子装置 | |
CN113674769A (zh) | 语音系统测试方法、装置、设备、介质及程序产品 | |
CN117610539A (zh) | 意图执行方法、装置、电子设备及存储介质 | |
CN117809655A (zh) | 音频处理方法、装置、设备及存储介质 | |
CN115735360A (zh) | 用于从视频内容中检测音乐数据的装置及其控制方法 | |
Abeßer et al. | Human and Machine Performance in Counting Sound Classes in Single-Channel Soundscapes | |
CN112201225B (zh) | 一种语料获取的方法、装置、可读存储介质和电子设备 | |
CN113469090B (zh) | 水质污染预警方法、装置及存储介质 | |
CN112261321B (zh) | 字幕处理方法、装置及电子设备 | |
CN113641902A (zh) | 音乐信息推送方法、装置、计算机设备及其存储介质 | |
CN113573096A (zh) | 视频处理方法、装置、电子设备及介质 | |
CN111046218A (zh) | 一种基于锁屏状态的音频获取方法、装置和系统 | |
KR102185784B1 (ko) | 음향 데이터 탐색 방법 및 장치 | |
EP4365888A1 (en) | Method and apparatus for processing audio data | |
CN117097775B (zh) | 一种基于人工智能的蓝牙播放控制系统及方法 | |
CN118155623B (zh) | 基于人工智能的语音识别方法 | |
CN118298250B (zh) | 数据智能标注方法及装置 | |
CN111429891B (zh) | 一种音频数据处理方法、装置、设备及可读存储介质 | |
CN111627095B (zh) | 表情生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231129 Address after: Delaware Applicant after: Coke Co.,Ltd. Address before: Floor 4, No. 6, 112th Street, Fengensi Road, Jiangnan District, Seoul, South Korea Applicant before: Coke Co.,Ltd. |
|
TA01 | Transfer of patent application right |