KR102273907B1 - Sound Information Judging Device by Frequency Analysis and Method Thereof - Google Patents
Sound Information Judging Device by Frequency Analysis and Method Thereof Download PDFInfo
- Publication number
- KR102273907B1 KR102273907B1 KR1020190096803A KR20190096803A KR102273907B1 KR 102273907 B1 KR102273907 B1 KR 102273907B1 KR 1020190096803 A KR1020190096803 A KR 1020190096803A KR 20190096803 A KR20190096803 A KR 20190096803A KR 102273907 B1 KR102273907 B1 KR 102273907B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- sound information
- sound
- frequency
- peak
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
Abstract
본 발명은 소리 정보 판단 장치 및 그 방법에 대한 것으로서, 보다 상세하게는 주파수를 분석하여 소리 정보가 노래, 연주 등과 같은 저작물인 음원인지를 판단하는 장치 및 그 방법에 대한 것이다. 본 발명의 일 측면에 따른 소리 정보 판단 장치는, 프로세서 및 프로세서에 전기적으로 연결되고, 분석 프로그램이 저장된 메모리를 포함하고, 분석 프로그램은, 프로세서의 실행 시에 소리정보가 수신되면, 소리정보를 미리 설정된 방법에 따라 분석하여 복수의 피크주파수들을 검출하고, 피크주파수를 미리 설정된 방법에 따라 분석하여 특징정보를 생성하고, 분석 프로그램을 통해 소리정보가 음원에 대한 것인지 여부를 판단하되, 특징정보를 이용하여 소리정보가 음원에 대한 것인지를 판단하는 인스트럭션들을 포함할 수 있다. 본 발명에 따르면, 방송 콘텐츠를 모니터링하여 음원 저작물의 방송 여부를 자동으로 판단할 수 있으므로 저작권료의 청구가 누락될 가능성이 매우 낮아질 수 있다. The present invention relates to an apparatus and method for determining sound information, and more particularly, to an apparatus and method for determining whether sound information is a sound source that is a work such as a song or performance by analyzing a frequency. The sound information determination apparatus according to an aspect of the present invention includes a processor and a memory electrically connected to the processor, in which an analysis program is stored, and the analysis program, when sound information is received when the processor is executed, receives sound information in advance Analyze according to a set method to detect a plurality of peak frequencies, generate characteristic information by analyzing the peak frequency according to a preset method, and determine whether the sound information is about a sound source through an analysis program, but use the characteristic information Thus, the sound information may include instructions for determining whether the sound information is about the sound source. According to the present invention, since it is possible to automatically determine whether a sound source work is broadcast by monitoring broadcast content, the possibility of omission of a claim for a copyright fee can be very low.
Description
본 발명은 소리 정보 판단 장치 및 그 방법에 대한 것으로서, 보다 상세하게는 주파수를 분석하여 입력된 소리 정보가 노래, 연주 등과 같은 저작물인 음원정보인지를 판단하는 장치 및 그 방법에 대한 것이다. The present invention relates to an apparatus and method for determining sound information, and more particularly, to an apparatus and method for determining whether input sound information is sound source information that is a work such as a song or performance by analyzing a frequency.
저작물은 인간의 사상 또는 감정을 표현한 창작물이다. 저작권은 저작물에 대한 배타적·독점적 권리이다. 노래, 연주 등과 같은 음원은 대표적인 저작물이다. 음원에 대한 저작권은 작곡가, 작사가, 편곡자, 실연자(음악을 연주하거나 노래를 부른 자) 및 음원 제작자가 서로 일정한 비율에 따라 그 지분을 나눠가지며, 저작권료 또한 그 지분에 알맞게 분배된다. 예를 들어, TV 등의 매체를 통해 저작권자들의 음원이 방송되는 경우에 해당 매체로 그 저작권료에 상응하는 비용이 청구된다. 같은 맥락으로, 영화나 드라마 등 저작권자들의 영상 또한 TV 등의 방송 매체를 통해 방송되는 경우 해당 매체로 그 저작권료에 상응하는 비용이 청구된다. A work is a creation that expresses human thoughts or feelings. Copyright is the exclusive and exclusive right to a work. Sound sources such as songs and performances are representative works. The copyright for the sound source is shared by the composer, the lyricist, the arranger, the performer (those who play music or sang the song) and the sound source producer in a certain proportion, and the copyright fee is also distributed appropriately. For example, when a sound source of copyright holders is broadcast through a medium such as TV, a fee corresponding to the copyright fee is charged to the medium. In the same vein, if images of copyright holders, such as movies or dramas, are also broadcast through broadcasting media such as TV, a cost corresponding to the copyright fee is charged to the media.
한편, 방송은 스마트폰의 개발과 더불어 TV나 라디오 등 종래의 대중매체뿐만 아니라 인터넷이나 스마트폰의 애플리케이션을 통해 제공되기도 한다. 최근에는 BJ(Broadcaster Jockey), 스트리머(Streamer), 유튜버(Youtuber) 및 크리에이터 등으로 명명된 개인들이 운영하는 개인 방송도 그 영향력이 증대되고 있다. On the other hand, with the development of smart phones, broadcasting is also provided through conventional mass media such as TV or radio, as well as the Internet or smartphone applications. Recently, personal broadcasting operated by individuals named BJ (Broadcaster Jockey), Streamer, YouTuber, and Creator, etc., is also gaining influence.
이처럼 TV 채널과 개인 방송이 폭발적으로 증가하기 때문에, 저작권자 또는 저작권을 관리하는 단체가 방송 콘텐츠를 모니터링하여 저작권료를 일일이 청구하는 것은 매우 어렵다. 따라서, 저작권료의 지불이 누락되는 경우가 빈번하게 발생된다. As the number of TV channels and individual broadcasts increases explosively, it is very difficult for the copyright holder or an organization that manages copyrights to monitor broadcast content and claim copyright fees individually. Accordingly, a case in which payment of the copyright fee is omitted frequently occurs.
상술한 문제점을 해결하기 위하여, 본 발명은 방송 콘텐츠를 모니터링하여 음원 저작물의 방송 여부를 자동으로 판단할 수 있는 소리 정보 판단 장치 및 그 방법을 제공하고자 한다. In order to solve the above problems, the present invention is to provide a sound information determination apparatus and method capable of automatically determining whether a sound source work is broadcast by monitoring broadcast content.
본 발명의 일 측면에 따르면, 프로세서; 및 상기 프로세서에 전기적으로 연결되고, 분석 프로그램이 저장된 메모리(단, 상기 분석 프로그램은 신경망 프로그램 또는 로짓 분석 프로그램 중 하나 이상임)를 포함하고, 상기 분석 프로그램은, 상기 프로세서의 실행 시에 소리정보가 수신되면, 상기 소리정보를 미리 설정된 방법에 따라 분석하여 복수의 피크주파수들을 검출하고, 상기 피크주파수를 미리 설정된 방법에 따라 분석하여 특징정보를 생성하고, 상기 분석 프로그램을 통해 상기 소리정보가 음원에 대한 것인지 여부를 판단하되, 상기 특징정보를 이용하여 상기 소리정보가 음원에 대한 것인지를 판단하는 인스트럭션들을 포함하되, 상기 분석 프로그램은 신경망 프로그램 또는 회기 분석 프로그램 중 하나 이상인, 소리 정보 판단 장치가 개시된다. According to one aspect of the present invention, a processor; and a memory electrically connected to the processor and storing an analysis program (provided that the analysis program is at least one of a neural network program or a logit analysis program), wherein the analysis program receives sound information when the processor is executed , the sound information is analyzed according to a preset method to detect a plurality of peak frequencies, and characteristic information is generated by analyzing the peak frequency according to a preset method, and the sound information is transmitted through the analysis program to the sound source. Determining whether or not, including instructions for determining whether the sound information is about a sound source by using the characteristic information, wherein the analysis program is at least one of a neural network program and a regression analysis program, a sound information determination apparatus is disclosed.
실시 예에 따라, 상기 메모리는, 상기 소리정보를 미리 설정된 방법에 따라 n개의 시간구간으로 분할하고(단, 상기 n은 2 이상의 자연수임), 상기 n개의 시간구간 각각에 대한 상기 복수의 피크주파수들을 검출하고, 상기 피크주파수의 주파수변화율을 미리 설정된 방법을 이용하여 산출하고, 상기 주파수변화율을 이용하여 상기 특징정보를 생성하는 인스트럭션들을 더 포함할 수 있다. According to an embodiment, the memory divides the sound information into n time sections according to a preset method (provided that n is a natural number equal to or greater than 2), and the plurality of peak frequencies for each of the n time sections The method may further include instructions for detecting a frequency change rate of the peak frequency using a preset method, and generating the characteristic information using the frequency change rate.
실시예에 따라, 상기 메모리는, 상기 피크주파수의 주파수변화율평균값을 산출하고, 상기 주파수변화율평균값을 결합하여 상기 특징정보를 생성하는 인스트럭션들을 더 포함할 수 있다. According to an embodiment, the memory may further include instructions for calculating an average value of the frequency change rate of the peak frequency and generating the characteristic information by combining the average value of the frequency change rate.
실시 예에 따라, 상기 주파수변화율평균값은 하기 수식에 의해 산출될 수 있다. According to an embodiment, the average value of the frequency change rate may be calculated by the following equation.
상기 A는 상기 n개의 각 시간구간 내에서 검출된 상기 복수의 피크주파수들의 개수에 상응하는 실수이고, 상기 i 및 상기 j는 복수의 피크주파수의 시간적 검출 순서에 상응하는 자연수이되, 상기 i는 상기 j보다 큰 자연수이고, 상기 는 i번째 피크주파수에 상응하는 상기 피크주파수의 크기이고, 상기 는 j번째 피크주파수에 상응하는 상기 피크주파수의 크기이고, 상기 는 i번째 피크주파수의 러닝타임이고, 상기 는 j번째 피크주파수의 러닝타임이다.A is a real number corresponding to the number of the plurality of peak frequencies detected within each of the n time intervals, wherein i and j are natural numbers corresponding to the temporal detection order of the plurality of peak frequencies, wherein i is the is a natural number greater than j, and is the magnitude of the peak frequency corresponding to the i-th peak frequency, and is the magnitude of the peak frequency corresponding to the j-th peak frequency, and is the running time of the i-th peak frequency, and is the running time of the j-th peak frequency.
실시 예에 따라, 상기 n개의 시간구간은 인접한 시간구간과 미리 설정된 비율로 오버랩 되도록 분할될 수 있다. According to an embodiment, the n time sections may be divided to overlap adjacent time sections at a preset ratio.
실시 예에 따라, 상기 분석 프로그램은, 상기 소리정보가 상기 음원에 대한 것으로 판단되면, 상기 소리정보에 상응하는 음원정보를 생성하는 인스트럭션들을 더 포함하되, 상기 음원정보는 출처정보, 저작권정보를 포함할 수 있다. According to an embodiment, the analysis program, if it is determined that the sound information is about the sound source, further comprising instructions for generating sound source information corresponding to the sound information, wherein the sound source information includes source information and copyright information can do.
본 발명의 다른 실시예에 따르면, 소리 정보 판단 장치에서 수행되는 소리 정보 판단 방법에 있어서, 소리정보가 수신되면, 상기 소리정보를 미리 설정된 방법에 따라 분석하여 복수의 피크주파수들을 검출하는 단계; 상기 피크주파수를 미리 설정된 방법에 따라 분석하여 특징정보를 생성하는 단계; 및 미리 저장된 신경망 프로그램 또는 회기 분석 프로그램을 통해 상기 특징정보를 이용하여 상기 소리정보가 음원에 대한 것인지를 판단하는 단계;를 포함하는, 소리 정보 판단 방법이 개시된다. According to another embodiment of the present invention, there is provided a sound information determination method performed by an apparatus for determining sound information, the method comprising: when sound information is received, analyzing the sound information according to a preset method to detect a plurality of peak frequencies; generating characteristic information by analyzing the peak frequency according to a preset method; and determining whether the sound information is about a sound source by using the feature information through a pre-stored neural network program or a regression analysis program.
실시예에 따라, 상기 특징정보를 생성하는 단계는, 상기 소리정보를 미리 설정된 방법에 따라 n개의 시간구간으로 분할하는 단계(단, 상기 n은 2 이상의 자연수임); 상기 n개의 시간구간 각각에 대한 상기 복수의 피크주파수들을 검출하는 단계; 상기 피크주파수의 주파수변화율을 미리 설정된 방법을 이용하여 산출하는 단계; 및 상기 주파수변화율을 이용하여 상기 특징정보를 생성하는 단계;를 포함할 수 있다. According to an embodiment, the generating of the feature information may include: dividing the sound information into n time sections according to a preset method (provided that n is a natural number equal to or greater than 2); detecting the plurality of peak frequencies for each of the n time intervals; calculating a frequency change rate of the peak frequency using a preset method; and generating the feature information using the frequency change rate.
실시예에 따라, 상기 주파수변화율을 이용하여 상기 특징정보를 생성하는 단계는, 상기 피크주파수의 주파수변화율평균값을 산출하는 단계; 및 상기 주파수변화율평균값을 결합하여 상기 특징정보를 생성하는 단계;를 포함할 수 있다. (중복 체크)According to an embodiment, the generating of the feature information using the frequency change rate may include calculating an average value of the frequency change rate of the peak frequency; and generating the characteristic information by combining the average value of the frequency change rate. (Duplicate check)
실시예에 따라, 상기 주파수변화율평균값을 산출하는 단계는, 하기 수식에 의해 상기 주파수변화율평균값을 산출하는 단계;를 포함할 수 있다. According to an embodiment, the calculating of the average value of the frequency change rate may include calculating the average value of the frequency change rate by the following equation.
상기 A는 상기 n개의 각 시간구간 내에서 검출된 상기 복수의 피크주파수들의 개수에 상응하는 실수이고, 상기 i 및 상기 j는 복수의 피크주파수의 시간적 검출 순서에 상응하는 자연수이되, 상기 i는 상기 j보다 큰 자연수이고, 상기 는 i번째 피크주파수에 상응하는 상기 피크주파수의 크기이고, 상기 는 j번째 피크주파수에 상응하는 상기 피크주파수의 크기이고, 상기 는 i번째 피크주파수의 러닝타임이고, 상기 는 j번째 피크주파수의 러닝타임일 수 있다.A is a real number corresponding to the number of the plurality of peak frequencies detected within each of the n time intervals, wherein i and j are natural numbers corresponding to the temporal detection order of the plurality of peak frequencies, wherein i is the is a natural number greater than j, and is the magnitude of the peak frequency corresponding to the i-th peak frequency, and is the magnitude of the peak frequency corresponding to the j-th peak frequency, and is the running time of the i-th peak frequency, and may be the running time of the j-th peak frequency.
실시예에 따라, 상기 n개의 시간구간으로 분할하는 단계는, 상기 소리정보를 상기 n개의 시간구간으로 분할하되, 인접한 시간구간은 미리 설정된 비율로 오버랩되도록 분할되는 단계;를 포함할 수 있다. According to an embodiment, the dividing into the n time sections may include dividing the sound information into the n time sections, and dividing adjacent time sections to overlap at a preset ratio.
실시예에 따라, 상기 소리 정보 판단 방법은, 상기 소리정보가 상기 음원에 대한 것으로 판단되면, 상기 소리정보에 상응하는 음원정보를 생성하는 단계; 를 더 포함하되, 상기 음원정보는 출처정보, 저작권정보를 포함할 수 있다. According to an embodiment, the method for determining sound information may include: when it is determined that the sound information relates to the sound source, generating sound source information corresponding to the sound information; Further comprising, the sound source information may include source information and copyright information.
본 발명에 따르면, 방송 콘텐츠를 모니터링하여 음원 저작물의 방송 여부를 자동으로 판단할 수 있으므로 저작권료의 청구가 누락될 가능성이 매우 낮아질 수 있다. According to the present invention, since it is possible to automatically determine whether a sound source work is broadcast by monitoring broadcast content, the possibility of omission of a claim for a copyright fee can be very low.
도 1은 본 발명의 일 실시예에 따른 소리 정보 판단 장치에 대한 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 소리정보 판단 방법에 대한 순서도이다.
도 3은 본 발명의 일 실시예에 따라 소리정보가 미리 설정된 시간구간으로 분할되는 경우를 예시한 도면이다.
도 4는 본 발명의 일 실시예에 따라 제1 시간구간에 상응하는 주파수변화율평균값이 생성되는 경우를 예시한 도면이다.
도 5는 본 발명의 일 실시예에 따라 생성된 특징정보를 예시한 도면이다.
도 6은 본 발명의 일 실시예에 따라 소리 정보를 판단하기 위한 신경망 프로그램을 학습시키는 방법에 대한 순서도이다. 1 is a block diagram of an apparatus for determining sound information according to an embodiment of the present invention.
2 is a flowchart of a method for determining sound information according to an embodiment of the present invention.
3 is a diagram illustrating a case in which sound information is divided into preset time sections according to an embodiment of the present invention.
4 is a diagram illustrating a case in which an average value of a frequency change rate corresponding to a first time period is generated according to an embodiment of the present invention.
5 is a diagram illustrating characteristic information generated according to an embodiment of the present invention.
6 is a flowchart of a method for learning a neural network program for determining sound information according to an embodiment of the present invention.
본 발명은 음향에 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.Since the present invention can apply various transformations to sound and can have various embodiments, specific embodiments are illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to specific embodiments, and it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. In describing the present invention, if it is determined that a detailed description of a related known technology may obscure the gist of the present invention, the detailed description thereof will be omitted.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. Terms such as first, second, etc. may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다. The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise. In the present application, terms such as “comprise” or “have” are intended to designate that a feature, number, step, operation, component, part, or combination thereof described in the specification exists, but one or more other features It should be understood that this does not preclude the existence or addition of numbers, steps, operations, components, parts, or combinations thereof. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 소리 정보 판단 장치에 대한 블록 구성도이다.1 is a block diagram of an apparatus for determining sound information according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 일 실시예에 따른 소리 정보 판단 장치(100)는 수신부(110), 프로세서(120) 및 메모리(130)를 포함할 수 있다. 메모리(130)는 프로세서(120)의 실행 시에 소리정보의 음원 여부를 판단할 수 있도록 하는 분석 프로그램(인스트럭션)에 해당하는 모듈들, 즉 특징값추출모듈(140), 분석모듈(150) 및 판단모듈(160)을 포함할 수 있다. 또한 소리 정보 판단 장치(100)의 수신부(110)는 마이크(170) 및/또는 콘텐츠DB(180) 등과 연결될 수 있다. 도 1의 예시에서는 마이크(170) 및/또는 콘텐츠DB(180)가 소리 정보 판단 장치(100)와 별개의 장치인 것으로 도시되었으나, 마이크(170) 및/또는 콘텐츠DB(180)는 소리 정보 판단 장치(100)에 내장된 구성일 수도 있다. Referring to FIG. 1 , an
수신부(110)는 소리정보를 수신하는 구성일 수 있다. 수신부(110)는 통신 모뎀, USB 포트 등을 포함할 수 있다. 예를 들어, 수신부(110)는 마이크(170)와 유선 또는 무선으로 연결되어 마이크(170)를 통해 소리정보를 수신할 수 있다. 다른 예를 들어, 수신부(110)는 콘텐츠DB(180)와 인터넷, USB 케이블, 근거리 무선통신 등을 통해 연결되어 소리정보를 수신할 수 있다. The
여기서 소리정보는 소리에 대한 정보가 포함된 콘텐츠를 의미할 수 있다. 예를 들어, 소리정보는 이미지와 소리가 모두 포함된 동영상콘텐츠일 수 있다(ex 확장자가 avi, mpg인 파일 등). 다른 예를 들어, 소리정보는 소리에 대한 정보만 포함된 사운드콘텐츠일 수 있다(ex 확장자가 wav, mp3인 파일 등). Here, the sound information may mean content including information on sound. For example, the sound information may be video content including both an image and a sound (eg, files with extension avi or mpg, etc.). As another example, the sound information may be sound content including only sound information (eg files with extension wav, mp3, etc.).
수신부(110)는 수신된 소리정보를 프로세서(120)로 출력할 수 있다. The
프로세서(120)는 메모리(130)에 저장된 분석 프로그램을 이용하여 소리정보를 분석할 수 있다. 즉, 분석 프로그램은 소리정보를 분석하기 위한 인스트럭션들을 포함할 수 있고, 프로세서(120)는 이들 인스트럭션을 이용하여 입력된 소리정보가 저작물인 음원에 대한 정보인지, 아니면 저작물이 아닌 단순 소리에 대한 정보인지 판단할 수 있다. 이하, 프로세서(120)가 소리정보를 분석하는 동작에 대해 구체적으로 설명한다. The
프로세서(120)는 특징값추출모듈(140)에 저장된 인스트럭션을 이용하여 소리정보의 특징값을 추출할 수 있다. 예를 들어, 특징값추출모듈(140)에는 소리정보의 시간 흐름에 따른 주파수 변화를 검출할 수 있도록 하는 인스트럭션들이 저장되어 있을 수 있고, 프로세서(120)는 특징값추출모듈(140)의 인스트럭션들을 이용하여 소리정보의 특징정보를 추출할 수 있다(특징정보가 소리정보에서 어떻게 추출되는 것인지는 도 2 등을 참조하여 후술한다).The
또한, 프로세서(120)는 분석모듈(150)에 저장된 인스트럭션을 이용하여, 소리정보의 특징정보를 통해 당해 소리정보가 저작물인 음원에 대한 정보인지, 아니면 저작물이 아닌 단순 소리에 대한 정보인지 분석할 수 있다. 이때 분석모듈(150)에는 신경망 프로그램(예를 들어, 딥러닝 중 CNN(Convolution Neural Network)) 또는 로짓(Logit) 분석 프로그램중 하나 이상을 포함할 수 있다. In addition, the
또한, 프로세서(120)는 소리정보가 음원인 것으로 판단되면, 당해 소리정보에 상응하는 음원정보를 생성할 수 있다. 여기서 음원정보는 소리정보의 사용 출처에 대한 정보(이하, '출처정보'라 칭함) 및 저작권에 대한 정보(이하, '저작권정보'라 칭함)를 포함할 수 있다. 출처정보는 당해 음원이 방송된 채널번호, 방송국, 방송 시간 등에 대한 정보를 포함할 수 있다. 저작권정보는 당해 음원에 대한 명칭, 작곡가정보, 작사가정보, 연주자정보 등을 포함할 수 있다. Also, when it is determined that the sound information is a sound source, the
이하 도 2 내지 도 6을 참조하여 프로세서(120)가 소리정보에 특징정보를 추출하고, 소리정보에 상응하는 음원정보를 생성하는 동작에 대해 구체적으로 설명한다. Hereinafter, an operation in which the
도 2는 본 발명의 일 실시예에 따른 소리정보 판단 방법에 대한 순서도이다. 2 is a flowchart of a method for determining sound information according to an embodiment of the present invention.
먼저, 프로세서(120)는 특징값추출모듈(140)에 포함된 인스트럭션들을 이용하여 소리정보의 특징정보를 생성할 수 있다. 이를 위하여 단계 S210에서, 프로세서(120)는 수신된 소리정보를 미리 설정된 방법에 따라 n개의 시간구간으로 분할할 수 있다(단, n은 2 이상의 자연수임). 이하 도 3을 참조하여 소리정보가 n개의 시간구간으로 분할되는 경우에 대해 구체적으로 설명한다. First, the
도 3은 본 발명의 일 실시예에 따라 소리정보가 미리 설정된 시간구간으로 분할되는 경우를 예시한 도면이다. 3 is a diagram illustrating a case in which sound information is divided into preset time sections according to an embodiment of the present invention.
도 3을 참조하면, 소리정보가 9개의 시간구간으로 분할되는 경우가 예시된다. 또한 각 시간구간은 미리 설정된 비율로 오버랩되도록 분할될 수 있다. 도 3의 예시에서, 소리정보는 러닝타임 11[sec]의 콘텐츠일 수 있고, 당해 소리정보는 9개의 시간 구간으로 분할될 수 있으며, 각 시간구간의 러닝타임은 3[sec]일 수 있다. 각 시간구간은 인접한 시간구간과 66.6[%] 오버랩되도록 분할될 수 있다. Referring to FIG. 3 , a case in which sound information is divided into nine time sections is exemplified. In addition, each time period may be divided to overlap at a preset ratio. In the example of FIG. 3 , the sound information may be content with a running time of 11 [sec], the sound information may be divided into 9 time sections, and the running time of each time section may be 3 [sec]. Each time interval can be divided to overlap an adjacent time interval by 66.6 [%].
도 3에서, 소리정보의 러닝타임, 시간구간의 개수, 시간구간의 러닝타임 및 인접한 시간구간과 오버랩되는 비율 등은 예시에 불과하므로 이들 수치에 의하여 본 발명의 권리범위가 제한될 수 없다. In FIG. 3, the running time of sound information, the number of time sections, the running time of the time section, and the overlapping ratio with the adjacent time section are merely examples, so the scope of the present invention cannot be limited by these figures.
다시 도 2를 참조하면, 단계 S220에서, 프로세서(120)는 미리 설정된 방법에 따라 각 시간구간에 상응하는 하나 이상의 피크주파수를 검출할 수 있다. Referring back to FIG. 2 , in step S220 , the
여기서 피크주파수는 당해 시간구간에 대한 푸리에 변환 계수 중 주변 주파수보다 계수가 큰 주파수를 의미할 수 있다. 예를 들어, 프로세서(120)는 특징값추출모듈의 인스트럭션들을 이용하여 임의의 시간구간에 상응하는 소리정보를 푸리에 변환하되, 소리정보를 미리 설정된 시간 m을 주기로 샘플링한 후, 샘플링된 신호에 대한 푸리에 변환(sampled Fourier transform)을 수행할 수 있다(단, m은 미리 설정된 양의 실수임). 즉, 프로세서(120)는 임의의 시간 구간이 시작되고 m[sec]이 경과된 시점, 2m[sec]이 경과된 시점, 3m[sec]이 경과된 시점 내지 p*m[sec]이 경과된 시점(단, 미리 설정된 p는 자연수임)에서 푸리에 변환(sampled Fourier transform)을 수행할 수 있다. Here, the peak frequency may mean a frequency having a higher coefficient than the surrounding frequency among the Fourier transform coefficients for the time interval. For example, the
또한, 프로세서(120)는 상기 샘플드 푸리에 변환(sampled Fourier transform)에 의해 도출되는 각 주파수의 계수 중 인접된 다른 주파수의 계수보다 큰 계수에 상응하는 주파수를 피크주파수로 검출할 수 있다. 즉, 상술한 예시에서, m[sec]이 경과된 시점에서 제2 주파수 f2[Hz]의 푸리에 변환 계수가 바로 인접한 제1 주파수 f1[Hz] 및 제3 주파수 f3[Hz]의 푸리에 변환 계수보다 큰 경우, f2[Hz]를 피크주파수로 검출할 수 있다. Also, the
임의의 시간구간이 샘플드 푸리에 변환(sampled Fourier transform)되는 동작은 통상의 기술자에 의하여 자명한 사항이므로 이에 대한 구체적인 설명은 생략될 수 있다. 또한, 인근 주파수 중 푸리에 계수가 가장 큰 주파수를 피크주파수로 검출하는 동작도 통상의 기술자에 의하여 자명한 사항이므로 이에 대한 구체적인 설명은 생략될 수 있다.An operation in which an arbitrary time interval is subjected to a sampled Fourier transform is obvious to those skilled in the art, and thus a detailed description thereof may be omitted. In addition, since the operation of detecting the frequency having the largest Fourier coefficient among the neighboring frequencies as the peak frequency is also obvious to a person skilled in the art, a detailed description thereof may be omitted.
다시 도 2를 참조하면, 단계 S230에서, 프로세서(120)는 미리 설정된 방법에 따라 동일 시간구간에서 검출된 피크주파수에 상응하는 주파수변화율평균값을 산출할 수 있다. 여기서 주파수변화율평균값은 미리 설정된 방법에 따라 생성된 주파수변화율의 평균값에 대한 것으로서, 이에 대한 구체적인 생성 방법은 도 4를 참조하여 설명한다. Referring back to FIG. 2 , in step S230 , the
도 4는 본 발명의 일 실시예에 따라 제1 시간구간에 상응하는 주파수변화율평균값이 생성되는 경우를 예시한 도면이다. 4 is a diagram illustrating a case in which an average value of a frequency change rate corresponding to a first time period is generated according to an embodiment of the present invention.
도 4에는, 소리정보에 대한 복수의 시간구간 중 제1 시간구간에 대해 주파수변화율평균값이 생성되는 경우가 예시되어 있다. 프로세서(120)는 제1 시간구간에 상응하는 소리정보에 대하여 m[sec]을 주기로 m1[sec], m2[sec], m3[sec], m4[sec]에 각각 샘플드 푸리에 변환을 수행할 수 있다. 4 exemplifies a case in which an average value of the frequency change rate is generated for a first time section among a plurality of time sections for sound information. The
또한 프로세서(120)는 m1[sec]에 상응하는 샘플드 푸리에 변환(sampled Fourier transform)의 계수들을 이용하여 피크주파수를 검출할 수 있다. 도 4에서는 m1[sec]에 상응하는 피크주파수로서 제4 주파수(f4, 410) 및 제2 주파수(f2, 420)가 검출 경우가 예시된다. 또한, 도 4에서는 m2[sec]에 상응하는 피크주파수로서 제3 주파수(f3, 430)가 검출 경우가 예시된다. 또한, 도 4에서는 m3[sec]에 상응하는 피크주파수로서 제5 주파수(f5, 440), 제4 주파수(f4, 450) 및 제1 주파수(f1, 460)가 검출 경우가 예시된다. 또한, 도 4에서는 m4[sec]에 상응하는 피크주파수로서 제3 주파수(f3, 470) 및 제2 주파수(f2, 480)가 검출 경우가 예시된다(단, 상기 f1 내지 f5는 양의 실수임). In addition, the
이후 프로세서(120)는 미리 설정된 방법에 따라 각 시점에 대한 주파수변화율을 산출할 수 있다. 여기서 주파수변화율은 시간의 흐름에 따라 주파수가 변화하는 정도에 대한 값으로서, 다음과 같은 수식(1)에 의해 산출될 수 있다. Thereafter, the
....................................................................................수식(1) …………………………………………………… ...............................Equation (1)
여기서, 상기 i 및 상기 j는 복수의 피크주파수의 시간적 검출 순서에 상응하는 자연수이되, 상기 i는 상기 j보다 큰 자연수이고, 상기 는 i번째 피크주파수에 상응하는 상기 피크주파수의 크기이고, 상기 는 j번째 피크주파수에 상응하는 상기 피크주파수의 크기일 수 있다. 또한, 피크주파수의 크기는 피크주파수에 상응하는 샘플드 푸리에 변환(sampled Fourier transform)의 계수일 수 있다. 여기서, 분모 부분은 샘플링 주기에 상응하는 값일 수 있으므로 미리 설정된 상수로 대체될 수도 있을 것이다. Here, i and j are natural numbers corresponding to the temporal detection order of a plurality of peak frequencies, wherein i is a natural number greater than j, and is the magnitude of the peak frequency corresponding to the i-th peak frequency, and may be the magnitude of the peak frequency corresponding to the j-th peak frequency. Also, the magnitude of the peak frequency may be a coefficient of a sampled Fourier transform corresponding to the peak frequency. Here, since the denominator part may be a value corresponding to the sampling period, it may be replaced with a preset constant.
도 4의 예시에서, 프로세서(120)는 m1[sec] 및 m2[sec]의 피크주파수의 변화율을 구하면 아래와 같다. In the example of FIG. 4 , the
(1) f4 와 f3 간의 변화율 = (1) rate of change between f4 and f3 =
여기서, k4는 f4(410)에 상응하는 푸리에 계수이고, k3는 f3(430)에 상응하는 푸리에 계수일 수 있다. Here, k4 may be a Fourier coefficient corresponding to f4(410), and k3 may be a Fourier coefficient corresponding to f3(430).
(2) f2 와 f3 간의 변화율 = (2) rate of change between f2 and f3 =
여기서, k2는 f2(420)에 상응하는 푸리에 계수이고, k3는 f3(430)에 상응하는 푸리에 계수일 수 있다.Here, k2 may be a Fourier coefficient corresponding to f2 ( 420 ), and k3 may be a Fourier coefficient corresponding to f3 ( 430 ).
마찬가지 방법에 의해, 프로세서(120)는 m2[sec] 및 m3[sec]의 피크주파수의 변화율과 m3[sec] 및 m4[sec]의 피크주파수의 변화율도 산출할 수 있다. 도 4의 예시에서 피크주파수는 m1에서 2개, m2에서 1개, m3에서 3개 및 m4에서 2개 검출되었으므로, 프로세서(120)는 총11개의 주파수 변화율을 산출할 수 있다. 즉, m1 및 m2와의 관계에서 2개의 변화율을, m2 및 m3와의 관계에서 3개의 변화율을, m3 및 m4와의 관계에서 6개의 변화율을 산출할 수 있는 것이다. By the same method, the
이하, "피크주파수에 대한 변화율"이 가지는 의미에 대해 간단히 설명한다. Hereinafter, the meaning of "rate of change with respect to peak frequency" will be briefly described.
사람의 성대를 이용해 소리를 생성하는 음성의 주파수는 급격한 변화를 보이는 특성을 띠고 있다. 반면 악기를 이용해 소리를 생성하는 음악은 주파수의 변화가 제한적인 특성을 보인다. 이처럼 음악과 음성은 주파수 변화에서 다른 측면을 보이기 때문에 주파수 변화율을 이용하여 두 소리를 구분할 수 있다. 즉, 음성에 대한 소리정보인 경우 시간의 변화에 따라 주파수 변화율이 클 것이며, 음악에 대한 소리정보인 경우 시간이 변화해도 주파수 변화율이 크지 않을 것이다. The frequency of the voice that generates sound using the human vocal cords has a characteristic of showing a sudden change. On the other hand, music that uses an instrument to generate sound has a limited change in frequency. As such, music and voice show different aspects in frequency change, so the two sounds can be distinguished using the frequency change rate. That is, in the case of sound information about voice, the frequency change rate will be large according to time change, and in the case of sound information about music, the frequency change rate will not be large even if time changes.
또한 소리는 시간에 걸쳐서 변화하는 특성을 띤다. 일반적으로 음악의 경우 시간의 흐름에도 주파수 변화가 일정한 패턴을 보이는 특징이 있다. 반면 음성은 수많은 발음을 구분이 가능하도록 시간의 흐름에 따른 주파수 변화가 큰 경향이 있다. 따라서 소리정보의 시간의 흐름에 따른 주파수 변화를 파악하여 음성과 음악을 구분할 수 있는 것이다. Also, sound has a characteristic that changes over time. In general, in the case of music, there is a characteristic that the frequency change shows a constant pattern even with the passage of time. On the other hand, voice tends to have a large frequency change over time so that numerous pronunciations can be distinguished. Therefore, it is possible to distinguish between voice and music by understanding the frequency change according to the passage of time of sound information.
이때 주파수 변화율을 소리정보의 모든 시간 및 주파수에서 계산하는 것은 많은 정보를 요구하고 잡음에 민감해지는 문제를 보인다. 따라서 본 발명은 m을 주기로 샘플링된 소리정보를 푸리에 변환하여 피크주파수를 검출하고, 피크주파수의 변화율을 산출하여 음악과 음성을 구분하는 방법에 대한 것이다. At this time, calculating the frequency change rate at all times and frequencies of sound information requires a lot of information and shows a problem of becoming sensitive to noise. Accordingly, the present invention relates to a method for detecting a peak frequency by Fourier transforming sound information sampled with a period of m, and calculating a change rate of the peak frequency to distinguish music from voice.
한편, 프로세서(120)는 주파수 변화율을 이용하여 아래의 수식(2)에 의해 주파수변화율평균값을 산출할 수 있다. Meanwhile, the
...................................................................수식(2) …………………………………………………… .................. Equation (2)
여기서, A는 n개의 각 시간구간 내에서 검출된 복수의 피크주파수들의 개수에 상응하는 실수로서, 검출된 피크주파수에 상응하는 주파수변화율의 개수일 수 있고, i 및 j는 복수의 피크주파수의 시간적 검출 순서에 상응하는 자연수이되, i는 j보다 큰 자연수이고, 는 i번째 피크주파수에 상응하는 피크주파수의 크기이고, 는 j번째 피크주파수에 상응하는 피크주파수의 크기이고, 는 i번째 피크주파수의 러닝타임이고, 는 j번째 피크주파수의 러닝타임일 수 있다. 수식(2)에서도 분모 부분은 샘플링 주기에 상응하는 값일 수 있으므로 미리 설정된 상수로 대체될 수 있을 것이다. Here, A is a real number corresponding to the number of a plurality of peak frequencies detected in each of n time sections, and may be the number of frequency change rates corresponding to the detected peak frequencies, and i and j are the temporal times of the plurality of peak frequencies. A natural number corresponding to the detection order, wherein i is a natural number greater than j, is the magnitude of the peak frequency corresponding to the i-th peak frequency, is the magnitude of the peak frequency corresponding to the j-th peak frequency, is the running time of the i-th peak frequency, may be the running time of the j-th peak frequency. Also in Equation (2), since the denominator part may be a value corresponding to the sampling period, it may be replaced with a preset constant.
도 4의 예시에서, 프로세서(120)는 m1[sec] 내지 m4[sec]의 피크주파수의 주파수변화율 총 11개를 합산한 후, 11(즉, A=11)로 나누어 주파수변화율평균값을 산출할 수 있을 것이다.In the example of FIG. 4 , the
다시 도 2를 참조하면, 단계 S240에서, 프로세서(120)는 산출된 n개의 주파수변화율평균값을 이용하여 당해 소리정보에 대한 제1 특징정보를 생성할 수 있다. 즉, 도 4를 참조하여 설명한 방법에 따라, 프로세서(120)는 제1 시간구간에 상응하는 주파수변화율평균값을 산출할 수 있고, 동일 또는 유사한 방법에 따라 제2 시간구간 내지 제n 시간구간 각각에 상응하는 주파수변화율평균값을 산출할 수 있다. 프로세서(120)는 산출된 n개의 주파수변화율평균값을 이용하여 제1 특징정보를 생성할 수 있다. 도 5에는 이러한 방법에 따라 생성된 제1 특징정보가 예시되어 있다. Referring back to FIG. 2 , in step S240 , the
도 5는 본 발명의 일 실시예에 따라 생성된 특징정보를 예시한 도면이다. 5 is a diagram illustrating characteristic information generated according to an embodiment of the present invention.
도 5에는, 임의의 소리정보에 대한 특징정보가 예시되어 있다. 당해 소리정보는 9개의 시간구간으로 분할되었고, 미리 설정된 방법에 의해 9개의 시간구간 각각에 대한 주파수변화율평균값이 산출되어 있다. 따라서 본 발명의 일 실시예에 따른 특징정보에는 소리정보에 상응하는 n개의 시간구간 각각에 대한 n개의 주파수변화율평균값이 포함되어 있을 수 있다. In FIG. 5, characteristic information for arbitrary sound information is exemplified. The sound information is divided into 9 time sections, and the average value of the frequency change rate for each of the 9 time sections is calculated by a preset method. Accordingly, the characteristic information according to an embodiment of the present invention may include n average values of the frequency change rate for each of the n time sections corresponding to the sound information.
도 5의 예시에 따르면, 제1 시간구간에 대한 제1 주파수변화율평균값(510)은 '16'이고, 제2 시간구간에 대한 제2 주파수변화율평균값(520)은 '6'이고, 제3 시간구간에 대한 제3 주파수변화율평균값(530)은 '1.6'이고, 제4 시간구간에 대한 제4 주파수변화율평균값(540)은 '1.8'이고, 제5 시간구간에 대한 제5 주파수변화율평균값(550)은 '2.3'이고, 제6 시간구간에 대한 제6 주파수변화율평균값(560)은 '4.8'이고, 제7 시간구간에 대한 제7 주파수변화율평균값(570)은 '6.6'이고, 제8 시간구간에 대한 제8 주파수변화율평균값(580)은 '6.6'이며, 제9 시간구간에 대한 제9 주파수변화율평균값(590)은 '2.1'이다. According to the example of FIG. 5 , the first average
다시 도 2를 참조하면, 프로세서(120)는 제1 특징정보를 이용하여 소리정보의 음원 여부를 판단할 수 있다. 예를 들어, 프로세서(120)는 분석모듈(150)에 포함된 딥러닝 프로그램 및/또는 로짓 분석 프로그램을 통해 당해 소리정보가 저작물인 음원에 대한 것인지 여부를 판단할 수 있다. 분석모듈(150)에는 딥러닝 프로그램이 저장되어 있을 수 있다. Referring back to FIG. 2 , the
예를 들어, 분석모듈(150)에는 CNN(Convolutional Neural Network)에 상응하는 인스트럭션이 저장되어 있을 수 있다. 분석모듈(150)에 저장된 딥러닝 프로그램은 미리 설정된 라벨링된 정보를 기반으로 미리 학습되어 있을 수 있다. 따라서 프로세서(120)는 제1 특징정보를 딥러닝 프로그램의 입력으로 이용하여 소리정보가 음원정보인지 여부를 판단할 수 있다. 딥러닝 프로그램의 학습 방법에 대해서는 도 6을 참조하여 설명한다. For example, an instruction corresponding to a Convolutional Neural Network (CNN) may be stored in the
도 6은 본 발명의 일 실시예에 따라 소리 정보를 판단하기 위한 신경망 프로그램을 학습시키는 방법에 대한 순서도이다. 6 is a flowchart of a method for learning a neural network program for determining sound information according to an embodiment of the present invention.
먼저, 단계 S610에서, 프로세서(120)는 라벨링된 학습용 소리정보에서 제2 특징정보를 추출할 수 있다. 제2 특징정보는 제1 특징정보와 동일한 방법에 따라 학습용 소리정보에서 추출된 정보일 수 있다. 학습용 소리정보는 미리 저장된 영상 또는 음성 콘텐츠로서 음원 또는 비음원으로 미리 선별되어 라벨링(Labelling)된 콘텐츠일 수 있다. First, in step S610, the
단계 S620에서, 프로세서(120)는 제2 특징정보를 이용하여 딥러닝 프로그램을 학습시킬 수 있다. 즉, 음원에 상응하는 제2 특징정보 또는 비음원에 상응하는 제2 축소정보를 통해 분석모듈(150)에 포함된 딥러닝 프로그램은 학습될 수 있다. In step S620, the
여기에서는 프로세서(120)가 딥러닝 프로그램을 학습시키는 경우를 가정하고 설명하였으나, 딥러닝 프로그램은 다른 장치에서 학습된 후 소리정보판단장치(100)에 저장된 프로그램일 수도 있다. Here, it has been assumed that the
다시 도 2를 참조하면, 단계 S260에서, 프로세서(120)는 소리정보가 저작물인 음원에 대한 정보인 것으로 판단되면, 당해 소리정보에 대한 음원정보를 생성할 수 있다. 음원정보는 소리정보의 사용 출처에 대한 정보(이하, '출처정보'라 칭함) 및 저작권에 대한 정보(이하, '저작권정보'라 칭함)를 포함할 수 있다. 출처정보는 당해 음원이 방송된 채널번호, 방송국, 방송 시간 등에 대한 정보를 포함할 수 있다. 저작권정보는 당해 음원에 대한 명칭, 작곡가정보, 작사가정보, 연주자정보 등을 포함할 수 있다. Referring back to FIG. 2 , in step S260 , when it is determined that the sound information is information about a sound source that is a work, the
프로세서(120)가 소리정보에 대한 음원정보를 생성하는 동작은 다양한 방법에 의할 수 있다. 예를 들어, 출처정보는 사용자가 소리정보판단장치(100)의 입력장치를 조작하여 직접 설정한 정보일 수 있다. 또한 출처정보는 동영상인 소리정보의 이미지를 분석하여 추출한 정보일 수 있다(동영상 이미지 분석을 통해, 이미지에서 채널 정보, 방송국 정보 등을 추출하는 종래의 기술 등 사용 가능). The operation of the
다른 예를 들어, 프로세서(120)는 소리정보에서 미리 설정된 방법을 통해 핑거프린트정보(Fingerprint)를 추출할 수 있고, 기저장된 정보와 핑거프린트정보를 비교하고, 비교 결과 상호 일치하는 정보를 독출하고, 독출된 정보를 이용하여 음원정보를 생성할 수 있을 것이다. 이 경우, 복수의 음원에 대한 핑거프린트정보 및 각 핑거프린트정보에 매핑된 저작권 관련 정보가 미리 판단모듈(160)에 DB(Database)로 구축되어 있어야 할 것이다. For another example, the
도 1에서는 판단모듈(160)이 소리정보판단장치(100)의 메모리(130)에 포함되어 있는 경우가 예시되었으나, 판단모듈(160)은 소리정보판단장치(100)의 외부에 형성된 DB일 수도 있다. 이 경우 프로세서(120)는 분석모듈(150)을 통해 소리정보가 음원정보라고 판단되면 아래와 같은 동작 중 하나 이상을 수행할 수 있을 것이다. 1 illustrates that the
(1) 프로세서(120)는 소리정보 자체를 외부에 형성된 판단모듈(160)로 전송하고, 판단모듈(160)은 소리정보를 분석하여 소리정보에 상응하는 음원정보를 생성한 후 프로세서(120)로 전송할 수 있으며, 프로세서(120)는 음원정보를 메모리(130)에 저장한 후 각종 통계자료를 생성할 수 있다. (1) The
(2) 프로세서(120)는 미리 설정된 방법에 따라 소리정보의 핑거프린트정보를 추출하여 외부에 형성된 판단모듈(160)로 전송하고, 판단모듈(160)은 당해 핑거프린트정보에 매핑된 음원정보를 독출한 후 프로세서(120)로 전송할 수 있으며, 프로세서(120)는 음원정보를 메모리(130)에 저장한 후 각종 통계자료를 생성할 수 있다. (2) The
상술한 바와 같이, 본 발명의 일 실시예에 따른 소리정보판단장치(100)가 입력된 멀티미디어 콘텐츠를 모니터링하여 음원 저작물의 방송 여부를 자동으로 판단할 수 있으므로 저작권료의 청구가 누락될 가능성이 매우 낮아질 수 있을 것이다. As described above, since the sound
상술한 프로세서(120)의 동작에 따른 소리 정보 판단 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. The sound information determination method according to the operation of the
또한, 상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.In addition, although the above has been described with reference to the preferred embodiment of the present invention, those of ordinary skill in the art can use the present invention within the scope not departing from the spirit and scope of the present invention described in the claims below. It will be understood that various modifications and variations are possible.
100: 소리정보판단장치
110: 수신부
120: 프로세서
130: 메모리
140: 특징값추출모듈
150: 분석모듈
160: 판단모듈
170: 마이크
180: 콘텐츠DB100: sound information judgment device
110: receiver
120: processor
130: memory
140: feature value extraction module
150: analysis module
160: judgment module
170: microphone
180: content DB
Claims (12)
상기 프로세서에 전기적으로 연결되고, 분석 프로그램이 저장된 메모리 - 단, 상기 분석 프로그램은 신경망 프로그램 또는 로짓 분석 프로그램 중 하나 이상임;
를 포함하고,
상기 분석 프로그램은,
상기 프로세서의 실행 시에 소리정보가 수신되면,
상기 소리정보를 미리 설정된 방법에 따라 분석하여 복수의 피크주파수들을 검출하고,
상기 피크주파수를 미리 설정된 방법에 따라 분석하여 특징정보를 생성하고,
상기 특징정보를 이용하여 상기 소리정보가 음원에 대한 것인지를 판단하되,
상기 특징정보 생성은,
상기 소리정보를 미리 설정된 방법에 따라 n개의 시간구간으로 분할하고(단, 상기 n은 2 이상의 자연수임), 상기 n개의 시간구간 각각에 대한 샘플드 푸리에 변환에 의해 도출되는 각 주파수의 계수 중 인접된 다른 주파수의 계수보다 큰 계수에 상응하는 주파수들을 피크주파수들로 검출하고, 상기 피크주파수들의 주파수변화율을 미리 설정된 방법을 이용하여 산출하고, 상기 주파수변화율의 주파수변화율평균값을 산출하고, 상기 주파수변화율평균값을 결합하여 데이터스트림 형태의 상기 특징정보를 생성하며,
상기 주파수변화율평균값을 하기 수식에 의해 산출하는 인스트럭션들을 포함하는, 소리 정보 판단 장치.
상기 A는 상기 n개의 각 시간구간 내에서 검출된 상기 복수의 피크주파수들의 개수에 상응하는 실수이고,
상기 i 및 상기 j는 복수의 피크주파수의 시간적 검출 순서에 상응하는 자연수이되, 상기 i는 상기 j보다 큰 자연수이고,
상기 는 i번째 피크주파수에 상응하는 상기 피크주파수의 크기이고,
상기 는 j번째 피크주파수에 상응하는 상기 피크주파수의 크기이고,
상기 는 i번째 피크주파수의 러닝타임이고,
상기 는 j번째 피크주파수의 러닝타임임.
processor; and
a memory electrically connected to the processor and storing an analysis program, wherein the analysis program is at least one of a neural network program and a logit analysis program;
including,
The analysis program is
When sound information is received when the processor is executed,
Analyze the sound information according to a preset method to detect a plurality of peak frequencies,
Analyze the peak frequency according to a preset method to generate characteristic information,
It is determined whether the sound information is about a sound source using the characteristic information,
The feature information is generated,
The sound information is divided into n time intervals according to a preset method (provided that n is a natural number equal to or greater than 2), and adjacent among the coefficients of each frequency derived by the sampled Fourier transform for each of the n time intervals Detects frequencies corresponding to coefficients greater than the coefficients of other frequencies as peak frequencies, calculates the frequency change rate of the peak frequencies using a preset method, calculates an average value of the frequency change rate of the frequency change rate, and the frequency change rate Combine the average value to generate the characteristic information in the form of a data stream,
Including instructions for calculating the average value of the frequency change rate by the following equation, sound information determination apparatus.
A is a real number corresponding to the number of the plurality of peak frequencies detected in each of the n time intervals,
Wherein i and j are natural numbers corresponding to the temporal detection order of a plurality of peak frequencies, wherein i is a natural number greater than j,
remind is the magnitude of the peak frequency corresponding to the i-th peak frequency,
remind is the magnitude of the peak frequency corresponding to the j-th peak frequency,
remind is the running time of the i-th peak frequency,
remind is the running time of the j-th peak frequency.
상기 n개의 시간구간 각각은 인접한 시간구간과 미리 설정된 비율로 오버랩 되도록 분할되는, 소리 정보 판단 장치.
According to claim 1,
Each of the n time sections is divided so as to overlap an adjacent time section at a preset ratio, sound information determination apparatus.
상기 분석 프로그램은,
상기 소리정보가 상기 음원에 대한 것으로 판단되면, 상기 소리정보에 상응하는 음원정보를 생성하는 인스트럭션들을 더 포함하되,
상기 음원정보는 출처정보, 저작권정보를 포함하는, 소리 정보 판단 장치,
According to claim 1,
The analysis program is
When it is determined that the sound information relates to the sound source, further comprising instructions for generating sound source information corresponding to the sound information,
The sound source information includes source information and copyright information, a sound information determination device,
소리정보가 수신되면, 상기 소리정보를 미리 설정된 방법에 따라 분석하여 복수의 피크주파수들을 검출하는 단계;
상기 피크주파수를 미리 설정된 방법에 따라 분석하여 특징정보를 생성하는 단계; 및
미리 저장된 신경망 프로그램 또는 로짓 분석 프로그램을 통해 상기 특징정보를 이용하여 상기 소리정보가 음원에 대한 것인지를 판단하는 단계;
를 포함하되,
상기 특징정보 생성은,
상기 소리정보를 미리 설정된 방법에 따라 n개의 시간구간으로 분할하고(단, 상기 n은 2 이상의 자연수임), 상기 n개의 시간구간 각각에 대한 샘플드 푸리에 변환에 의해 도출되는 각 주파수의 계수 중 인접된 다른 주파수의 계수보다 큰 계수에 상응하는 주파수들을 피크주파수들로 검출하고, 상기 피크주파수들의 주파수변화율을 미리 설정된 방법을 이용하여 산출하고, 상기 주파수변화율의 주파수변화율평균값을 산출하고, 상기 주파수변화율평균값을 결합하여 데이터스트림 형태의 상기 특징정보를 생성하며,
상기 주파수변화율평균값을 하기 수식에 의해 산출하는, 소리 정보 판단 방법.
상기 A는 상기 n개의 각 시간구간 내에서 검출된 상기 복수의 피크주파수들의 개수에 상응하는 실수이고,
상기 i 및 상기 j는 복수의 피크주파수의 시간적 검출 순서에 상응하는 자연수이되, 상기 i는 상기 j보다 큰 자연수이고,
상기 는 i번째 피크주파수에 상응하는 상기 피크주파수의 크기이고,
상기 는 j번째 피크주파수에 상응하는 상기 피크주파수의 크기이고,
상기 는 i번째 피크주파수의 러닝타임이고,
상기 는 j번째 피크주파수의 러닝타임임.
In the sound information determination method performed by the sound information determination device,
detecting a plurality of peak frequencies by analyzing the sound information according to a preset method when the sound information is received;
generating characteristic information by analyzing the peak frequency according to a preset method; and
determining whether the sound information is about a sound source by using the feature information through a pre-stored neural network program or a logit analysis program;
including,
The feature information is generated,
The sound information is divided into n time sections according to a preset method (provided that n is a natural number equal to or greater than 2), and adjacent among the coefficients of each frequency derived by the sampled Fourier transform for each of the n time sections. Detects frequencies corresponding to coefficients greater than the coefficients of other frequencies as peak frequencies, calculates the frequency change rate of the peak frequencies using a preset method, calculates an average value of the frequency change rate of the frequency change rate, and the frequency change rate Combine the average value to generate the characteristic information in the form of a data stream,
Calculating the average value of the frequency change rate by the following equation, sound information determination method.
A is a real number corresponding to the number of the plurality of peak frequencies detected within each of the n time intervals,
Wherein i and j are natural numbers corresponding to the temporal detection order of a plurality of peak frequencies, wherein i is a natural number greater than j,
remind is the magnitude of the peak frequency corresponding to the i-th peak frequency,
remind is the magnitude of the peak frequency corresponding to the j-th peak frequency,
remind is the running time of the i-th peak frequency,
remind is the running time of the j-th peak frequency.
상기 n개의 시간구간으로 분할하는 단계는,
상기 소리정보를 상기 n개의 시간구간으로 분할하되, 인접한 시간구간은 미리 설정된 비율로 오버랩되도록 분할되는 단계;
를 포함하는, 소리 정보 판단 방법.
8. The method of claim 7,
The step of dividing into n time intervals comprises:
dividing the sound information into the n time sections, and dividing adjacent time sections to overlap at a preset ratio;
Including, sound information determination method.
상기 소리정보가 상기 음원에 대한 것으로 판단되면, 상기 소리정보에 상응하는 음원정보를 생성하는 단계;
를 더 포함하되,
상기 음원정보는 출처정보, 저작권정보를 포함하는, 소리 정보 판단 방법. 8. The method of claim 7,
generating sound information corresponding to the sound information when it is determined that the sound information relates to the sound source;
further comprising,
The sound source information includes source information and copyright information, a sound information determination method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190096803A KR102273907B1 (en) | 2019-08-08 | 2019-08-08 | Sound Information Judging Device by Frequency Analysis and Method Thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190096803A KR102273907B1 (en) | 2019-08-08 | 2019-08-08 | Sound Information Judging Device by Frequency Analysis and Method Thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210017485A KR20210017485A (en) | 2021-02-17 |
KR102273907B1 true KR102273907B1 (en) | 2021-07-06 |
Family
ID=74731303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190096803A KR102273907B1 (en) | 2019-08-08 | 2019-08-08 | Sound Information Judging Device by Frequency Analysis and Method Thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102273907B1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100684457B1 (en) * | 2006-05-04 | 2007-02-22 | 주식회사 모빌리언스 | System, method and mobile terminal for providing information using recognition of outer sound in mobile phone |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101041037B1 (en) * | 2009-02-27 | 2011-06-14 | 고려대학교 산학협력단 | Method and Apparatus for speech and music discrimination |
KR102306537B1 (en) * | 2014-12-04 | 2021-09-29 | 삼성전자주식회사 | Method and device for processing sound signal |
KR102259421B1 (en) | 2014-12-24 | 2021-06-01 | 주식회사 케이티 | Music information provision method and system |
KR20180050809A (en) * | 2016-11-07 | 2018-05-16 | 한국전자통신연구원 | Apparatus and method for verifing speech file |
KR102128153B1 (en) * | 2017-12-28 | 2020-06-29 | 한양대학교 산학협력단 | Apparatus and method for searching music source using machine learning |
-
2019
- 2019-08-08 KR KR1020190096803A patent/KR102273907B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100684457B1 (en) * | 2006-05-04 | 2007-02-22 | 주식회사 모빌리언스 | System, method and mobile terminal for providing information using recognition of outer sound in mobile phone |
Also Published As
Publication number | Publication date |
---|---|
KR20210017485A (en) | 2021-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180366097A1 (en) | Method and system for automatically generating lyrics of a song | |
Giannoulis et al. | A database and challenge for acoustic scene classification and event detection | |
CN108989882B (en) | Method and apparatus for outputting music pieces in video | |
CN114822512B (en) | Audio data processing method and device, electronic equipment and storage medium | |
WO2014179810A1 (en) | Watermarking and signal recogniton for managing and sharing captured content, metadata discovery and related arrangements | |
CN101044549A (en) | Data-processing device and method for informing a user about a category of a media content item | |
KR102274219B1 (en) | Sound Information Judging Device and Method Thereof | |
CN112418011A (en) | Method, device and equipment for identifying integrity of video content and storage medium | |
CN110324726B (en) | Model generation method, video processing method, model generation device, video processing device, electronic equipment and storage medium | |
CN103400593A (en) | Audio-auditioning method and device | |
CN113596579B (en) | Video generation method, device, medium and electronic equipment | |
KR102273907B1 (en) | Sound Information Judging Device by Frequency Analysis and Method Thereof | |
US20230350943A1 (en) | Methods and apparatus to identify media that has been pitch shifted, time shifted, and/or resampled | |
Porter | Evaluating musical fingerprinting systems | |
EP3161689B1 (en) | Derivation of probabilistic score for audio sequence alignment | |
Sarno et al. | Music fingerprinting based on bhattacharya distance for song and cover song recognition | |
Singh et al. | Attention-based audio embeddings for query-by-example | |
KR101002732B1 (en) | Online digital contents management system | |
CN115273826A (en) | Singing voice recognition model training method, singing voice recognition method and related device | |
CN113032616A (en) | Audio recommendation method and device, computer equipment and storage medium | |
CN104269174A (en) | Treatment method and device for audio signals | |
US11899713B2 (en) | Music streaming, playlist creation and streaming architecture | |
Mezghani et al. | Speech/music discrimination-based audio characterization using blind watermarking scheme. | |
CN113808615B (en) | Audio category positioning method, device, electronic equipment and storage medium | |
US20240004606A1 (en) | Audio playback method and apparatus, computer readable storage medium, and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |