KR20230044574A - Data augmentation method using fundamental freuqency obtained by dj transform - Google Patents

Data augmentation method using fundamental freuqency obtained by dj transform Download PDF

Info

Publication number
KR20230044574A
KR20230044574A KR1020210126827A KR20210126827A KR20230044574A KR 20230044574 A KR20230044574 A KR 20230044574A KR 1020210126827 A KR1020210126827 A KR 1020210126827A KR 20210126827 A KR20210126827 A KR 20210126827A KR 20230044574 A KR20230044574 A KR 20230044574A
Authority
KR
South Korea
Prior art keywords
frequency
fundamental frequency
spectrogram
black
amplitude
Prior art date
Application number
KR1020210126827A
Other languages
Korean (ko)
Inventor
김동진
한상직
Original Assignee
브레인소프트주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 브레인소프트주식회사 filed Critical 브레인소프트주식회사
Priority to KR1020210126827A priority Critical patent/KR20230044574A/en
Publication of KR20230044574A publication Critical patent/KR20230044574A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

As being related to in generating training data of machine learning for speech recognition or speaker recognition by enabling each step to be performed by a computer processor, a data augmentation method according to an embodiment of the present invention comprises: a step of extracting at least one fundamental frequency of speech data; and a step of generating harmonic waves of the fundamental frequency as training data. Therefore, the present invention is capable of improving a performance of machine learning.

Description

디제이변환을 통해 획득한 기본주파수를 이용한 데이터 증강법{DATA AUGMENTATION METHOD USING FUNDAMENTAL FREUQENCY OBTAINED BY DJ TRANSFORM}Data augmentation method using fundamental frequency obtained through DJ conversion {DATA AUGMENTATION METHOD USING FUNDAMENTAL FREUQENCY OBTAINED BY DJ TRANSFORM}

본 발명은 음성 인식 또는 화자 인식 분야에서 머신러닝의 트레이닝 데이터를 생성하기 위한 데이터 증강법에 관한 것이다.The present invention relates to a data augmentation method for generating training data for machine learning in the field of speech recognition or speaker recognition.

음성 인식은 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 기술이며, 화자 인식은 ‘목소리 지문’이라 할 수 있는 성문(voice print)을 분석해 화자를 구별하는 기술을 말하며, 일반적으로 화자 식별과 화자 검증으로 나누어진다. 화자 식별은 입력받은 발화와 가장 비슷한 목소리를 가진 화자를 등록된 성문 데이터 중에서 찾는 기술이고, 화자 검증이란 입력 받은 발화 속 성문과 등록된 성문이 동일인물의 성문인지 판별하는 기술이다. 최근 음성 및 화자 인식 기술은 머신러닝의 일종인 딥러닝 모델을 통하여 성능 개선이 이루어지면서 더욱 성공적인 머신러닝을 위한 기술에 대한 관심이 깊어지고 있다. Speech recognition is a technology in which a computer interprets the voice language spoken by a person and converts the contents into text data, and speaker recognition refers to a technology that distinguishes a speaker by analyzing a voice print, which can be called a 'voice fingerprint'. It is divided into speaker identification and speaker verification. Speaker identification is a technology to find a speaker with a voice most similar to the input utterance among registered voiceprint data, and speaker verification is a technology to determine whether the input voiceprint and the registered voiceprint are the same person's voiceprint. Recently, voice and speaker recognition technologies have been improved through deep learning models, which are a type of machine learning, and interest in technologies for more successful machine learning is deepening.

일반적으로 머신러닝에서는 트레이닝 데이터셋의 양을 증가시키고 다양성을 향상시키기 위해서 데이터 증강(Data Augmentation) 기법이 적용된다. 머신러닝에서 데이터 증강법이란 트레이닝 데이터셋의 양을 늘리는 방법으로서, 원래 존재하는 원본 트레이닝 데이터셋의 수정된 사본을 추가하거나 원본 트레이닝 데이터셋으로부터 새로이 합성된 데이터를 추가하는 방법 등이 이용되고 있다. In general, in machine learning, data augmentation techniques are applied to increase the amount of training datasets and improve their diversity. In machine learning, data augmentation is a method of increasing the amount of a training dataset, and a method of adding a modified copy of an original training dataset or adding newly synthesized data from an original training dataset is used.

음성 도메인에서 널리 사용되는 데이터 증강 기법으로는 2018년에 발표된 MUSAN 데이터셋을 활용하여 오디오에 노이즈를 더하고 RIR(Room Impulse Response)로 반향(reverberation)을 적용하는 데이터 증강법이 있다. 하지만 이러한 데이터 증강법은 반향, 와글와글, 음악, 소음의 4 가지 단순한 패턴에 의한 데이터만 증강되기 때문에 새로운 환경의 소음이 가미되면 성능 개선에 한계를 보인다. A widely used data augmentation technique in the voice domain is a data augmentation method that uses the MUSAN dataset announced in 2018 to add noise to audio and apply reverberation with RIR (Room Impulse Response). However, since this data augmentation method only augments data by four simple patterns of echo, buzz, music, and noise, performance improvement is limited when noise from a new environment is added.

등록특허 제10-2158743호Registered Patent No. 10-2158743

본 발명의 실시예는 새로운 환경에 견고한 머신러닝 시스템을 위한 새로운 데이터 증강법을 제안하고자 한다.Embodiments of the present invention are intended to propose new data augmentation methods for machine learning systems that are robust to new environments.

본 발명의 실시예에 따른 데이터 증강법은, 각 단계가 컴퓨터 프로세서에 의해 수행되며, 음성 인식 또는 화자 인식을 위한 머신러닝의 트레이닝 데이터를 생성하기 위한 데이터 증강법으로, The data augmentation method according to an embodiment of the present invention is a data augmentation method in which each step is performed by a computer processor and generates machine learning training data for speech recognition or speaker recognition,

(a) 음성 데이터의 적어도 하나의 기본주파수를 추출하는 단계; 및 (a) extracting at least one fundamental frequency of voice data; and

(b) 상기 기본주파수의 고조파를 트레이닝 데이터로서 생성하는 단계를 포함한다.(b) generating harmonics of the fundamental frequency as training data.

상기 (a) 단계는, In step (a),

(a-1) 음성 데이터의 입력에 대해, 상이한 고유주파수를 갖는 복수의 용수철의 진동 운동을 각각 모델링하여 상기 고유주파수에 따른 추정 순음 진폭 및 위상을 산출하고, 상기 복수의 용수철 각각의 고유주파수에 해당하는 주파수 및 복수의 시점에 따른 상기 추정 순음 진폭을 나타내는 디제이변환 스펙트로그램을 생성하는 단계; 및(a-1) With respect to the input of voice data, the vibration motion of a plurality of springs having different natural frequencies is modeled, respectively, to calculate the estimated pure tone amplitude and phase according to the natural frequencies, and the natural frequency of each of the plurality of springs is calculated. generating a DJ-converted spectrogram representing the estimated pure tone amplitude according to a corresponding frequency and a plurality of time points; and

(a-2) 상기 디제이변환 스펙트로그램의 상기 각각의 고유주파수에 대한, 상기 추정 순음 진폭의 이동평균 또는 상기 추정 순음 진폭의 이동표준변차에 기초하여 상기 기본주파수를 추출하는 단계를 포함할 수 있다.(a-2) extracting the fundamental frequency based on a moving average of the estimated pure tone amplitude or a moving standard deviation of the estimated pure tone amplitude for each natural frequency of the DJ transform spectrogram. .

상기 (a-1) 단계는,In the step (a-1),

상기 복수의 용수철 각각의 고유 1주기 간격의 두 시점의 진폭에 기초하여, 안정 상태에서 상기 복수의 용수철 각각의 진폭의 수렴값인 안정 상태 예상 진폭을 추정하는 단계; 및estimating a steady-state expected amplitude, which is a convergence value of amplitudes of each of the plurality of springs in a stable state, based on amplitudes of two time points of a unique one-cycle interval of each of the plurality of springs; and

상기 안정 상태 예상 진폭에 기초하여 추정된 입력 소리의 진폭인 순음 예측 진폭에 기초하여 상기 추정 순음 진폭을 산출하는 단계를 포함할 수 있다.The method may include calculating the estimated pure tone amplitude based on the predicted pure tone amplitude, which is the amplitude of the input sound estimated based on the expected stable state amplitude.

상기 추정 순음 진폭은 상기 안정 상태 예상 진폭 또는 상기 순음 예측 진폭일 수 있다.The estimated pure tone amplitude may be the steady state expected amplitude or the predicted pure tone amplitude.

상기 (a-2) 단계는,In the step (a-2),

(a-21) 상기 디제이변환 스펙트로그램에서, 상기 추정 순음 진폭의 이동평균 또는 상기 추정 순음 진폭의 이동표준변차에 기초하여 기본주파수 적합도를 계산하는 단계; 및(a-21) calculating a degree of fitness for the fundamental frequency based on a moving average of the estimated pure-tone amplitudes or a moving standard deviation of the estimated pure-tone amplitudes in the DJ transform spectrogram; and

(a-22) 상기 복수의 시점 각각에서 상기 기본주파수 적합도의 극댓값을 산출하고, 산출된 기본주파수 적합도의 극댓값에 기초하여 기본주파수를 추출하는 단계를 포함할 수 있다.(a-22) calculating the maximum value of the fitness for the fundamental frequency at each of the plurality of points in time, and extracting the fundamental frequency based on the calculated maximum value of the fitness for the fundamental frequency.

상기 기본주파수 적합도는, 상기 추정 순음 진폭의 이동평균에 비례하거나 상기 추정 순음 진폭의 이동표준변차에 반비례할 수 있다.The degree of fitness for the fundamental frequency may be proportional to a moving average of the estimated pure-tone amplitude or inversely proportional to a moving standard deviation of the estimated pure-tone amplitude.

상기 (a-22) 단계는,In the step (a-22),

상기 복수의 시점 각각에서, 상기 기본주파수 적합도 중 상위 N개(N은 2 이상의 정수)를 추출하고, 상기 N개에 해당하는 고유주파수에 해당하는 값을 "1"로 설정하고 나머지 값을 "0"으로 설정하는 흑백스펙트로그램 생성 단계; At each of the plurality of points in time, the top N (N is an integer of 2 or more) of the fundamental frequency conformity are extracted, the values corresponding to the natural frequencies corresponding to the N are set to "1", and the remaining values are set to "0". Black and white spectrogram generation step set to ";

상기 흑백스펙트로그램의 각 지점을 포함하는 동일한 크기의 영역에 대해 상기 흑백스펙트로그램의 평균을 산출하는 평균흑백스펙트로그램 생성 단계; 및an average black-and-white spectrogram generating step of calculating an average of the black-and-white spectrogram for an area of the same size including each point of the black-and-white spectrogram; and

상기 복수의 시점 각각에서 상기 평균흑백스펙트로그램의 극댓값을 추출하는 단계를 포함할 수 있다.The step of extracting a maximum value of the average black-and-white spectrogram at each of the plurality of time points may be included.

상기 (a-22) 단계는, 상기 복수의 시점 각각에서, 상기 평균흑백스펙트로그램의 인접하는 극댓값에 해당하는 고유주파수의 차이 및 상기 평균흑백스펙트로그램의 극댓값에 해당하는 고유주파수 중 가장 낮은 주파수에 기초하여 후보기본주파수를 추출하는 단계를 더 포함할 수 있다.In the step (a-22), at each of the plurality of points in time, the difference between the natural frequencies corresponding to adjacent maxima of the average black-and-white spectrogram and the natural frequencies corresponding to the maxima of the average black-and-white spectrogram are determined at the lowest frequency. Based on the method, a step of extracting a candidate fundamental frequency may be further included.

상기 (a-22) 단계는, 인접하는 시점을 포함하는 소정 시간 구간에 대해 설정된 흑백스펙트로그램기반 기본주파수의 시간 평균을 계산하고, 상기 시간 평균에 소정 값 이하의 양의 정수들을 각각 곱한 값 부근의 주파수들을 포함하는 제1 주파수 집합을 설정하고, 상기 제1 주파수 집합에 속하는 주파수들 중에서 상기 평균흑백스펙트로그램이 가장 큰 주파수를, 상기 제1 주파수 집합 설정시 곱해진 양의 정수로 나눈 값을, 흑백스펙트로그램기반 기본주파수로 설정하는 단계를 더 포함할 수 있다.The step (a-22) calculates the time average of the black-and-white spectrogram-based fundamental frequencies set for a predetermined time interval including adjacent time points, and is approximately equal to the value obtained by multiplying the time average by positive integers less than or equal to the predetermined value. A value obtained by dividing a frequency having the largest average black-and-white spectrogram among the frequencies belonging to the first frequency set by a positive integer multiplied when setting the first frequency set , and may further include setting a black-and-white spectrogram-based basic frequency.

상기 (a-22) 단계는, 상기 복수의 시점에 대한 상기 후보기본주파수 중에서, 인접하는 시점의 상기 후보기본주파수의 차의 이동분산이 가장 작은 시점의 후보기본주파수를, 상기 이동분산이 가장 작은 시점의 흑백스펙트로그램기반 기본주파수로 설정하는 단계를 더 포함할 수 있다.In the step (a-22), among the candidate fundamental frequencies for the plurality of viewpoints, the candidate fundamental frequency of a viewpoint having the smallest moving variance of the difference between the candidate fundamental frequencies of adjacent viewpoints is selected, A step of setting the basic frequency based on the black and white spectrogram of the viewpoint may be further included.

상기 (a-22) 단계는, 상기 복수의 시점 각각에서, 흑백스펙트로그램기반 기본주파수에 소정 값 이하의 양의 정수들을 각각 곱한 값을 포함하는 제2 주파수 집합을 설정하고, 상기 제2 주파수 집합에 속하는 주파수들 중에서 상기 기본주파수 적합도가 가장 큰 주파수를, 상기 제2 주파수 집합 설정시 곱해진 양의 정수로 나눈 값을 상기 최종 기본주파수로 설정하는 단계를 더 포함할 수 있다.The step (a-22) sets a second frequency set including a value obtained by multiplying a black-and-white spectrogram-based basic frequency by positive integers less than or equal to a predetermined value, respectively, at each of the plurality of points in time, and the second frequency set The method may further include setting, as the final fundamental frequency, a value obtained by dividing a frequency having the greatest fundamental frequency suitability among frequencies belonging to by a positive integer multiplied when setting the second frequency set.

상기 (b) 단계에서, 상기 기본주파수의 고조파는, 상기 기본주파수의 고조파에 해당하는 고유주파수를 갖는 용수철의 안정상태 예상진폭 및 위상을, 상기 기본주파수의 고조파의 진폭 및 위상으로 가질 수 있다.In the step (b), the harmonics of the fundamental frequency may have the expected amplitude and phase of a spring having a natural frequency corresponding to the harmonics of the fundamental frequency as the amplitude and phase of the harmonics of the fundamental frequency.

상기 기본주파수의 고조파는 트레이닝 데이터 전체 중에서 50%~75%가 함유될 수 있다.50% to 75% of the harmonics of the fundamental frequency may be included in the entire training data.

본 발명의 실시예에 따른 컴퓨터로 판독 가능한 기록 매체는, 상기 데이터 증강법의 각 단계가 컴퓨터에서 실행될 수 있도록 기록된다.A computer-readable recording medium according to an embodiment of the present invention is recorded so that each step of the data augmentation method can be executed by a computer.

본 발명의 실시예에 의하면 디제이 변환에 의해 획득된 기본주파수의 고조파를 이용하여 트레이닝 데이터를 생성하기 때문에, 새로운 환경의 소음이 가미되더라도 머신러닝의 성능이 개선될 수 있다.According to an embodiment of the present invention, since training data is generated using harmonics of the fundamental frequency obtained by DJ conversion, machine learning performance can be improved even when noise in a new environment is added.

도 1은 머신러닝에서 본 발명의 실시예에 따른 데이터 증강법이 어떻게 활용되는지를 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 데이터 증강법의 각 단계를 나타내는 순서도이다.
도 3은 도 2의 기본주파수 추출 단계의 일 예를 나타내는 순서도이다.
도 4는 도 3의 기본주파수 추출 단계의 일 예를 나타내는 순서도이다.
도 5는 도 4의 기본주파수 추출 단계의 일 예를 나타내는 순서도이다.
도 6은 시간에 따라 변화하는 고조파의 소리가 입력된 경우 본 발명의 실험예를 나타내는 도면이다.
도 7은 본 발명의 실시예에 대한 실험 결과를 나타내는 표이다.
도 8은 본 발명의 실시예에 따른 데이터 증강 시스템의 구조도이다.
1 is a diagram for explaining how a data augmentation method according to an embodiment of the present invention is used in machine learning.
2 is a flowchart showing each step of a data augmentation method according to an embodiment of the present invention.
3 is a flowchart illustrating an example of the fundamental frequency extraction step of FIG. 2 .
4 is a flowchart illustrating an example of the fundamental frequency extraction step of FIG. 3 .
5 is a flowchart illustrating an example of the fundamental frequency extraction step of FIG. 4 .
6 is a diagram showing an experimental example of the present invention when a sound of harmonics that changes with time is input.
7 is a table showing experimental results for an embodiment of the present invention.
8 is a structural diagram of a data augmentation system according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Advantages and features of the present invention, and methods of achieving them, will become clear with reference to the detailed description of the following embodiments taken in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but will be implemented in various different forms, only these embodiments make the disclosure of the present invention complete, and common knowledge in the art to which the present invention belongs. It is provided to fully inform the holder of the scope of the invention, and the present invention is only defined by the scope of the claims. Like reference numbers designate like elements throughout the specification.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.Terminology used herein is for describing the embodiments and is not intended to limit the present invention. In this specification, singular forms also include plural forms unless specifically stated otherwise in a phrase. As used herein, "comprises" and/or "comprising" means that a stated component, step, operation, and/or element is present in the presence of one or more other components, steps, operations, and/or elements. or do not rule out additions.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used in a meaning commonly understood by those of ordinary skill in the art to which the present invention belongs.

이하, 도면을 참조하여 본 발명의 실시예에 대하여 구체적으로 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

도 1은 머신러닝에서 본 발명의 실시예에 따른 데이터 증강법이 어떻게 활용되는지를 설명하기 위한 도면이다.1 is a diagram for explaining how a data augmentation method according to an embodiment of the present invention is used in machine learning.

도 1을 참조하면, 화자 인식 또는 화자 검증을 위한 머신러닝 알고리즘을 생성하기 위해서는 데이터셋이 입력되어야 한다. 도 1의 머신러닝 시스템의 훈련 데이터셋은 종래 기술에 따른 원본 훈련 데이터셋으로, 예를 들면 MUSAN 및 RIP(Room Impulse Response)에 의해 증강된 데이터셋일 수 있다.Referring to FIG. 1 , a dataset must be input in order to generate a machine learning algorithm for speaker recognition or speaker verification. The training dataset of the machine learning system of FIG. 1 is an original training dataset according to the prior art, and may be, for example, a dataset augmented by MUSAN and RIP (Room Impulse Response).

본 발명의 실시예는 이러한 원본 훈련 데이터셋의 디제이변환을 통하여 추출한 기본주파수의 고조파로 이루어진 데이터를 훈련 데이터셋으로서 생성(증강)한다. 그리고, 원본 훈련 데이터셋과 본 발명의 실시예에 따른 증강된 데이터를 머신러닝 알고리즘에 입력한다. 이때, 원본 훈련 데이터셋과 본 발명의 실시예에 따른 증강된 데이터 각각은 음성 데이터(예를 들어 wav)와 라벨(화자 인식의 경우 화자를 나타내는 값, 화자 검증의 경우 화자가 맞는지를 나타내는 값)을 포함할 수 있다. An embodiment of the present invention generates (enhances) data consisting of harmonics of the fundamental frequency extracted through DJ conversion of the original training dataset as a training dataset. Then, the original training dataset and the augmented data according to the embodiment of the present invention are input to the machine learning algorithm. At this time, each of the original training dataset and the augmented data according to the embodiment of the present invention is voice data (eg wav) and a label (a value indicating a speaker in case of speaker recognition, a value indicating whether the speaker is correct in case of speaker verification) can include

도 1에는 머신러닝 알고리즘에 원본 훈련 데이터셋과 본 발명의 실시예에 따른 증강된 데이터를 모두 입력하는 것으로 도시하였지만, 본 발명의 실시예에 따른 증강된 데이터만을 입력할 수도 있다.Although FIG. 1 shows inputting both the original training dataset and the augmented data according to the embodiment of the present invention to the machine learning algorithm, only the augmented data according to the embodiment of the present invention may be input.

도 2는 본 발명의 실시예에 따른 데이터 증강법의 각 단계를 나타내는 순서도이다. 각 단계는 컴퓨터 프로세서에 의해 수행된다.2 is a flowchart showing each step of a data augmentation method according to an embodiment of the present invention. Each step is performed by a computer processor.

먼저, 음성 데이터의 적어도 하나의 기본주파수를 추출한다(S10). 기본주파수의 추출은 복수의 용수철의 진동 운동을 모델링한 디제이변환을 이용하며, 상세한 내용은 후술한다.First, at least one fundamental frequency of voice data is extracted (S10). The extraction of the fundamental frequency uses a DJ transform modeling the vibrational motion of a plurality of springs, and details will be described later.

다음으로, 상기 기본주파수의 고조파를 트레이닝 데이터로서 생성한다(S20).Next, harmonics of the fundamental frequency are generated as training data (S20).

생성된 트레이닝 데이터는 음성 인식 또는 화자 인식을 위한 머신러닝의 트레이닝 데이터로서 이용된다.The generated training data is used as machine learning training data for speech recognition or speaker recognition.

도 3은 도 2의 기본주파수 추출 단계(S10)의 일 예를 나타내는 순서도이다.3 is a flowchart illustrating an example of the fundamental frequency extraction step ( S10 ) of FIG. 2 .

도 3을 참조하면, 본 발명의 실시예에 따른 기본주파수 추출 방법은, 음성 데이터의 입력에 대해, 상이한 고유주파수를 갖는 복수의 용수철의 진동 운동을 모델링하여 상기 고유주파수에 따른 추정 순음 진폭 및 위상을 산출하고, 상기 복수의 용수철 각각의 고유주파수 및 복수의 시점에 따른 상기 추정 순음 진폭을 나타내는 디제이변환 스펙트로그램을 생성하는 단계(S100); 상기 디제이변환 스펙트로그램의 상기 각각의 고유주파수에 대한, 상기 추정 순음 진폭의 이동평균 또는 상기 추정 순음 진폭의 이동표준변차에 기초하여 상기 기본주파수를 계산하는 단계(S200)를 포함한다.Referring to FIG. 3 , a fundamental frequency extraction method according to an embodiment of the present invention models vibrational motions of a plurality of springs having different natural frequencies for input of voice data, and estimates pure tone amplitude and phase according to the natural frequencies. Calculating and generating a DJ transform spectrogram representing the natural frequency of each of the plurality of springs and the estimated pure tone amplitude according to a plurality of time points (S100); and calculating the fundamental frequency based on a moving average of the estimated pure tone amplitude or a moving standard deviation of the estimated pure tone amplitude for each natural frequency of the DJ conversion spectrogram (S200).

디제이변환은 상이한 고유주파수를 갖는 복수의 용수철의 진동 운동을 모델링한 것으로, 용수철의 진동 운동을 통해 귀의 달팽이관에 있는 유모세포의 운동을 모사함으로써 실제 소리의 특성을 잘 나타내도록 하기 위함이다. 주파수는 진동수나 각속도로 쉽게 변환 가능하기 때문에, 본 명세서에서는 이들을 혼용하여 사용한다.DJ conversion is modeling the vibration motion of a plurality of springs having different natural frequencies, and is intended to represent the characteristics of real sound well by simulating the motion of hair cells in the cochlea of the ear through the vibration motion of the springs. Since frequency can be easily converted into frequency or angular velocity, they are used interchangeably in this specification.

복수의 용수철은 상이한 고유주파수를 갖는 것으로 설정된다. 복수의 용수철의 고유주파수는 소리에 해당하는 주파수 범위, 예를 들어 가청 주파수 대역인 20Hz~20kHz에서 소정 주파수 간격, 예를 들어 1Hz, 2Hz 또는 10Hz 등의 간격을 가질 수 있다.A plurality of springs are set to have different natural frequencies. The natural frequency of the plurality of springs may have a predetermined frequency interval, for example, 1Hz, 2Hz, or 10Hz, in a frequency range corresponding to sound, for example, an audible frequency band of 20Hz to 20kHz.

용수철 상수 ki 용수철 si 의 한쪽 끝에 고정되어 있는 질량 M인 물체의 평행 위치에 대한 변위 xi(t)의 외부 힘 F(t)에 대한 운동 방정식은 다음과 같다.with spring constant k i The equation of motion for the external force F(t) of the displacement x i (t) of an object of mass M fixed at one end of the spring s i in a parallel position is as follows:

Figure pat00001
(식1)
Figure pat00001
(Equation 1)

여기서 ωoi는 고유 공명 각속도로

Figure pat00002
이고, 감쇠율을 ζ라 할 때 Γi는 단위 질량 당 감쇠상수로
Figure pat00003
이다. 모델에서는 M=1, ζ=0.001을 사용하였는데, 성능 개선을 위해 향후 바뀔 수 있는 값들이다. where ω oi is the natural resonant angular velocity
Figure pat00002
, and when the damping rate is ζ, Γ i is the damping constant per unit mass.
Figure pat00003
am. In the model, M = 1 and ζ = 0.001 were used, which are values that can be changed in the future for performance improvement.

각속도가 ωext 이고 일정한 진폭의 Fext 의 외부 소리

Figure pat00004
가 입력된다고 가정하자. 이때, 초기 조건이 정지 상태인 용수철의 운동 방정식의 해 xi(t)는 다음과 같이 표현된다.External sound with angular velocity ω ext and constant amplitude F ext
Figure pat00004
Assume that is entered. At this time, the solution x i (t) of the equation of motion of the spring with the initial condition at rest is expressed as follows.

Figure pat00005
Figure pat00005

(식2) (Equation 2)

여기서

Figure pat00006
인데, 모델에서 ζ는 예를 들어 0.001정도의 매우 작은 값을 사용하면
Figure pat00007
이 된다. 그리고
Figure pat00008
Figure pat00009
은 다음과 같다.here
Figure pat00006
However, in the model, ζ is 0.001, for example, if a very small value is used,
Figure pat00007
becomes and
Figure pat00008
and
Figure pat00009
Is as follows.

Figure pat00010
(식3)
Figure pat00010
(Equation 3)

Figure pat00011
(식4)
Figure pat00011
(Equation 4)

외부 힘의 각속도 ωext 와 용수철의 고유주파수의 각속도 ω0i 가 일치할 때의

Figure pat00012
Figure pat00013
는 다음과 같이 된다.When the angular velocity ω ext of the external force coincides with the angular velocity ω 0i of the natural frequency of the spring
Figure pat00012
and
Figure pat00013
becomes the following

Figure pat00014
(식5)
Figure pat00014
(Equation 5)

Figure pat00015
(식6)
Figure pat00015
(Equation 6)

외부 소리의 각속도 ωext 가 있을 때 디제이변환에 사용되는 용수철의 고유주파수의 각속도 ω0i

Figure pat00016
인 조건을 만족하는 용수철을 공명 조건의 용수철이라 한다. 이때,
Figure pat00017
이라고 할 수 있으므로, 용수철의 변위 xi(t)는 다음과 같이 표현된다.When there is an angular velocity ω ext of an external sound, the angular velocity ω 0i of the natural frequency of the spring used in DJ conversion is
Figure pat00016
A spring that satisfies the phosphorus condition is called a spring with resonance conditions. At this time,
Figure pat00017
, the displacement x i (t) of the spring is expressed as:

Figure pat00018
(식7)
Figure pat00018
(Equation 7)

식7에서

Figure pat00019
일 때의 값
Figure pat00020
은 식5의
Figure pat00021
일 때의 값
Figure pat00022
과 거의 같으므로, 식 전개에서 같은 값으로 사용한다. in Equation 7
Figure pat00019
value when
Figure pat00020
of Eq. 5
Figure pat00021
value when
Figure pat00022
Since it is almost the same as , use the same value in expression expansion.

τn

Figure pat00023
라 정의하자. 식7을 t=τn 인 시점, 즉, 1주기에서 변위 xi(t)가 최대인 시점에서 관찰하면, xi(t=τn) 의 값은 다음과 같이 간단하게 표현된다.τ n
Figure pat00023
let's define Observing Equation 7 at the point of time t=τ n , that is, the point of maximum displacement x i (t) in one cycle, the value of x i (t=τ n ) is simply expressed as follows.

Figure pat00024
(식8)
Figure pat00024
(Equation 8)

식8에 의하면, 시간이 충분히 흐른 후(n→∞), 안정화된 상태의 변위 xi(t=τn) 는

Figure pat00025
의 값에 수렴하게 된다. According to Equation 8, after a sufficient amount of time (n→∞), the displacement x i (t=τ n ) of the stabilized state is
Figure pat00025
converges to the value of

외부 소리의 입력이 들어오기 시작한 후, 시간이 충분히 지나 수렴하기 전의 시점에서, 시간이 충분히 지난 후의 안정화된 상태의 변위 xi(t)의 수렴값

Figure pat00026
을 구할 수 있다. 과정은 다음과 같다. The convergence value of the displacement x i (t) in the stable state after a sufficient amount of time has elapsed, after the external sound input starts to come in and before convergence has passed.
Figure pat00026
can be obtained. The process is as follows.

먼저, 식8을 다음과 같이 변형한다. First, Equation 8 is transformed as follows.

Figure pat00027
(식9)
Figure pat00027
(Equation 9)

식9에서 n의 값을 n+1로 바꾸면 식은 다음과 같이 바뀐다. If the value of n in Equation 9 is changed to n+1, the equation changes to the following.

Figure pat00028
(식10)
Figure pat00028
(Equation 10)

식9를 식10으로 변끼리 각각 나누어 정리하면 다음과 같은 식을 구할 수 있다.By dividing Equation 9 into Equation 10 by each side, the following equation can be obtained.

Figure pat00029
(식11)
Figure pat00029
(Equation 11)

Figure pat00030
일 때, 식 11은 xi(t=τn)과 xi(t=τn+1)의 값을 알면, 시간이 충분히 지난 후의 안정화된 상태의 변위 xi(t)의 수렴값, 즉 안정상태 예상 진폭
Figure pat00031
을 추정할 수 있다는 것을 보여준다. 그리고 그 시점에 구한 추정값
Figure pat00032
과 식5를 이용하여 그 시점의 외부 소리의 세기 Fext(t)의 크기를 다음과 같이 구할 수 있다.
Figure pat00030
When the values of x i (t=τ n ) and x i (t=τ n+1 ) are known, Equation 11 is the convergence value of the displacement x i (t) of the stable state after a sufficient amount of time has elapsed, that is, Steady-State Expected Amplitude
Figure pat00031
shows that it is possible to estimate and the estimate obtained at that time
Figure pat00032
Using Equation 5, the magnitude of the external sound intensity F ext (t) at that time can be obtained as follows.

Figure pat00033
(식12)
Figure pat00033
(Equation 12)

본 명세서에서 안정화된 상태의 변위 xi(t)의 수렴값

Figure pat00034
에 기초하여 산출된 외부 소리의 세기 Fext(t)를 순음 예측 진폭이라 한다.Convergence value of the displacement x i (t) of the stabilized state in this specification
Figure pat00034
The intensity of the external sound F ext (t) calculated based on is referred to as pure tone prediction amplitude.

한편 위상을 추출하기 위해서 해당 용수철 운동을 등속 원운동의 1차원 사영으로 보면 위상은 다음과 같다.On the other hand, in order to extract the phase, if the spring motion is viewed as a one-dimensional projection of the uniform circular motion, the phase is as follows.

Figure pat00035
(식13)
Figure pat00035
(Equation 13)

다음으로, 주파수가 기본주파수 f0의 양의 정수배인 n개의 성분으로 이루어진 고조파 입력이 주어진다고 가정하자. 이때, 고조파의 각속도들의 집합 W는 다음과 같다.Next, assume that a harmonic input consisting of n components whose frequencies are positive integer multiples of the fundamental frequency f 0 is given. At this time, the set W of the angular velocities of harmonics is as follows.

Figure pat00036
(식14)
Figure pat00036
(Equation 14)

집합 W의 원소를 작은 것부터 차례로 순서를 정한 후 다음과 같이 나타내자.Let the elements of the set W be ordered in order from smallest to smallest.

Figure pat00037
(식15)
Figure pat00037
(Equation 15)

이러한 고조파는

Figure pat00038
로 나타낼 수 있다.These harmonics
Figure pat00038
can be expressed as

고조파 F(t)가 입력으로 주어지면 용수철의 변위 xi(t)는 주파수 집합 W를 구성하는 각 각속도에 대한 용수철 변위 각각의 합으로 아래와 같이 표현할 수 있다.Given the harmonic F(t) as an input, the displacement x i (t) of the spring can be expressed as the sum of displacements of the spring for each angular velocity constituting the frequency set W as follows.

Figure pat00039
Figure pat00040
(식16)
Figure pat00039
Figure pat00040
(Equation 16)

여기서

Figure pat00041
Figure pat00042
은 다음과 같다.here
Figure pat00041
and
Figure pat00042
Is as follows.

Figure pat00043
(식17)
Figure pat00043
(Equation 17)

Figure pat00044
(식18)
Figure pat00044
(Equation 18)

용수철의 고유진동수의 각속도의 크기 ω0i를 증가(또는 감소)하는 방향으로 xi(t)를 관찰하면 고조파에 포함되어 있는 각속도의 집합 W의 원소 각각과 공명 조건이 되는 용수철들을 찾을 수 있다. 임의의 짧은 시간의 구간에서 관찰할 때, 식16, 식17, 식18에 의해 공명 조건의 용수철의 변위 xi(t)의 최댓값은, 용수철의 고유 각속도 기준으로 바로 인접해 있는 공명 조건이 되지 않는 용수철의 변위 xi(t)의 최댓값보다 크다. 따라서, 용수철의 변위 xi(t)의 용수철의 각 고유주기별 최댓값들을 식11, 식12를 이용하여 디제이 변환 결과의 스펙트로그램을 만들면, 특정 시점에서 극댓값이 관찰되는 지점의 각속도 값은 고조파의 각속도 집합 W의 원소와 일대일로 대응하게 된다. By observing x i (t) in the direction of increasing (or decreasing) the size of the angular velocity ω 0i of the natural frequency of the spring, springs that are in resonance with each element of the set of angular velocities W included in harmonics can be found. When observed in an arbitrarily short period of time, the maximum value of displacement x i (t) of the spring under resonance conditions according to Equations 16, 17, and 18 does not become a resonance condition immediately adjacent to the natural angular velocity of the spring. greater than the maximum value of the displacement x i (t) of the spring. Therefore, if the spectrogram of the DJ conversion result is created using Equations 11 and 12 for the maximum values for each natural period of the spring displacement x i (t), the angular velocity value at the point where the maximum value is observed at a specific point in time is the harmonic There is a one-to-one correspondence with the elements of the angular velocity set W.

즉, 용수철의 진동 운동을 모델링함으로써 식16~식18에 의해 표현되는 용수철의 변위 xi(t)를 알 수 있으며, 이러한 용수철의 변위 xi(t)에 식11 및 식12를 적용함으로써 여러 주파수를 갖는 소리가 입력된 경우의 추정 순음 진폭을 계산할 수 있다. 추정 순음 진폭은 식11의 안정 상태 예상 진폭 또는 식12의 순음 예측 진폭일 수 있다. 이에 따라, 시간축 및, 용수철의 공명주파수에 해당하는 주파수의 축의 공간에 추정 순음 진폭을 표시함으로써 추정 순음 진폭 기반의 디제이변환 스펙트로그램을 생성할 수 있다.That is, by modeling the oscillatory motion of the spring, the displacement x i (t) of the spring expressed by Equations 16 to 18 can be found, and by applying Equations 11 and 12 to the displacement x i (t) of the spring, various When a sound having a frequency is input, an estimated pure tone amplitude may be calculated. The estimated pure tone amplitude may be the steady state expected amplitude of Equation 11 or the predicted pure tone amplitude of Equation 12. Accordingly, a DJ conversion spectrogram based on the estimated pure tone amplitude can be generated by displaying the estimated pure tone amplitude in the space of the time axis and the frequency axis corresponding to the resonant frequency of the spring.

이와 관련하여, 스펙트로그램의 하나의 극댓값에 대응하는 변위 xi(t)는 고조파에 포함되어 있는 각속도의 소리 중 공명 조건인 것의 영향을 크게 받지만, 공명 조건이 아닌 각속도의 소리의 영향도 받는 것을 식16, 식17, 식18에서 알 수 있다. 고조파가 주어졌을 때 고유진동 각속도 ω0i가 ωext,m와 공명 조건, 즉(

Figure pat00045
)인 용수철 si의 변위 xi(t)에
Figure pat00046
으로 공명 조건이 아닌 각속도 ωext,n의 소리 입력으로 변위 xi(t)의 진폭이 바뀌는 비율은 다음 식에서 추정할 수 있다. In this regard, the displacement x i (t) corresponding to one maximum value of the spectrogram is greatly affected by the resonance condition among the angular velocity sounds included in the harmonics, but it is also affected by the angular velocity sound, which is not a resonance condition. It can be seen from Eqs. 16, 17, and 18. Given the harmonics, the natural oscillation angular velocity ω 0i is a resonance condition with ω ext,m , i.e. (
Figure pat00045
), the displacement x i (t) of the spring s i
Figure pat00046
, the rate at which the amplitude of displacement x i (t) changes with sound input of angular velocity ω ext,n, which is not a resonance condition, can be estimated from the following equation.

Figure pat00047
(식19)
Figure pat00047
(Equation 19)

식17, 식18을 관찰하면 공명 조건 근처에서는

Figure pat00048
이고 공명 조건에서 많이 벗어난 곳에서는
Figure pat00049
이다. 식19는 그 값 중 큰 값들만 선택하여 비교한 결과이다. Fext,n 와 Fext,m 의 값이 크게 차이나지 않으면 ζ=0.001일 때
Figure pat00050
항의 영향이
Figure pat00051
보다 훨씬 우세하다는 것을 식19에서 알 수 있다. 공명 조건에 의해 생기는 극댓값의 위치가 바뀔 정도로 고조파의 공명 조건이 아닌 주파수의 영향이 크지는 않다. 따라서 고조파에 포함되어 있는 주파수 위치에서 디제이변환 스펙트로그램에서 극댓값을 관찰할 수 있다. Observing Eqs. 17 and 18, near resonance conditions
Figure pat00048
and where the resonance conditions are far out of the range,
Figure pat00049
am. Equation 19 is the result of selecting and comparing only the larger values among the values. If the values of F ext,n and F ext,m do not differ significantly, when ζ=0.001
Figure pat00050
protest impact
Figure pat00051
It can be seen from Eq. 19 that it is much more dominant than The influence of frequencies other than resonance conditions of harmonics is not large enough to change the position of the maximum value caused by resonance conditions. Therefore, the maximum value can be observed in the DJ transform spectrogram at the frequency position included in the harmonics.

이번에는 고조파를 구성하는 주파수와 각각 공명 조건이 되는 변위 xi(t)의 최댓값의 관계를 살펴본다. 디제이 변환에서 고유주파수 f0 와 공명 조건인 용수철의 변위 xi(t)의 최댓값은 1/f0 의 주기마다 계산된다. 변위 xi(t)의 최댓값에 고조파에 포함되어 있는 기본주파수가 아닌 fi의 영향이 반영되지만, 이 주파수들의 주기 1/fi 는 1/f0 의 약수가 되어, 1/f0 의 주기로 계산할 때 xi(t)의 최댓값에 주기적인 성질로 반영된다. 디제이 변환에서 기본주파수가 아닌 fi와 공명 조건인 용수철의 변위 xi(t)의 최댓값도 1/fi 의 주기마다 계산된다. f0 의 영향을 받는 부분의 주기는 1/f0 (1/f0 > 1/fi) 이므로 1/fi 의 주기로 계산하면, 변위 xi(t)의 최댓값은 주기적인 성질로 반영될 수 없다. This time, we look at the relationship between the frequency constituting the harmonics and the maximum value of the displacement x i (t), each of which is a resonance condition. In the DJ transform, the natural frequency f 0 and the maximum value of the displacement x i (t) of the spring, which is the resonance condition, are calculated every period of 1/f 0 . The maximum value of displacement x i (t) reflects the influence of f i , which is not the fundamental frequency included in harmonics, but the period 1/f i of these frequencies becomes a divisor of 1/f 0 , with a period of 1/f 0 When calculating, the maximum value of x i (t) is reflected as a periodic nature. In DJ conversion, f i, which is not the fundamental frequency, and the maximum value of displacement x i (t) of the spring, which is a resonance condition, are also calculated every 1/ fi period. Since the period of the part affected by f 0 is 1/f 0 (1/f 0 > 1/f i ), if calculated with a period of 1/f i , the maximum value of displacement x i (t) will be reflected as a periodic property. can't

따라서 f0 와 관련되는 xi(t)의 최댓값은 주기성이 파괴되지 않아 그 값의 진동폭이 작고, fi 와 관련되는 xi(t)의 최댓값은 주기성이 파괴되어 그 값의 진동폭이 크게 나타난다. 식11, 식12를 거쳐 xi(t)의 최댓값을 이용하여 계산되는 추정 순음 진폭 기반 스펙트로그램의 진폭값은 xi(t)의 최댓값의 특성이 그대로 반영된다. 따라서 스펙트로그램의 진폭값의 표준편차를 계산하면, f0 와 관련된 부분에서는 값이 작고, fi 와 관련된 부분에서는 값이 크다.Therefore, the maximum value of x i (t) related to f 0 does not destroy the periodicity and the amplitude of the value is small, and the maximum value of x i (t) related to f i has a large amplitude of vibration due to the destruction of the periodicity. . The amplitude value of the estimated pure-tone amplitude-based spectrogram calculated using the maximum value of x i (t) through Equations 11 and 12 reflects the characteristics of the maximum value of x i (t) as it is. Therefore, when calculating the standard deviation of the amplitude values of the spectrogram, the value is small in the part related to f 0 and the value is large in the part related to f i .

정리하면 고조파가 주어졌을 때 고조파의 기본주파수와 공명하는 용수철은 1) 자신의 기본주파수의 스펙트로그램의 진폭을 측정했을 때 시간에 따르는 진폭의 분산이 작고 2) 진폭의 최댓값이 크다는 것을 알 수 있다.In summary, when a harmonic is given, a spring that resonates with the fundamental frequency of the harmonic 1) when the amplitude of the spectrogram of its own fundamental frequency is measured, the dispersion of the amplitude over time is small and 2) the maximum value of the amplitude is large. .

이러한 특성에 기초하여, 본 발명의 실시예는 디제이변환 스펙트로그램의 각각의 고유주파수에 대한, 추정 순음 진폭의 이동평균 또는 추정 순음 진폭의 이동표준변차에 기초하여 기본주파수를 추출한다.Based on these characteristics, the embodiment of the present invention extracts the fundamental frequency based on the moving average of the estimated pure tone amplitude or the moving standard deviation of the estimated pure tone amplitude for each natural frequency of the DJ transform spectrogram.

도 4는 도 3의 기본주파수 추출 단계(200)의 일 예를 나타내는 순서도이다. 도 4를 참조하면, 기본주파수 추출 단계는, 디제이변환 스펙트로그램에서, 추정 순음 진폭의 이동평균 또는 추정 순음 진폭의 이동표준변차에 기초하여 기본주파수 적합도를 계산하는 단계(S210) 및 복수의 시점 각각에서 기본주파수 적합도의 극댓값을 산출하고, 산출된 기본주파수의 적합도의 극댓값에 기초하여 기본주파수를 추출하는 단계(S220)를 포함할 수 있다.4 is a flowchart illustrating an example of the fundamental frequency extraction step 200 of FIG. 3 . Referring to FIG. 4, in the step of extracting the fundamental frequency, the step of calculating the degree of fitness for the fundamental frequency based on the moving average of the estimated pure tone amplitude or the moving standard deviation of the estimated pure tone amplitude in the D-J conversion spectrogram (S210) and each of a plurality of time points. It may include calculating the maximum value of the fitness of the fundamental frequency in , and extracting the fundamental frequency based on the calculated maximum value of the fitness of the fundamental frequency (S220).

시점 t에서 용수철의 고유주파수 f가 입력 고조파의 기본주파수와 유사한 정도를 용수철의 기본 주파수 적합도 R(t, f)라고 하자. 전술한 바와 같이, 기본주파수와 공명하는 용수철의 변위는 고조파를 구성하는 다른 주파수와 공명하는 용수철의 변위와 비교했을 때 시간에 따른 값의 변화가 적다. 또한 고조파를 구성하는 각 주파수와 공명하는 용수철의 변위는 고유주파수가 인접한 용수철보다 진폭이 크다. 이러한 특성을 이용하여 용수철의 기본주파수 적합도 R(t, f)를 다음의 식20에 의해 산출할 수 있다.Let R(t, f) be the degree of similarity between the natural frequency f of the spring and the fundamental frequency of the input harmonic at time t. As described above, the displacement of the spring that resonates with the fundamental frequency has a small change in value over time compared to the displacement of the spring that resonates with other frequencies constituting harmonics. In addition, the displacement of a spring that resonates with each frequency constituting harmonics has a larger amplitude than that of a spring with an adjacent natural frequency. Using these characteristics, the fundamental frequency fitness R(t, f) of the spring can be calculated by the following Equation 20.

Figure pat00052
(식20)
Figure pat00052
(Equation 20)

Figure pat00053
(식21)
Figure pat00053
(Equation 21)

Figure pat00054
(식22)
Figure pat00054
(Equation 22)

Figure pat00055
(식23)
Figure pat00055
(Equation 23)

여기서 N은 정수이고 ε은 0보다 큰, 매우 작은 값이다. 예를 들어, 시점 t에 ε은

Figure pat00056
로 할 수 있다.where N is an integer and ε is a very small value greater than zero. For example, ε at time t is
Figure pat00056
can be done with

스펙트로그램에서 진폭이 작은 값의 영향력을 감소시키기 위하여

Figure pat00057
이면
Figure pat00058
이 되도록 한다. 여기서 β는 작은 값으로 β=10-12 를 사용할 수 있다.To reduce the influence of small amplitude values on the spectrogram
Figure pat00057
the other side
Figure pat00058
let this be Here, β is a small value and β=10 -12 can be used.

실시예에 따라서, (식20) 대신에

Figure pat00059
또는
Figure pat00060
를 사용할 수도 있다. 즉, 기본주파수 적합도는 추정 순음 진폭을 나타내는 디제이변환 스펙트로그램 S(t, f)의 이동평균 M(t, f)에 비례하거나 이동표준편차 σ(t, f)에 반비례할 수 있다.Depending on the embodiment, instead of (Equation 20)
Figure pat00059
or
Figure pat00060
can also be used. That is, the basic frequency fit may be proportional to the moving average M (t, f) of the DJ transform spectrogram S (t, f) representing the estimated pure tone amplitude or inversely proportional to the moving standard deviation σ (t, f).

다음으로, 각 시점에서 고유주파수에 따른 기본주파수 적합도의 극댓값에 기초하여 기본주파수를 추출한다(S220).Next, the fundamental frequency is extracted based on the maximum value of the degree of fitness for the fundamental frequency according to the natural frequency at each time point (S220).

실시예에 따라, 기본주파수는, 각 시점에서 고유주파수에 따른 기본주파수 적합도의 극댓값에 해당하는 주파수 중 가장 낮은 주파수로 추출될 수 있다. Depending on the embodiment, the fundamental frequency may be extracted as the lowest frequency among frequencies corresponding to the maximum value of the degree of fitness of the fundamental frequency according to the natural frequency at each time point.

도 5는 도 4의 기본주파수 추출 단계(S220)의 일 예를 나타내는 순서도이다.5 is a flowchart illustrating an example of the fundamental frequency extraction step ( S220 ) of FIG. 4 .

도 5를 참조하면 기본주파수 추출 단계(S220)는 노이즈의 영향을 배제하여 정확도를 향상시키기 위해, 흑백스펙트로그램 생성 단계(S310), 평균흑백스펙트로그램 생성 단계(S320), 평균흑백스펙트로그램의 극댓값 추출 단계(S330), 후보기본주파수 추출 단계(S340), 흑백스펙트로그램기반 기본주파수로 설정 단계(S350) 및 최종 기본주파수로 설정하는 단계(S360)를 포함할 수 있다.Referring to FIG. 5, in the basic frequency extraction step (S220), in order to improve accuracy by excluding the influence of noise, the black and white spectrogram generation step (S310), the average black and white spectrogram generation step (S320), and the maximum value of the average black and white spectrogram It may include an extraction step (S330), a candidate fundamental frequency extraction step (S340), a step of setting the basic frequency based on the black and white spectrogram (S350), and a step of setting the final fundamental frequency (S360).

기본주파수 추출 단계(S220)는 S310~S360의 단계를 전부 포함할 필요는 없으며, 실시예에 따라 일부만을 포함할 수 있다.The fundamental frequency extraction step (S220) does not need to include all of the steps of S310 to S360, and may include only some of them according to embodiments.

실시예에 따라, 기본주파수 추출 단계(S220)는 각 시점별 상기 기본주파수 적합도 중 상위 N개(N은 2 이상의 정수)를 추출하고, 상기 N개에 해당하는 고유주파수에 해당하는 값을 "1"로 설정하고 나머지 값을 "0"으로 설정하는 흑백스펙트로그램 생성 단계(S310); 상기 흑백스펙트로그램의 각 지점을 포함하는 동일한 크기의 영역에 대해 상기 흑백스펙트로그램의 평균을 산출하는 평균흑백스펙트로그램 생성 단계(S320); 및 상기 복수의 시점 각각에서 상기 평균흑백스펙트로그램의 극댓값을 추출하는 단계(S330)를 포함할 수 있다.Depending on the embodiment, the fundamental frequency extraction step (S220) extracts the top N (N is an integer of 2 or more) among the fundamental frequency suitability for each time point, and sets the value corresponding to the natural frequency corresponding to the N to "1". A black and white spectrogram generation step of setting the value to "0" and setting the remaining values to "0" (S310); An average black-and-white spectrogram generating step (S320) of calculating an average of the black-and-white spectrogram for an area of the same size including each point of the black-and-white spectrogram; and extracting a maximum value of the average black-and-white spectrogram at each of the plurality of viewpoints (S330).

흑백스펙트로그램 생성 단계(S310)는, 디제이변환 스펙트로그램을 구성하는 시점

Figure pat00061
의 기본주파수 적합도 R(t,f) 중에서 상위 N개를 추출한다. 상위 N개에 들어가는지 여부를 기준으로 값이 0과 1이 되는 흑백스펙트로그램을 구성한다. 만약 R(t,f) 가 시점 t에서 상위 N개에 들어가면 BW(t,f)=1 그렇지 않으면 BW(t,f)=0 이 되도록 한다.The step of generating the black and white spectrogram (S310) is the time of constructing the DJ conversion spectrogram.
Figure pat00061
Extract the top N out of the basic frequency fit R(t,f) of . Construct a black and white spectrogram whose values are 0 and 1 based on whether or not it is in the top N. If R(t,f) is in the top N at time t, BW(t,f)=1, otherwise BW(t,f)=0.

평균흑백스펙트로그램 생성 단계(S320)는, 흑백스펙트로그램 BW(t,f) 을 구성하는 각 지점마다 자신을 기준으로 아래 식과 같이 사각형 영역에서 평균을 구한다. 이렇게 구성된 결과를 평균흑백스펙트로그램

Figure pat00062
라고 하자.In the step of generating the average black and white spectrogram (S320), the average of each point constituting the black and white spectrogram BW(t,f) is obtained in a rectangular region based on itself as shown in the following equation. The result of this configuration is the average black and white spectrogram
Figure pat00062
let's say

Figure pat00063
(식24)
Figure pat00063
(Equation 24)

평균흑백스펙트로그램의 극댓값을 추출하는 단계(S330)는, 평균흑백스펙트로그램에서 각 시점 t마다 고유주파수의 변화에 따른 극댓값들 중 주어진 임계값

Figure pat00064
보다 큰 극댓값들을 추출한다. 여기서 임계값
Figure pat00065
는 각 시점 t마다 구한
Figure pat00066
의 극댓값의 최댓값인
Figure pat00067
에 일정비율 γ (0≤γ≤1.0)을 곱한 값으로 정한다. 예를 들어 γ는 0.2로 설정될 수 있다.In the step of extracting the maximum value of the average black-and-white spectrogram (S330), the given threshold among the maximum values according to the change in natural frequency at each time point t in the average black-and-white spectrogram
Figure pat00064
Extract larger maxima. Threshold here
Figure pat00065
is obtained at each time point t
Figure pat00066
is the maximum of the maxima of
Figure pat00067
It is set as the value multiplied by a certain ratio γ (0≤γ≤1.0). For example, γ may be set to 0.2.

즉 추출된 극댓값들은 아래 조건들을 동시에 만족한다.That is, the extracted maxima simultaneously satisfy the following conditions.

Figure pat00068
, (식25)
Figure pat00068
, (Equation 25)

Figure pat00069
, (식26)
Figure pat00069
, (Equation 26)

Figure pat00070
, (0≤γ≤1.0) (식27)
Figure pat00070
, (0≤γ≤1.0) (Equation 27)

기본주파수 추출 단계(S220)는, 복수의 시점 각각에서, 평균흑백스펙트로그램의 인접하는 극댓값에 해당하는 고유주파수의 차이 및 평균흑백스펙트로그램의 극댓값에 해당하는 고유주파수 중 가장 낮은 주파수에 기초하여 후보기본주파수를 추출하는 단계(S340)를 더 포함할 수 있다.The fundamental frequency extraction step (S220) is a candidate based on the lowest frequency among the natural frequencies corresponding to the maximum value of the average black-and-white spectrogram and the difference between the natural frequencies corresponding to the adjacent maximum values of the average black-and-white spectrogram at each of a plurality of time points. A step of extracting the fundamental frequency (S340) may be further included.

시점 t에서 평균흑백스펙트로그램으로부터 추출된 극댓값들을 주파수 오름차순으로 정렬한 결과에서 k번째 극댓값에 해당하는 주파수를

Figure pat00071
이라 하자. 인접한 주파수들의 간격
Figure pat00072
을 아래와 같이 계산한다.As a result of sorting the maxima extracted from the average black and white spectrogram at time t in ascending frequency order, the frequency corresponding to the kth maxima
Figure pat00071
let's say spacing of adjacent frequencies
Figure pat00072
is calculated as below:

Figure pat00073
(식28)
Figure pat00073
(Equation 28)

Figure pat00074
Figure pat00075
보다 큰 값들을 고르고 그 중 제일 작은 값과
Figure pat00076
를 비교해서 작은 값을 시점 t에서의 후보 기본 주파수
Figure pat00077
로 결정한다. 여기서는 음성이나 악기의 음에 존재하는 고조파의 인접한 주파수들의 차이값들 중에서 최솟값이 기본주파수일 가능성이 크다는 사실을 이용하였다.
Figure pat00074
middle
Figure pat00075
Choose the larger values and select the smallest value among them.
Figure pat00076
By comparing , the small value is the candidate fundamental frequency at time t
Figure pat00077
to decide Here, the fact that among the differences between adjacent frequencies of harmonics present in voice or musical instrument sound, the minimum value is likely to be the fundamental frequency is used.

잡음이 없는 고조파를 구성하는 모든 주파수의 진폭이 동일하다면 각각의 k에 대해서

Figure pat00078
가 된다.If the amplitudes of all frequencies constituting noise-free harmonics are the same, then for each k
Figure pat00078
becomes

기본주파수 추출 단계(S300)는, 흑백스펙트로그램기반 기본주파수 설정 단계(S350)를 포함할 수 있으며, 흑백스펙트로그램기반 기본주파수 설정 단계는, 인접하는 시점을 포함하는 소정 시간 구간에 대해 설정된 흑백스펙트로그램기반 기본주파수의 시간 평균을 계산하고, 상기 시간 평균에 소정 값 이하의 양의 정수들을 각각 곱한 값 부근의 주파수들을 포함하는 제1 주파수 집합을 설정하고, 상기 제1 주파수 집합에 속하는 주파수들 중에서 상기 평균흑백스펙트로그램이 가장 큰 주파수를, 상기 제1 주파수 집합 설정시 곱해진 양의 정수로 나눈 값을, 흑백스펙트로그램기반 기본주파수로 설정하는 단계를 포함할 수 있다.The basic frequency extraction step (S300) may include a black-and-white spectrogram-based basic frequency setting step (S350). Calculate the time average of the gram-based fundamental frequencies, set a first frequency set including frequencies around values obtained by multiplying the time average by positive integers less than or equal to a predetermined value, and among the frequencies belonging to the first frequency set The method may include setting a value obtained by dividing a frequency having the largest average black-and-white spectrogram by a positive integer multiplied when setting the first frequency set as a basic frequency based on the black-and-white spectrogram.

여기서, 초기값의 설정을 위해, 상기 복수의 시점에 대한 상기 후보기본주파수 중에서, 인접하는 시점의 상기 후보기본주파수의 차의 이동분산이 가장 작은 시점의 후보기본주파수를, 상기 이동분산이 가장 작은 시점의 흑백스펙트로그램기반 기본주파수로 설정하는 단계를 더 포함할 수 있다.Here, in order to set the initial value, among the candidate fundamental frequencies for the plurality of viewpoints, a candidate fundamental frequency of a viewpoint having the smallest moving variance of the difference between the candidate fundamental frequencies of adjacent viewpoints is selected. A step of setting the basic frequency based on the black and white spectrogram of the viewpoint may be further included.

각 시점 t에 대해서 후보기본주파수

Figure pat00079
를 찾았다고 가정하자. 각 시점 t에 대해 흑백스펙트로그램기반 기본주파수 BF0(t)를 찾기 위해 첫번째로 특정 시점 t0 에서의 흑백스펙트로그램기반 기본주파수 BF0(t)를 계산한다. 두 번째로 시점 t0로부터 시간을 증가시키면서 흑백스펙트로그램기반 기본주파수를 계산한다. 세번째로 시점 t0 로부터 시간을 감소시키면서 흑백스펙트로그램기반 기본주파수를 계산한다.Candidate fundamental frequencies for each point in time t
Figure pat00079
Suppose you find To find the fundamental frequency BF 0 (t) based on the black-and-white spectrogram for each time point t, first, the fundamental frequency BF 0 (t) based on the black-and-white spectrogram at a specific point in time t 0 is calculated. Second, the fundamental frequency based on the black-and-white spectrogram is calculated while increasing the time from the point in time t 0 . Thirdly, while decreasing the time from the point in time t 0 , the fundamental frequency based on the black and white spectrogram is calculated.

먼저 흑백스펙트로그램기반 기본주파수를 계산하는 시점 t0 은 시간에 따른 흑백스펙트로그램기반 후보기본주파수의 시간에 따른 변화의 분산이 제일 작은 시점으로 정한다. 각 시점 t의 흑백스펙트로그램기반 후보 기본주파수의 변화의 분산 V(t)는 아래 식으로 계산한다.First, the time point t 0 at which the black-and-white spectrogram-based fundamental frequency is calculated is determined as the point at which the variance of the change over time of the black-and-white spectrogram-based candidate fundamental frequency over time is the smallest. The variance V(t) of the change of the candidate fundamental frequency based on the black-and-white spectrogram at each time point t is calculated by the following formula.

Figure pat00080
(식29)
Figure pat00080
(Equation 29)

Figure pat00081
(식30)
Figure pat00081
(Equation 30)

Figure pat00082
(식31)
Figure pat00082
(Equation 31)

V(t)가 가장 작을 때의 시점 t0

Figure pat00083
이고 시점 t0의 기본주파수 BF0(t0)는 아래와 같이 후보 기본주파수와 동일한 값으로 확정한다.The point in time t 0 when V(t) is smallest is
Figure pat00083
, and the fundamental frequency BF 0 (t 0 ) of time t 0 is determined as the same value as the candidate fundamental frequency as follows.

Figure pat00084
(식32)
Figure pat00084
(Equation 32)

두 번째 단계로 시점 t0로부터 시간을 증가시키면서 흑백스펙트로그램기반 기본주파수를 계산한다. 시점 t0부터 시점 tk까지 흑백 스펙트로그램 기반 기본주파수가 구해졌다고 가정하자. 직전까지 구해진 흑백 스펙트로그램 기반 기본주파수들의 n개 평균 주파수 근처와 이 평균 주파수의 양의 정수배 주파수의 근처의 고유주파수 집합을 S(tk+1)이라 하자.In the second step, the fundamental frequency based on the black-and-white spectrogram is calculated while increasing the time from the point in time t 0 . Assume that the fundamental frequency based on the black-and-white spectrogram is obtained from the time point t 0 to the time point t k . Let S(t k+1 ) be the set of eigenfrequencies near n average frequencies of black-and-white spectrogram-based fundamental frequencies obtained up to the previous point and around positive integer multiple frequencies of this average frequency.

Figure pat00085
Figure pat00085

(식33) (Equation 33)

여기서,here,

Figure pat00086
(식34)
Figure pat00086
(Equation 34)

이며, 예를 들어 Δf=20Hz, imax=5 로 설정될 수 있다., and may be set to, for example, Δf = 20Hz and i max =5.

집합 S(tk+1)에 속하는 고유주파수 중 평균흑백스펙트로그램의 값이 제일 큰 주파수가 fmax 이고 fmax 는 주파수 영역

Figure pat00087
에 속하다고 가정하자. 그러면 시점 tk+1 에서의 흑백스펙트로그램기반 기본주파수 BF0(tk+1)는 아래 식으로 구한다.Among the eigenfrequencies belonging to the set S(t k+1 ), f max is the frequency with the largest mean black-and-white spectrogram value, and f max is the frequency domain.
Figure pat00087
Suppose we belong to Then, the basic frequency BF 0 (t k +1 ) based on the black-and-white spectrogram at the time point t k+1 is obtained by the following formula.

Figure pat00088
(식35)
Figure pat00088
(Equation 35)

tk+1 이 주어진 스펙트로그램의 마지막 시간이 될 때까지 k를 1씩 증가시키면서 위의 두 번째 단계를 반복 수행한다.Repeat the second step above while increasing k by 1 until t k+1 is the last time of the given spectrogram.

세 번째 단계에서는 시점 t0 에서 시간을 감소시키면서 두 번째 단계와 유사한 과정을 진행하여 t=0 이 될 때까지 각 시점의 흑백 스펙트로그램 기반 기본주파수를 구한다.In the third step, while decreasing the time from time point t 0 , a process similar to the second step is performed to obtain the black-and-white spectrogram-based fundamental frequency at each time point until t=0.

다음으로, 기본주파수를 추출하는 단계(S300)는, 상기 복수의 시점 각각에서, 흑백스펙트로그램기반 기본주파수에 소정 값 이하의 양의 정수들을 각각 곱한 값을 포함하는 제2 주파수 집합을 설정하고, 상기 제2 주파수 집합에 속하는 주파수들 중에서 상기 기본주파수 적합도가 가장 큰 주파수를, 상기 제2 주파수 집합 설정시 곱해진 양의 정수로 나눈 값을 상기 최종 기본주파수로 설정하는 단계를 더 포함할 수 있다.Next, in the step of extracting the fundamental frequency (S300), at each of the plurality of points in time, a second frequency set including a value obtained by multiplying the black and white spectrogram-based fundamental frequency by positive integers less than or equal to a predetermined value is set, The method may further include setting, as the final fundamental frequency, a value obtained by dividing a frequency having the greatest fundamental frequency suitability among frequencies belonging to the second frequency set by a positive integer multiplied when setting the second frequency set. .

각 시점 t의 흑백스펙트로그램기반 기본주파수 BF0(t) 와 전술한 기본주파수 적합도 R(t, f) 를 이용하여 최종 기본주파수 f0(t) 를 추출하고자 한다.The final fundamental frequency f 0 (t) is to be extracted using the black-and-white spectrogram-based fundamental frequency BF 0 (t) at each time point t and the above-described basic frequency fit R(t, f).

시점 t에서 흑백스펙트로그램기반 기본주파수 BF0(t) 와 BF0(t)의 양의 정수배 주파수 근처의 주파수 집합을

Figure pat00089
라 하자.A set of frequencies near the fundamental frequency BF 0 (t) and positive integer multiples of BF 0 (t) based on the black-and-white spectrogram at time t
Figure pat00089
let's say

Figure pat00090
(식36)
Figure pat00090
(Equation 36)

여기서 Δf=20Hz, imax=5 로 설정될 수 있다.Here, Δf = 20 Hz, i max = 5 may be set.

시점 t에서 집합

Figure pat00091
에 속하는 주파수 중 기본주파수 적합도 R(t, f)가 제일 큰 주파수가 fmax 이고 fmax 는 주파수 영역
Figure pat00092
에 속하다고 가정하자. 그러면 시점 t에서의 최종 기본주파수 f0(t)는 아래 식으로 구한다.set at point t
Figure pat00091
Among the frequencies belonging to , the frequency with the largest fundamental frequency fit R(t, f) is f max , and f max is the frequency domain
Figure pat00092
Suppose we belong to Then, the final fundamental frequency f 0 (t) at time t is obtained by the following formula.

Figure pat00093
(식37)
Figure pat00093
(Equation 37)

다음으로, 최종 기본주파수 f0(t)의 고조파를 트레이닝 데이터로서 생성한다. Next, harmonics of the final fundamental frequency f 0 (t) are generated as training data.

Figure pat00094
(식38)
Figure pat00094
(Equation 38)

여기서,

Figure pat00095
는 시점 t에서 f0(t)의 j배 주파수의 진폭이며,
Figure pat00096
을 만족하고,
Figure pat00097
는 식(11)로부터 알 수 있다. 또한,
Figure pat00098
는 시점 t에서 f0(t)의 j배 주파수의 위상이며,
Figure pat00099
이고,
Figure pat00100
는 식(13)으로부터 알 수 있다.here,
Figure pat00095
is the amplitude of j times the frequency of f 0 (t) at time t,
Figure pat00096
satisfies,
Figure pat00097
can be found from equation (11). also,
Figure pat00098
is the phase of j times the frequency of f 0 (t) at time t,
Figure pat00099
ego,
Figure pat00100
can be found from equation (13).

예를 들어, 디제이변환의 해상도가 1msec이고 샘플링 주파수가 48000Hz인 음성데이터(wav 데이터)로 생성하고자 한다면 1msec 간격마다 48개의 음성데이터를 생성해야 하므로, 시각 t를 1/48msec씩 증가시키면서 F(t)를 생성하도록 한다. 즉, 복수의 시점의 간격을 1/48msec로 할 수 있다.For example, if you want to generate audio data (wav data) with a resolution of 1 msec and a sampling frequency of 48000 Hz in DJ conversion, you need to generate 48 audio data at intervals of 1 msec. ) to generate. That is, the interval between the plurality of viewpoints can be 1/48 msec.

도 6은 시간에 따라 변화하는 고조파의 소리가 입력된 경우 본 발명의 실험예를 나타내는 도면이다.6 is a diagram showing an experimental example of the present invention when a sound of harmonics that changes with time is input.

도 6의 (a)는 소리 입력을 나타내고, 도 6의 (b)는 도 6의 (a)의 소리 입력을 이용하여 생성된 디제이변환 스펙트로그램을 나타내고, 도 6의 (c)는 도 6의 (b)의 디제이변환 스펙트로그램에서 기본주파수 적합도를 산출한 후, 산출된 기본주파수 적합도를 이용하여 생성된 흑백스펙트로그램을 나타내고, 도 6의 (d)는 도 6의 (c)의 흑백스펙트로그램을 이용하여 평균흑백스펙트로그램을 생성한 후, 평균흑백스펙트로그램의 주파수 방향으로의 극댓값과 그 위치의 주파수값들을 이용하여 선정된 후보기본주파수를 나타내고, 도 6의 (e)는 도 6의 (d)의 후보기본주파수를 이용하여 생성된 흑백스펙트로그램기반 기본주파수를 나타내며, 도 6의 (f)는 도 6의 (e)의 흑백스펙트로그램기반 기본주파수 및 기본주파수 적합도를 이용하여 산출된 최종 기본주파수를 나타내며, 도 6의 (g)는 도 5의 (b)의 일부 확대도이다.Figure 6 (a) shows the sound input, Figure 6 (b) shows the DJ conversion spectrogram generated using the sound input of Figure 6 (a), Figure 6 (c) shows the After calculating the basic frequency suitability from the DJ conversion spectrogram of (b), the black and white spectrogram generated using the calculated basic frequency suitability is shown, and FIG. 6(d) is the black and white spectrogram of FIG. 6(c) After generating the average black-and-white spectrogram using , the candidate fundamental frequency selected using the maximum value in the frequency direction of the average black-and-white spectrogram and the frequency values at the location is shown, and FIG. The basic frequency based on the black and white spectrogram generated using the candidate fundamental frequency of d) is shown, and FIG. It shows the fundamental frequency, and FIG. 6(g) is a partially enlarged view of FIG. 5(b).

도 6의 (a)~(g)에 도시된 바와 같이, 최종 기본주파수는 소리 입력의 기본 주파수에 해당하는 값과 대략 일치하는 것을 알 수 있다.As shown in (a) to (g) of FIG. 6, it can be seen that the final fundamental frequency substantially coincides with the value corresponding to the fundamental frequency of the sound input.

도 7은 본 발명의 실시예에 대한 실험 결과를 나타내는 표이다.7 is a table showing experimental results for an embodiment of the present invention.

도 7의 상단을 참조하면, 화자 식별을 위한 데이터셋(VoxCeleb1 Identification Set)을 2.58초 동안 입력하여, MUSAN 및 RIR(Room Impulse Response)에 의해 각각 증강된 데이터 및, 본 발명의 실시예에 따라 디제이변환 스펙트로그램을 생성함으로써 증강된 데이터를 thin ResNetSE50 네트워크에 적용하였다. 이때, 손실함수로서 softmax를 이용하였다. Referring to the upper part of FIG. 7, a data set for speaker identification (VoxCeleb1 Identification Set) is input for 2.58 seconds, data augmented by MUSAN and RIR (Room Impulse Response), respectively, and DJ according to an embodiment of the present invention The augmented data was applied to the thin ResNetSE50 network by generating a transformation spectrogram. At this time, softmax was used as the loss function.

본 실험에서 디제이변환 스펙트로그램을 사용하여 증강된 데이터(기본주파수의 고조파)의 함유율은 62.5% 이다. 증강된 데이터 전체 중에서 기본주파수의 고조파의 함유율은 50%~75% 일 수 있다. 기본주파수의 고조파 함유율이 50%보다 낮으면 원본 데이터의 본질이 훼손될 수 있고, 반면에 함유율이 75%보다 높으면 트레이닝 데이터가 원본 데이터에 너무 가깝게 되어 데이터 증강의 효과가 감소될 수 있다. 본 실험에서는 이러한 함유율의 범위의 중간값인 62.5%로 실험하여 성능개선의 효과를 입증하였다.In this experiment, the content of augmented data (harmonics of the fundamental frequency) using the DJ conversion spectrogram is 62.5%. Among the entire augmented data, the content rate of harmonics of the fundamental frequency may be 50% to 75%. If the harmonic content of the fundamental frequency is lower than 50%, the essence of the original data may be damaged, whereas if the content is higher than 75%, the training data may be too close to the original data, reducing the effect of data augmentation. In this experiment, the effect of performance improvement was demonstrated by testing with 62.5%, which is the median value of this content rate range.

종래 기술에 따라 MUSAN 및 RIR에 의해 각각 증강된 데이터만을 사용한 경우 화자 식별의 정확도는 94.91% 였으나, 디제이변환 스펙트로그램에 의해 증강된 데이터를 포함하는 경우 정확도가 95.55%로 향상되는 것을 알 수 있었다.According to the prior art, when only data augmented by MUSAN and RIR were used, the accuracy of speaker identification was 94.91%, but when augmented data by DJ conversion spectrogram was included, the accuracy improved to 95.55%.

도 7의 하단을 참조하면, 화자 검증을 위한 데이터셋(VoxCeleb1 Verification Set)을 2.58초 동안 입력하여, MUSAN 및 RIR(Room Impulse Response)에 의해 각각 증강된 데이터 및 본 발명의 실시예에 따라 디제이변환 스펙트로그램을 생성함으로써 증강된 데이터(함유율 62.5%)를 thin ResNetSE152 네트워크에 적용하였다. 이때, 손실함수로서 angle-proto를 이용하였다. Referring to the lower part of FIG. 7, a data set for speaker verification (VoxCeleb1 Verification Set) is input for 2.58 seconds, data augmented by MUSAN and RIR (Room Impulse Response), respectively, and DJ conversion according to an embodiment of the present invention The augmented data (62.5% content) was applied to the thin ResNetSE152 network by generating a spectrogram. At this time, angle-proto was used as a loss function.

종래기술에 따라 MUSAN 및 RIR에 의해 각각 증강된 데이터만을 사용한 경우 화자 검증의 에러율은 4.279% 였으나, 디제이변환 스펙트로그램에 의해 증강된 데이터를 포함하는 경우 에러율은 4.040%로 감소되어 개선된 효과를 나타내는 것을 알 수 있다.According to the prior art, when only data augmented by MUSAN and RIR were used, the error rate of speaker verification was 4.279%. can know that

머신러닝에서 다양한 데이터 증강법이 이용되고 있으나, 지금까지 원본 데이터의 기본주파수의 고조파를 추출하여 데이터를 증강하는 방법은 전혀 이용된 적이 없으며, 상기 실험 결과로부터 알 수 있듯이 그 효과도 매우 우수함을 알 수 있다.Although various data augmentation methods are used in machine learning, the method of augmenting data by extracting the harmonics of the fundamental frequency of the original data has never been used, and as can be seen from the above experimental results, the effect is very good. can

도 8은 본 발명의 실시예에 따른 데이터 증강 시스템(1)의 구조도이다.8 is a structural diagram of a data augmentation system 1 according to an embodiment of the present invention.

도 8을 참조하면, 데이터 증강 시스템(1)은 처리 장치(2)와 메모리(3)를 포함할 수 있다.Referring to FIG. 8 , the data augmentation system 1 may include a processing device 2 and a memory 3 .

처리 장치(2)는 본 발명의 실시예에 따른 데이터 증강 방법을 실행한다. 데이터 증강 방법은 기본적으로 음성 데이터의 적어도 하나의 기본주파수를 추출하는 단계 및 상기 기본주파수의 고조파를 트레이닝 데이터로서 생성하는 단계를 포함하며, 실시예에 따라 전술한 추가적인 단계를 포함할 수 있다.The processing device 2 executes a data augmentation method according to an embodiment of the present invention. The data augmentation method basically includes extracting at least one fundamental frequency of voice data and generating harmonics of the fundamental frequency as training data, and may include the above-described additional steps according to embodiments.

메모리(3)에는 데이터 증강 방법의 실행에 필요한 데이터가 저장된다. 예를 들어, 메모리(3)에는 음성데이터가 저장되어, 음성데이터가 처리 장치(2)에 제공될 수 있다. 또한, 메모리(3)에는 추정순음진폭, 안정 상태 예상 진폭, 순음 예측 진폭, 위상, 디제이변환 스펙트로그램, 기본주파수 적합도, 흑백스펙트로그램, 평균흑백스펙트로그램, 흑백스펙트로그램기반 기본주파수 등이 저장되고, 처리 장치(2)는 이들을 이용하여 최종 기본주파수를 추출할 수 있다.The memory 3 stores data necessary for executing the data augmentation method. For example, the memory 3 stores audio data so that the audio data can be provided to the processing device 2 . In addition, the memory 3 stores the estimated pure tone amplitude, steady state expected amplitude, pure tone predicted amplitude, phase, DJ conversion spectrogram, basic frequency fit, black and white spectrogram, average black and white spectrogram, black and white spectrogram based basic frequency, etc. , the processing device 2 can extract the final fundamental frequency using them.

도 8에 도시되지는 않았지만, 데이터 증강 시스템(1)은 음성을 입력받아 전자적인 음성데이터로 변환하기 위한 마이크와 같은 음성 입력 장치, 메모리(3)에 저장된 데이터들을 보여주기 위한 모니터와 같은 디스플레이 장치, 사용자의 입력을 받기 위한 키보드, 마우스 등의 입출력 장치를 추가적으로 포함할 수 있다.Although not shown in FIG. 8, the data augmentation system 1 includes a voice input device such as a microphone for receiving voice and converting it into electronic voice data, and a display device such as a monitor for showing data stored in the memory 3. , input/output devices such as a keyboard and a mouse for receiving user input may be additionally included.

이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.Although the present invention has been described in detail through preferred embodiments, the present invention is not limited thereto, and various changes and applications can be made without departing from the technical spirit of the present invention. self-explanatory for technicians Therefore, the true scope of protection of the present invention should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present invention.

Claims (14)

각 단계가 컴퓨터 프로세서에 의해 수행되며, 음성 인식 또는 화자 인식을 위한 머신러닝의 트레이닝 데이터를 생성하기 위한 데이터 증강법으로,
(a) 음성 데이터의 적어도 하나의 기본주파수를 추출하는 단계; 및
(b) 상기 기본주파수의 고조파를 트레이닝 데이터로서 생성하는 단계
를 포함하는 데이터 증강법.
Each step is performed by a computer processor and is a data augmentation method for generating machine learning training data for speech recognition or speaker recognition,
(a) extracting at least one fundamental frequency of voice data; and
(b) generating harmonics of the fundamental frequency as training data;
A data augmentation method comprising a.
제1항에 있어서,
상기 (a) 단계는,
(a-1) 음성 데이터의 입력에 대해, 상이한 고유주파수를 갖는 복수의 용수철의 진동 운동을 각각 모델링하여 상기 고유주파수에 따른 추정 순음 진폭 및 위상을 산출하고, 상기 복수의 용수철 각각의 고유주파수에 해당하는 주파수 및 복수의 시점에 따른 상기 추정 순음 진폭을 나타내는 디제이변환 스펙트로그램을 생성하는 단계; 및
(a-2) 상기 디제이변환 스펙트로그램의 상기 각각의 고유주파수에 대한, 상기 추정 순음 진폭의 이동평균 또는 상기 추정 순음 진폭의 이동표준변차에 기초하여 상기 기본주파수를 추출하는 단계
를 포함하는 데이터 증강법.

According to claim 1,
In step (a),
(a-1) With respect to the input of voice data, the vibration motion of a plurality of springs having different natural frequencies is modeled, respectively, to calculate the estimated pure tone amplitude and phase according to the natural frequencies, and the natural frequency of each of the plurality of springs is calculated. generating a DJ-converted spectrogram representing the estimated pure tone amplitude according to a corresponding frequency and a plurality of time points; and
(a-2) extracting the fundamental frequency based on a moving average of the estimated pure tone amplitude or a moving standard deviation of the estimated pure tone amplitude for each natural frequency of the DJ transform spectrogram;
A data augmentation method comprising a.

제2항에 있어서,
상기 (a-1) 단계는,
상기 복수의 용수철 각각의 고유 1주기 간격의 두 시점의 진폭에 기초하여, 안정 상태에서 상기 복수의 용수철 각각의 진폭의 수렴값인 안정 상태 예상 진폭을 추정하는 단계; 및
상기 안정 상태 예상 진폭에 기초하여 추정된 입력 소리의 진폭인 순음 예측 진폭에 기초하여 상기 추정 순음 진폭을 산출하는 단계
를 포함하는 데이터 증강법.
According to claim 2,
In the step (a-1),
estimating a steady-state expected amplitude, which is a convergence value of amplitudes of each of the plurality of springs in a stable state, based on amplitudes of two time points of a unique one-cycle interval of each of the plurality of springs; and
Calculating the estimated pure tone amplitude based on the predicted pure tone amplitude, which is the amplitude of the input sound estimated based on the expected steady state amplitude.
A data augmentation method comprising a.
제3항에 있어서,
상기 추정 순음 진폭은 상기 안정 상태 예상 진폭 또는 상기 순음 예측 진폭인 것을 특징으로 하는 데이터 증강법.
According to claim 3,
The estimated pure tone amplitude is the steady state expected amplitude or the predicted pure tone amplitude.
제2항에 있어서,
상기 (a-2) 단계는,
(a-21) 상기 디제이변환 스펙트로그램에서, 상기 추정 순음 진폭의 이동평균 또는 상기 추정 순음 진폭의 이동표준변차에 기초하여 기본주파수 적합도를 계산하는 단계; 및
(a-22) 상기 복수의 시점 각각에서 상기 기본주파수 적합도의 극댓값을 산출하고, 산출된 기본주파수 적합도의 극댓값에 기초하여 기본주파수를 추출하는 단계
를 포함하는 것을 특징으로 하는 데이터 증강법.

According to claim 2,
In the step (a-2),
(a-21) calculating a degree of fitness for the fundamental frequency based on a moving average of the estimated pure-tone amplitudes or a moving standard deviation of the estimated pure-tone amplitudes in the DJ transform spectrogram; and
(a-22) calculating the maximum value of the fitness for the fundamental frequency at each of the plurality of points in time, and extracting the fundamental frequency based on the calculated maximum value of the fitness for the fundamental frequency;
Data augmentation method comprising a.

제5항에 있어서,
상기 기본주파수 적합도는, 상기 추정 순음 진폭의 이동평균에 비례하거나 상기 추정 순음 진폭의 이동표준변차에 반비례하는 것을 특징으로 하는 데이터 증강법.
According to claim 5,
The data augmentation method, characterized in that the degree of fitness for the fundamental frequency is proportional to a moving average of the estimated pure-tone amplitude or inversely proportional to a moving standard deviation of the estimated pure-tone amplitude.
제5항에 있어서,
상기 (a-22) 단계는,
상기 복수의 시점 각각에서, 상기 기본주파수 적합도 중 상위 N개(N은 2 이상의 정수)를 추출하고, 상기 N개에 해당하는 고유주파수에 해당하는 값을 "1"로 설정하고 나머지 값을 "0"으로 설정하는 흑백스펙트로그램 생성 단계;
상기 흑백스펙트로그램의 각 지점을 포함하는 동일한 크기의 영역에 대해 상기 흑백스펙트로그램의 평균을 산출하는 평균흑백스펙트로그램 생성 단계; 및
상기 복수의 시점 각각에서 상기 평균흑백스펙트로그램의 극댓값을 추출하는 단계
를 포함하는 것을 특징으로 하는 데이터 증강법.
According to claim 5,
In the step (a-22),
At each of the plurality of points in time, the top N (N is an integer of 2 or more) of the fundamental frequency conformity are extracted, the values corresponding to the natural frequencies corresponding to the N are set to "1", and the remaining values are set to "0". Black and white spectrogram generation step set to ";
an average black-and-white spectrogram generating step of calculating an average of the black-and-white spectrogram for an area of the same size including each point of the black-and-white spectrogram; and
Extracting the maximum value of the average black-and-white spectrogram at each of the plurality of time points
Data augmentation method comprising a.
제7항에 있어서,
상기 (a-22) 단계는,
상기 복수의 시점 각각에서, 상기 평균흑백스펙트로그램의 인접하는 극댓값에 해당하는 고유주파수의 차이 및 상기 평균흑백스펙트로그램의 극댓값에 해당하는 고유주파수 중 가장 낮은 주파수에 기초하여 후보기본주파수를 추출하는 단계;
를 더 포함하는 것을 특징으로 하는 데이터 증강법.
According to claim 7,
In the step (a-22),
Extracting a candidate fundamental frequency based on the difference between natural frequencies corresponding to adjacent maxima of the average black-and-white spectrogram and the lowest frequency among the natural frequencies corresponding to the maximum of the average black-and-white spectrogram at each of the plurality of points in time. ;
Data augmentation method characterized in that it further comprises.
제8항에 있어서,
상기 (a-22) 단계는,
인접하는 시점을 포함하는 소정 시간 구간에 대해 설정된 흑백스펙트로그램기반 기본주파수의 시간 평균을 계산하고, 상기 시간 평균에 소정 값 이하의 양의 정수들을 각각 곱한 값 부근의 주파수들을 포함하는 제1 주파수 집합을 설정하고, 상기 제1 주파수 집합에 속하는 주파수들 중에서 상기 평균흑백스펙트로그램이 가장 큰 주파수를, 상기 제1 주파수 집합 설정시 곱해진 양의 정수로 나눈 값을, 흑백스펙트로그램기반 기본주파수로 설정하는 단계
를 더 포함하는 것을 특징으로 하는 데이터 증강법.
According to claim 8,
In the step (a-22),
A first frequency set including frequencies near a value obtained by calculating a time average of black-and-white spectrogram-based basic frequencies set for a predetermined time interval including adjacent time points, and multiplying the time average by positive integers less than or equal to a predetermined value, respectively. Set a value obtained by dividing a frequency having the largest average black-and-white spectrogram among frequencies belonging to the first frequency set by a positive integer multiplied when setting the first frequency set as the black-and-white spectrogram-based fundamental frequency. step to do
Data augmentation method characterized in that it further comprises.
제9항에 있어서,
상기 (a-22) 단계는,
상기 복수의 시점에 대한 상기 후보기본주파수 중에서, 인접하는 시점의 상기 후보기본주파수의 차의 이동분산이 가장 작은 시점의 후보기본주파수를, 상기 이동분산이 가장 작은 시점의 흑백스펙트로그램기반 기본주파수로 설정하는 단계;
를 더 포함하는 것을 특징으로 하는 데이터 증강법.
According to claim 9,
In the step (a-22),
Among the candidate fundamental frequencies for the plurality of viewpoints, a candidate fundamental frequency at a time point in which the movement variance of the difference between the candidate fundamental frequencies of adjacent viewpoints is the smallest is determined as the black-and-white spectrogram-based fundamental frequency at the viewpoint in which the movement variance is the smallest. setting up;
Data augmentation method characterized in that it further comprises.
제9항에 있어서,
상기 (a-22) 단계는,
상기 복수의 시점 각각에서, 흑백스펙트로그램기반 기본주파수에 소정 값 이하의 양의 정수들을 각각 곱한 값을 포함하는 제2 주파수 집합을 설정하고, 상기 제2 주파수 집합에 속하는 주파수들 중에서 상기 기본주파수 적합도가 가장 큰 주파수를, 상기 제2 주파수 집합 설정시 곱해진 양의 정수로 나눈 값을 상기 최종 기본주파수로 설정하는 단계
를 더 포함하는 것을 특징으로 하는 데이터 증강법.
According to claim 9,
In the step (a-22),
At each of the plurality of points in time, a second frequency set including a value obtained by multiplying a black and white spectrogram-based fundamental frequency by positive integers less than or equal to a predetermined value is set, and among the frequencies belonging to the second frequency set, the basic frequency conformity Setting a value obtained by dividing the largest frequency by a positive integer multiplied when setting the second frequency set as the final fundamental frequency.
Data augmentation method characterized in that it further comprises.
제3항에 있어서,
상기 (b) 단계에서, 상기 기본주파수의 고조파는, 상기 기본주파수의 고조파에 해당하는 고유주파수를 갖는 용수철의 안정상태 예상진폭 및 위상을, 상기 기본주파수의 고조파의 진폭 및 위상으로 갖는 것을 특징을 하는 데이터 증강법.
According to claim 3,
In the step (b), the harmonics of the fundamental frequency have the expected amplitude and phase of a spring having a natural frequency corresponding to the harmonics of the fundamental frequency as the amplitude and phase of the harmonics of the fundamental frequency. data augmentation method.
제1항에 있어서,
상기 기본주파수의 고조파는 트레이닝 데이터 전체 중에서 50%~75%가 함유되는 것을 특징으로 하는 데이터 증강법.

According to claim 1,
Data augmentation method, characterized in that 50% to 75% of the harmonics of the fundamental frequency are contained in the entire training data.

제1항의 각 단계가 컴퓨터에서 실행될 수 있도록 기록된, 컴퓨터로 판독 가능한 기록 매체.
A computer-readable recording medium on which each step of claim 1 is recorded so that it can be executed by a computer.
KR1020210126827A 2021-09-27 2021-09-27 Data augmentation method using fundamental freuqency obtained by dj transform KR20230044574A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210126827A KR20230044574A (en) 2021-09-27 2021-09-27 Data augmentation method using fundamental freuqency obtained by dj transform

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210126827A KR20230044574A (en) 2021-09-27 2021-09-27 Data augmentation method using fundamental freuqency obtained by dj transform

Publications (1)

Publication Number Publication Date
KR20230044574A true KR20230044574A (en) 2023-04-04

Family

ID=85928797

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210126827A KR20230044574A (en) 2021-09-27 2021-09-27 Data augmentation method using fundamental freuqency obtained by dj transform

Country Status (1)

Country Link
KR (1) KR20230044574A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558266A (en) * 2024-01-12 2024-02-13 腾讯科技(深圳)有限公司 Model training method, device, equipment and computer readable storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102158743B1 (en) 2016-03-15 2020-09-22 한국전자통신연구원 Data augmentation method for spontaneous speech recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102158743B1 (en) 2016-03-15 2020-09-22 한국전자통신연구원 Data augmentation method for spontaneous speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558266A (en) * 2024-01-12 2024-02-13 腾讯科技(深圳)有限公司 Model training method, device, equipment and computer readable storage medium
CN117558266B (en) * 2024-01-12 2024-03-22 腾讯科技(深圳)有限公司 Model training method, device, equipment and computer readable storage medium

Similar Documents

Publication Publication Date Title
Bader Nonlinearities and synchronization in musical acoustics and music psychology
Bilbao et al. Numerical modeling of collisions in musical instruments
US8447585B2 (en) System and method for characterizing, synthesizing, and/or canceling out acoustic signals from inanimate sound sources
Issanchou et al. A modal-based approach to the nonlinear vibration of strings against a unilateral obstacle: Simulations and experiments in the pointwise case
JP6195548B2 (en) Signal analysis apparatus, method, and program
Aramaki et al. Resynthesis of coupled piano string vibrations based on physical modeling
KR20230044574A (en) Data augmentation method using fundamental freuqency obtained by dj transform
KR102164306B1 (en) Fundamental Frequency Extraction Method Based on DJ Transform
KR102277952B1 (en) Frequency estimation method using dj transform
Selfridge et al. Real-time physical model of an Aeolian harp
JP3174777B2 (en) Signal processing method and apparatus
Issanchou et al. A modal approach to the numerical simulation of a string vibrating against an obstacle: Applications to sound synthesis
De Lauro et al. Analogical model for mechanical vibrations in flue organ pipes inferred by independent component analysis
Tiraboschi et al. Spectral analysis for modal parameters linear estimate
Jiolat et al. Whistling in the clavichord
Hjerrild et al. Physical models for fast estimation of guitar string, fret and plucking position
Huh et al. A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit
JP2017151224A (en) Basic frequency pattern prediction device, method, and program
JP6139430B2 (en) Signal processing apparatus, method and program
US20230410821A1 (en) Sound processing method and device using dj transform
JP2019139209A (en) Code estimation method and code estimation device
Weger et al. AltAR/table: a platform for plausible auditory augmentation
Hegerl et al. Numerical simulation of the glottal flow by a model based on the compressible Navier-Stokes equations
US20230215456A1 (en) Sound processing method using dj transform
JP5318042B2 (en) Signal analysis apparatus, signal analysis method, and signal analysis program