KR102313387B1 - Method and Apparatus for Separating Speaker Based on Machine Learning - Google Patents
Method and Apparatus for Separating Speaker Based on Machine Learning Download PDFInfo
- Publication number
- KR102313387B1 KR102313387B1 KR1020190141938A KR20190141938A KR102313387B1 KR 102313387 B1 KR102313387 B1 KR 102313387B1 KR 1020190141938 A KR1020190141938 A KR 1020190141938A KR 20190141938 A KR20190141938 A KR 20190141938A KR 102313387 B1 KR102313387 B1 KR 102313387B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- speech
- mixed
- speaker
- residual
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000010801 machine learning Methods 0.000 title abstract description 8
- 238000000926 separation method Methods 0.000 claims abstract description 81
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000006835 compression Effects 0.000 claims 1
- 238000007906 compression Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 10
- 238000013144 data compression Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
기계학습 기반의 화자 분리 방법 및 그를 위한 장치 를 개시한다.
본 발명의 실시예에 따른 화자 분리 방법은, 적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계; 상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및 상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 포함할 수 있다. Disclosed are a machine learning-based speaker separation method and an apparatus therefor.
A speaker separation method according to an embodiment of the present invention includes: a voice input step of receiving a mixed voice composed of at least one speaker's voice; a voice generating step of generating and outputting a first voice A' for a specific speaker based on the mixed voice; and separating the first voice from the actual second voice (A) of the specific speaker, and separating the mixed voice from the residual voice generated based on the first voice and the second voice to perform speaker separation. It may include a voice discrimination step.
Description
본 발명은 기계학습을 사용하여 복수의 화자 음성이 혼합된 혼합 음성에서 화자를 분리하는 방법 및 장치에 관한 것이다. The present invention relates to a method and apparatus for separating a speaker from a mixed voice in which a plurality of speaker voices are mixed using machine learning.
이 부분에 기술된 내용은 단순히 본 발명의 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The content described in this section merely provides background information on the embodiments of the present invention and does not constitute the prior art.
화자 분리 시스템은 여러 화자의 음성이 혼합된 소리를 입력으로 받아 특정 화자의 음성만을 분리하여 출력하는 방법을 학습한 모델을 적용한 시스템을 의미한다. 여기서, 화자 분리는 신호 분리 연구의 한 분야로써, 응급 상황, 재난 상황, 전쟁 상황, 토론 상황 및 특정 화자 음성 인식 등 여러 화자가 동시에 발화를 하여 화자 구분이 힘든 혼잡한 환경에서 특정 화자만의 음성을 타겟으로 하여 들어야만 할 때 유용하게 활용이 되며, 다양한 필드에서 응용할 수 있기 때문에 활발히 연구가 진행되고 있다.The speaker separation system refers to a system to which a model is applied that learns how to receive a mixed voice of several speakers as input and separate and output only the voice of a specific speaker. Here, speaker separation is a field of signal separation research. In an emergency situation, disaster situation, war situation, discussion situation, and speech recognition of a specific speaker, the voice of a specific speaker only in a congested environment where it is difficult to distinguish the speaker because several speakers speak at the same time It is useful when you have to target and listen to, and research is being actively conducted because it can be applied in various fields.
하지만 신호 중에서도 음성과 같이 연속적이고 다양한 진폭을 가진 신호들의 분포를 학습하여 분리하는 것은 간단하지 않다. 특히, 지도 학습(Supervised Learning), 시퀀스 데이터 처리 모델을 기반으로 한 기존 화자 분리 방법들의 한계가 드러나고 있기 때문에 적대 학습의 효과를 극대화할 방법이 요구된다. However, it is not simple to learn and separate the distribution of continuous and variable amplitude signals such as voice among signals. In particular, since the limitations of existing speaker separation methods based on supervised learning and sequence data processing models are exposed, a method that maximizes the effect of adversarial learning is required.
기존의 화자 분리 연구에서는 소스 음성(A, B)들과 이 소스 음성들이 섞인 혼합 음성(X = A + B)의 분포를 매핑(Mapping) 하는 지도 학습 방법을 주로 사용하였다. 이 학습 방법은 혼합 음성들의 소스가 되는 모든 소스 음성들을 따로 분리한 데이터를 구축해야 한다는 어려움이 존재한다.In the existing speaker separation study, the supervised learning method was mainly used for mapping the distribution of source voices (A, B) and mixed voices (X = A + B) mixed with these source voices. In this learning method, there is a difficulty in constructing data separately from all the source voices that are the sources of the mixed voices.
또한, LSTM(Long Term Short Memory)과 같은 시퀀스 데이터를 처리하는 데 사용되는 순환 모델들을 주로 사용였는데, 이런 순환 모델의 고질적인 문제점인 매우 긴 시퀀스에는 잘 대응하지 못한다라는 단점이 음성을 처리하는 과정에서 그대로 노출되었다. 이는 음성 웨이브폼(waveform)을 STFT(Short-Time Fourier Transform) 혹은 스펙트로그램(Spectrogram) 등으로 변환 그리고 역변환 하는 별도의 처리 과정을 요구하도록 만들었다.In addition, cyclic models used to process sequence data such as LSTM (Long Term Short Memory) were mainly used, but the disadvantage of not responding well to very long sequences, which is a chronic problem of such cyclic models, is the process of processing speech. was exposed as such. This made it necessary to require a separate processing process for converting and inverse transforming speech waveforms into Short-Time Fourier Transform (STFT) or Spectrogram.
본 발명은 생성자 (generator)와 두 개의 구분자 (discriminator)를 두어 적대 학습 시킴으로써 화자 분리 성능을 개선하는 동시에 실제 음성과 생성된 음성의 잔차를 이용하여 화자 분리 분야에서 적대 학습의 효과를 극대화시키는 기계학습 기반의 화자 분리 방법 및 그를 위한 장치를 제공하는 데 주된 목적이 있다.The present invention is a machine learning that improves speaker separation performance by adversarial learning with a generator and two discriminators, and at the same time maximizes the effect of adversarial learning in the speaker separation field using the residual between real and generated speech. An object of the present invention is to provide a speaker separation method based on the present invention and an apparatus therefor.
본 발명의 일 측면에 의하면, 상기 목적을 달성하기 위한 화자 분리 방법은, 적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계; 상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및 상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 포함할 수 있다. According to one aspect of the present invention, there is provided a speaker separation method for achieving the above object, comprising: a voice input step of receiving a mixed voice composed of at least one speaker's voice; a voice generating step of generating and outputting a first voice A' for a specific speaker based on the mixed voice; and separating the first voice from the actual second voice (A) of the specific speaker, and separating the mixed voice from the residual voice generated based on the first voice and the second voice to perform speaker separation. It may include a voice discrimination step.
또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 화자 분리 장치는 하나 이상의 프로세서; 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서, 적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계; 상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및 상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 포함하는 동작들을 수행하게 할 수 있다. In addition, according to another aspect of the present invention, a speaker separation apparatus for achieving the above object includes one or more processors; and a memory storing one or more programs executed by the processor, wherein when the programs are executed by one or more processors, the one or more processors receive a mixed voice composed of voices of at least one speaker. voice input step; a voice generating step of generating and outputting a first voice A' for a specific speaker based on the mixed voice; and separating the first voice from the actual second voice (A) of the specific speaker, and separating the mixed voice from the residual voice generated based on the first voice and the second voice to perform speaker separation. It is possible to perform operations including a voice discrimination step.
또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 화자 분리 방법은, 적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받고, 특정 화자에 대한 음성을 기반으로 학습된 제1 학습 결과 및 상기 특정 화자를 제외한 음성을 기반으로 학습된 제2 학습 결과를 기반으로 상기 혼합 음성에 포함된 상기 특정 화자를 분리할 수 있다.According to another aspect of the present invention, in a speaker separation method for achieving the above object, a first learning result obtained by receiving a mixed voice composed of at least one speaker's voice and learning based on the voice of a specific speaker and the specific speaker included in the mixed voice may be separated based on a second learning result learned based on a voice excluding the specific speaker.
이상에서 설명한 바와 같이, 본 발명은 잔차를 이용한 적대 학습을 기반 화자 분리 시스템 및 방법으로 기존 방법에 비해 타겟 음성 분리 성능을 향상시킬 수 있는 효과가 있다.As described above, the present invention is a speaker separation system and method based on adversarial learning using residuals, which has the effect of improving target speech separation performance compared to the existing method.
또한, 본 발명은 잔차 음성을 구분하기 위한 적대 학습을 통해 혼합 음성에서 타겟 소스 음성을 제외한 소스 음성들을 제거하는 성능을 향상시킬 수 있는 효과가 있다. In addition, the present invention has the effect of improving the performance of removing source voices other than the target source voice from the mixed voice through adversarial learning for distinguishing residual voices.
또한, 본 발명은 기존의 지도 학습 기반 방법들과 달리 하나의 타겟 소스 음성(A)과 여러 소스 음성들이 합성된 혼합 음성(B)의 매핑된 데이터 구축만으로 학습이 가능하며, 순환 모델 기반의 방법들과 달리 별도의 데이터 처리 작업 없이 음성 웨이브폼 세그먼트만을 사용할 수 있다는 장점이 있다.In addition, unlike existing supervised learning-based methods, the present invention can learn only by constructing mapped data of a single target source voice (A) and a mixed voice (B) in which multiple source voices are synthesized, and a cyclic model-based method Unlike others, it has the advantage of being able to use only the voice waveform segment without a separate data processing operation.
도 1은 본 발명의 실시예에 따른 화자 분리 장치를 개략적으로 나타낸 블록 구성도이다.
도 2는 본 발명의 실시예에 따른 프로세서의 동작 구성을 나타낸 블록 구성도이다.
도 3은 본 발명의 실시예에 따른 음성 생성부의 동작 구성을 나타낸 블록 구성도이다.
도 4는 본 발명의 실시예에 따른 음성 구분부의 동작 구성을 나타낸 블록 구성도이다.
도 5는 본 발명의 실시예에 따른 화자 분리 방법을 설명하기 위한 순서도이다.
도 6은 본 발명의 실시예에 따른 생성적 적대 신경망 기반의 화자 분리 동작을 설명하기 위한 예시도이다. 1 is a block diagram schematically illustrating a speaker separation apparatus according to an embodiment of the present invention.
2 is a block diagram illustrating an operation configuration of a processor according to an embodiment of the present invention.
3 is a block diagram illustrating an operation configuration of a voice generator according to an embodiment of the present invention.
4 is a block diagram illustrating an operation configuration of a voice classification unit according to an embodiment of the present invention.
5 is a flowchart illustrating a speaker separation method according to an embodiment of the present invention.
6 is an exemplary diagram for explaining a speaker separation operation based on a generative adversarial neural network according to an embodiment of the present invention.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다. 이하에서는 도면들을 참조하여 본 발명에서 제안하는 화자 분리 방법 및 그를 위한 장치에 대해 자세하게 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In describing the present invention, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, preferred embodiments of the present invention will be described below, but the technical spirit of the present invention is not limited thereto and may be variously implemented by those skilled in the art without being limited thereto. Hereinafter, the speaker separation method and apparatus therefor proposed by the present invention will be described in detail with reference to the drawings.
도 1은 본 발명의 실시예에 따른 화자 분리 장치를 개략적으로 나타낸 블록 구성도이다. 1 is a block diagram schematically illustrating a speaker separation apparatus according to an embodiment of the present invention.
본 실시예에 따른 화자 분리 장치(100)는 입력부(110), 출력부(120), 프로세서(130), 메모리(140) 및 데이터 베이스(150)를 포함한다. 도 1의 화자 분리 장치(100)는 일 실시예에 따른 것으로서, 도 1에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 화자 분리 장치(100)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 화자 분리 장치(100)는 컴퓨팅 디바이스로 구현될 수 있고, 화자 분리 장치(100)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.The
화자 분리 장치(100)는 다양한 화자로 구성된 혼합 음성을 입력으로 받아 원하는 타겟 음성으로 분리하여 출력하는 모델 및 잔차 기반 적대 학습을 통한 음성 분리 모델을 구축하여 혼합 음성의 화자를 분리하는 동작을 수행한다. The
입력부(110)는 화자 분리 장치(100)의 화자 분리 동작을 수행하기 위한 신호 또는 데이터를 입력하거나 획득하는 수단을 의미한다. 입력부(110)는 프로세서(130)와 연동하여 다양한 형태의 신호 또는 데이터를 입력하거나, 외부 장치와 연동하여 직접 데이터를 획득하여 프로세서(130)로 전달할 수도 있다. 여기서, 입력부(110)는 혼합 음성 또는 특정 화자의 음성 등을 입력하기 위한 마이크로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다. The input unit 110 means a means for inputting or acquiring a signal or data for performing a speaker separation operation of the
출력부(120)는 프로세서(130)와 연동하여 혼합 음성의 화자 분리 결과, 학습 결과 등 다양한 정보를 표시할 수 있다. 출력부(120)는 화자 분리 장치(100)에 구비된 디스플레이(미도시)를 통해 다양한 정보를 표시하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다. The
프로세서(130)는 메모리(140)에 포함된 적어도 하나의 명령어 또는 프로그램을 실행시키는 기능을 수행한다.The
본 실시예에 따른 프로세서(130)는 입력부(110) 또는 데이터 베이스(150)로부터 획득한 혼합 음성을 기반으로 기계학습을 수행하고, 기계학습 결과를 기반으로 혼합 음성에서 특정 화자의 음성을 분리하는 동작을 수행한다. The
프로세서(130)는 혼합 음성을 입력 받고, 혼합 음성을 기반으로 특정 화자의 실제 음성과 비교하여 학습하기 위한 제1 음성을 생성하고, 생성된 제1 음성을 특정 화자의 실제 음성인 제2 음성(A)과 구분하고, 혼합 음성과 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하는 학습 동작을 수행하여 혼합 음성에 대한 화자 분리가 수행되도록 한다. 본 실시예에 따른 프로세서(130)의 자세한 동작은 도 2 내지 4에서 설명하도록 한다. The
메모리(140)는 프로세서(130)에 의해 실행 가능한 적어도 하나의 명령어 또는 프로그램을 포함한다. 메모리(140)는 음성을 생성하는 동작, 음성을 구분하는 동작 등을 위한 명령어 또는 프로그램을 포함할 수 있다. 또한, 메모리(140)는 학습 결과를 적용하는 동작, 화자를 분리하는 동작 등을 위한 명령어 또는 프로그램을 포함할 수 있다. The
데이터 베이스(150)는 데이터베이스 관리 프로그램(DBMS)을 이용하여 컴퓨터 시스템의 저장공간(하드디스크 또는 메모리)에 구현된 일반적인 데이터구조를 의미하는 것으로, 데이터의 검색(추출), 삭제, 편집, 추가 등을 자유롭게 행할 수 있는 데이터 저장형태를 뜻하는 것으로, 오라클(Oracle), 인포믹스(Infomix), 사이베이스(Sybase), DB2와 같은 관계형 데이타베이스 관리 시스템(RDBMS)이나, 겜스톤(Gemston), 오리온(Orion), O2 등과 같은 객체 지향 데이타베이스 관리 시스템(OODBMS) 및 엑셀론(Excelon), 타미노(Tamino), 세카이주(Sekaiju) 등의 XML 전용 데이터베이스(XML Native Database)를 이용하여 본 발명의 일 실시예의 목적에 맞게 구현될 수 있고, 자신의 기능을 달성하기 위하여 적당한 필드(Field) 또는 엘리먼트들을 가지고 있다.The
본 실시예에 따른 데이터베이스(400)는 화자 분리와 관련된 데이터를 저장하고, 화자 분리와 관련된 데이터를 제공할 수 있다. The database 400 according to the present embodiment may store data related to speaker separation and provide data related to speaker separation.
데이터베이스(400)에 저장된 데이터는 혼합 음성, 특정 화자의 음성, 학습 결과 등에 대한 데이터일 수 있다. 데이터베이스(140)는 화자 분리 장치(100) 내에 구현되는 것으로 기재하고 있으나 반드시 이에 한정되는 것은 아니며, 별도의 데이터 저장장치로 구현될 수도 있다. The data stored in the database 400 may be data on a mixed voice, a specific speaker's voice, a learning result, and the like. Although it is described that the
도 2는 본 발명의 실시예에 따른 프로세서의 동작 구성을 나타낸 블록 구성도이다. 2 is a block diagram illustrating an operation configuration of a processor according to an embodiment of the present invention.
본 실시예에 따른 화자 분리 장치(100)에 포함된 프로세서(130)는 기계 학습을 기반으로 화자 분리를 처리하는 동작을 수행한다. 여기서, 기계 학습은 생성적 적대 신경망(GAN: Generative Adversarial Network)을 이용한 학습인 것이 바람직하나 반드시 이에 한정되는 것은 아니다. The
화자 분리 장치(100)에 포함된 프로세서(130)는 다양한 화자로 구성된 혼합 음성을 입력으로 받아 원하는 타겟 음성으로 분리하여 출력하는 모델(타겟 음성 구분자) 및 잔차 기반 적대 학습을 통한 음성 분리 모델(잔차 음성 구분자) 구축 방법을 기반으로 동작하며, 음성 분리를 수행해야 하는 모든 기기 및 소프트웨어에 탑재될 수 있다. 예를 들어, 화자 분리 장치(100)에 포함된 프로세서(130)는 AI 스피커, 스마트폰과 같은 음성 인식 기술이 접목되어 있는 기기 등에 적용되어, 소유주의 음성만을 구분하는 기능에 응용되어 쓰일 수 있다.The
본 실시예에 따른 프로세서(130)는 음성 생성부(210) 및 음성 구분부(220)을 포함한다. The
음성 생성부(210)는 혼합 음성을 입력 받고, 혼합 음성을 기반으로 특정 화자의 실제 음성과 비교하여 학습하기 위한 제1 음성을 생성한다. 구체적으로, 음성 생성부(210)는 적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받고, 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력한다. The
음성 생성부(210)는 하나의 타겟 소스 음성의 웨이브폼 세그먼트와 여러 화자의 소스 음성들이 합성된 혼합 음성의 웨이브폼 세그먼트가 매핑된 데이터셋을 사용하여 생성된 제1 음성을 출력한다. 음성 생성부(210)의 입력에 들어가는 혼합 음성은 일반화 성능 향상을 위해 기존 타겟 음성과 함께 가우시안 분포를 따르는 랜덤 값이 첨가된 음성일 수 있다. The
본 실시예에 따른 음성 생성부(210)는 생성적 적대 신경망(GAN)을 기반으로 학습하기 위한 생성자(Generator)로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다. The
음성 구분부(220)는 음성 생성부(210)에서 생성된 제1 음성을 특정 화자의 실제 음성인 제2 음성(A)과 구분하고, 혼합 음성과 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 한다. The
음성 구분부(220)는 음성 생성부(210)에서 생성된 제1 음성을 특정 화자의 실제 음성인 제2 음성(A)과 구분하는 타겟 음성 구분부(410)와 혼합 음성과 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하는 잔차 음성 구분부(420)를 포함한다. 음성 구분부(220)에 포함된 타겟 음성 구분부(410) 및 잔차 음성 구분부(420)은 도 4에서 설명하도록 한다. The
본 실시예에 따른 음성 구분부(220)는 생성적 적대 신경망(GAN)을 기반으로 학습하기 위한 서로 다른 두 개의 구분자(Discriminator)를 포함하는 형태로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다. The
음성 구분부(220)는 음성 생성부(210)와 생성적 적대 신경망(GAN) 기반의 학습을 수행한다. 여기서, 음성 구분부(220)에 포함된 타겟 음성 구분부(410) 및 잔차 음성 구분부(420) 각각은 음성 생성부(210)와 별도로 생성적 적대 신경망(GAN) 기반의 학습을 수행하여 서로 다른 학습 결과에 대한 모델을 생성할 수 있다. The
본 발명의 생성적 적대 신경망(GAN)에서, 음성 생성부(210)는 음성 구분부(220)에서 실제 타겟 소스 음성(제2 음성)과 구분할 수 없는 음성(제1 음성)을 생성하는 것을 목표로 한다. 한편, 음성 구분부(220)의 타겟 음성 구분부(410)는 음성 생성부(210)가 생성한 음성(제1 음성)을 실제 타겟 음성(제2 음성)과 구분할 수 있도록 하여, 음성 생성부(210)와 음성 구분부(220)가 적대적으로 학습하는 방식을 말한다.In the generative adversarial neural network (GAN) of the present invention, the
음성 생성부(210)와 음성 구분부(220)와의 적대 학습은 [수학식 1]과 같이 나타낼 수 있다. Adversarial learning between the
여기서, Pdata(x)는 실제 데이터인 실제 타겟 소스 음성의 분포, x는 Pdata(x)의 샘플, P(z)는 음성 생성부가 생성한 음성의 분포, z는 P(z)의 샘플, G(z)는 음성 생성부 (Generator), D는 음성 구분부 (Discriminator)를 의미한다. Here, Pdata(x) is the distribution of the actual target source voice that is the actual data, x is the sample of Pdata(x), P(z) is the distribution of the voice generated by the voice generator, z is the sample of P(z), G (z) denotes a voice generator, and D denotes a voice discriminator.
종래의 일반적인 적대 학습 방법만으로는 화자 분리 문제에서 좋은 성능의 생성자를 보장하기 어렵기 때문에 본 발명의 음성 구분부(220)에서는 잔차를 기반으로 한 잔차 음성 구분부(420)를 추가로 포함한다. 잔차 음성 구분부(420)는 본 발명에서 적대 학습의 효과를 극대화 시키기 위해 추가되어 실제 음성과 생성된 음성의 차이를 이용하는 잔차 기반의 구분자이다.Since it is difficult to guarantee a generator with good performance in the speaker separation problem with only the conventional adversarial learning method, the
도 3은 본 발명의 실시예에 따른 음성 생성부의 동작 구성을 나타낸 블록 구성도이다.3 is a block diagram illustrating an operation configuration of a voice generator according to an embodiment of the present invention.
본 실시예에 따른 음성 생성부(210)는 데이터 압축부(310) 및 데이터 재구성부(320)를 포함한다. 도 3의 음성 생성부(210)는 일 실시예에 따른 것으로서, 도 3에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 음성 생성부(210)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다.The
음성 생성부(210)는 혼합 음성을 입력 받고, 혼합 음성을 기반으로 특정 화자의 실제 음성과 비교하여 학습하기 위한 제1 음성을 생성한다. 구체적으로, 음성 생성부(210)는 적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받고, 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력한다. 여기서, 혼합 음성은 특정 화자의 제1 음성과 소정의 화자의 음성 또는 노이즈 음성을 포함할 수 있다. The
음성 생성부(210)는 하나의 타겟 소스 음성의 웨이브폼 세그먼트와 여러 화자의 소스 음성들이 합성된 혼합 음성의 웨이브폼 세그먼트가 매핑된 데이터셋을 사용하여 학습하여 제1 음성을 생성할 수 있다. The
데이터 압축부(310)는 혼합 음성에서 특정 화자의 음성을 구분하기 위하여 혼합 음성의 압축을 수행하는 동작을 수행한다. The
데이터 압축부(310)는 혼합 음성을 압축함으로써 음성의 특징을 추출하여 잠재 공간에 전사할 수 있다. 데이터 압축부(310)는 혼합 음성에서 특정 화자에 대한 타겟 소스 음성을 분리하도록 하기 위하여 혼합 음성으로 압축된 표현형 데이터로 표현할 수 있다. The
데이터 재구성부(320)는 특정 화자의 음성을 기반으로 압축된 혼합 음성을 재구성하여 제1 음성(A')을 생성한다. The
데이터 재구성부(320)는 압축된 혼합 음성이 실제 타겟 소스 음성(제2 음성)과 유사하도록 재구성한다. 즉, 데이터 재구성부(320)는 데이터 압축부(310)로부터 생성된 표현형 데이터를 이용하여 타겟 소스 음성을 재구성한 제1 음성(A')을 생성하여 출력한다. The
음성 생성부(210)는 기본적으로 오토인코더(AE: AutoEncoder)의 구조로 구현될 수 있다. 예를 들어, 음성 생성부(210)에서 데이터 압축부(310)는 오토인코더(AE)의 인코더(Encoder)와 대응되는 동작을 수행하고, 데이터 재구성부(320)는 오토인코더(AE)의 디코더(Decoder)에 대응되는 동작을 수행할 수 있다. The
도 4는 본 발명의 실시예에 따른 음성 구분부의 동작 구성을 나타낸 블록 구성도이다.4 is a block diagram illustrating an operation configuration of a voice classification unit according to an embodiment of the present invention.
본 실시예에 따른 음성 구분부(220)는 타겟 음성 구분부(410) 및 잔차 음성 구분부(420)를 포함한다. 도 4의 음성 구분부(220)는 일 실시예에 따른 것으로서, 도 4에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 음성 구분부(220)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다.The
음성 구분부(220)는 음성 생성부(210)에서 생성된 제1 음성(A')을 특정 화자의 실제 음성인 제2 음성(A)과 구분하고, 혼합 음성과 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 한다. The
음성 구분부(220)는 생성적 적대 신경망(GAN) 학습에 이용되어 음성 생성부(210)에서 생성된 음성을 실제 타겟 소스 음성을 구분하고, 잔차를 이용하여 혼합 음성에서 음성 생성부(210)가 생성한 음성을 뺀 음성과 혼합 음성에서 실제 타겟 소스 음성을 뺀 음성을 구분하는 동작을 수행한다. The
타겟 음성 구분부(410)는 제1 음성 및 제2 음성이 동일한 음성인지 여부를 구분하는 동작을 수행한다. 구체적으로, 타겟 음성 구분부(410)는 제1 음성과 제2 음성을 입력 받고, 제1 음성이 제2 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력한다. The
타겟 음성 구분부(410)는 음성 생성부(210)와 연동하여 제1 음성 및 제2 음성을 구분하기 위하여 생성적 적대 신경망(GAN) 학습을 수행할 수 있다. The
타겟 음성 구분부(410)는 생성적 적대 신경망(GAN) 학습을 통해 음성 생성부(210)에서 재구성되어 생성된 제1 음성과 실제 타겟 음성인 제2 음성을 구분하는 성능을 점점 더 향상시킴으로써, 고도화된 타겟 음성 구분부(410)를 속이려는 음성 생성부(210)의 타겟 음성(제1 음성)의 생성 성능을 향상시킬 수 있다. The
잔차 음성 구분부(420)는 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 혼합 음성과 제2 음성을 기반으로 생성된 제2 잔차 음성이 동일한 음성인지 여부를 구분하는 동작을 수행한다. The
잔차 음성 구분부(420)는 혼합 음성과 제1 음성을 기반으로 생성된 제1 잔차 음성과 혼합 음성과 제2 음성을 기반으로 생성된 제2 잔차 음성을 입력 받고, 제1 잔차 음성이 제2 잔차 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력한다. 여기서, 제1 잔차 음성은 혼합 음성에서 제1 음성을 제거한 음성을 의미하고, 제2 잔차 음성은 혼합 음성에서 제2 음성을 제거한 음성을 의미한다. The residual
잔차 음성 구분부(420)는 음성 생성부(210)와 연동하여 제1 잔차 음성 및 제2 잔차 음성을 구분하기 위하여 생성적 적대 신경망(GAN) 학습을 수행할 수 있다. 잔차 음성 구분부(420)는 잔차를 이용하여 생성적 적대 신경망(GAN) 학습의 효과를 극대화 시킬 수 있다. The
잔차 음성 구분부(420)는 생성적 적대 신경망(GAN) 학습을 통해 혼합 음성에서 제1 음성을 뺀 제1 잔차 음성과 혼합 음성에서 제2 음성을 뺀 제2 잔차 음성을 구분하는 성능을 점점 더 향상시킴으로써, 고도화된 잔차 음성 구분부(420)를 속이려는 음성 생성부(210)의 타겟 음성(제1 음성) 생성 성능을 향상시킬 수 있다. The
잔차 음성 구분부(420)는 혼합 음성에서 화자 분리 시, 특정 화자의 음성을 제외한 나머지 음성을 제거하는 성능을 향상시키기 위한 동작을 수행할 수 있다.The
한편, 음성 구분부(220)는 타겟 음성 구분부(410) 및 잔차 음성 구분부(420) 각각의 학습 결과를 기반으로 혼합 음성의 화자 분리가 수행되도록 하되, 각각의 학습 결과에 서로 다른 가중치를 부여하여 혼합 음성의 화자 분리가 수행되도록 할 수도 있다. 즉, 제1 음성 및 제2 음성을 비교한 제1 학습 결과와 제1 잔차 음성 및 제2 잔차 음성을 비교한 제2 학습 결과의 신뢰도에 따라 서로 다른 가중치를 부여하여 혼합 음성의 화자 분리가 수행되도록 할 수도 있다. 여기서, 제1 학습 결과 및 제2 학습 결과에 대한 신뢰도는 사용자의 조작에 의해 입력된 입력 신호에 따라 결정될 수 있으나 신뢰도 추정 알고리즘을 적용하여 자동으로 결정될 수도 있다. On the other hand, the
예를 들어, 음성 구분부(220)는 타겟 음성 구분부(410)의 학습 결과에 제1 가중치를 부여하고, 음성 구분부(420)의 학습 결과에 제2 가중치를 부여할 수 있다. 여기서, 제1 가중치는 제2 가중치를 초과하는 값인 것이 바람직하나 반드시 이에 한정되는 것은 아니다. For example, the
도 5는 본 발명의 실시예에 따른 화자 분리 방법을 설명하기 위한 순서도이다. 5 is a flowchart illustrating a speaker separation method according to an embodiment of the present invention.
화자 분리 장치(100)는 여러 화자의 음성들로 구성된 혼합 음성을 입력 받는다(S510). 여기서, 혼합 음성은 특정 화자의 제1 음성과 소정의 화자의 음성 또는 노이즈 음성을 포함할 수 있다. The
화자 분리 장치(100)는 특정 화자(타켓 화자)의 음성을 분리하고, 이를 기반으로 제1 음성을 생성하여 출력한다(S520). 화자 분리 장치(100)는 하나의 타겟 소스 음성의 웨이브폼 세그먼트와 여러 화자의 소스 음성들이 합성된 혼합 음성의 웨이브폼 세그먼트가 매핑된 데이터셋을 사용하여 생성된 제1 음성을 출력한다.The
화자 분리 장치(100)는 생성적 적대 신경망(GAN) 학습에 이용되어 출력된 제1 음성과 특정 화자의 실제 음성인 제2 음성을 구분한다(S530).The
화자 분리 장치(100)는 제1 음성과 제2 음성을 입력 받고, 제1 음성이 제2 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력한다.The
화자 분리 장치(100)는 잔차를 이용하여 혼합 음성에서 제1 음성을 뺀 제1 잔차 음성과 혼합 음성에서 제2 음성을 뺀 제2 잔차 음성을 구분한다(S540, S550).The
화자 분리 장치(100)는 생성적 적대 신경망(GAN) 학습을 기반으로 화자 분리를 수행하고, 화자 분리 결과를 생성하여 출력한다(S560). 화자 분리 장치(100)는 제1 음성과 제2 음성을 구분한 제1 학습 결과와 제1 잔차 음성과 제2 잔차 음성을 구분한 제2 학습 결과를 기반으로 화자 분리를 수행할 수 있다. The
화자 분리 장치(100)는 제1 학습 결과를 기반으로 혼합 음성에 포함된 특정 화자의 음성을 추출(분리)하고, 제2 학습 결과를 기반으로 혼합 음성에서 특정 화자의 음성을 제외한 나머지 음성을 제거하여 화자 분리를 수행할 수 있다. The
도 5에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 5에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 5는 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each step is sequentially executed in FIG. 5 , the present invention is not limited thereto. In other words, since it may be applicable to changing and executing the steps described in FIG. 5 or executing one or more steps in parallel, FIG. 5 is not limited to a chronological order.
도 5에 기재된 본 실시예에 따른 화자 분리 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 화자 분리 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.The speaker separation method according to the present embodiment described in FIG. 5 may be implemented as an application (or program) and recorded in a recording medium readable by a terminal device (or computer). The recording medium in which the application (or program) for implementing the speaker separation method according to the present embodiment is recorded and the terminal device (or computer) can read is any type of recording device in which data that can be read by the computing system is stored or includes media.
도 6은 본 발명의 실시예에 따른 생성적 적대 신경망 기반의 화자 분리 동작을 설명하기 위한 예시도이다. 6 is an exemplary diagram for explaining a speaker separation operation based on a generative adversarial neural network according to an embodiment of the present invention.
도 6를 참조하면, 화자 분리 장치(100)에서 음성 생성부(210)와 음성 구분부(220) 내의 타겟 음성 구분부(410) 및 잔차 음성 구분부(420) 각각은 생성적 적대 신경망(GAN) 학습을 수행한다. Referring to FIG. 6 , in the
음성 생성부(210)는 음성 구분부(220)가 실제 타겟 소스 음성(제2 음성)과 구분할 수 없는 음성(제1 음성)을 생성하는 것을 목표로 한다. 또한, 음성 구분부(220)는 음성 생성부(210)가 생성한 음성(제1 음성)을 실제 타겟 음성(제2 음성)과 구분하는 것을 목표로 한다. The
생성적 적대 신경망(GAN) 학습이 반복적으로 이루어지면서, 타겟 음성 구분부(410)와 잔차 음성 구분부(420)의 구분 성능은 점점 더 향상될 것이고, 음성 생성부(210) 역시 점점 고도화된 타겟 음성 구분부(410)와 잔차 음성 구분부(420)를 속이기 위해 재생성 성능이 향상될 것이다. As the generative adversarial neural network (GAN) learning is repeatedly performed, the discrimination performance of the
또한, 잔차를 이용한 잔차 음성 구분부(420)는 생성적 적대 신경망(GAN) 학습의 효과를 극대화 시킨다. In addition, the residual
타겟 음성 구분부(410)는 음성 생성부(210)에서 생성된 타겟 소스 음성(제1 음성)과 실제 타겟 소스 음성(제2 음성)을 구분하고, 잔차 음성 구분부(420)는 타겟 소스 음성(제1 음성 또는 제2 음성)을 제외한 소스 음성들을 구분하는 역할을 수행한다. The
화자 분리 장치(100)는 특정 화자의 음성을 구분하는 타겟 음성 구분부(410)와 잔차를 이용한 잔차 음성 구분부(420)를 포함함에 따라 두 번의 생성적 적대 신경망(GAN) 학습이 이루어지게 됨에 따라, 음성 생성부(210)의 타겟 음성(제1 음성)의 생성 성능이 강화되고, 혼합 음성에서 특정 화자의 음성을 제외한 나머지 소스 음성들이 좀 더 완벽하게 제거될 수 있다. As the
이상의 설명은 본 발명의 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명의 실시예들은 본 발명의 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the embodiment of the present invention, and those of ordinary skill in the art to which the embodiment of the present invention pertains may modify various modifications and transformation will be possible. Accordingly, the embodiments of the present invention are not intended to limit the technical spirit of the embodiment of the present invention, but to explain, and the scope of the technical spirit of the embodiment of the present invention is not limited by these embodiments. The protection scope of the embodiment of the present invention should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the embodiment of the present invention.
100: 화자 분리 장치
110: 입력부 120: 출력부
130: 프로세서 140: 메모리
150: 데이터 베이스
210: 음성 생성부 220: 음성 구분부
310: 데이터 압축부 320: 데이터 재구성부
410: 타겟 음성 구분부 420: 잔차 음성 구분부100: speaker separation device
110: input unit 120: output unit
130: processor 140: memory
150: database
210: voice generation unit 220: voice division unit
310: data compression unit 320: data reconstruction unit
410: target speech classifier 420: residual speech classifier
Claims (15)
상기 컴퓨팅 디바이스는,
적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계;
상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및
상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 수행하되,
상기 음성 구분 단계는, 상기 제1 음성 및 상기 제2 음성이 동일한 음성인지 여부를 구분하는 타겟 음성 구분 단계; 및 상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성이 동일한 음성인지 여부를 구분하는 잔차 음성 구분 단계를 포함하는 것을 특징으로 하는 화자 분리 방법.A speaker separation method performed by a computing device comprising one or more processors and a memory storing one or more programs executed by the processors, the method comprising:
The computing device is
a voice input step of receiving a mixed voice composed of at least one speaker's voice;
a voice generating step of generating and outputting a first voice A' for a specific speaker based on the mixed voice; and
A voice that separates the first voice from the actual second voice (A) of the specific speaker, and separates the mixed voice from the residual voice generated based on the first voice and the second voice so that speaker separation is performed Perform the separation steps,
The voice discrimination step may include: a target voice discrimination step of discriminating whether the first voice and the second voice are the same voice; and a residual speech discrimination step of discriminating whether the mixed speech and the first residual speech generated based on the first speech and the second residual speech generated based on the mixed speech and the second speech are the same speech. A speaker separation method, characterized in that.
상기 음성 입력 단계는,
상기 특정 화자의 제1 음성과 소정의 화자의 음성 또는 노이즈 음성을 포함하는 상기 혼합 음성을 입력 받는 것을 특징으로 하는 화자 분리 방법.According to claim 1,
In the voice input step,
and receiving the mixed voice including the first voice of the specific speaker and the voice or noise voice of a predetermined speaker.
상기 음성 생성 단계는,
하나의 타겟 소스 음성의 웨이브폼 세그먼트와 여러 화자의 소스 음성들이 합성된 혼합 음성의 웨이브폼 세그먼트가 매핑된 데이터셋을 사용하여 학습하여 상기 제1 음성을 생성하는 것을 특징으로 하는 화자 분리 방법.According to claim 1,
The voice generation step is
and generating the first voice by learning using a dataset in which a waveform segment of one target source voice and a waveform segment of a mixed voice in which source voices of several speakers are synthesized are mapped.
상기 음성 생성 단계는,
상기 혼합 음성에서 상기 특정 화자의 음성을 구분하기 위하여 상기 혼합 음성의 압축을 수행하는 혼합 음성 압축 단계; 및
상기 특정 화자의 음성을 기반으로 압축된 혼합 음성을 재구성하여 제1 음성(A')을 생성하는 데이터 재구성 단계
를 포함하는 것을 특징으로 하는 화자 분리 방법.According to claim 1,
The voice generation step is
a mixed voice compression step of compressing the mixed voice in order to distinguish the voice of the specific speaker from the mixed voice; and
A data reconstruction step of generating a first voice (A') by reconstructing a compressed mixed voice based on the voice of the specific speaker
A speaker separation method comprising a.
상기 타겟 음성 구분 단계는,
상기 제1 음성과 상기 제2 음성을 입력 받고, 상기 제1 음성이 상기 제2 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 것을 특징으로 하는 화자 분리 방법.According to claim 1,
The target voice classification step is,
a speaker receiving the first voice and the second voice, distinguishing whether the first voice is the same voice as the second voice, and outputting a flag value for a true signal or a false signal separation method.
상기 잔차 음성 구분 단계는,
상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성을 입력 받고, 상기 제1 잔차 음성이 상기 제2 잔차 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 화자 분리 방법.According to claim 1,
The residual negative classification step is
receive a first residual speech generated based on the mixed speech and the first speech and a second residual speech generated based on the mixed speech and the second speech, wherein the first residual speech is the second residual speech A speaker separation method for outputting a flag value for a true signal or a false signal by distinguishing whether it is the same voice as .
상기 잔차 음성 구분 단계는,
상기 혼합 음성에서 상기 제1 음성을 제거한 상기 제1 잔차 음성과 상기 혼합 음성에서 상기 제2 음성을 제거한 상기 제2 잔차 음성을 비교하여 구분하는 것을 특징으로 하는 화자 분리 방법.8. The method of claim 7,
The residual negative classification step is
and comparing and distinguishing the first residual speech obtained by removing the first speech from the mixed speech and the second residual speech obtained by removing the second speech from the mixed speech.
상기 타겟 음성 구분 단계는,
상기 음성 생성 단계와 연동하여 상기 제1 음성 및 상기 제2 음성을 구분하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network) 학습을 수행하며,
상기 잔차 음성 구분 단계는, 상기 음성 생성 단계과 연동하여 상기 제1 잔차 음성 및 상기 제2 잔차 음성을 구분하기 위하여 생성적 적대 신경망(GAN) 학습을 수행하는 것을 특징으로 하는 화자 분리 방법.According to claim 1,
The target voice classification step is,
In conjunction with the voice generating step, generative adversarial network (GAN) learning is performed to distinguish the first voice and the second voice,
and the step of classifying the residual speech comprises performing generative adversarial neural network (GAN) learning to classify the first residual speech and the second residual speech in conjunction with the step of generating the speech.
하나 이상의 프로세서; 및
상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서,
적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계;
상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및
상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 포함하는 동작들을 수행하게 하되,
상기 음성 구분 단계는, 상기 제1 음성 및 상기 제2 음성이 동일한 음성인지 여부를 구분하는 타겟 음성 구분 단계; 및 상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성이 동일한 음성인지 여부를 구분하는 잔차 음성 구분 단계를 포함하는 것을 특징으로 하는 화자 분리 장치.A device for separating a speaker from a mixed voice, comprising:
one or more processors; and
a memory storing one or more programs executed by the processor, wherein the programs, when executed by the one or more processors, in the one or more processors;
a voice input step of receiving a mixed voice composed of at least one speaker's voice;
a voice generating step of generating and outputting a first voice A' for a specific speaker based on the mixed voice; and
A voice that separates the first voice from the actual second voice (A) of the specific speaker, and separates the mixed voice from the residual voice generated based on the first voice and the second voice so that speaker separation is performed to perform operations including a division step,
The voice discrimination step may include: a target voice discrimination step of discriminating whether the first voice and the second voice are the same voice; and a residual speech discrimination step of discriminating whether the mixed speech and the first residual speech generated based on the first speech and the second residual speech generated based on the mixed speech and the second speech are the same speech. Speaker separation device, characterized in that.
상기 타겟 음성 구분 단계는,
상기 제1 음성과 상기 제2 음성을 입력 받고, 상기 제1 음성이 상기 제2 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 것을 특징으로 하는 화자 분리 장치.11. The method of claim 10,
The target voice classification step is,
a speaker receiving the first voice and the second voice, distinguishing whether the first voice is the same voice as the second voice, and outputting a flag value for a true signal or a false signal separation device.
상기 잔차 음성 구분 단계는,
상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성을 입력 받고, 상기 제1 잔차 음성이 상기 제2 잔차 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 화자 분리 장치.
11. The method of claim 10,
The residual negative classification step is
receive a first residual speech generated based on the mixed speech and the first speech and a second residual speech generated based on the mixed speech and the second speech, wherein the first residual speech is the second residual speech A speaker separation device that outputs a flag value for a true signal or a false signal by discriminating whether it is the same voice as .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190141938A KR102313387B1 (en) | 2019-11-07 | 2019-11-07 | Method and Apparatus for Separating Speaker Based on Machine Learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190141938A KR102313387B1 (en) | 2019-11-07 | 2019-11-07 | Method and Apparatus for Separating Speaker Based on Machine Learning |
Publications (3)
Publication Number | Publication Date |
---|---|
KR20210055464A KR20210055464A (en) | 2021-05-17 |
KR102313387B1 true KR102313387B1 (en) | 2021-10-14 |
KR102313387B9 KR102313387B9 (en) | 2021-11-12 |
Family
ID=76158155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190141938A KR102313387B1 (en) | 2019-11-07 | 2019-11-07 | Method and Apparatus for Separating Speaker Based on Machine Learning |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102313387B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220169242A (en) * | 2021-06-18 | 2022-12-27 | 삼성전자주식회사 | Electronic devcie and method for personalized audio processing of the electronic device |
CN113707173B (en) * | 2021-08-30 | 2023-12-29 | 平安科技(深圳)有限公司 | Voice separation method, device, equipment and storage medium based on audio segmentation |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146054A (en) * | 2006-12-06 | 2008-06-26 | Korea Electronics Telecommun | Speaker information acquisition system using speech feature information on speaker, and method thereof |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101178801B1 (en) * | 2008-12-09 | 2012-08-31 | 한국전자통신연구원 | Apparatus and method for speech recognition by using source separation and source identification |
KR101304127B1 (en) * | 2011-12-19 | 2013-09-05 | 세종대학교산학협력단 | Apparatus and method for recognizing of speaker using vocal signal |
KR101304112B1 (en) * | 2011-12-27 | 2013-09-05 | 현대캐피탈 주식회사 | Real time speaker recognition system and method using voice separation |
KR101616112B1 (en) * | 2014-07-28 | 2016-04-27 | (주)복스유니버스 | Speaker separation system and method using voice feature vectors |
-
2019
- 2019-11-07 KR KR1020190141938A patent/KR102313387B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146054A (en) * | 2006-12-06 | 2008-06-26 | Korea Electronics Telecommun | Speaker information acquisition system using speech feature information on speaker, and method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20210055464A (en) | 2021-05-17 |
KR102313387B9 (en) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Audio–visual deep clustering for speech separation | |
EP3607547A1 (en) | Audio-visual speech separation | |
Roma et al. | Recurrence quantification analysis features for environmental sound recognition | |
Biswas et al. | Audio codec enhancement with generative adversarial networks | |
Amiriparian et al. | Bag-of-deep-features: Noise-robust deep feature representations for audio analysis | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
Padi et al. | Improved speech emotion recognition using transfer learning and spectrogram augmentation | |
Aggarwal et al. | Cellphone identification using noise estimates from recorded audio | |
CN111524527A (en) | Speaker separation method, device, electronic equipment and storage medium | |
KR102313387B1 (en) | Method and Apparatus for Separating Speaker Based on Machine Learning | |
EP3392882A1 (en) | Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium | |
Ramsay et al. | The intrinsic memorability of everyday sounds | |
Uttam et al. | Hush-Hush Speak: Speech Reconstruction Using Silent Videos. | |
Mun et al. | DNN transfer learning based non-linear feature extraction for acoustic event classification | |
Fathan et al. | Mel-spectrogram image-based end-to-end audio deepfake detection under channel-mismatched conditions | |
JP6784255B2 (en) | Speech processor, audio processor, audio processing method, and program | |
Felipe et al. | Acoustic scene classification using spectrograms | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Sun | Digital audio scene recognition method based on machine learning technology | |
Chowdhury et al. | Deeptalk: Vocal style encoding for speaker recognition and speech synthesis | |
KR101755238B1 (en) | Apparatus for restoring speech of damaged multimedia file and method thereof | |
KR102400598B1 (en) | Method and Apparatus for Noise Cancellation Based on Machine Learning | |
Liu et al. | Robust audio-visual mandarin speech recognition based on adaptive decision fusion and tone features | |
JP2005321530A (en) | Utterance identification system and method therefor | |
Prakash | Deep learning-based detection of dysarthric speech disability |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
G170 | Publication of correction |