KR20170107283A - 자연어 음성인식의 성능향상을 위한 데이터 증강방법 - Google Patents
자연어 음성인식의 성능향상을 위한 데이터 증강방법 Download PDFInfo
- Publication number
- KR20170107283A KR20170107283A KR1020160031050A KR20160031050A KR20170107283A KR 20170107283 A KR20170107283 A KR 20170107283A KR 1020160031050 A KR1020160031050 A KR 1020160031050A KR 20160031050 A KR20160031050 A KR 20160031050A KR 20170107283 A KR20170107283 A KR 20170107283A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- signal
- speech recognition
- unit
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013434 data augmentation Methods 0.000 title abstract 3
- 230000002269 spontaneous effect Effects 0.000 title abstract 3
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 230000003190 augmentative effect Effects 0.000 claims abstract description 6
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 description 39
- 230000005284 excitation Effects 0.000 description 35
- 238000006243 chemical reaction Methods 0.000 description 34
- 230000001052 transient effect Effects 0.000 description 28
- 230000007704 transition Effects 0.000 description 28
- 238000004458 analytical method Methods 0.000 description 22
- 230000000694 effects Effects 0.000 description 17
- 238000001914 filtration Methods 0.000 description 16
- 230000001755 vocal effect Effects 0.000 description 15
- 230000002087 whitening effect Effects 0.000 description 9
- 238000013139 quantization Methods 0.000 description 8
- 210000000056 organ Anatomy 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000001308 synthesis method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000000593 degrading effect Effects 0.000 description 4
- 238000002347 injection Methods 0.000 description 4
- 239000007924 injection Substances 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000002542 deteriorative effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법이 개시된다. 심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법은, 자연어 발화변이 특성 중 발화속도 변이에 대한 음성 데이터를 증강시키는 단계와, 상기 자연어 발화변이 특성 중 부정확한 발음에 대한 음성 데이터를 증강시키는 단계 및 상기 발화속도 변이와 부정확한 발음에 대하여 증강된 음성 데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하는 단계를 포함한다. 따라서, 음성인식 시스템의 성능을 향상시킬 수 있다.
Description
본 발명은 자연어 음성인식의 성능향상을 위한 데이터 증강방법에 관한 것으로, 더욱 상세하게는 심층신경망을 이용한 자연어 음성인식의 성능향상을 위한 데이터 증강(Data Augmentation) 방법에 관한 것이다.
심층신경망 기반의 음성인식 시스템의 학습을 위해서는 많은 데이터들이 필수적이며 학습에 필요한 음성데이터들은 자연어 조음시 발생되는 발화변이 특성을 충분히 반영하고 있어야 한다.
하지만 현재 음성인식 시스템의 음향모델학습을 위한 음성데이터들은 제한된 환경에서 인위적인 방법으로 수집되는데 이러한 음성데이터들은 인간이 자연어를 말할 때 발생하는 발화변이 특성들을 충분히 반영하지 못하는 단점을 가지고 있다.
심층신경망을 이용한 음성인식 시스템은 수많은 데이터들을 활용하여 심층신경망을 학습하는 과정이 필수적이며 이 과정을 통하여 전체 시스템의 성능이 거의 결정되는 특성을 가지고 있다.
즉, 훈련에 참여한 음성데이터들이 실제 사용자가 응용시스템을 사용하게 될 때 나타나는 다양한 사용자들의 발음변이 특성들을 잘 포함하고 있어야 하는데 이러한 데이터들을 제한된 음성녹음 환경하에서 수집하는 것은 사실상 불가능한 문제점을 가지고 있다. 실제로 제한된 녹음환경에서는 인간의 자연스러운 발성을 기대하기 어렵다.
상기한 바와 같은 문제점을 극복하기 위한 본 발명의 목적은 인간의 자연어 발화변이 특성 중 발화속도변이, 부정확한 발음에 대하여 이들 변이특성을 보완할 수 있도록 한 자연어 음성인식 성능향상을 위한 데이터 증강방법을 제공하는 것이다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법은, 자연어 발화변이 특성 중 발화속도 변이에 대한 음성 데이터를 증강시키는 단계와, 상기 자연어 발화변이 특성 중 부정확한 발음에 대한 음성 데이터를 증강시키는 단계 및 상기 발화속도 변이와 부정확한 발음에 대하여 증강된 음성 데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하는 단계를 포함한다.
상술한 바와 같은 자연어 음성인식의 성능향상을 위한 데이터 증강방법에 따르면, 자연어 음성인식에 있어서 컴퓨터가 인간의 음성을 인식하는데 어려움을 겪는 인간의 발화변이 현상중 발화속도변이와 부정확한 발음에 대한 훈련데이터를 증강시킴으로써 음성인식 시스템의 성능을 보다 효율적으로 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 발화속도 변환장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성장치의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 장치의 구성을 도시한 블록도이다.
도 4는 본 발명의 일 실시예에 따른 발화속도 변환방법의 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성방법의 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성장치의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 장치의 구성을 도시한 블록도이다.
도 4는 본 발명의 일 실시예에 따른 발화속도 변환방법의 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성방법의 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 방법의 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.
인간의 발화속도 변이현상을 나타내는 음성합성방법에서 인간의 자연어 발성시 발화속도 변이현상을 쉽게 관측할 수 있다. 즉, 발화속도가 일정하지 않고 경우에 따라 빨라지거나 느려지는 현상을 말한다.
현재 음성인식 시스템은 이러한 발화속도 변이현상을 잘 모델링하지 못하는 문제점이 있다. 왜냐하면 음성인식 시스템 학습에 사용되는 훈련 데이터들은 일반적으로 제한된 문장을 인간이 낭독하고 이를 녹음하는 과정을 거쳐 수집되기 때문에 이러한 발화속도 변이현상을 효과적으로 반영하기 어렵기 때문이다.
이러한 음성인식 시스템은 빠른 발화속도에 대해서는 그 성능이 크게 저하되는 문제가 있으나 반대로 발화속도가 느려지는 경우에는 상대적으로 그 성능이 강인한 특성을 가진다.
이러한 성능 저하원인은 발화속도가 빨라지는 경우 인간의 조음기관이 어떤 음소를 조음하기 위하여 안정된 상태에 도달하기 전에 이어지는 음소를 조음하기 위해 천이하는 현상으로 인하여 나타나는 발음 변이현상 때문이다. 하기에서는 이러한 발음변이현상을 표현할 수 있는 인위적인 음성합성방법에 대해 설명한다.
도 1은 본 발명의 일 실시예에 따른 발화속도 변환장치의 구성을 도시한 블록도이다.
도 1을 참조하면, 본 발명의 조음 변이를 표현할 수 있는 발화속도 변환장치는 DC 오프셋 제거 필터링부(DC offset removal filtering)(101)와, 백색화 필터부(Pre-emphasis)(102)와, 시그널 프레임부(Signal Framing)(103)와, 시그널 윈도우부(Signal Windowing)(104)와, 음성 판별부(Voice Activity Detection)(105)와, 천이구간 판별부(Transient Portion Detection)(106)와, 켑스트럼 추정부(Cepstrum estimation)(107)와, 안정구간 판별부(Non-speech, transient and steady portion detection)(108)와, 입력신호 분할부(Linear Predictive Analysis)(109)와, 시간축 변환부(Variable Rate TSM(time scale modification))(110)와, LPC 변환부(LPC to LSF conversion)(111)와, LSF 추정부(LSF estimation)(112)와, LSF 변환부(LSF to LPC conversion)(113)와, 성도 필터링부(Vocal Tract Filtering)(114)를 포함한다.
DC 오프셋 제거 필터링부(DC offset removal filtering)(101)는 시간축 입력신호의 DC 성분을 제거할 수 있다.
백색화 필터부(Pre-emphasis)(102)는 입력신호분석을 위하여 사용되는 백색화(pre-whitening) 필터이다.
시그널 프레임부(Signal Framing)(103)는 입력신호를 프레임 단위(30ms)로 나눠주는 역할을 수행할 수 있다.
시그널 윈도우부(Signal Windowing)(104)는 분석 프레임에 윈도우 함수를 곱해준다. 여기서, 음성신호분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
음성 판별부(Voice Activity Detection)(105)는 해당 분석 프레임 신호가 음성인지 아닌지를 판별할 수 있다.
천이구간 판별부(Transient Portion Detection)(106)는 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별할 수 있다.
켑스트럼 추정부(Cepstrum estimation)(107)는 LPC 계수들로부터 켑스트럼을 추정할 수 있다. 이렇게 추정된 켑스트럼 정보는 해당 프레임이 천이구간이지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
안정구간 판별부(Non-speech, transient and steady portion detection)(108)는 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별할 수 있다.
입력신호 분할부(Linear Predictive Analysis)(109)는 입력신호를 성도(vocal tract) 성분과 여기 신호(excitation) 성분으로 나누어 줄 수 있다.
시간축 변환부(Variable Rate TSM(time scale modification))(110)는 여기신호를 대상으로 시간축 변환을 수행한다. 여기서, 시간축 변환방법으로 가장 대표적인 것으로 synchronized overlap and add(SOLA) 방법이 있으며, 이를 이용하면 가변적 비율의 발화속도 변환을 용이하게 구성할 수 있다. 즉, 시간축 변환비율(time scale modification rate)을 가변적으로 적용하는 것으로 쉽게 구현할 수 있다. 이때, 천이구간에 대해서는 시간축 변환비율을 1로 두어 천이구간의 정보를 보존한다. 시간축 변환비율이 1보다 작으면 시간축으로 입력신호가 압축되는 것을 의미한다. 예를 들어, 시간축 변환비율이 0.5인 경우 시간축 신호를 두배로 압축하는 의미를 가지며 발화속도 측면에서는 두배 빠르게 발성하는 것을 의미한다. 시간축 변환비율이 1보다 큰 경우는 반대로 발화속도가 느려지는 것을 의미한다.
LPC 변환부(LPC to LSF conversion)(111)는 LPC 계수를 LSF(line spectral frequencies or LSP(line spectral pairs))로 변환한다. 이는 시간축 변환비율에 따른 decimation 혹은 interpolation을 이용한 조음기관 모델의 제어를 위한 것이다. 성도모델 필터계수의 시간적 변화를 LSF를 이용하여 제어함으로써 조음기관의 변이를 표현해줄 수 있게 된다.
LSF 추정부(LSF estimation)(112)는 주변 프레임들의 LSF 값과 시간축 변환비율 상관관계를 이용하여 해당 프레임의 LSF 값을 추정할 수 있다. 이를 통해 인간의 조음기관의 변이를 표현할 수 있게 된다.
LSF 변환부(LSF to LPC conversion)(113)는 LSF 값을 성도모델계수로 변환할 수 있다.
성도 필터링부(Vocal Tract Filtering)(114)는 시간축 변환된 여기신호와 추정된 성도모델계수를 이용하여 발화속도 변이현상이 반영된 음성신호를 구할 수 있다.
LSF 추정과정(시간축 변환비율 < 1.0 경우)
1. 첫번째 프레임
LSFest=LSF1st
2. 두번째 프레임부터
LSFest=(1-∝)×LSFprv + ∝×LSFcur
3. 마지막 프레임
LSFest=LSFlast
LSF 추정과정(2.0 > 시간축변환비율 > 1.0 경우)
1. 첫번째 프레임부터
LSFest1=LSFcur 합성프레임 첫번째 절반까지
LSFest2=(2-∝)×LSFcur +(∝-1)×LSFlookahead 합성프레임 나머지 절반
2. 마지막 프레임
LSFest=LSFlast
본 발명에서 제안된 방법은 성도모델을 기반한 음성분석방법에 그 기반을 두고 있으며 부정확한 발음을 표현하기 위하여 여기신호를 열화시키는 방법을 취하고 있다.
도 2는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성장치의 구성을 도시한 블록도이다. 여기서는 여기신호를 열화시키기 위하여 부가잡음을 삽입하여 음질을 향상시킬 수 있다.
도 2를 참조하면, 본 발명의 부정확한 발음의 합성장치는 DC 오프셋 제거 필터링부(DC offset removal filter)(201)와, 백색화 필터부(Pre-emphasis)(202)와, 시그널 프레임부(Signal Framing)(203)와, 시그널 윈도우부(Signal Windowing)(204)와, 음성 판별부(Voice Activity Detection)(205)와, 천이구간 판별부(Transient Portion Detection)(206)와, 켑스트럼 추정부(Cepstrum estimation)(207)와, 안정구간 판별부(Non-speech, transient and steady portion detection)(208)와, 입력신호 분할부(Linear Predictive Analysis)(209)와, 파워 스펙트럼 추정부(power spectrum estimation)(210)와, PSD 추정부(speech and noise PSD estimation)(211)와, 위너 필터 추정부(Wiener filter estimation)(212)와, 위너 필터링부(Wiener filtering)(213)와, 성도 필터링부(Vocal Tract Filtering)(214)를 포함한다.
DC 오프셋 제거 필터링부(DC offset removal filter)(201)는 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다.
백색화 필터부(Pre-emphasis)(202)는 입력신호 분석을 위하여 사용되는 백색화(pre-whitening) 필터이다.
시그널 프레임부(Signal Framing)(203)는 입력신호를 프레임 단위(30ms)로 나눠주는 역할을 수행할 수 있다.
시그널 윈도우부(Signal Windowing)(204)는 분석 프레임에 윈도우 함수를 곱해준다. 여기서, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
음성 판별부(Voice Activity Detection)(205)는 해당 분석 프레임 신호가 음성인지 아닌지를 판별할 수 있다.
천이구간 판별부(Transient Portion Detection)(206)는 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별할 수 있다.
켑스트럼 추정부(Cepstrum estimation)(207)는 LPC 계수들로부터 켑스트럼을 추정할 수 있다. 이렇게 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
안정구간 판별부(Non-speech, transient and steady portion detection)(208)는 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별할 수 있다.
입력신호 분할부(Linear Predictive Analysis)(209)는 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 줄 수 있다.
파워 스펙트럼 추정부(power spectrum estimation)(210)는 여기신호로부터 Fourier 변환 과정을 이용하여 파워 스펙트럼(power spectrum)을 추정할 수 있다.
PSD 추정부(speech and noise PSD estimation)(211)는 추정된 파워 스펙트럼 정보와 안정구간 판별(non-speech, transient and steady portion detection) 정보를 이용하여 음성과 배경 잡음의 power spectral density(PSD)를 추정할 수 있다.
위너 필터 추정부(Wiener filter estimation)(212)는 추정된 음성과 배경잡음의 PSD 정보를 이용하여 시간축 위너 필터(Wiener filter) 계수들을 추정할 수 있다.
위너 필터링부(Wiener filtering)(213)는 추정된 시간축 위너 필터(Wiener filter) 계수를 이용하여 여기신호에 포함되어 있는 배경잡음 성분을 제거할 수 있다. 이를 통해 열화된 여기신호를 얻을 수 있다.
성도 필터링부(Vocal Tract Filtering)(214)는 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성해 낼 수 있다.
도 3은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 장치의 구성을 도시한 블록도이다.
도 3을 참조하면, 본 발명의 부정확한 발성을 합성하는 장치는 DC 오프셋 제거 필터링부(DC offset removal filter)(301)와, 백색화 필터부(Pre-emphasis)(302)와, 시그널 프레임부(Signal Framing)(303)와, 시그널 윈도우부(Signal Windowing)(304)와, 음성 판별부(Voice Activity Detection)(305)와, 천이구간 판별부(Transient Portion Detection)(306)와, 켑스트럼 추정부(Cepstrum estimation)(307)와, 안정구간 판별부(Non-speech, transient and steady portion detection)(308)와, 입력신호 분할부(Linear Predictive Analysis)(309)와, 저해상도 양자화부(Low resolution quantization)(310)와, 성도 필터링부(Vocal Tract Filtering)(311)를 포함한다.
DC 오프셋 제거 필터링부(DC offset removal filter)(301)는 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다.
백색화 필터부(Pre-emphasis)(302)는 입력신호 분석을 위하여 사용되는 백색화(pre-whitening) 필터이다.
시그널 프레임부(Signal Framing)(303)는 입력신호를 프레임단위(30ms)로 나눠주는 역할을 수행할 수 있다.
시그널 윈도우부(Signal Windowing)(304)는 분석 프레임에 윈도우 함수를 곱해준다. 여기서, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
음성 판별부(Voice Activity Detection)(305)는 해당 분석 프레임 신호가 음성인지 아닌지를 판별할 수 있다.
천이구간 판별부(Transient Portion Detection)(306)는 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별할 수 있다.
켑스트럼 추정부(Cepstrum estimation)(307)는 LPC 계수들로부터 켑스트럼을 추정할 수 있다. 이렇게 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
안정구간 판별부(Non-speech, transient and steady portion detection)(308)는 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별할 수 있다.
입력신호 분할부(Linear Predictive Analysis)(309)는 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 줄 수 있다.
저해상도 양자화부(Low resolution quantization)(310)는 안정구간 판별(Non-speech, transient and steady portion detection) 정보를 이용하여 저해상도의 여기신호를 얻을 수 있다. 우선 음성구간에 대하여 저해상도 여기신호를 합성해 내며 비음성구간에 대해서는 원래 해상도의 여기신호를 그대로 이용할 수 있다. 이때 천이구간과 정적인 음성구간에 대해 다른 해상도를 적용할 수 있다. 즉, 정적인 음성구간에 대해서는 좀 더 많은 저해상도를 적용하고 천이구간에 대해서는 약간의 저해상도를 적용하여 여기신호를 열화시킬 수 있다.
성도 필터링부(Vocal Tract Filtering)(311)는 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성할 수 있다.
앞에서 설명한 발화속도변이를 표현할 수 있는 음성합성방법과 부정확한 발음을 표현할 수 있는 음성합성방법을 이용하여 이미 수집된 음성데이터를 증강할 수 있으며, 증강된 음성데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하게 되면 심층신경망의 일반화(generalization) 특성이 향상되어 음성인식 시스템의 성능을 향상시킬 수 있게 된다.
도 4는 본 발명의 일 실시예에 따른 발화속도 변환방법의 흐름도이다.
도 4를 참조하면, DC 오프셋 제거 필터링부(DC offset removal filtering)에서 시간축 입력신호의 DC 성분을 제거한다(S401).
이어서, 백색화 필터부(Pre-emphasis)에서 입력신호를 분석한다. 이때 백색화(pre-whitening) 필터가 사용될 수 있다(S402).
이어서, 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위(30ms)로 나눠준다(S403).
이어서, 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해준다(S404). 이때, 음성신호분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
이어서, 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별한다(S405).
이어서, 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별한다(S406).
이어서, 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정한다(S407). 이때, 추정된 켑스트럼 정보는 해당 프레임이 천이구간이지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
이어서, 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별한다(S408).
이어서, 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기 신호(excitation) 성분으로 나누어 준다(S409).
이어서, 시간축 변환부(Variable Rate TSM(time scale modification))에서 여기신호를 대상으로 시간축 변환을 수행한다(S410). 여기서, 시간축 변환방법으로 가장 대표적인 것으로 synchronized overlap and add(SOLA) 방법이 있으며, 이를 이용하면 가변적 비율의 발화속도 변환을 용이하게 구성할 수 있다. 즉, 시간축 변환비율(time scale modification rate)을 가변적으로 적용하는 것으로 쉽게 구현할 수 있다. 이때, 천이구간에 대해서는 시간축 변환비율을 1로 두어 천이구간의 정보를 보존한다. 시간축 변환비율이 1보다 작으면 시간축으로 입력신호가 압축되는 것을 의미한다. 예를 들어, 시간축 변환비율이 0.5인 경우 시간축 신호를 두배로 압축하는 의미를 가지며 발화속도 측면에서는 두배 빠르게 발성하는 것을 의미한다. 시간축 변환비율이 1보다 큰 경우는 반대로 발화속도가 느려지는 것을 의미한다.
이어서, LPC 변환부(LPC to LSF conversion)에서 LPC 계수를 LSF(line spectral frequencies or LSP(line spectral pairs))로 변환한다(S411). 이는 시간축 변환비율에 따른 decimation 혹은 interpolation을 이용한 조음기관 모델의 제어를 위한 것이다. 성도모델 필터계수의 시간적 변화를 LSF를 이용하여 제어함으로써 조음기관의 변이를 표현해줄 수 있게 된다.
이어서, LSF 추정부(LSF estimation)에서 주변 프레임들의 LSF 값과 시간축 변환비율 상관관계를 이용하여 해당 프레임의 LSF 값을 추정한다(S412). 이를 통해 인간의 조음기관의 변이를 표현할 수 있게 된다.
이어서, LSF 변환부(LSF to LPC conversion)에서 LSF 값을 성도모델계수로 변환한다(S413).
이어서, 성도 필터링부(Vocal Tract Filtering)에서 시간축 변환된 여기신호와 추정된 성도모델계수를 이용하여 발화속도 변이현상이 반영된 음성신호를 구한다(S414).
도 5는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성방법의 흐름도이다. 여기서는 여기신호를 열화시키기 위하여 부가잡음을 삽입하여 음질을 향상시킬 수 있다.
도 5를 참조하면, DC 오프셋 제거 필터링부(DC offset removal filter)에서 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다(S501).
이어서, 백색화 필터부(Pre-emphasis)에서 입력신호를 분석한다(S502). 이때, 백색화(pre-whitening) 필터를 사용할 수 있다.
이어서, 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위(30ms)로 나눠준다(S503).
이어서, 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해준다(S504). 이때, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
이어서, 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별한다(S505).
이어서, 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별한다(S506).
이어서, 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정한다(S507). 이때 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
이어서, 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별한다(S508).
이어서, 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 준다(S509).
이어서, 파워 스펙트럼 추정부(power spectrum estimation)에서 여기신호로부터 Fourier 변환 과정을 이용하여 파워 스펙트럼(power spectrum)을 추정한다(S510).
이어서, PSD 추정부(speech and noise PSD estimation)에서 추정된 파워 스펙트럼 정보와 안정구간 판별(non-speech, transient and steady portion detection) 정보를 이용하여 음성과 배경 잡음의 power spectral density(PSD)를 추정한다(S511).
이어서, 위너 필터 추정부(Wiener filter estimation)에서 추정된 음성과 배경잡음의 PSD 정보를 이용하여 시간축 위너 필터(Wiener filter) 계수들을 추정한다(S512).
이어서, 위너 필터링부(Wiener filtering)에서 추정된 시간축 위너 필터(Wiener filter) 계수를 이용하여 여기신호에 포함되어 있는 배경잡음 성분을 제거한다(S513). 이를 통해 열화된 여기신호를 얻을 수 있다.
이어서, 성도 필터링부(Vocal Tract Filtering)에서 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성해 낼 수 있다(S514).
도 6은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 방법의 흐름도이다.
도 6을 참조하면, DC 오프셋 제거 필터링부(DC offset removal filter)에서 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다(S601).
이어서, 백색화 필터부(Pre-emphasis)에서 입력신호를 분석한다(S602). 이때, 백색화(pre-whitening) 필터를 사용할 수 있다.
이어서, 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위(30ms)로 나눠준다(S603).
이어서, 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해준다(S604). 이때, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
이어서, 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별한다(S605).
이어서, 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별한다(S606).
이어서, 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정한다(S607). 이때 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
이어서, 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별한다(S608).
이어서, 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 준다(S609).
이어서, 저해상도 양자화부(Low resolution quantization)에서 안정구간 판별(Non-speech, transient and steady portion detection) 정보를 이용하여 저해상도의 여기신호를 얻을 수 있다(S610). 우선 음성구간에 대하여 저해상도 여기신호를 합성해내며 비음성구간에 대해서는 원래 해상도의 여기신호를 그대로 이용할 수 있다. 이때 천이구간과 정적인 음성구간에 대해 다른 해상도를 적용할 수 있다. 즉, 정적인 음성구간에 대해서는 좀 더 많은 저해상도를 적용하고 천이구간에 대해서는 약간의 저해상도를 적용하여 여기신호를 열화시킬 수 있다.
이어서, 성도 필터링부(Vocal Tract Filtering)에서 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성할 수 있다(S611).
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.
101 : DC 오프셋 제거 필터링부
102 : 백색화 필터부
103 : 시그널 프레임부
104 : 시그널 윈도우부
105 : 음성 판별부
106 : 천이구간 판별부
107 : 켑스트럼 추정부
108 : 안정구간 판별부
109 : 입력신호 분할부
110 : 시간축 변환부
111 : LPC 변환부
112 : LSF 추정부
113 : LSF 변환부
114 : 성도 필터링부
102 : 백색화 필터부
103 : 시그널 프레임부
104 : 시그널 윈도우부
105 : 음성 판별부
106 : 천이구간 판별부
107 : 켑스트럼 추정부
108 : 안정구간 판별부
109 : 입력신호 분할부
110 : 시간축 변환부
111 : LPC 변환부
112 : LSF 추정부
113 : LSF 변환부
114 : 성도 필터링부
Claims (1)
- 심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법으로서,
자연어 발화변이 특성 중 발화속도 변이에 대한 음성 데이터를 증강시키는 단계;
상기 자연어 발화변이 특성 중 부정확한 발음에 대한 음성 데이터를 증강시키는 단계; 및
상기 발화속도 변이와 부정확한 발음에 대하여 증강된 음성 데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하는 단계를 포함하는 자연어 음성인식의 성능향상을 위한 데이터 증강방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160031050A KR102158743B1 (ko) | 2016-03-15 | 2016-03-15 | 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160031050A KR102158743B1 (ko) | 2016-03-15 | 2016-03-15 | 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170107283A true KR20170107283A (ko) | 2017-09-25 |
KR102158743B1 KR102158743B1 (ko) | 2020-09-22 |
Family
ID=60035110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160031050A KR102158743B1 (ko) | 2016-03-15 | 2016-03-15 | 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102158743B1 (ko) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10210860B1 (en) | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
WO2019217419A3 (en) * | 2018-05-08 | 2020-02-06 | Ctrl-Labs Corporation | Systems and methods for improved speech recognition using neuromuscular information |
US10842407B2 (en) | 2018-08-31 | 2020-11-24 | Facebook Technologies, Llc | Camera-guided interpretation of neuromuscular signals |
US10937414B2 (en) | 2018-05-08 | 2021-03-02 | Facebook Technologies, Llc | Systems and methods for text input using neuromuscular information |
US10990174B2 (en) | 2016-07-25 | 2021-04-27 | Facebook Technologies, Llc | Methods and apparatus for predicting musculo-skeletal position information using wearable autonomous sensors |
US10997967B2 (en) | 2019-04-18 | 2021-05-04 | Honeywell International Inc. | Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation |
US11036302B1 (en) | 2018-05-08 | 2021-06-15 | Facebook Technologies, Llc | Wearable devices and methods for improved speech recognition |
US11079846B2 (en) | 2013-11-12 | 2021-08-03 | Facebook Technologies, Llc | Systems, articles, and methods for capacitive electromyography sensors |
US11107459B2 (en) | 2018-03-02 | 2021-08-31 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method and computer-readable medium |
US11216069B2 (en) | 2018-05-08 | 2022-01-04 | Facebook Technologies, Llc | Systems and methods for improved speech recognition using neuromuscular information |
KR20220030120A (ko) * | 2020-09-02 | 2022-03-10 | 네이버 주식회사 | 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템 |
KR20220132950A (ko) | 2021-03-24 | 2022-10-04 | 한국전자통신연구원 | 혼합 샘플링 기반 학습 데이터 유형 분류 성능 개선 방법 및 장치 |
US11481030B2 (en) | 2019-03-29 | 2022-10-25 | Meta Platforms Technologies, Llc | Methods and apparatus for gesture detection and classification |
US11481031B1 (en) | 2019-04-30 | 2022-10-25 | Meta Platforms Technologies, Llc | Devices, systems, and methods for controlling computing devices via neuromuscular signals of users |
US11493993B2 (en) | 2019-09-04 | 2022-11-08 | Meta Platforms Technologies, Llc | Systems, methods, and interfaces for performing inputs based on neuromuscular control |
US11567573B2 (en) | 2018-09-20 | 2023-01-31 | Meta Platforms Technologies, Llc | Neuromuscular text entry, writing and drawing in augmented reality systems |
US11635736B2 (en) | 2017-10-19 | 2023-04-25 | Meta Platforms Technologies, Llc | Systems and methods for identifying biological structures associated with neuromuscular source signals |
US11644799B2 (en) | 2013-10-04 | 2023-05-09 | Meta Platforms Technologies, Llc | Systems, articles and methods for wearable electronic devices employing contact sensors |
US11657325B2 (en) | 2019-12-10 | 2023-05-23 | Electronics And Telecommunications Research Institute | Apparatus and method for augmenting training data using notch filter |
US11666264B1 (en) | 2013-11-27 | 2023-06-06 | Meta Platforms Technologies, Llc | Systems, articles, and methods for electromyography sensors |
US11797087B2 (en) | 2018-11-27 | 2023-10-24 | Meta Platforms Technologies, Llc | Methods and apparatus for autocalibration of a wearable electrode sensor system |
US11868531B1 (en) | 2021-04-08 | 2024-01-09 | Meta Platforms Technologies, Llc | Wearable device providing for thumb-to-finger-based input gestures detected based on neuromuscular signals, and systems and methods of use thereof |
US11907423B2 (en) | 2019-11-25 | 2024-02-20 | Meta Platforms Technologies, Llc | Systems and methods for contextualized interactions with an environment |
US11921471B2 (en) | 2013-08-16 | 2024-03-05 | Meta Platforms Technologies, Llc | Systems, articles, and methods for wearable devices having secondary power sources in links of a band for providing secondary power in addition to a primary power source |
US11961494B1 (en) | 2019-03-29 | 2024-04-16 | Meta Platforms Technologies, Llc | Electromagnetic interference reduction in extended reality environments |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230044574A (ko) | 2021-09-27 | 2023-04-04 | 브레인소프트주식회사 | 디제이변환을 통해 획득한 기본주파수를 이용한 데이터 증강법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6487531B1 (en) * | 1999-07-06 | 2002-11-26 | Carol A. Tosaya | Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition |
US20050065784A1 (en) * | 2003-07-31 | 2005-03-24 | Mcaulay Robert J. | Modification of acoustic signals using sinusoidal analysis and synthesis |
JP2007199654A (ja) * | 2005-12-26 | 2007-08-09 | Advanced Telecommunication Research Institute International | 音声処理装置、およびプログラム |
US20150255083A1 (en) * | 2012-10-30 | 2015-09-10 | Naunce Communication ,Inc. | Speech enhancement |
KR20160021295A (ko) * | 2013-06-21 | 2016-02-24 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Tcx ltp를 이용하여 붕괴되거나 붕괴되지 않은 수신된 프레임들의 재구성을 갖는 오디오 디코딩 |
-
2016
- 2016-03-15 KR KR1020160031050A patent/KR102158743B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6487531B1 (en) * | 1999-07-06 | 2002-11-26 | Carol A. Tosaya | Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition |
US20050065784A1 (en) * | 2003-07-31 | 2005-03-24 | Mcaulay Robert J. | Modification of acoustic signals using sinusoidal analysis and synthesis |
JP2007199654A (ja) * | 2005-12-26 | 2007-08-09 | Advanced Telecommunication Research Institute International | 音声処理装置、およびプログラム |
US20150255083A1 (en) * | 2012-10-30 | 2015-09-10 | Naunce Communication ,Inc. | Speech enhancement |
KR20160021295A (ko) * | 2013-06-21 | 2016-02-24 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Tcx ltp를 이용하여 붕괴되거나 붕괴되지 않은 수신된 프레임들의 재구성을 갖는 오디오 디코딩 |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11921471B2 (en) | 2013-08-16 | 2024-03-05 | Meta Platforms Technologies, Llc | Systems, articles, and methods for wearable devices having secondary power sources in links of a band for providing secondary power in addition to a primary power source |
US11644799B2 (en) | 2013-10-04 | 2023-05-09 | Meta Platforms Technologies, Llc | Systems, articles and methods for wearable electronic devices employing contact sensors |
US11079846B2 (en) | 2013-11-12 | 2021-08-03 | Facebook Technologies, Llc | Systems, articles, and methods for capacitive electromyography sensors |
US11666264B1 (en) | 2013-11-27 | 2023-06-06 | Meta Platforms Technologies, Llc | Systems, articles, and methods for electromyography sensors |
US10990174B2 (en) | 2016-07-25 | 2021-04-27 | Facebook Technologies, Llc | Methods and apparatus for predicting musculo-skeletal position information using wearable autonomous sensors |
US11635736B2 (en) | 2017-10-19 | 2023-04-25 | Meta Platforms Technologies, Llc | Systems and methods for identifying biological structures associated with neuromuscular source signals |
US11107459B2 (en) | 2018-03-02 | 2021-08-31 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method and computer-readable medium |
US11036302B1 (en) | 2018-05-08 | 2021-06-15 | Facebook Technologies, Llc | Wearable devices and methods for improved speech recognition |
WO2019217419A3 (en) * | 2018-05-08 | 2020-02-06 | Ctrl-Labs Corporation | Systems and methods for improved speech recognition using neuromuscular information |
US11216069B2 (en) | 2018-05-08 | 2022-01-04 | Facebook Technologies, Llc | Systems and methods for improved speech recognition using neuromuscular information |
US10937414B2 (en) | 2018-05-08 | 2021-03-02 | Facebook Technologies, Llc | Systems and methods for text input using neuromuscular information |
US11367433B2 (en) | 2018-07-27 | 2022-06-21 | Deepgram, Inc. | End-to-end neural networks for speech recognition and classification |
US10380997B1 (en) | 2018-07-27 | 2019-08-13 | Deepgram, Inc. | Deep learning internal state index-based search and classification |
US10210860B1 (en) | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
US11676579B2 (en) | 2018-07-27 | 2023-06-13 | Deepgram, Inc. | Deep learning internal state index-based search and classification |
US10540959B1 (en) | 2018-07-27 | 2020-01-21 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
US10720151B2 (en) | 2018-07-27 | 2020-07-21 | Deepgram, Inc. | End-to-end neural networks for speech recognition and classification |
US10847138B2 (en) | 2018-07-27 | 2020-11-24 | Deepgram, Inc. | Deep learning internal state index-based search and classification |
US10905350B2 (en) | 2018-08-31 | 2021-02-02 | Facebook Technologies, Llc | Camera-guided interpretation of neuromuscular signals |
US10842407B2 (en) | 2018-08-31 | 2020-11-24 | Facebook Technologies, Llc | Camera-guided interpretation of neuromuscular signals |
US11567573B2 (en) | 2018-09-20 | 2023-01-31 | Meta Platforms Technologies, Llc | Neuromuscular text entry, writing and drawing in augmented reality systems |
US11797087B2 (en) | 2018-11-27 | 2023-10-24 | Meta Platforms Technologies, Llc | Methods and apparatus for autocalibration of a wearable electrode sensor system |
US11941176B1 (en) | 2018-11-27 | 2024-03-26 | Meta Platforms Technologies, Llc | Methods and apparatus for autocalibration of a wearable electrode sensor system |
US11481030B2 (en) | 2019-03-29 | 2022-10-25 | Meta Platforms Technologies, Llc | Methods and apparatus for gesture detection and classification |
US11961494B1 (en) | 2019-03-29 | 2024-04-16 | Meta Platforms Technologies, Llc | Electromagnetic interference reduction in extended reality environments |
US10997967B2 (en) | 2019-04-18 | 2021-05-04 | Honeywell International Inc. | Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation |
US11481031B1 (en) | 2019-04-30 | 2022-10-25 | Meta Platforms Technologies, Llc | Devices, systems, and methods for controlling computing devices via neuromuscular signals of users |
US11493993B2 (en) | 2019-09-04 | 2022-11-08 | Meta Platforms Technologies, Llc | Systems, methods, and interfaces for performing inputs based on neuromuscular control |
US11907423B2 (en) | 2019-11-25 | 2024-02-20 | Meta Platforms Technologies, Llc | Systems and methods for contextualized interactions with an environment |
US11657325B2 (en) | 2019-12-10 | 2023-05-23 | Electronics And Telecommunications Research Institute | Apparatus and method for augmenting training data using notch filter |
KR20220030120A (ko) * | 2020-09-02 | 2022-03-10 | 네이버 주식회사 | 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템 |
KR20220132950A (ko) | 2021-03-24 | 2022-10-04 | 한국전자통신연구원 | 혼합 샘플링 기반 학습 데이터 유형 분류 성능 개선 방법 및 장치 |
US11868531B1 (en) | 2021-04-08 | 2024-01-09 | Meta Platforms Technologies, Llc | Wearable device providing for thumb-to-finger-based input gestures detected based on neuromuscular signals, and systems and methods of use thereof |
Also Published As
Publication number | Publication date |
---|---|
KR102158743B1 (ko) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20170107283A (ko) | 자연어 음성인식의 성능향상을 위한 데이터 증강방법 | |
Talkin et al. | A robust algorithm for pitch tracking (RAPT) | |
JP4705203B2 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
JP5159325B2 (ja) | 音声処理装置及びそのプログラム | |
JP5717097B2 (ja) | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
CN108108357A (zh) | 口音转换方法及装置、电子设备 | |
US20110046957A1 (en) | System and method for speech synthesis using frequency splicing | |
JP4999757B2 (ja) | 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 | |
Chadha et al. | A comparative performance of various speech analysis-synthesis techniques | |
JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
Pfitzinger | Unsupervised speech morphing between utterances of any speakers | |
Acero | Source-filter models for time-scale pitch-scale modification of speech | |
Raitio et al. | Phase perception of the glottal excitation of vocoded speech | |
JP2011141470A (ja) | 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム | |
JP2005523478A (ja) | 音声を合成する方法 | |
Anil et al. | Expressive speech synthesis using prosodic modification for Marathi language | |
Govind et al. | Expressive speech synthesis using prosodic modification and dynamic time warping | |
Tillmann et al. | Local speech rate: Relationships between articulation and speech acoustics | |
Anil et al. | Pitch and duration modification for expressive speech synthesis in Marathi TTS system | |
Agbolade | A THESIS SUMMARY ON VOICE CONVERSION WITH COEFFICIENT MAPPING AND NEURAL NETWORK | |
Vasilopoulos et al. | Implementation and evaluation of a Greek Text to Speech System based on an Harmonic plus Noise Model | |
Lehana et al. | Improving quality of speech synthesis in Indian Languages | |
Olatunji et al. | Improved speech analysis for glottal excited linear predictive speech coding | |
Su et al. | Pitch-Scale Modification Based on Formant Extraction from Resampled Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |