KR102203991B1

KR102203991B1 - 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치

Info

Publication number: KR102203991B1
Application number: KR1020190010972A
Authority: KR
Inventors: 장준혁; 황인영
Original assignee: 한양대학교 산학협력단
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2021-01-18
Also published as: KR20200101495A

Abstract

음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치가 제시된다. 일 실시예에 따른 심화신경망 기반의 음성 끝점 검출 방법은, 제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 단계; 및 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계를 포함하여 이루어질 수 있다.

Description

음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치{METHOD AND APPARATUS FOR SPEECH ENDPOINT DETECTION BASED ON JOINTLY TRAINED DEEP NEURAL NETWORKS FOR COMBINING ACOUSTIC EMBEDDING WITH CONTEXT OF AUTOMATIC SPEECH RECOGNITION}

아래의 실시예들은 음성 끝점 검출 기술에 관한 것으로, 더욱 상세하게는 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치에 관한 것이다. 이 발명은 2017년도 정부(과학기술정보통신부)의 재원으로 정보통신기술진흥센터의 지원을 받아 수행된 연구임(No.2017-0-00474, AI스피커 음성비서를 위한 지능형 음성신호처리 기술개발).

음성 끝점 검출 기술은 마이크로 입력되는 음성신호로부터 발화가 끝나는 점을 검출하는 기술로, 주로 디바이스-서버형 음성인식을 사용하는 기술에 적용 가능하다. 음성인식 기반의 인공지능 비서 서비스는 정확한 음성인식과 빠른 응답이 매우 중요하다. 음성의 끝을 잘 검출하지 못하여 발화가 끝났음에도 이를 인지하지 못하여 음성인식만 계속 수행하게 되는 문제가 발생할 수 있으며, 음성 중간의 비음성 구간을 음성이 끝난 점으로 잘못 인지하는 경우 사용자가 이어서 발화하는 중에 그 직전까지의 텍스트를 기반으로 응답하기 때문에 제대로 된 응답을 해줄 수 없다.

비특허문헌 1은 최근 음성인식 관련 연구에서 많이 사용되고 있는 CLDNN(Convolutional, Long short-term memory, Deep Neural Network)의 convolution layer를 grid-long short-term memory(GLSTM)로 대체한 GLDNN을 이용한 음성 끝점 검출 기술을 제안할 수 있다. 여기에서는 각 프레임의 상태를 speech(음성 구간), intermediate silence(발화 중의 비음성 구간), initial silence(발화 전 비음성 구간), final silence(발화 후 비음성 구간)로 분류한다. CLDNN과 GLDNN 기반의 음성 끝점 검출기의 성능 비교하였으며, GLDNN을 사용하는 것이 더 우수함을 보였다.

비특허문헌 2에서는 음성 끝점 검출 성능을 높이기 위하여 음향특징벡터를 이용하여 LSTM(long short-term memory)에 기반하는 음성 끝점 검출기를 신호 단계의 음성 끝점과 단어 단계의 음성 끝점 라벨을 이용하여 학습하고 두 개의 LSTM의 마지막 은닉층의 은닉상태와 온라인 음성인식 디코더의 특징벡터(active hypotheses에 기반한 최대 비음성 구간 길이, likelihood로 interpolation된 비음성 구간 길이, likelihood로 interpolation된 발화 후 비음성 구간 길이)를 입력으로 음성 끝점을 검출하는 방식의 음성 끝점 검출 기술을 제안했다.

한편, 음성 끝점 검출 기술의 성능 저하 원인은 1) 발화가 끝난 후에 음성의 끝점 검출까지 지연이 발생하는 경우와 2) 발화 중간에 비음성 구간을 음성의 끝점으로 잘못 인식하는 경우에 의하여 발생된다.

비특허문헌 1의 음성 끝점 검출 기술은 음향특징벡터로부터 GLDNN을 통하여 음성 특징벡터와 음성 상태의 관계를 잘 모델링하여 음성이 끝나는 순간을 잘 검출할 수 있는 장점이 있지만, 발화 중간의 비음성 구간을 음성의 끝점으로 잘못 인식하는 경우가 자주 발생한다. 그리고 비특허문헌 2의 음성 끝점 검출 기술은 신호, 단어 레벨의 음성 정보와 디코더 상태 정보를 결합하여 음성 중간의 비음성 구간을 음성 끝점으로 잘못 인지하는 경우가 상대적으로 적게 발생하지만, 온라인 음성인식 디코딩을 처리해야 하기 때문에 많은 연산량이 필요하여 음성기반 인공지능 스피커와 같은 임베디드 환경은 리소스가 제한적이기 때문에 적용하는 데는 어려움이 있다.

S.-Y. Chang, B. Li, T. N. Sainath, G. Simko, and C. Parada, "Endpoint detection using grid long short-term memory networks for streaming speech recognition", in Proceedings of Interspeech, 2017, pp. 3812-3816. R. Mass et al. "Combining acoustic embeddings and decoding features for end-point detection in real-time far-field speech recognition systems", ICASSP(International Conference on Acoustics, Speech, and Signal Processing), 2018.

실시예들은 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치에 관하여 기술하며, 보다 구체적으로 음향특징벡터 임베딩 정보와 음성인식 컨텍스트를 결합함으로써, 음성 중간의 비음성 구간을 음성의 끝점으로 오인지하는 것을 방지하고 음성이 끝난 후에는 빠르게 응답할 수 있는 기술을 제공한다.

또한, 실시예들은 디바이스-서버형 음성인식기에서 음성구간에 대해서만 서버에서 처리함으로써, 비음성 구간까지 디코딩하는 것을 방지하여 서버의 리소스를 좀 더 효율적으로 운영할 수 있는 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치를 제공하는데 있다.

일 실시예에 따른 심화신경망 기반의 음성 끝점 검출 방법은, 제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 단계; 및 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계를 포함하여 이루어질 수 있다.

상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델은, 순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델일 수 있다.

상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는, 상기 제1 심화신경망 모델에 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 단계를 포함할 수 있다.

상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는, 상기 제2 심화신경망 모델에 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 단계를 더 포함할 수 있다.

상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는, 음성 끝점 검출을 위한 상기 제1 심화신경망 모델, 상기 제2 심화신경망 모델 및 상기 덴스(dense) 층을 학습하는 단계를 더 포함할 수 있다. 상기 음성 끝점 검출을 위한 상기 제1 심화신경망 모델, 상기 제2 심화신경망 모델 및 상기 덴스(dense) 층을 학습하는 단계는, 상기 제1 심화신경망 모델을 음향특징벡터와 각 프레임별 음성 상태를 학습하는 단계; 상기 제2 심화신경망 모델을 음향특징벡터와 학습된 음성인식기를 통하여 얻어진 1-best decoding hypothesis로부터 EOS에 대한 확률을 직접적으로 학습하는 단계; 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉층을 결합하는 단계; 결합된 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 상기 덴스(dense) 층을 학습하는 단계; 및 전체 덴스(dense) 층과 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 상기 음향 특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화하는 단계를 포함할 수 있다.

상기 음성 끝점 검출을 위한 상기 제1 심화신경망 모델, 상기 제2 심화신경망 모델 및 상기 덴스(dense) 층을 학습하는 단계는, 교차 엔트로피 오차(cross entropy error) 함수와 평균 제곱 오차(mean square error) 함수 및 교차 엔트로피 오차(cross entropy error) 함수를 각각 비용함수로 사용하여, 상기 비용함수가 감소하도록 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 학습할 수 있다.

상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는, 상기 음향 특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하는 단계; 및 추정된 상기 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 값을 EOS로 정의하고, 상기 EOS가 문턱 값보다 커지는 순간을 음성의 끝점으로 검출하는 단계를 포함할 수 있다.

상기 제2 심화신경망 모델은, 상기 음향 특징벡터열을 디코딩한 결과 중 각 프레임별 가장 확률이 높은 단어열 중 마지막 N-1개 단어와 N-gram 언어모델을 통하여 이후 EOS 토큰이 등장할 수 있는 확률을 추정할 수 있다.

상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는, 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터 및 덴스(dense) 층의 모델 파라미터를 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 결합 학습하여 성능을 향상시킬 수 있다.

다른 실시예에 따른 심화신경망 기반의 음성 끝점 검출 장치는, 제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 특징 추출부; 및 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 심화신경망 모델부를 포함하여 이루어질 수 있다.

상기 심화신경망 모델부는, 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터를 고정시키고, 결합된 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 상기 덴스(dense) 층을 학습하며, 전체 덴스(dense) 층과 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 상기 음향 특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화할 수 있다.

상기 심화신경망 모델부는, 상기 음향 특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하고, 추정된 상기 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS로 정의하고, 상기 EOS가 문턱 값보다 커지는 순간을 음성의 끝점으로 검출할 수 있다.

실시예들에 따르면 음향특징벡터 임베딩 정보와 음성인식 컨텍스트를 결합함으로써, 음성 중간의 비음성 구간을 음성의 끝점으로 오인지하는 것을 방지하고 음성이 끝난 후에는 빠르게 응답할 수 있는 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치를 제공할 수 있다.

또한, 실시예들에 따르면 디바이스-서버형 음성인식기에서 음성구간에 대해서만 서버에서 처리함으로써, 비음성 구간까지 디코딩하는 것을 방지하여 서버의 리소스를 좀 더 효율적으로 운영할 수 있는 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치를 제공할 수 있다.

도 1은 일 실시예에 따른 음향특징벡터 임베딩 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.
도 2는 일 실시예에 따른 음성인식 컨텍스트 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.
도 4 내지 도 6은 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법을 나타내는 흐름도이다.

이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

음성 끝점 검출 기술은 마이크로 입력되는 음성신호로부터 발화가 시작된 후 발화가 끝나는 순간을 검출하는 기술이다. 최근 스마트 스피커 등의 인공지능 음성기반 비서 기술은 디바이스-서버 기반의 음성인식 기술을 사용하고 있는데, 디바이스에서 잡음제거/잔향제거/에코제거 등의 전처리 기술을 수행하여 추정된 깨끗한 음성신호를 서버로 전송하여 서버에서 대어휘 연속어 음성인식 및 자연언어처리 등을 수행하여 사용자가 원하는 정보를 제공한다. 디바이스에서 음성 끝점 검출을 수행하여 음성이 끝나는 지점까지 서버로 전송하고 이를 처리하여 사용자에게 정보가 제공된다.

따라서 음성 끝점 검출 성능저하로 발화가 끝나기 전에 발화가 끝난 것으로 오인식 하거나 발화가 끝나도 아직 발화 중인 것으로 오인식 할 경우 정상적인 서비스가 어려워 사용자에게 불편함을 줄 수 있다.

아래의 본 발명의 실시예들에서는 음향특징벡터 임베딩을 통하여 음성의 끝점에 대한 확률을 추정하는 심화신경망(Deep Neural Network, DNN) 기반의 음성 끝점 검출기와 음성인식 컨텍스트(정보)를 통하여 음성 끝점의 확률을 추정하는 심화신경망 기반의 음성 끝점 검출 기술을 각각 제공하고, 두 개의 네트워크의 마지막 은닉 층의 상태를 결합하여 음성 끝점의 확률을 추정하는 음성 끝점 검출 기술을 제공한다.

이는 음향정보를 통하여 음성 끝점 검출시 지연 시간을 줄일 수 있으며, 음성인식 컨텍스트를 통하여 음성의 중간의 비음성 구간을 음성의 끝점으로 잘못 인지하는 현상을 줄일 수 있다. 또한, 서버에서 음성구간에 대해서만 음성인식을 수행할 수 있으므로 효율성을 높일 수 있다.

한편, 기존의 음성 끝점 검출 기술은 음향 특징벡터열로부터 수동으로 라벨링된 신호 단계의 음성 끝점과 단어단계의 음성 끝점 라벨 정보를 이용하여 각각 학습된 두 개의 LSTM 모델의 마지막 은닉층의 은닉상태 및 온라인 음성인식 디코더로부터 구해진 디코터 특징벡터를 결합하여 발화 중간의 비음성 구간을 음성 끝점으로 잘못 검출하는 것을 방지할 수 있다. 하지만, 이는 많은 연산량와 메모리를 요구하는 온라인 음성인식을 실제로 수행해야 하기 때문에 상대적으로 시스템 리소스가 제한적인 임베디드 환경에 적용하는 데는 어려움이 있다.

본 발명의 실시예에서는 이러한 문제를 해결하기 위하여 음성인식 결과에서 현재까지 디코딩된 결과를 기반으로 이후에 EOS 토큰이 등장할 확률을 모델링하는 심화신경망을 구축하고, 이 신경망의 마지막 은닉 층의 은닉 상태를 음향특징벡터 임베딩 정보와 결합하여 음성 끝점 검출을 수행할 수 있다. 실시예들에 따른 음성 끝점 검출 기술은 이를 통하여 발화 중간의 비음성 구간에 대하여 음성 끝점으로 오인식 하는 것이 기존의 기술보다 잘 극복할 수 있으며, 발화가 끝나고 나서 이를 인식하는데 발생하는 지연을 줄일 수 있다.

도 1은 일 실시예에 따른 음향특징벡터 임베딩 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.

도 1을 참조하면, 음향특징벡터 임베딩 기반의 음성 끝점 검출 장치의 학습 및 테스트 과정을 보여준다.

학습 단계(Training Stage, 110)에서 마이크로 입력되는 음성신호(111)로부터 특징추출부(112)를 통해 음향 특징벡터열을 추출하고, 심화신경망 모델부(113)는 EPD 라벨 데이터베이스(101)를 참조하여 추출된 음향 특징벡터열로부터 각 프레임을 음성프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임으로 분류할 수 있다.

심화신경망 모델부(113)는 각 프레임별 특징벡터열과 각 프레임의 음성의 상태(음성, 발화 중간의 비음성, 발화 전 비음성, 발화 후 비음성)의 관계를 모델링하기 위한 RNN 모델을 학습하기 위하여 교차 엔트로피 오차(cross entropy error) 함수를 비용함수로써 사용하여 비용함수가 감소하도록 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 학습할 수 있다.

테스트 단계(Inference Stage, 120)에서는 음성신호(121)로부터 특징추출부(122)를 통해 음향 특징벡터열을 추출하고, 학습된 모델(114)을 통하여 AF 기반 EPD(123)에서 각 프레임별 특징벡터열로부터 음성의 상태에 대한 확률을 추정할 수 있는데, 여기서 발화 후 비음성에 대한 확률을 EOS의 확률로 정의한다.

아래에서 음향특징벡터 임베딩 기반의 음성 끝점 검출 장치의 학습 및 테스트 과정을 보다 상세히 설명한다.

음향특징벡터 임베딩 기반의 음성 끝점 검출 기술은 마이크로 입력되는 음성신호로부터 추출된 특징벡터열로부터 각 프레임을 음성프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임으로 분류하는 모델에 기반한다.

일 실시예에 따른 음향특징벡터 임베딩 기반의 음성 끝점 검출 기술은 음성 특징벡터의 단기적/장기적 변화를 잘 모델링하기 위하여 순환신경망(Recurrent Neural Network, RNN) 기반의 심화신경망 모델을 사용할 수 있다. RNN 모델은 표준(standard) RNN, GRU(Gated Recurrent Unit) 및 LSTM(Long Short-Term Memory)가 있으며, 아래에서는 RNN 모델의 하나의 예로써 GRU를 사용하여 설명한다. 여기서 GRU는 RNN 모델의 예시이며, 이에 제한되지는 않는다. GRU는 다음 식과 같이 정의될 수 있다.

[수학식 1]

여기서, r_t와 z_t는 각각 forget 게이트와 update 게이트를 나타내며,

는 현재 t프레임의 임시적 은닉 상태를 나타내고, h_t는 은닉 상태를 나타낸다.

는 시그모이드(sigmoid) 함수를 나타내며,

는 전향방 연결을 나타내며,

는 재귀 연결을 나타낸다.

GRU를 이용하여 입력 음향특징벡터로부터 음성 상태는 다음 식과 같이 구할 수 있다.

[수학식 2]

여기서,

는 n 번째 은닉 층의 상태를 나타내며,

는 n 번째 은닉 층의 모델 파라미터를 나타낸다.

와

는 출력 층의 가중치 파라미터와 바이어스 파라미터를 나타낸다. 위 모델의 학습을 위해서는 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되는데, 비용함수로써 교차 엔트로피 오차(cross entropy error) 함수를 사용할 수 있으며 다음 식과 같이 표현할 수 있다.

[수학식 3]

여기서,

와

는 j 번째 프레임에 대한 k 번째 출력 노드의 계산된 값과 라벨 값을 나타내며, M과 K는 프레임 길이와 출력 노드의 개수를 각각 나타낸다.

도 2는 일 실시예에 따른 음성인식 컨텍스트 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.

도 2를 참조하면, 음성인식 컨텍스트 기반의 음성 끝점 검출 장치의 학습 및 테스트 과정을 보여준다.

학습 단계(210)에서, 먼저 Baum-Welch 알고리즘(202)을 이용하여 GMM-HMM 기반의 음향모델(204)과 N-gram 언어모델(205)을 구축하고, 이를 이용하여 학습데이터를 디코딩(206)한 후에 프레임 단위로 가장 확률이 높은 단어열을 추출하여 마지막 2개 단어를 기반으로 이후에 EOS가 올 확률로 변환(207)할 수 있다. 이후, 심화신경망 모델부(213)에서 특징 추출부(212)를 통해 음성신호(211)로부터 추출된 음향 특징벡터열과 EOS 토큰의 등장 확률 쌍을 MSE를 비용함수로 정의하여 학습할 수 있다.

테스트 단계(220)에서는 ASR 기반 EPD(223)에서 특징 추출부(222)를 통해 음성신호(221)로부터 추출된 음향 특징벡터열로부터 각 프레임 별로 이후에 EOS가 등장할 확률을 구할 수 있다.

아래에서 음성인식 컨텍스트 기반의 음성 끝점 검출 장치의 학습 및 테스트 과정을 보다 상세히 설명한다.

음성인식 컨텍스트 기반의 음성 끝점 검출 기술은 온라인 음성인식 중에 가장 확률이 높은 단어열로부터 언어모델을 적용하여 마지막 N-1 개 단어 이후에 EOS 토큰이 등장할 확률을 EOS로 정의할 수 있다. 먼저, 음성인식은 마이크로 입력되는 특징벡터열로부터 가장 장 매칭되는 단어열을 추정하는 기술이며, 다음 식과 같이 표현될 수 있다

[수학식 4]

여기서,

와

는 각각 음향모델 및 언어모델에 의하여 결정될 수 있다. 언어모델은 이전의 단어열을 기반으로 현재 단어의 확률을 추정하는 모델로, 일반적으로 마르코프 연쇄 법칙(Markov chain rule)에 의하여 N-gram으로 근사화할 수 있으며 다음 식과 같이 표현될 수 있다.

[수학식 5]

여기서, N은 언어모델의 차수를 나타내며, 일반적으로 3-gram 언어모델이 주로 사용된다. 3-gram 언어모델은 다음 식과 같이 정의될 수 있다.

[수학식 6]

언어모델의 가장 큰 문제점은 데이터의 희소성이다. 이 문제를 해결하기 위하여 디스카운팅(discounting) 및 백오프(backoff) 알고리즘이 주로 사용된다. 이는 N-gram 기반 언어모델에 정의되지 않은 확률을 (N-1)-gram 언어모델로 대체하는 기술이며, 다음 식과 같이 나타낼 수 있다.

[수학식 7]

여기서,

과

는 각각 1-gram, 2-gram 언어모델의 백오프(backoff) 파라미터를 나타내며, 각각

과

을 만족해야 한다. 또한, C₃과 C₂는 각각 백오프(backoff) 문턱 값을 나타낸다.

[수학식 6]과 [수학식 7]을 통하여 EOS 토큰이 등장할 확률을 구하기 위한 언어모델은 다음 식들과 같이 정의할 수 있다.

[수학식 8]

[수학식 9]

음성인식은 [수학식 4]의 문제인데, 1~t까지에 해당되는 특징벡터 x[1:t]에 대한 디코딩 결과에서 가장 확률이 높은 단어열은 다음 식과 같이 표현할 수 있다.

[수학식 10]

[수학식 9]와 [수학식 10]을 통하여 시간 t에 해당되는 이후 EOS가 등장할 확률은

로 나타낼 수 있는데, 여기서 V는 t까지 디코딩된 결과에서 확률이 가장 높은 단어열의 단어 개수를 나타낸다.

마이크로 입력되는 특징벡터열로부터

를 추정하기 위한 심화신경망 모델 기반의 음성 끝점 검출 기술은 RNN 모델을 이용한 심화신경망 모델을 이용하여 EOS에 대한 확률을 회귀(regression)할 수 있으며, 다음 식과 같이 나타낼 수 있다.

[수학식 11]

여기서,

는 로지스틱 시그모이드(logistic sigmoid) 함수를 나타낸다.

위 모델의 학습을 위해서는 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되는데, 비용함수로써 교차 엔트로피 오차(cross entropy error) 함수를 사용할 수 있으며 다음 식과 같이 표현할 수 있다.

[수학식 12]

도 3은 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.

도 3을 참조하면, 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치의 학습 및 테스트 과정을 보여준다.

학습 단계(310)에서, 특징 추출부(312)는 음성신호(311)로부터 음향 특징벡터열을 추출할 수 있다. 음성 끝점 검출 장치의 심화신경망 모델부(313)는 두 개의 GRU로 구성된 심화신경망 모델 2개의 마지막 은닉 층의 은닉 상태를 결합(concatenate)하고, 이로부터 음성 상태를 추정할 수 있다. 심화신경망 모델부(313)의 제1 심화신경망 모델은 앞서 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터(315)를 복사(transfer)할 수 있다. 심화신경망 모델부(313)의 제2 심화신경망 모델은 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 모델의 모델 파라미터(314)를 복사(transfer)할 수 있다. 이후에는 두 개의 심화신경망 모델의 모델 파라미터를 고정시키고, 결합(concatenate)된 은닉 상태와 프레임별 음성 상태를 모델링하는 덴스(dense) 층을 학습할 수 있다. 끝으로, 전체 덴스(dense) 층 및 두 개의 심화신경망 모델의 파라미터를 결합 학습하여 음향특징 벡터열로부터 음성의 상태를 검출하기 위한 모델을 최적화할 수 있다.

테스트 단계(320)에서, 특징 추출부(322)는 음성신호(321)로부터 음향 특징벡터열을 추출하고, 음성 끝점 검출 장치는 음향 특징벡터열로부터 각 프레임별 음성 상태를 추정하고, 이 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 발화의 끝점으로 정의하여 최초로 문턱 값보다 커지는 순간을 음성의 끝점으로 정의할 수 있다.

다시 말하면, 최종적으로 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습하기 위한 심화신경망 모델은 다음 식과 같이 정의될 수 있다. 이 때, 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습하기 위한 심화신경망 모델은 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치가 될 수 있으며, 또한 이에 포함될 수 있다.

[수학식 13]

음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습하기 위한 심화신경망 모델의 U_joint와 b_joint는 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되는데, 비용함수로써 교차 엔트로피 오차(cross entropy error) 함수를 사용할 수 있다. 학습이 완료된 후에는

를 결합 학습함으로써 전체 모델 파라미터를 최적화할 수 있다.

아래에서 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치를 보다 상세히 설명한다.

일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치는 특징 추출부 및 심화신경망 모델부를 포함하여 이루어질 수 있다.

특징 추출부(312)는 제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력할 수 있다.

심화신경망 모델부(313)는 상기 특징 추출부(312)로부터 음향 특징 벡터열을 입력 받는 2 개의 심화신경망 모델을 포함할 수 있다. 보다 구체적으로, 심화신경망 모델부(313)는 제1 심화신경망 모델 및 제2 심화신경망 모델에 특징 추출부로부터 음향 특징 벡터열을 입력 받고, 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출할 수 있다. 여기서, 제1 심화신경망 모델 및 제2 심화신경망 모델은 순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델일 수 있다. 또한, 실시예에 따라 제1 심화신경망 모델 및 제2 심화신경망 모델은 GRU뿐만 아니라 다른 순환신경망으로 구성될 수 있다.

심화신경망 모델부(313)의 제1 심화신경망 모델은 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)할 수 있다. 그리고, 심화신경망 모델부의 제2 심화신경망 모델은, 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)할 수 있다.

학습 단계에서, 심화신경망 모델부(313)는 제1 심화신경망 모델 및 제2 심화신경망 모델의 모델 파라미터를 고정시키고, 결합된 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 덴스(dense) 층을 학습하며, 전체 덴스(dense) 층과 제1 심화신경망 모델 및 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 음향 특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화할 수 있다.

테스트 단계에서, 심화신경망 모델부(313)는 음향 특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하고, 추정된 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS로 정의하고, EOS가 문턱 값보다 커지는 순간을 음성의 끝점으로 검출할 수 있다.

도 4 내지 도 6은 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법을 나타내는 흐름도이다.

도 4를 참조하면, 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법은, 제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 단계(S110), 및 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계(S120)를 포함하여 이루어질 수 있다.

도 5를 참조하면, 학습 단계에서 단계(S120)는, 1 심화신경망 모델에 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 단계(S121) 및 제2 심화신경망 모델에 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 단계(S122)를 포함할 수 있다. 또한, 음성 끝점 검출을 위한 제1 심화신경망 모델, 제2 심화신경망 모델 및 덴스(dense) 층을 학습하는 단계(S123)을 더 포함할 수 있다.

여기서, 단계(S123)는, 제1 심화신경망 모델을 음향특징벡터와 각 프레임별 음성 상태를 학습하는 단계, 제2 심화신경망 모델을 음향특징벡터와 학습된 음성인식기를 통하여 얻어진 1-best decoding hypothesis로부터 EOS에 대한 확률을 직접적으로 학습하는 단계, 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉층을 결합하는 단계, 결합된 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 덴스(dense) 층을 학습하는 단계, 및 전체 덴스(dense) 층과 제1 심화신경망 모델 및 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 음향 특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화하는 단계를 더 포함하여 이루어질 수 있다.

도 6을 참조하면, 테스트 단계에서 단계(S120)는, 음향 특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하는 단계(S124) 및 추정된 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS로 정의하고, EOS가 문턱 값보다 커지는 순간을 음성의 끝점으로 검출하는 단계(S125)를 포함할 수 있다.

아래에서는 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법의 각 단계를 설명한다.

일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법은 앞에서 설명한 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치를 통해 보다 상세히 설명할 수 있다. 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치는 특징 추출부 및 심화신경망 모델부를 포함하여 이루어질 수 있다.

단계(S110)에서, 특징 추출부는 제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력할 수 있다.

단계(S120)에서, 심화신경망 모델부는 제1 심화신경망 모델 및 제2 심화신경망 모델에 특징 추출부로부터 음향 특징 벡터열을 입력 받고, 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출할 수 있다. 여기서, 제1 심화신경망 모델 및 제2 심화신경망 모델은 순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델일 수 있다. 또한, 실시예에 따라 제1 심화신경망 모델 및 제2 심화신경망 모델은 GRU뿐만 아니라 다른 순환신경망으로 구성될 수 있다.

단계(S121)에서, 심화신경망 모델부는 제1 심화신경망 모델에 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)할 수 있다.

단계(S122)에서, 심화신경망 모델부는 제2 심화신경망 모델에 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)할 수 있다.

단계(S123)에서, 심화신경망 모델부는 음성 끝점 검출을 위한 제1 심화신경망 모델, 제2 심화신경망 모델 및 덴스(dense) 층을 학습할 수 있다. 심화신경망 모델부는 제1 심화신경망 모델을 음향특징벡터와 각 프레임별 음성 상태를 학습할 수 있다. 또한, 심화신경망 모델부는 제2 심화신경망 모델을 음향특징벡터와 학습된 음성인식기를 통하여 얻어진 1-best decoding hypothesis로부터 EOS에 대한 확률을 직접적으로 학습할 수 있다. 그리고, 심화신경망 모델부는 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉층을 결합할 수 있으며, 결합된 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 덴스(dense) 층을 학습할 수 있다.

이 때, 심화신경망 모델부는 교차 엔트로피 오차(cross entropy error) 함수, 평균 제곱 오차(mean square error) 함수 및 교차 엔트로피 오차(cross entropy error) 함수를 각각 비용함수로 사용하여, 비용함수가 감소하도록 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 학습할 수 있다.

또한, 심화신경망 모델부는 전체 덴스(dense) 층과 제1 심화신경망 모델 및 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 음향 특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화할 수 있다.

그리고, 단계(S124)에서, 심화신경망 모델부는 음향 특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정할 수 있다.

단계(S125)에서, 심화신경망 모델부는 추정된 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS로 정의하고, EOS가 문턱 값보다 커지는 순간을 음성의 끝점으로 검출할 수 있다.

특히, 심화신경망 모델부는 제2 심화신경망 모델에서 음향 특징벡터열을 디코딩한 결과 중 각 프레임별 가장 확률이 높은 단어열 중 마지막 N-1개 단어와 N-gram 언어모델을 통하여 이후 EOS 토큰이 등장할 수 있는 확률을 추정할 수 있다.

그리고 심화신경망 모델부는 제1 심화신경망 모델 및 제2 심화신경망 모델의 모델 파라미터 및 덴스(dense) 층의 모델 파라미터를 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 결합 학습하여 성능을 향상시킬 수 있다.

실시예들에 따르면 음향특징벡터 임베딩 정보에 기반하는 음성 끝점 검출 기술과 음성인식 컨텍스트에 기반하는 음성 끝점 검출 기술을 결합할 수 있다. 이를 위하여 각 음성 끝점 검출기의 검출 과정에서 형성되는 마지막 은닉 층의 은닉 상태를 결합하여 이로부터 최종적으로 음성 끝점을 결정할 수 있다.

실시예들에 따른 음성 끝점 검출 기술은 음향특징벡터 임베딩을 통하여 발화가 끝난 후 바로 음성 끝점이 검출되도록 유도할 수 있고, 음성인식 정보로써 현재 프레임까지 디코딩된 가장 확률이 높은 단어열 이후에 EOS 토큰이 나타날 확률을 이용함으로써 발화 중간의 비음성 구간을 음성 끝점으로 잘못 인지하는 것을 방지할 수 있다. 이를 통하여 사용자가 원거리에서 음성으로 질의를 하는 경우에 발화가 끝난 직후 최소 시간에 응답할 수 있으며, 발화 중간의 비음성 구간이 있더라도 이후의 발성에 대기하여 사용자의 질의를 위한 발성이 끝난 후에 해당 정보를 처리하여 제공할 수 있다.

아래에서는 성능에 대한 실험 결과를 설명한다. 본 발명의 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 기술의 성능을 기존의 비특허문헌 1의 음성 끝점 검출 기술 및 비특허문헌 2의 음성 끝점 검출 기술과 각각 비교할 수 있다.

본 실험을 위하여 SiTEC의 Dict01 데이터베이스를 사용했는데, 해당 데이터베이스는 남자/여자 각각 200명이 41,666개 문장을 발성한 데이터베이스로 약 70시간의 길이로 구성된다. 음성 데이터베이스를 화자를 기준으로 남자/여자 화자를 각각 152명, 8명, 40명으로 나누었으며, 각각 음성 끝점 검출을 위한 심화신경망 모델의 학습(training) 데이터, early stopping을 위한 밸리데이션(validation) 데이터, 테스트(test) 데이터로 각각 사용할 수 있다. 각 음성 데이터에 대하여 10ms 단위로 음성의 네 가지 상태(음성 프레임, 발화 중간의 비음성 프레임, 발화 전의 비음성 프레임, 발화 후의 음성 프레임)로 수동으로 라벨링 하였으며, 잡음 및 잔향 환경을 모델링하기 위하여 깨끗한 음성 데이터에 RIR(Room Impulse Response)를 합성곱(convolution) 연산하고 잡음 신호를 더하여 잡음/잔향 환경에서의 음성 데이터를 생성할 수 있다. 여기서, RIR은 크기는 3.37m x 5.57m x 2.0m이며, RT60은 0.5초인 공간에서 확보된 것을 사용했으며 잡음 데이터는 babble, cafe, car, office, pedestrian, street, white를 실제 환경에서 확보하여 5, 10, 15, 20dB이 신호 대 잡음비(Signal-to-Noise Ratio, SNR)로 더할 수 있다. 음성 끝점 검출을 위한 음향특징벡터로 64차 MFBE(Mel-Filter Bank Energy)를 사용했으며 델타(delta), 델타-델타(delta-delta)는 사용하지 않았다.

음향특징벡터 임베딩 기반의 음성 끝점 검출기는 앞서 준비된 음성 데이터로 추출된 특징벡터열과 수동 라벨링된 음성 상태 쌍을 이용하여 학습할 수 있다. 해당 모델은 은닉 상태가 100차인 GRU 2개로 구성될 수 있다. 여기서 타겟벡터는 음성 [1 0 0 0], 발화 중 비음성 [0 1 0 0], 발화 전 비음성 [0 0 1 0], 발화 후 비음성 [0 0 0 1]로 원-핫-벡터(one-hot-vector)로 구성될 수 있다. 심화신경망 모델의 학습은 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되었으며, 여기서 비용함수는 교차 엔트로피 오차(cross entropy error) 함수가 사용될 수 있다.

음성인식 컨텍스트 기반의 음성 끝점 검출기의 학습을 위하여 우선적으로 깨끗한 음성 데이터를 이용하여 GMM-HMM 기반의 음성인식기를 학습할 수 있다. 학습 결과 161개 phone에 대하여 128,298개의 가운시안으로 모델링 되었으며, 총 5,960개의 tied state로 맵핑(mapping)된다. 언어모델은 3-gram으로 구성했으며, 발음사전의 OOV(out of vocabulary)는 0%이다. 학습된 GMM-HMM 기반의 음향모델과 3-gram 언어모델을 이용하여 밸리데이션(validation) 데이터를 디코딩한 결과, 단어 오인식률(Word Error Rate, WER)는 0.75%로 측정될 수 있다.

또한, 디코딩된 결과 중 가장 확률이 높은 단어열의 마지막 2개 단어로부터 EOS 토큰의 사전 확률을 모델링하기 위하여 별도의 언어모델을 구축할 수 있다. 이는 앞서 구축된 언어모델의 서브 모델로, 모든 단어가 아닌 EOS에 대한 단어만 포함한다. 음성 데이터의 각 프레임별 음성정보를 이용한 음성 끝점 검출기를 학습하기 위하여 GMM-HMM기반 언어모델과 3-gram 기반의 언어모델을 이용하여 학습데이터에 대하여 프레임 단위로 디코딩 결과 중 확률이 가장 높은 단어열을 추출하였다. 그리고 EOS 토큰의 사전 확률을 모델링하기 위하여 별도의 언어모델을 이용하여 각 프레임 단위로 음성인식 결과 중 마지막 2개 단어를 기반으로 이후에 EOS 토큰이 등장할 확률을 구할 수 있다.

마이크 입력신호로부터 추출된 음향 특징벡터열과 각 프레임별 디코딩시 음성인식 결과 중 마지막 2개 단어를 기반으로 이후에 EOS 토큰이 등장할 확률 열을 이용하여 음성인식 결과 중 마지막 2개 단어를 기반으로 이후에 EOS 토큰이 등장할 확률을 추정하는 심화신경망 모델을 학습할 수 있다. 해당 모델은 은닉 상태가 100차인 GRU 2개로 구성될 수 있다. 심화신경망 모델의 학습은 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되었으며, 여기서 비용함수는 MSE(Mean Square Error) 함수가 사용되었다.

음향특징벡터 임베딩 및 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델은 입력 특징벡터열이 은닉 상태가 100차인 GRU 2개로 구성된 심화신경망 모델 2개에 각각 입력되고, 마지막 은닉 상태가 결합(concatenate)된 후 덴스(dense) 층을 통하여 음성의 네 가지 상태를 분류할 수 있도록 구성될 수 있다. 두 개의 심화신경망 모델의 초기 파라미터는 각각 음성인식 컨텍스트 기반의 음성 끝점 검출기와 음성인식 컨텍스트 기반의 음성 끝점 검출기의 모델 파라미터를 각각 복사하여 사용할 수 있다. 여기서, 두 개의 심화신경망 모델의 모델 파라미터를 고정시키고 덴스(dense) 층을 학습하여 모델을 학습했으며, 여기서 타겟벡터는 음성 [1 0 0 0], 발화 중 비음성 [0 1 0 0], 발화 전 비음성 [0 0 1 0], 발화 후 비음성 [0 0 0 1]로 원-핫-벡터(one-hot-vector)로 구성될 수 있다. 심화신경망 모델의 학습은 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되었으며, 여기서 비용함수는 교차 엔트로피 오차(cross entropy error) 함수가 사용될 수 있다. 학습이 완료된 후에는 음성 끝점 검출 성능을 향상시키기 위하여 두 개의 심화신경망의 모델 파라미터와 덴스(dense) 층의 파라미터를 결합 학습을 수행할 수 있다. 이 절차는 이전과 동일하며, 두 개의 심화신경망의 모델 파라미터를 고정하는 것과 업데이트 하는 차이가 있다.

기존의 비특허문헌 1의 음성 끝점 검출 기술 및 비특허문헌 2의 음성 끝점 검출 기술은 앞서 준비된 음성 데이터 및 라벨을 이용하여 각각 해당 문헌에 명시되어 있는 심화신경망 구조 및 학습 조건을 재연함으로써 성능평가에 활용할 수 있다.

음성 끝점 검출의 성능 평가는 비특허문헌 1의 음성 끝점 검출 기술, 비특허문헌 2의 음성 끝점 검출 기술, 그리고 본 발명에서 제안하는 음성 끝점 검출 기술을 결합 학습 전/후로 비교하였다. 음성 끝점 검출기의 성능 평가는 음성의 끝점보다 먼저 활성되는 음성 데이터와 이후에 활성 되는 음성 데이터를 분리 후 평균으로 성능을 평가할 수 있다. 표 1은 음성의 끝점보다 늦게 활성 되는 음성 데이터에 대한 음성 끝점의 추정 결과와 수동으로 라벨링한 라벨 간의 시간 차이를 보여주고 있다.

[표 1]

결과적으로 비특허문헌 1의 음성 끝점 검출 성능이 가장 우수한 성능을 보였으며, 그 다음으로 제안하는 음성 끝점 검출 기술의 결합 학습 후가 좋은 성능을 보였다. 표 2는 음성의 끝점보다 먼저 활성되는 음성 데이터에 대한 음성 끝점의 추정 결과와 수동으로 라벨링한 라벨 간의 시간 차이를 보여주고 있다.

[표 2]

실험 결과, 제안하는 음성 끝점 검출 기술의 결합 학습 후가 가장 좋은 성능을 보였으며, 그 다음으로 제안하는 음성 끝점 검출 기술의 결합 학습 전이 좋은 성능을 보였다. 음성 끝점 검출 기술의 성능 저하는 발화가 끝난 후에 음성 끝점을 검출하기까지 지연이 발생하는 경우와 발화 중간의 비음성 구간을 음성의 끝점으로 잘못인지 하는 경우 발생하는데, 사용자 입장에서는 후자가 더 중요한 요소이다. 전자의 경우 사용자가 응답을 받기까지 지연이 발생하지만, 후자의 경우 중간에 음성 끝점이 검출되기 전까지의 텍스트를 기반으로 응답하기 때문에 정상적인 응답을 할 수 있다. 따라서 음성 끝점 검출기의 검출 결과와 라벨간의 시간차를 라벨 대비 이전에 활성 되는 경우와 이후에 활성되는 경우에 대하여 중요도에 따라서 가중치를 통하여 평가한 결과를 표 3에 나타냈다.

[표 3]

실험에서는 라벨 대비 일찍 활성되는 경우에 0.75, 늦게 활성되는 경우에 0.25의 가중치를 적용할 수 있다. 최종적으로, 제안하는 음성 끝점 검출 기술의 결합 학습 후가 가장 좋은 성능을 보였으며, 그 다음으로 제안하는 음성 끝점 검출 기술의 결합 학습 전이 좋은 성능을 보였다. 이를 통하여 제안하는 음향특징벡터 임베딩 정보와 음성인식 컨텍스트를 결합한 음성 끝점 검출 기술이 기존의 음성 끝점 검출 기술보다 좋은 성능을 보이는 것을 확인하였으며, 두 개의 심화신경망과 덴스(dense) 층의 결합 학습을 통하여 성능향상이 이루어졌음을 확인할 수 있다.

실시예들에 따른 음성 끝점 검출 기술은 인공지능 스피커나 스마트 폰, 태블릿 PC와 같이 디바이스-서버형 음성인식을 사용하는 디바이스에 적용될 수 있다. 이를 통하여 사용자가 발성하면 VAD를 통하여 음성구간을 검출하고, 음성 끝점 검출 기술을 통하여 음성의 끝점을 검출하여, 음성의 시작점부터 끝점까지의 음성 데이터를 서버로 전송하고 음성인식을 수행하여 사용자의 음성을 통한 질의를 인식할 수 있다. 또한, 자동 녹음에 적용되어 사용자가 스크립트 등을 발성하면 음성이 끝나는 순간을 추정하여 자동으로 문장별 음성 데이터를 저장할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 단계; 및
상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계
를 포함하고,
상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는,
상기 제1 심화신경망 모델에 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 단계;
상기 제2 심화신경망 모델에 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 단계; 및
음성 끝점 검출을 위한 상기 제1 심화신경망 모델, 상기 제2 심화신경망 모델 및 상기 덴스(dense) 층을 학습하는 단계
를 더 포함하고,
상기 음성 끝점 검출을 위한 상기 제1 심화신경망 모델, 상기 제2 심화신경망 모델 및 상기 덴스(dense) 층을 학습하는 단계는,
상기 제1 심화신경망 모델을 음향특징벡터와 각 프레임별 음성 상태를 학습하는 단계;
상기 제2 심화신경망 모델을 음향특징벡터와 학습된 음성인식기를 통하여 얻어진 1-best decoding hypothesis로부터 EOS에 대한 확률을 직접적으로 학습하는 단계;
상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉층을 결합하는 단계;
결합된 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 상기 덴스(dense) 층을 학습하는 단계; 및
전체 덴스(dense) 층과 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 상기 음향 특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화하는 단계
를 포함하며,
상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는,
상기 음향 특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하는 단계; 및
추정된 상기 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS로 정의하고, 상기 EOS가 문턱 값보다 커지는 순간을 음성의 끝점으로 검출하는 단계
를 포함하는, 심화신경망 기반의 음성 끝점 검출 방법.
제1항에 있어서,
상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델은,
순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델인 것
을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 음성 끝점 검출을 위한 상기 제1 심화신경망 모델, 상기 제2 심화신경망 모델 및 상기 덴스(dense) 층을 학습하는 단계는,
평균 제곱 오차(mean square error) 함수 및 교차 엔트로피 오차(cross entropy error) 함수를 각각 비용함수로 사용하여, 상기 비용함수가 감소하도록 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 학습하는 것
을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 방법.
삭제
제1항에 있어서,
상기 제2 심화신경망 모델은,
상기 음향 특징벡터열을 디코딩한 결과 중 각 프레임별 가장 확률이 높은 단어열 중 마지막 N-1개 단어와 N-gram 언어모델을 통하여 이후 EOS 토큰이 등장할 수 있는 확률을 추정하는 것
을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 방법.
제1항에 있어서,
상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는,
상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터 및 덴스(dense) 층의 모델 파라미터를 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 결합 학습하여 성능을 향상시키는 것
을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 방법.
제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 특징 추출부; 및
상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 심화신경망 모델부
를 포함하고,
상기 심화신경망 모델부의 상기 제1 심화신경망 모델은, 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하며,
상기 심화신경망 모델부의 상기 제2 심화신경망 모델은, 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하고,
상기 심화신경망 모델부는,
상기 제1 심화신경망 모델을 음향특징벡터와 각 프레임별 음성 상태를 학습하고, 상기 제2 심화신경망 모델을 음향특징벡터와 학습된 음성인식기를 통하여 얻어진 1-best decoding hypothesis로부터 EOS에 대한 확률을 직접적으로 학습하며, 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉층을 결합한 후, 결합된 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 상기 덴스(dense) 층을 학습하고, 전체 덴스(dense) 층과 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 상기 음향 특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화하고,
상기 심화신경망 모델부는,
상기 음향 특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하고, 추정된 상기 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS로 정의하고, 상기 EOS가 문턱 값보다 커지는 순간을 음성의 끝점으로 검출하는 것
을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 장치.
제10항에 있어서,
상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델은,
순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델인 것
을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 장치.
삭제
삭제
삭제
삭제