KR20190136578A - 음성 인식 방법 및 장치 - Google Patents

음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR20190136578A
KR20190136578A KR1020180062483A KR20180062483A KR20190136578A KR 20190136578 A KR20190136578 A KR 20190136578A KR 1020180062483 A KR1020180062483 A KR 1020180062483A KR 20180062483 A KR20180062483 A KR 20180062483A KR 20190136578 A KR20190136578 A KR 20190136578A
Authority
KR
South Korea
Prior art keywords
output
training
speech
model
recognition
Prior art date
Application number
KR1020180062483A
Other languages
English (en)
Inventor
유상현
문민영
송인철
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180062483A priority Critical patent/KR20190136578A/ko
Priority to US16/244,397 priority patent/US10930268B2/en
Publication of KR20190136578A publication Critical patent/KR20190136578A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

음성 인식 방법 및 장치가 개시된다. 일실시예에 따른 음성 인식 장치는 음성 신호에 기초하여 인식 모델 내 서브 모델들로부터 각각 제1 출력들을 획득하고, 음성 신호에 기초하여 분류 모델로부터 서브 모델들에 대응하는 값들을 포함하는 제2 출력을 획득하고, 제1 출력들 및 제2 출력에 기초하여 음성 신호를 인식할 수 있다.

Description

음성 인식 방법 및 장치{METHOD AND APPARATUS FOR SPEECH RECOGNITION}
아래 실시예들은 음성을 인식하는 방법 및 장치에 관한 것이다.
음성 인식 시스템은 음향 모델과 언어 모델을 포함한다. 음향 모델은 음성 신호가 어떤 발음에 가까운지에 관해 정보를 제공한다. 언어 모델은 특정 문장이 얼마나 자주 사용하는지에 관한 정보를 제공한다. 음향 모델과 언어 모델은 뉴럴 네트워크로 표현될 수 있다.
같은 언어라도 사용자마다 발음이 다르거나 표준 발음을 제외한 다양한 발음들이 있기 때문에, 하나의 모델로 다양한 발음을 인식하는 경우 성능 저하가 발생할 수 있다. 다양한 발음으로 인한 성능 저하 문제를 개선하기 위해, 여러 기법들이 제안되고 있다. 그 중 하나는 비슷한 발음들을 카테고리화하고, 카테고리 별로 모델을 구축하여 발음을 인식하는 기법이다. 그러나, 그룹 별 모델을 이용하는 기법은 특정 그룹에 속해 있지 않은 발음을 인식할 때 성능이 떨어지는 문제가 있다. 다양한 유형의 발음을 효율적이고 정확하게 인식하는 기술의 연구가 요구된다.
일실시예에 따른 음성 인식 방법은 음성 신호에 기초하여, 인식 모델 내 서브 모델들로부터 각각 제1 출력들을 획득하는 단계; 상기 음성 신호에 기초하여, 분류 모델로부터 상기 서브 모델들에 대응하는 값들을 포함하는 제2 출력을 획득하는 단계; 및 상기 제1 출력들 및 상기 제2 출력에 기초하여, 상기 음성 신호를 인식하는 단계를 포함한다.
일실시예에 따르면, 상기 서브 모델들은 발음의 유사성을 기준으로 분류된 그룹들의 발음들을 상기 그룹들 별로 추정하기 위한 모델들일 수 있다.
일실시예에 따르면, 상기 그룹들은 단일 언어 내에서 방언들, 지역들 및 인종들 중 적어도 하나를 기준으로 분류될 수 있다.
일실시예에 따르면, 상기 서브 모델들은 사용자들의 발음들을 상기 사용자들 별로 추정하기 위한 모델들일 수 있다.
일실시예에 따르면, 상기 인식 모델은 상기 음성 신호의 발음을 추정하기 위한 뉴럴 네트워크를 포함하고, 상기 서브 모델들은 상기 뉴럴 네트워크 내에서 서로 독립적으로 기 학습된 레이어들 또는 LHUC(Learning Hidden Unit Contribution)들을 각각 포함할 수 있다.
일실시예에 따르면, 상기 서브 모델들은 상기 뉴럴 네트워크 내 적어도 하나의 레이어를 공유할 수 있다.
일실시예에 따르면, 상기 서브 모델들이 공유하는 레이어로부터 획득된 특징은 상기 기 학습된 레이어들로 인가될 수 있다.
일실시예에 따르면, 상기 제2 출력을 획득하는 단계는 상기 인식 모델 내 적어도 하나의 레이어로부터 특징을 획득하는 단계; 및 상기 획득된 특징을 상기 분류 모델로 인가하여 상기 제2 출력을 획득하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 제2 출력을 획득하는 단계는 상기 음성 신호에 기초하여, 상기 분류 모델의 입력 레이어에 적합한 특징을 생성하는 단계; 및 상기 생성된 특징을 상기 분류 모델로 인가하여 상기 제2 출력을 획득하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 음성 신호를 인식하는 단계는 상기 제2 출력에 포함된 상기 값들 및 상기 제1 출력들 사이의 가중 합(weighted sum)을 수행하여 제3 출력을 생성하는 단계; 및 상기 제3 출력에 기초하여, 상기 음성 신호의 발음을 추정하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 제2 출력에 포함된 상기 값들은 상기 음성 신호가 상기 서브 모델들에 속할 확률들일 수 있다.
일실시예에 따르면, 상기 분류 모델의 출력 레이어에 포함된 노드들은 각각 상기 서브 모델들에 대응할 수 있다.
일실시예에 따르면, 상기 제2 출력을 획득하는 단계는 상기 음성 신호와 연관된 컨텍스트(context)에 기초하여, 상기 제2 출력에 포함된 상기 값들에 적어도 하나의 바이어스(bias)를 적용하는 단계를 포함하고, 상기 컨텍스트는 상기 음성 신호가 인가된 장치의 키보드 언어의 유형 및 위치 중 적어도 하나를 포함할 수 있다.
일실시예에 따르면, 상기 인식 모델과 상기 분류 모델을 포함하는 음향 모델(acoustic model)은 언어 모델(language model)과 단대단(end-to-end)으로 연결되어 있고, 상기 음성 신호를 인식하는 단계는 상기 제1 출력들 및 상기 제2 출력에 기초하여, 상기 음성 신호에 대응하는 단어 또는 문장을 인식하는 단계를 포함할 수 있다.
일실시예에 따른 음성 인식을 위한 학습 방법은 트레이닝 음성 신호들에 기초하여, 서브 모델들을 포함하는 인식 모델을 학습시키는 단계; 상기 서브 모델들에 대응하는 제2 트레이닝 음성 신호들에 기초하여, 상기 서브 모델들을 학습시키는 단계; 및 상기 제2 트레이닝 음성 신호들에 기초하여, 상기 서브 모델들에 각각 대응하는 출력들을 생성하는 분류 모델을 학습시키는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 분류 모델을 학습시키는 단계는 서로 대응하는 제2 트레이닝 음성 신호 및 제2 트레이닝 출력-상기 제2 트레이닝 출력은 상기 제2 트레이닝 음성 신호가 상기 서브 모델들에 속하는 확률들에 대응함-을 획득하는 단계; 상기 제2 트레이닝 음성 신호를 상기 분류 모델로 인가하여 출력을 획득하는 단계; 및 상기 출력이 상기 제2 트레이닝 출력에 가까워지도록 상기 분류 모델의 뉴럴 네트워크를 최적화하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 확률들은 0 또는 1로서 이산적으로 표현되거나, 정규 분포로 표현될 수 있다.
일실시예에 따르면, 상기 분류 모델을 학습시키는 단계는 서로 대응하는 제2 트레이닝 음성 신호 및 제2 트레이닝 출력-상기 제2 트레이닝 출력은 상기 제2 트레이닝 음성 신호의 발음에 대응함-을 획득하는 단계; 상기 제2 트레이닝 음성 신호를 상기 인식 모델로 인가하여, 상기 서브 모델들로부터 각각 제1 출력들을 획득하는 단계; 상기 제2 트레이닝 음성 신호를 상기 분류 모델로 인가하여 제2 출력을 획득하는 단계; 상기 제1 출력들 및 상기 제2 출력에 기초하여, 제3 출력을 생성하는 단계; 및 상기 제3 출력이 상기 제2 트레이닝 출력에 가까워지도록 상기 분류 모델의 뉴럴 네트워크를 최적화하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 제2 트레이닝 음성 신호들은 발음의 유사성을 기준으로 음성 신호들을 클러스터링(clustering)하여 상기 서브 모델들 별로 분류될 수 있다.
일실시예에 따른 음성 인식 방법은 음성 신호에 기초하여, 서브 모델들을 포함하는 인식 모델의 입력 특징을 생성하는 단계; 상기 음성 신호에 기초하여, 분류 모델로부터 상기 음성 신호가 상기 서브 모델들에 속할 확률들을 획득하는 단계; 상기 입력 특징에 상기 확률들을 적용하여, 제2 입력 특징을 생성하는 단계; 및 상기 제2 입력 특징을 상기 인식 모델로 인가하여, 상기 음성 신호를 인식하는 단계를 포함한다.
일실시예에 따르면, 상기 인식 모델의 입력 레이어는 상기 확률들에 대응하는 노드들을 포함할 수 있다.
일실시예에 따른 장치는 하드웨어와 결합되어 상술한 방법들 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램에 의해 제어될 수 있다.
도 1은 일실시예에 따른 음성 인식 방법을 설명하기 위한 순서도이다.
도 2는 일실시예에 따른 음향 모델을 설명하기 위한 도면이다.
도 3a는 일실시예에 따른 서브 모델을 설명하기 위한 도면이다.
도 3b는 일실시예에 따른 서브 모델을 설명하기 위한 도면이다.
도 4는 일실시예에 따른 분류 모델로 인가되는 입력을 설명하기 위한 도면이다.
도 5는 일실시예에 따른 분류 모델로 인가되는 입력을 설명하기 위한 도면이다.
도 6은 일실시예에 따른 음성 인식 방법을 설명하기 위한 도면이다.
도 7을 일실시예에 따른 음성 인식을 위한 학습 방법을 설명하기 위한 도면이다.
도 8은 일실시예에 따른 서브 모델의 학습 동작을 설명하기 위한 도면이다.
도 9는 일실시예에 따른 분류 모델의 학습 동작을 설명하기 위한 도면이다.
도 10은 일실시예에 따른 분류 모델의 학습 동작을 설명하기 위한 도면이다.
도 11은 일실시예에 따른 장치의 구성의 예시도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. 예를 들어, 실시예들은 스마트 폰, 모바일 기기, 스마트 홈 시스템 등에서 사용자를 인식하는데 적용될 수 있다. 실시예들은 사용자 인식을 통한 결제 서비스에 적용될 수 있다. 또한, 실시예들은 사용자를 인식하여 자동으로 시동을 거는 지능형 자동차 시스템 등에도 적용될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일실시예에 따른 음성 인식 방법을 설명하기 위한 순서도이다.
도 1을 참조하면, 음성 인식 장치는 음성 신호에 기초하여, 인식 모델 내 서브 모델들로부터 각각 제1 출력들을 획득할 수 있다(101). 일실시예에 따르면, 음성 인식 장치는 음성 인식을 수행하기 위한 정보를 처리하는 장치로서, 예를 들어 소프트웨어 모듈, 하드웨어 모듈 또는 이들의 조합으로 구현될 수 있다. 음성 인식 장치는 음성의 인식과 관련된 동작, 연산 및 명령 등을 생성 또는 처리할 수 있다. 음성 인식 장치는 스마트 폰, 테블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 텔레비전, 웨어러블 장치, 보안 시스템, 스마트 홈 시스템 등 다양한 컴퓨팅 장치 및/또는 시스템에 탑재될 수 있다. 음성 인식 장치는 미리 구축된 데이터베이스로부터 음향 모델 및 언어 모델과 관련된 정보를 로딩할 수 있고, 데이터베이스는 음성 인식 장치에 포함된 메모리로 구현되거나 음성 인식 장치와 유선, 무선, 또는 네트워크 등으로 연결 가능한 서버 등의 외부 장치로 구현될 수 있다.
일실시예에 따르면, 음성 인식 장치는 음성 신호를 획득할 수 있다. 음성 신호는 음성 정보를 포함하는 신호이다. 음성 인식 장치는 뉴럴 네트워크를 포함하는 음향 모델을 이용하여 음성 신호의 발음을 추정할 수 있다. 음성 인식 장치는 음향 모델과 언어 모델이 단대단(end-to-end)로 연결된 구조의 모델을 이용하여 음성 신호에 대응하는 단어 또는 문장을 인식할 수 있다. 음성 신호를 인식하는 단위는 음성 인식 기술 분야에서 채용되는 다양한 형태로 구현될 수 있다. 예를 들어, 음성 신호에 대한 인식 단위는 utterance 단위, window 단위 및 frame 단위 중 적어도 하나일 수 있으며, 1개의 프레임은 10msec에 해당하는 음성 정보를 포함하는 것으로 정의될 수 있다.
음성 신호는 음성 신호를 인식하기 위해, 인식 모델과 분류 모델을 포함하는 음향 모델을 이용할 수 있다. 이하, 도 2를 참조하여 음향 모델과 관련된 내용을 기술하고, 도 1의 순서도에 따른 음성 인식 방법을 설명하겠다.
도 2는 일실시예에 따른 음향 모델을 설명하기 위한 도면이다.
도 2를 참조하면, 음성 인식 장치는 음성 신호에 기초하여 음향 모델(201)로부터 인식 결과를 생성할 수 있다. 음향 모델(201)은 인식 모델(202)과 분류 모델(203)을 포함한다. 인식 모델(202)은 서브 모델들(204, 205 및 206)을 포함한다.
인식 모델(202)과 분류 모델(203)은 뉴럴 네트워크로 구현될 수 있다. 인식 모델(202)과 분류 모델(203)은 DNN(Deep Neural Network), RNN(Recurrent Neural Network) 및 RDNN(Recurrent Deep Neural Network) 등으로 구현될 수 있다. 일반적인 뉴럴 네트워크의 구조에서는 입력과 출력이 각각 독립적이지만, RNN은 이전의 출력들이 새로운 출력의 계산 결과에 영향을 주는 뉴럴 네트워크 구조를 갖는다. 뉴럴 네트워크는 입력 레이어, 적어도 하나의 히든 레이어 및 출력 레이어를 포함할 수 있다. 입력 레이어의 적어도 하나의 노드는 뉴럴 네트워크로 인가되는 입력 특징에 대응할 수 있다. 출력 레이어의 적어도 하나의 노드는 뉴럴 네트워크로 인가되는 출력 특징에 대응할 수 있다. 뉴럴 네트워크 내 레이어들의 노드들은 비선형적으로 서로 영향을 주는 관계일 수 있으며, 각 노드들로부터 출력되는 값들, 노드들 사이의 관계들 등 뉴럴 네트워크의 파라미터들은 학습에 의해 최적화될 수 있다.
인식 모델(202)은 음성 신호의 발음 정보와 관련된 정보를 추정하고, 분류 모델(203)은 서브 모델들(204, 205 및 206)에 대응하는 분류 결과와 관련된 정보를 추정할 수 있다. 음성 인식 장치는 음성 신호 또는 음성 신호로부터 획득된 특징을 인식 모델(202)로 인가할 수 있다.
일실시예에 따르면, 서브 모델들(204, 205 및 206)은 발음의 유사성을 기준으로 분류된 그룹들의 발음들을 그룹들 별로 추정하기 위한 모델들일 수 있다. 인식의 대상이 되는 발음들이 미리 정의된 방식에 따라 서로 비슷한 발음들끼리 묶여진 경우, 서브 모델들(204, 205 및 206)은 각 묶음들에 대응하는 그룹들 별 인식 모델들일 수 있다.
일실시예에 따르면, 서브 모델들(204, 205 및 206)에 대응하는 그룹들은 단일 언어 내에서 방언들, 지역들 및 인종들 중 적어도 하나를 기준으로 분류될 수 있다. 예를 들어, 인식 모델(202)은 기본적으로 영어를 인식하도록 학습되고, 인식 모델(202) 내 서브 모델들(204, 205 및 206)은 인종이나 지역에 따라 다르게 분류될 수 있는 인도식 영어, 중국식 영어, 한국식 영어 및 유럽식 영어 등을 인식하도록 추가적으로 학습될 수 있다. 인식 모델(202)의 기본이 되는 모델은 영어를 인식하고, 인식 모델(202) 내 서브 모델들(204, 205 및 206)은 서로 분류된 그룹들에 대응하는 영어를 각각 인식할 수 있다.
일실시예에 따르면, 서브 모델들(204, 205 및 206)은 사용자들의 발음들을 사용자들 별로 추정하기 위한 모델들일 수 있다. 예를 들어, 인식 모델(202)은 사용자들의 언어를 인식하도록 학습되고, 인식 모델(202) 내 서브 모델들(204, 205 및 206)은 사용자들 별로 특화된 언어들을 사용자들 별로 인식하도록 학습될 수 있다. 인식 모델(202) 내 서브 모델들(204, 205 및 206)은 개인들에게 최적화된 모델들일 수 있다.
상술한 바와 같이, 음성 인식 장치는 인식 모델(202) 내 서브 모델들(204, 205 및 206)로부터 각각 생성된 제1 출력들을 획득할 수 있다. 제1 출력들은 서브 모델들(204, 205 및 206) 내 히든 레이어 또는 출력 레이어로부터 생성된 값을 포함할 수 있다. 예를 들어, 음성 인식 장치는 음성 신호에 기초하여, 제1 서브 모델(204)로부터 원어민 영어에 대응하는 제1 출력을 획득하고, 제2 서브 모델(205)로부터 한국식 영어에 대응하는 제1 출력을 획득하고, 제N 서브 모델(206)로부터 인도식 영어에 대응하는 제1 출력을 획득할 수 있다.
다시 도 1을 참조하면, 음성 인식 장치는 음성 신호에 기초하여, 분류 모델(203)로부터 서브 모델들(204, 205 및 206)에 대응하는 값들을 포함하는 제2 출력을 획득할 수 있다(102). 음성 인식 장치는 음성 신호 또는 음성 신호로부터 획득된 특징을 분류 모델(203)로 인가하고, 분류 모델(203)은 제2 출력을 생성할 수 있다. 음성 신호로부터 음향 모델(201)의 인식 결과를 생성하기 위해, 제2 출력은 서브 모델들(204, 205 및 206)로부터 획득된 제1 출력들에 적용될 수 있다.
일실시예에 따르면, 제2 출력은 서브 모델들(204, 205 및 206)에 각각 대응하는 값들을 포함할 수 있다. 분류 모델(203)의 출력 레이어에 포함된 노드들은 각각 서브 모델들(204, 205 및 206)에 대응할 수 있다.
일실시예에 따르면, 제2 출력은 서브 모델들(204, 205 및 206)로부터 생성된 제1 출력들이 각각 인식 결과에 기여하는 정도와 관련된 정보를 포함할 수 있다. 제2 출력에 포함된 값들은 음성 신호가 서브 모델들(204, 205 및 206)에 각각 속할 확률들 또는 서브 모델들(204, 205 및 206)에 각각 대응하는 가중치들일 수 있다.
예를 들어, 분류 모델(203)로부터 생성된 제2 출력은 확률 정보를 포함하는 값들을 포함할 수 있고, 음성 인식 장치는 음성 신호가 원어민 영어에 대응하는 제1 서브 모델(204)에 속하는 확률, 한국식 영어에 대응하는 제2 서브 모델(205)에 속하는 확률 및 인도식 영어에 대응하는 제N 서브 모델(206)에 속하는 확률을 제2 출력으로부터 획득할 수 있다.
다시 도 1을 참조하면, 음성 인식 장치는 서브 모델들(204, 205 및 206)로부터 획득된 제1 출력들 및 분류 모델(203)로부터 획득된 제2 출력에 기초하여, 음성 신호를 인식할 수 있다(103). 음성 인식 장치는 제1 출력들과 제2 출력에 포함된 값들의 연산을 수행할 수 있다. 음성 인식 장치는 서브 모델들(204, 205 및 206)로부터 획득된 제1 출력들을 블렌딩(blending)하기 위해 제2 출력을 제1 출력들에 적용할 수 있다.
일실시예에 따르면, 음성 인식 장치는 제2 출력에 포함된 값들과 제1 출력들 사이의 가중 합(weighted sum)을 수행하여 제3 출력을 생성할 수 있다. 음성 인식 장치는 가중 합에 의해 생성된 제3 출력에 기초하여 음성 신호의 발음을 추정할 수 있다. 인식 결과는 음성 신호에 대응하는 발음 또는 음소와 관련된 확률 정보를 포함할 수 있다. 서브 모델들(204, 205 및 206)로부터 획득된 값들과 분류 모델(203)로부터 획득된 값에 기초하여, 음성 인식 장치가 인식 결과를 도출하는 실시예는 상술한 예시에 제한되지 않고, 서로 다르게 학습된 모델들의 결과를 결합하기 위한 다양한 기법들이 채용될 수 있다.
음성 인식 장치는 서브 모델들(204, 205 및 206)과 분류 모델(203)을 이용하므로, 특정 범주에 속하지 않거나 여러 범주의 중간 정도에 걸쳐 있는 음성 신호에 대한 인식 성능을 높일 수 있다. 예를 들어, 사용자가 중국식 영어와 한국식 영어의 중간 정도를 구사하는 경우, 음성 인식 장치는 사용자의 음성 신호에 대한 강인한(robust) 처리 성능을 제공할 수 있다. 음성 인식 장치는 서브 모델들(204, 205 및 206)을 사용자들 별로 구축하여, 개인들에게 최적화된 음성 인식을 제공할 수 있다. 음성 인식 장치는 전체 문장의 일부에서만 다른 발음을 내는 음성 신호의 처리 성능도 높일 수 있다.
상술한 바와 같이, 음향 모델(201)은 언어 모델과 단대단으로 연결될 수 있다. 이 경우, 음성 인식 장치는 제1 출력들 및 제2 출력에 기초하여, 음성 신호에 대응하는 단어 또는 문장을 인식할 수 있다. 단대단 구조에서, 인식 결과는 음성 신호에 대응하는 단어 또는 문장과 관련된 확률 정보를 포함할 수 있다. 이하 도 3a 내지 3b를 참조하여 서브 모델의 구조와 관련된 내용을 후술한다.
도 3a는 일실시예에 따른 서브 모델을 설명하기 위한 도면이다.
도 3a를 참조하면, 음향 모델 내 인식 모델은 서브 모델들(304, 305 및 306)을 포함한다. 인식 모델은 음성 신호의 발음을 추정하기 위한 뉴럴 네트워크를 포함한다. 서브 모델들(304, 305 및 306)은 인식 모델의 뉴럴 네트워크 내 적어도 하나의 레이어를 공유하면서, 각각 특화된 레이어들(301, 302 및 303)을 포함할 수 있다. 제1 서브 모델(304)은 제1 레이어(301)를 포함한다. 제2 서브 모델(305)은 제2 레이어(302)를 포함한다. 제N 서브 모델(306)은 제N 레이어(303)를 포함한다.
일실시예에 따르면, 인식 모델은 기본이 되는 언어에 기초하여 학습될 수 있다. 예를 들어, 인식 모델은 영어의 음성 신호로부터 발음을 추정하도록 학습될 수 있다. 서브 모델들(304, 305 및 306)은 발음들의 그룹들 별로 각각 추가적으로 학습될 수 있다. 예를 들어, 제1 서브 모델(304)은 원어민 영어의 음성 신호로부터 발음을 추정하도록 학습되고, 제2 서브 모델(305)은 한국식 영어의 음성 신호로부터 발음을 추정하도록 학습되고, 제N 서브 모델(306)은 인도식 영어의 음성 신호로부터 발음을 추정하도록 학습될 수 있다.
일실시예에 따르면, 서브 모델들(304, 305 및 306)에 대한 학습을 수행하는 경우, 인식 모델 내 학습되는 부분은 서브 모델들(304, 305 및 306)에 각각 대응하는 특정 레이어들(301, 302 및 303)일 수 있다. 예를 들어, 인식 모델의 학습 후 제1 서브 모델(304)의 학습이 수행되는 경우, 제1 서브 모델(304)에 특화된 제1 레이어(301)가 학습될 수 있다. 마찬가지 방식으로, 제2 레이어(302) 및 제N 레이어(303)는 각각 제2 서브 모델(305) 및 제N 서브 모델(306)에 특화되어 학습될 수 있다.
서브 모델들(304, 305 및 306)은 서로 독립적으로 학습된 레이어들(301, 302 및 303)을 포함할 수 있다. 서브 모델들(304, 305 및 306)은 인식 모델의 뉴럴 네트워크 내에서 인식 모델의 기본이 되는 적어도 하나의 레이어를 공유할 수 있다. 서브 모델들(304, 305 및 306)이 공유하는 레이어로부터 획득된 특징은 서브 모델들(304, 305 및 306) 별로 기 학습된 레이어들(301, 302 및 303)로 각각 인가될 수 있다.
일실시예에 따르면, 서브 모델들(304, 305 및 306) 별로 특화된 레이어들(301, 302 및 303)은 행렬(matrix) 형태로 표현될 수 있다. 예를 들어, 제N 레이어(303)는 기 학습된 파라미터들의 정보를 포함하는 행렬(307)로 표현될 수 있으며, 제N 서브 모델(306)의 학습은 인식 모델 내 제N 레이어(303)의 파라미터들을 최적화하는 방식으로 수행될 수 있다.
학습이 완료된 서브 모델들(304, 305 및 306)은 음성 신호로부터 발음들의 그룹들에 대응하는 출력들을 각각 생성할 수 있다. 서브 모델 별로 특화된 레이어의 수와 양상은 시스템 효율, 설계 의도 등에 따라 다양하게 변형될 수 있다.
도 3b는 일실시예에 따른 서브 모델을 설명하기 위한 도면이다.
도 3b를 참조하면, 인식 모델 내 서브 모델들은 인식 모델의 뉴럴 네트워크 내 적어도 하나의 레이어를 공유하면서, 서로 독립적으로 기 학습된 LHUC(Learning Hidden Unit Contribution)들(312, 313, 314, 316, 317 및 318)을 각각 포함할 수 있다. LHUC는 벡터(vector)로 표현될 수 있다. 제1 서브 모델은 LHUC들(312 및 316)을 포함하고, 제2 서브 모델은 LHUC들(313 및 317)을 포함하고, 제3 서브 모델은 LHUC들(314 및 318)을 포함할 수 있다. 상술한 바와 같이, 인식 모델은 기본이 되는 언어에 기초하여 학습되고, 서브 모델들은 발음들의 그룹들 별로 각각 추가적으로 학습될 수 있다.
LHUC들(312, 313 및 314)은 인식 모델 내 서브 모델들이 공유하는 레이어(311)의 출력 값들을 조정하는 벡터들을 포함할 수 있다. LHUC들(316, 317 및 318)은 인식 모델 내 서브 모델들이 공유하는 레이어(315)의 출력 값들을 조정하는 벡터들을 포함할 수 있다. 서브 모델들에 대한 학습을 수행하는 경우, 인식 모델 내 학습되는 부분은 서브 모델들에 각각 대응하는 LHUC들(312, 313, 314, 316, 317 및 318)일 수 있다.
예를 들어, 인식 모델의 학습 후 제1 서브 모델의 학습이 수행되는 경우, 제1 서브 모델에 특화된 LHUC들(312 및 316)이 학습될 수 있다. 마찬가지 방식으로, LHUC들(313 및 317) 및 LHUC들(314 및 318)은 각각 제2 서브 모델 및 제3 서브 모델(306)에 특화되어 학습될 수 있다. 인식 모델 내 서브 모델들은 서로 독립적으로 학습된 LHUC들(312 및 316), LHUC들(313 및 317) 및 LHUC들(314 및 318)을 포함할 수 있다. 상술한 바와 같이, 서브 모델들은 인식 모델의 뉴럴 네트워크 내에서 인식 모델의 기본이 되는 적어도 하나의 레이어를 공유할 수 있다.
일실시예에 따르면, LHUC들(312, 313, 314, 316, 317 및 318)은 서브 모델들 별로 특화된 벡터 형태로 표현될 수 있다. 예를 들어, LHUC들(312 및 316)은 기 학습된 파라미터들의 정보를 포함하는 벡터로 표현될 수 있으며, 제1 서브 모델의 학습은 인식 모델 내 LHUC들(312 및 316)의 파라미터들을 최적화하는 방식으로 수행될 수 있다. 서브 모델 별로 특화된 LHUC의 양상은 시스템 효율, 설계 의도 등에 따라 다양하게 변형될 수 있다.
도 4는 일실시예에 따른 분류 모델로 인가되는 입력을 설명하기 위한 도면이다.
도 4를 참조하면, 음성 인식 장치는 인식 모델 내 분류 모델로부터 획득된 그룹 별 확률들 (
Figure pat00001
)과 서브 모델들에 각각 대응하는 히든 레이어들(401, 402 및 403)로부터 획득된 값들
Figure pat00002
사이의 가중 합으로부터 인식 결과를 생성할 수 있다.
Figure pat00003
는 총 합이 1이고, 각각
Figure pat00004
에 대응하는 값들일 수 있다.
음성 인식 장치는 음성 신호를 분류 모델로 인가할 수 있다. 분류 모델은 음성 신호로부터 출력(예를 들어,
Figure pat00005
)을 생성할 수 있다. 이 경우, 분류 모델의 입력 레이어 및 입력 레이어 내 노드들은 음성 신호에 대응할 수 있다.
음성 인식 장치는 음성 신호에 기초하여, 입력 레이어에 적합한 특징
Figure pat00006
을 생성할 수 있다. 음성 인식 장치는 특징
Figure pat00007
을 분류 모델로 인가하여, 분류 모델로부터 생성된 출력을 획득할 수 있다. 이 경우, 분류 모델의 입력 레이어 및 입력 레이어 내 노드들은 특징
Figure pat00008
에 대응할 수 있다.
음성 인식 장치는 인식 모델 내 적어도 하나의 레이어로부터 특징을 획득할 수 있다. 도 4를 참조하면, 음성 인식 장치는 특징
Figure pat00009
또는
Figure pat00010
를 획득하고, 획득된 특징을 분류 모델로 인가하여 분류 모델로부터 생성된 출력을 획득할 수 있다. 이 경우, 분류 모델의 입력 레이어 및 입력 레이어 내 노드들은 특징
Figure pat00011
또는
Figure pat00012
에 대응할 수 있다. 음성 인식 장치는 인식 모델 내 레이어들로부터 생성된 특징들
Figure pat00013
Figure pat00014
에 기초하여, 분류 모델의 입력 레이어에 적합한 특징을 생성하고, 생성된 특징을 분류 모델로 인가할 수도 있다. 분류 모델로 인가되는 입력의 유형 및 양상은 인식 모델로부터 추출되는 특징에 기초하여 다양하게 변형될 수 있고, 상술한 실시예에 제한되지 않는다.
도 5는 일실시예에 따른 분류 모델로 인가되는 입력을 설명하기 위한 도면이다.
도 5를 참조하면, 음성 인식 장치는 음성 신호(502)와 연관된 컨텍스트(context)를 이용하여 분류 모델로부터 획득된 출력을 처리할 수 있다. 컨텍스트는 사용자(501)의 음성 신호(502)와 인식 모델 내 서브 모델들 중 적어도 하나 사이의 연관성에 영향을 미치는 정보로서, 예를 들어 사용자(501) 또는 사용자 단말(503)의 사용 이력과 같은 히스토리 정보를 포함할 수 있다.
일실시예에 따르면, 음성 인식 장치는 음성 신호(502)와 연관된 컨텍스트에 기초하여, 분류 모델로부터 획득된 출력에 포함된 값들에 적어도 하나의 바이어스(bias)를 적용할 수 있다. 컨텍스트는 음성 신호(502)가 인가된 사용자 단말(503)의 키보드 언어(504)의 유형 및 위치(505) 중 적어도 하나를 포함할 수 있다. 예를 들어, 음성 신호(502)가 인가된 사용자 단말(503)의 키보드 언어(504)가 한국어이거나 사용자 단말(503)의 위치(505)가 한국인 상황에 응답하여, 음성 인식 장치는 분류 모델로부터 획득된 출력에 포함된 값들 중 한국식 영어에 대응하는 값을 높이는 방식으로, 분류 모델의 출력에 바이어스를 적용할 수 있다. 분류 모델의 출력을 가공하거나 변형하는 실시예는 상술한 방식에 제한되지 않고, 사용자(501) 또는 사용자 단말(503)과 관련된 정보에 의해 다양하게 응용될 수 있다.
도 1 내지 도 5를 참조하여, 인식 모델 내 서브 모델들의 출력들에 분류 모델로부터 생성된 출력이 적용되는 실시예가 설명되었다. 도 6을 참조하여 분류 모델의 출력이 인식 모델로 인가되는 입력 특징의 생성에 개입되는 실시예가 설명된다.
도 6은 일실시예에 따른 음성 인식 방법을 설명하기 위한 도면이다.
도 6을 참조하면, 음성 인식 장치는 인식 모델(601) 및 분류 모델(602)을 이용하여, 음성 신호로부터 인식 결과를 생성할 수 있다. 음성 인식 장치는 음성 신호에 기초하여, 서브 모델들을 포함하는 인식 모델(601)의 제1 입력 특징을 생성할 수 있다. 음성 인식 장치는 음성 신호에 기초하여, 분류 모델(602)로부터 음성 신호가 서브 모델들에 속할 확률들 (
Figure pat00015
)을 획득할 수 있다.
일실시예에 따르면, 음성 인식 장치는 제1 입력 특징에 확률들 (
Figure pat00016
)을 적용하여, 제2 입력 특징을 생성할 수 있다. 음성 인식 장치는 제2 입력 특징을 인식 모델(601)로 인가하여 음성 신호를 인식할 수 있다.
일실시예에 따르면, 인식 모델(601)의 입력 레이어는 확률들 (
Figure pat00017
)에 대응하는 노드들을 포함할 수 있다. 이 경우, 음성 인식 장치는 음성 신호로부터 생성된 입력 특징을 인식 모델(601)의 입력 레이어 내 일부의 노드들로 인가하고, 분류 모델(602)로부터 획득된 확률들 (
Figure pat00018
)을 입력 레이어 내 나머지 일부의 노드들로 인가할 수 있다.
인식 모델(601)은 기본이 되는 언어에 기초하여 선행적으로 학습되고, 인식 모델(601) 내 서브 모델들은 각 그룹들 별로 학습될 수 있다. 분류 모델(602)은 인식 모델(601)로 인가되기 위한 입력 특징의 생성을 위해 학습될 수 있다. 일실시예에 따르면, 트레이닝 음성 신호에 기초하여 생성된 인식 결과가 정답(Ground Truth)인 트레이닝 인식 결과에 가까워지도록 분류 모델(602)이 학습될 수 있다. 구체적으로, 트레이닝 음성 신호에 대응하는 트레이닝 확률들이 분류 모델(602)로부터 획득되고, 트레이닝 확률들이 적용된 트레이닝 입력 특징이 인식 모델(601)로 인가되고, 인식 모델(601)로부터 생성된 인식 결과가 트레이닝 인식 결과에 가까워지도록 인식 모델(601) 및 분류 모델(602) 중 적어도 하나가 최적화될 수 있다. 학습에 있어서 역전파(back propagation)을 통해 인식 모델(601) 및 분류 모델(602)의 뉴럴 네트워크의 파라미터들이 최적화될 수 있는데, 학습 기법은 이에 제한되지 않고 다양한 방식이 채용될 수 있다. 이하 도 7 내지 도 10을 참조하여 도 1 내지 도 5를 참조하여 설명된 음성 인식을 위한 학습 방법이 설명되는데, 이하에서 설명되는 실시예 중 적어도 일부는 도 6을 참조하여 설명된 음성 인식 방법에도 적용될 수 있다.
도 7을 일실시예에 따른 음성 인식을 위한 학습 방법을 설명하기 위한 도면이다.
도 7을 참조하면, 음성 인식을 위한 학습 장치는 트레이닝 음성 신호들에 기초하여, 서브 모델들을 포함하는 인식 모델을 학습시킬 수 있다(701). 학습 장치는 음성 인식을 위한 학습을 수행하는 장치로서, 예를 들어 소프트웨어 모듈, 하드웨어 모듈 또는 이들의 조합으로 구현될 수 있다. 학습 장치는 학습과 관련된 동작, 연산 및 명령 등을 생성 또는 처리할 수 있다. 상술한 음성 인식 장치와 관련된 하드웨어 또는 소프트웨어의 구현례는 학습 장치에도 적용될 수 있다. 학습 장치는 음성 신호의 발음을 추정하기 위한 기본 모델을 학습시킬 수 있고, 예를 들어 기본 언어가 영어인 경우, 영어를 인식하도록 인식 모델을 학습시킬 수 있다.
도 7을 참조하면, 학습 장치는 서브 모델들에 대응하는 제2 트레이닝 음성 신호들에 기초하여, 서브 모델들을 학습시킬 수 있다(702). 일실시예에 따르면, 학습 장치는 서브 모델들 별로 분류된 제2 트레이닝 음성 신호들을 수집하고, 수집된 제2 트레이닝 음성 신호들에 기초하여, 서브 모델들 각각을 학습시킬 수 있다.
예를 들어, 학습 장치는 원어민 영어에 대응하는 제2 트레이닝 음성 신호들에 기초하여 원어민 영어에 대응하는 서브 모델을 학습시키고, 한국식 영어에 대응하는 제2 트레이닝 음성 신호들에 기초하여 한국식 영어에 대응하는 서브 모델을 학습시키고, 인도식 영어에 대응하는 제2 트레이닝 음성 신호들에 기초하여 원어민 영어에 대응하는 서브 모델을 학습시킬 수 있다. 여기서, 트레이닝 음성 신호는 인식 모델 내 기본 모델을 학습시키기 위해 채용되는 트레이닝 샘플이고, 제2 트레이닝 음성 신호는 인식 모델 내 서브 모델을 학습시키기 위해 채용되는 트레이닝 샘플이다.
일실시예에 따르면, 상술한 701 단계와 702 단계는 동시에 수행될 수 있다. 학습 장치는 트레이닝 음성 신호들에 기초하여, 기본 모델과 언어 별 서브 모델을 학습시킬 수 있다. 예를 들어, 학습 장치는 인도식 영어에 대응하는 트레이닝 음성 신호들에 기초하여, 기본 모델과 인도식 영어에 대응하는 서브 모델을 학습시킬 수 있다. 학습 장치는 중국식 영어에 대응하는 트레이닝 음성 신호들에 기초하여, 기본 모델과 중국식 영어에 대응하는 서브 모델을 학습시킬 수 있다.
상술한 인식 모델과 서브 모델들의 학습에는 학습 시 생성된 인식 결과와 정답(Ground Truth) 사이의 손실 함수의 값이 작아지도록 뉴럴 네트워크 내 파라미터들을 최적화하는 역전파 기법이 채용될 수 있을 뿐만 아니라, 그 밖에 다양한 학습 기법이 응용될 수 있다. 도 8을 참조하여, 서브 모델의 학습에 관한 내용을 설명하겠다.
도 8은 일실시예에 따른 서브 모델의 학습 동작을 설명하기 위한 도면이다.
도 8을 참조하면, 인식 모델(820) 내 서브 모델들을 학습시키기 위한 제2 트레이닝 음성 신호들(801, 802 및 803)은 발음의 유사성을 기준으로 클러스터링(clustering)되어 서브 모델들 별로 분류될 수 있다. 음성 신호를 분류하는 다양한 기준들이 클러스터링에 채용될 수 있다.
일실시예에 따르면, 학습 장치는 제1 그룹에 대응하는 제2 트레이닝 음성 신호들(801)을 인식 모델(820)로 인가하여, 제1 그룹에 대응하는 서브 모델의 적어도 하나의 레이어 또는 LHUC(811)를 학습시킬 수 있다. 학습 장치는 제2 그룹에 대응하는 제2 트레이닝 음성 신호들(802)을 인식 모델(820)로 인가하여, 제2 그룹에 대응하는 서브 모델의 적어도 하나의 레이어 또는 LHUC(812)를 학습시킬 수 있다. 마찬가지로, 학습 장치는 제3 그룹에 대응하는 제2 트레이닝 음성 신호들(803)을 인식 모델(820)로 인가하여, 제3 그룹에 대응하는 서브 모델의 적어도 하나의 레이어 또는 LHUC(813)를 학습시킬 수 있다.
일실시예에 따르면, 제1 그룹에 대응하는 서브 모델의 학습 시에는 해당 레이어 또는 LHUC(811)의 파라미터들이 최적화될 수 있다. 이와 마찬가지로, 제2 그룹에 대응하는 서브 모델의 학습 시에는 해당 레이어 또는 LHUC(812)의 파라미터들이 최적화되고, 제3 그룹에 대응하는 서브 모델의 학습 시에는 해당 레이어 또는 LHUC(813)의 파라미터들이 최적화될 수 있다. 서브 모델들의 학습은 인식 모델(820) 내 기본이 되는 언어의 발음에 대한 학습 후에 추가적으로 수행될 수 있다.
다시 도 7을 참조하면, 학습 장치는 서브 모델들에 대응하는 제2 트레이닝 음성 신호들에 기초하여, 서브 모델들에 각각 대응하는 출력들을 생성하는 분류 모델을 학습시킬 수 있다(703). 일실시예에 따르면, 학습 장치는 제2 트레이닝 음성 신호들에 대응하는 정답들을 이용하여, 분류 모델을 학습시킬 수 있다. 이하, 도 9 및 도 10을 참조하여 분류 모델을 학습시키기 위한 강한 학습 방법(hard training method) 및 부드러운 학습 방법(soft training method)을 각각 설명하겠다.
도 9는 일실시예에 따른 분류 모델의 학습 동작을 설명하기 위한 도면이다.
도 9를 참조하면, 학습 장치는 서브 모델들에 대응하는 제2 트레이닝 음성 신호들에 기초하여, 분류 모델(910)을 학습시킬 수 있다. 일실시예에 따르면, 학습 장치는 서로 대응하는 제2 트레이닝 음성 신호(901)와 제2 트레이닝 출력(903)을 획득할 수 있다. 여기서, 제2 트레이닝 출력(903)은 제2 트레이닝 음성 신호(901)에 대응하는 정답의 정보를 포함하고, 제2 트레이닝 음성 신호(901)가 서브 모델들에 속하는 확률들의 정보를 포함할 수 있다.
일실시예에 따르면, 제2 트레이닝 출력(903)의 정보에 포함된 확률들은 0 또는 1로서 이산적으로 표현되거나, 정규 분포로 표현될 수 있다. 예를 들어, 제2 트레이닝 음성 신호(901)가 인도식 영어에 대응하는 서브 모델에 속한 경우, 제2 트레이닝 출력(903)은 인도식 영어에 대응하는 서브 모델에 속한 확률이 1이고, 나머지 확률들은 0인 정보를 포함할 수 있다. 일실시예에 따르면, 분류 모델(910)의 학습 성능을 고려하여, 제2 트레이닝 출력들에 레이블 스무딩(Label Smoothing)이 수행될 수 있다. 예를 들어, 제2 트레이닝 출력들은 서브 모델들에 대응하는 정보를 정규 분포로 표현할 수 있다.
일실시예에 따르면, 학습 장치는 제2 트레이닝 음성 신호(901)를 분류 모델(910)로 인가하여 출력(902)을 획득할 수 있다. 학습 장치는 분류 모델(910)로부터 획득된 출력(902)이 제2 트레이닝 출력(903)에 가까워지도록 분류 모델(910)의 뉴럴 네트워크를 학습시킬 수 있다. 학습이 완료됨에 따라 분류 모델(910)의 뉴럴 네트워크의 파라미터들은 최적화될 수 있다.
도 10은 일실시예에 따른 분류 모델의 학습 동작을 설명하기 위한 도면이다.
도 10을 참조하면, 학습 장치는 인식 모델(1010) 내 서브 모델들(1011, 1012 및 1013)에 대응하는 제2 트레이닝 음성 신호들에 기초하여, 분류 모델(1020)을 학습시킬 수 있다. 일실시예에 따르면, 학습 장치는 서로 대응하는 제2 트레이닝 음성 신호(1001)와 제2 트레이닝 출력(1004)을 획득할 수 있다. 여기서, 제2 트레이닝 출력(1004)은 제2 트레이닝 음성 신호(1001)에 대응하는 정답의 정보를 포함하는데, 도 9를 참조하여 설명된 실시예와 달리 제2 트레이닝 음성 신호(1001)의 발음에 대응하는 정보를 포함할 수 있다.
일실시예에 따르면, 학습 장치는 제2 트레이닝 음성 신호(1001)(또는 추출된 입력 특징)를 인식 모델(1010)로 인가하여, 서브 모델들(1011, 1012 및 1013)로부터 각각 제1 출력들을 획득할 수 있다. 제1 출력들은 서브 모델들(1011, 1012 및 1013)의 출력 레이어들 또는 히든 레이어들로부터 각각 생성될 수 있다.
일실시예에 따르면, 학습 장치는 제2 트레이닝 음성 신호(1001)(또는 추출된 입력 특징)를 분류 모델(1020)로 인가하여 제2 출력(1002)을 획득할 수 있다. 학습 장치는 서브 모델들(1011, 1012 및 1013)로부터 획득된 제1 출력들과 분류 모델(1020)로부터 획득된 제2 출력(1002)에 기초하여, 제3 출력(1003)을 생성할 수 있다. 상술한 바와 같이, 제1 출력들과 제2 출력(1002) 사이의 가중 합이 수행될 수 있다.
일실시예에 따르면, 학습 장치는 제3 출력(1003)이 제2 트레이닝 출력(1004)에 가까워지도록 분류 모델(1020)의 뉴럴 네트워크를 학습시킬 수 있다. 학습이 완료됨에 따라 분류 모델(1020)의 뉴럴 네트워크의 파라미터들은 최적화될 수 있다. 도 10을 참조하여 설명된 부드러운 학습 방법(soft training method)은 인식 모델(1010)의 학습 후에 분류 모델(1020)에 대하여 수행될 수 있으며, 인식 모델(1010)의 학습과 연계하여 수행될 수도 있다.
도 10을 참조하여 설명된 부드러운 학습 방법(soft training method)은 도 9를 참조하여 설명된 강한 학습 방법(hard training method)과 비교할 때, 인식 모델(1010)의 인식 결과를 채용하는 점에서 차이가 있다. 일실시예에 따르면, 학습 장치는 도 9를 참조하여 설명된 강한 학습 방법(hard training method)과 도 10을 참조하여 설명된 부드러운 학습 방법(soft training method)을 미리 정의된 비율로 조합하여 분류 모델(1020)을 학습시킬 수 있다. 예를 들어, 학습 장치는 분류 모델(1020)의 강한 학습 방법(hard training method)을 선행적으로 수행하고, 부드러운 학습 방법(soft training method)을 통해 분류 모델(1020)의 파라미터들을 파인 튜닝(fine-tuning)할 수 있다.
도 11은 일실시예에 따른 장치의 구성의 예시도이다.
도 11을 참조하면, 장치(1101)는 프로세서(1102) 및 메모리(1103)를 포함한다. 일실시예에 따른 장치(1101)는 상술한 음성 인식 장치 또는 학습 장치일 수 있다. 프로세서(1102)는 도 1 내지 도 10을 통하여 전술한 적어도 하나의 장치들을 포함하거나, 도 1 내지 도 10을 통하여 전술한 적어도 하나의 방법을 수행할 수 있다. 메모리(1103)는 상술한 음성 인식 방법 또는 음성 인식 방법과 관련된 정보를 저장하거나 상술한 학습 방법 또는 학습 방법과 관련된 정보를 저장할 수 있고, 음성 인식 방법 또는 학습 방법이 구현된 프로그램을 저장할 수 있다. 메모리(1103)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.
프로세서(1102)는 프로그램을 실행하고, 장치(1101)를 제어할 수 있다. 프로세서(1102)에 의하여 실행되는 프로그램의 코드는 메모리(1103)에 저장될 수 있다. 장치(1101)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (24)

  1. 음성 신호에 기초하여, 인식 모델 내 서브 모델들로부터 각각 제1 출력들을 획득하는 단계;
    상기 음성 신호에 기초하여, 분류 모델로부터 상기 서브 모델들에 대응하는 값들을 포함하는 제2 출력을 획득하는 단계; 및
    상기 제1 출력들 및 상기 제2 출력에 기초하여, 상기 음성 신호를 인식하는 단계
    를 포함하는
    음성 인식 방법.
  2. 제1항에 있어서,
    상기 서브 모델들은 발음의 유사성을 기준으로 분류된 그룹들의 발음들을 상기 그룹들 별로 추정하기 위한 모델들인,
    음성 인식 방법.
  3. 제2항에 있어서,
    상기 그룹들은 단일 언어 내에서 방언들, 지역들 및 인종들 중 적어도 하나를 기준으로 분류되는,
    음성 인식 방법.
  4. 제1항에 있어서,
    상기 서브 모델들은 사용자들의 발음들을 상기 사용자들 별로 추정하기 위한 모델들인,
    음성 인식 방법.
  5. 제1항에 있어서,
    상기 인식 모델은 상기 음성 신호의 발음을 추정하기 위한 뉴럴 네트워크를 포함하고,
    상기 서브 모델들은 상기 뉴럴 네트워크 내에서 서로 독립적으로 기 학습된 레이어들 또는 LHUC(Learning Hidden Unit Contribution)들을 각각 포함하는,
    음성 인식 방법.
  6. 제5항에 있어서,
    상기 서브 모델들은 상기 뉴럴 네트워크 내 적어도 하나의 레이어를 공유하는,
    음성 인식 방법.
  7. 제6항에 있어서,
    상기 서브 모델들이 공유하는 레이어로부터 획득된 특징은 상기 기 학습된 레이어들로 인가되는,
    음성 인식 방법.
  8. 제1항에 있어서,
    상기 제2 출력을 획득하는 단계는
    상기 인식 모델 내 적어도 하나의 레이어로부터 특징을 획득하는 단계; 및
    상기 획득된 특징을 상기 분류 모델로 인가하여 상기 제2 출력을 획득하는 단계
    를 포함하는,
    음성 인식 방법.
  9. 제1항에 있어서,
    상기 제2 출력을 획득하는 단계는
    상기 음성 신호에 기초하여, 상기 분류 모델의 입력 레이어에 적합한 특징을 생성하는 단계; 및
    상기 생성된 특징을 상기 분류 모델로 인가하여 상기 제2 출력을 획득하는 단계
    를 포함하는,
    음성 인식 방법.
  10. 제1항에 있어서,
    상기 음성 신호를 인식하는 단계는
    상기 제2 출력에 포함된 상기 값들 및 상기 제1 출력들 사이의 가중 합(weighted sum)을 수행하여 제3 출력을 생성하는 단계; 및
    상기 제3 출력에 기초하여, 상기 음성 신호의 발음을 추정하는 단계
    를 포함하는,
    음성 인식 방법.
  11. 제1항에 있어서,
    상기 제2 출력에 포함된 상기 값들은 상기 음성 신호가 상기 서브 모델들에 속할 확률들인,
    음성 인식 방법.
  12. 제1항에 있어서,
    상기 분류 모델의 출력 레이어에 포함된 노드들은 각각 상기 서브 모델들에 대응하는,
    음성 인식 방법.
  13. 제1항에 있어서,
    상기 제2 출력을 획득하는 단계는
    상기 음성 신호와 연관된 컨텍스트(context)에 기초하여, 상기 제2 출력에 포함된 상기 값들에 적어도 하나의 바이어스(bias)를 적용하는 단계
    를 포함하고,
    상기 컨텍스트는 상기 음성 신호가 인가된 장치의 키보드 언어의 유형 및 위치 중 적어도 하나를 포함하는,
    음성 인식 방법.
  14. 제1항에 있어서,
    상기 인식 모델과 상기 분류 모델을 포함하는 음향 모델(acoustic model)은 언어 모델(language model)과 단대단(end-to-end)으로 연결되어 있고,
    상기 음성 신호를 인식하는 단계는
    상기 제1 출력들 및 상기 제2 출력에 기초하여, 상기 음성 신호에 대응하는 단어 또는 문장을 인식하는 단계
    를 포함하는,
    음성 인식 방법.
  15. 트레이닝 음성 신호들에 기초하여, 서브 모델들을 포함하는 인식 모델을 학습시키는 단계;
    상기 서브 모델들에 대응하는 제2 트레이닝 음성 신호들에 기초하여, 상기 서브 모델들을 학습시키는 단계; 및
    상기 제2 트레이닝 음성 신호들에 기초하여, 상기 서브 모델들에 각각 대응하는 출력들을 생성하는 분류 모델을 학습시키는 단계
    를 포함하는
    음성 인식을 위한 학습 방법.
  16. 제15항에 있어서,
    상기 분류 모델을 학습시키는 단계는
    서로 대응하는 제2 트레이닝 음성 신호 및 제2 트레이닝 출력-상기 제2 트레이닝 출력은 상기 제2 트레이닝 음성 신호가 상기 서브 모델들에 속하는 확률들에 대응함-을 획득하는 단계;
    상기 제2 트레이닝 음성 신호를 상기 분류 모델로 인가하여 출력을 획득하는 단계; 및
    상기 출력이 상기 제2 트레이닝 출력에 가까워지도록 상기 분류 모델의 뉴럴 네트워크를 최적화하는 단계
    를 포함하는,
    음성 인식을 위한 학습 방법.
  17. 제16항에 있어서,
    상기 확률들은 0 또는 1로서 이산적으로 표현되거나, 정규 분포로 표현되는,
    음성 인식을 위한 학습 방법.
  18. 제15항에 있어서,
    상기 분류 모델을 학습시키는 단계는
    서로 대응하는 제2 트레이닝 음성 신호 및 제2 트레이닝 출력-상기 제2 트레이닝 출력은 상기 제2 트레이닝 음성 신호의 발음에 대응함-을 획득하는 단계;
    상기 제2 트레이닝 음성 신호를 상기 인식 모델로 인가하여, 상기 서브 모델들로부터 각각 제1 출력들을 획득하는 단계;
    상기 제2 트레이닝 음성 신호를 상기 분류 모델로 인가하여 제2 출력을 획득하는 단계;
    상기 제1 출력들 및 상기 제2 출력에 기초하여, 제3 출력을 생성하는 단계; 및
    상기 제3 출력이 상기 제2 트레이닝 출력에 가까워지도록 상기 분류 모델의 뉴럴 네트워크를 최적화하는 단계
    를 포함하는,
    음성 인식을 위한 학습 방법.
  19. 제15항에 있어서,
    상기 제2 트레이닝 음성 신호들은
    발음의 유사성을 기준으로 음성 신호들을 클러스터링(clustering)하여 상기 서브 모델들 별로 분류된,
    음성 인식을 위한 학습 방법.
  20. 음성 신호에 기초하여, 서브 모델들을 포함하는 인식 모델의 입력 특징을 생성하는 단계;
    상기 음성 신호에 기초하여, 분류 모델로부터 상기 음성 신호가 상기 서브 모델들에 속할 확률들을 획득하는 단계;
    상기 입력 특징에 상기 확률들을 적용하여, 제2 입력 특징을 생성하는 단계; 및
    상기 제2 입력 특징을 상기 인식 모델로 인가하여, 상기 음성 신호를 인식하는 단계
    를 포함하는
    음성 인식 방법.
  21. 제20항에 있어서,
    상기 인식 모델의 입력 레이어는 상기 확률들에 대응하는 노드들을 포함하는,
    음성 인식 방법.
  22. 하드웨어와 결합되어 제1항 내지 제21항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  23. 음성 신호에 기초하여, 인식 모델 내 서브 모델들로부터 각각 제1 출력들을 획득하고, 상기 음성 신호에 기초하여, 분류 모델로부터 상기 서브 모델들에 대응하는 값들을 포함하는 제2 출력을 획득하고, 상기 제1 출력들 및 상기 제2 출력에 기초하여, 상기 음성 신호를 인식하는 프로세서
    를 포함하는
    음성 인식 장치.
  24. 트레이닝 음성 신호들에 기초하여, 서브 모델들을 포함하는 인식 모델을 학습시키고, 상기 서브 모델들에 대응하는 제2 트레이닝 음성 신호들에 기초하여, 상기 서브 모델들을 학습시키고, 상기 제2 트레이닝 음성 신호들에 기초하여, 상기 서브 모델들에 각각 대응하는 출력들을 생성하는 분류 모델을 학습시키는 프로세서
    를 포함하는
    음성 인식을 위한 학습 장치.
KR1020180062483A 2018-05-31 2018-05-31 음성 인식 방법 및 장치 KR20190136578A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180062483A KR20190136578A (ko) 2018-05-31 2018-05-31 음성 인식 방법 및 장치
US16/244,397 US10930268B2 (en) 2018-05-31 2019-01-10 Speech recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180062483A KR20190136578A (ko) 2018-05-31 2018-05-31 음성 인식 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20190136578A true KR20190136578A (ko) 2019-12-10

Family

ID=68694139

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180062483A KR20190136578A (ko) 2018-05-31 2018-05-31 음성 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US10930268B2 (ko)
KR (1) KR20190136578A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11282501B2 (en) 2018-10-19 2022-03-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
WO2022131566A1 (ko) * 2020-12-16 2022-06-23 삼성전자 주식회사 전자 장치 및 전자 장치의 동작 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190136578A (ko) * 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치
CN111275058B (zh) * 2020-02-21 2021-04-27 上海高重信息科技有限公司 一种基于行人重识别的安全帽佩戴与颜色识别方法及装置
CN113539243A (zh) * 2021-07-06 2021-10-22 上海商汤智能科技有限公司 语音分类模型的训练方法、语音分类方法及相关装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328154B2 (en) 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
WO2005034086A1 (ja) 2003-10-03 2005-04-14 Asahi Kasei Kabushiki Kaisha データ処理装置及びデータ処理装置制御プログラム
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US8949266B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
GB0822619D0 (en) * 2008-12-11 2009-01-21 Scansafe Ltd Malware detection
US9280969B2 (en) 2009-06-10 2016-03-08 Microsoft Technology Licensing, Llc Model training for automatic speech recognition from imperfect transcription data
JP2011118755A (ja) * 2009-12-04 2011-06-16 Sony Corp 学習装置、学習方法、およびプログラム
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
KR101444411B1 (ko) 2011-12-15 2014-10-01 한국전자통신연구원 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법
US9275635B1 (en) * 2012-03-08 2016-03-01 Google Inc. Recognizing different versions of a language
JP5914119B2 (ja) 2012-04-04 2016-05-11 日本電信電話株式会社 音響モデル性能評価装置とその方法とプログラム
KR20140066640A (ko) 2012-11-23 2014-06-02 삼성전자주식회사 다국어 음향 모델 구축 장치 및 이의 다국어 음향 모델 구축 방법, 그리고 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 매체
US10262680B2 (en) 2013-06-28 2019-04-16 Adobe Inc. Variable sound decomposition masks
US9858919B2 (en) 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9760559B2 (en) * 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) * 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
KR102199246B1 (ko) 2014-11-18 2021-01-07 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
KR101740636B1 (ko) 2015-03-05 2017-05-26 한국전자통신연구원 음성 인식 기반 발음 평가 방법 및 장치
JP6604013B2 (ja) 2015-03-23 2019-11-13 カシオ計算機株式会社 音声認識装置、音声認識方法及びプログラム
US10255907B2 (en) * 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
KR102209689B1 (ko) 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
KR20170034227A (ko) 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
KR101807948B1 (ko) 2016-04-18 2017-12-11 한양대학교 산학협력단 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
US10403268B2 (en) 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
US10529319B2 (en) 2017-05-22 2020-01-07 Samsung Electronics Co., Ltd. User adaptive speech recognition method and apparatus
US20190147854A1 (en) * 2017-11-16 2019-05-16 Microsoft Technology Licensing, Llc Speech Recognition Source to Target Domain Adaptation
US10347241B1 (en) * 2018-03-23 2019-07-09 Microsoft Technology Licensing, Llc Speaker-invariant training via adversarial learning
KR20190136578A (ko) * 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치
KR20200044388A (ko) * 2018-10-19 2020-04-29 삼성전자주식회사 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11282501B2 (en) 2018-10-19 2022-03-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
WO2022131566A1 (ko) * 2020-12-16 2022-06-23 삼성전자 주식회사 전자 장치 및 전자 장치의 동작 방법

Also Published As

Publication number Publication date
US10930268B2 (en) 2021-02-23
US20190371301A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
JP7023934B2 (ja) 音声認識方法及び装置
US10629185B2 (en) Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
KR20190136578A (ko) 음성 인식 방법 및 장치
KR102410820B1 (ko) 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
BR112019004524B1 (pt) Sistema de redes neurais, um ou mais meios de armazenamento legíveis por computador não transitório e método para gerar autorregressivamente uma sequência de saída de dados de áudio
KR20190129580A (ko) 음성 인식 모델을 개인화하는 방법 및 장치
CN111081230A (zh) 语音识别方法和设备
US11735190B2 (en) Attentive adversarial domain-invariant training
KR20220130565A (ko) 키워드 검출 방법 및 장치
US20230237993A1 (en) Systems and Methods for Training Dual-Mode Machine-Learned Speech Recognition Models
JP7178394B2 (ja) 音声信号を処理するための方法、装置、機器、および媒体
US20210073645A1 (en) Learning apparatus and method, and program
CN110751260A (zh) 电子设备、任务处理的方法以及训练神经网络的方法
CN113674733A (zh) 用于说话时间估计的方法和设备
Li et al. Semi-supervised ensemble DNN acoustic model training
CN114626518A (zh) 使用深度聚类的知识蒸馏
KR102449840B1 (ko) 사용자 적응적인 음성 인식 방법 및 장치
Xia et al. Learning salient segments for speech emotion recognition using attentive temporal pooling
US11244166B2 (en) Intelligent performance rating
US9892726B1 (en) Class-based discriminative training of speech models
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts
US20200312307A1 (en) Dynamic Combination of Acoustic Model States
JP2020173441A (ja) 音声認識方法及び装置
US20240104311A1 (en) Hybrid language translation on mobile devices
KR20200072005A (ko) 음성 인식된 문장의 보정 방법

Legal Events

Date Code Title Description
A201 Request for examination