KR102225001B1 - 음성 인식 방법 및 음성 인식 장치 - Google Patents

음성 인식 방법 및 음성 인식 장치 Download PDF

Info

Publication number
KR102225001B1
KR102225001B1 KR1020190059389A KR20190059389A KR102225001B1 KR 102225001 B1 KR102225001 B1 KR 102225001B1 KR 1020190059389 A KR1020190059389 A KR 1020190059389A KR 20190059389 A KR20190059389 A KR 20190059389A KR 102225001 B1 KR102225001 B1 KR 102225001B1
Authority
KR
South Korea
Prior art keywords
spoken
speech
word
starting word
voice
Prior art date
Application number
KR1020190059389A
Other languages
English (en)
Other versions
KR20190065200A (ko
Inventor
채종훈
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020190059389A priority Critical patent/KR102225001B1/ko
Publication of KR20190065200A publication Critical patent/KR20190065200A/ko
Priority to US16/571,018 priority patent/US11183190B2/en
Application granted granted Critical
Publication of KR102225001B1 publication Critical patent/KR102225001B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

탑재된 인공지능(artificial intelligence, AI) 알고리즘 및/또는 기계학습(machine learning) 알고리즘을 실행하여 음성 인식을 수행하는 음성 인식 방법 및 음성 인식 장치가 개시된다. 본 발명의 일 실시 예에 따른 음성 인식 방법은, 일련의 발화 음성을 버퍼링하는 단계와, 버퍼링한 발화 음성을 기설정된 기동어와 비교하여 발화 음성으로부터 기설정된 기동어와 대응되는 예비 기동어를 추출하는 단계와, 발화 음성 내에서 예비 기동어의 역할을 분석하는 단계와, 예비 기동어의 역할 분석 결과를 이용하여 예비 기동어의 발화 의도를 판단하는 단계와, 예비 기동어의 발화 의도 판단 결과에 대응하여 발화 음성에 포함된 음성 명령어로서의 발화문 실행여부를 결정하고 처리하는 단계를 포함한다.
본 발명에 의하면, 기동어와 음성 명령어로서의 발화문 사이가 멈춤구간이 없이 연속되는 경우에도 기동어 인식 및/또는 발화문 분석을 정확하게 수행함으로써, 음성 인식 처리 성능을 향상시킬 수 있다.

Description

음성 인식 방법 및 음성 인식 장치{METHOD AND APPARATUS FOR RECOGNIZING A VOICE}
본 발명은 음성 인식 방법 및 장치에 관한 것으로, 더욱 상세하게는 멈춤(pause)구간이 기설정된 시간 미만인 발화 음성을 버퍼링하고, 버퍼링한 발화 음성에 포함된 기동어에 대한 발화 의도를 판단하여 발화문에 대한 처리를 수행하는 음성 인식 방법 및 장치에 관한 것이다.
기술이 발달함에 따라 최근 많은 분야에서 음성 인식 기술을 적용한 각종 서비스들이 소개되고 있다. 음성 인식 기술은 사람이 발성하는 음성을 이해하여 컴퓨터가 다룰 수 있는 문자 정보로 변환하는 일련의 과정이라 할 수 있으며, 음성 인식 기술을 이용하는 음성 인식 서비스는 사용자의 음성을 인식하고 이에 해당하는 적합한 서비스를 제공하는 일련의 과정을 포함할 수 있다.
이러한 음성 인식 기술이 적용되는 음성 인식 기반 장치는 특정 명령어가 입력될 때에만 음성 인식이 시작된다. 이때 음성 인식을 시작하는 특정 명령어를 기동어(wake-up word)라 하며, 기동어 인식과 관련된 구성은 연산량이 많지 않으므로 음성 인식 장치에서 항상 작동한다. 즉 기동어는 음성 인식 장치에 미리 등록된 단어로 사용자의 발화 음성에 기동어가 포함되어 있을 경우, 음성 인식 장치는 기동어를 인식하여 이후에 입력되는 음성명령에 따라 지정된 동작을 수행하도록 할 수 있다.
특히 전자장치를 이용하여 사용자의 음성 신호를 인식하고, 인식한 사용자의 음성 신호가 사전에 설정된 키워드(기동어)인 경우 음성 인식 동작을 수행하는 기술이 선행기술 1 및 선행기술 2에 의해 개시되어 있다.
선행기술 1에는 사용자의 발화 음성 중 기동어와 음성 명령어로서의 발화문 사이에 멈춤(pause)구간이 기설정된 시간 이상 존재하여 기동어와 발화문의 경계가 명확하나, 기동어와 발화문 사이가 멈춤구간이 기설정된 시간 미만으로 연속되는 경우, 기동어와 발화문의 경계가 불명확하여 기동어 인식 및/또는 발화문 분석이 정확하게 수행되지 않는 문제점이 있다.
선행기술 2에는 기동어 이후에 발화문이 연속하는 경우에 발화문을 처리 방법이 개시되어 있으나, 발화문 이후에 기동어가 존재하는 경우 기동어가 인식되어야만 음성 인식이 시작되기 때문에, 기동어 앞의 발화문 인식이 불가능한 문제점이 있다.
전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
선행기술 1: 한국 공개특허공보 제10-2016-0064258호(2016.06.08. 공개) 선행기술 2: 한국 공개특허공보 제10-2009-0123396호(2009.12.02. 공개)
본 발명의 일 과제는, 기동어와 발화문 사이의 멈춤구간이 기설정된 시간 미만으로 연속되는 경우, 기동어와 발화문의 경계가 불명확하여 기동어 인식 및/또는 발화문 분석이 정확하게 수행되지 않았던 종래 기술의 문제점을 해결하는 것이다.
본 발명의 일 과제는, 발화문 이후에 기동어가 포함되는 경우, 사용자의 발화 음성으로부터 발화문 인식이 불가능했던 종래 기술의 문제점을 해결하는 것이다.
본 발명의 일 과제는, 발화문 중간에 기동어가 포함되는 경우, 사용자의 발화 음성으로부터 발화문 인식이 불가능했던 종래 기술의 문제점을 해결하는 것이다.
본 발명의 일 과제는, 발화문과 발화문 사이에 기동어가 포함되는 경우, 사용자의 발화 음성으로부터 기동어 이전의 발화문에 대해서는 인식이 불가능했던 종래 기술의 문제점을 해결하는 것이다.
본 발명의 일 과제는, 기동어와 발화문의 경계가 불명확하여 기동어 인식 및/또는 발화문 분석이 정확하게 수행되지 않은 종래 기술의 문제점을 최적의 프로세서 자원을 사용하면서 해결하는 것이다.
본 발명의 일 과제는, 기동어가 음성 명령으로 의도된 발화문 이후에 나오는 경우에 음성 명령을 인지하지 않은 종래 기술의 문제점을 최적의 프로세스 자원을 사용하면서 해결하는 것이다.
본 발명의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.
본 발명의 일 실시 예에 따른 음성 인식 방법은, 음성에 대해서 일정 구간을 임시로 저장한 후, 음성으로부터 기설정된 기동어와 대응되거나 기설정된 기동어를 포함하는 예비 기동어의 역할 분석을 통하여 예비 기동어의 발화 의도를 판단하고 음성 명령을 실행하도록 처리하는 단계를 포함할 수 있다.
구체적으로 본 발명의 일 실시 예에 따른 음성 인식 방법은, 일련의 발화 음성을 버퍼링하는 단계와, 버퍼링한 발화 음성을 기설정된 기동어와 비교하여 발화 음성으로부터 기설정된 기동어와 대응되는 예비 기동어를 추출하는 단계와, 발화 음성 내에서 예비 기동어의 역할을 분석하는 단계와, 예비 기동어의 역할 분석 결과를 이용하여 예비 기동어의 발화 의도를 판단하는 단계와, 예비 기동어의 발화 의도 판단 결과에 대응하여 발화 음성에 포함된 음성 명령어로서의 발화문 실행여부를 결정하고 처리하는 단계를 포함할 수 있다.
종래에는 사용자의 발화 음성 중 기동어와 음성 명령어로서의 발화문 사이가 멈춤구간이 없이 연속되는 경우, 기동어와 발화문의 경계가 불명확하여 기동어 인식 및/또는 발화문 분석이 정확하게 수행되지 않는 문제점이 있었으나, 본 실시 예에 따른 음성 인식 방법을 통하여 기동어와 음성 명령어로서의 발화문 사이가 멈춤구간이 없이 연속되는 경우에도 기동어 인식 및/또는 발화문 분석을 정확하게 수행함으로써, 음성 인식 처리 성능을 향상시킬 수 있다.
또한, 버퍼링하는 단계는, 예비 기동어 및 발화문 사이에 멈춤(pause)구간이 기설정된 시간 미만인 일련의 발화 음성을 버퍼링하는 단계를 포함할 수 잇다.
본 실시 예에 따른 버퍼링하는 단계를 통하여, 종래에 기동어와 발화문의 경계가 불명확하여 기동어 인식 및/또는 발화문 분석이 정확하게 수행되지 않는 문제점을 해결할 수 있는 발화 음성을 확보할 수 있다.
또한, 버퍼링하는 단계는, 발화 음성이 입력되는 상황에 대응하여, 버퍼링하는 용량 또는 시간을 가변하여 버퍼링하는 단계를 더 포함할 수 있다.
본 실시 예에 따른 버퍼링하는 단계를 통하여, 발화 음성이 입력되는 상황 예를 들어, 발화 음성이 입력되는 시간, 발화 음성이 입력되는 장소, 발화 음성의 높낮이, 발화 음성의 정확도, 발화 음성의 성별, 발화 음성의 속도 등에 따라 발화 음성을 버퍼링하는 용량 또는 시간을 가변함으로써 정확한 음성 인식을 수행하기 위한 발화 음성을 확보할 수 있다.
또한, 분석하는 단계는, 발화 음성의 형태소 분석, 품사 분석, 구절 단위 분석, 구문 분석 및 개체명 인식 중 하나 이상을 수행하는 자연어 처리 알고리즘을 기반으로 하여 예비 기동어의 역할을 분석하는 단계를 포함할 수 있다.
본 실시 예에 따른 분석하는 단계를 통하여, 문장 내에서 의미는 동일하지만 다양한 형태로 발화할 수 있는 자연어의 특성에 대응하여, 예비 기동어의 품사, 의미, 구문 관계 등을 정확하게 밝혀낼 수 있다.
또한, 판단하는 단계는, 예비 기동어의 역할 분석 결과를 이용하여, 예비 기동어를 발화 음성 내에서 실제 기동어로 발화한 것인지, 또는 예비 기동어를 발화 음성 내에서 인용어로 발화한 것인지 판단하는 단계를 포함할 수 있다.
본 실시 예에 따른 판단하는 단계를 통하여, 예비 기동어의 역할에 대응하여 발화 음성 내에서 예비 기동어의 정확한 발화 의도를 판단할 수 있다.
또한, 처리하는 단계는, 예비 기동어를 실제 기동어로 발화한 경우 음성 인식 기능을 활성화시키고, 발화문을 실행 처리하는 단계와, 예비 기동어를 인용어로 발화한 경우 음성 인식 기능의 비활성화 상태를 유지 처리하는 단계를 포함할 수 있다.
본 실시 예에 따른 처리하는 단계를 통하여, 음성 인식 장치 자체는 대량 생산된 획일적인 제품이지만, 사용자는 음성 인식 장치를 개인화된 장치로 인식하므로 사용자 맞춤형 제품의 효과를 낼 수 있다.
또한, 예비 기동어의 발화 의도 판단 결과, 예비 기동어를 실제 기동어로 발화한 경우, 발화 음성으로부터 실제 기동어를 제외한 발화문을 분리하는 단계를 더 포함할 수 있고, 분리하는 단계는, 발화 음성으로부터 실제 기동어의 이전에 존재하는 발화문을 분리하는 단계와, 발화 음성으로부터 실제 기동어의 이후에 존재하는 발화문을 분리하는 단계와, 발화 음성으로부터 발화문의 중간에 존재하는 기동어를 제외하고 기동어 이전 발화 부분과 기동어 이후 발화 부분을 분리하는 단계와, 발화 음성으로부터 둘 이상의 발화문 사이에 존재하는 실제 기동어를 제외한 둘 이상의 발화문을 분리하는 단계 중 적어도 하나의 단계를 포함할 수 있다.
본 실시 예에 따른 분리하는 단계를 통하여, 발화 음성에 기동어가 포함되어 있다면 음성 명령의 내용을 인식하기 위한 음성 인식 기능을 활성화시키고, 발화문의 위치와 관계없이 발화 음성으로부터 기동어를 제외하고 음성 명령어로서의 발화문을 분리하여 처리결과를 출력함으로써, 음성 인식 처리 성능을 향상시킬 수 있다.
본 발명의 일 실시 예에 따른 음성 인식 장치는, 일련의 발화 음성을 버퍼링하는 버퍼와, 버퍼링한 발화 음성을 기설정된 기동어와 비교하여 발화 음성으로부터 기설정된 기동어와 대응되는 예비 기동어를 추출하는 추출부와, 발화 음성 내에서 예비 기동어의 역할을 분석하는 분석부와, 예비 기동어의 역할 분석 결과를 이용하여 예비 기동어의 발화 의도를 판단하는 판단부와, 예비 기동어의 발화 의도 판단 결과에 대응하여 발화 음성에 포함된 음성 명령어로서의 발화문 실행여부를 결정하고 처리하는 제어부를 포함할 수 있다.
본 실시 예에 따른 음성 인식 장치를 통하여 기동어와 음성 명령어로서의 발화문 사이가 멈춤구간이 없이 연속되는 경우에도 기동어 인식 및/또는 발화문 분석을 정확하게 수행함으로써, 음성 인식 처리 성능을 향상시킬 수 있다.
또한, 버퍼는, 예비 기동어 및 발화문 사이에 멈춤(pause)구간이 기설정된 시간 미만인 일련의 발화 음성을 버퍼링할 수 있다.
본 실시 예에 따른 버퍼를 통하여, 종래에 기동어와 발화문의 경계가 불명확하여 기동어 인식 및/또는 발화문 분석이 정확하게 수행되지 않는 문제점을 해결할 수 있는 발화 음성을 확보할 수 있다.
또한, 본 실시 예에 따른 음성 인식 장치는, 발화 음성이 입력되는 상황에 대응하여, 버퍼가 버퍼링하는 용량 또는 시간을 가변하는 가변부를 더 포함할 수 있다.
본 실시 예에 따른 가변부를 통하여, 발화 음성이 입력되는 상황 예를 들어, 발화 음성이 입력되는 시간, 발화 음성이 입력되는 장소, 발화 음성의 높낮이, 발화 음성의 정확도, 발화 음성의 성별, 발화 음성의 속도 등에 따라 발화 음성을 버퍼링하는 용량 또는 시간을 가변함으로써 정확한 음성 인식을 수행하기 위한 발화 음성을 확보할 수 있다.
또한, 분석부는, 발화 음성의 형태소 분석, 품사 분석, 구절 단위 분석 및 구문 분석 중 하나 이상을 수행하는 자연어 처리 또는 개체명 인식을 기반으로 하여 예비 기동어의 역할을 분석할 수 있다.
본 실시 예에 따른 분석부를 통하여, 문장 내에서 의미는 동일하지만 다양한 형태로 발화할 수 있는 자연어의 특성에 대응하여, 예비 기동어의 품사, 의미, 구문 관계 등을 정확하게 밝혀낼 수 있다.
또한, 판단부는, 예비 기동어의 역할 분석 결과를 이용하여, 예비 기동어를 발화 음성 내에서 실제 기동어로 발화한 것인지, 또는 예비 기동어를 발화 음성 내에서 인용어로 발화한 것인지 판단할 수 있다.
본 실시 예에 따른 판단부를 통하여, 예비 기동어의 역할에 대응하여 발화 음성 내에서 예비 기동어의 정확한 발화 의도를 판단할 수 있다.
또한, 제어부는, 예비 기동어를 실제 기동어로 발화한 경우 음성 인식 기능을 활성화시키고, 발화문을 실행 처리하거나, 예비 기동어를 인용어로 발화한 경우 음성 인식 기능의 비활성화 상태를 유지 처리할 수 있다.
본 실시 예에 따른 제어부를 통하여, 음성 인식 장치 자체는 대량 생산된 획일적인 제품이지만, 사용자는 음성 인식 장치를 개인화된 장치로 인식하므로 사용자 맞춤형 제품의 효과를 낼 수 있다.
또한, 본 실시 예에 따른 음성 인식 장치는, 예비 기동어의 발화 의도 판단 결과, 예비 기동어를 실제 기동어로 발화한 경우, 발화 음성으로부터 실제 기동어를 제외한 발화문을 분리하는 분리부를 더 포함할 수 있고, 분리부는, 발화 음성으로부터 실제 기동어의 이전에 존재하는 발화문을 분리하거나, 발화 음성으로부터 실제 기동어의 이후에 존재하는 발화문을 분리하거나, 발화 음성으로부터 발화문의 중간에 존재하는 기동어를 제외하고 기동어 이전 발화 부분과 기동어 이후 발화 부분을 분리하거나, 발화 음성으로부터 둘 이상의 발화문 사이에 존재하는 실제 기동어를 제외한 둘 이상의 발화문을 분리할 수 있다.
본 실시 예에 따른 분리부를 통하여, 발화 음성에 기동어가 포함되어 있다면 음성 명령어의 내용을 인식하기 위한 음성 인식 기능을 활성화시키고, 발화문의 위치와 관계없이 발화 음성으로부터 기동어를 제외하고 음성 명령어로서의 발화문을 분리하여 처리결과를 출력함으로써, 음성 인식 처리 성능을 향상시킬 수 있다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램이 더 제공될 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 발명에 의하면, 기동어와 음성 명령어로서의 발화문 사이가 멈춤구간이 없이 연속되는 경우에도 기동어 인식 및/또는 발화문 분석을 정확하게 수행함으로써, 음성 인식 처리 성능을 향상시킬 수 있다.
또한, 음성 인식 장치 자체는 대량 생산된 획일적인 제품이지만, 사용자는 음성 인식 장치를 개인화된 장치로 인식하므로 사용자 맞춤형 제품의 효과를 낼 수 있다.
또한, 일련의 발화 음성을 버퍼링하고, 버퍼링한 발화 음성에 기동어가 포함되어 있다면, 음성 인식 기능을 활성화시키고, 발화문의 위치에 상관없이 발화문을 분리하여 처리함으로써 음성 인식 처리 성능을 향상시킬 수 있다.
또한 최적의 프로세서 자원만을 사용하여 사용자가 의도한 음성 명령을 인지 및 처리할 수 있도록 함으로써 음성 인식 장치의 전력 효율을 향상시킬 수 있다.
본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치, 사용자 단말기, 서버 및 이들을 서로 연결하는 네트워크를 포함하는 음성 인식 환경의 예시도이다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 장치의 외관을 나타내는 예시도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 장치의 개략적인 블록도이다.
도 4는 도 3의 음성 인식 장치 중 일 실시 예에 따른 음성 처리부의 개략적인 블록도이다.
도 5는 도 3의 음성 인식 장치 중 버퍼에 저장되는 사용자의 발화 음성 파형도이다.
도 6은 본 발명의 일 실시 예에 따른 음성 인식 방법의 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
이하, 본 발명에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치, 사용자 단말기, 서버 및 이들을 서로 연결하는 네트워크를 포함하는 음성 인식 환경의 예시도이다.
도 1을 참조하면, 음성 인식 장치(100), 사용자 단말기(200) 및 서버(300)가 네트워크(400)에 의해 서로 통신 연결되어 있는 상태가 묘사되어 있다. 음성 인식 장치(100)는 통신부(도 3의 110)를 포함하고 있어서, 유선 또는 무선 네트워크(400)를 통해 개인 통신 기기에 해당하는 사용자 단말기(200) 및 서버(300)와 데이터를 송신 및 수신할 수 있다.
음성 인식 장치(100)는 사용자의 발화 음성을 수신하고, 인식 및 분석을 통하여 음성 인식 서비스를 제공할 수 있다. 음성 인식 장치(100)는 인공지능(AI) 스피커를 포함할 수 있으며, 음성 입출력 기능이 없는 전자 기기를 제어하는 허브 역할을 할 수 있다.
여기서 발화 음성은 기동어와 발화문을 포함할 수 있다. 기동어는 음성 인식 장치(100)의 음성 인식 기능을 활성화 시키는 특정 명령어로서, 웨이크업 워드(wake-up word)로 명명될 수 있다. 발화 음성에 기동어가 포함되어 있어야 음성 인식 기능이 활성화 될 수 있고, 발화 음성에 기동어가 포함되어 있지 않은 경우 음성 인식 기능이 비활성화(예를 들어, 슬립 모드) 상태를 유지한다. 이러한 기동어는 기설정되어 후술하는 메모리(도 3의 160)에 저장될 수 있다.
또한 발화문은 발화 음성 중 기동어를 제외한 발화 음성으로서, 음성 인식 장치(100)가 실질적으로 처리하여 출력을 생성할 수 있는 음성 명령어를 포함할 수 있다. 예를 들어, 사용자의 발화 음성이 "에어스타야 에어컨을 켜줘"인 경우, 기동어는 "에어스타야"일 수 있고, 발화문은 "에어컨을 켜줘"일 수 있다. 음성 인식 장치(100)는 사용자의 발화 음성을 수신 및 분석하여 기동어의 존재를 판단하고, 발화문을 실행하여 전자 기기로서의 에어컨(미도시)을 제어할 수 있다.
본 실시 예에서 발화문은 하나의 음성 명령어를 포함하는 단위 일 수 있다. 발화문이 하나의 음성 명령어를 포함하는 경우, 기동어는 발화문 이후에, 또는 발화문 이전에, 또는 발화문 사이에 위치할 수 있다. 발화문 사이에 기동어가 위치하는 경우, 발화문은 둘 이상의 발화 부분을 포함할 수 있다. 예를 들어, 사용자의 발화 음성이 "에어컨을 에어스타야 켜줘"인 경우, 발화문인 "에어컨을 켜줘" 사이에 기동어인 "에어스타야"가 위치한 경우가 있을 수 있는데, 이때 발화문은 기동어 이전의 발화 부분 "에어컨을"과 기동어 이후의 발화 부분"켜줘"를 포함할 수 있다. 발화문 사이에서 기동어를 제외하고, 기동어 이전의 발화 부분과 기동어 이후의 발화 부분을 합성하면 하나의 음성 명령어인 발화문이 될 수 있다.
선택적 실시 예로, 발화문은 두 개 이상의 음성 명령어를 포함할 수 있다. 발화문이 두 개 이상의 음성 명령어를 포함하는 경우, 기동어는 첫 번째 발화문과 두 번째 발화문 사이에 위치하거나, 첫 번째 발화문 이전에 위치하거나, 첫 번째 발화문 이후에(두 번째 발화문 이전과 동일한 위치) 위치하거나, 첫 번째 발화문 사이에 위치하거나, 두 번째 발화문 이후에 위치거나, 두 번째 발화문 사이에 위치할 수 있다. 예를 들어, 사용자의 발화 음성이 "에어컨을 켜줘 에어스타야 그리고 청정 모드로 운전해줘"인 경우, 기동어인"에어스타야"가 첫 번째 발화문인 "에어컨을 켜줘"와 두 번째 발화문인 "그리고 청정 모드로 운전해줘" 사이에 위치해 있음을 알 수 있다. 두 개의 발화문 사이에서 기동어를 제외하고, 기동어 이전의 첫 번째 발화문과 기동어 이후의 두 번째 발화문은 각각 처리되어 처리 결과를 출력하거나, 일괄 처리되어 처리 결과를 출력할 수 있다.
본 실시 예에서 음성 인식 장치(100)는 멈춤구간이 기설정된 시간 미만인 일련의 발화 음성을 버퍼링하고, 버퍼링한 발화 음성을 기설정된 기동어와 비교하여 발화 음성으로부터 기설정된 기동어와 대응되거나, 기설정된 기동어를 포함하는 예비 기동어를 추출할 수 있다. 음성 인식 장치(100)는 발화 음성 내에서 예비 기동어의 역할을 분석하고, 예비 기동어의 역할 분석 결과를 이용하여 예비 기동어의 발화 의도를 판단하며, 예비 기동어의 발화 의도 판단 결과에 대응하여 발화 음성에 포함된 음성 명령어로서의 발화문 실행여부를 결정하고 처리할 수 있다.
여기서, 멈춤(pause, 또는 cut-off)구간이라 함은, 발화 시에 어문 규범에 따라 어떤 말을 앞 말과 구별하기 위해 화자의 발화가 멈추는 구간을 포함할 수 있다. 멈춤구간은 단어와 단어 사이, 문장과 문장 사이, 기동어(예비 기동어)와 발화문 사이, 발화문 내의 단어와 단어 사이, 발화문과 발화문 사이 등에 포함될 수 있다. 통상적으로 멈춤구간의 시간이 250ms 미만이면 멈춤구간이 아닌 것으로 판단할 수 있다(http://www.iltec.pt/pdf/wpapers/2002-moliveira-pauses.pdf 참조, 발화자의 71.5%가 멈춤구간이 250ms 내지 1sec임). 다만 사용자의 발화 음성을 학습하여 이 기준도 변경될 수 있다. 예를 들어, 멈춤구간이 기설정된 시간(예를 들어, 250ms) 이상인 일련의 발화 음성의 한 문장은 <아버지가[멈춤구간]방에[멈춤구간]들어가신다>일 수 있고, 멈춤구간이 기설정된 시간 미만인 발화 음성의 한 문장은 <아버지가방에들어가신다>일 수 있다. 멈춤구간이 기설정된 시간 이상인 발화 음성은 그 의미가 명확하게 전달되지만, 멈춤구간이 기설정된 시간 미만인 발화 음성은 그 의미가 모호하게 전달될 수 있다.
또한, 예비 기동어라 함은, 사용자의 발화 음성 중 메모리(160)에 저장된 기설정된 기동어와 대응되거나, 기설정된 기동어를 포함하는 문구로서, 그 역할 및 발화 의도가 모호한 기동어를 포함할 수 있다. 예를 들어, 사용자의 발화 음성이 "에어스타에어컨을켜줘"인 경우, 발화 음성 중 예비 기동어는 기설정된 기동어를 포함하는"에어스타"일 수 있다. 또한 기동어의 역할이 모호하다 함은, 사용자의 발화 음성에서 예비 기동어가 실제 기동어로 사용되었는지, 인용어로 사용되었는지 판단하기 전의 상태를 포함할 수 있다.
예를 들어, 사용자의 발화 음성이 "에어스타에어컨을켜줘"인 경우, 발화 음성 중 예비 기동어는 기설정된 기동어와 대응되는"에어스타"일 수 있으며, 후술하는 예비 기동어의 역할 분석 및 발화 의도 판단을 통해 예비 기동어인 "에어스타"가 발화 음성에서 실제 기동어로 사용되었음을 알 수 있다. 또한 예를 들어, 사용자의 발화 음성이 "에어스타는편리한인공지능스피커이다"인 경우, 발화 음성 중 예비 기동어는 기설정된 기동어와 대응되는"에어스타는"일 수 있으며, 후술하는 예비 기동어의 역할 분석 및 발화 의도 판단을 통해 예비 기동어인 "에어스타는"가 발화 음성에서 인용어로 사용되었음을 알 수 있다.
여기서 실제 기동어라 함은, 사용자의 음성 명령어를 수신할 수 있는 상태로 음성 인식 기능을 활성화시키는 기능을 수행하도록 의도된 용어일 수 있다. 또한 인용어라 함은, 기동어 역할을 수행하지 않는 기동어로서, 예비 기동어에 포함될 수 있으나, 사용자의 발화 음성 내에서 그 역할 및 발화 의도가 실제 기동어로서의 역할을 수행하지 않는 기동어를 포함할 수 있다.
종래에는 사용자의 발화 음성 중 기동어와 음성 명령어로서의 발화문 사이가 멈춤구간이 기설정된 시간 미만으로 연속되는 경우, 기동어와 발화문의 경계가 불명확하여 기동어 인식 및/또는 발화문 분석이 정확하게 수행되지 않는 문제점이 있었으나, 본 실시 예에 따른 음성 인식을 통하여 기동어와 음성 명령어로서의 발화문 사이가 멈춤구간이 기설정된 시간 미만으로 연속되는 경우에도 기동어 인식 및/또는 발화문 분석을 정확하게 수행함으로써, 음성 인식 처리 성능을 향상시킬 수 있다.
본 실시 예에서 음성 인식 장치(100)는 발화 음성의 형태소 분석, 품사 분석, 구절 단위 분석, 구문 분석 및 개체명 인식 중 하나 이상을 수행하는 자연어 처리 알고리즘을 기반으로 하여 발화 음성 내에서 예비 기동어의 역할을 분석할 수 있다. 음성 인식 장치(100)는 예비 기동어의 역할 분석 결과를 이용하여, 예비 기동어를 발화 음성 내에서 실제 기동어로 발화한 것인지, 또는 예비 기동어를 발화 음성 내에서 인용어로 발화한 것인지를 포함하는 발화 의도를 판단할 수 있다.
음성 인식 장치(100)는 예비 기동어의 발화 의도 판단 결과, 예비 기동어를 실제 기동어로 발화한 경우, 음성 인식 기능을 활성화시키고 발화문을 실행 처리할 수 있다. 반면에 음성 인식 장치(100)는 예비 기동어의 발화 의도 판단 결과, 예비 기동어를 인용어로 발화한 경우, 음성 인식 기능을 비활성화 상태로 유지 처리할 수 있다.
선택적 실시 예로 음성 인식 장치(100)는 예비 기동어의 발화 의도 판단 결과, 예비 기동어를 실제 기동어로 발화한 경우, 발화 음성으로부터 실제 기동어를 제외한 발화문을 분리할 수 있다. 음성 인식 장치(100)는 발화 음성으로부터 실제 기동어 이전에 존재하는 발화문을 분리하거나, 발화 음성으로부터 실제 기동어의 이후에 존재하는 발화문을 분리하거나, 발화 음성으로부터 발화문의 중간에 존재하는 실제 기동어를 제외한 발화문을 분리하거나, 발화 음성으로부터 둘 이상의 발화문 사이에 존재하는 실제 기동어를 제외한 둘 이상의 발화문을 분리할 수 있다.
사용자 단말기(200)는 서버(300)를 통해 음성 인식 장치(100)의 운전을 제어할 수 있다. 또한 사용자 단말기(200)는 음성 인식 장치(100)로부터 음성 인식 장치(100)의 동작에 관한 각종 메시지를 수신할 수 있다. 이러한 메시지는 그 종류로서 음성 인식 장치(100)의 음성 인식 처리의 시작 및/또는 종료를 알리는 알림 메시지, 음성 인식 장치(100)의 이상 상황 발생을 알리는 경고 메시지 등을 포함할 수 있다. 알림 메시지 및/또는 경고 메시지는 사용자 단말기(200) 및 음성 인식 장치(100)의 사용자 인터페이스(미도시)를 통해 동시에 전송 및 출력될 수 있다.
사용자 단말기(200)는 컴퓨팅 장치(미도시)의 기능을 수행할 수 있는 통신 단말기를 포함할 수 있으며, 사용자가 조작하는 데스크 탑 컴퓨터, 스마트폰, 노트북, 태블릿 PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 사용자 단말기(200)는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 단말기 일 수 있다. 이러한 사용자 단말기(200)는 상술한 내용에 제한되지 아니하며, 웹 브라우징이 가능한 단말기는 제한 없이 차용될 수 있다.
서버(300)는 각종 인공지능 알고리즘을 적용하는데 필요한 빅데이터 및 음성 인식에 관한 데이터를 제공하는 데이터베이스 서버일 수 있다. 그 밖에 서버(300)는 사용자 단말기(200)에 설치된 애플리케이션 또는 웹 브라우저를 이용하여 음성 인식 장치(100)를 원격에서 제어할 수 있도록 하는 웹 서버 또는 애플리케이션 서버를 포함할 수 있다.
여기서 인공 지능(artificial intelligence, AI)은, 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미할 수 있다.
또한, 인공지능은 그 자체로 존재하는 것이 아니라, 컴퓨터 과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.
머신 러닝(machine learning)은 인공지능의 한 분야로, 컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야를 포함할 수 있다. 구체적으로 머신 러닝은, 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이라 할 수 있다. 머신 러닝의 알고리즘들은 엄격하게 정해진 정적인 프로그램 명령들을 수행하는 것이라기보다, 입력 데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식을 취할 수 있다.
서버(300)는 음성 인식 장치(100)로부터 수신한 멈춤구간이 존재하지 않는 일련의 발화 음성을 버퍼링하고, 버퍼링한 발화 음성을 기설정된 기동어와 비교하여 발화 음성으로부터 기설정된 기동어와 대응되거나, 기설정된 기동어를 포함하는 예비 기동어를 추출하며, 발화 음성 내에서 예비 기동어의 역할을 분석하고, 예비 기동어의 역할 분석 결과를 이용하여 예비 기동어의 발화 의도를 판단하며, 예비 기동어의 발화 의도 판단 결과에 대응하여 발화 음성에 포함된 음성 명령어로서의 발화문 실행여부를 결정하고 처리한 후, 처리결과를 음성 인식 장치(100)로 전송할 수 있다. 즉, 음성 인식 처리 과정이 서버(300)에 의해 수행될 수 있다.
네트워크(400)는 음성 인식 장치(100)와 사용자 단말기(200)를 연결하는 역할을 수행할 수 있다. 이러한 네트워크(400)는 예컨대 LANs(local area networks), WANs(wide area networks), MANs(metropolitan area networks), ISDNs(integrated service digital networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 또한 네트워크(400)는 근거리 통신 및/또는 원거리 통신을 이용하여 정보를 송수신할 수 있다. 여기서 근거리 통신은 블루투스(bluetooth), RFID(radio frequency identification), 적외선 통신(IrDA, infrared data association), UWB(ultra-wideband), ZigBee, Wi-Fi (wireless fidelity) 기술을 포함할 수 있고, 원거리 통신은 CDMA(code division multiple access), FDMA(frequency division multiple access), TDMA(time division multiple access), OFDMA(orthogonal frequency division multiple access), SC-FDMA(single carrier frequency division multiple access) 기술을 포함할 수 있다.
네트워크(400)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(400)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(400)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 장치의 외관을 나타내는 예시도이고, 도 3은 본 발명의 일 실시 예에 따른 음성 인식 장치의 개략적인 블록도이다. 이하의 설명에서 도 1에 대한 설명과 중복되는 부분은 그 설명을 생략하기로 한다. 도 2 및 도 3을 참조하면, 음성 인식 장치(100)는 통신부(110), 조작부(120), 근접센서(131) 및 영상센서(132)를 포함하는 센서부(130), 음성 입력부(140), 음성 처리부(150), 메모리(160), 디스플레이부(170), 오디오 출력부(180) 및 제어부(190)를 포함할 수 있다.
통신부(110)는 네트워크(400)와 연동하여 음성 인식 장치(100)와 다른 전자 기기 및/또는 사용자 단말기(200) 간의 송수신 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공할 수 있다. 나아가, 통신부(110)는 전자 기기 및/또는 사용자 단말기(200)로부터 소정의 정보 요청 신호를 수신하는 역할을 할 수 있고, 음성 인식 장치(100)가 처리한 정보를 전자 기기 및/또는 사용자 단말기(200)로 전송하는 역할을 수행할 수 있다. 또한 통신부(110)는 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.
본 실시 예에서 다른 전자 기기라 함은, 음성 입출력 기능을 구비하고 있지 않은 홈 어플라이언스 예를 들어, 에어컨, 냉장고, 세탁기 등을 포함할 수 있으며, 음성 않은 인식 장치(100)에 의해 상술한 홈 어플라이언스를 제어할 수 있다. 또한 다른 전자 기기라 함은, 음성 입출력 기능을 구비하고 있는, 즉 음성 인식 장치(100)의 기능을 구비하고 있는 홈 어플라이언스를 포함할 수도 있다.
조작부(120)는 복수의 조작 버튼(미도시)을 구비하여, 입력되는 버튼에 대응하는 신호를 제어부(190)로 전송할 수 있다. 본 실시 예에서 조작부(120)는 제1 내지 제4 컨택 스위치(미도시)를 포함할 수 있으며, 각각의 컨택 스위치의 출력 신호가 어떻게 처리되는지는 메모리(160)에 기저장된 프로그램에 의해 정해질 수 있다. 예를 들어, 제1 컨택 스위치 또는 제2 컨택 스위치의 동작 신호에 따라 디스플레이부(170) 상에서 좌방향 또는 우방향으로 표시된 메뉴들이 선택될 수 있으며, 제3 컨택 스위치 또는 제4 컨택 스위치의 동작 신호에 따라 디스플레이부(170) 상에서 상방향 또는 하방향으로 표시된 메뉴들이 선택될 수 있다. 또한 제1 컨택 스위치 내지 제4 컨택 스위치 중 하나를 작동시키면 음성 인식 기능이 활성화될 수 있다.
센서부(130)는 음성 인식 장치(100)의 주변 상황을 센싱하는 근접센서(131) 및 영상센서(132)를 포함할 수 있다. 근접센서(131)는 적외선 등을 활용하여 음성 인식 장치(100) 주변에 위치한 객체(예를 들어 사용자)의 위치 데이터를 획득할 수 있다. 한편, 근접센서(131)가 획득한 사용자의 위치 데이터는 메모리(160)에 저장될 수 있다.
영상센서(132)는 음성 인식 장치(100) 주변을 촬영할 수 있는 카메라(미도시)를 포함할 수 있으며, 촬영 효율을 위해 복수 개가 설치될 수 있다. 예를 들어, 카메라는 적어도 하나의 광학렌즈와, 광학렌즈를 통과한 광에 의해 상이 맺히는 다수개의 광다이오드(photodiode, 예를 들어, pixel)를 포함하여 구성된 이미지센서(예를 들어, CMOS image sensor)와, 광다이오드들로부터 출력된 신호를 바탕으로 영상을 구성하는 디지털 신호 처리기(DSP: digital signal processor)를 포함할 수 있다. 디지털 신호 처리기는 정지영상은 물론이고, 정지영상으로 구성된 프레임들로 이루어진 동영상을 생성할 수 있다. 한편, 영상센서(132)로서의 카메라가 촬영하여 획득된 영상은 메모리(160)에 저장될 수 있다.
본 실시 예에서 센서부(130)를 근접센서(131) 및 영상센서(132)로 한정하고 있으나, 이에 국한되지 않고, 음성 인식 장치(100)의 주변 상황을 감지할 수 있는 센서 예를 들어, 온도 센서, 습도 센서, 진동 센서 등 각종 센서를 구비할 수 있으며, 센서부(130)가 감지한 정보는 메모리(160)에 저장될 수 있다.
음성 입력부(140)는 음성 인식 장치(100)를 향하여 사용자가 발화한 발화 음성을 입력 받을 수 있다. 이를 위해 음성 입력부(140)는 하나 이상의 마이크(미도시)를 구비할 수 있다. 또한 사용자의 발화 음성을 더 정확하게 수신하기 위해 복수의 마이크(미도시)를 구비할 수 있다. 여기서, 복수의 마이크 각각은 서로 다른 위치에 이격되어 배치될 수 있고, 수신한 사용자의 발화 음성을 전기적인 신호로 처리할 수 있다.
선택적 실시 예로 음성 입력부(140)는 사용자의 발화 음성을 수신하는 과정에서 발생하는 노이즈를 제거하기 위한 다양한 노이즈 제거 알고리즘을 사용할 수 있다. 선택적 실시 예로 음성 입력부(140)는 사용자의 발화 음성 수신 시에 노이즈를 제거하는 필터(미도시), 필터에서 출력되는 신호를 증폭하여 출력하는 증폭기(미도시) 등 음성 신호 처리를 위한 각종 구성 요소들을 포함할 수 있다.
음성 처리부(150)는 음성 입력부(140)를 통하여 입력되며 멈춤구간이 기설정된 시간 미만인 사용자의 발화 음성을 버퍼링하고, 버퍼링한 발화 음성을 기설정된 기동어와 비교하여 발화 음성으로부터 기설정된 기동어와 대응되거나, 기설정된 기동어를 포함하는 예비 기동어를 추출할 수 있다. 음성 처리부(150)는 발화 음성 내에서 예비 기동어의 역할을 분석하고, 예비 기동어의 역할 분석 결과를 이용하여 예비 기동어의 발화 의도를 판단할 수 있다. 이후 제어부(190)는 음성 처리부(150)의 예비 기동어에 대한 발화 의도 판단 결과에 대응하여 음성 인식 기능을 활성화시키고 발화 음성에 포함된 음성 명령어로서의 발화문 실행여부를 결정하고 처리할 수 있다. 이하, 도 4 및 도 5를 참조하여 음성 처리부(150)를 상세히 설명하기로 한다.
메모리(160)는 음성 인식 장치(100)의 동작에 필요한 각종 정보들을 기록하는 것으로, 휘발성 또는 비휘발성 기록 매체를 포함할 수 있다. 기록 매체는 제어부(190)에 의해 읽힐 수 있는 데이터를 저장한 것으로, HDD(hard disk drive), SSD(solid state disk), SDD(silicon disk drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등을 포함할 수 있다.
한편, 메모리(160)에는 음성 인식을 위한 데이터가 저장될 수 있고, 제어부(190)는 음성 처리부(150)의 예비 기동어에 대한 발화 의도 판단 결과에 대응하여 발화 음성에 포함된 음성 명령어로서의 발화문 실행여부를 결정하고 처리할 수 있다.
여기서, 간단한 음성 인식은 음성 인식 장치(100)가 수행하고, 자연어 처리 등 고차원의 음성 인식은 서버(300)에서 수행될 수 있다. 예를 들어, 기설정된 기동어와 대응되거나, 기설정된 기동어를 포함하는 발화 음성 신호가 수신되는 경우에, 음성 인식 장치(100)는 음성 명령어로서의 발화문을 수신하기 위한 상태로 전환될 수 있다. 이 경우에, 음성 인식 장치(100)는 기동어 음성 입력 여부까지의 음성 인식 과정만 수행하고, 이후의 사용자 발화 음성 입력에 대한 음성 인식은 서버(300)를 통하여 수행할 수 있다. 음성 인식 장치(100)의 시스템 자원에는 한계가 있으므로, 복잡한 자연어 인식 및 처리는 서버(300)를 통하여 수행될 수 있다.
메모리(160)에는 제한적인 데이터가 저장될 수 있다. 예를 들어, 메모리(160)에는 사용자의 발화 음성으로부터 기동어의 존재를 판단하기 위한 기설정된 기동어가 저장될 수 있다. 한편, 기동어는 제조사에 의해 설정될 수 있다. 예를 들어, "에어스타"가 기동어로 설정될 수 있고, 사용자에 의해 설정 변경할 수 있다.
제어부(190)가 처리한 발화문의 처리결과는 출력부를 통해 출력할 수 있으며, 출력부는 디스플레이부(170) 및 오디오 출력부(180)를 포함할 수 있다. 디스플레이부(170)는 사용자의 발화 음성 중 발화문에 대응하는 처리 결과, 동작모드, 동작상태, 에러상태 등을 영상으로 표시할 수 있다. 선택적 실시 예로 디스플레이부(170)는 터치패드와 상호 레이어 구조를 이루어 터치스크린으로 구성될 수 있다. 이 경우에, 디스플레이부(170)는 출력 장치 이외에 사용자의 터치에 의한 정보의 입력이 가능한 입력 장치로도 사용될 수 있다.
디스플레이부(170)는 음성 인식 장치(100)의 운전 모드, 현재 상태, 설정 항목들을 여러 가지 시각적 이미지, 문자, 숫자, 기호로 표시할 수 있고, 아이콘과 같은 그래픽 이미지로 표시할 수 있다. 디스플레이부(170)는 음성 입력의 처리 과정 별로 대응하는 정보를 표시할 수 있다.
오디오 출력부(180)는 오디오 신호를 출력할 수 있는데, 제어부(190)의 제어에 따라 경고음, 동작모드, 동작상태, 에러상태 등의 알림 메시지, 사용자의 발화문에 대응하는 정보, 사용자의 발화문에 대응하는 처리 결과 등을 오디오로 출력할 수 있다. 오디오 출력부(180)는, 제어부(190)로부터의 전기 신호를 오디오 신호로 변환하여 출력할 수 있다. 이를 위해, 스피커(미도시) 등을 구비할 수 있다.
제어부(190)는 디스플레이부(170)를 제어하여 음성 인식 과정 및 전자 기기 제어 과정의 각 단계에 대응하여 시각적 정보를 제공할 수 있고, 오디오 출력부(180)를 제어하여 음성 인식 과정 및 전자 기기 제어 과정의 각 단계에 대응하여 청각적 정보를 제공할 수 있다. 본 실시 예에서 제어부(190)는 음성 처리부(150)가 분리한 발화문의 처리결과를 디스플레이부(170) 및/또는 오디오 출력부(180)를 통하여 출력할 수 있도록 제어할 수 있다.
제어부(190)는 일종의 중앙처리장치로서 메모리(160)에 탑재된 제어 소프트웨어를 구동하고, 디스플레이부(170) 및/또는 오디오 출력부(180)를 제어하여 발화문 처리 결과를 출력하는 등의 다양한 기능을 제공할 수 있다. 여기서, 제어부(190)는 프로세서(processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
본 실시 예에서 음성 인식 장치(100)는 수신하는 사용자의 발화 음성 신호에 대하여 딥러닝(Deep Learning) 등 머신 러닝(machine learning)을 수행할 수 있고, 메모리(160)는, 머신 러닝에 사용되는 데이터, 결과 데이터 등을 저장할 수 있다.
머신 러닝은 인공지능의 한 분야로, 컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야를 포함할 수 있다. 구체적으로 머신 러닝은, 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이라 할 수 있다. 머신 러닝의 알고리즘들은 엄격하게 정해진 정적인 프로그램 명령들을 수행하는 것이라기보다, 입력 데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식을 취할 수 있다. 용어 '머신 러닝'은 용어 '기계 학습'과 혼용되어 사용될 수 있다.
기계 학습에서 데이터를 어떻게 분류할 것인가를 놓고, 많은 기계 학습 알고리즘이 개발되었다. 의사결정나무(Decision Tree)나 베이지안 망(Bayesian network), 서포트벡터머신(SVM: support vector machine), 그리고 인공 신경망(ANN: Artificial Neural Network) 등을 대표적으로 포함할 수 있다.
의사결정나무는 의사결정규칙(Decision Rule)을 나무구조로 도표화하여 분류와 예측을 수행하는 분석방법을 포함할 수 있다.
베이지안 망은 다수의 변수들 사이의 확률적 관계(조건부독립성: conditional independence)를 그래프 구조로 표현하는 모델을 포함할 수 있다. 베이지안 망은 비지도 학습(unsupervised learning)을 통한 데이터마이닝(data mining)에 적합할 수 있다.
서포트벡터머신은 패턴인식과 자료분석을 위한 지도 학습(supervised learning)의 모델이며, 주로 분류와 회귀분석을 위해 사용할 수 있다.
한편, 음성 인식 장치(100)에는 인공신경망(artificial neural network)이 탑재될 수 있고, 수신되는 음성 입력 신호를 입력 데이터로 하는 머신 러닝 기반의 사용자 인식 및 사용자의 음성 인식을 수행할 수 있다.
인공신경망은 생물학적 뉴런의 동작원리와 뉴런간의 연결 관계를 모델링한 것으로 노드(node) 또는 처리 요소(processing element)라고 하는 다수의 뉴런들이 레이어(layer) 구조의 형태로 연결된 정보처리 시스템을 포함할 수 있다. 인공 신경망은 기계 학습에서 사용되는 모델로써, 기계학습과 인지과학에서 생물학의 신경망(동물의 중추신경계 중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘을 포함할 수 있다. 구체적으로 인공신경망은 시냅스(synapse)의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다.
용어 인공신경망은 용어 뉴럴 네트워크(Neural Network)와 혼용되어 사용될 수 있다.
인공신경망은 복수의 레이어(layer)를 포함할 수 있고, 레이어들 각각은 복수의 뉴런(neuron)을 포함할 수 있다. 또한 인공신경망은 뉴런과 뉴런을 연결하는 시냅스를 포함할 수 있다.
인공 신경망은 일반적으로 다음의 세가지 인자, 즉 (1) 다른 레이어의 뉴런들 사이의 연결 패턴 (2) 연결의 가중치를 갱신하는 학습 과정 (3) 이전 레이어로부터 수신되는 입력에 대한 가중 합으로부터 출력값을 생성하는 활성화 함수에 의해 정의될 수 있다.
제어부(190)는 인공 신경망, 예를 들어, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), MLP(Multilayer Perceptron), CNN(Convolutional Neural Network)와 같은 방식의 네트워크 모델들을 포함할 수 있으나, 이에 한정되지 않는다.
본 명세서에서 용어 '레이어'는 용어 '계층'과 혼용되어 사용될 수 있다.
인공신경망은 계층 수에 따라 단층 신경망(Single-Layer Neural Networks)과 다층 신경망(Multi-Layer Neural Networks)으로 구분될 수 있다.
일반적인 단층 신경망은, 입력층과 출력층으로 구성될 수 있다.
또한 일반적인 다층 신경망은 입력층(Input Layer)과 하나 이상의 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성될 수 있다.
입력층은 외부의 자료들을 받아들이는 층으로서, 입력층의 뉴런 수는 입력되는 변수의 수와 동일하며, 은닉층은 입력층과 출력층 사이에 위치하며 입력층으로부터 신호를 받아 특성을 추출하여 출력층으로 전달할 수 있다. 출력층은 은닉층으로부터 신호를 받고, 수신한 신호에 기반한 출력 값을 출력한다. 뉴런간의 입력신호는 각각의 연결강도(가중치)와 곱해진 후 합산되며 이 합이 뉴런의 임계치보다 크면 뉴런이 활성화되어 활성화 함수를 통하여 획득한 출력값을 출력할 수 있다.
한편 입력층과 출력 층 사이에 복수의 은닉층을 포함하는 심층 신경망은, 기계 학습 기술의 한 종류인 딥 러닝을 구현하는 대표적인 인공 신경망일 수 있다.
한편 용어 '딥 러닝'은 용어 '심층 학습'과 혼용되어 사용될 수 있다.
인공 신경망은 훈련 데이터(training data)를 이용하여 학습(training)될 수 있다. 여기서 학습이란, 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 인공 신경망의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 인공 신경망의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.
훈련 데이터에 의하여 학습된 인공 신경망은, 입력 데이터를 입력 데이터가 가지는 패턴에 따라 분류하거나 군집화 할 수 있다.
한편 훈련 데이터를 이용하여 학습된 인공 신경망을, 본 명세서에서는 학습 모델(a trained model)이라 명칭 할 수 있다.
다음은 제어부(190)가 수행하는 인공 신경망의 학습 방식에 대하여 설명한다.
인공 신경망의 학습 방식은 크게, 지도 학습, 비 지도 학습, 준 지도 학습(Semi-Supervised Learning), 강화 학습(Reinforcement Learning)으로 분류될 수 있다.
지도 학습은 훈련 데이터로부터 하나의 함수를 유추해내기 위한 기계 학습의 한 방법을 포함할 수 있다.
그리고 이렇게 유추되는 함수 중, 연속 적인 값을 출력하는 것을 회귀분석(Regression)이라 하고, 입력 벡터의 클래스(class)를 예측하여 출력하는 것을 분류(Classification)라고 할 수 있다.
지도 학습에서는, 훈련 데이터에 대한 레이블(label)이 주어진 상태에서 인공 신경망을 학습시킬 수 있다.
여기서 레이블이란, 훈련 데이터가 인공 신경망에 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과 값)을 의미할 수 있다.
본 명세서에서는 훈련 데이터가 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과값)을 레이블 또는 레이블링 데이터(labeling data)이라 명칭 할 수 있다.
또한 본 명세서에서는, 인공 신경망의 학습을 위하여 훈련 데이터에 레이블을 설정하는 것을, 훈련 데이터에 레이블링 데이터를 레이블링(labeling) 한다고 명칭할 수 있다.
이 경우 훈련 데이터와 훈련 데이터에 대응하는 레이블)은 하나의 트레이닝 셋(training set)을 구성하고, 인공 신경망에는 트레이닝 셋의 형태로 입력될 수 있다.
한편 훈련 데이터는 복수의 특징(feature)을 나타내고, 훈련 데이터에 레이블이 레이블링 된다는 것은 훈련 데이터가 나타내는 특징에 레이블이 달린다는 것을 의미할 수 있다. 이 경우 훈련 데이터는 입력 객체의 특징을 벡터 형태로 나타낼 수 있다.
인공 신경망은 훈련 데이터와 레이블링 데이터를 이용하여, 훈련 데이터와 레이블링 데이터의 연관 관계에 대한 함수를 유추할 수 있다. 그리고, 인공 신경망에서 유추된 함수에 대한 평가를 통해 인공 신경망의 파라미터가 결정(최적화)될 수 있다.
비 지도 학습은 기계 학습의 일종으로, 훈련 데이터에 대한 레이블이 주어지지 않을 수 있다.
구체적으로, 비 지도 학습은, 훈련 데이터 및 훈련 데이터에 대응하는 레이블의 연관 관계보다는, 훈련 데이터 자체에서 패턴을 찾아 분류하도록 인공 신경망을 학습시키는 학습 방법일 수 있다.
비 지도 학습의 예로는, 군집화 또는 독립 성분 분석(Independent Component Analysis)을 들 수 있다.
본 명세서에서 용어 '군집화'는 용어 '클러스터링'과 혼용되어 사용될 수 있다.
비지도 학습을 이용하는 인공 신경망의 일례로 생성적 적대 신경망(GAN: generative adversarial network), 오토 인코더(AE: autoencoder)를 들 수 있다.
생성적 적대 신경망이란, 생성기(generator)와 판별기(discriminator), 두 개의 서로 다른 인공지능이 경쟁하며 성능을 개선하는 머신 러닝 방법을 포함할 수 있다.
이 경우 생성기는 새로운 데이터를 창조하는 모형으로, 원본 데이터를 기반으로 새로운 데이터를 생성할 수 있다.
또한 판별기는 데이터의 패턴을 인식하는 모형으로, 입력된 데이터가 원본 데이터인지 또는 생성기에서 생성한 새로운 데이터인지 여부를 감별하는 역할을 수행할 수 있다.
그리고 생성기는 판별기를 속이지 못한 데이터를 입력 받아 학습하며, 판별기는 생성기로부터 속은 데이터를 입력 받아 학습할 수 있다. 이에 따라 생성기는 판별기를 최대한 잘 속이도록 진화할 수 있고, 판별기는 원본 데이터와 생성기에 의해 생성된 데이터를 잘 구분하도록 진화할 수 있다.
오토 인코더는 입력 자체를 출력으로 재현하는 것을 목표로 하는 신경망을 포함할 수 있다.
오토 인코더는 입력층, 적어도 하나의 은닉층 및 출력층을 포함할 수 있다.
이 경우 은닉 계층의 노드 수가 입력 계층의 노드 수보다 적으므로 데이터의 차원이 줄어들게 되며, 이에 따라 압축 또는 인코딩이 수행될 수 있다.
또한 은닉 계층에서 출력한 데이터는 출력 계층으로 들어갈 수 있다. 이 경우 출력 계층의 노드 수는 은닉 계층의 노드 수보다 많으므로, 데이터의 차원이 늘어나게 되며, 이에 따라 압축 해제 또는 디코딩이 수행될 수 있다.
한편 오토 인코더는 학습을 통해 뉴런의 연결 강도를 조절함으로써 입력 데이터가 은닉층 데이터로 표현될 수 있다. 은닉층에서는 입력층보다 적은 수의 뉴런으로 정보를 표현하는데 입력 데이터를 출력으로 재현할 수 있다는 것은, 은닉층이 입력 데이터로부터 숨은 패턴을 발견하여 표현했다는 것을 의미할 수 있다.
준 지도 학습은 기계 학습의 일종으로, 레이블이 주어진 훈련 데이터와 레이블이 주어지지 않은 훈련 데이터를 모두 사용하는 학습 방법을 의미할 수 있다.
준 지도 학습의 기법 중 하나로, 레이블이 주어지지 않은 훈련 데이터의 레이블을 추론한 후 추론된 라벨을 이용하여 학습을 수행하는 기법이 있으며, 이러한 기법은 레이블링에 소요되는 비용이 큰 경우에 유용하게 사용될 수 있다.
강화 학습은, 에이전트(Agent)가 매 순간 어떤 행동을 해야 좋을지 판단할 수 있는 환경이 주어진다면, 데이터 없이 경험으로 가장 좋을 길을 찾을 수 있다는 이론을 포함할 수 있다.
강화 학습은 주로 마르코프 결정 과정(MDP: Markov Decision Process)에 의하여 수행될 수 있다.
마르코프 결정 과정을 설명하면, 첫 번째로 에이전트가 다음 행동을 하기 위해 필요한 정보들이 구성된 환경이 주어지며, 두 번째로 그 환경에서 에이전트가 어떻게 행동할지 정의하고, 세 번째로 에이전트가 무엇을 잘하면 보상(reward)을 주고 무엇을 못하면 벌점(penalty)을 줄지 정의하며, 네 번째로 미래의 보상이 최고점에 이를 때까지 반복 경험하여 최적의 정책(policy)을 도출할 수 있다.
인공 신경망은 모델의 구성, 활성 함수(Activation Function), 손실 함수(Loss Function) 또는 비용 함수(Cost Function), 학습 알고리즘, 최적화 알고리즘 등에 의해 그 구조가 특정되며, 학습 전에 하이퍼파라미터(Hyperparameter)가 미리 설정되고, 이후에 학습을 통해 모델 파라미터(Model Parameter)가 설정되어 내용이 특정될 수 있다.
예컨대, 인공 신경망의 구조를 결정하는 요소에는 은닉층의 개수, 각 은닉층에 포함된 은닉 노드의 개수, 입력 특징 벡터(Input Feature Vector), 대상 특징 벡터(Target Feature Vector) 등이 포함될 수 있다.
하이퍼파라미터는 모델 파라미터의 초기값 등과 같이 학습을 위하여 초기에 설정하여야 하는 여러 파라미터들을 포함할 수 있다. 그리고, 모델 파라미터는 학습을 통하여 결정하고자 하는 여러 파라미터들을 포함할 수 있다.
예컨대, 하이퍼파라미터에는 노드 간 가중치 초기값, 노드 간 편향 초기값, 미니 배치(Mini-batch) 크기, 학습 반복 횟수, 학습률(Learning Rate) 등이 포함될 수 있다. 그리고, 모델 파라미터에는 노드 간 가중치, 노드 간 편향 등이 포함될 수 있다.
손실 함수는 인공 신경망의 학습 과정에서 최적의 모델 파라미터를 결정하기 위한 지표(기준)로 이용될 수 있다. 인공 신경망에서 학습은 손실 함수를 줄이기 위하여 모델 파라미터들을 조작하는 과정을 의미하며, 학습의 목적은 손실 함수를 최소화하는 모델 파라미터를 결정하는 것으로 볼 수 있다.
손실 함수는 주로 평균 제곱 오차(MSE: Mean Squared Error) 또는 교차 엔트로피 오차(CEE, Cross Entropy Error)를 사용할 수 있으며, 본 발명이 이에 한정되지는 않는다.
교차 엔트로피 오차는 정답 레이블이 원 핫 인코딩(one-hot encoding)된 경우에 사용될 수 있다. 원 핫 인코딩은 정답에 해당하는 뉴런에 대하여만 정답 레이블 값을 1로, 정답이 아닌 뉴런은 정답 레이블 값이 0으로 설정하는 인코딩 방법을 포함할 수 있다.
머신 러닝 또는 딥 러닝에서는 손실 함수를 최소화하기 위하여 학습 최적화 알고리즘을 이용할 수 있으며, 학습 최적화 알고리즘은 경사 하강법(GD: Gradient Descent), 확률적 경사 하강법(SGD: Stochastic Gradient Descent), 모멘텀(Momentum), NAG(Nesterov Accelerate Gradient), Adagrad, AdaDelta, RMSProp, Adam, Nadam 등을 포함할 수 있다.
경사 하강법은 현재 상태에서 손실 함수의 기울기를 고려하여 손실 함수값을 줄이는 방향으로 모델 파라미터를 조정하는 기법을 포함할 수 있다.
모델 파라미터를 조정하는 방향은 스텝(step) 방향, 조정하는 크기는 스텝 사이즈(size)라고 칭할 수 있다.
이때, 스텝 사이즈는 학습률을 의미할 수 있다.
경사 하강법은 손실 함수를 각 모델 파라미터들로 편미분하여 기울기를 획득하고, 모델 파라미터들을 획득한 기울기 방향으로 학습률만큼 변경하여 갱신할 수 있다.
확률적 경사 하강법은 학습 데이터를 미니 배치로 나누고, 각 미니 배치마다 경사 하강법을 수행하여 경사 하강의 빈도를 높인 기법을 포함할 수 있다.
Adagrad, AdaDelta 및 RMSProp는 SGD에서 스텝 사이즈를 조절하여 최적화 정확도를 높이는 기법을 포함할 수 있다. SGD에서 모멘텀 및 NAG는 스텝 방향을 조절하여 최적화 정확도를 높이는 기법을 포함할 수 있다. Adam은 모멘텀과 RMSProp를 조합하여 스텝 사이즈와 스텝 방향을 조절하여 최적화 정확도를 높이는 기법을 포함할 수 있다. Nadam은 NAG와 RMSProp를 조합하여 스텝 사이즈와 스텝 방향을 조절하여 최적화 정확도를 높이는 기법을 포함할 수 있다.
인공 신경망의 학습 속도와 정확도는 인공 신경망의 구조와 학습 최적화 알고리즘의 종류뿐만 아니라, 하이퍼파라미터에 크게 좌우되는 특징을 포함할 수 있다. 따라서, 좋은 학습 모델을 획득하기 위하여는 적당한 인공 신경망의 구조와 학습 알고리즘을 결정하는 것뿐만 아니라, 적당한 하이퍼파라미터를 설정하는 것이 중요할 수 있다.
통상적으로 하이퍼파라미터는 실험적으로 다양한 값으로 설정해가며 인공 신경망을 학습시켜보고, 학습 결과 안정적인 학습 속도와 정확도를 제공하는 최적의 값으로 설정할 수 있다.
도 4는 도 3의 음성 인식 장치 중 일 실시 예에 따른 음성 처리부의 개략적인 블록도이다. 이하의 설명에서 도 1 내지 도 3에 대한 설명과 중복되는 부분은 그 설명을 생략하기로 한다. 도 4를 참조하면, 일 실시 예에 따른 음성 처리부(150)는 버퍼(151), 가변부(152), 변환부(153), 추출부(154), 분석부(155), 판단부(156) 및 분리부(157)를 포함할 수 있다.
버퍼(151)는 음성 입력부(140)를 통하여 입력되는 사용자의 발화 음성을 버퍼링할 수 있다. 여기서, 사용자의 발화 음성은 예비 기동어와 음성 명령어로서의 발화문 사이에 멈춤구간이 존재하지 않는 일련의 발화 음성을 포함할 수 있다. 또한 사용자의 발화 음성은 예비 기동어와 음성 명령어로서의 발화문 사이에 멈춤구간이 존재하는 일련의 발화 음성을 포함할 수도 있다.
본 실시 예에서 버퍼(151)는 사용자의 발화 음성을 버퍼링할 수 있는 용량이 고정된 고정식 버퍼를 포함할 수 있다. 선택적 실시 예로 버퍼(151)는 사용자의 발화 음성을 버퍼링할 수 있는 용량이 가변되는 가변식 버퍼를 포함할 수 있다.
가변부(152)는 음성 입력부(140)를 통하여 발화 음성이 입력되는 상황에 대응하여 가변식으로 사용되는 버퍼(151)의 버퍼링 용량 또는 버퍼링 시간을 가변할 수 있다.
여기서, 발화 음성이 입력되는 상황이라 함은, 발화 음성이 입력되는 시간, 발화 음성이 입력되는 장소, 발화 음성의 높낮이, 발화 음성의 정확도, 발화 음성의 성별, 발화 음성의 속도 등을 포함할 수 있다. 발화 음성이 입력되는 상황 별로 기준값이 설정되어 있어서, 가변부(152)는 발화 음성이 입력되는 상황과 기준값을 비교하여 기준값과 오차범위 내에서 유사한 상황에 대해서는 버퍼링 용량 또는 버퍼링 시간을 현재 상태로 유지하고, 발화 음성이 입력되는 상황과 기준값을 비교하여 기준값을 초과하는 상황에 대해서는 버퍼링 용량 또는 버퍼링 시간을 현재 상태보다 더 적게하고, 발화 음성이 입력되는 상황과 기준값을 비교하여 기준값 미만인 상황에 대해서는 버퍼링 용량 또는 버퍼링 시간을 현재 상태보다 더 크게 가변할 수 있다. 여기서, 발화 음성이 입력되는 상황에 따라 기준값은 서로 다르기 때문에 발화 음성이 입력되는 상황과 기준값을 비교하여 기준값을 초과하는 상황에 대해서는 버퍼링 용량 또는 버퍼링 시간을 현재 상태보다 더 크게 가변하고, 발화 음성이 입력되는 상황과 기준값을 비교하여 기준값 미만인 상황에 대해서는 버퍼링 용량 또는 버퍼링 시간을 현재 상태보다 더 적게 가변할 수도 있다
변환부(153)는 버퍼링한 사용자의 발화 음성을 텍스트로 변환할 수 있다. 이하, 발화 음성은 텍스트로 변환된 발화 음성과 유사한 의미로 해석되거나 텍스트로 변환된 발화 음성을 포함하는 것으로 해석될 수 있다.
추출부(154)는 텍스트로 변환한 발화 음성을 메모리(160)에 저장되어 있는 기설정된 기동어와 비교하여, 텍스트로 변환한 발화 음성으로부터 기설정된 기동어와 대응되거나, 기설정된 기동어를 포함하는 예비 기동어를 추출할 수 있다.
분석부(155)는 텍스트로 변환한 발화 음성 내에서 예비 기동어의 역할을 분석할 수 있다. 분석부(155)는 발화 음성의 형태소 분석, 품사 분석, 구절 단위 분석 및 구문 분석 중 하나 이상을 수행하는 자연어 처리(NLP: natural language processing) 및/또는 개체명 인식(NER: named entity recognition)을 기반으로 하여 예비 기동어의 역할을 분석할 수 있다.
여기서, 자연어 처리란, 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미하며, 자연어 처리 방식으로는 전통적으로 규칙 기반 접근법, 통계기반 접근법이 있고, 이 둘의 강점을 통합한 하이브리드 방식이 있으며, 인공신경망 방식이 있는데, 최근 들어 부상하고 있는 딥러닝이 인공신경망 방식에 해당할 수 있다. 딥러닝을 이용한 방식은 입력 문장과 출력 문장을 하나의 쌍으로 두고, 가장 적합한 표현 및 번역 결과를 찾는 방식을 포함할 수 있다.
또한, 개체명 인식이란 텍스트로 변환한 발화 음성으로부터 사람 이름, 기관 이름, 장소 이름과 같은 고유 명사의 이름 또는 시간, 양(quantity), 금액, 퍼센티지와 같은 단위에 대한 표현이나 값을 의미하는 개체명을 인식하고 분류하는 정보 검색 분야의 주요 기술이다. 이러한 개체명 인식은 비구조화된 텍스트에서 구조화된 정보를 추출할 수 있다는 점에서, 자연언어처리 및 정보검색 분야에서의 연구적 측면에서는 물론, 웹의 발전에 따라 수요가 늘고 있는 빅데이터 분석에서도 매우 핵심적인 기술일 수 있다. 이러한 개체명 인식 방법은 사전 기반, 규칙 기반, 기계 학습을 통하여 개체명을 인식할 수 있다.
분석부(155)는 텍스트로 변환한 발화 음성의 자연어 처리 및/또는 개체명 인식을 통하여, 예비 기동어가 "아/야/(이)여/(이)시여" 등과 같은 호격 조사를 포함하여 호격으로 발화 하였는지, 또는 예비 기동어가 호격 조사를 포함하고 있지 않지만 호격으로 발화하였는지 분석할 수 있다.
선택적 실시 예로 분석부(155)는 텍스트로 변환한 발화 음성의 자연어 처리 및/또는 개체명 인식을 통하여, 예비 기동어를 포함하거나, 예비 기동어를 제외한 발화문에 포함된 적어도 하나 이상의 단어에 대한 연결관계 등을 고려하여, 발화문에 대한 문장의 종류를 분석할 수 있는데, 예를 들어, 문장의 종류는 평서문, 의문문, 명령문, 감탄문, 기원문 등을 포함할 수 있다. 분석부(155)가 분석한 예비 기동어의 역할이 모호한 경우, 발화문의 역할(문장의 종류)을 더 분석할 수 있다.
판단부(156)는 예비 기동어의 역할 분석 결과 및/또는 발화문의 역할 분석 결과를 이용하여 예비 기동어의 발화 의도를 판단할 수 있다. 여기서 예비 기동어의 발화 의도를 판단한다 함은, 예비 기동어를 발화 음성 내에서 실제 기동어로 발화한 것인지, 또는 예비 기동어를 발화 음성 내에서 인용어로 발화한 것인지 판단하는 것을 포함할 수 있다.
판단부(156)는 분석부(155)의 분석 결과, 예비 기동어가 텍스트로 변환한 발화 음성 내에서 호격 조사를 포함하는 경우, 예비 기동어의 발화 의도가 실제 기동어를 발화하기 위함으로 판단할 수 있다. 예를 들어, 텍스트로 변환한 발화 음성이 "에어컨을켜줘에어스타야"인 경우, 판단부(156)는 예비 기동어인 에어스타가 호격 조사를 포함하고 있으므로, 예비 기동어의 발화 의도가 실제 기동어를 발화하기 위함으로 판단할 수 있다.
일 실시 예로 판단부(156)는 분석부(155)의 분석결과, 예비 기동어가 텍스트로 변환한 발화 음성 내에서 호격 조사를 포함하고 있지 않지만, 예비 기동어가 호격의 의미를 포함하고 있는 경우, 예비 기동어의 발화 의도가 실제 기동어를 발화하기 위함으로 판단할 수 있다. 예를 들어, 텍스트로 변환한 발화 음성이 "에어스타에어컨을켜줘"인 경우, 판단부(156)는 예비 기동어인 에어스타가 호격 조사를 포함하고 있지 않지만 호격의 의미를 포함하고 있으므로, 예비 기동어의 발화 의도가 실제 기동어를 발화하기 위함으로 판단할 수 있다.
선택적 실시 예로 판단부(156)는 분석부(155)의 분석결과, 예비 기동어가 존재하고, 발화문의 문장 종류가 의문문 명령문인 경우 예비 기동어의 발화 의도가 실제 기동어를 발화하기 위함으로 판단할 수도 있다. 예를 들어 텍스트로 변환한 발화 음성이 "에어스타에어컨을켜줄래?"인 경우, 예비 기동어가 존재하고 발화문의 문장 종류가 의문문이므로, 예비 기동어의 발화 의도가 실제 기동어를 발화하기 위함으로 판단할 수 있다.
그러나 판단부(156)는 분석부(155)의 분석 결과, 예비 기동어가 텍스트로 변환한 발화 음성 내에서 호격으로 발화하지 않고 문장성분(예를 들어 주어, 목적어 등)으로 사용되거나, 예비 기동어가 의문문 또는 명령문이 아닌 문장의 종류를 포함하는 발화문과 함께 사용된 경우, 예비 기동어의 발화 의도가 인용어를 발화하기 위함으로 판단할 수 있다. 예를 들어, 텍스트로 변환한 발화 음성이 멈춤구간이 존재하지 않는"에어스타는편리한인공지능스피커이다"인 경우, 판단부(156)는 예비 기동어인 에어스타가 호격으로 발화하지 않고, 주격 조사와 함께 사용된 주어로 발화 하였으므로 예비 기동어의 발화 의도를 인용어를 발화하기 위함으로 판단할 수 있다. 더 나아가 이고, 판단부(156)는 발화문의 문장 종류가 의문문이나 명령문이 아닌 평서문이므로, 예비 기동어의 발화 의도를 인용어를 발화하기 위함으로 판단할 수 있다.
판단부(156)로부터 예비 기동어의 발화 의도 판단 결과를 수신한 제어부(190)는 예비 기동어를 실제 기동어로 발화한 경우, 음성 인식 기능을 활성화시키고 발화문을 실행 처리하도록 제어할 수 있다. 반면에 제어부(190)는 예비 기동어의 발화 의도 판단 결과, 예비 기동어를 인용어로 발화한 경우, 음성 인식 기능을 비활성화 상태로 유지 처리하도록 제어할 수 있다.
선택적 실시 예로 분리부(157)는 예비 기동어의 발화 의도 판단 결과, 예비 기동어를 실제 기동어로 발화한 경우, 텍스트로 변환한 발화 음성으로부터 실제 기동어를 제외한 발화문을 분리할 수 있다. 분리부(157)는 텍스트로 변환한 발화 음성으로부터 제어부(190)가 처리할 발화문을 분리할 수 있는데, 텍스트로 변환한 발화 음성으로부터 기동어의 이전에 존재하는 발화문을 분리하거나, 텍스트로 변환한 발화 음성으로부터 기동어의 이후에 존재하는 발화문을 분리하거나, 텍스트로 변환한 발화 음성으로부터 발화문의 중간에 존재하는 기동어를 제외하고 기동어 이전 발화 부분과 기동어 이후 발화 부분을 분리하거나, 텍스트로 변환한 발화 음성으로부터 둘 이상의 발화문 사이에 존재하는 기동어를 제외한 둘 이상의 발화문을 분리할 수 있다.
이후 제어부(190)는 분리부(157)가 분리한 발화 음성에 포함된 음성 명령어로서의 발화문 실행여부를 결정하고 처리하도록 제어할 수 있다. 제어부(190)는 분리부(157)가 분리한 기동어 이전 발화 부분과 기동어 이후 발화 부분을 합성하여 하나의 음성 명령어로서 처리한 결과를 출력하도록 제어할 수 있다.
제어부(190)는 발화문을 처리하고, 발화문의 처리결과를 디스플레이부(170) 및/또는 오디오 출력부(180)를 통하여 출력하도록 제어할 수 있다. 여기서 발화문의 처리결과는 음성 인식 장치(100)가 연결된 전자 기기를 발화문에 대응하여 제어한 결과를 포함할 수 있다.
선택적 실시 예로 제어부(190)는 둘 이상의 발화문에 대하여, 둘 이상의 발화문을 순서대로 처리한 처리결과를 순서대로 디스플레이부(170) 및/또는 오디오 출력부(180)를 통하여 출력하도록 제어하거나, 둘 이상의 발화문을 일괄적으로 처리한 후 해당 처리결과를 일괄적으로 디스플레이부(170) 및/또는 오디오 출력부(180)를 통하여 출력하도록 제어할 수 있다.
도 5는 도 3의 음성 인식 장치 중 버퍼에 버퍼링되는 사용자의 발화 음성 파형도이다. 이하의 설명에서 도 1 내지 도 4에 대한 설명과 중복되는 부분은 그 설명을 생략하기로 한다. 도 5를 참조하면, 도 5a는 기동어와 음성 명령어 사이에 멈춤구간이 기설정된 시간 이상 존재하는 사용자의 발화 음성 파형도를, 도 5b 내지 도 5e는 기동어와 음성 명령어 사이에 멈춤구간이 기설정된 시간 미만이면서 버퍼(151)에 버퍼링되는 사용자의 발화 음성 파형도를 도시하고 있다.
도 5a는 기동어와 음성 명령어로서의 발화문 사이의 멈춤구간이 기설정된 시간 이상인 사용자의 발화 음성으로, 기동어와 발화문의 경계가 명확하여, 기동어를 인식한 후 발화문을 처리할 수 있다.
도 5b 내지 도 5e는 기동어와 발화문 사이의 멈춤구간이 기설정된 시간 미만인 사용자의 발화 음성으로, 기동어와 발화문의 경계가 불명확하여 기동어 인식 및/또는 발화문 분석이 정확하게 수행되지 않는 문제점이 발생할 수 있다. 이를 해결하기 위해, 멈춤구간이 기설정된 시간 미만인 일정 구간의 발화 음성을 임시로 저장고, 발화 음성에 포함된 예비 기동어의 역할 분석을 통하여 예비 기동어의 발화 의도가 실제 기동어를 발화하기 위함으로 판단한 후, 발화문으로부터 기동어를 분리하여 음성 인식 기능을 활성화 하고, 버퍼링한 발화 음성 중 기동어를 제외한 발화문을 처리하고 그 처리결과를 출력할 수 있다.
도 5b를 참조하면, 기동어와 발화문 사이의 멈춤구간이 기설정된 시간 미만인 사용자의 발화 음성이 버퍼(151)에 버퍼링되며, 사용자의 발화 음성 중 기동어의 이후에 발화문이 존재하는 경우를 도시하고 있다. 예를 들어, 사용자의 발화 음성이"에어스타야에어컨을켜줘"일 수 있으며, 버퍼링한 사용자의 발화 음성에 예비 기동어(에어스타)가 존재하고, 예비 기동어의 분석 및 발화 의도 판단 결과, 예비 기동어를 실제 기동어로 발화하였으므로, 제어부(190)는 음성 인식 기능을 활성화시키고, 음성 처리부(150)는 버퍼링한 발화 음성 중 기동어를 제외한 발화문(에어컨을켜줘)을 분리하고, 제어부(190)는 발화문의 처리결과(에어컨을 켠 상태)를 출력하도록 제어할 수 있다.
도 5c를 참조하면, 기동어와 발화문 사이의 멈춤구간이 기설정된 시간 미만인 사용자의 발화 음성이 버퍼(151)에 버퍼링되며, 사용자의 발화 음성 중 기동어의 이전에 발화문이 존재하는 경우를 도시하고 있다. 예를 들어, 사용자의 발화 음성이"에어컨을켜줘에어스타야"일 수 있으며, 버퍼링한 사용자의 발화 음성에 예비 기동어(에어스타)가 존재하고, 예비 기동어의 분석 및 발화 의도 판단 결과, 예비 기동어를 실제 기동어로 발화하였으므로, 제어부(190)는 음성 인식 기능을 활성화시키고, 음성 처리부(150)는 버퍼링한 발화 음성 중 기동어를 제외한 발화문(에어컨을켜줘)을 분리하고, 제어부(190)는 발화문의 처리결과(에어컨을 켠 상태)를 출력하도록 제어할 수 있다.
도 5d를 참조하면, 기동어와 발화문 사이의 멈춤구간이 기설정된 시간 미만인 사용자의 발화 음성이 버퍼(151)에 버퍼링되며, 사용자의 발화 음성 중 발화문 중간 즉, 기동어 이전 발화 부분과 기동어 이후의 발화 부분에 기동어가 존재하는 경우를 도시하고 있다. 예를 들어, 사용자의 발화 음성이"에어컨을에어스타야켜줘"일 수 있으며, 버퍼링한 사용자의 발화 음성에 예비 기동어(에어스타)가 존재하고, 예비 기동어의 분석 및 발화 의도 판단 결과, 예비 기동어를 실제 기동어로 발화하였으므로, 제어부(190)는 음성 인식 기능을 활성화시키고, 음성 처리부(150)는 버퍼링한 발화 음성 중 기동어를 제외한 발화문(에어컨을켜줘)을 분리하고, 제어부(190)는 기동어 이전 발화 부분과 기동어의 이후 발화 부분을 합성하여 하나의 음성 명령어로서 처리하고 발화문의 처리결과(에어컨을 켠 상태)를 출력하도록 제어할 수 있다.
도 5e를 참조하면, 기동어와 발화문 사이의 멈춤구간이 기설정된 시간 미만인 사용자의 발화 음성이 버퍼(151)에 버퍼링되며, 사용자의 발화 음성 중 두 개의 발화문(발화문1: 기동어 이전의 첫 번째 발화문 및 발화문2: 기동어 이후의 두 번째 발화문) 사이에 기동어가 존재하는 경우를 도시하고 있다. 예를 들어, 사용자의 발화 음성이"에어컨을켜줘에어스타야그리고공기청정모드로동작해"일 수 있으며, 버퍼링한 사용자의 발화 음성에 예비 기동어(에어스타)가 존재하고, 예비 기동어의 분석 및 발화 의도 판단 결과, 예비 기동어를 실제 기동어로 발화하였으므로, 제어부(190)는 음성 인식 기능을 활성화시키고, 음성 처리부(150)는 버퍼링한 발화 음성 중 기동어를 제외한 발화문1(에어컨을켜줘) 및 발화문2(공기청정모드로동작해)를 분리하고, 제어부(190)는 발화문의 처리결과(에어컨을 켜고 공기 청정 모드로 동작하는 상태)를 출력하도록 제어할 수 있다.
도 6은 본 발명의 일 실시 예에 따른 음성 인식 방법의 흐름도이다. 이하의 설명에서 도 1 내지 도 5에 대한 설명과 중복되는 부분은 그 설명을 생략하기로 한다.
도 6을 참조하면, S610단계에서, 음성 인식 장치(100)는 일련의 발화 음성을 버퍼링한다. 여기서, 발화 음성은 멈춤구간이 존재하지 않는 일련의 발화 음성을 포함할 수 있다. 또한, 버퍼링한 사용자의 발화 음성을 텍스트로 변환하는 단계를 더 포함할 수 있으며, 이하, 발화 음성은 텍스트로 변환된 발화 음성과 유사한 의미로 해석되거나 텍스트로 변환된 발화 음성을 포함하는 것으로 해석될 수 있다.
S620단계에서, 음성 인식 장치(100)는 발화 음성을 기설정된 기동어와 비교하여, 텍스트로 변환한 발화 음성으로부터 기설정된 기동어와 대응되거나, 기설정된 기동어를 포함하는 예비 기동어를 추출한다.
S630단계에서, 음성 인식 장치(100)는 발화 음성의 형태소 분석, 품사 분석, 구절 단위 분석 및 구문 분석 중 하나 이상을 수행하는 자연어 처리(NLP: natural language processing) 및/또는 개체명 인식(NER: named entity recognition)을 기반으로 하여 예비 기동어의 역할을 분석한다. 여기서, 음성 인식 장치(100)는 텍스트로 변환한 발화 음성의 자연어 처리 및/또는 개체명 인식을 통하여, 예비 기동어가 "아/야/(이)여/(이)시여" 등과 같은 호격 조사를 포함하여 호격으로 발화 하였는지, 또는 예비 기동어가 호격 조사를 포함하고 있지 않지만 호격으로 발화하였는지 분석할 수 있다. 선택적 실시 음성 인식 장치(100)는 텍스트로 변환한 발화 음성의 자연어 처리 및/또는 개체명 인식을 통하여, 예비 기동어를 포함하거나, 예비 기동어를 제외한 발화문에 포함된 적어도 하나 이상의 단어에 대한 연결관계 등을 고려하여, 발화문에 대한 문장의 종류를 분석할 수 있는데, 예를 들어, 문장의 종류는 평서문, 의문문, 명령문, 감탄문, 기원문 등을 포함할 수 있다.
S640단계에서, 음성 인식 장치(100)는 예비 기동어의 역할 분석 결과를 이용하여 예비 기동어의 발화 의도를 판단한다. 여기서 예비 기동어의 발화 의도를 판단한다 함은, 예비 기동어를 발화 음성 내에서 실제 기동어로 발화한 것인지, 또는 예비 기동어를 발화 음성 내에서 인용어로 발화한 것인지 판단하는 것을 포함할 수 있다. 음성 인식 장치(100)는 예비 기동어가 텍스트로 변환한 발화 음성 내에서 호격 조사를 포함하는 경우, 예비 기동어의 발화 의도가 실제 기동어를 발화하기 위함으로 판단할 수 있다. 일 실시 예로 음성 인식 장치(100)는 예비 기동어가 텍스트로 변환한 발화 음성 내에서 호격 조사를 포함하고 있지 않지만, 예비 기동어가 호격의 의미를 포함하고 있는 경우, 예비 기동어의 발화 의도가 실제 기동어를 발화하기 위함으로 판단할 수 있다. 선택적 실시 예로 음성 인식 장치(100)는 예비 기동어가 존재하고, 발화문의 문장 종류가 의문문 명령문인 경우 예비 기동어의 발화 의도가 실제 기동어를 발화하기 위함으로 판단할 수도 있다. 그러나 음성 인식 장치(100)는 예비 기동어가 텍스트로 변환한 발화 음성 내에서 호격으로 발화하지 않고 문장성분(예를 들어 주어, 목적어 등)으로 사용되거나, 예비 기동어가 의문문 또는 명령문이 아닌 문장의 종류를 포함하는 발화문과 함께 사용된 경우, 예비 기동어의 발화 의도가 인용어를 발화하기 위함으로 판단할 수 있다.
S650단계 및 S660단계에서, 음성 인식 장치(100)는 예비 기동어를 실제 기동어로 발화하였다고 판단한 경우, 음성 인식 기능을 활성화시키고 발화문을 실행처리한다.
S670단계 및 S680단계에서, 음성 인식 장치(100)는 예비 기동어를 인용어로 발화하였다고 판단한 경우, 음성 인식 기능을 비활성화 상태로 유지 처리한다.
이상 설명된 본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.
본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
100: 음성 인식 장치 110: 통신부
120: 조작부 130: 센서부
140: 음성 입력부 150: 음성 처리부
160: 메모리 170: 디스플레이부
180: 오디오 출력부 190: 제어부
200: 사용자 단말기 300: 서버
400: 네트워크

Claims (19)

  1. 음성 인식 장치에 의한 음성 인식 방법으로서,
    일련의 발화 음성을 버퍼링하는 단계;
    버퍼링한 발화 음성을 기설정된 기동어와 비교하여 상기 발화 음성으로부터 상기 기설정된 기동어와 대응되는 예비 기동어를 추출하는 단계;
    상기 발화 음성 내에서 상기 예비 기동어의 역할을 분석하는 단계;
    상기 예비 기동어의 역할 분석 결과를 이용하여 상기 예비 기동어의 발화 의도를 판단하는 단계; 및
    상기 예비 기동어의 발화 의도 판단 결과에 대응하여 상기 발화 음성에 포함된 음성 명령어로서의 발화문 실행여부를 결정하고 처리하는 단계를 포함하고,
    상기 버퍼링하는 단계는,
    상기 발화 음성이 입력되는 상황에 대응하여, 버퍼링하는 용량 또는 시간을 가변하여 버퍼링하는 단계를 더 포함하는,
    음성 인식 방법.
  2. 제 1 항에 있어서,
    상기 버퍼링하는 단계는,
    발화 시에 화자의 발화가 멈추는 구간을 포함하는 멈춤(pause)구간이 기설정된 시간 미만인 일련의 발화 음성을 버퍼링하는 단계를 포함하는,
    음성 인식 방법.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 분석하는 단계는,
    상기 발화 음성의 형태소 분석, 품사 분석, 구절 단위 분석 및 구문 분석 중 하나 이상을 수행하는 자연어 처리 또는 개체명 인식을 기반으로 하여 상기 예비 기동어의 역할을 분석하는 단계를 포함하는,
    음성 인식 방법.
  5. 제 1 항에 있어서,
    상기 판단하는 단계는,
    상기 예비 기동어의 역할 분석 결과를 이용하여, 상기 예비 기동어를 상기 발화 음성 내에서 실제 기동어로 발화한 것인지, 또는 상기 예비 기동어를 상기 발화 음성 내에서 인용어로 발화한 것인지 판단하는 단계를 포함하는,
    음성 인식 방법.
  6. 제 5 항에 있어서,
    상기 처리하는 단계는,
    상기 예비 기동어를 상기 실제 기동어로 발화한 경우 음성 인식 기능을 활성화시키고, 상기 발화문을 실행 처리하는 단계를 포함하는,
    음성 인식 방법.
  7. 제 5 항에 있어서,
    상기 처리하는 단계는,
    상기 예비 기동어를 상기 인용어로 발화한 경우 음성 인식 기능의 비활성화 상태를 유지 처리하는 단계를 더 포함하는,
    음성 인식 방법.
  8. 제 1 항에 있어서,
    상기 예비 기동어의 발화 의도 판단 결과, 상기 예비 기동어를 실제 기동어로 발화한 경우, 상기 발화 음성으로부터 상기 실제 기동어를 제외한 상기 발화문을 분리하는 단계를 더 포함하는,
    음성 인식 방법.
  9. 제 8 항에 있어서,
    상기 분리하는 단계는,
    상기 발화 음성으로부터 상기 실제 기동어의 이전에 존재하는 상기 발화문을 분리하는 단계;
    상기 발화 음성으로부터 상기 실제 기동어의 이후에 존재하는 상기 발화문을 분리하는 단계;
    상기 발화 음성으로부터 상기 발화문의 중간에 존재하는 상기 기동어를 제외하고 기동어 이전 발화 부분과 기동어 이후 발화 부분을 분리하는 단계; 및
    상기 발화 음성으로부터 둘 이상의 발화문 사이에 존재하는 상기 실제 기동어를 제외한 상기 둘 이상의 발화문을 분리하는 단계 중 적어도 하나를 포함하는,
    음성 인식 방법.
  10. 컴퓨터를 이용하여 제 1 항, 제 2 항 및 제 4 항 내지 제 9 항의 방법 중 어느 한 항의 방법을 실행시키기 위하여 상기 컴퓨터로 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
  11. 입력되는 일련의 발화 음성을 인식하는 장치로서,
    상기 일련의 발화 음성을 버퍼링하는 버퍼;
    버퍼링한 발화 음성을 기설정된 기동어와 비교하여 상기 발화 음성으로부터 상기 기설정된 기동어와 대응되는 예비 기동어를 추출하는 추출부;
    상기 발화 음성 내에서 상기 예비 기동어의 역할을 분석하는 분석부;
    상기 예비 기동어의 역할 분석 결과를 이용하여 상기 예비 기동어의 발화 의도를 판단하는 판단부;
    상기 예비 기동어의 발화 의도 판단 결과에 대응하여 상기 발화 음성에 포함된 음성 명령어로서의 발화문 실행여부를 결정하고 처리를 제어하는 제어부; 및
    상기 발화 음성이 입력되는 상황에 대응하여, 상기 버퍼가 버퍼링하는 용량 또는 시간을 가변하는 가변부를 포함하는,
    음성 인식 장치.
  12. 제 11 항에 있어서,
    상기 버퍼는,
    발화 시에 화자의 발화가 멈추는 구간을 포함하는 멈춤(pause)구간이 기설정된 시간 미만인 일련의 발화 음성을 버퍼링하는,
    음성 인식 장치.
  13. 삭제
  14. 제 11 항에 있어서,
    상기 분석부는,
    상기 발화 음성의 형태소 분석, 품사 분석, 구절 단위 분석 및 구문 분석 중 하나 이상을 수행하는 자연어 처리 또는 개체명 인식을 기반으로 하여 상기 예비 기동어의 역할을 분석하는,
    음성 인식 장치.
  15. 제 11 항에 있어서,
    상기 판단부는,
    상기 예비 기동어의 역할 분석 결과를 이용하여, 상기 예비 기동어를 상기 발화 음성 내에서 실제 기동어로 발화한 것인지, 또는 상기 예비 기동어를 상기 발화 음성 내에서 인용어로 발화한 것인지 판단하는,
    음성 인식 장치.
  16. 제 15 항에 있어서,
    상기 제어부는,
    상기 예비 기동어를 상기 실제 기동어로 발화한 경우 음성 인식 기능을 활성화시키고, 상기 발화문을 실행 처리를 제어하는,
    음성 인식 장치.
  17. 제 15 항에 있어서,
    상기 제어부는,
    상기 예비 기동어를 상기 인용어로 발화한 경우 음성 인식 기능의 비활성화 상태를 유지 처리를 제어하는,
    음성 인식 장치.
  18. 제 11항에 있어서,
    상기 예비 기동어의 발화 의도 판단 결과, 상기 예비 기동어를 실제 기동어로 발화한 경우, 상기 발화 음성으로부터 상기 실제 기동어를 제외한 상기 발화문을 분리하는 분리부를 더 포함하는,
    음성 인식 장치.
  19. 제 18항에 있어서,
    상기 분리부는,
    상기 발화 음성으로부터 상기 실제 기동어의 이전에 존재하는 상기 발화문을 분리하거나, 상기 발화 음성으로부터 상기 실제 기동어의 이후에 존재하는 상기 발화문을 분리하거나, 상기 발화 음성으로부터 상기 발화문의 중간에 존재하는 상기 기동어를 제외하고 기동어 이전 발화 부분과 기동어 이후 발화 부분을 분리하거나, 상기 발화 음성으로부터 둘 이상의 발화문 사이에 존재하는 상기 실제 기동어를 제외한 상기 둘 이상의 발화문을 분리하는,
    음성 인식 장치.
KR1020190059389A 2019-05-21 2019-05-21 음성 인식 방법 및 음성 인식 장치 KR102225001B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190059389A KR102225001B1 (ko) 2019-05-21 2019-05-21 음성 인식 방법 및 음성 인식 장치
US16/571,018 US11183190B2 (en) 2019-05-21 2019-09-13 Method and apparatus for recognizing a voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190059389A KR102225001B1 (ko) 2019-05-21 2019-05-21 음성 인식 방법 및 음성 인식 장치

Publications (2)

Publication Number Publication Date
KR20190065200A KR20190065200A (ko) 2019-06-11
KR102225001B1 true KR102225001B1 (ko) 2021-03-08

Family

ID=66847310

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190059389A KR102225001B1 (ko) 2019-05-21 2019-05-21 음성 인식 방법 및 음성 인식 장치

Country Status (2)

Country Link
US (1) US11183190B2 (ko)
KR (1) KR102225001B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024106913A1 (ko) * 2022-11-15 2024-05-23 삼성전자 주식회사 발화를 처리하기 위한 전자 장치, 그 동작 방법 및 저장 매체

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11705114B1 (en) * 2019-08-08 2023-07-18 State Farm Mutual Automobile Insurance Company Systems and methods for parsing multiple intents in natural language speech
EP4027334A4 (en) * 2019-09-06 2023-08-16 LG Electronics Inc. INDICATOR
KR102632388B1 (ko) 2019-11-25 2024-02-02 삼성전자주식회사 전자장치 및 그 제어방법
DE102019133684A1 (de) * 2019-12-10 2021-06-10 Sennheiser Electronic Gmbh & Co. Kg Vorrichtung zur Konfiguration einer Drahtlos-Funkverbindung und Verfahren zur Konfiguration einer Drahtlos-Funkverbindung
KR20210079004A (ko) 2019-12-19 2021-06-29 삼성전자주식회사 컴퓨팅 장치 및 그 동작 방법
CN111210817B (zh) * 2019-12-30 2023-06-13 深圳市优必选科技股份有限公司 数据处理方法及装置
KR20210125356A (ko) 2020-04-08 2021-10-18 삼성전자주식회사 전자 장치 및 그 동작 방법
CN111768783B (zh) 2020-06-30 2024-04-02 北京百度网讯科技有限公司 语音交互控制方法、装置、电子设备、存储介质和系统
TWI765485B (zh) * 2020-12-21 2022-05-21 矽統科技股份有限公司 外接式語音喚醒裝置及其控制方法
US20220284883A1 (en) * 2021-03-05 2022-09-08 Comcast Cable Communications, Llc Keyword Detection
US11798549B2 (en) * 2021-03-19 2023-10-24 Mitel Networks Corporation Generating action items during a conferencing session
CN115964115B (zh) * 2023-03-17 2023-06-02 中科航迈数控软件(深圳)有限公司 基于预训练强化学习的数控机床交互方法及相关设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018194844A (ja) 2017-05-19 2018-12-06 ネイバー コーポレーションNAVER Corporation 音声制御装置、音声制御装置の動作方法、コンピュータプログラム及び記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US9542956B1 (en) * 2012-01-09 2017-01-10 Interactive Voice, Inc. Systems and methods for responding to human spoken audio
DE102013001219B4 (de) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
KR101759009B1 (ko) * 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
KR102299330B1 (ko) 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
US10304440B1 (en) * 2015-07-10 2019-05-28 Amazon Technologies, Inc. Keyword spotting using multi-task configuration
KR102409303B1 (ko) * 2016-12-15 2022-06-15 삼성전자주식회사 음성 인식 방법 및 장치
US10204624B1 (en) * 2017-08-14 2019-02-12 Lenovo (Singapore) Pte. Ltd. False positive wake word
US10152966B1 (en) * 2017-10-31 2018-12-11 Comcast Cable Communications, Llc Preventing unwanted activation of a hands free device
US10649727B1 (en) * 2018-05-14 2020-05-12 Amazon Technologies, Inc. Wake word detection configuration
US10468026B1 (en) * 2018-08-17 2019-11-05 Century Interactive Company, LLC Dynamic protection of personal information in audio recordings
US11062703B2 (en) * 2018-08-21 2021-07-13 Intel Corporation Automatic speech recognition with filler model processing
KR102523982B1 (ko) * 2018-08-21 2023-04-20 구글 엘엘씨 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
US11587563B2 (en) * 2019-03-01 2023-02-21 Magic Leap, Inc. Determining input for speech processing engine

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018194844A (ja) 2017-05-19 2018-12-06 ネイバー コーポレーションNAVER Corporation 音声制御装置、音声制御装置の動作方法、コンピュータプログラム及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024106913A1 (ko) * 2022-11-15 2024-05-23 삼성전자 주식회사 발화를 처리하기 위한 전자 장치, 그 동작 방법 및 저장 매체

Also Published As

Publication number Publication date
US11183190B2 (en) 2021-11-23
US20200013407A1 (en) 2020-01-09
KR20190065200A (ko) 2019-06-11

Similar Documents

Publication Publication Date Title
KR102225001B1 (ko) 음성 인식 방법 및 음성 인식 장치
KR102137151B1 (ko) 노이즈 캔슬링 장치 및 그 방법
US11449045B2 (en) Artificial intelligence device and method of diagnosing malfunction using operation log and artificial intelligence model
KR102246936B1 (ko) 음성 인식 방법 및 음성 인식 장치
US11270694B2 (en) Artificial intelligence apparatus and method for recognizing speech by correcting misrecognized word
US11189284B2 (en) Apparatus for communicating with voice recognition device, apparatus with voice recognition capability and controlling method thereof
KR102224994B1 (ko) 음성 인식 방법 및 음성 인식 장치
KR20190123362A (ko) 인공지능을 이용한 음성 대화 분석 방법 및 장치
US11776544B2 (en) Artificial intelligence apparatus for recognizing speech of user and method for the same
KR20190094315A (ko) 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법
KR20190094314A (ko) 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법
KR20190114932A (ko) 액션 아이템 제안 장치 및 방법
KR102321855B1 (ko) 음성으로 상호작용하는 인공 지능 장치 및 그 방법
US20180165581A1 (en) Electronic apparatus, method of providing guide and non-transitory computer readable recording medium
KR102365433B1 (ko) 교차 어텐션 모델 기반 감정 인식 방법 및 장치
KR102429583B1 (ko) 전자 장치, 그의 가이드 제공 방법 및 비일시적 컴퓨터 판독가능 기록매체
US20210287128A1 (en) Artificial intelligence server
KR102531654B1 (ko) 음성 입력 인증 디바이스 및 그 방법
US11468886B2 (en) Artificial intelligence apparatus for performing voice control using voice extraction filter and method for the same
KR20210050747A (ko) 음성 처리 방법 및 음성 처리 장치
KR20190114938A (ko) 다국어 커뮤니케이션을 수행하기 위한 장치 및 방법
US11531881B2 (en) Artificial intelligence apparatus for controlling auto stop system based on driving information and method for the same
US20200043476A1 (en) Electronic device, control method therefor, and non-transitory computer readable recording medium
US20210174796A1 (en) Method and apparatus for controlling device
US11373656B2 (en) Speech processing method and apparatus therefor

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant