KR101622111B1 - 대화 시스템 및 그의 대화 방법 - Google Patents

대화 시스템 및 그의 대화 방법 Download PDF

Info

Publication number
KR101622111B1
KR101622111B1 KR1020090122975A KR20090122975A KR101622111B1 KR 101622111 B1 KR101622111 B1 KR 101622111B1 KR 1020090122975 A KR1020090122975 A KR 1020090122975A KR 20090122975 A KR20090122975 A KR 20090122975A KR 101622111 B1 KR101622111 B1 KR 101622111B1
Authority
KR
South Korea
Prior art keywords
information
domain
user
fitness
case
Prior art date
Application number
KR1020090122975A
Other languages
English (en)
Other versions
KR20110066357A (ko
Inventor
장준원
한우섭
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020090122975A priority Critical patent/KR101622111B1/ko
Priority to US12/964,866 priority patent/US8719015B2/en
Publication of KR20110066357A publication Critical patent/KR20110066357A/ko
Priority to US14/243,477 priority patent/US9305569B2/en
Application granted granted Critical
Publication of KR101622111B1 publication Critical patent/KR101622111B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 사용자의 음성과 비음성 정보가 입력되는 멀티 모달 입력부; 적어도 하나의 음성 및 비음성 정보가 조합되어 미리 저장된 복수 시추에이션 케이스를 가지고, 멀티 모달 입력부로부터 입력된 음성 및 비음성 정보를 기초로 미리 저장된 복수 시추에이션 케이스의 적합도를 각각 산출하여 현재 도메인을 결정하는 도메인 결정부; 현재 도메인에 대응하는 응답을 선택하는 대화 관리부; 응답을 출력하는 멀티 모달 출력부를 포함한다.
본 발명은 도메인 결정에 반영된 복수 정보 조합으로 이루어진 시추에이션 케이스와 현재 정보, 음성 인식 결과를 이용하여 도메인을 결정함으로써 도메인 결정 정확도를 높일 수 있어, 이에 따라 사용자와의 자연스러운 대화를 수행할 수 있다. 또한 도메인 결정 정확도를 상승시켜 사용자의 발화 의도를 파악하기 위한 검색 스페이스를 줄이기 때문에 사용자의 의도를 보다 정확하게 파악할 수 있어 사용자 발화 의도에 대응하는 적절한 서비스를 수행할 수 있고, 이에 따라 사용자의 서비스 만족도를 높일 수 있다.

Description

대화 시스템 및 그의 대화 방법{Dialog system and conversational method thereof}
본 발명은 사용자의 다양한 자연어 질의에 대해 지능적으로 응답하거나 대화를 재요청하여 사용자와의 대화 품질을 높이기 위한 대화 시스템 및 그의 대화 방법에 관한 것이다.
대화 시스템은 사용자와의 대화를 수행하고 나아가 사용자로부터 지시된 명령을 수행하는 시스템으로, 대화 시스템은 네트워크 기반의 서버 및 단말기, 그리고 로봇 등에 마련되어 있다.
대화 시스템은 사용자와의 대화 수행이나 사용자의 명령을 입력받기 위한 인터페이스로 키보드와 마우스를 가진다. 이러한 인터페이스는 사용자가 키보드와 마우스가 위치된 곳으로 이동한 후 키보드와 마우스와의 접촉을 통해 대화 수행이나 명령 입력을 수행해야 하기 때문에 사용자의 이용에 불편함이 있었고 또한 대화 시스템이 로봇인 경우에는 로봇의 이동성으로 인해 로봇에 장착하기 어려웠다. 이에 따라 대화 시스템은 사용자와의 인터페이스로 비접촉식 인터페이스인 음성 인식 인터페이스의 이용이 부각되고 있다.
여기서 음성 인식은 사용자 발화 시 음성의 특징을 추출하고, 추출된 특징에 패턴인식 알고리즘을 적용시킨 후 사용자가 어떤 음소열 또는 단어열을 발화시켜 발생된 음성인가를 역추적하여 사용자의 말을 알아듣고, 사용자가 원하는 정보를 말로 전해주는 사용자와의 인터페이스이다.
이러한 대화 시스템의 음성 인식은 사용자의 발화에 대한 음성 인식 성능이 높지 않기 때문에 대화 시스템과 사용자와의 자연스러운 대화 진행이 어렵다. 이에 따라 사용자와의 자연스러운 대화 진행을 위해 다양한 방법들이 제안되고 있는데, 그 중 하나가 도메인 기반의 음성 인식 방법이다.
여기서 도메인 기반의 음성 인식은 날씨, 관광 등과 같은 주제(topic) 별로 다수의 도메인을 만들고 각 도메인에 대하여 특화된 언어모델을 생성한 다음, 이를 바탕으로 사용자의 발화에 대하여 1차 음성인식을 수행하여 핵심어를 인식하고, 인식된 핵심어에 해당하는 도메인에 대하여 2차 음성인식을 수행하여 사용자의 발화 의도를 파악하여 사용자와의 자연스러운 대화가 진행되도록 한다.
이때, 1차 음성인식과정에서 오류가 생기는 경우 오류를 복구할 별도의 기회없이 잘못 인식된 핵심어로 추출되는 도메인의 언어모델을 이용하여 2차 음성인식과정이 진행됨으로써 잘못된 인식결과를 도출해 내는 등, 음성인식의 정확도가 낮아지는 문제가 있다.
또한, 사용자 발화에 대응한 발화문이 적어도 두 개의 도메인에 해당하는 핵심어를 포함할 경우에는 다수의 도메인 중 하나의 도메인을 식별하는 것이 어려운 문제가 있다.
이와 같이 언어모델(LM: Language Model)을 이용한 도메인 기반의 음성 인식은 음성 인식된 결과만을 이용하여 도메인을 결정하기 때문에 도메인 검색 스페이스가 넓고 음성인식의 오류가 있는 경우 음성 인식의 실패 가능성이 높아 사용자의 발화 의도 파악 실패 가능성이 높으며, 음성 인식이 잘 된 경우에도 음성인식 결과가 복수 도메인에서 공통적으로 사용된 경우 도메인 결정이 쉽지 않은 문제가 있다.
일 측면에 따르면 대화 시스템은 사용자의 음성과 비음성 정보가 입력되는 멀티 모달 입력부; 적어도 하나의 음성 및 비음성 정보가 조합되어 미리 저장된 복수 시추에이션 케이스를 가지고, 멀티 모달 입력부로부터 입력된 음성 및 비음성 정보를 기초로 미리 저장된 복수 시추에이션 케이스의 적합도를 각각 산출하여 현재 도메인을 결정하는 도메인 결정부; 현재 도메인에 대응하는 응답을 선택하는 대화 관리부; 응답을 출력하는 멀티 모달 출력부를 포함한다.
도메인 결정부는, 멀티 모달 입력부로부터 입력된 음성 및 비음성 정보를 조합하여 시추에이션 케이스를 생성하고, 생성된 시추에이션 케이스와 미리 저장된 복수 시추에이션 케이스를 각각 비교하여 적합도를 산출한다.
도메인 결정부는, 출력된 응답에 대응하는 사용자 응답을 입력받아 사용자의 만족도를 판단하고, 생성된 시추에이션 케이스에 만족도를 반영하여 업데이트하여 저장한다.
복수 시추에이션 케이스는 학습을 통해 생성되어 저장된다.
복수 시추에이션 케이스는, 사용자의 성향, 습관, 일정, 사용자의 상태 정보인 표정, 옷차림, 제스처 중 적어도 하나의 비음성 정보와 음성 정보가 조합되어 이루어지고, 조합에 대응하는 도메인이 설정되어 있다.
멀티 모달 입력부는, 사용자의 상태 정보인 표정, 옷차림, 제스처 정보 중 적어도 하나의 비음성 정보를 영상으로 입력받는다.
도메인 결정부는, 미리 저장된 복수 시추에이션 케이스의 적합도 중 적합도가 가장 큰 시추에이션 케이스를 선택하여 현재 도메인으로 결정한다.
복수 도메인이 저장된 도메인 데이터베이스부를 더 포함하고, 도메인 결정부는, 선택된 시추에이션 케이스의 적합도를 이용하여 각 도메인의 적합도를 산출하고, 적합도가 가장 큰 도메인을 현재 도메인으로 결정한다.
멀티 모달 입력부는, 사용자가 거주하는 실내의 환경 정보를 감지하는 환경 감지부를 더 포함하고, 도메인 결정부는, 환경 정보를 이용하여 도메인을 결정한다.
사용자의 일정 정보, 행동 이력 정보, 실내 구조 정보, 날씨 정보를 제공하는 정보제공부를 더 포함하고, 도메인 결정부는, 사용자의 일정, 행동 이력, 실내 구조, 날씨 정보 중 적어도 하나의 정보를 이용하여 도메인을 결정한다.
대화관리부는, 도메인 결정부로 대화 문맥, 이전 대화 정보를 전송하고, 도메인 결정부는, 대화 문맥 및 이전 대화 정보 중 적어도 하나를 이용하여 도메인을 결정한다.
다른 측면에 따르면 대화 시스템은 사용자의 음성과 비음성 정보가 입력되는 멀티 모달 입력부; 적어도 하나의 비음성 정보가 조합되어 미리 저장된 복수 시추에이션 케이스를 가지고, 멀티 모달 입력부로부터 입력된 음성에 대응하는 후보 도메인을 선정하고, 멀티 모달 입력부로부터 비음성 정보를 기초로 미리 저장된 복수 시추에이션 케이스의 적합도를 각각 산출하고, 적합도가 가장 큰 시추에이션 케이스와 후보 도메인에 기초하여 현재 도메인을 결정하는 도메인 결정부; 현재 도메인 에 대응하는 응답을 선택하는 대화 관리부; 응답을 출력하는 멀티 모달 출력부를 포함한다.
복수 시추에이션 케이스는, 도메인이 설정되어 있다.
또 다른 측면에 따르면 대화 시스템의 대화 방법은, 사용자의 음성 정보와 비음성 정보를 입력받고, 입력된 음성 및 비음성 정보에 기초하여 미리 저장된 복수 시추에이션 케이스의 적합도를 각각 산출하고, 산출된 결과에 기초하여 현재 도메인을 결정하고, 현재 도메인에 대응하는 응답을 선택하여 선택된 응답을 출력한다.
미리 설정된 복수 시추에이션 케이스는, 사용자의 성향, 습관, 일정, 사용자의 상태 정보인 표정, 옷차림, 제스처 정보, 실내 환경 정보, 날씨 정보 중 적어도 하나의 비음성 정보와 음성 정보가 조합되어 이루어진다.
입력된 비음성 정보는, 사용자의 상태 정보인 표정, 옷차림, 제스처 중 적어도 하나의 정보이다.
현재 도메인을 결정하는 것은, 입력된 음성 및 비음성 정보를 조합하여 시추에이션 케이스를 생성하고, 생성된 시추에이션 케이스와 미리 저장된 복수 시추에이션 케이스를 각각 비교하여 적합도를 산출하고, 적합도가 가장 큰 시추에이션 케이스를 선택하는 것을 더 포함한다.
현재 도메인을 결정하는 것은, 현재 도메인이 결정되면 응답 출력에 대응하는 사용자의 응답을 입력받고, 사용자의 응답에 대응하는 만족도를 생성된 시추에이션 케이스에 반영하여 저장하는 것을 더 포함한다.
현재 도메인을 결정하는 것은, 선택된 시추에이션 케이스를 미리 저장된 복수 도메인에 각각 적용하여 미리 저장된 복수 도메인의 적합도를 산출하고, 복수 도메인의 적합도 중 적합도가 가장 높은 도메인을 현재 도메인으로 결정한다.
적합도가 가장 높은 도메인을 현재 도메인으로 결정하는 하는 것은, 적합도가 가장 높은 도메인의 적합도와 기준값을 비교하고, 적합도가 가장 높은 도메인의 적합도가 기준값을 초과하면 현재 도메인 결정으로 판단하고, 적합도가 가장 높은 도메인의 적합도가 기준값 이하이면 현재 도메인 결정 실패로 판단하여 대화를 재요청한다.
현재 도메인을 결정하는 것은, 사용자가 거주하는 실내의 환경 정보를 입력받고, 환경 정보를 이용하여 도메인을 결정하는 것을 더 포함한다.
현재 도메인을 결정하는 것은, 사용자의 일정 정보, 행동 이력 정보, 실내 구조 정보, 날씨 정보를 제공받고, 사용자의 일정, 행동 이력, 실내 구조, 날씨 정보 중 적어도 하나의 정보를 이용하여 도메인을 결정하는 것을 더 포함한다.
현재 도메인을 결정하는 것은, 대화 문맥, 이전 대화 정보를 입력받고, 대화 문맥 및 이전 대화 정보 중 적어도 하나를 이용하여 도메인을 결정하는 것을 더 포함한다.
미리 저장된 복수 시추에이션 케이스는 적어도 하나의 비음성 정보의 조합으로 이루어지고, 음성 정보의 음성인식을 수행하여 후보 도메인을 선정하고, 입력된 비음성 정보에 기초하여 미리 저장된 복수 시추에이션 케이스의 적합도를 각각 산출하고, 미리 저장된 복수 시추에이션 케이스의 적합도 중 가장 큰 적합도를 가진 시추에이션 케이스를 선택하고, 선택된 시추에이션 케이스에 대응하는 도메인과 후보 도메인에 기초하여 현재 도메인을 결정하는 것을 더 포함한다.
일 측면에 따르면 도메인 결정에 반영된 복수 정보 조합으로 이루어진 시추에이션 케이스와 현재 정보, 음성 인식 결과를 이용하여 도메인을 결정함으로써 대화 검색 스페이스를 축소할 수 있고 도메인 결정 정확도를 높일 수 있어 적절한 응답을 수행할 수 있고, 이에 따라 사용자와의 자연스러운 대화를 수행할 수 있다.
다른 측면에 따르면 도메인 결정 정확도를 상승시켜 사용자의 발화 의도를 보다 정확하게 파악할 수 있어 사용자 발화 의도에 대응하는 적절한 서비스를 수행할 수 있고, 이에 따라 사용자의 서비스 만족도를 높일 수 있다.
또한 네트워크를 통해 실내 환경 정보, 사용자의 일정 정보, 사용자의 행동 이력 정보, 사용자의 집안 구조 정보 등을 제공받고, 이 정보들을 도메인 결정 시에 반영함으로써 현재 환경 조건에 따른 사용자의 발화 의도에 적절한 응답을 수행할 수 있다.
이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다.
도 1은 일 실시예에 따른 대화 시스템의 구성도로서, 도메인 결정 정확도를 높여 사용자의 대화 의도에 적절한 응답을 하기 위한 대화 시스템은 멀티 모달 입력부(10), 멀티 모달 입력 처리부(20), 대화 관리부(30), 도메인 결정부(40), 데이터베이스부(50), 정보제공부(60), 멀티 모달 출력 처리부(70), 멀티 모달 출력 부(80)를 포함한다.
멀티 모달 입력부(10)는 사용자 발화에 따른 음성 정보를 입력받는 제1입력부(11)와, 사용자로부터 비음성 정보를 입력받는 제2입력부(12)를 가지고, 입력된 정보를 멀티 모달 입력 처리부(20)로 전송한다.
제1입력부(11)는 사용자 음성의 음파를 받아서 그 진동에 따른 전기 신호를 발생하는 마이크로 폰과, 음성 신호를 텍스트로 변환하는 음성인식부(ASR: Automated Speech Recognizer)를 가진다.
음성인식부는 사용자가 발성한 음성으로부터 특징 벡터를 추출하고 추출된 특징 벡터와 음성 데이터베이스에 저장된 각 단어의 언어 모델 또는 음소 단위의 음향 모델을 비교하여 후보 단어 또는 후보 음소를 추출하고, 후보 단어 또는 후보 음소를 기초로 문장을 획득하고, 획득된 문장의 문법 구조, 문장 문맥을 판단하고, 특정 주제에의 부합 여부를 판단하여 가장 적합한 단어나 음소 등의 핵심어를 판단하고 이에 대응하는 문장을 판단한다.
제2입력부(12)는 비음성인 사용자의 영상을 수집하는 카메라와 같은 영상수집부를 가지고, 영상수집부를 통해 수집된 영상을 멀티 모달 입력 처리부(20)로 전송한다.
아울러 멀티 모달 입력부(10)는 집안 내의 온도, 습도, 조도 등의 환경 정보를 수집하는 환경 감지부를 더 포함하는 것이 가능하고, 사용자로부터 문자를 입력받는 키보드를 더 포함하는 것도 가능하다.
멀티 모달 입력 처리부(20)는 멀티 모달 입력부(10)로부터 전송된 단어, 음 소 등의 핵심어, 문장의 정보 중 적어도 하나를 이용하여 대화 관리를 위해 필요한 의미 정보를 분석하고, 이때 음성인식에 불필요한 요소를 제거하여 가공한다.
멀티 모달 입력 처리부(20)는 단어, 음소 등의 핵심어, 문장의 정보 중 적어도 하나의 의미 정보를 이용하여 언어 처리를 수행하고 언어 처리된 데이터를 대화 관리부(30) 및 도메인 결정부(40)로 전송한다.
멀티 모달 입력 처리부(20)는 멀티 모달 입력부(10)로부터 전송된 문장의 정보를 이용하여 대화 관리를 위해 필요한 의미 정보를 분석하는 언어이해부(SLU: Spoken Language Understanding)를 포함한다.
멀티 모달 입력 처리부(20)는 멀티 모달 입력부(10)로부터 전송된 영상의 필요한 요소를 제거하여 가공하고 영상 처리를 수행하여 사용자의 제스처, 옷차림, 바쁨 여부, 표정 등의 사용자 상태 정보, 사용자 주변의 물체 등을 인식하고, 인식된 영상을 대화 관리부(30) 및 도메인 결정부(40)로 전송한다.
대화 관리부(30)는 멀티 모달 입력 처리부(20)로부터 전송된 단어, 음소 등의 핵심어, 문장 중 적어도 하나의 의미 정보와 이전 대화에 기초하여 대화 문맥을 판단한다. 이러한 대화 관리부(30)는 이전 대화를 저장하고 있다.
대화 관리부(30)는 도메인 결정부(40)로 도메인 결정을 지시하고, 도메인 결정 지시 시 대화 문맥의 정보를 도메인 결정부(40)로 전송한다.
대화 관리부(30)는 도메인 결정부(40)에서 결정된 도메인에 대응하는 응답을 생성한다. 여기서 대화 관리부(30)는 각 도메인에 대응하는 적절한 응답 메시지를 저장 및 관리하는 응답 데이터베이스(미도시)를 가진다.
도메인 결정부(DR:Domain Reasoner, 40)는 멀티 모달 입력 처리부(20)로부터 전송된 사용자의 상태 정보, 실내 환경 정보, 사용자의 일정, 날씨 등의 현재 비음성 정보 중 적어도 하나의 비음성 정보와 음성인식에 대응하는 핵심어 정보를 조합하여 시추에이션 케이스를 생성하고, 생성된 시추에이션 케이스와 미리 저장된 복수 시추에이션 케이스의 적합도를 각각 산출하여 사용자의 발화 의도에 대응하는 도메인을 결정한다.
좀 더 구체적으로 도 2에 도시된 바와 같이 도메인 결정부(40)는 정보 입력부(41), 결정부(42), 시추에이션 케이스부(43)를 포함한다.
정보 입력부(41)는 멀티 모달 입력 처리부(20)로부터 사용자의 상태 정보인 제스처, 표정, 옷차림 등의 정보가 입력되고, 정보 제공부(60)로부터 날씨 정보, 일정 정보 등이 입력되며, 대화 관리부(30)로부터 대화 문맥 정보, 이전 대화 정보가 입력되고, 입력된 정보를 결정부(42)로 전송한다.
결정부(42)는 멀티 모달 입력부(10), 대화 관리부(30), 정보 제공부(60)로부터 전송된 적어도 하나의 현재 정보(음성 정보 및 비음성 정보)에 대응하는 코드를 데이터베이스부(50)에서 검색하고, 검색된 코드를 조합하여 시추에이션 케이스를 생성한다.
그리고 결정부(42)는 생성된 시추에이션 케이스의 정보에 기초하여 시추에이션 케이스부(43)에 미리 저장된 복수 시추에이션 케이스의 적합도를 판단하고, 적합도가 가장 큰 시추에이션 케이스를 선택하여 현재 도메인으로 결정한다.
여기서 현재 정보는 사용자의 상태인 제스처, 표정, 옷차림, 바쁨 여부 정 보, 실내 환경 정보인 온도, 습도, 조도, 사용자의 일정 정보, 사용자의 행동 이력 정보, 날씨 정보, 대화 문맥 정보, 이전 대화 정보 중 적어도 두 개의 정보이고, 시추에이션 케이스의 적합도는 복수의 현재 정보를 많이 포함할수록 높아진다.
결정부(42)는 미리 저장된 복수 도메인에 적합도가 가장 큰 시추에이션 케이스의 적합도를 각각 반영하여 복수 도메인의 적합도를 각각 산출하고, 적합도가 가장 큰 도메인을 선택하여 최종 도메인으로 결정한다.
여기서 복수 시추에이션 케이스는, 사용자와 이전 대화 시 학습에 의해 생성되어 저장된 것으로, 복수 시추에이션 케이스는 당시 대화 시 사용자 응답에 따른 사용자의 만족도, 사용 빈도, 유사도가 반영되어 있다.
이에 따라 복수 시추에이션 케이스의 적합도 산출 시, 사용자 응답에 따른 사용자의 만족도, 사용 빈도, 유사도가 반영되어 산출되는데, 이때 사용자의 만족도 또는 사용 빈도 중 적어도 하나가 높으면 적합도는 증가하고, 사용자의 만족도 또는 사용 빈도 중 적어도 하나가 낮으면 적합도는 감소한다.
도메인의 적합도 산출은 베이시안 네트워크(Baysian Network)를 이용하거나, 규칙 기반(Rule-based) 추론 방식을 이용한다.
그리고 결정부(42)는 최종 도메인의 적합도와 기준값을 비교하여 최종 도메인의 적합도가 기준값을 초과하면 도메인 결정에 성공했다고 판단하여 결정된 도메인을 대화 관리부(30)로 전송하고, 최종 도메인의 적합도가 기준값 이하이면 도메인 결정에 실패했다고 판단하여 사용자에게 재질문을 요청한다.
시추에이션 케이스부(43)는 도메인 결정에 사용된 정보, 즉 사용자의 성향, 습관, 사용자의 상태인 제스처, 표정, 옷차림, 사용자의 일정, 환경 정보, 날씨 정보 중 적어도 하나의 비음성 정보와 음성 정보의 조합으로 이루어진다. 도 3에 도시된 바와 같이, 시추에이션 케이스부(43)는 제1시추에이션 케이스(SC1), 제2시추에이션 케이스(SC2) ... 제9시추에이션 케이스(SC9), 제10시추에이션 케이스(SC10) 등 복수 개의 시추에이션 케이스를 가진다. 여기서 복수 시추에이션 케이스는 사용자와 이전 대화 시 학습에 의해 생성되어 저장된 것이다.
여기서 사용자의 성향이나 습관은 사용자 상태 정보에 대응하는 응답에 기초하여 판단된 것이다. 예를 들어 운동을 하면서 심부름을 잘시키는지, 텔레비전 시청 중 심부름을 잘시키는 지, 텔레비전 시청 중 일정관리를 하는지 등에 대한 성향을 학습에 의해 습득한 것이다.
그리고 시추에이션 케이스부(43)는 도메인이 결정되면 이 도메인 결정에 반영된 복수 정보를 가지는 시추에이션 케이스를 저장하고, 복수 정보를 모두 가지는 시추에이션 케이스가 있는 경우에는 해당 시추에이션 케이스의 적합도를 업데이트한다.
그리고, 각 시추에이션 케이스의 적합도와 미리 정해진 제거 기준이 되는 적합도를 비교하여 제거 기준이 되는 적합도 미만의 적합도를 가지는 시추에이션 케이스는 제거한다.
삭제
이와 같이 도메인 결정부(40)는 도메인 결정 시 이전에 학습을 통해 생성되어 미리 저장된 복수 시추에이션 케이스와 현재 정보를 이용함으로써 대화 검색 스페이스를 줄일 수 있고, 도메인 결정 정확도를 높일 수 있다.
데이터베이스부(50)는 도 4에 도시된 바와 같이, 사용자의 성향 정보에 대응하는 코드(A1, A2, A3 ...)가 저장된 성향 데이터베이스(51), 사용자의 습관 정보에 대응하는 코드(B1, B2, B3 ...)가 저장된 저장된 습관 데이터베이스(52), 사용자의 옷차림, 표정, 제스처 정보에 대응하는 코드(C1, C2, C3 ...)가 저장된 상태 데이터베이스(53), 사용자의 일정 정보에 대응한 코드(D1, D2, D3 ...)가 저장된 일정 데이터베이스(54), 실내의 온도 및 습도 정보 등의 환경 정보에 대응하는 코드(E1, E2, E3 ...)가 저장된 환경 데이터베이스(55), 날씨 정보에 대응하는 코드(F1, F2, F3 ...)가 저장된 날씨 데이터베이스(56), 사용자 반응에 대응하는 코드(G1, G2, G3 ...)가 저장된 반응 데이터베이스(57)를 포함하고, 도메인 결정부(40)의 요청이 입력되면 요청된 정보에 대응하는 코드를 검색하여 도메인 결정부(40)로 전송한다.
정보제공부(60)는 지역 정보 통신망(Local Area Network)과 원격 네트워크(Remote Network)를 가지고, 이 네트워크를 통해 각종 정보를 수집하여 대화 관리부(30) 및 도메인 결정부(40)로 전송한다. 즉, 정보제공부(60)는 지역 정보 통신망(Local Area Network)을 통해 연결되어 있는 단말기(미도시)로부터 사용자의 행동 이력 정보, 실내 구조 정보, 사용자 정보 등을 제공받아 대화 관리부(30) 및 도메인 결정부(40)로 전송하고, 원격 네트워크(Remote Network)를 통해 웹사이트에 접속하여 사용자의 일정 정보, 날씨 정보 등을 제공받아 대화 관리부(30) 및 도메인 결정부(40)로 전송한다. 여기서 사용자 일정 정보는 사용자가 이전에 해당 웹사이트에 접속하여 해당 웹사이트에 기록해 둔 정보이다.
멀티 모달 출력 처리부(70)는 대화 관리부(30)로부터 전송된 응답에 대응하는 텍스트의 문장 데이터 또는 행동 지시 데이터를 생성하여 멀티 모달 출력부(80)로 전송한다.
멀티 모달 출력부(80)는 멀티 모달 출력 처리부(70)로부터 전송된 텍스트의 문장에 대응하는 음성을 출력하거나, 행동을 수행한다. 즉 멀티 모달 출력부(80)는 응답에 대응하는 텍스트를 음성으로 변환시키는 변환부(TTS: Text To Speech)와, 변환된 음성을 적정 레벨로 증폭하여 음성으로 출력하는 스피커를 가지는 제1출력부(81)와, 응답에 대응하는 행동을 수행하는 제2출력부(82)를 포함한다.
제2출력부(82)는 응답에 대응하는 문자나 이모티콘을 디스플레이를 통해 표시한다.
여기서 제2출력부(82)는 응답을 문자로 표시하는 디스플레이 기기를 이용하는 것이 가능하고, 이때 디스플레이 기기는 사용자의 대화, 명령 입력 및 응답 표시가 모두 가능한 하는 터치 스크린(Touch screen) 이용이 가능하다.
대화시스템이 로봇에 마련된 경우에는 제2출력부(82)는 응답에 대응하는 행동을 수행하도록 로봇의 각 관절을 구동시킨다.
도 5는 일 실시예에 따른 대화 시스템의 대화 방법의 순서도로, 도 1 내지 도 4를 참조하여 설명하도록 한다.
사용자 발화에 따른 음성 정보 및 비음성 정보인 사용자의 영상 정보, 실내 환경 정보 등의 멀티 모달 정보를 입력(101) 받는다.
사용자가 발성한 음성으로부터 특징 벡터를 추출하고 추출된 특징 벡터와 음성 데이터베이스에 저장된 각 단어의 언어 모델 또는 음소 단위의 음향 모델을 비교하여 후보 단어 또는 후보 음소를 추출하고, 후보 단어 또는 후보 음소를 기초로 문장을 획득하고, 획득된 문장의 문법 구조, 문장 문맥을 판단하여 가장 적합한 단어나 음소를 판단하고 이에 대응하는 문장을 판단함으로써 음성 인식을 수행(102)한다.
그리고 단어, 음소, 문장의 정보 중 적어도 하나를 이용하여 대화 관리를 위해 필요한 의미 정보를 분석하는 음성 이해를 수행(103)하고 언어 처리를 수행하며, 문장, 단어, 음소의 의미 정보와 이전 대화에 기초하여 대화 문맥을 판단한다.
다음 음성인식 결과에 대응하는 상위 복수 개의 문장, 단어, 음소를 입력으로 하여 신뢰도를 산출하고, 기준 이상의 신뢰도를 갖는 단어들 중에서 핵심어를 인식(104)한다.
다음 영상 처리를 수행하여 사용자 상태 정보인 제스처, 옷차림, 표정 정보를 인식하고, 사용자 주변의 물체 등을 인식한다. 이때 사용자 상태 정보에 기초하여 사용자의 성향이나 습관 등도 판단하는 것도 가능하다.
그리고 지역 정보 통신망(Local Area Network)을 통해 연결되어 있는 단말기(미도시)로부터 사용자의 행동 이력 정보, 실내 구조 정보, 사용자 개인 정보 등을 제공받고, 원격 네트워크(Remote Network)를 통해 웹사이트에 접속하여 사용자 의 일정 정보, 날씨 정보 등을 제공받는다. 여기서 사용자 일정 정보는 사용자가 이전에 해당 웹사이트에 접속하여 해당 웹사이트에 기록해 둔 정보이다.
다음 적어도 하나의 현재 정보가 입력되면, 즉 사용자의 상태 정보인 제스처, 표정, 옷차림 정보, 사용자의 성향, 습관 정보, 실내 환경 정보, 사용자의 행동 이력 정보, 날씨 정보 중 적어도 하나의 비음성 정보가 입력되면, 입력된 적어도 하나의 비음성 정보와 음성 정보인 핵심어를 조합하여 시추에이션 케이스를 생성(105)한다. 이때 현재 정보, 대화 문맥 정보, 이전 대화 정보를 더 반영하는 것도 가능하다.
그리고 생성된 시추에이션 케이스와 미리 저장된 복수 시추에이션 케이스의 적합도를 산출하여 현재 도메인을 결정(106)하고, 현재 도메인의 성공 여부를 판단하며, 이때 현재 도메인의 결정이 성공이면 현재 도메인에 대응하는 응답을 생성하고 생성된 응답에 대응하는 텍스트의 문장 데이터를 음성으로 변환하고, 변환된 음성을 적정 레벨로 증폭하여 음성으로 출력(108)하고, 또한 생성된 응답에 대응하는 행동을 수행한 후 사용자 응답을 입력(109)받는다. 아울러 대화시스템이 로봇에 마련된 경우에는 응답에 대응하는 행동을 수행하도록 로봇의 각 관절을 구동시킨다.
반면, 현재 도메인의 결정이 실패이면 사용자에게 대화를 다시 요청(110)한다.
도 6을 참조하여 도메인 결정(106)을 좀 더 구체적으로 설명하면, 생성된 시추에이션 케이스와 미리 저장된 복수 시추에이션 케이스의 적합도를 각각 산출(106a)한다.
여기서 복수 시추에이션 케이스 적합도 산출은, 생성된 시추에이션 케이스의 조합 정보와 미리 저장된 복수 시추에이션 케이스의 조합 정보를 비교하여 정보의 일치 정도를 산출하는 것이다.
아울러 복수 시추에이션 케이스 적합도 산출은, 생성된 시추에이션 케이스의 조합 정보와 미리 저장된 복수 시추에이션 케이스의 조합 정보를 비교하여 정보의 유사 정도를 반영하는 것도 가능하다.
이때 복수 시추에이션 케이스 적합도 산출은 대화 당시 사용자 응답에 따른 사용자의 만족도, 사용 빈도, 유사도를 반영한다.
즉, 시추에이션 케이스의 적합도는 사용자의 만족도 또는 사용 빈도 중 적어도 하나가 높으면 증가하고, 사용자의 만족도 또는 사용 빈도 중 적어도 하나가 낮으면 감소한다.
다음 적합도가 가장 큰 시추에이션 케이스를 선택(106b)하고, 적합도가 가장 큰 시추에이션 케이스의 적합도를 반영하여 복수 도메인의 적합도를 각각 산출(106c)하고, 적합도가 가장 큰 도메인을 선택(106d)하여 최종 도메인으로 결정한다.
여기서 도메인의 적합도 산출은 베이시안 네트워크(Baysian Network)를 이용하거나, 규칙 기반(Rule-based) 추론 방식을 이용한다.
도 7에 도시된 바와 같이, 베이시안 네트워크(Baysian Network)를 참조하여 설명한다. 도 7과 같이 사용자가 의도한 도메인이 심부름1 도메인일 경우의 확률을 알기 위해 운동, 외출, 시추에이션 케이스 적합도, 음성인식에 따른 후보 도메인을 증거 값으로 사용한다. 이때 운동 여부를 알기 위한 증거 값으로는 사용자의 제스처가 역동적 제스처인지 여부, 사용자의 옷차림 중 외출복장인지의 여부, 일정 여부를 사용하였고, 외출 여부를 알기 위한 증거 값으로 사용자의 옷차림 중 외출복장인지의 여부, 일정 여부를 사용하였다.
이와 같이 일정관리 도메인, 집안관리 도메인 별로 유사한 베이시안 네트워크를 구성하여 각 모델 중에서 가장 높은 확률 값을 갖는 도메인을 현재의 도메인으로 결정하게 된다.
다음 도메인 결정 성공 여부를 판단(107)한다. 즉 최종 도메인의 적합도와 기준값을 비교(107a)하여 최종 도메인의 적합도가 기준값을 초과하면 도메인 결정에 성공했다고 판단(107b)하고 대화 응답(108)을 수행한다.
이후 사용자의 응답을 입력(109)받아 응답에 대응하는 사용자 만족도를 해당 시추에이션 케이스에 반영한다.
즉, 도메인 결정이 성공했다고 하더라고 잘못된 결정일 수 있기 때문에 사용자의 응답을 입력받아 도메인 결정 성공 여부를 재확인하는 것이다. 이때, 사용자의 응답을 통해 최종 도메인 결정의 성공 여부를 결정하게 된다.
그리고 현재 도메인 결정 시 반영된 복수 정보를 모두 가지는 시추에이션 케이스를 저장한다. 이때 사용자의 응답에 따른 만족도도 반영하여 저장한다.
반면 최종 도메인의 적합도가 기준값 이하이면 도메인 결정에 실패(107c)했다고 판단하여 사용자에게 대화를 재요청(110)한다.
도메인 결정 실패 시, 사용자에게 대화를 재요청하고 사용자에 의해 대화 재 요청에 따른 음성이 인식되면 음성 인식된 음성 정보 및 현재의 비음성 정보를 이용하여 도메인 결정을 재수행한다. 이때 도메인 결정이 성공되면 대화응답을 생성 및 출력한 후 사용자의 응답을 기다린다.
그리고, 복수 시추에이션 케이스의 적합도와 미리 정해진 제거 적합도를 비교하여 제거 적합도 미만의 적합도를 가지는 시추에이션 케이스는 제거한다. 여기서 복수 시추에이션 케이스는 가장 일어날 법한 케이스를 학습한 결과이다.
이와 같이 도메인 결정에 반영된 복수 정보 조합으로 이루어진 시추에이션 케이스와 현재 정보, 음성 인식 결과를 이용하여 도메인을 결정함으로써 대화 검색 스페이스를 축소할 수 있고 도메인 결정 정확도를 높일 수 있어 적절한 응답을 수행할 수 있고, 이에 따라 사용자와의 자연스러운 대화를 수행할 수 있다.
또한 도메인 결정 정확도를 상승시켜 사용자의 발화 의도를 보다 정확하게 파악할 수 있어 사용자 발화 의도에 대응하는 적절한 서비스를 수행할 수 있고, 이에 따라 사용자의 서비스 만족도를 높일 수 있다.
또한 네트워크를 통해 실내 환경 정보, 사용자의 일정 정보, 사용자의 행동 이력 정보, 사용자의 집안 구조 정도 등을 제공받고, 이 정보들을 도메인 결정 시에 반영함으로써 현재 환경 조건에 따른 사용자의 발화 의도에 적절한 응답을 수행할 수 있다.
도 8은 다른 실시예에 따른 대화 시스템의 도메인 결정부의 상세 구성도이다.
도메인 결정부(DR:Domain Reasoner, 40)는 음성인식에 대응하는 도메인을 결 정하여 도메인 후보를 선정하고, 사용자의 상태, 실내의 온도, 습도, 조도 등의 환경, 사용자의 일정, 날씨 등의 현재 정보, 음성 인식 결과, 시추에이션 케이스의 적합도를 이용하여 사용자의 발화 의도에 대응하는 도메인을 결정한다.
좀 더 구체적으로 도 8에 도시된 바와 같이 도메인 결정부(40)는 정보 입력부(41), 결정부(42), 시추에이션 케이스부(43), 도메인 후보선정부(44), 도메인 데이터베이스부(45)를 포함한다.
정보 입력부(41)는 멀티 모달 입력 처리부(20)로부터 사용자의 상태 정보인 제스처, 표정, 옷차림 등의 정보가 입력되고, 정보 제공부(60)로부터 날씨 정보, 일정 정보 등이 입력되며, 대화 관리부(30)로부터 대화 문맥 정보, 이전 대화 정보가 입력되고, 입력된 정보를 결정부(42)로 전송한다.
결정부(42)는 멀티 모달 입력부(10), 대화 관리부(30), 정보 제공부(60)로부터 전송된 복수의 현재 정보에 대응하는 코드를 데이터베이스부(50)에서 검색하고, 검색된 코드를 가지는 시추에이션 케이스를 검색하고, 이때 검색된 시추에이션 케이스의 도메인과 후보 도메인에 기초하여 도메인을 결정한다.
여기서 현재 정보는 사용자의 상태인 제스처, 표정, 옷차림 정보, 실내 환경 정보, 사용자의 일정 정보, 사용자의 행동 이력 정보, 날씨 정보, 대화 문맥 정보, 이전 대화 정보 중 적어도 하나의 비음성 정보이다.
도메인 결정을 좀 더 구체적으로 설명하면, 결정부(42)는 입력된 비음성 정보에 기초하여 복수 시추에이션 케이스의 적합도를 산출하고, 적합도가 가장 큰 시추에이션 케이스를 선택하고, 이 시추에이션 케이스의 적합도를 반영하여 각 후보 도메인의 적합도를 산출하고, 적합도가 가장 큰 도메인을 선택하여 최종 도메인으로 결정한다.
여기서 시추에이션 케이스의 적합도 산출은, 현재 입력된 비음성 정보와 복수 시추에이션 케이스의 비음성 정보의 일치 정도이다. 이 시추에이션 케이스의 적합도 산출은 사용자 응답에 따른 사용자의 만족도, 사용 빈도, 유사도를 반영한다.
그리고 도메인의 적합도 산출은 베이시안 네트워크(Baysian Network)를 이용하거나, 규칙 기반(Rule-based) 추론 방식을 이용한다.
그리고 결정부(42)는 최종 도메인의 적합도와 기준값을 비교하여 최종 도메인의 적합도가 기준값을 초과하면 도메인 결정에 성공했다고 판단하여 결정된 도메인을 대화 관리부(30)로 전송하고, 최종 도메인의 적합도가 기준값 이하이면 도메인 결정에 실패했다고 판단하여 사용자에게 재질문을 요청한다.
시추에이션 케이스부(43)는 도메인 결정에 사용된 정보, 즉 사용자의 성향, 습관, 사용자의 상태인 제스처, 표정, 옷차림, 사용자의 일정, 환경 정보, 날씨 정보 중 적어도 하나의 비음성 정보의 조합으로 이루어진다.
여기서 사용자의 성향이나 습관은 사용자 상태 정보에 대응하는 응답에 기초하여 판단된 것이다. 예를 들어 운동을 하면서 심부름을 잘시키는지, 텔레비전 시청 중 심부름을 잘시키는 지, 텔레비전 시청 중 일정관리를 하는지 등에 대한 성향을 학습에 의해 습득한 것이다.
그리고 시추에이션 케이스부(43)는 현재 도메인 결정에 반영된 정보를 가지는 시추에이션 케이스를 저장하거나, 이 정보를 모두 가지는 시추에이션 케이스가 있는 경우에는 해당 시추에이션 케이스의 적합도를 업데이트한다.
그리고, 각 시추에이션 케이스의 적합도와 미리 정해진 제거 적합도를 비교하여 제거 적합도 미만의 적합도를 가지는 시추에이션 케이스는 제거한다.
도메인 후보 선정부(44)는 멀티 모달 입력부(10)에서 인식된 음성인식결과 중 상위 복수 개의 문장과 단어 및 음소를 입력으로 하여 신뢰도를 산출하고, 기준 이상의 신뢰도를 갖는 단어들 중에서 핵심어를 선택하고, 선택된 핵심어를 근거로 후보 도메인들을 추출하고 추출된 후보 도메인 중 기준 스코어 이상의 스코어를 갖는 도메인을 후보 도메인으로 선정한다. 이 도메인 후보 선정부(44)는 도메인 데이터베이스부(45)에 저장된 언어 모델에 기초하여 일정 개수의 후보 도메인을 선정한다.
도메인 데이터베이스부(45)는 복수 토픽에 각각 대응하는 도메인이 저장되어 있다. 이 도메인 데이터베이스부(45)는 도메인 별로 학습하여 미리 구해진 도메인별 언어모델이 저장되어 있다.
도 9는 다른 실시예에 따른 대화 시스템의 대화 방법의 순서도로, 도 8을 참조하여 설명하도록 한다.
사용자 발화에 따른 음성 정보 및 비음성 정보인 사용자의 영상 정보, 실내 환경 정보 등의 멀티 모달 정보를 입력(201) 받는다.
사용자가 발성한 음성으로부터 특징 벡터를 추출하고 추출된 특징 벡터와 음성 데이터베이스에 저장된 각 단어의 언어 모델 또는 음소 단위의 음향 모델을 비교하여 후보 단어 또는 후보 음소를 추출하고, 후보 단어 또는 후보 음소를 기초로 문장을 획득하고, 획득된 문장의 문법 구조, 문장 문맥을 판단하여 가장 적합한 단어나 음소를 판단하고 이에 대응하는 문장을 판단함으로써 음성 인식을 수행(202)한다.
그리고 단어, 음소, 문장의 정보 중 적어도 하나를 이용하여 대화 관리를 위해 필요한 의미 정보를 분석하는 음성 이해를 수행(203)하고 언어 처리를 수행하며, 문장, 단어, 음소 중 적어도 하나의 의미 정보와 이전 대화에 기초하여 대화 문맥을 판단한다.
다음 음성인식 결과에 대응하는 상위 복수 개의 문장, 단어, 음소를 입력으로 하여 신뢰도를 산출하고, 기준 이상의 신뢰도를 갖는 단어들 중에서 핵심어를 선택하고, 선택된 핵심어를 근거로 적어도 하나의 후보 도메인을 추출하고 추출된 후보 도메인 중 기준 스코어 이상의 스코어를 갖는 도메인을 후보 도메인으로 선정한다. 이 후보 도메인 선정은, 도메인 데이터베이스부(45)에 저장된 도메인별 언어 모델에 기초하여 적어도 하나의 후보 도메인을 선정(204)한다.
다음 영상 처리를 수행하여 사용자 상태 정보인 제스처, 옷차림, 표정 정보를 인식하고, 사용자 주변의 물체 등을 인식한다. 이때 사용자 상태 정보에 기초하여 사용자의 성향이나 습관 등도 판단하는 것도 가능하다.
그리고 지역 정보 통신망(Local Area Network)을 통해 연결되어 있는 단말기(미도시)로부터 사용자의 행동 이력 정보, 실내 구조 정보, 사용자 개인 정보 등을 제공받고, 원격 네트워크(Remote Network)를 통해 웹사이트에 접속하여 사용자의 일정 정보, 날씨 정보 등을 제공받는다. 여기서 사용자 일정 정보는 사용자가 이전에 해당 웹사이트에 접속하여 해당 웹사이트에 기록해 둔 정보이다.
그리고 입력된 비음성 정보에 기초하여 복수 시추에이션 케이스의 적합도를 각각 산출하고, 적합도가 가장 높은 시추에이션 케이스를 선택(205)한다. 여기서 각 시추에이션 케이스는 조합된 복수 정보에 대응하는 도메인이 설정되어 있다. 이때 현재 정보, 대화 문맥 정보, 이전 대화 정보를 더 반영하는 것도 가능하다.
다음 선택된 시추에이션 케이스의 적합도를 반영하여 각 후보 도메인의 적합도를 산출하고, 적합도가 가장 큰 도메인을 선택하여 최종 도메인으로 결정(206)한다. 여기서 도메인의 적합도 산출은 베이시안 네트워크(Baysian Network)를 이용하거나, 규칙 기반(Rule-based) 추론 방식을 이용한다.
다음 도메인 결정 성공 여부를 판단(207)한다. 즉 최종 도메인의 적합도와 기준값을 비교하여 최종 도메인의 적합도가 기준값을 초과하면 도메인 결정에 성공했다고 판단하여 대화 응답(208)을 수행하고, 이후 사용자의 응답을 입력(209)받아 응답에 대응하는 사용자 만족도를 해당 시추에이션 케이스에 반영한다.
대화 응답 수행은, 결정된 도메인에 대응하는 응답을 생성하고 생성된 응답에 대응하는 텍스트의 문장 데이터 또는 행동 지시 데이터를 생성한다. 이때 응답에 대응하는 텍스트를 음성으로 변환하고, 변환된 음성을 적정 레벨로 증폭하여 음성으로 출력하고, 또한 응답에 대응하는 행동을 수행한다. 아울러 대화시스템이 로봇에 마련된 경우에는 응답에 대응하는 행동을 수행하도록 로봇의 각 관절을 구동시킨다.
그리고 도메인 결정이 성공했다고 하더라고 잘못된 결정일 수 있기 때문에 사용자의 응답을 입력받아 도메인 결정을 재확인한다. 이때 사용자의 응답은 현재 도메인 결정 시 정보들의 조합으로 생성된 시추에이션 케이스에 반영되어 저장된다.
반면 최종 도메인의 적합도가 기준값 이하이면 도메인 결정에 실패했다고 판단하여 사용자에게 대화를 재요청(210)한다.
도메인 결정 실패 시, 사용자에게 대화를 재요청하고 사용자에 의해 대화 재요청에 따른 음성이 인식되면 이 음성인식 및 현재의 비음성 정보를 이용하여 도메인 결정을 재수행한다. 이때 도메인 결정이 성공되면 대화응답을 생성 및 출력한 후 사용자의 응답을 기다린다.
이와 같이 도메인 결정에 반영된 복수 정보 조합으로 이루어진 시추에이션 케이스와 현재 정보, 음성 인식 결과를 이용하여 도메인을 결정함으로써 대화 검색 스페이스를 축소할 수 있고 도메인 결정 정확도를 높일 수 있어 적절한 응답을 수행할 수 있고, 이에 따라 사용자와의 자연스러운 대화를 수행할 수 있다.
또한 도메인 결정 정확도를 상승시켜 사용자의 발화 의도를 보다 정확하게 파악할 수 있어 사용자 발화 의도에 대응하는 적절한 서비스를 수행할 수 있고, 이에 따라 사용자의 서비스 만족도를 높일 수 있다.
또한 네트워크를 통해 실내 환경 정보, 사용자의 일정 정보, 사용자의 행동이력 정보, 사용자의 집안 구조 정도 등을 제공받고, 이 정보들을 도메인 결정 시에 반영함으로써 현재 환경 조건에 따른 사용자의 발화 의도에 적절한 응답을 수행할 수 있다.
도 1은 일 실시예에 따른 대화 시스템의 구성도이다.
도 2는 일 실시예에 따른 대화 시스템에 마련된 도메인 결정부의 상세 구성도이다.
도 3은 일 실시예에 따른 대화 시스템에 마련된 도메인 결정부의 시추에이션 케이스부의 상세 구성도이다.
도 4는 일 실시예에 따른 대화 시스템에 마련된 데이터베이스부의 상세 구성도이다.
도 5는 일 실시예에 따른 대화 시스템의 대화 방법 순서도이다.
도 6은 일 실시예에 따른 대화 시스템의 대화 방법 중 도메인 결정 방법의 상세 순서도이다.
도 7은 일 실시예에 따른 대화 시스템의 대화 방법 중 도메인 결정 방법의 예시도이다.
도 8은 다른 실시예에 따른 대화 시스템에 마련된 도메인 결정부의 상세 구성도이다.
도 9는 다른 실시예에 따른 대화 시스템의 대화 방법 중 도메인 결정 방법의 상세 순서도이다.
*도면의 주요부분에 대한 부호 설명*
10: 멀티 모달 입력부 20: 멀티 모달 입력 처리부
30: 대화 관리부 40: 도메인 결정부
50: 데이터베이스부 60: 정보제공부
70: 멀티 모달 출력 처리부 80: 멀티 모달 출력부

Claims (24)

  1. 사용자의 음성 정보 및 비음성 정보가 입력되는 멀티 모달 입력부;
    상기 입력된 음성 정보 및 비음성 정보를 조합하여 시추에이션 케이스를 생성하고, 상기 생성된 시추에이션 케이스와 미리 저장된 복수 시추에이션 케이스를 각각 비교하여 상기 복수 시추에이션 케이스 각각의 적합도를 산출하고, 상기 산출된 적합도에 기초하여 현재 도메인을 결정하는 도메인 결정부;
    상기 현재 도메인에 대응하는 응답을 선택하는 대화 관리부; 및
    상기 응답을 출력하는 멀티 모달 출력부를 포함하되,
    상기 미리 저장된 복수 시추에이션 케이스 각각은 적어도 하나의 음성 정보 및 비음성 정보의 조합으로 이루어지고,
    상기 복수 시추에이션 케이스 각각의 적합도는 상기 생성된 시추에이션 케이스의 조합 정보와 상기 복수 시추에이션 케이스의 조합 정보 간의 일치 정도인 대화 시스템.
  2. 삭제
  3. 제 1 항에 있어서, 상기 도메인 결정부는,
    상기 출력된 응답에 대응하는 사용자 응답을 입력받아 상기 사용자의 만족도를 판단하고, 상기 생성된 시추에이션 케이스에 상기 만족도를 반영하여 업데이트하여 저장하는 대화 시스템.
  4. 제 1 항에 있어서,
    상기 복수 시추에이션 케이스는 학습을 통해 생성되어 저장된 대화 시스템.
  5. 제 1 항에 있어서,
    상기 복수 시추에이션 케이스는, 상기 사용자의 성향, 습관, 일정, 상기 사용자의 상태 정보인 표정, 옷차림, 제스처 중 적어도 하나의 비음성 정보와 음성 정보가 조합되어 이루어지고, 상기 조합에 대응하는 도메인이 설정되어 있는 대화 시스템.
  6. 제 1 항에 있어서, 상기 멀티 모달 입력부는,
    상기 사용자의 상태 정보인 표정, 옷차림, 제스처 정보 중 적어도 하나의 비음성 정보를 영상으로 입력받는 대화 시스템.
  7. 제 1 항에 있어서, 상기 도메인 결정부는,
    상기 미리 저장된 복수 시추에이션 케이스의 적합도 중 적합도가 가장 큰 시추에이션 케이스를 선택하여 현재 도메인으로 결정하는 대화 시스템.
  8. 제 7 항에 있어서,
    복수 도메인이 저장된 도메인 데이터베이스부를 더 포함하고,
    상기 도메인 결정부는, 상기 선택된 시추에이션 케이스의 적합도를 이용하여 각 도메인의 적합도를 산출하고, 적합도가 가장 큰 도메인을 상기 현재 도메인으로 결정하는 대화 시스템.
  9. 제 1 항에 있어서,
    상기 멀티 모달 입력부는, 상기 사용자가 거주하는 실내의 환경 정보를 감지하는 환경 감지부를 더 포함하고,
    상기 도메인 결정부는, 상기 환경 정보를 이용하여 도메인을 결정하는 대화 시스템.
  10. 제 1 항에 있어서,
    상기 사용자의 일정 정보, 행동 이력 정보, 실내 구조 정보, 날씨 정보를 제공하는 정보제공부를 더 포함하고,
    상기 도메인 결정부는, 상기 사용자의 일정, 행동 이력, 실내 구조, 날씨 정보 중 적어도 하나의 정보를 이용하여 도메인을 결정하는 대화 시스템.
  11. 제 1 항에 있어서,
    상기 대화관리부는, 상기 도메인 결정부로 대화 문맥, 이전 대화 정보를 전송하고,
    상기 도메인 결정부는, 상기 대화 문맥 및 이전 대화 정보 중 적어도 하나를 이용하여 도메인을 결정하는 대화 시스템.
  12. 사용자의 음성 정보 및 비음성 정보가 입력되는 멀티 모달 입력부;
    상기 입력된 음성 정보에 대응하는 후보 도메인을 선정하고, 상기 입력된 비음성 정보와 미리 저장된 복수 시추에이션 케이스를 각각 비교하여 상기 복수 시추에이션 케이스 각각의 적합도를 산출하고, 상기 적합도가 가장 큰 시추에이션 케이스와 상기 후보 도메인에 기초하여 현재 도메인을 결정하는 도메인 결정부;
    상기 현재 도메인에 대응하는 응답을 선택하는 대화 관리부; 및
    상기 응답을 출력하는 멀티 모달 출력부를 포함하되,
    상기 미리 저장된 복수 시추에이션 케이스 각각은 적어도 하나의 비음성 정보의 조합으로 이루어지고,
    상기 복수 시추에이션 케이스 각각의 적합도는 상기 입력된 비음성 정보와 상기 복수 시추에이션 케이스의 비음성 정보의 일치 정도인 대화 시스템.
  13. 제 12항에 있어서, 상기 복수 시추에이션 케이스는,
    도메인이 설정되어 있는 대화 시스템.
  14. 사용자의 음성 정보 및 비음성 정보를 입력받고;
    상기 입력된 음성 정보 및 비음성 정보를 조합하여 시추에이션 케이스를 생성하고;
    상기 생성된 시추에이션 케이스와 미리 저장된 복수 시추에이션 케이스를 각각 비교하여 상기 복수 시추에이션 케이스 각각의 적합도를 산출하고;
    상기 산출된 적합도에 기초하여 현재 도메인을 결정하고;
    상기 현재 도메인에 대응하는 응답을 선택하고, 상기 선택된 응답을 출력하되,
    상기 미리 저장된 복수 시추에이션 케이스 각각은 적어도 하나의 음성 정보 및 비음성 정보의 조합으로 이루어지고,
    상기 복수 시추에이션 케이스 각각의 적합도는 상기 생성된 시추에이션 케이스의 조합 정보와 상기 복수 시추에이션 케이스의 조합 정보 간의 일치 정도인 대화 시스템의 대화 방법.
  15. 제 14 항에 있어서, 상기 미리 설정된 복수 시추에이션 케이스는,
    상기 사용자의 성향, 습관, 일정, 상기 사용자의 상태 정보인 표정, 옷차림, 제스처 정보, 실내 환경 정보, 날씨 정보 중 적어도 하나의 비음성 정보와 음성 정보가 조합되어 이루어지는 대화 시스템의 대화 방법.
  16. 제 14 항에 있어서, 상기 입력된 비음성 정보는,
    상기 사용자의 상태 정보인 표정, 옷차림, 제스처 중 적어도 하나의 정보인 대화 시스템의 대화 방법.
  17. 삭제
  18. 제 14 항에 있어서, 상기 현재 도메인을 결정하는 것은,
    상기 현재 도메인이 결정되면 상기 응답 출력에 대응하는 사용자의 응답을 입력받고,
    상기 사용자의 응답에 대응하는 만족도를 상기 생성된 시추에이션 케이스에 반영하여 저장하는 것을 더 포함하는 대화 시스템의 대화 방법.
  19. 제 14 항에 있어서, 상기 현재 도메인을 결정하는 것은,
    상기 선택된 시추에이션 케이스를 미리 저장된 복수 도메인에 각각 적용하여 상기 미리 저장된 복수 도메인의 적합도를 산출하고,
    상기 복수 도메인의 적합도 중 적합도가 가장 높은 도메인을 현재 도메인으로 결정하는 대화 시스템의 대화 방법.
  20. 제 19 항에 있어서, 상기 적합도가 가장 높은 도메인을 현재 도메인으로 결정하는 것은,
    상기 적합도가 가장 높은 도메인의 적합도와 기준값을 비교하고,
    상기 적합도가 가장 높은 도메인의 적합도가 기준값을 초과하면 현재 도메인 결정으로 판단하고,
    상기 적합도가 가장 높은 도메인의 적합도가 기준값 이하이면 현재 도메인 결정 실패로 판단하여 대화를 재요청하는 대화 시스템의 대화 방법.
  21. 제 14 항에 있어서, 상기 현재 도메인을 결정하는 것은,
    상기 사용자가 거주하는 실내의 환경 정보를 입력받고,
    상기 환경 정보를 이용하여 도메인을 결정하는 것을 더 포함하는 대화 시스 템의 대화 방법.
  22. 제 14 항에 있어서, 상기 현재 도메인을 결정하는 것은,
    상기 사용자의 일정 정보, 행동 이력 정보, 실내 구조 정보, 날씨 정보를 제공받고,
    상기 사용자의 일정, 행동 이력, 실내 구조, 날씨 정보 중 적어도 하나의 정보를 이용하여 도메인을 결정하는 것을 더 포함하는 대화 시스템의 대화 방법.
  23. 제 14 항에 있어서, 상기 현재 도메인을 결정하는 것은,
    대화 문맥, 이전 대화 정보를 입력받고,
    상기 대화 문맥 및 이전 대화 정보 중 적어도 하나를 이용하여 도메인을 결정하는 것을 더 포함하는 대화 시스템의 대화 방법.
  24. 제 14 항에 있어서,
    상기 음성 정보의 음성인식을 수행하여 후보 도메인을 선정하고,
    상기 입력된 비음성 정보에 기초하여 미리 저장된 복수 시추에이션 케이스의 적합도를 각각 산출하고,
    상기 미리 저장된 복수 시추에이션 케이스의 적합도 중 가장 큰 적합도를 가진 시추에이션 케이스를 선택하고,
    상기 선택된 시추에이션 케이스에 대응하는 도메인과 상기 후보 도메인에 기초하여 현재 도메인을 결정하는 것을 더 포함하는 대화 시스템의 대화 방법.
KR1020090122975A 2009-12-11 2009-12-11 대화 시스템 및 그의 대화 방법 KR101622111B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020090122975A KR101622111B1 (ko) 2009-12-11 2009-12-11 대화 시스템 및 그의 대화 방법
US12/964,866 US8719015B2 (en) 2009-12-11 2010-12-10 Dialogue system and method for responding to multimodal input using calculated situation adaptability
US14/243,477 US9305569B2 (en) 2009-12-11 2014-04-02 Dialogue system and method for responding to multimodal input using calculated situation adaptability

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090122975A KR101622111B1 (ko) 2009-12-11 2009-12-11 대화 시스템 및 그의 대화 방법

Publications (2)

Publication Number Publication Date
KR20110066357A KR20110066357A (ko) 2011-06-17
KR101622111B1 true KR101622111B1 (ko) 2016-05-18

Family

ID=44143908

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090122975A KR101622111B1 (ko) 2009-12-11 2009-12-11 대화 시스템 및 그의 대화 방법

Country Status (2)

Country Link
US (2) US8719015B2 (ko)
KR (1) KR101622111B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11948567B2 (en) 2018-12-28 2024-04-02 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Families Citing this family (317)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8181205B2 (en) 2002-09-24 2012-05-15 Russ Samuel H PVR channel and PVR IPG information
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US20060271520A1 (en) * 2005-05-27 2006-11-30 Ragan Gene Z Content-based implicit search query
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
KR101622111B1 (ko) * 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
WO2012135218A2 (en) * 2011-03-31 2012-10-04 Microsoft Corporation Combined activation for natural user interface systems
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US9576573B2 (en) * 2011-08-29 2017-02-21 Microsoft Technology Licensing, Llc Using multiple modality input to feedback context for natural language understanding
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
US20150340031A1 (en) * 2013-01-09 2015-11-26 Lg Electronics Inc. Terminal and control method therefor
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
KR102053820B1 (ko) * 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
KR102141116B1 (ko) * 2013-08-05 2020-08-04 삼성전자주식회사 음성 대화 서비스를 지원하는 인터페이스 장치 및 방법
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9754591B1 (en) * 2013-11-18 2017-09-05 Amazon Technologies, Inc. Dialog management context sharing
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
US9812130B1 (en) * 2014-03-11 2017-11-07 Nvoq Incorporated Apparatus and methods for dynamically changing a language model based on recognized text
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9390706B2 (en) * 2014-06-19 2016-07-12 Mattersight Corporation Personality-based intelligent personal assistant system and methods
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9466297B2 (en) 2014-12-09 2016-10-11 Microsoft Technology Licensing, Llc Communication system
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US20170329766A1 (en) * 2014-12-09 2017-11-16 Sony Corporation Information processing apparatus, control method, and program
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9953648B2 (en) * 2015-05-11 2018-04-24 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
KR102411619B1 (ko) * 2015-05-11 2022-06-21 삼성전자주식회사 전자 장치 및 그 제어 방법
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10236017B1 (en) * 2015-09-29 2019-03-19 Amazon Technologies, Inc. Goal segmentation in speech dialogs
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10796693B2 (en) * 2015-12-09 2020-10-06 Lenovo (Singapore) Pte. Ltd. Modifying input based on determined characteristics
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10896681B2 (en) * 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
US10388280B2 (en) * 2016-01-27 2019-08-20 Motorola Mobility Llc Method and apparatus for managing multiple voice operation trigger phrases
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049670B2 (en) * 2016-06-06 2018-08-14 Google Llc Providing voice action discoverability example for trigger term
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN106239506B (zh) * 2016-08-11 2018-08-21 北京光年无限科技有限公司 智能机器人的多模态输入数据处理方法及机器人操作系统
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9936091B1 (en) * 2016-09-23 2018-04-03 Kabushiki Kaisha Toshiba Image processing apparatus having a function for controlling sound levels of the image forming apparatus and method for controlling sound level of the image forming apparatus
KR101934280B1 (ko) * 2016-10-05 2019-01-03 현대자동차주식회사 발화내용 분석 장치 및 방법
US10650814B2 (en) 2016-11-25 2020-05-12 Electronics And Telecommunications Research Institute Interactive question-answering apparatus and method thereof
US10268679B2 (en) 2016-12-02 2019-04-23 Microsoft Technology Licensing, Llc Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
CN106777081A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 用于确定对话系统应答策略的方法及装置
JP6795387B2 (ja) * 2016-12-14 2020-12-02 パナソニック株式会社 音声対話装置、音声対話方法、音声対話プログラム及びロボット
WO2018117608A1 (ko) * 2016-12-20 2018-06-28 삼성전자 주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR102502220B1 (ko) 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6689215B2 (ja) * 2017-01-25 2020-04-28 株式会社日立製作所 システム及び対話情報の出力方法
KR102363794B1 (ko) * 2017-03-31 2022-02-16 삼성전자주식회사 정보 제공 방법 및 이를 지원하는 전자 장치
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
US10593352B2 (en) 2017-06-06 2020-03-17 Google Llc End of query detection
US10455087B2 (en) * 2017-06-15 2019-10-22 Microsoft Technology Licensing, Llc Information retrieval using natural language dialogue
WO2019035371A1 (ja) 2017-08-17 2019-02-21 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN107688950B (zh) * 2017-08-31 2022-03-11 广东美的制冷设备有限公司 家电售后咨询方法、电子设备和计算机可读存储介质
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11217230B2 (en) * 2017-11-15 2022-01-04 Sony Corporation Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR101959292B1 (ko) * 2017-12-08 2019-03-18 주식회사 머니브레인 문맥 기반으로 음성 인식의 성능을 향상하기 위한 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
CN111373473B (zh) * 2018-03-05 2023-10-20 华为技术有限公司 一种电子设备进行语音识别方法及电子设备
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
KR20190114321A (ko) * 2018-03-29 2019-10-10 삼성전자주식회사 전자 장치 및 그 제어 방법
CN108600911B (zh) * 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11676220B2 (en) * 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
WO2019211967A1 (ja) * 2018-05-01 2019-11-07 株式会社Nttドコモ 対話装置
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
KR20190131741A (ko) * 2018-05-17 2019-11-27 현대자동차주식회사 대화 시스템 및 대화 처리 방법
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
WO2019235190A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び対話システム
KR20190139489A (ko) * 2018-06-08 2019-12-18 삼성전자주식회사 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
WO2020032563A1 (en) 2018-08-07 2020-02-13 Samsung Electronics Co., Ltd. System for processing user voice utterance and method for operating same
CN109035919B (zh) * 2018-08-31 2021-05-11 广东小天才科技有限公司 一种协助用户解决问题的智能装置及系统
CN109243215B (zh) * 2018-08-31 2021-08-13 广东小天才科技有限公司 一种基于智能装置的交互方法、智能装置及系统
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11393468B2 (en) 2018-11-02 2022-07-19 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR102119404B1 (ko) * 2018-11-28 2020-06-05 주식회사 와이즈넛 복수 챗봇의 협업에 의한 대화형 정보제공 시스템 및 그 방법
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11854535B1 (en) * 2019-03-26 2023-12-26 Amazon Technologies, Inc. Personalization for speech processing applications
US11580970B2 (en) 2019-04-05 2023-02-14 Samsung Electronics Co., Ltd. System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110704594A (zh) * 2019-09-27 2020-01-17 北京百度网讯科技有限公司 基于人工智能的任务型对话交互处理方法、装置
US20230025049A1 (en) * 2020-01-07 2023-01-26 Lg Electronics Inc. Multi-modal input-based service provision device and service provision method
CN111061854B (zh) * 2020-03-11 2021-02-26 支付宝(杭州)信息技术有限公司 智能对话的交互方法、装置和电子设备
CN111552805B (zh) * 2020-04-16 2021-07-09 重庆大学 一种问答系统问句意图识别方法
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
KR20230043397A (ko) * 2021-09-24 2023-03-31 삼성전자주식회사 사용자 발화를 처리하는 서버, 전자 장치 및 그의 동작 방법
WO2023132470A1 (ko) * 2022-01-06 2023-07-13 삼성전자주식회사 사용자 발화를 처리하는 서버, 전자 장치 및 그의 동작 방법
CN115952271B (zh) * 2023-03-09 2023-06-27 杭州心识宇宙科技有限公司 一种生成对话信息的方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050191A1 (en) * 2005-08-29 2007-03-01 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2764343B2 (ja) * 1990-09-07 1998-06-11 富士通株式会社 節/句境界抽出方式
EP1044416A1 (en) * 1998-10-09 2000-10-18 Scansoft, Inc. Automatic inquiry method and system
US6829603B1 (en) * 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
SE517005C2 (sv) * 2000-05-31 2002-04-02 Hapax Information Systems Ab Segmentering av text
US6990639B2 (en) * 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
AU2003275134A1 (en) * 2002-09-19 2004-04-08 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
KR100580619B1 (ko) 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
US7526465B1 (en) * 2004-03-18 2009-04-28 Sandia Corporation Human-machine interactions
KR100643023B1 (ko) 2005-02-26 2006-11-10 조성구 근거리 통신망을 기반으로 하는 대화 도우미 장치
US9123341B2 (en) * 2009-03-18 2015-09-01 Robert Bosch Gmbh System and method for multi-modal input synchronization and disambiguation
KR101622111B1 (ko) * 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050191A1 (en) * 2005-08-29 2007-03-01 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11948567B2 (en) 2018-12-28 2024-04-02 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Also Published As

Publication number Publication date
US20140214410A1 (en) 2014-07-31
US9305569B2 (en) 2016-04-05
US20110144999A1 (en) 2011-06-16
KR20110066357A (ko) 2011-06-17
US8719015B2 (en) 2014-05-06

Similar Documents

Publication Publication Date Title
KR101622111B1 (ko) 대화 시스템 및 그의 대화 방법
US10878815B2 (en) Processing spoken commands to control distributed audio outputs
US11380330B2 (en) Conversational recovery for voice user interface
US11875820B1 (en) Context driven device arbitration
US20230410833A1 (en) User presence detection
US11676575B2 (en) On-device learning in a hybrid speech processing system
US9898250B1 (en) Controlling distributed audio outputs to enable voice output
US11132509B1 (en) Utilization of natural language understanding (NLU) models
US11495229B1 (en) Ambient device state content display
US20230089285A1 (en) Natural language understanding
US11410646B1 (en) Processing complex utterances for natural language understanding
US10504512B1 (en) Natural language speech processing application selection
US11532301B1 (en) Natural language processing
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
CN113314119B (zh) 语音识别智能家居控制方法及装置
US11348579B1 (en) Volume initiated communications
US11626107B1 (en) Natural language processing
US20220161131A1 (en) Systems and devices for controlling network applications
US11798538B1 (en) Answer prediction in a speech processing system
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
US11328713B1 (en) On-device contextual understanding
US11978445B1 (en) Confidence scoring for selecting tones and text of voice browsing conversations
CN116844541A (zh) 音频数据处理方法、人机交互方法、设备和存储介质
CN113555016A (zh) 语音交互方法、电子设备及可读存储介质
CN112883350A (zh) 一种数据处理方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190422

Year of fee payment: 4