KR100580619B1 - 사용자와 에이전트 간의 대화 관리방법 및 장치 - Google Patents
사용자와 에이전트 간의 대화 관리방법 및 장치 Download PDFInfo
- Publication number
- KR100580619B1 KR100580619B1 KR1020020078721A KR20020078721A KR100580619B1 KR 100580619 B1 KR100580619 B1 KR 100580619B1 KR 1020020078721 A KR1020020078721 A KR 1020020078721A KR 20020078721 A KR20020078721 A KR 20020078721A KR 100580619 B1 KR100580619 B1 KR 100580619B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- conversation
- user
- voice
- pattern
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000004044 response Effects 0.000 claims abstract description 41
- 230000008921 facial expression Effects 0.000 claims abstract description 37
- 210000004709 eyebrow Anatomy 0.000 claims description 15
- 210000000744 eyelid Anatomy 0.000 claims description 11
- 238000010195 expression analysis Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 19
- 210000001508 eye Anatomy 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 238000006073 displacement reaction Methods 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
음성정보, 표정정보 및 시간지연정보를 이용하여 신속하고 정확하게 사람과 에이전트 간의 대화를 관리하기 위한 방법 및 장치와 이를 이용한 음성대화시스템이 개시된다. 음성대화시스템은 마이크를 통해 입력되는 사용자의 발화음성을 소정 레벨로 증폭시키는 음성입력부, 상기 음성입력부에서 제공되는 음성신호를 인식하여 문자열신호로 출력하는 음성인식부, 카메라에 의해 촬영된 사용자의 얼굴영상을 입력하는 영상입력부, 사용자의 무응답시간을 소정 시간 계수하는 타이머, 상기 음성인식부의 문자열신호로부터 분석된 대화정보를 이용하여 제1 대화순서 정보를 생성하고, 상기 영상입력부의 얼굴영상으로부터 분석된 표정정보를 이용하여 제2 대화순서 정보를 생성하고, 상기 제1 대화순서 정보, 상기 제2 대화순서 정보, 시스템의 상태정보, 상기 음성입력부의 출력신호 및 상기 타이머의 출력신호를 이용하여 최종적인 대화순서를 결정하는 대화관리부, 및 상기 대화관리부의 제어에 따라서, 대화모델 데이터베이스를 참조하여 상기 음성인식부의 문자열신호에 대응하는 응답문을 생성하는 응답문 생성부를 구비한다.
Description
도 1는 본 발명에 따른 음성대화시스템의 일실시예의 구성을 나타낸 블럭도,
도 2는 도 1에 도시된 대화분석부의 세부 구성을 나타낸 블럭도,
도 3은 도 1에 도시된 표정분석부의 세부 구성을 나타낸 블럭도,
도 4는 도 1에 도시된 대화순서 판정부의 세부 구성을 나타낸 블럭도, 및
도 5는 도 1에 도시된 대화제어부의 동작을 설명하기 위한 흐름도이다.
본 발명은 음성대화시스템에 관한 것으로, 특히 음성정보, 표정정보 및 시간지연정보를 이용하여 신속하고 정확하게 사람과 에이전트 간의 대화를 관리하기 위한 방법 및 장치와 이를 이용한 음성대화시스템에 관한 것이다.
에이전트는 컴퓨터 화면 상에서 수행되는 소프트웨어 에이전트와, 인간이나 동물 형태의 휴머노이드(humanoid)형 완구나 로봇 또는 애완형 완구나 로봇 등의 하드웨어 에이전트가 있다. 이러한 에이전트는 내장된 프로그램에 따라서 사용자와 대화를 나눌 수 있다. 그런데, 대화형태를 살펴보면 에이전트의 질문에 대하여 사용자가 응답하거나, 사용자의 질문에 대하여 에이전트가 응답하거나, 또한 사용자의 명령에 대하여 에이전트가 수행하는 등과 같이 대체적으로 단조로운 경향이 있다. 또한 에이전트에 내장된 프로그램에 의해 만들어지는 시나리오에 따라서 대화내용이 제한되므로 대화의 자유도가 매우 낮을 뿐 아니라, 사용자와 에이전트 간의 대화교환이 자유롭지 못하여 대화가 부자연스러운 경향이 있다.
이와 같은 대화의 단조로움과 부자연스러움을 극복하기 위한 종래기술을 살펴보면, 선행특허인 음성대화장치(일본국공개공보 JP 2002-196789호)에서는 타이머와 카운터에 의해 계측되는 인식대기시간 즉, 에이전트로부터 음성이 발화된 후 사용자가 발화한 음성을 인식하는데 소요되는 시간을 기준으로 사용자와 에이전트 간의 대화를 전개해 나간다. 그런데, 이 경우 사용자가 음성을 발화하지 않고 인식대기시간동안 기다리고 있어야만 에이전트가 발화하기 시작하므로 사용자와 에이전트 간의 대화 교환이 신속하게 행해지지 않게 되어 대화의 전개가 지연될 뿐 아니라 그 결과 사용자가 지루함을 느끼게 되는 문제점이 있다.
따라서 본 발명이 이루고자 하는 기술적 과제는 사용자의 음성정보, 표정정보 및 시간지연정보와 같은 멀티모달 정보를 이용하여 신속하고 정확하게 사용자와 에이전트 간의 대화를 관리하기 위한 방법 및 장치를 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 상기 대화 관리장치를 적용한 음성대화시스템을 제공하는데 있다.
상기 기술적 과제를 달성하기 위한 본 발명에 따른 사용자와 에이전트 간의 대화 관리방법은 음성대화시스템에 있어서, (a) 사용자가 발화한 음성으로부터 분석된 대화정보를 이용하여 제1 대화순서 정보를 생성하는 단계; (b) 사용자의 얼굴영상으로부터 분석된 표정정보를 이용하여 제2 대화순서 정보를 생성하는 단계; 및 (c) 상기 제1 대화순서 정보, 상기 제2 대화순서 정보, 시스템의 상태정보, 사용자의 음성 입력유무 및 사용자의 무응답시간을 이용하여 최종적인 대화순서를 결정하여, 상기 시스템과 상기 사용자간의 대화를 제어하는 단계를 포함한다.
상기 기술적 과제를 달성하기 위한 본 발명에 따른 사용자와 에이전트 간의대화 관리장치는 음성대화시스템에 있어서, 사용자가 발화한 음성으로부터 분석된 대화정보를 이용하여 제1 대화순서 정보를 생성하는 대화분석부; 사용자의 얼굴영상으로부터 분석된 표정정보를 이용하여 제2 대화순서 정보를 생성하는 표정분석부; 소정의 가중치정보를 이용하여, 상기 대화분석부에서 생성된 상기 제1 대화순서 정보와 상기 표정분석부에서 생성된 상기 제2 대화순서 정보 중 하나를 선택하는 대화순서 판정부; 및 상기 대화순서 판정부에서 선택된 대화순서 정보, 시스템의 상태정보, 사용자의 음성 입력유무 및 사용자의 무응답시간을 이용하여 최종적인 대화순서를 결정하여, 상기 시스템과 사용자간의 대화를 제어하는 대화제어부를 포함한다.
상기 다른 기술적 과제를 달성하기 위한 본 발명에 따른 음성대화시스템은 마이크를 통해 입력되는 사용자의 발화음성을 소정 레벨로 증폭시키는 음성입력부; 상기 음성입력부에서 제공되는 음성신호를 인식하여 문자열신호로 출력하는 음성인식부; 카메라에 의해 촬영된 사용자의 얼굴영상을 입력하는 영상입력부; 사용자의 무응답시간을 소정 시간 계수하는 타이머; 상기 음성인식부의 문자열신호로부터 분석된 대화정보를 이용하여 제1 대화순서 정보를 생성하고, 상기 영상입력부의 얼굴영상으로부터 분석된 표정정보를 이용하여 제2 대화순서 정보를 생성하고, 상기 제1 대화순서 정보, 상기 제2 대화순서 정보, 시스템의 상태정보, 상기 음성입력부의 출력신호 및 상기 타이머의 출력신호를 이용하여 최종적인 대화순서를 결정하고, 상기 시스템과 상기 사용자 간의 대화를 관리하는 대화관리부; 및 상기 대화관리부의 제어에 따라서, 대화모델 데이터베이스를 참조하여 상기 음성인식부의 문자열신호에 대응하는 응답문을 생성하는 응답문 생성부를 포함한다.
이어서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명하기로 한다.
도 1는 본 발명에 따른 음성대화시스템의 일실시예의 구성을 나타낸 블럭도로서, 마이크(111), 음성입력부(112), 음성인식부(113), 카메라(114), 영상입력부(115), 타이머(116), 대화관리부(117), 대화생성부(118) 및 응답생성부(119)로 이루어진다. 또한, 대화관리부(117)는 대화분석부(121), 표정추출부(122), 대화순서 판정부(123) 및 대화제어부(124)로 이루어진다.
도 1을 참조하면, 마이크(111)는 사용자가 발화한 음성을 검출하여, 검출된 음성신호를 음성입력부(112)로 인가한다. 음성입력부(112)는 입력된 음성신호를 원하는 레벨로 증폭시켜 음성인식부(113)로 인가한다.
음성인식부(113)는 음성입력부(112)로부터 출력되는 음성신호의 특징 파라미 터를 추출하고, 추출된 특징 파라미터와 단어표준 음성패턴으로서 인식사전 데이터베이스에 등록되어 있는 각 차원의 벡터와 특징 파라미터를 매칭 알고리즘을 이용하여 비교한다. 매칭 알고리즘으로는, 예를 들면 추출된 특징 파라미터의 각 차원의 벡터와 단어표준 음성패턴의 각 차원의 벡터와의 거리를 각각 산출하고 그 총계를 구한다. 구해진 총계를 음성입력부(112)로부터 제공되는 음성신호의 패턴과 단어표준 음성패턴과의 거리(X)라고 한다. 다음, 거리(X)가 최소의 경우를 최고점(예를 들면 100)이 되도록 정규화하고, 이를 인식문자열을 신뢰도(Y)라고 한다. 그리고, 신뢰도(Y)가 가장 높은 단어표준 음성패턴에 대응하는 인식문자열과 신뢰도(Y)를 인식결과로 출력하고, 인식결과에 따른 문자열신호를 대화교환 관리부(117)의 대화분석부(121)로 제공한다.
카메라(114)는 사용자의 정면 얼굴을 포함하도록 촬상하여 해당하는 영상신호를 영상입력부(115)로 인가한다. 영상입력부(115)에서는 입력되는 영상신호를 필터링하여 잡음을 제거하고, 필터링된 영상신호를 대화교환 관리부(117)의 표정분석부(122)로 제공한다. 타이머(116)는 사용자의 음성을 인식한 결과에 대응하여 응답생성부(119)로부터 응답문이 발화된 시점에서부터 사용자로부터 다음 음성이 발화되는 시점까지의 무응답시간을 설정하기 위한 것으로서, 소정 시간 예를 들면 20초로 설정된다.
대화 관리부(117)는 음성입력부(112)의 출력신호, 음성인식부(113)로부터 제공되는 문자신호, 영상입력부(115)로부터 제공되는 사용자의 얼굴영상신호, 및 타이머(116)의 출력신호를 입력으로 하여 시스템의 대화순서를 대화받기(turn-take), 대기(turn-wait), 대화주기(turn-give) 중의 하나로 판정한다.
대화모델 데이터베이스(118)는 화행에 기반하여 대화가 진행될 수 있는 상황을 미리 표현하여 저장해 둔 것이다. 응답생성부(119)는 음성인식부(113)에서의 음성인식결과 및 대화 관리부(117)의 판정된 대화순서에 따라서 대화모델 데이터베이스(118)를 참조하여 응답문을 결정하고, 결정된 응답문에 해당하는 텍스트와 제스쳐를 생성한다.
도 2는 도 1에 도시된 대화분석부(121)의 세부적인 구성을 나타낸 블럭도로서, 사전 데이터베이스(211), 형태소 분석부(212), 키워드 추출부(213), 문형패턴 데이터베이스(214), 문형패턴검색부(215), 대화이력 데이터베이스(216) 및 후보 대화순서 선택부(217)로 이루어진다.
도 2를 참조하면, 형태소 분석부(212)는 음성인식부(113)로부터 제공되는 문자열신호를 사전 데이터베이스(211)를 참조하여 실질형태소와 형식형태소로 분석한다. 키워드 추출부(213)는 형태소 분석부(212)에서 분류된 실질형태소와 형식형태소를 기초로 하여 문형정보, 양상(modal) 정보 및 담화표지정보 등과 같은 키워드를 추출한다. 여기서, 문형정보는 특정화행이 실현될 때 사용되는 문장유형 예를 들면, 단언문(assert), 질의문(yn-quest, wh-quest), 명령문(imperative) 등을 의미하고, 양상 정보는 '하고 싶'(want), '아/어 주'(request), '할 수 있'(possible) 등과 같은 서술어를 의미하고. 담화표지정보는 '그런데', '그래서', '그러면' 등과 같은 접속부사를 의미한다. 용언정보는 일반동사(pvg), 성상형용사(paa), 지시형용사(pad) 등이 있다.
문형패턴 데이터베이스(214)는 문형정보, 양상정보, 담화표지정보에 따른 화행정보 및 대화순서를 통계적 또는 실험적으로 데이터베이스화한 것으로서, 그 일예는 다음 표 1에서와 같다.
화행 | 문형 | 용언 | Modal | 담화표지 | 대화순서 |
Request-act | imperative | pvg | request | - | Turn Take |
Request-act | yn-quest | pvg | possible | - | Turn Take |
Request-act | assert | pvg | want | - | Turn Take |
Ask-ref | imperative | 말하다 | request | - | Turn Take |
inform | assert | paa | - | - | Turn Wait |
inform | assert | pvg | want | - | Turn Wait |
response | assert | pvg | want | - | Turn Wait |
response | assert | frag | - | - | Turn Wait |
suggest | wh-quest | pad | - | 그러면 | Turn Take |
suggest | assert | 추천하다 | want | - | Turn Take |
... | ... | ... | ... | ... | ... |
문형패턴 검색부(215)는 키워드 추출부(213)에서 추출된 키워드 즉, 문형정보, 양상정보 및 담화표지정보를 기초로 하여 문형패턴 데이터베이스(214)로부터 해당하는 (화행정보, 대화순서) 조합을 추출한다. 이때 표 1을 참조하면, 문형정보와 양상정보가 동일하더라도 여러가지 화행이 존재함을 알 수 있다. 예를 들면, 문형정보가 단언문(assert)이고 양상 정보가 '하고 싶'(want)에 해당하는 경우 화행이 행위요구(request-act), 정보제공(inform), 응답(response) 중의 하나에 해당하고, 이에 따라서 대화순서가 각각 대화받기(turn-take), 대기(turn-wait), 대기(turn-wait)가 된다. 따라서, 문형패턴 검색부(215)에서는 적어도 하나 이상의 (화행정보, 대화순서) 조합이 추출될 수 있다.
대화이력 데이터베이스(216)는 이전 대화 문장들의 화행정보를 데이터베이스화한 것으로서, 가장 최근의 이전 문장들부터 참조할 수 있는 스택 구조를 가진다. 즉, 하나의 문형패턴은 상황에 따라 다른 화행을 의미할 수도 있기 때문에 이전 대화의 내용이 중요한 단서가 되는 것이다.
후보 대화순서 선택부(217)는 문형패턴 검색부(215)로부터 추출된 적어도 하나 이상의 (화행정보, 대화순서) 조합에 대하여 대화이력 데이터베이스(216)를 참조하여 현재 인식된 음성에 해당하는 (화행정보, 대화순서) 조합을 결정한다. 즉, 문형패턴 검색부(215)로부터 하나의 (화행정보, 대화순서) 조합이 추출되는 경우에는 대화이력 데이터베이스(216)를 참조할 필요가 없으나, 두개 이상의 (화행정보, 대화순서) 조합이 추출되는 경우에는 대화이력 데이터베이스(216)를 참조하여 바로 이전의 문장의 화행정보에 대응하는 (화행정보, 대화순서) 조합을 결정한다. 후보 대화순서 선택부(217)는 결정된 (화행정보, 대화순서) 조합에서 대화순서정보 즉, 대화받기(turn-take) 또는 대기(turn-wait) 신호를 추출하여 대화순서 판정부(123)로 출력한다.
도 3은 도 1에 도시된 표정분석부(122)의 세부적인 구성을 나타낸 블럭도로서, 영상 정규화부(311), 얼굴패턴 데이터베이스(312), 얼굴패턴 검색부(313), 움직임정보 생성부(314), 표정패턴 데이터베이스(315) 및 표정정보 검색부(316)로 이루어진다.
도 3을 참조하면, 영상 정규화부(311)는 영상 입력부(115)로부터 제공되는 영상신호에 대하여 일정한 사이즈, 일정한 색상 및 일정한 밝기를 갖도록 정규화하고, 정규화된 영상신호를 얼굴패턴 검색부(313)로 제공한다.
얼굴패턴 데이터베이스(312)는 얼굴패턴의 인식을 위한 특징점에 대한 데이 터가 저장되어 있으며, 이는 영상정보에서 얼굴정보를 검출하는데 사용된다. 즉, 얼굴패턴 데이터베이스(312)에는 얼굴패턴에 대한 데이터와 얼굴패턴이 아닌 데이터 및 얼굴패턴 중에서도 눈, 눈썹, 눈꺼풀 패턴에 대하여 학습과정을 통하여 생성된 특징점 데이타가 저장되어 있다.
얼굴패턴 검색부(313)는 영상 정규화부(311)에서 정규화된 영상신호로부터 얼굴패턴정보가 손실되지 않도록 특징벡터를 추출한다. 패턴인식을 위한 특징점 추출 기술로는 PCA(Principle Component Analysis), ICA(Independent Component Analysis), 웨이블릿 가버 필터링((Wavelet Gaber filtering) 등과 같은 다양한 방법이 적용될 수 있다. 정규화된 영상신호에서 추출된 특징벡터와 사전에 학습하여 얼굴패턴 데이터베이스(312)에 저장해 둔 특징점 데이터를 이용하여 영상신호에 얼굴패턴이 있는지를 판단하여, 얼굴패턴이 있는 경우 그 얼굴패턴내의 눈, 눈썹 또는 눈꺼풀 패턴을 검색하고, 각 패턴의 특징점의 위치정보를 얻는다. 여기서, 얼굴패턴 검색부(313)에서의 패턴인식을 위하여 선형 분류기(linear classifier) 뿐만 아니라 신경회로망이나 SVM(Support Vector Machine)과 같은 비선형 분류기를 적용할 수 있다.
움직임정보 생성부(314)는 얼굴패턴 검색부(313)에서 검색된 얼굴패턴, 눈, 눈썹 또는 눈꺼풀 패턴의 특징점의 위치정보로부터 시공간적인 움직임을 검출하여 움직임정보를 생성한다. 이때, 눈을 뜨고 정면을 향한 기본 얼굴패턴에서의 눈, 눈썹 또는 눈꺼풀 패턴의 각 특징점의 위치정보와 얼굴패턴 검색부(313)에서 검색된 얼굴패턴, 눈, 눈썹 또는 눈꺼풀 패턴의 각 특징점의 위치정보를 비교하여 소정 시간동안의 변위정보에 따라서 각 부분의 움직임정보를 생성한다.
표정패턴 데이터베이스(315)는 현재 발화자 및 표정패턴 대 대화순서를 통계적 또는 실험적으로 데이터베이스화한 것으로서, 일예는 다음 표 2에서와 같다.
움직임정보 | 표정패턴 | 현재 발화자 | 상태 | 대화순서 |
EYE (LOCATION) | CONTACT EYE-EYE | USER | 말하고 있는 상황 곧 상대방의 응답기대 | Turn Take |
EYELID (MOVING) | BLINK EYE | USER | 말하고 있는 상황 즉시 상대방의 응답기대 | Turn Take |
EYE (MOVING) | LOOK AWAY | SYSTEM | 듣고 있는 상황 곧 말을 하려고 함 | Turn Give |
FACE (MOVING) | NODDING | SYSTEM | 듣고 있는 상황 곧 말을 하려고 함 | Turn Give |
EYEBROW (MOVING) | RAISE EYEBROW | SYSTEM | 듣고 있는 상황 계속 듣고 있음 | Turn Wait |
이를 위하여, 먼저 눈 패턴의 각 특징점의 변위정보가 '0'에 가까우면 움직임이 없이 정면을 향해 즉, 에이전트를 향해 보고 있는 것으로 판단하여 표정패턴을 'contact eye-eye'로 설정하고, 얼굴, 눈, 눈썹 또는 눈꺼풀 패턴의 특징점 중 일정 부분의 변위정보에 따라서 표정패턴을 눈을 깜박거리는 상태('blink eye'), 머리를 끄덕이는 상태('nodding'), 눈썹을 치켜 뜬 상태('raise eyebrow'), 딴 곳을 응시하는 상태('look away') 등으로 분류한다. 다음, 분류된 각 표정패턴에 대하여 현재 발화자가 누구인지에 따라서 최종 대화순서를 결정하여 데이터베이스화한다.
표정정보 검색부(316)는 움직임정보 생성부(314)로부터 제공되는 움직임정보즉, 변위정보 및 현재 발화자 정보를 이용하여 표정패턴 데이터베이스(315)를 검색함으로써, 표정패턴에 따른 대화순서를 추출한다. 표 2를 참조하면, 예를 들어 현 재 발화자가 사용자이고 사용자의 표정패턴이 시스템과 마주보고 있는 경우에는 대화순서를 에이전트 즉, 시스템의 대화받기(turn-take)로, 발화자가 시스템이고 사용자의 표정패턴이 딴 곳을 응시하는 경우 대화순서를 사용자의 대화받기 즉, 시스템의 대화주기(turn-give)로, 발화자가 시스템이고 사용자의 표정패턴이 눈썹을 치켜 뜬 경우에는 시스템의 대기(turn-wait)로 결정한다.
도 4는 도 1에 도시된 대화순서 판정부(123)의 세부적인 구성을 나타낸 블럭도로서, 조합부(411), 가중치 데이터베이스(412) 및 가중치검색부(413)로 이루어진다.
도 4를 참조하면, 조합부(411)는 대화분석부(121)와 표정분석부(122)로부터 제공되는 대화순서 정보를 조합하여 가중치 검색부(143)로 출력한다. 이때, 대화분석부(121)와 표정분석부(122)로부터 동일한 대화순서 정보가 제공되는 경우에는 해당 대화순서 정보를 바로 대화제어부(124)로 제공한다.
가중치 데이터베이스(412)는 대화분석부(121)와 표정분석부(122)로부터 제공되는 대화순서 정보가 서로 다른 경우, 각 조합을 이루는 대화분석부(121)의 대화순서 정보와 표정분석부(122)의 대화순서 정보에 대하여 각각 할당되는 가중치를 통계적 및 실험적으로 데이터베이스화한 것이다. 예를 들면, 대화분석부(121)의 대화순서 정보가 대화받기(turn-take)이고, 표정분석부(122)의 대화순서 정보가 대기(turn-wait)로 이루어지는 조합인 경우, 대화분석부(121)의 판정결과에 0.7, 표정분석부(122)의 판정결과에 0.3을 할당할 수 있다.
가중치검색부(413)는 가중치 데이터베이스(412)에서 조합부(411)로부터 제공 되는 대화순서 정보의 조합에 해당되는 가중치들을 검색하여, 하나의 조합에서 더 높은 가중치가 할당된 대화순서 정보를 대화제어부(124)로 제공한다.
도 5는 도 1에 도시된 대화제어부(124)의 동작을 보여주는 흐름도로서, 시스템의 상태정보, 음성입력부(112)의 출력신호, 타이머(116)의 출력신호와 대화순서 판정부(123)의 대화순서 정보로 부터 최종적인 대화순서를 결정하고, 결정된 대화순서에 따라 응답생성부(119)의 동작을 제어한다.
도 5를 참조하면, 511 단계에서는 현재 시스템의 상태를 판단하는데, 판단결과 시스템이 발화하는 상태이면 512 단계로 이행하고, 시스템이 발화하는 상태가 아니면 517 단계로 이행한다.
512 단계에서는 음성입력부(112)로부터 공급되는 음성신호가 존재하는지를 판단하고, 음성신호가 존재하는 경우에는 시스템이 발화하는 것과 동시에 사용자 또한 발화하는 상태이므로 시스템의 발화를 중지시킨다(513 단계). 한편, 512 단계에서의 판단결과, 음성입력부(112)로부터 공급되는 음성신호가 존재하지 않는 경우에는 현재 시스템이 발화하고 있는 응답문의 남은 분량이 소정 시간 예를 들면 5초 이내에 해당하는지, 즉 5초 이내에 시스템이 응답문의 발화를 완료할 수 있는지를 판단한다(514 단계). 514 단계에서의 판단결과, 응답문의 남은 분량이 5초 이상인 경우에는 512 단계로 복귀하여 음성입력부(112)의 출력신호를 계속 모니터링한다.
515 단계에서는 514 단계에서의 판단결과, 응답문의 남은 분량이 5초 이내인 경우 대화순서 판정부(123)로부터 제공되는 대화순서 정보를 참조하여, 대화순서 정보가 대화주기(turn-give) 또는 대기(turn-wait)에 해당되면 시스템의 발화를 중지시킨다(513 단계). 한편, 515 단계에 있어서, 대화순서 판정부(123)로부터 제공되는 대화순서 정보가 대화받기(turn-take)인 경우에는 시스템의 발화를 계속 유지시킨다(516 단계).
517 단계에서는 511 단계에서의 판단결과, 시스템이 발화하는 상태가 아닌 경우 타이머(116)의 출력신호와 음성입력부(112)의 출력신호를 모니터링하여 시스템이 응답문을 발화한 시점부터 계수한 사용자의 무응답시간이 일정 시간, 예를 들면 20초가 경과하였는지를 판단한다. 517 단계에서의 판단결과, 무응답시간이 20초를 경과한 경우 시스템이 발화를 개시하도록 제어하고, 무응답시간이 20초를 경과하지 않은 경우 515 단계로 이행하여 대화순서 판정부(123)로부터 제공되는 대화순서 판정결과에 따라서 다음 단계를 진행한다.
한편, 상술한 본 발명의 실시예는 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 예컨데 롬, 플로피 디스크, 하드디스크 등과 같은 마그네틱 저장매체, 예컨데 씨디롬, 디브이디 등과 같은 광학적 판독매체, 및 예컨데 인터넷을 통한 전송과 같은 캐리어 웨이브와 같은 저장매체를 포함한다.
상술한 바와 같이 본 발명에 따르면, 음성대화시스템에 있어서 사용자의 음성정보, 표정정보 및 시간지연정보와 같은 멀티모달 정보를 이용하여 대화순서를 결정하고, 결정된 대화순서에 의거하여 신속하고 정확하게 사용자와 에이전트 간의 대화를 관리함으로써 보다 자연스럽게 대화를 전개해 나갈 수 있으므로 사용자의 흥미를 유발시킬 수 있다.
본 발명에 대해 상기 실시예를 참고하여 설명하였으나, 이는 예시적인 것에 불과하며, 본 발명에 속하는 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
Claims (15)
- 음성대화시스템에 있어서,(a) 사용자가 발화한 음성으로부터 분석된 대화정보를 이용하여 제1 대화순서 정보를 생성하는 단계;(b) 사용자의 얼굴영상으로부터 분석된 표정정보를 이용하여 제2 대화순서 정보를 생성하는 단계; 및(c) 상기 제1 대화순서 정보, 상기 제2 대화순서 정보, 시스템의 상태정보, 사용자의 음성 입력유무 및 사용자의 무응답시간을 이용하여 최종적인 대화순서를 결정하고, 결정된 대화순서에 의거하여 상기 시스템과 상기 사용자간의 대화를 제어하는 단계를 포함하는 사용자와 에이전트 간의 대화 관리방법.
- 제1 항에 있어서, 상기 (a) 단계는(a1) 사용자가 발화한 음성을 인식하여 형태소를 분석하는 단계;(a2) 분석된 형태소를 이용하여 문형정보, 양상정보 및 담화표지정보를 추출하는 단계; 및(a3) 추출된 문형정보, 양상정보 및 담화표지정보를 이용하여 상기 제1 대화순서 정보를 생성하는 단계를 구비하는 사용자와 에이전트 간의 대화 관리방법.
- 제2 항에 있어서, (a) 단계는(a4) 상기 추출된 문형정보, 양상정보 및 담화표지정보에 대응하는 대화순서 정보가 적어도 하나 이상 존재하는 경우, 최근의 대화이력을 참조하여 상기 제1 대화순서 정보를 생성하는 단계를 더 구비하는 사용자와 에이전트 간의 대화 관리방법.
- 제1 항에 있어서, 상기 (b) 단계는(b1) 사용자의 얼굴영상으로부터 얼굴패턴, 눈패턴, 눈썹패턴 및 눈꺼풀 패턴 정보를 얻는 단계;(b2) 상기 (b1) 단계에서 얻어진 얼굴패턴, 눈패턴, 눈썹패턴 및 눈꺼풀 패턴 정보와 기준 패턴정보를 비교하여 사용자의 움직임정보를 생성하는 단계; 및(b3) 상기 (b2) 단계에서 생성된 사용자의 움직임정보를 이용하여 상기 제2 대화순서 정보를 생성하는 단계를 구비하는 사용자와 에이전트 간의 대화 관리방법.
- 제1 항에 있어서, 상기 (c) 단계는(c1) 소정의 가중치정보를 이용하여 상기 제1 대화순서 정보와 상기 제2 대화순서 정보 중 하나를 선택하는 단계;(c2) 상기 시스템의 상태정보로부터 상기 시스템이 발화상태인지를 판단하는 단계;(c3) 상기 시스템이 발화상태이면, 사용자의 음성 입력유무 및 상기 (c1) 단계에서 선택된 대화순서 정보에 따라서 최종적인 대화순서를 결정하는 단계; 및(c4) 상기 시스템이 발화상태가 아니면, 상기 사용자의 무응답시간 또는 상기 (c1) 단계에서 선택된 대화순서 정보에 따라서 최종적인 대화순서를 결정하는 단계를 구비하는 사용자와 에이전트 간의 대화 관리방법.
- 제5 항에 있어서, 상기 (c3) 단계는(c31) 사용자의 음성이 입력되는지를 판단하는 단계;(c32) 상기 (c31) 단계의 판단결과, 사용자의 음성이 입력되는 경우, 상기 시스템의 발화를 중지시키는 단계; 및(c33) 상기 (c31) 단계의 판단결과, 사용자의 음성이 입력되지 않는 경우 상기 (c1) 단계에서 선택된 대화순서 정보에 따라서 상기 시스템을 발화중지, 발화유지 및 발화개시 중의 하나로 제어하는 단계를 구비하는 사용자와 에이전트 간의 대화 관리방법.
- 제6 항에 있어서, 상기 (c33) 단계는 사용자의 음성이 입력되지 않는 경우 현재 시스템이 발화중인 응답문의 남은 분량을 체크하고, 남은 분량이 소정 시간이내에 완료되는 분량인 경우, 상기 (c1) 단계에서 선택된 대화순서 정보를 판단하는 사용자와 에이전트 간의 대화 관리방법.
- 제5 항에 있어서, 상기 (c4) 단계는(c41) 상기 사용자의 무응답시간이 일정 시간을 경과하였는지를 판단하는 단계;(c42) 상기 (c41) 단계의 판단결과, 무응답시간이 일정시간을 경과한 경우 상기 시스템을 발화개시로 제어하는 단계; 및(c43) 상기 (c41) 단계의 판단결과, 무응답시간이 일정시간을 경과하지 않는 경우 상기 (c1) 단계에서 선택된 대화순서 정보에 따라서 상기 시스템을 발화중지, 발화유지 및 발화개시 중의 하나로 제어하는 단계를 구비하는 사용자와 에이전트 간의 대화 관리방법.
- 제1 항 내지 제8 항 중 어느 한 항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 음성대화시스템에 있어서,사용자가 발화한 음성으로부터 분석된 대화정보를 이용하여 제1 대화순서 정보를 생성하는 대화분석부;사용자의 얼굴영상으로부터 분석된 표정정보를 이용하여 제2 대화순서 정보를 생성하는 표정분석부;소정의 가중치정보를 이용하여, 상기 대화분석부에서 생성된 상기 제1 대화순서 정보와 상기 표정분석부에서 생성된 상기 제2 대화순서 정보 중 하나를 선택하는 대화순서 판정부; 및상기 대화순서 판정부에서 선택된 대화순서 정보, 시스템의 상태정보, 사용자의 음성 입력유무 및 사용자의 무응답시간을 이용하여 최종적인 대화순서를 결정하고, 결정된 대화순서에 의거하여 상기 시스템과 상기 사용자간의 대화를 제어하는 대화제어부를 포함하는 사용자와 에이전트 간의 대화 관리장치.
- 제10 항에 있어서, 상기 대화분석부는인식된 사용자의 발화음성으로부터 형태소를 분석하는 형태소 분석부;상기 형태소 분석부에서 분석된 형태소를 이용하여 문형정보, 양상정보 및 담화표지정보를 추출하는 키워드 추출부;문형정보, 양상정보 및 담화표지정보에 따른 화행정보 및 대화순서를 데이터베이스화한 문형패턴 데이터베이스; 및상기 키워드 추출부에서 추출된 문형정보, 양상정보 및 담화표지정보를 이용하여 상기 문형패턴 데이터베이스를 검색하여 상기 제1 대화순서 정보를 생성하는 문형패턴 검색부를 구비하는 사용자와 에이전트 간의 대화 관리장치.
- 제11 항에 있어서, 상기 대화분석부는가장 최근의 대화 문장의 화행정보를 데이터베이스화한 대화이력 데이터베이스; 및상기 문형패턴 검색부에서의 검색결과, 상기 문형패턴 데이터베이스로부터 적어도 하나 이상의 대화순서 정보가 검색되는 경우 상기 대화이력 데이터베이스를 참조하여 상기 제1 대화순서 정보를 선택하는 후보 대화순서 선택부를 더 구비하는 사용자와 에이전트 간의 대화 관리장치.
- 제10 항에 있어서, 상기 표정분석부는사용자의 얼굴영상을 일정한 사이즈와 색상으로 정규화하는 영상정규화부;얼굴패턴, 눈패턴, 눈썹패턴 및 눈꺼풀 패턴의 인식을 위한 특징점에 대한 데이터가 저장되는 얼굴패턴 데이터베이스;상기 얼굴패턴 데이터베이스를 검색하여, 상기 정규화된 얼굴영상에 대한 얼굴패턴, 눈패턴, 눈썹패턴 및 눈꺼풀 패턴의 위치정보를 획득하는 얼굴패턴 검색부;상기 얼굴패턴 검색부에서 얻어진 위치정보와 기준 패턴에 대한 위치정보를 비교하여 움직임정보를 생성하는 움직임정보 생성부;움직임정보로 결정되는 표정패턴과 현재 발화자에 따른 대화순서를 데이터베이스화한 표정패턴 데이터베이스; 및상기 움직임정보 생성부에서 생성된 움직임정보를 이용하여 상기 표정패턴 데이터베이스를 검색하여 상기 제2 대화순서 정보를 생성하는 표정패턴 검색부를 구비하는 사용자와 에이전트 간의 대화 관리장치.
- 제10 항에 있어서, 상기 대화제어부는 상기 시스템의 상태정보로부터 상기 시스템이 발화상태인지를 판단하는 기능, 상기 시스템이 발화상태이면 사용자의 음성 입력유무 및 상기 대화순서 판정부에서 선택된 대화순서 정보에 따라서 최종적인 대화순서를 결정하는 기능; 및 상기 시스템이 발화상태가 아니면, 상기 사용자의 무응답시간 또는 상기 상기 대화순서 판정부에서 선택된 대화순서 정보에 따라서 최종적인 대화순서를 결정하는 기능을 수행하는 사용자와 에이전트 간의 대화 관리장치.
- 마이크를 통해 입력되는 사용자의 발화음성을 소정 레벨로 증폭시키는 음성입력부;상기 음성입력부에서 제공되는 음성신호를 인식하여 문자열신호로 출력하는 음성인식부;카메라에 의해 촬영된 사용자의 얼굴영상을 입력하는 영상입력부;사용자의 무응답시간을 소정 시간 계수하는 타이머;상기 음성인식부의 문자열신호로부터 분석된 대화정보를 이용하여 제1 대화순서 정보를 생성하고, 상기 영상입력부의 얼굴영상으로부터 분석된 표정정보를 이용하여 제2 대화순서 정보를 생성하고, 상기 제1 대화순서 정보, 상기 제2 대화순서 정보, 시스템의 상태정보, 상기 음성입력부의 출력신호 및 상기 타이머의 출력신호를 이용하여 최종적인 대화순서를 결정하고, 결정된 대화순서에 의거하여 상기 시스템과 상기 사용자간의 대화를 관리하는 대화관리부; 및상기 대화관리부의 관리 하에, 대화모델 데이터베이스를 참조하여 상기 음성인식부의 문자열신호에 대응하는 응답문을 생성하는 응답문 생성부를 포함하는 음성대화시스템.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020078721A KR100580619B1 (ko) | 2002-12-11 | 2002-12-11 | 사용자와 에이전트 간의 대화 관리방법 및 장치 |
DE60334599T DE60334599D1 (de) | 2002-12-11 | 2003-12-10 | Verfahren und Vorrichtung zur Dialogverwaltung zwischen Benutzer und Agent |
EP03257771A EP1431960B1 (en) | 2002-12-11 | 2003-12-10 | Method and apparatus for managing dialog between user and agent |
JP2003413065A JP4401155B2 (ja) | 2002-12-11 | 2003-12-11 | ユーザとエージェント間の対話管理方法及び装置 |
US10/732,235 US7734468B2 (en) | 2002-12-11 | 2003-12-11 | Method of and apparatus for managing dialog between user and agent |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020078721A KR100580619B1 (ko) | 2002-12-11 | 2002-12-11 | 사용자와 에이전트 간의 대화 관리방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040050928A KR20040050928A (ko) | 2004-06-18 |
KR100580619B1 true KR100580619B1 (ko) | 2006-05-16 |
Family
ID=32388321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020020078721A KR100580619B1 (ko) | 2002-12-11 | 2002-12-11 | 사용자와 에이전트 간의 대화 관리방법 및 장치 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7734468B2 (ko) |
EP (1) | EP1431960B1 (ko) |
JP (1) | JP4401155B2 (ko) |
KR (1) | KR100580619B1 (ko) |
DE (1) | DE60334599D1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011065686A3 (en) * | 2009-11-27 | 2011-11-10 | Samsung Electronics Co., Ltd. | Communication interface apparatus and method for multi-user and system |
KR20200031245A (ko) | 2018-09-14 | 2020-03-24 | 한국과학기술연구원 | 사용자 성격을 고려한 강화학습 기반 적응형 로봇 대화시스템 및 이를 이용한 적응형 로봇 대화방법 |
KR20200036089A (ko) * | 2018-09-20 | 2020-04-07 | 한국전자통신연구원 | 상호 작용 장치 및 방법 |
Families Citing this family (97)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2006039120A (ja) * | 2004-07-26 | 2006-02-09 | Sony Corp | 対話装置および対話方法、並びにプログラムおよび記録媒体 |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
KR100732611B1 (ko) * | 2006-04-25 | 2007-06-28 | 학교법인 포항공과대학교 | 음성대화 오류검증을 통한 확인대화 방법 및 장치 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8977631B2 (en) * | 2007-04-16 | 2015-03-10 | Ebay Inc. | Visualization of reputation ratings |
DK2012304T3 (da) * | 2007-07-06 | 2012-11-19 | Zero To One Technology Comscope | Fremgangsmåder til elektronisk analyse af en dialog samt tilsvarende systemer |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
JPWO2010013369A1 (ja) | 2008-07-30 | 2012-01-05 | 三菱電機株式会社 | 音声認識装置 |
JP5049934B2 (ja) * | 2008-09-22 | 2012-10-17 | 株式会社東芝 | 対話文生成装置及び方法 |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR101622111B1 (ko) | 2009-12-11 | 2016-05-18 | 삼성전자 주식회사 | 대화 시스템 및 그의 대화 방법 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
JP6078964B2 (ja) | 2012-03-26 | 2017-02-15 | 富士通株式会社 | 音声対話システム及びプログラム |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
KR102044054B1 (ko) * | 2012-09-12 | 2019-11-12 | 소니 주식회사 | 화상 제어 장치 및 화상 제어 방법 |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9368114B2 (en) * | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
JP2014191212A (ja) * | 2013-03-27 | 2014-10-06 | Seiko Epson Corp | 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US20150039312A1 (en) * | 2013-07-31 | 2015-02-05 | GM Global Technology Operations LLC | Controlling speech dialog using an additional sensor |
KR101478459B1 (ko) * | 2013-09-05 | 2014-12-31 | 한국과학기술원 | 언어 지연 치료 시스템 및 그 시스템 제어 방법 |
JP6411017B2 (ja) * | 2013-09-27 | 2018-10-24 | クラリオン株式会社 | サーバ、及び、情報処理方法 |
KR102175539B1 (ko) * | 2013-10-18 | 2020-11-06 | 에스케이텔레콤 주식회사 | 사용자 발화 스타일에 따른 대화형 서비스 장치 및 방법 |
US10832005B1 (en) | 2013-11-21 | 2020-11-10 | Soundhound, Inc. | Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
WO2016044290A1 (en) | 2014-09-16 | 2016-03-24 | Kennewick Michael R | Voice commerce |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US9269374B1 (en) | 2014-10-27 | 2016-02-23 | Mattersight Corporation | Predictive video analytics system and methods |
CN104407834A (zh) * | 2014-11-13 | 2015-03-11 | 腾讯科技(成都)有限公司 | 信息输入方法和装置 |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
CN108369767B (zh) * | 2015-12-06 | 2021-12-14 | 声钰科技 | 基于用户认知状态和/或情境状态的会话调整系统和方法 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10140986B2 (en) * | 2016-03-01 | 2018-11-27 | Microsoft Technology Licensing, Llc | Speech recognition |
US10192550B2 (en) * | 2016-03-01 | 2019-01-29 | Microsoft Technology Licensing, Llc | Conversational software agent |
US10140988B2 (en) * | 2016-03-01 | 2018-11-27 | Microsoft Technology Licensing, Llc | Speech recognition |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN114756648A (zh) | 2016-05-06 | 2022-07-15 | 索尼公司 | 信息处理系统和信息处理方法 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
JP6461058B2 (ja) * | 2016-09-06 | 2019-01-30 | 国立大学法人京都大学 | 音声対話装置および音声対話装置を用いた自動対話方法 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
EP3486900A1 (en) * | 2017-11-16 | 2019-05-22 | Softbank Robotics Europe | System and method for dialog session management |
KR102463581B1 (ko) * | 2017-12-05 | 2022-11-07 | 현대자동차주식회사 | 대화 시스템 및 이를 포함하는 차량 |
US10636421B2 (en) | 2017-12-27 | 2020-04-28 | Soundhound, Inc. | Parse prefix-detection in a human-machine interface |
CN109986553B (zh) * | 2017-12-29 | 2021-01-08 | 深圳市优必选科技有限公司 | 一种主动交互的机器人、系统、方法及存储装置 |
EP3739573B1 (en) * | 2018-01-12 | 2023-06-28 | Sony Group Corporation | Information processing device, information processing method, and program |
JP7032284B2 (ja) * | 2018-10-24 | 2022-03-08 | Kddi株式会社 | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 |
CN113965541B (zh) * | 2018-12-25 | 2023-06-02 | 创新先进技术有限公司 | 会话表情处理方法以及装置 |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
KR102331675B1 (ko) | 2019-09-09 | 2021-11-30 | 엘지전자 주식회사 | 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법 |
WO2024025178A1 (en) * | 2022-07-25 | 2024-02-01 | Samsung Electronics Co., Ltd. | A system to provide natural utterance by a voice assistant and method thereof |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208388A (ja) * | 1993-01-08 | 1994-07-26 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 対話音声認識装置 |
JPH06301393A (ja) * | 1993-04-13 | 1994-10-28 | Matsushita Electric Ind Co Ltd | 音声区間検出装置及び音声認識装置 |
JPH07239694A (ja) * | 1994-03-02 | 1995-09-12 | Oki Electric Ind Co Ltd | 音声対話装置 |
JPH11237971A (ja) * | 1998-02-23 | 1999-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声応答装置 |
KR20020068235A (ko) * | 2001-02-20 | 2002-08-27 | 유재천 | 치아와 입술 영상을 이용한 음성인식 장치 및 방법 |
JP2002244841A (ja) * | 2001-02-21 | 2002-08-30 | Japan Science & Technology Corp | 音声表示システム及び音声表示プログラム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
JP3452098B2 (ja) * | 1995-04-04 | 2003-09-29 | アイシン・エィ・ダブリュ株式会社 | 車両用ナビゲーション装置 |
JPH09269889A (ja) | 1996-04-02 | 1997-10-14 | Sharp Corp | 対話装置 |
US5865626A (en) * | 1996-08-30 | 1999-02-02 | Gte Internetworking Incorporated | Multi-dialect speech recognition method and apparatus |
JPH10289006A (ja) * | 1997-04-11 | 1998-10-27 | Yamaha Motor Co Ltd | 疑似感情を用いた制御対象の制御方法 |
US6199043B1 (en) * | 1997-06-24 | 2001-03-06 | International Business Machines Corporation | Conversation management in speech recognition interfaces |
US6098043A (en) * | 1998-06-30 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved user interface in speech recognition systems |
US6570555B1 (en) * | 1998-12-30 | 2003-05-27 | Fuji Xerox Co., Ltd. | Method and apparatus for embodied conversational characters with multimodal input/output in an interface device |
US6246986B1 (en) * | 1998-12-31 | 2001-06-12 | At&T Corp. | User barge-in enablement in large vocabulary speech recognition systems |
JP2000276326A (ja) | 1999-03-25 | 2000-10-06 | Victor Co Of Japan Ltd | 音声入力対話装置、音声入力対話方法および音声入力対話プログラムを格納したコンピュータ読み取り可能な記録媒体 |
JP3514372B2 (ja) * | 1999-06-04 | 2004-03-31 | 日本電気株式会社 | マルチモーダル対話装置 |
US6219640B1 (en) * | 1999-08-06 | 2001-04-17 | International Business Machines Corporation | Methods and apparatus for audio-visual speaker recognition and utterance verification |
US6724864B1 (en) * | 2000-01-20 | 2004-04-20 | Comverse, Inc. | Active prompts |
JP2002023783A (ja) * | 2000-07-13 | 2002-01-25 | Fujitsu Ltd | 対話処理システム |
US6785651B1 (en) * | 2000-09-14 | 2004-08-31 | Microsoft Corporation | Method and apparatus for performing plan-based dialog |
US6721706B1 (en) * | 2000-10-30 | 2004-04-13 | Koninklijke Philips Electronics N.V. | Environment-responsive user interface/entertainment device that simulates personal interaction |
JP2002196789A (ja) | 2000-12-25 | 2002-07-12 | Matsushita Electric Ind Co Ltd | 音声対話装置 |
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US7177810B2 (en) * | 2001-04-10 | 2007-02-13 | Sri International | Method and apparatus for performing prosody-based endpointing of a speech signal |
GB2378776A (en) * | 2001-05-22 | 2003-02-19 | Canon Kk | Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other |
US6941268B2 (en) * | 2001-06-21 | 2005-09-06 | Tellme Networks, Inc. | Handling of speech recognition in a declarative markup language |
US7505908B2 (en) * | 2001-08-17 | 2009-03-17 | At&T Intellectual Property Ii, L.P. | Systems and methods for classifying and representing gestural inputs |
US7019749B2 (en) * | 2001-12-28 | 2006-03-28 | Microsoft Corporation | Conversational interface agent |
US6999931B2 (en) * | 2002-02-01 | 2006-02-14 | Intel Corporation | Spoken dialog system using a best-fit language model and best-fit grammar |
-
2002
- 2002-12-11 KR KR1020020078721A patent/KR100580619B1/ko not_active IP Right Cessation
-
2003
- 2003-12-10 DE DE60334599T patent/DE60334599D1/de not_active Expired - Lifetime
- 2003-12-10 EP EP03257771A patent/EP1431960B1/en not_active Expired - Fee Related
- 2003-12-11 US US10/732,235 patent/US7734468B2/en not_active Expired - Fee Related
- 2003-12-11 JP JP2003413065A patent/JP4401155B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208388A (ja) * | 1993-01-08 | 1994-07-26 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 対話音声認識装置 |
JPH06301393A (ja) * | 1993-04-13 | 1994-10-28 | Matsushita Electric Ind Co Ltd | 音声区間検出装置及び音声認識装置 |
JPH07239694A (ja) * | 1994-03-02 | 1995-09-12 | Oki Electric Ind Co Ltd | 音声対話装置 |
JPH11237971A (ja) * | 1998-02-23 | 1999-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声応答装置 |
KR20020068235A (ko) * | 2001-02-20 | 2002-08-27 | 유재천 | 치아와 입술 영상을 이용한 음성인식 장치 및 방법 |
JP2002244841A (ja) * | 2001-02-21 | 2002-08-30 | Japan Science & Technology Corp | 音声表示システム及び音声表示プログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011065686A3 (en) * | 2009-11-27 | 2011-11-10 | Samsung Electronics Co., Ltd. | Communication interface apparatus and method for multi-user and system |
CN102640084A (zh) * | 2009-11-27 | 2012-08-15 | 三星电子株式会社 | 用于多用户和系统的通信接口设备和方法 |
US9799332B2 (en) | 2009-11-27 | 2017-10-24 | Samsung Electronics Co., Ltd. | Apparatus and method for providing a reliable voice interface between a system and multiple users |
KR20200031245A (ko) | 2018-09-14 | 2020-03-24 | 한국과학기술연구원 | 사용자 성격을 고려한 강화학습 기반 적응형 로봇 대화시스템 및 이를 이용한 적응형 로봇 대화방법 |
KR20200036089A (ko) * | 2018-09-20 | 2020-04-07 | 한국전자통신연구원 | 상호 작용 장치 및 방법 |
US10800043B2 (en) | 2018-09-20 | 2020-10-13 | Electronics And Telecommunications Research Institute | Interaction apparatus and method for determining a turn-taking behavior using multimodel information |
KR102168802B1 (ko) * | 2018-09-20 | 2020-10-22 | 한국전자통신연구원 | 상호 작용 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP4401155B2 (ja) | 2010-01-20 |
US7734468B2 (en) | 2010-06-08 |
KR20040050928A (ko) | 2004-06-18 |
US20040122673A1 (en) | 2004-06-24 |
DE60334599D1 (de) | 2010-12-02 |
EP1431960A1 (en) | 2004-06-23 |
JP2004206704A (ja) | 2004-07-22 |
EP1431960B1 (en) | 2010-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100580619B1 (ko) | 사용자와 에이전트 간의 대화 관리방법 및 장치 | |
US20200333875A1 (en) | Method and apparatus for interrupt detection | |
KR100586767B1 (ko) | 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법 | |
Waibel et al. | SMaRT: The smart meeting room task at ISL | |
US20190279616A1 (en) | Voice Characterization-Based Natural Language Filtering | |
US20240153505A1 (en) | Proactive command framework | |
US20080319747A1 (en) | Spoken man-machine interface with speaker identification | |
CN105723450A (zh) | 用于话语检测的包络比较 | |
US20080059186A1 (en) | Intelligent speech recognition of incomplete phrases | |
KR101581816B1 (ko) | 기계학습을 이용한 음성인식방법 | |
US10896688B2 (en) | Real-time conversation analysis system | |
JP6732703B2 (ja) | 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム | |
Minotto et al. | Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
US11195522B1 (en) | False invocation rejection for speech processing systems | |
KR20080086791A (ko) | 음성 기반 감정 인식 시스템 | |
Këpuska et al. | A novel wake-up-word speech recognition system, wake-up-word recognition task, technology and evaluation | |
JP4787979B2 (ja) | 雑音検出装置および雑音検出方法 | |
JP3857922B2 (ja) | 対話ゲームシステム、対話ゲーム方法及びプログラム | |
Chiba et al. | Analysis of efficient multimodal features for estimating user's willingness to talk: Comparison of human-machine and human-human dialog | |
CN111506183A (zh) | 一种智能终端及用户交互方法 | |
US20170242845A1 (en) | Conversational list management | |
KR101933822B1 (ko) | 얼굴인식 기반 지능형 스피커, 이를 이용한 능동적인 대화 제공 방법 및 이를 수행하기 위한 기록매체 | |
US20210166685A1 (en) | Speech processing apparatus and speech processing method | |
JP3857923B2 (ja) | キャラクター選択システム、キャラクター選択装置、キャラクター選択方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130429 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140429 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20150429 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20160428 Year of fee payment: 11 |
|
LAPS | Lapse due to unpaid annual fee |