KR20220134050A - 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환 - Google Patents

자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환 Download PDF

Info

Publication number
KR20220134050A
KR20220134050A KR1020227033029A KR20227033029A KR20220134050A KR 20220134050 A KR20220134050 A KR 20220134050A KR 1020227033029 A KR1020227033029 A KR 1020227033029A KR 20227033029 A KR20227033029 A KR 20227033029A KR 20220134050 A KR20220134050 A KR 20220134050A
Authority
KR
South Korea
Prior art keywords
user
conversation
automated assistant
parameters
context
Prior art date
Application number
KR1020227033029A
Other languages
English (en)
Other versions
KR102567447B1 (ko
Inventor
저스틴 루이스
스콧 데이비스
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Priority to KR1020237027084A priority Critical patent/KR102640308B1/ko
Publication of KR20220134050A publication Critical patent/KR20220134050A/ko
Application granted granted Critical
Publication of KR102567447B1 publication Critical patent/KR102567447B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

자동화 어시스턴트를 사용하여 이전 컨텍스트 검색과 관련된 기술이 기술된된다. 다양한 구현에서, 사용자와 자동화 어시스턴트 사이의 인간-대-컴퓨터 대화 세션 동안 사용자로부터 수신된 자유 형식의 자연어 입력의 인스턴스(들)는 제1 대화 컨텍스트를 생성하는데 사용될 수 있다. 제1 대화 컨텍스트는 의도(들) 및 그 의도(들)와 연관된 슬롯 값(들)을 포함할 수 있다. 유사한 동작들이 추가 입력으로 수행되어 제1 대화 컨텍스트와 의미적으로 구별되는 제2 대화 컨텍스트를 생성할 수 있다. 자동화 어시스턴트를 다시 제1 대화 컨텍스트로 전환하라는 명령이 사용자로부터 수신되면, 제1 대화 컨텍스트의 의도들 중 적어도 하나 이상 및 제1 대화 컨텍스트의 슬롯 값들 중 하나 이상을 전달하는 자연어 출력이 생성될 수있다. 이 자연어 출력은 사용자에게 제시될 수 있다.

Description

자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환{TRANSITIONING BETWEEN PRIOR DIALOG CONTEXTS WITH AUTOMATED ASSISTANTS}
인간은 본 명세서에서 "자동화 어시스턴트"("챗봇", "대화형 개인 비서", "지능형 개인 비서", "개인 음성 비서", 대화형 에이전트라고도 지칭됨)라고 하는 대화형 소프트웨어 애플리케이션을 사용하여 인간-대-컴퓨터 대화에 참여할 수 있다. 예를 들어, 자동화 어시스턴트와 상호 작용할 때 "사용자"로 지칭되는 인간은 자유 형식의 자연어 입력을 사용하여 명령, 쿼리 및/또는 요청을 제공할 수 있다. 자유 형식의 자연어는 음성 인식 및/또는 타이핑된 자유 형식의 자연어 입력을 사용하여 텍스트로 변환된 음성 발언을 포함할 수 있다.
자동화 어시스턴트는 사용자들이 정보를 얻고, 서비스에 액세스하고 및/또는 다양한 작업을 수행할 수 있도록 한다. 예를 들어, 사용자는 검색을 실행하고 길을 찾을 수 있으며 일부 경우 제3자 애플리케이션과 상호 작용할 수 있다. 자동화 어시스턴트 및/또는 제3자 애플리케이션에 의해 제공된 애플리케이션 프로그래밍 인터페이스("API")를 사용하여 액세스가 용이해 질 수 있는 이러한 제3자 애플리케이션 상호 작용을 통해, 사용자는 차량 공유 애플리케이션에서 자동차 호출, 상품 또는 서비스 주문(예컨대, 피자), 예약 등과 같은 다양한 동작을 수행할 수 있다.
자동화 어시스턴트는 음성 인식 및 자연어 처리를 사용하여 사용자와 대화하며 일부는 기계 학습 및 다른 인공 지능 기술을 사용하여 예를 들어 사용자 의도를 예측한다. 자동화 어시스턴트는 부분적으로 대화 컨텍스트를 이해하기 때문에 자연스럽고 직관적인 방식으로 사용자와 대화하는데 능숙할 수 있다. 대화 컨텍스트를 활용하기 위해, 자동화 어시스턴트는 사용자의 최근 입력, 사용자의 질문 및/또는 자동화 어시스턴트가 제공한 응답/질문을 보존할 수 있다. 예를 들어 사용자가 "가장 가까운 커피 숍이 어디지?"라고 물으면 자동화된 어시스턴트는 "동쪽 2 블록입니다"라고 대답할 수 있다. 그런 다음 사용자는 "그것은 얼마나 늦게까지 영업하지?"라고 물을 수 있다. 적어도 일부 형태의 대화 컨텍스트를 보존함으로써 자동화 어시스턴트는 대명사 "그것(it)"이 "커피 숍"(즉, 상호 참조 해석)을 지칭하는지 확인할 수 있다.
그러나, 종래의 자동화 어시스턴트에서는 사용자가 자동화 어시스턴트를 다른 다른 상이한 토픽에 참여시키기 위해 인간-대-컴퓨터 대화의 하나의 토픽을 포기하는 경우, 첫 번째 토픽과 관련된 대화 컨텍스트가 소실(lost)될 수 있다. 사용자가 중단한 첫 번째 토픽에 관한 이전 대화를 선택하기를 원하는 경우 사용자는 삭제된 대화 컨텍스트를 재구축할 수 있도록 그 대화를 처음부터 다시 시작해야 할 수 있다. 이러한 대화 컨텍스트의 소실은 관련 대화를 다시 시작해야 하는 경우 사용자와 어시스턴트가 컨텍스트를 처음부터 재구축(rebuild)해야 할 수 있으므로 사용자를 위한 많은 일반적인 사용 사례에서 기술적으로 문제가 있다. 이것은 어시스턴트가 특정 사용자 입력을 두 번째로 수신하고 이러한 재수신된 입력이 컴퓨터 메모리에 다시 저장되도록 해야 하는 것을 포함할 수 있다. 게다가, 이러한 재입력의 수신은 그 입력을 재처리하기 위해 컴퓨터 처리 능력이 필요할 수 있다. 추가적으로, 예를 들어, 사용자가 대화 컨텍스트를 재구축하기 위해 관련 정보를 재입력할 때 어시스턴트가 사용자에게 프롬프트하거나 그렇지 않으면 사용자와 대화할 수 있도록 온-디바이스 스피커(들) 및/또는 마이크로폰(들)에 전원을 공급하기 위해 온-디바이스 배터리로부터의 전력이 필요할 수 있다. 이러한 일반적인 사용 사례의 한 예는 자동화 어시스턴트와 제3자 애플리케이션 사이의 상호 작용을 포함한다. 자동화 어시스턴트는 제3자 애플리케이션과 상호 작용할 수 있지만 종종 일부 제3자 애플리케이션의 전체 기능을 복제할 수 없으므로, 예를 들어 인간-대-컴퓨터 대화의 전사에 디스플레이된 딥 링크를 사용하여 사용자를 제3자 애플리케이션으로 자주 포워딩해야 한다. 사용자가 제3자 애플리케이션에서 자동화 어시스턴트로 복귀하면 이전 대화 컨텍스트가 소실될 수 있는데, 특히 이전 인간-대-컴퓨터 대화 이후 상당한 시간이 경과된 경우에는 더욱 그렇다.
이것은 만약 사용자가 다른 작업을 거의 수행하지 않고 제3자 애플리케이션으로 이동하여 작업을 수행한 다음 예를 들어 사용자의 모바일 디바이스에서 실행되는 운영 체제에서 제공하는 백 버튼을 사용하여 신속하게 자동화 어시스턴트로 복귀하면 문제가 되지 않을 수 있다. 이러한 시나리오에서, 자동화 어시스턴트는 단순히 가장 최근의 대화 컨텍스트를 유지하여 대화를 원활하게 재개할 수 있다. 그러나, 사용자가 일반적으로 멀티 태스킹을 하고 무수히 많은 산만함을 처리하는 경우, 어시스턴트로 복귀하는데는 많은 다른 경로가 있을 수 있다. 다소 유사한 상황에서, 웹 브라우저의 사용자는 종종 다수의 탭을 사용하여 다수 스레드의 리서치, 사고(thought)의 연속 등을 지속한다.
사용자와 자동화 어시스턴트 사이의 인간-대-컴퓨터 대화 중에 생성된 의미적으로 구별되는 다수의 대화 컨텍스트를 보존하기 위한 기술이 본 명세서에 기술되어 있다. 추가적으로, 예를 들어 특정 대화 컨텍스트와 관련된 제3자 애플리케이션과의 상호 작용 동안 전환 명령(transition command)을 제공함으로써, 사용자가 자동화 어시스턴트와의 이전 대화를 재개하기 위해 다수의 대화 컨텍스트로 및/또는 그 사이에서 전환할 수 있도록 하는 기술이 본 명세서에 기술된다. 대화 컨텍스트가 "의미적으로 구별되는" 것으로 간주되기 위해 2개의 상이한 대화 컨텍스트의 기본 주제가 완전히 관련이 없을 필요는 없다. 오히려, 2개의 대화 컨텍스트는 예를 들어 일치하지 않거나 및/또는 겹치지 않는 의도가 있고 기정의된 토픽의 라이브러리의 기정의된 토픽과 관련이 있는 경우 "의미적으로 구별"될 수 있다.
다양한 구현에서, 인간-대-컴퓨터 대화 동안 생성된 대화 컨텍스트는 다양한 정보를 포함할 수 있다. 일부 구현에서, 대화 컨텍스트는 사용자에 의해 제공된 자유 형식의 자연어 입력 및/또는 자동화 어시스턴트에 의해 제공된 자연어 출력과 같은 다양한 신호에 기초하여 검출된 하나 이상의 사용자 의도를 포함할 수 있다. 일부 구현에서, 대화 컨텍스트는 또한 인간-대-컴퓨터 대화 세션 동안 (사용자 및/또는 자동화 어시스턴트에 의해) 언급된 공지(된) 엔티티(예를 들어, 사람, 장소, 사물)에 대한 하나 이상의 참조를 포함할 수 있다.
일부 구현에서, 대화 컨텍스트는, 즉, 사용자의 의도와 관련된 하나 이상의 "슬롯"을 채움으로써 사용자의 의도를 이행하는데 사용할 수 있는 하나 이상의 슬롯 값을 더 포함할 수 있다. 슬롯 값은 자동화 어시스턴트에 의해 수행될 태스크를 위한 파라미터로 사용할 수 있는 임의의 값일 수 있다. 슬롯 값은 다양한 소스에서 얻을 수 있다. 사용자들은 사전에 및/또는 자동화 어시스턴트의 요청에 응답하여 슬롯 값을 제공할 수 있다. 예를 들어, 특정 제3자 애플리케이션은 요청을 이행하기 위해 하나 이상의 슬롯이 필요할 수 있다. 일부 경우, 사용자는 필요한 슬롯에 대한 값을 사전에 제공할 수 있다. 또는 제3자 애플리케이션은 자동화 어시스턴트가 사용자가 사전에 값을 제공하지 않은 임의의 필수 슬롯에 대한 값을 요청하게 할 수 있다. 추가적으로, 다른 슬롯 값은 예를 들어, 사용자에 의해 작동되는 컴퓨팅 디바이스에 의해 제공되는 위치 좌표, 사용자 선호도, 과거에 유사한 상황에서 사용된 슬롯 값, 사용자에 의해 최근 진술에서 추출된 슬롯 값 및/또는 자동화 어시스턴트 등을 사용하여 자동으로 결정될 수 있다.
대화 컨텍스트(내용)는 다양한 방식으로 보존될 수 있다. 일부 구현에서, 인간-대-컴퓨터 대화의 전체 전사가 보전될 수 있으므로 예를 들어, 대화 컨텍스트는 예를 들어 즉시 및/또는 필요에 따라 상기 보존된 전사에서 의도, 슬롯 값, 엔티티를 검출함으로써 재구축 또는 재개될 수 있다. 일부 구현에서, 특히 사용자가 그래픽 사용자 인터페이스("GUI")를 사용하여 자동화 어시스턴트와 상호 작용하는 경우, 이는 사용자가 전사를 리뷰할 수 있다는 추가 이점을 제공할 수 있다. 일부 경우 전사에는 중단점(breakpoint), 의도, 언급된 엔티티 등과 같은 데이터가 주석으로 추가될 수 있다. 추가적으로 또는 대안적으로, 일부 구현에서, 검출된 의도(들), 슬롯 값, 언급된 엔티티 등과 같은 대화 컨텍스트의 핵심 요소만 JSON(JavaScript Object Notation) 또는 기타 유사 포멧과 같은 다양한 포멧으로 보존될 수 있다.
대화 컨텍스트는 다양한 위치에 보존될 수 있다. 일부 구현에서, 대화 컨텍스트는 자동화 어시스턴트와 연계하기 위해 사용자에 의해 작동되는 컴퓨팅 디바이스에 로컬인 메모리에 유지될 수 있다. 이는 자동화 어시스턴트와의 이전 대화에 대해 사용자의 프라이버시를 보존하고 및/또는 사용자가 오프라인 상태에서도 본 명세서에 설명된 기술을 사용하여 이전 대화를 다시 방문할 수 있도록 하는 것과 같은 다양한 기술적 이점을 발생할 수 있다. 추가적으로 또는 대안적으로, 일부 구현에서, 대화 컨텍스트는 사용자의 컴퓨팅 디바이스로부터 원격으로, 예를 들어 "클라우드 기반 서비스"로 종종 지칭되는 것을 집합적으로 운영하는 하나 이상의 컴퓨팅 시스템의 메모리에 유지될 수 있다. 다양한 구현에서, 대화 컨텍스트는 다양한 시간 동안 및/또는 다양한 이벤트에 걸쳐 보존될 수 있다. 예를 들어, 일부 구현에서, 대화 컨텍스트는 논리적으로 구별되는 다수의 대화 세션에서 유지될 수 있다. 추가적으로 또는 대안적으로, 일부 구현에서, 대화 컨텍스트는 일, 주, 또는 자동으로 선택되거나 사용자에 의해 수동으로 설정될 수 있는 다른 시간과 같은 다양한 시간 동안 유지될 수 있다. 일부 구현에서, 대화 컨텍스트는 스택으로 메모리에 유지될 수 있으며, 가장 최근의 대화 컨텍스트는 그 스택의 상단에서 "팝 가능"하여 이전 대화 컨텍스트에 액세스할 수 있다.
사용자는 보존된 대화 컨텍스트를 사용하여 자동화 어시스턴트와의 이전 대화를 재개할 수 있다. 이러한 방식으로, 사용자는 이전 스레드 및/또는 사고 프로세스를 잃지 않고 그리고 이전에 어시스턴트에게 제공된 정보를 재입력할 필요없이 직관적인 방식으로 자동화 어시스턴트와의 이전 대화를 전환하거나 "토글"할 수 있다. 터치 스크린, 정전식 터치 패드 또는 다른 시각적 입력/출력("I/O") 메커니즘을 사용할 수 있는 일부 구현에서, 사용자에게 사용자가 이전 대화 컨텍스트로 전환하기 위해 조작할 수 있는 "백 버튼"과 같은 선택 가능한 요소가 제시될 수 있다. 이 선택 가능한 요소는 예를 들어, 이전 대화 컨텍스트와 메모리에서 연관되었던 특정 제3자 애플리케이션과 동시에 제공될 수 있다. 추가적으로 또는 대안적으로, 사용자가 자동화 어시스턴트와 음성으로 인간-대-컴퓨터 대화에 참여하는 시나리오에서, 사용자는 "헤이 어시스턴트, <이전 대화^로 돌아 가자"와 같은 하나 이상의 명령을 말하여 자동화 어시스턴트를 이전 대화 컨텍스트로 다시 전환할 수 있다.
일부 구현에서, 자동화 어시스턴트는 사용자가 재방문하고자 하는 대화 컨텍스트를 선택할 수 있도록, 사용 가능한 과거 대화 컨텍스트의 열거된 목록을 사용자에게 제시하도록 구성될 수 있다. 예를 들어, 사용자에 의해 작동되는 디바이스가 디스플레이 기능을 갖는 구현에서, 자동화 어시스턴트는 예를 들어 리스트 아이템을 터치하거나 리스트 아이템을 참조하여 문구를 말함으로써 사용자가 선택할 수 있는 과거 대화 컨텍스트와 관련된 시각적인 과거 대화 리스트를 제시할 수 있다. 일부 구현에서, 사용 가능한 이전 대화 컨텍스트의 열거된 리스트는 "헤이@ 어시스턴트, 우리가 전에 무엇에 대해 이야기했었지?"와 같은 자유 형식의 자연어 입력으로 제공된 사용자 명령에 응답하여 제시될 수 있다.
일부 구현에서, 자동화 어시스턴트는 예를 들어, 사용자가 이전 대화에 관한 속도를 빠르게 파악할 수 있도록 이전 대화 컨텍스트의 요약을 생성하도록 구성될 수 있다. 예를 들어, 일부 구현에서, 자동화 어시스턴트는 대화 컨텍스트에 기초하여 자연어 출력을 생성할 수 있다. 자연어 출력은 하나 이상의 의도, 슬롯 값, 언급된 엔티티 등을 식별하는 것과 같이 대화 컨텍스트의 생성으로 이어지는 대화의 다양한 측면을 전달할 수 있다. 예를 들어, 자동화 어시스턴트는 이미 채워진 임의의 슬롯 값(예를 들어, 피자 토핑)뿐만 아니라 사용자가 논의하고 있던 내용을 리마인드시키는 자연어 출력을 생성할 수 있다.
예시적인 예로서, 사용자가 이전에 자동화 어시스턴트를 사용하여 사이즈 7의 여성용 드레스 신발을 쇼핑했다고 가정해 본다. 추가로 사용자가 저녁 식사를 예약하라는 친구의 문자 메시지로 인해 쇼핑을 중단하고, 사용자가 자동화 어시스턴트(즉, 주제 변경)를 사용하여 제3자 애플리케이션을 열어 저녁 식사를 예약했다고 가정한다. 사용자가 신발 쇼핑을 계속하기 위해 자동화 어시스턴트로 돌아가는 경우 마지막 대화 컨텍스트는 저녁 식사 예약과 관련될 것이다. 신발 쇼핑 대화를 처음부터 재구축하는 대신, 사용자는 본 명세서에 설명된 기술을 사용하여 사용자가 친구에 의해 방해되었을 때 중단되었던 신발 쇼핑 대화를 재개할 수 있다. 특히, 사용자는 예를 들어 백 버튼을 누르거나 하나 이상의 음성 명령을 말함으로써 사용자가 신발을 쇼핑하는 동안 생성된 이전 대화 컨텍스트로 전환하기 위해 하나 이상의 명령을 말할 수 있다. 이것은 이전 대화 컨텍스트와 제3자 신발 쇼핑 애플리케이션과 같은 해당 컨텍스트와 관련된 특정 제3자 애플리케이션 사이의 컴퓨터 메모리에 연관을 형성함으로써 이루어질 수 있다. 일단 신발 쇼핑 애플리케이션으로 돌아가면, 사용자는 전환 명령을 말하여 이전 대화 컨텍스트(예를 들어, 사이즈 7의 여성용 드레스 신발 쇼핑)에서 어시스턴트로 돌아갈 수 있다. 여기에는 신발 쇼핑 응용 프로그램과 동시에 디스플레이되거나 제공되는 백 버튼을 누르는 것이 포함될 수 있다. 전환 명령은 신발 쇼핑 애플리케이션과 신발 쇼핑 컨텍스트 사이의 저장된 연관을 사용하여 어시스턴트에서 신발 쇼핑 대화를 재개하도록 할 수 있다. 유사하게, 사용자가 나중에 저녁 식사 예약 대화로 돌아가기를 원하는 경우, 사용자는 일단 제3자 저녁 식사 예약 애플리케이션으로 돌아가서 전환 명령을 말하여 저녁 식사 예약 컨텍스트에서 어시스턴트로 돌아갈 수 있다. 여기에는 저녁 식사 예약 응용 프로그램과 동시에 디스플레이되거나 제공되는 백 버튼을 누르는 것이 포함될 수 있다.
일부 구현에서, 이전 대화 컨텍스트를 재개하기 위한 음성 명령은 사용자에 의해 발언된 언어에 기초하여 이전 대화 컨텍스트와 매칭될 수 있다. 위의 예를 계속하면, 사용자는 "헤이 어시스턴트, 신발 쇼핑으로 돌아가자"와 같이 말할 수 있다. 자동화 어시스턴트는 "신발 쇼핑"과 가장 유사한 이전 대화 컨텍스트를 식별하여 채워진 적절한 의도/슬롯 값으로 해당 대화를 재개할 수 있다.
일부 구현에서, 예를 들어 대화 컨텍스트의 변경과 관련하여 하나 이상의 단점이 대화의 전사에 삽입될 수 있다. 예를 들어, 사용자가 신발 쇼핑을논의하기 시작했지만 날씨로 주제를 변경하는 경우, 각 대화 컨텍스트에 대해 하나씩 2개의 단점이 전사에 삽입될 수 있다. 이러한 일부 구현에서, 사용자가 (예를 들어, 백 버튼을 누름으로써) 이전 대화 컨텍스트 사이에서 전환할 때, 선택된 대화 컨텍스트와 관련된 전사의 일부는 예를 들어, 해당 대화 컨텍스트와 관련된 중단점을 사용하여 화면에 로드될 수 있다. 이러한 방식으로, 사용자는 사용자가 재방문하고자 하는 토픽과 관련된 이전 대화의 전체 부분을 볼 수 있다.
다양한 구현에서, 방법은 사용자에 의해 작동되는 컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 사용자와 하나 이상의 프로세서에 의해 적어도 부분적으로 구현된 자동화 어시스턴트 사이의 인간-대-컴퓨터 대화 세션 동안 사용자로부터 자유 형식의 자연어 입력의 하나 이상의 인스턴스를 수신하는 단계와; 자유 형식의 자연어 입력의 하나 이상의 인스턴스에 기초하여 제1 대화 컨텍스트를 생성하는 단계와, 상기 제1 대화 컨텍스트는 사용자의 하나 이상의 의도 및 그 하나 이상의 의도와 연관된 하나 이상의 슬롯 값을 포함하고; 제1 대화 컨텍스트를 생성한 후, 하나 이상의 입력 컴포넌트에서, 동일한 인간-대-컴퓨터 대화 세션 또는 사용자와 자동화 어시스턴트 사이의 다른 인간-대-컴퓨터 대화 세션 동안 사용자로부터 자유 형식의 자연어 입력의 하나 이상의 추가 인스턴스를 수신하는 단계와; 자유 형식의 자연어 입력의 하나 이상의 추가 인스턴스에 기초하여 제2 대화 컨텍스트를 생성하는 단계와, 상기 제2 대화 컨텍스트는 사용자의 하나 이상의 추가 의도를 포함하고, 그리고 상기 제2 대화 컨텍스트는 제1 대화 컨텍스트와 의미적으로 구별되고; 하나 이상의 입력 컴포넌트에서, 자동화 어시스턴트를 제1 대화 컨텍스트로 다시 전환하라는 사용자로부터의 전환 명령을 수신하는 단계와; 제1 대화 컨텍스트에 기초하여, 제1 대화 컨텍스트의 의도들 중 적어도 하나 이상 및 제1 대화 컨텍스트의 슬롯 값들 중 하나 이상을 전달하는 자연어 출력을 생성하는 단계와; 그리고 자연어 출력이 동일한 컴퓨팅 디바이스 또는 사용자에 의해 작동되는 다른 컴퓨팅 디바이스에 제시되게 하는 단계를 포함한다.
다양한 구현에서, 전환 명령은 사용자에 의해 발화되거나 타이핑된 자유 형식의 자연어 입력을 포함할 수 있다. 다양한 구현에서, 전환 명령은 선택 가능한 사용자 인터페이스 요소에 대한 사용자에 의한 선택을 포함할 수 있다. 다양한 구현에서, 선택 가능한 사용자 인터페이스 요소는 백 버튼을 포함할 수 있다. 다양한 구현에서, 백 버튼은 사용자에 의해 작동되는 컴퓨팅 디바이스의 터치 스크린상에 디스플레이될 수 있다. 다양한 구현에서, 사용자에 의해 작동되는 컴퓨팅 디바이스는 독립식 대화형 스피커일 수 있고, 백 버튼은 독립식 대화형 스피커의 정전식 터치 표면에 디스플레이된다.
다양한 구현에서, 자동화 어시스턴트는 그래픽 사용자 인터페이스("GUI")가 사용자의 컴퓨팅 디바이스상에 렌더링되도록 할 수 있으며, 상기 GUI는 인간-대-컴퓨터 대화 동안 사용자와 자동화 어시스턴트 사이에서 교환되는 메시지의 전사를 제시한다. 다양한 구현에서, 방법은 제1 대화 컨텍스트의 의도들 중 하나 이상에 응답하여 별개의 소프트웨어 애플리케이션이 사용자의 컴퓨팅 디바이스상에서 시작되게 하는 단계를 더 포함할 수 있으며, 상기 별개의 소프트웨어 애플리케이션이 시작되게 하는 단계는 자동화 어시스턴트에 의해 제시된 GUI 대신에 별개의 소프트웨어 애플리케이션과 관련된 다른 GUI가 사용자에게 제시되게 하는 단계를 포함하고, 상기 전환 명령은 다른 GUI의 선택 가능한 요소를 통해 수신된다. 다양한 구현에서, 메시지의 전사는 제1 대화 컨텍스트와 관련된 제1 중단점과 제2 대화 컨텍스트와 관련된 제2 중단점을 포함할 수 있으며, 상기 전환 명령은 제1 중단점과 관련된 전사의 일부가 자동화 어시스턴트에 의해 제시된 GUI에서 랜더링되도록 한다.
다양한 구현에서, 방법은 하나 이상의 입력 컴포넌트에서, 자동화 어시스턴트가 보존된 대화 컨텍스트의 리스트를 제공하기 위해 사용자로부터 리스트 대화 컨텍스트 명령을 수신하는 단계와; 그리고 리스트 대화 컨텍스트 명령에 응답하여: 적어도 제1 및 제2 대화 컨텍스트를 식별하는 단계와; 그리고 적어도 제1 및 제2 대화 컨텍스트를 나타내는 정보가 동일한 컴퓨팅 디바이스 또는 사용자에 의해 작동되는 다른 컴퓨팅 디바이스에 제시되게 하는 단계를 더 포함한다. 다양한 구현에서, 전환 명령은 사용자에 의한, 제1 대화 컨텍스트에 대응하는 적어도 제1 및 제2 대화 컨텍스트를 나타내는 정보의 요소의 선택을 포함할 수 있다.
다른 양태에서, 방법은 사용자에 의해 작동되는 컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 사용자와 하나 이상의 프로세서에 의해 적어도 부분적으로 구현된 자동화 어시스턴트 사이의 제1 인간-대-컴퓨터 대화 동안 사용자로부터 자유 형식의 자연어 입력의 하나 이상의 인스턴스를 수신하는 단계와; 사용자와 자동화 어시스턴트 사이의 제1 인간-대-컴퓨터 대화의 하나 이상의 저장된 제1 파라미터를 사용자와 자동화 어시스턴트 사이의 제1 인간-대-컴퓨터 대화로부터 사용자에 의해 액세스될 수 있는 제1 제3자 애플리케이션과 연관시키는 단계와; 컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화 동안 사용자로부터 자유 형식의 자연어 입력의 하나 이상의 추가 인스턴스를 수신하는 단계와; 그리고 사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화에 후속하여, 제1 제3자 애플리케이션으로부터 자동화 어시스턴트로 전환하라는 사용자로부터의 전환 명령의 수신에 응답하여, 제1 제3자 애플리케이션과 연관된 상기 저장된 하나 이상의 제1 파라미터를 검색하고 그 검색된 제1 파라미터를 사용하여 사용자와 자동화 어시스턴트 사이의 제1 인간-대-컴퓨터 대화를 재개하는 단계를 포함한다.
다양한 구현에서, 방법은 사용자와 자동화 어시스턴트 사이의 제1 인간-대-컴퓨터 대화의 하나 이상의 제1 파라미터가 컴퓨터 메모리에 저장되게 하는 단계를 더 포함할 수 있다. 다양한 구현에서, 저장된 하나 이상의 제1 파라미터를 검색하는 단계는 컴퓨터 메모리로부터 하나 이상의 제1 파라미터를 검색하는 단계를 포함할 수 있다. 다양한 구현에서, 컴퓨터 메모리는 원격 서버에 위치한다.
다양한 구현에서, 하나 이상의 제1 파라미터를 저장하는 단계는 하나 이상의 제1 파라미터에 대한 구성 파일을 생성하는 단계 및 그 구성 파일을 컴퓨터 메모리에 저장하는 단계를 포함할 수 있다. 다양한 구현에서, 하나 이상의 제1 파라미터는 제1 인간-대-컴퓨터 대화의 컨텍스트를 나타낸다. 다양한 구현에서, 하나 이상의 제1 파라미터는 제1 인간-대-컴퓨터 대화내의 사용자의 하나 이상의 의도 및/또는 제1 인간 대 컴퓨터내의 사용자의 하나 이상의 의도와 연관된 하나 이상의 슬롯 값을 포함할 수 있다.
다양한 구현에서, 제1 인간-대-컴퓨터 대화의 하나 이상의 저장된 제1 파라미터를 제1 제3자 애플리케이션과 연관시키는 단계는 제1 제3자 애플리케이션으로부터 자동화 어시스턴트로 전환하라는 전환 명령의 수신에 응답하여, 제1 제3자 애플리케이션과 연관된 상기 저장된 하나 이상의 제1 파라미터를 검색하기 위해 상기 하나 이상의 프로세서에 의해 호출 가능한 제1 토큰을 생성하는 단계를 포함할 수 있다.
다양한 구현에서, 제1 토큰은 저장된 하나 이상의 제1 파라미터와 제1 제3자 애플리케이션 사이의 링크를 포함할 수 있다. 다양한 구현에서, 방법은 사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화의 하나 이상의 제2 파라미터를 사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화로부터 사용자에 의해 액세스될 수 있는 제2 제3자 애플리케이션과 연관시키는 단계를 더 포함할 수 있다. 다양한 구현에서, 제2 제3자 애플리케이션으로부터 자동화 어시스턴트로 전환하라는 사용자로부터의 전환 명령의 수신에 응답하여, 방법은 제2 제3자 애플리케이션과 연관된 상기 저장된 하나 이상의 제2 파라미터를 검색하는 단계 및 그 검색된 제2 파라미터들을 이용하여 사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화를 재개하는 단계를 포함할 수 있다.
다양한 구현에서, 제2 인간-대-컴퓨터 대화의 하나 이상의 저장된 제2 파라미터를 제2 제3자 애플리케이션과 연관시키는 단계는 제2 제3자 애플리케이션으로부터 자동화 어시스턴트로 전환하라는 전환 명령의 수신에 응답하여, 제2 제3자 애플리케이션과 연관된 상기 저장된 하나 이상의 제2 파라미터를 검색하기 위해 상기 하나 이상의 프로세서에 의해, 호출 가능한 제2 토큰을 생성하는 단계를 포함할 수 있다. 다양한 구현에서, 제2 토큰은 저장된 하나 이상의 제2 파라미터와 제2 제3자 애플리케이션 사이의 링크를 포함할 수 있다.
또한, 일부 구현은 하나 이상의컴퓨팅 디바이스의 하나 이상의 프로세서를 포함하고, 하나 이상의 프로세서는 연관된 메모리에 저장된 명령들을 실행하도록 동작 가능할 수 있고, 상기 명령들은 전술한 방법들 중 임의의 방법을 수행하도록 구성된다. 일부 구현은 또한 전술한 방법들 중 임의의 방법을 수행하기 위해 하나 이상의 프로세서에 의해 실행 가능한 컴퓨터 명령들을 저장하는 하나 이상의 비-일시적 컴퓨터 판독 가능 저장 매체를 포함한다.
전술한 개념 및 본 명세서에 더 상세히 설명된 추가 개념의 모든 조합은 본 명세서에 개시된 주제의 일부인 것으로 고려된다는 것을 이해해야 한다. 예를 들어, 본 발명의 끝에 나타나는 청구된 주제의 모든 조합은 본 명세서에 개시된 주제의 일부인 것으로 고려된다.
도 1은 본 명세서에 개시된 구현들이 구현될 수 있는 예시적인 환경의 블록도이다.
도 2a, 2b, 2c 및 2d는 다양한 구현에 따라 사용자의 컴퓨팅 디바이스를 사용하는 사용자, 다른 사용자 및 자동화 어시스턴트 사이의 예시적인 대화를 도시한다.
도 3a, 3b, 3c 및 3d는 다양한 구현에 따라 독립식 대화형 스피커를 사용하는 사용자와 자동화 어시스턴트 사이의 예시적인 대화를 도시한다.
도 4는 본 명세서에 개시된 구현에 따른 예시적인 방법을 예시하는 흐름도를 도시한다.
도 5는 컴퓨팅 디바이스의 예시적인 아키텍처를 도시한다.
도 6은 예시적인 컴퓨팅 디바이스의 블록도이다.
이제 도 1을 참조하면, 본 명세서에 개시된 기술들이 구현될 수 있는 예시적인 환경이 예시된다. 예시적인 환경은 복수의 클라이언트 컴퓨팅 디바이스(106I-N)를 포함한다. 각 클라이언트 디바이스(106)는 자동화 어시스턴트 클라이언트(118)의 개별 인스턴스를 실행할 수 있다. 자연어 이해 엔진(135)과 같은 하나 이상의 클라우드 기반 자동화 어시스턴트 컴포넌트(119)는 110에서 일반적으로 표시된 하나 이상의 로컬 및/또는 광역 네트워크(예를 들어, 인터넷)를 통해 클라이언트 디바이스(106I-N)에 통신적으로 연결된 하나 이상의 컴퓨팅 시스템(통칭하여 "클라우드"컴퓨팅 시스템으로 지칭됨)에서 구현될 수 있다.
일부 구현에서, 복수의 클라이언트 컴퓨팅 디바이스(106I-N)(본 명세서에서 간단히 "클라이언트 디바이스"라고도 함)는 본 명세서에 설명된 기술의 성능을 용이하게 하기 위해 다양한 방식으로 서로 연관될 수 있다. 예를 들어, 일부 구현에서, 복수의 클라이언트 컴퓨팅 디바이스(106I-N)는 하나 이상의 사용자(예를 들어, 개인, 가족, 조직의 직원, 다른 기정의된 그룹 등)에 의해 운영되는 클라이언트 디바이스들(106)의 조정된 생태계의 구성원이기 때문에 서로 연관될 수 있다.
일부 구현에서, 자동화 어시스턴트 클라이언트(118)의 인스턴스는 하나 이상의 클라우드 기반 자동화 어시스턴트 컴포넌트(119)와의 상호 작용을 통해 사용자의 관점에서 볼 때 사용자가 인간-대-컴퓨터 대화에 참여할 수 있는 자동화 어시스턴트 (120)의 논리적 인스턴스를 형성할 수 있다. 이러한 자동화 어시스턴트(120)의 2가지 예가 도 1에 도시되어 있다. 점선으로 둘러싸인 제1 자동화 어시스턴트(120A)는 제1 클라이언트 디바이스(106i)를 작동하는 제1 사용자(미도시)를 제공하고, 자동화 어시스턴트 클라이언트(118i)와 하나 이상의 클라우드 기반 자동화 어시스턴트 컴포넌트(119)를 포함한다. 대시-대시-점선으로 둘러싸인 제2 자동화 어시스턴트(120B)는 다른 클라이언트 디바이스(106N)를 작동하는 제2 사용자(미도시)를 제공하고, 자동화 어시스턴트 클라이언트(118N)와 하나 이상의 클라우드 기반 자동화 어시스턴트 컴포넌트(119)를 포함한다.
따라서, 클라이언트 디바이스(106)에서 실행되는 자동화 어시스턴트 클라이언트(118)와 연계하는(engage) 각 사용자는 사실상 자신의 자동화 어시스턴트(120)의 논리적 인스턴스와 연계할 수 있음을 이해해야 한다. 간결함과 단순함을 위해, 본 명세서에서 특정 사용자를 "서비스하는(serving)" 것으로 사용되는 "자동화 어시스턴트"라는 용어는 사용자에 의해 작동되는 클라이언트 디바이스(106)에서 실행되는 자동화 어시스턴트 클라이언트(118) 및 (다수의 자동화 어시스턴트 클라이언트(118) 사이에서 공유될 수 있는) 하나 이상의 클라우드 기반 자동화 어시스턴트 컴포넌트(119)의 조합을 지칭할 것이다. 또한, 일부 구현에서, 자동화 어시스턴트(120)는 사용자가 자동화 어시스턴트(120)의 특정 인스턴스에 의해 실제로 "서비스"되는지 여부에 관계없이 임의의 사용자로부터의 요청에 응답할 수 있다는 것을 이해해야 한다.
클라이언트 디바이스(106I-N)는 예를 들어 데스크톱 컴퓨팅 디바이스, 랩탑 컴퓨팅 디바이스, 태블릿 컴퓨팅 디바이스, 모바일 전화 컴퓨팅 디바이스, 사용자 차량의 컴퓨팅 디바이스(예를 들어, 차량용 통신 시스템, 차량 엔터테인먼트 시스템, 차량용 내비게이션 시스템), 독립식 대화형 스피커, 스마트 기기(예를 들어, 스마트 TV) 및/또는 컴퓨팅 디바이스를 포함하는 사용자의 웨어러블 장치(예를 들어, 컴퓨팅 디바이스를 갖는 사용자의 시계, 컴퓨팅 디바이스를 갖는 사용자의 안경, 가상 또는 증강 현실 컴퓨팅 디바이스)를 포함하는 사용자의 웨어러블 장치 중 ㅎ하 이상을 포함할 수 있다. 추가 및/또는 대체 클라이언트 컴퓨팅 디바이스가 제공될 수 있다.
클라이언트 컴퓨팅 디바이스(106I-N) 각각은 복수의 메시지 교환 클라이언트(107I-N) 중 대응하는 것과 같은 다양한 상이한 애플리케이션을 동작시킬 수 있다. 메시지 교환 클라이언트(107I-N)는 다양한 형태로 제공될 수 있고 그 형태는 클라이언트 컴퓨팅 디바이스(106I-N)에 걸쳐 다양할 수 있고 및/또는 다수의 형태가 클라이언트 컴퓨팅 디바이스(106I-N) 중 하나에서 동작할 수 있다. 일부 구현에서, 메시지 교환 클라이언트(107I-N) 중 하나 이상은 단문 메시징 서비스("SMS") 및/또는 멀티미디어 메시징 서비스("MMS") 클라이언트, 온라인 채팅 클라이언트(예를 들어, 인스턴트 메신저, 인터넷 중계 채팅 또는 "IRC" 등), 소셜 네트워크와 관련된 메시징 애플리케이션, 자동화 어시스턴트(120)와의 대화 전용의 개인 어시스턴트 메시징 서비스 등의 형태로 제공될 수 잇다. 일부 구현에서, 메시지 교환 클라이언트(107I-N) 중 하나 이상은 웹 브라우저(미도시) 또는 클라이언트 컴퓨팅 디바이스(106)의 다른 애플리케이션에 의해 렌더링되는 웹 페이지 또는 다른 리소스를 통해 구현될 수 있다.
본 명세서에서 보다 상세히 설명되는 바와 같이, 자동화 어시스턴트(120)는 하나 이상의 클라이언트 디바이스(106I-N)의 사용자 인터페이스 입력 및 출력 디바이스를 통해 하나 이상의 사용자와 인간-대-컴퓨터 대화 세션에 참여한다. 일부 구현에서, 자동화 어시스턴트(120)는 클라이언트 디바이스(106I-N) 중 하나의 하나 이상의 사용자 인터페이스 입력 디바이스를 통해 사용자에 의해 제공된 사용자 인터페이스 입력에 응답하여 사용자와 인간-대-컴퓨터 대화 세션에 참여할 수 있다. 이들 구현 중 일부에서, 사용자 인터페이스 입력은 명시적으로 자동화 어시스턴트(120)로 지시된다. 예를 들어, 메시지 교환 클라이언트(107I-N) 중 하나는 자동화 어시스턴트(120)와의 대화 전용의 개인 어시스턴트 메시징 서비스일 수 있고, 개인 어시스턴트 메시징 서비스를 통해 제공된 사용자 인터페이스 입력은 자동으로 자동화 어시스턴트(120)로 제공될 수 있다. 또한, 예를 들어, 사용자 인터페이스 입력은 자동화 어시스턴트(120)가 호출될 것을 나타내는 특정 사용자 인터페이스 입력에 기초하여 하나 이상의 메시지 교환 클라이언트(107I-N)에서 자동화 어시스턴트(120)로 명시적으로 지시될 수 있다. 예를 들어, 하나 이상의 타이핑된 문자(예를 들어, @AutomatedAssistant), 하드웨어 버튼 및/또는 가상 버튼(예를 들어, 탭, 긴 탭)과의 사용자 상호 작용, 구두 명령(예를 들어, "헤이 자동화 어시스턴트") 및/또는 다른 특정 사용자 인터페이스 입력일 수 있다.
일부 구현에서, 자동화 어시스턴트(120)는 사용자 인터페이스 입력이 자동화 어시스턴트(120)에 명시적으로 지시되지 않은 경우에도 사용자 인터페이스 입력에 응답하여 인간-대-컴퓨터 대화 세션에 참여할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 사용자 인터페이스 입력의 컨텐츠를 검사하여 사용자 인터페이스 입력에 존재하는 특정 용어에 응답하여 및/또는 다른 단서에 기초하여 대화 세션에 참여할 수 있다. 많은 구현에서, 사용자는 명령, 검색 등을 말할 수 있고, 자동화 어시스턴트(120)는 음성 인식을 이용하여 발언을 텍스트로 변환하고, 예를 들어, 검색 결과, 일반 정보 및/또는 하나 이상의 응답형 동작(예를 들어, 미디어 재생, 게임 시작, 음식 주문 들)을 제공함으로써 텍스트에 응답할 수 있다. 일부 구현에서, 자동화 어시스턴트(120)는 발언을 텍스트로 변환하지 않고 발언에 추가적으로 또는 대안적으로 응답할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 음성 입력을 임베딩, (음성 입력에 존재하는 엔티티/엔터티들을 나타내는) 엔티티 표현(들) 및/또는 다른 "비-텍스트" 표현으로 변환하고 그러한 비-텍스트 표현에 대해 동작할 수 있다. 따라서, 음성 입력으로부터 변환된 텍스트에 기초하여 동작하는 것으로 본 명세서에 설명된 구현은 추가적으로 및/또는 대안적으로 음성 입력에 대해 직접 및/또는 음성 입력의 다른 비-텍스트 표현에 대해 동작할 수 있다.
클라이언트 컴퓨팅 디바이스(106I-N) 및 클라우드 기반 자동화 어시스턴트 컴포넌트(119)를 운영하는 컴퓨팅 디바이스(들) 각각은 데이터 및 소프트웨어 애플리케이션의 저장을 위한 하나 이상의 메모리, 데이터에 액세스하고 애플리케이션을 실행하기 위한 하나 이상의 프로세서 및 네트워크를 통한 통신을 용이하게 하는 다른 컴포넌트들을 포함할 수 있다. 클라이언트 컴퓨팅 디바이스(106I-N) 중 하나 이상 및/또는 자동화 어시스턴트(120)에 의해 수행되는 동작들은 다수의 컴퓨터 시스템에 분산될 수 있다. 자동화 어시스턴트(120)는 예를 들어 네트워크를 통해 서로 결합된 하나 이상의 위치에 있는 하나 이상의 컴퓨터상에서 실행되는 컴퓨터 프로그램으로 구현될 수 있다.
전술한 바와 같이, 다양한 구현에서, 클라이언트 컴퓨팅 디바이스(106I-N) 각각은 자동화 어시스턴트 클라이언트(118)를 동작시킬 수 있다. 다양한 실시예에서, 각 자동화 어시스턴트 클라이언트(118)는 대응하는 음성 캡처/텍스트-음성 변환("TTS")/음성-텍스트 변환("STT") 모듈(114)을 포함할 수 있다. 다른 구현에서, 음성 캡처/TTS/STT 모듈(114)의 하나 이상의 양태는 자동화 어시스턴트 클라이언트(118)와 별도로 구현될 수 있다. 다양한 구현에서, 음성 캡처/TTS/STT 모듈(114)은 음성 쿼리에 기초하여 음성 인식 출력을 생성할 수 있다.
각 음성 캡처/TTS/STT 모듈(114)은 하나 이상의 기능을 수행하도록 구성될 수 있는데, 예를 들어, 마이크로폰을 통해 사용자의 음성을 캡처하고, 캡처된 오디오를 텍스트(및/또는 다른 표현 또는 임베딩)로 변환하고 및/또는 텍스트를 음성으로 변환한다. 예를 들어, 일부 구현에서, 클라이언트 디바이스(106)는 컴퓨팅 리소스(예를 들어, 프로세서 사이클, 메모리, 배터리 등) 측면에서 상대적으로 제한될 수 있기 때문에 각 클라이언트 디바이스(106)에 국한된 음성 캡처/TTS/STT 모듈(114)은 한정된 수의 상이한 발화된 문구, 특히 자동화 어시스턴트(120)를 호출하는 문구를 텍스트(또는 저 차원 임베딩과 같은 다른 형태)로 변환하도록 구성될 수 있다. 다른 음성 입력은 클라우드 기반 TTS 모듈(116) 및/또는 클라우드 기반 STT 모듈(117)을 포함할 수 있는 클라우드 기반 자동화 어시스턴트 컴포넌트(119)로 전송될 수 있다.
클라우드 기반 STT 모듈(117)은 클라우드의 가상적으로 무한한 리소스를 활용하여 음성 캡처/TTS/STT 모듈(114)에 의해 캡처된 오디오 데이터를 텍스트(로 변환하도록 구성될 수 있다(그런 다음 자연어 처리기(122)에 제공될 수 있음). 클라우드 기반 TTS 모듈(116)은 클라우드의 가상적으로 무한한 리소스를 활용하여 텍스트 데이터(예를 들어, 자동화 어시스턴트(120)에 의해 공식화된 자연어 응답)를 컴퓨터 생성의 음성 출력으로 변환하도록 구성될 수 있다. 일부 구현에서, TTS 모듈(116)은 예를 들어 하나 이상의 스피커를 사용하여 직접 출력되도록 컴퓨터 생성의 음성 출력을 클라이언트 디바이스(106)로 제공할 수 있다. 다른 구현에서, 자동화 어시스턴트(120)에 의해 생성된 텍스트 데이터(예를 들어, 자연어 응답)는 음성 캡처/TTS/STT 모듈(114)에 제공될 수 있으며, 이는 텍스트 데이터를 로컬로 출력되는 컴퓨터 생성 음성으로 변환할 수 있다.
자동화 어시스턴트(120)(특히, 클라우드 기반 자동화 어시스턴트 컴포넌트(119))는 자연어 이해 엔진(1S5), 전술한 TTS 모듈(116), 전술한 STT 모듈(117) 및 아래에서 더 상세히 설명되는 다른 컴포넌트를 포함할 수 있다. 일부 구현에서, 자동화 어시스턴트(120)의 엔진들 및/또는 모듈들 중 하나 이상은 생략, 결합 및/또는 자동화 어시스턴트(120)와 별개인 컴포넌트에서 구현될 수 있다. 일부 구현에서, 프라이버시를 보호하기 위해, 자연어 이해 엔진(1S5), 음성 캡처/TTS/STT 모듈(114) 등과 같은 자동화 어시스턴트(120)의 컴포넌트 중 하나 이상은 클라이언트 디바이스(106)상에서 적어도 부분적으로(예를 들어, 클라우드를 제외하고) 구현될 수 있다.
일부 구현에서, 자동화 어시스턴트(120)는 자동화 어시스턴트(120)와의 인간-대-컴퓨터 대화 세션 동안 클라이언트 디바이스(106I-N) 중 하나의 사용자에 의해 생성된 다양한 입력에 응답하여 응답형(responsive) 컨텐츠를 생성한다. 자동화 어시스턴트(120)는 대화 세션의 일부로서 사용자에게 프리젠테이션을 위해(예를 들어, 사용자의 클라이언트 디바이스로부터 분리될 때 하나 이상의 네트워크를 통해) 응답형 컨텐츠를 제공할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 클라이언트 디바이스(106I-N) 중 하나를 통해 제공되는 자유 형식의 자연어 입력에 응답하여 응답형 컨텐츠를 생성할 수 있다. 본 명세서에서 사용된 바와 같이, 자유 형식의 자연어 입력은 사용자에 의해 공식화되고 사용자가 선택하기 위해 제시된 옵션 그룹에 제한되지 않는 입력이다.
본 명세서에서 사용되는 바와 같이, "대화 세션"은 사용자와 자동화 어시스턴트(120)(및 일부 경우에 다른 인간 참여자) 사이의 하나 이상의 메시지의 논리적으로 자체 포함된 교환을 포함할 수 있다. 자동화 어시스턴트(120)는 세션 사이의 시간 경과, 세션 사이의 사용자 컨텍스트(예를 들어, 위치, 예정된 회의 전/중/후 등)의 변경, 탐지와 같은 다양한 신호를 기반으로 사용자와의 다중 대화 세션을 구별할 수 있다. 사용자와 자동화 어시스턴트 사이의 대화를 제외하고 사용자와 클라이언트 디바이스 사이의 하나 이상의 개입하는 상호 작용(예를 들어, 사용자가 잠시 동안 애플리케이션을 전환하고 자리를 비운 다음 나중에 독립형 작동 제품으로 돌아감)의 검출, 세션사이의 클라이언트 장치의 잠금/휴면, 자동화 어시스턴트 (120)의 하나 이상의 인스턴스와 인터페이스하는데 사용된 클라이언트 디바이스의 변경, 사용자에 의해 사용되는 입력/출력("I/O") 양식(modality))의 변경 등과 같은 다양한 신호에 기초하여 사용자와의 다수의 대화 세션을 구별할 수 있다.
자연어 이해 엔진(135)의 자연어 처리기(122)는 클라이언트 디바이스 (106I-N)를 통해 사용자에 의해 생성된 자연어 입력을 처리하고 자동화 어시스턴트(120)의 하나 이상의 다른 컴포넌트에 의해 사용하기 위해 주석이 달린 출력(예를 들어, 텍스트 형태)을 생성할 수 있다. 예를 들어, 자연어 처리기(122)는 클라이언트 디바이스(106i)의 하나 이상의 사용자 인터페이스 입력 디바이스를 통해 사용자에 의해 생성된 자연어 자유 형식 입력을 처리할 수 있다. 생성된 주석이 달린 출력은 자연어 입력의 하나 이상의 주석 및 선택적으로 자연어 입력의 용어들 중 하나 이상(예를 들어, 모두)을 포함한다.
일부 구현에서, 자연어 처리기(122)는 자연어 입력에서 다양한 유형의 문법 정보를 식별하고 주석을 달도록 구성된다. 예를 들어, 자연어 처리기(122)는 개별 단어를 형태소로 분리하고 및/또는 형태소에 예를 들어 그들의 클래스로 주석을 달 수 있는 형태소 엔진을 포함할 수 있다. 자연어 처리기(122)는 또한 그들의 문법적 역할로 용어들에 주석을 달도록 구성된 품사 태거를 포함할 수 있다. 예를 들어 품사 태거는 각 용어에 "명사", "동사", "형용사", "대명사" 등과 같은 품사로 태그를 지정할 수 있다. 또한, 예를 들어, 일부 구현에서 자연어 처리기(122)는 자연어 입력의 용어들 사이의 구문 관계를 결정하도록 구성된 종속성 파서(미도시)를 추가적으로 및/또는 대안적으로 포함할 수 있다. 예를 들어, 종속성 파서는 어떤 용어가 다른 용어, 주제 및 문장의 동사 등(예를 들어, 파스 트리)을 수정하는지 결정할 수 있으며 이러한 종속성에 대한 주석을 만들 수 있다.
일부 구현에서, 자연어 처리기(122)는 추가적으로 및/또는 대안적으로 (예를 들어, 문학적 인물, 유명인, 공인을 포함하는) 사람, 조직, 위치(실제 및 가상) 등에 대한 참조와 같은 하나 이상의 세그먼트의 엔티티 참조에 주석을 달도록 구성된 엔티티 태거(미도시)를 포함할 수 있다. 일부 구현에서, 엔티티들에 관한 데이터는 지식 그래프(미도시)와 같은 하나 이상의 데이터베이스에 저장될 수 있다. 일부 구현에서, 지식 그래프는 알려진 엔티티들(및 일부 경우 엔티티 속성)을 나타내는 노드들뿐만 아니라 노드들을 연결하고 엔티티들 간의 관계를 나타내는 에지가 포함될 수 있다. 예를 들어, "바나나" 노드는 "과일" 노드에 (예를 들어, 자식으로서) 연결될 수 있으며, 이는 차례로 (자식으로서) "생산" 및/또는 "음식" 노드에 연결될 수 있다. 다른 예로, "가상 카페(Hypothetical Cafe)"라는 레스토랑은 주소, 제공되는 음식 유형, 시간, 연락처 정보 등과 같은 속성도 포함하는 노드로 표시될 수 있다. "가상 카페" 노드는 일부 구현에서 (예를 들어, 자식-부모 관계를 나타내는) 에지에 의해 "레스토랑" 노드, "비즈니스" 노드, 레스토랑이 위치한 도시 및/또는 주를 나타내는 노드 등과 같은 하나 이상의 다른 노드에 연결될 수 있다.
자연어 처리기(122)의 엔티티 태거는 (예를 들어, 사람과 같은 엔티티 클래스에 대한 모든 참조의 식별을 가능하게 하기 위해) 높은 수준의 입도 (granularity) 및/또는 (예를 들어, 특정 개인과 같은 특정 엔티티에 대한 모든 참조의 식별을 가능하게 하기 위해) 더 낮은 수준의 입도에서 엔티티에 대한 참조에 주석을 달 수 있다. 엔티티 태거는 특정 엔티티를 해석하기 위해 자연어 입력의 컨텐츠에 의존할 수 있고 및/또는 특정 엔티티를 해석하기 위해 지식 그래프 또는 다른 엔티티 데이터베이스와 선택적으로 통신할 수 있다.
일부 구현에서, 자연어 처리기(122)는 추가적으로 및/또는 대안적으로 하나 이상의 컨텍스트 단서에 기초하여 동일한 엔티티에 대한 참조를 그룹화하거나 "클러스터"하도록 구성된 상호 참조 해석기(미도시)를 포함할 수 있다. 예를 들어, 상호 참조 해석기는 "지난번 그곳에서 먹었을 때 나는 가상 카페가 좋았어"라는 자연어 입력에서 "그곳"라는 용어를 "가상 카페"로 해석하는데 활용될 수 있다.
일부 구현에서, 자연어 처리기(122)의 하나 이상의 컴포넌트는 자연어 처리기(122)의 하나 이상의 다른 컴포넌트로부터의 주석에 의존할 수 있다. 예를 들어, 일부 구현에서 명명된 엔터티 태거는 특정 엔터티에 대한 모든 언급에 주석을 달 때 상호 참조 해석기 및/또는 종속성 파서로부터의 주석에 의존할 수 있다. 또한, 예를 들어 일부 구현에서, 상호 참조 해석기는 동일한 엔티티에 대한 참조를 클러스터링할 때 종속성 파서로부터의 주석에 의존할 수 있다. 일부 구현에서, 특정 자연어 입력을 처리할 때, 자연어 처리기(122)의 하나 이상의 컴포넌트는 특정 자연어 입력 외부의 관련된 이전 입력 및/또는 다른 관련 데이터를 사용하여 이상의 주석을 결정할 수 있다.
자연어 이해 엔진(135)은 또한 자연어 처리기(122)의 주석이 달린 출력에 기초하여, 자동화 어시스턴트(120)와의 인간-대-컴퓨터 대화 세션에 참여한 사용자의 의도를 결정하도록 구성된 의도 매칭기(136)를 포함할 수 있다. 도 1에서 자연어 처리기(122)와 별개로 도시되었지만, 다른 구현에서, 의도 매칭기(136)는 자연어 처리기(122)(또는 더 일반적으로 자연어 처리기(122)를 포함하는 파이프 라인)의 필수 부분일 수 있다. 일부 구현에서, 자연어 처리기(122)와 의도 매칭기(136)는 전술한 "자연어 이해" 엔진(135)을 집합적으로 형성할 수 있다.
의도 매칭기(136)는 다양한 기술을 사용하여 사용자의 의도를 결정할 수 있다. 일부 구현에서, 의도 매칭기(136)는 예를 들어 문법과 응답형 동작(또는 보다 일반적으로 의도) 사이의 복수의 매핑을 포함하는 하나 이상의 데이터베이스(137)에 액세스할 수 있다. 추가적으로 또는 대안적으로, 일부 구현에서, 하나 이상의 데이터베이스(137)는 사용자의 입력에 기초하여 사용자 의도를 나타내는 출력을 생성하도록 훈련된 하나 이상의 기계 학습 모델을 저장할 수 있다.
문법들은 예를 들어 사용자들의 가장 일반적인 의도를 나타내기 위해 선택, 공식화(예를 들어, 손으로) 및/또는 시간에 따라 학습될 수 있다. 예를 들어, "재생<아티스트>"라는 하나의 문법은 <아티스트>에 의한 음악이 사용자에 의해 작동되는 클라이언트 디바이스(106)상에서 재생되도록 하는 응답형 동작을 호출하는 의도에 매핑될 수 있다. 다른 문법인 "[날씨|예보] 오늘"은 "오늘 날씨는 어때" 및 "오늘의 예보는 어때?"와 같은 사용자 쿼리들과 매칭될 수 있다. "재생<아티스트>"인 예시적인 문법에서 볼 수 있듯이 일부 문법에는 슬롯 값(또는 "파라미터")으로 채울 수 있는 슬롯(예를 들어, <아티스트>)이 있다. 슬롯 값은 다양한 방식으로 결정될 수 있다. 종종 사용자는 사전에 슬롯 값을 제공한다. 예를 들어, "<토핑> 피자를 주문해 줘"라는 문법에 대해, 사용자는 "소시지 피자를 주문해 줘"라는 문구를 말할 수 있으며, 이 경우 슬롯 <토핑>이 자동으로 채워진다. 추가적으로 또는 대안적으로, 사용자가 사전에 슬롯 값을 제공하지 않고, 사용자가 슬롯 값으로 채워질 슬롯을 포함하는 문법을 호출하는 경우 자동화 어시스턴트(120)는 사용자로부터 이러한 슬롯 값을 요청할 수 있다(예를 들어, "피자에 어떤 유형의 크러스트를 원하십니까? ").
(수동으로 생성될 수 있는) 많은 문법과 달리, 기계 학습 모델은 예를 들어 사용자와 자동화 어시스턴트 사이의 상호 작용의 로그(기록)를 사용하여 자동으로 훈련될 수 있다. 기계 학습 모델들은 신경망과 같은 다양한 형태를 취할 수 있다. 이들은 사용자 입력에서 사용자 의도를 예측하기 위해 다양한 방법으로 훈련될 수 있다. 예를 들어, 일부 구현에서, 개별 훈련 예제를 포함하는 훈련 데이터가 제공될 수 있다. 각 훈련 예제는 예를 들어 사용자로부터의 자유 형식의 입력(예를 들어, 텍스트 또는 비-텍스트 형식)을 포함할 수 있고 의도로 (예를 들어, 손에 의해) 라벨링될 수 있다. 훈련 예제는 출력을 생성하기 위해 기계 학습 모델(예를 들어, 신경망)에 걸쳐 입력으로 적용될 수 있다. 출력은 오류를 확인하기 위해 레이블과 비교될 수 있다. 이 오류는 모델의 은닉층(들)과 관련된 가중치를 조정하기 위해 기울기 하강(예를 들어, 확률적, 배치(batch) 등) 및/또는 역전파와 같은 기술을 사용하여 모델을 훈련하는데 사용될 수 있다. 이러한 모델이 (일반적으로 많은) 학습 예제로 학습되면 레이블이 지정되지 않은 자유 형식의 자연어 입력에서 의도를 예측하는 출력을 생성하는데 사용될 수 있다.
일부 구현에서, 자동화 어시스턴트(120)는 사용자와 제3자 애플리케이션 사이의 거래를 용이하게 (또는 "중개")할 수 있다. 이러한 제3자 애플리케이션은 예를 들어 클라우드 기반 자동화 어시스턴트 컴포넌트(119)를 작동하는 것과는 별 개인 컴퓨팅 시스템에서 작동하거나 작동하지 않을 수 있다. 따라서, 의도 매칭기(136)에 의해 식별될 수 있는 한 종류의 사용자 의도는 제3자 애플리케이션에 참여하는 것이다. 예를 들어, 자동화 어시스턴트(120)는 피자 배달 서비스에 대한 애플리케이션 프로그래밍 인터페이스("API") 액세스를 제공할 수 있다. 사용자는 자동화 어시스턴트(120)를 호출하여 "피자를 주문하고 싶어"와 같은 명령을 제공할 수 있다. 의도 매칭기(136)는 제3자 피자 배달 서비스에 참여하도록 자동화 어시스턴트(120)를 트리거하는 문법(일부 경우에 제3자에 의해 데이터베이스(137)에 추가될 수 있음)에 이 명령을 매핑할 수 있다. 제3자 피자 배달 서비스는 피자 배달 주문을 이행하기 위해 채워야 하는 슬롯의 최소 리스트를 자동화 어시스턴트(120)에 제공할 수 있다. 자동화 어시스턴트(120)는 슬롯에 대한 파라미터를 요청하는 자연어 출력을 생성하여 (클라이언트 디바이스(106)를 통해) 사용자에게 제공할 수 있다.
이행 엔진(124)은 의도 매칭기(136)에 의해 출력된 의도뿐만 아니라 임의의 연관된 슬롯 값(사용자가 사전에 제공했거나 사용자로부터 요청되었는지 여부)을 수신하고 의도를 이행하도록 구성될 수 있다. 다양한 실시예에서, 사용자의 의도의 이행은 다양한 이행 정보가 예를 들어 이행 엔진(124)에 의해 생성/획득되게 할 수 있다. 후술되는 바와 같이, 이행 정보는 일부 구현에서 자연어 생성기(일부 도면에서 "NLG")(126)에 제공될 수 있으며, 이는 이행 정보에 기초하여 자연어 출력을 생성할 수 있다.
이행 정보는 의도가 다양한 방식으로 이행할 수 있기 때문에 다양한 형태를 취할 수 있다. 사용자가 " '샤이닝(Shining)'의 야외 촬영은 어디에서 촬영되었나요?"와 같은 순수한 정보를 요청한다고 가정해 보자. 사용자의 의도는 예를 들어 의도 매칭기(136)에 의해 검색 쿼리인 것으로 결정될 수 있다. 검색 쿼리의 의도 및 내용은 도 1에 도시된 바와 같이 응답 정보를 위해 문서 및/또는 다른 데이터 소스(예를 들어, 지식 그래프)의 코퍼스(말뭉치)를 검색하도록 구성된 하나 이상의 검색 엔진(150)과 통신할 수 있는 이행 엔진(124)으로 제공될 수 있다. 이행 엔진(124)은 검색 쿼리(예를 들어, 쿼리의 텍스트, 감소된 차원 임베딩 등)를 나타내는 데이터를 검색 엔진(150)에 제공할 수 있다. 검색 엔진(150)은 GPS 좌표와 같은 응답 정보, 또는 "오레곤주, 마운틴 후드, 팀버라인 롯지"와 같은 다른 보다 명시적인 정보를 제공할 수 있다. 이 응답 정보는 이행 엔진(124)에 의해 생성된 이행 정보의 일부를 형성할 수 있다.
추가로 또는 대안적으로, 이행 엔진(124)은 예를 들어 자연어 이해 엔진 (135)으로부터 사용자의 의도 및 사용자에 의해 제공되거나 다른 수단(예를 들어, 사용자의 GPS 좌표, 사용자 선호도 등)을 사용하여 결정된 임의의 슬록 값을 수신하여 응답형 동작(actin)을 트리거하도록 구성될 수 있다. 응답형 동작에는 예를 들어 상품/서비스 주문, 타이머 시작, 알림 설정, 전화 통화 시작, 미디어 재생, 메시지 전송 등이 포함될 수 있다. 일부 그러한 구현에서, 이행 정보는 이행과 관련된 슬롯 값, 확인 응답(일부 경우 사전 결정된 응답들부터 선택될 수 있음) 등을 포함할 수 있다.
전술한 바와 같이, 자연어 생성기(126)는 다양한 소스로부터 획득된 데이터에 기초하여 자연어 출력(예를 들어, 인간 음성을 모방하도록 설계된 발화된 단어/문구)을 생성 및/또는 선택하도록 구성될 수 있다. 일부 구현에서, 자연어 생성기(126)는 입력으로서 이행 엔진(124)에 의한 의도의 이행과 관련된 이행 정보를 수신하고, 이행 정보에 기초하여 자연어 출력을 생성하도록 구성될 수 있다. 추가적으로 또는 대안적으로, 자연어 생성기(126)는 제3자 애플리케이션(예를 들어, 필수 슬롯)과 같은 다른 소스로부터 정보를 수신할 수 있으며, 이는 사용자를 위한 자연어 출력을 공식화하는데 사용할 수 있다.
대화 컨텍스트 엔진(138)은 사용자(들)와 자동화 어시스턴트(120) 사이의 대화 컨텍스트를 지속하고 이용 가능하게 하도록 구성될 수 있다. 일부 구현에서, 대화 컨텍스트 엔진(138)은 클라이언트 디바이스(106I-N)로부터 원격인 하나 이상의 데이터베이스(139)에 대화 컨텍스트를 유지(예를 들어, 저장)할 수 있다. 추가적으로 또는 대안적으로, 대화 컨텍스트는 예를 들어 사용자 프라이버시를 유지하기 위해 및/또는 클라이언트 디바이스(106)가 오프라인일 때에도 본 명세서에 설명된 기술이 실행될 수 있도록 하나 이상의 클라이언트 디바이스(106)에 로컬인 메모리에 저장될 수 있다. 이러한 일부 구현에서, 대화 컨텍스트 엔진(138)은 클라이언트 디바이스(들)(106)에서 전체적으로 또는 부분적으로 구현될 수 있다.
다양한 구현에서, 인간-대-컴퓨터 대화 동안 생성되고 대화 컨텍스트 엔진(138)에 의해 관리되는 대화 컨텍스트는 다양한 정보를 포함할 수 있다. 일부 구현에서, 대화 컨텍스트는 사용자에 의해 제공되는 자유 형식의 자연어 입력 및/또는 예를 들어 자연어 생성기(126)에 의해 생성된 자연어 출력과 같은 다양한 신호에 기초하여, 예를 들어, 의도 매칭기(136)에 의해 검출된 하나 이상의 사용자 의도를 포함할 수 있다. 일부 구현에서, 대화 컨텍스트는 또한 인간-대-컴퓨터 대화 세션 동안 (사용자 및/또는 자동화 어시스턴트에 의해) 언급되고 전술한 앤티티 태거에 의해 검출된 알려진 엔티티(예를 들어, 사람, 장소, 사물)에 대한 하나 이상의 참조를 포함할 수 있다.
일부 구현에서, 대화 컨텍스트는, 즉, 사용자의 의도와 연관된 하나 이상의 슬롯을 채움으로써 사용자의 의도를 이행하는데 사용할 수 있는 하나 이상의 슬롯 값을 더 포함할 수 있다. 슬롯 값은 전술한 바와 같이 다양한 소스로부터 획득될 수 있다. 대화 컨텍스트는 다양한 방식으로 대화 컨텍스트 엔진(138)에 의해 보존될 수 있다. 일부 구현에서, 인간-대-컴퓨터 대화의 전체 전사는 데이터베이스(139) 또는 클라이언트 디바이스(106)에 로컬인 메모리에 보존될 수 있어서, 예를 들어 대화 컨텍스트는 보존된 전사에서 의도, 슬롯 값, 엔티티 등을 검출함으로써 즉시 및/또는 필요에 따라 재구축(rebuild)될 수 있다. 일부 구현에서, 특히 사용자가 메시지 교환 클라이언트(107)를 사용하여 자동화 어시스턴트(120)와 상호 작용하는 구현에서, 이것은 사용자가 전사를 시각적으로 리뷰할 수 있다는 점에서 추가적인 이점을 제공할 수 있다. 추가적으로 또는 대안적으로, 일부 구현에서, 감지된 의도(들), 슬롯 값, 언급된 엔티티 등과 같은 대화 컨텍스트의 핵심 요소만 JSON(JavaScript Object Notation) 또는 다른 유사한 포멧과 같은 다양한 포멧으로 보존될 수 있다.
대화 컨텍스트 엔진(1S8)과 같은 도 1의 다양한 컴포넌트는 사용자와 자동화 어시스턴트(120) 사이의 인간-대-컴퓨터 대화 동안 생성된 의미적으로 구별되는 다수의 대화 컨텍스트를 보존하기 위해 본 개시의 선택된 측면을 수행하도록 구성될 수 있다. 부가적으로, 사용자가 자동화 어시스턴트와의 이전 대화를 재개하기 위해 다수의 대화 컨텍스트로 및/또는 그 사이에서 전환할 수 있도록 하는 기술이 본 명세서에 설명되어 있다. 예를 들어, 일부 구현에서, 사용자는 이전 스레드 및/또는 사고 프로세스를 잃지 않고 직관적인 방식으로 자동화 어시스턴트(120)와의 이전 대화를 통해 전환하거나 "토글"할 수 있다. 터치 스크린, 정전식 터치 패드 또는 다른 시각적 입/출력("I/O") 메커니즘이 클라이언트 디바이스(106)에서 이용 가능한 일부 구현에서, 사용자에게 사용자가 이전 대화 컨텍스트로 전환하도록 조작할 수 있는 백 버튼"과 같은 선택 가능한 요소가 제공될 수 있다. 추가적으로 또는 대안적으로, 사용자가 클라이언트 디바이스(106)를 작동하여 자동화 어시스턴트(120)와 음성으로 인간-대-컴퓨터 대화에 참여하는 시나리오에서, 사용자는 "헤이 어시스턴트, <이전 대화^로 돌아 가자"와 같은 하나 이상의 명령을 발화하여 자동화 어시스턴트(120)를 이전 대화 컨텍스트로 다시 전환할 수 있다.
도 2a, 2b, 2c 및 2d는 사용자에 의해 작동되는 컴퓨팅 디바이스(206)상에 적어도 부분적으로 구현되는 사용자, 다른 사용자 및 자동화 어시스턴트(120) 사이의 예시적인 대화를 도시한다. 이들 도면은 본 개시의 다양한 양태, 특히 과거 대화를 재개하기 위해 다수의 상이한 과거 대화 컨텍스트 사이에서 전환하는 사용자의 기능을 예시한다. 도 2a-d에서, 클라이언트 디바이스(206)는 터치 스크린(240), 다양한 사용자 인터페이스 버튼(281, 282, 283), 텍스트 입력 필드(288) 및 마이크로폰 아이콘(289)을 포함한다. 마이크로폰 아이콘(289)은 예를 들어 음성 캡처/TTS/STT 모듈(114)에 의해 음성 인식될 수 있고, 예를 들어 텍스트 입력 필드 (288)를 채우는데 사용될 수 있는 음성 입력을 사용자가 제공할 수 있도록 작동 가능할 수 있다.
도 2a에서, 클라이언트 디바이스(206)("YOU")를 작동하는 사용자는 (예를 들어, 입력 필드(288)를 사용하여) "사이즈 7의 여성용 드레스 신발을 쇼핑해 줘"와 같은 자유 형식의 자연어 입력을 제공한다. 일부 구현에서, 이 진술은 대화의 새로운 토픽을 시작하기 때문에, 쇼(show) 쇼핑의 토픽과 관련된 중단점이 생성되고 "BP1"이라는 라벨로 표시된 바와 같이 전사와 연관될 수 있으며, 이는 설명을 위해 도면에 포함되고 터치 스크린(240)에서 실제로 렌더링되거나 렌더링되지 않을 수 있다. 자동화 어시스턴트가 신발_쇼핑의 예상 의도에 대한 슬롯 값을 찾는 방법으로 "특정 색상 신발 또는 특정 브랜드를 쇼핑하시겠습니까?"라고 묻는다. 사용자는 "검정색 신발"이라고 답하여 슬롯 값을 제공한다.
이 시점에서 조(JOE)라는 다른 사용자는 사용자에게 "비센조 식당에서 오늘 밤 7시에 저녁 식사 할래?"라는 메시지를 전사의 일부로 전송한다. 이 시점에서 또 다른 중단점인 도 2a의 BP2가 그 전사에 삽입되어 새로운 대화 컨텍스트인 오늘 저녁 식사의 시작을 나타낼 수 있다. 사용자가 "좋아"라고 대답하면 자동화 어시스턴트는 "비센조 식당에서 오늘 밤 7시에 저녁 식사를 하기 위해 2인 예약을 하시겠습니까?"라고 응답한다.
대화는 도 2b에서 계속된다. 사용자는 예약하기 위한 자동화 어시스턴트의 예약 제안에 대해 긍정적("그래")으로 응답한다. 해당 의도(오후 7:00 및 "비센조 식당이라는 파라미터로 저녁 식사 예약)가 충족되면, 자동화 어시스턴트는 예를 들어 도 1의 자연어 출력 생성기(126)를 통해 "당신과 조를 위해 비센조 식당에 오늘 밤 7시에 저녁 식사를 예약했습니다"라는 텍스트를 생성하여 출력한다. 조는 "고마워, 그때 만나"라고 말한다.
이 시점에서, 사용자와 자동화 어시스턴트 사이의 이 대화 중에 활성화된 두 개의 대화 컨텍스트가 있었는데, 하나는 신발 쇼핑과 관련된 BP1과 관련된 것이고 다른 하나는 저녁 식사 예약과 관련된 BP2와 관련된 것이다. 이들 대화 컨텍스트를 나타내는 데이터는 예를 들어 데이터베이스(139)의 대화 컨텍스트 엔진(138)에 의해 유지될 수 있다. 그 후, 사용자는 이들 대화 컨텍스트(및 아마도 BP1 이전에 발생한 다른 대화 컨텍스트)를 통해 다시 전환할 수 있으므로 사용자는 처음부터 시작하지 않고 이들 과거 대화를 재개할 수 있다.
사용자는 다양한 방식으로 이들 대화 컨텍스트를 통해 다시 전환할 수 있다. 일부 구현에서, 사용자는 클라이언트 디바이스(206)의 운영 체제에 의해 제공되거나 제공되지 않을 수 있는 그래픽 요소(281)와 같은 백 버튼을 조작함으로써 과거 대화 컨텍스트를 통해 뒤로 토글할 수 있다. 도 2b에서, 대신 사용자는 "헤이 어시스턴트-신발 쇼핑으로 돌아가 줘"라는 자유 형식의 자연어 입력을 사용하여 신발 쇼핑 대화 컨텍스트로 다시 전환한다. 일부 구현에서, 동일한 중단점(BP1)이 다시 한번 전사의 이 부분에 삽입될 수 있으므로, 예를 들어, 이 중단점과 연관된 전사의 다른 부분이 나중에 단일 대화 컨텍스트와 관련된 것으로 함께 재조립될 수 있다.
이전 대화 컨텍스트로 다시 전환할 때, 사용자에게 자동화 어시스턴트와 논의한 내용을 리마인드하는 것이 유익할 수 있다. 따라서 다양한 구현에서, 이전 대화 컨텍스트로 다시 전환한 후 자동화 어시스턴트(120)는 전환된 대화 컨텍스트의 의도 중 적어도 하나 이상 및 전환된 대화 컨텍스트의 하나 이상의 슬롯 값을 전달하는 자연어 출력을 생성할 수 있다. 그런 다음 자동화 어시스턴트(120)는 이 자연어 출력이 동일한 컴퓨팅 디바이스 또는 사용자에 의해 작동되는 다른 컴퓨팅 디바이스에 제시되도록 할 수 있다. 예를 들어, 도 2b에서, 자동화 어시스턴트(120)는 "당신은 사이즈 7의 검정색 여성 드레스 신발에 관심이 있었습니다"라고 말함으로써 과거의 대화 컨텍스트를 요약한다.
도 2c는 조(Joe)가 "고마워. 그때 만나"라고 말한 후에 발생할 수 있는 대안적인 대화를 나타낸다. 사용자가 적극적으로 신발 쇼핑으로 다시 전환하는 대신, 사용자는 대신 자동화 어시스턴트(120)에게 "헤이 어시스턴트-우리가 무엇에 대해 이야기하고 있었지?"라고 묻는다. 자동화 어시스턴트(120)는 "우리는 오늘 밤 일기 예보, 신발 쇼핑, 오늘 밤 저녁 식사 예약에 관해 이야기하고 있었습니다"라는 과거 대화 컨텍스트의 열거 리스트를 출력함으로써 응답한다. 도 2c에 도시된 바와 같이, 이러한 과거 주제들 각각은 중단점과 연관될 수 있다. 일부 실시예에서, 중단 점은 실제로 터치 스크린(240) 상에 렌더링될 수 있으며, 따라서 사용자는 하나를 선택하여 각각의 대화 컨텍스트로 다시 전환할 수 있다.
그러나, 도 2d에서 사용자는 대신 "신발 쇼핑으로 돌아가 줘. 우리가 어디에서 그만두었지?"라고 말한다. 이 시점에서 자동화 어시스턴트(120)는 "당신은 사이즈 7의 검정색 여성 드레스 신발에 관심이 있었습니다. 특정 브랜드를 쇼핑하시겠습니까?"라고 말하면서 과거 대화에 관한 요약 자연어 출력을 다시 한번 제공한다. 그런 다음 사용자는 "판매중인 모든 브랜드"라고 답하고 신발 쇼핑 대화가 재개된다.
도 3a, 3b, 3c 및 3d는 다양한 구현에 따라 사용자(301)에 의해 작동되는 독립식 대화형 스피커(306)를 통해 사용자(301)와 자동화 어시스턴트(120) 사이의 예시적인 대화를 도시한다. 대화는 사용자(301)가 독립식 대화형 스피커(306)의 자동화 어시스턴트(120)에게 "사이즈 7의 여성용 드레스 신발을 쇼핑해 줘"를 요청하는 것으로 시작한다. "신발" 및 "신발들"에 대한 참조는 자동화 어시스턴트(120)가 "신발 쇼핑"의 제1 대화 컨텍스트를 식별할 수 있게 한다. 제1 대화 컨텍스트를 식별하는 것에 추가하여, 자동화 어시스턴트(120)는 제1 중단점(BP1)을 제1 대화 컨텍스트와 연관시킬 수 있다. 중단점은 도 1a에서 "BP1"으로 표시되지만, 이는 단지 설명을 위한 것이며 사용자(301)가 실제로 말하지 않을 가능성이 높다.
자동화 어시스턴트(120)는 사용자(301)에게 "특정 색상 신발 또는 특정 브랜드를 쇼핑하시겠습니까?"라고 질문할 수 있다. 사용자(301)는 검색 범위를 "검정색 신발들"로 좁혀 응답할 수 있다. 이 시점에서, 자동화 어시스턴트(120)는 "리마인더 : 조와 비센조 식당에서 오늘 밤 7시에 저녁 식사를 합니다. 예약을 원하십니까?"라는 문장을 제공하기 위해 대화를 인터럽트할 수 있다. 이것은 이 특정 시간에 전달되도록 이전에 자신을 위해 설정된 리마인더 사용자(301)이거나 조와 같은 다른 누군가에 의해 트리거된 리마인더일 수 있다. 여하튼, "저녁 식사" 및 "예약"에 대한 참조는 자동화 어시스턴트(120)가 "저녁 식사 예약"이라는 제2 대화 컨텍스트를 식별할 수 있게 한다. 제2 대화 컨텍스트를 식별하는 것에 추가하여, 자동화 어시스턴트(120)는 제2 중단점(BP2)을 제2 대화 컨텍스트와 연관시킬 수 있다.
리마인더를 직접 처리하는 대신, 사용자(301)는 "오늘 밤의 일기 예보는 어때?"라고 응답하면서 다시 한 번 주제를 변경한다. 이것은 예를 들어, 사용자(301)가 날씨가 좋으면 바깥에 앉는 것을 선호하기 때문일 수 있다. "오늘 밤의 일기 예보"에 대한 참조는 자동화 어시스턴트(120)가 "오늘 밤의 일기 예보"라는 제3 대화 컨텍스트를 식별할 수 있게 한다. 제3 대화 컨텍스트를 식별하는 것에 추가하여, 자동화 어시스턴트(120)는 제3 중단점(BP3)을 제3 대화 컨텍스트와 연관시킬 수 있다. 자동화 어시스턴트(120)는 "따뜻하고 맑은 하늘입니다"이라고 말함으로써 일기 예보에 응답할 수 있다.
이 유리한 일기 예보는 저녁 식사를 예약할 때 사용자의 결정에 영향을 미칠 수 있다. 예를 들어, 사용자(301)는 실내 식사를 선택하기보다 "테라스 좌석으로 비센조 식당에 오늘 밤 저녁 식사 예약해 줘"라고 응답할 수 있다. 사용자(301)에 응답하여, 자동화 어시스턴트(120)는 제3자 애플리케이션과 상호 작용하여 저녁 식사를 예약하고, 사용자에게 "비센조 식당에 오늘 밤 7시에 예약된 저녁 식사 예약"이 있음을 알릴수 있다.
대화는 도 3b에서 계속된다. 사용자(301)는 자동화 어시스턴트(120)에게 "메시지 조 : 테라스 좌석으로 비센조 식당에 오늘 밤 7시에 저녁 식사 예약했어"라고 요청할 수 있다. 또한, 자동화 어시스턴트(120)는 "메시지가 조에게 전송되었습니다"라고 응답하여 요청을 확인할 수 있다. 사용자 SOI가 이전 대화 컨텍스트를 잊었다고 가정한다. 위에서 언급한 바와 같이, 사용자(301)가 이전 대화 컨텍스트로 돌아가기 위해 사용할 수 있는 다양한 기술이 있다.
일부 구현에서, 도 3b에 예시된 바와 같이, 사용자(301)는 "헤이 어시스턴트, 우리가 무엇에 대해 이야기하고 있었지?"라고 말함으로써 이전 대화 컨텍스트로 돌아갈 수 있다. 이에 응답하여, 자동화 어시스턴트(120)는 "우리는 1) 신발 쇼핑, 2) 저녁 식사 예약 및 3) 오늘 밤 일기 예보에 관해 이야기하고 있었습니다"와 같은 이전 대화 컨텍스트의 열거된 목록을 제공할 수 있다. 만약 사용자(301)가 "신발 쇼핑"을 지정하면, 자동화 어시스턴트(120)는 제1 중단점(BP1)과 연관된 대화로 복귀함으로써 제1 대화 컨텍스트로 복귀할 수 있다. 만약 사용자(301)가 "저녁 식사 예약"을 지정하면, 자동화 어시스턴트(120)는 제2 중단점(BP2)과 연관된 대화로 복귀함으로써 제2 대화 컨텍스트로 복귀할 수 있다. 만약 사용자(301)가 "오늘 밤의 날씨"을 지정하면, 자동화 어시스턴트(120)는 제3 중단점(BP3)과 연관된 대화로 복귀함으로써 제3 대화 컨텍스트로 복귀할 수 있다.
만약 사용자(301)가 열거된 이전 대화 컨텍스트 중 하나로 복귀하기로 선택하면, 자동화 어시스턴트(120)는 특정 열거된 대화 컨텍스트의 요약을 제공할 수 있다. 예를 들어, 사용자(301)는 "신발 쇼핑으로 돌아가 줘. 우리가 어디에서 그만두었지?"라고 말할 수 있다. 자동화 어시스턴트(120)는 "사이즈 7의 검정색 여성용 드레스 신발에 관심이 있었습니다. 특정 브랜드를 쇼핑하시겠습니까?"라고 응답할 수 있다. 사용자(301)는 "판매중인 모든 브랜드"와 같이 말함으로써 응답할 수 있다.
도 3c는 도 3b에 묘사된 대안적인 대화를 도시한다. 일부 구현에서, 도 3c에 도시된 바와 같이, 사용자(301)는 "헤이 어시스턴트, 우리가 무엇에 관해 이야기하고 있었지?"라고 말함으로써 직전 대화 컨텍스트로 돌아갈 수 있다. 이에 응답하여, 자동화 어시스턴트(120)는 "우리는 오늘 밤의 일기 예보에 대해 이야기하고 있었습니다"라는 가장 최근의 대화 컨텍스트를 제공할 수 있다. 그러나, 사용자(301)는 더 이전의 대화 컨텍스트로 돌아가기를 원할 수 있으며 "그 전에는"이라고 말함으로써 이것을 나타낼 수 있다. 이에 응답하여, 자동화 어시스턴트(120)는 "우리는 조와 오늘 밤 당신의 저녁 식사 예약에 관해 이야기하고 있었습니다"라는 더 이전의 대화 컨텍스트를 제공할 수 있다. 또한, 사용자(301)는 더 이전의 대화 컨텍스트로 복귀(예를 들어, 더 토글)하기를 원할 수 있고, "그 전에는"이라고 말함으로써 이것을 나타낼 수 있다. 이에 응답하여, 자동화 어시스턴트(120)는 "우리는 신발 쇼핑에 관해 이야기하고 있었습니다"라는 더 이전의 대화 컨텍스트를 제공할 수 있다. 이러한 방식으로, 사용자 SOI는 원하는 대화 컨텍스트에 도달할 수 있다.
일부 구현에서, 도 3d에 도시된 바와 같이, 사용자(301)는 "신발 쇼핑으로 돌아가 줘. 우리가 어디에서 그만두었지?"라고 지정함으로써 이전 대화 컨텍스트로 돌아갈 수 있다. 이에 응답하여, 자동화 어시스턴트(120)는 "당신은 사이즈 7의 검정색 여성용 드레스 신발에 관심이 있었습니다. 특정 브랜드에 대해 쇼핑하기를 원하십니까?"라는 이전 대화 컨텍스트의 요약을 제공할 수 있다. 그런 다음 사용자는 "판매중인 모든 브랜드"로 검색 범위를 좁히는 음성 출력을 제공할 수 있다. 이에 응답하여, 자동화 어시스턴트(120)는 "브랜드 X 및 브랜드 Y 모두 사이즈 7의 검정색 여성용 드레스 신발을 판매하고 있습니다"를 결정할 수 있다. 이전 컨텍스트에 기초한 대화가 계속될 수 있거나 사용자(301)는 검색 범위를 충분히 좁혀 "고마워"라고 말할 수 있다.
도 3a-d에서, 사용자(301)는 음성 명령을 사용하여 대화 상태들 사이를 전환했다. 그러나 이것은 제한이 아니다. 대안으로서, 사용자(301)는 독립식 대화형 스피커(306)상의 백 버튼(381)과 상호 작용할 수 있다. 예를 들어, 독립식 대화형 스피커(306)는 선택 가능한 백 버튼을 렌더링하도록 동작할 수 있는, 예를 들어 정전식 터치 패드 아래에 배치된 하나 이상의 LED를 갖는 기본 디스플레이를 포함할 수 있다. 추가적으로 또는 대안적으로, 일부 독립식 대화형 스피커에는 예를 들어 백 버튼을 렌더링하거나 심지어 이전 대화 컨텍스트를 요약하고 과거의 대화 컨텍스트를 나열할 수 있는(및 나열된 항목이 사용자에 의해 수동으로 선택할 수 있음) 부착형 터치 스크린 디스플레이가 포함될 수 있다.
도 4는 본 명세서에 개시된 구현들에 따른 예시적인 방법(400)을 예시하는 흐름도이다. 편의상, 흐름도의 동작들은 동작을 수행하는 시스템을 참조하여 설명된다. 이 시스템은 자동화 어시스턴트(120)를 구현하는 컴퓨팅 시스템의 하나 이상의 컴포넌트와 같은 다양한 컴퓨터 시스템의 다양한 컴포넌트를 포함할 수 있다. 더욱이, 방법(400)의 동작들이 특정 순서로 도시되어 있지만, 이것은 제한하는 것을 의미하지 않는다. 하나 이상의 동작은 재정렬, 생략 또는 추가될 수 있다.
블록(452)에서, 시스템은 사용자와 자동화 어시스턴트(120) 사이의 인간-대-컴퓨터 대화 세션 동안 사용자로부터 자유 형식의 자연어 입력의 하나 이상의 인스턴스를 수신할 수 있다. 이 자유 형식의 입력은 (예를 들어, 메시지 교환 클라이언트(107)를 사용하여) 타이핑 및/또는 발화될 수 있고 그러 다음 음성이 텍스트로 인식될 수 있다. 블록(454)에서, 시스템은 자유 형식의 자연어 입력의 하나 이상의 인스턴스에 기초하여 제1 대화 컨텍스트를 생성할 수 있다. 제1 대화 컨텍스트는 예를 들어, 사용자의 하나 이상의 의도 및 하나 이상의 의도와 연관된 하나 이상의 슬롯 값을 포함할 수 있다.
블록(456)에서, 시스템은 동일한 인간-대-컴퓨터 대화 세션 또는 사용자와 자동화 어시스턴트(120) 사이의 다른 인간-대-컴퓨터 대화 세션 동안 사용자로부터 자유 형식의 자연어 입력의 하나 이상의 추가 인스턴스를 수신할 수 있다. 자유 형식의 자연어 입력의 이러한 추가 인스턴스는 블록(452)의 것과 다른 주제와 관련될 수 있다. 블록(458)에서, 시스템은 자유 형식의 자연어 입력의 하나 이상의 추가 인스턴스에 기초하여 제2 대화 컨텍스트를 생성할 수 있다. 제2 대화 컨텍스트는 사용자의 하나 이상의 추가 의도를 포함할 수 있고 블록(454)에서 생성된 제1 대화 컨텍스트와 의미상 구별되는 것으로 간주될 수 있다.
블록(460)에서, 시스템은 사용자로부터 전환 명령을 수신하여 제2 대화 컨텍스트로부터 제1 대화 컨텍스트로 다시 자동화 어시스턴트(120)를 전환할 수 있다. 이 명령은 다른 입력 방식, 예를 들어, 백 버튼을 사용하여 발화되거나 제공될 수 있다. 블록(462)에서, 시스템은 제1 대화 컨텍스트에 기초하여, 제1 대화 컨텍스트의 의도 중 적어도 하나 이상 및 제1 대화 컨텍스트의 슬롯 값 중 하나 이상을 전달하는 자연어 출력을 생성할 수 있다. 블록(464)에서, 시스템은 자연어 출력이 동일한 컴퓨팅 디바이스 또는 사용자에 의해 작동되는 다른 컴퓨팅 디바이스에 제시되게 할 수 있다. 예를 들어, 클라우드 기반 자동화 어시스턴트 컴포넌트(119)는 자연어 출력의 텍스트를 음성 캡처/TTS/STT 모듈(114)로 전송할 수 있으며, 이는 텍스트를 음성으로 변환하고 클라이언트 디바이스(106)의 하나 이상의 스피커를 통해 출력할 수 있다.
일부 구현에서, 사용자는 일부 경우 자동화 어시스턴트(120)와의 인간-대-컴퓨터 대화에서 사용자가 액세스할 수 있는 제3자 애플리케이션일 수 있는 별개의 소프트웨어 애플리케이션에 참여하기 위해 자동화 어시스턴트(120)와의 대화에서 벗어날 수 있다. 이것은 자동화 어시스턴트(120)가 별개의 소프트웨어 애플리케이션을 시작하기 위해 사용자에 의해 선택 가능한 소위 "딥 링크"를 사용자에게 제시할 때 발생할 수 있다. 이러한 딥 링크는 예를 들어 인간-대-컴퓨터 대화 동안 검출된 하나 이상의 의도 또는 슬롯 값에 기초하여 자동화 어시스턴트(120)에 의해 제시될 수 있다. 일부 그러한 구현에서, 별개의 소프트웨어 애플리케이션은 자동화 어시스턴트(120)와 상호 작용하는데 사용할 수 있는 인터페이스로 다시 전환하도록 선택 가능한 백 버튼과 같은 선택 가능한 요소를 포함하는 그래픽 사용자 인터페이스를 포함할 수 있으며, 딥 링크의 선택 이전에 활성화된 대화 컨텍스트는 다시 한 번 활성화된다. 다른 구현에서, 사용자는 기본 운영 체제에 의해 렌더링된 백 버튼과 같은 별개의 소프트웨어 애플리케이션과 특별히 관련이 없는 백 버튼을 조작하여 뒤로 돌아갈 수 있다.
도 5는 다양한 실시예에 따른 본 발명의 선택된 양태를 실행하기 위한 예시적인 방법(500)을 도시한다. 편의상, 흐름도의 동작들은 동작을 수행하는 시스템을 참조하여 설명한다. 이 시스템은 다양한 컴퓨터 시스템의 다양한 컴포넌트를 포함할 수 있다. 더욱이, 방법(500)의 동작이 특정 순서로 도시되지만, 이것은 제한하는 것을 의미하지 않는다. 하나 이상의 동작은 재정렬, 생략 또는 추가될 수 있다.
블록(552)에서, 시스템은 사용자에 의해 작동되는 컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 사용자와 하나 이상의 프로세서에 의해 적어도 부분적으로 구현된 자동화 어시스턴트 사이의 제1 인간-대-컴퓨터 대화 동안 사용자로부터 하나 이상의 자유 형식의 자연어 입력 인스턴스를 수신할 수 있다. 이 동작은 도 4의 블록(452)와 유사할 수 있다.
블록(554)에서, 시스템은 사용자와 자동화 어시스턴트 사이의 제1 인간-대-컴퓨터 대화의 하나 이상의 저장된 제1 파라미터를 사용자와 자동화 어시스턴트 사이의 제1 인간-컴퓨터 대화에서 사용자가 액세스할 수 있는 제1 제3자 애플리케이션과 연관시킬 수 있다. 이들 파라미터는 예를 들어 원격 서버에 및/또는 클라이언트 디바이스에 로컬로 위치한 컴퓨터 메모리에 저장될 수 있다. 일부 구현에서, 하나 이상의 제1 파라미터를 저장하는 것은 하나 이상의 제1 파라미터에 대한 구성 파일을 생성하는 것 및 그 구성 파일을 컴퓨터 메모리에 저장하는 것을 포함할 수 있다. 일부 경우, 구성 파일은 JSON과 같은 포멧으로 생성될 수 있으며 실제로 대화 컨텐츠를 나타낼 수 있다. 예시적인 사용 사례로서, 제1 제3자 애플리케이션(예를 들어, 신발 쇼핑 애플리케이션)에 대한 딥 링크가 제1 인간-대-컴퓨터 대화의 일부로서 제시될 때, 하나 이상의 의도, 슬롯 값, 언급된 엔티티 등(예를 들어, 원하는 신발 사이즈, 스타일, 색상 등)을 포함할 수 있는 대화 컨텍스트가 제1 제3자 애플리케이션과 연관될 수 있다.
블록(556)에서, 시스템은 컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화 동안 사용자로부터 자유 형식의 자연어 입력의 하나 이상의 추가 인스턴스를 수신할 수 있다. 이 동작은 도 4의 블록(456)과 유사할 수 있다.
사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화에 후속하여, 제1 제3자 애플리케이션으로부터 자동화 어시스턴트로 전환하라는 사용자로부터의 전환 명령의 수신에 응답하여, 블록(558)에서 시스템은 예를 들어, 컴퓨터 메모리로부터 제1 제3자 애플리케이션과 연관된 저장된 하나 이상의 제1 파라미터를 검색할 수 있다. 블록(560)에서, 시스템은 검색된 제1 파라미터를 사용하여 사용자와 자동화 어시스턴트 사이의 제1 인간-대-컴퓨터 대화를 재개할 수 있다. 이러한 방식으로 사용자는 제3자 애플리케이션에 대한 딥 링크를 선택하기 전에 자동화 어시스턴트와의 대화를 재개할 수 있다.
일부 구현에서, 제1 인간-대-컴퓨터 대화의 하나 이상의 저장된 제1 파라미터를 제1 제3자 애플리케이션과 연관시키는 것은, 예를 들어, 제1 제3자 애플리케이션으로부터 자동화 어시스턴트로 전환하하는 전환 명령의 수신에 응답하여, 제1 제3자 애플리케이션과 연관된 저장된 하나 이상의 제1 파라미터를 검색하기 위해 호출 가능한 토큰을 생성하는 것을 포함할 수 있다. 이러한 일부 구현에서, 토큰은 저장된 하나 이상의 제1 파라미터와 제1 제3자 애플리케이션 사이의 링크 형태를 취할 수 있다.
도 6은 본 명세서에 설명된 기술의 하나 이상의 양태를 수행하기 위해 선택적으로 이용될 수 있는 예시적인 컴퓨팅 디바이스(610)의 블록도이다. 일부 구현에서, 클라이언트 컴퓨팅 디바이스, 사용자 제어 리소스 엔진(130) 및/또는 다른 컴포넌트(들) 중 하나 이상은 예시적인 컴퓨팅 디바이스(610)의 하나 이상의 컴포넌트를 포함할 수 있다.
컴퓨팅 디바이스(610)는 일반적으로 버스 서브 시스템(612)을 통해 다수의 주변 디바이스와 통신하는 적어도 하나의 프로세서(614)를 포함한다. 이들 주변 디바이스는 예를 들어 메모리 서브 시스템(625) 및 파일 저장 서브 시스템(626), 사용자 인터페이스 출력 디바이스(620), 사용자 인터페이스 입력 디바이스(622) 및 네트워크 인터페이스 서브 시스템(616)을 포함하는 저장 서브 시스템(624)을 포함할 수 있다. 입력 및 출력 디바이스는 컴퓨팅 디바이스(610)와 사용자 상호 작용을 허용한다. 네트워크 인터페이스 서브 시스템(616)은 외부 네트워크에 대한 인터페이스를 제공하고 다른 컴퓨팅 디바이스의 대응하는 인터페이스 디바이스에 결합된다.
사용자 인터페이스 입력 디바이스(622)는 키보드, 포인팅 디바이스(예를 들어, 마우스, 트랙볼, 터치 패드 또는 그래픽 태블릿), 스캐너, 디스플레이에 통합된 터치 스크린, 음성 인식 시스템과 같은 오디오 입력 디바이스, 마이크로폰 및/또는 다른 유형의 입력 디바이스를 포함할 수 있다. 일반적으로, "입력 디바이스"라는 용어의 사용은 컴퓨팅 디바이스(610) 또는 통신 네트워크에 정보를 입력하는 모든 가능한 유형의 디바이스 및 방법을 포함하도록 의도된다.
사용자 인터페이스 출력 디바이스(620)는 디스플레이 서브 시스템, 프린터, 팩스 기계, 또는 오디오 출력 디바이스와 같은 비-시각적 디스플레이를 포함할 수 있다. 디스플레이 서브 시스템은 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평판 디바이스, 프로젝션 디바이스, 또는 가시적 이미지를 생성하기 위한 일부 다른 메커니즘을 포함할 수 있다. 디스플레이 서브 시스템은 또한 오디오 출력 디바이스를 통해 비-시각적 디스플레이를 제공할 수 있다. 일반적으로, "출력 디바이스"라는 용어의 사용은 컴퓨팅 디바이스(610)로부터 사용자 또는 다른 기계 또는 컴퓨팅 디바이스로 정보를 출력하는 모든 가능한 유형의 디바이스 및 방법을 포함하도록 의도된다.
저장 서브 시스템(624)은 본 명세서에 설명된 모듈의 일부 또는 전부의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 예를 들어, 스토리지 서브 시스템(624)은 도 1에 도시된 다양한 컴포넌트를 구현할 뿐만 아니라 도 4 및 5의 방법의 선택된 양태를 수행하는 로직을 포함할 수 있다.
이들 소프트웨어 모듈은 일반적으로 프로세서(614)에 의해 단독으로 또는 다른 프로세서와 결합하여 실행된다. 저장 서브 시스템(624)에서 사용되는 메모리 (625)는 프로그램 실행 동안 명령 및 데이터를 저장하기 위한 메인 랜덤 액세스 메모리(RAM)(630) 및 고정 명령이 저장되는 판독 전용 메모리(ROM)(632)를 포함하여 다수의 메모리를 포함할 수 있다. 파일 저장 서브 시스템(626)은 프로그램 및 데이터 파일에 대한 영구 저장을 제공할 수 있으며, 하드 디스크 드라이브, 플로피 디스크 드라이브, 관련된 이동식 미디어, CD-ROM 드라이브, 광학 드라이브 또는 이동식 미디어 카트리지를 포함할 수 있다. 특정 구현의 기능을 구현하는 모듈은 저장 서브 시스템(624)의 파일 저장 서브 시스템(626)에 의해 또는 프로세서(들)(614)에 의해 액세스 가능한 다른 기계에 저장될 수 있다.
버스 서브 시스템(612)은 컴퓨팅 디바이스(610)의 다양한 컴포넌트 및 서브 시스템이 의도한 대로 서로 통신하게 하는 메커니즘을 제공한다. 버스 서브 시스템(612)이 단일 버스로서 개략적으로 도시되어 있지만, 버스 서브 시스템의 대안적인 구현은 다수의 버스를 사용할 수 있다.
컴퓨팅 디바이스(610)는 워크스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서버 팜, 또는 임의의 다른 데이터 처리 시스템 또는 컴퓨팅 디바이스를 포함하는 다양한 유형일 수 있다. 컴퓨터 및 네트워크의 끊임없이 변화하는 특성으로 인해, 도 6에 도시된 컴퓨팅 디바이스(610)의 설명은 일부 구현을 도시하기 위한 특정 예로서만 의도된다. 컴퓨팅 디바이스(610)의 많은 다른 구성이 도 6에 도시된 컴퓨팅 디바이스보다 더 많거나 적은 컴포넌트를 가질 수 있다.
본 명세서에서 논의된 특정 구현이 사용자에 관한 개인 정보(예를 들어, 다른 전자 통신에서 추출된 사용자 데이터, 사용자의 소셜 네트워크에 관한 정보, 사용자의 위치, 사용자의 시간, 사용자의 생체 정보, 사용자의 활동 및 인구 통계적 정보, 사용자 사이의 관계 등)를 수집하거나 사용할 수 있는 상황에서, 사용자에게는 정보 수집 여부, 개인 정보 저장 여부, 개인 정보 사용 여부, 및 사용자에 관한 정보 수집, 저장 및 사용 방법을 제어 할 수있는 하나 이상의 기회가 제공된다. 즉, 본 명세서에 설명된 시스템 및 방법은 관련 사용자로부터 명시적인 승인을 받은 경우에만 사용자 개인 정보를 수집, 저장 및/또는 사용한다.
예를 들어, 사용자는 프로그램 또는 기능이 특정 사용자 또는 프로그램 또는 기능과 관련된 다른 사용자에 관한 사용자 정보를 수집하는지 여부를 제어할 수 있다. 개인 정보를 수집할 각 사용자에게는 해당 사용자와 관련된 정보 수집을 제어할 수 있는 하나 이상의 옵션이 제시되며, 정보 수집 여부 및 정보의 어떤 부분이 수집되는지에 대한 허가 또는 승인을 제공할 수 있다. 예를 들어, 사용자는 통신 네트워크를 통해 이러한 제어 옵션을 하나 이상 제공받을 수 있다. 또한, 특정 데이터는 개인 식별 정보가 제거될 수 있도록 저장되거나 사용되기 전에 하나 이상의 방식으로 처리될 수 있다. 일 예로서, 사용자의 신원은 개인 식별 정보가 결정되지 않도록 처리될 수 있다. 다른 예로서, 사용자의 지리적 위치는 사용자의 특정 위치가 확인되지 않도록 더 큰 지역으로 일반화될 수 있다.
여러 구현이 본 명세서에 설명되고 예시되었지만, 기능을 수행하고 및/또는 본 명세서에 설명된 결과 및/또는 하나 이상의 이점을 얻기 위한 다양한 다른 수단 및/또는 구조가 활용될 수 있으며, 이러한 변경 및/또는 수정 각각은 본 명세서에 설명된 구현의 범위 내에 있는 것으로 간주된다. 보다 일반적으로, 본 명세서에 설명된 모든 파라미터, 치수, 재료 및 구성은 예시적인 것이며 실제 파라미터, 치수, 재료 및/또는 구성은 그 교시가 사용되는 특정 애플리케이션 또는 애플리케이션에 따라 달라질 것이다. 당업자는 단지 일상적인 실험을 사용하여 본 명세서에 설명된 특정 구현에 대한 많은 등가물을 인식하거나 확인할 수 있을 것이다. 따라서, 전술한 구현은 단지 예로서 제시된 것이며, 첨부된 청구 범위 및 등가물의 범위 내에서 구현이 구체적으로 설명되고 청구된 것과 달리 실행될 수 있다는 것을 이해해야 한다. 본 발명 내용의 구현은 본 명세서에 기재된 각각의 개별적인 특징, 시스템, 물품, 재료, 키트 및/또는 방법에 관한 것이다. 또한, 이러한 특징, 시스템, 물품, 재료, 키트 및/또는 방법의 둘 이상의 조합은 이러한 특징, 시스템, 물품, 재료, 키트 및/또는 방법이 서로 일치하지 않는 경우 본 발명 내용의 범위 내에 포함된다.

Claims (17)

  1. 하나 이상의 프로세서를 사용하여 구현되는 방법으로서,
    사용자에 의해 작동되는 컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 사용자, 하나 이상의 프로세서에 의해 적어도 부분적으로 구현된 자동화 어시스턴트, 및 제3자 애플리케이션 사이의 제1 인간-대-컴퓨터 대화 동안 사용자로부터 자유 형식의 자연어 입력의 인스턴스를 수신하는 단계와, 상기 자동화 어시스턴트는 자유 형식의 자연어 입력의 인스턴스들 중 하나 이상에 기초하여 사용자와 제3자 애플리케이션 사이의 전환(transition)을 중개하고;
    후속 사용을 위해, 제1 인간-대-컴퓨터 대화의 하나 이상의 제1 파라미터를 저장하는 단계와;
    컴퓨팅 디바이스의 입력 컴포넌트들 중 하나 이상에서, 사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화 동안 사용자로부터 자유 형식의 자연어 입력의 하나 이상의 추가 인스턴스를 수신하는 단계와, 상기 제2 인간-대-컴퓨터 대화는 제1 인간-대-컴퓨터 대화 이후에 발생하고 의미상 구별되며;
    제2 대화 컨텍스트와 관련하여 적어도 사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화의 하나 이상의 제2 파라미터를 저장하는 단계와, 상기 제1 및 제2 대화 컨텍스트는 매칭되지 않는 의도를 가지며; 그리고
    사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화에 후속하여, 제3자 애플리케이션과 관련된 저장된 하나 이상의 제1 파라미터를 검색하는 단계, 및 그 검색된 제1 파라미터를 사용하여 제1 인간-대-컴퓨터 대화를 재개하는 단계를 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  2. 제1항에 있어서,
    상기 검색하는 단계는,
    사용자로부터의 요청 수신에 응답하여 수행되는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  3. 제2항에 있어서,
    상기 사용자로부터의 요청은,
    제1 파라미터들 중 하나 이상과 매칭되는 하나 이상의 단어를 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  4. 제2항에 있어서,
    상기 사용자로부터의 요청은,
    제1 대화 컨텍스트와 관련된 하나 이상의 토픽에 매칭되는 하나 이상의 단어를 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  5. 제1항에 있어서,
    상기 제1 및 제2 대화 컨텍스트는 임의의 중첩되는(overlapping) 의도를 포함하지 않는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  6. 제1항에 있어서,
    상기 하나 이상의 제1 파라미터 및 하나 이상의 제2 파라미터는,
    사용자에 의해 작동되는 컴퓨팅 디바이스에 로컬인 컴퓨터 메모리에 저장되는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  7. 제1항에 있어서,
    상기 제3자 애플리케이션은,
    승차 공유 애플리케이션을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  8. 제1항에 있어서,
    상기 제3자 애플리케이션은,
    예약 애플리케이션을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  9. 하나 이상의 프로세서를 사용하여 구현되는 방법으로서,
    사용자에 의해 작동되는 컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 하나 이상의 프로세서에 의해 적어도 부분적으로 구현된 자동화 어시스턴트와 사용자 사이의 제1 인간-대-컴퓨터 대화 동안 사용자로부터 자유 형식의 자연어 입력의 하나 이상의 인스턴스를 수신하는 단계와;
    제1 대화 컨텍스트와 관련하여 사용자와 자동화 어시스턴트 사이의 제1 인간-대-컴퓨터 대화의 하나 이상의 제1 파라미터를 저장하는 단계와;
    컴퓨팅 디바이스의 입력 컴포넌트들 중 하나 이상에서, 사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화 동안 사용자로부터 자유 형식의 자연어 입력의 하나 이상의 추가 인스턴스를 수신하는 단계와;
    제2 대화 컨텍스트와 관련하여 사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화의 하나 이상의 제2 파라미터를 저장하는 단계와; 그리고
    사용자와 자동화 어시스턴트 사이의 제2 인간-대-컴퓨터 대화에 후속하여, 사용자로부터의 요청 수신에 응답하여, 제1 대화 컨텍스트와 관련된 저장된 하나 이상의 제1 파라미터 및 제2 대화 컨텍스트와 관련된 저장된 하나 이상의 제2 파라미터를 검색하는 단계, 및 동일한 컴퓨팅 디바이스 또는 다른 컴퓨팅 디바이스의 하나 이상의 출력 컴포넌트가 상기 검색된 파라미터에 기초하여 출력을 생성하게 하는 단계를 포함하고, 상기 출력은 제1 및 제2 대화 컨텍스트를 포함하는 사용 가능한 과거 대화 컨텍스트의 열거된 목록을 전달하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  10. 제9항에 있어서,
    상기 하나 이상의 제1 파라미터 및 하나 이상의 제2 파라미터는,
    사용자에 의해 작동되는 컴퓨팅 디바이스에 로컬인 컴퓨터 메모리에 저장되는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  11. 제9항에 있어서,
    상기 하나 이상의 제1 파라미터 및 하나 이상의 제2 파라미터는,
    사용자에 의해 작동되는 컴퓨팅 디바이스에 로컬인 컴퓨터 메모리로부터 검색되는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  12. 제11항에 있어서,
    상기 하나 이상의 제1 파라미터를 저장하는 단계는,
    하나 이상의 제1 파라미터에 대한 구성 파일을 생성하는 단계 및 그 구성 파일을 컴퓨터 메모리에 저장하는 단계를 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  13. 제9항에 있어서,
    상기 하나 이상의 제1 파라미터는,
    제1 인간-대-컴퓨터 대화 내의 사용자의 하나 이상의 의도 및/또는 제1 인간-대-컴퓨터 대화 내의 사용자의 하나 이상의 의도와 관련된 하나 이상의 슬롯 값을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  14. 제9항에 있어서,
    상기 출력 컴포넌트는 디스플레이를 포함하고, 상기 이용 가능한 과거 대화 컨텍스트의 열거된 목록은 선택 가능한 링크의 목록을 포함하고, 그리고 상기 선택 가능한 링크 각각은 자동화 어시스턴트를 해당 대화 컨텍스트로 다시 전환하도록 선택 가능한 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  15. 제9항에 있어서,
    상기 출력 컴포넌트는 화자를 포함하고, 상기 이용 가능한 과거 대화 컨텍스트의 열거된 목록은 자연어 스니펫(snippets)의 목록을 포함하고, 그리고 상기 자연어 스니펫 각각은 자동화 어시스턴트를 해당 대화 컨텍스트로 다시 전환하도록 선택 가능한 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  16. 제15항에 있어서,
    상기 하나 이상의 제2 파라미터를 저장하는 단계는,
    하나 이상의 제2 파라미터에 대한 구성 파일을 생성하는 단계 및 그 구성 파일을 컴퓨터 메모리에 저장하는 단계를 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  17. 제9항에 있어서,
    상기 하나 이상의 제2 파라미터는,
    제2 인간-대-컴퓨터 대화 내의 사용자의 하나 이상의 의도 및/또는 제2 인간-대-컴퓨터 대화 내의 사용자의 하나 이상의 의도와 관련된 하나 이상의 슬롯 값을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
KR1020227033029A 2018-03-05 2018-03-05 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환 KR102567447B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020237027084A KR102640308B1 (ko) 2018-03-05 2018-03-05 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의전환

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020207028314A KR102448388B1 (ko) 2018-03-05 2018-03-05 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환
PCT/US2018/020943 WO2019172878A1 (en) 2018-03-05 2018-03-05 Transitioning between prior dialog contexts with automated assistants

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020207028314A Division KR102448388B1 (ko) 2018-03-05 2018-03-05 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020237027084A Division KR102640308B1 (ko) 2018-03-05 2018-03-05 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의전환

Publications (2)

Publication Number Publication Date
KR20220134050A true KR20220134050A (ko) 2022-10-05
KR102567447B1 KR102567447B1 (ko) 2023-08-16

Family

ID=61827814

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020227033029A KR102567447B1 (ko) 2018-03-05 2018-03-05 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환
KR1020237027084A KR102640308B1 (ko) 2018-03-05 2018-03-05 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의전환
KR1020207028314A KR102448388B1 (ko) 2018-03-05 2018-03-05 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020237027084A KR102640308B1 (ko) 2018-03-05 2018-03-05 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의전환
KR1020207028314A KR102448388B1 (ko) 2018-03-05 2018-03-05 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환

Country Status (6)

Country Link
US (3) US11314944B2 (ko)
EP (2) EP3616081A1 (ko)
JP (2) JP7263376B2 (ko)
KR (3) KR102567447B1 (ko)
CN (1) CN111819566A (ko)
WO (1) WO2019172878A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220244925A1 (en) * 2021-01-29 2022-08-04 Walmart Apollo, Llc Voice and chatbot conversation builder

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010428B2 (en) * 2018-01-16 2021-05-18 Google Llc Systems, methods, and apparatuses for providing assistant deep links to effectuate third-party dialog session transfers
US20210065708A1 (en) * 2018-02-08 2021-03-04 Sony Corporation Information processing apparatus, information processing system, information processing method, and program
EP3616081A1 (en) 2018-03-05 2020-03-04 Google LLC. Transitioning between prior dialog contexts with automated assistants
US11481559B1 (en) * 2018-12-21 2022-10-25 Wells Fargo Bank, N.A. Artificial intelligence natural language processing platform
CN113454955A (zh) * 2019-02-22 2021-09-28 利维帕尔森有限公司 实现终结点通信通道选择的动态文本消息处理
CN111026628B (zh) * 2019-12-26 2023-06-30 杭州蓦然认知科技有限公司 一种语音交互方法、装置
CN111429903B (zh) * 2020-03-19 2021-02-05 百度在线网络技术(北京)有限公司 音频信号识别方法、装置、系统、设备和可读介质
US11803400B2 (en) * 2020-06-25 2023-10-31 International Business Machines Corporation Method and system for asynchronous notifications for users in contextual interactive systems
CN111966803B (zh) * 2020-08-03 2024-04-12 深圳市欢太科技有限公司 对话模拟方法、装置、存储介质及电子设备
CN112929499B (zh) * 2021-02-02 2023-04-07 深圳追一科技有限公司 对话交互方法和装置、计算机设备、计算机可读存储介质
US11748559B2 (en) * 2021-03-24 2023-09-05 International Business Machines Corporation Auto generation of conversational artifacts from specifications
CN115150501A (zh) * 2021-03-30 2022-10-04 华为技术有限公司 一种语音交互方法及电子设备
US11934787B2 (en) 2021-04-29 2024-03-19 International Business Machines Corporation Intent determination in a messaging dialog manager system
US11955117B2 (en) * 2021-05-27 2024-04-09 The Toronto-Dominion Bank System and method for analyzing and reacting to interactions between entities using electronic communication channels
WO2023210171A1 (ja) * 2022-04-27 2023-11-02 日産自動車株式会社 音声対話装置及び音声対話方法
US11934794B1 (en) * 2022-09-30 2024-03-19 Knowbl Inc. Systems and methods for algorithmically orchestrating conversational dialogue transitions within an automated conversational system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013080476A (ja) * 2011-09-30 2013-05-02 Apple Inc バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用
KR20150036759A (ko) * 2012-09-10 2015-04-07 애플 인크. 지능형 디지털 어시스턴트들에 의한 인터럽션들의 상황 감응적 핸들링
KR20160132748A (ko) * 2015-05-11 2016-11-21 삼성전자주식회사 전자 장치 및 그 제어 방법
US20170300831A1 (en) * 2016-04-18 2017-10-19 Google Inc. Automated assistant invocation of appropriate agent
JP2017211610A (ja) * 2016-05-27 2017-11-30 シャープ株式会社 出力制御装置、電子機器、出力制御装置の制御方法、および出力制御装置の制御プログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE415684T1 (de) 2004-01-29 2008-12-15 Harman Becker Automotive Sys Verfahren und system zur sprachdialogschnittstelle
US9172747B2 (en) * 2013-02-25 2015-10-27 Artificial Solutions Iberia SL System and methods for virtual assistant networks
US9875494B2 (en) * 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
US20150039316A1 (en) * 2013-07-31 2015-02-05 GM Global Technology Operations LLC Systems and methods for managing dialog context in speech systems
US9355158B2 (en) 2013-08-29 2016-05-31 Google Inc. Modifying search results based on selection of one of the search results
FR3011375B1 (fr) * 2013-10-01 2017-01-27 Aldebaran Robotics Procede de dialogue entre une machine, telle qu'un robot humanoide, et un interlocuteur humain, produit programme d'ordinateur et robot humanoide pour la mise en œuvre d'un tel procede
US10079013B2 (en) * 2013-11-27 2018-09-18 Sri International Sharing intents to provide virtual assistance in a multi-person dialog
US20160164813A1 (en) * 2014-12-04 2016-06-09 Intel Corporation Conversation agent
EP3374880A1 (en) * 2015-11-12 2018-09-19 Semantic Machines, Inc. Interaction assistant
US20180052842A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Intelligent online personal assistant with natural language understanding
US10192551B2 (en) * 2016-08-30 2019-01-29 Google Llc Using textual input and user state information to generate reply content to present in response to the textual input
US10403273B2 (en) * 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent
US11176931B2 (en) * 2016-09-23 2021-11-16 Microsoft Technology Licensing, Llc Conversational bookmarks
US10431202B2 (en) * 2016-10-21 2019-10-01 Microsoft Technology Licensing, Llc Simultaneous dialogue state management using frame tracking
US10679608B2 (en) * 2016-12-30 2020-06-09 Google Llc Conversation-aware proactive notifications for a voice interface device
US11880761B2 (en) * 2017-07-28 2024-01-23 Microsoft Technology Licensing, Llc Domain addition systems and methods for a language understanding system
US11081106B2 (en) * 2017-08-25 2021-08-03 Microsoft Technology Licensing, Llc Contextual spoken language understanding in a spoken dialogue system
US10645035B2 (en) * 2017-11-02 2020-05-05 Google Llc Automated assistants with conference capabilities
JP2019106054A (ja) * 2017-12-13 2019-06-27 株式会社東芝 対話システム
US11010558B2 (en) * 2018-01-31 2021-05-18 Salesforce.Com, Inc. Temporary slots for storing chat data
EP3616081A1 (en) 2018-03-05 2020-03-04 Google LLC. Transitioning between prior dialog contexts with automated assistants

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013080476A (ja) * 2011-09-30 2013-05-02 Apple Inc バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用
KR20150036759A (ko) * 2012-09-10 2015-04-07 애플 인크. 지능형 디지털 어시스턴트들에 의한 인터럽션들의 상황 감응적 핸들링
KR20160132748A (ko) * 2015-05-11 2016-11-21 삼성전자주식회사 전자 장치 및 그 제어 방법
US20170300831A1 (en) * 2016-04-18 2017-10-19 Google Inc. Automated assistant invocation of appropriate agent
JP2017211610A (ja) * 2016-05-27 2017-11-30 シャープ株式会社 出力制御装置、電子機器、出力制御装置の制御方法、および出力制御装置の制御プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220244925A1 (en) * 2021-01-29 2022-08-04 Walmart Apollo, Llc Voice and chatbot conversation builder
US11922141B2 (en) * 2021-01-29 2024-03-05 Walmart Apollo, Llc Voice and chatbot conversation builder

Also Published As

Publication number Publication date
CN111819566A (zh) 2020-10-23
KR20200128123A (ko) 2020-11-11
US20220215181A1 (en) 2022-07-07
KR102448388B1 (ko) 2022-09-28
KR102640308B1 (ko) 2024-02-23
JP2023103224A (ja) 2023-07-26
US20200210649A1 (en) 2020-07-02
JP2021515938A (ja) 2021-06-24
KR20230121170A (ko) 2023-08-17
JP7263376B2 (ja) 2023-04-24
EP3616081A1 (en) 2020-03-04
WO2019172878A1 (en) 2019-09-12
US20230342556A1 (en) 2023-10-26
US11314944B2 (en) 2022-04-26
EP4307160A1 (en) 2024-01-17
US11727220B2 (en) 2023-08-15
KR102567447B1 (ko) 2023-08-16

Similar Documents

Publication Publication Date Title
KR102448388B1 (ko) 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환
US11887595B2 (en) User-programmable automated assistant
KR102461920B1 (ko) 컨퍼런스 기능을 갖는 자동화된 어시스턴트
US11488601B2 (en) Dependency graph conversation modeling for use in conducting human-to-computer dialog sessions with a computer-implemented automated assistant
JP7209818B2 (ja) 自動ナビゲーションを容易にするためのウェブページの分析
JP6686226B2 (ja) 適切なエージェントの自動化アシスタント呼び出し

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant