KR102477072B1 - 자동화된 어시스턴트를 통해 수행되도록 요청된 일련의 동작들의 실행 조정 - Google Patents

자동화된 어시스턴트를 통해 수행되도록 요청된 일련의 동작들의 실행 조정 Download PDF

Info

Publication number
KR102477072B1
KR102477072B1 KR1020207035897A KR20207035897A KR102477072B1 KR 102477072 B1 KR102477072 B1 KR 102477072B1 KR 1020207035897 A KR1020207035897 A KR 1020207035897A KR 20207035897 A KR20207035897 A KR 20207035897A KR 102477072 B1 KR102477072 B1 KR 102477072B1
Authority
KR
South Korea
Prior art keywords
actions
action
user
automated assistant
sequence
Prior art date
Application number
KR1020207035897A
Other languages
English (en)
Other versions
KR20210010523A (ko
Inventor
무구렐 이오누트 안드레이카
블라디미르 부스코빅
요세프 랑게
샤론 스토베츠키
마르친 노왁-프리지고드즈키
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20210010523A publication Critical patent/KR20210010523A/ko
Application granted granted Critical
Publication of KR102477072B1 publication Critical patent/KR102477072B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

본 명세서에는 자동화된 어시스턴트에 사용자에 의해 요청된 여러 동작들에 대한 실행 순서를 생성하는 시스템, 방법 및 장치와 관련된 실시예들이 설명된다. 본 발명에 따르면 동작들은 음성 발언을 통해 사용자에 의해 요청될 수 있고, 상기 동작들의 실행 순서는 요청된 각각의 동작들이 다른 요청된 동작에 영향을 미칠 수 있거나 예상되는 방식에 따라 배열될 수 있다. 자동화된 어시스턴트는 사용자가 요청한 여러 동작들이 최적의 방식으로 실행되도록 동작 순서를 배열할 수 있다.

Description

자동화된 어시스턴트를 통해 수행되도록 요청된 일련의 동작들의 실행 조정
본 발명은 자동화된 어시스턴트를 통해 수행되도록 요청된 일련의 동작들의 실행을 조정하는 시스템에 관한 것이다.
인간은 본 명세서에서 "자동화된 어시스턴트(또는 "디지털 에이전트", "챗봇", "인터랙티브 개인 어시스턴트", "지능형 개인 어시스턴트", "어시스턴트 애플리케이션", "대화 에이전트" 등이라고도 함)"라고 하는 인터랙티브 소프트웨어 애플리케이션을 사용하여 인간 대 컴퓨터(human-to-computer) 대화에 참여할 수 있다. 예를 들어, 인간(자동화된 어시스턴트와 상호작용할 때, "사용자"라고 함)은 경우에 따라 텍스트로 변환된 후 처리될 수 있는 음성 자연어 입력(즉, 발화)을 사용하거나 또는 문서 자연어 입력(예를 들어, 타이핑한)을 제공함으로써 자동화된 어시스턴트에 명령 및/또는 요청을 제공할 수 있다. 자동화된 어시스턴트는 청각 및/또는 시각적 사용자 인터페이스 출력을 포함하는 응답성 사용자 인터페이스 출력을 제공함으로써 요청에 응답한다.
대부분의 경우, 자동화된 어시스턴트는 요청된 동작들을 지정할 때 오로지 사용자가 설정한 순서에 따라 동작들을 실행한다. 이는 특히 사용자가 수행되어야 하는 여러 가지의 다른 동작들에 대한 요청을 포함하는 하나의 자연어 입력을 제공할 때 문제가 될 수 있다. 예를 들어, 사용자는 요청을 말하기 이전에 사용자가 충분히 고려하지 않은 순서로 수행되어야 하는 일련의 동작들에 대한 요청을 설정할 수 있다. 그 결과, 그렇지 않으면 비교적 신속하게 수행될 수 있었을지도 모르는 특정 동작들은 부주의로 지연될 수 있으며, 이에 따라 자동화된 어시스턴트의 특정 성능 측면에서 지연 시간 및 기타 계산적 비효율성을 초래할 수 있다.
예를 들면, 만일 사용자가 미디어 스트림을 제공하고 웹 검색을 수행하도록 요청한다면, 자동화된 어시스턴트는 결과적으로 미디어 스트림을 제공하는 것을 우선순위로 정할 수 있으며, 이에 따라 그렇지 않으면 많은 경우에 비교적 신속하게 수행될 수 있는 웹 검색의 수행을 지연시킬 수 있다. 연속 미디어 재생이 제공되고 있는 동안에 사용자가 웹 검색을 잊어버린 경우, 사용자는 이후에 동일한 요청을 다시 발행할 수 있으며, 이에 따라 중복 요청을 처리하는데 계산적 리소스를 낭비할 수 있다. 뿐만 아니라, 자동화된 어시스턴트가 수행되어야 할 일련의 동작들의 순서를 나타냄에 있어 사용자에게 전적으로 의존하는 경우, 다운로드, 캐싱, 및/또는 데이터 렌더링과 같은 특정 프로세스들은 최적의 방식으로 실행되도록 순차적으로 배열되지 않을 수 있다.
본 명세서에서는 여러 요청된 자동화된 어시스턴트 동작들에 대한 실행 순서를 생성하는 시스템, 방법 및 장치와 관련된 실시예들이 설명된다.
구체적으로, 동작들은 하나의 음성 발언을 통해 사용자에 의해 요청될 수 있고, 상기 동작들의 실행 순서는 요청된 각각의 동작들이 다른 요청된 동작에 영향을 미칠 수 있거나 예상되는 방식에 따라 배열될 수 있다. 예를 들어, 상기 음성 발언은 수행되어야 하는 여러 동작들에 대한 요청을 포함할 수 있고, 상기 여러 동작들 중 적어도 하나의 동작은 대화-개시 질의에 해당할 수 있다. 만일 상기 대화-개시 질의가 다른 여러 동작들에 앞서 우선시된다면, 다른 동작들의 수행은 사용자와 자동화된 어시스턴트 사이의 대화가 완료될 때까지 연기될 수 있다. 따라서, 요청과 동작의 수행 사이의 지연 시간을 완화시키기 위해, 상기 대화-개시 질의는 여러 요청된 동작들 중 완료되어야 하는 마지막 동작으로 할당될 수 있다. 결과적으로 사용자는 보다 효율적인 성능을 위해 해석되는 명령을 장치 또는 시스템에 제출할 수 있다. 즉, 본 발명에서 동작들의 실행 순서는 시스템, 방법 또는 장치에 의해 결정될 수 있으므로, 사용자는 명령 수행을 위한 가장 효율적인 명령 입력 형식을 조정할 필요가 없다. 따라서, 상호작용의 용이성 및 효율성은 증가된다.
예를 들어, 사용자는 "어시스턴트, 내일 알람을 설정해줘, 그리고 내일 날씨를 알려줄래?"와 같은 음성 발언 제공할 수 있다. 자동화된 어시스턴트는 음성 발언을 수신하고, 상기 음성 발언이 알람을 설정을 위한 제1요청과 일기예보를 제공하기 위한 제2요청을 포함하는 것으로 결정할 수 있다. 나아가, 상기 자동화된 어시스턴트는 알람을 설정하는 것은 사용자에 의해 제공되어야 하는 추가적인 정보를 필요로 하므로, 추가적인 대화가 수행되어야 한다고 결정할 수 있다. 예를 들어, 상기 자동화된 어시스턴트는 알람의 시간에 대한 요청을 포함하는 자연어를 출력을 생성할 수 있고, 상기 자동화된 어시스턴트는 사용자로부터 알람 시간을 식별하는 후속 입력을 처리해야 할 수 있다. 또한, 상기 자동화된 어시스턴트는 일기예보를 제공하는 것은 인터넷을 통해 요청을 제출하고, 응답으로 날씨 데이터를 수신하고, 날씨 데이터를 사용자를 위한 자연어 출력으로 변환해야 한다고 결정할 수 있다. 따라서, 적어도 사용자로부터 추가 정보를 필요로 하는 제1요청 및 사용자와의 추가적인 대화를 필요로 하지 않는 제2요청에 기초하여, 상기 자동화된 어시스턴트는 상기 제1요청을 수행하기 이전에 상기 제2요청을 수행함으로써 상기 동작들의 실행을 지시할 수 있다. 다시 말해서, 사용자는 적어도 사용자로부터 추가 정보를 필요로 하는 알람 설정에 기초하여 알람 설정을 위한 대화 세션에 참여하기 전에 일기예보를 받을 수 있다.
일부 실시예에서, 사용자에 의해 수행되도록 요청된 동작들은 하나 또는 그 이상의 요청된 동작들이 지속적인 출력을 일으키는지 또는 다른 요청된 동작들에 비해 지속적인 출력을 일으킬 것으로 예측되는지 여부에 따라 배열될 수 있다. 다시 말해, 상기 사용자의 요청으로 수행되는 동작들은 하나 또는 그 이상의 요청된 동작들이 하나 또는 그 이상의 나머지 요청된 동작들의 수행을 방해하는 특정 양상의 출력을 일으키는지 여부에 따라 배열될 수 있다. 예를 들어, 사용자는 "어시스턴트, 내 아침 플레이리스트를 재생해주고, 날씨를 알려줘"와 같은 음성 발언을 제공할 수 있다. 상기 음성 발언을 수신한 자동화된 어시스턴트의 응답으로, 상기 자동화된 어시스턴트는 첫 번째로 요청된 아침 플레이리스트를 재생하는 동작과 두 번째로 요청된 사용자에게 일기예보를 제공하는 동작을 식별할 수 있다. 또한, 상기 자동화된 어시스턴트는 일기예보를 제공하는 것은 제1기간 동안 청각적으로 일기예보를 제공하는 결과가 되고, 아침 플레이리스트를 재생하는 것은 제2기간 동안 청각적으로 음악을 제공하는 결과가 되는 것으로 결정할 수 있다. 나아가, 상기 자동화된 어시스턴트는 상기 제2기간이 상기 제1기간보다 길다고 결정할 수 있으므로, 상기 자동화된 어시스턴트는 상기 두 번째로 요청된 동작이 상기 첫 번째로 요청된 동작보다 먼저 수행되도록 동작들의 실행을 지시할 수 있다. 즉, 사용자에게 일기예보를 제공하는 것은 아침 플레이리스트를 제공하는 것보다 시간이 적게 걸리기 때문에, 상기 자동화된 어시스턴트는 아침 플레이리스트의 음악을 재생하는 것보다 일기예보에 우선순위를 둘 수 있다. 이러한 방식으로, 동작들의 우선순위는 특정 동작에 대해 추정된 수행 시간이 다른 특정 동작에 대한 추정된 수행 시간을 초과하는지 여부에 기초될 수 있다.
일부 실시예에서, 사용자가 여러 미디어 항목을 재생하기 위한 요청을 포함하는 음성 발언을 제공할 때, 상기 미디어 항목들을 재생하기 위한 동작들의 순서는 음성 발언에서 지정된 순서에 따라 배열될 수 있다. 예를 들어, 사용자가 "어시스턴트, 'For Once in My Life'와 'I Was Made to Love Her' 노래들을 재생해줘"와 같은 음성 발언을 제공할 때, 이에 대한 응답으로, 상기 자동화된 어시스턴트는 사용자가 의도적으로 순서를 지정하였는지 여부에 관계없이 사용자가 지정한 순서로 두 곡을 각각 재생할 수 있습니다. 그러나, 일부 실시예에서, 사용자는 하나 또는 그 이상의 미디어 항목들의 재생 후에 하나 또는 그 이상의 동작들이 수행되도록 명백하게 지정할 수 있다. 예를 들어, 사용자는 "어시스턴트, 'Superstition' 노래를 재생한 다음 보안 경보를 설정하도록 상기시켜줘"와 같은 음성 발언을 제공할 수 있다. 이에 응답하여, 상기 자동화된 어시스턴트는, 상기 사용자가 동작 수행에 대한 특정 조건을 지정했기 때문에, 상기 음성 발언을 수신하고, 지정된 미디어 항목을 재생한 다음에 사용자에게 보안 경보를 설정하라는 리마인더를 제공할 수 있다.
일부 실시예에서, 사용자가 특정 업무 또는 이벤트의 일정을 잡는 제1동작과 상기 제1동작이 완료되는 결과에 적어도 부분적으로 의존하는 제2동작을 포함하는 음성 발언을 제공할 때, 상기 자동화된 어시스턴트는 상기 제1동작이 완료될 때까지 상기 제2동작을 지연시킬 수 있다. 예를 들어, 사용자는 "어시스턴트, 이번 주 금요일에 영화 티켓을 예약해줘, 그리고 영화가 끝난 후에 레스토랑 테이블을 예약해줘"와 같은 음성 발언을 제공할 수 있다. 상기 음성 발언의 수신에 대한 응답으로, 상기 자동화된 어시스턴트는 각각의 동작을 완료하는데 필요한 매개 변수들을 결정할 수 있다. 예를 들어, 영화 티켓을 예약하기 위해, 상기 자동화된 어시스턴트는 상기 지정된 날짜에 영화 상영 시간들을 결정할 필요가 있다. 또한, 레스토랑 테이블을 예약하기 위해, 상기 자동화된 어시스턴트는 레스토랑 예약 시간에 대한 매개 변수가 필요하다. 그러나, 주고받는 대화의 양을 줄이고, 계산 및/또는 네트워크 리소스를 보존하기 위해, 상기 자동화된 어시스턴트는 다음을 기반으로 레스토랑의 예상 예약 시간을 결정할 수 있다: 영화시간, 영화길이, 영화관에서 레스토랑까지의 거리, 및/또는 레스토랑의 예약 시기에 영향을 미칠 수 있는 기타 요인들.
일부 실시예에서, 사용자는 상기 자동화된 어시스턴트에 특정 애플리케이션을 실행하고 상기 애플리케이션을 사용하여 특정 동작을 수행하도록 하는 명령을 포함하는 음성 발언을 제공할 수 있다. 그러나, 사용자는 상기 동작을 수행할 애플리케이션과 관련하여 불명확한 방식으로 음성 발언을 제공할 수 있다. 예를 들어, 사용자는 "어시스턴트, 내 경매 애플리케이션을 실행해서 아보카도 씨앗 상자가 얼마인지 알려줘"와 같은 음성 발언을 제공할 수 있다. 이에 응답하여, 상기 자동화된 어시스턴트는 경매 애플리케이션을 실행하여 특정 물건의 가격을 제공하는 도작은 서로 연관이 있는 것으로 결정할 수 있다. 일부 실시예에서, 상기 자동화된 어시스턴트는 두 요청들 사이의 상관관계를 정량화할 수 있다. 정량화된 상관관계가 특정 임계값을 만족시킬 때, 상기 자동화된 어시스턴트는 사용자에 의해 요청된 또 다른 동작을 수행하기 위해 상기 사용자에 의해 식별된 애플리케이션을 사용을 시도할 수 있다. 이러한 방식으로, 상기 자동화된 어시스턴트에 의해 실행 순서가 결정될 뿐만 아니라-동작을 수행하기 전에 상기 애플리케이션은 실행되어야 한다고 가정할 뿐만 아니라, 상기 동작을 수행하는데 사용되는 상기 애플리케이션과 관련된 모호함도 상기 자동화된 어시스턴트에 의해 해결될 수 있다.
일부 실시예에서, 요청된 동작들의 실행 순서의 재배열은 시간이 지남에 따라 학습될 수 있다. 예를 들어, 일부 실시예에서, 사용자로부터의 피드백은 상기 자동화된 어시스턴트가 특정 요청된 동작들을 정확하게 또는 부정확하게 수행했는지 여부를 학습하는데 사용될 수 있다. 예를 들어, 사용자가 여러 동작들을 수행하기 위한 요청을 포함하는 음성 발언을 제공하고, 상기 자동화된 어시스턴트가 상기 사용자가 다른 것들보다 우선순위가 되는 것을 의도하지 않은 동작의 수행을 시작할 때, 상기 사용자는 상기 동작의 수행은 잘못 초기화되었음에 대한 표시를 제공할 수 있다. 상기 사용자는 상기 자동화된 어시스턴트에 의해 수행되는 동작의 중단을 위해 디스플레이 패널에 입력을 제공함으로써 상기 동작의 수행을 중단할 수 있으며, 또한 진행중인 상기 동작의 수행을 중단하기 위해 "멈춰"와 같은 음성 발언을 제공할 수 있다. 그 후에, 그러한 피드백 또는 입력은 상기 사용자에 의해 다시 요청될 때 동작의 순서를 수정하는데 의존될 수 있다.
일부 실시예에서, 상기 사용자와 상기 자동화된 어시스턴트 사이의 상호작용들을 특징짓는 과거 상호작용 데이터는 상기 사용자로부터 추가적인 입력에 대한 요청을 일으킨 특정 동작들을 결정하는데 분석될 수 있다. 이러한 방식으로, 상기 자동화된 어시스턴트는 일반적으로 추가적인 상호작용을 일으켰던 동작들과 그렇지 않았던 동작들을 식별할 수 있다. 그 후에, 상기 사용자가 특정 동작의 수행을 요청하는 음성 발언을 제공할 때, 상기 자동화된 어시스턴트는 사용자로부터 요청된 추가적인 입력을 일으킨 특정 동작들의 우선순위를 지정하거나 지정하지 않을 수 있다.
일부 실시예에서, 다양한 사용자들과 그들 각각의 자동화된 어시스턴트 사이의 상호작용을 특징짓는 과거 상호작용 데이터는 음성 발언에 응답하여 수행되는 동작들의 순서를 결정하는데 사용될 수 있다. 예를 들어, 사용자는 "어시스턴트, 나의 아침 플레이리스트를 재생해주고, 날씨를 알려줘"와 같은 음성 발언을 제공할 수 있다. 이에 응답하여, 상기 자동화된 어시스턴트는 한 명 이상의 사용자들이 그러한 특정 동작을 요청했을 때, 과거 상호작용 데이터를 이용하거나, 그렇지 않은 경우 이전의 사례들로 특징지어지는 과거 상호작용 데이터에 기초하여 훈련받을 수 있다. 구체적으로, 상기 자동화된 어시스턴트는 사용자들이 아침에 음악을 요청하기 전에 일기예보를 더 자주 요청하는 것으로 결정할 수 있다. 따라서, 상기 사용자로부터 수신 받은 음성 발언에 대한 응답으로, 상기 자동화된 어시스턴트는 일기예보가 아침 플레이리스트 이전에 제공되도록 요청된 동작들의 순서를 재정렬할 수 있다. 일부 실시예에서, 상기 과거 상호작용 데이터는 사용자가 한 번의 음성 발언에서 두 동작들을 요청하거나 또는 별도의 음성 발언 및/또는 별도의 시간에(그러나 선택적으로 서로의 임계 시간 이내에) 두 동작들을 요청한 경우들을 나타내거나 또는 특징지을 수 있으나, 그럼에도 불구하고 요청된 두 동작들은 특정 순서로 더 자주 수행될 수 있다. 따라서, 상기 자동화된 어시스턴트는 가장 자주 수행되는 동작들의 실행 순서를 식별할 수 있고, 그에 따라 요청된 동작들의 수행 순서를 재정렬할 수 있다.
일부 실시예에서, 사용자가 수행되어야 하는 여러 동작들에 대한 요청을 포함하는 음성 발언을 제공하고, 하나의 동작이 개인적인 메시지에 대한 요청에 해당할 때, 상기 개인적인 메시지는 다른 동작들이 완료될 때까지 지연될 수 있다. 예를 들어, 상기 사용자가 "내일 통화하고, 내일 아침 8시에 알람을 맞춰주세요,"와 같은 음성 발언을 제공할 때, 상기 자동화된 어시스턴트는 이러한 음성 발언을 수신하고, 상기 음성 발언은 개인적인 메시지에 대한 요청과 알람을 구성하는 요청을 포함하는 것으로 결정할 수 있다. 이에 응답하여, 상기 자동화된 어시스턴트는 상기 개인적인 메시지를 제공하는 것보다 알람을 설정하는 것을 우선순위로 정할 수 있다. 따라서, 상기 자동화된 어시스턴트가 상기 음성 발언에 응답할 때, 상기 자동화된 어시스턴트는 "네, 알람을 설정했습니다. 잘자요, Jim"과 같은 자연어 출력이 제공되도록 할 수 있다. 이러한 방식으로, 사용자의 일정, 사용자의 환경, 사용자가 액세스할 수 있는 장치, 및/또는 사용자와 관련된 다른 기능에 영향을 미치지 않을 수 있는 다른 동작들 보다 더 높은 유용성을 갖는 동작들이 우선순위가 될 수 있다.
일부 실시예에서, 하나 또는 그 이상의 프로세서들에 의해 수행되는 방법은 사용자로부터 음성 발언을 특징짓는 오디오 데이터를 수신하는 단계와 같은 작업들을 포함하는 것으로 설명될 수 있으며, 상기 음성 발언은 상기 자동화된 어시스턴트를 오해 수행되어야 하는 여러 동작들에 대한 요청을 포함하고, 상기 음성 발언은 컴퓨팅 장치의 자동화된 어시스턴트 인터페이스에서 수신된다. 상기 작업들은 상기 음성 발언을 특징짓는 오디오 데이터에 기초하여 상기 자동화된 어시스턴트를 통해 수행되도록 상기 사용자에 의해 요청된 여러 동작들 중 각각의 동작을 식별하는 단계를 더 포함하고, 상기 수행되는 여러 동작들에 대한 요청은 동작들의 제1순서에 따라 음성 발언으로 설명될 수 있다. 상기 작업들은 여러 동작들 중 각각의 동작을 식별하는 단계에 기초하여, 여러 동작들 중 각각의 동작에 대한 실행 특성을 결정하는 단계를 더 포함하며, 상기 여러 동작들 중 어떤 동작에 대한 특정 실행 특성은 여러 동작들이 하나 또는 그 이상의 컴퓨팅 장치에 의해 상기 동작들의 제1순서에 따라 실행될 때 여러 동작들의 실행의 시간적 측면에 영향을 미칠 수 있고, 상기 여러 동작들 중 각각의 동작의 실행 특성을 결정하는 단계는 상기 컴퓨팅 장치 및/또는 별도의 컴퓨팅 장치에서 여러 동작들 중 하나 이상의 동작들에 대한 과거 실행들에 기초하여 생성된 데이터에 액세스하는 단계를 포함한다. 상기 작업들은 여러 동작들 중 상기 동작의 특정 실행 특성에 기초하여 상기 여러 동작들을 실행하기 위한 제2순서를 결정하는 단계를 더 포함하고, 상기 동작들의 제2순서는, 하나 이상의 컴퓨팅 장치에 의해 실행될 때, 상기 하나 이상의 컴퓨팅 장치가 상기 여러 동작들에 대한 실행의 상이한 시간적 측면을 나타낸다. 상기 작업들은 상기 자동화된 어시스턴트가 동작들의 상기 제2순서를 결정하는 단계에 기초하여 상기 동작들의 제2순서에 따라 상기 여러 동작들 중 하나 이상의 동작들을 수행하는 것을 초기화하는 단계를 더 포함한다.
일부 실시예에서, 동작들의 상기 제2순서를 결정하는 단계는 훈련된 신경 네트워크 모델로부터 출력 데이터를 처리하는 단계를 포함하고, 상기 훈련된 신경 네트워크 모델은 상기 사용자와 상기 자동화된 어시스턴트 사이의 하나 이상의 이전 상호작용들을 특징짓는 과거 상호작용 데이터를 사용하여 훈련된 것일 수 있다. 일부 실시예에서, 상기 과거 상호작용 데이터는 상기 자동화된 어시스턴트가 동작들을 다양한 순서로 수행할 수 있도록 하기 위해 상기 자동화된 어시스턴트와 이전의 상호작용했던 다른 사용자들을 포함하는 여러 상호작용들을 더 특징지을 수 있다. 일부 실시예에서, 상기 과거 상호작용 데이터는 이전에 요청된 동작들의 실행 순서에 영향을 미치기 위해 상기 사용자에 의해 상기 자동화된 어시스턴트에 제공되는 피드백을 더 특징지을 수 있다. 일부 실시예에서, 상기 여러 동작들에 대한 동작의 특정 실행 특성은 대화 개시 동작으로 상기 동작을 특징지을 수 있으며, 상기 사용자와 상기 자동화된 어시스턴트 사이의 추가적인 대화 세션은 상기 사용자가 상기 동작의 매개 변수에 할당된 값을 식별하기 위해 발생할 수 있다.
일부 실시예에서, 상기 동작들의 제1순서에 따른 상기 여러 동작들의 실행의 시간적 측면은 여러 동작들 중 적어도 하나 이상의 동작에 대해 추정된 실행 시간 포함하고, 상기 방법은 상기 여러 동작들이 상기 제1순서에 따라 실행될 때 추가적인 대화 세션은 하나 이상의 동작들의 추정된 실행 시간을 연장할 것으로 예측하는 것을 결정하는 단계를 더 포함한다. 일부 실시예에서, 여러 동작들 중 다른 동작은 연속적인 미디어 재생을 제공하는 단계를 포함하고, 상기 동작들의 제2순서는 상기 연속적인 미디어 재생을 제공하는 단계를 포함한 다른 동작들 보다 상기 대화 개시 동작을 우선순위로 한다. 일부 실시예에서, 상기 자동화된 어시스턴트가 상기 동작들의 제2순서에 따라 여러 동작들 중 적어도 하나의 동작의 수행을 초기화 시키는 단계는 상기 사용자에게 상기 동작들의 제2순서에 따라 상기 여러 동작들 중 적어도 하나의 동작이 초기화되었음을 알리는 표시를 제공하는 자연어 출력을 생성하는 단계를 더 포함한다.
일부 실시예에서, 하나 이상의 프로세서들에 의해 구현되는 방법은 상기 자동화된 어시스턴트가 여러 동작들을 수행하도록 요청하는 사용자의 음성 발언을 특징짓는 오디오 데이터를 처리하는 단계와 같은 작업들을 포함하는 것으로 설명되며, 상기 여러 동작들은 제1순서에 따라 상기 음성 발언에서 사용자에 의해 특징지어질 수 있다. 상기 방법은 상기 오디오 데이터를 처리하는 것에 기초하여 상기 사용자에 의해 요청된 여러 동작들 중 각각의 동작에 대한 동작 분류를 결정하는 단계를 더 포함하며, 여기서 상기 여러 동작들 중 특정 동작에 대한 특정 동작 분류는 적어도 하나의 매개변수에 따라 실행되는 대화 개시 동작을 포함한다. 상기 방법은 적어도 하나의 매개변수의 값이 상기 음성 발언에서 상기 사용자에 의해 지정되는지 여부를 결정하는 단계를 더 포함한다. 상기 방법은 상기 음성 발언에서 상기 적어도 하나의 매개변수 값이 지정되지 않았을 때, 상기 여러 동작들에 대한 제2동작 순서를 생성하는 단계를 더 포함하며, 상기 제2동작 순서는 상기 음성 발언에서 지정되지 않은 적어도 하나의 매개변수 값에 기초하여 상기 여러 동작들 중 다른 동작에 비해 상기 대화 개시 동작이 상대적으로 감소된 우선순위를 갖도록 할 수 있다.
상기 방법은 적어도 하나의 매개변수가 상기 음성 발화에서 지정된 경우, 여러 동작들에 대한 제3동작 순서를 생성하는 단계를 더 포함한다, 여기서 상기 제3동작 순서는 상기 대화 개시 동작이 상기 음성 발화에서 사용자가 지정한 적어도 하나의 매개변수 값에 영향을 미치지 않는 우선순위를 갖도록 할 수 있다. 상기 방법은 상기 동작이 미디어 연속 재생에 대응하는지 여부를 결정하는 단계를 포함하여, 여러 동작들 중 각 동작에 대한 동작 분류를 결정하는 단계를 포함할 수 있으며, 상기 방법은 더 포함한다: 여러 동작들 중 요청된 동작이 미디어 연속 재생을 포함하는 경우, 상기 요청된 동작이 상기 여러 동작들 중 다른 동작보다 이후에 실행되도록 하는 우선순위를 갖는 제2동작 순서 또는 제3동작 순서를 생성하는 단계를 포함한다. 상기 방법은 사용자가 여러 동작들 중에서 적어도 하나의 동작을 실행하기 위한 시간적 조건을 명시적으로 지정하였는지 여부를 결정하는 단계를 포함할 수 있다, 그리고 상기 사용자가 여러 동작들 중에서 적어도 하나의 동작을 실행하기 위한 명시적인 조건을 지정한 경우, 상기 여러 동작들 중 적어도 하나의 동작을 실행하기 위한 시간적 조건에 대응하는 제2동작 순서 또는 제3동작 순서를 생성하는 단계를 포함할 수 있다. 상기 방법은 특정 도작이 사용자에 의해 명시적으로 요청된 적어도 하나의 동작의 시간적 조건에 영향을 미치는 경우, 상기 자동화된 어시스턴트가 상기 시간적 조건에 따라 제2동작 순서 또는 제3동작 순서를 무시하도록 구성되는 단계를 더 포함할 수 있다.
또 다른 실시예에서, 하나 이상의 프로세서에 의해 구현되는 방법은 사용자가 상기 자동화된 어시스턴트가 제1동작 유형 및 제2동작 유형을 포함하는 여러 동작들을 수행하도록 하는 요청을 포함하는 음성 발화를 제공한 것으로 결정하는 것과 같은 작동을 포함하는 것으로 설명되며, 상기 자동화된 어시스턴트는 컴퓨팅 장치의 자동화된 어시스턴트 인터페이스를 통해 사용자가 액세스할 수 있다. 상기 방법은 상기 사용자가 제공한 음성 발화에 응답하여, 여러 동작들이 실행되는 동안 상기 제2동작 유형이 상기 제1동작 유형보다 우선순위를 갖는 경우, 상기 제1동작 유형의 예상 지연 시간을 생성하는 단계를 포함할 수 있다. 상기 방법은 예상 지연 시간에 기초하여 상기 제1동작 유형에 대한 예상 지연 시간이 임계 값을 만족시키는지 여부를 결정하는 단계를 더 포함할 수 있으며, 상기 제1동작 유형의 예상 지연 시간이 상기 임계 값을 만족시키는 경우, 제1동작 유형의 실행은 제2동작 유형보다 우선순위를 가질 수 있다. 상기 방법은 상기 예상 지연 시간이 임계 값을 만족시키는지 여부에 기초하여 사용자에 의해 요청된 여러 동작들에 대한 선호되는 실행 순서를 생성하는 단계를 포함할 수 있다. 상기 방법은 상기 자동화된 어시스턴트가 상기 선호되는 실행 순서에 따라 상기 여러 동작들의 수행을 초기화시키는 단계를 더 포함할 수 있다.
일부 실시예에서, 상기 방법은 사용자에 의해 요청된 여러 동작들 중 각 동작에 대한 동작 분류를 결정하는 단계를 더 포함하고, 상기 자동화된 어시스턴트는 적어도 하나의 특정 동작 분류가 적어도 하나 이상의 나머지 동작 분류보다 우선순위를 갖도록 구성된다. 일부 실시예에서, 제1동작 유형은 대화 개시 동작을 포함하고, 제2동작 유형은 미디어 재생 동작을 포함한다. 일부 실시예에서, 상기 미디어 재생 동작은 적어도 부분적으로 별도의 컴퓨터 장치에서 수행되도록 구성되고, 상기 방법은 상기 대화 개시 동작이 상기 미디어 재생 동작보다 우선순위를 갖는 경우, 상기 미디어 재생 동작의 실행을 위한 애플리케이션을 상기 별도의 컴퓨팅 장치에서 초기화시키는 동시에 상기 대화 개시 액션이 상기 컴퓨팅 장치에서 초기화되도록 하는 단계를 더 포함한다. 일부 실시예에서, 상기 방법은 상기 미디어 재생 동작이 상기 대화 개시 동작보다 우선순위가 되는 경우, 상기 자동화된 어시스턴트가 상기 대화 개시 동작을 완료하기 위한 대화에 대응하는 자연어 출력을 제공하도록 하는 단계를 더 포함한다, 그리고 상기 대화 개시 동작이 완료되면, 상기 자동화된 어시스턴트가 상기 컴퓨팅 장치 또는 별도의 컴퓨팅 장치에서 상기 미디어 재생 동작의 수행을 초기화시키는 단계를 포함한다.
일부 실시예에서, 대화 개시 동작은, 실행될 때, 상기 사용자가 대화 시작 동작을 완료하기 위한 목적으로 매개 변수에 할당될 값을 식별할 수 있도록 상기 사용자와 상기 자동화된 어시스턴트 사이의 대화 세션을 초기화하는 것을 포함한다. 일부 실시예에서, 미디어 재생 동작은, 실행될 때, 하나 또는 그 이상의 파일을 통해 액세스 가능한 미디어의 재생을 초기화하는 것을 포함하고, 추정된 지연 시간은 하나 또는 그 이상의 파일에 대한 총 파일의 길이에 기초한다. 일부 실시예에서, 미디어 재생 동작은, 실행될 때, 하나 또는 그 이상의 네트워크 소스를 통해 액세스 가능한 미디어의 재생을 초기화하는 것을 포함하고, 상기 추정된 지연 시간은 하나 또는 그 이상의 네트워크 소스를 통해 액세스 가능한 데이터의 시간에 기초한다.
다른 실시예들은 전술한 또는 본 명세서의 다른 곳에서 설명된 하나 이상의 방법을 수행하기 위해 하나 이상의 프로세서(예를 들어, 중앙처리장치(CPU(s)), 그래픽처리장치(GPU(s)), 및/또는 텐서처리장치(TPU(s))에 의해 실행 가능한 명령어를 저장하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있다.
전술한 개념 및 본 명세서에서 더 상세하게 설명되는 추가 개념의 모든 조합은 본 명세서에 개시된 주제의 일부로 고려되는 것을 이해해야 한다. 예를 들어, 본 명세서의 끝에 나타나는 청구되는 주제들의 모든 조합은 본 명세서에 개시된 주제의 일부인 것으로 고려된다.
도 1은 자동화된 어시스턴트가 일련의 동작들을 수행하도록 사용자가 음성 발화를 사용하여 자동화된 어시스턴트를 호출하는 뷰를 나타낸다.
도 2는 자동화된 어시스턴트가 여러 다른 동작들을 수행하도록 사용자가 자동화된 어시스턴트를 호출하고, 자동화된 어시스턴트가 동작들의 순서를 재배열하는 뷰를 나타낸다.
도 3은 프로세싱 및 네트워크 자원의 낭비를 없애기 위해 자동화된 어시스턴트를 통해 수행하도록 요청된 일련의 동작들의 실행 순서를 수정하는 시스템을 나타낸다.
도 4는 적어도 훈련된 머신 러닝 모델을 사용한 프로세싱에 따라 자동화된 어시스턴트가 수행할 동작들의 순서를 결정하는 방법을 나타낸다.
도 5는 동작들의 분류에 따라 동작들의 순서를 배열하는 방법을 나타낸다.
도 6은 예시적인 컴퓨터 시스템의 블록도이다.
도 1은 자동화된 어시스턴트가 일련의 동작들을 수행하도록 사용자(108)가 음성 발화(102)를 사용하여 자동화된 어시스턴트를 호출하는 뷰(100)를 나타낸다. 구체적으로, 뷰(100)는 보다 효율적인 계산 리소스의 사용을 제공하기 위해 자동화된 어시스턴트가 요청된 일련의 동작들의 순서를 수정할 수 있는 방법의 예시를 제공한다. 예를 들어, 사용자(108)는 클라이언트 장치(124) 및 다른 장치(110)를 포함할 수 있는 그들의 집의 어떤 영역(106) 내에 위치할 수 있다. 상기 클라이언트 장치(124) 및 다른 장치(110) 각각은 자동화된 어시스턴트에 대한 액세스를 제공할 수 있다. 예를 들어, 상기 클라이언트 장치(124)는 하나 이상의 어시스턴트 인터페이스(128)를 통해 클라이언트 자동화된 어시스턴트(126)에 대한 액세스를 제공할 수 있다. 어시스턴트 인터페이스(128)는 상기 사용자(108)로부터 입력을 수신 및/또는 상기 사용자(108)에게 출력을 제공할 수 있는, 하나 이상의 장치 또는 장치 그룹이 될 수 있다. 예를 들어, 어시스턴트 인터페이스(128)는 하나 이상의 마이크로폰 및 하나 이상의 오디오 스피커를 포함할 수 있다. 대안적으로, 또는 추가적으로, 어시스턴트 인터페이스(128)는 하나 이상의 터치 디스플레이 패널 및/또는 하나 이상의 카메라를 포함할 수 있다. 입력 및 출력은 상기 클라이언트 장치(124) 및/또는 서버 장치(120)와 같은 원격 컴퓨팅 장치(118)에서 상기 클라이언트 자동화된 어시스턴트(126)에 대해 생성될 수 있다. 상기 서버 장치(120)는 본 명세서에서 설명되는 입력 및 출력 처리에 대한 지원을 제공할 수 있는 서버 자동화된 어시스턴트(122)를 포함할 수 있다.
상기 사용자(108)가 상기 자동화된 어시스턴트(즉, 상기 클라이언트 자동화된 어시스턴트(126) 및/또는 상기 서버 자동화된 어시스턴트(122))가 수행할 여러 동작들에 대한 음성 발화를 포함하는 음성 발화(102)를 제공하면, 상기 클라이언트 자동화된 어시스턴트(126)은 상기 음성 발화(102)를 수신하고, 상기 여러 동작들에 대한 순서를 결정할 수 있다. 예를 들어, 상기 음성 발화(102)는 "어시스턴트, 내 저녁 재생목록을 재생하고, 알람을 설정하고, 내일 날씨를 알려줘"가 될 수 있다. 상기 음성 발화(102)는 상기 요청된 동작들을 상기 저녁 재생목록을 재생한 다음, 알람을 설정하고, 날씨보고를 제공하는 제1순서로 설명할 수 있다. 그러나, 상기 음성 발화(102)를 수신하는 것에 응답하여, 상기 자동화된 어시스턴트는 다른 실행 순서가 더 효율적이거나 상기 사용자(108)에게 더 적합하다면 다른 순서를 결정할 수 있다.
상기 클라이언트 자동화된 어시스턴트(126) 및/또는 클라이언트 장치(124)는 상기 음성 발화(102)를 네트워크(예를 들어, 인터넷)(130)을 통해 상기 클라이언트 장치(124)에서 상기 서버 장치(120)로 전송될 수 있는 오디오 데이터로 변환할 수 있다. 상기 서버 장치(120) 및/또는 상기 서버 자동화된 어시스턴트(122)는 상기 오디오 데이터를 텍스트 데이터로 변환한 다음, 본 명세서에서 설명되는 상기 사용자(108)에 의해 요청된 동작들을 식별하기 위해 상기 텍스트 데이터를 분석할 수 있다. 일부 실시예에서, 동작들에 대한 식별자는 동작들의 제2실행 순서를 나타내는 출력을 생성하기 위해 훈련된 머신 러닝 모델을 사용하여 처리될 수 있다. 다른 실시예에서, 상기 요청된 동작들에 대한 분류는 식별될 수 있으며, 상기 사용자에 의해 요청된 동작들의 분류에 기초하여, 동작들의 제2실행 순서가 생성될 수 있다.
추가적으로, 또는 대안적으로, 상기 사용자(108), 상기 영역(106) 및/또는 상기 사용자(108)와 연관될 수 있는 임의의 다른 특징과 연관된 상황 데이터 또한 동작들에 대한 제2실행 순서를 결정할 때 처리될 수 있다. 예를 들어, 상기 상황 데이터는 상기 사용자(108)가 독립형 스피커 장치(112)와 같은 상기 클라이언트 장치(124)를 포함하는 영역(106) 내에 위치하는 것을 나타낼 수 있다. 따라서, 상기 음성 발화(102)를 수신하고 상기 상황 데이터를 액세스하는 것에 응답하여, 상기 자동화된 어시스턴트는 상기 클라이언트 장치(124)에 의해 수행되는 동작들의 순서와 상기 다른 장치(110)에 의해 수행되는 동작들의 순서를 결정할 수 있다. 예를 들어, 상기 자동화된 어시스턴트는 상기 클라이언트 장치(124)가 알람을 설정하고 저녁 재생목록을 재생하는 동작들을 할당받도록 할 수 있다. 또한, 상기 자동화된 어시스턴트는 상기 다른 장치(110)가 내일 날씨보고를 제공하는 동작을 할당받도록 할 수 있다. 구체적으로, 상기 자동화된 어시스턴트는 상기 다른 장치(110)의 디스플레이 패널에 날씨보고가 표시되도록 할 수 있고, 이에 따라 알람을 설정하기 위해 상기 사용자(108)와 상기 자동화된 어시스턴트 사이에 발생하는 대화 세션의 중단에 따른 불편을 줄일 수 있다.
일부 실시예에서, 상기 음성 발화(102)에 요청된 동작들에 대한 식별자는 상기 동작과 관련된 다른 데이터와 함께 머신 러닝 모델을 사용하여 처리될 수 있다. 예를 들어, 다른 데이터는 상기 음성 발화(102)를 수신하는 장치의 유형, 상기 음성 발화(102)가 수신된 시간, 상기 음성 발화(102)를 제공한 사용자(108)에 대한 식별자, 요청된 동작들의 총 실행 시간 또는 동작 당 예상 실행 시간, 및/또는 요청된 동작의 특성을 특징짓는데 적합한 기타 데이터를 포함할 수 있다. 처리된 하나 이상의 입력에 기초하여, 상기 머신 러닝 모델은 상기 요청된 동작들의 실행 순서를 특징짓는 출력을 생성하는데 활용될 수 있다. 상기 머신 러닝 모델을 사용하여 생성된 출력은 상기 클라이언트 장치(124) 및/또는 상기 다른 장치(110)와 공유될 수 있다.
서버 장치(120)에 의해 생성된 및/또는 상기 음성 발화(102) 수신에 응답하여 생성된 실행 순서를 수신하는 것에 응답하여, 상기 클라이언트 장치(124)는 상기 동작들의 수행을 초기화할 수 있다. 예를 들어, 상기 클라이언트 자동화된 어시스턴트(126)는 상기 동작들을 완료하기 위해 자연어 출력을 제공할 수 있다. 도 1에 도시된 것과 같이, 날씨보고에 대한 요청은 알람을 설정하는 것보다 우선순위가 될 수 있고, 알람을 설정하는 것은 저녁 재생목록을 재생하는 것보다 우선순위가 될 수 있다. 따라서, 전술한 동작들의 순서는 자연어 출력(104)이 초기에 날씨보고를 포함하도록 할 수 있다. 구체적으로, 자연어 출력(104)은 "내일 날씨는 화창하며, 최고 기온은 75도, 최저 기온은 66도입니다."와 같은 날씨 보고를 포함할 수 있다. 제1동작(예를 들어, 날씨보고) 완료 시, 상기 클라이언트 자동화된 어시스턴트(126)는 제2동작(예를 들어, 다음날에 대한 알람 설정)의 수행을 초기화할 수 있다. 상기 제2동작을 수행할 때, 상기 클라이언트 자동화된 어시스턴트(126)는 "내일 알람을 몇 시로 설정하시겠어요?"와 같은 자연어 출력을 제공함으로써 상기 사용자(108)와의 대화 세션을 초기화할 수 있으며, 상기 사용자(108)는 응답으로 "오전 7시요."와 같은 음성 발화(102)를 제공할 수 있다.
이에 응답하여, 상기 클라이언트 자동화된 어시스턴트(126)는 "네."와 같은 자연어 출력(104)을 제공함으로써 상기 음성 발화(102)에 대한 승인을 제공할 수 있다. 그 후, 상기 제2동작의 완료에 응답하여, 상기 클라이언트 자동화된 어시스턴트(126)는 제2동작 순서로 상기 제3동작의 수행을 초기화할 수 있다. 구체적으로, 상기 클라이언트 자동화된 어시스턴트(126)는 바람직하게는, 저녁 동안 재생되도록 상기 사용자(108)에 의해 설정된 노래 목록일 수 있는 저녁 재생목록의 재생을 초기화할 수 있다. 따라서, 상기 사용자(108)가 제1순서에 따라 수행되도록 동작들에 대한 요청을 제공하였음에도, 상기 자동화된 어시스턴트는 각 동작의 실행 시간을 최소화하기 위해 실행 순서를 재배열할 수 있다. 예를 들어, 저녁 재생목록이 먼저 실행되었다면, 알람 설정 및 날씨보고를 제공하는 것은 상기 재생목록이 끝날 때까지 지연되었을 것이다. 또한, 만일 상기 재생목록의 재생이 다음날로 연장되면, "내일"에 대한 날씨 요청은 그 다음 날 수행되어, 날씨보고의 타겟 날짜가 그 다음 날로 변경되었을 것이다. 타겟 날짜의 이와 같은 변경은, 특히, 사용자가 날씨보고에 대응하는 정확한 날짜를 다시 지정하기 위해 또 다른 음성 발화를 해야하는 경우, 계산 자원을 낭비하게 된다.
도 2는 자동화된 어시스턴트가 여러 다른 동작들을 수행하도록 사용자(208)가 자동화된 어시스턴트를 호출하고, 자동화된 어시스턴트가 동작들의 순서를 재배열하는 뷰(200)를 나타낸다. 예를 들어, 사용자 (208)는 "어시스턴트, 쇼를 재생하고, 알람을 설정하고, 내일 날씨를 알려줘"와 같은 음성 발화(202)를 제공할 수 있습니다. "쇼 재생"에 대한 요청은 다운로드, 미디어의 포션 캐싱, 그 다음 다운로드된 미디어의 재생을 초기화하는 것과 같은 하나 이상의 하위 작업을 포함할 수 있는 연속적인 미디어 재생 동작에 해당한다. 또한, "알람 설정"에 대한 요청은 자연어 출력을 생성, 사용자로부터 그 다음의 자연어 입력을 처리, 그리고 사용자로부터 자연어 입력의 내용에 기초하여 알람을 설정하는 것과 같은 하나 이상의 하위 작업을 포함할 수 있다.
다양한 실시예에서, 계산 리소스를 보존하고 여러 다른 동작들을 수행할 때 대기 시간을 제거하기 위해, 동작들의 순서 및 대응하는 하위 작업은 머신 러닝 모델 및/또는 특정 동작에 대한 실행 순서를 결정할 수 있는 하나 이상의 모듈을 이용하여 결정될 수 있다. 일부 실시예에서, 상기 머신 러닝 모델은 지도형 기계 학습을 사용하여 훈련될 수 있다. 이러한 일부 실시예에서, 훈련 예시 입력: 상기 요청에서 상기 자동화된 어시스턴트 동작들을 식별하는 데이터 및 선택적으로 하나 이상의 상황 값들과 같은 긍정적 훈련 예시가 사용된다. 상기 자동화된 어시스턴트 동작들을 식별하는 데이터는, 예를 들어, 의도 및 선택적으로 동작에 대한 매개변수들을 포함할 수 있다. 예를 들어, 스마트 텔레비전에서 "쇼 X"를 스트리밍하는 동작의 경우, 목적은 "미디어 스트림"이 될 수 있고, 매개변수는 미디어 유형(예를 들어, 텔레비전 쇼 유형), 미디어 지속시간(예를 들어, 30분), 및/또는 스트림을 수신하기 위한 타겟 장치를 포함할 수 있다. 하나 이상의 상황 값은, 예를 들어, 상기 요청이 수신된 장치, 하루 중의 시간, 요일 등의 포함할 수 있다. 훈련 예시 입력은 선택적으로 머신 러닝 모델이 훈련된 최대 동작의 수에 의해 결정되는 고정 차원이 될 수 있으며, 최대 동작의 수보다 적은 훈련 예시에 "null" 값을 포함할 수 있다. 예를 들어, 최대 동작의 수는 5개가 될 수 있으며, 요청에 3개의 동작을 포함하는 훈련 예시 입력의 경우, 3개의 동작 각각을 식별하는 데이터는 상기 훈련 예시 입력에 포함될 수 있고, null 데이터는 나머지 2개의 동작에 대해 제공될 수 있다.
긍정적 훈련 예시는 훈련 예시 출력: 상기 훈련 예시 입력에서 식별된 동작들의 특정 순서를 식별하는 데이터를 더 포함할 수 있다. 상기 특정 순서는 선호되는 순서이며, 이는 다양한 기술들을 활용하여 선호되는 순서로 결정될 수 있다. 예를 들어, 긍정적 훈련 예시의 훈련 예시 출력에 대한 "동작3, 동작1, 동작2"의 특정 순서는 인간의 라벨링(예를 들어, "동작 3, 동작 1, 동작 2" 순서의 명시적인 라벨링), 하나의 요청에서 명시적으로 선호되는 순서로 지정한 사용자들의 과거 발생(예를 들어, "어시스턴트, 먼저 동작 3을 수행하고, 다음에 동작 1, 그리고 동작 2를 수행해줘"), 및/또는 시간적으로 근접한 별도의 요청에서 선호되는 순서로 지정한 사용자들의 과거 발생(예를 들어, "어시스턴트, 동작 3을 수행해줘", 1분 이내에 "어시스턴트, 동작 1을 수행해줘", 그리고 1분 이내에 "어시스턴트, 동작 2를 수행해줘")에 기초할 수 있다. 또한, 예를 들어, 긍정적 훈련 예시의 훈련 예시 출력에 대한 "동작 3, 동작 1, 동작 2"의 특정 순서는 어떤 대안적인 특정 순서로 상기 동작들을 수행하는 것보다 계산적으로 더 효율적인 특정 순서로 동작들을 수행하는 과거 발생들에 기초할 수 있다. 예를 들어, "동작 3, 동작 1, 동작 2"의 특정 순서는 완료하는데 평균 33.5초가 소요되는 특정 순서에 대한 과거 발생들에 기초하여 선택될 수 있다, 모든 대안적인 특정 순서들의 과거 발생들은 완료하는데 34.0초 이상이 소요되는 반면에. 예를 들어, 특정 순서에 대한 더 짧은 평균 완료 시간은 한 번에 표시되는 작업들 중 하나에 대한 신속성으로 인해 신속성에 대한 사용자의 응답이 더 빨라지게 되고, 동작 1 및/또는 동작 2는 지연 및/또는 상대적으로 느린 서버와 연관되어 특정 순서(그들은 첫 번째가 아니기 때문에)에서 우선적으로 가져올 수 있거나 실행 가능할 수 있다.
훈련 예시 출력은 선택적으로 머신 러닝 모델이 훈련된 최대 동작의 수에 의해 결정되거나 기초하여 고정 차원이 될 수 있으며, 최대 동작의 수보다 적은 훈련 예시에 "null" 값을 포함할 수 있다. 예를 들어, 최대 동작의 수는 5개가 될 수 있으며, 요청에 3개의 동작을 포함하는 훈련 예시 입력의 경우, 3개의 동작 각각을 식별하는 데이터는 상기 훈련 예시 입력에 포함될 수 있고, null 데이터는 나머지 2개의 동작에 대해 제공될 수 있다. 하나의 특정 예시로서, 상기 훈련 예시 출력은 25개의 값의 벡터가 될 수 있으며, 각 순차적인 5개의 그룹은 특정 순서에서 해당하는 동작 중 어느 하나의 배치를 나타낸다. 예를 들어, 제공된 순서를 가정하면, "동작 1, 동작 2, 동작 3"의 훈련 예시 입력 및 "동작 3, 동작 1, 동작 2"의 특정 순서에서, 다음의 훈련 예시 출력은 특정 순서를 나타낼 수 있다: [0, 1, 0, 0, 0, | 0, 0, 1, 0, 0, | 1, 0, 0, 0, 0, | null, ... null, | null, ... null]. 앞선 예에서, 각각의 "|"는 각각의 동작에 대응하는 배치 사이의 휴식을 나타내고, 첫 번째 "1"은 "동작 1"이 2번째가 되고("동작 1"은 5개의 옵션 중에서 두 번째에 배치되기 때문), 두 번째 "1"은 "동작 2"가 3번째가 되고("동작 2"는 5개의 옵션 중에서 세 번째에 배치되기 때문), 세 번째 "1"은 "동작 3"이 1번째가 되는("동작 3"은 5개의 옵션 중에서 첫 번째에 배치되기 때문) 것을 나타내며, "nulls"는 상기 학습 예제 입력에 네 번째 및 다섯 번째 작업이 없음을 나타낸다.
머신 러닝 모델은 지도형 훈련 예시들을 이용하여 훈련될 수 있다. 훈련 이후에, 상기 머신 러닝 모델은 이러한 동작들의 식별자들 및 선택적으로 상황 값(들)에 기초하여 요청 중의 복수의 동작들의 실행을 위한 특정 순서를 예측하는데 활용될 수 있다. 이러한 머신 러닝 모델의 사용은 런 타임에서 특정 순서의 빠른 해결을 제공할 수 있으며, 훈련 데이터에 나타나지 않았을 수 있는 동작들의 조합 및/또는 상황 값들을 일반화할 수 있다. 따라서, 이러한 머신 러닝 모델은 새로 추가된 동작 및/또는 새로 제시된 동작들의 조합에 강력하다. 또한, 이러한 머신 러닝 모델은 일단 학습되면 다양한 동작들과 선호되는 순서들 사이의 큰 매핑보다 적은 공간을 소비할 수 있으며, 그러한 큰 매핑을 검색하는 것보다 활용하는데 계산적으로 더 효율적일 수 있다.
일부 실시예에서, 지도형 학습 모델과 같은 머신 러닝 모델에 대한 훈련 데이터는 상기 자동화된 어시스턴트를 통해 수행될 수 있는 동작을 식별하는 입력 데이터를 포함할 수 있다. 또한, 상기 지도형 학습 모델에 대한 훈련 데이터는 입력 데이터에서 식별된 동작들 중 각 동작의 실행을 위한 총 시간을 특성화하는 데이터를 포함할 수 있다. 대안적으로, 또는 추가적으로 상기 지도형 학습 모델에 대한 훈련 데이터는 사용자에 의해 요청된 동작들 중 각 동작의 지연 시간 및/또는 예상 지연 시간을 특성화하는 데이터를 포함할 수 있다. 대안적으로, 또는 추가적으로, 상기 지도형 학습 모델에 대한 훈련 데이터는 요청된 동작 세트에서 실행될 모든 동작들의 총 시간 또는 예상 총 시간을 특성화하는 데이터를 포함할 수 있다. 이러한 방식으로, 지도형 학습에 따라 생성된 기능 및/또는 모델은 상기 자동화된 어시스턴트를 통해 수행되도록 요청된 동작들과 하나 이상의 각 동작 또는 모든 동작들의 시간적 측면 사이의 상관관계를 효과적으로 나타낼 수 있다.
자동화된 어시스턴트를 통해 수행되는 동작은 하나 이상의 실행 특성을 가질 수 있고, 동작의 실행 특성은 하나의 동작 및/또는 여러 동작들의 하나 이상의 시간적 특성에 영향을 미칠 수 있다(예를 들어, 사용자에 의해 자동화된 어시스턴트를 통해 수행되도록 요청된 일련의 동작들). 예를 들어, 실행 특성은 동작의 실행 중에 수행될 하나 이상의 작업을 특성화 할 수 있다. 예를 들어, 알람을 설정하는 동작을 수행하기 위한 자동화된 어시스턴트에 대한 요청은 상기 자동화된 어시스턴트가 사용자와의 대화 세션을 초기화하는 작업을 수행하게 할 수 있고, 상기 대화 세션은 알람을 설정하는 동작의 실행 특성이 될 수 있다. 특히, 상기 대화 세션은 사용자에게 알람이 울릴 시간을 지정할 수 있는 기회를 제공하기 위해 초기화될 수 있다. 따라서, 상기 동작은 완료하는데 어느 정도 시간이 걸리는 대화 세션을 초기화하는 실행 특성을 갖기 때문에, 상기 동작의 시간적 측면(예를 들어, 동작을 완료하는데 걸리는 총 시간)이 영향을 받을 수 있다. 상기 동작의 다양한 시간적 측면은, 예를 들어, 동작의 실행을 위한 총 예상 시간, 사용자가 동작을 완료하기 위한 입력을 제공할 총 예상 시간, 요청과 동작의 초기화 사이의 예상 지연 시간, 및/또는 제3자에 대한 요청을 통해 동작을 초기화하는 것과 상기 제3자로부터 응답을 수신하는 것 사이의 지연 시간 등에 영향을 받을 수 있으며, 이에 제한하지 않는다.
동작 및/또는 일련의 동작들의 시간적 측면은 하나 이상의 컴퓨팅 장치에 의해 동작 및/또는 일련의 동작들을 수행하기 전, 동안 및/또는 후에 하나 이상의 컴퓨팅 장치에 의해 나타나는 하나 이상의 시간 관련된 속성을 포함할 수 있다. 추가적으로, 또는 대안적으로, 동작 및/또는 일련의 동작들의 시간적 측면은 상기 동작 및/또는 일련의 동작들의 특정 작업 및/또는 부분을 특징짓는 정량화 가능한 시간 값이 될 수 있다. 예를 들어, 자동화된 어시스턴트가 "어시스턴트, 조명을 켜주고, 내 팟캐스트를 재생해줘"와 같은 일련의 동작들을 수행하도록 하는 요청은 실제 조명을 켜는 것과 팟캐스트를 재생하는 것 사이의 지연에 대한 정량화 가능한 시간을 가질 수 있으며, 상기 동작들의 완료를 위한 정량화 가능한 시간을 가질 수 있다. 또한, 정량화 가능한 지연 시간 및/또는 기타 다른 시간적 측면은 동작들이 수행되는 순서에 따라 달라질 수 있다. 예를 들어, 상기 사용자가 요청을 제공한 것과 상기 자동화된 어시스턴트가 조명을 켜는 것 사이의 지연은 "내 팟캐스트를 재생하는 동작"이 "조명을 켜는 동작" 이전에 초기화될 때, 적어도 "내 팟캐스트를 재생하는 동작"이 초기화되기 이전에 "조명을 켜는 동작"이 초기화될 때의 동작 순서와 비교하였을 때 더 클 수 있다.
일부 실시예에서, 훈련된 머신 러닝 모델은 일련의 요청된 동작들의 시간적인 측면을 예상하는데 사용될 수 있다. 예를 들어, 제1동작, 제2동작 및 제3동작에 대한 식별자는 작업의 실행 순서 표시와 함께 머신 러닝 모델에 대한 입력으로 제공될 수 있다. 입력을 수신하는 것에 응답하여, 머신 러닝 모델은 동작에 대해 제공된 실행 순서의 하나 이상의 시간적 측면을 나타내는 출력을 제공할 수 있다. 동작들에 대한 효율적인 실행 순서를 제공하는 작업을 수행하는 애플리케이션 또는 모듈은 일련의 동작들의 순서를 재정렬하고, 머신 러닝 모델에 대한 입력으로 상기 동작들에 대한 다른 순서를 제공할 수 있다. 상기 동작들에 대한 다른 순서에 대응하는 입력을 수신하는 것에 응답하여, 상기 머신 러닝 모델은 상기 일련의 동작들에 대한 다른 순서의 하나 이상의 시간적 측면의 또 다른 표시를 제공할 수 있다. 다양한 일련의 동작들의 시간적 측면을 예상하는 단계는 모든 동작들의 변형 실행 순서 또는 적어도 여러 변형에 대해 반복될 수 있다. 실행 순서의 각각의 변형에 대한 머신 러닝 모델로부터의 각각의 출력은 계산 리소스의 가장 효율적인 사용을 제공하고 및/또는 시간적 측면에 대응하는 부정적인 특징들을 완화하기 위해 비교될 수 있다. 예를 들어, 머신 러닝 모델의 출력이 동작들의 실행 동안 총 예상 지연 시간을 나타낼 때, 최소 예상 지연에 해당하는 동작들의 변형 순서가 선택되어 상기 자동화된 어시스턴트에 실행을 위해 제공될 수 있다. 대안적으로, 또는 추가적으로 상기 머신 러닝 모델의 출력이 일련의 동작들에 대한 총 예상 실행 시간을 나타낼 때, 상기 일련의 동작들에 대한 최소 예상 실행 시간에 해당하는 동작들의 변형 순서가 선택되어 상기 자동화된 어시스턴트에 실행을 위해 제공될 수 있다.
예를 들어, 도 2에 도시된 바와 같이, 상기 사용자(208)는 "어시스턴트, 쇼를 재생하고, 알람을 설정하고, 내일 날씨를 알려줘."와 같은 음성 발화(202)를 제공할 수 있다. 상기 음성 발화(202)는 독립형 스피커 장치(212)와 같은 클라이언트 장치(214)에 의해 수신될 수 있다. 상기 음성 발화(202)는 상기 클라이언트 장치(214)에 의해 오디오 데이터로 변환될 수 있고, 네트워크(예를 들어, 인터넷)(228)를 통해 서버 장치(224)와 같은 원격 컴퓨팅 장치(220)로 전송될 수 있다. 상기 서버 장치(224) 및/또는 서버 자동화된 어시스턴트(226)는 상기 음성 발화(202)를 통해 사용자(208)에 의해 요청된 임의의 동작들을 식별하기 위해 오디오 데이터를 처리할 수 있다. 동작들의 식별자는 상기 동작들의 실행 순서를 식별하기 위해 머신 러닝 모델에 입력으로, 선택적으로 데이터와 함께 제공될 수 있다. 머신 러닝 모델은 서버 장치 (224) 및/또는 클라이언트 장치(214)에 저장되거나 그렇지 않으면 액세스 할 수 있다.
입력 수신에 응답하여, 머신 러닝 모델은 동작들에 대한 하나 이상의 실행 순서를 나타내는 출력을 생성하는데 사용될 수 있다. 일부 실시예에서, 상기 머신 러닝 모델은 상기 자동화된 어시스턴트가 요청된 동작들의 수행을 초기화하기 위해 의존할 수 있는 단일 실행 순서를 제공하는데 사용될 수 있다. 대안적으로, 상기 머신 러닝 모델은 여러 실행 순서를 제공하는데 사용될 수 있고, 상기 자동화된 어시스턴트는 특정 기준을 만족시키는 실행 순서를 선택할 수 있다. 예를 들어, 상기 머신 러닝 모델은 각 실행 순서의 속성을 제공하는데 사용될 수 있을 뿐만 아니라 상기 동작들에 대한 하나 이상의 실행 순서를 나타내는 출력을 제공하는데 사용될 수 있다. 예를 들어, 상기 머신 러닝 모델에 기초하여 제공된 실행 순서는 계산 효율성과 관련될 수 있는 총 실행 시간, 총 지연 시간, 총 메모리 사용량, 총 CPU 사용량 및/또는 연관될 수 있는 기타 메트릭에 대한 값이 제공될 수 있다. 상기 자동화된 어시스턴트는 최소 실행 시간, 최소 대기 시간, 최소 메모리 사용량, 최소 CPU 사용량 및/또는 기타 기준 또는 이들의 조합과 같은 특정 기준을 충족하는 특정 순서를 선택할 수 있다.
상기 자동화된 어시스턴트가 상기 머신 러닝 모델 또는 본 명세서에서 설명된 다른 작업들에 기초하여 실행 순서를 선택했을 때, 상기 자동화된 어시스턴트는 하나 이상의 동작들의 수행을 초기화할 수 있다. 예를 들어, 상기 자동화된 어시스턴트가 먼저 날씨 보고를 제공하고, 알람을 설정한 다음 쇼를 재생하는 순서를 선택했을 때, 상기 자동화된 어시스턴트는 네트워크(228)를 통해 날씨 보고를 검색하는 동작을 초기화할 수 있다. 날씨 보고가 검색되며, 클라이언트 장치(214)는 상기 날씨 보고에 대응하는 자연어 출력(204)를 제공하는 작동을 수행할 수 있다. 예를 들어, 상기 날씨 보고에 대응하는 자연어 출력은 "내일 날씨는 화창하며, 최고 기온은 75도, 최저 기온은 66도입니다."가 될 수 있다.
일부 실시예에서, 상기 자동화된 어시스턴트는 다른 컴퓨팅 장치 및/또는 웹 사이트를 통해 액세스 할 수 있는 제3의 날씨 애플리케이션 또는 모듈과 같은 제3의 에이전트에 의해 날씨 보고가 제공되도록 할 수 있다. 제3은 애플리케이션, 서비스, 장치 및/또는 임의의 다른 제품을 제공하는 모든 것을 지칭할 수 있으며, 상기 자동화된 어시스턴트 및/또는 클라이언트(214) 작동 시스템을 제공하는 모든 것과는 구별될 수 있다. 상기 제3의 에이전트는 상기 자동화된 어시스턴트에게 날씨 보고를 제공한 후, 상기 제3의 에이전트는 제3의 에이전트에 할당된 하나 이상의 작업이 완료되었음을 표시할 수 있습니다. 제3의 에이전트로부터 표시를 수신하는 것에 응답하여, 상기 자동화된 어시스턴트는 상기 자동화된 어시스턴트에 의해 선택된 동작들의 실행 순서에 따라 다음 동작의 수행을 초기화할 수 있다.
일부 실시예에서, 선택된 실행 순서는 상기 요청된 동작들을 초기화하는 대신에 상기 자동화된 어시스턴트가 요청된 동작들을 완료해야 하는 순서에 대응하거나 또는 나타낼 수 있다. 예를 들어, 도 2에서 사용자(208)에 의해 요청된 동작들의 순서는 제1순서에 따라 완료됨에도 불구하고, 각각의 동작과 관련된 하위 작업들은 상이한 제2순서로 완료될 수 있다. 예를 들어, 머신 러닝 모델은 완료 순서를 나타낼 수 있고, 수행되어야 할 하위 작업들의 순서를 나타내는 출력을 제공할 수 있다. 따라서, 일부 실시예에서, 상기 자동화된 어시스턴트는 동작들의 실행 순서에서 우선순위를 갖는 제1동작(예를 들어, 날씨 보고를 제공하는 것)을 초기화할 수 있고, 동시에 또는 직후에, 상기 동작들의 실행 순서에서 제3동작에 대한 하위 작업들(예를 들어, 다운로드 및 쇼 데이터를 캐싱하는 것)의 수행을 초기화할 수 있다. 예를 들어, 상기 동작들의 실행 순서는 날씨 보고를 완료해야 할 가장 높은 우선순위를 갖는 동작으로 식별할 수 있지만, 쇼 재생 동작이 동작들을 완료하는 우선순위와 관련하여 마지막에 해당함에도 불구하고, 쇼 다운로드와 같은 하위 작업을 다른 대부분의 하위 작업 또는 작업(예를 들어, 알람이 언제 설정되어야 하는지 요청하는 자연어 출력을 제공하는 것 및 알람의 설정을 확인하는 것)보다 더 높은 우선순위를 갖도록 지정할 수 있다. 즉, 상기 자동화된 어시스턴트는 일련의 요청된 동작들에 대한 전체 대기 시간 및/또는 총 예상 완료 시간을 완화할 수 있는 특정 하위 작업 또는 작업을 초기화 할 수 있다. 추가적으로, 또는 대안적으로, 상기 자동화된 어시스턴트는 음성 발화(202)에 대한 타겟 장치가 아닌 하나 이상의 장치에 하나 이상의 하위 작업 또는 동작을 위임할 수 있다. 예를 들어, 쇼를 다운로드하는 하위 작업은 네트워크(228)를 통해 날씨 보고를 검색하고 및/또는 상기 클라이언트 장치(214)를 통해 날씨 보고를 제공하는 상기 자동화된 어시스턴트와 공존하는 상기 다른 장치(210)에 의해 백그라운드 액션(230)으로 수행될 수 있다.
도 3은 프로세싱 및 네트워크 자원의 낭비를 없애기 위해 자동화된 어시스턴트(304)를 통해 수행하도록 요청된 일련의 동작들의 실행 순서를 수정하는 시스템(300)을 나타낸다. 상기 자동화된 어시스턴트(304)는 컴퓨팅 장치(318) 및/또는 서버 장치(302)와 같은 하나 이상의 컴퓨팅 장치에서 제공되는 어시스턴트 애플리케이션의 일부로서 동작 할 수 있다. 사용자는 마이크, 카메라, 터치 스크린 디스플레이, 사용자 인터페이스 및/또는 사용자와 애플리케이션 사이의 인터페이스를 제공할 수 있는 임의의 다른 장치 일 수 있는 어시스턴트 인터페이스를 통해 상기 자동화된 어시스턴트(304)와 상호 작용할 수 있다. 예를 들어, 사용자는 어시스턴트 인터페이스에 구두, 텍스트 또는 그래픽 입력을 제공함으로써 상기 자동화된 어시스턴트(304)가 기능(예를 들어, 데이터 제공, 주변 장치 제어, 에이전트 액세스, 입력 및/또는 출력 생성 등)을 수행하게 하여 상기 자동화된 어시스턴트(304)를 초기화할 수 있다. 상기 컴퓨팅 장치(318)는 사용자가 터치 인터페이스를 통해 상기 컴퓨팅 장치(318)의 애플리케이션을 제어할 수 있도록 하는 터치 입력 및/또는 제스처를 수신하기 위한 터치 인터페이스를 포함하는 디스플레이 패널일 수 있는 디스플레이 장치를 포함할 수 있다. 일부 실시예에서, 컴퓨팅 장치(318)는 디스플레이 장치가 생략될 수 있으며, 이에 따라 그래픽 사용자 인터페이스 출력을 제공하지 않고 가청의 사용자 인터페이스 출력을 제공할 수 있다. 또한, 컴퓨팅 장치(318)는 사용자로부터 음성 자연어 입력을 수신하기 위해 마이크와 같은 사용자 인터페이스를 제공할 수 있다. 일부 실시예에서, 컴퓨팅 장치(318)는 터치 인터페이스를 포함할 수 있고, 카메라를 포함하지 않을 수 있지만, 선택적으로 하나 이상의 다른 센서를 포함할 수 있다.
컴퓨팅 장치(318) 및/또는 다른 컴퓨팅 장치(334)는 인터넷과 같은 네트워크(338)를 통해 서버 장치(302)와 통신할 수 있다. 추가적으로, 컴퓨팅 장치(318) 및 다른 컴퓨팅 장치(334)는 Wi-Fi 네트워크와 같은 근거리 통신망(LAN)을 통해 서로 통신할 수 있다. 컴퓨팅 장치(318)는 컴퓨팅 장치(318)에서 계산 리소스를 보존하기 위해 계산 업무를 서버 장치(302)로 넘길 수 있다. 예를 들어, 상기 서버 장치(302)는 상기 자동화된 어시스턴트(304)를 호스팅 할 수 있고, 상기 컴퓨팅 장치(318)는 하나 이상의 어시스턴트 인터페이스(320)에서 수신된 입력을 상기 서버 장치(302)로 전송할 수 있다. 그러나 일부 실시예에서, 상기 자동화된 어시스턴트(304)는 클라이언트 자동화된 어시스턴트(322)로서 상기 컴퓨팅 장치(318)에서 호스팅 될 수 있다.
다양한 실시예에서, 상기 자동화된 어시스턴트(304)의 모든 양상의 전부 또는 일부는 상기 컴퓨팅 장치(318)상에서 구현될 수 있다. 일부 실시예에서, 상기 자동화된 어시스턴트(304)의 양상은 상기 컴퓨터 장치(318)의 상기 클라이언트 자동화된 어시스턴트(322)를 통해 구현되고, 상기 자동화된 어시스턴트(304)의 다른 양상들을 구현하는 상기 서버 장치(302)와 접속한다. 상기 서버 장치(302)는 여러 스레드를 통해 복수의 사용자들 및 그들과 관련된 어시스턴트 애플리케이션을 선택적으로 제공할 수 있다. 상기 자동화된 어시스턴트(304)의 모든 양상의 전부 또는 일부가 상기 컴퓨팅 장치(318)에서 클라이언트 자동화된 어시스턴트(322)를 통해 구현되는 실시예에서, 상기 클라이언트 자동화된 어시스턴트(322)는 상기 컴퓨팅 장치(318)의 운영 체제(예를 들어, 운영 체제 상에 설치됨)로부터 분리된 애플리케이션일 수 있다-또는 대안적으로 상기 컴퓨팅 장치(318)의 운영 체제에 의해 직접적으로 구현될 수 있다(예를 들어, 운영 체제의 애플리케이션이지만 운영 체제와 통합된 것으로 간주됨).
일부 실시예에서, 상기 자동화된 어시스턴트 (304) 및/또는 클라이언트 자동화된 어시스턴트(322)는 입력 처리 엔진(306)을 포함할 수 있으며, 이는 상기 컴퓨팅 장치(318) 및/또는 상기 서버 장치(302)에 대한 입력 및/또는 출력을 처리하기 위해 여러 다른 모듈들을 사용할 수 있다. 예를 들어, 상기 입력 처리 엔진(306)은 오디오 데이터에 포함된 텍스트를 식별하기 위해 어시스턴트 인터페이스(320)에서 수신된 오디오 데이터를 처리할 수 있는 음성 처리 모듈(308)을 포함할 수 있다. 예를 들어, 상기 오디오 데이터는 컴퓨팅 장치(318)에 계산 리소스를 보존하기 위해 상기 컴퓨팅 장치(318)에서 상기 서버 장치(302)로 전송될 수 있다.
상기 오디오 데이터를 텍스트로 변환하는 프로세스는 음성 인식 알고리즘을 포함 할 수 있으며, 이는 단어 또는 구에 대응하는 오디오 데이터 그룹을 식별하기 위해 신경망, word2vec 알고리즘 및/또는 통계 모델을 사용할 수 있다. 상기 오디오 데이터로부터 변환된 텍스트는 데이터 분석 모듈(310)에 의해 분석되고, 상기 자동화된 어시스턴트에 사용자로부터 명령 구문을 생성하거나 및/또는 식별하는데 사용되는 텍스트 데이터로서 이용 가능하게 될 수 있다. 일부 실시예에서, 상기 데이터 분석 모듈(310)에 의해 제공된 출력 데이터는 상기 사용자가 상기 자동화된 어시스턴트(304)에 의해 수행될 수 있는 특정 동작 및/또는 루틴 및/또는 상기 자동화된 어시스턴트(304)에 의해 액세스될 수 있는 애플리케이션 또는 에이전트에 대응하는 입력을 제공하였는지 여부를 결정하기 위해 매개변수 모듈(312)에 제공될 수 있다. 예를 들어, 어시스턴트 데이터(316)는 클라이언트 데이터(332)로서 상기 서버 장치(302) 및/또는 상기 컴퓨팅 장치(318)에 저장될 수 있고, 상기 동작들을 수행하기 위해 필요한 매개변수들뿐만 아니라 상기 자동화된 어시스턴트(304) 및/또는 클라이언트 자동화된 어시스턴트(322)에 의해 수행될 수 있는 하나 이상의 동작들을 정의하는 데이터를 포함할 수 있다. 사용자는 상기 자동화된 어시스턴트(304) 및/또는 상기 자동화된 어시스턴트(304)의 지시에 따라 상기 자동화된 어시스턴트(304)를 통해 액세스 가능한 제3의 에이전트에 의해 수행되는 동작들에 대한 하나 이상의 매개변수를 할당하기 위한 하나 이상의 값을 지정할 수 있다. 상기 제3의 에이전트는 상기 자동화된 어시스턴트(304)를 제공한 당사자와 구별되는 다른 당사자에 의해 제공될 수 있다.
일부 실시예에서, 시스템(300)은 음성 발화에서 사용자에 의해 제시된 요청된 일련의 동작들을 재정렬하기 위한 하나 이상의 특징을 포함하는 서버 장치(302) 및/또는 컴퓨팅 장치(318)를 포함할 수 있다. 사용자가 자동화된 어시스턴트에 의해 수행되는 일련의 동작들을 요청한 것과 같은 음성 발화는 자동화된 어시스턴트 인터페이스(320)에서 수신되어 오디오 데이터로 변환 될 수 있다. 상기 오디오 데이터는 서버 장치(302) 및/또는 컴퓨팅 장치(318)에서 제공될 수 있는 입력 처리 엔진(306)에 의해 처리될 수 있다. 상기 오디오 데이터는 사용자가 요청한 각 동작을 식별하기 위해 텍스트로 변환되거나 처리될 수 있다. 일부 실시예에서, 상기 음성 발화에 기초한 오디오 데이터는 신경망 모델에 입력으로 제공될 수 있으며, 이는 사용자에 의해 요청된 동작 및/또는 동작의 순서를 나타내는 출력을 제공할 수 있다.
동작이 식별되었을 때, 상기 동작을 특징짓는 데이터는 상기 컴퓨터 장치(318)와 공유되거나, 또는 이용될 수 있으며, 동작 분류 엔진(324)에 의해 처리될 수 있다. 상기 동작 분류 엔진은 동작을 특징짓는 데이터를 수신하고 상기 데이터를 기반으로 동작에 대한 분류를 결정할 수 있다. 예를 들어, TV 시리즈 또는 노래 재생 요청은 연속 재생 동작이라고 하는 분류에 해당할 수 있다. 대안적으로, 또는 추가적으로, 날씨 보고 또는 경제 뉴스와 같이 인터넷으로부터의 정보 요청은 정보 동작에 대한 요청으로 언급되는 분류에 대응할 수 있다. 또한, 또는 대안적으로, 특정 장치의 설정을 변경하는 요청은 장치 설정 분류로 언급되는 분류에 대응할 수 있다. 일부 실시예에서, 하나 이상의 다른 동작들은 본 명세서에서 설명된 분류들에 제한되지 않고 각각 하나 이상의 다른 분류들에 따라 분류될 수 있다.
일부 실시예에서, 동작 분류 엔진(324)은 음성 발화를 통해 사용자에 의해 요청된 각 동작에 대한 분류를 결정할 수 있다. 일부 실시예에서, 상기 동작 분류는 특정 동작에 대한 하나 이상의 결정된 실행 특성에 기초 할 수 있다. 예를 들어, 사용자와 자동화된 어시스턴트 간의 추가 대화를 필요로 하는 동작은 실행 특성으로 적어도 하나의 대화 세션을 갖는 대화 개시 동작으로 분류될 수 있다. 추가적으로, 또는 대안적으로, 로컬 장치의 설정을 결정하고 수정하는 것을 필요로 하는 동작은, 적어도 상기 자동화된 어시스턴트가 상기 장치의 설정을 수정하기 위한 요청을 상기 로컬 장치로 전송하도록 하는 실행 특성을 갖는 동작에 기초하여 장치 설정을 변경하는 요청으로 분류될 수 있다. 각 분류는 상기 사용자에 의해 요청된 동작 분류를 특징짓는 데이터를 수신하고 적어도 상기 데이터에 기초하여 상기 동작들의 순서를 생성하는 동작 순서 엔진(326)에 전달될 수 있다. 예를 들어, 사용자가 음악의 연속 재생에 대응하는 제1동작 및 인터넷으로부터의 정보 요청에 대응하는 제2동작을 요청하는 경우, 상기 동작 분류 엔진(324)은 상기 사용자의 요청이 연속 재생 동작 및 정보 요청 동작을 포함하는 것으로 결정할 수 있다. 이러한 분류는 음악의 연속 재생을 제공하는 것보다 인터넷으로부터 정보를 제공하는 제2동작을 우선순위로 하는 동작 순서를 생성할 수 있는 동작 순서 엔진(326)에 제공 될 수 있다.
일부 실시예에서, 상기 동작 순서 엔진(326)은 동작 순서 모델(332)에 기초하여 요청된 동작 세트의 순서를 생성할 수 있다. 상기 동작 순서 모델(332)은 대응하는 사용자들로부터 사전 허가를 받아 과거 사용자 상호작용 데이터(336) 및/또는 과거 커뮤니티 상호작용 데이터(328)에 기초하여 훈련된 하나 이상의 신경망 모델이 될 수 있다. 예를 들어, 과거 사용자 상호 작용 데이터(336)는 사용자와 자동화된 어시스턴트(304) 사이의 상호작용을 특징짓는 데이터를 포함할 수 있다. 이러한 상호 작용은 사용자가 수행되어야 하는 여러 동작들에 대한 요청을 제공하고, 이후에 자동화된 어시스턴트(304)에 피드백을 제공하고, 및/또는 후속적으로 자동화된 어시스턴트(304)에 피드백을 제공하지 않은 상호작용을 포함할 수 있다. 피드백은 사용자가 상기 자동화된 어시스턴트(304)에 여러 동작들에 대한 실행 순서를 재배열하도록 명령한 후속 음성 발화를 포함할 수 있다. 예를 들어, 사용자가 이전에 "어시스턴트, 주변 잡음을 재생하고, 내일 알람을 설정해줘."와 같은 음성 발화를 제공했을 수 있다. 이에 응답하여, 상기 자동화된 어시스턴트(304)는 알람을 설정하기 위한 대화를 시작하기 이전에 주변 잡음의 재생을 초기화했을 수 있으며, 이는 사용자에게 우선하지 않을 수 있다. 따라서, 사용자는 "아니, 알람을 먼저 설정한 다음에 주변 잡음을 재생해줘."와 같은 음성 발화의 형태로 상기 자동화된 어시스턴트(304)에 피드백을 제공했을 수 있다. 이러한 피드백은 상기 사용자로부터 허가를 받아 시간이 지남에 따라 학습된 사용자 선호도에 따라 후속의 유사한 요청들의 순서가 수정될 수 있도록 상기 동작 순서 모델(332)을 훈련시키는데 사용될 수 있다.
훈련은 컴퓨팅 장치(318)의 작동, 컴퓨팅 장치 (318)의 상황 및/또는 컴퓨팅 장치(318)와 연관 될 수 있는 임의의 다른 정보를 특성화할 수 있는 클라이언트 데이터(334)에 기초 할 수 있다. 예를 들어, 클라이언트 데이터(334)는 컴퓨팅 장치(318)의 하나 이상의 애플리케이션(340)의 상태를 특성화할 수 있다. 이러한 방식으로, 동작 순서 모델(332)은 상기 사용자가 피드백을 제공했을 때 관련되었을 수 있는 임의의 다른 정보뿐만 아니라 사용자로부터의 피드백에 기초하여 상기 사용자의 선호도를 학습할 수 있다. 일부 실시예에서, 동작 순서 모델(332)에 의해 생성된 동작의 순서는 컴퓨팅 장치(318)의 상황에 기초할 수 있다. 예를 들어, 컴퓨팅 장치(318)에 의해 제공된 GPS 데이터는 사용자가 방금 집에 도착했음을 나타낼 수 있으며, 이어서 다른 데이터는 사용자가 "어시스턴트, 내 라운지 재생목록을 재생하고, 알람을 설정해줘."와 같은 음성 발화를 제공했음을 나타낼 수 있다. 이에 응답하여, 상기 자동화된 어시스턴트는 기상 알람을 설정하기 위해 사용자와 자동화된 어시스턴트 사이의 대화 세션을 시작하는 대신에, 라운지 음악 재생목록의 재생을 초기화하고, 백그라운드에서 상기 사용자의 집 보안 경보를 켤 수 있다. 만일 상기 사용자가 적어도 임계 시간 동안 집에 있는 것으로 결정되면, 이러한 결과적인 동작 순서는 달라질 수 있으며, 이는 동작 순서 모델(332)에 의해 결정될 수 있고, 이는 상기 사용자가 일반적으로 잠을 자기 위해 침대에 누워있는 시간에 기초하여 결정될 수 있다. 예를 들어, 사용자가 일반적으로 잠을 자기 위해 침대에 누워있는 시간 내에 상기 사용자는 집 또는 방에 있는 것으로 결정되고, 상기 사용자가 "어시스턴트, 내 라운지 음악 재생목록을 재생하고, 알람을 설정해줘."와 같은 음성 발화를 제공하면, 상기 자동화된 어시스턴트는 기상 알람을 설정하기 위한 대화를 초기화하여 기상 알람의 설정을 완료할 수 있으며, 그 다음에 라운지 음악 재생목록의 재생을 초기화할 수 있다.
일부 실시예에서, 하나 이상의 동작 순서 모델(332)은 컴퓨팅 장치(318)의 사용자에 대응하는 과거 사용자 상호작용 데이터(336) 및 자동화된 어시스턴트의 하나 이상의 다른 사용자들에 대응하는 과거 커뮤니티 상호작용 데이터(328)에 따라 에 따라 훈련될 수 있다. 동작 순서 모델(332)은 상기 동작 순서 모델(332)이 제1순서에 따라 사용자가 요청한 동작들의 분류를 입력으로 수신할 수 있고, 상기 사용자에 의해 요청된 동작들에 대한 제2순서를 출력으로 제공할 수 있도록 훈련되고 구성될 수 있다. 일부 실시예에서, 과거 커뮤니티 상호 작용 데이터(328)는 사용자들과 그들 각각의 자동화된 어시스턴트 사이의 상호작용을 특성화할 수 있으며, 상기 사용자들이 서로 다른 동작 분류로 수행되도록 요청한 상호작용들을 구체적으로 식별할 수 있다. 대안적으로, 또는 추가적으로, 과거 커뮤니티 상호 작용 데이터(328)는 또한 동작들의 특정 분류가 수행되도록 요청할 때 사용자에 의해 만들어진 조건문을 특성화할 수 있다. 이러한 방식으로, 상기 동작 순서 모델(332)은 적어도 특정 동작 분류에 대한 다른 실행 순서와 비교하여, 동작의 특정한 분류에 대한 실행 순서에 대한 사용자 선호도의 경향을 인식 할 수 있다.
예를 들어, 동작 순서 모델(332)의 훈련은 연속적인 재생 동작 전에 정보 동작에 대한 요청이 완료되어야 하는 다수의 사용자들의 선호도를 반영할 수 있다. 대부분의 사용자들의 선호도는 과거 커뮤니티 상호작용 데이터(328)를 처리함으로써 그리고 상기 사용자들이 동일한 음성 발화에서 요청했던 정보 동작 및 연속 재생 동작에 대한 요청을 대다수의 시간을 결정함으로써 식별될 수 있으며, 대다수의 사용자들은 또한 그 다음에 조건문을 포함할 수 있다. 예를 들어, 대다수의 사용자들 또는 적어도 다수의 사용자들은 "어시스턴트, 내일 날씨를 말해줘, 그리고 내 아침 재생목록을 재생해줘."와 같은 음성 발화를 제공했을 수 있다. 다수의 사용자들은 이러한 두 개의 다른 동작 분류를 갖는 조건문을 제공했기 때문에, 이러한 조건문은 동작 훈련 모델(332)의 훈련에 영향을 미칠 수 있다. 그 결과, 상기 컴퓨팅 장치(318)의 사용자가 두 개의 다른 동작 분류가 수행되도록 요청하는 유사한 음성 발화를 제공할 때, 상기 자동화된 어시스턴트(304)는 동작의 실행 순서가 과거 커뮤니티 상호작용 데이터(328)와 대응하는 사용자들의 선호도에 따라 수행될 수 있도록 상기 동작 순서 모델(332)을 사용할 수 있다. 그러나, 사용자가 음성 발화 내에서 조건문을 제공하는 경우, 조건문은 동작 순서 모델(332)로부터 결정된 동작 순서보다 동작 실행 순서를 지정하는 규칙으로서 우선순위를 가질 수 있다.
일부 실시예에서, 동작 순서는 상기 자동화 된 어시스턴 (304)에 액세스 가능한 다수의 이용 가능한 장치에 기초하여 결정될 수 있다. 예를 들어, 동작 순서 모델 (332)은 컴퓨팅 장치(318)와 로컬 네트워크에 연결되고, 클라이언트 자동화된 어시스턴트(322)를 통해 액세스 가능한, 및/또는 그렇지 않은 경우 컴퓨팅 장치(318)와 연관된 다른 컴퓨팅 장치들에 대한 식별자를 입력으로서 수신할 수 있다. 사용자에 의해 요청된 일부 동작은 하나 이상의 다른 컴퓨터 장치에서 수행될 수 있기 때문에, 상기 자동화된 어시스턴트(304)는 컴퓨팅 장치가 이용 가능한지에 기초하여 특정 동작들을 특정 순서로 특정 컴퓨터 장치에 위임할 수 있다. 예를 들어, 사용자는 집에 스마트 온도 조절기, 스마트 전구 및 자동화된 어시스턴트 장치를 가질 수 있다. 또한 사용자는 "어시스턴트, 온도 조절기를 켜고, 조명을 그고, 야간 재생목록을 재생하고, 음식 배달을 주문해줘."와 같은 여러 작업을 수행하라는 요청을 포함하는 음성 발화를 제공 할 수 있다.
상기 음성 발화에 대응하는 오디오 데이터는 상기 사용자에 의해 요청되었던 이전의 동작들에 대한 분류를 결정하기 위해 처리될 수 있다. 스마트 온도 조절기, 스마트 전구 및 어시스턴트 장치에 대한 식별자뿐만 아니라 분류에 대한 식별자는 상기 동작 순서 모델(332)에 입력으로 제공될 수 있다. 예를 들어, 상기 자동화된 어시스턴트(304)는 상기 스마트 전구에 밝기를 조절하는 것, 상기 온도 조절기에 집의 온도를 조절하는 것을 위임할 수 있고, 상기 자동화된 어시스턴트 장치에 남은 동작을 위한 실행 순서를 제공할 수 있다. 특히, 상기 자동화된 어시스턴트 장치에 대한 작업 순서는 야간 재생 목록을 재생하는 것보다 음식 배달을 주문하는 것을 우선순위로 지정할 수 있다.
상기 자동화된 어시스턴트 장치에 대한 이러한 동작 순서는 과거 사용자 상호작용 데이터(336), 과거 커뮤니티 상호작용 데이터(328), 및/또는 상기 자동화된 어시스턴트(304)에 대한 분류 선호도에 기초할 수 있다. 예를 들어, 상기 자동화된 어시스턴트(304)는 야간 플레이리스트 재생과 같은 연속 재생 동작보다 음식 배달 주문과 같은 대화 개시동작을 우선순위로 할 수 있다. 그 결과, 상기 자동화된 어시스턴트(304)가 상기 자동화된 어시스턴트 장치에 설정된 동작 순서를 가짐에도 불구하고, 다른 요청된 동작들은 각각의 다른 장치에서 동시에 수행될 수 있다. 다시 말해, 자동 보조 장치에 설정된 동작 순서의 첫 번째 동작은 상기 스마트 전구에 대한 동작 설정 및 상기 온도 조절기에 대한 동작 설정으로 동시에 수행될 수 있다. 이러한 방식으로, 상기 자동화된 어시스턴트(304) 및/또는 동작 순서 모델(332)은 동시에 실행하기 위해 여러 다른 장치들에 대한 동작 순서를 생성할 수 있다.
도 4는 적어도 훈련된 머신 러닝 모델을 사용한 프로세싱에 따라 자동화된 어시스턴트가 수행할 동작들의 순서를 결정하는 방법(400)을 나타낸다. 상기 방법(400)은 하나 이상의 컴퓨팅 장치, 애플리케이션, 및/또는 자동화된 어시스턴트와 상호작용 할 수 있는 임의의 다른 장치 또는 모듈에 의해 수행될 수 있다. 상기 방법(400)은 음성 발화가 검출되었는지 여부를 결정하는 동작(402)을 포함할 수 있다. 상기 음성 발화는 사용자에 의해 컴퓨팅 장치의 자동화된 어시스턴트 인터페이스에 제공될 수 있으며, 상기 음성 발화는 장치간 전송 가능한 데이터로 변환될 수 있다. 예를 들어, 자동화된 어시스턴트 인터페이스가 마이크인 경우, 상기 음성 발화는 오디오 데이터로 변환된 다음 추가 프로세싱을 위해 서버 장치에 전송된다. 일부 실시예에서, 상기 음성 발화가 제공되었는지 여부의 결정은 상기 사용자가 응답을 제공하거나 또는 특정 동작을 수행하도록 상기 자동화된 어시스턴트를 호출하려는 의도가 있었는지를 결정하는 단계를 포함할 수 있다. 상기 작동(402)은 주기적으로 결정될 수 있으며, 음성 발화가 감지되면, 상기 방법(400)은 작동(404)으로 나아갈 수 있다.
상기 작동(404)은 음성 발화를 통해 사용자에 의해 요청된 동작들을 식별하는 단계를 포함 할 수 있다. 상기 사용자는 상기 자동화된 어시스턴트에 의해 수행되어야 하는 하나 이상의 동작들에 대한 하나 이상의 요청을 포함하는 음성 발화로 구현할 수 있다. 상기 음성 발화에 해당하는 데이터가 처리되면, 상기 데이터는 텍스트로 변환되어, 분석되고, 나아가 상기 사용자가 수행되도록 요청한 동작들을 결정하도록 처리도리 수 있다. 일부 실시예에서, 상기 음성 발화에 기초하여 생성된 데이터는 출력 데이터를 생성하기 위해 머신 러닝 모델을 사용하여 처리될 수 있으며, 그 다음에 상기 음성 발화를 통해 상기 사용자에 의해 요청된 하나 이상의 동작들을 식별할 수 있다. 머신 러닝 모델은 상기 사용자가 상기 자동화된 어시스턴트와 상호작용 해오면서 생성된 데이터 및/또는 상기 자동화된 어시스턴트의 제공자에 의해 생성된 데이터를 사용하여 훈련될 수 있다.
상기 방법(400)은 음성 발화와 연관된 문맥 데이터에 액세스하는 선택적 작동(406)을 더 포함할 수 있다. 상기 상황 별 데이터는 사용자, 자동화된 어시스턴트 및/또는 사용자가 액세스 할 수 있는 임의의 다른 장치(들)와 관련된 하나 이상의 컴퓨팅 장치의 작동에 기초할 수 있다. 예를 들어, 상황 별 데이터는 상기 자동화된 어시스턴트에 액세스 할 수 있는 하나 이상의 장치의 작동 상태를 식별할 수 있다. 대안적으로, 또는 추가적으로, 상기 상황 별 데이터는 사용자가 음성 발화를 제공한 시기 및 장소와 같은 사용자의 환경과 관련된 환경적 특성을 특성화할 수 있다. 대안적으로, 또는 추가적으로, 상황 별 데이터는 사용자의 일정, 사용자가 있는 위치의 점유, 사용자가 음성 발화를 제공한 시간, 사용자 또는 다른 사람에 의해 제공된 하나 이상의 이전 음성 발화, 사용자가 음성 발화를 제공했을 때 하나 이상의 장치에 의해 수행되도록 예정된 동작들, 및/또는 사용자의 상황에 관련된 임의의 다른 정보를 특성화할 수 있다.
상기 방법(400)은 동작들에 대한 명시적 순서가 상기 음성 발화에 요청되었는지 여부를 결정하는 단계에 대한 작동(408)을 더 포함할 수 있다. 상기 동작들에 대한 명시적인 순서는 상기 동작들이 실행되는 순서를 나타내는 명시적인 문장을 제공하는 사용자에 의해 요청될 수 있다. 예를 들어, 사용자에 의해 제공되는 음성 발화 내에서, 사용자는 제1동작을 실행한 다음 제2동작을 실행하도록 요청할 수 있다. 조건문 "그리고 나서"는 제1동작의 완료 및/또는 적어도 제1동작의 초기화에 기초하는 제2동작의 수행의 우발성에 대한 명시적인 요청으로 해석될 수 있다. 만일 사용자가 요청된 동작에 대한 명시적인 명령을 제공하지 않은 경우, 상기 방법(400)은 작동(410)으로 나아갈 수 있다.
상기 작동(410)은 훈련된 머신 러닝 모델에 대한 입력으로서 식별된 동작들, 그리고 선택적으로, 상황 데이터를 특성화하는 데이터를 제공하는 단계를 포함할 수 있다. 상기 입력은 상기 사용자에 의한 음성 발화에서 요청된 동작들의 실행 순서를 특징짓는 출력을 생성하기 위해 훈련된 머신 러닝 모델을 사용하여 처리될 수 있다. 즉, 동작이 음성 발화에서 제1순서로 설명될 수 있더라도, 상기 훈련된 머신 러닝 모델을 사용하여 생성된 출력은, 상기 자동화된 어시스턴트의 명령에 따라 제2실행 순서로 수행되도록 상기 순서를 재정렬할 수 있다. 따라서, 상기 식별된 동작들, 그리고 선택적으로, 상황 데이터를 특징짓는 입력을 처리하기 위해 훈련된 머신 러닝 모델을 사용하는 것에 응답하여, 출력 데이터는 동작들을 실행하기 위한 순서를 특징짓도록 생성될 수 있다.
상기 방법(400)은 훈련된 머신 러닝 모델을 사용하여 생성된 출력에 기초하여 동작에 대한 실행 순서를 결정하는 작동(412)을 더 포함할 수 있다. 훈련된 머신 러닝 모델을 사용하여 결정된 실행 순서는 대기 시간을 줄이기 위해 생성될 수 있고, 따라서, 메모리 및 처리 대역폭과 같은 계산 리소스의 낭비를 없앨 수 있다. 또한, 네트워크 응답성에 따른 동작들은 네트워크 리소스의 가용성에 따라 우선순위가 될 수 있기 때문에, 음성 발화 수신과 작업 실행 사이의 지연 시간을 줄임으로써, 네트워크 대역폭을 유지될 수 있다. 예를 들어, 머신 러닝 모델의 훈련에 기초하여, 상기 머신 러닝 모델은 최대 네트워크 지연 시간을 나타내는 특정 동작을 경험적으로 최소 네트워크 지연 시간으로 수행되었던 동작들보다 낮은 순위에 두도록 훈련될 수 있다. 이러한 머신 러닝 모델의 훈련은 음성을 제공한 사용자와 자동화된 어시스턴트 간의 상호작용을 특징짓는 데이터를 기반으로 할 수 있다. 추가적으로, 또는 대안적으로, 머신 러닝 모델의 훈련은 하나 이상의 다른 사용자와 그들 자신의 자동화된 어시스턴트 사이의 상호작용을 특징짓는 데이터에 기반할 수 있다. 이러한 방식으로, 훈련된 머신 러닝 모델은 제3의 제공자 또는 제3의 에이전트에 의존하는 어떤 동작이 다른 사용자들이 그러한 동작이 실행되도록 요청하였을 때 지연 시간이 더 길어졌는지 또는 더 짧아졌는지 여부를 나타낼 수 있다.
일부 실시예에서, 상기 작업(400)은 사용자에 의해 제공된 명확한 순서 및/또는 순서를 결정하기 위해 사용되었던 임의의 상황 데이터에 따라, 그렇지 않은 경우 이에 기초하여, 머신 러닝 모델의 훈련에 관하여 선택적인 작동(414)을 더 포함할 수 있다. 즉, 사용자가 작업에 대한 명시적 순서를 제공한 경우, 상기 명시적 순서는 머신 러닝 모델을 추가로 훈련할 때 사용되는 데이터로 특성화될 수 있다.
상기 방법(400)은 결정된 순서에 따라 동작의 실행을 일으키는 작동(416)을 더 포함할 수 있다. 예를 들어, 자동화된 어시스턴트는 순서에서 지시하는 제1동작이 정보 검색인 경우에 웹 검색을 초기화할 수 있다. 대안적으로, 자동화된 어시스턴트는 결정된 순서에서 제1동작이 장치 설정에 대한 변경을 포함할 때, 제3의 장치가 작동 설정을 조정하게 할 수 있다. 일부 실시예에서, 순서가 사용자에 의해 명시적으로 제공되는 경우, 상기 방법(400)은 상기 동작(408) 및/또는 상기 동작(414)에서 상기 동작(416)으로 나아갈 수 있다. 이러한 방식으로, 상기 자동화된 어시스턴트는 사용자가 명시적 순서를 제공하는 경우 상기 명시적 순서에 의존할 수 있으며, 상기 사용자가 요청된 동작들에 대해 명시적 순서를 제공하지 않은 경우, 머신 러닝 모델을 사용하여 생성된 출력에 기초하여 별도로 결정된 순서에 의존할 수 있다.
일부 실시예에서, 상기 방법(400)은 동작의 실행 순서에 관하여, 피드백이 수신되었는지를 여부를 결정하는 단계의 작동(418)을 포함한다. 피드백은 동작의 실행 이전, 동안 및/또는 이후에 사용자에 의해 제공되는 하나 이상의 입력을 포함할 수 있다. 예를 들어, 자동화된 어시스턴트 장치가 사용자에 의해 요청된 모든 동작들을 특정 순서에 따라 실행을 완료하였을 때, 상기 사용자는 "어시스턴트, 다음에는 내 알람을 먼저 설정해줘."와 같은 음성 발화를 제공할 수 있다. 앞서 언급된 음성 발화는 자동화된 어시스턴트에 의해 처리되어, 피드백으로 결정되고, 이는 머신 러닝 모델을 훈련하는데 활용 될 수 있는 훈련 데이터에 포함될 수 있다. 일부 실시예에서, 동작의 실행 동안 사용자에 의해 피드백이 제공될 수 있다. 예를 들어, 사용자는 "어시스턴트, 내가 음식 주문을 끝낼 때까지 내 음악 재생을 늦춰줘."와 같은 음성 발화를 제공할 수 있다. 이에 응답하여, 자동화된 어시스턴트는 사용자에 의해 제공된 피드백에 따라 진행중인 및/또는 보류중인 작업들을 수정할 수 있다. 나아가, 피드백은 요청된 일련의 동작들의 순서에 대해 더 적합한 순서를 제공하도록 머신 러닝 모델을 추가로 조정하기 위해 추가로 머신 러닝 모델을 훈련시키기 위한 훈련 데이터로서 제공될 수 있는 데이터에 의해 특성화될 수 있다. 사용자에 의해 피드백이 제공되면, 상기 방법(400)은 피드백에 따라 머신 러닝 모델을 훈련시키는 단계의 작동(420)으로 나아갈 수 있다. 적어도 동작의 실행과 관련하여 피드백이 사용자로부터 수신되지 않은 경우, 상기 방법(400)은 임의의 다른 음성 발화가 자동화된 어시스턴트에 의해 수신되었는지 여부를 검출하기 위한 작동(402)으로 나아갈 수 있다.
도 5는 동작들의 분류에 따라 자동화된 어시스턴트에 의해 수행되도록 요청된 동작들의 순서를 배열하는 방법(500)을 나타낸다. 상기 방법(500)은 하나 이상의 컴퓨팅 장치, 애플리케이션 및/또는 자동화된 어시스턴트와 상호작용할 수 있는 임의의 다른 장치 또는 모듈에 의해 수행될 수 있다. 상기 방법(500)은 음성 발화가 검출되었는지 여부를 결정하는 작동(502)을 포함할 수 있다. 상기 음성 발화는 자동화된 어시스턴트에 대한 액세스를 제공하는 컴퓨팅 장치 및/또는 자동화된 어시스턴트가 액세스 가능한 컴퓨팅 장치와 통신하는 서버 장치에서 감지될 수 있다. 음성 발화는 사용자에 의해 마이크와 같은 자동화된 어시스턴트 인터페이스에 제공될 수 있으며, "어시스턴트, 음식 배달을 주문하고, 조명을 꺼주고, 오늘 밤 TV에 나오는 내용을 알려줘."와 같은 자연어를 포함 할 수 있다.
음성 발화가 검출되었다는 결정에 응답하여, 상기 방법(500)은 상기 음성 발화를 통해 사용자에 의해 요청된 하나 이상의 동작을 식별하는 작동(504)으로 나아갈 수 있다. 구체적으로, 음성 발화의 자연어 내용을 결정하기 위해, 상기 음성 발화를 포함하는, 그렇지 않은 경우 특성화하는 오디오 데이터가 처리될 수 있다. 자연어 내용은 상기 음성 발화를 통해 사용자에 의해 요청된 하나 이상의 동작들을 식별하기 위해 분석되고 처리될 수 있다. 예를 들어, 전술한 음성 발화에 해당하는 오디오 데이터가 처리되면, 음식 배달 동작, 조명 설정 동작, 및 텔레비전 일정을 요청하는 동작이 식별될 수 있다.
일부 실시예에서, 상기 방법(500)은 선택적으로 조건문이 음성 발화에 포함되었는지 여부를 결정하는 작동(506)을 포함할 수 있다. 조건문은 요청된 동작들 중 하나 이상이 다른 일의 발생을 조건으로 하는 것을 나타내는 사용자에 의해 제공된 구 또는 단어일 수 있다. 예를 들어, 사용자는 다른 행동의 완료에 의존하는 우발성과 같은 동작의 시간적 우발성을 설명하는 구를 제공 할 수 있습니다. 대안적으로, 또는 추가적으로, 사용자는 사용자의 상황, 하나 이상의 장치의 상태, 사용자와 관련된 애플리케이션 데이터 및/또는 다음과 같은 자동화된 어시스턴트에 의해 수행되는 동작과 관련된 기타 데이터를 기반으로 충족될 수 있는 조건을 설명하는 단어 또는 구를 제공할 수 있다.
일부 실시예에서, 음성 발화가 하나 이상의 조건문을 포함하거나 포함하지 않을 때, 상기 방법(500)은 작동(508)으로 나아갈 수 있다. 상기 작동(508)은 식별된 동작들 각각의 동작 분류를 결정하는 것을 포함할 수 있다. 상기 분류는 텍스트 처리 모듈의 출력에 기초하여 결정될 수 있으며, 이는 상기 음성 발화의 자연어 상황을 반영하는 텍스트 데이터를 제공할 수 있다. 추가적으로, 또는 대안적으로, 상기 음성 발화를 기초로 하는 오디오 데이터 또는 다른 데이터는 훈련된 머신 러닝 모델에 제공될 수 있고, 상기 훈련된 머신 러닝 모델의 출력은 상기 음성 발화를 통해 요청된 각 동작들의 각 분류를 결정하는데 사용될 수 있다. 상기 분류가 식별되면, 상기 방법(500)은 작동(510)으로 나아갈 수 있다.
상기 동작 (510)은 식별된 동작에 대한 실행 순서를 결정하는 것을 포함할 수 있다. 식별된 동작의 실행 순서를 결정하는 것은 적어도 부분적으로 식별된 동작들의 각 동작에 대한 분류에 기초할 수 있다. 예를 들어, 음성 발화에서 사용자에 의해 요청된 여러 동작들 중 하나의 동작은 연속 미디어 재생에 대한 요청일 수 있다. 동작에 대한 이러한 분류는 정보를 제공하기 위한 동작(예를 들어, 날씨 보고를 제공하는 것)에 비해 낮은 우선 순위를 가질 수 있다. 대안적으로, 또는 추가적으로, 장치 설정 변경 요청으로 분류되는 동작은 연속 미디어 재생 분류에 비해 더 높은 우선순위를 가질 수 있으나, 정보 분류에 대한 요청에 비해 낮은 우선순위를 갖는다. 일부 실시예에서, 식별된 동작에 대한 실행 순서를 결정하는 것은 적어도 훈련된 머신 러닝 모델의 출력에 기초하여 수행될 수 있다. 훈련된 머신 러닝 모델은 적절한 작업 순서를 나타내는 출력을 제공하도록 조정될 수 있다. 훈련된 머신 러닝 모델은 사용자와 자동화된 어시스턴트 간의 상호작용을 특징짓는 데이터를 사용하여 훈련될 수 있다. 대안적으로, 또는 추가적으로, 훈련된 머신 러닝 모델은 음성 발화를 제공한 사용자와 직접적으로 관련이 없는 여러 다른 사용자 간의 상호작용을 특징짓는 데이터를 사용하여 훈련될 수 있다.
상기 방법(500)은 결정된 순서에 따라 동작의 실행을 일으키는 작동(514)을 더 포함한다. 상기 결정된 순서는 적어도 사용자가 작동(512)에 따라 조건문을 제공한 것으로 결정된 경우, 사용자에 의해 명시적으로 제공될 수 있다. 대안적으로, 또는 추가적으로, 식별된 동작에 대한 실행 순서는 하나 이상의 머신 러닝 모델의 출력, 사용자의 상황을 특징짓는 상황 데이터 및/또는 일련의 동작들의 우선순위가 기초할 수 있는 기타 다른 데이터에 기초할 수 있다.
일부 실시예에서, 상기 방법(500)은 실행 순서에 관한 피드백이 수신되었는지 여부를 결정하는 동작(516)을 선택적으로 포함할 수 있다. 본 명세서에서 설명된 바와 같이, 피드백은 식별된 동작의 실행 전, 동안 및/또는 이후에 사용자에 의해 제공되는 또 다른 음성 발화에 기초할 수 있다. 예를 들어, 피드백은 특정 동작 분류에 대한 사용자의 선호도가 동작의 다른 분류보다 높은 우선순위를 갖도록 특성화할 수 있다. 식별된 동작의 실행 전, 동안 및/또는 이후에 피드백이 수신된 것으로 결정되면, 상기 방법(500)은 피드백에 따라 머신 러닝 모델을 훈련시키는 작동(518)으로 진행할 수 있다. 즉, 피드백은 하나 이상의 사용자의 선호도에 따라 머신 러닝 모델을 업데이트하기 위해, 머신 러닝 모델에 제공될 수 있는 훈련 데이터를 생성하기 위해 사용자로부터 수신될 수 있다. 이러한 방식으로, 사용자가 동일한 피드백을 반복적으로 제공할 필요가 없기 때문에 계산 리소스가 보존될 수 있다. 오히려, 사용자로부터 피드백이 시간을 덜 들이고 제공될 필요가 있기 때문에 실행 순서와 관련된 선호도는 시간이 지남에 따라 학습될 수 있다. 네트워크 대역폭 및 메모리와 같은 특정 계산 리소스는 컴퓨팅 장치가 음성 발화를 덜 자주 처리할 때 보존될 수 있다. 피드백이 사용자에 의해 제공되었는지 여부에 관계없이, 상기 방법(500)은 음성 발화가 검출되었는지를 결정하는 작동(502)으로 되돌아 갈 수 있다. 이러한 방식으로, 상기 방법(500)은 사용자 선호도의 지속적인 학습을 허용하는 동시에 사용자가 요청을 반복적으로 수정하거나 이전 요청과 관련하여 자동화 된 어시스턴트에게 피드백을 제공해야 할 때 발생할 수 있는 불필요한 처리 및 불필요한 네트워크 전송을 제거할 수 있다.
도 6은 예시적인 컴퓨터 시스템(610)의 블록도이다. 컴퓨터 시스템(610)은 일반적으로 버스 서브 시스템(612)을 통해 다수의 주변 장치와 통신하는 적어도 하나의 프로세서(614)를 포함한다. 이러한 주변 장치는, 예를 들어, 메모리 (625) 및 파일 저장 서브 시스템(626), 사용자 인터페이스 출력 장치(620), 사용자 인터페이스 입력 장치(622) 및 네트워크 인터페이스 서브 시스템(616)을 포함하는 저장 서브 시스템(624)을 포함할 수 있다. 상기 입력 및 출력 장치는 사용자와 컴퓨터 시스템(610)의 상호작용을 허용한다. 네트워크 인터페이스 서브 시스템(616)은 외부 네트워크에 대한 인터페이스를 제공하고, 다른 컴퓨터 시스템의 대응하는 인터페이스 장치에 연결된다.
사용자 인터페이스 입력 장치(622)는 키보드, 마우스, 트랙볼, 터치 패드 또는 그래픽 태블릿과 같은 포인팅 장치, 스캐너, 디스플레이에 통합 된 터치 스크린, 음성 인식 시스템과 같은 오디오 입력 장치, 마이크 및 / 또는 다른 유형의 입력 장치를 포함할 수 있다. 일반적으로, "입력 장치"라는 용어의 사용은 모든 가능한 유형의 장치 및 컴퓨터 시스템(610) 또는 통신 네트워크에 정보를 입력하는 방법을 포함하도록 의도된다.
사용자 인터페이스 출력 장치(620)는 디스플레이 서브 시스템, 프린터, 팩스 기계, 또는 오디오 출력 장치와 같은 비시각적 디스플레이를 포함할 수 있다. 디스플레이 서브 시스템은 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평판 장치, 프로젝션 장치, 또는 가시적 이미지를 생성하기 위한 다른 메커니즘을 포함 할 수 있습니다. 디스플레이 서브 시스템은 또한 오디오 출력 장치를 통해 비시각적 디스플레이를 제공할 수 있다. 일반적으로, "출력 장치"라는 용어의 사용은 모든 가능한 유형의 장치 및 컴퓨터 시스템(610)에서 사용자 또는 다른 기계 또는 컴퓨터 시스템으로 정보를 출력하는 방법을 포함하도록 의도된다.
저장 서브 시스템(624)은 본 명세서에 설명 된 모듈의 일부 또는 전부의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 예를 들어, 저장 서브 시스템(624)은 상기 방법(400), 방법(500)의 선택된 양상을 수행하고 및/또는 클라이언트 장치(124), 클라이언트 자동화된 어시스턴트(126), 서버 장치(120), 서버 자동화된 어시스턴트(122), 클라이언트 장치(214), 클라이언트 자동화된 어시스턴트(216), 서버 장치(224), 서버 자동화된 어시스턴트(226), 서버 장치(302), 컴퓨팅 장치(318), 자동화 어시스턴트(304), 클라이언트 자동화된 어시스턴트(322), 동작 분류 엔진(324), 동작 명령 엔진(326), 동작 실행 엔진(330), 및/또는 동작 순서 모델(332) 중 하나 이상을 구현하는 로직을 포함 할 수 있다.
이러한 소프트웨어 모듈은 일반적으로 프로세서(614)에 의해 단독으로 또는 다른 프로세서와 결합하여 실행된다. 저장 서브 시스템(624)에서 사용되는 메모리(625)는 프로그램 실행 동안 명령어 및 데이터를 저장하기 위한 메인 랜덤 액세스 메모리(RAM)(630) 및 고정 명령어가 저장되는 읽기 전용 메모리(ROM) (632)를 포함하는 다수의 메모리를 포함할 수 있다. 파일 저장 서브 시스템(626)은 프로그램 및 데이터 파일에 대한 영구 저장을 제공할 수 있으며, 하드 디스크 드라이브, 플로피 디스크 드라이브와 관련된 이동식 미디어, CD-ROM 드라이브, 광학 드라이브 또는 이동식 미디어 카트리지를 포함할 수 있다. 특정 구현의 기능을 구현하는 모듈은 저장 서브 시스템(624)의 파일 저장 서브 시스템(626)에 의해 또는 프로세서(들) (614)에 의해 액세스 가능한 다른 기계에 저장될 수 있다.
버스 서브 시스템(612)은 컴퓨터 시스템(610)의 다양한 구성 요소 및 서브 시스템이 의도한대로 서로 통신할 수 있도록 하는 메커니즘을 제공한다. 버스 서브 시스템(612)이 단일 버스로서 개략적으로 도시되어 있지만, 버스 서브 시스템의 대안적인 구현은 다중 버스를 사용할 수 있다.
컴퓨터 시스템(610)은 워크 스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서버 팜, 또는 임의의 다른 데이터 처리 시스템 또는 컴퓨팅 장치를 포함하는 다양한 유형일 수 있다. 컴퓨터 및 네트워크의 끊임없이 변화하는 특성으로 인해, 도 6에 도시 된 컴퓨터 시스템(610)의 설명은 일부 구현을 설명하기 위한 특정 예로서만 의도됩니다. 컴퓨터 시스템(610)의 많은 다른 구성은도 6에 도시 된 컴퓨터 시스템보다 더 많거나 적은 구성 요소를 가질 수 있다.
여기에 설명된 시스템은 사용자(또는 본 명세서에서 "참여자"라고도 함)에 대한 개인정보를 수집하거나, 또는 개인 정보를 사용할 수 있고, 사용자들은 프로그램 또는 특징들이 사용자 정보(예를 들어, 사용자의 소셜 네트워크, 사용자의 소셜 활동, 직업, 사용자의 선호도, 또는 사용자의 현재 지리적 위치)를 수집하는지 여부 또는 사용자에게 더 관련이 있을 수 있는 콘텐츠 서버로부터 콘텐츠를 수신하였는지 여부 및/또는 방법을 제어할 수 있는 기회가 제공될 수 있다. 또한, 특정 데이터는 저장 또는 사용되기 전에 하나 이상의 방법으로 처리되어 개인 식별 정보가 제거될 수 있다. 예를 들어, 사용자에 대한 개인 식별 정보를 확인할 수 없도록 사용자의 신원을 처리하거나, 사용자의 특정 지리적 위치가 결정될 수 없도록 하기 위해 지리적 위치 정보(예를 들어, 도시, 우편 번호 또는 주 수준)를 획득한 사용자의 지리적 위치를 일반화 할 수 있다. 따라서, 사용자는 사용자에 대한 정보 수집 및/또는 사용 방법을 제어할 수 있다.
여러 실시예가 본 명세서에 개시되고 도시되었지만, 기능을 수행 및/또는 결과를 획득 및/또는 본 명세서에 개시된 하나 또는 하나 이상의 이점을 얻기 위한 다양한 다른 수단 및/또는 구조들이 사용될 수 있으며, 각각의 이러한 변형 및/또는 수정은 본 명세서에 개시된 실시예의 범위 내에 있는 것으로 간주된다. 보다 일반적으로, 본 명세서에 개시된 모든 파라미터, 수치, 재료 및 배치는 예시적인 것을 의미하며 실제 파라미터, 수치, 재료 및/또는 배치는 교시가 사용되는 애플리케이션 또는 애플리케이션에 따라 달라진다. 당업자는 단지 일상적인 실험을 사용하여 본 명세서에 개시된 특정 실시예에 대한 많은 등가물을 인식하거나 확인할 수 있을 것이다. 따라서, 전술한 실시예는 단지 예로서 제시된 것이며, 첨부된 청구 범위 및 그 균등물의 범위 내에서 실시예가 구체적으로 설명되고 청구된 것이 아닌 다른 방법으로 실행될 수 있다는 것을 이해해야 한다. 본 개시 내용의 실시예는 본 명세서에 개시된 각각의 개별적인 특징, 시스템, 물품, 재료, 키트 및/또는 방법에 관한 것이다. 또한, 이러한 특징, 시스템, 물품, 재료, 키트 및/또는 방법이 상호 모순되지 않는 경우, 이러한 특징, 시스템, 물품, 재료, 키트 및/또는 방법의 임의의 조합은 본 개시의 범위에 포함된다.

Claims (24)

  1. 하나 이상의 프로세서에 의해 구현되는 방법으로서,
    사용자의 음성 발화를 특징짓는 오디오 데이터를 수신하는 단계, 상기 음성 발화는 자동화된 어시스턴트를 통해 수행될 여러 동작들에 대한 요청을 포함하고, 상기 음성 발화는 컴퓨팅 장치의 자동화된 어시스턴트 인터페이스에서 수신되며;
    상기 음성 발화를 특징짓는 오디오 데이터에 기초하여, 상기 사용자에 의해 요청되어 상기 자동화된 어시스턴트를 통해 수행될 여러 동작들 중 각 동작을 식별하는 단계, 상기 수행될 여러 동작들에 대한 요청은 제 1 동작 순서에 따라 상기 음성 발화에서 명시되며;
    상기 여러 동작들 중 각 동작을 식별함에 기초하여, 상기 여러 동작들 중 각 동작에 대한 실행 특성을 결정하는 단계, 상기 여러 동작들 중 소정 동작의 특정한 실행 특성은 상기 여러 동작들이 하나 이상의 컴퓨팅 장치에 의해 상기 제 1 동작 순서에 따라 실행될 때 상기 여러 동작들에 대한 실행의 시간적 측면에 영향을 미치며, 그리고 상기 여러 동작들 중 각 동작의 실행 특성을 결정하는 단계는 상기 컴퓨팅 장치 및/또는 별도의 컴퓨팅 장치에서 상기 여러 동작들 중 하나 이상의 동작들에 대한 과거 실행들에 기초하여 생성된 데이터에 액세스하는 단계를 포함하고;
    상기 여러 동작들 중 상기 소정 동작의 특정한 실행 특성에 기초하여, 상기 여러 동작들을 실행하기 위한 제 2 동작 순서를 결정하는 단계, 제 2 동작 순서는 하나 이상의 컴퓨팅 장치에 의해 실행될 때 상기 하나 이상의 컴퓨팅 장치가 상기 여러 동작들의 실행의 다른 시간적 측면을 나타내게 하며; 그리고
    상기 제 2 동작 순서를 결정하는 단계에 기초하여, 상기 자동화된 어시스턴트가 상기 제 2동 작 순서에 따라 상기 여러 동작들 중 하나 이상의 동작의 수행을 초기화하게 하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 제 2 동작 순서를 결정하는 단계는 훈련된 신경망 모델로부터 출력 데이터를 프로세싱하는 단계를 포함하고,
    상기 훈련된 신경망 모델은 상기 사용자와 상기 자동화된 어시스턴트 사이의 적어도 하나 이상의 이전 상호작용을 특징짓는 과거 상호작용 데이터를 사용하여 훈련된 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 과거 상호작용 데이터는 상기 자동화된 어시스턴트가 다양한 일련의 동작들을 수행하도록 유도하기 위해 상기 자동화된 어시스턴트와 이전에 상호작용했던 다른 사용자들과 관련된 여러 상호작용들을 더 포함하는 것을 특징으로 하는 방법.
  4. 제2항에 있어서,
    상기 과거 상호작용 데이터는 이전에 요청된 동작들의 실행 순서에 영향을 미치기 위해 상기 사용자에 의해 상기 자동화된 어시스턴트에 제공된 피드백을 또한 특징짓는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 여러 동작들 중에서 상기 소정 동작의 특정한 실행 특성은 상기 소정 동작을 대화 개시 동작으로 특정하며,
    상기 소정 동작의 매개변수에 할당될 값을 사용자가 식별하기 위해 상기 사용자와 상기 자동화된 어시스턴트 사이의 보충 대화 세션이 발생하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서,
    상기 제 1 동작 순서에 따른 상기 여러 동작들의 실행의 시간적 측면은 적어도 상기 여러 동작들 중 적어도 하나 이상의 동작에 대한 예상 실행 시간을 포함하고,
    상기 방법은 상기 여러 동작들이 상기 제 1 동작 순서에 따라 실행될 때, 상기 보충 대화 세션은 상기 하나 이상의 동작에 대한 예상 실행 시간을 연장하도록 예측되는 것으로 결정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  7. 제5항에 있어서,
    상기 여러 동작들 중 또 다른 동작은 연속적인 미디어 재생을 제공하는 것을 포함하고,
    상기 제 2 동작 순서는, 상기 연속적인 미디어 재생을 제공하는 것을 포함한 다른 동작보다 상기 대화 개시 동작을 우선순위로 하는 것을 특징으로 하는 방법.
  8. 제5항에 있어서,
    상기 자동화된 어시스턴트가 상기 제 2 동작 순서에 따라 상기 여러 동작들 중 적어도 하나의 동작의 수행을 초기화하게 하는 단계는,
    상기 여러 동작들 중 적어도 하나의 동작이 상기 제 2 동작 순서에 따라 초기화되었다는 표시를 사용자에게 제공하는 자연어 출력을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 하나 이상의 프로세서에 의해 구현되는 방법으로서,
    자동화된 어시스턴트가 여러 동작들을 수행하도록 요청하는 사용자의 음성 발화를 특징짓는 오디오 데이터를 프로세싱하는 단계, 상기 여러 동작들은 상기 사용자에 의해 상기 음성 발화에서 제 1 동작 순서에 따라 특징되며;
    상기 오디오 데이터를 프로세싱하는 단계에 기초하여, 상기 사용자에 의해 요청된 상기 여러 동작들 중 각 동작에 대한 동작 분류를 결정하는 단계, 상기 여러 동작들 중 특정 동작에 대한 특정 동작 분류는 적어도 하나의 매개변수에 따라 실행되는 대화 개시 동작을 포함하며;
    적어도 하나의 매개변수에 대한 값이 상기 음성 발화에서 상기 사용자에 의해 지정되는지 여부를 결정하는 단계; 및
    상기 적어도 하나의 매개변수에 대한 값이 상기 음성 발화에서 지정되지 않은 경우, 상기 여러 동작들에 대한 제 2 동작 순서를 생성하는 단계를 포함하고,
    상기 제 2 동작 순서는, 상기 음성 발화에서 지정되지 않은 상기 적어도 하나의 매개변수에 대한 값에 기초하여, 상기 대화 개시 동작이 상기 여러 동작들 중 또 다른 동작에 비해 감소된 우선순위를 갖게하는 것을 특징으로 하는 방법.
  10. 제9항에 있어서,
    상기 적어도 하나의 매개변수가 상기 음성 발화에서 지정된 경우, 상기 여러 동작들에 대한 제 3 동작 순서를 생성하는 단계를 더 포함하고,
    상기 제 3 동작 순서는 상기 대화 개시 동작이, 상기 음성 발화에서 적어도 하나의 매개변수에 대한 값을 지정한 상기 사용자에 의해 영향을 받지 않는, 우선순위를 갖게하는 것을 특징으로 하는 방법.
  11. 제10항에 있어서,
    상기 동작 분류를 결정하는 단계는 상기 여러 동작들 중 각 동작이 연속적인 미디어 재생 동작에 해당하는지 여부를 결정하는 단계를 포함하고,
    상기 방법은 상기 여러 동작들 중 요청된 동작이 연속적인 미디어 재생 동작을 포함하는 경우, 상기 요청된 동작이 상기 여러 동작들 중 다른 동작에 비해 나중에 실행되도록 상기 요청된 동작의 우선순위를 지정하는 제 2 동작 순서 또는 제 3 동작 순서를 생성하는 것을 특징으로 하는 방법.
  12. 제9항에 있어서,
    상기 사용자가 상기 여러 동작들 중 적어도 하나의 동작을 실행하기 위한 시간적 조건을 명시적으로 지정하였는지 여부를 결정하는 단계; 및
    상기 사용자가 상기 여러 동작들 중 적어도 하나의 동작을 실행하기 위한 시간적 조건을 명시적으로 지정한 경우, 상기 여러 동작들 중 적어도 하나의 동작을 실행하기 위한 시간적 조건을 준수하도록 상기 제 2 동작 순서 또는 제 3 동작 순서를 생성하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  13. 제12항에 있어서,
    상기 특정 동작이 상기 시간적 조건에 의해 영향을 받도록 사용자에 의해 명시적으로 요청된 적어도 하나의 동작인 경우, 상기 자동화된 어시스턴트는 상기 시간적 조건에 따라 상기 제 2 동작순서 또는 제 3 동작 순서를 무시하도록 구성되는 것을 특징으로 하는 방법.
  14. 하나 이상의 프로세서에 의해 구현되는 방법으로서,
    자동화된 어시스턴트가 제 1 동작 유형 및 제 2 동작 유형을 포함한 여러 동작들을 수행하게 하는 요청들을 포함하는 음성 발화를 사용자가 제공한 것으로 결정하는 단계, 상기 자동화된 어시스턴트는 컴퓨팅 장치의 자동화된 어시스턴트 인터페이스를 통해 상기 사용자와 액세스할 수 있으며;
    상기 사용자가 음성 발화를 제공함에 응답하여, 상기 여러 동작들이 실행되는 동안 제 2 동작 유형이 제 1 동작 유형 보다 우선순위를 갖는 경우, 상기 제 1 동작 유형에 대한 예상 지연을 생성하는 단계;
    상기 예상 지연에 기초하여, 상기 제 1 동작 유형에 대한 예상 지연이 임계값을 만족시키는지의 여부를 결정하는 단계, 상기 제 1 동작 유형에 대한 예상 지연이 임계값을 만족시키는 경우, 제 1 동작 유형의 실행은 제 2 동작 유형의 실행보다 우선되며;
    상기 예상 지연이 임계값을 만족시키는지의 여부에 기초하여, 상기 사용자에 의해 요청된 여러 동작들에 대한 선호되는 실행 순서를 생성하는 단계; 및
    상기 자동화된 어시스턴트로 하여금 상기 선호되는 실행 순서에 따라 상기 여러 동작들의 실행을 초기화하게 하는 단계를 포함하는 것을 특징으로 하는 방법.
  15. 제14항에 있어서,
    상기 사용자에 의해 요청된 상기 여러 동작들 중 각 동작에 대한 동작 분류를 결정하는 단계를 더 포함하고,
    상기 자동화된 어시스턴트는 적어도 하나의 특정 동작 분류가 적어도 다른 하나의 동작 분류보다 우선순위를 갖게하는 것을 특징으로 하는 방법.
  16. 제14항에 있어서,
    상기 제 1 동작 유형은 대화 개시 동작을 포함하고, 상기 제 2 동작 유형은 미디어 재생 동작을 포함하는 것을 특징으로 하는 방법.
  17. 제16항에 있어서,
    상기 미디어 재생 동작은 별도의 컴퓨팅 장치에서 적어도 부분적으로 수행되도록 구성되고,
    상기 방법은 상기 대화 개시 동작이 상기 미디어 재생 동작보다 우선순위를 갖는 경우, 상기 별도의 컴퓨팅 장치가 상기 미디어 재생 동작을 실행하기 위한 애플리케이션을 초기화하는 것과 동시에, 상기 대화 개시 액션이 상기 컴퓨팅 장치에서 초기화되게 하는 것을 특징으로 하는 방법.
  18. 제17항에 있어서,
    상기 미디어 재생 동작이 상기 대화 개시 동작보다 우선순위를 갖는 경우, 상기 자동화된 어시스턴트로 하여금 상기 대화 개시 동작의 완료를 유도하기 위한 대화에 대응하는 자연어 출력을 제공하게 하는 단계를 포함하고,
    상기 대화 개시 동작이 완료된 경우, 상기 자동화된 어시스턴트로 하여금 상기 컴퓨팅 장치 또는 상기 별도의 컴퓨팅 장치에서 상기 미디어 재생 동작의 수행을 초기화하게 하는 단계를 포함하는 것을 특징으로 하는 방법.
  19. 제16항에 있어서,
    상기 대화 개시 동작은, 실행될 때, 대화 개시 동작을 완료하기 위해 매개변수에 할당될 값을 상기 사용자가 식별하기 위해 상기 사용자와 자동화된 어시스턴트 사이의 대화 세션을 초기화하는 것을 포함하는 방법.
  20. 제16항에 있어서,
    상기 미디어 재생 동작은, 실행될 때, 하나 이상의 파일을 통해 액세스 가능한 미디어의 재생을 초기화하는 단계를 포함하고,
    상기 예상 지연은 하나 이상의 파일에 대한 전체 파일의 길이에 기초하는 것을 특징으로 하는 방법.
  21. 제16항에 있어서,
    상기 미디어 재생 동작은, 실행될 때, 하나 이상의 네트워크 소스를 통해 액세스 가능한 미디어의 재생을 초기화하는 단계를 포함하고,
    상기 예상 지연은 상기 하나 이상의 네트워크 소스를 통해 액세스 가능한 시간 데이터에 기초하는 것을 특징으로 하는 방법.
  22. 명령들을 포함하는 컴퓨터 판독가능한 저장 매체에 저장된 컴퓨터 프로그램 제품으로서, 상기 명령들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서가 제1항 내지 제21항 중 어느 한 항에 따른 방법을 수행하도록 하는 컴퓨터 프로그램 제품.
  23. 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서가 제1항 내지 제21항 중 어느 한 항에 따른 방법을 수행하도록 하는 명령어를 포함하는 컴퓨터 판독가능 저장매체.
  24. 제1항 내지 제21항 중 어느 한 항에 따른 방법을 수행하는 하나 이상의 프로세서를 포함하는 시스템.
KR1020207035897A 2018-11-21 2019-02-07 자동화된 어시스턴트를 통해 수행되도록 요청된 일련의 동작들의 실행 조정 KR102477072B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862770516P 2018-11-21 2018-11-21
US62/770,516 2018-11-21
PCT/US2019/017039 WO2020106315A1 (en) 2018-11-21 2019-02-07 Orchestrating execution of a series of actions requested to be performed via an automated assistant

Publications (2)

Publication Number Publication Date
KR20210010523A KR20210010523A (ko) 2021-01-27
KR102477072B1 true KR102477072B1 (ko) 2022-12-13

Family

ID=65494654

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207035897A KR102477072B1 (ko) 2018-11-21 2019-02-07 자동화된 어시스턴트를 통해 수행되도록 요청된 일련의 동작들의 실행 조정

Country Status (6)

Country Link
US (3) US11031007B2 (ko)
EP (2) EP3944233A3 (ko)
JP (1) JP7195343B2 (ko)
KR (1) KR102477072B1 (ko)
CN (1) CN112352276B (ko)
WO (1) WO2020106315A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020106315A1 (en) 2018-11-21 2020-05-28 Google Llc Orchestrating execution of a series of actions requested to be performed via an automated assistant
US11238868B2 (en) * 2019-05-06 2022-02-01 Google Llc Initializing non-assistant background actions, via an automated assistant, while accessing a non-assistant application
US11568246B2 (en) * 2019-05-09 2023-01-31 Sri International Synthetic training examples from advice for training autonomous agents
US11200898B2 (en) * 2019-05-31 2021-12-14 Google Llc Dynamically assigning multi-modality circumstantial data to assistant action requests for correlating with subsequent requests
US11842025B2 (en) * 2019-08-06 2023-12-12 Sony Group Corporation Information processing device and information processing method
US11769013B2 (en) * 2019-11-11 2023-09-26 Salesforce, Inc. Machine learning based tenant-specific chatbots for performing actions in a multi-tenant system
US11763090B2 (en) 2019-11-11 2023-09-19 Salesforce, Inc. Predicting user intent for online system actions through natural language inference-based machine learning model
US11763809B1 (en) * 2020-12-07 2023-09-19 Amazon Technologies, Inc. Access to multiple virtual assistants
US20220246144A1 (en) * 2021-01-29 2022-08-04 Salesforce.Com, Inc. Intent disambiguation within a virtual agent platform
JP7334988B2 (ja) 2021-03-11 2023-08-29 株式会社フジキカイ 箱連結装置
DE102021006023B3 (de) * 2021-12-07 2022-12-22 Mercedes-Benz Group AG Verfahren zum Betreiben eines Sprachdialogsystems und Sprachdialogsystem

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325848A (ja) 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音声対話制御方法、音声対話制御装置、音声対話制御プログラム
JP2008268340A (ja) 2007-04-17 2008-11-06 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識用プログラム
US20140074483A1 (en) 2012-09-10 2014-03-13 Apple Inc. Context-Sensitive Handling of Interruptions by Intelligent Digital Assistant
JP2015210390A (ja) 2014-04-25 2015-11-24 シャープ株式会社 情報処理装置および制御プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125380A1 (en) * 2001-11-14 2009-05-14 Retaildna, Llc System and method for location based suggestive selling
CN100465843C (zh) * 2004-04-19 2009-03-04 西门子能量及自动化公司 查询机器情况的系统和方法
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9150209B2 (en) * 2013-07-22 2015-10-06 General Electric Company System and method for monitoring braking effort
US9721570B1 (en) * 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
US9966065B2 (en) * 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
KR102420518B1 (ko) * 2015-09-09 2022-07-13 삼성전자주식회사 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
US10431218B2 (en) * 2016-02-15 2019-10-01 EVA Automation, Inc. Integration and probabilistic control of electronic devices
US10339934B2 (en) * 2016-06-27 2019-07-02 Google Llc Asynchronous processing of user requests
US10950230B2 (en) * 2016-10-28 2021-03-16 Panasonic Intellectual Property Corporation Of America Information processing device and information processing method
US10679608B2 (en) * 2016-12-30 2020-06-09 Google Llc Conversation-aware proactive notifications for a voice interface device
US10332505B2 (en) * 2017-03-09 2019-06-25 Capital One Services, Llc Systems and methods for providing automated natural language dialogue with customers
US10311872B2 (en) * 2017-07-25 2019-06-04 Google Llc Utterance classifier
US10248379B2 (en) * 2017-07-27 2019-04-02 Motorola Solutions, Inc. Automatic and selective context-based gating of a speech-output function of an electronic digital assistant
US10896675B1 (en) * 2018-06-29 2021-01-19 X Development Llc Multi-tiered command processing
WO2020106315A1 (en) 2018-11-21 2020-05-28 Google Llc Orchestrating execution of a series of actions requested to be performed via an automated assistant

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325848A (ja) 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音声対話制御方法、音声対話制御装置、音声対話制御プログラム
JP2008268340A (ja) 2007-04-17 2008-11-06 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識用プログラム
US20140074483A1 (en) 2012-09-10 2014-03-13 Apple Inc. Context-Sensitive Handling of Interruptions by Intelligent Digital Assistant
JP2015210390A (ja) 2014-04-25 2015-11-24 シャープ株式会社 情報処理装置および制御プログラム

Also Published As

Publication number Publication date
KR20210010523A (ko) 2021-01-27
JP7195343B2 (ja) 2022-12-23
EP3944233A2 (en) 2022-01-26
US11769502B2 (en) 2023-09-26
CN112352276B (zh) 2024-04-09
JP2021533399A (ja) 2021-12-02
EP3679572B1 (en) 2021-08-25
EP3944233A3 (en) 2022-05-11
CN112352276A (zh) 2021-02-09
US11031007B2 (en) 2021-06-08
EP3679572A1 (en) 2020-07-15
US20230377572A1 (en) 2023-11-23
WO2020106315A1 (en) 2020-05-28
US20200302924A1 (en) 2020-09-24
US20210295841A1 (en) 2021-09-23

Similar Documents

Publication Publication Date Title
KR102477072B1 (ko) 자동화된 어시스턴트를 통해 수행되도록 요청된 일련의 동작들의 실행 조정
US20230185429A1 (en) Providing composite graphical assistant interfaces for controlling various connected devices
EP3788620B1 (en) Supplementing voice inputs to an automated assistant according to selected suggestions
US11664028B2 (en) Performing subtask(s) for a predicted action in response to a separate user interaction with an automated assistant prior to performance of the predicted action
US11960837B2 (en) Fulfillment of actionable requests ahead of a user selecting a particular autocomplete suggestion for completing a current user input
EP3915105A1 (en) Initializing non-assistant background actions, via an automated assistant, while accessing a non-assistant application
KR20200124298A (ko) 원격으로 생성된 자동화된 어시스턴트 콘텐츠를 렌더링할 때 클라이언트 디바이스 지연 완화
CN111699473A (zh) 用于暂停和恢复虚拟助理的系统、方法以及装置
WO2020226667A1 (en) Performing subtask(s) for a predicted action in response to a separate user interaction with an automated assistant prior to performance of the predicted action
US20240038246A1 (en) Non-wake word invocation of an automated assistant from certain utterances related to display content

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant