KR20230010845A - Providing audio information with a digital assistant - Google Patents
Providing audio information with a digital assistant Download PDFInfo
- Publication number
- KR20230010845A KR20230010845A KR1020237001029A KR20237001029A KR20230010845A KR 20230010845 A KR20230010845 A KR 20230010845A KR 1020237001029 A KR1020237001029 A KR 1020237001029A KR 20237001029 A KR20237001029 A KR 20237001029A KR 20230010845 A KR20230010845 A KR 20230010845A
- Authority
- KR
- South Korea
- Prior art keywords
- commands
- response
- type
- audio information
- communication
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000004891 communication Methods 0.000 claims abstract description 47
- 230000004044 response Effects 0.000 claims description 40
- 230000000007 visual effect Effects 0.000 claims description 25
- 230000008921 facial expression Effects 0.000 claims description 9
- 238000005562 fading Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 241001122315 Polites Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Abstract
오디오 정보를 제공하기 위한 예시적인 기법에서, 입력이 수신되고, 수신된 입력에 응답하는 오디오 정보가 스피커를 사용하여 제공된다. 오디오 정보를 제공하는 동안, 외부 사운드가 검출된다. 외부 사운드가 제1 타입의 통신인 것으로 결정되는 경우, 오디오 정보의 제공이 중단된다. 외부 사운드가 제2 타입의 통신인 것으로 결정되는 경우, 오디오 정보의 제공은 계속된다.In an exemplary technique for providing audio information, input is received and audio information responsive to the received input is presented using a speaker. While providing audio information, external sound is detected. When it is determined that the external sound is the first type of communication, provision of audio information is stopped. When it is determined that the external sound is the second type of communication, the provision of audio information continues.
Description
관련 출원에 대한 상호 참조CROSS REFERENCES TO RELATED APPLICATIONS
본 출원은 2018년 6월 1일자로 출원되고 발명의 명칭이 "디지털 어시스턴트를 이용한 오디오 정보 제공(Providing Audio Information with a Digital Assistant)"인 미국 가출원 제62/679,644호에 대한 우선권을 주장하며, 이로써, 이의 전체 개시내용은 모든 적절한 목적들을 위해 참조로 포함된다.This application claims priority to U.S. Provisional Application No. 62/679,644, filed on June 1, 2018, entitled "Providing Audio Information with a Digital Assistant", hereby , the entire disclosure of which is incorporated by reference for all suitable purposes.
기술분야technology field
본 개시내용은 일반적으로, 디지털 어시스턴트(digital assistant)를 구현하는 전자 디바이스에 관한 것으로, 더 구체적으로, 디지털 어시스턴트를 이용하여 오디오 정보를 제공하는 전자 디바이스에 관한 것이다.The present disclosure relates generally to electronic devices that implement digital assistants, and more specifically to electronic devices that provide audio information using digital assistants.
배경기술background art
디지털 어시스턴트는 음성 및/또는 텍스트 형태의 자연 언어 입력을 해석하고, 입력에 기초하여 사용자 요청을 결정한다. 이어서, 디지털 어시스턴트는 사용자 요청에 기초하여 액션(action)들을 수행한다. 액션들은 사용자 요청에 응답하는 정보를 제공하는 것 및/또는 태스크들을 수행하는 것을 포함한다.The digital assistant interprets natural language input in the form of voice and/or text and determines a user request based on the input. The digital assistant then performs actions based on the user request. Actions include providing information in response to a user request and/or performing tasks.
본 개시내용은 디지털 어시스턴트를 구현하는 전자 디바이스를 이용하여 오디오 정보를 제공하기 위한 기법들을 설명한다. 일부 실시예들에 따르면, 전자 디바이스는 특정 타입의 인터럽션(interruption)에 대한 응답으로 오디오 정보를 제공하는 것을 중단한다. 부가하여, 일부 실시예들에 따르면, 전자 디바이스는 오디오 정보가 인터럽트될 것으로 예상되지 않을 때까지 오디오 정보를 제공하기 위해(또는 제공하는 것을 재개하기 위해) 대기한다. 이러한 기법들은, 일부 예시적인 실시예들에서, 사용자가 디지털 어시스턴트로부터의 오디오 정보에 의해 인터럽트되거나 또는 주의가 분산되지 않으면서 말할 수 있게 함으로써, 디지털 어시스턴트와의 더 자연스럽고 효율적인 상호작용을 제공한다. 이 기법들은 전자 디바이스들, 이를테면, 데스크톱 컴퓨터들, 랩톱들, 태블릿들, 텔레비전들, 스피커들, 엔터테인먼트 시스템들, 및 스마트폰들에 적용될 수 있다.This disclosure describes techniques for providing audio information using an electronic device implementing a digital assistant. According to some embodiments, the electronic device stops providing audio information in response to a particular type of interruption. In addition, according to some embodiments, the electronic device waits to provide (or resume providing) audio information until the audio information is not expected to be interrupted. These techniques, in some demonstrative embodiments, provide a more natural and efficient interaction with the digital assistant by allowing the user to speak without being interrupted or distracted by audio information from the digital assistant. These techniques may be applied to electronic devices, such as desktop computers, laptops, tablets, televisions, speakers, entertainment systems, and smartphones.
일부 실시예들에 따르면, 오디오 정보를 제공하기 위한 기법은, 스피커를 사용하여, 수신된 입력에 응답하는 오디오 정보를 제공하는 단계; 오디오 정보를 제공하는 동안, 외부 사운드를 검출하는 단계; 외부 사운드가 제1 타입의 통신이라는 결정에 따라, 오디오 정보의 제공을 중단하는 단계; 및 외부 사운드가 제2 타입의 통신이라는 결정에 따라, 오디오 정보의 제공을 계속하는 단계를 포함한다. 일부 실시예들에서, 수신된 입력은 트리거링 커맨드를 포함한다.According to some embodiments, a technique for providing audio information includes providing, using a speaker, audio information responsive to a received input; detecting an external sound while providing audio information; stopping provision of audio information upon determination that the external sound is the first type of communication; and continuing to provide audio information according to a determination that the external sound is the second type of communication. In some embodiments, the received input includes a triggering command.
일부 실시예들에서, 기법은, 오디오 정보의 제공을 중단한 후에: 제1 타입의 통신과 연관된 하나 이상의 시각적 특성들을 검출하는 단계; 제1 타입의 통신이 중단된 것을 검출하는 단계; 제1 타입의 통신이 중단된 것을 검출하는 것에 대한 응답으로, 하나 이상의 시각적 특성들이 제1 타입의 추가 통신이 예상됨을 나타내는지 여부를 결정하는 단계; 제1 타입의 추가 통신이 예상되지 않는다는 결정에 따라, 재개 오디오 정보를 제공하는 단계; 및 제1 타입의 추가 통신이 예상된다는 결정에 따라, 오디오 정보의 제공을 중단하는 것을 계속하는 단계를 더 포함한다.In some embodiments, the technique includes, after ceasing to provide audio information: detecting one or more visual characteristics associated with the first type of communication; detecting that the first type of communication is discontinued; in response to detecting that the first type of communication has been discontinued, determining whether one or more visual characteristics indicate that further communication of the first type is expected; in accordance with a determination that no further communication of the first type is expected, providing resume audio information; and upon a determination that further communication of the first type is expected, continuing to discontinue providing the audio information.
일부 실시예들에서, 하나 이상의 시각적 특성들은 시선, 얼굴 표정, 손 제스처, 또는 이들의 조합을 포함한다. 일부 실시예들에서, 오디오 정보의 제공을 중단하는 것은 오디오 정보를 페이드 아웃(fading out)하는 것을 포함한다. 일부 실시예들에서, 기법은, 오디오 정보의 제공을 중단한 후에, 그리고 제1 타입의 통신이 중단되었다는 결정에 따라, 재개 오디오 정보를 제공하는 단계를 더 포함한다. 일부 실시예들에서, 오디오 정보는 미리 정의된 세그먼트들로 분할되고, 재개 오디오 정보는 오디오 정보가 중단되었던 세그먼트로 시작된다. 일부 실시예들에서, 재개 오디오 정보는 오디오 정보의 이전에 제공된 세그먼트의 재구성된 버전(rephrased version)을 포함한다.In some embodiments, the one or more visual characteristics include gaze, facial expression, hand gesture, or a combination thereof. In some embodiments, ceasing to present the audio information includes fading out the audio information. In some embodiments, the technique further includes providing resume audio information after ceasing to provide audio information and upon a determination that the first type of communication has ceased. In some embodiments, the audio information is divided into predefined segments, and the resume audio information begins with the segment where the audio information left off. In some embodiments, the resume audio information includes a rephrased version of a previously presented segment of audio information.
일부 실시예들에서, 제1 타입의 통신은 직접-발성 어휘 발화(directly-vocalized lexical utterance)를 포함한다. 일부 실시예들에서, 직접-발성 어휘 발화는 침묵화 명령들을 배제한다. 일부 실시예들에서, 기법은, 외부 사운드의 소스에 대응하는 위치를 결정함으로써, 외부 사운드가 직접-발성 어휘 발화인 것으로 결정하는 단계를 더 포함한다. 일부 실시예들에서, 위치는 지향성 마이크로폰 어레이를 이용하여 결정된다.In some embodiments, the first type of communication includes a directly-vocalized lexical utterance. In some embodiments, direct-spoken lexical utterance excludes silence commands. In some embodiments, the technique further includes determining that the external sound is a direct-spoken lexical utterance by determining a location corresponding to a source of the external sound. In some embodiments, location is determined using a directional microphone array.
일부 실시예들에서, 제2 타입의 통신은 대화 사운드들을 포함한다. 일부 실시예들에서, 제2 타입의 통신은 압축 오디오를 포함한다. 일부 실시예들에서, 제2 타입의 통신은 전자 디바이스에 의해 재생되는 어휘 발화를 포함한다. 일부 실시예들에서, 기법은, 외부 사운드의 소스에 대응하는 위치를 결정함으로써, 외부 사운드가 전자 디바이스에 의해 재생되는 어휘 발화인 것으로 결정하는 단계를 더 포함한다. 일부 실시예들에서, 위치는 지향성 마이크로폰 어레이를 이용하여 결정된다.In some embodiments, the second type of communication includes conversational sounds. In some embodiments, the second type of communication includes compressed audio. In some embodiments, the second type of communication includes a vocabulary utterance reproduced by the electronic device. In some embodiments, the technique further includes determining that the external sound is a lexical utterance reproduced by the electronic device by determining a location corresponding to a source of the external sound. In some embodiments, location is determined using a directional microphone array.
일부 실시예들에 따르면, 오디오 정보를 제공하기 위한 기법은 소스로부터 스피치(speech) 입력을 수신하는 단계 - 스피치 입력은 하나 이상의 명령들을 포함함 -; 스피치 입력의 소스와 연관된 하나 이상의 시각적 특성들을 검출하는 단계; 스피치 입력이 중단된 것을 검출하는 단계; 스피치 입력이 중단된 것을 검출하는 것에 대한 응답으로, 소스와 연관된 하나 이상의 시각적 특성들이 소스로부터의 추가 스피치 입력이 예상됨을 나타내는지 여부를 결정하는 단계; 소스로부터의 추가 스피치 입력이 예상되지 않는다는 결정에 따라, 하나 이상의 명령들에 대한 응답을 제공하는 단계; 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 하나 이상의 명령들에 대한 응답을 제공하는 것을 보류하는 단계를 포함한다.According to some embodiments, a technique for providing audio information includes receiving speech input from a source, where the speech input includes one or more instructions; detecting one or more visual characteristics associated with a source of speech input; detecting that speech input has ceased; in response to detecting that the speech input is discontinued, determining whether one or more visual characteristics associated with the source indicate that additional speech input from the source is expected; upon a determination that no additional speech input from the source is expected, providing a response to the one or more commands; upon determining that additional speech input from the source is expected, withholding providing a response to the one or more commands.
일부 실시예들에서, 하나 이상의 시각적 특성들은 시선, 얼굴 표정, 손 제스처, 또는 이들의 조합을 포함한다. 일부 실시예들에서, 기법은, 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 미리 결정된 시간 동안 하나 이상의 명령들에 대한 응답을 제공하는 것을 보류하는 단계; 및 미리 결정된 시간 후에, 그리고 소스로부터의 스피치 입력이 재개되지 않았다는 결정에 따라, 하나 이상의 명령들에 대한 응답을 제공하는 단계를 더 포함한다.In some embodiments, the one or more visual characteristics include gaze, facial expression, hand gesture, or a combination thereof. In some embodiments, the technique includes, upon a determination that additional speech input from the source is expected, withholding providing a response to one or more commands for a predetermined amount of time; and providing a response to the one or more commands after a predetermined time and upon a determination that speech input from the source has not been resumed.
다양하게 설명된 실시예들의 보다 양호한 이해를 위해, 유사한 도면 부호들이 도면 전체에 걸쳐서 대응 부분들을 나타내는 하기의 도면들과 관련하여 하기의 발명을 실시하기 위한 구체적인 내용이 참조되어야 한다.
도 1a 및 도 1b는 다양한 실시예들에 따른, 사용자에게 오디오 정보를 제공하기 위한 예시적인 시스템을 도시한다.
도 2는 다양한 실시예들에 따른, 환경에서 오디오 정보를 제공하는 전자 디바이스의 예를 도시한다.
도 3은 다양한 실시예들에 따른, 오디오 정보를 제공하기 위한 예시적인 프로세스의 흐름도를 도시한다.
도 4는 다양한 실시예들에 따른, 오디오 정보를 제공하기 위한 다른 예시적인 프로세스의 흐름도를 도시한다.For a better understanding of the various described embodiments, reference should be made to the specific details for carrying out the invention below in conjunction with the following drawings in which like reference numerals indicate corresponding parts throughout the drawings.
1A and 1B illustrate an example system for providing audio information to a user, in accordance with various embodiments.
2 illustrates an example of an electronic device providing audio information in an environment, in accordance with various embodiments.
3 shows a flow diagram of an example process for providing audio information, in accordance with various embodiments.
4 shows a flow diagram of another example process for providing audio information, in accordance with various embodiments.
하기의 설명은 예시적인 방법들, 파라미터들 등을 기재하고 있다. 그러나, 이러한 설명이 본 개시내용의 범주에 대한 제한으로서 의도되지 않고 그 대신에 예시적인 실시예들의 설명으로서 제공된다는 것을 인식해야 한다.The following description sets forth exemplary methods, parameters, and the like. However, it should be recognized that this description is not intended as a limitation on the scope of the present disclosure but instead is provided as a description of exemplary embodiments.
도 1a 및 도 1b는 다양한 실시예들에 따른, 사용자에게 오디오 정보를 제공하기 위한 예시적인 시스템(100)을 도시한다.1A and 1B illustrate an
일부 실시예들에서, 도 1a에 예시된 바와 같이, 시스템(100)은 디바이스(100a)를 포함한다. 디바이스(100a)는 다양한 컴포넌트들, 이를테면, 프로세서(들)(102), RF 회로부(들)(104), 메모리(들)(106), 이미지 센서(들)(108), 배향 센서(들)(110), 마이크로폰(들)(112), 위치 센서(들)(116), 스피커(들)(118), 디스플레이(들)(120), 및 터치-감응형 표면(들)(122)을 포함한다. 이러한 컴포넌트들은 옵션적으로 디바이스(100a)의 통신 버스(들)(150)를 통해 통신한다.In some embodiments, as illustrated in FIG. 1A ,
일부 실시예들에서, 시스템(100)의 엘리먼트들은 기지국 디바이스(예컨대, 원격 서버, 모바일 디바이스, 또는 랩톱과 같은 컴퓨팅 디바이스)에서 구현되고, 시스템(100)의 다른 엘리먼트들은 보조 디바이스(이를테면, 오디오 재생 디바이스, 텔레비전, 모니터, 또는 헤드-마운트 디스플레이(HMD) 디바이스)에서 구현되며, 여기서, 보조 디바이스는 기지국 디바이스와 통신한다. 일부 실시예들에서, 디바이스(100a)는 기지국 디바이스 또는 보조 디바이스에서 구현된다.In some embodiments, elements of
도 1b에 예시된 바와 같이, 일부 실시예들에서, 시스템(100)은, 이를테면, 유선 연결 또는 무선 연결을 통해 통신하는 2개의(또는 그 이상의) 디바이스들을 포함한다. 제1 디바이스(100b)(예컨대, 기지국 디바이스)는 프로세서(들)(102), RF 회로부(들)(104), 메모리(들)(106)를 포함한다. 이러한 컴포넌트들은 옵션적으로 디바이스(100b)의 통신 버스(들)(150)를 통해 통신한다. 제2 디바이스(100c)(예컨대, 보조 디바이스)는 다양한 컴포넌트들, 예컨대, 프로세서(들)(102), RF 회로부(들)(104), 메모리(들)(106), 이미지 센서(들)(108), 배향 센서(들)(110), 마이크로폰(들)(112), 위치 센서(들)(116), 스피커(들)(118), 디스플레이(들)(120), 및 터치-감응형 표면(들)(122)을 포함한다. 이러한 컴포넌트들은 옵션적으로 디바이스(100c)의 통신 버스(들)(150)를 통해 통신한다.As illustrated in FIG. 1B , in some
시스템(100)은 프로세서(들)(102) 및 메모리(들)(106)를 포함한다. 프로세서(들)(102)는 하나 이상의 일반 프로세서들, 하나 이상의 그래픽 프로세서들, 및/또는 하나 이상의 디지털 신호 프로세서들을 포함한다. 일부 실시예들에서, 메모리(들)(106)는 아래에서 설명되는 기법들을 수행하기 위하여 프로세서(들)(102)에 의해 실행되도록 구성된 컴퓨터-판독가능 명령들을 저장하는 하나 이상의 비-일시적 컴퓨터-판독가능 저장 매체들(예컨대, 플래시 메모리, 랜덤 액세스 메모리)이다.
시스템(100)은 RF 회로부(들)(104)를 포함한다. RF 회로부(들)(104)는 옵션적으로 전자 디바이스들과 통신하기 위한 회로부, 인터넷, 인트라넷과 같은 네트워크들, 및/또는 셀룰러 네트워크들 및 무선 로컬 영역 네트워크들(LAN)과 같은 무선 네트워크를 포함한다. RF 회로부(들)(104)는 옵션적으로 블루투스®와 같은 근거리 통신 및/또는 단거리 통신을 이용하여 통신하기 위한 회로부를 포함한다.
시스템(100)은 디스플레이(들)(120)를 포함한다. 일부 실시예들에서, 디스플레이(들)(120)는 제1 디스플레이(예컨대, 좌안 디스플레이 패널) 및 제2 디스플레이(예컨대, 우안 디스플레이 패널)를 포함하며, 각각의 디스플레이는 사용자의 각각의 눈에 이미지들을 디스플레이한다. 대응하는 이미지들은 제1 디스플레이 및 제2 디스플레이 상에 동시에 디스플레이된다. 옵션적으로, 대응하는 이미지들은 상이한 시점들로부터의 동일한 물리적 객체들의 동일한 가상 객체들 및/또는 표현들을 포함하여, 사용자에게 디스플레이들 상의 객체들의 깊이의 착각을 일으키는 시차 효과를 야기한다. 일부 실시예들에서, 디스플레이(들)(120)는 단일 디스플레이를 포함한다. 대응하는 이미지들은 사용자의 각각의 눈에 대하여 단일 디스플레이의 제1 영역 및 제2 영역 상에 동시에 디스플레이된다. 옵션적으로, 대응하는 이미지들은 상이한 시점들로부터의 동일한 물리적 객체들의 동일한 가상 객체들 및/또는 표현들을 포함하여, 사용자에게 단일 디스플레이 상의 객체들의 깊이의 착각을 일으키는 시차 효과를 야기한다.
일부 실시예들에서, 시스템(100)은 탭 입력 및 스와이프 입력과 같은 사용자 입력들을 수신하기 위한 터치-감응형 표면(들)(122)을 포함한다. 일부 실시예들에서, 디스플레이(들)(120) 및 터치-감응형 표면(들)(122)은 터치-감응형 디스플레이(들)를 형성한다.In some embodiments,
시스템(100)은 이미지 센서(들)(108)를 포함한다. 이미지 센서(들)(108)는 옵션적으로 실제 환경으로부터 물리적 객체들의 이미지들을 획득하도록 동작가능한 전하 결합 소자(CCD) 센서들, 및/또는 상보성 금속-산화물-반도체(CMOS) 센서들과 같은 하나 이상의 가시광 이미지 센서를 포함한다. 이미지 센서(들)는 또한 옵션적으로 실제 환경으로부터 적외선 광을 검출하기 위한 수동형 IR 센서 또는 능동형 IR 센서와 같은 하나 이상의 적외선(IR) 센서(들)를 포함한다. 예를 들어, 능동형 IR 센서는 적외선 광을 실제 환경으로 방출하기 위한 IR 도트 방출기와 같은 IR 방출기를 포함한다. 이미지 센서(들)(108)는 또한 옵션적으로 실제 환경에서 물리적 객체들의 움직임을 포착하도록 구성된 하나 이상의 이벤트 카메라(들)를 포함한다. 이미지 센서(들)(108)는 또한 옵션적으로 시스템(100)으로부터 물리적 객체들의 거리를 검출하도록 구성된 하나 이상의 깊이 센서(들)를 포함한다. 일부 실시예들에서, 시스템(100)은 CCD 센서, 이벤트 카메라, 및 깊이 센서를 조합하여 사용하여 시스템(100) 주위의 물리적 환경을 검출한다. 일부 실시예들에서, 이미지 센서(들)(108)는 제1 이미지 센서 및 제2 이미지 센서를 포함한다. 제1 이미지 센서 및 제2 이미지 센서는 옵션적으로 2개의 별개의 시야로부터 환경에서의 물리적 객체들의 이미지들을 포착하도록 구성된다. 일부 실시예들에서, 시스템(100)은 이미지 센서(들)(108)를 사용하여 손 제스처들과 같은 사용자 입력들을 수신한다. 일부 실시예들에서, 시스템(100)은 이미지 센서(들)(108)를 사용하여 환경에서의 시스템(100) 및/또는 디스플레이(들)(120)의 위치 및 배향을 검출한다. 예컨대, 시스템(100)은 이미지 센서(들)(108)를 사용하여 환경에서의 하나 이상의 객체들의 위치 및 배향을 추적한다.
일부 실시예들에서, 시스템(100)은 마이크로폰(들)(112)을 포함한다. 시스템(100)은 마이크로폰(들)(112)을 사용하여 사용자 및/또는 사용자의 환경으로부터의 사운드를 검출한다. 일부 실시예들에서, 마이크로폰(들)(112)은, 예컨대, 주변 소음을 식별하거나 또는 환경의 공간에서 사운드 소스를 위치파악하기 위하여 옵션적으로 나란히 동작하는 마이크로폰들의 어레이(복수의 마이크로폰들을 포함)를 포함한다.In some embodiments,
시스템(100)은 시스템(100) 및/또는 디스플레이(들)(120)의 배향 및/또는 이동을 검출하기 위하여 배향 센서(들)(110)를 포함한다. 예컨대, 시스템(100)은 배향 센서(들)(110)를 사용하여, 예컨대, 환경에서의 물리적 객체들에 대한 시스템(100) 및/또는 디스플레이(들)(120)의 위치 및/또는 배향의 변화를 추적한다. 배향 센서(들)(110)는 옵션적으로 하나 이상의 자이로스코프들 및/또는 하나 이상의 가속도계들을 포함한다.
일부 실시예들에서, 시스템(100)은 디지털 어시스턴트를 구현한다. 디지털 어시스턴트는 음성 및/또는 텍스트 형태의 자연 언어 입력을 해석하고, 입력에 기초하여 하나 이상의 명령들을 결정한다. 이어서, 디지털 어시스턴트는 명령들에 기초하여 액션들을 수행한다. 일부 실시예들에서, 액션들은 명령들에 응답하는 오디오 정보를 제공하는 것 및/또는 태스크들을 수행하는 것을 포함한다. "디지털 어시스턴트"라는 용어는 자연 언어 입력을 해석하고 그 입력에 응답하는 액션들을 수행할 수 있는 임의의 정보 프로세싱 시스템을 지칭할 수 있다.In some embodiments,
전형적으로, 자연 언어 입력은 디지털 어시스턴트에 의한 정보제공형 답변 또는 태스크의 수행 중 어느 하나를 요청한다. 디지털 어시스턴트는 요청된 정보를 오디오 포맷으로 제공하고/하거나 요청된 태스크를 수행함으로써 입력에 응답한다. 예컨대, 사용자가 디지털 어시스턴트에게 "내일 일기 예보는 어떻습니까?"라고 질문할 때, 디지털 어시스턴트는 "내일은 화창할 것으로 예상되며 최고 온도는 75도이고 최저 온도는 60도입니다"의 오디오 답변으로 응답할 수 있다. 다른 예로서, 사용자가 "내일 오전 6:00에 알람을 세팅하십시오"라고 요청할 때, 디지털 어시스턴트는 각각의 알람을 세팅하는 태스크를 수행하고, "내일 오전 6시에 알람이 세팅되었습니다"의 오디오 확인을 제공한다.Typically, the natural language input requests either an informative answer or performance of a task by the digital assistant. The digital assistant responds to the input by providing the requested information in audio format and/or performing the requested task. For example, when a user asks the digital assistant, "What's the weather forecast for tomorrow?", the digital assistant might respond with an audio response of "Tomorrow is expected to be sunny, with a high of 75 degrees and a low of 60 degrees." can As another example, when the user requests "Set an alarm for 6:00 AM tomorrow", the digital assistant performs the task of setting each alarm, followed by an audio confirmation of "Your alarm has been set for 6 AM tomorrow". provides
일부 실시예들에서, 시각적 정보(예컨대, 텍스트, 비디오, 애니메이션들 등)가 오디오 정보에 부가하여 또는 그 대신에 제공된다. 게다가, 일부 실시예들에서, 제공된 정보는 미디어 콘텐츠(예컨대, 음악 또는 비디오 콘텐츠)를 포함하고, 디지털 어시스턴트는 미디어 콘텐츠의 재생을 제어한다(예컨대, 음악 또는 비디오 콘텐츠의 시작 및 중단).In some embodiments, visual information (eg, text, video, animations, etc.) is provided in addition to or instead of audio information. Additionally, in some embodiments, the provided information includes media content (eg, music or video content), and the digital assistant controls playback of the media content (eg, starting and stopping the music or video content).
일부 경우들에서, 디지털 어시스턴트에 의한 오디오 정보의 제공을 인터럽트하는 것이 유리할 것이다. 예컨대, 디지털 어시스턴트가 오디오 정보를 제공하고 있는 동안 사용자가 다른 사람에게 말하기 시작하는 경우, 사용자는 디지털 어시스턴트에 의해 제공되는 정보를 듣지 못할 수 있다. 이 경우, 시스템(100)은 사용자와 다른 사람 사이의 대화가 종료될 때까지 오디오 정보를 제공하는 것을 중단한다. 이러한 방식으로, 시스템(100)은 더 공손한 방식으로 디지털 어시스턴트를 이용하여 오디오 정보를 제공한다.In some cases, it may be advantageous to interrupt the presentation of audio information by the digital assistant. For example, if the user starts talking to another person while the digital assistant is providing audio information, the user may not hear the information provided by the digital assistant. In this case, the
게다가, 일부 실시예들에서, 오디오 정보를 제공하기 전에(또는 중단된 오디오 정보의 제공을 재개하기 전에), 시스템(100)은 디지털 어시스턴트에 의해 오디오 정보가 제공되기에 적절함을 나타내는 시각적 특성들을 검출한다. 예컨대, 사용자가 요청을 제공하지만 생각하기 위해 말하는 것을 중단할 때(예컨대, "톰과 월요일 오전 9시에 미팅을 스케줄링하고 또...", 시스템(100)은 부가적인 스피치가 예상되는 것을 검출하고, 오디오 정보를 제공하기 위해 대기한다.Additionally, in some embodiments, before presenting audio information (or resuming presentation of audio information that has been interrupted),
도 2는 다양한 실시예들에 따른, 환경(210)에서 오디오 정보(202)를 제공하는 전자 디바이스(200)의 예를 도시한다. 일부 실시예들에서, 전자 디바이스(200)는 도 1a 및 도 1b를 참조하여 설명된 바와 같은 시스템(100)의 실시예이다. 오디오 정보(202)는 수신된 입력에 응답하여 스피커(들)(218)를 사용하여 제공된다. 일부 실시예들에서, 수신된 입력은 전자 디바이스(200)에 의해 구현된 디지털 어시스턴트에 대한 하나 이상의 명령들을 포함하는 음성 또는 텍스트 형태의 자연 언어 입력이다. 전자 디바이스(200)는 수신된 입력에 기초하여 하나 이상의 명령들을 결정하고, 하나 이상의 명령들에 기초하여 오디오 정보(202)를 제공한다. 일부 실시예들에서, 수신된 입력은 디지털 어시스턴트에 대한 명령들로서 입력을 식별하는 트리거링 커맨드(예컨대, "헬로 컴퓨터")를 포함한다.2 illustrates an example of an
일부 실시예들에서, 사용자로부터의 입력이 중단된 후에, 전자 디바이스(200)는, 오디오 정보(202)를 제공하기 전에, 사용자의 시각적 특성들이 추가 입력이 예상됨을 나타내는지 여부를 결정한다. 시각적 특성들의 예들은 시선, 얼굴 표정들, 및/또는 손 제스처들을 포함한다. 예컨대, 전자 디바이스(200)가 사람의 눈들이 말하는 것을 중단한 후에 상방을 응시하는 것을 검출하는 경우, 전자 디바이스(200)는 사람으로부터의 추가 스피치가 예상되는 것으로 결정하는데, 이는 상방 응시가 사람이 생각하고 있음을 나타내기 때문이다. 일부 실시예들에서, 추가 입력이 예상되는 것으로 결정한 후에, 전자 디바이스(200)는 미리 결정된 시간 동안 대기한다. 미리 결정된 시간 동안 추가 입력이 제공되지 않는 경우, 전자 디바이스(200)는 오디오 정보(202)를 제공하는 것으로 진행한다. 사용자의 시각적 특성들이 추가 입력이 예상됨을 나타내지 않는 경우, 전자 디바이스(200)는 사용자로부터의 입력이 중단된 후에 오디오 정보(202)를 제공하는 것으로 진행한다.In some embodiments, after input from the user is interrupted, the
전자 디바이스(200)가 오디오 정보(202)를 제공하면서 외부 사운드 소스(204)로부터의 외부 사운드(206)를 검출하는 경우, 전자 디바이스(200)는 외부 사운드(206)의 타입에 기초하여, 외부 사운드(206)가 오디오 정보(202)의 제공을 중단하는 것을 정당화(warrant)하는지 여부를 결정한다. 일부 타입의 외부 사운드들(206)의 경우, 오디오 정보(202)를 중단하는 것은 불필요하다. 예컨대, 사람이 청취 또는 생각하고 있음을 나타내는 대화 사운드들, 이를테면, "흠", "음", "오케이", "으응", "예", "알겠어요" 등은 오디오 정보(202)의 제공을 중단하는 것을 정당화하지 않을 것이다. 다른 타입의 외부 사운드들(206), 이를테면, 압축 오디오(예컨대, 음악 또는 비디오와 같은 미디어 콘텐츠로부터의 사운드들) 또는 전자 디바이스에 의해 재생되는 스피치(예컨대, 텔레비전에 의해 방출되는 어휘 발화들)인 외부 사운드들(206)이 또한, 오디오 정보(202)의 제공을 중단하는 것을 정당화하지 않을 것이다.When the
일부 실시예들에서, 외부 사운드(206)가 압축 오디오와 일치하는 특성들을 갖는 것으로 전자 디바이스(200)가 결정하는 경우, 전자 디바이스(200)는 오디오 정보(202)를 제공하는 것을 계속한다(예컨대, 압축 오디오는 오디오 정보(202)를 중단하는 것을 정당화하지 않는 외부 사운드의 타입임). 다른 실시예들에서, 외부 사운드(206)가 압축 오디오와 일치하는 특성들을 갖는 것으로 전자 디바이스(200)가 결정할 때, 전자 디바이스(200)는 외부 사운드 소스(204)의 특성들 및/또는 압축 오디오의 콘텐츠를 추가로 결정한다. 압축 오디오 및/또는 압축 오디오의 콘텐츠를 방출하는 외부 사운드 소스(204)의 특성들에 기초하여, 전자 디바이스(200)는 오디오 정보(202)를 제공하는 것을 계속할 수 있거나 또는 오디오 정보(202)를 중단할 수 있다. 예컨대, 외부 사운드 소스(204)가 낮은-우선순위 오디오를 방출하는 텔레비전 또는 다른 디바이스인 것으로 전자 디바이스(200)가 결정하는 경우, 전자 디바이스(200)는 오디오 정보(202)를 제공하는 것을 계속한다. 낮은-우선순위 오디오의 예들은 미리-레코딩된 오디오, 이를테면 음악 또는 영화들, 텔레비전 프로그램들, 또는 라디오 방송들을 포함한다. 그러나, 외부 사운드 소스(204)가 높은-우선순위 오디오를 방출하는 전화 또는 다른 디바이스인 것으로 전자 디바이스(200)가 결정하는 경우, 전자 디바이스(200)는 높은-우선순위 오디오로부터 주의를 분산시키기 않도록 오디오 정보(202)를 제공하는 것을 중단할 수 있다. 높은-우선순위 오디오의 예들은 거의 실시간으로 말하는 사람의 오디오(예컨대, 전화 대화), 알람, 경고 메시지를 포함한다.In some embodiments, if the
일반적으로, 더 많은 실질적인 정보를 전달하는 타입의 외부 사운드들(206)은 사람들 사이의 대화들이거나, 또는 그렇지 않으면, 오디오 정보(202)의 제공을 중단하는 것을 정당화하는 높은-우선순위 오디오를 포함한다. 이러한 타입의 외부 사운드들(206)은 직접-발성 어휘 발화들(예컨대, 환경(210)에서 말하는 사람에 의해 방출되는 외부 사운드(206))을 포함한다. 예컨대, 오디오 정보(202)가 제공되고 있는 동안, 사람이 환경(210) 내의 다른 사람에게 말하기 시작하는 경우, 전자 디바이스(200)는 스피치를 검출할 시에 오디오 정보(202)의 제공을 중단할 수 있다. 오디오 정보(202)의 제공을 중단하는 것은 2명의 사람들이 오디오 정보(202)에 의해 주의가 분산되거나 또는 인터럽트되지 않으면서 대화를 할 수 있게 한다. 유사하게, 디지털 어시스턴트에 대한 후속 요청을 하거나 또는 그렇지 않으면 실질적인 스피치를 전달하는 환경(210) 내의 사람이 또한, 오디오 정보(202)의 제공을 중단하는 것을 정당화할 것이다. 특히, 오디오 정보(202)는 사용자가 "중단", "조용히", "종료" 등과 같은 침묵화 또는 트리거링 커맨드를 말할 필요 없이 중단된다. 일부 실시예들에서, 오디오 정보(202)를 중단하는 것은 오디오 정보(202)를 페이드 아웃하는 것을 포함한다.Generally, the types of
일부 실시예들에서, 전자 디바이스(200)는 환경(210) 내의 외부 사운드 소스(204)의 위치에 적어도 부분적으로 기초하여 외부 사운드(206)의 타입을 결정한다. 일부 실시예들에서, 외부 사운드 소스(204)의 위치는 사운드 소스의 방향 및/또는 거리를 검출할 수 있는 마이크로폰 어레이를 사용하여 결정된다. 외부 사운드 소스(204)의 위치가 사람에 대응하는 경우(그리고, 옵션적으로, 외부 사운드(204)가 사람이 청취 또는 생각하고 있음을 나타내는 대화 사운드가 아닌 경우), 전자 디바이스(200)는 외부 사운드(204)가 실질적인 것으로 결정하고, 오디오 정보(202)의 제공을 중단한다. 그러나, 외부 사운드 소스(204)의 위치가 전자 디바이스(예컨대, 텔레비전 또는 라우드스피커)에 대응하는 것으로 결정되는 경우, 전자 디바이스(200)는 오디오 정보(202)를 제공하는 것을 계속한다. 이러한 방식으로, 전자 디바이스(200)는, 전자 디바이스에 의해 방출되는 외부 사운드(206)가 인간 스피치처럼 들릴 때에도(예컨대, 텔레비전 프로그램에서 말하는 어휘 발화), 오디오 정보(202)를 제공하는 것을 중단하지 않는다.In some embodiments,
일부 실시예들에서, 오디오 정보(202)의 제공을 중단한 후에, 전자 디바이스(200)는 적절한 시간까지 오디오 정보(202)를 재개하는 것을 대기한다. 예컨대, 사람이 환경(210) 내의 다른 사람에게 말하고 있는 경우, 전자 디바이스(200)는 2명의 사람들 사이의 추가 통신이 더 이상 예상되지 않을 때까지 오디오 정보(202)를 재개하는 것을 대기한다. 일부 실시예들에서, 전자 디바이스(200)는 시선, 얼굴 표정들, 및/또는 손 제스처들과 같은 외부 사운드들(206)을 만드는 하나 이상의 사람들의 시각적 특성들에 기초하여 추가 통신이 예상됨을 검출한다. 예컨대, 전자 디바이스(200)가 사람의 눈들이 말하는 것을 중단한 후에 상방을 응시하는 것을 검출하는 경우, 전자 디바이스(200)는 사람으로부터의 추가 스피치가 예상되는 것으로 결정하는데, 이는 상방 응시가 사람이 생각하고 있음을 나타내기 때문이다.In some embodiments, after ceasing to provide
오디오 정보(202)가 계속되는 것이 적절한 것으로 전자 디바이스(200)가 결정하면, 전자 디바이스(200)는 재개 오디오 정보(202)를 제공한다. 일부 실시예들에서, 전자 디바이스(200)는 오디오 정보(202)가 시선, 얼굴 표정들, 및/또는 손 제스처들과 같은 하나 이상의 사람들의 시각적 특성들에 기초하여, 오디오 정보(202)가 계속되는 것이 적절한 것으로 결정한다. 예컨대, 사람의 눈들이 스피커(들)(218)의 방향을 응시하고 있음을 시스템이 검출하는 경우, 전자 디바이스(200)는 재개 오디오 정보를 제공하는 것이 적절한 것으로 결정한다.If the
일부 실시예들에서, 오디오 정보(202)는 미리 정의된 세그먼트들로 분할되고, 재개 오디오 정보는 오디오 정보(202)가 중단되었던 세그먼트로 시작한다. 이러한 방식으로, 재개 오디오 정보는 전체 문구 또는 단어로 시작할 수 있다. 일부 실시예들에서, 재개 오디오 정보는 오디오 정보(202)의 이전에 제공된 세그먼트의 재구성된 버전을 포함한다. 오디오 정보(202)의 이전에 제공된 세그먼트의 재구성된 버전은, 동일한(예컨대, 축어적(verbatim) 오디오 정보를 반복하지 않으면서, 오디오 정보(202)가 중단되었던 지점을 청취자에게 상기시킨다.In some embodiments, the
이제 도 3을 참조하면, 다양한 실시예들에 따른, 오디오 정보를 제공하기 위한 예시적인 프로세스(300)의 흐름도가 도시된다. 프로세스(300)는 사용자 디바이스(예컨대, 100a, 200)를 사용하여 수행될 수 있다. 전자 디바이스는, 예컨대, 데스크톱 컴퓨터, 랩톱 컴퓨터, 핸드헬드 모바일 디바이스, 오디오 재생 디바이스, 텔레비전, 모니터, 헤드-마운트 디스플레이(HMD) 디바이스, 또는 헤드-업 디스플레이 디바이스이다. 다른 실시예들에서, 프로세스(300)는 베이스 디바이스와 같은 다른 디바이스에 통신가능하게 커플링되는 사용자 디바이스와 같은 2개 이상의 전자 디바이스들을 사용하여 수행됨이 인식되어야 한다. 이러한 실시예들에서, 프로세스(300)의 동작들은 임의의 방식으로 사용자 디바이스와 다른 디바이스 사이에 분배된다. 프로세스(300)의 블록들이 도 3의 특정 순서로 도시되어 있지만, 이러한 블록들은 다른 순서들로 수행될 수 있음이 이해되어야 한다. 추가로, 프로세스(300)의 하나 이상의 블록들은 부분적으로 수행될 수 있고/있거나, 옵션적으로 수행될 수 있고/있거나, 다른 블록(들)과 조합될 수 있고/있거나 추가 블록들이 수행될 수 있다.Referring now to FIG. 3 , a flow diagram of an
블록(302)에서, 수신된 입력에 응답하는 오디오 정보(예컨대, 202)는 스피커(예컨대, 118, 218)를 사용하여 제공된다. 일부 실시예들에서, 수신된 입력은 트리거링 커맨드를 포함한다.At
블록(304)에서, 오디오 정보를 제공하는 동안, 외부 사운드(예컨대, 206)가 검출된다.At
블록(306)에서, 외부 사운드가 제1 타입의 통신이라는 결정에 따라, 오디오 정보의 제공이 중단된다. 일부 실시예들에서, 오디오 정보의 제공을 중단하는 것은 오디오 정보를 페이드 아웃하는 것을 포함한다. 일부 실시예들에서, 제1 타입의 통신은 직접-발성 어휘 발화를 포함한다. 옵션적으로, 직접-발성 어휘 발화는 침묵화 명령들을 배제한다.At
일부 실시예들에서, 외부 사운드의 소스(예컨대, 204)에 대응하는 위치를 결정함으로써, 외부 사운드가 직접-발성 어휘 발화인 것으로 결정된다. 일부 실시예들에서, 외부 사운드의 소스에 대응하는 위치는 지향성 마이크로폰 어레이를 이용하여 결정된다.In some embodiments, the external sound is determined to be a direct-spoken lexical utterance by determining a location corresponding to a source of the external sound (eg, 204 ). In some embodiments, the location corresponding to the source of the external sound is determined using a directional microphone array.
블록(308)에서, 오디오 정보의 제공을 중단한 후에, 제1 타입의 통신과 연관된 하나 이상의 시각적 특성들이 검출된다. 하나 이상의 시각적 특성들은 시선, 얼굴 표정, 손 제스처, 또는 이들의 조합을 포함한다.At
블록(310)에서, 제1 타입의 통신이 중단된 것으로 검출된다.At
블록(312)에서, 제1 타입의 통신이 중단된 것을 검출하는 것에 대한 응답으로, 하나 이상의 시각적 특성들이 제1 타입의 추가 통신이 예상됨을 나타내는지 여부에 대한 결정이 이루어진다.At
블록(314)에서, 제1 타입의 추가 통신이 예상되지 않는다는 결정에 따라, 재개 오디오 정보가 제공된다. 일부 실시예들에서, 재개 오디오 정보는 오디오 정보의 제공을 중단한 후에, 그리고 제1 타입의 통신이 중단되었다는 결정에 따라 제공된다. 일부 실시예들에서, 오디오 정보는 미리 정의된 세그먼트들로 분할되고, 재개 오디오 정보는 오디오 정보가 중단되었던 세그먼트로 시작된다. 일부 실시예들에서, 재개 오디오 정보는 오디오 정보의 이전에 제공된 세그먼트의 재구성된 버전을 포함한다.At
블록(316)에서, 제1 타입의 추가 통신이 예상된다는 결정에 따라, 오디오 정보의 제공은 계속해서 중단된다.At
블록(318)에서, 외부 사운드가 제2 타입의 통신이라는 결정에 따라, 오디오 정보의 제공이 계속된다. 일부 실시예들에서, 제2 타입의 통신은 대화 사운드들(사람이 청취 또는 생각하고 있음을 나타내는 사운드들, 예컨대, "흠", "음", "오케이", "으응", "예", "알겠어요" 등)을 포함한다. 일부 실시예들에서, 제2 타입의 통신은 압축 오디오를 포함한다. 일부 실시예들에서, 제2 타입의 통신은 전자 디바이스에 의해 재생되는 어휘 발화(예컨대, 스피치)를 포함한다. 일부 실시예들에서, 외부 사운드는 외부 사운드의 소스(예컨대, 204)에 대응하는 위치를 결정함으로써, 전자 디바이스에 의해 재생되는 어휘 발화인 것으로 결정된다. 일부 실시예들에서, 외부 사운드의 소스의 위치는 지향성 마이크로폰 어레이를 이용하여 결정된다.At
이제 도 4을 참조하면, 다양한 실시예들에 따른, 오디오 정보를 제공하기 위한 예시적인 프로세스(400)의 흐름도가 도시된다. 프로세스(400)는 사용자 디바이스(예컨대, 100a, 200)를 사용하여 수행될 수 있다. 전자 디바이스는, 예컨대, 데스크톱 컴퓨터, 랩톱 컴퓨터, 핸드헬드 모바일 디바이스, 오디오 재생 디바이스, 텔레비전, 모니터, 헤드-마운트 디스플레이(HMD) 디바이스, 또는 헤드-업 디스플레이 디바이스이다. 다른 실시예들에서, 프로세스(400)는 베이스 디바이스와 같은 다른 디바이스에 통신가능하게 커플링되는 사용자 디바이스와 같은 2개 이상의 전자 디바이스들을 사용하여 수행됨이 인식되어야 한다. 이러한 실시예들에서, 프로세스(400)의 동작들은 임의의 방식으로 사용자 디바이스와 다른 디바이스 사이에 분배된다. 프로세스(400)의 블록들이 도 4의 특정 순서로 도시되어 있지만, 이러한 블록들은 다른 순서들로 수행될 수 있음이 이해되어야 한다. 추가로, 프로세스(400)의 하나 이상의 블록들은 부분적으로 수행될 수 있고/있거나, 옵션적으로 수행될 수 있고/있거나, 다른 블록(들)과 조합될 수 있고/있거나 추가 블록들이 수행될 수 있다.Referring now to FIG. 4 , a flow diagram of an
블록(402)에서, 하나 이상의 명령들을 포함하는 스피치 입력이 소스로부터 수신된다.At
블록(404)에서, 스피치 입력의 소스와 연관된 하나 이상의 시각적 특성들이 검출된다. 하나 이상의 시각적 특성들은 시선, 얼굴 표정, 손 제스처, 또는 이들의 조합을 포함한다.At
블록(406)에서, 스피치 입력이 중단된 것으로 검출된다.At
블록(408)에서, 스피치 입력이 중단된 것을 검출하는 것에 대한 응답으로, 소스와 연관된 하나 이상의 시각적 특성들이 소스로부터의 추가 스피치 입력이 예상됨을 나타내는지 여부에 대한 결정이 이루어진다.At
블록(410)에서, 소스로부터의 추가 스피치 입력이 예상되지 않는다는 결정에 따라, 하나 이상의 명령들에 대한 응답이 제공된다.At
블록(412)에서, 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 하나 이상의 명령들에 대한 응답이 제공되지 않는다. 일부 실시예들에서, 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 미리 결정된 시간 동안 하나 이상의 명령들에 대한 응답이 제공되지 않는다. 미리 결정된 시간 후에, 그리고 소스로부터의 스피치 입력이 재개되지 않았다는 결정에 따라, 하나 이상의 명령들에 대한 응답이 제공된다.At
전술된 방법들(300 및/또는 400)의 특징부들을 수행하기 위한 실행가능 명령들은, 옵션적으로, 일시적인 또는 비-일시적 컴퓨터-판독가능 저장 매체(예컨대, 메모리(들)(106)) 또는 하나 이상의 프로세서들(예컨대, 프로세서(들)(102))에 의한 실행을 위해 구성된 기타 컴퓨터 프로그램 제품에 포함된다. 추가로, 방법(300)에서의 일부 동작들은 옵션적으로 방법(400)에 포함되고, 방법(400)에서의 일부 동작들은 옵션적으로 방법(300)에 포함된다.Executable instructions for performing the features of
특정 실시 형태들에 대한 전술한 설명들은 예시 및 설명의 목적으로 제시되었다. 이들은 총망라하거나 청구범위의 범주를 개시된 정확한 형태로 제한하고자 하는 것이 아니며, 상기 교시를 고려하여 많은 수정 및 변형이 가능하다는 것을 이해하여야 한다.The foregoing descriptions of specific embodiments have been presented for purposes of illustration and description. It should be understood that they are not intended to be exhaustive or to limit the scope of the claims to the precise forms disclosed, and that many modifications and variations are possible in light of the above teachings.
Claims (21)
소스로부터 스피치 입력을 수신하는 단계 - 상기 스피치 입력은 하나 이상의 명령을 포함함 -;
상기 스피치 입력의 상기 소스와 연관된 하나 이상의 제1 시각적 특성을 검출하는 단계;
상기 스피치 입력이 중단된 것을 검출하는 단계;
상기 스피치 입력이 중단된 것을 검출하는 것에 대한 응답으로, 상기 소스와 연관된 상기 하나 이상의 제1 시각적 특성이 상기 소스로부터의 추가 스피치 입력이 예상됨을 나타내는지 여부를 결정하는 단계;
상기 소스로부터의 추가 스피치 입력이 예상되지 않는다는 결정에 따라, 상기 하나 이상의 명령에 대한 응답을 제공하는 단계; 및
상기 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 상기 하나 이상의 명령에 대한 응답을 제공하지 않는 단계를 포함하는, 방법.As a method,
receiving speech input from a source, the speech input comprising one or more commands;
detecting one or more first visual characteristics associated with the source of the speech input;
detecting that the speech input has stopped;
in response to detecting that the speech input has been discontinued, determining whether the one or more first visual characteristics associated with the source indicate that additional speech input from the source is expected;
upon a determination that no additional speech input from the source is expected, providing a response to the one or more commands; and
and in accordance with a determination that additional speech input from the source is expected, not providing a response to the one or more commands.
상기 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 미리 결정된 시간 동안 상기 하나 이상의 명령에 대한 상기 응답을 제공하지 않는 단계; 및
상기 미리 결정된 시간 후에, 그리고 상기 소스로부터의 상기 스피치 입력이 재개되지 않았다는 결정에 따라, 상기 하나 이상의 명령에 대한 상기 응답을 제공하는 단계를 더 포함하는, 방법.According to claim 1,
upon a determination that additional speech input from the source is expected, not providing the response to the one or more commands for a predetermined amount of time; and
providing the response to the one or more commands after the predetermined time and upon a determination that the speech input from the source has not been resumed.
상기 하나 이상의 명령에 대한 상기 응답을 제공하는 동안, 외부 사운드를 검출하는 단계;
상기 외부 사운드가 제1 타입의 통신이라는 결정에 따라, 상기 하나 이상의 명령에 대한 상기 응답의 제공을 중단하는 단계; 및
상기 외부 사운드가 제2 타입의 통신이라는 결정에 따라, 상기 하나 이상의 명령에 대한 상기 응답의 제공을 계속하는 단계를 더 포함하는, 방법.According to claim 1,
while providing the response to the one or more commands, detecting an external sound;
upon determining that the external sound is a first type of communication, ceasing to provide the response to the one or more commands; and
continuing to provide the response to the one or more commands upon a determination that the external sound is a second type of communication.
상기 하나 이상의 명령에 대한 상기 응답의 제공을 중단한 후:
상기 제1 타입의 통신과 연관된 하나 이상의 제2 시각적 특성을 검출하는 단계; 및
상기 제1 타입의 통신이 중단된 것을 검출하는 단계;
상기 제1 타입의 통신이 중단된 것을 검출하는 것에 대한 응답으로, 상기 하나 이상의 제2 시각적 특성이 상기 제1 타입의 추가 통신이 예상됨을 나타내는지 여부를 결정하는 단계;
상기 제1 타입의 추가 통신이 예상되지 않는다는 결정에 따라, 상기 하나 이상의 명령에 대한 재개 응답(resumed response)을 제공하는 단계; 및
상기 제1 타입의 추가 통신이 예상된다는 결정에 따라, 상기 하나 이상의 명령에 대한 상기 응답의 제공을 중단하는 것을 계속하는 단계를 더 포함하는, 방법.According to claim 4,
After ceasing to provide the response to the one or more commands:
detecting one or more second visual characteristics associated with the first type of communication; and
detecting that the first type of communication is discontinued;
in response to detecting that the first type of communication has been discontinued, determining whether the one or more second visual characteristics indicate that further communication of the first type is expected;
upon a determination that no further communication of the first type is expected, providing a resumed response to the one or more commands; and
continuing to provide the response to the one or more commands upon a determination that further communication of the first type is expected.
상기 외부 사운드의 소스에 대응하는 위치를 결정함으로써, 상기 외부 사운드가 직접-발성 어휘 발화인 것으로 결정하는 단계를 더 포함하는, 방법.According to claim 11,
determining that the external sound is a direct-spoken lexical utterance by determining a location corresponding to a source of the external sound.
상기 외부 사운드의 소스에 대응하는 위치를 결정함으로써, 상기 외부 사운드가 전자 디바이스에 의해 재생되는 어휘 발화인 것으로 결정하는 단계를 더 포함하는, 방법.According to claim 17,
determining that the external sound is a lexical utterance reproduced by the electronic device by determining a location corresponding to a source of the external sound.
하나 이상의 프로세서; 및
상기 하나 이상의 프로세서에 의해 실행되도록 구성된 하나 이상의 프로그램을 저장한 메모리를 포함하며, 상기 하나 이상의 프로그램은 제1항 내지 제19항 중 어느 한 항의 방법을 수행하기 위한 명령어들을 포함하는, 전자 디바이스.As an electronic device,
one or more processors; and
An electronic device comprising a memory storing one or more programs configured to be executed by the one or more processors, the one or more programs including instructions for performing the method of any one of claims 1 to 19.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020247009443A KR20240042222A (en) | 2018-06-01 | 2019-04-24 | Providing audio information with a digital assistant |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862679644P | 2018-06-01 | 2018-06-01 | |
US62/679,644 | 2018-06-01 | ||
KR1020207034292A KR102488285B1 (en) | 2018-06-01 | 2019-04-24 | Providing audio information using a digital assistant |
PCT/US2019/028976 WO2019231587A1 (en) | 2018-06-01 | 2019-04-24 | Providing audio information with a digital assistant |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207034292A Division KR102488285B1 (en) | 2018-06-01 | 2019-04-24 | Providing audio information using a digital assistant |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020247009443A Division KR20240042222A (en) | 2018-06-01 | 2019-04-24 | Providing audio information with a digital assistant |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230010845A true KR20230010845A (en) | 2023-01-19 |
KR102651249B1 KR102651249B1 (en) | 2024-03-27 |
Family
ID=66821327
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207034292A KR102488285B1 (en) | 2018-06-01 | 2019-04-24 | Providing audio information using a digital assistant |
KR1020247009443A KR20240042222A (en) | 2018-06-01 | 2019-04-24 | Providing audio information with a digital assistant |
KR1020237001029A KR102651249B1 (en) | 2018-06-01 | 2019-04-24 | Providing audio information with a digital assistant |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207034292A KR102488285B1 (en) | 2018-06-01 | 2019-04-24 | Providing audio information using a digital assistant |
KR1020247009443A KR20240042222A (en) | 2018-06-01 | 2019-04-24 | Providing audio information with a digital assistant |
Country Status (6)
Country | Link |
---|---|
US (3) | US11609739B2 (en) |
EP (1) | EP3782017A1 (en) |
KR (3) | KR102488285B1 (en) |
CN (1) | CN112154412A (en) |
AU (2) | AU2019279597B2 (en) |
WO (1) | WO2019231587A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3782017A1 (en) | 2018-06-01 | 2021-02-24 | Apple Inc. | Providing audio information with a digital assistant |
SE545310C2 (en) * | 2019-12-20 | 2023-06-27 | Tobii Ab | Improved turn-taking |
US11740856B2 (en) * | 2021-01-07 | 2023-08-29 | Meta Platforms, Inc. | Systems and methods for resolving overlapping speech in a communication session |
CN116015996B (en) * | 2023-03-28 | 2023-06-02 | 南昌航天广信科技有限责任公司 | Digital conference audio processing method and system |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150109191A1 (en) * | 2012-02-16 | 2015-04-23 | Google Inc. | Speech Recognition |
US20150280670A1 (en) * | 2014-04-01 | 2015-10-01 | Google Inc. | Attention-based dynamic audio level adjustment |
KR20150112337A (en) * | 2014-03-27 | 2015-10-07 | 삼성전자주식회사 | display apparatus and user interaction method thereof |
US20150348551A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
KR20170100067A (en) * | 2015-09-08 | 2017-09-01 | 애플 인크. | Intelligent automated assistant in a media environment |
WO2018043112A1 (en) * | 2016-08-29 | 2018-03-08 | ソニー株式会社 | Information presentation apparatus and information presentation method |
KR20180032632A (en) * | 2015-09-08 | 2018-03-30 | 애플 인크. | Zero Latency Digital Assistant |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3272906B2 (en) * | 1995-05-29 | 2002-04-08 | シャープ株式会社 | Gaze direction detecting method and apparatus and man-machine interface apparatus including the same |
TWI241828B (en) * | 2004-02-18 | 2005-10-11 | Partner Tech Corp | Handheld personal data assistant (PDA) for communicating with a mobile in music-playing operation |
US20050191971A1 (en) * | 2004-02-26 | 2005-09-01 | Boone Michael K. | Assisted listening device |
CN1780374A (en) * | 2004-11-24 | 2006-05-31 | 上海乐金广电电子有限公司 | Multifunctional controlling method by key operating technology in digit signalling receiver |
US20120072936A1 (en) * | 2010-09-20 | 2012-03-22 | Microsoft Corporation | Automatic Customized Advertisement Generation System |
US8954177B2 (en) * | 2011-06-01 | 2015-02-10 | Apple Inc. | Controlling operation of a media device based upon whether a presentation device is currently being worn by a user |
EP2986014A1 (en) * | 2011-08-05 | 2016-02-17 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
WO2013170383A1 (en) * | 2012-05-16 | 2013-11-21 | Xtreme Interactions Inc. | System, device and method for processing interlaced multimodal user input |
JP5720656B2 (en) * | 2012-11-02 | 2015-05-20 | ヤマハ株式会社 | Music system management method |
EP2760015A1 (en) * | 2013-01-23 | 2014-07-30 | BlackBerry Limited | Event-triggered hands-free multitasking for media playback |
CN104969289B (en) | 2013-02-07 | 2021-05-28 | 苹果公司 | Voice trigger of digital assistant |
US9270244B2 (en) * | 2013-03-13 | 2016-02-23 | Personics Holdings, Llc | System and method to detect close voice sources and automatically enhance situation awareness |
EP3382443B1 (en) * | 2014-03-21 | 2023-07-26 | Samsung Electronics Co., Ltd. | Head-mounted display and method of operating the same |
KR102188268B1 (en) * | 2014-10-08 | 2020-12-08 | 엘지전자 주식회사 | Mobile terminal and method for controlling the same |
KR20160071732A (en) * | 2014-12-12 | 2016-06-22 | 삼성전자주식회사 | Method and apparatus for processing voice input |
US9911416B2 (en) * | 2015-03-27 | 2018-03-06 | Qualcomm Incorporated | Controlling electronic device based on direction of speech |
US9646628B1 (en) * | 2015-06-26 | 2017-05-09 | Amazon Technologies, Inc. | Noise cancellation for open microphone mode |
JP2017090611A (en) | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | Voice recognition control system |
EP3188495B1 (en) * | 2015-12-30 | 2020-11-18 | GN Audio A/S | A headset with hear-through mode |
US20170318374A1 (en) | 2016-05-02 | 2017-11-02 | Microsoft Technology Licensing, Llc | Headset, an apparatus and a method with automatic selective voice pass-through |
US9922655B2 (en) * | 2016-05-31 | 2018-03-20 | International Business Machines Corporation | System, method, and recording medium for controlling dialogue interruptions by a speech output device |
US9877100B1 (en) * | 2016-08-29 | 2018-01-23 | Motorola Mobility Llc | Audio sensing to alert device user |
WO2019002937A2 (en) * | 2017-06-26 | 2019-01-03 | Inpris Innovative Products Form Israel, Ltd | Systems using dual touch and sound control, and methods thereof |
WO2019163109A1 (en) * | 2018-02-23 | 2019-08-29 | ヤマハ株式会社 | Control device, vehicle, sound emission device, and program |
EP3782017A1 (en) | 2018-06-01 | 2021-02-24 | Apple Inc. | Providing audio information with a digital assistant |
US10681453B1 (en) * | 2019-06-12 | 2020-06-09 | Bose Corporation | Automatic active noise reduction (ANR) control to improve user interaction |
-
2019
- 2019-04-24 EP EP19729898.7A patent/EP3782017A1/en active Pending
- 2019-04-24 CN CN201980033654.5A patent/CN112154412A/en active Pending
- 2019-04-24 AU AU2019279597A patent/AU2019279597B2/en active Active
- 2019-04-24 KR KR1020207034292A patent/KR102488285B1/en active IP Right Grant
- 2019-04-24 KR KR1020247009443A patent/KR20240042222A/en unknown
- 2019-04-24 KR KR1020237001029A patent/KR102651249B1/en active IP Right Grant
- 2019-04-24 WO PCT/US2019/028976 patent/WO2019231587A1/en unknown
- 2019-04-24 US US17/056,126 patent/US11609739B2/en active Active
-
2022
- 2022-02-17 AU AU2022201037A patent/AU2022201037B2/en active Active
-
2023
- 2023-03-20 US US18/123,886 patent/US11861265B2/en active Active
- 2023-11-14 US US18/389,485 patent/US20240086147A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150109191A1 (en) * | 2012-02-16 | 2015-04-23 | Google Inc. | Speech Recognition |
KR20150112337A (en) * | 2014-03-27 | 2015-10-07 | 삼성전자주식회사 | display apparatus and user interaction method thereof |
US20150280670A1 (en) * | 2014-04-01 | 2015-10-01 | Google Inc. | Attention-based dynamic audio level adjustment |
US20150348551A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
KR20170100067A (en) * | 2015-09-08 | 2017-09-01 | 애플 인크. | Intelligent automated assistant in a media environment |
KR20180032632A (en) * | 2015-09-08 | 2018-03-30 | 애플 인크. | Zero Latency Digital Assistant |
WO2018043112A1 (en) * | 2016-08-29 | 2018-03-08 | ソニー株式会社 | Information presentation apparatus and information presentation method |
Also Published As
Publication number | Publication date |
---|---|
US20210224031A1 (en) | 2021-07-22 |
KR20240042222A (en) | 2024-04-01 |
CN112154412A (en) | 2020-12-29 |
EP3782017A1 (en) | 2021-02-24 |
AU2019279597A1 (en) | 2020-12-10 |
KR102651249B1 (en) | 2024-03-27 |
WO2019231587A1 (en) | 2019-12-05 |
US20240086147A1 (en) | 2024-03-14 |
US20230229387A1 (en) | 2023-07-20 |
KR20210005200A (en) | 2021-01-13 |
KR102488285B1 (en) | 2023-01-13 |
AU2022201037A1 (en) | 2022-03-10 |
US11609739B2 (en) | 2023-03-21 |
US11861265B2 (en) | 2024-01-02 |
AU2019279597B2 (en) | 2021-11-18 |
AU2022201037B2 (en) | 2023-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102488285B1 (en) | Providing audio information using a digital assistant | |
US10529360B2 (en) | Speech enhancement method and apparatus for same | |
EP3179474B1 (en) | User focus activated voice recognition | |
CN106462383B (en) | Hands-free device with directional interface | |
US10321204B2 (en) | Intelligent closed captioning | |
TWI603258B (en) | Dynamic thresholds for always listening speech trigger | |
US20190013025A1 (en) | Providing an ambient assist mode for computing devices | |
US20180018965A1 (en) | Combining Gesture and Voice User Interfaces | |
US10325614B2 (en) | Voice-based realtime audio attenuation | |
WO2019107145A1 (en) | Information processing device and information processing method | |
KR20230173211A (en) | Adapting automated assistant based on detected mouth movement and/or gaze | |
WO2019138651A1 (en) | Information processing device, information processing system, information processing method and program | |
CN115605948A (en) | Arbitration between multiple potentially responsive electronic devices | |
CN111145604A (en) | Method and device for recognizing picture books and computer readable storage medium | |
CN112236739B (en) | Adaptive automatic assistant based on detected mouth movement and/or gaze | |
KR20230088086A (en) | Device and method of handling misrecognized audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |