CN110300946B - 智能助理 - Google Patents

智能助理 Download PDF

Info

Publication number
CN110300946B
CN110300946B CN201880011910.6A CN201880011910A CN110300946B CN 110300946 B CN110300946 B CN 110300946B CN 201880011910 A CN201880011910 A CN 201880011910A CN 110300946 B CN110300946 B CN 110300946B
Authority
CN
China
Prior art keywords
algorithm
tracking
output
user
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880011910.6A
Other languages
English (en)
Other versions
CN110300946A (zh
Inventor
H·阿尔巴大卫
Z·刘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN202111348785.8A priority Critical patent/CN113986016A/zh
Publication of CN110300946A publication Critical patent/CN110300946A/zh
Application granted granted Critical
Publication of CN110300946B publication Critical patent/CN110300946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/0205Simultaneously evaluating both cardiovascular conditions and different types of body conditions, e.g. heart and respiratory condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves 
    • A61B5/0507Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves  using microwaves or terahertz waves
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1113Local tracking of patients, e.g. in a hospital or private home
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/117Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7475User input or interface means, e.g. keyboard, pointing device, joystick
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/66Radar-tracking systems; Analogous systems
    • G01S13/72Radar-tracking systems; Analogous systems for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar
    • G01S13/723Radar-tracking systems; Analogous systems for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar by using numerical data
    • G01S13/726Multiple target tracking
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/28Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves by co-ordinating position lines of different shape, e.g. hyperbolic, circular, elliptical or radial
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/324Power saving characterised by the action undertaken by lowering clock frequency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/329Power saving characterised by the action undertaken by task scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/34User authentication involving the use of external additional devices, e.g. dongles or smart cards
    • G06F21/35User authentication involving the use of external additional devices, e.g. dongles or smart cards communicating wirelessly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • G06N5/047Pattern matching networks; Rete networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/28Individual registration on entry or exit involving the use of a pass the pass enabling tracking or indicating presence
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/02Mechanical actuation
    • G08B13/14Mechanical actuation by lifting or attempted removal of hand-portable articles
    • G08B13/1427Mechanical actuation by lifting or attempted removal of hand-portable articles with transmitter-receiver for distance detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/102Entity profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • H04N21/44224Monitoring of user activity on external systems, e.g. Internet browsing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/10Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
    • H04N23/11Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths for generating image signals from visible and infrared light wavelengths
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/33Services specially adapted for particular environments, situations or purposes for indoor environments, e.g. buildings
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves 
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1118Determining activity level
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/02Systems using reflection of radio waves, e.g. primary radar systems; Analogous systems
    • G01S13/06Systems determining position data of a target
    • G01S13/08Systems for measuring distance only
    • G01S13/32Systems for measuring distance only using transmission of continuous waves, whether amplitude-, frequency-, or phase-modulated, or unmodulated
    • G01S13/36Systems for measuring distance only using transmission of continuous waves, whether amplitude-, frequency-, or phase-modulated, or unmodulated with phase comparison between the received signal and the contemporaneously transmitted signal
    • G01S13/38Systems for measuring distance only using transmission of continuous waves, whether amplitude-, frequency-, or phase-modulated, or unmodulated with phase comparison between the received signal and the contemporaneously transmitted signal wherein more than one modulation frequency is used
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/887Radar or analogous systems specially adapted for specific applications for detection of concealed objects, e.g. contraband or weapons
    • G01S13/888Radar or analogous systems specially adapted for specific applications for detection of concealed objects, e.g. contraband or weapons through wall detection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/16Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using electromagnetic waves other than radio waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2111Location-sensitive, e.g. geographical location, GPS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2117User registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20101Interactive definition of point of interest, landmark or seed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/05Recognition of patterns representing particular kinds of hidden objects, e.g. weapons, explosives, drugs
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B29/00Checking or monitoring of signalling or alarm systems; Prevention or correction of operating errors, e.g. preventing unauthorised operation
    • G08B29/18Prevention or correction of operating errors
    • G08B29/185Signal analysis techniques for reducing or preventing false alarms or for enhancing the reliability of the system
    • G08B29/186Fuzzy logic; neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Molecular Biology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Pathology (AREA)
  • Social Psychology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Physiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)

Abstract

本文公开了与实体跟踪相关的示例。一个示例提供了一种计算设备:包括逻辑处理器;以及存储设备,该存储设备保存可由逻辑处理器执行的指令以:接收包括人的环境的图像数据、使用面部检测算法处理图像数据以便以第一频率产生第一面部检测输出、基于第一面部检测输出确定人的身份、以及使用与面部检测算法相比使用更少的计算设备的计算资源的另一算法处理图像数据。该指令可进一步执行以基于跟踪输出跟踪环境中的人,以及执行以下中的一者或多者:使用第二面部检测输出更新另一算法,以及使用跟踪输出更新面部检测算法。

Description

智能助理
背景
经由诸如话音识别、文本、姿势识别、运动检测、注视检测、意图识别、大脑活动评估、文本、家庭自动化设备的状态等中的一者或多者的自然交互与计算系统进行交互可实现自然的用户界面体验。随着数字信息量和计算设备数量的增加,管理此类自然用户交互界面以提供积极的用户体验可能具有挑战性。
附图简述
图1示出了根据本公开的一示例的具有一体化计算设备形式的智能助理系统的示例环境。
图2示意性地示出了根据本公开的一示例的用于实现智能助理系统的示例逻辑架构。
图3示意性地示出了根据本公开的一示例的可被话音监听器使用的语音识别程序。
图4示出了根据本公开的一示例的意图模板。
图5示意性地示出了根据本公开的一示例的处理一部分对话的解析器和意图处理器。
图6A和6B示出了根据本公开的各示例的用于解决意图模板中的缺失和/或未辨析的信息的方法。
图7示意性地示出了根据本公开的各示例的可确定一个或多个实体的身份、位置和/或当前状态的实体跟踪器。
图8示意性地示出了根据本公开的各示例的在多个时间帧上接收并解释传感器数据的实体跟踪器。
图9示意性地示出了根据本公开的一示例的经由实体跟踪器的传感器置信度随时间衰减的示例。
图10示意性地示出了根据本公开的各示例的使用经训练的话音识别引擎来识别人的语音的示例。
图11示意性地示出了根据本公开的各示例的使用音频数据的子片段来训练话音模型的示例。
图12示意性地示出了根据本公开的各示例的交叉评估音频数据的子片段以确定有源扬声器是否已经改变的示例。
图13示出了根据本公开的各示例的成本函数的示意图。
图14示出了根据本公开的各示例的用于确定通知的成本和不通知的成本的方法的流程图。
图15示出了根据本公开的各示例的阈值更新模块的示意性表示。
图16示出了根据本公开的各示例的用于更新阈值数据的方法的流程图。
图17示意性地示出了根据本公开的各示例的实现智能助理系统的一体化计算设备。
图18示意性地示出了根据本公开的各示例的一个或多个远程服务执行智能助理系统的功能的一个示例实现。
图19示意性地示出了根据本公开的各示例的一个或多个远程服务执行智能助理系统的功能的另一示例实现。
图20示意性地示出了根据本公开的各示例的一个或多个远程服务利用设备选择器的另一示例实现。
图21示意性地示出了在检测到一个或多个口述关键字时智能助理系统的一个或多个功能被激活的示例实现。
图22示意性地示出了根据本公开的各示例的响应于话音激活(诸)传感器和(诸)输出设备被选择的多设备环境的示例实现。
图23示意性地示出了根据本公开的各示例的计算系统。
图24示意性地示出了可从不同图像处理算法中选择的实体跟踪器的一部分。
图25例示了在存在实体运动和遮挡的情况下执行实体跟踪的示例情形。
图26显示例示一种实体跟踪方法的流程图。
概述
提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的概念的选集。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,亦非旨在用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任一部分中提及的任何或所有缺点的实现。
公开了与实体跟踪有关的计算设备和方法。在一个示例中,一种计算设备包括逻辑处理器;以及存储设备,所述存储设备保存可由所述逻辑处理器执行的指令以:接收包括人的环境的图像数据、使用面部检测算法处理所述图像数据以便以第一频率产生第一面部检测输出、基于所述第一面部检测输出确定所述人的身份、以及使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的另一算法处理所述图像数据。该指令可进一步执行以基于跟踪输出跟踪环境中的人;以及执行以下中的一者或多者:使用第二面部检测输出更新另一算法,以及使用跟踪输出更新面部检测算法。
详细描述
概览
本公开一般涉及用于向用户提供智能助理的系统、方法和逻辑构造。在一些示例中,各种传感器数据可被用于智能地确定传递给用户的消息的内容和/或时间和/或动作的性能。在一些示例中,诸如用户命令和其他话语之类的自然语言输入可被接收并被处理。在一些示例中,自然语言输入可被解析并被分析以生成与输入相关联的一个或多个用户意图的指示。在一些示例中,来自一个或多个传感器的数据也可被用于处理自然语言输入和/或用户意图。此类数据可被处理以生成与传感器范围内的一个或多个实体相关的身份、定位/位置、状态/活动、和/或其他信息。基于当前和过去数据的统计概率可被用于生成与实体信息相关联的置信值。
用户意图可被处理以至少部分地辨析言语、语义和/或其他歧义。使用由此产生的明确意图,可生成用于执行意图的承诺,也可执行或存储该承诺。在确定是否以及何时执行承诺时,可以检查一个或多个因素。在一些示例中,可对与承诺对特定用户的重要性、用户接收输入的接收能力和/或用户当前上下文有关的因素进行估计。机器学习技术可被应用于此类因素和其他数据,以便从此类信息中学习和作出预测。
以下是对用于处理自然语言输入的智能助理系统的示例实现和用例的描述。下文提供此系统的各个方面的附加细节。
示例环境
图1示出了具有一体化计算设备10形式的智能助理系统的一个示例的起居室4的示例。如下文更详细描述的,在一些示例中,计算设备10可被配置成接收和处理自然语言输入。用户可将智能助理系统用于无数功能。例如,用户可提供自然语言输入以要求智能助理系统执行各种任务,诸如将计算机游戏的实例从一个设备传送到另一个设备。在另一示例中,可在没有来自用户的输入的情况下以编程方式执行此类传送。例如,计算设备10可利用诸如音频和/或视频数据之类的传感器数据来检测用户何时移动到另一个房间并且正在查看另一设备或与另一设备“接合”。使用此数据,计算设备10可自动地将计算机游戏的实例传送到其他设备。
用户可向系统询问有关各种主题的信息,例如天气、个人日历事件、电影放映时间等。在一些示例中,智能助理系统还可被配置成控制位于起居室4内的元件,诸如电视6、音乐系统的扬声器8、燃气壁炉14或电动窗帘16。
智能助理系统还可被用于接收和存储将在合适的未来时刻被递送的消息和/或提醒。使用从各传感器接收到的数据,智能助理系统可跟踪一个或多个用户或其他实体和/或与一个或多个用户或其他实体通信。
在一些示例中,智能系统可利用从集成在计算设备10中的一个或多个图像传感器接收到的图像数据来执行与用户相关的任务。为此,图1示出了集成在计算设备10中的图像传感器17,其被配置成捕捉包括用户在内的周围环境的图像数据。然而,两个或任何其他适当数量的图像传感器可被集成在计算设备中。除了或代替图像传感器17之外,还可利用远离计算设备10定位的一个或多个其他图像传感器来收集用户的图像数据。作为示例,图1示出了安装在电视机6顶部的图像传感器19(例如,集成在电视机外壳内或作为诸如网络摄像头之类的单独设备来提供)。计算设备10可经由下文描述的合适网络通信地耦合到图像传感器19。此外,图像传感器19收集的图像数据可由远离环境定位的一个或多个计算设备使用,例如智能助理系统被实现在此类远程计算设备上,以代替或补充计算设备10。
一旦用户被标识,智能系统就可通过使用不同的跟踪算法处理图像数据来跟踪用户的定位。智能系统可从不同的跟踪算法中进行选择以确定跟踪用户的方式,从而减少与用户跟踪相关的计算开销。此外,来自一个跟踪算法的输出可被用作针对另一跟踪算法(和/或非用户跟踪算法)的输入,以提高计算效率和跟踪鲁棒性。关于不同跟踪算法的使用细节如下文图7和8所描述的。
在一些示例中,计算设备10可使用有线连接与一个或多个其他计算设备和/或传感器可操作地连接,或者可经由Wi-Fi、蓝牙或任何其他合适的无线通信协议采用无线连接。例如,计算设备10可经由网络通信地耦合到一个或多个其他计算设备。网络可采取局域网(LAN)、广域网(WAN)、有线网络、无线网络、个域网、或其组合的形式,并且可包括因特网。关于计算设备10的组件和计算方面的附加细节在下文中参考图23更详细地描述。
应当理解,图1的计算设备10仅仅是本公开的智能助理系统的一个示例实现。跨两个或更多个设备的附加示例实现在图17-22中被例示并且在下文中更详细地被描述。
架构
图2示出了根据本公开的各示例的用于实现能够识别并响应自然语言输入的智能助理系统20的示例逻辑架构。如下文更详细地描述的,在各种示例中,系统20可在单个计算设备中被实现、可跨两个或更多个设备被实现、可在支持云的网络中被实现以及在前述各项的组合中被实现。
在此示例中,智能助理系统20包括至少一个传感器22、实体跟踪器100、话音监听器30、解析器40、意图处理器50、承诺引擎60和至少一个输出设备70。在一些示例中,传感器22可包括一个或多个话筒24、可见光相机26(例如图像传感器19)、红外相机27(例如图像传感器17)和诸如Wi-Fi或蓝牙模块之类的连接设备28。在一些示例中,(诸)传感器22可包括立体和/或深度相机、头部跟踪器、眼睛跟踪器、加速度计、陀螺仪、注视检测设备、电场感测部件、GPS或其他位置跟踪设备、温度传感器、设备状态传感器、和/或任何其他合适的传感器。
实体跟踪器100被配置成检测实体(包括人、动物或其他生物以及非生物对象)及其活动。实体跟踪器100包括实体标识符104,其被配置成识别各个用户和/或非生命对象。话音监听器30接收音频数据并利用语音识别功能将口述话语翻译成文本。话音监听器还可为经翻译的文本分配(诸)置信值,并可执行发言者识别以确定正在发言的人的身份,以及为此类标识的准确度分配概率。解析器40分析从话音监听器30接收到的文本和置信值以导出用户意图并生成相应的机器可执行语言。
意图处理器50从解析器40接收表示用户意图的机器可执行语言,并辨析缺失的和有歧义的信息以生成承诺。承诺引擎60存储来自意图处理器50的各承诺。在上下文适当的时间,承诺引擎可递送一个或多个消息和/或执行与一个或多个承诺相关联的一个或多个动作。承诺引擎60可将消息存储在消息队列62中或者使一个或多个输出设备70生成输出。输出设备70可包括(诸)扬声器72、(诸)视频显示器74、(诸)指示灯76、(诸)触觉设备78和/或其他合适的输出设备中的一者或多者。在其他示例中,输出设备70可包括可经由承诺引擎60执行的动作被控制的诸如家庭照明、恒温器、媒体程序、门锁等一个或多个其他设备或系统。
在不同的示例中,话音监听器30、解析器40、意图处理器50、承诺引擎60和/或实体跟踪器100可被包含于存储在存储器中并由计算设备的一个或多个处理器执行的软件中。下文参考图23更详细地描述关于可存储并执行这些模块的计算设备的组件和计算方面的附加细节。
现在将提供对智能助理系统20的各组件的附加描述。在一些示例中,话音监听器30可从周围环境接收音频数据。在一些示例中,诸如在图1的计算设备10中,话音监听器30可包含被具体化在包括一个或多个话筒的独立设备中的软件模块。在其他示例中,话音监听器30软件模块可被存储在远离用户环境的计算设备的存储器中(诸如在基于云的服务中)。在一些示例中,话音监听器30在执行下文更详细地描述的其功能时,可接收并利用来自一个或多个其他传感器的附加数据。
话音监听器30可包括将口述话语的音频数据翻译成文本的语音识别功能。如下文更详细地描述的,话音监听器30还可将置信值分配给翻译文本的一个或多个部分,诸如单个语音成分、单词、短语等。现在参考图3,在一些示例中,话音监听器30可包括存储在计算设备124的非易失性存储122中的语音识别程序120。语音识别程序120可被加载到存储器126中并由计算设备124的处理器128执行以执行下文更为详细地描述的用于语音识别的方法和过程中的一个或多个。
自然语言语音形式的音频输入130可以由话筒24捕捉并由音频处理器134处理以创建音频数据。来自音频处理器134的音频数据可由特征提取器136变换成数据以供语音识别程序120的语音识别引擎140处理。
使用特征提取器136和语音识别引擎140,语音识别程序120可处理特征向量142和其他语音识别数据148以生成经识别的文本66。在其他示例中,可利用用于将特征向量142与音素和/或其他语音分量进行匹配的任何合适的技术。
在一些示例中,语音识别程序120可为语音识别数据148的一个或多个部分(诸如各个体语音分量、单词和短语)确定估计的置信值152。估计的置信值152可定义相应的经识别的文本是准确的统计似然性。如下文更详细地描述的,智能助理系统20的解析器40可在处理经识别的文本和确定用户的意图时利用此类置信值152。
应当理解,对语音识别技术的前述描述仅仅是示例,并因此可在本公开的范围内利用和构想任何合适的语音识别技术和过程。
再次参考图2,在一些示例中,话音监听器30可从实体跟踪器100接收包括相关联的置信值的上下文信息。如下文更详细地描述的,实体跟踪器100可确定一个或多个传感器的范围内的一个或多个实体的身份、位置和/或当前状态,并且可将此类信息输出到诸如话音监听器30、承诺引擎60等一个或多个其他模块。在一些示例中,实体跟踪器100可解释和评估从一个或多个传感器接收到的传感器数据,并可基于该传感器数据来输出上下文信息。上下文信息可包括实体跟踪器基于接收到的传感器数据对一个或多个检测到的实体的身份、位置和/或状态的猜想/预测。在一些示例中,猜想/预测可附加地包括定义信息准确的统计似然性的置信值。
关于可被用于实现话音监听器30的组件和计算方面的附加细节在下文中参考图23更详细地描述。
继续参考图2,话音监听器30可将经识别的文本和对应的置信值发送到解析器40。如下文更详细地描述的,解析器40分析文本和置信值以确定用户说出接收到的话语的意图。解析器40可将从话音监听器30接收到的自然语言文本翻译成表示自然语言背后的用户意图的机器可执行语言。
在一些示例中,解析器40可利用各自包含多个槽的多个意图模板,这些槽可填充有从话音监听器30接收到的单词或术语,或者基于从话音监听器接收到的其他单词的单词或术语。在一个或多个槽未被填充的一些示例中,解析器40可通过检查一个或多个其他单词的语义含义来填充这些槽。例如,智能助理系统20可告诉用户“你有15封电子邮件”。用户可能会回复话语“好吧,我上车后再浏览它们”。作为对用户的话语的响应,解析器40可用类型“提醒”来填充“承诺类型”槽,即使“提醒”这个单词本身不在用户的话语中。
总之,意图模板的多个槽定义或以其他方式表征用户说出话语的意图。在各个不同的示例中,槽可包括动作槽、触发器槽、承诺槽、主题槽、内容槽、标识槽和各种其他类型的槽。在一些示例中,每个槽可具体化为三种状态中的一者:(1)缺失信息、(2)存在的具有未辨析的歧义的信息、以及(3)存在的具有任何已被辨析的歧义的信息。
意图模板的一个示例是对应于添加承诺意图的承诺意图模板。现在参考图4,例示了承诺意图模板200的一个示例。在此示例中,解析器40可从话音监听器30接收到读作“当基思在烤箱附近时提醒我(When Keith is near the oven alert me)”的文本短语210。短语“当基思在烤箱附近时(When Keith is near the oven)”可被标识为触发器214。短语“提醒我(alert me)”可被标识为在检测到触发器时将被执行的动作218。如下文更详细地描述的,在一些示例中,解析器40可将此文本短语210翻译成被传递到意图处理器30以供进一步处理的机器可执行语言。
如上所述,解析器40可从话音监听器30接收表示相应文本准确的似然性的准确度置信值。在一些示例中并如下文更详细地描述的,意图处理器50还可接收与实体信息相关联的实体置信值。在一些示例中,可经由实体跟踪器100接收此类实体置信值和其他上下文信息。
在本示例中,短语210中的单词“我(me)”填充主题槽222。在此示例中,主题槽222对应于在检测到触发器时将被提醒的人或其他实体。单词“我”可与将此单词与名为乔的特定人员相关联的上下文信息、以及表示“我”即是人员“乔”的确定度水平的实体置信值(诸如90%)一起被解析器40接收。
在一些示例中,意图模板中的一个或多个单词的预期含义可能不是显而易见的。例如,在短语210中,单词“附近(near)”的含义可能是有歧义的,因为“附近”是相对术语。各种上下文因素可能会影响“附近”的预期含义以及在此短语中构想的相应距离。例如,在“基思”是婴儿的情况下,“附近”的预期含义可能基于的是说出该短语的用户的巨大安全担忧。在“基思”是该用户的丈夫的情况下,“附近”的预期含义可能受到安全担忧的影响较小,而更多地受到便利因素的影响,这可能导致与“基思”是婴儿的情况不同的相关距离。在另一示例中,短语“在烤箱附近”中所预期传达的距离可能与短语“在自由女神像附近”中所预期传达的距离不同。
因此,意图模板中的一个或多个单词在传递给意图处理器50时可能是有歧义的。如下文更详细地描述的,意图处理器50可利用多种技术来辨析歧义并填充意图模板中具有缺失信息的槽。
在另一示例中,解析器40可从话音监听器30接收文本短语“Play music withFred”。在一些示例中,短语“播放音乐(Play music)”通常被解释成意味着用户希望经由媒体播放器来播放数字音乐文件。然而,在“播放音乐(Play music)”之后使用短语“withFred”是不寻常的,因为人们通常不会在他们的意图是经由媒体播放器播放音乐的情况下使用此短语。解析器40可识别此歧义并可生成其确定是与用户的实际意图相对应的统计上最可能的意图模板的N个最佳意图模板的列表。在一些示例中,意图处理器50可使用附加的上下文信息来从N个最佳意图模板的列表中选择意图模板。
在一些示例中,解析器40可分析接收到的文本以形成用户的意图的决策树。在一些示例中,解析器40可根据接收到的文本生成If-Then(如果-就)语句(或规则)。每个If-Then语句可包括相应的触发器和动作。只要触发器的条件被满足,就执行动作。由此产生的If-Then语句可执行各种各样的任务,诸如家庭安全(“如果后院中的运动检测器被激活就向我发信息”)、家庭自动化(“当我到家时打开壁炉”)、个人事务整理(“将我的有关慈善捐款的电子邮件收据收集到电子表格中”)、与健康相关的任务(“如果我跑了超过7英里,就提醒我吃蛋白质”)以及许多其他任务。
在一些示例中,解析器40可使用两种技术的组合来根据从话音监听器30接收到的文本生成If-Then语句和/或导出意图:(1)采用长短期记忆(LSTM)网络形式的递归神经网络(RNN)架构;以及(2)逻辑回归模型。在一些示例中,图形长短期记忆(图形LSTM)神经网络可被用于从接收到的文本中提取语义含义以及自然语言固有的各单词之间的关系。例如,文本可使用图形LSTM神经网络被解析以使用根据文本片段中的术语的句法关系布置的若干图形LSTM单元来提取跨句子的n元关系。可在图形LSTM神经网络中跟踪各单词之间的这些句法关系以允许人工智能和机器学习技术标识文本中的实体及其上下文并形成它们所存在的语法结构。
例如,标识代词所指的名词的上下文、修饰给定动词的副词、影响给定单词的介词短语等可被合并到各种单词中以使得能够更准确地搜索自然语言文档的内容。
在一些示例中,解析器40可接收和处理文本以在各个体短语中并跨各短语的边界绘制节点(例如,单词、短语、字符等)和边(例如,各节点之间的依赖关系链接)。在各种示例中,绘制图形可包括标识文本中各节点之间的一个或多个链接(例如,句法、语义、共同引用、语篇等)。链接可包括各节点之间的短语内和短语间链接。例如,链接可表示一个短语的根与相邻短语的根之间的关系。再例如,链接可表示短语中两个单词之间的关系,诸如针对单词“午餐(lunch)”的修饰语“安妮的(Annie's)”。
关于可被用于实现解析器40的组件和计算方面的附加细节在下文中参考图23更详细地描述。
如上文所描述的,在一些示例中,解析器40将意图模板传递给意图处理器50以供进一步处理。意图处理器50包括可辨析歧义信息和/或意图模板所缺失的信息的多步骤流水线。如下文更详细地描述的,意图处理器50可利用多种技术来辨析歧义并填充与意图模板相关的缺失信息的槽。在一些示例中,意图处理器50可利用因域而异的信息和因域而异的推理来辨析歧义、补全缺失信息、以及以其他方式澄清意图模板以更接近地对应于用户的实际意图。
在一些示例中,意图处理器50可通过分析对话历史中用户的先前话语来收集关于用户意图的知识,并且可利用此类洞察来辨析歧义并将缺失的信息添加到意图模板。一旦意图处理器50充分澄清了歧义并补全了缺失信息,相应的承诺就可被生成并被传递给承诺引擎60以供执行。
意图处理器50可被配置成处理可能包括对话的多个意图模板。出于本公开的目的并且如下文更详细地描述的,对话可包括与用户和智能助理系统20之间的一个或多个交换相关的多个信息和其他数据。在不同的示例中,此类信息和数据可包括由用户口述的单词和/或短语、由智能助理系统20呈现给用户的查询、从一个或多个传感器接收到的传感器数据、诸如人员和/或身份信息之类的上下文信息等。
如下文提供的用例示例中描述的,意图处理器50可包括将从解析器40接收到的意图模板及其相关联的数据翻译为内部数据引用的多个辨析器。为了解决意图模板中包括缺失和/或未辨析信息的槽,意图处理器50可在多阶段过程中利用多个辨析器。在一些示例中,每个辨析器都可被专门编程以处理与可从解析器40接收到的特定意图模板相关联的问题。
辨析器的各示例可包括将专有名称、别名和其他标识符翻译为内部表示数据的查找辨析器(例如,“鲍勃”被翻译为人员“鲍勃”的内部表示,诸如鲍勃的联系信息)。辨析器的各示例可包括回指辨析器和指示辨析器,回指辨析器解决具有依赖于上下文中的先行表达式或后置表达式的解释的表达式(例如,“她(she)”被翻译成表示“代词‘她’的个人身份”的槽),而指示辨析器解决在没有附加上下文信息的情况下不能被完全理解的单词和短语,诸如“这里(here)”或“那里(there)”(例如,“那里”可能会被翻译成表示“那里是哪里(whereis there)?”的槽)。在其他示例中,可使用许多其他形式和类型的辨析器。
现在参考图5,示意性地例示了处理对话的一部分的解析器40和意图处理器50的一个示例。在此示例中,解析器40将第一短语1解析为意图模板1。解析器40将意图模板1提供给意图处理器50,该意图处理器50利用第一辨析器1来辨析此意图模板中的歧义和/或缺失信息。从解析器40接收对应于第二短语2的第二意图模板2。如下文更详细地描述的,意图处理器50可分析意图模板2以及上下文信息110以确定是利用第一辨析器1还是利用第二辨析器2来辨析意图模板2。意图处理器50可然后接收基于第三经解析的短语3的第三意图模板3。意图处理器50可利用第三辨析器3来辨析意图模板3。下文提供了使用辨析器分析意图模板的附加详细信息和用例示例。
在一些示例中,意图处理器50可确定两个或更多个意图模板是否应该被融合或合并在一起以继续现有的对话路径。如果意图处理器50确定两个或更多个意图模板应该被融合在一起,则意图处理器可以融合与这两个或更多个意图模板相关联的数据并继续使用经融合的数据遵循现有的对话路径。如果意图处理器50确定这两个或更多个意图模板不应该被融合在一起,则可使用最近接收到的意图模板来开始新主题。
如下文更详细地描述的,在意图模板的槽具有缺失信息的情况下,意图处理器50可执行数据收集操作(诸如要求用户澄清或提供信息,或尝试以另一种方式收集信息)以便将信息填充到该槽。一旦每个槽包含信息,意图处理器50可确定每个槽中的信息是否是无歧义的。对于被标识为有歧义的信息,意图处理器50可应用各种技术中的一种或多种来辨析歧义。
再次参考图2,在一些示例中,意图处理器50可包括映射器52,该映射器52将一个或多个系统目标映射到对应的(诸)用户意图。系统目标的各示例可包括澄清歧义、从用户获取附加信息等。在一些示例中,映射器52可在内部将系统目标重新解析为用户意图或目标。例如,映射器52可将系统需要的信息(诸如,用于辨析歧义意图的信息)映射到用户在提供此信息时会触发的用户意图。换言之,映射器52可将信息映射到将从话语中辨析出的意图,该话语将会被用户说出以便生成该意图。在一些示例中,映射器52可将系统目标映射到用户将会说出以便生成相同结果的单词或短语。
在一些示例中,当系统需要来自用户的信息来辨析用户意图时,系统可在内部提示一个状态,该状态相当于声明如果该用户提供了包含除了所需信息之外的意图的所有组成的输入(诸如话语)则该系统将处于的状态。换言之并且在一些示例中,系统可假设用户已经提供了更多输入,而此输入只缺失与所需信息对应的一个或多个特定槽。以此方式,意图处理器50可继续利用所提供的任何用户输入。在一些示例中,这允许系统重新使用诸如意图模板之类的组件。因此并在这些示例中,通过使意图处理器50假设用户意图(相对于系统目标)正在驱动其操作,系统可在内部重新使用相应的逻辑并且可以更深入、更丰富地理解此类用户意图。
在一些示例中,系统可能具有从用户获取信息以继续导出用户意图的目标。在第一示例中,用户可以说出两个话语:“给我预订明天飞往加利福尼亚的航班(Book me aflight to California tomorrow);该航班需要飞往旧金山(The flight needs to be toSan Francisco)”。在第一话语中,用户指示预订航班的意图,而在第二话语中,用户将意图缩小到飞往旧金山的航班。在这两个话语中都指定了用户意图。
在另一示例中,用户说出第一话语“给我预定明天的航班(Book me a flighttomorrow)”。系统可能会用询问“您想飞往哪里(Where do you want to fly to)?”来回应。用户可然后回应“飞往旧金山(To San Francisco)”。在生成系统查询之后,映射器52可将意图处理器的目标(获取用户目的地的信息)映射到用户意图。例如,映射器52可假设用户将会提供此信息就好像其是用户的意图一样。
在一些示例中,通过将映射器52配置成假设用户意图正在驱动其操作,系统可最小化执行这些操作的代码并重新使用相应的逻辑。以此方式,系统可以更深入、更丰富地理解此类用户意图。因此,在这些示例中,系统可利用用于意图处理器50和映射器52的包括仅用户意图系统的代码,而不是利用多个专用代码片段来管理所有的歧义并以其他方式处理多个相应的任务和离散情况。
关于可被用于实现意图处理器50的组件和计算方面的附加细节在下文中参考图23更详细地描述。
现在参考图6A和6B,提供了根据本公开的各示例的用于解决意图模板中缺失和/或未辨析信息的方法300的流程图。参考本文描述的软件和硬件组件提供针对方法300的以下描述。将理解,方法300还可在使用其他合适的硬件和软件组件的其他上下文中来执行。
此外,虽然方法300的各框是以特定序列被描述和例示的,但在不同的示例中,执行的顺序可能会变化。在一些示例中,框中的一个或多个可能不被执行。在一些示例中,来自实体跟踪器100的上下文信息110可被利用以确定执行的顺序和/或接下来将被执行的框。
参考图6A,在304处,方法300可包括对包含回指或后指的各槽执行回指辨析。例如,在短语“当他在烤箱附近时提醒我(When he is near the oven alert me)”中,单词“他(he)”是一种回指表达,其指的是在谈话中较早被提到过的人。附加地并且如下文更详细地描述的,通过经由从解析器40接收到的(诸)意图模板来理解并辨析用户的意图,意图处理器50可使用一个或多个其他技术(诸如下文更详细地描述的基础教学和修复技术)来增强此回指辨析过程以更准确地确定与回指表达相对应的人。
在308处,方法300可包括对包含在没有附加上下文信息的情况下不能被完全理解的单词的各槽执行指代辨析。指代表达的各示例包括具有固定语义含义的词和具有取决于时间和/或地点而变化的指称含义的词。例如,在短语“当他在烤箱附近时提醒我(When heis near the oven alert me)”中,单词“附近(near)”是其含义取决于上下文信息的指代表达。附加地并且与回指表达一样,意图处理器50可使用一个或多个其他技术(诸如基础教学和修复技术)来增强其指代辨析过程以澄清该指代表达的预期含义。
在一些示例中,可使用来自一个或多个传感器的数据(诸如经捕捉的图像数据、音频数据、位置信息等)来执行指代辨析。例如,当用户指向烤箱时,实体跟踪器100可利用示出用户的手指正指向烤箱的图像数据来标识烤箱并确定用户正指向烤箱。在指向期间,用户可以说出话语“当这个变热时让我知道(Let me know when this gets hot)”。使用此信息,意图处理器50可将单词“这个(this)”辨析为“烤箱(oven)”,并且更具体地辨析为用户正指向的烤箱。
在另一示例中,用户可以说出“如果我的孩子到这里来就让我知道(If my childcomes in here let me know)”。系统可使用用户的位置数据将单词“这里”辨析为用户的当前位置。在另一示例中,两个人走进房间,并且一个人向系统提问:“有任何留给我们的消息吗(Do we have any messages)?”通过使用诸如图像数据和/或音频数据之类的感测信息来标识这两个人,系统可执行指代辨析以将“我们(we)”辨析成处于该房间内的这两个人的身份。
在312处,方法300可包括对包含与意图处理器50可用的其他数据相对应的单词的各槽执行查找。意图处理器50可用的其他数据的示例包括联系人信息、社交图数据、日历信息、电子邮件数据、照片元数据等等。在执行此类查找时所访问的信息可被填充在槽中以替换当前占用该槽的(诸)单词。例如,在短语“明天提醒我将汽车停在汽车经销商1处(Tomorrow remind me to drop the car at autodealer1)”中,单词“汽车经销商1(autodealer1)”可能对应于用户经常修理她的汽车的汽车修理店。“汽车经销商1”可由用户联系人数据库中的联系人条目表示。因此,意图处理器50可定位此类联系人条目并可对意图模板中的单词“汽车经销商1”使用“汽车经销商1”联系人数据。
此时,方法300可返回到304和/或308以根据需要对填充在槽中的信息执行回指辨析和/或指代辨析。附加地,意图处理器50可利用一个或多个其他技术(诸如基础教学和修复技术)来增强其查找过程,以澄清与当前存在于槽中的信息相对应的预期的人或实体。
在314处,方法300可包括要求用户对包含歧义信息的一个或多个槽的消除歧义和/或进行辨析。例如,当用户要求系统“打电话给帕特里克(Patrick)”,并且用户的联系人数据库包括帕特里克·多伊(Patrick Doe)和帕特里克·史密斯(Patrick Smith)时,系统可询问用户“你想给哪个帕特里克打电话,帕特里克·史密斯或帕特里克·多伊(WhichPatrick would you like to call,Patrick Smith or Patrick Doe)?”
在316处,方法300可包括标识具有缺失信息的槽并用收集到的信息来填充这些槽。各种技术可被利用以生成和/或检索此类信息。例如并且如下文更详细地描述的,可取决于信息被确定为是显式地缺失的还是隐式地缺失的来不同地对待具有缺失信息的槽。
例如,在320处,方法300可包括确定缺失的信息是显式地缺失的信息。在一个示例中,通过分析文本短语,意图处理器50可确定用户的话语表明针对特定槽的信息应被提供在该话语中。在缺失此类信息的情况下,该信息可被确定为是显式地缺失的信息。例如,考虑短语“当加里和其他人一起进入该房间时介绍(When Gary comes into the room withthe others introduce)”。意图处理器50可确定此短语包括对应于动词“介绍”的主题的内容槽,并且此内容槽缺失了信息。在此示例中,短语的上下文包括“介绍(introduce)”之前的单词,这些单词的顺序和含义、短语以单词“介绍”结束而没有指出介绍的主题、以及短语构成语法不完整的句子的事实。
意图处理器50可确定此上下文不能辨析与此缺失的信息相关联的歧义。例如,虽然用户可能打算将加里介绍给其他人,但其他意图也是可能的(诸如将其他人中的一者介绍给加里)。因此,意图处理器50确定当前不能辨析与此缺失的信息相关联的歧义。给定此歧义并且如下文更详细地描述的,意图处理器50可使用一个或多个其他技术(诸如询问用户,“您想要介绍谁(Whom do you want to introduce)?”)来收集缺失的信息。在如下文更详细地描述的一些示例中,意图处理器50可在询问用户之前等待接收附加用户输入。在一些示例中,来自实体跟踪器100的附加信息可被用于辨析歧义并收集缺失的信息。
在一些示例中,在承诺的触发槽或动作槽的信息缺失的情况下,并且至少部分地基于由实体跟踪器100生成的上下文信息110,意图处理器50可以主动向用户建议动作。在一个示例中,用户可以说出话语“爱丽丝(Alice)”。意图处理器50可接收具有空的动作槽和用姓名“爱丽丝”部分补全的触发器槽的意图模板。上下文信息110可能包括具有85%置信度的“爱丽丝”对应于用户的联系人数据库中的“爱丽丝·琼斯(Alice Jones)”的身份预测。上下文信息110还可能包括具有95%置信度的爱丽丝·琼斯位于用户住宅的地下室洗衣房中的位置预测。至少部分地基于此上下文信息110,意图处理器50可主动询问用户是否想要与爱丽丝·琼斯通信,诸如经由住宅内部对讲系统。
在324处,方法300可包括确定缺失的信息是隐式地缺失的信息。在一个示例中,意图处理器50可确定用户不打算提供特定槽所缺失的信息。此类缺失的信息可被确定为是隐式地缺失的信息。例如,考虑短语“当加里走进厨房时说你好”。意图处理器50可确定命令“说你好(say Hello)”对应于用户向另一个人说你好。因此,与此短语相对应的意图模板可能包含跟在单词“说你好(say Hello)”之后的内容槽,并且此内容槽通常包含用户打算对其说你好的人的姓名或其他标识符(例如,“对苏珊娜说你好(Say Hello to Suzanne)”)。
在此示例中,因为短语以单词“你好(Hello)”结束,所以此类内容槽缺失标识预期的人的信息。此短语的上下文包括“你好”之前的单词、这些单词的顺序和含义、以及短语构成语法完整的句子的事实。给定此上下文,意图处理器50推断出用户想要将命令“说你好”应用于加里(Gary)。换言之,与此短语相关联的上下文指示单词“说你好”之后的内容槽应该用“加里”来填充。以此方式,意图处理器50可在无需向用户询问以获得附加输入的情况下辨析与该缺失的信息相关联的特定歧义。在如上文所描述的填充具有缺失信息的槽之后,方法300可返回到304和308以根据需要对填充在槽中的信息执行回指辨析和/或指代辨析。
在一些示例中并且如上所述,意图处理器50可向用户询问槽所缺失的信息。例如,意图处理器50可经由移动电话的扬声器向用户广播语音查询。然而,在一些示例中,槽所缺失的信息可能是用户在用户完成她的话语之前中断用户的预期或非预期停顿的结果。因此并且在328处,在一些示例中,方法300可包括标识来自用户的话语中的停顿以及用户继续说话并补充该话语的意图。
例如,用户可在话语中间停顿以考虑她接下来应该说什么。在其他示例中,外部事件可在话语中间中断用户,诸如另一个人说话、诸如响的噪声或强光之类的来自用户的环境的令人分心的活动、或者各种其他外部活动。
在一个示例中并且参考上文对标识显式地缺失的信息的描述,可确定短语“当加里和其他人一起进入该房间时介绍(When Gary comes into the room with the othersintroduce)”包括对应于动词“介绍”的主题的内容槽,并且此内容槽缺失了信息。基于空的内容槽、短语的其他方面、和/或其被说出时的上下文,意图处理器50可标识此短语结尾处的停顿以及用户继续说话并补充用于动词“介绍”的主题的预测意图。
在332处并且响应于对停顿的标识,方法300可包括在向用户询问更多信息之前等待来自用户的附加输入。在一些示例中,意图处理器50可等待预定的时间段,诸如1秒、2秒或不会对用户造成负面用户体验的其他时间长度。以此方式,系统可避免在用户打算再次开始说话并补充话语时在话语中间中断用户。
在一些示例中,只要用户开始说话,就可启动接合计时器。接合计时器可以运行预定时间段,在该预定时间段期间用户可被指明为“接合”。预定时间段可以是1秒、2秒、或其他持续时间。如果系统需要在预定时间段到期之前请求输入或以其他方式与用户进行有声的对话,则系统可使用可为用户的当前潜在接合提供更温和的中断的中断语言构造。中断语言构造的各示例包括“顺便说一句(by the way)”和“另外(additionally)”。在一些示例中,即使在用户已经停止说话和/或当前对话已经“超时”并且系统当前并未监听用户的情况下,也可使用此类语言构造。
在336处,方法300可包括向用户查询槽所缺失的信息。在一些示例中,意图处理器50可向用户询问意图模板的一个或多个槽所缺失的信息。例如,对于短语“当加里和其他人一起进入该房间时介绍(When Gary comes into the room with the othersintroduce)”及其在单词“介绍”之后的内容槽中显式地缺失信息,意图处理器50可向用户广播询问“您想要介绍谁(Whom do you want to introduce)”的语音查询。在其他示例中,意图处理器50可经由其他接口来询问用户,诸如通过在显示设备上显示询问。
当意图处理器50(经由话音监听器30和解析器40)从用户接收对其询问的响应时,意图处理器可用该响应填充该槽。此时,方法300可返回到304以及后续步骤以便如上文所描述的分析此新补充的信息是否有任何歧义。
现在参考图6B,在340处,方法300可包括通过分析来自先前对话回合的信息来辨析歧义。在不同的示例中,该方法可将话语分析成单个或组合的话语,和/或可使用来自先前话语的一个或多个元素来在当前话语的意图模板中生成一个或多个槽。
在一些示例中,意图处理器50可分析来自先前意图模板和/或模板的一个或多个槽的内容。在一些示例中,意图处理器50可确定当前话语是对先前话语的补充。例如,考虑短语“当贾斯汀在烤箱附近时,提醒埃里希(When Justin is near the oven,alertErich)”。贾斯汀可能是学步儿童,埃里希是该学步儿童的父亲,说出该短语的用户可能是贾斯汀的母亲。意图处理器50可接收针对此短语的第一意图模板。第一辨析器可辨析该模板并建立当贾斯汀距埃里希的厨房中的烤箱1米之内时经由埃里希的电话向埃里希广播警告的承诺。
在说出此第一短语之后,贾斯汀的母亲可停顿一小会儿时间,诸如3或4秒。在此停顿之后,她可以说出由解析器40接收到的第二短语“和我(and me)”。由于此短语不包括动作组件,因此解析器40可生成具有未知或未辨析意图的第二意图模板。在此示例中,并且因为与此第二短语相关联的意图目前是未知的,所以意图处理器50可选择不同的第二辨析器来解决此第二意图模板。
至少部分地基于此第二短语以连词“和(and)”开头且后跟代词“我(me)”,第二辨析器可确定贾斯汀的母亲打算引用先前的话语。第二辨析器可利用回指辨析技术将单词“我”与贾斯汀的母亲相联系。通过使用此数据并分析先前建立的承诺,第二辨析器可确定与第二短语“和我”相关联的意图和与先前短语“当贾斯汀在烤箱附近时,提醒埃里希”相关联的意图有关。因此,第二辨析器可修改先前建立的承诺,以当贾斯汀距厨房中的烤箱1米之内时向埃里希和贾斯汀的母亲两位广播警告。
作为另一示例,再次考虑短语“当贾斯汀在烤箱附近时,提醒埃里希(When Justinis near the oven,alert Erich)”。在说出此第一短语之后,贾斯汀的母亲可停顿几秒钟并然后说出第二短语“并且如果他靠近游泳池也要(and also if he’s close to thepool)”。由于此短语包括触发器(“如果他靠近游泳池(if he’s close to the pool)”)而未包括动作组件,则解析器40可生成具有未知或未辨析意图的第二意图模板。此外,在此示例中,回指表达“他(he’s)”可以指先前短语中的两个名字中的任一者(贾斯汀或埃里希)。
辨析器可确定在第二短语的触发器中对“他(he)”的引用最可能是想指在另一先前触发器中提及的男人。至少部分地基于此第二短语以连词“和(and)”开头且后跟单词“也要(also)”和“如果(if)”,第二辨析器可确定贾斯汀的母亲打算引用先前话语并修改触发器或为先前建立的承诺的动作添加另一触发器。通过使用此数据并分析先前建立的承诺,第二辨析器可确定与第二短语“并且如果他靠近游泳池也要”相关联的意图和与先前短语“当贾斯汀在烤箱附近时,提醒埃里希”相关联的意图有关。因此,第二辨析器可修改先前建立的承诺以当贾斯汀距厨房中的烤箱1米之内或距游泳池3米之内时向埃里希广播警告。
在一些示例中,意图处理器50可确定当前话语旨在修改一个或多个先前话语。例如,考虑短语“请在六点钟提醒我打电话给杰夫(Please remind me to call Jeff at sixo’clock)”。在说出第一短语之后,用户可停顿片刻并然后说出第二短语“我的意思是迈克(I mean Mike)”。由于此短语包含没有明确的触发器或动作组件的有歧义的短语,所以解析器40可生成具有未辨析的意图的另一意图模板。
通过分析与先前话语“请在六点钟提醒我打电话给杰夫”相关联的紧接在前的承诺,辨析器可确定与第二短语“我的意思是迈克”相关联的意图最可能与先前短语“请在六点钟提醒我打电话给杰夫”相关联的意图有关。因此,此辨析器可修改先前建立的承诺以用“迈克(Mike)”来替换此短语的动作组件中对“杰夫(Jeff)”的引用。
在另一示例中,考虑短语“请在六点钟提醒我打电话给杰夫和迈克(Pleaseremind me to call Jeff and Mike at six o’clock)”。在说出第一短语之后,用户可停顿片刻并然后说出第二短语“不要迈克(not Mike)”。由于此短语包含没有明确的触发器或动作组件的有歧义的短语,所以解析器40可生成具有未辨析的意图的另一意图模板。
通过分析与话语“请在六点钟提醒我打电话给杰夫和迈克”相关联的紧接在前的承诺,辨析器可确定与第二短语“不要迈克”相关联的意图最可能与先前短语“请在六点钟提醒我打电话给杰夫和迈克”相关联的意图有关。因此,此辨析器可修改先前建立的承诺以从此短语的动作组件中移除对“和迈克(and mike)”的引用。
在一些示例中并且如下文更详细地描述的,在两个或更多个人正在进行对话的情况下,系统可跟随对话并确定在此对话中活动参与者(即,当前正在说话的人)何时发生改变。在这些示例中,当系统确定当前发言者已经改变时,系统可确定新发言者的语音中包含的信息是否是现有对话主题/会话的继续,或者是否已引入了新的主题/会话。在新发言者的信息是现有对话主题/会话的继续的情况下,意图处理器50可使用此确定来辨析歧义、补全缺失信息和/或以其他方式澄清每个发言者的意图。例如,此类对话和主题/会话跟踪可以使系统能够协助正在协同工作和说话的团队完成任务。在一些示例中,系统可跟踪同时发生或以其他方式重叠的多个对话,并可针对每个对话适当地与每个对话中的参与者交互。
在一些示例中,意图处理器50可确定与新接收到的短语相关联的意图与紧接在前的承诺的意图无关。例如,对应于话语“打电话给贾斯汀(Call Justin)”的意图模板可由第一辨析器接收并处理成第一承诺。第一辨析器可确定动作“打电话给贾斯汀(CallJustin)”的内容槽(“贾斯汀(Justin)”)是有歧义的,因为用户在用户的联系人数据库中同时具有贾斯汀·史密斯(Justin Smith)和贾斯汀·多伊(Justin Doe)。因此,第一辨析器可用向用户询问“哪个贾斯汀——贾斯汀·多伊或贾斯汀·史密斯?”来回应。在此示例中,用户以无关回答“请录制今晚的电视节目A”来回应。
第一辨析器可通过参考紧接在前的意图模板及其缺失的内容槽来分析此响应及其对应的新意图模板。因为用户的响应与刚刚呈现给用户的查询完全无关,所以第一辨析器确定新意图模板表示用户的新意图,并因此新意图模板不应与先前意图模板融合。因此,第一辨析器被第二辨析器替代,此第二辨析器继续分析新的意图模板并建立新的对话。
在344处,方法300可包括辨析通过不同名称或表示来指代已知的人或实体的别名。在一个示例中,用户可在话语中引用“咪咪(Mimi)”。用户的联系人数据库可能不包含名称为“咪咪”的联系人。然而,在被意图处理器50跟踪的先前对话中,用户的姐妹在与她的孙子交谈时可能将她自己称呼为“咪咪”。意图处理器50可访问的数据存储可能已经在用户的姐妹和别名“咪咪”之间创建了关联。通过在数据存储中搜索“咪咪”的实例并找到用户的姐妹与别名“咪咪”之间的关联,意图处理器50可将用户的话语中的名称“咪咪”辨析为用户的姐妹。
在348处,方法300可包括训练意图处理器50以经由直接用户训练输入将别名与已知人或其他实体相关联。例如,用户可以说出命令,“当我说咪咪时我指的是我的姐妹苏珊娜(When I say Mimi I’m referring to my sister Suzanne)”。意图处理器50可在“咪咪”和用户的姐妹苏珊娜之间创建链接,诸如通过修改包含标识苏珊娜的信息的文件的联系人数据库。
以类似的方式,在352处,方法300可包括以实时或批处理模式方式训练意图处理器50以将未识别的表面形式与新辨析的表面形式相关联。例如,意图处理器50可能无法识别它接收的特定表面形式。意图处理器50可经由一个或多个基础教学和修复技术来澄清此表面形式。以此方式并更进一步,随后可将未识别的表面形式与经澄清的表面形式相关联,由此意图处理器50现在可识别先前未识别的表面形式。
在另一示例中,用户可能正在乘坐出租汽车穿越纽约市。用户可以对他的智能电话说出第一请求,其中此短语的中间部分难以理解:“当我到达[难以理解]时呼叫她的移动电话(When I get to[unintelligible]call her mobile phone)”。通过分析此短语以及上下文信息(诸如指示用户正乘汽车穿行的运动数据),意图处理器50可推断该短语的难以理解的部分对应于位置槽。
意图处理器50可向用户询问“你想在哪里这样做(Where do you want to dothis)?”用户可用第二响应“麦迪逊(Madison)”进行回复。解析器40可从话音监听器30接收文本“麦迪逊”,并且可生成与用户的实际意图相对应的此单词在统计上最可能的含义列表。在此示例中,用户可具有名为麦迪逊的亲密朋友,并且可能在对智能助理系统20的许多口述请求中都使用了她的姓名。因此,解析器40可确定用户的亲密朋友“麦迪逊”是用户话语背后最可能的意图。
然而,基于其对用户的第一请求和其他上下文信息(诸如运动数据)的分析,意图处理器50确定对询问“你想在哪里这样做?”的预期用户响应很可能是位置信息。意图处理器还可分析指示用户将在五分钟内到达麦迪逊大道地址的映射数据。因此并且至少部分地基于此上下文信息,意图处理器50可能不会选择用户的亲密朋友“麦迪逊”,尽管解析器预测这是此单词在统计上最可能的含义。相反,意图处理器可通过选择麦迪逊大道作为用户的意图来使用此上下文信息来辨析此歧义。
在意图处理器不能从话语中辨析意图的一些示例中,系统仍可提供以采取一个或多个动作。例如,如果用户使用声明性语句“西尔韦看起来很好(Silver looks nice)”,则系统可能无法理解此话语背后的用户意图。替代于因为系统不理解该如何应对此话语而忽略用户,系统可能会提供银饰照片、播放音乐或采取一些其他行动。
将理解,方法300是以举例方式提供的,并且不旨在为限制性的。因此,可以理解,方法300可包括相比于图6A和6B中例示出的那些步骤更多和/或替换的步骤。此外,应当理解,方法300可以以任何合适的顺序来执行。此外,应当理解,在不脱离本公开的范围的情况下,可以从方法300中省略一个或多个步骤。
如上文所描述的,当意图处理器50充分澄清并辨析了用户的意图时,相应的承诺可被生成并被传递给承诺引擎60以供执行。如下文更详细地描述的,承诺引擎60可利用一个或多个成本函数来确定与执行或不执行承诺相关联的一个或多个成本,并且在一些示例中,确定与向用户输出或不向用户输出消息相关联的一个或多个成本。
在承诺引擎60接收多个承诺的情况下,承诺引擎可对承诺进行优先级排序以呈现给用户。在一个用例示例中,承诺引擎60可为用户埃迪存储七个承诺,每个承诺都被设置为向埃迪传达不同的消息。当埃迪今天下班回家时,每条消息也可被组织成有声地播放给他。承诺和相应的消息可能包括把垃圾拿出去、修复漏水的水龙头和将烤肉放入烤箱的任务提醒,以及缴纳财产税明天到期和他需要购买鸡蛋的信息提醒。如果这些消息中的每一者在埃迪走进门时就被广播给他,他可能不太可能有效地管理相应的任务和/或对相应的任务进行优先级排序。
此外,在一些示例中,埃迪的当前上下文可能使他更难以理解并有效地管理这些消息。例如,如果埃迪在走进门时正在用他的电话通话,并且当时有七条消息被有声地播放给他,则他可能难以听到或甚至理解这些消息。
因此并且在一些示例中,与用户接收输入的接受度、承诺对特定用户的重要性和/或用户的当前上下文相关的因素可被确定。机器学习技术可被应用于此类因素和其他数据以从此类信息中学习并在将来做出相关的预测。如下文更详细地描述的,一个或多个成本函数可被用于确定与执行或不执行承诺相关联的成本。使用这些技术,承诺引擎60可智能地管理对承诺和相应消息的执行以与特定用户的偏好和当前上下文一致。
在一些示例中,并且响应于改变的上下文和/或新数据输入,承诺引擎60可修改承诺、消息及其执行的优先级、时序和其他方面。例如并且如下文更详细地描述的,承诺引擎60可从实体跟踪器100接收上下文信息110,诸如实体身份、实体位置和实体状态信息。承诺引擎60可使用此类上下文信息100以确定是否应该向用户呈现或以其他方式执行特定消息、通知或承诺。
在一些示例中,可基于承诺引擎60接收到的新输入来更新承诺的一个或多个先前定义的组件。例如,意图处理器50可生成并传递包括引用单独定义的术语的触发器组件的承诺。在一个示例中,用户可以说出话语:“请在宵禁前60分钟通知我的孩子回家”。术语“宵禁”可以与存储在数据存储中的用户简档相关联,并且当前可以具有晚上11:00(11:00pm)的值。通过访问存储在数据存储中的用户的简档,意图处理器50可将术语“宵禁”辨析为晚上11:00,并且可向承诺引擎60传递相应的承诺以在晚上10:00(在晚上11:00之前的60分钟)向该用户的孩子们发送带有回家指示的文本消息。
在此话语之后,用户可将她孩子的宵禁时间更新为一小时后,诸如通过说出:“将孩子的宵禁更新为午夜(Update the kids’curfew to Midnight)”。承诺引擎60可将此更新标识为对“宵禁(curfew)”的数值的修改,并可确定它会影响先前接收到的承诺。因此,承诺引擎可通过将“宵禁”的数值更新为午夜来相应地修改先前接收到的承诺的触发器,这会导致承诺在晚上11:00而不是晚上10:00发送文本消息。承诺引擎60还可修改存储在数据存储中的用户简档中的“宵禁”的数值。
关于可被用于实现承诺引擎60的组件和计算方面的附加细节在下文中参考图23更详细地描述。
图7示意性地例示了示例实体跟踪器100,其可包括智能助理系统20的组件。实体跟踪器100可被用于确定一个或多个传感器范围内的一个或多个实体的身份、位置和/或当前状态。实体跟踪器100可将此类信息输出到智能助理系统20的一个或多个其他模块,诸如承诺引擎60、话音监听器30等。
在实体跟踪器100的上下文中使用的单词“实体”可以指人、动物或其他生物以及非生物对象。例如,实体跟踪器可被配置成标识家具、器具、结构、景观特征、车辆和/或任何其他物理对象,并确定此类物理对象的位置/定位和当前状态。在一些情况下,实体跟踪器100可被配置成仅标识人而不标识其他生物或非生物。在此类情况下,单词“实体”可能与单词“人”同义。
实体跟踪器100从一个或多个传感器102(诸如传感器A 102A、传感器B102B和传感器C 102C)接收传感器数据,但是应该理解,实体跟踪器可以与任何数量和种类的合适的传感器一起使用。作为示例,可与实体跟踪器一起使用的传感器可包括相机(例如,可见光相机、UV相机、IR相机、深度相机、热相机)、话筒、压力传感器、温度计、运动检测器、邻近度传感器、加速度计、全球定位卫星(GPS)接收器、磁力计、雷达系统、激光雷达系统、环境监测设备(例如,烟雾探测器、一氧化碳探测器)、气压计、健康监测设备(例如、心电图仪、血压计、脑电图)、汽车传感器(例如,速度计、里程表、转速计、燃料传感器)和/或收集和/或存储与一个或多个人或其他实体的身份、位置和/或当前状态有关的信息的任何其他传感器或设备。在一些示例中,实体跟踪器100可用多个传感器102中的一个或多个来占据公共设备壳体,和/或实体跟踪器及其相关联的传感器可跨被配置成经由一个或多个网络通信接口(例如,Wi-Fi适配器、蓝牙接口)通信的多个设备分布。作为参考图1的一个示例,实体跟踪器100可与图像传感器17一起被实现在计算设备10中。
如图7的示例中所示,实体跟踪器100可包括实体标识符104、人标识符105、位置(定位)标识符106和状态标识符108。在一些示例中,人标识符105可以是实体标识符104的专用组件,其被特别优化以用于识别人,而非识别其他生物和非生物。在其他情况下,人标识符105可以与实体标识符104分开操作,或者实体跟踪器100可能不包括专用的人标识符。如下文参考图25进一步详细描述的,人标识符105可利用来自面部检测算法的输出来对人执行标识。
取决于特定实现,与实体标识符、人标识符、位置标识符和状态标识符相关联的任何或所有功能可以由各个体传感器102A-102C执行。尽管本说明书一般将实体跟踪器100描述为从传感器接收数据,但这并不要求实体标识符104以及实体跟踪器的其他模块必须被实现在单个计算设备上,该设备和与实体跟踪器相关联的多个传感器分离并区别开来。相反,实体跟踪器100的功能可被分布在多个传感器之间。例如,与向实体跟踪器发送原始传感器数据不同,单个传感器可被配置成尝试标识其检测到的实体,并将此标识报告给实体跟踪器100和/或智能助理系统20的其他模块。在一些情况下,此标识可包括置信值。
实体标识符104、人标识符105、位置标识符106和状态标识符108中的每一者被配置成解释和评估从多个传感器102接收到的传感器数据,并基于传感器数据输出上下文信息110。上下文信息110可包括实体跟踪器基于接收到的传感器数据对一个或多个检测到的实体的身份、位置和/或状态的猜想/预测。如下文将更详细地描述的,实体标识符104、人标识符105、位置标识符106和状态标识符108中的每一者可输出它们的预测/标识以及置信值。
实体标识符104可输出检测到的实体的实体身份112,并且此类实体身份可具有任何合适的特异性程度。换言之,基于接收到的传感器数据,实体跟踪器100可预测给定实体的身份,并将此类信息输出为实体身份112。例如,实体标识符104可报告特定实体是家具、狗、男人等。附加地或替换地,实体标识符104可报告特定实体是具有特定型号的烤箱;一只有特定名称和品种的宠物狗;智能助理系统20的拥有者或用户,其中该拥有者/用户具有特定的名称和简档;等等。在一些示例中,实体标识符104标识/分类检测到的实体的特异性程度可取决于一个或多个用户偏好和传感器限制。
当被应用于人时,实体跟踪器100在某些情况下可收集关于无法通过名称标识的个人的信息。例如,实体标识符104可记录面部的图像,并将这些图像与人声的录制音频相关联。如果该人随后向智能助理系统20说话或以其他方式对待智能助理系统20,则实体跟踪器100将然后具有至少一些关于智能助理系统正在与谁交互的信息。在一些示例中,智能助理系统20还可提示人们声明他们的姓名,以便在将来更容易对人进行标识。
在一些示例中,智能助理系统20可利用人的身份来为该人定制用户界面。在一个示例中,可标识具有有限视觉能力的用户。在此示例中并且基于此标识,可修改智能助理系统20(或用户正在与之交互的其他设备)的显示以显示更大的文本、或者提供仅语音接口。
位置标识符106可被配置成输出检测到的实体的实体位置(即,定位)114。换言之,位置标识符106可基于收集到的传感器数据预测给定实体的当前位置,并将此类信息输出为实体位置114。如下文参考图25所描述的,位置标识符106可利用来自以不同方式处理图像数据的一个或多个跟踪算法的输出在位置变化和/或实体状态变化时持续跟踪实体位置。与实体身份112一样,实体位置114可具有任何合适的细节水平,并且此细节水平可随用户偏好和/或传感器限制而变化。例如,位置标识符106可报告检测到的实体具有在诸如地板或墙壁之类的平面上定义的二维位置。附加地或替换地,经报告的实体位置114可包括检测到的实体在真实世界三维环境中的三维位置。在一些示例中,实体位置114可包括GPS位置、映射系统内的定位等。
检测到的实体的报告实体位置114可对应于实体的几何中心、被分类为重要的实体的特定部分(例如,人的头部)、在三维空间中定义实体边界的一系列边界等。位置标识符106可进一步计算描述检测到实体的位置和/或方向的一个或多个附加参数,诸如俯仰、滚转和/或偏航参数。换言之,检测到的实体的报告位置可具有任意数量的自由度,并且可包括定义实体在环境中位置的任意数量的坐标。在一些示例中,即使实体跟踪器100无法标识实体和/或确定实体的当前状态,也可报告检测到的实体的实体位置114。
状态标识符108可被配置成输出检测到的实体的实体状态116。换言之,实体跟踪器100可被配置成基于接收到的传感器数据来预测给定实体的当前状态,并将此类信息输出为实体状态116。事实上“实体状态”可以指给定实体的任何可测量或可分类的属性、活动或行为。例如,当被应用于一个人时,该人的实体状态可指示该人的姿态(例如站立、坐下、躺下)、该人行走/跑步的速度、该人当前的活动(例如睡觉、看电视、工作、玩游戏、游泳、打电话)、该人当前的情绪(例如,通过评估人的面部表情或语调)、该人的生物/生理参数(例如,该人的心率、呼吸频率、氧饱和度、体温、神经活动)、该人是否有任何当前或即将发生的日历事件/约会等。“实体状态”可以指应用于其他生物或非生物对象时的附加/替换属性或行为,诸如烤箱或厨房水槽的当前温度、设备(例如,电视、灯、微波炉)是否通电、门是否打开等。
在一些示例中,状态标识符108可使用传感器数据来计算人的各种不同的生物/生理参数。这可以以各种合适的方式完成。例如,实体跟踪器100可被配置成与光学心率传感器、脉搏血氧计、血压计、心电图仪等接口。附加地或替换地,状态标识符108可被配置成解释来自环境中的一个或多个相机和/或其他传感器的数据,并处理数据以便计算人的心率、呼吸率、氧饱和度等。例如,状态标识符108可被配置成利用欧拉放大和/或类似技术放大由相机捕捉到的微小运动或变化,从而允许状态标识符可视化通过人体循环系统的血流并计算相关联的生理参数。例如,此类信息可被用于确定该人何时睡着、工作、遇险、遇到健康问题等。
在确定实体身份112、实体位置114、和实体状态116中的一者或多者之后,可将此类信息作为上下文信息110被发送到各种外部模块或设备中的任何一者,其中此类信息可以以各种方式被使用。例如,承诺引擎60可使用上下文信息110来管理承诺和相关联的消息和通知。在一些示例中并且如下文更详细地描述的,承诺引擎60可使用上下文信息110来确定特定消息、通知或承诺是否应该被执行和/或呈现给用户。类似地,当解释人类语音或响应于关键字触发器激活功能时,话音监听器30可利用上下文信息110。
如上所述,在一些示例中,实体跟踪器100可在单个计算设备中实现。在其他示例中,实体跟踪器100的一个或多个功能可跨多个协同工作的计算设备分布。例如,实体标识符104、人标识符105、位置标识符106和状态标识符108中的一者或多者可在不同的计算设备上实现,同时仍然共同包括被配置成执行本文描述的功能的实体跟踪器。如上文所指示的,实体跟踪器的任何或所有功能可由各个传感器102执行。此外,在一些示例中,实体跟踪器100可省略实体标识符104、人标识符105、位置标识符106和状态标识符108中的一者或多者,和/或包括本文未描述的一个或多个附加组件,但同时仍提供上下文信息110。关于可被用于实现实体跟踪器100的组件和计算方面的附加细节在下文中参考图23更详细地描述。
实体身份112、实体位置114和实体状态116中的每一者可采用任何合适的形式。例如,实体身份112、位置114和状态116中的每一者可采用包括描述由实体跟踪器收集的信息的一系列值和/或标签的离散数据分组的形式。实体身份112、位置114和状态116中的每一者可附加地包括定义信息准确的统计似然性的置信值。例如,如果实体标识符104接收到强烈指示特定实体是名为“约翰·史密斯(John Smith)”的男人的传感器数据,那么实体身份112可包括此信息以及对应的相对高的置信值(诸如90%置信度)。如果传感器数据有更多的歧义,则被包括在实体身份112中的置信值可对应地相对较低(诸如62%)。在一些示例中,可为单独的预测分配单独的置信值。例如,实体身份112可以以95%的置信度指示特定实体是男人,并且以70%的置信度指示此实体是约翰·史密斯。如下文更详细地描述的,成本函数可利用此类置信值(或概率)来生成针对向用户提供消息或其他通知和/或执行动作的成本计算。
在一些实现中,实体跟踪器100可采用不同的算法来分别标识实体和跟踪实体的位置。此外,实体跟踪器100可从多个算法中进行选择以跟踪实体。为此,图24示意性地例示了实体跟踪器100的一部分的示例实现,其包括被配置成从多个图像处理算法中进行选择的选择模块914。
在此示例中,图像处理算法被配置成接收包括人的环境的图像数据916。图像数据916可包括可见光图像数据(例如,从可见光相机接收)、红外图像数据(例如,从红外相机接收)、灰度图像数据、深度数据、图像、视频、二维图像数据、三维图像数据和/或任何其他合适类型的图像数据。将图像数据916分配给各种图像处理算法可允许能够获得对图像数据和对图像数据中被捕捉到的(各)人的不同洞察,因为每个图像处理算法被配置成产生具有相应数据类型的输出。如下文进一步详细描述的,这可增加实体跟踪的鲁棒性并减少其计算开销。
选择模块914可选择用于检测在图像数据916中被捕捉的人的面部的面部检测算法918。面部检测算法918被配置成产生面部检测输出,其被馈送到人标识符105,如上文参考图2所描述的。人标识符105可通过将面部检测输出与其他面部检测数据进行比较并标识匹配来确定人的身份。面部检测输出可包括例如特征向量,并且可使用任何合适的面部检测技术来产生。在一些示例中,选择模块914的一个或多个部分可被实现为人标识符105的一部分。
可以以各种方式触发使用面部检测算法918的面部检测。触发器可包括但不限于:图像数据中面部的新的出现;图像数据中重新出现先前成像的面部;以及由人启动的触发器,诸如标识自己或另一人的请求、对计算设备动作的请求、和/或通常需要对请求者进行标识的请求(例如,为请求者个性化所得到的动作)。在其他示例中,可希望以不受外部影响触发的规则间隔进行面部检测——例如,在存在对人的位置和状态的改变时保持对该人进行持续标识。
然而,考虑到可用于执行面部检测的计算资源,与面部检测相关联的计算开销可能会使处于频繁间隔的性能变得不理想和/或不可行。长的处理时间、有限的计算资源(例如,受仅有单个计算设备可用的限制)以及将资源分配给除面部检测之外的任务可能会导致这种不理想和/或不可行。因此,比面部检测算法918使用更少的计算资源的算法可被用于以比面部检测可能或期望的频率更高的频率跟踪人。因此并且在一些示例中,在给定的时间间隔内,可使用至少一种跟踪算法处理图像数据916,而不使用面部检测算法918处理图像数据。
为了跟踪在图像数据916中捕捉的人,选择模块914可从颜色跟踪算法920、运动跟踪算法922、体形跟踪算法924和步态跟踪算法926中进行选择。颜色跟踪算法920被配置成输出图像数据的颜色直方图,该颜色直方图指示图像数据的所需数量的颜色箱中的每一个的大小、频率、强度和/或其他值。可以以预定方式或基于图像数据916动态地为颜色箱选择任何数量、范围和宽度。作为一个示例,可为RGB彩色图像数据选择红、绿和蓝色箱。针对其产生颜色直方图的图像数据可以是图像数据916的子集,其对应于图像数据中被捕捉到的人。如此,颜色直方图可以主要是人所呈现的颜色(诸如他或她的肤色和衣服所呈现的颜色)的函数。
运动跟踪算法922被配置成输出图像数据的一个或多个运动矢量。(诸)运动矢量可包括大小和方向,并且可指示与时间偏移图像数据的两个或更多个部分中的对应区域相关联的运动。在图像数据包括各自捕捉到人的至少两个不同的图像数据帧的实现中,运动跟踪算法922可产生指示人从第一帧运动到第二帧的运动矢量。如结合上文描述的实体位置114,运动矢量的尾部和/或头部可对应于人的任何合适的部分,包括但不限于人的几何中心、分类部分等。此外,运动矢量可以与任何合适的坐标系相关,在一些示例中,该坐标系可以与被成像的人所占据的环境相关联。
体形跟踪算法924被配置成输出在图像数据中捕捉的人的身体模型。身体模型可包括关于人体的任何合适特征的信息,包括但不限于身体外形、身体轮廓、骨骼模型、身体分类、肢体/身体部位比例、身高和/或翼展。
步态跟踪算法926被配置成输出关于在图像数据中捕捉的人的步态分析数据。步态分析数据可包括关于人的步态的任何合适特征的信息,包括但不限于关节角度、肢体位置、步态的二维或三维视频、表示步态的骨骼模型、和/或表示步态的三维网格。因此,在一些示例中,步态分析数据可通过跟踪人随时间(例如,随多个图像数据帧)的步态来导出。
选择模块914可基于执行跟踪的计算设备的可用计算资源从跟踪算法中进行选择。在选择跟踪算法时可考虑任何类型的计算资源。例如,可基于与计算设备相关联的电池寿命条件来选择跟踪算法。在此情况下,计算设备可由电池供电,并且可选择算法使得在使用该算法处理图像数据916之后保持期望的电池寿命。作为一个特殊的示例,如果剩余的电池寿命小于预定的阈值(例如10%),则选择模块914可选择在用于处理图像数据时消耗最少功率的跟踪算法,并可放弃选择其他跟踪算法。此外,可用于选择的跟踪算法的数量可随着剩余电池寿命的增加而增加。例如,高于预定阈值(例如,30-50%)的电池寿命条件可能足以使得能够选择所有的跟踪算法。
作为另一示例,可基于逻辑处理器的资源到除了处理图像数据之外的一个或多个任务的分配来选择跟踪算法。在此情况下,逻辑处理器的资源(例如,时间片、核、线程)可被分配给与操作系统、应用、实体等有关的任务,并且可选择算法使得利用该算法的图像处理消耗不超过逻辑处理器资源的可用份额(例如,为了防止卡顿和降级的用户体验)。
由跟踪算法920-926产生的跟踪输出被馈送到位置标识符106,如上文参考图7所描述的。在一些示例中,选择模块914的一个或多个部分可被实现为位置标识符106的一部分。位置标识符106可基于跟踪输出中的一个或多个来跟踪在图像数据916中成像的人,并且可将人的位置提供给输出模块928。输出模块928还接收来自人标识符105的输出,并且可将在图像数据916中捕捉的人的身份和位置中的一个或两者提供给其他模块和/或设备,诸如上文描述的承诺引擎60和/或话音监听器30。
如图24所示,每个跟踪算法920-926以相应频率(分别为f2、f3、f4、和f5)产生跟踪输出,该相应频率高于面部检测算法918产生面部检测输出的频率(f1)。除了能够以高频率生成跟踪输出之外,跟踪算法还可减轻与面部检测输出的较低频率相关联的缺点。例如,由于人的身体的位置约束他或她的面部的可能位置,通过经由跟踪输出跟踪人的身体的位置,在面部检测不可用的情况下(例如,由于面部的可见性不足和/或处理资源被分配给其他图像数据)可大致跟踪该人的面部的位置。一旦再次变得可用,面部检测可在由跟踪输出约束的位置中被优先化。因此并且如上文所描述的,在一些示例中,可使用至少一种跟踪算法处理图像数据916,而不使用面部检测算法918处理图像数据。
此外,由于人所呈现的颜色、体形和/或步态可能对于该人来说是基本上唯一的,所以颜色、体形和步态跟踪算法920、924和926中的一个或多个可帮助标识该人。在一些情形中,人可在整个环境中移动和/或在执行初始面部检测的时间和尝试后续面部检测的时间之间以遮挡她面部的方式定向她自己。在这些时间之间,该人独有的颜色、体形和/或步态分析数据可被用于跟踪人的身体位置的变化。以此方式,可以保持与此人相关联的身份。因此,通过将面部检测输出(和/或相关联的身份)与跟踪输出相关联并用跟踪输出更新面部检测输出(和/或相关联的身份),可以在高置信度水平处以与跟踪输出相关联的较高频率输出面部检测输出(和/或相关联的身份)。
为了使能够通过人跟踪数据来告知面部检测,并且如图24的示例所例示的,来自输出模块928的输出可被提供给算法918-926中的一个或多个。除了人身份和/或定位之外,来自输出模块928的输出可包括来自算法中的一个或多个的直接输出(例如,面部检测输出、颜色直方图、运动矢量、身体模型和步态跟踪数据)。以这种方式的算法反馈可实现其他类型的更新,包括通过面部检测算法对跟踪算法进行更新,以及两个或更多个跟踪算法之间的更新,如下文参考图25进一步详细描述的。
构想对选择模块914的各种修改。例如,选择模块914可用的算法中的一个或多个可被省略,和/或在图24中未示出的一个或多个其他算法可被用于标识和/或跟踪实体。此外,算法可以以任何合适的频率产生输出,这可以是可用计算资源和操作条件的函数。作为示例,面部检测算法918可以以1Hz的频率产生面部检测输出,而跟踪算法920-926中的一个或多个可以以5、6、10或30Hz的频率产生跟踪输出。
图25描绘了在存在实体运动和遮挡的情况下执行实体跟踪的示例情形。该示例情形例示了来自各种图像处理算法的输出可被如何用于更新一个或多个其他图像处理算法。为此,在整个图25的描述中参考图24和其中所示的图像处理算法。
在此示例中,最初在图像数据(例如,图像数据916)的第一帧934中捕捉到两个人——第一人930和第二人932。面部检测算法918接收第一帧934并在第一帧934上执行面部检测,分别在区域936和区域938中为第一和第二人930和932产生面部检测输出,其中每个人的面部都在该帧中被检测到。然后,选择模块914通过选择跟踪算法920-926中的一个或多个来确定用于跟踪第一和第二人930和932的计算密集度较低的方式。
在此示例中,颜色跟踪算法920被选择并为第一人930产生颜色直方图940,而为第二人932产生颜色直方图942。例如,由于缺乏可用的计算资源,其他跟踪算法可能未被选择。在其他示例中,运动和/或步态跟踪算法922和926可被选择,但是可能会产生指示(例如,相对于一个或多个先前帧)每个人930和932的运动低于预定阈值的空输出。
在第一帧934中产生的面部检测输出可通知所选择的跟踪算法中的一个或多个。例如,区域936和938可被提供为对于颜色跟踪算法920的输入,该算法可约束或优先化第一帧934中靠近第一和第二区域的其他区域中的颜色直方图推导(因为很有可能任何经成像的身体都接近于其相应的面部区域)。
图25进一步示出了对第一和第二人930和932进行成像的第二帧944。第二帧944在第一帧934之后被捕捉,并且此时第一和第二人930和932两者都相对于他们在第一帧中的位置经历了实质性运动——两个人都从环境的侧面向环境中心移动,其中第一人部分地遮挡了第二人。面部检测算法918接收第二帧944并在第二帧944上执行面部检测,从而在区域946中为第一人930产生面部检测输出。然而,面部检测算法918不能检测第二人932的面部,因为它被第一人930遮挡。
各种跟踪算法产出可以跟踪第二帧944中的输出。运动跟踪算法922可产生针对第一人930的运动矢量952,和针对第二人932的运动矢量954。运动矢量952和954可指示相应人相对于第一帧934和/或第二帧944之前的其他帧的运动。此外,在第一帧934中产生的颜色直方图940和942继续分别与第二帧944中的第一和第二人930和932相关联。在其他示例中,颜色跟踪算法920可在第二帧944中为第一和第二人930和932中的一个或两个产生新的颜色直方图。可为第二帧944产生其他跟踪输出,包括但不限于来自体形和/或步态跟踪算法924和926的输出。
在第二帧944中,跟踪输出可被用于更新目标区域,在该目标区域中,由面部检测算法918进行的处理被优先化。例如并且关于第一人930,从第一帧934产生的颜色直方图940和/或从第二帧944产生的运动矢量952可影响其中面部检测被优先化的目标区域。例如,可在第二帧944中跟踪从第一帧934产生的颜色直方图940以更新目标区域,从而使最终找到第一人930的面部的区域946位于第二帧首先执行面部检测的区域中。作为另一示例,从第二帧944产生的运动矢量952的头部可至少部分地定位首先执行面部检测的目标区域。目标区域可对应于由此类跟踪输出跟踪的第一人930的定位——例如,目标区域可以在已知或相信可能与第一人的身体相对应的第一人的位置之上或通常接近该第一人的位置。
在一些示例中,面部检测输出可被用于更新跟踪算法。在一个示例中,可导出在第一帧934中检测到第一人930的面部的区域936与第一帧中颜色跟踪算法920生成的颜色直方图940之间的关联性。在第二帧944中,可通过将颜色直方图940与在第二帧944中检测到第一人930的面部的区域946相关联来更新颜色跟踪算法920。在其他示例中,诸如在第二帧944中为第一人930确定新颜色直方图的那些示例中,区域946可替代地可被用于将颜色直方图推导约束或优先化到接近该区域的区块。
在一些示例中,可提供来自一个跟踪算法的跟踪输出作为对于另一跟踪算法的输入。例如,运动矢量952可被用于约束或优先化产生新颜色直方图的区域。作为另一示例,当从第一帧934中的第一人930的身体的定位跟踪到第二帧944中的身体的定位时,颜色直方图940可被运动跟踪算法922用于定位运动矢量952的端点。
图25还例示了如何使用跟踪算法来持续跟踪和潜在地保持对人的身份的了解。当第二人932的面部在第二帧944中被遮挡时,该人的其他部分足够可见以使得能够确定运动矢量954并更新颜色直方图942与第二人的跟踪位置的关联性。颜色直方图942和/或运动矢量954可被用于约束或优先化后续帧中的面部检测,其中可通过参考直方图和/或矢量来预测第二人932的面部位置。此外,由于颜色直方图942和/或运动矢量954对第二人932的潜在唯一性,它们可帮助保持先前确定的第二人的身份,尽管他们的面部在第二帧944中有遮挡。以此方式,可通过使用计算开销更低的跟踪算法来减轻由面部遮挡引起的缺点,以及与面部检测相关联的计算开销和长的处理时间。
图26显示例示一种实体跟踪方法1000的流程图。参考本文描述的软件和硬件组件提供针对方法1000的以下描述。将理解,方法1000还可在使用其他合适的硬件和软件组件的其他上下文中来执行。
在1002处,方法1000可包括接收包括人的环境的图像数据。图像数据可包括任何合适类型的图像数据,包括但不限于灰度、彩色、红外、二维、和/或三维图像数据,并且可从任何合适的图像传感器接收,包括但不限于可见光相机和/或红外相机。
在1004处,方法1000可包括使用面部检测算法处理图像数据以便以第一频率产生第一面部检测输出。例如,面部检测算法918可被用于处理图像数据。面部检测输出可包括任何合适的输出,诸如特征向量。
在1006处,方法1000可包括基于第一面部检测输出确定人的身份。例如,人标识符105可基于第一脸部检测输出确定身份。确定身份可包括将面部检测输出与其他面部检测输出进行比较并标识匹配。
在1008处,方法1000可包括从两个或更多个跟踪算法中选择另一算法。如1010、1012、1014和1016处所指示的,可分别从颜色跟踪算法、运动跟踪算法、体形跟踪算法和步态跟踪算法中选择跟踪算法。例如,选择模块914可执行此类选择。如1018处所指示的,可基于计算设备(例如,执行方法1000的计算设备)的电池寿命条件来选择该另一算法。如1020处所指示的,可基于计算设备的逻辑处理器的资源到除了处理图像数据之外的一个或多个任务的分配来选择其他算法。该另一算法与面部检测算法相比可使用更少的计算设备的计算资源。
在1022处,方法1000可包括使用与面部检测算法相比使用更少的计算设备的计算资源的该另一算法处理图像数据以便以大于第一频率的第二频率产生跟踪输出。根据在1008处选择的(诸)跟踪算法,跟踪输出可包括颜色直方图、运动矢量、体形分析数据和步态分析数据中的一个或多个。如1024处所指示的,可使用该另一算法(例如,至少一个所选择的跟踪算法)处理图像数据,而不使用面部检测算法来处理图像数据。例如,可用的计算资源可能不足以利用该另一算法和面部检测算法同时处理图像数据,和/或面部检测算法可能不可用于处理图像数据。
在1026处,方法1000可包括基于来自其他算法的跟踪输出来跟踪环境内的人。跟踪该人可包括跟踪该人的物理方面,诸如该人的身体和/或面部位置。例如,位置标识符106可基于跟踪输出来跟踪人。
在1028处,方法1000可包括更新一个或多个算法。如1030处所指示的,可使用由面部检测算法生成的第二面部检测输出来更新该另一算法。例如,其中检测到人的面部的图像数据的区域与跟踪输出之间的关联性可被更新。如1032处所指示的,可使用跟踪输出来更新面部检测算法。例如,可更新图像数据的目标区域,在该目标区域中对使用面部检测算法来处理图像数据进行优先化,其中该目标区域对应于人的位置。
将理解,方法1000是以举例方式提供的,并且不旨在为限制性的。因此,可以理解,方法1000可包括相对于图26中例示的那些步骤而言附加的和/或替换的步骤。此外,应当理解,方法1000可以以任何合适的顺序来执行。此外,应当理解,在不脱离本公开的范围的情况下,可以从方法700中省略一个或多个步骤。
在一些实现中,实体跟踪器100可被配置成组合或融合来自多个传感器的数据以便输出更准确的预测。作为示例,相机可定位特定房间中的人。基于相机数据,实体跟踪器100可以以70%的置信值标识该人。然而,实体跟踪器100可附加地从话筒接收录制的语音。仅基于录制的语音,实体跟踪器100可以以60%的置信值标识该人。通过将来自相机的数据与来自话筒的数据组合,实体跟踪器100可以以可能比单独使用来自任一传感器的数据的置信值更高的置信值标识该人。例如,实体跟踪器可确定从话筒接收到的录制语音与接收到语音时相机可见的人的嘴唇运动相对应,并从而以相对较高的置信度(诸如92%)得出相机可见的人就是正在说话的人的结论。以此方式,实体跟踪器100可组合两个或更多个预测的置信值以用经组合的、更高的置信值标识人。
在一些示例中,取决于传感器数据的可靠性,可对从各种传感器接收到的数据进行不同地加权。当多个传感器输出看起来不一致的数据时,这一点尤其重要。在一些示例中,传感器数据的可靠性可至少部分地基于由传感器生成的数据的类型。例如,在一些实现中,视频数据的可靠性可能比音频数据的可靠性更高地加权,因为相机上的实体的存在相较于推定来自该实体的录制的声音而言是对其身份、位置和/或状态的更好的指示符。应当理解,传感器数据的可靠性是相较于与数据实例的预测准确度相关联的置信值而言不同的因素。例如,基于每个实例处存在的不同上下文因素,视频数据的若干实例可具有不同的置信值。然而,视频数据的这些实例中的每一者通常都可以与视频数据的单个可靠性值相关联。
在一个示例中,来自相机的数据可以以70%的置信值表明特定的人位于厨房中,诸如经由面部识别分析。来自话筒的数据可以以75%的置信值表明同一人位于附近的走廊,诸如经由话音识别分析。即使话筒数据的实例携带更高的置信值,实体跟踪器100仍可基于相机数据的可靠性比话筒数据的可靠性高而输出人位于厨房内的预测。以此方式并且在一些示例中,不同传感器数据的不同可靠性值可以与置信值一起被用于协调冲突的传感器数据并确定实体的身份、位置和/或状态。
附加地或替换地,可赋予具有更高精度、更高处理功率或更高能力的传感器更高的权重。例如,与膝上型计算机中找到的基本网络摄像头相比,专业级视频相机可具有显著改进的镜头、图像传感器和数字图像处理能力。相应地,因为从专业级相机接收到的视频数据可能更准确,因此与网络摄像头相比此类数据可被赋予更高的权重/可靠性值。
现在参考图8,在一些示例中,与实体跟踪器100一起使用的各个体传感器可以以与实体跟踪器一起使用的其他传感器不同的频率输出数据。类似地,与实体跟踪器100一起使用的传感器可以以与实体跟踪器评估数据和输出上下文信息的频率不同的频率输出数据。在图8的示例中,实体跟踪器100可在多个时间帧200A、200B和200C上接收和解释传感器数据。单个时间帧可表示任何合适的时间长度,诸如1/30秒,1/60秒等。
在此示例中,在时间帧200A期间,实体跟踪器100接收包括传感器A数据204A、传感器B数据204B和传感器C数据204C的一组传感器数据202。此类传感器数据由实体跟踪器100解释并被转换成上下文信息206,其可被用于确定如上文所描述的一个或多个检测到的实体的身份、位置和/或状态。在时间帧200B期间,实体跟踪器100接收包括传感器A数据210A和传感器B数据210B的传感器数据208。在时间帧200B期间,实体跟踪器100不从传感器C接收数据,因为传感器C以与传感器A和B不同的频率输出数据。类似地,在时间帧200B期间,实体跟踪器100不输出上下文信息,因为实体跟踪器以与传感器A和B不同的频率输出上下文信息。
在时间帧200C期间,实体跟踪器100接收包括传感器A数据214A、传感器B数据214B、传感器C数据214C和传感器D数据214D的传感器数据212。在时间帧200C期间,实体跟踪器100还输出可基于由实体跟踪器接收到的任何或所有传感器数据的上下文信息216,因为上下文信息是在时间帧200A中最后输出的。换言之,上下文信息216可至少部分地基于传感器数据208以及传感器数据212。在一些示例中,上下文信息216可至少部分地基于传感器数据202和传感器数据208、以及传感器数据212。
如图8所示,在实体跟踪器100从特定传感器接收数据之后,在实体跟踪器从同一传感器接收更多数据之前,可能会经过多个时间帧。在这些多个时间帧期间,实体跟踪器100可输出上下文信息。类似地,从特定传感器接收到的数据的有用性可能随时间帧而变化。例如,在第一时间帧处,实体跟踪器100可经由话筒接收正在说话的特定人的音频数据,并因此用相对高的置信值标识人的实体位置114。在随后的时间帧中,该人可保持位于所标识的位置,但是也可能从第一时间帧开始就停止了说话。在此情况下,话筒缺失有用数据可能不是人不存在的可靠指示符。其他类型的传感器也会出现类似的问题。例如,如果一个人遮住了他的脸,或者被诸如另一个人或移动对象之类的障碍物遮挡,那么相机可能会失去对该人的跟踪。在此情况下,尽管当前相机数据可能不表明该人的存在,但相机数据的先前实例可能表明该人仍然位于先前标识的位置处。通常,虽然传感器数据可以可靠地指示实体的存在,但是此类数据在表明实体的不存在时可能不太可靠。
因此,实体跟踪器100可利用一个或多个置信度衰减函数,其在不同的示例中可以由实体跟踪器和/或由传感器本身来定义。置信度衰减函数可被应用于传感器数据,以从特定传感器最后一次阳性地检测到实体开始,随着时间的推移降低实体跟踪器对来自该传感器的数据的置信度。作为示例,在传感器检测到实体位于特定定位处之后,实体跟踪器100可报告指示该实体以相对高的置信度位于该定位处的上下文信息110。如果在一个或多个时间帧之后传感器不再检测到实体位于该定位处,并且除非其随后收集相互矛盾的证据,否则实体跟踪器100仍然可以报告该实体位于该定位处,但采用更低的置信度。随着时间从传感器最后一次检测到实体位于该定位处后继续推移,该实体仍位于该定位处的可能性逐渐减小。因此,实体跟踪器100可利用置信度衰减函数来逐渐降低其报告的上下文信息110的置信值,如果没有附加传感器检测到该实体则最终到达0%的置信度。
在一些情况下,不同的置信度衰减函数可以与不同的传感器和传感器类型一起使用。特定衰减函数的选择可至少部分地取决于传感器的特定属性。例如,与来自相机的数据相关联的置信值可能比与来自话筒的数据相关联的置信值更快地衰减,因为视频帧中的实体的不存在是比被话筒录制的静音更可靠的指示符。
传感器置信度衰减的一个示例在图9中被示意性地例示,其示出了实体跟踪器100在三个不同时间帧300A、300B和300C期间接收传感器数据。在时间帧300A期间,实体跟踪器100接收相机数据302,其中在该帧中实体是可见的。基于此数据,实体跟踪器100以90%的置信值报告实体位置304。在时间帧300B中,实体跟踪器100接收相机数据306,其中在该帧中实体不再可见。然而,实体可能并未移动,而仅仅是被遮挡或者以其他方式不能被相机检测到。因此,实体跟踪器100报告相同的实体位置304,但采用80%的较低置信值。
最后,在时间帧300C中,实体跟踪器100接收指示该实体在该帧中仍然不可见的相机数据310。随着时间的推移,实体仍然处于同一位置的可能性越来越小。因此,实体跟踪器100以60%的更低的置信值报告相同的实体位置304。
在一些示例中,可通过利用数据过滤技术来至少部分地解决传感器数据的可变可靠性。在一些示例中,卡尔曼滤波器可被用于过滤传感器数据。卡尔曼滤波器是一种数学函数,它可以将多个不确定的测量值结合起来,并输出可能比使用任何单个测量结果都更有置信度的预测。基于测量结果的感知可靠性为卡尔曼滤波器的每个测量输入赋予权重。卡尔曼滤波器以两步骤过程操作,包括预测步骤和更新步骤。在预测步骤期间,滤波器基于最近的加权测量结果输出预测。在更新步骤期间,过滤器将其预测与实际观察值或状态进行比较,并动态地调整应用于每个测量的加权以便输出更准确的预测。
在一些示例中,实体跟踪器100可包括卡尔曼滤波器,其组合来自各种传感器的数据以补偿较低的传感器可靠性,诸如当传感器置信值从最后一次阳性地检测以来随时间衰减时。在一些示例中,当一个或多个传感器置信值低于预定阈值时,实体跟踪器100可以将卡尔曼滤波器应用于传感器数据。在示例情形中,可使用面部检测技术来分析来自相机的图像数据以可靠地检测特定房间中的人。作为响应,实体跟踪器100可以以高置信度报告该人位于该房间内。
在随后的时间帧中,相机可能不再能够捕捉和/或阳性地识别房间中的人的面部。例如,人的面部可能被遮挡,或者相机可以以比实体跟踪器100输出上下文信息110低得多的频率传送数据。如果实体跟踪器100完全依赖于来自相机的数据,则其报告的人的位置的置信值将逐渐减小,直到下一次阳性检测。然而并且在一些示例中,来自相机的数据可以用来自其他传感器的数据来补充。例如,在随后的时间帧期间,话筒可报告它听到房间中的人的话音,或者另一传感器可报告它可以检测到房间中人的移动设备的存在。在此情况下,此数据可被卡尔曼滤波器分配权重,并且可被用于以可能比仅使用相机数据更高的置信度预测人的当前定位。
在一些情况下,当传感器数据被背景信息污染时,对环境中的人和/或其他实体的检测会变得更加复杂。此类背景信息可能会损害实体跟踪器100报告实体身份112、位置114和/或状态116的置信度。例如,智能助理系统20可能需要确定正在讲话的人的身份以便适当地响应询问或命令。当多个人同时说话、正在播放电视、响的机器正在操作等时,此类确定可能是困难的。
因此,实体跟踪器100可使用各种音频处理技术来更有置信度地标识参与与其他人和/或与智能助理系统20的对话的特定活动参与者。作为示例,实体跟踪器100可实现话音活动检测(VAD)引擎,其可将人类话音与环境噪声区分开,并标识人类语音的存在或不存在。
通用VAD引擎可被用于将特定音频的音段分类为包括语音或非语音,具有相应的置信值。实体跟踪器100还可利用发言者识别引擎来将特定音频的音段与特定人相匹配。随着接收到更多语音,发言者识别引擎可被逐渐定制以将音频分类为包括来自特定对话参与者的语音,或不包括来自特定对话参与者的语音。以此方式,实体跟踪器100可识别来自一个或多个特定人/对话参与者的语音。
对发言者识别引擎的训练可在实体跟踪器100有置信度地标识特定人并且录制可被有置信度地归于该人的音频的任何时候发生。例如,通过使用相机数据,实体跟踪器100可标识特定人并确定该人的嘴唇正在运动。实体跟踪器100可同时从话筒接收音频,该音频可被安全地假设为包括来自所标识的人的语音。因此,接收到的音频可被用于重新训练发言者识别引擎以更专门地识别所标识的人的话音。
在一些情况下,此类重新训练可仅在已以诸如超过预定阈值的置信值之类的高置信值(例如,经由准确的面部识别或任何其他方法)标识人的情况下和当实体跟踪器100接收到具有高音量/幅度和高信噪比(S/N)的人的话音的音频记录的情况下发生。使用此技术,实体跟踪器100可累积各种因人而异的话音模型,从而允许实体跟踪器更一致地标识来自特定人的语音并忽略背景噪声。
现在参考图10,示意性地例示了使用经训练的语音识别引擎来识别来自特定人的语音的示例。在此示例中,实体跟踪器100接收两个语音片段400A和400B。语音片段400A包括人1的录制语音,而语音片段400B包括人2的录制语音。实体跟踪器100包括已被专门训练以使用话音1模型404来识别来自人1的语音的语音识别引擎402,如上文所描述的。当实体跟踪器100接收到语音片段400A和语音片段400B时,话音1模型404可被应用于语音片段400A和语音片段400B中的每一者。
在处理语音片段时,实体跟踪器100输出每个语音片段对应于人1的似然性的预测。如图所示,对于语音片段400A,实体跟踪器以90%的置信值输出人1标识404A,指示该语音片段可能包括来自人1的语音。对于语音片段400B,实体跟踪器以15%的置信值输出人1标识404B,指示该语音片段400B可能不包括来自人1的语音。
在一些示例中,实体跟踪器100可被配置成标识环境中存在的背景噪声,并使用音频处理技术从接收到的音频数据中减去此类背景噪声。例如,某人家中的特定设备可能正在播放背景音频,诸如音乐或电视/电影对话。该人家中的各种配备话筒的设备可记录此类音频。在此类配备话筒的设备包括智能助理系统20和/或向实体跟踪器100提供音频数据的情况下,此类背景音频可能损害系统识别、解释和/或响应人类问题或命令的能力。
因此并且在一些示例中,播放背景音频的设备和/或记录背景音频的另一配备话筒的设备可将捕捉到的音频信号发送给实体跟踪器100。以此方式,实体跟踪器100可以从接收自配备话筒的设备的音频信号中减去背景音频。在一些示例中,在将音频数据发送到实体跟踪器100之前,可由捕捉音频数据的(诸)设备或相关联的音频处理组件执行从录制的音频数据中减去背景音频信号。
附加地或替换地,设备和/或实体跟踪器100可被训练以识别背景噪声的特定源(例如,来自通风口或冰箱),并自动地忽略录制音频中与此噪声对应的波形。在一些示例中,实体跟踪器100可包括专门训练以识别背景噪声的一个或多个音频识别模型。例如,来自各种噪声数据库的音频可通过无监督学习算法运行以便更一致地识别此类噪声。通过允许实体跟踪器100识别不相关的背景噪声,实体跟踪器识别相关人类语音和其他声音的能力可被改进。
现在参考图11,在一些情况下,实体跟踪器100可确定在两个或更多人之间的对话中活动参与者(即,当前正在讲话的人)发生了改变。实体跟踪器100还可确定此类改变是在何时发生的。这可以以各种方式完成。在一个示例中,包含语音片段的录制音频的音段可被时分为两个或更多个子帧,其中每个子帧包含录制语音片段的不同子片段。在图11的示例中,语音片段500可被时分为两个或更多个子片段,诸如子片段1 502A和子片段2 502B。每个语音子片段可被用于训练单独的话音模型,使得经训练的话音模型可被用于专门识别来自在此子帧期间正在讲话的人的语音。在图11中,子片段502A被用于训练话音模型1 504A,而子片段502B被用于训练话音模型2 504B。
一旦子片段已被用于训练话音模型,就可用不同的话音模型来交叉评估子片段。这在图12中被示意性地示出,其中使用子片段2 502B训练的话音模型2 504B被应用于子片段1 502A。类似地,使用子片段1 502A训练的话音模型1 504A被应用于子片段2 502B。
在交叉评估期间,如果在经测试的子片段期间说话的人与在被用于训练话音模型的子片段期间说话的人相同,则具有高置信值的预测将被生成。因此,如果两个话音模型都以相对高的置信值得出对发言者身份的预测,那么很可能同一人在两个子片段期间都进行了发言,并且对话中的活动参与者在语音片段期间没有改变。如果两个话音模型都以相对低的置信度得出对发言者身份的预测,则活动对话参与者很可能在语音片段期间的某个点处发生改变。这种可能性在图12中被例示,其中话音模型2 504B以30%的置信值输出人标识506A,而话音模型1 504A以25%的置信值输出人标识506B。由于两个语音模型对其预测的置信度都相对较低,因此很可能在子片段502A和子片段502B中的每一者中都有不同的人在说话。由此得出,活动对话参与者可能在子片段1 502A和子片段2 502B之间的某个点处发生改变。
在一些示例中,并且取决于实体跟踪器100使用的传感器和处理方法,在环境中跟踪和标识实体可能是耗时且资源密集的。因此,实体跟踪器100可使用各种技术来选择性地选择何时应该利用资源密集的处理。以此方式,可在不损害其相应功能的情况下提高实体跟踪器100的效率。
作为示例,可使用各种图像处理技术来解决环境中的可变照明条件。在一些示例中,并且取决于房间中的亮度/暗度水平,实体跟踪器100可执行对比度调整和/或其他图像处理技术以便更清楚地跟踪和标识房间中的实体。然而,这些技术可能需要大量的处理和计算机资源。因此并且为了节省此类资源,附加的上下文信息110可被评估以确定是否利用此类技术。
例如,如果房间是暗的并且具有高置信值的上下文信息110指示该房间是空的,那么实体跟踪器100可放弃计算密集的图像处理技术以有利于节约资源。在另一示例中,如果房间中的另一传感器检测到可能有人存在(例如,话筒记录了该人的声音),实体跟踪器100可授权使用计算密集的图像处理,以尝试获得可被用于标识人的脸的图像。在另一示例中,实体跟踪器100可降低监测当前没有感兴趣的实体存在的环境的任何传感器的采样频率。此后,实体跟踪器100可根据需要增加一个或多个传感器的采样频率,诸如当感兴趣的实体的存在被具有超过预定阈值的置信值指示时。
可能需要大量计算机资源的另一过程是使用高分辨率图像的面部识别。在一些示例中,在使用面部识别技术建立人的阳性标识时,实体跟踪器100可切换到较少资源密集的识别方法以便继续跟踪该人。作为示例,在检测到新的人已进入房间时,实体跟踪器100可捕捉该人的面部的高分辨率图像。实体跟踪器100可利用此图像来执行相对资源密集的面部识别以便明确地标识该人。
在对人的初始标识之后,实体跟踪器100可使用较少资源密集的技术以便在保存计算资源的同时继续跟踪该人。例如,实体跟踪器100可使用低分辨率相机以基于人的身体形状、步态(例如,通过评估人行走时各不同关节之间形成的角度)和衣服(例如,跟踪已知与该人的衣服相对应的色块)来跟踪他们。在一些示例中,并且为了周期性地确认其对人的初始标识仍然是准确的,实体跟踪器100可在初始标识之后间歇地执行面部识别。通常并且取决于特定上下文,实体跟踪器100可使用各种标识技术中的任何一种以便智能地管理计算资源的保存和实体的标识与跟踪。
如上所述,承诺引擎60存储从意图处理器50接收到的承诺。同样如上所述,承诺引擎60可利用一个或多个成本函数来确定与执行或不执行承诺相关联的一个或多个成本,并且在一些示例中,确定与向用户输出或不向用户输出消息相关联的一个或多个成本。如下文更详细地描述的,在一些示例中,一个或多个消息可被添加到消息队列。
现在参考图13,提供了可与承诺引擎60一起使用的示例成本函数620的示意图。承诺引擎60包括被配置成存储一个或多个承诺614的承诺存储626。图13中所示的承诺614包括触发器条件616和消息/动作618。在一些示例中,承诺可包括一组0个或多个触发器和一组1个或多个消息/动作(诸如向用户传达消息、打开灯、播放音乐等)。在一些示例中,消息/动作618可包括经由一个或多个输出设备70将存储在消息队列62中的消息619作为输出670进行传达。在一些示例中,消息/动作618可包括执行可包括与一个或多个其他设备或程序对接的一个或多个附加指令。
承诺引擎60被配置成经由实体跟踪器100和/或直接从一个或多个传感器22接收上下文信息110。在各种示例中,上下文信息110可能满足或可能不满足触发器条件,例如触发器条件616。上下文信息110可包括来自实体跟踪器100的实体数据630。上下文信息110可进一步包括时间数据650和/或用户输入680。下文更详细地描述实体数据630、时间数据650和用户输入680。
当承诺引擎60接收满足承诺614的触发器条件616的上下文信息110时,承诺引擎60可将成本函数620应用于消息/动作618。在消息/动作618包括消息的情况下,成本函数620被配置成确定是否将与承诺614相关联的消息输出给一个或多个用户。类似地,在消息/动作618包括动作的情况下,成本函数620被配置成至少部分地基于上下文信息110来确定是否执行动作。当成本函数620确定承诺614具有足够高的重要性时,承诺引擎60可以输出消息和/或执行消息/动作618的动作作为输出670。输出670可被传达给一个或多个输出设备70。例如,输出670可包括由用户的智能电话的扬声器和/或用户环境中的一个或多个其他扬声器(诸如独立扬声器设备、电视扬声器等)广播的口头消息。在一些示例中,输出670可包括控制一个或多个其他设备,诸如打开灯、经由媒体程序播放音乐等。
成本函数620可通过计算通知的成本622和不通知的成本624来确定是否输出消息619。如果确定不通知的成本624高于通知的成本622,则承诺引擎60可输出消息619。在一些示例中,可至少部分地使用一个或多个机器学习算法来确定通知的成本622和不通知的成本624。
在一些示例中,成本函数620可至少部分地基于从实体跟踪器100接收并包括在上下文信息110中的实体数据630来确定通知的成本622和不通知的成本624。如上文所解释的,实体数据630可包括实体身份数据112、实体位置数据114和实体状态数据116。实体身份数据112、实体位置数据114和实体状态数据116可各自分别包括至少一个用户、位置和活动的列表。被包括在实体身份数据112、实体位置数据114和实体状态数据116中的每个用户、定位和活动可具有与该用户、定位或活动被正确标识的概率的相关联的估计。成本函数620可利用此类概率估计来确定相应的通知的成本622和不通知的成本624。在一些示例中,上下文信息110可包括针对同时检测到一个或多个用户或其他实体的实体身份数据112、实体位置数据114和实体状态数据116。
承诺引擎60还可被配置成接收时间数据650。时间数据650可包括时间652和/或日期654。时间数据650还可包括从计算设备执行某项任务以来经过的至少一个时间间隔656。例如,时间数据650可包括从计算设备产生特定输出或接收特定输入以来经过的至少一个时间间隔656。例如,当烘烤面包时,用户可在烤箱定时器上设置时间间隔656,并且当时间间隔656过去并且烤箱定时器响起时,承诺引擎60可接收满足触发器条件616的上下文信息110。作为响应,成本函数620可被应用于相关承诺614以确定是否输出应该将面包从烤箱中取出的消息619,和/或执行关闭烤箱的动作。
作为另一示例,时间数据650可包括指示计算设备最近何时产生向用户通知该用户应该洗衣服的输出670的数据。消息队列62可存储提醒用户洗衣服的相关消息619。随着从上次给出消息以来时间量增加,如时间数据650所指示的,成本函数620可逐渐增加不通知的成本624。当洗衣服通知被给出时,成本函数620可降低消息619的不通知的成本624。在一些示例中,成本函数620可至少部分地基于时间数据650来确定通知的成本622和不通知的成本624。
成本函数620可至少部分地基于一个或多个用户输入680来确定通知的成本622和不通知的成本624。例如,用户可提供增加用户认为特别重要的通知的不通知的成本624的用户输入680。在一个示例中,和与朋友的午餐会的不通知的默认成本624相比,用户可提供用户输入680以增加工作面试的不通知的成本624。
承诺引擎60可确定输出670的输出类型。可基于实体数据630和/或时间数据650来作出对输出类型的确定。例如,承诺引擎60可基于用户定位数据确定用户不在该用户能够查看显示屏幕的定位处。承诺引擎60可因此生成被传达到扬声器而非屏幕的输出670。另外,一些输出类型可能具有与其他输出类型不同的通知的成本622。例如,视觉显示可具有比声音输出更低的通知的成本622,因为视觉输出可能不太可能中断对话。
在一个示例中,承诺引擎60可接收满足承诺614的触发器条件616的上下文信息110,其中消息为“约翰在15分钟内开会(John has a meeting in 15minutes)”。成本函数620可然后被应用于承诺614。成本函数620可使用实体数据630来确定通知的成本622和不通知的成本624。通知的成本622和不通知的成本624可至少部分地基于诸如消息对约翰的重要程度、约翰对接收消息的接受程度以及约翰是否位于与消息相关的定位处之类的因素。例如,实体数据630可包括实体身份数据112和实体位置数据114,其指示约翰当前不在他可以从输出设备672感知输出670的定位处。结果,不通知的成本624可能非常小。在另一示例中,基于实体数据630,承诺引擎60可确定约翰正在打电话时的通知的成本622比约翰正在阅读报纸时的通知的成本622更高。在另一示例中,在消息内容包括关于约翰的新生儿的医疗信息的情况下,可确定不通知的成本624高。
在另一示例中,承诺引擎60可接收指示幼儿在用户的游泳池附近的定位处的上下文信息110。此上下文信息110可满足对应于幼儿在用户的泳池附近的情况的承诺614的触发条件616。承诺614可包括消息/动作618以向用户广播幼儿在游泳池附近的紧急消息。成本函数620可被应用于承诺614。至少部分地基于与涉及幼儿的潜在严重安全情况相关的承诺614的触发条件616,成本函数620可确定承诺614具有非常高的不通知的成本624。
继续此示例,基于包括用户活动数据的实体数据630,承诺引擎60可确定用户当前正在打电话。承诺引擎60还可访问指示用户在他正在通话时强烈地希望避免中断的用户的简档数据。结果,承诺引擎60可确定通知的成本622也很高。在此示例中,假设消息与涉及幼儿的安全情况相关,则承诺引擎60可确定不通知的成本624高于通知的成本622。因此,承诺引擎60将紧急消息619作为输出670以由输出设备672输出来传达给用户。
在另一示例中,承诺引擎60可接收触发承诺614的触发器条件616的上下文信息110,其中消息为“约翰在15分钟内开会(John has a meeting in 15minutes)”。通过使用实体数据630,承诺引擎也可确定约翰当前正在打电话。承诺引擎60可确定由于在输出设备672上输出通知约翰承诺614的消息将中断约翰的电话呼叫,因此通知的成本622大于不通知的成本624。因此,承诺引擎60可以不将消息作为输出670传达给输出设备672。
随着约翰会议时间的临近,承诺引擎60可基于时间数据650增加不通知的成本624。例如,承诺引擎60可确定约翰距离会议地点5分钟。当时间数据650指示会议将在六分钟内开始时,不通知的成本624可能足够高以使得即使约翰仍在打电话承诺引擎60也会将消息619传达给输出设备672。
图14中示出了用于确定针对消息的通知的成本和不通知的成本的方法700的流程图。参考本文描述的软件和硬件组件提供针对方法700的以下描述。将理解,方法700还可在使用其他合适的硬件和软件组件的其他上下文中来执行。
在702处,方法700可包括接收上下文信息。接收上下文信息可包括接收实体数据、时间数据和/或用户输入。在704处,方法700可包括接收包括实体身份、位置和/或状态数据的实体数据。在706处,方法700可包括接收时间数据。时间数据可包括时间和/或日期。时间数据可进一步包括至少一个时间间隔。在708处,方法700可包括接收用户输入。
在710处,方法700可包括至少部分地基于上下文信息来检测触发器条件已经发生。触发器条件可以与承诺相关联。
在712处,方法700可包括确定与在输出设备上输出消息相关联的通知的成本。在714处,方法700可包括确定与不输出消息相关联的不通知的成本。在一些示例中,确定通知的成本和不通知的成本可至少部分地基于实体数据、时间数据和/或用户输入。在一些示例中,可至少部分地使用机器学习算法来确定通知的成本和不通知的成本。
在716处,方法700可包括将通知的成本与不通知的成本进行比较。在718处,方法700可包括,如果不通知的成本超过通知的成本,则传达将在输出设备上被输出的消息。在720处,方法700可包括,如果不通知的成本不超过通知的成本,则禁止将消息传达到输出设备。
将理解,方法700是以举例方式提供的,并且不旨在为限制性的。因此,可以理解,方法700可包括相对于图14中例示的那些步骤而言附加的和/或替换的步骤。此外,应当理解,方法700可以以任何合适的顺序来执行。此外,应当理解,在不脱离本公开的范围的情况下,可以从方法700中省略一个或多个步骤。
在一些示例中,一个或多个成本函数可被用于确定和/或调整一个或多个传感器的采样率。在一些用例情形中,使用传感器对环境进行采样和分析可能是计算密集的任务。如上文所解释的,成本函数可确定执行和/或不执行动作(诸如传递消息)的成本。通过使用此类确定,系统可增加或减少提供与动作相关的数据的一个或多个传感器的采样率。例如,在动作包括经由在输出设备上输出消息来通知用户的情况下,可至少部分地基于与禁止输出消息(例如,不通知)相关联的成本的大小来增加或减少传感器速率。
在一些示例中,一个或多个成本函数可被用于定制通知的递送的类型和/或方式。在一个示例中,成本函数可确定消息的不通知的成本可能非常高。例如,用户可以与系统建立规则,即包含单词“幼儿(baby)”的任何消息都被分配最高的、至关重要的状态。因此,在消息包括单词“幼儿(baby)”的情况下,成本函数可确定不通知的成本非常高,并且相应地可经由用户家中所有可用的扬声器以高音量广播该消息。
现在参考图15,提供了根据本公开的各示例的阈值更新模块810的示意性表示。在不同的示例中,阈值更新模块810可以是智能助理系统20中的独立模块,或者可以是实体跟踪器100、解析器40或承诺引擎60的组件。在一些示例中,阈值更新模块810可被配置成修改可被用于解析实体数据832的阈值数据820。阈值数据820可包括实体标识阈值822、实体位置/定位阈值824和实体状态阈值826。这些阈值中的每一者可被定义为概率。当确定实体身份、定位或状态具有超过该实体身份、定位或状态的阈值概率的检测概率时,可指示和/或记录对该实体身份、定位或状态的检测。
阈值数据820可由阈值更新模块810更新以产生经更新的阈值数据850。经更新的阈值数据850可包括经更新的实体标识阈值852、经更新的实体定位阈值854和经更新的实体状态阈值856。阈值更新模块810可基于成本函数830、实体数据832、时间数据834和/或用户输入836来更新阈值数据820。在一些示例中,成本函数830、实体数据832和时间数据834可以是图13的成本函数620、实体数据630和时间数据650。
在一些示例中,阈值更新模块810可基于成本函数830的修改来更新阈值数据820。如上文所描述的,成本函数830可被配置成确定针对可能被传达以便输出的消息的通知的成本和不通知的成本。在一些示例中,可响应于用户输入836对成本函数830进行修改。例如,睡眠不足的用户可输入当确定该用户正在睡觉时增加通知的成本的输入。结果,阈值更新模块810可减小用于确定用户正在睡觉的用户状态阈值826。在一些示例中,用户可输入直接更新阈值数据820的输入836。
阈值更新模块810还可基于实体数据832更新阈值数据820。如上所述,实体数据832可包括实体标识数据、实体定位数据和/或实体状态或活动数据。在一个示例中,阈值数据820可包括实体标识阈值822和实体定位阈值824以用于检测儿童和成人两者同时在热炉附近。阈值更新模块810可接收指示儿童独自在热炉附近的实体数据832。作为响应,阈值更新模块810可将对应的实体标识阈值822和实体定位阈值824修改为更低。
在一些示例中,阈值更新模块810还可基于时间数据834更新阈值数据820。时间数据可包括时间、日期和/或从输出特定输入以来或从已经接收到特定输入以来已经过去的至少一个时间间隔。例如,当时间数据834指示现在是夜间时,针对睡眠的实体状态阈值826可能会被降低。
图16中提供了用于更新阈值数据的方法900的流程图。参考本文描述的软件和硬件组件提供针对方法900的以下描述。将理解,方法900还可在使用其他合适的硬件和软件组件的其他上下文中来执行。
在902处,方法900可包括接收一组阈值数据。阈值数据可包括一个或多个概率阈值,高于该概率阈值就可注册对用户、用户定位或用户活动的检测。在904处,方法900可包括接收对成本函数的修改。在906处,方法900可包括接收实体数据,其可包括实体标识数据、实体位置/定位数据和/或实体状态数据。
在908处,方法900可包括接收时间数据,该时间数据可包括时间、日期和/或从产生特定输出或接收到特定输入以来已经过去的至少一个时间间隔。在910处,方法900可包括接收用户输入。在912处,方法900可包括通过至少部分地基于成本函数修改、实体数据、时间数据和/或用户输入来修改接收到的阈值数据来产生经更新的阈值数据。
将理解,方法900是以举例方式提供的,并且不旨在为限制性的。因此,可以理解,方法900可包括相对于图16中例示的那些步骤而言附加的和/或替换的步骤。此外,应当理解,方法900可以以任何合适的顺序来执行。此外,应当理解,在不脱离本公开的范围的情况下,可以从方法900中省略一个或多个步骤。
在一些示例中,智能助理系统20可训练用户以最小化歧义的方式与系统交互。例如,系统可以以训练特定用户使用更清楚地传达用户意图的单词或短语对系统说话的方式来定制对该特定用户的响应、询问和其他交互。以此方式,可以最小化来自系统的用于澄清歧义的后续询问。在一个示例中,如果用户有两个名为弗莱德(琼斯和史密斯)的联系人,并且此用户经常告诉系统“打电话给弗莱德”,系统可能会提供建议,“当您想打电话给您联系人中的一个弗莱德时,使用他的姓氏也会很有帮助”。
在一些示例中,智能助理系统20可定制用户界面以提供用于收集可被使用以增强用户体验的用户数据的附加机会。在一些示例中,此类数据可以与机器学习技术一起使用以学习用户偏好并根据此类信息作出预测。在一个示例中,在用户利用提供提醒的日历应用的情况下,系统可提供用户界面、或者可修改现有用户界面,以收集关于该用户的有用数据。例如,当提供提醒时日历应用可提供两个默认选项:解除和小睡,其中小睡时段可按几个5分钟的增量进行选择。
在一些示例中,智能助理系统20可能会修改提醒用户界面以显示具有不同标签的两个不同的小睡选择器——“不要现在,我在忙(Not Now I'm Busy)”和“不要现在,这不重要(Not now,it’s not important)”。因此,当用户选择这些更详细的选择器中的其中一者,系统可能会了解该用户;即,该用户认为哪些活动、人员、会议类型等“不重要”或会使用户“忙碌”。以此方式,此类信息帮助系统对该用户了解更多。随着此类数据随着时间的推移被收集起来,机器学习技术可被用于更好地理解用户偏好和其他属性。在其他示例中,可收集许多其他类型的数据(图像、音频、生理学等),同时提供定制的用户界面体验以更了解用户。
现在参考图17-21,例示了智能助理系统20在单个计算设备和跨多个计算设备中的附加示例实现。下文参考图23描述在图17-21中例示的关于计算设备的组件和计算方面的附加细节。
图17示出了一体化计算设备160的示例,其中实现智能助理系统20的各组件一起被布置在独立设备中。在一些示例中,一体化计算设备160可经由网络166通信地耦合到一个或多个其他计算设备162。在一些示例中,一体化计算设备160可被通信地耦合到数据存储164,数据存储164可存储诸如用户简档数据之类的各种数据。一体化计算设备160包括至少一个传感器22、话音监听器30、解析器40、意图处理器50、承诺引擎60、实体跟踪器100和至少一个输出设备70。(诸)传感器22包括至少一个话筒以接收来自用户的自然语言输入。在一些示例中,还可包括一个或多个其他类型的传感器22。
如上文所描述的,话音监听器30、解析器40和意图处理器50协同工作以将自然语言输入转换为可由一体化设备160执行的承诺。承诺引擎60将这些承诺存储在承诺存储626中。实体跟踪器100可向承诺引擎60和/或其他模块提供上下文信息。在上下文适当的时间,承诺引擎60可执行承诺并向(诸)输出设备70提供诸如音频信号之类的输出。
图18示出了一个示例实现,其中一个或多个远程服务170执行智能助理系统20的自然语言处理功能。在此示例中,话音监听器30、解析器40、意图处理器50、实体跟踪器100和承诺引擎60驻留在被定位在远离支持云的用户设备A的位置处的诸如一个或多个服务器之类的一个或多个计算设备上。来自用户设备A的一个或多个传感器22的传感器数据经由网络被提供给(诸)远程服务170。例如,用户讲话的音频数据可被用户设备A的话筒捕捉并被提供给话音监听器30。
如上文所描述的,话音监听器30、解析器40和意图处理器50协作以将音频数据转换为被存储在承诺引擎60中的承诺。在上下文适当的时间,承诺引擎60可执行承诺并向用户设备A的一个或多个输出设备70提供诸如音频信号之类的输出。
图19示出了另一示例实现,其中一个或多个远程服务170执行智能助理系统20的自然语言处理功能。在此示例中,一个或多个远程服务170与多个不同的传感器22和输出设备70通信地耦合。在此示例中,传感器包括单独的独立传感器A和C,诸如话筒、相机等。输出设备包括单独的独立输出设备B和D,诸如扬声器。
一个或多个远程服务170还通信地耦合到包括一个或多个传感器F和输出设备G的设备E。设备E可采用包括话筒、扬声器和网络连接组件的简单独立设备的形式。在其他示例中,设备E可以是移动电话、平板计算机、壁挂式显示器或其他合适的计算设备。在一些示例中,设备E、传感器A和C以及输出设备B和D可以是同一支持云的客户端的一部分。在其他示例中,任何数量的单独传感器和设备都可以与一个或多个远程服务170一起使用。
如上文所描述的,一个或多个远程服务170执行智能助理系统20的自然语言处理功能。在一些示例中,远程服务170中的一者或多者可包括智能助理系统20的所有自然语言处理模块,如图18的示例中所示的。在其他示例中,一个或多个远程服务170可包括少于所有的自然语言处理模块,并可通信地耦合到位于一个或多个其他服务处的其他模块。在本示例中,并且如下文更详细地描述的,远程服务170中的一个或多个还可包括设备选择器174,该设备选择器174可利用传感器输入来选择输出设备B、D和/或G以接收来自承诺引擎60的输出。
现在参考图20,在一些示例中,本公开的智能助理系统20可利用设备选择器174来使用户能够与其位置可能对用户来说是未知的另一个人通信。在一些示例中,系统可使用传感器数据和/或对应的上下文数据来检测该存在并确定另一个人的位置。在接收到来自用户的对另一个人说话或定位另一个人的请求时,设备选择器174可选择适当的输出设备以在用户和另一个人之间建立通信。
在图20的示例用例中,实现智能助理系统20的一个或多个远程服务170与智能电话190和膝上型计算机192通信地耦合。在一个示例中,智能电话190包含包括话筒的多个传感器A,以及采用扬声器形式的输出设备A。智能电话190可以与用户一起被定位在她家的用户地下媒体室中。膝上型计算机192包含包括话筒和网络摄像头的多个传感器B,以及采用扬声器形式的输出设备B。膝上型计算机192可位于家的楼上卧室中。
智能电话190的用户可能希望与她的女儿通信,但可能不知道她在家中的当前位置。女儿可能和另外两个朋友在楼上卧室中。用户可以说出自然语言输入以指示她想要与她的女儿通信。例如,用户可以说出“给我接莎拉(Connect me to Sarah)”。用户的智能电话190中的话筒可接收自然语言输入并将其发送到远程服务170以供上文描述的话音监听器30和智能助理系统20的其他组件进行处理。
在确定用户的意图时,承诺引擎60可从实体跟踪器100请求包括用户的女儿莎拉的位置的上下文信息110。作为响应,实体跟踪器100可利用来自膝上型计算机192的网络摄像头的视频数据来标识网络摄像头视野中的莎拉。实体跟踪器100可使用其他上下文信息来确定膝上型计算机192并因此女儿莎拉位于楼上卧室中。
通过使用此信息,设备选择器174可将用户的智能电话190的话筒和扬声器与膝上型计算机192的话筒和扬声器通信地耦合,并从而允许用户与她的女儿交谈。
在其他示例中并且如上文描述的,一个或多个其他类型的传感器和对应的数据可被用于定位人或其他实体。各示例包括仅音频数据、视频和音频数据的组合、设备登录数据、以及前述和其他传感器数据的其他组合。
在一些示例中,可在检测到用户口述的一个或多个关键字时激活智能助理系统20的一个或多个功能。例如,短语“嘿计算机(Hey Computer)”可被用作关键词短语以激活系统的一个或多个功能。现在参考图21,在一个示例中,采用话筒形式的一个或多个传感器22可接收用户说“嘿计算机,今晚的学校董事会几点开会(Hey computer,what time is theschool board meeting tonight)?”的音频数据。如上文所描述的,话音监听器30可将音频数据处理为文本和置信值,并将此信息传递给解析器40。解析器40中的关注激活器32可标识文本中的关键字短语“嘿计算机”。作为响应,解析器40可激活或修改智能助理系统20的其他组件和功能。例如,解析器40可增加语音识别模块的采样率以增加可能的后续用户的语音的识别准确度。
如上所述,在处理用户的自然语言输入的音频数据时,承诺引擎可向一个或多个输出设备(诸如扬声器和/或视频显示器)提供输出。在一些示例中,单个设备可包括捕捉用户输入的话筒(其中此类输入被提供给智能助理系统20),以及接收并广播由系统响应于输入而生成的消息的扬声器。
在一些示例中,用户可处于具有可捕捉用户语音的两个或更多个话筒和/或可广播由系统响应于该语音而生成的消息的两个或更多个扬声器的环境中。例如,用户可能与他的电话、膝上型计算机、平板计算机和智能/连接电视一起位于他的媒体室中。这些设备中的每一者都可包含智能助理系统20或与智能助理系统20通信地耦合。
用户可以说出由4个设备中的每一者的话筒捕捉的关键字短语。因此,由智能助理系统20生成的相应消息可能被所有4个设备中的扬声器广播,这可能会使用户烦恼。如下文更详细地描述的,在涉及多个传感器、输出设备和/或其他设备的一些示例中,智能助理系统20可被配置成确定多个话筒中的哪个用于接收用户语音和/或多个扬声器中的哪个用于广播相应消息。在一些示例中并且如下所述,聚合器可评估和权衡多个度量以确定要使用哪些话筒和扬声器。
现在参考图22,提供了响应于多设备环境中的话音激活的传感器和输出设备选择的示例实现。在此示例中,实现智能助理系统20的一个或多个远程服务170可从三个不同设备的三个不同话筒A、B和C接收音频数据,诸如移动电话176、平板计算机178和一体化智能助理设备180。
三个设备附近的用户可以说出关键字短语,诸如“嘿计算机(Hey Computer)”。话筒A、B和C中的每一者可捕捉说出此短语的用户的音频数据,并可将音频数据发送给话音监听器30。如上文所描述的,话音监听器30可利用语音识别技术将口述话语翻译成文本。话音监听器30还可将(诸)置信值分配给经翻译的文本。在一些示例中,话音监听器30可包括关键字检测算法,该关键字检测算法被配置成标识经翻译的文本中的关键字或关键字短语。话音监听器30可向文本分配置信值,该置信值指示文本是关键字或关键字短语的似然性。
在一些示例中,聚合器182可评估与从不同的各个体话筒和/或从不同的话筒阵列接收到的与多个用户音频数据流相关的多个度量。如下文更详细地描述的,聚合器182可利用这些度量来选择音频数据流中的一个及其对应的(诸)话筒以用于与用户交互。在一些示例中,可选择被确定为最接近用户的(诸)话筒。在一些示例中,可选择被确定为提供最高质量音频数据的(诸)话筒。在一些示例中,提供最高质量音频数据的(诸)话筒可被确定为最接近用户的(诸)话筒,并因此可选择(诸)话筒。
当已经选择话筒时,设备选择器174可选择与此话筒相关联的扬声器以向用户输出响应。例如,在话筒是包括扬声器的设备的组件的情况下,可选择此扬声器。在话筒是独立话筒的情况下,聚合器182可选择用户附近的另一个扬声器以输出响应。在图22的示例中,聚合器182位于实现智能助理系统20的至少一部分的远程服务170中的一者上。在其他示例中,聚合器182可位于另一计算设备上,诸如在另一基于云的服务中。
在一个用例示例中,聚合器182可利用4个度量来评估接收到的用户音频数据流:(1)接收到的音频信号的幅度(音量);(2)音频信号的信噪比(S/N);(3)指示数据流包含关键字或关键字短语的似然性的关键字置信值;以及(4)指示发言者是特定人的似然性的用户标识置信值。
在一些示例中,可利用音频数据流接收幅度和/或S/N值。在其他示例中,幅度和/或S/N值可由话音监听器30或智能助理系统20的其他组件确定。如上文所描述的,关键字置信值可由话音监听器30确定。同样如上文所描述的,用户标识置信值可由实体跟踪器100确定。在一些示例中,说出输入的用户可被话音识别标识为已知的发言者或未知的发言者,并被分配相应的置信水平。
可通过将用户语音的信号电平与背景噪声的电平进行比较来计算接收到的音频输入的S/N比。在一些示例中,输入的幅度可被用于确定用户与对应话筒的邻近度。应当理解,本实现中讨论的度量是作为示例提供的,并不意味着是限制性的。
每个接收到的音频数据流还可包括标识提供该数据流的特定设备或独立传感器的设备ID。在一些示例中,在从第一设备或传感器接收到第一组度量之后,聚合器182可停顿预定的时间段以确定是否一个或多个其他设备/传感器也从与第一组度量中标识的用户相同的人处接收到关键字或关键字短语。例如,聚合器182可停顿0.5秒、1.0秒或不会对用户造成负面用户体验的任何其他时间长度。
在本示例中并且如图22所示,聚合器182评估从移动电话176、平板计算机178和一体化智能助理设备180接收到的音频数据流的度量。对于每个设备,聚合器182可将4个度量组合成单个可选择性分数,诸如通过对4个度量进行平均。在一些示例中并且在组合之前,可通过依经验确定的权重对每个度量进行加权,权重反映了度量在预测将提供最佳用户体验的设备/话筒和对应的音频数据流方面的准确度。通过比较每个设备/话筒及其数据流的可选性分数,聚合器182可标识并选择期望的设备/数据流。
在一个示例中,对于4个度量中的每一者,聚合器178可比较每个设备/话筒的分数并根据每个度量对设备/话筒进行相应的排序。例如,聚合器178可确定从移动电话176的话筒A接收到的音频数据流的以下分数:1)90%(幅度);2)90%(S/N);3)30%(关键字置信度);4)90%(发言者ID)。从平板计算机178的话筒B接收到的音频数据流的分数可以是:1)80%(幅度);2)80%(S/N);3)80%(关键字置信度);4)80%(发言者ID)。从智能助理设备180的话筒C接收到的音频数据流的分数可以是:1)92%(幅度);2)88%(S/N);3)90%(关键字置信度);4)92%(发言者ID)。
在此示例中,针对4个度量中每一者的3个设备的排名如下:
A.幅度-1.智能助理设备;2.移动电话;3.平板计算机。
B.信噪比-1.移动电话;2.智能助理设备;3.平板计算机。
C.关键字置信度-1.智能助理设备;2.平板计算机;3.移动电话。
D.扬声器ID-1.智能助理设备;2.移动电话;3.平板计算机。
每个设备可基于其在每个度量类别中的排名来奖励积点。例如,排名第一名=1积点、第二名=2积点、而第三名=3积点。对于每个设备,其点数为4个度量的总计并取平均值。聚合器182选择具有最低平均积点总数的设备(和相应的数据流)。在本示例中,最后的积点总数和排名是:1.智能助理设备=>1.25;2.移动电话=>2.0;3.平板计算机=>2.75。因此,聚合器178从智能助理设备180n中选择数据流以供智能助理系统20继续分析。附加地,并且基于上述排名,设备选择器174可选择智能助理设备180以接收由承诺引擎60生成的(诸)消息作为分析结果。
在一些示例中,在上述智能助理设备180的聚合器182的选择之际,聚合器还可使得其他两个设备禁止发送与同一发言者ID(即,人)相关联的音频数据流,该同一发言者ID与经分析的数据流相关联。以此方式,当同一用户在初始输入后提供更自然的语言输入时,仅所选择的智能助理设备180将相应的音频数据提供给(诸)远程服务170。在一些示例中,当同一人说出关键字或关键字短语时,其他两个设备可恢复发送音频数据流。在这些情况下,可再次执行上述选择过程以确定所选择的设备。
在一些示例中并且如上所述,在对奖励积点进行平均之前,每个积点奖励可被乘以依经验确定的加权值,该加权值反映了度量在预测将提供最佳用户体验的设备和相应音频数据流方面的准确度的。在一些示例中,一个或多个机器学习技术可被用于构建用于计算不同度量的模型。
在一些示例实现中,信号幅度可能与用户距接收该用户的语音的话筒的距离高度相关。S/N比还可提供针对用户与话筒的距离的良好指示符,因为较低的噪声值可能与用户离话筒较近有关。在信号幅度和信号的S/N比两者都相对较高的情况下,扬声器ID精度可相应地受益于强信号。
应当理解,上文描述的方法和用例仅仅是示例,并且许多变型是可能的。例如,上述4个度量的子集可被用于评估用户音频数据流。在其他示例中,还可使用一个或多个附加度量。
在一些示例中,先前已经经由多个设备中的所选设备与智能助理系统20建立了对话的用户在开始与同一设备的下一次对话之前可能有短暂的停顿。系统可将停顿的持续时间与预定时间段进行比较,并且可以在为下一次对话选择设备时考虑该比较。例如,在停顿的持续时间小于预定时期段(诸如5秒)的情况下,系统可能包括最近建立的扬声器ID和设备确定分析中存在的先前对话,作为为下一次对话选择同一设备的基础。
上文描述的示例包括识别可听见的关键字以激活智能助理系统的一个或多个功能。在一些示例中,可通过识别一个或多个其他信号来激活系统的功能。此类信号可包括例如由相机捕捉的用户姿势、用户眼睛注视、和用户的面部方向。
在一些示例中,用于设备选择的上文描述的技术中的一个或多个可被用于基于一个或多个因素自动地更新所选择的设备。例如,在用户经由第一设备与智能助理系统20通信的情况下,当用户改变她的定位并且远离第一设备移动时,系统可相应地将所选择的设备改变为更靠近用户的新定位的第二设备。
在一些实现中,除了来自一个或多个图像传感器的音频数据之外,可使用成像数据来选择设备。例如,从实体跟踪器100接收到的上下文数据110可包括可被用于选择设备的成像数据。成像数据的各示例可包括来自RGB相机的视频、来自IR相机的红外图像、来自深度相机的深度图像、来自热相机的热图像等。例如,RGB相机可跟踪用户在房间内的定位。来自相机的图像可被用于选择适当的设备/话筒以接收用户的自然语言输入、和/或选择适当的扬声器以向用户广播消息。在一些示例中并且参考上文描述的设备选择技术,可包括成像数据和相关参数作为由聚合器182分析以确定设备选择的度量。
在一些示例中,捕捉到的用户图像可被用于标识用户说话时正面向哪个设备。在一些示例中,诸如面部检测之类的指示符可被用于标识用户。在一些示例中,经捕捉的视频可指示可被用于将口头关键字与用户相关联的用户的嘴唇移动。在具有多个用户的环境中,此类指示符还可标识正在处理设备的特定用户。如此,话音和物理识别两者都可被用作参数以将一用户与多个用户区分开来。
可用于选择设备/话筒和/或扬声器的输入的其他示例包括雷达信号和激光雷达信号。在一些示例中,来自经连接的设备的信号可指示用户正在与该设备进行交互。在一个示例中,用户可经由指纹识别来激活移动电话。这种交互可以是用户出现在电话定位出处的强烈指示符。
在一些实施例中,本文中所描述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言,这样的方法和过程可被实现为计算机应用程序或服务、应用编程接口(API)、库、和/或其他计算机程序产品。
图23示意性地示出了可执行上述方法和过程中的一个或多个的计算系统750的非限制性实施例。以简化形式示出了计算系统750。计算系统750可采取一个或多个下列各项的形式:个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)、和/或其他计算设备。
计算系统750包括逻辑处理器754、易失存储器758以及非易失存储设备762。计算系统600可任选地包括显示子系统766、输入子系统770、通信子系统774和/或在图23中未示出的其他组件。
逻辑处理器754包括被配置成执行指令的一个或多个物理设备。例如,逻辑处理器可以被配置成执行指令,该指令是一个或多个应用、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分。此类指令可被实现以执行任务、实现数据类型、变换一个或多个组件的状态、实现技术效果、或以其他方式得到期望的结果。
逻辑处理器754可包括被配置成执行软件指令的一个或多个物理处理器(硬件)。附加地或替代地,逻辑处理器可包括被配置成执行硬件实现的逻辑或固件指令的一个或多个硬件逻辑电路或固件设备。逻辑处理器754的各处理器可以是单核的或多核的,并且其上所执行的指令可被配置成用于串行、并行和/或分布式处理。逻辑处理器的各个个体组件可任选地分布在两个或更多个分开的设备之间,这些设备可以位于远程以及/或者被配置成用于协同处理。逻辑处理器754的各方面可以由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。在这样的情形中,这些虚拟化方面可以在各种不同机器的不同物理逻辑处理器上运行。
易失性存储器758可以包括包含随机存取存储器的物理设备。易失性存储器758通常被逻辑处理器754用来在软件指令的处理期间临时地储存信息。应当领会,当切断给易失性存储器的功率758时,该易失性存储器通常不继续储存指令。
非易失性存储设备762包括被配置成保持可由逻辑处理器执行的指令以实现本文中所描述的方法和过程的一个或多个物理设备。当实现此类方法和过程时,非易失性存储设备762的状态可以被变换-例如以保持不同的数据。
非易失性存储设备762可包括可移动和/或内置的物理设备。非易失性存储设备762可包括光学存储器(例如,CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如,ROM、EPROM、EEPROM、闪存存储器等)、和/或磁存储器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)或者其他大容量存储设备技术。非易失性存储设备762可包括非易失性、动态、静态、读/写、只读、顺序存取、位置可寻址、文件可寻址、和/或内容可寻址设备。应当领会,非易失性存储设备762被配置成即使当切断给非易失性存储设备的功率时也保持指令。
逻辑处理器754、易失性存储器758和非易失性存储设备762的各方面可以被一起集成到一个或多个硬件逻辑组件中。此类硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用集成电路(PASIC/ASIC)、程序和应用专用标准产品(PSSP/ASSP)、片上系统(SOC),以及复杂可编程逻辑器件(CPLD)。
术语“模块”、“程序”和“引擎”可被用来描述计算系统750的被实现为执行特定功能的方面。在一些情形中,模块、程序或引擎可经由逻辑处理器754执行由非易失性存储设备762所保持的指令、使用易失性存储器758的各部分来实例化。将理解,不同的模块、程序或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、函数等实例化。类似地,相同的模块、程序和/或引擎可由不同的应用、服务、代码块、对象、例程、API、功能等来实例化。术语模块、程序和引擎涵盖单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。
应当领会,如本文中所使用的“服务”是可以是跨多个用户会话可执行的应用程序。服务可用于一个或多个系统组件、程序、和/或其他服务。在一些实现中,服务可以在一个或多个服务器计算设备上运行。
在包括显示子系统766时,显示子系统766可被用来呈现由非易失性存储设备762保持的数据的视觉表示。由于本文中所描述的方法和过程改变了由非易失性存储设备保持的数据,并因而变换了非易失性存储设备的状态,因此同样可以变换显示子系统766的状态以视觉地表示底层数据中的改变。显示子系统766可包括利用实质上任何类型的技术的一个或多个显示设备。可将此类显示设备与逻辑处理器754、易失性存储器758、和/或非易失性存储设备762组合在共享外壳中,或者此类显示设备可以是外围显示设备。
在包括输入子系统770时,输入子系统770可以包括或对接于一个或多个用户输入设备。在一些实施例中,输入子系统可包括所选择的自然用户输入(NUI)部件或与上述自然用户输入(NUI)部件对接。此类部件可以是集成的或外围的,并且输入动作的换能和/或处理可以在板上或板外被处置。示例NUI部件可包括用于语音和/或话音识别的话筒;用于机器视觉和/或姿势识别的红外、彩色、立体、和/或深度相机;用于运动检测、注视检测、和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计、和/或陀螺仪;用于评估脑部活动的电场感测部件;关于上面讨论的示例使用情形和环境描述的任何传感器;和/或任何其他合适的传感器。
当包括通信子系统774时,通信子系统774可被配置成将计算系统750与一个或多个其他计算设备通信地耦合。通信子系统774可包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统可被配置成用于经由无线电话网络、或者有线或无线局域网或广域网进行通信。在一些实施例中,通信子系统可允许计算系统750经由诸如互联网之类的网络将数据发送至其他设备以及从其他设备接收数据。
下述段落提供了对本申请的权利要求的附加支持。一个方面提供了一种计算设备,包括:逻辑处理器;以及存储设备,所述存储设备保存可由所述逻辑处理器执行的指令以:接收包括人的环境的图像数据;使用面部检测算法处理所述图像数据以便以第一频率产生第一面部检测输出;基于所述第一面部检测输出确定所述人的身份;使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的另一算法处理所述图像数据,该另一算法以大于所述第一频率的第二频率产生跟踪输出;基于所述跟踪输出跟踪所述环境中的所述人;以及执行以下中的一者或多者:使用第二面部检测输出更新所述另一算法,以及使用所述跟踪输出更新所述面部检测算法。所述计算设备可替换地或可选地包括,其中所述指令可执行以使用所述另一算法处理所述图像数据,而不使用所述面部检测算法处理所述图像数据。所述计算设备可替换地或可选地包括,其中所述指令可执行以基于与所述计算设备相关联的电池寿命条件来选择所述另一算法。所述计算设备可替换地或可选地包括,其中所述指令可执行以基于所述逻辑处理器的资源到除了处理所述图像数据之外的一个或多个任务的分配来选择所述另一算法。所述计算设备可替换地或可选地包括,其中所述另一算法是颜色跟踪算法,并且其中所述跟踪输出包括颜色直方图。所述计算设备可替换地或可选地包括,其中所述另一算法是运动跟踪算法,并且其中所述跟踪输出包括一个或多个运动矢量。所述计算设备可替换地或可选地包括,其中所述另一算法是第一跟踪算法,并且其中所述指令可执行以使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的第二跟踪算法处理所述图像数据,其中所述第一跟踪算法的所述跟踪输出被提供作为对于所述第二跟踪算法的输入。所述计算设备可替换地或可选地包括,其中可执行以使用所述跟踪输出更新所述面部检测算法的所述指令可执行以更新所述图像数据的目标区域,在所述目标区域中对使用所述面部检测算法处理所述图像数据进行优先化,所述目标区域对应于通过所述跟踪输出跟踪的所述人的位置。所述计算设备可替换地或可选地包括,其中可执行以使用所述第二面部检测输出更新所述另一算法的所述指令可执行以更新其中检测到所述人的面部的所述图像数据的区域与所述跟踪输出之间的关联性。所述计算设备可替换地或可选地包括,集成在所述计算设备中并被配置成收集所述图像数据的一个或多个图像传感器,并且其中所述计算设备是位于所述环境中的一体化计算设备。所述计算设备可替换地或可选地包括,其中从远离所述计算设备定位的一个或多个图像传感器接收所述图像数据。
另一方面提供一种在计算设备处的实体跟踪方法,包括:接收包括人的环境的图像数据;使用面部检测算法处理所述图像数据以便以第一频率产生第一面部检测输出;基于所述第一面部检测输出确定所述人的身份;使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的另一算法处理所述图像数据,所述另一算法以大于所述第一频率的第二频率产生跟踪输出;基于所述跟踪输出跟踪所述环境中的所述人;以及执行以下中的一者或多者:使用第二面部检测输出更新所述另一算法,以及使用所述跟踪输出更新所述面部检测算法。所述方法可替换地或可选地包括,其中所述另一算法是体形跟踪算法,并且其中所述跟踪输出包括身体模型。所述方法可替换地或可选地包括,其中所述另一算法是步态跟踪算法,并且其中所述跟踪输出包括步态分析数据。所述方法可替换地或可选地包括,其中使用所述跟踪输出更新所述面部检测算法包括更新所述图像数据的目标区域,在所述目标区域中对使用所述面部检测算法处理所述图像数据进行优先化,所述目标区域对应于通过所述跟踪输出跟踪的所述人的定位。所述方法可替换地或可选地包括,其中使用所述第二面部检测输出更新所述另一算法包括更新其中检测到所述人的面部的所述图像数据的区域与所述跟踪输出之间的关联性。所述方法可替换地或可选地包括,其中所述另一算法从两个或更多个跟踪算法中被选择,所述跟踪算法被配置成产生各自具有相应数据类型的跟踪输出。所述方法可替换地或可选地包括,其中所述另一算法是第一跟踪算法,所述方法进一步包括使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的第二跟踪算法处理所述图像数据,其中所述第一跟踪算法的所述跟踪输出被提供作为对于所述第二跟踪算法的输入。
另一方面提供了一体化计算设备,包括:一个或多个图像传感器;逻辑处理器;以及存储设备,所述存储设备保存可由所述逻辑处理器执行的指令以:从所述一个或多个图像传感器接收包括人的环境的图像数据;使用面部检测算法处理所述图像数据以便以第一频率产生第一面部检测输出;基于所述第一面部检测输出确定所述人的身份;使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的另一算法处理所述图像数据,所述另一算法以大于所述第一频率的第二频率产生跟踪输出;基于所述跟踪输出跟踪所述环境中的所述人;以及执行以下中的一者或多者:使用第二面部检测输出更新所述另一算法,以及使用所述跟踪输出更新所述面部检测算法。所述一体化计算设备可替换地或可选地包括,其中所述另一算法是第一跟踪算法,并且其中所述指令可执行以使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的第二跟踪算法处理所述图像数据,其中所述第一跟踪算法的所述跟踪输出被提供作为对于所述第二跟踪算法的输入。
应当理解,本文中所描述的配置和/或办法本质上是示例性的,并且这些具体实施例或示例不应被视为具有限制意义,因为许多变体是可能的。本文中所描述的具体例程或方法可表示任何数目的处理策略中的一个或多个。由此,所解说和/或所描述的各种动作可以以所解说和/或所描述的顺序执行、以其他顺序执行、并行地执行,或者被省略。同样,以上所描述的过程的次序可被改变。
本公开的主题包括各种过程、系统和配置以及此处公开的其他特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。

Claims (20)

1.一种计算设备,包括:
逻辑处理器;以及
存储设备,所述存储设备保存可由所述逻辑处理器执行的指令以:
接收包括人的环境的图像数据;
使用面部检测算法处理所述图像数据以便以第一频率产生第一面部检测输出;
基于所述第一面部检测输出确定所述人的身份;
使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的另一算法处理所述图像数据,所述另一算法以大于所述第一频率的第二频率产生跟踪输出;
基于所述跟踪输出跟踪所述环境中的所述人;以及
执行以下中的一者或多者:使用第二面部检测输出更新所述另一算法,以及使用所述跟踪输出更新所述面部检测算法。
2.如权利要求1所述的计算设备,其特征在于,所述指令可执行以使用所述另一算法处理所述图像数据,而不使用所述面部检测算法处理所述图像数据。
3.如权利要求1所述的计算设备,其特征在于,所述指令可执行以基于与所述计算设备相关联的电池寿命条件来选择所述另一算法。
4.如权利要求1所述的计算设备,其特征在于,所述指令可执行以基于所述逻辑处理器的资源到除了处理所述图像数据之外的一个或多个任务的分配来选择所述另一算法。
5.如权利要求1所述的计算设备,其特征在于,所述另一算法是颜色跟踪算法,并且其中所述跟踪输出包括颜色直方图。
6.如权利要求1所述的计算设备,其特征在于,所述另一算法是运动跟踪算法,并且其中所述跟踪输出包括一个或多个运动矢量。
7.如权利要求1所述的计算设备,其特征在于,所述另一算法是第一跟踪算法,并且其中所述指令可执行以使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的第二跟踪算法处理所述图像数据,其中所述第一跟踪算法的所述跟踪输出被提供作为对于所述第二跟踪算法的输入。
8.如权利要求1所述的计算设备,其特征在于,可执行以使用所述跟踪输出更新所述面部检测算法的所述指令可执行以更新所述图像数据的目标区域,在所述目标区域中对使用所述面部检测算法处理所述图像数据进行优先化,所述目标区域对应于通过所述跟踪输出跟踪的所述人的定位。
9.如权利要求1所述的计算设备,其特征在于,可执行以使用所述第二面部检测输出更新所述另一算法的所述指令可执行以更新其中检测到所述人的面部的所述图像数据的区域与所述跟踪输出之间的关联性。
10.如权利要求1所述的计算设备,其特征在于,进一步包括集成在所述计算设备中并被配置成收集所述图像数据的一个或多个图像传感器,并且其中所述计算设备是位于所述环境中的一体化计算设备。
11.如权利要求1所述的计算设备,其特征在于,所述图像数据是从远离所述计算设备定位的一个或多个图像传感器接收的。
12.一种在计算设备处的实体跟踪方法,包括:
接收包括人的环境的图像数据;
使用面部检测算法处理所述图像数据以便以第一频率产生第一面部检测输出;
基于所述第一面部检测输出确定所述人的身份;
使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的另一算法处理所述图像数据,所述另一算法以大于所述第一频率的第二频率产生跟踪输出;
基于所述跟踪输出跟踪所述环境中的所述人;以及
执行以下中的一者或多者:使用第二面部检测输出更新所述另一算法,以及使用所述跟踪输出更新所述面部检测算法。
13.如权利要求12所述的方法,其特征在于,所述另一算法是体形跟踪算法,并且其中所述跟踪输出包括身体模型。
14.如权利要求12所述的方法,其特征在于,所述另一算法是步态跟踪算法,并且其中所述跟踪输出包括步态分析数据。
15.如权利要求12所述的方法,其特征在于,使用所述跟踪输出更新所述面部检测算法包括更新所述图像数据的目标区域,在所述目标区域中对使用所述面部检测算法处理所述图像数据进行优先化,所述目标区域对应于通过所述跟踪输出跟踪的所述人的定位。
16.如权利要求12所述的方法,其特征在于,使用所述第二面部检测输出更新所述另一算法包括更新其中检测到所述人的面部的所述图像数据的区域与所述跟踪输出之间的关联性。
17.如权利要求12所述的方法,其特征在于,所述另一算法从两个或更多个跟踪算法中被选择,所述跟踪算法被配置成产生各自具有相应数据类型的跟踪输出。
18.如权利要求12所述的方法,其特征在于,所述另一算法是第一跟踪算法,所述方法进一步包括使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的第二跟踪算法处理所述图像数据,其中所述第一跟踪算法的所述跟踪输出被提供作为对于所述第二跟踪算法的输入。
19.一体化计算设备,包括:
一个或多个图像传感器;
逻辑处理器;以及
存储设备,所述存储设备保存可由所述逻辑处理器执行的指令以:
从所述一个或多个图像传感器接收包括人的环境的图像数据;
使用面部检测算法处理所述图像数据以便以第一频率产生第一面部检测输出;
基于所述第一面部检测输出确定所述人的身份;
使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的另一算法处理所述图像数据,所述另一算法以大于所述第一频率的第二频率产生跟踪输出;
基于所述跟踪输出跟踪所述环境中的所述人;以及
执行以下中的一者或多者:使用第二面部检测输出更新所述另一算法,以及使用所述跟踪输出更新所述面部检测算法。
20.如权利要求19所述的计算设备,其特征在于,所述另一算法是第一跟踪算法,并且其中所述指令可执行以使用与所述面部检测算法相比使用更少的所述计算设备的计算资源的第二跟踪算法处理所述图像数据,其中所述第一跟踪算法的所述跟踪输出被提供作为对于所述第二跟踪算法的输入。
CN201880011910.6A 2017-02-14 2018-02-09 智能助理 Active CN110300946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111348785.8A CN113986016A (zh) 2017-02-14 2018-02-09 智能助理

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762459020P 2017-02-14 2017-02-14
US62/459,020 2017-02-14
US201762482165P 2017-04-05 2017-04-05
US62/482,165 2017-04-05
US15/636,559 2017-06-28
US15/636,559 US10467510B2 (en) 2017-02-14 2017-06-28 Intelligent assistant
PCT/US2018/017506 WO2018152006A1 (en) 2017-02-14 2018-02-09 Intelligent assistant

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111348785.8A Division CN113986016A (zh) 2017-02-14 2018-02-09 智能助理

Publications (2)

Publication Number Publication Date
CN110300946A CN110300946A (zh) 2019-10-01
CN110300946B true CN110300946B (zh) 2021-11-23

Family

ID=63104544

Family Applications (11)

Application Number Title Priority Date Filing Date
CN201880011578.3A Active CN110291760B (zh) 2017-02-14 2018-02-07 用于导出用户意图的解析器
CN201880011716.8A Active CN110291489B (zh) 2017-02-14 2018-02-07 计算上高效的人类标识智能助理计算机
CN201880011885.1A Withdrawn CN110326261A (zh) 2017-02-14 2018-02-09 确定音频输入中的说话者改变
CN201880011970.8A Active CN110313153B (zh) 2017-02-14 2018-02-09 智能数字助理系统
CN202111348785.8A Pending CN113986016A (zh) 2017-02-14 2018-02-09 智能助理
CN201880011967.6A Active CN110301118B (zh) 2017-02-14 2018-02-09 用于智能助理计算设备的位置校准
CN201880011946.4A Active CN110313152B (zh) 2017-02-14 2018-02-09 用于智能助理计算机的用户注册
CN201880011917.8A Pending CN110383235A (zh) 2017-02-14 2018-02-09 多用户智能辅助
CN201880011910.6A Active CN110300946B (zh) 2017-02-14 2018-02-09 智能助理
CN201880012028.3A Active CN110313154B (zh) 2017-02-14 2018-02-09 具有基于意图的信息辨析的智能助理
CN201880011965.7A Active CN110326041B (zh) 2017-02-14 2018-02-09 用于智能助理的自然语言交互

Family Applications Before (8)

Application Number Title Priority Date Filing Date
CN201880011578.3A Active CN110291760B (zh) 2017-02-14 2018-02-07 用于导出用户意图的解析器
CN201880011716.8A Active CN110291489B (zh) 2017-02-14 2018-02-07 计算上高效的人类标识智能助理计算机
CN201880011885.1A Withdrawn CN110326261A (zh) 2017-02-14 2018-02-09 确定音频输入中的说话者改变
CN201880011970.8A Active CN110313153B (zh) 2017-02-14 2018-02-09 智能数字助理系统
CN202111348785.8A Pending CN113986016A (zh) 2017-02-14 2018-02-09 智能助理
CN201880011967.6A Active CN110301118B (zh) 2017-02-14 2018-02-09 用于智能助理计算设备的位置校准
CN201880011946.4A Active CN110313152B (zh) 2017-02-14 2018-02-09 用于智能助理计算机的用户注册
CN201880011917.8A Pending CN110383235A (zh) 2017-02-14 2018-02-09 多用户智能辅助

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201880012028.3A Active CN110313154B (zh) 2017-02-14 2018-02-09 具有基于意图的信息辨析的智能助理
CN201880011965.7A Active CN110326041B (zh) 2017-02-14 2018-02-09 用于智能助理的自然语言交互

Country Status (4)

Country Link
US (17) US10467509B2 (zh)
EP (9) EP3583485B1 (zh)
CN (11) CN110291760B (zh)
WO (12) WO2018151979A1 (zh)

Families Citing this family (553)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006004197A1 (de) * 2006-01-26 2007-08-09 Klett, Rolf, Dr.Dr. Verfahren und Vorrichtung zur Aufzeichnung von Körperbewegungen
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8600120B2 (en) 2008-01-03 2013-12-03 Apple Inc. Personal computing device control using face detection and recognition
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9679255B1 (en) 2009-02-20 2017-06-13 Oneevent Technologies, Inc. Event condition detection
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9032565B2 (en) 2009-12-16 2015-05-19 Kohler Co. Touchless faucet assembly and method of operation
WO2012154262A2 (en) * 2011-02-21 2012-11-15 TransRobotics, Inc. System and method for sensing distance and/or movement
US9002322B2 (en) 2011-09-29 2015-04-07 Apple Inc. Authentication with secondary approver
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3828591A1 (en) 2012-10-05 2021-06-02 Transrobotics, Inc. Systems and methods for high resolution distance sensing and applications
KR102118209B1 (ko) 2013-02-07 2020-06-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10067934B1 (en) 2013-02-22 2018-09-04 The Directv Group, Inc. Method and system for generating dynamic text responses for display after a search
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9633650B2 (en) * 2013-08-28 2017-04-25 Verint Systems Ltd. System and method of automated model adaptation
US9898642B2 (en) 2013-09-09 2018-02-20 Apple Inc. Device, method, and graphical user interface for manipulating user interfaces based on fingerprint sensor inputs
US10043185B2 (en) 2014-05-29 2018-08-07 Apple Inc. User interface for payments
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US20190286713A1 (en) * 2015-01-23 2019-09-19 Conversica, Inc. Systems and methods for enhanced natural language processing for machine learning conversations
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US11941114B1 (en) * 2018-01-31 2024-03-26 Vivint, Inc. Deterrence techniques for security and automation systems
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
WO2017120469A1 (en) 2016-01-06 2017-07-13 Tvision Insights, Inc. Systems and methods for assessing viewer engagement
US11540009B2 (en) 2016-01-06 2022-12-27 Tvision Insights, Inc. Systems and methods for assessing viewer engagement
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
AU2017100670C4 (en) 2016-06-12 2019-11-21 Apple Inc. User interfaces for retrieving contextually relevant media content
US11315071B1 (en) * 2016-06-24 2022-04-26 Amazon Technologies, Inc. Speech-based storage tracking
US10853761B1 (en) 2016-06-24 2020-12-01 Amazon Technologies, Inc. Speech-based inventory management system and method
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US11183170B2 (en) * 2016-08-17 2021-11-23 Sony Corporation Interaction control apparatus and method
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10430685B2 (en) * 2016-11-16 2019-10-01 Facebook, Inc. Deep multi-scale video prediction
US10546575B2 (en) 2016-12-14 2020-01-28 International Business Machines Corporation Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
US10249292B2 (en) * 2016-12-14 2019-04-02 International Business Machines Corporation Using long short-term memory recurrent neural network for speaker diarization segmentation
EP3352432A1 (en) * 2017-01-20 2018-07-25 Sentiance NV Method and system for classifying an activity of a user
EP3561643B1 (en) * 2017-01-20 2023-07-19 Huawei Technologies Co., Ltd. Method and terminal for implementing voice control
US10521448B2 (en) * 2017-02-10 2019-12-31 Microsoft Technology Licensing, Llc Application of actionable task structures to disparate data sets for transforming data in the disparate data sets
US10481766B2 (en) * 2017-02-10 2019-11-19 Microsoft Technology Licensing, Llc Interfaces and methods for generating and applying actionable task structures
US10514827B2 (en) * 2017-02-10 2019-12-24 Microsoft Technology Licensing, Llc Resequencing actionable task structures for transforming data
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US10657838B2 (en) * 2017-03-15 2020-05-19 International Business Machines Corporation System and method to teach and evaluate image grading performance using prior learned expert knowledge base
US11302317B2 (en) * 2017-03-24 2022-04-12 Sony Corporation Information processing apparatus and information processing method to attract interest of targets using voice utterance
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US11165723B2 (en) * 2017-03-27 2021-11-02 Seniorlink Inc. Methods and systems for a bimodal auto-response mechanism for messaging applications
US10929759B2 (en) 2017-04-06 2021-02-23 AIBrain Corporation Intelligent robot software platform
US10810371B2 (en) * 2017-04-06 2020-10-20 AIBrain Corporation Adaptive, interactive, and cognitive reasoner of an autonomous robotic system
US10963493B1 (en) 2017-04-06 2021-03-30 AIBrain Corporation Interactive game with robot system
US11151992B2 (en) 2017-04-06 2021-10-19 AIBrain Corporation Context aware interactive robot
US10839017B2 (en) * 2017-04-06 2020-11-17 AIBrain Corporation Adaptive, interactive, and cognitive reasoner of an autonomous robotic system utilizing an advanced memory graph structure
EP3613224A4 (en) * 2017-04-20 2020-12-30 TVision Insights, Inc. METHOD AND DEVICE FOR MULTI-TELEVISION MEASUREMENTS
US10887423B2 (en) * 2017-05-09 2021-01-05 Microsoft Technology Licensing, Llc Personalization of virtual assistant skills based on user profile information
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10769844B1 (en) * 2017-05-12 2020-09-08 Alarm.Com Incorporated Marker aided three-dimensional mapping and object labeling
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
CN107239139B (zh) * 2017-05-18 2018-03-16 刘国华 基于正视的人机交互方法与系统
US11178280B2 (en) * 2017-06-20 2021-11-16 Lenovo (Singapore) Pte. Ltd. Input during conversational session
GB201710093D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
US11170179B2 (en) * 2017-06-30 2021-11-09 Jpmorgan Chase Bank, N.A. Systems and methods for natural language processing of structured documents
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
US11430437B2 (en) * 2017-08-01 2022-08-30 Sony Corporation Information processor and information processing method
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
GB2565315B (en) * 2017-08-09 2022-05-04 Emotech Ltd Robots, methods, computer programs, computer-readable media, arrays of microphones and controllers
KR102389041B1 (ko) * 2017-08-11 2022-04-21 엘지전자 주식회사 이동단말기 및 머신 러닝을 이용한 이동 단말기의 제어방법
US10339922B2 (en) * 2017-08-23 2019-07-02 Sap Se Thematic segmentation of long content using deep learning and contextual cues
JP7233035B2 (ja) * 2017-08-30 2023-03-06 パナソニックIpマネジメント株式会社 収音装置、収音方法、及びプログラム
US10515625B1 (en) 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
EP3451175A1 (en) * 2017-08-31 2019-03-06 Entit Software LLC Chatbot version comparision
US10537244B1 (en) * 2017-09-05 2020-01-21 Amazon Technologies, Inc. Using eye tracking to label computer vision datasets
US10224033B1 (en) * 2017-09-05 2019-03-05 Motorola Solutions, Inc. Associating a user voice query with head direction
US11074911B2 (en) * 2017-09-05 2021-07-27 First Advantage Corporation Digital assistant
US10623199B2 (en) * 2017-09-07 2020-04-14 Lenovo (Singapore) Pte Ltd Outputting audio based on user location
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10438594B2 (en) * 2017-09-08 2019-10-08 Amazon Technologies, Inc. Administration of privileges by speech for voice assistant system
US11475254B1 (en) * 2017-09-08 2022-10-18 Snap Inc. Multimodal entity identification
KR102301599B1 (ko) 2017-09-09 2021-09-10 애플 인크. 생체측정 인증의 구현
US11037554B1 (en) * 2017-09-12 2021-06-15 Wells Fargo Bank, N.A. Network of domain knowledge based conversational agents
US10083006B1 (en) * 2017-09-12 2018-09-25 Google Llc Intercom-style communication using multiple computing devices
US11170208B2 (en) * 2017-09-14 2021-11-09 Nec Corporation Of America Physical activity authentication systems and methods
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US11238855B1 (en) * 2017-09-26 2022-02-01 Amazon Technologies, Inc. Voice user interface entity resolution
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US20200279559A1 (en) * 2017-10-02 2020-09-03 Sony Corporation Information processing apparatus, information processing method, and program
US20190103111A1 (en) * 2017-10-03 2019-04-04 Rupert Labs Inc. ( DBA Passage AI) Natural Language Processing Systems and Methods
US10542072B1 (en) * 2017-10-04 2020-01-21 Parallels International Gmbh Utilities toolbox for remote session and client architecture
AU2018348163B2 (en) * 2017-10-11 2023-11-02 Oneevent Technologies, Inc. Fire detection system
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801661D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
JP2019072787A (ja) * 2017-10-13 2019-05-16 シャープ株式会社 制御装置、ロボット、制御方法、および制御プログラム
GB201801663D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
KR102421255B1 (ko) * 2017-10-17 2022-07-18 삼성전자주식회사 음성 신호를 제어하기 위한 전자 장치 및 방법
US10884597B2 (en) * 2017-10-17 2021-01-05 Paypal, Inc. User interface customization based on facial recognition
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
US10567515B1 (en) * 2017-10-26 2020-02-18 Amazon Technologies, Inc. Speech processing performed with respect to first and second user profiles in a dialog session
US10715604B1 (en) 2017-10-26 2020-07-14 Amazon Technologies, Inc. Remote system processing based on a previously identified user
WO2019087811A1 (ja) * 2017-11-02 2019-05-09 ソニー株式会社 情報処理装置、及び情報処理方法
KR101932263B1 (ko) * 2017-11-03 2018-12-26 주식회사 머니브레인 적시에 실질적 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
US10546003B2 (en) 2017-11-09 2020-01-28 Adobe Inc. Intelligent analytics interface
CN107833264B (zh) * 2017-11-13 2019-02-01 百度在线网络技术(北京)有限公司 一种图片处理方法、装置、设备和计算机可读存储介质
GB201802309D0 (en) * 2017-11-14 2018-03-28 Cirrus Logic Int Semiconductor Ltd Enrolment in speaker recognition system
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
CN107886948A (zh) * 2017-11-16 2018-04-06 百度在线网络技术(北京)有限公司 语音交互方法及装置,终端,服务器及可读存储介质
US10747968B2 (en) 2017-11-22 2020-08-18 Jeffrey S. Melcher Wireless device and selective user control and management of a wireless device and data
KR20190061706A (ko) * 2017-11-28 2019-06-05 현대자동차주식회사 복수의도를 포함하는 명령어를 분석하는 음성 인식 시스템 및 방법
US10950243B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs Inc. Method for reduced computation of t-matrix training for speaker recognition
US10950244B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs LLC. System and method for speaker authentication and identification
US10832683B2 (en) * 2017-11-29 2020-11-10 ILLUMA Labs LLC. System and method for efficient processing of universal background models for speaker recognition
CN109887494B (zh) * 2017-12-01 2022-08-16 腾讯科技(深圳)有限公司 重构语音信号的方法和装置
US10475451B1 (en) * 2017-12-06 2019-11-12 Amazon Technologies, Inc. Universal and user-specific command processing
US10091554B1 (en) * 2017-12-06 2018-10-02 Echostar Technologies L.L.C. Apparatus, systems and methods for generating an emotional-based content recommendation list
KR102518543B1 (ko) * 2017-12-07 2023-04-07 현대자동차주식회사 사용자의 발화 에러 보정 장치 및 그 방법
US11182122B2 (en) 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10503468B2 (en) 2017-12-08 2019-12-10 Amazon Technologies, Inc. Voice enabling applications
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
KR102008267B1 (ko) * 2017-12-12 2019-08-07 엘지전자 주식회사 라이팅 장치 및 이를 포함하는 공연 시스템
US10665230B1 (en) * 2017-12-12 2020-05-26 Verisign, Inc. Alias-based access of entity information over voice-enabled digital assistants
US10867129B1 (en) 2017-12-12 2020-12-15 Verisign, Inc. Domain-name based operating environment for digital assistants and responders
US11568003B2 (en) 2017-12-15 2023-01-31 Google Llc Refined search with machine learning
US10783013B2 (en) 2017-12-15 2020-09-22 Google Llc Task-related sorting, application discovery, and unified bookmarking for application managers
US10402986B2 (en) * 2017-12-20 2019-09-03 Facebook, Inc. Unsupervised video segmentation
US10846109B2 (en) 2017-12-20 2020-11-24 Google Llc Suggesting actions based on machine learning
WO2019129511A1 (en) * 2017-12-26 2019-07-04 Robert Bosch Gmbh Speaker identification with ultra-short speech segments for far and near field voice assistance applications
CN108346107B (zh) * 2017-12-28 2020-11-10 创新先进技术有限公司 一种社交内容风险识别方法、装置以及设备
US11507172B2 (en) * 2017-12-29 2022-11-22 Google Llc Smart context subsampling on-device system
US10555024B2 (en) * 2017-12-29 2020-02-04 Facebook, Inc. Generating a feed of content for presentation by a client device to users identified in video data captured by the client device
KR102385263B1 (ko) * 2018-01-04 2022-04-12 삼성전자주식회사 이동형 홈 로봇 및 이동형 홈 로봇의 제어 방법
KR20190084789A (ko) * 2018-01-09 2019-07-17 엘지전자 주식회사 전자 장치 및 그 제어 방법
US10878808B1 (en) * 2018-01-09 2020-12-29 Amazon Technologies, Inc. Speech processing dialog management
US20190213284A1 (en) 2018-01-11 2019-07-11 International Business Machines Corporation Semantic representation and realization for conversational systems
US10845937B2 (en) * 2018-01-11 2020-11-24 International Business Machines Corporation Semantic representation and realization for conversational systems
US10795332B2 (en) * 2018-01-16 2020-10-06 Resilience Magnum IP, LLC Facilitating automating home control
EP3514564B1 (en) * 2018-01-19 2023-05-31 Centre National D'etudes Spatiales Indoor positioning system
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US10991369B1 (en) * 2018-01-31 2021-04-27 Progress Software Corporation Cognitive flow
US20190235831A1 (en) * 2018-01-31 2019-08-01 Amazon Technologies, Inc. User input processing restriction in a speech processing system
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10431207B2 (en) * 2018-02-06 2019-10-01 Robert Bosch Gmbh Methods and systems for intent detection and slot filling in spoken dialogue systems
US20190251961A1 (en) * 2018-02-15 2019-08-15 Lenovo (Singapore) Pte. Ltd. Transcription of audio communication to identify command to device
US20190259500A1 (en) * 2018-02-20 2019-08-22 International Business Machines Corporation Health Behavior Change for Intelligent Personal Assistants
JP2019144790A (ja) * 2018-02-20 2019-08-29 富士ゼロックス株式会社 情報処理装置及びプログラム
US10878824B2 (en) * 2018-02-21 2020-12-29 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
JP6678764B1 (ja) * 2018-03-07 2020-04-08 グーグル エルエルシー 多言語での自動化されたアシスタントを用いたエンドツーエンドコミュニケーションの促進
US20190295541A1 (en) * 2018-03-23 2019-09-26 Polycom, Inc. Modifying spoken commands
US10777203B1 (en) * 2018-03-23 2020-09-15 Amazon Technologies, Inc. Speech interface device with caching component
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US10818288B2 (en) * 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11132504B1 (en) * 2018-03-27 2021-09-28 Soundhound, Inc. Framework for understanding complex natural language queries in a dialog context
US11115630B1 (en) * 2018-03-28 2021-09-07 Amazon Technologies, Inc. Custom and automated audio prompts for devices
US10733996B2 (en) * 2018-03-30 2020-08-04 Qualcomm Incorporated User authentication
US20190311713A1 (en) * 2018-04-05 2019-10-10 GM Global Technology Operations LLC System and method to fulfill a speech request
US10720166B2 (en) * 2018-04-09 2020-07-21 Synaptics Incorporated Voice biometrics systems and methods
US10943606B2 (en) * 2018-04-12 2021-03-09 Qualcomm Incorporated Context-based detection of end-point of utterance
KR102443052B1 (ko) * 2018-04-13 2022-09-14 삼성전자주식회사 공기 조화기 및 공기 조화기의 제어 방법
US11386342B2 (en) * 2018-04-20 2022-07-12 H2O.Ai Inc. Model interpretation
US11922283B2 (en) 2018-04-20 2024-03-05 H2O.Ai Inc. Model interpretation
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US20190327330A1 (en) 2018-04-20 2019-10-24 Facebook, Inc. Building Customized User Profiles Based on Conversational Data
US11256548B2 (en) * 2018-05-03 2022-02-22 LGS Innovations LLC Systems and methods for cloud computing data processing
USD960177S1 (en) 2018-05-03 2022-08-09 CACI, Inc.—Federal Display screen or portion thereof with graphical user interface
JP7081045B2 (ja) * 2018-05-04 2022-06-06 グーグル エルエルシー ユーザと自動化されたアシスタントインターフェースとの間の距離に応じて自動化されたアシスタントのコンテンツを生成するおよび/または適応させること
US11614794B2 (en) 2018-05-04 2023-03-28 Google Llc Adapting automated assistant based on detected mouth movement and/or gaze
US10890969B2 (en) * 2018-05-04 2021-01-12 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
KR102512446B1 (ko) 2018-05-04 2023-03-22 구글 엘엘씨 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487720B2 (en) * 2018-05-08 2022-11-01 Palantir Technologies Inc. Unified data model and interface for databases storing disparate types of data
US11308950B2 (en) * 2018-05-09 2022-04-19 4PLAN Corporation Personal location system for virtual assistant
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US11704533B2 (en) * 2018-05-23 2023-07-18 Ford Global Technologies, Llc Always listening and active voice assistant and vehicle operation
CN108877791B (zh) * 2018-05-23 2021-10-08 百度在线网络技术(北京)有限公司 基于视图的语音交互方法、装置、服务器、终端和介质
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US20190360815A1 (en) * 2018-05-28 2019-11-28 Open Invention Network Llc Audio aided navigation
US11556897B2 (en) 2018-05-31 2023-01-17 Microsoft Technology Licensing, Llc Job-post budget recommendation based on performance
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11170085B2 (en) 2018-06-03 2021-11-09 Apple Inc. Implementation of biometric authentication
US10979242B2 (en) * 2018-06-05 2021-04-13 Sap Se Intelligent personal assistant controller where a voice command specifies a target appliance based on a confidence score without requiring uttering of a wake-word
US10818296B2 (en) * 2018-06-21 2020-10-27 Intel Corporation Method and system of robust speaker recognition activation
JP7326707B2 (ja) * 2018-06-21 2023-08-16 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
US20210264904A1 (en) * 2018-06-21 2021-08-26 Sony Corporation Information processing apparatus and information processing method
US11048782B2 (en) * 2018-06-26 2021-06-29 Lenovo (Singapore) Pte. Ltd. User identification notification for non-personal device
US10777196B2 (en) * 2018-06-27 2020-09-15 The Travelers Indemnity Company Systems and methods for cooperatively-overlapped and artificial intelligence managed interfaces
US11062084B2 (en) * 2018-06-27 2021-07-13 Microsoft Technology Licensing, Llc Generating diverse smart replies using synonym hierarchy
US11658926B2 (en) 2018-06-27 2023-05-23 Microsoft Technology Licensing, Llc Generating smart replies involving image files
US11188194B2 (en) 2018-06-27 2021-11-30 Microsoft Technology Licensing, Llc Personalization and synonym hierarchy for smart replies
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109101801B (zh) * 2018-07-12 2021-04-27 北京百度网讯科技有限公司 用于身份认证的方法、装置、设备和计算机可读存储介质
US11099753B2 (en) * 2018-07-27 2021-08-24 EMC IP Holding Company LLC Method and apparatus for dynamic flow control in distributed storage systems
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US11164037B2 (en) * 2018-08-01 2021-11-02 International Business Machines Corporation Object instance ambiguity resolution
US20240095544A1 (en) * 2018-08-07 2024-03-21 Meta Platforms, Inc. Augmenting Conversational Response with Volatility Information for Assistant Systems
CN109243435B (zh) * 2018-08-07 2022-01-11 北京云迹科技有限公司 语音指令执行方法及系统
TWI682292B (zh) * 2018-08-24 2020-01-11 內秋應智能科技股份有限公司 遞迴式整合對話之智能語音裝置
CN112840233A (zh) * 2018-08-24 2021-05-25 路创技术有限责任公司 占用者检测装置
US20200065513A1 (en) * 2018-08-24 2020-02-27 International Business Machines Corporation Controlling content and content sources according to situational context
US11614526B1 (en) * 2018-08-24 2023-03-28 Innovusion, Inc. Virtual windows for LIDAR safety systems and methods
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
CN109242090B (zh) * 2018-08-28 2020-06-26 电子科技大学 一种基于gan网络的视频描述及描述一致性判别方法
US10795018B1 (en) * 2018-08-29 2020-10-06 Amazon Technologies, Inc. Presence detection using ultrasonic signals
US11402499B1 (en) 2018-08-29 2022-08-02 Amazon Technologies, Inc. Processing audio signals for presence detection
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
TWI676136B (zh) * 2018-08-31 2019-11-01 雲云科技股份有限公司 使用雙重分析之影像偵測方法以及影像偵測裝置
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
EP3620909B1 (en) 2018-09-06 2022-11-02 Infineon Technologies AG Method for a virtual assistant, data processing system hosting a virtual assistant for a user and agent device for enabling a user to interact with a virtual assistant
CN109255181B (zh) * 2018-09-07 2019-12-24 百度在线网络技术(北京)有限公司 一种基于多模型的障碍物分布仿真方法、装置以及终端
US10757207B1 (en) * 2018-09-07 2020-08-25 Amazon Technologies, Inc. Presence detection
US10891949B2 (en) * 2018-09-10 2021-01-12 Ford Global Technologies, Llc Vehicle language processing
US11163981B2 (en) * 2018-09-11 2021-11-02 Apple Inc. Periocular facial recognition switching
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
CN110908289A (zh) * 2018-09-17 2020-03-24 珠海格力电器股份有限公司 智能家居的控制方法及装置
US11040441B2 (en) * 2018-09-20 2021-06-22 Sony Group Corporation Situation-aware robot
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
KR102460511B1 (ko) * 2018-09-24 2022-10-28 구글 엘엘씨 디바이스 및/또는 디바이스의 설치 환경을 캡처하는 이미지 데이터의 처리에 기초한 디바이스 제어
US11049501B2 (en) 2018-09-25 2021-06-29 International Business Machines Corporation Speech-to-text transcription with multiple languages
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US10860096B2 (en) * 2018-09-28 2020-12-08 Apple Inc. Device control using gaze information
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11210756B2 (en) * 2018-09-28 2021-12-28 Ford Global Technologies, Llc Ride request interactions
US10902208B2 (en) 2018-09-28 2021-01-26 International Business Machines Corporation Personalized interactive semantic parsing using a graph-to-sequence model
US11100349B2 (en) 2018-09-28 2021-08-24 Apple Inc. Audio assisted enrollment
US10846105B2 (en) * 2018-09-29 2020-11-24 ILAN Yehuda Granot User interface advisor
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11289100B2 (en) * 2018-10-08 2022-03-29 Google Llc Selective enrollment with an automated assistant
US11409961B2 (en) * 2018-10-10 2022-08-09 Verint Americas Inc. System for minimizing repetition in intelligent virtual assistant conversations
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
CN109376669A (zh) * 2018-10-30 2019-02-22 南昌努比亚技术有限公司 智能助手的控制方法、移动终端及计算机可读存储介质
EP3647910A1 (en) * 2018-10-30 2020-05-06 Infineon Technologies AG An improved apparatus for user interaction
US10594837B1 (en) * 2018-11-02 2020-03-17 International Business Machines Corporation Predictive service scaling for conversational computing
US11004454B1 (en) * 2018-11-06 2021-05-11 Amazon Technologies, Inc. Voice profile updating
US11200884B1 (en) * 2018-11-06 2021-12-14 Amazon Technologies, Inc. Voice profile updating
US11308281B1 (en) * 2018-11-08 2022-04-19 Amazon Technologies, Inc. Slot type resolution process
US11138374B1 (en) * 2018-11-08 2021-10-05 Amazon Technologies, Inc. Slot type authoring
US11281857B1 (en) * 2018-11-08 2022-03-22 Amazon Technologies, Inc. Composite slot type resolution
US10896034B2 (en) * 2018-11-14 2021-01-19 Babu Vinod Methods and systems for automated screen display generation and configuration
US11288733B2 (en) * 2018-11-14 2022-03-29 Mastercard International Incorporated Interactive 3D image projection systems and methods
US11037576B2 (en) * 2018-11-15 2021-06-15 International Business Machines Corporation Distributed machine-learned emphatic communication for machine-to-human and machine-to-machine interactions
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11423073B2 (en) 2018-11-16 2022-08-23 Microsoft Technology Licensing, Llc System and management of semantic indicators during document presentations
GB201819429D0 (en) * 2018-11-29 2019-01-16 Holovis International Ltd Apparatus and method
JP7017643B2 (ja) * 2018-12-03 2022-02-08 グーグル エルエルシー テキスト非依存話者認識
US10839167B2 (en) * 2018-12-04 2020-11-17 Verizon Patent And Licensing Inc. Systems and methods for dynamically expanding natural language processing agent capacity
US10720150B2 (en) * 2018-12-05 2020-07-21 Bank Of America Corporation Augmented intent and entity extraction using pattern recognition interstitial regular expressions
JP7194897B2 (ja) * 2018-12-06 2022-12-23 パナソニックIpマネジメント株式会社 信号処理装置及び信号処理方法
US11183183B2 (en) * 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US10783901B2 (en) * 2018-12-10 2020-09-22 Amazon Technologies, Inc. Alternate response generation
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10853576B2 (en) * 2018-12-13 2020-12-01 Hong Kong Applied Science and Technology Research Institute Company Limited Efficient and accurate named entity recognition method and apparatus
US10891336B2 (en) * 2018-12-13 2021-01-12 International Business Machines Corporation Collaborative learned scoping to extend data reach for a search request
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11417236B2 (en) * 2018-12-28 2022-08-16 Intel Corporation Real-time language learning within a smart space
US11615793B1 (en) 2019-01-02 2023-03-28 Centene Corporation Voice assistant configured to leverage information from sensing devices
US11562565B2 (en) * 2019-01-03 2023-01-24 Lucomm Technologies, Inc. System for physical-virtual environment fusion
US11613010B2 (en) * 2019-01-03 2023-03-28 Lucomm Technologies, Inc. Flux sensing system
US11604832B2 (en) * 2019-01-03 2023-03-14 Lucomm Technologies, Inc. System for physical-virtual environment fusion
CN109800294B (zh) * 2019-01-08 2020-10-13 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
US11164562B2 (en) * 2019-01-10 2021-11-02 International Business Machines Corporation Entity-level clarification in conversation services
US10860864B2 (en) * 2019-01-16 2020-12-08 Charter Communications Operating, Llc Surveillance and image analysis in a monitored environment
US10867447B2 (en) * 2019-01-21 2020-12-15 Capital One Services, Llc Overlaying 3D augmented reality content on real-world objects using image segmentation
DE102019200733A1 (de) * 2019-01-22 2020-07-23 Carl Zeiss Industrielle Messtechnik Gmbh Verfahren und Vorrichtung zur Bestimmung von mindestens einer räumlichen Position und Orientierung mindestens einer getrackten Messvorrichtung
US11069081B1 (en) * 2019-01-25 2021-07-20 Google Llc Location discovery
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
JP6851565B2 (ja) * 2019-02-12 2021-03-31 三菱電機株式会社 機器制御装置、機器制御システム、機器制御方法、及び機器制御プログラム
CN109767769B (zh) * 2019-02-21 2020-12-22 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及空调
WO2020180286A1 (en) * 2019-03-01 2020-09-10 Google Llc Dynamically adapting assistant responses
US11488063B2 (en) * 2019-03-05 2022-11-01 Honeywell International Inc. Systems and methods for cognitive services of a connected FMS or avionics SaaS platform
US11455987B1 (en) * 2019-03-06 2022-09-27 Amazon Technologies, Inc. Multiple skills processing
US20220129905A1 (en) * 2019-03-08 2022-04-28 [24]7.ai, Inc. Agent console for facilitating assisted customer engagement
CN110060389A (zh) * 2019-03-13 2019-07-26 佛山市云米电器科技有限公司 智能门锁识别家庭成员的方法
CN110012266A (zh) * 2019-03-14 2019-07-12 中电海康集团有限公司 一种规范派出所执法管理的系统和方法
US11346938B2 (en) 2019-03-15 2022-05-31 Msa Technology, Llc Safety device for providing output to an individual associated with a hazardous environment
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11348573B2 (en) * 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US20200304375A1 (en) * 2019-03-19 2020-09-24 Microsoft Technology Licensing, Llc Generation of digital twins of physical environments
US10984783B2 (en) * 2019-03-27 2021-04-20 Intel Corporation Spoken keyword detection based utterance-level wake on intent system
US11698440B2 (en) * 2019-04-02 2023-07-11 Universal City Studios Llc Tracking aggregation and alignment
EP3719532B1 (en) 2019-04-04 2022-12-28 Transrobotics, Inc. Technologies for acting based on object tracking
DE102019205040A1 (de) * 2019-04-09 2020-10-15 Sivantos Pte. Ltd. Hörgerät und Verfahren zum Betreiben eines solchen Hörgeräts
US11222625B2 (en) * 2019-04-15 2022-01-11 Ademco Inc. Systems and methods for training devices to recognize sound patterns
EP3844746A4 (en) * 2019-04-17 2022-03-16 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR DETECTING INTERRUPTIONS
US11069346B2 (en) * 2019-04-22 2021-07-20 International Business Machines Corporation Intent recognition model creation from randomized intent vector proximities
CN110096191B (zh) * 2019-04-24 2021-06-29 北京百度网讯科技有限公司 一种人机对话方法、装置及电子设备
CN110111787B (zh) * 2019-04-30 2021-07-09 华为技术有限公司 一种语义解析方法及服务器
CN111951782A (zh) * 2019-04-30 2020-11-17 京东方科技集团股份有限公司 语音问答方法及装置、计算机可读存储介质和电子设备
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11281862B2 (en) * 2019-05-03 2022-03-22 Sap Se Significant correlation framework for command translation
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
EP3942440A1 (en) 2019-05-06 2022-01-26 Google LLC Assigning priority for an automated assistant according to a dynamic user queue and/or multi-modality presence detection
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
GB2583742B (en) * 2019-05-08 2023-10-25 Jaguar Land Rover Ltd Activity identification method and apparatus
CN110082723B (zh) * 2019-05-16 2022-03-15 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN111984766B (zh) * 2019-05-21 2023-02-24 华为技术有限公司 缺失语义补全方法及装置
CN110176024B (zh) * 2019-05-21 2023-06-02 腾讯科技(深圳)有限公司 在视频中对目标进行检测的方法、装置、设备和存储介质
US11272171B1 (en) * 2019-05-24 2022-03-08 Facebook Technologies, Llc Systems and methods for fallback tracking based on real-time tracking performance
US10728384B1 (en) * 2019-05-29 2020-07-28 Intuit Inc. System and method for redaction of sensitive audio events of call recordings
CN110191320B (zh) * 2019-05-29 2021-03-16 合肥学院 基于像素时序运动分析的视频抖动与冻结检测方法及装置
US11482210B2 (en) * 2019-05-29 2022-10-25 Lg Electronics Inc. Artificial intelligence device capable of controlling other devices based on device information
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
WO2020240838A1 (ja) * 2019-05-31 2020-12-03 富士通株式会社 会話制御プログラム、会話制御方法および情報処理装置
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11302330B2 (en) * 2019-06-03 2022-04-12 Microsoft Technology Licensing, Llc Clarifying questions for rewriting ambiguous user utterance
US11256868B2 (en) * 2019-06-03 2022-02-22 Microsoft Technology Licensing, Llc Architecture for resolving ambiguous user utterance
US20200388280A1 (en) 2019-06-05 2020-12-10 Google Llc Action validation for digital assistant-based applications
KR102331672B1 (ko) * 2019-06-05 2021-11-30 엘지전자 주식회사 사용자의 위치를 결정하는 인공 지능 장치 및 그 방법
US20220101848A1 (en) * 2019-06-05 2022-03-31 Hewlett-Packard Development Company, L.P. Missed utterance resolutions
EP4270172A3 (en) * 2019-06-05 2024-01-10 Google LLC Action validation for digital assistant-based applications
US10586540B1 (en) * 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11218387B2 (en) * 2019-06-12 2022-01-04 Liveperson, Inc. Systems and methods for external system integration
KR20210001082A (ko) * 2019-06-26 2021-01-06 삼성전자주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
US11281727B2 (en) 2019-07-03 2022-03-22 International Business Machines Corporation Methods and systems for managing virtual assistants in multiple device environments based on user movements
US20220284920A1 (en) * 2019-07-05 2022-09-08 Gn Audio A/S A method and a noise indicator system for identifying one or more noisy persons
KR20220027935A (ko) * 2019-07-08 2022-03-08 삼성전자주식회사 전자 장치와 사용자 사이의 대화를 처리하는 방법 및 시스템
WO2021012263A1 (en) * 2019-07-25 2021-01-28 Baidu.Com Times Technology (Beijing) Co., Ltd. Systems and methods for end-to-end deep reinforcement learning based coreference resolution
CN110196914B (zh) * 2019-07-29 2019-12-27 上海肇观电子科技有限公司 一种将人脸信息录入数据库的方法和装置
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11269872B1 (en) 2019-07-31 2022-03-08 Splunk Inc. Intent-based natural language processing system
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
WO2021025668A1 (en) * 2019-08-02 2021-02-11 Google Llc Systems and methods for generating and providing suggested actions
GB2586242B (en) * 2019-08-13 2022-07-06 Innovative Tech Ltd A method of enrolling a new member to a facial image database
KR20210024861A (ko) * 2019-08-26 2021-03-08 삼성전자주식회사 대화 서비스를 제공하는 방법 및 전자 디바이스
US11184298B2 (en) * 2019-08-28 2021-11-23 International Business Machines Corporation Methods and systems for improving chatbot intent training by correlating user feedback provided subsequent to a failed response to an initial user intent
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
CN114365143A (zh) * 2019-09-04 2022-04-15 布莱恩科技有限责任公司 用于在计算机屏幕上显示的实时变形界面
CN114303330A (zh) * 2019-09-04 2022-04-08 松下电器(美国)知识产权公司 通信装置以及通信方法
US11514911B2 (en) * 2019-09-12 2022-11-29 Oracle International Corporation Reduced training for dialog systems using a database
US11694032B2 (en) * 2019-09-12 2023-07-04 Oracle International Corporation Template-based intent classification for chatbots
US11037000B2 (en) 2019-09-27 2021-06-15 Gm Cruise Holdings Llc Intent-based dynamic change of resolution and region of interest of vehicle perception system
CN110798506B (zh) * 2019-09-27 2023-03-10 华为技术有限公司 执行命令的方法、装置及设备
US11070721B2 (en) * 2019-09-27 2021-07-20 Gm Cruise Holdings Llc Intent-based dynamic change of compute resources of vehicle perception system
US11238863B2 (en) * 2019-09-30 2022-02-01 Lenovo (Singapore) Pte. Ltd. Query disambiguation using environmental audio
US11223922B2 (en) * 2019-10-17 2022-01-11 Gulfstream Aerospace Corporation Directional sound system for a vehicle
US11567788B1 (en) 2019-10-18 2023-01-31 Meta Platforms, Inc. Generating proactive reminders for assistant systems
US11636438B1 (en) 2019-10-18 2023-04-25 Meta Platforms Technologies, Llc Generating smart reminders by assistant systems
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
TWI705383B (zh) * 2019-10-25 2020-09-21 緯創資通股份有限公司 人物追蹤系統及人物追蹤方法
US11289086B2 (en) * 2019-11-01 2022-03-29 Microsoft Technology Licensing, Llc Selective response rendering for virtual assistants
CN114631337A (zh) * 2019-11-05 2022-06-14 高通股份有限公司 传感器性能指示
US11227583B2 (en) * 2019-11-05 2022-01-18 International Business Machines Corporation Artificial intelligence voice response system having variable modes for interaction with user
KR20210055347A (ko) 2019-11-07 2021-05-17 엘지전자 주식회사 인공 지능 장치
EP3841459B1 (en) * 2019-11-08 2023-10-04 Google LLC Using corrections, of automated assistant functions, for training of on-device machine learning models
US20220155926A1 (en) * 2019-11-13 2022-05-19 Walmart Apollo, Llc Personalizing user interface displays in real-time
US11687802B2 (en) * 2019-11-13 2023-06-27 Walmart Apollo, Llc Systems and methods for proactively predicting user intents in personal agents
CN110928993B (zh) * 2019-11-26 2023-06-30 重庆邮电大学 基于深度循环神经网络的用户位置预测方法及系统
KR102650488B1 (ko) * 2019-11-29 2024-03-25 삼성전자주식회사 전자장치와 그의 제어방법
CN112988986A (zh) * 2019-12-02 2021-06-18 阿里巴巴集团控股有限公司 人机交互方法、装置与设备
EP3857544B1 (en) * 2019-12-04 2022-06-29 Google LLC Speaker awareness using speaker dependent speech model(s)
US11676586B2 (en) * 2019-12-10 2023-06-13 Rovi Guides, Inc. Systems and methods for providing voice command recommendations
US11095578B2 (en) * 2019-12-11 2021-08-17 International Business Machines Corporation Technology for chat bot translation
EP4044177A1 (en) * 2019-12-11 2022-08-17 Google LLC Processing concurrently received utterances from multiple users
US11481442B2 (en) 2019-12-12 2022-10-25 International Business Machines Corporation Leveraging intent resolvers to determine multiple intents
US11586677B2 (en) 2019-12-12 2023-02-21 International Business Machines Corporation Resolving user expression having dependent intents
US11444893B1 (en) * 2019-12-13 2022-09-13 Wells Fargo Bank, N.A. Enhanced chatbot responses during conversations with unknown users based on maturity metrics determined from history of chatbot interactions
EP3839802A1 (en) * 2019-12-16 2021-06-23 Jetpack Anonymized multi-sensor people tracking
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111160002B (zh) * 2019-12-27 2022-03-01 北京百度网讯科技有限公司 用于输出口语理解中解析异常信息的方法和装置
CN111161746B (zh) * 2019-12-31 2022-04-15 思必驰科技股份有限公司 声纹注册方法及系统
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US20230037085A1 (en) * 2020-01-07 2023-02-02 Google Llc Preventing non-transient storage of assistant interaction data and/or wiping of stored assistant interaction data
CN111274368B (zh) * 2020-01-07 2024-04-16 北京声智科技有限公司 槽位填充方法及装置
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
WO2021145895A1 (en) * 2020-01-17 2021-07-22 Google Llc Selectively invoking an automated assistant based on detected environmental conditions without necessitating voice-based invocation of the automated assistant
CN113138557B (zh) * 2020-01-17 2023-11-28 北京小米移动软件有限公司 家居设备控制方法、装置以及存储介质
US20210234823A1 (en) * 2020-01-27 2021-07-29 Antitoxin Technologies Inc. Detecting and identifying toxic and offensive social interactions in digital communications
EP3855348A1 (en) * 2020-01-27 2021-07-28 Microsoft Technology Licensing, LLC Error management
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
WO2021162489A1 (en) * 2020-02-12 2021-08-19 Samsung Electronics Co., Ltd. Method and voice assistance apparatus for providing an intelligence response
CN111368046B (zh) * 2020-02-24 2021-07-16 北京百度网讯科技有限公司 人机对话方法、装置、电子设备及存储介质
CN111281358A (zh) * 2020-02-24 2020-06-16 湘潭大学 一种婴儿机器人实时监护系统
US11423232B2 (en) * 2020-03-17 2022-08-23 NFL Enterprises LLC Systems and methods for deploying computerized conversational agents
US11551685B2 (en) * 2020-03-18 2023-01-10 Amazon Technologies, Inc. Device-directed utterance detection
US11645563B2 (en) * 2020-03-26 2023-05-09 International Business Machines Corporation Data filtering with fuzzy attribute association
CN113448829A (zh) * 2020-03-27 2021-09-28 北京奔影网络科技有限公司 对话机器人测试方法、装置、设备及存储介质
CN116807420A (zh) * 2020-04-07 2023-09-29 江西济民可信集团有限公司 一种动静脉内瘘血管的评价系统及方法
CN111488443B (zh) * 2020-04-08 2022-07-12 思必驰科技股份有限公司 技能选择方法及装置
US11548158B2 (en) * 2020-04-17 2023-01-10 Abb Schweiz Ag Automatic sensor conflict resolution for sensor fusion system
CN113488035A (zh) * 2020-04-28 2021-10-08 海信集团有限公司 一种语音信息的处理方法、装置、设备及介质
CN113658596A (zh) * 2020-04-29 2021-11-16 扬智科技股份有限公司 语意辨识方法与语意辨识装置
US11617035B2 (en) * 2020-05-04 2023-03-28 Shure Acquisition Holdings, Inc. Intelligent audio system using multiple sensor modalities
US11590929B2 (en) * 2020-05-05 2023-02-28 Nvidia Corporation Systems and methods for performing commands in a vehicle using speech and image recognition
US11823082B2 (en) 2020-05-06 2023-11-21 Kore.Ai, Inc. Methods for orchestrating an automated conversation in one or more networks and devices thereof
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11238217B2 (en) * 2020-05-11 2022-02-01 International Business Machines Corporation Task based self exploration of cognitive systems
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11736767B2 (en) 2020-05-13 2023-08-22 Roku, Inc. Providing energy-efficient features using human presence detection
US11395232B2 (en) * 2020-05-13 2022-07-19 Roku, Inc. Providing safety and environmental features using human presence detection
CN111640436B (zh) * 2020-05-15 2024-04-19 北京青牛技术股份有限公司 向坐席提供通话对象的动态客户画像的方法
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
CN111641875A (zh) * 2020-05-21 2020-09-08 广州欢网科技有限责任公司 一种智能电视分析家庭成员的方法、装置和系统
CN111816173A (zh) * 2020-06-01 2020-10-23 珠海格力电器股份有限公司 对话数据处理方法、装置、存储介质及计算机设备
US11715326B2 (en) * 2020-06-17 2023-08-01 Microsoft Technology Licensing, Llc Skin tone correction for body temperature estimation
US20210393148A1 (en) * 2020-06-18 2021-12-23 Rockwell Collins, Inc. Physiological state screening system
EP3925521A1 (en) * 2020-06-18 2021-12-22 Rockwell Collins, Inc. Contact-less passenger screening and identification system
US11256484B2 (en) * 2020-06-22 2022-02-22 Accenture Global Solutions Limited Utilizing natural language understanding and machine learning to generate an application
US11289089B1 (en) * 2020-06-23 2022-03-29 Amazon Technologies, Inc. Audio based projector control
US11676368B2 (en) 2020-06-30 2023-06-13 Optum Services (Ireland) Limited Identifying anomalous activity from thermal images
CN111737417B (zh) * 2020-07-03 2020-11-17 支付宝(杭州)信息技术有限公司 修正自然语言生成结果的方法和装置
US11574640B2 (en) * 2020-07-13 2023-02-07 Google Llc User-assigned custom assistant responses to queries being submitted by another user
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN111951787A (zh) * 2020-07-31 2020-11-17 北京小米松果电子有限公司 语音输出方法、装置、存储介质和电子设备
US11971957B2 (en) 2020-08-08 2024-04-30 Analog Devices International Unlimited Company Aggregating sensor profiles of objects
CN111967273B (zh) * 2020-08-16 2023-11-21 云知声智能科技股份有限公司 对话管理系统、方法和规则引擎设备
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11386270B2 (en) * 2020-08-27 2022-07-12 Unified Compliance Framework (Network Frontiers) Automatically identifying multi-word expressions
US11562028B2 (en) * 2020-08-28 2023-01-24 International Business Machines Corporation Concept prediction to create new intents and assign examples automatically in dialog systems
CN111985249A (zh) * 2020-09-03 2020-11-24 贝壳技术有限公司 语义分析方法、装置、计算机可读存储介质及电子设备
US11797610B1 (en) * 2020-09-15 2023-10-24 Elemental Cognition Inc. Knowledge acquisition tool
CN116171557A (zh) * 2020-09-21 2023-05-26 维萨国际服务协会 别名目录
US11568135B1 (en) * 2020-09-23 2023-01-31 Amazon Technologies, Inc. Identifying chat correction pairs for training models to automatically correct chat inputs
JP2023544328A (ja) * 2020-09-30 2023-10-23 オラクル・インターナショナル・コーポレイション チャットボットの自動スコープ外遷移
GB2594536B (en) * 2020-10-12 2022-05-18 Insphere Ltd Photogrammetry system
US11468900B2 (en) * 2020-10-15 2022-10-11 Google Llc Speaker identification accuracy
EP3989218A1 (de) * 2020-10-21 2022-04-27 Deutsche Telekom AG Bedienungsfreundlicher virtueller sprachassistent
US11564036B1 (en) 2020-10-21 2023-01-24 Amazon Technologies, Inc. Presence detection using ultrasonic signals with concurrent audio playback
US20220139379A1 (en) * 2020-11-02 2022-05-05 Aondevices, Inc. Wake word method to prolong the conversational state between human and a machine in edge devices
US11558546B2 (en) 2020-11-24 2023-01-17 Google Llc Conditional camera control via automated assistant commands
CN112581955B (zh) * 2020-11-30 2024-03-08 广州橙行智动汽车科技有限公司 语音控制方法、服务器、语音控制系统和可读存储介质
US11503090B2 (en) 2020-11-30 2022-11-15 At&T Intellectual Property I, L.P. Remote audience feedback mechanism
CN112417894B (zh) * 2020-12-10 2023-04-07 上海方立数码科技有限公司 一种基于多任务学习的对话意图识别方法及识别系统
US11645465B2 (en) 2020-12-10 2023-05-09 International Business Machines Corporation Anaphora resolution for enhanced context switching
US11816437B2 (en) * 2020-12-15 2023-11-14 International Business Machines Corporation Automatical process application generation
WO2022130011A1 (en) * 2020-12-15 2022-06-23 Orcam Technologies Ltd. Wearable apparatus and methods
US20220188390A1 (en) * 2020-12-16 2022-06-16 International Business Machines Corporation Spatiotemporal Deep Learning for Behavioral Biometrics
CN112537582B (zh) * 2020-12-18 2021-07-02 江苏华谊广告设备科技有限公司 一种视频智能垃圾分类设备
US11741400B1 (en) 2020-12-18 2023-08-29 Beijing Didi Infinity Technology And Development Co., Ltd. Machine learning-based real-time guest rider identification
US11250855B1 (en) * 2020-12-23 2022-02-15 Nuance Communications, Inc. Ambient cooperative intelligence system and method
CN114697713B (zh) * 2020-12-29 2024-02-06 深圳Tcl新技术有限公司 语音助手控制方法、装置、存储介质及智能电视
US11431766B2 (en) * 2021-01-04 2022-08-30 International Business Machines Corporation Setting timers based on processing of group communications using natural language processing
CN112802118B (zh) * 2021-01-05 2022-04-08 湖北工业大学 一种光学卫星传感器在轨分时几何定标方法
US20220217442A1 (en) * 2021-01-06 2022-07-07 Lenovo (Singapore) Pte. Ltd. Method and device to generate suggested actions based on passive audio
US11893985B2 (en) * 2021-01-15 2024-02-06 Harman International Industries, Incorporated Systems and methods for voice exchange beacon devices
CN112863511A (zh) * 2021-01-15 2021-05-28 北京小米松果电子有限公司 信号处理方法、装置以及存储介质
US20220230631A1 (en) * 2021-01-18 2022-07-21 PM Labs, Inc. System and method for conversation using spoken language understanding
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11922141B2 (en) * 2021-01-29 2024-03-05 Walmart Apollo, Llc Voice and chatbot conversation builder
US20220245489A1 (en) * 2021-01-29 2022-08-04 Salesforce.Com, Inc. Automatic intent generation within a virtual agent platform
CN112463945B (zh) * 2021-02-02 2021-04-23 贝壳找房(北京)科技有限公司 会话语境划分方法与系统、交互方法与交互系统
US20220272124A1 (en) * 2021-02-19 2022-08-25 Intuit Inc. Using machine learning for detecting solicitation of personally identifiable information (pii)
EP4298463A1 (en) 2021-02-25 2024-01-03 Cherish Health, Inc. Technologies for tracking objects within defined areas
US11715469B2 (en) 2021-02-26 2023-08-01 Walmart Apollo, Llc Methods and apparatus for improving search retrieval using inter-utterance context
US11580100B2 (en) * 2021-03-05 2023-02-14 Comcast Cable Communications, Llc Systems and methods for advanced query generation
US20220293096A1 (en) * 2021-03-09 2022-09-15 Sony Group Corporation User-oriented actions based on audio conversation
US20220293128A1 (en) * 2021-03-10 2022-09-15 Comcast Cable Communications, Llc Systems and methods for improved speech and command detection
US11727726B2 (en) * 2021-03-11 2023-08-15 Kemtai Ltd. Evaluating movements of a person
US11921831B2 (en) * 2021-03-12 2024-03-05 Intellivision Technologies Corp Enrollment system with continuous learning and confirmation
US11493995B2 (en) * 2021-03-24 2022-11-08 International Business Machines Corporation Tactile user interactions for personalized interactions
US11790568B2 (en) 2021-03-29 2023-10-17 Kyndryl, Inc Image entity extraction and granular interactivity articulation
WO2022211737A1 (en) * 2021-03-31 2022-10-06 Emo Technologies Pte. Ltd. Automatic detection of intention of natural language input text
US11710479B1 (en) * 2021-03-31 2023-07-25 Amazon Technologies, Inc. Contextual biasing of neural language models using metadata from a natural language understanding component and embedded recent history
US11617952B1 (en) 2021-04-13 2023-04-04 Electronic Arts Inc. Emotion based music style change using deep learning
TWI758162B (zh) * 2021-04-15 2022-03-11 和碩聯合科技股份有限公司 生物形體的追蹤系統及方法
US11698780B2 (en) * 2021-04-21 2023-07-11 Hewlett Packard Enterprise Development Lp Deployment and configuration of an edge site based on declarative intents indicative of a use case
US11934787B2 (en) 2021-04-29 2024-03-19 International Business Machines Corporation Intent determination in a messaging dialog manager system
CN113380240B (zh) * 2021-05-07 2022-04-12 荣耀终端有限公司 语音交互方法和电子设备
US20220365200A1 (en) * 2021-05-12 2022-11-17 California State University Fresno Foundation System and method for human and animal detection in low visibility
US20220382819A1 (en) * 2021-05-28 2022-12-01 Google Llc Search Results Based Triggering For Understanding User Intent On Assistant
US11663024B2 (en) * 2021-06-07 2023-05-30 International Business Machines Corporation Efficient collaboration using a virtual assistant
US11907273B2 (en) 2021-06-18 2024-02-20 International Business Machines Corporation Augmenting user responses to queries
US11908463B1 (en) * 2021-06-29 2024-02-20 Amazon Technologies, Inc. Multi-session context
US20230035941A1 (en) * 2021-07-15 2023-02-02 Apple Inc. Speech interpretation based on environmental context
US20230053267A1 (en) * 2021-08-11 2023-02-16 Rovi Guides, Inc. Systems and methods for multi-agent conversations
US11875792B2 (en) * 2021-08-17 2024-01-16 International Business Machines Corporation Holographic interface for voice commands
US20230077283A1 (en) * 2021-09-07 2023-03-09 Qualcomm Incorporated Automatic mute and unmute for audio conferencing
US20230087896A1 (en) * 2021-09-23 2023-03-23 International Business Machines Corporation Leveraging knowledge records for chatbot local search
KR20230054182A (ko) * 2021-10-15 2023-04-24 주식회사 알체라 인공신경망을 이용한 사람 재식별 방법 및 이를 수행하기 위한 컴퓨팅 장치
US20230138741A1 (en) * 2021-10-29 2023-05-04 Kyndryl, Inc. Social network adapted response
TWI792693B (zh) * 2021-11-18 2023-02-11 瑞昱半導體股份有限公司 用於進行人物重辨識的方法與裝置
CN114255557A (zh) * 2021-11-30 2022-03-29 歌尔科技有限公司 智能安防控制方法、智能安防设备及控制器
US20230169540A1 (en) * 2021-12-01 2023-06-01 Walmart Apollo, Llc Systems and methods of providing enhanced contextual intelligent information
CN114385178A (zh) * 2021-12-14 2022-04-22 厦门大学 基于抽象语法树结构信息增强的代码生成方法
CN114282530A (zh) * 2021-12-24 2022-04-05 厦门大学 一种基于语法结构与连接信息触发的复杂句情感分析方法
US11929845B2 (en) 2022-01-07 2024-03-12 International Business Machines Corporation AI-based virtual proxy nodes for intent resolution in smart audio devices
CN114712835B (zh) * 2022-03-25 2022-10-14 中国地质大学(武汉) 一种基于双目人体位姿识别的辅助训练系统
US11464573B1 (en) * 2022-04-27 2022-10-11 Ix Innovation Llc Methods and systems for real-time robotic surgical assistance in an operating room
US11546323B1 (en) 2022-08-17 2023-01-03 strongDM, Inc. Credential management for distributed services
US11736531B1 (en) 2022-08-31 2023-08-22 strongDM, Inc. Managing and monitoring endpoint activity in secured networks
US11765159B1 (en) 2022-09-28 2023-09-19 strongDM, Inc. Connection revocation in overlay networks
US11916885B1 (en) 2023-01-09 2024-02-27 strongDM, Inc. Tunnelling with support for dynamic naming resolution
US11907673B1 (en) * 2023-02-28 2024-02-20 Fmr, Llc Enhancing chatbot recognition of user intent through graph analysis
US11765207B1 (en) * 2023-03-17 2023-09-19 strongDM, Inc. Declaring network policies using natural language
CN116311477B (zh) * 2023-05-15 2023-08-01 华中科技大学 一种面向跨身份一致性的面部运动单元检测模型构建方法
CN117789740B (zh) * 2024-02-23 2024-04-19 腾讯科技(深圳)有限公司 音频数据处理方法、装置、介质、设备及程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216885A (zh) * 2008-01-04 2008-07-09 中山大学 一种基于视频的行人人脸检测与跟踪算法
CN102547301A (zh) * 2010-09-30 2012-07-04 苹果公司 使用图像信号处理器处理图像数据的系统和方法
CN104321730A (zh) * 2012-06-30 2015-01-28 英特尔公司 3d图形用户接口
CN104782121A (zh) * 2012-12-18 2015-07-15 英特尔公司 多区域视频会议编码
KR20150101088A (ko) * 2014-02-26 2015-09-03 (주) 에핀 3차원 영상 획득 및 제공방법
CN105278681A (zh) * 2014-07-18 2016-01-27 苹果公司 设备中的抬起手势检测

Family Cites Families (293)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073101A (en) 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
AU8500298A (en) 1997-07-18 1999-02-10 Kohler Company Bathroom fixture using radar detector having leaky transmission line to control fluid flow
US6119088A (en) 1998-03-03 2000-09-12 Ciluffo; Gary Appliance control programmer using voice recognition
US6574601B1 (en) 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6332122B1 (en) 1999-06-23 2001-12-18 International Business Machines Corporation Transcription system for multiple speakers, using and establishing identification
US7050110B1 (en) 1999-10-29 2006-05-23 Intel Corporation Method and system for generating annotations video
US6727925B1 (en) 1999-12-20 2004-04-27 Michelle Lyn Bourdelais Browser-based room designer
GB9930731D0 (en) 1999-12-22 2000-02-16 Ibm Voice processing apparatus
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
US8374875B2 (en) 2000-01-31 2013-02-12 Intel Corporation Providing programming information in response to spoken requests
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
US6873953B1 (en) 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
GB0023181D0 (en) 2000-09-20 2000-11-01 Koninkl Philips Electronics Nv Message handover for networked beacons
US6728679B1 (en) 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
US7257537B2 (en) 2001-01-12 2007-08-14 International Business Machines Corporation Method and apparatus for performing dialog management in a computer conversational interface
US7610365B1 (en) 2001-02-14 2009-10-27 International Business Machines Corporation Automatic relevance-based preloading of relevant information in portable devices
US7171365B2 (en) 2001-02-16 2007-01-30 International Business Machines Corporation Tracking time using portable recorders and speech recognition
US7130446B2 (en) 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US7019749B2 (en) 2001-12-28 2006-03-28 Microsoft Corporation Conversational interface agent
CN101753485A (zh) 2001-12-28 2010-06-23 西姆德斯克技术公司 即时消息系统和运行该系统的方法
US8374879B2 (en) 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
EP1376999A1 (en) 2002-06-21 2004-01-02 BRITISH TELECOMMUNICATIONS public limited company Spoken alpha-numeric sequence entry system with repair mode
US7803050B2 (en) 2002-07-27 2010-09-28 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
AU2003293071A1 (en) 2002-11-22 2004-06-18 Roy Rosser Autonomous response engine
US7330566B2 (en) 2003-05-15 2008-02-12 Microsoft Corporation Video-based gait recognition
US7475010B2 (en) 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
JP5255769B2 (ja) 2003-11-21 2013-08-07 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
JP2005202014A (ja) 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US7460052B2 (en) 2004-01-20 2008-12-02 Bae Systems Information And Electronic Systems Integration Inc. Multiple frequency through-the-wall motion detection and ranging using a difference-based estimation technique
US8965460B1 (en) 2004-01-30 2015-02-24 Ip Holdings, Inc. Image and augmented reality based networks using mobile devices and intelligent electronic glasses
US7061366B2 (en) 2004-04-12 2006-06-13 Microsoft Corporation Finding location and ranging explorer
US7071867B2 (en) 2004-06-25 2006-07-04 The Boeing Company Method, apparatus, and computer program product for radar detection of moving target
WO2007018523A2 (en) 2004-07-28 2007-02-15 Sarnoff Corporation Method and apparatus for stereo, multi-camera tracking and rf and video track fusion
US7956890B2 (en) 2004-09-17 2011-06-07 Proximex Corporation Adaptive multi-modal integrated biometric identification detection and surveillance systems
US20060067536A1 (en) 2004-09-27 2006-03-30 Michael Culbert Method and system for time synchronizing multiple loudspeakers
US7716056B2 (en) 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
US8494855B1 (en) 2004-10-06 2013-07-23 West Interactive Corporation Ii Method, system, and computer readable medium for comparing phonetic similarity of return words to resolve ambiguities during voice recognition
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
KR20070016280A (ko) 2005-08-02 2007-02-08 주식회사 팬택 이동 통신 단말기의 카메라 장치 및 그 조도제어방법
US7957975B2 (en) 2005-08-09 2011-06-07 Mobile Voice Control, LLC Voice controlled wireless communication device system
US7319908B2 (en) 2005-10-28 2008-01-15 Microsoft Corporation Multi-modal device power/mode management
US20070152157A1 (en) 2005-11-04 2007-07-05 Raydon Corporation Simulation arena entity tracking system
JP2007220045A (ja) 2006-02-20 2007-08-30 Toshiba Corp コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20080077015A1 (en) 2006-05-17 2008-03-27 Olga Boric-Lubecke Determining presence and/or physiological motion of one or more subjects with multiple receiver Doppler radar systems
US7916897B2 (en) 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8214219B2 (en) 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
US7822605B2 (en) 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
US8139945B1 (en) 2007-01-20 2012-03-20 Centrak, Inc. Methods and systems for synchronized infrared real time location
WO2008089508A1 (en) 2007-01-22 2008-07-31 Auraya Pty Ltd Voice recognition system and methods
WO2008106655A1 (en) 2007-03-01 2008-09-04 Apapx, Inc. System and method for dynamic learning
US7518502B2 (en) 2007-05-24 2009-04-14 Smith & Nephew, Inc. System and method for tracking surgical assets
US8180029B2 (en) 2007-06-28 2012-05-15 Voxer Ip Llc Telecommunication and multimedia management method and apparatus
US8165087B2 (en) 2007-06-30 2012-04-24 Microsoft Corporation Location context service handoff
US8712758B2 (en) 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8644842B2 (en) 2007-09-04 2014-02-04 Nokia Corporation Personal augmented reality advertising
US8902227B2 (en) 2007-09-10 2014-12-02 Sony Computer Entertainment America Llc Selective interactive mapping of real-world objects to create interactive virtual-world objects
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP5075664B2 (ja) 2008-02-15 2012-11-21 株式会社東芝 音声対話装置及び支援方法
US8265252B2 (en) 2008-04-11 2012-09-11 Palo Alto Research Center Incorporated System and method for facilitating cognitive processing of simultaneous remote voice conversations
US20090319269A1 (en) 2008-06-24 2009-12-24 Hagai Aronowitz Method of Trainable Speaker Diarization
US8213689B2 (en) 2008-07-14 2012-07-03 Google Inc. Method and system for automated annotation of persons in video content
US8639666B2 (en) 2008-09-05 2014-01-28 Cast Group Of Companies Inc. System and method for real-time environment tracking and coordination
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20100100851A1 (en) 2008-10-16 2010-04-22 International Business Machines Corporation Mapping a real-world object in a personal virtual world
US20100195906A1 (en) 2009-02-03 2010-08-05 Aricent Inc. Automatic image enhancement
US9031216B1 (en) 2009-03-05 2015-05-12 Google Inc. In-conversation search
US20100226487A1 (en) 2009-03-09 2010-09-09 Polycom, Inc. Method & apparatus for controlling the state of a communication system
US9294421B2 (en) 2009-03-23 2016-03-22 Google Inc. System and method for merging edits for a conversation in a hosted conversation system
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120265535A1 (en) 2009-09-07 2012-10-18 Donald Ray Bryant-Rich Personal voice operated reminder system
US8554562B2 (en) 2009-11-15 2013-10-08 Nuance Communications, Inc. Method and system for speaker diarization
WO2011075639A1 (en) 2009-12-18 2011-06-23 Christopher Gary Sentelle Moving entity detection
US8676581B2 (en) 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
KR101135186B1 (ko) 2010-03-03 2012-04-16 광주과학기술원 상호작용형 실시간 증강현실 시스템과 그 방법, 및 상기 방법을 구현하는 프로그램이 기록된 기록매체
US8683387B2 (en) 2010-03-03 2014-03-25 Cast Group Of Companies Inc. System and method for visualizing virtual objects on a mobile device
US8543402B1 (en) 2010-04-30 2013-09-24 The Intellisis Corporation Speaker segmentation in noisy conversational speech
FR2960986A1 (fr) 2010-06-04 2011-12-09 Thomson Licensing Procede de selection d’un objet dans un environnement virtuel
US9113190B2 (en) 2010-06-04 2015-08-18 Microsoft Technology Licensing, Llc Controlling power levels of electronic devices through user interaction
CN101894553A (zh) * 2010-07-23 2010-11-24 四川长虹电器股份有限公司 电视机语音控制的实现方法
US9134399B2 (en) 2010-07-28 2015-09-15 International Business Machines Corporation Attribute-based person tracking across multiple cameras
US8532994B2 (en) 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
US8762150B2 (en) 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
GB201020138D0 (en) 2010-11-29 2011-01-12 Third Sight Ltd A memory aid device
US9842299B2 (en) 2011-01-25 2017-12-12 Telepathy Labs, Inc. Distributed, predictive, dichotomous decision engine for an electronic personal assistant
US8903128B2 (en) 2011-02-16 2014-12-02 Siemens Aktiengesellschaft Object recognition for security screening and long range video surveillance
US8234994B1 (en) * 2011-03-10 2012-08-07 Shockwatch, Inc. Impact indicator
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
PL394570A1 (pl) 2011-04-15 2012-10-22 Robotics Inventions Spólka Z Ograniczona Odpowiedzialnoscia Robot do podlóg podniesionych i sposób serwisowania podlóg podniesionych
US9440144B2 (en) 2011-04-21 2016-09-13 Sony Interactive Entertainment Inc. User identified to a controller
US20120268604A1 (en) 2011-04-25 2012-10-25 Evan Tree Dummy security device that mimics an active security device
US8453402B2 (en) 2011-04-29 2013-06-04 Rong-Jun Huang Frame unit of a curtain wall
US8885882B1 (en) 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction
US8583654B2 (en) 2011-07-27 2013-11-12 Google Inc. Indexing quoted text in messages in conversations to support advanced conversation-based searching
US9495331B2 (en) 2011-09-19 2016-11-15 Personetics Technologies Ltd. Advanced system and method for automated-context-aware-dialog with human users
US20130073293A1 (en) * 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same
US8401569B1 (en) 2011-09-23 2013-03-19 Sonic Notify, Inc. System effective to demodulate a modulated code and provide content to a user
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9268406B2 (en) 2011-09-30 2016-02-23 Microsoft Technology Licensing, Llc Virtual spectator experience with a personal audio/visual apparatus
US8340975B1 (en) 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
WO2013061268A2 (en) 2011-10-26 2013-05-02 Ariel-University Research And Development Company, Ltd. Method and device for accurate location determination in a specified area
JP6110866B2 (ja) 2011-10-28 2017-04-05 マジック リープ, インコーポレイテッド 拡張現実および仮想現実のためのシステムおよび方法
US8358903B1 (en) 2011-10-31 2013-01-22 iQuest, Inc. Systems and methods for recording information on a mobile computing device
CN102510426A (zh) * 2011-11-29 2012-06-20 安徽科大讯飞信息科技股份有限公司 个人助理应用访问方法及系统
US9214157B2 (en) 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
US9389681B2 (en) 2011-12-19 2016-07-12 Microsoft Technology Licensing, Llc Sensor fusion interface for multiple sensor input
US8752145B1 (en) 2011-12-30 2014-06-10 Emc Corporation Biometric authentication with smart mobile device
WO2013101157A1 (en) 2011-12-30 2013-07-04 Intel Corporation Range based user identification and profile determination
CN103209030B (zh) 2012-01-12 2015-05-13 宏碁股份有限公司 电子装置及其数据传输方法
US8693731B2 (en) 2012-01-17 2014-04-08 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging
US8913103B1 (en) 2012-02-01 2014-12-16 Google Inc. Method and apparatus for focus-of-attention control
WO2013114493A1 (ja) 2012-02-03 2013-08-08 日本電気株式会社 コミュニケーション引き込みシステム、コミュニケーション引き込み方法およびコミュニケーション引き込みプログラム
US20130212501A1 (en) 2012-02-10 2013-08-15 Glen J. Anderson Perceptual computing with conversational agent
WO2013151908A1 (en) 2012-04-01 2013-10-10 Mahesh Viswanathan Extensible networked multi-modal environment conditioning system
US9342143B1 (en) 2012-04-17 2016-05-17 Imdb.Com, Inc. Determining display orientations for portable devices
US9204095B2 (en) 2012-05-04 2015-12-01 Hong Jiang Instant communications system having established communication channels between communication devices
US9008688B2 (en) 2012-05-07 2015-04-14 Qualcomm Incorporated Calendar matching of inferred contexts and label propagation
US9423870B2 (en) 2012-05-08 2016-08-23 Google Inc. Input determination method
US20130342568A1 (en) 2012-06-20 2013-12-26 Tony Ambrus Low light scene augmentation
CN102760434A (zh) 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9669296B1 (en) 2012-07-31 2017-06-06 Niantic, Inc. Linking real world activities with a parallel reality game
US8953757B2 (en) 2012-08-06 2015-02-10 Angel.Com Incorporated Preloading contextual information for applications using a conversation assistant
US20140067679A1 (en) 2012-08-28 2014-03-06 Solink Corporation Transaction Verification System
US10026394B1 (en) 2012-08-31 2018-07-17 Amazon Technologies, Inc. Managing dialogs on a speech recognition platform
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9491167B2 (en) 2012-09-11 2016-11-08 Auraya Pty Ltd Voice authentication system and method
US8983383B1 (en) * 2012-09-25 2015-03-17 Rawles Llc Providing hands-free service to multiple devices
US10096316B2 (en) 2013-11-27 2018-10-09 Sri International Sharing intents to provide virtual assistance in a multi-person dialog
US9449343B2 (en) 2012-10-05 2016-09-20 Sap Se Augmented-reality shopping using a networked mobile device
US11099652B2 (en) 2012-10-05 2021-08-24 Microsoft Technology Licensing, Llc Data and user interaction based on device proximity
JP6066471B2 (ja) * 2012-10-12 2017-01-25 本田技研工業株式会社 対話システム及び対話システム向け発話の判別方法
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9245497B2 (en) 2012-11-01 2016-01-26 Google Technology Holdings LLC Systems and methods for configuring the display resolution of an electronic device based on distance and user presbyopia
KR101709187B1 (ko) 2012-11-14 2017-02-23 한국전자통신연구원 계층적 대화 태스크 라이브러리를 이용한 이중 대화관리 기반 음성대화시스템
US9085303B2 (en) 2012-11-15 2015-07-21 Sri International Vehicle personal assistant
US9633652B2 (en) 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
CN103076095B (zh) 2012-12-11 2015-09-09 广州飒特红外股份有限公司 一种以平板电脑无线操控红外热像仪的机动载体夜间驾驶辅助系统
US9271111B2 (en) * 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection
US9098467B1 (en) * 2012-12-19 2015-08-04 Rawles Llc Accepting voice commands based on user identity
US9070366B1 (en) * 2012-12-19 2015-06-30 Amazon Technologies, Inc. Architecture for multi-domain utterance processing
US20140180629A1 (en) 2012-12-22 2014-06-26 Ecole Polytechnique Federale De Lausanne Epfl Method and a system for determining the geometry and/or the localization of an object
US9466286B1 (en) 2013-01-16 2016-10-11 Amazong Technologies, Inc. Transitioning an electronic device between device states
DE102013001219B4 (de) 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
US9761247B2 (en) 2013-01-31 2017-09-12 Microsoft Technology Licensing, Llc Prosodic and lexical addressee detection
US9292492B2 (en) 2013-02-04 2016-03-22 Microsoft Technology Licensing, Llc Scaling statistical language understanding systems across domains and intents
US9159116B2 (en) 2013-02-13 2015-10-13 Google Inc. Adaptive screen interfaces based on viewing distance
US10067934B1 (en) 2013-02-22 2018-09-04 The Directv Group, Inc. Method and system for generating dynamic text responses for display after a search
US9460715B2 (en) * 2013-03-04 2016-10-04 Amazon Technologies, Inc. Identification using audio signatures and additional characteristics
US9171542B2 (en) 2013-03-11 2015-10-27 Nuance Communications, Inc. Anaphora resolution using linguisitic cues, dialogue context, and general knowledge
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR102014665B1 (ko) 2013-03-15 2019-08-26 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
WO2014169287A1 (en) 2013-04-12 2014-10-16 Sciometrics Llc The identity caddy: a tool for real-time determination of identity in the mobile environment
WO2014176485A1 (en) 2013-04-26 2014-10-30 West Virginia High Technology Consortium Foundation, Inc. Facial recognition method and apparatus
US9123330B1 (en) 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
US9472205B2 (en) 2013-05-06 2016-10-18 Honeywell International Inc. Device voice recognition systems and methods
WO2014186010A1 (en) 2013-05-13 2014-11-20 Ohio University Motion-based identity authentication of an individual with a communications device
CN109584868B (zh) 2013-05-20 2022-12-13 英特尔公司 用于虚拟个人助理系统的自然人-计算机交互
AU2014275087B2 (en) 2013-06-03 2017-06-22 Mz Ip Holdings, Llc Systems and methods for multi-user multi-lingual communications
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9307355B2 (en) 2013-06-27 2016-04-05 Bluecats Australia Pty Limited Location enabled service for enhancement of smart device and enterprise software applications
US9871865B2 (en) 2013-07-11 2018-01-16 Neura, Inc. Physical environment profiling through internet of things integration platform
WO2015009748A1 (en) 2013-07-15 2015-01-22 Dts, Inc. Spatial calibration of surround sound systems including listener position estimation
WO2015008162A2 (en) 2013-07-15 2015-01-22 Vocavu Solutions Ltd. Systems and methods for textual content creation from sources of audio that contain speech
US9460722B2 (en) 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
US9431014B2 (en) 2013-07-25 2016-08-30 Haier Us Appliance Solutions, Inc. Intelligent placement of appliance response to voice command
KR102158208B1 (ko) 2013-07-26 2020-10-23 엘지전자 주식회사 전자기기 및 그것의 제어 방법
US9558749B1 (en) 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
JP6468725B2 (ja) 2013-08-05 2019-02-13 キヤノン株式会社 画像処理装置、画像処理方法、及びコンピュータプログラム
CN107809656B (zh) 2013-08-19 2020-06-23 联想(北京)有限公司 信息处理方法及电子设备
CN104423563A (zh) * 2013-09-10 2015-03-18 智高实业股份有限公司 非接触式实时互动方法及其系统
US9696885B2 (en) * 2013-09-20 2017-07-04 International Business Machines Corporation Integrated user interface using linked data
US9668052B2 (en) * 2013-09-25 2017-05-30 Google Technology Holdings LLC Audio routing system for routing audio data to and from a mobile device
KR20150041972A (ko) 2013-10-10 2015-04-20 삼성전자주식회사 디스플레이 장치 및 이의 절전 처리 방법
US20150134547A1 (en) 2013-11-09 2015-05-14 Artases OIKONOMIDIS Belongings visualization and record system
US9892723B2 (en) 2013-11-25 2018-02-13 Rovi Guides, Inc. Systems and methods for presenting social network communications in audible form based on user engagement with a user device
US20150162000A1 (en) 2013-12-10 2015-06-11 Harman International Industries, Incorporated Context aware, proactive digital assistant
US20150172285A1 (en) 2013-12-17 2015-06-18 Mei Ling LO Method for Accessing E-Mail System
CN103761505A (zh) * 2013-12-18 2014-04-30 微软公司 对象跟踪
EP3084714A4 (en) 2013-12-20 2017-08-02 Robert Bosch GmbH System and method for dialog-enabled context-dependent and user-centric content presentation
EP3089158B1 (en) 2013-12-26 2018-08-08 Panasonic Intellectual Property Management Co., Ltd. Speech recognition processing
US9451377B2 (en) 2014-01-07 2016-09-20 Howard Massey Device, method and software for measuring distance to a sound generator by using an audible impulse signal
US10360907B2 (en) 2014-01-14 2019-07-23 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9606977B2 (en) 2014-01-22 2017-03-28 Google Inc. Identifying tasks in messages
US9311932B2 (en) 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
IN2014DE00332A (zh) 2014-02-05 2015-08-07 Nitin Vats
GB2522922A (en) 2014-02-11 2015-08-12 High Mead Developments Ltd Electronic guard systems
US9318112B2 (en) 2014-02-14 2016-04-19 Google Inc. Recognizing speech in the presence of additional audio
JP2015184563A (ja) * 2014-03-25 2015-10-22 シャープ株式会社 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム
US9293141B2 (en) 2014-03-27 2016-03-22 Storz Endoskop Produktions Gmbh Multi-user voice control system for medical devices
US9710546B2 (en) 2014-03-28 2017-07-18 Microsoft Technology Licensing, Llc Explicit signals personalized search
US9372851B2 (en) 2014-04-01 2016-06-21 Microsoft Technology Licensing, Llc Creating a calendar event using context
WO2015162458A1 (en) 2014-04-24 2015-10-29 Singapore Telecommunications Limited Knowledge model for personalization and location services
US10235567B2 (en) 2014-05-15 2019-03-19 Fenwal, Inc. Head mounted display device for use in a medical facility
US10726831B2 (en) 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
EP2950510B1 (en) 2014-05-28 2018-07-11 Samsung Electronics Co., Ltd Apparatus and method for controlling internet of things devices
US9384738B2 (en) 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US20170194000A1 (en) 2014-07-23 2017-07-06 Mitsubishi Electric Corporation Speech recognition device and speech recognition method
US9916520B2 (en) * 2014-09-03 2018-03-13 Sri International Automated food recognition and nutritional estimation with a personal mobile electronic device
US9508341B1 (en) 2014-09-03 2016-11-29 Amazon Technologies, Inc. Active learning for lexical annotations
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
JP6303020B2 (ja) 2014-09-17 2018-03-28 富士フイルム株式会社 パターン形成方法、電子デバイスの製造方法、ブロック共重合体、及び、ブロック共重合体の製造方法
US10943111B2 (en) 2014-09-29 2021-03-09 Sony Interactive Entertainment Inc. Method and apparatus for recognition and matching of objects depicted in images
US9378740B1 (en) 2014-09-30 2016-06-28 Amazon Technologies, Inc. Command suggestions during automatic speech recognition
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
CN105575392A (zh) * 2014-10-28 2016-05-11 福特全球技术公司 用于用户交互的系统和方法
US9507977B1 (en) 2014-11-03 2016-11-29 Vsn Technologies, Inc. Enabling proximate host assisted location tracking of a short range wireless low power locator tag
EP3021178B1 (en) 2014-11-14 2020-02-19 Caterpillar Inc. System using radar apparatus for assisting a user of a machine of a kind comprising a body and an implement
US20170262472A1 (en) 2014-11-24 2017-09-14 Isityou Ltd. Systems and methods for recognition of faces e.g. from mobile-device-generated images of faces
KR102332752B1 (ko) 2014-11-24 2021-11-30 삼성전자주식회사 지도 서비스를 제공하는 전자 장치 및 방법
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US9626352B2 (en) 2014-12-02 2017-04-18 International Business Machines Corporation Inter thread anaphora resolution
US10091015B2 (en) 2014-12-16 2018-10-02 Microsoft Technology Licensing, Llc 3D mapping of internet of things devices
US9690361B2 (en) * 2014-12-24 2017-06-27 Intel Corporation Low-power context-aware control for analog frontend
US9959129B2 (en) 2015-01-09 2018-05-01 Microsoft Technology Licensing, Llc Headless task completion within digital personal assistants
US20160202957A1 (en) 2015-01-13 2016-07-14 Microsoft Technology Licensing, Llc Reactive agent development environment
US10169535B2 (en) 2015-01-16 2019-01-01 The University Of Maryland, Baltimore County Annotation of endoscopic video using gesture and voice commands
EP3257236B1 (en) 2015-02-09 2022-04-27 Dolby Laboratories Licensing Corporation Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants
US9691391B2 (en) 2015-02-10 2017-06-27 Knuedge Incorporated Clustering of audio files using graphs
US9769564B2 (en) 2015-02-11 2017-09-19 Google Inc. Methods, systems, and media for ambient background noise modification based on mood and/or behavior information
US20180009118A1 (en) 2015-02-17 2018-01-11 Nec Corporation Robot control device, robot, robot control method, and program recording medium
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10133538B2 (en) 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
US20180074785A1 (en) 2015-03-31 2018-03-15 Sony Corporation Information processing device, control method, and program
GB201505864D0 (en) 2015-04-07 2015-05-20 Ipv Ltd Live markers
US9300925B1 (en) * 2015-05-04 2016-03-29 Jack Ke Zhang Managing multi-user access to controlled locations in a facility
US10097973B2 (en) 2015-05-27 2018-10-09 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
WO2016205419A1 (en) 2015-06-15 2016-12-22 Flir Systems Ab Contrast-enhanced combined image generation systems and methods
US10178301B1 (en) 2015-06-25 2019-01-08 Amazon Technologies, Inc. User identification based on voice and face
CN105070288B (zh) 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
US10206068B2 (en) 2015-07-09 2019-02-12 OneMarket Network LLC Systems and methods to determine a location of a mobile device
US10867256B2 (en) 2015-07-17 2020-12-15 Knoema Corporation Method and system to provide related data
US20170032021A1 (en) 2015-07-27 2017-02-02 Investor's Forum Chat room for managing multiple conversation streams
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
US9940934B2 (en) 2015-11-18 2018-04-10 Uniphone Software Systems Adaptive voice authentication system and method
US11144964B2 (en) 2015-11-20 2021-10-12 Voicemonk Inc. System for assisting in marketing
US20170078573A1 (en) 2015-11-27 2017-03-16 Mediatek Inc. Adaptive Power Saving For Multi-Frame Processing
CN105389307A (zh) 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN105611500A (zh) 2015-12-07 2016-05-25 苏州触达信息技术有限公司 一种预定空间内的定位系统和方法
WO2017112813A1 (en) 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
TWI571833B (zh) 2015-12-23 2017-02-21 群暉科技股份有限公司 監測服務裝置、電腦程式產品、藉由影像監測提供服務之方法及藉由影像監測啓用服務之方法
US10599390B1 (en) 2015-12-28 2020-03-24 Amazon Technologies, Inc. Methods and systems for providing multi-user recommendations
KR102392113B1 (ko) * 2016-01-20 2022-04-29 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령 처리 방법
US9912977B2 (en) 2016-02-04 2018-03-06 The Directv Group, Inc. Method and system for controlling a user receiving device using voice commands
US9858927B2 (en) 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US9898250B1 (en) 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US20170249309A1 (en) 2016-02-29 2017-08-31 Microsoft Technology Licensing, Llc Interpreting and Resolving Conditional Natural Language Queries
US20190057703A1 (en) 2016-02-29 2019-02-21 Faraday&Future Inc. Voice assistance system for devices of an ecosystem
US20170255450A1 (en) 2016-03-04 2017-09-07 Daqri, Llc Spatial cooperative programming language
US10133612B2 (en) 2016-03-17 2018-11-20 Nuance Communications, Inc. Session processing interaction between two or more virtual assistants
KR102537543B1 (ko) 2016-03-24 2023-05-26 삼성전자주식회사 지능형 전자 장치 및 그 동작 방법
DE112017001573B4 (de) 2016-03-28 2020-01-30 Groove X, Inc. Autonom agierender Roboter, der eine Begrüssungsaktion durchführt
US9972322B2 (en) 2016-03-29 2018-05-15 Intel Corporation Speaker recognition using adaptive thresholding
US9749583B1 (en) 2016-03-31 2017-08-29 Amazon Technologies, Inc. Location based device grouping with voice control
US20170315208A1 (en) 2016-05-02 2017-11-02 Mojix, Inc. Joint Entity and Object Tracking Using an RFID and Detection Network
US10430426B2 (en) 2016-05-03 2019-10-01 International Business Machines Corporation Response effectiveness determination in a question/answer system
CN105810194B (zh) * 2016-05-11 2019-07-05 北京奇虎科技有限公司 待机状态下语音控制信息获取方法和智能终端
US11210324B2 (en) 2016-06-03 2021-12-28 Microsoft Technology Licensing, Llc Relation extraction across sentence boundaries
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US9584946B1 (en) 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
JP2018008489A (ja) * 2016-07-15 2018-01-18 富士ゼロックス株式会社 情報処理装置、情報処理システム、及び情報処理プログラム
US10462545B2 (en) 2016-07-27 2019-10-29 Amazon Technologies, Inc. Voice activated electronic device
US10026403B2 (en) 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
CN106157952B (zh) 2016-08-30 2019-09-17 北京小米移动软件有限公司 声音识别方法及装置
CN106340299A (zh) 2016-09-21 2017-01-18 成都创慧科达科技有限公司 一种复杂环境下的说话人识别系统及方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10455200B2 (en) * 2016-09-26 2019-10-22 3 Strike, Llc Storage container with inventory control
US10283138B2 (en) 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
US10552742B2 (en) 2016-10-14 2020-02-04 Google Llc Proactive virtual assistant
US10482885B1 (en) * 2016-11-15 2019-11-19 Amazon Technologies, Inc. Speaker based anaphora resolution
US10332523B2 (en) * 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
US10134396B2 (en) 2016-12-07 2018-11-20 Google Llc Preventing of audio attacks
US10276149B1 (en) 2016-12-21 2019-04-30 Amazon Technologies, Inc. Dynamic text-to-speech output
US10713317B2 (en) 2017-01-30 2020-07-14 Adobe Inc. Conversational agent for search
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US20180293221A1 (en) 2017-02-14 2018-10-11 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US20190236416A1 (en) 2018-01-31 2019-08-01 Microsoft Technology Licensing, Llc Artificial intelligence system utilizing microphone array and fisheye camera

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216885A (zh) * 2008-01-04 2008-07-09 中山大学 一种基于视频的行人人脸检测与跟踪算法
CN102547301A (zh) * 2010-09-30 2012-07-04 苹果公司 使用图像信号处理器处理图像数据的系统和方法
CN104321730A (zh) * 2012-06-30 2015-01-28 英特尔公司 3d图形用户接口
CN104782121A (zh) * 2012-12-18 2015-07-15 英特尔公司 多区域视频会议编码
KR20150101088A (ko) * 2014-02-26 2015-09-03 (주) 에핀 3차원 영상 획득 및 제공방법
CN105278681A (zh) * 2014-07-18 2016-01-27 苹果公司 设备中的抬起手势检测

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"A Face Tracking Method Using Feature Point Tracking";Lin, Guo-Shiang等;《HIRD INTERNATIONAL CONFERENCE ON INFORMATION SECURITY AND INTELLIGENT CONTROL (ISIC 2012)》;20130107;第210-213页 *
"A fast and robust face detection and tracking algorithm";Y Ma等;《2014 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC)》;20141218;第446-449页 *
"基于视频的目标检测与跟踪技术研究";王长军;《中国博士学位论文全文数据库 信息科技辑》;20060815(第08期);I138-13 *

Also Published As

Publication number Publication date
CN110291489B (zh) 2022-04-15
EP3583747A1 (en) 2019-12-25
US20180233132A1 (en) 2018-08-16
CN110313154A (zh) 2019-10-08
WO2018152011A1 (en) 2018-08-23
US10460215B2 (en) 2019-10-29
EP3583485A1 (en) 2019-12-25
US11126825B2 (en) 2021-09-21
WO2018152013A1 (en) 2018-08-23
EP3583748B1 (en) 2021-03-24
CN110313153A (zh) 2019-10-08
US10496905B2 (en) 2019-12-03
CN110301118B (zh) 2021-11-26
CN110326261A (zh) 2019-10-11
CN110301118A (zh) 2019-10-01
WO2018152006A1 (en) 2018-08-23
US11017765B2 (en) 2021-05-25
CN110291760A (zh) 2019-09-27
CN110300946A (zh) 2019-10-01
US20180232563A1 (en) 2018-08-16
US10957311B2 (en) 2021-03-23
EP4027234A1 (en) 2022-07-13
US20180232645A1 (en) 2018-08-16
US20180233141A1 (en) 2018-08-16
EP3583749B1 (en) 2021-09-08
WO2018152010A1 (en) 2018-08-23
US10467509B2 (en) 2019-11-05
CN110326041A (zh) 2019-10-11
US10628714B2 (en) 2020-04-21
CN110313153B (zh) 2021-09-21
US10817760B2 (en) 2020-10-27
WO2018152008A1 (en) 2018-08-23
EP3583748A1 (en) 2019-12-25
US20180233142A1 (en) 2018-08-16
US20220012470A1 (en) 2022-01-13
CN110313154B (zh) 2021-12-07
US20180233145A1 (en) 2018-08-16
US10824921B2 (en) 2020-11-03
US20180232201A1 (en) 2018-08-16
CN110326041B (zh) 2023-10-20
EP3583749A1 (en) 2019-12-25
US20200042839A1 (en) 2020-02-06
CN113986016A (zh) 2022-01-28
US20180231653A1 (en) 2018-08-16
CN110383235A (zh) 2019-10-25
EP3583595A1 (en) 2019-12-25
WO2018152016A1 (en) 2018-08-23
US10984782B2 (en) 2021-04-20
US20180233139A1 (en) 2018-08-16
CN110291760B (zh) 2021-12-10
US11194998B2 (en) 2021-12-07
US20200012906A1 (en) 2020-01-09
US20180232662A1 (en) 2018-08-16
US10579912B2 (en) 2020-03-03
CN110291489A (zh) 2019-09-27
EP3583746A1 (en) 2019-12-25
US20200104653A1 (en) 2020-04-02
US20180232902A1 (en) 2018-08-16
CN110313152A (zh) 2019-10-08
US20180232608A1 (en) 2018-08-16
EP3583747B1 (en) 2020-10-28
US11004446B2 (en) 2021-05-11
WO2018152012A1 (en) 2018-08-23
US10467510B2 (en) 2019-11-05
WO2018152014A1 (en) 2018-08-23
EP3583489A1 (en) 2019-12-25
EP3583485B1 (en) 2022-03-30
EP3583497A1 (en) 2019-12-25
EP3583497B1 (en) 2023-11-08
US10621478B2 (en) 2020-04-14
WO2018152009A1 (en) 2018-08-23
CN110313152B (zh) 2021-10-22
US20180233140A1 (en) 2018-08-16
WO2018151980A1 (en) 2018-08-23
WO2018152007A1 (en) 2018-08-23
WO2018151979A1 (en) 2018-08-23

Similar Documents

Publication Publication Date Title
CN110300946B (zh) 智能助理
US11100384B2 (en) Intelligent device user interactions
US20180293221A1 (en) Speech parsing with intelligent assistant
WO2019221894A1 (en) Intelligent device user interactions
WO2019118147A1 (en) Speech parsing with intelligent assistant
CN111919250A (zh) 传达非语言提示的智能助理设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant