CN110383235A - 多用户智能辅助 - Google Patents

多用户智能辅助 Download PDF

Info

Publication number
CN110383235A
CN110383235A CN201880011917.8A CN201880011917A CN110383235A CN 110383235 A CN110383235 A CN 110383235A CN 201880011917 A CN201880011917 A CN 201880011917A CN 110383235 A CN110383235 A CN 110383235A
Authority
CN
China
Prior art keywords
user
intelligent assistant
computer
response
example
Prior art date
Application number
CN201880011917.8A
Other languages
English (en)
Inventor
K·科什达
A·A·波波夫
U·巴特里塞维奇
S·N·巴思彻
Original Assignee
微软技术许可有限责任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US201762459020P priority Critical
Priority to US62/459,020 priority
Priority to US201762482165P priority
Priority to US62/482,165 priority
Priority to US15/657,822 priority
Priority to US15/657,822 priority patent/US20180233142A1/en
Application filed by 微软技术许可有限责任公司 filed Critical 微软技术许可有限责任公司
Priority to PCT/US2018/017512 priority patent/WO2018152011A1/en
Publication of CN110383235A publication Critical patent/CN110383235A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/72Methods or arrangements for recognition using electronic means using context analysis based on the provisionally recognised identity of a number of successive patterns, e.g. a word
    • G06K9/726Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00221Acquiring or recognising human faces, facial parts, facial sketches, facial expressions
    • G06K9/00228Detection; Localisation; Normalisation
    • G06K9/00261Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Detecting, measuring or recording for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/0205Simultaneously evaluating both cardiovascular conditions and different types of body conditions, e.g. heart and respiratory condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Detecting, measuring or recording for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radiowaves
    • A61B5/0507Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radiowaves using microwaves or terahertz waves
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Detecting, measuring or recording for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1113Local tracking of patients, e.g. in a hospital or private home
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Detecting, measuring or recording for diagnostic purposes; Identification of persons
    • A61B5/117Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Detecting, measuring or recording for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7475User input or interface means, e.g. keyboard, pointing device, joystick
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/66Radar-tracking systems; Analogous systems where the wavelength or the kind of wave is irrelevant
    • G01S13/72Radar-tracking systems; Analogous systems where the wavelength or the kind of wave is irrelevant for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar
    • G01S13/723Radar-tracking systems; Analogous systems where the wavelength or the kind of wave is irrelevant for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar by using numerical data
    • G01S13/726Multiple target tracking
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/28Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves by co-ordinating position lines of different shape, e.g. hyperbolic, circular, elliptical, radial
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 – G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 – G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 – G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/324Power saving characterised by the action undertaken by lowering clock frequency
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 – G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/329Power saving characterised by the action undertaken by task scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/34User authentication involving the use of external additional devices, e.g. dongles or smart cards
    • G06F21/35User authentication involving the use of external additional devices, e.g. dongles or smart cards communicating wirelessly
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object or an image, setting a parameter value or selecting a range
    • G06F3/04842Selection of a displayed object
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00201Recognising three-dimensional objects, e.g. using range or tactile information
    • G06K9/00214Recognising three-dimensional objects, e.g. using range or tactile information by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00221Acquiring or recognising human faces, facial parts, facial sketches, facial expressions
    • G06K9/00228Detection; Localisation; Normalisation
    • G06K9/00255Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00221Acquiring or recognising human faces, facial parts, facial sketches, facial expressions
    • G06K9/00288Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00221Acquiring or recognising human faces, facial parts, facial sketches, facial expressions
    • G06K9/00288Classification, e.g. identification
    • G06K9/00295Classification, e.g. identification of unknown faces, i.e. recognising the same non-enrolled faces, e.g. recognising the unknown faces across different face tracks
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00335Recognising movements or behaviour, e.g. recognition of gestures, dynamic facial expressions; Lip-reading
    • G06K9/00342Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00335Recognising movements or behaviour, e.g. recognition of gestures, dynamic facial expressions; Lip-reading
    • G06K9/00342Recognition of whole body movements, e.g. for sport training
    • G06K9/00348Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00362Recognising human body or animal bodies, e.g. vehicle occupant, pedestrian; Recognising body parts, e.g. hand
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00362Recognising human body or animal bodies, e.g. vehicle occupant, pedestrian; Recognising body parts, e.g. hand
    • G06K9/00369Recognition of whole body, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00624Recognising scenes, i.e. recognition of a whole field of perception; recognising scene-specific objects
    • G06K9/00711Recognising video content, e.g. extracting audiovisual features from movies, extracting representative key-frames, discriminating news vs. sport content
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00624Recognising scenes, i.e. recognition of a whole field of perception; recognising scene-specific objects
    • G06K9/00771Recognising scenes under surveillance, e.g. with Markovian modelling of scene activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00973Hardware and software architectures for pattern recognition, e.g. modular organisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6217Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06K9/6253User interactive design ; Environments; Tool boxes
    • G06K9/6254Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6217Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06K9/6255Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6288Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • G06K9/6289Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6296Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computer systems using knowledge-based models
    • G06N5/02Knowledge representation
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computer systems using knowledge-based models
    • G06N5/04Inference methods or devices
    • G06N5/046Forward inferencing; Production systems
    • G06N5/047Pattern matching networks; RETE networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/28Individual registration on entry or exit involving the use of a pass the pass enabling tracking or indicating presence
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/02Mechanical actuation
    • G08B13/14Mechanical actuation by lifting or attempted removal of hand-portable articles
    • G08B13/1427Mechanical actuation by lifting or attempted removal of hand-portable articles with transmitter-receiver for distance detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00Arrangements for user-to-user messaging in packet-switching networks, e.g. e-mail or instant messages
    • H04L51/02Arrangements for user-to-user messaging in packet-switching networks, e.g. e-mail or instant messages with automatic reactions or user delegation, e.g. automatic replies or chatbot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to network resources
    • H04L63/102Entity profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network-specific arrangements or communication protocols supporting networked applications
    • H04L67/12Network-specific arrangements or communication protocols supporting networked applications adapted for proprietary or special purpose networking environments, e.g. medical networks, sensor networks, networks in a car or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network-specific arrangements or communication protocols supporting networked applications
    • H04L67/22Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Monitoring of user selections, e.g. selection of programs, purchase activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment ; Cameras comprising an electronic image sensor, e.g. digital cameras, video cameras, TV cameras, video cameras, camcorders, webcams, camera modules for embedding in other devices, e.g. mobile phones, computers or vehicles
    • H04N5/225Television cameras ; Cameras comprising an electronic image sensor, e.g. digital cameras, video cameras, camcorders, webcams, camera modules specially adapted for being embedded in other devices, e.g. mobile phones, computers or vehicles
    • H04N5/232Devices for controlling television cameras, e.g. remote control ; Control of cameras comprising an electronic image sensor
    • H04N5/23218Control of camera operation based on recognized objects
    • H04N5/23219Control of camera operation based on recognized objects where the recognized objects include parts of the human body, e.g. human faces, facial parts or facial expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/30Transforming light or analogous information into electric information
    • H04N5/33Transforming infra-red radiation
    • H04N5/332Multispectral imaging comprising at least a part of the infrared region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed circuit television systems, i.e. systems in which the signal is not broadcast
    • H04N7/181Closed circuit television systems, i.e. systems in which the signal is not broadcast for receiving images from a plurality of remote sources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed circuit television systems, i.e. systems in which the signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/33Services specially adapted for particular environments, situations or purposes for indoor environments, e.g. buildings
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Detecting, measuring or recording for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radiowaves
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Detecting, measuring or recording for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1118Determining activity level
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/02Systems using reflection of radio waves, e.g. primary radar systems; Analogous systems
    • G01S13/06Systems determining position data of a target
    • G01S13/08Systems for measuring distance only
    • G01S13/32Systems for measuring distance only using transmission of continuous unmodulated waves, amplitude-, frequency- or phase-modulated waves
    • G01S13/36Systems for measuring distance only using transmission of continuous unmodulated waves, amplitude-, frequency- or phase-modulated waves with phase comparison between the received signal and the contemporaneously transmitted signal
    • G01S13/38Systems for measuring distance only using transmission of continuous unmodulated waves, amplitude-, frequency- or phase-modulated waves with phase comparison between the received signal and the contemporaneously transmitted signal wherein more than one modulation frequency is used
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/887Radar or analogous systems specially adapted for specific applications for detection of concealed objects, e.g. contraband or weapons
    • G01S13/888Radar or analogous systems specially adapted for specific applications for detection of concealed objects, e.g. contraband or weapons through wall detection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/16Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using electromagnetic waves other than radio waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2111Location-sensitive, e.g. geographical location, GPS
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2117User registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K2209/00Indexing scheme relating to methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K2209/09Recognition of patterns representing particular kinds of hidden objects, e.g. weapons, explosives, drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computer systems based on biological models
    • G06N3/02Computer systems based on biological models using neural network models
    • G06N3/04Architectures, e.g. interconnection topology
    • G06N3/0445Feedback networks, e.g. hopfield nets, associative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20101Interactive definition of point of interest, landmark or seed
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B29/00Checking or monitoring of signalling or alarm systems; Prevention or correction of operating errors, e.g. preventing unauthorised operation
    • G08B29/18Prevention or correction of operating errors
    • G08B29/185Signal analysis techniques for reducing or preventing false alarms or for enhancing the reliability of the system
    • G08B29/186Fuzzy logic; neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Taking into account non-speech caracteristics
    • G10L2015/228Taking into account non-speech caracteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment ; Cameras comprising an electronic image sensor, e.g. digital cameras, video cameras, TV cameras, video cameras, camcorders, webcams, camera modules for embedding in other devices, e.g. mobile phones, computers or vehicles
    • H04N5/225Television cameras ; Cameras comprising an electronic image sensor, e.g. digital cameras, video cameras, camcorders, webcams, camera modules specially adapted for being embedded in other devices, e.g. mobile phones, computers or vehicles
    • H04N5/247Arrangements of television cameras
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing
    • Y02D10/10Reducing energy consumption at the single machine level, e.g. processors, personal computers, peripherals or power supply
    • Y02D10/12Reducing energy consumption at the single machine level, e.g. processors, personal computers, peripherals or power supply acting upon the main processing unit
    • Y02D10/126Frequency modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing
    • Y02D10/10Reducing energy consumption at the single machine level, e.g. processors, personal computers, peripherals or power supply
    • Y02D10/17Power management
    • Y02D10/173Monitoring user presence

Abstract

一种智能助理记录第一用户说出的语音,并且确定第一用户的自选择分数。该智能助理将该自选择分数发送到另一智能助理,并且从该另一智能助理接收第一用户的远程选择分数。该智能助理将自选择分数与远程选择分数作比较。如果自选择分数高于远程选择分数,则该智能助理向第一用户作出响应,并且阻断对所有其他用户的后续响应,直到第一用户的解除合作度量超过阻断阈值。如果自选择分数低于远程选择分数,则该智能助理不对第一用户作出响应。

Description

多用户智能辅助

背景

经由自然交互(诸如语音识别、文本、姿势识别、运动检测、注视检测、意图识别、大脑活动评估、文本、家庭自动化设备的状态等中的一者或多者)与计算系统交互实现了自然用户接口体验。随着数字信息量和计算设备数量的增加,管理此类自然用户交互接口以提供积极的用户体验可能具有挑战性。

概述

一种智能助理记录第一用户说出的语音,并且确定第一用户的自选择分数。该智能助理将该自选择分数发送到另一智能助理,并且从该另一智能助理接收第一用户的远程选择分数。该智能助理将自选择分数与远程选择分数作比较。如果自选择分数高于远程选择分数,则该智能助理向第一用户作出响应,并且阻断对所有其他用户的后续响应,直到第一用户的解除合作度量超过阻断阈值。如果自选择分数低于远程选择分数,则该智能助理不对第一用户作出响应。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的概念的选集。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,亦非旨在用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任一部分中提及的任何或所有缺点的实现。

附图简述

图1示出了根据本公开的一示例的具有一体化计算设备形式的智能助理计算机的示例环境。

图2示意性地示出了根据本公开的一示例的用于实现智能助理计算机的示例逻辑架构。

图3示意性地示出了根据本公开的各示例的可确定一个或多个实体的身份、位置和/或当前状态的实体跟踪器。

图4示意性地示出了根据本公开的各示例的在多个时间帧上接收并解读传感器数据的实体跟踪器。

图5示意性地示出了根据本公开的一示例的经由实体跟踪器的传感器置信度随时间衰减的示例。

图6示意性地示出了根据本公开的各示例的使用经训练的话音识别引擎来识别人的语音的示例。

图7示意性地示出了根据本公开的各示例的实现智能助理计算机的一体化计算设备。

图8A-8B示出例示了在多用户多助理环境中在智能助理处选择性地向用户作出响应的方法的流程图。

图9示意性地示出包括多个音频输出设备的示例环境。

图10示意性地示出了根据本公开的各示例的其中一个或多个远程服务执行智能助理计算机的功能性的示例实现。

图11示意性地示出了根据本公开的各示例的其中一个或多个远程服务执行智能助理计算机的功能性的另一示例实现。

图12示意性地示出了根据本公开的各示例的计算系统。

详细描述

本公开一般涉及用于向用户提供智能辅助的系统、方法和逻辑构造。在一些示例中,各种传感器数据可被用于智能地确定传递给用户的消息的内容和/或时间和/或动作的性能。在一些示例中,诸如用户命令和其他话语之类的自然语言输入可被接收并被处理。对于其中多个设备被配置成在由多个实体占据的使用环境中提供智能辅助的一些场景中,每一设备可以基于各种使用条件选择性地向不同用户作出响应或阻断对不同用户的响应。此外,来自一个或多个传感器的数据可被处理以生成与一个传感器范围内的一个或多个实体相关的身份、定位/位置、状态/活动、和/或其他信息。基于当前和过去数据的统计概率可被用于生成与实体信息相关联的置信度值。

图1例示了其中定位了多个智能助理计算机的起居室2形式的使用环境。智能助理计算机采用一体化计算设备4和一体化计算设备6的形式,这两个一体化计算设备可以被配置成执行许多功能。在一些示例中,计算设备4和6可以被配置成接收和处理自然语言输入。作为一个特定示例,图1示出了在起居室2中的第一用户8提供自然语言输入以请求计算机游戏的实例从一个计算设备传送到另一计算设备。在另一示例中,可在没有来自用户的输入的情况下以编程方式执行此类传送。例如,计算设备可利用诸如音频和/或视频数据之类的(例如接收自相机10的)传感器数据来检测用户何时移动到另一个房间并且正在查看另一设备或与另一设备“合作”。使用此数据,计算设备可自动地将计算机游戏的实例传送到该另一设备。

作为通过自然语言输入可以请求的计算设备动作的另一示例,图1示出了在起居室2中的第二用户12请求关于未来天气的信息。可以向计算设备4和/或6请求的其他信息可包括但不限于,个人日历事件、电影放映时间、新闻。计算设备4和/或6可以接收并存储消息和/或提醒以在恰适的时间进行递送。使用传感器数据,计算设备可跟踪一个或多个用户或其他实体和/或与一个或多个用户或其他实体通信。此外,在一些示例中,计算设备4和/或6可以被用于控制其他计算机、智能设备、和/或物联网(IoT)设备。作为一个示例,计算设备4和/或6可被配置成控制起居室2中的元件,诸如电视机14、音乐系统的扬声器16、燃气壁炉18、和/或电动窗帘20。

归因于它们与用户8和12的邻近度,计算机设备4和6可能听到两个用户发出的请求。如果计算设备4和6的操作未经协调,则两个计算设备可能都对同一用户作出响应。就像由于两个计算设备服务于共同请求而引起的不必要的计算资源消耗那样,将会导致令人迷失方向的用户体验。相应地,本文公开了用于协调一个环境中的多个智能助理计算设备的操作的实现,以使得单个计算设备被选择来向用户作出响应。此外,所选计算设备可以对照可调阈值来评估用户的解除合作度量以选择性地阻断或解除阻断对环境中的其他用户的后续响应。如下文参考图7-8B更详细地描述的,计算设备在选择性地阻断对另一用户的后续响应时可以考虑各种使用条件,包括但不限于,该另一用户的身份、计算设备的一个或多个设备设置、和/或可供呈现给该另一用户的内容的各方面。通过以此方式考虑使用条件,计算设备可以通过服务于第一用户的请求的同时保持在某些条件下对第二用户作出响应的能力来提供期望的用户体验。

在一些示例中,计算设备4和/或6可使用有线连接彼此可操作地连接和/或与一个或多个其他计算设备可操作地连接,或者可经由Wi-Fi、蓝牙或任何其他合适的无线通信协议采用无线连接。例如,计算设备4和/或6可经由网络通信地耦合到一个或多个其他计算设备。网络可采取局域网(LAN)、广域网(WAN)、有线网络、无线网络、个域网、或其组合的形式,并且可包括因特网。关于计算设备4和6的组件和计算方面的附加细节在下文中参考图12更详细地描述。

将领会,图1的计算设备4和6仅仅表示本公开的智能助理的一个示例实现。跨两个或更多个设备的附加示例实现在图7、10和11中被例示并且在下文中更详细地被描述。

图2示出了根据本公开的各示例的用于实现能够识别并响应自然语言输入的智能助理计算机20的示例逻辑架构。如下文更详细地描述的,在各种示例中,系统20可在单个计算设备中被实现、可跨两个或更多个设备被实现、可在支持云的网络中被实现以及在前述各项的组合中被实现。

在此示例中,智能助理计算机20包括至少一个传感器22、实体跟踪器100、话音监听器30、解析器40、意图处置器50、承诺引擎60和至少一个输出设备70。在一些示例中,传感器22可包括一个或多个话筒24、可见光相机26、红外相机27和诸如Wi-Fi或蓝牙模块之类的连通性设备28。在一些示例中,(诸)传感器22可包括立体和/或深度相机、头部跟踪器、眼睛跟踪器、加速度计、陀螺仪、注视检测设备、电场感测组件、GPS或其他位置跟踪设备、温度传感器、设备状态传感器、和/或任何其他合适的传感器。

实体跟踪器100被配置成检测实体(包括人、动物或其他生物以及非生命对象)及其活动。实体跟踪器100包括实体标识器104,其被配置为识别各个用户和/或非生命对象。话音监听器30接收音频数据并利用语音识别功能性将口述话语翻译成文本。话音监听器30还可为经翻译的文本分配(诸)置信度值,并可执行发言者识别以确定正在发言的人的身份,以及为此类标识的准确度分配概率。解析器40分析从话音监听器30接收到的文本和置信度值以得到用户意图并生成相应的机器可执行语言。

意图处置器50从解析器40接收表示用户意图的机器可执行语言,并辨析缺失的和有歧义的信息以生成承诺。承诺引擎60存储来自意图处置器50的各承诺。在上下文适当的时间,承诺引擎可递送与一个或多个承诺相关联的一个或多个消息和/或执行与一个或多个承诺相关联的一个或多个动作。承诺引擎60可将消息存储在消息队列62中或者使一个或多个输出设备70生成输出。输出设备70可包括(诸)扬声器72、(诸)视频显示器74、(诸)指示灯76、(诸)触觉设备78和/或其他合适的输出设备中的一者或多者。在其他示例中,输出设备70可包括可经由承诺引擎60执行的动作被控制的诸如家庭照明、恒温器、媒体程序、门锁等一个或多个其他设备或系统。

在不同的示例中,话音监听器30、解析器40、意图处置器50、承诺引擎60和/或实体跟踪器100可用存储在存储器中并由计算设备的一个或多个处理器执行的软件来具体化。在一些实现中,专门编程的逻辑处理器可被用于提高智能助理计算机的计算效率和/或有效性。下文参考图12更详细地描述关于可存储并执行这些模块的计算设备的组件和计算方面的附加细节。

再次参考图2,在一些示例中,话音监听器30和/或承诺引擎60可从实体跟踪器100接收包括相关联的置信度值的上下文信息。如下文更详细地描述的,实体跟踪器100可确定一个或多个传感器的范围内的一个或多个实体的身份、位置和/或当前状态,并且可将此类信息输出到诸如话音监听器30、承诺引擎60等一个或多个其他模块。在一些示例中,实体跟踪器100可解读和评估从一个或多个传感器接收到的传感器数据,并可基于该传感器数据来输出上下文信息。上下文信息可包括实体跟踪器基于接收到的传感器数据对一个或多个检测到的实体的身份、位置和/或状态的猜想/预测。在一些示例中,猜想/预测可附加地包括定义信息准确的统计似然性的置信度值。

图3示意性地例示了示例实体跟踪器100,其可包括智能助理计算机20的组件。实体跟踪器100可被用于确定一个或多个传感器范围内的一个或多个实体的身份、位置和/或当前状态。实体跟踪器100可将此类信息输出到智能助理计算机20的一个或多个其他模块,诸如承诺引擎60、话音监听器30等。

在实体跟踪器100的上下文中使用的单词“实体”可以指人、动物或其他生物以及非生命对象。例如,实体跟踪器可被配置成标识家具、器具、结构、景观特征、车辆和/或任何其他物理对象,并确定此类物理对象的位置/定位和当前状态。在一些情形中,实体跟踪器100可被配置成仅标识人而不标识其他生物或非生物。在此类情况下,单词“实体”可能与单词“人”同义。

实体跟踪器100从一个或多个传感器102(诸如传感器A 102A、传感器B 102B和传感器C 102C)接收传感器数据,但是应该理解,实体跟踪器可以与任何数量和种类的合适的传感器一起使用。作为示例,可与实体跟踪器一起使用的传感器可包括相机(例如,可见光相机、UV相机、IR相机、深度相机、热相机)、话筒、有向话筒阵列、压力传感器、温度计、运动检测器、邻近度传感器、加速度计、全球定位卫星(GPS)接收器、磁力计、雷达系统、激光雷达系统、环境监测设备(例如,烟雾探测器、一氧化碳探测器)、气压计、健康监测设备(例如、心电图仪、血压计、脑电图)、汽车传感器(例如,速度计、里程表、转速计、燃料传感器)和/或收集和/或存储与一个或多个人或其他实体的身份、位置和/或当前状态有关的信息的任何其他传感器或设备。在一些示例中,实体跟踪器100可用多个传感器102中的一个或多个来占据公共设备壳体,和/或实体跟踪器及其相关联的传感器可跨被配置成经由一个或多个网络通信接口(例如,Wi-Fi适配器、蓝牙接口)通信的多个设备分布。

如图3的示例中所示,实体跟踪器100可包括实体标识器104、人标识器105、位置(定位)标识器106和状态标识器108。在一些示例中,人标识器105可以是实体标识器100的专用分量,其被特别优化以用于识别人,而非识别其他生物和非生物。在其他情形中,人标识器105可以与实体标识器104分开操作,或者实体跟踪器100可能不包括专用的人标识器。

取决于特定实现,与实体标识器、人标识器、位置标识器和状态标识器相关联的任何或所有功能可以由各个体传感器102A-102C执行。尽管本说明书一般将实体跟踪器100描述为从传感器接收数据,但这并不要求实体标识器104以及实体跟踪器的其他模块必须被实现在与关联于实体跟踪器的多个传感器分离且不同的单个计算设备上。相反,实体跟踪器100的功能可被分布在多个传感器或其他合适的设备之中。例如,代替向实体跟踪器发送原始传感器数据,各个传感器可被配置成尝试标识其检测到的实体,并将此标识报告给实体跟踪器100和/或智能助理计算机20的其他模块。此外,为了简化以下的描述,术语“传感器”有时被用来不仅描述物理测量设备(例如,话筒或相机),还描述被配置和/或编程为解读来自物理测量设备的信号/数据的各种逻辑处理器。例如,“话筒”可以被用来指代将声学能量转换成电信号的设备、将电信号转换成数字数据的模数转换器、预处理数字数据的板载专用集成电路、以及本文描述的下游模块(例如,实体跟踪器100、实体标识器104、话音监听器30、或解析器40)。由此,对通用“传感器”或特定传感器(例如,“话筒”或“相机”)的指代不应被理解为仅仅意味着物理测量设备,而且还意味着可以跨一个或多个计算机分布的合作的模块/引擎。

实体标识器104、人标识器105、位置标识器106和状态标识器108中的每一者被配置成解读和评估从多个传感器102接收到的传感器数据,并基于传感器数据输出上下文信息110。上下文信息110可包括实体跟踪器基于接收到的传感器数据对一个或多个检测到的实体的身份、位置和/或状态的猜想/预测。如下文将更详细地描述的,实体标识器104、人标识器105、位置标识器106和状态标识器108中的每一者可输出它们的预测/标识以及置信度值。

实体标识器104、人标识器105、位置标识器106、状态标识器108和本文描述的其他处理模块可以利用一个或多个机器学习技术。此类机器学习技术的非限制性示例可包括,前向馈送网络、递归神经网络(RNN)、长短期记忆(LSTM)、卷积神经网络、支持向量机(SVM)和决策树。各种标识器、引擎和本文描述的其他处理快可以经由经监管的和/或未经监管的学习利用这些或任何其他恰适的机器学习技术来训练,以进行所描述的评估、决策、标识等。然而,应该理解,该描述并非旨在提出用于进行此类评估、决策、标识等的新技术。相反,此描述旨在管理计算资源并且由此意在与任何类型的处理模块相兼容。

实体标识器104可输出检测到的实体的实体身份112,并且此类实体身份可具有任何合适的特异性程度。换言之,基于接收到的传感器数据,实体跟踪器100可预测给定实体的身份,并将此类信息输出为实体身份112。例如,实体标识器104可报告特定实体是一件家具、一条狗、一个人类男性等。附加地或替换地,实体标识器104可报告特定实体是具有特定型号的烤箱;一只有特定名称和品种的宠物狗;智能助理计算机20的拥有者或已知用户,其中该拥有者/已知用户具有特定的名称和简档;等等。在一些示例中,实体标识器104标识/分类检测到的实体的特异性程度可取决于用户偏好和传感器限制中的一者或多者。

当被应用于人时,实体跟踪器100在某些情况下可收集关于无法通过名称标识的个人的信息。例如,实体标识器104可记录人脸的图像,并将这些图像与人声的录制音频相关联。如果此人随后向智能助理计算机20说话或以其他方式称呼智能助理计算机20,则实体跟踪器100然后会具有关于智能助理计算机正在与谁交互的至少一些信息。在一些示例中,智能助理计算机20还可提示人声明他们的姓名,以便在将来更容易对人进行标识。

在一些示例中,智能助理计算机20可利用人的身份来为此人定制用户界面。在一个示例中,可标识具有有限视觉能力的用户。在此示例中并且基于此标识,可修改智能助理计算机20(或用户正在与之交互的其他设备)的显示以显示更大的文本、或者提供仅语音接口。

位置标识器106可被配置成输出检测到的实体的实体位置(即,定位)114。换言之,位置标识器106可基于收集到的传感器数据预测给定实体的当前位置,并将此类信息输出为实体位置114。与实体身份112一样,实体位置114可具有任何合适的细节水平,并且此细节水平可随用户偏好和/或传感器限制而变化。例如,位置标识器106可报告检测到的实体具有在诸如地板或墙壁之类的平面上定义的二维位置。附加地或替换地,经报告的实体位置114可包括检测到的实体在现实世界三维环境中的三维位置。在一些示例中,实体位置114可包括GPS位置、映射坐标系内的定位等。

检测到的实体的经报告的实体位置114可对应于实体的几何中心、被分类为重要的实体的特定部分(例如,人的头部)、在三维空间中定义实体边界的一系列边界等。位置标识器106可进一步计算描述检测到的实体的位置和/或取向的一个或多个附加参数,诸如俯仰、滚转和/或偏航参数。换言之,检测到的实体的报告位置可具有任意数量的自由度,并且可包括定义实体在环境中位置的任意数量的坐标。在一些示例中,即使实体跟踪器100无法标识实体和/或确定实体的当前状态,也可报告检测到的实体的实体位置114。

状态标识器108可被配置成输出检测到的实体的实体状态116。换言之,实体跟踪器100可被配置成基于接收到的传感器数据来预测给定实体的当前状态,并将此类信息输出为实体状态116。“实体状态”可以指给定实体的基本上任何可测量或可分类的属性、活动或行为。例如,当被应用于一个人时,此人的实体状态可指示此人的姿态(例如站立、坐下、躺下)、此人行走/跑步的速度、此人的当前活动(例如睡觉、看电视、工作、玩游戏、游泳、打电话)、此人的当前情绪(例如,通过评估人的面部表情或语调)、此人的生物/生理参数(例如,此人的心率、呼吸频率、氧饱和度、体温、神经活动)、此人是否有任何当前或即将发生的日历事件/约会等。“实体状态”可以指应用于其他生物或非声明对象时的附加/替换属性或行为,诸如烤箱或厨房水槽的当前温度、设备(例如,电视机、灯、微波炉)是否通电、门是否打开等。

在一些示例中,状态标识器108可使用传感器数据来计算人的各种不同的生物/生理参数。这可以以各种合适的方式完成。例如,实体跟踪器100可被配置成与光学心率传感器、脉搏血氧计、血压计、心电图仪等对接。附加地或替换地,状态标识器108可被配置成解读来自环境中的一个或多个相机和/或其他传感器的数据,并处理数据以便计算人的率心、呼吸率、氧饱和度等。例如,状态标识器108可被配置成利用欧拉放大和/或类似技术放大由相机捕捉到的微小运动或变化,从而允许状态标识器可视化通过人体循环系统的血流并计算相关联的生理参数。例如,此类信息可被用于确定此人何时睡着、健身、遇险、遇到健康问题等。

在确定实体身份112、实体位置114、和实体状态116中的一者或多者之际,可将此类信息作为上下文信息110发送到各种外部模块或设备中的任何一者,其中此类信息可以以各种方式被使用。例如,承诺引擎60可使用上下文信息110来管理承诺和相关联的消息和通知。在一些示例中,承诺引擎60可使用上下文信息110来确定是否应该执行特定消息、通知或承诺和/或向用户呈现特定消息、通知或承诺。类似地,当解读人类语音或响应于关键字触发器激活功能时,话音监听器30可利用上下文信息110。

如上所述,在一些示例中,实体跟踪器100可在单个计算设备中实现。在其他示例中,实体跟踪器100的一个或多个功能可跨多个协同工作的计算设备分布。例如,实体标识器104、人标识器105、位置标识器106和状态标识器108中的一者或多者可在不同的计算设备上实现,同时仍然共同包括被配置成执行本文描述的功能的实体跟踪器。如上文所指示的,实体跟踪器的任何或所有功能可由各个传感器102执行。此外,在一些示例中,实体跟踪器100可省略实体标识器104、人标识器105、位置标识器106和状态标识器108中的一者或多者,和/或包括本文未描述的一个或多个附加组件,但同时仍提供上下文信息110。关于可被用于实现实体跟踪器100的组件和计算方面的附加细节在下文中参考图12更详细地描述。

实体身份112、实体位置114和实体状态116中的每一者可采用任何合适的形式。例如,实体身份112、位置114和状态116中的每一者可采用包括描述由实体跟踪器收集的信息的一系列值和/或标签的离散数据分组的形式。实体身份112、位置114和状态116中的每一者可附加地包括定义信息准确的统计似然性的置信度值。例如,如果实体标识器104接收到强烈指示特定实体是名为“约翰·史密斯(John Smith)”的男人的传感器数据,那么实体身份112可包括此信息以及对应的相对高的置信度值(诸如90%置信度)。如果传感器数据较模糊,则被包括在实体身份112中的置信度值可对应地相对较低(诸如62%)。在一些示例中,可为单独的预测分配单独的置信度值。例如,实体身份112可以以95%的置信度指示特定实体是男人,并且以70%的置信度指示此实体是约翰·史密斯。成本函数可利用此类置信度值(或概率)来生成针对向用户提供消息或其他通知和/或执行动作的成本计算。

在一些实现中,实体跟踪器100可被配置成组合或融合来自多个传感器的数据以便输出更准确的预测。作为示例,相机可定位特定房间中的人。基于相机数据,实体跟踪器100可以以70%的置信度值标识此人。然而,实体跟踪器100可附加地从话筒接收录制的语音。仅基于录制的语音,实体跟踪器100可以以60%的置信度值标识此人。通过将来自相机的数据与来自话筒的数据组合,实体跟踪器100可以以可能比单独使用来自任一传感器的数据的置信度值更高的置信度值标识此人。例如,实体跟踪器可确定从话筒接收到的录制语音与接收到语音时相机可见的人的嘴唇运动相对应,并从而以相对较高的置信度(诸如92%)得出相机可见的人就是正在说话的人的结论。以此方式,实体跟踪器100可组合两个或更多个预测的置信度值以用经组合的、更高的置信度值标识人。

在一些示例中,取决于传感器数据的可靠性,可对从各种传感器接收到的数据不同地进行加权。在其中多个传感器输出看起来不一致的数据的情景中,这一点尤其相关。在一些示例中,传感器数据的可靠性可至少部分地基于由传感器生成的数据的类型。例如,在一些实现中,视频数据的可靠性可能比音频数据的可靠性被更高地加权,因为相机上的实体的存在相较于推定来自该实体的录制的声音而言是对其身份、位置和/或状态的更好的指示符。应当理解,传感器数据的可靠性是相较于与数据实例的预测准确度相关联的置信度值而言不同的因素。例如,基于每个实例处存在的不同上下文因素,视频数据的若干实例可具有不同的置信度值。然而,视频数据的这些实例中的每一者通常都可以与视频数据的单个可靠性值相关联。

在一个示例中,来自相机的数据可以以70%的置信度值表明特定的人位于厨房中,诸如经由面部识别分析。来自话筒的数据可以以75%的置信度值表明同一人位于附近的走廊,诸如经由话音识别分析。即使话筒数据的实例携带更高的置信度值,实体跟踪器100仍可基于相机数据的可靠性比话筒数据的可靠性高而输出人位于厨房内的预测。以此方式并且在一些示例中,不同传感器数据的不同可靠性值可以与置信度值一起被用于协调冲突的传感器数据并确定实体的身份、位置和/或状态。

附加地或替换地,可赋予具有更高精度、更高处理功率或以其他方式具有更高能力的传感器更大的权重。例如,与膝上型计算机中找到的基本网络摄像头相比,专业级视频相机可具有显著改进的镜头、图像传感器和数字图像处理能力。相应地,因为从专业级相机接收到的视频数据可能更准确,因此与网络摄像头相比此类数据可被赋予更高的权重/可靠性值。

现在参考图4,在一些示例中,与实体跟踪器100一起使用的各个体传感器可以以与实体跟踪器一起使用的其他传感器不同的频率输出数据。类似地,与实体跟踪器100一起使用的传感器可以以与实体跟踪器评估数据和输出上下文信息的频率不同的频率输出数据。在图4的示例中,实体跟踪器100可在多个时间帧200A、200B和200C上接收和解读传感器数据。单个时间帧可表示任何合适的时间长度,诸如1/30秒,1/60秒等。

在此示例中,在时间帧200A期间,实体跟踪器100接收包括传感器A数据204A、传感器B数据204B和传感器C数据204C的一组传感器数据202。此类传感器数据由实体跟踪器100解读并被转换成上下文信息206,其可被用于确定如上文所描述的一个或多个检测到的实体的身份、位置和/或状态。在时间帧200B期间,实体跟踪器100接收包括传感器A数据210A和传感器B数据210B的传感器数据208。在时间帧200B期间,实体跟踪器100不从传感器C接收数据,因为传感器C以与传感器A和B不同的频率输出数据。类似地,在时间帧200B期间,实体跟踪器100不输出上下文信息,因为实体跟踪器以与传感器A和B不同的频率输出上下文信息。

在时间帧200C期间,实体跟踪器100接收包括传感器A数据214A、传感器B数据214B、传感器C数据214C和传感器D数据214D的传感器数据212。在时间帧200C期间,实体跟踪器100还输出可基于由实体跟踪器接收到的任何或所有传感器数据的上下文信息216,因为上下文信息是在时间帧200A中最后输出的。换言之,上下文信息216可至少部分地基于传感器数据208以及传感器数据212。在一些示例中,上下文信息216可至少部分地基于传感器数据202和传感器数据208、以及传感器数据212。

如图4所示,在实体跟踪器100从特定传感器接收数据之后,在实体跟踪器从同一传感器接收更多数据之前,可能会经过多个时间帧。在这些多个时间帧期间,实体跟踪器100可输出上下文信息。类似地,从特定传感器接收到的数据的有用性可能逐时间帧地变化。例如,在第一时间帧处,实体跟踪器100可经由话筒接收正在说话的特定人的音频数据,并因此用相对高的置信度值标识人的实体位置114。在随后的时间帧中,此人可保持位于所标识的位置,但是也可能自第一时间帧以来就停止了说话。在此情况下,话筒缺失有用数据可能并不是人不存在的可靠指示符。其他类型的传感器也会出现类似的问题。例如,如果一个人遮住了他的脸,或者被诸如另一个人或移动对象之类的障碍物遮挡,那么相机可能会失去对此人的跟踪。在此情况下,尽管当前相机数据可能不表明此人的存在,但相机数据的先前实例可能表明此人仍然位于先前标识的位置处。通常,虽然传感器数据可以可靠地指示实体的存在,但是此类数据在表明实体的不存在时可能不太可靠。

因此,实体跟踪器100可利用一个或多个置信度衰减函数,其在不同的示例中可以由实体跟踪器和/或由传感器本身来定义。置信度衰减函数可被应用于传感器数据,以从特定传感器最后一次肯定地检测到实体开始,随着时间的推移降低实体跟踪器对来自该传感器的数据的置信度。作为示例,在传感器检测到实体位于特定定位处之后,实体跟踪器100可报告指示该实体以相对高的置信度位于该定位处的上下文信息110。如果在一个或多个时间帧之后传感器不再检测到实体位于该定位处,并且除非其随后收集相互矛盾的证据,否则实体跟踪器100仍然可以报告该实体位于该定位处,但采用某一较低的置信度。随着时间从传感器最后一次检测到实体位于该定位处后继续推移,该实体仍位于该定位处的可能性逐渐减小。因此,实体跟踪器100可利用置信度衰减函数来逐渐降低其报告的上下文信息110的置信度值,如果没有附加传感器检测到该实体则最终到达0%的置信度。

在一些情形中,不同的置信度衰减函数可以与不同的传感器和传感器类型一起使用。特定衰减函数的选择可至少部分地取决于传感器的特定属性。例如,与来自摄像机的数据相关联的置信度值可能比与来自话筒的数据相关联的置信度值更快地衰减,因为视频帧中的实体的不存在是比被话筒录制的静音更可靠的实体不存在的指示符。

传感器置信度衰减的一个示例在图5中被示意性地例示,其示出了实体跟踪器100在三个不同时间帧300A、300B和300C期间接收传感器数据。在时间帧300A期间,实体跟踪器100接收相机数据302,其中在该帧中实体是可见的。基于此数据,实体跟踪器100以90%的置信度值报告实体位置304。在时间帧300B中,实体跟踪器100接收相机数据306,其中在该帧中实体不再可见。然而,实体可能并未移动,而仅仅是被遮挡或者以其他方式不能被相机检测到。因此,实体跟踪器100报告相同的实体位置304,但采用80%的较低置信度值。

最后,在时间帧300C中,实体跟踪器100接收指示该实体在该帧中仍然不可见的相机数据310。随着时间的推移,实体仍然处于同一位置的可能性越来越小。因此,实体跟踪器100以60%的更低的置信度值报告相同的实体位置304。

在一些示例中,可通过利用数据过滤技术来至少部分地解决传感器数据的可变可靠性。在一些示例中,卡尔曼滤波器可被用于过滤传感器数据。卡尔曼滤波器是一种数学函数,它可以将多个不确定的测量结合起来,并输出可能比使用任何单个测量有更高置信度的预测。基于测量的感知可靠性为卡尔曼滤波器的每个测量输入赋予权重。卡尔曼滤波器以两步骤过程操作,包括预测步骤和更新步骤。在预测步骤期间,滤波器基于最近的加权测量输出预测。在更新步骤期间,过滤器将其预测与实际观察值或状态进行比较,并动态地调整应用于每个测量的加权以便输出更准确的预测。

在一些示例中,实体跟踪器100可包括卡尔曼滤波器,其组合来自各种传感器的数据以补偿较低的传感器可靠性,诸如当传感器置信度值从最后一次肯定检测以来随时间衰减时。在一些示例中,当一个或多个传感器置信度值低于预定阈值时,实体跟踪器100可以将卡尔曼滤波器应用于传感器数据。在示例场景中,可使用面部检测技术来分析来自相机的图像数据以可靠地检测特定房间中的人。作为响应,实体跟踪器100可以以高置信度报告此人位于该房间内。

在随后的时间帧中,相机可能不再能够捕捉和/或肯定地识别房间中的人的面部。例如,人的面部可能被遮挡,或者相机可以以比实体跟踪器100输出上下文信息110低得多的频率传送数据。如果实体跟踪器100完全依赖于来自相机的数据,则其报告的人的位置的置信度值将逐渐减小,直到下一次肯定检测。然而并且在一些示例中,来自相机的数据可以用来自其他传感器的数据来补充。例如,在随后的时间帧期间,话筒可报告它听到房间中的人的话音,或者另一传感器可报告它可以检测到房间中人的便携式计算设备的存在。在此情形中,此数据可被卡尔曼滤波器分配权重,并且可被用于以可能比仅使用相机数据更高的置信度预测人的当前定位。

在一些情形中,当传感器数据被背景信息污染时,对环境中的人和/或其他实体的检测会变得更加复杂。此类背景信息可能会损害实体跟踪器100报告实体身份112、位置114和/或状态116的置信度。例如,智能助理计算机20可能需要确定正在讲话的人的身份以便恰适地响应查询或命令。当多个人同时说话、正在播放电视、嘈杂的机器正在操作等时,此类确定可能是困难的。

因此,实体跟踪器100可使用各种音频处理技术来更有置信度地标识参与与其他人和/或与智能助理计算机20的对话的特定活动参与者。作为示例,实体跟踪器100可实现话音活动检测(VAD)引擎,其可将人类话音与环境噪声区分开,并标识人类语音的存在或不存在。

通用VAD引擎可出于以相应的置信度值将特定音频的片段分类为包括语音或非语音而被使用。实体跟踪器100还可利用发言者识别引擎来将特定音频的片段与特定人相匹配。随着接收到更多语音,发言者识别引擎可被逐渐定制以将音频分类为包括来自特定对话参与者的语音,或不包括来自特定对话参与者的语音。以此方式,实体跟踪器100可识别来自一个或多个特定人/对话参与者的语音。

对发言者识别引擎的训练可在实体跟踪器100有置信度地标识特定人并且录制可被有置信度地归于此人的音频的任何时候发生。例如,通过使用相机数据,实体跟踪器100可标识特定人并确定此人的嘴唇正在运动。实体跟踪器100可同时从话筒接收音频,该音频可被安全地假设为包括来自所标识的人的语音。因此,接收到的音频可被用于重新训练发言者识别引擎以更专门地识别所标识的人的话音。

在一些情形中,此类重新训练可仅在已以诸如超过预定阈值的置信度值之类的高置信度值(例如,经由准确的面部识别或任何其他方法)标识人的情况下和当实体跟踪器100接收到具有高音量/幅度和高信噪比(S/N)的人的话音的音频记录的情况下发生。使用此技术,实体跟踪器100可累积各种因人而异的话音模型,从而允许实体跟踪器更一致地标识来自特定人的语音并忽略背景噪声。

现在参考图6,示意性地例示了使用经训练的语音识别引擎来识别来自特定人的语音的示例。在此示例中,实体跟踪器100接收两个语音片段400A和400B。语音片段400A包括人1的录制语音,而语音片段400B包括人2的录制语音。实体跟踪器100包括已被专门训练以使用话音1模型404来识别来自人1的语音的语音识别引擎402,如上文所描述的。当实体跟踪器100接收到语音片段400A和语音片段400B时,话音1模型404可被应用于语音片段400A和语音片段400B中的每一者。

在处理语音片段时,实体跟踪器100输出每个语音片段对应于人1的似然性的预测。如图所示,对于语音片段400A,实体跟踪器以90%的置信度值输出人1标识404A,从而指示该语音片段可能包括来自人1的语音。对于语音片段400B,实体跟踪器以15%的置信度值输出人1标识404B,从而指示该语音片段400B可能不包括来自人1的语音。

在一些示例中,实体跟踪器100可被配置成标识环境中存在的背景噪声,并使用音频处理技术从接收到的音频数据中减去此类背景噪声。例如,某人家中的特定设备可能正在播放背景音频,诸如音乐或电视/电影对话。此人家中的各种配备话筒的设备可记录此类音频。在此类配备话筒的设备包括智能助理计算机20和/或向实体跟踪器100提供音频数据的情况下,此类背景音频可能损害系统标识、解读和/或响应人类问题或命令的能力。

因此并且在一些示例中,播放背景音频的设备和/或记录背景音频的另一配备话筒的设备可将捕捉到的音频信号发送给实体跟踪器100。以此方式,实体跟踪器100可以从接收自配备话筒的设备的音频信号中减去背景音频。在一些示例中,在将音频数据发送到实体跟踪器100之前,可由捕捉音频数据的(诸)设备或相关联的音频处理组件执行从录制的音频数据中减去背景音频信号。

附加地或替换地,设备和/或实体跟踪器100可被训练以识别背景噪声的特定源(例如,来自通风口或冰箱),并自动地忽略录制音频中与此噪声对应的波形。在一些示例中,实体跟踪器100可包括专门训练以识别背景噪声的一个或多个音频识别模型。例如,来自各种噪声数据库的音频可通过无监督学习算法运行以便更一致地识别此类噪声。通过允许实体跟踪器100识别不相关的背景噪声,实体跟踪器识别相关人类语音和其他声音的能力可被改进。在一些实现中,声音源的位置知识可以被用来聚焦于来自一有向话筒阵列的监听。

现在参考图7、10和11,例示了智能助理计算机20在单个计算设备中和跨多个计算设备的附加示例实现。下文参考图12描述关于在图7、10和11中例示的计算设备的组件和计算方面的附加细节。

图7示出了一体化计算设备160的示例,其中实现智能助理计算机20的各组件一起被布置在独立设备中。在一些示例中,一体化计算设备160可经由网络166通信地耦合到一个或多个其他计算设备162。在一些示例中,一体化计算设备160可被通信地耦合到数据存储164,数据存储164可存储诸如用户简档数据之类的各种数据。一体化计算设备160包括至少一个传感器22、话音监听器30、解析器40、意图处置器50、承诺引擎60、实体跟踪器100和至少一个输出设备70。(诸)传感器22包括至少一个话筒以接收来自用户的自然语言输入。在一些示例中,还可包括一个或多个其他类型的传感器22。

如上文所描述的,话音监听器30、解析器40和意图处置器50协同工作以将自然语言输入转换为可由一体化设备160执行的承诺。承诺引擎60将这些承诺存储在承诺存储626中。实体跟踪器100可向承诺引擎60和/或其他模块提供上下文信息。在上下文适当的时间,承诺引擎60可执行承诺并向(诸)输出设备70提供诸如音频信号之类的输出。

在一些场景中,多个智能助理计算机可以听到用户说出的同一请求,例如,由于它们被放置在共同环境中。如上参考图1所描述的,在此类场景中,可能期望协调智能助理计算机的操作,以使得选择单个助理对用户请求作出响应,以便避免在多个助理对同一请求作出响应的情况下可能导致的迷失方向的用户体验和不必要的计算资源花费。为此,一体化计算设备60可包括选择模块80,其被配置成通过将自选择分数与来自同样听到该同一请求的其他智能助理计算机的一个或多个远程选择分数作比较来确定是否要向第一用户的请求作出响应。如果自选择分数高于远程选择分数,则一体化计算设备160可以对用户作出响应。类似地,如果另一智能助理计算机的远程选择分数是选择分数之中最高的,则该智能助理可以向用户作出响应。对于其中还存在一个或多个其他用户并且该一个或多个其他用户向一体化计算设备160发出请求的场景中,选择模块80可以进一步阻断对所有其他用户的后续响应,直到第一用户的解除合作度量超过阻断阈值。如下文参考图8A-8B更详细地描述的,选择和响应过程被配置成,使得第一用户的请求被连贯地服务,同时保持在不中断第一用户的计算设备交互的恰适的上下文中对其他用户作出响应的能力。此外,在其他示例中,选择模块80提供的功能的至少一部分或在一些示例中选择模块80提供的全部功能可以被实现在与一体化设备160通信耦合的一个或多个远程计算设备上,如下文参考图11所描述的。

为了例示上述设备选择,图8A-8B示出例示了在多用户多助理环境中在智能助理处选择性地向用户作出响应的方法500的流程图。方法500的至少一部分可以由例如一体化计算设备160的选择模块80来执行,并且进一步可以由在与该一体化计算设备交互的一个或多个其他计算设备上提供的类似配置的选择模块来实现。在其他示例中,方法500的至少一部分可以被实现在远离向用户提供响应的计算设备或音频输出设备的一个或多个计算设备上。

在502,方法500包括在智能助理处识别与该智能助理位于同一环境中的另一智能助理。作为一个示例,参考图1,计算设备4可以识别起居室2中的计算设备6。任何合适的方法可以被用来识别另一智能助理。例如,智能助理可以是同一网络的一部分和/或彼此注册或向中央服务注册,并且各个智能助理的定位/存在性可以彼此共享。作为另一示例,并且参考图2,传感器22中的一者或多者可以被用来识别该另一智能助理。

在504,方法500包括记录第一用户说出的语音。该语音可包括能够被识别且被用于触发智能助理对计算设备动作的执行的任何合适的口述。作为示例,口述可包括对信息或应用状态改变的请求。在一些场景中,该语音可包括引导智能助理分析第一用户说出的语音的关键词。该语音可以用任何合适的方式来记录,诸如由话筒24(图2)和/或位于远离智能助理的一个或多个话筒。如此处所使用的,“记录”包括将声波转换成计算机可理解的数字格式,并且可任选地仅包括保存数字化的音频。

在506,方法500包括基于第一用户说出的语音来确定第一用户的自选择分数。基于其来确定自选择分数的语音可以与504处记录的语音相同或不同。一般来说,本文描述的选择分数可以表示对应智能助理对用户作出响应的合适度,并且在确定此类合适度时可以考虑记录的语音的质量和/或关于记录的语音的各方面的置信度。作为具体的示例,分数确定可包括评估以下一者或多者:(1)记录的语音的幅度,(2)记录的语音的信噪比(SNR);(3)关键词置信度值,其指示记录的语音包括关键词或关键词短语的似然性;以及(4)用户标识置信度值,其指示用户是特定人(例如,用户身份是已知身份)的似然性。

在一些示例中,可伴随记录的语音来接收幅度和/或SNR值。在其他示例中,参考图2,幅度和/或SNR值可由话音监听器30或智能助理系统20的其他组件确定。如上文所描述的,关键词置信度值可由话音监听器30确定。同样如上文所描述的,用户标识置信度值可由实体跟踪器100确定。在一些示例中,说出语音的用户可被话音识别标识为已知的发言者或未知的发言者,并被分配相应的置信度水平。

可通过将用户话音的信号电平与背景噪声的电平进行比较来计算记录的语音的SNR。在一些示例中,输入的幅度可被用于确定用户与对应话筒的邻近度。要领会,本实现中讨论的度量是作为示例提供的,并不意味着是限制性的。

在一些示例中,可以通过将上述四个度量(幅度、SNR、关键词/关键词短语置信度、用户ID置信度)组合成单个选择分数(诸如通过对各个度量求平均)来确定选择分数。在一些示例中并且在组合之前,可通过依经验确定的权重对每个度量进行加权,依经验确定的权重反映了度量在预测将提供最佳用户体验的设备/话筒和对应的音频数据流方面的准确度。在其他示例中,各度量中的一者或多者可以被保持与其他度量分开,并且与同一度量的其他值作比较,如下文所述。

选择分数确定可计及替换或附加的信息。作为示例,捕捉(例如,通过图2的相机26和/或27收集的)第一用户的嘴唇运动、眼睛注视、和/或面部的图像数据和/或来自一个或多个邻近度传感器(例如,图像邻近度传感器、声学邻近度传感器)的输出可以被考虑。

在508,方法500包括将第一用户的自选择分数发送到该环境中的该另一智能助理。自选择分数可以经由任何合适的网络连接发送到该另一智能助理,例如经由直接网络连接,经由一个或多个中间网络设备(例如,交换机、路由器、中枢),经由执行方法500的至少一部分的一个或多个中间计算设备。作为示例,参考图7,自选择分数可以经由网络166来发送。

在510,方法500包括从该另一智能助理接收第一用户的远程选择分数。远程选择分数可以经由任何合适的网络连接来接收,如上所述。为了确保自选择分数和远程选择分数对应于同一用户,每一分数可以伴随同一用户的身份来传送,用户的身份可以根据上述技术来确定。替换地,例如,如果用户的身份无法确定,可以伴随选择分数来传送对于该用户而言近似或基本上唯一的数据作为身份的代理。例如,每一智能助理处记录的音频流的特性(例如,波形、谱分析、定时信息)可以被传送到另一智能助理,和/或其他数据类型的特性(例如,面部图像数据的特征向量、身体和/或步态分析数据)可以被传送。

在512,方法500包括将第一用户的自选择分数与第一用户的远程选择分数作比较。可按任何合适的方式来比较选择分数。对于其中选择分数包括单个数字的实现,该比较可包括标识较高的数字。对于其中一个或多个度量被分开维护的实现,由智能助理针对这些度量确定的值可以被个体地进行比较,或者在各个值用作向量的不同分量的情况下可以进行向量比较。在比较各个度量时可以应用加权方案以确定哪个助理最终产生较高的选择分数。

作为比较三个设备的选择分数的具体示例,其中分数被表达为百分比,可以为从移动电话的话筒A接收的音频数据流确定以下分数:1)90%(幅度);2)90%(SNR);3)30%(关键词置信度);4)90%(说话者ID)。从平板计算机的话筒B接收的音频数据流的分数可以是:1)80%(幅度);2)80%(SNR);3)80%(关键词置信度);4)80%(说话者ID)。接收自智能助理设备的话筒C的音频数据流的分数可以是:1)92%(幅度);2)88%(SNR);3)90%(关键词置信度);4)92%(说话者ID)。

在此示例中,针对4个度量中每一者的3个设备的排名如下:

A.幅度-1.智能助理设备;2.移动电话;3.平板计算机。

B.SNR-1.移动电话;2.智能助理设备;3.平板计算机。

C.关键词置信度-1.智能助理设备;2.平板计算机;3.移动电话。

D.扬声器ID-1.智能助理设备;2.移动电话;3.平板计算机。

每个设备可基于其在每个度量类别中的排名来奖励积点。例如,排名第一名=1积点、第二名=2积点、而第三名=3积点。对于每个设备,其点数为4个度量的总计并取平均。具有最低平均总点数的设备(和对应的数据流)可以被选择用于确定对第一用户的响应,如下所述。在当前示例中,最终的总点数和排名为:1.1.智能助理设备=>1.25;2.移动电话=>2.0;3.平板计算机=>2.75。来自智能助理设备的数据流可以被选择用于确定响应。基于以上排名,作为分析的结果,智能助理设备可以被选择来接收由承诺引擎60(图7)生成的消息。

在514,方法500包括确定自选择分数高于还是低于远程选择分数。该确定基于512处执行的比较。如果确定自选择分数低于远程选择分数(低于),则方法500行进到556。如果确定自选择分数高于远程选择分数(高于),则方法500行进到516。任何合适的办法可以被用来打破关联,例如,偏好特定度量(例如,幅度)或默认为特定智能助理。

在516,方法500可任选地包括确定第一用户的解除合作度量。一般来说,解除合作度量表示第一用户正在和/或将要(作为预测性测量)解除与智能助理的交互的程度。通过延伸,解除合作度量可以被用于确定向另一用户提供响应将会对第一用户与智能助理的交互有多大破坏。例如,解除合作度量越大(例如,第一用户解除合作越强),向另一用户提供响应会破坏第一用户与智能助理的交互的可能性越小。如下文更详细地描述的,解除合作度量可以与一阈值作比较以确定对与智能助理合作的另一用户作出响应时恰适的条件,从而使得以无破坏的方式服务两个用户的请求。

解除合作度量可以被实现为数值,其可以由取得一个或多个输入的算法来计算。例如,在确定用于计算第一用户的解除合作度量的一个或多个输入时,可以评估包括第一用户说出的语音的音频流。具体地,可以评估音频流所指示的对话上下文,其中该上下文可包括第一用户称呼该智能助理。缺少记录的语音的另一对话上下文可以指示第一用户已经停止与智能助理合作。用于计算解除合作度量的算法可以从使用中取得自从最后一次记录的语音以来的时间。例如,解除合作度量可以根据时间衰减函数的逆而逐渐减小,该时间衰减函数对用户与智能助理的合作的时间衰减进行建模,例如,随着用户不称呼该智能助理的时间流逝得越多,认为用户已经停止与该助理合作的可能性越大,至少直到启动新的对话或请求。

在确定解除合作度量时可以考虑替换或附加的数据,包括上文描述的用于确定选择分数的一个或多个数据类型。作为附加示例,当第一用户从个图像数据中消失,如根据眼睛注视数据所确定的第一用户目光远离智能助理,和/或第一用户执行指向助理之外的手部姿势时,解除合作度量可以被提升。此外,如518处所指示的,解除合作度量可以响应于来自第一用户要解除与智能助理的合作的显式命令(例如,终止当前对话的命令、使助理断电的命令、将助理置于空闲或待机状态的命令)而被设置为最大值。类似地,第一用户可以发出显式命令以与智能助理合作,这可以降低(例如,最小化)解除合作度量。

由于在用户与智能助理解除合作以及他或她与助理之间的合作之间可存在逆关系,本文描述的用于确定和评估解除合作度量的办法可以被替换地或附加地适配成确定表示用户与助理的合作的合作度量。例如,解除合作度量和合作度量中的一者的确定可通过计算所确定的度量的逆来得到另一者。对于其中使用合作度量的实现,下文描述的阻断阈值可以被适配成用于与合作度量进行比较(例如,通过逆转比较的方向)。

转向图8B,在520,方法500可任选地包括调整阻断阈值。如下文更详细地描述的,智能助理可以被配置成对第一用户作出响应,并且阻断对所有其他用户的后续响应,直到第一用户的解除合作度量超过阻断阈值。因而,对其他用户进行后续响应的条件可至少部分地通过调整阻断阈值来控制。具体地,对其他用户的响应可以通过降低阻断阈值(即,使得解除合作度量更容易超过阈值)来更有可能进行,并且通过提升阻断阈值(即,使得解除合作度量更难以超过阈值)来更不可能地进行。

阻断阈值可以用任何合适的方式来调整,各示例在图8B中示出。例如,如522处指示,基于智能助理的设备设置,阻断阈值可以响应于标识另一用户被授权接收后续响应而被降低。设备设置可以用任何合适的方式来配置。一般来说,在一些示例中,设备设置可以通过针对设备设置所专门授权的用户的响应来授权内容访问,这可以由智能助理的用户或所有者来建立。替换地或附加地,设备设置可以授权对由智能助理的用户或所有者标识的特定内容的访问,其中在一些示例中可以针对不同用户授权不同的内容。更具体地,如524处所指示的,设备设置可包括父母控制设置,其授权所标识的孩子接收经许可的内容。例如,父母控制设置可以由孩子的父母建立,并且可以授权对被认为是对孩子而言恰适的特定内容的访问。如526处所指示的,设备设置可包括隐私设置,其授权该环境中的另一用户接收所选的非个人内容。例如,智能助理可以被实现在至少部分地针对所有者被个性化的设备上,例如,智能电话、膝上型计算机、或提供对用户而言是个人的内容的访问的其他设备,这些内容诸如电子邮件和日历信息。由此,对于除所有者之外的用户,隐私设置可以限制对非个人内容的访问。作为另一示例,设备可以被配置成用于公共使用,例如,作为位于环境的高流量区域中的游戏控制台。

如528处所指示的,设备设置可以基于第一用户与高值信息(HVI)之间的组织关系来授权第一用户接收HVI,并且可以基于另一用户与HVI之间的组织关系来授权该另一用户接收不包括HVI的经过滤内容。例如,智能助理可以被实现在由一企业所有且位于商务环境(诸如会议室)中的设备上。设备设置可以授权第一用户接收HVI,因为对应的组织关系指示第一用户是被授权接收HVI的该企业的雇员。相反,设备设置可以授权另一用户接收不包括HVI的经过滤内容,因为对应的组织关系指示该另一用户不是该企业的雇员,其中非雇员不被授权接收HVI。智能助理可以访问存储在例如本地或远程数据库中的组织关系。在另一示例中,设备设置可以将智能助理配置成不对任何非雇员作出响应。

如530处所指示的,可以响应于标识该另一用户被授权从智能助理接收的内容而降低阻断阈值。可以响应于从环境中的该另一用户接收到请求来标识该内容。在该示例中,该另一用户可以由智能助理标识,或者可以不被标识。例如,任何用户被授权的非个人内容可以提示降低阻断阈值。作为另一示例,如果另一用户被专门授权接收第一用户的个人内容,则对智能助理的第一用户而言个人化的内容可以被呈现给该另一用户。

响应于一些选择条件,智能助理可以停止阻断对其他用户的后续响应,例如,阻断阈值可以被设置为最小(零)值。例如,如532处所指示的,智能助理可以响应于从第一用户接收到指令该智能助理对另一用户作出响应的命令来停止阻断对该另一用户的后续响应。该命令可包括例如对要提供给该另一用户的特定信息的请求。作为另一示例,该命令可包括对智能助理监听来自该另一用户的请求的请求。作为又一示例,该命令可包括引导智能助理学习识别(例如,标识)该另一用户的请求。

如534处所指示,智能助理可以响应于第一用户的新自选择分数低于第一用户的新远程选择分数来停止阻断对另一用户的后续响应。在该示例中,另一智能助理可以产生环境中的多个智能助理之间的最高选择分数,并且由此可以对第一用户作出响应。为了避免在两个智能助理处提供响应,并且为了变得可供对其他用户作出响应,智能助理可以停止阻断对其他用户的响应。在操作中,智能助理可以以某一频率确定并且交换选择分数,该频率使得能够以无破坏的方式使它们到用户的指派的改变适配于不断改变的条件。例如,通过以合适的频率来交换选择分数,第一用户可以在继续持续对话的同时改变定位,例如,环境中的房间,该对话以无缝的方式从第一智能助理移交到第二智能助理。频率可以基于多种因素来动态调整,该多种因素包括但不限于,当检测到更多用户时增大频率,在幅度、信噪比和/或其他因素指示较不安全的用户锁定时增大频率,在标识置信度降低时增大频率,以及基于表明用户移动到不同定位的对话上下文或第一用户想要将第二用户包括在对话中的似然性来增大频率。

如536处所指示的,智能助理可以为没有接收到针对其的远程选择分数的任何其他用户降低阻断阈值。此处,智能助理识别出其他用户请求没有得到服务,例如由于其他助理到其他用户的现有指派,或者不足数目的助理,并且相应地增大响应的意愿以便对这些请求提供服务。为了实现这一功能性,智能助理可以交换用户身份或身份代理,如上所述。

如538处所指示的,智能助理可以响应于另一用户未被标识来调整阻断阈值。例如,阻断阈值可以被提升,因为未被标识的用户可以被认为具有较低优先级,或者未被标识的用户被授权的内容的标识可能性更低。作为另一示例,阻断阈值可以被减小,因为智能助理可以被配置成优先化对未被标识的用户的响应,例如,当被配置成在公共环境中提供信息时。

如540处所指示的,智能助理可以响应于第一用户的解除合作度量的增大根据时间衰减函数来降低阻断阈值。类似于上文描述的根据时间函数调整解除合作度量,可以在(例如,经由图像数据、眼睛注视数据、姿势数据、音频数据)指示用户的不断增大的解除合作时降低阻断阈值(例如,以指数衰减的方式)。在一些示例中,阻断阈值可以根据时间衰减函数在第一用户说出的记录语音的各实例(例如,语句、对话、时间区间)之间降低。

如542处所指示的,智能助理可以基于另一用户的合作度量根据时间衰减函数来降低阻断阈值。例如,另一用户的合作度量可以指示该另一用户的不断增大的合作或潜在合作,智能助理通过降低阻断阈值来对该合作或潜在合作做好准备。合作度量可以基于图像数据、眼睛注视数据、姿势数据和/或音频数据中的一者或多者来确定,如上所述。

在544,方法500包括对第一用户作出响应,并且阻断对所有其他用户的后续响应,直到第一用户的解除合作度量超过阻断阈值。由此,第一用户作出的请求可以在不被其他用户说出的语音中断的情况下被连贯地且响应式地服务。然而,通过除了标识其中阻塞对其他用户的响应是恰适的情况,还标识其中使得其自身能够对其他用户作出响应是恰适的情况,智能助理可以在不过分地中断第一用户与助理的交互的情况下保持服务于其他用户请求的能力。以此方式,智能助理可以以上下文知悉的方式最大化其服务多用户请求的能力。如545处所指示的,智能助理可以进一步响应于识别第一用户说出的语音中的关键词来对第一用户作出响应。

在一些示例中,智能助理可包括多个音频输出设备,或者可以操作地耦合到多个音频输出设备。在此类示例中,智能助理可以选择特定数目的音频输出设备或特定集合的音频输出设备来用其输出对用户的响应。因此,对第一用户作出响应并且阻断对所有其他用户的后续响应可任选地包括选择由所选智能助理控制的一个或多个音频输出设备来用其对第一用户作出响应,如546处所指示的。音频输出设备可包括例如图1的扬声器16。选择一个或多个音频输出设备可包括选择多个音频输出设备中被识别为在环境中最靠近第一用户的一个音频输出设备,如547处所指示的。

为了例示音频输出设备选择,图9示意性地示出了包括多个音频输出设备602的示例环境600的平面图。至少一个音频输出设备602被放置在环境600的每一个房间(例如,起居室、卧室、厨房)中。在该示例中,音频输出设备602A可以被选择用于用户604,因为该音频输出设备被识别为最靠近用户。可以如上所述来确定音频输出设备到用户的邻近度,例如,通过比较来自多个话筒的音频数据流的幅度,通过将用户的识别出的位置与音频输出设备的已知或识别位置进行相关。

简要地参考图8B,选择一个或多个音频输出设备可包括当另一用户是标识的儿童或未被标识的用户时选择环境中多个音频输出设备中的全部音频输出设备以用其对该另一用户作出响应,如548处所指示的。返回图9,其示出了另一用户606向智能助理发出请求,响应于此,操作地耦合到智能助理的全部音频输出设备602被用来输出响应。全部音频输出设备的选择可能是合乎需要的,并且如上所述潜在地由设备设置规定,由该另一用户606的父母和/或环境600中期望知悉该另一用户与智能助理的交互的智能助理的所有者规定,例如以确保那些交互是被授权的和/或恰适的。

简要参考图8B,选择一个或多个音频输出设备可包括选择环境中的某一数目的音频输出设备以用其对另一用户作出响应,其中该数目基于环境中记录的嘈杂程度来选择,如549处所指示的。返回图9,音频输出设备602的数目可以基于环境600中的嘈杂程度来选择,例如,基于环境中的话筒所记录的嘈杂程度的经加权或未经加权的平均值。较大数目的音频输出设备602可以被选择用于环境600中的较高嘈杂度水平。在一些示例中,音频输出设备602的选择可以至少部分地是因区域而异的。例如,如果相关联房间中的嘈杂度高于阈值,则音频输出设备602C可以被选择进行响应。替换地或附加地,如果与音频输出设备602C相关联的房间中的嘈杂度高于阈值,可以选择音频输出设备602A以进行响应从而增大该响应被听到的似然性,因为该房间中的嘈杂度可能阻挡来自设备602C的响应,即便设备602C被选择进行响应。

图9还例示了其中基于智能助理的选择分数被选择对用户作出响应的智能助理可能离更靠近用户但未被选择对用户作出响应的另一智能助理更远的示例。例如,代替智能助理608B的选择,智能助理608A可以被选择对用户606作出响应,即便助理608B产生较高的选择分数。智能助理608A可以至少部分地基于例如指示该助理被提出请求的用户所偏好的设备设置来选择。作为另一示例,用户606可能已经发起与智能助理608A的对话,但是在对话期间移动到图9中示出的靠近智能助理608B的定位。在一些示例中,对话可以被传送到智能助理608B。然而,在其他示例中,当检测到来自靠近助理608B的其他用户的对话时,对话可以被保留在智能助理608A处。此处,可以维持关于用户606保持的对话的隐私,和/或可以避免靠近智能助理608B的其他用户保持的对话的中断。类似地,输出可以从音频输出设备602C被传送到音频输出设备602D,或者可以被保留在设备602C处。

对于其中多个音频输出设备能够在诸如环境600的环境中输出响应的示例,可以在环境中提供的音频输出设备与多个智能助理之间建立各种操作关系。例如,继续参考图9,音频输出设备602可以由智能助理608A和608B两者控制。在其中音频输出设备602被一个智能助理608使用的条件下,该另一智能助理可以选择一个或多个其他音频输出设备以用于输出响应。替换地或附加地,智能助理608A和608B可以协商以确定哪个音频输出设备602被哪个智能助理使用。此类协商可以用任何合适的方式来执行,并且可以考虑以下一者或多者:用户解除合作度量、阻断阈值、响应内容、请求内容、选择分数、环境嘈杂度、智能助理和/或音频输出设备到用户的邻近度、和/或其他潜在的考量。

在550,方法500包括确定第一用户的解除合作度量是否超过阻断阈值。如果确定第一用户的解除合作度量的确超过阻断阈值(是),则方法500行进到551,其包括在不阻断对所有其他用户的后续响应时继续对第一用户作出响应。如果相反确定第一用户的解除合作度量未超过阻断阈值(否),则方法500返回到544,其包括继续对第一用户作出响应并且继续阻断对所有其他用户的后续响应。

在552,方法500包括在514处确定自选择分数低于远程选择分数时不对第一用户作出响应。不作响应可包括不输出音频,包括响应和/或具有最高选择分数的另一智能助理可能输出的其他形式的潜在输出(例如,视频、光图案)。不作响应可包括保持话筒开启以继续确定选择分数,从而保留在针对该用户的自选择分数被确定为是接收到的选择分数中的最高分数时对用户作出响应的能力。因而,方法500包括在552之后返回到506以确定第一用户的新自选择分数。在一些示例中,不作响应可包括停止将关于记录的音频流的数据传输到一个或多个远程计算设备(例如,对于其中远程计算设备执行方法500的至少一部分的实现)。在一些示例中,不作响应可包括关闭话筒并且在一间隔之后再次开启话筒,该间隔可以是预先确定的、随机的、或者响应于各种条件来确定的(例如,话筒可以响应于接收自另一智能助理和/或远程计算设备的信号而被再次开启)。

将领会,方法500作为示例来提供,并且对方法的任何合适的修改是可能的。例如,调整阻断阈值和/或解除合作/合作度量的一个或多个办法可以被组合,包括组合一个或多个设备设置。用于调整阻断阈值和/或解除合作/合作度量的替换或附加准则也可以被考虑。此外,如下文更详细地描述的,方法500的一个或多个部分,例如,音频数据流处理、选择打分、分数比较、阻断阈值调整/确定、解除合作/合作度量调整/确定,可以由通信地耦合到本文所述的智能助理的一个或多个远程计算设备来执行。

图10示出了一个示例实现,其中一个或多个远程服务170执行智能助理计算机20的自然语言处理功能性。在此示例中,话音监听器30、解析器40、意图处置器50、实体跟踪器100和承诺引擎60驻留在被定位在远离支持云的用户设备A的位置处的诸如一个或多个服务器之类的一个或多个计算设备上。来自用户设备A的一个或多个传感器22的传感器数据经由网络被提供给(诸)远程服务170。例如,用户讲话的音频数据可被用户设备A的话筒捕捉并被提供给话音监听器30。

如上文所描述的,话音监听器30、解析器40和意图处置器50协作以将音频数据转换为被存储在承诺引擎60中的承诺。在上下文恰适的时间,承诺引擎60可执行承诺并向用户设备A的一个或多个输出设备70提供诸如音频信号之类的输出。

图11示出了另一示例实现,其中一个或多个远程服务170执行智能助理计算机20的自然语言处理功能性。在此示例中,一个或多个远程服务170与多个不同的传感器22和输出设备70通信地耦合。在此示例中,传感器包括单独的独立传感器A和C,诸如话筒、相机等。输出设备包括单独的独立输出设备B和D,诸如扬声器。

一个或多个远程服务170还通信地耦合到包括一个或多个传感器F和输出设备G的设备E。设备E可采用包括话筒、扬声器和网络连接组件的简单独立设备的形式。在其他示例中,设备E可以是移动电话、平板计算机、壁挂式显示器或其他合适的计算设备。在一些示例中,设备E、传感器A和C以及输出设备B和D可以是同一支持云的客户端的一部分。在其他示例中,任何数量的单独传感器和设备都可以与一个或多个远程服务170一起使用。

如上文所描述的,一个或多个远程服务170执行智能助理计算机20的自然语言处理功能性。在一些示例中,远程服务170中的一者或多者可包括智能助理计算机20的所有自然语言处理模块,如图10的示例中所示的。在其他示例中,一个或多个远程服务170可包括少于所有的自然语言处理模块,并可通信地耦合到位于一个或多个其他服务处的其他模块。在本示例中,远程服务170中的一个或多个还可包括设备选择器174,该设备选择器174可利用传感器输入来选择输出设备B、D和/或G以接收来自承诺引擎60的输出。

设备选择器174可以被配置成实现选择模块80(图7)和方法500(图8A-8B)的至少一部分。例如,设备选择器174可以从位于环境中的多个智能助理接收音频数据流,确定每一助理的选择分数,标识产生最高分数的助理,并且致使到最高得分的助理的指令传输以对环境中提出请求的用户作出响应。在其他示例中,智能助理可以确定相应的选择分数,并且将分数传送到远程服务170,远程服务170可以标识最高得分的助理并且向该助理传送指令以致使其对提出请求的用户作出响应。此外,设备选择器174可以确定/调整一个或多个用户解除合作/合作度量和/或阻断阈值。而且,设备选择器174可以选择一个或多个音频输出设备以通过其对提出请求的用户作出响应,如上所述。

在一些实施例中,本文中所描述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言,这样的方法和过程可被实现为计算机应用程序或服务、应用编程接口(API)、库、和/或其他计算机程序产品。

图12示意性地示出了可执行上述方法和过程中的一个或多个的计算系统750的非限制性实施例。以简化形式示出了计算系统750。计算系统750可采取一个或多个智能助理计算机、个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)、和/或其他计算设备的形式。作为非限制性示例,上述计算设备中的任一者或全部(例如,一体化计算设备10、传感器22、话音监听器30、解析器40、意图处置器50、承诺引擎60、输出设备70、实体跟踪器100、一体化计算设备160、远程计算设备162和/或远程服务170)可以被实现为计算系统750。

计算系统750包括逻辑处理器754、易失性存储器758以及非易失性存储设备762。计算系统600可任选地包括显示子系统766、输入子系统770、通信子系统774和/或在图12中未示出的其他组件。

逻辑处理器754包括被配置成执行指令的一个或多个物理设备。例如,逻辑处理器可以被配置成执行指令,该指令是一个或多个应用、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分。此类指令可被实现以执行任务、实现数据类型、变换一个或多个组件的状态、实现技术效果、或以其他方式得到期望的结果。

逻辑处理器754可包括被配置成执行软件指令的一个或多个物理处理器(硬件)。附加地或替代地,逻辑处理器可包括被配置成执行硬件实现的逻辑或固件指令的一个或多个硬件逻辑电路或固件设备。逻辑处理器754的各处理器可以是单核的或多核的,并且其上所执行的指令可被配置成用于串行、并行和/或分布式处理。逻辑处理器的各个个体组件可任选地分布在两个或更多个分开的设备之间,这些设备可以位于远程以及/或者被配置成用于协同处理。逻辑处理器754的各方面可以由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。在这样的情形中,这些虚拟化方面可以在各种不同机器的不同物理逻辑处理器上运行。

易失性存储器758可以包括包含随机存取存储器的物理设备。易失性存储器758通常被逻辑处理器754用来在软件指令的处理期间临时地储存信息。应当领会,当切断给易失性存储器的功率758时,该易失性存储器通常不继续储存指令。

非易失性存储设备762包括被配置成保持可由逻辑处理器执行的指令以实现本文中所描述的方法和过程的一个或多个物理设备。当实现此类方法和过程时,非易失性存储设备762的状态可以被变换-例如以保持不同的数据。

非易失性存储设备762可包括可移动和/或内置的物理设备。非易失性存储设备762可包括光学存储器(例如,CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如,ROM、EPROM、EEPROM、闪存存储器等)、和/或磁存储器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)或者其他大容量存储设备技术。非易失性存储设备762可包括非易失性、动态、静态、读/写、只读、顺序存取、位置可寻址、文件可寻址、和/或内容可寻址设备。应当领会,非易失性存储设备762被配置成即使当切断给非易失性存储设备的功率时也保持指令。

逻辑处理器754、易失性存储器758和非易失性存储设备762的各方面可以被一起集成到一个或多个硬件逻辑组件中。此类硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用集成电路(PASIC/ASIC)、程序和应用专用标准产品(PSSP/ASSP)、片上系统(SOC),以及复杂可编程逻辑器件(CPLD)。

术语“模块”、“程序”和“引擎”可被用来描述计算系统750的被实现为执行特定功能的方面。在一些情形中,模块、程序或引擎可经由逻辑处理器754执行由非易失性存储设备762所保持的指令、使用易失性存储器758的各部分来实例化。将理解,不同的模块、程序或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、函数等实例化。类似地,相同的模块、程序和/或引擎可由不同的应用、服务、代码块、对象、例程、API、功能等来实例化。术语模块、程序和引擎涵盖单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。

应当领会,如本文中所使用的“服务”是可以是跨多个用户会话可执行的应用程序。服务可用于一个或多个系统组件、程序、和/或其他服务。在一些实现中,服务可以在一个或多个服务器计算设备上运行。

在包括显示子系统766时,显示子系统766可被用来呈现由非易失性存储设备762保持的数据的视觉表示。由于本文中所描述的方法和过程改变了由非易失性存储设备保持的数据,并因而变换了非易失性存储设备的状态,因此同样可以变换显示子系统766的状态以视觉地表示底层数据中的改变。显示子系统766可包括利用实质上任何类型的技术的一个或多个显示设备。可将此类显示设备与逻辑处理器754、易失性存储器758、和/或非易失性存储设备762组合在共享外壳中,或者此类显示设备可以是外围显示设备。

在包括输入子系统770时,输入子系统770可以包括或对接于一个或多个用户输入设备。在一些实施例中,输入子系统可包括所选择的自然用户输入(NUI)部件或与上述NUI部件对接。此类部件可以是集成的或外围的,并且输入动作的换能和/或处理可以在板上或板外被处置。示例NUI部件可包括用于语音和/或话音识别的话筒;用于机器视觉和/或姿势识别的红外、彩色、立体、和/或深度相机;用于运动检测、注视检测、和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计、和/或陀螺仪;用于评估脑部活动的电场感测部件;关于上面讨论的示例使用情形和环境描述的任何传感器;和/或任何其他合适的传感器。

当包括通信子系统774时,通信子系统774可被配置成将计算系统750与一个或多个其他计算设备通信地耦合。通信子系统774可包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统可被配置成用于经由无线电话网络、或者有线或无线局域网或广域网进行通信。在一些实施例中,通信子系统可允许计算系统750经由诸如互联网之类的网络将数据发送至其他设备以及从其他设备接收数据。

另一示例提供了一种包括逻辑机和存储机的智能助理计算机,存储机保持可由逻辑机执行以进行以下操作的指令:识别与该智能助理计算机位于同一环境中的另一智能助理计算机,记录第一用户说出的语音,基于第一用户说出的语音来确定第一用户的自选择分数,将第一用户的自选择分数发送到该另一智能助理计算机,从该另一智能助理计算机接收第一用户的远程选择分数,将第一用户的自选择分数与第一用户的远程选择分数作比较,如果自选择分数高于远程选择分数,则对第一用户作出响应并且阻断对所有其他用户的后续响应直到第一用户的解除合作度量超过阻断阈值,而如果自选择分数低于远程选择分数,则不对第一用户作出响应。在该示例中,该指令能够被替换地或附加地执行以:响应于来自第一用户要解除与该智能助理计算机的合作的显式命令来将第一用户的解除合作度量设置为最大值。在此类示例中,该指令能够被替换地或附加地执行以:基于该智能助理计算机的设备设置,响应于标识被授权接收后续响应的另一用户来降低阻断阈值。在该示例中,设备设置替换地或附加地可包括授权所标识的孩子接收经认可的内容的父母控制设置。在该示例中,设备设置替换地或附加地可包括授权另一用户接收所选非跟人内容的隐私设置。在该示例中,设备设置替换地或附加地可以基于第一用户与高值信息之间的组织关系来授权第一用户接收高值信息,并且可以基于另一用户与高值信息之间的不同的组织关系来授权该另一用户接收不包括高值信息的经过滤内容。在该示例中,该指令能够被进一步替换地或附加地执行以:接收来自环境中的另一用户的请求,标识该另一用户被授权从该智能助理计算机接收的内容,并且响应于标识该内容来降低阻断阈值。在该示例中,该指令能够被替换地或附加地执行以:响应于接收到来自第一用户指令该智能助理计算机对另一用户作出响应的命令,停止阻断对该另一用户的后续响应。在该示例中,该指令能够被替换地或附加地执行以:响应于第一用户的新自选择分数低于第一用户的新远程选择分数,停止阻断对另一用户的后续响应。在该示例中,该指令能够被替换地或附加地执行以:为没有接收到其远程选择分数的任何其他用户降低阻断阈值。在该示例中,该指令能够被替换地或附加地执行以:响应于识别出第一用户说出的语音中的关键词,对第一用户作出响应。在该示例中,该指令能够被替换地或附加地执行以:响应于另一用户未被标识,调整阻断阈值。在该示例中,该另一智能助理计算机替换地或附加地可以比该智能助理计算机更靠近第一用户。在该示例中,该指令能够被替换地或附加地执行以:根据时间衰减函数来降低阻断阈值。在该示例中,该指令能够被替换地或附加地执行以:基于第一用户的解除合作度量以及该另一用户的合作度量中的一者或两者,根据时间衰减函数来降低阻断阈值。在该示例中,该指令能够被替换地或附加地执行以:选择由该智能助理计算机控制的多个音频输出设备中的一者以通过其向第一用户作出响应。在该示例中,该指令能够被替换地或附加地执行以:当该另一用户是所标识的孩子或未经标识的用户时,选择由该智能助理计算机控制的多个音频输出设备中的全部音频输出设备来通过其向该另一用户作出响应。在该示例中,该指令能够被替换地或附加地执行以:选择由该智能助理计算机控制的某一数目的音频输出设备以通过其向该另一用户作出响应,该数目基于环境中记录的嘈杂度来选择。

另一示例提供一种在智能助理计算机处的方法,包括:识别与该智能助理位于同一环境中的另一智能助理计算机,记录第一用户说出的语音,基于第一用户说出的语音来确定第一用户的自选择分数,将第一用户的自选择分数发送到该另一智能助理计算机,从该另一智能助理计算机接收第一用户的远程选择分数,将第一用户的自选择分数与第一用户的远程选择分数作比较,如果自选择分数高于远程选择分数,则对第一用户作出响应并且阻断对所有其他用户的后续响应直到第一用户的解除合作度量超过阻断阈值,而如果自选择分数低于远程选择分数,则不对第一用户作出响应。

另一示例提供一种在智能助理计算机处的方法,包括:识别与该智能助理位于同一环境中的另一智能助理计算机,记录第一用户说出的语音,基于第一用户说出的语音来确定第一用户的自选择分数,将第一用户的自选择分数发送到该另一智能助理计算机,从该另一智能助理计算机接收第一用户的远程选择分数,将第一用户的自选择分数与第一用户的远程选择分数作比较,如果自选择分数高于远程选择分数,则对第一用户作出响应并且阻断对所有其他用户的后续响应直到第一用户的解除合作度量超过阻断阈值,其中阻断阈值根据时间衰减函数在第一用户说出的记录语音的实例之间降低,而如果自选择分数低于远程选择分数,则不对第一用户作出响应。

应当理解,本文中所描述的配置和/或办法本质上是示例性的,并且这些具体实施例或示例不应被视为具有限制意义,因为许多变体是可能的。本文中所描述的具体例程或方法可表示任何数目的处理策略中的一个或多个。由此,所解说和/或所描述的各种动作可以以所解说和/或所描述的顺序执行、以其他顺序执行、并行地执行,或者被省略。同样,以上所描述的过程的次序可被改变。

本公开的主题包括各种过程、系统和配置以及此处公开的其他特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。

Claims (15)

1.一种智能助理计算机,包括:
逻辑机;以及
存储机,所述存储机保持能由所述逻辑机执行以进行以下的指令:
识别与所述智能助理计算机位于同一环境中的另一智能助理计算机;
记录第一用户说出的语音;
基于所述第一用户说出的语音来确定所述第一用户的自选择分数;
将所述第一用户的所述自选择分数发送到所述另一智能助理计算机;
从所述另一智能助理计算机接收所述第一用户的远程选择分数;
将所述第一用户的所述自选择分数与所述第一用户的所述远程选择分数作比较;
如果所述自选择分数高于所述远程选择分数,则向所述第一用户作出响应,并且阻断对所有其他用户的后续响应,直到所述第一用户的解除合作度量超过阻断阈值;以及
如果所述自选择分数低于所述远程选择分数,则不对所述第一用户作出响应。
2.如权利要求1所述的智能助理计算机,其特征在于,所述指令能够进一步被执行以:响应于来自所述第一用户要解除与所述智能助理计算机的合作的显式命令而将所述第一用户的解除合作度量设置为最大值。
3.如权利要求1所述的智能助理计算机,其特征在于,所述指令能够进一步被执行以:基于所述智能助理计算机的设备设置,响应于标识被授权接收后续响应的另一用户来降低所述阻断阈值。
4.如权利要求3所述的智能助理计算机,其特征在于,所述设备设置包括授权经标识的孩子接收经认可的内容的父母控制设置。
5.如权利要求3所述的智能助理计算机,其特征在于,所述设备设置包括授权所述另一用户接收所选择的的非个人内容的隐私设置。
6.如权利要求3所述的智能助理计算机,其特征在于,所述设备设置基于所述第一用户与高值信息之间的组织关系来授权所述第一用户接收所述高值信息,并且基于所述另一用户与所述高值信息之间的不同的组织关系来授权所述另一用户接收不包括所述高值信息的经过滤内容。
7.如权利要求1所述的智能助理计算机,其特征在于,所述指令能够进一步被执行以:
从所述环境中的另一用户接收请求;
标识所述另一用户被授权从所述智能助理计算机接收的内容;以及
响应于标识所述内容,降低所述阻断阈值。
8.如权利要求1所述的智能助理计算机,其特征在于,所述指令能够进一步被执行以:响应于从所述第一用户接收到指令所述智能助理计算机对另一用户作出响应的命令,停止阻断对所述另一用户的后续响应。
9.如权利要求1所述的智能助理计算机,其特征在于,所述指令能够进一步被执行以:响应于所述第一用户的新自选择分数低于所述第一用户的新远程选择分数,停止阻断对另一用户的后续响应。
10.如权利要求1所述的智能助理计算机,其特征在于,所述指令能够进一步被执行以:为没有接收到其远程选择分数的任何其他用户降低所述阻断阈值。
11.如权利要求1所述的智能助理计算机,其特征在于,所述指令能够进一步被执行以:响应于识别出所述第一用户说出的语音中的关键词,对所述第一用户作出响应。
12.如权利要求1所述的智能助理计算机,其特征在于,所述指令能够进一步被执行以:响应于所述另一用户未被标识,调整所述阻断阈值。
13.如权利要求1所述的智能助理计算机,其特征在于,所述另一智能助理计算机与所述智能助理计算机相比更靠近所述第一用户。
14.如权利要求1所述的智能助理计算机,其特征在于,所述指令能够进一步被执行以:根据时间衰减函数来降低所述阻断阈值。
15.如权利要求14所述的智能助理计算机,其特征在于,所述指令能够进一步被执行以:基于所述第一用户的解除合作度量以及所述另一用户的合作度量中的一者或两者,根据时间衰减函数来降低所述阻断阈值。
CN201880011917.8A 2017-02-14 2018-02-09 多用户智能辅助 CN110383235A (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
US201762459020P true 2017-02-14 2017-02-14
US62/459,020 2017-02-14
US201762482165P true 2017-04-05 2017-04-05
US62/482,165 2017-04-05
US15/657,822 US20180233142A1 (en) 2017-02-14 2017-07-24 Multi-user intelligent assistance
US15/657,822 2017-07-24
PCT/US2018/017512 WO2018152011A1 (en) 2017-02-14 2018-02-09 Multi-user intelligent assistance

Publications (1)

Publication Number Publication Date
CN110383235A true CN110383235A (zh) 2019-10-25

Family

ID=63104544

Family Applications (10)

Application Number Title Priority Date Filing Date
CN201880011716.8A CN110291489A (zh) 2017-02-14 2018-02-07 计算上高效的人类标识智能助理计算机
CN201880011578.3A CN110291760A (zh) 2017-02-14 2018-02-07 用于导出用户意图的解析器
CN201880011970.8A CN110313153A (zh) 2017-02-14 2018-02-09 智能数字助理系统
CN201880011965.7A CN110326041A (zh) 2017-02-14 2018-02-09 用于智能助理的自然语言交互
CN201880011967.6A CN110301118A (zh) 2017-02-14 2018-02-09 用于智能助理计算设备的位置校准
CN201880011946.4A CN110313152A (zh) 2017-02-14 2018-02-09 用于智能助理计算机的用户注册
CN201880012028.3A CN110313154A (zh) 2017-02-14 2018-02-09 具有基于意图的信息辨析的智能助理
CN201880011917.8A CN110383235A (zh) 2017-02-14 2018-02-09 多用户智能辅助
CN201880011885.1A CN110326261A (zh) 2017-02-14 2018-02-09 确定音频输入中的说话者改变
CN201880011910.6A CN110300946A (zh) 2017-02-14 2018-02-09 智能助理

Family Applications Before (7)

Application Number Title Priority Date Filing Date
CN201880011716.8A CN110291489A (zh) 2017-02-14 2018-02-07 计算上高效的人类标识智能助理计算机
CN201880011578.3A CN110291760A (zh) 2017-02-14 2018-02-07 用于导出用户意图的解析器
CN201880011970.8A CN110313153A (zh) 2017-02-14 2018-02-09 智能数字助理系统
CN201880011965.7A CN110326041A (zh) 2017-02-14 2018-02-09 用于智能助理的自然语言交互
CN201880011967.6A CN110301118A (zh) 2017-02-14 2018-02-09 用于智能助理计算设备的位置校准
CN201880011946.4A CN110313152A (zh) 2017-02-14 2018-02-09 用于智能助理计算机的用户注册
CN201880012028.3A CN110313154A (zh) 2017-02-14 2018-02-09 具有基于意图的信息辨析的智能助理

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201880011885.1A CN110326261A (zh) 2017-02-14 2018-02-09 确定音频输入中的说话者改变
CN201880011910.6A CN110300946A (zh) 2017-02-14 2018-02-09 智能助理

Country Status (4)

Country Link
US (16) US10467509B2 (zh)
EP (8) EP3583485A1 (zh)
CN (10) CN110291489A (zh)
WO (12) WO2018151979A1 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006004197A1 (de) * 2006-01-26 2007-08-09 Klett, Rolf, Dr.Dr. Verfahren und Vorrichtung zur Aufzeichnung von Körperbewegungen
US10546575B2 (en) 2016-12-14 2020-01-28 International Business Machines Corporation Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
US10249292B2 (en) * 2016-12-14 2019-04-02 International Business Machines Corporation Using long short-term memory recurrent neural network for speaker diarization segmentation
US10514827B2 (en) * 2017-02-10 2019-12-24 Microsoft Technology Licensing, Llc Resequencing actionable task structures for transforming data
US10481766B2 (en) * 2017-02-10 2019-11-19 Microsoft Technology Licensing, Llc Interfaces and methods for generating and applying actionable task structures
US10521448B2 (en) * 2017-02-10 2019-12-31 Microsoft Technology Licensing, Llc Application of actionable task structures to disparate data sets for transforming data in the disparate data sets
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US20180332169A1 (en) * 2017-05-09 2018-11-15 Microsoft Technology Licensing, Llc Personalization of virtual assistant skills based on user profile information
US20180367669A1 (en) * 2017-06-20 2018-12-20 Lenovo (Singapore) Pte. Ltd. Input during conversational session
US10339922B2 (en) * 2017-08-23 2019-07-02 Sap Se Thematic segmentation of long content using deep learning and contextual cues
US10515625B1 (en) * 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
US10224033B1 (en) * 2017-09-05 2019-03-05 Motorola Solutions, Inc. Associating a user voice query with head direction
US10537244B1 (en) * 2017-09-05 2020-01-21 Amazon Technologies, Inc. Using eye tracking to label computer vision datasets
US10623199B2 (en) * 2017-09-07 2020-04-14 Lenovo (Singapore) Pte Ltd Outputting audio based on user location
US10438594B2 (en) * 2017-09-08 2019-10-08 Amazon Technologies, Inc. Administration of privileges by speech for voice assistant system
US10567515B1 (en) * 2017-10-26 2020-02-18 Amazon Technologies, Inc. Speech processing performed with respect to first and second user profiles in a dialog session
US10546003B2 (en) * 2017-11-09 2020-01-28 Adobe Inc. Intelligent analytics interface
KR20190067582A (ko) * 2017-12-07 2019-06-17 현대자동차주식회사 사용자의 발화 에러 보정 장치 및 그 방법
US10503468B2 (en) * 2017-12-08 2019-12-10 Amazon Technologies, Inc. Voice enabling applications
US10402986B2 (en) * 2017-12-20 2019-09-03 Facebook, Inc. Unsupervised video segmentation
US10431207B2 (en) * 2018-02-06 2019-10-01 Robert Bosch Gmbh Methods and systems for intent detection and slot filling in spoken dialogue systems
US20190251961A1 (en) * 2018-02-15 2019-08-15 Lenovo (Singapore) Pte. Ltd. Transcription of audio communication to identify command to device
US20190259388A1 (en) * 2018-02-21 2019-08-22 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
TWI682292B (zh) * 2018-08-24 2020-01-11 內秋應智能科技股份有限公司 遞迴式整合對話之智能語音裝置
EP3620909A1 (en) * 2018-09-06 2020-03-11 Infineon Technologies AG Method for a virtual assistant, data processing system hosting a virtual assistant for a user and agent device for enabling a user to interact with a virtual assistant
EP3647910A1 (en) * 2018-10-30 2020-05-06 Infineon Technologies AG An improved apparatus for user interaction
US10594837B1 (en) * 2018-11-02 2020-03-17 International Business Machines Corporation Predictive service scaling for conversational computing

Family Cites Families (215)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073101A (en) 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US8965460B1 (en) 2004-01-30 2015-02-24 Ip Holdings, Inc. Image and augmented reality based networks using mobile devices and intelligent electronic glasses
WO1999004286A1 (en) 1997-07-18 1999-01-28 Kohler Company Bathroom fixture using radar detector having leaky transmission line to control fluid flow
US6119088A (en) 1998-03-03 2000-09-12 Ciluffo; Gary Appliance control programmer using voice recognition
US6574601B1 (en) 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6332122B1 (en) 1999-06-23 2001-12-18 International Business Machines Corporation Transcription system for multiple speakers, using and establishing identification
US7050110B1 (en) 1999-10-29 2006-05-23 Intel Corporation Method and system for generating annotations video
US6727925B1 (en) 1999-12-20 2004-04-27 Michelle Lyn Bourdelais Browser-based room designer
GB9930731D0 (en) 1999-12-22 2000-02-16 Ibm Voice processing apparatus
US8374875B2 (en) 2000-01-31 2013-02-12 Intel Corporation Providing programming information in response to spoken requests
US6873953B1 (en) 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
GB0023181D0 (en) 2000-09-20 2000-11-01 Koninkl Philips Electronics Nv Message handover for networked beacons
US6728679B1 (en) 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
US7610365B1 (en) 2001-02-14 2009-10-27 International Business Machines Corporation Automatic relevance-based preloading of relevant information in portable devices
US7171365B2 (en) 2001-02-16 2007-01-30 International Business Machines Corporation Tracking time using portable recorders and speech recognition
US7130446B2 (en) 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US7019749B2 (en) 2001-12-28 2006-03-28 Microsoft Corporation Conversational interface agent
MXPA04006312A (es) 2001-12-28 2004-11-10 Simdesk Technologies Inc Sistema de mensajes instantaneos.
US8374879B2 (en) 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
EP1376999A1 (en) 2002-06-21 2004-01-02 BRITISH TELECOMMUNICATIONS public limited company Spoken alpha-numeric sequence entry system with repair mode
US7803050B2 (en) 2002-07-27 2010-09-28 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
US7330566B2 (en) 2003-05-15 2008-02-12 Microsoft Corporation Video-based gait recognition
US7475010B2 (en) 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
US8041566B2 (en) 2003-11-21 2011-10-18 Nuance Communications Austria Gmbh Topic specific models for text formatting and speech recognition
JP2005202014A (ja) 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US7460052B2 (en) 2004-01-20 2008-12-02 Bae Systems Information And Electronic Systems Integration Inc. Multiple frequency through-the-wall motion detection and ranging using a difference-based estimation technique
US7061366B2 (en) 2004-04-12 2006-06-13 Microsoft Corporation Finding location and ranging explorer
US7071867B2 (en) 2004-06-25 2006-07-04 The Boeing Company Method, apparatus, and computer program product for radar detection of moving target
WO2007018523A2 (en) 2004-07-28 2007-02-15 Sarnoff Corporation Method and apparatus for stereo, multi-camera tracking and rf and video track fusion
WO2006034135A2 (en) 2004-09-17 2006-03-30 Proximex Adaptive multi-modal integrated biometric identification detection and surveillance system
US7716056B2 (en) 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
US8494855B1 (en) 2004-10-06 2013-07-23 West Interactive Corporation Ii Method, system, and computer readable medium for comparing phonetic similarity of return words to resolve ambiguities during voice recognition
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
KR20070016280A (ko) 2005-08-02 2007-02-08 주식회사 팬택 이동 통신 단말기의 카메라 장치 및 그 조도제어방법
US7957975B2 (en) 2005-08-09 2011-06-07 Mobile Voice Control, LLC Voice controlled wireless communication device system
US7319908B2 (en) 2005-10-28 2008-01-15 Microsoft Corporation Multi-modal device power/mode management
US20070152157A1 (en) 2005-11-04 2007-07-05 Raydon Corporation Simulation arena entity tracking system
JP2007220045A (ja) 2006-02-20 2007-08-30 Toshiba Corp コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20080119716A1 (en) 2006-05-17 2008-05-22 Olga Boric-Lubecke Determining presence and/or physiological motion of one or more subjects with quadrature doppler radar receiver systems
US7916897B2 (en) * 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
US8214219B2 (en) 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
US7822605B2 (en) 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
US8139945B1 (en) 2007-01-20 2012-03-20 Centrak, Inc. Methods and systems for synchronized infrared real time location
WO2008089508A1 (en) 2007-01-22 2008-07-31 Auraya Pty Ltd Voice recognition system and methods
WO2008106655A1 (en) 2007-03-01 2008-09-04 Apapx, Inc. System and method for dynamic learning
US7518502B2 (en) 2007-05-24 2009-04-14 Smith & Nephew, Inc. System and method for tracking surgical assets
US8180029B2 (en) 2007-06-28 2012-05-15 Voxer Ip Llc Telecommunication and multimedia management method and apparatus
US8165087B2 (en) 2007-06-30 2012-04-24 Microsoft Corporation Location context service handoff
US8712758B2 (en) 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8644842B2 (en) 2007-09-04 2014-02-04 Nokia Corporation Personal augmented reality advertising
US8902227B2 (en) 2007-09-10 2014-12-02 Sony Computer Entertainment America Llc Selective interactive mapping of real-world objects to create interactive virtual-world objects
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8265252B2 (en) 2008-04-11 2012-09-11 Palo Alto Research Center Incorporated System and method for facilitating cognitive processing of simultaneous remote voice conversations
US20090319269A1 (en) 2008-06-24 2009-12-24 Hagai Aronowitz Method of Trainable Speaker Diarization
US8213689B2 (en) 2008-07-14 2012-07-03 Google Inc. Method and system for automated annotation of persons in video content
US8639666B2 (en) 2008-09-05 2014-01-28 Cast Group Of Companies Inc. System and method for real-time environment tracking and coordination
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20100100851A1 (en) 2008-10-16 2010-04-22 International Business Machines Corporation Mapping a real-world object in a personal virtual world
US20100195906A1 (en) 2009-02-03 2010-08-05 Aricent Inc. Automatic image enhancement
US9031216B1 (en) 2009-03-05 2015-05-12 Google Inc. In-conversation search
US20100226487A1 (en) 2009-03-09 2010-09-09 Polycom, Inc. Method & apparatus for controlling the state of a communication system
US8639762B2 (en) 2009-03-23 2014-01-28 Google Inc. Providing access to a conversation in a hosted conversation system
US20120265535A1 (en) 2009-09-07 2012-10-18 Donald Ray Bryant-Rich Personal voice operated reminder system
EP2947476B1 (en) 2009-12-18 2018-08-15 L-3 Communications Cyterra Corporation Moving entity detection
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8676581B2 (en) 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8683387B2 (en) 2010-03-03 2014-03-25 Cast Group Of Companies Inc. System and method for visualizing virtual objects on a mobile device
KR101135186B1 (ko) 2010-03-03 2012-04-16 광주과학기술원 상호작용형 실시간 증강현실 시스템과 그 방법, 및 상기 방법을 구현하는 프로그램이 기록된 기록매체
US8543402B1 (en) 2010-04-30 2013-09-24 The Intellisis Corporation Speaker segmentation in noisy conversational speech
US9113190B2 (en) 2010-06-04 2015-08-18 Microsoft Technology Licensing, Llc Controlling power levels of electronic devices through user interaction
US9134399B2 (en) 2010-07-28 2015-09-15 International Business Machines Corporation Attribute-based person tracking across multiple cameras
US8762150B2 (en) 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
GB201020138D0 (en) 2010-11-29 2011-01-12 Third Sight Ltd A memory aid device
US9842299B2 (en) 2011-01-25 2017-12-12 Telepathy Labs, Inc. Distributed, predictive, dichotomous decision engine for an electronic personal assistant
US8903128B2 (en) 2011-02-16 2014-12-02 Siemens Aktiengesellschaft Object recognition for security screening and long range video surveillance
EP2684059B1 (en) * 2011-03-10 2015-08-26 Shockwatch, Inc. Impact indicator
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
PL394570A1 (xx) 2011-04-15 2012-10-22 Robotics Inventions Spólka Z Ograniczona Odpowiedzialnoscia Robot do podlóg podniesionych i sposób serwisowania podlóg podniesionych
US20120268604A1 (en) 2011-04-25 2012-10-25 Evan Tree Dummy security device that mimics an active security device
US8453402B2 (en) 2011-04-29 2013-06-04 Rong-Jun Huang Frame unit of a curtain wall
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8834958B2 (en) * 2011-07-08 2014-09-16 The United States Of America As Represented By The Secretary Of The Army Process of making negative electrode
US9009142B2 (en) 2011-07-27 2015-04-14 Google Inc. Index entries configured to support both conversation and message based searching
US9495331B2 (en) 2011-09-19 2016-11-15 Personetics Technologies Ltd. Advanced system and method for automated-context-aware-dialog with human users
US8401569B1 (en) 2011-09-23 2013-03-19 Sonic Notify, Inc. System effective to demodulate a modulated code and provide content to a user
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9268406B2 (en) 2011-09-30 2016-02-23 Microsoft Technology Licensing, Llc Virtual spectator experience with a personal audio/visual apparatus
US8340975B1 (en) 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
WO2013061268A2 (en) 2011-10-26 2013-05-02 Ariel-University Research And Development Company, Ltd. Method and device for accurate location determination in a specified area
KR101964223B1 (ko) 2011-10-28 2019-04-01 매직 립, 인코포레이티드 증강 및 가상 현실을 위한 시스템 및 방법
US8358903B1 (en) 2011-10-31 2013-01-22 iQuest, Inc. Systems and methods for recording information on a mobile computing device
US9389681B2 (en) 2011-12-19 2016-07-12 Microsoft Technology Licensing, Llc Sensor fusion interface for multiple sensor input
EP2798596A4 (en) 2011-12-30 2015-08-26 Intel Corp Range based user identification and profile determination
US8752145B1 (en) 2011-12-30 2014-06-10 Emc Corporation Biometric authentication with smart mobile device
US8693731B2 (en) 2012-01-17 2014-04-08 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging
US8913103B1 (en) 2012-02-01 2014-12-16 Google Inc. Method and apparatus for focus-of-attention control
US20130212501A1 (en) 2012-02-10 2013-08-15 Glen J. Anderson Perceptual computing with conversational agent
US9204095B2 (en) 2012-05-04 2015-12-01 Hong Jiang Instant communications system having established communication channels between communication devices
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US20130342568A1 (en) 2012-06-20 2013-12-26 Tony Ambrus Low light scene augmentation
US9424233B2 (en) 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US8953757B2 (en) 2012-08-06 2015-02-10 Angel.Com Incorporated Preloading contextual information for applications using a conversation assistant
AU2013221923A1 (en) 2012-08-28 2014-03-20 Solink Corporation Transaction verification system
US9424840B1 (en) 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9491167B2 (en) 2012-09-11 2016-11-08 Auraya Pty Ltd Voice authentication system and method
JP6066471B2 (ja) 2012-10-12 2017-01-25 本田技研工業株式会社 対話システム及び対話システム向け発話の判別方法
KR101709187B1 (ko) 2012-11-14 2017-02-23 한국전자통신연구원 계층적 대화 태스크 라이브러리를 이용한 이중 대화관리 기반 음성대화시스템
US9085303B2 (en) 2012-11-15 2015-07-21 Sri International Vehicle personal assistant
US9633652B2 (en) 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
US9070366B1 (en) 2012-12-19 2015-06-30 Amazon Technologies, Inc. Architecture for multi-domain utterance processing
US20140180629A1 (en) 2012-12-22 2014-06-26 Ecole Polytechnique Federale De Lausanne Epfl Method and a system for determining the geometry and/or the localization of an object
US9466286B1 (en) 2013-01-16 2016-10-11 Amazong Technologies, Inc. Transitioning an electronic device between device states
DE102013001219B4 (de) 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
US9761247B2 (en) 2013-01-31 2017-09-12 Microsoft Technology Licensing, Llc Prosodic and lexical addressee detection
US9292492B2 (en) 2013-02-04 2016-03-22 Microsoft Technology Licensing, Llc Scaling statistical language understanding systems across domains and intents
US9538114B2 (en) 2013-02-22 2017-01-03 The Directv Group, Inc. Method and system for improving responsiveness of a voice recognition system
US9171542B2 (en) 2013-03-11 2015-10-27 Nuance Communications, Inc. Anaphora resolution using linguisitic cues, dialogue context, and general knowledge
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR102014665B1 (ko) 2013-03-15 2019-08-26 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
EP2984599A4 (en) 2013-04-12 2016-11-30 Sciometrics Llc The identity caddy: a tool for real-time determination of identity in the mobile environment
US20160086018A1 (en) 2013-04-26 2016-03-24 West Virginia High Technology Consortium Foundation, Inc. Facial recognition method and apparatus
US9123330B1 (en) 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
US9472205B2 (en) 2013-05-06 2016-10-18 Honeywell International Inc. Device voice recognition systems and methods
CN109584868A (zh) 2013-05-20 2019-04-05 英特尔公司 用于虚拟个人助理系统的自然人-计算机交互
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9307355B2 (en) 2013-06-27 2016-04-05 Bluecats Australia Pty Limited Location enabled service for enhancement of smart device and enterprise software applications
US9871865B2 (en) 2013-07-11 2018-01-16 Neura, Inc. Physical environment profiling through internet of things integration platform
WO2015008162A2 (en) 2013-07-15 2015-01-22 Vocavu Solutions Ltd. Systems and methods for textual content creation from sources of audio that contain speech
US9426598B2 (en) 2013-07-15 2016-08-23 Dts, Inc. Spatial calibration of surround sound systems including listener position estimation
US9460722B2 (en) 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
US9431014B2 (en) 2013-07-25 2016-08-30 Haier Us Appliance Solutions, Inc. Intelligent placement of appliance response to voice command
KR20150012918A (ko) 2013-07-26 2015-02-04 엘지전자 주식회사 전자기기 및 그것의 제어 방법
US9558749B1 (en) 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
JP6468725B2 (ja) 2013-08-05 2019-02-13 キヤノン株式会社 画像処理装置、画像処理方法、及びコンピュータプログラム
KR20150041972A (ko) 2013-10-10 2015-04-20 삼성전자주식회사 디스플레이 장치 및 이의 절전 처리 방법
US9892723B2 (en) 2013-11-25 2018-02-13 Rovi Guides, Inc. Systems and methods for presenting social network communications in audible form based on user engagement with a user device
US10096316B2 (en) 2013-11-27 2018-10-09 Sri International Sharing intents to provide virtual assistance in a multi-person dialog
US20150162000A1 (en) 2013-12-10 2015-06-11 Harman International Industries, Incorporated Context aware, proactive digital assistant
US20150172285A1 (en) 2013-12-17 2015-06-18 Mei Ling LO Method for Accessing E-Mail System
CN105556594B (zh) 2013-12-26 2019-05-17 松下知识产权经营株式会社 声音识别处理装置、声音识别处理方法以及显示装置
US10360907B2 (en) 2014-01-14 2019-07-23 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9311932B2 (en) 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
GB2522922A (en) 2014-02-11 2015-08-12 High Mead Developments Ltd Electronic guard systems
US9318112B2 (en) 2014-02-14 2016-04-19 Google Inc. Recognizing speech in the presence of additional audio
US9293141B2 (en) 2014-03-27 2016-03-22 Storz Endoskop Produktions Gmbh Multi-user voice control system for medical devices
US20170039602A1 (en) 2014-04-24 2017-02-09 Singapore Telecommunications, Ltd. Knowledge Model for Personalization and Location Services
US10235567B2 (en) 2014-05-15 2019-03-19 Fenwal, Inc. Head mounted display device for use in a medical facility
US20150340033A1 (en) 2014-05-20 2015-11-26 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
EP2950510B1 (en) 2014-05-28 2018-07-11 Samsung Electronics Co., Ltd Apparatus and method for controlling internet of things devices
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
DE112015003382B4 (de) 2014-07-23 2018-09-13 Mitsubishi Electric Corporation Spracherkennungseinrichtung und Spracherkennungsverfahren
US9508341B1 (en) 2014-09-03 2016-11-29 Amazon Technologies, Inc. Active learning for lexical annotations
US10216996B2 (en) 2014-09-29 2019-02-26 Sony Interactive Entertainment Inc. Schemes for retrieving and associating content items with real-world objects using augmented reality and object recognition
US9378740B1 (en) 2014-09-30 2016-06-28 Amazon Technologies, Inc. Command suggestions during automatic speech recognition
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9507977B1 (en) 2014-11-03 2016-11-29 Vsn Technologies, Inc. Enabling proximate host assisted location tracking of a short range wireless low power locator tag
EP3021178B1 (en) 2014-11-14 2020-02-19 Caterpillar Inc. System using radar apparatus for assisting a user of a machine of a kind comprising a body and an implement
KR20160062294A (ko) 2014-11-24 2016-06-02 삼성전자주식회사 지도 서비스를 제공하는 전자 장치 및 방법
WO2016084071A1 (en) 2014-11-24 2016-06-02 Isityou Ltd. Systems and methods for recognition of faces e.g. from mobile-device-generated images of faces
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US9626352B2 (en) 2014-12-02 2017-04-18 International Business Machines Corporation Inter thread anaphora resolution
US10091015B2 (en) 2014-12-16 2018-10-02 Microsoft Technology Licensing, Llc 3D mapping of internet of things devices
US9690361B2 (en) 2014-12-24 2017-06-27 Intel Corporation Low-power context-aware control for analog frontend
US9959129B2 (en) 2015-01-09 2018-05-01 Microsoft Technology Licensing, Llc Headless task completion within digital personal assistants
US20160202957A1 (en) 2015-01-13 2016-07-14 Microsoft Technology Licensing, Llc Reactive agent development environment
US10169535B2 (en) 2015-01-16 2019-01-01 The University Of Maryland, Baltimore County Annotation of endoscopic video using gesture and voice commands
EP3257236A1 (en) 2015-02-09 2017-12-20 Dolby Laboratories Licensing Corporation Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants
US9691391B2 (en) 2015-02-10 2017-06-27 Knuedge Incorporated Clustering of audio files using graphs
US9769564B2 (en) 2015-02-11 2017-09-19 Google Inc. Methods, systems, and media for ambient background noise modification based on mood and/or behavior information
US10133538B2 (en) 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
US20180074785A1 (en) 2015-03-31 2018-03-15 Sony Corporation Information processing device, control method, and program
GB201505864D0 (en) 2015-04-07 2015-05-20 Ipv Ltd Live markers
US9300925B1 (en) 2015-05-04 2016-03-29 Jack Ke Zhang Managing multi-user access to controlled locations in a facility
US10097973B2 (en) 2015-05-27 2018-10-09 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
WO2016205419A1 (en) 2015-06-15 2016-12-22 Flir Systems Ab Contrast-enhanced combined image generation systems and methods
US10178301B1 (en) 2015-06-25 2019-01-08 Amazon Technologies, Inc. User identification based on voice and face
US10206068B2 (en) 2015-07-09 2019-02-12 OneMarket Network LLC Systems and methods to determine a location of a mobile device
US20170032021A1 (en) 2015-07-27 2017-02-02 Investor's Forum Chat room for managing multiple conversation streams
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
US9940934B2 (en) 2015-11-18 2018-04-10 Uniphone Software Systems Adaptive voice authentication system and method
US20170169476A1 (en) 2015-11-20 2017-06-15 Jagadeshwar Nomula System for assisting in marketing
US20170078573A1 (en) 2015-11-27 2017-03-16 Mediatek Inc. Adaptive Power Saving For Multi-Frame Processing
WO2017112813A1 (en) 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9912977B2 (en) 2016-02-04 2018-03-06 The Directv Group, Inc. Method and system for controlling a user receiving device using voice commands
US9898250B1 (en) 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
US9858927B2 (en) 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US20190057703A1 (en) 2016-02-29 2019-02-21 Faraday&Future Inc. Voice assistance system for devices of an ecosystem
US20170249309A1 (en) 2016-02-29 2017-08-31 Microsoft Technology Licensing, Llc Interpreting and Resolving Conditional Natural Language Queries
KR20170110919A (ko) 2016-03-24 2017-10-12 삼성전자주식회사 지능형 전자 장치 및 그 동작 방법
US9972322B2 (en) 2016-03-29 2018-05-15 Intel Corporation Speaker recognition using adaptive thresholding
US9749583B1 (en) 2016-03-31 2017-08-29 Amazon Technologies, Inc. Location based device grouping with voice control
US20170315208A1 (en) 2016-05-02 2017-11-02 Mojix, Inc. Joint Entity and Object Tracking Using an RFID and Detection Network
US10430426B2 (en) 2016-05-03 2019-10-01 International Business Machines Corporation Response effectiveness determination in a question/answer system
US20170351749A1 (en) 2016-06-03 2017-12-07 Microsoft Technology Licensing, Llc Relation extraction across sentence boundaries
US9584946B1 (en) 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
JP2018008489A (ja) * 2016-07-15 2018-01-18 富士ゼロックス株式会社 情報処理装置、情報処理システム、及び情報処理プログラム
US10462545B2 (en) 2016-07-27 2019-10-29 Amazon Technologies, Inc. Voice activated electronic device
US10026403B2 (en) 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
US10455200B2 (en) 2016-09-26 2019-10-22 3 Strike, Llc Storage container with inventory control
US10283138B2 (en) 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
US10134396B2 (en) 2016-12-07 2018-11-20 Google Llc Preventing of audio attacks
US10276149B1 (en) 2016-12-21 2019-04-30 Amazon Technologies, Inc. Dynamic text-to-speech output
US20180218080A1 (en) 2017-01-30 2018-08-02 Adobe Systems Incorporated Conversational agent for search
US20180293221A1 (en) 2017-02-14 2018-10-11 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
US20180232571A1 (en) 2017-02-14 2018-08-16 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US20180260680A1 (en) 2017-02-14 2018-09-13 Microsoft Technology Licensing, Llc Intelligent device user interactions

Also Published As

Publication number Publication date
US20200012906A1 (en) 2020-01-09
US20180233142A1 (en) 2018-08-16
US20180232563A1 (en) 2018-08-16
CN110291760A (zh) 2019-09-27
WO2018152008A1 (en) 2018-08-23
WO2018152011A1 (en) 2018-08-23
CN110313153A (zh) 2019-10-08
EP3583497A1 (en) 2019-12-25
EP3583747A1 (en) 2019-12-25
US20180233132A1 (en) 2018-08-16
US20180233139A1 (en) 2018-08-16
WO2018152016A1 (en) 2018-08-23
US10467509B2 (en) 2019-11-05
WO2018152010A1 (en) 2018-08-23
US10621478B2 (en) 2020-04-14
US20180232201A1 (en) 2018-08-16
CN110313154A (zh) 2019-10-08
US10496905B2 (en) 2019-12-03
EP3583595A1 (en) 2019-12-25
CN110301118A (zh) 2019-10-01
CN110326261A (zh) 2019-10-11
CN110326041A (zh) 2019-10-11
US20180232902A1 (en) 2018-08-16
US10579912B2 (en) 2020-03-03
CN110300946A (zh) 2019-10-01
WO2018152013A1 (en) 2018-08-23
US20200042839A1 (en) 2020-02-06
WO2018152006A1 (en) 2018-08-23
US10628714B2 (en) 2020-04-21
EP3583485A1 (en) 2019-12-25
US10460215B2 (en) 2019-10-29
CN110313152A (zh) 2019-10-08
US20180233140A1 (en) 2018-08-16
US20180233141A1 (en) 2018-08-16
CN110291489A (zh) 2019-09-27
US10467510B2 (en) 2019-11-05
US20200104653A1 (en) 2020-04-02
WO2018152012A1 (en) 2018-08-23
US20180232645A1 (en) 2018-08-16
WO2018151979A1 (en) 2018-08-23
WO2018152014A1 (en) 2018-08-23
US20180231653A1 (en) 2018-08-16
US20180232662A1 (en) 2018-08-16
EP3583746A1 (en) 2019-12-25
EP3583489A1 (en) 2019-12-25
WO2018152007A1 (en) 2018-08-23
WO2018151980A1 (en) 2018-08-23
EP3583748A1 (en) 2019-12-25
WO2018152009A1 (en) 2018-08-23
EP3583749A1 (en) 2019-12-25
US20180232608A1 (en) 2018-08-16
US20180233145A1 (en) 2018-08-16

Similar Documents

Publication Publication Date Title
AU2015202943B2 (en) Reducing the need for manual start/end-pointing and trigger phrases
US10453443B2 (en) Providing an indication of the suitability of speech recognition
US9978290B2 (en) Identifying a change in a home environment
JP6577642B2 (ja) 自動車又は携帯電子装置を使用した能動的且つ自動的なパーソナルアシスタンスを提供するコンピュータベースの方法及びシステム
US20160092725A1 (en) Warning a user about adverse behaviors of others within an environment based on a 3d captured image stream
US10460215B2 (en) Natural language interaction for smart assistant
JP6700785B2 (ja) 人工知能に基づく知能ロボットの制御システム、方法及び装置
KR20160034243A (ko) 지속적인 동반 디바이스를 제공하기 위한 장치 및 방법들
CN105144202B (zh) 基于人类‑机器人交互来调节机器人行为
CN103650035B (zh) 经由社交图谱、语音模型和用户情境识别接近移动装置用户的人
US9274744B2 (en) Relative position-inclusive device interfaces
US8700392B1 (en) Speech-inclusive device interfaces
US10056081B2 (en) Control method, controller, and non-transitory recording medium
US6583723B2 (en) Human interface system using a plurality of sensors
CN105488957B (zh) 疲劳驾驶检测方法及装置
Bohus et al. Directions robot: in-the-wild experiences and lessons learned
US10440489B2 (en) Generating a sound localization point (SLP) where binaural sound externally localizes to a person during a telephone call
US8660970B1 (en) Passive learning and autonomously interactive system for leveraging user knowledge in networked environments
CN1894740B (zh) 信息处理系统、信息处理方法以及信息处理用程序
CN105009026B (zh) 在环境中控制硬件的机器
US9781106B1 (en) Method for modeling user possession of mobile device for user authentication framework
US20130100268A1 (en) Emergency detection and response system and method
US7725547B2 (en) Informing a user of gestures made by others out of the user's line of sight
JP2014522053A (ja) テレプレゼンスセッションを実行するためのシステム、方法及び記憶媒体
US7792328B2 (en) Warning a vehicle operator of unsafe operation behavior based on a 3D captured image stream

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination