CN111128146A - 用于用户交互的改进设备 - Google Patents
用于用户交互的改进设备 Download PDFInfo
- Publication number
- CN111128146A CN111128146A CN201911044913.2A CN201911044913A CN111128146A CN 111128146 A CN111128146 A CN 111128146A CN 201911044913 A CN201911044913 A CN 201911044913A CN 111128146 A CN111128146 A CN 111128146A
- Authority
- CN
- China
- Prior art keywords
- user
- sensor
- identified
- interaction
- user interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/66—Radar-tracking systems; Analogous systems
- G01S13/72—Radar-tracking systems; Analogous systems for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/66—Radar-tracking systems; Analogous systems
- G01S13/72—Radar-tracking systems; Analogous systems for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar
- G01S13/723—Radar-tracking systems; Analogous systems for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar by using numerical data
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/86—Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/86—Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
- G01S13/867—Combination of radar systems with cameras
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/003—Transmission of data between radar, sonar or lidar systems and remote stations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/86—Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
- G01S13/865—Combination of radar systems with lidar systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/87—Combinations of radar systems, e.g. primary radar and secondary radar
- G01S13/878—Combination of several spaced transmitters or receivers of known location for determining the position of a transponder or a reflector
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Abstract
本公开涉及用于用户交互的改进的设备。例如,一个实施例涉及一种设备,其中该设备被配置为使用第一传感器来识别该设备的用户,以获取被临时识别的用户,其中该设备被配置为:使用不同于第一传感器的第二传感器来空间地跟踪被识别的用户,以便更新分配给被识别的用户的位置,从而获取被识别和定位的用户,并且该设备被配置为通过确定是否通过被识别和定位的用户执行用户交互,以将用户交互链接到被识别和定位的用户。
Description
技术领域
本发明涉及智能助理解决方案中改进用户交互的领域,并且具体地,涉及智能助理解决方案中改进用户上下文感知的领域。
背景技术
智能助理系统的下一发展阶段是获得越来越多的上下文感知。目标是这些智能助理系统知道谁在输入、用户在哪里和为什么要输入等等,以基于上下文信息给出尽可能好的反馈。这一点很重要,因为最终目标是将人机通信提升到真正的人机对话水平。例如,在不说出姓名或有意切换到特定用户配置文件的情况下,系统应将特定用户的备忘准确地存储在其用户备忘中,或者链接基于语音的日历条目,而不在讲话的用户的日历中明确提及该条目。例如,当今常见的智能家庭助理系统大多依赖于基于语音的用户通信。因此,经由说话人识别算法,根本无法或仅仅从音频输入信号中提取出关于谁在说话的非常重要的上下文信息。尽管说话人识别是连续的并且可能与文本无关,特别是在远场源位置变化过大的情况下,仍然是复杂且容易出错的。
常见的智能助理解决方案不会独立地将用户上下文链接到给定输入或一些更高级的系统(如特定的智能扬声器)使用特定于文本的训练唤醒关键词来指定用户。因此,它们可以在发出唤醒命令后将输入临时链接到被识别用户,或者需要关于用户的信息作为附加外部输入。
这种实现在现实生活情况下会产生失败,因为有时关键词被声明并且用户被识别,但在下一扬声阶段,另一个人会继续进行。机器无法识别说话人已更换。
本发明旨在改善这种情况。
发明内容
一个实施例涉及一种设备,该设备被配置为使用第一传感器来识别该设备的用户,以获取被临时识别的用户,其中该设备被配置为使用不同于第一传感器的第二传感器来空间地跟踪被识别的用户,以便更新分配给被识别的用户的位置,从而获取被识别和定位的用户,并且其中该设备被配置为通过确定是否通过被识别和定位的用户执行用户交互,将用户交互链接到被识别和定位的用户。
一个实施例涉及一种方法,该方法包括使用第一传感器来识别设备的用户以获取被临时识别的用户的步骤,其中该方法包括以下步骤:使用不同于第一传感器的第二传感器来空间地跟踪被识别的用户,以便更新分配给被识别的用户的位置,从而获取被识别和定位的用户,并且其中该方法包括通过确定是否通过被识别和定位的用户执行用户交互来将用户交互链接到被识别和定位的用户的步骤。
附图说明
通过阅读以下通过参考附图的非限制性示例给出的实施例的详细描述,本发明的进一步特征和优点将变得更加明显,其中:
图1示出了根据一个实施例的设备的示意框图;
图2示出了根据另一实施例的设备的示意框图;
图3示出了根据一个实施例的用于维护智能助理系统的用户被识别和定位的概念的示意图;
图4示出了根据一个实施例的在智能家庭助理中与雷达系统组合的麦克风波束形成传感器系统的示意框图;以及
图5示出了根据一个实施例的方法的流程图。
具体实施方式
在下面的描述中,阐述了多个细节以提供对本发明的实施例更彻底的解释。然而,本领域技术人员应理解,本发明的实施例可以在没有这些具体细节的情况下实施。在其它示例中,为了避免模糊本发明的实施例,以框图形式而不是详细地示出已知结构和设备。此外,除非另有特别说明,否则下文描述的不同实施例的特征可以彼此组合。
图1示出了根据一个实施例的设备100的示意框图。设备100被配置为使用第一传感器102来识别设备100的用户104,以获取被临时识别的用户。此外,设备100被配置为使用不同于第一传感器102的第二传感器106来空间地跟踪被识别的用户104,以便更新分配给被识别的用户104的位置110、110’,从而获取被识别和定位的用户。此外,设备100被配置为通过确定是否通过被识别和定位的用户执行用户交互112来将用户交互112链接到被识别和定位的用户104。
根据实施例,两个不同的传感器102、106用于识别和跟踪设备100的用户104,从而保持用户104被识别和定位,允许确定是否通过被识别和定位的用户104执行了在用户104的初始识别之后的某时执行的用户交互112。详细地,第一传感器102可用于(临时地或初始地)识别用户104,例如通过声音关键词或视觉识别(例如,面部识别),其中第二传感器106可用于跟踪被识别的用户104,从而保持用户104被识别和定位,尽管如图1所示,用户104相对于设备100的位置110、110’可以改变。这允许将用户交互112链接到被识别和定位的用户104,即使用户交互112是在用户104的初始识别之后的某时(例如,在用户104的初始识别112之后的一秒或几秒、几分钟、几小时、甚至几天)被执行,并且即使被识别和定位的用户104改变其相对于设备100的位置110、110’。
换言之,根据实施例,通过临时用户识别(例如,声音关键词,注视相机),系统可通过跟踪位置来永久保存关于谁是用户的信息。因此,通过经由基于位置的跟踪桥接临时识别步骤之间的时间,可以实现关于谁是用户的永久意识。
在实施例中,第一传感器102可以是识别传感器。
例如,识别传感器可以是麦克风或麦克风阵列。从而,例如可基于声音关键词或语音识别来识别用户104。
例如,识别传感器可以是相机。从而,例如可基于视觉识别(诸如,面部识别)来识别用户104。
例如,识别传感器可以是TOF(飞行时间)传感器。从而,例如可基于使用TOF传感器获得的深度图来识别用户104。
此外,TOF传感器也可以是TOF相机。在这种情况下,例如可基于视觉识别(诸如,面部识别)来识别用户104。
在实施例中,第二传感器106可以是空间跟踪传感器。
例如,空间跟踪传感器可以是雷达或飞行时间传感器。
如图1中的示例所示,设备100可例如通过有线或无线连接而连接至第一传感器102和第二传感器106。
在实施例中,设备100可以被配置为响应于识别设备100的用户104而初始定位被识别用户104的位置,并且初始地将定位的位置110分配给被识别用户104。
从而,设备100可以被配置为使用第一传感器102或与第一传感器102相关联的位置信息来初始地定位被识别用户104。
例如,第一传感器102可以是相机,其中响应于使用相机识别用户104,用户104可使用相机(例如,基于相机的已知相机位置和/或检测区域)被初始定位。
例如,第一传感器102可以是麦克风阵列,其中响应于使用麦克风阵列识别用户104,用户104可以使用麦克风阵列初始地定位用户104,例如基于在麦克风阵列处接收(或检测)用户104的声音关键词或语音的方向。
自然地,设备100还可以被配置为使用第二传感器106或者同时使用第一传感器102和第二传感器106来初始定位被识别用户104。
例如,假设第一传感器102是相机,则可以通过视觉识别(例如,面部识别)来初始地识别用户104,其中响应于识别用户104,相机可用于初始地定位用户(例如,基于已知相机位置和/或相机的检测区域)和/或使用第二传感器106(其可以是雷达或飞行时间传感器)。当然,第一传感器102也可以是麦克风,其中用户104可通过声音关键词或语音识别被初始识别,其中响应于识别用户104,麦克风(如果实施为麦克风阵列)可用于初始地定位用户(例如,基于接收用户104的声音关键词或语音的方向)和/或使用第二传感器106(其可以是雷达或飞行时间传感器)。
在实施例中,设备100可以被配置为通过更新分配给被识别用户的位置110、110’来保持被识别用户104被识别。
在实施例中,设备100可被配置为使用第二传感器106来识别(或重新识别)被识别和定位的用户104,以确认被识别和定位的用户104的识别。
例如,设备100可以被配置为通过使用第二传感器106识别(或重新识别)用户104(例如,只要可能的话)来确认被识别和定位的用户104的识别。因此,第二传感器106不仅可用于跟踪被识别用户104,而且还用于在不同时间识别用户(例如,人)104。例如,第一传感器102可以是麦克风,其中第二传感器106可以是TOF相机。在这种情况下,第一传感器102(麦克风)可用于基于声音关键词来识别用户104,即,当用户104讲话时而不是当用户104安静时。然而,第二传感器106(TOF相机)可用于跟踪用户104,并且附加地在用户104面对第二传感器106(TOF相机)时识别用户104。因此,设备100可以被配置为尽可能使用第二传感器106来确认用户104的识别。
在实施例中,设备100可以被配置为使用第一传感器102或者不同于第一传感器102和第二传感器106的第三传感器108来检测用户交互112。
例如,用于识别设备的用户104的第一传感器102可以是麦克风或麦克风阵列。在这种情况下,麦克风或麦克风阵列可用于检测例如作为用户交互112的语音命令。然而,也可以使用例如相机作为第三传感器108来检测例如姿势作为用户交互。
例如,用于识别设备100的用户104的第一传感器102可以是相机。在这种情况下,相机可用于检测例如姿势作为用户交互112。然而,也可以使用例如麦克风或麦克风阵列来检测例如语音命令作为用户交互112。
例如,设备100可基于相机和飞行时间传感器来实施。当然,其他实施方式也是可以的,诸如基于麦克风阵列和雷达或飞行时间传感器,或者基于相机和雷达或飞行时间传感器。
如图1所示,作为示例,设备100可放置在设施120(诸如,例如家的建筑物的房间)中。
在实施例中,设备100可以是智能助理系统,诸如智能家庭接口设备。
图2示出根据另一实施例的设备100的示意框图。与图1所示的实施例相反,在图2所示的实施例中,设备100包括第一传感器102和第二传感器106。当然,设备100也可以仅包括第一传感器102和第二传感器106中的一个传感器,并且例如通过有线或无线连接而连接至另一传感器。
参考图1和2的实施例,设备100可进一步被配置为使用第一传感器102来识别设备100的第二用户105,以获得临时识别的第二用户,并且使用第二传感器106来更新分配给被识别的第二用户105的位置111、111’,以获得被识别和定位的第二用户105。此外,设备100可以被配置为:
-通过确定用户交互是否通过识别和定位第二用户105执行,将用户交互113链接到被识别和定位的第二用户105,
-或者,通过确定用户交互是否通过被识别和定位的第一用户104执行,将用户交互112链接到被识别和定位的第一用户104。
从而,第一用户104和第二用户105可位于同一设施120(诸如例如家的建筑物的房间)中。
以下,描述设备100的详细实施例。
根据实施例,通过利用传感器数据融合(来自第一传感器102和第二传感器104),可通过识别和跟踪方法有效地生成关于用户104的永久上下文信息。第一用户识别传感器系统(第一传感器102)(例如,声学(麦克风)、RGB(相机)、TOF(飞行时间传感器)或任何其他有能力的传感器)临时且唯一地对用户104进行分类,并将其引用到能够跟踪和定位的第二传感器106(例如,雷达、TOF)。只要保持跟踪,所有随后的用户动作112可链接到唯一识别的人104,而不需要连续地执行用户识别任务。换言之,通过临时用户识别(例如,声音关键词、观看相机),系统可以通过跟踪位置来永久地保持关于谁是用户104的信息。图3可视化了用于有效永久用户感知的识别和跟踪方法的基本原理。
详细地,图3示出了根据一个实施例的用于维持识别和定位智能助理系统的用户104的概念的示意图。如图3所示,第一传感器系统(或第一传感器)102可用于临时地识别用户104,例如基于用户识别数据130,诸如声学数据(例如,使用麦克风作为第一传感器102获取)、RGB数据(例如,使用相机作为第一传感器102获取)或TOF数据(例如,使用飞行时间传感器作为第一传感器102获取))到临时用户识别132。此外,第二传感器系统(或第二传感器)106可用于空间地跟踪用户104,例如通过使用雷达或飞行时间传感器作为第二传感器106来确定用户位置数据134,以便获得用户104的(例如,连续或周期性)更新位置136。如图3所示,基于临时用户识别132和用户104的(例如,连续或周期性)更新位置136,获得(永久)被识别和定位用户。
随后,参照图4描述作为第一传感器102系统的声学麦克风波束形成传感器与作为第二传感器106的雷达系统在智能家庭助理中组合的应用示例。
详细地,图4示出了根据一个实施例的智能家庭助理100中麦克风波束形成传感器系统102与雷达系统106组合的示意框图。来自用户104的关键词可以激活系统,并且可以执行声音说话人识别,以例如获得临时用户识别。声音波束形成可定位所识别的说话人(用户)104。雷达106可以被分配给声音定位的说话人(用户)104,并且从此时开始跟踪分类的说话人(用户)104,以例如获得用户104的(例如,连续或周期性的)更新位置,从而获得被(永久)识别和定位的用户。
如图4所示,可通过智能家庭助理100执行中央、分散或混合信号处理140。信号处理140可以包括声学处理142,诸如波束控制、关键词检测、基于关键词的说话人识别以及可选的语音处理/解释。此外,信号处理140可以包括雷达处理144,诸如说话人(用户)104的永久空间无线电定位和跟踪。此外,信号处理140可以包括上下文链接146,诸如将短时声学识别的说话人(用户)104链接到永久空间定位的说话人(用户)104。此外,信号处理140可以包括用户上下文过滤148,例如用作声学处理142中的进一步语音处理的上下文信息。
例如,识别说话人(用户)104的有效且不易出错的方法是使用特定字(如智能家庭助理的密钥/唤醒字)来同样执行说话人识别任务。与进行这种独立的识别文本相比,提取用户特定的语音特征、例如训练神经网络以及用特定词运行检测更加容易。然而,缺点是:这种情况偶尔发生,其间可能没有(可靠的)关于谁在说话的声音信息。因此,第二传感器系统106用于通过对初始识别的说话人(用户)104的空间无线电定位来渡过该时间间隔。
基于图像的传感器还能够仅在特定时隙(例如,当人以直角和距离看着相机时)识别人。在这些实施中同样重要的是,可靠的跟踪功能确保人(用户)104被跟踪和跟随。
实施例提供了在智能助理服务中永久拥有重要用户上下文信息的有效方法。
图5示出了根据一个实施例的方法200的流程图。方法200包括使用第一传感器来识别设备的用户以获得临时被识别用户的步骤202。此外,方法200包括步骤204:使用不同于第一传感器的第二传感器空间地跟踪被识别的用户,以更新分配给被识别用户的位置,从而获得被识别和定位的用户。此外,方法200包括步骤206:通过确定用户交互是否通过被识别和定位的用户执行,将用户交互链接到被识别和定位的用户。
随后,描述进一步的实施例。
一个实施例涉及一种设备,其中,该设备被配置为:使用第一传感器来识别该设备的用户,以获取被临时识别的用户,其中该设备被配置为:使用不同于第一传感器的第二传感器来空间地跟踪被识别的用户,以便更新分配给被识别的用户的位置,从而获取被识别和定位的用户,并且其中该设备被配置为:通过确定是否通过被识别和定位的用户执行用户交互,将用户交互链接到被识别和定位的用户。
根据一个实施例,该设备被配置为:使用第一传感器来初始地识别该设备的用户,其中该设备被配置为通过更新分配给被识别的用户的位置来保持被识别的用户是被识别的。
根据一个实施例,该设备被配置为响应于识别该设备的用户来初始地定位被识别的用户,并且初始地将定位的位置分配给被识别的用户。
根据一个实施例,该设备被配置为使用第一传感器或与第一传感器相关联的位置信息来初始地定位被识别的用户。
根据一个实施例,该设备被配置为使用第二传感器来识别该被识别和定位的用户,以确认被识别和定位的用户的识别。
根据一个实施例,该设备被配置为使用第一传感器或不同于第一传感器和第二传感器的第三传感器来检测用户交互。
根据一个实施例,用户是第一用户,其中该设备被配置为使用第一传感器来识别设备的第二用户,以获取被临时识别的第二用户,其中该设备被配置为使用第二传感器以便更新分配给被识别的第二用户的位置,以获取被识别和定位的第二用户,其中该设备被配置为:
-通过确定用户交互是否通过被识别和定位的第二用户执行,将用户交互链接到被识别和定位的第二用户,
-或者通过确定用户交互是否通过被识别和定位的第一用户执行,将用户交互链接到被识别和定位的第一用户。
根据一个实施例,第一用户和第二用户位于同一房间。
根据一个实施例,该设备包括第一传感器。
根据一个实施例,该设备被连接到第一传感器。
根据一个实施例,该设备包括第二传感器。
根据一个实施例,该设备被连接到第二传感器。
根据实施例,第一传感器是识别传感器。
根据一个实施例,识别传感器是麦克风、相机、或者飞行时间传感器。
根据实施例,第二传感器是空间跟踪传感器。
根据实施例,空间跟踪传感器是雷达或飞行时间传感器。
根据一个实施例,该设备是智能家庭接口设备。
一个实施例涉及一种方法,其中,该方法包括使用第一传感器来识别设备的用户,以获取被临时识别的用户的步骤,其中该方法包括以下步骤:使用不同于第一传感器的第二传感器来空间地跟踪被识别的用户,以便更新分配给被识别的用户的位置,从而获取被识别和定位的用户,其中该方法包括以下步骤:通过确定用户交互是否通过被识别和定位的用户执行,将用户交互链接到被识别和定位的用户。
一个实施例涉及一种设备,其中该设备包括用于使用第一传感器来识别该设备的用户以获得临时识别的用户的装置,其中该设备包括用于使用不同于第一传感器的第二传感器空间地跟踪被识别的用户,以便更新分配给被识别的用户的位置,从而获取被识别和定位的用户的装置,并且该设备包括用于通过确定是否通过被识别和定位的用户执行用户交互来将用户交互链接到被识别和定位的用户的装置。
尽管在设备的上下文中描述了一些方面,但是很明显,这些方面还表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对应设备的对应块或项目或特征的描述。一些或全部方法步骤可通过(或使用)硬件设备(例如,微处理器、可编程计算机或电子电路)来执行。在一些实施例中,一个或多个最重要的方法步骤可以由这样的设备执行。
根据特定实施要求,本发明的实施例可以在硬件或软件中实施。可以使用数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行该实施,在数字存储介质上存储有电子可读控制信号,与可编程计算机系统协作(或能够协作)以执行相应的方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作以执行本文描述的方法之一。
一般地,本发明的实施例可实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作以执行其中一种方法。程序代码例如可存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的用于执行本文描述的方法之一的计算机程序。
换言之,本因此,本发明方法的一个实施例是计算机程序,当计算机程序在计算机上运行时,具有用于执行本文所述方法之一的程序代码。
因此,本发明方法的另一实施例是数据载体(或数字存储介质或计算机可读介质),其包括记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂态的。
因此,本发明方法的另一实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。例如,数据流或信号序列可以被配置为经由数据通信连接(例如,经由因特网)传送。
另一实施例包括处理装置(例如,计算机)或可编程逻辑设备,其被配置为或适于执行本文所述方法之一。
另一实施例包括计算机,其上安装有用于执行本文所述方法之一的计算机程序。
根据本发明的另一实施例包括被配置为将用于执行本文所述方法之一的计算机程序(例如,电子或光学地)传送到接收器的设备或系统。例如,接收器可以是计算机、移动设备、存储器设备等。例如,设备或系统可包括用于将计算机程序传送到接收器的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可用于执行本文所述方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文描述的方法之一。通常,这些方法优选由任何硬件设备来执行。
本文描述的设备可使用硬件设备、或使用计算机、或使用硬件设备和计算机的组合来实施。
本文描述的设备或本文描述的设备的任何组件可以至少部分地在硬件和/或软件中实施。
本文描述的方法可使用硬件设备、或使用计算机、或使用硬件设备和计算机的组合来执行。
本文描述的方法或本文描述的设备的任何组件可以至少部分地通过硬件和/或软件来执行。
虽然本发明已经参照说明性实施例进行了描述,但是这种描述不用于限制。本领域技术人员在参考描述之后将明白说明性实施例的各种修改和组合以及本发明的其他实施例。因此,所附权利要求包括任何这种修改或实施例。
Claims (16)
1.一种设备(100),
其中所述设备(100)被配置为:使用第一传感器(102)来识别所述设备(100)的用户(104),以获取被临时识别的用户(104),
其中所述设备(100)被配置为:使用不同于所述第一传感器(102)的第二传感器(102)来空间地跟踪被识别的所述用户(104),以便更新分配给被识别的所述用户(104)的位置(110、110’),从而获取被识别和定位的用户(104),
其中所述设备(100)被配置为:通过确定是否通过被识别和定位的所述用户(104)执行用户交互(112),将所述用户交互(112)链接到被识别和定位的所述用户(104)。
2.根据权利要求1所述的设备(100),
其中所述设备(100)被配置为:使用所述第一传感器(102)来初始地识别所述设备(100)的所述用户(104),
并且其中所述设备(100)被配置为通过更新分配给被识别的所述用户(104)的所述位置(110、110’)来保持被识别的所述用户(104)是被识别的。
3.根据前述权利要求中任一项所述的设备(100),
其中所述设备(100)被配置为响应于识别所述设备(100)的所述用户(104)来初始地定位被识别的所述用户(104),并且初始地将定位的所述位置分配给被识别的所述用户(104)。
4.根据权利要求3所述的设备(100),
其中所述设备(100)被配置为使用所述第一传感器(102)或与所述第一传感器(102)相关联的位置信息来初始地定位被识别的所述用户(104)。
5.根据前述权利要求中任一项所述的设备(100),
其中所述设备(100)被配置为使用所述第一传感器或不同于所述第一传感器(102)和所述第二传感器(106)的第三传感器(108)来检测所述用户(104)交互。
6.根据前述权利要求中任一项所述的设备(100),
其中所述设备(100)被配置为使用所述第二传感器(106)来识别被识别和定位的所述用户(104),以确认被识别和定位的所述用户(104)的识别。
7.根据前述权利要求中任一项所述的设备(100),
其中所述用户(104)是第一用户(104),
其中所述设备(100)被配置为使用所述第一传感器(102)来识别所述设备(100)的第二用户(105),以获取被临时识别的第二用户(105),
其中所述设备(100)被配置为使用所述第二传感器(106)以便更新分配给被识别的所述第二用户(105)的位置,以获取被识别和定位的第二用户(105),
其中所述设备(100)被配置为:
-通过确定所述用户交互(113)是否通过被识别和定位的所述第二用户(105)执行,将所述用户交互(113)链接到被识别和定位的所述第二用户(105),
-或者通过确定所述用户交互(112)是否通过被识别和定位的所述第一用户(104)执行,将所述用户交互(112)链接到被识别和定位的所述第一用户(104)。
8.根据权利要求7所述的设备(100),
其中所述第一用户(104)和所述第二用户(105)位于同一房间。
9.根据前述权利要求中任一项所述的设备(100),
其中所述设备(100)包括所述第一传感器(102),或者其中所述设备(100)被连接到所述第一传感器(102),
其中所述设备(100)包括所述第二传感器(106),或者其中所述设备(100)被连接到所述第二传感器(106)。
10.根据前述权利要求中任一项所述的设备(100),
其中所述第一传感器(102)是识别传感器。
11.根据权利要求10所述的设备(100),
其中所述识别传感器是麦克风、相机、或者飞行时间传感器。
12.根据前述权利要求中任一项所述的设备(100),
其中所述第二传感器(106)是空间跟踪传感器。
13.根据权利要求12所述的设备(100),
其中所述空间跟踪传感器是雷达或飞行时间传感器。
14.根据前述权利要求中任一项所述的设备(100),
其中所述设备(100)是智能家庭接口设备。
15.一种方法(200),包括:
使用(202)第一传感器来识别所述设备的用户,以获取被临时识别的用户,
使用(204)不同于所述第一传感器的第二传感器来空间地跟踪被识别的所述用户,以便更新分配给被识别的所述用户的位置,从而获取被识别和定位的用户,
通过确定用户交互是否通过被识别和定位的所述用户执行,将所述用户交互链接到(206)被识别和定位的所述用户。
16.一种计算机程序,用于当所述计算机程序在计算机或微处理器上运行时,执行根据前述权利要求的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18203519.6 | 2018-10-30 | ||
EP18203519.6A EP3647910A1 (en) | 2018-10-30 | 2018-10-30 | An improved apparatus for user interaction |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111128146A true CN111128146A (zh) | 2020-05-08 |
Family
ID=64267433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911044913.2A Pending CN111128146A (zh) | 2018-10-30 | 2019-10-30 | 用于用户交互的改进设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200135198A1 (zh) |
EP (1) | EP3647910A1 (zh) |
CN (1) | CN111128146A (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3654053A1 (en) * | 2018-11-14 | 2020-05-20 | Infineon Technologies AG | Package with acoustic sensing device(s) and millimeter wave sensing elements |
KR20200144366A (ko) * | 2019-06-18 | 2020-12-29 | 엘지전자 주식회사 | 로봇을 위한 기동어 인식 모델의 생성 |
EP4298463A1 (en) | 2021-02-25 | 2024-01-03 | Cherish Health, Inc. | Technologies for tracking objects within defined areas |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102136269A (zh) * | 2010-01-22 | 2011-07-27 | 微软公司 | 经由标识信息的语音识别分析 |
US20170097413A1 (en) * | 2015-10-06 | 2017-04-06 | Google Inc. | Radar-Enabled Sensor Fusion |
US20180232902A1 (en) * | 2017-02-14 | 2018-08-16 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
-
2018
- 2018-10-30 EP EP18203519.6A patent/EP3647910A1/en not_active Withdrawn
-
2019
- 2019-10-28 US US16/665,400 patent/US20200135198A1/en not_active Abandoned
- 2019-10-30 CN CN201911044913.2A patent/CN111128146A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102136269A (zh) * | 2010-01-22 | 2011-07-27 | 微软公司 | 经由标识信息的语音识别分析 |
US20110184735A1 (en) * | 2010-01-22 | 2011-07-28 | Microsoft Corporation | Speech recognition analysis via identification information |
US20170097413A1 (en) * | 2015-10-06 | 2017-04-06 | Google Inc. | Radar-Enabled Sensor Fusion |
US20180232902A1 (en) * | 2017-02-14 | 2018-08-16 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
Also Published As
Publication number | Publication date |
---|---|
US20200135198A1 (en) | 2020-04-30 |
EP3647910A1 (en) | 2020-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210090567A1 (en) | Method and apparatus for managing voice-based interaction in internet of things network system | |
EP3384489B1 (en) | Generation of notifications based on context data in response to speech phrase from user | |
US10438595B2 (en) | Speaker identification and unsupervised speaker adaptation techniques | |
US10460735B2 (en) | Speaker verification using co-location information | |
CN106415719B (zh) | 使用说话者识别的语音信号的稳健端点指示 | |
US9401058B2 (en) | Zone based presence determination via voiceprint location awareness | |
CN111128146A (zh) | 用于用户交互的改进设备 | |
US10026403B2 (en) | Location based voice association system | |
CN103365260B (zh) | 无需双手的家庭自动化应用 | |
US20200342011A1 (en) | Profile disambiguation | |
US11114104B2 (en) | Preventing adversarial audio attacks on digital assistants | |
US20180137463A1 (en) | Systems and methods for enabling delivery of commercial products to customers | |
US9959885B2 (en) | Method for user context recognition using sound signatures | |
EP3602554B1 (en) | Apparatus and method | |
Jeon et al. | Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model | |
CN111090412A (zh) | 一种音量调节方法、装置及音频设备 | |
JP2019124978A (ja) | サーバ、制御方法、及び制御プログラム | |
US11608029B2 (en) | Microphone-based vehicle passenger locator and identifier | |
US20210327414A1 (en) | Systems and methods for training a control system based on prior audio inputs | |
KR20170030385A (ko) | 인식 장치, 인식 방법 및 협업 처리 장치 | |
Feld et al. | This is me: Using ambient voice patterns for in-car positioning | |
KR20200126496A (ko) | 침입자 식별 시스템 및 방법 | |
KR101573198B1 (ko) | 관심 지점 자동 인식을 위한 방법 및 장치, 이를 위한 기록 매체 | |
JP2018163293A (ja) | 情報端末、情報端末の制御方法、および制御プログラム | |
KR20230068901A (ko) | 차량의 hmi 모드 제공방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |