CN113557490A - 面部表情检测 - Google Patents
面部表情检测 Download PDFInfo
- Publication number
- CN113557490A CN113557490A CN202080020530.6A CN202080020530A CN113557490A CN 113557490 A CN113557490 A CN 113557490A CN 202080020530 A CN202080020530 A CN 202080020530A CN 113557490 A CN113557490 A CN 113557490A
- Authority
- CN
- China
- Prior art keywords
- information
- facial expression
- worn
- user
- ear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 136
- 238000001514 detection method Methods 0.000 title description 5
- 238000005259 measurement Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 56
- 238000000034 method Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 28
- 238000010801 machine learning Methods 0.000 claims description 26
- 230000008859 change Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 210000003128 head Anatomy 0.000 description 19
- 238000004891 communication Methods 0.000 description 18
- 230000002996 emotional effect Effects 0.000 description 17
- 230000001276 controlling effect Effects 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000001976 improved effect Effects 0.000 description 8
- 230000008451 emotion Effects 0.000 description 7
- 230000001815 facial effect Effects 0.000 description 7
- 210000003205 muscle Anatomy 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 210000004709 eyebrow Anatomy 0.000 description 6
- 210000001097 facial muscle Anatomy 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000005452 bending Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 239000000853 adhesive Substances 0.000 description 2
- 230000001070 adhesive effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 210000000883 ear external Anatomy 0.000 description 2
- 238000002513 implantation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 239000000383 hazardous chemical Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000006461 physiological response Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/015—Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1016—Earpieces of the intra-aural type
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1041—Mechanical or electronic switches, or control elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Dermatology (AREA)
- Neurology (AREA)
- Neurosurgery (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种装置,包括用于以下操作的部件:从至少一个惯性测量单元接收信息,该至少一个惯性测量单元被配置为被穿戴在用户的头部上;并且至少部分地引起至少根据接收到的信息来确定面部表情信息。
Description
技术领域
本公开的实施例涉及面部表情检测。一些涉及使用来自至少一个可穿戴设备惯性测量单元的信息来进行面部表情检测。
背景技术
面部表情为社交互动提供了强大以及必要的非语言信号。面部表情传达关于人类情绪、同理心和情感的线索。能够准确地检测面部表情的系统为有用的产品和服务开放了新市场。
很难设计这样的系统以允许头部的移动的高度自由,允许改变周围条件,以及确保如果系统在其为便携式时不突兀。
发明内容
根据各种但不一定是全部的实施例,提供了一种装置,包括用于以下的部件:从被配置为被穿戴在用户的头部上的至少一个惯性测量单元接收信息;以及至少部分地引起至少根据接收到的信息确定面部表情信息。
在一些但不一定是全部的示例中,至少一个惯性测量单元包括陀螺仪。
在一些但不一定是全部的示例中,惯性测量单元被配置为耳戴式装置(earable)的一部分。
在一些但不一定是全部的示例中,面部表情信息根据信息和机器学习被确定。
在一些但不一定是全部的示例中,机器学习包括机器学习算法,该机器学习算法包括神经网络或者隐马尔可夫模型。
在一些但不一定是全部的示例中,机器学习算法包括一个或者多个卷积层以及一个或多个长短期记忆层。
在一些但不一定是全部的示例中,装置包括用于至少部分地引起根据面部表情信息控制电子设备功能的部件。
在一些但不一定是全部的示例中,控制电子设备功能包括根据面部表情信息通过输出设备来控制反馈信息的输出。
在一些但不一定是全部的示例中,反馈信息包括任务的推荐的改变。
在一些但不一定是全部的示例中,反馈信息包括任务如何被执行的推荐的改变。
在一些但不一定是全部的示例中,控制电子设备功能包括将面部表情信息解释为由用户做出的输入命令,并且根据输入命令引起电子设备功能被控制。
根据各种但不一定是全部的实施例,提供了一种包括装置的手持便携式电子设备。
根据各种但不一定是全部的实施例,提供了一种包括装置和惯性测量单元的系统。
根据各种但不一定是全部的实施例,提供了一种方法包括:从被配置为被穿戴在用户的头部上的至少一个惯性测量单元接收信息;以及至少部分地引起至少根据接收到的信息确定面部表情信息。
根据各种但不一定是全部的实施例,提供了一种计算机程序,该计算机程序当在计算机上被运行时,执行:引起从被配置为被穿戴在用户的头部上的至少一个惯性测量单元接收信息;以及至少部分地引起至少根据接收到的信息确定面部表情信息。
根据各种但不一定是全部的实施例,提供了一种如所附权利要求中要求保护的示例。
附图说明
现在将参考附图描述一些示例实施例,其中:
图1图示了方法的示例;
图2A图示了耳戴式装置的示例并且图2B图示了耳戴式装置的组件的示例;
图3图示了说明六个动作单元的面部表情;
图4图示了针对六个动作单元的惯性测量单元数据的时间历程(timehistories);
图5A图示了隐马尔可夫模型算法的示例,图5B图示了卷积神经网络算法的示例,并且图5C图示了改进后的卷积神经网络算法的示例;
图6图示了面部表情信息服务器的示例;
图7A图示了装置、设备和系统的示例,并且图7B图示了计算机可读存储介质的示例。
具体实施方式
图1图示了方法100的示例,包括:在框110,从被配置为被穿戴在用户头部上的至少一个惯性测量单元(IMU)(诸如图2B中示出的IMU 204)接收信息;并且在框120,至少部分地引起至少根据接收到的信息确定面部表情信息。可选框130包括至少部分地引起根据面部表情信息控制人机接口功能。
如本文所述,来自IMU 204的测量可以与面部表情相关。IMU 204小且便宜。IMU204也可以是离散的因为传感器不需要与用户的皮肤持续接触以便在皮肤的表面上测量移动面部肌肉的惯性影响。出于同样的原因,不必要植入或者其他入体过程来安装IMU 204。
首先,将详细地描述框110的各种示例实现。为了接收有用的IMU信息,首先穿戴上IMU 204。
IMU 204穿戴在用户的头部的位置。出于本公开的目的,该位置是人类头部上的任何位置,该位置由IMU 204根据面部肌肉的收缩和/或舒张以可检测的方式移动。这种位置包括在头部上的位置以及还可以包括以其他方式在解剖学上被分类为颈部的一部分的颈部上部区域中的位置。
在一些但不一定是全部示例中,多于一个的IMU 204被穿戴。穿戴多个IMU 204可以包括在第一位置穿戴多于一个的IMU 204。穿戴多个IMU 204可以包括穿戴提供不同感测模态的IMU 204。例如,不同感测模态可以包括陀螺仪和加速度计。穿戴多个IMU 204可以包括针对多达三个测量轴每轴穿戴一个IMU 204。因此,三个加速度计IMU可以被配置为提供三轴加速度计的功能,并且三个陀螺仪IMU可以被配置为提供三轴陀螺仪的功能。
穿戴多个IMU可以包括在用户头部上的不同位置穿戴IMU 204。在一些示例中,不同位置可以在头部的左侧和右侧。该位置可以在头部对称相对侧上。这提供了更好的对称与非对称面部表情(例如微笑vs半笑)之间的区分。在其他实施例中,位置的分布可以以不同面部肌肉为目标并且可以或者不可以涉及对称IMU定位。
以下描述用于在(多个)所需位置定位(多个)IMU 204的可穿戴设备的示例属性。
包括IMU 204的可穿戴设备可以被配置为以可重复使用的方式穿戴。可重复使用的方式意味着可穿戴设备可以被移除并且之后重新穿戴,而在移除时没有不可挽回的损坏。可穿戴设备可以可穿戴在用户的身体外部,这样不需要植入。
IMU 204可以被提供或者嵌入在可穿戴设备上。IMU 204可以参考可穿戴设备被定位,以便在使用中穿戴时不接触或者不持续地接触用户的皮肤,以增加舒适。
可穿戴设备可以提供可穿戴配件功能。如本文所描述的配件意味着提供至少美学的和/或非医学功能的可穿戴设备。可穿戴配件的示例包括耳戴式装置(或者可听式装置)、虚拟现实耳机、眼镜、衣服、珠宝和头发配件。耳戴式装置是可以被穿戴在耳朵内或者耳朵上的可穿戴配件。可听式装置在本文中被定义为具有音频扬声器的耳戴式装置。
可穿戴配件的进一步功能的示例包括但不限于提供人机接口(输入和/或输出)、噪声消除、针对其他用途的定位附加传感器等。一些可穿戴配件甚至可以包括附加医疗/非配件功能,例如矫正/有色眼镜镜片,定位健康监测传感器。
可穿戴设备可以被配置为不一次性使用。例如,可穿戴设备可以被配置为摩擦和/或偏置配合(bias fit)。这避免了对一次性使用粘合剂等的需要。然而。在备选实现中,可穿戴设备被配置为一次性使用操作,例如可穿戴设备可以包括粘合贴片。
图2A和图2B图示了包括耳戴式装置201的可穿戴设备200的示例实现。与例如穿戴特定衣服或者不必要的眼镜相比,耳戴式装置201的优点是方便。另一优点是耳戴式装置201被靠近与常见面部表情高度相关的几个面部肌肉定位,并且耳戴式装置201可以提供附加功能诸如耳机功能或者定位其他传感器。稍后讨论相关性。
图2A示出了两个耳戴式装置201,分别用于左耳和右耳。在其他示例中,仅一个耳戴式装置201被提供用于仅与一个耳朵使用。
图2A的耳戴式装置的内部视图在图2B中示出。耳戴式装置201包括人机接口,该人机接口包括至少用于音频输出的音频扬声器210,以便可听式装置的功能被提供。所图示的耳戴式装置201包括至少一个IMU 204,在示例实现中,耳戴式装置201包括三轴陀螺仪和三轴加速度计。
所图示的耳戴式201(或者其他可穿戴设备)包括用于使得(多个)IMU 204工作的电路系统206。电路系统206可以使得音频扬声器210工作。电路系统206可以由电源(未示出)供能。如果需要,诸如电线或者天线(未示出)的接口可以提供至少IMU 204与外部装置之间的通信链路。
图2A和图2B的耳戴式装置201是用于嵌入耳廓的入耳式耳戴式装置201。入耳式耳戴式装置201可以被配置用于嵌入接近耳道。入耳式耳戴式装置201可以被配置用于嵌入在外耳或者外耳腔中。一个优点是在形成常见面部表情的面部肌肉的移动与耳朵与耳戴式装置201接触的部分的变形或者移动之间存在强相关性。该相关移动可以通过将IMU 204定位在耳戴式装置201内而被利用,因为IMU输出依赖于耳朵的移动或者变形。因此,与其他可穿戴设备相比,耳戴式装置201,例如入耳式耳戴式装置201,减少了从信号噪声中隔离有意义的信号所需的数据处理量。其他可穿戴设备在定位在本文指定的各种头部定位时可以工作,并且形成本公开的一部分。然而,耳戴式装置201在相关性(所需的数据处理)与对穿戴者400(佩戴IMU 204的用户)的突兀之间提供了有利的折衷。
耳戴式装置201可以被配置为维持IMU 204相对于用户的预定取向,以确保干净的数据被获得。在图2A和图2B的示例中,耳戴式装置201包括被配置为与用户耳朵的耳屏间切迹(intertragic notch)接合的元件208。元件208可包括用于电线的套管,其被配置为增加电线的有效刚度并且减少弯曲疲劳。如果耳戴式装置201是无线的,则元件208可以包括用于无线通信的内部天线。在其他示例中,元件208除了与耳屏间切迹接合以将耳戴式装置201定位在预定取向之外没有其他目的。
应当理解,图2A的耳戴式装置201是可以包括IMU 204的许多可能的备选可穿戴设备之一。
如上所述,由IMU 204提供的信息作为方法100的框110被接收。该信息可以在作为包括IMU 204的同一可穿戴设备的一部分的装置处,或者在经由通信链路远离IMU 204的装置处被接收。信息可以直接地从传感器以原始形式被接收作为模拟信号。备选地,信息可以以数字形式接收和/或可以已经预处理,例如以过滤噪音。
一旦从已经IMU 204接收到信息,框110完成并且方法100进行到框120。在框120,方法100包括至少部分地引起至少根据收到的信息确定面部表情信息。面部表情信息通过处理接收到的IMU信息以及可选的附加信息来被确定。
面部表情信息的确定可以使用本地可用的处理资源在电路系统206本地进行,或者引起远程地发生,例如在利用改进处理资源的远程服务器上。
所确定的面部表情信息指示多个不同面部表情中的哪一个由接收到的信息指示。因此,确定面部表情信息可以包括确定多个不同面部表情中的哪一个由接收到的信息指示。所选择的一种面部表情定义了面部表情信息。多个不同的面部表情可以对应于特定的用户定义或者机器定义的标签或类别。
基于接收到的IMU信息,所确定的面部表情信息可以区分不同的上部面部表情和/或区分不同的下部面部表情。上部面部表情可以至少与眉毛和/或眼睛相关联。下部面部表情可以至少与嘴相关联。多个不同的面部表情可以指示不同的上部面部表情和/或不同的下部面部表情。在一些示例中,上部面部表情的改变和下部面部表情的改变两者都能够改变所确定的面部表情信息。这提高了情绪捕获的准确性。在非限制性示例中,与具有上扬眉毛的微笑相比,可以针对具有对称眉毛的微笑确定不同的面部表情信息。
下面参考由P.Ekman和W.Friesen开发的面部动作编码系统(FACS)指定的“动作单元”(AU)代码描述面部表情的实验(面部动作编码系统:针对面部移动的测量的技术。咨询心理学家出版社,Palo Alto,1978年)。图3示出了对应于AU2(外部眉毛上扬)、AU4(眉毛下垂)、AU6(脸颊上扬)、AU12(唇角拉起)、AU15(唇角下压)和AU18(唇部皱缩)的面部表情。
图4图示了针对图2的入耳式耳戴式装置201的IMU数据的时间历程,该时间历程在穿戴者400采用图3中图示的六个动作单元中的每一个时被收集。穿戴者400没有执行其他面部活动,诸如说话或者进食,同时采用AU。所绘制的IMU数据包括三轴加速度计数据和三轴陀螺仪数据。
图4的结果示出IMU数据与AU之间存在相关性。一些相关性比其他相关性更强。在图4的研究中,但不一定用于全部面部表情或者可穿戴设备,与加速度计相比,更强的相关性可以在来自陀螺仪的数据中被发现。与来自陀螺仪的z轴数据相比,更强的相关性可以在陀螺仪的x轴和y轴数据被发现。在该示例中,x轴近似在前方向,y轴近似在上方向,z轴近似在横向。
显著地,图4的时间历程的形状在AU之间有所不同,从而使得能够区分不同的AU。这示出在框120确定多个面部表情中的哪一个由从至少一个IMU 204的接收到的信息指示是可能的。仅一个IMU 204可以被提供,尽管如图所示采用多个IMU 204提高了准确性。
如图所示,陀螺仪针对眉毛移动、脸颊移动和唇角移动提供了清晰的信号。加速度计采集到针对唇角移动的清晰信号。
入耳式耳戴式装置IMU 204可以针对上部面部AU和下部面部AU两者提供清晰的信号。表1示出了针对其发现最清晰信号的AU:
表1:由耳戴式装置IMU 204针对其发现最清晰信号的AU及其肌肉基础。
可以经由耳戴式装置IMU 204被检测到的上述AU的列表并不详尽,并且最好将其表述为包括单独或组合地涉及上述表1的面部肌肉的任何AU。具有较高脉冲响应的面部表情比较低的面部表情可以更容易地检测到。附加的AU和肌肉依赖性可以利用更灵敏的IMU204和/或改进的数据处理方法被检测。针对图4实验的IMU 204是廉价的MPU6500模型。
描述了面部表情信息可以被识别的方式。
无需机器学习即可准确地确定面部表情信息是可能的。在简单的实现中,预定阈值可以针对来自一个或多个IMU 204的数据的瞬时值和/或时间导数定义。当(多个)所定义的阈值被超出时,确定多个面部表情中的哪个由接收到的信息指示。
在本公开的各种但不一定是全部示例中,框120的确定取决于信息和机器学习两者。机器学习可以提高可靠性。描述了用于确定面部表情信息的各种机器学习算法。
机器学习算法可以是有监督的机器学习算法。有监督的机器学习算法可以执行分类以确定哪个预定类别的面部表情由信息指示。这使得类别标签能够使用诸如“微笑”、“皱眉”等的面部表情的术语来被预定义,以改进用户的识别。
类别标签不一定对应于个体AU,但可以对应于最好被描述为AU的组合的面部表情类别。例如,微笑包括AU6和AU12的组合。AU4和AU15的组合代表皱眉。该算法可以使用至少以下类别标签:微笑;皱眉;无。
机器学习算法可以备选地是无监督机器学习算法。无监督机器学习算法可以在没有类别标签或训练的情况下执行聚类。这避免了训练负担,否则这对于解释面部几何形状和IMU穿戴定位的总体变化(例如,不同用户耳朵的不同取向)可能很重要。
机器学习算法可以包括卷积神经网络(CNN)和/或递归神经网络(RNN)和/或时间卷积网络。隐马尔可夫模型(HMM)可以被使用来代替较低延时,尽管具有充分训练的情况下,CNN和RNN可以获得比HMM更高的准确度。在示例实现中,机器学习算法包括一个或多个卷积层、一个或多个长短期记忆(LSTM)层以及注意力机制,用于在具有足够低的处理要求时提高基本CNN的准确性以启用即时面部表情信息追踪。在另外的备选示例中,机器学习算法可以包括深度神经网络(DNN)以用于最大的准确性,以更大的处理要求为代价。
下面描述了经过实验的有监督的机器学习算法示例,并且它们的F1得分被提供以对其性能相对彼此进行排名。性能基于检测以下三种面部表情的能力被评估:微笑(AU6+AU12);皱眉(AU4+AU15);以及无。实验包括执行上述面部表情的九个参与者,并且每位参与者重复20次。针对图4的设备如上文所述。
图5A示出了实验的基于HMM的学习方案的示例结构。HMM具有低延时,有效地表征具有嵌入式结构(=AU)的顺序数据,并且对可变输入大小具有鲁棒性。
HMM管道(pipeline)提取用于在穿戴者400采用面部表情的一段时间期间的8维向量的列表(3轴加速度、3轴陀螺仪信号、加速度大小和陀螺仪大小)。HMM算法使用Baum-Welch(鲍姆-韦尔奇)算法来被训练。HMM使用利用高斯发射的12隐藏状态左右模型来被配置。针对每个类别的观察序列的对数似然使用前向算法来被确定。具有最大对数似然的面部表情模型被选择为最终结果,以代表框120的面部表情信息。
从HMM实验来看,平均F1得分是0.88,这暗示着HMM分类器能够捕获面部表情期间的间歇和微观肌肉移动。例如,大多数时候微笑被正确地检测(F1得分=0.96)。皱眉的F1得分是0.89。无表情的F1得分是0.79。
图5B示出了用于与图5A相同的实验数据的基于CNN的学习方案的示例结构。CNN包括四个时间卷积层“Conv1”、“Conv2”、“Conv3”、“Conv4”的链,以及在顶层全连接层和softmax组之前的池化层。每个卷积层包括64个滤波器(nf=64)。“Conv1”包括3个内核(内核=3)。其他卷积层各包括5个内核。“Conv1”具有2的步长,“Conv2”和“Conv3”具有1的步长,以及“Conv4”具有3的步长。“全局平均”层的数据具有(1,64)的数据大小以及“密集(Dense)”层具有(1,3)的数据大小。T是窗口大小。
图5B的CNN的平均F1得分是0.54,其显著地在随机机会之上,并且可以通过进一步训练被提高到超出HMM的能力。应当理解,在使用中,基于实现,CNN的nf、内核、步长、T、数据大小、层的数目和任何其他可配置属性的值可以不同。
图5C示出了改进的基于CNN的学习方案的示例结构,本文中称为“ConvAttention”。ConvAttention的关键特征是采用LSTM(特殊类型的RNN)和注意力机制,以便更好地突出由面部表情所做的IMU信号的运动学特征。LSTM被用以利用AU的时间模式,因为LSTM被设计为利用数据内的时间依赖性。注意力机制被采用是因为它可以通过以数据中的面部表情实际发生改变的感兴趣区域为目标,并且为感兴趣区域赋予更高的权重,来使递归网络减少来自噪声的假阳性。图5C示出了两个卷积层Conv1(nf=64,内核=5,步长=1)和Conv2(nf=64,内核=5,步长=3),后面是返回针对每个时间点的注意力权重的LSTM层。概率与来自卷积层的特征向量相乘,并且被平均以产生单个特征向量。随后特征向量通过全连接层被非线性地转换成类别似然。
ConvAttention的平均F1得分是0.79,它显著地在随机机会之上,并且可以通过进一步训练被提高到超出HMM的能力。应当理解,基于实现,可配置的属性可以不同。
一旦面部表情信息已经被确定,框120完成。随后面部表情信息可用于各种目的。
图6示出了面部表情信息服务器500的潜在架构,该面部表情信息服务器500可以向请求客户端514提供面部表情信息。例如,客户端514可以是客户端软件应用。服务器500可以驻留在一个或多个控制器中实现的软件中和/或可以驻留在硬件中。服务器500针对客户端514执行图1的方法100。
下面描述服务器500的示例实现。
服务器包括传感器代理502,传感器代理被配置为从至少一个IMU204接收信息,并且其执行框110。在一些但不一定全部示例中,来自不同模态的附加传感器的信息可以由传感器代理502接收,用于在方法100的框120中合成和使用。可以检测面部表情的附加传感器(未示出)包括但不限于:
-眼镜上的接近传感器;
-耳戴式装置201上的力传感器;
-耳戴式装置201上的弯曲传感器;
-接近耳戴式装置201的电线上的电容传感器以及
-耳戴式装置201上的肌电图传感器。
接近传感器可以被配置为检测眼镜与面部上的相应局部定位之间的距离。当眼睛和鼻子周围的肌肉(例如眼轮匝肌、额肌、上唇提肌、鼻肌)紧张(例如轻蔑、厌恶、悲伤)时,眼睛和鼻子周围的面部可能凸起,并且因此改变面部上的局部定位与对应的接近传感器之间的距离。
力传感器可以被配置为通过耳朵的变形来检测力传感器上的压力。耳朵的变形可以由上耳廓和颧大肌的紧张引起,其与害怕、愤怒和惊讶有关。
弯曲传感器可以被配置为检测耳戴式装置201的电线的弯曲,如果耳戴式装置201是有线的(例如从耳朵垂下的耳机电缆)。当咬肌、颧肌和颊肌处于紧张(快乐)时,面部凸起推动电线并且引起一些弯曲。用于检测电线的小弯曲的紧凑弯曲传感器的示例是纳米传感器,该纳米传感器包括扭转光机械谐振器和针对扭转(弯曲)的检测的诸如光纤电缆的波导。
电容传感器可以被配置为检测耳戴式装置201的电线处的电容改变。电容传感器可以被提供在电线中。当头部移动或者表情改变时,面部可以接触电线,引起电线在沿着电线的某个位置处的电容的改变。快乐(微笑)可以使用电容传感器被检测。
传感器代理502被配置为向可选的噪声滤波器504提供接收到的信息。噪声滤波器504可以包括高通滤波器、低通滤波器、带通滤波器、独立分量分析滤波器、或空时滤波器,诸如离散小波变换滤波器。在示例实现中,噪声滤波器504包括低通滤波器。
随后过滤后的信息被传递至面部表情检测器510,面部表情检测器可以执行框120。
可选的资源管理器508例如根据资源可用性和/或客户端应用的请求来调整IMU204的采样率和监测间隔。
可选的应用编程接口(API)512被提供,其使得客户端514(诸如软件应用或者其他请求者)能够请求面部表情信息。
在一些但不一定是全部示例中,API 512可以支持多个请求类型,诸如1)连续查询,2)现场查询,和/或3)历史查询。连续查询可以引起服务器500连续地或周期性地监测用户的面部表情并且在给定时间提供最终结果。现场查询可以引起服务器500返回用户做出的最新面部表情。历史查询可以引起服务器500返回在请求指定的时间范围内的过去面部表情的列表。
可选数据库(DB)506维护面部表情信息和/或原始IMU数据,例如以响应历史查询。
方法100可以在框120完成之后终止或循环返回。在框120之后,所确定的面部表情信息可以被存储在存储器中。对于如上所述的客户端-服务器模型,所确定的面部表情信息可以被存储在数据库506中和/或被提供给请求客户端514。因此,在客户端-服务器模型中,方法100可以包括接收来自客户端514的针对面部表情信息的请求。该请求可以指示以上述请求类型的一种类型。方法100可以包括作为响应提供面部表情信息。提供的信息可以符合请求类型。
一旦客户端514已经接收到面部表情信息,随后客户端可以根据面部表情信息控制电子设备功能。因此,执行方法100的服务器500或者其他装置可以被概括为能够引起至少部分地(例如,经由客户端)根据面部表情信息来控制电子设备功能。因此,方法100的可选框130被提供,其包括至少部分地引起根据面部表情信息来控制电子设备功能。
下面提供了一些针对应用可以如何根据面部表情信息控制电子设备功能的示例用例。示例用例代表用户可能希望或者至少接受穿上包括IMU 204的可穿戴设备的情况。它们还代表当确保穿戴者400在用于追踪面部表情的相机的视野里时可能是不可取的或者不切实际的情况。
在一些但不一定是全部示例中,控制电子设备功能包括控制致动器。可以被控制的致动器的示例包括但不限于:环境控制致动器(例如恒温器);导航致动器(例如CCTV平移/缩放、转向);或医疗设备致动器。
在一些但不一定是全部示例中,控制电子设备功能包括控制人机接口(HMI)功能。控制人机接口功能可以包括将面部表情信息解释为由用户输入的命令,并且引起电子设备功能根据输入命令来被控制。这使用户能够有意地修改他们的面部表情以提供用户输入来控制电子设备。附加或备选地,控制人机接口功能可以包括通过输出设备根据面部表情信息来控制反馈信息的输出。这使得依赖于穿戴者面部表情的信息能够被反馈到穿戴者用户或者不同的用户。
在至少一个输出功能被控制的示例中,该输出功能可以是由以下用于用户输出的输出设备一个或多个输出设备所提供的用户输出功能:显示器;打印机;触觉反馈单元;音频扬声器(例如210);或气味合成器。
在输出设备是显示器的示例中,由显示器根据面部表情信息所显示的信息可以包括文本、图像或任何其他合适的图形内容。所显示的信息可以向客户端应用514的用户指示与穿戴者相关联的当前面部表情信息或当前情绪状态信息。客户端应用514的用户可以是被监测用户(IMU穿戴者400)或另一个用户。
如上所提到的所显示的面部表情信息可以简单地提供面部表情的指示(例如微笑、皱眉)。如上所述所显示的情绪状态信息可以提供被确定为与面部表情相关联的情绪的指示(例如,微笑=快乐,皱眉=悲伤/困惑)。附加处理可以被执行以从面部表情信息确定情绪状态信息。这是因为情绪状态不一定由即时面部表情指示,但是从面部表情的时间历史中可以是显然的。指示疲劳的情绪状态信息可以和与负面情绪(例如愤怒、厌恶、轻蔑)相关联的类别内的频繁表情相关。因此,情绪状态信息可以根据面部表情信息的时间历史来被确定。
在至少一个输出功能被控制的示例中,框130的控制可以包括根据面部表情信息由输出设备来控制反馈信息的输出。反馈信息可以指示穿戴者400的当前情绪状态。
反馈信息可以包括任务的推荐的改变。这对于穿戴者疲劳或有害情绪可能影响穿戴者执行任务的能力的用例是有利的。在各种示例中,穿戴者400可以是雇员。雇员可能正在执行安全关键任务,诸如驾驶车辆、制造或装配安全关键组件、处理危险化学品或在核电站工作等。
对于雇员监测,方法100可以包括接收针对面部表情信息的请求。该请求可以包括如上所述的连续查询,或者现场查询或历史查询。该请求可以来自客户端应用514,其可以是雇主侧客户端应用或雇员侧客户端应用。该请求可以由穿戴者400当前正在执行的任务的确定来触发,例如对用户已开始工作或轮班的确定。可以使用技术来作出确定,诸如:使用位置传感器追踪穿戴者的位置;确定可穿戴设备是否已由用户穿上;从日历应用接收信息;或者接收指示用户正在执行任务的用户输入。图1的方法100可以响应于该请求来被执行。
方法100可以附加地包括根据所确定的面部表情信息来决定是否输出推荐从所确定的当前任务的任务的改变的反馈信息。该决定可以在图6的客户端应用514或服务器500中执行。
该决定可以基于如上所述的情绪状态信息。如果所确定的情绪状态信息具有第一属性或值(例如情绪类别),则决定可以是将方法100循环返回(连续查询)或终止(现场查询、历史查询),和/或输出指示情绪状态的信息。如果所确定的情绪状态信息具有第二属性或值(例如,不同的情绪类别),则决定可以是推荐任务的改变的输出反馈信息。使用上面的“疲劳”示例,第一属性/值可以不与疲劳相关联并且第二属性/值可以与疲劳相关联。在其他示例中,该决定可以基于面部表情信息而无需确定情绪状态信息。
任务的推荐的改变可以包括推荐暂时或永久地停止任务,诸如休息或停止。如果包括IMU 204的可穿戴设备200还包括音频扬声器210,则反馈信息可以被输出到音频扬声器210。这是方便的,因为穿戴者不需要靠近外部音频扬声器并且不需要分离地穿戴音频扬声器设备。反馈信息可以被配置为以耳机音量级别输出,使得其他附近的用户不对反馈信息报警。然而,应当理解,反馈信息可以被提供到任何合适的输出设备。
响应于任务的推荐的改变,雇主可以引导雇员休息或停止,或者穿戴者400可以自己决定休息或停止。
任务的推荐的改变不必须在全部示例中都推荐休息或停止任务。例如,用户可以正在通过任务的行程工作(例如爱好、烹饪、看电视),并且推荐可以基于情绪状态推荐何时改变任务。在健身监测用例中,任务的推荐的改变可以是开始或停止锻炼。
根据上面的用例,推荐是改变任务。然而,在附加或备选的用例中,反馈信息可以包括对如何执行任务的推荐改变,而不必要改变任务。除了给出不同的反馈外,所涉及的步骤可以与上述用于推荐任务的改变的用例相同,或者可以不同。
改变任务如何执行的示例包括在通信任务期间优化面部表情。面部表情是非常重要非语言通信的形式,可论证地与由穿戴者400选择的词语一样重要。如果穿戴者的面部表情与他们试图传达的图像相矛盾,则反馈会提高用户的通信能力。
用户可能希望在高压面对面通信任务期间优化他们的面部表情(例如工作面试、销售互动、医生患者互动、会议、葬礼)。使用相机的基于视觉的情绪追踪系统可以不是可用的选项,因为具有相机的个人设备可能需要被遗留在口袋里。这使得可穿戴IMU方法可取。在其他实现中,通信可以是视频通信。对于通信任务,不断转向个人设备以进行现场或历史查询可能是不礼貌的,因此进行连续查询的能力对于通信任务是有利的。
检测用户正在执行通信任务可以如上所述(例如位置追踪、佩戴时、日历信息或手动输入)。是否推荐任务如何执行中的改变的决定可以使用上述方法(例如,基于情绪状态信息或仅面部表情信息)。
任务如何被执行的推荐的改变不一定限于通信任务。例如,任务如何被执行的推荐改变可以包括推荐任务(诸如锻炼强度、车辆驾驶速度/加速度或其他疲劳任务)强度的增加或减少。如果情绪状态没有改善,雇员监测示例可以在推荐休息之前首先推荐任务强度的改变。
下面将描述进一步的示例,其中由方法100的框130控制的HMI功能包括输入功能。例如,客户端应用514可以将面部表情信息解释为由用户的输入命令,并且可以根据输入命令来引起设备功能被控制。
输入命令可以包括以下至少一项:由用户接口所提供的选项的选择;用户接口内的导航;插入对象(例如表情符号、文本和/或图像);改变设备电源状态(开、关、睡眠);激活或解激活外围设备或子系统等。
使用面部表情进行输入将有用的示例是,当具有输入HMI的设备不方便访问时。例如,如果用户正在驾驶或在开会中,他们可能会由法律禁止或者由礼节而被阻止使用诸如移动电话等个人设备。如果个人设备具有相机,个人设备甚至可以被收起,这防止基于视觉的情绪追踪的使用。在这种状况下,可穿戴设备IMU 204的使用是有利的。
输入命令可以控制免提设备功能。免提功能包括以下一个或多个:接受和/或拒绝传入请求以开始通信会话(例如传入语音/视频呼叫请求);终止通信会话(例如挂断);回复基于文本的通信(例如使用SMS或即时通讯应用);改变应用上的用户状态(例如忙碌、空闲);收听语音邮件;改变设备设置(例如响亮、静音、飞机);取消或推迟通知(例如告警、传入的基于文本的通信)等。
在一些示例中,免提功能可以用于虚拟助理服务。免提功能可以用于指令或用于响应来自虚拟助理服务的查询。针对虚拟助理服务的接口可以由诸如缺少用于与虚拟助理服务和/或图形用户接口交互的基于触摸的人机接口的耳戴式装置201的设备提供。
在一些但不一定是全部示例中,当面部表情信息与第一面部表情相关联时,输入命令是第一输入命令,并且当面部表情信息与第二(不同的)面部表情相关联时,输入命令是第二(不同)输入命令。例如,诸如微笑的第一面部表情可以开始回复或确认功能(例如发送未接来电的确认、确认告警),并且诸如皱眉的第二面部表情可以开始取消功能(例如取消未接来电通知,延迟告警)。如果面部表情不属于以上两项或不能被确定,则无面部表情相关动作可以被执行。在其他示例中,仅一种类型的面部表情可以被识别,例如微笑或不微笑,或者多于两个可识别的面部表情可以提供多于两个或三个结果。
本文所描述的方法可以由诸如图7A中所示的装置602的装置602执行。装置602可以与IMU 204一起被提供在可穿戴设备200中,或者可以被提供在与包括IMU 204的设备分离的设备601中。设备601可以包括输出设备612。输出设备612可以执行先前所公开的(多个)输出设备的一个或多个输出设备的功能。在其他实现中,输出设备612可以与设备601分离地被提供。
因此,在一个示例中,提供了包括装置602和IMU 204的设备601,并且在另一示例中,提供了包括装置602和分离的IMU 204的系统600,其通过有线或无线地耦合。系统600可以可选地包括输出设备612。
图7A的设备601可以可选地包括:
一个或多个相机(未示出),例如一个或多个前置相机和/或一个或多个后置相机;
用户接口(未显示),诸如触摸屏、按钮、滑块或其他已知的底层技术;
输入/输出通信设备(未示出)配置为发送和/或接收本文所描述的数据/信息,诸如天线或有线接口。
图7A的设备601可以是本文所提到的个人设备。设备601可以被配置为提供本文所提到的电子设备功能。设备601可以是手提便携式电子设备601。手提便携式电子设备601可以是智能电话、平板电脑或膝上型电脑。
图7A图示了控制器604的示例。控制器604的实现可以作为控制器电路系统。控制器604可以单独以硬件实现,在软件中具有某些方面包括单独的固件,或者可以是硬件和软件(包括固件)的组合。
如图7A所图示,控制器604可以使用启用硬件功能的指令来实现,例如,通过使用可以被存储在计算机可读存储介质(磁盘,存储器等)上的通用或专用处理器606中的计算机程序610的可执行指令以由这种处理器606执行。
处理器606被配置为读取和写入存储器608。处理器606还可以包括由处理器606经由其输出数据和/或命令的输出接口和经由其输入数据和/或命令到处理器606的输入接口。
存储器608存储包括计算机程序指令(计算机程序代码)的计算机程序610,当计算机程序610被加载到处理器606中时控制装置602的操作。计算机程序610的计算机程序指令提供逻辑和例程使得装置能够执行图1所图示的方法100。处理器606通过读取存储器608能够加载和执行计算机程序610。
因此装置602包括:
至少一个处理器606;以及
包括计算机程序代码的至少一个存储器608,
至少一个存储器608和计算机程序代码被配置为与至少一个处理器606一起使装置602至少执行:
从被配置为被穿戴在用户头部上的至少一个惯性测量单元接收信息;
至少部分地引起至少根据接收到的信息确定面部表情信息;以及
至少部分地引起根据面部表情信息控制人机接口功能。
如图7B所图示,计算机程序610可以经由任何适当的递送机制614到达装置602。递送机制614可以是例如机器可读介质、计算机可读介质、非瞬态计算机可读存储介质、计算机程序产品、存储器设备、记录介质(诸如光盘只读存储器(CD-ROM)或数字多用途光盘(DVD)或固态存储器、包括或有形地实施计算机程序610的制品)。递送机制可以是配置为可靠地传送计算机程序610的信号。装置602可以传播或发送计算机程序610作为计算机数据信号。
计算机程序指令,其用于引起装置至少执行以下操作或用于至少执行以下操作:引起从被配置为被穿戴在用户的头部的至少一个惯性测量单元接收信息;至少部分地引起至少根据接收到的信息确定面部表情信息;并且至少部分地引起根据面部表情信息控制人机接口功能。
计算机程序指令可以被包括在计算机程序、非瞬态计算机可读介质、计算机程序产品、机器可读介质中。在一些但不一定是全部示例中,计算机程序指令可以分布在多于一个的计算机程序上。
尽管存储器608被图示为单个组件/电路系统,但它可以被实现为一个或多个分离的组件/电路系统,其中一些或全部可以被集成/可移除和/或可以提供永久/半永久/动态/缓存存储。
尽管处理器606被图示为单个组件/电路系统,但它可以被实现为一个或多个分离的组件/电路系统,其中一些或全部可以是集成/可移除的。处理器606可以是单核或多核处理器。
对“计算机可读存储介质”、“计算机程序产品”、“有形地实施的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用应当被理解为不仅包括具有诸如单/多处理器架构和顺序(冯诺依曼)/并行架构的不同架构的计算机,还包括诸如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理设备和其他处理电路系统的专用电路。对计算机程序、指令、代码等的引用应当被理解为包括用于可编程处理器或固件的软件,诸如例如硬件设备的可编程内容,无论是针对处理器的指令,还是针对固定功能设备的配置设置、门阵列或可编程逻辑器件等。
如本申请中所使用的,术语“电路系统”可以指代以下一个或多个或全部:
(a)仅硬件电路系统实现(诸如在仅模拟和/或数字电路系统中实现)以及
(b)硬件电路和软件的组合,诸如(如适用):
(i)模拟和/或(多个)数字硬件电路与软件/固件的组合以及
(ii)具有软件(包括(多个)数字信号处理器)、软件和(多个)存储器的硬件处理器的任何部分一起工作以引起设备(诸如移动电话或服务器)执行各种功能以及
(c)(多个)硬件电路和/或(多个)处理器(诸如(多个)微处理器或(多个)微处理器的一部分)需要软件(例如固件)用于操作,但是当其不被需要被用于操作时该软件可以不存在。
电路系统的该定义应用于该术语在本申请中的全部使用,包括在任何权利要求中。作为进一步的示例,如在本申请中所使用的,术语电路系统还涵盖仅硬件电路或处理器及其(或它们的)伴随软件和/或固件的实现。术语电路系统还涵盖(例如并且如果可应用于特定的权利要求元素)用于移动设备的基带集成电路或服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。
图1和图5中所图示的框可以代表方法中的步骤和/或计算机程序610中的代码的片段。对框的特定顺序的说明不一定暗示有所需的或优选的针对框的顺序,并且框的顺序和排列可以变化。此外,一些框被省略是可能的。
方法100的技术影响是经改进的生理学的传感器。这是因为面部表情传达了关于正在做表情的人类的生理学的信息,并且可以在那些可以看到面部表情的人类中引起生理学的反应。传感器被改进至少是因为与不像其他生理学传感器,惯性测量单元不需要与用户的皮肤持续直接接触,并且小、轻以及廉价以用于可穿戴设备配件中的。
IMU 204在耳戴式装置201中的技术影响是IMU 204可以启用附加于面部表情信息服务的服务。根据一些但不一定是全部示例中,本文所描述的装置和方法可以被配置为从耳戴式IMU信息确定头部姿势信息,并向应用提供将头部姿势信息。该应用可以包括虚拟现实功能、增强现实功能或混合现实功能,其配置为根据头部姿势信息控制所渲染的凝视方向。另一潜在的应用可以包括注意力报警功能,该功能可以在头部下垂时(例如在驾驶期间)提供报警。在另外的示例中,由耳戴式装置的音频扬声器210所渲染的音频的音频属性可以根据耳戴式装置IMU信息被控制。
在进一步的示例中,本文所描述的装置和方法可以被配置为使用例如航位推算从IMU信息确定位置信息。位置信息可以指示穿戴者的当前位置和/或穿戴者的导航路径。该应用可以包括地图功能、引导给出功能和/或用于追踪穿戴者(例如雇员)的追踪功能。
其中结构特征已经被描述,它可以借助于执行结构特征的功能一个或多个功能被代替,无论该功能或那些功能是明确地还是隐式地被描述。
数据的捕获可以仅包括临时记录,或者它可以包括永久记录或者它也可以包括临时记录和永久记录两者。临时记录暗示临时的数据的记录。例如这可以发生在感测或图像捕获期间、发生在动态存储器中、发生在诸如循环缓冲器、寄存器、缓存器或类似的缓冲器中。永久记录暗示数据以可寻址数据结构的形式,可从可寻址存储空间中检索,并且从而可以被存储和被检索直到删除或覆盖,尽管长期存储可能会或可能不会发生。关于图像的术语“捕获”的使用涉及图像的数据的临时或永久记录。
系统、装置、方法和计算机程序可以使用可以包括统计学习的机器学习。机器学习是计算机科学的领域,它给予计算机无需被明确地编程的学习的能力。如果计算机在T中任务的性能如由P所测量的随着经验E提高,则计算机从关于任务T和性能测量P中的一些类别的任务T和性能测量P的经验E中学习。计算机通常可以从先前的训练数据中学习以对未来数据做预测。机器学习包括完全或部分地监督学习以及完全或部分地无监督学习。它可以启用离散输出(例如分类、聚类)和连续输出(例如回归)。机器学习可以例如使用诸如成本函数最小化、人工神经网络、支持向量机和贝叶斯网络的不同的方式来实现被实现。例如,成本函数最小化可以被用于线性和多项式回归以及K均值聚类。人工神经网络,例如具有一个或多个隐藏层,在输入向量和输出向量之间模拟复杂关系。支持向量机可以被用于监督学习。贝叶斯网络是一个有向非循环图,代表多个随机变量的条件独立性。
本文件中所使用的术语“包括”具有包括性无排他性含义。即对包含Y的X的任何引用指示X可以包括仅一个Y或者可以包括多于一个的Y。如果旨在使用具有排他性含义的“包含”,那么在上下文中将通过指代“仅包括一个……”或者通过使用“包含”。
在本说明书中,已经参考了各种示例。关于示例特征或功能的描述指示那些特征或功能存在于该示例中。在文本中术语“示例”或“例如”或“能够”或“可以”的使用表示,无论明确地陈述与否,这种特征或功能至少存在于所描述的示例中,无论被描述为示例与否,并且它们可以但不一定存在于一些或全部其他示例中。因此,“示例”、“例如”、“能够”或“可以”指代示例类别中的特定实例。实例的属性可以是仅该实例的属性或类别的属性或类别的子类的属性,该子类包括类别中的一些但不是全部实例。因此,隐式地公开了参考一个示例而不是参考另一示例所描述的特征,可以在可能的情况下在该其他示例中被用作工作组合的一部分,但不一定必须被用于其他示例中。
在本说明书中,至少部分地引起电子设备功能的控制,该功能可以包括直接地控制输入设备和/或输出设备和/或致动器,或者向请求客户端提供数据以引起客户端控制输入设备和/或输出设备和/或致动器。
尽管在前述段落中已经参考各种示例描述了实施例,但是应当理解,在不脱离权利要求的范围的情况下可以对给定的示例做修改。
前述描述中所描述的特征可以用于除上面明确描述的组合以外的组合。
尽管已经参考某些特征描述了功能,但是那些功能可以由其他特征执行,无论是否描述。
尽管已经参考某些实施例描述了特征,但是那些特征也可以存在于其他实施例中,无论是否描述。
本文件中所使用的术语“一个”或“所述”具有包括性无排他性。即对包含一个/所述Y的X的任何引用指示X可以包括仅一个Y或者可以包括多于一个的Y,除非上下文清楚地指示相反情况。如果旨在使用具有排他含义的“一个”或“所述”,那么将在上下文中使它清楚。在一些情况下,“至少一个”或“一个或多个”的使用可以被用以强调包含性的含义,但是这些术语的缺少不应当被视为推断和排他性含义。
权利要求中特征(或特征的组合)的存在是对该特征或(特征的组合)其本身的引用,并且也是对实质上达到相同技术影响的特征(等效特征)的引用。等效特征包括例如变体并且以实质上相同的方式达到实质上相同的结果的特征。等效特征包括例如执行实质上相同功能,以实质上相同的方式以达到实质上相同的结果的特征。
在本说明书中,已经引用各种使用形容词或形容词短语来描述示例特征的示例。关于示例的特性的这种描述指示该特性完全地如所描述地存在于一些示例中并且实质上如所描述地存在于其他示例中。
在上述说明书中努力引起对那些被认为重要的特征的注意的同时,应当理解,申请人可以经由权利要求就任何可专利的特征或在前文中所提及和/或附图中示出特征的组合寻求保护,无论重点是否已经被放置在其上。
Claims (15)
1.一种装置,包括用于以下操作的部件:
从至少一个惯性测量单元接收信息,所述至少一个惯性测量单元被配置为被穿戴在用户的头部上;以及
至少部分地引起至少根据接收到的所述信息来确定面部表情信息。
2.根据权利要求1所述的装置,其中所述至少一个惯性测量单元包括陀螺仪。
3.根据权利要求1或2所述的装置,其中所述惯性测量单元被配置为耳戴式装置的一部分。
4.根据权利要求1、2或3所述的装置,其中所述面部表情信息根据所述信息和机器学习被确定。
5.根据权利要求4所述的装置,其中所述机器学习包括机器学习算法,所述机器学习算法包括神经网络或者隐马尔可夫模型。
6.根据权利要求5所述的装置,其中所述机器学习算法包括一个或多个卷积层以及一个或多个长短期记忆层。
7.根据任一项前述权利要求所述的装置,包括用于至少部分地引起根据所述面部表情信息来控制电子设备功能的部件。
8.根据权利要求7所述的装置,其中控制所述电子设备功能包括根据所述面部表情信息通过输出设备来控制反馈信息的输出。
9.根据权利要求8所述的装置,其中所述反馈信息包括任务的推荐的改变。
10.根据权利要求8或9所述的装置,其中所述反馈信息包括任务如何被执行的推荐的改变。
11.根据权利要求7至10任一项所述的装置,其中控制所述电子设备功能包括将所述面部表情信息解释为由所述用户做出的输入命令,并且根据所述输入命令引起所述电子设备功能被控制。
12.一种手持便携式电子设备,包括任一项前述权利要求所述的装置。
13.一种系统,包括根据任一项前述权利要求所述的装置和根据任一项前述权利要求所述的惯性测量单元。
14.一种方法,包括:
从至少一个惯性测量单元接收信息,所述至少一个惯性测量单元被配置为被穿戴在用户的头部上;以及
至少部分地引起至少根据接收到的所述信息来确定面部表情信息。
15.一种计算机程序,所述计算机程序当在计算机上被运行时,执行:
引起从至少一个惯性测量单元接收信息,所述至少一个惯性测量单元被配置为被穿戴在用户的头部上;以及
至少部分地引起至少根据接收到的所述信息来确定面部表情信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19161913.9A EP3709131A1 (en) | 2019-03-11 | 2019-03-11 | Detection of facial expressions |
EP19161913.9 | 2019-03-11 | ||
PCT/EP2020/054709 WO2020182447A1 (en) | 2019-03-11 | 2020-02-24 | Detection of facial expressions |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113557490A true CN113557490A (zh) | 2021-10-26 |
Family
ID=65766824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080020530.6A Pending CN113557490A (zh) | 2019-03-11 | 2020-02-24 | 面部表情检测 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220137702A1 (zh) |
EP (1) | EP3709131A1 (zh) |
CN (1) | CN113557490A (zh) |
WO (1) | WO2020182447A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11675421B1 (en) * | 2021-12-23 | 2023-06-13 | Microsoft Technology Licensing, Llc | Time-multiplexing resonant drive scheme to generate dual polarity supplies |
EP4210348A1 (en) * | 2022-01-06 | 2023-07-12 | Oticon A/s | A method for monitoring and detecting if hearing instruments are correctly mounted |
US20230389851A1 (en) * | 2022-06-07 | 2023-12-07 | Synchron Australia Pty Limited | Systems and methods for controlling a device based on detection of transient oscillatory or pseudo-oscillatory bursts |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120229248A1 (en) * | 2011-03-12 | 2012-09-13 | Uday Parshionikar | Multipurpose controller for electronic devices, facial expressions management and drowsiness detection |
US20140078049A1 (en) * | 2011-03-12 | 2014-03-20 | Uday Parshionikar | Multipurpose controllers and methods |
CN104731342A (zh) * | 2015-04-03 | 2015-06-24 | 山东大学 | 一种可同时采集捕捉对象面部表情的惯性动作捕捉系统及其运行方法 |
JP2016126500A (ja) * | 2014-12-26 | 2016-07-11 | Kddi株式会社 | ウェアラブル端末装置およびプログラム |
US20160313801A1 (en) * | 2015-01-02 | 2016-10-27 | Wearable Devices Ltd. | Method and apparatus for a gesture controlled interface for wearable devices |
US20170160813A1 (en) * | 2015-12-07 | 2017-06-08 | Sri International | Vpa with integrated object recognition and facial expression recognition |
US20180074584A1 (en) * | 2016-09-13 | 2018-03-15 | Bragi GmbH | Measurement of Facial Muscle EMG Potentials for Predictive Analysis Using a Smart Wearable System and Method |
US20180107275A1 (en) * | 2015-04-13 | 2018-04-19 | Empire Technology Development Llc | Detecting facial expressions |
US20180277092A1 (en) * | 2017-03-24 | 2018-09-27 | International Business Machines Corporation | Sensor based text-to-speech emotional conveyance |
US10311645B1 (en) * | 2016-10-14 | 2019-06-04 | Floreo, Inc. | Methods and systems for treating autism |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8223024B1 (en) * | 2011-09-21 | 2012-07-17 | Google Inc. | Locking mechanism based on unnatural movement of head-mounted display |
FR3072272A1 (fr) * | 2017-10-16 | 2019-04-19 | Fizimed | Dispositif de mesure des contractions et/ou du relachement des muscles d'une cavite corporelle et methodes associees. |
-
2019
- 2019-03-11 EP EP19161913.9A patent/EP3709131A1/en active Pending
-
2020
- 2020-02-24 US US17/433,844 patent/US20220137702A1/en active Pending
- 2020-02-24 CN CN202080020530.6A patent/CN113557490A/zh active Pending
- 2020-02-24 WO PCT/EP2020/054709 patent/WO2020182447A1/en active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120229248A1 (en) * | 2011-03-12 | 2012-09-13 | Uday Parshionikar | Multipurpose controller for electronic devices, facial expressions management and drowsiness detection |
US20140078049A1 (en) * | 2011-03-12 | 2014-03-20 | Uday Parshionikar | Multipurpose controllers and methods |
JP2016126500A (ja) * | 2014-12-26 | 2016-07-11 | Kddi株式会社 | ウェアラブル端末装置およびプログラム |
US20160313801A1 (en) * | 2015-01-02 | 2016-10-27 | Wearable Devices Ltd. | Method and apparatus for a gesture controlled interface for wearable devices |
CN104731342A (zh) * | 2015-04-03 | 2015-06-24 | 山东大学 | 一种可同时采集捕捉对象面部表情的惯性动作捕捉系统及其运行方法 |
US20180107275A1 (en) * | 2015-04-13 | 2018-04-19 | Empire Technology Development Llc | Detecting facial expressions |
US20170160813A1 (en) * | 2015-12-07 | 2017-06-08 | Sri International | Vpa with integrated object recognition and facial expression recognition |
US20180074584A1 (en) * | 2016-09-13 | 2018-03-15 | Bragi GmbH | Measurement of Facial Muscle EMG Potentials for Predictive Analysis Using a Smart Wearable System and Method |
US10311645B1 (en) * | 2016-10-14 | 2019-06-04 | Floreo, Inc. | Methods and systems for treating autism |
US20180277092A1 (en) * | 2017-03-24 | 2018-09-27 | International Business Machines Corporation | Sensor based text-to-speech emotional conveyance |
Non-Patent Citations (6)
Title |
---|
KAWSAR FAHIM等: "earables for Personal-Scale Behavior Analytics", 《IEEE PERVASIVE COMPUTING》, vol. 17, no. 30, 30 September 2018 (2018-09-30), pages 83 - 89 * |
LEE, SEUNGCHUL: "Automatic Smile and Frown Recognition with Kinetic Earables", 《ROCEEDINGS OF THE 10TH AUGMENTED HUMAN INTERNATIONAL CONFERENCE 2019》, 12 March 2019 (2019-03-12), pages 1 - 4, XP058429013, DOI: 10.1145/3311823.3311869 * |
梁礼明: "《优化方法导论》", 30 September 2017, 北京理工大学出版社, pages: 194 - 196 * |
胡忠义: "《基于计算智能技术的电力负荷预测理论及应用》", 31 January 2019, 武汉大学出版社, pages: 30 - 31 * |
蔡红霞: "《虚拟仿真原理与应用》", 31 March 2010, 上海大学出版社, pages: 96 - 97 * |
陈婧: "莎士比亚"暴风雨"逼真降临", 《IT经理世界》, no. 5, 5 March 2017 (2017-03-05), pages 64 - 67 * |
Also Published As
Publication number | Publication date |
---|---|
EP3709131A1 (en) | 2020-09-16 |
US20220137702A1 (en) | 2022-05-05 |
WO2020182447A1 (en) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230333377A1 (en) | Display System | |
KR102354428B1 (ko) | 이미지를 분석하기 위한 웨어러블기기 및 방법 | |
JP6815486B2 (ja) | 精神障害の療法のためのモバイルおよびウェアラブルビデオ捕捉およびフィードバックプラットフォーム | |
US10779761B2 (en) | Sporadic collection of affect data within a vehicle | |
US10223838B2 (en) | Method and system of mobile-device control with a plurality of fixed-gradient focused digital cameras | |
US20210081754A1 (en) | Error correction in convolutional neural networks | |
US11073899B2 (en) | Multidevice multimodal emotion services monitoring | |
CN113557490A (zh) | 面部表情检测 | |
CN112181152A (zh) | 基于mr眼镜的广告推送管理方法、设备及应用 | |
ES2813611T3 (es) | Aprovechamiento de un apretón de manos físico en pantallas montadas en la cabeza | |
CN114926292A (zh) | 信息处理系统和控制方法 | |
CN110147742A (zh) | 一种关键点定位方法、装置及终端 | |
Yang et al. | Proxitalk: Activate speech input by bringing smartphone to the mouth | |
US11328187B2 (en) | Information processing apparatus and information processing method | |
KR20210070119A (ko) | 스마트폰 전면 카메라와 인공지능 자세 분석을 이용한 명상 가이드 시스템 | |
CN113615155B (zh) | 用于显示控制的装置和方法 | |
Lim et al. | D-Touch: Recognizing and Predicting Fine-grained Hand-face Touching Activities Using a Neck-mounted Wearable | |
US20210097629A1 (en) | Initiating communication between first and second users | |
US11550528B2 (en) | Electronic device and method for controlling operation of accessory-mountable robot | |
Marques-Villarroya et al. | A bio-inspired exogenous attention-based architecture for social robots | |
US20240094824A1 (en) | Finger gesture recognition via acoustic-optic sensor fusion | |
El Mougy | Character-IoT (CIoT): Toward Human-Centered Ubiquitous Computing | |
US11632456B1 (en) | Call based emotion detection | |
US20230230597A1 (en) | Distributed sensor data processing using multiple classifiers on multiple devices | |
US20240143267A1 (en) | Electronic device for using external device in metaverse and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |