CN111966223B - 非感知的mr眼镜人机识别方法、系统、设备及存储介质 - Google Patents
非感知的mr眼镜人机识别方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN111966223B CN111966223B CN202010827032.4A CN202010827032A CN111966223B CN 111966223 B CN111966223 B CN 111966223B CN 202010827032 A CN202010827032 A CN 202010827032A CN 111966223 B CN111966223 B CN 111966223B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- eye
- model
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 195
- 239000011521 glass Substances 0.000 title claims abstract description 146
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 230000008447 perception Effects 0.000 title claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000006399 behavior Effects 0.000 claims description 340
- 210000001508 eye Anatomy 0.000 claims description 294
- 230000000007 visual effect Effects 0.000 claims description 158
- 230000004424 eye movement Effects 0.000 claims description 120
- 238000012549 training Methods 0.000 claims description 107
- 230000033001 locomotion Effects 0.000 claims description 104
- 230000008569 process Effects 0.000 claims description 74
- 239000010410 layer Substances 0.000 claims description 62
- 230000004434 saccadic eye movement Effects 0.000 claims description 58
- 210000003128 head Anatomy 0.000 claims description 48
- 238000013473 artificial intelligence Methods 0.000 claims description 43
- 230000004886 head movement Effects 0.000 claims description 43
- 210000005252 bulbus oculi Anatomy 0.000 claims description 42
- 230000001133 acceleration Effects 0.000 claims description 40
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 210000001747 pupil Anatomy 0.000 claims description 36
- 230000002452 interceptive effect Effects 0.000 claims description 35
- 208000003443 Unconsciousness Diseases 0.000 claims description 29
- 239000000872 buffer Substances 0.000 claims description 29
- 230000003993 interaction Effects 0.000 claims description 29
- 206010044565 Tremor Diseases 0.000 claims description 24
- 238000005516 engineering process Methods 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000013515 script Methods 0.000 claims description 20
- 238000012795 verification Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 16
- 239000000463 material Substances 0.000 claims description 16
- 230000003287 optical effect Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 15
- 230000004438 eyesight Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000004397 blinking Effects 0.000 claims description 7
- 230000006461 physiological response Effects 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000002093 peripheral effect Effects 0.000 claims description 6
- 238000013475 authorization Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 230000010344 pupil dilation Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000011049 filling Methods 0.000 claims description 4
- 238000013095 identification testing Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 230000002146 bilateral effect Effects 0.000 claims description 3
- 238000005336 cracking Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 239000003889 eye drop Substances 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 210000003205 muscle Anatomy 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000000193 eyeblink Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 239000011229 interlayer Substances 0.000 claims description 2
- 238000011068 loading method Methods 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 claims description 2
- 230000009191 jumping Effects 0.000 claims 3
- 238000002372 labelling Methods 0.000 claims 2
- 238000012790 confirmation Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 18
- 238000010801 machine learning Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 11
- 238000004091 panning Methods 0.000 description 9
- 239000000243 solution Substances 0.000 description 7
- 230000001055 chewing effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000006073 displacement reaction Methods 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 4
- 230000001711 saccadic effect Effects 0.000 description 4
- 239000004984 smart glass Substances 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000010355 oscillation Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 230000035479 physiological effects, processes and functions Effects 0.000 description 3
- 230000000284 resting effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 206010053694 Saccadic eye movement Diseases 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 235000015111 chews Nutrition 0.000 description 2
- 210000004087 cornea Anatomy 0.000 description 2
- 210000000744 eyelid Anatomy 0.000 description 2
- 210000001097 facial muscle Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 206010029864 nystagmus Diseases 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 210000001525 retina Anatomy 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 238000013477 bayesian statistics method Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000006196 drop Substances 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 208000018360 neuromuscular disease Diseases 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013488 ordinary least square regression Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000036647 reaction Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 210000003786 sclera Anatomy 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 210000002268 wool Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0346—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/131—Protocols for games, networked simulations or virtual reality
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
- G02B2027/0178—Eyeglass type
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Optics & Photonics (AREA)
- Ophthalmology & Optometry (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明属于人机识别技术领域,公开了一种非感知的MR眼镜人机识别方法、系统、设备及存储介质,包括采集多种用户行为数据并进行多个维度的特征提取;当应用发出人机识别需求时,MR眼镜将提取到的特征数据加密后发送给人机识别服务器;人机识别服务器对接收到的用户行为数据进行解密计算后,根据特征数据识别用户当前应用场景,并选择相应的人机识别模型;所述用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用所述人机特征模型确定真人和机器人的识别概率与预设阈值预测概率。本发明不再需要用户执行任何额外的操作,最大程度地降低了用户操作复杂度,同时利用多维特征数据进行模型训练,准确度更高。
Description
技术领域
本发明属于人机识别技术领域,尤其涉及一种非感知的MR眼镜人机识别方法、系统、设备及存储介质。
背景技术
目前,随着互联网的普及,各种网络服务日益成为人们日常生活的一部分,如电子商务、免费的电子邮箱服务、免费的资源下载等等。然而,这些面向人类用户的服务时常被非法用户攻击和一些恶意计算机程序滥用,它们占用服务资源,产生大量的网络垃圾,影响用户的网络体验,对网络服务的安全性造成极大威胁。人机识别系统针对个人有助于保护免受垃圾邮件和密码解密的干扰;针对企业可有效阻止垃圾评论、论坛灌水、恶意注册、刷单、薅羊毛等行为。该系统会要求您完成一个简单的测试,以证明您是人,而不是一台试图攻入受密码保护账户、或恶意批量操作的计算机。
人机识别系统是一种全自动开放式人机区分图灵机测试(Completely AutomatedPublic Turing test to tell computers and humans apart,CAPTCHA),利用进行问答式身份验证的安全措施来区分计算机与人为目标的系统。CAPTCHA的运行机制如下:一个专门的服务器负责产生和评估CAPTCHA测试,用户使用某个需验证的网络服务时,服务器提供给用户一个测试,用户做完后将测试结果提交给服务器,服务器根据结果进行评估,决定该用户能否通过测试。
机器人访问可以划分为两类,一类为:非恶意的访问,如常见各类爬虫机器人,或站点流量分析服务,一般情况下不对网络服务造成影响,但在业务繁忙时段可能进一步加大资源压力;另一类为:恶意的访问,如常见为黑色产业链攻击者,通过构造特殊的网络请求报文,恶意消耗网络服务资源,造成拒绝服务攻击,进一步达到对网络服务提供者勒索或恶性商业竞争的目的。两类机器人访问的IP都频繁地发起访问请求,不管是爬虫或恶意攻击的情况,对访问频次均有很高的要求,明显区别于正常用户使用特点;两类请求通常访问固定的资源,但爬虫和流量分析服务通常只会针对特定的页面进行分析,而恶意攻击者的目标往往针对最消耗系统资源的连接或资源,从而达到拒绝服务的目的。单一iP的访问频次同样显著高于个人用户动态分配IP,但请求当中的用户代理字段,请求链接资源由于正常用户使用的关系,往往不会趋于相同的特征,而呈现高度离散的特点。因此,关联规则算法可以利用最小支持度和置信度概念,从统计学上找到的频繁集。
近眼显示设备(HMD)还包括电子显示器和光学组件。HMD可以是例如混合现实(Mixed Reality)—MR眼镜、增强现实(Augmented Reality)—AR眼镜、虚拟现实-(VirtualReality)—VR眼镜、扩展现实(Extended Reality)— XR 眼镜或其某种组合。电子显示器配置为发射图像光。光学组件被配置为将图像光引导到与用户眼睛的位置对应的HMD的出射光瞳,AR/MR/XR智能眼镜把其所创造的虚拟数字世界和现实世界环境相结合,使佩戴者既可以看到现实世界也可以看到虚拟的全息影像。
随着近几年科技的高速发展,AR/MR智能眼镜人们生活中必不可少的智能终端,存在着巨大的市场价值和市场潜力。在当前已知手机和电脑上的人机识别技术中包括标准型验证码、文本验证码、视频动画验证码、扭曲或粘连模糊型验证码、图文点击验证码、知识型验证码、手机短信、及语音验证码、交互式验证码等。
目前只有电脑和手机上的人机识别方法,针对AR/VR眼镜所用的人机识别方法国内外还没出现。AR/VR眼镜上的交互方式是电脑和手机不具备的,例如眼动交互、手势交互、控制器手柄,因此当前为电脑和手机设计的人机交互技术并不适用于AR/VR眼镜,或者说交互体验很差,但是AR/VR眼镜的不断发展,人机识别是刚需,同手机、电脑、服务器一样,是保护企业安全和利益的重要安全机制。而电脑和手机上的绝大多数人机识别方式需要用户输入某种交互操作(例如键盘输入验证码、拖动拼图),不仅用户体验差;且识别精度不高,准确率低,且用户操作复杂度高。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有技术中没有针对AR/VR眼镜的人机识别方法。
(2)现有人机识别方法需要用户输入某种交互操作,不仅用户体验差;且识别精度不高,准确率低,且用户操作复杂度高。
解决以上问题及缺陷的难度为:
AR/VR眼镜所用的交互方式(例如眼动追踪、头动追踪、控制器追踪等),并且需要考虑用户的眼动行为和认知心理学、AI人工智能全新设计人机交互方法。在正常的人类活动中,眼睛也被广泛使用,因此在通过眼睛的行为(交互行为、观察行为、视觉搜索行为等)作为人机识别的依据时,可能需要分辨出用户的眼睛行为是有意识的还是无意识的。其中实现本技术的难点为区分正常的日常活动相关的眼睛运动与有意/无意眼球运动。
解决以上问题及缺陷的意义为:对比于现有的手机和电脑上常见的人机识别方案,例如用户识别验证码图片后键盘输入验证码、用户鼠标拖动拼图至规定位置完整验证等等诸如此类,无外乎用到了键盘、鼠标、手指点击触摸屏。
本发明结合VR/AR/MR眼镜特有的交互技术实现了人机识别,采用非感知的方式来执行人机识别。即,在用户不知晓的情况下,通过采集的终端设各处的特征(操作行为、轨迹等),例如当用户利用眼睛在做其他事情的同时,顺便采集人机识别所需要的数据,把数据存储在安全缓存器中,和/或将人机识别后的结果存储在缓存器中一段时间,在规定时间内等待系统调用。上述“其他事情”为用户主观意识控制眼睛的应用场景,例如用户在执行某项任务时(购票、购物、下载文件等)、输入文字信息(打字)、阅读、眼动校准、视觉搜索、眼动交互、平滑追视等。再利用人工智能对行为数据集进行机器学习,最后利用训练出的行为模型与当下用户行为进行对比,来判断终端设备处的操作是否为正常用户的操作,进而达到人机识别的效果。
与现有技术中用户需要计算验证码来执行人机识别的方式相比,不再需要用户执行任何额外的操作,从而最大程度地降低了用户操作复杂度。为AR/VR智能眼镜提供了多种人机识别方法,不仅为AR/VR眼镜提供安全保障,降低企业的服务器的安全风险,而且有效促进行业的发展,弥补了本领域国内和国外的技术空白,为正在高速发展的MR眼镜未雨绸缪。
发明内容
针对现有技术存在的问题,本发明提供了一种非感知的MR眼镜人机识别方法、系统、设备及存储介质。
本发明是这样实现的,一种非感知的MR眼镜人机识别方法,所述非感知的MR眼镜人机识别方法包括:
第一步,设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存器;
第二步,对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取;
第三步,当应用发出人机识别需求时,MR眼镜将提取到的特征数据加密后发送给人机识别服务器,人机识别服务器对接收到的用户行为数据进行解密计算后执行第四步;
第四步,人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别模型;
第五步,用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用人机特征模型确定真人和机器人的识别概率与预设阈值预测概率。
进一步,所述第一步中的用户行为数据包括眼球行为和轨迹数据、眼睛无意识生理反应数据、头动数据、身体运动数据、手势数据、6DOF控制器手柄数据。其目的在于当用户利用眼睛在做其他事情的同时,顺便采集人机识别所需要的数据,把数据存储在安全缓存器中,和/或将人机识别后的结果存储在缓存器中一段时间,在规定时间内等待系统调用。上述“其他事情”为用户主观意识控制眼睛的应用场景,例如用户在执行某项任务时(购票、购物、下载文件等)、输入文字信息(打字)、阅读、眼动校准、视觉搜索、眼动交互、平滑追视等;
所述眼球行为和轨迹数据为按照时间顺序呈现的视觉注视点位置连线形成的轨迹图以及在相应位置的注视时长;
所述眼睛无意识生理反应数据包括眨眼、瞳孔直径变化、视觉深度数据;
所述头动数据和身体运动数据为通过MR智能眼镜设备中的加速度传感器、陀螺仪传感器、磁力计、IMU获取的头部和身体数据。
进一步,所述第二步中的对原始数据进行预处理;具体来说,预处理包括数据等长填充和异常数据清洗,对于经过预处理后的数据执行特征提取处理。
进一步,所述第三步中的MR眼镜将提取到的特征数据加密后发送给人机识别服务器包括:MR眼镜将提取到的特征数据通过独有PKI加密技术进行加密,基于SSL协议将采集的用户行为特征数据上传至人机识别服务器。
进一步,所述第四步中的人机识别服务器根据特征数据识别用户当前应用场景并选择相应的人机识别模型包括:
(1)眼睛注视点视觉轨迹模型:包括视觉搜索场景、阅读文字场景、键盘打字输入场景、眼动目标交互场景、追视物体场景、眼动校准场景等应用场景下的眼球行为特征和注视轨迹。
眼睛注视点视觉轨迹模型利用包括目标在页面的坐标、大小、色彩、文字的复杂程度、空格的注视目标信息、注视位置、注视持续时间、注视次数、首次注视区域、首次注视时长、眼跳次数、眼跳距离、瞳孔大小、眼球运动速度、浏览顺序、注视轨迹及相关眼动指标作为特征数据进行训练得到;
(2)眼睛无意识行为模型:
当不存在具体的搜索目的时,采用眼睛无意识行为模型作为人机识别模型;
眼睛无意识行为模型利用眨眼、瞳孔直径、眼颤、视觉深度及相关眼动指标作为特征数据进行模型训练得到;
(3)其他身体行为模型:
其他身体行为模型选择头动数据作为特征数据进行人工智能模型训练得到;
头动数据包括:加速度传感器、陀螺仪、磁力计、IMU信号数据。
进一步,所述非感知的MR眼镜人机识别方法的眼睛注视点视觉轨迹模型包括:
(1)视觉搜索轨迹模型:
当用户具有明确的搜索任务、产生具有明显共性特征的视觉轨迹的场景中选择视觉搜索轨迹模型作为人机识别模型;
所述视觉搜索轨迹模型选择选择注视时长、注视次数、首次注视时长、瞳孔大小、眼球运动速度、扫视路径、眼跳距离、眼跳次数、浏览顺序、UI界面按钮时间和空间分布、一些扫视路径的可视化速度图表及相关信息作为特征数据,进行人工智能模型训练获得;
(2)阅读文字的视觉轨迹模型特征:
当阅读的应用场景下,选择阅读文字的视觉轨迹模型特征作为人机识别模型;所述阅读文字的视觉轨迹模型特征选择眼跳后与文字的位置关系、眼跳距离、眼跳次数、注视时长、文本的内容作为特征数据进行人工智能模型训练获得;
(3)打字输入过程中的视觉轨迹模型:
当存在打字输入的场景时,选择所述打字输入过程中的视觉轨迹模型作为人机识别模型;基于选择的人机识别模型利用对应所述人机识别模型的特征数据进行训练,得到多个人机识别特征模型;
(4)眼动交互过程中的眼睛行为模型:通过眼睛注视点与目标交互的过程中,眼睛通过扫视运动来选择目标,在选择的过程中会出现矫正扫视、眼颤等行为,通过保持注视状态来确定目标,或/和通过其他外设硬件(控制器手柄、手环、戒指)点击确认。
(5)追视物体过程中的眼睛行为模型:当用户对真实/虚拟物体感兴趣时,用户的眼睛可能会跟随真实/虚拟物体的移动而移动,以保持对物体的持续关注,这种用户眼睛注视点跟随物体平滑移动的眼动行为被称之为“平滑追视”。因此,根据与显示物体或真实物体的速度分布相比是否存在匹配,可以很容易的识别出当前用户的平滑追视是机器人还是真人用户,机器人无法模拟出真人用户在追视一个物体时的眼动行为。
(6)眼动校准过程中的眼睛行为模型:在眼动追踪技术中,往往需要初始化眼球生物运动的坐标与物理世界/显示器屏幕的光标映射关系,并且校准眼睛视轴与光轴的偏差关系。往往在眼动校准过程中需要用户始终注视系统的至少一个目标点。综上,在眼动校准过程的同时可以进行人机识别检测。
基于训练得到的眼睛注视点视觉轨迹模型、眼睛无意识行为模型、其他身体行为模型构建融合人机识别模型,并使用样本库中的用户行为数据训练所述融合人机识别模型,得到所述人机识别特征模型。
进一步,所述第五步中的用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用所述人机特征模型确定真人和机器人的识别概率与预设阈值,确定操作所述近眼显示设备的对象是用户或机器人包括:
通过识别概率与预设阈值之间的大小关系,确定待识别数据来自于用户或者是来自于机器人,进而确定操作智能电子设备的对象是用户或者是机器人;
进一步,所述非感知的MR眼镜人机识别方法设置在MR眼镜用户客户端交互界面中的脚本/插件采集多种用户行为数据,当应用发出人机识别需求时,MR眼镜将数据被加密后发送给人机识别服务器;所述用于人机识别的用户行为数据包括眼球行为数据、头动数据、身体运动数据、手势数据、6DOF控制器手柄数据;
所述客户端交互界面应用场景具体为,应用在安装在智能眼镜上的客户端软件、MR眼镜内部系统软件,或者网页浏览器;其中客户端软件在启动时加载采集用户行为数据的第一可执行代码程序组件;网页浏览器可能需要安装某种安全插件用于采集用户行为数据;
采集数据是在应用程序的使用过程中或者浏览器的使用过程中就具备收集行为数据的能力,及用户正常使用的过程中就已经开始采集用户数据用于人机识别;通常采集人机识别程序启动前一段时间内的数据,当在具有人机识别需求时调用自动当前行为数据,自动判断是否符合真人模型,无需额外的交互操作;人机识别需求包括登陆、注册、提交信息、下载。
进一步,所述非感知的MR眼镜人机识别方法用于人机识别的用户行为数据包括眼球行为和轨迹数据、头动数据、身体运动数据、6DOF控制器手柄数据,具体为:
眼球行为和轨迹数据:
眼动轨迹:按照时间顺序呈现的视觉注视点位置连线形成的轨迹图,在该位置的注视时长,人在阅读文本或/和网页时,根据文本内容的排版会有相对类似的视觉认知轨迹;
眼睛无意识生理反应:眨眼;瞳孔直径变化;视觉深度;
头动数据和身体运动数据,头动数据和身体运动数据通过MR智能眼镜设备中的加速度传感器、陀螺仪传感器、磁力计、IMU获取。
进一步,所述非感知的MR眼镜人机识别方法数据采集方式具体为:随机采集用户使用过程中一段时间内的多种用户行为数据,以生成样本数据,将时间上、幅值上都连续的模拟信号,在采样脉冲的作用下,转换成时间上离散、但幅值上仍然连续的离散模拟信号;通过随机采样方法、分层采样方法或者是窗口方法对获取的待识别数据进行采样;对获取的待识别数据的采样频率为20Hz,对每个待识别数据的采样时间可以为6.4秒,根据该采样频率和采样时间生成对应的样本数据。
进一步,所述非感知的MR眼镜人机识别方法从获取到的用户行为从所述原始数据中提取多个维度的特征包括:首先对原始数据进行预处理;然后,对于经过预处理后的数据执行特征提取处理。
进一步,所述非感知的MR眼镜人机识别方法当应用人机识别请求时,将特征数据上传至服务器将多种用户行为数据加密传送至人机识别服务器的过程中对数据进行加密计算,具体实现流程:基于SSI协议将加密后的用户行为数据发送到人机识别服务器,以供人机识别服务器在对接收到的用户行为数据进行解密计算后,则依据预先设置好的行为特征模型,对用户行为数据的触发主体进行人机识别;具体的,通过独有PKI加密技术,基于SSL协议将采集的用户行为数据上传至验证服务端。
进一步,所述非感知的MR眼镜人机识别方法人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别模型,用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用人机特征模型确定真人和机器人的预测概率;
当应用人机识别服务器时,根据用户当前应用场景选择相应的人机识别模型;
第一种眼睛注视点视觉轨迹模型:
(1)视觉搜索轨迹模型:当用户具有明确的搜索任务时,会产生具有明显共性特征的视觉轨迹,具体为在人类在视觉搜索过程中存在有目的自我意图的“扫视”行为,这些扫视具有明确定义的角速度和弹道轮廓(基于眼睛的生理学)。距观察者在不同距离处观察物体时,存在散光运动,前庭眼运动与头部运动以及用于跟随特定(真实或虚拟)对象的平滑跟踪运动相关联。可以根据其他因素来确定用户意图的其他信息,例如瞳孔扩大,晶状体调节,眼睑运动,面部肌肉运动,身体和头部运动,手部运动以及相关的上下文信息。在具有明确的搜索任务的应用场景下可以选择注视时长、注视次数、首次注视时长、瞳孔大小、眼球运动速度、扫视路径、眼跳距离、眼跳次数、浏览顺序、UI界面按钮时间和空间分布、一些扫视路径的可视化速度图表等信息作为特征数据进行人工智能模型训练,进而获得该场景下的人机识别模型;
(2)阅读文字的视觉轨迹模型特征:阅读英文和中文时,两者分别的轨迹特征:通过眼球运动识别的眼动的一个例子是阅读文本。当显示文本正文时,设备佩戴者的连续运动和短暂注视行为可用于识别正在执行读取过程的事实。具体而言,在涉及英语的阅读过程中,眼跳运动需要20-40毫秒才能跨越7-9个字符。固定持续200-250毫秒,每秒大约可读取四个扫视。大约10-15%的时间(取决于材料的难度),读者的眼睛会回视(即,移回先前阅读的材料)。人机识别系统也可用于自动识别一系列扫视重复序列,然后进行注视;通过识别在阅读过程中的特定眼动行为,阅读速度,可能被跳过的任何文本和/或相反,也可以识别引起长时间关注的文本。回视次数、其他生物传感器、扫视距离和注视时间可以用作对材料感兴趣和复杂程度的指标。这些可以用作识别用户的兴趣(或不兴趣)的特征指标。略读还可以识别为具有独特的眼球运动。较少的回归和较快的眼睛垂直运动(例如,在扫描英语脚本时)可区分略读过程。
综上,可以选择在阅读的应用场景下可以选择的特征数据都包括注视目标信息(目标在页面的坐标、大小、色彩、文字的复杂程度、空格等)、注视位置、注视持续时间、注视次数、首次注视区域、首次注视时长、眼跳次数、眼跳距离、瞳孔大小、眼球运动速度、阅读方向、浏览顺序、注视轨迹等眼动指标生成AI训练模型,本领域技术人员应该理解本眼动位置坐标三维的空间信息,并非传统的眼动实验中的平面坐标。在上述的眼动特征数据中,可以任意选择一种以上的特征数据用于机器学习,也可以用不同的特征数据组合生成多种不同的模型用于人机识别。
3)键盘打字输入过程中的视觉轨迹模型:当用户在打字的过程中,表现在,一遍看输入法app窗口,一遍看键盘按键位置;所述输入法app窗口具体位置为所输入联想词组提示窗口;所述键盘位置是能够组成当下正在输入文字的拼音字母位置;
在输入一段文字后,用户会反复阅读已经输入的内容,确认文字是否通常;眼睛注视点视觉轨迹模型训练过程中,将真人的眼动数据输入AI训练模型进行训练;
4)眼动交互过程中的眼睛行为模型:通过眼睛注视点与目标交互的过程中,眼睛通过扫视运动来选择目标,在选择的过程中会出现矫正扫视、眼颤等行为,通过保持注视状态来确定目标,或/和通过其他外设硬件(控制器手柄、手环、戒指)点击确认。
5)追视物体过程中的眼睛行为模型:当用户对真实/虚拟物体感兴趣时,用户的眼睛可能会跟随真实/虚拟物体的移动而移动,以保持对物体的持续关注,这种用户眼睛注视点跟随物体平滑移动的眼动行为被称之为“平滑追视”。根据平滑追视的眼动行为需要用户主观意识层面控制才能够完成对目标的追踪。追视平滑眼动的总体方向和速度也必须与被观察物体的速度分布相匹配。因此,根据与显示物体或真实物体的速度分布相比是否存在匹配,可以很容易的识别出当前用户的平滑追视是机器人还是真人用户,机器人无法模拟出真人用户在追视一个物体时的眼动行为。
更具体地,当观看缓慢移动的对象时,可以通过在大约100毫秒的等待时间之后紧跟对象来识别平滑追视。通常角速度小于每秒30°时,可以平滑追视;尽管可能会出现更高的速度,尤其是在水平方向上。当物体运动的速度大于可以平稳追踪的速度时,人类会使用所谓的“追赶扫视”来跟踪环境中的物体。根据整个速度以及图像序列的开始/停止速度曲线,可以很容易地将这种扫视模式与平滑追视区分开。
6)眼动校准过程中的眼睛行为模型:在眼动追踪技术中,往往需要初始化眼球生物运动的坐标与物理世界/显示器屏幕的光标映射关系,并且校准眼睛视轴与光轴的偏差关系。通常情况下计算机系统会通过一点、三点、五点或更多不同位置、不同深度距离移动的目标点进行眼动校准,往往在眼动校准过程中需要用户始终注视系统的目标点。综上,在眼动校准过程的同时可以进行人机识别检测。
第二种眼睛无意识行为模型:在用户的平时生活中,这些眼球行为无时无刻的发生,并且人无法通过主观意识控制;眨眼、瞳孔放大、眼颤、视觉深度;
眼睛无意识行为模型训练过程中,将真人的眼动数据输入AI训练模型进行训练,特征数据包括眨眼、瞳孔直径、眼颤、视觉深度眼动指标生成AI训练模型,该数据被眼动追踪模组在任意时刻采集;
第三种其他身体行为模型:
通过加速度传感器以及陀螺仪传感器获取待识别数据,基于待识别数据中的明显差异对获取的待识别数据进行识别测试;利用测试仪、编写程序或者是其他方式,通过软件开发工具包采集加速度传感器数掘以及陀螺仪传感器数据;其中,加速度传感器数据以及陀螺仪传感器数据分别包括X轴、Y轴和Z轴三个子维度的数据,采集的待识别数据对应为6维数据;加速度传感器以及陀螺仪传感器设置于智能电子设备中;通过加速度传感器以及陀螺仪传感器获取待识别数据,基于待识别数据中的明显差异对获取的待识别数据进行识别测试。
进一步,所述非感知的MR眼镜人机识别方法通过对比一个人机识别特征模型或几个融合人机识别特征模型的识别概率与预设阈值,确定操作近眼显示设备的对象是用户或机器人;
预设阈值设置为0至1之间的任意数值,根据测试集的评价指标,识别概率即为识别模型的输出,是一个取值范围为0至1之间的概率值,用于表示待识别数据类型的概率;通过识别概率与预设阈值之间的大小关系,确定待识别数据来自于用户或者是来自于机器人,确定操作智能电子设备的对象是用户或者是机器人;
将训练得到的第一种眼睛注视点视觉轨迹模型和第二种眼睛无意识行为模型、第三种其他身体行为模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
进一步,所述非感知的MR眼镜人机识别方法人机识别模型的构建训练方法包括:首先通过MR眼镜接收到的眼动行为数据,头部位置信息,上下文内容信息、交互控制设备;
通过成千上万的不同MR眼镜用户收集的真人行为数据,当获得用户授权后数据被上传至人机识别模型训练服务器被用于训练人机识别模型,并且已被进行预处理;
应用场景的信息,每一种应用场景都是独立的一种人机识别方法,应用场景因而采集的用户数据不同,进而用于机器训练人机识别的数据特征不同,最终人机识别模型不同,每种考核方案对应着一种;通过应用场景提供的眼睛行为进行训练和目标点位置坐标;具体为:
(1)视觉搜索轨迹模型:当用户具有明确的搜索任务时,会产生具有明显共性特征的视觉轨迹,具体为在人类在视觉搜索过程中存在有目的自我意图的“扫视”行为。在具有明确的搜索任务的应用场景下可以选择注视时长、注视次数、首次注视时长、瞳孔大小、眼球运动速度、扫视路径、眼跳距离、眼跳次数、浏览顺序、UI界面按钮时间和空间分布、一些扫视路径的可视化速度图表等信息作为特征数据可用于人机识别。
(2)阅读文字的视觉轨迹模型特征:当显示文本正文时,设备佩戴者的通过上述真人用户在选择在阅读的应用场景下的眼睛行为特征,可以选择眼跳后与文字的位置关系、眼跳距离、眼动速度、阅读方向、眼跳次数、注视时长、文本的内容作等为特征数据可用于人机识别。
(3)打字输入过程中的视觉轨迹模型:当用户在打字的过程中,表现在,一遍看输入法app窗口,一遍看键盘按键位置。该轨迹特征可用于人机识别。
(4)眼动交互过程中的眼睛行为模型:通过眼睛注视点与目标交互的过程中,眼睛通过扫视运动来选择目标,在选择的过程中会出现矫正扫视、眼颤等行为,通过保持注视状态来确定目标,或/和通过其他外设硬件(控制器手柄、手环、戒指)点击确认。眼睛被用于与目标交互的过程中眼睛行为特征可用于人机识别。
(5)追视物体过程中的眼睛行为模型:当用户对真实/虚拟物体感兴趣时,用户的眼睛可能会跟随真实/虚拟物体的移动而移动,以保持对物体的持续关注,这种用户眼睛注视点跟随物体平滑移动的眼动行为被称之为“平滑追视”。眼睛被用于与目标交互的过程中眼睛行为特征可用于人机识别。
(6)眼动校准过程中的眼睛行为模型:在眼动追踪技术中,往往需要初始化眼球生物运动的坐标与物理世界/显示器屏幕的光标映射关系,并且校准眼睛视轴与光轴的偏差关系。眼动校准的过程中需要对对目标的搜索和交互,因而可用于可用于人机识别。
(7)眼睛无意识行为模型:在用户的平时生活中,这些眼球行为无时无刻的发生,并且人无法通过主观意识控制。眼睛无意识特征数据包括眨眼、瞳孔直径、眼颤、视觉深度可用于可用于人机识别。
(8)其他身体行为模型:加速度传感器以及陀螺仪传感器可以设置于智能电子设备中,智能电子设备例如可以为智能MR眼镜。加速度传感器和陀螺仪传感器能够记录该智能MR眼镜被使用过程中的各种数据。例如休息状态、咀嚼状态、对话状态等
对接收到的数据进行过滤,Savitzky-Golay滤波器,中值滤波器,指数移动平均值,双边滤波器,小波信号去噪滤波器或任何其他期望类型的滤波器之类的平滑滤波器首先被应用于接收到的数据;
交互控制设备包括6Dof/3Dof控制器手柄、手势识别装置、语音识别装置、肌肉神经信号探测识别装置;通常情况下6dof控制器手柄内置加速度传感器、磁力计、磁场空间定位功能,具备追踪用户手/手臂运动的能力,在执行人机交互应用场景中存在利用6dof控制器手柄与目标物体进行交互,通过获取控制器手柄运动轨迹数据构建人机识别模型可提高人机识别的破解的难度;
头部位置信息可用于确定用户头部的旋转轴,所接收的头部位置信息可以包括三个旋转参数和三个平移参数;
分析图像数据以识别使用图像数据呈现的内容的类型;
凝视位置信息可用于确定用户的凝视点相对于物理空间的绝对位置;
执行事件检测/分类概率分析,事件检测/分类概率分析确定扫视发生的概率;
如果识别为扫视发生,则为基于人机识别模型确定其他特征,在确定的用户注视点的绝对位置是基于人机识别模型所使用的特征;
识别收敛运动,收敛是指两只眼睛向同一点聚焦移动,及双眼视线的夹角变大,说明用户正在注视近处物体,发散是两只眼睛在相反方向上同时移动,及双眼视线的夹角变小,说明用户正在注视远处物体;基于人机识别模型使用关于是否会发生收敛的信息来进行真人用户与机器人识别;
获得扫视历史,扫视历史包括关于用户执行的最后N个扫视的信息;扫视历史包括任何期望数量的先前扫视N,每个历史扫视数据点可以包括关于扫视的位移距离,位移方向和位移时间以及自扫视发生以来经过的时间的信息,如果需要,将更多的数量用于最近发生的扫视;
确定扫视方向,扫视方向通过将当前的凝视点与先前的凝视点进行比较确定,扫视的方向通过估计在扫视开始时的凝视点的点与当前凝视点之间的方向来确定;扫视可以假定为直线发生;
头部位置信息和用户头部的旋转轴可用于识别轴不匹配和投影的头部速度,轴不匹配可指代与用户的头部和头部相关的旋转轴之间的不匹配,与用户眼睛相关的旋转轴;
如果在图像数据中识别出基于图像的内容,使用接收到的图像数据来生成显着图,显着性图用于识别显示的内容内的视觉关注项,显着性图标识诸如可选按钮,文本和视觉感兴趣的其他项目之类的项目;显着性图是概率密度图,其中视觉关注的特征被突出显示;
识别显示的图像数据内的对象,识别图像数据中的对象可能有助于预测用户的扫视着陆位置;如果扫视朝着感兴趣的物体的方向发生,扫视的最终着陆位置可能会在感兴趣的物体的位置;
如果图像数据显示主要的基于文本的内容正在使用显示器呈现,应用阅读模型,当阅读文本时,眼睛的运动行为遵循已知的模式;
基于人机识别模型将训练获得的人机识别模型可以被应用与人机识别服务器,或MR眼镜、智能汽车上,被用于通过与用户的特征数据进行比对识别是真人还是机器人,基于人机识别模型可以使用大型离线数据集进行训练。
进一步,所述非感知的MR眼镜人机识别方法的人机识别训练模型的神经网络包括节点的层次结构,在最低层次级别,存在输入层;输入层包括一组输入节点;
在最高层级上,存在输出层,输出层3包括一组输出节点,输出节点表示与当前经历的人机识别的信息有关的决策;基于一组设置的初始化模型参数,利用高斯分布来随机初始化网络结构中的参数,输入数据在卷积神经网络中经过前向传播会得到一个期望输出,如果这个期望输出与数据的实际类别标签不相同,则将误差逐层反向传播至输入层,每层的神经元会根据该误差对网络结构中的参数进行更新;对卷积神经网络模型而言,待学习的参数包括卷积核参数、层间的连接参数以及各层的偏置;训练好的模型能够计算新的输入数据对应的类别标签,完成分类、预测或者是识别任务;将结果与从先前获得的监视对象的预定和真实结果进行比较,在人机识别期间和/或结束时,以细化和/或修改深度学习引擎使用的参数以迭代地确定适当的人机识别模型,神经网络中的节点学习人机识别模型的参数;将用户训练数据和第二训练数据作为输入数据输入卷积神经网络模型,通过不断迭代对卷积神经网络模型进行训练,得到性能较好、稳定性较好的卷积神经网络模型,将训练好的卷积神经网络模型确定为识别模型;
在输入层和输出层之间存在隐藏层,隐藏层包括N个隐藏层,其中N是大于或等于1的整数;每个隐藏层也包括一组隐藏节点;输入节点互连到隐藏节点;同样,隐藏节点互连到输出节点,以使输入节点不直接互连到输出节点;如果存在多个隐藏层,则输入节点将互连到最低隐藏层的隐藏节点,隐藏节点又互连到下一个隐藏层的隐藏节点;下一个最高隐藏层的隐藏节点互连到输出节点,互连连接两个节点。
进一步,所述非感知的MR眼镜人机识别方法还包括:AR/VR/MR终端向网页服务器请求服务,网页服务器向请求人机识别服务器对MR终端识别真人还是机器人;
在MR眼镜系统或应用软件启动时加载数据收集模块,收集用户的眼球行为数据、头动数据、身体运动数据、手势数据、6DOF控制器手柄数据;该数据随机采集一段时间内的行为,并将数据存储至安全缓存器,安全缓存器为临时循环储存行为数据,仅存储近期的数据,当数据更新后会循环删除老旧行为数据,并且安全缓存器被配置为硬件加密,具备安全机制;
当MR眼镜向网页服务器请求网页信息时,则网页服务器向请求人机识别服务器发送人机识别请求,对MR终端识别真人还是机器人,人机识别服务器请求向MR眼镜发送数据传回服务器用于人机识别;
MR眼镜接受到数据发送请求后,提取安全缓存器存储的行为数据发送至数据特征提取模块进行数据特征的分析处理,将行为特征数据经过加密模块加密后被网络传输模块发送特征数据至人机识别服务器;人机识别服务器230将特征数据经解密模块解码后,将可识别的特征数据发送至AI人机识别引擎进行确定真人和机器人的识别概率与预设阈值预测概率。
进一步,所述非感知的MR眼镜人机识别方法还包括:
步骤一,通过MR智能眼镜视觉传感器对用户所在真实世界构建虚拟空间;
步骤二,设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存器;
步骤三,对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取;
步骤四,当应用发出人机识别需求时,将空间的三维模型与客户端的IP地址、HTTP/HTTPS请求的头部信息相对应,利用空间的三维模型生成识别密钥KEY,识别密钥KEY被上传至人机识别服务器;
步骤五,人机识别服务器对当前客户端的IP地址的识别密钥KEY的改变频率/次数是否满足预设阈值,若满足则进行步骤六, 若不满足则拒绝访问及识别密钥KEY始终不改变;
步骤六,人机识别服务器请求MR眼镜发送行为特征数据加密后发送给人机识别服务器,人机识别服务器对接收到的用户行为数据进行解密计算后执行步骤七;
步骤七,人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别模型;
步骤八,用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用所述人机特征模型确定真人和机器人的识别概率与预设阈值预测概率。
进一步,所述步骤一通过MR智能眼镜视觉传感器对用户所在真实世界构建虚拟空间包括:
(1)三维信息感知:MR眼镜通过视觉传感器感知三维环境信息;所述视觉传感器为普通RGB摄像头或TOF或结构光深度摄像头或双目RGB摄像机;
(2)三维场景重构,通过视觉传感器所获得的环境信息实时对场景进行三维重构;将构建虚拟三维空间与物理世界做空间拟合。
进一步,所述步骤四当应用发出人机识别需求时,将空间的三维模型与客户端的IP地址、HTTP/HTTPS请求的头部信息相对应,利用空间的三维模型生成识别密钥KEY,识别密钥KEY被上传至人机识别服务器包括:利用空间的三维模型生成识别密钥KEY具体为,使用任意适合的算法生成识别密钥KEY,识别密钥KEY生成算法为哈希值生成算法、MD5算法。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
第一步,设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存器;
第二步,对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取;
第三步,当应用发出人机识别需求时,MR眼镜将提取到的特征数据加密后发送给人机识别服务器,人机识别服务器对接收到的用户行为数据进行解密计算后执行第四步;
第四步,人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别模型;
第五步,用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用人机特征模型确定真人和机器人的识别概率与预设阈值预测概率。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
第一步,设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存器;
第二步,对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取;
第三步,当应用发出人机识别需求时,MR眼镜将提取到的特征数据加密后发送给人机识别服务器,人机识别服务器对接收到的用户行为数据进行解密计算后执行第四步;
第四步,人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别模型;
第五步,用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用人机特征模型确定真人和机器人的识别概率与预设阈值预测概率。
本发明的另一目的在于提供一种实施所述非感知的MR眼镜人机识别方法的非感知的MR眼镜人机识别系统,所述非感知的MR眼镜人机识别系统包括:
数据采集模块,用于利用设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存器;
安全缓存模块,用于临时存储脚本/插件采集的一段时间内多种用户行为数据,安全缓存被配置为循环存储最新的用户行为数据,该缓存器中已被硬件安全加密;
数据特征提取模块,用于对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取;
加密传输模块,用于当应用发出人机识别需求时,将提取到的特征数据加密后发送给人机识别服务器;
人机识别模块,用于利用人机识别服务器对接收到的用户行为数据进行解密计算后,依据预先设置好的行为特征模型,对所述用户行为数据的触发主体进行人机识别。
进一步,所述非感知的MR眼镜人机识别系统还包括:人机识别模型构建系统;
所述机识别模型构建系统包括:
数据采集模块,从数据库中提取用户行为数据和上下文内容信息,其中用户行为数据和上下文内容信息被配置为同一时间下的;数据为接收成千上万不同用户数据形成数据库存储在服务器中;当构建或优化模型时,从服务器数据中提取数据;
分析特征提取模块,从用户行为中提取有效的行为数据;
上下文分析模块,通过图像识别技术或文本内容识别用户当前任务和应用场景;
训练模块,对特征数据进行AI训练。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供了几种不需要输入交互操作的几种人机识别方法,在用户使用的过程中随机检测一段时间内用户平时的交互行为/轨迹、生理数据,通过这些数据,再利用人工智能对行为数据集进行机器学习,最后利用训练出的行为模型与当下用户行为进行对比,进而达到人机识别的效果,因而不需要用户做什么就能完成人机识别,提升用户体验。
本发明提供了一种用户正常使用过程中的MR眼镜人机识别方法,通过训练平时用户行为数据获得特征库进行人机识别方法。在用户正常使用(不经意的情况下)过程中的操作行为/轨迹,再利用人工智能对行为数据集进行机器学习,最后利用训练出的行为模型与当下用户行为进行对比,进而达到人机识别的效果。
本发明采用非感知的方式来执行人机识别,即,在用户不知晓的情况下,通过采集的终端设各处的特征(操作行为、轨迹等),再利用人工智能对行为数据集进行机器学习,最后利用训练出的行为模型与当下用户行为进行对比,来判断终端设备处的操作是否为正常用户的操作,进而达到人机识别的效果。与现有技术中用户需要计算验证码来执行人机识别的方式相比,不再需要用户执行任何额外的操作,从而最大程度地降低了用户操作复杂度。
本发明基于多种类别的原始数据采集多个维度的特征,并且向用户行为模型输入的也是多个维度的特征。换言之,本发明中的用户行为模型是针对基于多种类别的原始数据而采集的多个维度的特征而建立的模型。与现有技术中仅使用单一类别的行为数据(例如,键盘、鼠标操作)来预测的方案相比,根据本公开的实施例的人机识别方法由于考虑了更多类别的数据和更多维度的特征从而准确度更高。
本发明采用了基于不同监督分类算法的多种用户行为模型分别执行预测,并综合这多个不同模型的结果来得到最终的人机预测结果。与现有技术中仅使用单个模型来预测的方案相比,能够进一步提高预测的精度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的非感知的MR眼镜人机识别方法流程图。
图2是本发明实施例提供的非感知的MR眼镜人机识别系统结构示意图;
图中:1、数据采集模块;2、安全缓存模块;3、数据特征提取模块;4、加密传输模块;5、人机识别模块。
图3是本发明实施例提供的用户在某app使用过程中的人眼轨迹示意图。
图4是本发明实施例提供的人机识别模型的构建训练方法流程图。
图5是本发明实施例提供的递归神经网络示意图。
图6是本发明实施例提供的休息状态、咀嚼状态、说话状态、行走状态下的头动追踪传感器信号图;
图6中:a,当用户在休息状态下的头部运动的检测数据的图;b,当用户在用餐期间进行咀嚼时头部的运动的检测数据的图;c,对话中的头部的动作的检测数据的图;d,行走中的头部的动作的检测数据的图。
图7是本发明实施例提供的头戴式显示器示意图;
图7中:A为波导的头戴式显示器(HMD)的透视图;B为HMD的示意图。
图8是本发明实施例提供的图1的MR眼镜的非感知人机识别方法的网络架构示意图。
图9是本发明实施例提供的图4的人机识别模型构建的系统示意图。
图10是本发明实施例提供的非感知的基于本地空间模型数据的MR眼镜人机识别方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种非感知的MR眼镜人机识别方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的非感知的MR眼镜人机识别方法包括:
S101,设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存器;
S102,对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取;
S103,当应用发出人机识别需求时,MR眼镜将提取到的特征数据加密后发送给人机识别服务器,人机识别服务器对接收到的用户行为数据进行解密计算后执行下一步;
S104,人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别模型;
S105,所述用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用所述人机特征模型确定真人和机器人的识别概率与预设阈值预测概率。
步骤S101中,本发明实施例提供的用户行为数据包括眼球行为和轨迹数据、眼睛无意识生理反应数据、头动数据、身体运动数据、手势数据、6DOF控制器手柄数据;
所述眼球行为和轨迹数据为按照时间顺序呈现的视觉注视点位置连线形成的轨迹图以及在相应位置的注视时长。
所述眼睛无意识生理反应数据包括眨眼、瞳孔直径变化、视觉深度数据。
所述头动数据和身体运动数据为通过MR智能眼镜设备中的加速度传感器、陀螺仪传感器、磁力计、IMU获取的头部和身体数据。
步骤S102中,首先对原始数据进行预处理。具体来说,所述预处理可以包括数据等长填充和异常数据清洗等。然后,对于经过预处理后的数据执行特征提取处理。例如,提取特征的处理可以包括对非数值的特征进行数值化以及对多种数据进行归一化等操作。
步骤S103中,本发明实施例提供的MR眼镜将提取到的特征数据加密后发送给人机识别服务器包括:MR眼镜将提取到的特征数据通过独有PKI加密技术进行加密,基于SSL协议将采集的用户行为特征数据上传至人机识别服务器。
步骤S104中,本发明实施例提供的人机识别服务器根据特征数据识别用户当前应用场景并选择相应的人机识别模型包括:
(1)眼睛注视点视觉轨迹模型:
当存在阅读场景时,选择眼睛注视点视觉轨迹模型作为人机识别模型;
所述眼睛注视点视觉轨迹模型利用包括目标在页面的坐标、大小、色彩、文字的复杂程度、空格的注视目标信息、注视位置、注视持续时间、注视次数、首次注视区域、首次注视时长、眼跳次数、眼跳距离、瞳孔大小、眼球运动速度、浏览顺序、注视轨迹及相关眼动指标作为特征数据进行训练得到。
(2)眼睛无意识行为模型:
当不存在具体的搜索目的时,采用眼睛无意识行为模型作为人机识别模型;
所述眼睛无意识行为模型利用眨眼、瞳孔直径、眼颤、视觉深度及相关眼动指标作为特征数据进行模型训练得到。
(3)其他身体行为模型:
所述其他身体行为模型选择头动数据作为特征数据进行人工智能模型训练得到;
所述头动数据包括:加速度传感器、陀螺仪、磁力计、IMU信号数据。
本发明实施例提供的眼睛注视点视觉轨迹模型包括:
(1.1)视觉搜索轨迹模型:
当用户具有明确的搜索任务、产生具有明显共性特征的视觉轨迹的场景中选择视觉搜索轨迹模型作为人机识别模型。
所述视觉搜索轨迹模型选择选择注视时长、注视次数、首次注视时长、瞳孔大小、眼球运动速度、扫视路径、眼跳距离、眼跳次数、浏览顺序、UI界面按钮时间和空间分布、一些扫视路径的可视化速度图表及相关信息作为特征数据,进行人工智能模型训练获得。
(1.2)阅读文字的视觉轨迹模型特征:
当阅读的应用场景下,选择阅读文字的视觉轨迹模型特征作为人机识别模型。
所述阅读文字的视觉轨迹模型特征选择眼跳后与文字的位置关系、眼跳距离、眼跳次数、注视时长、文本的内容作为特征数据进行人工智能模型训练获得。
(1.3)打字输入过程中的视觉轨迹模型:
当存在打字输入的场景时,选择所述打字输入过程中的视觉轨迹模型作为人机识别模型。
基于选择的人机识别模型利用对应所述人机识别模型的特征数据进行训练,得到多个人机识别特征模型。
基于训练得到的眼睛注视点视觉轨迹模型、眼睛无意识行为模型、其他身体行为模型构建融合人机识别模型,并使用样本库中的用户行为数据训练所述融合人机识别模型,得到所述人机识别特征模型。
步骤S105中,本发明实施例提供的所述用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用所述人机特征模型确定真人和机器人的识别概率与预设阈值,确定操作所述近眼显示设备的对象是用户或机器人包括:
通过识别概率与预设阈值之间的大小关系,确定待识别数据来自于用户或者是来自于机器人,进而确定操作智能电子设备的对象是用户或者是机器人。
如图2所示,本发明实施例提供的非感知的MR眼镜人机识别系统包括:
数据采集模块1,用于利用设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存器。
安全缓存模块2,用于临时存储脚本/插件采集的一段时间内多种用户行为数据,安全缓存被配置为循环存储最新的用户行为数据,该缓存器中已被硬件安全加密。
数据特征提取模块3,用于对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取。
加密传输模块4,用于当应用发出人机识别需求时,将提取到的特征数据加密后发送给人机识别服务器。
人机识别模块5,用于利用人机识别服务器对接收到的用户行为数据进行解密计算后,依据预先设置好的行为特征模型,对所述用户行为数据的触发主体进行人机识别。
下面结合具体实施例对本发明的技术方案作进一步说明。
实施例1:
本发明提供了一种用户正常使用过程中的MR眼镜人机识别方法,通过训练平时用户行为数据获得特征库进行人机识别方法。在用户正常使用(不经意的情况下)过程中的操作行为/轨迹,再利用人工智能对行为数据集进行机器学习,最后利用训练出的行为模型与当下用户行为进行对比,进而达到人机识别的效果。
本发明的方法多用于软件客户端,如果是浏览器则可能需要用于安装额外的插件。
本发明提供的人机识别的方法通过训练平时用户行为数据获得特征库进行人机识别方法包括:
S101设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,发送给人机识别服务器。
S102从获取到的用户行为原始数据中提取多个维度的特征。
S103当应用人机识别请求时,将特征数据上传至服务器。
S104人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别模型。
S105所述用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用所述人机特征模型确定真人和机器人的识别概率与预设阈值。
步骤S101中,设置在MR眼镜用户客户端交互界面中的脚本/插件采集多种用户行为数据。当应用发出人机识别需求时,MR眼镜将数据被加密后发送给人机识别服务器。所述用于人机识别的用户行为数据包括眼球行为数据、头动数据、身体运动数据、手势数据、6DOF控制器手柄数据等。
所述“客户端交互界面”应用场景具体为,应用在安装在智能眼镜上的客户端软件(例如某社交app新用户注册)、MR眼镜内部系统软件,或者网页浏览器。其中客户端软件在启动时加载采集用户行为数据的第一可执行代码程序组件,在另一种实施例中网页浏览器可能需要安装某种安全插件用于采集用户行为数据。
其中采集数据是在应用程序的使用过程中或者浏览器的使用过程中就具备收集行为数据的能力,及用户正常使用的过程中就已经开始采集用户数据用于人机识别。通常采集人机识别程序启动前一段时间内的数据,当在具有人机识别需求时调用自动当前行为数据,自动判断是否符合真人模型,无需额外的交互操作。所述人机识别需求包括“登陆”、“注册”、“提交信息”、“下载”等环节。
所述用于人机识别的用户行为数据包括眼球行为和轨迹数据、头动数据、身体运动数据、6DOF控制器手柄数据,具体为。
眼球行为和轨迹数据:
眼动轨迹:按照时间顺序呈现的视觉注视点位置连线形成的轨迹图,在该位置的注视时长。人在阅读文本或/和网页时,根据文本内容的排版会有相对类似的视觉认知轨迹,例如阅读文本都是自上而下、从左到右,当阅读完一行内容时,眼球的注视点从行尾跳转至行首继续阅读,其中每个人阅读速度因人而异。
例如,当正在进行某网站“注册用户”任务时,用户的视觉轨迹顺序可能为“用户名”——“密码”——“重复输入密码”——“密保问题”——“用户信息”等等,视觉轨迹顺序会与页面内容的设计逻辑顺序相似。再或者用户视觉注意力被MR智能眼镜弹出的全息广告吸引;用户视觉注意力被真实世界的物体(美女、衣服等)吸引。
例如,当用户正在通过全息/真实键盘在MR眼镜上输入文本信息时,大部分人的视觉轨迹是交替查看输入的文本内容、文本位置、物理/虚拟键盘上字符位置、并存在回视上段已输入内容。
眼睛无意识生理反应:
眨眼:在用眼过程中,为了保持眼球的湿润,用户会时不时会无意识的眨眼;
瞳孔直径变化:用户看到喜欢的东西时,瞳孔直径会放大,或者光线强弱变化时,瞳孔直径大小也会变化发生变化;当用户主观对某物体(真实物体或全息影像)进行注视查看时,眼球会出现不可控制的眼颤。眼球震颤的简称,指两眼球的一种不自主的往返运动;
视觉深度:当人在注视不同深度(近处或者远处)的物体时,双眼视线的夹角是不同的,物体位置越远,视线夹角越小。其中双目视觉深度计算(建模)正是运用本原理。
头动数据和身体运动数据:MR眼镜是一种可穿戴的硬件设备,佩戴在用户的头上,因此用户的头部运动和身体运动都会被MR眼镜采集。所述头动数据和身体运动数据通过MR智能眼镜设备中的加速度传感器、陀螺仪传感器、磁力计、IMU获取。本领域技术工程师都应了解MR智能眼镜可以看到真实世界与虚拟全息影像相互叠加的画面,因此可以理解为用户视觉前方可以均为电子屏幕,用户可以自由的移动头部和身体,旋转视角查看全息影像,移动身体改变在虚拟世界的空间位置。及可以理解为用户在使用MR眼镜沉浸式体验全息内容过程中可能需要频繁的移动头部(视角)和身体。具体而言,加速度传感器能够记录MR眼镜的线加速度大小,陀螺仪传感器能够记录MR眼镜的角加速度。
进一步,步骤S101中数据采集方式具体为:
随机采集用户使用过程中一段时间内的多种用户行为数据,以生成样本数据。可以将时间上、幅值上都连续的模拟信号,在采样脉冲的作用下,转换成时间上离散、但幅值上仍然连续的离散模拟信号。可以通过随机采样方法、分层采样方法或者是窗口方法对获取的待识别数据进行采样。例如,可以通过窗口方法从待识别数据中找出相应的数据子集来降低复杂性。
具体而言,对获取的待识别数据的采样频率可以为20Hz,对每个待识别数据的采样时间可以为6.4秒,进而可以根据该采样频率和采样时间生成对应的样本数据。
S102从获取到的用户行为从所述原始数据中提取多个维度的特征。
如上文中所述,原始数据可以包括多种类别的数据,例如包括眼球行为和轨迹、头动数据、身体运动数据、6DOF控制器手柄数据。
首先对原始数据进行预处理。具体来说,所述预处理可以包括数据等长填充和异常数据清洗等。然后,对于经过预处理后的数据执行特征提取处理。例如,提取特征的处理可以包括对非数值的特征进行数值化以及对多种数据进行归一化等操作。
S103当应用人机识别请求时,将特征数据上传至服务器。
进一步,所述将多种用户行为数据加密传送至人机识别服务器的过程中对数据进行加密计算,具体实现流程如下:例如基于SSI协议将加密后的用户行为数据发送到所述人机识别服务器,以供所述人机识别服务器在对接收到的用户行为数据进行解密计算后,则依据预先设置好的行为特征模型,对所述用户行为数据的触发主体进行人机识别。具体的,可以通过独有PKI加密技术,基于SSL协议将采集的用户行为数据上传至验证服务端。
独有PKI加密技术主要包括如下技术内容:
1、随机因子:
2、RSA非对称密钥算法:
3、AES对称密钥算法:
4、SllA256哈希值摘要算法。
在PKI加密技术中,数据加密报文格式包含5个参数:appid(即应用所授权的合法授权ID)、key密钥(30位的用于AES加密的workkey)、checker(完整性验证码)、zip(压缩数据流标识)、postmsg(提交的数据),所有参数值要在传入前需要先做HtmlEncode、再做UrlEncode后再进行提交。其中:
1.appid为应用所授权的合法授权ID,传输时要求BASE64(UTF8编码)加密。
2.key是为包体加密算法AES使用的key(由数字、字母组成的16位随机因子aeskey,和14位时间串yyyyMMddHHmmss组成。具体的,前16位随机码用于为包体做AES加、减密,后14位时间串用于服务器校验包体是否在有效期内(每个数据包发送与服务器时间相差不能超过5分钟,否则就算包失效)。此key值在向服务器发送时,需要使用云端提供的授权公钥进行RSA加密。
3.checker为完整性校验,将加密后的postmsg(包体)做SHA256即可6HA256(postmsg))。
4.zip标识请求数据是否进行过7zip压缩。具体的,0不压缩,1压缩。
5.postmsg为请求的主体数据包,此数据要求为JS格式转送时内容为aeskey做为加密key、偏移量对包体进行AES加密)。
除了上述加密示例,还可以包括其他加密算法,传输数据至服务器过程中数据加密算法的创新与改进都应在本人机识别方法保护范围之内。
S104人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别模型。所述用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用所述人机特征模型确定真人和机器人的预测概率。
进一步,当应用人机识别服务器时,根据用户当前应用场景选择相应的人机识别模型,其中应用场景选择包括但不限于,其目的在于当用户利用眼睛在做其他事情的同时,顺便采集人机识别所需要的数据,把数据存储在安全缓存器中,和/或将人机识别后的结果存储在缓存器中一段时间,在规定时间内等待系统调用。上述“其他事情”为用户主观意识控制眼睛的应用场景,例如用户在执行某项任务时(购票、购物、下载文件等)、输入文字信息(打字)、阅读、眼动校准、视觉搜索、眼动交互、平滑追视等。
4.1进一步,第一种眼睛注视点视觉轨迹模型:
4.1.1.视觉搜索轨迹模型:
当用户具有明确的搜索任务时,会产生具有明显共性特征的视觉轨迹,具体为在人类在视觉搜索过程中存在有目的自我意图的“扫视”行为,这些扫视具有明确定义的角速度和弹道轮廓(基于眼睛的生理学)。距观察者在不同距离处观察物体时,存在散光运动,前庭眼运动与头部运动以及用于跟随特定(真实或虚拟)对象的平滑跟踪运动相关联。可以根据其他因素来确定用户意图的其他信息,例如瞳孔扩大,晶状体调节,眼睑运动,面部肌肉运动,身体和头部运动,手部运动以及相关的上下文信息。
例如在某票务网站订购机票中,完成“订票任务”中的眼睛需要搜寻信息和选择的过程(如图3)。模型中包括的特征信息有,如下:
一.注视点轨迹先后顺序为注视点先停留在“出发城市”;注视点先停留“到达城市”;注视点先停留“搜索”;注视点先停留“时间与价格”栏,眼动轨迹首先停留在当天价格栏,然后眼动轨迹成左右扫视。用户选择合理时间和价格;在航班展示栏选择“航空公司”和“具体时间”,用户可能根据自身偏好优先注视信息(例如更关注价格、时间、航空公司、能否改签),然后用户从该信息位置进行上下或左右的扫视搜寻次要选择;预定机票。
二.时间上:订票页面的注意力的时间分布(注视时长、注视次数、首次注视时长等)。
三.空间上:最吸引用户注意力的区域(兴趣区域上的时间和空间分布、首次注视区域、视线访问区域和次数等)、订票过程中的浏览轨迹等。
四.信息检索效率:总体的注视次数(次数越低,效率越高);
五.决策效率:首次注视到首次鼠标点击的时耗;
六.内容布局:订票相关的信息和功能区之间眼跳次数、浏览顺序。
七.瞳孔大小、眼球运动速度、扫视路径等。
综上,在具有明确的搜索任务的应用场景下可以选择注视时长、注视次数、首次注视时长、瞳孔大小、眼球运动速度、扫视路径、眼跳距离、眼跳次数、浏览顺序、UI界面按钮时间和空间分布、一些扫视路径的可视化速度图表等信息作为特征数据进行人工智能模型训练,进而获得该场景下的人机识别模型;
4.1.2.阅读文字的视觉轨迹模型特征:阅读英文和中文时,两者分别的轨迹特征
A.英文轨迹特征:
以往关于拼音文字阅读的研究结果发现,读者对某个词的首次眼跳落点会落在该词的中间偏左位置,该位置被定义为偏向注视位置。相较于词长较长的词,词长较短的词的偏向注视位置更靠近词的中心。词长越长,再注视概率越高。
B.中文轨迹特征:在用户阅读一段中文文字材料时,用户在该段文字材料中每个词组和/或每个字的注视位置、注视时长在时间先后顺序下形成的视觉轨迹。
1)文字材料中任意词组和/或字的首次注视位置,注视位置可能是词首、中央、词尾。
2)词组内的再注视眼跳目标注视位置是“词组中央”,而相邻的词组间眼跳目标注视位置是单独“字”上(如果无法组成词组则为词首)。
3)汉字的复杂性影响读者的注视时间,具体表现为汉字的复杂性越低,凝视时间越短;复杂性越高,凝视时间越长。注视时间和眼跳目标选择受汉字的复杂性影响。
4)在阅读过程中,首字的笔画数会对目标词的注视概率、眼跳距离、眼睛的落点位置以及首次注视时间产生影响。具体为,首字笔画数越少,注视概率越低,眼跳距离越长,眼睛落点位置距离起跳位置越远,首次注视时间也越短。
5)词后加空格,被试眼睛的注视位置会落在远离空格的地方,而不是落在“词组中央”上。相反,在词前加空格没有对阅读起促进作用。
6)如果目标为高频词,不管是跳入还是跳出目标词N的眼跳长度都会增长,并且注视时长较短。
7)在用户阅读中文文字材料时,用户在该段文字材料中每个词组和/或每个字的注视位置、注视时长、眼跳距离在时间先后顺序下形成的视觉轨迹为一条与X轴平行的曲线。
8)阅读时,当时用户读到难以理解的部分时,会在跳回到没有没有理解的地方重新阅读进行理解。
9)当阅读到句尾会眼跳至下一段句首进行阅读。
由此,本实施例根据通过眼球运动识别的眼动的一个例子是阅读文本。当显示文本正文时,设备佩戴者的连续运动和短暂注视行为可用于识别正在执行读取过程的事实。具体而言,在涉及英语的阅读过程中,眼跳运动需要20-40毫秒才能跨越7-9个字符。固定持续200-250毫秒,每秒大约可读取四个扫视。大约10-15%的时间(取决于材料的难度),读者的眼睛会回视(即,移回先前阅读的材料)。人机识别系统也可用于自动识别一系列扫视重复序列,然后进行注视;通过识别在阅读过程中的特定眼动行为,阅读速度,可能被跳过的任何文本和/或相反,也可以识别引起长时间关注的文本。回视次数、其他生物传感器、扫视距离和注视时间可以用作对材料感兴趣和复杂程度的指标。这些可以用作识别用户的兴趣(或不兴趣)的特征指标。略读还可以识别为具有独特的眼球运动。较少的回归和较快的眼睛垂直运动(例如,在扫描英语脚本时)可区分略读过程。
综上,可以选择在阅读的应用场景下可以选择的特征数据都包括注视目标信息(目标在页面的坐标、大小、色彩、文字的复杂程度、空格等)、注视位置、注视持续时间、注视次数、首次注视区域、首次注视时长、眼跳次数、眼跳距离、瞳孔大小、眼球运动速度、阅读方向、浏览顺序、注视轨迹等眼动指标生成AI训练模型,本领域技术人员应该理解本眼动位置坐标三维的空间信息,并非传统的眼动实验中的平面坐标。在上述的眼动特征数据中,可以任意选择一种以上的特征数据用于机器学习,也可以用不同的特征数据组合生成多种不同的模型用于人机识别。
4.1.3.打字输入过程中的视觉轨迹模型:当用户在打字的过程中,表现在,一遍看输入法app窗口,一遍看键盘按键位置。所述输入法app窗口具体位置为所输入联想词组提示窗口。所述键盘位置是能够组成当下正在输入文字的拼音字母位置。
在输入一段文字后,用户会反复阅读(回视)已经输入的内容,确认文字是否通常。眼睛注视点视觉轨迹模型训练过程中,将真人的眼动数据输入AI训练模型进行训练。
4.1.4.眼动交互过程中的眼睛行为模型:通过眼睛注视点与目标交互的过程中,眼睛通过扫视运动来选择目标,在选择的过程中会出现矫正扫视、眼颤等行为,通过保持注视状态来确定目标,或/和通过其他外设硬件(控制器手柄、手环、戒指)点击确认。具体扫视眼睛运动是快速运动,会突然改变眼睛的注视点,这些扫视具有明确定义的角速度和弹道轮廓(基于眼睛的生理学)。扫视运动是人体产生的最快运动,达到了高达900°/秒的角速度。扫视角大约大于20°时,通常会伴随头部运动,尽管个体之间差异很大。通常用户通过眼睛注视点对准交互目标时,长距离扫视通常覆盖目标距离的90%,然后是10%的校正扫视(例如当扫视到目标位置时,初始扫视眼运动(预测的或测量的)可能不在落入距目标的预定阈值距离之内。但是,一个或多个矫正扫视可能会导致用户的视线逐渐接近目标)。向心扫视比离心扫视更准确选中目标。下冲或过冲后进行的校正可能会出现较长或较短的延迟。校正扫视可以快速执行(即动态下冲或过冲),也可能需要数百毫秒(即滑行下冲或过冲)。目标属性(主要是亮度)会影响校正扫视的潜伏时间。当亮度降至中央凹阈值以下时,延迟可能会显着增加。在该引用下面的描述中,例如“双重”或“单个”扫视运动,必须在存在其他眼动,包括其他形式的扫视的情况下识别并区分这种有目的的扫视。这些中间的眼睛运动包括一个或多个矫正扫视(通常是短距离的),眨眼,震颤,漂移等。眼颤指的是瞳孔和角膜缘(通常程度较小)可能会出现位移,当眼球运动到达目标目标时可能产生眼颤,其表现为阻尼振荡。这些运动的主要振荡频率通常约为20赫兹(即50毫秒的周期)。通常可以检测到约50-60毫秒的阻尼振荡。这样就可以观察1-3个这样的阻尼振荡。在该时间段内会持续抑制跳音。否则,运动模糊将在观察到的场景中显而易见。眼睛的生理漂移,震颤和其他较小运动的测量可以用作识别设备佩戴者的生理和心理状态的组件。这些运动对于确定和监测各种病理状况(尤其是神经肌肉疾病)以及药物和其他化合物的作用也很有价值。
4.1.5. 追视物体过程中的眼睛行为模型:当用户对真实/虚拟物体感兴趣时,用户的眼睛可能会跟随真实/虚拟物体的移动而移动,以保持对物体的持续关注,这种用户眼睛注视点跟随物体平滑移动的眼动行为被称之为“平滑追视”。根据平滑追视的眼动行为需要用户主观意识层面控制才能够完成对目标的追踪。追视平滑眼动的总体方向和速度也必须与被观察物体的速度分布相匹配。因此,根据与显示物体或真实物体的速度分布相比是否存在匹配,可以很容易的识别出当前用户的平滑追视是机器人还是真人用户,机器人无法模拟出真人用户在追视一个物体时的眼动行为。
更具体地,当观看缓慢移动的对象时,可以通过在大约100毫秒的等待时间之后紧跟对象来识别平滑追视。通常角速度小于每秒30°时,可以平滑追视;尽管可能会出现更高的速度,尤其是在水平方向上。当物体运动的速度大于可以平稳追踪的速度时,人类会使用所谓的“追赶扫视”来跟踪环境中的物体。
4.1.6. 眼动校准过程中的眼睛行为模型:在眼动追踪技术中,往往需要初始化眼球生物运动的坐标与物理世界/显示器屏幕的光标映射关系,并且校准眼睛视轴与光轴的偏差关系。通常情况下计算机系统会通过一点、三点、五点或更多不同位置、不同深度距离移动的目标点进行眼动校准,往往在眼动校准过程中需要用户始终注视系统的目标点。综上,在眼动校准过程的同时可以进行人机识别检测。
4.2第二种眼睛无意识行为模型:在用户的平时生活中,这些眼球行为无时无刻的发生,并且人无法通过主观意识控制。
眨眼:在任何用眼过程中,为了保持眼球的湿润,用户会时不时会无意识的眨眼;
瞳孔放大/缩小:用户看到喜欢的东西时,瞳孔直径会放大,或者光线强弱变化时,瞳孔直径大小也会变化发生变化。
眼颤:当用户主观对某物体(真实物体或全息影像)进行注视查看时,眼球会出现不可控制的眼颤。眼球震颤的简称,指两眼球的一种不自主的往返运动。
视觉深度:当人在注视不同深度(近处或者远处)的物体时,双眼视线的夹角是不同的,物体位置越远,视线夹角越小。其中双目视觉深度计算(建模)正是运用本原理。
眼睛无意识行为模型训练过程中,将真人的眼动数据输入AI训练模型进行训练,特征数据包括眨眼、瞳孔直径、眼颤、视觉深度等眼动指标生成AI训练模型,该数据可以被眼动追踪模组在任意时刻采集。本领域技术人员应该理解本眼动位置坐标三维的空间信息,并非传统的眼动实验中的平面坐标。在上述的眼动特征数据中,可以任意选择一种以上的特征数据用于机器学习,也可以用不同的特征数据组合生成多种不同的模型用于人机识别。
4.3第三种其他身体行为模型:
由于黑色产业需要大量的智能MR眼镜实施欺诈行为,因此一般不会去人为操作这些MR眼镜,而是会通过机器人例如虚拟机、模拟器等手段自动操控这些智能MR眼镜。机器人自动操控MR眼镜时,很少移动或者是改变MR眼镜的位置姿态,因此正常用户与机器人在使用MR眼镜时,其传感器数据具有明显的差异。而用户在使用MR眼镜时,可能会调整MR眼镜的位置、角度、方向或者是旋转MR眼镜等等举例而言,用户使用的MR眼镜的加速度传感器数据和陀螺仪传感器数据可以分布杂乱,且传感器数据比较大。例如图6 a-图6d示出了休息状态、咀嚼状态、说话状态、行走状态下的头动追踪传感器信号图表;机器人控制的MR智能眼镜的加速度传感器数据和陀螺仪传感器数据分布均匀,且可以为固定数值。因此可以通过加速度传感器以及陀螺仪传感器获取待识别数据,从而基于待识别数据中的明显差异对获取的待识别数据进行识别测试,提高数据识别稳定性。
具体而言,通过软件开发工具包采集加速度传感器数掘以及陀螺仪传感器数据。其中,加速度传感器数据以及陀螺仪传感器数据分别包括X轴、Y轴和Z轴三个子维度的数据,因此采集的待识别数据对应为6维数据。
加速度传感器以及陀螺仪传感器可以设置于智能电子设备中,智能电子设备例如可以为智能MR眼镜。待识别数据可以为通过加速度传感器以及陀螺仪传感器获取的传感器数据。加速度传感器和陀螺仪传感器能够记录该智能MR眼镜被使用过程中的各种数据。
图6a是示出当用户在休息状态下的头部运动的检测数据的图。
图6b是示出当用户在用餐期间进行咀嚼时头部的运动的检测数据的图,在咀嚼时,可以检测到周期性的微小运动。
图6c是示出对话中的头部的动作的检测数据的图。应该注意的是,因为在对话期间,可能发生用户点头,可以检测到一定程度周期性的大运动。
图6d是示出行走中的头部的动作的检测数据的图。在行走过程中,可以同时检测加速度和角速度的周期性值。
上面已经具体描述了在每种行为时由头部传感器系统检测到的数据的一个示例。应当注意,可以由头动追踪的检测的用户行为不限于上述示例,并且可以基于运动来估计诸如上楼梯或下楼梯,奔跑和步行的头动行为。
综上,可以选择头动数据,例如加速度传感器、陀螺仪、磁力计、IMU等的信号数据作为特征数据进行人工智能模型训练,进而获得该场景下的人机识别模型。
S105通过对比所述一个人机识别特征模型或几个融合人机识别特征模型的识别概率与预设阈值,确定操作所述近眼显示设备的对象是用户或机器人。
本实施例中,预设阈值可以设置为0至1之间的任意数值,例如0.4或0.6等等,具体可以根据测试集的评价指标,例如准确率和覆盖率而确定。识别概率即为识别模型的输出,是一个取值范围为0至1之间的概率值,可以用于表示待识别数据类型的概率。可以通过识别概率与预设阈值之间的大小关系,确定待识别数据来自于用户或者是来自于机器人,进而确定操作智能电子设备的对象是用户或者是机器人,以准确识别欺诈行为。例如,当识别模型输出的识别概率低于预设阈值时,可以认为待识别数据来自于用户;当识别概率高于预设阈值时,可以认为待识别数据来自于机器人。也可以在识别概率低于预设阈值时,认为待识别数据来自于机器人;在识别概率高于预设阈值时,认为待识别数据来自于用户。除此之外,还可以通过其他方式确定识别概率与待识别数据类型之间的对应关系。
例如,预设阈值可以设置为0.6,在通过眼动追踪模组获取一段待识别数据,并对其进行采样处理生成样本数据之后,可以将样本数据输入训练好的识别模型,假设识别模型输出的识别概率为0.9,由于该识别概率大于预设阈值0.6,因此可以认为该条待识别数据来自于机器人。如果识别模型输出的识别概率为0.5,由于该识别概率小于预设阈值0.6,因此可以认为该条待识别数据来自于用户,进而确定操作近眼显示设备的对象是用户。通过这种方式,可以准确地确定待识别数据的类型,并根据待识别数据的类型准确确定操作智能电子设备的对象,因此可以有效识别和避免欺诈行为。
在另一种实施例中,将训练得到的第一种眼睛注视点视觉轨迹模型和第二种眼睛无意识行为模型、第三种其他身体行为模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
得到上述规则和模型之后,将其组合为一个融合人机识别模型,具体地,第一种眼睛注视点视觉轨迹模型(包括视觉搜索轨迹、阅读眼动轨迹、打字眼动轨迹)和第二种眼睛无意识行为模型、第三种其他身体行为模型构建融合人机识别模型分别分配权重a1、a2、a3,生成融合人机识别模型S,其中,S=a1*A+a2*B+a3*C;使用所述样本库中的用户行为数据训练所述融合人机识别模型S,获取权重al、a2、a3、的数值。模型S的输出结果为一个0、1的数值,在训练模型时,设置机器操作的模型输出结果为1,人为操作的模型输出结果为0,识别结果越准确的模型或规则,其对应的权重也越大,反之,其对应的权重越小。
可以看出,近眼显示设备上的人机识别方法,采用非感知的方式来执行人机识别。即,在用户不知晓的情况下,通过采集的终端设各处的特征(操作行为、轨迹等),再利用人工智能对行为数据集进行机器学习,最后利用训练出的行为模型与当下用户行为进行对比,来判断终端设备处的操作是否为正常用户的操作,进而达到人机识别的效果。因此,与现有技术中用户需要计算验证码来执行人机识别的方式相比,不再需要用户执行任何额外的操作,从而最大程度地降低了用户操作复杂度。
此外,在根据本公开的实施例的人机识别方法和设备中,基于多种类别的原始数据采集多个维度的特征,并且向用户行为模型输入的也是多个维度的特征。换言之,本发明中的用户行为模型是针对基于多种类别的原始数据而采集的多个维度的特征而建立的模型。与现有技术中仅使用单一类别的行为数据(例如,键盘、鼠标操作)来预测的方案相比,根据本公开的实施例的人机识别方法由于考虑了更多类别的数据和更多维度的特征从而准确度更高。
此外,在根据本公开的实施例的人机识别方法中,采用了基于不同监督分类算法的多种用户行为模型分别执行预测,并综合这多个不同模型的结果来得到最终的人机预测结果。与现有技术中仅使用单个模型来预测的方案相比,能够进一步提高预测的精度。
图4是示出用于所述人机识别模型的构建训练方法流程图。
如步骤1101-1103、1105所示,可以首先通过MR眼镜接收到的眼动行为数据1101,头部位置信息1102,上下文内容信息1103、交互控制设备1105。同步数据可能涉及使用一个或多个缓冲区。一旦数据已经同步,就可以执行其他预处理步骤。
图4中的步骤1101、1102、1105被视为通过成千上万的不同MR眼镜用户收集的真人行为数据,当获得用户授权后数据被上传至人机识别模型训练服务器被用于训练人机识别模型,并且这些步骤已被进行预处理。
1103应用场景,在本发明实施例中,每一种应用场景都是独立的一种人机识别方法,应用场景因而采集的用户数据不同,进而用于训练人机识别的数据特征不同,最终人机识别模型不同,每种考核方案对应着一种。通过应用场景提供的眼睛行为进行训练和目标点位置坐标。应用场景具体为:
(1)视觉搜索轨迹模型:当用户具有明确的搜索任务时,会产生具有明显共性特征的视觉轨迹,具体为在人类在视觉搜索过程中存在有目的自我意图的“扫视”行为。在具有明确的搜索任务的应用场景下可以选择注视时长、注视次数、首次注视时长、瞳孔大小、眼球运动速度、扫视路径、眼跳距离、眼跳次数、浏览顺序、UI界面按钮时间和空间分布、一些扫视路径的可视化速度图表等信息作为特征数据可用于人机识别。
(2)阅读文字的视觉轨迹模型特征:当显示文本正文时,设备佩戴者的通过上述真人用户在选择在阅读的应用场景下的眼睛行为特征,可以选择眼跳后与文字的位置关系、眼跳距离、眼动速度、阅读方向、眼跳次数、注视时长、文本的内容作等为特征数据可用于人机识别。
(3)打字输入过程中的视觉轨迹模型:当用户在打字的过程中,表现在,一遍看输入法app窗口,一遍看键盘按键位置。该轨迹特征可用于人机识别。
(4)眼动交互过程中的眼睛行为模型:通过眼睛注视点与目标交互的过程中,眼睛通过扫视运动来选择目标,在选择的过程中会出现矫正扫视、眼颤等行为,通过保持注视状态来确定目标,或/和通过其他外设硬件(控制器手柄、手环、戒指)点击确认。眼睛被用于与目标交互的过程中眼睛行为特征可用于人机识别。
(5)追视物体过程中的眼睛行为模型:当用户对真实/虚拟物体感兴趣时,用户的眼睛可能会跟随真实/虚拟物体的移动而移动,以保持对物体的持续关注,这种用户眼睛注视点跟随物体平滑移动的眼动行为被称之为“平滑追视”。眼睛被用于与目标交互的过程中眼睛行为特征可用于人机识别。
(6)眼动校准过程中的眼睛行为模型:在眼动追踪技术中,往往需要初始化眼球生物运动的坐标与物理世界/显示器屏幕的光标映射关系,并且校准眼睛视轴与光轴的偏差关系。眼动校准的过程中需要对对目标的搜索和交互,因而可用于可用于人机识别。
(7)眼睛无意识行为模型:在用户的平时生活中,这些眼球行为无时无刻的发生,并且人无法通过主观意识控制。眼睛无意识特征数据包括眨眼、瞳孔直径、眼颤、视觉深度可用于可用于人机识别。
(8)其他身体行为模型:加速度传感器以及陀螺仪传感器可以设置于智能电子设备中,智能电子设备例如可以为智能MR眼镜。加速度传感器和陀螺仪传感器能够记录该智能MR眼镜被使用过程中的各种数据。例如休息状态、咀嚼状态、对话状态等
在步骤1104,可以对接收到的数据进行过滤。诸如Savitzky-Golay滤波器,中值滤波器,指数移动平均值,双边滤波器,小波信号去噪滤波器或任何其他期望类型的滤波器之类的平滑滤波器可以首先被应用于接收到的数据(例如,接收到的凝视位置信息)。如果需要,也可以过滤头部位置信息。
在步骤1105,交互控制设备包括6Dof/3Dof控制器手柄、手势识别装置、语音识别装置、肌肉神经信号探测识别装置等。通常情况下6dof控制器手柄内置加速度传感器、磁力计、磁场空间定位等功能,具备追踪用户手/手臂运动的能力。在执行人机交互应用场景中存在利用6dof控制器手柄与目标物体进行交互,通过获取控制器手柄运动轨迹数据构建人机识别模型可提高人机识别的破解的难度。
在步骤1106,头部位置信息可用于确定用户头部的旋转轴。所接收的头部位置信息可以包括三个旋转参数和三个平移参数。为了减少所接收的头部位置信息的维数,在步骤1106中确定用户的头部在其上移动的轴。
在步骤1108,可以分析图像数据以识别使用图像数据呈现的内容的类型。例如,图像数据可以识别出正在呈现的内容的类型是基于文本的还是基于图像的。与查看基于文本的内容相关联的扫视动力学可能与与查看图像内容相关联的扫视动力学不同,因此分析显示器上的内容可能有助于改善最终位移估计。在步骤1108中,可以使用任何期望的图像处理技术来分析图像数据。
在步骤1110,凝视位置信息可用于确定用户的凝视点相对于物理空间的绝对位置。在步骤1110,还可以使用原始的凝视位置数据来确定用户的眼睛的速度和加速度。用户的凝视点相对于显示器的绝对位置可以影响可能发生的扫视的类型。例如,如果凝视点位于显示器的中心,则扫视趋势可能与凝视点位于显示器的边缘时不同。
在步骤1112,可以执行事件检测/分类概率分析。事件检测/分类概率分析可以确定扫视发生的概率。可能需要超过给定的阈值才能识别扫视正在发生。如果没有检测到扫视(例如,如果确定的扫视概率低于阈值),则可以将当前的凝视位置信息提供给同心度单元102以进行进一步处理。但是,如果如果确定的概率超过阈值,则识别出扫视发生。如果未检测到扫视,但检测到平滑追踪,VOR或OKN,则该事件标签以及其他功能可以传递给人机识别模型网络以进行预测。
如果识别为扫视发生,则可以为基于人机识别模型1128确定其他特征。在步骤1110中确定的用户注视点的绝对位置可以是基于人机识别模型所使用的特征。可以在步骤1114、1116、1118、1120、1122、1124和1126中确定其他功能。
在步骤1114,识别收敛运动。收敛是指两只眼睛向同一点聚焦移动,及双眼视线的夹角变大,可以说明用户正在注视近处物体。发散是两只眼睛在相反方向上同时移动,及双眼视线的夹角变小,可以说明用户正在注视远处物体。基于人机识别模型可以使用关于是否会发生收敛的信息来进行真人用户与机器人识别。
在步骤1116,可以获得扫视历史。扫视历史可以包括关于用户执行的最后N个扫视的信息。扫视历史可以包括任何期望数量的先前扫视N。每个历史扫视数据点可以包括关于扫视的位移距离,位移方向和位移时间以及自扫视发生以来经过的时间的信息。如果需要,可以将更多的数量用于最近发生的扫视。除了扫视历史之外,还可以存储其他类型的眼睛/头部运动的历史并将其用于通知预测网络。
在步骤1118中,可以确定扫视方向。扫视方向可以通过将当前的凝视点与先前的凝视点(例如,先前的30毫秒内的凝视点)进行比较来确定。扫视的方向可以通过估计在扫视开始时的凝视点的点与当前凝视点之间的方向来确定。扫视可以假定为直线发生。备选地,随时间的扫视曲率也可以用作人机识别模型网络中的功能,以提高预测精度。
在步骤1120处,头部位置信息和用户头部的旋转轴可用于识别轴不匹配和投影的头部速度。轴不匹配可指代与用户的头部和头部相关的旋转轴之间的不匹配。与用户眼睛相关的旋转轴。
如果在图像数据中识别出基于图像的内容(与基于文本的内容相反),则可以执行步骤1122和1124。在步骤1122,可以使用接收到的图像数据来生成显着图。显着性图可以用于识别显示的内容内的视觉关注项。显着性图可以标识诸如可选按钮,文本和视觉感兴趣的其他项目之类的项目。显着性图可以是概率密度图,其中视觉关注的特征被突出显示。
在步骤1124,可以识别显示的图像数据内的对象。例如,可以执行图像分割以识别所显示的内容中的感兴趣的对象。识别图像数据中的对象可能有助于预测用户的扫视着陆位置。如果扫视朝着感兴趣的物体的方向发生,扫视的最终着陆位置可能会在感兴趣的物体的位置。
如果图像数据显示主要的基于文本的内容正在使用显示器呈现,则可以省略步骤1122和1124。相反,可以在步骤1126应用阅读模型。当阅读文本时,眼睛的运动行为(包括扫视)可能遵循已知的模式。例如,用户可能有可能在给定行的末尾与下一行的开始之间扫视逐行地扫描文本。因此,用户很可能在显示器上阅读文本(以及文本的位置)这一事实可能是提供给基于人机识别模型1128的附加功能。
提供给基于人机识别模型1128的特征的示例可以包括:图4仅是说明性的。通常,基于人机识别模型可以使用任何所需数量的特征来生成人机识别结果。作为一些例子,这些特征可以涉及时间关系,内容变化,扫视动力学或空间位置。时间关系可以解释所有功能的短期和长期依赖性。可以考虑任何期望数量的过去扫视来得出关于扫视趋势的信息。内容变化可以指对图像数据的分析以确定用户可能查看的显示器的哪些部分。扫视动力学包括分析扫视眼动的速度曲线,识别发散眼动,以及获得关于扫视期间眼睛运动的其他信息。空间位置包括用户的凝视点的绝对位置,该绝对位置用于精确地预测扫视镜的着陆位置。
基于人机识别模型1128是基于机器学习的预测,将训练获得的人机识别模型可以被应用与人机识别服务器,或MR眼镜、智能汽车上,被用于通过与用户的特征数据进行比对识别是真人还是机器人。基于人机识别模型可以使用大型离线数据集进行训练。例如,离线数据集可以包括与已知为扫视的眼动相对应的原始数据(例如,凝视位置信息,头部位置信息,图像数据,事件标签,面部移动,手部移动,动作捕捉以及其他可量化的数据)。数据集可以包括每个扫视的已知着陆位置,该位置被用作预测网络的着陆点。基于人机识别模型可以包括许多参数,这些参数在训练过程中会得到完善。基于人机识别模型(有时称为凝视预测模型)也可以在电子设备的操作期间使用来自用户的过去的凝视数据来训练。
为了对真人用户主观意识的眼动进行严格分类,需要同时考虑多种措施。这些度量可以包括扫视发射延迟,峰值扫视速度,扫视所覆盖的角距离,在平滑追视期间行进的距离,矫正扫视的数量,固定时间等。换句话说,这种分类通常是多元的。此类数据的分类方法可以使用:1)统计和2)神经网络方法。
统计方法涉及本领域众所周知的技术。这种方法的示例包括线性分类器,二次分类器和贝叶斯统计。通常,监督学习(即,可以使用正确识别结果的数据集)可以用于机器学习。训练和验证数据集可以例如通过使设备佩戴者在执行眼信号时实时指示眼动是否“有目的”(例如,通过按下开关)来收集。用于获取此类数据的典型且易于使用的设置涉及在进行有目的的眼动时按住计算机鼠标上的按钮。然后,通常将具有已知结果的此类数据集分为用于训练(即机器学习)的数据集和用于验证的数据集。
同样,具有正确识别结果的数据集也可以用于神经网络或深度学习分类方法的训练和验证。训练神经网络的方法,例如反向传播,在本领域中是众所周知的。具有大量中间(或称为“隐藏”)层和互连关系(数百万至数十亿)的神经网络的应用通常称为“深度学习”。这些非常适合根据眼动模式和其他感官输入来识别用户的意图。
当使用许多人工智能(AI)或基于神经网络的分类方法时,通常难以确定不同输入之间的相互作用之类的因素,或者很难插入概率信息来改善网络。在某些情况下这可能是不利的。但是,一旦经过培训,基于神经网络的实现可能会非常快,并且在存储和功耗方面都非常高效。神经网络也可以很容易地直接在固件逻辑中实现(例如在FPGA中),而无需利用中央处理单元(CPU)资源。
所述用于训练人机识别模型的人工智能机器学习算法包括:LSTM的预测网络,SVM分类算法,计算机视觉算法的非限制性示例包括:尺度不变特征变换(SIFT),加速鲁棒特征(SURF),可以附加地或替代地通过各种机器学习算法来执行对象识别。训练后,机器学习算法可以由云端服务器或HMD存储。机器学习算法的一些示例可以包括有监督或无监督的机器学习算法,包括回归算法(例如普通最小二乘回归),基于实例的算法(例如学习向量量化),决策树算法(例如分类和回归树),贝叶斯算法(例如朴素贝叶斯),聚类算法(例如k-means聚类),关联规则学习算法(例如(例如先验算法),人工神经网络算法(例如Perceptron),深度学习算法(例如Deep Boltzmann机器或深度神经网络),降维算法(例如主成分分析),集成算法(例如Stacked Generalization)和/或其他机器学习算法。可以为各个数据集定制各个模型。
图5是本发明图4中人机识别训练模型的神经网络示意图。
神经网络800包括节点的层次结构。在最低层次级别,存在输入层801。输入层801包括一组输入节点。例如,在监视正在经历相应人机识别的测试用户/对象(例如,眼睛行为数据)期间,这些输入节点中的每一个被映射到通过致动器主动地收集或通过传感器被动地收集的本地数据。
在最高层级上,存在输出层803。输出层803包括一组输出节点。输出节点表示与当前经历的人机识别的信息有关的决策(例如,预测)。如前所述,输出节点可以将用户经历的眼睛行为与先前建模的眼睛行为相匹配,并且还识别出此时是机器人还是真人用户。其基本思想是:基于一组设置的初始化模型参数,比如利用高斯分布来随机初始化网络结构中的参数,输入数据在卷积神经网络中经过前向传播会得到一个期望输出,如果这个期望输出与数据的实际类别标签不相同,则将误差逐层反向传播至输入层,每层的神经元会根据该误差对网络结构中的参数进行更新。对卷积神经网络模型而言,待学习的参数包括卷积核参数、层间的连接参数以及各层的偏置等等。训练好的模型能够计算新的输入数据对应的类别标签,从而完成分类、预测或者是识别任务。
可以将这些结果与从先前获得的监视对象的预定和真实结果进行比较,在人机识别期间和/或结束时,以细化和/或修改深度学习引擎800使用的参数以迭代地确定适当的人机识别模型。即,神经网络800中的节点学习人机识别模型的参数。
可以将用户训练数据和第二训练数据作为输入数据输入卷积神经网络模型,通过不断迭代对卷积神经网络模型进行训练,得到性能较好、稳定性较好的卷积神经网络模型,进一步地可以将训练好的卷积神经网络模型确定为识别模型。例如,可以事先设置一个预设值,例如2000次,表示最大迭代次数。在对卷积神经网络模型的训练次数大于预设值时,可以停止迭代训练,并将训练结束时得到的卷积神经网络模型确定为识别模型。
特别地,在输入层801和输出层803之间存在隐藏层802。隐藏层802包括“N”个隐藏层,其中“N”是大于或等于1的整数。继而,每个隐藏层也包括一组隐藏节点。输入节点互连到隐藏节点。同样,隐藏节点互连到输出节点,以使输入节点不直接互连到输出节点。如果存在多个隐藏层,则输入节点将互连到最低隐藏层的隐藏节点。这些隐藏节点又互连到下一个隐藏层的隐藏节点,依此类推。下一个最高隐藏层的隐藏节点互连到输出节点。互连连接两个节点。
通常,隐藏层802允许在与输出节点相对应的所有任务之间共享关于输入节点的知识。为此,在一种实现方式中,变换f通过隐藏层802应用于输入节点。在一个示例中,变换f是非线性的。可以使用不同的非线性变换f,例如,包括线性整流器函数f(x)= max(0,x)。
神经网络800还使用成本函数c来找到最优解。成本函数测量对于给定的输入x,由定义为f(x)的神经网络800输出的预测与地面真实性或目标值y(例如,预期结果)之间的偏差。最佳解决方案表示一种情况,其中没有一种解决方案的成本低于最佳解决方案的成本。成本函数的一个示例是预测和基本事实之间的均方误差,对于可获得此类基本事实标签的数据。在学习过程期间,神经网络800可以使用反向传播算法来采用不同的优化方法来学习最小化成本函数的模型参数(例如,隐藏层802中的节点之间的互连的权重)。
在示例中,用于神经网络800的训练数据集可以来自相同的数据域。例如,训练神经网络800以基于给定的一组输入或输入数据来学习测试对象的相似扫视的图案和/或特征。例如,数据域包括眼睛取向数据。在另一个示例中,训练数据集来自不同的数据域,以包括除基线以外的输入数据。这样,神经网络800可以使用眼睛取向数据来识别扫视,或者可以被配置为基于眼睛取向数据为给定扫视生成扫视模型。
图7A是根据本公开的至少一个实施例的包括波导的头戴式显示器(HMD)的透视图。
图7A是佩戴HMD 601的用户600的透视图。在一些实施例中,HMD 601可以具有外壳602,该外壳包含一个或多个处理器,存储设备,电源,音频设备,显示设备,照相机,通信设备,或其组合,用于接收,收集,存储,处理或计算提供给用户的信息。例如,显示设备603可以光学上邻近波导或其他近眼显示器604定位,以向近眼显示器604提供视觉信息,该信息又可以由近视显示器604呈现在用户的视野中。近眼显示器604。头动追踪装置610追踪用户头部运动,当前头部位置、轨迹。
在一些实施例中,HMD 601可以具有位于用户600附近的近眼显示器604,以将视觉信息引导到用户600。HMD601可以包括单个近眼显示器604,用于近视的单独的近眼显示器604。用户的每只眼睛(即,两个近眼显示器604)或多于两个的近眼显示器604,以在较大的视场上提供视觉信息。
在一些实施例中,HMD 601可以包括可以对用户的物理环境成像的一个或多个相机605。例如,相机605可以是可以对周围环境成像的可见光相机605。处理器可以在可见光图像上执行图像识别例程,以检测和识别周围环境中的元素,例如物理对象或人。在其他示例中,一个或多个相机605可以是可以创建周围环境的深度图像的一个或多个深度感测相机。例如,相机605可以是飞行时间相机,结构光相机,立体相机或其他可以使用可见,红外,紫外线或其他波长的光来收集有关周围环境的三维信息的相机。
在一些实施例中,HMD 601可以进一步包括凝视跟踪设备606,其位于HMD 601中以跟踪用户的凝视的方向。凝视跟踪设备606可以包括一个或多个照相机以对用户的眼睛成像。换句话说,凝视跟踪设备606可以对用户的瞳孔,虹膜,巩膜,用户眼睛的其他部分或其组合成像,以计算用户正在看的方向。在一些实施例中,凝视追踪设备606可以测量和/或计算用户凝视的x和y、z分量。在其他实施例中,凝视跟踪设备606可以包括陀螺仪,加速计,用于对位置进行三角测量的多个传感器,或者允许测量HMD相对于虚拟环境的方向和/或位置的其他设备。
1)通过接收眼睛反射光线,计算瞳孔中心与角膜中心的连线进行眼动追踪。硬件包括多个不可见红外光源、微型摄像头、反光热镜、光波导镜片。
2)另一种眼动追踪技术实施例为通过捕获眼睛图像或者计算视网膜的影像或者视网膜反射光的强度进行眼动追踪。硬件包括不可见红外光源、光敏传感器、MEMS微机械系统反射镜、光波导镜片。
3)另一种眼动追踪技术实施例为通过发射结构光对眼睛建模,计算眼睛模型的视觉中心进行眼动追踪。
4)另一种眼动追踪技术实施例为通过接收眼睛角膜的反射光线,计算角膜中心反射的强度最大的光来进行眼动追踪。硬件包括不可见红外光源、光敏传感器、MEMS微机械系统反射镜、光波导镜片,光波导镜片可以配置为靠近眼睛的一层或多层光波导进行眼睛图像的获取和传导,波导中的输入衍射耦合器将眼睛图像耦合,眼睛图像光线在光波导中传导,同时图像传感器配置在光波导输出衍射耦合器的光线出射端。
图7B是图7A的HMD的示意图。参照图7A,根据本公开的至少一个实施例。
图7B是HMD 601的示意图。与近眼显示器604通信的显示设备603可以与处理器607进行数据通信。类似地,相机605和凝视跟踪设备606可以与显示器607进行数据通信。处理器607。处理器607可以进一步与存储设备608进行数据通信。存储设备608可以是硬件存储设备,例如基于压板的存储设备,固态存储设备或其他非暂时性的。或长期存储设备。存储设备608可以在其上存储指令以执行一种或多种方法或本发明描述的方法的一部分。还可以使用头动追踪装置609中的其他输入设备来收集诸如头部旋转或位置信息之类的用户行为。头动追踪装置609可以包括例如位置和运动传感器(例如,指南针,陀螺仪),加速度计和/或其他用于监视设备601的位置,方向和运动的设备,可以包括力传感器,温度传感器,触摸传感器,按钮,电容式接近传感器,基于光的接近传感器,其他接近传感器,应变压力计,气体传感器,压力传感器,湿度传感器,磁传感器和其他传感器。
图8为所示图1的一种MR眼镜的非感知人机识别方法、系统的网络架构示意图,具体为:AR/VR/MR终端210向网页服务器220请求服务,服务包括但不限于“登陆”、“注册”、“提交信息”、“下载”等。网页服务器220为了系统安全会向请求人机识别服务器230对MR终端210识别真人还是机器人。
在MR眼镜210系统或应用软件(例如浏览器)启动时加载数据收集模块211,收集用户的眼球行为数据、头动数据、身体运动数据、手势数据、6DOF控制器手柄数据等。该数据随机采集一段时间内的行为,并将数据存储至安全缓存器212,安全缓存器212为临时循环储存行为数据,仅存储近期的数据,当数据更新后会循环删除老旧行为数据,并且安全缓存器212被配置为硬件加密,具备安全机制,安全机制包括不限于例如Iphone X的Face ID 的硬件加密机制。
当MR眼镜210向网页服务器220请求网页信息216时,则网页服务器220向请求人机识别服务器230发送人机识别请求221,对MR终端210识别真人还是机器人,人机识别服务器230请求向MR眼镜210发送数据传回服务器230用于人机识别。
MR眼镜210接受到数据发送请求后,提取安全缓存器212存储的行为数据发送至数据特征提取模块213进行数据特征的分析处理,将行为特征数据经过加密模块214加密后被网络传输模块215发送特征数据217至人机识别服务器230。人机识别服务器230将特征数据217经解密模块232解码后,将可识别的特征数据发送至AI人机识别引擎进行确定真人和机器人的识别概率与预设阈值预测概率。
图9为所示图4的人机识别模型构建的系统示意图,人机识别模型构建系统900包括数据采集模块901,分析特征提取模块902,上下文分析模块903,训练模块904,数据采集模块901,从数据库中提取用户行为数据和上下文内容信息,其中用户行为数据和上下文内容信息被配置为同一时间下的。上述数据为接收成千上万不同用户数据形成数据库存储在服务器中。当构建或优化模型时,从服务器数据中提取数据。
分析特征提取模块902,从用户行为中提取有效的行为数据,例如扫视、转头等。
上下文分析模块903,通过图像识别技术或文本内容识别用户当前任务和应用场景。例如用于正在浏览网页,打字输入,阅读文字等。
训练模块904,对特征数据进行AI训练。
如图10所示,本发明提供的另外一种实施例非感知的基于本地空间模型数据的MR眼镜人机识别方法包括:
S201,通过MR智能眼镜视觉传感器对用户所在真实世界构建虚拟空间。
S202,设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存器。
S203,对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取。
S204,当应用发出人机识别需求时,将空间的三维模型与客户端的IP地址、HTTP/HTTPS请求的头部信息相对应,利用空间的三维模型生成识别密钥KEY,识别密钥KEY被上传至人机识别服务器。
S205,人机识别服务器对当前客户端的IP地址的识别密钥KEY的改变频率/次数是否满足预设阈值,若满足则进行下一步S206, 若不满足则拒绝访问(及识别密钥KEY始终不改变)。
S206,人机识别服务器请求MR眼镜发送行为特征数据加密后发送给人机识别服务器,人机识别服务器对接收到的用户行为数据进行解密计算后执行下一步。
S207,人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别模型。
S208,所述用户行为特征数据输入到AI预先训练好的一个或多个人机特征模型中,利用所述人机特征模型确定真人和机器人的识别概率与预设阈值预测概率。
本另外一种人机识别方法利用了MR/AR眼镜特有的物理空间的虚拟三维模型数据进行人机识别。通常情况下MR/AR眼镜为了呈现有深度、有定位的全息影像显示效果,都会利用MR眼镜通过视觉传感器结合SLAM技术实时重建三维环境信息,所述视觉传感器为普通RGB摄像头或TOF或结构光深度摄像头或双目RGB摄像机。可想而知一个正常的用户物理空间是不断改变的,例如人在街上行走,物理空间中来往的车辆/人群都会改变扫描形成的三维模型,另一种可能在固定空间中,例人如在家里,桌子/椅子的位置移动,及家里的物体位置不可能是一成不变,物体位置的改变也会造成被扫描后三维模型的改变。通过现有成百上千被用于打码平台的手机可以联想到——MR眼镜被用于打码平台时,MR眼镜是不会移动的,位移不会改变,因此MR眼镜生成的三维空间也是相同且不改变,通过这个原理进行人机识别。
进一步,S201,通过MR智能眼镜视觉传感器对用户所在真实世界构建虚拟空间包括。
(1)三维信息感知:MR眼镜通过视觉传感器感知三维环境信息;所述视觉传感器为普通RGB摄像头或TOF或结构光深度摄像头或双目RGB摄像机;
(2)三维场景重构,通过视觉传感器所获得的环境信息实时对场景进行三维重构;将构建虚拟三维空间与物理世界做空间拟合。
进一步,S204,当应用发出人机识别需求时,将空间的三维模型与客户端的IP地址、HTTP/HTTPS请求的头部信息相对应,利用空间的三维模型生成识别密钥KEY,识别密钥KEY被上传至人机识别服务器包括
其中,利用空间的三维模型生成识别密钥KEY具体为,可以使用任意适合的算法生成识别密钥KEY,识别密钥KEY生成算法类似哈希值生成算法、MD5算法等具备唯一性、安全性的算法。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (21)
1.一种非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法包括:
第一步,设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存器;
第二步,对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取;
第三步,当应用发出人机识别需求时,MR眼镜将提取到的特征数据加密后发送给人机识别服务器,人机识别服务器对接收到的用户行为数据进行解密计算后执行第四步;
第四步,人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别特征模型;进一步包括:(1)眼睛注视点视觉轨迹模型:当存在阅读场景时,选择眼睛注视点视觉轨迹模型作为人机识别特征模型;
(2)眼睛无意识行为模型:
当不存在的搜索目的时,采用眼睛无意识行为模型作为人机识别特征模型;
(3)其他身体行为模型:
其他身体行为模型选择头动数据作为特征数据进行人工智能模型训练得到;
第五步,用户行为特征数据输入到AI预先训练好的一个或多个人机识别特征模型中,利用人机识别特征模型确定真人和机器人的识别概率与预设阈值预测概率;通过识别概率与预设阈值之间的大小关系,确定待识别数据来自于用户或者是来自于机器人,进而确定操作智能电子设备的对象是用户或者是机器人。
2.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述第一步中的用户行为数据包括眼球行为和轨迹数据、眼睛无意识生理反应数据、头动数据、身体运动数据、手势数据、6DOF控制器手柄数据;
所述眼球行为和轨迹数据为按照时间顺序呈现的视觉注视点位置连线形成的轨迹图以及在相应位置的注视时长;
所述眼睛无意识生理反应数据包括眨眼、瞳孔直径变化、视觉深度数据;
所述头动数据和身体运动数据为通过MR智能眼镜设备中的加速度传感器、陀螺仪传感器、磁力计、IMU获取的头部和身体数据。
3.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述第二步中的对原始数据进行预处理;来说,预处理包括数据等长填充和异常数据清洗,对于经过预处理后的数据执行特征提取处理。
4.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述第三步中的MR眼镜将提取到的特征数据加密后发送给人机识别服务器包括:MR眼镜将提取到的特征数据通过独有PKI加密技术进行加密,基于SSL协议将采集的用户行为特征数据上传至人机识别服务器。
5.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述第四步中的人机识别服务器根据特征数据识别用户当前应用场景并选择相应的人机识别特征模型包括:
(1)眼睛注视点视觉轨迹模型利用包括目标在页面的坐标、大小、色彩、文字的复杂程度、空格的注视目标信息、注视位置、注视持续时间、注视次数、首次注视区域、首次注视时长、眼跳次数、眼跳距离、瞳孔大小、眼球运动速度、浏览顺序、注视轨迹及相关眼动指标作为特征数据进行训练得到;
(2)
眼睛无意识行为模型利用眨眼、瞳孔直径、眼颤、视觉深度及相关眼动指标作为特征数据进行模型训练得到;
(3)
头动数据包括:加速度传感器、陀螺仪、磁力计、IMU信号数据。
6.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法的眼睛注视点视觉轨迹模型包括:
(1)视觉搜索轨迹模型:
当用户具有明确的搜索任务、产生具有明显共性特征的视觉轨迹的场景中选择视觉搜索轨迹模型作为人机识别特征模型;
所述视觉搜索轨迹模型选择注视时长、注视次数、瞳孔大小、眼球运动速度、扫视路径、眼跳距离、眼跳次数、浏览顺序、UI界面按钮时间和空间分布、一些扫视路径的可视化速度图表及相关信息作为特征数据,进行人工智能模型训练获得;
(2)阅读文字的视觉轨迹模型特征:
当阅读的应用场景下,选择阅读文字的视觉轨迹模型特征作为人机识别特征模型;
所述阅读文字的视觉轨迹模型特征选择眼跳后与文字的位置关系、眼跳距离、眼跳次数、注视时长、文本的内容作为特征数据进行人工智能模型训练获得;
(3)打字输入过程中的视觉轨迹模型:
当存在打字输入的场景时,选择所述打字输入过程中的视觉轨迹模型作为人机识别特征模型;
基于选择的人机识别特征模型利用对应所述人机识别特征模型的特征数据进行训练,得到多个人机识别特征模型;
基于训练得到的眼睛注视点视觉轨迹模型、眼睛无意识行为模型、其他身体行为模型构建融合人机识别特征模型,并使用样本库中的用户行为数据训练所述融合人机识别特征模型,得到所述人机识别特征模型。
7.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法设置在MR眼镜用户客户端交互界面中的脚本/插件采集多种用户行为数据,当应用发出人机识别需求时,MR眼镜将数据被加密后发送给人机识别服务器;所述用于人机识别的用户行为数据包括眼球行为数据、头动数据、身体运动数据、手势数据、6DOF控制器手柄数据;
所述客户端交互界面应用场景为,应用在安装在智能眼镜上的客户端软件、MR眼镜内部系统软件、网页浏览器;其中客户端软件在启动时加载采集用户行为数据的第一可执行代码程序组件;网页浏览器需要安装某种安全插件用于采集用户行为数据;
采集数据是在应用程序的使用过程中或者浏览器的使用过程中就具备收集行为数据的能力,及用户正常使用的过程中就已经开始采集用户数据用于人机识别;采集人机识别程序启动前一段时间内的数据,当在具有人机识别需求时调用自动当前行为数据,自动判断是否符合真人模型,无需额外的交互操作;人机识别需求包括登陆、注册、提交信息、下载。
8.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法数据采集方式为:随机采集用户使用过程中一段时间内的多种用户行为数据,以生成样本数据,将时间上、幅值上都连续的模拟信号,在采样脉冲的作用下,转换成时间上离散、但幅值上仍然连续的离散模拟信号;通过随机采样方法、分层采样方法或者是窗口方法对获取的待识别数据进行采样;对获取的待识别数据的采样频率为20Hz,对每个待识别数据的采样时间可以为6.4秒,根据该采样频率和采样时间生成对应的样本数据。
9.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法当应用人机识别请求时,将特征数据上传至服务器将多种用户行为数据加密传送至人机识别服务器的过程中对数据进行加密计算,实现流程:基于SSI协议将加密后的用户行为数据发送到人机识别服务器,以供人机识别服务器在对接收到的用户行为数据进行解密计算后,则依据预先设置好的行为特征模型,对用户行为数据的触发主体进行人机识别;的,通过独有PKI加密技术,基于SSL协议将采集的用户行为数据上传至验证服务端。
10.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别特征模型,用户行为特征数据输入到AI预先训练好的一个或多个人机识别特征模型中,利用人机识别特征模型确定真人和机器人的预测概率;
当应用人机识别服务器时,根据用户当前应用场景选择相应的人机识别特征模型;
第一种眼睛注视点视觉轨迹模型:
(1)视觉搜索轨迹模型:当用户具有明确的搜索任务时,产生具有明显共性特征的视觉轨迹;模型中包括的特征信息有:
一.注视点轨迹先后顺序为注视点先停留在出发城市;注视点先停留到达城市;注视点先停留搜索;注视点先停留时间与价格栏,眼动轨迹首先停留在当天价格栏,然后眼动轨迹成左右扫视;用户选择合理时间和价格;在航班展示栏选择航空公司和时间,用户根据自身偏好优先注视信息,然后用户从该信息位置进行上下或左右的扫视搜寻次要选择;预定机票;
二.时间上:订票页面的注意力的时间分布;
三.空间上:最吸引用户注意力的区域、订票过程中的浏览轨迹;
四.信息检索效率:总体的注视次数;
五.决策效率:首次注视到首次鼠标点击的时耗;
六.内容布局:订票相关的信息和功能区之间眼跳次数、浏览顺序;
七.瞳孔大小、眼球运动速度、扫视路径;
(2)阅读文字的视觉轨迹模型特征:阅读英文和中文时,两者分别的轨迹特征:
1)英文轨迹特征:以往关于拼音文字阅读的研究结果发现,读者对某个词的首次眼跳落点会落在该词的中间偏左位置,该位置被定义为偏向注视位置,相较于词长较长的词,词长较短的词的偏向注视位置更靠近词的中心,词长越长,再注视概率越高;
2)中文轨迹特征:在用户阅读一段中文文字材料时,用户在该段文字材料中每个词组和/或每个字的注视位置、注视时长在时间先后顺序下形成的视觉轨迹;
文字材料中任意词组和/或字的首次注视位置,注视位置是词首、中央、词尾;
词组内的再注视眼跳目标注视位置是词组中央,而相邻的词组间眼跳目标注视位置是单独字上;
汉字的复杂性影响读者的注视时间,表现为汉字的复杂性越低,凝视时间越短;复杂性越高,凝视时间越长;注视时间和眼跳目标选择受汉字的复杂性影响;
在阅读过程中,首字的笔画数会对目标词的注视概率、眼跳距离、眼睛的落点位置以及首次注视时间产生影响;首字笔画数越少,注视概率越低,眼跳距离越长,眼睛落点位置距离起跳位置越远,首次注视时间也越短;
词后加空格,被试眼睛的注视位置会落在远离空格的地方,而不是落在词组中央上;相反,在词前加空格没有对阅读起促进作用;
如果目标为高频词,不管是跳入还是跳出目标词N的眼跳长度都会增长,并且注视时长较短;
在用户阅读中文文字材料时,用户在该段文字材料中每个词组和/或每个字的注视位置、注视时长、眼跳距离在时间先后顺序下形成的视觉轨迹为一条与X轴平行的曲线;
阅读时,当时用户读到难以理解的部分时,会在跳回到没有理解的地方重新阅读进行理解;
当阅读到句尾会眼跳至下一段句首进行阅读;
(3)打字输入过程中的视觉轨迹模型:当用户在打字的过程中,表现在,一遍看输入法app窗口,一遍看键盘按键位置;所述输入法app窗口位置为所输入联想词组提示窗口;所述键盘位置是能够组成当下正在输入文字的拼音字母位置;
在输入一段文字后,用户会反复阅读已经输入的内容,确认文字是否通畅;
眼睛注视点视觉轨迹模型训练过程中,将真人的眼动数据输入AI训练模型进行训练;
第二种眼睛无意识行为模型:在用户的平时生活中,这些眼球行为无时无刻的发生,并且人无法通过主观意识控制;眨眼、瞳孔放大、眼颤、视觉深度;
眼睛无意识行为模型训练过程中,将真人的眼动数据输入AI训练模型进行训练,特征数据包括眨眼、瞳孔直径、眼颤、视觉深度眼动指标生成AI训练模型,该数据被眼动追踪模组在任意时刻采集;
第三种其他身体行为模型:
通过加速度传感器以及陀螺仪传感器获取待识别数据,基于待识别数据中的明显差异对获取的待识别数据进行识别测试;利用测试仪、编写程序或者是其他方式,通过软件开发工具包采集加速度传感器数掘以及陀螺仪传感器数据;其中,加速度传感器数据以及陀螺仪传感器数据分别包括X轴、Y轴和Z轴三个子维度的数据,采集的待识别数据对应为6维数据;加速度传感器以及陀螺仪传感器设置于智能电子设备中。
11.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法通过对比一个人机识别特征模型或几个融合人机识别特征模型的识别概率与预设阈值,确定操作近眼显示设备的对象是用户或机器人;
预设阈值设置为0至1之间的任意数值,根据测试集的评价指标,识别概率即为识别模型的输出,是一个取值范围为0至1之间的概率值,用于表示待识别数据类型的概率;通过识别概率与预设阈值之间的大小关系,确定待识别数据来自于用户或者是来自于机器人,确定操作智能电子设备的对象是用户或者是机器人;
将训练得到的第一种眼睛注视点视觉轨迹模型和第二种眼睛无意识行为模型、第三种其他身体行为模型构建融合人机识别特征模型,并使用样本库中的用户行为数据训练所述融合人机识别特征模型。
12.如权利要求1所述的非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法人机识别特征模型的构建训练方法包括:首先通过MR眼镜接收到的眼动行为数据,头部位置信息,上下文内容信息、交互控制设备;
通过成千上万的不同MR眼镜用户收集的真人行为数据,当获得用户授权后数据被上传至人机识别特征模型训练服务器被用于训练人机识别特征模型,并且已被进行预处理;
应用场景的信息,每一种应用场景都是独立的一种人机识别方法,应用场景因而采集的用户数据不同,进而用于训练人机识别的数据特征不同,最终人机识别特征模型不同,每种考核方案对应着一种;通过应用场景提供的眼睛行为进行训练和目标点位置坐标,为:
(1)视觉搜索轨迹模型:当用户具有明确的搜索任务时,会产生具有明显共性特征的视觉轨迹,为在人类在视觉搜索过程中存在有目的自我意图的“扫视”行为,在具有明确的搜索任务的应用场景下选择注视时长、注视次数、首次注视时长、瞳孔大小、眼球运动速度、扫视路径、眼跳距离、眼跳次数、浏览顺序、UI界面按钮时间和空间分布、一些扫视路径的可视化速度图表信息作为特征数据可用于人机识别;
(2)阅读文字的视觉轨迹模型特征:当显示文本正文时,设备佩戴者的通过上述真人用户在选择在阅读的应用场景下的眼睛行为特征,选择眼跳后与文字的位置关系、眼跳距离、眼动速度、阅读方向、眼跳次数、注视时长、文本的内容作为特征数据可用于人机识别;
(3)打字输入过程中的视觉轨迹模型:当用户在打字的过程中,表现在,一遍看输入法app窗口,一遍看键盘按键位置,轨迹特征可用于人机识别;
(4)眼动交互过程中的眼睛行为模型:通过眼睛注视点与目标交互的过程中,眼睛通过扫视运动来选择目标,在选择的过程中会出现矫正扫视、眼颤行为,通过保持注视状态来确定目标,或/和通过其他外设硬件点击确认;眼睛被用于与目标交互的过程中眼睛行为特征可用于人机识别;
(5)追视物体过程中的眼睛行为模型:当用户对真实/虚拟物体感兴趣时,用户的眼睛会跟随真实/虚拟物体的移动而移动,以保持对物体的持续关注,这种用户眼睛注视点跟随物体平滑移动的眼动行为被称之为“平滑追视”; (6)眼动校准过程中的眼睛行为模型:在眼动追踪技术中,需要初始化眼球生物运动的坐标与物理世界/显示器屏幕的光标映射关系,并且校准眼睛视轴与光轴的偏差关系;眼动校准的过程中需要对目标的搜索和交互,因而可用于人机识别;
(7)眼睛无意识行为模型:在用户的平时生活中,这些眼球行为无时无刻的发生,并且人无法通过主观意识控制;眼睛无意识特征数据包括眨眼、瞳孔直径、眼颤、视觉深度可用于人机识别;
(8)其他身体行为模型:加速度传感器以及陀螺仪传感器设置于智能MR眼镜中;加速度传感器和陀螺仪传感器能够记录该智能MR眼镜被使用过程中的各种数据;
对接收到的数据进行过滤,Savitzky-Golay滤波器,中值滤波器,双边滤波器,小波信号去噪滤波器或任何其他期望类型的滤波器之类的平滑滤波器首先被应用于接收到的数据;
交互控制设备包括6Dof/3Dof控制器手柄、手势识别装置、语音识别装置、肌肉神经信号探测识别装置; 6dof控制器手柄内置加速度传感器、磁力计、磁场空间定位功能,具备追踪用户手/手臂运动的能力,在执行人机交互应用场景中存在利用6dof控制器手柄与目标物体进行交互,通过获取控制器手柄运动轨迹数据构建人机识别特征模型提高人机识别的破解的难度;
头部位置信息用于确定用户头部的旋转轴,所接收的头部位置信息包括三个旋转参数和三个平移参数;
分析图像数据以识别使用图像数据呈现的内容的类型;
凝视位置信息用于确定用户的凝视点相对于物理空间的绝对位置;
执行事件检测/分类概率分析,事件检测/分类概率分析确定扫视发生的概率;
如果识别为扫视发生,则为基于人机识别特征模型确定其他特征,在确定的用户注视点的绝对位置是基于人机识别特征模型所使用的特征;
识别收敛运动,收敛是指两只眼睛向同一点聚焦移动,及双眼视线的夹角变大,说明用户正在注视近处物体,发散是两只眼睛在相反方向上同时移动,及双眼视线的夹角变小,说明用户正在注视远处物体;基于人机识别特征模型使用关于是否会发生收敛的信息来进行真人用户与机器人识别;
获得扫视历史,扫视历史包括关于用户执行的最后N个扫视的信息;扫视历史包括任何期望数量的先前扫视N,每个历史扫视数据点包括关于扫视的位移距离,位移方向和位移时间以及自扫视发生以来经过的时间的信息,将更多的数量用于最近发生的扫视;
确定扫视方向,扫视方向通过将当前的凝视点与先前的凝视点进行比较确定,扫视的方向通过估计在扫视开始时的凝视点的点与当前凝视点之间的方向来确定;扫视假定为直线发生;
头部位置信息和用户头部的旋转轴用于识别轴不匹配和投影的头部速度,轴不匹配指代与用户的头部和头部相关的旋转轴之间的不匹配,与用户眼睛相关的旋转轴;
如果在图像数据中识别出基于图像的内容,使用接收到的图像数据来生成显着图,显着性图用于识别显示的内容内的视觉关注项,显着性图标识包括可选按钮,文本和视觉感兴趣的其他项目之类的项目;显着性图是概率密度图,其中视觉关注的特征被突出显示;
识别显示的图像数据内的对象,识别图像数据中的对象有助于预测用户的扫视着陆位置;如果扫视朝着感兴趣的物体的方向发生,扫视的最终着陆位置会在感兴趣的物体的位置;
如果图像数据显示主要的基于文本的内容正在使用显示器呈现,应用阅读模型,当阅读文本时,眼睛的运动行为遵循已知的模式;
基于人机识别特征模型将训练获得的人机识别特征模型被应用与人机识别服务器,被用于通过与用户的特征数据进行比对识别是真人还是机器人,基于人机识别特征模型使用大型离线数据集进行训练。
13.如权利要求12所述的非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法的人机识别训练模型的神经网络包括节点的层次结构,在最低层次级别,存在输入层;输入层包括一组输入节点;
在最高层级上,存在输出层,输出层包括一组输出节点,输出节点表示与当前经历的人机识别的信息有关的决策;基于一组设置的初始化模型参数,利用高斯分布来随机初始化网络结构中的参数,输入数据在卷积神经网络中经过前向传播会得到一个期望输出,如果这个期望输出与数据的实际类别标签不相同,则将误差逐层反向传播至输入层,每层的神经元会根据该误差对网络结构中的参数进行更新;对卷积神经网络模型而言,待学习的参数包括卷积核参数、层间的连接参数以及各层的偏置;训练好的模型能够计算新的输入数据对应的类别标签,完成分类、预测或者是识别任务;将结果与从先前获得的监视对象的预定和真实结果进行比较,在人机识别期间和/或结束时,以细化和/或修改深度学习引擎使用的参数以迭代地确定适当的人机识别特征模型,神经网络中的节点学习人机识别特征模型的参数;将用户训练数据和第二训练数据作为输入数据输入卷积神经网络模型,通过不断迭代对卷积神经网络模型进行训练,得到卷积神经网络模型,将训练好的卷积神经网络模型确定为识别模型;
在输入层和输出层之间存在隐藏层,隐藏层包括N个隐藏层,其中N是大于或等于1的整数;每个隐藏层也包括一组隐藏节点;输入节点互连到隐藏节点;同样,隐藏节点互连到输出节点,以使输入节点不直接互连到输出节点;如果存在多个隐藏层,则输入节点将互连到最低隐藏层的隐藏节点,隐藏节点又互连到下一个隐藏层的隐藏节点;下一个最高隐藏层的隐藏节点互连到输出节点,互连连接两个节点。
14.如权利要求9所述的非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法还包括: MR终端向网页服务器请求服务,网页服务器向请求人机识别服务器对MR终端识别真人还是机器人;
在MR眼镜系统或应用软件启动时加载数据收集模块,收集用户的眼球行为数据、头动数据、身体运动数据、手势数据、6DOF控制器手柄数据;该数据随机采集一段时间内的行为,并将数据存储至安全缓存器,安全缓存器为临时循环储存行为数据,仅存储近期的数据,当数据更新后会循环删除老旧行为数据,并且安全缓存器被配置为硬件加密,具备安全机制;
当MR眼镜向网页服务器请求网页信息时,则网页服务器向请求人机识别服务器发送人机识别请求,对MR终端识别真人还是机器人,人机识别服务器请求向MR眼镜发送数据传回服务器用于人机识别;
MR眼镜接受到数据发送请求后,提取安全缓存器存储的行为数据发送至数据特征提取模块进行数据特征的分析处理,将行为特征数据经过加密模块加密后被网络传输模块发送特征数据至人机识别服务器;人机识别服务器将特征数据经解密模块解码后,将可识别的特征数据发送至AI进行确定真人和机器人的识别概率与预设阈值预测概率。
15.如权利要求11所述的非感知的MR眼镜人机识别方法,其特征在于,所述非感知的MR眼镜人机识别方法还包括:
步骤一,通过MR智能眼镜视觉传感器对用户所在真实世界构建虚拟空间;
步骤二,设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存器;
步骤三,对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取;
步骤四,当应用发出人机识别需求时,将空间的三维模型与客户端的IP地址、HTTP/HTTPS请求的头部信息相对应,利用空间的三维模型生成识别密钥KEY,识别密钥KEY被上传至人机识别服务器;
步骤五,人机识别服务器对当前客户端的IP地址的识别密钥KEY的改变频率/次数是否满足预设阈值,若满足则进行步骤六, 若不满足则拒绝访问及识别密钥KEY始终不改变;
步骤六,人机识别服务器请求MR眼镜发送行为特征数据加密后发送给人机识别服务器,人机识别服务器对接收到的用户行为数据进行解密计算后执行步骤七;
步骤七,人机识别服务器根据特征数据识别用户当前应用场景,并选择相应的人机识别特征模型;
步骤八,用户行为特征数据输入到AI预先训练好的一个或多个人机识别特征模型中,利用所述人机识别特征模型确定真人和机器人的识别概率与预设阈值预测概率。
16.如权利要求15所述的非感知的MR眼镜人机识别方法,其特征在于,所述步骤一通过MR智能眼镜视觉传感器对用户所在真实世界构建虚拟空间包括:
(1)三维信息感知:MR眼镜通过视觉传感器感知三维环境信息;所述视觉传感器为普通RGB摄像头或TOF或结构光深度摄像头或双目RGB摄像机;
(2)三维场景重构,通过视觉传感器所获得的环境信息实时对场景进行三维重构;将构建虚拟三维空间与物理世界做空间拟合。
17.如权利要求15所述的非感知的MR眼镜人机识别方法,其特征在于,所述步骤四当应用发出人机识别需求时,将空间的三维模型与客户端的IP地址、HTTP/HTTPS请求的头部信息相对应,利用空间的三维模型生成识别密钥KEY,识别密钥KEY被上传至人机识别服务器包括:利用空间的三维模型生成识别密钥KEY为,使用任意适合的算法生成识别密钥KEY,识别密钥KEY生成算法为哈希值生成算法、MD5算法。
18.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1所述非感知的MR眼镜人机识别方法的步骤。
19.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1所述非感知的MR眼镜人机识别方法的步骤。
20.一种实施权利要求1~17任意一项所述非感知的MR眼镜人机识别方法的非感知的MR眼镜人机识别系统,其特征在于,所述非感知的MR眼镜人机识别系统包括:
数据采集模块,用于利用设置在MR眼镜用户客户端交互界面中的脚本或插件采集用于人机识别的数据的多种用户行为数据,并将行为数据存储至安全缓存模块;
安全缓存模块,用于临时存储脚本/插件采集的一段时间内多种用户行为数据,安全缓存模块被配置为循环存储最新的用户行为数据,该安全缓存模块中已被硬件安全加密;
数据特征提取模块,用于对获取到的用户行为原始数据进行预处理,并对预处理后的数据进行多个维度的特征提取;
加密传输模块,用于当应用发出人机识别需求时,将提取到的特征数据加密后发送给人机识别服务器;
人机识别模块,用于利用人机识别服务器对接收到的用户行为数据进行解密计算后,依据预先设置好的行为特征模型,对所述用户行为数据的触发主体进行人机识别。
21.如权利要求20所述的非感知的MR眼镜人机识别系统,其特征在于,所述非感知的MR眼镜人机识别系统还包括:人机识别特征模型构建系统;
所述机识别模型构建系统包括:
数据采集模块,从数据库中提取用户行为数据和上下文内容信息,其中用户行为数据和上下文内容信息被配置为同一时间下的;数据为接收成千上万不同用户数据形成数据库存储在服务器中;当构建或优化模型时,从服务器数据中提取数据;
分析特征提取模块,从用户行为中提取有效的行为数据;
上下文分析模块,通过图像识别技术或文本内容识别用户当前任务和应用场景;
训练模块,对特征数据进行AI训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827032.4A CN111966223B (zh) | 2020-08-17 | 2020-08-17 | 非感知的mr眼镜人机识别方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827032.4A CN111966223B (zh) | 2020-08-17 | 2020-08-17 | 非感知的mr眼镜人机识别方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111966223A CN111966223A (zh) | 2020-11-20 |
CN111966223B true CN111966223B (zh) | 2022-06-28 |
Family
ID=73388142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010827032.4A Active CN111966223B (zh) | 2020-08-17 | 2020-08-17 | 非感知的mr眼镜人机识别方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966223B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112462520B (zh) * | 2020-12-03 | 2022-12-20 | 江西台德智慧科技有限公司 | 一种基于人工智能的户外运动眼镜 |
CN112633390B (zh) * | 2020-12-29 | 2022-05-20 | 重庆科技学院 | 一种基于贝叶斯概率优化的青蒿素提净度分析方法 |
CN112717417A (zh) * | 2020-12-31 | 2021-04-30 | 新浪网技术(中国)有限公司 | 一种人机识别方法及装置 |
CN113537493B (zh) * | 2021-07-23 | 2023-12-08 | 深圳宏芯宇电子股份有限公司 | 人工智能模型训练方法、装置、远端平台和可读存储介质 |
US11922606B2 (en) | 2021-10-04 | 2024-03-05 | Samsung Electronics Co., Ltd. | Multipass interference correction and material recognition based on patterned illumination without frame rate loss |
US11933621B2 (en) * | 2021-10-06 | 2024-03-19 | Qualcomm Incorporated | Providing a location of an object of interest |
CN114489055A (zh) * | 2021-12-31 | 2022-05-13 | 中国科学技术大学 | 基于时序逻辑的机器人多任务运动实现方法、介质及设备 |
CN115379480A (zh) * | 2022-08-23 | 2022-11-22 | 中国联合网络通信集团有限公司 | 一种网络优化方法、装置、服务器及存储介质 |
CN117252662B (zh) * | 2023-09-28 | 2024-03-26 | 南京有春网络科技有限公司 | 一种基于vr技术的数字化商场购物系统 |
CN117130491B (zh) * | 2023-10-26 | 2024-02-06 | 航天宏图信息技术股份有限公司 | 混合现实多组协同的方法、系统、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015004598A1 (en) * | 2013-07-09 | 2015-01-15 | Biocatch Ltd. | Device, system, and method of differentiating among users of a computerized service |
CN104504404A (zh) * | 2015-01-23 | 2015-04-08 | 北京工业大学 | 一种基于视觉行为的网上用户类型识别方法及系统 |
CN104504390A (zh) * | 2015-01-14 | 2015-04-08 | 北京工业大学 | 一种基于眼动数据的网上用户状态识别方法和装置 |
CN107153786A (zh) * | 2017-05-26 | 2017-09-12 | 北京奇点数聚科技有限公司 | 一种人机识别方法、系统及终端设备、可读存储介质 |
CN109145868A (zh) * | 2018-09-11 | 2019-01-04 | 广州杰赛科技股份有限公司 | 一种辅助跑步训练的行为识别方法与装置 |
CN110059794A (zh) * | 2018-01-18 | 2019-07-26 | 北京京东金融科技控股有限公司 | 人机识别方法及装置、电子设备、存储介质 |
CN110427737A (zh) * | 2019-06-20 | 2019-11-08 | 平安科技(深圳)有限公司 | 操作行为的人机识别方法、装置及计算机设备 |
CN110456904A (zh) * | 2019-06-18 | 2019-11-15 | 中国人民解放军军事科学院国防科技创新研究院 | 一种无需标定的增强现实眼镜眼动交互方法及系统 |
CN111399633A (zh) * | 2019-01-03 | 2020-07-10 | 见臻科技股份有限公司 | 针对眼球追踪应用的校正方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10069852B2 (en) * | 2010-11-29 | 2018-09-04 | Biocatch Ltd. | Detection of computerized bots and automated cyber-attack modules |
CN106940766A (zh) * | 2016-01-04 | 2017-07-11 | 由田新技股份有限公司 | 视线轨迹认证系统及方法 |
-
2020
- 2020-08-17 CN CN202010827032.4A patent/CN111966223B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015004598A1 (en) * | 2013-07-09 | 2015-01-15 | Biocatch Ltd. | Device, system, and method of differentiating among users of a computerized service |
CN104504390A (zh) * | 2015-01-14 | 2015-04-08 | 北京工业大学 | 一种基于眼动数据的网上用户状态识别方法和装置 |
CN104504404A (zh) * | 2015-01-23 | 2015-04-08 | 北京工业大学 | 一种基于视觉行为的网上用户类型识别方法及系统 |
CN107153786A (zh) * | 2017-05-26 | 2017-09-12 | 北京奇点数聚科技有限公司 | 一种人机识别方法、系统及终端设备、可读存储介质 |
CN110059794A (zh) * | 2018-01-18 | 2019-07-26 | 北京京东金融科技控股有限公司 | 人机识别方法及装置、电子设备、存储介质 |
CN109145868A (zh) * | 2018-09-11 | 2019-01-04 | 广州杰赛科技股份有限公司 | 一种辅助跑步训练的行为识别方法与装置 |
CN111399633A (zh) * | 2019-01-03 | 2020-07-10 | 见臻科技股份有限公司 | 针对眼球追踪应用的校正方法 |
CN110456904A (zh) * | 2019-06-18 | 2019-11-15 | 中国人民解放军军事科学院国防科技创新研究院 | 一种无需标定的增强现实眼镜眼动交互方法及系统 |
CN110427737A (zh) * | 2019-06-20 | 2019-11-08 | 平安科技(深圳)有限公司 | 操作行为的人机识别方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111966223A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111966223B (zh) | 非感知的mr眼镜人机识别方法、系统、设备及存储介质 | |
CN111897435B (zh) | 一种人机识别的方法、识别系统、mr智能眼镜及应用 | |
CN111949131B (zh) | 一种基于眼动追踪技术的眼动交互方法、系统及设备 | |
AU2021202479B2 (en) | Head mounted display system configured to exchange biometric information | |
Sultana et al. | A concept of social behavioral biometrics: motivation, current developments, and future trends | |
CN113015984A (zh) | 卷积神经网络中的错误校正 | |
Wang et al. | Your eyes reveal your secrets: An eye movement based password inference on smartphone | |
KR20220125320A (ko) | 인간-기계 검증 방법, 장치, 기기 및 기록 매체 | |
Jeong et al. | Examining the current status and emerging trends in continuous authentication technologies through citation network analysis | |
Shi et al. | User authentication method based on keystroke dynamics and mouse dynamics using HDA | |
US10986087B2 (en) | Motion based authentication | |
Alt et al. | Human-centered Behavioral and Physiological Security | |
US20230280827A1 (en) | Detecting user-to-object contacts using physiological data | |
Hinbarji | Behavioural biometric identification based on human computer interaction | |
Kreiensieck et al. | A Comprehensive Evaluation of OpenFace 2.0 Gaze Tracking | |
Subramaniyam | Sketch Recognition Based Classification for Eye Movement Biometrics in Virtual Reality | |
Grootjen et al. | Investigating the Effects of Eye-Tracking Interpolation Methods on Model Performance of LSTM | |
SANAMRAD | Improving Browser Watermarking with Eye Tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |