CN111723752A - 基于情绪识别的驾驶员上岗驾驶检测方法及装置 - Google Patents
基于情绪识别的驾驶员上岗驾驶检测方法及装置 Download PDFInfo
- Publication number
- CN111723752A CN111723752A CN202010583278.1A CN202010583278A CN111723752A CN 111723752 A CN111723752 A CN 111723752A CN 202010583278 A CN202010583278 A CN 202010583278A CN 111723752 A CN111723752 A CN 111723752A
- Authority
- CN
- China
- Prior art keywords
- user
- image
- micro
- frame
- driver
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 85
- 239000013598 vector Substances 0.000 claims description 147
- 230000014509 gene expression Effects 0.000 claims description 117
- 230000003287 optical effect Effects 0.000 claims description 41
- 238000001514 detection method Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims description 11
- 230000036772 blood pressure Effects 0.000 claims description 11
- 239000008280 blood Substances 0.000 claims description 10
- 210000004369 blood Anatomy 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 32
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 230000036541 health Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 210000001525 retina Anatomy 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B2503/00—Evaluating a particular growth phase or type of persons or animals
- A61B2503/20—Workers
- A61B2503/22—Motor vehicles operators, e.g. drivers, pilots, captains
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Developmental Disabilities (AREA)
- Educational Technology (AREA)
- Psychology (AREA)
- Social Psychology (AREA)
- Pathology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
Abstract
本发明公开了基于情绪识别的驾驶员上岗驾驶检测方法、装置、计算机设备及存储介质,涉及人工智能的生物识别技术,通过接收用户端上传的体检数据,然后基于题库生成目标题目语音数据集发送至用户端,之后针对用户回答每一道题的过程进行视频语音双录,以通过微表情识别和语音情感识别获取用户回答每一道题的情感识别结果,而且能对答题正确率进行评分,最后基于体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告。该方法实现了以用户回答过程中的双录数据进行自动情感识别,提升了识别效率;而且避免通过人工主观判断,也提升了识别准确率。
Description
技术领域
本发明涉及人工智能的生物识别技术领域,尤其涉及一种基于情绪识别的驾驶员上岗驾驶检测方法、装置、计算机设备及存储介质。
背景技术
公交车作为大众交通的重要组成部分,在公共交通中扮演重要角色。近年来,公交交通事故层出不穷,而且危害重大,针对这些事故进行分析发现,大部分原因是由于司机健康和情绪激动等原因造成。
目前,公交车驾驶员每天上岗前检测时,除了获取驾驶员血压、酒精含量等基础健康数据,而且还通过面谈方式对应驾驶员进行情绪的人工判断,之后结合基础健康数据和人工判断得到的驾驶员情绪来确定驾驶员当日是否适合上岗。
但是,现有基于人工的方式来判断用户情绪,其误差较大,并不能准确的得到判断结果。而且基于人工判断用户情绪的效率较低,无法实现快速的对大量用户进行情绪识别。
发明内容
本发明实施例提供了一种基于情绪识别的驾驶员上岗驾驶检测方法、装置、计算机设备及存储介质,旨在解决现有技术中公交车司机上岗前测试基于人工的方式来判断用户情绪,不仅效率较低,而且无法实现快速的对大量司机进行情绪识别的问题。
第一方面,本发明实施例提供了一种基于情绪识别的驾驶员上岗驾驶检测方法,其包括:
接收用户端上传的体检数据;其中,所述体检数据包括司机血液酒精含量值、司机血压值;
将本地生成的目标题目语音数据集发送至用户端;
接收用户端发送的与所述目标题目语音数据集中每一条目标题目语音数据分别对应的用户视频和用户音频,以组成用户视频集和用户音频集;
通过对所述用户音频集中各用户音频进行语音识别,得到与所述用户音频集对应的当前答案数据集;
将所述当前答案数据集与所述题目-答案数据集中对应的答案数据集进行比对,得到用户检测分值;
在用户视频集的各用户视频对应的视频图像序列中提取包含微表情的图像帧,通过对各用户视频中包含微表情的图像帧进行微表情识别,得到与各用户视频对应的微表情识别结果,以组成微表情识别结果集;
通过对用户音频集中各用户音频进行语音情感识别,得到对应的语音情感识别结果集;以及
将所述体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告。
第二方面,本发明实施例提供了一种基于情绪识别的驾驶员上岗驾驶检测装置,其包括:
体检数据接收单元,用于接收用户端上传的体检数据;其中,所述体检数据包括司机血液酒精含量值、司机血压值;
目标题目发送单元,用于将本地生成的目标题目语音数据集发送至用户端;
双录单元,用于接收用户端发送的与所述目标题目语音数据集中每一条目标题目语音数据分别对应的用户视频和用户音频,以组成用户视频集和用户音频集;
当前答案数据集获取单元,用于通过对所述用户音频集中各用户音频进行语音识别,得到与所述用户音频集对应的当前答案数据集;
用户分值获取单元,用于将所述当前答案数据集与所述题目-答案数据集中对应的答案数据集进行比对,得到用户检测分值;
微表情识别单元,用于在用户视频集的各用户视频对应的视频图像序列中提取包含微表情的图像帧,通过对各用户视频中包含微表情的图像帧进行微表情识别,得到与各用户视频对应的微表情识别结果,以组成微表情识别结果集;
语音情感识别单元,用于通过对用户音频集中各用户音频进行语音情感识别,得到对应的语音情感识别结果集;以及
司机上岗报告生成单元,用于将所述体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于情绪识别的驾驶员上岗驾驶检测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于情绪识别的驾驶员上岗驾驶检测方法。
本发明实施例提供了一种基于情绪识别的驾驶员上岗驾驶检测方法、装置、计算机设备及存储介质,接收用户端上传的体检数据,然后基于题库生成目标题目语音数据集发送至用户端,之后针对用户回答每一道题的过程进行视频语音双录,以通过微表情识别和语音情感识别获取用户回答每一道题的情感识别结果,而且能对答题正确率进行评分,最后基于体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告。该方法实现了以用户回答过程中的双录数据进行自动情感识别,提升了识别效率;而且避免通过人工主观判断,也提升了识别准确率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于情绪识别的驾驶员上岗驾驶检测方法的应用场景示意图;
图2为本发明实施例提供的基于情绪识别的驾驶员上岗驾驶检测方法的流程示意图;
图3为本发明实施例提供的基于情绪识别的驾驶员上岗驾驶检测方法的子流程示意图;
图4为本发明实施例提供的基于情绪识别的驾驶员上岗驾驶检测装置的示意性框图;
图5为本发明实施例提供的基于情绪识别的驾驶员上岗驾驶检测装置的子单元示意性框图;
图6为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于情绪识别的驾驶员上岗驾驶检测方法的应用场景示意图;图2为本发明实施例提供的基于情绪识别的驾驶员上岗驾驶检测方法的流程示意图,该基于情绪识别的驾驶员上岗驾驶检测方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S110~S180。
S110、接收用户端上传的体检数据;其中,所述体检数据包括司机血液酒精含量值、司机血压值。
在本实施例中,为了更清楚的理解本申请的技术方案,下面对所涉及的终端进行详细介绍。本申请是在服务器的角度描述技术方案。
第一是用户端,用户端是一个集成了获取用户的体检数据,能进行司机安全上岗题库问答、且对整个问答过程进行双录的智能终端。也即在用户端与服务器交互的用户交互界面上,用户当前测量了司机血液酒精含量值和司机血压值后,可在该用户交互界面上录入此时所测量的司机血液酒精含量值和司机血压值,并上传至服务器。用户端还能接收服务器推送的题库展示给用户进行答题,并对每一道题目的答题过程进行录像录音(也即双录),之后将双录数据发送至服务器。
第二是服务器,服务器中存储了基于知识图谱的数据结构的题库,服务器可以从题库中随机挑选指定数量的题目-答案数据集后,将题目-答案数据集中对应的题目数据集转化为对应的目标题目语音数据集后发送至用户端。之后接收用户端发送的双录数据进行答题过程的微表情识别和语音情感识别。
其中,例如,当某一公交司机在当日上岗驾驶之前,需要使用用户端进行体检数据上传和双录数据上传后,从而有服务器进行数据处理后得到最终的评估结果。一般,通过用户端上传体检数据时,核心关注点在于司机的血液酒精含量和血压,通过这两个最核心的数据即可判断司机当日的身体健康状况。
S120、将本地生成的目标题目语音数据集发送至用户端。
在本实施例中,在服务器中存储了包括大量测试题的题库,例如驾驶员安全教育、驾驶员在线理论、上岗考试等问题库,这些问题库是包括大量的题目,每一题目均对应一个答案。此时,为了对司机进行上岗前的测试,此时需在服务器中生成目标题目语音数据集并发送至用户端。这样,用户端在接收了目标题目语音数据集后,即可根据语音问题进行在线回答。
在一实施例中,作为步骤S120的第一实施例,步骤S120包括:
获取本地已存储的题库;
随机从所述题库中抽取满足预设的第一数量的题目-答案数据集,将所述题目-答案数据集中对应的题目数据集转化为对应的目标题目语音数据集,以发送至用户端。
在本实施例中,当随机从所述题库中抽取满足所述第一数量(例如设置的第一数量为20)的题目-答案数据集时,则挑选出了20道题目以及每一道题目对应的答案。
由于在服务器的题库中所挑选的多道题目初始是文字形式的,此时因为要推送题目的文字和语音至用户端,此时需要将所述题目-答案数据集中对应的题目数据集转化为对应的目标题目语音数据集发送至用户端。将文本数据转化为语音数据是现有比较成熟的技术,此处不再展开论述。
在一实施例中,作为步骤S120的第二实施例,步骤S120包括:
获取由多个知识图谱组成的题库;
随机从所述题库中抽取满足预设的第一数量的三元组,以组成答案三元组集;
将答案三元组集中每一三元组中任意一个信息进行信息删除,得到与答案三元组集对应的题目三元组集;
将题目三元组集中每一题目三元组对应的文本转化为题目语音数据,以组成目标题目语音数据集并发送至用户端。
在本实施例中,例如题库包括驾驶员安全教育知识对应的第一知识图谱、驾驶员在线理论对应的第二知识图谱、上岗考试对应的第三知识图谱;每一知识图谱中包括多个三元组,每一个三元组代表一个知识或者某个事实。即将一个知识图谱定义为G={E,R,F},其中E、R、F分别是实体、关系和事实的集合。事实可以被表示为一个三元组(h,r,t)∈F。例如,某一三元组为(h1,r1,t1),更具体的记为(深圳,城市道路限速,30),表示深圳的市内城市道路限速为30km。
为了生成多道题目,此时需随机从所述题库中抽取满足预设的第一数量的三元组,也即抽取了第一数目的三元组对应的知识。由于此时三元组对应的事实相当于题目的答案,此时为了生成问题,可以将该三元组中的其中一个信息进行删除,使其变成不完整的知识点,即可生成问题。例如,将三元组(深圳,城市道路限速,30)中的30进行删除,即得到(深圳,城市道路限速,?x),得到的题目就是深圳的城市道路限速是多少。
之后,同样将题目三元组集中每一题目三元组对应的文本转化为题目语音数据,以组成目标题目语音数据集并发送至用户端。将文本数据转化为语音数据是现有比较成熟的技术,此处不再展开论述。
S130、接收用户端发送的与所述目标题目语音数据集中每一条目标题目语音数据分别对应的用户视频和用户音频,以组成用户视频集和用户音频集。
在本实施例中,当用户端接收了所述目标题目语音数据集后,用户针对每一目标题目语音数据对应的题目进行回答时,用户端均会对用户回答各题目的过程进行双录,得到与各题目分别对应的用户视频和用户音频,以组成用户视频集和用户音频集。也即每一条目标题目语音数据对应的一道题目,均对应一条用户视频和用户音频。
例如,用户端接收所述目标题目语音数据集中目标题目语音数据1对应的题目1在用户端进行语音播报后,用户会根据题目进行回答,用户端在回答过程中针对题目1的用户视频1和用户音频1进行录制。其他题目的回答过程也进行双录,完成所有题目对应双录后,即获取每一条目标题目语音数据分别对应的用户视频和用户音频,以组成用户视频集和用户音频集。通过进行双录,能够有效对司机用户的答题过程进行完整保存,便于后续溯源。
S140、通过对所述用户音频集中各用户音频进行语音识别,得到与所述用户音频集对应的当前答案数据集。
在本实施例中,当在用户端完成了对用户整个答题过程的双录,且将用户视频集和用户音频集上传至服务器后,由服务器调用语音识别模型(例如N元模型,也即N-gram模型)对所述用户音频集中各用户音频进行语音识别,得到与所述用户音频集对应的当前答案数据集。通过这一方式,能快速获取各用户音频对应的文本形式的当前答案数据,便于后续进行评分。
S150、将所述当前答案数据集与所述题目-答案数据集中对应的答案数据集进行比对,得到用户检测分值。
在本实施例中,当前答案数据集中每一条当前答案数据均对应一个题目的用户回答数据,若该用户回答数据与对应题目的答案数据相同,表示用户回答正确;若该用户回答数据与对应题目的答案数据不相同,表示用户回答错误。由于当前答案数据集对应的答案总数据条数是可以统计获取的(也即与第一数量相同),而且当前答案数据集对应的正确答案的总数据条数也是可以统计获取的且记为第二数量。此时获取第二数量与第一数量之比再乘以100,即可获得用户检测分值。通过这一方式,能快速通过答题获取司机当日的驾驶理论知识是否合格。
S160、在用户视频集的各用户视频对应的视频图像序列中提取包含微表情的图像帧,通过对各用户视频中包含微表情的图像帧进行微表情识别,得到与各用户视频对应的微表情识别结果,以组成微表情识别结果集。
在本实施例中,为了更加客观的判断司机用户在答题过程中的情绪状态,微表情识别可作为参考指标之一,这一方式能够更加准确的判断司机用户在答题过程中是否存在采用求助他人方式作答等方式作弊的嫌疑。
在一实施例中,如图3所示,步骤S160包括:
S161、通过光流法获取各用户视频的视频图像序列中包含微表情的图像帧;
S162、根据预设的经验帧数值,在各用户视频对应的包含微表情的图像帧中获取与所述经验帧数值相等张数的连续多帧图像,以组成各用户视频对应的微表情序列;
S163、调用预先构建的权重计算层计算各用户视频对应的微表情序列中每一帧图像的权重特征向量,以得到各用户视频中每一帧图像的结合权重值的图像特征向量;
S164、将各用户视频中每一帧图像的结合权重值的图像特征向量进行求和,得到所述各用户视频对应的综合图像特征向量;
S165、将各用户视频对应的综合图像特征向量输入至预先训练的卷积神经网络,得到各用户视频对应的微表情识别结果,以组成微表情识别结果集。
在本实施例中,在司机用户答题的过程中,用户端启动摄像头和麦克风进行双录,之后将双录得到的用户视频集上传至服务器进行微表情识别。服务器获取到用户视频集后,各用户视频的视频图像序列中包含微表情的图像帧,以进行后续的微表情识别。
其中,可通过光流法或时空局部纹理算子获取各用户视频的视频图像序列中包含微表情的图像帧。
在本实施例中,具体可以选择使用的任何合适的特征提取方式,从视频图像序列中提取其中包含的微表情的图像帧。例如,可以使用基于光流的特征提取或者基于LBP-TOP算子的特征提取:
其中,光流算法是在一定约束条件下估算视频图像序列中的光流从而识别出客户面部的细微运动,实现对微表情的特征提取。而LBP-TOP算子(即时空局部纹理)则是在局部二值模式(LBP算子)的基础上发展而来的,用于反映像素在视频图像序列中的空间分布的特征。简单而言,其是在LBP算子的基础上,新增加了一个时间上的维度,从而可以提取视频图像序列中各个像素点跟随时间的变化特征,从而识别出客户面部的细微表情变化。
在一实施例中,步骤S161包括:
获取各用户视频的视频图像序列的各像素点对应的速度矢量特征;
若视频图像序列中存在至少一帧图像的所述速度矢量特征未保持连续变化,由对应图片组成对应用户视频中包含微表情的图像帧。
在本实施例中,当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像是一种光的“流”,故称之为光流。光流表达图像的变化,包含目标运动的信息,可用来确定目标的运动。光流三个要素:一是运动速度场,这是形成光流的必要条件;二是带光学特征的部分例如有灰度的象素点,它可以携带运动信息;三是成像投影从场景到图像平面,因而能被观察到。
定义光流以点为基础,具体来说,设(u,v)为图像点(x,y)的光流,则把(x,y,u,v)称为光流点。所有光流点的集合称为光流场。当带光学特性的物体在三维空间运动时,在图像平面上就形成了相应的图像运动场,或称为图像速度场。在理想情况下,光流场对应于运动场。
给图像中的每个像素点赋予一个速度矢量,这样就形成了一个运动矢量场。根据各个像素点的速度矢量特征,可以对图像进行动态分析。如果图像中没有运动目标,则光流矢量在整个图像区域是连续变化的。当图像中有运动物体时(当用户有微表情时,脸部会有运动,相当于运动物体),目标和背景存在着相对运动。运动物体所形成的速度矢量必然和背景的速度矢量有所不同,如此便可以计算出运动物体的位置。通过光流法进行预处理,即可得到各用户视频的视频图像序列中包含微表情的图像帧。
其中,经验帧数值记为N,N是一个经验性数值,可以由技术人员根据实际情况的需要而设置。亦即,保证在N帧图像中记录有一个微表情从起始、峰值到终结的完整过程。
通过权重值的不同的可以表示微表情序列中图像帧之间的联系(即微表情图像序列的时域信息)。例如,在一个微笑的微表情序列中,某几张图像帧总是联合出现,通过提高这些联合出现的图像帧的权重可以获得序列的时域信息。
为了对各微表情序列中每一帧图像赋予权重值,需要调用预先构建的权重计算层计算所述微表情序列中每一帧图像的权重特征向量。
在一实施例中,各用户视频对应的微表情序列中包括与用户视频的总个数相同的微表情序列;
其中,调用预先构建的权重计算层计算各用户视频对应的微表情序列中每一帧图像的权重特征向量,以得到各用户视频中每一帧图像的结合权重值的图像特征向量,包括:
获取所述微表情序列中每一帧图像对应的图片特征向量,及每一帧图像对应的图片特征向量集合;其中,所述微表情序列中第i帧图像对应的图片特征向量集合由所述微表情序列中除第i帧图像之外的其他帧图像对应的图片特征向量组成,i的取值范围是[1,N]且N=经验帧数值;
获取所述微表情序列中每一帧图像的图片特征向量与其他各帧图像的图片特征向量之间的相似度值,以得到每一帧图像对应的相似度值集合;其中,所述微表情序列中第i帧图像的图片特征向量与其他各帧图像的图片特征向量之间的相似度值,组成第i帧图像的相似度值集合;
将所述微表情序列中每一帧图像分别对应的相似度值集合均进行归一化处理,得到与每一帧图像分别对应的归一化相似度值集合;
根据每一帧图像分别对应的归一化相似度值集合及图片特征向量集合,获取每一帧图像分别对应的权重特征向量,以得到每一帧图像的结合权重值的图像特征向量。
在本实施例中,由于所述微表情序列中的各帧图像初始是不带权重值的,此时为了获取每一帧图像的权重值,可以通过下述过程进行:
1)获取所述微表情序列中每一帧图像对应的图片特征向量,具体可将每一帧图像输入至已完成训练的卷积神经网络中,得到与各帧图像对应图片特征向量;此时再获取每一帧图像对应的图片特征向量集合,其中所述微表情序列中第i帧图像对应的图片特征向量集合由所述微表情序列中除第i帧图像之外的其他帧图像对应的图片特征向量组成,i的取值范围是[1,N]且N=经验帧数值;
2)将微表情序列的N帧图像中第i帧图像记为Ni,先将将其中一帧图像对应的图片特征向量输入至权重计算层,以计算该帧图像与微表情序列中其余的N-1帧图像的图片特征向量之间的相似性,从而得到每一帧图像对应的相似度值集合;其中,所述微表情序列中第i帧图像的图片特征向量与其他各帧图像的图片特征向量之间的相似度值,组成第i帧图像的相似度值集合。该相似性具体可以采用任何合适的方式进行评价,如通过两帧图像的图像特征向量之间的向量点积,余弦相似度或者是引入新的神经网络来计算;
3)将计算获得的与所述微表情序列中每一帧图像分别对应的相似度值集合均进行归一化处理,得到与每一帧图像分别对应的归一化相似度值集合;
4)由于每一帧图像均对应一个归一化相似度值集合,此时将归一化相似度值集合中每一个归一化相似度值与对应帧的图片特征向量相乘后求和,得到每一帧图像均对应的结合权重值的图像特征向量。
通过上述权重计算层,可以挖掘获得微表情图像序列中,不同图像帧之间的内在联系。亦即,一些密切相关的图像帧会有显著高于其他图像帧的权重值,从而在微表情的识别过程能够得到更多的关注。
在一实施例中,所述根据每一帧图像分别对应的归一化相似度值集合及图片特征向量集合,获取每一帧图像分别对应的权重特征向量,以得到每一帧图像的结合权重值的图像特征向量的步骤,包括:
将第i帧图像的归一化相似度值集合中每一归一化相似度值,与第i帧图像的图片特征向量集合中对应的图片特征向量进行相乘后求和,得到第i帧图像对应的权重特征向量,以得到第i帧图像相应的结合权重值的图像特征向量。
通过这一方式获取的第i帧图像相应的结合权重值的图像特征向量,充分考虑了不同图像帧之间的内在联系。
当获取了每一帧图像的结合权重值的图像特征向量后,此时为了综合考虑这些帧数的图像对应的微表情识别结果,此时可以将每一帧图像的结合权重值的图像特征向量进行求和,得到所述用户视频对应的综合图像特征向量,之后以综合图像特征向量作为识别向量来进行微表情识别。
当获取了所述综合图像特征向量后,这一综合图像特征向量代表了视频图像序列中N帧图像对应的综合图片特征向量,此时将其输入至权重计算层所使用的卷积神经网络中,即可得到微表情识别结果。
在一实施例中,步骤S165包括:
将各用户视频对应的综合图像特征向量输入至预先训练的卷积神经网络的softmax层,得到各用户视频对应的微表情识别结果,以组成微表情识别结果集。
在本实施例中,由于在权重计算层所使用的卷积神经网络中已使用了卷积层、池化层及全连接层,得到了对应的图片特征向量,此时在获取了各用户视频对应的综合图像特征向量后,可将各用户视频对应的综合图像特征向量输入至卷积神经网络的softmax层,获取各用户视频对应的微表情识别结果,以组成微表情识别结果集。具体是获得该微表情属于各个类别的概率,选择概率最高的类别作为该微表情序列的微表情识别结果。
S170、通过对用户音频集中各用户音频进行语音情感识别,得到对应的语音情感识别结果集。
在本实施例中,通过对用户音频集中各用户音频进行语音情感识别得到对应的语音情感识别结果集时,模式识别领域的诸多算法都适用于语音情感识别的,比如GMM(高斯混合模型),SVM(支持向量机),KNN(K最近邻模型),HMM(隐马尔可夫模型)等算法均可用于对各用户音频进行语音情感识别,得到对应的语音情感识别结果。
S180、将所述体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告。
在本实施例中,为了便于在服务器一侧的审核人员判断该司机当日是否适合上岗驾驶,此时可以通过将所述体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告;其中,司机上岗识别报告模板中包括体检数据填充项、用户检测分支填充项、微表情识别结果填充项、语音情感识别填充项,当在前述步骤中获取了这些信息后,对应填充至司机上岗识别报告模板中相应的填充项中,即可得到便于审核人员直观查看的当前司机上岗识别报告。
在一实施例中,步骤S180之后还包括:
将当前司机上岗识别报告对应的数据摘要上传至区块链网络中进行存储。
在本实施例中,所述司机上岗识别报告模板也是存储在区块链网络中。区块链网络对应的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
为了留存双录证据,将当前司机上岗识别报告对应的数据摘要可以在区块链网络进行长久的保留,便于后续溯源查询。
该方法实现了以用户回答过程中的双录数据进行自动情感识别,提升了识别效率;而且避免通过人工主观判断,也提升了识别准确率。
本发明实施例还提供一种基于情绪识别的驾驶员上岗驾驶检测装置,该基于情绪识别的驾驶员上岗驾驶检测装置用于执行前述基于情绪识别的驾驶员上岗驾驶检测方法的任一实施例。具体地,请参阅图4,图4是本发明实施例提供的基于情绪识别的驾驶员上岗驾驶检测装置的示意性框图。该基于情绪识别的驾驶员上岗驾驶检测装置100可以配置于服务器中。
如图4所示,基于情绪识别的驾驶员上岗驾驶检测装置100包括:体检数据接收单元110、目标题目发送单元120、双录单元130、当前答案数据集获取单元140、用户分值获取单元150、微表情识别单元160、语音情感识别单元170、司机上岗报告生成单元180。
体检数据接收单元110,用于接收用户端上传的体检数据;其中,所述体检数据包括司机血液酒精含量值、司机血压值。
在本实施例中,例如,当某一公交司机在当日上岗驾驶之前,需要使用用户端进行体检数据上传和双录数据上传后,从而有服务器进行数据处理后得到最终的评估结果。一般,通过用户端上传体检数据时,核心关注点在于司机的血液酒精含量和血压,通过这两个最核心的数据即可判断司机当日的身体健康状况。
目标题目发送单元120,用于将本地生成的目标题目语音数据集发送至用户端。
在本实施例中,在服务器中存储了包括大量测试题的题库,例如驾驶员安全教育、驾驶员在线理论、上岗考试等问题库,这些问题库是包括大量的题目,每一题目均对应一个答案。此时,为了对司机进行上岗前的测试,此时需在服务器中生成目标题目语音数据集并发送至用户端。这样,用户端在接收了目标题目语音数据集后,即可根据语音问题进行在线回答。
在一实施例中,作为目标题目发送单元120的第一实施例,目标题目发送单元120包括:
题库第一获取单元,用于获取本地已存储的题库;
随机抽题单元,用于随机从所述题库中抽取满足预设的第一数量的题目-答案数据集,将所述题目-答案数据集中对应的题目数据集转化为对应的目标题目语音数据集,以发送至用户端。
在本实施例中,当随机从所述题库中抽取满足所述第一数量(例如设置的第一数量为20)的题目-答案数据集时,则挑选出了20道题目以及每一道题目对应的答案。
由于在服务器的题库中所挑选的多道题目初始是文字形式的,此时因为要推送题目的文字和语音至用户端,此时需要将所述题目-答案数据集中对应的题目数据集转化为对应的目标题目语音数据集发送至用户端。将文本数据转化为语音数据是现有比较成熟的技术,此处不再展开论述。
在一实施例中,作为目标题目发送单元120的第二实施例,目标题目发送单元120包括:
题库第二获取单元,用于获取由多个知识图谱组成的题库;
答案三元组集获取单元,用于随机从所述题库中抽取满足预设的第一数量的三元组,以组成答案三元组集;
题目三元组集获取单元,用于将答案三元组集中每一三元组中任意一个信息进行信息删除,得到与答案三元组集对应的题目三元组集;
目标题目语音数据集发送单元,用于将题目三元组集中每一题目三元组对应的文本转化为题目语音数据,以组成目标题目语音数据集并发送至用户端。
在本实施例中,例如题库包括驾驶员安全教育知识对应的第一知识图谱、驾驶员在线理论对应的第二知识图谱、上岗考试对应的第三知识图谱;每一知识图谱中包括多个三元组,每一个三元组代表一个知识或者某个事实。即将一个知识图谱定义为G={E,R,F},其中E、R、F分别是实体、关系和事实的集合。事实可以被表示为一个三元组(h,r,t)∈F。例如,某一三元组为(h1,r1,t1),更具体的记为(深圳,城市道路限速,30),表示深圳的市内城市道路限速为30km。
为了生成多道题目,此时需随机从所述题库中抽取满足预设的第一数量的三元组,也即抽取了第一数目的三元组对应的知识。由于此时三元组对应的事实相当于题目的答案,此时为了生成问题,可以将该三元组中的其中一个信息进行删除,使其变成不完整的知识点,即可生成问题。例如,将三元组(深圳,城市道路限速,30)中的30进行删除,即得到(深圳,城市道路限速,?x),得到的题目就是深圳的城市道路限速是多少。
之后,同样将题目三元组集中每一题目三元组对应的文本转化为题目语音数据,以组成目标题目语音数据集并发送至用户端。将文本数据转化为语音数据是现有比较成熟的技术,此处不再展开论述。
双录单元130,用于接收用户端发送的与所述目标题目语音数据集中每一条目标题目语音数据分别对应的用户视频和用户音频,以组成用户视频集和用户音频集。
在本实施例中,当用户端接收了所述目标题目语音数据集后,用户针对每一目标题目语音数据对应的题目进行回答时,用户端均会对用户回答各题目的过程进行双录,得到与各题目分别对应的用户视频和用户音频,以组成用户视频集和用户音频集。也即每一条目标题目语音数据对应的一道题目,均对应一条用户视频和用户音频。
例如,用户端接收所述目标题目语音数据集中目标题目语音数据1对应的题目1在用户端进行语音播报后,用户会根据题目进行回答,用户端在回答过程中针对题目1的用户视频1和用户音频1进行录制。其他题目的回答过程也进行双录,完成所有题目对应双录后,即获取每一条目标题目语音数据分别对应的用户视频和用户音频,以组成用户视频集和用户音频集。通过进行双录,能够有效对司机用户的答题过程进行完整保存,便于后续溯源。
当前答案数据集获取单元140,用于通过对所述用户音频集中各用户音频进行语音识别,得到与所述用户音频集对应的当前答案数据集。
在本实施例中,当在用户端完成了对用户整个答题过程的双录,且将用户视频集和用户音频集上传至服务器后,由服务器调用语音识别模型(例如N元模型,也即N-gram模型)对所述用户音频集中各用户音频进行语音识别,得到与所述用户音频集对应的当前答案数据集。通过这一方式,能快速获取各用户音频对应的文本形式的当前答案数据,便于后续进行评分。
用户分值获取单元150,用于将所述当前答案数据集与所述题目-答案数据集中对应的答案数据集进行比对,得到用户检测分值。
在本实施例中,当前答案数据集中每一条当前答案数据均对应一个题目的用户回答数据,若该用户回答数据与对应题目的答案数据相同,表示用户回答正确;若该用户回答数据与对应题目的答案数据不相同,表示用户回答错误。由于当前答案数据集对应的答案总数据条数是可以统计获取的(也即与第一数量相同),而且当前答案数据集对应的正确答案的总数据条数也是可以统计获取的且记为第二数量。此时获取第二数量与第一数量之比再乘以100,即可获得用户检测分值。通过这一方式,能快速通过答题获取司机当日的驾驶理论知识是否合格。
微表情识别单元160,用于在用户视频集的各用户视频对应的视频图像序列中提取包含微表情的图像帧,通过对各用户视频中包含微表情的图像帧进行微表情识别,得到与各用户视频对应的微表情识别结果,以组成微表情识别结果集。
在本实施例中,为了更加客观的判断司机用户在答题过程中的情绪状态,微表情识别可作为参考指标之一,这一方式能够更加准确的判断司机用户在答题过程中是否存在采用求助他人方式作答等方式作弊的嫌疑。
在一实施例中,如图5所示,微表情识别单元160包括:
微表情图像帧获取单元161,用于通过光流法获取各用户视频的视频图像序列中包含微表情的图像帧;
微表情序列获取单元162,用于根据预设的经验帧数值,在各用户视频对应的包含微表情的图像帧中获取与所述经验帧数值相等张数的连续多帧图像,以组成各用户视频对应的微表情序列;
权重图像特征向量获取单元163,用于调用预先构建的权重计算层计算各用户视频对应的微表情序列中每一帧图像的权重特征向量,以得到各用户视频中每一帧图像的结合权重值的图像特征向量;
综合图像特征向量获取单元164,用于将各用户视频中每一帧图像的结合权重值的图像特征向量进行求和,得到所述各用户视频对应的综合图像特征向量;
微表情识别结果获取单元165,用于将各用户视频对应的综合图像特征向量输入至预先训练的卷积神经网络,得到各用户视频对应的微表情识别结果,以组成微表情识别结果集。
在本实施例中,在司机用户答题的过程中,用户端启动摄像头和麦克风进行双录,之后将双录得到的用户视频集上传至服务器进行微表情识别。服务器获取到用户视频集后,各用户视频的视频图像序列中包含微表情的图像帧,以进行后续的微表情识别。
其中,可通过光流法或时空局部纹理算子获取各用户视频的视频图像序列中包含微表情的图像帧。
在本实施例中,具体可以选择使用的任何合适的特征提取方式,从视频图像序列中提取其中包含的微表情的图像帧。例如,可以使用基于光流的特征提取或者基于LBP-TOP算子的特征提取:
其中,光流算法是在一定约束条件下估算视频图像序列中的光流从而识别出客户面部的细微运动,实现对微表情的特征提取。而LBP-TOP算子(即时空局部纹理)则是在局部二值模式(LBP算子)的基础上发展而来的,用于反映像素在视频图像序列中的空间分布的特征。简单而言,其是在LBP算子的基础上,新增加了一个时间上的维度,从而可以提取视频图像序列中各个像素点跟随时间的变化特征,从而识别出客户面部的细微表情变化。
在一实施例中,微表情图像帧获取单元161包括:
速度矢量特征获取单元,用于获取各用户视频的视频图像序列的各像素点对应的速度矢量特征;
目标图像帧获取单元,用于若视频图像序列中存在至少一帧图像的所述速度矢量特征未保持连续变化,由对应图片组成对应用户视频中包含微表情的图像帧。
在本实施例中,当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像是一种光的“流”,故称之为光流。光流表达图像的变化,包含目标运动的信息,可用来确定目标的运动。光流三个要素:一是运动速度场,这是形成光流的必要条件;二是带光学特征的部分例如有灰度的象素点,它可以携带运动信息;三是成像投影从场景到图像平面,因而能被观察到。
定义光流以点为基础,具体来说,设(u,v)为图像点(x,y)的光流,则把(x,y,u,v)称为光流点。所有光流点的集合称为光流场。当带光学特性的物体在三维空间运动时,在图像平面上就形成了相应的图像运动场,或称为图像速度场。在理想情况下,光流场对应于运动场。
给图像中的每个像素点赋予一个速度矢量,这样就形成了一个运动矢量场。根据各个像素点的速度矢量特征,可以对图像进行动态分析。如果图像中没有运动目标,则光流矢量在整个图像区域是连续变化的。当图像中有运动物体时(当用户有微表情时,脸部会有运动,相当于运动物体),目标和背景存在着相对运动。运动物体所形成的速度矢量必然和背景的速度矢量有所不同,如此便可以计算出运动物体的位置。通过光流法进行预处理,即可得到各用户视频的视频图像序列中包含微表情的图像帧。
其中,经验帧数值记为N,N是一个经验性数值,可以由技术人员根据实际情况的需要而设置。亦即,保证在N帧图像中记录有一个微表情从起始、峰值到终结的完整过程。
通过权重值的不同的可以表示微表情序列中图像帧之间的联系(即微表情图像序列的时域信息)。例如,在一个微笑的微表情序列中,某几张图像帧总是联合出现,通过提高这些联合出现的图像帧的权重可以获得序列的时域信息。
为了对各微表情序列中每一帧图像赋予权重值,需要调用预先构建的权重计算层计算所述微表情序列中每一帧图像的权重特征向量。
在一实施例中,各用户视频对应的微表情序列中包括与用户视频的总个数相同的微表情序列;
其中,权重图像特征向量获取单元163,包括:
图片特征向量集合获取单元,用于获取所述微表情序列中每一帧图像对应的图片特征向量,及每一帧图像对应的图片特征向量集合;其中,所述微表情序列中第i帧图像对应的图片特征向量集合由所述微表情序列中除第i帧图像之外的其他帧图像对应的图片特征向量组成,i的取值范围是[1,N]且N=经验帧数值;
图片特征向量集合获取单元,用于获取所述微表情序列中每一帧图像的图片特征向量与其他各帧图像的图片特征向量之间的相似度值,以得到每一帧图像对应的相似度值集合;其中,所述微表情序列中第i帧图像的图片特征向量与其他各帧图像的图片特征向量之间的相似度值,组成第i帧图像的相似度值集合;
归一化单元,用于将所述微表情序列中每一帧图像分别对应的相似度值集合均进行归一化处理,得到与每一帧图像分别对应的归一化相似度值集合;
权重特征向量获取单元,用于根据每一帧图像分别对应的归一化相似度值集合及图片特征向量集合,获取每一帧图像分别对应的权重特征向量,以得到每一帧图像的结合权重值的图像特征向量。
在本实施例中,由于所述微表情序列中的各帧图像初始是不带权重值的,此时为了获取每一帧图像的权重值,可以通过下述过程进行:
1)获取所述微表情序列中每一帧图像对应的图片特征向量,具体可将每一帧图像输入至已完成训练的卷积神经网络中,得到与各帧图像对应图片特征向量;此时再获取每一帧图像对应的图片特征向量集合,其中所述微表情序列中第i帧图像对应的图片特征向量集合由所述微表情序列中除第i帧图像之外的其他帧图像对应的图片特征向量组成,i的取值范围是[1,N]且N=经验帧数值;
2)将微表情序列的N帧图像中第i帧图像记为Ni,先将将其中一帧图像对应的图片特征向量输入至权重计算层,以计算该帧图像与微表情序列中其余的N-1帧图像的图片特征向量之间的相似性,从而得到每一帧图像对应的相似度值集合;其中,所述微表情序列中第i帧图像的图片特征向量与其他各帧图像的图片特征向量之间的相似度值,组成第i帧图像的相似度值集合。该相似性具体可以采用任何合适的方式进行评价,如通过两帧图像的图像特征向量之间的向量点积,余弦相似度或者是引入新的神经网络来计算;
3)将计算获得的与所述微表情序列中每一帧图像分别对应的相似度值集合均进行归一化处理,得到与每一帧图像分别对应的归一化相似度值集合;
4)由于每一帧图像均对应一个归一化相似度值集合,此时将归一化相似度值集合中每一个归一化相似度值与对应帧的图片特征向量相乘后求和,得到每一帧图像均对应的结合权重值的图像特征向量。
通过上述权重计算层,可以挖掘获得微表情图像序列中,不同图像帧之间的内在联系。亦即,一些密切相关的图像帧会有显著高于其他图像帧的权重值,从而在微表情的识别过程能够得到更多的关注。
在一实施例中,权重特征向量获取单元还用于:
将第i帧图像的归一化相似度值集合中每一归一化相似度值,与第i帧图像的图片特征向量集合中对应的图片特征向量进行相乘后求和,得到第i帧图像对应的权重特征向量,以得到第i帧图像相应的结合权重值的图像特征向量。
通过这一方式获取的第i帧图像相应的结合权重值的图像特征向量,充分考虑了不同图像帧之间的内在联系。
当获取了每一帧图像的结合权重值的图像特征向量后,此时为了综合考虑这些帧数的图像对应的微表情识别结果,此时可以将每一帧图像的结合权重值的图像特征向量进行求和,得到所述用户视频对应的综合图像特征向量,之后以综合图像特征向量作为识别向量来进行微表情识别。
当获取了所述综合图像特征向量后,这一综合图像特征向量代表了视频图像序列中N帧图像对应的综合图片特征向量,此时将其输入至权重计算层所使用的卷积神经网络中,即可得到微表情识别结果。
在一实施例中,微表情识别结果获取单元165包括:
Softmax分类单元,用于将各用户视频对应的综合图像特征向量输入至预先训练的卷积神经网络的softmax层,得到各用户视频对应的微表情识别结果,以组成微表情识别结果集。
在本实施例中,由于在权重计算层所使用的卷积神经网络中已使用了卷积层、池化层及全连接层,得到了对应的图片特征向量,此时在获取了各用户视频对应的综合图像特征向量后,可将各用户视频对应的综合图像特征向量输入至卷积神经网络的softmax层,获取各用户视频对应的微表情识别结果,以组成微表情识别结果集。具体是获得该微表情属于各个类别的概率,选择概率最高的类别作为该微表情序列的微表情识别结果。
语音情感识别单元170,用于通过对用户音频集中各用户音频进行语音情感识别,得到对应的语音情感识别结果集。
在本实施例中,通过对用户音频集中各用户音频进行语音情感识别得到对应的语音情感识别结果集时,模式识别领域的诸多算法都适用于语音情感识别的,比如GMM(高斯混合模型),SVM(支持向量机),KNN(K最近邻模型),HMM(隐马尔可夫模型)等算法均可用于对各用户音频进行语音情感识别,得到对应的语音情感识别结果。
司机上岗报告生成单元180,用于将所述体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告。
在本实施例中,为了便于在服务器一侧的审核人员判断该司机当日是否适合上岗驾驶,此时可以通过将所述体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告;其中,司机上岗识别报告模板中包括体检数据填充项、用户检测分支填充项、微表情识别结果填充项、语音情感识别填充项,当在前述步骤中获取了这些信息后,对应填充至司机上岗识别报告模板中相应的填充项中,即可得到便于审核人员直观查看的当前司机上岗识别报告。
在一实施例中,基于情绪识别的驾驶员上岗驾驶检测装置100还包括:
数据上链单元,用于将当前司机上岗识别报告对应的数据摘要上传至区块链网络中进行存储。
在本实施例中,所述司机上岗识别报告模板也是存储在区块链网络中。区块链网络对应的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
为了留存双录证据,将当前司机上岗识别报告对应的数据摘要可以在区块链网络进行长久的保留,便于后续溯源查询。
该装置实现了以用户回答过程中的双录数据进行自动情感识别,提升了识别效率;而且避免通过人工主观判断,也提升了识别准确率。
上述基于情绪识别的驾驶员上岗驾驶检测装置可以实现为计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图6,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于情绪识别的驾驶员上岗驾驶检测方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于情绪识别的驾驶员上岗驾驶检测方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于情绪识别的驾驶员上岗驾驶检测方法。
本领域技术人员可以理解,图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图6所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于情绪识别的驾驶员上岗驾驶检测方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于情绪识别的驾驶员上岗驾驶检测方法,其特征在于,包括:
接收用户端上传的体检数据;其中,所述体检数据包括司机血液酒精含量值、司机血压值;
将本地生成的目标题目语音数据集发送至用户端;
接收用户端发送的与所述目标题目语音数据集中每一条目标题目语音数据分别对应的用户视频和用户音频,以组成用户视频集和用户音频集;
通过对所述用户音频集中各用户音频进行语音识别,得到与所述用户音频集对应的当前答案数据集;
将所述当前答案数据集与所述题目-答案数据集中对应的答案数据集进行比对,得到用户检测分值;
在用户视频集的各用户视频对应的视频图像序列中提取包含微表情的图像帧,通过对各用户视频中包含微表情的图像帧进行微表情识别,得到与各用户视频对应的微表情识别结果,以组成微表情识别结果集;
通过对用户音频集中各用户音频进行语音情感识别,得到对应的语音情感识别结果集;以及
将所述体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告。
2.根据权利要求1所述的基于情绪识别的驾驶员上岗驾驶检测方法,其特征在于,所述将本地生成的目标题目语音数据集发送至用户端,包括:
获取本地已存储的题库;
随机从所述题库中抽取满足预设的第一数量的题目-答案数据集,将所述题目-答案数据集中对应的题目数据集转化为对应的目标题目语音数据集,以发送至用户端。
3.根据权利要求1所述的基于情绪识别的驾驶员上岗驾驶检测方法,其特征在于,所述将本地生成的目标题目语音数据集发送至用户端,包括:
获取由多个知识图谱组成的题库;
随机从所述题库中抽取满足预设的第一数量的三元组,以组成答案三元组集;
将答案三元组集中每一三元组中任意一个信息进行信息删除,得到与答案三元组集对应的题目三元组集;
将题目三元组集中每一题目三元组对应的文本转化为题目语音数据,以组成目标题目语音数据集并发送至用户端。
4.根据权利要求1所述的基于情绪识别的驾驶员上岗驾驶检测方法,其特征在于,所述在用户视频集的各用户视频对应的视频图像序列中提取包含微表情的图像帧,通过对各用户视频中包含微表情的图像帧进行微表情识别,得到与各用户视频对应的微表情识别结果,以组成微表情识别结果集,包括:
通过光流法获取各用户视频的视频图像序列中包含微表情的图像帧;
根据预设的经验帧数值,在各用户视频对应的包含微表情的图像帧中获取与所述经验帧数值相等张数的连续多帧图像,以组成各用户视频对应的微表情序列;
调用预先构建的权重计算层计算各用户视频对应的微表情序列中每一帧图像的权重特征向量,以得到各用户视频中每一帧图像的结合权重值的图像特征向量;
将各用户视频中每一帧图像的结合权重值的图像特征向量进行求和,得到所述各用户视频对应的综合图像特征向量;
将各用户视频对应的综合图像特征向量输入至预先训练的卷积神经网络,得到各用户视频对应的微表情识别结果,以组成微表情识别结果集。
5.根据权利要求4所述的基于情绪识别的驾驶员上岗驾驶检测方法,其特征在于,所述通过光流法获取各用户视频的视频图像序列中包含微表情的图像帧,包括:
获取各用户视频的视频图像序列的各像素点对应的速度矢量特征;
若视频图像序列中存在至少一帧图像的所述速度矢量特征未保持连续变化,由对应图片组成对应用户视频中包含微表情的图像帧。
6.根据权利要求4所述的基于情绪识别的驾驶员上岗驾驶检测方法,其特征在于,各用户视频对应的微表情序列中包括与用户视频的总个数相同的微表情序列;
其中,调用预先构建的权重计算层计算各用户视频对应的微表情序列中每一帧图像的权重特征向量,以得到各用户视频中每一帧图像的结合权重值的图像特征向量,包括:
获取所述微表情序列中每一帧图像对应的图片特征向量,及每一帧图像对应的图片特征向量集合;其中,所述微表情序列中第i帧图像对应的图片特征向量集合由所述微表情序列中除第i帧图像之外的其他帧图像对应的图片特征向量组成,i的取值范围是[1,N]且N=经验帧数值;
获取所述微表情序列中每一帧图像的图片特征向量与其他各帧图像的图片特征向量之间的相似度值,以得到每一帧图像对应的相似度值集合;其中,所述微表情序列中第i帧图像的图片特征向量与其他各帧图像的图片特征向量之间的相似度值,组成第i帧图像的相似度值集合;
将所述微表情序列中每一帧图像分别对应的相似度值集合均进行归一化处理,得到与每一帧图像分别对应的归一化相似度值集合;
根据每一帧图像分别对应的归一化相似度值集合及图片特征向量集合,获取每一帧图像分别对应的权重特征向量,以得到每一帧图像的结合权重值的图像特征向量。
7.根据权利要求1所述的基于情绪识别的驾驶员上岗驾驶检测方法,其特征在于,所述司机上岗识别报告模板存储于区块链网络中;
所述将所述体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告之后,还包括:
将当前司机上岗识别报告对应的数据摘要上传至区块链网络中进行存储。
8.一种基于情绪识别的驾驶员上岗驾驶检测装置,其特征在于,包括:
体检数据接收单元,用于接收用户端上传的体检数据;其中,所述体检数据包括司机血液酒精含量值、司机血压值;
目标题目发送单元,用于将本地生成的目标题目语音数据集发送至用户端;
双录单元,用于接收用户端发送的与所述目标题目语音数据集中每一条目标题目语音数据分别对应的用户视频和用户音频,以组成用户视频集和用户音频集;
当前答案数据集获取单元,用于通过对所述用户音频集中各用户音频进行语音识别,得到与所述用户音频集对应的当前答案数据集;
用户分值获取单元,用于将所述当前答案数据集与所述题目-答案数据集中对应的答案数据集进行比对,得到用户检测分值;
微表情识别单元,用于在用户视频集的各用户视频对应的视频图像序列中提取包含微表情的图像帧,通过对各用户视频中包含微表情的图像帧进行微表情识别,得到与各用户视频对应的微表情识别结果,以组成微表情识别结果集;
语音情感识别单元,用于通过对用户音频集中各用户音频进行语音情感识别,得到对应的语音情感识别结果集;以及
司机上岗报告生成单元,用于将所述体检数据、用户检测分值、微表情识别结果集、及语音情感识别结果集填充至预先存储的司机上岗识别报告模板中,得到当前司机上岗识别报告。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于情绪识别的驾驶员上岗驾驶检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于情绪识别的驾驶员上岗驾驶检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583278.1A CN111723752A (zh) | 2020-06-23 | 2020-06-23 | 基于情绪识别的驾驶员上岗驾驶检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583278.1A CN111723752A (zh) | 2020-06-23 | 2020-06-23 | 基于情绪识别的驾驶员上岗驾驶检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111723752A true CN111723752A (zh) | 2020-09-29 |
Family
ID=72568476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010583278.1A Pending CN111723752A (zh) | 2020-06-23 | 2020-06-23 | 基于情绪识别的驾驶员上岗驾驶检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723752A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170585A (zh) * | 2021-11-16 | 2022-03-11 | 广西中科曙光云计算有限公司 | 危险驾驶行为的识别方法、装置、电子设备及存储介质 |
-
2020
- 2020-06-23 CN CN202010583278.1A patent/CN111723752A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170585A (zh) * | 2021-11-16 | 2022-03-11 | 广西中科曙光云计算有限公司 | 危险驾驶行为的识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522815B (zh) | 一种专注度评估方法、装置及电子设备 | |
CN108090902B (zh) | 一种基于多尺度生成对抗网络的无参考图像质量客观评价方法 | |
CN112346567A (zh) | 基于ai的虚拟交互模型生成方法、装置及计算机设备 | |
US20220122378A1 (en) | Data-driven, photorealistic social face-trait encoding, prediction, and manipulation using deep neural networks | |
CN110853646A (zh) | 会议发言角色的区分方法、装置、设备及可读存储介质 | |
CN116484318B (zh) | 一种演讲训练反馈方法、装置及存储介质 | |
CN113782190B (zh) | 基于多级时空特征和混合注意力网络的图像处理方法 | |
CN116824278B (zh) | 图像内容分析方法、装置、设备和介质 | |
CN112330684A (zh) | 对象分割方法、装置、计算机设备及存储介质 | |
CN111401105B (zh) | 一种视频表情识别方法、装置及设备 | |
CN113762107A (zh) | 对象状态评估方法、装置、电子设备及可读存储介质 | |
CN115984930A (zh) | 微表情识别方法、装置、微表情识别模型的训练方法 | |
CN113282840B (zh) | 一种训练采集综合管理平台 | |
CN112862023B (zh) | 对象密度确定方法、装置、计算机设备和存储介质 | |
CN111723752A (zh) | 基于情绪识别的驾驶员上岗驾驶检测方法及装置 | |
CN113486925A (zh) | 模型训练方法、眼底图像生成方法、模型评估方法及装置 | |
CN112367494B (zh) | 基于ai的在线会议通讯方法、装置及计算机设备 | |
CN115511670A (zh) | 一种在线教育方法及在线教育平台 | |
US20220253676A1 (en) | Anonymization | |
CN114612618A (zh) | 图像生成方法、装置、设备、存储介质及计算机程序产品 | |
JP5931021B2 (ja) | 対人認知傾向モデル学習装置、対人認知状態推定装置、対人認知傾向モデル学習方法、対人認知状態推定方法及びプログラム | |
Abad et al. | An innovative approach on driver's drowsiness detection through facial expressions using decision tree algorithms | |
CN111209817A (zh) | 基于人工智能的考核方法、装置、设备及可读存储介质 | |
CN109190556B (zh) | 一种公证意愿真实性鉴别方法 | |
CN114329040B (zh) | 音频数据处理方法、装置、存储介质、设备及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |