CN111091044A - 一种面向网约车的车内危险场景识别方法 - Google Patents

一种面向网约车的车内危险场景识别方法 Download PDF

Info

Publication number
CN111091044A
CN111091044A CN201911022238.3A CN201911022238A CN111091044A CN 111091044 A CN111091044 A CN 111091044A CN 201911022238 A CN201911022238 A CN 201911022238A CN 111091044 A CN111091044 A CN 111091044A
Authority
CN
China
Prior art keywords
modal
features
feature
attention
current moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911022238.3A
Other languages
English (en)
Other versions
CN111091044B (zh
Inventor
梁超
张玥
邹珺明
王晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911022238.3A priority Critical patent/CN111091044B/zh
Publication of CN111091044A publication Critical patent/CN111091044A/zh
Application granted granted Critical
Publication of CN111091044B publication Critical patent/CN111091044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions

Abstract

本发明公开了一种面向网约车的车内危险场景识别方法,分别从视频数据中提取出人体骨骼关键点作为姿态特征,从音频数据中提取filter bank语音特征后,最后通过设计一种基于模态注意力机制的多模态融合模型将上述特征融合并进行时序分析,具体为:通过预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,再根据模态特征当前时刻的模态注意力和对应的模态原始特征,获得融合特征,最后,将融合特征输入时序模型,得到输出结果),解决了运用单一技术进行分析时识别不够准确的技术问题,实现对车内危险场景的准确识别。

Description

一种面向网约车的车内危险场景识别方法
技术领域
本发明涉及计算机视觉和多模态分析技术领域,具体涉及一种面向网约车的车内危险场景识别方法。
背景技术
近年来出租车上发生的抢劫案、滴滴打车上发生的“空姐遇害案”等一系列公共事件表明,网约车业务中存在着不容忽视的安全问题,亟需一种可以实时检测网约车内危险场景的场景识别技术。
网约车内典型的危险场景包括殴打、辱骂、抢方向盘等。这些场景主要由司机与乘客的行为来识别,而姿态和言语是判断行为的主要特征。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
目前的行为识别、人体骨骼关键点识别及语音识别技术虽已较为成熟,但都无法直接运用于车内场景:(1)行为识别技术大都面向较为开阔的场景中的完整人体,有的甚至得利用深度相机,而车内空间狭小,监控画面中只能显示人体上半身,且网约车司机不太可能在车内安装昂贵的深度相机;(2)人体骨骼关键点位置信息难以区分某些相似度高而含义不同的动作,比如后排乘客晕倒时骨骼关键点的位置信息很可能与其倒下休息时骨骼关键点的位置信息高度相似;(3)语音识别技术无法判别声音来源,车载广播播放的内容可能会对结果造成一定的影响;(4)多人场景下不是所有特征都能对场景判别起到同等的作用,比如当司机与副驾驶乘客起肢体冲突时,后排乘客身上的姿态特征就属于冗余信息,所以必须有侧重地选用特征进行分析。
由此可知,现有技术中的方法存在识别准确性不高的技术问题。
发明内容
有鉴于此,本发明提供了一种面向网约车的车内危险场景识别方法,用以解决或者至少部分解决现有技术中的方法存在的识别准确性不高的技术问题。
为了解决上述技术问题,本发明提供了一种面向网约车的车内危险场景识别方法,包括:
步骤S1:从采集的视频数据中提取出人体骨骼关键点作为姿态特征,其中,每个人对应一组姿态特征;
步骤S2:对采集的音频数据进行重采样后,提取出语音特征;
步骤S3:将提取出的各组姿态特征和一组语音特征分别当作一种模态特征,输入预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,根据模态特征当前时刻的模态注意力和对应的模态原始特征,获得融合特征,其中,与当前时刻的模态注意力对应的模态原始特征为当前时刻的姿态特征或者语音特征;
步骤S4:将融合特征作为当前时刻的场景特征输入时序模型,进行危险场景识别,输出识别结果。
在一种实施方式中,步骤S1具体包括:
步骤S1.1:将采集的视频数据转换为视频帧序列;
步骤S1.2:利用预设工具从视频帧中提取每个人的骨骼关键点坐标作为姿态特征,并按照车内人数将所有的姿态特征对应分成若干组姿态特征。
在一种实施方式中,步骤S1.2具体包括:
步骤S1.2.1:将每帧图像依次利用LightweightOpenPose模型处理得到所有人体关键点坐标,并从所有人体关键点坐标中筛选出14个人体上半身骨骼关键点坐标,其中,14个人体上半身骨骼关键点坐标为左腕,右腕,左肘,右肘,左肩,右肩,左腰,右腰,脖子,鼻子,左眼,右眼,左耳,右耳,每个坐标均为2维向量;
步骤S1.2.2:将所述14个人体上半身骨骼关键点坐标进行拼接,得到每个人对应的一组28维的姿态特征。
在一种实施方式中,步骤S2具体包括:
步骤S2.1:利用预设程序对音频数据进行重采样,使音频数据的帧率与视频数据的帧率保持相同;
步骤S2.2:将重采样后的音频数据通过预加重、分帧、加窗、傅里叶变换、Mel滤波和归一化处理,提取出滤波器组语音特征。
在一种实施方式中,步骤S2.2具体包括:
对音频数据进行预加重处理后,根据重采样后的音频采样点个数和采样率,对音频数据进行分帧,然后进行加窗和傅里叶变换,最后根据视频特征维度设置相应数量的滤波器进行Mel滤波并进行归一化处理,得到姿态特征维度相同的音频特征。
在一种实施方式中,步骤S3具体包括:
步骤S3.1:将提取出的各组姿态特征和一组语音特征分别当作一种模态特征,输入预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,预设模态注意力模型包括一层LSTM和一层单节点输出层,模态特征的当前时刻的模态注意力的计算方式为:
Figure BDA0002247590550000031
其中,
Figure BDA0002247590550000032
表示第m个模态在t时刻的模态注意力,
Figure BDA0002247590550000033
表示第m个模态在t时刻结合历史特征得到的特征向量,W和b表示单节点输出层的参数,
Figure BDA0002247590550000039
表示sigmoid函数;
步骤S3.2:根据模态特征当前时刻的模态注意力计算模态特征的模态注意力权重:
Figure BDA0002247590550000034
其中,
Figure BDA0002247590550000035
表示第m个模态在t时刻的模态注意力权重,M表示模态的总数量,exp表示以自然常数e为底的指数函数;
步骤S3.3:根据模态原始特征和模态注意力权重,求得每个模态特征的结果,再将每个模态特征的结果相加,获得融合特征:
Figure BDA0002247590550000036
其中,
Figure BDA0002247590550000037
表示t时刻所有模态的融合特征,
Figure BDA0002247590550000038
表示第m个模态在t时刻的原始特征。
在一种实施方式中,步骤S4中的时序模型由多层LSTM和一层两结点输出层组成,识别结果分为两类,分别为属于危险场景的类别和不属于危险场景的类别。
在一种实施方式中,步骤S4具体包括:
将步骤S3中预设模态注意力模型与时序模型进行级联,将预设模态注意力模型每输出一个融合特征,都将作为当前时刻的特征输入时序模型,获得实时识别结果,其中,时序模型的数学表达式为:
Figure BDA0002247590550000041
其中,被判为危险场景的概率的计算公式为公式(5):
Figure BDA0002247590550000042
得到的场景标签由公式(6)描述:
Figure BDA0002247590550000043
上述公式中,
Figure BDA0002247590550000044
分别表示危险场景和非危险场景下的危险程度,
Figure BDA0002247590550000045
表示最后一层LSTM的输出参数,W和b表示两结点输出层的参数,
Figure BDA0002247590550000046
表示融合特征,
Figure BDA0002247590550000047
表示被判为危险场景的概率,lt表示t时刻的场景标签,取值范围为{Y,N},Y表示属于危险场景,N表示不属于危险场景。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种面向网约车的车内危险场景识别方法,分别从视频数据中提取出人体骨骼关键点作为姿态特征,从音频数据中提取filterbank语音特征后,最后通过设计一种基于模态注意力机制的多模态融合模型将上述特征融合并进行时序分析(基于模态注意力机制的多模态融合模型即预设模态注意力模型与时序模型的结合,通过预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,再根据模态特征当前时刻的模态注意力和对应的模态原始特征,获得融合特征,最后,将融合特征输入时序模型,得到输出结果),解决了运用单一技术进行分析时识别不够准确的技术问题,实现对车内危险场景的准确识别。
进一步地,采用轻量级的LightweightOpenPose模型提取人体骨骼关键点特征,可以满足在车内嵌入式设备上实时检测危险场景的需求。
进一步地,引入模态注意力机制,将提取到的姿态特征和语音特征作为模态特征后,按权重相加,有效地控制了特征维度,并提升了识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种面向网约车的车内危险场景识别方法的流程示意图;
图2为本发明实施例中特征提取与融合分析网络示意图。
具体实施方式
本发明的目的在于针对现有技术中的方法识别不准确的技术问题,提供一种面向网约车的车内危险场景识别方法,从而达到提高识别有效性和准确性的目的。
为达到上述目的,本发明的主要构思如下:
首先从采集的视频数据中提取出人体骨骼关键点作为姿态特征,然后,对采集的音频数据进行重采样后,提取出语音特征;接着通过预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,根据模态特征当前时刻的模态注意力和对应的模态原始特征,获得融合特征;最后,将融合特征作为当前时刻的场景特征输入时序模型,进行危险场景识别,输出识别结果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种面向网约车的车内危险场景识别方法,请参见图1,该方法包括:
步骤S1:从采集的视频数据中提取出人体骨骼关键点作为姿态特征,其中,每个人对应一组姿态特征。
在一种实施方式中,步骤S1具体包括:
步骤S1.1:将采集的视频数据转换为视频帧序列;
步骤S1.2:利用预设工具从视频帧中提取每个人的骨骼关键点坐标作为姿态特征,并按照车内人数将所有的姿态特征对应分成若干组姿态特征。
具体来说,从视频帧序列中逐个对每帧视频进行特征提取,预设工具可以是现有的特征提取工具。姿态特征可以用向量表示,可以根据车内人数将所有的姿态特征对应分成若干组特征向量,通过上述处理,每个人均对应一组特征向量。
在一种实施方式中,步骤S1.2具体包括:
步骤S1.2.1:将每帧图像依次利用LightweightOpenPose模型处理得到所有人体关键点坐标,并从所有人体关键点坐标中筛选出14个人体上半身骨骼关键点坐标,其中,14个人体上半身骨骼关键点坐标为左腕,右腕,左肘,右肘,左肩,右肩,左腰,右腰,脖子,鼻子,左眼,右眼,左耳,右耳,每个坐标均为2维向量;
步骤S1.2.2:将所述14个人体上半身骨骼关键点坐标进行拼接,得到每个人对应的一组28维的姿态特征。
具体来说,可以通过人体姿态估计的深度学习模型进行姿态特征提取,其中LightweightOpenPose模型为一个轻量级的模型,每个人对应一组姿态特征,这组姿态特征的维度为28维。
步骤S2:对采集的音频数据进行重采样后,提取出语音特征。
在一种实施方式中,步骤S2具体包括:
步骤S2.1:利用预设程序对音频数据进行重采样,使音频数据的帧率与视频数据的帧率保持相同;
步骤S2.2:将重采样后的音频数据通过预加重、分帧、加窗、傅里叶变换、Mel滤波和归一化处理,提取出滤波器组语音特征。
具体来说,预设程序可以是音频处理程序,例如FFmpeg,一般来说,音频帧率高于视频帧率,需要对音频进行降采样,从而保证音频数据的帧率与视频数据的帧率相同。然后通过滤波器组提取出FilterBank语音特征,Mel滤波可以通过梅尔滤波器组来实现。其中,在进行Mel滤波操作时,将滤波器数量设为28。这样得到的音频特征与视觉特征可以一一对应,且维度相同。
在一种实施方式中,步骤S2.2具体包括:
对音频数据进行预加重处理后,根据重采样后的音频采样点个数和采样率,对音频数据进行分帧,然后进行加窗和傅里叶变换,最后根据视频特征维度设置相应数量的滤波器进行Mel滤波并进行归一化处理,得到姿态特征维度相同的音频特征。
步骤S3:将提取出的各组姿态特征和一组语音特征分别当作一种模态特征,输入预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,根据模态特征当前时刻的模态注意力和对应的模态原始特征,获得融合特征,其中,与当前时刻的模态注意力对应的模态原始特征为当前时刻的姿态特征或者语音特征。
举例来说,如果车内有n个人,则将得到n个视频特征(即姿态特征);与此同时,从音频数据中中可以提取出1组音频特征,这n个视频特征和1个音频特征将分别被看作一个模态特征,则共有n+1个模态特征。模态原始特征即为原始的姿态特征或者音频特征。
在一种实施方式中,步骤S3具体包括:
步骤S3.1:将提取出的各组姿态特征和一组语音特征分别当作一种模态特征,输入预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,预设模态注意力模型包括一层LSTM和一层单节点输出层,模态特征的当前时刻的模态注意力的计算方式为:
Figure BDA0002247590550000071
其中,
Figure BDA0002247590550000072
表示第m个模态在t时刻的模态注意力,
Figure BDA0002247590550000073
表示第m个模态在t时刻结合历史特征得到的特征向量,W和b表示单节点输出层的参数;
Figure BDA0002247590550000079
表示sigmoid函数。
步骤S3.2:根据模态特征当前时刻的模态注意力计算模态特征的模态注意力权重:
Figure BDA0002247590550000074
其中,
Figure BDA0002247590550000075
表示第m个模态在t时刻的模态注意力权重,M表示模态的总数量,exp表示以自然常数e为底的指数函数;
步骤S3.3:根据模态原始特征和模态注意力权重,求得每个模态特征的结果,再将每个模态特征的结果相加,获得融合特征:
Figure BDA0002247590550000076
其中,
Figure BDA0002247590550000077
表示t时刻所有模态的融合特征,
Figure BDA0002247590550000078
表示第m个模态在t时刻的原始特征。
具体来说,可以预先设置不同模态对应的模态注意力模型,当将模态特征输入预设模态注意力模型后,则可以得到与模态特征对应的模态注意力,t时刻模态m输入的特征为
Figure BDA0002247590550000081
即模态原始特征,
Figure BDA0002247590550000082
表示第m个模态在t时刻结合历史特征得到的特征向量,表示模态注意力既与当前时刻的输入相关,又与历史记录有关。每个模态特征的结果即模态原始特征与模态注意力权重相乘的结果。
需要说明的是,公式(3)m表示某个特定的模态,大写M表示模态总数,包括音频特征模态和每个人所对应的姿态特征模态。如果车内有n个人,则M=1(音频)+n(姿态)。
在本实施方式中,公式(2)即为softmax操作,exp表示以自然常数e为底的指数函数,例如:
Figure BDA0002247590550000083
表示
Figure BDA0002247590550000084
步骤S4:将融合特征作为当前时刻的场景特征输入时序模型,进行危险场景识别,输出识别结果。
具体请参见图2,为本发明特征提取与融合分析网络示意图。
在一种实施方式中,步骤S4中的时序模型由多层LSTM和一层两结点输出层组成,识别结果分为两类,分别为属于危险场景的类别和不属于危险场景的类别。
在一种实施方式中,步骤S4具体包括:
将步骤S3中预设模态注意力模型与时序模型进行级联,将预设模态注意力模型每输出一个融合特征,都将作为当前时刻的特征输入时序模型,获得实时识别结果,其中,时序模型的数学表达式为:
Figure BDA0002247590550000085
其中,被判为危险场景的概率的计算公式为公式(5):
Figure BDA0002247590550000086
得到的场景标签由公式(6)描述:
Figure BDA0002247590550000087
上述公式中,
Figure BDA0002247590550000088
分别表示危险场景和非危险场景下的危险程度,
Figure BDA0002247590550000089
表示最后一层LSTM的输出参数,W和b表示两结点输出层的参数,
Figure BDA00022475905500000810
表示融合特征,
Figure BDA00022475905500000811
表示被判为危险场景的概率,lt表示t时刻的场景标签,取值范围为{Y,N},Y表示属于危险场景,N表示不属于危险场景。
具体来说,
Figure BDA0002247590550000091
表示最后一层即第L层LSTM的输出参数,LSTM的层数可以根据需要进行设置。输出层节点的数量也可以根据需要进行设置,模态注意力模型中为单节点输出层,其相当于一个线性回归函数,用于预测模态注意力的值;本步骤中的两节点输出层则用于分类,一个结点表示“属于危险场景”,另一个结点表示“不属于危险场景”。
与现有技术相比,本发明具有以下优点和有益效果:
(1)选用轻量级的LightweightOpenPose模型提取人体骨骼关键点特征,满足在车内嵌入式设备上实时检测危险场景的需求;
(2)引入模态注意力机制,将提取到的特征按权重相加,有效地控制了特征维度并提升了识别效率。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种面向网约车的车内危险场景识别方法,其特征在于,包括:
步骤S1:从采集的视频数据中提取出人体骨骼关键点作为姿态特征,其中,每个人对应一组姿态特征;
步骤S2:对采集的音频数据进行重采样后,提取出语音特征;
步骤S3:将提取出的各组姿态特征和一组语音特征分别当作一种模态特征,输入预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,根据模态特征当前时刻的模态注意力和对应的模态原始特征,获得融合特征,其中,与当前时刻的模态注意力对应的模态原始特征为当前时刻的姿态特征或者语音特征;
步骤S4:将融合特征作为当前时刻的场景特征输入时序模型,进行危险场景识别,输出识别结果。
2.如权利要求1所述的方法,其特征在于,步骤S1具体包括:
步骤S1.1:将采集的视频数据转换为视频帧序列;
步骤S1.2:利用预设工具从视频帧中提取每个人的骨骼关键点坐标作为姿态特征,并按照车内人数将所有的姿态特征对应分成若干组姿态特征。
3.如权利要求2所述的方法,其特征在于,步骤S1.2具体包括:
步骤S1.2.1:将每帧图像依次利用Lightweight OpenPose模型处理得到所有人体关键点坐标,并从所有人体关键点坐标中筛选出14个人体上半身骨骼关键点坐标,其中,14个人体上半身骨骼关键点坐标为左腕,右腕,左肘,右肘,左肩,右肩,左腰,右腰,脖子,鼻子,左眼,右眼,左耳,右耳,每个坐标均为2维向量;
步骤S1.2.2:将所述14个人体上半身骨骼关键点坐标进行拼接,得到每个人对应的一组28维的姿态特征。
4.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
步骤S2.1:利用预设程序对音频数据进行重采样,使音频数据的帧率与视频数据的帧率保持相同;
步骤S2.2:将重采样后的音频数据通过预加重、分帧、加窗、傅里叶变换、Mel滤波和归一化处理,提取出滤波器组语音特征。
5.如权利要求4所述的方法,其特征在于,步骤S2.2具体包括:
对音频数据进行预加重处理后,根据重采样后的音频采样点个数和采样率,对音频数据进行分帧,然后进行加窗和傅里叶变换,最后根据视频特征维度设置相应数量的滤波器进行Mel滤波并进行归一化处理,得到姿态特征维度相同的音频特征。
6.如权利要求1所述的方法,其特征在于,步骤S3具体包括:
步骤S3.1:将提取出的各组姿态特征和一组语音特征分别当作一种模态特征,输入预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,预设模态注意力模型包括一层LSTM和一层单节点输出层,模态特征的当前时刻的模态注意力的计算方式为:
Figure FDA0002247590540000021
其中,
Figure FDA0002247590540000022
表示第m个模态在t时刻的模态注意力,
Figure FDA0002247590540000023
表示第m个模态在t时刻结合历史特征得到的特征向量,W和b表示单节点输出层的参数,
Figure FDA0002247590540000029
表示sigmoid函数;
步骤S3.2:根据模态特征当前时刻的模态注意力计算模态特征的模态注意力权重:
Figure FDA0002247590540000024
其中,
Figure FDA0002247590540000025
表示第m个模态在t时刻的模态注意力权重,M表示模态的总数量,exp表示以自然常数e为底的指数函数;
步骤S3.3:根据模态原始特征和模态注意力权重,求得每个模态特征的结果,再将每个模态特征的结果相加,获得融合特征:
Figure FDA0002247590540000026
其中,
Figure FDA0002247590540000027
表示t时刻所有模态的融合特征,
Figure FDA0002247590540000028
表示第m个模态在t时刻的原始特征。
7.如权利要求1所述的方法,其特征在于,步骤S4中的时序模型由多层LSTM和一层两结点输出层组成,识别结果分为两类,分别为属于危险场景的类别和不属于危险场景的类别。
8.如权利要求7所述的方法,其特征在于,步骤S4具体包括:
将步骤S3中预设模态注意力模型与时序模型进行级联,将预设模态注意力模型每输出一个融合特征,都将作为当前时刻的特征输入时序模型,获得实时识别结果,其中,时序模型的数学表达式为:
Figure FDA0002247590540000031
其中,被判为危险场景的概率的计算公式为公式(5):
Figure FDA0002247590540000032
得到的场景标签由公式(6)描述:
Figure FDA0002247590540000033
上述公式中,
Figure FDA0002247590540000034
分别表示危险场景和非危险场景下的危险程度,
Figure FDA0002247590540000035
表示最后一层LSTM的输出参数,W和b表示两结点输出层的参数,
Figure FDA0002247590540000036
表示融合特征,
Figure FDA0002247590540000037
表示被判为危险场景的概率,lt表示t时刻的场景标签,取值范围为{Y,N},Y表示属于危险场景,N表示不属于危险场景。
CN201911022238.3A 2019-10-25 2019-10-25 一种面向网约车的车内危险场景识别方法 Active CN111091044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911022238.3A CN111091044B (zh) 2019-10-25 2019-10-25 一种面向网约车的车内危险场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911022238.3A CN111091044B (zh) 2019-10-25 2019-10-25 一种面向网约车的车内危险场景识别方法

Publications (2)

Publication Number Publication Date
CN111091044A true CN111091044A (zh) 2020-05-01
CN111091044B CN111091044B (zh) 2022-04-01

Family

ID=70393123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911022238.3A Active CN111091044B (zh) 2019-10-25 2019-10-25 一种面向网约车的车内危险场景识别方法

Country Status (1)

Country Link
CN (1) CN111091044B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002102A (zh) * 2020-09-04 2020-11-27 北京伟杰东博信息科技有限公司 一种安全监控方法及其系统
CN112258564A (zh) * 2020-10-20 2021-01-22 推想医疗科技股份有限公司 生成融合特征集合的方法及装置
CN114463688A (zh) * 2022-04-12 2022-05-10 之江实验室 一种跨模态上下文编码的对话情感识别方法及系统
WO2023185037A1 (zh) * 2022-03-31 2023-10-05 上海商汤智能科技有限公司 动作检测方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
US20120314959A1 (en) * 2011-06-10 2012-12-13 Steven White Image Scene Recognition
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN109685819A (zh) * 2018-12-11 2019-04-26 厦门大学 一种基于特征增强的三维医学图像分割方法
CN110147711A (zh) * 2019-02-27 2019-08-20 腾讯科技(深圳)有限公司 视频场景识别方法、装置、存储介质和电子装置
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120314959A1 (en) * 2011-06-10 2012-12-13 Steven White Image Scene Recognition
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN109685819A (zh) * 2018-12-11 2019-04-26 厦门大学 一种基于特征增强的三维医学图像分割方法
CN110147711A (zh) * 2019-02-27 2019-08-20 腾讯科技(深圳)有限公司 视频场景识别方法、装置、存储介质和电子装置
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIIL OSOKIN: "Real-time 2D Multi-Person Pose Estimation on CPU: Lightweight OpenPose", 《ARXIV:1811.12004V1》 *
徐宝龙: "维吾尔语语音识别的鲁棒性及特征提取的研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002102A (zh) * 2020-09-04 2020-11-27 北京伟杰东博信息科技有限公司 一种安全监控方法及其系统
CN112002102B (zh) * 2020-09-04 2021-09-14 北京伟杰东博信息科技有限公司 一种安全监控方法及其系统
CN112258564A (zh) * 2020-10-20 2021-01-22 推想医疗科技股份有限公司 生成融合特征集合的方法及装置
CN112258564B (zh) * 2020-10-20 2022-02-08 推想医疗科技股份有限公司 生成融合特征集合的方法及装置
WO2023185037A1 (zh) * 2022-03-31 2023-10-05 上海商汤智能科技有限公司 动作检测方法、装置、电子设备及存储介质
CN114463688A (zh) * 2022-04-12 2022-05-10 之江实验室 一种跨模态上下文编码的对话情感识别方法及系统

Also Published As

Publication number Publication date
CN111091044B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN111091044B (zh) 一种面向网约车的车内危险场景识别方法
CN110119676B (zh) 一种基于神经网络的驾驶员疲劳检测方法
WO2019169688A1 (zh) 车辆定损方法、装置、电子设备及存储介质
KR20190069457A (ko) 이미지 기반 차량 손실 평가 방법, 장치 및 시스템, 및 전자 디바이스
Sajid et al. An efficient deep learning framework for distracted driver detection
CN113449700B (zh) 视频分类模型的训练、视频分类方法、装置、设备及介质
CN112744174B (zh) 车辆碰撞监测方法、装置、设备及计算机可读存储介质
CN110363093A (zh) 一种司机动作识别方法及装置
CN112766035B (zh) 一种面向公交车的乘客对司机的暴力行为识别系统与方法
CN111738044A (zh) 一种基于深度学习行为识别的校园暴力评估方法
CN110516622A (zh) 一种车内人员的性别、年龄和情绪智能识别方法及系统
CN108323209A (zh) 信息处理方法、系统、云处理设备以及计算机程序产品
CN116129405A (zh) 一种基于多模态混合融合的驾驶员愤怒情绪识别方法
RU2005100267A (ru) Способ и система автоматической проверки присутствия живого лица человека в биометрических системах безопасности
CN112926364A (zh) 头部姿态的识别方法及系统、行车记录仪和智能座舱
CN110738985A (zh) 基于语音信号的跨模态生物特征识别方法及系统
CN115719428A (zh) 基于分类模型的人脸图像聚类方法、装置、设备及介质
CN115620268A (zh) 一种多模态情绪识别方法、装置、电子设备及存储介质
CN115359464A (zh) 基于深度学习的机动车驾驶员危险驾驶行为检测方法
CN111796663B (zh) 场景识别模型更新方法、装置、存储介质及电子设备
CN113837066A (zh) 行为识别方法、装置、电子设备及计算机存储介质
CN116453194B (zh) 一种人脸属性判别方法及装置
Parthiban et al. A Deep Learning-Based Accident Detection in Emergency Situation from CCTV Camera Using H-RNN Algorithm
CN109190556B (zh) 一种公证意愿真实性鉴别方法
CN117113231A (zh) 基于移动终端的多模态低头族危险环境感知与预警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant