CN114373199A

CN114373199A - 一种车厢内多模态行为分析方法和系统

Info

Publication number: CN114373199A
Application number: CN202111456655.6A
Authority: CN
Inventors: 丁言中; 王鸣; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-04-19

Abstract

本发明涉及一种车厢内多模态行为分析方法和系统，其中，该方法包括：采集车厢内的图像和语音；根据所述图像判断车厢内预先划定的区域内是否有人入侵；检测所述语音中是否存在关键词；若判断所述区域内有人入侵，和/或，所述语音中存在关键词，则发出警告。本发明提供的技术方案，通过对车厢内人员的图像和语音两种行为模态的分析，能够及时发现车厢内可能存在的威胁行车安全的危险行为并进行警告，以避免危险的发生，有效提高了行车的安全性。

Description

一种车厢内多模态行为分析方法和系统

技术领域

本发明属于安全驾驶及智能识别领域，具体涉及一种车厢内多模态行为分析方法和系统。

背景技术

在公交、地铁、出租车等公共交通出行领域，一些因乘客危险行为而造成的交通事故时有发生，例如，乘客入侵驾驶员区域或者通过言语等行为干扰驾驶员驾驶，这些行为会对出行安全造成威胁。针对这一问题，目前只能在事后对相关人员的责任进行追究，无法在发生相关行为时及时发现和警示。

发明内容

本发明提供一种车厢内多模态行为分析方法和系统，能够解决如何及时发现威胁公共交通安全行为并进行警示的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明提供一种车厢内多模态行为分析方法，包括：

采集车厢内的图像和语音；

根据所述图像判断车厢内预先划定的区域内是否有人入侵；

检测所述语音中是否存在关键词；

若判断所述区域内有人入侵，和/或，检测到所述语音中存在关键词，则发出警告。

进一步，所述预先划定的区域为驾驶员区域，所述根据所述图像判断车厢内预先划定的区域内是否有人入侵，具体包括：

标注所述图像中的人物骨骼；

若所述图像中有除驾驶员以外的人物骨骼进入所述驾驶员区域，则判断所述驾驶员区域内有人入侵。

进一步，所述检测所述语音中是否存在关键词，具体包括：

通过语音关键词检测算法检测所述语音中是否存在关键词，和/或

将所述语音转换成文字后形成的文本与文本库中的关键词进行对比。

进一步，在检测所述语音中是否存在关键词之前，该方法还包括：

通过唇动引擎检测所述图像中的人是否正在说话，将正在说话的人标记为目标人；

根据目标跟踪算法确定所述目标人的位置信息；

根据所述目标人的位置信息确定所述目标人的方位，对所述方位的人声进行定向增强，对于非人声噪声以及有效范围外的声音进行抑制，并输出一路增强后的语音信号，作为后续步骤所处理的语音。

进一步，若判断所述区域内有人入侵，和/或，检测到所述语音中存在关键词，该方法还包括：

保存或上传相关的视频和音频数据。

第二方面，本发明提供一种车厢内多模态行为分析系统，包括：

数据采集模块，用于采集车厢内的图像和语音；

入侵判断模块，用于根据所述图像判断车厢内预先划定的区域内是否有人入侵；

语音检测模块，用于检测所述语音中是否存在关键词；

警告模块，用于若判断所述区域内有人入侵，和/或，检测到所述语音中存在关键词，则发出警告。

进一步，所述入侵判断模块，具体包括：

骨骼标注单元，用于标注所述图像中的人物骨骼；

入侵判断单元，用于若所述图像中有除驾驶员以外的人物骨骼进入所述驾驶员区域，则判断所述驾驶员区域内有人入侵。

进一步，所述语音检测模块，具体用于：

进一步，该系统还包括：

目标标记模块，用于在所述语音检测模块检测所述语音中是否存在关键词之前，通过唇动引擎检测所述图像中的人是否正在说话，将正在说话的人标记为目标人；

目标跟踪模块，用于根据目标跟踪算法确定所述目标人的位置信息；

语音增强及输出模块，用于根据所述目标人的位置信息确定所述目标人的方位，对所述方位的人声进行定向增强，对于非人声噪声以及有效范围外的声音进行抑制，并输出一路增强后的语音信号，作为所述语音检测模块所处理的语音。

进一步，该系统还包括：

数据传输模块，用于若所述入侵判断模块判断所述区域内有人入侵，和/或，检测到所述所述语音检测模块检测到所述语音中存在关键词，保存或上传相关的视频和音频数据。

本发明的有益效果是：

本发明提供的技术方案，通过对车厢内人员的图像和语音两种行为模态的分析，能够及时发现车厢内可能存在的威胁行车安全的危险行为并进行警告，以避免危险的发生，有效提高了行车的安全性。

附图说明

图1为本发明实施例提供的一种车厢内多模态行为分析方法的流程图；

图2为本发明实施例提供的另一种车厢内多模态行为分析方法的流程图；

图3为本发明实施例提供的一种车厢内多模态行为分析系统的结构图；

图4为本发明实施例所提供的技术方案所基于的硬件设备结构示意图；

图5为本发明实施例提供的一种车厢内多模态行为分析方法的原理示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本发明实施例提供的一种车厢内多模态行为分析方法，包括：

110、采集车厢内的图像和语音；

具体的，本方法实施例中，可通过车厢内安装的监控摄像头及其正下方布设麦克风线型阵阵列，分别实现图像采集和拾音功能。

120、根据所述图像判断车厢内预先划定的区域内是否有人入侵；

具体的，可根据需要，在车厢内需要重点关注的区域预先划定成禁区，例如驾驶位和重点设备所在部位等，利用监控摄像头拍摄获取这些划定区域的图像。进一步，可对图像中出现的驾驶员以外人员的行为进行监控，并判断其是否存在入侵行为。

其中，可选地，在该实施例中，所述预先划定的区域为驾驶员区域，步骤120具体包括：

1201、标注所述图像中的人物骨骼；

1202、若所述图像中有除驾驶员以外的人物骨骼进入所述驾驶员区域，则判断所述驾驶员区域内有人入侵。

其中，人物骨骼标注以及判断其进入特定区域的算法均可采用现有技术实现，本实施例对此不作赘述。

130、检测所述语音中是否存在关键词；

具体的，在交通工具运行过程中，乘客可能会进行与驾驶员闲谈、争吵等干扰驾驶员安全驾驶的行为，该步骤的目的在于通过语音检测发现是否存在通过言语干扰驾驶员安全驾驶的乘客。

可选地，在该实施例中，步骤130具体包括：

1301、通过语音关键词检测算法检测所述语音中是否存在关键词，和/或

1302、将所述语音转换成文字后形成的文本与文本库中的关键词进行对比。

140、若判断所述区域内有人入侵，和/或，检测到所述语音中存在关键词，则发出警告。

具体的，基于步骤120和130的判断结果，即可判断车厢内是否发生威胁到交通工具安全行驶的行为，若是则触发告警音频并通过车厢内安装的喇叭播放，也可通过车厢内的大屏播放告警文字、图像或视频等，对现场起到一定的警示作用。

本发明实施例提供的一种车厢内多模态行为分析方法，通过对车厢内人员的图像和语音两种行为模态的分析，能够及时发现车厢内可能存在的威胁行车安全的危险行为并进行警告，以避免危险的发生，有效提高了行车的安全性。

为了进一步提高采集的语音的质量，进而提高后续的语音检测效果，作为本发明的一个实施例中，如图2所示，该方法包括：

210、采集车厢内的图像和语音；

220、根据图像判断车厢内预先划定的区域内是否有人入侵；

230、通过唇动引擎检测图像中的人是否正在说话，将正在说话的人标记为目标人；

240、根据目标跟踪算法确定目标人的位置信息；

250、根据目标人的位置信息确定目标人的方位，对该方位的人声进行定向增强，对于非人声噪声以及有效范围外的声音进行抑制，并输出一路增强后的语音信号，作为后续步骤所处理的语音；

260、检测语音中是否存在关键词；

270、若判断区域内有人入侵，和/或，检测到语音中存在关键词，则发出警告。

本实施例中，在上一实施例的基础上，根据检测的说话人的位置对相应方位的人声进行了定向增强，从而提高了采集的音频质量，提高了后续语音检测的效果。

可选地，在该实施例中，该方法还包括：

280、若判断区域内有人入侵，和/或，检测到语音中存在关键词，保存或上传相关的视频和音频数据。

本实施例中，在通过图像或语音检测到威胁安全驾驶的行为时，可及时保存相关的视频和音频数据，减轻后续调查时冗余音视频的排查工作，快速精确查找定位；还可第一时间将音视频数据传输至公交调度室，便于对第一时间对现场进行分析或处理，避免冲突扩大。

如图3所示，与上一实施例相对应地，本发明实施例提供一种车厢内多模态行为分析系统，包括：

数据采集模块，用于采集车厢内的图像和语音；

语音检测模块，用于检测所述语音中是否存在关键词；

警告模块，用于若判断所述区域内有人入侵，和/或，所述语音中存在关键词，则发出警告。

可选地，在该实施例中，所述入侵判断模块，具体包括：

骨骼标注单元，用于标注所述图像中的人物骨骼；

可选地，在该实施例中，所述语音检测模块，具体用于：

可选地，在该实施例中，该系统还包括：

数据传输模块，用于若所述入侵判断模块判断所述区域内有人入侵，和/或，所述所述语音检测模块检测到所述语音中存在关键词，保存或上传相关的视频和音频数据。

本实施例提供的系统中各个功能模块的具体原理已在上一实施例提供的方法中进行了具体阐述，本实施例对此不再赘述。

本发明所提供的技术方案可基于以下硬件设备实施，如图4所示，该设备装有1280*960的监控摄像头及其正下方布有麦克风线型阵阵列，分别实现图像采集和拾音功能；还装有外放喇叭，用于扩音；设备内部包含两个步进电机(垂直方向和水平方向)，用于监控画面的调整；设备内部装有主控芯片和图像芯片，主控芯片用于控制硬件以及音频算法。图像芯片则专门负责分析图像中的人体行为分析识别；主控芯片与麦克风阵列、摄像头以及扩音喇叭的回采信号连接，为音频和图像算法(人脸检测和唇动算法)提供信号输入，同时可控制步进电机的工作；图像芯片通过输入的图像数据，输出有无危险行为信号(行为算法)；服务器端部署ASR(语音转文本)，以及信号处理服务。

如图5所示，基于本发明实施例的一个完整的实施步骤如下：

一、注册信息：

当画面检测到人脸且通过唇动引擎检测到正在说话或者画面中人行为已经干扰到驾驶员正常驾驶时立即注册人脸信息。(若人脸质量不符合人脸注册质量则开始抓拍图片)

二、图像方案：

1.根据摄像头采集的实时图像，根据目标跟踪来确定说话人位置，定位人脸的方位；

2.将画面中人物骨骼进行标点，并将驾驶员区域设为禁区，若画面中有肢体骨骼进入到禁区，则触发终端警告音频；并同步将抓拍的图片传输到调度室；

三、音频方案：

1.将麦克风阵列采集到的语音、扩音器的回采信号以及目标说话人的位置信息作为语音信号处理模块的输入信号，进行如下信号处理步骤：

i.对麦克风阵列采集到的语音进行回声消除(AEC)处理(主要是消除车内到站广播，以及警告音频)。

Ii.提前设置特定的指令词，如一些敏感词语，通过在主控芯片上运行的语音关键词检测算法(KWS)，来检测到该敏感词。

ii.语音增强算法根据上述目标人位置信息，通过声音定向增强算法对图像方案1中确定的特定方位的人声进行增强，对于非人声噪声以及有效范围外的声音进行抑制，并输出一路增强后的语音信号。

2.将增强后的音频数据复制一份通过主控芯片上传到云端ASR(音频转文字)，云端音频数据处理完毕形成文本后与文本库进行对比，若与敏感字匹配成功或在语音关键词检测算法(KWS)匹配成功，则将信号(匹配成功的音频)传输到调度室同步终端触发警告音频。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种车厢内多模态行为分析方法，其特征在于，包括：

采集车厢内的图像和语音；

根据所述图像判断车厢内预先划定的区域内是否有人入侵；

检测所述语音中是否存在关键词；

2.根据权利要求1所述的方法，其特征在于，所述预先划定的区域为驾驶员区域，所述根据所述图像判断车厢内预先划定的区域内是否有人入侵，具体包括：

标注所述图像中的人物骨骼；

3.根据权利要求1所述的方法，其特征在于，所述检测所述语音中是否存在关键词，具体包括：

4.根据权利要求1所述的方法，其特征在于，在检测所述语音中是否存在关键词之前，还包括：

根据目标跟踪算法确定所述目标人的位置信息；

5.根据权利要求1-4任一项所述的方法，其特征在于，若判断所述区域内有人入侵，和/或，检测到所述语音中存在关键词，还包括：

保存或上传相关的视频和音频数据。

6.一种车厢内多模态行为分析系统，其特征在于，包括：

数据采集模块，用于采集车厢内的图像和语音；

语音检测模块，用于检测所述语音中是否存在关键词；

7.根据权利要求6所述的系统，其特征在于，所述入侵判断模块，具体包括：

骨骼标注单元，用于标注所述图像中的人物骨骼；

8.根据权利要求6所述的系统，其特征在于，所述语音检测模块，具体用于：

9.根据权利要求6所述的系统，其特征在于，还包括：

10.根据权利要求6-9任一项所述的系统，其特征在于，还包括：

数据传输模块，用于若所述入侵判断模块判断所述区域内有人入侵，和/或，所述语音检测模块检测到所述语音中存在关键词，保存或上传相关的视频和音频数据。