CN114373199A - 一种车厢内多模态行为分析方法和系统 - Google Patents
一种车厢内多模态行为分析方法和系统 Download PDFInfo
- Publication number
- CN114373199A CN114373199A CN202111456655.6A CN202111456655A CN114373199A CN 114373199 A CN114373199 A CN 114373199A CN 202111456655 A CN202111456655 A CN 202111456655A CN 114373199 A CN114373199 A CN 114373199A
- Authority
- CN
- China
- Prior art keywords
- voice
- image
- area
- person
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims description 27
- 210000000988 bone and bone Anatomy 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 10
- 230000033001 locomotion Effects 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 230000002401 inhibitory effect Effects 0.000 claims description 6
- 230000009545 invasion Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 31
- 238000012544 monitoring process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30236—Traffic on road, railway or crossing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30268—Vehicle interior
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Signal Processing (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种车厢内多模态行为分析方法和系统,其中,该方法包括:采集车厢内的图像和语音;根据所述图像判断车厢内预先划定的区域内是否有人入侵;检测所述语音中是否存在关键词;若判断所述区域内有人入侵,和/或,所述语音中存在关键词,则发出警告。本发明提供的技术方案,通过对车厢内人员的图像和语音两种行为模态的分析,能够及时发现车厢内可能存在的威胁行车安全的危险行为并进行警告,以避免危险的发生,有效提高了行车的安全性。
Description
技术领域
本发明属于安全驾驶及智能识别领域,具体涉及一种车厢内多模态行为分析方法和系统。
背景技术
在公交、地铁、出租车等公共交通出行领域,一些因乘客危险行为而造成的交通事故时有发生,例如,乘客入侵驾驶员区域或者通过言语等行为干扰驾驶员驾驶,这些行为会对出行安全造成威胁。针对这一问题,目前只能在事后对相关人员的责任进行追究,无法在发生相关行为时及时发现和警示。
发明内容
本发明提供一种车厢内多模态行为分析方法和系统,能够解决如何及时发现威胁公共交通安全行为并进行警示的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明提供一种车厢内多模态行为分析方法,包括:
采集车厢内的图像和语音;
根据所述图像判断车厢内预先划定的区域内是否有人入侵;
检测所述语音中是否存在关键词;
若判断所述区域内有人入侵,和/或,检测到所述语音中存在关键词,则发出警告。
进一步,所述预先划定的区域为驾驶员区域,所述根据所述图像判断车厢内预先划定的区域内是否有人入侵,具体包括:
标注所述图像中的人物骨骼;
若所述图像中有除驾驶员以外的人物骨骼进入所述驾驶员区域,则判断所述驾驶员区域内有人入侵。
进一步,所述检测所述语音中是否存在关键词,具体包括:
通过语音关键词检测算法检测所述语音中是否存在关键词,和/或
将所述语音转换成文字后形成的文本与文本库中的关键词进行对比。
进一步,在检测所述语音中是否存在关键词之前,该方法还包括:
通过唇动引擎检测所述图像中的人是否正在说话,将正在说话的人标记为目标人;
根据目标跟踪算法确定所述目标人的位置信息;
根据所述目标人的位置信息确定所述目标人的方位,对所述方位的人声进行定向增强,对于非人声噪声以及有效范围外的声音进行抑制,并输出一路增强后的语音信号,作为后续步骤所处理的语音。
进一步,若判断所述区域内有人入侵,和/或,检测到所述语音中存在关键词,该方法还包括:
保存或上传相关的视频和音频数据。
第二方面,本发明提供一种车厢内多模态行为分析系统,包括:
数据采集模块,用于采集车厢内的图像和语音;
入侵判断模块,用于根据所述图像判断车厢内预先划定的区域内是否有人入侵;
语音检测模块,用于检测所述语音中是否存在关键词;
警告模块,用于若判断所述区域内有人入侵,和/或,检测到所述语音中存在关键词,则发出警告。
进一步,所述入侵判断模块,具体包括:
骨骼标注单元,用于标注所述图像中的人物骨骼;
入侵判断单元,用于若所述图像中有除驾驶员以外的人物骨骼进入所述驾驶员区域,则判断所述驾驶员区域内有人入侵。
进一步,所述语音检测模块,具体用于:
通过语音关键词检测算法检测所述语音中是否存在关键词,和/或
将所述语音转换成文字后形成的文本与文本库中的关键词进行对比。
进一步,该系统还包括:
目标标记模块,用于在所述语音检测模块检测所述语音中是否存在关键词之前,通过唇动引擎检测所述图像中的人是否正在说话,将正在说话的人标记为目标人;
目标跟踪模块,用于根据目标跟踪算法确定所述目标人的位置信息;
语音增强及输出模块,用于根据所述目标人的位置信息确定所述目标人的方位,对所述方位的人声进行定向增强,对于非人声噪声以及有效范围外的声音进行抑制,并输出一路增强后的语音信号,作为所述语音检测模块所处理的语音。
进一步,该系统还包括:
数据传输模块,用于若所述入侵判断模块判断所述区域内有人入侵,和/或,检测到所述所述语音检测模块检测到所述语音中存在关键词,保存或上传相关的视频和音频数据。
本发明的有益效果是:
本发明提供的技术方案,通过对车厢内人员的图像和语音两种行为模态的分析,能够及时发现车厢内可能存在的威胁行车安全的危险行为并进行警告,以避免危险的发生,有效提高了行车的安全性。
附图说明
图1为本发明实施例提供的一种车厢内多模态行为分析方法的流程图;
图2为本发明实施例提供的另一种车厢内多模态行为分析方法的流程图;
图3为本发明实施例提供的一种车厢内多模态行为分析系统的结构图;
图4为本发明实施例所提供的技术方案所基于的硬件设备结构示意图;
图5为本发明实施例提供的一种车厢内多模态行为分析方法的原理示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本发明实施例提供的一种车厢内多模态行为分析方法,包括:
110、采集车厢内的图像和语音;
具体的,本方法实施例中,可通过车厢内安装的监控摄像头及其正下方布设麦克风线型阵阵列,分别实现图像采集和拾音功能。
120、根据所述图像判断车厢内预先划定的区域内是否有人入侵;
具体的,可根据需要,在车厢内需要重点关注的区域预先划定成禁区,例如驾驶位和重点设备所在部位等,利用监控摄像头拍摄获取这些划定区域的图像。进一步,可对图像中出现的驾驶员以外人员的行为进行监控,并判断其是否存在入侵行为。
其中,可选地,在该实施例中,所述预先划定的区域为驾驶员区域,步骤120具体包括:
1201、标注所述图像中的人物骨骼;
1202、若所述图像中有除驾驶员以外的人物骨骼进入所述驾驶员区域,则判断所述驾驶员区域内有人入侵。
其中,人物骨骼标注以及判断其进入特定区域的算法均可采用现有技术实现,本实施例对此不作赘述。
130、检测所述语音中是否存在关键词;
具体的,在交通工具运行过程中,乘客可能会进行与驾驶员闲谈、争吵等干扰驾驶员安全驾驶的行为,该步骤的目的在于通过语音检测发现是否存在通过言语干扰驾驶员安全驾驶的乘客。
可选地,在该实施例中,步骤130具体包括:
1301、通过语音关键词检测算法检测所述语音中是否存在关键词,和/或
1302、将所述语音转换成文字后形成的文本与文本库中的关键词进行对比。
140、若判断所述区域内有人入侵,和/或,检测到所述语音中存在关键词,则发出警告。
具体的,基于步骤120和130的判断结果,即可判断车厢内是否发生威胁到交通工具安全行驶的行为,若是则触发告警音频并通过车厢内安装的喇叭播放,也可通过车厢内的大屏播放告警文字、图像或视频等,对现场起到一定的警示作用。
本发明实施例提供的一种车厢内多模态行为分析方法,通过对车厢内人员的图像和语音两种行为模态的分析,能够及时发现车厢内可能存在的威胁行车安全的危险行为并进行警告,以避免危险的发生,有效提高了行车的安全性。
为了进一步提高采集的语音的质量,进而提高后续的语音检测效果,作为本发明的一个实施例中,如图2所示,该方法包括:
210、采集车厢内的图像和语音;
220、根据图像判断车厢内预先划定的区域内是否有人入侵;
230、通过唇动引擎检测图像中的人是否正在说话,将正在说话的人标记为目标人;
240、根据目标跟踪算法确定目标人的位置信息;
250、根据目标人的位置信息确定目标人的方位,对该方位的人声进行定向增强,对于非人声噪声以及有效范围外的声音进行抑制,并输出一路增强后的语音信号,作为后续步骤所处理的语音;
260、检测语音中是否存在关键词;
270、若判断区域内有人入侵,和/或,检测到语音中存在关键词,则发出警告。
本实施例中,在上一实施例的基础上,根据检测的说话人的位置对相应方位的人声进行了定向增强,从而提高了采集的音频质量,提高了后续语音检测的效果。
可选地,在该实施例中,该方法还包括:
280、若判断区域内有人入侵,和/或,检测到语音中存在关键词,保存或上传相关的视频和音频数据。
本实施例中,在通过图像或语音检测到威胁安全驾驶的行为时,可及时保存相关的视频和音频数据,减轻后续调查时冗余音视频的排查工作,快速精确查找定位;还可第一时间将音视频数据传输至公交调度室,便于对第一时间对现场进行分析或处理,避免冲突扩大。
如图3所示,与上一实施例相对应地,本发明实施例提供一种车厢内多模态行为分析系统,包括:
数据采集模块,用于采集车厢内的图像和语音;
入侵判断模块,用于根据所述图像判断车厢内预先划定的区域内是否有人入侵;
语音检测模块,用于检测所述语音中是否存在关键词;
警告模块,用于若判断所述区域内有人入侵,和/或,所述语音中存在关键词,则发出警告。
可选地,在该实施例中,所述入侵判断模块,具体包括:
骨骼标注单元,用于标注所述图像中的人物骨骼;
入侵判断单元,用于若所述图像中有除驾驶员以外的人物骨骼进入所述驾驶员区域,则判断所述驾驶员区域内有人入侵。
可选地,在该实施例中,所述语音检测模块,具体用于:
通过语音关键词检测算法检测所述语音中是否存在关键词,和/或
将所述语音转换成文字后形成的文本与文本库中的关键词进行对比。
可选地,在该实施例中,该系统还包括:
目标标记模块,用于在所述语音检测模块检测所述语音中是否存在关键词之前,通过唇动引擎检测所述图像中的人是否正在说话,将正在说话的人标记为目标人;
目标跟踪模块,用于根据目标跟踪算法确定所述目标人的位置信息;
语音增强及输出模块,用于根据所述目标人的位置信息确定所述目标人的方位,对所述方位的人声进行定向增强,对于非人声噪声以及有效范围外的声音进行抑制,并输出一路增强后的语音信号,作为所述语音检测模块所处理的语音。
可选地,在该实施例中,该系统还包括:
数据传输模块,用于若所述入侵判断模块判断所述区域内有人入侵,和/或,所述所述语音检测模块检测到所述语音中存在关键词,保存或上传相关的视频和音频数据。
本实施例提供的系统中各个功能模块的具体原理已在上一实施例提供的方法中进行了具体阐述,本实施例对此不再赘述。
本发明所提供的技术方案可基于以下硬件设备实施,如图4所示,该设备装有1280*960的监控摄像头及其正下方布有麦克风线型阵阵列,分别实现图像采集和拾音功能;还装有外放喇叭,用于扩音;设备内部包含两个步进电机(垂直方向和水平方向),用于监控画面的调整;设备内部装有主控芯片和图像芯片,主控芯片用于控制硬件以及音频算法。图像芯片则专门负责分析图像中的人体行为分析识别;主控芯片与麦克风阵列、摄像头以及扩音喇叭的回采信号连接,为音频和图像算法(人脸检测和唇动算法)提供信号输入,同时可控制步进电机的工作;图像芯片通过输入的图像数据,输出有无危险行为信号(行为算法);服务器端部署ASR(语音转文本),以及信号处理服务。
如图5所示,基于本发明实施例的一个完整的实施步骤如下:
一、注册信息:
当画面检测到人脸且通过唇动引擎检测到正在说话或者画面中人行为已经干扰到驾驶员正常驾驶时立即注册人脸信息。(若人脸质量不符合人脸注册质量则开始抓拍图片)
二、图像方案:
1.根据摄像头采集的实时图像,根据目标跟踪来确定说话人位置,定位人脸的方位;
2.将画面中人物骨骼进行标点,并将驾驶员区域设为禁区,若画面中有肢体骨骼进入到禁区,则触发终端警告音频;并同步将抓拍的图片传输到调度室;
三、音频方案:
1.将麦克风阵列采集到的语音、扩音器的回采信号以及目标说话人的位置信息作为语音信号处理模块的输入信号,进行如下信号处理步骤:
i.对麦克风阵列采集到的语音进行回声消除(AEC)处理(主要是消除车内到站广播,以及警告音频)。
Ii.提前设置特定的指令词,如一些敏感词语,通过在主控芯片上运行的语音关键词检测算法(KWS),来检测到该敏感词。
ii.语音增强算法根据上述目标人位置信息,通过声音定向增强算法对图像方案1中确定的特定方位的人声进行增强,对于非人声噪声以及有效范围外的声音进行抑制,并输出一路增强后的语音信号。
2.将增强后的音频数据复制一份通过主控芯片上传到云端ASR(音频转文字),云端音频数据处理完毕形成文本后与文本库进行对比,若与敏感字匹配成功或在语音关键词检测算法(KWS)匹配成功,则将信号(匹配成功的音频)传输到调度室同步终端触发警告音频。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种车厢内多模态行为分析方法,其特征在于,包括:
采集车厢内的图像和语音;
根据所述图像判断车厢内预先划定的区域内是否有人入侵;
检测所述语音中是否存在关键词;
若判断所述区域内有人入侵,和/或,检测到所述语音中存在关键词,则发出警告。
2.根据权利要求1所述的方法,其特征在于,所述预先划定的区域为驾驶员区域,所述根据所述图像判断车厢内预先划定的区域内是否有人入侵,具体包括:
标注所述图像中的人物骨骼;
若所述图像中有除驾驶员以外的人物骨骼进入所述驾驶员区域,则判断所述驾驶员区域内有人入侵。
3.根据权利要求1所述的方法,其特征在于,所述检测所述语音中是否存在关键词,具体包括:
通过语音关键词检测算法检测所述语音中是否存在关键词,和/或
将所述语音转换成文字后形成的文本与文本库中的关键词进行对比。
4.根据权利要求1所述的方法,其特征在于,在检测所述语音中是否存在关键词之前,还包括:
通过唇动引擎检测所述图像中的人是否正在说话,将正在说话的人标记为目标人;
根据目标跟踪算法确定所述目标人的位置信息;
根据所述目标人的位置信息确定所述目标人的方位,对所述方位的人声进行定向增强,对于非人声噪声以及有效范围外的声音进行抑制,并输出一路增强后的语音信号,作为后续步骤所处理的语音。
5.根据权利要求1-4任一项所述的方法,其特征在于,若判断所述区域内有人入侵,和/或,检测到所述语音中存在关键词,还包括:
保存或上传相关的视频和音频数据。
6.一种车厢内多模态行为分析系统,其特征在于,包括:
数据采集模块,用于采集车厢内的图像和语音;
入侵判断模块,用于根据所述图像判断车厢内预先划定的区域内是否有人入侵;
语音检测模块,用于检测所述语音中是否存在关键词;
警告模块,用于若判断所述区域内有人入侵,和/或,所述语音中存在关键词,则发出警告。
7.根据权利要求6所述的系统,其特征在于,所述入侵判断模块,具体包括:
骨骼标注单元,用于标注所述图像中的人物骨骼;
入侵判断单元,用于若所述图像中有除驾驶员以外的人物骨骼进入所述驾驶员区域,则判断所述驾驶员区域内有人入侵。
8.根据权利要求6所述的系统,其特征在于,所述语音检测模块,具体用于:
通过语音关键词检测算法检测所述语音中是否存在关键词,和/或
将所述语音转换成文字后形成的文本与文本库中的关键词进行对比。
9.根据权利要求6所述的系统,其特征在于,还包括:
目标标记模块,用于在所述语音检测模块检测所述语音中是否存在关键词之前,通过唇动引擎检测所述图像中的人是否正在说话,将正在说话的人标记为目标人;
目标跟踪模块,用于根据目标跟踪算法确定所述目标人的位置信息;
语音增强及输出模块,用于根据所述目标人的位置信息确定所述目标人的方位,对所述方位的人声进行定向增强,对于非人声噪声以及有效范围外的声音进行抑制,并输出一路增强后的语音信号,作为所述语音检测模块所处理的语音。
10.根据权利要求6-9任一项所述的系统,其特征在于,还包括:
数据传输模块,用于若所述入侵判断模块判断所述区域内有人入侵,和/或,所述语音检测模块检测到所述语音中存在关键词,保存或上传相关的视频和音频数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111456655.6A CN114373199A (zh) | 2021-12-01 | 2021-12-01 | 一种车厢内多模态行为分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111456655.6A CN114373199A (zh) | 2021-12-01 | 2021-12-01 | 一种车厢内多模态行为分析方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114373199A true CN114373199A (zh) | 2022-04-19 |
Family
ID=81140329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111456655.6A Pending CN114373199A (zh) | 2021-12-01 | 2021-12-01 | 一种车厢内多模态行为分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114373199A (zh) |
-
2021
- 2021-12-01 CN CN202111456655.6A patent/CN114373199A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9844981B2 (en) | Systems and methods for use in a vehicle for detecting external events | |
CN104658548B (zh) | 用外部声音向车辆驾乘人员警告外部事件并掩蔽车内谈话 | |
AU2015217518C1 (en) | Imaging system and method | |
KR101445367B1 (ko) | 이상 음원에 대한 인식율 향상을 통하여 긴급상황 판별 성능을 개선한 지능형 영상감시 시스템 및 이를 이용한 긴급상황 판별방법 | |
US20170309149A1 (en) | A portable alerting system and a method thereof | |
US20060227237A1 (en) | Video surveillance system and method with combined video and audio recognition | |
MX2009001254A (es) | Sistema de vigilancia de video y metodo con reconocimiento de video y audio combinado. | |
KR101687296B1 (ko) | 음향 및 행동 패턴 인식 기반의 하이브리드 패턴 분석이 가능한 객체 추적 시스템 및 객체 추적 방법 | |
JP2015022453A (ja) | 緊急車両報知システム | |
CN103144598A (zh) | 汽车碰撞报警方法和装置 | |
JP7160454B2 (ja) | 情報を出力するための方法、装置及びシステム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
US11812245B2 (en) | Method, apparatus, and computer-readable storage medium for providing three-dimensional stereo sound | |
JP2002245588A (ja) | 緊急車両優先通過支援システム | |
KR20120103286A (ko) | 오디오 신호를 이용하여 차량에 대한 관심 대상 이벤트를 감지하기 위한 방법 및 장치 | |
KR101794260B1 (ko) | 음성인식을 이용한 보안등 및 보안시스템 | |
CN114373199A (zh) | 一种车厢内多模态行为分析方法和系统 | |
CN110194181B (zh) | 驾驶支持方法、车辆和驾驶支持系统 | |
JPH11352987A (ja) | 音声認識装置 | |
KR101752066B1 (ko) | 엘리베이터 탑승자의 환경정보를 이용한 비상상황 감지시스템 및 그 방법 | |
US10721579B2 (en) | Correlated cross-feed of audio and video | |
CN115352361A (zh) | 一种车辆用隔窗对话方法、装置和车辆 | |
KR101882309B1 (ko) | 음성인식을 이용한 보안등 및 보안시스템 | |
KR20220054504A (ko) | 차량 및 그 제어방법 | |
US20220319502A1 (en) | Determining whether an acoustic event originated inside or outside a vehicle | |
US20230230504A1 (en) | Voice output method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |