CN110232564A - 一种基于多模态数据的交通事故法律自动决策方法 - Google Patents
一种基于多模态数据的交通事故法律自动决策方法 Download PDFInfo
- Publication number
- CN110232564A CN110232564A CN201910709496.2A CN201910709496A CN110232564A CN 110232564 A CN110232564 A CN 110232564A CN 201910709496 A CN201910709496 A CN 201910709496A CN 110232564 A CN110232564 A CN 110232564A
- Authority
- CN
- China
- Prior art keywords
- data
- traffic accident
- law
- feature
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 125
- 206010039203 Road traffic accident Diseases 0.000 title claims abstract description 71
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000012790 confirmation Methods 0.000 claims abstract description 7
- 230000033001 locomotion Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 7
- 241001269238 Data Species 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000010297 mechanical methods and process Methods 0.000 claims description 4
- 230000005226 mechanical processes and functions Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000013144 data compression Methods 0.000 claims description 3
- 238000013499 data model Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000013501 data transformation Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000002203 pretreatment Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims 1
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 10
- 230000004927 fusion Effects 0.000 description 5
- 230000001149 cognitive effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000011731 head segmentation Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Technology Law (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态数据的交通事故法律自动决策方法,本发明解决了交通事故现场的法律自动决策问题,基于视频、图像、语音和文字等交通事故现场的实时多模态数据,经过自动决策系统预处理、识别、分析和决策生成,为特定交通事故事件提供法律决策支持、包括违法犯罪行为认定、责任认定、赔偿预测、法律法规适用预测、相关案例裁判分析等多维度法律决策辅助,帮助交警或个人快速精准了解事故的法律认定情况,以达到快速处理交通事故判罚和纠纷的目的。
Description
技术领域
本发明涉及计算机视觉、自然语言处理、自动决策系统和法律等交叉技术领域,具体是一种基于多模态数据的交通事故法律自动决策方法。
背景技术
根据国家统计局相关数据,2017年我国交通事故发生数总计为203049起,造成死亡人数共计63772人,直接造成财产损失共计121311万元。目前,交通事故的处理仍然依赖于交警的现场处理,因此交警的工作负担仍然很高。交警可以在移动端和电脑端通过拍照、录像、录音、文字记录等多模态数据为事故留证,避免法律风险。然而,在事故处理过程中,这些多模态数据还没有发挥关键的作用:在交警判断前,通过人工智能技术利用多模态数据理解交通事故,结合智能法律决策系统,生成法律辅助决策,让交警和当事人都快速精准的了解到该事故所涉及的一切核心法律信息。通过详尽的技术调研和发明检索我们发现,当前的技术有两种典型的代表形式:交通事故处理方法技术、交通事故处理设备或装置。交通事故处理方法技术以中国发明《CN107067718A》为代表,通过行车记录仪信息来评估交通事故的责任认定,此类技术采取的数据相对单一,通常是基于文字或视频,没有进行多模态数据的融合训练学习,另外决策类目过于单一,缺乏法律依据和解释性,会造成当事人的误解。交通事故处理设备或装置以中国发明《CN107464367A》为代表,以一体机的形式存在,结合了身份证阅读器、条形码扫描器等各种信息采集,需要交警或当事人人工录入大量的信息,对于使用者不够友好,除此之外,接受的数据信息也相对单一,无法利用视频、图像、语音等复杂数据,仍然没有解决事故处理的法律解释、法律依据和法律决策问题。
此外,现有技术中还具有以下缺点,一是缺乏多模态数据的使用,上述技术着重于用户录入的信息或行车录仪的拍摄视频,数据的使用相对单一。一起交通事故不仅仅是行车记录仪的视频,还会涉及到监控视频、目击者的描述、当事人双方的描述以及交警队事故的判断描述等等。这些数据通常以多模态的形式存在,可以是目击者拍摄的视频、目击者描述的语音、交警记录的文字等等。交通事故的信息越全,越有助于做出准确的法律判断。二是,法律决策的目标简单,缺乏可解释性。大多是基于数据规则的责任认定,缺乏法律认知和推理,也无法对违法或犯罪行为进行认定,对赔偿进行预测。决策的层次过低,无法展示出一个事故涉及到法律的方方面面,最终,有可能导致交警或当事人对机器的决策产生怀疑或不理解。
究其原因,一是,技术原因。技术原因涉及三个方面:一方面是多模态数据采集问题,一体机等交通事故设备依赖于人工来填写信息,一体机不会自动移动,通常也不具备拍摄和收音功能,本发明的数据采集来自于自研的道路交通路面机器人,能够有效的采集多模态数据;其次是由于多模态数据处理和识别的发展,包括视频图像数据的语义分割、语音识别、文字数据的语义表示、多模态数据场景语义识别等技术,本发明的重点算法创新在这个方面。最后一个方面是由于多模态数据的法律决策系统的缺失,法律决策系统通常是基于特定的表单输入,多模态数据所产生的信息远远超过人工可设定的表单,需要根据决策目标进行法律认知模型训练,最终达到精准的法律决策效果。二是,法律认知模型的缺失。上述技术的构建目标是偏重于设备或责任认定,结合的是交警处理事故的流程和经验,期望将事故处理规则程序化,而不同的事故很可能产生跳出规则约束的范围,如果不是一个具备法律认知推理的系统,实用性会大打折扣。同时流程化的决策缺乏对决策过程的解释和支撑,缺乏完备性和可解释性,法律认知模型能够有效的解决这些问题。
因此,本发明提供了一种基于多模态数据的交通事故法律自动决策方法,以解决上述背景技术中提出的多模态数据到法律决策的预测问题。
发明内容
本发明的目的在于提供一种基于多模态数据的交通事故法律自动决策方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于多模态数据的交通事故法律自动决策方法,其特征在于,其包括以下步骤:
(1)利用多模态数据预处理组件进行多模态数据预处理步骤:
所述多模态数据预处理组件用于对多种模态的数据进行计算机加工处理,其包括数据清洗、数据集成、数据变化、数据规约过程;且根据不同的数据模态,分为视频预处理器、音频预处理器、图像预处理器和文字预处理器;
(2)利用多模态特征编码学习组件进行多模态特征编码学习步骤;
(3)利用交通事故法律决策组件进行交通事故法律决策步骤;
其中,多模态特征编码学习组件与交通事故法律决策组件相互关联,且采用深度学习的方法,构造一个无监督的视频-音频-图像-文字四模态深度自编码模型,该模型的建模是先把四种数据压缩成中间层特征,再利用中间层特征来还原原始数据;
交通事故法律决策组件是构建在多模态特征编码的基础之上,且交通事故法律决策组件包含法律责任认定、赔偿认定、法律法规预测、案例预测四个模型。
进一步,作为优选,该决策方法是通过算法模型来模拟人来判断一个交通事故的过程,其基本的概率模型如下:
根据贝叶斯公式,将生成式模型转换为判别式模型:
公式中 分别表示视频、音频、图像和文字的观测变量信息,是模型的建模目标,代表法律法规、赔偿金额、责任认定结果;表示似然函数,表示的是先验概率,表示证据;判别式模型通过大量训练数据学习到模型的参数,然后将模型部署到机器上,当新的数据来到时,通过传感器或者设备获取到等信息,然后计算出给定信息下概率最高的法律决策Y,通过概率的大小作为判别准则,然后采用该法律决策。
对该概率模型进行建模步骤,至少包括从数据处理表示、数据编码、概率模型参数计算、模型评测到模型部署。
进一步,作为优选,在所述步骤(1)中,数据清洗负责消除错误、冗余和数据噪音以及将按不同的、不兼容的规则所得的各种数据集一致起来;
数据集成是将多个数据源中的数据合并,并存放到一个一致的数据存储中;
且多模态数据都需要压缩成特定的语义编码,然后存储;
数据变换是找到数据的特征表示,用维度变换来减少有效变量的数目或找到数据的不变式;
数据规约是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量。
进一步,作为优选,所述视频预处理器是针对获取到的视频数据进行了镜头分割、关键帧提取、特征提取;且视频预处理器中内置了四种方法,四种方法包括像素差异法、基于直方图的方法、基于运动的方法和基于轮廓的方法。
进一步,作为优选,所述像素差异法具体为首先定义一个像素差异测度,然后计算连续两帧图像的帧间差异并用其与一个预先设定的阈值作比较,大于该阈值,则认为场景发生了改变;
基于直方图的方法具体为将相邻帧的各个像素的灰度、亮度或颜色等分成N个等级,再针对每个等级统计像素数做成直方图比较;
基于运动的方法具体为充分考虑同一镜头内对象及摄像机的运动情况和特征,通过运动补偿等方法来减小对象和摄像机运动造成的镜头内帧差值的变化;
基于轮廓的方法具体为对画面的轮廓进行判断。
进一步,作为优选,所述关键帧提取方法包括首尾帧法和中间帧法、基于颜色、纹理、形状特征法、基于运动分析法和基于聚类的方法;其中,
首尾帧法和中间帧法是将第一幅图像和最后一幅图像作为关键帧,对于突变镜头有效中间帧法选择在时间上居中的一幅图像作为关键帧;
基于颜色、纹理、形状特征法是针对视频的颜色、纹理和形状特征提取关键帧,当前帧与最后一个判断为关键帧的图像比较,若有较多特征发生改变,则为新的关键帧,不同的视频镜头,得到不同数据的关键帧;
基于运动分析法是摄像机的运动所造成的显著运动信息时产生图像变化的重要因素,也是提取关键帧的一个依据,若由于相机焦距变化造成,则首、尾帧为关键帧;若由于相机角度变化造成,如果与上一关键帧重叠小于30%,则当前帧为关键帧;
基于聚类的方法是对于比较大的图像数据库,先采用某种聚类算法,把图像库中的图像进行分类,在此基础上提取关键帧会使计算量大大减少,对于低活动性镜头,提取少量的关键帧;反之,提取较多的关键帧。
进一步,作为优选,所述音频数据预处理器包括预加重、分帧、加窗预处理操作;
图像数据预处理器主要包括灰度化、几何变换、图像增强;
文本预处理器负责进行统一文本编码、去除停用词、分词、拼写纠错、词性标注、去除标点。
进一步,作为优选,所述多模态特征编码学习组件是采用无监督的深度自编码模型,输入视频-音频-图像-文本,通过网络压缩编码,再通过网络来把数据重构出来,在训练中采用缺失模态的扩充方法,保证在缺失某些模态的情况下模型仍然可以正常运行,增强模型的鲁棒性。其中,缺失模态的扩展方法主要以padding法为主,首先在训练阶段,将完整的训练样本随机缺失一部分信息形成新的训练样本,将缺失值填充上固定的数值,例如0。这使得模型在训练时就已经学习到了缺失模态的识别,在预测时,将缺失的模态值补充为默认缺失值即可。
进一步,作为优选,所述多模态编码特征同时包含了视频信息、音频信息、图像信息和文字信息,是一个融合了多种模态信息的特征向量;经过深度的学习网络,最后根据决策输出的类型,输出不同的法律决策。
进一步,作为优选,所述交通事故责任认定模型的输出是全部责任、部分责任、不承担责任的法律责任标签;赔偿责任决策是金额决策模型,输出一个大于零的金额数量,预测交通事故造成的赔偿;法律法规预测输出相关的交通事故法律条目;相关案例预测通过输出重要的事故情节事件作为输出,通过事故情节事件再获取到全部的相关案例进行大数据分析;最终支撑产生一个交通事故的全部法律决策信息。
与现有技术相比,本发明的有益效果是:
(1)本发明解决了交通事故现场的法律自动决策问题,基于视频、图像、语音和文字等交通事故现场的实时多模态数据,经过自动决策系统预处理、识别、分析和决策生成,为特定交通事故事件提供法律决策支持、包括违法犯罪行为认定、责任认定、赔偿预测、法律法规适用预测、相关案例裁判分析等多维度法律决策辅助,帮助交警或个人快速精准了解事故的法律认定情况,以达到快速处理交通事故判罚和纠纷的目的;
(2)本发明采用多模态数据的融合,由于本发明构建了深度自编码算法模型,使得多源异构的数据能够通过无监督算法融合,不需要人工指定特征。该模型具有充分的鲁棒性,在某些源的数据缺失的情况下,仍然能进行编码工作。
(3)本发明基于交通事故的多维法律决策建模,真正的构建了一个从多模态数据—多维法律决策的方法,整个方法中针对这些法律决策使用了多个决策算法模型,而不是单一的模型,共享了特征参数,使得决策之间具有了关联性。
附图说明
图1为一种基于多模态数据的交通事故法律自动决策方法的技术流程示意图;
图2为一种基于多模态数据的交通事故法律自动决策方法中多模态特征编码学习组件和交通事故法律决策组件的模型架构结构示意图。
具体实施方式
请参阅图1~2,本发明实施例中,一种基于多模态数据的交通事故法律自动决策方法,其包括以下步骤:
(1)利用多模态数据预处理组件进行多模态数据预处理步骤:
所述多模态数据预处理组件用于对多种模态的数据进行计算机加工处理,其包括数据清洗、数据集成、数据变化、数据规约过程;且根据不同的数据模态,分为视频预处理器、音频预处理器、图像预处理器和文字预处理器;
(2)利用多模态特征编码学习组件进行多模态特征编码学习步骤;
(3)利用交通事故法律决策组件进行交通事故法律决策步骤;其中,
多模态数据是来自于多源的相关信息,例如在本发明中,多模态数据专指和某个特定交通事故相关的视频信息、语音信息、图像信息和文字信息。这些多模态数据相对完整的描绘了一个交通事故的全貌,对于计算机来说,无法直接将信息映射到法律决策。而对于一个专业交警和法律专家来说,可以从事故发生的监控视频、目击者的口述、现场照片或笔录来判断一个交通事故的法律相关信息。在简单的事故中,可能只需要一到两种模态的数据就能精准的法律判断。因此,本发明的本质就是通过算法模型来模拟人的这一决策过程,基本的概率模型如下:
根据贝叶斯公式,将生成式模型转换为判别式模型:
公式中 分别表示视频、音频、图像和文字的观测变量信息,是模型的建模目标,代表法律法规、赔偿金额、责任认定结果;表示似然函数,表示的是先验概率,表示证据;本发明的核心流程就是围绕这个概率模型进行建模,包含从数据处理表示、数据编码、概率模型参数计算、模型评测到模型部署等多个算法或工程细节。
多模态数据预处理组件用于对多种模态的数据进行计算机加工处理,包含数据清洗、数据集成、数据变化、数据规约等过程。数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不同的、不兼容的规则所得的各种数据集一致起来。数据集成是将多个数据源中的数据合并,并存放到一个一致的数据存储中,本发明涉及到的多模态数据都需要压缩成特定的语义编码,然后存储。数据变换是找到数据的特征表示,用维度变换来减少有效变量的数目或找到数据的不变式。数据规约是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量。本发明根据不同的数据模态,分为视频预处理器、音频预处理器、图像预处理器、文字预处理器。
视频预处理器针对获取到的视频数据进行了镜头分割、关键帧提取、特征提取。镜
头分割是视频处理的第一步,是后续视频处理分析的基础,处理器中内置了四种方法,包括
像素差异法、基于直方图的方法、基于运动的方法和基于轮廓的方法。这四种方法具体如下
表所示。
镜头分割方法 | 描述 |
像素差异法 | 首先定义一个像素差异测度,然后计算连续两帧图像的帧间差异并用其与一个预先设定的阈值作比较,大于该阈值,则认为场景发生了改变。 |
基于直方图的方法 | 基于直方图的方法将相邻帧的各个像素的灰度、亮度或颜色等分成N个等级,再针对每个等级统计像素数做成直方图比较。该方法统计了总体的灰度或颜色分布数量,它对镜头内的运动和摄像机的慢速运动有着良好的容忍能力,只是在镜头内容快速变化和镜头渐变时可能会引起误检或漏检。 |
基于运动的方法 | 基于运动的算法充分考虑了同一镜头内对象及摄像机的运动情况和特征,通过运动补偿等方法来减小对象和摄像机运动造成的镜头内帧差值的变化。 |
基于轮廓的方法 | 对画面简单的视频进行分割时,基于轮廓的算法效果很好,在渐变镜头的检测上尤为突出。但是,大多数的视频中主要对象或背景可能都有很多复杂、细微或不断变化的轮廓,会干扰对镜头边缘的判断,造成误检;而在光线比较暗和轮廓不是很明显的情况下(如晚上和雾中),由于难以检测到轮廓又会造成漏检。 |
关键帧是指代表镜头中最重要的、有代表性的一幅或多幅图像。依据镜头内容的
复杂程度,可以从一个镜头中提取一个或多个关键帧。关键帧的选取要包含本镜头的主要
信息。而且不能太复杂要便于处理。本发明采用了以下几种关键帧提取方法,具体如下表:
关键帧提取方法 | 描述 |
首尾帧法和中间帧法 | 首尾帧法将第一幅图像和最后一幅图像作为关键帧,对于突变镜头有效中间帧法选择在时间上居中的一幅图像作为关键帧。其缺点是:限制了镜头关键帧的个数,不能精确代表镜头信息。 |
基于颜色、纹理、形状特征法 | 针对视频的颜色、纹理和形状特征提取关键帧。当前帧与最后一个判断为关键帧的图像比较,若有较多特征发生改变,则为新的关键帧。不同的视频镜头,得到不同数据的关键帧。 |
基于运动分析法 | 摄像机的运动所造成的显著运动信息时产生图像变化的重要因素,也是提取关键帧的一个依据。若由于相机焦距变化造成,则首、尾帧为关键帧;若由于相机角度变化造成,如果与上一关键帧重叠小于30%,则当前帧为关键帧。 |
基于聚类的方法 | 对于比较大的图像数据库来说,先采用某种聚类算法,把图像库中的图像进行分类,在此基础上提取关键帧会使计算量大大减少。这种方法计算效率高,能有效获取视频镜头变化显著的视觉内容。对于低活动性镜头,提取少量的关键帧;反之,提取较多的关键帧。 |
音频数据预处理器包括预加重、分帧、加窗等预处理操作。这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素,对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。
图像数据预处理器的技术和视频技术有部分重叠,图像预处理的主要目的是消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性、最大限度地简化数据,从而改进特征提取、图像分割、匹配和识别的可靠性。预处理流程为:灰度化、几何变换、图像增强。
文本预处理器针对用户输入的文本信息进行处理,在本发明中接收到的文本主要是对交通事故的一些描述,针对这些文本,进行了以下预处理工作:统一文本编码、去除停用词、分词、拼写纠错、词性标注、去除标点。
多模态特征编码学习组件和交通事故法律决策组件是本发明的核心,两个组件相互关联。其他技术的一个缺点就是没有办法融合多模态的数据,把视频特征、图像特征、音频特征和文字特征都分离开来看,通过人工指定的规则抽取到特征,所产生的特征也以不同的数据格式存在。本发明采用了深度学习的方法,构造了一个无监督的视频-音频-图像-文字四模态深度自编码模型。建模的基本思想是:视觉、语音和文字数据在某个“中间层”是相关的,未加工的像素是很难与语音波形或声谱图产生相关性,因此先把四种数据压缩成中间层特征,再利用中间层特征来还原原始数据。两个组件的模型架构如图2所示。
在图2中,图中视频表示、音频表示、图像表示和文本表示都是预处理后的数据格式,例如视频表示为连续的关键帧,图像表示就是RGB数字,文本表示是经过预训练的词向量,这些数据已经可以直接输入到机器学习模型。多模态特征编码学习组件整体而已就是一个自编码模型,输入视频-音频-图像-文本,通过网络压缩编码,再通过网络来把数据重构出来,它是一个无监督的深度自编码模型。通常在现实中,很可能多模态的数据会缺失,有的时候只会存在一到两种模态的数据,为了解决这个问题,在训练中采用了缺失模态的扩充方法,保证在缺失某些模态的情况下模型仍然可以正常运行,这增强了模型的鲁棒性。
交通事故法律决策组件构建在多模态特征编码的基础之上,该组件包含法律责任认定、赔偿认定、法律法规预测、案例预测四个模型。多模态编码特征是同时包含了视频信息、音频信息、图像信息和文字信息,是一个融合了多种模态信息的特征向量。经过深度的学习网络,最后根据决策输出的类型,输出不同的法律决策。交通事故责任认定模型的输出是全部责任、部分责任、不承担责任的法律责任标签。赔偿责任决策是金额决策模型,输出一个大于零的金额数量,预测交通事故造成的赔偿。法律法规预测输出相关的交通事故法律条目。相关案例预测通过输出重要的事故情节事件作为输出,通过事故情节事件再获取到全部的相关案例进行大数据分析。最终支撑产生一个交通事故的全部法律决策信息。法律决策组件是具有延申性质的,例如一些法律决策中需要判断违法或犯罪行为,法律决策组件只需要增加要给违法犯罪预测的模型即可使用。
本发明采用多模态数据的融合,由于本发明构建了深度自编码算法模型,使得多源异构的数据能够通过无监督算法融合,不需要人工指定特征。该模型具有充分的鲁棒性,在某些源的数据缺失的情况下,仍然能进行编码工作。本发明采用基于交通事故的多维法律决策建模,真正的构建了一个从多模态数据—多维法律决策的方法,整个方法中针对这些法律决策使用了多个决策算法模型,而不是单一的模型,共享了特征参数,使得决策之间具有了关联性。
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于多模态数据的交通事故法律自动决策方法,其特征在于,其包括以下步骤:
(1)利用多模态数据预处理组件进行多模态数据预处理步骤:
所述多模态数据预处理组件用于对多种模态的数据进行计算机加工处理,其包括数据清洗、数据集成、数据变化、数据规约过程;且根据不同的数据模态,分为视频预处理器、音频预处理器、图像预处理器和文字预处理器;
(2)利用多模态特征编码学习组件进行多模态特征编码学习步骤;
(3)利用交通事故法律决策组件进行交通事故法律决策步骤;
其中,多模态特征编码学习组件与交通事故法律决策组件相互关联,且采用深度学习的方法,构造一个无监督的视频-音频-图像-文字四模态深度自编码模型,该模型的建模是先把四种数据压缩成中间层特征,再利用中间层特征来还原原始数据;
交通事故法律决策组件是构建在多模态特征编码的基础之上,且交通事故法律决策组件包含法律责任认定、赔偿认定、法律法规预测、案例预测四个模型。
2.根据权利要求1所述的一种基于多模态数据的交通事故法律自动决策方法,其特征在于,该决策方法是通过算法模型来模拟人来判断一个交通事故的过程,其基本的概率模型如下:
根据贝叶斯公式,将生成式模型转换为判别式模型:
公式中 分别表示视频、音频、图像和文字的观测变量信息,是模型的建模目标,代表法律法规、赔偿金额、责任认定结果;表示似然函数,表示的是先验概率,表示证据;判别式模型通过大量训练数据学习到模型的参数,然后将模型部署到机器上,当新的数据来到时,通过传感器或者设备获取到等信息,然后计算出给定信息下概率最高的法律决策Y,通过概率的大小作为判别准则,然后采用该法律决策;
对该概率模型进行建模步骤,至少包括从数据处理表示、数据编码、概率模型参数计算、模型评测到模型部署。
3.根据权利要求1所述的一种基于多模态数据的交通事故法律自动决策方法,其特征在于,在所述步骤(1)中,数据清洗负责消除错误、冗余和数据噪音以及将按不同的、不兼容的规则所得的各种数据集一致起来;
数据集成是将多个数据源中的数据合并,并存放到一个一致的数据存储中;
且多模态数据都需要压缩成特定的语义编码,然后存储;
数据变换是找到数据的特征表示,用维度变换来减少有效变量的数目或找到数据的不变式;
数据规约是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量。
4.根据权利要求1所述的一种基于多模态数据的交通事故法律自动决策方法,其特征在于,所述视频预处理器是针对获取到的视频数据进行了镜头分割、关键帧提取、特征提取;且视频预处理器中内置了四种方法,四种方法包括像素差异法、基于直方图的方法、基于运动的方法和基于轮廓的方法。
5.根据权利要求4所述的一种基于多模态数据的交通事故法律自动决策方法,其特征在于,所述像素差异法具体为首先定义一个像素差异测度,然后计算连续两帧图像的帧间差异并用其与一个预先设定的阈值作比较,大于该阈值,则认为场景发生了改变;
基于直方图的方法具体为将相邻帧的各个像素的灰度、亮度或颜色等分成N个等级,再针对每个等级统计像素数做成直方图比较;
基于运动的方法具体为充分考虑同一镜头内对象及摄像机的运动情况和特征,通过运动补偿等方法来减小对象和摄像机运动造成的镜头内帧差值的变化;
基于轮廓的方法具体为对画面的轮廓进行判断。
6.根据权利要求5所述的一种基于多模态数据的交通事故法律自动决策方法,其特征在于,所述关键帧提取方法包括首尾帧法和中间帧法、基于颜色、纹理、形状特征法、基于运动分析法和基于聚类的方法;其中,
首尾帧法和中间帧法是将第一幅图像和最后一幅图像作为关键帧,对于突变镜头有效中间帧法选择在时间上居中的一幅图像作为关键帧;
基于颜色、纹理、形状特征法是针对视频的颜色、纹理和形状特征提取关键帧,当前帧与最后一个判断为关键帧的图像比较,若有较多特征发生改变,则为新的关键帧,不同的视频镜头,得到不同数据的关键帧;
基于运动分析法是摄像机的运动所造成的显著运动信息时产生图像变化的重要因素,也是提取关键帧的一个依据,若由于相机焦距变化造成,则首、尾帧为关键帧;若由于相机角度变化造成,如果与上一关键帧重叠小于30%,则当前帧为关键帧;
基于聚类的方法是对于比较大的图像数据库,先采用某种聚类算法,把图像库中的图像进行分类,在此基础上提取关键帧会使计算量大大减少,对于低活动性镜头,提取少量的关键帧;反之,提取较多的关键帧。
7.根据权利要求5所述的一种基于多模态数据的交通事故法律自动决策方法,其特征在于,所述音频数据预处理器包括预加重、分帧、加窗预处理操作;
图像数据预处理器主要包括灰度化、几何变换、图像增强;
文本预处理器负责进行统一文本编码、去除停用词、分词、拼写纠错、词性标注、去除标点。
8.根据权利要求1所述的一种基于多模态数据的交通事故法律自动决策方法,其特征在于,所述多模态特征编码学习组件是采用无监督的深度自编码模型,输入视频-音频-图像-文本,通过网络压缩编码,再通过网络来把数据重构出来,在训练中采用缺失模态的扩充方法,保证在缺失某些模态的情况下模型仍然可以正常运行,增强模型的鲁棒性,其中,缺失模态的扩展方法主要以padding法为主,首先在训练阶段,将完整的训练样本随机缺失一部分信息形成新的训练样本,将缺失值填充上固定的数值,这使得模型在训练时就已经学习到了缺失模态的识别,在预测时,将缺失的模态值补充为默认缺失值即可。
9.根据权利要求1所述的一种基于多模态数据的交通事故法律自动决策方法,其特征在于,所述多模态编码特征同时包含了视频信息、音频信息、图像信息和文字信息,是一个融合了多种模态信息的特征向量;经过深度的学习网络,最后根据决策输出的类型,输出不同的法律决策。
10.根据权利要求9所述的一种基于多模态数据的交通事故法律自动决策方法,其特征在于,所述交通事故责任认定模型的输出是全部责任、部分责任、不承担责任的法律责任标签;赔偿责任决策是金额决策模型,输出一个大于零的金额数量,预测交通事故造成的赔偿;法律法规预测输出相关的交通事故法律条目;相关案例预测通过输出重要的事故情节事件作为输出,通过事故情节事件再获取到全部的相关案例进行大数据分析;最终支撑产生一个交通事故的全部法律决策信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910709496.2A CN110232564A (zh) | 2019-08-02 | 2019-08-02 | 一种基于多模态数据的交通事故法律自动决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910709496.2A CN110232564A (zh) | 2019-08-02 | 2019-08-02 | 一种基于多模态数据的交通事故法律自动决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110232564A true CN110232564A (zh) | 2019-09-13 |
Family
ID=67855229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910709496.2A Pending CN110232564A (zh) | 2019-08-02 | 2019-08-02 | 一种基于多模态数据的交通事故法律自动决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232564A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991999A (zh) * | 2019-12-02 | 2020-04-10 | 深圳市华云中盛科技股份有限公司 | 执法裁量效率的提高方法、装置、计算机设备及存储介质 |
CN111274460A (zh) * | 2020-01-20 | 2020-06-12 | 重庆百事得大牛机器人有限公司 | 基于体态控制的语义信息采集系统及方法 |
CN111797232A (zh) * | 2020-06-11 | 2020-10-20 | 南京擎盾信息科技有限公司 | 法律事件图谱构建方法、法律事件推理方法、装置和电子设备 |
CN112183022A (zh) * | 2020-09-25 | 2021-01-05 | 北京优全智汇信息技术有限公司 | 一种估损方法和装置 |
CN112990254A (zh) * | 2020-12-17 | 2021-06-18 | 北京以萨技术股份有限公司 | 基于多源异构数据的融合分析方法、系统、设备及介质 |
CN115767040A (zh) * | 2023-01-06 | 2023-03-07 | 松立控股集团股份有限公司 | 基于交互式持续学习的360度全景监控自动巡航方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246702A (zh) * | 2013-04-02 | 2013-08-14 | 大连理工大学 | 一种基于分段形态表示的工业序列数据缺失的填补方法 |
CN107067718A (zh) * | 2016-12-29 | 2017-08-18 | 盯盯拍(深圳)技术股份有限公司 | 交通事故责任评估方法、交通事故责任评估装置以及交通事故责任评估系统 |
CN107180035A (zh) * | 2016-03-09 | 2017-09-19 | 阿里巴巴集团控股有限公司 | 一种训练模型信息输出方法及装置 |
CN107273429A (zh) * | 2017-05-19 | 2017-10-20 | 哈工大大数据产业有限公司 | 一种基于深度学习的缺失值填充方法及系统 |
-
2019
- 2019-08-02 CN CN201910709496.2A patent/CN110232564A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246702A (zh) * | 2013-04-02 | 2013-08-14 | 大连理工大学 | 一种基于分段形态表示的工业序列数据缺失的填补方法 |
CN107180035A (zh) * | 2016-03-09 | 2017-09-19 | 阿里巴巴集团控股有限公司 | 一种训练模型信息输出方法及装置 |
CN107067718A (zh) * | 2016-12-29 | 2017-08-18 | 盯盯拍(深圳)技术股份有限公司 | 交通事故责任评估方法、交通事故责任评估装置以及交通事故责任评估系统 |
CN107273429A (zh) * | 2017-05-19 | 2017-10-20 | 哈工大大数据产业有限公司 | 一种基于深度学习的缺失值填充方法及系统 |
Non-Patent Citations (1)
Title |
---|
田文雪: "多模态信息融合的心血管疾病预测方法研究", 《CNKI学术论文全文数据库》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991999A (zh) * | 2019-12-02 | 2020-04-10 | 深圳市华云中盛科技股份有限公司 | 执法裁量效率的提高方法、装置、计算机设备及存储介质 |
CN111274460A (zh) * | 2020-01-20 | 2020-06-12 | 重庆百事得大牛机器人有限公司 | 基于体态控制的语义信息采集系统及方法 |
CN111797232A (zh) * | 2020-06-11 | 2020-10-20 | 南京擎盾信息科技有限公司 | 法律事件图谱构建方法、法律事件推理方法、装置和电子设备 |
CN112183022A (zh) * | 2020-09-25 | 2021-01-05 | 北京优全智汇信息技术有限公司 | 一种估损方法和装置 |
CN112990254A (zh) * | 2020-12-17 | 2021-06-18 | 北京以萨技术股份有限公司 | 基于多源异构数据的融合分析方法、系统、设备及介质 |
CN115767040A (zh) * | 2023-01-06 | 2023-03-07 | 松立控股集团股份有限公司 | 基于交互式持续学习的360度全景监控自动巡航方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232564A (zh) | 一种基于多模态数据的交通事故法律自动决策方法 | |
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
CN109544524B (zh) | 一种基于注意力机制的多属性图像美学评价系统 | |
CN112749608B (zh) | 视频审核方法、装置、计算机设备和存储介质 | |
CN111741330B (zh) | 一种视频内容评估方法、装置、存储介质及计算机设备 | |
CN111325323A (zh) | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 | |
CN110532925B (zh) | 基于时空图卷积网络的驾驶员疲劳检测方法 | |
CN113902964A (zh) | 基于关键词感知的多模态注意力视频问答方法与系统 | |
CN110446063A (zh) | 视频封面的生成方法、装置及电子设备 | |
CN111401259B (zh) | 模型训练方法、系统、计算机可读介质和电子设备 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN113221900A (zh) | 一种基于密集连接卷积网络的多模态视频中文字幕识别方法 | |
CN116580278A (zh) | 一种基于多注意力机制的唇语识别方法、设备及存储介质 | |
CN113609326B (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
CN110347853A (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN116246287B (zh) | 目标对象识别方法、训练方法、装置以及存储介质 | |
CN112819689A (zh) | 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
CN115512191A (zh) | 一种联合问答的图像自然语言描述方法 | |
CN113609330B (zh) | 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质 | |
Yang et al. | Multimodal Short Video Rumor Detection System Based on Contrastive Learning | |
Mishra et al. | Environment descriptor for the visually impaired | |
CN111898452A (zh) | 一种视频监控联网系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190913 |