CN116189109A

CN116189109A - 模型训练方法、道路事件检测方法、装置及相关设备

Info

Publication number: CN116189109A
Application number: CN202211708597.6A
Authority: CN
Inventors: 倪华健; 陈庆; 林亦宁
Original assignee: Beijing Shanma Zhijian Technology Co ltd; Hangzhou Shanma Zhiqing Technology Co Ltd; Shanghai Supremind Intelligent Technology Co Ltd
Current assignee: Beijing Shanma Zhijian Technology Co ltd; Hangzhou Shanma Zhiqing Technology Co Ltd; Shanghai Supremind Intelligent Technology Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-05-30

Abstract

本申请的实施例提供了一种模型训练方法、道路事件检测方法、装置及相关设备，该方法包括：获取训练数据，所述训练数据包括图像和图像中用于描述路况信息的描述文本；利用所述训练数据训练神经网络模型，所述神经网络模型用于识别图像中道路区域，以及用于表征图像和用于描述路况信息的描述文本的对应关系。本申请具有较好的通用性，在检测时只需要通过单张图片即可实现，能够极大地节省资源，并且该模型能够直接输出描述文本，更加便于理解。

Description

模型训练方法、道路事件检测方法、装置及相关设备

技术领域

本申请的实施例涉及机器视觉技术领域，尤其涉及一种模型训练方法、道路事件检测方法、装置及相关设备。

背景技术

随着监控摄像头的大范围部署，城市道路的道路事件检测需求急剧增加。目前，主要是利用视频流、音频、历史数据、雷达数据结合具有一定业务逻辑的方法来进行道路事件检测，不同的道路事件需要配置相应的业务逻辑，不具有通用性且不利于更新迭代。

发明内容

为解决上述技术问题，本申请的实施例提供了一种模型训练方法、道路事件检测方法、装置及相关设备。

在本申请的第一方面，提供了一种模型训练方法，包括：

获取训练数据，所述训练数据包括图像和图像中用于描述路况信息的描述文本；

利用所述训练数据训练神经网络模型，所述神经网络模型用于识别图像中道路区域，以及用于表征图像和用于描述路况信息的描述文本的对应关系。

在一种可能的实现方式中，所述神经网络模型包括图像分割模块和联合编码模块，所述图像分割模块的最后一层为掩码覆盖成，所述掩码覆盖层用于屏蔽图像中非道路区域，所述联合编码模块用于关联图像和用于描述路况信息的描述文本。

在一种可能的实现方式中，所述神经网络模型还包括图像编码模块、文本编码模块以及文本解码模块；

所述利用所述训练数据训练神经网络模型，包括：

将所述训练数据分别输入所述图像编码模块和所述文本编码模块，将所述图像编码模块的输出输入所述图像分割模块，将所述文本编码模块的输出和所述图像分割模块的输出均输入所述联合编码模块，将所述联合编码模块的输出输入所述文本解码模块，来训练所述神经网络模型。

在本申请的第二方面，提供了一种道路事件检测方法，包括：

获取待检测图像；

将所述待检测图像输入神经网络模型得到用于描述所述待检测图像中路况信息的描述文本；

其中，所述神经网络模型由权利要求1至3中任一项述的方法训练得到。

在一种可能的实现方式中，还包括：基于所述描述文本，在预设对照表中匹配对应所述描述文本的关键词；若匹配到所述关键词，则上报所述关键词和对应所述关键词的枚举值；其中，所述预设对照表包括所述关键词和所述枚举值的对应关系。

在一种可能的实现方式中，还包括：响应于所述关键词和/或所述枚举值，发出控制指令，所述控制指令用于使得系统进行抓拍或发出报警信息。

在本申请的第三方面，提供了一种模型训练装置，包括：

第一获取模块，用于获取训练数据，所述训练数据包括图像和图像中用于描述路况信息的描述文本；

模型训练模块，用于利用所述训练数据训练神经网络模型，所述神经网络模型用于识别图像中道路区域，以及用于表征图像和用于描述路况信息的描述文本的对应关系。

在本申请的第四方面，提供了一种道路事件检测装置，包括：

第二获取模块，用于获取待检测图像；

图像检测模块，用于将所述待检测图像输入神经网络模型得到所述待检测图像对应的描述文本；

其中，所述神经网络模型由权利要求7所述的装置训练得到。

在本申请的第五方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第二方面中任一项所述的方法。

在本申请的第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第二方面中任一项所述的方法。

在本申请实施例提供的模型训练方法、道路事件检测方法、装置及相关设备中，利用包括图像和图像中用于描述路况信息的描述文本训练得到神经网络模型，通过该神经网络模型来识别待检测图像进行道路事件检测，具有较好的通用性，在检测时只需要通过单张图片即可实现，能够极大地节省资源，并且该模型能够直接输出描述文本，更加便于理解。

应当理解，发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了适于用来实现本申请实施例的系统的架构图；

图2示出了根据本申请的实施例的模型训练方法的流程图；

图3示出了根据本申请的实施例的神经网络模型的结构图；

图4示出了根据本申请的实施例的道路事件检测方法的流程图；

图5示出了根据本申请的实施例的模型训练装置的方框图；

图6示出了根据本申请的实施例的道路事件检测装置的方框图；

图7示出了根据本申请的实施例的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

图1示出了适于用来实现本申请实施例的系统的架构图。参见图1，系统包括图像采集设备101和服务器102。图像采集设备101用于采集道路图像，在本申请实施例中，道路图像可以为仅包含道路区域的图像，也可以为即包含道路区域又包含非道路区域的图像。图像采集设备101将采集到的道路图像送至服务器102，服务器102有两个作用，其一是基于图像采集设备101所采集的道路图像来训练神经网络模型，其二是基于图像采集设备101采集的道路图像和训练完成的神经网络模型进行道路事件检测。需要说明的是，服务器102也可以采用预先存储的道路图像来进行神经网络模型的训练或道路事件的检测。

在一种可实现的方式中，图像采集设备101可以为安装在道路上的监控摄像头。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

图2示出了根据本申请的实施例的模型训练方法的流程图。在一些实施例中，该模型训练方法可以由图1中的服务器102来执行。参见图2，该方法包括以下步骤：

步骤201，获取训练数据。

在本申请实施例中，训练数据包括图像和图像中用于描述路况信息的描述文本。图像可以为不同场景、不同道路以及不同背景(即道路以外的区域)下的图像。路况信息用于反映路况和道路区域发生的事件，示例地，路况可以为拥堵、畅通，事件可以为路上存在动物。

在一种可实现的方式中，可以通过安装在道路上的监控摄像头来实时地拍摄图像作为训练数据，图像可以仅包括道路区域，也可以包括道路区域和非道路区域。在另一种可实现的方式中，可以通过获取历史图像作为训练数据。

在获取到图像之后，需要在图像中标注用于描述路况信息的描述文本。标注的方式可以采用人工标注，描述文本的语言类型可以为汉语，也可以为英语，其具体种类本申请不做限定。

在一种可实现的方式中，在对图像进行描述文本标注时，可以将描述文本标注于图像上，也可以将描述文本标注于图像之外(即图像与描述文本为两个文件)。

步骤202，利用训练数据训练神经网络模型。

其中，神经网络模型用于识别图像中道路区域，以及用于表征图像和用于描述路况信息的描述文本的对应关系。

参见图3，神经网络模型包括图像编码模块301、文本编码模块302、图像分割模块303、联合编码模块304以及文本解码模块305。

图像编码模块301用于对图像进行编码，文本编码模块302用于对描述文本进行编码。可选地，可以采用transformers技术来分别对图像和描述文本进行编码。采用此种方式，可以将图像和描述文本统一到同一个特征空间中，方便后续的关联和解码。

图像分割模块303用于将图像分割为道路区域和非道路区域，由于图像需要理解的内容太多，描述文本的表达能力不够强，也不够聚焦，因此，将图像分割模块303的最后一层设置为掩码覆盖层，以屏蔽图像中非道路区域。在一种可实现的方式中，可以将非道路区域的特征值置为0，这样在网络学习时，使得神经网络模型仅关注道路区域发生的时间，不受非道路区域的各种因素的影响，从而使得复杂多变的图像更加聚焦道路区域。

联合编码模块304用于关联图像和用于描述路况信息的描述文本。在一种可实现的方式中，可以采用transformers技术学习图像和描述文本之间的内在联系，获得图像和描述文本的统一语义表征。

文本解码模块305用于对编码后的描述文本进行解码，生成用于描述路况信息的描述文本。

在训练神经网络模型时，首先，需要将训练数据输入图像编码模块301和文本编码模块302，示例地，若描述文本标注于图像上，则分别将图像输入图像编码模块301和文本编码模块302；若描述文本标注于图像之外，则将图像输入图像编码模块301、将描述文本输入文本编码模块302。然后，将图像编码模块301的输出输入图像分割模块303，将文本编码模块302的输出和图像分割模块303的输出均输入联合编码模块304。最后，将联合编码模块304的输出输入文本解码模块305。需要说明的是，在训练时所选用的模型类型、损失函数，本申请实施例不进行限定，只要能实现上述各模块的功能即可。

在本申请实施中，利用包括图像和图像中用于描述路况信息的描述文本训练得到神经网络模型，通过该神经网络模型来识别待检测图像进行道路事件检测，具有较好的通用性，在检测时只需要通过单张图片即可实现，能够极大地节省资源，并且该模型能够直接输出描述文本，更加便于理解。

图4示出了根据本申请的实施例的道路事件检测方法的流程图。在一些实施例中，该道路事件检测方法可以由图1中的服务器102来执行。参见图4，该方法包括以下步骤：

步骤401，获取待检测图像。

需要说明的是，待检测图像的获取方式和训练数据中图像的获取方式相同，此处不再赘述。但值得注意的是，待检测图像可以为单张图片，其分辨率不做限定。

步骤402，将待检测图像输入神经网络模型得到用于描述待检测图像中路况信息的描述文本。

其中，神经网络模型由上述模型训练方法训练得到。

在一种可实现的方式中，在将待检测图像输入训练完成的神经网络模型中时，需要对图像进行解析，使其转换为神经网络模型能够处理的格式。

在本申请实施例中，通过训练完成的神经网络模型来识别图像中道路区域发生的事件，并输出用于描述路况信息的描述文本，不需要操作人员配置识别的规则，不需要调试相关参数，只需要将待检测图像输入神经网络模型即可直接得到相应结果，更加便捷，相比于配置不同的业务逻辑来识别相应的道路事件，更具有通用性。

在一些实施例中，在由神经网络模型识别出道路事件后，为进一步确认事件的真实性，可进行再一次的抓拍，来验证事件的真实性。为及时提醒相关人员处理该事件，可以向相关人员发出告警。

由于描述文本是不能穷举的，同时也是说明性语句，需要转换成计算机可以识别的语言，才能进行再一次的抓拍或发出告警。因此，可以基于描述文本，在预设对照表中匹配对应描述文本的关键词，若匹配到关键词，则将关键词和对应的枚举值上报。其中，预设对照表包括关键词和枚举值的对应关系。

示例地，预设对照表可以如下表1所示：

表1对照表

sentence	Key(关键词)	Value(枚举值)
			An easy road in the city	easy	0
A crowded highway	crowded	1
			A car accident on the road	accident	2
Congestion in some lanes on the highway	congestion	3
			Throwing objects on the road	Throwing objects	4
Animals on the road	animals	5
			A lot of water on the street	water	6
Construction on the road	construction	7
			Heavy vehicles in the street	Heavy vehicles	8
...	...	...

需要说明的是，描述文本在表1中匹配关键词的匹配方法，本申请实施例不做限定。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图5示出了根据本申请的实施例的模型训练装置的方框图。在一些实施例中，该装置可以被包括在图1中的服务器102中或者被实现为服务器102。

如图5所示，该装置包括：

第一获取模块501，用于获取训练数据，训练数据包括图像和图像中用于描述路况信息的描述文本。

模型训练模块502，用于利用训练数据训练神经网络模型，神经网络模型用于识别图像中道路区域，以及用于表征图像和用于描述路况信息的描述文本的对应关系。

在一些实施例中，神经网络模型包括图像分割模块和联合编码模块，图像分割模块的最后一层为掩码覆盖成，掩码覆盖层用于屏蔽图像中非道路区域，联合编码模块用于关联图像和用于描述路况信息的描述文本。

在一些实施例中，神经网络模型还包括图像编码模块、文本编码模块以及文本解码模块；模型训练模块502具体用于：将训练数据分别输入图像编码模块和文本编码模块，将图像编码模块的输出输入图像分割模块，将文本编码模块的输出和图像分割模块的输出均输入联合编码模块，将联合编码模块的输出输入文本解码模块，来训练神经网络模型。

图6示出了根据本申请的实施例的道路事件检测装置的方框图。在一些实施例中，该装置可以被包括在图1中的服务器102中或者被实现为服务器102。如图6所示，该装置包括：

第二获取模块601，用于获取待检测图像。

图像检测模块602，用于将待检测图像输入神经网络模型得到待检测图像对应的描述文本，其中，神经网络模型由上述的模型训练装置训练得到。

在一些实施例中，该装置还包括匹配模块，该匹配模块用于：基于描述文本，在预设对照表中匹配对应描述文本的关键词；若匹配到关键词，则上报关键词和对应关键词的枚举值。

其中，预设对照表包括关键词和枚举值的对应关系。

在一些实施例中，该装置还包括控制模块，该控制模块用于：响应于关键词和/或枚举值，发出控制指令，控制指令用于使得系统进行抓拍或发出报警信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例中提供了一种电子设备，如图7所示，图7所示的电子设备700包括：处理器701和存储器703。其中，处理器701和存储器703相连，如通过总线702相连。可选地，电子设备700还可以包括收发器704。需要说明的是，实际应用中收发器704不限于一个，该电子设备700的结构并不构成对本申请实施例的限定。

处理器701可以是CPU(Centra l Process i ng Un i t，中央处理器)，通用处理器，DSP(D i g i ta l S i gna l Processor，数据信号处理器)，AS I C(App l i cat ion Spec i f i c I ntegrated C i rcu i t，专用集成电路)，FPGA(F i e l dProgrammab l e Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器701也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线702可包括一通路，在上述组件之间传送信息。总线702可以是PC I(Per iphera l Component I nterconnect，外设部件互连标准)总线或E I SA(Extended Industry Standard Arch i tecture，扩展工业标准结构)总线等。总线702可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器703可以是ROM(Read On l y Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(E l ectr i ca l l y Erasabl e Programmab l e Read On l y Memory，电可擦可编程只读存储器)、CD-ROM(CompactD i sc Read On l y Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器703用于存储执行本申请方案的应用程序代码，并由处理器701来控制执行。处理器701用于执行存储器703中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括图像分割模块和联合编码模块，所述图像分割模块的最后一层为掩码覆盖成，所述掩码覆盖层用于屏蔽图像中非道路区域，所述联合编码模块用于关联图像和用于描述路况信息的描述文本。

3.根据权利要求2所述的方法，其特征在于，所述神经网络模型还包括图像编码模块、文本编码模块以及文本解码模块；

所述利用所述训练数据训练神经网络模型，包括：

4.一种道路事件检测方法，其特征在于，包括：

获取待检测图像；

其中，所述神经网络模型由权利要求1至3中任一项所述的方法训练得到。

5.根据权利要求4所述的方法，其特征在于，还包括：

基于所述描述文本，在预设对照表中匹配对应所述描述文本的关键词；

若匹配到所述关键词，则上报所述关键词和对应所述关键词的枚举值；

其中，所述预设对照表包括所述关键词和所述枚举值的对应关系。

6.根据权利要求5所述的方法，其特征在于，还包括：

响应于所述关键词和/或所述枚举值，发出控制指令，所述控制指令用于使得系统进行抓拍或发出报警信息。

7.一种模型训练装置，其特征在于，包括：

8.一种道路事件检测装置，其特征在于，包括：

第二获取模块，用于获取待检测图像；

其中，所述神经网络模型由权利要求7所述的装置训练得到。

9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。