CN113177603A - 分类模型的训练方法、视频分类方法及相关设备 - Google Patents

分类模型的训练方法、视频分类方法及相关设备 Download PDF

Info

Publication number
CN113177603A
CN113177603A CN202110517456.5A CN202110517456A CN113177603A CN 113177603 A CN113177603 A CN 113177603A CN 202110517456 A CN202110517456 A CN 202110517456A CN 113177603 A CN113177603 A CN 113177603A
Authority
CN
China
Prior art keywords
video frame
video
target
classification
target video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110517456.5A
Other languages
English (en)
Other versions
CN113177603B (zh
Inventor
张宁
刘林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Shanghai ICT Co Ltd
CM Intelligent Mobility Network Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Shanghai ICT Co Ltd
CM Intelligent Mobility Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Shanghai ICT Co Ltd, CM Intelligent Mobility Network Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110517456.5A priority Critical patent/CN113177603B/zh
Publication of CN113177603A publication Critical patent/CN113177603A/zh
Priority to PCT/CN2021/123284 priority patent/WO2022237065A1/zh
Application granted granted Critical
Publication of CN113177603B publication Critical patent/CN113177603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分类模型的训练方法、视频分类方法及相关设备,所述视频分类方法包括以下步骤:获取待分类视频;提取第三视频帧中的第二特征信息,并根据第二特征信息确定第三视频帧对应的权重值;对多个第三视频帧进行筛选,得到第二目标视频帧;将第二目标视频帧输入至目标分类模型中进行分类,得到分类结果。本发明实施例预先对待分类视频中的视频帧进行了筛选,输入至分类模型中的目标视频帧均为权重值大于等于第一预设阈值的视频帧,这样,剔除了待分类视频中的空白视频帧,确保上述目标视频帧不包括空白视频帧。分类模型无需对待分类视频中的空白视频帧进行相关计算,以此减少了分类模型的计算量,进而提高了视频分类的效率。

Description

分类模型的训练方法、视频分类方法及相关设备
技术领域
本发明实施例涉及视频处理技术领域,尤其涉及一种分类模型的训练方法、视频分类方法及相关设备。
背景技术
在大数据的环境下,视频的分类存储对于实现视频的管理以及兴趣推荐具有十分重要的作用。
目前,主要使用分类模型实现视频的分类,例如上述分类模型可以是支持向量机(support vector machine,SVM)。将训练集和待分类视频输入至分类模型中,分类模型依据训练集对待分类视频进行分类,输出分类结果,其中,上述训练集由携带有类别标签的多个已分类视频组成。
然而,待分类视频中可能包括空白视频帧,将包含有空白视频帧的待分类视频输入至分类模型中会导致分类模型进行无效计算,加大分类模型的计算量,进而导致视频分类效率较低。
发明内容
本发明实施例提供一种分类模型的训练方法、视频分类方法及相关设备,以解决因分类模型存在大量的无效计算,导致视频分类效率较低的技术问题。
为解决上述问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种分类模型的训练方法,由终端执行,所述方法包括:
获取训练集,其中,所述训练集包括多个第一目标视频帧和所述第一目标视频帧的标识信息;所述标识信息用于标识所述第一目标视频帧中所包括的图像特征,所述第一目标视频帧的权重值大于或等于第一预设阈值,且所述权重值与所述标识信息的数量相关;
通过所述训练集对初始分类模型进行训练,得到目标分类模型。
第二方面,本发明实施例还提供一种视频分类方法,由终端执行,所述方法包括:
获取待分类视频,所述待分类视频包括多个第三视频帧;
提取所述第三视频帧中的第二特征信息,并根据所述第二特征信息确定所述第三视频帧对应的权重值,所述第二特征信息用于表征所述第三视频帧中所包括的图像特征的数量;
对所述多个第三视频帧进行筛选,得到第二目标视频帧,所述第二目标视频帧的权重值大于或等于第一预设阈值;
将所述第二目标视频帧输入至目标分类模型中进行分类,得到分类结果,其中,所述分类结果包括用于识别所述第二目标视频帧所对应的图像特征的标识信息。
第三方面,本发明实施例还提供一种终端,包括:
第一收发器,用于获取训练集,其中,所述训练集包括多个第一目标视频帧和所述第一目标视频帧的标识信息;所述标识信息用于标识所述第一目标视频帧中所包括的图像特征,所述第一目标视频帧的权重值大于或等于第一预设阈值,且所述权重值与所述标识信息的数量相关;
训练模块,用于通过所述训练集对初始分类模型进行训练,得到目标分类模型。
第四方面,本发明实施例还提供一种终端,包括:
第二收发器,用于获取待分类视频,所述待分类视频包括多个第三视频帧;
提取模块,用于提取所述第三视频帧中的第二特征信息,并根据所述第二特征信息确定所述第三视频帧对应的权重值,所述第二特征信息用于表征所述第三视频帧中所包括的图像特征的数量;
筛选模块,用于对所述多个第三视频帧进行筛选,得到第二目标视频帧,所述第二目标视频帧的权重值大于或等于第一预设阈值;
分类模块,用于将所述第二目标视频帧输入至目标分类模型中进行分类,得到分类结果,其中,所述分类结果包括用于识别所述第二目标视频帧所对应的图像特征的标识信息。
第五方面,本发明实施例还提供一种设备,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如前述第一方面所述方法中的步骤;或者,所述处理器,用于读取存储器中的程序实现如前述第二方面所述方法中的步骤。
第六方面,本发明实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如前述第一方面所述方法中的步骤;或者,所述程序被处理器执行时实现如前述第二方面所述方法中的步骤。
本发明实施例中,提取待分类视频中所有视频帧的特征信息,并根据该特征信息确定每个视频帧对应的权重值;依据每个视频帧对应的权重值对待分类视频中的所有视频帧进行筛选,得到目标视频帧,将目标视频帧输入至训练完成的目标分类模型中进行分类,得到分类结果。本发明实施例预先对待分类视频中的所有视频帧进行了筛选,输入至分类模型中的目标视频帧均为权重值大于或等于第一预设阈值的视频帧,这样,剔除了待分类视频中的空白视频帧,确保上述目标视频帧不包括空白视频帧。也就是说,分类模型无需对待分类视频中的空白视频帧进行相关计算,以此减少了分类模型的计算量,进而提高了视频分类的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的分类模型的训练方法的流程示意图;
图2是本发明实施例提供的使用神经网络模型进行分析的应用场景示意图;
图3是本发明实施例提供的视频分类方法的流程示意图;
图4是本发明实施例提供的视频分类方法的应用场景示意图;
图5是本发明实施提供的终端的结构示意图;
图6是本发明实施提供的另一终端的结构示意图;
图7是本发明实施提供的设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中的术语“第一”、“第二”等是用于区别类似的图像特征,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,本申请中使用“和/或”表示所连接图像特征的至少其中之一,例如A和/或B和/或C,表示包含单独A,单独B,单独C,以及A和B都存在,B和C都存在,A和C都存在,以及A、B和C都存在的7种情况。
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
参见图1,图1是本发明实施例提供的分类模型的训练方法的流程示意图。图1所示的分类模型的训练方法可以由终端执行。
如图1所示,分类模型的训练方法可以包括以下步骤:
步骤101,获取训练集。
应理解,上述分类模型可以是SVM,或者其他分类模型。
上述训练集包括多个第一目标视频帧和第一目标视频帧的标识信息。
其中,可以将训练集中的视频帧称为第一目标视频帧,标识信息用于标识第一目标视频帧中所包括的图像特征,一帧第一目标视频帧对应的标识信息的数量可以是一个或多个。
图像特征包括以下至少一项:实体特征、行为特征、场景特征。
在训练集中的视频为交通场景视频的情况下,上述实体特征是指视频帧所显示的实体,可以将视频帧中显示的自行车、公交车、摩托车和行人等对象理解为实体。应理解,上述实体特征在不同的场景视频具有不同的定义,且上述实体特征也可以由用户自定义设置。
在训练集中的视频为交通场景视频的情况下,上述行为特征是指视频帧中的实体所对应的行为,例如,行人通过马路,公交车通过路口等。应理解,上述行为特征在不同的场景视频具有不同的定义,且上述行为特征也可以由用户自定义设置。
在训练集中的视频为交通场景视频的情况下,上述场景特征是指视频帧所显示的场景,例如,视频帧显示的场景为十字路口,视频帧显示的场景为高速公路等。应理解,上述场景特征也可以由用户自定义设置。
需要理解的是,第一目标视频帧的权重值大于或等于第一预设阈值,且权重值与标识信息的数量相关,对于一帧视频帧,该视频帧对应的标识信息的数量越多,则该视频帧对应的权重值越高。具体如何确定第一目标视频帧的权重值的方式,请参阅后续实施例。
本步骤中,获取训练集,其中,该训练集可以是终端依据视频文件生成的,也可以是终端接收其他电子设备发送的视频文件。
步骤102,通过所述训练集对初始分类模型进行训练,得到目标分类模型。
本步骤中,在得到训练集后,终端使用该训练集对初始分类模型进行迭代训练,得到训练完成的目标分类模型。
在分类模型为SVM的情况下,可以通过以下方式对SVM进行训练。
设置Scikit-Learn数据库作为SVM的数据库,基于网格搜索法以及迭代训练的方式,调整惩罚参数和核参数,得到多个网格排列的准确率图像,将具备最高准确率的图像对应的惩罚参数和核参数,作为SVM对应的惩罚参数和核参数,得到训练完成的SVM。
其中,惩罚参数可以用C表示,惩罚参数越大,说明越不能容忍分类结果出现误差,容易导致分类结果过拟合;惩罚参数越小,容易导致分类结果欠拟合。
其中,核参数是SVM中径向基函数(Radial Basis Function,RBF)的一个参数,核参数越大,表示支持向量越少;核参数越小,表示支持向量越多。支持向量的个数影响SVM训练与预测的速度。
应理解,在一些实施例中,分类模型也可以是除SVM之外的其他分类模型,或神经网络模型,或其他形式的模型。
应理解,在一些实施例中,也可以设置除Scikit-Learn之外的数据库作为SVM的数据库。
可选地,所述获取训练集,包括:
提取第一视频中的多个第一视频帧;确定所述第一视频帧对应的第一特征信息;确定与所述第一特征信息对应的权重值,并根据所述权重值对所述多个第一视频帧进行筛选,得到第二视频帧;将所述第二视频帧输入预设的神经网络模型进行分析,得到所述第一目标视频帧。
本实施例中,上述第一视频可以是第三方机构提供的视频,例如,在训练集中的视频为交通场景视频的情况下,第一视频可以是第三方机构提供的处于交通场景下的视频。第一视频中的视频帧可以理解为第一视频帧。
对第一视频帧进行特征识别,识别出第一视频中的各个图像特征,并生成各个图像特征对应的标识信息,以此得到第一特征信息。其中,第一特征信息用于表征第一视频帧中所包括的图像特征的数量。
本实施例中,可以利用网络模型,基于Rule-Based规则,对第一视频进行图像识别,识别出第一视频中的各个图像特征,并得到各个图像特征对应的标识信息,其中,可以基于Rule-Based规则预先设置图像特征与标识信息之间的映射关系。应理解,在一些实施例中,也可以使用其他工具,对第一视频进行图像识别,在此不做具体限定。
确定与第一特征信息对应的权重值,如上所述,权重值与标识信息的数量有关,具体的,如何确定第一特征信息对应的权重值的方式,请参阅后续实施例。
在得到多个第一视频帧对应的权重值后,根据权重值对多个第一视频帧进行筛选,得到第二视频帧,应理解,第二视频帧的权重值大于或等于第一预设阈值。换言之,将多个第一视频帧中权重值小于第一预设阈值的视频帧确定为无效视频帧,将多个第一视频帧中权重值大于或等于第一预设阈值的视频帧确定为有效视频帧,并删除多个第一视频帧中的无效视频帧,得到第二视频帧。其中,无效视频帧是指空白视频帧,即不包括图像特征的视频帧,或者,图像特征数量较少的视频帧;上述第一预设阈值的具体数值可以自定义设置,在此不做具体限定。
本实施例中,根据权重值对多个第一视频帧进行筛选,得到第二视频帧,以此删除多个第一视频帧中的无效视频帧,剔除了训练集中的无效数据,进而减少了分类模型在视频分类过程中的计算量,提高视频分类的效率。
在得到第二视频帧后,将第二视频帧输入至预设的神经网络模型中进行分析,得到第一目标视频帧,具体的技术方案,请参阅后续实施例。
可选地,所述确定与所述第一特征信息对应的权重值包括:
将所述第一特征信息与预设系数的乘积结果,确定为所述权重值。
如上所述,图像特征包括但不限于实体特征、行为特征和场景特征。
一种可选的实施方式为,上述预设系数包括与实体特征对应的第一系数、与行为特征对应的第二系数以及与场景特征对应的第三系数。
将第一数量值与第一系数的乘积结果,确定为第一数值;将第二数量值与第二系数的乘积结果,确定为第二数值;将第三数量值与第三系数的乘积结果,确定为第三数值;将上述第一数值、第二数值和第三数值的和值结果,确定为权重值。
其中,上述第一数量值用于表征实体特征的数量,上述第二数量值用于表征行为特征的数量,第三数量值用于表征场景特征的数量。
另一种可选的实施方式为,将第一特征信息表征的图像特征的数量与预设系数的乘积结果,确定为权重值。
可选地,所述将所述第二视频帧输入预设的神经网络模型进行分析,得到所述第一目标视频帧包括:
将所述第二视频帧输入预设的神经网络模型中,确定所述第二视频帧中每个图像特征对应的标识信息;获取对所述标识信息进行校验的校验结果;在所述校验结果指示所述标识信息与所标识的图像特征匹配的情况下,确定所述第二视频帧为所述第一目标视频帧。
本实施例中,将第二视频帧输入至神经网络模型中,确定第二视频帧中每个图像特征对应的标识信息。其中,该神经网络模型可以是卷积神经网络模型,或者是其他类型的神经网络模型,在此不做具体限定。
上述校验结果用于指示标识信息与该标识信息对应的图像特征是否匹配,其中,上述校验结果可以是人工根据图像特征生成的。
在校验结果指示的标识信息与所标识的图像特征匹配的情况下,表示该神经网络模型确定的标识信息与该标识信息对应的图像特征匹配,则向神经网络模型发送正反馈信号,以此控制神经网络模型将该标识信息对应的第二视频帧输出至训练集中存储。
在校验结果指示的标识信息与所标识的图像特征不匹配的情况下,表示该神经网络模型确定的标识信息与该标识信息对应的图像特征不匹配,则向神经网络模型发送负反馈信号,控制神经网络模型再次对该标识信息对应的第二视频帧进行图像识别。
为清楚阐述本实施例,以下结合图2对本实施例进行阐述。
如图2所示,先确定第一视频帧对应的第一特征信息和对应的权重值,即图2中的“rule-based交通场景结构化数据”,将第一视频帧中权重值小于0.5的视频帧删除,得到第二视频帧。
将第二视频帧输入至神经网络模型中,神经网络模型对第二视频帧进行图像识别,确定第二视频帧中每个图像特征对应的标识信息,图2中的机器学习即神经网络模型。
人工对图像特征对应的标识信息进行校验,并向神经网络模型发送正反馈信号或负反馈信号。例如,“公交车”这一图像特征对应的标识信息为“bus”,1个第二视频帧中包括“公交车”这一图像特征,若神经网络模型对该图像特征生成的标识信息为“bus”,在人工判定该标识信息与图像特征匹配后,向神经网络模型发送正反馈信号;若神经网络模型对该图像特征生成的标识信息不为“bus”,在人工判定该标识信息与图像特征不匹配后,向神经网络模型发送负反馈信号。
神经网络模型在接收到正反馈信号后,将该第二视频帧输出值训练集,即图2中的交通场景分类训练集;在接收到负反馈信号后,继续对该第二视频帧进行图像识别。其中,可以将神经网络模型对第二视频帧进行图像识别,以及接收正/负反馈信号的过程,称为图2中的“强化学习过程”。
参见图3,图3是本发明实施例提供的视频分类方法的流程示意图。图3所示的视频分类方法可以由终端执行。
应理解,在一些实施例中,应用视频分类方法的终端与应用上述分类模型的训练方法的终端可以为同一终端。
如图3所示,视频分类方法可以包括以下步骤:
步骤201,获取待分类视频。
本步骤中,上述待分类视频是对目标视频进行去重操作后的视频,其中,上述目标视频可以是与终端通信的其他设备发送的视频。具体的如何对目标视频进行去重操作的技术方案,请参阅后续实施例。
步骤202,提取第三视频帧中的第二特征信息,并根据所述第二特征信息确定所述第三视频帧对应的权重值。
本步骤中,可以将待分类视频中的视频帧,称为第三视频帧。可以使用网络模型提取第三视频帧中的特征信息,或者,使用其他方法提供第三视频帧中的特征信息,在此不做具体限定。
第三视频帧中的特征信息称为第二特征信息,其中,第二特征信息用于表征第三视频帧中所包括的图像特征的数量。
应理解,提取第三视频帧中的第二特征信息的方法,与上述确定第一视频帧对应的第一特征信息的方法一致,在此不做重复阐述。
本步骤中,在提取第三视频帧中的第二特征信息的过程中,会基于与确述第二视频帧中每个图像特征对应的标识信息相同的方式,生成每个图像特征对应的标识信息,这里,可以将第三视频帧中每个图像图像特征对应的标识信息称为标签。
应理解,根据第二特征信息确定第三视频帧对应的权重值的方法,与上述确定第一特征信息对应的权重值的方法一致,在此不做重复阐述。
步骤203,对所述多个第三视频帧进行筛选,得到第二目标视频帧。
本步骤中,删除第三视频帧中权重值小于第一预设阈值的视频帧,得到第二目标视频帧,容易理解的是,第二目标视频帧的权重值大于或等于第一预设阈值。可选地,可以将所有的第二目标视频帧称为测试集。
步骤204,将所述第二目标视频帧输入至目标分类模型中进行分类,得到分类结果。
上述目标分类模型即训练完成的分类模型,本步骤中,将第二目标视频帧输入至目标分类模型中进行分类,得到分类结果,其中分类结果包括识别第二目标视频帧所对应的图像特征的标识信息。
应理解,第二目标视频帧可能包括多个不同的图像特征,那么,第二目标视频帧也可以包括多个不同的标识信息。
本实施例预先对待分类视频中的视频帧进行了筛选,输入至分类模型中的目标视频帧均为权重值大于等于第一预设阈值的视频帧,这样,剔除了待分类视频中的空白视频帧,确保上述目标视频帧不包括空白视频帧。分类模型无需对待分类视频中的空白视频帧进行相关计算,以此减少了分类模型的计算量,进而提高了视频分类的效率。
以下,具体说明如何对目标视频进行去重操作:
可选地,所述获取待分类视频,包括:
基于目标视频中第四视频帧中每个像素点对应的像素值,生成所述第四视频帧对应的高斯分布曲线;基于所述高斯分布曲线的标准差和平均值,计算所述第四视频帧对应的相对熵;删除所述目标视频中的第五视频帧,得到所述待分类视频。
本实施例中,可以将目标视频的视频帧中除终止视频帧之外的任一视频帧称为第四视频帧,将第四视频帧以高斯分布曲线的形式展示。
一种可选的实施方式为,可以基于第四视频帧中每一像素点对应的像素值,生成第四视频帧对应的高斯分布曲线。
另一种可选的实施方式为,可以基于第四视频帧中每一像素点对应的灰度值,生成第四视频帧对应的高斯分布曲线。
本实施例中,可以利用以下公式,确定第i帧对应的相对熵:
Figure BDA0003062209840000111
其中,KL(pi,pi+1)表示第i帧对应的相对熵,
Figure BDA0003062209840000112
表示第i帧对应的高斯分布曲线的标准差,
Figure BDA0003062209840000113
表示第i+1帧对应的高斯分布曲线的标准差,
Figure BDA0003062209840000114
表示第i帧对应的高斯分布曲线的平均值,
Figure BDA0003062209840000115
表示第i+1帧对应的高斯分布曲线的平均值。
其中,上述第i帧为第四视频帧,上述相对熵又可称为KL散度。
本实施例中,设置有第二预设阈值,若一视频帧的相对熵大于第二预设阈值,表示该视频帧表征的内容可能与该视频帧的相邻视频帧表征的内容相同或者相似,则需要将该视频帧删除。可以将相对熵大于第二预设阈值的视频帧称为第五视频帧,将目标视频中的第五视频帧删除,得到取待分类视频。
本实施例中,得到目标视频中每个第四视频帧对应的高斯分布曲线,并基于高斯分布曲线的标准差和平均值,得到每个第四视频帧对应的相对熵,该相对熵用于表征对应的视频帧与相邻视频帧的相似度;将目标视频中相对熵高于第二预设阈值的视频帧删除,以此对目标视频进行去重操作,得到待分布视频。本实施例中,通过对目标视频进行了去重操作,删除了目标视频中相似程度较高的第四视频帧,减少了分类模型的计算量,进而提高了视频分类的效率。
可选地,在得到分类结果之后,所述方法包括:
基于所述标签和每个图像特征对应的分类结果,确定所述第二目标视频帧对应的指标值;在所述指标值大于第三预设阈值的情况下,将所述第二目标视频帧存储至训练集。
如上所述,可以将第三视频帧中每个图像特征对应的标识信息称为标签,由于第二目标视频帧是第三视频帧删除部分视频帧后得到的,因此第二目标视频帧中也包括多个标签,其中,该标签用于表征第二目标视频帧中图像特征的类别。
上述指标值用于表征分类模型的分类结果的准确性,在指标值大于第三预设阈值的情况下,表示该分类结果较为准确,这样,将第二目标视频帧存储至数据集,以此扩充训练集中的训练数据。
以下,结合表1,具体说明如何基于标签和分类结果,确定第二目标视频帧对应的指标值:
标签为P 标签为Q
分类模型判断为P A B
分类模型判断为Q C D
表1
应理解,表1所应用的场景为,第二目标视频帧中只包括2个图像特征的情况。
应理解,表1中的A和D均表示标签表征的类别与分类结果表征的类别相同的第二目标视频帧的数量,在标签表征的类别与分类结果表征的类别相同的情况下,表示分类模型的分类结果正确。
表1中的B和C均表示标签表征的类别与分类结果表征的类别不同的第二目标视频帧的数量,在标签表征的类别与分类结果表征的类别不同的情况下,表示分类模型的分类结果错误。
本实施例中,可以设置四个指标值,分别为精准率、正确率、召回率和评价值,可以使用以下公式计算上述四个指标值:
R1=(A+D)/N*100%
R2=A/(A+B)*100%
R3=A/(A+C)*100%
R4=2*R2*R3/(R2+R3)*100%
其中,A、B、C和D从表1得到,N表示第二目标视频帧的数量,即A+B+C+D=N;R1表示精准率,R2表示正确率,R3表示召回率,R4表示评价值。
本实施例中,可以设定第三预设阈值包括与精准率对应的第四数值,与正确率对应的第五数值,与召回率对应的第六数值以及与评价值对应的第七数值。
在精准率大于对应的第四数值,正确率大于对应的第五数值,召回率大于对应的第六数值以及评价值大于对应的第七数值的情况下,确定指标值大于第三预设阈值,将目标视频存储至训练集。
为便于理解,以下结合图4进行说明。
将第三方提供的交通场景数据作为交通场景数据集,应理解交通场景数据集即第一视频;确定第一视频帧对应的第一特征信息,并确定与第一特征信息对应的权重值,即对应图4中的“基于规则形成结构化数据”部分;根据权重值,对第一视频帧进行筛选,得到第二视频帧,并将第二视频帧输入至神经网络模型进行分析,得到第一目标视频帧,该第一目标视频帧为训练集中的视频帧,即对应图4中的“形成一套交通场景分类训练集”部分。
基于目标视频中第四视频帧对应的高斯分布曲线,对目标视频进行去重操作,得到待分类视频,即图4中的“视频分解成视频帧”部分;提取待分类视频中的第三视频帧对应的特征信息,对应图4中的“基于CNN提取视频帧的特征数据”部分;对多个第三视频帧进行筛选,得到第二目标视频帧,该第二目标视频帧为测试集中的视频帧,对应图4中的“基于规则形成结构化数据”部分。
使用训练集对SVM分类模型进行训练,在训练完成后,将测试集输入至SVM分类模型中,得到分类结果,并在通过评价指标度量后,即上述实施例中的指标值大于第三预设阈值的情况下,将测试集存储至交通场景数据集。
参见图5,图5是本发明实施例提供的终端的结构示意图。如图5所示,终端300包括:
第一收发器301,用于获取训练集;
训练模块302,用于通过所述训练集对初始分类模型进行训练,得到目标分类模型。
可选地,所述第一收发器301包括:
提取单元,用于提取第一视频中的多个第一视频帧;
确定单元,用于确定所述第一视频帧对应的第一特征信息;
筛选单元,用于确定与所述第一特征信息对应的权重值,并根据所述权重值对所述多个第一视频帧进行筛选,得到第二视频帧;
分析单元,用于将所述第二视频帧输入预设的神经网络模型进行分析,得到所述第一目标视频帧。
可选地,所述分析单元,还用于:
将所述第二视频帧输入预设的神经网络模型中,确定所述第二视频帧中每个图像特征对应的标识信息;
获取对所述标识信息进行校验的校验结果;
在所述校验结果指示所述标识信息与所标识的图像特征匹配的情况下,确定所述第二视频帧为所述第一目标视频帧。
可选地,所述确定单元,还用于:
将所述第一特征信息与预设系数的乘积结果,确定为所述权重值。
终端300能够实现本发明实施例中图1方法实施例的各个过程,以及达到相同的有益效果,为避免重复,这里不再赘述。
参见图5,图5是本发明实施例提供的另一终端的结构示意图。如图5所示,终端400包括:
第二收发器401,用于获取待分类视频;
提取模块402,用于提取第三视频帧中的第二特征信息,并根据所述第二特征信息确定所述第三视频帧对应的权重值;
筛选模块403,用于对所述多个第三视频帧进行筛选,得到第二目标视频帧;
分类模块404,用于将所述第二目标视频帧输入至目标分类模型中进行分类,得到分类结果。
可选地,所述第二收发器401,还用于:
基于目标视频中第四视频帧中每个像素点对应的像素值,生成所述第四视频帧对应的高斯分布曲线;
基于所述高斯分布曲线的标准差和平均值,计算所述第四视频帧对应的相对熵;
删除所述目标视频中的第五视频帧,得到所述待分类视频。
可选地,所述终端400还包括:
确定模块,用于基于标签和每个图像特征对应的分类结果,确定所述第二目标视频帧对应的指标值;
存储模块,用于在所述指标值大于第三预设阈值的情况下,将所述第二目标视频帧存储至训练集。
终端400能够实现本发明实施例中图3方法实施例的各个过程,以及达到相同的有益效果,为避免重复,这里不再赘述。
应理解,上述终端300和终端400可以为同一终端。
本发明实施例还提供一种设备。请参见图7,电子设备可以包括处理器501、存储器502及存储在存储器502上并可在处理器501上运行的程序5021。
在电子设备为终端的情况下,程序5021被处理器501执行时可实现图1和/或图3对应的方法实施例中的任意步骤及达到相同的有益效果,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成,所述的程序可以存储于一可读取介质中。
本发明实施例还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时可实现上述图1和/或图3对应的方法实施例中的任意步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
所述的存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
以上所述是本发明实施例的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (17)

1.一种分类模型的训练方法,其特征在于,由终端执行,所述方法包括:
获取训练集,其中,所述训练集包括多个第一目标视频帧和所述第一目标视频帧的标识信息;所述标识信息用于标识所述第一目标视频帧中所包括的图像特征,所述第一目标视频帧的权重值大于或等于第一预设阈值,且所述权重值与所述标识信息的数量相关;
通过所述训练集对初始分类模型进行训练,得到目标分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取训练集,包括:
提取第一视频中的多个第一视频帧;
确定所述第一视频帧对应的第一特征信息,其中,所述第一特征信息用于表征所述第一视频帧中所包括的图像特征的数量;
确定与所述第一特征信息对应的权重值,并根据所述权重值对所述多个第一视频帧进行筛选,得到第二视频帧,所述第二视频帧的权重值大于或等于所述第一预设阈值;
将所述第二视频帧输入预设的神经网络模型进行分析,得到所述第一目标视频帧。
3.根据权利要求2所述的方法,其特征在于,所述将所述第二视频帧输入预设的神经网络模型进行分析,得到所述第一目标视频帧包括:
将所述第二视频帧输入预设的神经网络模型中,确定所述第二视频帧中每个图像特征对应的标识信息;
获取对所述标识信息进行校验的校验结果;
在所述校验结果指示所述标识信息与所标识的图像特征匹配的情况下,确定所述第二视频帧为所述第一目标视频帧。
4.根据权利要求2所述的方法,其特征在于,所述确定与所述第一特征信息对应的权重值包括:
将所述第一特征信息与预设系数的乘积结果,确定为所述权重值。
5.根据权利要求4所述的方法,其特征在于,所述图像特征包括以下至少一项:实体特征、行为特征、场景特征。
6.一种视频分类方法,其特征在于,由终端执行,所述方法包括:
获取待分类视频,所述待分类视频包括多个第三视频帧;
提取所述第三视频帧中的第二特征信息,并根据所述第二特征信息确定所述第三视频帧对应的权重值,所述第二特征信息用于表征所述第三视频帧中所包括的图像特征的数量;
对所述多个第三视频帧进行筛选,得到第二目标视频帧,所述第二目标视频帧的权重值大于或等于第一预设阈值;
将所述第二目标视频帧输入至权利要求1至5中任一项所述的目标分类模型中进行分类,得到分类结果,其中,所述分类结果包括用于识别所述第二目标视频帧所对应的图像特征的标识信息。
7.根据权利要求6所述的方法,其特征在于,所述获取待分类视频,包括:
基于目标视频中第四视频帧中每个像素点对应的像素值,生成所述第四视频帧对应的高斯分布曲线,所述第四视频帧为所述目标视频的视频帧中除终止视频帧之外的任一视频帧;
基于所述高斯分布曲线的标准差和平均值,计算所述第四视频帧对应的相对熵;
删除所述目标视频中的第五视频帧,得到所述待分类视频,所述第五视频帧为相对熵大于第二预设阈值的视频帧。
8.根据权利要求6所述的方法,其特征在于,所述第二目标视频帧包括多个标签,所述标签用于表征所述第二目标视频帧中图像特征的类别;
在得到分类结果之后,所述方法包括:
基于所述标签和每个图像特征对应的分类结果,确定所述第二目标视频帧对应的指标值;
在所述指标值大于第三预设阈值的情况下,将所述第二目标视频帧存储至训练集,其中,所述训练集用于对初始分类模型进行训练。
9.一种终端,其特征在于,包括:
第一收发器,用于获取训练集,其中,所述训练集包括多个第一目标视频帧和所述第一目标视频帧的标识信息;所述标识信息用于标识所述第一目标视频帧中所包括的图像特征,所述第一目标视频帧的权重值大于或等于第一预设阈值,且所述权重值与所述标识信息的数量相关;
训练模块,用于通过所述训练集对初始分类模型进行训练,得到目标分类模型。
10.根据权利要求9所述的终端,其特征在于,所述第一收发器包括:
提取单元,用于提取第一视频中的多个第一视频帧;
确定单元,用于确定所述第一视频帧对应的第一特征信息,其中,所述第一特征信息用于表征所述第一视频帧中所包括的图像特征的数量;
筛选单元,用于确定与所述第一特征信息对应的权重值,并根据所述权重值对所述多个第一视频帧进行筛选,得到第二视频帧,所述第二视频帧的权重值大于或等于所述第一预设阈值;
分析单元,用于将所述第二视频帧输入预设的神经网络模型进行分析,得到所述第一目标视频帧。
11.根据权利要求10所述的终端,其特征在于,所述分析单元,还用于:
将所述第二视频帧输入预设的神经网络模型中,确定所述第二视频帧中每个图像特征对应的标识信息;
获取对所述标识信息进行校验的校验结果;
在所述校验结果指示所述标识信息与所标识的图像特征匹配的情况下,确定所述第二视频帧为所述第一目标视频帧。
12.根据权利要求10所述的终端,其特征在于,所述确定单元,还用于:
将所述第一特征信息与预设系数的乘积结果,确定为所述权重值。
13.一种终端,其特征在于,所述终端包括:
第二收发器,用于获取待分类视频,所述待分类视频包括多个第三视频帧;
提取模块,用于提取所述第三视频帧中的第二特征信息,并根据所述第二特征信息确定所述第三视频帧对应的权重值,所述第二特征信息用于表征所述第三视频帧中所包括的图像特征的数量;
筛选模块,用于对所述多个第三视频帧进行筛选,得到第二目标视频帧,所述第二目标视频帧的权重值大于或等于第一预设阈值;
分类模块,用于将所述第二目标视频帧输入至权利要求9至12中任一项所述的目标分类模型中进行分类,得到分类结果,其中,所述分类结果包括用于识别所述第二目标视频帧所对应的图像特征的标识信息。
14.根据权利要求13所述的终端,其特征在于,所述第二收发器,还用于:
基于目标视频中第四视频帧中每个像素点对应的像素值,生成所述第四视频帧对应的高斯分布曲线,所述第四视频帧为所述目标视频的视频帧中除终止视频帧之外的任一视频帧;
基于所述高斯分布曲线的标准差和平均值,计算所述第四视频帧对应的相对熵;
删除所述目标视频中的第五视频帧,得到所述待分类视频,所述第五视频帧为相对熵大于第二预设阈值的视频帧。
15.根据权利要求13所述的终端,其特征在于,所述终端还包括:
确定模块,用于基于标签和每个图像特征对应的分类结果,确定所述第二目标视频帧对应的指标值;
存储模块,用于在所述指标值大于第三预设阈值的情况下,将所述第二目标视频帧存储至训练集,其中,所述训练集用于对初始分类模型进行训练。
16.一种电子设备,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器,用于读取存储器中的程序实现如权利要求1至5中任一项所述的分类模型的训练方法中的步骤;或者,所述处理器,用于读取存储器中的程序实现如权利要求6至8中任一项所述的视频分类方法中的步骤。
17.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至5中任一项所述的分类模型的训练方法中的步骤;或者,所述程序被处理器执行时实现如权利要求6至8中任一项所述的视频分类方法中的步骤。
CN202110517456.5A 2021-05-12 2021-05-12 分类模型的训练方法、视频分类方法及相关设备 Active CN113177603B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110517456.5A CN113177603B (zh) 2021-05-12 2021-05-12 分类模型的训练方法、视频分类方法及相关设备
PCT/CN2021/123284 WO2022237065A1 (zh) 2021-05-12 2021-10-12 分类模型的训练方法、视频分类方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110517456.5A CN113177603B (zh) 2021-05-12 2021-05-12 分类模型的训练方法、视频分类方法及相关设备

Publications (2)

Publication Number Publication Date
CN113177603A true CN113177603A (zh) 2021-07-27
CN113177603B CN113177603B (zh) 2022-05-06

Family

ID=76929900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110517456.5A Active CN113177603B (zh) 2021-05-12 2021-05-12 分类模型的训练方法、视频分类方法及相关设备

Country Status (2)

Country Link
CN (1) CN113177603B (zh)
WO (1) WO2022237065A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022237065A1 (zh) * 2021-05-12 2022-11-17 中移智行网络科技有限公司 分类模型的训练方法、视频分类方法及相关设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778237A (zh) * 2014-01-27 2014-05-07 北京邮电大学 一种基于活动事件时空重组的视频摘要生成方法
US20170201793A1 (en) * 2008-06-18 2017-07-13 Gracenote, Inc. TV Content Segmentation, Categorization and Identification and Time-Aligned Applications
CN107273782A (zh) * 2016-04-08 2017-10-20 微软技术许可有限责任公司 使用递归神经网络的在线动作检测
CN108615358A (zh) * 2018-05-02 2018-10-02 安徽大学 一种道路拥堵检测方法及装置
CN109815873A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 基于图像识别的商品展示方法、装置、设备及介质
CN109829432A (zh) * 2019-01-31 2019-05-31 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN110149531A (zh) * 2019-06-17 2019-08-20 北京影谱科技股份有限公司 一种识别视频数据中视频场景的方法和装置
CN110858290A (zh) * 2018-08-24 2020-03-03 比亚迪股份有限公司 驾驶员异常行为识别方法、装置、设备及存储介质
CN110991373A (zh) * 2019-12-09 2020-04-10 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及介质
CN111027507A (zh) * 2019-12-20 2020-04-17 中国建设银行股份有限公司 基于视频数据识别的训练数据集生成方法及装置
CN111626251A (zh) * 2020-06-02 2020-09-04 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置及电子设备
CN111626922A (zh) * 2020-05-11 2020-09-04 北京字节跳动网络技术有限公司 图片生成方法、装置、电子设备及计算机可读存储介质
CN111666898A (zh) * 2020-06-09 2020-09-15 北京字节跳动网络技术有限公司 用于识别车辆所属类别的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177603B (zh) * 2021-05-12 2022-05-06 中移智行网络科技有限公司 分类模型的训练方法、视频分类方法及相关设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170201793A1 (en) * 2008-06-18 2017-07-13 Gracenote, Inc. TV Content Segmentation, Categorization and Identification and Time-Aligned Applications
CN103778237A (zh) * 2014-01-27 2014-05-07 北京邮电大学 一种基于活动事件时空重组的视频摘要生成方法
CN107273782A (zh) * 2016-04-08 2017-10-20 微软技术许可有限责任公司 使用递归神经网络的在线动作检测
CN108615358A (zh) * 2018-05-02 2018-10-02 安徽大学 一种道路拥堵检测方法及装置
CN110858290A (zh) * 2018-08-24 2020-03-03 比亚迪股份有限公司 驾驶员异常行为识别方法、装置、设备及存储介质
CN109815873A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 基于图像识别的商品展示方法、装置、设备及介质
CN109829432A (zh) * 2019-01-31 2019-05-31 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN110149531A (zh) * 2019-06-17 2019-08-20 北京影谱科技股份有限公司 一种识别视频数据中视频场景的方法和装置
CN110991373A (zh) * 2019-12-09 2020-04-10 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及介质
CN111027507A (zh) * 2019-12-20 2020-04-17 中国建设银行股份有限公司 基于视频数据识别的训练数据集生成方法及装置
CN111626922A (zh) * 2020-05-11 2020-09-04 北京字节跳动网络技术有限公司 图片生成方法、装置、电子设备及计算机可读存储介质
CN111626251A (zh) * 2020-06-02 2020-09-04 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置及电子设备
CN111666898A (zh) * 2020-06-09 2020-09-15 北京字节跳动网络技术有限公司 用于识别车辆所属类别的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022237065A1 (zh) * 2021-05-12 2022-11-17 中移智行网络科技有限公司 分类模型的训练方法、视频分类方法及相关设备

Also Published As

Publication number Publication date
WO2022237065A1 (zh) 2022-11-17
CN113177603B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN107341716B (zh) 一种恶意订单识别的方法、装置及电子设备
US7783581B2 (en) Data learning system for identifying, learning apparatus, identifying apparatus and learning method
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
WO2019051941A1 (zh) 车型识别方法、装置、设备及计算机可读存储介质
CN112258093A (zh) 风险等级的数据处理方法及装置、存储介质、电子设备
CN110689043A (zh) 一种基于多重注意力机制的车辆细粒度识别方法及装置
CN110909784B (zh) 一种图像识别模型的训练方法、装置及电子设备
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN115761900A (zh) 用于实训基地管理的物联网云平台
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN113177603B (zh) 分类模型的训练方法、视频分类方法及相关设备
CN114861842A (zh) 少样本目标检测方法、装置和电子设备
CN114168768A (zh) 图像检索方法及相关设备
CN107533672A (zh) 模式识别装置、模式识别方法以及程序
CN111967383A (zh) 年龄估计方法、年龄估计模型的训练方法和装置
CN116935057A (zh) 目标评价方法、电子设备和计算机可读存储介质
CN116682141A (zh) 基于多尺度递进式感知的多标签行人属性识别方法及介质
CN116956171A (zh) 基于ai模型的分类方法、装置、设备及存储介质
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN111159397B (zh) 文本分类方法和装置、服务器
CN112418098A (zh) 视频结构化模型的训练方法及相关设备
CN113033170A (zh) 表格标准化处理方法、装置、设备及存储介质
CN111984812A (zh) 一种特征提取模型生成方法、图像检索方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant