CN112654999B - 标注信息的确定方法及装置 - Google Patents
标注信息的确定方法及装置 Download PDFInfo
- Publication number
- CN112654999B CN112654999B CN202080004848.5A CN202080004848A CN112654999B CN 112654999 B CN112654999 B CN 112654999B CN 202080004848 A CN202080004848 A CN 202080004848A CN 112654999 B CN112654999 B CN 112654999B
- Authority
- CN
- China
- Prior art keywords
- information
- detection
- cluster
- labeling
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种标注信息的确定方法及装置。可用于辅助驾驶和自动驾驶。所述方法包括:获取检测模型集合;所述检测模型集合包括至少两个检测模型,所述检测模型集合中至少两个检测模型对应同一检测类别;使用所述检测模型集合对待标注图像进行标注,得到第一标注信息集合。通过该方法,可以获取检测模型集合,该检测模型集合包括至少两个检测模型,且该检测模型集合中至少两个检测模型对应同一检测类别,使用该检测模型集合对待标注图像标注后,可以得到精确度更高的标注信息,后续根据该标注信息确定用于标注检测目标的矩形标注框的话,得到的矩形标注框与实际位置对应的矩形标注框之间,在像素级别上,误差明显减小,适用性较好。
Description
技术领域
本申请涉及自动驾驶技术领域,尤其涉及一种标注信息的确定方法及装置。
背景技术
在自动驾驶领域中,通常需要在车辆所处行驶环境的图像中,标注出各种各样的检测目标,例如车辆、行人等。
现有技术中,通常会利用矩形标注框在图像中对检测目标进行标注,即在图像中用矩形标注框将检测目标标出。具体的,可以使用检测模型对图像中的检测目标进行标注,得到检测目标的标注信息,根据标注信息在图像中用矩形标注框将检测目标标出。不过,使用现有的检测模型对图像中的检测目标进行标注后,得到的标注信息的精确度较低,后续根据该标注信息确定用于标注检测目标的矩形标注框时,确定的矩形标注框与检测目标的实际位置对应的矩形标注框会存在较大误差。
发明内容
本申请提供了一种标注信息的确定方法及装置,以解决标注信息精确度较低的问题。
第一方面,本申请提供了一种标注信息的确定方法,该方法包括:获取检测模型集合;所述检测模型集合包括至少两个检测模型,所述检测模型集合中至少两个检测模型对应同一检测类别;使用所述检测模型集合对待标注图像进行标注,得到第一标注信息集合。
本实现方式中,首先获取检测模型集合,该检测模型集合包括至少两个检测模型,且该检测模型集合中至少两个检测模型对应同一检测类别,然后使用该检测模型集合对待标注图像标注,得到第一标注信息集合。也就是说,通过本实现方式确定标注信息时,不是采用单一检测模型对待标注图像进行标注,而是使用多个检测模型对待标注图像进行标注,这多个检测模型可以对应多个检测类别,也可以对应同一个检测类别:对于多个检测类别的话,可以针对每一个检测类别,获取对该检测类别的检测目标更加友好的检测模型,检测精确度更高,可以得到更加精确的标注信息;多个检测模型对应同一个检测类别时,对于同一个检测目标,可以得到多个标注信息,后续根据这多个标注信息确定的实际标注信息也更加准确。所以,采用本实现方式的方法,可以得到精确度更高的标注信息,后续根据该标注信息确定用于标注检测目标的矩形标注框的话,得到的矩形标注框与实际位置对应的矩形标注框之间,在像素级别上,误差明显减小,基本可以忽略,适用性较好。
结合第一方面,在第一方面第一种可能的实现方式中,所述方法包括:所述待标注图像包括至少一个第一检测目标;所述第一标注信息集合包括至少一个第一标注信息;所述第一标注信息对应所述第一检测目标的标注信息;所述第一标注信息包括第一位置信息和第一类别信息;对所述第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇;所述第一聚类簇对应所述第一检测目标;根据所述第一聚类簇包括的至少一个第一标注信息,生成该第一聚类簇对应第一检测目标的第二标注信息;所述第二标注信息包括第二位置信息和第二类别信息。
本实现方式中,通过对检测类别相同的第一标注信息的聚类融合,得到至少一个聚类簇,对于每一个聚类簇,可以根据多个第一标注信息包含的第一位置信息和第一类别信息确定出相应第一检测目标的第二标注信息,得到的第二标注信息融合了多个第一位置信息和第一类别信息,精确度更高,后续根据该第二标注信息生成的矩形标注框与实际位置和实际类别对应的矩形标注框的误差更小,基本接近无误差,适用性更好。
结合第一方面,在第一方面第二种可能的实现方式中,所述根据所述第一聚类簇包括的至少一个第一标注信息,生成该第一聚类簇对应第一检测目标的第二标注信息,包括:根据所述第一聚类簇包括的第一标注信息中的第一位置信息,生成该第一聚类簇对应第一检测目标的第二位置信息;根据所述第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息。
本实现方式中,可以根据多个第一位置信息确定出相应第一检测目标的第二位置信息,并且,可以根据多个第一类别信息确定出相应第一检测目标的第二类别信息,对于每一个检测目标来说,其对应的第二位置信息融合了多个第一位置信息,其对应的第二类别信息融合了多个第一类别信息,精确度更高。
结合第一方面,在第一方面第三种可能的实现方式中,所述根据所述第一聚类簇包括的第一标注信息中的第一位置信息,生成该第一聚类簇对应第一检测目标的第二位置信息,包括:对所述第一聚类簇包括的第一标注信息中的第一位置信息进行均值计算,生成该第一聚类簇对应第一检测目标的第二位置信息。
本实现方式中,每一个第一检测目标的第二位置信息都是根据多个第一位置信息进行均值计算得到,第一检测目标的位置信息更加准确,精确度更高。
结合第一方面,在第一方面第四种可能的实现方式中,所述根据所述第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息,包括:确定所述第一聚类簇包括的第一标注信息的第一数量;若所述第一数量大于等于预设数量阈值,确定该第一聚类簇包括的第一标注信息中的第一类别信息为该第一聚类簇对应第一检测目标的第二类别信息。
本实现方式中,通过对每一个聚类簇包括的第一标注信息的数量与预设数量阈值的比较,确定该聚类簇对应的第一类别信息是否准确,当第一标注信息的数量大于预设数量阈值时,认为第一类别信息较为准确,较为可靠,可以将第一类别信息确定为该聚类簇对应第一检测目标的第二类别信息,使得第一检测目标的类别信息更加准确可靠,精确度更高。
结合第一方面,在第一方面第五种可能的实现方式中,所述根据所述第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息,包括:确定所述第一聚类簇包括的第一标注信息的第一数量;若所述第一数量小于预设数量阈值,获取该第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型;根据该第一聚类簇对应第一检测目标的第二位置信息和所述第一分类模型确定该第一聚类簇对应第一检测目标的第二类别信息。
本实现方式中,通过对每一个聚类簇包括的第一标注信息的数量与预设数量阈值的比较,确定该聚类簇对应的第一类别信息是否准确,当第一标注信息的数量小于等于预设数量阈值时,认为该聚类簇对应的第一类别信息不准确,使用分类模型重新确定该第一聚类簇对应第一检测目标的类别信息,使得第一检测目标的类别信息更加准确可靠,精确度更高。
结合第一方面,在第一方面第六种可能的实现方式中,所述对所述第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇,包括:获取所述第一标注信息集合中类别相同的任意两个第一标注信息对应的矩形标注框交并比;根据所述矩形标注框交并比对所述第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇。
本实现方式中,在对类别相同的第一标注信息进行聚类时,使用矩形标注框的交并比作为聚类时使用的距离度量,聚类处理的精确度较高,适用性较好。
结合第一方面,在第一方面第七种可能的实现方式中,所述检测模型集合为预先设置。
本实现方式中,检测模型集合预先设置于终端设备中,获取检测模型集合时,直接从终端设备中获取即可,检测模型集合的获取过程更加简单。
结合第一方面,在第一方面第八种可能的实现方式中,所述方法还包括:获取分类模型集合;所述分类模型集合包括至少两个分类模型;所述分类模型集合中至少两个分类模型对应同一检测类别;所述至少两个分类模型包括所述第一分类模型。
本实现方式中,分类模型集合包括至少两个分类模型,且至少两个分类模型对应同一检测类别,也就是说,该分类模型集合包括多个分类模型,这多个分类模型可以对应多个检测类别,也可以对应同一个检测类别,使用该分类模型集合进行分类处理时,对于多个检测类别的话,可以针对每一个检测类别,获取对该检测类别的检测目标更加友好的分类模型,分类处理的精确度更高,可以得到更加精确的分类结果,多个分类模型对应同一个检测类别时,对于同一个检测目标,可以得到多个分类处理结果,后续根据这多个分类处理结果确定的实际分类结果也更加准确,适用性更好。
第二方面,本申请提供了一种标注信息的确定装置,该装置包括:获取模块,用于获取检测模型集合;所述检测模型集合包括至少两个检测模型,所述检测模型集合中至少两个检测模型对应同一检测类别;处理模块,用于使用所述检测模型集合对待标注图像进行标注,得到第一标注信息集合。
本实现方式的装置,可以首先获取检测模型集合,该检测模型集合包括至少两个检测模型,且该检测模型集合中至少两个检测模型对应同一检测类别,然后使用该检测模型集合对待标注图像标注,得到第一标注信息集合。也就是说,使用该装置确定标注信息时,不是采用单一检测模型对待标注图像进行标注,而是使用多个检测模型对待标注图像进行标注,这多个检测模型可以对应多个检测类别,也可以对应同一个检测类别,对于多个检测类别的话,可以针对每一个检测类别,获取对该检测类别的检测目标更加友好的检测模型,检测精确度更高,可以得到更加精确的标注信息,多个检测模型对应同一个检测类别时,对于同一个检测目标,可以得到多个标注信息,后续根据这多个标注信息确定的实际标注信息也更加准确。所以,采用该装置,可以得到精确度更高的标注信息,后续根据该标注信息确定用于标注检测目标的矩形标注框的话,得到的矩形标注框与实际位置对应的矩形标注框之间,在像素级别上,误差明显减小,基本可以忽略,适用性较好。
结合第二方面,在第二方面第一种可能的实现方式中,所述待标注图像包括至少一个第一检测目标;所述第一标注信息集合包括至少一个第一标注信息;所述第一标注信息对应所述第一检测目标的标注信息;所述第一标注信息包括第一位置信息和第一类别信息;所述处理模块还用于:对所述第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇;所述第一聚类簇对应所述第一检测目标;根据所述第一聚类簇包括的至少一个第一标注信息,生成该第一聚类簇对应第一检测目标的第二标注信息;所述第二标注信息包括第二位置信息和第二类别信息。
本实现方式的装置,可以通过对检测类别相同的第一标注信息的聚类融合,得到至少一个聚类簇,对于每一个聚类簇,可以根据多个第一标注信息包含的第一位置信息和第一类别信息确定出相应第一检测目标的第二标注信息,得到的第二标注信息融合了多个第一位置信息和第一类别信息,精确度更高,后续根据该第二标注信息生成的矩形标注框与实际位置和实际类别对应的矩形标注框的误差更小,基本接近无误差,适用性更好。
结合第二方面,在第二方面第二种可能的实现方式中,所述处理模块具体用于:根据所述第一聚类簇包括的第一标注信息中的第一位置信息,生成该第一聚类簇对应第一检测目标的第二位置信息;根据所述第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息。
本实现方式的装置,可以根据多个第一位置信息确定出相应第一检测目标的第二位置信息,并且,可以根据多个第一类别信息确定出相应第一检测目标的第二类别信息,对于每一个检测目标来说,其对应的第二位置信息融合了多个第一位置信息,其对应的第二类别信息融合了多个第一类别信息,精确度更高。
结合第二方面,在第二方面第三种可能的实现方式中,所述处理模块具体用于:对所述第一聚类簇包括的第一标注信息中的第一位置信息进行均值计算,生成该第一聚类簇对应第一检测目标的第二位置信息。
使用本实现方式的装置得到的每一个第一检测目标的第二位置信息,都是根据多个第一位置信息进行均值计算得到,第一检测目标的位置信息更加准确,精确度更高。
结合第二方面,在第二方面第四种可能的实现方式中,所述处理模块具体用于:确定所述第一聚类簇包括的第一标注信息的第一数量;若所述第一数量大于等于预设数量阈值,确定该第一聚类簇包括的第一标注信息中的第一类别信息为该第一聚类簇对应第一检测目标的第二类别信息。
本实现方式的装置,可以通过对每一个聚类簇包括的第一标注信息的数量与预设数量阈值的比较,确定该聚类簇对应的第一类别信息是否准确,当第一标注信息的数量大于预设数量阈值时,认为第一类别信息较为准确,较为可靠,可以将第一类别信息确定为该聚类簇对应第一检测目标的第二类别信息,使得第一检测目标的类别信息更加准确可靠,精确度更高。
结合第二方面,在第二方面第五种可能的实现方式中,所述处理模块具体用于:确定所述第一聚类簇包括的第一标注信息的第一数量;若所述第一数量小于预设数量阈值,获取该第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型;根据该第一聚类簇对应第一检测目标的第二位置信息和所述第一分类模型确定该第一聚类簇对应第一检测目标的第二类别信息。
本实现方式的装置,可以通过对每一个聚类簇包括的第一标注信息的数量与预设数量阈值的比较,确定该聚类簇对应的第一类别信息是否准确,当第一标注信息的数量小于等于预设数量阈值时,认为该聚类簇对应的第一类别信息不准确,使用分类模型重新确定该第一聚类簇对应第一检测目标的类别信息,使得第一检测目标的类别信息更加准确可靠,精确度更高。
结合第二方面,在第二方面第六种可能的实现方式中,所述处理模块具体用于:获取所述第一标注信息集合中类别相同的任意两个第一标注信息对应的矩形标注框交并比;根据所述矩形标注框交并比对所述第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇。
本实现方式的装置,在对类别相同的第一标注信息进行聚类时,使用矩形标注框的交并比作为聚类时使用的距离度量,聚类处理的精确度较高,适用性较好。
结合第二方面,在第二方面第七种可能的实现方式中,所述检测模型集合为预先设置。
本实现方式的装置中预先设置有检测模型集合,获取检测模型集合时,直接读取即可,检测模型集合的获取过程更加简单。
结合第二方面,在第二方面第八种可能的实现方式中,所述获取模块还用于:获取分类模型集合;所述分类模型集合包括至少两个分类模型;所述分类模型集合中至少两个分类模型对应同一检测类别;所述至少两个分类模型包括所述第一分类模型。
使用本实现方式的装置时,分类模型集合包括至少两个分类模型,且至少两个分类模型对应同一检测类别,也就是说,该分类模型集合包括多个分类模型,这多个分类模型可以对应多个检测类别,也可以对应同一个检测类别,使用该分类模型集合进行分类处理时,对于多个检测类别的话,可以针对每一个检测类别,获取对该检测类别的检测目标更加友好的分类模型,分类处理的精确度更高,可以得到更加精确的分类结果,多个分类模型对应同一个检测类别时,对于同一个检测目标,可以得到多个分类处理结果,后续根据这多个分类处理结果确定的实际分类结果也更加准确,适用性更好。
第三方面,本申请实施例提供一种装置,所述装置包括至少一个处理器,当所述至少一个处理器执行至少一个存储器中的计算机程序或指令时,如第一方面所述的方法被执行。
第四方面,本申请实施例提供一种装置,所述装置包括至少一个处理器和至少一个存储器,所述至少一个存储器用于存储计算机程序或指令;所述至少一个处理器用于执行所述至少一个存储器所存储的计算机程序或指令,以使所述装置执行如第一方面中所示的相应的方法。
第五方面,本申请实施例提供一种装置,所述装置包括至少一个处理器、至少一个存储器和至少一个收发器;所述至少一个收发器,用于接收信号或者发送信号;所述至少一个存储器,用于存储计算机程序或指令;所述至少一个处理器,用于从所述至少一个存储器调用所述计算机程序或指令执行如第一方面所述的方法。
第六方面,本申请实施例提供一种装置,所述装置包括至少一个处理器和至少一个接口电路;所述至少一个接口电路,用于接收计算机程序或指令并传输至所述至少一个处理器;所述至少一个处理器运行所述计算机程序或指令以执行如第一方面所示的相应的方法。
第七方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质用于存储计算机程序或指令,当所述计算机程序或指令被执行时,使得第一方面所述的方法被实现。
第八方面,本申请实施例提供一种包括计算机程序或指令的计算机程序产品,当所述计算机程序或指令被执行时,使得第一方面所述的方法被实现。
第九方面,本申请实施例提供一种终端设备,该终端设备可以为运输工具或者智能设备,包含无人机、无人运输车、汽车或者机器人等,该运输工具或者智能设备包括上述标注信息的确定装置和/或装置。
为解决标注信息精确度较低的问题,本申请提供了一种标注信息的确定方法及装置。该方法中,首先获取检测模型集合,该检测模型集合包括至少两个检测模型,且该检测模型集合中至少两个检测模型对应同一检测类别,然后使用该检测模型集合对待标注图像标注,得到第一标注信息集合。也就是说,通过该方法确定标注信息时,不是采用单一检测模型对待标注图像进行标注,而是使用多个检测模型对待标注图像进行标注,这多个检测模型可以对应多个检测类别,也可以对应同一个检测类别,对于多个检测类别的话,可以针对每一个检测类别,获取对该检测类别的检测目标更加友好的检测模型,检测精确度更高,可以得到更加精确的标注信息,多个检测模型对应同一个检测类别时,对于同一个检测目标,可以得到多个标注信息,后续根据这多个标注信息确定的实际标注信息也更加准确。所以,采用该方法,可以得到精确度更高的标注信息,后续根据该标注信息确定用于标注检测目标的矩形标注框的话,得到的矩形标注框与实际位置对应的矩形标注框之间,在像素级别上,误差明显减小,基本可以忽略,适用性较好。
附图说明
图1为本申请提供的一种应用场景示意图;
图2为本申请提供的标注信息的确定方法的一种实施方式的流程示意图;
图3为本申请提供的标注信息的确定装置的一种实施方式的结构框图;
图4为本申请提供的芯片系统的一种实施方式的结构框图。
具体实施方式
下面结合附图,对本申请的技术方案进行描述。
在本申请的描述中,除非另有说明,“/”表示“或”的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。此外,“至少一个”是指一个或多个,“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
为了便于理解本申请的技术方案,下面先对本申请提供的技术方案的应用场景进行示例性说明。
在自动驾驶领域中,通常需要在车辆所处行驶环境的图像中,标注出各种各样的检测目标,例如,检测目标可以包括车辆和/或行人等。
目前常用的标注方法中,通常通过检测模型对车辆所处行驶环境的图像进行标注,得到标注信息,然后根据标注信息在图像中通过矩形标注框将检测目标标出。例如,如图1所示,在图1所示的图像中,通过矩形标注框将检测目标汽车(car)标出。
不过,由于使用现有的检测模型对图像中的检测目标进行标注后,得到的标注信息精确度较低,图像中显示的矩形标注框与检测目标的实际位置对应的矩形标注框之间存在较大误差,在一些应用场景中,误差可能高达几十个像素,适用性较差。
例如,图1所示的图像中,矩形标注框1为根据标注信息确定的矩形标注框,矩形标注框2为汽车的实际位置对应的矩形标注框,如图1所示,矩形标注框1和矩形标注框2之间存在较大的误差。
为了解决上述技术问题,本申请实施例提供了如下技术方案,其具体内容可参见下文。
本申请的技术方案可以应用于终端设备。本申请的终端设备可以是静止的,也可以是移动的。终端设备可以包括通信终端、车载设备、移动设备、用户终端、无线通信设备、便携式终端、用户代理、服务设备或用户设备(user equipment,UE)等计算机网络中处于网络最外围的设备,主要用于数据的输入以及处理结果的输出或显示等,也可以是安装于或运行于上述任意一个设备上的软件客户端、应用程序等。例如,终端设备可以是平板设备、具备无线通信功能的手持设备、计算设备、无人机、无人运输车、车载通信模块等。
下面对本申请提供的标注信息的确定方法的实施例进行说明。
参见图2,图2为本申请提供的标注信息的确定方法的一种实施方式的流程示意图,该方法可以包括以下步骤:
步骤S101、获取检测模型集合。
其中,检测模型集合包括至少两个检测模型,所述检测模型集合中至少两个检测模型对应同一检测类别。
在对待标注图像中的检测目标进行标注之前,可以将需要标注的检测目标划分为一个或多个检测类别。例如,检测类别可以包括以下至少一个:行人(pedestrian)、汽车(car)、有轨电车(tram)、摩托车(motorcycle)。检测类别还可以为其他的类别,这里不做限定。
一种可能的实现方式中,可以通过模型训练,训练生成检测模型集合包括的检测模型。例如:
可选的,当只需要对一个检测类别的检测目标进行标注时,可以针对该检测类别,训练生成至少两个检测效果不同的检测模型。一种可能的实现方式中,该至少两个检测效果不同的检测模型可以基于不同的检测算法训练得到,也就是说,一个检测模型对应一个检测算法,不同的检测模型对应的检测算法不同。另一种可能的实现方式中,该至少两个检测效果不同的检测模型还可以基于同一个检测算法训练得到,但是在训练不同的检测模型时,检测算法对应的训练参数不同。此种方式中,检测模型集合包括至少两个检测模型,且检测模型集合包括的全部检测模型对应同一个检测类别,即检测模型集合包括的全部检测模型用于检测同一个检测类别的检测目标。
示例性的,检测算法可以包括以下至少一个:基于预选区域的更快速卷积神经网络(faster region-based convolutional neural network,Faster-RCNN)、基于预选区域的网络卷积神经网络(grid region-based convolutional neural network,Grid-RCNN)、你只看一次网络(you only look once,YOLO)等。
例如,在某些应用场景中,需要对行人进行标注,则可以针对行人这一检测类别,基于Faster-RCNN和Grid-RCNN分别训练生成一个用于对行人进行标注的检测模型。此种应用场景中,检测模型集合包括两个检测模型,分别为基于Faster-RCNN训练生成的用于对行人进行标注的检测模型和基于Grid-RCNN训练生成的用于对行人进行标注的检测模型。
可选的,当需要对两个或两个以上检测类别的检测目标进行标注时,可以针对每一个检测类别,训练生成至少两个检测效果不同的检测模型,检测模型的获取方式可以参考前述实施例的内容,此处不再赘述。此种方式中,检测模型集合包含多个检测模型,检测模型集合包含的多个检测模型按照检测类别划分,可以划分为两个或两个以上检测类别,每一个检测类别对应至少两个检测效果不同的检测模型,用于对该检测类别的检测目标进行标注。获取检测模型时使用的检测算法可以参考上述列举的检测算法,也可以根据实际应用场景的需求,选择其他可以应用于对检测目标进行标注的算法,本申请对此不进行限定。
例如,在某些应用场景中,需要对行人和汽车进行标注,则可以基于Faster-RCNN和Grid-RCNN分别训练生成一个用于对行人进行标注的检测模型,并且,基于Faster-RCNN和Grid-RCNN分别训练生成一个用于对汽车进行标注的检测模型。此种应用场景中,检测模型集合包括四个检测模型,分别为基于Faster-RCNN训练生成的用于对行人进行标注的检测模型、基于Grid-RCNN训练生成的用于对行人进行标注的检测模型、基于Faster-RCNN训练生成的用于对汽车进行标注的检测模型和基于Grid-RCNN训练生成的用于对汽车进行标注的检测模型。
可选的,当需要对两个或两个以上检测类别的检测目标进行标注时,还可以针对其中至少一个检测类别,训练生成至少两个检测效果不同的检测模型,针对其余每一个检测类别,训练生成一个检测模型,检测模型的获取方式可以参考前述实施例的内容,此处不再赘述。此种实现方式中,检测模型集合包含多个检测模型,检测模型集合包含的多个检测模型按照检测类别划分,可以划分为两个或两个以上检测类别,其中,存在对应一个检测模型的检测类别,也存在对应至少两个检测效果不同的检测模型的检测类别。获取检测模型时使用的检测算法可以参考上述列举的检测算法,也可以根据实际应用场景的需求,选择其他可以应用于对检测目标进行标注的算法,本申请对此不进行限定。
例如,在某些应用场景中,需要对行人和汽车进行标注,则可以基于Faster-RCNN和Grid-RCNN分别训练生成一个用于对行人进行标注的检测模型,并且,基于YOLO训练生成一个用于对汽车进行标注的检测模型。此种应用场景中,检测模型集合包括三个检测模型,分别为基于Faster-RCNN训练生成的用于对行人进行标注的检测模型、基于Grid-RCNN训练生成的用于对行人进行标注的检测模型和基于YOLO训练生成的用于对汽车进行标注的检测模型。
可选的,还可以针对多个检测类别中的每一个检测类别,训练生成至少两个检测效果不同的检测模型,也就是说,多个检测类别中的每一个检测类别都对应至少两个检测模型,该多个检测类别的数量可以大于实际应用场景中需要进行标注的检测类别的数量,其中,检测模型的获取方式可以参考前述实施例的内容,此处不再赘述。此种方式中,检测模型集合包含多个检测模型,检测模型集合包含的多个检测模型按照检测类别划分,可以划分为多个检测类别,该多个检测类别的数量大于实际应用场景中需要进行标注的检测类别的数量,每一个检测类别对应至少两个检测效果不同的检测模型,用于对该检测类别的检测目标进行标注。获取检测模型时使用的检测算法可以参考上述列举的检测算法,也可以根据实际应用场景的需求,选择其他可以应用于对检测目标进行标注的算法,本申请对此不进行限定。
例如,在某些应用场景中,需要对行人和汽车进行标注,则可以基于Faster-RCNN和Grid-RCNN分别训练生成一个用于对行人进行标注的检测模型,基于Faster-RCNN和Grid-RCNN分别训练生成一个用于对汽车进行标注的检测模型,基于Faster-RCNN和YOLO分别训练生成一个用于对有轨电车进行标注的检测模型,基于YOLO和Grid-RCNN分别训练生成一个用于对摩托车进行标注的检测模型。此种应用场景中,检测模型集合包括八个检测模型,分别为基于Faster-RCNN训练生成的用于对行人进行标注的检测模型、基于Grid-RCNN训练生成的用于对行人进行标注的检测模型、基于Faster-RCNN训练生成的用于对汽车进行标注的检测模型、基于Grid-RCNN训练生成的用于对汽车进行标注的检测模型、基于Faster-RCNN训练生成的用于对有轨电车进行标注的检测模型、基于YOLO训练生成的用于对有轨电车进行标注的检测模型、基于YOLO训练生成的用于对摩托车进行标注的检测模型和基于Grid-RCNN训练生成的用于对摩托车进行标注的检测模型。
需要说明的是,训练生成每一个检测类别对应的检测模型时,不同的检测类别可以对应不同的检测算法,也可以对应相同的检测算法,本申请对此不进行限定。
采用模型训练的方式,可以根据当前应用场景的需求,生成更加符合当前应用场景需求的检测模型集合,使用该检测模型集合对待标注图像标注后,得到的标注结果更加精确,适用性更好。
一种可能的实现方式中,还可以将训练生成的检测模型组成的检测模型集合,预先设置于系统中,在执行步骤S101时,直接从系统中获取预先设置的检测模型集合即可。采用此种实现方式,检测模型集合的获取过程更加简单。
步骤S102、使用所述检测模型集合对待标注图像进行标注,得到第一标注信息集合。
获取到检测模型集合后,使用检测模型集合中的每一个检测模型对待标注图像进行标注,检测模型集合包括的所有检测模型对待标注图像进行标注后,得到的标注结果组成第一标注信息集合。
第一标注信息集合可以为空,即,第一标注信息集合中没有元素,则表示待标注图像中不存在检测模型集合包括的检测模型对应检测类别的检测目标。
例如,检测模型集合包括基于Faster-RCNN训练生成的用于对行人进行标注的检测模型和基于Grid-RCNN训练生成的用于对行人进行标注的检测模型,使用该检测模型集合对待标注图像进行标注后,得到的第一标注信息集合为空,则表示待标注图像中没有行人。
再例如,检测模型集合包括基于Faster-RCNN训练生成的用于对行人进行标注的检测模型、基于Grid-RCNN训练生成的用于对行人进行标注的检测模型、基于Faster-RCNN训练生成的用于对汽车进行标注的检测模型和基于Grid-RCNN训练生成的用于对汽车进行标注的检测模型,使用该检测模型集合对待标注图像进行标注后,得到的第一标注信息集合为空,则表示待标注图像中没有行人,也没有汽车。
第一标注信息集合可以包括至少一个第一标注信息,待标注图像包括至少一个第一检测目标,第一标注信息对应第一检测目标的标注信息,即,第一标注信息集合包含的第一标注信息为待标注图像中第一检测目标的标注信息。
第一标注信息包括第一位置信息和第一类别信息。其中,第一位置信息为第一标注信息对应矩形标注框的位置信息,根据该第一位置信息可以在待标注图像中确定出该矩形标注框,该矩形标注框可以用于将该第一标注信息对应的第一检测目标在待标注图像中标出。第一类别信息用于指示第一标注信息对应第一检测目标的检测类别。
一种可能的实现方式中,第一位置信息可以包括下述信息:第一顶点的坐标信息和第二顶点的坐标信息,其中,第一顶点和第二顶点位于第一位置信息对应矩形标注框的同一条对角线上。一种可能的实现方式中,第一位置信息可以包括下述信息:第一位置信息对应矩形标注框的中心点的坐标信息和该矩形标注框的长、宽信息。此外,第一位置信息还可以为其它可以确定第一位置信息对应矩形标注框的信息等,本申请对此不进行限定。
获取到第一标注信息集合后,可以对第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇。一个第一聚类簇对应一个第一检测目标。根据每一个第一聚类簇包含的第一标注信息,可以生成该第一聚类簇对应第一检测目标的第二标注信息,根据该第二标注信息确定的矩形标注框与该第一检测目标的实际位置对应的矩形标注框之间不存在误差或者误差小于像素级别,所以,在具体的应用场景中,可以将第二标注信息确定为该第一检测目标的实际标注信息,可以根据该第二标注信息在待标注图像中将该第一检测目标用矩形标注框标出。
第二标注信息包括第二位置信息和第二类别信息。第二位置信息为第二标注信息对应矩形标注框的位置信息,根据该第二位置信息可以在待标注图像中确定出该第二标注信息对应的矩形标注框。第二类别信息用于指示第二标注信息对应第一检测目标的检测类别。其中,第二位置信息的具体内容可以参考第一位置信息的内容,此处不再详述。
一种可能的实现方式中,对第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇,可以按照下述方式实现:获取第一标注信息集合中类别相同的任意两个第一标注信息对应的矩形标注框交并比;根据矩形标注框交并比对第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇。
其中,第一标注信息集合中类别相同的任意两个第一标注信息对应的矩形标注框交并比是指这两个矩形标注框的交集的面积与这两个矩形标注框的并集的面积的比值。根据矩形标注框交并比对第一标注信息集合中类别相同的第一标注信息进行聚类时,可以采用多种聚类方式,例如密度聚类方式或谱聚类方式等,本申请对此不进行限定。
此外,对第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇的过程中,使用的距离度量不限于矩形标注框交并比,还可以选择其他距离度量,例如矩形标注框中心点距离,即这两个矩形标注框的中心之间的距离等。
一种可能的实现方式中,根据每一个第一聚类簇包含的第一标注信息,生成该第一聚类簇对应第一检测目标的第二标注信息,可以按照下述方式实现:根据该第一聚类簇包括的第一标注信息中的第一位置信息,生成该第一聚类簇对应第一检测目标的第二位置信息;根据该第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息。
一种可能的实现方式中,根据第一聚类簇包括的第一标注信息中的第一位置信息,生成该第一聚类簇对应第一检测目标的第二位置信息,可以按照下述方式实现:对该第一聚类簇包括的第一标注信息中的第一位置信息进行均值计算,生成该第一聚类簇对应第一检测目标的第二位置信息。
一种可能的实现方式中,根据第一聚类簇包括的第一标注信息中的第一位置信息,生成该第一聚类簇对应第一检测目标的第二位置信息,还可以按照下述方式实现:对该第一聚类簇包括的第一标注信息中的第一位置信息进行加权均值计算,生成该第一聚类簇对应第一检测目标的第二位置信息。
一种可能的实现方式中,根据第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息,可以按照下述方式实现:确定该第一聚类簇包括的第一标注信息的第一数量;若所述第一数量大于等于预设数量阈值,确定该第一聚类簇包括的第一标注信息中的第一类别信息为该第一聚类簇对应第一检测目标的第二类别信息。
其中,预设数量阈值可以根据应用场景的需求设置。当具体应用场景对标注结果的精确度要求较高时,可以将预设数量阈值设置为相对较大的值,例如,与第一聚类簇包括的第一标注信息中第一类别信息指示的检测类别对应的检测模型的数量为A,则可以将预设数量阈值设置为A-1,A为正整数。当具体应用场景对标注结果的精确度要求较低时,可以将预设数量阈值设置为相对较小的值,例如,与第一聚类簇包括的第一标注信息中第一类别信息指示的检测类别对应的检测模型的数量为A,则可以将预设数量阈值设置为A-2或A-3,A为正整数。
一种可能的实现方式中,根据第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息,还可以按照下述方式实现:确定该第一聚类簇包括的第一标注信息的第一数量;若所述第一数量小于预设数量阈值,获取该第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型;根据该第一聚类簇对应第一检测目标的第二位置信息和所述第一分类模型确定该第一聚类簇对应第一检测目标的第二类别信息。其中,预设数量阈值可以参考上述实施例的内容,此处不再赘述。
一种可能的实现方式中,在获取第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型之前,首先获取分类模型集合,该分类模型集合包括至少两个分类模型,并且,该分类模型集合中至少两个分类模型对应同一检测类别。其中,分类模型集合包括的至少两个分类模型包括第一分类模型。
一种可能的实现方式中,可以通过模型训练,训练生成分类模型集合包括的分类模型。例如:
可选的,当只需要对一个检测类别的检测目标进行标注时,可以针对该检测类别,训练生成至少两个分类效果不同的分类模型。一种可能的实现方式中,该至少两个分类效果不同的分类模型可以基于不同的分类算法训练得到,也就是说,一个分类模型对应一个分类算法,不同的分类模型对应的分类算法不同。另一种可能的实现方式中,该至少两个分类效果不同的分类模型还可以基于同一分类算法训练得到,但是在训练不同的分类模型时,分类算法对应的训练参数不同。此种方式中,分类模型集合包括至少两个分类模型,且分类模型集合包括的全部分类模型对应同一个检测类别,即分类模型集合包括的全部分类模型用于识别同一个检测类别的检测目标。此种实现方式中,每一个第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型可以为该第一类别信息指示的检测类别对应的分类模型。
示例性的,分类算法可以包括以下至少一个:基于预选区域的串级卷积神经网络(cascade region-based convolutional neural network,Cascade-RCNN)、可变形卷积神经网络v2(deformable convnets v2,DCNv2)、有效网络(Efficientnet)等。
例如,在某些应用场景中,需要对行人进行标注,则可以针对行人这一检测类别,基于Cascade-RCNN和DCNv2分别训练生成一个用于对行人进行识别的分类模型。此种应用场景中,分类模型集合包括两个分类模型,分别为基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型。此种应用场景中,每一个第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型包括基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型。
可选的,当需要对两个或两个以上检测类别的检测目标进行标注时,可以针对每一个检测类别,训练生成至少两个分类效果不同的分类模型,分类模型的获取方式可以参考前述实施例的内容,此处不再赘述。此种方式中,分类模型集合包含多个分类模型,分类模型集合包含的多个分类模型按照检测类别划分,可以划分为两个或两个以上检测类别,每一个检测类别对应至少两个分类效果不同的分类模型,用于对该检测类别的检测目标进行识别。获取分类模型的分类算法可以参考上述列举的分类算法,也可以根据实际应用场景的需求,选择其他可以应用于对检测目标进行识别的分类算法,本申请对此不进行限定。此种实现方式中,每一个第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型可以仅包括该第一类别信息指示的检测类别对应的分类模型,也可以既包括该第一类别信息指示的检测类别对应的分类模型,又包括分类模型集合中其它检测类别对应的分类模型,本申请对此不进行限定。
例如,在某些应用场景中,需要对行人和汽车进行标注,则可以基于Cascade-RCNN和DCNv2分别训练生成一个用于对行人进行识别的分类模型,并且,基于Cascade-RCNN和DCNv2分别训练生成一个用于对汽车进行识别的分类模型。此种应用场景中,分类模型集合包括四个分类模型,分别为基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型、基于DCNv2训练生成的用于对行人进行识别的分类模型、基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型和基于DCNv2训练生成的用于对汽车进行识别的分类模型。此种应用场景中,当第一聚类簇包括的第一标注信息中第一类别信息指示的检测类别为行人时,该第一类别信息关联的第一分类模型可以仅包括基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型,也可以既包括基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型,又包括基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型和基于DCNv2训练生成的用于对汽车进行识别的分类模型。同理,当第一聚类簇包括的第一标注信息中第一类别信息指示的检测类别为汽车时,该第一类别信息关联的第一分类模型可以既包括基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型,又包括基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型和基于DCNv2训练生成的用于对汽车进行识别的分类模型,也可以仅包括基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型和基于DCNv2训练生成的用于对汽车进行识别的分类模型。
可选的,当需要对两个或两个以上检测类别的检测目标进行标注时,还可以针对其中至少一个检测类别,训练生成至少两个分类效果不同的分类模型,针对其余每一个检测类别,训练生成一个分类模型。分类模型的获取方式可以参考前述实施例的内容,此处不再赘述。此种实现方式中,分类模型集合包含多个分类模型,分类模型集合包含的多个分类模型按照检测类别划分,可以划分为两个或两个以上检测类别,其中,存在对应一个分类模型的检测类别,也存在对应至少两个分类效果不同的分类模型的检测类别。获取分类模型时使用的分类算法可以参考上述列举的分类算法,也可以根据实际应用场景的需求,选择其他可以应用于对检测目标进行识别的分类算法,本申请对此不进行限定。此种实现方式中,每一个第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型可以仅包括该第一类别信息指示的检测类别对应的分类模型,也可以既包括该第一类别信息指示的检测类别对应的分类模型,又包括分类模型集合中其它检测类别对应的分类模型,本申请对此不进行限定。
例如,在某些应用场景中,需要对行人和汽车进行标注,则可以基于Cascade-RCNN和DCNv2分别训练生成一个用于对行人进行识别的分类模型,并且,基于Efficientnet训练生成一个用于对汽车进行识别的分类模型。此种应用场景中,分类模型集合包括三个分类模型,分别为基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型、基于DCNv2训练生成的用于对行人进行识别的分类模型和基于Efficientnet训练生成的用于对汽车进行识别的分类模型。此种应用场景中,当第一聚类簇包括的第一标注信息中第一类别信息指示的检测类别为行人时,该第一类别信息关联的第一分类模型可以仅包括基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型,也可以既包括基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型,又包括基于Efficientnet训练生成的用于对汽车进行识别的分类模型。同理,当第一聚类簇包括的第一标注信息中第一类别信息指示的检测类别为汽车时,该第一类别信息关联的第一分类模型可以既包括基于Efficientnet训练生成的用于对汽车进行识别的分类模型,又包括基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型,也可以仅包括基于Efficientnet训练生成的用于对汽车进行识别的分类模型。
可选的,还可以针对多个检测类别中的每一个检测类别,训练生成至少两个分类效果不同的分类模型,也就是说,多个检测类别中的每一个检测类别都对应至少两个分类模型,该多个检测类别的数量可以大于实际应用场景中需要进行标注的检测类别的数量。其中,分类模型的获取方式可以参考前述实施例的内容,此处不再赘述。此种方式中,分类模型集合包含多个分类模型,分类模型集合包含的多个分类模型按照检测类别划分,可以划分为多个检测类别,该多个检测类别的数量大于实际应用场景中需要进行标注的检测类别的数量,每一个检测类别对应至少两个分类效果不同的分类模型,用于对该检测类别的检测目标进行识别。获取分类模型时使用的分类算法可以参考上述列举的分类算法,也可以根据实际应用场景的需求,选择其他可以应用于对检测目标进行识别的分类算法,本申请对此不进行限定。此种实现方式中,每一个第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型可以仅包括该第一类别信息指示的检测类别对应的分类模型,也可以既包括该第一类别信息指示的检测类别对应的分类模型,又包括分类模型集合中其它检测类别对应的分类模型,本申请对此不进行限定。
例如,在某些应用场景中,需要对行人和汽车进行标注,则可以基于Cascade-RCNN和DCNv2分别训练生成一个用于对行人进行识别的分类模型,基于Cascade-RCNN和DCNv2分别训练生成一个用于对汽车进行识别的分类模型,基于Cascade-RCNN和Efficientnet分别训练生成一个用于对有轨电车进行识别的分类模型,基于DCNv2和Efficientnet分别训练生成一个用于对摩托车进行识别的分类模型。此种应用场景中,分类模型集合包括八个分类模型,分别为基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型、基于DCNv2训练生成的用于对行人进行识别的分类模型、基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型、基于DCNv2训练生成的用于对汽车进行识别的分类模型、基于Cascade-RCNN训练生成的用于对有轨电车进行识别的分类模型、基于Efficientnet训练生成的用于对有轨电车进行识别的分类模型、基于DCNv2训练生成的用于对摩托车进行识别的分类模型和基于Efficientnet训练生成的用于对摩托车进行识别的分类模型。此种应用场景中,当第一聚类簇包括的第一标注信息中第一类别信息指示的检测类别为行人时,该第一类别信息关联的第一分类模型可以仅包括基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型,也可以既包括基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型,又包括基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型和基于DCNv2训练生成的用于对汽车进行识别的分类模型,和/或,基于Cascade-RCNN训练生成的用于对有轨电车进行识别的分类模型和基于Efficientnet训练生成的用于对有轨电车进行识别的分类模型,和/或,基于DCNv2训练生成的用于对摩托车进行识别的分类模型和基于Efficientnet训练生成的用于对摩托车进行识别的分类模型。当第一聚类簇包括的第一标注信息中第一类别信息指示的检测类别为汽车时,该第一类别信息关联的第一分类模型可以仅包括基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型和基于DCNv2训练生成的用于对汽车进行识别的分类模型,也可以既包括基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型和基于DCNv2训练生成的用于对汽车进行识别的分类模型,又包括基于Cascade-RCNN训练生成的用于对行人进行识别的分类模型和基于DCNv2训练生成的用于对行人进行识别的分类模型,和/或,基于Cascade-RCNN训练生成的用于对有轨电车进行识别的分类模型和基于Efficientnet训练生成的用于对有轨电车进行识别的分类模型,和/或,基于DCNv2训练生成的用于对摩托车进行识别的分类模型和基于Efficientnet训练生成的用于对摩托车进行识别的分类模型。
需要说明的是,训练生成每一个检测类别对应的分类模型时,不同的检测类别可以对应不同的分类算法,也可以对应相同的分类算法,本申请对此不进行限定。
此外,本申请中训练分类模型时使用的分类算法,与训练检测模型时使用的检测算法可以相同,也可以不同,本申请对此也不进行限定。
本申请中的分类模型可以为二分类模型,也可以为多分类模型,本申请对此也不进行限定。
一种可能的实现方式中,还可以将训练好的分类模型组成的分类模型集合,以及检测类别与第一分类模型的对应关系,都预先设置于系统中,在获取第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型时,从系统中获取该第一类别信息指示的检测类别对应的第一分类模型即可。采用此种实现方式,获取第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型的过程更加简单。
一种可能的实现方式中,根据第一聚类簇对应第一检测目标的第二位置信息和第一分类模型确定该第一聚类簇对应第一检测目标的第二类别信息,可以按照下述方式实现:将该第一聚类簇对应第一检测目标的第二位置信息输入该第一聚类簇包括的第一标注信息中第一类别信息关联的每一个第一分类模型中,得到多个分类识别结果;当所述多个分类识别结果不同时(例如有些分类识别结果为是,有些分类识别结果为否),根据投票表决的方式对该多个分类识别结果进行投票表决,得到该第一检测目标的第二类别信息;或者,当所述多个分类识别结果相同时(例如都为是或都为否),则确定该第一检测目标的第二类别信息为空,删除该第一聚类簇对应的第一标注信息,认为该第二位置信息指示的位置不存在第一检测目标。
例如,第一聚类簇包括的第一标注信息中第一类别信息指示的检测类别为汽车,该第一类别信息关联的第一分类模型包括基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型、基于DCNv2训练生成的用于对汽车进行识别的分类模型、基于Cascade-RCNN训练生成的用于对有轨电车进行识别的分类模型和基于Efficientnet训练生成的用于对有轨电车进行识别的分类模型,将该第一聚类簇对应的第一检测目标的第二位置信息输入基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型中,得到的分类识别结果为该检测目标属于汽车,将该第二位置信息输入基于DCNv2训练生成的用于对汽车进行识别的分类模型中,得到的分类识别结果为该检测目标属于汽车,将该第二位置信息输入基于Cascade-RCNN训练生成的用于对有轨电车进行识别的分类模型中,得到的分类识别结果为该检测目标不属于有轨电车,将该第二位置信息输入基于Efficientnet训练生成的用于对有轨电车进行识别的分类模型中,得到的分类识别结果为该检测目标属于有轨电车,则通过对这四个分类识别结果投票表决后,得到的该第一检测目标的第二类别信息为汽车,认为该第二位置信息指示的位置存在汽车。
再例如,第一聚类簇包括的第一标注信息中第一类别信息指示的检测类别为汽车,该第一类别信息关联的第一分类模型包括基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型、基于DCNv2训练生成的用于对汽车进行识别的分类模型、基于Cascade-RCNN训练生成的用于对有轨电车进行识别的分类模型和基于Efficientnet训练生成的用于对有轨电车进行识别的分类模型,将该第一聚类簇对应的第一检测目标的第二位置信息输入基于Cascade-RCNN训练生成的用于对汽车进行识别的分类模型中,得到的分类识别结果为该检测目标属于汽车,将该第二位置信息输入基于DCNv2训练生成的用于对汽车进行识别的分类模型中,得到的分类识别结果为该检测目标属于汽车,将该第二位置信息输入基于Cascade-RCNN训练生成的用于对有轨电车进行识别的分类模型中,得到的分类识别结果为该检测目标属于有轨电车,将该第二位置信息输入基于Efficientnet训练生成的用于对有轨电车进行识别的分类模型中,得到的分类识别结果为该检测目标属于有轨电车,则确定该第一检测目标的第二类别信息为空,该第二位置信息指示的位置不存在汽车。
需要说明的是,得到多个分类识别结果后,还可以通过其它方式对该多个分类识别结果进行处理,得到第一检测目标的第二类别信息,本申请对此不进行限定。
本申请提供的标注信息的确定方法中,首先获取检测模型集合,该检测模型集合包括至少两个检测模型,且该检测模型集合中至少两个检测模型对应同一检测类别,然后使用该检测模型集合对待标注图像标注,得到第一标注信息集合。也就是说,通过该方法确定标注信息时,不是采用单一检测模型对待标注图像进行标注,而是使用多个检测模型对待标注图像进行标注,这多个检测模型可以对应多个检测类别,也可以对应同一个检测类别,对于多个检测类别的话,可以针对每一个检测类别,获取对该检测类别的检测目标更加友好的检测模型,检测精确度更高,可以得到更加精确的标注信息,多个检测模型对应同一个检测类别时,对于同一个检测目标,可以得到多个标注信息,后续根据这多个标注信息确定的实际标注信息也更加准确。所以,采用该方法,可以得到精确度更高的标注信息,后续根据该标注信息确定用于标注检测目标的矩形标注框的话,得到的矩形标注框与实际位置对应的矩形标注框之间,在像素级别上,误差明显减小,基本可以忽略,适用性较好。
本文中描述的各个方法实施例可以为独立的方案,也可以根据内在逻辑进行组合,这些方案都落入本申请的保护范围中。
可以理解的是,上述各个方法实施例中,由终端设备实现的方法和操作,也可以由可用于终端设备的部件(例如芯片或者电路)实现。
上述主要从每一个网元之间交互的角度对本申请实施例提供的方案进行了介绍。可以理解的是,每一个网元,例如终端设备,为了实现上述功能,其包含了执行每一个功能相应的硬件结构或软件模块,或两者结合。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对终端设备进行功能模块的划分,例如,可以对应每一个功能划分每一个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。下面以采用对应每一个功能划分每一个功能模块为例进行说明。
以上,结合图2详细说明了本申请实施例提供的方法。以下,结合图3和图4详细说明本申请实施例提供的装置。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的内容可以参见上文方法实施例,为了简洁,这里不再赘述。
参见图3,图3为本申请提供的标注信息的确定装置的一种实施方式的结构框图。该标注信息的确定装置可以为终端设备本身,例如自动驾驶和智能座舱领域的车机、手机等。该标注信息的确定装置也可以为终端设备中的芯片或者元件。该标注信息的确定装置还可以是其它的产品形态。以下通过图3从逻辑功能上对所述标注信息的确定装置进行阐述。
如图3所示,该装置300可以包括获取模块301和处理模块302。该装置300可以用于执行上文图2所示方法实施例中终端设备所执行的动作。
例如:所述获取模块301可以用于获取检测模型集合;所述检测模型集合包括至少两个检测模型,所述检测模型集合中至少两个检测模型对应同一检测类别;所述处理模块302可以用于使用所述检测模型集合对待标注图像进行标注,得到第一标注信息集合。
可选的,所述待标注图像包括至少一个第一检测目标;所述第一标注信息集合包括至少一个第一标注信息;所述第一标注信息对应所述第一检测目标的标注信息;所述第一标注信息包括第一位置信息和第一类别信息;所述处理模块302还用于:对所述第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇;所述第一聚类簇对应所述第一检测目标;根据所述第一聚类簇包括的至少一个第一标注信息,生成该第一聚类簇对应第一检测目标的第二标注信息;所述第二标注信息包括第二位置信息和第二类别信息。
可选的,所述处理模块302具体用于:根据所述第一聚类簇包括的第一标注信息中的第一位置信息,生成该第一聚类簇对应第一检测目标的第二位置信息;根据所述第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息。
可选的,所述处理模块302具体用于:对所述第一聚类簇包括的第一标注信息中的第一位置信息进行均值计算,生成该第一聚类簇对应第一检测目标的第二位置信息。
可选的,所述处理模块302具体用于:确定所述第一聚类簇包括的第一标注信息的第一数量;若所述第一数量大于等于预设数量阈值,确定该第一聚类簇包括的第一标注信息中的第一类别信息为该第一聚类簇对应第一检测目标的第二类别信息。
可选的,所述处理模块302具体用于:确定所述第一聚类簇包括的第一标注信息的第一数量;若所述第一数量小于预设数量阈值,获取该第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型;根据该第一聚类簇对应第一检测目标的第二位置信息和所述第一分类模型确定该第一聚类簇对应第一检测目标的第二类别信息所述至少一个资源参数包括以下中的至少一个:信道占用率信息、调制编码方式信息、资源周期信息、资源时长信息。
可选的,所述处理模块302具体用于:获取所述第一标注信息集合中类别相同的任意两个第一标注信息对应的矩形标注框交并比;根据所述矩形标注框交并比对所述第一标注信息集合中类别相同的第一标注信息进行聚类,生成至少一个第一聚类簇。
可选的,所述检测模型集合为预先设置。
可选的,所述获取模块301还用于:获取分类模型集合;所述分类模型集合包括至少两个分类模型;所述分类模型集合中至少两个分类模型对应同一检测类别;所述至少两个分类模型包括所述第一分类模型。
可选的,所述检测模型和所述分类模型都可以独立于所述获取模块301之外,单独进行设置,从而便于根据实际应用场景的需求进行替换,在替换的时候不会影响获取模块301的功能。
也就是说,该装置300可实现对应于根据本申请实施例的图2所示方法中的终端设备执行的步骤或者流程,该装置300可以包括用于执行图2所示方法中的终端设备执行的方法的模块。并且,该装置300中的各模块和上述其他操作和/或功能分别为了实现图2所示方法的相应步骤。例如,该装置300中的获取模块301可以用于执行图2所示方法中的步骤S101,处理模块302可以用于执行图2所示方法中的步骤S102。
应理解,各模块执行上述相应步骤的具体过程在上述方法实施例中已经详细说明,为了简洁,在此不再赘述。
本申请实施例还提供了一种处理装置,包括至少一个处理器和通信接口。所述通信接口用于为所述至少一个处理器提供信息输入和/或输出,所述至少一个处理器用于执行上述方法实施例中的方法。
应理解,上述处理装置可以是一个芯片系统。例如,参见图4,图4为本申请提供的芯片系统的一种实施方式的结构框图。图4所示的芯片系统可以为通用处理器,也可以为专用处理器。该芯片系统400包括至少一个处理器401。其中,所述至少一个处理器401可以用于支持图3所示的装置执行图2所示的技术方案。
可选的,该芯片系统400还可以包括收发器402,收发器402用于接受处理器401的控制,用于支持图3所示的装置执行图2所示的技术方案。可选的,图4所示的芯片系统400还可以包括:存储介质403。具体的,所述收发器402可以替换为通信接口,所述通信接口为所述至少一个处理器提供信息输入和/或输出。
需要说明的是,图4所示的芯片系统400可以使用下述电路或者器件来实现:一个或多个现场可编程门阵列(field programmable gate array,FPGA)、可编程逻辑器件(programmable logic device,PLD)、专用集成芯片(application specific integratedcircuit,ASIC)、系统芯片(system on chip,SoC)、中央处理器(central processor unit,CPU)、网络处理器(network processor,NP)、数字信号处理电路(digital signalprocessor,DSP)、微控制器(micro controller unit,MCU),控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
根据本申请实施例提供的方法,本申请实施例还提供一种计算机程序产品,该计算机程序产品包括:计算机程序或指令,当该计算机程序或指令在计算机上运行时,使得该计算机执行图1所示实施例中任意一个实施例的方法。
根据本申请实施例提供的方法,本申请实施例还提供一种计算机存储介质,该计算机存储介质存储有计算机程序或指令,当该计算机程序或指令在计算机上运行时,使得该计算机执行图1所示实施例中任意一个实施例的方法。
根据本申请实施例提供的方法,本申请实施例还提供一种终端设备,所述终端设备为运输工具或者智能设备,包含无人机、无人运输车、汽车或者机器人等,该运输工具或者智能设备包含上述标注信息的确定装置。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,DVD))、或者半导体介质(例如,固态硬盘(solid state disc,SSD))等。
上述各个装置实施例中终端设备和方法实施例中的终端设备对应,由相应的模块或单元执行相应的步骤,例如通信模块(收发器)执行方法实施例中接收或发送的步骤,除发送、接收外的其它步骤可以由处理模块(处理器)执行。具体模块的功能可以参考相应的方法实施例。其中,处理器可以为一个或多个。
在本说明书中使用的术语“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,部件可以是但不限于,在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示,在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中,部件可位于一个计算机上和/或分布在两个或更多个计算机之间。此外,这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一部件交互的二个部件的数据,例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step),能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例提供的标注信息的确定装置、终端设备、计算机存储介质、计算机程序产品、芯片系统均用于执行上文所提供的方法,因此,其所能达到的有益效果可参考上文所提供的方法对应的有益效果,在此不再赘述。
应理解,在本申请的各个实施例中,各步骤的执行顺序应以其功能和内在逻辑确定,各步骤序号的大小并不意味着执行顺序的先后,不对实施例的实施过程构成限定。
本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,标注信息的确定装置、终端设备、计算机存储介质、计算机程序产品、芯片系统的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。
Claims (19)
1.一种标注信息的确定方法,其特征在于,所述方法包括:
获取检测模型集合;所述检测模型集合包括多个检测模型,所述多个检测模型对应不同的检测类别,每个所述检测类别对应两个或两个以上检测模型;
使用所述检测模型集合对待标注图像进行标注,得到第一标注信息集合,所述待标注图像包括至少一个第一检测目标,所述第一标注信息集合包括至少一个第一标注信息,每个所述第一标注信息包括第一位置信息和第一类别信息,所述第一类别信息用于指示所述第一标注信息对应第一检测目标的检测类别;
所述方法还包括:
按照所述第一标注信息中的第一位置信息,对所述第一标注信息集合中的所有第一标注信息进行聚类,生成至少一个第一聚类簇,每个所述第一标注信息被划分到一个第一聚类簇;
根据每个所述第一聚类簇中的全部第一标注信息生成所述第一检测目标的第二标注信息;所述第二标注信息为所述第一检测目标的实际标注信息;
根据所述第二标注信息在所述待标注图像中将该第一检测目标用矩形标注框标出。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述第一聚类簇中的全部第一标注信息生成所述第一检测目标的第二标注信息,包括:
根据所述第一聚类簇包括的第一标注信息中的第一位置信息,生成该第一聚类簇对应第一检测目标的第二位置信息;
根据所述第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一聚类簇包括的第一标注信息中的第一位置信息,生成该第一聚类簇对应第一检测目标的第二位置信息,包括:
对所述第一聚类簇包括的第一标注信息中的第一位置信息进行均值计算,生成该第一聚类簇对应第一检测目标的第二位置信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息,包括:
确定所述第一聚类簇包括的第一标注信息的第一数量;
若所述第一数量大于等于预设数量阈值,确定该第一聚类簇包括的第一标注信息中的第一类别信息为该第一聚类簇对应第一检测目标的第二类别信息。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息,包括:
确定所述第一聚类簇包括的第一标注信息的第一数量;
若所述第一数量小于预设数量阈值,获取该第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型;
根据该第一聚类簇对应第一检测目标的第二位置信息和所述第一分类模型确定该第一聚类簇对应第一检测目标的第二类别信息。
6.根据权利要求1至5任意一项所述的方法,其特征在于,按照所述第一标注信息中的第一位置信息,对所述第一标注信息集合中的所有第一标注信息进行聚类,生成至少一个第一聚类簇,包括:
获取所述第一标注信息集合中类别相同的任意两个第一标注信息对应的矩形标注框交并比;
根据所述矩形标注框交并比对所述第一标注信息集合中类别相同的每个第一标注信息进行聚类,生成至少一个第一聚类簇。
7.根据权利要求1至5任意一项所述的方法,其特征在于,所述检测模型集合为预先设置。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取分类模型集合;所述分类模型集合包括至少两个分类模型;所述分类模型集合中至少两个分类模型对应同一检测类别;所述至少两个分类模型包括所述第一分类模型。
9.一种标注信息的确定装置,其特征在于,所述装置包括:
获取模块,用于获取检测模型集合;所述检测模型集合包括多个检测模型,所述多个检测模型对应不同的检测类别,每个所述检测类别对应两个或两个以上检测模型;
处理模块,用于使用所述检测模型集合对待标注图像进行标注,得到第一标注信息集合,所述待标注图像包括至少一个第一检测目标,所述第一标注信息集合包括至少一个第一标注信息,每个所述第一标注信息包括第一位置信息和第一类别信息,所述第一类别信息用于指示所述第一标注信息对应第一检测目标的检测类别;
所述处理模块,还用于按照所述第一标注信息中的第一位置信息,对所述第一标注信息集合中的所有第一标注信息进行聚类,生成至少一个第一聚类簇;根据每个所述第一聚类簇的全部第一标注信息生成所述第一检测目标的第二标注信息,以及根据所述第二标注信息在所述待标注图像中将该第一检测目标用矩形标注框标出;其中,所述第二标注信息为所述第一检测目标的实际标注信息,每个所述第一标注信息被划分到一个第一聚类簇。
10.根据权利要求9所述的装置,其特征在于,所述处理模块具体用于:
根据所述第一聚类簇包括的第一标注信息中的第一位置信息,生成该第一聚类簇对应第一检测目标的第二位置信息;
根据所述第一聚类簇包括的第一标注信息中的第一类别信息,生成该第一聚类簇对应第一检测目标的第二类别信息。
11.根据权利要求10所述的装置,其特征在于,所述处理模块具体用于:
对所述第一聚类簇包括的第一标注信息中的第一位置信息进行均值计算,生成该第一聚类簇对应第一检测目标的第二位置信息。
12.根据权利要求10所述的装置,其特征在于,所述处理模块具体用于:
确定所述第一聚类簇包括的第一标注信息的第一数量;若所述第一数量大于等于预设数量阈值,确定该第一聚类簇包括的第一标注信息中的第一类别信息为该第一聚类簇对应第一检测目标的第二类别信息。
13.根据权利要求10所述的装置,其特征在于,所述处理模块具体用于:
确定所述第一聚类簇包括的第一标注信息的第一数量;若所述第一数量小于预设数量阈值,获取该第一聚类簇包括的第一标注信息中第一类别信息关联的第一分类模型;根据该第一聚类簇对应第一检测目标的第二位置信息和所述第一分类模型确定该第一聚类簇对应第一检测目标的第二类别信息。
14.根据权利要求9至13任意一项所述的装置,其特征在于,所述处理模块具体用于:
获取所述第一标注信息集合中类别相同的任意两个第一标注信息对应的矩形标注框交并比;
根据所述矩形标注框交并比对所述第一标注信息集合中类别相同的每个第一标注信息进行聚类,生成至少一个第一聚类簇。
15.根据权利要求9至13任意一项所述的装置,其特征在于,所述检测模型集合为预先设置。
16.根据权利要求13所述的装置,其特征在于,所述获取模块还用于:获取分类模型集合;所述分类模型集合包括至少两个分类模型;所述分类模型集合中至少两个分类模型对应同一检测类别;所述至少两个分类模型包括所述第一分类模型。
17.一种装置,其特征在于,包括至少一个处理器、至少一个收发器和至少一个存储器;
所述至少一个收发器,用于接收信号或者发送信号;
所述至少一个处理器,用于执行所述至少一个存储器中存储的计算机程序或指令,当所述计算机程序或指令被执行时,使得所述装置实现权利要求1至8中任意一项所述的方法。
18.一种计算机存储介质,其特征在于,包括计算机程序或指令,当所述计算机程序或指令被执行时,实现如权利要求1至8中任意一项所述的方法。
19.一种芯片系统,其特征在于,包括至少一个处理器,所述至少一个处理器与至少一个存储器耦合,所述至少一个存储器中存储有计算机程序或指令;
所述至少一个处理器,用于当所述至少一个存储器中的计算机程序或指令被执行时,实现如权利要求1至8中任意一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/103205 WO2022016355A1 (zh) | 2020-07-21 | 2020-07-21 | 标注信息的确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112654999A CN112654999A (zh) | 2021-04-13 |
CN112654999B true CN112654999B (zh) | 2022-01-28 |
Family
ID=75368402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080004848.5A Active CN112654999B (zh) | 2020-07-21 | 2020-07-21 | 标注信息的确定方法及装置 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP4181013A4 (zh) |
JP (1) | JP2023534850A (zh) |
CN (1) | CN112654999B (zh) |
WO (1) | WO2022016355A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360278B (zh) * | 2021-05-31 | 2024-05-03 | 南昌印钞有限公司 | 钞券符样性评估方法、系统、计算机设备和可读存储介质 |
CN117611998A (zh) * | 2023-11-22 | 2024-02-27 | 盐城工学院 | 一种基于改进YOLOv7的光学遥感图像目标检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436583A (zh) * | 2011-09-26 | 2012-05-02 | 哈尔滨工程大学 | 基于对标注图像学习的图像分割方法 |
CN107067025A (zh) * | 2017-02-15 | 2017-08-18 | 重庆邮电大学 | 一种基于主动学习的数据自动标注方法 |
CN108268575A (zh) * | 2017-01-04 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 标注信息的处理方法、装置和系统 |
CN108898166A (zh) * | 2018-06-13 | 2018-11-27 | 北京信息科技大学 | 一种图像标注方法 |
CN109829397A (zh) * | 2019-01-16 | 2019-05-31 | 创新奇智(北京)科技有限公司 | 一种基于图像聚类的视频标注方法、系统以及电子设备 |
CN110750523A (zh) * | 2019-09-12 | 2020-02-04 | 苏宁云计算有限公司 | 数据标注方法、系统、计算机设备和存储介质 |
CN111242943A (zh) * | 2020-01-22 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、图像处理设备及存储介质 |
CN111292341A (zh) * | 2020-02-03 | 2020-06-16 | 北京海天瑞声科技股份有限公司 | 图像标注方法、图像标注装置及计算机存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9053367B2 (en) * | 2012-11-09 | 2015-06-09 | Seiko Epson Corporation | Detector evolution with multi-order contextual co-occurrence |
CN104484680B (zh) * | 2014-09-26 | 2017-08-08 | 徐晓晖 | 一种多模型多阈值组合的行人检测方法 |
US10657364B2 (en) * | 2016-09-23 | 2020-05-19 | Samsung Electronics Co., Ltd | System and method for deep network fusion for fast and robust object detection |
US10452956B2 (en) * | 2017-09-29 | 2019-10-22 | Here Global B.V. | Method, apparatus, and system for providing quality assurance for training a feature prediction model |
CN108830285B (zh) * | 2018-03-14 | 2021-09-21 | 江南大学 | 一种基于Faster-RCNN的加强学习的目标检测方法 |
CN108509894A (zh) * | 2018-03-28 | 2018-09-07 | 北京市商汤科技开发有限公司 | 人脸检测方法及装置 |
CN108875911B (zh) * | 2018-05-25 | 2021-06-18 | 同济大学 | 一种泊车位检测方法 |
CN108985214A (zh) * | 2018-07-09 | 2018-12-11 | 上海斐讯数据通信技术有限公司 | 图像数据的标注方法和装置 |
CN109447034B (zh) * | 2018-11-14 | 2021-04-06 | 北京信息科技大学 | 基于YOLOv3网络的自动驾驶中交通标识检测方法 |
CN109670405B (zh) * | 2018-11-23 | 2021-01-19 | 华南理工大学 | 一种基于深度学习的复杂背景行人检测方法 |
US11354903B2 (en) * | 2018-12-18 | 2022-06-07 | Intel Corporation | Bidirectional pairing architecture for object detection in video |
CN109858476B (zh) * | 2019-01-30 | 2021-01-22 | 中兴飞流信息科技有限公司 | 标签的扩充方法和电子设备 |
CN110427860B (zh) * | 2019-07-26 | 2022-03-25 | 武汉中海庭数据技术有限公司 | 一种车道线识别方法、装置及存储介质 |
CN111223099B (zh) * | 2020-04-17 | 2020-07-28 | 浙江啄云智能科技有限公司 | 违禁品检测方法、一种计算设备及存储介质 |
-
2020
- 2020-07-21 CN CN202080004848.5A patent/CN112654999B/zh active Active
- 2020-07-21 EP EP20946487.4A patent/EP4181013A4/en active Pending
- 2020-07-21 JP JP2023504425A patent/JP2023534850A/ja active Pending
- 2020-07-21 WO PCT/CN2020/103205 patent/WO2022016355A1/zh unknown
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436583A (zh) * | 2011-09-26 | 2012-05-02 | 哈尔滨工程大学 | 基于对标注图像学习的图像分割方法 |
CN108268575A (zh) * | 2017-01-04 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 标注信息的处理方法、装置和系统 |
CN107067025A (zh) * | 2017-02-15 | 2017-08-18 | 重庆邮电大学 | 一种基于主动学习的数据自动标注方法 |
CN108898166A (zh) * | 2018-06-13 | 2018-11-27 | 北京信息科技大学 | 一种图像标注方法 |
CN109829397A (zh) * | 2019-01-16 | 2019-05-31 | 创新奇智(北京)科技有限公司 | 一种基于图像聚类的视频标注方法、系统以及电子设备 |
CN110750523A (zh) * | 2019-09-12 | 2020-02-04 | 苏宁云计算有限公司 | 数据标注方法、系统、计算机设备和存储介质 |
CN111242943A (zh) * | 2020-01-22 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、图像处理设备及存储介质 |
CN111292341A (zh) * | 2020-02-03 | 2020-06-16 | 北京海天瑞声科技股份有限公司 | 图像标注方法、图像标注装置及计算机存储介质 |
Non-Patent Citations (3)
Title |
---|
Multi-evidence Filtering and Fusion for Multi-label Classification, Object Detection and Semantic Segmentation Based on Weakly Supervised Learning;W. Ge等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181231;第1277-1286页 * |
Pruned sets for multi-label stream classification without true labels;Júnior J D C等;《2019 International Joint Conference on Neural Networks (IJCNN)》;20191231;第1-8页 * |
一种改进模糊C均值聚类的图像标注方法;李长磊等;《小型微型计算机系统》;20181231;第39卷(第8期);第1860-1864页 * |
Also Published As
Publication number | Publication date |
---|---|
EP4181013A4 (en) | 2023-08-16 |
JP2023534850A (ja) | 2023-08-14 |
WO2022016355A1 (zh) | 2022-01-27 |
EP4181013A1 (en) | 2023-05-17 |
CN112654999A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197658B (zh) | 图像标注信息处理方法、装置、服务器及系统 | |
WO2022083402A1 (zh) | 障碍物检测方法、装置、计算机设备和存储介质 | |
US11043000B2 (en) | Measuring method and apparatus for damaged part of vehicle | |
US11328401B2 (en) | Stationary object detecting method, apparatus and electronic device | |
US20200334638A1 (en) | Method and apparatus for processing loss assessment data for car insurance and processing device | |
CN112654999B (zh) | 标注信息的确定方法及装置 | |
KR20190124559A (ko) | 컴퓨팅 장치 및 이를 이용한 인공 지능 기반 영상 처리 서비스 시스템 | |
CN113807350A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
US10373316B2 (en) | Images background subtraction for dynamic lighting scenarios | |
US20200201339A1 (en) | Robot movement control method and apparatus and robot using the same | |
CN110852258A (zh) | 物体检测方法、装置、设备及存储介质 | |
EP3706095A1 (en) | Evaluation device, evaluation system, vehicle, and program | |
CN114299030A (zh) | 物体检测模型处理方法、装置、设备及存储介质 | |
CN113033715B (zh) | 目标检测模型训练方法和目标车辆检测信息生成方法 | |
WO2021185104A1 (zh) | 一种车道线信息确定方法及装置 | |
CN111127480B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN115588008B (zh) | 基于视觉的单车规范摆放的判定方法及其应用 | |
CN110378178B (zh) | 目标跟踪方法及装置 | |
CN116107902A (zh) | 测试数据的回灌方法和装置、测试数据的回灌系统 | |
CN112785595A (zh) | 目标属性检测、神经网络训练及智能行驶方法、装置 | |
CN114913340A (zh) | 一种车位检测方法、装置、设备及存储介质 | |
CN115272682A (zh) | 目标对象检测方法、目标检测模型的训练方法及电子设备 | |
US10854072B2 (en) | System and method for automatic calibration of vehicle position determining device in a traffic system | |
CN115147752A (zh) | 一种视频分析方法、装置及计算机设备 | |
CN111143423B (zh) | 动态场景标注数据挖掘方法、装置以及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |