CN113704519B - 一种数据集的确定方法、装置、计算机设备以及存储介质 - Google Patents

一种数据集的确定方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN113704519B
CN113704519B CN202110986886.1A CN202110986886A CN113704519B CN 113704519 B CN113704519 B CN 113704519B CN 202110986886 A CN202110986886 A CN 202110986886A CN 113704519 B CN113704519 B CN 113704519B
Authority
CN
China
Prior art keywords
semantic
data
database
tag
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110986886.1A
Other languages
English (en)
Other versions
CN113704519A (zh
Inventor
张元瀚
黄耿石
刘冬阳
滕家宁
王坤
尹榛菲
邵婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202110986886.1A priority Critical patent/CN113704519B/zh
Publication of CN113704519A publication Critical patent/CN113704519A/zh
Priority to PCT/CN2022/079074 priority patent/WO2023024474A1/zh
Application granted granted Critical
Publication of CN113704519B publication Critical patent/CN113704519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据集的确定方法、装置、计算机设备以及存储介质,其中,该方法包括:获取包含多个语义信息的语义数据库;基于所述语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别;基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合。

Description

一种数据集的确定方法、装置、计算机设备以及存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种数据集的确定方法、装置、计算机设备以及存储介质。
背景技术
在计算机视觉领域,需要对设计好的模型进行性能测试,此时,可以根据相应的测试集对设计好的模型进行性能测试。然而,现有的测试集通常为预先已经设定好的数据集,例如,ImageNet数据集等。由于现有的测试集中包含在各种场景下包含多种类型的物体的测试数据,因此,通过现有的测试集对模型进行测试时,无法反应出该模型针对各种类型的物体所对应的测试数据的测试性能。此时,在采用现有的测试集对模型进行性能测试时,将影响该模型的鲁棒性,从而影响该模型的处理精度。
发明内容
本公开实施例至少提供一种数据集的确定方法、装置、计算机设备以及存储介质。
第一方面,本公开实施例提供了一种数据集的确定方法,包括:获取包含多个语义信息的语义数据库;基于所述语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别;基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合。
通过上述描述可知,本公开实施例通过对语义数据库进行处理得到对应多个语义类别的标签数据,并基于确定出的多个标签数据创建对应多个语义类别的测试数据集合的方式,可以得到对应多个语义类别的测试数据集合,在通过确定出的多个测试数据集合对待测试模型进行性能测试时,可以实现全方位对待测试模型进行测试,从而得到待测试模型的全方位表示性能。通过该测试方式,可以提高待测试模型的鲁棒性,进而提高待测试模型的模型处理精度。
一种可选的实施方式中,所述语义数据库为多个,所述基于所述语义数据库创建多个标签数据,包括:将多个语义数据库中的语义信息进行融合,得到融合语义数据库;其中,所述融合语义数据库中包含多个融合语义信息和多个融合语义信息之间的层次信息;确定待划分的多个语义类别,并按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据。
通过上述描述可知,通过将多个语义数据库进行语义融合,可以得到更加全面的语义数据库,即融合语义数据库。在根据该融合语义数据库确定多个标签数据时,就可以得到语义类别更加丰富的标签数据,通过该多个标签数据所对应测试数据集合对待测试模型进行测试时,可以实现待测试模型的全方位测试,从而得到待测试模型的全方位表示性能。
一种可选的实施方式中,所述将多个语义数据库中的语义信息进行融合,得到融合语义数据库,包括:在所述多个语义数据库的第一语义数据库中确定待融合语义信息;所述待融合语义信息在所述第一语义数据库中不包含下一层级的语义信息;基于所述第一语义数据库中语义信息间的层次信息,确定所述待融合语义信息所在的语义路径,所述语义路径包含至少一个语义信息;基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,所述第二语义数据库为所述多个语义数据库中除所述第一语义数据库之外的数据库。
通过上述描述可知,通过基于语义信息之间的层次信息确定待融合语义信息所在的语义路径,进而根据该语义路径将待融合语义信息和第二语义数据库中的语义信息进行融合的方式,可以更加快速准确的确定出待融合语义信息和第二语义数据库中语义信息之间的映射关系,从而能够实现最大可能将每个待融合语义信息和第二语义数据库中的语义信息进行融合,进而得到包含更加全面的语义信息的融合语义数据库。
一种可选的实施方式中,所述基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,包括:按照由高到低的层次顺序,在所述高层次语义信息中确定目标语义信息;所述目标语义信息在所述第二语义数据库中包含相对应的语义信息;将所述待融合语义信息和所述第二语义数据库中与所述目标语义信息相对应的语义信息的下一层次的语义信息进行融合,得到所述融合语义数据库。
在本公开实施例中,通过将多个语义数据库中的语义信息进行融合,得到融合语义数据库的方式,可以得到包含更加丰富、更加全面的语义信息,在基于该融合语义数据库确定多个标签数据时,就可以得到对应多种语义类型的标签数据,从而实现对待测试模型进行全方位表示测试,进而提高待测试模型的鲁棒性,同时提高该待测试模型的适用范围,以提高该待测试模型的处理精度。
一种可选的实施方式中,所述融合语义数据库为树形结构的数据库;所述按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据,包括:在所述树形结构的数据库中确定与每个语义类别相对应的节点,得到多个目标节点;将每个所述目标节点作为根节点,对所述树形结构的数据库进行划分,划分得到多个子树形结构的数据库,其中,每个子树形结构的数据库对应一个目标节点;基于所述多个子树形结构的数据库确定所述多个标签数据,其中,每个标签数据中的物体标签为对应子树形结构的数据库中的语义信息。
在本公开实施例中,根据需要划分的语义类别,将融合语义数据库划分为对应多个语义类别的标签数据,再根据该多个标签数据确定多个测试数据集合,可以得到能够对待测试模型进行全方位表示测试的数据集合,在根据该多个测试数据集合进行模型测试时,可以确定出待测试模型在每个语义类别上的性能表现。
一种可选的实施方式中,所述预设数据集合中包含多个数据和多个数据的数据标签;所述基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,包括:确定每个标签数据中所包含的物体标签;将所述预设数据集合中的数据标签与所述物体标签进行匹配,确定至少一组匹配标签;在所述预设数据集合中确定与每组匹配标签中的数据标签相对应的至少一个数据,并将所述相对应的至少一个数据确定为与该组匹配标签中的物体标签相匹配的数据。
在本公开实施例中,上述预设数据集合可以选择为以下两个数据集:ImageNet和Places。由于数据集ImageNet和Places中包含大量的自然图片,因此,在基于数据集ImageNet和Places来确定多个测试数据集合时,可以得到更加全面的数据集合,在根据该多个测试数据集合对待测试模型进行测试时,可以确定出待测试模型在每个语义类别上的性能表现。
一种可选的实施方式中,所述方法还包括:通过每个测试数据集合对所述待测试模型进行测试处理,得到多个测试结果;计算所述多个测试结果的平均值,并将所述平均值确定为对所述待测试模型进行全方位表示测试的测试结果。
在本公开实施例中,通过对待测试模型在多个测试数据集上进行测试,得到多个测试结果,再对多个测试结果进行平均值计算,得到对待测试模型进行全方位表示测试的测试结果的方式,可以通过量化的方式确定待测试模型的全方位表示,从而确定该待测试模型的鲁棒性。通过确定上述测试结果,还可以指导相关技术人员对该待测试模型进行针对性训练,从而使得该待测试模型能够在每个语义类别下的测试数据中均得到较好的处理结果。
一种可选的实施方式中,所述方法还包括:在所述预设数据集合中未确定出与目标标签数据中的目标物体标签相匹配数据的情况下,确定所述目标标签数据所对应目标语义类别;在备选数据库中查找与所述目标语义类别相匹配的匹配数据库,并在所述匹配数据库中查找与所述目标物体标签相匹配数据。
通过上述处理方式,可以得到更加全面的测试数据集合,在根据该测试数据集合对待测试模型进行全方位测试时,可以得到更加准确的测试结果。
一种可选的实施方式中,所述方法还包括:在所述预设数据集合中确定出目标数据标签的情况下,基于所述预设数据集合中数据标签之间的层次信息,确定所述目标数据标签的上一层次标签;所述目标数据标签为在多个标签数据的物体标签中不包含对应物体标签的数据标签;确定所述上一层次标签所对应的语义信息,并在所述多个标签数据中确定与所述上一层次标签所对应的语义信息相匹配的语义信息;将所述目标数据标签所对应的语义信息作为新语义信息,添加至所述相匹配的语义信息的下一层次的语义信息中,并基于所述预设数据集合为所述新语义信息确定相匹配数据。
在本公开实施中,通过预设数据集中的数据标签对多个标签数据中的物体标签所对应的语义信息进行补充,可以丰富标签数据中的语义信息,得到更多更全面的融合语义数据库,从而可以得到待测试模型的测试准确度。
第二方面,本公开实施例还提供一种数据集的确定装置,包括:获取单元,用于获取包含多个语义信息的语义数据库;创建单元,用于基于所述语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别;确定单元,用于基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
在本公开实施例中,首先,获取包含多个语义信息的语义数据库,之后,可以基于语义数据库创建多个标签数据,并基于预设数据集合,为各个标签数据的物体标签确定相匹配数据,进而得到多个测试数据集合。通过上述描述可知,本公开实施例通过对语义数据库进行处理得到对应多个语义类别的标签数据,并基于确定出的多个标签数据创建对应多个语义类别的测试数据集合的方式,可以得到对应多个语义类别的测试数据集合,在通过确定出的多个测试数据集合对待测试模型进行性能测试时,可以实现全方位对待测试模型进行测试,从而得到待测试模型的全方位表示性能。通过该测试方式,可以提高待测试模型的鲁棒性,进而提高待测试模型的模型处理精度。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种数据集的确定方法的流程图;
图2示出了本公开实施例所提供一种树形结构的第一语义数据库的结构示意图;
图3示出了本公开实施例所提供的数据集的确定方法中,基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据的具体步骤的流程图;
图4示出了本公开实施例所提供的一种数据集的确定装置的示意图;
图5示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,现有的测试集通常为预先已经设定好的数据集,例如,ImageNet数据集等。由于现有的测试集中包含在各种场景下包含多种类型的物体的测试数据,因此,通过现有的测试集对模型进行测试时,无法反应出该模型针对各种类型的物体所对应的测试数据的测试性能。此时,在采用现有的测试集对模型进行性能测试时,将影响该模型的鲁棒性,从而影响该模型的处理精度。
基于上述研究,本公开提供了一种数据集的确定方法、装置、计算机设备以及存储介质。通过上述描述可知,本公开实施例通过对语义数据库进行处理得到对应多个语义类别的标签数据,并基于确定出的多个标签数据创建对应多个语义类别的测试数据集合的方式,可以得到对应多个语义类别的测试数据集合,在通过确定出的多个测试数据集合对待测试模型进行性能测试时,可以实现全方位对待测试模型进行测试,从而得到待测试模型的全方位表示性能。通过该测试方式,可以提高待测试模型的鲁棒性,进而提高待测试模型的模型处理精度。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种数据集的确定方法进行详细介绍,本公开实施例所提供的数据集的确定方法的执行主体一般为具有一定计算能力的计算机设备。
参见图1所示,为本公开实施例提供的一种数据集的确定方法的流程图,所述方法包括步骤S101~S105,其中:
S101:获取包含多个语义信息的语义数据库。
这里,语义数据库中包含的多个语义信息可以用来表示各种实体的信息,这里,实体的信息也可以称为物体的概念信息。
这里,语义信息可以是中文信息,也可以是外文信息,本公开对此不作具体限定。例如,语义信息可以是中文信息,语义信息还可以是英文信息。例如,语义信息可以是猫、狗、行人、汽车等信息,也可以是cat、domenstic cat、person等信息。
在本公开实施例中,语义数据库中除了包含多个语义信息之外,还可以包含多个语义信息之间的层次信息,其中,该层次信息用于表征多个语义信息之间的所属关系(或者上下级关系)。
例如,多个语义信息包含哺乳动物、爬行动物、老虎、狗、蛇、蜥蜴等信息。此时,哺乳动物、爬行动物等信息可以作为一个层次的语义信息。此时,老虎、狗等语义信息则属于对应哺乳动物这一类别的下一层次的语义信息。此时,蛇、蜥蜴等语义信息属于对应爬行动物这一类别的下一层次的语义信息。此时,哺乳动物与老虎、狗;爬行动物与蛇、蜥蜴等信息之间的关系就构成了语义数据库中的层次信息(也即所属关系或者上下级关系)。
在本公开实施例中,获取到的语义数据库的数量可以为多个,本公开对获取到的多个语义数据库的数量不作具体限定。例如,获取到的语义数据库的数量可以为2个,也可以为3个,4个等,本公开不作具体限定。
示例性地,获取到的多个语义数据库的数量可以为2个,并且这2个语义数据库中的语义信息都可以用来表征自然环境中物体。例如,这2个语义数据库可以为Wordnet语义数据库和Wikidata语义数据库。除此之外,多个语义数据库还可以选择为其他类型的数据库,本公开不再一一列举。
S103:基于语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别。
通过上述描述可知,语义数据库中包含多个语义信息,其中,该多个语义信息所属于多个语义类别,例如,多个语义类别可以为person,food,location,bird,reptile,mammal,insect,fish,clothing,device,structure,vehicle,flower,herb,tree,fruit。
这里,通过设置上述多个语义类别,可以实现对待测试模型进行全方位表示(omni-vision representation)测试。全方位表示测试用于表征通过尽可能多的语义类别下的测试数据(例如,自然图片)对待测试模型进行性能测试,从而得到待测试模型在每个语义类别下的测试数据的性能测试结果。
此时,可以基于语义数据库创建多个标签数据,每个标签数据对应上述多个语义类别中的一个语义类别。例如,多个标签数据包含:标签数据1、标签数据2和标签数据3,其中,该标签数据1对应语义类别flower;该标签数据2对应语义类别food;该标签数据3对应语义类别location等。
针对每个标签数据包含对应语义类别的物体标签,例如,针对标签数据1,包含所属于语义类别“flower”的物体标签,例如,该物体标签可以为“rose(玫瑰花)”、“jasmine(茉莉花)”等物体标签。
在本公开实施例中,每个标签数据中的物体标签可以理解为语义数据库中对应语义类别下的语义信息。
S105:基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合。
本公开实施例通过对语义数据库进行处理得到对应多个语义类别的标签数据,并基于确定出的多个标签数据创建对应多个语义类别的测试数据集合的方式,可以得到对应多个语义类别的测试数据集合,在通过确定出的多个测试数据集合对待测试模型进行性能测试时,可以实现全方位对待测试模型进行测试,从而得到待测试模型的全方位表示性能。通过该测试方式,可以提高待测试模型的鲁棒性,进而提高待测试模型的模型处理精度。
在一个可选的实施方式中,在语义数据库为多个的情况下,针对S103,基于所述语义数据库创建多个标签数据,具体包括如下过程:
步骤S1031:将多个语义数据库中的语义信息进行融合,得到融合语义数据库;其中,所述融合语义数据库中包含多个融合语义信息和多个融合语义信息之间的层次信息;
步骤S1032:确定待划分的多个语义类别,并按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据。
在语义数据库的数量为多个时,可以将多个语义数据库中的语义信息进行融合,可以得到融合语义数据库;之后,可以根据待划分的多个语义类别对融合语义数据库进行划分,划分得到多个标签数据。
在本公开实施例中,可以从多个语义数据库中选择一个语义数据库作为基准语义数据库。然后,建立该基准语义数据库中的语义信息和多个语义数据库中剩余语义数据库中语义信息之间的语义映射关系,进而根据该语义映射关系将多个语义数据库中的语义信息进行融合,得到融合语义数据库。
示例性地,当获取的多个语义数据库的数量为2个时,这两个语义数据库可以为Wordnet语义数据库以及Wikidata语义数据库,此时,可以选定Wikidata作为基准语义数据库,Wordnet即为多个语义数据库中剩余语义数据库。
这里,可以基于基准语义数据库中不包含下一层级语义信息的语义信息在该基准语义数据库中的语义路径,建立上述语义映射关系。
在选择基准语义数据库时,可以从多个语义数据库中将对应较多数量的概念信息(语义信息)的语义数据库确定为基准语义数据库。
通过上述描述可知,通过将多个语义数据库进行语义融合,可以得到更加全面的语义数据库,即融合语义数据库。在根据该融合语义数据库确定多个标签数据时,就可以得到语义类别更加丰富的标签数据,通过该多个标签数据所对应测试数据集合对待测试模型进行测试时,可以实现待测试模型的全方位测试,从而得到待测试模型的全方位表示性能。
在一个可选的实施方式中,针对S1031,将多个语义数据库中的语义信息进行融合,得到融合语义数据库,具体包括如下步骤:
步骤S11:在所述多个语义数据库的第一语义数据库中确定待融合语义信息;所述待融合语义信息在所述第一语义数据库中不包含下一层级的语义信息;
步骤S12:基于所述第一语义数据库中语义信息间的层次信息,确定所述待融合语义信息所在的语义路径,所述语义路径包含至少一个语义信息;
步骤S13:基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,所述第二语义数据库为所述多个语义数据库中除所述第一语义数据库之外的数据库。
在本公开实施例中,从多个语义数据库中选择一个或多个语义数据库作为第一语义数据库。这里的第一语义数据库即为上述所描述的基准语义数据库,此时,可以将多个语义数据库中将对应较多数量的概念信息(语义信息)的语义数据库确定为第一语义数据库。
在确定出第一语义数据库之后,可以根据第一语义数据库中所包含的语义信息之间的层次信息,在第一语义数据库中确定待融合语义信息。这里,可以将第一语义数据库中不包含下一层级的语义信息确定为待融合语义信息。
例如,如图2所示。如图2所示的为树形结构的第一语义数据库,从如图2所示的第一语义数据库可知,该第一语义数据库包含:节点1和节点2,其中,节点1包含节点11至节点14,节点2包含节点21至节点23,节点11包含节点111和节点112,此时,节点12至节点14,节点21至节点23,以及节点111和节点112所对应的语义信息不包含下一层级的语义信息,此时,可以将上述节点所对应的语义信息确定为待融合语义信息。
之后,就可以确定每个待融合语义信息在第一语义数据库中所在语义路径。例如,针对图2中的“节点111”,该节点111所对应的待融合语音信息所对应的语义路径可以为:节点1-节点11-节点111。
此时,就可以根据该语义路径中位于该待融合语义信息之间的高层次语义信息,将待融合语义信息和第二语义数据库中的语义信息进行融合。例如,可以根据“节点1”所对应的语义信息和“节点11”所对应的语义信息,将“节点111”所对应的待融合语义信息和第二语义数据库中的语义信息进行融合。
在一个可能的实施方式中,在多个语义数据库的数量大于2个的情况下,可以按照上述所描述的方式从多个语义数据库中确定一个第一语义数据库,然后,将该第一语义数据库中的待融合语义信息分别与剩余的语义数据库(即,第二语义数据库)中的语义信息进行融合,具体融合过程为上述步骤S11至步骤S13所描述的过程,此处不再一一赘述。
通过上述描述可知,通过基于语义信息之间的层次信息确定待融合语义信息所在的语义路径,进而根据该语义路径将待融合语义信息和第二语义数据库中的语义信息进行融合的方式,可以更加快速准确的确定出待融合语义信息和第二语义数据库中语义信息之间的映射关系,从而能够实现最大可能将每个待融合语义信息和第二语义数据库中的语义信息进行融合,进而得到包含更加全面的语义信息的融合语义数据库。
在一个可选的实施方式中,针对S13,基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,包括如下步骤:
(1)、按照由高到低的层次顺序,在所述高层次语义信息中确定目标语义信息;所述目标语义信息在所述第二语义数据库中包含相对应的语义信息;
(2)、将所述待融合语义信息和所述第二语义数据库中与所述目标语义信息相对应的语义信息的下一层次的语义信息进行融合,得到所述融合语义数据库。
在本公开实施例中,得到待融合语义信息的语义路径后,就可以得到第一语义数据库中位于待融合语义信息之前的高层次语义信息,例如,如图2中所示的“节点1”所对应的语义信息和“节点11”所对应的语义信息。此时,可以将得到的高层次语义信息按照从高到低的层次顺序,在高层次语义信息中确定目标语义信息,具体过程描述如下:
首先,根据语义路径,确定待融合语义信息的上一层次的语义信息,然后,判断第二语义数据库中是否包含与该上一层次的语义信息相对应的语义信息。在判断出包含的情况下,将该上一层次的语义信息确定为目标语义信息。在判断出不包含的情况下,继续确定该上一层次的语义信息的上一层次的语义信息,并判断该第二语义数据库中是否包含与该上一层次的语义信息的上一层次的语义信息相对应的语义信息。在判断出包含的情况下,将该上一层次的语义信息的上一层次的语义信息确定为目标语义信息,否则,沿着语义路径继续向上查找高层次语义信息。
假设,多个语义数据库包含Wikidata数据库和Wordnet数据库。这里,可以选择第一语义数据库为Wikidata数据库,第二语义数据库为Wordnet数据库。
首先,从Wikidata语义数据库中选择待融合语义信息,该待融合语义信息不包含下一层次的语义信息,例如,该待融合语义信息可以为Toyger信息,之后可以确定Toyger信息在Wikidata语义数据库中的语义路径,例如,该语义路径为Toyger-Domestic Cat-Cat。
在得到上述语义路径之后,可以确定Toyger信息的高层次语义信息,例如,分别为Domestic Cat信息和Cat信息。根据得到的高层次语义信息,按照从高到低的层次顺序(或者理解为从下往上的层次顺序)可以确定目标语义信息,例如,该目标语义信息为DomesticCat信息。此时,该目标语义信息在Wordnet语义数据库中所对应的语义信息也为DomesticCat信息。此时,可以将Wikidata语义数据库中的Toyger信息(待融合语义信息)和Wordnet语义数据库中的Domestic Cat信息的下一层次的语义信息进行融合。
针对Wikidata语义数据库中的每个待融合语义信息,均可以采用上述所描述的方式,将待融合语义信息和Wordnet语义数据库中的语义信息进行融合。在对每个待融合语义信息进行融合之后,可以得到相应的融合语义数据库。
在本公开实施例中,当获取的多个语义数据库的数量大于2个时,假设可以选择第N个语义数据库作为第一语义数据库,然后,从剩余的N-1个语义数据库中任意选择一个语义数据库作为第二语义数据库,此时,可以从第一语义数据库中选择待融合语义信息,并将待融合语义信息与第二语义数据库中的语义信息进行融合,从而完成两个语义数据库的融合,得到融合语义数据库M。之后,再从剩余的N-2个语义数据库中选择一个语义数据库作为第一语义数据库,上述语义数据库M作为第二语义数据库进行语义信息的融合,以此类推,直到完成所有获取的语义数据库中语义信息的融合,得到最终的融合语义数据库。
在本公开实施例中,通过将多个语义数据库中的语义信息进行融合,得到融合语义数据库的方式,可以得到包含更加丰富、更加全面的语义信息,在基于该融合语义数据库确定多个标签数据时,就可以得到对应多种语义类型的标签数据,从而实现对待测试模型进行全方位表示测试,进而提高待测试模型的鲁棒性,同时提高该待测试模型的适用范围,以提高该待测试模型的处理精度。
在一个可选的实施方式中,在融合语义数据库为树形结构的数据库的情况下,针对S1032,按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据,具体包括如下步骤:
步骤S21:在所述树形结构的数据库中确定与每个语义类别相对应的节点,得到多个目标节点;
步骤S22:将每个所述目标节点作为根节点,对所述树形结构的数据库进行划分,划分得到多个子树形结构的数据库,其中,每个子树形结构的数据库对应一个目标节点;
步骤S23:基于所述多个子树形结构的数据库确定所述多个标签数据,其中,每个标签数据中的物体标签为对应子树形结构的数据库中的语义信息。
在本公开实施例中,多个语义数据库可以为树形结构的数据库,其中,树形结构的数据库中的每个节点可以代表一个语义信息,每个语义信息可以代表相应的物体信息。此时,树形结构的数据库中的每个节点可以包含对应的子节点,此时,该节点与该节点的子节点之间的层级关系就构成了该节点所对应的语义信息和子节点所对应的语义信息之间的层次信息。
在按照上述所描述的方式对多个语义数据库进行融合,得到融合语义数据库之后,同样可以得到一个树形结构的融合语义数据库。因此,该树形结构的融合语义数据库中同样可以包含多个节点,每个节点可以包含对应的子节点,每个节点用于表征融合语义数据库中的语义信息。
这里,在确定出待划分的多个语义类别之后,可以在树形结构的融合语义数据库中确定每个语义类别所对应的节点。例如,多个语义类别可以为person,food,location,bird,reptile,mammal,insect,fish,clothing,device,structure,vehicle,flower,herb,tree,fruit。此时,可以确定每个语义类别在该树形结构的融合语义数据库中所对应的节点。例如,多个语义类别为person,food,location,此时,可以确定出每个语义类别所对应的节点为节点A、节点B、节点C,其中,节点A、节点B、节点C即为上述多个目标节点。
在确定出多个目标节点之后,可以将每个目标节点作为根节点,对树形结构的数据库进行划分,从而划分得到多个子树形结构的数据库。
在得到多个子树形结构的数据库之后,针对每个子树形结构的数据库,可以将该子树形结构的数据库中所包含的语义信息确定为对应标签数据中的物体标签,并将该子树形结构的数据库所包含的语义信息之间层次信息,确定为对应标签数据中所包含物体标签之间的层次信息。
这里,待划分的语义类别的数量和名称可以根据测试模型的实际需要进行确定,此处不作具体限定。
在本公开实施例中,根据需要划分的语义类别,将融合语义数据库划分为对应多个语义类别的标签数据,再根据该多个标签数据确定多个测试数据集合,可以得到能够对待测试模型进行全方位表示测试的数据集合,在根据该多个测试数据集合进行模型测试时,可以确定出待测试模型在每个语义类别上的性能表现。
在一个可选的实施方式中,如图3所示,在预设数据集合中包含多个数据和多个数据的数据标签的情况下;针对上述步骤S105,基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,具体包括如下步骤:
步骤S1051:确定每个标签数据中所包含的物体标签;
步骤S1052:将所述预设数据集合中的数据标签与所述物体标签进行匹配,确定至少一组匹配标签;
步骤S1053:在所述预设数据集合中确定与每组匹配标签中的数据标签相对应的至少一个数据,并将所述相对应的至少一个数据确定为与该组匹配标签中的物体标签相匹配的数据。
这里,预设数据集合可以为自然图片集合,除此之外,该预设数据集合还可以为包含其他类型数据的集合,本公开对此不再详细描述。
在本公开实施例中,首先确定每个标签数据中包含的物体标签,之后,将预设数据集合中包含的数据标签与物体标签进行匹配,得到至少一组匹配标签。
这里,将标签数据中的物体标签与预设数据集合中的数据标签进行匹配的过程,可以理解为将物体标签所对应的语义信息和数据标签对应的语义信息进行比对,当语义信息相同或者相近时表示匹配成功,此时,匹配成功的物体标签和数据标签则可以构成一组匹配标签。
语义信息相同可以理解为物体标签为bike,且数据标签为bike;语义信息相近可以理解为物体标签为bike,且数据标签为bicycle。这里,虽然物体标签bike和数据标签bicycle不相同,但是bike和bicycle所表示的物体是相同的。因此,在本公开实施例中,语义信息相近可以理解为对应相同物体的物体标签和数据标签。
在按照上述所描述的方式得到至少一组匹配标签之后,就可以确定每组匹配标签中的数据标签在预设数据集合中所对应的数据,进而将该数据作为与该组匹配标签中的物体标签相匹配数据。
通过上述处理方式就可以确定每个标签数据中物体标签的相匹配数据。在得到的每个标签数据中物体标签的相匹配数据之后,就可以将每个标签数据中全部物体标签的相匹配数据的集合作为该标签数据所对应的测试数据集合,此时,就可以得到多个测试数据集合。
在本公开实施例中,上述预设数据集合可以选择为以下两个数据集:ImageNet和Places。由于数据集ImageNet和Places中包含大量的自然图片,因此,在基于数据集ImageNet和Places来确定多个测试数据集合时,可以得到更加全面的数据集合,在根据该多个测试数据集合对待测试模型进行测试时,可以确定出待测试模型在每个语义类别上的性能表现。
在一个可选的实施方式中,本公开实施例还包括如下步骤:
步骤S11:通过每个测试数据集合对所述待测试模型进行测试处理,得到多个测试结果;
步骤S12:计算所述多个测试结果的平均值,并将所述平均值确定为对所述待测试模型进行全方位表示测试的测试结果。
在本公开实施例中,可以将得到的多个测试数据集合分别输入到待测试模型中进行测试处理。待测试模型在每个测试数据集合上均可以得到一个测试结果。此时,可以计算得到的多个测试结果的平均值,得到对该待测试模型进行全方位表示测试的测试结果。
在本公开实施例中,每个测试结果可以用于反映该待测试模型在对应语义类别下的表现情况,例如,当测试结果大于某个阈值,则可以确定该待测试模型在处于该语义类别下的数据时,可以得到较好的处理结果。
在本公开实施例中,通过对待测试模型在多个测试数据集上进行测试,得到多个测试结果,再对多个测试结果进行平均值计算,得到对待测试模型进行全方位表示测试的测试结果的方式,可以通过量化的方式确定待测试模型的全方位表示,从而确定该待测试模型的鲁棒性。通过确定上述测试结果,还可以指导相关技术人员对该待测试模型进行针对性训练,从而使得该待测试模型能够在每个语义类别下的测试数据中均得到较好的处理结果。
在一个可选的实施方式中,本公开方法还包括如下步骤:
步骤S21:在所述预设数据集合中未确定出与目标标签数据中的目标物体标签相匹配数据的情况下,确定所述目标标签数据所对应目标语义类别;
步骤S22:在备选数据库中查找与所述目标语义类别相匹配的匹配数据库,并在所述匹配数据库中查找与所述目标物体标签相匹配数据。
在本公开实施例中,当预设数据集合中未能确定出与目标标签数据中的目标物体标签相匹配的数据时,可以根据目标标签数据所对应的语义类别,在备选数据库中查找与该语义类别相匹配的匹配数据库,并在相匹配的匹配数据库中寻找与目标物体标签相匹配的数据。
这里,备选数据库是指除上述预设数据集合之外的数据库,例如,备选数据库可以为根据语义类别或者目标物体标签对应的语义信息,在网络进行搜索得到的相匹配数据,备选数据库还可以为用户根据语义类别以及语义信息提供的相匹配的数据,这里对备选数据库不作具体限定,以能满足实际需求为主。
通过上述处理方式,可以得到更加全面的测试数据集合,在根据该测试数据集合对待测试模型进行全方位测试时,可以得到更加准确的测试结果。
在一个可选的实施方式中,本公开方法还包括如下步骤:
步骤S31:在所述预设数据集合中确定出目标数据标签的情况下,基于所述预设数据集合中数据标签之间的层次信息,确定所述目标数据标签的上一层次标签;所述目标数据标签为在多个标签数据的物体标签中不包含对应物体标签的数据标签;
步骤S32:确定所述上一层次标签所对应的语义信息,并在所述多个标签数据中确定与所述上一层次标签所对应的语义信息相匹配的语义信息;
步骤S33:将所述目标数据标签所对应的语义信息作为新语义信息,添加至所述相匹配的语义信息的下一层次的语义信息中,并基于所述预设数据集合为所述新语义信息确定相匹配数据。
在本公开实施例中,若在多个标签数据中未找到与目标数据标签相匹配的物体标签,则可以根据预设数据集合中数据标签之间的层次信息,确定目标数据标签的上一层次的标签,进而,确定该上一层次的标签所对应的语义信息,例如,该语义信息记为M。之后,可以在多个标签数据中确定与语义信息M相匹配的语义信息,记为语义信息N。此时,将预设数据集合中目标数据标签所对应的语义信息作为新语义信息添加至语义信息N的下一层次的语义信息中,并将预设数据集合中与该目标数据标签所对应的数据作为新语义信息的相匹配数据。
在本公开实施中,通过预设数据集中的数据标签对多个标签数据中的物体标签所对应的语义信息进行补充,可以丰富标签数据中的语义信息,得到更多更全面的融合语义数据库,从而可以得到待测试模型的测试准确度。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与数据集的确定方法对应的数据集的确定方法装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据集的确定方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图4所示,为本公开实施例提供的一种数据集的确定装置的示意图,所述装置包括:获取单元模块41、创建单元模块42、确定单元模块43;其中,
获取单元模块41,用于获取包含多个语义信息的语义数据库;
创建单元模块42,用于基于所述语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别;
确定单元模块43,用于基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合。
本公开实施例通过对语义数据库进行处理得到对应多个语义类别的标签数据,并基于确定出的多个标签数据创建对应多个语义类别的测试数据集合的方式,可以得到对应多个语义类别的测试数据集合,在通过确定出的多个测试数据集合对待测试模型进行性能测试时,可以实现全方位对待测试模型进行测试,从而得到待测试模型的全方位表示性能。通过该测试方式,可以提高待测试模型的鲁棒性,进而提高待测试模型的模型处理精度。
一种可能的实施方式中,创建单元模块,还用于:将多个语义数据库中的语义信息进行融合,得到融合语义数据库;其中,所述融合语义数据库中包含多个融合语义信息和多个融合语义信息之间的层次信息;确定待划分的多个语义类别,并按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据。
一种可能的实施方式中,创建单元模块,还用于:在所述多个语义数据库的第一语义数据库中确定待融合语义信息;所述待融合语义信息在所述第一语义数据库中不包含下一层级的语义信息;基于所述第一语义数据库中语义信息间的层次信息,确定所述待融合语义信息所在的语义路径,所述语义路径包含至少一个语义信息;基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,所述第二语义数据库为所述多个语义数据库中除所述第一语义数据库之外的数据库。
一种可能的实施方式中,创建单元模块,还用于:按照由高到低的层次顺序,在所述高层次语义信息中确定目标语义信息;所述目标语义信息在所述第二语义数据库中包含相对应的语义信息;将所述待融合语义信息和所述第二语义数据库中与所述目标语义信息相对应的语义信息的下一层次的语义信息进行融合,得到所述融合语义数据库。
一种可能的实施方式中,创建单元模块,还用于:在所述树形结构的数据库中确定与每个语义类别相对应的节点,得到多个目标节点;将每个所述目标节点作为根节点,对所述树形结构的数据库进行划分,划分得到多个子树形结构的数据库,其中,每个子树形结构的数据库对应一个目标节点;基于所述多个子树形结构的数据库确定所述多个标签数据,其中,每个标签数据中的物体标签为对应子树形结构的数据库中的语义信息。
一种可能的实施方式中,确定单元模块,还用于:确定每个标签数据中所包含的物体标签;将所述预设数据集合中的数据标签与所述物体标签进行匹配,确定至少一组匹配标签;在所述预设数据集合中确定与每组匹配标签中的数据标签相对应的至少一个数据,并将所述相对应的至少一个数据确定为与该组匹配标签中的物体标签相匹配的数据。
一种可能的实施方式中,确定单元模块,还用于:通过每个测试数据集合对所述待测试模型进行测试处理,得到多个测试结果;计算所述多个测试结果的平均值,并将所述平均值确定为对所述待测试模型进行全方位表示测试的测试结果。
一种可能的实施方式中,确定单元模块,还用于:在所述预设数据集合中未确定出与目标标签数据中的目标物体标签相匹配数据的情况下,确定所述目标标签数据所对应目标语义类别;在备选数据库中查找与所述目标语义类别相匹配的匹配数据库,并在所述匹配数据库中查找与所述目标物体标签相匹配数据。
一种可能的实施方式中,确定单元模块,还用于:在所述预设数据集合中确定出目标数据标签的情况下,基于所述预设数据集合中数据标签之间的层次信息,确定所述目标数据标签的上一层次标签;所述目标数据标签为在多个标签数据的物体标签中不包含对应物体标签的数据标签;确定所述上一层次标签所对应的语义信息,并在所述多个标签数据中确定与所述上一层次标签所对应的语义信息相匹配的语义信息;将所述目标数据标签所对应的语义信息作为新语义信息,添加至所述相匹配的语义信息的下一层次的语义信息中,并基于所述预设数据集合为所述新语义信息确定相匹配数据。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
对应于图1中的数据集的确定方法,本公开实施例还提供了一种计算机设备500,如图5所示,为本公开实施例提供的计算机设备500结构示意图,包括:
处理器51、存储器52、和总线53;存储器52用于存储执行指令,包括内存521和外部存储器522;这里的内存521也称内存储器,用于暂时存放处理器51中的运算数据,以及与硬盘等外部存储器522交换的数据,处理器51通过内存521与外部存储器522进行数据交换,当所述计算机设备500运行时,所述处理器51与所述存储器52之间通过总线53通信,使得所述处理器51执行以下指令:
获取包含多个语义信息的语义数据库;
基于所述语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别;
基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据集的确定方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据集的确定方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种数据集的确定方法,其特征在于,包括:
获取包含多个语义信息的语义数据库;
基于所述语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别,所述物体标签用于表征所述语义数据库中对应语义类别下的语义信息,所述全方位表示测试用于表征通过尽可能多的语义类别下的测试数据对待测试模式进行性能测试;
基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合;
其中,所述语义数据库为多个,所述基于所述语义数据库创建多个标签数据,包括:
将多个语义数据库中的语义信息进行融合,得到融合语义数据库;其中,所述融合语义数据库中包含多个融合语义信息和多个融合语义信息之间的层次信息;
确定待划分的多个语义类别,并按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据。
2.根据权利要求1所述的方法,其特征在于,所述将多个语义数据库中的语义信息进行融合,得到融合语义数据库,包括:
在所述多个语义数据库的第一语义数据库中确定待融合语义信息;所述待融合语义信息在所述第一语义数据库中不包含下一层级的语义信息;
基于所述第一语义数据库中语义信息间的层次信息,确定所述待融合语义信息所在的语义路径,所述语义路径包含至少一个语义信息;
基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,所述第二语义数据库为所述多个语义数据库中除所述第一语义数据库之外的数据库。
3.根据权利要求2所述的方法,其特征在于,所述基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,包括:
按照由高到低的层次顺序,在所述高层次语义信息中确定目标语义信息;所述目标语义信息在所述第二语义数据库中包含相对应的语义信息;
将所述待融合语义信息和所述第二语义数据库中与所述目标语义信息相对应的语义信息的下一层次的语义信息进行融合,得到所述融合语义数据库。
4.根据权利要求1所述的方法,其特征在于,所述融合语义数据库为树形结构的数据库;所述按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据,包括:
在所述树形结构的数据库中确定与每个语义类别相对应的节点,得到多个目标节点;
将每个所述目标节点作为根节点,对所述树形结构的数据库进行划分,划分得到多个子树形结构的数据库,其中,每个子树形结构的数据库对应一个目标节点;
基于所述多个子树形结构的数据库确定所述多个标签数据,其中,每个标签数据中的物体标签为对应子树形结构的数据库中的语义信息。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述预设数据集合中包含多个数据和多个数据的数据标签;
所述基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,包括:
确定每个标签数据中所包含的物体标签;
将所述预设数据集合中的数据标签与所述物体标签进行匹配,确定至少一组匹配标签;
在所述预设数据集合中确定与每组匹配标签中的数据标签相对应的至少一个数据,并将所述相对应的至少一个数据确定为与该组匹配标签中的物体标签相匹配的数据。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
通过每个测试数据集合对所述待测试模型进行测试处理,得到多个测试结果;
计算所述多个测试结果的平均值,并将所述平均值确定为对所述待测试模型进行全方位表示测试的测试结果。
7.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
在所述预设数据集合中未确定出与目标标签数据中的目标物体标签相匹配数据的情况下,确定所述目标标签数据所对应目标语义类别;
在备选数据库中查找与所述目标语义类别相匹配的匹配数据库,并在所述匹配数据库中查找与所述目标物体标签相匹配数据。
8.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
在所述预设数据集合中确定出目标数据标签的情况下,基于所述预设数据集合中数据标签之间的层次信息,确定所述目标数据标签的上一层次标签;所述目标数据标签为在多个标签数据的物体标签中不包含对应物体标签的数据标签;
确定所述上一层次标签所对应的语义信息,并在所述多个标签数据中确定与所述上一层次标签所对应的语义信息相匹配的语义信息;
将所述目标数据标签所对应的语义信息作为新语义信息,添加至所述相匹配的语义信息的下一层次的语义信息中,并基于所述预设数据集合为所述新语义信息确定相匹配数据。
9.一种数据集的确定装置,其特征在于,包括:
获取单元,用于获取包含多个语义信息的语义数据库;
创建单元,用于基于所述语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别,所述物体标签用于表征所述语义数据库中对应语义类别下的语义信息,所述全方位表示测试用于表征通过尽可能多的语义类别下的测试数据对待测试模式进行性能测试;
确定单元,用于基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合;
其中,所述语义数据库为多个,所述创建单元,在基于所述语义数据库创建多个标签数据时,用于:
将多个语义数据库中的语义信息进行融合,得到融合语义数据库;其中,所述融合语义数据库中包含多个融合语义信息和多个融合语义信息之间的层次信息;
确定待划分的多个语义类别,并按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据。
10.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的数据集的确定方法的步骤。
11.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任意一项所述的数据集的确定方法的步骤。
CN202110986886.1A 2021-08-26 2021-08-26 一种数据集的确定方法、装置、计算机设备以及存储介质 Active CN113704519B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110986886.1A CN113704519B (zh) 2021-08-26 2021-08-26 一种数据集的确定方法、装置、计算机设备以及存储介质
PCT/CN2022/079074 WO2023024474A1 (zh) 2021-08-26 2022-03-03 一种数据集的确定方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110986886.1A CN113704519B (zh) 2021-08-26 2021-08-26 一种数据集的确定方法、装置、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113704519A CN113704519A (zh) 2021-11-26
CN113704519B true CN113704519B (zh) 2024-04-12

Family

ID=78655041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110986886.1A Active CN113704519B (zh) 2021-08-26 2021-08-26 一种数据集的确定方法、装置、计算机设备以及存储介质

Country Status (2)

Country Link
CN (1) CN113704519B (zh)
WO (1) WO2023024474A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704519B (zh) * 2021-08-26 2024-04-12 北京市商汤科技开发有限公司 一种数据集的确定方法、装置、计算机设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069483A (zh) * 2015-08-21 2015-11-18 中国地质大学(武汉) 一种对分类数据集进行测试的方法
CN110147551A (zh) * 2019-05-14 2019-08-20 腾讯科技(深圳)有限公司 多类别实体识别模型训练、实体识别方法、服务器及终端
CN111695052A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 标签分类方法、数据处理设备、可读存储介质
CN112035614A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 测试集生成方法、装置、计算机设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8572086B2 (en) * 2009-01-21 2013-10-29 Telefonaktiebolaget Lm Ericsson (Publ) Generation of annotation tags based on multimodal metadata and structured semantic descriptors
CN105183869B (zh) * 2015-09-16 2018-11-02 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN108984618B (zh) * 2018-06-13 2021-02-02 深圳市商汤科技有限公司 数据处理方法和装置、电子设备和计算机可读存储介质
CN110162644B (zh) * 2018-10-10 2022-12-20 腾讯科技(深圳)有限公司 一种图像集建立方法、装置和存储介质
US11068656B2 (en) * 2019-04-10 2021-07-20 International Business Machines Corporation Displaying text classification anomalies predicted by a text classification model
CN112597135A (zh) * 2021-01-04 2021-04-02 天冕信息技术(深圳)有限公司 用户分类方法、装置、电子设备及可读存储介质
CN113704519B (zh) * 2021-08-26 2024-04-12 北京市商汤科技开发有限公司 一种数据集的确定方法、装置、计算机设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069483A (zh) * 2015-08-21 2015-11-18 中国地质大学(武汉) 一种对分类数据集进行测试的方法
CN110147551A (zh) * 2019-05-14 2019-08-20 腾讯科技(深圳)有限公司 多类别实体识别模型训练、实体识别方法、服务器及终端
CN111695052A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 标签分类方法、数据处理设备、可读存储介质
CN112035614A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 测试集生成方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Active Semantic Labeling of Street View Point Clouds;Yang Zhou 等;《2019 IEEE International Conference on Multimedia and Expo (ICME)》;1588-1593 *
基于深度学习的场景图像语义分割研究;孙昕楠;《 CNKI优秀硕士学位论文全文库》;I138-531 *
基于遗传算法的知识库语义多粒度标注方法研究;黄秀彬;王笑一;李承桓;孙荣;曹璐;;电子设计工程(19);32-36 *

Also Published As

Publication number Publication date
WO2023024474A1 (zh) 2023-03-02
CN113704519A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN110245496B (zh) 一种源代码漏洞检测方法及检测器和其训练方法及系统
Mudrakarta et al. Did the model understand the question?
US20180349355A1 (en) Artificial Intelligence Based Method and Apparatus for Constructing Comment Graph
CN112559554B (zh) 一种查询语句优化方法及装置
CN109948710B (zh) 基于api相似度的微服务识别方法
KR101768852B1 (ko) 트리플 데이터의 생성 방법 및 시스템
CN106919957B (zh) 处理数据的方法及装置
JP6850806B2 (ja) 電子データ構造から属性を抽出するための注釈システム
CN111340054A (zh) 数据标注方法、装置及数据处理设备
CN111966793B (zh) 基于知识图谱的智慧问答方法、系统和知识图谱更新系统
CN110765348B (zh) 一种热词的推荐方法、装置、电子设备及存储介质
KR20190094068A (ko) 온라인 게임에서 게이머 행동 유형을 분류하는 분류기의 학습 방법 및 상기 분류기를 포함하는 장치
CN113704519B (zh) 一种数据集的确定方法、装置、计算机设备以及存储介质
CN114037007A (zh) 数据集的构建方法、装置、计算机设备及存储介质
CN114781688A (zh) 业扩项目的异常数据的识别方法、装置、设备及存储介质
CN112783513A (zh) 一种代码风险检查方法、装置及设备
KR102215299B1 (ko) 오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체
CN116974554A (zh) 代码数据处理方法、装置、计算机设备和存储介质
CN108681490B (zh) 针对rpc信息的向量处理方法、装置以及设备
KR101983477B1 (ko) 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN115577147A (zh) 可视化情报图谱检索方法、装置、电子设备及存储介质
CN115658845A (zh) 一种适用于开源软件供应链的智能问答方法及装置
CN113064982A (zh) 一种问答库生成方法及相关设备
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40055766

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant