CN113032494A - 一种数据表分类、模型训练方法、装置、设备及介质 - Google Patents
一种数据表分类、模型训练方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113032494A CN113032494A CN202110251153.3A CN202110251153A CN113032494A CN 113032494 A CN113032494 A CN 113032494A CN 202110251153 A CN202110251153 A CN 202110251153A CN 113032494 A CN113032494 A CN 113032494A
- Authority
- CN
- China
- Prior art keywords
- data table
- entity element
- information
- element information
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 title claims abstract description 39
- 238000013145 classification model Methods 0.000 claims abstract description 73
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000000717 retained effect Effects 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 19
- 238000007726 management method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据表分类、模型训练方法、装置、设备及介质,所述方法包括:获取数据表中的每个字段信息;根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。本发明实施例将用户画像的思维应用到数据表分类,将每个第一实体要素信息输入预先训练完成的数据表分类模型,确定数据表的类别信息。采用本发明实施例提供的方案可以确定出每个数据表的类别信息,安防管理人员在定位或显示数据表时,可以根据数据表的类别信息快速的定位或显示数据表,提高了定位或显示数据表的效率。
Description
技术领域
本发明涉及数据库技术领域,尤其涉及一种数据表分类、模型训练方法、装置、设备及介质。
背景技术
在安防领域,因为涉及到的业务数据种类很多,因此数据库中的数据表的数量也很多。安防管理人员根据需要定位数据表或者在显示屏上显示数据表中的数据时,一般都要根据数据表的表名和数据表中具体的数据来判断是否是需要定位或显示的数据表。现有的这种定位或显示数据表的方法效率较低。
安防管理人员在定位或显示数据表时,一般是要定位或显示某一类的数据表,例如定位或显示轨迹表(存在时间空间关系的数据表)、人人表(存在亲属关系的数据表)等。现有技术中还没有一种对数据表进行分类的技术方案。
发明内容
本发明实施例提供了一种数据表分类、模型训练方法、装置、设备及介质,用以提供一种对数据表进行分类的技术方案,提高安防管理人员定位或显示数据表的效率。
本发明实施例提供了一种数据表分类方法,所述方法包括:
获取数据表中的每个字段信息;
根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;
将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。
进一步地,所述获取数据表中的每个字段信息;根据所述每个字段信息,确定所述数据表的每个第一实体要素信息包括:
获取数据表的每个字段名和字段注释;
将所述每个字段名和字段注释,分别输入预先训练完成的第一实体要素信息确定模型,基于所述第一实体要素信息确定模型,确定所述数据表的每个第一实体要素信息。
进一步地,所述根据所述每个字段信息,确定所述数据表的每个第一实体要素信息之后,将所述每个第一实体要素信息输入预先训练完成的数据表分类模型之前,所述方法还包括:
针对每个字段信息,获取所述数据表中所述字段信息对应的每条数据;根据所述每条数据确定所述字段信息对应的第二实体要素信息;判断所述字段信息对应的第一实体要素信息和所述第二实体要素信息是否相同,如果是,保留所述第一实体要素信息,如果否,删除所述第一实体要素信息;
所述将所述每个第一实体要素信息输入预先训练完成的数据表分类模型包括:
将保留的每个第一实体要素信息输入预先训练完成的数据表分类模型。
进一步地,所述根据所述每条数据确定所述字段信息对应的第二实体要素信息包括:
针对所述每条数据,将该条数据输入预先训练完成的第二实体要素信息确定模型,基于所述第二实体要素信息确定模型,确定该条数据对应的第三实体要素信息;
统计所述每条数据分别对应的第三实体要素信息,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息。
进一步地,所述统计所述每条数据分别对应的第三实体要素信息之后,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息之前,所述方法还包括:
判断所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比是否大于预设的比例阈值,如果是,进行后续将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息的步骤;
如果所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比不大于预设的比例阈值,所述方法还包括:
删除所述字段信息对应的第一实体要素信息。
另一方面,本发明实施例提供了一种数据表分类模型训练方法,所述方法包括:
针对训练集中的每个数据表,确定该数据表中的每个字段信息对应的实体要素信息;将该数据表中的每个实体要素信息和该数据表对应的类别标签信息输入到数据表分类模型,对所述数据表分类模型进行训练。
另一方面,本发明实施例提供了一种数据表分类装置,所述装置包括:
获取模块,用于获取数据表中的每个字段信息;
第一确定模块,用于根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;
第二确定模块,用于将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。
进一步地,所述获取模块,具体用于获取数据表的每个字段名和字段注释;
所述第一确定模块,具体用于将所述每个字段名和字段注释,分别输入预先训练完成的第一实体要素信息确定模型,基于所述第一实体要素信息确定模型,确定所述数据表的每个第一实体要素信息。
进一步地,所述装置还包括:
第三确定模块,用于针对每个字段信息,获取所述数据表中所述字段信息对应的每条数据;根据所述每条数据确定所述字段信息对应的第二实体要素信息;判断所述字段信息对应的第一实体要素信息和所述第二实体要素信息是否相同,如果是,保留所述第一实体要素信息,如果否,删除所述第一实体要素信息;
所述第二确定模块,具体用于将保留的每个第一实体要素信息输入预先训练完成的数据表分类模型。
进一步地,所述第三确定模块,具体用于针对所述每条数据,将该条数据输入预先训练完成的第二实体要素信息确定模型,基于所述第二实体要素信息确定模型,确定该条数据对应的第三实体要素信息;统计所述每条数据分别对应的第三实体要素信息,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息。
进一步地,所述装置还包括:
判断模块,用于判断所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比是否大于预设的比例阈值,如果是,触发所述第三确定模块;如果否,触发删除模块;
所述删除模块,用于删除所述字段信息对应的第一实体要素信息。
另一方面,本发明实施例提供了一种数据表分类模型训练装置,所述装置包括:
第四确定模块,用于针对训练集中的每个数据表,确定该数据表中的每个字段信息对应的实体要素信息;
训练模块,用于将该数据表中的每个实体要素信息和该数据表对应的类别标签信息输入到数据表分类模型,对所述数据表分类模型进行训练。
另一方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项所述的方法步骤。
另一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。
本发明实施例提供了一种数据表分类、模型训练方法、装置、设备及介质,所述方法包括:获取数据表中的每个字段信息;根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。
本发明实施例将用户画像的思维应用到数据表分类,通过获取数据表中的每个字段信息确定数据表的特征,然后根据每个字段信息,确定数据表的每个第一实体要素信息。将每个第一实体要素信息输入预先训练完成的数据表分类模型,确定数据表的类别信息。采用本发明实施例提供的方案可以确定出每个数据表的类别信息,安防管理人员在定位或显示数据表时,可以根据数据表的类别信息快速的定位或显示数据表,提高了定位或显示数据表的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的数据表分类过程示意图;
图2为本发明实施例6提供的数据表分类架构图;
图3为本发明实施例6提供的数据表分类过程示意图;
图4为本发明实施例7提供的数据表分类装置结构示意图;
图5为本发明实施例7提供的数据表分类模型训练装置结构示意图;
图6为本发明实施例8提供的电子设备结构示意图。
具体实施方式
下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例提供的数据表分类过程示意图,该过程包括以下步骤:
S101:获取数据表中的每个字段信息。
S102:根据所述每个字段信息,确定所述数据表的每个第一实体要素信息。
S103:将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。
本发明实施例提供的数据表分类方法应用于电子设备,该电子设备可以是PC、平板电脑等设备。
针对待分类的数据表,电子设备获取数据表中的每个字段信息。不同的数据表字段信息所在表中的位置可以不同,例如某个数据表的第一行为字段信息,其它行为字段信息对应的数据,另外一个数据表的第一列为字段信息,其它列为字段信息对应的数据等等。用户可以向电子设备中输入字段信息在表中的位置,电子设备根据用户输入的信息快速获取到数据表中的每个字段信息。也可以是电子设备获取数据表中的内容,通过内容识别出数据表中的每个字段信息。如果每个数据表中字段信息的位置都是固定的,例如,每个数据表的第一行为字段信息,那么也可以在电子设备中预先保存每个数据表中字段信息的位置,然后根据预先保存的每个数据表中字段信息的位置,获取数据表中的每个字段信息。
电子设备获取到数据表中的每个字段信息之后,针对每个字段信息可以确定该字段信息对应的第一实体要素信息。具体的,电子设备可以预先保存字段信息与第一实体要素信息的对应关系,根据该对应关系确定出待分类的数据表中每个字段信息对应的第一实体要素信息。例如,字段信息为“nianling”对应的第一实体要素信息为“年龄”,字段信息为“NL”对应的第一实体要素信息为“年龄”,字段信息为“DZ”对应的第一实体要素信息为“地址”等等。电子设备获取到数据表中的每个字段信息之后,确定每个字段信息对应的每个第一实体要素信息。需要说明的是,如果电子设备没有保存某个字段信息对应的第一实体要素信息,则无法确定出某个字段信息对应的第一实体要素信息。采用确定出的第一实体要素信息进行后续的数据表分类。
电子设备中保存有预先训练完成的数据表分类模型,数据表分类模型的输入为数据表的实体要素信息,输出为数据表的类别信息。电子设备确定出数据表的每个第一实体要素信息之后,将每个第一实体要素信息输入预先训练完成的数据表分类模型,基于数据表分类模型确定数据表的类别信息。其中,数据表的类别信息可以是轨迹表、人人表等。
本发明实施例将用户画像的思维应用到数据表分类,通过获取数据表中的每个字段信息确定数据表的特征,然后根据每个字段信息,确定数据表的每个第一实体要素信息。将每个第一实体要素信息输入预先训练完成的数据表分类模型,确定数据表的类别信息。采用本发明实施例提供的方案可以确定出每个数据表的类别信息,安防管理人员在定位或显示数据表时,可以根据数据表的类别信息快速的定位或显示数据表,提高了定位或显示数据表的效率。
实施例2:
为了使确定数据表的每个第一实体要素信息更准确,在上述实施例的基础上,在本发明实施例中,所述获取数据表中的每个字段信息;根据所述每个字段信息,确定所述数据表的每个第一实体要素信息包括:
获取数据表的每个字段名和字段注释;
将所述每个字段名和字段注释,分别输入预先训练完成的第一实体要素信息确定模型,基于所述第一实体要素信息确定模型,确定所述数据表的每个第一实体要素信息。
在本发明实施例中,获取数据表中的每个字段信息包括获取数据表的每个字段名和字段注释。一般情况下,数据表中的一个字段信息对应着一个字段名和一个字段注释。电子设备中保存有预先训练完成的第一实体要素信息确定模型,第一实体要素信息确定模型的输入是字段名和字段注释,输出是字段名和字段注释对应的第一实体要素信息。具体的,针对每个字段信息对应的字段名和字段注释,将该字段信息对应的字段名和字段注释输入预先训练完成的第一实体要素信息确定模型,基于第一实体要素信息确定模型,确定该字段信息对应的第一实体要素信息。采用上述方法可以确定出数据表的每个第一实体要素信息。
由于在本发明实施例中,预先训练第一实体要素信息确定模型,首先确定数据表的每个字段名和字段注释,然后将字段名和字段注释输入到第一实体要素信息确定模型,基于第一实体要素信息确定模型,确定数据表的每个第一实体要素信息。在保证能确定出数据表的每个第一实体要素信息的前提下也使得确定出的每个第一实体要素信息更准确。
实施例3:
为了使确定数据表的每个第一实体要素信息更准确,在上述各实施例的基础上,在本发明实施例中,所述根据所述每个字段信息,确定所述数据表的每个第一实体要素信息之后,将所述每个第一实体要素信息输入预先训练完成的数据表分类模型之前,所述方法还包括:
针对每个字段信息,获取所述数据表中所述字段信息对应的每条数据;根据所述每条数据确定所述字段信息对应的第二实体要素信息;判断所述字段信息对应的第一实体要素信息和所述第二实体要素信息是否相同,如果是,保留所述第一实体要素信息,如果否,删除所述第一实体要素信息;
所述将所述每个第一实体要素信息输入预先训练完成的数据表分类模型包括:
将保留的每个第一实体要素信息输入预先训练完成的数据表分类模型。
电子设备根据所述每个字段信息,确定所述数据表的每个第一实体要素信息之后,将所述每个第一实体要素信息输入预先训练完成的数据表分类模型之前,针对每个字段信息,获取数据表中所述字段信息对应的每条数据。电子设备针对每个字段信息,获取数据表中所述字段信息对应的每条数据之后,根据所述每条数据确定所述字段信息对应的第二实体要素信息。其中,电子设备可以首先确定出每条数据对应的第三实体要素信息。具体的,电子设备可以预先保存每个第三实体要素信息对应的数据有哪些,然后针对每条数据,确定出该条数据所属的第三实体要素信息。基于上述方法可以确定出每条数据对应的第三实体要素信息。确定出的每条数据分别对应的第三实体要素信息有可能相同也有可能不同,在本发明实施例中,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息。
电子设备针对每个字段信息,确定出该字段信息对应的第二实体要素信息之后,判断该字段信息对应的第一实体要素信息和第二实体要素信息是否相同,如果是,保留该第一实体要素信息,如果否,删除该第一实体要素信息。然后将保留的每个第一实体要素信息输入预先训练完成的数据表分类模型,基于数据表分类模型确定所述数据表的类别信息。
由于在本发明实施例中,根据每个字段信息,确定数据表的每个第一实体要素信息,根据数据表中每个字段信息对应的数据确定每个第二实体要素信息,针对每个字段信息,当该字段信息对应的第一实体要素信息和第二实体要素信息相同时,说明确定出的第一实体要素信息是准确的,此时保留第一实体要素信息,如果不相同则删除第一实体要素信息。然后基于保留的第一实体要素信息进行数据表分类。本发明实施例保留的第一实体要素信息更准确,进而使得确定数据表的类别信息更准确。
实施例4:
为了使确定每个第二实体要素信息更准确,在上述各实施例的基础上,在本发明实施例中,所述根据所述每条数据确定所述字段信息对应的第二实体要素信息包括:
针对所述每条数据,将该条数据输入预先训练完成的第二实体要素信息确定模型,基于所述第二实体要素信息确定模型,确定该条数据对应的第三实体要素信息;
统计所述每条数据分别对应的第三实体要素信息,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息。
在本发明实施例中,电子设备中保存有预先训练完成的第二实体要素信息确定模型,第二实体要素信息确定模型的输入是每条数据,输出是每条数据分别对应的第三实体要素信息。具体的,针对每条数据,将该数据输入预先训练完成的第二实体要素信息确定模型,基于第二实体要素信息确定模型,确定该数据对应的第三实体要素信息。采用上述方法可以确定出每条数据分别对应的第三实体要素信息。
针对每个字段信息对应的每条数据,统计所述每条数据分别对应的第三实体要素信息,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息。
由于在本发明实施例中,预先训练第二实体要素信息确定模型,将每条数据分别输入到第二实体要素信息确定模型,基于第二实体要素信息确定模型,确定每条数据分别对应的第三实体要素信息。在保证能确定出每条数据分别对应的第三实体要素信息的前提下也使得确定出的每个第三实体要素信息更准确,进而使得确定出的字段信息对应的第二实体要素信息更准确。
实施例5:
为了使数据表分类更准确,在上述各实施例的基础上,在本发明实施例中,所述统计所述每条数据分别对应的第三实体要素信息之后,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息之前,所述方法还包括:
判断所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比是否大于预设的比例阈值,如果是,进行后续将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息的步骤;
如果所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比不大于预设的比例阈值,所述方法还包括:
删除所述字段信息对应的第一实体要素信息。
电子设备中保存有预设的比例阈值,统计所述每条数据分别对应的第三实体要素信息之后,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息之前,计算所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比,当占比大于预设的比例阈值,则认为根据每条数据确定出的所述字段信息对应的第二实体要素信息是可靠的,进行后续将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息的步骤。当占比不大于预设的比例阈值,则认为根据每条数据确定出的所述字段信息对应的第二实体要素信息不可靠,此时删除所述字段信息对应的第一实体要素信息。其中,预设的比例阈值可以是80%、90%等。
由于在本发明实施例中,当判断所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比大于预设的比例阈值时,进行后续将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息的步骤;否则删除所述字段信息对应的第一实体要素信息。从而使得参与数据包分类的第一实体要素信息更准确,进而使得数据表分类更准确。
实施例6:
本发明实施例提供了一种数据表分类模型训练方法,所述方法包括:
针对训练集中的每个数据表,确定该数据表中的每个字段信息对应的实体要素信息;将该数据表中的每个实体要素信息和该数据表对应的类别标签信息输入到数据表分类模型,对所述数据表分类模型进行训练。
电子设备中保存有训练集,训练集中包括大量的数据表,每个数据表有对应的类别标签信息。针对训练集中的每个数据表,首先获取该数据表中的每个字段信息,然后确定该数据表中的每个字段信息对应的实体要素信息。其中,电子设备获取该数据表的每个字段名和字段注释;将所述每个字段名和字段注释,分别输入预先训练完成的第一实体要素信息确定模型,基于所述第一实体要素信息确定模型,确定该数据表中的每个字段信息对应的实体要素信息。然后再将该数据表中的每个实体要素信息和该数据表对应的类别标签信息输入到数据表分类模型,对所述数据表分类模型进行训练。
下面对第一实体要素信息确定模型的训练过程进行说明。
电子设备中保存有训练集,训练集中包括大量的数据表,每个数据表中包括字段信息,一般情况下一个字段信息对应一个字段名和一个字段注释。字段名和字段注释有对应的实体要素标签信息。针对训练集中的每个数据表,首先获取该数据表中的每个字段信息分别对应的字段名和字段注释,然后再将该数据表中的字段名和字段注释,以及字段名和字段注释对应的实体要素标签信息输入到第一实体要素信息确定模型,对所述第一实体要素信息确定模型进行训练。
下面对第二实体要素信息确定模型的训练过程进行说明。
电子设备中保存有训练集,训练集中包括大量的数据表,每个数据表中包括字段信息,每个字段信息存在对应的数据。每条数据有对应的实体要素标签信息。针对训练集中的每个数据表,首先获取该数据表中的每条数据,然后再将该数据表中的每条数据,以及每条数据对应的实体要素标签信息输入到第二实体要素信息确定模型,对所述第二实体要素信息确定模型进行训练。
图2为本发明实施例提供的数据表分类架构图,如图2所示,从源数据库中获取待分类的数据表,然后对数据表进行源数据采样,采集元信息,进而确定数据表的类别。
具体的,数据库类型包括但不限于ORACLE、MYSQL、POSTGRE。当表数据表中的数据条数不超过1000条,可以进行全量抽取,当数据量过大,分析系统无法承受全部信息,就需要采样获取部分数据,采样方式不做限制,但一般都采用随机采样。对采样得到的源数据进行信息采集,可以从数据源中获取字段名、字段注释,每个字段信息对应的具体数据等元信息。根据采集到的元信息确定数据表的类型。采集到的元信息,包括字段名,字段注释,字段内容。通过解析字段名,字段注释初步标记实体要素信息,然后筛选出被标记实体要素信息的字段,通过正则表达式进一步判断被筛选出来的字段是否为我们需要的字段。具体的,判断同时存在时间、地址、经度、纬度字段(轨迹属性集合)或同时存在两个身份证件(人-人属性集合)或同时存在身份证、电话、车牌、名族(常住人口属性集合)等。根据上一步进行表归类,如果存在轨迹属性集合即判定为轨迹表,同理也可判定人-人表、网吧表、常口表、人-物表。
另外,电子设备可以获取数据表的表名称和表注释,电子设备保存基于表名称和表注释训练完成的另一数据表分类模型,然后对数据表进行初步的分类。
图3为本发明实施例提供的数据表分类过程示意图,包括以下步骤:
S201:获取数据表的每个字段名和字段注释。
S202:将所述每个字段名和字段注释,分别输入预先训练完成的第一实体要素信息确定模型,基于所述第一实体要素信息确定模型,确定所述数据表的每个第一实体要素信息。
S203:针对每个字段信息,获取所述数据表中所述字段信息对应的每条数据;根据所述每条数据确定所述字段信息对应的第二实体要素信息;判断所述字段信息对应的第一实体要素信息和所述第二实体要素信息是否相同,如果是,保留所述第一实体要素信息,如果否,删除所述第一实体要素信息。
S204:将保留的每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。
本发明实施例提供的数据表分类方案映射了构建用户画像的思维,通过对关键要素的判定进而构建数据表画像。定义了每一张表的属性,解决了数据库中表属性(类别)不清晰,为后续快速查询表数据提供了方便。基于实体要素探查步骤,需要对数据表的字段名称,字段注释,以及表内容进行详细的分析,再次过程中可以对数据源有较为透彻的理解。通过实体要素探查步骤打标过的字段,不仅可以用来建立表画像,也方便后期数据的治理工作。
实施例7:
图4为本发明实施例提供的数据表分类装置结构示意图,所述装置包括:
获取模块41,用于获取数据表中的每个字段信息;
第一确定模块42,用于根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;
第二确定模块43,用于将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。
所述获取模块41,具体用于获取数据表的每个字段名和字段注释;
所述第一确定模块42,具体用于将所述每个字段名和字段注释,分别输入预先训练完成的第一实体要素信息确定模型,基于所述第一实体要素信息确定模型,确定所述数据表的每个第一实体要素信息。
所述装置还包括:
第三确定模块44,用于针对每个字段信息,获取所述数据表中所述字段信息对应的每条数据;根据所述每条数据确定所述字段信息对应的第二实体要素信息;判断所述字段信息对应的第一实体要素信息和所述第二实体要素信息是否相同,如果是,保留所述第一实体要素信息,如果否,删除所述第一实体要素信息;
所述第二确定模块43,具体用于将保留的每个第一实体要素信息输入预先训练完成的数据表分类模型。
所述第三确定模块44,具体用于针对所述每条数据,将该条数据输入预先训练完成的第二实体要素信息确定模型,基于所述第二实体要素信息确定模型,确定该条数据对应的第三实体要素信息;统计所述每条数据分别对应的第三实体要素信息,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息。
所述装置还包括:
判断模块45,用于判断所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比是否大于预设的比例阈值,如果是,触发所述第三确定模块44;如果否,触发删除模块46;
所述删除模块46,用于删除所述字段信息对应的第一实体要素信息。
图5为本发明实施例提供的数据表分类模型训练装置结构示意图,所述装置包括:
第四确定模块51,用于针对训练集中的每个数据表,确定该数据表中的每个字段信息对应的实体要素信息;
训练模块52,用于将该数据表中的每个实体要素信息和该数据表对应的类别标签信息输入到数据表分类模型,对所述数据表分类模型进行训练。
实施例8:
在上述各实施例的基础上,本发明实施例中还提供了一种电子设备,如图6所示,包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
所述存储器303中存储有计算机程序,当所述程序被所述处理器301执行时,使得所述处理器301执行如下步骤:
获取数据表中的每个字段信息;
根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;
将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。
基于同一发明构思,本发明实施例中还提供了一种电子设备,由于上述电子设备解决问题的原理与数据表分类方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、网络侧设备等。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口302用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在本发明实施例中处理器执行存储器上所存放的程序时,实现获取数据表中的每个字段信息;根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。本发明实施例将用户画像的思维应用到数据表分类,将每个第一实体要素信息输入预先训练完成的数据表分类模型,确定数据表的类别信息。采用本发明实施例提供的方案可以确定出每个数据表的类别信息,安防管理人员在定位或显示数据表时,可以根据数据表的类别信息快速的定位或显示数据表,提高了定位或显示数据表的效率。
实施例9:
在上述各实施例的基础上,本发明实施例还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
获取数据表中的每个字段信息;
根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;
将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。
基于同一发明构思,本发明实施例中还提供了一种计算机可读存储介质,由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与数据表分类方法相似,因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施,重复之处不再赘述。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
在本发明实施例中提供的计算机可读存储介质内存储计算机程序,计算机程序被处理器执行时实现获取数据表中的每个字段信息;根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。本发明实施例将用户画像的思维应用到数据表分类,将每个第一实体要素信息输入预先训练完成的数据表分类模型,确定数据表的类别信息。采用本发明实施例提供的方案可以确定出每个数据表的类别信息,安防管理人员在定位或显示数据表时,可以根据数据表的类别信息快速的定位或显示数据表,提高了定位或显示数据表的效率。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种数据表分类方法,其特征在于,所述方法包括:
获取数据表中的每个字段信息;
根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;
将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。
2.如权利要求1所述的方法,其特征在于,所述获取数据表中的每个字段信息;根据所述每个字段信息,确定所述数据表的每个第一实体要素信息包括:
获取数据表的每个字段名和字段注释;
将所述每个字段名和字段注释,分别输入预先训练完成的第一实体要素信息确定模型,基于所述第一实体要素信息确定模型,确定所述数据表的每个第一实体要素信息。
3.如权利要求1所述的方法,其特征在于,所述根据所述每个字段信息,确定所述数据表的每个第一实体要素信息之后,将所述每个第一实体要素信息输入预先训练完成的数据表分类模型之前,所述方法还包括:
针对每个字段信息,获取所述数据表中所述字段信息对应的每条数据;根据所述每条数据确定所述字段信息对应的第二实体要素信息;判断所述字段信息对应的第一实体要素信息和所述第二实体要素信息是否相同,如果是,保留所述第一实体要素信息,如果否,删除所述第一实体要素信息;
所述将所述每个第一实体要素信息输入预先训练完成的数据表分类模型包括:
将保留的每个第一实体要素信息输入预先训练完成的数据表分类模型。
4.如权利要求3所述的方法,其特征在于,所述根据所述每条数据确定所述字段信息对应的第二实体要素信息包括:
针对所述每条数据,将该条数据输入预先训练完成的第二实体要素信息确定模型,基于所述第二实体要素信息确定模型,确定该条数据对应的第三实体要素信息;
统计所述每条数据分别对应的第三实体要素信息,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息。
5.如权利要求4所述的方法,其特征在于,所述统计所述每条数据分别对应的第三实体要素信息之后,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息之前,所述方法还包括:
判断所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比是否大于预设的比例阈值,如果是,进行后续将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息的步骤;
如果所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比不大于预设的比例阈值,所述方法还包括:
删除所述字段信息对应的第一实体要素信息。
6.一种数据表分类模型训练方法,其特征在于,所述方法包括:
针对训练集中的每个数据表,确定该数据表中的每个字段信息对应的实体要素信息;将该数据表中的每个实体要素信息和该数据表对应的类别标签信息输入到数据表分类模型,对所述数据表分类模型进行训练。
7.一种数据表分类装置,其特征在于,所述装置包括:
获取模块,用于获取数据表中的每个字段信息;
第一确定模块,用于根据所述每个字段信息,确定所述数据表的每个第一实体要素信息;
第二确定模块,用于将所述每个第一实体要素信息输入预先训练完成的数据表分类模型,基于所述数据表分类模型确定所述数据表的类别信息。
8.如权利要求7所述的装置,其特征在于,所述获取模块,具体用于获取数据表的每个字段名和字段注释;
所述第一确定模块,具体用于将所述每个字段名和字段注释,分别输入预先训练完成的第一实体要素信息确定模型,基于所述第一实体要素信息确定模型,确定所述数据表的每个第一实体要素信息。
9.如权利要求7所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于针对每个字段信息,获取所述数据表中所述字段信息对应的每条数据;根据所述每条数据确定所述字段信息对应的第二实体要素信息;判断所述字段信息对应的第一实体要素信息和所述第二实体要素信息是否相同,如果是,保留所述第一实体要素信息,如果否,删除所述第一实体要素信息;
所述第二确定模块,具体用于将保留的每个第一实体要素信息输入预先训练完成的数据表分类模型。
10.如权利要求9所述的装置,其特征在于,所述第三确定模块,具体用于针对所述每条数据,将该条数据输入预先训练完成的第二实体要素信息确定模型,基于所述第二实体要素信息确定模型,确定该条数据对应的第三实体要素信息;统计所述每条数据分别对应的第三实体要素信息,将相同的数量最多的第三实体要素信息作为所述字段信息对应的第二实体要素信息。
11.如权利要求10所述的装置,其特征在于,所述装置还包括:
判断模块,用于判断所述相同的数量最多的第三实体要素信息的数量在每条数据分别对应的第三实体要素信息总数量中的占比是否大于预设的比例阈值,如果是,触发所述第三确定模块;如果否,触发删除模块;
所述删除模块,用于删除所述字段信息对应的第一实体要素信息。
12.一种数据表分类模型训练装置,其特征在于,所述装置包括:
第四确定模块,用于针对训练集中的每个数据表,确定该数据表中的每个字段信息对应的实体要素信息;
训练模块,用于将该数据表中的每个实体要素信息和该数据表对应的类别标签信息输入到数据表分类模型,对所述数据表分类模型进行训练。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一项所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251153.3A CN113032494A (zh) | 2021-03-08 | 2021-03-08 | 一种数据表分类、模型训练方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251153.3A CN113032494A (zh) | 2021-03-08 | 2021-03-08 | 一种数据表分类、模型训练方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113032494A true CN113032494A (zh) | 2021-06-25 |
Family
ID=76466808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110251153.3A Pending CN113032494A (zh) | 2021-03-08 | 2021-03-08 | 一种数据表分类、模型训练方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032494A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708835A (zh) * | 2015-08-11 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种数据表的分类方法和装置 |
WO2017101506A1 (zh) * | 2015-12-14 | 2017-06-22 | 乐视控股(北京)有限公司 | 信息处理方法及装置 |
CN107357902A (zh) * | 2017-07-14 | 2017-11-17 | 电子科技大学 | 一种基于关联规则的数据表分类系统与方法 |
CN108763952A (zh) * | 2018-05-03 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种数据分类方法、装置及电子设备 |
CN109144999A (zh) * | 2018-08-02 | 2019-01-04 | 东软集团股份有限公司 | 一种数据定位方法、装置及存储介质、程序产品 |
CN111046035A (zh) * | 2019-10-29 | 2020-04-21 | 三盟科技股份有限公司 | 数据自动化处理方法、系统、计算机设备及可读存储介质 |
CN112084308A (zh) * | 2020-09-16 | 2020-12-15 | 中国信息通信研究院 | 用于文本类型数据识别的方法、系统及存储介质 |
CN112182116A (zh) * | 2020-09-17 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 数据探查方法及装置 |
-
2021
- 2021-03-08 CN CN202110251153.3A patent/CN113032494A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708835A (zh) * | 2015-08-11 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种数据表的分类方法和装置 |
WO2017101506A1 (zh) * | 2015-12-14 | 2017-06-22 | 乐视控股(北京)有限公司 | 信息处理方法及装置 |
CN107357902A (zh) * | 2017-07-14 | 2017-11-17 | 电子科技大学 | 一种基于关联规则的数据表分类系统与方法 |
CN108763952A (zh) * | 2018-05-03 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种数据分类方法、装置及电子设备 |
CN109144999A (zh) * | 2018-08-02 | 2019-01-04 | 东软集团股份有限公司 | 一种数据定位方法、装置及存储介质、程序产品 |
CN111046035A (zh) * | 2019-10-29 | 2020-04-21 | 三盟科技股份有限公司 | 数据自动化处理方法、系统、计算机设备及可读存储介质 |
CN112084308A (zh) * | 2020-09-16 | 2020-12-15 | 中国信息通信研究院 | 用于文本类型数据识别的方法、系统及存储介质 |
CN112182116A (zh) * | 2020-09-17 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 数据探查方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9477750B2 (en) | System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data | |
CN109800320B (zh) | 一种图像处理方法、设备及计算机可读存储介质 | |
CN110619568A (zh) | 风险评估报告的生成方法、装置、设备及存储介质 | |
CN112560453A (zh) | 语音信息校验方法、装置、电子设备及介质 | |
CN112052396A (zh) | 课程匹配方法、系统、计算机设备和存储介质 | |
CN114092056A (zh) | 项目管理方法、装置、电子设备、存储介质及产品 | |
CN112506981A (zh) | 一种线上培训服务推送方法和装置 | |
CN115758451A (zh) | 基于人工智能的数据标注方法、装置、设备及存储介质 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
CN114693011A (zh) | 一种政策匹配方法、装置、设备和介质 | |
CN116453125A (zh) | 基于人工智能的数据录入方法、装置、设备及存储介质 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN108733784B (zh) | 一种教学课件推荐方法、装置及设备 | |
CN116541711A (zh) | 模型训练方法、课程推荐方法、装置、设备及介质 | |
CN108520012B (zh) | 基于机器学习的移动互联网用户评论挖掘方法 | |
CN113032494A (zh) | 一种数据表分类、模型训练方法、装置、设备及介质 | |
CN114021716A (zh) | 一种模型训练的方法、系统及电子设备 | |
CN104778202A (zh) | 基于关键词的事件演化过程的分析方法及系统 | |
CN112084408B (zh) | 名单数据筛选方法、装置、计算机设备及存储介质 | |
CN115017256A (zh) | 电力数据处理方法、装置、电子设备及存储介质 | |
CN114691835A (zh) | 基于文本挖掘的审计计划数据生成方法、装置和设备 | |
CN108711073B (zh) | 用户分析方法、装置及终端 | |
CN110569402A (zh) | 错题检索方法、系统、终端及介质 | |
CN108510071B (zh) | 数据的特征提取方法、装置及计算机可读存储介质 | |
CN112069807A (zh) | 文本数据的主题提取方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210625 |
|
RJ01 | Rejection of invention patent application after publication |