CN107357902A - 一种基于关联规则的数据表分类系统与方法 - Google Patents
一种基于关联规则的数据表分类系统与方法 Download PDFInfo
- Publication number
- CN107357902A CN107357902A CN201710575180.XA CN201710575180A CN107357902A CN 107357902 A CN107357902 A CN 107357902A CN 201710575180 A CN201710575180 A CN 201710575180A CN 107357902 A CN107357902 A CN 107357902A
- Authority
- CN
- China
- Prior art keywords
- data
- tables
- classification
- data table
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 238000003860 storage Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关联规则的数据表分类系统与方法,属于数据表分类技术领域;人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;根据所述类别空间,对所述训练集数据表进行预处理;对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息。利用数据表的内容对数据表进行分类,有效的提高了数据表分类的准确性。
Description
技术领域
本发明涉及一种数据表分类系统与方法,特别是一种基于关联规则的数据表分类系统与方法,用于对数据表进行分类。
背景技术
近年来,随着社会信息化进程的不断推进,企业数据不仅在数量上呈现递增的趋势,且具有类别多样、变化频繁、环境复杂化等特点。企业数据大都被分散存放在内部网络的不同数据仓库中,其中不乏高值敏感数据,给数据规范化管理造成一定难度,如管理者对数据分布情况很难完整把控。然而,内部网络中数据的存储形式、分布状况、类型、敏感与否对于管理者而言是极为重要的。因为这些信息可以帮助他们发现潜在风险、及时应对相关法律法规的监管,并在资源有限的情况下有选择的对关键数据采取对应的保护措施。这些问题主要涉及对数据源进行分析。
为了使管理者对企业的数据类型有一个直观而完整的把握,需要对企业的数据进行分类,这样才能针对不同的数据类别进行管理。而由于人工分类、标记企业的所有数据费时费力,所以使用程序将数据进行分类是非常有价值的。这里所说的分类指的是在对数据表内容的类别未知的情况下,根据数据表包含哪些数据字段,将数据表类型加以区分,在企业环境中,大部分的企业数据存储在数据表中,无论是数据库还是Excel表格中,它们都是结构化的数据表,每个数据表都是以字段来存储每条记录的内容。
专利申请“用于访问源数据库中的一组数据表格的方法和系统”(申请号:201410444212.9)提供了一种对源数据库中的一组数据表格进行分类的方法。该方法提供了一组度量,该度量是关于数据表的元数据和性能数据,如读写速率、记录的数目、字段的数目、主键和外键的数目、触发器类型等;该方法提供了一组数据表类别,该类别是根据上述度量的不同而区别的;该方法根据上述数据表类别及度量方式,将源数据库中的一组数据表格进行分类。该方法的不足在于,分类的依据只有数据库的物理属性即上述度量,而不涉及数据库中存储的数据内容,这样的分类依据不能区分内容类别不同的数据表,对于数据表的分类而言价值不高;此外,分类的结果只有三种,这样的分类结果误差较高且令人困惑。
发明内容
基于以上技术问题,本发明提供了一种基于关联规则的数据表分类系统与方法,解决了目前分类方法的依据只有数据库的物理属性,不涉及数据库中的数据内容导致分类结果误差高的技术问题。
本发明采用的技术方案如下:
一种基于关联规则的数据表分类系统与方法,包括以下步骤:
步骤1:人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;
步骤2:根据所述类别空间,对所述训练集数据表进行预处理;
步骤3:对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;
步骤4:对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息。
进一步的,实现所述步骤1的结构包括:数据表信息读取单元、数据表信息数据库、类别空间构造单元、类别空间信息数据库;
数据表信息读取单元:用于读取数据表的字段信息和数据个数;
数据表信息数据库:用于存储数据表中的数据信息;
类别空间构造单元:用于构造所述类别数据表的类别空间,所述类别空间包含类别数据表的字段信息和类别信息;
类别空间信息数据库:用于存储类别空间的内容;
所述步骤1的具体步骤为:
S201:人工收集若干训练集数据表,所述训练集数据表的内容包含类别数据表的内容;
S202:所述数据表信息读取单元读取所述数据表,并对所述训练集数据表进行格式化,将所述格式化后的训练集数据表传递给类别空间构造单元;
S203:类别空间构造单元利用所述格式化后的训练集数据表构造类别空间,并将所述类别空间的内容储存至类别空间信息数据库。
进一步的,所述步骤2中,类别空间构造单元对所述训练集数据表进行预处理,并将预处理后的训练集数据表储存至数据表信息数据库。
进一步的,实现所述步骤3的结构包括:数据表类别关联规则分析单元和数据表类别关联规则数据库;
数据表类别关联规则分析单元:用于分析由所述类别空间中的数据表字段和数据表类别组合得到的关联规则,所述关联规则满足最小支持度和最小置信度要求;
数据表类别关联规则数据库:用于存储所述数据表类别关联规则分析单元输出的所述关联规则;
所述步骤3的具体步骤为:
S401:所述数据表类别关联规则分析单元读取所述数据表信息数据库中预处理后的训练集数据表;
S402:利用所述数据表类别关联规则分析单元设置最小置信度和最小支持度,使用 Apriori算法分析出大于最小置信度和最小支持度的关联规则,将所述关联规则存入所述数据表类别关联规则数据库。
进一步的,所述步骤4采用的结构包括数据表类别判断单元,所述数据表类别判断单元用于利用所述关联规则数据库中的关联规则对预处理后的数据表进行类别识别;
步骤4的具体步骤如下:
S501:所述数据表类别判断单元读取所述数据表类别关联规则数据库中的关联规则;
S502:所述数据表类别判断单元读取所述类别空间信息数据库中类别空间的内容;
S503:根据所述类别空间的内容对需要进行识别的数据表进行预处理;
S504:利用所述关联规则对预处理后的数据表进行匹配,匹配成功说明该数据表存储的内容是该关联规则所对应的数据类别。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、利用数据表内容对数据表进行分类,可以更有针对性的进行分类,依据完善的分类规则将未知的数据表归纳为某一种类别,迅速得到数据表存储的内容的类型。
2、提出了“类别空间”的概念,对于某一类别的信息,可以定义该类别的所有数据字段的命名,将不标准的、口语化的或同义的字段命名标准化为类别空间中所定义的名字,这样可以将名字千变万化的数据表进行标准化,以便于分类操作。
3、本方法采用了关联规则挖掘算法,该算法可以从大量的标准化后的训练集中分析出有效地、可信的分类规则,并且针对未知的数据表,可以迅速匹配规则从而将数据表进行分类。
4、方案里面用到的数据表信息读取单元,可以从多种不同的数据源中读取数据表内容,有效解决了针对异构数据源的读取问题,从而应对复杂的使用环境。
5、本方法可以根据数据表内容对数据表进行分类,这样对于使用者来说,不仅可以得知未知数据表的数据类别,同时可以针对不同的数据类型进行不同的操作、在不同的场合使用不同的类别数据、分门别类的管理和维护数据。
附图说明
图1是本发明一种基于关联规则的数据表分类系统的构成框图;
图2是本发明数据表分类方法的流程图;
图3是本发明类别空间的构造方法的流程图;
图4是本发明训练集数据表预处理的流程图;
图5是本发明数据表类别关联规则产生方法的流程图;
图6是本发明数据表分类预处理的流程图。
具体实施方式
本说明书中公开的所有特征,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
下面结合附图对本发明作详细说明。
一种基于关联规则的数据表分类系统与方法,包括以下步骤(如图1):
步骤1:步骤1:人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;
实现所述步骤1的结构包括:数据表信息读取单元、数据表信息数据库、类别空间构造单元、类别空间信息数据库(如图2);
数据表信息读取单元:用于读取数据表的字段信息和数据个数;
数据表信息数据库:用于存储数据表中的数据信息;
类别空间构造单元:用于构造所述类别数据表的类别空间,所述类别空间包含类别数据表的字段信息和类别信息;
类别空间信息数据库:用于存储类别空间的内容;
所述步骤1的具体步骤为:
S201:人工收集若干训练集数据表,所述训练集数据表的内容包含类别数据表的内容;
S202:所述数据表信息读取单元读取所述数据表,并对所述训练集数据表进行格式化,将所述格式化后的训练集数据表传递给类别空间构造单元;
S203:类别空间构造单元利用所述格式化后的训练集数据表构造类别空间,并将所述类别空间的内容储存至类别空间信息数据库。
步骤2:类别空间构造单元对所述训练集数据表进行预处理,并将预处理后的训练集数据表储存至数据表信息数据库。
步骤3:对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;
数据表类别关联规则分析单元和数据表类别关联规则数据库;
数据表类别关联规则分析单元:用于分析由所述类别空间中的数据表字段和数据表类别组合得到的关联规则,所述关联规则满足最小支持度和最小置信度要求;
数据表类别关联规则数据库:用于存储所述数据表类别关联规则分析单元输出的所述关联规则;
所述步骤3的具体步骤为:
S401:所述数据表类别关联规则分析单元读取所述数据表信息数据库中预处理后的训练集数据表;
S402:利用所述数据表类别关联规则分析单元设置最小置信度和最小支持度,使用 Apriori算法分析出大于最小置信度和最小支持度的关联规则,将所述关联规则存入所述数据表类别关联规则数据库。
步骤4:对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息;采用的结构包括数据表类别判断单元,所述数据表类别判断单元用于利用所述关联规则数据库中的关联规则对预处理后的数据表进行类别识别;
步骤4的具体步骤如下:
S501:所述数据表类别判断单元读取所述数据表类别关联规则数据库中的关联规则;
S502:所述数据表类别判断单元读取所述类别空间信息数据库中类别空间的内容;
S503:根据所述类别空间的内容对需要进行识别的数据表进行预处理;
S504:利用所述关联规则对预处理后的数据表进行匹配,匹配成功说明该数据表存储的内容是该关联规则所对应的数据类别。
下面,结合具体实施例来对本发明做进一步详细说明。
具体实施例
步骤1:设置两组类别数据表:“个人可识别信息”、“财务工资信息”;人工收集包含所述类别数据表内容的两组数据表。
步骤2:利用数据表信息读取单元,读取两组数据表的字段内容,部分数据表字段如表1,其中表T1-T30为“个人可识别信息”类的数据表,表T31之后的为“财务工资信息”类的数据表;
表1
步骤3:对于“个人可识别信息”类,遍历数据数据表T1-T30。首先将数据表T1 中的所有字段添加到“个人可识别信息”类的类别空间中,作为该类别空间的类别元素;数据表T2中,“名字”字段为类别元素“姓名”的同义词,则将“名字”作为类别元素“姓名”的同义词,而“手机号码”字段在类别空间中不存在对应的类别元素,则将该字段添加为新的类别元素;遍历T3到T30,重复上述操作,得到“个人可识别信息”类的类别空间(如图3)。部分类别空间如表2所示:
表2
步骤4:利用所述类别空间对所述两组数据表进行预处理;遍历数据表字段,若该字段为类别空间中某类别元素的同义词,则将该字段替换为该类别元素;如表1中T2 数据表,由于“名字”字段为类别元素“姓名”的同义词,所以将“名字”字段替换为“姓名”。全部替换后,将预处理后的数据表字段内容存到数据表信息数据库中(如图4)。
步骤5:读取所述预处理后的数据表字段,将类别作为特殊字段添加到数据表字段信息中;扫描所述数据字段信息,计算每个字段的支持度,将其中支持度大于最小支持度的字段纳入字段频繁集;之后将字段频繁集中的字段进行组合,并计算它们的支持度,将其中大于最小支持度的字段组合纳入组合频繁集;计算组合频繁集中各项的置信度,生成置信度大于最小置信度的关联规则;遍历所有生成的关联规则,若规则的后件是类别这个特殊字段,则认为这是一个有效的关联规则,将这条规则保存到数据表关联规则数据库中(如图5)。表3为在最小支持度为0.4且最小置信度为0.9的条件下的部分关联规则;
表3
步骤6:数据表类别判断单元从数据表类别关联规则数据库中读取保存的关联规则;数据表类别判断单元从类别空间信息数据库中读取“个人可识别信息”和“财务工资信息”两个类别的类别空间;
步骤7:对于一个等待分析其内容类别的数据表,它包含如下字段:“名字”,“身份证”,“手机号码”,“性别”,“电子邮件”,“住址”,“省份”,“城市”,对其进行预处理,将字段替换为类别空间的类别元素,预处理后的字段内容为:“姓名”,“身份证号”,“移动电话”,“性别”,“电子邮件”,“地址”,“省份”,“城市”;之后利用关联规则依次匹配这些字段。对于表3中的第一条规则,虽然该规则的“姓名”字段存在于等待分析的数据表中,但该表不包含该规则中其他的字段,所以不能匹配该规则;而对于表3中的第二条规则,该规则的“姓名”、“地址”、“省份”、“性别”、“城市”等字段在该数据表中均存在,所以该规则匹配成功,可以将该数据表的内容分类为“个人可识别信息”类别(如图6)。
如上所述即为本发明的实施例。本发明不局限于上述实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
Claims (5)
1.一种基于关联规则的数据表分类系统与方法,其特征在于:包括以下步骤:
步骤1:人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;
步骤2:根据所述类别空间,对所述训练集数据表进行预处理;
步骤3:对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;
步骤4:对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息。
2.根据权利要求1所述的一种基于关联规则的数据表分类系统与方法,其特征在于:实现所述步骤1的结构包括:数据表信息读取单元、数据表信息数据库、类别空间构造单元、类别空间信息数据库;
数据表信息读取单元:用于读取数据表的字段信息和数据个数;
数据表信息数据库:用于存储数据表中的数据信息;
类别空间构造单元:用于构造所述类别数据表的类别空间,所述类别空间包含类别数据表的字段信息和类别信息;
类别空间信息数据库:用于存储类别空间的内容;
所述步骤1的具体步骤为:
S201:人工收集若干训练集数据表,所述训练集数据表的内容包含类别数据表的内容;
S202:所述数据表信息读取单元读取所述数据表,并对所述训练集数据表进行格式化,将所述格式化后的训练集数据表传递给类别空间构造单元;
S203:类别空间构造单元利用所述格式化后的训练集数据表构造类别空间,并将所述类别空间的内容储存至类别空间信息数据库。
3.根据权利要求1-2所述的一种基于关联规则的数据表分类系统与方法,其特征在于:所述步骤2中,类别空间构造单元对所述训练集数据表进行预处理,并将预处理后的训练集数据表储存至数据表信息数据库。
4.根据权利要求1所述的一种基于关联规则的数据表分类系统与方法,其特征在于:实现所述步骤3的结构包括:数据表类别关联规则分析单元和数据表类别关联规则数据库;
数据表类别关联规则分析单元:用于分析由所述类别空间中的数据表字段和数据表类别组合得到的关联规则,所述关联规则满足最小支持度和最小置信度要求;
数据表类别关联规则数据库:用于存储所述数据表类别关联规则分析单元输出的所述关联规则;
所述步骤3的具体步骤为:
S401:所述数据表类别关联规则分析单元读取所述数据表信息数据库中预处理后的训练集数据表;
S402:利用所述数据表类别关联规则分析单元设置最小置信度和最小支持度,使用Apriori算法分析出大于最小置信度和最小支持度的关联规则,将所述关联规则存入所述数据表类别关联规则数据库。
5.根据权利要求1所述的一种基于关联规则的数据表分类系统与方法,其特征在于:所述步骤4采用的结构包括数据表类别判断单元,所述数据表类别判断单元用于利用所述关联规则数据库中的关联规则对预处理后的数据表进行类别识别;
步骤4的具体步骤如下:
S501:所述数据表类别判断单元读取所述数据表类别关联规则数据库中的关联规则;
S502:所述数据表类别判断单元读取所述类别空间信息数据库中类别空间的内容;
S503:根据所述类别空间的内容对需要进行识别的数据表进行预处理;
S504:利用所述关联规则对预处理后的数据表进行匹配,匹配成功说明该数据表存储的内容是该关联规则所对应的数据类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710575180.XA CN107357902B (zh) | 2017-07-14 | 2017-07-14 | 一种基于关联规则的数据表分类系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710575180.XA CN107357902B (zh) | 2017-07-14 | 2017-07-14 | 一种基于关联规则的数据表分类系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107357902A true CN107357902A (zh) | 2017-11-17 |
CN107357902B CN107357902B (zh) | 2021-05-28 |
Family
ID=60292522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710575180.XA Expired - Fee Related CN107357902B (zh) | 2017-07-14 | 2017-07-14 | 一种基于关联规则的数据表分类系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107357902B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062484A (zh) * | 2017-12-11 | 2018-05-22 | 北京安华金和科技有限公司 | 一种基于数据敏感特征和数据库元数据的分类分级方法 |
CN108763565A (zh) * | 2018-06-04 | 2018-11-06 | 广东京信软件科技有限公司 | 一种基于深度学习的数据自动关联匹配的构建方法 |
CN109144999A (zh) * | 2018-08-02 | 2019-01-04 | 东软集团股份有限公司 | 一种数据定位方法、装置及存储介质、程序产品 |
CN109145062A (zh) * | 2018-08-23 | 2019-01-04 | 杭州路享科技有限公司 | 一种自学习的信息分类处理装置 |
CN109543160A (zh) * | 2018-11-23 | 2019-03-29 | 网易(杭州)网络有限公司 | 数值表的检查方法、检查装置、存储介质与处理器 |
CN109739864A (zh) * | 2019-01-24 | 2019-05-10 | 易保互联医疗信息科技(北京)有限公司 | 人社数据采集及共享方法、计算机存储介质及计算机设备 |
CN111444094A (zh) * | 2020-03-25 | 2020-07-24 | 中国邮政储蓄银行股份有限公司 | 一种测试数据的生成方法和系统 |
CN112447301A (zh) * | 2020-11-30 | 2021-03-05 | 山东健康医疗大数据有限公司 | 医疗数据的汇聚方法和装置 |
CN112530597A (zh) * | 2020-11-26 | 2021-03-19 | 山东健康医疗大数据有限公司 | 基于Bert字模型的数据表分类方法、装置及介质 |
CN112732715A (zh) * | 2020-12-31 | 2021-04-30 | 星环信息科技(上海)股份有限公司 | 一种数据表关联方法、设备以及存储介质 |
CN113032494A (zh) * | 2021-03-08 | 2021-06-25 | 浙江大华技术股份有限公司 | 一种数据表分类、模型训练方法、装置、设备及介质 |
US11720533B2 (en) | 2021-11-29 | 2023-08-08 | International Business Machines Corporation | Automated classification of data types for databases |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101794280A (zh) * | 2010-03-11 | 2010-08-04 | 北京中科辅龙计算机技术股份有限公司 | 一种基于表格模板集的表格自动生成方法及系统 |
CN102667775A (zh) * | 2009-12-21 | 2012-09-12 | 国际商业机器公司 | 训练和使用具有关联规则模型的分类模型的方法 |
US20120233148A1 (en) * | 2011-03-09 | 2012-09-13 | International Business Machines Corporation | Managing materialized query tables (mqts) over fine-grained access control (fgac) protected tables |
CN104199826A (zh) * | 2014-07-24 | 2014-12-10 | 北京大学 | 一种基于关联分析的异构媒体相似性计算方法和检索方法 |
CN104598569A (zh) * | 2015-01-12 | 2015-05-06 | 北京航空航天大学 | 一种基于关联规则的mbd数据集完整性检查方法 |
CN106708835A (zh) * | 2015-08-11 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种数据表的分类方法和装置 |
-
2017
- 2017-07-14 CN CN201710575180.XA patent/CN107357902B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102667775A (zh) * | 2009-12-21 | 2012-09-12 | 国际商业机器公司 | 训练和使用具有关联规则模型的分类模型的方法 |
CN101794280A (zh) * | 2010-03-11 | 2010-08-04 | 北京中科辅龙计算机技术股份有限公司 | 一种基于表格模板集的表格自动生成方法及系统 |
US20120233148A1 (en) * | 2011-03-09 | 2012-09-13 | International Business Machines Corporation | Managing materialized query tables (mqts) over fine-grained access control (fgac) protected tables |
CN104199826A (zh) * | 2014-07-24 | 2014-12-10 | 北京大学 | 一种基于关联分析的异构媒体相似性计算方法和检索方法 |
CN104598569A (zh) * | 2015-01-12 | 2015-05-06 | 北京航空航天大学 | 一种基于关联规则的mbd数据集完整性检查方法 |
CN106708835A (zh) * | 2015-08-11 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种数据表的分类方法和装置 |
Non-Patent Citations (2)
Title |
---|
毛弟弟: "关系数据库中多表间关联规则算法研究", 《中国优秀硕士学位论文全文数据库》 * |
程岩: "一种结合关联规则技术在数据库中挖掘分类规则的方法", 《计算机应用研究》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062484A (zh) * | 2017-12-11 | 2018-05-22 | 北京安华金和科技有限公司 | 一种基于数据敏感特征和数据库元数据的分类分级方法 |
CN108763565A (zh) * | 2018-06-04 | 2018-11-06 | 广东京信软件科技有限公司 | 一种基于深度学习的数据自动关联匹配的构建方法 |
CN109144999A (zh) * | 2018-08-02 | 2019-01-04 | 东软集团股份有限公司 | 一种数据定位方法、装置及存储介质、程序产品 |
CN109145062A (zh) * | 2018-08-23 | 2019-01-04 | 杭州路享科技有限公司 | 一种自学习的信息分类处理装置 |
CN109145062B (zh) * | 2018-08-23 | 2020-06-23 | 浙江福祉有助电子商务有限公司 | 一种自学习的信息分类处理装置 |
CN109543160B (zh) * | 2018-11-23 | 2023-08-25 | 网易(杭州)网络有限公司 | 数值表的检查方法、检查装置、存储介质与处理器 |
CN109543160A (zh) * | 2018-11-23 | 2019-03-29 | 网易(杭州)网络有限公司 | 数值表的检查方法、检查装置、存储介质与处理器 |
CN109739864A (zh) * | 2019-01-24 | 2019-05-10 | 易保互联医疗信息科技(北京)有限公司 | 人社数据采集及共享方法、计算机存储介质及计算机设备 |
CN109739864B (zh) * | 2019-01-24 | 2021-03-23 | 易保互联医疗信息科技(北京)有限公司 | 人社数据采集及共享方法、计算机存储介质及计算机设备 |
CN111444094A (zh) * | 2020-03-25 | 2020-07-24 | 中国邮政储蓄银行股份有限公司 | 一种测试数据的生成方法和系统 |
CN112530597A (zh) * | 2020-11-26 | 2021-03-19 | 山东健康医疗大数据有限公司 | 基于Bert字模型的数据表分类方法、装置及介质 |
CN112447301A (zh) * | 2020-11-30 | 2021-03-05 | 山东健康医疗大数据有限公司 | 医疗数据的汇聚方法和装置 |
CN112732715B (zh) * | 2020-12-31 | 2023-08-25 | 星环信息科技(上海)股份有限公司 | 一种数据表关联方法、设备以及存储介质 |
CN112732715A (zh) * | 2020-12-31 | 2021-04-30 | 星环信息科技(上海)股份有限公司 | 一种数据表关联方法、设备以及存储介质 |
CN113032494A (zh) * | 2021-03-08 | 2021-06-25 | 浙江大华技术股份有限公司 | 一种数据表分类、模型训练方法、装置、设备及介质 |
US11720533B2 (en) | 2021-11-29 | 2023-08-08 | International Business Machines Corporation | Automated classification of data types for databases |
Also Published As
Publication number | Publication date |
---|---|
CN107357902B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107357902A (zh) | 一种基于关联规则的数据表分类系统与方法 | |
US9418144B2 (en) | Similar document detection and electronic discovery | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
US20230289665A1 (en) | Failure feedback system for enhancing machine learning accuracy by synthetic data generation | |
CN111143655B (zh) | 一种新闻热度的计算方法 | |
US9753964B1 (en) | Similarity clustering in linear time with error-free retrieval using signature overlap with signature size matching | |
US20180203915A1 (en) | Large-scale, high-dimensional similarity clustering in linear time with error-free retrieval | |
Reinanda et al. | Mining, ranking and recommending entity aspects | |
US20180203917A1 (en) | Discovering data similarity groups in linear time for data science applications | |
WO2016177069A1 (zh) | 一种管理方法、装置、垃圾短信监控系统及计算机存储介质 | |
US20180203916A1 (en) | Data clustering with reduced partial signature matching using key-value storage and retrieval | |
Chambers et al. | Improved secondary analysis of linked data: a framework and an illustration | |
CN103838798A (zh) | 页面分类系统及页面分类方法 | |
US11036700B2 (en) | Automatic feature generation for machine learning in data-anomaly detection | |
CN105164672A (zh) | 内容分类 | |
TWI544348B (zh) | 開端式偵測及文字資料中之字叢集之分類 | |
CN109783633A (zh) | 数据分析服务流程模型推荐方法 | |
Rani et al. | Design of an intrusion detection model for IoT-enabled smart home | |
Leung et al. | Finding efficiencies in frequent pattern mining from big uncertain data | |
AL-Bakri et al. | Multi label restaurant classification using support vector machine | |
KR101585644B1 (ko) | 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램 | |
Shukla et al. | A unique approach for detection of fake news using machine learning | |
Dietz et al. | Time-aware evaluation of cumulative citation recommendation systems | |
CN114021716A (zh) | 一种模型训练的方法、系统及电子设备 | |
Liu et al. | Supervised group embedding for rumor detection in social media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210528 |