CN107357902A - 一种基于关联规则的数据表分类系统与方法 - Google Patents

一种基于关联规则的数据表分类系统与方法 Download PDF

Info

Publication number
CN107357902A
CN107357902A CN201710575180.XA CN201710575180A CN107357902A CN 107357902 A CN107357902 A CN 107357902A CN 201710575180 A CN201710575180 A CN 201710575180A CN 107357902 A CN107357902 A CN 107357902A
Authority
CN
China
Prior art keywords
data
tables
classification
data table
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710575180.XA
Other languages
English (en)
Other versions
CN107357902B (zh
Inventor
张小松
牛伟纳
宋珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201710575180.XA priority Critical patent/CN107357902B/zh
Publication of CN107357902A publication Critical patent/CN107357902A/zh
Application granted granted Critical
Publication of CN107357902B publication Critical patent/CN107357902B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关联规则的数据表分类系统与方法,属于数据表分类技术领域;人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;根据所述类别空间,对所述训练集数据表进行预处理;对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息。利用数据表的内容对数据表进行分类,有效的提高了数据表分类的准确性。

Description

一种基于关联规则的数据表分类系统与方法
技术领域
本发明涉及一种数据表分类系统与方法,特别是一种基于关联规则的数据表分类系统与方法,用于对数据表进行分类。
背景技术
近年来,随着社会信息化进程的不断推进,企业数据不仅在数量上呈现递增的趋势,且具有类别多样、变化频繁、环境复杂化等特点。企业数据大都被分散存放在内部网络的不同数据仓库中,其中不乏高值敏感数据,给数据规范化管理造成一定难度,如管理者对数据分布情况很难完整把控。然而,内部网络中数据的存储形式、分布状况、类型、敏感与否对于管理者而言是极为重要的。因为这些信息可以帮助他们发现潜在风险、及时应对相关法律法规的监管,并在资源有限的情况下有选择的对关键数据采取对应的保护措施。这些问题主要涉及对数据源进行分析。
为了使管理者对企业的数据类型有一个直观而完整的把握,需要对企业的数据进行分类,这样才能针对不同的数据类别进行管理。而由于人工分类、标记企业的所有数据费时费力,所以使用程序将数据进行分类是非常有价值的。这里所说的分类指的是在对数据表内容的类别未知的情况下,根据数据表包含哪些数据字段,将数据表类型加以区分,在企业环境中,大部分的企业数据存储在数据表中,无论是数据库还是Excel表格中,它们都是结构化的数据表,每个数据表都是以字段来存储每条记录的内容。
专利申请“用于访问源数据库中的一组数据表格的方法和系统”(申请号:201410444212.9)提供了一种对源数据库中的一组数据表格进行分类的方法。该方法提供了一组度量,该度量是关于数据表的元数据和性能数据,如读写速率、记录的数目、字段的数目、主键和外键的数目、触发器类型等;该方法提供了一组数据表类别,该类别是根据上述度量的不同而区别的;该方法根据上述数据表类别及度量方式,将源数据库中的一组数据表格进行分类。该方法的不足在于,分类的依据只有数据库的物理属性即上述度量,而不涉及数据库中存储的数据内容,这样的分类依据不能区分内容类别不同的数据表,对于数据表的分类而言价值不高;此外,分类的结果只有三种,这样的分类结果误差较高且令人困惑。
发明内容
基于以上技术问题,本发明提供了一种基于关联规则的数据表分类系统与方法,解决了目前分类方法的依据只有数据库的物理属性,不涉及数据库中的数据内容导致分类结果误差高的技术问题。
本发明采用的技术方案如下:
一种基于关联规则的数据表分类系统与方法,包括以下步骤:
步骤1:人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;
步骤2:根据所述类别空间,对所述训练集数据表进行预处理;
步骤3:对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;
步骤4:对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息。
进一步的,实现所述步骤1的结构包括:数据表信息读取单元、数据表信息数据库、类别空间构造单元、类别空间信息数据库;
数据表信息读取单元:用于读取数据表的字段信息和数据个数;
数据表信息数据库:用于存储数据表中的数据信息;
类别空间构造单元:用于构造所述类别数据表的类别空间,所述类别空间包含类别数据表的字段信息和类别信息;
类别空间信息数据库:用于存储类别空间的内容;
所述步骤1的具体步骤为:
S201:人工收集若干训练集数据表,所述训练集数据表的内容包含类别数据表的内容;
S202:所述数据表信息读取单元读取所述数据表,并对所述训练集数据表进行格式化,将所述格式化后的训练集数据表传递给类别空间构造单元;
S203:类别空间构造单元利用所述格式化后的训练集数据表构造类别空间,并将所述类别空间的内容储存至类别空间信息数据库。
进一步的,所述步骤2中,类别空间构造单元对所述训练集数据表进行预处理,并将预处理后的训练集数据表储存至数据表信息数据库。
进一步的,实现所述步骤3的结构包括:数据表类别关联规则分析单元和数据表类别关联规则数据库;
数据表类别关联规则分析单元:用于分析由所述类别空间中的数据表字段和数据表类别组合得到的关联规则,所述关联规则满足最小支持度和最小置信度要求;
数据表类别关联规则数据库:用于存储所述数据表类别关联规则分析单元输出的所述关联规则;
所述步骤3的具体步骤为:
S401:所述数据表类别关联规则分析单元读取所述数据表信息数据库中预处理后的训练集数据表;
S402:利用所述数据表类别关联规则分析单元设置最小置信度和最小支持度,使用 Apriori算法分析出大于最小置信度和最小支持度的关联规则,将所述关联规则存入所述数据表类别关联规则数据库。
进一步的,所述步骤4采用的结构包括数据表类别判断单元,所述数据表类别判断单元用于利用所述关联规则数据库中的关联规则对预处理后的数据表进行类别识别;
步骤4的具体步骤如下:
S501:所述数据表类别判断单元读取所述数据表类别关联规则数据库中的关联规则;
S502:所述数据表类别判断单元读取所述类别空间信息数据库中类别空间的内容;
S503:根据所述类别空间的内容对需要进行识别的数据表进行预处理;
S504:利用所述关联规则对预处理后的数据表进行匹配,匹配成功说明该数据表存储的内容是该关联规则所对应的数据类别。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、利用数据表内容对数据表进行分类,可以更有针对性的进行分类,依据完善的分类规则将未知的数据表归纳为某一种类别,迅速得到数据表存储的内容的类型。
2、提出了“类别空间”的概念,对于某一类别的信息,可以定义该类别的所有数据字段的命名,将不标准的、口语化的或同义的字段命名标准化为类别空间中所定义的名字,这样可以将名字千变万化的数据表进行标准化,以便于分类操作。
3、本方法采用了关联规则挖掘算法,该算法可以从大量的标准化后的训练集中分析出有效地、可信的分类规则,并且针对未知的数据表,可以迅速匹配规则从而将数据表进行分类。
4、方案里面用到的数据表信息读取单元,可以从多种不同的数据源中读取数据表内容,有效解决了针对异构数据源的读取问题,从而应对复杂的使用环境。
5、本方法可以根据数据表内容对数据表进行分类,这样对于使用者来说,不仅可以得知未知数据表的数据类别,同时可以针对不同的数据类型进行不同的操作、在不同的场合使用不同的类别数据、分门别类的管理和维护数据。
附图说明
图1是本发明一种基于关联规则的数据表分类系统的构成框图;
图2是本发明数据表分类方法的流程图;
图3是本发明类别空间的构造方法的流程图;
图4是本发明训练集数据表预处理的流程图;
图5是本发明数据表类别关联规则产生方法的流程图;
图6是本发明数据表分类预处理的流程图。
具体实施方式
本说明书中公开的所有特征,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
下面结合附图对本发明作详细说明。
一种基于关联规则的数据表分类系统与方法,包括以下步骤(如图1):
步骤1:步骤1:人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;
实现所述步骤1的结构包括:数据表信息读取单元、数据表信息数据库、类别空间构造单元、类别空间信息数据库(如图2);
数据表信息读取单元:用于读取数据表的字段信息和数据个数;
数据表信息数据库:用于存储数据表中的数据信息;
类别空间构造单元:用于构造所述类别数据表的类别空间,所述类别空间包含类别数据表的字段信息和类别信息;
类别空间信息数据库:用于存储类别空间的内容;
所述步骤1的具体步骤为:
S201:人工收集若干训练集数据表,所述训练集数据表的内容包含类别数据表的内容;
S202:所述数据表信息读取单元读取所述数据表,并对所述训练集数据表进行格式化,将所述格式化后的训练集数据表传递给类别空间构造单元;
S203:类别空间构造单元利用所述格式化后的训练集数据表构造类别空间,并将所述类别空间的内容储存至类别空间信息数据库。
步骤2:类别空间构造单元对所述训练集数据表进行预处理,并将预处理后的训练集数据表储存至数据表信息数据库。
步骤3:对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;
数据表类别关联规则分析单元和数据表类别关联规则数据库;
数据表类别关联规则分析单元:用于分析由所述类别空间中的数据表字段和数据表类别组合得到的关联规则,所述关联规则满足最小支持度和最小置信度要求;
数据表类别关联规则数据库:用于存储所述数据表类别关联规则分析单元输出的所述关联规则;
所述步骤3的具体步骤为:
S401:所述数据表类别关联规则分析单元读取所述数据表信息数据库中预处理后的训练集数据表;
S402:利用所述数据表类别关联规则分析单元设置最小置信度和最小支持度,使用 Apriori算法分析出大于最小置信度和最小支持度的关联规则,将所述关联规则存入所述数据表类别关联规则数据库。
步骤4:对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息;采用的结构包括数据表类别判断单元,所述数据表类别判断单元用于利用所述关联规则数据库中的关联规则对预处理后的数据表进行类别识别;
步骤4的具体步骤如下:
S501:所述数据表类别判断单元读取所述数据表类别关联规则数据库中的关联规则;
S502:所述数据表类别判断单元读取所述类别空间信息数据库中类别空间的内容;
S503:根据所述类别空间的内容对需要进行识别的数据表进行预处理;
S504:利用所述关联规则对预处理后的数据表进行匹配,匹配成功说明该数据表存储的内容是该关联规则所对应的数据类别。
下面,结合具体实施例来对本发明做进一步详细说明。
具体实施例
步骤1:设置两组类别数据表:“个人可识别信息”、“财务工资信息”;人工收集包含所述类别数据表内容的两组数据表。
步骤2:利用数据表信息读取单元,读取两组数据表的字段内容,部分数据表字段如表1,其中表T1-T30为“个人可识别信息”类的数据表,表T31之后的为“财务工资信息”类的数据表;
表1
步骤3:对于“个人可识别信息”类,遍历数据数据表T1-T30。首先将数据表T1 中的所有字段添加到“个人可识别信息”类的类别空间中,作为该类别空间的类别元素;数据表T2中,“名字”字段为类别元素“姓名”的同义词,则将“名字”作为类别元素“姓名”的同义词,而“手机号码”字段在类别空间中不存在对应的类别元素,则将该字段添加为新的类别元素;遍历T3到T30,重复上述操作,得到“个人可识别信息”类的类别空间(如图3)。部分类别空间如表2所示:
表2
步骤4:利用所述类别空间对所述两组数据表进行预处理;遍历数据表字段,若该字段为类别空间中某类别元素的同义词,则将该字段替换为该类别元素;如表1中T2 数据表,由于“名字”字段为类别元素“姓名”的同义词,所以将“名字”字段替换为“姓名”。全部替换后,将预处理后的数据表字段内容存到数据表信息数据库中(如图4)。
步骤5:读取所述预处理后的数据表字段,将类别作为特殊字段添加到数据表字段信息中;扫描所述数据字段信息,计算每个字段的支持度,将其中支持度大于最小支持度的字段纳入字段频繁集;之后将字段频繁集中的字段进行组合,并计算它们的支持度,将其中大于最小支持度的字段组合纳入组合频繁集;计算组合频繁集中各项的置信度,生成置信度大于最小置信度的关联规则;遍历所有生成的关联规则,若规则的后件是类别这个特殊字段,则认为这是一个有效的关联规则,将这条规则保存到数据表关联规则数据库中(如图5)。表3为在最小支持度为0.4且最小置信度为0.9的条件下的部分关联规则;
表3
步骤6:数据表类别判断单元从数据表类别关联规则数据库中读取保存的关联规则;数据表类别判断单元从类别空间信息数据库中读取“个人可识别信息”和“财务工资信息”两个类别的类别空间;
步骤7:对于一个等待分析其内容类别的数据表,它包含如下字段:“名字”,“身份证”,“手机号码”,“性别”,“电子邮件”,“住址”,“省份”,“城市”,对其进行预处理,将字段替换为类别空间的类别元素,预处理后的字段内容为:“姓名”,“身份证号”,“移动电话”,“性别”,“电子邮件”,“地址”,“省份”,“城市”;之后利用关联规则依次匹配这些字段。对于表3中的第一条规则,虽然该规则的“姓名”字段存在于等待分析的数据表中,但该表不包含该规则中其他的字段,所以不能匹配该规则;而对于表3中的第二条规则,该规则的“姓名”、“地址”、“省份”、“性别”、“城市”等字段在该数据表中均存在,所以该规则匹配成功,可以将该数据表的内容分类为“个人可识别信息”类别(如图6)。
如上所述即为本发明的实施例。本发明不局限于上述实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。

Claims (5)

1.一种基于关联规则的数据表分类系统与方法,其特征在于:包括以下步骤:
步骤1:人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;
步骤2:根据所述类别空间,对所述训练集数据表进行预处理;
步骤3:对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;
步骤4:对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息。
2.根据权利要求1所述的一种基于关联规则的数据表分类系统与方法,其特征在于:实现所述步骤1的结构包括:数据表信息读取单元、数据表信息数据库、类别空间构造单元、类别空间信息数据库;
数据表信息读取单元:用于读取数据表的字段信息和数据个数;
数据表信息数据库:用于存储数据表中的数据信息;
类别空间构造单元:用于构造所述类别数据表的类别空间,所述类别空间包含类别数据表的字段信息和类别信息;
类别空间信息数据库:用于存储类别空间的内容;
所述步骤1的具体步骤为:
S201:人工收集若干训练集数据表,所述训练集数据表的内容包含类别数据表的内容;
S202:所述数据表信息读取单元读取所述数据表,并对所述训练集数据表进行格式化,将所述格式化后的训练集数据表传递给类别空间构造单元;
S203:类别空间构造单元利用所述格式化后的训练集数据表构造类别空间,并将所述类别空间的内容储存至类别空间信息数据库。
3.根据权利要求1-2所述的一种基于关联规则的数据表分类系统与方法,其特征在于:所述步骤2中,类别空间构造单元对所述训练集数据表进行预处理,并将预处理后的训练集数据表储存至数据表信息数据库。
4.根据权利要求1所述的一种基于关联规则的数据表分类系统与方法,其特征在于:实现所述步骤3的结构包括:数据表类别关联规则分析单元和数据表类别关联规则数据库;
数据表类别关联规则分析单元:用于分析由所述类别空间中的数据表字段和数据表类别组合得到的关联规则,所述关联规则满足最小支持度和最小置信度要求;
数据表类别关联规则数据库:用于存储所述数据表类别关联规则分析单元输出的所述关联规则;
所述步骤3的具体步骤为:
S401:所述数据表类别关联规则分析单元读取所述数据表信息数据库中预处理后的训练集数据表;
S402:利用所述数据表类别关联规则分析单元设置最小置信度和最小支持度,使用Apriori算法分析出大于最小置信度和最小支持度的关联规则,将所述关联规则存入所述数据表类别关联规则数据库。
5.根据权利要求1所述的一种基于关联规则的数据表分类系统与方法,其特征在于:所述步骤4采用的结构包括数据表类别判断单元,所述数据表类别判断单元用于利用所述关联规则数据库中的关联规则对预处理后的数据表进行类别识别;
步骤4的具体步骤如下:
S501:所述数据表类别判断单元读取所述数据表类别关联规则数据库中的关联规则;
S502:所述数据表类别判断单元读取所述类别空间信息数据库中类别空间的内容;
S503:根据所述类别空间的内容对需要进行识别的数据表进行预处理;
S504:利用所述关联规则对预处理后的数据表进行匹配,匹配成功说明该数据表存储的内容是该关联规则所对应的数据类别。
CN201710575180.XA 2017-07-14 2017-07-14 一种基于关联规则的数据表分类系统与方法 Expired - Fee Related CN107357902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710575180.XA CN107357902B (zh) 2017-07-14 2017-07-14 一种基于关联规则的数据表分类系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710575180.XA CN107357902B (zh) 2017-07-14 2017-07-14 一种基于关联规则的数据表分类系统与方法

Publications (2)

Publication Number Publication Date
CN107357902A true CN107357902A (zh) 2017-11-17
CN107357902B CN107357902B (zh) 2021-05-28

Family

ID=60292522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710575180.XA Expired - Fee Related CN107357902B (zh) 2017-07-14 2017-07-14 一种基于关联规则的数据表分类系统与方法

Country Status (1)

Country Link
CN (1) CN107357902B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062484A (zh) * 2017-12-11 2018-05-22 北京安华金和科技有限公司 一种基于数据敏感特征和数据库元数据的分类分级方法
CN108763565A (zh) * 2018-06-04 2018-11-06 广东京信软件科技有限公司 一种基于深度学习的数据自动关联匹配的构建方法
CN109144999A (zh) * 2018-08-02 2019-01-04 东软集团股份有限公司 一种数据定位方法、装置及存储介质、程序产品
CN109145062A (zh) * 2018-08-23 2019-01-04 杭州路享科技有限公司 一种自学习的信息分类处理装置
CN109543160A (zh) * 2018-11-23 2019-03-29 网易(杭州)网络有限公司 数值表的检查方法、检查装置、存储介质与处理器
CN109739864A (zh) * 2019-01-24 2019-05-10 易保互联医疗信息科技(北京)有限公司 人社数据采集及共享方法、计算机存储介质及计算机设备
CN111444094A (zh) * 2020-03-25 2020-07-24 中国邮政储蓄银行股份有限公司 一种测试数据的生成方法和系统
CN112447301A (zh) * 2020-11-30 2021-03-05 山东健康医疗大数据有限公司 医疗数据的汇聚方法和装置
CN112530597A (zh) * 2020-11-26 2021-03-19 山东健康医疗大数据有限公司 基于Bert字模型的数据表分类方法、装置及介质
CN112732715A (zh) * 2020-12-31 2021-04-30 星环信息科技(上海)股份有限公司 一种数据表关联方法、设备以及存储介质
CN113032494A (zh) * 2021-03-08 2021-06-25 浙江大华技术股份有限公司 一种数据表分类、模型训练方法、装置、设备及介质
US11720533B2 (en) 2021-11-29 2023-08-08 International Business Machines Corporation Automated classification of data types for databases

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794280A (zh) * 2010-03-11 2010-08-04 北京中科辅龙计算机技术股份有限公司 一种基于表格模板集的表格自动生成方法及系统
CN102667775A (zh) * 2009-12-21 2012-09-12 国际商业机器公司 训练和使用具有关联规则模型的分类模型的方法
US20120233148A1 (en) * 2011-03-09 2012-09-13 International Business Machines Corporation Managing materialized query tables (mqts) over fine-grained access control (fgac) protected tables
CN104199826A (zh) * 2014-07-24 2014-12-10 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN104598569A (zh) * 2015-01-12 2015-05-06 北京航空航天大学 一种基于关联规则的mbd数据集完整性检查方法
CN106708835A (zh) * 2015-08-11 2017-05-24 阿里巴巴集团控股有限公司 一种数据表的分类方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102667775A (zh) * 2009-12-21 2012-09-12 国际商业机器公司 训练和使用具有关联规则模型的分类模型的方法
CN101794280A (zh) * 2010-03-11 2010-08-04 北京中科辅龙计算机技术股份有限公司 一种基于表格模板集的表格自动生成方法及系统
US20120233148A1 (en) * 2011-03-09 2012-09-13 International Business Machines Corporation Managing materialized query tables (mqts) over fine-grained access control (fgac) protected tables
CN104199826A (zh) * 2014-07-24 2014-12-10 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN104598569A (zh) * 2015-01-12 2015-05-06 北京航空航天大学 一种基于关联规则的mbd数据集完整性检查方法
CN106708835A (zh) * 2015-08-11 2017-05-24 阿里巴巴集团控股有限公司 一种数据表的分类方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
毛弟弟: "关系数据库中多表间关联规则算法研究", 《中国优秀硕士学位论文全文数据库》 *
程岩: "一种结合关联规则技术在数据库中挖掘分类规则的方法", 《计算机应用研究》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062484A (zh) * 2017-12-11 2018-05-22 北京安华金和科技有限公司 一种基于数据敏感特征和数据库元数据的分类分级方法
CN108763565A (zh) * 2018-06-04 2018-11-06 广东京信软件科技有限公司 一种基于深度学习的数据自动关联匹配的构建方法
CN109144999A (zh) * 2018-08-02 2019-01-04 东软集团股份有限公司 一种数据定位方法、装置及存储介质、程序产品
CN109145062A (zh) * 2018-08-23 2019-01-04 杭州路享科技有限公司 一种自学习的信息分类处理装置
CN109145062B (zh) * 2018-08-23 2020-06-23 浙江福祉有助电子商务有限公司 一种自学习的信息分类处理装置
CN109543160B (zh) * 2018-11-23 2023-08-25 网易(杭州)网络有限公司 数值表的检查方法、检查装置、存储介质与处理器
CN109543160A (zh) * 2018-11-23 2019-03-29 网易(杭州)网络有限公司 数值表的检查方法、检查装置、存储介质与处理器
CN109739864A (zh) * 2019-01-24 2019-05-10 易保互联医疗信息科技(北京)有限公司 人社数据采集及共享方法、计算机存储介质及计算机设备
CN109739864B (zh) * 2019-01-24 2021-03-23 易保互联医疗信息科技(北京)有限公司 人社数据采集及共享方法、计算机存储介质及计算机设备
CN111444094A (zh) * 2020-03-25 2020-07-24 中国邮政储蓄银行股份有限公司 一种测试数据的生成方法和系统
CN112530597A (zh) * 2020-11-26 2021-03-19 山东健康医疗大数据有限公司 基于Bert字模型的数据表分类方法、装置及介质
CN112447301A (zh) * 2020-11-30 2021-03-05 山东健康医疗大数据有限公司 医疗数据的汇聚方法和装置
CN112732715B (zh) * 2020-12-31 2023-08-25 星环信息科技(上海)股份有限公司 一种数据表关联方法、设备以及存储介质
CN112732715A (zh) * 2020-12-31 2021-04-30 星环信息科技(上海)股份有限公司 一种数据表关联方法、设备以及存储介质
CN113032494A (zh) * 2021-03-08 2021-06-25 浙江大华技术股份有限公司 一种数据表分类、模型训练方法、装置、设备及介质
US11720533B2 (en) 2021-11-29 2023-08-08 International Business Machines Corporation Automated classification of data types for databases

Also Published As

Publication number Publication date
CN107357902B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN107357902A (zh) 一种基于关联规则的数据表分类系统与方法
US9418144B2 (en) Similar document detection and electronic discovery
US9317613B2 (en) Large scale entity-specific resource classification
US20230289665A1 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
CN111143655B (zh) 一种新闻热度的计算方法
US9753964B1 (en) Similarity clustering in linear time with error-free retrieval using signature overlap with signature size matching
US20180203915A1 (en) Large-scale, high-dimensional similarity clustering in linear time with error-free retrieval
Reinanda et al. Mining, ranking and recommending entity aspects
US20180203917A1 (en) Discovering data similarity groups in linear time for data science applications
WO2016177069A1 (zh) 一种管理方法、装置、垃圾短信监控系统及计算机存储介质
US20180203916A1 (en) Data clustering with reduced partial signature matching using key-value storage and retrieval
Chambers et al. Improved secondary analysis of linked data: a framework and an illustration
CN103838798A (zh) 页面分类系统及页面分类方法
US11036700B2 (en) Automatic feature generation for machine learning in data-anomaly detection
CN105164672A (zh) 内容分类
TWI544348B (zh) 開端式偵測及文字資料中之字叢集之分類
CN109783633A (zh) 数据分析服务流程模型推荐方法
Rani et al. Design of an intrusion detection model for IoT-enabled smart home
Leung et al. Finding efficiencies in frequent pattern mining from big uncertain data
AL-Bakri et al. Multi label restaurant classification using support vector machine
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
Shukla et al. A unique approach for detection of fake news using machine learning
Dietz et al. Time-aware evaluation of cumulative citation recommendation systems
CN114021716A (zh) 一种模型训练的方法、系统及电子设备
Liu et al. Supervised group embedding for rumor detection in social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210528