CN110457405B - 一种基于血缘关系的数据库审计方法 - Google Patents

一种基于血缘关系的数据库审计方法 Download PDF

Info

Publication number
CN110457405B
CN110457405B CN201910767801.3A CN201910767801A CN110457405B CN 110457405 B CN110457405 B CN 110457405B CN 201910767801 A CN201910767801 A CN 201910767801A CN 110457405 B CN110457405 B CN 110457405B
Authority
CN
China
Prior art keywords
blood relationship
database
auditing
columns
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910767801.3A
Other languages
English (en)
Other versions
CN110457405A (zh
Inventor
王启凡
魏国富
殷钱安
陈一根
余贤喆
陶景龙
刘胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN201910767801.3A priority Critical patent/CN110457405B/zh
Publication of CN110457405A publication Critical patent/CN110457405A/zh
Application granted granted Critical
Publication of CN110457405B publication Critical patent/CN110457405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于血缘关系的数据库审计方法,要解决的是现有数据库审计中存在的问题。本发明具体步骤如下:步骤一,找出数据库的字段之间的血缘关系R;步骤二,基于血缘关系R,分别对数据库进行敏感数据字段、越权操作和重要表操作审计,得到异常结果。本发明通过抽取相关的数据,其中用数据库操作记录进行抽取血缘关系的工作,生成血缘关系表,用其他数据关联血缘关系表,用关联后的数据进行数据处理,提取特征,再用相关的模型进行识别,找出异常结果记录,工作效率和正确率高,满足了人们的使用需求。

Description

一种基于血缘关系的数据库审计方法
技术领域
本发明涉及数据库审计领域,具体是一种基于血缘关系的数据库审计方法。
背景技术
SQL(Structured Query Language)是具有数据操纵和数据定义等多种功能的数据库语言,这种语言具有交互性特点,能为用户提供极大的便利,数据库管理系统应充分利用SQL语言提高计算机应用系统的工作质量与效率。SQL语言不仅能独立应用于终端,还可以作为子语言为其他程序设计提供有效助力。
数据库的审计是正确应用的基础,现有的数据库审计方法虽然可以达到一定的效果,但是找出异常结果的正确率不高,人们也在进行相关方面的研究。
发明内容
本发明实施例的目的在于提供一种基于血缘关系的数据库审计方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种基于血缘关系的数据库审计方法,具体步骤如下:
步骤一,找出数据库的字段之间的血缘关系R;
步骤二,基于血缘关系R,分别对数据库进行敏感数据字段、越权操作和重要表操作审计,得到异常结果。
作为本发明实施例进一步的方案:步骤一中的方法一为:读取数据库操作记录中的SQL语句,对SQL语句进行解析,通过SQL语句中特有的规则找出体现数据传输的血缘关系,从而建立血缘关系表。
作为本发明实施例进一步的方案:步骤一中的方法二为:利用人工智能算法,当数据库操作记录不完整时,可以通过对整个数据库字段先进行聚类再进行相似度计算,找出数据库字段之间的血缘关系,补充到血缘关系表中,结合上述两个方法产生的关系集合,若有冲突,以方法一的结果为准,并将这种关系定义为血缘关系。
作为本发明实施例进一步的方案:步骤二中敏感数据字段的审计步骤为:通过客户提供的敏感数据字段和血缘关系R的字段进行关联,找到与敏感列有直接或间接血缘关系的列的结合,并把这些列定义为敏感字段群体,然后结合数据库操作日志审计敏感字段群体,找出对敏感字段群体进行异常操作的用户,分析数据传输日志和敏感字段群体,识别出对敏感数据字段进行大量导出操作的异常用户。
作为本发明实施例进一步的方案:步骤二中越权操作的审计步骤为:首先定义用户的权限表,然后将用户的权限表和血缘关系表进行关联,找出进行越权访问操作的异常用户。
作为本发明实施例进一步的方案:步骤二中重要表操作的审计步骤为:通过PageRank算法计算出血缘关系表的中心度,根据中心度进行排序找出重要表,最后对重要表操作用户进行审计,找出异常操作的用户。
作为本发明实施例进一步的方案:步骤一中方法二的人工智能算法为kmeans算法,k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇,聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集。
作为本发明实施例进一步的方案:步骤一中方法二中相似度计算的公式为:
Figure BDA0002172542960000021
C,D表示两个进行比较的列,ci,di表示列的元素(即列的具体内容),n,m表示两个列的长度。
与现有技术相比,本发明实施例的有益效果是:
本发明通过抽取相关的数据,其中用数据库操作记录进行抽取血缘关系的工作,生成血缘关系表,用其他数据关联血缘关系表,用关联后的数据进行数据处理,提取特征,再用相关的模型进行识别,找出异常结果记录,工作效率和正确率高,满足了人们的使用需求。
附图说明
图1为基于血缘关系的数据库审计方法的工作流程图。
图2为基于血缘关系的数据库审计方法中敏感数据字段审计的流程示意图。
图3为基于血缘关系的数据库审计方法中越权操作审计的流程示意图。
图4为基于血缘关系的数据库审计方法中重要表操作审计的流程示意图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
实施例1
一种基于血缘关系的数据库审计方法,具体步骤如下:
步骤一,找出数据库的字段之间的血缘关系R,方法一为:读取数据库操作记录中的SQL语句,对SQL语句进行解析,通过SQL语句中特有的规则找出体现数据传输的血缘关系,从而建立血缘关系表,方法二为:利用kmeans算法,k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇,聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集,当数据库操作记录不完整时,可以通过对整个数据库字段先进行聚类再进行相似度计算,相似度计算的公式为:
Figure BDA0002172542960000031
C,D表示两个进行比较的列,ci,di表示列的元素(即列的具体内容),n,m表示两个列的长度,找出数据库字段之间的血缘关系,补充到血缘关系表中,结合上述两个方法产生的关系集合,若有冲突,以方法一的结果为准,并将这种关系定义为血缘关系;
步骤二,基于血缘关系R,分别对数据库进行敏感数据字段、越权操作和重要表操作审计,敏感数据字段的审计步骤为:通过客户提供的敏感数据字段和血缘关系R的字段进行关联,找到与敏感列有直接或间接血缘关系的列的结合,并把这些列定义为敏感字段群体,然后结合数据库操作日志审计敏感字段群体,找出对敏感字段群体进行异常操作的用户,分析数据传输日志和敏感字段群体,识别出对敏感数据字段进行大量导出操作的异常用户;越权操作的审计步骤为:首先定义用户的权限表,然后将用户的权限表和血缘关系表进行关联,找出进行越权访问操作的异常用户;重要表操作的审计步骤为:通过PageRank算法计算出血缘关系表的中心度,根据中心度进行排序找出重要表,最后对重要表操作用户进行审计,找出异常操作的用户,即可得到异常结果。
实施例2
一种基于血缘关系的数据库审计方法,具体步骤如下:
步骤一,从SQL语句中提取create table,insert into这两种具有“数据传输”的语句。利用sqlparse工具进行语句分析。sqlparse工具可以解析出单词的词性。词性包括:关键词、方法、符号等。依据create或insert关键词可以定位到目标表名Tt;依据from关键词可以定位到源表名<Ts>集合。(获取单表的表名或者表关联的表名和别名);依据select关键词可以定位到列名和列别名集合(列名为原始列名,列别名为目标表列名,无列别名则目标表列名和原始列名一致)。替换列名集合的表别名为真实的表名。输出SQL语句的解析结果:原始表名、原始列名、目标表名、目标列名。血缘关系映射为:原始表名,原始列名–>目标表名、目标列名;
步骤二,针对于每个列,加工如下特征:字符类型(数字型、文本型)、平均字符长度、平均数字字符占比(avg(数字字符/总字符))、平均英文字符占比(avg(英文字符/总字符))、平均中文字符占比(avg(中文字符/总字符))。利用kmeans算法,将上述特征进行聚类,将相似的属性的列聚到一个类中。聚类的结果是每个类包含一个或者多个列。在同一类中,计算类内容的相似度。相似度的计算公式是:
Figure BDA0002172542960000041
其中:C,D表示两个进行比较的列,ci,di表示列的元素(即列的具体内容),n,m表示两个列的长度。若相似度超过阈值,则可定义这两个列是具有数据传输关系的。并结合列的创建时间,把创建时间早的列作为原始列,时间创建晚的列作为目标列,结合步骤一和步骤二产生的关系集合,若有冲突,以步骤一的结果为准,并将这种关系定义为血缘关系R,
步骤三,基于血缘关系R,分别对数据库进行敏感数据字段、越权操作和重要表操作审计,敏感数据字段审计的步骤为:根据客户提供给的“已标注的敏感数据”,结合血缘关系R,找到与“已标注的敏感数据”有直接或者间接血缘关系的敏感数据群体。关联操作日志和敏感数据群体,得到敏感数据群体的操作日志。并进行特征加工,根据日期维度、统计维度、主体维度组合,可以加工成以用户为对象的特征,见表1;
表1
Figure BDA0002172542960000051
Figure BDA0002172542960000061
将加工后的特征进行数据标准化后、采用异常检测算法进行检测(孤立森林模型+KNN算法)、并找出敏感数据操作异常记录。孤立森林(iForest)模型属于无参数和无监督的。模型,即不需要假设数据模型也不需要有label的训练模型。对于查找哪些点容易被孤立(异常点),孤立森林用一个随机超平面来切割数据空间,切一次后可以生成两个子空间,之后再继续用随机一个超平面来切割每个子空间,循环下去,直到每子空间里面只有一个数据点为止。直观上来讲,可以发现那些密度很高的簇需要被切很多次才会停止切割,但那些密度很低的点就会很容易很早的停到一个子空间了。由于切割是随机的,所以需要用ensemble的方法来得到一个收敛值,即反复从头开始切,然后平均每次切的结果。孤立森林(iForest)由t个iTree(孤立树)组成,每个iTree是一个二叉树结构。孤立森林实现步骤大致如下:1.从训练数据中随机抽取部分样本作为子样本集;2.随机指定一个维度,在当前节点数据中随机产生一个切割的,以此切割点生成一个超平面,将当前节点数据空间分为2个子空间;3.递归步骤2,不断构造新的子节点,直到子节点中只有一个数据或达到限定高度。获得t个iTree之后,孤立森林训练就结束了,输入每个样本是否异常标签,以及异常分数。KNN算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表,在做异常识别中,我们迭代距离,找出邻居最少的点,定义为异常点。
依据上面的异常检测算法,可以识别出异常操作的记录,并根据记录追溯到用户个人;依据表名、列名关联文件传输日志和敏感数据群体,可以生成敏感数据传输记录,并进行特征加工,根据日期维度、统计维度、主体维度组合,可以加工成以用户为对象的特征,见表2。
表2
Figure BDA0002172542960000071
Figure BDA0002172542960000081
Figure BDA0002172542960000091
越权操作审计的步骤为:关联用户权限数据(禁止用户对某些表进行操作的记录)和血缘关系R。产生禁止用户操作的表群体S(与禁止用户操作的表有直接或者间接血缘关系的表群体)。
关联禁止用户操作的表群体S和用户操作记录,找到用户操作了禁止操作的表群体的记录
重要表操作审计的步骤为:利用PageRank算法对血缘关系R进行中心度提取。PageRank算法总的来说就是预先给每个表一个PR值(下面用PR值指代PageRank值),由于PR值物理意义上为一个表被数数据传输的概率,所以一般是
Figure BDA0002172542960000092
其中N为表的总数。另外,一般情况下,所有表的PR值的总和为1。如果不为1的话也不是不行,最后算出来的不同表之间PR值的大小关系仍然是正确的,只是不能直接地反映概率。预先给定PR值后,通过下面的算法不断迭代,直至达到平稳分布为止。
Figure BDA0002172542960000093
PRiPRi表示第i个表的PageRank值,用以衡量每一个表的排名;若排名越高,则其PageRank值越大。然后再按中心度进行排名,提取中心度排序前列的表集合,做为重要表T。
通过表名来关联操作日志和重要表T。关联后的结果可以实时展示,用来对重要表进行实时监控,可以对关联后的结果加工特征,用异常识别算法进行异常操作识别,加工以表和用户为对象的特征见表3。
表3
Figure BDA0002172542960000101
Figure BDA0002172542960000111
利用相关的异常检测模型(如孤立森林模型和KNN算法),可以找出操作重要表的异常记录,从而追溯到操作异常的用户。异常结果显示见表4。
表4
用户id 敏感数据操作 越权操作 重点表操作
100001 正常 正常 正常
100002 正常 异常 正常
100003 异常 正常 正常
100004 正常 正常 正常
100005 正常 正常 异常
100006 正常 正常 正常
100007 正常 正常 正常
100008 正常 正常 正常
100009 异常 异常 异常
100010 正常 正常 正常
100011 正常 正常 正常
100012 正常 正常 正常
100013 正常 正常 正常
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种基于血缘关系的数据库审计方法,其特征在于,具体步骤如下:
步骤一,找出数据库的字段之间的血缘关系R:读取数据库操作记录中的SQL语句,对SQL语句进行解析,SQL语句的解析结果为:原始表名、原始列名、目标表名、目标列名,血缘关系R映射为:原始表名,原始列名–>目标表名、目标列名,从而建立血缘关系表,当数据库操作记录不完整时,针对于每个列,提取如下特征:字符类型、平均字符长度、平均数字字符占比、平均英文字符占比、平均中文字符占比,利用人工智能算法将相似特征的列聚到一个类中,在同一类中,计算类内容的相似度,相似度的计算公式是:
Figure FDA0003206534700000011
其中:C,D表示两个进行比较的列,ci,di表示列的元素,n,m表示两个列的长度,若相似度超过阈值,则定义这两个列是具有数据传输关系的,将这种关系定义为血缘 关系R,补充到血缘关系表中;
步骤二,基于血缘关系R,分别对数据库进行敏感数据字段、越权操作和重要表操作审计,得到异常结果,重要表操作的审计步骤为:通过PageRank算法计算出血缘关系表的中心度,根据中心度进行排序找出重要表,最后对重要表操作用户进行审计,找出异常操作的用户。
2.根据权利要求1所述的基于血缘关系的数据库审计方法,其特征在于,所述步骤二中敏感数据字段的审计步骤为:通过客户提供的敏感数据字段和血缘关系R的字段进行关联,找到与敏感列有直接或间接血缘关系的列的结合,并把这些列定义为敏感字段群体,然后结合数据库操作日志审计敏感字段群体,找出对敏感字段群体进行异常操作的用户,分析数据传输日志和敏感字段群体,识别出对敏感数据字段进行大量导出操作的异常用户。
3.根据权利要求1或2所述的基于血缘关系的数据库审计方法,其特征在于,所述步骤二中越权操作的审计步骤为:首先定义用户的权限表,然后将用户的权限表和血缘关系表进行关联,找出进行越权访问操作的异常用户。
4.根据权利要求1所述的基于血缘关系的数据库审计方法,其特征在于,所述步骤一中的人工智能算法为kmeans算法。
CN201910767801.3A 2019-08-20 2019-08-20 一种基于血缘关系的数据库审计方法 Active CN110457405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910767801.3A CN110457405B (zh) 2019-08-20 2019-08-20 一种基于血缘关系的数据库审计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910767801.3A CN110457405B (zh) 2019-08-20 2019-08-20 一种基于血缘关系的数据库审计方法

Publications (2)

Publication Number Publication Date
CN110457405A CN110457405A (zh) 2019-11-15
CN110457405B true CN110457405B (zh) 2021-09-21

Family

ID=68487782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910767801.3A Active CN110457405B (zh) 2019-08-20 2019-08-20 一种基于血缘关系的数据库审计方法

Country Status (1)

Country Link
CN (1) CN110457405B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990867B (zh) * 2019-11-28 2023-02-07 上海观安信息技术股份有限公司 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统
CN111177779B (zh) * 2019-12-24 2023-04-25 深圳昂楷科技有限公司 数据库审计方法、其装置、电子设备及计算机存储介质
CN111400305B (zh) * 2020-02-20 2022-03-08 深圳市魔数智擎人工智能有限公司 基于特征工程血缘关系的可回溯、可视化方法
CN111666186B (zh) * 2020-04-26 2023-09-15 杭州数梦工场科技有限公司 数据访问异常的检测方法、装置、存储介质及计算机设备
CN112395157B (zh) * 2020-11-13 2023-08-08 广州至真信息科技有限公司 审计日志的获取方法、装置、计算机设备和存储介质
CN114650149B (zh) * 2020-12-02 2024-07-16 中国移动通信有限公司研究院 一种授权策略处理方法、系统及存储介质
CN113672653A (zh) * 2021-08-09 2021-11-19 支付宝(杭州)信息技术有限公司 识别数据库中的隐私数据的方法和装置
CN114640499A (zh) * 2022-02-11 2022-06-17 深圳昂楷科技有限公司 一种对用户行为进行异常识别的方法及其装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346367A (zh) * 2013-07-30 2015-02-11 华为技术有限公司 一种数据集成的方法和装置
CN104424269A (zh) * 2013-08-30 2015-03-18 中国电信股份有限公司 数据血统分析方法与装置
CN104881427A (zh) * 2015-04-01 2015-09-02 北京科东电力控制系统有限责任公司 一种面向电网调控运行的数据血统分析方法
CN108256113A (zh) * 2018-02-09 2018-07-06 口碑(上海)信息技术有限公司 数据血缘关系的挖掘方法及装置
CN109241179A (zh) * 2018-08-01 2019-01-18 协同数据技术(深圳)有限公司 基于数据空间的数据治理方法、系统及计算机设备
CN110083639A (zh) * 2019-04-25 2019-08-02 中电科嘉兴新型智慧城市科技发展有限公司 一种基于聚类分析的数据血缘智能溯源的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346367A (zh) * 2013-07-30 2015-02-11 华为技术有限公司 一种数据集成的方法和装置
CN104424269A (zh) * 2013-08-30 2015-03-18 中国电信股份有限公司 数据血统分析方法与装置
CN104881427A (zh) * 2015-04-01 2015-09-02 北京科东电力控制系统有限责任公司 一种面向电网调控运行的数据血统分析方法
CN108256113A (zh) * 2018-02-09 2018-07-06 口碑(上海)信息技术有限公司 数据血缘关系的挖掘方法及装置
CN109241179A (zh) * 2018-08-01 2019-01-18 协同数据技术(深圳)有限公司 基于数据空间的数据治理方法、系统及计算机设备
CN110083639A (zh) * 2019-04-25 2019-08-02 中电科嘉兴新型智慧城市科技发展有限公司 一种基于聚类分析的数据血缘智能溯源的方法及装置

Also Published As

Publication number Publication date
CN110457405A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110457405B (zh) 一种基于血缘关系的数据库审计方法
US7809718B2 (en) Method and apparatus for incorporating metadata in data clustering
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
Homem et al. Authorship identification and author fuzzy “fingerprints”
WO2016033235A2 (en) Data clustering system, methods, and techniques
CN105138864B (zh) 基于生物医学文献的蛋白质交互关系数据库构建方法
CA2882280A1 (en) System and method for matching data using probabilistic modeling techniques
Deng et al. An improved fuzzy clustering method for text mining
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN117391071B (zh) 一种新闻话题数据挖掘方法、装置及存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN109543002A (zh) 简写字符的还原方法、装置、设备及存储介质
CN109977235B (zh) 一种触发词的确定方法和装置
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN114943285B (zh) 互联网新闻内容数据智能审核系统
Terko et al. Neurips conference papers classification based on topic modeling
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
TWI534640B (zh) Chinese network information monitoring and analysis system and its method
Akhgari et al. Sem-TED: semantic twitter event detection and adapting with news stories
CN112733966A (zh) 一种聚类采集与识别方法、系统及存储介质
CN111767730A (zh) 一种事件类型识别方法及装置
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.
CN110930189A (zh) 基于用户行为的个性化营销方法
CN118093325B (zh) 一种日志模板获取方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant