CN110727743A - 数据识别方法、装置、计算机设备及存储介质 - Google Patents

数据识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110727743A
CN110727743A CN201910969771.4A CN201910969771A CN110727743A CN 110727743 A CN110727743 A CN 110727743A CN 201910969771 A CN201910969771 A CN 201910969771A CN 110727743 A CN110727743 A CN 110727743A
Authority
CN
China
Prior art keywords
data
column
identification
relation
foreign key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910969771.4A
Other languages
English (en)
Inventor
乔吴岭
林健
孟庆丰
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhongyun Data Technology Co Ltd
Huzhou Big Data Operation Co Ltd
Hangzhou City Big Data Operation Co Ltd
Original Assignee
Hangzhou Zhongyun Data Technology Co Ltd
Huzhou Big Data Operation Co Ltd
Hangzhou City Big Data Operation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhongyun Data Technology Co Ltd, Huzhou Big Data Operation Co Ltd, Hangzhou City Big Data Operation Co Ltd filed Critical Hangzhou Zhongyun Data Technology Co Ltd
Priority to CN201910969771.4A priority Critical patent/CN110727743A/zh
Publication of CN110727743A publication Critical patent/CN110727743A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Abstract

本发明适用于计算机技术领域,提供了一种数据识别方法、装置、计算机设备及存储介质,所述数据识别方法包括根据用户的选择操作确定用户选择的数据识别模式;当用户选择的数据识别模式为关系表主外键关系识别模式时,根据关系表主外键关系识别模型对第一源数据进行主外键关系识别处理;当用户选择的数据识别模式为数据列关系识别模式时,采用数据列关系识别模型对第二源数据进行数据列关系识别处理。本发明实施例提供的数据识别方法能够对关系表主外键关系以及数据列关系进行识别,用户可以根据自己需求选择相应的识别模式,同时识别模型是基于大量样本训练生成,有效地保证了识别过程的准确率。

Description

数据识别方法、装置、计算机设备及存储介质
技术领域
本发明属于计算机技术领域,尤其涉及一种数据识别方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的发展,基于互联网中的海量数据的处理也就是大数据逐渐成为了最热门的技术之一,已经被被广泛地应用到众多领域中,比如数据仓库、数据中心、数据可视化等。
然而,在大数据的处理过程中,最重要的还是要识别关系表与关系表之间的关系,以及识别出关系表中各数据列与其他关系表中各数据列的关系。目前很多识别过程都是基于人工处理,人工处理准确率较高,但效率较低,成本高,尤其是针对数据量巨大的业务,人工处理十分不便,少部分识别过程采用智能识别,但目前的智能识别技术还存在着识别准确率低的技术问题。此外,对于不同的数据识别目标,用户需要在不同的应用软件上处理,十分的不便。
可见,现有的大数据技术中,对数据的识别还存在着准确率不高、用户操作不便等技术问题。
发明内容
本发明实施例的目的在于提供数据识别方法、装置、计算机设备及存储介质,旨在解决现有的大数据技术中,对数据的识别还存在的准确率不高、用户操作不便等技术问题。
本发明实施例是这样实现的,一种数据识别方法,包括以下步骤:
根据用户的选择操作确定用户选择的数据识别模式,所述数据识别模式包括关系表主外键关系识别模式以及数据列关系识别模式;
当用户选择的数据识别模式为关系表主外键关系识别模式时,获取第一源数据,并根据预设的关系表主外键关系识别模型对所述第一源数据进行主外键关系识别处理;
当用户选择的数据识别模式为数据列关系识别模式时,获取第二源数据,并基于预设的规则采用预设的数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
本发明实施例的另一目的在于提供一种数据识别装置,包括:
识别模式选择单元,用于根据用户的选择操作确定用户选择的数据识别模式,所述数据识别模式包括关系表主外键关系识别模式以及数据列关系识别模式;
关系表主外键关系识别单元,用于当用户选择的数据识别模式为关系表主外键关系识别模式时,获取第一源数据,并根据预设的关系表主外键关系识别模型对所述第一源数据进行主外键关系识别处理;
数据列关系识别模式单元,用于当用户选择的数据识别模式为数据列关系识别模式时,获取第二源数据,并基于预设的规则采用预设的数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述所述数据识别方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述所述数据识别方法的步骤。
本发明实施例提供的一种数据识别方法,先根据用户的选择操作确定用户选择的数据识别模式后,能够采集数据,并根据预设的与各数据识别模式相应的数据识别模型对数据进行识别处理。本发明实施例提供的一种数据识别方法,用户操作简单,且数据识别模型是基于大量的样本数据预先训练生成的,保证了识别过程的准确率。
附图说明
图1为本发明实施例提供的一种数据识别方法的步骤流程图;
图2为本发明实施例提供的一种主外键关系识别方法的步骤流程图;
图3为本发明实施例提供的一种数据列关系识别方法的步骤流程图;
图4为本发明实施例提供的一种基于表头信息进行数据列关系识别的方法的步骤流程图;
图5为本发明实施例提供的一种对文本型数据列进行识别的方法的步骤流程图;
图6为本发明实施例提供的一种对数值型数据列进行识别的方法的步骤流程图;
图7为本发明实施例提供的一种数据识别装置的结构示意图;
图8为本发明实施例提供的一种关系表主外键关系识别单元的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提出了一种数据识别方法的步骤流程图,具体包括以下步骤:
步骤S102,根据用户的选择操作确定用户选择的数据识别模式。
在本发明实施例中,现有的数据识别主要是针对于关系表中主外键列的识别以及各数据列的分别,因此,所述数据识别模式主要包括关系表主外键关系识别模式以及数据列关系识别模式。
步骤S104,当用户选择的数据识别模式为关系表主外键关系识别模式时,获取第一源数据,并根据预设的关系表主外键关系识别模型对所述第一源数据进行主外键关系识别处理。
在本发明实施例中,根据预设的关系表主外键关系识别模型进行主外键关系识别的步骤请参阅图2及其世界说明。
步骤S106,当用户选择的数据识别模式为数据列关系识别模式时,获取第二源数据,并基于预设的规则采用预设的数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
本发明实施例提供的一种数据识别方法,再根据用户的选择操作确定用户选择的数据识别模式后,能够采集数据,并根据预设的与各数据识别模式相应的数据识别模型对数据进行识别处理。本发明实施例提供的一种数据识别方法,用户操作简单,且数据识别模型是基于大量的样本数据预先训练生成的,保证了识别过程的准确率。
如图2所示,在一个实施例中,提出了一种主外键关系识别方法的步骤流程图,具体包括以下步骤:
步骤S202,获取第一源数据。
在本发明实施例中,所述第一源数据包括多个数据表以及各个数据表包含的各个数据列的信息,所述数据列的信息包括列名信息、列类型信息和/或列注释信息以及列数据。
步骤S204,根据各数据列的列数据确定各数据列的列类型。
在本发明实施例中,考虑到技术人员在建立数据表时,可能会存在将列类型标注错误或漏标注列类型的情况而导致识别结果不准确,因此,先根据各数据列的列数据确定各数据列的真实的列类型能够有效地提高识别的准确率。
在本发明实施例中,由于数据表中一般常采用数值型或字符型的列作为主键或者外键列,因此在确定各列的列类型后,主要是对列类型为数值型或字符型的数据列进行识别,以识别其中的主键列和外键列。
在本发明实施例中,所述数值型数据列是指列数据均为数值的数据列,字符型数据列是指列数据均为字符的数据列。
步骤S206,对同属于数值型的数据列采用预设的数值型包含依赖关系识别模型识别其中的存在包含依赖关系的数据列对。
在本发明实施例中,所述包含依赖关系包括可能的主-外键连接关系以及可能的外-外键连接关系。
在本发明实施例中,所述可能的主-外键连接关系以及可能的外-外键连接关系是指由预设的数值型包含依赖关系识别模型所识别出来的主-外键连接关系以及可能的外-外键连接关系,具体还需要通过后续的步骤进行进一步筛选。
步骤S208,对同属于字符型的数据列采用预设的字符型包含依赖关系识别模型识别其中的存在包含依赖关系的数据列对。
在本发明实施例中,与数值型数据列相似,所述包含依赖关系包括可能的主-外键连接关系以及可能的外-外键连接关系。
在本发明实施例中,与数值型数据列相似,所述可能的主-外键连接关系以及可能的外-外键连接关系是指由预设的字符型包含依赖关系识别模型所识别出来的主-外键连接关系以及可能的外-外键连接关系,具体还需要通过后续的步骤进行进一步筛选。
步骤S210,基于预设的词向量构建模型根据各数据列的列名信息、列类型信息和/或列注释信息确定各数据列的词向量。
在本发明实施例中,其中所述预设的词向量构建模型是预先通过大量的数据样本训练生成的,而通过词向量构建模型就能够将各数据列的列名信息、列类型信息和/或列注释信息等文本信息转化为可计算处理的向量值。
步骤S212,根据各数据列的词向量确定各数据列之间的相似度。
在本发明实施例中,基于欧氏距离可以计算出各数据列之间的相似度,而所述相似度在一定程度上表示了各数据列的列名信息、列类型信息和/或列注释信息的相似性,显然列名信息、列类型信息和/或列注释信息的相似性越高,则表明两列越可能存在包含依赖关系。
步骤S214,根据各数据列之间的相似度,从所述存在可能的主-外键连接关系的数据列对中筛选出存在最终的主-外键连接关系的数据列对。
在本发明实施例中,由于外键至多只能与一个主键相连,而主键则可与多个外键相连,结合各数据表中各数据列的相似度,就能够进一步筛选出存在最终的主-外键列连接关系的数据列对,具体而言,结合主-外键连接关系,当一个外键与多个主键存在连接关系时,显然不符合外键的定义,而结合该外键列与所述多个主键列之间的相似度,就可以从中筛选出可能性更高的主-外键连接关系的作为最终的主-外键连接关系,从而确定出的主键与外键准确率更高。
步骤S216,根据各数据列之间的相似度以及存在最终的主-外键连接关系的数据列对,从所述存在可能的外-外键连接关系的数据列对中筛选出存在最终的外-外键连接关系的数据列对。
在本发明实施例中,与主-外键连接关系相似,基于各数据列之间的相似度,并结合已经确定的主-外键连接关系,就能够进一步筛选出最终的外-外键连接关系,进一步的,还可以从所述最终的外-外键连接关系中筛选出复合主-外键连接关系,如步骤S218所示。
步骤S218,从所述存在最终的外-外键连接关系的数据列对中筛选出存在复合主-外键连接关系的数据列对。
在本发明实施例中,所述复合主键是一种特殊形式的主键,是由多列数据列共同组成的具有唯一性的键列。
如图3所示,在一个实施例中,提出了一种数据列关系识别方法的步骤流程图,具体包括以下步骤:
步骤S302,获取第二源数据。
在本发明实施例中,所述第二源数据包括多个数据表以及各个数据表包含的各个数据列的信息,所述数据列的信息包括列名信息、列类型信息和/或列注释信息以及列数据。
在本发明实施例中,针对数据列的识别可以根据数据列的列名信息,也可以根据列的数据信息进行识别,基于列名信息进行识别较为简单,但由于是人为设置,如果设置出现错误,就会导致识别失败,导致识别准确率不够高,而基于列数据信息进行识别,是基于数据的原始特征,识别准确率高,进一步,根据数据类型的不同,可以对文本型以及数值型的列数据分别进行处理。
步骤S304,判断各个数据列的列名信息、列类型信息和/或列注释信息是否满足预设的条件。当判断各个数据列的列名信息、列类型信息和/或列注释信息满足预设的条件时,执行步骤S306;当判断各个数据列的列名信息、列类型信息和/或列注释信息不满足预设的条件时,执行步骤S308。
在本发明实施例中,先判断各个数据列的列名信息、列类型信息和/或列注释信息是否满足预设的条件,所述预设的条件可以是各个数据列的列名信息、列类型信息和/或列注释信息的完整程度是否超过一定值,当满足预设的条件时,可以先根据数据列的列名信息进行初步的识别,当不满足预设的条件,表明根据数据列的列名信息进行初步的识别会使得识别准确率较低时,此时需要进一步结合列的数据信息进行进一步的识别。
步骤S306,根据预设的基于表头的数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
在本发明实施例中,根据表头信息对数据列进行初步的识别的步骤请参阅图4及其解释说明。
步骤S308,根据各个数据列的列数据确定各个数据列的列数据类型。
在本发明实施例中,所述述列数据类型包括文本型以及数值型。
在本发明实施例中,当判断出根据数据列的列名信息进行初步的识别会使得识别准确率较低,可以进一步根据相应的基于数据列的列数据信息识别模型进行相应的识别处理。
步骤S310,当列数据类型为文本型时,根据预设的文本型数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
在本发明实施例中,对于列数据为文本的数据列,进行识别处理的步骤具体请参阅图5及其解释说明。
步骤S312,当列数据类型为数值型时,根据预设的数值型数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
在本发明实施例中,对于列数据为数值的数据列,进行识别处理的步骤具体请参阅图6及其解释说明。
如图4所示,在一个实施例中,提出了一种基于表头信息进行数据列关系识别的方法的步骤流程图,具体包括以下步骤:
步骤S402,对第二源数据中包含的各个数据列的列名信息、列类型信息和/或列注释信息进行清洗预处理。
在本发明实施例中,根据向量化处理的方式不同,所述清洗预处理可以是分词处理、去停用词处理、去标点处理等中的一种或者多种。本发明实施例对此不作具体限定。
步骤S404,对清洗预处理后的各个数据列的列名信息、列类型信息和/或列注释信息按照预设的基于表头的数据列关系识别模型进行识别处理,确定各数据列的列标签。
在本发明实施例中,基于表头的数据列关系识别模型可是是采用现有的归类模型,例如可以从现有归类模型中选取,例如matchpyramid模型等,能够根据列名信息、列类型信息和/或列注释信息等信息处理生成预设的不同列标签。
步骤S406,基于各数据列的列标签对各数据列进行匹配。
在本发明实施例中,对于列标签相同的数据列即可认为是相匹配的数据列,即实现了对数据列的识别。
如图5所示,在一个实施例中,提出了一种对文本型数据列进行识别的方法的步骤流程图,具体包括以下步骤:
步骤S502,基于码表码值对各数据列的列数据进行匹配。
在本发明实施例中,对于数据表中存在的部分特殊的符号,例如金钱符号,利用码值码表可以匹配出的此类特殊符号,从而可以较为方便的确定出该数据列所述的业务类型。
步骤S504,基于正则表达式识别各数据列中符合预设匹配规则的部分。
在本发明实施例中,可以基于正则表达式筛选出数据列中数据正确的部分,将数据可能存在问题的数据筛选并删去。
步骤S506,基于预设的特征提取模型提取各数据列的列特征向量。
步骤S508,根据各数据列的列特征向量采用预先的基于朴素贝叶斯算法训练生成的文本型数据列识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签。
在本发明实施例中,朴素贝叶斯算法对缺失数据不太敏感,算法简单,针对于文本数据列识别具有较好的识别效果。
步骤S510,基于各数据列的列标签对各数据列进行匹配。
在本发明实施例中,同样的,对于列标签相同的数据列即可认为是相匹配的数据列,即实现了对数据列的识别。
如图6所示,在一个实施例中,提出了一种对数值型数据列进行识别的方法的步骤流程图,具体包括以下步骤:
步骤S602,获取待匹配的多个数据表。
在本发明实施例中,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据。
步骤S604,基于码表码值对各数据列的列数据进行匹配。
在本发明实施例中,与对文本型数据列的识别过程相似,同样可以先基于码表码值识别出列数据中的特殊符号,简化了列数据的匹配过程。
步骤S606,基于正则表达式识别各数据列中符合预设匹配规则的部分。
在本发明实施例中,同样的,基于正则表达式可以将数据列中错误的数据筛选掉。
步骤S608,基于预设的特征提取模型提取各数据列的列特征向量。
在本发明实施例中,对于数值型数据列而言,提取出的列特征向量包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵。
步骤S610,根据各数据列的列特征向量采用预先的基于随机森林算法训练生成的数值型数据列识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签。
在本发明实施例中,根据随机森林算法能够方便有效地对提取出的列特征向量进行识别,从而确定出数据列的列标签。
步骤S612,基于各数据列的列标签对各数据列进行匹配。
如图7所示,在一个实施例中,提出了一种数据识别装置的结构示意图,详述如下。
在本发明实施例中,所述数据识别装置包括:
识别模式选择单元710,用于根据用户的选择操作确定用户选择的数据识别模式。
在本发明实施例中,现有的数据识别主要是针对于关系表中主外键列的识别以及各数据列的分别,因此,所述数据识别模式主要包括关系表主外键关系识别模式以及数据列关系识别模式。
关系表主外键关系识别单元720,用于当用户选择的数据识别模式为关系表主外键关系识别模式时,获取第一源数据,并根据预设的关系表主外键关系识别模型对所述第一源数据进行主外键关系识别处理。
数据列关系识别模式单元730,用于当用户选择的数据识别模式为数据列关系识别模式时,获取第二源数据,并基于预设的规则采用预设的数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
本发明实施例提供的一种数据识别装置,再根据用户的选择操作确定用户选择的数据识别模式后,能够采集数据,并根据预设的与各数据识别模式相应的数据识别模型对数据进行识别处理。本发明实施例提供的一种数据识别装置,用户操作简单,且数据识别模型是基于大量的样本数据预先训练生成的,保证了识别过程的准确率。
如图8所示,在一个实施例中,提出了一种关系表主外键关系识别单元的结构示意图,详述如下。
在本发明实施例中,所述关系表主外键关系识别单元包括:
第一源数据获取模块801,用于获取第一源数据。
所述源数据包括多个数据表以及各个数据表包含的各个数据列的信息,所述数据列的信息包括列名信息、列类型信息和/或列注释信息以及列数据。
在本发明实施例中,所述第一源数据包括多个数据表以及各个数据表包含的各个数据列的信息,所述数据列的信息包括列名信息、列类型信息和/或列注释信息以及列数据。
列类型确定模块802,用于根据各数据列的列数据确定各数据列的列类型。
在本发明实施例中,考虑到技术人员在建立数据表时,可能会存在将列类型标注错误或漏标注列类型的情况而导致识别结果不准确,因此,先根据各数据列的列数据确定各数据列的真实的列类型能够有效地提高识别的准确率。
在本发明实施例中,由于数据表中一般常采用数值型或字符型的列作为主键或者外键列,因此在确定各列的列类型后,主要是对列类型为数值型或字符型的数据列进行识别,以识别其中的主键列和外键列。
在本发明实施例中,所述数值型数据列是指列数据均为数值的数据列,字符型数据列是指列数据均为字符的数据列。
数值型数据列识别模块803,用于对同属于数值型的数据列采用预设的数值型包含依赖关系识别模型识别其中的存在包含依赖关系的数据列对。
在本发明实施例中,所述包含依赖关系包括可能的主-外键连接关系以及可能的外-外键连接关系。
在本发明实施例中,所述可能的主-外键连接关系以及可能的外-外键连接关系是指由预设的数值型包含依赖关系识别模型所识别出来的主-外键连接关系以及可能的外-外键连接关系,具体还需要通过后续的步骤进行进一步筛选。
字符型数据列识别模块804,用于对同属于字符型的数据列采用预设的字符型包含依赖关系识别模型识别其中的存在包含依赖关系的数据列对。
在本发明实施例中,与数值型数据列相似,所述包含依赖关系包括可能的主-外键连接关系以及可能的外-外键连接关系。
在本发明实施例中,与数值型数据列相似,所述可能的主-外键连接关系以及可能的外-外键连接关系是指由预设的字符型包含依赖关系识别模型所识别出来的主-外键连接关系以及可能的外-外键连接关系,具体还需要通过后续的步骤进行进一步筛选。
词向量提取模块805,用于基于预设的词向量构建模型根据各数据列的列名信息、列类型信息和/或列注释信息确定各数据列的词向量。
在本发明实施例中,其中所述预设的词向量构建模型是预先通过大量的数据样本训练生成的,而通过词向量构建模型就能够将各数据列的列名信息、列类型信息和/或列注释信息等文本信息转化为可计算处理的向量值。
相似度确定模块806,用于根据各数据列的词向量确定各数据列之间的相似度。
在本发明实施例中,其中所述预设的词向量构建模型是预先通过大量的数据样本训练生成的,而通过词向量构建模型就能够将各数据列的列名信息、列类型信息和/或列注释信息等文本信息转化为可计算处理的向量值。
主外键数据列对筛选模块807,用于根据各数据列之间的相似度,从所述存在可能的主-外键连接关系的数据列对中筛选出存在最终的主-外键连接关系的数据列对。
在本发明实施例中,由于外键至多只能与一个主键相连,而主键则可与多个外键相连,结合各数据表中各数据列的相似度,就能够进一步筛选出存在最终的主-外键列连接关系的数据列对,具体而言,结合主-外键连接关系,当一个外键与多个主键存在连接关系时,显然不符合外键的定义,而结合该外键列与所述多个主键列之间的相似度,就可以从中筛选出可能性更高的主-外键连接关系的作为最终的主-外键连接关系,从而确定出的主键与外键准确率更高。
外外键数据列对筛选模块808,用于根据各数据列之间的相似度以及存在最终的主-外键连接关系的数据列对,从所述存在可能的外-外键连接关系的数据列对中筛选出存在最终的外-外键连接关系的数据列对。
在本发明实施例中,与主-外键连接关系相似,基于各数据列之间的相似度,并结合已经确定的主-外键连接关系,就能够进一步筛选出最终的外-外键连接关系,进一步的,还可以从所述最终的外-外键连接关系中筛选出复合主-外键连接关系。
复合主外键数据列对筛选模块809,用于从所述存在最终的外-外键连接关系的数据列对中筛选出存在复合主-外键连接关系的数据列对。
在本发明实施例中,所述复合主键是一种特殊形式的主键,是由多列数据列共同组成的具有唯一性的键列。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据用户的选择操作确定用户选择的数据识别模式,所述数据识别模式包括关系表主外键关系识别模式以及数据列关系识别模式;
当用户选择的数据识别模式为关系表主外键关系识别模式时,获取第一源数据,并根据预设的关系表主外键关系识别模型对所述第一源数据进行主外键关系识别处理;
当用户选择的数据识别模式为数据列关系识别模式时,获取第二源数据,并基于预设的规则采用预设的数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
根据用户的选择操作确定用户选择的数据识别模式,所述数据识别模式包括关系表主外键关系识别模式以及数据列关系识别模式;
当用户选择的数据识别模式为关系表主外键关系识别模式时,获取第一源数据,并根据预设的关系表主外键关系识别模型对所述第一源数据进行主外键关系识别处理;
当用户选择的数据识别模式为数据列关系识别模式时,获取第二源数据,并基于预设的规则采用预设的数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据识别方法,其特征在于,包括以下步骤:
根据用户的选择操作确定用户选择的数据识别模式,所述数据识别模式包括关系表主外键关系识别模式以及数据列关系识别模式;
当用户选择的数据识别模式为关系表主外键关系识别模式时,获取第一源数据,并根据预设的关系表主外键关系识别模型对所述第一源数据进行主外键关系识别处理;
当用户选择的数据识别模式为数据列关系识别模式时,获取第二源数据,并基于预设的规则采用预设的数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
2.根据权利要求1所述的数据识别方法,其特征在于,所述获取第一源数据,并根据预设的关系表主外键关系识别模型对所述第一源数据进行主外键关系识别处理的步骤具体包括:
获取第一源数据,所述源数据包括多个数据表以及各个数据表包含的各个数据列的信息,所述数据列的信息包括列名信息、列类型信息和/或列注释信息以及列数据;
根据各数据列的列数据确定各数据列的列类型,所述真实的列类型包括数值型和字符型;
对同属于数值型的数据列采用预设的数值型包含依赖关系识别模型识别其中的存在包含依赖关系的数据列对,所述包含依赖关系包括可能的主-外键连接关系以及可能的外-外键连接关系;
对同属于字符型的数据列采用预设的字符型包含依赖关系识别模型识别其中的存在包含依赖关系的数据列对;
基于预设的词向量构建模型根据各数据列的列名信息、列类型信息和/或列注释信息确定各数据列的词向量;
根据各数据列的词向量确定各数据列之间的相似度;
根据各数据列之间的相似度,从所述存在可能的主-外键连接关系的数据列对中筛选出存在最终的主-外键连接关系的数据列对;
根据各数据列之间的相似度以及存在最终的主-外键连接关系的数据列对,从所述存在可能的外-外键连接关系的数据列对中筛选出存在最终的外-外键连接关系的数据列对;
从所述存在最终的外-外键连接关系的数据列对中筛选出存在复合主-外键连接关系的数据列对。
3.根据权利要求1所述的数据识别方法,其特征在于,所述获取第二源数据,并基于预设的规则采用预设的数据列关系识别模型对所述第二源数据进行数据列关系识别处理的步骤具体包括:
获取第二源数据,所述第二源数据包括多个数据表以及各个数据表包含的各个数据列的信息,所述数据列的信息包括列名信息、列类型信息和/或列注释信息以及列数据;
当判断各个数据列的列名信息、列类型信息和/或列注释信息满足预设的条件时,根据预设的基于表头的数据列关系识别模型对所述第二源数据进行数据列关系识别处理;
当判断各个数据列的列名信息、列类型信息和/或列注释信息不满足预设的条件时,根据各个数据列的列数据确定各个数据列的列数据类型,所述列数据类型包括文本型以及数值型;
当列数据类型为文本型时,根据预设的文本型数据列关系识别模型对所述第二源数据进行数据列关系识别处理;
当列数据类型为数值型时,根据预设的数值型数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
4.根据权利要求3所述的数据识别方法,其特征在于,所述根据预设的基于表头的数据列关系识别模型对所述第二源数据进行数据列关系识别处理的步骤具体包括:
对第二源数据中包含的各个数据列的列名信息、列类型信息和/或列注释信息进行清洗预处理;
对清洗预处理后的各个数据列的列名信息、列类型信息和/或列注释信息按照预设的基于表头的数据列关系识别模型进行识别处理,确定各数据列的列标签;
基于各数据列的列标签对各数据列进行匹配。
5.根据权利要求3所述的数据识别方法,其特征在于,所述根据预设的文本型数据列关系识别模型对所述第二源数据进行数据列关系识别处理的步骤具体包括:
基于码表码值对各数据列的列数据进行匹配;
基于正则表达式识别各数据列中符合预设匹配规则的部分;
基于预设的特征提取模型提取各数据列的列特征向量;
根据各数据列的列特征向量采用预先的基于朴素贝叶斯算法训练生成的文本型数据列识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签;
基于各数据列的列标签对各数据列进行匹配。
6.根据权利要求3所述的数据识别方法,其特征在于,所述根据预设的数值型数据列关系识别模型对所述第二源数据进行数据列关系识别处理的步骤具体包括:
获取待匹配的多个数据表,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据;
基于码表码值对各数据列的列数据进行匹配;
基于正则表达式识别各数据列中符合预设匹配规则的部分;
基于预设的特征提取模型提取各数据列的列特征向量,所述列特征向量包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵;
根据各数据列的列特征向量采用预先的基于随机森林算法训练生成的数值型数据列识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签;
基于各数据列的列标签对各数据列进行匹配。
7.一种数据识别装置,其特征在于,包括:
识别模式选择单元,用于根据用户的选择操作确定用户选择的数据识别模式,所述数据识别模式包括关系表主外键关系识别模式以及数据列关系识别模式;
关系表主外键关系识别单元,用于当用户选择的数据识别模式为关系表主外键关系识别模式时,获取第一源数据,并根据预设的关系表主外键关系识别模型对所述第一源数据进行主外键关系识别处理;
数据列关系识别模式单元,用于当用户选择的数据识别模式为数据列关系识别模式时,获取第二源数据,并基于预设的规则采用预设的数据列关系识别模型对所述第二源数据进行数据列关系识别处理。
8.根据权利要求7所述的一种数据识别装置,其特征在于,所述关系表主外键关系识别单元包括:
第一源数据获取模块,用于获取第一源数据,所述源数据包括多个数据表以及各个数据表包含的各个数据列的信息,所述数据列的信息包括列名信息、列类型信息和/或列注释信息以及列数据;
列类型确定模块,用于根据各数据列的列数据确定各数据列的列类型,所述真实的列类型包括数值型和字符型;
数值型数据列识别模块,用于对同属于数值型的数据列采用预设的数值型包含依赖关系识别模型识别其中的存在包含依赖关系的数据列对,所述包含依赖关系包括可能的主-外键连接关系以及可能的外-外键连接关系;
字符型数据列识别模块,用于对同属于字符型的数据列采用预设的字符型包含依赖关系识别模型识别其中的存在包含依赖关系的数据列对;
词向量提取模块,用于基于预设的词向量构建模型根据各数据列的列名信息、列类型信息和/或列注释信息确定各数据列的词向量;
相似度确定模块,用于根据各数据列的词向量确定各数据列之间的相似度;
主外键数据列对筛选模块,用于根据各数据列之间的相似度,从所述存在可能的主-外键连接关系的数据列对中筛选出存在最终的主-外键连接关系的数据列对;
外外键数据列对筛选模块,用于根据各数据列之间的相似度以及存在最终的主-外键连接关系的数据列对,从所述存在可能的外-外键连接关系的数据列对中筛选出存在最终的外-外键连接关系的数据列对;
复合主外键数据列对筛选模块,用于从所述存在最终的外-外键连接关系的数据列对中筛选出存在复合主-外键连接关系的数据列对。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至6中任一项权利要求所述数据识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至6中任一项权利要求所述数据识别方法的步骤。
CN201910969771.4A 2019-10-12 2019-10-12 数据识别方法、装置、计算机设备及存储介质 Pending CN110727743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910969771.4A CN110727743A (zh) 2019-10-12 2019-10-12 数据识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910969771.4A CN110727743A (zh) 2019-10-12 2019-10-12 数据识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110727743A true CN110727743A (zh) 2020-01-24

Family

ID=69220090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910969771.4A Pending CN110727743A (zh) 2019-10-12 2019-10-12 数据识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110727743A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651296A (zh) * 2020-11-23 2021-04-13 安徽继远软件有限公司 一种无先验知识数据质量问题自动探查方法及系统
CN113312354A (zh) * 2021-06-10 2021-08-27 北京百度网讯科技有限公司 数据表的识别方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095522A (zh) * 2015-09-22 2015-11-25 南开大学 基于最近邻搜索的关系表集合外键识别方法
CN107291925A (zh) * 2017-06-29 2017-10-24 浪潮软件股份有限公司 一种基于业务模型的审批数据沉淀方法
CN109299094A (zh) * 2018-09-18 2019-02-01 深圳壹账通智能科技有限公司 数据表处理方法、装置、计算机设备和存储介质
CN109597892A (zh) * 2018-12-25 2019-04-09 杭州数梦工场科技有限公司 一种数据库中数据的分类方法、装置、设备及存储介质
CN109635118A (zh) * 2019-01-10 2019-04-16 博拉网络股份有限公司 一种基于大数据的用户搜索匹配方法
CN110168515A (zh) * 2016-09-15 2019-08-23 英国天然气控股有限公司 用于分析数据关系以支持查询执行的系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095522A (zh) * 2015-09-22 2015-11-25 南开大学 基于最近邻搜索的关系表集合外键识别方法
CN110168515A (zh) * 2016-09-15 2019-08-23 英国天然气控股有限公司 用于分析数据关系以支持查询执行的系统
CN107291925A (zh) * 2017-06-29 2017-10-24 浪潮软件股份有限公司 一种基于业务模型的审批数据沉淀方法
CN109299094A (zh) * 2018-09-18 2019-02-01 深圳壹账通智能科技有限公司 数据表处理方法、装置、计算机设备和存储介质
CN109597892A (zh) * 2018-12-25 2019-04-09 杭州数梦工场科技有限公司 一种数据库中数据的分类方法、装置、设备及存储介质
CN109635118A (zh) * 2019-01-10 2019-04-16 博拉网络股份有限公司 一种基于大数据的用户搜索匹配方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651296A (zh) * 2020-11-23 2021-04-13 安徽继远软件有限公司 一种无先验知识数据质量问题自动探查方法及系统
CN113312354A (zh) * 2021-06-10 2021-08-27 北京百度网讯科技有限公司 数据表的识别方法、装置、设备和存储介质
CN113312354B (zh) * 2021-06-10 2023-07-28 北京百度网讯科技有限公司 数据表的识别方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN111325037B (zh) 文本意图识别方法、装置、计算机设备和存储介质
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN108763380B (zh) 商标识别检索方法、装置、计算机设备和存储介质
CN112560453B (zh) 语音信息校验方法、装置、电子设备及介质
CN110737818B (zh) 网络发布数据处理方法、装置、计算机设备和存储介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN110427992A (zh) 数据匹配方法、装置、计算机设备及存储介质
CN110727676B (zh) 数据表主键、外键识别方法、装置、设备和存储介质
CN114120299A (zh) 信息获取方法、装置、存储介质及设备
CN110727743A (zh) 数据识别方法、装置、计算机设备及存储介质
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN110298747B (zh) 汇款报文黑名单监控系统及方法
CN111898378A (zh) 政企客户的行业分类方法和装置、电子设备、存储介质
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
CN113065360B (zh) 词语语义模型的构建方法、装置、计算机设备及存储介质
CN115147847A (zh) 文本识别结果的确定方法、装置、存储介质及计算机设备
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN111460268B (zh) 数据库查询请求的确定方法、装置和计算机设备
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN114154480A (zh) 信息提取方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200124

RJ01 Rejection of invention patent application after publication