CN113806371A - 数据类型确定方法、装置、计算机设备及存储介质 - Google Patents

数据类型确定方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113806371A
CN113806371A CN202111136493.8A CN202111136493A CN113806371A CN 113806371 A CN113806371 A CN 113806371A CN 202111136493 A CN202111136493 A CN 202111136493A CN 113806371 A CN113806371 A CN 113806371A
Authority
CN
China
Prior art keywords
data
node
type
analyzed
data type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111136493.8A
Other languages
English (en)
Other versions
CN113806371B (zh
Inventor
黄羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Unisinsight Technology Co Ltd
Original Assignee
Chongqing Unisinsight Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Unisinsight Technology Co Ltd filed Critical Chongqing Unisinsight Technology Co Ltd
Priority to CN202111136493.8A priority Critical patent/CN113806371B/zh
Publication of CN113806371A publication Critical patent/CN113806371A/zh
Application granted granted Critical
Publication of CN113806371B publication Critical patent/CN113806371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,提供了一种数据类型确定方法、装置、计算机设备及存储介质,所述方法包括:获取属于同一个数据集的多个待分析数据;获取预设的类型树;类型树包括多个节点,每一节点对应判断规则,判断规则用于判断待分析数据是否属于每一节点表征的数据类型,多个节点包括叶子节点;根据预设的类型树确定每一待分析数据的数据类型,待分析数据的数据类型由叶子节点表征的数据类型确定,本发明通过引入预设的类型树,根据预设的类型树确定待分析数据的数据类型,待分析数据的数据类型是由预设的类型树中的叶子节点最终确定的,由此实现了不依赖于人工干预,自动对待分析数据进行分析,以确定待分析数据的数据类型的目的。

Description

数据类型确定方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种数据类型确定方法、装置、计算机设备及存储介质。
背景技术
随着人工智能的快速发展,模型训练成为本领域的研究热点。由于大多数业务操作中通常涉及结构化数据,使得结构化数据中往往包含大量信息,因此,用这些结构化数据作为训练模型的原始训练数据进行模型训练,能够使得训练出的模型更准确。
但是,在利用这些原始训练数据进行实际训练模型之前,首先需要对其进行降噪、清洗等预处理,然后再对预处理后的数据进行编码,以转换成模型训练所需的标准数据,现有技术在预处理过程中往往依赖于用户对原始训练数据进行分析,以为其确定合适的类型,再根据确定的类型对其进行预处理,这种处理方式由于依赖于用户分析,不利用预处理的自动化。
发明内容
本发明的目的在于提供一种数据类型确定方法、装置、计算机设备及存储介质,其能够不依赖于人工干预,自动对待分析数据进行分析,以确定待分析数据的数据类型。
为了实现上述目的,本发明采用的技术方案如下:
第一方面,本发明提供一种数据类型确定方法,所述方法包括:获取属于同一个数据集的多个待分析数据;获取预设的类型树;其中,所述类型树包括多个节点,每一所述节点对应判断规则,所述判断规则用于判断所述待分析数据是否属于每一所述节点表征的数据类型,所述多个节点包括不存在子节点的叶子节点;根据预设的类型树确定每一所述待分析数据的数据类型,所述待分析数据的数据类型由所述叶子节点表征的数据类型确定。
第二方面,本发明提供一种数据类型确定装置,所述装置包括:获取模块,用于获取属于同一个数据集的多个待分析数据;获取模块,还用于获取预设的类型树;其中,所述类型树包括多个节点,每一所述节点对应判断规则,所述判断规则用于判断所述待分析数据是否属于每一所述节点表征的数据类型,所述多个节点包括不存在子节点的叶子节点;确定模块,用于根据预设的类型树确定每一所述待分析数据的数据类型,所述待分析数据的数据类型由所述叶子节点表征的数据类型确定。
第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述的数据类型确定方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的数据类型确定方法。
与现有技术相比,本发明通过引入预设的类型树,根据预设的类型树确定待分析数据的数据类型,待分析数据的数据类型是由预设的类型树中的叶子节点最终确定的,由此实现了不依赖于人工干预,自动对待分析数据进行分析,以确定待分析数据的数据类型的目的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的模型训练的框架图。
图2为本发明实施例提供的一种数据类型确定方法的流程示例图。
图3为本发明实施例提供的类型树的示例图。
图4为本发明实施例提供的另一种数据类型确定方法的流程示例图。
图5为本发明实施例提供的另一种数据类型确定方法的流程示例图。
图6为本发明实施例提供的遍历类型树的过程示例图。
图7为本发明实施例提供的另一种数据类型确定方法的流程示例图。
图8为本发明实施例提供的数据类型确定装置的方框示意图。
图9为本发明实施例提供的计算机设备的方框示意图。
图标:10-计算机设备;11-处理器;12-存储器;13-总线;14-通信接口;100-数据类型确定装置;110-获取模块;120-确定模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
请参考图1,图1为本发明实施例提供的模型训练的框架图,图1中,模型训练的框架主要包括以下几个处理部分,获取结构化数据;对结构化数据进行预处理,对预处理后的结构化数据进行编码处理,将编码处理后得到的结构化数据的编码作为训练数据输入预设模型,对预设模型进行训练,最终得到训练后的预设模型,该框架可以根据用户提供的结构化数据,在不需要人工干预的情况下实现预设模型的自动训练。
作为一种具体实施方式,在对结构化数据进行预处理的时候,首先确定结构化数据的数据类型,然后根据确定的数据类型对结构化数据中明显不规范的数据进行清洗,还可以根据确定的数据类型自动排除掉不可能作为训练数据的数据或者明显对模型训练没有任何帮助的数据,由此可以减少预设模型的参数量、提高预设模型的处理速度、鲁棒性及泛化能力。
作为另一种具体实施方式,在对结构化数据进行编码时,利用确定的结构化数据的数据类型,对于不同数据类型的数据采用不同的编码方式,使得编码更合理,利用更合理的编码使得训练后的预设模型的鲁棒性和准确性更好。
需要说明的是,上述模型训练的框架只是本发明实施例提供的数据类型确定方法的一种具体应用场景,事实上,根据实际场景需要,该方法还可以应用于其他需要确定数据类型的场景中,例如数据挖掘,大数据分析等场景。
基于图1的模型训练的框架,本发明实施例提供了一种数据类型确定方法,可以在图1中对结构化数据进行预处理之前自动确定结构化数据的数据类型,以便后续根据确定的数据类型自动进行预处理或者编码处理,请参照图2,图2为本发明实施例提供的一种数据类型确定方法的流程示例图,该方法包括以下步骤:
步骤S100,获取属于同一个数据集的多个待分析数据。
在本实施例中,由于结构化数据通常是按照行列组织而成的表格形式,因此,同一个数据集的数据可以是表格中同一列的数据,例如,结构化数据如表1所示。
表1
姓名 性别 年龄 班级
张三 10 五年级一班
王二 15 初三年级一班
李四 13 初一年级三班
孙五 7 二年级二班
例如,表1中年龄这一列中的所有数据属于同一个数据集。
在本实施例中,在数据量很大的情况下,同一列的数据可能会出现错误,而且出现错误的数据占少数,例如,年龄这一列的数据中可能有字母,作为一种具体实施方式,可以首先确定这一列的每一数据的数据类型,然后将其中占少数的数据类型确定为错误数据,再将错误数据清洗掉,由此,通过自动确定结构化数据的类型实现结构化数据的自动清洗。
步骤S110,获取预设的类型树,类型树包括多个节点,每一节点对应判断规则,判断规则用于判断待分析数据是否属于每一节点表征的数据类型,多个节点包括不存在子节点的叶子节点。
在本实施例中,类型树中每一节点表征一种数据类型,每一节点的判断规则用于判断待分析数据是否属于该节点表征的数据类型,对于存在子节点的节点,其子节点表征的数据类型为该节点表征的数据类型的子类型。
在本实施例中,节点可以包括子节点或者叶子节点,该子节点还可以再包括下一级的子节点或者叶子节点。
步骤S120,根据预设的类型树确定每一待分析数据的数据类型,待分析数据的数据类型由叶子节点表征的数据类型确定。
在本实施例中,类型树可以根据实际场景中数据的特点进行预先设置,类型树包括叶子节点,叶子节点为不包括子节点的节点,每一叶子节点表征一个最细粒度的数据类型,确定出的待分析数据的数据类型是类型树中叶子节点表征的数据类型。
在本实施例中,除了叶子节点,类型树还可以包括一个根节点、根节点可以直接包括叶子节点,也可以包括一层或者多层子节点,最后一层的子节点包括叶子节点,包括子节点的节点也称为该子节点的父节点。在类型树中,每一个节点,无论是根节点、父节点、子节点还是叶子节点均表征一种数据类型,子节点表征的数据类型是父节点表征的数据类型的子类型,也就是说,对于同一个父节点包括多个子节点而言,每个子节点表征的数据类型均属于其父节点表征的数据类型的子类型。请参照图3,图3为本发明实施例提供的类型树的示例图,图3中,根节点A表征的数据类型为字符串,即所有数据类型都可以表示为字符串类型,根节点A包括四个子节点:表征数值类型的A1、表征文件路径类型的A2、表征字符串日期类型的A3和表征字符串日期时间类型的A4,即数值类型、文件路径类型、字符串日期类型及字符串日期时间类型都是字符串的子类型,A2包括3个叶子节点:A21、A22、A23,分别表征的数据类型为:图片文件类型、视频文件类型和音频文件类型。A1包括两个子节点:A11和A12,分别表征整数类型和浮点数类型,A12没有包括子节点,因此,A12为叶子节点,A11包括3个叶子节点:A111、A112和A113,分别表征时间戳类型、数值日期型及数值日期时间型。
本实施例提供的上述方法,根据预设的类型树确定待分析数据的数据类型,待分析数据的数据类型是由预设的类型树中的叶子节点最终确定的,由此实现了不依赖于人工干预,自动对待分析数据进行分析,以确定待分析数据的数据类型的目的。
在图2的基础上,在待分析数据的数据量非常大的情况下,为了加快分析过程,本发明实施例还提供了一种确定待分析数据的数据类型的具体实现方式,请参照图4,图4为本发明实施例提供的另一种数据类型确定方法的流程示例图,步骤S110包括以下子步骤:
子步骤S1201,从已分析数据中确定参考数据的参考数据类型,其中,参考数据类型是类型树中叶子节点表征的数据类型。
在本实施例中,已分析数据为数据类型已经确定的数据,参考数据为确定待分析数据的数据类型时提供参考的数据。对于同一列的数据,参考数据可以是该列数据中最近一个已分析数据,参考数据还可以是具有相同数据类型的已分析数据中个数最多的数据,例如,同一列的数据共10个,其中已分析数据为7个,7个已分析数据有6个是数值日期型,2个是数值日期时间型,则参考数据类型为数值日期型。
子步骤S1202,根据类型树及参考数据类型,确定待分析数据的数据类型。
在本实施例中,待分析数据的数据类型可能与参考数据类型一致,此时可以直接确定待分析数据的数据类型,待分析数据的数据类型也可能与参考数据类型不一致,此时需要根据参考数据类型,通过类型树中各节点表征的数据类型及各节点之间的层次关系表征的数据类型粗细粒度关系,确定待分析数据的数据类型。
在本实施例中,由于同一个数据集中的数据的数据类型大部分是相同的,本实施例提供的上述方法,通过将已分析数据的数据类型作为参考数据类型,可以快速确定待分析数据的数据类型,加速了数据类型的确定过程。
基于图4,本发明实施例还提供了一种根据类型树及参考数据类型确定待分析数据的数据类型的具体实现方式,请参照图5,图5图5为本发明实施例提供的另一种数据类型确定方法的流程示例图,子步骤S1102还包括以下子步骤:
子步骤S12021,以类型树中与参考数据类型对应的叶子节点为起始节点,判断待分析数据的数据类型是否为起始节点表征的数据类型。
在本实施例中,起始节点是类型树中的叶子节点,且该叶子节点表征的数据类型与参考数据类型一致。若待分析数据的数据类型是为起始节点表征的数据类型,则执行步骤S12022,否则,执行步骤S12023。
子步骤S12022,将起始节点表征的数据类型确定为待分析数据的数据类型。
在本实施例中,若待分析数据的数据类型是起始节点表征的数据类型,则意味着待分析数据的数据类型就是参考数据类型,此时,待分析数据的数据类型已经确定,无需再对类型树进行遍历。事实上,同一数据集中的大部分待分析数据的数据类型都是相同的,大部分情况下无需对类型树进行遍历即可确定待分析数据的数据类型,因此,加速了确定待分析数据的数据类型的过程。
子步骤S12023,将起始节点的父节点作为起始节点,并从起始节点开始遍历类型树,直至确定出待分析数据的数据类型。
在本实施例中,若待分析数据的数据类型不是起始节点表征的数据类型,此时需要对类型树进行遍历,以便从类型树中找到与待分析数据的数据类型一致的叶子节点,进而确定出待分析数据的数据类型。另外还有一种情况,若类型树中不存在与参考数据类型对应的叶子节点,只有与参考数据类型对应的子节点,则此时将该子节点作为起始节点,从该起始节点开始遍历类型树,直至确定出待分析数据的数据类型。上述两种情况均需要对类型树进行遍历,作为一种具体实施方式,遍历类型树的过程可以是:
第一,S1:根据待分析数据的数据类型及起始节点表征的数据类型,确定待访问节点。
在本实施例中,待访问节点为类型树中的访问起始节点之后需要访问的节点,待访问节点可以是起始节点的子节点或者叶子节点,也可以是起始节点的父节点,具体需要根据待分析数据的数据类型与起始节点表征的数据类型是否一致确定,若一致,待访问节点为起始节点中未访问过的子节点,否则,待访问节点为起始节点的父节点。作为一种具体实施方式,确定待访问节点的方式可以为:
(1)判断待分析数据的数据类型是否为起始节点表征的数据类型。
在本实施例中,作为一种具体实现方式,为类型树中每一节点设置一个用于判断是否为该节点表征的数据类型的判断规则,该判断规则可以是正则表达式或者其他匹配规则,若待分析数据的数据类型符合起始节点对应的判断规则,则判定待分析数据的数据类型是起始节点表征的数据类型;若待分析数据的数据类型不符合起始节点对应的判断规则,则判定待分析数据的数据类型不是起始节点表征的数据类型。
(2)若待分析数据的数据类型是起始节点表征的数据类型,则将起始节点中未访问过的子节点确定为待访问节点。
在本实施例中,作为一种具体实现方式,若未访问过的子节点为多个,则可以将所有未访问过的子节点确定为待访问节点,再将每一待访问节点作为起始节点,重复S1和S2,直至起始节点为叶子节点,最终确定出待分析数据的数据类型,由此可以避免对未访问过的子节点的父节点的重复访问。
(3)若待分析数据的数据类型不是起始节点表征的数据类型,则将起始节点的父节点确定为待访问节点。
第二,S2:将待访问节点作为起始节点。
第三,重复S1和S2,直至起始节点为叶子节点,且待分析数据的数据类型为起始节点表征的数据类型,以确定出待分析数据的数据类型。
在本实施例中,为了更清楚地说明遍历类型树的过程,请参照图6,图6为本发明实施例提供的遍历类型树的过程示例图,起始节点为A111,待分析数据的数据类型对应的叶子节点为A12,遍历过程为:待分析数据的数据类型与A111不匹配,则将A11作为待访问节点,再以A11作为起始节点进行遍历,待分析数据的数据类型与A11不匹配,则将A11的父节点A1作为待访问节点,再以A1作为起始节点进行遍历,待分析数据的数据类型与A1匹配,则将A1未访问过的子节点A12作为待访问节点,以A12作为起始节点进行遍历,待分析数据的数据类型与A12匹配,且A12为叶子节点,则最终确定待分析数据的数据类型为A12表征的数据类型。遍历过程为如图6中虚线所示。
在本实施例中,由于在遍历类型树的过程中,可能会多次经过同一个节点,为了加速处理,避免重复判断,作为一种具体实现方式,可以为每一个节点设置一个是否访问的标志,若访问过,则还可以设置一个待分析数据是否为该节点表征的数据类型(即是否匹配的标志),此时只需要进行标志的判断,而无需进行规则的匹配,从而可以加速匹配判断的过程,最终提高数据类型判断的效率。
需要说明的是,还可能存在另一种情况:待分析数据的数据类型不是该类型树中叶子节点表征的任一类型,即类型树中不存在与待分析数据的数据类型一致的叶子节点,此时,可以根据类型树遍历的情况,将类型树中与待分析数据的数据类型对应的、且距离叶子节点最近层级的节点表征的类型作为待分析数据的数据类型,例如,图6中,从A111开始,待分析数据的数据类型不是A111表征的数据类型,接着访问A11,待分析数据的数据类型是A11表征的数据类型,接着访问A112,A113,待分析数据的数据类型不是A112和A113表征的数据类型,即A11的所有子节点均已经遍历完毕,但是并未找到与待分析数据的数据类型匹配的叶子节点,此时,作为一种具体实现方式,可以结束遍历,将A11表征的数据类型作为待分析数据的数据类型,作为另一种具体实现方式,还可以遍历类型树中其余的节点,即接着访问A12、A1、A、A2、A21、A22、A23、A3、A4(假设这些节点表征的数据类型与待分析数据的数据类型均不匹配),直至遍历完类型树中的所有节点,最终,由于与待分析数据匹配的、且距离叶子节点最近层级的节点为A11,则将A11表征的数据类型作为待分析数据的数据类型。
在本实施例中,若待分析数据是数据集中第一个被分析的数据,即此时数据集中不存在已分析数据,本发明实施例提供了该情况下确定待分析数据的数据类型的具体实现方式,请参照图7,图7为本发明实施例提供的另一种数据类型确定方法的流程示例图,该方法包括以下步骤:
步骤S130,若数据集中不存在已分析数据,则将数据集中任一待分析数据作为目标数据。
在本实施例中,目标数据可以是数据集中的任一待分析数据,即可以从数据集中任意一个数据开始进行分析,以确定其数据类型。
步骤S140,将根节点作为起始节点,遍历类型树,直至确定出目标数据的数据类型。
在本实施例中,在数据集中不存在已分析数据时,对于数据集中的任一目标数据,将根节点作为起始节点,通过遍历类型树中各层子节点,直至到达叶子节点,最终确定出与目标数据的数据类型一致的叶子节点,并将该叶子节点表征的数据类型作为目标数据的数据类型。遍历类型树与上述遍历方式类似,可以采用深度遍历方式,也可以采用广度遍历方式,例如,具体遍历方式可以是:首先判断待分析数据的数据类型是否为根节点表征的数据类型,若否,则认为待分析数据为非法数据,终止遍历,若是,则逐一遍历根节点的子节点,若待分析数据的数据类型与根节点的其中一个子节点表征的数据类型相同,则从该子节点开始继续对该子节点的子节点或者叶子节点进行遍历,直至最终到达与待分析数据的数据类型一致的叶子节点,由此确定出待分析数据的数据类型。
为了执行上述实施例及各个可能的实施方式中的相应步骤,下面给出一种数据类型确定装置100的实现方式。请参照图8,图8示出了本发明实施例提供的数据类型确定装置100的方框示意图。需要说明的是,本实施例所提供的数据类型确定装置100,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及指出。
数据类型确定装置100包括获取模块110和确定模块120。
获取模块110,用于获取属于同一个数据集的多个待分析数据。
获取模块110,还用于获取预设的类型树;其中,类型树包括多个节点,每一节点对应判断规则,判断规则用于判断待分析数据是否属于每一节点表征的数据类型,多个节点包括不存在子节点的叶子节点。
确定模块120,用于根据预设的类型树确定每一待分析数据的数据类型,待分析数据的数据类型由叶子节点表征的数据类型确定。
作为一种具体实施方式,数据集中还包括已分析数据,确定模块120具体用于:从已分析数据中确定参考数据的参考数据类型,其中,参考数据类型是类型树中所述叶子节点表征的数据类型;根据类型树及参考数据类型,确定待分析数据的数据类型。
作为一种具体实施方式,类型树还包括多层节点,多层节点中存在至少一个包括子节点的父节点,子节点表征的数据类型为其父节点表征的数据类型的子类型,确定模块120在用于根据类型树及参考数据类型,确定待分析数据的数据类型时,具体用于:以类型树中与参考数据类型对应的叶子节点为起始节点,判断待分析数据的数据类型是否为起始节点表征的数据类型;若是,则将起始节点表征的数据类型确定为待分析数据的数据类型;若否,则将起始节点的父节点作为起始节点,并从起始节点开始遍历类型树,直至确定出待分析数据的数据类型。
作为一种具体实施方式,确定模块120在用于从起始节点开始遍历类型树,直至确定出待分析数据的数据类型时,具体用于:S1:根据待分析数据的数据类型及起始节点表征的数据类型,确定待访问节点;S2:将待访问节点作为起始节点;重复S1和S2,直至起始节点为叶子节点,且待分析数据的数据类型为起始节点表征的数据类型,以确定出待分析数据的数据类型。
作为一种具体实施方式,确定模块120在用于根据待分析数据的数据类型及起始节点表征的数据类型,确定待访问节点时,具体用于:判断待分析数据的数据类型是否为起始节点表征的数据类型;若待分析数据的数据类型是起始节点表征的数据类型,则将起始节点中未访问过的子节点确定为待访问节点;若待分析数据的数据类型不是起始节点表征的数据类型,则将起始节点的父节点确定为待访问节点。
作为一种具体实施方式,类型树中的每一节点均对应一个用于判断是否为该节点表征的数据类型的判断规则,确定模块120在用于判断待分析数据的数据类型是否为起始节点表征的数据类型时,具体用于:若待分析数据的数据类型符合起始节点对应的判断规则,则判定待分析数据的数据类型是起始节点表征的数据类型;若待分析数据的数据类型不符合起始节点对应的判断规则,则判定待分析数据的数据类型不是起始节点表征的数据类型。
作为一种具体实施方式,类型树还包括多层节点,多层节点还包括一个不存在父节点的根节点,确定模块120还用于:若数据集中不存在已分析数据,则将数据集中任一待分析数据作为目标数据;将根节点作为起始节点,遍历类型树,直至确定出目标数据的数据类型。
本发明实施例还提供了执行上述数据类型确定方法的计算机设备,请参照图9,图9为本发明实施例提供的计算机设备10的方框示意图。计算机设备10包括处理器11、存储器12、总线13、通信接口14。处理器11、存储器12通过总线13连接,处理器11通过通信接口14与外部设备通信。
处理器11可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器12用于存储程序,例如本发明实施例中的数据类型确定装置100,数据类型确定装置100均包括至少一个可以软件或固件(firmware)的形式存储于存储器12中的软件功能模块,处理器11在接收到执行指令后,执行所述程序以实现本发明实施例中的数据类型确定方法。
存储器12可能包括高速随机存取存储器(RAM:Random Access Memory),也可能还包括非易失存储器(non-volatile memory)。可选地,存储器12可以是内置于处理器11中的存储装置,也可以是独立于处理器11的存储装置。
总线13可以是ISA总线、PCI总线或EISA总线等。图9仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
综上所述,本发明实施例提供了一种数据类型确定方法、装置、计算机设备及存储介质,所述方法包括:获取属于同一个数据集的多个待分析数据;获取预设的类型树;其中,类型树包括多个节点,每一节点对应判断规则,判断规则用于判断所述待分析数据是否属于每一节点表征的数据类型,多个节点包括不存在子节点的叶子节点;根据预设的类型树确定每一待分析数据的数据类型,待分析数据的数据类型由叶子节点表征的数据类型确定,与现有技术相比,本发明通过引入预设的类型树,根据预设的类型树确定待分析数据的数据类型,待分析数据的数据类型是由预设的类型树中的叶子节点最终确定的,由此实现了不依赖于人工干预,自动对待分析数据进行分析,以确定待分析数据的数据类型的目的。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据类型确定方法,其特征在于,所述方法包括:
获取属于同一个数据集的多个待分析数据;
获取预设的类型树;其中,所述类型树包括多个节点,每一所述节点对应判断规则,所述判断规则用于判断所述待分析数据是否属于每一所述节点表征的数据类型,所述多个节点包括不存在子节点的叶子节点;
根据预设的类型树确定每一所述待分析数据的数据类型,所述待分析数据的数据类型由所述叶子节点表征的数据类型确定。
2.如权利要求1所述的数据类型确定方法,其特征在于,所述数据集中还包括已分析数据,所述根据预设的类型树确定每一所述待分析数据的数据类型的步骤包括:
从所述已分析数据中确定参考数据的参考数据类型,其中,所述参考数据类型是所述类型树中所述叶子节点表征的数据类型;
根据所述类型树及所述参考数据类型,确定所述待分析数据的数据类型。
3.如权利要求2所述的数据类型确定方法,其特征在于,所述类型树还包括多层节点,所述多层节点中存在至少一个包括子节点的父节点,所述子节点表征的数据类型为其父节点表征的数据类型的子类型,所述根据所述类型树及所述参考数据类型,确定所述待分析数据的数据类型的步骤包括:
以所述类型树中与所述参考数据类型对应的叶子节点为起始节点,判断所述待分析数据的数据类型是否为所述起始节点表征的数据类型;
若是,则将所述起始节点表征的数据类型确定为所述待分析数据的数据类型;
若否,则将所述起始节点的父节点作为起始节点,并从起始节点开始遍历所述类型树,直至确定出所述待分析数据的数据类型。
4.如权利要求3所述的数据类型确定方法,其特征在于,所述从起始节点开始遍历所述类型树,直至确定出所述待分析数据的数据类型的步骤包括:
S1:根据所述待分析数据的数据类型及所述起始节点表征的数据类型,确定待访问节点;
S2:将所述待访问节点作为所述起始节点;
重复S1和S2,直至所述起始节点为叶子节点,且所述待分析数据的数据类型为所述起始节点表征的数据类型,以确定出所述待分析数据的数据类型。
5.如权利要求4所述的数据类型确定方法,其特征在于,所述根据所述待分析数据的数据类型及所述起始节点表征的数据类型,确定待访问节点的步骤包括:
判断所述待分析数据的数据类型是否为所述起始节点表征的数据类型;
若所述待分析数据的数据类型是所述起始节点表征的数据类型,则将所述起始节点中未访问过的子节点确定为所述待访问节点;
若所述待分析数据的数据类型不是所述起始节点表征的数据类型,则将所述起始节点的父节点确定为所述待访问节点。
6.如权利要求5所述的数据类型确定方法,其特征在于,所述类型树中的每一节点均对应一个用于判断是否为该节点表征的数据类型的判断规则,所述判断所述待分析数据的数据类型是否为所述起始节点表征的数据类型的步骤包括:
若所述待分析数据的数据类型符合所述起始节点对应的判断规则,则判定所述待分析数据的数据类型是所述起始节点表征的数据类型;
若所述待分析数据的数据类型不符合所述起始节点对应的判断规则,则判定所述待分析数据的数据类型不是所述起始节点表征的数据类型。
7.如权利要求1所述的数据类型确定方法,其特征在于,所述类型树还包括多层节点,所述多层节点还包括一个不存在父节点的根节点,所述根据预设的类型树确定每一所述待分析数据的数据类型的步骤还包括:
若数据集中不存在已分析数据,则将所述数据集中任一待分析数据作为目标数据;
将所述根节点作为起始节点,遍历所述类型树,直至确定出所述目标数据的数据类型。
8.一种数据类型确定装置,其特征在于,所述装置包括:
获取模块,用于获取属于同一个数据集的多个待分析数据;
获取模块,还用于获取预设的类型树;其中,所述类型树包括多个节点,每一所述节点对应判断规则,所述判断规则用于判断所述待分析数据是否属于每一所述节点表征的数据类型,所述多个节点包括不存在子节点的叶子节点;
确定模块,用于根据预设的类型树确定每一所述待分析数据的数据类型,所述待分析数据的数据类型由所述叶子节点表征的数据类型确定。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的数据类型确定方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的数据类型确定方法。
CN202111136493.8A 2021-09-27 2021-09-27 数据类型确定方法、装置、计算机设备及存储介质 Active CN113806371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111136493.8A CN113806371B (zh) 2021-09-27 2021-09-27 数据类型确定方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111136493.8A CN113806371B (zh) 2021-09-27 2021-09-27 数据类型确定方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113806371A true CN113806371A (zh) 2021-12-17
CN113806371B CN113806371B (zh) 2024-01-19

Family

ID=78896841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111136493.8A Active CN113806371B (zh) 2021-09-27 2021-09-27 数据类型确定方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113806371B (zh)

Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519580B1 (en) * 2000-06-08 2003-02-11 International Business Machines Corporation Decision-tree-based symbolic rule induction system for text categorization
JP2003162518A (ja) * 2001-11-26 2003-06-06 Canon Inc 文書種別判定方法
GB0415466D0 (en) * 2004-07-10 2004-08-11 Hewlett Packard Development Co Inferring data type in a multi stage process
CN1561484A (zh) * 2001-09-26 2005-01-05 英特尔公司 实现快速类型检查的方法
US20090254519A1 (en) * 2008-04-02 2009-10-08 Honeywell International Inc. Method and system for building a support vector machine binary tree for fast object search
US20110282858A1 (en) * 2010-05-11 2011-11-17 Microsoft Corporation Hierarchical Content Classification Into Deep Taxonomies
CN102254022A (zh) * 2011-07-27 2011-11-23 河海大学 一种面向多数据类型信息资源元数据的共享方法
US20130166485A1 (en) * 2011-12-23 2013-06-27 Florian Hoffmann Automated observational decision tree classifier
CN103426007A (zh) * 2013-08-29 2013-12-04 人民搜索网络股份公司 一种机器学习分类方法及装置
CN103876734A (zh) * 2014-03-24 2014-06-25 北京工业大学 一种基于决策树的脑电信号特征选择方法
CN104125106A (zh) * 2013-04-23 2014-10-29 中国银联股份有限公司 基于分类决策树的网络纯净性检测装置及方法
CN104714947A (zh) * 2013-12-11 2015-06-17 深圳市腾讯计算机系统有限公司 预定类型号码识别方法及装置
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
WO2016023232A1 (en) * 2014-08-15 2016-02-18 Hewlett-Packard Development Company, L.P. Memory efficient packet classification method
CN105791242A (zh) * 2014-12-24 2016-07-20 阿里巴巴集团控股有限公司 对象类型的识别方法、服务器、客户端和系统
US20160275448A1 (en) * 2015-03-19 2016-09-22 United Parcel Service Of America, Inc. Enforcement of shipping rules
CN106067039A (zh) * 2016-05-30 2016-11-02 桂林电子科技大学 基于决策树剪枝的模式匹配方法
CN106067030A (zh) * 2016-05-26 2016-11-02 广西师范学院 一种河流特征分类数据的处理方法
WO2018006004A1 (en) * 2016-06-30 2018-01-04 The Trustees Of The University Of Pennsylvania Systems and methods for generating improved decision trees
CN107766869A (zh) * 2016-08-22 2018-03-06 富士通株式会社 对象分类方法和对象分类设备
CN108229573A (zh) * 2018-01-17 2018-06-29 北京中星微人工智能芯片技术有限公司 基于决策树的分类计算方法和装置
CN108549531A (zh) * 2018-04-19 2018-09-18 携程旅游网络技术(上海)有限公司 复杂类型数据自动生成方法、装置、电子设备、存储介质
CN111291097A (zh) * 2020-05-08 2020-06-16 西南石油大学 一种基于决策树数据挖掘的钻井漏层位置实时预测方法
CN111316651A (zh) * 2017-11-01 2020-06-19 Vid拓展公司 多类型树编码
WO2021073433A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 一种监控方法、装置、服务器及存储介质

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519580B1 (en) * 2000-06-08 2003-02-11 International Business Machines Corporation Decision-tree-based symbolic rule induction system for text categorization
CN1561484A (zh) * 2001-09-26 2005-01-05 英特尔公司 实现快速类型检查的方法
JP2003162518A (ja) * 2001-11-26 2003-06-06 Canon Inc 文書種別判定方法
GB0415466D0 (en) * 2004-07-10 2004-08-11 Hewlett Packard Development Co Inferring data type in a multi stage process
US20090254519A1 (en) * 2008-04-02 2009-10-08 Honeywell International Inc. Method and system for building a support vector machine binary tree for fast object search
US20110282858A1 (en) * 2010-05-11 2011-11-17 Microsoft Corporation Hierarchical Content Classification Into Deep Taxonomies
CN102254022A (zh) * 2011-07-27 2011-11-23 河海大学 一种面向多数据类型信息资源元数据的共享方法
US20130166485A1 (en) * 2011-12-23 2013-06-27 Florian Hoffmann Automated observational decision tree classifier
CN104125106A (zh) * 2013-04-23 2014-10-29 中国银联股份有限公司 基于分类决策树的网络纯净性检测装置及方法
CN103426007A (zh) * 2013-08-29 2013-12-04 人民搜索网络股份公司 一种机器学习分类方法及装置
CN104714947A (zh) * 2013-12-11 2015-06-17 深圳市腾讯计算机系统有限公司 预定类型号码识别方法及装置
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
CN103876734A (zh) * 2014-03-24 2014-06-25 北京工业大学 一种基于决策树的脑电信号特征选择方法
WO2016023232A1 (en) * 2014-08-15 2016-02-18 Hewlett-Packard Development Company, L.P. Memory efficient packet classification method
CN105791242A (zh) * 2014-12-24 2016-07-20 阿里巴巴集团控股有限公司 对象类型的识别方法、服务器、客户端和系统
US20160275448A1 (en) * 2015-03-19 2016-09-22 United Parcel Service Of America, Inc. Enforcement of shipping rules
CN106067030A (zh) * 2016-05-26 2016-11-02 广西师范学院 一种河流特征分类数据的处理方法
CN106067039A (zh) * 2016-05-30 2016-11-02 桂林电子科技大学 基于决策树剪枝的模式匹配方法
WO2018006004A1 (en) * 2016-06-30 2018-01-04 The Trustees Of The University Of Pennsylvania Systems and methods for generating improved decision trees
CN107766869A (zh) * 2016-08-22 2018-03-06 富士通株式会社 对象分类方法和对象分类设备
CN111316651A (zh) * 2017-11-01 2020-06-19 Vid拓展公司 多类型树编码
CN108229573A (zh) * 2018-01-17 2018-06-29 北京中星微人工智能芯片技术有限公司 基于决策树的分类计算方法和装置
CN108549531A (zh) * 2018-04-19 2018-09-18 携程旅游网络技术(上海)有限公司 复杂类型数据自动生成方法、装置、电子设备、存储介质
WO2021073433A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 一种监控方法、装置、服务器及存储介质
CN111291097A (zh) * 2020-05-08 2020-06-16 西南石油大学 一种基于决策树数据挖掘的钻井漏层位置实时预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PRAVEER MANSUKHANI: "A Framework for Efficient Fingerprint Identification Using a Minutiae Tree", 《IEEE SYSTEMS JOURNAL》 *
王婷: "基于模糊决策树的医学数据分类研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Also Published As

Publication number Publication date
CN113806371B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN109117209B (zh) 序列化和反序列化方法及装置
CN109508420B (zh) 一种知识图谱属性的清洗方法及装置
CN108008936B (zh) 一种数据处理方法、装置及电子设备
CN108694319B (zh) 一种恶意代码家族判定方法及装置
CN111090417A (zh) 二进制文件解析方法、装置、设备及介质
CN109460398B (zh) 时间序列数据的补全方法、装置及电子设备
CN112199935B (zh) 数据的比对方法、装置、电子设备及计算机可读存储介质
CN103095726A (zh) 一种协议解析器的处理方法和装置
CN110909361A (zh) 一种漏洞检测方法,装置和计算机设备
CN112559606A (zh) 用于json格式数据的转换方法及转换装置
CN110502432B (zh) 智能测试方法、装置、设备及可读存储介质
CN114398315A (zh) 一种数据存储方法、系统、存储介质及电子设备
CN115827903A (zh) 媒体信息的违规检测方法、装置、电子设备及存储介质
CN107330031B (zh) 一种数据存储的方法、装置及电子设备
CN111062490B (zh) 一种包含隐私数据的网络数据的处理、识别方法及装置
CN113806371A (zh) 数据类型确定方法、装置、计算机设备及存储介质
US10229105B1 (en) Mobile log data parsing
CN113572721A (zh) 一种异常访问检测方法、装置、电子设备及存储介质
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
CN113220949B (zh) 一种隐私数据识别系统的构建方法及装置
CN111190896A (zh) 数据处理方法、装置、存储介质和计算机设备
CN113780467A (zh) 模型训练方法、装置、计算机设备及存储介质
CN115168755A (zh) 基于url特征的异常数据处理方法及系统
CN109284268A (zh) 一种快速解析日志的方法、系统及电子设备
CN112463785B (zh) 一种数据质量监控方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant