CN116108226A - 数据处理方法、装置、终端设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、终端设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116108226A
CN116108226A CN202211560078.XA CN202211560078A CN116108226A CN 116108226 A CN116108226 A CN 116108226A CN 202211560078 A CN202211560078 A CN 202211560078A CN 116108226 A CN116108226 A CN 116108226A
Authority
CN
China
Prior art keywords
data
semi
structured data
structured
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211560078.XA
Other languages
English (en)
Inventor
郑凯匀
吴丽卿
李振宇
周枢湘
邱湘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Taiji Shuzhi Technology Co ltd
Original Assignee
Shenzhen Taiji Shuzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Taiji Shuzhi Technology Co ltd filed Critical Shenzhen Taiji Shuzhi Technology Co ltd
Priority to CN202211560078.XA priority Critical patent/CN116108226A/zh
Publication of CN116108226A publication Critical patent/CN116108226A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本申请适用于数据处理技术领域,提供了一种数据处理方法、装置、终端设备及计算机可读存储介质,包括:获取待处理的半结构化数据;根据训练后的识别模型识别所述半结构化数据的数据类型;根据所述识别类型生成建表语句;根据所述建表语句在预设数据库中建表,获得数据库表;将所述半结构化数据导入所述数据库表。本申请采用机器学习对半结构化表格数据解析处理,适用于所有种类的表格数据,通用性较强,且大大增加表格数据的处理效率。

Description

数据处理方法、装置、终端设备及计算机可读存储介质
技术领域
本申请属于数据处理技术领域,尤其涉及一种数据处理方法、装置、终端及计算机可读存储介质。
背景技术
信息时代带来了海量的数据文件,其中包括结构化数据、半结构化数据和非结构化数据,半结构化的数据文件包括政府和企业核心数据资产,具有较高应用价值,因此解析与管理这些半结构化数据成为亟待解决的技术问题。
但是传统技术仅能对结构化数据进行处理分析,无法直接对半结构化数据和非结构化数据进行处理,或对于表格数据的解析效率较低,无针对性优化,开发工作量大,流程较复杂,且不支持EXCEL等表格数据,泛用性较差。
发明内容
本申请实施例提供了一种数据数理方法、装置、终端设备及计算机可读存储介质,可以实现对各类半结构化表格数据的自动解析入库问题。
第一方面,本申请实施例提供了一种数据处理方法,包括:
获取待处理的半结构化数据;
根据训练后的识别模型识别所述半结构化数据的数据类型;
根据所述识别类型生成建表语句;
根据所述建表语句在预设数据库中建表,获得数据库表;
将所述半结构化数据导入所述数据库表。
本申请实施例中,根据训练后的识别模型识别半结构化数据的数据类型,并根据识别类型生成建表语句,将建表语句在预设数据库中建表获得数据库表,最后将半结构化数据导入数据库表,换言之,半结构化数据到结构化数据的转变前期是利用机器学习训练的识别模型对数据进行快速识别并分类,通过上述方法,无需在对半结构化数据处理过程中开发大量组件,只需要利用识别模型对数据进行识别处理,再根据识别信息完成半结构化数据到结构化数据的其它转化工作,此方法简化复杂流程从而提高了半结构化数据的处理过程,更高效地实现对各类半结构化数据的自动解析入库。
在第一方面的一种可能的实现方式中,所述数据处理方法还包括:
获取样本数据,所述样本数据为半结构化的数据;
根据所述特征信息训练所述识别模型,获得训练后的所述识别模型。
在第一方面的一种可能的实现方式中,所述获取样本数据包括:
获取待训练的原始数据;
根据预设的特征属性提取所述原始数据中的特征信息,获得所述样本数据。
在第一方面的一种可能的实现方式中,所述根据所述数据类型生成建表语句,包括:
获取所述数据类型对应的预设模板;
根据所述预设模板提取所述半结构化数据中的属性信息;
根据所述属性信息拼接生成所述建表语句。
在第一方面的一种可能的实现方式中,所述根据所述属性信息拼接生成所述建表语句,包括:
将所述属性信息转换为预设格式的转换数据,所述预设格式与所述预设数据库相匹配;
根据所述转换数据拼接生成所述建表语句。
在第一方面的一种可能的实现方式中,所述将所述半结构化数据导入所述数据库表,包括:
若所述半结构化数据的数据类型为第一类型,则根据预设脚本将所述半结构化数据导入所述数据库表;
若所述半结构化数据的数据类型为第二类型,则利用预设引擎将所述半结构化数据导入所述数据库表,其中,第二类型数据的数据结构比所述第一类型数据的数据结构复杂。
在第一方面的一种可能的实现方式中,所述半结构化数据的数据格式包括:普通格式、多行表头格式、交叉表格式、多行数据融合格式等任意一种格式;
第二方面,本申请实施例提供了一种数据处理装置,包括:
获取单元,获取待处理的半结构化数据;
识别单元,根据训练后的识别模型识别所述半结构化数据的数据类型;
生成单元,根据所述识别类型生成建表语句;
建表单元,根据所述建表语句在预设数据库中建表,获得数据库表;
导入单元,将所述半结构化数据导入所述数据库表。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现上述任一种数据处理方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,上述的计算机程序被处理器执行时实现上述任一种数据处理方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的数据处理方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的数据处理方法的系统示意图;
图2是本申请一实施例提供的建表语句生成流程示意图;
图3是本申请一实施例提供的数据处理装置结构图;
图4是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
机器学习是对计算机一部分数据进行学习,然后对另外一些数据进行预测与判断。结构化数据指可以使用关系型数据库表示和存储,表现为二维形式的数据。半结构化表格数据指的是存储在表格内的数据,但表格不为标准的二维表,格式不规范,可能存在有多个表头或一个表格内存储多张二维表等表现。
信息时代带来了海量的数据文件,其中包括结构化数据、半结构化数据和非结构化数据。传统技术仅能对结构化数据进行处理分析,无法直接对半结构化数据和非结构化数据进行处理。而半结构化的数据文件包括政府和企业核心数据资产,具有较高应用价值。如何解析与管理这些半结构化数据成为亟待解决的技术问题。
一些实现方式中,通过上传组件识别半结构化数据文件的类型和版本,通过解析组件对半结构化数据文件进行解析生成结构化数据,再通过数据对象组件呈现、存储并输出结构化数据。由于解析组件中的脚本代码片段可修改,所以灵活性较高,可适用于不同的半结构化数据解析,但是通过开发的组件解析半结构化数据的方法,针对每个半结构化数据都需要定制化开发组件,开发工作量大,流程较复杂,且不支持EXCEL等表格数据,泛用性较差。其他相关的处理半结构化数据的技术,对于表格数据的解析效率较低,无针对性优化。
为了解决上述问题,本申请实施例提供了一种数据处理方法。通过本申请实施例中的方法,无需在对半结构化数据处理过程中开发大量组件,只需要利用识别模型对数据进行识别处理,再根据识别信息完成半结构化数据到结构化数据的其它转化工作,此方法简化复杂流程从而提高了半结构化数据的处理过程,更高效地实现对各类半结构化数据的自动解析入库。
本申请实施例提供的数据处理方法适用于各类半结构化数据,参见图1,是本申请实施例中提供的数据处理方法的系统流程示意图,作为示例而非限定,所述方法包括以下步骤:
步骤S101,获取待处理的半结构化数据。
在本实施例中,半结构化数据是指存储在表格内的数据,但表格不为标准的二维表,格式不规范,可能存在多个表头或一个表格内存储多张二维表的形式,其数据格式常见的几类格式有普通格式,多行表头格式,交叉表格式,多段融合格式,多行数据合并格式,大量数据导入格式等,其生成方式为使用脚本根据特征属性如文件大小、文件行数、是否有标题行、标题行数、表头数量、表头位置行数生成待处理的半结构化数据。
步骤S102,根据训练后的识别模型识别所述半结构化数据的数据类型。
在本实施例中,训练后的识别模型主要是利用机器学习进行训练的,机器学习是人工智能和计算机科学的分支专注于使用数据和算法来模仿人类学习的方式,逐渐提高其准确性,机器学习是不断成长的数据科学领域的重要组成部分,通过使用统计方法,对算法进行训练,以进行分类或预测,揭示数据挖掘项目中的关键洞查,机器学习算法的三类包括:无监督学习、监督学习和强化学习,本实施例中利用监督学习算法对数据进行训练,获得训练模型,随着半结构化数据样本的在增大,对模型进行持续的完善,当有新的半结构化数据需要入库时,训练模型会自动识别并解析数据的特征值,通过模型对其进行分类,分类信息根据数据的特征信息进行分类,其特征信息包括数据文件大小、文件行数、是否有标题,标题行数、表头数量、表头位置行数。
步骤S103,根据所述识别类型生成建表语句。
在本实施例中,为了将半结构化数据转化为结构化数据,需要用到特定的关系型数据库以及关系型数据库中特定的建表语句,其中,结构化数据指的是可以使用关系型数据表示和存储,表现为二维形式的数据,关系型数据库,是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型,而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织,半结构数据的表格不为标准的二维表,格式不规范,因此在将半结构化数据转化为结构化数据存储在关系型数据库之前,需要获得关系型数据库中标准二维表对应的建表语句,示例性的,MySQL是一种关系型数据库管理系统,关系数据库将数据存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性,其建表所需要用到的建表语言为SQL语言是用于访问数据库的最常用标准化语言。MySQL软件采用了双授权政策,分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型和大型网站的开发都选择MySQL作为网站数据库。
在一个实施例中,参见图2,是本申请一实施例提供的建表语句生成流程示意图,如图2所示,步骤S103还包括:
步骤S201,获取所述数据类型对应的预设模板;
步骤S202,根据所述预设模板提取所述半结构化数据中的属性信息。
步骤S203,根据所述属性信息拼接生成所述建表语句。
在本实施例中,建表语句是根据分类预设的,每个分类有一个建表语句的生成器,这个目前是通过人工实现的。在生成建表语句之前提前根据数据库设定一个预设模板,此预设模板含有样本数据的所有特征信息,预设模板为建表语语句的生成提供文档格式需要的特征信息,示例性的,若半结构化数据的文档为普通格式,首先需要根据预设模板提取此文档的对应的属性信息,如表名,表描述,表字段名,表中文名等,然后获得各个有用字段进行占位符的替换并拼接成建表所需的建表语句。
在一个实施例中,步骤S203还包括:
将所述属性信息转换为预设格式的转换数据,所述预设格式与所述预设数据库相匹配。
根据所述转换数据拼接生成所述建表语句。
在本实施例中,根据从上述文档解析结果获取预设模板对应的数据信息后,需要根据文档的输出格式与预设数据库中预设格式进行必要的转换,示例性的,普通格式、多行表头格式类型的半结构化可以转化为预设格式所需要的拼音缩写或英文格式,最后根据转换后的数据拼接成预设数据中建表所需要的建表语句。
步骤S104,根据所述建表语句在预设数据库中建表,获得数据库表。
在本实施例中,关系型数据库是利用建表语句可以获取数据形式为二维形式的表格,即获得可以将半结构化数据转化为结构化数据的数据库表。
步骤S105,将所述半结构化数据导入所述数据库表。
利用数据采集工具,将半结构化书采集到上述利用建表语句在关系型数据库中建成的二维数据库表,实现了半结构化表格数据到结构化数据的转变。
在一个实施例中,步骤S105还包括:
若所述半结构化数据的数据类型为第一类型,则根据预设脚本将所述半结构化数据导入所述数据库表。
若所述半结构化数据的数据类型为第二类型,则利用预设引擎将所述半结构化数据导入所述数据库表,其中,第二类型数据的数据结构比所述第一类型数据的数据结构复杂。
利用机器学习对半结构化数据进行学习,其半结构化数据的数据格式可以分为两种类型,第一类型的数据格式为普通合适,第二类型的数据格式包含多行表头格式、交叉表头格式、多行数据合并格式等。当文档格式为第一类型时可利用预设脚本解析将所述半结构化数据导入所述数据库表,但是对于复杂结构的数据表,即第二类型的数据格式,第二类型数据的数据结构比第一类型数据的数据结构复杂,这时在对数据进行数据库导入时需要利用集成采集工具引擎完成导入,采集引擎有kettle,Nifi等,我们常采用kettle的引擎。
在一个实施例中,所述数据处理方法还包括:
获取样本数据,所述样本数据为半结构化的数据。
根据所述特征信息训练所述识别模型,获得训练后的所述识别模型。
样本数据是概率运算中常用到的概念,示例性的,有一批弹药,10000发,要求90%是性能优良的,现在要预算一下,如果把10000发全部试打一遍则没有任何意义,可以随机取100发,计算出性能优良的数量算出优良率,假设优良率为94%,因为是随机的,而且这100发也是10000发里占了一定的比例,所以就可以说这批弹药的优良率是94%,符合要求,这100发计算的值就称为样本数据,即抽样的意思,由于半结构化数据是介于结构化和非结构化之间的数据,在生活中应用较广常见的应用场景包括:邮件系统、WEB集群、数学资源库、数据挖掘系统、档案系统等,这些应用对于数据存储、数据备份、数据共享以及数据归档等基本存储需求,所以由于半结构化的数据及类型范围较大,对半结构化数据进行学习时,需要用到样本数据,对样本数据进行训练,在本实施例中,样本数据为上述利用脚本生成的半结构化数据。
在一个实施例中,获取样本数据的上述步骤还包括:
获取待训练的原始数据。
根据预设的特征属性提取所述原始数据中的特征信息,获得所述样本数据。
在数据库中,原始数据又称为用户数据,是未经过处理或简化的数据,在本实施例中,待训练的原始数据即为通过脚本获得的半结构化数据。
在进行模型训练前,需要根据预设的特征属性获取原始数据中特征信息作为样本数据进行训练,特征属性一般包括:文件大小,文件行数,是否有标题行,标题行数,表头数量,表头位置行数,利用这些特征属性来构成训练测试集。
在人工智能中,面对大量用户输入的数据或素材,如果是在杂乱无章的内容准确、容易地识别,输出我们期待输出的图像或语音并不是那么容易,因此算法显得尤为重要,算法就是模型。算法的内容除了核心识别引擎,也包括各种配置参数,示例性的,半结构化数据识别模型能识别数据的文件大小、文件行数、是否有标题行、表头数量等多种参数,成熟的识别引擎,核心内容一般不会经常变化的,为实现“识别成功”这一目标我们需要对配置参数做调整,对于不同的输入,我们会配置不同的参数值,最后在统计结果统计取一个各方比较均衡、识别率较高的一组参数值,这组参数值,就是我们训练后得到的结果,这就是训练过程,也叫模型训练,在本实施例中,利用支持向量机(Support Vector Machine,SVM)对样本数据进行监督学习,属于分类算法的一种,主要是对excel的特征信息进行获取,如文件大小,文件行数,是否有标题行,标题行数,表头数量,表头位置行数等,来构成训练集、测试集,进而得到训练模型。
对应于上文实施例所述的数据处理方法,图3是本申请实施例提供的数据处理装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图3,该装置包括:
获取单元31,获取待处理的半结构化数据。
识别单元32,根据训练后的识别模型识别所述半结构化数据的数据类型。
生成单元33,根据所述识别类型生成建表语句。
建表单元34,根据所述建表语句在预设数据库中建表,获得数据库表。
导入单元35,将所述半结构化数据导入所述数据库表。
相应的,识别单元32还用于:
获取样本数据,所述样本数据为半结构化的数据;
根据所述特征信息训练所述识别模型,获得训练后的所述识别模型。
可选的,生成单元33还用于:
获取所述数据类型对应的预设模板;
根据所述预设模板提取所述半结构化数据中的属性信息;
根据所述属性信息拼接生成所述建表语句。
可选的,生成单元33还用于:
将所述属性信息转换为预设格式的转换数据,所述预设格式与所述预设数据库相匹配;
根据所述转换数据拼接生成所述建表语句。
可选的,导入单元35还用于:
若所述半结构化数据的数据类型为第一类型,则根据预设脚本将所述半结构化数据导入所述数据库表;
若所述半结构化数据的数据类型为第二类型,则利用预设引擎将所述半结构化数据导入所述数据库表,其中,第二类型数据的数据结构比所述第一类型数据的数据结构复杂。
另外,图3所示的数据处理装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元,也可以作为独立的挂件集成到所述终端设备中,还可以作为独立的终端设备存在。
图4是本申请实施例提供的终端设备的结构示意图。如图4所示,该实施例的终端设备4包括:至少一个处理器40(图4中仅示出一个)处理器、存储器41以及存储在所述存储器41中并可在所述至少一个处理器40上运行的计算机程序42,所述处理器40执行所述计算机程序42时实现上述任意各个数据处理方法实施例中的步骤。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是终端设备4的举例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),该处理器40还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41在一些实施例中可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41在另一些实施例中也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待处理的半结构化数据;
根据训练后的识别模型识别所述半结构化数据的数据类型;
根据所述识别类型生成建表语句;
根据所述建表语句在预设数据库中建表,获得数据库表;
将所述半结构化数据导入所述数据库表。
2.如权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
获取样本数据,所述样本数据为半结构化的数据;
根据所述特征信息训练所述识别模型,获得训练后的所述识别模型。
3.如权利要求2所述的数据处理方法,其特征在于,所述获取样本数据包括:
获取待训练的原始数据;
根据预设的特征属性提取所述原始数据中的特征信息,获得所述样本数据。
4.如权利要求1所述的数据处理方法,其特征在于,所述根据所述数据类型生成建表语句,包括:
获取所述数据类型对应的预设模板;
根据所述预设模板提取所述半结构化数据中的属性信息;
根据所述属性信息拼接生成所述建表语句。
5.如权利要求4所述的数据处理方法,其特征在于,所述根据所述属性信息拼接生成所述建表语句,包括:
将所述属性信息转换为预设格式的转换数据,所述预设格式与所述预设数据库相匹配;
根据所述转换数据拼接生成所述建表语句。
6.如权利要求1所述的数据处理方法,其特征在于,所述将所述半结构化数据导入所述数据库表,包括:
若所述半结构化数据的数据类型为第一类型,则根据预设脚本将所述半结构化数据导入所述数据库表;
若所述半结构化数据的数据类型为第二类型,则利用预设引擎将所述半结构化数据导入所述数据库表,其中,第二类型数据的数据结构比所述第一类型数据的数据结构复杂。
7.根据权利要求1-6中任意一项所述的数据处理方法,其特征在于:
所述半结构化数据的数据格式包括:普通格式、多行表头格式、交叉表格式、多行数据融合格式等任意一种格式。
8.一种数据处理装置,其特征在于,包括:
获取单元,获取待处理的半结构化数据;
识别单元,根据训练后的识别模型识别所述半结构化数据的数据类型;
生成单元,根据所述识别类型生成建表语句;
建表单元,根据所述建表语句在预设数据库中建表,获得数据库表;
导入单元,将所述半结构化数据导入所述数据库表。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202211560078.XA 2022-12-06 2022-12-06 数据处理方法、装置、终端设备及计算机可读存储介质 Pending CN116108226A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211560078.XA CN116108226A (zh) 2022-12-06 2022-12-06 数据处理方法、装置、终端设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211560078.XA CN116108226A (zh) 2022-12-06 2022-12-06 数据处理方法、装置、终端设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116108226A true CN116108226A (zh) 2023-05-12

Family

ID=86255184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211560078.XA Pending CN116108226A (zh) 2022-12-06 2022-12-06 数据处理方法、装置、终端设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116108226A (zh)

Similar Documents

Publication Publication Date Title
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
CN110737689B (zh) 数据标准符合性检测方法、装置、系统及存储介质
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN114818643A (zh) 一种保留特定业务信息的日志模板提取方法
CN114398968B (zh) 基于文件相似度对同类获客文件进行标注的方法和装置
CN114416926A (zh) 关键词匹配方法、装置、计算设备及计算机可读存储介质
CN112307318A (zh) 一种内容发布方法、系统及装置
CN114003731A (zh) 异构数据处理方法、装置、服务器及存储介质
CN116010545A (zh) 一种数据处理方法、装置及设备
CN116108226A (zh) 数据处理方法、装置、终端设备及计算机可读存储介质
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
CN113722421B (zh) 一种合同审计方法和系统,及计算机可读存储介质
CN114492366A (zh) 二进制文件的分类方法、计算设备及存储介质
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
CN116842021B (zh) 基于ai生成式技术的数据字典标准化方法、设备及介质
CN112767022B (zh) 移动应用功能演化趋势预测方法、装置及计算机设备
CN117150046B (zh) 基于上下文语义的任务自动分解方法和系统
CN113779251B (zh) 线索信息获取方法、装置、介质及电子设备
CN113536788B (zh) 信息处理方法、装置、存储介质及设备
CN108241749B (zh) 由传感器数据生成资讯信息的方法及设备
CN117332037A (zh) 信息智能提取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination