CN110471901B - 数据导入方法及终端设备 - Google Patents
数据导入方法及终端设备 Download PDFInfo
- Publication number
- CN110471901B CN110471901B CN201910625317.7A CN201910625317A CN110471901B CN 110471901 B CN110471901 B CN 110471901B CN 201910625317 A CN201910625317 A CN 201910625317A CN 110471901 B CN110471901 B CN 110471901B
- Authority
- CN
- China
- Prior art keywords
- data
- name
- identifier
- database
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012545 processing Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013519 translation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 8
- 238000004883 computer application Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 230000008676 import Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于计算机应用技术领域,提供了一种数据导入方法、终端设备及计算机可读存储介质,包括:获取待处理的表格数据;根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识;将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。通过根据数据名称在预设的数据库中确定对应的数据标识,将数据值导入对应的数据标识中,提高了表格数据导入数据库的效率,也降低了数据导入过程中的错误率。
Description
技术领域
本发明属于计算机应用技术领域,尤其涉及一种数据导入方法、终端设备及计算机可读存储介质。
背景技术
数据库管理系统(Database Management System,DBMS)是一种操纵和管理数据库的大型软件,用于建立、使用和维护数据库。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。用户通过DBMS访问数据库中的数据,数据库管理员也通过DBMS进行数据库的维护工作。
在很多数据库管理系统中,存在大量的用户数据类型和数据量,以根据这些用户数据对用户信息进行分析或者挖掘,得到用户的系统使用信息。系统中有时需要导入客户提供的初始化数据,现有技术中很多情况下通过人为手动的进行数据的筛选复制粘贴,而这种方法的效率较低,从而影响数据处理效率。
发明内容
有鉴于此,本发明实施例提供了一种数据导入方法、终端设备及计算机可读存储介质,以解决现有技术中通过人为进行数据的筛选复制粘贴的效率较低,从而影响数据处理效率的问题。
本发明实施例的第一方面提供了一种数据导入方法,包括:
获取待处理的表格数据;所述表格数据包括数据名称和数据值;
根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识;
若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识;
将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。
本发明实施例的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理的表格数据;所述表格数据包括数据名称和数据值;
根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识;
若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识;
将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。
本发明实施例的第三方面提供了一种终端设备,包括:
获取单元,用于获取待处理的表格数据;所述表格数据包括数据名称和数据值;
标识单元,用于根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识;
匹配单元,用于若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识;
导入单元,用于将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例与现有技术相比存在的有益效果是:
本发明实施例通过获取待处理的表格数据;所述表格数据包括数据名称和数据值;根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识,若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识;将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。通过根据数据名称在预设的数据库中确定对应的数据标识,将数据值导入对应的数据标识中,提高了表格数据导入数据库的效率,也降低了数据导入过程中的错误率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的数据导入方法的流程图;
图2是本发明实施例二提供的数据导入方法的流程图;
图3是本发明实施例三提供的终端设备的示意图;
图4是本发明实施例四提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
参见图1,图1是本发明实施例一提供的数据导入方法的流程图。本实施例中数据导入方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端,还可以是台式电脑等。如图所示的数据导入方法可以包括以下步骤:
S101:获取待处理的表格数据;所述表格数据包括数据名称和数据值。
数据库管理系统(Database Management System,DBMS)是一种操纵和管理数据库的大型软件,用于建立、使用和维护数据库。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。用户通过DBMS访问数据库中的数据,数据库管理员也通过DBMS进行数据库的维护工作。数据库管理系统是数据库系统的核心,是管理数据库的软件。数据库管理系统就是实现把用户意义下抽象的逻辑数据处理,转换成为计算机中具体的物理数据处理的软件。有了数据库管理系统,用户就可以在抽象意义下处理数据,而不必顾及这些数据在计算机中的布局和物理位置。在很多数据库管理系统中,存在大量的用户数据类型和数据量,以根据这些用户数据对用户信息进行分析或者挖掘,得到用户的系统使用信息。系统中有时需要导入客户提供的初始化数据,需要把数据导入到数据库中,现有技术中很多情况下通过人为手动的进行数据的筛选复制粘贴,而这种方法的效率较低,从而影响数据处理效率。
本实施例中在对表格数据进行处理之前,先获取该处理的表格数据,其中可以包括数据名称和数据值。其中,数据名称用于表示表格数据的数据名称,可以是中文、英文或者其他语言,用于表示数据的名称或者含义,此处不做限定。数据值用于表示各个数据名称对应的数据的数据大小或者数值等,数据值的形式可以包括数字、字符串或则文字等,其中,数字可以是整数、小数或者大写等,此处不做限定。
示例性地,一个班级信息表中的信息包括不同人的姓名、年龄、性别、个人描述以及成绩等级,将这些信息作为数据名称,这些数据名称对应的信息为数据值,其中数据值的数据类型可以包括数字整型、文字等,此处不做限定。
S102:根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识。
本实施例中预设有名称标识对应表,其中包括各个表格数据包含的数据名称及其对应的数据标识。本实施例中的数据名称用于表示表格数据中的数据的名称,而数据标识用于表示各个数据在数据库中的存储标识,两者时间是一一对应的关系。并且,在本实施例中,数据名称的形式可以是中文、英文或者编号的形式等,数据标识的形式可以是英文或者编号的形式等。
在获取到待处理的表格数据之后,根据预设的名称标识对应表,确定数据名称在预设的数据库中所对应的目标数据标识。具体的确定目标数据标识的方式可以是,在名称标识对应表中与查询数据名称对应的表格名称,其对应的方式可以是计算相似度或者匹配度的方式,来确定数据名称对应的表格名称。
S104:若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识。
本实施例中预设有名称标识对应表,其中包括各个表格数据包含的数据名称及其对应的数据标识。本实施例中的数据名称用于表示表格数据中的数据的名称,而数据标识用于表示各个数据在数据库中的存储标识,两者时间是一一对应的关系。并且,在本实施例中,数据名称的形式可以是中文、英文或者编号的形式等,数据标识的形式可以是英文或者编号的形式等。
可选的,在通过名称标识对应表获取到与数据名称对应的数据标识之后,通过计算数据名称和数据标识之间的相似度,来确定与数据名称对应的目标数据标识。示例性地,在计算文字之间的相似度的时候,可以将数据名称转化成字符串的形式,字符串有字符构成,只要比较比较数据名称和数据标识两个字符串中每一个字符是否相等便知道两个字符串是否相等,或者更简单一点将每一个字符串通过哈希函数映射为一个哈希值,然后进行比较。对于相似性的度量其只需要两种便可以解决,0表示不相似,1标识相似,哪怕两个字符串只有一个字符不相等也是不相似的情况。
S104:将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。
在根据数据名称确定了其在数据库中的目标数据标识之后,根据目标数据标识及其对应的数据值,构建数据库表,并将数据库表导入数据库中。本实施例中的数据库表是一系列二维数组的集合,用来代表和储存数据对象之间的关系,它由纵向的列和横向的行组成。
示例性地,在一个有关作者信息的名为“authors”的表中,每个列包含的是所有作者的某个特定类型的信息,比如“姓氏”,而每行则包含了某个特定作者的所有信息:姓、名、住址等等。对于特定的数据库表,列的数目一般事先固定,各列之间可以由列名来识别。而行的数目可以随时、动态变化,每行可以根据某几个列中的数据来识别。
上述方案,通过获取待处理的表格数据;所述表格数据包括数据名称和数据值;根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识;若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识;将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。通过根据数据名称在预设的数据库中确定对应的数据标识,将数据值导入对应的数据标识中,提高了表格数据导入数据库的效率,也降低了数据导入过程中的错误率。
参见图2,图2是本发明实施例二提供的数据导入方法的流程图。本实施例中数据导入方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端,还可以是台式电脑等。如图所示的数据导入方法可以包括以下步骤:
S201:获取待处理的表格数据;所述表格数据包括数据名称和数据值。
在本实施例中S201与图1对应的实施例中S101的实现方式完全相同,具体可参考图1对应的实施例中的S101的相关描述,在此不再赘述。
S202:根据预设的冗余数据名称,将所述表格数据中数据名称与所述冗余数据名称匹配的数据识别为冗余数据;和/或
根据所述表格数据中的数据名称确定所述表格数据的数据类型,并根据预设的冗余数据类型,将所述表格数据中数据类型与所述冗余数据类型匹配的数据识别为冗余数据。
由于表格数据中可能还存储一些冗余数据,例如重复数据、发生错误的数据或者数据项不完整的数据,这种情况下可以对表格数据进行识别,确定其中的冗余数据,以及这些冗余数据的数据类型,还可以确定这些冗余数据的冗余原因,通过这些信息以及预设的不同类型或者不同原因对应的数据处理方式。
本实施例中确定冗余数据的方式可以是通过数据名称来确定,也可是通过表格数据的数据类型来确定。这两个方式可以是二者择一的方式,也可是两个都并列进行的方式,此处不做限定。
本实施例中预设有冗余数据名称和冗余数据类型,其中,冗余数据名称用于表示已经预先确定的冗余数据的数据名称,只要表格数据的数据名称为预设的冗余数据名称,则该数据名称对应的表格数据就是冗余数据;冗余数据类型用于表示已经预先确定的冗余数据的数据类型,只要表格数据的数据类型为预设的冗余数据类型,则该数据类型对应的表格数据就是冗余数据。
在根据表格数据的数据名称确定冗余数据时,将表格数据中数据名称与冗余数据名称匹配的数据识别为冗余数据;和/或根据表格数据中的数据名称确定表格数据的数据类型,并根据预设的冗余数据类型,将表格数据中数据类型与冗余数据类型匹配的数据识别为冗余数据。
S203:根据所述冗余数据的数据类型和预设的数据处理方式,对所述冗余数据进行处理;所述数据处理方式包括针对不同数据类型的冗余数据进行删除或者修改。
由于已经确定表格数据对应的数据类型,以及表格数据中的冗余数据,便可直接得到冗余数据的数据类型。本实施例中针对不同的冗余数据的数据类型设定了对应的数据处理方式,可以根据数据冗余信息对冗余数据进行清洗、删除、修改等处理,在保证表格数据完整性的情况下提高数据有效性,进而提高数据处理效率。
示例性地,当数据类型不在预设的所需数据类型的范围内时,可以对非必须数据类型对应的数据进行数据清洗;当某数据类型中的数据出现错误时,可以对出现错误的数据删除或者修改等处理,此处不做限定。由于很多情况下表格中都存储数据格式问题,例如表格数据中的空格或者换行等,这些格式将会影响数据导入时的字段位置对应,因此,可以自动识别表格数据中的数据格式,将不符合预设格式规定的空格或者换行删除,或者,还可以根据预设格式规定统一修改表格数据中的数据格式,通过这种方式,可以通过表格数据的数据格式,提高数据识别和数据导出的准确性。
S204:根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识。
在确定数据名称之后,根据数据名称在预设的数据库中确定对应的数据标识。以通过这些数据标识来生成与原表格数据对应的数据库表单。
可选的,本方案中预设有数据名称和数据标识的对象表,可以通过该对应表来直接查找到数据名称对应的数据标识,并且,如果数据库中没有该数据名称对应的数据标识,就需要根据数据名称新建数据名称对应的数据标识。其新建的方法可以通过人为设定的方式,也可以通过预设的名称词条库来确定当前的数据名称所对应的数据标识,并且,通过这种方式可以统一数据的标识方式,能通过简单的规则确定某个数据类型对应的标识,也能通过数据标识确定该数据标识所标识的数据类型。
示例性地,基于步骤S101中的示例,通过识别姓名、年龄、性别、个人描述以及成绩等级的英文名称,对应得到的数据标识分别为:ID、NAME、AGE、SEX、DESC以及GRADE。
S205:若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识。
若在所述名称标识对应表中未查找到所述数据名称在数据库中对应的目标数据标识,则获取所述名称标识对应表中的各个数据标识,并通过相似度匹配的方式确定数据名称对应的目标数据标识。
进一步的,步骤S205可以具体包括步骤S2051~S2053:
S2051:若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则获取所述名称标识对应表中的各个数据标识。
本实施例中预设有名称标识对应表,其中包括各个表格数据包含的数据名称及其对应的数据标识。本实施例中的数据名称用于表示表格数据中的数据的名称,而数据标识用于表示各个数据在数据库中的存储标识,两者时间是一一对应的关系。并且,在本实施例中,数据名称的形式可以是中文、英文或者编号的形式等,数据标识的形式可以是英文或者编号的形式等。
S2052:计算所述名称标识对应表中各个数据标识与所述数据名称之间的相似度。
在通过名称标识对应表获取到与数据名称对应的数据标识之后,通过计算数据名称和数据标识之间的相似度,来确定与数据名称对应的目标数据标识。
可选的,在计算文字之间的相似度的时候,可以将数据名称转化成字符串的形式,字符串有字符构成,只要比较比较数据名称和数据标识两个字符串中每一个字符是否相等便知道两个字符串是否相等,或者更简单一点将每一个字符串通过哈希函数映射为一个哈希值,然后进行比较。对于相似性的度量其只需要两种便可以解决,0表示不相似,1标识相似,哪怕两个字符串只有一个字符不相等也是不相似的情况。
S2053:识别所述相似度最大、且所述相似度大于预设阈值时对应的数据标识为所述目标数据标识。
在计算得到数据名称与各个数据标识之间的相似度之后,识别处相似度最大,且相似度大于预设阈值时的数据标识为目标数据标识。具体的,本实施例中预先设置有预设的相似度阈值,用于衡量相似度的大小,本实施例中的相似度只有在大于该预设阈值,并且在计算出的相似度最大的情况下,才能将该相似度对应的数据标识识别为目标数据标识。
进一步的,步骤S2053之后,还可以包括步骤S2054~S2055:
S2054:若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,则在所述数据库中识别出所述数据名称对应的目标数据标识。
若计算得到的所有相似度都小于预设的相似度阈值,则说明在名称标识对应表中找不到与数据名称对应的数据标识,所有的数据标识都不能匹配对应当前的数据名称,这种情况下,在数据库中识别与数据名称对应的目标数据标识。
需要说明的是,本实施例中的名称标识对应表在本实施例中起到的是数据名称与数据标识对应起来的检索查询的作用,其中的对应关系可以是预先设定的,用于表示固定的数据名称和数据标识之间的对应关系。而本实施例中的数据库中包括了各种类型的数据及其数据标识,数据库中的数据标识是最完备,且数据库中的数据标识包含了名称标识对应表中的数据标识。之所以在名称标识对应表中先识别与数据名称匹配的数据标识,是因为直接在名称标识对应表中查询的效率较高,而数据库中的数据繁杂、数据类型较多,在其中查找数据名称对应的数据标识则需要耗费较多的时间和成本。
进一步的,步骤S2054可以包括步骤:若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,且,所述数据名称为中文名称,则将所述数据名称翻译为英文名称;计算所述英文名称与所述数据库中的所有数据标识之间的相似度;识别相似度最高时的数据标识为所述目标数据标识。
具体的,若所有数据标识与数据名称之间的相似度都小于预设阈值,且,数据名称为中文名称,则将数据名称翻译为英文名称。计算英文名称和数据库中的数据标识之间的相似度时,可以通过以下公式来计算两者之间的相似度:其中,char1,char2分别用于表示英文名称和数据标识,P(·)用于表示两者的相似概率,最后识别相似度最高时的数据标识为目标数据标识。
S2055:若在所述数据库中未查找到所述数据名称对应的目标数据标识,则根据所述数据名称新建所述目标数据标识。
若在数据库中,则说明当前的数据库中没有存储该数据名称对应的数据,这种情况下根据数据名称新建目标数据标识。其新建的方式可以是通过将中文的数据名称进行翻译,最后挑选关键词部分,得到目标数据标识。
S206:将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。
将处理之后的数据及其数据标识生成数据库表,并将数据库表导入数据库中。具体的,可以先将数据及其数据标识生成临时表,再使用SQL将临时表数据添加到正式表,将临时表数据添加到正式表的SQL如下:
INSERT INTO"STUDENT"
SELECT sys_guid(),"NAME","AGE","SEX","DESC","GRADE"
FROM"STUDENT_TEMP"
需要说明的是,如果有较复杂的数据处理需要编写简单的java程序或其他语言程序处理下,这里就不在举例说明。
上述方案,通过获取待处理的表格数据;所述表格数据包括数据名称和数据值;根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识;若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识;根据预设的冗余数据名称和预设的冗余数据类型,将所述表格数据中与所述冗余数据名称匹配的数据,或者与所述冗余数据类型匹配的数据识别为冗余数据;根据所述冗余数据的数据类型和预设的数据处理方式,对所述冗余数据进行处理;所述数据处理方式包括针对不同数据类型的冗余数据进行删除或者修改。将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。通过获取待处理的表格数据中的数据名称和数据值,根据数据名称在预设的数据库中确定对应的数据标识,并对冗余数据进行清洗、删除或者修改等处理,将数据值导入对应的数据标识中,提高了表格数据导入数据库的效率,也降低了数据导入过程中的错误率。
参见图3,图3是本发明实施例三提供的一种终端设备的示意图。终端设备包括的各单元用于执行图1~图2对应的实施例中的各步骤。具体请参阅图1~图2各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。本实施例的终端设备300包括:
获取单元301,用于获取待处理的表格数据;所述表格数据包括数据名称和数据值;
标识单元302,用于根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识;
匹配单元303,用于若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识;
导入单元304,用于将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。
进一步的,所述匹配单元303可以包括:
表格获取单元,用于若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则获取所述名称标识对应表中的各个数据标识;
计算单元,用于计算所述名称标识对应表中各个数据标识与所述数据名称之间的相似度;
第一识别单元,用于识别所述相似度最大、且所述相似度大于预设阈值时对应的数据标识为所述目标数据标识。
进一步的,所述终端设备还可以包括:
第二识别单元,用于若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,则在所述数据库中识别出所述数据名称对应的目标数据标识;
目标创建单元,用于若在所述数据库中未查找到所述数据名称对应的目标数据标识,则根据所述数据名称新建所述目标数据标识。
进一步的,所述数据库识别单元可以包括:
名称翻译单元,用于若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,且,所述数据名称为中文名称,则将所述数据名称翻译为英文名称;
相似度计算单元,用于计算所述英文名称与所述数据库中的所有数据标识之间的相似度;
第三识别单元,用于识别相似度最高时的数据标识为所述目标数据标识。
进一步的,所述终端设备还可以包括:
第四识别单元,用于根据预设的冗余数据名称,将所述表格数据中数据名称与所述冗余数据名称匹配的数据识别为冗余数据;和/或:
根据所述表格数据中的数据名称确定所述表格数据的数据类型,并根据预设的冗余数据类型,将所述表格数据中数据类型与所述冗余数据类型匹配的数据识别为冗余数据。
冗余处理单元,用于根据所述冗余数据的数据类型和预设的数据处理方式,对所述冗余数据进行处理;所述数据处理方式包括针对不同数据类型的冗余数据进行删除或者修改。
上述方案,通过获取待处理的表格数据;所述表格数据包括数据名称和数据值;根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识;根据预设的冗余数据名称和预设的冗余数据类型,将所述表格数据中与所述冗余数据名称匹配的数据,或者与所述冗余数据类型匹配的数据识别为冗余数据;根据所述冗余数据的数据类型和预设的数据处理方式,对所述冗余数据进行处理;所述数据处理方式包括针对不同数据类型的冗余数据进行删除或者修改。将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中。通过获取待处理的表格数据中的数据名称和数据值,根据数据名称在预设的数据库中确定对应的数据标识,并对冗余数据进行清洗、删除或者修改等处理,将数据值导入对应的数据标识中,提高了表格数据导入数据库的效率,也降低了数据导入过程中的错误率。
图4是本发明实施例四提供的终端设备的示意图。如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个数据导入方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示单元301至303的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。
所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card,FC)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (5)
1.一种数据导入方法,其特征在于,包括:
获取待处理的表格数据;所述表格数据包括数据名称和数据值;
根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识,所述数据标识表示各个数据在数据库中的存储标识;
若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识;
将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中;
所述若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识,包括:
若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则获取所述名称标识对应表中的各个数据标识;
计算所述名称标识对应表中各个数据标识与所述数据名称之间的相似度;
识别所述相似度最大、且所述相似度大于预设阈值时对应的数据标识为所述目标数据标识;
所述识别所述相似度最大、且所述相似度大于预设阈值时对应的数据标识为所述目标数据标识之后,还包括:
若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,则在所述数据库中识别出所述数据名称对应的目标数据标识;
若在所述数据库中未查找到所述数据名称对应的目标数据标识,则根据所述数据名称新建所述目标数据标识;
所述若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,则在所述数据库中识别出所述数据名称对应的目标数据标识,包括:
若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,且,所述数据名称为中文名称,则将所述数据名称翻译为英文名称;
计算所述英文名称与所述数据库中的所有数据标识之间的相似度;
识别相似度最高时的数据标识为所述目标数据标识;
其中,计算英文名称和数据库中的数据标识之间的相似度时,通过以下公式来计算两者之间的相似度:
;
分别用于表示英文名称和数据标识,/>用于表示两者的相似概率。
2.如权利要求1所述的数据导入方法,其特征在于,所述将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中之前,还包括:
根据预设的冗余数据名称,将所述表格数据中数据名称与所述冗余数据名称匹配的数据识别为冗余数据;和/或:
根据所述表格数据中的数据名称确定所述表格数据的数据类型,并根据预设的冗余数据类型,将所述表格数据中数据类型与所述冗余数据类型匹配的数据识别为冗余数据;
根据所述冗余数据的数据类型和预设的数据处理方式,对所述冗余数据进行处理;所述数据处理方式包括针对不同数据类型的冗余数据进行删除或者修改。
3.一种终端设备,其特征在于,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如下步骤:
获取待处理的表格数据;所述表格数据包括数据名称和数据值;
根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识,所述数据标识表示各个数据在数据库中的存储标识;
若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识;
将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中;
所述若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识,包括:
若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则获取所述名称标识对应表中的各个数据标识;
计算所述名称标识对应表中各个数据标识与所述数据名称之间的相似度;
识别所述相似度最大、且所述相似度大于预设阈值时对应的数据标识为所述目标数据标识;
所述识别所述相似度最大、且所述相似度大于预设阈值时对应的数据标识为所述目标数据标识之后,还包括:
若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,则在所述数据库中识别出所述数据名称对应的目标数据标识;
若在所述数据库中未查找到所述数据名称对应的目标数据标识,则根据所述数据名称新建所述目标数据标识;
所述若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,则在所述数据库中识别出所述数据名称对应的目标数据标识,包括:
若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,且,所述数据名称为中文名称,则将所述数据名称翻译为英文名称;
计算所述英文名称与所述数据库中的所有数据标识之间的相似度;
识别相似度最高时的数据标识为所述目标数据标识;
其中,计算英文名称和数据库中的数据标识之间的相似度时,通过以下公式来计算两者之间的相似度:
;
分别用于表示英文名称和数据标识,/>用于表示两者的相似概率。
4.一种终端设备,其特征在于,包括:
获取单元,用于获取待处理的表格数据;所述表格数据包括数据名称和数据值;
标识单元,用于根据预设的名称标识对应表,查找所述数据名称在预设的数据库中所对应的目标数据标识;所述名称标识对应表包括各个表格数据包含的数据名称及其对应的数据标识,所述数据标识表示各个数据在数据库中的存储标识;
匹配单元,用于若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则根据所述名称标识对应表中各个数据标识与所述数据名称之间的相似度,确定与所述数据名称匹配的目标数据标识;
导入单元,用于将所述目标数据标识及其对应的所述数据值输入预设的数据库表模板中,构建数据库表,并将所述数据库表导入所述数据库中;
所述匹配单元包括:
表格获取单元,用于若在所述名称标识对应表中未查找到所述数据名称在所述数据库中对应的目标数据标识,则获取所述名称标识对应表中的各个数据标识;
计算单元,用于计算所述名称标识对应表中各个数据标识与所述数据名称之间的相似度;
第一识别单元,用于识别所述相似度最大、且所述相似度大于预设阈值时对应的数据标识为所述目标数据标识;
所述终端设备还包括:
第二识别单元,用于若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,则在所述数据库中识别出所述数据名称对应的目标数据标识;
目标创建单元,用于若在所述数据库中未查找到所述数据名称对应的目标数据标识,则根据所述数据名称新建所述目标数据标识;
所述第二识别单元包括:
名称翻译单元,用于若所有所述数据标识与所述数据名称之间的相似度都小于所述预设阈值,且,所述数据名称为中文名称,则将所述数据名称翻译为英文名称;
相似度计算单元,用于计算所述英文名称与所述数据库中的所有数据标识之间的相似度;
第三识别单元,用于识别相似度最高时的数据标识为所述目标数据标识;
其中,计算英文名称和数据库中的数据标识之间的相似度时,通过以下公式来计算两者之间的相似度:
;
分别用于表示英文名称和数据标识,/>用于表示两者的相似概率。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1或2所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910625317.7A CN110471901B (zh) | 2019-07-11 | 2019-07-11 | 数据导入方法及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910625317.7A CN110471901B (zh) | 2019-07-11 | 2019-07-11 | 数据导入方法及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110471901A CN110471901A (zh) | 2019-11-19 |
CN110471901B true CN110471901B (zh) | 2024-05-07 |
Family
ID=68508006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910625317.7A Active CN110471901B (zh) | 2019-07-11 | 2019-07-11 | 数据导入方法及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110471901B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279542A (zh) * | 2013-06-05 | 2013-09-04 | 中国电子科技集团公司第十五研究所 | 数据导入处理方法及数据处理装置 |
CN103885937A (zh) * | 2014-04-14 | 2014-06-25 | 焦点科技股份有限公司 | 基于核心词相似度判断企业中文名称重复的方法 |
CN105718453A (zh) * | 2014-12-01 | 2016-06-29 | 金蝶软件(中国)有限公司 | 数据导入的方法和系统 |
CN109635017A (zh) * | 2018-10-16 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 业务数据导入方法、装置、设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228083A (zh) * | 2016-12-21 | 2018-06-29 | 伊姆西Ip控股有限责任公司 | 用于数据去重的方法和设备 |
-
2019
- 2019-07-11 CN CN201910625317.7A patent/CN110471901B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279542A (zh) * | 2013-06-05 | 2013-09-04 | 中国电子科技集团公司第十五研究所 | 数据导入处理方法及数据处理装置 |
CN103885937A (zh) * | 2014-04-14 | 2014-06-25 | 焦点科技股份有限公司 | 基于核心词相似度判断企业中文名称重复的方法 |
CN105718453A (zh) * | 2014-12-01 | 2016-06-29 | 金蝶软件(中国)有限公司 | 数据导入的方法和系统 |
CN109635017A (zh) * | 2018-10-16 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 业务数据导入方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110471901A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679144B (zh) | 基于语义相似度的新闻语句聚类方法、装置及存储介质 | |
CN110019474B (zh) | 异构数据库中的同义数据自动关联方法、装置及电子设备 | |
CN108090068B (zh) | 医院数据库中的表的分类方法及装置 | |
CN111258966A (zh) | 一种数据去重方法、装置、设备及存储介质 | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN112256721A (zh) | Sql语句解析方法、系统、计算机设备和存储介质 | |
CN110413751B (zh) | 药品搜索方法、装置、终端设备以及存储介质 | |
US9298757B1 (en) | Determining similarity of linguistic objects | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN111785383B (zh) | 数据处理方法及相关设备 | |
CN109857736A (zh) | 医院异构系统的数据编码统一化方法及系统、设备、介质 | |
US10331717B2 (en) | Method and apparatus for determining similar document set to target document from a plurality of documents | |
CN114330335B (zh) | 关键词抽取方法、装置、设备及存储介质 | |
WO2022105497A1 (zh) | 文本筛选方法、装置、设备及存储介质 | |
CN112035480A (zh) | 数据表管理方法、装置、设备及存储介质 | |
CN115114420A (zh) | 一种知识图谱问答方法、终端设备及存储介质 | |
CN114238334A (zh) | 异构数据编码、解码方法和装置、计算机设备和存储介质 | |
CN114969385B (zh) | 基于文档属性赋值实体权重的知识图谱优化方法及装置 | |
CN110471901B (zh) | 数据导入方法及终端设备 | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
EP4024226A1 (en) | Query tree labeling and processing | |
WO2022198747A1 (zh) | 三元组信息的抽取方法、装置、电子设备和存储介质 | |
CN114741489A (zh) | 文档检索方法、装置、存储介质以及电子设备 | |
CN112307070A (zh) | 掩码数据查询方法、装置及设备 | |
US11003647B2 (en) | Multidimensional data management system and multidimensional data management method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |