CN111177133A - 一种对多元数据的处理插入方法 - Google Patents

一种对多元数据的处理插入方法 Download PDF

Info

Publication number
CN111177133A
CN111177133A CN201911343794.0A CN201911343794A CN111177133A CN 111177133 A CN111177133 A CN 111177133A CN 201911343794 A CN201911343794 A CN 201911343794A CN 111177133 A CN111177133 A CN 111177133A
Authority
CN
China
Prior art keywords
data
database
key
splitting
multivariate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911343794.0A
Other languages
English (en)
Inventor
崔晶晶
刘杰文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Original Assignee
Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd filed Critical Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Priority to CN201911343794.0A priority Critical patent/CN111177133A/zh
Publication of CN111177133A publication Critical patent/CN111177133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种对多元数据的处理插入方法,包括:步骤S1,发布公开的数据接口;步骤S2,接收各方通过所述公开的数据接口发送来的数据;步骤S3,将各方发送来的数据进行数据格式化,转换为统一的格式;步骤S4,对格式化后的数据进行数据清洗,以过滤掉无用数据;步骤S5,对清洗后的数据进行拆分重组,分别插入至相应的数据库中。通过本发明对数据库进行添加操作,使得所有流程工作交给了程序完成,不仅减少了操作时间,同时也增加了数据的可靠稳定性。

Description

一种对多元数据的处理插入方法
技术领域
本发明涉及知识图谱领域,特别涉及一种对多元数据的处理插入方法。
背景技术
在任何软件项目中,对数据库的增删改查是必不可少的基本操作。但是在某些项目中,根据甲方要求不能有对数据的添加页面。这使得项目对实现添加操作变得更繁琐,甲方想要对数据添加操作,只能另聘图谱中涉及的数据库的操作人员,来专门进行对数据库的添加操作,但是在整个项目中,很少只涉及到一个数据库,大多数情况都是多库联合使用,也就有可能需要聘请多名数据库操作人员,增大了甲方的开销,浪费了资源。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种对多元数据的处理插入方法。
为了实现上述目的,本发明的实施例提供一种对多元数据的处理插入方法,包括如下步骤:
步骤S1,发布公开的数据接口;
步骤S2,接收各方通过所述公开的数据接口发送来的数据,将所接收的数据统一以一个Key值存到Redis数据库中,以便后期对数据的提取;
步骤S3,将各方发送来的数据进行数据格式化,转换为统一的格式;
步骤S4,对格式化后的数据进行数据清洗,以过滤掉无用数据,包括:以当前的字段表为基准,遍历数据中所有的Key,当此key在字段表中存在,则说明当前数据为可用数据,如果此key并不在字段表中,则说明当前键值对为无用数据,滤除掉并留下可用数据;
步骤S5,对清洗后的数据进行拆分重组,分别插入至相应的数据库中。
进一步,所述统一的格式为:单数位为属性名,双数位为属性值,提取所有信息,以Key-value的格式存储。
进一步,所述对格式化后的数据进数据清洗,包括:从预设数据库中提取所有属性字段,并作为基准字段,将步骤S2中格式化后的数据与所述基准字段进行对比,将未存在于所述基准字段中属性的数据进行过滤。
进一步,对所述清洗后的数据进行拆分重组,包括:对清洗后保留的数据以键值对的形式对应传输,多组键值对之间通过预设符号相分隔,在进行拆分时,通过以所述预设符号为分割符进行拆分,根据对应的字段信息插入到相应的数据库中。
进一步,所述相应的数据库包括:图数据库、ES数据库和Mysql数据库;
其中,将过滤后的数据,分别以MySQL、图数据库、ES数据库和Mysql数据库中的字段为基准,进行数据拆分,区分数据流向。
进一步,在所述步骤S1中,采用http方式或webService方式发布公开的接口。
进一步,在所述步骤S3中,将存放到Redis数据库中的数据提取出来,去除多余的包装符号。
根据本发明实施例的对多元数据的处理插入方法,提供一种跨编程语言和跨操作系统平台的远程调用技术来接收多元数据的处理,实现远程对数据库的添加操作,减少了甲方人力、财力的开销,降低成本。通过本发明对数据库进行添加操作,使得所有流程工作交给了程序完成,不仅减少了操作时间,同时也增加了数据的可靠稳定性,减少了人工在进行插入的时候出现漏输、错输的情况,同时也减少了甲方对人员的开销,节约了资源,降低了成本。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的对多元数据的处理插入方法的流程图;
图2为根据本发明实施例的一种对多元数据的处理系统的流程图与原始人工添加对比示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如图1所示,本发明实施例的对多元数据的处理插入方法,包括如下步骤:
步骤S1,发布公开的数据接口。
在步骤S1中,采用http方式或webService方式发布公开的接口。需要说明的是,发布公开的数据接口的方式不限于上述两种,还可以采用其他方式,在此不再赘述。
步骤S2,接收各方通过公开的数据接口发送来的数据,将所接收的数据统一以一个Key值存到Redis数据库中,以便后期对数据的提取。
步骤S3,将各方发送来的数据进行数据格式化,转换为统一的格式。
具体的,将存放到Redis数据库中的数据提取出来,去除多余的包装符号,例如:、{}等。首先,对数据的格式化处理,转换成同一规定的格式。由于发送数据方发送数据时,必定会以“属性名,属性值”的形式存放数据,因此本发明中,将数据转换为统一的格式为:单数位为属性名,双数位为属性值,提取所有信息,以Key-value的格式存储。
步骤S4,对格式化后的数据进行数据清洗,以过滤掉无用数据。
对格式化后的数据进数据清洗,包括:从预设数据库中提取所有属性字段,并作为基准字段,将步骤S2中格式化后的数据与基准字段进行对比,将未存在于基准字段中属性的数据进行过滤,筛选出有用的数据。
具体的,以当前的字段表为基准,遍历数据中所有的Key,当此key在字段表中存在,则说明当前数据为可用数据,如果此key并不在字段表中,则说明当前键值对为无用数据,滤除掉并留下可用数据。
步骤S5,对清洗后的数据进行拆分重组,分别插入至相应的数据库中。
在本步骤中,由于在接收到的数据信息中夹杂着众多的属性信息,这些信息需要一一对应起来。对清洗后的数据进行拆分重组,包括:对清洗后保留的数据以键值对的形式对应传输,多组键值对之间通过预设符号相分隔,在进行拆分时,通过以预设符号为分割符进行拆分,根据对应的字段信息插入到相应的数据库中。并存放到每个相应的实体类对象中,最后直接调用插入方法即可,
在本发明的一个实施例中,预设符号可以为逗号、句号、分号等。根据用户需要进行设置。
在本发明的实施例中,相应的数据库包括:图数据库、ES数据库和Mysql数据库。其中,将过滤后的数据,分别以MySQL、图数据库、ES数据库和Mysql数据库中的字段为基准,进行数据拆分,区分数据流向。
参考图2,传统的手动添加方式中,在原始的插入中,由于项目没有前端添加页面操作,这也就使得若想对数据库进行插入操作只能由相应的数据库的开发人员专门来进行操作,如果其中涉及到多组数据库,还需要聘请多名人员来处理。同时加大了开销,浪费了资源,使用此系统,通过对外发布一个借口用来接收所要插入的信息,经过数据的格式化、筛选、最后进行插入到相应的数据库中。
根据本发明实施例的对多元数据的处理插入方法,提供一种跨编程语言和跨操作系统平台的远程调用技术来接收多元数据的处理,实现远程对数据库的添加操作,减少了甲方人力、财力的开销,降低成本。通过本发明对数据库进行添加操作,使得所有流程工作交给了程序完成,不仅减少了操作时间,同时也增加了数据的可靠稳定性,减少了人工在进行插入的时候出现漏输、错输的情况,同时也减少了甲方对人员的开销,节约了资源,降低了成本。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (7)

1.一种对多元数据的处理插入方法,其特征在于,包括如下步骤:
步骤S1,发布公开的数据接口;
步骤S2,接收各方通过所述公开的数据接口发送来的数据,将所接收的数据统一以一个Key值存到Redis数据库中,以便后期对数据的提取;
步骤S3,将各方发送来的数据进行数据格式化,转换为统一的格式;
步骤S4,对格式化后的数据进行数据清洗,以过滤掉无用数据,包括:以当前的字段表为基准,遍历数据中所有的Key,当此key在字段表中存在,则说明当前数据为可用数据,如果此key并不在字段表中,则说明当前键值对为无用数据,滤除掉并留下可用数据;
步骤S5,对清洗后的数据进行拆分重组,分别插入至相应的数据库中。
2.如权利要求1所述的对多元数据的处理插入方法,其特征在于,在所述步骤S3中,所述统一的格式为:单数位为属性名,双数位为属性值,提取所有信息,以Key-value的格式存储。
3.如权利要求1所述的对多元数据的处理插入方法,其特征在于,在所述步骤S4中,所述对格式化后的数据进数据清洗,包括:从预设数据库中提取所有属性字段,并作为基准字段,将步骤S2中格式化后的数据与所述基准字段进行对比,将未存在于所述基准字段中属性的数据进行过滤。
4.如权利要求1所述的对多元数据的处理插入方法,其特征在于,在所述步骤S5中,对所述清洗后的数据进行拆分重组,包括:对清洗后保留的数据以键值对的形式对应传输,多组键值对之间通过预设符号相分隔,在进行拆分时,通过以所述预设符号为分割符进行拆分,根据对应的字段信息插入到相应的数据库中。
5.如权利要求1或4所述的对多元数据的处理插入方法,其特征在于,在所述步骤S5中,所述相应的数据库包括:图数据库、ES数据库和Mysql数据库;
其中,将过滤后的数据,分别以MySQL、图数据库、ES数据库和Mysql数据库中的字段为基准,进行数据拆分,区分数据流向。
6.如权利要求1所述的对多元数据的处理插入方法,其特征在于,在所述步骤S1中,采用http方式或webService方式发布公开的接口。
7.如权利要求1所述的对多元数据的处理插入方法,其特征在于,在所述步骤S3中,将存放到Redis数据库中的数据提取出来,去除多余的包装符号。
CN201911343794.0A 2019-12-24 2019-12-24 一种对多元数据的处理插入方法 Pending CN111177133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911343794.0A CN111177133A (zh) 2019-12-24 2019-12-24 一种对多元数据的处理插入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911343794.0A CN111177133A (zh) 2019-12-24 2019-12-24 一种对多元数据的处理插入方法

Publications (1)

Publication Number Publication Date
CN111177133A true CN111177133A (zh) 2020-05-19

Family

ID=70654005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911343794.0A Pending CN111177133A (zh) 2019-12-24 2019-12-24 一种对多元数据的处理插入方法

Country Status (1)

Country Link
CN (1) CN111177133A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860674A (zh) * 2021-01-29 2021-05-28 北京译泰教育科技有限公司 数据共享方法及系统
CN113034728A (zh) * 2021-02-26 2021-06-25 北京车和家信息技术有限公司 告警处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571861A (zh) * 2008-04-29 2009-11-04 阿里巴巴集团控股有限公司 一种对数据表进行转换的方法及装置
CN106126692A (zh) * 2016-06-29 2016-11-16 北京奇虎科技有限公司 一种样本数据的搜索方法和装置
CN109299183A (zh) * 2018-11-20 2019-02-01 北京锐安科技有限公司 一种数据处理方法、装置、终端设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571861A (zh) * 2008-04-29 2009-11-04 阿里巴巴集团控股有限公司 一种对数据表进行转换的方法及装置
CN106126692A (zh) * 2016-06-29 2016-11-16 北京奇虎科技有限公司 一种样本数据的搜索方法和装置
CN109299183A (zh) * 2018-11-20 2019-02-01 北京锐安科技有限公司 一种数据处理方法、装置、终端设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晓伟: ""面向大数据的ETL设计与实现"", 《CNKI》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860674A (zh) * 2021-01-29 2021-05-28 北京译泰教育科技有限公司 数据共享方法及系统
CN113034728A (zh) * 2021-02-26 2021-06-25 北京车和家信息技术有限公司 告警处理方法和装置

Similar Documents

Publication Publication Date Title
US7941524B2 (en) System and method for collecting and storing event data from distributed transactional applications
CN106407407B (zh) 一种文件标注系统及方法
CN103927314B (zh) 一种数据批量处理的方法和装置
CN103733195A (zh) 管理用于基于范围的搜索的数据的存储
CN101772760B (zh) 计算机执行方法以及计算机执行装置
CN110941629B (zh) 元数据处理方法、装置、设备及计算机可读存储介质
CN108446391A (zh) 数据的处理方法、装置、电子设备和计算机可读介质
CN103365852A (zh) 一种文档库系统中的并发控制方法及系统
CN111177133A (zh) 一种对多元数据的处理插入方法
CN109445794B (zh) 一种页面构造方法及装置
WO2022048422A1 (zh) 数据处理的方法、装置、设备及存储介质
CN103020318A (zh) 一种对数据库中数据库表维护的方法
CN111221698A (zh) 任务数据采集方法与装置
CN110119422B (zh) 小微信贷租户数据仓库数据处理系统及设备
CN108108478B (zh) 数据格式转换方法、系统及电子设备
CN107766519B (zh) 一种可视化配置数据结构的方法
CN102486731B (zh) 增强软件的软件调用栈的可视化的方法、设备和系统
CN111552713A (zh) 一种数据校验方法及装置
CN116450655A (zh) 树形结构数据处理方法、装置、电子设备及存储介质
CN110727565B (zh) 一种网络设备平台信息收集方法及系统
CN106469086B (zh) 事件处理方法和装置
CN107491530B (zh) 一种基于文件自动标记信息的社会关系挖掘分析方法
CN112835934B (zh) 查询信息采集方法、装置、电子设备和存储介质
CN114722045A (zh) 时间序列数据的存储方法及装置
CN107291574B (zh) 基于解释系统的备份数据恢复主键生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination