CN110851519A - 基于nlp自然语言通过etl工具进行数据处理的方法 - Google Patents

基于nlp自然语言通过etl工具进行数据处理的方法 Download PDF

Info

Publication number
CN110851519A
CN110851519A CN201911127969.4A CN201911127969A CN110851519A CN 110851519 A CN110851519 A CN 110851519A CN 201911127969 A CN201911127969 A CN 201911127969A CN 110851519 A CN110851519 A CN 110851519A
Authority
CN
China
Prior art keywords
data
etl
learning model
nlp
nlp natural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911127969.4A
Other languages
English (en)
Inventor
程永新
谢涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai New Torch Network Information Technology Ltd By Share Ltd
Original Assignee
Shanghai New Torch Network Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai New Torch Network Information Technology Ltd By Share Ltd filed Critical Shanghai New Torch Network Information Technology Ltd By Share Ltd
Priority to CN201911127969.4A priority Critical patent/CN110851519A/zh
Publication of CN110851519A publication Critical patent/CN110851519A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于NLP自然语言通过ETL工具进行数据处理的方法,包括如下步骤:S1:创建并训练NLP自然学习模型;S2:采集非结构化数据;S3:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别并生成正则表达式;S4:将生成正则表达式作为新的ETL规则加入ETL规则库得到更新后的ETL规则库;S5:通过ETL工具根据更新后的ETL规则库对非结构化数据进行结构化。本发明的NLP模型能自行识别新的业务数据、并根据新的业务数据生成相应的识别规则,把识别规则更新到ETL工具中,使ETL工具能快速适应业务变化,对新的业务数据进行结构化,提高了系统的稳定性,并更快地处理业务变更,提高工作效率,降低人员工作量和维护成本。

Description

基于NLP自然语言通过ETL工具进行数据处理的方法
技术领域
本发明涉及一种数据处理方法,尤其涉及一种基于NLP自然语言通过ETL工具进行数据处理的方法。
背景技术
NLP(Natural Language Processing)是人工智能(AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、交互转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
现有的ETL技术中,大多是利用已有规则对非结构化数据进行结构化,当出现新的规则数据,已有的识别方法均无法快速进行识别并且进行结构化。现在社会信息化越来越重要,业务变更越来越频繁,相应的业务数据越来越多,格式也相应复杂化。利用固化的规则进行识别无法快速的适应数据的变化,导致相应的业务系统一旦进行变更,相应的ETL系统就无法识别新的数据,又要重新进行配置。
发明内容
本发明要解决的技术问题是提供一种基于NLP自然语言通过ETL工具进行数据处理的方法,解决固化的ELT规则无法进行新数据的结构化的问题。
本发明为解决上述技术问题而采用的技术方案是提供一种基于NLP自然语言通过ETL工具进行数据处理的方法,包括如下步骤:S1:根据现有业务数据,创建并训练NLP自然学习模型;S2:在新业务中采集非结构化数据;S3:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别并生成正则表达式;S4:将生成正则表达式作为新的ETL规则加入ETL规则库得到更新后的ETL规则库;S5:通过ETL工具根据更新后的ETL规则库对非结构化数据进行结构化。
进一步的,所述步骤S1具体包括,创建NLP自然学习模型,并根据训练数据对NLP自然学习模型进行训练,所述训练数据为现有业务数据中的非结构化数据。
进一步的,所述步骤S2中采集的非结构化数据来自于新业务的日志管理系统中的日志数据。
进一步的,所述步骤S3具体包括:S31:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别,识别成功则生成正则表达式;识别不成功则将采集的非结构化数据加载到NLP自然学习模型的训练数据,对NLP自然学习模型进行训练生成更新的NLP自然学习模型;S32:利用更新的NLP自然学习模型对采集的非结构化数据进行识别,并生成正则表达式。
进一步的,所述正则表达式是对字符串操作的一种逻辑公式,是进行数据结构化的规则。
进一步的,所述步骤S5中的数据结构化是对非结构化数据进行清洗切割。
本发明对比现有技术有如下的有益效果:本发明提供的基于NLP自然语言通过ETL工具进行数据处理的方法,当发生业务变更时,NLP模型能自行识别新的业务数据、并根据新的业务数据生成相应的识别规则,把识别规则更新到ETL工具中,使ETL工具能快速适应业务变化,对新的业务数据进行结构化,提高了系统的稳定性,并更快地处理业务变更,提高工作效率,同时降低人员工作量和维护成本。
附图说明
图1为本发明实施例中基于NLP自然语言通过ETL工具进行数据处理的方法流程图;
图2为本发明实施例中基于NLP自然语言通过ETL工具进行数据处理的方法架构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明实施例中基于NLP自然语言通过ETL工具进行数据处理的方法流程图。
请参见图1,本发明实施例的基于NLP自然语言通过ETL工具进行数据处理的方法,包括如下步骤:
S1:根据现有业务数据,创建并训练NLP自然学习模型;
S2:在新业务中采集非结构化数据;
S3:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别并生成正则表达式;
S4:将生成正则表达式作为新的ETL规则加入ETL规则库得到更新后的ETL规则库;
S5:通过ETL工具根据更新后的ETL规则库对非结构化数据进行结构化。
具体的,本发明实施例的基于NLP自然语言通过ETL工具进行数据处理的方法,步骤S1具体包括,创建NLP自然学习模型,并根据训练数据对NLP自然学习模型进行训练,所述训练数据为现有业务数据中的非结构化数据。步骤S2中采集的非结构化数据来自于新业务的日志管理系统中的日志数据。
具体的,本发明实施例的基于NLP自然语言通过ETL工具进行数据处理的方法,步骤S3具体包括:S31:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别,识别成功则生成正则表达式;识别不成功则将采集的非结构化数据加载到NLP自然学习模型的训练数据,对NLP自然学习模型进行训练生成更新的NLP自然学习模型;S32:利用更新的NLP自然学习模型对采集的非结构化数据进行识别,并生成正则表达式。实现了NLP自然学习模型的训练数据的自动化实时更新,同时依赖新的训练数据所产生的NLP自然学习模型可实时自动化更新并应用。
正则表达式是对字符串(包括普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式是进行数据结构化的规则。
具体的,本发明实施例的基于NLP自然语言通过ETL工具进行数据处理的方法,步骤S5中的数据结构化是对非结构化数据进行清洗切割。
请参见图2,本发明实施例的基于NLP自然语言通过ETL工具进行数据处理的方法,具体的实现过程,包括以下步骤:
步骤1:通过ETL工具对非结构化数据进行结构化包括清洗、切割,如果结构化成功则完成结构化,如果结构化失败,则进行步骤2;
步骤2:利用NLP模型对结构化失败的数据进行识别,如果识别成功则进行步骤3,如果识别失败则跳转到步骤4;
步骤3:生成新的正则表达式并将新的正则表达式作为新的ETL规则更新到ETL规则库中,并跳到步骤1;
步骤4:把识别失败的数据进行人工处理好增量更新到NLP训练数据中;
步骤5:将NLP模型根据新的训练数据生成新的模型,跳到步骤2,直到完成结构化。
综上所述,本发明提供的基于NLP自然语言通过ETL工具进行数据处理的方法,当发生业务变更时,NLP模型能自行识别新的业务数据、并根据新的业务数据生成相应的识别规则,把识别规则更新到ETL工具中,使ETL工具能快速适应业务变化,对新的业务数据进行结构化,提高了系统的稳定性,并更快地处理业务变更,提高工作效率,同时降低人员工作量和维护成本。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

Claims (6)

1.一种基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,包括如下步骤:
S1:根据现有的业务数据,创建并训练NLP自然学习模型;
S2:在新业务中采集非结构化数据;
S3:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别并生成正则表达式;
S4:将生成正则表达式作为新的ETL规则加入ETL规则库得到更新后的ETL规则库;
S5:通过ETL工具根据更新后的ETL规则库对非结构化数据进行结构化。
2.如权利要求1所述的基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,所述步骤S1具体包括,创建NLP自然学习模型,并根据训练数据对NLP自然学习模型进行训练,所述训练数据为现有业务数据中的非结构化数据。
3.如权利要求1所述的基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,所述步骤S2中采集的非结构化数据来自于新业务的日志管理系统中的日志数据。
4.如权利要求1所述的基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,所述步骤S3具体包括:
S31:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别,识别成功则生成正则表达式;识别不成功则将采集的非结构化数据加载到NLP自然学习模型的训练数据,对NLP自然学习模型进行训练生成更新的NLP自然学习模型;
S32:利用更新的NLP自然学习模型对采集的非结构化数据进行识别,并生成正则表达式。
5.如权利要求1所述的基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,所述正则表达式是对字符串操作的一种逻辑公式,是进行数据结构化的规则。
6.如权利要求1所述的基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,所述步骤S5中的数据结构化是对非结构化数据进行清洗切割。
CN201911127969.4A 2019-11-18 2019-11-18 基于nlp自然语言通过etl工具进行数据处理的方法 Pending CN110851519A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911127969.4A CN110851519A (zh) 2019-11-18 2019-11-18 基于nlp自然语言通过etl工具进行数据处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911127969.4A CN110851519A (zh) 2019-11-18 2019-11-18 基于nlp自然语言通过etl工具进行数据处理的方法

Publications (1)

Publication Number Publication Date
CN110851519A true CN110851519A (zh) 2020-02-28

Family

ID=69601960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911127969.4A Pending CN110851519A (zh) 2019-11-18 2019-11-18 基于nlp自然语言通过etl工具进行数据处理的方法

Country Status (1)

Country Link
CN (1) CN110851519A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753552A (zh) * 2020-07-02 2020-10-09 浙江百应科技有限公司 一种基于nlp的训练模式与识别模式动态切换的方法
CN113343646A (zh) * 2021-06-21 2021-09-03 杭州数梦工场科技有限公司 数据转换方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943973A (zh) * 2017-11-28 2018-04-20 上海云信留客信息科技有限公司 一种大数据智能清洗系统及云机器人智能清洗服务平台
CN108268600A (zh) * 2017-12-20 2018-07-10 北京邮电大学 基于ai的非结构化数据管理方法及装置
CN108959575A (zh) * 2018-07-06 2018-12-07 北京神州泰岳软件股份有限公司 一种企业关联关系信息挖掘方法及装置
CN109144493A (zh) * 2018-07-18 2019-01-04 平安科技(深圳)有限公司 业务规则的生成方法、电子装置及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943973A (zh) * 2017-11-28 2018-04-20 上海云信留客信息科技有限公司 一种大数据智能清洗系统及云机器人智能清洗服务平台
CN108268600A (zh) * 2017-12-20 2018-07-10 北京邮电大学 基于ai的非结构化数据管理方法及装置
CN108959575A (zh) * 2018-07-06 2018-12-07 北京神州泰岳软件股份有限公司 一种企业关联关系信息挖掘方法及装置
CN109144493A (zh) * 2018-07-18 2019-01-04 平安科技(深圳)有限公司 业务规则的生成方法、电子装置及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753552A (zh) * 2020-07-02 2020-10-09 浙江百应科技有限公司 一种基于nlp的训练模式与识别模式动态切换的方法
CN111753552B (zh) * 2020-07-02 2024-04-19 浙江百应科技有限公司 一种基于nlp的训练模式与识别模式动态切换的方法
CN113343646A (zh) * 2021-06-21 2021-09-03 杭州数梦工场科技有限公司 数据转换方法和装置
CN113343646B (zh) * 2021-06-21 2023-08-25 杭州数梦工场科技有限公司 数据转换方法和装置

Similar Documents

Publication Publication Date Title
KR102230661B1 (ko) Sql 검토 방법, 장치, 서버 및 저장 매체
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN112148881B (zh) 用于输出信息的方法和装置
US11281864B2 (en) Dependency graph based natural language processing
CN111581990A (zh) 跨境交易撮合匹配方法及装置
US20160071035A1 (en) Implementing socially enabled business risk management
US11182681B2 (en) Generating natural language answers automatically
CN110851519A (zh) 基于nlp自然语言通过etl工具进行数据处理的方法
CN114861677B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN102509001A (zh) 一种自动去除时序数据野值点的方法
CN106446022A (zh) 一种基于形式语义推理和深度学习的自然语言知识挖掘方法
CN112989023A (zh) 标签推荐方法、装置、设备、存储介质及计算机程序产品
CN103049490A (zh) 知识网络节点间属性生成系统及生成方法
CN114186533A (zh) 模型训练方法及装置、知识抽取方法及装置、设备和介质
AU2019200371A1 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN113190689A (zh) 一种电力安全知识图谱的构建方法、装置、设备和介质
CN113342946B (zh) 客服机器人的模型训练方法、装置、电子设备及介质
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
CN116097253A (zh) 构建多层次知识图谱的方法和装置
Kicsi et al. Information retrieval based feature analysis for product line adoption in 4gl systems
CN110633468A (zh) 一种关于对象特征提取的信息处理方法及装置
CN112767933B (zh) 公路养护管理系统的语音交互方法、装置、设备及介质
CN108763565B (zh) 一种基于深度学习的数据自动关联匹配的构建方法
MX2022000248A (es) Extraccion de datos de genealogia de obituarios.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228

RJ01 Rejection of invention patent application after publication