CN110851519A - 基于nlp自然语言通过etl工具进行数据处理的方法 - Google Patents
基于nlp自然语言通过etl工具进行数据处理的方法 Download PDFInfo
- Publication number
- CN110851519A CN110851519A CN201911127969.4A CN201911127969A CN110851519A CN 110851519 A CN110851519 A CN 110851519A CN 201911127969 A CN201911127969 A CN 201911127969A CN 110851519 A CN110851519 A CN 110851519A
- Authority
- CN
- China
- Prior art keywords
- data
- etl
- learning model
- nlp
- nlp natural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000014509 gene expression Effects 0.000 claims abstract description 21
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 description 43
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于NLP自然语言通过ETL工具进行数据处理的方法,包括如下步骤:S1:创建并训练NLP自然学习模型;S2:采集非结构化数据;S3:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别并生成正则表达式;S4:将生成正则表达式作为新的ETL规则加入ETL规则库得到更新后的ETL规则库;S5:通过ETL工具根据更新后的ETL规则库对非结构化数据进行结构化。本发明的NLP模型能自行识别新的业务数据、并根据新的业务数据生成相应的识别规则,把识别规则更新到ETL工具中,使ETL工具能快速适应业务变化,对新的业务数据进行结构化,提高了系统的稳定性,并更快地处理业务变更,提高工作效率,降低人员工作量和维护成本。
Description
技术领域
本发明涉及一种数据处理方法,尤其涉及一种基于NLP自然语言通过ETL工具进行数据处理的方法。
背景技术
NLP(Natural Language Processing)是人工智能(AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、交互转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
现有的ETL技术中,大多是利用已有规则对非结构化数据进行结构化,当出现新的规则数据,已有的识别方法均无法快速进行识别并且进行结构化。现在社会信息化越来越重要,业务变更越来越频繁,相应的业务数据越来越多,格式也相应复杂化。利用固化的规则进行识别无法快速的适应数据的变化,导致相应的业务系统一旦进行变更,相应的ETL系统就无法识别新的数据,又要重新进行配置。
发明内容
本发明要解决的技术问题是提供一种基于NLP自然语言通过ETL工具进行数据处理的方法,解决固化的ELT规则无法进行新数据的结构化的问题。
本发明为解决上述技术问题而采用的技术方案是提供一种基于NLP自然语言通过ETL工具进行数据处理的方法,包括如下步骤:S1:根据现有业务数据,创建并训练NLP自然学习模型;S2:在新业务中采集非结构化数据;S3:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别并生成正则表达式;S4:将生成正则表达式作为新的ETL规则加入ETL规则库得到更新后的ETL规则库;S5:通过ETL工具根据更新后的ETL规则库对非结构化数据进行结构化。
进一步的,所述步骤S1具体包括,创建NLP自然学习模型,并根据训练数据对NLP自然学习模型进行训练,所述训练数据为现有业务数据中的非结构化数据。
进一步的,所述步骤S2中采集的非结构化数据来自于新业务的日志管理系统中的日志数据。
进一步的,所述步骤S3具体包括:S31:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别,识别成功则生成正则表达式;识别不成功则将采集的非结构化数据加载到NLP自然学习模型的训练数据,对NLP自然学习模型进行训练生成更新的NLP自然学习模型;S32:利用更新的NLP自然学习模型对采集的非结构化数据进行识别,并生成正则表达式。
进一步的,所述正则表达式是对字符串操作的一种逻辑公式,是进行数据结构化的规则。
进一步的,所述步骤S5中的数据结构化是对非结构化数据进行清洗切割。
本发明对比现有技术有如下的有益效果:本发明提供的基于NLP自然语言通过ETL工具进行数据处理的方法,当发生业务变更时,NLP模型能自行识别新的业务数据、并根据新的业务数据生成相应的识别规则,把识别规则更新到ETL工具中,使ETL工具能快速适应业务变化,对新的业务数据进行结构化,提高了系统的稳定性,并更快地处理业务变更,提高工作效率,同时降低人员工作量和维护成本。
附图说明
图1为本发明实施例中基于NLP自然语言通过ETL工具进行数据处理的方法流程图;
图2为本发明实施例中基于NLP自然语言通过ETL工具进行数据处理的方法架构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明实施例中基于NLP自然语言通过ETL工具进行数据处理的方法流程图。
请参见图1,本发明实施例的基于NLP自然语言通过ETL工具进行数据处理的方法,包括如下步骤:
S1:根据现有业务数据,创建并训练NLP自然学习模型;
S2:在新业务中采集非结构化数据;
S3:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别并生成正则表达式;
S4:将生成正则表达式作为新的ETL规则加入ETL规则库得到更新后的ETL规则库;
S5:通过ETL工具根据更新后的ETL规则库对非结构化数据进行结构化。
具体的,本发明实施例的基于NLP自然语言通过ETL工具进行数据处理的方法,步骤S1具体包括,创建NLP自然学习模型,并根据训练数据对NLP自然学习模型进行训练,所述训练数据为现有业务数据中的非结构化数据。步骤S2中采集的非结构化数据来自于新业务的日志管理系统中的日志数据。
具体的,本发明实施例的基于NLP自然语言通过ETL工具进行数据处理的方法,步骤S3具体包括:S31:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别,识别成功则生成正则表达式;识别不成功则将采集的非结构化数据加载到NLP自然学习模型的训练数据,对NLP自然学习模型进行训练生成更新的NLP自然学习模型;S32:利用更新的NLP自然学习模型对采集的非结构化数据进行识别,并生成正则表达式。实现了NLP自然学习模型的训练数据的自动化实时更新,同时依赖新的训练数据所产生的NLP自然学习模型可实时自动化更新并应用。
正则表达式是对字符串(包括普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式是进行数据结构化的规则。
具体的,本发明实施例的基于NLP自然语言通过ETL工具进行数据处理的方法,步骤S5中的数据结构化是对非结构化数据进行清洗切割。
请参见图2,本发明实施例的基于NLP自然语言通过ETL工具进行数据处理的方法,具体的实现过程,包括以下步骤:
步骤1:通过ETL工具对非结构化数据进行结构化包括清洗、切割,如果结构化成功则完成结构化,如果结构化失败,则进行步骤2;
步骤2:利用NLP模型对结构化失败的数据进行识别,如果识别成功则进行步骤3,如果识别失败则跳转到步骤4;
步骤3:生成新的正则表达式并将新的正则表达式作为新的ETL规则更新到ETL规则库中,并跳到步骤1;
步骤4:把识别失败的数据进行人工处理好增量更新到NLP训练数据中;
步骤5:将NLP模型根据新的训练数据生成新的模型,跳到步骤2,直到完成结构化。
综上所述,本发明提供的基于NLP自然语言通过ETL工具进行数据处理的方法,当发生业务变更时,NLP模型能自行识别新的业务数据、并根据新的业务数据生成相应的识别规则,把识别规则更新到ETL工具中,使ETL工具能快速适应业务变化,对新的业务数据进行结构化,提高了系统的稳定性,并更快地处理业务变更,提高工作效率,同时降低人员工作量和维护成本。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
Claims (6)
1.一种基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,包括如下步骤:
S1:根据现有的业务数据,创建并训练NLP自然学习模型;
S2:在新业务中采集非结构化数据;
S3:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别并生成正则表达式;
S4:将生成正则表达式作为新的ETL规则加入ETL规则库得到更新后的ETL规则库;
S5:通过ETL工具根据更新后的ETL规则库对非结构化数据进行结构化。
2.如权利要求1所述的基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,所述步骤S1具体包括,创建NLP自然学习模型,并根据训练数据对NLP自然学习模型进行训练,所述训练数据为现有业务数据中的非结构化数据。
3.如权利要求1所述的基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,所述步骤S2中采集的非结构化数据来自于新业务的日志管理系统中的日志数据。
4.如权利要求1所述的基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,所述步骤S3具体包括:
S31:通过训练好的NLP自然学习模型对采集的非结构化数据进行识别,识别成功则生成正则表达式;识别不成功则将采集的非结构化数据加载到NLP自然学习模型的训练数据,对NLP自然学习模型进行训练生成更新的NLP自然学习模型;
S32:利用更新的NLP自然学习模型对采集的非结构化数据进行识别,并生成正则表达式。
5.如权利要求1所述的基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,所述正则表达式是对字符串操作的一种逻辑公式,是进行数据结构化的规则。
6.如权利要求1所述的基于NLP自然语言通过ETL工具进行数据处理的方法,其特征在于,所述步骤S5中的数据结构化是对非结构化数据进行清洗切割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911127969.4A CN110851519A (zh) | 2019-11-18 | 2019-11-18 | 基于nlp自然语言通过etl工具进行数据处理的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911127969.4A CN110851519A (zh) | 2019-11-18 | 2019-11-18 | 基于nlp自然语言通过etl工具进行数据处理的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110851519A true CN110851519A (zh) | 2020-02-28 |
Family
ID=69601960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911127969.4A Pending CN110851519A (zh) | 2019-11-18 | 2019-11-18 | 基于nlp自然语言通过etl工具进行数据处理的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851519A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753552A (zh) * | 2020-07-02 | 2020-10-09 | 浙江百应科技有限公司 | 一种基于nlp的训练模式与识别模式动态切换的方法 |
CN113343646A (zh) * | 2021-06-21 | 2021-09-03 | 杭州数梦工场科技有限公司 | 数据转换方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943973A (zh) * | 2017-11-28 | 2018-04-20 | 上海云信留客信息科技有限公司 | 一种大数据智能清洗系统及云机器人智能清洗服务平台 |
CN108268600A (zh) * | 2017-12-20 | 2018-07-10 | 北京邮电大学 | 基于ai的非结构化数据管理方法及装置 |
CN108959575A (zh) * | 2018-07-06 | 2018-12-07 | 北京神州泰岳软件股份有限公司 | 一种企业关联关系信息挖掘方法及装置 |
CN109144493A (zh) * | 2018-07-18 | 2019-01-04 | 平安科技(深圳)有限公司 | 业务规则的生成方法、电子装置及可读存储介质 |
-
2019
- 2019-11-18 CN CN201911127969.4A patent/CN110851519A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943973A (zh) * | 2017-11-28 | 2018-04-20 | 上海云信留客信息科技有限公司 | 一种大数据智能清洗系统及云机器人智能清洗服务平台 |
CN108268600A (zh) * | 2017-12-20 | 2018-07-10 | 北京邮电大学 | 基于ai的非结构化数据管理方法及装置 |
CN108959575A (zh) * | 2018-07-06 | 2018-12-07 | 北京神州泰岳软件股份有限公司 | 一种企业关联关系信息挖掘方法及装置 |
CN109144493A (zh) * | 2018-07-18 | 2019-01-04 | 平安科技(深圳)有限公司 | 业务规则的生成方法、电子装置及可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753552A (zh) * | 2020-07-02 | 2020-10-09 | 浙江百应科技有限公司 | 一种基于nlp的训练模式与识别模式动态切换的方法 |
CN111753552B (zh) * | 2020-07-02 | 2024-04-19 | 浙江百应科技有限公司 | 一种基于nlp的训练模式与识别模式动态切换的方法 |
CN113343646A (zh) * | 2021-06-21 | 2021-09-03 | 杭州数梦工场科技有限公司 | 数据转换方法和装置 |
CN113343646B (zh) * | 2021-06-21 | 2023-08-25 | 杭州数梦工场科技有限公司 | 数据转换方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102230661B1 (ko) | Sql 검토 방법, 장치, 서버 및 저장 매체 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN112148881B (zh) | 用于输出信息的方法和装置 | |
US11281864B2 (en) | Dependency graph based natural language processing | |
CN111581990A (zh) | 跨境交易撮合匹配方法及装置 | |
US20160071035A1 (en) | Implementing socially enabled business risk management | |
US11182681B2 (en) | Generating natural language answers automatically | |
CN110851519A (zh) | 基于nlp自然语言通过etl工具进行数据处理的方法 | |
CN114861677B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN102509001A (zh) | 一种自动去除时序数据野值点的方法 | |
CN106446022A (zh) | 一种基于形式语义推理和深度学习的自然语言知识挖掘方法 | |
CN112989023A (zh) | 标签推荐方法、装置、设备、存储介质及计算机程序产品 | |
CN103049490A (zh) | 知识网络节点间属性生成系统及生成方法 | |
CN114186533A (zh) | 模型训练方法及装置、知识抽取方法及装置、设备和介质 | |
AU2019200371A1 (en) | Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure | |
CN113190689A (zh) | 一种电力安全知识图谱的构建方法、装置、设备和介质 | |
CN113342946B (zh) | 客服机器人的模型训练方法、装置、电子设备及介质 | |
CN113032371A (zh) | 数据库语法分析方法、装置和计算机设备 | |
CN116097253A (zh) | 构建多层次知识图谱的方法和装置 | |
Kicsi et al. | Information retrieval based feature analysis for product line adoption in 4gl systems | |
CN110633468A (zh) | 一种关于对象特征提取的信息处理方法及装置 | |
CN112767933B (zh) | 公路养护管理系统的语音交互方法、装置、设备及介质 | |
CN108763565B (zh) | 一种基于深度学习的数据自动关联匹配的构建方法 | |
MX2022000248A (es) | Extraccion de datos de genealogia de obituarios. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |
|
RJ01 | Rejection of invention patent application after publication |