CN110210025A

CN110210025A - 一种基于文本提取的转换方法

Info

Publication number: CN110210025A
Application number: CN201910455322.8A
Authority: CN
Inventors: 黄志春; 张定国; 周志勇; 陈育翔; 伍宇文
Original assignee: Guangzhou Weihong Intelligent Technology Co Ltd
Current assignee: Guangzhou Weihong Intelligent Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-06

Abstract

本发明公开了一种基于文本提取的转换方法，包括系统构建、知识采集、知识导入、数据预处理、分类抽取和分类上传，本发明结构科学合理，使用安全方便，本发明通过数据传输功能，将原始数据语料和文本数据导入至文本提取转换系统内，并进行识别、文本段落识别、语句拆分和分词，输出带有特征的文本语料，文本特征和文本数据可识别出命名实体，并进行抽取，从文本特征和文本数据自动抽取信息来构造语义类并建立实体和语义类的关联，作为实体层面上的规整和抽象，随后对抽取出的知识单元实体构造属性列表，对语义类的实体附加属性值，通过已进行关联处理的知识点表示出知识图谱，以计算机可读取结构对图谱进行存储，待未来使用。

Description

一种基于文本提取的转换方法

技术领域

本发明涉及知识抽取技术领域，具体为一种基于文本提取的转换方法。

背景技术

目前，传统的客服平台都采用手工方式对知识进行一条条录入，需要客服人员对知识进行分库分类，随着客服电话量不断增多，客服人员数量严重不足，客服人员不堪重负，导致服务效率低下，不能及时回复用户问题，且客服人员对知识进行分库分类容易产生错误，准确性无法完全保证，容易影响知识录入的准确性；

本发明目的在于提供一种基于文本提取的转换方法，可以提高客服的服务效率，减少需要人工手动录入的工作量，且具有稳定性高和效率高等特点。

发明内容

本发明提供技术方案，可以有效解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于文本提取的转换方法，包括如下步骤：

S1、系统构建：在本地计算机内构建文本提取转换系统；

S2、知识采集：从互联网、U盘以及存储硬盘中对知识数据进行采集；

S3、知识导入：将采集到的知识数据传输至本地知识数据库内；

S4、数据预处理：将导入的知识数据进行预处理；

S5、分类抽取：将导入的知识进行分类抽取；

S6、分类上传：将分类抽取后的知识分类传输至本地知识数据库内进行存储。

根据上述技术特征，所述步骤1中，在知识数据传输至本地知识数据库前，在本地知识数据库所在计算机内构件文本提取转换系统。

根据上述技术特征，所述步骤2中，是将互联网、U盘以及存储硬盘内的知识数据，通过数据传输功能，传输至本地知识数据库内。

根据上述技术特征，所述步骤3中，传输至本地知识数据库内的原始数据语料和文本数据在临时存储后，会导入至文本提取转换系统内。

根据上述技术特征，所述步骤4中，将导入的知识数据进行预处理是指，从原始数据中找出已知可用的案例，进行识别、文本段落识别、语句拆分和分词，输出带有特征的文本语料。

根据上述技术特征，所述步骤5还包括以下步骤：

a：自然语言分析抽取：利用自然语言理解技术进行语义理解以及文本意图的识别，从而抽取得到文本特征；

b：实体抽取：从导入的文本特征和文本数据中自动识别出命名实体，并进行抽取，抽取出知识单元实体；

c：语义类抽取：从导入的原始数据语料和文本数据中自动抽取信息来构造语义类并建立实体和语义类的关联，作为实体层面上的规整和抽象；

d：属性抽取：对每个本体语义类构造属性列表；

e：属性值抽取：对语义类的实体附加属性值。

根据上述技术特征，所述步骤5中，实体抽取是指由资深、专业人士梳理出语言模型，通过模型的建立对知识概念进行抽取，作为知识特征存储在知识库。

根据上述技术特征，所述步骤5中，自然语言分析是基于文本语料采取自然语言理解NLU技术进行语意理解和文本意图识别，同时对文本语料上下文语境分析提取出文本特征，作为知识特征的补充存储进知识库。

根据上述技术特征，所述步骤6中，提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱，以计算机可读取结构对图谱进行存储，待未来使用。

根据上述技术特征，所述步骤6中，提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储，本地知识数据库会实时更新至云端知识数据库。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便：

首先在本地计算机内构建文本提取转换系统，将互联网、U盘以及存储硬盘内的知识数据，通过数据传输功能，传输至本地计算机的本地知识数据库内，随后传输至本地知识数据库内的原始数据语料和文本数据在临时存储后，导入至文本提取转换系统内，并从原始数据中找出已知可用的案例，进行识别、文本段落识别、语句拆分和分词，输出带有特征的文本语料，文本特征和文本数据可识别出命名实体，并进行抽取，抽取出知识单元实体，并从文本特征和文本数据自动抽取信息来构造语义类并建立实体和语义类的关联，作为实体层面上的规整和抽象，并对抽取出的知识单元实体构造属性列表，对语义类的实体附加属性值，提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱，以计算机可读取结构对图谱进行存储，待未来使用，随后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储，本地知识数据库会实时更新至云端知识数据库，对云端知识数据库进行实时更新。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明的流程结构示意图；

图2是本发明分类抽取的流程结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1-2所示，本发明提供技术方案，一种基于文本提取的转换方法，包括如下步骤：

S1、系统构建：在本地计算机内构建文本提取转换系统；

S4、数据预处理：将导入的知识数据进行预处理；

S5、分类抽取：将导入的知识进行分类抽取；

步骤1中，在知识数据传输至本地知识数据库前，在本地知识数据库所在计算机内构件文本提取转换系统。

步骤2中，是将互联网、U盘以及存储硬盘内的知识数据，通过数据传输功能，传输至本地知识数据库内。

步骤3中，传输至本地知识数据库内的原始数据语料和文本数据在临时存储后，会导入至文本提取转换系统内。

步骤4中，将导入的知识数据进行预处理是指，从原始数据中找出已知可用的案例，进行识别、文本段落识别、语句拆分和分词，输出带有特征的文本语料。

步骤5还包括以下步骤：

d：属性抽取：对每个本体语义类构造属性列表；

e：属性值抽取：对语义类的实体附加属性值。

步骤5中，实体抽取是指由资深、专业人士梳理出语言模型，通过模型的建立对知识概念进行抽取，作为知识特征存储在知识库。

步骤5中，自然语言分析是基于文本语料采取自然语言理解NLU技术进行语意理解和文本意图识别，同时对文本语料上下文语境分析提取出文本特征，作为知识特征的补充存储进知识库。

步骤6中，提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱，以计算机可读取结构对图谱进行存储，待未来使用。

步骤6中，提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储，本地知识数据库会实时更新至云端知识数据库。

本发明的工作原理及使用流程：首先在本地计算机内构建文本提取转换系统，将互联网、U盘以及存储硬盘内的知识数据，通过数据传输功能，传输至本地计算机的本地知识数据库内，随后传输至本地知识数据库内的原始数据语料和文本数据在临时存储后，导入至文本提取转换系统内，并从原始数据中找出已知可用的案例，进行识别、文本段落识别、语句拆分和分词，输出带有特征的文本语料，文本特征和文本数据可识别出命名实体，并进行抽取，抽取出知识单元实体，并从文本特征和文本数据自动抽取信息来构造语义类并建立实体和语义类的关联，作为实体层面上的规整和抽象，并对抽取出的知识单元实体构造属性列表，对语义类的实体附加属性值，提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱，以计算机可读取结构对图谱进行存储，待未来使用，随后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储，本地知识数据库会实时更新至云端知识数据库，对云端知识数据库进行实时更新。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本提取的转换方法，其特征在于，包括如下步骤：

S1、系统构建：在本地计算机内构建文本提取转换系统；

S4、数据预处理：将导入的知识数据进行预处理；

S5、分类抽取：将导入的知识进行分类抽取；

2.根据权利要求1所述的一种基于文本提取的转换方法，其特征在于，所述步骤1中，在知识数据传输至本地知识数据库前，在本地知识数据库所在计算机内构件文本提取转换系统。

3.根据权利要求1所述的一种基于文本提取的转换方法，其特征在于，所述步骤2中，是将互联网、U盘以及存储硬盘内的知识数据，通过数据传输功能，传输至本地知识数据库内。

4.根据权利要求1所述的一种基于文本提取的转换方法，其特征在于，所述步骤3中，传输至本地知识数据库内的原始数据语料和文本数据在临时存储后，会导入至文本提取转换系统内。

5.根据权利要求1所述的一种基于文本提取的转换方法，其特征在于，所述步骤4中，将导入的知识数据进行预处理是指，从原始数据中找出已知可用的案例，进行识别、文本段落识别、语句拆分和分词，输出带有特征的文本语料。

6.根据权利要求1所述的一种基于文本提取的转换方法，其特征在于，所述步骤5还包括以下步骤：

d：属性抽取：对每个本体语义类构造属性列表；

e：属性值抽取：对语义类的实体附加属性值。

7.根据权利要求1所述的一种基于文本提取的转换方法，其特征在于，所述步骤5中，实体抽取是指由资深、专业人士梳理出语言模型，通过模型的建立对知识概念进行抽取，作为知识特征存储在知识库。

8.根据权利要求1所述的一种基于文本提取的转换方法，其特征在于，所述步骤5中，自然语言分析是基于文本语料采取自然语言理解NLU技术进行语意理解和文本意图识别，同时对文本语料上下文语境分析提取出文本特征，作为知识特征的补充存储进知识库。

9.根据权利要求1所述的一种基于文本提取的转换方法，其特征在于，所述步骤6中，提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱，以计算机可读取结构对图谱进行存储，待未来使用。

10.根据权利要求1所述的一种基于文本提取的转换方法，其特征在于，所述步骤6中，提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储，本地知识数据库会实时更新至云端知识数据库。