CN115062117A

CN115062117A - 一种基于自然语言处理技术的文档自动生成分类的方法

Info

Publication number: CN115062117A
Application number: CN202210813271.3A
Authority: CN
Inventors: 陈檩
Original assignee: Beijing Sifang Zhihui Information Technology Co ltd
Current assignee: Beijing Sifang Zhihui Information Technology Co ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-09-16

Abstract

本发明公开了一种基于自然语言处理技术的文档自动生成分类的方法，包括以下步骤：对输入的原始文档进行自动分类，基于不同分类的原始文档进行对应处理，分别得到中间数据和结构化数据；对中间数据进行分词处理、实体识别、指代消解、关系抽取、事件抽取和知识库构建，抽取出的数据作为结构；化数据存入数据库；根据输出的文档类型选择文档模板,结合获取到的结构，化数据进行文档组装，输出最终文档；通过对海量的文档分类、OCR提取、NLP修复、中文和专用术语分词、实体识别、事件抽取、模板、生成等多个流程组合，最终生成具有专业领域中初级分析人员能力的智能报告，从而以便加以应用。

Description

一种基于自然语言处理技术的文档自动生成分类的方法

技术领域

本发明属于文档自动生成分类技术领域，具体涉及一种基于自然语言处理技术的文档自动生成分类的方法。

背景技术

互联网中的信息数量，每天正在以爆炸式的速度增长。企业在发展过程中会创建出大量的有关运营、管理、产品、销售、客服、财务等相关的各种类型文档，文档的逐渐增多让管理更加费时费力。这些文档对企业和员工来说都是很重要的资产。大量不同格式的文档都分别存放在员工各自的电脑里面，或者由各部门、各项目、各分公司、办事处等各自存放，没有将文件进行集中管理，既无法通过统一的平台来访问文件，也无法对公司文档进行统一备份，给企业造成极大困扰。

发明内容

本发明的目的在于提供一种基于自然语言处理技术的文档自动生成分类的方法。

为实现上述目的，本发明采用了如下技术方案：一种基于自然语言处理技术的文档自动生成分类的方法，包括以下步骤：

S1、对输入的原始文档进行自动分类，基于不同分类的原始文档进行对应处理，分别得到中间数据和结构化数据；

S2、对中间数据进行分词处理、实体识别、指代消解、关系抽取、事件抽取和知识库构建，抽取出的数据作为结构；化数据存入数据库；

S3、根据输出的文档类型选择文档模板,结合获取到的结构，化数据进行文档组装，输出最终文档。

优选的，所述S1中确定数据获取需求；根据输入的原始文档，获取每个原始文档的文件类型，进而可以区分出各种不同种类的原始文档。

优选的，所述S1也能够判断是否为图片文档，若不是图片文档，则先对原始文档进行图片化处理再进行后续步骤，若为图片文档则直接进行后续步骤；基于图像处理进行文档分类。

优选的，所述S1根据文档分类判断文档是否为固定格式的文档，如果是固定格式的文档，则基于机器学习对固定格式文档进行信息提取得到结构化数据；如果不是固定格式的文档则进行后续步骤；并且，判断文档是否支持文本直接提取，如果支持文本直接提取则从原始文档中获取其中的文本内容并存储为中间数据，如果不支持文本直接提取，会经过警报提示，对操作人员进行提示，以便进行后续操作；然后在进行对文档进行识别，将图像中的文字转换成文本格式；基于自然语言处理对识别出的文本进行内容修复，修复后的数据存储为中间数据。

优选的，所述S2中的分词处理，主要便于对分词处理后的数据进行实体识别的作用，从而以便提高实体识别的效果；实体识别后，需要把识别过后的数据进行关系提取，从而提出文档文本识别过后数据内所需的语法与语义之间的联系，然后在对关系抽取后的数据进行事件抽取，从含有事件信息的文本中抽取出所需的感兴趣事件信息，将用自然语言表达的事件以结构化的形式呈现；对事件抽取后的数据进行知识图谱校验处理，根据从多个文档已经获取到的实体、关系和事件的信息构建相关的知识图谱，用于信息的相互印证及异常事件；然后验证，当出现异常时，再次经过警报提示，从而对操作人员进行振动提示，以便提示操作人员发生异常，使之便于后续操作，以便自动发现；最后知识图谱校验处理后的数据从而形成结构化数据。

优选的，所述S2中的指代消解，从而便于使在抽取信息前，对其进行指代消解，进而以便提高后续提取信息的准确度，降低影响。

优选的，所述S3根据输出的文档类型选择文档模板，然后基于结构化数据，根据所需输出的目标文档类型选择不同的任务路径的生成报告。

优选的，所述S3基于当前文档的处理阶段进行对应的文档处理，以便提高其处理的效果；最终则根据模板自动生成专业领域的正式文档。

本发明的技术效果和优点：本发明提出的一种基于自然语言处理技术的文档自动生成分类的方法，与现有技术相比，具有以下优点：

通过对海量的文档分类、OCR提取、NLP修复、中文和专用术语分词、实体识别、事件抽取、模板、生成等多个流程组合，最终生成具有专业领域中初级分析人员能力的智能报告，从而以便加以应用；并且通过设置一处警报提示，从而便于对操作人员进行振动提示，进而能够及时的提示操作人员知晓这处异常，方便后续处理。

附图说明

图1为本发明的文档分类流程图；

图2为本发明的生产文档类型流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了如图1-2所示的一种基于自然语言处理技术的文档自动生成分类的方法，包括以下步骤：

S1中确定数据获取需求；根据输入的原始文档，获取每个原始文档的文件类型，进而可以区分出各种不同种类的原始文档。

S1也能够判断是否为图片文档，若不是图片文档，则先对原始文档进行图片化处理再进行后续步骤，若为图片文档则直接进行后续步骤；基于图像处理进行文档分类。

S1根据文档分类判断文档是否为固定格式的文档，如果是固定格式的文档，则基于机器学习对固定格式文档进行信息提取得到结构化数据；如果不是固定格式的文档则进行后续步骤；并且，判断文档是否支持文本直接提取，如果支持文本直接提取则从原始文档中获取其中的文本内容并存储为中间数据，如果不支持文本直接提取，会经过警报提示，对操作人员进行提示，以便进行后续操作；然后在进行对文档进行识别，将图像中的文字转换成文本格式；基于自然语言处理对识别出的文本进行内容修复，修复后的数据存储为中间数据。

S2中的分词处理，主要便于对分词处理后的数据进行实体识别的作用，从而以便提高实体识别的效果；实体识别后，需要把识别过后的数据进行关系提取，从而提出文档文本识别过后数据内所需的语法与语义之间的联系，然后在对关系抽取后的数据进行事件抽取，从含有事件信息的文本中抽取出所需的感兴趣事件信息，将用自然语言表达的事件以结构化的形式呈现；对事件抽取后的数据进行知识图谱校验处理，根据从多个文档已经获取到的实体、关系和事件的信息构建相关的知识图谱，用于信息的相互印证及异常事件；然后验证，当出现异常时，再次经过警报提示，从而对操作人员进行振动提示，以便提示操作人员发生异常，使之便于后续操作，以便自动发现；最后知识图谱校验处理后的数据从而形成结构化数据。

S2中的指代消解，从而便于使在抽取信息前，对其进行指代消解，进而以便提高后续提取信息的准确度，降低影响。

S3根据输出的文档类型选择文档模板，然后基于结构化数据，根据所需输出的目标文档类型选择不同的任务路径的生成报告。

S3基于当前文档的处理阶段进行对应的文档处理，以便提高其处理的效果；最终则根据模板自动生成专业领域的正式文档。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自然语言处理技术的文档自动生成分类的方法，包括以下步骤：其特征在于：

2.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法，其特征在于：所述S1中确定数据获取需求；根据输入的原始文档，获取每个原始文档的文件类型，进而可以区分出各种不同种类的原始文档。

3.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法，其特征在于：所述S1也能够判断是否为图片文档，若不是图片文档，则先对原始文档进行图片化处理再进行后续步骤，若为图片文档则直接进行后续步骤；基于图像处理进行文档分类。

4.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法，其特征在于：所述S1根据文档分类判断文档是否为固定格式的文档，如果是固定格式的文档，则基于机器学习对固定格式文档进行信息提取得到结构化数据；如果不是固定格式的文档则进行后续步骤；并且，判断文档是否支持文本直接提取，如果支持文本直接提取则从原始文档中获取其中的文本内容并存储为中间数据，如果不支持文本直接提取，会经过警报提示，对操作人员进行提示，以便进行后续操作；然后在进行对文档进行识别，将图像中的文字转换成文本格式；基于自然语言处理对识别出的文本进行内容修复，修复后的数据存储为中间数据。

5.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法，其特征在于：所述S2中的分词处理，主要便于对分词处理后的数据进行实体识别的作用，从而以便提高实体识别的效果；实体识别后，需要把识别过后的数据进行关系提取，从而提出文档文本识别过后数据内所需的语法与语义之间的联系，然后在对关系抽取后的数据进行事件抽取，从含有事件信息的文本中抽取出所需的感兴趣事件信息，将用自然语言表达的事件以结构化的形式呈现；对事件抽取后的数据进行知识图谱校验处理，根据从多个文档已经获取到的实体、关系和事件的信息构建相关的知识图谱，用于信息的相互印证及异常事件；然后验证，当出现异常时，再次经过警报提示，从而对操作人员进行振动提示，以便提示操作人员发生异常，使之便于后续操作，以便自动发现；最后知识图谱校验处理后的数据从而形成结构化数据。

6.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法，其特征在于：所述S2中的指代消解，从而便于使在抽取信息前，对其进行指代消解，进而以便提高后续提取信息的准确度，降低影响。

7.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法，其特征在于：所述S3根据输出的文档类型选择文档模板，然后基于结构化数据，根据所需输出的目标文档类型选择不同的任务路径的生成报告。

8.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法，其特征在于：所述S3基于当前文档的处理阶段进行对应的文档处理，以便提高其处理的效果；最终则根据模板自动生成专业领域的正式文档。