CN115062117A - 一种基于自然语言处理技术的文档自动生成分类的方法 - Google Patents

一种基于自然语言处理技术的文档自动生成分类的方法 Download PDF

Info

Publication number
CN115062117A
CN115062117A CN202210813271.3A CN202210813271A CN115062117A CN 115062117 A CN115062117 A CN 115062117A CN 202210813271 A CN202210813271 A CN 202210813271A CN 115062117 A CN115062117 A CN 115062117A
Authority
CN
China
Prior art keywords
document
data
extraction
natural language
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210813271.3A
Other languages
English (en)
Inventor
陈檩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sifang Zhihui Information Technology Co ltd
Original Assignee
Beijing Sifang Zhihui Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sifang Zhihui Information Technology Co ltd filed Critical Beijing Sifang Zhihui Information Technology Co ltd
Priority to CN202210813271.3A priority Critical patent/CN115062117A/zh
Publication of CN115062117A publication Critical patent/CN115062117A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于自然语言处理技术的文档自动生成分类的方法,包括以下步骤:对输入的原始文档进行自动分类,基于不同分类的原始文档进行对应处理,分别得到中间数据和结构化数据;对中间数据进行分词处理、实体识别、指代消解、关系抽取、事件抽取和知识库构建,抽取出的数据作为结构;化数据存入数据库;根据输出的文档类型选择文档模板,结合获取到的结构,化数据进行文档组装,输出最终文档;通过对海量的文档分类、OCR提取、NLP修复、中文和专用术语分词、实体识别、事件抽取、模板、生成等多个流程组合,最终生成具有专业领域中初级分析人员能力的智能报告,从而以便加以应用。

Description

一种基于自然语言处理技术的文档自动生成分类的方法
技术领域
本发明属于文档自动生成分类技术领域,具体涉及一种基于自然语言处理技术的文档自动生成分类的方法。
背景技术
互联网中的信息数量,每天正在以爆炸式的速度增长。企业在发展过程中会创建出大量的有关运营、管理、产品、销售、客服、财务等相关的各种类型文档,文档的逐渐增多让管理更加费时费力。这些文档对企业和员工来说都是很重要的资产。大量不同格式的文档都分别存放在员工各自的电脑里面,或者由各部门、各项目、各分公司、办事处等各自存放,没有将文件进行集中管理,既无法通过统一的平台来访问文件,也无法对公司文档进行统一备份,给企业造成极大困扰。
发明内容
本发明的目的在于提供一种基于自然语言处理技术的文档自动生成分类的方法。
为实现上述目的,本发明采用了如下技术方案:一种基于自然语言处理技术的文档自动生成分类的方法,包括以下步骤:
S1、对输入的原始文档进行自动分类,基于不同分类的原始文档进行对应处理,分别得到中间数据和结构化数据;
S2、对中间数据进行分词处理、实体识别、指代消解、关系抽取、事件抽取和知识库构建,抽取出的数据作为结构;化数据存入数据库;
S3、根据输出的文档类型选择文档模板,结合获取到的结构,化数据进行文档组装,输出最终文档。
优选的,所述S1中确定数据获取需求;根据输入的原始文档,获取每个原始文档的文件类型,进而可以区分出各种不同种类的原始文档。
优选的,所述S1也能够判断是否为图片文档,若不是图片文档,则先对原始文档进行图片化处理再进行后续步骤,若为图片文档则直接进行后续步骤;基于图像处理进行文档分类。
优选的,所述S1根据文档分类判断文档是否为固定格式的文档,如果是固定格式的文档,则基于机器学习对固定格式文档进行信息提取得到结构化数据;如果不是固定格式的文档则进行后续步骤;并且,判断文档是否支持文本直接提取,如果支持文本直接提取则从原始文档中获取其中的文本内容并存储为中间数据,如果不支持文本直接提取,会经过警报提示,对操作人员进行提示,以便进行后续操作;然后在进行对文档进行识别,将图像中的文字转换成文本格式;基于自然语言处理对识别出的文本进行内容修复,修复后的数据存储为中间数据。
优选的,所述S2中的分词处理,主要便于对分词处理后的数据进行实体识别的作用,从而以便提高实体识别的效果;实体识别后,需要把识别过后的数据进行关系提取,从而提出文档文本识别过后数据内所需的语法与语义之间的联系,然后在对关系抽取后的数据进行事件抽取,从含有事件信息的文本中抽取出所需的感兴趣事件信息,将用自然语言表达的事件以结构化的形式呈现;对事件抽取后的数据进行知识图谱校验处理,根据从多个文档已经获取到的实体、关系和事件的信息构建相关的知识图谱,用于信息的相互印证及异常事件;然后验证,当出现异常时,再次经过警报提示,从而对操作人员进行振动提示,以便提示操作人员发生异常,使之便于后续操作,以便自动发现;最后知识图谱校验处理后的数据从而形成结构化数据。
优选的,所述S2中的指代消解,从而便于使在抽取信息前,对其进行指代消解,进而以便提高后续提取信息的准确度,降低影响。
优选的,所述S3根据输出的文档类型选择文档模板,然后基于结构化数据,根据所需输出的目标文档类型选择不同的任务路径的生成报告。
优选的,所述S3基于当前文档的处理阶段进行对应的文档处理,以便提高其处理的效果;最终则根据模板自动生成专业领域的正式文档。
本发明的技术效果和优点:本发明提出的一种基于自然语言处理技术的文档自动生成分类的方法,与现有技术相比,具有以下优点:
通过对海量的文档分类、OCR提取、NLP修复、中文和专用术语分词、实体识别、事件抽取、模板、生成等多个流程组合,最终生成具有专业领域中初级分析人员能力的智能报告,从而以便加以应用;并且通过设置一处警报提示,从而便于对操作人员进行振动提示,进而能够及时的提示操作人员知晓这处异常,方便后续处理。
附图说明
图1为本发明的文档分类流程图;
图2为本发明的生产文档类型流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图1-2所示的一种基于自然语言处理技术的文档自动生成分类的方法,包括以下步骤:
S1、对输入的原始文档进行自动分类,基于不同分类的原始文档进行对应处理,分别得到中间数据和结构化数据;
S2、对中间数据进行分词处理、实体识别、指代消解、关系抽取、事件抽取和知识库构建,抽取出的数据作为结构;化数据存入数据库;
S3、根据输出的文档类型选择文档模板,结合获取到的结构,化数据进行文档组装,输出最终文档。
S1中确定数据获取需求;根据输入的原始文档,获取每个原始文档的文件类型,进而可以区分出各种不同种类的原始文档。
S1也能够判断是否为图片文档,若不是图片文档,则先对原始文档进行图片化处理再进行后续步骤,若为图片文档则直接进行后续步骤;基于图像处理进行文档分类。
S1根据文档分类判断文档是否为固定格式的文档,如果是固定格式的文档,则基于机器学习对固定格式文档进行信息提取得到结构化数据;如果不是固定格式的文档则进行后续步骤;并且,判断文档是否支持文本直接提取,如果支持文本直接提取则从原始文档中获取其中的文本内容并存储为中间数据,如果不支持文本直接提取,会经过警报提示,对操作人员进行提示,以便进行后续操作;然后在进行对文档进行识别,将图像中的文字转换成文本格式;基于自然语言处理对识别出的文本进行内容修复,修复后的数据存储为中间数据。
S2中的分词处理,主要便于对分词处理后的数据进行实体识别的作用,从而以便提高实体识别的效果;实体识别后,需要把识别过后的数据进行关系提取,从而提出文档文本识别过后数据内所需的语法与语义之间的联系,然后在对关系抽取后的数据进行事件抽取,从含有事件信息的文本中抽取出所需的感兴趣事件信息,将用自然语言表达的事件以结构化的形式呈现;对事件抽取后的数据进行知识图谱校验处理,根据从多个文档已经获取到的实体、关系和事件的信息构建相关的知识图谱,用于信息的相互印证及异常事件;然后验证,当出现异常时,再次经过警报提示,从而对操作人员进行振动提示,以便提示操作人员发生异常,使之便于后续操作,以便自动发现;最后知识图谱校验处理后的数据从而形成结构化数据。
S2中的指代消解,从而便于使在抽取信息前,对其进行指代消解,进而以便提高后续提取信息的准确度,降低影响。
S3根据输出的文档类型选择文档模板,然后基于结构化数据,根据所需输出的目标文档类型选择不同的任务路径的生成报告。
S3基于当前文档的处理阶段进行对应的文档处理,以便提高其处理的效果;最终则根据模板自动生成专业领域的正式文档。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于自然语言处理技术的文档自动生成分类的方法,包括以下步骤:其特征在于:
S1、对输入的原始文档进行自动分类,基于不同分类的原始文档进行对应处理,分别得到中间数据和结构化数据;
S2、对中间数据进行分词处理、实体识别、指代消解、关系抽取、事件抽取和知识库构建,抽取出的数据作为结构;化数据存入数据库;
S3、根据输出的文档类型选择文档模板,结合获取到的结构,化数据进行文档组装,输出最终文档。
2.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法,其特征在于:所述S1中确定数据获取需求;根据输入的原始文档,获取每个原始文档的文件类型,进而可以区分出各种不同种类的原始文档。
3.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法,其特征在于:所述S1也能够判断是否为图片文档,若不是图片文档,则先对原始文档进行图片化处理再进行后续步骤,若为图片文档则直接进行后续步骤;基于图像处理进行文档分类。
4.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法,其特征在于:所述S1根据文档分类判断文档是否为固定格式的文档,如果是固定格式的文档,则基于机器学习对固定格式文档进行信息提取得到结构化数据;如果不是固定格式的文档则进行后续步骤;并且,判断文档是否支持文本直接提取,如果支持文本直接提取则从原始文档中获取其中的文本内容并存储为中间数据,如果不支持文本直接提取,会经过警报提示,对操作人员进行提示,以便进行后续操作;然后在进行对文档进行识别,将图像中的文字转换成文本格式;基于自然语言处理对识别出的文本进行内容修复,修复后的数据存储为中间数据。
5.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法,其特征在于:所述S2中的分词处理,主要便于对分词处理后的数据进行实体识别的作用,从而以便提高实体识别的效果;实体识别后,需要把识别过后的数据进行关系提取,从而提出文档文本识别过后数据内所需的语法与语义之间的联系,然后在对关系抽取后的数据进行事件抽取,从含有事件信息的文本中抽取出所需的感兴趣事件信息,将用自然语言表达的事件以结构化的形式呈现;对事件抽取后的数据进行知识图谱校验处理,根据从多个文档已经获取到的实体、关系和事件的信息构建相关的知识图谱,用于信息的相互印证及异常事件;然后验证,当出现异常时,再次经过警报提示,从而对操作人员进行振动提示,以便提示操作人员发生异常,使之便于后续操作,以便自动发现;最后知识图谱校验处理后的数据从而形成结构化数据。
6.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法,其特征在于:所述S2中的指代消解,从而便于使在抽取信息前,对其进行指代消解,进而以便提高后续提取信息的准确度,降低影响。
7.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法,其特征在于:所述S3根据输出的文档类型选择文档模板,然后基于结构化数据,根据所需输出的目标文档类型选择不同的任务路径的生成报告。
8.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法,其特征在于:所述S3基于当前文档的处理阶段进行对应的文档处理,以便提高其处理的效果;最终则根据模板自动生成专业领域的正式文档。
CN202210813271.3A 2022-07-11 2022-07-11 一种基于自然语言处理技术的文档自动生成分类的方法 Pending CN115062117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210813271.3A CN115062117A (zh) 2022-07-11 2022-07-11 一种基于自然语言处理技术的文档自动生成分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210813271.3A CN115062117A (zh) 2022-07-11 2022-07-11 一种基于自然语言处理技术的文档自动生成分类的方法

Publications (1)

Publication Number Publication Date
CN115062117A true CN115062117A (zh) 2022-09-16

Family

ID=83206879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210813271.3A Pending CN115062117A (zh) 2022-07-11 2022-07-11 一种基于自然语言处理技术的文档自动生成分类的方法

Country Status (1)

Country Link
CN (1) CN115062117A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116483940A (zh) * 2023-04-26 2023-07-25 深圳市国房云数据技术服务有限公司 拆迁全流程制式文档数据提取与结构化方法
CN117251587A (zh) * 2023-11-17 2023-12-19 北京因朵数智档案科技产业发展有限公司 一种数字档案智能信息挖掘方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116483940A (zh) * 2023-04-26 2023-07-25 深圳市国房云数据技术服务有限公司 拆迁全流程制式文档数据提取与结构化方法
CN117251587A (zh) * 2023-11-17 2023-12-19 北京因朵数智档案科技产业发展有限公司 一种数字档案智能信息挖掘方法

Similar Documents

Publication Publication Date Title
CN108256074B (zh) 校验处理的方法、装置、电子设备和存储介质
CN110852065B (zh) 一种文档审核方法、装置、系统、设备及存储介质
US8112413B2 (en) System and service for automatically and dynamically composing document management applications
CN111708773A (zh) 一种多源科创资源数据融合方法
US11810070B2 (en) Classifying digital documents in multi-document transactions based on embedded dates
CN115062117A (zh) 一种基于自然语言处理技术的文档自动生成分类的方法
US20050182736A1 (en) Method and apparatus for determining contract attributes based on language patterns
CN112182246B (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
CN114895876B (zh) 一种基于模型驱动可视化开发工业系统
CN115630621A (zh) 一种基于pdf财务数据报表的数据采集、处理的方法及系统
CN115983571A (zh) 一种基于人工智能的建筑业施工方案审核方法及其系统
CN112200465B (zh) 基于多媒体信息智能分析的电力ai方法及系统
CN116644728B (zh) 一种基于条款数字化的合同生成方法及系统
CN112883202A (zh) 一种基于知识图谱的多组件建模方法和系统
CN111400187A (zh) 基于定制数据源的参数动态化校验系统及方法
CN115482075A (zh) 财务数据的异常分析方法、装置、电子设备及存储介质
CN114419645A (zh) 一种基于ai的合同智能解析方法
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
LU504881B1 (en) Intelligent collection method and system for engineering archives based on enabling thinking
KR102563961B1 (ko) 엑셀 문서 인공 지능 변환 시스템
CN112766889B (zh) 一种工作任务动态分类管理方法及装置
US20230236802A1 (en) Intelligent industry compliance reviewer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination