基于自然语言处理的技术文档自动生成系统及生成方法
技术领域
本发明专利涉及人工智能领域,特别涉及到一种基于自然语言处理的技术文档自动生成系统及生成方法。
背景技术
互联网中的信息数量,每天正在以爆炸式的速度增长。企业在发展过程中会创建出大量的有关运营、管理、产品、销售、客服、财务等相关的各种类型文档,文档的逐渐增多让管理更加费时费力。这些文档对企业和员工来说都是很重要的资产。大量不同格式的文档都分别存放在员工各自的电脑里面,或者由各部门、各项目、各分公司、办事处等各自存放,没有将文件进行集中管理,既无法通过统一的平台来访问文件,也无法对公司文档进行统一备份,给企业造成极大困扰。并且企业大量的数据在各种纸质文档中,如何保证海量数据的存储与协作共享,以及解决企业纸质文档数据集中管理及安全问题,必须彻底解决企业纸质文档数据的自动录入问题,行程数字电子化数据控制。
目前标书(SOW)等项目文本文件的输出靠人工编辑且质量一致性难以保证,文档不能集中管理,文件散落储存于多台电脑中,管理起来十分困难。SOW文件输出靠人工编辑,质量一致性难以保证。部门内多人进行文档编辑时,协同办公不便捷,信息资源共享有壁垒。不清楚BOE正在被哪些用户编辑、文档各个时期的历史版本、文档被哪些用户修改过。文件量大,查找极为不便,效率低下,花在查找上的时间成本很高。本地重要文件被非法拷贝走,给公司带来极大的损失。没有对文档数据进行清晰权限层级规划,难以进行管理。文件误删除或硬盘损坏,电脑中毒等情况,造成部分文件的损坏及丢失。
发明内容
本发明的目的在于克服现有技术存在的不足,提供一种新的技术文档自动生成系统。本发明专利的技术文档自动生成系统要能够通过智能文本处理技术实现文档的自动生成,提升项目规划效率及质量。
为了达到上述发明目的,本发明专利提供的技术方案如下:
一种基于自然语言处理的技术文档自动生成系统,其特征在于,该系统包括有BOE子系统、SOW子系统和权限管理子系统,分管不同功能的三个子系统为平级关系:
所述的BOE子系统包括有NLP平台和数据管理模块,所述的NLP平台用于将BOE文档利用NLP技术进行标注与抽取,再结合KG技术建立数据与标签的映射关系,形成BOE知识库,所述的数据管理模块用于BOE知识库的可视化数据管理,并提供增删改功能,为后续的技术文档自动生成提供数据源;
所述的SOW子系统包括有SOW模板生成模块和模板管理模块,所述的SOW模板生成模块连接用户交互界面,当用户在用户交互界面选择好相应的信息,自动将用户选取的信息和从BOE子系统中的BOE知识库内抽取的信息自动填充到SOW模板里,以自动生成一份新的SOW,所述的模板管理模块对SOW模板内与BOE非相关的标签数据进行增删;
所述的权限管理子系统设有三级权限管理,分别为使用权限、更改权限和SOW模板管理及审批权限,使用权限为只读的日常使用,更改权限为BOE知识库管理,包括增删改操作,SOW模板管理及审批权限是对BOE知识库和SOW模板更新进行审批。
在本发明基于自然语言处理的技术文档自动生成系统中,所述的NLP平台包含基于NLP算法的标注与抽取模块和知识图谱模板,所述的标注与抽取模块用于前期BOE文档的数据导入工作,知识图谱模板用于建立文件数据与定义标签的映射关系。
在本发明一种基于自然语言处理的技术文档自动生成系统中,所述的标注与抽取模块中包括有序列标注技术,该序列标注技术是指包含HMM隐马尔可夫模型、CRF条件随机场和RNN循环神经网络在内基础的序列标注模型,运用序列标注技术从带标注的文本数据中抽取特性训练序列标注模型,用于从连续文本数据中抽取指定意义的文本片段,运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征,再结合传统n-gram特征,使用表示学习优化特征提取,再使用增强学习方式,结合少量标注训练数据提升模型效果,在标注工作完成后,进行文档数据的抽取,用于之后的导入。
在本发明一种基于自然语言处理的技术文档自动生成系统中,所述的知识图谱模板利用事先定义的三元组来定义所需抽取的知识图谱的数据。更进一步地,所述的三元组为实体1-关系-实体2,BOE文档中的关系为:part 2D matrix-reading-PZR zone ,利用命名实体识别通过基于模板的关系抽取方法,将BOE内的数据进行抽取并导入到数据库中形成知识库,并存储所有数据的实体关系。
一种基于自然语言处理的技术文档自动生成方法,该方法先通过利用自然语言处理技术和知识图谱技术建立设备技术规范知识库,再通过智能文本处理技术实现文档的自动生成,从而实现技术文本文档的智能化抽取,做到一键生成。
上述基于自然语言处理的技术文档自动生成方法具体包括如下实现步骤:
第一步,搭建BOE子系统,其中,BOE子系统包含NLP平台及数据管理模块,NLP平台包含基于NLP算法的标注与抽取模块和知识图谱模板,所述的标注与抽取模块用于前期BOE文档的导入工作,知识图谱模板建立文件数据与定义标签的映射关系,数据管理模块用于BOE文档导入后的数据与标签关系的维护管理;
第二步,搭建SOW子系统,SOW子系统包含模板管理模块和模板生成模块,模板管理模块用于对SOW的文档数据的维护管理,模板生成模块用于当用户选择好相应的信息后,系统可以自动将用户选取的和从BOE知识库里抽取的信息自动填充到SOW模板里,从而自动生成一份新的SOW文档;
第三步,构建权限子系统,实现三级权限管理系统,三级权限包括使用权限、更改权限和审批权限,所述的使用权限用于日常使用,更改权限用于BOE知识库管理和SOW模板管理,审批权限用于对BOE知识库和SOW模板更新进行审批;
第四步,上传BOE文档至NLP平台,在定义标签后,对BOE文档内所需输出的数据进行标注;标注完成后,标注数据自动抽取并导入至知识库中保存,保存信息中包含通过知识图谱技术分析的数据间的关联关系,标注数据包含段落及其他格式信息,用以还原出原始样式;
第五步,在BOE子系统中的数据管理模块内,选择BOE文档类型,对标注数据进行包括增加内容、删除内容及修改内容在内的操作,结束后提交审批;
第六步,若审批通过,更新数据录入BOE知识库,并更新更改记录,若审批拒绝,则只更新更改记录;
第七步,将SOW模板格式导入SOW子系统的模板管理模块内,并导入模板一级参数及其对应的一级参数下拉选项,该一级参数包括:设备类型、生产线名称和产品型号数量,该一级参数下拉选项为新设备或改造设备;
第八步,导入二级菜单及其对应的下拉选项,该二级菜单包括:产品型号、产品型号描述、报价范围、其他报价信息、工序号、工序名称、加工单元编号、工序内CNC台数、NC是单主轴还是双主轴、cell# gantry数量、最终清洗机工序内设备台数、工位名称和cell数量,二级菜单的下拉选项则包含是否必填和变量设置;
第九步,在SOW子系统的模板生成模块内选择所有参数,最终生成符合模板格式的模板文档。
基于上述技术方案,本发明基于自然语言处理的技术文档自动生成系统与现有技术相比具有如下技术优点:
1.本发明专利提出一种为企业搭建的基于自然语言处理的技术文档自动生成系统,结合业务于人工智能,满足基于知识经验的数字化管理需求,通过利用自然语言处理技术(NLP)及知识图谱技术(KG)建立设备技术规范(BOE)知识库,通过智能文本处理技术实现文档的自动生成,提升项目规划效率及质量。
2.本发明专利应用知识图谱及智能文本处理技术,实现技术文本文档的智能化抽取,一键式生成,提高项目规划效率和质量。包括海量文档资料(电子版、纸质的、Office、txt、pdf)集中存储的平台,稳定可靠,文档上传至系统中进行集中存储,查找方便快捷,有效防止重要文件的丢失。支持对文本数据的增删改方法,并且具备较强的稳定性。
附图说明
图1是本发明基于自然语言处理的技术文档自动生成系统的组织结构图。
图2是本发明一种基于自然语言处理的技术文档自动生成方法的操作流程示意图。
具体实施方式
下面我们结合附图和具体的实施例来对本发明一种基于自然语言处理的技术文档自动生成方法及技术文档自动生成系统做进一步的详细阐述,以求更为清楚明了地理解其模块组成和操作流程,但不能以此来限制本发明的保护范围。
如图1所示,图1是本发明基于自然语言处理的技术文档自动生成系统的组织结构图。本发明是一种基于自然语言处理的技术文档自动生成系统,该系统包括有BOE子系统、SOW子系统和权限管理子系统,分管不同功能的三个子系统为平级关系, BOE子系统主要是对BOE的文档数据进行管理,但其部分数据同时会为SOW模板文档自动生成提供数据源,SOW子系统针对SOW文档数据进行管理,权限管理子系统应用于BOE及SOW子系统,对BOE及SOW的文档数据进行用户权限的管理,管理的权限包括只读、读写及审批。
上述的BOE子系统包括有NLP平台和数据管理模块,所述的NLP平台用于将BOE文档利用NLP技术进行标注与抽取,再结合KG技术建立数据与标签的映射关系,形成BOE知识库,所述的数据管理模块用于BOE知识库的可视化数据管理,并提供增删改功能,为后续的技术文档自动生成提供数据源。
上述的SOW子系统包括有SOW模板生成模块和模板管理模块,所述的SOW模板生成模块连接用户交互界面,当用户在用户交互界面选择好相应的信息,自动将用户选取的信息和从BOE子系统中的BOE知识库内抽取的信息自动填充到SOW模板里,以自动生成一份新的SOW,所述的模板管理模块对SOW模板内与BOE非相关的标签数据进行增删。
上述的权限管理子系统设有三级权限管理,分别为使用权限、更改权限和SOW模板管理及审批权限,使用权限为只读的日常使用,更改权限为BOE知识库管理,包括增删改操作,SOW模板管理及审批权限是对BOE知识库和SOW模板更新进行审批。权限管理子系统提供了三级权限管理,包括使用权限:日常使用(只读),更改权限:BOE知识库管理(增删改),SOW模板管理及审批权限:对BOE知识库和SOW模板更新进行审批。
在本发明基于自然语言处理的技术文档自动生成系统中,所述的NLP平台包含基于NLP算法的标注与抽取模块和知识图谱模板,所述的标注与抽取模块用于前期BOE文档的数据导入工作,知识图谱模板用于建立文件数据与定义标签的映射关系。搭建平台所需使用的模型包括:序列标注技术(CRF算法),文本分类,深度学习,表示学习,字符串算法(KMP算法,BM算法,LCS算法,编辑距离)。标注与抽取模块中包括了序列标注技术,该序列标注技术是指包含HMM隐马尔可夫模型、CRF条件随机场和RNN循环神经网络在内基础的序列标注模型,这些基础模型为现有技术不再赘述。运用序列标注技术从带标注的文本数据中抽取特性训练序列标注模型,用于从连续文本数据中抽取指定意义的文本片段,运用文本分类、深度学习和字符串算法来提取海量文本数据潜在特征,再结合传统n-gram特征,使用表示学习优化特征提取,再使用增强学习方式,结合少量标注训练数据提升模型效果,在标注工作完成后,进行文档数据的抽取,用于之后的导入。
在上述基于自然语言处理的技术文档自动生成系统中,所述的知识图谱模板利用事先定义的三元组来定义所需抽取的知识图谱的数据。更进一步地,所述的三元组为实体1-关系-实体2,BOE文档中的关系为:part 2D matrix-reading-PZR zone ,利用命名实体识别(NER)通过基于模板的关系抽取方法,将BOE内的数据进行抽取并导入到数据库中形成知识库,并存储所有数据的实体关系。
作为企业搭建的基于自然语言处理的技术文档自动生成系统,结合业务于人工智能,满足基于知识经验的数字化管理需求,通过利用自然语言处理技术(NLP)及知识图谱技术(KG)建立设备技术规范(BOE)知识库,通过智能文本处理技术实现文档的自动生成,提升项目规划效率及质量。
利用本发明技术处理的文档包括海量文档资料,例如电子版、纸质的、Office、txt和pdf等,可以作为上述文件的集中存储的平台,稳定可靠,文档上传至系统中进行集中存储,查找方便快捷,有效防止重要文件的丢失。支持对文本数据的增删改方法,并且具备较强的稳定性。
将现有文档(BOE)通过利用NLP和KG技术建立BOE知识库并进行可视化,具有统一的维护管理接口,使用方便,同时为后续的技术文档自动生成提供数据源。对于SOW, 需要专门的用户交互界面,当用户选择好相应的信息后,系统可以自动将用户选取的和从BOE知识库里抽取的信息自动填充到SOW模板里,从而自动生成一份新的SOW。
本发明还涉及到一种基于自然语言处理的技术文档自动生成方法,该方法先通过利用自然语言处理技术和知识图谱技术建立设备技术规范知识库,再通过智能文本处理技术实现文档的自动生成,从而实现技术文本文档的智能化抽取,做到一键生成。
如图2所示,上述基于自然语言处理的技术文档自动生成方法具体包括如下实现步骤:
第一步,搭建BOE子系统,其中,BOE子系统包含NLP平台及数据管理模块,NLP平台包含基于NLP算法的标注与抽取模块和知识图谱模板,所述的标注与抽取模块用于前期BOE文档的导入工作,知识图谱模板建立文件数据与定义标签的映射关系,数据管理模块用于BOE文档导入后的数据与标签关系的维护管理。
第二步,搭建SOW子系统,SOW子系统包含模板管理模块和模板生成模块,模板管理模块用于对SOW的文档数据的维护管理,模板生成模块用于当用户选择好相应的信息后,系统可以自动将用户选取的和从BOE知识库里抽取的信息自动填充到SOW模板里,从而自动生成一份新的SOW文档。
第三步,构建权限子系统,实现三级权限管理系统,三级权限包括使用权限、更改权限和审批权限,所述的使用权限用于日常使用,更改权限用于BOE知识库管理和SOW模板管理,审批权限用于对BOE知识库和SOW模板更新进行审批。
第四步,上传BOE文档至NLP平台,在定义标签后,对BOE文档内所需输出的数据进行标注;标注完成后,标注数据自动抽取并导入至知识库中保存,保存信息中包含通过知识图谱技术分析的数据间的关联关系,标注数据包含段落及其他格式信息,用以还原出原始样式。
第五步,在BOE子系统中的数据管理模块内,选择BOE文档类型,对标注数据进行包括增加内容、删除内容及修改内容在内的操作,结束后提交审批。
第六步,若审批通过,更新数据录入BOE知识库,并更新更改记录,若审批拒绝,则只更新更改记录。
第七步,将SOW模板格式导入SOW子系统的模板管理模块内,并导入模板一级参数及其对应的一级参数下拉选项,该一级参数包括:设备类型、生产线名称和产品型号数量,该一级参数下拉选项为新设备或改造设备。
第八步,导入二级菜单及其对应的下拉选项,该二级菜单包括:产品型号、产品型号描述、报价范围、其他报价信息、工序号、工序名称、加工单元编号、工序内CNC台数、NC是单主轴还是双主轴、cell# gantry数量、最终清洗机工序内设备台数、工位名称和cell数量,二级菜单的下拉选项则包含是否必填和变量设置。
第九步,在SOW子系统的模板生成模块内选择所有参数,最终生成符合模板格式的模板文档。
毫无疑问,以上只是本发明专利基于自然语言处理的技术文档自动生成系统及生成方法的具体实现方式,除此之外还包括有其他类似的替代和变化,以实现相同和相近的发明目的。总而言之,本发明的保护范围还包括有其他对于本领域技术人员来说显而易见的变化和替代。