CN118069853A

CN118069853A - 一种文案编写智能化辅助系统及构建方法

Info

Publication number: CN118069853A
Application number: CN202211468655.2A
Authority: CN
Inventors: 杨金华; 陈锐; 李家金; 陈伟; 尹赛超; 彭冬冬; 马潇; 黄梅; 侯琳; 程颖
Original assignee: Petrochina Co Ltd
Current assignee: Petrochina Co Ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2024-05-24

Abstract

本发明公开了一种文案编写智能化辅助系统及构建方法，属于办公文案领域。本发明的文案编写智能化辅助系统及构建方法，实现了更加便捷、高效地处理各类工作事务，将人员从繁重的事务性工作中解放出来，提升精细化管理水平，提高事务性办公效率。打通事务性办公知识共享，建立事务性办公中知识智能推荐、智能写作、文档自动校验、文档智能分析，实现文档编写智能辅助，提高员工工作效率。

Description

一种文案编写智能化辅助系统及构建方法

技术领域

本发明属于办公文案领域，尤其是一种文案编写智能化辅助系统及构建方法。

背景技术

目前业内最成熟的相关产品是文书管理系统，主要应用于法院文书的全生命周期管理。它利用OCR、自然语言处理、数据挖掘等技术，对行业领域内文书数据进行分析处理，构建文书知识库和法律知识库，主要实现了文书自动生成，文书智能审核这两大功能。法院智能文书管理系统使用模板起草文书，通过从前置文书中提取有关信息，自动填充至文书模板中的相应位置，生成文书初稿，并且在起草过程中检索法律条款库，支持一键索引。智能文书系统对海量信息抽取、数据挖掘、分布式计算的特性值得借鉴，但该系统运行基础紧密结合法院文书资料库，文案模式高度固定和油田公司实际工作中纷杂的业务场景存在较大区别。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种文案编写智能化辅助系统及构建方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种文案编写智能化辅助系统，包括知识智能推荐模块、智能写作模块、文档自动校验模块和文档智能分析模块；

所述知识智能推荐模块，用于实现公文的智能搜索；以及实现信息的快速查询；

所述智能写作模块，用于根据用户创作时的业务标签推荐相关范文，并支持划词搜索；用于调用用户自定义的文案模板，按模板进行填充创作；以及针对技术报告，支持用户定义提纲，按照提纲进行关联的查询和创作；

所述文档自动校验模块，用于支持对不同版本的文案管理和对比；以及支持对文案语法纠错和关键词检查；

所述文档智能分析，用于能够根据文案内容自动添加业务标签，还支持对文档进行摘要提取和分类；用于对PDF文档的OCR识别。

进一步的，所述知识智能推荐模块，还用于在文案写作时，根据不同业务标签，对相关文案及规章制度做出关联推荐。

一种文案编写智能化辅助系统的构建方法，包括以下操作：数据模型设计、知识库设计和知识图谱构建。

进一步的，数据模型设计具体为：

从组织域、业务域、专业域这三个维度展开知识分级分类；基于文档数据模型，参考国内外工业界和学术界的标准，构建形成统一的综合知识属性分类标准；梳理知识与知识、知识与对象、知识与业务之间的关联关系，形成关系网络；构建标签体系对业务分类进行梳理。

进一步的，知识库设计具体为：

基于历史文案数据，利用知识图谱或NLP技术，按照主干知识库构建、知识图谱库管理和知识搜索、智能应用的步骤统一进行，不断扩展、优化和迭代，形成文案知识库。

进一步的，知识库管理包括本体管理和实体管理两大类，本体管理包含对业务本体的属性和本体之间的关系进行梳理和展示；本体管理支持业务本体的增、删、改及查的操作；

实体管理支持对实体进行增、删、改及查的操作，还用于对业务实体节点的属性和关系进行维护；支持导入结构化数据，探索实体之间的关联关系。

进一步的，知识图谱构建包括图谱构建、图谱管理、实体融合和图谱可视化；

其中，图谱构建是将原始数据，转化为图谱数据，通过知识表示、知识获取及知识融合的过程，构建知识图谱，并通过知识评估与更新，不断迭代；

所述图谱管理用于基于已创建的知识图谱，预览不同结构形式的知识图谱；或者基于已有图谱，通过全量和增量操作更新图谱，维护图谱质量与数据结构，还用于通过复制配置快速创建图谱；

所述实体融合用于将不同数据源的知识进行归一；

所述图谱可视化用于对图算法、图分析的结果进行可视化的展示。

进一步的，知识图谱构建遵循知识抽取、知识融合、知识加工及知识应用的基本流程，从海量结构化和非结构化数据中进行实体、关系、属性和事件的信息提取，通过本体和实体对齐、指代消解解决数据冲突，完成知识融合。

进一步的，当知识图谱构建的对象为通用知识图谱时，采用自底向上的构建方式，从开放链接数据抽取出置信度高的实体，再逐层构建实体与实体之间的联系；

当知识图谱构建的对象为行业知识图谱时，采用自顶向下的构建方式，先定义好本体与数据模式，再抽取实体加入到知识库。

进一步的，包括以下步骤：

(1)通过数据聚类分析，利用本体编辑器实现知识本地的设计；

(2)抽取出知识单元，知识单元主要包括实体、关系以及属性3个知识要素；

(3)通过实体对齐与置信度计算的技术，对实体、属性和关系进行对齐和融合；

(4)通过领域、通用推理规则或基于统计的规则挖掘的方法，对已获得的知识进行推理补全或者冲突检查，以完善和优化知识图谱；

(5)在知识图谱的基础上利用OCR、自然语言处理、数据挖掘的技术，对行业领域内文书数据进行分析处理，实现文案智能分析及辅助生成。

与现有技术相比，本发明具有以下有益效果：

本发明的文案编写智能化辅助系统及构建方法，实现了更加便捷、高效地处理各类工作事务，将人员从繁重的事务性工作中解放出来，提升精细化管理水平，提高事务性办公效率。打通事务性办公知识共享，建立事务性办公中知识智能推荐、智能写作、文档自动校验、文档智能分析，实现文档编写智能辅助，提高员工工作效率。

附图说明

图1为数据模型设计；

图2为具体类型的数据模型设计；

图3为知识库设计；

图4为总体流程设计；

图5为架构设计；

图6为实体关系；

图7为实体关系抽取；

图8为自然语言处理；

图9为机器学习及知识框架；

图10为机器学习模型；

图11为文案智能写作界面；

图12为文案智能分析界面。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

当下办公模式智能化发展逐步深化，如何使用智能化的手段提高事务性办公效率，累计岗位工作经验并知识化，实现事务性办公知识智能推荐成为亟待解决的问题。本发明结合油田企业办公实际场景、业务特点，通过文案编写智能化平台打造数字生态体系，通过数据为综合办公支持系统赋能，让行文、办事、办会、更加简单、便捷、智能。本发明的文案编写智能化辅助系统实现了更加便捷、高效地处理各类工作事务，将人员从繁重的事务性工作中解放出来，提升精细化管理水平，提高事务性办公效率。打通事务性办公知识共享，建立事务性办公中知识智能推荐、智能写作、文档自动校验、文档智能分析，实现文档编写智能辅助，提高员工工作效率。其中四大功能模块的作用如下：

1、知识智能推荐模块，实现历史公文文案、规章制度等典型公文的智能搜索；实现文案写作时，根据不同业务标签，对相关文案，规章制度的关联推荐；实现热点信息的快速查询。

2、智能写作模块，实现用户自由创作，并根据业务标签推荐相关范文，支持划词搜索；实现用户定义固定的文案模板，按模板进行填充创作；针对技术报告，支持用户定义提纲，并按照提纲进行关联的查询和创作。

3、文档自动校验模块，支持对不同版本的文案管理，对比；支持对文案语法纠错，关键词检查、敏感词核查等。

4、文档智能分析模块，针对特定的文案，能够根据内容自动添加业务标签；支持对特点文档进行自动摘要，自动分类；能够对PDF文档的OCR识别。

下面结合附图对本发明做进一步详细描述：

1、数据模型设计：从组织域、业务域、专业域这三个维度展开知识分级分类；基于企业文档数据模型，参考国内外工业界和学术界的标准，构建形成统一的综合知识属性分类标准；梳理知识与知识、知识与对象、知识与业务之间的关联关系，形成关系网络。标签体系的构建即对业务分类进行梳理。主要包括新闻宣传、企业文化、工会工作等业务分类；通过分类梳理相关业务知识，标准规范体系，对业务本体、属性及关系进行知识表示和建模，实现知识体系统一管理和维护。见附图1和2。

2、知识库设计：基于历史文案数据，利用知识图谱、NLP等技术，整体上按照主干知识库构建、知识图谱库管理和知识搜索、智能应用等步骤统一进行，不断扩展、优化和迭代系统，形成文案知识库。从文档分类开始，进行人工信息标注、知识抽取、知识融合、知识同步与更新，逐步形成文案知识图谱库。知识图谱平台对非结构化和结构化信息用图谱进行整合管理以实现对知识成果信息的快速流动和共享应用，该平台可大致分为数据采集、数据处理、知识管理及应用等功能。

其中知识库管理分为本体管理和实体管理两大类，本体管理包含对业务本体的属性和本体之间的关系进行梳理和展示；支持业务本体的增、删、改、查等操作；使业务人员对整体的思想政治工作处业务体系有全貌的了解。实体管理允许对实体进行增、删、改、查等操作；对业务实体节点的属性和关系进行维护；支持导入结构化数据，探索实体之间的关联关系。见附图3。

3、知识图谱构建：知识图谱(Knowledge Graph)是Google公司2012年提出的一种技术方法，用图模型来描述知识，对世间万物之间的关联关系进行建模。本方案中用到了知识图谱技术中的图谱构建、图谱管理、实体融合、图谱可视化等技术能力，以及社区发现、路径搜索算法、中心性算法、基于图谱的推荐算法等算法能力。图谱构建是将原始数据，转化为图谱数据，通过知识表示、知识获取、知识融合等过程，构建知识图谱，并通过知识评估与更新，不断迭代。图谱管理是对已经创建的知识图谱，可以预览不同结构形式的知识图谱，可以基于已有图谱，通过全量和增量操作更新图谱，维护图谱质量与数据结构，并可以通过复制配置快速创建图谱。而实体融合则是将不同数据源的知识进行归一，保证不同数据源的相同知识存储的唯一性。最终图谱可视化，通过可视化的方法对图算法、图分析的结果进行直观展示。

根据覆盖范围的不同，知识图谱可以区分为应用相对广泛的通用知识图谱和专属于某个特定领域的行业知识图谱：通用知识图谱覆盖范围广，注重横向广度，强调融合更多的实体，通常采用自底向上的构建方式，从开放链接数据(“信息”)中抽取出置信度高的实体，再逐层构建实体与实体之间的联系；行业知识图谱指向一个特定的垂直行业，注重纵向深度，具有丰富的实体属性和数据模式，通常采用自顶向下的构建方式，先定义好本体与数据模式，再抽取实体加入到知识库。知识图谱的构建遵循知识抽取、知识融合、知识加工、知识应用的基本流程。从海量结构化和非结构化数据中进行实体、关系、属性和事件的信息提取，通过本体和实体对齐、指代消解解决多种类型的数据冲突问题，完成知识融合。将知识存储到知识库中，最后进行进一步的知识推理和图谱应用。

本发明按照知识本体设计、知识获取、知识融合、知识推理的流程构建业务知识图谱。通过业务专家以及数据聚类分析等方法，利用本体编辑器实现知识本体的设计。用自动化的技术抽取出可用的知识单元(主要包括实体及概念的外延)、关系及属性3个知识要点。使用置信度计算的方法对实体、关系及属性进行对齐和融合。最后通过通用推理规则和基于统计的规则挖掘方法，对已经获得的知识进行推理补全或冲突检查，完善和优化知识图谱。

本发明的总体思路为：按照知识汇集、知识管理、知识共享、业务应用四个层级，采用成熟稳定云技术框架与微服务架构，进行“标签化”和知识化处理，为各岗位事务性办公工作提供知识和资讯智能推荐和推送服务，同时自动汇集工作成果资料，进行“标签化”和知识化闭环处理。打造先进实用易用的知识共享平台，实现海量知识互联，构建智能搜索、智能问答、智能分析、智能推送文案辅助生成等智能应用。见附图4。

应用架构设计：基于文案编写业务流程，构建专业文案库，利用知识图谱、人工智能等技术，构建知识智能应用环境及智能搜索通用功能，结合文案编写业务的专业功能需求，形成3大块核心业务应用(智能搜索、智能写作、智能分析)，实现文案库及文案智能辅助的场景。见附图5。

实体关系抽取：对信息源的知识抽取主要按照自然语义中的主谓宾语法进行抽取，分为实体抽取、关系抽取、属性抽取和事件抽取等。实体抽取是指在信息源中识别出特定的元素标签，并与实体库中的标签相链接，是信息抽取中最基础的部分；关系抽取意在找到信息源中实体间的关系，可分为全局抽取和局部抽取，全局抽取是通过语料库对信息源中的所有关系对进行抽取，而局部抽取则是判断一句话中实体的关系类型，目前可以通过特征标注的有监督学习和借助外部知识库进行标注的远程监督学习实现，后者相比前者节省人工标注成本，但准确率略低；属性抽取可以看作实体和其属性值之间的关系，属于关系抽取的一种类型；事件抽取是将信息源中指定的事件信息抽取，并结构化地表现出来，包括事件的时间、地点、人物、原因、结果等，通常使用将事件划分多个分类阶段的pipeline方法和利用神经网络的深度学习方法，事件抽取拥有时间维度，可以与时俱进地迭代学习，是知识图谱知识更新的重要手段。见附图6和7。

自然语言解析：自然语言处理又名NLP(Natural Language Processing)是研究人与计算机交互语言的一门学科。可使机器按照设计的一系列算法对自然语言的各级语言单位(字、词、语句、篇章等)进行转换、传输、存贮、分析等加工处理；能像人一样进行词法、语法和句法分析和话语分析，包括挑战性的自然语言理解和自然语言生成。按照技术实现难度的不同，这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。本方案中用到了自然语言处理技术中的文本分类、文本聚类、命名实体识别、知识抽取、文本相似度计算、检索、问答等技术能力。

其中，词法分析主要包括词性分析(实现对单词前后缀进行分析)和词汇分析(对整个词汇系统进行分析)；语法和句法分析是对句子的语法规则、处理方法进行分析，对词汇短语的分析，识别句子的句法结构，实现句子的自动分析；话语分析是全方位的理解句子的语法、语调，实现对整个句子意思和情感的理解。见附图8；

机器学习算法及知识框架：机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。深度学习是机器学习领域的一个新的研究方向，在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术取得很多成果。本发明用到了基于机器学习/深度学习技术的分类算法、聚类算法、预测算法、异常检测、深度学习、推荐算法能力。见附图9、10。

本发明基于知识库相关知识成果，融合知识图谱、自定义模板、规则引擎等，辅助生成文案，提高方文案编制工作效率。具体实现效果主要包含文案综合检索、公文模板管理、自由写作、模板写作、提纲写作、自动摘要、文本对比、文本纠错、敏感信息检查、文本OCR。

1、智能检索：在不改变现有信息系统架构的前提下，建成一站式文档知识搜索引擎入口，实现不同粒度知识的智能检索、多维检索、分类检索、热搜展示等功能，针对检索出的结果可以快捷加入写作。基于文本解析、知识图谱等技术，通过文案编写、智能搜索、关联推荐、智能文案校核等功能，实现智能写作辅助。

2、智能写作：基于文本解析、知识图谱等技术，通过文案编写、智能搜索、关联推荐、智能文案校核等功能，实现智能写作辅助。见附图11。

3、智能分析：基于知识图谱、机器学习等技术，构建智能文本标注模型，实现对文本的智能标注与自动摘要。其中人工标注，通过知识标注工具，业务专家对文档中的知识进行标注，支持实体、关系、属性等方式的知识标注，标注结果可实时保存到图谱存为知识。标注数据可积累用于预标注模型的训练，训练自动标注的模型，代替人工标注。模型自动标注，利用人工标注结果，基于机器学习等技术，对文档进行模型自动标注。见附图12。

实施例

本发明主要实现了企业事务性办公知识管理与构建和知识分析与应用两大模块功能，主要分为以下5个步骤实现：

①通过业务专家以及数据聚类分析等方法，利用本体编辑器实现知识本地的设计。

②通过自动化的技术抽取出可用的知识单元，知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素。

③通过实体对齐与置信度计算等技术，对实体、属性和关系进行对齐和融合。

④通过领域或通用推理规则或者基于统计的规则挖掘等方法，对已获得的知识进行推理补全或者冲突检查，可以完善和优化知识图谱；

⑤在知识图谱的基础上利用OCR、自然语言处理、数据挖掘等先进技术，对行业领域内文书数据进行分析处理，实现文案智能分析及辅助生成，提高文案编写与审核效率，减少重复性工作，降本增效，推动企业办公文书管理规范化与智能化。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种文案编写智能化辅助系统，其特征在于，包括知识智能推荐模块、智能写作模块、文档自动校验模块和文档智能分析模块；

2.根据权利要求1所述的文案编写智能化辅助系统，其特征在于，所述知识智能推荐模块，还用于在文案写作时，根据不同业务标签，对相关文案及规章制度做出关联推荐。

3.一种文案编写智能化辅助系统的构建方法，其特征在于，包括以下操作：数据模型设计、知识库设计和知识图谱构建。

4.根据权利要求3所述的文案编写智能化辅助系统的构建方法，其特征在于，数据模型设计具体为：

5.根据权利要求3所述的文案编写智能化辅助系统的构建方法，其特征在于，知识库设计具体为：

6.根据权利要求5所述的文案编写智能化辅助系统的构建方法，其特征在于，知识库管理包括本体管理和实体管理两大类，本体管理包含对业务本体的属性和本体之间的关系进行梳理和展示；本体管理支持业务本体的增、删、改及查的操作；

7.根据权利要求3所述的文案编写智能化辅助系统的构建方法，其特征在于，知识图谱构建包括图谱构建、图谱管理、实体融合和图谱可视化；

所述实体融合用于将不同数据源的知识进行归一；

8.根据权利要求3所述的文案编写智能化辅助系统的构建方法，其特征在于，知识图谱构建遵循知识抽取、知识融合、知识加工及知识应用的基本流程，从海量结构化和非结构化数据中进行实体、关系、属性和事件的信息提取，通过本体和实体对齐、指代消解解决数据冲突，完成知识融合。

9.根据权利要求8所述的文案编写智能化辅助系统的构建方法，其特征在于，当知识图谱构建的对象为通用知识图谱时，采用自底向上的构建方式，从开放链接数据抽取出置信度高的实体，再逐层构建实体与实体之间的联系；

10.根据权利要求3所述的文案编写智能化辅助系统的构建方法，其特征在于，包括以下步骤：