CN113254574A

CN113254574A - 一种机关公文辅助生成方法、装置以及系统

Info

Publication number: CN113254574A
Application number: CN202110289665.9A
Authority: CN
Inventors: 白海琦; 汪百铮; 张志红
Original assignee: Hebei GEO University
Current assignee: Hebei GEO University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-08-13

Abstract

本发明提供了一种机关公文辅助生成方法，包括：生成机关公文辅助生成系统；基于机关公文辅助生成系统进行公文创作；对公文进行智能纠错。机关公文辅助生成装置，包括：机关公文辅助生成系统创建模块；公文创作模块；智能纠错模块。利用计算机的大容量存储、快速处理和便捷的人机交互能力，构建基于语料库的计算机辅助写作系统，通过人机交互形式为使用者实时推荐来源于真实语料库的句型和例句，面向造句这一核心活动提供帮助，填补基于语料库的计算机辅助写作系统的技术空白，通过采取该一站式智能公文写作辅助方法，解决现有技术提供信息不精准、效率低，写作辅助服务不到位、不完善的问题，全方位满足写作需要。

Description

一种机关公文辅助生成方法、装置以及系统

技术领域

本发明涉及公文的自然语言生成技术领域，特别是一种机关公文辅助生成方法、装置以及系统。

背景技术

现代公文，主要指机关在实施领导和行政管理过程中形成的具有法定效力和规范体式的文书，是进行领导管理和公务活动的重要工具；也泛指各级各类机关、社会团体、企事业单位制订、使用的公务文书，现代公文撰写需要依据《机关公文格式》国家标准(GB/T9704--2012)，公文内容涵盖多个行业，再加上公文本身的分类，比如通知、函等，以及不属于正式公文，但是属于机关单位常用的文字材料，比如讲话稿、经验材料等，门类繁多，错综复杂，某一篇公文必然是依托于某项业务或者领域的，想一次性解决所有公文写作问题，执行起来难度非常大。此外，公文指导书籍、培训讲座的主体可能某个领域是高手，但不是在任何领域都是高手，因此所购买的指导类书籍不能解决所有问题。公文写作的经验和概念融会贯通道写作实践中需要一个过程，沉淀和融入的过程，因此如果仅仅依据经验和撰写规范意图学会所有的公文撰写并成为撰写能手几乎是不可能的。

政府办公发文的内容规范性越来越强，内容越来越广泛，迫切需要一种能够自动生成各种办公文体的系统和方法，来提高政府机关的整体效能和工作效率，使得撰写质量得以把控，并且缩短撰写时间，提高公文写作效率，降低公文写作成本。

发明内容

本发明针对现有技术的缺陷，提供一种机关公文辅助生成方法和装置，利用计算机的大容量存储、快速处理和便捷的人机交互能力，构建一种基于语料库的计算机辅助写作系统，通过人机交互形式为使用者实时推荐来源于真实语料库的句型和例句，面向造句这个写作的核心活动为人们提供帮助，填补基于语料库的计算机辅助写作系统的技术空白，通过采取该一站式智能公文写作辅助方法，解决了现有技术中提供信息不精准、效率低，写作辅助服务不到位、不完善的技术问题，全方位满足写作需要。

本发明的目的及解决其技术问题是采用以下技术方案来实现的。

根据本发明一方面，提供了一种机关公文辅助生成方法，包括：

步骤1，生成机关公文辅助生成系统；

步骤2，基于所述机关公文辅助生成系统进行公文创作；

步骤3，对所述公文进行智能纠错。

根据本发明的又一方面，所述步骤1包括：

步骤11，采集数据，包括：搜索所述采集数据的数据来源，采用多线程技术，进行网站群的多站点采集；所采集的数据包括：现有公文的国家标准和具体要领，采集公开发文的样式体例和段落格式，供后期数据清理和整理提供文本依据，还包括自行补充数据，如采集报告、简报、党刊、政刊等机关公文；

步骤12，存储数据，包括：存储不同类型文章的文章标题、内容及文章语义特征数据模型；

步骤13，对所述数据进行预处理，包括：对若干公文按照公文类型进行归类，得到不同类型的公文数据集；构建每个公文数据集中每篇公文的公文模型；

步骤14，对预处理后的数据进行相似度分析，包括：将待测评文章的文章标题、内容及文章语义特征数据模型与所存储的不同类型文章的标题、内容及文章语义特征数据模型进行相似性对比分析，获取相似度值；

步骤15，对所述数据进行分类聚类，包括：基于获取的公文写作属性信息，推荐一个或多个选题和关键词；其中属性信息表示写作所属的领域、类型或关键词；基于选择确定的选题和关键词，推荐一个或多个相关资料，提供所述资料的浏览阅读；基于选择确定的选题和关键词，推荐一个或多个写作提纲；在选择确定的写作提纲框架下，进行写作创作，生成写作作品；进一步提供格式规范的查重和参考案例，对所述写作作品进行查重；

步骤16，基于深度学习生成训练样本的方式获得所述机关公文辅助生成系统，包括：在文档编辑界面中，输入所要搜索的信息中所应当包含的搜索项，所述搜索项至少包括关键字或词或句子；所述搜索项被转换成词向量后从预先建立的数据库中搜索与词向量匹配的句向量，每一所述句向量均被设置在数据库的一个独立的数据单元中，所述数据单元至少包括句子文本信息、句向量、句子出处、句子自带的引用信息；在文档编辑界面中，返回相应的所述数据单元内的句子文本信息、句向量、句子出处、句子自带的引用信息以供编辑者选择。

根据本发明的又一方面，所述步骤2包括：

步骤21，选取并显示待写公文章对应的多个要素，所述要素包括开头、结尾、格式、观点；选取并显示待写公文章对应的框架；接收输入写公文章的内容；实时读取写公文章内容最新的关键词，根据最新的关键词和/或选择的关键词实时显示推荐的至少一条对应相关联的素材；

步骤22，当检测到用户需要写作辅助时，检测用户输入的文本信息；分析所述文本信息，以得到分析结果；其中，所述分析结果用于确定用户所需要的公文素材；根据所述分析结果，在公文素材数据库中确定出至少一个公文素材；结合分析结果与至少一个公文素材生成写作辅助信息；输出写作辅助信息；

步骤23，根据计算的写作模板以及构建的触发条件构建自动写作模板库，包括：根据已分好的类别对模板数据进行相似度计算找到相同的模板；利用CRF 对所述写作模板进行触发条件识别后形成触发条件-模板；其中所述写作模板的计算包括基于余弦相似度的写作模板计算或基于Word2Vec的写作模板计算；

步骤24，获取用户输入的词汇或句子；将所述输入的词汇或句子与语料库中的语料词汇或句子进行匹配，若所述语料库中存在与所述输入的词汇或句子相同或相近的语料词汇或句子，则匹配成功；当匹配成功时，在所述语料库中查找该语料词汇或句子的第一相关信息，并将该第一相关信息加载至用户写作窗口；

步骤25，用户进行电子写作时，通过获取用户输入的语句，进行分词、计算标签处理；分析用户正在表达的短语、短句的意义，然后根据所述标签在数据库中获取同义或含义类似的优秀语句，并推荐给用户；用户运用自己的写作能力对推荐语句进行选择、修改，并写入文章中；

步骤26，从素材材料库中采集素材材料，并对所述素材材料中的关键词和实体名词进行识别，计算字词依存概率，产生词向量，或者运用其他自然语言处理算法得到相关数据；对所述素材材料进行机器学习，挖掘出相关的专业知识，并对所述素材材料涉及的专业知识进行结构化，形成知识图谱，并生成文章框架；根据编辑人员的写作内容和个人特点提供有针对性的参考资料，生成文章；由人工对机器生成的文章进行重新审定和矫正，并将审定和矫正结果反馈给机器学习端，由机器学习端进行审核，利用知识图谱和之前机器学习训练得到的模型，自动纠正错别字和错词，完成最终文章。

根据本发明的又一方面，所述步骤3包括：

步骤31，预先构建用于外语语句自动纠错的纠错模型；

步骤32，获取用户书写的外语语句，提取所述语句中各词的词向量及所述语句的句子向量；

步骤33，依次将所述语句中各词的词向量及所述语句的句子向量输入所述纠错模型，得到所述纠错模型输出的各词的纠正词向量，并根据所述各词的纠正词向量生成纠错后文本；

步骤34，展现所述纠错后文本。

根据本发明另一方面，提供了一种机关公文辅助生成装置，包括：

机关公文辅助生成系统创建模块，用于生成机关公文辅助生成系统；

公文创作模块，用于基于所述机关公文辅助生成系统进行公文创作；

智能纠错模块，用于对所述公文进行智能纠错。

根据本发明的又一方面，所述机关公文辅助生成系统创建模块包括：

数据采集模块，用于：搜索所述采集数据的数据来源，采用多线程技术，进行网站群的多站点采集；所采集的数据包括：现有公文的国家标准和具体要领，采集公开发文的样式体例和段落格式，供后期数据清理和整理提供文本依据，还包括自行补充数据，如采集报告、简报、党刊、政刊等机关公文；

数据存储模块，用于：存储不同类型文章的文章标题、内容及文章语义特征数据模型；

数据预处理模块，用于：对若干公文按照公文类型进行归类，得到不同类型的公文数据集；构建每个公文数据集中每篇公文的公文模型；

相似度分析模块，用于：对预处理后的数据进行相似度分析，包括：将待测评文章的文章标题、内容及文章语义特征数据模型与所存储的不同类型文章的标题、内容及文章语义特征数据模型进行相似性对比分析，获取相似度值；

数据分类聚类模块，用于：基于获取的公文写作属性信息，推荐一个或多个选题和关键词；其中属性信息表示写作所属的领域、类型或关键词；基于选择确定的选题和关键词，推荐一个或多个相关资料，提供所述资料的浏览阅读；基于选择确定的选题和关键词，推荐一个或多个写作提纲；在选择确定的写作提纲框架下，进行写作创作，生成写作作品；进一步提供格式规范的查重和参考案例，对所述写作作品进行查重；

深度学习训练模块，用于通过深度学习生成训练样本的方式获得所述机关公文辅助生成系统，包括：在文档编辑界面中，输入所要搜索的信息中所应当包含的搜索项，所述搜索项至少包括关键字或词或句子；所述搜索项被转换成词向量后从预先建立的数据库中搜索与词向量匹配的句向量，每一所述句向量均被设置在数据库的一个独立的数据单元中，所述数据单元至少包括句子文本信息、句向量、句子出处、句子自带的引用信息；在文档编辑界面中，返回相应的所述数据单元内的句子文本信息、句向量、句子出处、句子自带的引用信息以供编辑者选择。

根据本发明的又一方面，所述公文创作模块包括：

要素选取模块，用于选取并显示待写公文章对应的多个要素，所述要素包括开头、结尾、格式、观点；选取并显示待写公文章对应的框架；接收输入写公文章的内容；实时读取写公文章内容最新的关键词，根据最新的关键词和/或选择的关键词实时显示推荐的至少一条对应相关联的素材；

文本信息分析模块，用于：当检测到用户需要写作辅助时，检测用户输入的文本信息；分析所述文本信息，以得到分析结果；其中，所述分析结果用于确定用户所需要的公文素材；根据所述分析结果，在公文素材数据库中确定出至少一个公文素材；结合分析结果与至少一个公文素材生成写作辅助信息；输出写作辅助信息；

自动写作模板库构建模块，用于：根据计算的写作模板以及构建的触发条件构建自动写作模板库，包括：根据已分好的类别对模板数据进行相似度计算找到相同的模板；利用CRF对所述写作模板进行触发条件识别后形成触发条件-模板；其中所述写作模板的计算包括基于余弦相似度的写作模板计算或基于 Word2Vec的写作模板计算；

语料匹配模块，用于：获取用户输入的词汇或句子；将所述输入的词汇或句子与语料库中的语料词汇或句子进行匹配，若所述语料库中存在与所述输入的词汇或句子相同或相近的语料词汇或句子，则匹配成功；当匹配成功时，在所述语料库中查找该语料词汇或句子的第一相关信息，并将该第一相关信息加载至用户写作窗口；

标签处理以及推荐模块，用于：用户进行电子写作时，通过获取用户输入的语句，进行分词、计算标签处理；分析用户正在表达的短语、短句的意义，然后根据所述标签在数据库中获取同义或含义类似的优秀语句，并推荐给用户；用户运用自己的写作能力对推荐语句进行选择、修改，并写入文章中；

知识图谱生成及审定矫正模块，用于：从素材材料库中采集素材材料，并对所述素材材料中的关键词和实体名词进行识别，计算字词依存概率，产生词向量，或者运用其他自然语言处理算法得到相关数据；对所述素材材料进行机器学习，挖掘出相关的专业知识，并对所述素材材料涉及的专业知识进行结构化，形成知识图谱，并生成文章框架；根据编辑人员的写作内容和个人特点提供有针对性的参考资料，生成文章；由人工对机器生成的文章进行重新审定和矫正，并将审定和矫正结果反馈给机器学习端，由机器学习端进行审核，利用知识图谱和之前机器学习训练得到的模型，自动纠正错别字和错词，完成最终文章。

根据本发明的又一方面，所述智能纠错模块用于针对公文使用的话语非常严谨的特点所进行的纠错，包括，样式，字体，大小，颜色标点，行文规范，包括：

外语语句自动纠错模型构建模块，用于：预先构建用于外语语句自动纠错的纠错模型；

外语语句向量提取模块，用于：获取用户书写的外语语句，提取所述语句中各词的词向量及所述语句的句子向量；

向量纠正及文本纠错模块，用于：依次将所述语句中各词的词向量及所述语句的句子向量输入所述纠错模型，得到所述纠错模型输出的各词的纠正词向量，并根据所述各词的纠正词向量生成纠错后文本；

文本展现模块，用于：展现所述纠错后文本。

根据本发明的又一方面，本发明还包括一种计算机可读存储介质，该存储介质存储可执行指令，可执行指令在被处理器执行时，导致前述机关公文辅助生成方法的执行。可读存储介质可以为非易失性存储器，比如硬盘或磁盘等，并可被应用在各种终端上，可以是计算机、服务器等。

根据本发明的再一方面，本发明还包括一种机关公文辅助生成系统，该系统包括处理器以及存储装置，所述存储装置用于存储可执行指令，当可执行指令被处理器执行时，可实现前述机关公文辅助生成方法。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，即在储存装置中预建例句数据库；取得当前输入数据；根据当前输入数据实时地到例句数据库中搜索以当前输入数据的字/词起始排序的典型格式的句子示例；实时显示各典型格式的句子示例；本发明提供的机关公文辅助生成方法和装置可取得显著的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

1、本发明通过词向量模型，将句子和词都转换成实数向量进行存储和匹配。相比现有技术通过词典或正则化表达式匹配，其检索结果更准确。

2、利用本发明，可以实现对外语写作中语句错误的自动纠错，提高公文写作人员写作效率。

3、利用计算机的大容量存储、快速处理和便捷的人机交互能力，构建一种基于语料库的计算机辅助写作系统，通过人机交互形式为使用者实时推荐来源于真实语料库的句型和例句，面向造句这个写作的核心活动为人们提供帮助，填补基于语料库的计算机辅助写作系统的技术空白，通过采取该一站式智能公文写作辅助方法，解决了现有技术中提供信息不精准、效率低，写作辅助服务不到位、不完善的技术问题，全方位满足写作需要。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。本发明的目标及特征考虑到如下结合附图的描述将更加明显，附图中：

附图1为根据本发明实施例的机关公文辅助生成方法流程图。

附图2为根据本发明实施例的机关公文辅助生成装置结构图。

附图3为根据本发明实施例的由处理器201和存储器202构成的机关公文辅助生成装置结构图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种机关公文辅助生成系统及机关公文辅助生成的方法，其具体实施方式、方法、步骤及其功效，详细说明如后。

通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得一更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

参见图1，本实施例的机关公文辅助生成方法，包括：

S1，生成机关公文辅助生成系统；

S2，基于所述机关公文辅助生成系统进行公文创作；

S3，对所述公文进行智能纠错。

根据本发明的又一方面，所述S1包括：

根据本发明的又一方面，所述步骤2包括：

根据本发明的又一方面，所述步骤3包括：

由于公文使用的话语非常严谨，包括，纠错，包括，样式，字体，大小，颜色标点，行文规范等。

步骤31，预先构建用于外语语句自动纠错的纠错模型；

步骤34，展现所述纠错后文本。

如图2所示，根据本发明另一方面，提供了一种机关公文辅助生成装置，包括：

智能纠错模块，用于对所述公文进行智能纠错。

根据本发明的又一方面，所述公文创作模块包括：

自动写作模板库构建模块，用于：根据计算的写作模板以及构建的触发条件构建自动写作模板库，包括：根据已分好的类别对模板数据进行相似度计算找到相同的模板；利用CRF对所述写作模板进行触发条件识别后形成触发条件-模板；其中所述写作模板的计算包括基于余弦相似度的写作模板计算或基于Word2Vec的写作模板计算；

根据本发明的又一方面，所述智能纠错模块用于针对公文使用的话语非常严谨的特点所进行的纠错，包括，样式，字体，大小，颜色标点，行文规范等。包括：

文本展现模块，用于：展现所述纠错后文本。

根据本发明的再一方面，本发明还包括一种机关公文辅助生成系统，该系统包括处理器以及存储装置。存储装置用于存储可执行指令，当可执行指令被处理器执行时，可实现前述机关公文辅助生成方法。

根据本发明的又一方面，本发明还包括一种计算机可读存储介质，该存储介质存储可执行指令，可执行指令在被处理器执行时，导致前述机关公文辅助生成方法的执行。可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件或其他非易失性固态存储器件等，并可被应用在各种终端上，可以是计算机、服务器等。

存储介质还包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random AcceSS Memory，随即存储器)、EPROM(EraSa ble Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。存储介质也可以是只读存储器，磁盘或光盘等。

本发明的实施例还提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的方法。

其中，本发明提供的装置、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

另外，如图3所示本发明的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器201和存储器202；其中，存储器202用于存储计算机执行指令，当装置运行时，处理器201可执行存储器202 存储的计算机执行指令，以使芯片执行上述各方法实施例中的机关公文辅助生成方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种机关公文辅助生成方法，其特征在于包括：

步骤1，生成机关公文辅助生成系统；

步骤2，基于所述机关公文辅助生成系统进行公文创作；

步骤3，对所述公文进行智能纠错。

2.根据权利要求1所述的一种机关公文辅助生成方法，其特征在于所述步骤1包括：

3.根据权利要求1所述的一种机关公文辅助生成方法，其特征在于所述步骤2包括：

步骤23，根据计算的写作模板以及构建的触发条件构建自动写作模板库，包括：根据已分好的类别对模板数据进行相似度计算找到相同的模板；利用CRF对所述写作模板进行触发条件识别后形成触发条件-模板；其中所述写作模板的计算包括基于余弦相似度的写作模板计算或基于Word2Vec的写作模板计算；

4.根据权利要求1所述的一种机关公文辅助生成方法，其特征在于所述步骤3包括：

步骤31，预先构建用于外语语句自动纠错的纠错模型；

步骤34，展现所述纠错后文本。

5.一种实施根据权利要求1所述机关公文辅助生成方法的机关公文辅助生成装置，其特征在于包括：

智能纠错模块，用于对所述公文进行智能纠错。

6.根据权利要求5所述的一种机关公文辅助生成装置，其特征在于所述机关公文辅助生成系统创建模块包括：

7.根据权利要求5所述的一种机关公文辅助生成装置，其特征在于所述公文创作模块包括：

8.根据权利要求5所述的一种机关公文辅助生成装置，其特征在于所述智能纠错模块用于针对公文使用的话语非常严谨的特点所进行的纠错，包括，样式，字体，大小，颜色标点，行文规范，包括：

文本展现模块，用于：展现所述纠错后文本。

9.一种计算机可读存储介质，其特征在于：该存储介质存储可执行指令，可执行指令在被处理器执行时，导致所述权利要求1-4任一所述机关公文辅助生成方法的执行。

10.一种机关公文辅助生成系统，其特征在于：所述系统包括处理器以及存储装置，所述存储装置用于存储可执行指令，当可执行指令被处理器执行时，可实现所述权利要求1-4任一所述机关公文辅助生成方法。