CN117077682B

CN117077682B - 基于语义识别的公文分析方法及系统

Info

Publication number: CN117077682B
Application number: CN202310507591.0A
Authority: CN
Inventors: 张敏; 张欢; 周洁; 刘梦; 牛丹丹
Original assignee: Nanjing Of Xi'an Highway Research Institute
Current assignee: Nanjing Of Xi'an Highway Research Institute
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2024-06-07
Anticipated expiration: 2043-05-06
Also published as: CN117077682A

Abstract

本发明涉及基于语义识别的公文分析方法及系统。该方法包括：输入公文，文本识别模块处理，语义识别模块处理，文件关系分析模块处理，文件评级模块处理，文件解读生成模块根据前面的处理结果生成文件解读文案，并与该公文进行关联。该系统包括上述各模块。本发明能够智能提炼公文的语义特征，智能分析获得文件关系，智能分析公文的执行要求等级，并将这些要点提供给收到公文的工作人员，有助于提高工作人员的公文处理效率。

Description

基于语义识别的公文分析方法及系统

技术领域

本发明涉及一种基于语义识别的公文分析方法，以及相应的公文分析系统，属于人工智能识别文件技术领域。

背景技术

日常业务活动中会遇到各种由政府机关或企事业单位下发的红头文件、工作通知文件等公文，以此来传达政令政策，处理公务，协调各种关系，或决定事务，使工作正确高效地进行。然而，在公文处理过程中，经常出现各阶段人员对公文的审核、批示或响应不够及时的问题，经过深入了解发现，出现上述问题的原因主要在于：各人员工作任务繁多，而阅读公文并领会其内涵需要花费不少时间，这样在工作安排上难免顾此失彼，容易出现不及时的问题。亟待研发出能够智能分析公文的技术手段，提高各人员的公文处理效率，从而提高政策、通知的执行效率。

经检索发现，申请号CN202010773625.7、申请公布号CN112000795A的发明专利申请公开了一种公文推荐方法，包括：获取多个公文之间的关联关系；根据所述关联关系和目标用户的特征数据确定所述多个公文中的待推荐公文；将待推荐公文向目标用户推荐。申请号CN202110756360.4、申请公布号CN113486651A的发明专利申请公开了一种公文关系抽取方法，包括：从原始文本文件中查找出现的至少一个公文实体，根据设定的筛选规则，从至少一个公文实体中筛选出需要抽取公文关系的公文实体作为目标公文实体；使用设定的第一字符串，替换原始文本文件中的目标公文实体，得到新文本文件；将新文本文件输入至预训练的序列标注模型，由序列标注模型为新文本文件中的字符打标签，输出标签序列；根据公文关系与实体类型的关联关系，确定标签序列中实体类型对应的公文关系。申请人经实践研发获得了不同于上述现有技术方案的技术成果，并以此申请本发明。

发明内容

本发明的主要目的是：克服现有技术存在的问题，提供一种基于语义识别的公文分析方法，能够智能提炼公文的语义特征，智能分析获得文件关系，智能分析公文的执行要求等级，并将这些要点提供给收到公文的工作人员，有助于提高工作人员的公文处理效率。同时还提出相应的公文分析系统。

本发明解决其技术问题的技术方案如下：

一种基于语义识别的公文分析方法，其特征是，包括以下步骤：

第一步、输入公文，文本识别模块将该公文转化为识别文本，分析获得该公文的基础信息，并将基础信息录入基础信息数据库；所述基础信息至少包括文件类别、文件名、发文字号、发布机构、密级、紧急程度、成文日期之一；

第二步、语义识别模块根据识别文本进行语义识别获得语义特征，将语义特征录入语义识别数据库，并将基础信息数据库中该公文的基础信息与语义识别数据库中该公文的语义特征进行关联；所述语义特征至少包括关键词、重点内容或核心内容、语义内涵、执行措施之一；

第三步、文件关系分析模块根据该公文的语义特征，利用语义识别数据库查找与该公文有关联的历史文件，分析该公文与历史文件之间的关系类型，并生成文件关系图谱；所述关系类型至少包括集合关系、相联关系、离散或交叉关系之一；

第四步、文件评级模块根据该公文的基础信息分析判断该公文的执行要求等级；

第五步、文件解读生成模块针对该公文生成含有基础信息、语义特征、文件关系图谱、执行要求等级的文件解读文案，并与该公文进行关联。

采用该公文分析方法可将公文的主要关键信息予以识别，并实现智能解读，工作人员收到公文后即可根据文件解读文案迅速领会该公文的内涵和重要程度，并能从中查阅相关的历史文件，从而有效提高公文处理效率。如此即可在各公文上传下达的审核、批示及响应过程中，提醒各阶段工作人员及时重点关注和理解，实现辅助决策和通知，便于重点指示，提高执行效率。

优选地，第三步中，所述集合关系至少包括指挥、知照、呈请、法律、计划、总结、记录之一；所述相联关系为相互依赖或相互作用的关系，相联关系至少包括请示与批复、报告与批示、计划与总结、通知与通告之一；所述离散或交叉关系为部分含义相同但总体表达意思存在区别的关系，离散或交叉关系包括公报与公告。如此可使各种关系类型的内涵更加明确。

优选地，第四步中，所述执行要求等级包括5星、4星、3星、2星、1星；其中，5星代表强制执行且要求在短期内完成响应，4星代表强制执行且要求的响应时间宽松，若要求的响应时间小于预设时间值，则判断为5星，否则判断为4星；3星代表建议执行；2星代表指导执行；1星代表供参考。如此可使执行要求等级的内涵更加明确。

优选地，第二步中，所述语义识别模块采用Transformer算法模型；所述Transformer算法模型为encoder-decoder架构；其中，encoder由self-attention层和前馈神经网络构成；decoder由self-attention层、attention层以及前馈神经网络构成，且attention层位于self-attention层和前馈神经网络之间。具体来说，self-attention层能帮助当前节点不仅关注当前的词还同时关注前后的词，从而能获取到上下文的语义；attention层能帮助当前节点获取到当前需要关注的重点内容。

语义识别属于自然语言处理(NLP)范畴，在现有的自然语言处理应用中使用最多的两种深度学习是RNN(递归神经网络)和CNN(卷积神经网络)，这两者相同点在于：均为传统神经网络的扩展，前向计算产生结果，反向计算模型更新，且每层神经网络横向可以与多个神经元共存，纵向可以与多层神经网络连接。两者的区别在于：CNN属于空间扩展，一般用于静态输出，RNN属于时间扩展，可用于描述时间上连续状态的输出，但是RNN深度有限。此外，传统的记忆神经网络不可并行运算。针对这些优缺点，本发明的语义识别模块采用Transformer算法模型，且经过实验证实，Transformer算法模型快于上述RNN、CNN以及其他传统记忆神经网络，具有更快的运行速度，执行效率更高。

优选地，第二步中，所述语义识别模块在语义识别过程中，当遇到含有要求的内容以复合词和/或短语的形式出现时，所述语义识别模块按照预设的重叠交错内容抽取方法进行处理；含有要求的内容指含有政策、任务要求、时间的内容；

预设的重叠交错内容抽取方法包括：首先，将含有要求的内容按照预设细致程度的颗粒度进行拆分；其次，通过分析确定拆分所得各部件的组合关系和次序；最后，将各部件重新组合成完整且表述确切的识别结果；

预设的重叠交错内容抽取方法采用嵌套实体识别模型，其建模过程包括：将公文进行拆解，并进行预设细致程度的颗粒度抽取和实体关系抽取；获得关系列表；进行目标或要求的重新组合、目标或要求的标准化、目标或要求的评级及分级；结构化识别结果。

在实际工作中，公文的重点关注内容主要集中在：发布者、接受者、政策、任务要求、时间等方面；其中，作为文件的核心组成部分，政策、任务要求、时间与任务执行评估直接相关，而这些内容往往以复合词、短语的形式出现，复合词和短语往往具有包含、重叠交错现象，包含多种执行路径及具体目标要求的描述。采用上述优选技术方案，可使语义识别模块遇到这些内容时能实现更高的语义特征识别精度。

优选地，第五步中，所述文件解读生成模块对公文进行标注，标注内容包括实体类型和实体关系；

所述实体类型为文件中独立表示某一文件内容具体含义且不能分成更小颗粒度的最小不可分割内容；所述实体类型至少包括份号、密级、保密期限、紧急程度、发文机关、发文字号、签发人之一；

根据实体类型将抽取目标设定为<语素关键词：描述>，进而将实体关系设定为：

<Subject：语素，Predicate：时间，Object：地点>，或，

<Subject：紧急程度，Predicate：任务，Object：关键节点>。

如此可使标注兼顾最终重组实体的便捷性和文件关键内容表述的完整性。此外，自动标注后可再经人工进行校对。具体来说，可参考《党政机关公文格式》(GB/T 9704—2012)中的公文要素制定适用于企业文件关键内容抽取的标准。

优选地，第二步还包括：所述语义识别模块通过机器学习训练提升语义识别精度。如此可使语义识别模块所得语义特征越来越接近人的理解水平。

优选地，所述语义识别模块采用BERT算法模型进行机器学习训练；所述BERT算法模型利用自注意力机制对识别文本进行建模以获得文本序列，计算文本序列中的每个语言单位对于整个序列中所有其它语言单位的关系，以此判定这些语言单位之间的相互关系在多大程度上反映出在当前文本序列中各语言单位之间的关联性、以及各语言单位的重要程度，并利用这些相互关系调整各语言单位的权重，进而获得融合上下文信息的语言表示。如此即可通过自注意力机制和普通的非线性层堆叠对文本序列进行特征信息的编码，以获取更为丰富的语言表示，相比于浅层语言模型，该语言表示涵盖的信息是全局性的。

优选地，所述BERT算法模型由表示层和编码层构成；

所述表示层由字/词向量、分段向量、位置向量拼接而成，所述字/词向量、位置向量分别为随机初始化并由模型不断更新，所述分段向量用于编码层进行的句子顺序预测任务，所述位置向量用于编码层编码句子的线性序列信息；

所述编码层采用由若干相同的模块堆叠而成的Transfornler编码器，每个模块由两个子模块：multi-head的自注意力机制、全连接前馈网络构成，两个子模块均采用残差连接，然后进行层归一化；每个子模块的输出是LayerNrm(x+Sublayer(x))，其中，Sublayer(x)是由子模块本身实现的；

所述Transfornler编码器的核心为自注意力机制，所述自注意力机制将与文本长度相等的向量序列作为输入，并输出经过其注意力计算的向量序列，输出的各个向量序列分别代表当前位置的语言单位与序列中其它语言单位的注意力得分；

所述自注意力机制的具体过程为：

将输入的文本序列CHAR＝{char₁，char₂，......，char_i，}经权重向量W转换为字/词的嵌入序列A＝{a₁，a₂，......，a_i}；然后经不同权重矩阵的线性变换，得到3个权值矩阵：Q＝Q_qA、K＝W_kA、V＝W_vA；char_i位于Q、K和v中的对应向量分别是q_i、k_i和v_i；其中，q_i用于比较其它语言单位；k_i是被其它语言单位比较的对象；v_i是作为被抽取的目标；

q_i需要与输入的文本序列中的其它所有语言单位的k_i进行缩放点积计算，随后将计算出的评分附加在a_i对应的值向量v_i，从而得出分布；

采用软性注意力策略，即k_i＝v_i；

a_i对a_j的注意力a_i,j的计算表示为：

其中，d为q_i和k_j的维度数量。

如此可使BERT算法模型的细节特征进一步优化；其中，采用软性注意力策略可便于模型采用反向传播算法进行权重训练。

本发明还提出：

一种基于语义识别的公文分析系统，其特征是，包括：文本识别模块，语义识别模块，文件关系分析模块，文件评级模块，以及文件解读生成模块；所述公文分析系统的使用过程为前文所述的基于语义识别的公文分析方法。

与现有技术相比，本发明能够智能提炼公文的语义特征，智能分析获得文件关系，智能分析公文的执行要求等级，并将这些要点提供给收到公文的工作人员，有助于提高工作人员的公文处理效率。

附图说明

图1为本发明实施例1的一个具体示例的语义识别流程示意图。

图2为本发明实施例1的另一个具体示例的文件关系图谱示意图。

图3为本发明实施例1的又一个具体示例的系统架构示意图。

具体实施方式

下面参照附图并结合实施例对本发明作进一步详细描述。但是本发明不限于所给出的例子。

实施例1

本实施例采用基于语义识别的公文分析系统，包括：文本识别模块，语义识别模块，文件关系分析模块，文件评级模块，以及文件解读生成模块；公文分析系统的使用过程为基于语义识别的公文分析方法。

该公文分析方法包括以下步骤：

第一步、输入公文，文本识别模块将该公文转化为识别文本，分析获得该公文的基础信息，并将基础信息录入基础信息数据库，基础信息至少包括文件类别、文件名、发文字号、发布机构、密级、紧急程度、成文日期之一。

第二步、语义识别模块根据识别文本进行语义识别获得语义特征，将语义特征录入语义识别数据库，并将基础信息数据库中该公文的基础信息与语义识别数据库中该公文的语义特征进行关联；语义特征至少包括关键词、重点内容或核心内容、语义内涵、执行措施之一。

第三步、文件关系分析模块根据该公文的语义特征，利用语义识别数据库查找与该公文有关联的历史文件，分析该公文与历史文件之间的关系类型，并生成文件关系图谱；关系类型至少包括集合关系、相联关系、离散或交叉关系之一。

其中，集合关系至少包括指挥、知照、呈请、法律、计划、总结、记录之一；相联关系为相互依赖或相互作用的关系，相联关系至少包括请示与批复、报告与批示、计划与总结、通知与通告之一；离散或交叉关系为部分含义相同但总体表达意思存在区别的关系，离散或交叉关系包括公报与公告。

第四步、文件评级模块根据该公文的基础信息分析判断该公文的执行要求等级。

其中，执行要求等级包括5星、4星、3星、2星、1星；其中，5星代表强制执行且要求在短期内完成响应，4星代表强制执行且要求的响应时间宽松，若要求的响应时间小于预设时间值，则判断为5星，否则判断为4星；3星代表建议执行；2星代表指导执行；1星代表供参考。

具体而言，第二步中，语义识别模块采用Transformer算法模型；Transformer算法模型为encoder-decoder架构；其中，encoder由self-attention层和前馈神经网络构成；decoder由self-attention层、attention层以及前馈神经网络构成，且attention层位于self-attention层和前馈神经网络之间。

语义识别模块在语义识别过程中，当遇到含有要求的内容以复合词和/或短语的形式出现时，语义识别模块按照预设的重叠交错内容抽取方法进行处理；含有要求的内容指含有政策、任务要求、时间的内容。预设的重叠交错内容抽取方法包括：首先，将含有要求的内容按照预设细致程度的颗粒度进行拆分；其次，通过分析确定拆分所得各部件的组合关系和次序；最后，将各部件重新组合成完整且表述确切的识别结果。预设的重叠交错内容抽取方法采用嵌套实体识别模型，其建模过程包括：将公文进行拆解，并进行预设细致程度的颗粒度抽取和实体关系抽取；获得关系列表；进行目标或要求的重新组合、目标或要求的标准化、目标或要求的评级及分级；结构化识别结果。

第五步中，文件解读生成模块对公文进行标注，标注内容包括实体类型和实体关系；实体类型为文件中独立表示某一文件内容具体含义且不能分成更小颗粒度的最小不可分割内容；实体类型至少包括份号、密级、保密期限、紧急程度、发文机关、发文字号、签发人之一；根据实体类型将抽取目标设定为<语素关键词：描述>(如，<会议：xx年xx月xx日xx时>、<检查：时间+地点>等等)，进而将实体关系设定为：<Subject：语素，Predicate：时间，Object：地点>，或，<Subject：紧急程度，Predicate：任务，Object：关键节点>。

此外，第二步还包括：语义识别模块通过机器学习训练提升语义识别精度。

语义识别模块采用BERT算法模型进行机器学习训练；BERT算法模型利用自注意力机制对识别文本进行建模以获得文本序列，计算文本序列中的每个语言单位对于整个序列中所有其它语言单位的关系，以此判定这些语言单位之间的相互关系在多大程度上反映出在当前文本序列中各语言单位之间的关联性、以及各语言单位的重要程度，并利用这些相互关系调整各语言单位的权重，进而获得融合上下文信息的语言表示。

BERT算法模型由表示层和编码层构成。

表示层由字/词向量、分段向量、位置向量拼接而成，字/词向量、位置向量分别为随机初始化并由模型不断更新，分段向量用于编码层进行的句子顺序预测任务，位置向量用于编码层编码句子的线性序列信息。

编码层采用由若干相同的模块堆叠而成的Transfornler编码器，每个模块由两个子模块：multi-head的自注意力机制、全连接前馈网络构成，两个子模块均采用残差连接，然后进行层归一化；每个子模块的输出是LayerNrm(x+Sublayer(x))，其中，Sublayer(x)是由子模块本身实现的。

Transfornler编码器的核心为自注意力机制，自注意力机制将与文本长度相等的向量序列作为输入，并输出经过其注意力计算的向量序列，输出的各个向量序列分别代表当前位置的语言单位与序列中其它语言单位的注意力得分。

自注意力机制的具体过程为：

将输入的文本序列CHAR＝{char₁，char₂，......，char_i,}经权重向量W转换为字/词的嵌入序列A＝{a₁，a₂，......，a_i}；然后经不同权重矩阵的线性变换，得到3个权值矩阵：Q＝W_qA、K＝W_kA、V＝W_vA；char_i位于Q、K和v中的对应向量分别是q_i、k_i和v_i；其中，q_i用于比较其它语言单位；k_i是被其它语言单位比较的对象；v_i是作为被抽取的目标。

q_i需要与输入的文本序列中的其它所有语言单位的k_i进行缩放点积计算，随后将计算出的评分附加在a_i对应的值向量v_i，从而得出分布。

采用软性注意力策略，即k_i＝v_i。

a_i对a_j的注意力a_i,j的计算表示为：

其中，d为q_i和k_j的维度数量。

本实施例在实施时的一个具体示例中，语义识别流程如图1所示。

本实施例在实施时的另一个具体示例中，文件关系图谱如图2所示。

本实施例在实施时的又一个具体示例中，系统架构如图3所示，该系统还包括基础信息及语义查询模块(用于查询公文的基础信息和语义特征)，统计分析表单模块(用于根据需求生成统计分析表单)。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种基于语义识别的公文分析方法，其特征是，包括以下步骤：

第二步中，所述语义识别模块在语义识别过程中，当遇到含有要求的内容以复合词和/或短语的形式出现时，所述语义识别模块按照预设的重叠交错内容抽取方法进行处理；含有要求的内容指含有政策、任务要求、时间的内容；

预设的重叠交错内容抽取方法采用嵌套实体识别模型，其建模过程包括：将公文进行拆解，并进行预设细致程度的颗粒度抽取和实体关系抽取；获得关系列表；进行目标或要求的重新组合、目标或要求的标准化、目标或要求的评级及分级；结构化识别结果；

第三步中，所述集合关系至少包括指挥、知照、呈请、法律、计划、总结、记录之一；所述相联关系为相互依赖或相互作用的关系，相联关系至少包括请示与批复、报告与批示、计划与总结、通知与通告之一；所述离散或交叉关系为部分含义相同但总体表达意思存在区别的关系，离散或交叉关系包括公报与公告；

第五步、文件解读生成模块针对该公文生成含有基础信息、语义特征、文件关系图谱、执行要求等级的文件解读文案，并与该公文进行关联；

第五步中，所述文件解读生成模块对公文进行标注，标注内容包括实体类型和实体关系；

<Subject：语素，Predicate：时间，Object：地点>，或，

<Subject：紧急程度，Predicate：任务，Object：关键节点>。

2.根据权利要求1所述的基于语义识别的公文分析方法，其特征是，第四步中，所述执行要求等级包括5星、4星、3星、2星、1星；其中，5星代表强制执行且要求在短期内完成响应，4星代表强制执行且要求的响应时间宽松，若要求的响应时间小于预设时间值，则判断为5星，否则判断为4星；3星代表建议执行；2星代表指导执行；1星代表供参考。

3.根据权利要求1所述的基于语义识别的公文分析方法，其特征是，第二步中，所述语义识别模块采用Transformer算法模型；所述Transformer算法模型为encoder-decoder架构；其中，encoder由self-attention层和前馈神经网络构成；decoder由self-attention层、attention层以及前馈神经网络构成，且attention层位于self-attention层和前馈神经网络之间。

4.根据权利要求1所述的基于语义识别的公文分析方法，其特征是，第二步还包括：所述语义识别模块通过机器学习训练提升语义识别精度。

5.根据权利要求4所述的基于语义识别的公文分析方法，其特征是，所述语义识别模块采用BERT算法模型进行机器学习训练；所述BERT算法模型利用自注意力机制对识别文本进行建模以获得文本序列，计算文本序列中的每个语言单位对于整个序列中所有其它语言单位的关系，以此判定这些语言单位之间的相互关系在多大程度上反映出在当前文本序列中各语言单位之间的关联性、以及各语言单位的重要程度，并利用这些相互关系调整各语言单位的权重，进而获得融合上下文信息的语言表示。

6.根据权利要求5所述的基于语义识别的公文分析方法，其特征是，所述BERT算法模型由表示层和编码层构成；

所述自注意力机制的具体过程为：

将输入的文本序列CHAR＝{char₁，char₂，......，char_i，}经权重向量W转换为字/词的嵌入序列A＝{a₁，a₂，......，a_i}；然后经不同权重矩阵的线性变换，得到3个权值矩阵：Q＝W_qA、K＝W_kA、V＝W_vA；char_i位于Q、K和v中的对应向量分别是q_i、k_i和v_i；其中，q_i用于比较其它语言单位；k_i是被其它语言单位比较的对象；v_i是作为被抽取的目标；

采用软性注意力策略，即k_i＝v_i；

a_i对a_j的注意力a_i,j的计算表示为：

其中，d为q_i和k_j的维度数量。

7.一种基于语义识别的公文分析系统，其特征是，包括：文本识别模块，语义识别模块，文件关系分析模块，文件评级模块，以及文件解读生成模块；所述公文分析系统的使用过程为权利要求1至6任一项所述的基于语义识别的公文分析方法。