CN114841658A

CN114841658A - 一种基于分类的专项施工方案强制性条文合规性审查方法

Info

Publication number: CN114841658A
Application number: CN202210364655.1A
Authority: CN
Inventors: 张博; 许娜; 朱文情; 马宁; 周猜猜; 王莉
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-08-02

Abstract

本发明公开一种基于分类的专项施工方案强制性条文合规性审查方法，属于人工智能技术领域。首先获取审查方案；利用隐含狄利克雷分布主题模型对方案工程类型进行判别；将审查方案进行分段处理，形成方案段落集；训练深度开放集合分类模型，调用深度开放集合分类模型确定每一段落内容是否符合强制性条文范围；将段落与条文进行基于词权重的余弦相似度计算，根据计算结果判断是否符合强制性条文的要求。通过甄别输入方案各段落所属强制性条文，提高识别准确率，达到自动化确定段落对应强制性条文的效果，同时利用余弦相似度计算判断是否符合强制性条文规定，减少审查错误，提高方案审查效率。

Description

一种基于分类的专项施工方案强制性条文合规性审查方法

技术领域

本发明涉及一种基于分类的专项施工方案强制性条文合规性审查方法，属于专项施工方案文本的计算机人工智能技术领域。

背景技术

目前市面的施工方案审查的一般做法如下：将用户上传的施工方案进行分类和基本信息进行审核，然后将施工方案公布给审核人员，审核人员对施工方案的形式和内容进行审查。这种审查方式仍然是以人工为主，具有耗时长、审查效率低和易出错等特点。

现有的对文档智能分类方法基于封闭世界假设，即假设出现在测试集合中的类别必须出现在训练集中。但是在动态的开放环境中一些新方案段落可能不属于任何强制性条文，从而将非强制性条文的段落错误划归到已知强制性条文类别中。因此在分类过程中识别这些新方案段落是一个重要问题。

发明内容：

针对现有技术的不足之处，提供一种基于分类的专项施工方案强制性条文合规性审查方法，通过训练深度开放集合分类算法，将方案段落输入到深度开放集合分类模型中，从而甄别方案段落是否属于已知强制性条文，利用余弦相似度确定段落是否满足强制性条文的要求，提高方案合规审查的准确率和效率。

为实现上述技术目的，本发明的一种基于分类的专项施工方案强制性条文合规性审查方法，其特征在于步骤如下：

S1、首先将待审查方案文档转为docx格式；

S2、根据预先训练好的隐含狄利克雷分布LDA主题模型确定待审查方案所属的专项施工方案类别；

S3、通过识别回车符将待审查方案文档的内容进行分段处理，分解为多个段落；

S4、将待审查方案文档的所有段落依次输入到相应专项施工方案的深度开放集合分类模型中，输出每个段落与相应专项施工方案要求的每一项强制性条文的匹配率，并根据预设的阈值判断段落内容是否属于具体强制性条文；

针对每种具体的专项施工方案训练一个深度开放集合分类模型，即每个专项施工方案类型均对应有一个深度开放集合分类模型，每个深度开放集合分类模型均构建每一种专项施工方案的强制性条文集，其中每一项规范条文作为对应方案类型深度开放集合分类模型的一项子分类；具体结构为卷积神经网络CNN分类器，卷积神经网络CNN分类器的最后一层为 Sigmoids函数构建的一个多类分类器，用以增加识别未知类能力，多类分类器包含M个已知类的M个Sigmoid激活函数，通过高斯拟合收紧Sigmoid函数的决策边界；

S5、将段落与判别出来对应的强制性条文进行基于建筑领域标准规范词权重的余弦相似度计算，得到段落合规状态；汇总所有段落的合规状态信息，最后生成待审查方案文档的强制性条文合规性审查报告。

根据预先训练好的LDA主题模型确定待审查方案的分类，包括以下十类：基坑工程、模板工程及支撑工程、起重吊装及起重机械安装拆卸工程、脚手架工程、拆除与工程、暗挖工程、建筑幕墙工程、人工挖孔桩工程、钢结构安装工程、其他工程。

针对每类专项施工方案的深度开放集合分类模型，需要从各类专项施工方案文档中抽取各项强制性条文对应的段落构建训练集和测试集，然后利用训练集和测试集对本类深度开放集合分类模型进行训练，深度开放集合分类模型由多个子分类器构成，每个子分类器对应一个强制性条文，通过遍历所有子分类器判断待审查方案中的段落是否属于子分类器所对应的强制性条文；

对于每类专项施工方案，构建该类专项施工方案对应的强制性条文训练样本集合D：

训练样本为从各类专项施工方案中抽取的各项强制性条文对应的70％的段落，以此训练每类专项施工方案的深度开放集合分类模型，其中N_train表示强制性条文包含的段落个数，x_i表示施工方案文档的段落，y_i∈{C₁,C₂,…,C_M}表示段落x_i所属的强制性条文类别，M表示该类专项施工方案的强制性条文数量，深度开放集合分类模型以卷积神经网络CNN为基础；由于待审查方案文档中只有一部分段落符合规范的强制性条文要求，所以深度开放集合分类模型最后一层使用M个Sigmoid函数代替传统的Softmax函数；

设第l个Sigmoid函数对应强制性条文类C_l，即将C_l对应的所有样本作为正例，代表这些样本属于该强制性条文类C_l，所有其他已知强制性条文类作为反例，代表这些样本不属于其他已知强制性条文，其中l属于M,对数损失函数Loss_l如下：

其中

表示指示函数，即当输入为True的时候，输出为1，输入为False的时候，输出为0，p_l表示第l个Sigmoid函数在第i个段落上的概率输出；

所有Sigmoid函数的对数损失函数之和作为代价函数训练模型，即：

对于测试集中段落x′所属的强制性条文类别y^*通过下式确定：

即，如果有段落x′被多个Sigmoid函数预测为正类，即被识别为属于该强制性条文范围，由于存在多个强制性条文中部分相似的情况，因此在在判断时存在一个段落对应多个强制性条文，通过Sigmoid函数时，存在多个为正的预测结果，此时选择阀值最大的最为输入结果，即预测概率大于阈值δ_l，则选择置信度最大的强制性条文类别作为分类结果，否则若没有预测概率大于阈值δ_l的结果则将其归位未知类别C_M+1，即表示该段落不属于任何强制性条文类别。

将每一个段落输入深度开放集合分类模型中判别该段落是否属于强制性条文范围及所属具体强制性条文，具体来说：为了减少将非强制性条文的段落错误划归到第l类强制性条文类别的风险，深度开放集合分类模型采用动态阈值的方法，通过拟合训练集中第l类段落样本的概率值p_l(y_i＝C_l|x_i)，动态计算第l类的动态阈值δ_l；

已知强制性条文类别的分布服从一半的高斯分布，因此以概率值p＝1为轴即均值＝1，人工地构造出对称的另一半高斯分布，然后使用高斯拟合方法，计算训练集中每一个已知强制性条文l对应的标准差σ_l，计算公式为：

其中p_l(y_i＝C_l|x_i)表示第l类第i个正类段落对应的概率值；

动态阈值δ_l的计算公式如下，即第l类强制性条文的α倍标准差，α取3：

δ_l＝1-ασ_l

计算测试集中每一强制性条文对应的阈值，以识别测试集中不属于已知类别强制性条文的段落，其中测试集为未标注所属强制性条文的段落样本，包括部分训练集中的强制性条文和未在训练集中出现的强制性条文，即未知类；最后预测测试集中每一方案段落所属强制性条文，对测试集中每一个强制性条文的预测概率与所对应的动态阈值进行比较，若强制性条文的预测概率小于所对应的阈值，判断该段落为未知类别，否则，其预测类别是概率最高的已知类别中的强制性条文；

首先将待审查方案的分解段落输入到已经训练好的深度开放集合分类模型中，得到每一制性条文对应的预测概率，然后计算每一强制性条文对应的动态阈值，最后通过比较每一个强制性条文对应的动态阈值与预测概率之间的关系，判断该段落是否为未知类，否则，其预测类别为概率最高的已知类中的强制性条文。

进行基于建筑领域标准规范词权重的余弦相似度计算具体为：

1)首先利用词频逆文档TF-IDF对分解段落中句子中的词项确定初权重，一个待审查方案中的所有段落作为语料库，其中每一段落和该段落对应标准规范条文作为样本，词频TF由每一段落样本确定，逆文本频率指数IDF由语料库确定，根据专项施工方案和强制性条文的特点按照量化值和量化单位>比较关系>主体>属性>关系>主体约束和数量约束的顺序对词的重要程度进行排序，人工确定最终词权重；

2)将每个分解段落中的句子和所对应的标准规范条文句子向量化，其中每个分量对应基于自定义的建筑领域词典中的一个词，分量值为词权重；

3)用余弦定理对待检测的段落句子和该段落对应的标准规范条文两个句子的相似度进行计算；其中余弦值作为衡量两个句子之间差异的大小，取值范围在-1到1之间，越趋近于1 代表两个句子越相似，越趋近于-1代表方向相反，0代表正交，即两个句子越不相似。

4)依据相似度的计算结果，对不同相似值做出合规状态判定，包括：①超过预设的a阈值则判断为合规②低于预设的b阈值则为不合规，并给出所依据的条文③相似度结果在预设的a阈值和b阈值之间则移交给人工进行判断，并给出所依据的条文，其中a大于b。

有益效果：

1、通过LDA主题模型预先对方案进行分类，将方案类别传输到对应的深度开放集合分类模型中(内含有与该方案类别相关的强制性条文)，模型依据步骤四对方案段落进行判定，甄别其所属强制性条文，防止将与强制性条文无关的方案段落错误地划分到强制性条文类别中，达到自动化确定段落对应强制性条文的效果，提高了确定所属强制性条文的准确率和效率。

2、通过步骤五将由步骤四筛选的方案段落与其对应强制性条文进行基于词权重的余弦相似度计算，利用TF-IDF初步对每一方案段落计算词权重，然后根据专项施工方案的特点按照量化值和量化单位>比较关系>主体>属性>关系>主体约束和数量约束的顺序对词的重要程度进行人工排序，确定最终词权重，提高特征词的重要程度，从而对重要内容进行更精确的判断，提高方案审查的准确率。

附图说明

图1为本发明基于分类的专项施工方案强制性条文合规性审查方法的实施例流程示意图。

具体实施方式：

下面结合附图对本发明的实施例做进一步说明：

如图1所示，一种基于分类的专项施工方案强制性条文合规性审查方法，其步骤如下：

S1、首先将待审查方案文档转为docx格式；

S2、根据预先训练好的隐含狄利克雷分布(Latent Dirichlet Allocation，以下简称LDA)主题模型确定待审查方案所属的专项施工方案类别；

S3、通过识别回车符将待审查方案文档的内容进行分段处理，形成多个段落；

针对某种类型的专项施工方案，通过从该类施工方案文档中抽取各项强制性规范条文对应的段落构建训练集和测试集，训练一个专属的深度开放集合分类模型；

对于具体的一类专项施工方案，构建强制性条文训练样本集合

训练相应的深度开放集合分类模型，即每类专项施工方案对应一个专属的深度开放集合分类模型，其中x_i表示施工方案文档的段落，y_i∈{C₁,C₂,…,C_M}表示段落x_i所属的强制性条文类别，M 表示该类专项施工方案的强制性条文数量。深度开放集合分类模型以卷积神经网络(CNN) 为基础。由于待审查方案文档中只有一部分段落符合规范的强制性条文要求，所以深度开放集合分类模型采用一对余类方法(1-vs-Rest)的方法，最后一层使用M个Sigmoid函数代替传统的Softmax函数，第l个Sigmoid函数对应强制性条文类C_l，即将C_l作为正例，所有其他已知强制性条文类作为反例，其对数损失函数如下：

测试时，测试段落x′所属的强制性条文类别通过下式确定：

即，如果有x′被多个Sigmoid分类器预测为正类，即预测概率大于阈值δ_l，则选择置信度最大的强制性条文类别作为分类结果。否则，则将其归位未知类别C_M+1，即该段落不属于任何强制性条文类别。

将每一个段落输入深度开放集合分类模型库中判别该段落是否属于强制性条文范围及所属具体强制性条文，具体来说：为了减少将非强制性条文的段落错误划归到第l类强制性条文类别的风险，模型采用动态阈值的方法，通过拟合训练集中第l类段落样本的概率值p_l(y_i＝ C_l|x_i)，动态计算第l类的决策边界δ_l。由于已知强制性条文类别的分布服从一半的高斯分布，所以我们以概率值所以我们以概率值p＝1为轴人工地构造出对称的另一半高斯分布，然后使用高斯拟合方法，计算训练集中每一个已知强制性条文l对应的标准差σ_l，计算公式为：

其中p_l(y_i＝C_l|x_i)表示第l类第i个正类段落对应的概率值；

δ_l＝1-ασ_l。

S5、将段落与判别出来对应的强制性条文进行基于建筑领域标准规范词权重的余弦相似度计算，得到段落合规状态；汇总所有段落的合规状态信息，最后生成待审查方案文档的审查报；进行基于建筑领域标准规范词权重的余弦相似度计算具体为：

3)用余弦定理对待检测的段落句子和该段落对应的标准规范条文两个句子的相似度进行计算；

实施例一、

步骤一：

(1)将获取的专项施工方案分为docx格式和非docx格式；

(2)操作Microsofe将非docx格式中的PDF、html、txt格式文件转化为docx格式。

步骤二：

(1)构建语料库，选取228篇建筑工程(含港口工程)专项施工方案做为语料库/数据集，将docx、doc格式全部转换为txt格式，并将228篇专项施工方案进行人工分类，分为暗挖工程、拆除爆破工程、基坑工程、脚手架及防护工程、模板工程及支撑体系、起重吊装工程、建筑幕墙工程、人工挖孔桩工程、钢结构安装工程及其他工程10大类；

(2)预处理数据，主要涉及：数据导入、数据清洗、中文分词和停用词去除，人工构建了专项施工方案专有名词词典，使分词结果更精确；

(3)构建LDA主题模型，主要过程包含：①构建词袋：对每篇文章进行分词处理(jieba 库)，②统计词频：利用CountVectorizer得到所有文档中各个词的词频向量，将主题词袋用 list格式进行存储构成的一个，③利用Latent Dirichlet Allocation进行LDA处理，设置需要分成的主题个数等参数(经测验最终选取10个主题)。通过使用Python中的sklearn库中 fit_transform函数，得到文档-主题分布和主题-词汇分布；打印输入特征标签的权重得分，去除得分小于0.6的得分，以此得到每种专项施工方案类别的核心关键词(这里只打印每个类别前50个主题词)。④储存主题词及概率，将主题概率输入到EXCEL表格中保存，主题词输入到TXT文档中保存；

(4)判断待审查方案所属类别，利用上述过程训练好的LDA主题模型对待审查方案进行分类，确定方案类别。

步骤三：

(1)准备数据集，训练样本集合

其中x_i表示施工方案文档的段落，y_i∈{C₁,C₂,…,C_M}表示段落x_i所属的强制性条文类别，M表示该类专项施工方案的强制性条文数量。测试样本集合

其中测试集中包含不属于训练集中的强制性条文类别，将其归为M+1类；

(2)对文本预处理：基于自定义的建筑领域词典进行中文分词，去除停用词；

(3)计算词频，并将词频小于5的单词去除；

(4)创建索引，用于单词与编号之间的映射；

(5)对样本训练(每一项类别为一个强制性条文)，提取训练集已知类别的特征。随机将70％的数据作为训练集，剩下30％作为测试集，评估对已知类别的分类情况；

(6)测试样本，增加十个类别作为未知类别，目的就是对测试集样本中已知强制性条文不降低其分类准确率的情况下，准确识别未知类别。

步骤四：

(1)将docx格式的方案利用Microsofe Word中的功能对文本内容进行段落分行；

(2)对段落内容预处理，基于建筑领域专用词典利用jieba库进行分词，去除停用词；

步骤五：

(1)强制性条文阈值计算，已知强制性条文类别的分布服从一半的高斯分布，所以我们此以概率值p＝1为轴人工的构造出对称的另一半高斯分布，然后使用高斯拟合方法，计算训练集中每一个已知强制性条文l对应的标准差σ_l；

(2)计算测试集中每一方案段落对应的阈值，使用动态概率阈值公式δ_l＝1-ασ_l，σ常取3，减少将非强制性条文的段落错误划归到第l类强制性条文类别的风险；

(3)预测测试集中每一方案段落所属强制性条文，对测试集中每一个强制性条文的预测概率与所对应的动态阈值进行比较，若强制性条文的预测概率小于所对应的阈值，判断该段落为未知类别，否则，其预测类别是概率最高的强制性条文；

步骤六：

(1)利用词频逆文档频率(TF-IDF)对句子中的词项确定初权重，其中每一方案段落为样本，一篇方案的所有段落为语料库，TF由每一段落样本确定，IDF由语料库确定，根据专项施工方案和强制性条文的特点按照量化值和量化单位>比较关系>主体>属性>关系>主体约束和数量约束的顺序对词的重要程度进行排序，人工确定最终词权重；某个词的初权重计算方法如下：

TF-IDF＝TF*IDF；

(2)将句子向量化，其中每个分量对应词典中的一个词，分量值为词权重；

(3)用余弦距离计算待检测的段落句子和该段落相应的标准规范条文两个句子的相似度，其中余弦值作为衡量两个句子之间差异的大小，取值范围在-1到1之间，越趋近于1代表两个句子越相似，越趋近于-1代表方向相反，0代表正交，两个句子越不相似。

(4)得到审查结果，依据相似度的计算结果，对不同相似值做出合规状态判定：①超过 a阈值则判断为合规②低于b阈值则为不合规，并给出所依据的条文③相似度结果在a和b 之间则移交给人工进行判断，并给出所依据的条文。

Claims

1.一种基于分类的专项施工方案强制性条文合规性审查方法，其特征在于步骤如下：

S1、首先将待审查方案文档转为docx格式；

针对每种具体的专项施工方案训练一个深度开放集合分类模型，即每个专项施工方案类型均对应有一个深度开放集合分类模型，每个深度开放集合分类模型均构建每一种专项施工方案的强制性条文集，其中每一项规范条文作为对应方案类型深度开放集合分类模型的一项子分类；具体结构为卷积神经网络CNN分类器，卷积神经网络CNN分类器的最后一层为M个Sigmoid激活函数构建的M个一对多类分类器；针对每一项强制性条文的正样本集合，通过拟合相应Sigmoid激活函数输出匹配率的高斯分布，确定对应一对多类分类器的阈值，达到收紧决策边界、降低误报率的目的；

2.根据权利要求1所述的基于分类的专项施工方案强制性条文合规性审查方法，其特征在于：根据预先训练好的LDA主题模型确定待审查方案的分类，包括以下十类：基坑工程、模板工程及支撑工程、起重吊装及起重机械安装拆卸工程、脚手架工程、拆除与工程、暗挖工程、建筑幕墙工程、人工挖孔桩工程、钢结构安装工程、其他工程。

3.根据权利要求1所述基于分类的专项施工方案强制性条文合规性审查方法，其特征在于：针对每类专项施工方案的深度开放集合分类模型，需要从各类专项施工方案文档中抽取各项强制性条文对应的段落构建训练集和测试集，然后利用训练集和测试集对本类深度开放集合分类模型进行训练，深度开放集合分类模型由多个子分类器构成，每个子分类器对应一个强制性条文，通过遍历所有子分类器判断待审查方案中的段落是否属于子分类器所对应的强制性条文；

其中

即，如果有段落x′被多个Sigmoid函数预测为正类，即被识别为属于该强制性条文范围，由于存在多个强制性条文中部分相似的情况，因此在在判断时存在一个段落对应多个强制性条文，通过Sigmoid函数时，存在多个为正的预测结果，此时选择阀值最大的最为输入结果，即预测概率大于阈值δ_l，则选择置信度最大的强制性条文类别作为分类结果，若没有预测概率大于阈值δ_l的结果则将其归位未知类别C_M+1，即表示该段落不属于任何强制性条文类别。

4.根据权利要求3所述的基于分类的专项施工方案强制性条文合规性审查方法，其特征在于将每一个段落输入深度开放集合分类模型中判别该段落是否属于强制性条文范围及所属具体强制性条文，具体来说：为了减少将非强制性条文的段落错误划归到第l类强制性条文类别的风险，深度开放集合分类模型采用动态阈值的方法，通过拟合训练集中第l类段落样本的概率值p_l(y_i＝C_l|x_i)的高斯分布，动态计算第l类的阈值δ_l；

已知强制性条文类别的分布服从一半的高斯分布，因此以概率值p＝1为轴，即均值＝1，人工地构造出对称的另一半高斯分布，然后使用高斯拟合方法，计算训练集中每一个已知强制性条文l对应的标准差σ_l，计算公式为：

其中p_l(y_i＝C_l|x_i)表示第l类第i个正类段落对应的概率值；

δ_l＝1-ασ_l

5.根据权利要求1所述的基于分类的专项施工方案强制性条文合规性审查方法，其特征在于进行基于建筑领域标准规范词权重的余弦相似度计算具体为：

3)用余弦定理对待检测的段落句子和该段落对应的标准规范条文两个句子的相似度进行计算；其中余弦值作为衡量两个句子之间差异的大小，取值范围在-1到1之间，越趋近于1代表两个句子越相似，越趋近于-1代表方向相反，0代表正交，即两个句子越不相似。