CN114154484A

CN114154484A - 基于混合深度语义挖掘的施工专业术语库智能构建方法

Info

Publication number: CN114154484A
Application number: CN202111339203.XA
Authority: CN
Inventors: 沈扬; 李明超; 李文伟; 陆超; 田丹; 张栋梁; 吕沅庚
Original assignee: Tianjin University; China Three Gorges Corp
Current assignee: Tianjin University; China Three Gorges Corp
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-03-08
Anticipated expiration: 2041-11-12
Also published as: CN114154484B

Abstract

基于混合深度语义挖掘的施工专业术语库智能构建方法，它包括选取训练集与测试集、分类施工文本、表征词语间的语义关联性、计算词语间信息相关性、形成初始施工专业术语集合、形成施工专业术语集合、完成未登录词与已登录词的自动存储等步骤；本发明所提供的基于混合深度语义挖掘的施工专业术语库智能构建方法，将工程施工信息管理、文本处理技术与机器学习方法特点相结合，克服了以往人工提取专业术语的缺点，加深了施工文本的语义分析，提高了施工专业术语识别的效率与准确性，降低专业术语提取中的误差，使施工专业术语库构造更加智能化，为施工文本规范化管理与深度分析奠定了基础。

Description

基于混合深度语义挖掘的施工专业术语库智能构建方法

技术领域

本发明属于文本数据处理技术领域，具体涉及一种基于混合深度语义挖掘的施工专业术语库智能构建方法。

背景技术

工程施工过程中产生了大量的文本资料，包含了代表所记录施工过程特征的专业术语。专业术语能够简单清晰的描述工程施工内容，避免复杂冗长的文本描述，有利于提高文本记录与施工管理的规范性。在现有专业术语库建立过程中，专业术语的提取多是依靠专家经验，通过长期施工过程中总结的经验知识，形成专业术语库。在实际应用过程中，受经验知识的影响，施工人员很难发现文本中的专业术语，导致专业术语库的构建只能依靠少数经验丰富的专家，使得专业术语库构建的成本较大。同时，施工文本多是由现场施工人员编制，随着施工工艺与施工材料的更新，专业术语也会随之更新，但现有专业术语库很难满足专业术语更新的要求，导致在施工文本记录中存在专业术语表达错误的现象。

每个专业领域都有属于该领域特征的专业术语，对于涉及多个领域的大型建设工程(如，水利工程、市政工程、隧道工程等)，单一的专业术语库很难满足工程建设的需求，因此需要建立具有专业特色的专业术语库，能够全面描述工程建设中的施工工艺。已有施工专业术语库多依赖于人工操作构建，所需人工成本与时间成本较高，且专业术语识别的效率较低，极易造成文本信息读取与理解的缺失。此外，施工文本中的专业术语多以非结构数据形式呈现，且会受文本句义语义的影响，导致专业术语提取十分困难。因此，需要建立一套智能的领域专业术语智能提取方法，能够利用已有的施工文本，自动提取专业术语，以便施工文本的进一步分析。

NLP技术为专业术语提取提供了有效的方法，但是现有NLP研究较少涉及施工领域专业术语提取。尽管一大批类似于Hanlp的中文分析软件提供了稳定高效的新词发现功能，但其新词发现过程多是日常用词，缺乏对词语专业性的分析，难以直接用于工程施工专业术语识别。此外，美国OSHA每年都会更新多达100个领域的安全管理专业术语，但主要针对各领域的安全管理工作，且主要用于分析英文文本，不适用于中文文本的分析，更新的过程多是由人工操作。因此，有必要利用NLP技术建立适用于中文的施工专业术语库，规范化工程施工过程，便于施工文本的深度分析。

发明内容

本发明的目的是提供一种将工程施工信息管理、文本处理技术、机器学习相结合的基于混合深度语义挖掘的施工专业术语库智能构建方法，以解决现有技术中采用人工提取专业术语存在的人工成本与时间成本高、专业术语识别的效率低的技术问题。

一种基于混合深度语义挖掘的施工专业术语库智能构建方法，它包括以下步骤：

步骤1：采集工程建设过程中的施工文本数据，剔除文本中的特殊符号、停用词；根据施工管理任务，定义施工文本类型，利用定义类型标记文本，从标记完成的样本数据中选取训练集与测试集；

步骤2：深度挖掘施工文本特征，建立施工文本智能分类模型；训练优化网络结构参数，学习文本内容特征，按照文本类型分类施工文本；

步骤3：针对已分类的文本，将文本切分为单个基础词；量化文本，深度提取词语的语义特征，获得词语向量；结合词语向量，计算词语间的余弦相似度，表征词语间的语义关联性；

步骤4：统计基础词在施工文本中的词频，计算基础词语间的共现频率，结合互信息理论与左右信息熵，衡量词语中信息量的大小，量化词语间的位置信息关系，计算词语间信息相关性；

步骤5：结合词语语义关联性与信息相关性，统计施工专业术语最大组成词数，定义施工文本分析窗口大小，建立专业术语智能提取模型，实现基础词语组合，形成初始施工专业术语集合。

步骤6：以初始施工专业术语集合为基础，收集工程施工专业文本，建立规范文本集合，统计初始专业术语集合中元素在规范文本中的出现频率，验证验证专业术语的独立性与专业性，实现专业术语的智能识别，形成施工专业术语集合。

步骤7：针对已分类的不同类型的施工文本，分别执行步骤3—步骤6，获得不同施工管理任务中的专业术语，突出管理任务的特点；融合各管理任务专业术语集合，剔除重复专业术语，形成施工专业术语集；建立施工专业术语数据库与各管理任务类型数据库，分别存储专业术语，实现施工领域内未登录词语的智能识别，完成未登录词与已登录词的自动存储。

在步骤1中，具体包括以下步骤：

步骤1-1，所采集的数据包括施工现场管理文本，剔除文本中存在的特殊符号，并根据句号将文本划分多个独立段落；

步骤1-2，结合工程施工管理任务，对文本类型进行定义，并根据文本类型完成文本内容标记；

步骤1-3，对标记完成的文本数据进行处理，按照指定比例划分文本训练集与测试集。

在步骤2中，具体包括以下步骤：

步骤2-1，对步骤1中得到数据进行量化，以文本中字符为单位，获得文本字符向量作为施工文本智能分类模型的输入层；

步骤2-2，结合CNN网络结构，设置卷积层、池化层、全连接层，实现施工文本特征的深度提取，再利用Softmax函数输出文本类型；

步骤2-3，利用步骤1中划分的训练集训练CNN网络结构，优化网络参数，利用测试集评估模型的可靠性，最终实现施工文本的智能分类。

在步骤3中，具体包括以下步骤：

步骤3-1，针对已分类的文本，以Jieba词库为依据，将工程施工文本切分为多个基础词；

步骤3-2，将施工文本导入Bert结构中，利用Bert中已有的参数与网络结构，考虑文本中词语间的语义关系，预训练文本内容，获得基础词语向量，从语义层面实现文本量化；

步骤3-3，以词向量为基础，利用余弦相似度计算词语间相似度，实现词语间语义关系量化，如下式：

式中：S(k,i)为文本中词i与词k之间的相似度；V_i表示为词i的词向量；V_k表示词k的词向量。

在步骤4中，具体包括以下步骤：

步骤4-1，结合基础词与施工文本，统计词语在文本中的词频，并根据词语在文本中的共现程度，计算词语的共现频率；

步骤4-2，结合词语词频与共现词频，利用互信息理论衡量词语间信息交互程度，计算词语间的互信息值，如下式：

式中：PMI(i,j)表示词语j与词语i的点互信息值；Q(i)表示词语i在文本中的出现频率；Q(j)表示词语j在文本中的出现频率；Q(i,j)表示词语i与词语j的共现频率。

步骤4-3，根据施工文本中词语结构关系，以左右信息熵理论为基础，统计每个基础词的左右邻近词出现频率，计算词语间空间信息关系，得到词语的左右信息熵值，如下式：

式中：H_L(i,j)、H_R(i,j)分别表示词语i的左右信息熵值，

表示词语i的左右邻近词j在i的左右邻近词集合

中的出现频率。

在步骤5中，具体包括以下步骤：

步骤5-1，统计施工文本中最大专业术语组成词数，定义文本分析窗口大小，获得窗口中的词语，形成词语集；

步骤5-2，利用步骤3的语义关联性与步骤4的信息相关性，计算词语集中词语间的组合值，构建专业术语智能提取模型，如下式：

Mh(i,j)＝S(i,j)×PMI(i,j)×min(H_L(i,j),H_R(i,j)) (4)

式中：Mh(i,j)为组合值，S(i,j)为词i、j的相似度，PMI(i,j)为词i、j的互信息值，H_L(i,j),H_R(i,j)为词i的左右信息熵值。

步骤5-3，结合的计算获取的组合值，设置专业术语判断阈值，筛选满足要求的词语组合，形成初始专业术语集合。

在步骤6中，具体包括以下步骤：

步骤6-1，收集工程施工专业文本资料，形成规范文本集合；

步骤6-2，以初始专业术语集合为基础，统计初始专业术语集中的组合词语在规范文本集合中的频率，设置专业性验证阈值，当组合词语频率大于0时，表明组合词语为专业术语，实现组合词语专业性验证；

步骤6-3，归纳已完成专业性验证的词语，以单个字符为依据，提取存在真包含关系的词语，比较词语的频率值，当频率值相等时，表明字符数较少词语时另一个词语的组成词，不属于专业术语；当频率值不相等时，表明两个词语都属于专业术语，进而验证组合词语的独立性；

步骤6-4，综合完成专业性验证与独立性验证的组合词语，形成施工专业术语集合。

在步骤7中具体包括以下步骤：

步骤7-1，针对步骤2中完成分类的施工文本，按照文本类型执行步骤3—步骤6，获得不同施工管理任务领域中的专业术语，形成各施工管理任务领域专业术语集合；

步骤7-2，融合各施工管理任务领域专业术语集合，剔除重合的专业术语，形成施工专业术语集合；

步骤7-3，以MySQL为基础，结合施工专业术语集合与各施工管理任务领域专业术语集合，形成施工专业术语库、施工管理任务专业术语库，存储施工专业术语，实现专业术语的层次化管理，便于后期施工文本分析与工程实际应用。

与现有技术相比，本发明具有如下技术效果：

1)本发明的目的是克服现有技术中的不足，提供一种基于混合深度语义挖掘的施工专业术语库智能构建方法，将工程施工信息管理、文本处理技术与机器学习方法特点相结合，克服了以往人工提取专业术语的缺点，加深了施工文本的语义分析，提高了施工专业术语识别的效率与准确性，降低专业术语提取中的误差，使施工专业术语库构造更加智能化，为施工文本规范化管理与深度分析奠定了基础；

2)本发明针对工程施工专业术语智能提取问题，立足于工程施工现场内容，运用机器学习的方法，从语义层面分析文本内容，结合语义关联性与信息相关性计算文本关联度，实现对施工专业术语智能提取，本发明为施工文本管理效率的提升提供一种新的思路，也为施工现场规范化管理提供了理论依据。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为本发明的流程图；

图2为本发明基于CNN的施工文本智能分类模型结构图；

图3为本发明Bert模型结构图；

图4为本发明专业术语智能生成流程图；

图5为本发明专业术语验证流程图。

具体实施方式

如图1所示，一种基于混合深度语义挖掘的施工专业术语库智能构建方法，包括以下步骤

步骤A：采集工程建设过程中的施工文本数据，剔除文本中的特殊符号、停用词等；根据施工管理任务，定义施工文本类型，利用定义类型标记文本；从标记完成的样本数据中选取训练集与测试集。具体包括：

步骤A1，所采集的数据主要是施工现场管理文本，剔除文本中存在的特殊符号，并根据句号将文本划分多个独立段落；

步骤A2，结合工程施工管理任务，将文本类型定义为安全管理、进度控制、质量控制、信息管理、环境管理、组织协调等六个类型，并根据文本类型完成文本内容标记；

步骤A3，对标记完成的文本数据进行处理，按照一定的比例划分文本训练集与测试集。

步骤B：以CNN方法为基础，设计卷积层、池化层、全连接层网络结构，深度挖掘施工文本特征，建立施工文本智能分类模型；训练优化网络结构参数，学习文本内容特征，按照文本类型分类施工文本。具体包括：

步骤B1，对步骤A中得到数据进行量化，以文本中字符为单位，获得文本字符向量作为施工文本智能分类模型的输入层；

步骤B2，结合CNN网络结构，设置卷积层、池化层、全连接层，实现施工文本特征的深度提取，最后利用Softmax函数输出文本类型；

步骤B3，如附图2所示，利用步骤A中划分的训练集训练CNN网络结构，优化网络参数，利用测试集评估模型的可靠性，最终实现施工文本的智能分类。

步骤C：针对已分类的文本，利用Jieba切分文本，将文本切分为单个基础词；采用Bert模型量化文本，深度提取词语的语义特征，获得词语向量；结合词语向量，计算词语间的余弦相似度，表征词语间的语义关联性。具体包括：

步骤C1，针对已分类的文本，以Jieba词库为依据，将工程施工文本切分为多个基础词；

步骤C2，将施工文本导入Bert结构中，如附图3所示，利用Bert中已有的参数与网络结构，考虑文本中词语间的语义关系，预训练文本内容，获得基础词语向量，从语义层面实现文本量化；

步骤C3，以词向量为基础，利用余弦相似度计算词语间相似度，实现词语间语义关系量化，如下式：

步骤D：统计基础词在施工文本中的词频，计算基础词语间的共现频率，结合互信息理论与左右信息熵，衡量词语中信息量的大小，量化词语间的位置信息关系，计算词语间信息相关性。具体包括：

步骤D1，结合基础词与施工文本，统计词语在文本中的词频，并根据词语在文本中的共现程度，计算词语的共现频率；

步骤D2，结合词语词频与共现词频，利用互信息理论衡量词语间信息交互程度，计算词语间的互信息值，如下式：

步骤D3，根据施工文本中词语结构关系，以左右信息熵理论为基础，统计每个基础词的左右邻近词出现频率，计算词语间空间信息关系，得到词语的左右信息熵值，如下式：

式中：H_L(i,j)、H_R(i,j)分别表示词语i的左右信息熵值，

表示词语i的左右邻近词j在i的左右邻近词集合

中的出现频率。

步骤E：结合词语语义关联性与信息相关性，统计施工专业术语最大组成词数，定义施工文本分析窗口大小，建立专业术语智能提取模型，实现基础词语组合，形成初始施工专业术语集合。

具体包括：

步骤E1，统计施工文本中最大专业术语组成词数，定义文本分析窗口大小，获得窗口中的词语，形成词语集；

步骤E2，利用步骤C的语义关联性与步骤D的信息相关性，计算词语集中词语间的组合值，构建专业术语智能提取模型，如下式：

Mh(i,j)＝S(i,j)×PMI(i,j)×min(H_L(i,j),H_R(i,j)) (4)

步骤E3，如附图4所示，结合的计算获取的组合值，设置专业术语判断阈值，筛选满足要求的词语组合，形成初始专业术语集合。

步骤F：以初始施工专业术语集合为基础，收集工程施工专业文本，建立规范文本集合，统计初始专业术语集合中元素在规范文本中的出现频率，验证验证专业术语的独立性与专业性，实现专业术语的智能识别，形成施工专业术语集合。具体包括：

步骤F1，收集工程施工专业文本资料，例如，专业书籍、行业标准规范、企业管理条例等，形成规范文本集合；

步骤F2，如附图5所示，以初始专业术语集合为基础，统计初始专业术语集中的组合词语在规范文本集合中的频率，设置专业性验证阈值，当组合词语频率大于0时，表明组合词语为专业术语，实现组合词语专业性验证；

步骤F3，归纳已完成专业性验证的词语，以单个字符为依据，提取存在真包含关系的词语，比较词语的频率值，当频率值相等时，表明字符数较少词语时另一个词语的组成词，不属于专业术语；当频率值不相等时，表明两个词语都属于专业术语，进而验证组合词语的独立性；

步骤F4，综合完成专业性验证与独立性验证的组合词语，形成施工专业术语集合。

步骤G：针对已分类的不同类型的施工文本，分别执行步骤C—步骤F，获得不同施工管理任务中的专业术语，突出管理任务的特点；融合各管理任务专业术语集合，剔除重复专业术语，形成施工专业术语集；建立施工专业术语数据库与各管理任务类型数据库，分别存储专业术语，实现施工领域内未登录词语的智能识别，完成未登录词与已登录词的自动存储。具体包括：

步骤G1，针对步骤B中完成分类的施工文本，按照文本类型执行步骤C—步骤F，获得不同施工管理任务领域中的专业术语，形成各施工管理任务领域专业术语集合；

步骤G2，融合各施工管理任务领域专业术语集合，剔除重合的专业术语，形成施工专业术语集合；

步骤G3，以MySQL为基础，结合施工专业术语集合与各施工管理任务领域专业术语集合，形成施工专业术语库与6个施工管理任务专业术语库，智能存储施工专业术语，实现专业术语的层次化管理，便于后期施工文本分析与工程实际应用。

实施例

为评价基于混合深度语义分析的施工专业术语库智能构建方法的可靠性，整个数学建模过程通过Python语言实现，数据库建立主要依靠MySQL技术。以某水利工程施工管理文本为主，收集得到33912组施工管理数据，记录了施工现场管理过程，按照步骤A所述，处理施工管理文本，划分训练集与测试集，如表1所示。

表1数据预处理

按照表1中的文本数据，定义训练集文本量为26595条，测试集文本量为7317条。从字符角度量化文本数据，获得字符向量。将量化结果输入施工文本智能分类模型，设置CNN网络参数，定义计算次数为50次，最终计算得到文本训练的准确率与损失率，如图#和图#所示。根据计算结果可以得到，文本分类准确率达到91.32％，具有较高准确率，满足计算要求。

按照已分类的文本类别，形成不同类型文本集合。选择安全管理文本，利用Bert计算各类型文本的词向量，获得词语间的相似度；结合词语的词频与共现词频，计算词语间的互信息值与左右信息熵，获得词语组合值。根据组合值的平均值，设置专业术语判断阈值为3.264，得到初始专业术语集合，总共包含初始专业术语3786个。收集水利工程施工管理标准、书籍、规范等，验证专业术语的专业性与独立性，最终得到安全管理专业术语3147个，其中有效专业术语为2697，专业术语提取准确率为85.66％。分别提取不同文本类型中专业术语，得到质量控制专业术语3713个；进度控制专业术语3047个；环境管理专业术语1756个；信息管理专业术语1023个；组织协调专业术语1291个。融合各类型文本中专业术语，得到专业术语8317个，其中有效专业术语7396个，专业术语识别准确率为88.92％。结合已智能提取的专业术语，建立专业术语库。

综上，本发明一种基于混合深度语义挖掘的施工专业术语库智能构建方法，针对施工专业术语提取准确率低、耗时长等问题，从文本语义出发，利用机器学习方法分析语义特征，挖掘文本的信息关联性，量化词语之间的关联关系，准确组合施工文本中的词语，智能识别施工文本中的专业术语，形成工程施工专业术语库，保证施工管理规范化，为提升施工管理效率提供一种新方式。