CN112733527A

CN112733527A - 建筑工程文档知识网络的构建方法及系统

Info

Publication number: CN112733527A
Application number: CN202011478794.4A
Authority: CN
Inventors: 余芳强; 彭阳; 张铭; 许璟琳; 高尚; 黄轶; 欧金武
Original assignee: Shanghai Construction No 4 Group Co Ltd
Current assignee: Shanghai Construction No 4 Group Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-30
Anticipated expiration: 2040-12-15
Also published as: CN112733527B

Abstract

本发明提供了一种建筑工程文档知识网络的构建方法及系统，发明面向建筑施工领域的多种格式和来源的异构文档，有针对地设计新的文档语义算法，实现信息的提取，并进一步利用文档蕴含的施工技术知识，建立文档知识网络，可以将宝贵工程技术知识进行形象化的组织，以挖掘企业积累的文档大数据资产的价值。

Description

建筑工程文档知识网络的构建方法及系统

技术领域

本发明涉及一种建筑工程文档知识网络的构建方法及系统。

背景技术

工程文档是施工企业的核心资料，是工程建造的主要依据。由于企业的业务拓展和工程规模不断增加，单个项目的电子文档存档常常有上千份；而一个施工企业的所有项目文档可能数以万计。从如此海量的工程文档中提取有用的信息可能非常困难，成本也很高昂。另一方面，建筑行业近年来快速发展，技术知识也迅速在项目和企业层面积累。工程技术知识以大量的工程文档资料为载体，用于沟通和交流。这些高质量资料需要经常在后续的项目中参考使用，是企业和全行业的重要资产。

然而通过调研，已有的研究成果并不能满足工程文档的信息需求，主要问题在于：(1)工程文档数据来源复杂，格式多样，异构性很强，目前还没有统一处理这样的文档数据集的具体报道；(2)工程文档，特别是技术性文档，的主题明确，但细分的技术知识迥然，如果使用现有的一些单主题术语分析方法，得到的结果不会很好。Simhash或关键短语的方法可以识别相似文档并归为一类，但不适合将各异的主题文档组织起来；(3)国内已有一些文档大数据管理平台的研究，但实现的功能基本上限于上传下载、属性索引、访问等，不提供进一步的内容分析和公用知识的组织。因此，需要研究如何从大量的文件中集成技术知识，服务于企业与全行业，从而创造更大的效益。

发明内容

本发明的目的在于提供一种建筑工程文档知识网络的构建方法及系统。

为解决上述问题，本发明提供一种建筑工程文档知识网络的构建方法，包括：

步骤1：对建筑工程文档的语义信息进行提取，以得到关键词；

步骤2：根据所述关键词的词频计算由所述关键词组成的各个关键短语的权重；

步骤3：计算所述建筑工程文档的指纹向量，为了进一步衡量文档间的关系；

步骤4：基于所述关键短语的权重和指纹向量建立知识网络，以将文档按关键短语及文档间的关系组织起来。

进一步的，在上述方法中，步骤4：基于所述关键短语的权重和指纹向量建立知识网络之后，还包括：

将所述建筑工程文档最重要的前几个关键词按所述知识网络中的层级排列成树状结构，即得到对应的文档导航树，当用户沿着所述文档导航树搜索时，所述知识网络同步聚焦至与搜索路径最相关的子结构上。

进一步的，在上述方法中，步骤1：对建筑工程文档的语义信息进行提取，以得到关键词，包括：

步骤1.1：提取文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合；

步骤1.2：对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析，以识别出关键词；

步骤1.3：识别所述关键词中的命名实体和敏感数字，用一串星号代替命名实体，使用正则表达式隐去敏感数字。

进一步的，在上述方法中，步骤1.2：对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析，以识别出关键词，包括：

采用开源的HanLP自然语言分析库，对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析，以提取关键词、重要短语、专业术语。

进一步的，在上述方法中，所述命名实体包括：公司名、人名或地址。

进一步的，在上述方法中，所述敏感数字包括：账号、身份证号或货币金额。

进一步的，在上述方法中，步骤3：计算所述建筑工程文档的指纹向量，包括：

步骤3.1：词频统计。设建筑工程文档的总数为N_f，统计第i个建筑工程文档的各关键词w_ik的词频f_ik，其中，i＝1～N_f；

步骤3.2：基于当前关键词w_ik的词频f_ik，得到当前关键词所在建筑工程文档的各关键词总词频

及得到所有建筑工程文档的关键词总词频

步骤3.3：使用TF-IDF指标，基于关键词总词频n_i和关键词总词频N，用第i个建筑工程文档的每个关键词w_ik都对建筑工程文档i的向量V_i作一次赋值；

步骤3.4，以所有建筑工程文档的向量V_i排列为矩阵，采用PCA算法处理后，选择特征值累积量大于80％时的前n_P个主成分，然后将向量Vi向前n_P个主成分投影，得到n_P维的投影向量，即为建筑工程文档的指纹向量F_i。

进一步的，在上述方法中，步骤4：基于所述关键短语的权重和指纹向量建立知识网络，包括：

步骤4.1：基于关键短语的权重，设置每个关键短语为圆形节点，半径正比于该关键短语的总词频；

步骤4.2：计算圆形节点连接，包括：基于所述指纹向量计算一对圆形节点w_i和w_j的连接强度L，一对圆形节点w_i和w_j连线的宽度由连接强度L决定，如L大于预设阈值，则两个圆形节点之间有连线，连线的方向为词频较大的圆形节点向词频较小的圆形节点；

步骤4.3：使用自动的力导向布局方法，在网页上合理散布节点，按拓扑关系计算圆形节点之间的最优的连线位置，基于圆形节点之间的最优的连线位置，将圆形节点互相联结得到知识网络的图形。

根据本发明的另一面，提供一种建筑工程文档知识网络的构建系统，包括：

第一模块，用于对建筑工程文档的语义信息进行提取，以得到关键词；

第二模块，用于根据所述关键词的词频计算由所述关键词组成的各个关键短语的权重；

第三模块，用于计算所述建筑工程文档的指纹向量，为了进一步衡量文档间的关系；

第四模块，用于基于所述关键短语的权重和指纹向量建立知识网络，以将文档按关键短语及文档间的关系组织起来。

本发明具有以下技术效果：

1、本发明的知识网络提供了一种形象化的文档组织结构，节点既表示单个知识抽象，又保留了文档指针集合供快速检索，且节点间的关系更聚焦于知识共现与层级从属，这有利于组织建筑行业的技术知识文档。

2、已有的知识提取技术一般以短小的2至3字关键词语为节点，表意不够精确。本文利用自然语言处理提取多个词语组合而成的关键短语，并提出针对性的网络构建算法，这样得到的知识主题更为明确和细致，便于从业人员查看。

3、本发明还能利用知识网络的中间结果生成实用的导航树，可配合知识网络，有利于用户快速搜索需要的信息。

附图说明

图1是本发明一实施例的建筑工程文档知识网络的构建方法的流程图；

图2是本发明一实施例的异构文档的语义提取过程的示意图；

图3是本发明一实施例的短语的词频加权例子的示意图；

图4是本发明一实施例的主成分数量确定方法的示意图；

图5是本发明一实施例的局部的短语知识网络的示意图；

图6是本发明一实施例的工程资料树形导航的示意图；

图7是本发明一实施例的使用导航树的子图搜索结果的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种建筑工程文档知识网络的构建方法，包括：

在此，对工程文档中常见的类型(Word文档、PPT幻灯片、pdf文档、dwg图纸)以及包含多个文件的压缩包，开发对应的接口，实现异构文档结构化为统一可分析的文本内容；然后进行信息提取和语义分析；

在此，短语的出现频率远低于关键词，不能直接使用短语的词频，而是使用短语蕴含词语的加权词频做修正。两个短语的情况示例如图3，涉及的短语为PH1＝“混凝土施工”(频数为C1)，PH2＝“施工方案”(频数为C2)，设关键词W1＝“混凝土”的频数是n1，W2＝“施工”的频数是n2，W3＝“方案”的频数是n3。由于“施工”一词同时出现在两个短语中，则其词频按两个短语的频率作加权分配，最终得到PH1和PH2的权重为

其中，|·|为字符串长度，如一个短语蕴含的关键词有多个出现位置，则以此类推按多个关键词频数做加权分配；

在此，本发明面向建筑施工领域的多种格式和来源的异构文档，有针对地设计新的文档语义算法，实现信息的提取，并进一步利用文档蕴含的施工技术知识，建立文档知识网络，可以将宝贵工程技术知识进行形象化的组织，以挖掘企业积累的文档大数据资产的价值。

本发明的建筑工程文档知识网络的构建方法一实施例中，步骤4：基于所述关键短语的权重和指纹向量建立知识网络之后，还包括：

生成文档树形导航：将所述建筑工程文档最重要的前几个关键词按所述知识网络中的层级排列成树状结构，即得到对应的文档导航树，当用户沿着所述文档导航树搜索时，所述知识网络同步聚焦至与搜索路径最相关的子结构上，达到快速浏览的目的。

例如在图6中，已计算出主要关键词为“设计要求”、“钢筋笼起吊”、“施工现场塔机”等，而每个主要关键词又联系着下一层级的关键词。例如“施工现场塔机”关联有“指挥人员”、“塔吊司机”、“塔吊作业”等关键短语。技术人员通过点击该导航树的节点，可以快速定位想要查看的工程资料。

当用户沿着导航树搜索时，知识网络同步聚焦至与搜索路径最相关的子结构上。图7的实例为用户定位“施工质量->施工作业->注浆量”时的应用流程。首先为用户定位到最相关的知识网络子结构，这里提示了最相关的一些其他节点，例如“混凝土灌注”和“注浆压力”等。点击进入“注浆量”知识文档列表后，发现存在4个相关的专业技术资料，可进入文件信息页查看预先提取的文档标签、关键词、摘要等数据，达到快速浏览的目的。

本发明的建筑工程文档知识网络的构建方法一实施例中，步骤1：对建筑工程文档的语义信息进行提取，以得到关键词，包括：

步骤1.1：文本和对象提取：提取文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合；

在此，如图2，可以使用Python语言读取Word和PPT的建筑工程文档的文字和表格，还涉及调用Windows API转换为2013版本格式。对于pdf文件，直接读文本；如果是扫描件则通过OCR方法提取其中的文本；工程图纸中也包含丰富的文本，包括文本的内容、位置坐标和字号，其中字号可用于区别文本的重要性；可通过二次开发AutoCAD插件，读取图纸中的文本信息；

步骤1.2：语义分析和关键词。对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析，以识别出关键词；

在此，可以采用开源的HanLP自然语言分析库提取关键词、重要短语、专业术语等；

步骤1.3：脱敏处理。识别所述关键词中的命名实体和敏感数字，采用HanLP分词标记结果识别命名实体，如公司名、人名、地址，用一串星号代替命名实体；使用正则表达式隐去敏感数字，如账号、身份证号、货币金额。

本发明的建筑工程文档知识网络的构建方法一实施例中，步骤3：计算所述建筑工程文档的指纹向量，包括：

步骤3.1：词频统计。设建筑工程文档的总数为N_f，统计第i个建筑工程文档的各关键词w_ik的词频f_ik，其中，i＝1～N_f，将所有建筑工程文档的关键词去重后得到总关键词向量W，N_w＝card(W)；

步骤3.2：按关键词向量化。基于当前关键词w_ik的词频f_ik，得到当前关键词所在建筑工程文档的各关键词总词频

及得到所有建筑工程文档的关键词总词频

步骤3.3：使用了一种改进TF-IDF指标，基于关键词总词频n_i和关键词总词频N，用第i个建筑工程文档的每个关键词w_ik都对建筑工程文档i的向量V_i作一次赋值，则V_i：

形成各施工文档主要内容的数学方式表征，即向量空间模型(VSM)，改进点在于计算关键词的权重时，以文档各关键词总词频代表该文档的篇幅，弱化了长篇文档中关键词的词频。这样做的原因是，建筑工程文档重要性并非以篇幅为依据，短小的文档也有可能相当重要；

步骤3.4，主成分分析(PCA)降维：以所有建筑工程文档的向量V_i(i＝1～N_f)排列为矩阵，采用PCA算法处理后，选择特征值累积量大于80％时的前n_P个主成分，然后将向量Vi向前n_P个主成分投影，得到n_P维的投影向量，即为建筑工程文档的指纹向量F_i。

在此，如图4为实例运行结果，可以看到前24个主成分累计值＝0.806达到要求，则在该例中取n_P＝24。

本发明的建筑工程文档知识网络的构建方法一实施例中，步骤4：基于所述关键短语的权重和指纹向量建立知识网络，包括：

在此，L的计算方法可以为：

其中，F为建筑工程文档的指纹向量，||·||为向量范数，求和项分母加上δ是为了避免两文档极其相似，甚至就是重复存储的同样一份文档的情况，导致分母接近0，优选δ＝1/n_P；

步骤4.3：使用自动的力导向布局方法，在网页上合理散布节点，按拓扑关系计算圆形节点之间的最优的连线位置，基于圆形节点之间的最优的连线位置，将圆形节点互相联结得到知识网络的图形，如图5。

本发明还提供另一种建筑工程文档知识网络的构建系统，包括：

与现有技术相比，本发明具有以下技术效果：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种建筑工程文档知识网络的构建方法，其特征在于，包括：

2.如权利要求1所述的建筑工程文档知识网络的构建方法，其特征在于，步骤4：基于所述关键短语的权重和指纹向量建立知识网络之后，还包括：

3.如权利要求1所述的建筑工程文档知识网络的构建方法，其特征在于，步骤1：对建筑工程文档的语义信息进行提取，以得到关键词，包括：

4.如权利要求3所述的建筑工程文档知识网络的构建方法，其特征在于，步骤1.2：对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析，以识别出关键词，包括：

5.如权利要求3所述的建筑工程文档知识网络的构建方法，其特征在于，所述命名实体包括：公司名、人名或地址。

6.如权利要求3所述的建筑工程文档知识网络的构建方法，其特征在于，所述敏感数字包括：账号、身份证号或货币金额。

7.如权利要求1所述的建筑工程文档知识网络的构建方法，其特征在于，步骤3：计算所述建筑工程文档的指纹向量，包括：

及得到所有建筑工程文档的关键词总词频

8.如权利要求1所述的建筑工程文档知识网络的构建方法，其特征在于，步骤4：基于所述关键短语的权重和指纹向量建立知识网络，包括：

9.一种建筑工程文档知识网络的构建系统，其特征在于，包括：