CN112651373A

CN112651373A - 一种建筑图纸文本信息的识别方法及装置

Info

Publication number: CN112651373A
Application number: CN202110003465.2A
Authority: CN
Inventors: 陈兵; 赵晓
Original assignee: Glodon Co Ltd
Current assignee: Glodon Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-13
Anticipated expiration: 2041-01-04
Also published as: CN112651373B

Abstract

本发明提供了一种建筑图纸文本信息的识别方法及装置，其中，该方法包括：识别建筑图纸中的至少一类建筑构件的原位标注的多个文本信息，至少一类建筑构件包括至少一个建筑构件；基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值；根据概率值确定至少一类建筑构件中不同建筑构件的所属文本信息。本发明提供的建筑图纸文本信息的识别方法，通过预设的文本识别模型计算文本信息与建筑构件相匹配的概率值，泛化能力更强，维护成本较低，并且，整体结合各文本信息与各建筑构件相匹配的概率值确定各建筑构件的原位标注，得到的原位标注和建筑构件的匹配结果更准确。

Description

一种建筑图纸文本信息的识别方法及装置

技术领域

本发明涉及建筑工程图纸文本识别识别技术领域，具体涉及一种建筑图纸文本信息的识别方法及装置。

背景技术

在建筑行业中，在对建筑物进行施工、算量前，需要将二维图纸中的构件转换成三维模型。但是二维图纸中的建筑构件具有几何信息和文字等多种属性信息，其中原位标注是建筑构件的重要属性信息之一，原位标注属性不仅种类多，而且业务场景复杂，是建筑构件识别算法的难点和痛点。传统识别算法采用规则对二维图纸进行解析，得到建筑构件与原位标注之间的对应关系。但是采用规则进行解析时，泛化能力较弱，后期研发资源需要一直投入，不断更新规则，维护成本高。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的建筑图纸文本信息的识别时泛化能力较弱的缺陷，从而提供一种建筑图纸文本信息的识别方法及装置。

本发明第一方面提供了一种建筑图纸文本信息的识别方法，包括：识别建筑图纸中的至少一类建筑构件的原位标注的文本信息，该类建筑构件包括至少一个建筑构件；基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值；根据概率值确定该类建筑构件中不同建筑构件的所属原位标注。

可选地，在本发明提供的建筑图纸文本信息的识别方法中，基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值的步骤，包括：对文本信息进行聚类，得到至少一个文本图元集，文本图元集中的文本信息同属于一个建筑构件；将文本图元集对应所述各建筑构件的概率值确定为文本图元集中各文本信息对应各建筑构件的概率值。

可选地，在本发明提供的建筑图纸文本信息的识别方法中，基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值的步骤，包括：分别计算各文本图元集、至少一类建筑构件中不同建筑构件及表征文本图元集与至少一类建筑构件中不同建筑构件的关联关系的特征向量；分别根据各特征向量和预设的文本识别模型计算各文本图元集对应至少一类建筑构件中各建筑构件的概率值，将文本图元集对应各建筑构件的概率值确定为文本图元集中各文本信息对应各建筑构件的概率值。

可选地，在本发明提供的建筑图纸文本信息的识别方法中，对文本信息进行聚类，获取至少一个文本图元集的步骤，包括：根据文本信息的分布位置构建空间四叉树；根据空间四叉树确定文本图元集的搜索范围；根据搜索范围内的文本信息的分布位置和预设文字间距参数对文本信息进行聚类，得到至少一个文本图元集。

可选地，在本发明提供的建筑图纸文本信息的识别方法中，文本图元集的特征向量包括文本图元集的标注类型，计算各文本图元集的特征向量的步骤，包括：分别提取文本图元集中各文本信息的特征向量；分别根据各文本信息的特征向量和预设文本类型预测模型计算各文本信息的文本类型；根据文本图元集中各文本信息的文本类型确定文本图元集的标注类型。

可选地，在本发明提供的建筑图纸文本信息的识别方法中，构建预设的文本识别模型的步骤，包括：获取训练建筑构件，标注训练建筑构件的原位标注属性，训练建筑构件和原位标注属性的关联关系为第一标签数据；获取训练文本信息，标注训练文本信息和原位标注属性的关联关系，训练文本信息和原位标注属性的关联关系为第二标签数据；根据第一标签数据和第二标签数据形成标签数据。

可选地，在本发明提供的建筑图纸文本信息的识别方法中，获取标签数据的步骤，包括：获取建筑构件，标注建筑构件的原位标注属性，建筑构件和原位标注属性的关联关系为第一标签数据；获取文本信息，标注文本信息和原位标注属性的关联关系，文本信息和原位标注属性的关联关系为第二标签数据；根据第一标签数据和第二标签数据形成标签数据。

可选地，在本发明提供的建筑图纸文本信息的识别方法中，获取预设文字间距参数的步骤，包括：获取图纸中的文字间距；根据图纸中的文字间距确定预设文字间距参数。

可选地，在本发明提供的建筑图纸文本信息的识别方法中，获取预设文字间距参数的步骤，包括：根据图纸提取图纸特征；根据图纸特征和预设特征库获取与图纸相对应的标准图纸；根据标准图纸确定预设文字间距参数。

本发明第二方面提供了一种建筑图纸文本信息的识别装置，包括：文本信息获取模块，用于识别建筑图纸中的至少一类建筑构件的文本信息，至少一类建筑构件包括至少一个建筑构件；文本信息预测模块，用于基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值；文本信息匹配模块，用于根据概率值确定至少一类建筑构件中不同建筑构件的所属文本信息。

本发明第三方面提供了一种计算机设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，从而执行如本发明第一方面提供的建筑图纸文本信息的识别方法。

本发明第四方面提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行如本发明第一方面提供的建筑图纸文本信息的识别方法。

本发明技术方案，具有如下优点：

1.本发明提供的建筑图纸文本信息的识别方法，通过预设的文本识别模型计算文本信息与建筑构件相匹配的概率值，相较于传统的方法，泛化能力更强，维护成本较低，并且，在识别建筑构件的文本信息时，在获取建筑图纸中各文本信息与各建筑构件相匹配的概率值后，整体结合各文本信息与各建筑构件相匹配的概率值确定各建筑构件的文本信息，由于文本信息与建筑构件的匹配结果是结合建筑图纸中的全部文本信息和全部建筑构件完成的，因此通过实施本发明得到的文本信息和建筑构件的匹配结果更准确。

2.本发明提供的建筑图纸文本信息的识别方法，在计算各文本信息和各建筑构件的概率值时，先对文本信息进行聚类得到文本图元集，然后计算各文本图元集对应各建筑构件的概率值，根据各文本图元集对应各建筑构件的概率值确定各文本信息对各建筑构件的概率值，由于建筑图纸中的文本信息较多，且存在多个文本信息组成一个集合从属于同一建筑构件的情况，因此，先将文本信息进行聚类，让然后根据聚类后的文本图元集计算各文本信息对应于各建筑构件的概率值，加快了确定各建筑构件的所属原位标注的速度，提高了识别各建筑构件的所属原位标注的准确率。

3.本发明提供的建筑图纸文本信息的识别方法，在对建筑图纸中的文本信息进行聚类时，先根据文本信息的分布位置构建了空间四叉树，通过空间四叉树可以确定文本图元集的搜索范围，然后根据搜索范围内的文本信息的分布位置和预设文字间距参数对文本信息进行聚类。本发明通过构建空间四叉树提高了对文本信息进行聚类的效率。并且，本发明中在对文本信息进行聚类时，采用预设文字间距参数作为无监督机器学习中的超参数，使得聚类效果更好。

4.本发明提供的建筑图纸文本信息的识别装置，通过预设的文本识别模型计算文本信息与建筑构件相匹配的概率值，相较于传统的方法，泛化能力更强，维护成本较低，并且，在识别建筑构件的文本信息时，在获取建筑图纸中各文本信息与各建筑构件相匹配的概率值后，整体结合各文本信息与各建筑构件相匹配的概率值确定各建筑构件的文本信息，由于文本信息与建筑构件的匹配结果是结合建筑图纸中的全部文本信息和全部建筑构件完成的，因此通过实施本发明得到的文本信息和建筑构件的匹配结果更准确。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1-图3为本发明实施例中建筑图纸文本信息的识别方法的具体示例的流程图；

图4-图6为本发明实施例中文本信息聚类示意图；

图7-图9为本发明实施例中建筑图纸文本信息的识别方法的具体示例的流程图；

图10为本发明实施例中建筑图纸文本信息的识别装置的具体示例的原理框图；

图11为本发明实施例中计算机设备的具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

在建筑行业中，二维建筑图纸仍然占据主流，但是设计端下游的施工和算量等对模型的直观性要求较高，因此需要将二维建筑图纸转换成三维模型。二维建筑图纸中包括大量建筑构件和建筑构件的原位标注，运维标注不仅种类多，而且业务场景复杂，因此在将二维建筑图纸转换成三维模型时，识别原位标注并将原位标注与之相对应的建筑构件匹配是一项重要工作。

基于此，本发明实施例提供了一种建筑图纸文本信息的识别方法，如图1所示，该建筑图纸文本信息的识别方法主要包括：

步骤S11：识别建筑图纸中的至少一类建筑构件的多个文本信息，该类建筑构件包括至少一个建筑构件。

在一具体实施例中，建筑图纸中的建筑构件包括多种类型，如梁、柱等，并且，建筑图纸中存在多个同一种类型的建筑构件，如，建筑图纸中包括多个梁。在建筑图纸中，对于同一建筑构件，通常具有多条文本信息，用于对建筑构件进行说明，建筑构件的文本信息包括建筑构件的原位标注，原位标注为对建筑构件的详细标注，通常情况下，在建筑图纸中，一个建筑构件至少对应有一条原位标注，例如，建筑构件梁的原位标注包括截面尺寸、配筋大小等。

步骤S12：基于预设的文本识别模型计算各文本信息分别对应该类建筑构件中不同建筑构件的概率值。

为了整体分析文本信息与建筑构件之间的关系，从而更准确地对文本信息与建筑构件进行匹配，确定建筑构件的所属文本信息，本发明实施例中分别获取了各文本信息与各建筑构件之间相匹配的概率值。但是在具体实施例中，由于属于某一建筑构件的文本信息通常位于距离该建筑构件较近的位置，因此为了提高匹配效率，可以仅计算文本信息和与其相距预设范围内的建筑构件相匹配的概率值。预设范围的值可根据实际情况进行调整，在一具体实施例中，可以预先获取大量标准建筑图纸，获取标准建筑图纸中各建筑构件以及该建筑构件的原位标注之间的距离，将各建筑图纸中建筑构件与其原位标注之间的距离的均值作为预设范围的半径。

步骤S13：根据概率值确定该类建筑构件中不同建筑构件的所属文本信息，在具体实施例中，先根据各文本信息对应各建筑构件的概率值确定各文本信息与各建筑构件的对应关系，与某一建筑构件相对应的文本信息中包括该建筑构件的所属原位标注。

在一具体实施例中，可以通过任意算法采用概率值确定各文本信息与各建筑构件的对应关系，但是在本发明实施例中，可采用二分图最大权重匹配算法进行计算，使得文本信息和建筑构件达到全局最优匹配。

本发明实施例提供的建筑图纸文本信息的识别方法，通过预设的文本识别模型计算文本信息与建筑构件相匹配的概率值，相较于传统的方法，泛化能力更强，维护成本较低，并且，在识别建筑构件的原位标注时，在获取建筑图纸中各文本信息与各建筑构件相匹配的概率值后，整体结合各文本信息与各建筑构件相匹配的概率值确定各建筑构件的原位标注，由于原位标注与建筑构件的匹配结果是结合建筑图纸中的全部文本信息和全部建筑构件完成的，因此通过实施本发明实施例得到的原位标注和建筑构件的匹配结果更准确。

在一可选实施例中，如图2所示，本发明实施例提供的建筑图纸文本信息的识别方法包括：

步骤S21：识别建筑图纸中的至少一类建筑构件的多个文本信息，该类建筑构件包括至少一个建筑构件，详细内容见上述实施例中对步骤S11的描述，在此不再赘述。

步骤S22：对文本信息进行聚类，得到至少一个文本图元集，文本图元集中的文本信息同属于一个建筑构件，将文本图元集对应各建筑构件的概率值确定为文本图元集中各文本信息对应各建筑构件的概率值。

由于一个建筑构件至少对应有一条原位标注(例如：钢筋类型、截面、标高、纵筋、侧面钢筋等)，因此可能存在多个文本信息组成一个集合属于同一个建筑构件的情况，本发明实施例中先对文本信息进行聚类，形成多个文本图元集，通过分析文本图元集与各建筑构件的关系得到各建筑构件所属的文本信息，相较于分别对各文本信息与各建筑构件的关系进行分析得到建筑构件所属的文本信息，效率更高，并且，在分析文本图元集与各建筑构件的关系时，从文本图元集中既可以提取各文本信息的特征，又可以提取各文本图元集的整体特征，因此相较于分别将每个原位标注与建筑构件进行逐一匹配，本发明实施例中将文本信息聚类后利用文本图元集完成原位标注与建筑构件的匹配，得到的匹配结果更准确。

在一可选实施例中，在执行上述步骤S22对建筑图纸中的文本信息进行聚类得到多个文本图元集后，计算文本图元集与各建筑构件的相对应的概率值的步骤包括：

步骤S23：分别计算各文本图元集、至少一类建筑构件中不同建筑构件及表征文本图元集与该类建筑构件中不同建筑构件的关联关系的特征向量。

在一具体实施例中，为了能够准确得到文本图元集与建筑构件的匹配关系，在获取特征向量时，需要同时获取文本图元集、建筑构件、以及表征文本图元集与建筑构件关联关系的特征向量，表征文本图元集与建筑构件关联关系的特征向量包括文本图元集与建筑构件的距离、文本图元集与建筑构件的夹角等。以建筑构件为梁为例，获取的特征如下表1所示。

表1

步骤S24：分别根据各特征向量和预设的文本识别模型计算各文本图元集对应至少一类建筑构件中各建筑构件的概率值，将文本图元集对应各建筑构件的概率值确定为文本图元集中各文本信息对应各建筑构件的概率值。

为了整体分析文本图元集与建筑构件之间的关系，从而更准确地对文本信息与建筑构件进行匹配，本发明实施例中分别获取了各文本图元集与各建筑构件之间相匹配的概率值。但是在一具体实施例中，由于一建筑构件的原位标注通常位于距离该建筑构件较近的位置，因此为了提高匹配效率，可以仅计算文本图元集和与其相距预设范围内的建筑构件相匹配的概率值。预设范围的值可根据实际情况进行调整，在一具体实施例中，可以预先获取大量标准建筑图纸，获取标准建筑图纸中各文本图元集与其对应的建筑构件的距离，将各标注建筑图纸中文本图元集与其对应的建筑构件的距离的均值作为预设范围的半径。

步骤S25：根据概率值确定至少一类建筑构件中不同建筑构件的所属文本信息，详细内容见上述实施例中对步骤S13的描述，在此不再赘述。

在一可选实施例中，如图3所示，本发明实施例提供的建筑图纸文本信息的识别方法包括：

步骤S31：识别建筑图纸中的至少一类建筑构件的多个文本信息，该类建筑构件包括至少一个建筑构件，详细内容见上述实施例中对步骤S11的描述，在此不再赘述。

步骤S32：根据文本信息的分布位置构建空间四叉树。

在一具体实施例中，建筑图纸中的文本信息数量较多，且分布较广，因此为了在将文本信息与建筑构件进行匹配时，更方便快捷地对文本信息进行遍历，加快匹配效率，本发明实施例中根据文本信息的分布位置构件了空间四叉树。

步骤S33：根据空间四叉树确定文本图元集的搜索范围。

通过传统的无监督学习对文本信息进行聚类时，会先采用随机初始化的方式选择初始聚类中心，对初始聚类中心进行优化时，也需要遍历建筑图纸中的所有文本信息，由传统的通过无监督学习进行聚类的过程可知，传统的聚类方式并不会考虑到建筑图纸中的文本信息的分布特征，这也是传统的聚类方式聚类效率较低，且聚类结果不准确的原因。

在本发明实施例中，考虑到属于同一建筑构件的原位标注之间的距离通常较小，在对文本信息进行聚类得到文本图元集时，距离是一项重要指标，因此，在本发明实施例中，先根据四叉树确定文本图元集的搜索范围，然后遍历该范围内的文本信息即可构建文本图元集，无需遍历全部的文本信息，从而加快了聚类效率。

步骤S34：根据搜索范围内的文本信息的分布位置和预设文字间距参数对文本信息进行聚类，得到至少一个文本图元集，文本图元集中的文本信息同属于一个建筑构件。

在一具体实施例中，在对文本信息进行聚类时，如图4所示，可以先确定距离小于文字间距参数的文字信息，然后判断距离小于文字间距参数的文字信息在文字的水平方向投影有重叠或在文字的垂直方向投影是否有重叠，若有重叠，如图5和图6所示，则将文字信息进行聚类，否则不进行聚类。

在一具体实施例中，预设文字间距参数可根据实际需求进行调整，在本发明实施例中，提供如下三种方式获取预设文字间距参数：

第一种方式，首先获取建筑图纸中的文字间距，然后根据建筑图纸中的文字间距确定预设文字间距参数。在一具体实施例中，可以根据建筑图纸中的文字间距的均值或众数确定预设文字间距参数，例如，可以将建筑图纸中的文字间距的众数的2倍设定为预设文字间距参数。在本实施例中，预设文字间距是基于建筑图纸中全部文本信息的文字间距的均值或众数得到的，建筑图纸中全部文本信息的文字间距的均值和众数可以宏观反应建筑图纸中文本信息之间的距离，因此，以本发明实施例得到的预设文字间距参数作为聚类标准之一，得到的聚类结果更准确。

第二种方式，首先根据建筑图纸提取图纸特征，然后根据图纸特征和预设特征库获取与建筑图纸相对应的标准建筑图纸，最后根据标准建筑图纸确定预设文字间距参数。其中，预设特征库中包括大量的标准建筑图纸、各标准建筑图纸的图纸特征、各标准建筑图纸的文字间距参数，根据标准建筑图纸确定预设文字间距参数，可以将与建筑图纸的图纸特征最相近的标准建筑图纸的用于文本信息聚类的文字间距参数作为建筑图纸的预设文字间距参数。

通过设置预设特征库可以为建筑图纸进行几何识别、语义识别等分析时提供参考阈值。

图纸特征包括文字特征、矢量线特征、设计特征等。其中，文字特征包括文字的高度、宽度、颜色、文字间距、图层相关信息等；矢量线特征包括长度、方向、曲线间距、连接关系等；设计特征包括建筑类型、设计单位等。

预设特征库中的标准建筑图纸的文字间距参数是通过实践证明可以对标准建筑图纸中的文本信息进行准确聚类的参数，因此，本发明实施例中将图纸特征与建筑图纸最相近的标准建筑图纸的文字间距参数作为建筑图纸的预设文字间距参数，也可以对建筑图纸中的文本信息进行准确聚类。

第三种方式，首先提取预设特征库中各标准建筑图纸的文字间距，然后根据各标准建筑图纸的文字间距确定预设文字间距参数。在一具体事实中，可以根据预设特征库中所有标准建筑图纸中的文字间距的均值或众数确定预设文字间距参数，例如，可以将所有标准图纸中的文字间距的众数的2倍设定为预设文字间距参数。在本实施例中，预设文字间距是基于海量的标准建筑图纸中的文本信息的文字间距的均值或众数得到的，因此预设文字间距可以基本反映建筑图纸中的文字间距的特征，以本发明实施例得到的预设文字间距参数作为聚类标准之一，得到的聚类结果更准确。

在现有技术中，使用无监督学习对文本信息进行聚类时，若超参数选择不当，会导致聚类结果不够准确，在本发明实施例中，将预设文字间距参数作为了聚类过程中的超参数，由上述对预设文字间距参数的获取方式的描述可知，通过本发明实施例中提供的预设文字间距参数得到的聚类结果更准确。

步骤S35：分别计算各文本图元集、至少一类建筑构件中不同建筑构件及表征文本图元集与该类建筑构件中不同建筑构件的关联关系的特征向量，详细内容见上述实施例中对步骤S23的描述，在此不再赘述。

步骤S36：分别根据各特征向量和预设的文本识别模型计算各文本图元集对应至少一类建筑构件中各建筑构件的概率值，将文本图元集对应各建筑构件的概率值确定为文本图元集中各文本信息对应各建筑构件的概率值，详细内容见上述实施例中对步骤S24的描述，在此不再赘述。

步骤S37：根据概率值确定至少一类建筑构件中不同建筑构件的所属文本信息，详细内容见上述实施例中对步骤S13的描述，在此不再赘述。

在一可选实施例中，文本图元集的特征向量包括文本图元集的标注类型，如图7所示，本发明实施例提供的建筑图纸文本信息的识别方法包括：

步骤S41：识别建筑图纸中的至少一类建筑构件的多个文本信息，该类建筑构件包括至少一个建筑构件，详细内容见上述实施例中对步骤S11的描述，在此不再赘述。

步骤S42：对文本信息进行聚类，获取至少一个文本图元集，文本图元集中的文本信息同属于一个建筑构件，详细描述见上述步骤S22的描述，在此不再赘述。

步骤S43：分别提取文本图元集中各文本信息的特征向量。

在一具体实施例中，文本图元集中至少包含一条文本信息，在获取各文本信息的特征向量前，需要先对各文本信息进行N元分割。

步骤S44：分别根据各文本信息的特征向量和预设的文本类型预测模型计算各文本信息的文本类型。在一具体实施例中，原位标注有多种文本类型，例如，包括钢筋类型、截面、标高、纵筋、侧面钢筋等。

对于预设的文本类型预测模型，在本发明实施例中，采用行业通用的自然语言处理(Natural Language Processing，NLP)方式进行标注类型粗模型训练，得到粒度较大的，泛化性较好的文本类型预测模型。具体包括：首先获取训练样本，训练样本中包括原位标注的文本信息和原位标注对应的文本类型标签；其次对文本信息进行N元分割，建立向量统一的向量维度；将特征向量和对应的文本类型标签输入至进行机器模型训练，得到预设的文本类型预测模型。

步骤S45：根据文本图元集中各文本信息的文本类型确定文本图元集的标注类型。

在一具体实施例中，如上表1所示，文本图元集的标注类型可以为标高、钢筋、混合标注等，并且，本发明实施例中为不同的标注类型设置了不同的数值，例如，若文本图元集的标注类型为钢筋，则可以将标注类型的值确定为0，若文本图元集的标注类型为标高，则可以将标注类型的值确定为1等。

步骤S46：分别计算各建筑构件及表征文本图元集与建筑构件的关联关系的特征向量。在一具体实施例中，当建筑构件为梁时，各建筑构件及表征文本图元集与建筑构件的关联关系的特征向量见上表1。

步骤S47：分别根据各特征向量和预设的文本识别模型计算各文本图元集对应至少一类建筑构件中各建筑构件的概率值，将文本图元集对应各建筑构件的概率值确定为文本图元集中各文本信息对应各建筑构件的概率值，详细内容参见上述实施例中对步骤S24的描述，在此不再赘述。

步骤S48：根据概率值确定至少一类建筑构件中不同建筑构件的所属文本信息，详细内容参见上述实施例中对步骤S13的描述，在此不再赘述。

本发明实施例提供的建筑图纸文本信息的识别方法，在确定文本图元集与建筑构件的对应关系时，获取的文本图元集的特征向量包括文本图元集的标注类型，由于不同的建筑构件对应有不同类型的原位标注，因此通过获取文本图元集的标注类型便于将文本图元集与建筑构件相对应。并且，文本图元集的标注类型是由文本图元集中各文本信息的文本类型确定的，在本发明实施例中，在获取文本信息的文本类型时，是通过预设的文本类型预测模型实现的，因此效率更快，泛化能力更强。

上述实施例中以文本图元集的特征向量为文本图元集的标注类型为例进行了方案描述，但是在具体实施例中，文本图元集的特征还包括文本图元集中的文本数量、文本图元集的高度、文本图元集的宽度等。

对于文本图元集中的文本数量，该特征的取值为[1,2,3，…]中的任意整数，通过相关技术对文本图元集进行语义分析，得到的文本图元集中具有独立语义的文本数量即为文本图元集中的文本数量的特征值。

对于文本图元集的高度，该特征的取值为(0，+∞)中的任意数，通过文本图元集的高度和文本图元集中各文字的平均高度的比值确定文本图元集的高度的特征值。

对于文本图元集的宽度，该特征的取值为(0，+∞)中的任意数，通过文本图元集的宽度和文本图元集中各文字的平均高度的比值确定文本图元集的宽度的特征值。

在将文本图元集与建筑构件进行匹配时，除了上述文本图元集的特征外，还需获取各建筑构件及表征文本图元集与建筑构件的关联关系的特征向量。在一具体实施例中，当建筑构件为梁时：

建筑构件的特征包括钢筋排数、钢筋数目、钢筋规格、梁特征点位置、是否有相邻梁跨、梁跨是否悬挑、是否直线梁、梁跨子跨个数、梁跨长度等。

对于钢筋排数，该特征的取值为[0,1,2，…]中的任意整数，在具体实施方式中，通过对钢筋标注进行文本解析可以得到钢筋排数，例如，若钢筋标注为“4C22 2/2”，则通过解析该标注即可确定钢筋排数的特征值为2。

对于钢筋数目，该特征的取值为[0,1,2，…]中的任意整数，在具体实施方式中，通过对钢筋标注进行文本解析可以得到钢筋数目，例如，若钢筋标注为“4C22”，则通过解析该标注即可确定钢筋数目的特征值为4。

对于钢筋规格，钢筋规格包括A、B、C、D等规格，可以将不同的规格对应不同的数值，例如，当钢筋规格为A时，对应的钢筋规格特征值为1，当钢筋规格为B时，对应的钢筋规格特征值为2等。钢筋规格可以通过对钢筋标注进行文本解析得到，例如，若钢筋标注为“4C22”，则通过对该标注进行文本解析即可确定钢筋规格为C，从而根据与C相对应的数值确定钢筋规格的特征值。

对于梁特征点位置，该特征的取值为[1,2,3,4]中的任意一个值，梁特征点位置包括左、中、右、下四种，不同的位置对应不同的取值。

对于是否有相邻梁跨，该特征的取值为[1,0]中的一个值，先通过相关技术对梁的属性进行解析，若具备相邻梁跨，则该特征的取值为1，若不具备相邻梁跨，则该特征的取值为0。

对于梁跨是否悬挑，该特征的取值为[1,0]中的一个值，先通过相关技术对梁跨的属性进行解析，若梁跨悬挑，则该特征的取值为1，若梁跨非悬挑，则该特征的取值为0。

对于是否直线梁，该特征的取值为[1,0]中的一个值，先通过相关技术对梁跨的属性进行解析，若梁跨为直线梁，则该特征的取值为1，若梁跨为曲线梁，则该特征的取值为0。

对于梁跨子跨个数，该特征的取值为[1,2，…]中的任意整数，通过相关技术对梁跨的属性进行解析可以得到梁跨子跨个数。

对于梁跨长度，该特征的取值为(0，+∞)中的任意数，通过对梁跨的属性进行解析可以得到梁跨长度。

表征文本图元集与建筑构件的关联关系的特征包括文本与特征点距离、文本与梁夹角、文本中心在梁的投影位置、文本在梁的投影长度、文本中心与梁相对位置、文字与跨平均距离等。

对于文本与特征点的距离，该特征的取值为(0，+∞)中的任意数，通过相关技术确定文本的文本中心点与梁跨的特征点，并计算文本中心点与特征点之间的距离，得到文本中心点与特征点的距离的特征值。

对于文本与梁夹角，该特征的取值为[0,90]中的任意数，通过相关技术确定文本书写方向，以及梁上与文本距离最近的点的切线方向，并计算文本书写方向和切线方向的夹角，得到文本与梁夹角的特征值。

对于文本中心在梁的投影位置，该特征的取值为[0,1]中的任意数，通过相关技术确定文本中心，并将文本中心投影至与该文本相对应的梁跨，将投影点与梁跨起点的距离与梁跨长度的比值确定为文本中心在梁的投影位置的特征值。

对于文本在梁的投影长度，该特征的取值为(0，+∞)中的任意数，先将文本投影至梁跨，并计算该投影的长度，得到文本在梁的投影长度的特征值。

对于文本中心与梁相对位置，该特征的取值为[0,1]中的一个值，先确定文本的文本中心，然后判断文本中心与梁的相对位置，当文本中心在梁的上侧时，文本中心与梁相对位置的特征值为0，当文本中心在梁的下侧时，文本中心与梁的相对位置的特征值为1。

对于文字与跨平均距离，该特征的取值为(0，+∞)中的任意数，通过统计图纸内所有文字与梁跨的距离的平均值得到文字与跨平均距离的特征值。

上述仅是对文本图元集的特征、建筑构件的特征以及表征文本图元集与建筑构件的关联关系的特征进行的举例说明，在一具体实施例中，可以通过上述特征的任意组合或引入其他相关特征实现对文本图元集与建筑构件的匹配。

在一可选实施例中，在本发明实施例提供的建筑图纸文本信息的识别方法中，如图8所示，构建预设的文本识别模型的步骤，包括：

步骤S51：获取训练样本，训练样本中包括建筑构件、原位标注属性、文本信息以及标签数据，标签数据用于表征建筑构件、原位标注属性、文本信息之间的关联关系。

步骤S52：根据训练样本对初始模型进行训练，得到预设的文本识别模型。

在一具体实施例中，初始模型可以选取支持向量机、随机森林、多重神经网络等模型中的任意一种，但是在本发明实施例中，通过实验发现采用多重神经网络模型可以得到更准确的匹配结果，因此本发明实施例中采用重神经网络模型作为初始模型。

在一具体实施例中，在本发明实施例提供的建筑图纸文本信息的识别方法中，如图9所示，构建预设的文本识别模型的步骤，包括：

步骤S61：获取训练建筑构件，标注训练建筑构件的原位标注属性，训练建筑构件和原位标注属性的关联关系为第一标签数据。

在一具体实施例中，不同的建筑构件具有不同属性的原位标注，例如，梁的原位标注属性包括左右支座钢筋、中部钢筋、标高、截面、侧面钢筋等信息，墙的原位标注属性包括名称、厚度、水平垂直分布筋等信息，第一标签数据仅绘制了训练建筑构件所具备的原位标注属性。

步骤S62：获取训练文本信息，标注训练文本信息和原位标注属性的关联关系，训练文本信息和原位标注属性的关联关系为第二标签数据。

在一具体实施例中，第二标签数据在第一标签数据的基础上将原位标签属性与训练文本信息进行了关联。具体地，本发明实施例中通过如下公式获取第二标签数据：

首先，通过预设标签工具将训练文本信息与原位标签属性进行关联，得到关联结果，其中，关联结果包括各训练文本信息与原位标签属性的关联关系和各关联关系的推荐结果，推荐结果用于表征关联关系的可行度，包括高、中、低三个可信度；

然后，根据关联结果对训练文本信息和原位标签属性进行再次关联，得到第二标签数据。在一具体实施例中，对于推荐结果为“中”和“低”的关联关系，需要人为对关联关系进行确认，若训练文本信息与原位标签属性关联错误，手动重新对训练文本信息和原位标签属性进行关联。最后，将推荐结果为“高”的关联关系、推荐结果为“中”和“低”的关联关系中关联正确的关联关系和手动关联的关联关系确定为第二标签数据。

步骤S63：根据第一标签数据和第二标签数据形成标签数据。

步骤S64：根据训练样本对初始模型进行训练，得到预设的文本识别模型。详细内容见上述实施例中对步骤S52的描述，在此不再赘述。

本发明实施例提供的建筑图纸文本信息的识别方法，在获取标签数据时，采用了预设标签工具，加快了获取标签数据的效率。

实施例2

本发明实施例提供了一种建筑图纸文本信息的识别装置，如图10所示，包括：

文本信息获取模块11，用于识别建筑图纸中的至少一类建筑构件的多个文本信息，至少一类建筑构件包括至少一个建筑构件，详细内容见上述实施例中对步骤S11的描述，在此不再赘述。

文本信息预测模块12，用于基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值，详细内容见上述实施例中对步骤S12的描述，在此不再赘述。

文本信息匹配模块13，用于根据概率值确定至少一类建筑构件中不同建筑构件的所属文本信息，详细内容见上述实施例中对步骤S13的描述，在此不再赘述。

本发明实施例提供的建筑图纸文本信息的识别装置，通过预设的文本识别模型计算文本信息与建筑构件相匹配的概率值，相较于传统的方法，泛化能力更强，维护成本较低，并且，在识别建筑构件的文本信息时，在获取建筑图纸中各文本信息与各建筑构件相匹配的概率值后，整体结合各文本信息与各建筑构件相匹配的概率值确定各建筑构件的文本信息，由于文本信息与建筑构件的匹配结果是结合建筑图纸中的全部文本信息和全部建筑构件完成的，因此通过实施本发明得到的文本信息和建筑构件的匹配结果更准确。

实施例3

本发明实施例提供了一种计算机设备，如图11所示，该计算机设备主要包括一个或多个处理器31以及存储器32，图11中以一个处理器31为例。

该计算机设备还可以包括：输入装置33和输出装置34。

处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接，图11中以通过总线连接为例。

处理器31可以为中央处理器(Central Processing Unit，CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器32可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据建筑图纸文本信息的识别装置的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器32可选包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至建筑图纸文本信息的识别装置。输入装置33可接收用户输入的计算请求(或其他数字或字符信息)，以及产生与建筑图纸文本信息的识别装置有关的键信号输入。输出装置34可包括显示屏等显示设备，用以输出计算结果。

实施例4

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储计算机指令，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的建筑图纸文本信息的识别方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种建筑图纸文本信息的识别方法，其特征在于，包括：

识别所述建筑图纸中的至少一类建筑构件的多个文本信息，所述至少一类建筑构件包括至少一个建筑构件；

基于预设的文本识别模型计算各文本信息分别对应所述至少一类建筑构件中不同建筑构件的概率值；

根据所述概率值确定所述至少一类建筑构件中不同建筑构件的所属文本信息。

2.根据权利要求1所述的建筑图纸文本信息的识别方法，其特征在于，基于预设的原位标识别计算模型文本识别模型计算各文本信息分别对应所述至少一类建筑构件中不同建筑构件的概率值的步骤，包括：

对所述文本信息进行聚类，得到至少一个文本图元集，所述文本图元集中的文本信息同属于一个建筑构件；

将所述文本图元集对应所述各建筑构件的概率值确定为所述文本图元集中各文本信息对应所述各建筑构件的概率值。

3.根据权利要求2所述的建筑图纸文本信息的识别方法，其特征在于，基于预设的文本识别模型计算各文本信息分别对应所述至少一类建筑构件中不同建筑构件的概率值的步骤，包括：

分别计算各所述文本图元集、所述至少一类建筑构件中不同建筑构件及表征所述文本图元集与所述至少一类建筑构件中不同建筑构件的关联关系的特征向量；

分别根据各所述特征向量和预设的文本识别模型计算各所述文本图元集对应所述至少一类建筑构件中各建筑构件的概率值。

4.根据权利要求3所述的建筑图纸文本信息的识别方法，其特征在于，所述对所述文本信息进行聚类，获取至少一个文本图元集的步骤，包括：

根据所述文本信息的分布位置构建空间四叉树；

根据所述空间四叉树确定所述文本图元集的搜索范围；

根据所述搜索范围内的文本信息的分布位置和预设文字间距参数对所述文本信息进行聚类，得到至少一个文本图元集。

5.根据权利要求3所述的建筑图纸文本信息的识别方法，其特征在于，所述文本图元集的特征向量包括所述文本图元集的标注类型，

计算各所述文本图元集的特征向量的步骤，包括：

分别提取所述文本图元集中各所述文本信息的特征向量；

分别根据各所述文本信息的特征向量和预设的文本类型预测模型计算各所述文本信息的文本类型；

根据所述文本图元集中各所述文本信息的文本类型确定所述文本图元集的标注类型。

6.根据权利要求1所述的建筑图纸文本信息的识别方法，其特征在于，构建所述预设的文本识别模型的步骤，包括：

获取训练样本，所述训练样本中包括建筑构件、原位标注属性、文本信息以及标签数据，所述标签数据用于表征所述建筑构件、原位标注属性、文本信息之间的关联关系；

根据所述训练样本对初始模型进行训练，得到所述预设的文本识别模型。

7.根据权利要求6所述的建筑图纸文本信息的识别方法，其特征在于，获取所述标签数据的步骤，包括：

获取训练建筑构件，标注所述训练建筑构件的原位标注属性，所述训练建筑构件和所述原位标注属性的关联关系为第一标签数据；

获取训练文本信息，标注所述训练文本信息和所述原位标注属性的关联关系，所述训练文本信息和所述原位标注属性的关联关系为第二标签数据；

根据所述第一标签数据和所述第二标签数据形成所述标签数据。

8.根据权利要求4所述的建筑图纸文本信息的识别方法，其特征在于，获取所述预设文字间距参数的步骤，包括：

获取所述建筑图纸中的文字间距；

根据所述建筑图纸中的文字间距确定所述预设文字间距参数。

9.根据权利要求4所述的建筑图纸文本信息的识别方法，其特征在于，获取所述预设文字间距参数的步骤，包括：

根据所述建筑图纸提取图纸特征；

根据所述图纸特征和预设特征库获取与所述建筑图纸相对应的标准建筑图纸；

根据所述标准建筑图纸确定所述预设文字间距参数。

10.一种建筑图纸文本信息的识别装置，其特征在于，包括：

文本信息获取模块，用于识别建筑图纸中的至少一类建筑构件的文本信息，所述至少一类建筑构件包括至少一个建筑构件；

文本信息预测模块，用于基于预设的文本识别模型计算各文本信息分别对应所述至少一类建筑构件中不同建筑构件的概率值；

文本信息匹配模块，用于根据所述概率值确定所述至少一类建筑构件中不同建筑构件的所属文本信息。

11.一种计算机设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，从而执行如权利要求1-9中任一项所述的建筑图纸文本信息的识别方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1-9中任一项所述的建筑图纸文本信息的识别方法。