CN109446885A

CN109446885A - 一种基于文本的元器件识别方法、系统、装置和存储介质

Info

Publication number: CN109446885A
Application number: CN201811041889.2A
Authority: CN
Inventors: 吴贺扬; 詹建州; 赵引; 孙尔安
Original assignee: Guangzhou Easy Software Technology Co Ltd
Current assignee: Guangzhou Easy Software Technology Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2019-03-08
Anticipated expiration: 2038-09-07
Also published as: CN109446885B

Abstract

本发明公开了一种基于文本的元器件识别方法、系统、装置和存储介质，该方法包括以下步骤：获取待识别的电气图纸；对待识别的电气图纸进行预处理，获取待识别的文本；根据待识别的文本的结构和内容，计算待识别的文本属于各类元器件的第一概率；根据待识别的文本属于各类元器件的第一概率，得到第一识别结果。本发明从电气图纸中提取待识别的文本，然后根据待识别的文本的结构和内容，计算待识别的文本属于各类元器件的第一概率，并根据第一概率来获得第一识别结果，本发明基于概率统计的方式从电气图纸中识别文本所属于的元器件类型，可以克服传统数据库查询方式存在的问题，具有较强的泛化能力。本发明可以广泛应用于人工智能领域。

Description

一种基于文本的元器件识别方法、系统、装置和存储介质

技术领域

本发明涉及人工智能领域，尤其是一种基于文本的元器件识别方法、系统、装置和存储介质。

背景技术

在电气行业，报价员需要根据从客户拿到的CAD电气设计图纸列出元器件的清单。列清单是成套电气报价中最重要的一个环节，是成套电气报价的基础。作为一个枯燥又繁琐，但是又要求报价员具有一定专业知识的环节，传统的成套电气报价方式主要是通过手工输入Excel的方式或者用软件的方式把元器件文本扒取出来，并由人工填写出对应的元器件类型，汇总出报价清单，最后报价员根据这样的清单进行报价。其中，在列清单的过程中，这些元器件文本的元器件类型一般是报价员根据自身的背景知识，通过元器件文本内容及对应的元器件图形综合来判断的。这种只能通过手工列清单的方式，在操作上机械繁琐，效率相当低下，很大程度上还要依赖于“人”，很容易出错，这样的解决方案极大程度上受限于报价员报价的速度与精度，不能满足用户及公司的对快速精准报价方面要求，也影响了工程的进度，严重的甚至可能导致企业竞标失败或亏损。伴随着人工智能大潮的到来，针对成套电气报价领域，通过人工智能的方式去识别图纸是必由之路。

在电气行业，电气图纸中元器件的智能识别，一般是由两个方面构成的，一个是元器件文本的识别，另一个是元器件图形的识别。目前，元器件文本的判断和识别很大程度上还是依赖于数据库的查询，这种方式泛化能力太差，如一条双电源文本“WATSG-100/4”由于设计师手误，写成了“WTASG-100/4”，就不能做到查询到。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种泛化能力强的基于文本的元器件识别方法、系统、装置和存储介质。

本发明所采取的第一种技术方案是：

一种基于文本的元器件识别方法，包括以下步骤：

获取待识别的电气图纸；

对待识别的电气图纸进行预处理，获取待识别的文本；

根据待识别的文本的结构和内容，计算待识别的文本属于各类元器件的第一概率；

根据待识别的文本属于各类元器件的第一概率，得到第一识别结果。

进一步，所述第一概率的计算公式为：

其中，P(C＝C_i)表示待识别的文本属于第i类元器件的概率，m表示待识别的文本的分词数量，N_j表示标注文本库中与待识别的文本在第j个词语的位置上内容匹配的文本数量；M_j表示标注文本库中与待识别的文本的第j个词语内容匹配但位置不同的文本数量；N_ij表示标注文本库中属于第i类元器件且与待识别的文本在第j个词语的位置上内容匹配的文本数量；M_ij表示标注文本库中属于第i类元器件且与待识别的文本的第j个词语内容匹配但位置不同的文本数量，λ表示第一权重系数，ω_j表示第二权重系数。

进一步，所述对待识别的电气图纸进行预处理，获取待识别的文本，这一步骤具体包括：

从待识别的电气图纸中提取文本内容；

根据设定规则对文本内容进行删除、替换、增加和分词，得到待识别的文本。

进一步，在所述对待识别的电气图纸进行预处理，获取待识别的文本的步骤，以及所述根据待识别的文本的结构和内容，计算待识别的文本属于各类元器件的第一概率的步骤之间，还设有以下步骤：

根据待识别的文本在标注文本库中进行查询，判断待识别的文本在标注文本库中是否有对应的元器件，若是，则将待识别的文本在标注文本库中对应的元器件作为第二识别结果，并结束流程；反之，则执行下一步骤。

进一步，所述根据待识别的文本属于各类元器件的第一概率，得到第一识别结果，这一步骤具体包括：

根据待识别的文本属于各类元器件的第一概率，得到所有第一概率中的最大值；

以所有第一概率中的最大值所对应的元器件作为第一识别结果。

进一步，还包括以下步骤：

判断所有第一概率中的最大值是否大于第一设定阈值，若是，则结束流程；反之，则通过分类模型对待识别的文本进行识别，得到第三识别结果。

进一步，所述通过分类模型对待识别的文本进行识别，得到第三识别结果，这一步骤具体包括：

将待识别的文本输入到经过训练的分类模型中，得到待识别的文本属于各类元器件的第二概率；

根据待识别的文本属于各类元器件的第二概率，得到所有第二概率中的最大值；

以所有第二概率中的最大值所对应的元器件作为第三识别结果。

本发明所采取的第二种技术方案是：

一种基于文本的元器件识别系统，包括：

获取模块，用于获取待识别的电气图纸；

预处理模块，用于对待识别的电气图纸进行预处理，获取待识别的文本；

计算模块，用于根据待识别的文本的结构和内容，计算待识别的文本属于各类元器件的第一概率；

结果输出模块，用于根据待识别的文本属于各类元器件的第一概率，得到第一识别结果。

本发明所采取的第三种技术方案是：

一种基于文本的元器件识别装置，包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行一种基于文本的元器件识别方法。

本发明所采取的第四种技术方案是：

一种存储介质，所述存储介质上存储有程序，所述程序被处理器执行时实现一种基于文本的元器件识别方法。

本发明的有益效果是：本发明从电气图纸中提取待识别的文本，然后根据待识别的文本的结构和内容，计算待识别的文本属于各类元器件的第一概率，并根据第一概率来获得第一识别结果，本发明基于概率统计的方式从电气图纸中识别文本所属于的元器件类型，可以克服传统数据库查询方式存在的问题，具有较强的泛化能力。

附图说明

图1为本发明一种具体实施例的基于文本的元器件识别方法的流程图。

具体实施方式

下面结合说明书附图和具体的实施例对本发明进行进一步的说明。

参照图1，一种基于文本的元器件识别方法，在执行本方法之前，可以先构建一个标注文本库，所述标注文本库可以是从现有的电气图纸中，通过人工方式进行文字提取和标定。里面有各类元器件的标注文本。在标注文本库中，每个元器件种类的数量遵循建立标注文本库的样本的规律，即标注文本库不仅有文本与元器件之间的对应关系，还有每种元器件出现的数量或者比率。当然，也可以使用现成的标注文本库。

所述方法包括以下步骤：

S1、获取待识别的电气图纸。所述电气图纸可以是CAD图纸，也可以是按照电气图纸规范画的其他类型的电气图纸。

S2、对待识别的电气图纸进行预处理，获取待识别的文本。如果电气图纸是CAD图纸，可以直接将所有的文本内容导出，如果电气图纸是图片，也可以通过OCR等技术将文字进行提取。在预处理过程，应当去除无用字符，例如图纸上的停用词等等。在电气图纸中，元器件一般不会使用中文，因此，对于电气图纸中的中文，在大多数情况下都可以删除，只需保留那些经常出现的中文的元器件文本。此外，相同的元器件，对于不同的设计师，可能会有不同的写法，例如“WATSG-100\4”和“WATSG-100A/4P”其实表达的意思是相同的。因此在预处理过程中，可以将一些不同的写法，统一成标注文本库中的写法，例如将“\”替换为“/”，将“/4”替换为“/4P”。以“WATSG-100A/4P”为例，该文本由起始词“WATSG”、中间词“100A”和结束词“4P”组成。

S4、根据待识别的文本的结构和内容，计算待识别的文本属于各类元器件的第一概率。在本步骤中，可以根据待识别的文本在各个位置上的内容，计算待识别文本属于不同类型的元器件的概率。

S5、根据待识别的文本属于各类元器件的第一概率，得到第一识别结果。在本实施例中，可以以最高的第一概率所对应的元器件类型作为第一识别结果。同时，也可以判断最高的第一概率是否达到可靠的值，如果没有，可以认为待识别的文本不属于任何一类元器件。

作为优选的实施例，本实施例提供了一种第一概率的计算方式，所述第一概率的计算公式为：

其中，P(C＝C_i)表示待识别的文本属于第i类元器件的概率，m表示待识别的文本的分词数量，N_j表示标注文本库中与待识别的文本在第j个词语的位置上内容匹配的文本数量；M_j表示标注文本库中与待识别的文本的第j个词语内容匹配但位置不同的文本数量；N_ij表示标注文本库中属于第i类元器件且与待识别的文本在第j个词语的位置上内容匹配的文本数量；M_ij表示标注文本库中属于第i类元器件且与待识别的文本的第j个词语内容匹配但位置不同的文本数量，λ表示第一权重系数，第一权重系数用于衡量相同内容在相同位置和不同位置的权重，ω_j表示第二权重系数，第二权重系数用于衡量不同位置上词语的权重。

在本实施例中λ的取值可以是0.1，表示相同内容在相同位置上相对于相同内容在不同位置上的权重比例是10：1。ω_j可以取值(0.7，0.1，0.2)，三个数值分别对应一个待识别文本的起始词、中间词和结束词的权重。

以待识别文本为“WATSG-100A/4P”为例，在识别前，待识别的文本由起始词“WATSG”、中间词“100A”和结束词“4P”组成。那么可以根据待识别的文本的结构和内容在标注文本库中进行查找统计。

首先，统计参数N_j，将以“WATSG”为起始词的文本数量记为N₁，将以“100A”为中间词的文本数量记为N₂，将以“4P”为结束词的文本数量记为N₃。

统计参数M_j，将以“WATSG”为非起始词的文本数量记为M₁，将以“100A”为非中间词的文本数量记为M₂，将以“4P”为非结束词的文本数量记为M₃。

接着，再分别从每一类元器件(如第i类元器件)中进行查找统计：

统计参数N_ij，将以“WATSG”为起始词的文本数量记为N_i1，将以“100A”为中间词的文本数量记为N_i2，将以“4P”为结束词的文本数量记为N_i3。

统计参数M_ij，将以“WATSG”为非起始词的文本数量记为M_i1，将以“100A”为非中间词的文本数量记为M_i2，将以“4P”为非结束词的文本数量记为M_i3。

为了保证第一概率的结果为1，可以对计算得到的第一概率作归一化处理，归一化处理的表达式如下：

本实施例的统计模型，充分考虑文本中不同位置词语的权重，以及相同内容在相同位置和不同位置的权重，使得统计模型具有更高的准确性。

作为优选的实施例，所述步骤S2具体包括：

S21、从待识别的电气图纸中提取文本内容。如从电气图纸中直接导出或者通过OCR技术从图片中提取文字。

S22、根据设定规则对文本内容进行删除、替换、增加和分词，得到待识别的文本。

其中设定规则可以包括以下内容：

A)删除设定的词语。

例如：过滤如“接”、“尺寸”、“排水泵”或者“设计”等等的词语。

或者，删除如空格等特殊字符。例如将“WATSG-_100A/4P”，删除掉“_”，变成“WATSG-100A/4P”。

B)替换特定的内容，例如，将“\”替换成“/”。

C)增加特定的内容，例如，将“WATSG-100/4”扩充为“WATSG-100A/4P”。

D)替换特定的内容，例如，将错误词语“WTASG”替换成正确词语“WATSG”。或者将符合一定条件的数字进行替换，例如将“WATSG-100/4”替换成“WATSG-001/4”。

作为优选的实施例，在步骤S2和步骤S4之间还设有步骤S3：

S3、根据待识别的文本在标注文本库中进行查询，判断待识别的文本在标注文本库中是否有对应的元器件，若是，则将待识别的文本在标注文本库中对应的元器件作为第二识别结果，并结束流程；反之，则执行步骤S4。

在本实施例中，采用在标注文本库中查询的方法，具有更高的置信度，因此可以将本步骤设置在概率计算的步骤之前，如果通过文本查询的方式，能够匹配到待识别文本所归属的元器件类型，则可以采用所述的第二识别结果作为输出结果。明显，采用文本查询的方式，相对于概率统计的方式，处理速度更快，置信度更高。因此本实施例的文本查询步骤，是对概率统计的方法的一种补充。其可以在一定条件下，提升本实施例的处理速度，并且获得更高置信度的结果。同时，两者的结合，可以使得本实施例具有较好的泛化能力。

作为优选的实施例，所述步骤S5具体包括：

S51、根据待识别的文本属于各类元器件的第一概率，得到所有第一概率中的最大值；

S52、以所有第一概率中的最大值所对应的元器件作为第一识别结果。

作为优选的实施例，在一些情况下，通过概率统计的方法，未必能够得到一个可靠的识别结果，即可能出现第一识别结果的置信度比较低的情况，为了解决该问题，本实施例还包括以下步骤：

S6、判断所有第一概率中的最大值是否大于第一设定阈值，若是，则结束流程；反之，则通过分类模型对待识别的文本进行识别，得到第三识别结果。

在本实施例中，当所有第一概率中的最大值，没有大于第一设定阈值时，说明第一识别结果并不可靠。本实施例在这种情况下，采用分类模型对文本进行识别。本实施例的分类模型可以采用经过训练深度学习CNN网络实现，所述深度学习CNN网络可以通过标注文本库进行训练。所述深度学习CNN网络的词向量可以采用Word2Vec(谷歌词向量)和GloVe(全局词向量)实现。

本实施例在概率统计给出的第一识别结果可信度不高的情况下，采用分类模型进行识别，以获得可信度更高的第三识别结果。

总的来说，文本查询、概率统计和分类模型三个识别步骤的置信度是从大到小的。三者的结合可以使得元器件被识别出来的概率更高，并且识别结果更加可靠。

作为优选的实施例，所述通过分类模型对待识别的文本进行识别，得到第三识别结果，这一步骤具体包括：

S61、将待识别的文本输入到经过训练的分类模型中，得到待识别的文本属于各类元器件的第二概率；

S62、根据待识别的文本属于各类元器件的第二概率，得到所有第二概率中的最大值；

S63、以所有第二概率中的最大值所对应的元器件作为第三识别结果。

在本实施例中，本领域技术人员可以根据实际需要，采用现有的文本分类的模型实现。本实施例不对文本分类模型的具体数学表示式进行限定。

对于第三识别结果，我们也可以设置第二设定阈值对其进行检验。如果所有第二概率中的最大值没有大于第二设定阈值，说明第三识别结果也是不可靠的。此时，可以认为该待识别的文本没有对应的元器件类型。

最后，我们还能引入一些设定规则对第一识别结果或者第三识别结果进行检验。

1)根据文本在电气图纸中和文本之间的关系，排除一些可能。例如，元器件A和元器件B是不可能相邻的，此时，可以根据两者置信度的大小，排除其中一个。

2)或者将第一概率或者第二概率的最大值小于设定阈值的识别结果进行删除。

一种基于文本的元器件识别系统，包括：

获取模块，用于获取待识别的电气图纸；

作为优选的实施例，所述第一概率的计算公式为：

作为优选的实施例，所述预处理模块，具体用于：

从待识别的电气图纸中提取文本内容；

作为优选的实施例，还包括文本查询模块

根据待识别的文本在标注文本库中进行查询，判断待识别的文本在标注文本库中是否有对应的元器件，若是，则将待识别的文本在标注文本库中对应的元器件作为第二识别结果，并结束处理；反之，则转至计算模块处理。

作为优选的实施例，结果输出模块，具体用于：

作为优选的实施例，还包括第一判断模块，所述第一判断模块用于：

作为优选的实施例，所述通过分类模型对待识别的文本进行识别，得到第三识别结果，具体包括：

一种基于文本的元器件识别装置，包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行上述方法实施例。

一种存储介质，所述存储介质上存储有程序，所述程序被处理器执行时实现上述方法实施例。

对于上述方法实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于文本的元器件识别方法，其特征在于：包括以下步骤：

获取待识别的电气图纸；

对待识别的电气图纸进行预处理，获取待识别的文本；

2.根据权利要求1所述的一种基于文本的元器件识别方法，其特征在于：所述第一概率的计算公式为：

3.根据权利要求1所述的一种基于文本的元器件识别方法，其特征在于：所述对待识别的电气图纸进行预处理，获取待识别的文本，这一步骤具体包括：

从待识别的电气图纸中提取文本内容；

4.根据权利要求1所述的一种基于文本的元器件识别方法，其特征在于：在所述对待识别的电气图纸进行预处理，获取待识别的文本的步骤，以及所述根据待识别的文本的结构和内容，计算待识别的文本属于各类元器件的第一概率的步骤之间，还设有以下步骤：

5.根据权利要求1所述的一种基于文本的元器件识别方法，其特征在于：所述根据待识别的文本属于各类元器件的第一概率，得到第一识别结果，这一步骤具体包括：

6.根据权利要求5所述的一种基于文本的元器件识别方法，其特征在于：还包括以下步骤：

7.根据权利要求6所述的一种基于文本的元器件识别方法，其特征在于：所述通过分类模型对待识别的文本进行识别，得到第三识别结果，这一步骤具体包括：

8.一种基于文本的元器件识别系统，其特征在于：包括：

获取模块，用于获取待识别的电气图纸；

9.一种基于文本的元器件识别装置，其特征在于：包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行如权利要求1-7任一项所述的一种基于文本的元器件识别方法。

10.一种存储介质，所述存储介质上存储有程序，其特征在于：所述程序被处理器执行时实现如权利要求1-7任一项所述的一种基于文本的元器件识别方法。