CN109446885A - 一种基于文本的元器件识别方法、系统、装置和存储介质 - Google Patents

一种基于文本的元器件识别方法、系统、装置和存储介质 Download PDF

Info

Publication number
CN109446885A
CN109446885A CN201811041889.2A CN201811041889A CN109446885A CN 109446885 A CN109446885 A CN 109446885A CN 201811041889 A CN201811041889 A CN 201811041889A CN 109446885 A CN109446885 A CN 109446885A
Authority
CN
China
Prior art keywords
text
identified
probability
kinds
electric installation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811041889.2A
Other languages
English (en)
Other versions
CN109446885B (zh
Inventor
吴贺扬
詹建州
赵引
孙尔安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Easy Software Technology Co Ltd
Original Assignee
Guangzhou Easy Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Easy Software Technology Co Ltd filed Critical Guangzhou Easy Software Technology Co Ltd
Priority to CN201811041889.2A priority Critical patent/CN109446885B/zh
Publication of CN109446885A publication Critical patent/CN109446885A/zh
Application granted granted Critical
Publication of CN109446885B publication Critical patent/CN109446885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本的元器件识别方法、系统、装置和存储介质,该方法包括以下步骤:获取待识别的电气图纸;对待识别的电气图纸进行预处理,获取待识别的文本;根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率;根据待识别的文本属于各类元器件的第一概率,得到第一识别结果。本发明从电气图纸中提取待识别的文本,然后根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率,并根据第一概率来获得第一识别结果,本发明基于概率统计的方式从电气图纸中识别文本所属于的元器件类型,可以克服传统数据库查询方式存在的问题,具有较强的泛化能力。本发明可以广泛应用于人工智能领域。

Description

一种基于文本的元器件识别方法、系统、装置和存储介质
技术领域
本发明涉及人工智能领域,尤其是一种基于文本的元器件识别方法、系统、装置和存储介质。
背景技术
在电气行业,报价员需要根据从客户拿到的CAD电气设计图纸列出元器件的清单。列清单是成套电气报价中最重要的一个环节,是成套电气报价的基础。作为一个枯燥又繁琐,但是又要求报价员具有一定专业知识的环节,传统的成套电气报价方式主要是通过手工输入Excel的方式或者用软件的方式把元器件文本扒取出来,并由人工填写出对应的元器件类型,汇总出报价清单,最后报价员根据这样的清单进行报价。其中,在列清单的过程中,这些元器件文本的元器件类型一般是报价员根据自身的背景知识,通过元器件文本内容及对应的元器件图形综合来判断的。这种只能通过手工列清单的方式,在操作上机械繁琐,效率相当低下,很大程度上还要依赖于“人”,很容易出错,这样的解决方案极大程度上受限于报价员报价的速度与精度,不能满足用户及公司的对快速精准报价方面要求,也影响了工程的进度,严重的甚至可能导致企业竞标失败或亏损。伴随着人工智能大潮的到来,针对成套电气报价领域,通过人工智能的方式去识别图纸是必由之路。
在电气行业,电气图纸中元器件的智能识别,一般是由两个方面构成的,一个是元器件文本的识别,另一个是元器件图形的识别。目前,元器件文本的判断和识别很大程度上还是依赖于数据库的查询,这种方式泛化能力太差,如一条双电源文本“WATSG-100/4”由于设计师手误,写成了“WTASG-100/4”,就不能做到查询到。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种泛化能力强的基于文本的元器件识别方法、系统、装置和存储介质。
本发明所采取的第一种技术方案是:
一种基于文本的元器件识别方法,包括以下步骤:
获取待识别的电气图纸;
对待识别的电气图纸进行预处理,获取待识别的文本;
根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率;
根据待识别的文本属于各类元器件的第一概率,得到第一识别结果。
进一步,所述第一概率的计算公式为:
其中,P(C=Ci)表示待识别的文本属于第i类元器件的概率,m表示待识别的文本的分词数量,Nj表示标注文本库中与待识别的文本在第j个词语的位置上内容匹配的文本数量;Mj表示标注文本库中与待识别的文本的第j个词语内容匹配但位置不同的文本数量;Nij表示标注文本库中属于第i类元器件且与待识别的文本在第j个词语的位置上内容匹配的文本数量;Mij表示标注文本库中属于第i类元器件且与待识别的文本的第j个词语内容匹配但位置不同的文本数量,λ表示第一权重系数,ωj表示第二权重系数。
进一步,所述对待识别的电气图纸进行预处理,获取待识别的文本,这一步骤具体包括:
从待识别的电气图纸中提取文本内容;
根据设定规则对文本内容进行删除、替换、增加和分词,得到待识别的文本。
进一步,在所述对待识别的电气图纸进行预处理,获取待识别的文本的步骤,以及所述根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率的步骤之间,还设有以下步骤:
根据待识别的文本在标注文本库中进行查询,判断待识别的文本在标注文本库中是否有对应的元器件,若是,则将待识别的文本在标注文本库中对应的元器件作为第二识别结果,并结束流程;反之,则执行下一步骤。
进一步,所述根据待识别的文本属于各类元器件的第一概率,得到第一识别结果,这一步骤具体包括:
根据待识别的文本属于各类元器件的第一概率,得到所有第一概率中的最大值;
以所有第一概率中的最大值所对应的元器件作为第一识别结果。
进一步,还包括以下步骤:
判断所有第一概率中的最大值是否大于第一设定阈值,若是,则结束流程;反之,则通过分类模型对待识别的文本进行识别,得到第三识别结果。
进一步,所述通过分类模型对待识别的文本进行识别,得到第三识别结果,这一步骤具体包括:
将待识别的文本输入到经过训练的分类模型中,得到待识别的文本属于各类元器件的第二概率;
根据待识别的文本属于各类元器件的第二概率,得到所有第二概率中的最大值;
以所有第二概率中的最大值所对应的元器件作为第三识别结果。
本发明所采取的第二种技术方案是:
一种基于文本的元器件识别系统,包括:
获取模块,用于获取待识别的电气图纸;
预处理模块,用于对待识别的电气图纸进行预处理,获取待识别的文本;
计算模块,用于根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率;
结果输出模块,用于根据待识别的文本属于各类元器件的第一概率,得到第一识别结果。
本发明所采取的第三种技术方案是:
一种基于文本的元器件识别装置,包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行一种基于文本的元器件识别方法。
本发明所采取的第四种技术方案是:
一种存储介质,所述存储介质上存储有程序,所述程序被处理器执行时实现一种基于文本的元器件识别方法。
本发明的有益效果是:本发明从电气图纸中提取待识别的文本,然后根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率,并根据第一概率来获得第一识别结果,本发明基于概率统计的方式从电气图纸中识别文本所属于的元器件类型,可以克服传统数据库查询方式存在的问题,具有较强的泛化能力。
附图说明
图1为本发明一种具体实施例的基于文本的元器件识别方法的流程图。
具体实施方式
下面结合说明书附图和具体的实施例对本发明进行进一步的说明。
参照图1,一种基于文本的元器件识别方法,在执行本方法之前,可以先构建一个标注文本库,所述标注文本库可以是从现有的电气图纸中,通过人工方式进行文字提取和标定。里面有各类元器件的标注文本。在标注文本库中,每个元器件种类的数量遵循建立标注文本库的样本的规律,即标注文本库不仅有文本与元器件之间的对应关系,还有每种元器件出现的数量或者比率。当然,也可以使用现成的标注文本库。
所述方法包括以下步骤:
S1、获取待识别的电气图纸。所述电气图纸可以是CAD图纸,也可以是按照电气图纸规范画的其他类型的电气图纸。
S2、对待识别的电气图纸进行预处理,获取待识别的文本。如果电气图纸是CAD图纸,可以直接将所有的文本内容导出,如果电气图纸是图片,也可以通过OCR等技术将文字进行提取。在预处理过程,应当去除无用字符,例如图纸上的停用词等等。在电气图纸中,元器件一般不会使用中文,因此,对于电气图纸中的中文,在大多数情况下都可以删除,只需保留那些经常出现的中文的元器件文本。此外,相同的元器件,对于不同的设计师,可能会有不同的写法,例如“WATSG-100\4”和“WATSG-100A/4P”其实表达的意思是相同的。因此在预处理过程中,可以将一些不同的写法,统一成标注文本库中的写法,例如将“\”替换为“/”,将“/4”替换为“/4P”。以“WATSG-100A/4P”为例,该文本由起始词“WATSG”、中间词“100A”和结束词“4P”组成。
S4、根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率。在本步骤中,可以根据待识别的文本在各个位置上的内容,计算待识别文本属于不同类型的元器件的概率。
S5、根据待识别的文本属于各类元器件的第一概率,得到第一识别结果。在本实施例中,可以以最高的第一概率所对应的元器件类型作为第一识别结果。同时,也可以判断最高的第一概率是否达到可靠的值,如果没有,可以认为待识别的文本不属于任何一类元器件。
作为优选的实施例,本实施例提供了一种第一概率的计算方式,所述第一概率的计算公式为:
其中,P(C=Ci)表示待识别的文本属于第i类元器件的概率,m表示待识别的文本的分词数量,Nj表示标注文本库中与待识别的文本在第j个词语的位置上内容匹配的文本数量;Mj表示标注文本库中与待识别的文本的第j个词语内容匹配但位置不同的文本数量;Nij表示标注文本库中属于第i类元器件且与待识别的文本在第j个词语的位置上内容匹配的文本数量;Mij表示标注文本库中属于第i类元器件且与待识别的文本的第j个词语内容匹配但位置不同的文本数量,λ表示第一权重系数,第一权重系数用于衡量相同内容在相同位置和不同位置的权重,ωj表示第二权重系数,第二权重系数用于衡量不同位置上词语的权重。
在本实施例中λ的取值可以是0.1,表示相同内容在相同位置上相对于相同内容在不同位置上的权重比例是10:1。ωj可以取值(0.7,0.1,0.2),三个数值分别对应一个待识别文本的起始词、中间词和结束词的权重。
以待识别文本为“WATSG-100A/4P”为例,在识别前,待识别的文本由起始词“WATSG”、中间词“100A”和结束词“4P”组成。那么可以根据待识别的文本的结构和内容在标注文本库中进行查找统计。
首先,统计参数Nj,将以“WATSG”为起始词的文本数量记为N1,将以“100A”为中间词的文本数量记为N2,将以“4P”为结束词的文本数量记为N3
统计参数Mj,将以“WATSG”为非起始词的文本数量记为M1,将以“100A”为非中间词的文本数量记为M2,将以“4P”为非结束词的文本数量记为M3
接着,再分别从每一类元器件(如第i类元器件)中进行查找统计:
统计参数Nij,将以“WATSG”为起始词的文本数量记为Ni1,将以“100A”为中间词的文本数量记为Ni2,将以“4P”为结束词的文本数量记为Ni3
统计参数Mij,将以“WATSG”为非起始词的文本数量记为Mi1,将以“100A”为非中间词的文本数量记为Mi2,将以“4P”为非结束词的文本数量记为Mi3
为了保证第一概率的结果为1,可以对计算得到的第一概率作归一化处理,归一化处理的表达式如下:
本实施例的统计模型,充分考虑文本中不同位置词语的权重,以及相同内容在相同位置和不同位置的权重,使得统计模型具有更高的准确性。
作为优选的实施例,所述步骤S2具体包括:
S21、从待识别的电气图纸中提取文本内容。如从电气图纸中直接导出或者通过OCR技术从图片中提取文字。
S22、根据设定规则对文本内容进行删除、替换、增加和分词,得到待识别的文本。
其中设定规则可以包括以下内容:
A)删除设定的词语。
例如:过滤如“接”、“尺寸”、“排水泵”或者“设计”等等的词语。
或者,删除如空格等特殊字符。例如将“WATSG-_100A/4P”,删除掉“_”,变成“WATSG-100A/4P”。
B)替换特定的内容,例如,将“\”替换成“/”。
C)增加特定的内容,例如,将“WATSG-100/4”扩充为“WATSG-100A/4P”。
D)替换特定的内容,例如,将错误词语“WTASG”替换成正确词语“WATSG”。或者将符合一定条件的数字进行替换,例如将“WATSG-100/4”替换成“WATSG-001/4”。
作为优选的实施例,在步骤S2和步骤S4之间还设有步骤S3:
S3、根据待识别的文本在标注文本库中进行查询,判断待识别的文本在标注文本库中是否有对应的元器件,若是,则将待识别的文本在标注文本库中对应的元器件作为第二识别结果,并结束流程;反之,则执行步骤S4。
在本实施例中,采用在标注文本库中查询的方法,具有更高的置信度,因此可以将本步骤设置在概率计算的步骤之前,如果通过文本查询的方式,能够匹配到待识别文本所归属的元器件类型,则可以采用所述的第二识别结果作为输出结果。明显,采用文本查询的方式,相对于概率统计的方式,处理速度更快,置信度更高。因此本实施例的文本查询步骤,是对概率统计的方法的一种补充。其可以在一定条件下,提升本实施例的处理速度,并且获得更高置信度的结果。同时,两者的结合,可以使得本实施例具有较好的泛化能力。
作为优选的实施例,所述步骤S5具体包括:
S51、根据待识别的文本属于各类元器件的第一概率,得到所有第一概率中的最大值;
S52、以所有第一概率中的最大值所对应的元器件作为第一识别结果。
作为优选的实施例,在一些情况下,通过概率统计的方法,未必能够得到一个可靠的识别结果,即可能出现第一识别结果的置信度比较低的情况,为了解决该问题,本实施例还包括以下步骤:
S6、判断所有第一概率中的最大值是否大于第一设定阈值,若是,则结束流程;反之,则通过分类模型对待识别的文本进行识别,得到第三识别结果。
在本实施例中,当所有第一概率中的最大值,没有大于第一设定阈值时,说明第一识别结果并不可靠。本实施例在这种情况下,采用分类模型对文本进行识别。本实施例的分类模型可以采用经过训练深度学习CNN网络实现,所述深度学习CNN网络可以通过标注文本库进行训练。所述深度学习CNN网络的词向量可以采用Word2Vec(谷歌词向量)和GloVe(全局词向量)实现。
本实施例在概率统计给出的第一识别结果可信度不高的情况下,采用分类模型进行识别,以获得可信度更高的第三识别结果。
总的来说,文本查询、概率统计和分类模型三个识别步骤的置信度是从大到小的。三者的结合可以使得元器件被识别出来的概率更高,并且识别结果更加可靠。
作为优选的实施例,所述通过分类模型对待识别的文本进行识别,得到第三识别结果,这一步骤具体包括:
S61、将待识别的文本输入到经过训练的分类模型中,得到待识别的文本属于各类元器件的第二概率;
S62、根据待识别的文本属于各类元器件的第二概率,得到所有第二概率中的最大值;
S63、以所有第二概率中的最大值所对应的元器件作为第三识别结果。
在本实施例中,本领域技术人员可以根据实际需要,采用现有的文本分类的模型实现。本实施例不对文本分类模型的具体数学表示式进行限定。
对于第三识别结果,我们也可以设置第二设定阈值对其进行检验。如果所有第二概率中的最大值没有大于第二设定阈值,说明第三识别结果也是不可靠的。此时,可以认为该待识别的文本没有对应的元器件类型。
最后,我们还能引入一些设定规则对第一识别结果或者第三识别结果进行检验。
1)根据文本在电气图纸中和文本之间的关系,排除一些可能。例如,元器件A和元器件B是不可能相邻的,此时,可以根据两者置信度的大小,排除其中一个。
2)或者将第一概率或者第二概率的最大值小于设定阈值的识别结果进行删除。
一种基于文本的元器件识别系统,包括:
获取模块,用于获取待识别的电气图纸;
预处理模块,用于对待识别的电气图纸进行预处理,获取待识别的文本;
计算模块,用于根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率;
结果输出模块,用于根据待识别的文本属于各类元器件的第一概率,得到第一识别结果。
作为优选的实施例,所述第一概率的计算公式为:
其中,P(C=Ci)表示待识别的文本属于第i类元器件的概率,m表示待识别的文本的分词数量,Nj表示标注文本库中与待识别的文本在第j个词语的位置上内容匹配的文本数量;Mj表示标注文本库中与待识别的文本的第j个词语内容匹配但位置不同的文本数量;Nij表示标注文本库中属于第i类元器件且与待识别的文本在第j个词语的位置上内容匹配的文本数量;Mij表示标注文本库中属于第i类元器件且与待识别的文本的第j个词语内容匹配但位置不同的文本数量,λ表示第一权重系数,ωj表示第二权重系数。
作为优选的实施例,所述预处理模块,具体用于:
从待识别的电气图纸中提取文本内容;
根据设定规则对文本内容进行删除、替换、增加和分词,得到待识别的文本。
作为优选的实施例,还包括文本查询模块
根据待识别的文本在标注文本库中进行查询,判断待识别的文本在标注文本库中是否有对应的元器件,若是,则将待识别的文本在标注文本库中对应的元器件作为第二识别结果,并结束处理;反之,则转至计算模块处理。
作为优选的实施例,结果输出模块,具体用于:
根据待识别的文本属于各类元器件的第一概率,得到所有第一概率中的最大值;
以所有第一概率中的最大值所对应的元器件作为第一识别结果。
作为优选的实施例,还包括第一判断模块,所述第一判断模块用于:
判断所有第一概率中的最大值是否大于第一设定阈值,若是,则结束流程;反之,则通过分类模型对待识别的文本进行识别,得到第三识别结果。
作为优选的实施例,所述通过分类模型对待识别的文本进行识别,得到第三识别结果,具体包括:
将待识别的文本输入到经过训练的分类模型中,得到待识别的文本属于各类元器件的第二概率;
根据待识别的文本属于各类元器件的第二概率,得到所有第二概率中的最大值;
以所有第二概率中的最大值所对应的元器件作为第三识别结果。
一种基于文本的元器件识别装置,包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行上述方法实施例。
一种存储介质,所述存储介质上存储有程序,所述程序被处理器执行时实现上述方法实施例。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于文本的元器件识别方法,其特征在于:包括以下步骤:
获取待识别的电气图纸;
对待识别的电气图纸进行预处理,获取待识别的文本;
根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率;
根据待识别的文本属于各类元器件的第一概率,得到第一识别结果。
2.根据权利要求1所述的一种基于文本的元器件识别方法,其特征在于:所述第一概率的计算公式为:
其中,P(C=Ci)表示待识别的文本属于第i类元器件的概率,m表示待识别的文本的分词数量,Nj表示标注文本库中与待识别的文本在第j个词语的位置上内容匹配的文本数量;Mj表示标注文本库中与待识别的文本的第j个词语内容匹配但位置不同的文本数量;Nij表示标注文本库中属于第i类元器件且与待识别的文本在第j个词语的位置上内容匹配的文本数量;Mij表示标注文本库中属于第i类元器件且与待识别的文本的第j个词语内容匹配但位置不同的文本数量,λ表示第一权重系数,ωj表示第二权重系数。
3.根据权利要求1所述的一种基于文本的元器件识别方法,其特征在于:所述对待识别的电气图纸进行预处理,获取待识别的文本,这一步骤具体包括:
从待识别的电气图纸中提取文本内容;
根据设定规则对文本内容进行删除、替换、增加和分词,得到待识别的文本。
4.根据权利要求1所述的一种基于文本的元器件识别方法,其特征在于:在所述对待识别的电气图纸进行预处理,获取待识别的文本的步骤,以及所述根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率的步骤之间,还设有以下步骤:
根据待识别的文本在标注文本库中进行查询,判断待识别的文本在标注文本库中是否有对应的元器件,若是,则将待识别的文本在标注文本库中对应的元器件作为第二识别结果,并结束流程;反之,则执行下一步骤。
5.根据权利要求1所述的一种基于文本的元器件识别方法,其特征在于:所述根据待识别的文本属于各类元器件的第一概率,得到第一识别结果,这一步骤具体包括:
根据待识别的文本属于各类元器件的第一概率,得到所有第一概率中的最大值;
以所有第一概率中的最大值所对应的元器件作为第一识别结果。
6.根据权利要求5所述的一种基于文本的元器件识别方法,其特征在于:还包括以下步骤:
判断所有第一概率中的最大值是否大于第一设定阈值,若是,则结束流程;反之,则通过分类模型对待识别的文本进行识别,得到第三识别结果。
7.根据权利要求6所述的一种基于文本的元器件识别方法,其特征在于:所述通过分类模型对待识别的文本进行识别,得到第三识别结果,这一步骤具体包括:
将待识别的文本输入到经过训练的分类模型中,得到待识别的文本属于各类元器件的第二概率;
根据待识别的文本属于各类元器件的第二概率,得到所有第二概率中的最大值;
以所有第二概率中的最大值所对应的元器件作为第三识别结果。
8.一种基于文本的元器件识别系统,其特征在于:包括:
获取模块,用于获取待识别的电气图纸;
预处理模块,用于对待识别的电气图纸进行预处理,获取待识别的文本;
计算模块,用于根据待识别的文本的结构和内容,计算待识别的文本属于各类元器件的第一概率;
结果输出模块,用于根据待识别的文本属于各类元器件的第一概率,得到第一识别结果。
9.一种基于文本的元器件识别装置,其特征在于:包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行如权利要求1-7任一项所述的一种基于文本的元器件识别方法。
10.一种存储介质,所述存储介质上存储有程序,其特征在于:所述程序被处理器执行时实现如权利要求1-7任一项所述的一种基于文本的元器件识别方法。
CN201811041889.2A 2018-09-07 2018-09-07 一种基于文本的元器件识别方法、系统、装置和存储介质 Active CN109446885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811041889.2A CN109446885B (zh) 2018-09-07 2018-09-07 一种基于文本的元器件识别方法、系统、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811041889.2A CN109446885B (zh) 2018-09-07 2018-09-07 一种基于文本的元器件识别方法、系统、装置和存储介质

Publications (2)

Publication Number Publication Date
CN109446885A true CN109446885A (zh) 2019-03-08
CN109446885B CN109446885B (zh) 2022-03-15

Family

ID=65530347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811041889.2A Active CN109446885B (zh) 2018-09-07 2018-09-07 一种基于文本的元器件识别方法、系统、装置和存储介质

Country Status (1)

Country Link
CN (1) CN109446885B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309807A (zh) * 2019-07-08 2019-10-08 西北工业大学 Cad图纸智能识别方法
CN111027429A (zh) * 2019-11-29 2020-04-17 陈韬文 一种用于电气图纸智能识别的数据预处理方法及系统
CN111126212A (zh) * 2019-12-13 2020-05-08 广东施富电气实业有限公司 基于配电箱一次系统图的抠图识别方法、系统及存储介质
CN111144114A (zh) * 2019-12-19 2020-05-12 广联达科技股份有限公司 一种文本识别方法及装置
CN111160018A (zh) * 2019-12-13 2020-05-15 广东施富电气实业有限公司 电气图纸非元器件文本识别方法、系统及存储介质
CN111160144A (zh) * 2019-12-16 2020-05-15 广东施富电气实业有限公司 电气图纸图文结合的元器件识别方法、系统及存储介质
CN111597334A (zh) * 2020-04-30 2020-08-28 陈韬文 电气图纸文本分类方法、系统、装置及介质
CN111814791A (zh) * 2020-07-24 2020-10-23 西门子(中国)有限公司 识别系统图中元器件的方法和装置
CN112511448A (zh) * 2019-09-16 2021-03-16 华为技术有限公司 处理网络拥塞的方法、更新模型的方法和相关装置
CN116137077A (zh) * 2023-04-13 2023-05-19 宁波为昕科技有限公司 电子元器件库的建立方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426917A (zh) * 2015-11-23 2016-03-23 广州视源电子科技股份有限公司 一种元件分类方法及装置
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN107563386A (zh) * 2017-09-04 2018-01-09 广州视源电子科技股份有限公司 元器件验证方法、装置、设备与计算机可读存储介质
CN108228720A (zh) * 2017-12-07 2018-06-29 北京字节跳动网络技术有限公司 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426917A (zh) * 2015-11-23 2016-03-23 广州视源电子科技股份有限公司 一种元件分类方法及装置
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN107563386A (zh) * 2017-09-04 2018-01-09 广州视源电子科技股份有限公司 元器件验证方法、装置、设备与计算机可读存储介质
CN108228720A (zh) * 2017-12-07 2018-06-29 北京字节跳动网络技术有限公司 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈翔 等: "基于卷积神经网络的电子元器件分类研究", 《无线通信技术》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309807A (zh) * 2019-07-08 2019-10-08 西北工业大学 Cad图纸智能识别方法
CN112511448A (zh) * 2019-09-16 2021-03-16 华为技术有限公司 处理网络拥塞的方法、更新模型的方法和相关装置
CN111027429A (zh) * 2019-11-29 2020-04-17 陈韬文 一种用于电气图纸智能识别的数据预处理方法及系统
CN111027429B (zh) * 2019-11-29 2024-01-12 广东工业大学 一种用于电气图纸智能识别的数据预处理方法及系统
CN111160018A (zh) * 2019-12-13 2020-05-15 广东施富电气实业有限公司 电气图纸非元器件文本识别方法、系统及存储介质
CN111160018B (zh) * 2019-12-13 2022-11-01 广东施富电气实业有限公司 电气图纸非元器件文本识别方法、系统及存储介质
CN111126212B (zh) * 2019-12-13 2023-01-17 广东施富电气实业有限公司 基于配电箱一次系统图的抠图识别方法、系统及存储介质
CN111126212A (zh) * 2019-12-13 2020-05-08 广东施富电气实业有限公司 基于配电箱一次系统图的抠图识别方法、系统及存储介质
CN111160144A (zh) * 2019-12-16 2020-05-15 广东施富电气实业有限公司 电气图纸图文结合的元器件识别方法、系统及存储介质
CN111160144B (zh) * 2019-12-16 2023-04-07 广东施富电气实业有限公司 电气图纸图文结合的元器件识别方法、系统及存储介质
CN111144114A (zh) * 2019-12-19 2020-05-12 广联达科技股份有限公司 一种文本识别方法及装置
CN111144114B (zh) * 2019-12-19 2023-07-18 广联达科技股份有限公司 一种文本识别方法及装置
CN111597334A (zh) * 2020-04-30 2020-08-28 陈韬文 电气图纸文本分类方法、系统、装置及介质
CN111814791A (zh) * 2020-07-24 2020-10-23 西门子(中国)有限公司 识别系统图中元器件的方法和装置
CN111814791B (zh) * 2020-07-24 2024-03-19 西门子(中国)有限公司 识别系统图中元器件的方法和装置
CN116137077A (zh) * 2023-04-13 2023-05-19 宁波为昕科技有限公司 电子元器件库的建立方法、装置、电子设备及存储介质
CN116137077B (zh) * 2023-04-13 2023-08-08 宁波为昕科技有限公司 电子元器件库的建立方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109446885B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN109446885A (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
CN108763445B (zh) 专利知识库的构建方法、装置、计算机设备和存储介质
WO2021164199A1 (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
WO2020114429A1 (zh) 关键词提取模型训练方法、关键词提取方法及计算机设备
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
WO2020108063A1 (zh) 特征词的确定方法、装置和服务器
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN109241283A (zh) 一种基于多角度胶囊网络的文本分类方法
CN108304365A (zh) 关键词提取方法及装置
WO2020224106A1 (zh) 基于神经网络的文本分类方法、系统及计算机设备
CN111475642A (zh) 一种文本分类方法、装置及模型训练方法
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
CN110851546B (zh) 一种验证、模型的训练、模型的共享方法、系统及介质
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
WO2020215683A1 (zh) 基于卷积神经网络的语义识别方法及装置、非易失性可读存储介质、计算机设备
CN111222330B (zh) 一种中文事件的检测方法和系统
CN109598517A (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113254592A (zh) 基于门机制的多级注意力模型的评论方面检测方法及系统
CN110472063A (zh) 社交媒体数据处理方法、模型训练方法及相关装置
CN116975400B (zh) 一种数据分类分级方法、装置、电子设备及存储介质
CN113761188A (zh) 文本标签确定方法、装置、计算机设备和存储介质
CN117495548A (zh) 一种风险预警方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant