CN111144114A - 一种文本识别方法及装置 - Google Patents

一种文本识别方法及装置 Download PDF

Info

Publication number
CN111144114A
CN111144114A CN201911315736.7A CN201911315736A CN111144114A CN 111144114 A CN111144114 A CN 111144114A CN 201911315736 A CN201911315736 A CN 201911315736A CN 111144114 A CN111144114 A CN 111144114A
Authority
CN
China
Prior art keywords
text
entities
entity
subset
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911315736.7A
Other languages
English (en)
Other versions
CN111144114B (zh
Inventor
赵晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glodon Co Ltd
Original Assignee
Glodon Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glodon Co Ltd filed Critical Glodon Co Ltd
Priority to CN201911315736.7A priority Critical patent/CN111144114B/zh
Publication of CN111144114A publication Critical patent/CN111144114A/zh
Application granted granted Critical
Publication of CN111144114B publication Critical patent/CN111144114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Input (AREA)

Abstract

本发明实施例涉及一种文本识别方法及装置,包括:将目标图形数据中所有文本图元转换为多个文本实体;基于各文本实体之间的距离关系、以及文本实体的文本排布,对多个文本实体进行聚合,得到多个文本团;其中,每个文本团包括至少一个文本实体;针对每个文本团,利用预设的滑动窗口沿该文本团中的文本实体滑动,得到多个文本组合;将多个文本组合分别输入到预设的文本分类模型中,并获取文本分类模型输出的各文本组合所表达的语义类型及其概率,并选择概率最高的文本组合及其所属语义类型作为文本识别结果。由此,可以实现图纸文本的自动识别。

Description

一种文本识别方法及装置
技术领域
本发明实施例涉及图形识别领域,尤其涉及一种文本识别方法及装置。
背景技术
在CAD图纸中,设计师使用标注文本对结构构件进行标注。标注文本表达的语义类型丰富(比如语义类型包括标高,构件名称,钢筋规格等多种类型),且在图纸中往往被分成多个图元绘制。因此如何通过识别CAD图纸中的图元来获得标注文本以及该标注文本所表达的语义类型就成为业界持续探讨的问题。
发明内容
鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供文本识别方法及装置。
第一方面,本发明实施例提供一种文本识别方法,包括:
将目标图形数据中所有文本图元转换为多个文本实体;
基于各文本实体之间的距离关系、以及文本实体的文本排布,对多个文本实体进行聚合,得到多个文本团;其中,每个文本团包括至少一个文本实体;
针对每个文本团,利用预设的滑动窗口沿该文本团中的文本实体滑动,得到多个文本组合;
将多个文本组合分别输入到预设的文本分类模型中,并获取文本分类模型输出的各文本组合所表达的语义类型及其概率,并选择概率最高的文本组合及其所属语义类型作为文本识别结果。
在一个可能的实施方式中,所述将所有文本图元转换为多个文本实体,包括:
针对每一个文本图元,若该文本图元是由字符和图形组成,则对字符和图形进行识别,得到文本实体;
和/或,
若该文本图元是由多个字符组成,且该文本图元包含预设字符,则基于预设字符将所述多个字符进行拆分得到多个文本实体;每个文本实体包括至少一个字符。
在一个可能的实施方式中,所述基于各文本实体之间的距离关系、以及文本实体的文本排布,对多个文本实体进行聚合,得到多个文本团,包括:
确定各文本实体的二维包围盒和文本方向;
根据各文本实体的二维包围盒和文本方向,将多个文本实体聚合为多个文本集合;每个文本集合包括至少一个文本实体,每个文本集合中的文本实体的二维包围盒重叠且文本方向相同;
针对每个文本集合,将该文本集合中的所有文本实体在预设方向进行投影,基于各文本实体的投影,将该文本集合划分为至少一个文本子集;每个文本子集包括至少一个文本实体,且每个文本子集包含的文本实体在预设方向的投影重叠;
针对每个文本子集,将该文本子集中的文本实体进行排序生成该文本子集对应的文本团。
在一个可能的实施方式中,所述将该文本子集中的文本实体进行排序生成该文本子集对应的文本团,包括:
以所述文本子集的文本实体的文本方向作为X轴,以该文本方向顺时针旋转90°的方向作为Y轴,建立该文本子集的局部坐标系;
基于各文本实体在该局部坐标系中的坐标,对该文本子集中的文本实体进行排序。
在一个可能的实施方式中,所述将多个文本组合分别输入到预设的文本分类模型中,并获取文本分类模型输出的各文本组合所表达的语义类型及其概率,包括:
针对每个文本组合,将该文本组合中的指定文本实体按照预设规则替换为与该指定文本实体类型对应的预设文本实体;
对进行了替换的该文本组合中的文本实体进行分词处理得到多个分词,并对每个分词进行词嵌入处理,得到每个分词的词向量,并基于各分词的词向量,确定该文本组合的文本向量;
将各文本组合对应的文本向量输入到预设的文本分类模型中,以由文本分类模型基于各文本组合对应的文本向量,对各文本组合进行分类,输出的各文本组合所属语义类型及其概率。
第二方面,本发明实施例提供一种文本识别装置,其特征在于,包括:
转换单元,用于将目标图形数据中所有文本图元转换为多个文本实体;
聚合单元,用于基于各文本实体之间的距离关系、以及文本实体的文本排布,对多个文本实体进行聚合,得到多个文本团;其中,每个文本团包括至少一个文本实体;
组合单元,用于针对每个文本团,利用预设的滑动窗口沿该文本团中的文本实体滑动,得到多个文本组合;
分类单元,用于将多个文本组合分别输入到预设的文本分类模型中,并获取文本分类模型输出的各文本组合所表达的语义类型及其概率,并选择概率最高的文本组合及其所属语义类型作为文本识别结果。
在一个可能的实施方式中,所述转换单元,具体用于针对每一个文本图元,若该文本图元是由字符和图形组成,则对字符和图形进行识别,得到文本实体;和/或,若该文本图元是由多个字符组成,且该文本图元包含预设字符,则基于预设字符将所述多个字符进行拆分得到多个文本实体;每个文本实体包括至少一个字符。
在一个可能的实施方式中,所述聚合单元,具体用于确定各文本实体的二维包围盒和文本方向;根据各文本实体的二维包围盒和文本方向,将多个文本实体聚合为多个文本集合;每个文本集合包括至少一个文本实体,每个文本集合中的文本实体的二维包围盒重叠且文本方向相同;针对每个文本集合,将该文本集合中的所有文本实体在预设方向进行投影,基于各文本实体的投影,将该文本集合划分为至少一个文本子集;每个文本子集包括至少一个文本实体,且每个文本子集包含的文本实体在预设方向的投影重叠;针对每个文本子集,将该文本子集中的文本实体进行排序生成该文本子集对应的文本团。
在一个可能的实施方式中,所述聚合单元,在将该文本子集中的文本实体进行排序生成该文本子集对应的文本团时,用于以所述文本子集的文本实体的文本方向作为X轴,以该文本方向顺时针旋转90°的方向作为Y轴,建立该文本子集的局部坐标系;基于各文本实体在该局部坐标系中的坐标,对该文本子集中的文本实体进行排序。
在一个可能的实施方式中,所述分类模型,具体用于针对每个文本组合,将该文本组合中的指定文本实体按照预设规则替换为与该指定文本实体类型对应的预设文本实体;对进行了替换的该文本组合中的文本实体进行分词处理得到多个词,并对每个分词进行词嵌入处理,得到每个分词的词向量,并基于各分词的词向量,确定该文本组合的文本向量;将各文本组合对应的文本向量输入到预设的文本分类模型中,以由文本分类模型基于各文本组合对应的文本向量,对各文本组合进行分类,输出的各文本组合所属语义类型及其概率。
在本发明实施例提供的文本识别方法中,电子设备可获取导入本设备的图纸中的文本图元,生成多个文本实体。然后,电子设备可进行文本实体密度聚类,文本排列识别等,生成多个文本团,并利用滑动窗口的方法生成所有文本组合,利用训练好的文本分类模型对文本组合进行分类,并根据概率大小来选择合适的文本组合,作为文本识别结果。
一方面,本申请可以自动识别出图纸中的文本,所以大大提高了文本识别的效率,从而可以实现批量化的图纸文本识别。
另一方面,本申请是基于机器训练模型对文本组合进行分类,所以对文本分类的分类结果更为准确,且不需要人工为每一类语义类型都编写正则表达式,所以节约了人力成本。
附图说明
图1为本申请一示例性实施例示出的一种文本识别方法的流程图;
图2为本申请一示例性实施例示出的一种文本集合的示意图;
图3为本申请一示例性实施例示出的另一种文本集合的示意图;
图4a为本申请一示例性实施例示出的另一种文本集合的示意图;
图4b为本申请一示例性实施例示出的另一种文本集合的示意图;
图5为本申请一示例性实施例示出的另一种文本集合的示意图;
图6为本申请一示例性实施例示出的生成文本组合的示意图;
图7为本申请一示例性实施例示出的生成文本组合的示意图;
图8为本申请一示例性实施例示出的一种本文团的示意图;
图9为本申请一示例性实施例示出的一种文本分类模型训练方法的示意图;
图10为本申请一示例性实施例示出的一种文本识别装置的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
在传统的图纸文本识别技术中,电子设备通常通过两个步骤完成文本识别。
第一个步骤是:电子设备根据标注文本在图纸上的几何距离等特征,将在图纸中分开绘制的文本进行聚合。
第二个步骤是:电子设备通过开发人员预先编写的正则表达式来对聚合后的文本进行识别。
然而,一方面,图纸文本之间通常是有语义关联的,传统的图纸文本识别仅仅根据距离进行聚合,而没有考虑文本之间的语义关联,所以聚合后容易产生很多错误。
另一方面,标注文本的类型较多,每一种类型都要编写对应的正则表达式,大大增加了人力成本。
第三方面,标注文本的表达形式多样,很难定义一条正则表达式来覆盖一种类型文本的各种表达形式,所以传统的图纸文本识别技术的实用性较差。
本申请旨在提出一种文本识别方法,电子设备可获取导入本设备的图纸中的文本图元,生成多个文本实体。然后,电子设备可进行文本实体密度聚类,文本排列识别等,生成多个文本团,并利用滑动窗口的方法生成所有文本组合,利用训练好的文本分类模型对文本组合进行分类,并根据概率大小来选择合适的文本组合,作为文本识别结果。
一方面,电子设备可以自动识别出图纸中的文本,所以大大提高了文本识别的效率,从而可以实现批量化的图纸文本识别。
另一方面,在本申请中,电子设备是基于机器训练模型对文本组合进行分类,所以对文本分类的结果更为准确,且不需要人工为每一类语义类型都编写正则表达式,所以节约了人力成本。
下面对本申请提供的文本识别方法进行详细地说明。
参见图1,图1为本申请一示例性实施例示出的一种文本识别方法的流程图,该方法可应用在电子设备上,可包括如下所示步骤。
步骤101:电子设备将目标图形中所有文本图元转换为多个文本实体。
需要说明的是,本申请所述的图形是指具有文本标准的图形,比如该图形可以是CAD图纸中存储的图形数据等。其中,该CAD图纸可以是建筑类的CAD图纸,也可以是机械类、电气类的CAD图纸等,这里不对本申请所述的图形进行具体地限定。
在本申请实施例中,电子设备可获取图形数据中的所有文本图元。电子设备可将文本图元转换为多个文本实体,存储在预先定义好的文本数据结构中。每个文本实体包含文本图元在图纸中的坐标,方向,文字高度和文本内容等。
下面通过介绍实现步骤101的几种方式。
方式一:针对每一个文本图元,若该文本图元是由字符和图形组成,电子设备则对字符和图形进行识别,得到文本实体。
例如,文本图元为“①”,则需要对该文本图元进行字符(即1)和图(即○)形进行识别,得到的文本实体为“圆圈1”。
方式二:若该文本图元是由多个字符组成,且该文本图元包含预设字符,电子设备则可基于预设字符将所述多个字符进行拆分得到多个文本实体;每个文本实体包括至少一个字符。
例如,假设预设字符为空格,假设文本图元为“KZ1500*500”,则基于空格字符将该文本图元拆分成两个文本实体。拆分出的两个文本实体分别为“KZ1”和“500*500”。
需要说明的是,电子设备可分别采用上述方式一和方式二来实现步骤101。当然,电子设备也可同时采用方式一和方式二来实现步骤101。
当然,电子设备还可采用其他方式将目标图形中所有文本图元转换为多个文本实体,这里不进行具体地限定。
步骤102:电子设备基于各文本实体之间的距离关系、以及文本实体的文本排布,对多个文本实体进行聚合,得到多个文本团。
步骤102通过密度聚类、按文本排布进行拆分以及按阅读顺序进行排序三步构成。
下面通过步骤1021至步骤1024对这三步进行详细地描述。
一、密度聚类:
步骤1021:电子设备确定各文本实体的二维包围盒和文本方向。
步骤1022:电子设备根据各文本实体的二维包围盒和文本方向,将多个文本实体聚合为多个文本集合;每个文本集合包括至少一个文本实体,每个文本集合中的文本实体的二维包围盒重叠且文本方向相同。
在实现时,电子设备可提取文本实体的二维包围盒。如果两个文本实体的二维包围盒有重叠部分,且两个文本实体的文本的方向相同,则将两个文本实体聚合在一个文本组中。接着再去找所有与该文本组的文本实体的二维包围和有重叠,且文本方向相同的其他文本实体,添加到该文本组里。重复该步骤,直到找不到新的文本实体为止,此时该文本组形成一个文本集合。例如,形成的文本集合如图2方框框住的部分。
需要说明的是,文本实体的二维包围盒计算需要考虑图纸中线条的影响,如果一个文本下方有平行的直线,则其对应的二维包围盒需要适当放大一些。放大方法为沿着与直线垂直的方向拉伸包围盒。如上图所示(虚线框为文本包围盒)。
例如,如图3所示。
如图3左图所示,文本实体C8@200下方没有实线,则文本实体的二维包围盒(即图3左图中的虚线)如图3左图所示。
如图3右图所示,文本实体C8@200下方有实线,则文本实体的二维包围盒(即图3右图中的虚线)如图3右图所示。
由图3左、右图可以看出,下方有实线的文本实体的二维包围盒大于下方没有实现的文本实体的二维包围盒。
二:按文本排列进行拆分:
步骤1023:电子设备针对每个文本集合,将该文本集合中的所有文本实体在预设方向进行投影,基于各文本实体的投影,将该文本集合划分为至少一个文本子集;每个文本子集包括至少一个文本实体,且每个文本子集包含的文本实体在预设方向的投影重叠。
如图4a所示,图4a方框里里的两列文本经过步骤1021和1022形成的一个文本集合。这时需要识别出该文本集合内的文本排列方式,将视觉上按两列排布的文本实体拆分到两个文本子集里。
在实现时,针对每个文本集合,在识别文本排布时,电子设备将该文本集合中的文本实体向与文字方向预设的方向上投影,得到一个一维的投影区间。
电子设备可基于该基于各文本实体的投影区间,将该文本集合划分为至少一个文本子集;每个文本子集包括至少一个文本实体,且每个文本子集包含的文本实体在预设方向的投影重叠。
其中,该预设的投影方向可以水平方向、垂直方向等。这里不进行具体地限定。
例如,如图4b所示,假设图4b中的所有文本实体属于一个文本集合。电子设备可将该文本集合沿垂直方向进行投影,由于文本实体“C8@200”和“4C16”投影重叠,因此将“C8@200”和“4C16”组成一个文本子集。同理,“KZ1”与“一层~二层”在垂直方向的投影重叠,所以将“KZ1”与“一层~二层”也形成一个文本子集。
三、按照阅读顺序进行排序:
步骤1024:电子设备针对每个文本子集,将该文本子集中的文本实体进行排序生成该文本子集对应的文本团。
在实现时,电子设备文本子集的文本实体的文本方向作为X轴,以该文本方向顺时针旋转90°的方向作为Y轴,建立该文本子集的局部坐标系;
电子设备可基于各文本实体在该局部坐标系中的坐标,对该文本子集中的文本实体进行排序,并将排序后的文本子集作为文本团。
例如,如图5所示,假设文本子集为图5虚线框围住的区域,文本子集包括的文本实体为“KZ3、500*500、12A20、A8@100/200、升至、0.400”。
在该文本子集对应的局部坐标系中x轴如图5所示,y轴如图5所示,按照y坐标由小到大,x坐标由小到大的顺序,该文本团内的文本排列顺序为:“KZ3”,“500*500”,“12A20”,“A8@100/200”,“升至”,“0.400”。
经过以上步骤1021至步骤1024,得到了按照文字实体位置关系聚类好的所有文本团。每个文本团内的文本实体均按阅读顺序排列好。
步骤103:电子设备针对每个文本团,利用预设的滑动窗口沿该文本团中的文本实体滑动,得到多个文本组合。
在实现时,电子设备利用滑动窗口的方法,生成文本团内的所有文本组合。
例如,文本团为{A,B,C}如图6左上角图所示,内含三个按顺序排好的文本实体。构造大小分别为1,2,3个文本的滑动窗口(分别为图6右上角、图6左下角、图6右下角)。将滑动窗口向右推进一格,即可获得一个新的文本聚合。
图7中灰色的格子对应生成的所有可能的文本聚合结果。再对这些文本进行组合,可能生成的组合就有{A,B,C},{AB,C},{A,BC},{ABC}四种。
再例如,以图8方框内的文本团为例,该文本团内有两个文本实体,“4”和“C25”。生成的文本组合有两个,第一个组合包含两个文本实体,为“4”和“C25”;第二个组合包含一个文本实体,为“4C25”。
步骤104:电子设备将多个文本组合分别输入到预设的文本分类模型中,并获取文本分类模型输出的各文本组合所表达的语义类型及其概率,并选择概率最高的文本组合及其所属语义类型作为文本识别结果。
其中,语义类型包括:构件名称、构件钢筋规格、构件布筋数量等等。
下面从文本分类模型的应用和文本分类模型的训练两方面进行说明。
一、文本分类模型的应用。
电子设备将多个文本组合分别输入到预设的文本分类模型中,并获取文本分类模型输出的各文本组合所表达的语义类型及其概率,并选择概率最高的文本组合及其所属语义类型作为文本团的识别结果。
例如,电子设备将“A8@200”输入到分类模型,分类模型输出“A8@200”的语义类型为构件布筋数量的概率为95%,“A8@200”的语义类型为构件钢筋规格的概率为5%。
因此,电子设备可确定A8@200为构件布筋数量。
可选的,在将文本组合输入到文本分类模型前,电子设备还可针对每个文本组合,将该文本组合中的指定文本实体按照预设规则替换为与该指定文本实体类型对应的预设文本实体。换句话来说,电子设备可进行词语转换,比如将整数依据位数,替换为SINGLENUM,DOUBLENUM等词语。
然后,电子设备可对进行了替换的该文本组合中的文本实体进行分词处理得到多个分词,并对每个分词进行词嵌入处理,得到每个分词的词向量,并基于各分词的词向量,确定该文本组合的文本向量。
然后,电子设备将各文本组合对应的文本向量输入到预设的文本分类模型中,以由文本分类模型基于各文本组合对应的文本向量,对各文本组合进行分类,得到文本分类模型输出的各文本组合所属语义类型及其概率。
最后,电子设备选择概率最高的文本组合及其所属语义类型作为文本识别结果。
二、分类模型训练
分类模型训练的步骤如图9所示。
步骤一、数据收集
首先从海量CAD建筑结构图纸中导出一条条标注文本,并通过人工审核打标签的方式,筛选出有意义的文本数据,并给所有文本数据打上语义类型标签。
例如,其中文本组合样本和文本标签如表1所示。
文本组合样本 文本标签
A8@200 3
GBZ4 0
12B14 2
A6@200(图中未注) 3
75.600~81.300 1
表1
其中,语义类型需要自己定义,每种语义类型用唯一的一个整数来表示。可以用字典的数据结构来建立整数和语义类型的对应关系。比如{0:构件标高,1:构件名称,2:构件钢筋规格,3:构件布筋数量……}。
步骤二、数据转换
由于建筑结构图纸中的标注文本内容存在一定的表达模式,可以对其进行适当的转换,提取出重要特征来,方便后续的训练。
例如,标高类型的标注文本中常含证书,小数或者中文数字,可以将整数依据位数,替换为SINGLENUM,DOUBLENUM,TRIPlENUM或者QUADRUPLENUM,将小数替换为DECIMAL,将汉字数字(一二三四五六七八九十百千)+层替换为CHINESENUM。
步骤三、分词和词嵌入
使用jieba(一种分词技术)分词技术对文本组合中的文本进行分词,使用word2vec(一种词嵌入技术)词嵌入模型对分词后的文本组合进行词嵌入,得到每个词的向量表示。
需要说明的是,在使用jieba分词时,需要录入常用的建筑词库,以优化分词效果。一些常用的建筑专业词汇,比如“一级抗震等级”,“配筋率”等,需要在分词库中单独设置,保证在分词结果中仍然是一个完整的词。
在设置词嵌入模型的参数时,需要考虑标注文本的特点,选用合适的wordcount大小。一般取标注文本分词后词语数目的平均值。词嵌入的维数可以控制在100以内,保证计算效率。
将一个文本分词后,对每个词应用词嵌入模型,获取词向量。将所有词语的向量求和并归一化,得到该文本组合样本的向量化表示,即文本组合样本的特征向量。
应用上述向量求和归一化的方法忽略了文本的词语个数,因此在该特征向量后追加词语数量作为一个重要特征。这样做使得特征向量的维度扩大了一维,在特征向量里保留了文本的长度信息。
步骤四、模型训练及评价
经过前述步骤得到了所有文本组合样本的向量表示,以及其对应的语义类型标签。将所有文本组合样本的向量表示及其对应的语义类型标签,按8:2的比例分为训练集和测试集,选用随机森林的机器学习算法在训练集上进行训练,并在测试集上测试效果。
在训练随机森林的分类模型时,选用交叉训练的方法评价模型的效果。
在调整模型参数时,选用网格化的参数搜索算法。原理是首先给出所有可能的模型参数组合,然后对每一种组合训练模型,比较不同的模型效果。最终选择准确率和泛化性都最好的模型参数组合。
经过上述步骤,可以得到一个针对CAD建筑结构图纸中的标注文本进行分类的模型。
由上述描述可知,电子设备可获取导入本设备的图纸中的文本图元,生成多个文本实体。然后,电子设备可进行文本实体密度聚类,文本排列识别等,生成多个文本团,并利用滑动窗口的方法生成所有文本组合,利用训练好的文本分类模型对文本组合进行分类,并根据概率大小来选择合适的文本组合,作为文本识别结果。
一方面,电子设备可以自动识别出图纸中的文本,所以大大提高了文本识别的效率,从而可以实现批量化的图纸文本识别。
另一方面,在本申请中,电子设备是基于机器训练模型对文本组合进行分类,所以对文本分类的分类结果更为准确,且不需要人工为每一类语义类型都编写正则表达式,所以节约了人力成本。
参见图10,图10为本申请一示例性实施例示出的一种文本识别装置的框图。
该装置可包括:
转换单元1001,用于将目标图形中所有文本图元转换为多个文本实体;
聚合单元1002,用于基于各文本实体之间的距离关系、以及文本实体的文本排布,对多个文本实体进行聚合,得到多个文本团;其中,每个文本团包括至少一个文本实体;
组合单元1003,用于针对每个文本团,利用预设的滑动窗口沿该文本团中的文本实体滑动,得到多个文本组合;
分类单元1004,用于将多个文本组合分别输入到预设的文本分类模型中,并获取文本分类模型输出的各文本组合所表达的语义类型及其概率,并选择概率最高的文本组合及其所属语义类型作为文本识别结果。
在一个可能的实施方式中,所述转换单元1001,具体用于针对每一个文本图元,若该文本图元是由字符和图形组成,则对字符和图形进行识别,得到文本实体;和/或,若该文本图元是由多个字符组成,且该文本图元包含预设字符,则基于预设字符将所述多个字符进行拆分得到多个文本实体;每个文本实体包括至少一个字符。
在一个可能的实施方式中,所述聚合单元1002,具体用于确定各文本实体的二维包围盒和文本方向;根据各文本实体的二维包围盒和文本方向,将多个文本实体聚合为多个文本集合;每个文本集合包括至少一个文本实体,每个文本集合中的文本实体的二维包围盒重叠且文本方向相同;针对每个文本集合,将该文本集合中的所有文本实体在预设方向进行投影,基于各文本实体的投影,将该文本集合划分为至少一个文本子集;每个文本子集包括至少一个文本实体,且每个文本子集包含的文本实体在预设方向的投影重叠;针对每个文本子集,将该文本子集中的文本实体进行排序生成该文本子集对应的文本团。
在一个可能的实施方式中,所述聚合单元1002,在将该文本子集中的文本实体进行排序生成该文本子集对应的文本团时,用于以所述文本子集的文本实体的文本方向作为X轴,以该文本方向顺时针旋转90°的方向作为Y轴,建立该文本子集的局部坐标系;基于各文本实体在该局部坐标系中的坐标,对该文本子集中的文本实体进行排序。
在一个可能的实施方式中,所述分类模型1004,具体用于针对每个文本组合,将该文本组合中的指定文本实体按照预设规则替换为与该指定文本实体类型对应的预设文本实体;对进行了替换的该文本组合中的文本实体进行分词处理得到多个分词,并对每个分词进行词嵌入处理,得到每个分词的词向量,并基于各分词的词向量,确定该文本组合的文本向量;将各文本组合对应的文本向量输入到预设的文本分类模型中,以由文本分类模型基于各文本组合对应的文本向量,对各文本组合进行分类,输出的各文本组合所属语义类型及其概率。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本识别方法,其特征在于,包括:
将目标图形数据中所有文本图元转换为多个文本实体;
基于各文本实体之间的距离关系、以及文本实体的文本排布,对多个文本实体进行聚合,得到多个文本团;其中,每个文本团包括至少一个文本实体;
针对每个文本团,利用预设的滑动窗口沿该文本团中的文本实体滑动,得到多个文本组合;
将多个文本组合分别输入到预设的文本分类模型中,并获取文本分类模型输出的各文本组合所表达的语义类型及其概率,并选择概率最高的文本组合及其所属语义类型作为文本识别结果。
2.根据权利要求1所述的,其特征在于,所述将所有文本图元转换为多个文本实体,包括:
针对每一个文本图元,若该文本图元是由字符和图形组成,则对字符和图形进行识别,得到文本实体;
和/或,
若该文本图元是由多个字符组成,且该文本图元包含预设字符,则基于预设字符将所述多个字符进行拆分得到多个文本实体;每个文本实体包括至少一个字符。
3.根据权利要求1所述的方法,其特征在于,所述基于各文本实体之间的距离关系、以及文本实体的文本排布,对多个文本实体进行聚合,得到多个文本团,包括:
确定各文本实体的二维包围盒和文本方向;
根据各文本实体的二维包围盒和文本方向,将多个文本实体聚合为多个文本集合;每个文本集合包括至少一个文本实体,每个文本集合中的文本实体的二维包围盒重叠且文本方向相同;
针对每个文本集合,将该文本集合中的所有文本实体在预设方向进行投影,基于各文本实体的投影,将该文本集合划分为至少一个文本子集;每个文本子集包括至少一个文本实体,且每个文本子集包含的文本实体在预设方向的投影重叠;
针对每个文本子集,将该文本子集中的文本实体进行排序生成该文本子集对应的文本团。
4.根据权利要求3所述的方法,其特征在于,所述将该文本子集中的文本实体进行排序生成该文本子集对应的文本团,包括:
以所述文本子集的文本实体的文本方向作为X轴,以该文本方向顺时针旋转90°的方向作为Y轴,建立该文本子集的局部坐标系;
基于各文本实体在该局部坐标系中的坐标,对该文本子集中的文本实体进行排序。
5.根据权利要求1所述的方法,其特征在于,所述将多个文本组合分别输入到预设的文本分类模型中,并获取文本分类模型输出的各文本组合所表达的语义类型及其概率,包括:
针对每个文本组合,将该文本组合中的指定文本实体按照预设规则替换为与该指定文本实体类型对应的预设文本实体;
对进行了替换的该文本组合中的文本实体进行分词处理得到多个分好的词,并对每个分词进行词嵌入处理,得到每个分词的词向量,并基于各分词的词向量,确定该文本组合的文本向量;
将各文本组合对应的文本向量输入到预设的文本分类模型中,以由文本分类模型基于各文本组合对应的文本向量,对各文本组合进行分类,输出的各文本组合所属语义类型及其概率。
6.一种文本识别装置,其特征在于,包括:
转换单元,用于将目标图形中所有文本图元转换为多个文本实体;
聚合单元,用于基于各文本实体之间的距离关系、以及文本实体的文本排布,对多个文本实体进行聚合,得到多个文本团;其中,每个文本团包括至少一个文本实体;
组合单元,用于针对每个文本团,利用预设的滑动窗口沿该文本团中的文本实体滑动,得到多个文本组合;
分类单元,用于将多个文本组合分别输入到预设的文本分类模型中,并获取文本分类模型输出的各文本组合所表达的语义类型及其概率,并选择概率最高的文本组合及其所属语义类型作为文本识别结果。
7.根据权利要求5所述的装置,其特征在于,所述转换单元,具体用于针对每一个文本图元,若该文本图元是由字符和图形组成,则对字符和图形进行识别,得到文本实体;和/或,若该文本图元是由多个字符组成,且该文本图元包含预设字符,则基于预设字符将所述多个字符进行拆分得到多个文本实体;每个文本实体包括至少一个字符。
8.根据权利要求5所述的装置,其特征在于,所述聚合单元,具体用于确定各文本实体的二维包围盒和文本方向;根据各文本实体的二维包围盒和文本方向,将多个文本实体聚合为多个文本集合;每个文本集合包括至少一个文本实体,每个文本集合中的文本实体的二维包围盒重叠且文本方向相同;针对每个文本集合,将该文本集合中的所有文本实体在预设方向进行投影,基于各文本实体的投影,将该文本集合划分为至少一个文本子集;每个文本子集包括至少一个文本实体,且每个文本子集包含的文本实体在预设方向的投影重叠;针对每个文本子集,将该文本子集中的文本实体进行排序生成该文本子集对应的文本团。
9.根据权利要求5所述的装置,其特征在于,所述聚合单元,在将该文本子集中的文本实体进行排序生成该文本子集对应的文本团时,用于以所述文本子集的文本实体的文本方向作为X轴,以该文本方向顺时针旋转90°的方向作为Y轴,建立该文本子集的局部坐标系;基于各文本实体在该局部坐标系中的坐标,对该文本子集中的文本实体进行排序。
10.根据权利要求5所述的装置,其特征在于,所述分类模型,具体用于针对每个文本组合,将该文本组合中的指定文本实体按照预设规则替换为与该指定文本实体类型对应的预设文本实体;对进行了替换的该文本组合中的文本实体进行分词处理得到多个分词,并对每个分词进行词嵌入处理,得到每个分词的词向量,并基于各分词的词向量,确定该文本组合的文本向量;将各文本组合对应的文本向量输入到预设的文本分类模型中,以由文本分类模型基于各文本组合对应的文本向量,对各文本组合进行分类,输出的各文本组合所属语义类型及其概率。
CN201911315736.7A 2019-12-19 2019-12-19 一种文本识别方法及装置 Active CN111144114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911315736.7A CN111144114B (zh) 2019-12-19 2019-12-19 一种文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911315736.7A CN111144114B (zh) 2019-12-19 2019-12-19 一种文本识别方法及装置

Publications (2)

Publication Number Publication Date
CN111144114A true CN111144114A (zh) 2020-05-12
CN111144114B CN111144114B (zh) 2023-07-18

Family

ID=70518878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911315736.7A Active CN111144114B (zh) 2019-12-19 2019-12-19 一种文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN111144114B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192195A (zh) * 2021-04-27 2021-07-30 长江勘测规划设计研究有限责任公司 一种受损地形坐标数据的修复方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5841900A (en) * 1996-01-11 1998-11-24 Xerox Corporation Method for graph-based table recognition
US5845288A (en) * 1995-12-11 1998-12-01 Xerox Corporation Automated system for indexing graphical documents having associated text labels
CN102609687A (zh) * 2012-01-31 2012-07-25 华中科技大学 一种地铁施工图纸及工程参数自动识别方法
CN103400127A (zh) * 2013-08-05 2013-11-20 苏州鼎富软件科技有限公司 图片文字识别方法
CN103605970A (zh) * 2013-12-02 2014-02-26 华中师范大学 一种基于机器学习的图纸建筑元素识别方法及系统
CN106910501A (zh) * 2017-02-27 2017-06-30 腾讯科技(深圳)有限公司 文本实体提取方法及装置
CN106951636A (zh) * 2017-03-20 2017-07-14 国网福建省电力有限公司 一种基于AutoCAD的电力通信静态资源自动识别方法
CN107315817A (zh) * 2017-06-30 2017-11-03 华自科技股份有限公司 电子图纸文本匹配方法、装置、存储介质和计算机设备
US20170364503A1 (en) * 2016-06-17 2017-12-21 Abbyy Infopoisk Llc Multi-stage recognition of named entities in natural language text based on morphological and semantic features
RU2672395C1 (ru) * 2017-09-29 2018-11-14 Акционерное общество "Лаборатория Касперского" Способ обучения классификатора, предназначенного для определения категории документа
CN109255041A (zh) * 2018-08-22 2019-01-22 国网山西省电力公司 一种电气图纸的智能识别方法
CN109389124A (zh) * 2018-10-29 2019-02-26 苏州派维斯信息科技有限公司 小票信息类目识别方法
CN109446885A (zh) * 2018-09-07 2019-03-08 广州算易软件科技有限公司 一种基于文本的元器件识别方法、系统、装置和存储介质
CN110209630A (zh) * 2019-04-25 2019-09-06 广东联城住工装备信息科技有限公司 Dxf文件信息处理方法、装置、计算机设备和存储介质
CN110222695A (zh) * 2019-06-19 2019-09-10 拉扎斯网络科技(上海)有限公司 一种证件图片处理方法及装置、介质、电子设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845288A (en) * 1995-12-11 1998-12-01 Xerox Corporation Automated system for indexing graphical documents having associated text labels
US5841900A (en) * 1996-01-11 1998-11-24 Xerox Corporation Method for graph-based table recognition
CN102609687A (zh) * 2012-01-31 2012-07-25 华中科技大学 一种地铁施工图纸及工程参数自动识别方法
CN103400127A (zh) * 2013-08-05 2013-11-20 苏州鼎富软件科技有限公司 图片文字识别方法
CN103605970A (zh) * 2013-12-02 2014-02-26 华中师范大学 一种基于机器学习的图纸建筑元素识别方法及系统
US20170364503A1 (en) * 2016-06-17 2017-12-21 Abbyy Infopoisk Llc Multi-stage recognition of named entities in natural language text based on morphological and semantic features
CN106910501A (zh) * 2017-02-27 2017-06-30 腾讯科技(深圳)有限公司 文本实体提取方法及装置
CN106951636A (zh) * 2017-03-20 2017-07-14 国网福建省电力有限公司 一种基于AutoCAD的电力通信静态资源自动识别方法
CN107315817A (zh) * 2017-06-30 2017-11-03 华自科技股份有限公司 电子图纸文本匹配方法、装置、存储介质和计算机设备
RU2672395C1 (ru) * 2017-09-29 2018-11-14 Акционерное общество "Лаборатория Касперского" Способ обучения классификатора, предназначенного для определения категории документа
CN109255041A (zh) * 2018-08-22 2019-01-22 国网山西省电力公司 一种电气图纸的智能识别方法
CN109446885A (zh) * 2018-09-07 2019-03-08 广州算易软件科技有限公司 一种基于文本的元器件识别方法、系统、装置和存储介质
CN109389124A (zh) * 2018-10-29 2019-02-26 苏州派维斯信息科技有限公司 小票信息类目识别方法
CN110209630A (zh) * 2019-04-25 2019-09-06 广东联城住工装备信息科技有限公司 Dxf文件信息处理方法、装置、计算机设备和存储介质
CN110222695A (zh) * 2019-06-19 2019-09-10 拉扎斯网络科技(上海)有限公司 一种证件图片处理方法及装置、介质、电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192195A (zh) * 2021-04-27 2021-07-30 长江勘测规划设计研究有限责任公司 一种受损地形坐标数据的修复方法
CN113192195B (zh) * 2021-04-27 2022-05-17 长江勘测规划设计研究有限责任公司 一种受损地形坐标数据的修复方法

Also Published As

Publication number Publication date
CN111144114B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN110084239B (zh) 降低离线手写数学公式识别时网络训练过拟合的方法
CN104517112B (zh) 一种表格识别方法与系统
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
US9589185B2 (en) Symbol recognition using decision forests
CN105786898B (zh) 一种领域本体的构建方法和装置
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN113312899A (zh) 文本分类方法、装置和电子设备
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN102360436B (zh) 一种基于部件的联机手写藏文字符的识别方法
Yin et al. An automated layer classification method for converting CAD drawings to 3D BIM models
CN111144114B (zh) 一种文本识别方法及装置
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN111737993B (zh) 一种配电网设备的故障缺陷文本提取设备健康状态方法
KR101951910B1 (ko) 계통이 부여된 도판 및 문자의 자동배치를 통한 전자서적 제작 시스템
Villena Toro et al. Optical character recognition on engineering drawings to achieve automation in production quality control
Del Vescovo et al. Online handwriting recognition by the symbolic histograms approach
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
Mishchenko et al. Model-Based Recognition and Extraction of Information from Chart Images.
CN114943203A (zh) 汉字相似度的获得方法、装置、电子设备和存储设备
RU2582064C1 (ru) Способы и системы эффективного автоматического распознавания символов с использованием леса решений
CN114579763A (zh) 一种针对中文文本分类任务的字符级对抗样本生成方法
Martín et al. Generalized quantum similarity in atomic systems: A quantifier of relativistic effects
CN115204128A (zh) 一种配置文件生成方法、装置和计算机可读存储介质
CN113128556A (zh) 基于变异分析的深度学习测试用例排序方法
JP2020166443A (ja) データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant