CN114120016B - 字符串提取方法、装置、设备及存储介质 - Google Patents

字符串提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114120016B
CN114120016B CN202210089244.6A CN202210089244A CN114120016B CN 114120016 B CN114120016 B CN 114120016B CN 202210089244 A CN202210089244 A CN 202210089244A CN 114120016 B CN114120016 B CN 114120016B
Authority
CN
China
Prior art keywords
character
node
template
extraction
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210089244.6A
Other languages
English (en)
Other versions
CN114120016A (zh
Inventor
黄耀
陈天玓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aqiu Technology Co ltd
Original Assignee
Beijing Aqiu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aqiu Technology Co ltd filed Critical Beijing Aqiu Technology Co ltd
Priority to CN202210089244.6A priority Critical patent/CN114120016B/zh
Publication of CN114120016A publication Critical patent/CN114120016A/zh
Application granted granted Critical
Publication of CN114120016B publication Critical patent/CN114120016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明涉及智能识别技术领域,尤其涉及一种字符串提取方法、装置、设备及存储介质。本发明通过设置好字符提取模板,根据字符提取模板确定对应数量的字符节点,将获得的字符节点按照字符提取模板进行提取字符串,使得在面对复杂字符串时也可以进行字符提取,避免了面对较为数量较多的字符串识别整合效率较低,难以满足用户需求的技术问题,提高了字符识别的成功率以及字符识别效率。

Description

字符串提取方法、装置、设备及存储介质
技术领域
本发明涉及智能识别技术领域,尤其涉及一种字符串提取方法、装置、设备及存储介质。
背景技术
在需要进行字符识别时,主流的识别方法是通过OCR系统进行字符识别,且当下的OCR系统按照功能大致分为两类:1、按字符识别再整合成字符串;2、直接按字符串识别。这两类方法在不同的场景下,各有不同的优势。
但是,在面对字符排列并非是按照常规的按行排列时,例如:按圆环排列或其他形状排列。对OCR系统而言,在OCR系统读出全部的单个字符后,还需将字符整合成字符串来满足业务需求,其实现较为困难,且效率不高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种字符串提取方法、装置、设备及存储介质,旨在解决现有技术中面对较为数量较多的字符串识别整合效率较低,难以满足用户需求的技术问题。
为实现上述目的,本发明提供了一种字符串提取方法,所述方法包括以下步骤:
在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板;
根据所述字符提取模板确定待识别图像中的字符节点;
基于所述字符节点与所述字符提取模板提取对应的字符串。
可选地,所述基于所述字符节点与所述字符提取模板提取对应的字符串,包括:
提取所述字符提取模板中的模板节点;
将所述字符节点与所述模板节点进行匹配,并根据匹配结果提取对应的字符串。
可选地,所述将所述字符节点与所述模板节点进行匹配,并根据匹配结果提取对应的字符串,包括:
遍历所述模板节点,并将遍历得到的模板节点作为目标模板节点;
将所述目标模板节点与所述字符节点进行匹配,获得匹配结果;
根据所述匹配结果将所述模板节点与所述字符节点对应连接,并获取所述匹配结果对应的节点连接距离;
根据所述节点连接距离与所述匹配结果提取对应的字符串。
可选地,所述根据所述节点连接距离与所述匹配结果提取对应的字符串,包括:
基于预设节点偏差距离对所述节点连接距离进行筛选,获得目标节点连接距离;
根据所述目标节点连接距离与所述匹配结果提取对应的字符串。
可选地,所述根据所述匹配结果将所述模板节点与所述字符节点对应连接,并获取所述匹配结果对应的节点连接距离,包括:
根据匹配结果将所述模板节点与所述字符节点对应连接,并确定所述匹配结果对应的投影变换矩阵;
通过所述投影变换矩阵确定待识别图像中模板节点像素坐标与字符节点像素坐标;
基于所述模板节点像素坐标与所述字符节点像素坐标确定对应的节点连接距离。
可选地,所述在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板,包括:
在接收到字符提取指令时,根据所述字符提取指令确定节点数量信息与节点位置信息;
根据所述节点数量信息与所述节点位置信息确定字符提取模板。
可选地,所述基于所述字符节点与所述字符提取模板提取对应的字符串之后,还包括:
获取所述字符串中的字符偏移距离与字符平均高度;
根据所述字符偏移距离与所述字符平均高度对所述字符串进行评分,获得评分结果;
根据所述评分结果对字符串进行位置调整,并将调整后的字符串进行显示。
此外,为实现上述目的,本发明还提出一种字符串提取装置,所述字符串提取装置包括:
所述模板确定模块,用于在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板;
所述字符确定模块,用于根据所述字符提取模板确定待识别图像中的字符节点;
所述字符串提取模块,用于基于所述字符节点与所述字符提取模板提取对应的字符串。
此外,为实现上述目的,本发明还提出一种字符串提取设备,所述字符串提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的字符串提取程序,所述字符串提取程序配置为实现如上文所述的字符串提取方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有字符串提取程序,所述字符串提取程序被处理器执行时实现如上文所述的字符串提取方法的步骤。
本发明通过在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板,根据所述字符提取模板确定待识别图像中的字符节点,基于所述字符节点与所述字符提取模板提取对应的字符串。与现有技术相比,本发明通过设置好字符提取模板,根据字符提取模板确定对应数量的字符节点,将获得的字符节点按照字符提取模板进行提取字符串,使得在面对复杂字符串时也可以进行字符提取,避免了面对较为数量较多的字符串识别整合效率较低,难以满足用户需求的技术问题,提高了字符识别的成功率以及字符识别效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的字符串提取设备的结构示意图;
图2为本发明字符串提取方法第一实施例的流程示意图;
图3为本发明字符串提取方法一实施例的圆弧字符示意图;
图4为本发明字符串提取方法一实施例的多行字符示意图;
图5为本发明字符串提取方法第二实施例的流程示意图;
图6为本发明字符串提取方法一实施例的匹配示意图;
图7为本发明字符串提取装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的字符串提取设备结构示意图。
如图1所示,该字符串提取设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对字符串提取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及字符串提取程序。
在图1所示的字符串提取设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明字符串提取设备中的处理器1001、存储器1005可以设置在字符串提取设备中,所述字符串提取设备通过处理器1001调用存储器1005中存储的字符串提取程序,并执行本发明实施例提供的字符串提取方法。
本发明实施例提供了一种字符串提取方法,参照图2,图2为本发明一种字符串提取方法第一实施例的流程示意图。
本实施例中,所述字符串提取方法包括以下步骤:
步骤S10:在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板。
需要说明的是,本实施例方法的执行主体可以是字符串提取设备,其中,所述字符串提取设备可以是具有数据处理、网络通信以及程序运行功能的字符串提取设备,例如:电脑、手机或者控制计算机等,还可以是其他可以实现相同或者相似功能的电子设备,本实施例对此不做具体限制,在本实施例以及下述实施例中,将会以电脑为例进行说明。
值得说明的是,字符提取指令可以是用户通过指令输入设备输入的控制电脑执行字符串提取的控制信息,其中,所述字符提取指令可以是用户输入的操作信息与执行字符提取的启动信息等。
可以理解的是,字符提取模板可以是通过用户绘制一个包含若干节点的图,该图每个节点代表一个字符,节点的位置坐标代表待识别字符的空间位置关系,节点间的顺序代表整合字符串的顺序,参考图3,待识别的字符串为弧形,且待识别字符串的字符总共为9个,即经过根据字符提取指令确定的字符提取模板的节点数量也应该为9个节点,且对应的节点弧度与待识别字符串基本相同或者相似。
此外,字符提取模板还可以是通过用户输入的操作指令对待识别字符串进行选取,获得字符串选取框,再将选取的字符串选取框与电脑内的已存储的字符提取模板进行匹配,已查询是否存在对应格式的字符提取模板,若存在,则直接调用。
在具体实现中,若是需要用户自行绘制字符提取模板,则需要用户通过选取待识别字符串中的需要提取的字符,通过对每一个字符进行框选,并将框选出来的字符作为字符提取模板的节点,并且还可以通过操作指令对于字符提取模板的节点进行增加或者删减。
进一步地,所述步骤S10,还包括:
在接收到字符提取指令时,根据所述字符提取指令确定节点数量信息与节点位置信息;
根据所述节点数量信息与所述节点位置信息确定字符提取模板。
应当理解的是,节点数量信息是指需要提取的字符串的字符数量,节点位置信息是指需要提取的字符串的字符空间位置、字符中心位置、节点框信息以及字符缩放信息等。
值得说明的是,字符位置根据字符串中字符的空间位置的排列不同分为多种,例如:在图3中,所采用的字符串的字符空间位置为弧形,对应的字符提取模板也应该为弧形,但是不需要与字符串完全重合。
此外,字符中心位置用于对字符进行定位,由于在后续的匹配过程中,需要根据模板与字符串的距离对匹配结果进行筛选,所以可以通过设定中心位置以计算模板与字符串之间的距离。
易于理解的是,节点框信息仅影响提取的字符串显示效果,对于字符提取过程没有影响;字符缩放信息用于确定节点之间的距离,防止由于节点之间距离过大,导致后续在匹配时筛选出错误的匹配结果,影响字符提取结果。
步骤S20:根据所述字符提取模板确定待识别图像中的字符节点。
需要说明的是,待识别图像是指包含有待识别字符串的图像,其中,所述待识别图像可以是有用户输入的需要进行字符识别的图像。
值得说明的是,由于字符提取模板中由于限定了需要提取字符串的字符数量以及字符空间位置信息等,所以若在待识别图像中存在有多组字符串时,需要根据字符提取模板进行筛选符合条件的字符节点。
例如:参考图4,在待识别图像中存在有三组字符串,在实际操作中,限定了字符提取模板的节点数量为8个,且字符串的空间位置为以行排列,则符合字符提取模板要求的字符串对应的字符节点为“A”“B”“C”“D”“E”“F”“G”以及“H”。
步骤S30:基于所述字符节点与所述字符提取模板提取对应的字符串。
可以理解的是,在获取字符节点后,根据字符提取模板对应的字符位置信息对字符节点进行组合,参考图4,例如:字符节点为“A”“B”“C”“D”“E”“F”“G”以及“H”,且字符提取模板对应的字符位置为按行排列,及最后输出的字符串为“ABCDEFGH”。
易于理解的是,在获得对应的字符串后,还可以将字符串传输值用户端进行传输,其中,所述用户端可以是平板电脑、移动手机以及显示器等电子设备,本实施例对此不做具体限制。
本实施例通过在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板,根据所述字符提取模板确定待识别图像中的字符节点,基于所述字符节点与所述字符提取模板提取对应的字符串。本实施例通过设置好字符提取模板,根据字符提取模板确定对应数量的字符节点,将获得的字符节点按照字符提取模板进行提取字符串,使得在面对复杂字符串时也可以进行字符提取,避免了面对较为数量较多的字符串识别整合效率较低,难以满足用户需求的技术问题,提高了字符识别的成功率以及字符识别效率。
参考图5,图5为本发明一种字符串提取方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S30,包括:
步骤S301:提取所述字符提取模板中的模板节点。
需要说明的是,模板节点可以是根据用户的字符提取指令中节点数量与节点空间位置信息等生成的节点,其中,模板节点可以是对待识别字符串的字符节点进行相似变换获得的模板节点,相似变化包括:平移、旋转以及缩放等,本实施例对此不做具体限制。
步骤S302:将所述字符节点与所述模板节点进行匹配,并根据匹配结果提取对应的字符串。
值得说明的是,由于在进行字符提取时,是根据字符提取模板中的模板节点匹配的单个字符进行提取,获得对应的字符节点,以实现字符串提取的操作,其中,每一个模板节点只与一个字符节点匹配,避免出现多次提取的情况,影响字符串提取的效率。
由于本实施例中的字符提取模板是根据待识别字符串进行变换得到的,所以在本实施例中,不会存在对于待识别字符串中的待识别字符的漏检,同时,通过调整用户输入的节点数量还可以输出待识别字符串的子字符串,例如:待识别字符串为“12345”,用户设置的模板节点数量为4个模板节点,则最后输出的结果有两个,分别为“1234”与“2345”。
在具体实现中,对于字符节点与模板节点进行匹配可以是通过找出模板中距离最远的两个节点。根据识别出的字符点,枚举出所有字符点对,将模板中这两个节点与所有字符点对尝试进行匹配,其中,每个字符点对提供两种匹配,例如:模板中两个距离最远的点记作{A, B},字符点对
Figure 720861DEST_PATH_IMAGE001
,存在
Figure 804486DEST_PATH_IMAGE002
Figure 618858DEST_PATH_IMAGE003
两种情况。如果字符点有n个,将枚举出n(n-1)种匹配的情况。
此外,还可以通过匹配结果评分对字符节点与所述模板节点的匹配结果进行评分,作为衡量模板空间位置与实际的字符位置之间的吻合程度,且匹配结果评分可以是0~1之间,若是匹配结果评分小于0,则会被直接过滤,越靠近1表示模板节点与字符节点之间的吻合程度越好,越靠近0则表示可能存在一个或者多个节点的空间位置存在较大的偏差。
此外,根据获取到的匹配情况计算出相对应的投影变化矩阵,用于计算模板节点与字符节点之间距离。
进一步地,所述步骤S302,包括:
遍历所述模板节点,并将遍历得到的模板节点作为目标模板节点;
将所述目标模板节点与所述字符节点进行匹配,获得匹配结果;
根据所述匹配结果将所述模板节点与所述字符节点对应连接,并获取所述匹配结果对应的节点连接距离;
根据所述节点连接距离与所述匹配结果提取对应的字符串。
应当理解的是,节点连接距离是指所有模板节点与对应的字符节点之间连接距离之和,其中,节点连接距离越短,表示匹配结果准确度越高。
在具体实现中,每一个模板节点都会与一个字符节点对应,由于在字符串中可能存在相同的字符,因此,在对字符节点与模板节点进行匹配时,可能会出现由于相同字符干扰导致的多种匹配结果,并且,在实际操作过程中,模板节点与字符节点一般情况下会基本吻合,所以若是字符节点之间或者模板节点之间的距离太近,就会导致系统识别出错,因此为了筛选出最佳的匹配结果,可以通过计算每一个字符节点与对应的模板节点之间的距离之和判断是否存在匹配失误的情况。
在实际应用中,匹配方式可以是通过找出模板中距离最远的两个点,枚举两个点到检出字符点的所有匹配的情形,即两个点即可确定相似变换,其他的点根据该变换也可映射到图像坐标系上,还可以按照相似变换的旋转、缩放分量的值,进行筛选。
此外,对于每个通过筛选的匹配模式,计算余下的字符点到余下的模板点的二分图最大完备匹配,即给每个模板点,找到一个与它匹配的字符点,且每个字符点仅用于匹配一个模板点。
例如:参考图6,由于模板节点之间的间隔不同,在实际匹配时,模板节点间隔较近时,会出现匹配失误的情况。
进一步地,为了根据最短节点距离确定提取的字符串,步骤根据所述节点连接距离与所述匹配结果提取对应的字符串,包括:
基于预设节点偏差距离对所述节点连接距离进行筛选,获得目标节点连接距离;
根据所述目标节点连接距离与所述匹配结果提取对应的字符串。
需要说明的是,预设节点偏差距离可以是最大允许匹配位置偏差,根据计算每一个模板节点与对应的字符节点之间的节点距离之和,即计算节点连接距离,若是节点连接距离大于最大允许匹配位置偏差,则判定该匹配结果不符合要求。
其中,所述根据所述匹配结果将所述模板节点与所述字符节点对应连接,并获取所述匹配结果对应的节点连接距离的步骤,包括:
根据匹配结果将所述模板节点与所述字符节点对应连接,并确定所述匹配结果对应的投影变换矩阵;
通过所述投影变换矩阵确定待识别图像中模板节点像素坐标与字符节点像素坐标;
基于所述模板节点像素坐标与所述字符节点像素坐标确定对应的节点连接距离。
本实施例通过提取所述字符提取模板中的模板节点,将所述字符节点与所述模板节点进行匹配,并根据匹配结果提取对应的字符串;本实施例公开了通过字符节点与模板节点进行匹配,根据匹配结果实现准确的字符提取,提高字符提取的准确率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有字符串提取程序,所述字符串提取程序被处理器执行时实现如上文所述的字符串提取方法的步骤。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参照图7,图7为本发明字符串提取装置第一实施例的结构框图。
如图7所示,本发明实施例提出的字符串提取装置包括:模板确定模块10、字符确定模块20以及字符串提取模块30。
所述模板确定模块10,用于在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板。
所述字符确定模块20,用于根据所述字符提取模板确定待识别图像中的字符节点。
所述字符串提取模块30,用于基于所述字符节点与所述字符提取模板提取对应的字符串。
本实施例通过在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板,根据所述字符提取模板确定待识别图像中的字符节点,基于所述字符节点与所述字符提取模板提取对应的字符串。本实施例通过设置好字符提取模板,根据字符提取模板确定对应数量的字符节点,将获得的字符节点按照字符提取模板进行提取字符串,使得在面对复杂字符串时也可以进行字符提取,避免了面对较为数量较多的字符串识别整合效率较低,难以满足用户需求的技术问题,提高了字符识别的成功率以及字符识别效率。
在一实施例中,所述字符串提取模块30,还用于提取所述字符提取模板中的模板节点;将所述字符节点与所述模板节点进行匹配,并根据匹配结果提取对应的字符串。
在一实施例中,所述字符串提取模块30,还用于遍历所述模板节点,并将遍历得到的模板节点作为目标模板节点;将所述目标模板节点与所述字符节点进行匹配,获得匹配结果;根据所述匹配结果将所述模板节点与所述字符节点对应连接,并获取所述匹配结果对应的节点连接距离;根据所述节点连接距离与所述匹配结果提取对应的字符串。
在一实施例中,所述字符串提取模块30,还用于基于预设节点偏差距离对所述节点连接距离进行筛选,获得目标节点连接距离;根据所述目标节点连接距离与所述匹配结果提取对应的字符串。
在一实施例中,所述字符串提取模块30,还用于根据匹配结果将所述模板节点与所述字符节点对应连接,并确定所述匹配结果对应的投影变换矩阵;通过所述投影变换矩阵确定待识别图像中模板节点像素坐标与字符节点像素坐标;基于所述模板节点像素坐标与所述字符节点像素坐标确定对应的节点连接距离。
在一实施例中,所述模板确定模块10,还用于在接收到字符提取指令时,根据所述字符提取指令确定节点数量信息与节点位置信息;根据所述节点数量信息与所述节点位置信息确定字符提取模板。
在一实施例中,所述字符串提取模块30,还用于获取所述字符串中的字符偏移距离与字符平均高度;根据所述字符偏移距离与所述字符平均高度对所述字符串进行评分,获得评分结果;根据所述评分结果对字符串进行位置调整,并将调整后的字符串进行显示。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的字符串提取方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种字符串提取方法,其特征在于,所述字符串提取方法包括:
在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板;
根据所述字符提取模板确定待识别图像中的字符节点;
基于所述字符节点与所述字符提取模板提取对应的字符串;
在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板的步骤,包括:
在接收到字符提取指令时,根据所述字符提取指令确定节点数量信息与节点位置信息,所述节点位置信息包括:字符空间位置、字符中心位置、节点框信息以及字符缩放信息,所述字符缩放信息用于确定节点距离;
根据所述节点数量信息与所述节点位置信息确定字符提取模板;
所述基于所述字符节点与所述字符提取模板提取对应的字符串的步骤,包括:
提取所述字符提取模板中的模板节点;
将所述字符节点与所述模板节点进行匹配,并根据匹配结果提取对应的字符串;
所述将所述字符节点与所述模板节点进行匹配,并根据匹配结果提取对应的字符串的步骤,包括:
遍历所述模板节点,并将遍历得到的模板节点作为目标模板节点;
将所述目标模板节点与所述字符节点进行匹配,获得匹配结果;
将所述匹配结果根据二分图最大完备匹配进行结果筛选,获得筛选匹配结果;
根据所述筛选匹配结果将所述模板节点与所述字符节点对应连接,并获取所述筛选匹配结果对应的节点连接距离;
根据所述节点连接距离与所述筛选匹配结果提取对应的字符串。
2.如权利要求1所述的字符串提取方法,其特征在于,所述将所述字符节点与所述模板节点进行匹配,并根据匹配结果提取对应的字符串,包括:
遍历所述模板节点,并将遍历得到的模板节点作为目标模板节点;
将所述目标模板节点与所述字符节点进行匹配,获得匹配结果;
根据所述匹配结果将所述模板节点与所述字符节点对应连接,并获取所述匹配结果对应的节点连接距离;
根据所述节点连接距离与所述匹配结果提取对应的字符串。
3.如权利要求2所述的字符串提取方法,其特征在于,所述根据所述节点连接距离与所述匹配结果提取对应的字符串,包括:
基于预设节点偏差距离对所述节点连接距离进行筛选,获得目标节点连接距离;
根据所述目标节点连接距离与所述匹配结果提取对应的字符串。
4.如权利要求2所述的字符串提取方法,其特征在于,所述根据所述匹配结果将所述模板节点与所述字符节点对应连接,并获取所述匹配结果对应的节点连接距离,包括:
根据匹配结果将所述模板节点与所述字符节点对应连接,并确定所述匹配结果对应的投影变换矩阵;
通过所述投影变换矩阵确定待识别图像中模板节点像素坐标与字符节点像素坐标;
基于所述模板节点像素坐标与所述字符节点像素坐标确定对应的节点连接距离。
5.如权利要求1-4任一项所述的字符串提取方法,其特征在于,所述基于所述字符节点与所述字符提取模板提取对应的字符串之后,还包括:
获取所述字符串中的字符偏移距离与字符平均高度;
根据所述字符偏移距离与所述字符平均高度对所述字符串进行评分,获得评分结果;
根据所述评分结果对字符串进行位置调整,并将调整后的字符串进行显示。
6.一种字符串提取装置,其特征在于,所述字符串提取装置包括:
模板确定模块,用于在接收到字符提取指令时,根据所述字符提取指令确定字符提取模板;
字符确定模块,用于根据所述字符提取模板确定待识别图像中的字符节点;
字符串提取模块,用于基于所述字符节点与所述字符提取模板提取对应的字符串;
所述模板确定模块,还用于在接收到字符提取指令时,根据所述字符提取指令确定节点数量信息与节点位置信息;根据所述节点数量信息与所述节点位置信息确定字符提取模板,所述节点位置信息包括:字符空间位置、字符中心位置、节点框信息以及字符缩放信息,所述字符缩放信息用于确定节点距离;
所述字符串提取模块,还用于所述基于所述字符节点与所述字符提取模板提取对应的字符串的步骤,包括:提取所述字符提取模板中的模板节点;将所述字符节点与所述模板节点进行匹配,并根据匹配结果提取对应的字符串;所述将所述字符节点与所述模板节点进行匹配,并根据匹配结果提取对应的字符串的步骤,包括:遍历所述模板节点,并将遍历得到的模板节点作为目标模板节点;将所述目标模板节点与所述字符节点进行匹配,获得匹配结果;将所述匹配结果根据二分图最大完备匹配进行结果筛选,获得筛选匹配结果;根据所述筛选匹配结果将所述模板节点与所述字符节点对应连接,并获取所述筛选匹配结果对应的节点连接距离;根据所述节点连接距离与所述筛选匹配结果提取对应的字符串。
7.一种字符串提取设备,其特征在于,所述字符串提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的字符串提取程序,所述字符串提取程序配置为实现如权利要求1至5中任一项所述的字符串提取方法。
8.一种存储介质,其特征在于,所述存储介质上存储有字符串提取程序,所述字符串提取程序被处理器执行时实现如权利要求1至5任一项所述的字符串提取方法。
CN202210089244.6A 2022-01-26 2022-01-26 字符串提取方法、装置、设备及存储介质 Active CN114120016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210089244.6A CN114120016B (zh) 2022-01-26 2022-01-26 字符串提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210089244.6A CN114120016B (zh) 2022-01-26 2022-01-26 字符串提取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114120016A CN114120016A (zh) 2022-03-01
CN114120016B true CN114120016B (zh) 2022-05-27

Family

ID=80361126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210089244.6A Active CN114120016B (zh) 2022-01-26 2022-01-26 字符串提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114120016B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5647916B2 (ja) * 2010-02-26 2015-01-07 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN105260733A (zh) * 2015-09-11 2016-01-20 北京百度网讯科技有限公司 用于处理图像信息的方法和装置
CN111898623B (zh) * 2019-05-05 2023-09-05 杭州海康威视数字技术股份有限公司 一种字符识别方法、装置及电子设备
CN112507758A (zh) * 2019-09-16 2021-03-16 深圳中兴网信科技有限公司 答题卡字符串识别方法、装置、终端和计算机存储介质
CN113191348B (zh) * 2021-05-31 2023-02-03 山东新一代信息产业技术研究院有限公司 一种基于模板的文本结构化提取方法及工具

Also Published As

Publication number Publication date
CN114120016A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
US10762376B2 (en) Method and apparatus for detecting text
US10878372B2 (en) Method, system and device for association of commodities and price tags
CN108563559A (zh) 一种验证码的测试方法、装置、终端设备及存储介质
CN112328348A (zh) 应用程序多语言支持方法、装置、计算机设备及存储介质
CN111340020B (zh) 一种公式识别方法、装置、设备及存储介质
CN110675940A (zh) 病理图像标注方法、装置、计算机设备及存储介质
CN110543877A (zh) 标识识别方法及其模型的训练方法、装置和电子系统
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN112381010A (zh) 表格结构的还原方法、系统、计算机设备及存储介质
CN112036362A (zh) 图像处理方法、装置、计算机设备和可读存储介质
CN111209909B (zh) 资质识别模板构建方法、装置、设备和存储介质
WO2020156553A1 (zh) 二维码定位框识别方法、装置、电子设备及存储介质
CN110672102B (zh) 视觉辅助机器人初始化定位方法、机器人及可读存储介质
US11442982B2 (en) Method and system for acquiring data files of blocks of land and of building plans and for making matches thereof
CN114494751A (zh) 证照信息识别方法、装置、设备及介质
CN116682130A (zh) 图签信息的提取方法、装置、设备及可读存储介质
CN114529933A (zh) 一种合同数据差异性的比对方法、装置、设备和介质
WO2021179751A1 (zh) 图像处理方法和系统
CN114120016B (zh) 字符串提取方法、装置、设备及存储介质
CN109919164B (zh) 用户界面对象的识别方法及装置
CN109213515B (zh) 多平台下埋点归一方法及装置和电子设备
CN110688995A (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
JP2016025625A (ja) 情報処理装置、情報処理方法及びプログラム
CN111695441B (zh) 图像文档处理方法、装置及计算机可读存储介质
CN110059572B (zh) 基于单字匹配的文档图像中文关键词检测方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant