CN116052176A - 一种基于级联多任务学习的文本抽取方法 - Google Patents
一种基于级联多任务学习的文本抽取方法 Download PDFInfo
- Publication number
- CN116052176A CN116052176A CN202310013443.3A CN202310013443A CN116052176A CN 116052176 A CN116052176 A CN 116052176A CN 202310013443 A CN202310013443 A CN 202310013443A CN 116052176 A CN116052176 A CN 116052176A
- Authority
- CN
- China
- Prior art keywords
- text
- vector set
- coordinate system
- extraction method
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请实施例涉及图像文本处理技术领域,公开了一种基于级联多任务学习的文本抽取方法,该方法首先通过对目标图像进行边界分割得到文本区,然后在文本区内随机建立参考坐标系,再基于参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P,最后再对文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息,在对图像文本进行模型识别时采用双向模型识别的方式进行,有效降低了模型识别过程中的词组联想、词组记忆等导致的识别错误,提高了文本提取效率以及提取准确率。
Description
技术领域
本发明涉及图像文本处理技术领域,具体涉及一种基于级联多任务学习的文本抽取方法。
背景技术
随着人工智能技术的发展,图像识别受到了越来越多的关注,并且其应用越来越广泛。如应用在远程或线上医疗领域,线上医生为进一步诊断需要了解患者的检验报告单,而医生通过图片直接查看报告单的效率较低并且再次编辑检验报告单的效率也较低,因此,通常需要将报告单图像中的文本进行提取形成可编辑的文本信息。现有的图像文本提取大多采用按规则顺序(单向)提取录入的方式进行,效率低且可能存在大量的录入错误。
发明内容
本发明的主要目的是提供一种基于级联多任务学习的文本抽取方法、电子设备及计算机可读存储介质,旨在解决现有技术中文本提取效率低以及提取准确率低的技术问题。
为实现上述目的,第一方面,本申请实施例中提供了一种基于级联多任务学习的文本抽取方法,所述基于级联多任务学习的文本抽取方法包括:
获取待提取文本信息的目标图像,并对所述目标图像进行边界分割得到文本区,其中,所述文本区包括以文本起始位置和结束位置的连线为对角线组成的矩形区域;
以第m行及第n列的文本中心为坐标原点对所述矩形区域建立第一参考坐标系,其中,m为小于或等于所述文本区内文本行数M的随机自然数,n为小于或等于所述文本区内文本列数N的随机自然数;
基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P{(-1,-2,文本1),...,(0,0,文本2),(0,1,文本3),...,(M,N,文本Z)};
对所述文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息。
优选地,所述起始位置为紧靠第一列文本的假想竖线与紧靠第一行文本的假想横线的交点,所述结束位置为紧靠最后一列文本的假想竖线与紧靠最后一行文本的假想横线的交点。
优选地,所述基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P的步骤包括:
对坐标系正方向的文本按照正序相邻位置逐一遍历识别得到正向文本向量集P1;
对坐标系反方向的文本按照反序相邻位置逐一遍历识别得到反向文本向量集P2;
对所述正向文本向量集P1及反向文本向量集P2进行并运算处理得到文本向量集P。
优选地,所述基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P的步骤之后还包括:
对所述文本向量集P进行随机校验矫正并得到校验准确度;
确定所述校验准确度大于或等于预设值,输出矫正后的文本向量集P。
优选地,所述对所述文本向量集P进行随机校验矫正并得到校验准确度的步骤包括:
以第m’行及第n’列的文本中心为坐标原点对所述矩形区域建立第二参考坐标系,其中,m’为小于或等于所述文本区内文本行数M的随机自然数,n’为小于或等于所述文本区内文本列数N的随机自然数,并且m’与m不相等,n’与n不相等;
基于所述第二参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P’{(-1,-2,文本1’),...,(0,0,文本2’),(0,1,文本3’),...,(M,N,文本Z’)};
根据所述文本向量集P’对所述文本向量集P进行校验矫正。
优选地,所述根据所述文本向量集P’对所述文本向量集P进行校验矫正的步骤包括:
获取第二参考坐标系与第一坐标系的随机变化步长(m’-m,n’-n)
基于所述随机变化步长(m’-m,n’-n)对文本向量集P’内的独立文本向量进行向量加减运算得到文本向量集P’’;
将文本向量集P’’与文本向量集P进行一一比对校验并矫正。
优选地,所述对所述文本向量集P进行随机校验矫正并得到校验准确度的步骤之后还包括:
确定所述校验准确度小于预设值,对所述矫正后的文本向量集P进行镜像校验矫正,并输出镜像校验矫正的文本向量集P。
优选地,所述对所述文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息的步骤包括:
对所述文本向量集P内的独立文本向量进行一级任务学习得到一级结构化文本,其中,所述一级任务学习包括基于所述第一参考系进行正序排列;
对所述文本向量集P内的独立文本向量进行二级任务学习得到二级结构化文本,其中,所述二级任务学习包括对预设的特定文本进行特殊标记;
对所述文本向量集P内的独立文本向量进行三级任务学习得到三级结构化文本,其中,所述三级任务学习包括对预设的隐私文本进行隐藏处理。
第二方面,本申请实施例中还提供了一种电子设备,包括:处理器及存储器;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行第一方面所述的基于级联多任务学习的文本抽取方法。
第三方面,本申请实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述基于级联多任务学习的文本抽取方法的步骤。
区别于现有技术,本申请实施例提供的基于级联多任务学习的文本抽取方法,首先通过对目标图像进行边界分割得到文本区,然后在文本区内随机建立参考坐标系,再基于参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P,最后再对文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息,也即,在对图像文本进行模型识别时采用双向模型识别的方式进行,有效降低了模型识别过程中词组联想、词组记忆等导致识别错误的影响,如此,有利于兼顾文本提取效率以及提取准确率,同时对文本向量集P进行多任务学习处理得到结构化文本信息,可根据用户需求直接获取用户所需要的文本信息,提高了文本信息的查阅及再编辑效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本申请一些实施例中图像文本识别提取结构示意图;
图2为本申请一些实施例中文本提取方法的流程示意图;
图3为本申请一些实施例中方法步骤S300的具体方法流程示意图;
图4本申请另一些实施例中文本提取方法的流程示意图;
图5为本申请一些实施例中方法步骤S500的具体方法流程示意图;
图6为本申请一些实施例中方法步骤S530的具体方法流程示意图;
图7为本申请一些实施例中方法步骤S400的具体方法流程示意图;
图8为本申请一些实施例中文本抽取电子设备的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,全文中的“和/或”包括三个方案,以A和/或B为例,包括A技术方案、B技术方案,以及A和B同时满足的技术方案;另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
图像作为一种文本固定化的信息提供对象,其内部信息无法进行有效地再次编辑、标记等操作,给使用者造成很大的困扰,如在远程医疗领域,线上医生为进一步诊断需要了解患者的原来检验报告单(手写或机打报告),患者上传报告单后医生通过图片直接查看报告单的效率较低并且再次编辑检验报告单的效率也较低,因此,为提高阅读的效率及再编辑效率,需要将图像文本转换成可编辑的文字文本,基于此,本申请提供一种基于级联多任务学习的文本抽取方法,该文本抽取方法可以应用于各类图像文本的提取,如发票文本信息、车票文本信息、身份证文本信息以及体检报告单文本信息等图像文本的提取,文本信息又可以包括数字文本及文字文本信息等。
本申请发明人所知晓的一些文本提取方法,对文本提取处理较为简单,例如采用固定的识别顺序对文本进行识别提取,而这种提取方法为了提高提取效率一般会对识别对象采用词组联想、词组记忆学习等手段,例如,在之前(以往)的图像识别过程中,识别到很多频次的“中国”,该识别过程会记录在学习识别模型中(可以设定预设次数,达到预设次数记录在识别模型中),因此,在新的识别任务过程中,当识别到“中”字时,对于下一个的文本识别,识别算法模型会优先以“国”来对该文本进行识别匹配,而当新识别任务的文本为“围”、“图”等与“国”相似的文本时,优先以“国”进行识别匹配增加了识别的错误概率(与优先以“围”进行识别匹配相比),因此,现有的文本提取方法在识别效率及识别准确度方面存在一定的矛盾;同样,在采用词组联想识别算法模型时也存在此类情况。
针对上述问题,本申请实施例提供了基于级联多任务学习的文本抽取方法,以下将主要描述基于级联多任务学习的文本抽取方法的具体步骤,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。请参阅附图1-2,所述基于级联多任务学习的文本抽取方法包括:
S100、获取待提取文本信息的目标图像,并对所述目标图像进行边界分割得到文本区,其中,所述文本区包括以文本起始位置和结束位置的连线为对角线组成的矩形区域;
S200、以第m行及第n列的文本中心为坐标原点对所述矩形区域建立第一参考坐标系,其中,m为小于或等于所述文本区内文本行数M的随机自然数,n为小于或等于所述文本区内文本列数N的随机自然数;
S300、基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P{(-1,-2,文本1),...,(0,0,文本2),(0,1,文本3),...,(M,N,文本Z)};
S400、对所述文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息。
具体地,获取待提取文本信息目标图像的方式有很多,如在远程医疗领域,患者可以自行在系统上上传报告单图片,再如在保险行业,工作人员可以将基础保单进行拍照获得图像等;而对文本区进行分割得到文本区可以通过识别文字区域与空白区域的边界进行分割,将空白区域分割出去即可得到文本区域,本申请实施例中,文本的起始位置为紧靠第一列文本的假想竖线与紧靠第一行文本的假想横线的交点,结束位置为紧靠最后一列文本的假想竖线与紧靠最后一行文本的假想横线的交点;如附图1所示,该起始位置的假想竖线在第一列文本的左方,假想横线在第一行文本的上方,该结束位置的假想竖线在最后一列文本的右方,假想横线在最后一行文本的下方。可以理解,这种文本分割方法可以保证每个文本都在此区域内,并且不会扩大文本区的范围,这种文本分割方法有利于提高文本抽取的整体效率。需要说明的是,文本边界分割采用现有的AI技术进行,其具体方法这里不再赘述。
在进行文本划分之后,系统可以自动识别到文本区域内文本的行数,以M进行表示,以及文本区域内文本的列数,以N进行表示。本申请实施例中,在文本区域分割后,采用随机数算法在1-M之间随机选取一个自然数m,在1-N之间随机选取一个自然数n,以(m,n)为坐标原点建立第一坐标系,如附图1所示的坐标系O1,本申请实施例,以数字0表示坐标系(原点)所在的第一行或第一列,在其他实施例中,还可以用数字1表示坐标系(原点)所在的第一行或第一列。
基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P,双向识别包括正序及反序识别,所谓正序是指按照坐标值的大小由小到大的顺序逐一识别,所谓反序是指按照坐标值的大小由大到小的顺序逐一识别;例如,待提取文本为“我爱你中国”(一行五列文本),随机坐标原点为(1,3),即以“你”为坐标原点,本申请实施例中,在“你”后方的文本采用正序进行逐一识别,在“你”前方的文本采用反序进行逐一识别,则文本向量集P为{(0,-2,我),(0,-1,爱),(0,0,你),(0,1,中),(0,2,国)};同样,多行多列可以用同样的向量进行表示,在遇到空白文本时,以00表示,如(1,1,00),表明坐标(1,1)的位置为空白文本,即不存在任何文字或数字文本;在遇到数字文本时,以相应的数字表示,如(1,1,12),表明坐标(1,1)的位置为数字12。
可以理解,采用反序识别的方式,可以将关联的词组或语句拆分开,使得在模型识别过程中降低词组、语句被关联识别的概率,从而提高了识别的准确性,例如,在识别“中国”时,如果采用正序识别,在识别到“中”字后启用记忆识别,此时识别“国”的错误率将提高,而采用反序识别,优先识别“国”,再去识别“中”,也许可能在识别到“国”后,系统以“国家”为学习记忆模型,但是“家”与“中”的形体及笔画相差很大,因此识别出“中”的错误率将很低很低;从而,可以看出,采用正序识别,识别效率较高,但是准确性较低,而采用反序识别,识别效率可能较低,但是识别准确性较高。
在文本识别形成文本向量集P后,对所述文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息,即得到用户所需要的文本;后面的实施例将具体介绍如何得到用户所需的结构化文本信息,这里不做具体介绍。
于此,本技术方案,首先通过对目标图像进行边界分割得到文本区,然后在文本区内随机建立参考坐标系,再基于参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P,最后再对文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息,也即,在对图像文本进行模型识别时采用双向模型识别的方式进行,有效降低了模型识别过程中的词组联想、词组记忆等导致的识别错误,如此,同时兼顾了文本提取效率以及提取准确率,并且同时对文本向量集P进行多任务学习处理得到结构化文本信息,可根据用户需求直接获取用户所需要的文本信息,提高了文本信息的查阅及再编辑效率。
请参阅附图3,本实施例中,所述S300的步骤包括:
S310、对坐标系正方向的文本按照正序相邻位置逐一遍历识别得到正向文本向量集P1;
S320、对坐标系反方向的文本按照反序相邻位置逐一遍历识别得到反向文本向量集P2;
S330、对所述正向文本向量集P1及反向文本向量集P2进行并运算处理得到文本向量集P。
本申请实施例中,对坐标系正方向的文本按照正序相邻位置逐一遍历识别得到正向文本向量集P1,即以折弯型的识别顺序进行先后识别,如附图1所示的识别箭头(正序识别见实线);在其他实施例中,也可以先以行进行正序识别,再以列进行正序识别,即先识别坐标系下第一行、第二行直到最后一行结束,而针对每行的识别是以列正序进行识别,即先识别坐标系下的第一列、第二列直到最后一列结束。
同样,对坐标系反方向的文本按照反序相邻位置逐一遍历识别得到反向文本向量集P2,如附图1所示的识别箭头(正序识别见实线);
在其他实施例中,也可以先以行进行反序识别,再以列进行反序识别,即先识别坐标系下第一行、第负一行直到负最后一行结束,而针对每行的识别是以列反序进行识别,即先识别坐标系下的第一列、第负一列直到负最后一列结束。
为进一步提高文本识别的准确性,请参阅附图4,本实施例中,所述S300的步骤之后还包括:
S500、对所述文本向量集P进行随机校验矫正并得到校验准确度;
S600、确定所述校验准确度大于或等于预设值,输出矫正后的文本向量集P。
具体地,对文本向量集P进行随机校验矫正处理的方法有很多,例如,随机选择任意一个或任意几个文本向量集P内的独立文本向量进行再次识别校验,若两次识别有差异,以第二次识别的结果进行矫正;当进行多个独立文本向量校验时,还需要在校验结束后计算得出校验的准确度,在确定校验准确度低于预设值时需要采取进一步的措施,如重新识别等,而在确定校验准确度大于或等于预设值,输出矫正后的文本向量集P作为最终的文本向量集参与进行级联多任务学习得到结构化文本信息。
可以理解,当校验准确度小于预设值时,识别的准确度可能就达不到用户对识别文本的实际需求,因此,本申请实施例中,在确定校验准确度小于预设值时,对所述矫正后的文本向量集P进行镜像校验矫正,并输出镜像校验矫正的文本向量集P。所谓像校验矫正是将文本向量集P内的文字信息镜像对称后输入至预算训练的镜像文字模型内进行进一步的模型匹配,若镜像后的文字与模型内的文字一致时,说明对该文字的识别没有错误,若镜像后的文字与模型内的文字不一致时,说明对该文字的识别错误,以镜像后的文字为正确的文字信息进行矫正,从而进一步提高文本提取的准确率。
请参阅附图5,本申请实施例采用一种更加先进的校验矫正方法来进一步提高识别的准确性,所述S500的步骤包括:
S510、以第m’行及第n’列的文本中心为坐标原点对所述矩形区域建立第二参考坐标系,其中,m’为小于或等于所述文本区内文本行数M的随机自然数,n’为小于或等于所述文本区内文本列数N的随机自然数,并且m’与m不相等,n’与n不相等;
S520、基于所述第二参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P’{(-1,-2,文本1’),...,(0,0,文本2’),(0,1,文本3’),...,(M,N,文本Z’)};
S530、根据所述文本向量集P’对所述文本向量集P进行校验矫正。
具体地,在第一次建立坐标按照文本模型双向遍历识别得到文本向量集P后,由于正序、反序识别长短的问题,可能还存在较大的识别错误,因此,本申请实施例中,再随机建立一次坐标系即随机坐标系,原点为(m’,n’),如附图1中的O2坐标系,该随机坐标系与第一坐标系为不同原点的第二坐标系,然后基于所述第二参考坐标系对文本区内的图像文本再次进行文本模型双向遍历识别得到文本向量集P’,最后根据所述文本向量集P’对所述文本向量集P进行校验矫正,如第二次识别的文本向量集P’与第一次识别的文本向量集P有差异时,以第二次识别的文本向量集P’为最后参与多任务学习的向量集;为进一步提高识别的准确性,在其他实施例中,可以再一次进行随机识别,即进行第三次的坐标随机再次进行双向遍历识别,以三次结果进行更优的校验矫正,例如以三次识别中两次以上(包含两次)识别到的相同结果为最终结果,如对“国”进行三次识别时,两次识别到“国”,一次识别到“围”,则以识别到的“国”为最终的识别结果。
当随机建立第二坐标系双向识别得到文本向量集P’后,文本向量集P’如何与第一次双向识别得到文本向量集P建立联系进行校验矫正,成为客观存在的技术问题,请参阅附图6,所述S530的步骤包括:
S5310、获取第二参考坐标系与第一坐标系的随机变化步长(m’-m,n’-n);
S5320、基于所述随机变化步长(m’-m,n’-n)对文本向量集P’内的独立文本向量进行向量加减运算得到文本向量集P’’;
S5330、将文本向量集P’’与文本向量集P进行一一比对校验并矫正。
具体地,首先计算第二参考坐标系相对于第一坐标系的随机变化步长,然后基于所述随机变化步长(m’-m,n’-n)对第二次识别得到的文本向量集P’内的独立文本向量进行向量加减运算得到文本向量集P’,如针对同一绝对位置的文本,第一坐标下的识别文本可能为(2,3,值),第二坐标下的相识别文本可能为(3,8,植),因此在第二坐标下识别文本为(3,8,植)的基础上,计算坐标系的变化步长并将(3,8,植)与(2,3,值)进行向量减运算,来使得第二次的文本位置与第一次的文本位置相同,如将(3,8,植)进行向量运算后得到(2,3,植)的向量,即得到“值”与“植”为同位置下的两次识别结果,最后将同位置下的“值”与“植”进行比较并矫正,比较矫正的形式与方法与上述相同,这里不再赘述。
为使得用户得到所需的结构化文本信息,这里所说的所需包括正确无误的识别文本及利于用户阅读甚至再编辑所需的文本信息,请参阅附图7,所述对所述S400:文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息的步骤包括:
S410、对所述文本向量集P内的独立文本向量进行一级任务学习得到一级结构化文本,其中,所述一级任务学习包括基于所述第一参考系进行正序排列;
S420、对所述文本向量集P内的独立文本向量进行二级任务学习得到二级结构化文本,其中,所述二级任务学习包括对预设的特定文本进行特殊标记;
S430、对所述文本向量集P内的独立文本向量进行三级任务学习得到三级结构化文本,其中,所述三级任务学习包括对预设的隐私文本进行隐藏处理。
具体地,在得到文本向量集P后,将独立文本向量按照正序进行排列,然后分别提取出对应的文本信息,从而形成与图像文本顺序相同的可编辑文本信息,可以将该可编辑文本输入至预设的文本框内或可编辑文档内供用户使用;同时可以将特定文本进行特殊标记,如在远程医疗领域,对患者的病症部分进行特殊标记,以方便远程医生进行阅读及再编辑;同时可以将用户的隐私部分进行隐藏处理,该隐藏处理可以根据系统设置进行,如可以设定将患者的性生活次数进行隐藏,以保护患者的隐私,当医生需要时,可以主动联系患者进行针对性的询问。可以理解,三级任务的学习可以在独立文本向量被形成时即可同时进行,通过此方式可以提高文本提取的整体效率以及提高文本信息的查阅及再编辑效率。
本申请实施例还提供了一种文本提取电子设备100,请参阅附图8,图8为本申请实施例提供的文本提取电子设备100的硬件结构示意图。
其中,处理器101用于提供计算和控制能力,以文本提取电子设备执行相应任务,例如,控制电子设备执行上述任一方法实施例中的文本提取的方法,该方法包括:获取待提取文本信息的目标图像,并对所述目标图像进行边界分割得到文本区,其中,所述文本区包括以文本起始位置和结束位置的连线为对角线组成的矩形区域;
以第m行及第n列的文本中心为坐标原点对所述矩形区域建立第一参考坐标系,其中,m为小于或等于所述文本区内文本行数M的随机自然数,n为小于或等于所述文本区内文本列数N的随机自然数;
基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P{(-1,-2,文本1),...,(0,0,文本2),(0,1,文本3),...,(M,N,文本Z)};
对所述文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息。
处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、硬件芯片或者其任意组合;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(genericarray logic,GAL)或其任意组合。
存储器102作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块,如本申请实施例中的文本提取的方法对应的程序指令/模块。处理器101通过运行存储在存储器102中的非暂态软件程序、指令以及模块,可以实现上述任一方法实施例中的文本提取的方法。
具体地,存储器102可以包括易失性存储器(volatile memory,VM),例如随机存取存储器(random access memory, RAM);存储器102也可以包括非易失性存储器(non-volatile memory,NVM),例如只读存储器(read-only memory, ROM),快闪存储器(flashmemory),硬盘(hard disk drive, HDD)或固态硬盘(solid-state drive, SSD)或其他非暂态固态存储器件;存储器102还可以包括上述种类的存储器的组合。
综上所述,本电子设备采用了上述任意一个文本提取的方法实施例的技术方案,因此,至少具有上述实施例的技术方案所带来的有益效果,在此不再一一赘述。
本申请实施例还提供了一种计算机可读存储介质,例如包括程序代码的存储器,上述程序代码可由处理器执行以完成上述实施例中的文本提取的方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory ,ROM)、随机存取存储器(RandomAccess Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CDROM)、磁带、软盘和光数据存储设备等。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括一条或多条程序代码,该程序代码存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,以完成上述实施例中提供的文本提取的方法步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来程序代码相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
需要说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random Access Memory, RAM)等。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种基于级联多任务学习的文本抽取方法,其特征在于,包括:
获取待提取文本信息的目标图像,并对所述目标图像进行边界分割得到文本区,其中,所述文本区包括以文本起始位置和结束位置的连线为对角线组成的矩形区域;
以第m行及第n列的文本中心为坐标原点对所述矩形区域建立第一参考坐标系,其中,m为小于或等于所述文本区内文本行数M的随机自然数,n为小于或等于所述文本区内文本列数N的随机自然数;
基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P{(-1,-2,文本1),...,(0,0,文本2),(0,1,文本3),...,(M,N,文本Z)};
对所述文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息。
2.如权利要求1所述的基于级联多任务学习的文本抽取方法,其特征在于,所述起始位置为紧靠第一列文本的假想竖线与紧靠第一行文本的假想横线的交点,所述结束位置为紧靠最后一列文本的假想竖线与紧靠最后一行文本的假想横线的交点。
3.如权利要求2所述的基于级联多任务学习的文本抽取方法,其特征在于,所述基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P的步骤包括:
对坐标系正方向的文本按照正序相邻位置逐一遍历识别得到正向文本向量集P1;
对坐标系反方向的文本按照反序相邻位置逐一遍历识别得到反向文本向量集P2;
对所述正向文本向量集P1及反向文本向量集P2进行并运算处理得到文本向量集P。
4.如权利要求1所述的基于级联多任务学习的文本抽取方法,其特征在于,所述基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P的步骤之后还包括:
对所述文本向量集P进行随机校验矫正并得到校验准确度;
确定所述校验准确度大于或等于预设值,输出矫正后的文本向量集P。
5.如权利要求4所述的基于级联多任务学习的文本抽取方法,其特征在于,所述对所述文本向量集P进行随机校验矫正并得到校验准确度的步骤包括:
以第m’行及第n’列的文本中心为坐标原点对所述矩形区域建立第二参考坐标系,其中,m’为小于或等于所述文本区内文本行数M的随机自然数,n’为小于或等于所述文本区内文本列数N的随机自然数,并且m’与m不相等,n’与n不相等;
基于所述第二参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P’{(-1,-2,文本1’),...,(0,0,文本2’),(0,1,文本3’),...,(M,N,文本Z’)};
根据所述文本向量集P’对所述文本向量集P进行校验矫正。
6.如权利要求5所述的基于级联多任务学习的文本抽取方法,其特征在于,所述根据所述文本向量集P’对所述文本向量集P进行校验矫正的步骤包括:
获取第二参考坐标系与第一坐标系的随机变化步长(m’-m,n’-n)
基于所述随机变化步长(m’-m,n’-n)对文本向量集P’内的独立文本向量进行向量加减运算得到文本向量集P’’;
将文本向量集P’’与文本向量集P进行一一比对校验并矫正。
7.如权利要求4所述的基于级联多任务学习的文本抽取方法,其特征在于,所述对所述文本向量集P进行随机校验矫正并得到校验准确度的步骤之后还包括:
确定所述校验准确度小于预设值,对所述矫正后的文本向量集P进行镜像校验矫正,并输出镜像校验矫正的文本向量集P。
8.如权利要求1所述的基于级联多任务学习的文本抽取方法,其特征在于,所述对所述文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息的步骤包括:
对所述文本向量集P内的独立文本向量进行一级任务学习得到一级结构化文本,其中,所述一级任务学习包括基于所述第一参考系进行正序排列;
对所述文本向量集P内的独立文本向量进行二级任务学习得到二级结构化文本,其中,所述二级任务学习包括对预设的特定文本进行特殊标记;
对所述文本向量集P内的独立文本向量进行三级任务学习得到三级结构化文本,其中,所述三级任务学习包括对预设的隐私文本进行隐藏处理。
9.一种电子设备,其特征在于,包括:处理器及存储器;其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1至8任一项所述的基于级联多任务学习的文本抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的基于级联多任务学习的文本抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310013443.3A CN116052176A (zh) | 2023-01-05 | 2023-01-05 | 一种基于级联多任务学习的文本抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310013443.3A CN116052176A (zh) | 2023-01-05 | 2023-01-05 | 一种基于级联多任务学习的文本抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116052176A true CN116052176A (zh) | 2023-05-02 |
Family
ID=86114260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310013443.3A Pending CN116052176A (zh) | 2023-01-05 | 2023-01-05 | 一种基于级联多任务学习的文本抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052176A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116939292A (zh) * | 2023-09-15 | 2023-10-24 | 天津市北海通信技术有限公司 | 轨道交通环境下的视频文本内容监测方法及系统 |
-
2023
- 2023-01-05 CN CN202310013443.3A patent/CN116052176A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116939292A (zh) * | 2023-09-15 | 2023-10-24 | 天津市北海通信技术有限公司 | 轨道交通环境下的视频文本内容监测方法及系统 |
CN116939292B (zh) * | 2023-09-15 | 2023-11-24 | 天津市北海通信技术有限公司 | 轨道交通环境下的视频文本内容监测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180060652A1 (en) | Unsupervised Deep Representation Learning for Fine-grained Body Part Recognition | |
CN110442840B (zh) | 序列标注网络更新方法、电子病历处理方法及相关装置 | |
US11113609B2 (en) | Machine-learning system and method for identifying same person in genealogical databases | |
CN111898411A (zh) | 文本图像标注系统、方法、计算机设备和存储介质 | |
CN112633423B (zh) | 文本识别模型的训练方法、文本识别方法、装置及设备 | |
US20180365594A1 (en) | Systems and methods for generative learning | |
CN111192660B (zh) | 一种影像报告分析方法、设备及计算机存储介质 | |
CN115331769B (zh) | 基于多模态融合的医学影像报告生成方法及装置 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
JP2022501719A (ja) | 文字検出装置、文字検出方法及び文字検出システム | |
CN111738269A (zh) | 模型训练方法、图像处理方法及装置、设备、存储介质 | |
CN116052176A (zh) | 一种基于级联多任务学习的文本抽取方法 | |
CN109284497B (zh) | 用于识别自然语言的医疗文本中的医疗实体的方法和装置 | |
JP7422548B2 (ja) | ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置 | |
CN114241499A (zh) | 表格图片识别方法、装置、设备和可读存储介质 | |
CN112347997A (zh) | 一种试题检测识别方法、装置、电子设备及介质 | |
JP2007213433A (ja) | 文字検索装置 | |
JP4672692B2 (ja) | 単語認識システムおよび単語認識プログラム | |
CN113378852A (zh) | 关键点检测方法、装置、电子设备及存储介质 | |
CN112541900A (zh) | 基于卷积神经网络的检测方法、装置、计算机设备及存储介质 | |
CN115861920A (zh) | 基于方舱医院的病人异常识别方法、装置、服务器及存储介质 | |
CN112766314B (zh) | 解剖结构的识别方法、电子设备及存储介质 | |
CN111815651A (zh) | 一种人脸与身体肤色区域的分割方法、系统及设备 | |
CN112200774A (zh) | 图像识别设备 | |
CN112990181B (zh) | 文本识别的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |