CN113128603A - 一种文本分类方法、装置、设备和存储介质 - Google Patents

一种文本分类方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113128603A
CN113128603A CN202110440970.3A CN202110440970A CN113128603A CN 113128603 A CN113128603 A CN 113128603A CN 202110440970 A CN202110440970 A CN 202110440970A CN 113128603 A CN113128603 A CN 113128603A
Authority
CN
China
Prior art keywords
text
text detection
classified
detection box
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110440970.3A
Other languages
English (en)
Inventor
卜德飞
高凯珺
徐麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN202110440970.3A priority Critical patent/CN113128603A/zh
Publication of CN113128603A publication Critical patent/CN113128603A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法、装置、设备和存储介质。该方法包括:获取待检测图像中的待分类文本检测框;确定待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度;根据当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型确定待检测图像的文本类型。本发明实施例通过获取到待检测图像中包含所有文本框的待分类文本检测框,然后计算得到待分类文本检测框与每个目标文本检测框模板之间的当前匹配度,将当前匹配度最高的目标文本检测框模板的文本类型作为待检测图像的文本类型,相比于深度学习通过提取特征进行分类的方法,提高了文本分类的准确率。

Description

一种文本分类方法、装置、设备和存储介质
技术领域
本发明实施例涉及图像处理技术,尤其涉及一种文本分类方法、装置、设备和存储介质。
背景技术
随着深度学习的深入研究,图片分类任务逐渐成熟,在工业领域的应用也逐步展开,比如垃圾分类、表情识别、动物分类等等。目前的主流处理方法是,通过卷积神经网络对输入图像进行特征提取,然后利用softmax或其它概率函数对提取到的图像特征计算类别概率得分。上述任务的目标,特征有着较为明显的差异,得到的特征图也有明显的不同,得到的不同类别得分差异较大。
上述深度学习方法对于不同类别之间差异较小的任务,分类效果相对较差,比如文本表单的分类,不同表单的差异体现在不同的表单有着不同的表格排布。深度学习对此类目标检测特征差异不明显的任务检测效果不佳。
发明内容
有鉴于此,本发明提供一种文本分类方法、装置、设备和存储介质,提高了文本分类的准确率。
第一方面,本发明实施例提供了一种文本分类方法,包括:
获取待检测图像中的待分类文本检测框;
确定所述待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度;
根据所述当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型确定所述待检测图像的文本类型。
第二方面,本发明实施例还提供了一种文本分类装置,包括:
检测框获取模块,用于获取待检测图像中的待分类文本检测框;
匹配度确定模块,用于确定所述待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度;
文本类型确定模块,用于根据所述当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型确定所述待检测图像的文本类型。
第三方面,本发明实施例还提供了一种文本分类设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例中任一所述的文本分类方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的文本分类方法。
本发明实施例通过获取待检测图像中的待分类文本检测框;确定待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度;根据当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型确定待检测图像的文本类型。本发明实施例通过获取到待检测图像中包含所有文本框的待分类文本检测框,然后计算得到待分类文本检测框与每个目标文本检测框模板之间的当前匹配度,将当前匹配度最高的目标文本检测框模板的文本类型作为待检测图像的文本类型,相比于深度学习通过提取特征进行分类的方法,提高了文本分类的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的一种文本分类方法的流程图;
图2是本发明实施例提供的一种待分类文本检测框的显示示意图;
图3是本发明实施例提供的另一种文本分类方法的流程图;
图4是本发明实施例提供的又一种文本分类方法的流程图;
图5是本发明实施例提供的一种购车发票与购车发票模板之间的匹配结果示意图;
图6是本发明实施例提供的一种购车发票与二手车购车发票模板之间的匹配结果示意图;
图7是本发明实施例提供的一种二手车购车发票与购车发票模板之间的匹配结果示意图;
图8是本发明实施例提供的一种二手车购车发票与二手车购车发票模板之间的匹配结果示意图;
图9是本发明实施例提供的一种文本分类装置的结构示意图;
图10是本发明实施例提供的一种文本分类设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在一实施例中,图1是本发明实施例提供的一种文本分类方法的流程图,本实施例可适用于对文本进行分类的情况,该方法可以由本发明实施例中的文本分类装置来执行,该装置可采用软件和/或硬件的方式实现。其中,文本分类装置集成在文本分类设备中。其中,文本分类设备可以为计算机设备、笔记本电脑、ipad等终端设备。
如图1所示,该方法具体包括如下步骤:
S110、获取待检测图像中的待分类文本检测框。
其中,待检测图像指的是需要进行文本分类的图像。示例性地,待检测图像可以为发票图像、证件图像等包含文本的图像。当然,在实际操作过程中,对待检测图像的格式不作限定,示例性地,待检测图像的格式可以包括下述之一格式:jpg格式,bmp格式,png格式,tif格式,psd格式。在实际操作过程中,为了节省人力,提高数据处理效率,在对数据进行录入时,可以将需要录入信息的文件或文档进行图像采集,得到待检测图像。然后,通过文本识别技术对待检测图像中的文本进行识别,以实现数据的自动化录入。
在此需要说明的是,待检测图像的获取方式可以包括:直接从存储器中获取;直接采集图像作为待检测图像。其中,在采用直接从存储器中获取待检测图像的方式时,需预先将采集到的图像作为待检测图像,并将其存储在文本分类设备的存储器中,在接收到待检测图像的获取指令时,从存储器中查询并获取到所需的待检测图像;在采用直接采集图像作为待检测图像的方式时,在接收到待检测图像的获取指令时,通过图像采集设备(比如,摄像机、照相机等具备图像采集功能的终端设备;当然,也可以为文本分类设备中的图像采集模块(比如,摄像头))进行拍照,得到待检测图像。
在实施例中,待分类文本检测框指的是至少两个文本框的最小外接框。其中,文本框指的是对待检测图像中一组连续文本进行框选得到的检测框。可以理解为,文本框是每组连续文本对应的最小外接框,即文本框的大小与每组连续文本中所包含文本的数量有关,即文本框的尺寸与每组连续文本所包含文本的数量成正比。每组连续文本与文本框之间是一一对应关系,即一个待检测图像中,连续文本的组数与文本框的个数相同。在实际操作过程中,可以采用不同形状对一组连续文本进行框选,比如,可以为矩形,也可以为椭圆形等。
优选地,以文本框为矩形框,待分类文本检测框为矩形框为例,对文本框选的过程进行说明。示例性地,图2是本发明实施例提供的一种待分类文本检测框的显示示意图。如图2所示,待分类文本检测框10中包含7个文本框11,每个文本框11中包含一组连续文本。其中,每个文本框11中的“XXXXXX”表示的是所包含的连续文本。在对待检测图像中的每组连续文本进行框选之后,得到对应的文本框;然后对所有文本框的最小外接矩形进行框选,得到对应的待分类文本检测框。
示例性地,每个文本框中所包含的连续文本可以包括下述类型之一:文字;数字;符号;字母。当然,每个文本框中所包含的连续文本可以包括上述多个类型的框选,比如,可以包括:文字和数字;也可以包括:文字和字母,也可以包括:数字和字母,对此并不进行限定。
S120、确定待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度。
其中,文本检测框模板集合指的是包含多个目标文本检测框模板的集合。需要说明的是,文本检测框模板集合中所包含的多个目标文本检测框模板所对应的文本类型是不同的,即每个目标文本检测框模板对应一个文本类型。可以理解为,文本检测框模板集合中包含目标文本检测框模板的数量与文本类型的数量相同。
在实施例中,将待分类文本检测框与文本检测框模板集合中的每个目标文本检测框模板进行匹配,确定待分类文本检测框与每个目标文本检测框模板之间的匹配度,作为当前匹配度。
S130、根据当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型确定待检测图像的文本类型。
在实施例中,在计算得到待分类文本检测框与每个目标文本检测框模板之间的匹配度之后,将当前匹配度与预设匹配度阈值进行比对,确定大于预设匹配度阈值的目标文本检测框模板;在至少两个目标文本检测框模板的当前匹配度大于预设匹配度阈值时,将当前匹配度最高的目标文本检测框模板的文本类型作为待分类文本检测框的文本类型,即待检测图像的文本类型。当然,在只有一个目标文本检测框模板的当前匹配度大于预设匹配度阈值时,直接将该大于预设匹配度阈值的目标文本检测框模板的文本类型作为待分类文本检测框的文本类型,即待检测图像的文本类型。
当然,在目标文本检测框模板与待分类文本检测框之间的匹配度小于预设匹配度阈值的情况下,则该待分类文本检测框的文本类型未在预先创建的文本检测框模板集合中所包含的文本类型中。此时,可以向用户弹出提示框,以提醒用户待分类文本检测框的文本类型未在预先创建的文本检测框模板集合中所包含的文本类型中,并且可以提醒用户可以向后台服务器发送未成功识别的请求,以使后台服务器对文本检测框模板集合进行再次训练,以使文本检测框模板集合中可以尽可能包含更多目标文本检测框模板对应的文本类型。
本实施例的技术方案,通过获取到待检测图像中包含所有文本框的待分类文本检测框,然后计算得到待分类文本检测框与每个目标文本检测框模板之间的当前匹配度,将当前匹配度最高的目标文本检测框模板的文本类型作为待检测图像的文本类型,相比于深度学习通过提取特征进行分类的方法,提高了文本分类的准确率。
在一实施例中,图3是本发明实施例提供的另一种文本分类方法的流程图。本实施例是在上述实施例的基础上,对文本分类方法作进一步的说明。本实施中,以文本框和待分类文本检测框均为矩形框为例,对文本分类过程进行说明。
如图3所示,本实施例中的文本分类方法包括如下步骤:
S310、利用预先创建的文本检测模型对待检测图像中的待分类文本进行文本检测。
其中,文本检测模型指的是预先对大量文本进行训练得到的基于深度学习的神经网络模型。在实际操作过程中,文本检测模型的训练过程包括如下步骤:S1、获取包含所检验文本的图像;S2、采用矩形框标注出图像中的所有文本,并将一组连续的文本标注在同一个矩形框中;S3、采用已完成标注的训练数据,训练基于深度学习的神经网络模型,得到文本检测模型。
在实施例中,将待检测图像输入至预先创建的文本检测模型,利用文本检测模型对待检测图像中的待分类文本进行文本检测,即检测出待检测图像中待分类文本所对应的所有文本位置。
S320、对待分类文本中每组连续文本对应的文本框进行框选,构成对应的待分类文本检测框。
其中,每组连续文本与文本框之间是一一对应关系,待分类文本检测框可以包括一个文本框,也可以包括至少两个文本框,对此并不进行限定。在实施例中,利用文本检测模型得到待检测图像中每组连续文本对应的文本位置,然后对每组连续文本进行框选,得到对应的文本框;根据各个文本框的顶点坐标中的最大横坐标、最小横坐标、最大纵坐标和最小纵坐标,得到对应的待分类文本检测框。在实施例中,文本框为矩形框,即每个文本框存在四个顶点,且每个顶点对应有横坐标和纵坐标。在得到待检测图像中每个文本框对应的顶点坐标之后,识别提取待检测图像中各个文本框的顶点坐标中的最大横坐标、最小横坐标、最大纵坐标和最小纵坐标,并按照最大横坐标、最小横坐标、最大纵坐标和最小纵坐标对其进行框选,得到对应的待分类文本检测框。可以理解为,对待检测图像中的各个文本框进行外接框选,即可得到对应的待分类文本检测框。
S330、确定待分类文本检测框与每个原始文本检测框模板之间的尺寸缩放比例。
在实施例中,待分类文本检测框与每个原始文本检测框模板之间的尺寸缩放比例,指的是待分类文本检测框中的文本框与每个原始文本检测框模板中的文本框之间的尺寸缩放比例。其中,原始文本检测框模板指的是预先设计,且未被处理的原始文本检测框。可以理解为,原始文本检测框模板是根据不同类型的文本进行设计的模板,即不同类型的文本对应的原始文本检测框模板是不同的。当然,在实际操作过程中,为了保证所创建的原始文本检测框模板更能符合实际,可以预先收集一定量的表格图片,然后利用文本检测模型对这些表格图片进行文本检测,得到对应的多个文本检测框,然后计算所有文本检测框中同一位置文本框的坐标均值、宽度均值和长度均值,并利用该坐标均值、宽度均值和长度均值作为原始文本检测框模板中该位置文本框的坐标值、宽度值和长度值。依次类推,计算得到原始文本检测框模板中每个文本框的坐标值、和长度值。然后,对原始文本检测框模板中每个文本框进行外接框选,得到对应的原始文本检测框模板。示例性地,假设文本类型为购车发票,并且,获取三张购车发票(分别为A1、A2和A3)的图片,然后利用文本检测模型对三张购车发票进行文本检测,得到对应的文本检测框(分别为a1、a2和a3);然后分别获取三张购车发票中文本框B的坐标值、宽度和长度,并计算三张购车发票中文本框B的坐标值的平均值,宽度的平均值,以及长度的平均值。依次类推,计算出该购车发票中每个文本框的坐标值的平均值、宽度的平均值以及长度的平均值,并将该这三张购车发票中每个文本框的坐标值的平均值、宽度的平均值以及长度的平均值作为购车发票对应的原始文本检测框模板中每个文本框对应的坐标值、宽度值和长度值。
在一实施例中,确定待分类文本检测框与每个原始文本检测框模板之间的尺寸缩放比例,包括:根据原始文本检测框模板中所有文本框的长度均值和待分类文本检测框中所有文本框的长度均值,确定长度缩放比例;根据原始文本检测框模板中所有文本框的宽度均值和待分类文本检测框中所有文本框的宽度均值,确定宽度缩放比例;将长度缩放比例和所述宽度缩放比例作为待分类文本检测框与所对应的原始文本检测框模板之间的尺寸缩放比例。
在实施例中,采用预先创建的文本检测模型对待检测图像中的待分类文本进行文本检测,得到待分类文本中的所有文本框;并利用所有文本框组成待检测图像对应的待分类文本检测框;然后计算待分类文本检测框中所有文本框的长度均值和宽度均值,以及计算每个原始文本检测框模板中的所有文本框的长度均值和宽度均值;然后将待分类文本检测框中所有文本框的长度均值与原始文本检测框模板中的所有文本框的长度均值之间的比值作为长度缩放比例;以及将待分类文本检测框中所有文本框的宽度均值与原始文本检测框模板中的所有文本框的宽度均值之间的比值作为宽度缩放比例;然后,将长度缩放比例和宽度缩放比例作为待分类文本检测框与所对应的原始文本检测框模板之间的尺寸缩放比例。
S340、按照尺寸缩放比例对所对应的原始文本检测框模板进行尺寸调整,得到中间文本检测框模板。
在实施例中,按照长度缩放比例、宽度缩放比例对所对应的原始文本检测框模板的长度、宽度和坐标值进行缩放调整,得到中间文本检测框模板。在此需要说明的是,每个原始文本检测框模板与待分类文本检测框之间的尺寸缩放比例是不同的,即需按照每个原始文本检测框模板与待分类文本检测框之间的尺寸缩放比例对所对应的原始文本检测框模板进行尺寸调整,得到每个原始文本检测框模板对应的中间文本检测框模板。
S350、确定待分类文本检测框与每个中间文本检测框模板之间的文本框偏移值。
其中,文本偏移值指的是待分类文本检测框中的文本框与每个中间文本检测框模板中所对应文本框之间的尺寸偏移值。
在一实施例中,确定待分类文本检测框与每个中间文本检测框模板之间的文本框偏移值,包括:确定待分类文本检测框中所有文本框的坐标平均值,作为第一类型坐标平均值;确定每个中间文本检测框模板中所有文本框的坐标平均值,作为第二类型坐标平均值;根据第一类型坐标平均值和第二类型坐标平均值确定待分类文本检测框与每个中间文本检测框模板之间的文本框偏移值。
在实施例中,对待分类文本检测框中每个文本框的坐标值进行相加,得到坐标值之和,然后利用坐标值之和除以待分类文本检测框中文本框的个数,得到待分类文本检测框中每个文本框的坐标平均值,作为第一类型坐标平均值;对每个中间文本检测框模板中每个文本框的坐标值进行相加,得到坐标值之和,然后利用坐标值之和除以该中间文本检测框模板中文本框的个数,得到每个中间文本检测框模板中每个文本框的坐标平均值,作为第二类型坐标平均值;将第一类型坐标平均值和第二类型坐标平均值之间差值的绝对值,作为待分类文本检测框与每个中间文本检测框模板之间的文本框偏移值。
S360、按照文本框偏移值对所对应的中间文本检测框模板进行平移,得到目标文本检测框模板。
在实施例中,通过文本框偏移值对所对应的中间文本检测框模板中的每个文本框进行位置移动,得到移动后的目标文本检测框模板。其中,中间文本检测框模板与文本框偏移值之间是一一对应关系。
S370、确定待分类文本检测框与文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度。
在实施例中,将待分类文本检测框与文本检测框模板集合中的每个目标文本检测框模板进行匹配度比较,计算得到待分类文本检测框与每个目标文本检测框模板之间的匹配度。
在一实施例中,确定待分类文本检测框与文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度,包括:确定待分类文本检测框与每个目标文本检测框模板之间的文本框匹配个数和交并比之和,其中,交并比为待分类文本检测框中的每个文本框与目标文本检测框模板中所对应文本框之间的交集面积与并集面积的比值;根据文本框匹配个数和交并比之和确定待分类文本检测框与每个目标文本检测框模板之间的当前匹配度。
在一实施例中,确定待分类文本检测框与每个目标文本检测框模板之间的文本框匹配个数和交并比之和,包括:确定每个目标文本检测框模板的当前位移;按照当前位移对目标文本检测框模板在待分类文本检测框上的当前位置进行滑动;确定每个目标文本检测框模板在滑动过程中与待分类文本检测框之间的文本框匹配个数和交并比之和。
在实施例中,对每个原始文本检测框模板执行尺寸缩放比例和文本框偏移值的调整操作之后,得到对应的目标文本检测框模板;然后按照当前位移将目标文本检测框模板在待分类文本检测框上滑动,并计算在执行一次滑动操作之后,该目标文本检测框模板与待分类文本检测框之间的文本框匹配个数和交并比之和,将文本框匹配个数和交并比之和的乘积作为该目标文本检测框模板与待分类文本检测框之间的当前匹配度。当然,为了保证每个目标文本检测框模板与待分类文本检测框之间的匹配度达到最大,可以以目标文本检测框模板中矩形框位置的上下左右10个像素范围,并且移动步长为2个像素,将目标文本检测框模板在待分类文本检测框上滑动,并取在滑动过程中该目标文本检测框模板与待分类文本检测框之间匹配度的最大值,作为该目标文本检测框模板与待分类文本检测框之间的当前匹配度。依次类推,对每个目标文本检测框模板均执行上述匹配过程,即按照上述匹配过程确定每个目标文本检测框模板与待分类文本检测框之间的当前匹配度。也可以理解为,对每一类文本检测框模板均执行上述匹配过程,得到不同类型文本检测框模板与待分类文本检测框之间的当前匹配度。
S380、获取当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型。
在实施例中,在将待分类文本检测框与文本检测框模板集合中的每个目标文本检测框模板进行匹配度计算之后,得到待分类文本检测框与文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度,然后对所有目标文本检测框模板对应的当前匹配度进行筛选,得到当前匹配度大于预设匹配度阈值的所有目标文本检测框模板;然后获取当前匹配度大于预设匹配度阈值的所有目标文本检测框模板的文本类型。
在实际操作过程中,可以从预先本地存储的存储空间中利用目标文本检测框模板与文本类型之间的对应关系,直接获取该目标文本检测框模板的文本类型;也可以通过目标文本检测框模板的标识信息向后台服务器获取其对应的文本类型,对此并不进行限定。
S390、将当前匹配度最高的目标文本检测框模板的文本类型作为所述待检测图像的文本类型。
在实施例中,当前匹配度大于预设匹配度阈值的目标文本检测框模板可以为一个,也可以为多个。在当前匹配度大于预设匹配度阈值的目标文本检测框模板为至少两个的情况下,将当前匹配度最高的目标文本检测框模板的文本类型作为待分类文本检测框的文本类型,即待检测图像的文本类型。
本实施例的技术方案,通过对待检测图像进行文本检测,得到包含所有文本框的待分类文本检测框;然后利用预先设计的多个目标文本检测框模板与待分类文本检测框进行匹配,获取每个目标文本检测框模板与待分类文本检测框之间的当前匹配度;将当前匹配度最高的目标文本检测框模板的文本类型作为待检测图像的文本类型,实现了高效且准确地对待分类文本进行分类的目的,提高了待分类文本的分类准确率。
图4是本发明实施例提供的又一种文本分类方法的流程图。本实施例是在上述实施例的基础上,作为优选实施例,对文本分类过程进行说明。本实施例以文本框、待分类文本检测框、原始文本检测框模板和目标文本检测框模板均为矩形框为例,对文本分类过程进行说明。如图4所示,本实施例包括如下步骤:
S410、获取待检测图像。
S420、利用预先创建的文本检测模型检测待检测图像中的文本。
S430、是否检测到待分类文本,若是,则执行S440;若否,则执行S480。
S440、将待检测图像中的待分类文本检测框和每个目标文本检测框模板进行匹配。
S450、当前匹配度是否大于预设匹配度阈值,若是,则执行S460;若否,则执行S470。
S460、输出当前匹配度最高的目标文本检测框模板的文本类型。
S470、未检测到与待分类文本检测框相匹配的目标文本检测框模板。
S480、结束。
在实施例中,文本分类的过程具体如下:
S21、收集一定量的表格图片,利用文本检测模型对这些图片进行文本检测,得到相应的文本检测框。
S22、设计多个原始文本检测框模板A,该原始文本检测框模板中的每个文本框取上述S21中描述的文本检测框中的所有同一位置文本框的坐标均值、长度均值和宽度均值。
S23、使用预先创建的文本检测模型(也可以称为深度学习模型)对待分类文本进行文本检测,得到待分类文本中的所有文本框,并将待分类文本中的所有文本框组合成对应的待分类文本检测框B。
S24、计算A中所有文本框的高度均值h1和宽度均值w1,以及计算B中所有文本框的高度均值h2和宽度均值w2。利用h1与h2的比值获得高度缩放比例s1,w1与w2的比值获得宽度缩放比例s2。其中,计算公式如下:s1=h1/h2,s2=w1/w2。
S25、利用s1、s2对原始文本检测框模板A的宽度、高度和坐标值进行缩放调整,得到缩放后的文本检测框A1,记为中间文本检测框模板A1,即得到A中的文本框在B中的映射。其中,缩放规则如下:h=h1/s1,y=y1/s1,w=w1/s1,x=x1/s1。
其中,h1、w1、x1、y1分别为原始文本检测框模板A中的其中一个文本框的高度值、宽度值、x坐标值、y坐标值;h、w、x、y分别为缩放后得到的中间文本检测框模板A1中的其中一个文本框的高度值、宽度值、x坐标值、y坐标值。
S26、计算中间文本检测框模板A1中每个文本框的x坐标值、y坐标值,然后利用所有文本框的x坐标值、y坐标值,以及文本框个数,得到中间文本检测框模板A1中文本框的x坐标均值X1、y坐标均值Y1;计算待分类文本检测框B中每个文本框的x坐标值、y坐标值,然后利用所有文本框的x坐标值、y坐标值,以及文本框个数,得到待分类文本检测框B中文本框的x坐标均值X2、y坐标均值Y2;然后计算X1与X2的文本框偏移值bias1,以及Y1与Y2的文本框偏移值bias2。其中,计算公式如下:bias1=X1-X2,bias2=Y1-Y2。
S27、通过S26中获得的文本框偏移值bias1、bias2对中间文本检测框模板A1中的每个文本框进行位置移动,得到移动后的文本框,即目标文本检测框模板A3。然后,利用A3与待分类文本检测框B进行模板匹配。
S28、将调整了缩放比例和位置偏移后的目标文本检测框模板A3在待检测文本检测框B上滑动,滑动位置以模板中文本框位置的上下左右10个像素范围,移动步长为2像素,并计算每次滑动过程目标文本检测框模板A3与待检测文本检测框B之间的交并比的和。当然,为了更加关注文本框匹配个数,匹配度可以为交并比之和与当前匹配成功的文本框个数的乘积。
S29、对每一类目标文本检测框框模板均进行以上操作,得到不同目标文本检测框框模板与待分类文本检测框之间的匹配得分。为了使得匹配得分更加体现目标文本检测框框模板与待分类文本检测框之间的匹配程度,将匹配得分除目标文本检测框框模板的完全匹配得分。
S30、设置一个预设匹配度阈值,如果从S29获得的当前匹配度小于该预设匹配度阈值,则视为该待分类文本不属于模板中的任一类别;如果大于该预设匹配度阈值,则输出该匹配度所属的目标文本检测框框模板匹配对中的文本类型。
S31、利用获取的不同类型执行不同的处理步骤。
本实施例中的技术方案,利用文本检测框模板匹配的文本分类方法,该方法很好地利用了每个文本中文本排列、文本大小等先验信息,针对每个文本类型构建一个原始文本检测框模板,然后利用原始文本检测框模板与待分类文本检测框中文本框的宽高对原始文本检测框模板进行尺度变化,在通过位移得到一个较好的滑动位置,通过简单的窗口滑动方式和文本框交并比的计算得到目标文本检测框模板与当前待分类文本的当前匹配度,通过当前匹配度对待分类文本进行分类。相比深度学习通过提取特征进行分类的方法相比,提高了文本分类的准确率。
在一实施例中,示例性地,为了更直观地体现采用基于检测框模板匹配方法能够高效且准确地对待分类文本进行分类的效果。以对购车发票与二手车购车发票进行分类为例,图5是本发明实施例提供的一种购车发票与购车发票模板之间的匹配结果示意图;图6是本发明实施例提供的一种购车发票与二手车购车发票模板之间的匹配结果示意图。其中,在每个文本框的左上角编辑上编号,该编号为目标文本检测框模板中每个文本框的编号,从图5和图6中可以看出,购车发票与购车发票模板有着更好的匹配结果,根据当前匹配度可以得到待分类文本为购车发票。图7是本发明实施例提供的一种二手车购车发票与购车发票模板之间的匹配结果示意图;图8是本发明实施例提供的一种二手车购车发票与二手车购车发票模板之间的匹配结果示意图。如图7和8所示,在待分类文本为二手车购车发票,然后分别使了购车发票模板和二手车购车发票模板进行匹配后的结果,可以看出,二手车购车发票与二手车购车发票模板之间的匹配结果更好。因此,通过图5-图8的结果示意图,验证了本发明实施例所提出的基于模板匹配的文本分类方法的可行性和准确性。需要说明的是,图5-图8中的每个矩形框即为该图像中的文本框。
图9是本发明实施例提供的一种文本分类装置的结构示意图。本实施例应用于对文本进行分类的情况,如图9所示,该文本分类装置具体包括:检测框获取模块910、匹配度确定模块920和文本类型确定模块930。
其中,检测框获取模块910,用于获取待检测图像中的待分类文本检测框;
匹配度确定模块920,用于确定待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度;
文本类型确定模块930,用于根据当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型确定待检测图像的文本类型。
本实施例的技术方案,通过对待检测图像进行检测,以获取到待检测图像中包含所有文本框的待分类文本检测框,然后计算得到待分类文本检测框与所有目标文本检测框模板之间的匹配度,将匹配度最高的目标文本检测框模板的文本类型作为待检测图像的文本类型,相比于深度学习通过提取特征进行分类的方法,提高了文本分类的准确率。
在上述实施例的基础上,检测框获取模块,包括:
文本检测单元,用于利用预先创建的文本检测模型对待检测图像中的待分类文本进行文本检测;
文本框框选单元,用于对待分类文本中每组连续文本对应的文本框进行框选,构成对应的待分类文本检测框,其中,每组连续文本与文本框之间是一一对应关系,待分类文本检测框包括至少两个文本框。
在上述实施例的基础上,文本分类装置,还包括:
缩放比例确定模块,用于在确定待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度之前,确定待分类文本检测框与每个原始文本检测框模板之间的尺寸缩放比例;
尺寸调整模块,用于按照尺寸缩放比例对所对应的原始文本检测框模板进行尺寸调整,得到中间文本检测框模板;
偏移值确定模块,用于确定待分类文本检测框与每个中间文本检测框模板之间的文本框偏移值;
平移模块,用于按照文本框偏移值对所对应的中间文本检测框模板进行平移,得到目标文本检测框模板。
在上述实施例的基础上,匹配度确定模块,包括:
信息确定单元,用于确定待分类文本检测框与每个目标文本检测框模板之间的文本框匹配个数和交并比之和,其中,交并比为待分类文本检测框中的每个文本框与目标文本检测框模板中所对应文本框之间的交集面积与并集面积的比值;
匹配度确定单元,用于根据文本框匹配个数和交并比之和确定待分类文本检测框与每个目标文本检测框模板之间的当前匹配度。
在上述实施例的基础上,缩放比例确定模块,包括:
长度缩放比例确定单元,用于根据原始文本检测框模板中所有文本框的长度均值和待分类文本检测框中所有文本框的长度均值,确定长度缩放比例;
宽度缩放比例确定单元,用于根据原始文本检测框模板中所有文本框的宽度均值和待分类文本检测框中所有文本框的宽度均值,确定宽度缩放比例;
尺寸缩放比例确定单元,用于将长度缩放比例和宽度缩放比例作为待分类文本检测框与所对应的原始文本检测框模板之间的尺寸缩放比例。
在上述实施例的基础上,偏移值确定模块,包括:
第一坐标平均值确定单元,用于确定待分类文本检测框中所有文本框的坐标平均值,作为第一类型坐标平均值;
第二坐标平均值确定单元,用于确定每个中间文本检测框模板中所有文本框的坐标平均值,作为第二类型坐标平均值;
文本框偏移值确定单元,用于根据第一类型坐标平均值和第二类型坐标平均值确定待分类文本检测框与每个中间文本检测框模板之间的文本框偏移值。
在上述实施例的基础上,信息确定单元,包括:
位移确定子单元,用于确定每个目标文本检测框模板的当前位移;
滑动子单元,用于按照当前位移对目标文本检测框模板在待分类文本检测框上的当前位置进行滑动;
信息确定子单元,用于确定每个目标文本检测框模板在滑动过程中与待分类文本检测框之间的文本框匹配个数和交并比之和。
在上述实施例的基础上,文本类型确定模块,包括:
文本类型获取单元,用于获取当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型;
文本类型确定单元,用于将当前匹配度最高的目标文本检测框模板的文本类型作为所述待检测图像的文本类型。
本实施例所提供的文本分类装置可执行本发明任意实施例所提供的文本分类方法,具备执行文本分类方法相应的功能模块和有益效果。
图10是本发明实施例提供的一种文本分类设备的结构示意图。如图10所示,该文本分类设备包括处理器1010、存储器1020、输入装置1030和输出装置1040;文本分类设备中处理器1010的数量可以是一个或多个,图10中以一个处理器1010为例;文本分类设备中的处理器1010、存储器1020、输入装置和1030输出装置1040可以通过总线或其他方式连接,图10中以通过总线连接为例。
存储器1020作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本分类方法对应的程序模块(例如,文本分类装置中的检测框获取模块、匹配度确定模块和文本类型确定模块)。处理器1010通过运行存储在存储器1020中的软件程序、指令以及模块,从而执行文本分类设备的各种功能应用以及数据处理,即实现上述的文本分类方法。
存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器1020可进一步包括相对于数据转发系统1010远程设置的存储器,这些远程存储器可以通过网络连接至车辆。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其框选。
输入装置1030可用于接收输入的数字或字符信息,以及产生与车辆的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏等显示设备。
本发明实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种文本分类方法,该方法包括:
获取待检测图像中的待分类文本检测框;确定待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度;根据当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型确定待检测图像的文本类型。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的文本分类方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述文本分类装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
获取待检测图像中的待分类文本检测框;
确定所述待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度;
根据所述当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型确定所述待检测图像的文本类型。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测图像中的待分类文本检测框,包括:
利用预先创建的文本检测模型对待检测图像中的待分类文本进行文本检测;
对所述待分类文本中每组连续文本对应的文本框进行框选,构成对应的待分类文本检测框,其中,每组连续文本与文本框之间是一一对应关系。
3.根据权利要求1所述的方法,其特征在于,在所述确定所述待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度之前,还包括:
确定待分类文本检测框与每个原始文本检测框模板之间的尺寸缩放比例;
按照所述尺寸缩放比例对所对应的所述原始文本检测框模板进行尺寸调整,得到中间文本检测框模板;
确定所述待分类文本检测框与每个所述中间文本检测框模板之间的文本框偏移值;
按照所述文本框偏移值对所对应的中间文本检测框模板进行平移,得到目标文本检测框模板。
4.根据权利要求3所述的方法,其特征在于,所述确定待分类文本检测框与每个原始文本检测框模板之间的尺寸缩放比例,包括:
根据所述原始文本检测框模板中所有文本框的长度均值和所述待分类文本检测框中所有文本框的长度均值,确定长度缩放比例;
根据所述原始文本检测框模板中所有文本框的宽度均值和所述待分类文本检测框中所有文本框的宽度均值,确定宽度缩放比例;
将所述长度缩放比例和所述宽度缩放比例作为所述待分类文本检测框与所对应的原始文本检测框模板之间的尺寸缩放比例;
相应的,所述确定所述待分类文本检测框与每个所述中间文本检测框模板之间的文本框偏移值,包括:
确定所述待分类文本检测框中每个文本框的坐标平均值,作为第一类型坐标平均值;
确定每个所述中间文本检测框模板中每个文本框的坐标平均值,作为第二类型坐标平均值;
根据所述第一类型坐标平均值和所述第二类型坐标平均值确定所述待分类文本检测框与每个所述中间文本检测框模板之间的文本框偏移值。
5.根据权利要求1所述的方法,其特征在于,所述确定所述待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度,包括:
确定所述待分类文本检测框与每个所述目标文本检测框模板之间的文本框匹配个数和交并比之和,其中,所述交并比为所述待分类文本检测框中的每个文本框与所述目标文本检测框模板中所对应文本框之间的交集面积与并集面积的比值;
根据所述文本框匹配个数和所述交并比之和确定所述待分类文本检测框与每个所述目标文本检测框模板之间的当前匹配度。
6.根据权利要求5所述的方法,其特征在于,所述确定所述待分类文本检测框与每个所述目标文本检测框模板之间的文本框匹配个数和交并比之和,包括:
确定每个所述目标文本检测框模板的当前位移;
按照所述当前位移对所述目标文本检测框模板在所述待分类文本检测框上的当前位置进行滑动;
确定每个所述目标文本检测框模板在滑动过程中与所述待分类文本检测框之间的文本框匹配个数和交并比之和。
7.根据权利要求1所述的方法,其特征在于,所述根据所述当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型确定所述待检测图像的文本类型,包括:
获取所述当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型;
将当前匹配度最高的目标文本检测框模板的文本类型作为所述待检测图像的文本类型。
8.一种文本分类装置,其特征在于,包括:
检测框获取模块,用于获取待检测图像中的待分类文本检测框;
匹配度确定模块,用于确定所述待分类文本检测框与预先创建的文本检测框模板集合中的每个目标文本检测框模板之间的当前匹配度;
文本类型确定模块,用于根据所述当前匹配度大于预设匹配度阈值的目标文本检测框模板的文本类型确定所述待检测图像的文本类型。
9.一种文本分类设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的文本分类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的文本分类方法。
CN202110440970.3A 2021-04-23 2021-04-23 一种文本分类方法、装置、设备和存储介质 Pending CN113128603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110440970.3A CN113128603A (zh) 2021-04-23 2021-04-23 一种文本分类方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110440970.3A CN113128603A (zh) 2021-04-23 2021-04-23 一种文本分类方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113128603A true CN113128603A (zh) 2021-07-16

Family

ID=76779310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110440970.3A Pending CN113128603A (zh) 2021-04-23 2021-04-23 一种文本分类方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113128603A (zh)

Similar Documents

Publication Publication Date Title
JP6831480B2 (ja) テキスト検出分析方法、装置及びデバイス
CN111027563A (zh) 一种文本检测方法、装置及识别系统
KR20190095651A (ko) 문자 학습 트레이닝 데이터 생성 장치 및 그 방법
CN110287952B (zh) 一种维语图片字符的识别方法及系统
US20110043869A1 (en) Information processing system, its method and program
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN110598698B (zh) 基于自适应区域建议网络的自然场景文本检测方法和系统
CN114155527A (zh) 一种场景文本识别方法和装置
WO2021208617A1 (zh) 进出站识别方法、装置、终端及存储介质
CN111414913B (zh) 一种文字识别方法以及识别装置、电子设备
CN113255501B (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN112633118A (zh) 一种文本信息提取方法、设备及存储介质
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
JP2017120503A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN112884046A (zh) 基于不完全监督学习的图像分类方法、装置及相关设备
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
CN117193771A (zh) 一种基于手绘界面的ui自动生成方法及系统
CN112528903A (zh) 人脸图像获取方法、装置、电子设备及介质
CN111709338A (zh) 一种用于表格检测的方法、装置及检测模型的训练方法
CN113128603A (zh) 一种文本分类方法、装置、设备和存储介质
CN113392820B (zh) 动态手势识别方法、装置、电子设备及可读存储介质
CN112396057A (zh) 一种字符识别方法、装置及电子设备
JP2007304900A (ja) オブジェクト認識装置及びオブジェクト認識プログラム
CN114399768A (zh) 基于Tesseract-OCR引擎的工件产品序列号识别方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination