CN109582946A - 文字区域排版方向的确定方法及装置 - Google Patents

文字区域排版方向的确定方法及装置 Download PDF

Info

Publication number
CN109582946A
CN109582946A CN201811437303.4A CN201811437303A CN109582946A CN 109582946 A CN109582946 A CN 109582946A CN 201811437303 A CN201811437303 A CN 201811437303A CN 109582946 A CN109582946 A CN 109582946A
Authority
CN
China
Prior art keywords
text
writing direction
texts
characteristic parameter
character area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811437303.4A
Other languages
English (en)
Other versions
CN109582946B (zh
Inventor
聂镭
李睿
聂颖
郑权
张峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Original Assignee
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd filed Critical Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority to CN201811437303.4A priority Critical patent/CN109582946B/zh
Publication of CN109582946A publication Critical patent/CN109582946A/zh
Application granted granted Critical
Publication of CN109582946B publication Critical patent/CN109582946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种文字区域排版方向的确定方法及装置。其中,该方法包括:识别文字区域的所有文字;将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数,其中,特征参数包括:每个文字的相对相邻文字以及该相对相邻文字的出现概率,神经网络语言模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:文字和该文字的特征参数;根据特征参数确定所有文字中每个文字的排版方向;基于每个文字的排版方向确定文字区域的排版方向。本发明解决了相关技术中在进行图像文字识别时无法得到文字区域的排版方向的技术问题。

Description

文字区域排版方向的确定方法及装置
技术领域
本发明涉及字符识别技术领域,具体而言,涉及一种文字区域排版方向的确定方法及装置。
背景技术
证件识别是指使用技术对证件信息自动提取,并对证件信息按要素格式输出信息,得到规则化的数据,以便于计算机系统管理。当前,主要是通过光学字符识别OCR文字识别,具体地,通过手机或者带有摄像头的终端设备对证件进行拍照,并对证件做OCR文字识别。上述证件可以为各种类型的身份证件,例如,驾驶证、行驶证、护照、车牌、银行卡号、名片、文档等,其优点是:方案成本低,采集识别设备易获得,使用环境方便,功能容易扩展。
但是,上述方式直接应用于一些文字顺序为非单一、文字种类也为非单一的证件时(例如,毕业证、学位证等)存在着挑战。由于上述驾驶证、行驶证、护照、车牌、银行卡号、名片、文档等证件上文字种类单一,而且文字顺序单一。然而,毕业证、学位证等上的文字书写阅读顺序并非全是横行排列,从左往右书写阅读的。成熟的OCR技术可以将图片上的文字分成单个的文字,但是现有的证件识别技术并不能分辨出文字的排列顺序,没有正确的文字排列顺序,利用OCR技术得到的文字是没有用的信息,也不能将其直接录入电脑管理系统进行管理。
针对上述相关技术中在进行图像文字识别时无法得到文字区域的排版方向的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文字区域排版方向的确定方法及装置,以至少解决相关技术中在进行图像文字识别时无法得到文字区域的排版方向的技术问题。
根据本发明实施例的一个方面,提供了一种文字区域排版方向的确定方法,包括:识别文字区域的所有文字;将所述所有文字中的每个文字作为神经网络语言模型的输入,得到所述每个文字的特征参数,其中,所述特征参数包括:所述每个文字的相对相邻文字以及该相对相邻文字的出现概率,所述神经网络语言模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:文字和该文字的特征参数;根据所述特征参数确定所述所有文字中每个文字的排版方向;基于所述每个文字的排版方向确定所述文字区域的排版方向。
可选地,在将所述所有文字中的每个文字作为神经网络语言模型的输入,得到所述每个文字的特征参数之前,该文字区域排版方向的确定方法还包括:采集在历史时间段的多个历史文字和该多个历史文字的特征参数,其中,所述多个历史文字的特征参数是根据所述多个历史文字确定的;对采集的包括所述多个历史文字和该多个历史文字的特征参数进行训练,得到所述神经网络语言模型。
可选地,在根据所述特征参数确定所述所有文字中每个文字的排版方向之前,该文字区域排版方向的确定方法还包括:确定所述所有文字中每个文字的实际相邻文字,其中,所述实际相邻文字为所述文字区域的文字。
可选地,根据所述特征参数确定所述所有文字中每个文字的排版方向包括:依次将每个文字的实际相邻文字与所述每个文字的特征参数进行匹配;在匹配结果为特征参数中存在与所述实际相邻文字相同的相对相邻文字的情况下,将所述相对相邻文字的出现概率作为所述实际相邻文字的出现概率;将所述所有文字中每个文字的实际相邻文字中出现概率最高的实际相邻文字所指向的方向作为所述所有文字中每个文字的排版方向。
可选地,基于所述每个文字的排版方向确定所述文字区域的排版方向包括:根据所述所有文字中每个文字的排版方向确定每种排版方向出现的次数;根据所述每种排版方向出现的次数确定所述每种排版方向出现的概率;确定所述每种排版方向中出现概率最高的排版方向为所述文字区域的排版方向。
根据本发明实施例的另外一个方面,还提供了一种文字区域排版方向的确定装置,包括:识别单元,用于识别文字区域的所有文字;输入单元,用于将所述所有文字中的每个文字作为神经网络语言模型的输入,得到所述每个文字的特征参数,其中,所述特征参数包括:所述每个文字的相对相邻文字以及该相对相邻文字的出现概率,所述神经网络语言模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:文字和该文字的特征参数;第一确定单元,用于根据所述特征参数确定所述所有文字中每个文字的排版方向;第二确定单元,用于基于所述每个文字的排版方向确定所述文字区域的排版方向。
可选地,该文字区域排版方向的确定装置还包括:采集单元,用于在将所述所有文字中的每个文字作为神经网络语言模型的输入,得到所述每个文字的特征参数之前,采集在历史时间段的多个历史文字和该多个历史文字的特征参数,其中,所述多个历史文字的特征参数是根据所述多个历史文字确定的;训练单元,用于对采集的包括所述多个历史文字和该多个历史文字的特征参数进行训练,得到所述神经网络语言模型。
可选地,该文字区域排版方向的确定装置还包括:第三确定单元,用于在根据所述特征参数确定所述所有文字中每个文字的排版方向之前,确定所述所有文字中每个文字的实际相邻文字,其中,所述实际相邻文字为所述文字区域的文字。
可选地,所述第一确定单元包括:匹配模块,模块依次将每个文字的实际相邻文字与所述每个文字的特征参数进行匹配;第一确定模块,用于在匹配结果为特征参数中存在与所述实际相邻文字相同的相对相邻文字的情况下,将所述相对相邻文字的出现概率作为所述实际相邻文字的出现概率;第二确定模块,用于将所述所有文字中每个文字的实际相邻文字中出现概率最高的实际相邻文字所指向的方向作为所述所有文字中每个文字的排版方向。
可选地,所述第二确定单元包括:第三确定模块,用于根据所述所有文字中每个文字的排版方向确定每种排版方向出现的次数;第四确定模块,用于根据所述每种排版方向出现的次数确定所述每种排版方向出现的概率;第五确定模块,用于确定所述每种排版方向中出现概率最高的排版方向为所述文字区域的排版方向。
根据本发明实施例的另外一个方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述中任意一项所述的文字区域排版方向的确定方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的文字区域排版方向的确定方法。
在本发明实施例中,采用识别文字区域的所有文字;将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数,其中,特征参数包括:每个文字的相对相邻文字以及该相对相邻文字的出现概率,神经网络语言模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:文字和该文字的特征参数;根据特征参数确定所有文字中每个文字的排版方向;基于每个文字的排版方向确定文字区域的排版方向。通过本发明实施例提供的文字区域排版方向的确定方法可以实现识别出不同排版顺序、字体大小不一、文字语言不同的文字的排版方向的确定的目的,达到了提高文字排版方向识别的效率的技术效果,进而解决了相关技术中在进行图像文字识别时无法得到文字区域的排版方向的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的文字区域排版方向的确定方法的流程图;
图2是根据本发明实施例的文字区域排版方向的确定方法的结构图;
图3是根据本发明实施例的确定所有文字中每个文字的排版方向的示意图;
图4是根据本发明实施例的文字区域排版方向的确定方法的示意图;
图5是根据本发明实施例的文字区域排版方向的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,下面对本发明实施例中出现的部分名词或术语进行说明:
光学字符识别(Optical Character Recognition,简称OCR):是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换为黑白点阵的图像文件,并通过识别图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
长短期记忆网络(Long Short-Term Memory,简称LSTM):是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。硬聚类算法K-means:是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。它是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。
实施例1
根据本发明实施例,提供了一种文字区域排版方向的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的文字区域排版方向的确定方法的流程图,如图1所示,该文字区域排版方向的确定方法包括如下步骤:
步骤S102,识别文字区域的所有文字。
在步骤S102中,识别文字区域的所有文字之前,该文字区域排版方向的确定方法还可以包括:获取目标对象的属性参数,根据该属性参数将目标对象分成多个相互独立的文字区域,其中,上述属性参数包括以下至少之一:目标对象上的文字相间的距离、字体大小、文字类型等。另外,上述目标对象可以是用户的身份证件,例如,毕业证、学位证、驾驶证等。需要说明的是,在本发明实施例中,对进行目标对象区域划分方式不做具体限定,可以为硬聚类算法K-means。
另外,在对目标对象进行区域划分之后,对于每个文字区域,可以提取出每个文字的特征参数,将文字的特征输入到分类器,其中,分类器主要就是对文字进行分类。因此,每个文字的特征就可以识别成相应的文字,具体地,分类器的设计方法有很多,在本发明实施例中对其不做具体限定,例如,模板匹配法、判别函数法、神经网络分类法、基于规则推理法等。在进行实际识别前,往往还需要对分类器进行训练,这是一个监督学习的过程。其中,在本发明实施例中,对分类器的种类不做具体限定,可以根据实际需求进行选择,例如,SVM,CNN等。
步骤S104,将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数,其中,特征参数包括:每个文字的相对相邻文字以及该相对相邻文字的出现概率,神经网络语言模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:文字和该文字的特征参数。
需要说明的是,在步骤S104中,主要是利用训练好的神经网络语言模型获取每个文字的特征参数。其中,每个文字是在步骤S102中识别得到的文字,并且,在步骤S102中对文字的识别方式可以采用光学字符识别OCR方式。具体地,上述特征参数可以包括:每个文字的相对相邻文字以及该相对相邻文字的出现概率。其中,这里的相对相邻文字是经过上述神经网络语言模型的输出得到的,每个文字的相对相邻文字是可以与该文字组成词语的字,例如,“天”是上述每个字中的一个字,将“天”作为神经网络语言模型的输入,那个该神经网络语言模块的输出可以为“蓝”(蓝天)、“上”(天上)、“空”(天空),以及“蓝”、“上”、“空”可以和“天”组成词语的概率(即上述相邻文字的出行概率)。
步骤S106,根据特征参数确定所有文字中每个文字的排版方向。
其中,在经过上述步骤S104得到每个文字的特征参数之后,可以根据该特征参数确定所有文字中,每个文字的排版方向。具体地,可以根据特征文字中的相对相邻文字来确定文字的排版方向。例如,上述所有文字中包括“天”、“空”、“上”,并且通过特征参数得到“空”作为“天”的相对相邻文字的概率为0.6、“上”作为“天”的相对相邻文字的概率为0.2。那么此时可以得到“天”的实际相邻文字为“空”,而组成的词语为“天空”,此时,可以得到“天”字的排版方向。
步骤S108,基于每个文字的排版方向确定文字区域的排版方向。
另外,在每个文字区域中有很多个字,那么该文字区域的排版方向就不能单纯地以某个文字的排版方向作为该文字区域的排版方向。由于在步骤S106中以及得到文字区域中每个文字的排版方向,此时可以根据每个文字的排版方向来确定文字区域的排版方向。
通过上述步骤,可以识别文字区域的所有文字;将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数,其中,特征参数包括:每个文字的相对相邻文字以及该相对相邻文字的出现概率,神经网络语言模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:文字和该文字的特征参数;根据特征参数确定所有文字中每个文字的排版方向;基于每个文字的排版方向确定文字区域的排版方向。相对于相关技术中用于文字排版方向确认的方式可以直接应用于一些文字顺序为单一、文字种类也为单一的证件,而对于另外一些文字顺序为非单一、文字种类也为非单一的证件时则无法有效识别出文字的排版方向的弊端,通过本发明实施例提供的文字区域排版方向的确定方法可以实现识别出不同排版顺序、字体大小不一、文字语言不同的文字的排版方向的确定的目的,达到了提高文字排版方向识别的效率的技术效果,进而解决了相关技术中在进行图像文字识别时无法得到文字区域的排版方向的技术问题。
作为一种可选的实施例,在将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数之前,该文字区域排版方向的确定方法还可以包括:采集在历史时间段的多个历史文字和该多个历史文字的特征参数,其中,多个历史文字的特征参数是根据多个历史文字确定的;对采集的包括多个历史文字和该多个历史文字的特征参数进行训练,得到神经网络语言模型。
另外,在步骤S104中,使用的神经网络语言模型可以包括如图2所示的embedding层、循环神经网络层以及softmax层。其中,embedding层主要是用于将输入到神经网络语言模型中的文字ID转换为实数向量(该文字ID可以用于标识该文字的标识符),循环神经网络层主要是用于经过多次循环得到输入的文字的相对相邻文字以及该相对相邻文字的出现次数,softmax层主要是将经过循环神经网络层处理后的输出转台转化为每个文字的出现概率。
图2是根据本发明实施例的文字区域排版方向的确定方法的结构图,如图2所示,将“大海”、“的”、“颜色”、“是”以及“蓝色”分别作为神经网络语言模型的输入,首先,经过embedding层将上述输入分别转换为实数向量,然后经过循环神经网络层的处理后,在进入softmax层进行分析处理得到“大海”、“的”、“颜色”、“是”以及“蓝色”的相对相邻文字,以及该相对相邻文字的出现概率。例如,“大海”的相对相邻文字为“的”和“是”,其中,“的”的出现概率为0.3,“是”的出现概率为0.2;依次可以得到“的”、“颜色”、“是”以及“蓝色”的相对相邻文字及该相对相邻文字的出现概率。
需要说明的是,在神经网络语言模型中,训练集是人类创造的各种各样的有序文本信息,可以包括但不限于:毕业证文字信息(排好序的),散文、各种说明书、中文维基百科等。在训练过程中,如图2所示,可以把训练集按句输入,输出可以是一个列表,该列表中存储着所有被预测字之后可能出现的每个字以及它们相对应出现的概率。该神经网络语言模型的网络基础可以为长短期记忆网络LSTM。
作为一种可选的实施例,在根据特征参数确定所有文字中每个文字的排版方向之前,该文字区域排版方向的确定方法还包括:确定所有文字中每个文字的实际相邻文字,其中,实际相邻文字为文字区域的文字。
其中,在利用神经网络语言模型得到所有文字中每个文字的相对相邻文字之后,可以将这些相对相邻文字与所有文字中每个文字进行匹配,得到每个文字的实际相邻文字,即,每个文字的实际相邻文字为文字区域中的文字。
在上述步骤S106中,根据特征参数确定所有文字中每个文字的排版方向可以包括:依次将每个文字的实际相邻文字与每个文字的特征参数进行匹配;在匹配结果为特征参数中存在与实际相邻文字相同的相对相邻文字的情况下,将相对相邻文字的出现概率作为实际相邻文字的出现概率;将所有文字中每个文字的实际相邻文字中出现概率最高的实际相邻文字所指向的方向作为所有文字中每个文字的排版方向。
需要说明的是,在得到每个文字的实际相邻文字之后,该文字和相对相邻文字在神经网络语言模型中以九宫格的方式存储,此时,可以将相对相邻文字中可以作为实际相邻文字的出现概率读取出来,查找到出现概率最高的实际相邻文字所在的方向作为该字的排版方向。
例如,对于文字区域中的每一个字,可以在上述得到的列表中,查找它四周四个方向的字各自出现的概率,选择出出现概率最大的方向将其作为这个字的预测排版方向(即排版方向),在遍历得到整个文字区域中每个文字后,可以得到所有字的预测排版方向。图3是根据本发明实施例的确定所有文字中每个文字的排版方向的示意图,如图3所示,将图3中的“顺”字作为模型的输入,及其相邻四个方向的字:上方向为“字”、右方向“序”、下方向“识”、左方向“版”。神经网络语言模型可以输出一个如图3所示的图表,从图表中找到四个字,输出概率分别为:0.25、0.9、0.15、0.2,因此可以将右方向作为“顺”字的排版方向。
另外,在步骤S108中,基于每个文字的排版方向确定文字区域的排版方向可以包括:根据所有文字中每个文字的排版方向确定每种排版方向出现的次数;根据每种排版方向出现的次数确定每种排版方向出现的概率;确定每种排版方向中出现概率最高的排版方向为文字区域的排版方向。
具体地,在综合所有的字的排版方向之后,可以进行投票,选取出票数多的字的排版方向作为文字区域的排版方向。图4是根据本发明实施例的文字区域排版方向的确定方法的示意图,如图4所示,上方向的概率为1/9、下方向的概率为2/9,左方向的概率为0、右方向的概率为6/9。因此,图中所有字的右方向占比最大,则得出文字区域的排版方向为右方向,即为从左至右。
通过本发明实施例中提供的文字区域排版方向的确定方法可以针对例如毕业证识别困难这个场景,增加横竖排版文字分块步骤和文字顺序识别步骤。例如,把不同横竖排列的文字区分分块,接着使用光学字符识别OCR识别出单个文字,再使用长短期记忆网络LSTM预测文字的排版顺序和字与字之间的前后顺序,并输出有序的文字。
其中,该文字区域排版方向的确定方法的总体流程可以分为以下几个步骤:
101:使用硬聚类算法K-means把横竖排列的文字区进行分块,得到各个文字区域。
102:使用光学字符识别OCR技术,把101中得到的文字区域识别成文字。
103:训练神经网络语言模型,并输出概率列表。其中,该概率列表为每个字的相对相邻文字以及该相对相邻文字的出现概率。
104:查找列表,得到被预测文字与周围的文字连成词句的概率,最大概率方向即为该字的排版方向。
105:统计文字块内每个文字的排版方向,确定文字区域的排版顺序。
相比现有技术,本发明实施例提供的文字区域排版方向的确定方法可以识别出不同的排版顺序的,字体大小不一的,不同语言的文字。并且将这些不同排版,不同大小,不同语言的文字图片转化成可编辑的,排版顺序一致的文字。可以直接录入计算机系统进行管理。另外,采用专门为毕业证以及与毕业证相类似的证件训练的自然语言处理模型,相比与一般的语言模型能更加精准的预测毕业证上的文字顺序。
实施例2
根据本发明实施例还提供了一种文字区域排版方向的确定装置,需要说明的是,本发明实施例的文字区域排版方向的确定装置可以用于执行本发明实施例所提供的文字区域排版方向的确定方法。以下对本发明实施例提供的文字区域排版方向的确定装置进行介绍。
图5是根据本发明实施例的文字区域排版方向的确定装置的示意图,如图1所示,该文字区域排版方向的确定装置包括:识别单元51,输入单元53,第一确定单元55以及第二确定单元57。下面对该文字区域排版方向的确定装置进行详细说明。
识别单元51,用于识别文字区域的所有文字。
输入单元53,与上述识别单元51连接,用于将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数,其中,特征参数包括:每个文字的相对相邻文字以及该相对相邻文字的出现概率,神经网络语言模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:文字和该文字的特征参数。
第一确定单元55,与上述输入单元53连接,用于根据特征参数确定所有文字中每个文字的排版方向。
第二确定单元57,与上述第一确定单元55连接,用于基于每个文字的排版方向确定文字区域的排版方向。
需要说明的是,该实施例中的识别单元51可以用于执行本发明实施例中的步骤S102,该实施例中的输入单元53可以用于执行本发明实施例中的步骤S104,该实施例中的第一确定单元55可以用于执行本发明实施例中的步骤S106,该实施例中的第二确定单元57可以用于执行本发明实施例中的步骤S108。上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。
在该实施例中,可以首先利用识别单元51识别文字区域的所有文字;然后利用输入单元53将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数,其中,特征参数包括:每个文字的相对相邻文字以及该相对相邻文字的出现概率,神经网络语言模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:文字和该文字的特征参数;再利用第一确定单元55根据特征参数确定所有文字中每个文字的排版方向;并利用第二确定单元57基于每个文字的排版方向确定文字区域的排版方向。相对于相关技术中用于文字排版方向确认的方式可以直接应用于一些文字顺序为单一、文字种类也为单一的证件,而对于另外一些文字顺序为非单一、文字种类也为非单一的证件时则无法有效识别出文字的排版方向的弊端,通过本发明实施例提供的文字区域排版方向的确定装置可以实现识别出不同排版顺序、字体大小不一、文字语言不同的文字的排版方向的确定的目的,达到了提高文字排版方向识别的效率的技术效果,进而解决了相关技术中在进行图像文字识别时无法得到文字区域的排版方向的技术问题。
作为一种可选的实施例,该文字区域排版方向的确定装置还可以包括:采集单元,用于在将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数之前,采集在历史时间段的多个历史文字和该多个历史文字的特征参数,其中,多个历史文字的特征参数是根据多个历史文字确定的;训练单元,用于对采集的包括多个历史文字和该多个历史文字的特征参数进行训练,得到神经网络语言模型。
作为一种可选的实施例,该文字区域排版方向的确定装置还可以包括:第三确定单元,用于在根据特征参数确定所有文字中每个文字的排版方向之前,确定所有文字中每个文字的实际相邻文字,其中,实际相邻文字为文字区域的文字。
作为一种可选的实施例,上述第一确定单元可以包括:匹配模块,模块依次将每个文字的实际相邻文字与每个文字的特征参数进行匹配;第一确定模块,用于在匹配结果为特征参数中存在与实际相邻文字相同的相对相邻文字的情况下,将相对相邻文字的出现概率作为实际相邻文字的出现概率;第二确定模块,用于将所有文字中每个文字的实际相邻文字中出现概率最高的实际相邻文字所指向的方向作为所有文字中每个文字的排版方向。
作为一种可选的实施例,上述第二确定单元可以包括:第三确定模块,用于根据所有文字中每个文字的排版方向确定每种排版方向出现的次数;第四确定模块,用于根据每种排版方向出现的次数确定每种排版方向出现的概率;第五确定模块,用于确定每种排版方向中出现概率最高的排版方向为文字区域的排版方向。
上述文字区域排版方向的确定装置包括处理器和存储器,上述识别单元51,输入单元53,第一确定单元55以及第二确定单元57等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数基于每个文字的排版方向确定文字区域的排版方向。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另外一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,程序执行上述中任意一项的文字区域排版方向的确定方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的文字区域排版方向的确定方法。
在本发明实施例中还提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:识别文字区域的所有文字;将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数,其中,特征参数包括:每个文字的相对相邻文字以及该相对相邻文字的出现概率,神经网络语言模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:文字和该文字的特征参数;根据特征参数确定所有文字中每个文字的排版方向;基于每个文字的排版方向确定文字区域的排版方向。
在本发明实施例中还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:识别文字区域的所有文字;将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数,其中,特征参数包括:每个文字的相对相邻文字以及该相对相邻文字的出现概率,神经网络语言模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:文字和该文字的特征参数;根据特征参数确定所有文字中每个文字的排版方向;基于每个文字的排版方向确定文字区域的排版方向。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文字区域排版方向的确定方法,其特征在于,包括:
识别文字区域的所有文字;
将所述所有文字中的每个文字作为神经网络语言模型的输入,得到所述每个文字的特征参数,其中,所述特征参数包括:所述每个文字的相对相邻文字以及该相对相邻文字的出现概率,所述神经网络语言模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:文字和该文字的特征参数;
根据所述特征参数确定所述所有文字中每个文字的排版方向;
基于所述每个文字的排版方向确定所述文字区域的排版方向。
2.根据权利要求1所述的方法,其特征在于,在将所述所有文字中的每个文字作为神经网络语言模型的输入,得到所述每个文字的特征参数之前,还包括:
采集在历史时间段的多个历史文字和该多个历史文字的特征参数,其中,所述多个历史文字的特征参数是根据所述多个历史文字确定的;
对采集的包括所述多个历史文字和该多个历史文字的特征参数进行训练,得到所述神经网络语言模型。
3.根据权利要求1所述的方法,其特征在于,在根据所述特征参数确定所述所有文字中每个文字的排版方向之前,还包括:
确定所述所有文字中每个文字的实际相邻文字,其中,所述实际相邻文字为所述文字区域的文字。
4.根据权利要求3所述的方法,其特征在于,根据所述特征参数确定所述所有文字中每个文字的排版方向包括:
依次将每个文字的实际相邻文字与所述每个文字的特征参数进行匹配;
在匹配结果为特征参数中存在与所述实际相邻文字相同的相对相邻文字的情况下,将所述相对相邻文字的出现概率作为所述实际相邻文字的出现概率;
将所述所有文字中每个文字的实际相邻文字中出现概率最高的实际相邻文字所指向的方向作为所述所有文字中每个文字的排版方向。
5.根据权利要求1至4中任一项所述的方法,其特征在于,基于所述每个文字的排版方向确定所述文字区域的排版方向包括:
根据所述所有文字中每个文字的排版方向确定每种排版方向出现的次数;
根据所述每种排版方向出现的次数确定所述每种排版方向出现的概率;
确定所述每种排版方向中出现概率最高的排版方向为所述文字区域的排版方向。
6.一种文字区域排版方向的确定装置,其特征在于,包括:
识别单元,用于识别文字区域的所有文字;
输入单元,用于将所述所有文字中的每个文字作为神经网络语言模型的输入,得到所述每个文字的特征参数,其中,所述特征参数包括:所述每个文字的相对相邻文字以及该相对相邻文字的出现概率,所述神经网络语言模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:文字和该文字的特征参数;
第一确定单元,用于根据所述特征参数确定所述所有文字中每个文字的排版方向;
第二确定单元,用于基于所述每个文字的排版方向确定所述文字区域的排版方向。
7.根据权利要求6所述的装置,其特征在于,还包括:
采集单元,用于在将所述所有文字中的每个文字作为神经网络语言模型的输入,得到所述每个文字的特征参数之前,采集在历史时间段的多个历史文字和该多个历史文字的特征参数,其中,所述多个历史文字的特征参数是根据所述多个历史文字确定的;
训练单元,用于对采集的包括所述多个历史文字和该多个历史文字的特征参数进行训练,得到所述神经网络语言模型。
8.根据权利要求6所述的装置,其特征在于,还包括:
第三确定单元,用于在根据所述特征参数确定所述所有文字中每个文字的排版方向之前,确定所述所有文字中每个文字的实际相邻文字,其中,所述实际相邻文字为所述文字区域的文字。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的文字区域排版方向的确定方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的文字区域排版方向的确定方法。
CN201811437303.4A 2018-11-28 2018-11-28 文字区域排版方向的确定方法及装置 Active CN109582946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811437303.4A CN109582946B (zh) 2018-11-28 2018-11-28 文字区域排版方向的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811437303.4A CN109582946B (zh) 2018-11-28 2018-11-28 文字区域排版方向的确定方法及装置

Publications (2)

Publication Number Publication Date
CN109582946A true CN109582946A (zh) 2019-04-05
CN109582946B CN109582946B (zh) 2019-10-25

Family

ID=65924966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811437303.4A Active CN109582946B (zh) 2018-11-28 2018-11-28 文字区域排版方向的确定方法及装置

Country Status (1)

Country Link
CN (1) CN109582946B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443239A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 文字图像的识别方法及其装置
CN111507267A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 文档朝向检测方法、装置、设备以及存储介质
CN116738934A (zh) * 2023-08-09 2023-09-12 京华信息科技股份有限公司 一种文书自动排版方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982330A (zh) * 2012-11-21 2013-03-20 新浪网技术(中国)有限公司 文字图像中字符识别方法和识别装置
US20140219561A1 (en) * 2013-02-06 2014-08-07 Nidec Sankyo Corporation Character segmentation device and character segmentation method
CN104063176A (zh) * 2014-06-25 2014-09-24 哈尔滨工业大学深圳研究生院 手写序列可编辑的连续手写输入方法与系统
CN106934386A (zh) * 2017-03-30 2017-07-07 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982330A (zh) * 2012-11-21 2013-03-20 新浪网技术(中国)有限公司 文字图像中字符识别方法和识别装置
US20140219561A1 (en) * 2013-02-06 2014-08-07 Nidec Sankyo Corporation Character segmentation device and character segmentation method
CN104063176A (zh) * 2014-06-25 2014-09-24 哈尔滨工业大学深圳研究生院 手写序列可编辑的连续手写输入方法与系统
CN106934386A (zh) * 2017-03-30 2017-07-07 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾娟 等: "图文互斥版面中文字阅读顺序的确定", 《中文信息学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443239A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 文字图像的识别方法及其装置
CN111507267A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 文档朝向检测方法、装置、设备以及存储介质
CN116738934A (zh) * 2023-08-09 2023-09-12 京华信息科技股份有限公司 一种文书自动排版方法及系统
CN116738934B (zh) * 2023-08-09 2024-03-19 京华信息科技股份有限公司 一种文书自动排版方法及系统

Also Published As

Publication number Publication date
CN109582946B (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
Afzal et al. Cutting the error by half: Investigation of very deep cnn and advanced training strategies for document image classification
Sun et al. A robust approach for text detection from natural scene images
Tian et al. Multilingual scene character recognition with co-occurrence of histogram of oriented gradients
Afzal et al. Deepdocclassifier: Document classification with deep convolutional neural network
Guo et al. Building hierarchical representations for oracle character and sketch recognition
CN111652332B (zh) 基于二分类的深度学习手写中文字符识别方法及系统
Wang et al. Expression of Concern: Facial feature discovery for ethnicity recognition
CN109582946B (zh) 文字区域排版方向的确定方法及装置
CN106446954A (zh) 一种基于深度学习的字符识别方法
Geetha et al. Effective offline handwritten text recognition model based on a sequence-to-sequence approach with CNN–RNN networks
John et al. Offline handwritten Malayalam Character Recognition based on chain code histogram
Tsourounis et al. From text to signatures: Knowledge transfer for efficient deep feature learning in offline signature verification
CN108681735A (zh) 基于卷积神经网络深度学习模型的光学字符识别方法
Chen et al. Recognizing the style of visual arts via adaptive cross-layer correlation
Harizi et al. Convolutional neural network with joint stepwise character/word modeling based system for scene text recognition
Sampath et al. Decision tree and deep learning based probabilistic model for character recognition
Yousaf et al. A robust and efficient convolutional deep learning framework for age‐invariant face recognition
Li et al. Multilingual text detection with nonlinear neural network
Feng et al. Beyond tag relevance: integrating visual attention model and multi-instance learning for tag saliency ranking
Bose et al. Light Weight Structure Texture Feature Analysis for Character Recognition Using Progressive Stochastic Learning Algorithm
Igorevna et al. Document image analysis and recognition: a survey
Tsourounis et al. Handwritten signature verification via deep sparse coding architecture
CN111553361B (zh) 一种病理切片标签识别方法
Rimas et al. Optical character recognition for Sinhala language
Das et al. Writer independent offline signature recognition using ensemble learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong

Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.

Address before: 519000 room 417, building 20, creative Valley, Hengqin new area, Xiangzhou, Zhuhai, Guangdong

Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.