CN110245570B - 扫描文本分段方法、装置、计算机设备和存储介质 - Google Patents
扫描文本分段方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110245570B CN110245570B CN201910418522.6A CN201910418522A CN110245570B CN 110245570 B CN110245570 B CN 110245570B CN 201910418522 A CN201910418522 A CN 201910418522A CN 110245570 B CN110245570 B CN 110245570B
- Authority
- CN
- China
- Prior art keywords
- text
- characters
- line
- parameters
- vertex
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请涉及数据分析领域,特别涉及一种扫描文本分段方法、装置、计算机设备和存储介质。所述方法包括:获取含有文本内容的图片;对图片进行文本识别得到文本页面,文本页面中包含与文本内容行间顺序一致的字符;获取文本页面中的每行字符的顶点参数,每行字符的顶点参数包括第一组顶点参数和第二组顶点参数;根据顶点参数识别文本页面中的最长一行字符,获取最长一行字符的第二组顶点参数作为标准参数;计算每行字符的第二组顶点参数与标准参数之间的差值;在差值大于预设值的所在行中确定目标字符,并在目标字符之后加入分段符得到分段后的文本。采用本方法能够准确对扫描文本进行分段。
Description
技术领域
本申请涉及扫描文本分段技术领域,特别是涉及一种扫描文本分段方法、装置、计算机设备和存储介质。
背景技术
随着数据技术的发展,越来越多的信息都通过网络处理和交互,因而对于纸质材料转换为电子格式的技术也层出不穷。
传统地,将纸质文本进行扫描得到包含文本内容的图片,通过智能识别技术识别出图片中的文本内容得到可编辑文本;然而,传统的智能识别方法只能识别出图片中包含的文本内容,若需要对文本内容的对应段落进行定位或分析等进一步处理时,由于上述智能识别方法无法判定文本内容中字符的段落起止位置,可能会由于对文本内容分段不准确,导致后续文本内容处理出错的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确对扫描文本进行分段的扫描文本分段方法、装置、计算机设备和存储介质。
一种扫描文本分段方法,所述方法包括:
获取含有文本内容的图片;
对所述图片进行文本识别得到文本页面,所述文本页面中包含与所述文本内容行间顺序一致的字符;
获取所述文本页面中的每行字符的顶点参数,每行字符的所述顶点参数包括第一组顶点参数和第二组顶点参数;
根据所述顶点参数识别所述文本页面中的最长一行字符,获取所述最长一行字符的第二组顶点参数作为标准参数;
计算每行字符的所述第二组顶点参数与所述标准参数之间的差值;
在所述差值大于预设值的所在行中确定目标字符,并在所述目标字符之后加入分段符得到分段后的文本。
在其中一个实施例中,所述预设值的获取方式包括:
获取字符样本,并识别所述字符样本对应的字符种类;
计算每个所述字符种类对应的字符与汉字的占宽比;
根据所述占宽比计算所述预设值。
在其中一个实施例中,所述在所述目标字符之后加入分段符得到分段后的文本之后,还包括:
将所述分段后的文本发送至服务器;
接收所述服务器根据所述分段后的文本返回的更新指令;
根据所述更新指令更新所述预设值。
在其中一个实施例中,所述获取所述文本页面中的每行字符的顶点参数之后,还包括:
根据所述文本页面中的每行字符的顶点参数对所述文本分区;
根据分区后的所述文本生成新的文本页面;
继续所述获取所述文本页面中的每行字符的顶点参数。
在其中一个实施例中,所述在所述目标字符之后加入分段符得到分段后的文本之后,还包括:
保存所述分段完成后的文本;
删除所述文本页面中的每行字符的顶点参数。
一种扫描文本分段装置,所述装置包括:
图片获取模块,用于获取含有文本内容的图片;
内容转换模块,用于对所述图片进行文本识别得到文本页面,所述文本页面中包含与所述文本内容行间顺序一致的字符;
顶点参数获取模块,用于获取所述文本页面中的每行字符的顶点参数,每行字符的所述顶点参数包括第一组顶点参数和第二组顶点参数;
标准参数获取模块,用于根据所述顶点参数识别所述文本页面中的最长一行字符,获取所述最长一行字符的第二组顶点参数作为标准参数;
差值计算模块,用于计算每行字符的所述第二组顶点参数与所述标准参数之间的差值;
分段模块,用于在所述差值大于预设值的所在行中确定目标字符,并在所述目标字符之后加入分段符得到分段后的文本。
在其中一个实施例中,所述装置还包括:
样本获取模块,用于获取字符样本,并识别所述字符样本对应的字符种类;
字符种类分析模块,用于计算每个所述字符种类对应的字符与汉字的占宽比;
预设值计算模块,用于根据所述占宽比计算所述预设值。
在其中一个实施例中,所述装置还包括:
发送模块,用于将所述分段后的文本发送至服务器;
更新指令接收模块,用于接收所述服务器根据所述分段后的文本返回的更新指令;
预设值更新模块,用于根据所述更新指令更新所述预设值。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
上述扫描文本分段方法、装置、计算机设备和存储介质,终端通过对扫描得到的含有文本内容的图片进行识别得到文本页面,并获取文本页面每行字符的顶点参数,对每行文本在文本页面的顶点参数进行统计,判断出文本页面中的最长一行字符,并将最长一行字符的第二组顶点参数作为标准参数,依次将每行字符的第二组顶点参数与标准参数相对比,当二者的差值大于分段标准对应的预设值时,则终端认为此行为段落结束行,在此行的目标字符之后加入分段符,直至对文本分段完成;终端根据上述方法,在识别出扫描得到的图片中的文本内容后,也可以对文本内容中的字符进行准确分段。
附图说明
图1为一个实施例中扫描文本分段方法的应用场景图;
图2为一个实施例中扫描文本分段方法的流程示意图;
图3为一个实施例中预设值的获取方式的流程示意图;
图4为一个实施例中扫描文本分段装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的扫描文本分段方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端接收到用户的扫描请求后,获取目标文档的图片并转换为对应的目标文本后,对目标文本进行分段,终端102将分段后的目标文本和在分段过程中发现的问题发送至服务器104。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种扫描文本分段方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
S202,获取含有文本内容的图片。
其中,含有文本内容的图片是终端通过扫描设备对需要转化的目标文档进行拍摄或者扫描得到的图片,目标文档是用户想要进行扫描并转化为可编辑文本的文档,例如法律文件或技术文档等。扫描设备为终端内置或外接的扫描设备,如手机或电脑的摄像头,或者电脑外接的扫描仪等。待扫描区域则是用户想要通过终端扫描内容的放置区域;当扫描设备为手机或电脑时,则待扫描区域为摄像头的拍摄区域;当扫描设备为外接扫描仪时,待扫描区域为扫描仪的扫描区。
具体地,用户当有扫描需求时,可将需扫描识别的文件放置到终端内置或对接扫描设备的待扫描区域,通过扫描设备采集需扫描识别的目标文档的图片得到含有文本内容的图片。
S204,对图片进行文本识别得到文本页面,文本页面中包含与文本内容行间顺序一致的字符。
具体地,终端采集到含有文本内容的图片后,可以通过终端内置或外接的内容识别设备将图片中的文本内容按照图片中的排列顺序转化为可编辑的文本(或字符)形式,得到文本页面。其中,内容识别设备是用于将图片中的文本内容转化为可编辑的文本页面的设备,可以指OCR识别设备等;OCR(Optical Character Recognition,光学字符识别)设备是指检查图片上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文本的过程的设备。
S206,获取文本页面中的每行字符的顶点参数,每行字符的顶点参数包括第一组顶点参数和第二组顶点参数。
其中,每行字符的顶点参数是用于表征一行字符在文本页面中的位置和高宽的参数;例如,当文本页面为一个矩形的显示界面时,每行字符的顶点参数可以是此行字符的上下左右四个边界分别距离显示界面的上下左右四个边界的距离,即可以表示为一行字符的第一个字符的最左端与显示界面左边界的距离left、一行字符的最上端与显示界面上边界的距离top、此行的左右宽度为width、此行的高度为height,通过(left,top,width,height)的方式表示每行字符的顶点参数。另外,每行字符的顶点参数也可以是给文本页面设定长宽方向的坐标后,一行字符在文本页面的左边中的位置,例如设置文本页面的左下角为长宽方向的零坐标,则每行字符在文本页面中的位置可以表示为与此零坐标对应的四组坐标参数。对应地,每行字符的顶点参数包括第一组顶点参数和第二组顶点参数,第二组顶点参数为用于判定分段标准的顶点参数,可以是上例中的表征一行字符宽度的顶点参数,如一行字符的第一个字符的最左端与显示界面左边界的距离left以及此行的左右宽度为width;或一行字符的四组左边参数的宽度方向的差值。文本页面中每行字符的顶点参数可以根据技术人员的需求或者终端的识别方式进行调整,并不限于上述的例子。
具体地,在终端设备通过内容识别设备进行文本转换时,需要对文本页面中每行的字符的在文本页面中的位置进行分析,终端可直接通过内容识别设备记录文本页面中的每行字符在文本页面中的顶点参数,顶点参数可以包括用于对每行字符在文本页面中定位的两组顶点参数,其中第二组为与分段相关的顶点参数。
S208,根据顶点参数识别文本页面中的最长一行字符,获取最长一行字符的第二组顶点参数作为标准参数。
其中,文本页面中的最长一行字符是文本页面中作为分段标准的一行,可以是一行的最后一个字符的右端在距离文本页面右边界最近的一行,或者字符行宽度值最大的一行等。
具体地,终端在获取到文本页面中每行字符的顶点参数后,可以通过比较每行字符在文本页面中的宽度,将宽度值最大的一行作为文本页面中的最长一行字符,或者比较每行字符的最后一个字符的右端与文本页面右边界之间的距离最小的一行作为最长一行字符,取最长一行字符的与分段相关的第二组顶点参数,如此行最右端与文本页面右边界的相对位置作为之后对页面中文本的分段标准,即标准参数。
S210,计算每行字符的第二组顶点参数与标准参数之间的差值。
具体地,终端在步骤S208中获取判定是否分段的标准参数后,将文本页面中的每行的第二组顶点参数与标准参数相比较,并计算二者的差值,来判定此行是否需要分段。
S212,在差值大于预设值的所在行中确定目标字符,并在目标字符之后加入分段符得到分段后的文本。
其中,预设值是用于判断每行的第二组顶点参数与标准参数之间的差值是否可以作为分行判断标准的数值,其具体值是技术人员根据历史字符样本分析得到,其格式与每行字符第二组顶点参数、标准参数一致,可以设置为若干个像素值等等。
目标字符是本行结束的最后一个字符,可以是文字或者标点。
具体地,如果该行的第二组顶点参数与标准参数之间的差值大于预设值,则在此行的目标字符之后加入分段符“/n”,若该行的第二组顶点参数与标准参数之间的差值小于等于预设值,则认为其未分段,不需加入分段符。终端逐行判断此行是否分段,直至将目标文本分段完成,得到分段后的文本,供用户使用或者机器识别,如使机器可以识别分段符来进行段落定位。
另外,上述步骤S210中的计算每行字符的第二组顶点参数与标准参数之间的差值,当差值大于预设值时之后,还可以继续获取下一行字符的开始位置对应的顶点参数,当下一行的开始位置大于最长一行字符的开始位置对应的顶点参数时,则在此行的最后一个字符之后插入分段符。此步骤针对换行后下一行段首留有间隔的文本,根据此段末和下段首来判断是否分段,提高分段的准确性。
可选地,当待分段文本为多页时,终端可逐页获取文本内容作为文本页面执行上述的分段步骤,对一页中的文本分段完成后,继续获取目标文本的下一页作为文本页面,直至对目标文本的所有页分段完成。另外,对于一组扫描得到的多页排版相同的文本,终端可对第一页进行识别,将得到的标准参数作为整个文本的标准参数,即只需获取第一页的标准参数,剩下页仍用第一页的标准参数作为分段标准。对多页排版相同的文本,只需获取第一页满行的标准参数,提高本方法的分段效率。
上述扫描文本分段方法中,终端通过对扫描得到的含有文本内容的图片进行识别得到文本页面,并获取文本页面每行字符的顶点参数,判断出文本页面中的最长一行字符,并将最长一行字符的第二组顶点参数作为标准参数,依次将每行字符的第二组顶点参数与标准参数相对比,当二者的差值大于分段标准对应的预设值时,则终端认为此行为段落结束行,在此行的目标字符之后加入分段符,直至对文本分段完成;终端根据上述方法,在识别出图片中的文本的内容后,也可以对识别出的文本准确分段。
在一个实施例中,请参见图3,上述扫描文本分段方法中的预设值的获取方式可以包括:
S302,获取字符样本,并识别字符样本对应的字符种类。
其中,字符样本是用于分析同一文档中非汉字字符与汉字字符在行中的占宽的样本,可以为以前处理过的扫描文档。字符种类是非汉字字符的种类,例如字母或者数字等等。
具体地,终端在计算预设值时,需要根据历史处理过的分段文档作为字符样进行计算,此字符样本中包含不同的字符种类的字符,终端获取字符样本后,先识别其对应的字符种类。
S304,计算每个字符种类对应的字符与汉字的占宽比。
具体地,终端根据除汉字外的每个字符种类在文档中所占的宽度与汉字所占宽度的比值;例如可以根据样本粗略估算出将每个数字或字母认为占中文本符宽度的一半;若需要计算地更加精确,可以算出每个数字0-9和每个字母a-z和A-Z等等非汉字字符所占的宽度除以一个汉字的宽度生成一个非汉字字符的相对宽度哈希表,从此相对宽度哈希表中计算每个字符种类对应的字符与汉字的占宽比。
S306,根据占宽比计算预设值。
具体地,可根据对字符样本中不同种类与汉字的占宽比,如历史扫描的文件中的存在汉字、字母、数字、标点符号等字符,其满行之间的对齐情况得到用于调整由于字符排版问题造成的分段误差的预设值,具体可设置为最长一行字符的宽度的0.1~0.15倍。
上述实施例中,技术人员通过对大量字符样本进行研究,通过不同字符种类的排版的差异,计算出准确的预设值,对识别出的文本准确分段。
在一个实施例中,上述步骤S212中的在目标字符之后加入分段符得到分段后的文本之后,还可以包括:将分段后的文本发送至服务器;接收服务器根据分段后的文本返回的更新指令;根据更新指令更新预设值。
其中,更新指令是服务器向终端发送的、用于更新终端的预设值的指令,可以是用新的预设值代替终端本地的预设值的指令。
具体地,终端将分段完成的文本发送给服务器进行进一步处理或使用,服务器若发现终端的分段识别有误,则可针对其出错原因对预设值进行调整,生成更新指令,并将更新指令返回至终端,对终端本地的预设值进行更新,来对扫描的文档进行分段。
上述实施例中,服务器根据终端分段完成的文档检测预设值的准确性,若预设值不准确,则对其进行更新,提高终端对以后处理的文本分段的准确性。
在一个实施例中,上述步骤S206中的获取文本页面中的每行字符的顶点参数之后,还可以包括:根据文本页面中的每行字符的顶点参数对文本分区;根据分区后的文本生成新的文本页面;继续获取文本页面中的每行字符的顶点参数。
具体地,当终端识别到文本页面中的文本的排版差异较大,即每行字符的顶点参数之间的差值较大,如一行或连续几行的行首和其余行的行首的顶点参数之间的差值较大,或一行或连续几行的行末和其余行的行末的顶点参数之间的差值较大时,终端可根据差值的大小将文本页面进行分区,并将每个分区得到的区域生成新的文本页面,依次对新的文本页面中的文本进行分段。技术人员可以通过对历史分段样本进行研究设置对应的分区标准,例如将一行或者连续几行的顶点参数中的其中一组或两组与其他行对应的顶点参数的差值较大,如超出预设像素值时,则将这几行作为一个新的区域,文本页面中的其他行作为另一个区域等,把每个区域都生成新的文本页面终端再对新的页面中的内容按照上述步骤进行分段。此实施例是针对一页中有不同排版的文本,例如报纸、海报等,进行分段的情况。上述实施例中,对于一页中有不同排版的文本也可以通过分区的方式对其准确分段。
在一个实施例中,上述步骤S212中的在目标字符之后加入分段符得到分段后的文本之后,还可以包括:保存分段后的文本;删除文本页面中的每行字符的顶点参数。
具体地,在对文本页面中的内容分段结束后,终端保存分段完成的文本,删除自动清空扫描文本识别时的每行字符的顶点参数。可选地,也可以在终端获取用户输入或者服务器发送的删除指令,终端才删除文本页面中每行字符的顶点参数。
上述实施例中,由于顶点列表为文本的每行在文本页面中的位置表征参数,数据量较大,在终端完成对文本页面内的文本的分段操作后,应删除此文本页面分段过程中的获取的顶点参数,提高终端的运行速率。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种扫描文本分段装置,包括:图片获取模块100、内容转换模块200、顶点参数获取模块300、标准参数获取模块400、差值计算模块500和分段模块600,其中:
图片获取模块100,用于获取含有文本内容的图片。
内容转换模块200,用于对图片进行文本识别得到文本页面,文本页面中包含与文本内容行间顺序一致的字符。
顶点参数获取模块300,用于获取文本页面中的每行字符的顶点参数,每行字符的顶点参数包括第一组顶点参数和第二组顶点参数。
标准参数获取模块400,用于根据顶点参数识别文本页面中的最长一行字符,获取最长一行字符的第二组顶点参数作为标准参数。
差值计算模块500,用于计算每行字符的第二组顶点参数与标准参数之间的差值。
分段模块600,用于在差值大于预设值的所在行中确定目标字符,并在目标字符之后加入分段符得到分段后的文本。
在一个实施例中,上述扫描文本分段装置还可以包括:
样本获取模块,用于获取字符样本,并识别字符样本对应的字符种类。
字符种类分析模块,用于计算每个字符种类对应的字符与汉字的占宽比。
预设值计算模块,用于根据占宽比计算预设值。
在一个实施例中,上述扫描文本分段装置还可以包括:
发送模块,用于将分段后的文本发送至服务器。
更新指令接收模块,用于接收服务器根据分段后的文本返回的更新指令。
预设值更新模块,用于根据更新指令更新预设值。
在一个实施例中,上述扫描文本分段装置还可以包括:
分区模块,用于根据文本页面中的每行字符的顶点参数对文本分区。
页面更新模块,用于根据分区后的文本生成新的文本页面。
新页面分段模块,用于继续获取文本页面中的每行字符的顶点参数。
在一个实施例中,上述扫描文本分段装置还可以包括:
保存模块,用于保存分段后的文本。
参数删除模块,用于删除文本页面中的每行字符的顶点参数。
关于扫描文本分段装置的具体限定可以参见上文中对于扫描文本分段方法的限定,在此不再赘述。上述扫描文本分段装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种扫描文本分段方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取含有文本内容的图片;对图片进行文本识别得到文本页面,文本页面中包含与文本内容行间顺序一致的字符;获取文本页面中的每行字符的顶点参数,每行字符的顶点参数包括第一组顶点参数和第二组顶点参数;根据顶点参数识别文本页面中的最长一行字符,获取最长一行字符的第二组顶点参数作为标准参数;计算每行字符的第二组顶点参数与标准参数之间的差值;在差值大于预设值的所在行中确定目标字符,并在目标字符之后加入分段符得到分段后的文本。
在一个实施例中,处理器执行计算机程序时实现的预设值的获取方式包括:获取字符样本,并识别字符样本对应的字符种类;计算每个字符种类对应的字符与汉字的占宽比;根据占宽比计算预设值。
在一个实施例中,处理器执行计算机程序时实现的在目标字符之后加入分段符得到分段后的文本之后,还包括:将分段后的文本发送至服务器;接收服务器根据分段后的文本返回的更新指令;根据更新指令更新预设值。
在一个实施例中,处理器执行计算机程序时实现的获取文本页面中的每行字符的顶点参数之后,还包括:根据文本页面中的每行字符的顶点参数对文本分区;根据分区后的文本生成新的文本页面;继续获取文本页面中的每行字符的顶点参数。
在一个实施例中,处理器执行计算机程序时实现的在目标字符之后加入分段符得到分段后的文本之后,还包括:保存分段后的文本;删除文本页面中的每行字符的顶点参数。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取含有文本内容的图片;对图片进行文本识别得到文本页面,文本页面中包含与文本内容行间顺序一致的字符;获取文本页面中的每行字符的顶点参数,每行字符的顶点参数包括第一组顶点参数和第二组顶点参数;根据顶点参数识别文本页面中的最长一行字符,获取最长一行字符的第二组顶点参数作为标准参数;计算每行字符的第二组顶点参数与标准参数之间的差值;在差值大于预设值的所在行中确定目标字符,并在目标字符之后加入分段符得到分段后的文本。
在一个实施例中,计算机程序被处理器执行时实现的预设值的获取方式包括:获取字符样本,并识别字符样本对应的字符种类;计算每个字符种类对应的字符与汉字的占宽比;根据占宽比计算预设值。
在一个实施例中,计算机程序被处理器执行时实现的在目标字符之后加入分段符得到分段后的文本之后,还包括:将分段后的文本发送至服务器;接收服务器根据分段后的文本返回的更新指令;根据更新指令更新预设值。
在一个实施例中,计算机程序被处理器执行时实现的获取文本页面中的每行字符的顶点参数之后,还包括:根据文本页面中的每行字符的顶点参数对文本分区;根据分区后的文本生成新的文本页面;继续获取文本页面中的每行字符的顶点参数。
在一个实施例中,计算机程序被处理器执行时实现的在目标字符之后加入分段符得到分段后的文本之后,还包括:保存分段后的文本;删除文本页面中的每行字符的顶点参数。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种扫描文本分段方法,所述方法包括:
获取含有文本内容的图片;
对所述图片进行文本识别得到文本页面,所述文本页面中包含与所述文本内容行间顺序一致的字符;
获取所述文本页面中的每行字符的顶点参数,所述顶点参数是用于表征一行字符在文本页面中的位置和高宽的参数,每行字符的所述顶点参数包括第一组顶点参数和第二组顶点参数,所述第二组顶点参数为用于判定分段标准的顶点参数;
根据所述顶点参数识别所述文本页面中的最长一行字符,获取所述最长一行字符的第二组顶点参数作为标准参数;
计算每行字符的所述第二组顶点参数与所述标准参数之间的差值;
在所述差值大于预设值的所在行中确定目标字符,并在所述目标字符之后加入分段符得到分段后的文本。
2.根据权利要求1所述的方法,其特征在于,所述预设值的获取方式包括:
获取字符样本,并识别所述字符样本对应的字符种类;
计算每个所述字符种类对应的字符与汉字的占宽比;
根据所述占宽比计算所述预设值。
3.根据权利要求2所述的方法,其特征在于,所述在所述目标字符之后加入分段符得到分段后的文本之后,还包括:
将所述分段后的文本发送至服务器;
接收所述服务器根据所述分段后的文本返回的更新指令;
根据所述更新指令更新所述预设值。
4.根据权利要求1所述的方法,其特征在于,所述获取所述文本页面中的每行字符的顶点参数之后,还包括:
根据所述文本页面中的每行字符的顶点参数对所述文本分区;
根据分区后的所述文本生成新的文本页面;
继续所述获取所述文本页面中的每行字符的顶点参数。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述在所述目标字符之后加入分段符得到分段后的文本之后,还包括:
保存所述分段后的文本;
删除所述文本页面中的每行字符的顶点参数。
6.一种扫描文本分段装置,其特征在于,所述装置包括:
图片获取模块,用于获取含有文本内容的图片;
内容转换模块,用于对所述图片进行文本识别得到文本页面,所述文本页面中包含与所述文本内容行间顺序一致的字符;
顶点参数获取模块,用于获取所述文本页面中的每行字符的顶点参数,所述顶点参数是用于表征一行字符在文本页面中的位置和高宽的参数,每行字符的所述顶点参数包括第一组顶点参数和第二组顶点参数,所述第二组顶点参数为用于判定分段标准的顶点参数;
标准参数获取模块,用于根据所述顶点参数识别所述文本页面中的最长一行字符,获取所述最长一行字符的第二组顶点参数作为标准参数;
差值计算模块,用于计算所述每行字符的所述第二组与所述标准参数之间的差值;
分段模块,用于在所述差值大于预设值的所在行中确定目标字符,并在所述目标字符之后加入分段符得到分段后的文本。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
样本获取模块,用于获取字符样本,并识别所述字符样本对应的字符种类;
字符种类分析模块,用于计算每个所述字符种类对应的字符与汉字的占宽比;
预设值计算模块,用于根据所述占宽比计算所述预设值。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
发送模块,用于将所述分段后的文本发送至服务器;
更新指令接收模块,用于接收所述服务器根据所述分段后的文本返回的更新指令;
预设值更新模块,用于根据所述更新指令更新所述预设值。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910418522.6A CN110245570B (zh) | 2019-05-20 | 2019-05-20 | 扫描文本分段方法、装置、计算机设备和存储介质 |
PCT/CN2019/102549 WO2020232866A1 (zh) | 2019-05-20 | 2019-08-26 | 扫描文本分段方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910418522.6A CN110245570B (zh) | 2019-05-20 | 2019-05-20 | 扫描文本分段方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245570A CN110245570A (zh) | 2019-09-17 |
CN110245570B true CN110245570B (zh) | 2023-04-18 |
Family
ID=67884469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910418522.6A Active CN110245570B (zh) | 2019-05-20 | 2019-05-20 | 扫描文本分段方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110245570B (zh) |
WO (1) | WO2020232866A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177532B (zh) * | 2021-05-27 | 2024-04-05 | 中国平安人寿保险股份有限公司 | 图像中文字的段落边界的识别方法、装置、设备及介质 |
CN113191348B (zh) * | 2021-05-31 | 2023-02-03 | 山东新一代信息产业技术研究院有限公司 | 一种基于模板的文本结构化提取方法及工具 |
CN114444439B (zh) * | 2022-04-08 | 2022-08-26 | 深圳市壹箭教育科技有限公司 | 试题集文件生成方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105487396A (zh) * | 2015-12-29 | 2016-04-13 | 宇龙计算机通信科技(深圳)有限公司 | 智能家居的控制方法和智能家居的控制装置 |
CN106326854A (zh) * | 2016-08-19 | 2017-01-11 | 掌阅科技股份有限公司 | 一种版式文档段落识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7970213B1 (en) * | 2007-05-21 | 2011-06-28 | A9.Com, Inc. | Method and system for improving the recognition of text in an image |
US8565474B2 (en) * | 2010-03-10 | 2013-10-22 | Microsoft Corporation | Paragraph recognition in an optical character recognition (OCR) process |
CN107545223B (zh) * | 2016-06-29 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 图像识别方法及电子设备 |
CN108734089B (zh) * | 2018-04-02 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
CN109697414B (zh) * | 2018-12-13 | 2021-06-18 | 北京金山数字娱乐科技有限公司 | 一种文本定位方法及装置 |
-
2019
- 2019-05-20 CN CN201910418522.6A patent/CN110245570B/zh active Active
- 2019-08-26 WO PCT/CN2019/102549 patent/WO2020232866A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105487396A (zh) * | 2015-12-29 | 2016-04-13 | 宇龙计算机通信科技(深圳)有限公司 | 智能家居的控制方法和智能家居的控制装置 |
CN106326854A (zh) * | 2016-08-19 | 2017-01-11 | 掌阅科技股份有限公司 | 一种版式文档段落识别方法 |
Non-Patent Citations (1)
Title |
---|
王佐林 ; 王希常 ; 刘江 ; 周义彬 ; .基于数学形态学的文档图像段落标记及其应用.山东师范大学学报(自然科学版).2007,(第04期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110245570A (zh) | 2019-09-17 |
WO2020232866A1 (zh) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021017260A1 (zh) | 多语言文本识别方法、装置、计算机设备及存储介质 | |
CN110245570B (zh) | 扫描文本分段方法、装置、计算机设备和存储介质 | |
CN111898411B (zh) | 文本图像标注系统、方法、计算机设备和存储介质 | |
US8693790B2 (en) | Form template definition method and form template definition apparatus | |
JP5508359B2 (ja) | 文字認識装置、文字認識方法及びプログラム | |
US8515176B1 (en) | Identification of text-block frames | |
CN109214385B (zh) | 数据采集方法、数据采集装置及存储介质 | |
WO2021012382A1 (zh) | 配置聊天机器人的方法、装置、计算机设备和存储介质 | |
CN107689070B (zh) | 图表数据结构化提取方法、电子设备及计算机可读存储介质 | |
US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
EP3540644B1 (en) | Image processing device, image processing method, and image processing program | |
US8837818B2 (en) | Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program | |
US10503993B2 (en) | Image processing apparatus | |
CN111008559A (zh) | 一种面单识别结果的排版方法、系统及计算机设备 | |
US8773733B2 (en) | Image capture device for extracting textual information | |
US11941903B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
US8768058B2 (en) | System for extracting text from a plurality of captured images of a document | |
JP2018042067A (ja) | 画像処理システム、画像処理方法、情報処理装置 | |
JP5412916B2 (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
US8908970B2 (en) | Textual information extraction method using multiple images | |
CN116860747A (zh) | 训练样本的生成方法、装置、电子设备及存储介质 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
US20180336444A1 (en) | Methods and systems for adding new content in an electronic document generated by scanning | |
CN113486828B (zh) | 图像处理方法、装置、设备和存储介质 | |
JP2021196944A (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |