CN109145907B - 基于常用字字频统计的文本图像倒置检测方法及装置 - Google Patents

基于常用字字频统计的文本图像倒置检测方法及装置 Download PDF

Info

Publication number
CN109145907B
CN109145907B CN201811059509.8A CN201811059509A CN109145907B CN 109145907 B CN109145907 B CN 109145907B CN 201811059509 A CN201811059509 A CN 201811059509A CN 109145907 B CN109145907 B CN 109145907B
Authority
CN
China
Prior art keywords
text image
image
text
preset
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811059509.8A
Other languages
English (en)
Other versions
CN109145907A (zh
Inventor
张曙华
杨安荣
骆建珍
袁嘉新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinlian Information Development Co ltd
Original Assignee
Shanghai Xinlian Information Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinlian Information Development Co Ltd filed Critical Shanghai Xinlian Information Development Co Ltd
Priority to CN201811059509.8A priority Critical patent/CN109145907B/zh
Publication of CN109145907A publication Critical patent/CN109145907A/zh
Application granted granted Critical
Publication of CN109145907B publication Critical patent/CN109145907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明实施例提供一种基于常用字字频统计的文本图像倒置检测方法及装置,属于文本图像增强技术领域。该方法包括:过获取待检测的文本图像;对所述文本图像通过OCR技术进行识别,获得所述文本图像对应的文本信息;从所述文本信息提取的所有字中查找出预设常用字,并且统计预设常用字的数量;基于预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第一数量占比;基于所述第一数量占比判断所述文本图像是否倒置,由此,本方案中,通过统计文本信息中的预设常用字的第一数量占比来判断所述文本图像是否倒置,大大提高了文本图像倒置检测的质量和效率,避免了现有技术中由人工对文本图像进行检测造成检测效率低下、枯燥乏味的问题。

Description

基于常用字字频统计的文本图像倒置检测方法及装置
技术领域
本发明涉及文本图像增强技术领域,具体而言,涉及一种基于常用字字频统计的文本图像倒置检测方法及装置。
背景技术
档案数字化是档案信息化发展的必然趋势,档案数字化可以有效的保护档案原件,同时也有利于提供高效优质的档案利用服务。在档案数字化过程中,由于档案扫描人员技术熟练程度不高、不经意的失误等各方面的原因,扫描图像中往往会存在偏斜、倒置等情况,如果不加以处理,对后续的扫描图像全文,以及今后数字化成果的利用都会造成一定的困扰。
目前传统的做法是安排图像处理人员,逐页查看扫描图像,如果发现偏斜、倒置的情况,则利用图像处理工具,手动完成图像纠偏、图像旋转的操作。由于档案数字化的量都非常大,采用传统的方法需要耗费大量的人力,并且工作效率也非常低。
发明内容
有鉴于此,本发明实施例的目的在于提供一种基于常用字字频统计的文本图像倒置检测方法及装置,以改善上述问题。
第一方面,本发明实施例提供了一种基于常用字字频统计的文本图像倒置检测方法,所述方法包括:获取待检测的文本图像;对所述文本图像通过OCR技术进行识别,获得所述文本图像对应的文本信息;从所述文本信息提取的所有字中查找出预设常用字,并且统计所述预设常用字的数量;基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第一数量占比;基于所述第一数量占比判断所述文本图像是否倒置。
可选地,基于所述第一数量占比判断所述文本图像是否倒置,包括:
将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常。
可选地,基于所述第一数量占比判断所述文本图像是否倒置,包括:
将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常,若所述第一数量占比小于所述预设占比阈值,则将所述文本图像进行旋转预设角度,判断获得旋转后的旋转文本图像是否倒置。
可选地,将所述文本图像进行旋转预设角度,判断获得旋转后的旋转文本图像是否倒置,包括:将所述文本图像进行旋转180°,获得旋转后的旋转文本图像;对所述旋转文本图像通过OCR技术进行识别,获得所述旋转文本图像对应的旋转文本信息;从所述旋转文本信息中查找出预设常用字,且统计所述预设常用字的数量;基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第二数量占比;若所述第一数量占比大于或等于所述第二数量占比,则判断所述文本图像正常,若所述第一数量占比小于所述第二数量占比,则判定所述文本图像倒置。
可选地,获取待检测的文本图像之前,所述方法还包括:获取待处理的原始文本图像;对所述原始文本图像进行灰度化处理,获得灰度图;对所述灰度图进行二值化处理,获得二值图像;对所述二值图像进行去噪处理,获得处理后的待检测的文本图像。
第二方面,本发明实施例提供了一种基于常用字字频统计的文本图像倒置检测装置,所述装置包括:
图像获取模块,用于获取待检测的文本图像;
图像识别模块,用于对所述文本图像通过OCR技术进行识别,获得所述文本图像对应的文本信息;
常用字数量统计模块,用于从所述文本信息提取的所有字中查找出预设常用字,并且统计所述预设常用字的数量;
数量占比计算模块,用于基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第一数量占比;
倒置判断模块,用于基于所述第一数量占比判断所述文本图像是否倒置。
可选地,所述倒置判断模块,具体用于将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常。
可选地,所述倒置判断模块,具体用于将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常,若所述第一数量占比小于所述预设占比阈值,则将所述文本图像进行旋转预设角度,判断获得旋转后的旋转文本图像是否倒置。
可选地,所述倒置判断模块,具体用于将所述文本图像进行旋转180°,获得旋转后的旋转文本图像;对所述旋转文本图像通过OCR技术进行识别,获得所述旋转文本图像对应的旋转文本信息;从所述旋转文本信息中查找出预设常用字,且统计所述预设常用字的数量;基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第二数量占比;若所述第一数量占比大于或等于所述第二数量占比,则判断所述文本图像正常,若所述第一数量占比小于所述第二数量占比,则判定所述文本图像倒置。
可选地,所述装置还包括:
原始图像获取模块,用于获取待处理的原始文本图像;
灰度处理模块,用于对所述原始文本图像进行灰度化处理,获得灰度图;
二值化处理模块,用于对所述灰度图进行二值化处理,获得二值图像;
去噪处理模块,用于对所述二值图像进行去噪处理,获得处理后的待检测的文本图像。
第三方面,本发明实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本发明实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本发明实施例的有益效果是:
本发明实施例提供一种基于常用字字频统计的文本图像倒置检测方法及装置,该方法通过获取待检测的文本图像,然后对所述文本图像通过OCR技术进行识别,获得所述文本图像对应的文本信息,再从所述文本信息提取的所有字中查找出预设常用字,并且统计所述预设常用字的数量,然后基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第一数量占比,再基于所述第一数量占比判断所述文本图像是否倒置,由此,本方案中,通过统计文本信息中的预设常用字的第一数量占比来判断所述文本图像是否倒置,大大提高了文本图像倒置检测的质量和效率,避免了现有技术中由人工对文本图像进行检测造成检测效率低下、枯燥乏味的问题。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了一种可应用于本申请实施例中的电子设备的结构框图;
图2为本发明实施例提供的一种基于常用字字频统计的文本图像倒置检测方法的流程图;
图3为本发明实施例提供的一种基于常用字字频统计的文本图像倒置检测装置的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1示出了一种可应用于本申请实施例中的电子设备100的结构框图。电子设备100可以包括基于常用字字频统计的文本图像倒置检测装置、存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、音频单元106、显示单元107。
所述存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、音频单元106、显示单元107各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述基于常用字字频统计的文本图像倒置检测装置包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述基于常用字字频统计的文本图像倒置检测装置的操作系统(operating system,OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块,例如所述基于常用字字频统计的文本图像倒置检测装置包括的软件功能模块或计算机程序。
其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可以是一种集成电路芯片,具有信号的处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。
所述外设接口104将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元105用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元105可以是,但不限于,鼠标和键盘等。
音频单元106向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元107在所述电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元107可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器103进行计算和处理。
所述外设接口104将各种输入/输入装置耦合至处理器103以及存储器101。在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元105用于提供给用户输入数据实现用户与处理终端的交互。所述输入输出单元105可以是,但不限于,鼠标和键盘等。
可以理解,图1所示的结构仅为示意,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,图2为本发明实施例提供的一种基于常用字字频统计的文本图像倒置检测方法的流程图,所述方法包括如下步骤:
步骤S110:获取待检测的文本图像。
待检测的文本图像为经过预处理的图像,所以,在获取待检测的文本图像之前,还需获取待处理的原始文本图像,对所述原始文本图像进行灰度化处理,获得灰度图,对所述灰度图进行二值化处理,获得二值图像,对所述二值图像进行去噪处理,获得处理后的待检测的文本图像。
其中,由于输入的纸质档案数字化成果为原始文本图像,该图像可能为彩色图像或者不清晰的图像,所以需先对原始文本图像进行灰度化处理,获得灰度图。
具体地,基于f(x,y)=(R(x,y)+G(x,y)+B(x,y))/3获取所述原始文本图像中的每一个像素点的灰度值,以获得所述原始文本图像对应的灰度图。
其中,f(x,y)为灰度值,R(x,y)代表红色通道的值,G(x,y)代表绿色通道的值,B(x,y)代表蓝色通道的值。
然后,图像二值化的实质是将图像中的文字从复杂的背景中分离出来,抛去无关的信息,获得便于后续处理的二值图像,即二值图像中只有黑白两种颜色,所以,可基于
Figure GDA0002661597870000091
对所述灰度图进行二值化处理,获得二值图像。
其中,g(x,y)为对所述二值图像,f(x,y)为所述灰度图,0代表黑色的文本像素,255代表白色的背景像素,T为采用OTSU算法计算得出的阈值。
经过上述处理,可获得文字与背景分离的二值图像。
在纸质档案数字化过程中,由于扫描设备等方面的原因,图像中会存在一定的噪声,为不影响图像光学字符识别(Optical CharacterRecognition,OCR)识别效果,需要对于图像进行去噪处理,本实施例中,可通过中值滤波技术对图像进行去噪处理,则可基于p(x,y)=med{g(x-k,y-l),(k,l∈W)}对所述二值图像进行去噪处理,获得处理后的待检测的文本图像。
其中,p(x,y)为所述文本图像,g(x,y)为所述二值图像,W为二维模板,通常为3*3或5*5区域。
步骤S120:对所述文本图像通过OCR技术进行识别,获得所述文本图像对应的文本信息。
OCR技术是光学字符识别的缩写,是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别及时将图像信息转化为可以使用的计算机输入技术,即将文本图像上的文字转化为计算机可编辑的文字内容。
所以,在获得文本图像后,可通过OCR技术获得文本图像对应的文本信息。
步骤S130:从所述文本信息提取的所有字中查找出预设常用字,并且统计所述预设常用字的数量。
由于文本信息有众多的汉字或数字或英文字符等组成,为了判断文本图像是否倒置,可以统计文本信息中预设常用字的数量。
常用字是指中文中经常用到的汉字,而根据国家语言文字工作委员会和国家教育委员会发布的《现代汉语常用字表》,共收录3500字,其中常用字2500字,次常用字1000字。据权威统计,2500常用字中,最常用的50个汉字为:“的、一、是、在、不、了、有、和、人、这、中、大、为、上、个、国、我、以、要、他、时、来、用、们、生、到、作、地、于、出、就、分、对、成、会、可、主、发、年、动、同、工、也、能、下、过、子、说、产、种”。
有专业人士利用计算机对《鲁迅全集》、《金庸全集》、《路遥全集》、《楚天碧心》四部文学作品做过统计,四部文学作品总共有一千五百多万字,其中最常用字是“的”字,出现了四十多万次,占比为2.74%,第二是“一”字,出现二十八万多次,占比1.84%。
由此可见,在纸质档案中,每份档案中将不可避免的也会存在以上最常用的汉字。基于OCR技术,对文本图像进行全文OCR,指定一个或者多个预设常用字,在OCR识别结果中进行查找并统计,如果指定的预设常用字占比超过一定的比例,则认为图像为正常,而如果图像倒置,则识别出的常用字占比会很小。
因此,随着OCR技术的不断进步,基于常用字占比统计判别图像是否倒置,从而实现纸质档案数字化成果倒置自动检测方法具有可行性。
其中,在预设常用字指定时,要尽量选择最常用的常用字,但是对于一些上下对称的常用字,比如“一、二、中、日、工”等,由于其不论图像是否倒置,OCR识别结果是相同的,所以不建议将这类常用字作为指定常用字。
另外,考虑到档案的历史性,部分历史档案可能采用古文书写,针对古文书写的纸质档案,可以调整常用字,比如古文中最常用的“之、其、也、以、于、而、者”等。
所以,预设常用字可以为上述50个常用字中除上下对称的常用字以外的其他常用字。
首先,可以统计文本信息中预设常用字的数量,比如,预设常用字为“的”,查找出现的数量为50,由此可获得预设常用字数量。
步骤S140:基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第一数量占比。
获得文本信息后,可以统计文本信息中所有字的数量,例如,整个文本信息包含有1000字,该1000字为文本信息所有字的数量,若统计获得预设常用字的数量为50字,则第一数量占比为50/1000=1/20。
第一数量占比的计算公式为:
Figure GDA0002661597870000111
其中,B1为预设常用字的数量,A1为文本信息中所有字的数量。
步骤S150:基于所述第一数量占比判断所述文本图像是否倒置。
在获得预设常用字在文本信息中所有字中的第一数量占比后,可以根据第一数量占比判断所述文本图像是否倒置,如作为一种实施方式,将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常,若所述第一数量占比小于所述预设占比阈值,则判定所述文本图像倒置。
其中,预设占比阈值可以自行定义,例如可按照实际经验,将预设占比阈值R设置为5%,则将第一数量占比r1与预设占比阈值R进行比较,若r1>=R,则判定所述文本图像正常,若r1<R,则需要进行进一步判断。
另外,在上述实施例的基础上,若所述第一数量占比小于所述预设占比阈值时,还可对文本图像是否倒置进行进一步判断,则将所述文本图像进行旋转预设角度,判断获得旋转后的旋转文本图像是否倒置。
具体地,将所述文本图像进行旋转180°,获得旋转后的旋转文本图像;对所述旋转文本图像通过OCR技术进行识别,获得所述旋转文本图像对应的旋转文本信息;从所述旋转文本信息中查找出预设常用字,且统计所述预设常用字的数量;基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第二数量占比;若所述第一数量占比大于或等于所述第二数量占比,则判断所述文本图像正常,若所述第一数量占比小于所述第二数量占比,则判定所述文本图像倒置。
其中,将文本图像旋转180°后,重新对旋转后的旋转文本图像进行OCR识别,对OCR识别的文字数量进行统计,即获得旋转文本信息后所有字的数量为A2,预设常用字的数量为B2,则根据
Figure GDA0002661597870000121
获得第二数量占比,然后将第一数量占比与第二数量占比进行比较,即将r1和r2进行比较,若r1>=r2,则判定文本图像正常,若r1<r2,则判定所述文本图像倒置。
所以,本实施例中采用OCR技术,基于OCR识别文本图像中的预设常用字占比统计结果进行判定,在技术实现上非常简单,并且可实现纸质档案数字化成果倒置与否的自动判断,非常高效。
另外,由于纸质档案数字化加工具有批量性的特点,本发明实施例可结合每批纸质档案的特点灵活指定不同的常用字,可满足不同年代不同档案类型的检测需求,适用性非常广。
再者,为实现档案信息资源的深度检索和利用,在纸质档案数字化加工过程中进行OCR识别,生成可检索利用的档案资源,是当前数字化加工流程中不可或缺的一个环节,而本发明实施例正是应用OCR识别技术,基于OCR识别结果进行判定,既没有增加额外的工作量,同时还有利于提高OCR识别的质量,因此本发明实施例在纸质档案数字化加工过程中进行应用具有较强的实用性。
所以,本发明实施例通过基于OCR技术,对OCR识别结果进行预设常用字占比统计,再将预设常用字占比统计结果与预设占比阈值进行比较,从而实现纸质档案数字化成果倒置的自动检测。本发明实施例改变了传统纸质档案数字化成果人工检测效率低下、枯燥乏味的问题,大大提高了纸质档案数字化成果检测的质量和效率,可在纸质档案数字化过程中进行推广应用。
请参照图3,图3为本发明实施例提供的一种基于常用字字频统计的文本图像倒置检测装置200的结构框图,所述装置包括:
图像获取模块210,用于获取待检测的文本图像;
图像识别模块220,用于对所述文本图像通过OCR技术进行识别,获得所述文本图像对应的文本信息;
常用字数量统计模块230,用于从所述文本信息提取的所有字中查找出预设常用字,并且统计所述预设常用字的数量;
数量占比计算模块240,用于基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第一数量占比;
倒置判断模块250,用于基于所述第一数量占比判断所述文本图像是否倒置。
可选地,所述倒置判断模块250,具体用于将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常。
可选地,所述倒置判断模块250,具体用于将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常,若所述第一数量占比小于所述预设占比阈值,则将所述文本图像进行旋转预设角度,判断获得旋转后的旋转文本图像是否倒置。
可选地,所述倒置判断模块250,具体用于将所述文本图像进行旋转180°,获得旋转后的旋转文本图像;对所述旋转文本图像通过OCR技术进行识别,获得所述旋转文本图像对应的旋转文本信息;从所述旋转文本信息中查找出预设常用字,且统计所述预设常用字的数量;基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第二数量占比;若所述第一数量占比大于或等于所述第二数量占比,则判断所述文本图像正常,若所述第一数量占比小于所述第二数量占比,则判定所述文本图像倒置。
可选地,所述装置还包括:
原始图像获取模块,用于获取待处理的原始文本图像;
灰度处理模块,用于对所述原始文本图像进行灰度化处理,获得灰度图;
二值化处理模块,用于对所述灰度图进行二值化处理,获得二值图像;
去噪处理模块,用于对所述二值图像进行去噪处理,获得处理后的待检测的文本图像。
本申请实施例提供一种可读取存储介质,所述计算机程序被处理器执行时,执行如图2所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本发明实施例提供一种基于常用字字频统计的文本图像倒置检测方法及装置,该方法通过获取待检测的文本图像,然后对所述文本图像通过OCR技术进行识别,获得所述文本图像对应的文本信息,再从所述文本信息提取的所有字中查找出预设常用字,并且统计所述预设常用字的数量,然后基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第一数量占比,再基于所述第一数量占比判断所述文本图像是否倒置,由此,本方案中,通过统计文本信息中的预设常用字的第一数量占比来判断所述文本图像是否倒置,大大提高了文本图像倒置检测的质量和效率,避免了现有技术中由人工对文本图像进行检测造成检测效率低下、枯燥乏味的问题。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种基于常用字字频统计的文本图像倒置检测方法,其特征在于,所述方法包括:
获取待检测的文本图像;
对所述文本图像通过OCR技术进行识别,获得所述文本图像对应的文本信息;
从所述文本信息提取的所有字中查找出预设常用字,并且统计所述预设常用字的数量;
基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第一数量占比;
基于所述第一数量占比判断所述文本图像是否倒置。
2.根据权利要求1所述的方法,其特征在于,基于所述第一数量占比判断所述文本图像是否倒置,包括:
将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常。
3.根据权利要求1所述的方法,其特征在于,基于所述第一数量占比判断所述文本图像是否倒置,包括:
将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常,若所述第一数量占比小于所述预设占比阈值,则将所述文本图像进行旋转预设角度,判断获得旋转后的旋转文本图像是否倒置。
4.根据权利要求3所述的方法,其特征在于,将所述文本图像进行旋转预设角度,判断获得旋转后的旋转文本图像是否倒置,包括:
将所述文本图像进行旋转180°,获得旋转后的旋转文本图像;
对所述旋转文本图像通过OCR技术进行识别,获得所述旋转文本图像对应的旋转文本信息;
从所述旋转文本信息中查找出预设常用字,且统计从所述旋转文本信息中查找出的预设常用字的数量;
基于从所述旋转文本信息中查找出的预设常用字的数量计算从所述旋转文本信息中查找出的预设常用字在所述文本信息中的所有字中的第二数量占比;
若所述第一数量占比大于或等于所述第二数量占比,则判断所述文本图像正常,若所述第一数量占比小于所述第二数量占比,则判定所述文本图像倒置。
5.根据权利要求1所述的方法,其特征在于,获取待检测的文本图像之前,所述方法还包括:
获取待处理的原始文本图像;
对所述原始文本图像进行灰度化处理,获得灰度图;
对所述灰度图进行二值化处理,获得二值图像;
对所述二值图像进行去噪处理,获得处理后的待检测的文本图像。
6.一种基于常用字字频统计的文本图像倒置检测装置,其特征在于,所述装置包括:
图像获取模块,用于获取待检测的文本图像;
图像识别模块,用于对所述文本图像通过OCR技术进行识别,获得所述文本图像对应的文本信息;
常用字数量统计模块,用于从所述文本信息提取的所有字中查找出预设常用字,并且统计所述预设常用字的数量;
数量占比计算模块,用于基于所述预设常用字的数量计算所述预设常用字在所述文本信息中的所有字中的第一数量占比;
倒置判断模块,用于基于所述第一数量占比判断所述文本图像是否倒置。
7.根据权利要求6所述的装置,其特征在于,所述倒置判断模块,具体用于将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常。
8.根据权利要求6所述的装置,其特征在于,所述倒置判断模块,具体用于将所述第一数量占比与预设占比阈值进行比较,若所述第一数量占比大于或等于所述预设占比阈值,则判定所述文本图像正常,若所述第一数量占比小于所述预设占比阈值,则将所述文本图像进行旋转预设角度,判断获得旋转后的旋转文本图像是否倒置。
9.根据权利要求8所述的装置,其特征在于,所述倒置判断模块,具体用于将所述文本图像进行旋转180°,获得旋转后的旋转文本图像;对所述旋转文本图像通过OCR技术进行识别,获得所述旋转文本图像对应的旋转文本信息;从所述旋转文本信息中查找出预设常用字,且统计从所述旋转文本信息中查找出的预设常用字的数量;基于从所述旋转文本信息中查找出的预设常用字的数量计算从所述旋转文本信息中查找出的预设常用字在所述文本信息中的所有字中的第二数量占比;若所述第一数量占比大于或等于所述第二数量占比,则判断所述文本图像正常,若所述第一数量占比小于所述第二数量占比,则判定所述文本图像倒置。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
原始图像获取模块,用于获取待处理的原始文本图像;
灰度处理模块,用于对所述原始文本图像进行灰度化处理,获得灰度图;
二值化处理模块,用于对所述灰度图进行二值化处理,获得二值图像;
去噪处理模块,用于对所述二值图像进行去噪处理,获得处理后的待检测的文本图像。
CN201811059509.8A 2018-09-11 2018-09-11 基于常用字字频统计的文本图像倒置检测方法及装置 Active CN109145907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811059509.8A CN109145907B (zh) 2018-09-11 2018-09-11 基于常用字字频统计的文本图像倒置检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811059509.8A CN109145907B (zh) 2018-09-11 2018-09-11 基于常用字字频统计的文本图像倒置检测方法及装置

Publications (2)

Publication Number Publication Date
CN109145907A CN109145907A (zh) 2019-01-04
CN109145907B true CN109145907B (zh) 2020-12-11

Family

ID=64824665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811059509.8A Active CN109145907B (zh) 2018-09-11 2018-09-11 基于常用字字频统计的文本图像倒置检测方法及装置

Country Status (1)

Country Link
CN (1) CN109145907B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647882A (zh) * 2019-09-20 2020-01-03 上海眼控科技股份有限公司 图像校正方法、装置、设备及存储介质
US11238618B2 (en) 2019-11-26 2022-02-01 International Business Machines Corporation Image recognition
CN112818983A (zh) * 2021-01-22 2021-05-18 常州友志自动化科技有限公司 一种利用图片相识度判断字符倒置的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814066A (zh) * 2009-02-23 2010-08-25 富士通株式会社 文本阅读难度判断设备及其方法
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN106156766A (zh) * 2015-03-25 2016-11-23 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
CN106960208A (zh) * 2017-03-28 2017-07-18 哈尔滨工业大学 一种仪表液晶数字自动切分和识别的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI318058B (en) * 2005-01-26 2009-12-01 Qisda Corp Message compression method, system and machine-readable storage medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814066A (zh) * 2009-02-23 2010-08-25 富士通株式会社 文本阅读难度判断设备及其方法
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN106156766A (zh) * 2015-03-25 2016-11-23 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
CN106960208A (zh) * 2017-03-28 2017-07-18 哈尔滨工业大学 一种仪表液晶数字自动切分和识别的方法及系统

Also Published As

Publication number Publication date
CN109145907A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN106326888B (zh) 图像识别方法和装置
CN107067006B (zh) 一种服务于数据采集的验证码识别方法及系统
JP6528147B2 (ja) 会計データ入力支援システム、方法およびプログラム
CN109145907B (zh) 基于常用字字频统计的文本图像倒置检测方法及装置
CN1276384C (zh) 视频流可分类符号分离的方法与系统
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
TW201617971A (zh) 資訊識別方法及裝置
JPH09500473A (ja) 手書き入力の認識方法
TW201405440A (zh) 表單識別方法與裝置
CN109697414B (zh) 一种文本定位方法及装置
US10402639B2 (en) Identifying document forms using digital fingerprints
CN114549993B (zh) 实验中线段图像的评分方法、系统、设备及可读存储介质
CN111046879A (zh) 证件图像分类方法、装置、计算机设备及可读存储介质
CN108154132A (zh) 一种身份证文字提取方法、系统及设备和存储介质
JP2011188465A (ja) 原稿レイアウトの方向検出方法及び装置
US9047533B2 (en) Parsing tables by probabilistic modeling of perceptual cues
US9396389B2 (en) Techniques for detecting user-entered check marks
Khare et al. Weighted-gradient features for handwritten line segmentation
CN111858942A (zh) 一种文本抽取方法、装置、存储介质和电子设备
US11961094B2 (en) Fraud detection via automated handwriting clustering
WO2016188104A1 (zh) 信息处理方法及信息处理装置
CN112632926A (zh) 票据的数据处理方法、装置、电子设备及存储介质
CN113221778A (zh) 手写表格的检测与识别方法及装置
Shweka et al. Automatic extraction of catalog data from digital images of historical manuscripts
CN111213157A (zh) 一种基于智能终端的快递信息录入方法及录入系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200040, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant after: Shanghai Xinlian Information Development Co.,Ltd.

Address before: 200040, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant before: SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co.,Ltd.

CB03 Change of inventor or designer information

Inventor after: Zhang Shuhua

Inventor after: Yang Anrong

Inventor after: Luo Jianzhen

Inventor after: Yuan Jiaxin

Inventor before: Zhang Shuhua

Inventor before: Huang Haiqing

Inventor before: Yang Anrong

Inventor before: Gu Weifeng

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220622

Address after: 201700 room 179, area F, 1 / F, building 3, No. 8, zone 3, 8228 Beiqing Road, Qingpu District, Shanghai

Patentee after: GUANGDIAN INFORMATION DEVELOPMENT Co.,Ltd.

Address before: Room 302, 710 Changping Road, Jing'an District, Shanghai 200040

Patentee before: Shanghai Xinlian Information Development Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220805

Address after: Floor 6, No. 26 and 28, JIANGCHANG Third Road, Jing'an District, Shanghai 200040

Patentee after: Shanghai Xinlian Information Development Co.,Ltd.

Address before: 201700 room 179, area F, 1 / F, building 3, No. 8, zone 3, 8228 Beiqing Road, Qingpu District, Shanghai

Patentee before: GUANGDIAN INFORMATION DEVELOPMENT Co.,Ltd.