CN112036330A - 一种文本识别方法、文本识别装置及可读存储介质 - Google Patents

一种文本识别方法、文本识别装置及可读存储介质 Download PDF

Info

Publication number
CN112036330A
CN112036330A CN202010912265.4A CN202010912265A CN112036330A CN 112036330 A CN112036330 A CN 112036330A CN 202010912265 A CN202010912265 A CN 202010912265A CN 112036330 A CN112036330 A CN 112036330A
Authority
CN
China
Prior art keywords
text
confidential
model
training
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010912265.4A
Other languages
English (en)
Inventor
梁仲夏
李新宅
顾世嘉
曾昳梅
胡静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunlun Digital Technology Co ltd
China National Petroleum Corp
Original Assignee
CNPC Beijing Richfit Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CNPC Beijing Richfit Information Technology Co Ltd filed Critical CNPC Beijing Richfit Information Technology Co Ltd
Priority to CN202010912265.4A priority Critical patent/CN112036330A/zh
Publication of CN112036330A publication Critical patent/CN112036330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本申请提供了一种文本识别方法、文本识别装置及可读存储介质,应用于涉密文件,文本识别方法包括:获取非涉密文本样本和已过保密期的涉密文本样本;构建深度学习网络模型,并使用非涉密文本样本对构建好的深度学习网络模型进行预训练;使用已过保密期的涉密文本样本对预训练完毕的深度学习网络模型进行调优训练,得到训练好的文本识别模型;将待识别的涉密文本输入至文本识别模型中进行文本识别,得到所述涉密文本的文本信息。本发明采用已过保密期限的小样本的涉密文本样本对用于识别文本的深度学习网络模型进行调优训练,从而提高了对涉密文件的文字识别的准确度,并通过文本提取模型进一步实现了文本信息的提取,提高了提取的准确度。

Description

一种文本识别方法、文本识别装置及可读存储介质
技术领域
本申请涉及图像识别技术领域,尤其是涉及一种文本识别方法、文本识别装置及可读存储介质。
背景技术
在企业全面数字化转型的大背景下,各行各业都在数字技术方面加大投入,驱动新增长,引领新动能。面对大型企业类型多样且数量庞大的公文文本,关键信息提取成为企业日常办公的重要技术需求。近年来,自然语言处理处于快速发展阶段,各种词表、语义语法词典、语料库等数据资源的日益丰富,词语切分、词性标注、句法分析等技术的快速进步,各种新理论、新方法、新模型的出现推动了自然语言处理研究的繁荣。但是还没有适用于涉密类文档的信息抽取方案,目前这种类型的文档大部分处于电子化水平,依靠人力读写,无法形成知识信息,传统的识别模型准确率低,很难满足目前企业全面数字化转型的需求。
发明内容
有鉴于此,本申请的目的在于提供一种文本识别方法、文本识别装置及可读存储介质,对于包括公文文档在内涉密类的文档能够准确的完成文字识别和信息提取,满足目前企业全面数字化转型的需求。
本申请实施例的第一方面提供了一种文本识别方法,应用于涉密文件,所述文本识别方法包括:
获取非涉密文本样本和已过保密期的涉密文本样本;
构建深度学习网络模型,并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练;
使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,得到训练好的文本识别模型;
将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息。
结合本申请的第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,所述深度学习网络模型包括:用于进行版面分割处理的分割处理模型,以及用于对分割处理模型输出的版面分割结果进行文本识别处理的文本处理模型;
所述使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练,包括:
获取对非涉密文本样本的版面属性进行标注得到的版面分割标注信息;
将所述非涉密文本样本和所述版面分割标注信息输入至所述分割处理模型中进行预训练,得到版面分割预训练模型;
获取对非涉密文本样本的文字属性进行标注得到的文字识别标注信息;
将所述非涉密文本样本和所述文字识别标注信息输入至文本处理模型中进行预训练,得到文字识别预训练模型。
结合本申请的第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,所述使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,包括:
获取对所述已过保密期的涉密文本样本的版面属性进行标注得到的版面属性调优标注信息;
将所述已过保密期的涉密文本样本和所述版面属性调优标注信息输入至所述版面分割预训练模型中进行调优训练,得到针对涉密文本版面分割的版面分割优化模型;
获取对所述已过保密期的涉密文本样本的文字属性进行标注得到的文字属性调优标注信息;
将所述已过保密期的涉密文本样本和所述文字属性调优标注信息输入至所述文字识别预训练模型中进行调优训练,得到针对涉密文本文字识别的文字识别优化模型。
结合本申请的第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,所述获取非涉密文本样本,包括:
获取原始语料;
基于所述原始语料生成所述非涉密文本样本。
结合本申请的第一方面的第三种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,所述文本识别模型包括:
字典,所述字典包括在所述原始语料和所述涉密文本样本中出现的字段。
结合本申请的第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,所述将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息,包括:
将所述待识别的涉密文本输入至所述版面分割优化模型中进行版面分割,得到所述涉密文本的版面分割信息;
将所述待识别的涉密文本和所述版面分割信息输入至所述文字识别优化模型中进行文本识别,得到所述涉密文本的文本信息。
结合本申请的第一方面的第五种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,所述将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息之后,还包括:
获取提取指令,以及用于提取文本信息的文本信息提取模型;
根据所述提取指令中所指示的关键字信息,通过所述文本信息提取模型对所述文本信息进行文本信息提取。
本申请实施例的第二方面提供了一种文本识别装置,应用于涉密文件,所述文本识别装置包括:
样本获取模块,用于获取非涉密文本样本和已过保密期的涉密文本样本;
预训练模块,用于构建深度学习网络模型,并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练;
调优训练模块,用于使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,得到训练好的文本识别模型;
文本识别模块,用于将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息。
结合本申请的第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,所述深度学习网络模型包括:用于进行版面分割处理的分割处理模型,以及用于对分割处理模型输出的版面分割结果进行文本识别处理的文本处理模型;
所述预训练模块在用于构建深度学习网络模型,并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练时,所述预训练模块用于:
获取对非涉密文本样本的版面属性进行标注得到的版面分割标注信息;
将所述非涉密文本样本和所述版面分割标注信息输入至所述分割处理模型中进行预训练,得到版面分割预训练模型;
获取对非涉密文本样本的文字属性进行标注得到的文字识别标注信息;
将所述非涉密文本样本和所述文字识别标注信息输入至文本处理模型中进行预训练,得到文字识别预训练模型。
结合本申请的第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第二种可能的实施方式,所述调优训练模块在使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,得到训练好的文本识别模型时,所述调优训练模块用于:
获取对所述已过保密期的涉密文本样本的版面属性进行标注得到的版面属性调优标注信息;
将所述已过保密期的涉密文本样本和所述版面属性调优标注信息输入至所述版面分割预训练模型中进行调优训练,得到针对涉密文本版面分割的版面分割优化模型;
获取对所述已过保密期的涉密文本样本的文字属性进行标注得到的文字属性调优标注信息;
将所述已过保密期的涉密文本样本和所述文字属性调优标注信息输入至所述文字识别预训练模型中进行调优训练,得到针对涉密文本文字识别的文字识别优化模型。
结合本申请的第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第三种可能的实施方式,所述样本获取模块在用于获取非涉密文本样本时,所述样本获取模块用于:
获取原始语料;
基于所述原始语料生成所述非涉密文本样本。
结合本申请的第二方面的第三种可能的实施方式,本申请实施例提供了第二方面的第四种可能的实施方式,其中,所述文本识别模型包括:
字典,所述字典包括在所述原始语料和所述涉密文本样本中出现的字段。
结合本申请的第二方面的第二种可能的实施方式,本申请实施例提供了第二方面的第五种可能的实施方式,所述文本识别模块在用于将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息时,所述文本识别模块用于:
将所述待识别的涉密文本输入至所述版面分割优化模型中进行版面分割,得到所述涉密文本的版面分割信息;
将所述待识别的涉密文本和所述版面分割信息输入至所述文字识别优化模型中进行文本识别,得到所述涉密文本的文本信息。
结合本申请的第二方面的第五种可能的实施方式,本申请实施例提供了第二方面的第六种可能的实施方式,所述文本识别装置还包括提取模块,所述提取模块用于:
获取提取指令,以及用于提取文本信息的文本信息提取模型;
根据所述提取指令中所指示的关键字信息,通过所述文本信息提取模型对所述文本信息进行文本信息提取。
本申请实施例的第三方面提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述的文本识别方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述的文本识别方法。
本发明至少具有以下有益效果:
本发明采用已过保密期限的小样本的涉密文本样本对用于识别文本的深度学习网络模型进行调优训练,从而提高了对涉密文件的文字识别的准确度,并通过文本提取模型进一步实现了文本信息的提取,提高了提取的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种文本识别方法的流程图;
图2示出了本申请实施例所提供的一种文本识别装置的结构示意图;
图3示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
本发明的实施例公开了一种文本识别方法,应用于涉密文件,所述的涉密文件,可以是通过扫描实体的涉密文件得到的,也可以是有计算机直接编辑并生成的PDF等格式的电子文件,涉密文件特别是公文类文件相对于其他文本具有特殊性,其非结构化、半结构化文本一般格式相对固定,用语规范,包含的数据密集且有一定的关联性,常见的公文种类例如:决议、通告、通知、通报、报告、议题、函、纪要等。
如图1所示,所述文本识别方法包括以下步骤:
S101:获取非涉密文本样本和已过保密期的涉密文本样本。优选的,非涉密文本样本和已过保密期的涉密文本样本为扫描得到的图片文件。
S102:构建深度学习网络模型,并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练。
S103:使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,得到训练好的文本识别模型。
S104:将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息。
优选的,非涉密文本样本包含有文本信息,通过对非涉密文本样本进行标注,并将标注好的非涉密文本样本输入深度学习网络模型进行训练,使得该深度学习网络模型最终能够对输入其中的图片进行处理,即识别图片中的文本信息。本发明可以采用现有的深度学习网络模型训练方法实施本步骤,详细过程本文不再详细说明。
在本发明的一些实施例中,所述深度学习网络模型包括:用于进行版面分割处理的分割处理模型,以及用于对分割处理模型输出的版面分割结果进行文本识别处理的文本处理模型;
所述使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练,包括:
获取对非涉密文本样本的版面属性进行标注得到的版面分割标注信息;
将所述非涉密文本样本和所述版面分割标注信息输入至所述分割处理模型中进行预训练,得到版面分割预训练模型;
获取对非涉密文本样本的文字属性进行标注得到的文字识别标注信息;
将所述非涉密文本样本和所述文字识别标注信息输入至文本处理模型中进行预训练,得到文字识别预训练模型。
本实施例采用非涉密文本样本训练所述深度学习网络模型中的分割处理模型和文本处理模型。所述的深度学习网络模型包括两个预训练模型,即分割处理模型和文本处理模型,分割处理模型是为之后的文本识别提供版面分割能力。
优选的,所述采用非涉密文本样本训练所述深度学习网络模型中的分割处理模型,具体包括:
(1)对所述非涉密文本样本进行标准化处理。
(2)对所述非涉密文本样本添加版面信息标注。首先对非涉密文本样本的图像做版面分析,将图像按照不同的内容分割,以区分文本、表格、图片等;然后是解析图片中版面内容,基于文章逻辑结构,按照相应的顺序和层次结构对不同属性进行标注,标注内容包括位置信息、内容、属性等。
(3)采用带有标注的所述非涉密文本样本训练所述分割处理模型。将标注好的数据对应的图片输入至分割处理模型进行训练,训练完成后保存该分割处理模型作为版面分割预训练模型,后续的调优训练需要针对该版面分割预训练模型进行的。
在本发明的一些实施例中,所述使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,包括:
获取对所述已过保密期的涉密文本样本的版面属性进行标注得到的版面属性调优标注信息;将所述已过保密期的涉密文本样本和所述版面属性调优标注信息输入至所述版面分割预训练模型中进行调优训练,得到针对涉密文本版面分割的版面分割优化模型;获取对所述已过保密期的涉密文本样本的文字属性进行标注得到的文字属性调优标注信息;将所述已过保密期的涉密文本样本和所述文字属性调优标注信息输入至所述文字识别预训练模型中进行调优训练,得到针对涉密文本文字识别的文字识别优化模型。
在上述预训练得到所述的深度学习网络模型虽然能够实现识别图片中文本信息的功能,但是由于其训练用样本是非涉密文本样本,又因为非涉密文本样本与涉密文件本身文本内容和形式上具有较大差异,所以在输入内容是涉密文档时,深度学习网络模型的输出结果的准确性不高,因此需要对所述深度学习网络模型进行迁移学习,提高深度学习网络模型对涉密文件的识别精准度。特别的,现有技术中,调优训练是需要一定量的标注样本来实施的,但由于涉密文本的保密性,难以获得大量的涉密文本样本。本发明是基于小样本量的涉密文本样本进行调优训练的,大大降低了调优训练的成本。
优选的,可以采用以下方法对神经网络进行调优训练:
首先,对所述已过保密期的涉密文本样本进行标准化处理。标准化处理也称为预处理,包括对已过保密期的涉密文本样本的图片进行灰度化处理以去除干扰信息;将灰度化处理的图片做二值化处理进一步区分文字和背景;对灰度化处理的图片做倾斜矫正,纠正扫描过程中出现的图像倾斜现象,等等。此外,图像的标准化处理还包括对图像进行平滑处理、尺寸大小调整等。
其次,对所述已过保密期的涉密文本样本添加标注。优选的,添加标注的过程中需要对已过保密期的涉密文本样本的图片中特有的格式进行标注,例如涉密文本样本中是否有特殊颜色文字或者字体字号等,使得在调优训练中的深度学习网络模型能够学习到这些新的特征。
最后,采用带有所述标注的所述已过保密期的涉密文本样本调优所述深度学习网络模型。例如可以将标注好的小样本的已过保密期的涉密文件的图片输入神经网络,通过fine-tuning等方式对深度学习网络模型进行调优训练,最终的得到对涉密文件的识别结果更准确的模型。
优选的,对于文字识别模型,除了可以采用上述方式进行预训练,本发明还公开了另一种优选方式,具体如下:
(1)获取原始语料,并基于所述原始语料生成所述文字图像样本。本发明不使用互联网上搜到现有非涉密文档,而是通过原始语料生成非涉密文本样本,优选的,采用上述分割处理模型训练时所添加的标注的内容作为原始语料,非涉密文本样本的生成过程的控制参数采用随机的方式设定。
(2)对所述文字图像样本添加文字信息标注。训练数据生成时,利用图像处理算法即可自动生成大量带标注的训练样本图像。优选的,上述生成过程中,还可以设置或随机选择背景尺寸、背景图片、文字字体、文字字号、文字颜色、模糊级别、倾斜角度、扭曲样式等参数,进一步提高了文字识别模型的鲁棒性。
(3)采用带有所述文字信息标注的所述文字图像样本训练所述文字识别模型。优选的,文字识别模型为深度神经网络模型,其整体采用多层组合深度神经网络结构,首先为了抽取上述生成的图像的卷积特征,将图像数据输入卷积神经网络,然后提取的图像特征输入循环神经网络,以抽取图像中文字符号的序列特征,最后将得到的特征输入分类器判别,以判断每个文字的实际内容,分类器采用连接时序分类,引入空字符,解决传统分类器输出和标注不对齐的问题。
对于文字识别模型的调优训练可参见上述分割处理模型的调优训练的方法,值得一提的是,本领域技术人员应当知晓,根据不同模型的处理目的在训练时对训练样本进行对应的标注,因此,在文字识别模型的调优训练过程中添加标注规则本发明不再详细说明。
现有技术中,用于实现文本识别的深度学习网络模型包括字典,字典内容丰富度越高,则对待识别文本的识别准确度越高,由于可以作为训练样本的涉密文件数量较少,现有技术中字典涵盖的范围有限,特别是对于涉密文件进行文本识别时识别率较低。作为本发明的一个优选实施例,所述文字识别模型包括:字典,所述字典包括在所述原始语料和所述涉密文本样本中出现的字段。本发明的自带覆盖了用于调优训练的涉密文本样本中文本的字段,极大丰富了字典的内容,进而提高了文字识别模块的识别率。
如图2所示,本发明还公开了一种文本识别装置,应用于涉密文件,所述文本识别装置包括:
样本获取模块,用于获取非涉密文本样本和已过保密期的涉密文本样本;
预训练模块,用于构建深度学习网络模型,并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练;
调优训练模块,用于使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,得到训练好的文本识别模型;
文本识别模块,用于将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息。
在本发明的一些实施例中,所述深度学习网络模型包括:用于进行版面分割处理的分割处理模型,以及用于对分割处理模型输出的版面分割结果进行文本识别处理的文本处理模型;
所述预训练模块在用于构建深度学习网络模型,并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练时,所述预训练模块用于:
获取对非涉密文本样本的版面属性进行标注得到的版面分割标注信息;
将所述非涉密文本样本和所述版面分割标注信息输入至所述分割处理模型中进行预训练,得到版面分割预训练模型;
获取对非涉密文本样本的文字属性进行标注得到的文字识别标注信息;
将所述非涉密文本样本和所述文字识别标注信息输入至文本处理模型中进行预训练,得到文字识别预训练模型。
在本发明的一些实施例中,所述调优训练模块在使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,得到训练好的文本识别模型时,所述调优训练模块用于:
获取对所述已过保密期的涉密文本样本的版面属性进行标注得到的版面属性调优标注信息;
将所述已过保密期的涉密文本样本和所述版面属性调优标注信息输入至所述版面分割预训练模型中进行调优训练,得到针对涉密文本版面分割的版面分割优化模型;
获取对所述已过保密期的涉密文本样本的文字属性进行标注得到的文字属性调优标注信息;
将所述已过保密期的涉密文本样本和所述文字属性调优标注信息输入至所述文字识别预训练模型中进行调优训练,得到针对涉密文本文字识别的文字识别优化模型。
在本发明的一些实施例中,所述样本获取模块在用于获取非涉密文本样本时,所述样本获取模块用于:
获取原始语料;
基于所述原始语料生成所述非涉密文本样本。
在本发明的一些实施例中,所述文本识别模型包括:
字典,所述字典包括在所述原始语料和所述涉密文本样本中出现的字段。
在本发明的一些实施例中,所述文本识别模块在用于将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息时,所述文本识别模块用于:
将所述待识别的涉密文本输入至所述版面分割优化模型中进行版面分割,得到所述涉密文本的版面分割信息;
将所述待识别的涉密文本和所述版面分割信息输入至所述文字识别优化模型中进行文本识别,得到所述涉密文本的文本信息。
在本发明的一些实施例中,所述文本识别装置还包括提取模块,所述提取模块用于:
获取提取指令,以及用于提取文本信息的文本信息提取模型;
根据所述提取指令中所指示的关键字信息,通过所述文本信息提取模型对所述文本信息进行文本信息提取。
为对上述各实施例进行详细说明,本发明还公开了一个优选实施方案:
本实施例目的在于对涉密的会议纪要的扫描文件进行文本识别和信息提取,所述会议纪要需要提取的信息包括会议名称、会议类型、会议次序、会议时间、主持人、参会人列表、议题信息等内容。
所述提取方法包括两个阶段:准备阶段,建立相应的深度学习网络模型并针对涉密文档进行迁移学习;实施阶段,实用上述训练得到的深度学习网络模型处理所述涉密文件。
对于深度学习网络模型中的分割处理模型的训练,可以使用opencv对非涉密文本样本的图像进行灰度化、二值化,倾斜检测与校正平滑,规范化处理。使图片的颜色分布均衡,增强对比度,规范大小。
为非涉密文本样本的图像添加标注,标注模式规则形式化定义为:<标签名称>:<类属1>[image,text,None]<类属2>[width,height,top,left]<类属3>[font_size]<类属4>[font_color]。
所述分割处理模型采用深度学习训练得到,所述深度学习使用U-net语义分割模型,模型包括下采样、上采样两部分。将所述非涉密文件以及标注输入到U-net深度学习模型中,经过训练得到分割处理模型的预训练模型,用于扫描文件(图片)的版面分割,该模型输出的预测结果包括分割后的图像及分割框的相对位置信息。
因此需要对扫描文件版面割后结果进行文字识别,因此还需要训练文字识别模型。生成训练数据依据的原始语料,用版面分割预训练模型使用的标注数据生成文字识别所用训练数据,生成过程的控制参数采用随机的方式设定。
文字识别模型采用RCNN+CTC深度神经网络结构,具体分为三层。首先构建多层卷积神经网络作为CNN层提取图像特征,之上搭建双向循环神经网络RNN层抽取序列特征,最后采用连接时序分类器,对非对齐标注数据进行分类。
字典设计方面,考虑到训练语料与识别语料的差异性,构建时,首先包括训练语料中出现的所有高频词,之后用已过涉密期的会议纪要文本中出现的高频词作为补充,形成相对完备的字典。
训练好的文字识别模型能够对所述分割处理模型的结果进行识别,得到扫描图像中的文字内容,并结合分割框的相对位置信息,还原涉密会议纪要版面。
但此时该神经网络的识别准确度并不高,还需要对其进行调优训练,最终得到能够准确识别涉密文件的文本识别模型。优选的,可以获取少量已过保密期的会议纪要扫描文件,针对会议纪要特有版面元素等部分进行标注。模型调优训练过程中,使用迁移学习方式,将少量已过保密期的会议纪要扫描文件进行预处理,和标注数据一同输入U-net模型中,采用fine-tuning方式对上采样部分的全连接层做调优训练。调优后的模型对会议纪要版面分割更准确。
实施过程中,将涉密文档输入经过上述调优训练的神经网络中,便能够准确的获取该涉密文档的文本信息。
针对本实施例的方案,具体的文本信息提取过程包括:
文本预处理,定义关键信息提取内容会议名称、会议类型、会议次序、会议时间、主持人、参会人列表、议题信息;文本分词和实体识别对文本进行分词和实体识别,主要对人名、地名、机构名称等做实体识别标注;文本块分类,根据所要提取的内容,查找关键字信息所在位置,将会议纪要按段落分类,找到所要提取信息所在段落位置;信息提取,以参会人列表为例,确定信息提取规则如下:根据上下文关键字识别,找到参会人关键字,以参会人后冒号为开头,后面段落取实体识别为人名的信息,以键值对形式返回。
请参阅图3,图3为本申请实施例所提供的一种电子设备的结构示意图。如图3中所示,所述电子设备300包括处理器310、存储器320和总线330。
所述存储器320存储有所述处理器310可执行的机器可读指令,当电子设备300运行时,所述处理器310与所述存储器320之间通过总线330通信,所述机器可读指令被所述处理器310执行时,可以执行如上述图1所示方法实施例中的各步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的各步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (16)

1.一种文本识别方法,应用于涉密文件,其特征在于,所述文本识别方法包括:
获取非涉密文本样本和已过保密期的涉密文本样本;
构建深度学习网络模型,并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练;
使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,得到训练好的文本识别模型;
将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息。
2.根据权利要求1所述的文本识别方法,其特征在于,所述深度学习网络模型包括:用于进行版面分割处理的分割处理模型,以及用于对分割处理模型输出的版面分割结果进行文本识别处理的文本处理模型;
所述使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练,包括:
获取对非涉密文本样本的版面属性进行标注得到的版面分割标注信息;
将所述非涉密文本样本和所述版面分割标注信息输入至所述分割处理模型中进行预训练,得到版面分割预训练模型;
获取对非涉密文本样本的文字属性进行标注得到的文字识别标注信息;
将所述非涉密文本样本和所述文字识别标注信息输入至文本处理模型中进行预训练,得到文字识别预训练模型。
3.根据权利要求2所述的文本识别方法,其特征在于,所述使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,包括:
获取对所述已过保密期的涉密文本样本的版面属性进行标注得到的版面属性调优标注信息;
将所述已过保密期的涉密文本样本和所述版面属性调优标注信息输入至所述版面分割预训练模型中进行调优训练,得到针对涉密文本版面分割的版面分割优化模型;
获取对所述已过保密期的涉密文本样本的文字属性进行标注得到的文字属性调优标注信息;
将所述已过保密期的涉密文本样本和所述文字属性调优标注信息输入至所述文字识别预训练模型中进行调优训练,得到针对涉密文本文字识别的文字识别优化模型。
4.根据权利要求2所述的文本识别方法,其特征在于,所述获取非涉密文本样本,包括:
获取原始语料;
基于所述原始语料生成所述非涉密文本样本。
5.根据权利要求4所述的文本识别方法,其特征在于,所述文本识别模型包括:
字典,所述字典包括在所述原始语料和所述涉密文本样本中出现的字段。
6.根据权利要求3所述的文本识别方法,其特征在于,所述将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息,包括:
将所述待识别的涉密文本输入至所述版面分割优化模型中进行版面分割,得到所述涉密文本的版面分割信息;
将所述待识别的涉密文本和所述版面分割信息输入至所述文字识别优化模型中进行文本识别,得到所述涉密文本的文本信息。
7.根据权利要求6所述的文本识别方法,其特征在于,所述将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息之后,还包括:
获取提取指令,以及用于提取文本信息的文本信息提取模型;
根据所述提取指令中所指示的关键字信息,通过所述文本信息提取模型对所述文本信息进行文本信息提取。
8.一种文本识别装置,应用于涉密文件,其特征在于,所述文本识别装置包括:
样本获取模块,用于获取非涉密文本样本和已过保密期的涉密文本样本;
预训练模块,用于构建深度学习网络模型,并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练;
调优训练模块,用于使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,得到训练好的文本识别模型;
文本识别模块,用于将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息。
9.根据权利要求8所述的文本识别装置,其特征在于,所述深度学习网络模型包括:用于进行版面分割处理的分割处理模型,以及用于对分割处理模型输出的版面分割结果进行文本识别处理的文本处理模型;
所述预训练模块在用于构建深度学习网络模型,并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练时,所述预训练模块用于:
获取对非涉密文本样本的版面属性进行标注得到的版面分割标注信息;
将所述非涉密文本样本和所述版面分割标注信息输入至所述分割处理模型中进行预训练,得到版面分割预训练模型;
获取对非涉密文本样本的文字属性进行标注得到的文字识别标注信息;
将所述非涉密文本样本和所述文字识别标注信息输入至文本处理模型中进行预训练,得到文字识别预训练模型。
10.根据权利要求9所述的文本识别装置,其特征在于,所述调优训练模块在使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练,得到训练好的文本识别模型时,所述调优训练模块用于:
获取对所述已过保密期的涉密文本样本的版面属性进行标注得到的版面属性调优标注信息;
将所述已过保密期的涉密文本样本和所述版面属性调优标注信息输入至所述版面分割预训练模型中进行调优训练,得到针对涉密文本版面分割的版面分割优化模型;
获取对所述已过保密期的涉密文本样本的文字属性进行标注得到的文字属性调优标注信息;
将所述已过保密期的涉密文本样本和所述文字属性调优标注信息输入至所述文字识别预训练模型中进行调优训练,得到针对涉密文本文字识别的文字识别优化模型。
11.根据权利要求9所述的文本识别装置,其特征在于,所述样本获取模块在用于获取非涉密文本样本时,所述样本获取模块用于:
获取原始语料;
基于所述原始语料生成所述非涉密文本样本。
12.根据权利要求11所述的文本识别装置,其特征在于,所述文本识别模型包括:
字典,所述字典包括在所述原始语料和所述涉密文本样本中出现的字段。
13.根据权利要求10所述的文本识别装置,其特征在于,所述文本识别模块在用于将待识别的涉密文本输入至所述文本识别模型中进行文本识别,得到所述涉密文本的文本信息时,所述文本识别模块用于:
将所述待识别的涉密文本输入至所述版面分割优化模型中进行版面分割,得到所述涉密文本的版面分割信息;
将所述待识别的涉密文本和所述版面分割信息输入至所述文字识别优化模型中进行文本识别,得到所述涉密文本的文本信息。
14.根据权利要求13所述的文本识别装置,其特征在于,所述文本识别装置还包括提取模块,所述提取模块用于:
获取提取指令,以及用于提取文本信息的文本信息提取模型;
根据所述提取指令中所指示的关键字信息,通过所述文本信息提取模型对所述文本信息进行文本信息提取。
15.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7中任一项所述的文本识别方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7中任一项所述的文本识别方法。
CN202010912265.4A 2020-09-02 2020-09-02 一种文本识别方法、文本识别装置及可读存储介质 Pending CN112036330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010912265.4A CN112036330A (zh) 2020-09-02 2020-09-02 一种文本识别方法、文本识别装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010912265.4A CN112036330A (zh) 2020-09-02 2020-09-02 一种文本识别方法、文本识别装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN112036330A true CN112036330A (zh) 2020-12-04

Family

ID=73591648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010912265.4A Pending CN112036330A (zh) 2020-09-02 2020-09-02 一种文本识别方法、文本识别装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN112036330A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170423A (zh) * 2022-02-14 2022-03-11 成都数之联科技股份有限公司 一种图像文档版面识别方法、装置及其系统
CN114826734A (zh) * 2022-04-25 2022-07-29 维沃移动通信有限公司 文字识别方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447019A (zh) * 2018-11-08 2019-03-08 公安部沈阳消防研究所 基于图像识别与数据库存储的纸质扫描文档电子化方法
CN110866388A (zh) * 2019-11-19 2020-03-06 重庆华龙网海数科技有限公司 基于多种神经网络混合的出版pdf版面分析识别方法
CN110889402A (zh) * 2019-11-04 2020-03-17 广州丰石科技有限公司 一种基于深度学习的营业执照内容识别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447019A (zh) * 2018-11-08 2019-03-08 公安部沈阳消防研究所 基于图像识别与数据库存储的纸质扫描文档电子化方法
CN110889402A (zh) * 2019-11-04 2020-03-17 广州丰石科技有限公司 一种基于深度学习的营业执照内容识别方法及系统
CN110866388A (zh) * 2019-11-19 2020-03-06 重庆华龙网海数科技有限公司 基于多种神经网络混合的出版pdf版面分析识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIŘÍ MARTÍNEK ET AL.: "Building an efficient OCR system for historical documents with little training data", 《NEURAL COMPUTING AND APPLICATIONS》, pages 17209 - 17227 *
瞿松: "基于改进的支持向量机算法的涉密文件识别系统研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2019 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170423A (zh) * 2022-02-14 2022-03-11 成都数之联科技股份有限公司 一种图像文档版面识别方法、装置及其系统
CN114170423B (zh) * 2022-02-14 2022-06-28 成都数之联科技股份有限公司 一种图像文档版面识别方法、装置及其系统
CN114826734A (zh) * 2022-04-25 2022-07-29 维沃移动通信有限公司 文字识别方法、装置和电子设备

Similar Documents

Publication Publication Date Title
Marinai Introduction to document analysis and recognition
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN101253514A (zh) 文档可视结构的语法剖析
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
Alotaibi et al. Optical character recognition for quranic image similarity matching
US11379690B2 (en) System to extract information from documents
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
Cheng et al. M6doc: A large-scale multi-format, multi-type, multi-layout, multi-language, multi-annotation category dataset for modern document layout analysis
CN114722842A (zh) 一种计算机人工智能外文翻译方法及其翻译系统
Elanwar et al. Extracting text from scanned Arabic books: a large-scale benchmark dataset and a fine-tuned Faster-R-CNN model
Mathew et al. Asking questions on handwritten document collections
Thammarak et al. Automated data digitization system for vehicle registration certificates using google cloud vision API
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
Almohri et al. A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T
Ramel et al. Interactive layout analysis, content extraction, and transcription of historical printed books using Pattern Redundancy Analysis
CN114579796B (zh) 机器阅读理解方法及装置
Lin et al. Multilingual corpus construction based on printed and handwritten character separation
CN116030469A (zh) 一种处理方法、装置、设备和计算机可读存储介质
Ashraf et al. An analysis of optical character recognition (ocr) methods
CN115294594A (zh) 文档分析方法、装置、设备及存储介质
Mariner Optical Character Recognition (OCR)
Han et al. Development of a gold-standard Pashto dataset and a segmentation app
CN112101356A (zh) 一种图片中特定文本的定位方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100010 room 1501, Gehua building, No.1 Qinglong Hutong, Dongcheng District, Beijing

Applicant after: Kunlun Digital Technology Co.,Ltd.

Address before: 100010 room 1501, Gehua building, No.1 Qinglong Hutong, Dongcheng District, Beijing

Applicant before: RICHFIT INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20220322

Address after: Room 1501, Gehua building, No.1 Qinglong Hutong, Dongcheng District, Beijing

Applicant after: Kunlun Digital Technology Co.,Ltd.

Applicant after: CHINA NATIONAL PETROLEUM Corp.

Address before: 100010 room 1501, Gehua building, No.1 Qinglong Hutong, Dongcheng District, Beijing

Applicant before: Kunlun Digital Technology Co.,Ltd.

TA01 Transfer of patent application right