CN115512366A - 文本提取方法、模型训练方法计算机设备及存储介质 - Google Patents

文本提取方法、模型训练方法计算机设备及存储介质 Download PDF

Info

Publication number
CN115512366A
CN115512366A CN202211020224.XA CN202211020224A CN115512366A CN 115512366 A CN115512366 A CN 115512366A CN 202211020224 A CN202211020224 A CN 202211020224A CN 115512366 A CN115512366 A CN 115512366A
Authority
CN
China
Prior art keywords
text
line
paragraph
classification model
lines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211020224.XA
Other languages
English (en)
Inventor
刘宇
何春江
张毅
朱建伟
方逸群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202211020224.XA priority Critical patent/CN115512366A/zh
Publication of CN115512366A publication Critical patent/CN115512366A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Character Input (AREA)

Abstract

本申请实施例提供了一种文本提取方法、模型训练方法计算机设备及存储介质,该方法包括:获取目标图像,所述目标图像至少包括字符区域;对所述目标图像进行文本识别,得到若干文本行,各所述文本行包括若干字符;基于文本分类模型,识别各所述文本行的段落类型;根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本,所述目标文本包括若干文本段落。通过识别各文本行的段落类型,根据各文本行的段落类型,可以将文本识别得到的文本行拼接成包含语义段落信息的自然段,更符合用户的阅读习惯。

Description

文本提取方法、模型训练方法计算机设备及存储介质
技术领域
本申请涉及文本识别技术领域,尤其涉及一种文本提取方法、模型训练方法计算机设备及存储介质。
背景技术
随着AI技术的不断发展,各行各业都在探寻AI技术落地点,来提高社会生产力,提升企业运作效率。文档图片在自然生活场景广泛存在,其中图片格式是文本信息保存的常用主要格式之一,为满足人们日常需要,需要将以图片存储的文档进行文本识别,方便人们阅读和后续工作。为实现高效化、数字化办公,图片文档识别技术实现了从图片中的文字到计算机可识别文字的转换。相关技术中文本识别方法大多是通过光学字符识别(OCR)来实现文本信息抽取,但仅仅通过OCR方法抽取的词之间缺乏关联性,组成的句子之间阅读起来缺乏连续性,导致实际生产处理过程中存在文本识别结果不可用的现象。
发明内容
本申请实施例提供一种文本提取方法、模型训练方法计算机设备及存储介质,能够将文本识别得到的文本行拼接成包含语义段落信息的自然段,更符合用户的阅读习惯。
第一方面,本申请提供了一种文本提取方法,所述方法包括:
获取目标图像,所述目标图像至少包括字符区域;
对所述目标图像进行文本识别,得到若干文本行,各所述文本行包括若干字符;
基于文本分类模型,识别各所述文本行的段落类型;
根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本,所述目标文本包括若干文本段落。
第二方面,本申请提供了一种一种文本分类模型的训练方法,包括:
获取训练样本集,所述训练样本集包括多个文本行和各所述文本行对应的段落类型标签;
基于字符嵌入模型,对所述文本行进行嵌入处理,得到所述文本行对应的文本向量,所述文本向量包括所述文本行中各字符的词向量;
将各所述文本行对应的文本向量输入文本分类模型,识别各所述文本行的段落类型;
基于预设的损失函数,根据各所述文本行的识别的段落类型,以及各所述文本行对应的段落类型标签确定损失值;
根据所述损失值,调整所述文本分类模型的模型参数。
第三方面,本申请提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现上述的文本提取方法的步骤,和/或文本分类模型的训练方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现上述的文本提取方法的步骤,和/或文本分类模型的训练方法的步骤。
本申请公开了一种文本提取方法、模型训练方法计算机设备及存储介质,方法包括:获取目标图像,所述目标图像至少包括字符区域;对所述目标图像进行文本识别,得到若干文本行,各所述文本行包括若干字符;基于文本分类模型,识别各所述文本行的段落类型;根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本,所述目标文本包括若干文本段落。通过识别各文本行的段落类型,根据各文本行的段落类型,可以将文本识别得到的文本行拼接成包含语义段落信息的自然段,更符合用户的阅读习惯。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例的文本提取方法的流程示意图;
图2为一实施方式中文本提取方法的应用场景示意图;
图3为一实施方式中对目标图像进行文本识别的示意图;
图4为一实施方式中文本识别得到的若干文本行的示意图;
图5为一实施方式中识别文本行的段落类型和拼接文本行的示意图;
图6为一实施方式中对文本行进行拼接的流程示意图;
图7为一实施方式中文本行拼接得到的目标文本的示意图;
图8为本申请一实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请的实施例提供了一种文本提取方法、模型训练方法计算机设备及存储介质。能够通过识别各文本行的段落类型,根据各文本行的段落类型,可以将文本识别得到的文本行拼接成包含语义段落信息的自然段,更符合用户的阅读习惯。
请参阅图1,图1是本申请的实施例提供的一种文本提取方法的流程示意图。
本申请实施例提供的文本提取方法可以应用于终端设备或服务器中。终端设备可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、扫描仪等电子设备;服务器可以为独立的服务器,也可以为服务器集群。但为了便于理解,以下实施例将以应用于服务器的方法进行详细介绍。
在一些实施方式中,如图2所示,服务器从终端设备获取目标图像,根据文本提取方法生成目标文本,以及将生成的目标文本发送给终端设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
如图1所示,文本提取方法包括以下步骤S110至步骤S150。
步骤S110、获取目标图像,所述目标图像至少包括字符区域。
在一些可选的实施例中,所述目标图像为用于实现文本提取方法的装置在本地存储的文本、该装置从网络获取的文本、该装置从与其连接的输入装置获取的文本、该装置从其他电子设备获取的文本、该装置根据语音信息转成的文本等。
在一些实施方式中,所述获取目标图像,包括:获取初始图像;对所述初始图像进行图像预处理,得到所述目标图像。
示例性的,所述初始图像为网页、文档、即时通信软件中的图像,或者为在网页、文档或者即时通信软件的聊天界面中截图得到的目标图像,当然也不限于此,例如为扫描或者拍摄书本、票据、名片等得到的图像;或者所述目标图像为可携带文档格式(PortableDocument Format,PDF)文件中预设页面的图像,当然也不限于此。
通过对初始图像进行图像预处理得到所述目标图像,可以使得所述目标图像中的字符信息得到增强,以提高后续进行光学字符识别的准确性,使得本申请实施例可以较好的适应于复杂场景、数据质量不一的初始图像。举例而言,所述初始图像可以称为初始的文档图像,所述目标图像可以称为预处理后的文档图像。
示例性的,所述图像预处理包括但不限于以下至少一种:图像去噪处理、局部自适应阈值处理、字符边界提亮处理。
举例而言,所述图像去噪处理包括图像开运算和/或图像闭运算。图像开运算和/或图像闭运算可以使初始图像中的字符光滑,有效断开字符间由于连写产生的部分较窄的狭颈与消除细的突出部分,同时能填充部分笔画不清晰字符的孔洞。例如,本申请实施例通过开运算消除高于其邻近点的孤立点,有效去除图片的噪声点;开运算先对图像进行腐蚀再对图像进行膨胀,图像被腐蚀后,去除了噪声,但是也压缩了图像;接着对腐蚀过的图像进行膨胀处理,可以去除噪声,并保留原有图像的大小;可选的,采用卷积核(如5×5大小的卷积核)图像开运算进行多次(如3次)迭代,进行开运算。
举例而言,所述局部自适应阈值处理可以在图像的不同区域具有不同照明条件时,进行自适应阈值处理。可选的,所述局部自适应阈值法采用的是大津法(OTSU算法),对图像的不同区域(或者称为局部窗口)采用自适应的阈值以对各区域的字符和背景进行分离,可以过滤掉图像中的背景,分离出图像中的字符,强化字符信息;其中对图像的不同区域采用自适应的阈值,相较于采用同一个全局阈值,可以提高在图像不同区域的光照条件不同时,区分字符和背景的准确性。
举例而言,所述字符边界提亮处理包括通过边缘增强算子(如Canny算子)进行字符边界亮度的提亮处理,使字符边界特征饱满,有效增强复杂场景,如光照不均情况下的文本边缘特征。
在另一些实施方式中,所述图像预处理包括但不限于以下至少一种:仿射变换、图像滤波,可以实现对初始图像进行坐标矫正和色彩的匀光增强。需要说明的是,仿射变换、图像滤波的预处理方式流程较为单一且鲁棒性较弱,缺乏对图片数据的标准化。而图像去噪处理、局部自适应阈值处理、字符边界提亮处理的预处理方式可以使得图像预处理得到的所述目标图像对光学字符识别(Optical Character Recognition,OCR)模型有较好的适应性,即光学字符识别模型能够较好的适应复杂场景、数据质量不一的异源图片。
步骤S120、对所述目标图像进行文本识别,得到若干文本行,各所述文本行包括若干字符。
通过文本识别将所述目标图像转换成文本,步骤S120的输出结果包括识别得到的字符和对应的字符坐标,所述字符坐标例如包括字符所在行的行位置,当然也不限于此。
可选的,对所述目标图像进行光学字符识别(Optical Character Recognition,OCR),得到识别得到的字符和对应的字符坐标,根据所述字符对应的字符坐标,将所述字符确定为若干文本行;例如将所述字符按照坐标排列成行,得到若干文本行;举例而言,将位于同一纵坐标的字符归为一行并输出。
可选的,基于光学字符识别模型对所述目标图像进行光学字符识别。
举例而言,所述光学字符识别模型以时序时间分类(Connectionist temporalclassification,CTC)作为目标函数,以RNN(Recurrent Neural Network,循环神经网络)和/或LSTM(Long Short-Term Memory,长短期记忆网络)构成特征抽取网络层对所述目标图像进行特征提取。
在一些实施方式中,请参阅图3,所述对所述目标图像进行文本识别,得到若干文本行,包括:将所述目标图像输入所述光学字符识别模型,即OCR模型;基于所述OCR模型的卷积网络,对所述目标图像进行卷积处理,得到第一特征图(Feature Maps);基于所述OCR模型的BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆)网络,将所述第一特征图上的文字特征以及上下文信息抽取为上下文文字时序特征;基于时序时间分类损失函数(Connectionist temporal classificationLoss),对所述上下文文字时序特征和标注标签进行对齐,得到字符和所述字符对应的字符坐标,实现文档图片到字符的转换;以及根据各所述字符对应的字符坐标,将所述字符确定为若干文本行。
可选的,基于最小化时序时间分类损失函数完成所述OCR模型的训练和推理。
其中,BiLSTM网络内部每一个小结构单元是一个单独的长短期记忆(LSTM)网络结构,该网络结构可以较好保留文本长时间特征记忆,采用双向机制相较于仅从单方向进行特征抽取,可以使文字的抽取有较好的连续性。
在一些实施方式中,对所述目标图像进行文本识别得到的所述若干文本行的布局,与对应的文本行区域在所述目标图像中的布局相同。如图4所示箭头左侧为目标图像,右侧为所述步骤S120得到的若干文本行。
如图4所示,步骤S120得到的若干文本行无上下文段落结构,缺乏语义连续性:这是由于文本识别的识别结果是字符,无法自动化生成包含语义段落信息的自然段。本申请实施可以通过步骤S130至步骤S140,实现自然段的自动化生成,实现图像文字到含有语义信息的自然段落文本的自动化处理流程。
步骤S130、基于文本分类模型,识别各所述文本行的段落类型。
在一些实施方式中,所述文本行的段落类型包括但不限于以下至少两种:段首行(或者称为段首句)和非段首行(或者称为非段首句)。其中,段首行中的字符为一自然段的段首,即头部的字符;非段首行为同一自然段中段首行之后的文本行。
示例性的,所述基于文本分类模型,识别各所述文本行的段落类型,包括:基于字符嵌入(Embedding)模型,对所述文本行进行嵌入处理,得到所述文本行对应的文本向量,所述文本向量包括所述文本行中各字符的词向量;将所述文本行对应的文本向量输入文本分类模型,识别所述文本行的段落类型。
其中,字符嵌入模型采用预训练词向量对所述文本行进行嵌入处理,通过字符嵌入模型可以使输入的每一个字符(或者可以称为词)均可表征为一个词向量,例如将将一个字符转换成固定长度的向量表示;根据文本行中每个字符的词向量可以确定文本行对应的文本向量。
举例而言,字符嵌入模型包括预先训练好的词向量模型,如预训练词向量的embedding层,预训练词向量的embedding层能够使字符嵌入模型输入的每一个字符均表征为一个词向量。可选的,embedding层可以在训练时动态变化进行反向传播更新。当然也不限于此,例如可以对字符嵌入模型和文本分类模型进行联合训练。
示例性的,将文本行中每个字符的词向量按照不同的行排列,可以得到二维矩阵向量形式的文本向量,以便文本分类模型中的卷积层对二维矩阵向量进行上下文特征的提取。当所述文本行中有s个字符,且各词向量的维度为d维时,所述文本行对应的文本向量是s×d的二维矩阵向量;请参阅图4,第五行对应的文本行“字的过程;即,针对印刷体字”有13个字符(包括标点符号),则该文本行对应的文本向量是13×d的二维矩阵向量,包括13个字符各自的词向量。
可选的,对所述文本行进行嵌入处理时可以不仅对文本行进行分词处理,而是将文本行的每个字符单独转换成固定长度的向量表示。需要说明的是,有时会出现文本行的起始的字符和前一个文本行的结尾的字符为一个词语,该词语是实际需要的词语,而该文本行的起始的字符和该字符之后的字符组成的词语是不需要的词语,本申请实施例可以通过使文本行的每一个字符均表征为一个词向量,提高此种情况下文本行上下文特征的提取的准确性,从而提高文本行的段落类型识别的准确性。
在一些实施方式中,文本分类模型可以为NLP(Natural Language Processing,自然语言处理)文本分类模型。为便于说明,以下主要以段落类型包括段首行和非段首行,即基于文本分类模型对上文排列成行的句子进行段首行和非段首行进行二分类为例进行说明,在其他实施方式中,段落类型包括还可以包括除段首行和非段首行之外的其他类型,如单独成段的行。举例而言,请参阅图4,第一行对应的文本行为段首行,第五行对应的文本行为非段首行。
示例性的,请参阅图5,文本分类模型包括:卷积层(Convolution Layer)、池化层(Pooling Layer)以及归一化层(Softmax Layer)。
示例性的,所述将所述文本行对应的文本向量输入文本分类模型,识别所述文本行的段落类型,包括:将所述文本行对应的文本向量输入所述文本分类模型的卷积层,对所述文本向量进行特征提取,得到第二特征图;基于所述文本分类模型的池化层,对所述第二特征图进行最大值池化处理;基于所述文本分类模型的归一化层,根据最大值池化处理后的第二特征图,确定所述文本行的段落类型。
可选的,所述基于所述文本分类模型的卷积层,对所述文本向量进行特征提取,得到第二特征图,包括:基于所述文本分类模型的卷积层,以不同大小的卷积核对所述文本向量进行特征提取,得到多个尺寸不同的第二特征图。
在文本分类模型的卷积层分别设计卷积核为3、4、5的卷积神经网络结构去提取所述文本行对应的二维矩阵向量的不同维度特征,得到的不同大小尺寸的第二特征图。
示例性的,所述基于所述文本分类模型的池化层,对所述第二特征图进行最大值池化处理,包括:基于所述文本分类模型的池化层,对所述多个尺寸不同的第二特征图进行最大值池化处理。
基于池化层进行最大值池化处理可以统一第二特征图的尺寸,使用最大值策略可以级联保留第二特征图的池化操作中的重要信息,还可以减小模型的参数量,防止产生模型过拟合的现象。
归一化层可以将最大值池化处理后的结果映射到(0,1)区间内,根据映射结果确定所述文本行的段落类型,实现文本行的分类(Classification),例如映射结果大于或等于0.5时确定所述文本行的段落类型为段首行,小于0.5则确定所述文本行的段落类型为非段首行。映射函数例如采用交叉熵函数作为损失函数。
示例性的,所述基于所述文本分类模型的归一化层,根据最大值池化处理后的第二特征图,确定所述文本行的段落类型,包括:将最大值池化处理后的多个尺寸不同的第二特征图进行拼接,以及基于所述文本分类模型的归一化层,对拼接得到的第三特征图进行归一化处理,确定所述文本行的段落类型。
举例而言,基于所述文本分类模型,可将每行的句子打上段首行和非段首行的二分类标签。
本申请实施例还提供了文本分类模型的训练方法。在一些实施方式中,所述文本分类模型的训练方法包括以下步骤:获取训练样本集,所述训练样本集包括多个文本行和各所述文本行对应的段落类型标签;基于字符嵌入模型,对所述文本行进行嵌入处理,得到所述文本行对应的文本向量,所述文本向量包括所述文本行中各字符的词向量;将各所述文本行对应的文本向量输入文本分类模型,识别各所述文本行的段落类型;基于预设的损失函数,根据各所述文本行的识别的段落类型,以及各所述文本行对应的段落类型标签确定损失值;根据所述损失值,调整所述文本分类模型的模型参数。
其中,训练样本集可以通过在文档中提取各行文本行,通过人工标注各文本行的段落类型标签;或者通过基于预设规则,判断各文本行的段落类型,得到对应的段落类型标签。例如文档中的文本具有换行符或段落符号,可以根据文本中的换行符或段落符号确定各文本行的段落类型,当然也不限于此。
基于字符嵌入模型,对所述文本行进行嵌入处理,得到所述文本行对应的文本向量,以及将各所述文本行对应的文本向量输入文本分类模型,识别各所述文本行的段落类型的步骤,具体可以参照前述步骤S130基于文本分类模型,识别各所述文本行的段落类型的说明,在此不做赘述。
所述预设的损失函数主要是在文本分类模型的训练阶段,每个批次的训练数据送入模型后,通过前向传播输出预测值(识别的段落类型),然后根据损失函数计算出预测值和真实值(段落类型标签)之间的差异值,也就是损失值。得到损失值之后,模型通过反向传播去更新各个参数,来降低真实值与预测值之间的损失,使得模型生成的预测值往真实值方向靠拢,从而达到学习的目的。
示例性的,采用大规模的语料数据作为训练样本集,训练样本集基于5万篇文章共7万句对文本分类模型进行微调,最终模型精度可达97%以上,能够较好应用于文本二分类。
步骤S140、根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本,所述目标文本包括若干文本段落。
示例性的,基于预设拼接规则,根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本。其中所述预设拼接规则可以根据用户阅读习惯和/或所述目标文本对应的排版布局确定。
举例而言,所述用户阅读习惯包括但不限于文本分段习惯。所述目标文本对应的排版布局包括在目标文本对应的文件版面中有图像时,目标文本的排版布局;例如可以在所述文本行的字符排列到图像的边缘时,进行换行。
示例性的,所述根据各所述文本行的段落类型,对所述若干文本行进行拼接(Concat),得到目标文本,包括:按照所述若干文本行的顺序,确定当前文本行;当所述当前文本行的段落类型为段首行时,新建一文本段落,且将所述当前文本行作为所述文本段落的段首;当所述当前文本行的段落类型为非段首行时,将所述当前文本行拼接在所述文本段落已有的文本行之后。
举例而言的,所述当所述当前文本行的段落类型为非段首行时,将所述当前文本行拼接在所述文本段落已有的文本行之后,包括:当所述文本段落已有的文本行在最后一行还有空位时,将所述当前文本行拼接在所述空位。
可选的,在所述确定当前文本行之后,所述方法还包括:对所述当前文本行进行文本预处理,所述文本预处理包括以下至少一种:删除空格、删除未知字符、将未知字符替换为预设字符。文本预处理也可以称为句式整理,可以消除文本识别得到的空格或未知字符,以使生成的目标文本具有较好的阅读体验。
如图6为一实施方式中对文本行进行拼接的流程示意图,如图7为一实施方式中对文本行进行拼接得到目标文本的示意图。如图7所示,得到的目标文本为含有语义信息的自然段落文本。
请参阅图6和图7,对当前文本行进行句式整理后,判断所述当前文本行是否为段首行;当所述当前文本行为段首行时,新建自然段,即新建一文本段落,且将所述当前文本行作为所述文本段落的段首;当所述当前文本行不是段首行时,将所述当前文本行拼接在所述文本段落已有的文本行之后,即进行连续拼接;之后按照所述若干文本行的顺序确定下一文本行为新的当前文本行,以及根据前述步骤循环处理,直至所述目标图像对应的文本行均已完成段落类型判断、拼接后,输出段落拼接自然段结果,即所述目标文本,退出段落拼接流程。
本申请实施例提供的文本提取方法,包括:获取目标图像,所述目标图像至少包括字符区域;对所述目标图像进行文本识别,得到若干文本行,各所述文本行包括若干字符;基于文本分类模型,识别各所述文本行的段落类型;根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本,所述目标文本包括若干文本段落。通过识别各文本行的段落类型,根据各文本行的段落类型,可以将文本识别得到的文本行拼接成包含语义段落信息的自然段,更符合用户的阅读习惯。
在一些实施方式中,本申请实施例可以通过光学字符识别和自然语言处理的结合,实现自动化生成包含语义段落信息的自然段。例如通过光学字符识别完成图像到字符的识别,通过自然语言处理完成字符到含有语义信息的自然段拼接。自然语言处理在文本分类任务中可以结合全文上下文信息,实现语义特征高维抽取,有效将语义信息融入到光学字符识别的抽取结果中。通过采用光学字符识别实现图片文本的精准识别,结合自然语言处理实现自然段的自动化生成,实现图像文字到含有语义信息的自然段落文本的自动化处理流程。
本申请的方法可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
示例性的,上述的方法可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备可以是服务器或终端设备。
参阅图8,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种文本提取方法的步骤,和/或文本分类模型的训练方法的步骤。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种文本提取方法的步骤,和/或文本分类模型的训练方法的步骤。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取目标图像,所述目标图像至少包括字符区域;
对所述目标图像进行文本识别,得到若干文本行,各所述文本行包括若干字符;
基于文本分类模型,识别各所述文本行的段落类型;
根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本,所述目标文本包括若干文本段落。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法,如:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项文本提取方法的步骤,和/或文本分类模型的训练方法的步骤。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本提取方法,其特征在于,包括:
获取目标图像,所述目标图像至少包括字符区域;
对所述目标图像进行文本识别,得到若干文本行,各所述文本行包括若干字符;
基于文本分类模型,识别各所述文本行的段落类型;
根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本,所述目标文本包括若干文本段落。
2.如权利要求1所述的文本提取方法,其特征在于,所述基于文本分类模型,识别各所述文本行的段落类型,包括:
基于字符嵌入模型,对所述文本行进行嵌入处理,得到所述文本行对应的文本向量,所述文本向量包括所述文本行中各字符的词向量;
将所述文本行对应的文本向量输入文本分类模型,识别所述文本行的段落类型。
3.如权利要求2所述的文本提取方法,其特征在于,所述将所述文本行对应的文本向量输入文本分类模型,识别所述文本行的段落类型,包括:
将所述文本行对应的文本向量输入所述文本分类模型的卷积层,对所述文本向量进行特征提取,得到第二特征图;
基于所述文本分类模型的池化层,对所述第二特征图进行最大值池化处理;
基于所述文本分类模型的归一化层,根据最大值池化处理后的第二特征图,确定所述文本行的段落类型。
4.如权利要求3所述的文本提取方法,其特征在于,所述基于所述文本分类模型的卷积层,对所述文本向量进行特征提取,得到第二特征图,包括:
基于所述文本分类模型的卷积层,以不同大小的卷积核对所述文本向量进行特征提取,得到多个尺寸不同的第二特征图;
所述基于所述文本分类模型的池化层,对所述第二特征图进行最大值池化处理,包括:
基于所述文本分类模型的池化层,对所述多个尺寸不同的第二特征图进行最大值池化处理;
所述基于所述文本分类模型的归一化层,根据最大值池化处理后的第二特征图,确定所述文本行的段落类型,包括:
将最大值池化处理后的多个尺寸不同的第二特征图进行拼接,以及基于所述文本分类模型的归一化层,对拼接得到的第三特征图进行归一化处理,确定所述文本行的段落类型。
5.如权利要求1-4中任一项所述的文本提取方法,其特征在于,所述文本行的段落类型包括段首行和非段首行,所述根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本,包括:
按照所述若干文本行的顺序,确定当前文本行;
当所述当前文本行的段落类型为段首行时,新建一文本段落,且将所述当前文本行作为所述文本段落的段首;
当所述当前文本行的段落类型为非段首行时,将所述当前文本行拼接在所述文本段落已有的文本行之后。
6.如权利要求5所述的文本提取方法,其特征在于,在所述确定当前文本行之后,所述方法还包括:
对所述当前文本行进行文本预处理,所述文本预处理包括以下至少一种:删除空格、删除未知字符、将未知字符替换为预设字符。
7.如权利要求1-4中任一项所述的文本提取方法,其特征在于,所述根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本,包括:
基于预设拼接规则,根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本;
其中,所述预设拼接规则根据用户阅读习惯和/或所述目标文本对应的排版布局确定。
8.一种文本分类模型的训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集包括多个文本行和各所述文本行对应的段落类型标签;
基于字符嵌入模型,对所述文本行进行嵌入处理,得到所述文本行对应的文本向量,所述文本向量包括所述文本行中各字符的词向量;
将各所述文本行对应的文本向量输入文本分类模型,识别各所述文本行的段落类型;
基于预设的损失函数,根据各所述文本行的识别的段落类型,以及各所述文本行对应的段落类型标签确定损失值;
根据所述损失值,调整所述文本分类模型的模型参数。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现:
如权利要求1-7中任一项所述的文本提取方法的步骤,和/或如权利要求8所述的文本分类模型的训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现:
如权利要求1-7中任一项所述的文本提取方法的步骤,和/或如权利要求8所述的文本分类模型的训练方法的步骤。
CN202211020224.XA 2022-08-24 2022-08-24 文本提取方法、模型训练方法计算机设备及存储介质 Pending CN115512366A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211020224.XA CN115512366A (zh) 2022-08-24 2022-08-24 文本提取方法、模型训练方法计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211020224.XA CN115512366A (zh) 2022-08-24 2022-08-24 文本提取方法、模型训练方法计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115512366A true CN115512366A (zh) 2022-12-23

Family

ID=84501584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211020224.XA Pending CN115512366A (zh) 2022-08-24 2022-08-24 文本提取方法、模型训练方法计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115512366A (zh)

Similar Documents

Publication Publication Date Title
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN109492643B (zh) 基于ocr的证件识别方法、装置、计算机设备及存储介质
US20200167558A1 (en) Semantic page segmentation of vector graphics documents
RU2635259C1 (ru) Способ и устройство для определения типа цифрового документа
CN110705233B (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
CN111340037B (zh) 文本版面分析方法、装置、计算机设备和存储介质
CN113313111B (zh) 文本识别方法、装置、设备和介质
US11816883B2 (en) Region proposal networks for automated bounding box detection and text segmentation
CN114463586A (zh) 图像识别模型的训练与图像识别方法、装置、设备和介质
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN109934229B (zh) 图像处理方法、装置、介质和计算设备
CN114596566B (zh) 文本识别方法及相关装置
CN113011144A (zh) 表单信息的获取方法、装置和服务器
US20220327816A1 (en) System for training machine learning model which recognizes characters of text images
CN112232346A (zh) 语义分割模型训练方法及装置、图像语义分割方法及装置
CN109685065A (zh) 试卷内容自动分类的版面分析方法、系统
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
CN111832551A (zh) 文本图像处理方法、装置、电子扫描设备和存储介质
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
CN114627484A (zh) 一种复杂多场景文档分割方法、系统、装置及介质
CN113065512A (zh) 人脸微表情识别方法、装置、设备及存储介质
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
US20220343663A1 (en) Methods and systems for performing on-device image to text conversion
CN114120305B (zh) 文本分类模型的训练方法、文本内容的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination