CN111414916A - 图像中文本内容提取生成方法、装置及可读存储介质 - Google Patents

图像中文本内容提取生成方法、装置及可读存储介质 Download PDF

Info

Publication number
CN111414916A
CN111414916A CN202010135087.9A CN202010135087A CN111414916A CN 111414916 A CN111414916 A CN 111414916A CN 202010135087 A CN202010135087 A CN 202010135087A CN 111414916 A CN111414916 A CN 111414916A
Authority
CN
China
Prior art keywords
image
text content
text
original
gray level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010135087.9A
Other languages
English (en)
Inventor
张文杰
汪文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010135087.9A priority Critical patent/CN111414916A/zh
Publication of CN111414916A publication Critical patent/CN111414916A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明涉及人工智能技术,揭露了一种图像中文本内容提取生成方法,包括:对包含文字信息的图像进行灰度转换处理,得到标准灰度图,利用预设图像识别技术对所述标准灰度图进行文字识别,得到一组或多组原始文字图像集;利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,得到所述目标文本的检测位置;根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集;将所述原始文本内容特征集进行关键字识别生成初始文本内容集;将所述初始文本内容集进行关键词抽取生成标准文本内容集。本发明还提出一种文本内容提取生成装置、电子设备以及一种计算机可读存储介质。本发明可以实现从图像中智能提取文本内容。

Description

图像中文本内容提取生成方法、装置及可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本内容提取生成的方法、装置、电子设备及计算机可读存储介质。
背景技术
随着大数据及人工智能的兴起,对图像中文本内容的提取生成的需求越来越高,现有的图像中文本内容提取生成多依赖于人工执行如人工读取图像中文本内容并进行记录等,人工执行虽然可以达到图像中文本内容的提取目的,但消耗了大量的人力资源,同时在内容生成方面会出现错误,遗漏。
发明内容
本发明提供一种图像中文本内容提取生成方法、装置、电子设备及计算机可读存储介质,其主要目的在于节省用于图像中文本内容的提取生成过程中的人力资源,减少内容生成中出现的错误,遗漏。
为实现上述目的,本发明提供的一种图像中文本内容提取生成方法,包括:
接收客户端输入的包含文字信息的图像,对所述图像进行灰度转换处理,得到标准灰度图,利用预设图像识别技术对所述标准灰度图进行文字识别,得到一组或多组原始文字图像集;
利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,得到所述目标文本的检测位置;
根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集;
将所述原始文本内容特征集进行关键字识别生成初始文本内容集;
将所述初始文本内容集进行关键词抽取生成标准文本内容集。
可选地,所述对所述图像进行灰度转换处理,得到标准灰度图,包括:
将所述图像进行灰度图转换,得到原始灰度图;
将所述原始灰度图进行对比度增强,得到增强灰度图;
将所述增强灰度图进行分割处理,得到初始灰度图集;
将所述初始灰度图集进行图像增强,得到所述标准灰度图。
可选地,所述将所述增强灰度图进行分割处理,得到初始灰度图集,包括:
预设初始灰度值t为前景与背景的分割阈值,根据所述初始灰度值t计算得到所述增强灰度图中的前景像素点和背景像素点;
计算所述前景像素点的数量占图像比例为w0,平均灰度为u0,及计算所述背景像素点的数量占图像比例w1,平均灰度u1
得到所述增强灰度图的总平均灰度:u=w0*u0+w1*u1,前景和背景灰度的方差:g=t*w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=t*w0*w1*(u0-u1)*(u0-u1);
重复执行上述的步骤,直到当所述方差g达到最大值,将所述g作为最佳分割阈值;
根据所述最佳分割阈值将所述增强灰度图分割为前景部分和背景部分,得到所述初始集灰度图集。
可选地,所述利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,包括:
利用预设文本检测模型对所述原始文字图像集中目标文本的所在区域进行查找,得到所述原始文字图像集中目标文本的信息区域;
根据所述原始文字图像集中目标文本的信息区域,生成一个覆盖区域,以最小面积覆盖所述信息区域;
获取所述覆盖区域所有边界上的像素的位置信息集;
根据所述像素的位置信息集得到所述原始文字图像集中目标文本内容的检测位置。
可选地,所述根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集,包括:
将所述原始文字图像集按预设宽度划分为特征向量;
按照所述检测位置,对特征向量进序列标注,得到特征序列;
预测所述特征序列中含有所述原始文字图像集特征的标签在所有特征序列中的分布;
按照预测的所述原始文字图像集特征的标签在所有特征序列中的分布,对特征序列进行去重、整合操作转换成最终的原始文本内容特征集。
可选地,所述将所述原始文本内容特征集进行关键字识别生成初始文本内容集,包括:
构建包含所述原始文本内容特征集内所有词语的无向图;
计算所述无向图中词语之间的相关度,并利用所述词语之间的相关度计算得到每个所述词语的词语权重;
根据所述词语权重利用预设的计算公式计算每个所述词语的词语得分;
按照所述词语得分选取得分最高的t个词语,生成所述初始文本内容集
可选地,所述将所述初始文本内容集进行关键词抽取生成标准文本内容集,包括:
构建损失函数;
利用梯度下降算法更新所述损失函数的参数值;
利用参数更新后的损失函数,将所述初始文本内容集进行关键字抽取生成标准文本内容集。
为了解决上述问题,本发明还提供一种文本内容提取生成装置,所述装置包括:
图像识别模块,用于接收客户端输入的包含文字信息的图像,对所述图像进行灰度转换处理,得到标准灰度图,利用预设图像识别技术对所述标准灰度图进行文字识别,得到一组或多组原始文字图像集;
位置检测模块,用于利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,得到所述目标文本的检测位置;
特征提取模块,用于根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集;
文本内容生成模块,用于将所述原始文本内容特征集进行关键字识别生成初始文本内容集,将所述初始文本内容集进行关键词抽取生成标准文本内容集。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的图像中文本内容提取生成方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述中所述的图像中文本内容提取生成方法。
本发明实施方式通过对包含文字信息图像的处理,实现了对所述包含文字信息图像中文本内容的提取和生成,大量节省了读取图像中文本内容的人力资源,同时减少了图像中文本内容提取后进行生成过程中出现的错误、遗漏。因此本发明实施例提出的图像中文本内容提取生成方法、装置及计算机可读存储介质,可以实现对包含文字信息图像中文本内容的的自动化提取。
附图说明
图1为本发明一实施例提供的图像中文本内容提取生成方法的流程示意图;
图2为本发明一实施例提供的图像中文本内容提取生成方法的模块示意图;
图3为本发明一实施例提供的图像中文本内容提取生成方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种图像中文本内容提取生成方法。参照图1所示,为本发明一实施例提供的图像中文本内容提取生成方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,所述图像中文本内容提取生成方法包括:
S1、接收客户端输入的包含文字信息的图像,对所述图像进行灰度转换处理,得到标准灰度图,利用预设图像识别技术对所述标准灰度图进行文字识别,得到一组或多组原始文字图像集。
在本发明较佳实施例中,所述图像可以为合同模版,本发明实施例提取所述合同模版中的文字内容,生成合同条款。
本发明实施例中,所述对所述图像进行灰度转换处理,得到标准灰度图,包括:
将所述图像进行灰度图转换,得到原始灰度图;
将所述原始灰度图进行对比度增强,得到增强灰度图;
将所述增强灰度图进行分割处理,得到初始灰度图集;
将所述初始灰度图集进行图像增强,得到所述标准灰度图。
其中,所述将所述图像进行灰度图转换,得到原始灰度图,包括:
将所述图像中的所有像素输入至一个灰度值转换公式中进行灰度值转换,根据转换后的灰度值生成所述原始灰度图。
其中,所述灰度值转换公式为:
0.30*R+0.59*G+0.11*B
其中R,G,B为所述包含文字信息的图像中的像素的三分量。
所述对比度增强指的是所述增强灰度图中像素点亮度最大值与最小值之间的对比。
进一步地,本发明实施例可以采用对比度拉伸方法对所述原始灰度图进行对比度增强。
所述对比度拉伸方法也叫作灰度拉伸。本发明实施例使用对比度拉伸方法中的分段线性变换函数,根据实际需求针对所述原始灰度图中特定区域进行灰度拉伸,进而增强所述原始灰度图的对比度,得到增强灰度图。
详细地,所述分段线性变换函数公式如下所示:
Db=f(Da)=a*Da+b
其中a为线性斜率,b为Db在Y轴上的截距,Da代表输入所述原始灰度图的灰度值,Db代表输出所述增强灰度图的灰度值。如果a>1,此时输出的所述灰度图对比度相比原图像是增强的。如果a<1,此时输出的所述灰度图对比度相比原图像是削弱的。
进一步地,本发明实施例利用下述方法对所述增强灰度图进行分割处理,得到初始灰度图集:
预设初始灰度值t为前景与背景的分割阈值,根据所述初始灰度值t计算得到所述增强灰度图中的前景像素点和背景像素点;
计算所述前景像素点的数量占图像比例w0,平均灰度u0
及计算所述背景像素点的数量占图像比例为w1,平均灰度为u1
得到所述增强灰度图的总平均灰度:u=w0*u0+w1*u1,以及前景和背景灰度的方差:g=t*w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=t*w0*w1*(u0-u1)*(u0-u1);
重复执行上述的步骤,直到当所述方差g达到最大值时,认为此时前景和背景差异最大,此时的g即为最佳分割阈值;
根据所述最佳分割阈值将所述增强灰度图分割为前景和背景两部分,得到所述初始灰度图集。
上述方法得到的初始灰度图集中,对背景与前景,即图像背景和文字之间的区别并不明显,本发明实施例进一步对所述初始灰度图集进行图像增强,得到所述标准灰度图。
详细的,所述将所述标准灰度图进行图像增强,包括:
将所述初始灰度图集和输入至下述公式中进行计算,得到所述标准灰度图S(x,y):
S(x,y)=R(x,y)×L(x,y)
其中,R(x,y)表示初始灰度图集中前景部分,L(x,y)表示初始灰度图集中背景部分。
进一步地,本发明所述预设图像识别技为OCR(Optical Character Recognition,光学文字识别)图像识别技术。
所述OCR图像识别技术通过图像中文字与背景中的不同像素,判定出文字的具体形状,根据判定出的文字形状对所述文字进行文字识别,得到一组或多组原始文字图像集。
S2、利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,得到所述目标文本的检测位置。
详细的,所述文本检测模型可以是,但不限于EAST(Efficient Accuracy SceneText,精确应用文本模型)文本检测模型。
在本发明较佳实施例中,所述利用文本检测模型对所述原始文字图像集进行目标文本的位置检测包括:
利用预设文本检测模型,如EAST文本检测模型对所述原始文字图像集中目标文本的所在区域进行查找,得到所述原始文字图像集中目标文本的信息区域;
根据所述原始文字图像集中目标文本的信息区域,生成一个覆盖区域,以最小面积覆盖所述信息区域;
获取所述覆盖区域所有边界上的像素的位置信息集;
根据所述像素的位置信息集得到所述原始文字图像集中目标文本内容的检测位置。
S3、根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集。
详细地,在本发明较佳实施例可以使用CNN(Convolutional Neural Networks,卷积神经网络)根据所述检测位置对所述原始文字图像集进行特征提取。
所述CNN是一种卷积神经网络模型,用于解决基于图像的识别问题,特别是场景文字识别问题。
所述CNN的结构包含三部分,从下到上依次为:
卷积层:作用是从输入图像中提取特征向量,并用标签对特征向量进行序列标注,得到特征序列;
循环层:作用是预测从卷积层获取的特征序列的标签分布;
转录层:作用是把从循环层获取的标签分布通过去重、整合等操作转换成最终的原始文本内容特征集。
详细地,本发明实施例所述根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集,包括:
将所述原始文字图像集输入至CNN模型中,在所述CNN模型中执行下述操作:
将所述原始文字图像集按预设宽度划分为特征向量;
按照所述检测位置,对特征向量进序列标注,得到特征序列;
预测所述特征序列中含有所述原始文字图像集特征的标签在所有特征序列中的分布;
按照预测的所述原始文字图像集特征的标签在所有特征序列中的分布,对特征序列进行去重、整合等操作转换成最终的原始文本内容特征集。
所述特征向量表示的是图像上一定宽度的特征,在本发明实施例中所述预设宽度可以为单个像素的宽度,因此,图像上单个像素宽度间的像素集合即为特征向量。
所述对特征向量进序列标注是将特征向量按照从左往右的顺序进行所述序列标注,如所述特征向量共有10个,对这10个特征向量从左往右按1、2、3、4、5、6、7、8、9、10进行所述序列标注。
详细地,本发明实施例通过构建损失函数的方法对所述特征序列进行标签分布进行预测。
所述损失函数指的是在CNN模型中用来评价所述CNN模型输出的预测值与真实值之间的差值的函数。
在本案的较佳实施例中,可以采用如下损失函数:
Figure BDA0002395948530000081
其中,
Figure BDA0002395948530000082
表示预测值,Y表示真实值,这里用
Figure BDA0002395948530000083
来表示损失函数,
Figure BDA0002395948530000084
越小,模型模型的性能越好。
详细地,本发明实施例利用所述损失函数对CNN模型进行训练,在大量的训练后,CNN模型可以准确的预测出所述特征序列的标签分布。
S4、将所述原始文本内容特征集进行词语识别生成初始文本内容集;
在本案较佳实施例中,对于所述原始文本内容集,可以利用基于依存排序的算法将所述原始文本内容集中所有句子中的词语按照得分进行选取,得到所述初始文本内容集。
所述基于依存排序的算法是通过构建依存关系图来计算词语之间的关联强度,可利用TextRank算法算出词语的重要度得分。
对所述原始文本内容集中所有句子的词语构造无向图,计算所述无向图中词语之间的相关度,利用所述词语之间的相关度计算得到词语的权重,可用如下公式计算任意两词Wi和Wj的权重:
Figure BDA0002395948530000091
其中len(Wi,Wj)表示词语Wi和Wj之间的相关度,b是预设参数。
所述无向图指的是包含所述原始文本内容集中所有句子的词语,但所有词语间没有任何连接关系的图。
在所述无向图中,根据所述权重,利用下列公式算出每个词的得分,选取得分最高的t个词语:
Figure BDA0002395948530000092
式中,
Figure BDA0002395948530000093
是与Wi有关的集合,η为预设系数,
Figure BDA0002395948530000094
将所述最高的t个词语放在一起,得到所述初始文本内容集。
S5、将所述初始文本内容集进行关键词提取生成标准文本内容集。
在本案的较佳实施例可通过预设卷积神经网络对所述初始文本内容集进行关键词提取,包括:
a、构建损失函数。
这里用
Figure BDA0002395948530000095
来表示损失函数。根据现有的卷积神经网络中神经元基本公式,各层输入为
Figure BDA0002395948530000096
各层的输出为Ci=f(zi)。
其中
Figure BDA0002395948530000097
为第l层模型第i个神经元的输入,Wsi-1为第l层模型第i个神经元到第l+1层模型中第j个神经元的链接,Cj为输出层各单元的输出值。
根据输入、输出公式,构建如下损失函数:
Figure BDA0002395948530000098
其中Y是卷积CNN输入的真实值,
Figure BDA0002395948530000099
是卷积CNN输出的计算值。
b、将所述标准文本内容集进行生成,即生成合同模版的合同条款。
将初始文本内容集输入卷积CNN进行关键词提取,提取完成后,生成所述标准文本内容集。
如图2所示,是本发明图像中文本内容提取生成装置的功能模块图。
本发明所述图像中文本内容提取生成装置100可以安装于电子设备中。根据实现的功能,所述图像中文本内容提取生成装置可以包括图像识别模块101、位置检测模块102、特征提取模块103和文本内容生成模块104。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述图像识别模块101,用于接收客户端输入的包含文字信息的图像,对所述图像进行灰度转换处理,得到标准灰度图,利用预设图像识别技术对所述标准灰度图进行文字识别,得到一组或多组原始文字图像集。
所述位置检测模块102,用于利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,得到所述目标文本的检测位置;
特征提取模块103,用于根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集;
文本内容生成模块104,用于将所述原始文本内容特征集进行关键字识别生成初始文本内容集,将所述初始文本内容集进行关键词抽取生成标准文本内容集。
详细地,所述图像中文本内容提取生成装置各模块的具体实施步骤如下:
所述图像识别模块101接收客户端输入的包含文字信息的图像,对所述图像进行灰度转换处理,得到标准灰度图,利用预设图像识别技术对所述标准灰度图进行文字识别,得到一组或多组原始文字图像集。
在本发明较佳实施例中,所述图像可以为合同模版,本发明实施例提取所述合同模版中的文字内容,生成合同条款。
本发明实施例中,所述对所述图像进行灰度转换处理,得到标准灰度图,包括:
将所述图像进行灰度图转换,得到原始灰度图;
将所述原始灰度图进行对比度增强,得到增强灰度图;
将所述增强灰度图进行分割处理,得到初始灰度图集;
将所述初始灰度图集进行图像增强,得到所述标准灰度图。
其中,所述将所述图像进行灰度图转换,得到原始灰度图,包括:
将所述图像中的所有像素输入至一个灰度值转换公式中进行灰度值转换,根据转换后的灰度值生成所述原始灰度图。
其中,所述灰度值转换公式为:
0.30*R+0.59*G+0.11*B
其中R,G,B为所述包含文字信息的图像中的像素的三分量。
所述对比度增强指的是所述增强灰度图中像素点亮度最大值与最小值之间的对比。
进一步地,本发明实施例可以采用对比度拉伸方法对所述原始灰度图进行对比度增强。
所述对比度拉伸方法也叫作灰度拉伸。本发明实施例使用对比度拉伸方法中的分段线性变换函数,根据实际需求针对所述原始灰度图中特定区域进行灰度拉伸,进而增强所述原始灰度图的对比度,得到增强灰度图。
详细地,所述分段线性变换函数公式如下所示:
Db=f(Da)=a*Da+b
其中a为线性斜率,b为Db在Y轴上的截距,Da代表输入所述原始灰度图的灰度值,Db代表输出所述增强灰度图的灰度值。如果a>1,此时输出的所述灰度图对比度相比原图像是增强的。如果a<1,此时输出的所述灰度图对比度相比原图像是削弱的。
进一步地,本发明实施例利用下述方法对所述增强灰度图进行分割处理,得到初始灰度图集:
预设初始灰度值t为前景与背景的分割阈值,根据所述初始灰度值t计算得到所述增强灰度图中的前景像素点和背景像素点;
计算所述前景像素点的数量占图像比例为w0,平均灰度为u0
及计算所述背景像素点的数量占图像比例w1,平均灰度u1
得到所述增强灰度图的总平均灰度:u=w0*u0+w1*u1,以及前景和背景灰度的方差:g=t*w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=t*w0*w1*(u0-u1)*(u0-u1);
重复执行上述的步骤,直到当所述方差g达到最大值,认为此时前景和背景差异最大,此时的g即为最佳分割阈值;
根据所述最佳分割阈值将所述增强灰度图分割为前景和背景两部分,得到所述初始灰度图集。
上述方法得到的初始灰度图集中,对背景与前景,即图像背景和文字之间的区别并不明显,本发明实施例进一步对所述初始灰度图集进行图像增强,得到所述标准灰度图。
详细的,所述将所述标准灰度图进行图像增强,包括:
将所述初始灰度图集和输入至下述公式中进行计算,得到所述标准灰度图S(x,y):
S(x,y)=R(x,y)×L(x,y)
其中,R(x,y)表示初始灰度图集中前景部分,L(x,y)表示初始灰度图集中背景部分。
进一步地,本发明所述预设图像识别技为OCR(Optical Character Recognition,光学文字识别)图像识别技术。
所述OCR图像识别技术通过图像中文字与背景中的不同像素,判定出文字的具体形状,根据判定出的文字形状对所述文字进行文字识别,得到一组或多组原始文字图像集。
所述位置检测模块102利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,得到所述目标文本的检测位置。
详细的,所述文本检测模型可以是,但不限于EAST(Efficient Accuracy SceneText,精确应用文本模型)文本检测模型。
在本发明较佳实施例中,所述利用文本检测模型对所述原始文字图像集进行目标文本的位置检测包括:
利用预设文本检测模型,如EAST文本检测模型对所述原始文字图像集中目标文本的所在区域进行查找,得到所述原始文字图像集中目标文本的信息区域;
根据所述原始文字图像集中目标文本的信息区域,生成一个覆盖区域,以最小面积覆盖所述信息区域;
获取所述覆盖区域所有边界上的像素的位置信息集;
根据所述像素的位置信息集得到所述原始文字图像集中目标文本内容的检测位置。
所述特征提取模块103根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集。
详细地,在本发明较佳实施例可以使用CNN(Convolutional Neural Networks,卷积神经网络)根据所述检测位置对所述原始文字图像集进行特征提取。
所述CNN是一种卷积神经网络模型,用于解决基于图像的识别问题,特别是场景文字识别问题。
所述CNN的结构包含三部分,从下到上依次为:
卷积层:作用是从输入图像中提取特征向量,并用标签对特征向量进行序列标注,得到特征序列;
循环层:作用是预测从卷积层获取的特征序列的标签分布;
转录层:作用是把从循环层获取的标签分布通过去重、整合等操作转换成最终的原始文本内容特征集。
详细地,本发明实施例所述根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集,包括:
将所述原始文字图像集输入至CNN模型中,在所述CNN模型中执行下述操作:
将所述原始文字图像集按预设宽度划分为特征向量;
按照所述检测位置,对特征向量进序列标注,得到特征序列;
预测所述特征序列中含有所述原始文字图像集特征的标签在所有特征序列中的分布;
按照预测的所述原始文字图像集特征的标签在所有特征序列中的分布,对特征序列进行去重、整合等操作转换成最终的原始文本内容特征集。
所述特征向量表示的是图像上一定宽度的特征,在本发明实施例中所述预设宽度可以为单个像素的宽度,因此,图像上单个像素宽度间的像素集合即为特征向量。
所述对特征向量进序列标注是将特征向量按照从左往右的顺序进行所述序列标注,如所述特征向量共有10个,对这10个特征向量从左往右按1、2、3、4、5、6、7、8、9、10进行所述序列标注。
详细地,本发明实施例通过构建损失函数的方法对所述特征序列进行标签分布进行预测。
所述损失函数指的是在CNN模型中用来评价所述CNN模型输出的预测值与真实值之间的差值的函数。
在本案的较佳实施例中,可以采用如下损失函数:
Figure BDA0002395948530000141
其中,
Figure BDA0002395948530000142
表示预测值,Y表示真实值,这里用
Figure BDA0002395948530000143
来表示损失函数,
Figure BDA0002395948530000144
越小,模型模型的性能越好。
详细地,本发明实施例利用所述损失函数对CNN模型进行训练,在大量的训练后,CNN模型可以准确的预测出所述特征序列的标签分布。
文本内容生成模块104、将所述原始文本内容特征集进行关键字识别生成初始文本内容集,将所述初始文本内容集进行关键词抽取生成标准文本内容集。
对于所述原始文本内容集,可以利用基于依存排序的算法将所述原始文本内容集中所有句子中的词语按照得分进行选取,得到所述初始文本内容集。
所述基于依存排序的算法是通过构建依存关系图来计算词语之间的关联强度,可利用TextRank算法算出词语的重要度得分。
对所述原始文本内容集中所有句子的词语构造无向图,计算所述无向图中词语之间的相关度,利用所述词语之间的相关度计算得到词语的权重,可用如下公式计算任意两词Wi和Wj的权重:
Figure BDA0002395948530000145
其中len(Wi,Wj)表示词语Wi和Wj之间的相关度,b是预设参数。
所述无向图指的是包含所述原始文本内容集中所有句子的词语,但所有词语间没有任何连接关系的图。
在所述无向图中,根据所述权重,利用下列公式算出每个词的得分,选取得分最高的t个词语:
Figure BDA0002395948530000146
式中,
Figure BDA0002395948530000147
是与Wi有关的集合,η为预设系数,
Figure BDA0002395948530000148
将所述最高的t个词语放在一起,得到所述初始文本内容集。
在本案的较佳实施例可通过预设卷积神经网络对所述初始文本内容集进行关键词提取,包括:
a、构建损失函数。
这里用
Figure BDA0002395948530000151
来表示损失函数。根据现有的卷积神经网络中神经元基本公式,各层输入为
Figure BDA0002395948530000152
各层的输出为Ci=f(zi)。
其中
Figure BDA0002395948530000153
为第l层模型第i个神经元的输入,Wsi-1为第l层模型第i个神经元到第l+1层模型中第j个神经元的链接,Cj为输出层各单元的输出值。
根据输入、输出公式,构建如下损失函数:
Figure BDA0002395948530000154
其中Y是卷积CNN输入的真实值,
Figure BDA0002395948530000155
是卷积CNN输出的计算值。
b、将所述标准文本内容集进行生成,即生成合同模版的合同条款。
将初始文本内容集输入卷积CNN进行关键词提取,提取完成后,生成所述标准文本内容集。
如图3所示,是本发明实现图像中文本内容提取生成方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如图像中文本内容提取生成程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如资源调度程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如图像中文本内容提取生成程序12等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的图像中文本内容提取生成程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
接收客户端输入的包含文字信息的图像,对所述图像进行灰度转换处理,得到标准灰度图,利用预设图像识别技术对所述标准灰度图进行文字识别,得到一组或多组原始文字图像集;
利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,得到所述目标文本的检测位置;
根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集;
将所述原始文本内容特征集进行关键字识别生成初始文本内容集;
将所述初始文本内容集进行关键词抽取生成标准文本内容集。
具体地,所述处理器10对上述指令的具体实现方法可参考图2对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种图像中文本内容提取生成方法,其特征在于,所述方法包括:
接收客户端输入的包含文字信息的图像,对所述图像进行灰度转换处理,得到标准灰度图,利用预设图像识别技术对所述标准灰度图进行文字识别,得到一组或多组原始文字图像集;
利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,得到所述目标文本的检测位置;
根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集;
将所述原始文本内容特征集进行关键字识别生成初始文本内容集;
将所述初始文本内容集进行关键词抽取生成标准文本内容集。
2.如权利要求1所述的图像中文本内容提取生成方法,其特征在于,所述对所述图像进行灰度转换处理,得到标准灰度图,包括:
将所述图像进行灰度图转换,得到原始灰度图;
将所述原始灰度图进行对比度增强,得到增强灰度图;
将所述增强灰度图进行分割处理,得到初始灰度图集;
将所述初始灰度图集进行图像增强,得到所述标准灰度图。
3.如权利要求2所述的图像中文本内容提取生成方法,其特征在于,所述将所述增强灰度图进行分割处理,得到初始灰度图集,包括:
预设初始灰度值t为前景与背景的分割阈值,根据所述初始灰度值t计算得到所述增强灰度图中的前景像素点和背景像素点;
计算所述前景像素点的数量占图像比例w0,平均灰度u0,及计算所述背景像素点的数量占图像比例w1,平均灰度u1
得到所述增强灰度图的总平均灰度:u=w0*u0+w1*u1,以及前景和背景灰度的方差:g=t*w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=t*w0*w1*(u0-u1)*(u0-u1);
重复执行上述的步骤,直到当所述方差g达到最大值时,将所述g作为最佳分割阈值;
根据所述最佳分割阈值将所述增强灰度图分割为前景部分和背景部分,得到所述初始灰度图集。
4.如权利要求1至3中任意一项所述的图像中文本内容提取生成方法,其特征在于,所述利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,包括:
利用预设文本检测模型对所述原始文字图像集中目标文本的所在区域进行查找,得到所述原始文字图像集中目标文本的信息区域;
根据所述原始文字图像集中目标文本的信息区域,生成一个覆盖区域,以最小面积覆盖所述信息区域;
获取所述覆盖区域所有边界上的像素的位置信息集;
根据所述像素的位置信息集得到所述原始文字图像集中目标文本内容的检测位置。
5.如权利要求1至3中任意一项所述的图像中文本内容提取生成方法,其特征在于,所述根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集,包括:
将所述原始文字图像集按预设宽度划分为特征向量;
按照所述检测位置,对特征向量进序列标注,得到特征序列;
预测所述特征序列中含有所述原始文字图像集特征的标签在所有特征序列中的分布;
按照预测的所述原始文字图像集特征的标签在所有特征序列中的分布,对特征序列进行去重、整合操作转换成最终的原始文本内容特征集。
6.如权利要求1至3中任意一项所述的图像中文本内容提取生成方法,其特征在于,所述将所述原始文本内容特征集进行关键字识别生成初始文本内容集,包括:
构建包含所述原始文本内容特征集内所有词语的无向图;
计算所述无向图中词语之间的相关度,并利用所述词语之间的相关度计算得到每个所述词语的词语权重;
根据所述词语权重利用预设的计算公式计算每个所述词语的词语得分;
按照所述词语得分选取得分最高的t个词语,生成所述初始文本内容集。
7.如权利要求1至3中任意一项所述的图像中文本内容提取生成方法,其特征在于,所述将所述初始文本内容集进行关键词抽取生成标准文本内容集,包括:
构建损失函数;
利用梯度下降算法更新所述损失函数的参数值;
利用参数更新后的损失函数,将所述初始文本内容集进行关键字抽取生成标准文本内容集。
8.一种文本内容提取生成装置,其特征在于,所述装置包括:
图像识别模块,用于接收客户端输入的包含文字信息的图像,对所述图像进行灰度转换处理,得到标准灰度图,利用预设图像识别技术对所述标准灰度图进行文字识别,得到一组或多组原始文字图像集;
位置检测模块,用于利用文本检测模型对所述原始文字图像集进行目标文本的位置检测,得到所述目标文本的检测位置;
特征提取模块,用于根据所述检测位置对所述原始文字图像集进行特征提取,生成原始文本内容特征集;
文本内容生成模块,用于将所述原始文本内容特征集进行关键字识别生成初始文本内容集,并将所述初始文本内容集进行关键词抽取生成标准文本内容集。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的图像中文本内容提取生成方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的图像中文本内容提取生成方法。
CN202010135087.9A 2020-02-29 2020-02-29 图像中文本内容提取生成方法、装置及可读存储介质 Pending CN111414916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010135087.9A CN111414916A (zh) 2020-02-29 2020-02-29 图像中文本内容提取生成方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010135087.9A CN111414916A (zh) 2020-02-29 2020-02-29 图像中文本内容提取生成方法、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN111414916A true CN111414916A (zh) 2020-07-14

Family

ID=71494253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010135087.9A Pending CN111414916A (zh) 2020-02-29 2020-02-29 图像中文本内容提取生成方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN111414916A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932562A (zh) * 2020-09-22 2020-11-13 平安科技(深圳)有限公司 基于ct序列的图像识别方法、装置、电子设备及介质
CN111985491A (zh) * 2020-09-03 2020-11-24 深圳壹账通智能科技有限公司 基于深度学习的相似信息合并方法、装置、设备及介质
CN112137591A (zh) * 2020-10-12 2020-12-29 平安科技(深圳)有限公司 基于视频流的目标物位置检测方法、装置、设备及介质
CN112861648A (zh) * 2021-01-19 2021-05-28 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
CN113779640A (zh) * 2021-09-01 2021-12-10 北京橙色云科技有限公司 合同签订方法、装置以及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985491A (zh) * 2020-09-03 2020-11-24 深圳壹账通智能科技有限公司 基于深度学习的相似信息合并方法、装置、设备及介质
CN111932562A (zh) * 2020-09-22 2020-11-13 平安科技(深圳)有限公司 基于ct序列的图像识别方法、装置、电子设备及介质
CN112137591A (zh) * 2020-10-12 2020-12-29 平安科技(深圳)有限公司 基于视频流的目标物位置检测方法、装置、设备及介质
CN112137591B (zh) * 2020-10-12 2021-07-23 平安科技(深圳)有限公司 基于视频流的目标物位置检测方法、装置、设备及介质
CN112861648A (zh) * 2021-01-19 2021-05-28 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
WO2022156066A1 (zh) * 2021-01-19 2022-07-28 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
CN112861648B (zh) * 2021-01-19 2023-09-26 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
CN113779640A (zh) * 2021-09-01 2021-12-10 北京橙色云科技有限公司 合同签订方法、装置以及存储介质

Similar Documents

Publication Publication Date Title
CN111414916A (zh) 图像中文本内容提取生成方法、装置及可读存储介质
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN112465071A (zh) 图像多标签分类方法、装置、电子设备及介质
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
CN111639704A (zh) 目标识别方法、装置及计算机可读存储介质
CN112699775A (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
CN112137591B (zh) 基于视频流的目标物位置检测方法、装置、设备及介质
CN113705462A (zh) 人脸识别方法、装置、电子设备及计算机可读存储介质
CN113298159A (zh) 目标检测方法、装置、电子设备及存储介质
CN113158676A (zh) 专业实体与关系联合抽取方法、系统及电子设备
CN112396005A (zh) 生物特征图像识别方法、装置、电子设备及可读存储介质
CN112016617A (zh) 细粒度分类方法、装置及计算机可读存储介质
CN115909336A (zh) 文本识别方法、装置、计算机设备和计算机可读存储介质
CN113157739A (zh) 跨模态检索方法、装置、电子设备及存储介质
CN113610934B (zh) 图像亮度调整方法、装置、设备及存储介质
CN112215336B (zh) 基于用户行为的数据标注方法、装置、设备及存储介质
CN113515591B (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN112580505B (zh) 网点开关门状态识别方法、装置、电子设备及存储介质
CN112464946A (zh) 一种基于大数据的垃圾图像收集方法及系统
CN111915615A (zh) 图像分割方法、装置、电子设备及计算机可读存储介质
CN116863509B (zh) 运用改进的PolarMask进行人形轮廓检测和姿态识别的方法
CN110414327B (zh) 样本数据处理方法、装置、计算机装置及存储介质
CN113222890B (zh) 小目标物检测方法、装置、电子设备及存储介质
CN115049836B (zh) 图像分割方法、装置、设备及存储介质
CN114677526A (zh) 图像分类方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination