CN112528984A - 图像信息抽取方法、装置、电子设备及存储介质 - Google Patents
图像信息抽取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112528984A CN112528984A CN202011508414.7A CN202011508414A CN112528984A CN 112528984 A CN112528984 A CN 112528984A CN 202011508414 A CN202011508414 A CN 202011508414A CN 112528984 A CN112528984 A CN 112528984A
- Authority
- CN
- China
- Prior art keywords
- image
- field
- character
- preset
- extraction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 120
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003708 edge detection Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000011426 transformation method Methods 0.000 description 4
- 238000003702 image correction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/14—Transformations for image registration, e.g. adjusting or mapping for alignment of images
- G06T3/147—Transformations for image registration, e.g. adjusting or mapping for alignment of images using affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Abstract
本发明涉及图像处理,揭露一种图像信息抽取方法,包括:获取初始图像,从所述初始图像中裁剪出关键区域,得到标准图像;对所述标准图像进行文本识别处理,得到文本信息;利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段;对所述目标字段进行格式化处理,得到目标信息。本发明还涉及区块链,所述目标信息可以存储在区块链节点中。本发明还提出一种图像信息抽取装置、电子设备以及存储介质。利用本发明可以提高图像信息抽取的准确度。
Description
技术领域
本发明涉及图像处理领域,尤其涉及一种图像信息抽取方法、装置、电子设备及存储介质。
背景技术
图像已经成为了人们日常交互的一种非常重要的信息载体,但是随着人们对智能生活的标准逐渐提升,怎么自动抽取图像中的信息为了人们日益关注的问题。
目前的图像抽取方法只能抽取图像中的所有信息,不能抽取用户需要的特定信息,准确率较低。
发明内容
本发明提供一种图像信息抽取方法、装置、电子设备及计算机可读存储介质,其主要目标在于提高图像信息抽取的准确率。
为实现上述目的,本发明提供的一种图像信息抽取方法,包括:
获取初始图像,从所述初始图像中裁剪出关键区域,得到标准图像;
对所述标准图像进行文本识别处理,得到文本信息;
利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段;
对所述目标字段进行格式化处理,得到目标信息。
可选地,所述从所述初始图像中裁剪出关键区域,得到标准图像,包括:
对所述初始图像进行边缘检测及图像裁剪,得到关键区域;
对所述关键区域进行图形矫正,得到所述标准图像。
可选地,所述对所述初始图像进行边缘检测及图像裁剪,得到关键区域,包括:
对所述初始图像进行高斯滤波,得到降噪图像;
计算所述降噪图像中每个像素点的梯度值,根据所述梯度值从所述降噪图像中的所有像素点中筛选边缘像素点;
提取所述降噪图像中所有边缘像素点组成的区域,得到所述关键区域。
可选地,所述利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段之前,还包括:
构建字段抽取模型;
获取历史文本信息集,对所述历史文本信息集进行预设字段的标记,得到训练集;
利用所述训练集对所述字段抽取模型进行迭代训练,直至所述字段抽取模型收敛,得到训练完成的字段抽取模型。
可选地,所述对所述历史文本信息集进行预设字段的标记,包括:
根据所述预设字段构建包含非预设字段字符标签、预设字段开始字符标签、预设字段中间字符标签的标签集合;
用所述标签集合中对应的标签对所述历史文本信息集中的每个字符进行标记,得到所述训练集。
可选地,所述构建字段抽取模型,包括:
利用预设的深度学习网络模型构建初始抽取模型;
在所述初始抽取模型中增加全连接网络,用于计算输入到所述初始抽取模型中的每个字符属于不同标签的概率,根据所述概率得到预设字段对应的字符组合;
在所述全连接网络之后加入序列化标注算法网络,用于对所述全连接网络得到的字符组合的顺序进行约束,得到所述字段抽取模型。
可选地,所述利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段,包括:
对所述文本信息集中的每个字符进行坐标点位置标记,得到字符信息集;
利用所述字段抽取模型对所述字符信息集进行字段抽取,到所述预设字段的开始字符及中间字符;
将所述预设的开始字符及中间字符按照序列顺序进行组合,得到所述的目标字段。
为了解决上述问题,本发明还提供一种图像信息抽取装置,所述装置包括:
图像处理模块,用于获取初始图像,从所述初始图像中裁剪出关键区域,得到标准图像;
文本处理模块,用于对所述标准图像进行文本识别处理,得到文本信息;
字段抽取模块,用于利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段;对所述目标字段进行格式化处理,得到目标信息。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的图像信息抽取方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的图像信息抽取方法。
本发明实施例中,获取初始图像,从所述初始图像中裁剪出关键区域,得到标准图像,提高了后续文本识别的准确率;对所述标准图像进行文本识别处理,得到文本信息;利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段,通过文本信息中的字符坐标信息提高了信息抽取的准确率;对所述目标字段进行格式化处理,得到目标信息,对目标字段进行格式规范,进一步提高了信息抽取的准确率。因此,本发明实施例提出的图像信息抽取方法、装置、电子设备及存储介质提高了图像信息抽取的准确率。
附图说明
图1为本发明一实施例提供的图像信息抽取方法的流程示意图;
图2为本发明一实施例提供的图像信息抽取方法中得到标准图像的详细流程示意图;
图3为本发明一实施例提供的图像信息抽取方法中得到训练完成的字段抽取模型的详细流程示意图;
图4为本发明一实施例提供的图像信息抽取装置的模块示意图;
图5为本发明一实施例提供的实现图像信息抽取方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种图像信息抽取方法。所述图像信息抽取方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述数据补录方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示的本发明一实施例提供的图像信息抽取方法的流程示意图。在本发明实施例中,所述数据补录方法包括:
S1、获取初始图像,从所述初始图像中裁剪出关键区域,得到标准图像;
本发明实施例中,所述初始图像为文档图像,如,通过相机等拍摄具有文字内容的文档得到图像,或者将具有文字内容的文档通过扫描、传真等方式转换得到的文档图像。进一步地,由于所述文档图像中可能会包括无关背景,所述无关背景及/或所述文档图像由于拍摄或者扫描等导致的质量不佳,会影响后续信息抽取的准确度,因此,本发明实施例从所述初始图像中裁剪出关键区域,得到标准图像。较佳地,本发明实施例中,所述关键区域为只包含文字内容的文档区域。
详细地,参阅图2所示,本发明实施例中,所述从所述初始图像中裁剪出关键区域,得到标准图像,包括:
S11、对所述初始图像进行边缘检测及图像裁剪,得到关键区域;
详细地,所述对所述初始图像进行边缘检测及图像裁剪,包括:对所述初始图像进行高斯滤波,以去掉所述图像中的图像噪声,得到降噪图像,避免图像噪声对后续处理的影响;及计算所述降噪图像中每个像素点的梯度值,根据所述梯度值从所述降噪图像中的所有像素点中筛选边缘像素点;提取所述降噪图像中所有边缘像素点围成的区域,得到所述关键区域。较佳地,本发明实施例中选择局部梯度值最大的像素点作为其中一个边缘像素点。例如,如一个像素点周围有8个像素点,在该九个像素点中选择梯度值比最大的像素点为其中一个边缘像素点。
S12、对所述关键区域进行图形矫正,得到所述标准图像。
由于拍摄角度倾斜等问题导致图像可能出现仿射形变及透视形变,因此,本发明实施例对所述关键区域进行图形矫正。
详细地,本发明实施例利用图形变换方法对所述关键区域进行图形矫正,其中所述图形变换方法,包括:旋转平移变换、仿射变换等。
S2、对所述标准图像进行文本识别处理,得到文本信息集;
为了获取所述标准图像中每个字符的文本信息,本发明实施例中,对所述标准图像进行文本识别处理。
详细地,本发明实施例中利用预设文本提取算法将所述标准图像中的每个字符及其字符坐标提取出来,得到对应的字符信息,其中,所述字符坐标为该字符在所述标准图像中的位置坐标;汇总所有的字符信息得到所述文本信息。本发明其中一个实施例中,所述文本提取算法为OCR算法。
S3、利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段;
本发明实施例中,所述文本信息集中的字符是杂乱的无意义的,因此,需要对所述文本信息集进行预设字段的提取。其中,所述预设字段为需要提取的字符组合的类型。例如,本发明其中一个实施例中所述预设字段包括:姓名、日期、金额;例如:所述文本信息集中字符包括“张”、“某三”“汽”、“车”,当所述预设字段为姓名时,提取所述文本信息集中姓名对应的字符组合“张某三”,得到目标字段。
详细地,参阅图3所示,本发明实施例中利用训练完成的字段抽取模型从所述文本信息集抽取预设字段,得到目标字段之前,还包括:
S31、构建字段抽取模型;
详细地,本发明实施例利用预设的深度学习网络模型构建初始抽取模型;较佳地,利用Bert base网络模型作为初始抽取模型,在所述初始抽取模型后面接一层全连接网络和一层序列化标注算法网络,得到所述字段抽取模型,即在所述初始抽取模型中增加全连接网络,用于计算输入到所述初始抽取模型中的每个字符属于不同标签的概率,根据所述概率得到预设字段对应的字符组合;及在所述全连接网络之后加入序列化标注算法网络,以对所述全连接网络得到的字符组合的顺序进行约束,得到所述字段抽取模型。例如:利用所述全连接网络计算字符“张”属于姓名字段的开始字符概率最高、计算字符“三”属于姓名字段中间字符的概率最高,因此,通过全连接层得到的姓名字段为“张三”或“三张”,由于全连接层不能确定字符组合的顺序,因此,本发明实施例通过序列化标注算法网络确定姓名字段开始字符应该在姓名中间字符前面,因此,得到姓名字段对应的最终字符组合为“张三”。
S32、获取历史文本信息集,对所述历史文本信息集进行预设字段标记,得到训练集;
本发明实施例中,所述历史文本信息集为不同的历史文本信息的集合,所述历史文本信息可以为与所述识别出来的文本信息具有不同内容但属于相同类型的数据。进一步地,本发明实施例使用BIO标记法对所述历史文本信息集进行预设字段标记,得到第一训练集。
详细地,所述对所述历史文本信息集进行预设字段标记,得到训练集,包括:根据预设字段构建构建包含非预设字段字符标签、预设字段开始字符标签、预设字段中间字符标签的标签集合,利用所述标签集合中对应的标签对所述历史文本信息集中的每个字符进行标记,得到训练集。例如:历史文本信息集包含的文本信息为“张某三向银行借款”,预设字段为姓名字段,标签集合包括:非姓名字段字符、姓名字段开始字符、姓名字段中间字符,那么利用标签集合对文本信息“张某三向银行借款”进行标记,“张”字符利用姓名字段开始字符标签标记为姓名字段开始字符、“某三”字符利用姓名字段中间字符标签标记为姓名字段中间字符,“向”字符利用非姓名字段字符标签标记为非姓名字段字符,“银行”字符利用非姓名字段字符标签标记为非姓名字段字符,“借款”字符利用非姓名字段字符标签标记为非姓名字段字符。
S33、利用所述训练集对所述字段抽取模型进行迭代训练,直至所述字段抽取模型收敛,得到训练完成的字段抽取模型。
进一步地,本发明实施例中为了区分不同位置的相同字符,选取所述文本信息集中的每个字符对应字符坐标中的左上角及右下角坐标,对所述文本信息集中的每个字符进行坐标点位置标记,得到字符信息集;利用所述字段抽取模型对所述字符信息集进行字段抽取,得到所述预设字段的开始字符及中间字符;将所述预设的开始字符及中间字符按照序列顺序进行组合,得到所述的目标字段。例如:预设字段为姓名字段,得到的姓名字段的开始字符为“李”、中间字符为“某四”,那么按照开始字符、中间字符的顺序,将字符“李”、“某四”组合得到目标字符“李某四”。
S4、对所述目标字段进行格式化处理,得到目标信息。
本发明实施例中所述目标字段的格式可能不符合预定格式,不方便查看利用,因此需要对所述对所述目标字段进行格式化处理。详细地,本发明实施例中对所述目标字段进行格式化处理,得到目标信息,包括:根据所述目标字段的类型,利用预设规则对所述目标字段进行格式化处理,得到标准目标字段;将所有的标准目标字段封装进预设的文档框架中得到目标信息。例如,所述目标字段中的目标字段的类型为金额,则所述预设规则为消除目标字段所有的“,”分隔符,将大于10位数且无货币单位的目标字段,直接丢弃,以排除误抽出电话号码或会员号码的可能性,若目标字段有其他货币单位的金额,则按照汇率处理不同货币单位的单位转换,然后格式化完成的目标字段封装进表格文档中的金额列中,得到目标信息。
本发明的另一实施例中,为了数据的隐私性,所述目标信息可以存储在区块链节点中。
如图4所示,是本发明图像信息抽取装置的功能模块图。
本发明所述图像信息抽取装置100可以安装于电子设备中。根据实现的功能,所述图像信息抽取装置可以包括图像处理模块101、文本处理模块102、字段抽取模块103。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述图像处理模块101用于获取初始图像,从所述初始图像中裁剪出关键区域,得到标准图像。
本发明实施例中,所述初始图像为文档图像,如,通过相机等拍摄具有文字内容的文档得到图像,或者将具有文字内容的文档通过扫描、传真等方式转换得到的文档图像。进一步地,由于所述文档图像中可能会包括无关背景,所述无关背景及/或所述文档图像由于拍摄或者扫描等导致的质量不佳,会影响后续信息抽取的准确度,因此,本发明实施例所述图像处理模块101从所述初始图像中裁剪出关键区域,得到标准图像。较佳地,本发明实施例中,所述关键区域为只包含文字内容的文档区域。
详细地,本发明实施例中,所述图像处理模块101利用如下手段从所述初始图像中裁剪出关键区域,得到标准图像,包括:
对所述初始图像进行边缘检测及图像裁剪,得到关键区域;
详细地,所述对所述初始图像进行边缘检测及图像裁剪,包括:对所述初始图像进行高斯滤波,以去掉所述图像中的图像噪声,得到降噪图像,避免图像噪声对后续处理的影响;及计算所述降噪图像中每个像素点的梯度值,根据所述梯度值从所述降噪图像中的所有像素点中筛选边缘像素点;提取所述降噪图像中所有边缘像素点围成的区域,得到所述关键区域。较佳地,本发明实施例中选择局部梯度值最大的像素点作为其中一个边缘像素点。例如,如一个像素点周围有8个像素点,在该九个像素点中选择梯度值比最大的像素点为其中一个边缘像素点。
对所述关键区域进行图形矫正,得到所述标准图像。
由于拍摄角度倾斜等问题导致图像可能出现仿射形变及透视形变,因此,本发明实施例对所述关键区域进行图形矫正。
详细地,本发明实施例利用图形变换方法对所述关键区域进行图形矫正,其中所述图形变换方法,包括:旋转平移变换、仿射变换等。
所述文本处理模块102用于对所述标准图像进行文本识别处理,得到文本信息。
为了获取所述标准图像中每个字符的文本信息,本发明实施例中,所述文本处理模块102对所述标准图像进行文本识别处理。
详细地,本发明实施例中所述文本处理模块102利用预设文本提取算法将所述标准图像中的每个字符及其字符坐标提取出来,得到对应的字符信息,其中,所述字符坐标为该字符在所述标准图像中的位置坐标;汇总所有的字符信息得到所述文本信息。本发明其中一个实施例中,所述文本提取算法为OCR算法。
所述字段抽取模块103用于利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段;对所述目标字段进行格式化处理,得到目标信息。
本发明实施例中,所述文本信息集中的字符是杂乱的无意义的,因此,需要对所述文本信息集进行预设字段的提取。其中,所述预设字段为需要提取的字符组合的类型。例如,本发明其中一个实施例中所述预设字段包括:姓名、日期、金额;例如:所述文本信息集中字符包括“张”、“某三”“汽”、“车”,当所述预设字段为姓名时,提取所述文本信息集中姓名对应的字符组合“张某三”,得到目标字段。
详细地,本发明实施例中所述字段抽取模块103利用训练完成的字段抽取模型从所述文本信息集抽取预设字段,得到目标字段之前,还需要进行下述步骤,包括:
构建字段抽取模型;
详细地,本发明实施例利用预设的深度学习网络模型构建初始抽取模型;较佳地,利用Bert base网络模型作为初始抽取模型,在所述初始抽取模型后面接一层全连接网络和一层序列化标注算法网络,得到所述字段抽取模型,即在所述初始抽取模型中增加全连接网络,用于计算输入到所述初始抽取模型中的每个字符属于不同标签的概率,根据所述概率得到预设字段对应的字符组合;及在所述全连接网络之后加入序列化标注算法网络,以对所述全连接网络得到的字符组合的顺序进行约束,得到所述字段抽取模型。例如:利用所述全连接网络计算字符“张”属于姓名字段的开始字符概率最高、计算字符“三”属于姓名字段中间字符的概率最高,因此,通过全连接层得到的姓名字段为“张三”或“三张”,由于全连接层不能确定字符组合的顺序,因此,本发明实施例通过序列化标注算法网络确定姓名字段开始字符应该在姓名中间字符前面,因此,得到姓名字段对应的最终字符组合为“张三”。
获取历史文本信息集,对所述历史文本信息集进行预设字段标记,得到训练集;
本发明实施例中,所述历史文本信息集为不同的历史文本信息的集合,所述历史文本信息可以为与所述识别出来的文本信息具有不同内容但属于相同类型的数据。进一步地,本发明实施例使用BIO标记法对所述历史文本信息集进行预设字段标记,得到第一训练集。
详细地,所述对所述历史文本信息集进行预设字段标记,得到训练集,包括:根据预设字段构建构建包含非预设字段字符标签、预设字段开始字符标签、预设字段中间字符标签的标签集合,利用所述标签集合中对应的标签对所述历史文本信息集中的每个字符进行标记,得到训练集。例如:历史文本信息集包含的文本信息为“张某三向银行借款”,预设字段为姓名字段,标签集合包括:非姓名字段字符、姓名字段开始字符、姓名字段中间字符,那么利用标签集合对文本信息“张某三向银行借款”进行标记,“张”字符利用姓名字段开始字符标签标记为姓名字段开始字符、“某三”字符利用姓名字段中间字符标签标记为姓名字段中间字符,“向”字符利用非姓名字段字符标签标记为非姓名字段字符,“银行”字符利用非姓名字段字符标签标记为非姓名字段字符,“借款”字符利用非姓名字段字符标签标记为非姓名字段字符。
利用所述训练集对所述字段抽取模型进行迭代训练,直至所述字段抽取模型收敛,得到训练完成的字段抽取模型。
进一步地,本发明实施例中为了区分不同位置的相同字符,选取所述文本信息集中的每个字符对应字符坐标中的左上角及右下角坐标,对所述文本信息集中的每个字符进行坐标点位置标记,得到字符信息集;利用所述字段抽取模型对所述字符信息集进行字段抽取,得到所述预设字段的开始字符及中间字符;将所述预设的开始字符及中间字符按照序列顺序进行组合,得到所述的目标字段。例如:预设字段为姓名字段,得到的姓名字段的开始字符为“李”、中间字符为“某四”,那么按照开始字符、中间字符的顺序,将字符“李”、“某四”组合得到目标字符“李某四”。
本发明实施例中所述目标字段的格式可能不符合预定格式,不方便查看利用,因此需要对所述对所述目标字段进行格式化处理。详细地,本发明实施例中所述字段抽取模块103利用下述手段对所述目标字段进行格式化处理,得到目标信息,包括:根据所述目标字段的类型,利用预设规则对所述目标字段进行格式化处理,得到标准目标字段;将所有的标准目标字段封装进预设的文档框架中得到目标信息。例如,所述目标字段中的目标字段的类型为金额,则所述预设规则为消除目标字段所有的“,”分隔符,将大于10位数且无货币单位的目标字段,直接丢弃,以排除误抽出电话号码或会员号码的可能性,若目标字段有其他货币单位的金额,则按照汇率处理不同货币单位的单位转换,然后格式化完成的目标字段封装进表格文档中的金额列中,得到目标信息。
本发明的另一实施例中,为了数据的隐私性,所述目标信息可以存储在区块链节点中。
如图5所示,是本发明实现图像信息抽取方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如图像信息抽取程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如图像信息抽取程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如图像信息抽取程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的图像信息抽取程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
获取初始图像,从所述初始图像中裁剪出关键区域,得到标准图像;
对所述标准图像进行文本识别处理,得到文本信息;
利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段;
对所述目标字段进行格式化处理,得到目标信息。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还可以提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取初始图像,从所述初始图像中裁剪出关键区域,得到标准图像;
对所述标准图像进行文本识别处理,得到文本信息;
利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段;
对所述目标字段进行格式化处理,得到目标信息。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目标。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种图像信息抽取方法,其特征在于,所述方法包括:
获取初始图像,从所述初始图像中裁剪出关键区域,得到标准图像;
对所述标准图像进行文本识别处理,得到文本信息;
利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段;
对所述目标字段进行格式化处理,得到目标信息。
2.如权利要求1所述的图像信息抽取方法,其特征在于,所述从所述初始图像中裁剪出关键区域,得到标准图像,包括:
对所述初始图像进行边缘检测及图像裁剪,得到关键区域;
对所述关键区域进行图形矫正,得到所述标准图像。
3.如权利要求2所述的图像信息抽取方法,其特征在于,所述对所述初始图像进行边缘检测及图像裁剪,得到关键区域,包括:
对所述初始图像进行高斯滤波,得到降噪图像;
计算所述降噪图像中每个像素点的梯度值,根据所述梯度值从所述降噪图像中的所有像素点中筛选边缘像素点;
提取所述降噪图像中所有边缘像素点组成的区域,得到所述关键区域。
4.如权利要求1所述的图像信息抽取方法,其特征在于,所述利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段之前,还包括:
构建字段抽取模型;
获取历史文本信息集,对所述历史文本信息集进行预设字段的标记,得到训练集;
利用所述训练集对所述字段抽取模型进行迭代训练,直至所述字段抽取模型收敛,得到训练完成的字段抽取模型。
5.如权利要求4所述的图像信息抽取方法,其特征在于,所述对所述历史文本信息集进行预设字段的标记,包括:
根据所述预设字段构建包含非预设字段字符标签、预设字段开始字符标签、预设字段中间字符标签的标签集合;
用所述标签集合中对应的标签对所述历史文本信息集中的每个字符进行标记,得到所述训练集。
6.如权利要求5所述的图像信息抽取方法,其特征在于,所述构建字段抽取模型,包括:
利用预设的深度学习网络模型构建初始抽取模型;
在所述初始抽取模型中增加全连接网络,用于计算输入到所述初始抽取模型中的每个字符属于不同标签的概率,根据所述概率得到预设字段对应的字符组合;
在所述全连接网络之后加入序列化标注算法网络,用于对所述全连接网络得到的字符组合的顺序进行约束,得到所述字段抽取模型。
7.如权利要求1至6中任意一项所述的图像信息抽取方法,其特征在于,所述利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段,包括:
对所述文本信息集中的每个字符进行坐标点位置标记,得到字符信息集;
利用所述字段抽取模型对所述字符信息集进行字段抽取,到所述预设字段的开始字符及中间字符;
将所述预设的开始字符及中间字符按照序列顺序进行组合,得到所述的目标字段。
8.一种图像信息抽取装置,其特征在于,所述装置包括:
图像处理模块,用于获取初始图像,从所述初始图像中裁剪出关键区域,得到标准图像;
文本处理模块,用于对所述标准图像进行文本识别处理,得到文本信息;
字段抽取模块,用于利用训练完成的字段抽取模型从所述文本信息集中抽取预设字段,得到目标字段;对所述目标字段进行格式化处理,得到目标信息。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的图像信息抽取方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的图像信息抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011508414.7A CN112528984A (zh) | 2020-12-18 | 2020-12-18 | 图像信息抽取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011508414.7A CN112528984A (zh) | 2020-12-18 | 2020-12-18 | 图像信息抽取方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112528984A true CN112528984A (zh) | 2021-03-19 |
Family
ID=75001787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011508414.7A Pending CN112528984A (zh) | 2020-12-18 | 2020-12-18 | 图像信息抽取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528984A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860905A (zh) * | 2021-04-08 | 2021-05-28 | 深圳壹账通智能科技有限公司 | 文本信息抽取方法、装置、设备及可读存储介质 |
CN113191456A (zh) * | 2021-05-26 | 2021-07-30 | 平安信托有限责任公司 | 基于文本识别技术的单证生成方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6460015B1 (en) * | 1998-12-15 | 2002-10-01 | International Business Machines Corporation | Method, system and computer program product for automatic character transliteration in a text string object |
CN107133621A (zh) * | 2017-05-12 | 2017-09-05 | 江苏鸿信系统集成有限公司 | 基于ocr的格式化传真的分类和信息提取方法 |
CN110543844A (zh) * | 2019-08-26 | 2019-12-06 | 中电科大数据研究院有限公司 | 一种政务元数据pdf文件的元数据抽取方法 |
CN111897831A (zh) * | 2020-07-31 | 2020-11-06 | 平安普惠企业管理有限公司 | 业务报文的生成方法、装置、电子设备及存储介质 |
CN112052858A (zh) * | 2020-09-02 | 2020-12-08 | 中国银行股份有限公司 | 票据图像中目标字段的提取方法及相关装置 |
-
2020
- 2020-12-18 CN CN202011508414.7A patent/CN112528984A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6460015B1 (en) * | 1998-12-15 | 2002-10-01 | International Business Machines Corporation | Method, system and computer program product for automatic character transliteration in a text string object |
CN107133621A (zh) * | 2017-05-12 | 2017-09-05 | 江苏鸿信系统集成有限公司 | 基于ocr的格式化传真的分类和信息提取方法 |
CN110543844A (zh) * | 2019-08-26 | 2019-12-06 | 中电科大数据研究院有限公司 | 一种政务元数据pdf文件的元数据抽取方法 |
CN111897831A (zh) * | 2020-07-31 | 2020-11-06 | 平安普惠企业管理有限公司 | 业务报文的生成方法、装置、电子设备及存储介质 |
CN112052858A (zh) * | 2020-09-02 | 2020-12-08 | 中国银行股份有限公司 | 票据图像中目标字段的提取方法及相关装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860905A (zh) * | 2021-04-08 | 2021-05-28 | 深圳壹账通智能科技有限公司 | 文本信息抽取方法、装置、设备及可读存储介质 |
CN113191456A (zh) * | 2021-05-26 | 2021-07-30 | 平安信托有限责任公司 | 基于文本识别技术的单证生成方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476324B (zh) | 基于人工智能的交通数据标注方法、装置、设备及介质 | |
CN111652845A (zh) | 异常细胞自动标注方法、装置、电子设备及存储介质 | |
CN112052850A (zh) | 车牌识别方法、装置、电子设备及存储介质 | |
CN112541443B (zh) | 发票信息抽取方法、装置、计算机设备及存储介质 | |
CN112396005A (zh) | 生物特征图像识别方法、装置、电子设备及可读存储介质 | |
CN112528616B (zh) | 业务表单生成方法、装置、电子设备及计算机存储介质 | |
CN112861648A (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN111476225B (zh) | 基于人工智能的车内人脸识别方法、装置、设备及介质 | |
CN112528984A (zh) | 图像信息抽取方法、装置、电子设备及存储介质 | |
CN114708461A (zh) | 基于多模态学习模型的分类方法、装置、设备及存储介质 | |
CN111931729B (zh) | 基于人工智能的行人检测方法、装置、设备及介质 | |
CN112860905A (zh) | 文本信息抽取方法、装置、设备及可读存储介质 | |
CN112668575A (zh) | 关键信息提取方法、装置、电子设备及存储介质 | |
CN111814743A (zh) | 笔迹识别方法、装置及计算机可读存储介质 | |
CN112862703B (zh) | 基于移动拍照的图像校正方法、装置、电子设备及介质 | |
CN112560855A (zh) | 图像信息提取方法、装置、电子设备及存储介质 | |
CN111985491A (zh) | 基于深度学习的相似信息合并方法、装置、设备及介质 | |
CN115409041B (zh) | 一种非结构化数据提取方法、装置、设备及存储介质 | |
CN113536782B (zh) | 敏感词识别方法、装置、电子设备及存储介质 | |
CN114186540A (zh) | 邮件内容智能填充方法、装置、电子设备及存储介质 | |
CN113255456B (zh) | 非主动活体检测方法、装置、电子设备及存储介质 | |
CN114913518A (zh) | 基于图像处理的车牌识别方法、装置、设备及介质 | |
CN114943306A (zh) | 意图分类方法、装置、设备及存储介质 | |
CN113869385A (zh) | 基于目标检测的海报比对方法、装置、设备及存储介质 | |
CN113486646A (zh) | 产品报告发布方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |